CN101499300A - 一种基于空间音频参数的音频关注度分析装置 - Google Patents

一种基于空间音频参数的音频关注度分析装置 Download PDF

Info

Publication number
CN101499300A
CN101499300A CNA2009100609822A CN200910060982A CN101499300A CN 101499300 A CN101499300 A CN 101499300A CN A2009100609822 A CNA2009100609822 A CN A2009100609822A CN 200910060982 A CN200910060982 A CN 200910060982A CN 101499300 A CN101499300 A CN 101499300A
Authority
CN
China
Prior art keywords
frame
attention rate
present frame
normalization
spatial audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100609822A
Other languages
English (en)
Other versions
CN101499300B (zh
Inventor
胡瑞敏
杭波
董石
马晔
杜希
陈水仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN2009100609822A priority Critical patent/CN101499300B/zh
Publication of CN101499300A publication Critical patent/CN101499300A/zh
Application granted granted Critical
Publication of CN101499300B publication Critical patent/CN101499300B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

一种基于空间音频参数的音频关注度分析装置,用于使用多声道的输入信号来判别是否有关注音频,包括有取样模块,用于取样来自音频输入设备的多声道输入信号,得到当前帧的信号;空间音频参数提取模块,用于将信号变换到频域,然后将此频域上的当前帧的信号划分为多个子带并计算子带的空间音频参数,得出当前帧的空间音频参数;关注度计算模块,用于根据当前帧的空间音频参数结合距当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度;归一化计算模块,用于对当前帧的关注度进行归一化;关注帧判断模块,用于根据当前帧的归一化关注度判断是否关注帧。本发明考虑了音频的空间方位信息的变化和背景音频变化的影响,可准确分析音频关注度。

Description

一种基于空间音频参数的音频关注度分析装置
技术领域
本发明涉及一种基于空间音频参数的音频关注度分析装置,更具体的,涉及基于多声道音频提取空间音频参数的音频关注度分析装置。
背景技术
在空间音频编码技术里,空间音频参数表达了多声道(含立体声)音频中蕴涵的空间信息,如双耳声强差、双耳时间差、双耳相关度。
其中双耳声强差(Interaural Level Difference,以下简称ILD)参数表达了声道间强差对声源方向定位的影响。简单说来,如果左耳感受到的声音强度比右耳的大,那么听音人会觉得声音来自左侧方向,反之亦然。
双耳时间差(Interaural Time Difference,以下简称ITD)参数表达了声道间时间差对声源方向定位的影响。简单说来,从声源发出的声音到达人的左耳和右耳时,有一个先后的过程,这段时间差就是双耳时间差。它的原理是:如果一个声音到达双耳的时间是同时的,那么听者就觉得这个声音处在正中间的位置;倘若声音到达左耳先于到达右耳,听者人就觉得声源偏左,反之亦然。。
双耳相关度(Interaural Correlation,以下简称IC)参数控制着声场宽度,在实际编码应用中被定义为声道间的相关系数,其数值在0和1之间。简单说来,当IC较小时,声道间信号相关性较小,双耳感知到的是面声源,给人一种开阔的听觉感受;当IC较大时,声道间信号相关性较大,双耳感知到的是点声源,给人一种集中的听觉感受。
关注度是人类对对象的关注程度。当前关注度计算按照研究方法分为自顶向下方法和自底向上方法两种。自顶向下方法根据人们对特定类别对象,比如视频中的闪光、音频中的爆炸声,具有不同的关注度,通过将对象进行分类判别来确定对象是否是所关注的对象;自底向上方法是根据人类对对象的特征,比如能量、频率、颜色的关注,通过将对象的特征进行分析来确定对象是否是被关注的对象。
音频关注度是针对音频对象及特征的关注度。现有基于自底向上方法的音频关注度所关注的音频特征,包括:
归一化短时平均能量:Ea=Eavr/MaxEavr
其中Eavr是一帧信号的平均能量,MaxEavr是一段时间内各帧平均能量中的最大值,Ea是一帧信号的归一化的平均能量,即归一化短时平均能量。
归一化能量峰值:Ep=Epeak/MaxEpeak
其中Epeak是一帧信号中的能量峰值,MaxEpeak是一段时间内信号能量的最大值,Ep是一帧信号的归一化能量峰值,用来度量能量的突然增大或减小。
归一化的音频节奏: AP ( n ) - μ AP δ AP
其中 AP ( n ) = N AP N f . AP(n)是音频节奏;NAP为高于阈值ThAP的音频峰的个数,ThAP由经验值设定;Nf是帧数;μAP是AP(n)的均值,σAP是AP(n)的均方差。归一化的音频节奏代表了音频的紧张或者激烈程度。
当音频对象上述特征无明显变化,而空间方位快速变化时,该音频对象引起较高关注。现有基于自底向上方法的音频关注度由于提取时没有考虑对象的空间方位信息的变化,无法表征方位快速变化的音频对象。此外,现有自底向上的音频关注度分析在提取音频特征时,未考虑背景音频特征在不同情景下的变化,导致关注度定量分析不准确。因此,提供新的音频关注度分析方案,是本技术领域亟待解决的问题。
发明内容
本发明依据空间音频参数提出了一种新的音频关注度分析装置,目的在于能够准确进行音频关注度分析,有效的解决现有技术在分析音频关注度时没有考虑音频的空间方位信息的变化和背景音频变化对关注度的影响这两个缺陷。
本发明的技术方案为一种基于空间音频参数的音频关注度分析装置,包括以下部分:
取样模块,用于取样来自音频输入设备的多声道输入信号,得到当前帧的信号;
空间音频参数提取模块,用于将取样模块所得当前帧的信号由时域变换到频域,然后对此频域上的当前帧的信号划分子带并计算每个子带的空间音频参数,得出当前帧的空间音频参数;
关注度计算模块,用于根据空间音频参数提取模块所得当前帧的空间音频参数结合距当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度;
归一化计算模块,用于对关注度计算模块所得当前帧的关注度进行归一化,得到当前帧的归一化关注度;
关注帧判断模块,用于对归一化计算模块所得当前帧的归一化关注度进行判断,根据判断结果得到当前帧是不是关注帧;
取样模块的输出连接空间音频参数提取模块的输入,取样模块所得当前帧的信号通过该连接输入到空间音频参数提取模块;空间音频参数提取模块的输出连接关注度计算模块的输入,空间音频参数提取模块所得当前帧的空间音频参数通过该连接输入到关注度计算模块;关注度计算模块的输出连接归一化计算模块的输入,关注度计算模块所得当前帧的关注度通过该连接输入到归一化计算模块;归一化计算模块输出连接关注帧判断模块的输入,归一化计算模块所得当前帧的归一化关注度通过该连接输入到关注帧判断模块;
关注帧判断模块的一路输出连接归一化计算模块,当关注帧判断模块判断当前帧是非关注帧时,当前帧为非关注帧的判断结果经该连接送入归一化计算模块,用于归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧;当关注帧判断模块判断当前帧是关注帧时,另一路输出当前帧为关注帧的判断结果。
而且,所述关注度计算模块计算当前帧的关注度具体实现过程如下,
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差;
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均值μk
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均方差σk
最后,当前帧的关注度按以下公式计算:
ak=α|μk|βσk或ak=α|μk|+βσk
其中α与β分别为μk与σk的调整因子。
而且,记当前帧为第k帧、与当前帧之前时间间隔ΔT所在帧为第帧,其中tf为每一帧的时间长度;所述关注度计算模块中设置空间音频参数队列Q1,空间音频参数队列Q1用于存储第
Figure A200910060982D00091
帧至第k帧的空间音频参数,用于计算第k帧与第
Figure A200910060982D00092
帧的空间音频参数的差值。
而且,所述空间音频参数队列Q1具有初始值,用于当前帧为第1至第
Figure A200910060982D00093
帧时进行当前帧的关注度计算。
而且,所述归一化计算模块中设置长度为n的非关注帧队列Q2,用于存储当前帧的前n个非关注帧的关注度,以便归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧;归一化计算模块收到关注帧判断模块所发当前帧为非关注帧的判断结果时,将当前帧的关注度置入非关注帧队列Q2
而且,所述非关注帧队列Q2具有初始值,用于对初始n个非关注帧以及第n个非关注帧之前的每个关注帧的关注度进行归一化计算。
而且,记当前帧为第k帧,非关注帧队列Q2中所存前n个非关注帧的关注度构成关注度矢量An={a1,a2,…an-1,an};
所述归一化计算模块求取当前帧的归一化关注度按以下公式:
M k = Max [ a k - μ Ak σ Ak , 0 ]
其中μAk为An的均值,即 μ Ak = 1 n Σ i = 1 n a i ; 其中σAk=Max(aiAk),ai∈(An∪{ak})。
而且,所述关注帧判断模块中预设有阈值M,对当前帧的归一化关注度进行判断时,若归一化计算模块所得当前帧的归一化关注度Mk大于或等于阈值M,则判断当前帧为关注帧,否则判断当前帧为非关注帧。
本发明由一空间音频参数提取模块计算空间音频参数,然后由关注度计算模块得到当前帧的关注度,再通过归一化模块获得归一化关注度,最后由关注帧判断模块判断当前帧是否为关注帧。本发明考虑了音频的空间方位信息的变化和背景音频变化的影响,能够用于准确分析音频关注度,在空间音频编码应用领域具有重要作用。
附图说明
图1本发明的装置结构图;
图2本发明实施例的装置结构图;
图3本发明原理图;
图4本发明实施例中关注度的计算流程图;
图5本发明实施例中归一化关注度计算流程图;
图6本发明实施例中关注帧判断模块的工作流程图;
图7本发明实施例的整体流程图;
图8本发明实施例中非关注帧队列的示意图。
具体实施方式
本发明提供的基于空间音频参数的音频关注度分析装置包括以下部分:
取样模块
该模块用于取样来自音频输入设备的多声道输入信号,得到当前帧的信号。本发明所称的多声道输入信号包括双声道输入信号(及立体声),及更多声道的输入信号。音频输入设备一般采用麦克风,音频采样属于现有技术,本发明不予赘述。取样模块可以从多声道输入信号取样完毕后逐帧送往其他模块处理,也可以边取样边将取得的帧信号送往其他模块处理。因为是逐帧进行处理,当前正在处理的帧被称为当前帧。
空间音频参数提取模块
该模块用于将取样模块所得当前帧的信号由时域变换到频域,然后对此频域上的当前帧的信号划分子带并计算每个子带的空间音频参数,得出当前帧的空间音频参数,例如ILD、ITD、IC等。划分子带的数目可根据需要设定为一个或多个,建议采用现有音频技术中的Bark带划分规则分为24个子带。
关注度计算模块
该模块用于根据空间音频参数提取模块所得当前帧的空间音频参数结合距当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度。具体实施时,时间间隔的长度ΔT可以根据需要设定,从而提取当前帧之前的某个帧的空间音频参数;或者直接指定当前帧之前的某个帧,提取该帧的空间音频参数。在每帧时长一定的情况下,这两种方式是等同的。
本发明提供了一种关注度计算模块计算当前帧的关注度具体实现过程如下,
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差;
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均值μk
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均方差σk
最后,当前帧的关注度按以下公式计算:
ak=α|μk|βσk或ak=α|μk|+βσk
其中α与β分别为μk与σk的调整因子,具体实施时可以依照经验值或实验取值。
为了能够用当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度,关注度计算模块中需要存有当前帧之前ΔT时间间隔所在帧的空间音频参数,在逐帧处理的情况下,还需要考虑暂存当前帧的空间音频参数为计算ΔT后的当前帧的关注度提供条件。本发明提供了进一步技术方案,采用缓存队列方式管理空间音频参数:记当前帧为第k帧、与当前帧之前时间间隔ΔT所在帧为第
Figure A200910060982D00121
帧,其中tf为每一帧的时间长度;所述关注度计算模块中设置空间音频参数队列Q1,空间音频参数队列Q1用于存储第
Figure A200910060982D00122
帧至第k帧的空间音频参数,用于计算第k帧与第
Figure A200910060982D00123
帧的空间音频参数的差值。当第k帧作为当前帧求取完关注度时,空间音频参数队列Q1的存储内容为第
Figure A200910060982D00124
帧的空间音频参数、第
Figure A200910060982D00125
帧的空间音频参数…第k—1帧的空间音频参数;当第k帧作为当前帧求取完关注度后,开始处理下一帧,也就是当前帧为第k+1帧。此时需要求取第k+1帧的空间音频参数与第
Figure A200910060982D00126
帧的空间音频参数的矢量差。该第k+1帧的空间音频参数送入空间音频参数队列Q1。空间音频参数队列Q1内最前面的第
Figure A200910060982D00127
帧的空间音频参数移除,空间音频参数队列Q1的存储内容变为第
Figure A200910060982D00128
帧的空间音频参数…第k帧的空间音频参数、第k+1帧的空间音频参数。
在采用缓存队列方式管理空间音频参数时,当前帧为第1至第
Figure A200910060982D00129
帧时缺乏当前帧之前ΔT时间间隔所在帧,因此本发明进行了初始设置处理:所述空间音频参数队列Q1具有初始值,用于当前帧为第1至第
Figure A200910060982D00131
帧时进行当前帧的空间参数矢量差计算。空间音频参数队列Q1的初始值可根据实验所得经验值设定。
归一化计算模块
该模块用于对关注度计算模块所得当前帧的关注度进行归一化,得到当前帧的归一化关注度。对当前帧的关注度进行归一化需要有参考对象,本发明创造性的提出参考非关注帧进行归一化。非关注帧的信息来自于关注帧判断模块的反馈,因此该归一化计算模块的具体实现需配合关注帧判断模块。
关注帧判断模块
该模块用于对归一化计算模块所得当前帧的归一化关注度进行判断,根据判断结果得到当前帧是不是关注帧。若当前帧为关注帧则标记当前帧为关注帧,否则标记当前帧为非关注帧。具体实施时可采用阈值判断方式实现关注帧判断,例如在关注帧判断模块中预设阈值M,若当前帧的归一化关注度Mk大于或等于阈值M,则判断当前帧为关注帧,否则判断当前帧为非关注帧。阈值M可根据关注范围需要设定,例如考虑不同音频的特点而需要调整关注范围。
以上各模块的连接主要是信息传递的连接,参见附图1:取样模块的输出连接空间音频参数提取模块的输入,取样模块所得当前帧通过该连接输入到空间音频参数提取模块;空间音频参数提取模块的输出连接关注度计算模块的输入,空间音频参数提取模块所得当前帧的空间音频参数通过该连接输入到关注度计算模块;关注度计算模块的输出连接归一化计算模块的输入,关注度计算模块所得当前帧的关注度通过该连接输入到归一化计算模块;归一化计算模块输出连接关注帧判断模块的输入,归一化计算模块所得当前帧的归一化关注度通过该连接输入到关注帧判断模块。而关注帧判断模块的一路输出连接归一化计算模块,当关注帧判断模块判断当前帧是非关注帧时,当前帧为非关注帧的判断结果经该连接送入归一化计算模块,用于归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧;当关注帧判断模块判断当前帧是关注帧时,另一路输出当前帧为关注帧的判断结果。各模块的连接支持实现关注度分析的整个过程,参见附图3,采用本发明所提供装置实现分析的基本原理可简单总结为:多声道输入信号输入,取样模块,取样得到当前帧的信号;空间音频参数提取模块,提取信号的空间参数(如ILD、ITD或IC);关注度计算模块,用空间参数计算关注度;归一化计算模块,将计算出的关注度归一化;关注帧判断模块根据设定阈值判断当前帧是为关注帧或非关注帧。
由于归一化计算模块中需要用到当前帧之前的非关注帧,也可以采用缓存队列方式管理关注度:归一化计算模块中设置长度为n的非关注帧队列Q2,用于存储当前帧的前n个非关注帧的关注度,以便归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧;归一化计算模块收到关注帧判断模块所发当前帧为非关注帧的判断结果时,将当前帧的关注度置入非关注帧队列Q2。在采用缓存队列方式管理关注度时,也可为非关注帧队列Q2设置初始值,以便对初始n个非关注帧以及第n个非关注帧之前的每个关注帧的关注度进行归一化计算,方便保持归一化处理一致性,防止出错。非关注帧队列Q2的初始值可根据实验所得经验值设定。
归一化计算模块所需的非关注帧的关注度,可以由关注帧判断模块提供的当前帧为非关注帧的判断结果触发后存入归一化计算模块内设的非关注帧队列Q2,供归一化计算模块自行调用;也可以在归一化计算模块之外设置非关注帧队列Q2,例如在归一化计算模块和关注帧判断模块之间加设存储模块以实现非关注帧队列Q2、或者在关注帧判断模块中设置非关注帧队列Q2。第二种情况的关注度信息传递比较复杂,但是效果一样:需要当关注帧判断模块判断出非关注帧时,将其关注度送入非关注帧队列Q2;在归一化计算模块需要该关注度时,从非关注帧队列Q2调出。参见附图2,本发明提供了第二种情况的实施例,不仅增加了实现非关注帧队列Q2的存储模块,还需要连接关注度计算模块和关注帧判断模块,以便将非关注帧的关注度通过关注帧判断模块存入非关注帧队列Q2
本发明提供了归一化关注度求取方案:记当前帧为第k帧,非关注帧队列Q2中所存前n个非关注帧的关注度构成关注度矢量An={a1,a2,…an-1,an},可参见附图8中的队列输入输出方向;
所述归一化计算模块求取当前帧的归一化关注度按以下公式:
M k = Max [ a k - μ Ak σ Ak , 0 ]
其中μAk为An的均值,即 μ Ak = 1 n Σ i = 1 n a i ; 其中σAk=Max(aiAk),ai∈(An∪{ak})。
参见附图7,为了便于实施参考,本发明提供了实施例的具体流程,包括以下步骤:
(1)由取样模块取样来自麦克风的信号,采样率为32000Hz;
(2)将(1)中取样所得的第k帧的信号经FFT变换由时域变换到频域,并划分为24个子带,信号每帧时长tf为20ms。由空间音频参数提取模块计算由(1)取样所得的第k帧在频域上每个子带的空间音频参数双耳声强差ILD。根据ILD计算式(公式8)可得第i个子带上ILD的值si
s i = 10 lg I iL I iR , i ∈ [ 1,24 ]                 (公式8)
其中IiL和IiR分别为第i帧的每个子带上左声道与右声道能量值(公式9),
I iL = Σ 1 N [ s L ( n ) ] 2 , I iR = Σ 1 N [ s R ( n ) ] 2               (公式9)
其中sL(n)和sR(n)分别为第i帧左声道和右声道采样信号,N为每一帧的采样点数,由(1)得N=640。
提取所得的ILD为一24维矢量Sk={s1,s2,…s23,s24},即X=24。
(3)参见附图4,首先根据时间间隔ΔT和每一帧的时间长度tf计算出第
Figure A200910060982D00162
帧,即由关注度计算模块根据(2)所得的第k帧的ILD结合第k帧前0.1s时间间隔所在帧即第k-5帧的ILD计算第k帧的关注度ak。第k-5帧至第k帧的ILD存入一队列Q1,队列长度为6,用于计算第k帧与第k-5帧的空间音频参数差值。当第k帧的ILD入队列后,Q1队首值为Sk,队尾值为Sk-5,首先计算第k帧与第k-5帧空间音频参数的矢量差(公式10),Dk={d1,d2,…d23,d24},
Dk=Sk-Sk-5                               (公式10)
然后计算Dk的均值μk(公式11)和均方差σk(公式12),ak由μk和σk得到(公式13)。
μ k = 1 24 Σ i = 1 24 d i                                 (公式11)
σ k = Σ i = 1 24 ( d i - μ k ) 2 24                              (公式12)
ak=α|μk|βσk                             (公式13)
ak的计算中(公式13)α与β分别为μk与σk的调整因子,此处α=1,β=1。
当前帧关注度计算完成之后,继续读取下一帧ILD并入队列Q1
以上所述队列Q1具有初始值,用于对第1至第5帧进行上述计算。此初始值可以设置为实验所得的经验值。
(4)参见附图5,由归一化计算模块对(3)所得关注度进行归一化。使用一个非关注帧队列Q2存储当前帧之前1000个非关注帧的关注度数据A1000={a1,a2,…,a999,a1000},即n=1000。且该非关注帧队列具有一初始值。本步骤中所述归一化计算模块由归一化计算公式(公式14)计算第k帧的归一化关注度。
M k = Max [ a k - μ Ak σ Ak , 0 ]                            (公式14)
μAk为A1000的均值(公式15),σAk为非关注帧队列Q2内所有非关注帧的关注度与μAk差值的最大值(公式16)。
μ Ak = 1 1000 Σ i = 1 1000 a i                              (公式15)
σAk=Max(aiAk)ai∈(A1000∪{ak})        (公式16)
(5)参见附图6,由关注帧判断模块对(4)得到的归一化关注度Mk进行判断。设定一阈值M=0.7,若Mk≥M,则第k帧为关注帧,反之第k帧为非关注帧,ak置入队列Q2,用于计算下一帧的归一化关注度。

Claims (8)

1.一种基于空间音频参数的音频关注度分析装置,其特征是:包括以下部分,
取样模块,用于取样来自音频输入设备的多声道输入信号,得到当前帧的信号;
空间音频参数提取模块,用于将取样模块所得当前帧的信号由时域变换到频域,然后对此频域上的当前帧的信号划分子带并计算每个子带的空间音频参数,得出当前帧的空间音频参数;
关注度计算模块,用于根据空间音频参数提取模块所得当前帧的空间音频参数结合距当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度;
归一化计算模块,用于对关注度计算模块所得当前帧的关注度进行归一化,得到当前帧的归一化关注度;
关注帧判断模块,用于对归一化计算模块所得当前帧的归一化关注度进行判断,根据判断结果得到当前帧是不是关注帧;
取样模块的输出连接空间音频参数提取模块的输入,取样模块所得当前帧的信号通过该连接输入到空间音频参数提取模块;空间音频参数提取模块的输出连接关注度计算模块的输入,空间音频参数提取模块所得当前帧的空间音频参数通过该连接输入到关注度计算模块;关注度计算模块的输出连接归一化计算模块的输入,关注度计算模块所得当前帧的关注度通过该连接输入到归一化计算模块;归一化计算模块输出连接关注帧判断模块的输入,归一化计算模块所得当前帧的归一化关注度通过该连接输入到关注帧判断模块;
关注帧判断模块的一路输出连接归一化计算模块,当关注帧判断模块判断当前帧是非关注帧时,当前帧为非关注帧的判断结果经该连接送入归一化计算模块,用于归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧;当关注帧判断模块判断当前帧是关注帧时,另一路输出当前帧为关注帧的判断结果。
2.根据权利要求1所述的音频关注度分析装置,其特征是:所述关注度计算模块计算当前帧的关注度具体实现过程如下,
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差;
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均值μk
计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均方差σk
最后,当前帧的关注度按以下公式计算:
ak=α|μk|βσk或ak=α|μk|+βσk
其中α与β分别为μk与σk的调整因子。
3.根据权利要求2所述的音频关注度分析装置,其特征是:记当前帧为第k帧、与当前帧之前时间间隔ΔT所在帧为第
Figure A200910060982C00031
帧,其中tf为每一帧的时间长度;所述关注度计算模块中设置空间音频参数队列Q1,空间音频参数队列Q1用于存储第
Figure A200910060982C00032
帧至第k帧的空间音频参数,用于计算第k帧与第帧的空间音频参数的差值。
4.根据权利要求3所述的音频关注度分析装置,其特征是:所述空间音频参数队列Q1具有初始值,用于当前帧为第1至第
Figure A200910060982C00041
帧时进行当前帧的关注度计算。
5.根据权利要求1或2或3或4所述的音频关注度分析装置,其特征是:所述归一化计算模块中设置长度为n的非关注帧队列Q2,用于存储当前帧的前n个非关注帧的关注度,以便归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧;归一化计算模块收到关注帧判断模块所发当前帧为非关注帧的判断结果时,将当前帧的关注度置入非关注帧队列Q2
6.根据权利要求5所述的音频关注度分析装置,其特征是:所述非关注帧队列Q2具有初始值,用于对初始n个非关注帧以及第n个非关注帧之前的每个关注帧的关注度进行归一化计算。
7.根据权利要求1或2或3或4所述的音频关注度分析装置,其特征是:记当前帧为第k帧,非关注帧队列Q2中所存前n个非关注帧的关注度构成关注度矢量An={a1,a2,…an-1,an};
所述归一化计算模块求取当前帧的归一化关注度按以下公式:
M k = Max [ a k - μ Ak σ Ak , 0 ]
其中μAk为An的均值,即 μ Ak = 1 n Σ i = 1 n a i ; 其中σAk=Max(αiAk),ai∈(An∪{ak})。
8.根据权利要求7所述的音频关注度分析装置,其特征是:所述关注帧判断模块中预设有阈值M,对当前帧的归一化关注度进行判断时,若归一化计算模块所得当前帧的归一化关注度Mk大于或等于阈值M,则判断当前帧为关注帧,否则判断当前帧为非关注帧。
CN2009100609822A 2009-03-06 2009-03-06 一种基于空间音频参数的音频关注度分析装置 Expired - Fee Related CN101499300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100609822A CN101499300B (zh) 2009-03-06 2009-03-06 一种基于空间音频参数的音频关注度分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100609822A CN101499300B (zh) 2009-03-06 2009-03-06 一种基于空间音频参数的音频关注度分析装置

Publications (2)

Publication Number Publication Date
CN101499300A true CN101499300A (zh) 2009-08-05
CN101499300B CN101499300B (zh) 2011-08-17

Family

ID=40946334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100609822A Expired - Fee Related CN101499300B (zh) 2009-03-06 2009-03-06 一种基于空间音频参数的音频关注度分析装置

Country Status (1)

Country Link
CN (1) CN101499300B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184733A (zh) * 2011-05-17 2011-09-14 武汉大学 基于音频关注度的音频质量评价系统及方法
CN102231279A (zh) * 2011-05-11 2011-11-02 武汉大学 基于听觉关注度的音频质量客观评价系统及方法
CN106384599A (zh) * 2016-08-31 2017-02-08 广州酷狗计算机科技有限公司 一种破音识别的方法和装置
CN109040778A (zh) * 2018-09-12 2018-12-18 武汉轻工大学 视频封面的确定方法、用户设备、存储介质及装置
CN109144271A (zh) * 2018-09-07 2019-01-04 武汉轻工大学 三维空间音频关注度分析方法、系统、服务器及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231279A (zh) * 2011-05-11 2011-11-02 武汉大学 基于听觉关注度的音频质量客观评价系统及方法
CN102231279B (zh) * 2011-05-11 2012-09-26 武汉大学 基于听觉关注度的音频质量客观评价系统及方法
CN102184733A (zh) * 2011-05-17 2011-09-14 武汉大学 基于音频关注度的音频质量评价系统及方法
CN102184733B (zh) * 2011-05-17 2012-07-25 武汉大学 基于音频关注度的音频质量评价系统及方法
CN106384599A (zh) * 2016-08-31 2017-02-08 广州酷狗计算机科技有限公司 一种破音识别的方法和装置
CN106384599B (zh) * 2016-08-31 2018-09-04 广州酷狗计算机科技有限公司 一种破音识别的方法和装置
CN109144271A (zh) * 2018-09-07 2019-01-04 武汉轻工大学 三维空间音频关注度分析方法、系统、服务器及存储介质
CN109040778A (zh) * 2018-09-12 2018-12-18 武汉轻工大学 视频封面的确定方法、用户设备、存储介质及装置

Also Published As

Publication number Publication date
CN101499300B (zh) 2011-08-17

Similar Documents

Publication Publication Date Title
CN101499300B (zh) 一种基于空间音频参数的音频关注度分析装置
US10008211B2 (en) Method and apparatus for encoding stereo phase parameter
CN102915731B (zh) 一种个性化的语音识别的方法及装置
CN103117061B (zh) 一种基于语音的动物识别方法及装置
WO2018068636A1 (zh) 一种语音信号检测方法与装置
US20240029746A1 (en) Method for Encoding Multi-Channel Signal and Encoder
CN110459241B (zh) 一种用于语音特征的提取方法和系统
EP3739582B1 (en) Voice detection
CN111583954A (zh) 一种说话人无关单通道语音分离方法
CN108597505A (zh) 语音识别方法、装置及终端设备
CN105810205A (zh) 一种语音处理方法及装置
CN103026738A (zh) 助听器系统中信号处理的方法和助听器系统
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
US20150254054A1 (en) Audio Signal Processing
CN103730112A (zh) 语音多信道模拟与采集方法
CN108877779B (zh) 用于检测语音尾点的方法和装置
Gold et al. Issues and opportunities: The application of the numerical likelihood ratio framework to forensic speaker comparison
CN101256776A (zh) 语音信号处理方法
CN109949798A (zh) 基于音频的广告检测方法以及装置
CN105989846A (zh) 一种多通道语音信号同步方法及装置
CN110211605A (zh) 智能设备语音灵敏度调节方法、装置、设备和存储介质
CN111145726B (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN107895582A (zh) 面向多源信息领域的说话人自适应语音情感识别方法
CN110191397A (zh) 一种降噪方法及蓝牙耳机

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110817

Termination date: 20150306

EXPY Termination of patent right or utility model