CN101499300A

CN101499300A - 一种基于空间音频参数的音频关注度分析装置

Info

Publication number: CN101499300A
Application number: CNA2009100609822A
Authority: CN
Inventors: 胡瑞敏; 杭波; 董石; 马晔; 杜希; 陈水仙
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2009-03-06
Filing date: 2009-03-06
Publication date: 2009-08-05
Anticipated expiration: 2029-03-06
Also published as: CN101499300B

Abstract

一种基于空间音频参数的音频关注度分析装置，用于使用多声道的输入信号来判别是否有关注音频，包括有取样模块，用于取样来自音频输入设备的多声道输入信号，得到当前帧的信号；空间音频参数提取模块，用于将信号变换到频域，然后将此频域上的当前帧的信号划分为多个子带并计算子带的空间音频参数，得出当前帧的空间音频参数；关注度计算模块，用于根据当前帧的空间音频参数结合距当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度；归一化计算模块，用于对当前帧的关注度进行归一化；关注帧判断模块，用于根据当前帧的归一化关注度判断是否关注帧。本发明考虑了音频的空间方位信息的变化和背景音频变化的影响，可准确分析音频关注度。

Description

一种基于空间音频参数的音频关注度分析装置

技术领域

本发明涉及一种基于空间音频参数的音频关注度分析装置，更具体的，涉及基于多声道音频提取空间音频参数的音频关注度分析装置。

背景技术

在空间音频编码技术里，空间音频参数表达了多声道(含立体声)音频中蕴涵的空间信息，如双耳声强差、双耳时间差、双耳相关度。

其中双耳声强差(Interaural Level Difference，以下简称ILD)参数表达了声道间强差对声源方向定位的影响。简单说来，如果左耳感受到的声音强度比右耳的大，那么听音人会觉得声音来自左侧方向，反之亦然。

双耳时间差(Interaural Time Difference，以下简称ITD)参数表达了声道间时间差对声源方向定位的影响。简单说来，从声源发出的声音到达人的左耳和右耳时，有一个先后的过程，这段时间差就是双耳时间差。它的原理是：如果一个声音到达双耳的时间是同时的，那么听者就觉得这个声音处在正中间的位置；倘若声音到达左耳先于到达右耳，听者人就觉得声源偏左，反之亦然。。

双耳相关度(Interaural Correlation，以下简称IC)参数控制着声场宽度，在实际编码应用中被定义为声道间的相关系数，其数值在0和1之间。简单说来，当IC较小时，声道间信号相关性较小，双耳感知到的是面声源，给人一种开阔的听觉感受；当IC较大时，声道间信号相关性较大，双耳感知到的是点声源，给人一种集中的听觉感受。

关注度是人类对对象的关注程度。当前关注度计算按照研究方法分为自顶向下方法和自底向上方法两种。自顶向下方法根据人们对特定类别对象，比如视频中的闪光、音频中的爆炸声，具有不同的关注度，通过将对象进行分类判别来确定对象是否是所关注的对象；自底向上方法是根据人类对对象的特征，比如能量、频率、颜色的关注，通过将对象的特征进行分析来确定对象是否是被关注的对象。

音频关注度是针对音频对象及特征的关注度。现有基于自底向上方法的音频关注度所关注的音频特征，包括：

归一化短时平均能量：E_a＝E_avr/MaxE_avr

其中E_avr是一帧信号的平均能量，MaxE_avr是一段时间内各帧平均能量中的最大值，E_a是一帧信号的归一化的平均能量，即归一化短时平均能量。

归一化能量峰值：E_p＝E_peak/MaxE_peak

其中E_peak是一帧信号中的能量峰值，MaxE_peak是一段时间内信号能量的最大值，E_p是一帧信号的归一化能量峰值，用来度量能量的突然增大或减小。

归一化的音频节奏：

\frac{AP (n) - μ_{AP}}{δ_{AP}}

其中

AP (n) = \frac{N_{AP}}{N_{f}} .

AP(n)是音频节奏；N_AP为高于阈值Th_AP的音频峰的个数，Th_AP由经验值设定；N_f是帧数；μ_AP是AP(n)的均值，σ_AP是AP(n)的均方差。归一化的音频节奏代表了音频的紧张或者激烈程度。

当音频对象上述特征无明显变化，而空间方位快速变化时，该音频对象引起较高关注。现有基于自底向上方法的音频关注度由于提取时没有考虑对象的空间方位信息的变化，无法表征方位快速变化的音频对象。此外，现有自底向上的音频关注度分析在提取音频特征时，未考虑背景音频特征在不同情景下的变化，导致关注度定量分析不准确。因此，提供新的音频关注度分析方案，是本技术领域亟待解决的问题。

发明内容

本发明依据空间音频参数提出了一种新的音频关注度分析装置，目的在于能够准确进行音频关注度分析，有效的解决现有技术在分析音频关注度时没有考虑音频的空间方位信息的变化和背景音频变化对关注度的影响这两个缺陷。

本发明的技术方案为一种基于空间音频参数的音频关注度分析装置，包括以下部分：

取样模块，用于取样来自音频输入设备的多声道输入信号，得到当前帧的信号；

空间音频参数提取模块，用于将取样模块所得当前帧的信号由时域变换到频域，然后对此频域上的当前帧的信号划分子带并计算每个子带的空间音频参数，得出当前帧的空间音频参数；

关注度计算模块，用于根据空间音频参数提取模块所得当前帧的空间音频参数结合距当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度；

归一化计算模块，用于对关注度计算模块所得当前帧的关注度进行归一化，得到当前帧的归一化关注度；

关注帧判断模块，用于对归一化计算模块所得当前帧的归一化关注度进行判断，根据判断结果得到当前帧是不是关注帧；

取样模块的输出连接空间音频参数提取模块的输入，取样模块所得当前帧的信号通过该连接输入到空间音频参数提取模块；空间音频参数提取模块的输出连接关注度计算模块的输入，空间音频参数提取模块所得当前帧的空间音频参数通过该连接输入到关注度计算模块；关注度计算模块的输出连接归一化计算模块的输入，关注度计算模块所得当前帧的关注度通过该连接输入到归一化计算模块；归一化计算模块输出连接关注帧判断模块的输入，归一化计算模块所得当前帧的归一化关注度通过该连接输入到关注帧判断模块；

关注帧判断模块的一路输出连接归一化计算模块，当关注帧判断模块判断当前帧是非关注帧时，当前帧为非关注帧的判断结果经该连接送入归一化计算模块，用于归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧；当关注帧判断模块判断当前帧是关注帧时，另一路输出当前帧为关注帧的判断结果。

而且，所述关注度计算模块计算当前帧的关注度具体实现过程如下，

计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差；

计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均值μ_k；

计算当前帧的空间音频参数与当前帧之前ΔT时间间隔所在帧的空间音频参数的矢量差的均方差σ_k。

最后，当前帧的关注度按以下公式计算：

a_k＝α|μ_k|βσ_k或a_k＝α|μ_k|+βσ_k

其中α与β分别为μ_k与σ_k的调整因子。

而且，记当前帧为第k帧、与当前帧之前时间间隔ΔT所在帧为第帧，其中t_f为每一帧的时间长度；所述关注度计算模块中设置空间音频参数队列Q₁，空间音频参数队列Q₁用于存储第

帧至第k帧的空间音频参数，用于计算第k帧与第

帧的空间音频参数的差值。

而且，所述空间音频参数队列Q₁具有初始值，用于当前帧为第1至第

帧时进行当前帧的关注度计算。

而且，所述归一化计算模块中设置长度为n的非关注帧队列Q₂，用于存储当前帧的前n个非关注帧的关注度，以便归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧；归一化计算模块收到关注帧判断模块所发当前帧为非关注帧的判断结果时，将当前帧的关注度置入非关注帧队列Q₂。

而且，所述非关注帧队列Q₂具有初始值，用于对初始n个非关注帧以及第n个非关注帧之前的每个关注帧的关注度进行归一化计算。

而且，记当前帧为第k帧，非关注帧队列Q₂中所存前n个非关注帧的关注度构成关注度矢量A_n＝{a₁，a₂，…a_n-1，a_n}；

所述归一化计算模块求取当前帧的归一化关注度按以下公式：

M_{k} = Max [\frac{a_{k} - μ_{Ak}}{σ_{Ak}}, 0]

其中μ_Ak为A_n的均值，即

μ_{Ak} = \frac{1}{n} Σ_{i = 1}^{n} a_{i};

其中σ_Ak＝Max(a_i-μ_Ak)，a_i∈(A_n∪{a_k})。

而且，所述关注帧判断模块中预设有阈值M，对当前帧的归一化关注度进行判断时，若归一化计算模块所得当前帧的归一化关注度M_k大于或等于阈值M，则判断当前帧为关注帧，否则判断当前帧为非关注帧。

本发明由一空间音频参数提取模块计算空间音频参数，然后由关注度计算模块得到当前帧的关注度，再通过归一化模块获得归一化关注度，最后由关注帧判断模块判断当前帧是否为关注帧。本发明考虑了音频的空间方位信息的变化和背景音频变化的影响，能够用于准确分析音频关注度，在空间音频编码应用领域具有重要作用。

附图说明

图1本发明的装置结构图；

图2本发明实施例的装置结构图；

图3本发明原理图；

图4本发明实施例中关注度的计算流程图；

图5本发明实施例中归一化关注度计算流程图；

图6本发明实施例中关注帧判断模块的工作流程图；

图7本发明实施例的整体流程图；

图8本发明实施例中非关注帧队列的示意图。

具体实施方式

本发明提供的基于空间音频参数的音频关注度分析装置包括以下部分：

取样模块

该模块用于取样来自音频输入设备的多声道输入信号，得到当前帧的信号。本发明所称的多声道输入信号包括双声道输入信号(及立体声)，及更多声道的输入信号。音频输入设备一般采用麦克风，音频采样属于现有技术，本发明不予赘述。取样模块可以从多声道输入信号取样完毕后逐帧送往其他模块处理，也可以边取样边将取得的帧信号送往其他模块处理。因为是逐帧进行处理，当前正在处理的帧被称为当前帧。

空间音频参数提取模块

该模块用于将取样模块所得当前帧的信号由时域变换到频域，然后对此频域上的当前帧的信号划分子带并计算每个子带的空间音频参数，得出当前帧的空间音频参数，例如ILD、ITD、IC等。划分子带的数目可根据需要设定为一个或多个，建议采用现有音频技术中的Bark带划分规则分为24个子带。

关注度计算模块

该模块用于根据空间音频参数提取模块所得当前帧的空间音频参数结合距当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度。具体实施时，时间间隔的长度ΔT可以根据需要设定，从而提取当前帧之前的某个帧的空间音频参数；或者直接指定当前帧之前的某个帧，提取该帧的空间音频参数。在每帧时长一定的情况下，这两种方式是等同的。

本发明提供了一种关注度计算模块计算当前帧的关注度具体实现过程如下，

最后，当前帧的关注度按以下公式计算：

a_k＝α|μ_k|βσ_k或a_k＝α|μ_k|+βσ_k

其中α与β分别为μ_k与σ_k的调整因子，具体实施时可以依照经验值或实验取值。

为了能够用当前帧之前ΔT时间间隔所在帧的空间音频参数计算当前帧的关注度，关注度计算模块中需要存有当前帧之前ΔT时间间隔所在帧的空间音频参数，在逐帧处理的情况下，还需要考虑暂存当前帧的空间音频参数为计算ΔT后的当前帧的关注度提供条件。本发明提供了进一步技术方案，采用缓存队列方式管理空间音频参数：记当前帧为第k帧、与当前帧之前时间间隔ΔT所在帧为第

帧，其中t_f为每一帧的时间长度；所述关注度计算模块中设置空间音频参数队列Q₁，空间音频参数队列Q₁用于存储第

帧至第k帧的空间音频参数，用于计算第k帧与第

帧的空间音频参数的差值。当第k帧作为当前帧求取完关注度时，空间音频参数队列Q₁的存储内容为第

帧的空间音频参数、第

帧的空间音频参数…第k—1帧的空间音频参数；当第k帧作为当前帧求取完关注度后，开始处理下一帧，也就是当前帧为第k+1帧。此时需要求取第k+1帧的空间音频参数与第

帧的空间音频参数的矢量差。该第k+1帧的空间音频参数送入空间音频参数队列Q₁。空间音频参数队列Q₁内最前面的第

帧的空间音频参数移除，空间音频参数队列Q₁的存储内容变为第

帧的空间音频参数…第k帧的空间音频参数、第k+1帧的空间音频参数。

在采用缓存队列方式管理空间音频参数时，当前帧为第1至第

帧时缺乏当前帧之前ΔT时间间隔所在帧，因此本发明进行了初始设置处理：所述空间音频参数队列Q1具有初始值，用于当前帧为第1至第

帧时进行当前帧的空间参数矢量差计算。空间音频参数队列Q₁的初始值可根据实验所得经验值设定。

归一化计算模块

该模块用于对关注度计算模块所得当前帧的关注度进行归一化，得到当前帧的归一化关注度。对当前帧的关注度进行归一化需要有参考对象，本发明创造性的提出参考非关注帧进行归一化。非关注帧的信息来自于关注帧判断模块的反馈，因此该归一化计算模块的具体实现需配合关注帧判断模块。

关注帧判断模块

该模块用于对归一化计算模块所得当前帧的归一化关注度进行判断，根据判断结果得到当前帧是不是关注帧。若当前帧为关注帧则标记当前帧为关注帧，否则标记当前帧为非关注帧。具体实施时可采用阈值判断方式实现关注帧判断，例如在关注帧判断模块中预设阈值M，若当前帧的归一化关注度M_k大于或等于阈值M，则判断当前帧为关注帧，否则判断当前帧为非关注帧。阈值M可根据关注范围需要设定，例如考虑不同音频的特点而需要调整关注范围。

以上各模块的连接主要是信息传递的连接，参见附图1：取样模块的输出连接空间音频参数提取模块的输入，取样模块所得当前帧通过该连接输入到空间音频参数提取模块；空间音频参数提取模块的输出连接关注度计算模块的输入，空间音频参数提取模块所得当前帧的空间音频参数通过该连接输入到关注度计算模块；关注度计算模块的输出连接归一化计算模块的输入，关注度计算模块所得当前帧的关注度通过该连接输入到归一化计算模块；归一化计算模块输出连接关注帧判断模块的输入，归一化计算模块所得当前帧的归一化关注度通过该连接输入到关注帧判断模块。而关注帧判断模块的一路输出连接归一化计算模块，当关注帧判断模块判断当前帧是非关注帧时，当前帧为非关注帧的判断结果经该连接送入归一化计算模块，用于归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧；当关注帧判断模块判断当前帧是关注帧时，另一路输出当前帧为关注帧的判断结果。各模块的连接支持实现关注度分析的整个过程，参见附图3，采用本发明所提供装置实现分析的基本原理可简单总结为：多声道输入信号输入，取样模块，取样得到当前帧的信号；空间音频参数提取模块，提取信号的空间参数(如ILD、ITD或IC)；关注度计算模块，用空间参数计算关注度；归一化计算模块，将计算出的关注度归一化；关注帧判断模块根据设定阈值判断当前帧是为关注帧或非关注帧。

由于归一化计算模块中需要用到当前帧之前的非关注帧，也可以采用缓存队列方式管理关注度：归一化计算模块中设置长度为n的非关注帧队列Q₂，用于存储当前帧的前n个非关注帧的关注度，以便归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧；归一化计算模块收到关注帧判断模块所发当前帧为非关注帧的判断结果时，将当前帧的关注度置入非关注帧队列Q₂。在采用缓存队列方式管理关注度时，也可为非关注帧队列Q₂设置初始值，以便对初始n个非关注帧以及第n个非关注帧之前的每个关注帧的关注度进行归一化计算，方便保持归一化处理一致性，防止出错。非关注帧队列Q₂的初始值可根据实验所得经验值设定。

归一化计算模块所需的非关注帧的关注度，可以由关注帧判断模块提供的当前帧为非关注帧的判断结果触发后存入归一化计算模块内设的非关注帧队列Q₂，供归一化计算模块自行调用；也可以在归一化计算模块之外设置非关注帧队列Q₂，例如在归一化计算模块和关注帧判断模块之间加设存储模块以实现非关注帧队列Q₂、或者在关注帧判断模块中设置非关注帧队列Q₂。第二种情况的关注度信息传递比较复杂，但是效果一样：需要当关注帧判断模块判断出非关注帧时，将其关注度送入非关注帧队列Q₂；在归一化计算模块需要该关注度时，从非关注帧队列Q₂调出。参见附图2，本发明提供了第二种情况的实施例，不仅增加了实现非关注帧队列Q₂的存储模块，还需要连接关注度计算模块和关注帧判断模块，以便将非关注帧的关注度通过关注帧判断模块存入非关注帧队列Q₂。

本发明提供了归一化关注度求取方案：记当前帧为第k帧，非关注帧队列Q₂中所存前n个非关注帧的关注度构成关注度矢量A_n＝{a₁，a₂，…a_n-1，a_n}，可参见附图8中的队列输入输出方向；

M_{k} = Max [\frac{a_{k} - μ_{Ak}}{σ_{Ak}}, 0]

其中μ_Ak为A_n的均值，即

μ_{Ak} = \frac{1}{n} Σ_{i = 1}^{n} a_{i};

其中σ_Ak＝Max(a_i-μ_Ak)，a_i∈(A_n∪{a_k})。

参见附图7，为了便于实施参考，本发明提供了实施例的具体流程，包括以下步骤：

(1)由取样模块取样来自麦克风的信号，采样率为32000Hz；

(2)将(1)中取样所得的第k帧的信号经FFT变换由时域变换到频域，并划分为24个子带，信号每帧时长t_f为20ms。由空间音频参数提取模块计算由(1)取样所得的第k帧在频域上每个子带的空间音频参数双耳声强差ILD。根据ILD计算式(公式8)可得第i个子带上ILD的值s_i，

s_{i} = 10 \lg \frac{I_{iL}}{I_{iR}}, i &Element; [1,24]

(公式8)

其中I_iL和I_iR分别为第i帧的每个子带上左声道与右声道能量值(公式9)，

I_{iL} = Σ_{1}^{N} {[s_{L} (n)]}^{2}, I_{iR} = Σ_{1}^{N} {[s_{R} (n)]}^{2}

(公式9)

其中s_L(n)和s_R(n)分别为第i帧左声道和右声道采样信号，N为每一帧的采样点数，由(1)得N＝640。

提取所得的ILD为一24维矢量S_k＝{s₁，s₂，…s₂₃，s₂₄}，即X＝24。

(3)参见附图4，首先根据时间间隔ΔT和每一帧的时间长度t_f计算出第

帧，即由关注度计算模块根据(2)所得的第k帧的ILD结合第k帧前0.1s时间间隔所在帧即第k-5帧的ILD计算第k帧的关注度a_k。第k-5帧至第k帧的ILD存入一队列Q₁，队列长度为6，用于计算第k帧与第k-5帧的空间音频参数差值。当第k帧的ILD入队列后，Q₁队首值为S_k，队尾值为S_k-5，首先计算第k帧与第k-5帧空间音频参数的矢量差(公式10)，D_k＝{d₁，d₂，…d₂₃，d₂₄}，

D_k＝S_k-S_k-5 (公式10)

然后计算D_k的均值μ_k(公式11)和均方差σ_k(公式12)，a_k由μ_k和σ_k得到(公式13)。

μ_{k} = \frac{1}{24} Σ_{i = 1}^{24} d_{i}

(公式11)

σ_{k} = \sqrt{\frac{Σ_{i = 1}^{24} {(d_{i} - μ_{k})}^{2}}{24}}

(公式12)

a_k＝α|μ_k|βσ_k (公式13)

a_k的计算中(公式13)α与β分别为μ_k与σ_k的调整因子，此处α＝1，β＝1。

当前帧关注度计算完成之后，继续读取下一帧ILD并入队列Q₁。

以上所述队列Q₁具有初始值，用于对第1至第5帧进行上述计算。此初始值可以设置为实验所得的经验值。

(4)参见附图5，由归一化计算模块对(3)所得关注度进行归一化。使用一个非关注帧队列Q₂存储当前帧之前1000个非关注帧的关注度数据A₁₀₀₀＝{a₁，a₂，…，a₉₉₉，a₁₀₀₀}，即n＝1000。且该非关注帧队列具有一初始值。本步骤中所述归一化计算模块由归一化计算公式(公式14)计算第k帧的归一化关注度。

M_{k} = Max [\frac{a_{k} - μ_{Ak}}{σ_{Ak}}, 0]

(公式14)

μ_Ak为A₁₀₀₀的均值(公式15)，σ_Ak为非关注帧队列Q2内所有非关注帧的关注度与μ_Ak差值的最大值(公式16)。

μ_{Ak} = \frac{1}{1000} Σ_{i = 1}^{1000} a_{i}

(公式15)

σ_Ak＝Max(a_i-μ_Ak)a_i∈(A₁₀₀₀∪{a_k}) (公式16)

(5)参见附图6，由关注帧判断模块对(4)得到的归一化关注度M_k进行判断。设定一阈值M＝0.7，若M_k≥M，则第k帧为关注帧，反之第k帧为非关注帧，a_k置入队列Q₂，用于计算下一帧的归一化关注度。

Claims

1.一种基于空间音频参数的音频关注度分析装置，其特征是：包括以下部分，

2.根据权利要求1所述的音频关注度分析装置，其特征是：所述关注度计算模块计算当前帧的关注度具体实现过程如下，

最后，当前帧的关注度按以下公式计算：

a_k＝α|μ_k|βσ_k或a_k＝α|μ_k|+βσ_k

其中α与β分别为μ_k与σ_k的调整因子。

3.根据权利要求2所述的音频关注度分析装置，其特征是：记当前帧为第k帧、与当前帧之前时间间隔ΔT所在帧为第

帧至第k帧的空间音频参数，用于计算第k帧与第帧的空间音频参数的差值。

4.根据权利要求3所述的音频关注度分析装置，其特征是：所述空间音频参数队列Q₁具有初始值，用于当前帧为第1至第

帧时进行当前帧的关注度计算。

5.根据权利要求1或2或3或4所述的音频关注度分析装置，其特征是：所述归一化计算模块中设置长度为n的非关注帧队列Q₂，用于存储当前帧的前n个非关注帧的关注度，以便归一化计算模块对之后处理的当前帧的关注度进行归一化时参考非关注帧；归一化计算模块收到关注帧判断模块所发当前帧为非关注帧的判断结果时，将当前帧的关注度置入非关注帧队列Q₂。

6.根据权利要求5所述的音频关注度分析装置，其特征是：所述非关注帧队列Q₂具有初始值，用于对初始n个非关注帧以及第n个非关注帧之前的每个关注帧的关注度进行归一化计算。

7.根据权利要求1或2或3或4所述的音频关注度分析装置，其特征是：记当前帧为第k帧，非关注帧队列Q₂中所存前n个非关注帧的关注度构成关注度矢量A_n＝{a₁，a₂，…a_n-1，a_n}；

M_{k} = Max [\frac{a_{k} - μ_{Ak}}{σ_{Ak}}, 0]

其中μ_Ak为A_n的均值，即

μ_{Ak} = \frac{1}{n} Σ_{i = 1}^{n} a_{i};

其中σ_Ak＝Max(α_i-μ_Ak)，a_i∈(A_n∪{a_k})。

8.根据权利要求7所述的音频关注度分析装置，其特征是：所述关注帧判断模块中预设有阈值M，对当前帧的归一化关注度进行判断时，若归一化计算模块所得当前帧的归一化关注度M_k大于或等于阈值M，则判断当前帧为关注帧，否则判断当前帧为非关注帧。