CN111341319B

CN111341319B - 一种基于局部纹理特征的音频场景识别方法及系统

Info

Publication number: CN111341319B
Application number: CN201811559040.4A
Authority: CN
Inventors: 白海钏; 葛凤培; 张鹏远; 高圣翔; 黄远; 沈亮; 林格平
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2023-05-16
Anticipated expiration: 2038-12-19
Also published as: CN111341319A

Abstract

本发明公开了一种基于局部纹理特征的音频场景识别方法，所述方法包括：将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征；进行融合后输入预先训练得到的时延深度神经网络模型；得到对应于不同音频场景类型的后验概率；采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法，基于对场景时频信息的有效表征，更好地实现了音频场景种类的识别。

Description

一种基于局部纹理特征的音频场景识别方法及系统

技术领域

本发明涉及音频场景识别领域，更具体地说，本发明涉及一种基于局部纹理特征的音频场景识别方法及系统。

背景技术

场景自动感知是新生代智能化设备的迫切需求，它使得硬件设备能够利用有关场景的先验知识，调整工作模式，达到最佳工作状态。它目前成为移动智能终端、自动驾驶、机器人导航等领域的应用热点。音频场景识别则是通过识别场景产生的声学内容，判断感知主体所处的环境，并对特定的音频场景进行标注(参考文献[1]：Bregman A..Auditoryscene analysis:the perpetual organization of sound.MIT Press,1990.参考文献[2]：Barchiesi D.,Giannoulis D.,Stowell D.,Plumbley M.D..Acoustic sceneclassification:classifying environments from the sounds they produce.IEEESignal Processing Magazine,2015,32(3):16-34.)。

目前，研究人员通常从两个方面展开音频场景识别的研究。其一，在认知心理学方面，研究人耳对于音频场景的认知过程以及如何理解音频场景。其二，在计算模型方面，试图结合信号处理和机器学习的方法，模仿人类的声音感知过程，从复杂音频信号中分辨出“在什么时间、什么地点发生了什么事件”。

在音频特征方面，多数研究工作是从人耳对声音高低频的听觉感知差异性出发提取帧级别的短时特征，并没有引入与音频场景或事件相关时频特性(参考文献[3]：EronenAJ,Peltonen V T,Tuomi J T,et al.Audio Based Context Recognition.IEEETransactions on Audio Speech&Language Processing,2006,14(1):321-329.参考文献[4]：Hwang K.,Lee Y..Environmental audio scene and activity recognitionthrough mobile based crowd sourcing.IEEE Transactions on ConsumerElectronics.2012,58(2):700–705.)，而基于声学事件等高级语义特征的音频场景识别方法需要根据特定场景多次建模(参考文献[5]：Heittola T.,Mesaros A.,Eronen A.,Virtanen T..Audio context recognition using audio event histogram.18thEuropean Signal Processing Conference,Aalborg,Denmark,2010:1272–1276.)，计算复杂度高，且在有限先验知识的条件下，无法准确判决复杂音频出现的实际场景。因此，需要引入鲁棒性更强、区分性更好的特征，以实现对音频场景信息的有效表征。

音频场景识别目前成为移动智能终端、自动驾驶、机器人导航等领域的应用热点。而音频特征对于场景识别性能的提升具有至关重要的作用，多数研究工作是从人耳对声音高低频的听觉感知差异性出发提取帧级别的短时特征，无法引入丰富的与场景相关的时频信息，而基于声学事件等高级语义特征的识别方法需要根据特定场景多次建模，计算复杂度高，识别准确率低。

发明内容

本发明的目的在于克服上述技术缺陷，从音频纹理角度出发对音频场景识别问题展开研究，提出了一种基于局部纹理特征的音频场景识别方法，该方法鉴于音频特征在场景识别过程中具有至关重要的作用，围绕音频场景特征来进行。

为了实现上述目的，本发明提出了一种基于局部纹理特征的音频场景识别方法，所述方法包括：

将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征；进行融合后输入预先训练得到的时延深度神经网络模型；得到对应于不同音频场景类型的后验概率；采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。

作为上述方法的一种改进，所述预先训练得到的时延深度神经网络模型的训练步骤包括：对训练数据集的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征；进行融合后作为输入特征，结合已知的场景标签对时延深度神经网络模型进行训练和测试；得到训练好的时延深度神经网络模型；

作为上述方法的一种改进，所述训练步骤具体包括：

步骤1-1)对训练数据集的每个音频信号进行分帧、加汉宁窗，得到每帧音频时域信号；利用快速傅里叶变换将其转换到频域，并采用40阶Mel尺度滤波器组对其进行滤波，对所得到的Mel子带能量求取对数，进而获得40维Mel-fbank特征f_i(j)，i＝0,1,…,N-1；j＝0,1,…,39，其中i代表帧数，j代表特征维数，N为音频信号的总帧数；

步骤1-2)在Mel-fbank特征构成的子带能量谱中，以某个Mel-fbank时频点为中心时频点，选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点；利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征；

步骤1-3)将Mel-fbank特征和LTP特征进行融合，并对融合后的特征进行全局均值方差归一化，得到用于模型训练的输入特征；

步骤1-4)构建用于音频场景识别的时延深度神经网络模型，该模型将初始输入层和隐藏层的节点进行多帧扩展，每一层可以采用不同的时间尺度来学习更深层次的上下文信息；

步骤1-5)将步骤1-3)得到的输入特征输入步骤1-4)构建的TDNN模型，以交叉熵为训练准则，并利用随机梯度下降法进行反向传播训练，反复迭代得到TDNN模型；

步骤1-6)利用测试数据对TDNN模型进行测试，测试通过后得到训练好的TDNN模型。

作为上述方法的一种改进，所述步骤1-2)具体包括：

步骤1-2-1)在Mel-fbank特征构成的子带能量谱中，以某个Mel-fbank时频点为中心时频点，其Mel-fbank特征值为f_c；

步骤1-2-2)定义一个半径为R的环形邻域，P个邻域时频点均匀地分布在圆周上，则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T：

其中，

其中，f_p,p＝0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值；r为设定的区间阈值；

步骤1-2-3)直接将{sign(f_p-f_c)，p＝0,1,…,P-1}三值序列转换为一个十进制数，从而形成描述中心时频点局部邻域纹理细节的LTP特征：

首先形成正负两个序列的二值编码LTP_P,R,+(r)和LTP_P,R,-(r)，然后加以连接得到LTP特征LTP，如式(4)、(5)和(6)所示：

LTP＝{LTP_P,R,+(r),LTP_P,R,-(r)} (6)

其中，

作为上述方法的一种改进，所述时延深度神经网络模型的输入层包括当前帧和前后各扩展4帧，共9帧特征；所述时延深度神经网络模型的隐藏层有4层，每层均有256个节点；第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点；其它层不做扩展；隐藏层采用ReLU作为激活函数；所述时延深度神经网络模型的输出层则采用sigmoid函数。

作为上述方法的一种改进，所述将待识别的音频信号进行预处理后逐帧提取基于Mel-fbank特征和描述局部纹理的LTP特征的步骤具体包括：

步骤2-1)对待识别的音频信号进行分帧、加汉宁窗，得到每帧音频时域信号；利用快速傅里叶变换将其转换到频域，并采用40阶Mel尺度滤波器组对其进行滤波，对所得到的Mel子带能量求取对数，进而获得40维Mel-fbank特征f_i(j)，i＝0,1,…,N-1；j＝0,1,…,39，其中i代表帧数，j代表特征维数，N为音频信号的总帧数；

步骤2-2)在Mel-fbank特征构成的子带能量谱中，以某个Mel-fbank时频点为中心时频点，选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点；利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征；

步骤2-3)将Mel-fbank特征和LTP特征融合在一起，并对融合后的特征进行全局均值方差归一化，得到输入特征。

作为上述方法的一种改进，所述步骤2-2)具体包括：

步骤2-2-1)在Mel-fbank特征构成的子带能量谱中，以某个Mel-fbank时频点为中心时频点，其Mel-fbank特征值为f_c；

步骤2-2-2)定义一个半径为R的环形邻域，P个邻域时频点均匀地分布在圆周上，则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T：

其中，

步骤2-2-3)直接将{sign(f_p-f_c)，p＝0,1,…,P-1}三值序列转换为一个十进制数，从而形成描述中心时频点局部邻域纹理细节的LTP特征：

LTP＝{LTP_P,R,+(r),LTP_P,R,-(r)} (6)

其中，

作为上述方法的一种改进，所述采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签具体为：计算后验概率的对数值，然后将输入音频片段的所有帧对应各个场景下的对数值相加得到累加对数概率值，将累加对数概率值最大者对应的音频类型作为该段音频的场景标签。

一种基于局部纹理特征的音频场景识别系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优势在于：本发明的音频场景识别方法，基于对场景时频信息的有效表征，更好地实现了音频场景种类的识别。

附图说明

图1是本发明的音频场景识别方法的流程图；

图2是本发明的基于局部纹理模式的特征提取流程图。

具体实施方式

下面结合附图对本发明进行详细的说明。

与纯净语音和音乐信号相比，实际音频场景存在更为复杂的背景噪声和干扰声，不同场景的频谱结构具有复杂多样性，同一种场景类型的音频之间也会呈现不同的时频动态特性。将相同场景的不同音频信号语谱图进行对比可以发现，虽然声学事件和背景噪声的能量或发生次序等略有差别，但其频谱的纹理结构较为接近。将不同场景下音频的语谱图进行对比，可以发现不同场景的音频纹理结构具有明显的区分性，尤其是低频部分的频谱纹理结构差异非常明显。

因此，受图像纹理特征启发，本发明的方法从音频纹理特征的角度对音频的局部时频特性进行研究。由于音频场景识别领域最常见的梅尔频率倒谱系数的倒谱提取过程中会去除参数间的相关性，而原始音频频谱中存在较大冗余，因此该方法基于对数梅尔尺度滤波器组系数(Log Mel-frequency filter bank coefficients,Mel-fbank)基础上采用局部模式方法从音频纹理的角度对音频场景的局部时频特性进行研究。而且在真实声学环境下，背景噪声能量较强，音频场景处于较低信噪比的条件下，Mel-fbank时频谱分布趋于均匀，如果采用常见的局部二值模式方法提取音频纹理信息，其场景识别性能会受到一定影响。为此，本发明采用局部三值模式(Local Ternary Patterns,LTP)方法对音频纹理结构进行了提取。

本发明的音频场景识别方法的如图1所示，该方法主要分为模型训练和识别阶段两个阶段。在训练阶段，首先对训练数据集中的音频信号进行分帧、加窗等预处理，并逐帧提取基于Mel-fbank和局部纹理模式的特征。接下来，利用训练数据对时延深度神经网络(Time-Delay Neural Network,TDNN)模型进行训练。在识别阶段，将每一帧待识别音频特征送入到训练好神经网络模型，计算各个音频场景类型对应的后验概率。最终，依据后处理决策机制获得整个待识别音频片段相应的音频场景标签。其中，特征提取模块采用LTP方法基于Mel-fbank特征的局部纹理进行提取，同时联合传统特征来共同表征不同场景下的音频时频特性。

音频场景特征的具体提取过程如图2所示。首先以40ms帧长、20ms帧移的方式对音频信号进行分帧、加汉宁窗等，得到每帧音频时域信号。接下来利用快速傅里叶变换将其转换到频域，并采用40阶Mel尺度滤波器组对其进行滤波。对所得到的Mel子带能量求取对数，进而获得40维Mel-fbank特征f_i(j)，i＝0,1,…,N-1；j＝0,1,…,39，其中i代表帧数，j代表特征维数，N为音频信号的总帧数。

在Mel-fbank特征构成的子带能量谱中，以某个Mel-fbank时频点为中心点，定义一个半径为R的环形邻域。邻域中P个时频点均匀地分布在圆周上。假设邻域的局部纹理特征用T来表示，则T可以用该邻域上P+1个时频点的函数t(.)来表示：

T＝t(f_c,f₀,f₁,...,f_P-1) (1)

其中，f_c为中心时频点的Mel-fbank特征值，f_p,p＝0,1,…,P-1为邻域中P个时频点对应的Mel-fbank特征值。然而在设计函数t(.)时，还需防止所获得的局部纹理特征T受到Mel-fbank能量的缩放或偏移所影响。为了更直观地在邻域时频点中获取局部纹理信息，可以利用邻域时频点与中心时频点之间的Mel-fbank能量差异来重新定义局部纹理特征T如下，

其中，

r为设定的区间阈值。根据实际场景识别性能结果，r＝5。

该符号函数sign(f_p-f_c)利用三值表示方式粗略地表征了邻域时频点f_p与中心时频点f_c之间的Mel-fbank能量差异。在此基础上，LTP则直接将{sign(f_p-f_c)，p＝0,1,…,P-1}三值序列转换为一个十进制数，从而形成描述中心时频点局部邻域纹理细节的LTP特征。LTP实际计算时将其进行拆分，形成正负两个序列的二值编码，最后加以连接，如式(4)、(5)和(6)所示：

LTP_P,T＝{LTP_P,R,+(r),LTP_P,R,-(r)} (6)

其中，

R和P为经验值，通常取R＝3、P＝16。

根据公式(4)、(5)计算十进制LTP值时，邻域时频点f₀初始位置和其他邻域时频点f_p(p≠0)的排列次序对音频场景识别性能影响不大，因此将左上角固定为f₀初始位置，按照顺时针方向选取其他邻域时频点。那么，利用上述方法每一帧音频数据中将会计算得到80维LTP特征。

最终，本发明的方法将Mel-fbank特征和局部纹理特征LTP融合在一起，并对所有特征进行全局均值方差归一化，得到用于后端模型训练的输入特征。

通过上述方法获得音频特征后，后端模型采用TDNN对音频场景进行识别。TDNN将初始输入层和隐藏层的节点进行多帧扩展，每一层可以采用不同的时间尺度来学习更深层次的上下文信息。受益于其结构上的时序关联性，TDNN可以直接从音频局部纹理特征中对声音场景进行建模。TDNN共包括4个隐藏层，每层均有256个节点。其中，输入层包括当前帧和前后各扩展4帧，共9帧特征；第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点；其他层不做扩展。隐藏层采用ReLU作为激活函数，输出层则采用sigmoid函数。网络训练以交叉熵为目标准则，并利用随机梯度下降法进行反向传播训练。

基于Mel-fbank和LTP局部纹理的音频特征通过TDNN模型参数调优和训练后，得到最佳的网络参数。在识别阶段，对输入音频每帧提取音频特征，并利用训练完成的深度神经网络模型输出每一帧特定音频场景的后验概率值。接下来，对这些概率值求取对数，缩小概率数据之间的动态范围。然后将输入音频片段的所有帧对应各个场景下的对数概率值相加，找到累加对数概率值最大者对应的音频类型作为该段音频的场景标签。

训练阶段：

1)对训练数据集的音频信号进行分帧、加窗等预处理；

2)逐帧提取基于Mel-fbank和描述局部纹理的LTP特征；

3)根据所提取的特征和对应的配置参数对TDNN模型进行训练。

识别阶段：

1)对待识别数据集的音频信号进行与训练阶段相似的预处理和特征提取；

2)将所得每一帧待识别音频特征送入训练好的神经网络模型；

3)逐帧计算输入特征对应于不同音频场景类型的后验概率；

4)采用一定的后处理决策机制获取待识别音频片段对应的音频场景标签。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于局部纹理特征的音频场景识别方法，所述方法包括：

将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征；进行融合后输入预先训练得到的时延深度神经网络模型；得到对应于不同音频场景类型的后验概率；采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签；

所述预先训练得到的时延深度神经网络模型的训练步骤包括：对训练数据集的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征；进行融合后作为输入特征，结合已知的场景标签对时延深度神经网络模型进行训练和测试；得到训练好的时延深度神经网络模型；

所述训练步骤具体包括：

2.根据权利要求1所述的基于局部纹理特征的音频场景识别方法，其特征在于，所述步骤1-2)具体包括：

其中，

LTP＝{LTP_P,R,+(r),LTP_P,R,-(r)} (6)

其中，

3.根据权利要求2所述的基于局部纹理特征的音频场景识别方法，其特征在于，所述时延深度神经网络模型的输入层包括当前帧和前后各扩展4帧，共9帧特征；所述时延深度神经网络模型的隐藏层有4层，每层均有256个节点；第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点；其它层不做扩展；隐藏层采用ReLU作为激活函数；所述时延深度神经网络模型的输出层则采用sigmoid函数。

4.根据权利要求3所述的基于局部纹理特征的音频场景识别方法，其特征在于，所述将待识别的音频信号进行预处理后逐帧提取基于Mel-fbank特征和描述局部纹理的LTP特征的步骤具体包括：

5.根据权利要求4所述的基于局部纹理特征的音频场景识别方法，其特征在于，所述步骤2-2)具体包括：

其中，

LTP＝{LTP_P,R,+(r),LTP_P,R,-(r)} (6)

其中，

6.根据权利要求5所述的基于局部纹理特征的音频场景识别方法，其特征在于，所述采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签具体为：计算后验概率的对数值，然后将输入音频片段的所有帧对应各个场景下的对数值相加得到累加对数概率值，将累加对数概率值最大者对应的音频类型作为该段音频的场景标签。

7.一种基于局部纹理特征的音频场景识别系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～6之一所述方法的步骤。