CN102930870B

CN102930870B - 利用抗噪幂归一化倒谱系数的鸟类声音识别方法

Info

Publication number: CN102930870B
Application number: CN201210368983.5A
Authority: CN
Inventors: 颜鑫; 李应
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2012-09-27
Filing date: 2012-09-27
Publication date: 2014-04-09
Anticipated expiration: 2032-09-27
Also published as: CN102930870A

Abstract

本发明针对生态环境中各种背景噪声下的鸟类声音识别问题，提出了一种基于新型抗噪特征提取的鸟类声音识别技术。首先，根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱。其次，使用多频带谱减法对声音功率谱进行降噪处理。接着，结合降噪的声音功率谱提取抗噪幂归一化倒谱系数（APNCC）。最后，采用支持向量机（SVM）分别对提取的APNCC，幂归一化倒谱系数（PNCC）和Mel频率倒谱系数（MFCC）对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明，提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性，更适用于信噪比低于30dB环境下的鸟类声音识别。

Description

利用抗噪幂归一化倒谱系数的鸟类声音识别方法

技术领域

本发明涉及一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法。

背景技术

生态环境下的鸟类声音包含着丰富的信息，例如，通过判断某个地区一年四季是否有指定鸟类的叫声，可以了解该地区的生态状况及气候变化。通过在森林，原野等地使用自动监听和识别鸟类声音的技术对濒临灭绝的鸟类进行侦察，有利于人类及时发现它们的行踪并采取相应的保护措施等。鸟类声音的识别不仅可以分析鸟类本身的行为等特征，而且可以对与鸟类有关的外界生态环境及相关影响领域做分析。

近年来，借鉴较为成熟的语音识别技术，学者们对鸟类声音识别领域做了深入的研究并取得了丰富的成果。文献[1]对比了基于音节的正弦曲线建模和MFCC的特征提取方法在14种北欧鸟类声音识别中的效果。文献[2]从分类器的角度分别采用ID3、J4.8、朴素贝叶斯算法来进行鸟类声音识别对比。文献[3]提出MFCC结合SVM的鸟类声音分类。文献[4]通过分析鸟类声音音节对的柱状图来进行鸟叫声的分类。文献[5]使用MFCC及高斯混合模型（Gaussian Mixture Model，GMM）进行不依赖于个体叫声变化的四种雀形目的鸟类声音分类。文献[6]经过对比实验，使用广泛应用于音乐语义特征的“MARSYAS”特征集，结合多层感知器（Multilayer Perceptron，MLP）的人工神经网络（Artificial Neural Network，ANN），具有较好的鸟类声音识别效果。背景噪声的检测提取和滤除一直是信号处理领域的基本问题^[7]，在真实的生态环境中，各种环境噪声是普遍存在的。因此，对于噪声环境下的鸟类声音识别具有重要的现实意义。文献[8]通过对基于帧的线性预测编码（Linear Predictive Coding，LPC）的分层聚类分析，提取出噪声环境下欧亚鸲声音段中的有效音节，结合隐马尔可夫模型（Hidden Markov Model，HMM）进行分类。文献[9]在对声音进行噪声滤波后，通过小波变换提取鸟叫声音特征，并结合基于MLP的ANN来进行鸟叫声识别。文献[10]使用谱减法，功率谱分析及自相关分析对复杂声音环境下的两种鸟类声音识别。

生态环境中的背景噪声具有非平稳的特点，而现有的大多数方法主要针对特定的噪声环境来进行鸟类声音识别，并没有提出一种普遍适用于生态环境中各种非平稳噪声下的鸟类声音识别方法。因此，本发明提出了一种非平稳噪声功率谱估计，多频带谱减法与PNCC特征提取相结合的抗噪特征APNCC提取方法并使用SVM进行鸟类声音识别。实验结果表明，该方法对不同信噪比的高度非平稳环境噪声下鸟类声音识别的效果有显著的提高。

发明内容

本发明的目的是针对生态环境中各种背景噪声下的鸟类声音识别问题，提出了一种基于新型抗噪特征提取的鸟类声音识别技术。

本发明通过以下方案实现：种利用抗噪幂归一化倒谱系数的鸟类声音识别方法，其特征在于包括以下步骤：

步骤S01：根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱；

步骤S02：使用多频带谱减法对声音功率谱进行降噪处理；

步骤S03：结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。

本发明采用支持向量机（SVM）分别对提取的APNCC，幂归一化倒谱系数（PNCC）和 Mel频率倒谱系数（MFCC）对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明，提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性，更适用于信噪比低于30dB环境下的鸟类声音识别。

附图说明

图1是本发明流程示意图。

图2是本发明具体实施例的流程示意图。

图3a为纯净的公画眉声谱图。

图3b为添加10dB山间流水噪声的公画眉声谱图。

图3c为降噪后的公画眉声谱图。

图4a为3种特征对于山间流水不同信噪比的识别效果。

图4b为3种特征对于马路附近不同信噪比的识别效果。

图4c为3种特征对于雨天湖边不同信噪比的识别效果。

具体实施方式

下面结合附图及实施例子对本发明做进一步说明。

一般的噪声功率谱估计算法不能有效地估计现实环境中高度非平稳的背景噪声，因此，本发明根据一种改进的针对平稳及高度非平稳环境声音都具有良好适应性的噪声估计算法^[11]进行噪声功率谱估计。如图1所示，图1是本发明的流程示意图。该方法包括：步骤S01：根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱；步骤S02：使用多频带谱减法对声音功率谱进行降噪处理；步骤S03：结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。

为了让一般技术人员更好的理解，下面结合具体流程图2，对流程中的各步骤进行详细说明：

1噪声功率谱估计

1.1 带噪声音信号的平滑功率谱计算

带噪声音信号的数学模型可表示为式(1)。

Figure 2012103689835100002DEST_PATH_IMAGE002

(1)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE004

为带噪的声音信号，

Figure 2012103689835100002DEST_PATH_IMAGE006

为纯净的声音信号，即待识别的前景声音，

Figure 2012103689835100002DEST_PATH_IMAGE008

为附带的噪声信号。对式(1)进行FFT变换后得到其幅度谱

Figure 2012103689835100002DEST_PATH_IMAGE010

。带噪声音信号的平滑功率谱可以通过式(2)的一阶递归式计算出来。

Figure 2012103689835100002DEST_PATH_IMAGE012

(2)

其中，为带噪声音信号的平滑功率谱，

为帧索引，

为频率索引，为带噪声音信号的功率谱，为根据实际实验情况设定的平滑常量，本发明取

Figure 2012103689835100002DEST_PATH_IMAGE024

。

1.2 带噪声音信号平滑功率谱最小值追踪计算

通过连续的平均前面帧的功率谱值，本发明使用式(3)的非线性方法来追踪计算带噪声音信号功率谱的最小值。

Figure 2012103689835100002DEST_PATH_IMAGE026

(3)

其中，为带噪声音功率谱的局部最小值，

和

为根据实际实验情况设定的常量。前向因子

控制局部最小值的适应时间。本发明取

Figure 2012103689835100002DEST_PATH_IMAGE034

，

Figure 2012103689835100002DEST_PATH_IMAGE036

。

1.3 计算待识别前景声音存在的概率

带噪声音功率谱与其相应局部最小值的比值可以用式(4)表示。

Figure 2012103689835100002DEST_PATH_IMAGE038

(4)

通过该比值与频率相关的阈值的比较，当该比值比相应阈值大时，就被当作前景声音存在的频率窗口，反之，则为噪声的频率窗口。该思想是基于这样的一个原则：当不存在前景声音或者是前景声音极为微弱时，带噪声音功率谱非常接近其相应的局部最小值。因此，当式(4)的比值越小时，该频率窗口只含噪声的可能性就越大，反之亦然。根据式(5)，可对于前景声音是否存在进行判断。

Figure 2012103689835100002DEST_PATH_IMAGE040

(5)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE042

为根据实际实验情况设定的频率相关常量，本发明中用式(6)表示。

(6)

由于本发明中鸟类声音的频率范围大致在

Figure 2012103689835100002DEST_PATH_IMAGE046

，根据对3种背景噪声功率谱的分析，可以得出3种真实环境下噪声的功率谱大部分集中在低频的区域，故本发明取

Figure 2012103689835100002DEST_PATH_IMAGE048

，

Figure 2012103689835100002DEST_PATH_IMAGE050

。采样频率。

根据式(4)和式(5)的计算，前景声音存在的概率

可以通过式(7)的一阶递归式来进行更新。

Figure 2012103689835100002DEST_PATH_IMAGE054

(7)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE056

为根据实际实验情况设定的平滑常量，本发明取

Figure 2012103689835100002DEST_PATH_IMAGE058

。可以看出，上式在求解相应前景声音存在概率时，隐式的利用了其与其近邻帧前景声音存在概率之间的关系。

1.4 时-频相关平滑常量的计算

结合前景声音存在的概率

Figure 2012103689835100002DEST_PATH_IMAGE060

的计算，时-频相关平滑因子定义为式(8)。

Figure 2012103689835100002DEST_PATH_IMAGE062

(8)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE064

为根据实际实验情况设定的常量，本发明取

Figure 2012103689835100002DEST_PATH_IMAGE066

。

Figure 2012103689835100002DEST_PATH_IMAGE068

的取值范围为

Figure 2012103689835100002DEST_PATH_IMAGE070

。

1.5 噪声功率谱估计的更新

最后，通过式(8)时-频相关平滑因子

的计算，噪声功率谱估计的更新可以用式(9)表示。

Figure 2012103689835100002DEST_PATH_IMAGE072

(9)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE074

为估计的噪声幅度谱。

2 多频带谱减法

类高斯白噪声具有平谱特性，而真实环境中的噪声则具有高度的随机性，如马路附近噪声，校园环境噪声，山间噪声。真实环境中的噪声对整个声音信号整个频谱的影响并不均匀，因此，针对非平稳噪声，一般的谱减法在对声音信号进行降噪的同时，也引入了所谓的“音乐噪声”。为了减少残差噪声及声音信号失真，在此，本发明使用多频带谱减法^[12]进行降噪。具体流程如图1中多频带谱减部分所示。

2.1 平滑带噪声音幅度谱

实验表明，对估计的噪声功率谱进行平滑对于减少残差噪声是无效的。然而，对带噪声音信号的幅度谱进行平滑可以减小前景声音幅度谱的方差并且提高其质量，平滑的幅度谱可以用式(10)表示。

(10)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE078

为平滑的带噪声音幅度谱，

Figure 2012103689835100002DEST_PATH_IMAGE080

为相邻帧总帧数，本发明取

Figure 2012103689835100002DEST_PATH_IMAGE082

避免产生前景声音信号的频谱泄漏与谱间干扰。权重

Figure 2012103689835100002DEST_PATH_IMAGE084

按经验设置为

Figure 2012103689835100002DEST_PATH_IMAGE086

。

2.2 多频带谱减降噪

式(11)为带噪声音信号的功率谱的近视取值。

Figure 2012103689835100002DEST_PATH_IMAGE088

(11)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE090

为前景声音信号功率谱，

Figure 2012103689835100002DEST_PATH_IMAGE092

为估计的噪声功率谱。

对于一般的谱减法，其假定噪声对于各个频带的影响是均匀的，因此，估计的前景声音信号功率谱表示为式(12)。

Figure 2012103689835100002DEST_PATH_IMAGE094

(12)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE096

为第

帧的过减因子，对于第

帧的不同的频带都根据当前帧的总体信噪比取相同的值。

由于非平稳的有色噪声对于功率谱的各个频率范围的影响是不同的，因此引入多频带谱减算法。声音信号的功率谱被划分为

Figure 2012103689835100002DEST_PATH_IMAGE098

个互不重叠的均匀线性子频带，

Figure 2012103689835100002DEST_PATH_IMAGE100

，根据鸟类声音的频率分布，经对比实验后，本发明取。第个子频带的估计前景声音信号功率谱表示为式(13)。

Figure 2012103689835100002DEST_PATH_IMAGE106

(13)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE108

为平滑和平均后的再根据多频带划分后得出的

个子频带的带噪声音功率谱，

Figure 2012103689835100002DEST_PATH_IMAGE110

为第个子频带的估计噪声功率谱，

和分别为第

个子频带频率窗口的开始值和结束值。

Figure 2012103689835100002DEST_PATH_IMAGE116

为第

帧的第

个子频带的过减因子，用于控制第

帧的第

个子频带的减噪程度，可以通过式(14)计算第

帧的第

个子频带的功率谱信噪比

Figure 2012103689835100002DEST_PATH_IMAGE118

后得出。

(14)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE122

为非平滑的第

个子频带的带噪声音功率谱，由于子频带的信噪比高时，噪声对声音信号的影响比较小，所以设定较低的谱减权重，而子频带的信噪比低时，噪声对声音信号的影响比较大，所以设定较高的谱减权重，根据实际实验情况设定的

可以用式(15)表示。

(15)

Figure 2012103689835100002DEST_PATH_IMAGE126

为第

帧的第个子频带的子带附加控制相减因子，

可以根据具体的实验数据来对其进行经验值的设定，可以用式(16)表示。

Figure 2012103689835100002DEST_PATH_IMAGE128

(16)

其中，为第

帧的第

个子频带的频率上限。根据本发明第一部分中对于鸟叫与噪声频率范围的分析，本发明分以上3个频带来设定谱减权重的比例。

在式(13)中，当估计的前景声音信号功率谱出现负值时，采用式(17)进行更新计算。

Figure 2012103689835100002DEST_PATH_IMAGE132

(17)

其中，功率谱下限参数

取值为

Figure 2012103689835100002DEST_PATH_IMAGE136

。

为了掩盖去噪后可能残留的音乐噪声并避免出现声音信号的过度失真，本发明往估计的前景声音信号功率谱上添加5%的原始带噪声音信号功率谱，可以用式(18)表示。

Figure 2012103689835100002DEST_PATH_IMAGE138

(18)

因此，整个频带的估计的前景声音信号功率谱表示为式(19)。

Figure 2012103689835100002DEST_PATH_IMAGE140

(19)

从图3a到图3c是结合非平稳噪声估计的多频段谱减法的降噪情况，从图中可以看出，降噪后的10dB山间流水公画眉声谱图相对纯净的公画眉声谱图虽然在前景信号有所衰减，但是较为彻底地移除了背景噪声部分，因此，结合非平稳噪声估计的多频段谱减法可以较为有效地进行降噪。

3抗噪APNCC特征提取

噪声情况下，相比MFCC与感知线性预测系数（Perceptual Linear Prediction，PLP），PNCC具有较好的抗噪效果^[13]。因此，根据得到的估计的前景声音信号功率谱（以下简称声音信号功率谱）

Figure 2012103689835100002DEST_PATH_IMAGE142

，本发明采用PNCC的提取方法进行APNCC特征提取。具体流程如图1中APNCC提取部分所示。

4.1 Gammatone滤波

Gammatone（以下简称GT）滤波器是基于人耳耳蜗听觉特性的滤波器模型^[14]，具有尖锐的频率选择特性，与Mel三角滤波器相比，其更加集中了临界频带中心频率附近的声音特征，且两边过渡圆滑并能降低三角形滤波器组相邻频带之间频谱能量的泄漏。

根据声音的采样频率，经对比实验后，本发明取32阶的GT滤波器进行滤波，并且设定GT滤波器组的各个等价矩形带宽的中心频率在

Figure 2012103689835100002DEST_PATH_IMAGE144

之间均匀分布。本发明使用Auditory toolbox^[15]工具箱进行GT滤波，滤波后的声音信号能量（以下简称GT能量）可以用式(20)表示。

(20)

其中，

表示GT滤波后的等价矩形带宽（以下简称GT频带）的中心频率索引。

3.2 中间能量偏差移除

实验分析表明，背景噪声的GT能量与前景声音信号的GT能量相比，其变化速度通常都比较缓慢。为了进行背景噪声的GT能量引起的能量偏差移除，本发明通过式(21)对连续帧的GT能量取均值估计出每帧的中值GT能量。

Figure 2012103689835100002DEST_PATH_IMAGE150

(21)

其中，取

Figure 2012103689835100002DEST_PATH_IMAGE152

，相当于取7个连续帧进行中值GT能量计算。

对于每个GT频带，通过计算其所有帧的算术平均值与几何平均值的比值（Arithmetic Mean to Geometric Mean Ratio，AM/GM），我们可以估计出前景声音的明显程度。为了降低计算量，根据式(22)对AM/GM取对数计算。

Figure 2012103689835100002DEST_PATH_IMAGE154

(22)

其中，

表示声音段的总分帧数。为避免比值出现负无穷的情况，添加一个极小值

Figure 2012103689835100002DEST_PATH_IMAGE158

。

经过实验对比分析得出，随着声音信号信噪比的下降，AM/GM跟着下降。因此，得出中间能量偏差移除的思想：通过对中间能量偏差量的不断移除，使得带噪声音信号的AM/GM不断上升，直到逼近纯净声音信号的AM/GM为止。

进行中间能量偏差移除，首先要得到每个GT频带中间能量偏差估计值的逼近值

Figure 2012103689835100002DEST_PATH_IMAGE162

。本发明

的取值进行动态的估计，从相对于第

个GT频带的平均能量的信噪比为-50dB开始，信噪比不断增加1dB直至最后中间能量偏差完全移除。

由中间能量偏差估计值的逼近值

可以计算出移除中间能量偏差的中值GT能量，用式(23)表示。

(23)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE168

是一个很小的常量，用于避免

Figure 2012103689835100002DEST_PATH_IMAGE170

出现负值的情况，本发明中取值为

Figure 2012103689835100002DEST_PATH_IMAGE172

。

根据式(22)和式(23)，可以计算出移除中间能量偏差后的AM/GM，用式(24)表示。

Figure 2012103689835100002DEST_PATH_IMAGE174

(24)

其中，式(25)为下限参数

Figure 2012103689835100002DEST_PATH_IMAGE176

的定义。

Figure 2012103689835100002DEST_PATH_IMAGE178

(25)

实验表明，引入

可以获得更加好的中间能量偏差移除效果。本发明取

Figure 2012103689835100002DEST_PATH_IMAGE180

，表示

相对于第个GT频带的平均能量的信噪比为-30dB。

根据中间能量偏差估计值的逼近值

从小到大依次代入式(26)进行计算，可以得出中间能量偏差估计值。

(26)

其中，

Figure 2012103689835100002DEST_PATH_IMAGE184

为纯净前景声音的AM/GM。

计算出

后，根据式(21)和式(23)，可以得到每个GT频带的能量归一化增益，用式(27)表示。

Figure 2012103689835100002DEST_PATH_IMAGE186

(27)

根据式(28)对GT能量进行平滑可得移除中间能量偏差后声音信号的GT能量。

Figure 2012103689835100002DEST_PATH_IMAGE188

(28)

其中，

为总的GT频带数，本发明取

，

进行GT频带间的平滑计算。

3.3 提取APNCC

与MFCC提取中使用对数函数不同，本发明使用式(29)的非线性幂函数进行变换。

(29)

最后，根据式(30)对

进行离散余弦变换（Discrete Cosine Transform，DCT）得到APNCC。

(30)

其中，

，

，本发明中，取

。

4 实验与结果分析

4.1 声音样本集

实验用到的34种纯净鸟叫声大部分来自Freesound^[16]声音数据库，分别为白面鸡、董鸡、公鹧鸪、母鹧鸪、黑水鸡、红毛鸡、山斑鸠、朱颈斑鸠、雉鸡、秧鸡、褐雨燕、绣眼、赭红尾鸲、鹫、麻雀、乌鸦、杜鹃、鸽子、鸭、鹊、猫头鹰、欧亚鸲、海鸥、天鹅、燕鸥、公画眉、母画眉、母画眉狂叫、母绣眼、公绣眼、母竹鸡大叫、竹鸡破声、竹鸡仔叫、竹鸡求伴打旺。实验用到的3种背景声音为使用SONY ICD-UX512F录音棒以44.1kHz的采样频率录取的真实环境声音，分别为马路附近噪声，雨天湖边噪声、山间流水噪声。

以上声音文件的编码格式和长度没有统一的规范，且经声谱图分析，34种鸟叫声可以根据声谱图频率低于4kHz的部分进行分类。因此，本发明中所有的声音都转换为采样频率为8kHz、采样位数为16b，时长为2s的单声道WAV格式声音段。经处理后，每种纯净鸟叫声都含有36个声音段，总共1224个声音段。然后对每个声音段按信噪比为40dB，30dB，20dB，10dB，0dB，-10dB分别添加3种背景噪声。

4.2 实验设计

本发明对声音段先进行预处理，首先对声音段归一化处理后使用一阶FIR数字滤波器进行预加重，，取

。然后进行分帧，并加Hamming窗，帧长32ms（256个采样点），帧移16ms（128个采样点）。接着，对每帧进行离散傅里叶变换（Discrete Fourier Transform，DFT）。最后，分别提取了APNCC，PNCC及MFCC这3种特征结合LIBSVM^[17]工具箱进行实验效果对比。

对于每种鸟叫声，本发明每次随机选取6个纯净的声音段作为训练样本，其余30个纯净声音段及其相应的不同背景噪声下不同信噪比的声音段分别作为各自情况下的测试样本。进行10次随机选取后，求得最终的平均识别率。

4.3 结果与分析

APNCC，PNCC，MFCC对于3种环境下不同信噪比的平均识别率如表1所示。由实验结果可得出，对于这3种环境下的不同信噪比的平均识别率均值，APNCC相比PNCC和MFCC都有较大的提高，这说明了APNCC更普遍适用于噪声环境下的鸟类声音识别，具有较好的噪声鲁棒性。

对于纯净的鸟类声音识别，3种特征的识别效果都很好，识别率都达到94%以上，其中，MFCC可以获得最高的平均识别率，这说明MFCC更适用于无噪声环境下的鸟类声音识别。在信噪比为40dB的3种环境的微小噪声情况下，使用3种特征的识别效果略有下降，但也都在90%以上，而PNCC的平均识别率最高。这说明了在噪声极小的情况下，APNCC的提取过程中包含了2个降噪的步骤：结合非平稳噪声估计的多频段谱减去噪和中间能量偏差移除去噪。因此，在降噪的过程中出现了由过分去噪带来的较小的信号失真，只对识别效果产生很小的影响。随着噪声的增大，在信噪比低于30dB的3种环境噪声情况下，使用APNCC的平均识别率都为最高，MFCC的平均识别率都为最低。这说明了APNCC对于不同的非平稳环境噪声具有较好的鲁棒性，PNCC本身具有一定的抗噪性，而MFCC对噪声敏感且抗噪性差。

从图4a到图4c是3种特征对于3种环境下不同信噪比的识别效果图，从图中可以看出，对于这3种环境噪声情况，在信噪比逐渐降低到10dB的过程中，APNCC的平均识别率下降速度最平缓，说明了该信噪比范围内APNCC有良好的噪声鲁棒性，而MFCC受噪声的影响最大，平均识别率迅速下降。在信噪比降低为0dB的情况下，APNCC的平均识别率虽然出现了大幅度的下降且低于50%，但也显著高于PNCC与MFCC。在信噪比降低为-10dB的情况下，对于马路附近的噪声，由于其主要集中在低频区域对于鸟类声音的频率影响较小，故APNCC的平均识别率还维持在30%左右，而APNCC针对其他2种背景噪声的平均识别率则降低到10%左右。

表1 这3种特征对于3种环境下不同信噪比的平均识别率

5 结论

本发明针对非平稳的真实环境噪声下的鸟类声音识别问题，提出了一种新型的经两阶段去噪的抗噪APNCC特征与SVM分类器相结合的方法。实验表明，对于3种不同的非平稳环境噪声存在的情况，APNCC的平均识别效果明显优于具有一定抗噪性的PNCC和噪声敏感的MFCC。因此，APNCC具有较好的非平稳噪声鲁棒性且适用于环境噪声下的鸟类声音识别。但对于信噪比在0dB及更大的噪声环境情况，APNCC的抗噪效果有限且声音信号会出现不同程度的失真，识别效果出现较大的下降。下一阶段的研究将着重于通过对APNCC提取中的各阶段采用的方法和参数进行改进来提高0dB及更大的噪声环境情况下的识别效果，以及推广APNCC在各种非平稳的真实环境背景噪声情况下的前景声音识别中的应用。

参考文献:

[1] P SOMERVUO, A HARMA, S FAGERLUND. Parametric representations of bird sounds for automatic species recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(6): 2252–2263.

[2] E VILCHES, I A ESCOBAR, E E VALLEJO, et al. Data mining applied to acoustic bird species recognition[A]. The 18th International Conference on Pattern Recognition[C]. Hong Kong, China: IEEE Computer Society, 2006: 400-403.

[3] S FAGERLUND. Bird species recognition using support vector machines[J]. EURASIP Journal of Advances in Signal Processing, 2007, 2007(1): 1-8.

[4] P SOMERVUO, A HARMA. Bird song recognition based on syllable pair histograms[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Montreal, Canada: IEEE Press, 2004: 825-828.

[5] J CHENG, Y SUN, L JI. A call-independent and automatic acoustic system for the individual recognition of animals: a novel model using four passerines[J]. Pattern Recognition, 2010, 43(11): 3846-3852.

[6] M T LOPES, C N SILLA, A L KOERICH, et al. Feature set comparison for automatic bird species identification[A]. IEEE International Conference on Systems, Man, and Cybernetics[C]. Anchorage, Alaska: IEEE Press, 2011: 965-970.

[7] 冯霞, 龚晓峰, 张利丹, 武瑞娟. 基于纹理特征的背景噪声提取的应用研究[J]. 电子学报, 2009, 37(9): 2092-2095.

FENG Xia, GONG Xiao-feng, ZHANG Li-dan, WU Rui-juan. Research of Background Noise Extraction Based on Texture Feature[J]. Acta Electronica Sinica, 2009, 37(9): 2092-2095. (in Chinese)

[8] W CHU, D T BLUMSTEIN. Noise robust bird song detection using syllable pattern-based hidden markov models[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Prague, Czech Republic: IEEE Press, 2011: 345-348.

[9] A SELIN, J TURUNEN, J T TANTTU. Wavelets in recognition of bird sounds[J]. EURASIP Journal on Advances in Signal Processing, 2007, 2007(1): 1-9.

[10] R BARDELI, D WOLFF, F KURTH, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.

[11] S RANGACHARI, P C LOIZOU. A noise estimation algorithm for highly non-stationary environments[J]. Speech Communication, 2006, 48(2): 220-231.

[12] S KAMATH, P LOIZOU. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Orlando, FL: IEEE Press, 2002: IV-4164 - IV-4164.

[13] C KIM, R STERN. Feature extraction for robust speech recognition based on maximizing the sharpness of the power distribution and on power flooring[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Dallas, TX: IEEE Press, 2010: 4574-4577.

[14] 王玥, 钱志鸿, 王雪, 程光明. 基于伽马通滤波器组的听觉特征提取算法研究[J]. 电子学报, 2010, 38(3): 525-528.

WANG Yue, QIAN Zhi-hong, WANG Xue, CHENG Guang-ming. An Auditory Feature Extraction Algorithm Based on γ-Tone Filter-Banks[J]. Acta Electronica Sinica, 2010, 38(3): 525-528. (in Chinese)

[15] M SLANEY. Auditory toolbox version 2 [CP/OL]. [2012-5-14]. https://engineering.purdue.edu/~malcolm/interval/1998-

010/AuditoryToolbox.zip.

[16] Universitat Pompeu Fabra. Repository of sound under the creative commons license, Freesound.org [DB/OL]. [2012-5-14]. http://www.freesound.org/.

[17] C C CHANG, C J LIN. LIBSVM version 3.12 [CP/OL]. [2012-5-14]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/ libsvm-3.12.zip.

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法，其特征在于包括以下步骤：

步骤S02：使用多频带谱减法对声音功率谱进行降噪处理；

步骤S03：结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC；所述步骤S01采用以下步骤实现：

步骤S011:计算带噪声音信号的平滑功率谱：对带噪声音信号的数学模型进行FFT变换后得到该噪声音信号的幅度谱

，然后通过一阶递归式

计算出该平滑功率谱，其中

为带噪的声音信号，为纯净的声音信号，

为附带的噪声信号，

为带噪声音信号的平滑功率谱，

为帧索引，

为频率索引，

为带噪声音信号的功率谱，

为平滑常量；

步骤S012：进行带噪声音信号平滑功率谱最小值追踪计算：采用非线性通过下式追踪计算带噪声音信号功率谱的最小值，

其中，

为带噪声音功率谱的局部最小值，和

为常量；

步骤S013：计算声音平滑功率与其相应局部最小值的比值：

；通过该比值与频率相关的阈值的比较，当该比值比相应阈值大时，就被当作前景声音存在的频率窗口，反之，则为噪声的频率窗口；

步骤S014：根据

对前景声音是否存在进行判断，其中

为频率相关常量，可表示为：

，

，

，采样频率

；

步骤S015：通过式

的一阶递归式计算前景声音存在的概率

，其中，为平滑常量，取

；

步骤S016：计算时-频相关的平滑因子

；其中，为常量，取

，

的取值范围为；

步骤S017：根据所述时-频相关的平滑因子更新估计的噪声功率谱

，其中，为估计的噪声幅度谱。

2.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法，其特征在于：所述的

=0.7，

=0.8，

=0.998。

3.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法，其特征在于：所述步骤S02采用以下步骤实现：

步骤S021：通过

平滑带噪声音幅度谱，其中，

为平滑的带噪声音幅度谱，为相邻帧总帧数，取；权重

设置为；

步骤S022：真实环境下的背景噪声绝大多数为加性噪声，因此，带噪声音平滑功率谱表示为

，其中，为前景声音信号功率谱，

为估计的噪声功率谱；

步骤S023：根据所述步骤S022，针对多频带谱减问题，用

表示估计的前景声音信号功率谱，其中

为第

帧的过减因子，对于第帧的不同的频带都根据当前帧的总体信噪比取相同的值；声音信号的功率谱被划分为

个互不重叠的均匀线性子频带，

；第

个子频带的估计前景声音信号功率谱表示为：

其中，为平滑和平均后的

再根据多频带划分后得出的

个子频带的带噪声音功率谱，

为第

个子频带的估计噪声功率谱，

和

分别为第

个子频带频率窗口的开始值和结束值；

为第

帧的第

个子频带的过减因子，用于控制第帧的第

个子频带的减噪程度，该

能通过式

计算第

帧的第

个子频带的功率谱信噪比

后得出；其中，

为非平滑的第

个子频带的带噪声音功率谱；设定

，

；其中，

为第

帧的第

个子频带的频率上限；

步骤S024：在所述步骤S023第个子频带的估计前景声音信号功率谱的式中，当当估计的前景声音信号功率谱出现负值时，采用

进行更新计算，其中，功率谱下限参数

取值为

；

步骤S025：为了掩盖去噪后可能残留的音乐噪声并避免出现声音信号的过度失真，往估计的前景声音信号功率谱上添加5%的原始带噪声音信号功率谱，用式

表示；则整个频带的估计的前景声音信号功率谱表示为式

。

4.根据权利要求3所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法，其特征在于：所述的N=6。

5.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法，其特征在于：所述步骤S03采用以下步骤实现：

步骤S031：采用32阶的GT滤波器进行滤波，并且设定GT滤波器组的各个等价矩形带宽的中心频率在

之间均匀分布；滤波后的声音信号能量简称GT信号能量，用式

表示；其中，

表示GT滤波后的等价矩形带宽的中心频率索引，该等价矩形带宽简称GT频带；

步骤S032：中间能量偏差移除：

通过式(21)对连续帧的GT能量取均值估计出每帧的中值GT能量；

(21) 其中，取

；

对于每个GT频带，通过计算其所有帧的算术平均值与几何平均值的比值AM/GM，估计出前景声音的明显程度，根据式(22)对AM/GM取对数计算，

(22)

其中，

表示声音段的总分帧数，

；

获取每个GT频带中间能量偏差估计值

的逼近值

，从相对于第

个GT频带的平均能量的信噪比为-50dB开始，信噪比不断增加1dB直至最后中间能量偏差完全移除；由中间能量偏差估计值的逼近值

计算出移除中间能量偏差的中值GT能量，用式(23)表示，

(23) 其中，

=

；

根据式(22)和式(23)，计算出移除中间能量偏差后的AM/GM，用式(24)表示，

(24)

其中，式(25)为下限参数

的定义，

(25) 其中

，表示

相对于第

个GT频带的平均能量的信噪比为-30dB；

根据中间能量偏差估计值的逼近值从小到大依次代入式(26)进行计算，得出中间能量偏差估计值；

(26)

其中，

为纯净前景声音的AM/GM；

计算出后，根据式(21)和式(23)，得到每个GT频带的能量归一化增益，用式(27)表示，

(27)

根据式(28)对GT能量进行平滑可得移除中间能量偏差后声音信号的GT能量，

(28)

其中，为总的GT频带数取

，

进行GT频带间的平滑计算；

步骤S033：提取APNCC：使用式(29)的非线性幂函数进行变换；

(29)

最后，根据式(30)对进行离散余弦变换得到APNCC，

(30)

其中，

，

，本发明中，取

。