CN102930870B - 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 - Google Patents
利用抗噪幂归一化倒谱系数的鸟类声音识别方法 Download PDFInfo
- Publication number
- CN102930870B CN102930870B CN201210368983.5A CN201210368983A CN102930870B CN 102930870 B CN102930870 B CN 102930870B CN 201210368983 A CN201210368983 A CN 201210368983A CN 102930870 B CN102930870 B CN 102930870B
- Authority
- CN
- China
- Prior art keywords
- noise
- power spectrum
- signal
- formula
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明针对生态环境中各种背景噪声下的鸟类声音识别问题,提出了一种基于新型抗噪特征提取的鸟类声音识别技术。首先,根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱。其次,使用多频带谱减法对声音功率谱进行降噪处理。接着,结合降噪的声音功率谱提取抗噪幂归一化倒谱系数(APNCC)。最后,采用支持向量机(SVM)分别对提取的APNCC,幂归一化倒谱系数(PNCC)和Mel频率倒谱系数(MFCC)对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明,提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB环境下的鸟类声音识别。
Description
技术领域
本发明涉及一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法。
背景技术
生态环境下的鸟类声音包含着丰富的信息,例如,通过判断某个地区一年四季是否有指定鸟类的叫声,可以了解该地区的生态状况及气候变化。通过在森林,原野等地使用自动监听和识别鸟类声音的技术对濒临灭绝的鸟类进行侦察,有利于人类及时发现它们的行踪并采取相应的保护措施等。鸟类声音的识别不仅可以分析鸟类本身的行为等特征,而且可以对与鸟类有关的外界生态环境及相关影响领域做分析。
近年来,借鉴较为成熟的语音识别技术,学者们对鸟类声音识别领域做了深入的研究并取得了丰富的成果。文献[1]对比了基于音节的正弦曲线建模和MFCC的特征提取方法在14种北欧鸟类声音识别中的效果。文献[2]从分类器的角度分别采用ID3、J4.8、朴素贝叶斯算法来进行鸟类声音识别对比。文献[3]提出MFCC结合SVM的鸟类声音分类。文献[4]通过分析鸟类声音音节对的柱状图来进行鸟叫声的分类。文献[5]使用MFCC及高斯混合模型(Gaussian Mixture Model,GMM)进行不依赖于个体叫声变化的四种雀形目的鸟类声音分类。文献[6]经过对比实验,使用广泛应用于音乐语义特征的“MARSYAS”特征集,结合多层感知器(Multilayer Perceptron,MLP)的人工神经网络(Artificial Neural Network,ANN),具有较好的鸟类声音识别效果。背景噪声的检测提取和滤除一直是信号处理领域的基本问题[7],在真实的生态环境中,各种环境噪声是普遍存在的。因此,对于噪声环境下的鸟类声音识别具有重要的现实意义。文献[8]通过对基于帧的线性预测编码(Linear Predictive Coding,LPC)的分层聚类分析,提取出噪声环境下欧亚鸲声音段中的有效音节,结合隐马尔可夫模型(Hidden Markov Model,HMM)进行分类。文献[9]在对声音进行噪声滤波后,通过小波变换提取鸟叫声音特征,并结合基于MLP的ANN来进行鸟叫声识别。文献[10]使用谱减法,功率谱分析及自相关分析对复杂声音环境下的两种鸟类声音识别。
生态环境中的背景噪声具有非平稳的特点,而现有的大多数方法主要针对特定的噪声环境来进行鸟类声音识别,并没有提出一种普遍适用于生态环境中各种非平稳噪声下的鸟类声音识别方法。因此,本发明提出了一种非平稳噪声功率谱估计,多频带谱减法与PNCC特征提取相结合的抗噪特征APNCC提取方法并使用SVM进行鸟类声音识别。实验结果表明,该方法对不同信噪比的高度非平稳环境噪声下鸟类声音识别的效果有显著的提高。
发明内容
本发明的目的是针对生态环境中各种背景噪声下的鸟类声音识别问题,提出了一种基于新型抗噪特征提取的鸟类声音识别技术。
本发明通过以下方案实现:种利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于包括以下步骤:
步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;
步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;
步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。
本发明采用支持向量机(SVM)分别对提取的APNCC,幂归一化倒谱系数(PNCC)和 Mel频率倒谱系数(MFCC)对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明,提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB环境下的鸟类声音识别。
附图说明
图1是本发明流程示意图。
图2是本发明具体实施例的流程示意图。
图3a为纯净的公画眉声谱图。
图3b为添加10dB山间流水噪声的公画眉声谱图。
图3c为降噪后的公画眉声谱图。
图4a为3种特征对于山间流水不同信噪比的识别效果。
图4b为3种特征对于马路附近不同信噪比的识别效果。
图4c为3种特征对于雨天湖边不同信噪比的识别效果。
具体实施方式
下面结合附图及实施例子对本发明做进一步说明。
一般的噪声功率谱估计算法不能有效地估计现实环境中高度非平稳的背景噪声,因此,本发明根据一种改进的针对平稳及高度非平稳环境声音都具有良好适应性的噪声估计算法[11]进行噪声功率谱估计。如图1所示,图1是本发明的流程示意图。该方法包括:步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。
为了让一般技术人员更好的理解,下面结合具体流程图2,对流程中的各步骤进行详细说明:
1噪声功率谱估计
1.1 带噪声音信号的平滑功率谱计算
带噪声音信号的数学模型可表示为式(1)。
1.2 带噪声音信号平滑功率谱最小值追踪计算
通过连续的平均前面帧的功率谱值,本发明使用式(3)的非线性方法来追踪计算带噪声音信号功率谱的最小值。
1.3 计算待识别前景声音存在的概率
带噪声音功率谱与其相应局部最小值的比值可以用式(4)表示。
通过该比值与频率相关的阈值的比较,当该比值比相应阈值大时,就被当作前景声音存在的频率窗口,反之,则为噪声的频率窗口。该思想是基于这样的一个原则:当不存在前景声音或者是前景声音极为微弱时,带噪声音功率谱非常接近其相应的局部最小值。因此,当式(4)的比值越小时,该频率窗口只含噪声的可能性就越大,反之亦然。根据式(5),可对于前景声音是否存在进行判断。
(6)
1.4 时-频相关平滑常量的计算
1.5 噪声功率谱估计的更新
2 多频带谱减法
类高斯白噪声具有平谱特性,而真实环境中的噪声则具有高度的随机性,如马路附近噪声,校园环境噪声,山间噪声。真实环境中的噪声对整个声音信号整个频谱的影响并不均匀,因此,针对非平稳噪声,一般的谱减法在对声音信号进行降噪的同时,也引入了所谓的“音乐噪声”。为了减少残差噪声及声音信号失真,在此,本发明使用多频带谱减法[12]进行降噪。具体流程如图1中多频带谱减部分所示。
2.1 平滑带噪声音幅度谱
实验表明,对估计的噪声功率谱进行平滑对于减少残差噪声是无效的。然而,对带噪声音信号的幅度谱进行平滑可以减小前景声音幅度谱的方差并且提高其质量,平滑的幅度谱可以用式(10)表示。
(10)
2.2 多频带谱减降噪
式(11)为带噪声音信号的功率谱的近视取值。
对于一般的谱减法,其假定噪声对于各个频带的影响是均匀的,因此,估计的前景声音信号功率谱表示为式(12)。
由于非平稳的有色噪声对于功率谱的各个频率范围的影响是不同的,因此引入多频带谱减算法。声音信号的功率谱被划分为个互不重叠的均匀线性子频带,,根据鸟类声音的频率分布,经对比实验后,本发明取。第个子频带的估计前景声音信号功率谱表示为式(13)。
(14)
其中,为非平滑的第个子频带的带噪声音功率谱,由于子频带的信噪比高时,噪声对声音信号的影响比较小,所以设定较低的谱减权重,而子频带的信噪比低时,噪声对声音信号的影响比较大,所以设定较高的谱减权重,根据实际实验情况设定的可以用式(15)表示。
(15)
在式(13)中,当估计的前景声音信号功率谱出现负值时,采用式(17)进行更新计算。
为了掩盖去噪后可能残留的音乐噪声并避免出现声音信号的过度失真,本发明往估计的前景声音信号功率谱上添加5%的原始带噪声音信号功率谱,可以用式(18)表示。
因此,整个频带的估计的前景声音信号功率谱表示为式(19)。
从图3a到图3c是结合非平稳噪声估计的多频段谱减法的降噪情况,从图中可以看出,降噪后的10dB山间流水公画眉声谱图相对纯净的公画眉声谱图虽然在前景信号有所衰减,但是较为彻底地移除了背景噪声部分,因此,结合非平稳噪声估计的多频段谱减法可以较为有效地进行降噪。
3抗噪APNCC特征提取
噪声情况下,相比MFCC与感知线性预测系数(Perceptual Linear Prediction,PLP),PNCC具有较好的抗噪效果[13]。因此,根据得到的估计的前景声音信号功率谱(以下简称声音信号功率谱),本发明采用PNCC的提取方法进行APNCC特征提取。具体流程如图1中APNCC提取部分所示。
4.1 Gammatone滤波
Gammatone(以下简称GT)滤波器是基于人耳耳蜗听觉特性的滤波器模型[14],具有尖锐的频率选择特性,与Mel三角滤波器相比,其更加集中了临界频带中心频率附近的声音特征,且两边过渡圆滑并能降低三角形滤波器组相邻频带之间频谱能量的泄漏。
根据声音的采样频率,经对比实验后,本发明取32阶的GT滤波器进行滤波,并且设定GT滤波器组的各个等价矩形带宽的中心频率在之间均匀分布。本发明使用Auditory toolbox[15]工具箱进行GT滤波,滤波后的声音信号能量(以下简称GT能量)可以用式(20)表示。
(20)
3.2 中间能量偏差移除
实验分析表明,背景噪声的GT能量与前景声音信号的GT能量相比,其变化速度通常都比较缓慢。为了进行背景噪声的GT能量引起的能量偏差移除,本发明通过式(21)对连续帧的GT能量取均值估计出每帧的中值GT能量。
对于每个GT频带,通过计算其所有帧的算术平均值与几何平均值的比值(Arithmetic Mean to Geometric Mean Ratio,AM/GM),我们可以估计出前景声音的明显程度。为了降低计算量,根据式(22)对AM/GM取对数计算。
经过实验对比分析得出,随着声音信号信噪比的下降,AM/GM跟着下降。因此,得出中间能量偏差移除的思想:通过对中间能量偏差量的不断移除,使得带噪声音信号的AM/GM不断上升,直到逼近纯净声音信号的AM/GM为止。
进行中间能量偏差移除,首先要得到每个GT频带中间能量偏差估计值的逼近值。本发明的取值进行动态的估计,从相对于第个GT频带的平均能量的信噪比为-50dB开始,信噪比不断增加1dB直至最后中间能量偏差完全移除。
(23)
根据式(22)和式(23),可以计算出移除中间能量偏差后的AM/GM,用式(24)表示。
(26)
根据式(28)对GT能量进行平滑可得移除中间能量偏差后声音信号的GT能量。
3.3 提取APNCC
与MFCC提取中使用对数函数不同,本发明使用式(29)的非线性幂函数进行变换。
4 实验与结果分析
4.1 声音样本集
实验用到的34种纯净鸟叫声大部分来自Freesound[16]声音数据库,分别为白面鸡、董鸡、公鹧鸪、母鹧鸪、黑水鸡、红毛鸡、山斑鸠、朱颈斑鸠、雉鸡、秧鸡、褐雨燕、绣眼、赭红尾鸲、鹫、麻雀、乌鸦、杜鹃、鸽子、鸭、鹊、猫头鹰、欧亚鸲、海鸥、天鹅、燕鸥、公画眉、母画眉、母画眉狂叫、母绣眼、公绣眼、母竹鸡大叫、竹鸡破声、竹鸡仔叫、竹鸡求伴打旺。实验用到的3种背景声音为使用SONY ICD-UX512F录音棒以44.1kHz的采样频率录取的真实环境声音,分别为马路附近噪声,雨天湖边噪声、山间流水噪声。
以上声音文件的编码格式和长度没有统一的规范,且经声谱图分析,34种鸟叫声可以根据声谱图频率低于4kHz的部分进行分类。因此,本发明中所有的声音都转换为采样频率为8kHz、采样位数为16b,时长为2s的单声道WAV格式声音段。经处理后,每种纯净鸟叫声都含有36个声音段,总共1224个声音段。然后对每个声音段按信噪比为40dB,30dB,20dB,10dB,0dB,-10dB分别添加3种背景噪声。
4.2 实验设计
本发明对声音段先进行预处理,首先对声音段归一化处理后使用一阶FIR数字滤波器进行预加重,,取。然后进行分帧,并加Hamming窗,帧长32ms(256个采样点),帧移16ms(128个采样点)。接着,对每帧进行离散傅里叶变换(Discrete Fourier Transform,DFT)。最后,分别提取了APNCC,PNCC及MFCC这3种特征结合LIBSVM[17]工具箱进行实验效果对比。
对于每种鸟叫声,本发明每次随机选取6个纯净的声音段作为训练样本,其余30个纯净声音段及其相应的不同背景噪声下不同信噪比的声音段分别作为各自情况下的测试样本。进行10次随机选取后,求得最终的平均识别率。
4.3 结果与分析
APNCC,PNCC,MFCC对于3种环境下不同信噪比的平均识别率如表1所示。由实验结果可得出,对于这3种环境下的不同信噪比的平均识别率均值,APNCC相比PNCC和MFCC都有较大的提高,这说明了APNCC更普遍适用于噪声环境下的鸟类声音识别,具有较好的噪声鲁棒性。
对于纯净的鸟类声音识别,3种特征的识别效果都很好,识别率都达到94%以上,其中,MFCC可以获得最高的平均识别率,这说明MFCC更适用于无噪声环境下的鸟类声音识别。在信噪比为40dB的3种环境的微小噪声情况下,使用3种特征的识别效果略有下降,但也都在90%以上,而PNCC的平均识别率最高。这说明了在噪声极小的情况下,APNCC的提取过程中包含了2个降噪的步骤:结合非平稳噪声估计的多频段谱减去噪和中间能量偏差移除去噪。因此,在降噪的过程中出现了由过分去噪带来的较小的信号失真,只对识别效果产生很小的影响。随着噪声的增大,在信噪比低于30dB的3种环境噪声情况下,使用APNCC的平均识别率都为最高,MFCC的平均识别率都为最低。这说明了APNCC对于不同的非平稳环境噪声具有较好的鲁棒性,PNCC本身具有一定的抗噪性,而MFCC对噪声敏感且抗噪性差。
从图4a到图4c是3种特征对于3种环境下不同信噪比的识别效果图,从图中可以看出,对于这3种环境噪声情况,在信噪比逐渐降低到10dB的过程中,APNCC的平均识别率下降速度最平缓,说明了该信噪比范围内APNCC有良好的噪声鲁棒性,而MFCC受噪声的影响最大,平均识别率迅速下降。在信噪比降低为0dB的情况下,APNCC的平均识别率虽然出现了大幅度的下降且低于50%,但也显著高于PNCC与MFCC。在信噪比降低为-10dB的情况下,对于马路附近的噪声,由于其主要集中在低频区域对于鸟类声音的频率影响较小,故APNCC的平均识别率还维持在30%左右,而APNCC针对其他2种背景噪声的平均识别率则降低到10%左右。
表1 这3种特征对于3种环境下不同信噪比的平均识别率
5 结论
本发明针对非平稳的真实环境噪声下的鸟类声音识别问题,提出了一种新型的经两阶段去噪的抗噪APNCC特征与SVM分类器相结合的方法。实验表明,对于3种不同的非平稳环境噪声存在的情况,APNCC的平均识别效果明显优于具有一定抗噪性的PNCC和噪声敏感的MFCC。因此,APNCC具有较好的非平稳噪声鲁棒性且适用于环境噪声下的鸟类声音识别。但对于信噪比在0dB及更大的噪声环境情况,APNCC的抗噪效果有限且声音信号会出现不同程度的失真,识别效果出现较大的下降。下一阶段的研究将着重于通过对APNCC提取中的各阶段采用的方法和参数进行改进来提高0dB及更大的噪声环境情况下的识别效果,以及推广APNCC在各种非平稳的真实环境背景噪声情况下的前景声音识别中的应用。
参考文献:
[1] P SOMERVUO, A HARMA, S FAGERLUND. Parametric representations of bird sounds for automatic species recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(6): 2252–2263.
[2] E VILCHES, I A ESCOBAR, E E VALLEJO, et al. Data mining applied to acoustic bird species recognition[A]. The 18th International Conference on Pattern Recognition[C]. Hong Kong, China: IEEE Computer Society, 2006: 400-403.
[3] S FAGERLUND. Bird species recognition using support vector machines[J]. EURASIP Journal of Advances in Signal Processing, 2007, 2007(1): 1-8.
[4] P SOMERVUO, A HARMA. Bird song recognition based on syllable pair histograms[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Montreal, Canada: IEEE Press, 2004: 825-828.
[5] J CHENG, Y SUN, L JI. A call-independent and automatic acoustic system for the individual recognition of animals: a novel model using four passerines[J]. Pattern Recognition, 2010, 43(11): 3846-3852.
[6] M T LOPES, C N SILLA, A L KOERICH, et al. Feature set comparison for automatic bird species identification[A]. IEEE International Conference on Systems, Man, and Cybernetics[C]. Anchorage, Alaska: IEEE Press, 2011: 965-970.
[7] 冯霞, 龚晓峰, 张利丹, 武瑞娟. 基于纹理特征的背景噪声提取的应用研究[J]. 电子学报, 2009, 37(9): 2092-2095.
FENG Xia, GONG Xiao-feng, ZHANG Li-dan, WU Rui-juan. Research of Background Noise Extraction Based on Texture Feature[J]. Acta Electronica Sinica, 2009, 37(9): 2092-2095. (in Chinese)
[8] W CHU, D T BLUMSTEIN. Noise robust bird song detection using syllable pattern-based hidden markov models[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Prague, Czech Republic: IEEE Press, 2011: 345-348.
[9] A SELIN, J TURUNEN, J T TANTTU. Wavelets in recognition of bird sounds[J]. EURASIP Journal on Advances in Signal Processing, 2007, 2007(1): 1-9.
[10] R BARDELI, D WOLFF, F KURTH, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.
[11] S RANGACHARI, P C LOIZOU. A noise estimation algorithm for highly non-stationary environments[J]. Speech Communication, 2006, 48(2): 220-231.
[12] S KAMATH, P LOIZOU. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Orlando, FL: IEEE Press, 2002: IV-4164 - IV-4164.
[13] C KIM, R STERN. Feature extraction for robust speech recognition based on maximizing the sharpness of the power distribution and on power flooring[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Dallas, TX: IEEE Press, 2010: 4574-4577.
[14] 王玥, 钱志鸿, 王雪, 程光明. 基于伽马通滤波器组的听觉特征提取算法研究[J]. 电子学报, 2010, 38(3): 525-528.
WANG Yue, QIAN Zhi-hong, WANG Xue, CHENG Guang-ming. An Auditory Feature Extraction Algorithm Based on γ-Tone Filter-Banks[J]. Acta Electronica Sinica, 2010, 38(3): 525-528. (in Chinese)
[15] M SLANEY. Auditory toolbox version 2 [CP/OL]. [2012-5-14]. https://engineering.purdue.edu/~malcolm/interval/1998-
010/AuditoryToolbox.zip.
[16] Universitat Pompeu Fabra. Repository of sound under the creative commons license, Freesound.org [DB/OL]. [2012-5-14]. http://www.freesound.org/.
[17] C C CHANG, C J LIN. LIBSVM version 3.12 [CP/OL]. [2012-5-14]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/ libsvm-3.12.zip.
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于包括以下步骤:
步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;
步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;
步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC;所述步骤S01采用以下步骤实现:
步骤S011:计算带噪声音信号的平滑功率谱:对带噪声音信号的数学模型 进行FFT变换后得到该噪声音信号的幅度谱,然后通过一阶递归式计算出该平滑功率谱,其中为带噪的声音信号,为纯净的声音信号,为附带的噪声信号,为带噪声音信号的平滑功率谱,为帧索引,为频率索引,为带噪声音信号的功率谱,为平滑常量;
步骤S012:进行带噪声音信号平滑功率谱最小值追踪计算:采用非线性通过下式追踪计算带噪声音信号功率谱的最小值,
3.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述步骤S02采用以下步骤实现:
步骤S023:根据所述步骤S022,针对多频带谱减问题,用表示估计的前景声音信号功率谱,其中为第帧的过减因子,对于第帧的不同的频带都根据当前帧的总体信噪比取相同的值;声音信号的功率谱被划分为个互不重叠的均匀线性子频带,;第个子频带的估计前景声音信号功率谱表示为:其中,为平滑和平均后的再根据多频带划分后得出的个子频带的带噪声音功率谱,为第个子频带的估计噪声功率谱,和分别为第个子频带频率窗口的开始值和结束值;为第帧的第个子频带的过减因子,用于控制第帧的第个子频带的减噪程度,该能通过式计算第帧的第个子频带的功率谱信噪比后得出;其中,为非平滑的第个子频带的带噪声音功率谱;设定,;其中,为第帧的第个子频带的频率上限;
4.根据权利要求3所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述的N=6。
5.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述步骤S03采用以下步骤实现:
步骤S031:采用32阶的GT滤波器进行滤波,并且设定GT滤波器组的各个等价矩形带宽的中心频率在之间均匀分布;滤波后的声音信号能量简称GT信号能量,用式表示;其中,表示GT滤波后的等价矩形带宽的中心频率索引,该等价矩形带宽简称GT频带;
步骤S032:中间能量偏差移除:
通过式(21)对连续帧的GT能量取均值估计出每帧的中值GT能量;
对于每个GT频带,通过计算其所有帧的算术平均值与几何平均值的比值AM/GM,估计出前景声音的明显程度,根据式(22)对AM/GM取对数计算,
获取每个GT频带中间能量偏差估计值的逼近值,从相对于第个GT频带的平均能量的信噪比为-50dB开始,信噪比不断增加1dB直至最后中间能量偏差完全移除;由中间能量偏差估计值的逼近值计算出移除中间能量偏差的中值GT能量,用式(23)表示,
根据式(22)和式(23),计算出移除中间能量偏差后的AM/GM,用式(24)表示,
根据中间能量偏差估计值的逼近值从小到大依次代入式(26)进行计算,得出中间能量偏差估计值;
(26)
计算出后,根据式(21)和式(23),得到每个GT频带的能量归一化增益,用式(27)表示,
根据式(28)对GT能量进行平滑可得移除中间能量偏差后声音信号的GT能量,
步骤S033:提取APNCC:使用式(29)的非线性幂函数进行变换;
最后,根据式(30)对进行离散余弦变换得到APNCC,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210368983.5A CN102930870B (zh) | 2012-09-27 | 2012-09-27 | 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210368983.5A CN102930870B (zh) | 2012-09-27 | 2012-09-27 | 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102930870A CN102930870A (zh) | 2013-02-13 |
CN102930870B true CN102930870B (zh) | 2014-04-09 |
Family
ID=47645651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210368983.5A Expired - Fee Related CN102930870B (zh) | 2012-09-27 | 2012-09-27 | 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930870B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103489446B (zh) * | 2013-10-10 | 2016-01-06 | 福州大学 | 复杂环境下基于自适应能量检测的鸟鸣识别方法 |
CN103474072B (zh) * | 2013-10-11 | 2016-06-01 | 福州大学 | 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法 |
CN105244036A (zh) * | 2014-06-27 | 2016-01-13 | 中兴通讯股份有限公司 | 一种麦克风语音增强方法及装置 |
CN104751845A (zh) * | 2015-03-31 | 2015-07-01 | 江苏久祥汽车电器集团有限公司 | 一种用于智能机器人的声音识别方法及系统 |
CN105427859A (zh) * | 2016-01-07 | 2016-03-23 | 深圳市音加密科技有限公司 | 一种用于对说话人识别的前端语音增强方法 |
CN105882687A (zh) * | 2016-05-13 | 2016-08-24 | 南京雅信科技集团有限公司 | 道岔转辙机的故障类别分析方法 |
CN107369451B (zh) * | 2017-07-18 | 2020-12-22 | 北京市计算中心 | 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法 |
CN108022588B (zh) * | 2017-11-13 | 2022-03-29 | 河海大学 | 一种基于双特征模型的鲁棒语音识别方法 |
CN108962275B (zh) * | 2018-08-01 | 2021-06-15 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
CN110060695A (zh) * | 2019-04-24 | 2019-07-26 | 百度在线网络技术(北京)有限公司 | 信息交互方法、装置、服务器和计算机可读介质 |
CN111626093B (zh) * | 2020-03-27 | 2023-12-26 | 国网江西省电力有限公司电力科学研究院 | 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法 |
CN112686293A (zh) * | 2020-12-25 | 2021-04-20 | 广东电网有限责任公司中山供电局 | 一种基于gmm识别模型的鸟类智能识别方法及系统 |
CN113516066B (zh) * | 2021-07-05 | 2023-08-08 | 内蒙古工业大学 | 电能质量扰动信号分类方法、装置、存储介质和电子设备 |
CN113571089A (zh) * | 2021-08-09 | 2021-10-29 | 南昌航空大学 | 基于梅尔倒谱系数-支持向量机架构的声音识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327593A (ja) * | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
EP1081685A2 (en) * | 1999-09-01 | 2001-03-07 | TRW Inc. | System and method for noise reduction using a single microphone |
US6633842B1 (en) * | 1999-10-22 | 2003-10-14 | Texas Instruments Incorporated | Speech recognition front-end feature extraction for noisy speech |
CN1841500A (zh) * | 2005-03-30 | 2006-10-04 | 松下电器产业株式会社 | 一种基于自适应非线性谱减的抗噪方法和装置 |
EP2141941A2 (de) * | 2008-07-01 | 2010-01-06 | Siemens Medical Instruments Pte. Ltd. | Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät |
CN102419972A (zh) * | 2011-11-28 | 2012-04-18 | 西安交通大学 | 一种声音信号检测和识别的方法 |
CN102655003A (zh) * | 2012-03-21 | 2012-09-05 | 北京航空航天大学 | 基于声道调制信号mfcc的汉语语音情感点识别方法 |
-
2012
- 2012-09-27 CN CN201210368983.5A patent/CN102930870B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327593A (ja) * | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
EP1081685A2 (en) * | 1999-09-01 | 2001-03-07 | TRW Inc. | System and method for noise reduction using a single microphone |
US6633842B1 (en) * | 1999-10-22 | 2003-10-14 | Texas Instruments Incorporated | Speech recognition front-end feature extraction for noisy speech |
CN1841500A (zh) * | 2005-03-30 | 2006-10-04 | 松下电器产业株式会社 | 一种基于自适应非线性谱减的抗噪方法和装置 |
EP2141941A2 (de) * | 2008-07-01 | 2010-01-06 | Siemens Medical Instruments Pte. Ltd. | Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät |
CN102419972A (zh) * | 2011-11-28 | 2012-04-18 | 西安交通大学 | 一种声音信号检测和识别的方法 |
CN102655003A (zh) * | 2012-03-21 | 2012-09-05 | 北京航空航天大学 | 基于声道调制信号mfcc的汉语语音情感点识别方法 |
Non-Patent Citations (4)
Title |
---|
余清清 李应 李勇.基于高斯混合模型的自然环境声音的识别.《计算机工程与应用》.2011,152-155. |
基于高斯混合模型的自然环境声音的识别;余清清 李应 李勇;《计算机工程与应用》;20110930;全文 * |
新型MFCC和波动模型相结合的二层环境声音识别;李勇 李应 余清清;《计算机工程与应用》;20111031;全文 * |
李勇 李应 余清清.新型MFCC和波动模型相结合的二层环境声音识别.《计算机工程与应用》.2011,132-135. |
Also Published As
Publication number | Publication date |
---|---|
CN102930870A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102930870B (zh) | 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 | |
CN103489446B (zh) | 复杂环境下基于自适应能量检测的鸟鸣识别方法 | |
CN103646649B (zh) | 一种高效的语音检测方法 | |
CN109599120B (zh) | 一种基于大规模养殖场厂哺乳动物异常声音监测方法 | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
WO2005024782B1 (en) | Method and apparatus for automatically identifying animal species from their vocalizations | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
Mallidi et al. | Novel neural network based fusion for multistream ASR | |
CN111540368B (zh) | 一种稳健的鸟声提取方法、装置及计算机可读存储介质 | |
CN109065043A (zh) | 一种命令词识别方法及计算机存储介质 | |
Gupta et al. | Robust speech recognition using wavelet coefficient features | |
Bagul et al. | Text independent speaker recognition system using GMM | |
Chou et al. | On the studies of syllable segmentation and improving MFCCs for automatic birdsong recognition | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
Maganti et al. | Auditory processing-based features for improving speech recognition in adverse acoustic conditions | |
Kumar et al. | Classification of voiced and non-voiced speech signals using empirical wavelet transform and multi-level local patterns | |
Jančovič et al. | Speech enhancement based on Sparse Code Shrinkage employing multiple speech models | |
Mu et al. | MFCC as features for speaker classification using machine learning | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
Karafiát et al. | BUT ASR system for BABEL surprise evaluation 2014 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Arslan et al. | Noise robust voice activity detection based on multi-layer feed-forward neural network | |
Yan et al. | Anti-noise power normalized cepstral coefficients for robust environmental sounds recognition in real noisy conditions | |
Chou et al. | Automatic birdsong recognition with MFCC based syllable feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140409 Termination date: 20160927 |