CN102930870A - 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 - Google Patents

利用抗噪幂归一化倒谱系数的鸟类声音识别方法 Download PDF

Info

Publication number
CN102930870A
CN102930870A CN2012103689835A CN201210368983A CN102930870A CN 102930870 A CN102930870 A CN 102930870A CN 2012103689835 A CN2012103689835 A CN 2012103689835A CN 201210368983 A CN201210368983 A CN 201210368983A CN 102930870 A CN102930870 A CN 102930870A
Authority
CN
China
Prior art keywords
noise
power spectrum
signal
formula
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103689835A
Other languages
English (en)
Other versions
CN102930870B (zh
Inventor
颜鑫
李应
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201210368983.5A priority Critical patent/CN102930870B/zh
Publication of CN102930870A publication Critical patent/CN102930870A/zh
Application granted granted Critical
Publication of CN102930870B publication Critical patent/CN102930870B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明针对生态环境中各种背景噪声下的鸟类声音识别问题,提出了一种基于新型抗噪特征提取的鸟类声音识别技术。首先,根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱。其次,使用多频带谱减法对声音功率谱进行降噪处理。接着,结合降噪的声音功率谱提取抗噪幂归一化倒谱系数(APNCC)。最后,采用支持向量机(SVM)分别对提取的APNCC,幂归一化倒谱系数(PNCC)和Mel频率倒谱系数(MFCC)对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明,提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB环境下的鸟类声音识别。

Description

利用抗噪幂归一化倒谱系数的鸟类声音识别方法
技术领域
本发明涉及一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法。
背景技术
生态环境下的鸟类声音包含着丰富的信息,例如,通过判断某个地区一年四季是否有指定鸟类的叫声,可以了解该地区的生态状况及气候变化。通过在森林,原野等地使用自动监听和识别鸟类声音的技术对濒临灭绝的鸟类进行侦察,有利于人类及时发现它们的行踪并采取相应的保护措施等。鸟类声音的识别不仅可以分析鸟类本身的行为等特征,而且可以对与鸟类有关的外界生态环境及相关影响领域做分析。
近年来,借鉴较为成熟的语音识别技术,学者们对鸟类声音识别领域做了深入的研究并取得了丰富的成果。文献[1]对比了基于音节的正弦曲线建模和MFCC的特征提取方法在14种北欧鸟类声音识别中的效果。文献[2]从分类器的角度分别采用ID3、J4.8、朴素贝叶斯算法来进行鸟类声音识别对比。文献[3]提出MFCC结合SVM的鸟类声音分类。文献[4]通过分析鸟类声音音节对的柱状图来进行鸟叫声的分类。文献[5]使用MFCC及高斯混合模型(Gaussian Mixture Model,GMM)进行不依赖于个体叫声变化的四种雀形目的鸟类声音分类。文献[6]经过对比实验,使用广泛应用于音乐语义特征的“MARSYAS”特征集,结合多层感知器(Multilayer Perceptron,MLP)的人工神经网络(Artificial Neural Network,ANN),具有较好的鸟类声音识别效果。背景噪声的检测提取和滤除一直是信号处理领域的基本问题[7],在真实的生态环境中,各种环境噪声是普遍存在的。因此,对于噪声环境下的鸟类声音识别具有重要的现实意义。文献[8]通过对基于帧的线性预测编码(Linear Predictive Coding,LPC)的分层聚类分析,提取出噪声环境下欧亚鸲声音段中的有效音节,结合隐马尔可夫模型(Hidden Markov Model,HMM)进行分类。文献[9]在对声音进行噪声滤波后,通过小波变换提取鸟叫声音特征,并结合基于MLP的ANN来进行鸟叫声识别。文献[10]使用谱减法,功率谱分析及自相关分析对复杂声音环境下的两种鸟类声音识别。
生态环境中的背景噪声具有非平稳的特点,而现有的大多数方法主要针对特定的噪声环境来进行鸟类声音识别,并没有提出一种普遍适用于生态环境中各种非平稳噪声下的鸟类声音识别方法。因此,本发明提出了一种非平稳噪声功率谱估计,多频带谱减法与PNCC特征提取相结合的抗噪特征APNCC提取方法并使用SVM进行鸟类声音识别。实验结果表明,该方法对不同信噪比的高度非平稳环境噪声下鸟类声音识别的效果有显著的提高。
发明内容
本发明的目的是针对生态环境中各种背景噪声下的鸟类声音识别问题,提出了一种基于新型抗噪特征提取的鸟类声音识别技术。
本发明通过以下方案实现:种利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于包括以下步骤:
步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;
步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;
步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。
本发明采用支持向量机(SVM)分别对提取的APNCC,幂归一化倒谱系数(PNCC)和 Mel频率倒谱系数(MFCC)对34种鸟类声音进行不同环境和信噪比情况下的对比实验。实验表明,提取的APNCC具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB环境下的鸟类声音识别。
附图说明
图1是本发明流程示意图。
图2是本发明具体实施例的流程示意图。
图3a为纯净的公画眉声谱图。
图3b为添加10dB山间流水噪声的公画眉声谱图。
图3c为降噪后的公画眉声谱图。
图4a为3种特征对于山间流水不同信噪比的识别效果。
图4b为3种特征对于马路附近不同信噪比的识别效果。
图4c为3种特征对于雨天湖边不同信噪比的识别效果。
具体实施方式
下面结合附图及实施例子对本发明做进一步说明。
一般的噪声功率谱估计算法不能有效地估计现实环境中高度非平稳的背景噪声,因此,本发明根据一种改进的针对平稳及高度非平稳环境声音都具有良好适应性的噪声估计算法[11]进行噪声功率谱估计。如图1所示,图1是本发明的流程示意图。该方法包括:步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。
为了让一般技术人员更好的理解,下面结合具体流程图2,对流程中的各步骤进行详细说明:
1噪声功率谱估计
1.1 带噪声音信号的平滑功率谱计算
带噪声音信号的数学模型可表示为式(1)。
Figure 2012103689835100002DEST_PATH_IMAGE002
        (1)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE004
为带噪的声音信号,
Figure 2012103689835100002DEST_PATH_IMAGE006
为纯净的声音信号,即待识别的前景声音,
Figure 2012103689835100002DEST_PATH_IMAGE008
为附带的噪声信号。对式(1)进行FFT变换后得到其幅度谱。带噪声音信号的平滑功率谱可以通过式(2)的一阶递归式计算出来。
Figure 2012103689835100002DEST_PATH_IMAGE012
        (2)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE014
为带噪声音信号的平滑功率谱,
Figure 2012103689835100002DEST_PATH_IMAGE016
为帧索引,
Figure 2012103689835100002DEST_PATH_IMAGE018
为频率索引,
Figure 2012103689835100002DEST_PATH_IMAGE020
为带噪声音信号的功率谱,
Figure 2012103689835100002DEST_PATH_IMAGE022
为根据实际实验情况设定的平滑常量,本发明取
Figure 2012103689835100002DEST_PATH_IMAGE024
1.2 带噪声音信号平滑功率谱最小值追踪计算
通过连续的平均前面帧的功率谱值,本发明使用式(3)的非线性方法来追踪计算带噪声音信号功率谱的最小值。
        (3)
其中,为带噪声音功率谱的局部最小值,为根据实际实验情况设定的常量。前向因子控制局部最小值的适应时间。本发明取
Figure 2012103689835100002DEST_PATH_IMAGE034
Figure 2012103689835100002DEST_PATH_IMAGE036
1.3 计算待识别前景声音存在的概率
带噪声音功率谱与其相应局部最小值的比值可以用式(4)表示。
Figure 2012103689835100002DEST_PATH_IMAGE038
        (4)
通过该比值与频率相关的阈值的比较,当该比值比相应阈值大时,就被当作前景声音存在的频率窗口,反之,则为噪声的频率窗口。该思想是基于这样的一个原则:当不存在前景声音或者是前景声音极为微弱时,带噪声音功率谱非常接近其相应的局部最小值。因此,当式(4)的比值越小时,该频率窗口只含噪声的可能性就越大,反之亦然。根据式(5),可对于前景声音是否存在进行判断。
Figure 2012103689835100002DEST_PATH_IMAGE040
        (5)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE042
为根据实际实验情况设定的频率相关常量,本发明中用式(6)表示。
Figure 2012103689835100002DEST_PATH_IMAGE044
        (6)
由于本发明中鸟类声音的频率范围大致在,根据对3种背景噪声功率谱的分析,可以得出3种真实环境下噪声的功率谱大部分集中在低频的区域,故本发明取
Figure 2012103689835100002DEST_PATH_IMAGE048
Figure 2012103689835100002DEST_PATH_IMAGE050
。采样频率
Figure 2012103689835100002DEST_PATH_IMAGE052
根据式(4)和式(5)的计算,前景声音存在的概率
Figure 808494DEST_PATH_IMAGE014
可以通过式(7)的一阶递归式来进行更新。
Figure 2012103689835100002DEST_PATH_IMAGE054
        (7)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE056
为根据实际实验情况设定的平滑常量,本发明取
Figure 2012103689835100002DEST_PATH_IMAGE058
。可以看出,上式在求解相应前景声音存在概率时,隐式的利用了其与其近邻帧前景声音存在概率之间的关系。
1.4 时-频相关平滑常量的计算
结合前景声音存在的概率
Figure 2012103689835100002DEST_PATH_IMAGE060
的计算,时-频相关平滑因子定义为式(8)。
Figure 2012103689835100002DEST_PATH_IMAGE062
        (8)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE064
为根据实际实验情况设定的常量,本发明取
Figure 2012103689835100002DEST_PATH_IMAGE066
Figure 2012103689835100002DEST_PATH_IMAGE068
的取值范围为
Figure 2012103689835100002DEST_PATH_IMAGE070
1.5 噪声功率谱估计的更新
最后,通过式(8)时-频相关平滑因子
Figure 454809DEST_PATH_IMAGE068
的计算,噪声功率谱估计的更新可以用式(9)表示。
Figure 2012103689835100002DEST_PATH_IMAGE072
        (9)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE074
为估计的噪声幅度谱。
2 多频带谱减法
类高斯白噪声具有平谱特性,而真实环境中的噪声则具有高度的随机性,如马路附近噪声,校园环境噪声,山间噪声。真实环境中的噪声对整个声音信号整个频谱的影响并不均匀,因此,针对非平稳噪声,一般的谱减法在对声音信号进行降噪的同时,也引入了所谓的“音乐噪声”。为了减少残差噪声及声音信号失真,在此,本发明使用多频带谱减法[12]进行降噪。具体流程如图1中多频带谱减部分所示。
2.1 平滑带噪声音幅度谱
实验表明,对估计的噪声功率谱进行平滑对于减少残差噪声是无效的。然而,对带噪声音信号的幅度谱进行平滑可以减小前景声音幅度谱的方差并且提高其质量,平滑的幅度谱可以用式(10)表示。
Figure 2012103689835100002DEST_PATH_IMAGE076
        (10)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE078
为平滑的带噪声音幅度谱,
Figure 2012103689835100002DEST_PATH_IMAGE080
为相邻帧总帧数,本发明取
Figure 2012103689835100002DEST_PATH_IMAGE082
避免产生前景声音信号的频谱泄漏与谱间干扰。权重
Figure 2012103689835100002DEST_PATH_IMAGE084
按经验设置为
Figure 2012103689835100002DEST_PATH_IMAGE086
2.2 多频带谱减降噪
式(11)为带噪声音信号的功率谱的近视取值。
Figure 2012103689835100002DEST_PATH_IMAGE088
        (11)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE090
为前景声音信号功率谱,
Figure 2012103689835100002DEST_PATH_IMAGE092
为估计的噪声功率谱。
对于一般的谱减法,其假定噪声对于各个频带的影响是均匀的,因此,估计的前景声音信号功率谱表示为式(12)。
Figure 2012103689835100002DEST_PATH_IMAGE094
        (12)
其中,为第帧的过减因子,对于第帧的不同的频带都根据当前帧的总体信噪比取相同的值。
由于非平稳的有色噪声对于功率谱的各个频率范围的影响是不同的,因此引入多频带谱减算法。声音信号的功率谱被划分为
Figure 2012103689835100002DEST_PATH_IMAGE098
个互不重叠的均匀线性子频带,
Figure 2012103689835100002DEST_PATH_IMAGE100
,根据鸟类声音的频率分布,经对比实验后,本发明取
Figure 2012103689835100002DEST_PATH_IMAGE102
。第
Figure 2012103689835100002DEST_PATH_IMAGE104
个子频带的估计前景声音信号功率谱表示为式(13)。
Figure 2012103689835100002DEST_PATH_IMAGE106
        (13)
其中,为平滑和平均后的再根据多频带划分后得出的
Figure 317668DEST_PATH_IMAGE104
个子频带的带噪声音功率谱,
Figure 2012103689835100002DEST_PATH_IMAGE110
为第
Figure 516568DEST_PATH_IMAGE104
个子频带的估计噪声功率谱,
Figure 2012103689835100002DEST_PATH_IMAGE112
Figure 2012103689835100002DEST_PATH_IMAGE114
分别为第
Figure 247763DEST_PATH_IMAGE104
个子频带频率窗口的开始值和结束值。
Figure 2012103689835100002DEST_PATH_IMAGE116
为第
Figure 241127DEST_PATH_IMAGE016
帧的第
Figure 805576DEST_PATH_IMAGE104
个子频带的过减因子,用于控制第
Figure 542588DEST_PATH_IMAGE016
帧的第
Figure 65973DEST_PATH_IMAGE104
个子频带的减噪程度,可以通过式(14)计算第
Figure 495818DEST_PATH_IMAGE016
帧的第
Figure 737443DEST_PATH_IMAGE104
个子频带的功率谱信噪比
Figure 2012103689835100002DEST_PATH_IMAGE118
后得出。
Figure 2012103689835100002DEST_PATH_IMAGE120
        (14)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE122
为非平滑的第
Figure 74883DEST_PATH_IMAGE104
个子频带的带噪声音功率谱,由于子频带的信噪比高时,噪声对声音信号的影响比较小,所以设定较低的谱减权重,而子频带的信噪比低时,噪声对声音信号的影响比较大,所以设定较高的谱减权重,根据实际实验情况设定的
Figure 718354DEST_PATH_IMAGE116
可以用式(15)表示。
        (15)
为第
Figure 866570DEST_PATH_IMAGE016
帧的第
Figure 595492DEST_PATH_IMAGE104
个子频带的子带附加控制相减因子,
Figure 674306DEST_PATH_IMAGE126
可以根据具体的实验数据来对其进行经验值的设定,可以用式(16)表示。
Figure 2012103689835100002DEST_PATH_IMAGE128
        (16)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE130
为第
Figure 234600DEST_PATH_IMAGE016
帧的第
Figure 6247DEST_PATH_IMAGE104
个子频带的频率上限。根据本发明第一部分中对于鸟叫与噪声频率范围的分析,本发明分以上3个频带来设定谱减权重的比例。
在式(13)中,当估计的前景声音信号功率谱出现负值时,采用式(17)进行更新计算。
Figure 2012103689835100002DEST_PATH_IMAGE132
        (17)
其中,功率谱下限参数
Figure 2012103689835100002DEST_PATH_IMAGE134
取值为
Figure 2012103689835100002DEST_PATH_IMAGE136
为了掩盖去噪后可能残留的音乐噪声并避免出现声音信号的过度失真,本发明往估计的前景声音信号功率谱上添加5%的原始带噪声音信号功率谱,可以用式(18)表示。
Figure 2012103689835100002DEST_PATH_IMAGE138
        (18)
因此,整个频带的估计的前景声音信号功率谱表示为式(19)。
Figure 2012103689835100002DEST_PATH_IMAGE140
        (19)
从图3a到图3c是结合非平稳噪声估计的多频段谱减法的降噪情况,从图中可以看出,降噪后的10dB山间流水公画眉声谱图相对纯净的公画眉声谱图虽然在前景信号有所衰减,但是较为彻底地移除了背景噪声部分,因此,结合非平稳噪声估计的多频段谱减法可以较为有效地进行降噪。
3抗噪APNCC特征提取
噪声情况下,相比MFCC与感知线性预测系数(Perceptual Linear Prediction,PLP),PNCC具有较好的抗噪效果[13]。因此,根据得到的估计的前景声音信号功率谱(以下简称声音信号功率谱),本发明采用PNCC的提取方法进行APNCC特征提取。具体流程如图1中APNCC提取部分所示。
4.1 Gammatone滤波
Gammatone(以下简称GT)滤波器是基于人耳耳蜗听觉特性的滤波器模型[14],具有尖锐的频率选择特性,与Mel三角滤波器相比,其更加集中了临界频带中心频率附近的声音特征,且两边过渡圆滑并能降低三角形滤波器组相邻频带之间频谱能量的泄漏。
根据声音的采样频率,经对比实验后,本发明取32阶的GT滤波器进行滤波,并且设定GT滤波器组的各个等价矩形带宽的中心频率在
Figure 2012103689835100002DEST_PATH_IMAGE144
之间均匀分布。本发明使用Auditory toolbox[15]工具箱进行GT滤波,滤波后的声音信号能量(以下简称GT能量)可以用式(20)表示。
Figure 2012103689835100002DEST_PATH_IMAGE146
        (20)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE148
表示GT滤波后的等价矩形带宽(以下简称GT频带)的中心频率索引。
3.2 中间能量偏差移除
实验分析表明,背景噪声的GT能量与前景声音信号的GT能量相比,其变化速度通常都比较缓慢。为了进行背景噪声的GT能量引起的能量偏差移除,本发明通过式(21)对连续帧的GT能量取均值估计出每帧的中值GT能量。
Figure 2012103689835100002DEST_PATH_IMAGE150
        (21)
其中,取
Figure 2012103689835100002DEST_PATH_IMAGE152
,相当于取7个连续帧进行中值GT能量计算。
对于每个GT频带,通过计算其所有帧的算术平均值与几何平均值的比值(Arithmetic Mean to Geometric Mean Ratio,AM/GM),我们可以估计出前景声音的明显程度。为了降低计算量,根据式(22)对AM/GM取对数计算。
Figure 2012103689835100002DEST_PATH_IMAGE154
        (22)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE156
表示声音段的总分帧数。为避免比值出现负无穷的情况,添加一个极小值
Figure 2012103689835100002DEST_PATH_IMAGE158
经过实验对比分析得出,随着声音信号信噪比的下降,AM/GM跟着下降。因此,得出中间能量偏差移除的思想:通过对中间能量偏差量的不断移除,使得带噪声音信号的AM/GM不断上升,直到逼近纯净声音信号的AM/GM为止。
进行中间能量偏差移除,首先要得到每个GT频带中间能量偏差估计值的逼近值
Figure 2012103689835100002DEST_PATH_IMAGE162
。本发明的取值进行动态的估计,从相对于第个GT频带的平均能量的信噪比为-50dB开始,信噪比不断增加1dB直至最后中间能量偏差完全移除。
由中间能量偏差估计值的逼近值
Figure 590124DEST_PATH_IMAGE162
可以计算出移除中间能量偏差的中值GT能量,用式(23)表示。
Figure 2012103689835100002DEST_PATH_IMAGE166
        (23)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE168
是一个很小的常量,用于避免
Figure 2012103689835100002DEST_PATH_IMAGE170
出现负值的情况,本发明中取值为
Figure 2012103689835100002DEST_PATH_IMAGE172
根据式(22)和式(23),可以计算出移除中间能量偏差后的AM/GM,用式(24)表示。
Figure 2012103689835100002DEST_PATH_IMAGE174
        (24)
其中,式(25)为下限参数
Figure 2012103689835100002DEST_PATH_IMAGE176
的定义。
Figure 2012103689835100002DEST_PATH_IMAGE178
        (25)
实验表明,引入可以获得更加好的中间能量偏差移除效果。本发明取
Figure 2012103689835100002DEST_PATH_IMAGE180
,表示
Figure 763452DEST_PATH_IMAGE176
相对于第
Figure 14436DEST_PATH_IMAGE164
个GT频带的平均能量的信噪比为-30dB。
根据中间能量偏差估计值的逼近值
Figure 435053DEST_PATH_IMAGE162
从小到大依次代入式(26)进行计算,可以得出中间能量偏差估计值。
Figure 2012103689835100002DEST_PATH_IMAGE182
        (26)
其中,
Figure 2012103689835100002DEST_PATH_IMAGE184
为纯净前景声音的AM/GM。
计算出
Figure 969939DEST_PATH_IMAGE160
后,根据式(21)和式(23),可以得到每个GT频带的能量归一化增益,用式(27)表示。
Figure 2012103689835100002DEST_PATH_IMAGE186
        (27)
根据式(28)对GT能量进行平滑可得移除中间能量偏差后声音信号的GT能量。
Figure 2012103689835100002DEST_PATH_IMAGE188
        (28)
其中,
Figure DEST_PATH_IMAGE190
为总的GT频带数,本发明取
Figure DEST_PATH_IMAGE192
Figure DEST_PATH_IMAGE194
进行GT频带间的平滑计算。
3.3 提取APNCC
与MFCC提取中使用对数函数不同,本发明使用式(29)的非线性幂函数进行变换。
Figure DEST_PATH_IMAGE196
        (29)
最后,根据式(30)对
Figure DEST_PATH_IMAGE198
进行离散余弦变换(Discrete Cosine Transform,DCT)得到APNCC。
Figure DEST_PATH_IMAGE200
        (30)
其中,
Figure DEST_PATH_IMAGE204
,本发明中,取
Figure DEST_PATH_IMAGE206
4 实验与结果分析
4.1 声音样本集
实验用到的34种纯净鸟叫声大部分来自Freesound[16]声音数据库,分别为白面鸡、董鸡、公鹧鸪、母鹧鸪、黑水鸡、红毛鸡、山斑鸠、朱颈斑鸠、雉鸡、秧鸡、褐雨燕、绣眼、赭红尾鸲、鹫、麻雀、乌鸦、杜鹃、鸽子、鸭、鹊、猫头鹰、欧亚鸲、海鸥、天鹅、燕鸥、公画眉、母画眉、母画眉狂叫、母绣眼、公绣眼、母竹鸡大叫、竹鸡破声、竹鸡仔叫、竹鸡求伴打旺。实验用到的3种背景声音为使用SONY ICD-UX512F录音棒以44.1kHz的采样频率录取的真实环境声音,分别为马路附近噪声,雨天湖边噪声、山间流水噪声。
以上声音文件的编码格式和长度没有统一的规范,且经声谱图分析,34种鸟叫声可以根据声谱图频率低于4kHz的部分进行分类。因此,本发明中所有的声音都转换为采样频率为8kHz、采样位数为16b,时长为2s的单声道WAV格式声音段。经处理后,每种纯净鸟叫声都含有36个声音段,总共1224个声音段。然后对每个声音段按信噪比为40dB,30dB,20dB,10dB,0dB,-10dB分别添加3种背景噪声。
4.2 实验设计
本发明对声音段先进行预处理,首先对声音段归一化处理后使用一阶FIR数字滤波器进行预加重,
Figure DEST_PATH_IMAGE208
,取
Figure DEST_PATH_IMAGE210
。然后进行分帧,并加Hamming窗,帧长32ms(256个采样点),帧移16ms(128个采样点)。接着,对每帧进行离散傅里叶变换(Discrete Fourier Transform,DFT)。最后,分别提取了APNCC,PNCC及MFCC这3种特征结合LIBSVM[17]工具箱进行实验效果对比。
对于每种鸟叫声,本发明每次随机选取6个纯净的声音段作为训练样本,其余30个纯净声音段及其相应的不同背景噪声下不同信噪比的声音段分别作为各自情况下的测试样本。进行10次随机选取后,求得最终的平均识别率。
4.3 结果与分析
APNCC,PNCC,MFCC对于3种环境下不同信噪比的平均识别率如表1所示。由实验结果可得出,对于这3种环境下的不同信噪比的平均识别率均值,APNCC相比PNCC和MFCC都有较大的提高,这说明了APNCC更普遍适用于噪声环境下的鸟类声音识别,具有较好的噪声鲁棒性。
对于纯净的鸟类声音识别,3种特征的识别效果都很好,识别率都达到94%以上,其中,MFCC可以获得最高的平均识别率,这说明MFCC更适用于无噪声环境下的鸟类声音识别。在信噪比为40dB的3种环境的微小噪声情况下,使用3种特征的识别效果略有下降,但也都在90%以上,而PNCC的平均识别率最高。这说明了在噪声极小的情况下,APNCC的提取过程中包含了2个降噪的步骤:结合非平稳噪声估计的多频段谱减去噪和中间能量偏差移除去噪。因此,在降噪的过程中出现了由过分去噪带来的较小的信号失真,只对识别效果产生很小的影响。随着噪声的增大,在信噪比低于30dB的3种环境噪声情况下,使用APNCC的平均识别率都为最高,MFCC的平均识别率都为最低。这说明了APNCC对于不同的非平稳环境噪声具有较好的鲁棒性,PNCC本身具有一定的抗噪性,而MFCC对噪声敏感且抗噪性差。
从图4a到图4c是3种特征对于3种环境下不同信噪比的识别效果图,从图中可以看出,对于这3种环境噪声情况,在信噪比逐渐降低到10dB的过程中,APNCC的平均识别率下降速度最平缓,说明了该信噪比范围内APNCC有良好的噪声鲁棒性,而MFCC受噪声的影响最大,平均识别率迅速下降。在信噪比降低为0dB的情况下,APNCC的平均识别率虽然出现了大幅度的下降且低于50%,但也显著高于PNCC与MFCC。在信噪比降低为-10dB的情况下,对于马路附近的噪声,由于其主要集中在低频区域对于鸟类声音的频率影响较小,故APNCC的平均识别率还维持在30%左右,而APNCC针对其他2种背景噪声的平均识别率则降低到10%左右。
表1 这3种特征对于3种环境下不同信噪比的平均识别率
5 结论
本发明针对非平稳的真实环境噪声下的鸟类声音识别问题,提出了一种新型的经两阶段去噪的抗噪APNCC特征与SVM分类器相结合的方法。实验表明,对于3种不同的非平稳环境噪声存在的情况,APNCC的平均识别效果明显优于具有一定抗噪性的PNCC和噪声敏感的MFCC。因此,APNCC具有较好的非平稳噪声鲁棒性且适用于环境噪声下的鸟类声音识别。但对于信噪比在0dB及更大的噪声环境情况,APNCC的抗噪效果有限且声音信号会出现不同程度的失真,识别效果出现较大的下降。下一阶段的研究将着重于通过对APNCC提取中的各阶段采用的方法和参数进行改进来提高0dB及更大的噪声环境情况下的识别效果,以及推广APNCC在各种非平稳的真实环境背景噪声情况下的前景声音识别中的应用。
参考文献:
[1] P SOMERVUO, A HARMA, S FAGERLUND. Parametric representations of bird sounds for automatic species recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(6): 2252–2263.
[2] E VILCHES, I A ESCOBAR, E E VALLEJO, et al. Data mining applied to acoustic bird species recognition[A]. The 18th International Conference on Pattern Recognition[C]. Hong Kong, China: IEEE Computer Society, 2006: 400-403.
[3] S FAGERLUND. Bird species recognition using support vector machines[J]. EURASIP Journal of Advances in Signal Processing, 2007, 2007(1): 1-8.
[4] P SOMERVUO, A HARMA. Bird song recognition based on syllable pair histograms[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Montreal, Canada: IEEE Press, 2004: 825-828.
[5] J CHENG, Y SUN, L JI. A call-independent and automatic acoustic system for the individual recognition of animals: a novel model using four passerines[J]. Pattern Recognition, 2010, 43(11): 3846-3852.
[6] M T LOPES, C N SILLA, A L KOERICH, et al. Feature set comparison for automatic bird species identification[A]. IEEE International Conference on Systems, Man, and Cybernetics[C]. Anchorage, Alaska: IEEE Press, 2011: 965-970.
[7] 冯霞, 龚晓峰, 张利丹, 武瑞娟. 基于纹理特征的背景噪声提取的应用研究[J]. 电子学报, 2009, 37(9): 2092-2095.
    FENG Xia, GONG Xiao-feng, ZHANG Li-dan, WU Rui-juan. Research of Background Noise Extraction Based on Texture Feature[J]. Acta Electronica Sinica, 2009, 37(9): 2092-2095. (in Chinese)
[8] W CHU, D T BLUMSTEIN. Noise robust bird song detection using syllable pattern-based hidden markov models[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Prague, Czech Republic: IEEE Press, 2011: 345-348.
[9] A SELIN, J TURUNEN, J T TANTTU. Wavelets in recognition of bird sounds[J]. EURASIP Journal on Advances in Signal Processing, 2007, 2007(1): 1-9.
[10] R BARDELI, D WOLFF, F KURTH, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.
[11] S RANGACHARI, P C LOIZOU. A noise estimation algorithm for highly non-stationary environments[J]. Speech Communication, 2006, 48(2): 220-231.
[12] S KAMATH, P LOIZOU. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Orlando, FL: IEEE Press, 2002: IV-4164 - IV-4164.
[13] C KIM, R STERN. Feature extraction for robust speech recognition based on maximizing the sharpness of the power distribution and on power flooring[A]. IEEE International Conference on Acoustics, Speech, and Signal Processing[C]. Dallas, TX: IEEE Press, 2010: 4574-4577.
[14] 王玥, 钱志鸿, 王雪, 程光明. 基于伽马通滤波器组的听觉特征提取算法研究[J]. 电子学报, 2010, 38(3): 525-528.
    WANG Yue, QIAN Zhi-hong, WANG Xue, CHENG Guang-ming. An Auditory Feature Extraction Algorithm Based on γ-Tone Filter-Banks[J]. Acta Electronica Sinica, 2010, 38(3): 525-528. (in Chinese)
[15] M SLANEY. Auditory toolbox version 2 [CP/OL]. [2012-5-14]. https://engineering.purdue.edu/~malcolm/interval/1998- 
    010/AuditoryToolbox.zip.
[16] Universitat Pompeu Fabra. Repository of sound under the creative commons license, Freesound.org [DB/OL]. [2012-5-14]. http://www.freesound.org/.
[17] C C CHANG, C J LIN. LIBSVM version 3.12 [CP/OL]. [2012-5-14]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/ libsvm-3.12.zip.
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。 

Claims (6)

1.一种利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于包括以下步骤:
步骤S01:根据适用于高度非平稳环境下的噪声估计算法求出噪声功率谱;
步骤S02:使用多频带谱减法对声音功率谱进行降噪处理;
步骤S03:结合降噪的声音功率谱提取抗噪幂归一化倒谱系数APNCC。
2.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于,所述步骤S01采用以下步骤实现:
步骤S011:计算带噪声音信号的平滑功率谱:对带噪声音信号的数学模型                                               
Figure 2012103689835100001DEST_PATH_IMAGE002
进行FFT变换后得到该噪声音信号的幅度谱,然后通过一阶递归式
Figure DEST_PATH_IMAGE006
计算出该平滑功率谱,其中为带噪的声音信号,
Figure DEST_PATH_IMAGE010
为纯净的声音信号,
Figure DEST_PATH_IMAGE012
为附带的噪声信号,
Figure DEST_PATH_IMAGE014
为带噪声音信号的平滑功率谱,
Figure DEST_PATH_IMAGE016
为帧索引,
Figure DEST_PATH_IMAGE018
为频率索引,为带噪声音信号的功率谱,
Figure DEST_PATH_IMAGE022
为平滑常量;
步骤S012:进行带噪声音信号平滑功率谱最小值追踪计算:采用非线性通过下式追踪计算带噪声音信号功率谱的最小值,
其中,
Figure DEST_PATH_IMAGE026
为带噪声音功率谱的局部最小值,
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE030
为常量;
步骤S013:计算声音平滑功率与其相应局部最小值的比值:;通过该比值与频率相关的阈值的比较,当该比值比相应阈值大时,就被当作前景声音存在的频率窗口,反之,则为噪声的频率窗口;
步骤S014:根据
Figure DEST_PATH_IMAGE034
对前景声音是否存在进行判断,其中为频率相关常量,可表示为:
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
,采样频率
Figure DEST_PATH_IMAGE044
步骤S015:通过式
Figure DEST_PATH_IMAGE046
的一阶递归式计算前景声音存在的概率
Figure 751629DEST_PATH_IMAGE014
,其中,
Figure DEST_PATH_IMAGE048
为平滑常量,取
Figure DEST_PATH_IMAGE050
步骤S016:计算时-频相关的平滑因子
Figure DEST_PATH_IMAGE052
;其中,
Figure DEST_PATH_IMAGE054
为常量,取
Figure DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE058
的取值范围为
Figure DEST_PATH_IMAGE060
步骤S017:根据所述时-频相关的平滑因子更新估计的噪声功率谱,其中,
Figure DEST_PATH_IMAGE064
为估计的噪声幅度谱。
3.根据权利要求2所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述的
Figure 544136DEST_PATH_IMAGE022
=0.7,
Figure 323873DEST_PATH_IMAGE028
=0.8,
Figure 719082DEST_PATH_IMAGE030
=0.998。
4.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述步骤S02采用以下步骤实现:
   步骤S021:通过
Figure DEST_PATH_IMAGE066
平滑带噪声音幅度谱,其中,
Figure DEST_PATH_IMAGE068
为平滑的带噪声音幅度谱,
Figure DEST_PATH_IMAGE070
为相邻帧总帧数,取
Figure DEST_PATH_IMAGE072
;权重
Figure DEST_PATH_IMAGE074
设置为
Figure DEST_PATH_IMAGE076
步骤S022:真实环境下的背景噪声绝大多数为加性噪声,因此,带噪声音平滑功率谱表示为
Figure DEST_PATH_IMAGE078
,其中,为前景声音信号功率谱,
Figure DEST_PATH_IMAGE082
为估计的噪声功率谱;
步骤S023:根据所述步骤S022,针对多频带谱减问题,用
Figure DEST_PATH_IMAGE084
表示估计的前景声音信号功率谱,其中
Figure DEST_PATH_IMAGE086
为第
Figure 221870DEST_PATH_IMAGE016
帧的过减因子,对于第
Figure 44332DEST_PATH_IMAGE016
帧的不同的频带都根据当前帧的总体信噪比取相同的值;声音信号的功率谱被划分为
Figure DEST_PATH_IMAGE088
个互不重叠的均匀线性子频带,
Figure DEST_PATH_IMAGE090
;第
Figure DEST_PATH_IMAGE092
个子频带的估计前景声音信号功率谱表示为:
Figure DEST_PATH_IMAGE094
其中,为平滑和平均后的
Figure 201380DEST_PATH_IMAGE068
再根据多频带划分后得出的
Figure 400280DEST_PATH_IMAGE092
个子频带的带噪声音功率谱,
Figure DEST_PATH_IMAGE098
为第
Figure 69159DEST_PATH_IMAGE092
个子频带的估计噪声功率谱,
Figure DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE102
分别为第
Figure 124840DEST_PATH_IMAGE092
个子频带频率窗口的开始值和结束值;为第
Figure 692219DEST_PATH_IMAGE016
帧的第个子频带的过减因子,用于控制第
Figure 952616DEST_PATH_IMAGE016
帧的第
Figure 382460DEST_PATH_IMAGE092
个子频带的减噪程度,该
Figure 624085DEST_PATH_IMAGE104
能通过式
Figure DEST_PATH_IMAGE106
计算第
Figure 961526DEST_PATH_IMAGE016
帧的第
Figure 604997DEST_PATH_IMAGE092
个子频带的功率谱信噪比
Figure DEST_PATH_IMAGE108
后得出;其中,
Figure DEST_PATH_IMAGE110
为非平滑的第
Figure 753213DEST_PATH_IMAGE092
个子频带的带噪声音功率谱;设定
Figure DEST_PATH_IMAGE114
;其中,
Figure DEST_PATH_IMAGE116
为第
Figure 544451DEST_PATH_IMAGE016
帧的第
Figure 623266DEST_PATH_IMAGE092
个子频带的频率上限;
步骤S024:在所述步骤S023第
Figure 121243DEST_PATH_IMAGE092
个子频带的估计前景声音信号功率谱的式中,当当估计的前景声音信号功率谱出现负值时,采用进行更新计算,其中,功率谱下限参数
Figure DEST_PATH_IMAGE120
取值为
Figure DEST_PATH_IMAGE122
步骤S025:为了掩盖去噪后可能残留的音乐噪声并避免出现声音信号的过度失真,往估计的前景声音信号功率谱上添加5%的原始带噪声音信号功率谱,用式
Figure DEST_PATH_IMAGE124
表示;则整个频带的估计的前景声音信号功率谱表示为式
Figure DEST_PATH_IMAGE126
5.根据权利要求4所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述的N=6。
6.根据权利要求1所述的利用抗噪幂归一化倒谱系数的鸟类声音识别方法,其特征在于:所述步骤S03采用以下步骤实现:
步骤S031:采用32阶的GT滤波器进行滤波,并且设定GT滤波器组的各个等价矩形带宽的中心频率在
Figure DEST_PATH_IMAGE128
之间均匀分布;滤波后的声音信号能量简称GT信号能量,用式
Figure DEST_PATH_IMAGE130
表示;其中,表示GT滤波后的等价矩形带宽的中心频率索引,该等价矩形带宽简称GT频带;
步骤S032:中间能量偏差移除:
通过式(21)对连续帧的GT能量取均值估计出每帧的中值GT能量;
Figure DEST_PATH_IMAGE134
        (21)   其中,取
Figure DEST_PATH_IMAGE136
对于每个GT频带,通过计算其所有帧的算术平均值与几何平均值的比值AM/GM,估计出前景声音的明显程度,根据式(22)对AM/GM取对数计算,
Figure DEST_PATH_IMAGE138
        (22)
其中,
Figure DEST_PATH_IMAGE140
表示声音段的总分帧数,
获取每个GT频带中间能量偏差估计值
Figure DEST_PATH_IMAGE144
的逼近值
Figure DEST_PATH_IMAGE146
,从相对于第
Figure DEST_PATH_IMAGE148
个GT频带的平均能量的信噪比为-50dB开始,信噪比不断增加1dB直至最后中间能量偏差完全移除;由中间能量偏差估计值的逼近值
Figure 640693DEST_PATH_IMAGE146
计算出移除中间能量偏差的中值GT能量,用式(23)表示,
Figure DEST_PATH_IMAGE150
        (23) 其中,
Figure DEST_PATH_IMAGE152
=
Figure DEST_PATH_IMAGE154
根据式(22)和式(23),计算出移除中间能量偏差后的AM/GM,用式(24)表示,
Figure DEST_PATH_IMAGE156
        (24)
其中,式(25)为下限参数
Figure DEST_PATH_IMAGE158
的定义,
Figure DEST_PATH_IMAGE160
        (25)  其中 
Figure DEST_PATH_IMAGE162
,表示
Figure 466697DEST_PATH_IMAGE158
相对于第
Figure 349203DEST_PATH_IMAGE148
个GT频带的平均能量的信噪比为-30dB;
根据中间能量偏差估计值的逼近值从小到大依次代入式(26)进行计算,得出中间能量偏差估计值;
Figure DEST_PATH_IMAGE164
        (26)
其中,
Figure DEST_PATH_IMAGE166
为纯净前景声音的AM/GM;
计算出
Figure 457284DEST_PATH_IMAGE144
后,根据式(21)和式(23),得到每个GT频带的能量归一化增益,用式(27)表示,
        (27)
根据式(28)对GT能量进行平滑可得移除中间能量偏差后声音信号的GT能量,
Figure DEST_PATH_IMAGE170
        (28)
其中,
Figure DEST_PATH_IMAGE172
为总的GT频带数取
Figure DEST_PATH_IMAGE176
进行GT频带间的平滑计算;
步骤S033:提取APNCC:使用式(29)的非线性幂函数进行变换;
Figure DEST_PATH_IMAGE178
        (29)
最后,根据式(30)对
Figure DEST_PATH_IMAGE180
进行离散余弦变换得到APNCC,
        (30)
其中,
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE186
,本发明中,取
Figure DEST_PATH_IMAGE188
CN201210368983.5A 2012-09-27 2012-09-27 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 Expired - Fee Related CN102930870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210368983.5A CN102930870B (zh) 2012-09-27 2012-09-27 利用抗噪幂归一化倒谱系数的鸟类声音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210368983.5A CN102930870B (zh) 2012-09-27 2012-09-27 利用抗噪幂归一化倒谱系数的鸟类声音识别方法

Publications (2)

Publication Number Publication Date
CN102930870A true CN102930870A (zh) 2013-02-13
CN102930870B CN102930870B (zh) 2014-04-09

Family

ID=47645651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210368983.5A Expired - Fee Related CN102930870B (zh) 2012-09-27 2012-09-27 利用抗噪幂归一化倒谱系数的鸟类声音识别方法

Country Status (1)

Country Link
CN (1) CN102930870B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474072A (zh) * 2013-10-11 2013-12-25 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN104751845A (zh) * 2015-03-31 2015-07-01 江苏久祥汽车电器集团有限公司 一种用于智能机器人的声音识别方法及系统
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN105882687A (zh) * 2016-05-13 2016-08-24 南京雅信科技集团有限公司 道岔转辙机的故障类别分析方法
CN107369451A (zh) * 2017-07-18 2017-11-21 北京市计算中心 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN108022588A (zh) * 2017-11-13 2018-05-11 河海大学 一种基于双特征模型的鲁棒语音识别方法
CN108962275A (zh) * 2018-08-01 2018-12-07 电信科学技术研究院有限公司 一种音乐噪声抑制方法及装置
CN110060695A (zh) * 2019-04-24 2019-07-26 百度在线网络技术(北京)有限公司 信息交互方法、装置、服务器和计算机可读介质
CN111626093A (zh) * 2020-03-27 2020-09-04 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN112686293A (zh) * 2020-12-25 2021-04-20 广东电网有限责任公司中山供电局 一种基于gmm识别模型的鸟类智能识别方法及系统
CN113516066A (zh) * 2021-07-05 2021-10-19 内蒙古工业大学 电能质量扰动信号分类方法、装置、存储介质和电子设备
CN113571089A (zh) * 2021-08-09 2021-10-29 南昌航空大学 基于梅尔倒谱系数-支持向量机架构的声音识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327593A (ja) * 1998-05-14 1999-11-26 Denso Corp 音声認識システム
EP1081685A2 (en) * 1999-09-01 2001-03-07 TRW Inc. System and method for noise reduction using a single microphone
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
EP2141941A2 (de) * 2008-07-01 2010-01-06 Siemens Medical Instruments Pte. Ltd. Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
CN102419972A (zh) * 2011-11-28 2012-04-18 西安交通大学 一种声音信号检测和识别的方法
CN102655003A (zh) * 2012-03-21 2012-09-05 北京航空航天大学 基于声道调制信号mfcc的汉语语音情感点识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327593A (ja) * 1998-05-14 1999-11-26 Denso Corp 音声認識システム
EP1081685A2 (en) * 1999-09-01 2001-03-07 TRW Inc. System and method for noise reduction using a single microphone
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
EP2141941A2 (de) * 2008-07-01 2010-01-06 Siemens Medical Instruments Pte. Ltd. Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
CN102419972A (zh) * 2011-11-28 2012-04-18 西安交通大学 一种声音信号检测和识别的方法
CN102655003A (zh) * 2012-03-21 2012-09-05 北京航空航天大学 基于声道调制信号mfcc的汉语语音情感点识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
余清清 李应 李勇: "基于高斯混合模型的自然环境声音的识别", 《计算机工程与应用》 *
李勇 李应 余清清: "新型MFCC和波动模型相结合的二层环境声音识别", 《计算机工程与应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103489446B (zh) * 2013-10-10 2016-01-06 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103474072B (zh) * 2013-10-11 2016-06-01 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
CN103474072A (zh) * 2013-10-11 2013-12-25 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
CN104751845A (zh) * 2015-03-31 2015-07-01 江苏久祥汽车电器集团有限公司 一种用于智能机器人的声音识别方法及系统
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN105882687A (zh) * 2016-05-13 2016-08-24 南京雅信科技集团有限公司 道岔转辙机的故障类别分析方法
CN107369451A (zh) * 2017-07-18 2017-11-21 北京市计算中心 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN108022588B (zh) * 2017-11-13 2022-03-29 河海大学 一种基于双特征模型的鲁棒语音识别方法
CN108022588A (zh) * 2017-11-13 2018-05-11 河海大学 一种基于双特征模型的鲁棒语音识别方法
CN108962275A (zh) * 2018-08-01 2018-12-07 电信科学技术研究院有限公司 一种音乐噪声抑制方法及装置
CN108962275B (zh) * 2018-08-01 2021-06-15 电信科学技术研究院有限公司 一种音乐噪声抑制方法及装置
CN110060695A (zh) * 2019-04-24 2019-07-26 百度在线网络技术(北京)有限公司 信息交互方法、装置、服务器和计算机可读介质
CN111626093A (zh) * 2020-03-27 2020-09-04 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN111626093B (zh) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN112686293A (zh) * 2020-12-25 2021-04-20 广东电网有限责任公司中山供电局 一种基于gmm识别模型的鸟类智能识别方法及系统
CN113516066A (zh) * 2021-07-05 2021-10-19 内蒙古工业大学 电能质量扰动信号分类方法、装置、存储介质和电子设备
CN113516066B (zh) * 2021-07-05 2023-08-08 内蒙古工业大学 电能质量扰动信号分类方法、装置、存储介质和电子设备
CN113571089A (zh) * 2021-08-09 2021-10-29 南昌航空大学 基于梅尔倒谱系数-支持向量机架构的声音识别方法

Also Published As

Publication number Publication date
CN102930870B (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN102930870B (zh) 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN103489446B (zh) 复杂环境下基于自适应能量检测的鸟鸣识别方法
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
CN109599120B (zh) 一种基于大规模养殖场厂哺乳动物异常声音监测方法
CN108198545B (zh) 一种基于小波变换的语音识别方法
CN103646649A (zh) 一种高效的语音检测方法
WO2005024782B1 (en) Method and apparatus for automatically identifying animal species from their vocalizations
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Mallidi et al. Novel neural network based fusion for multistream ASR
CN111540368B (zh) 一种稳健的鸟声提取方法、装置及计算机可读存储介质
CN109065043A (zh) 一种命令词识别方法及计算机存储介质
Bagul et al. Text independent speaker recognition system using GMM
Gupta et al. Robust speech recognition using wavelet coefficient features
Chou et al. On the studies of syllable segmentation and improving MFCCs for automatic birdsong recognition
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Jančovič et al. Speech enhancement based on Sparse Code Shrinkage employing multiple speech models
Maganti et al. Auditory processing-based features for improving speech recognition in adverse acoustic conditions
Kumar et al. Classification of voiced and non-voiced speech signals using empirical wavelet transform and multi-level local patterns
Mu et al. MFCC as features for speaker classification using machine learning
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
TWI749547B (zh) 應用深度學習的語音增強系統
Komlen et al. Text independent speaker recognition using LBG vector quantization
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
Yan et al. Anti-noise power normalized cepstral coefficients for robust environmental sounds recognition in real noisy conditions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140409

Termination date: 20160927