CN108694953A

CN108694953A - 一种基于Mel子带参数化特征的鸟鸣自动识别方法

Info

Publication number: CN108694953A
Application number: CN201710224881.9A
Authority: CN
Inventors: 张赛花; 赵兆; 许志勇
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2018-10-23

Abstract

本发明公开了一种基于Mel子带参数化特征的鸟鸣自动识别方法。该方法针对自然复杂声学环境下基于鸟鸣的物种分类问题，首先采用高斯混合模型拟合连续声学监测数据分帧后的对数能量分布，选取高似然率的数据帧组成候选声音事件，结合基于候选事件能量的后处理过程，完成稳健检测与自动分段；然后在谱图域对相应片段采用Mel带通滤波器组滤波处理，基于自回归模型分别建模各个子带输出的随时间变化的能量序列，得到能够描述不同种类鸟鸣信号时频特性的参数化特征；最后利用支持向量机算法进行分类识别。本发明实现简单，对生态监测有重要意义。

Description

一种基于Mel子带参数化特征的鸟鸣自动识别方法

技术领域

本发明属于生态监测及声信号识别技术领域，具体是一种基于Mel子带参数化特征的鸟鸣自动识别方法，。

背景技术

生物多样性监测作为生态监测的重要组成部分，在研究物种资源与生态环境方面具有十分重要的意义。其中，鸟类作为一种对栖息地改变和环境变化反应极为敏感的环境指示生物，是生物多样性评估与监测、生态环境影响评价的重要指标。基于鸟鸣的鸟类自动监测是一种非侵入式的检测鸟类存在与活动性的方法，对生态学研究有重要意义。

其中，利用声学信号分析手段对野外实测鸟声信号提取特征，是后续进行大规模数据分析、数学建模以及模式识别的基础。近年来已有学者提出基于和差统计法提取鸟鸣片段谱图对应的纹理特征向量(魏静明,李应.利用抗噪纹理特征的快速鸟鸣声识别[J].电子学报,2015,43(1):185-190.)，但是实验验证采用的数据样本均为手工截取的长度固定为2秒的片段，并未涉及鸣声片段的自动检测与提取，而对于野外大时间跨度连续声监测应用，人工截取片段方式不具有可行性，且上述方法对于持续时长变化的鸣声片段分类性能较差。

由此可知，现有技术存在方法不全面、功能单一等缺陷。

发明内容

本发明的目的在于提供一种基于Mel子带参数化特征的鸟鸣自动识别方法。

实现本发明目的的技术解决方案为：一种基于Mel子带参数化特征的鸟鸣自动识别方法，步骤如下：

步骤1、对野外实测的连续鸟声监测数据进行预处理，具体为统一采样率并计算功率谱图；

步骤2、对预处理后的连续鸟声数据进行自动分段，提取鸟鸣声片段；

步骤3、对步骤2得到的鸟鸣片段提取参数化特征；

步骤4、对步骤3提取出的特征建立数据库，进行鸟类物种的分类识别。

本发明与现有技术相比，其显著优点为：1)本发明的方法的数据是在野外自然复杂声学环境下录取，在各种背景噪声的影响下仍具有良好性能；2)本发明的方法对持续时长变化的鸟鸣声具有普适性；3)本发明的方法对不同类型的鸟类物种均具有良好的识别性能；4)本发明的方法数据可靠，易于实施，操作简单。

附图说明

图1是本发明基于Mel子带参数化特征的鸟鸣自动识别方法的流程图。

图2是本发明帧对数能量分布直方图及其高斯拟合曲线。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，本发明的一种基于Mel子带参数化特征的鸟鸣自动识别方法，步骤如下：

步骤1、对野外实测的连续鸟声监测数据进行预处理；

步骤1-1、将野外实测的连续鸟声监测数据统一转换为相同的采样率；

步骤1-2、对连续鸟声监测数据进行分帧、加窗及短时傅里叶变换，得到功率谱图，功率谱图可以表示为如下形式：

SP＝[sp(1),sp(2),…,sp(L)]；

式中，L表示帧数，第l帧(1≤l≤L)频域向量为：

sp(l)＝[|S(0,l)|²,|S(1,l)|²,…,|S(N/2-1,l)|²]^T；

其中，上标T表示转置，S(k,l),0≤k≤N/2-1表示在时频点(k,l)处的短时傅里叶变换结果，N为每帧信号进行快速傅里叶变换(Fast Fourier Transform,FFT)的点数，k为频率序号；。

步骤2-1、设置频率下限和上限分别为f_L和f_H；

步骤2-2、利用公式确定每一帧的短时能量；

式中，l为帧序号，k为频率序号，S(k,l)表示在时频点(k,l)处的短时傅里叶变换结果，N_L和N_H分别表示f_L和f_H对应的频率点序号，e(l)为第l帧的短时能量；

步骤2-3、利用公式le(l)＝log₁₀(e(l))确定每一帧的对数能量；

步骤2-4、结合图2，帧对数能量分布用含有两个高斯分量的GMM模型生成，则两个高斯分量可分别近似为鸣声事件帧集合以及环境噪声帧集合的概率密度函数，概率密度函数可表示为：

式中，对应于第m个高斯分量，μ_m为均值，为方差。w_m表示高斯分量权重系数，0≤w_m≤1，且满足

步骤2-5、对于第l帧，如果该帧属于鸣声事件帧集合的后验概率大于属于环境噪声帧集合的后验概率，则判决该帧归属某个鸣声片段，与该帧时间上连续且同样满足上述条件的其他帧也归属为该片段，输出鸣声片段集合记为D＝{AE₁,AE₂,…,AE_K}，其中K为片段个数；

步骤2-6、计算步骤2-5得到的鸣声片段集合中各个片段的能量，所用公式为：

最大值记为对于第k个片段，如果ME-EAE_k≥20dB，则剔除这个生态研究价值较小的过弱片段。

步骤3、对步骤2得到的鸟鸣片段提取参数化特征；

步骤3-1、对第i个鸣声片段进行分帧、加窗及短时傅里叶变换，得到功率谱图SP_i；

步骤3-2、设置一个包含32个带通滤波器的Mel滤波器组，其中第1个子带的下限Mel频率与第32个子带的上限Mel频率分别对应步骤2-1中的f_L和f_H，其转换关系为：

f_Mel＝1127×ln(1+f/700)；

步骤3-3、Mel滤波器组中第j个带通滤波器离散化后在物理频率域的频率响应可以表示为：

h(j)＝[h_j(0),h_j(1),…,h_j(N/2-1)]^T,j＝1,2,...,32；

相应滤波器组的频率响应矩阵可表示为：

H＝[h(1),h(2),…,h(32)]^T；

步骤3-4、鸣声片段经过并行滤波后的输出为：

Y＝H·SP_i；

步骤3-5、计算第j个Mel子带内信号能量随时间变化的序列，所用公式为：

式中，表示矩阵第j行，mean(·)表示取均值，u_j表示第j个Mel子带内信号能量随时间变化的序列；

步骤3-6、u_j对应的M_j阶AR模型可表示为：

其中z(l)为零均值白噪声序列，模型参数即为u_j对应的参数化特征，模型阶次M_j由AIC准则(Akaike Information Criterion,AIC)来确定。

步骤3-7、表征一个鸣声片段的参数化特征向量可以表示为：

其中j＝1,2,...,32，M＝10。当某个Mel子带输出序列u_j对应模型阶次M_j小于M时，对应的v_j最后M-M_j个系数设置为零。

步骤4、对步骤3提取出的特征建立数据库，进行鸟类物种的分类识别。鸟类物种的分类识别具体为：利用机器学习中的支持向量机分类器完成鸣声片段的自动物种分类。

下面结合实施例对本发明进行更详细的描述：

针对自然复杂声学环境下基于鸟鸣的物种分类问题，提出了一种基于Mel子带参数化特征的鸟鸣自动识别方法。该方法适用于各种类型的鸟类物种分类问题。具体过程为针对野外实测鸟声数据进行基于高斯混合模型的自动片段提取，采用基于候选事件能量的后处理过程剔除较弱的声音事件，然后基于自回归模型分别建模鸣声片段经过Mel带通滤波后各个子带输出的能量序列，得到能够描述不同种类鸟鸣信号谱模式信息的参数化特征，最后用支持向量机分类器进行分类识别。

结合图1，本发明基于Mel子带参数化特征的鸟鸣自动识别方法，步骤如下：

第一步，对在野外自然复杂声学环境下录取的鸟声数据进行预处理。首先将连续鸟声监测数据的采样率统一转换为32kHz，采样精度16bit，再对数据进行分帧、加窗及短时傅里叶变换，得到功率谱图，实例中取帧长为10ms，帧移为5ms，海明(Hamming)窗加权，每帧信号进行快速傅里叶变换的点数为512点。实施例从鸟声数据库下载11种鸟类的连续鸣声数据进行实验，分别为冠蓝鸦、歌带鹀、长嘴沼泽鹪鹩、黄喉地莺、棕顶雀鹀、美洲黄林莺、大蓝鹭、短嘴鸦、雪松太平鸟、家朱雀、靛蓝彩鹀。

第二步，对预处理后的连续鸟声数据进行自动分段，提取鸟鸣声片段。首先采用高斯混合模型拟合连续声学监测数据分帧后的对数能量分布，然后选取高似然率的数据帧组成候选声音事件，并结合基于候选事件能量的后处理过程，完成稳健检测与自动分段。具体过程如下:

(1)频率下限f_L设为1kHz用于部分滤除普遍存在的风噪以及人类活动影响，频率上限f_H设为16kHz。在[f_L,f_H]频带范围内计算短时帧能量然后取对数得到帧对数能量le(l)＝log₁₀(e(l))；

(2)结合图2，用含有两个高斯分量的高斯混合模型拟合帧对数能量分布，则两个高斯分量可分别近似为鸣声事件帧集合以及环境噪声帧集合的概率密度函数。概率密度函数可表示为:

式中，对应于第m个高斯分量，μ_m为均值，为方差。w_m表示高斯分量权重系数，0≤w_m≤1，且满足实例中参数集{w_m，μ_m,σ_m},m＝1,2利用期望最大(expectation-maximization,EM)算法获得相应的最大似然估计。

(3)如果某帧属于鸣声事件帧集合的后验概率大于属于环境噪声帧集合的后验概率，则判决该帧归属某个鸣声片段，与该帧时间上连续且同样满足上述条件的其他帧也归属为该片段。鸣声片段集合记为：D＝{AE₁,AE₂,…,AE_K}，其中K为片段个数；

(4)计算鸣声片段集合中各个片段的对数能量，所用式子为：k＝1,…,K，其中最大值记为对于第k个片段，如果ME-EAE_k≥20dB，则从鸣声片段集合中剔除这个生态研究价值较小的过弱片段。实施例对11种鸟类通过上述自动分段方法处理后得到鸟鸣片段共2762个。

第三步，对得到的鸟鸣片段提取参数化特征。在谱图域对相应片段采用Mel带通滤波器组滤波处理，然后基于自回归模型分别建模各个子带输出的随时间变化的能量序列，得到能够描述不同种类鸟鸣信号时频特性的参数化特征。具体内容为：

(1)对第i个鸣声片段进行分帧、加窗及短时傅里叶变换，得到功率谱图SP_i，实例中取帧长为10ms，帧移减小为2ms以便获得更高的时间分辨率；

(2)设置一个包含32个带通滤波器的Mel滤波器组，Mel滤波器组中第j个带通滤波器离散化后在物理频率域的频率响应为：

h(j)＝[h_j(0),h_j(1),…,h_j(N/2-1)]^T,j＝1,2,...,32；

相应滤波器组的频率响应矩阵为H＝[h(1),h(2),…,h(32)]^T；

(3)第i个鸣声片段经过并行滤波后的输出Y＝H·SP_i；

(4)计算第j个Mel子带内信号能量随时间变化的序列，所用公式为：

式中，表示矩阵第j行，mean(·)表示取均值，u_j表示第j个Mel子带内信号能量随时间变化的序列,则集合{u₁,…,u₃₂}则表征了鸣声片段AE_i在时频域上的谱模式信息；

(5)u_j对应的M_j阶AR模型可表示为：

其中z(l)为零均值白噪声序列，模型参数即为u_j对应的参数化特征。

由于不同Mel子带内信号能量随时间变化规律不同，相应AR模型的阶次也不同，实例中基于常用的AIC准则(Akaike Information Criterion,AIC)实现模型定阶。另外，针对大量野外实测记录研究发现最高阶次设为10阶可以获得较为满意结果。综上所述，用于表征一个鸣声片段的参数化特征向量可以表示为：其中j＝1,2,…,32，M＝10。当某个Mel子带输出序列u_j对应模型阶次M_j小于M时，对应的v_j最后M-M_j个系数设置为零。

第四步，对提取出的参数化特征建立数据库，并采用基于“one-versus-one”策略构造的多分类SVM实现鸣声片段的自动物种分类，实例中采用LIBSVM工具箱，选用径向基核函数(RadialBasis Function,RBF)，并采用自动寻优方式设置惩罚因子c和核参数g，最终对应参数为c＝8，g＝0.0625。并采用查准率precision、查全率recall、F1度量等评价指标进行性能评估，定义分别如下：

式中，TP(True Positive)和FP(False Positive)分别表示测试集中该类所有正例被正确和错误分类的数目；而FN(False Negative)则指测试集中该类所有负例被错误分类的数目。

实施例进行了50次物种分类实验，每次实验采用无放回方式从每类物种中随机抽取60％样本(实验中每个片段对应特征向量称为一个样本)作为总体训练集，余下每类40％样本共同组成总体测试集，并对测试集的分类结果进行性能评估。表1给出了50次物种分类实验中11种鸟的各类平均查准率、查全率以及F1度量结果，由表中结果可知，11种鸟的各类平均查准率、查全率以及F1度量均不低于89％，说明本发明方法性能良好，适用于野外自然环境下连续监测鸟声数据的自动分析。

表1 50次物种分类实验的各类平均查准率、查全率以及F1度量

本发明的方法以野外实测数据为基础，采用基于高斯混合模型的片段自动检测方法，并提取描述不同种类鸟鸣信号多个频带谱包络特性的稳健参数化特征，最后基于机器学习的方法进行鸟类物种的分类识别。通过本发明的方法，可以对鸟类进行非侵入式的连续声学监测。因此，本发明可用于检测鸟类存在与活动性，对生态研究具有十分重要的意义。

Claims

1.一种基于Mel子带参数化特征的鸟鸣自动识别方法，其特征在于步骤如下：

步骤1、对野外实测的鸟声连续监测数据进行预处理；

步骤2、对预处理后的连续监测数据进行自动分段，提取鸟鸣声片段；

步骤3、对步骤2得到的鸟鸣片段提取参数化特征；

步骤4、根据步骤3提取出的特征进行鸟类物种的分类识别。

2.根据权利要求1所述的基于Mel子带参数化特征的鸟鸣自动识别方法，其特征在于：步骤1对野外实测的鸟声连续监测数据进行预处理具体包括以下步骤：

步骤1-2、对连续鸟声监测数据进行分帧、加窗及短时傅里叶变换，得到功率谱图，功率谱图表示为如下形式：

SP＝[sp(1),sp(2),…,sp(L)]；

式中，L表示帧数，第l帧(1≤l≤L)频域向量为：

sp(l)＝[|S(0,l)|²,|S(1,l)|²,…,|S(N/2-1,l)|²]^T；

其中，上标T表示转置，S(k,l),0≤k≤N/2-1表示在时频点(k,l)处的短时傅里叶变换结果，N为每帧信号进行快速傅里叶变换(Fast Fourier Transform,FFT)的点数，k为频率序号。

3.根据权利要求1所述的基于Mel子带参数化特征的鸟鸣自动识别方法，其特征在于：步骤2对连续鸟声监测数据进行自动分段具体包括以下步骤：

步骤2-1、设置频率下限和上限分别为f_L和f_H；

步骤2-2、利用公式确定每一帧的短时能量；

步骤2-4、帧对数能量分布用含有两个高斯分量的高斯混合模型(Gaussian MixtureModel,GMM)生成，则两个高斯分量分别近似为鸣声事件帧集合以及环境噪声帧集合的概率密度函数，概率密度函数表示为：

步骤2-5、对于第l帧，如果该帧属于环境噪声帧集合的后验概率大于属于鸣声事件帧集合的后验概率，判决该帧归属环境噪声，环境噪声帧不予处理；如果该帧属于鸣声事件帧集合的后验概率大于属于环境噪声帧集合的后验概率，则判决该帧归属某个鸣声片段，与该帧时间上连续且同样满足上述条件的其他帧也归属为该片段；

鸣声片段集合记为D＝{AE₁,AE₂,…,AE_K}，其中K为片段个数；

步骤2-6、计算步骤2-5得到的各个鸣声片段的对数能量，所用公式为：

最大值记为对于第k个片段，如果ME-EAE_k≥20dB，则从鸣声片段集合中剔除这个生态研究价值较小的过弱片段。

4.根据权利要求1或3所述的基于Mel子带参数化特征的鸟鸣自动识别方法，其特征在于，步骤3对鸟鸣片段提取参数化特征具体为：

步骤3-1、根据步骤1-2计算第i个鸣声片段的功率谱图矩阵SP_i；

f_Mel＝1127×ln(1+f/700)；

步骤3-3、Mel滤波器组中第j个带通滤波器离散化后在物理频率域的频率响应表示为：

h(j)＝[h_j(0),h_j(1),…,h_j(N/2-1)]^T,j＝1,2,...,32；

相应滤波器组的频率响应矩阵表示为：

H＝[h(1),h(2),…,h(32)]^T；

步骤3-4、第i个鸣声片段经过并行滤波后的输出为：

Y＝H·SP_i；

步骤3-6、u_j对应的M_j阶自回归(AutoRegressive,AR)模型表示为：

其中z(l)为零均值白噪声序列，模型参数即为u_j对应的参数化特征，模型阶次M_j由AIC准则(Akaike Information Criterion,AIC)来确定；

步骤3-7、表征一个鸣声片段的参数化特征向量表示为：

其中M＝10；当某个Mel子带输出序列u_j对应模型阶次M_j小于M时，对应的v_j最后M-M_j个系数设置为零。

5.根据权利要求1所述的基于Mel子带参数化特征的鸟鸣自动识别方法，其特征在于，步骤4进行鸟类物种的分类识别具体为：利用机器学习中的支持向量机(Support VectorMachine,SVM)分类器完成鸣声片段的自动物种分类。