CN103474072B

CN103474072B - 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法

Info

Publication number: CN103474072B
Application number: CN201310473337.XA
Authority: CN
Inventors: 李应; 魏静明
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2016-06-01
Anticipated expiration: 2033-10-11
Also published as: CN103474072A

Abstract

本发明涉及一种利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法，其特征在于：步骤1，通过短时谱估计算法对鸟鸣声带噪功率谱进行音频增强；步骤2，采用和差统计法(SDH)对增强功率谱快速提取纹理特征；步骤3，由随机森林(RF)实现快速分类。本发明解决了纹理特征提取过程中灰度共生矩阵(GLCM)占用空间大、耗时，以及识别和分类过程中常见单分类器分类速度慢的问题。

Description

利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法

技术领域

本发明涉及鸟鸣声识别技术领域，特别是一种利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法。

背景技术

生态环境下普遍存在的鸟鸣声中包含着丰富的信息，鸟鸣声识别在了解鸟类行为等特征的同时，还可以对相关环境做一定程度的分析。鸟鸣声识别的一般方法是先从鸟鸣声片段中提取特征，然后结合分类器模型进行识别和分类。

原始鸟鸣声信号经过短时傅里叶变换(Short-TimeFourierTransform,STFT)可以得到其时频谱图，该时频谱图本质上是一副灰度图像，因此可以通过图像特征实现鸟鸣声识别。目前，借助图像特征，鸟鸣声识别领域已取得了一些成果。文献[1]提出一种基于时频谱图有监督的时频分割方法，利用时频单元方差等特征进行鸟鸣声识别。文献[2]提出一种基于时频谱图形状特征的方法，利用角度径向变换特征实现鸟鸣声自动识别。

不同于以上特征，纹理特征是一种全局统计特征，在图像识别中具有较大的优越性。因此，我们试图利用时频谱图纹理特征进行鸟鸣声识别。纹理特征提取方法中，基于统计的灰度共生矩阵(GrayLevelCo-occurrenceMatrix,GLCM)因其原理简单、并能较好反映纹理图像而被广泛采用^[3-6]。但GLCM的二维表示占用存储空间大，提取二次统计纹理特征的过程计算量大、耗时多。在GLCM的改进算法中，和差统计法(SumandDifferenceHistograms,SDH)^[7]的一维表示能够有效地克服GLCM的缺点。

同时，为了进行鸟鸣声识别，诸多单分类器模型被采用并取得良好的识别性能，如支持向量机(SupportVectorMachine,SVM)^[8]、隐马尔科夫模型(HiddenMarkovModel,HMM)^[9]等。不过它们依然存在一些缺点，如对不同类型数据检测性能不平衡、响应时间较长等。而随机森林(RandomForest,RF)^[10]作为一种组合分类器，能有效解决单分类器面临的问题。

此外，真实环境中普遍存在着各种背景噪声，这使得噪声环境下的鸟鸣声识别具有重要的现实意义。文献[11]采用谱减法，功率谱分析及自相关分析进行噪声环境下的鸟鸣声识别。文献[12]利用基于帧线性预测编码(LinearPredictiveCoding,LPC)的聚类，提取有效音节实现噪声环境下鸟鸣声识别。但这些方法主要针对特定噪声环境下的鸟鸣声识别，不能普遍适用于真实环境中的非平稳噪声。而短时谱估计^[13]能够有效处理非平稳噪声下的音频增强。

发明内容

本发明的目的是提供一种利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法，解决了纹理特征提取过程中灰度共生矩阵(GLCM)占用空间大、耗时，以及识别和分类过程中常见单分类器分类速度慢的问题。

本发明采用以下方案实现：一种利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法，其特征在于：步骤1，通过短时谱估计算法对鸟鸣声带噪功率谱进行音频增强；步骤2，采用和差统计法(SDH)对增强功率谱快速提取纹理特征；步骤3，由随机森林(RF)实现快速分类。

本发明首先通过短时谱估计对鸟鸣声做增强处理，然后由SDH对得到的增强功率谱快速提取纹理特征，再结合RF进行快速识别和分类。实验结果表明，该方法提取的纹理特征具有良好的识别性能，在纹理特征提取与识别和分类两个环节都减少了时耗，同时能够有效提高非平稳噪声环境下鸟鸣声识别性能。

附图说明

图1是本发明利用纹理特征与RF的快速抗噪鸟鸣声识别方法流程示意图。

图2是本发明RF的基本原理框图。

图3a是绣眼波形图。

图3b是秃鹰波形图。

图3c是绣眼声谱图。

图3d是秃鹰声谱图。

图3e是增强后绣眼声谱图。

图3f是增强后秃鹰声谱图。

图4是实验甲在不同噪声环境和不同信噪比下的平均识别率。

图5是实验乙在不同噪声环境和不同信噪比下的平均识别率。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明的利用纹理特征与RF的快速抗噪鸟鸣声识别方法可分为前端处理、纹理特征提取以及识别和分类三个环节，如图1所示。从真实环境中采集的原始鸟鸣声信号y(t)可表示为：

y(t)=s(t)+n(t)(1)

式中，s(t)为纯净鸟鸣声，n(t)为加性环境噪声。经过预处理后，对y(t)进行STFT可得到其幅度谱Y(k,l)，其中k为帧索引，l为频率索引。接下来在前端处理环节对Y(k,l)进行音频增强。

前端处理环节采用的短时谱估计是一种基于噪声估计的音频增强算法，具体实现如下。

⑴对鸟鸣声幅度谱Y(k,l)进行一个固定因子平滑，得到平滑后带噪声音功率谱：

S(k,l)=αS(k-1,l)+(1-α)|Y(k,l)|²(2)

式中，α=0.7为固定的平滑因子。

⑵通过前向-后向相结合的双向搜索算法寻找S(k,l)的最小频谱分量：

S_min(k,l)=max{S_min1(k,l),S_min2(k,l)}(3)

式中，S_min1(k,l)表示前向搜索出来的最小值，S_min2(k,l)表示后向搜索出来的最小值。

⑶计算有效信号存在的概率：

P(k,l)=α₁P(k-1,l)+(1-α₁)H(k,l)(4)

式中，α₁=0.2为固定的平滑因子，H(k,l)是有效信号存在性的判别准则，表示当前频点判定为音频信号还是噪声。可描述如下：

式中，φ(k)是依赖于具体频率的判别阈值，当k小于1kHz或界于1到3kHz时，取φ(k)=2，当k界于3kHz到信号采样频率的一半时，取φ(k)=5。

⑷计算时-频平滑因子η(k,l)：

η(k,l)=α₂+(1-α₂)P(k,l)(6)

式中，α₂=0.95为根据实际情况设定的常量，显然，α₂≤η(k,l)≤1。由η(k,l)可以进行噪声功率谱的估计：

N(k,l)=η(k,l)N(k-1,l)+(1-η(k,l))|Y(k,l)|²(7)

⑸得到上述结果后，便可以进行频谱增益因子的计算：

G(k,l)=C(k,l)/(C(k,l)+σN(k,l))(8)

式中，C(k,l)=|Y(k,l)|²-N(k,l)表示纯净信号功率谱，σ为过减因子，其值为：

σ = 8 - \frac{9}{25} \times 101 g \frac{{| Y (k, l) |}^{2}}{N (k, l)} - - - (9)

⑹最后，得到增强后的音频信号功率谱：

X(k,l)=G(k,l)×Y(k,l)²(10)

算法中相关参数值，都是我们经过多次实验对比后确定的，适用于非平稳噪声环境下鸟鸣声的增强处理。

纹理特征提取包括计算和向量与差向量和纹理特征的选择与计算。

其中计算和向量与差向量：

增强后的音频信号功率谱X(k,l)是一副灰度图像，其大小为M×N，灰度级为L。图像中两像素点相对位移(△k,△l)一定的情况下，我们分别定义和与差为：

S(k,l)=X(k,l)+X(k+△k,l+△l)(11)

D(k,l)=X(k,l)-X(k+△k,l+△l)(12)

和的统计定义为：

C(i|△k,△l)=CS(i)=Card{S(k,l)=i,((k,l),(k+△k,l+△l))∈(M×N)×(M×N)}(13)

式中，i=0,1,…,2(L-1)。差的统计定义为：

C(j|△k,△l)=C_D(j)=Card{D(k,l)=j,((k,l),(k+△k,l+△l))∈(M×N)×(M×N)}(14)

式中，j=-(L-1),-(L-2),...,0,...,L-2,L-1。对(14)式进一步分析可知，对于0<d≤L-1，有C_D(d)=C_D(-d)。因此对差向量在j=0处进行折叠，可以得到简单化的新差向量：

{C^{*}}_{D} (j) = \{\begin{matrix} C_{D} (j), & j = 0 \\ 2 C_{D} (j), & 0 < j \leq L - 1 \end{matrix} - - - (15)

由于正规化后的特征值能够使纹理分辨率更高，因此，实际应用中，需要对和向量与差向量进行正规化：

S(i)=C_S(i)/N_H，D(j)=C^* _D(j)/N_H(16)

式中，

N_{H} = Σ_{i = 0}^{2 (L - 1)} C_{S} (i) = Σ_{j = 0}^{L - 1} {C^{*}}_{D} (j) .

纹理特征的选择与计算：

目前，基于纹理的统计特征有14种，经过多次组合对比，我们选择其中5种不相关且具有较好分类能力的特征，并用正规化后的和向量与差向量计算如下：

⑴角二阶距(UNI)：

UNI = Σ_{i = 0}^{2 (L - 1)} S^{2} (i) Σ_{j = 0}^{L - 1} D^{2} (j) - - - (17)

⑵对比度(CON)：

CON = Σ_{j = 0}^{L - 1} j^{2} D (j) - - - (18)

⑶相关(COR)：

COR = (Σ_{i = 0}^{2 (L - 1)} {(i - 2 μ)}^{2} S (i) - Σ_{j = 0}^{L - 1} j^{2} D (j)) / 2 - - - (19)

式中，

μ = Σ_{i = 0}^{2 (L - 1)} iS (i) .

⑷熵(ENT)：

ENT = - Σ_{i = 0}^{2 (L - 1)} S (i) \log S (i) - Σ_{j = 0}^{L - 1} D (j) \log D (j) - - - (20)

⑸局部平稳(HOM)：

HOM = Σ_{j = 0}^{L - 1} \frac{D (j)}{{(1 + j)}^{2}} - - - (21)

分别用a,b,c,d表示图像X(k,l)中两像素点相对位移(△k,△l)为(1,0)，(1,1)，(0,1)，(-1,1)的四种情况，通过以上过程计算每种情况下的5个纹理特征值，并按顺序排在一起，可以得到一个维数为1、长度为20的纹理特征向量v=(v_a,v_b,v_c,v_d)，v_i=(i.uni,i.con,i.cor,i.ent,i.hom)，i∈{a,b,c,d}，i.uni表示在情况i下得到的角二阶距值，其它4个意义类同。

识别和分类环节采用的RF运行速度快，能够高效处理大数据集分类问题。下面我们给出了RF的基本原理，分为训练和测试两个阶段，如图2所示。

训练阶段：

⑴通过自助重采样(Bootstrap)技术，对训练样本集有放回地随机抽样300次，得到300个大小为N的自助样本集。其中，N为训练样本集中样本个数。

⑵将每个自助样本集作为单棵树的全部训练样本，其纹理特征向量集V_Train=(v₁,v₂,…,v_N)，v_j是第j个样本的纹理特征向量，j=1,2,…,N。全部训练样本作为该决策树的根节点，然后由根节点开始，进入如下一个自顶向下的贪婪搜索算法。

a.计算当前节点A的Gini不纯度i(A)：

i (A) = 1 - \underset{w}{Σ} P^{2} (w) - - - (22)

式中，P(w)是在节点A处w类样本占总样本数的比例，w=1,2,…,N_w，N_w为总类别数。当前节点A处的每个样本对应一个类别，由于每个自助样本集生成的随机性，以及A在决策树中层次位置的不同，A处有些类别样本数可能为0。若节点A处所有样本类别一致，则直接跳到步骤d去寻找新的当前节点。

b.从纹理特征向量的20个特征中无放回地随机挑选4个特征，用这4个特征分别对节点A进行划分。由于所有特征均是数值类型的，因此用某个特征进行划分时，就是确定该特征的阈值，使得按这个阈值划分得到的两个分支节点具有尽可能小的Gini不纯度。

c.在4种划分中，比较得到使Gini不纯度下降最快的那个特征，作为该节点处的最佳划分，同时，记录该决策树在节点A处有最佳划分的特征及其阈值。Gini不纯度下降用△i(A)度量：

△i(A)=i(A)-P_Li(A_L)-(1-P_L)i(A_R)(23)

式中，P_L是划分到左分支节点A_L中的样本占节点A中样本数的比例，A_R为右分支节点。△i(A)越大，节点A处的Gini不纯度下降越快。

d.节点A处的最佳划分确定并完成划分后，首先寻找它是否有右兄弟节点，若有，则该兄弟节点将作为新的当前节点；若没有，寻找决策树下一层最左边那个节点作为当前节点。一旦确定新的当前节点，将返回步骤a继续划分。若当前节点无右兄弟，且下一层也没有其它节点，说明此时每个节点样本类标均一致，完成决策树的训练过程。

⑶组合300棵决策树，得到RF。

测试阶段：

⑴将待测样本集作为测试数据，其纹理特征向量集

V_{Test} = (V_{1}, V_{2}, \cdot \cdot \cdot, {V_{N}}_{1}),

v_j是第j个样本的纹理特征向量，j=1,2,…,N₁，N₁为测试样本集中样本个数(一般情况下N₁>N)，然后投入训练好的RF分类器中。

⑵对测试数据中的每一个待测样本j，随机森林中300棵决策树各有一个投票结果，统计300棵决策树的投票结果，其得票最多的类别就是该样本所属类别。

方法性能分析

这部分，我们实例分析利用纹理特征与RF的快速抗噪鸟鸣声识别方法在前端处理和纹理特征提取两个环节的性能，识别和分类环节因需要大量样本的参与，仅在实验部分验证其性能。

前端处理性能分析：真实环境中采集的绣眼和秃鹰两种鸟鸣声如图3a-3f所示。其中，(a)、(b)分别为绣眼和秃鹰的波形图，(c)、(d)分别为增强前绣眼和秃鹰的声谱图，(e)、(f)分别为经短时谱估计增强后绣眼和秃鹰的声谱图。通过(c)和(e)以及(d)和(f)的对比，可以看出，(e)、(f)两幅声谱图包含的背景噪声的纹理明显少于(c)、(d)两幅声谱图，同时，(e)、(f)两幅声谱图中有效声音信号的纹理更加突出。这说明了在前端处理环节采用的短时谱估计算法能够有效地降低真实环境中非平稳噪声对鸟鸣声信号的影响。

纹理特征提取性能分析:为了便于用实例分析纹理特征提取过程中和向量、差向量的计算，以及SDH相对GLCM在空间占用方面的优越性，并计算最终的纹理特征向量。我们从上面采集的绣眼声谱图中截取一个大小为4×5、灰度级为8的灰度图像，并由其分别计算GLCM与和向量、差向量，所得结果如下表所示。

表a为4×5的灰度图像，表b为对应的GLCM，表c为和向量与差向量

其中，(b)为(a)在距离d=1和方向θ=0°时计算得到的GLCM，矩阵中每一个元素值都是对(a)进行遍历统计得到的，第i行j列的元素值表示(a)中水平方向距离为1的像素对中一个像素值为i、另一个像素值为j的个数，i,j=0,1,…,7，正向和逆向重复计数，可知，GLCM为对称矩阵。如像素对(1,2)或(2,1)只在(a)中第2行出现一次，故(b)中第1行2列以及第2行1列元素值均为1。

而(c)为(a)在相对位移取(1,0)的情况下得到的和向量与差向量。C_S(i)表示(a)中水平方向距离为1的像素对和为i的个数，i=0,1,…,14。如，(a)中和为6的组合中，像素对(6,0)出现2次，像素对(2,4)出现1次，其它均为0，因此C_S(6)=6。C^* _D(j)表示(a)中水平方向距离为1的像素对差的绝对值为j的个数，j=0,1,…,7。如，(a)中差的绝对值为1的组合中，像素对(0,1)出现2次，像素对(1,2)出现1次，像素对(3,4)出现1次，像素对(4,5)出现1次，因此C^* _D(1)=10。

通过(b)与(c)的对比，不难看出，SDH的一维表示占用空间为15+8，GLCM的二维表示占用空间为8×8，用灰度级来表示分别为2(L-1)+1+L与L²，其中L=8。当L=2时，L²=4小于2(L-1)+1+L=5，当L=3时，L²=9大于2(L-1)+1+L=8，当L>3时，随着L的增大，L²呈指数增长，2(L-1)+1+L则呈线性增长，两者的差值也越来越大。可见，SDH在空间占用方面有明显的优越性。

对表(c)中和向量与差向量进行正规化后，由式(17)-(21)，可得v_a=(0.0231,1.8125,23.1250,3.9698,0.0764)。接下来，用同样的方式计算相对位移为(1,1)，(0,1)，(-1,1)三种情况下的和向量、差向量，并计算相应纹理特征，得到其纹理特征向量v=(v_a,v_b,v_c,v_d)=(0.0231,1.8125,23.1250,3.9698,0.0764,0.0311,4.5833,35.6667,3.6061,0.1550,0.0263,17.1333,19.4667,3.8676,0.0871,0.0478,20.5000,13.7083,3.0582,0.0374)。

至于SDH与GLCM时耗方面的对比，这里只分析其时间复杂度，具体实例数据可从实验部分获知。表1列出了由GLCM计算本文选择的5个纹理特征的公式^[3-5]。可见，GLCM的时间复杂度为O(L²)，由式(17)-(21)可知，SDH的时间复杂度仅为O(L)，显然，比起GLCM，SDH在时间复杂度方面也有一个数量级的提升。

表1GLCM下5种特征计算公式

实验与结果分析

声音样本集：实验用到的10种纯净鸟鸣声来自Freesound^[14]声音数据库，分别为白面鸡、朱颈斑鸠、董鸡、红毛鸡、山斑鸠、水秧鸡、绣眼、野山鸡、竹鸡、鹧鸪。每种鸟鸣声有40个样本，共400个样本。实验用到的三种加性背景噪声分别为高斯白噪声、汽车噪声和流水噪声。其中，高斯白噪声是由计算机随机产生的均值为0、功率谱密度为1且均匀分布的随机信号经高斯化得到的，汽车噪声和流水噪声是以44.1kHz的采样频率分别在交通主干线附近和山间小溪处录取的。为规范以上声音文件的编码格式和长度，我们将它们统一转换成采样频率为8kHz、采样精度为16b，长度为2s的单声道WAV格式声音片段。在预处理部分，对声音片段分帧加Hanning窗，帧长为16ms(128个采样点)，帧移为8ms(64个采样点)。

实验设计与结果分析：为了检验利用纹理特征与RF的快速抗噪鸟鸣声识别方法的性能，设计了三组对比实验，每组均进行20次。每次实验，无放回地从每类鸟鸣声中随机抽取10个样本作为训练数据，剩下30个样本作为测试数据。

第1组实验，对比由SDH与GLCM提取纹理特征的识别率和时耗。对纯净的鸟鸣声片段，做预处理和STFT后，分别使用GLCM和SDH来提取纹理特征，然后由10类共100个训练样本的纹理特征向量来训练RF分类器，最后用训练好的RF分类器对10类共300个测试样本进行识别和分类。每次实验，记录GLCM和SDH对每类鸟鸣声提取的纹理特征的识别率，得到的20个值分别是两种方法下每类鸟鸣声30个测试样本识别率的均值；记录GLCM和SDH在每类鸟鸣声纹理特征提取过程的时耗，得到的20个值分别是两种方法下每类鸟鸣声10个训练样本和30个测试样本相应时耗的均值。

表2两种纹理特征提取方法用于10类鸟鸣声分类的识别率和时耗比

20次实验取平均后，结果如表2所示。其中，为方便对比时耗，统一记GLCM的相应时耗比为100，并按比例计算得到SDH的相应时耗比。可见，识别率方面，纹理特征具有良好的识别性能，同时SDH在白面鸡、董鸡、水秧鸡这3类鸟鸣声的识别率略小于GLCM，而另外7类鸟鸣声的识别率则大于等于GLCM，并且，平均识别率还有微小的提升。更重要的是，时耗比方面，从数据上看SDH明显全优于GLCM，平均时耗比也减少了20.2%。显然，比起GLCM，采用SDH提取的纹理特征能够在保证良好识别率的前提下，有效地减少时耗。

第2组实验，对比由RF与SVM进行分类的识别率和时耗。同样地，对纯净的鸟鸣声片段先做预处理和STFT，然后采用SDH实现纹理特征的快速提取。接下来，分别采用SVM分类器和RF分类器进行分类。其中，SVM采用LIBSVM软件包，核函数为径向基核函数，惩罚因子C=1。RF分类器的训练、测试均与第1组实验中完全一样。每次实验，记录SVM和RF对每类鸟鸣声分类的识别率，得到的20个值分别是两种方法下每类鸟鸣声30个测试样本识别率的均值；记录SVM和RF在每类鸟鸣声识别和分类过程中的时耗，该时耗均包括分类器训练和测试两个阶段的时耗，得到的20个值分别是两种方法下每类鸟鸣声10个训练样本完成分类器训练阶段的时耗加上30个测试样本完成分类器测试阶段的时耗的均值。

表3两种分类器用于10类鸟鸣声分类的识别率和时耗比

20次实验取平均后，结果如表3所示。其中，统一记SVM的相应时耗比为100，并按比例计算得到RF的相应时耗比。可见，识别率方面，对全部10类鸟鸣声，RF的识别率都要大于SVM的数据，识别率差最小为1，对应的是红毛鸡、水秧鸡和竹鸡3类，识别率差最大的为10，对应的是董鸡，平均识别率差为4.4。此外，时耗比方面，从数据上看RF也是全优于SVM，且平均时耗也减少了16.2%。可见，比起SVM，采用RF分类器不仅可以取得更好的识别性能，还可以有效减少分类过程的时耗。

第3组实验，对比利用纹理特征与RF的快速抗噪鸟鸣声识别方法在不同噪声环境和不同信噪比情况下的识别率。为了模拟真实环境中的鸟鸣声，实验用到3种常用加性背景噪声，分别是高斯白噪声、汽车噪声和流水噪声。对10类纯净鸟鸣声共400个声音片段中的每一个声音片段按信噪比为0dB、10dB、20dB、30dB和40dB分别添加3种背景噪声，经过预处理和STFT后，实验甲不做增强，实验乙用短时谱估计进行音频增强，然后由SDH对相应功率谱提取纹理特征，接下来，采用RF分类器进行识别和分类，其训练和测试阶段设计同前两组实验。每次实验，分别记录实验甲和实验乙在不同噪声环境和不同信噪比下鸟鸣声的平均识别率，得到的30个值分别是不同条件下10类鸟鸣声300个测试样本识别率的均值。

图4展示了实验甲在不同噪声环境和不同信噪比下的平均值别率。从中可以看出，没有经过音频增强的前端处理时，该方法对带噪音频数据的识别性能并不良好，尤其是信噪比小于30dB时，三种不同噪声环境下，平均识别率均不到80%。这表明，该方法在未经音频增强的前端处理时，并不能取得噪声环境下令人满意的识别性能，并且，不同的噪声环境对方法性能的影响也是不一样的，相比起来，汽车噪声的影响最小，高斯白噪声的影响最大。

图5是实验乙在不同噪声环境和不同信噪比下的平均识别率。具体分析两幅图中30个数据可知，经过增强后，平均识别率的涨幅最小为6.5%，对应着汽车噪声环境下信噪比为40dB的情况，涨幅最大为43%，对应着高斯白噪声环境下信噪比为10dB的情况。在信噪比介于0dB到20dB之间时，平均识别率整体有相当大的提高。显然，经过音频增强的前端处理后，全部三种不同噪声环境下，该方法的平均识别率都得到了可观的提升。但是对于信噪比接近0dB时，增强后的该方法性能依然不佳。这可能是由于噪声信号的能量大于等于有效音频信号的能量，在增强处理过程中，噪声功率谱的估计比较困难。

本发明实现了一种利用纹理特征与RF的快速抗噪鸟鸣声识别方法。该方法首先使用了一个短时谱估计的音频增强作为前端处理，接着由SDH对得到的增强功率谱快速提取纹理特征并结合RF进行快速分类。实验结果表明，该方法在纹理特征提取和分类两个阶段均能在保证良好识别率的前提下有效地减少时耗，并且具有较好的抗噪性。今后的工作，我们将进一步研究短时谱估计算法，以有效地提高信噪比接近0dB情况下方法的识别性能，此外，将用更多的生态环境声音进行实验，以检验该方法对生态环境声音的普遍适用性。

参考文献

[1]NealL,BriggsF,RaichR,etal.Time-frequencysegmentationofbirdsonginnoisyacousticenvironments[A].IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing[C].Prague,CzechRepublic:IEEEpress,2011:2012-2015.

[2]LeeCH,HsuSB,ShihJL,etal.ContinuousbirdsongrecognitionusingGaussianMixtureModelingofimageshapefeatures[J].IEEETransactionsonMultimedia,2013,15(2):454-464.

[3]SaharJ,ZahraSandMehdiA.ArobustbrainMRIclassificationwithGLCMfeatures[J].InternationalJournalofComputerApplications,2012,37(12):1-5.

[4]BenazirK.K,Vijayakumar.FingerprintmatchingbyextractingGLCMfeatures[A].IJCAProceedingsonInternationalConferenceandworkshoponEmergingTrendsinTechnology[C].NewYork,USA:FoundationofComputerSciencepress,2012,(1):30-34.

[5]RodeKN,PatilSS.AnalysisofMSusingGLCM[J].InternationalJournalofScience,EngineeringandTechnologyResearch,2012,1(5):121-126.

[6]AswiniKM,SwapnasiktaB,SarojKL.ClassifyingbenignandmalignantmassusingGLCMandGLRLMbasedtexturefeaturesfrommammogram[J].InternationalJournalofEngineeringResearchandApplications,2011,1(3):687-693.

[7]UnserM.SumandDifferencehistogramsfortextureclassification[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1986,8(1):118-125.

[8]FagerlundS.Birdspeciesrecognitionusingsupportvectormachines[J].EURASIPJournalofAdvancesinSignalProcessing,2007,2007(1):1-8.

[9]WielgatR,PotempaT,SwietojanskiP,etal.OnusingprefiltrationinHMM-basedbirdspeciesrecognition[A].InternationalConferenceonSignalsandElectronicSystems[C].WroclawPoland:IEEEpress,2012:1-5.

[10]BreimanL.Randomforests[J].Machinelearning,2001,45(1):5-32.

[11]BardeliR,WolffD,KurthF,etal.Detectingbirdsoundsinacomplexacousticenvironmentandapplicationtobioacousticsmonitoring[J].PatternRecognitionLetters,2010,31(12):1524-1534.

[12]ChuW,etal.Noiserobustbirdsongdetectionusingsyllablepattern-basedhiddenmarkovmodels[A].IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing[C].Prague,CzechRepublic:IEEEpress,2011:345-348.

[13]刘翔,高勇.一种引入延迟的语音增强算法[J].现代电子技术,2011,34(5):85-88.

[14]UniversitatPompeuFabra.Repositoryofsoundunderthecreativecommonslicense,Freesound.org[DB/OL].http://www.freesound.org,2012-5-14.

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法，其特征在于：

步骤1，通过短时谱估计算法对鸟鸣声带噪功率谱进行音频增强；

步骤2，采用和差统计法对增强功率谱快速提取纹理特征；

步骤3，由随机森林实现快速分类；

从真实环境中采集的原始鸟鸣声信号y(t)可表示为：

y(t)＝s(t)+n(t)(1)

式中，s(t)为纯净鸟鸣声，n(t)为加性环境噪声，经过预处理后，对y(t)进行短时傅里叶变换可得到其幅度谱Y(k,l)，其中k为帧索引，l为频率索引，其中所述步骤1的实现方式包括如下步骤：

S(k,l)＝αS(k-1,l)+(1-α)|Y(k,l)|²(2)

式中，α＝0.7为固定的平滑因子；

S_min(k,l)＝max{S_min1(k,l),S_min2(k,l)}(3)

式中，S_min1(k,l)表示前向搜索出来的最小值，S_min2(k,l)表示后向搜索出来的最小值；

⑶计算有效信号存在的概率：

P(k,l)＝α₁P(k-1,l)+(1-α₁)H(k,l)(4)

式中，α₁＝0.2为固定的平滑因子，H(k,l)是有效信号存在性的判别准则，表示当前频点判定为音频信号还是噪声；可描述如下：

式中，φ(k)是依赖于具体频率的判别阈值，当k小于1kHz或界于1到3kHz时，取φ(k)＝2，当k界于3kHz到信号采样频率的一半时，取φ(k)＝5；

⑷计算时-频平滑因子η(k,l)：

η(k,l)＝α₂+(1-α₂)P(k,l)(6)

式中，α₂＝0.95为根据实际情况设定的常量，α₂≤η(k,l)≤1；由η(k,l)进行噪声功率谱的估计：

N(k,l)＝η(k,l)N(k-1,l)+(1-η(k,l))|Y(k,l)|²(7)

⑸得到上述结果后，进行频谱增益因子的计算：

G(k,l)＝C(k,l)/(C(k,l)+σN(k,l))(8)

式中，C(k,l)＝|Y(k,l)|²-N(k,l)表示纯净信号功率谱，σ为过减因子，其值为：

σ = 8 - \frac{9}{25} \times 10 \lg \frac{| Y (k, l) |^{2}}{N (k, l)} - - - (9)

⑹最后，得到增强后的音频信号功率谱：

X(k,l)＝G(k,l)×|Y(k,l)|²(10)；

所述步骤2的实现方式包括计算和向量与差向量和纹理特征的选择与计算；

所述计算和向量与差向量的实现方式如下：

增强后的音频信号功率谱X(k,l)是一副灰度图像，其大小为M×N，灰度级为L；图像中两像素点相对位移(△k,△l)一定的情况下，分别定义和与差为：

S(k,l)＝X(k,l)+X(k+△k,l+△l)(11)

D(k,l)＝X(k,l)-X(k+△k,l+△l)(12)

和的统计定义为：

C(i|△k,△l)＝C_S(i)＝Card{S(k,l)＝i,((k,l),(k+△k,l+△l))∈(M×N)×(M×N)}(13)

式中，i＝0,1,…,2(L-1)；差的统计定义为：

C(j|△k,△l)＝C_D(j)＝Card{D(k,l)＝j,((k,l),(k+△k,l+△l))∈(M×N)×(M×N)}(14)

式中，j＝-(L-1),-(L-2),...,0,...,L-2,L-1；对(14)式进一步分析可知，对于0<d≤L-1，有C_D(d)＝C_D(-d)；因此对差向量在j＝0处进行折叠，得到简单化的新差向量：

{C^{*}}_{D} (j) = \{\begin{matrix} C_{D} (j), & j = 0 \\ 2 C_{D} (j), & 0 < j \leq L - 1 \end{matrix} - - - (15)

对和向量与差向量进行正规化：

S(i)＝C_S(i)/N_H，D(j)＝C^* _D(j)/N_H(16)

式中，

所述纹理特征的选择与计算的实现方式如下：

利用正规化后的和向量与差向量计算如下：

⑴角二阶距UNI：

⑵对比度CON：

⑶相关COR：

式中，

⑷熵ENT：

⑸局部平稳HOM：

分别用a,b,c,d表示图像X(k,l)中两像素点相对位移(△k,△l)为(1,0)，(1,1)，(0,1)，(-1,1)的四种情况，通过以上过程计算每种情况下的5个纹理特征值，并按顺序排在一起，得到一个维数为1、长度为20的纹理特征向量v＝(v_a,v_b,v_c,v_d)，v_i＝(i.uni,i.con,i.cor,i.ent,i.hom)，i∈{a,b,c,d}，i.uni表示在情况i下得到的角二阶距值，i.con,i.cor,i.ent,i.hom表示的意义与i.uni类同。

2.根据权利要求1所述的利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法，其特征在于：所述步骤3分为训练和测试两个阶段；

训练阶段：

⑴通过自助重采样技术，对训练样本集有放回地随机抽样300次，得到300个大小为N的自助样本集；其中，N为训练样本集中样本个数；

⑵将每个自助样本集作为单棵树的全部训练样本，其纹理特征向量集V_Train＝(v₁,v₂,…,v_N)，v_j是第j个样本的纹理特征向量，j＝1,2,…,N；全部训练样本作为该决策树的根节点，然后由根节点开始，进入如下一个自顶向下的贪婪搜索算法；

a.计算当前节点A的Gini不纯度i(A)：

i (A) = 1 - \underset{w}{Σ} P^{2} (w) - - - (22)

式中，P(w)是在节点A处w类样本占总样本数的比例，w＝1,2,…,N_w，N_w为总类别数；当前节点A处的每个样本对应一个类别，由于每个自助样本集生成的随机性，以及A在决策树中层次位置的不同，A处有些类别样本数可能为0；若节点A处所有样本类别一致，则直接跳到步骤d去寻找新的当前节点；

b.从纹理特征向量的20个特征中无放回地随机挑选4个特征，用这4个特征分别对节点A进行划分；由于所有特征均是数值类型的，因此用某个特征进行划分时，就是确定该特征的阈值，使得按这个阈值划分得到的两个分支节点具有尽可能小的Gini不纯度；

c.在4种划分中，比较得到使Gini不纯度下降最快的那个特征，作为该节点处的最佳划分，同时，记录该决策树在节点A处有最佳划分的特征及其阈值；Gini不纯度下降用△i(A)度量：

△i(A)＝i(A)-P_Li(A_L)-(1-P_L)i(A_R)(23)

式中，P_L是划分到左分支节点A_L中的样本占节点A中样本数的比例，A_R为右分支节点；△i(A)越大，节点A处的Gini不纯度下降越快；

d.节点A处的最佳划分确定并完成划分后，首先寻找它是否有右兄弟节点，若有，则该兄弟节点将作为新的当前节点；若没有，寻找决策树下一层最左边那个节点作为当前节点；一旦确定新的当前节点，将返回步骤a继续划分；若当前节点无右兄弟，且下一层也没有其它节点，说明此时每个节点样本类标均一致，完成决策树的训练过程；

⑶组合300棵决策树，得到RF；

测试阶段：

⑴将待测样本集作为测试数据，其纹理特征向量集v_j是第j个样本的纹理特征向量，j＝1,2,…,N₁，N₁为测试样本集中样本个数，一般情况下N₁>N，然后投入训练好的RF分类器中；