CN106531174A

CN106531174A - 基于小波包分解和声谱图特征的动物声音识别方法

Info

Publication number: CN106531174A
Application number: CN201611058956.2A
Authority: CN
Inventors: 李应; 黄鸿铿
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2016-11-27
Filing date: 2016-11-27
Publication date: 2017-03-22

Abstract

本发明涉及一种基于小波包分解和声谱图特征的动物声音识别方法，提出了一种基于Bark尺度的小波包分解系数重构的频谱投影结合随机森林的动物声音识别方法。首先，声音信号先经过Bark尺度的小波包分解；然后，生成小波包分解系数重构信号的频谱图；接着，对这些频谱图进行投影并生成BWCSP特征；最后，通过随机森林分类器实现动物声音的识别。对于受背景声音影响严重的动物声音，采用短时谱估计法对声音信号进行增强。本发明所提出的方法，结合短时谱估计法、BWCSP特征和随机森林的方法能够识别各种背景声音下的动物声音，且在‑10dB的情况下，能够保持平均60%以上的识别率。

Description

基于小波包分解和声谱图特征的动物声音识别方法

技术领域

本发明涉及动物声音的自动识别，特别是一种基于小波包分解和声谱图特征的动物声音识别方法。

背景技术

生态环境中的动物声音包含了丰富的信息，通过动物声音的识别，可以对其生活习性和分布做一定的了解和分析，从而达到对其监控和保护的目的。近年来，动物声音识别受到越来越多的关注。

动物声音识别一般以声谱图、时间序列、Mel频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、声音库索引以及小波包分解为基础，通过支持向量机(Support Vector Machine,SVM)、深度神经网络(Deep Neural Network,DNN)、高斯混合模型(Gaussian Mixture Model,GMM)等分类器进行分类识别。比较典型的方法包括：基于声谱图相关系数(Spectrogram Correlation)的动物声音识别，对平滑处理的声谱图使用边缘检测(Edge Detection)提取特征进行露脊鲸(Right Whale)叫声检测，基于时间序列特征的动物声音识别，Mel频率倒谱系数结合SVM的鸟类声音分类。此外，还有借助于经典的基于文本(Text-based)数据库查询方法，采用基于索引(Index-based)的动物声音检索。近期，Potamitis等提出在连续和真实的现场录音中，识别特定的鸟类声音。Sharma和Kaul提出基于两阶段的监督学习方法来检测城市中的尖叫和哭泣声音。

对于低信噪比情况下声音信号的分析、分类和识别，目前已有一定的研究。低信噪比声音识别常用的特征有：基于时间与频率相结合的特征和基于时频分析的声谱图及其相关的特征。

关于时间与频率相结合的特征，主要有时间、频率特征，小波域特征，Gabor字典匹配追踪(Matching Pursuit,MP)算法提取的特征等，此外，正交匹配追踪(OrthogonalMatching Pursuit,OMP)算法是在MP的基础上改进的，其收敛效果比MP好。近期的研究还包括，利用耳蜗图(Cochleagram Image,CI)提取图像的纹理特征用于声音事件监督；小波包(Wavelet Packets)过滤的低信噪比声音事件识别；利用匹配追踪算法从Gabor字典中选择重要的原子，用主成分分析(PCA)和线性判别分析(LDA)确定声音事件的特征，最后采用SVM分类器进行分类识别。这些方法对于低信噪比声音事件的识别都取得明显效果。

关于声谱图及其相关的特征，Dennis等提出基于声谱图进行伪着色(PseudoColoration，PC)并提取相关图像特征的声音事件识别方法。尤其，Dennis等提出的子带功率分布(Subband Power Distribution,SPD)特征，在谱图中将可靠的声音事件与噪声分开并去除不可靠区域，最后用最近邻居分类器(k-nearest neighbor,kNN)对特征进行识别。这种方法能在信噪比低至0dB时，也可以识别相关的声音事件。通过对声谱图提取灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)特征，并结合随机森林分类器识别鸟类声音。

发明内容

本发明的目的在于提供一种基于小波包分解和声谱图特征的动物声音识别方法，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种基于小波包分解和声谱图特征的动物声音识别方法，按照如下步骤实现：

步骤S1：采集声音样本，获取训练样本以及测试样本；

步骤S2：对所述训练样本以及所述测试样本进行声音增强；

步骤S3：将增强后声音信号进行Bark尺度的小波包分解；

步骤S4：重构小波包分解系数，并把重构后的信号通过短时傅里叶变换生成重构信号频谱；

步骤S5：将所述重构信号频谱进行主成分分析，提取投影特征，获取各个Bark频率群的BWCSP；

步骤S6：采用随机森林识别各个Bark频率群的BWCSP。

在本发明一实施例，在所述步骤S2中，所述声音增强采用短时谱估计法。

在本发明一实施例，在所述步骤S3中，所述Bark尺度的小波包分解采用db2基函数，用以模拟Bark频率群。

在本发明一实施例，在所述步骤S5中，还包括如下步骤：

步骤S51：计算规范化的频谱矩阵X；对小波包分解系数进行重构，并把重构的信号进行短时傅里叶变换，得到重构信号频谱S(t,f)；其中，t代表帧索引，t＝0，1，···，M-1，f代表频率索引，f＝0,1,···，N-1；将S第t帧转化为规范化的帧：

X＝[S₁,...,S_t,...,S_M]^T，X∈R^M×N；

步骤S52：对频谱矩阵X进行特征值分解；C＝X^TX，C＝UΛU^T，也即

其中，特征值从大到小递减：λ₁≥λ₂≥…≥λ_N；

步骤S53：确定前K个特征值；特征值λ_p，p＝1,2,…,N,代表了特征向量所携带的信息量，特征值越大说明对应的特征向量所携带的信息量越大；取前K个特征值对应的特征向量以近似地构造出C，即：

C≈λ₁u₁u′₁+λ₂u₂u′₂+…+λ_Ku_Ku′_K,K＜＜N，

其中，通过如下方式确定K值：

通过计算前K个特征值之和占全部特征值之和的比重来衡量；

步骤S54：计算频谱投影；选取矩阵U中前K个成分，组成特征向量U_K＝(μ₁,μ₂,...,μ_K)，U_K∈R^N×K；计算频谱投影，即投影矩阵：

X_K＝XU_K；

其中，X_K即为当前小波包分解系数重构的频谱投影特征。

在本发明一实施例，在所述步骤S6中，通过所述训练样本构建随机森林按照如下步骤实现：

步骤S611：通过自助重采样算法，从训练样本第i个结点的BWCSP特征集中自助重采样，生成新的s个训练样本集，其中，Q代表第i个节点的BWCSP特征集采样的样本数目；

步骤S612：该s个训练样本集：按照决策树的构建方法生长成s颗决策树，并组合在一起形成第i个森林，且由该s棵决策树构造出第i个随机森林与第i个结点的BWCSP特征集相对应。

在本发明一实施例，在所述步骤S6中，通过所述随机森林识别所述测试样本按照如下步骤实现：

步骤S621：将所述测试样本中各个Bark频率群生成的BWCSP特征X_k分别置于相应的随机森林中，且放置在相应随机森林的s棵决策树的根节点；

步骤S622：根据决策树判别规则，向下传递直到决策树的叶子节点，叶子节点对应的类标签即为该棵决策树对特征X_k所属类别所做的投票。

相较于现有技术，本发明具有以下有益效果：本发明所提出的一种基于小波包分解和声谱图特征的动物声音识别方法，采用短时谱估计声音增强算法，一定程度上抑制了背景声音的影响；Bark尺度的小波包分解是基于人耳基底膜的工作原理，背景声音对于不同Bark频率群的影响是不一样的，因此结合各个Bark频率群的特征信息作为决策依据，一定程度上能够提高识别率；采用多随机森林决策的方法有效地消除了背景声音对部分Bark频率群特征的影响。针对自然环境中动物声音识别的问题，实现了在10dB以上信噪比环境下，在未对声音信号进行增强处理的情况下，对于动物声音识别有较好的效果。而短时谱估计声音增强结合BWCSP特征与随机森林的方法，不论是低信噪比还是高信噪比声音环境，对各种环境中的动物声音检测都有较好的效果。

附图说明

图1为本发明一实施例中基于BWCSP特征结合随机森林的动物声音识别的整体架构。

图2为本发明一实施例中Bark尺度小波包分解结构

图3为本发明一实施例中随机森林的基本过程

图4为本发明一实施例中参数K对识别率影响

图5(a)为本发明一实施例中流水噪声环境下不同增强处理方法得到的识别效果。

图5(b)为本发明一实施例中风声噪声环境下不同增强处理方法得到的识别效果。

图5(c)为本发明一实施例中公路噪声环境下不同增强处理方法得到的识别效果。

图5(d)为本发明一实施例中说话噪声环境下不同增强处理方法得到的识别效果。

图6(a)为本发明一实施例中流水噪声环境下不同信噪比的识别率。

图6(b)为本发明一实施例中风声噪声环境下不同信噪比的识别率。

图6(c)为本发明一实施例中公路噪声环境下不同信噪比的识别率。

图6(d)为本发明一实施例中说话噪声环境下不同信噪比的识别率。

图7(a)为本发明一实施例中未经声音增强情况下，翠鸟的各个Bark频率群的能量分布。

图7(b)为本发明一实施例中经短时谱估计法声音增强，翠鸟的各个Bark频率群的能量分布。

图8(a)为本发明一实施例中鹈鹕声在-5dB风声下的频谱。

图8(b)为本发明一实施例中黄喉地莺声在-5dB风声下的频谱。

图8(c)为本发明一实施例中绵羊声在-5dB风声下的频谱。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提出了一种Bark尺度的小波包分解系数重构投影(BWCSP)结合随机森林的动物声音识别方法。Bark尺度小波包分解是基于模拟人耳基底膜的工作原理，构造人耳Bark域频率感知特性的小波包分解结构。声音信号经过小波包分解，然后根据相应的小波包分解系数重构的频谱，得到频谱的投影特征，即BWCSP特征。最后，采用随机森林对BWCSP特征进行训练和识别。

进一步的，建立动物声音识别架构。如图1所示，为基于BWCSP特征结合随机森林的动物声音识别的整体架构。具体流程包括：首先，对动物声音进行声音增强；然后将增强后声音信号进行Bark尺度的小波包分解并重构分解系数，把这些重构通过短时傅里叶变换(Short-Time Fourier Transform,STFT)生成重构信号频谱；并对频谱进行主成分分析，提取投影特征，即各个Bark频率群的BWCSP；最后使用随机森林识别各个Bark频率群的BWCSP。

进一步的，小波包分析对信号的低频和高频部分同时进行分解，具有更强的频带划分能力。Bark是一种模拟人耳听觉感知特性的非线性频率尺度。

人耳的Bark域在20Hz-16kHz的频率范围内分为24个Bark频率群。Bark域频率z和赫兹(Herz)域频率f的转换关系为

其中，Bark频率群的带宽在500Hz以下时增加速度恒定，约100Hz增加一个带宽；在500-1220Hz带宽呈线性增加；1220Hz以上，带宽呈指数增加。根据小波包分析的特性，可以用小波包分析来逼近人耳的Bark谱。对于8kHz采样、频率在4kHz以下的大部分的动物声音事件，用常规方法模拟1—17号Bark，可以得到如图2所示，每个子带的中心频率相差约为1Bark的小波包分解结构。对动物声音识别的第一步，并将按这个分解结构，对声音信号进行小波包分解。并把这个小波包分解的17组系数用于下一步的投影特征提取。

进一步的，在本实施例中，BWCSP特征，即为Bark尺度的小波包分解系数重构的频谱投影(Bark scale wavelet packet decomposition coefficient reconstructedspectral projection,BWCSP)特征。这些分解系数重构的频谱投影，即对频谱主成分分析的过程如下。

1)计算规范化的频谱矩阵X。对小波包分解系数进行重构，并把重构的信号进行短时傅里叶变换，得到重构信号的频谱S(t,f)。其中，t代表帧索引，t＝0,1,…,M-1，f代表频率索引，f＝0，1，…，N-1。在本实施例中，M代表声音信号一共分成多少帧，N代表每个帧经过短时傅里叶变换后的频点数，一般默认为N＝512。将S第t帧转化为规范化的帧：

X＝[S₁,...,S_t,...,S_M]^T，X∈R^M×N。 (3)

2)对频谱矩阵X进行特征值分解。C＝X^TX，C＝UΛU^T，即

其中，特征值从大到小递减λ₁≥λ₂≥…≥λ_N。

3)前K个特征值的确定。特征值λ_p，p＝1,2,…,N,代表了特征向量所携带的信息量，特征值越大说明对应的特征向量所携带的信息量越大。取前K个特征值对应的特征向量可以近似地构造出C，即

C≈λ₁u₁u′₁+λ₂u₂u′₂+…+λ_Ku_Ku′_K,K＜＜N， (5)

其中，K值的确定可以通过

计算前K个特征值之和占全部特征值之和的比重来衡量。

4)计算频谱投影。选取矩阵U中前K个成分，组成特征向量U_K＝(μ₁,μ₂,...,μ_K)，U_K∈R^N×K。计算频谱投影，即投影矩阵

X_K＝XU_K (7)

X_K即为当前小波包分解系数重构的频谱投影特征。

在本实施例中，对样本声音进行如图2所示的Bark尺度的小波包分解，并得到为17个分解系数重构的频谱投影，即BWCSP特征，将作为随机森林训练与识别的特征。

进一步的，将各个小波包结点分解生成的BWCSP特征结合随机森林分类器，对动物声音样本进行训练和识别。

随机森林是一种利用多棵决策树分类器来对数据进行判别的集成分类器算法，并且其输出结果是由决策树输出的类标签的数量而定。其过程如图3所示，通过自助重采样(Bootstrap)技术，从训练样本第i(i＝1，2，…，17)个结点的BWCSP特征集中自助重采样，生成新的s个训练样本集，其中，Q代表第i个节点的BWCSP特征集采样的样本数目。然后这s个训练样本集，按照决策树的构建方法生长成s颗决策树，并组合在一起形成第i个森林。由这s棵决策树构造出第i个随机森林与第i个结点的BWCSP特征集相对应。由于声音信号通过Bark尺度小波包分解生成了17个不同的BWCSP特征集，每个BWCSP特征集都要生成一个随机森林，因此一共生成17个随机森林。

随机森林对测试样本的识别过程如下。首先，把测试样本各个Bark频率群生成的BWCSP特征X_k分别放在相应的随机森林中，且放置在相应随机森林的s棵决策树的根节点。根据决策树判别规则向下传递直到决策树的叶子节点，叶子节点对应的类标签就是这棵决策树对特征X_k所属类别所做的投票。根据17个子频带生成的随机森林中每棵决策树的投票结果，统计17个随机森林中所有投票总和，其中获得投票数最多的类标签就是测试样本对应类标签l。

为了让本领域技术人员进一步了解该方法，下面结合具体实施例进行说明。

A：确定声音样本集。

在本实施例中，实验采用40种动物叫声，来自Freesound声音数据库且都是纯净不带任何噪声的。40种动物声音有两大类，即鸟类和哺乳动物，各类别的具体构成如表1所示。对声音文件统一处理，将其都转换成：采样率为8kHz，量化精度为16bits，单声道，且长度为2s左右wav格式的声音片段。实验用到的4种环境声音，为录音棒以8kHz的采样频率和16bits的量化精度录制的真实背景声音，分别为流水声、风声、公路噪声和嘈杂的说话声。实验对所有的声音样本归一化处理并采用Hamming窗进行分帧。

表1

B：确定实验参数设置

1)帧

在STFT过程中，每帧帧长为32ms，帧移为帧长一半。

2)特征

小波包分解采用db2基函数，频谱投影参数K通过实验确定。在对比实验中，声谱图投影特征的投影参数K取5；MFCC采用24阶三角滤波器组，提取12维离散余弦变换系数；幂归一化倒谱系数(Power Normalized Cepstrum Coefficients,PNCC)，采用32阶的Gammatone滤波器，提取12维离散余弦变换系数。

3)随机森林分类器

其主要参数有两个，一个是决策树中非叶节点分裂时预选特征成分的数量m，另一个是随机森林中决策树的个数k。综合考虑本实施例实验样本数量和实验结果，设定k＝500，m＝5。利用随机森林进行3次识别，然后取均值作为最终结果。

C：在本实施例中，为了检验本发明提出方法的性能，进行四个方面的实验。

第一，通过纯净声音的BWCSP结合随机森林训练和测试，确定BWCSP参数K。

第二，使用维纳滤波、多频带谱减法和短时谱估计法对声音进行增强处理，然后提取BWCSP特征，分别进行随机森林的识别率测试，并选出最有效的声音增强算法。

第三，在无背景声音和不同环境不同信噪比条件下，提取BWCSP特征，并与声谱图投影特征、PNCC特征和MFCC特征进行随机森林测试比较。

第四，把短时谱估计声音增强结合BWCSP特征与随机森林的方法，与其它最新的方法进行比较。

下面对上述各个检验实验进行具体说明。

C1：对于BWCSP中K的选取。在本实施例中，在没有背景声音的条件下确定BWCSP特征中K的选取，K代表投影矩阵X_K中选取的前K个特征向量。如图4所示，当K≤5时，随着K的增加，测试样本的识别率迅速增加，当K≥5时，随着K的增加，测试样本的识别率并无明显提升。出于计算代价和性能表现的权衡，在下面实验中，取K＝5。

C2：声音信号增强

在本实施例中，对纯净的训练声音样本也都分别进行维纳滤波、多频带谱减法和短时谱估计法的增强处理。对测试样本，在分别添加信噪比为-10dB、-5dB、0dB、5dB、10dB和15dB的四种环境声后，再进行相应的三种增强方法处理。这种把训练和测试样本都进行同样增强处理的目的，可以一定程度地消除声音增强处理带来的误差。

实验结果如图5(a)～图5(d)所示，在不同环境不同信噪比下，不做声音增强处理的识别率，整体上低于3种声音增强处理的识别率。说明三种声音增强算法一定程度上都能消除背景声音的影响，尤其，在低于0dB的情况下，特别是低于-5dB，三种声音增强算法消除噪声的作用最为明显。随着信噪比的增加，背景声音对动物声音的识别率影响降低。从图5(a)～图5(d)可以看出，嘈杂说话声环境和流水声环境在-5dB以上信噪比时、风声环境在5dB及以上信噪比时，维纳滤波的识别率逐渐低于不增强处理时的识别率。多频带谱减法和短时谱估计法，对4种环境各种信噪比下，则都保持较高的识别率。

在上述4种环境声中，声音增强算法对风声环境下的声音信号增强效果最为明显(纵坐标-识别率从0开始)。特别是在-10dB的情况下，识别率由不增强处理几乎不能正确识别的情况下，经过短时谱估计法把识别率提升50％左右。在不同环境声不同信噪比的条件下，短时谱估计法有最佳的识别性能，因此在之后的实验中采用短时谱估计增强方法对声音信号进行加强。

C3：BWCSP性能实验

首先，无噪声环境的条件下实验，结果如表2所示，BWCSP特征、声谱图投影特征、PNCC特征和MFCC特征对动物声音的识别率都很高。而且，本实施例中所提出的BWCSP特征保持微弱的优势。

表2

方法	BWCSP	声谱图投影特征	PNCC	MFCC
					识别率(％)	94.45	94.32	93.50	91.63

其次，在不同噪声环境不同信噪比条件下的四种特征的平均识别率实验结果如表3所示。利用流水声、风声、公路声和嘈杂说话声，模拟真实的噪声环境。分别选取信噪比为-10dB、-5dB、0dB、5dB、10dB、15dB和四种噪声环境进行混合，测试四种不同特征提取方法的平均识别率。从表3中可以观察到，在不同环境不同信噪比条件下，BWCSP特征的平均识别率比声谱图投影特征、PNCC特征和MFCC特征分别高出9.66％、17.15％和50.52％，这说明BWCSP特征的识别性能和抗噪性能都优于其他三种特征。BWCSP特征的识别性能整体优于声谱图投影特征，说明BWCSP特征对于声谱图投影特征有一定的改善。相对于传统的PNCC特征和MFCC特征，BWCSP特征的识别性能有较大的领先。

表3

如图6(a)～图6(d)表示四种特征，在四种噪声环境下，不同信噪比的识别率。从图中可以看出，不同的背景声音，对识别性能的影响不同。风声和公路声对识别性能影响较大，流水声和嘈杂说话声的影响较小。在信噪比小于0dB时，BWCSP特征的识别率明显高于其他三种特征，这说明BWCSP特征在低信噪比的情况下识别性能优于其他三种特征。当信噪比大于0dB时，声谱图投影特征和BWCSP特征的识别率较为接近，都能保持较高的识别率。无论是低信噪比还是高信噪比的条件下，MFCC特征的识别性能都远低于BWCSP特征。PNCC特征的识别性能随着信噪比的增加而不断提高，但是识别性能都低于BWCSP特征。

将本实施例中采用的方法将与以下三种最新的方法进行比较，如表4所示：

(1)MP-SVM：对声音信号采用MP算法分解并从Gabor字典中选择最匹配的原子，由这些原子线性组合近似构造声音信号。这些原子组成尺度-频率图，并用PCA和LDA从该图中提取声音事件的特征，采用SVM分类器进行识别。

(2)PC-SVM：首先声音信号转化为声谱图，然后对声谱图伪着色成三种颜色图像，接着对三种颜色图像分块并求解每个分块的统计特征，这些统计特征组成声音特征，最后采用SVM分类器进行识别。

(3)SPD-KNN：计算gammatone频谱图各个频率子带的能量分布，即SPD。并利用噪声估计的方法区分噪声与声音事件，提取SPD的图像特征并用kNN分类器对特征进行识别。

表4

方法	纯净	20dB	10dB	0dB	-10dB	平均
							本文方法	94.45	91.38	89.50	81.81	61.75	83.78
MP-SVM	86.31	80.72	56.48	29.48	14.58	53.51
							PC-SVM	91.42	88.78	87.54	78.64	42.24	77.72
SPD-KNN	97.32	94.56	94.26	78.21	45.32	81.93

从表4中可以看出，本发明采用的方法在低信噪比情况下的识别率，与其他三种方法相比有较大的提高。较佳的，在-10dB的情况下，依然能够保持平均60％以上的识别率。

为了让本领域技术人员了解本发明所提出方法的效果，下面背景声音对动物声音的影响以及动物及背景声音与重构频谱投影进行说明。

为了分析背景声音对动物声音在各个Bark频率群的影响，本实施例中还给出纯净的翠鸟声音和加入信噪比为-10dB背景声音后各个Bark频率群的能量分布。从图7(a)以及图7(b)中可以看出各个Bark频率群的能量的变化以及背景声音对翠鸟声音在各个Bark频率群的影响。

图7(a)和(b)是翠鸟声音经过声音增强前后的各个Bark频率群的能量分布。从图中可以看出背景声音对Bark频率群1-4，即低频部分的影响比较大，对于高频部分的影响相对比较小。经过短时谱估计法声音增强后，可以消除大部分背景声音的影响，但影响依然存在。本发明结合经过Bark尺度小波包结构，把声音信号分解成17个投影特征。这样，可以有效地平衡背景声音对部分Bark频率群的影响，有利于识别率的提高。

对于动物及背景声音与重构频谱投影，结合上述方法进行说明。

1)Bark尺度的小波包分解的本质

Bark尺度的小波包分解的本质，就是把声音信号按人类听觉敏感程度，对声音信号进行频带划分，再进行不同尺度的小波分析。动物声音，即便在各种环境中，受到不同信噪比的背景声音的干扰，只要人类听觉能感知到，就意味着它存在不同于背景声音的Bark频率群。而本实施例中提出的Bark尺度的小波包分解系数重构频谱投影，就是分离出这些相关频率群频谱的关键成分。这些Bark频率群的频谱，必然为每一种动物声音的特色或独有。用这些频谱的投影，进行随机森林的投票，必定是高分。而与那些与背影声音同频率群的成分，虽然在投票中难获高分，但多个频率群共同投票后，仍然能保持较高的得分优势。

2)错误检测分析与改进

如下表5为加入-5dB风声噪声测试样本错分情况，给出加入-5dB风声后，16类容易出现错误检测的情况(另外24类基本上能够正确识别，限于空间，表5中未列出)。从表5可以看出，在-5dB风声下，第10类的测试样本全部被错误检测，其中有9个测试样本错分到第19类中；第24，28，38，394类测试样本也都全部被错误检测成第19类。同时，也发现大部分被错误检测的样本，都被检测成第19类。

表5

观察图8(a)10类-鹈鹕、(b)19类-黄喉地莺和(c)38类-绵羊声音分别在-5dB风声下的声谱图，可以发现它们的相似之处。其中，低频部分，即0-800Hz部分相似度较高，三张声谱图在0.5s之后，高低频部分都很相近。也就是说，这三张频谱图，高低频部分有80％左右是相近的。这就可能造成大部分Bark频率群频谱投影的相近或相等，从而造成了测试样本的错误检测。

进一步观察到，在加入风声噪声的情况下，大部分错分的样本被错分到第19类；在加入嘈杂说话声时则大部分的样本被错分到第2类；在加入公路噪声时则大部分的样本被错分到第39类。这说明测试样本错分的原因和加入噪声的类型有关。

但是，它们作为不同的动物的声音，自然环境下，能被人类听觉感知到，必然有区别于背景声音的成分存在，即有不同于背景声音的Bark频率群存在。因此，根据本发明所提出的方法的原理，这种差别可以通过小波包分解结构及随机森林投票策略的适当调整来识别。进而，本发明所提出的方法可以在各种背景声音中，识别各种不同信噪比的动物声音。

3)更深层次的识别

对于非平稳的背景及动物声音，如在特定的背景声音环境下，各种动物声音混在一起，时强时弱等情况，有可能影响随机森林投票结果。对于这种情况，可以考虑帧一级的随机森林投票。如，声音信号按32ms分帧，只要动物声音不是在32ms内同时发生，依然可以通过随机森林投票确定每一帧可能的动物声音，并进一步来判断出可能的多种的动物声。这种情况下，这种方法甚至可以识别出人类很难识别的非平稳及混合的各种动物声音。因此，本发明所提出的方法能解决自然条件下，低信噪比动物声音识别的问题。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于小波包分解和声谱图特征的动物声音识别方法，其特征在于，按照如下步骤实现：

步骤S1：采集声音样本，获取训练样本以及测试样本；

步骤S2：对所述训练样本以及所述测试样本进行声音增强；

步骤S3：将增强后声音信号进行Bark尺度的小波包分解；

步骤S6：采用随机森林识别各个Bark频率群的BWCSP。

2.根据权利要求1所述的基于小波包分解和声谱图特征的动物声音识别方法，其特征在于，在所述步骤S2中，所述声音增强采用短时谱估计法。

3.根据权利要求1所述的基于小波包分解和声谱图特征的动物声音识别方法，其特征在于，在所述步骤S3中，所述Bark尺度的小波包分解采用db2基函数，用以模拟Bark频率群。

4.根据权利要求1所述的基于小波包分解和声谱图特征的动物声音识别方法，其特征在于，在所述步骤S5中，还包括如下步骤：

S_{t} = \frac{{\overset{&OverBar;}{S}}_{t}}{| | S | |},