CN104795064B

CN104795064B - 低信噪比声场景下声音事件的识别方法

Info

Publication number: CN104795064B
Application number: CN201510141907.4A
Authority: CN
Inventors: 李应; 林巍
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2018-04-13
Anticipated expiration: 2035-03-30
Also published as: WO2016155047A1; CN104795064A

Abstract

本发明涉及一种低信噪比声场景下声音事件的识别方法，该方法把待测声音事件中的场景声音，与声音事件样本集相结合，通过GLCM‑HOSVD提取声音数据的特征，生成判别待测声音事件判别的RF。利用这种方法生成的RF，可以在特定场景中，实现低信噪比下，声音事件的识别。实验结果表明，该方法能使声音事件与场景声音信噪比为‑5dB的情况，保持平均精度73%以上声音事件的识别率。与MP，SPD提取特征的方法相比，一定程度上说，我们所提出的这种方法解决了低信噪比情况下，声音事件的识别问题。

Description

低信噪比声场景下声音事件的识别方法

技术领域

本发明涉及一种能够在各种声场景下、有效提高低信噪比下识别率的低信噪比声场景下声音事件的识别方法。

背景技术

近来，声音事件检测(识别)引起广泛关注。声音事件检测对于音频取证[1]、环境声音识别[2]、生物声音监控[3]、声场景分析[4]、环境安全监控[5]，实时军事关注点的检测[6]、定位跟踪和声源分类[7]，病人监护[8-12]、非正常事件监测[13-18]及故障诊断、递交早期维护的关键信息[21,22]等都具有重要意义。声场景中检测(识别)声音事件，试图在音频数据中识别出隐藏在它们中的真实事件。

由于环境不同，与声音事件同时存在的声场景也不同，且常以非稳定的形式出现。因此，在各种声场景中，尤其低信噪比下有效地识别声音事件，还是一个挑战性的任务。相关工作目前已有一定的研究[23-40]。这些研究主要包括声音信号特征的提取与对这些特征的分类及识别。对于特征的抽取，其中常见的有效方法有两类，即1）时间与频率相结合的特征，2）声谱图及其相关的特征。关于时间与频率相结合的特征，主要有时间、频率特征、小波域特征[23]，Gabor字典匹配追踪算法提取的特征[24,25]，基于小波包（WaveletPackets）的过滤[26]，高通滤波和MFCC的扩展特征[27]，分解成多个交叉的超级帧，提出基于随机回归森林[28]。关于声谱图极其相关的特征，主要有子带功率分布(subband powerdistribution, SPD), 局部频谱特征(Local Spectrogram Feature, LSF)，Gabor变换，余弦对数散射（Cosine Log Scattering, CLS）等[29-40]。对于声音事件及场景声音的分类，常见的有效方法有支持向量机(Support Vector Machine, SVM)[24,29,32,37,40]，高斯混合模型(Gaussian Mixture Model，GMM)[23,31,39]，k-最近邻(k-nearest neighbor,k-NN)[30, 34]，核费舍尔判别分析(Kernel Fisher Discriminant Analysis, KFDA)[29,38]，广义霍夫变换(Generalised Hough Transform, GHT)的投票[19]，GMM与隐马尔科夫模型(Hidden Markov Model, HMM)相结合[35]，极大似然(Maximum Likelihood, ML)[36]。

这些方法对于声音事件的识别都取得一定的效果。然而，特征提取过程都有不同程度地对声音事件的特征即待测声音信号的特征本身的结构造成影响。虽然用于特征缺失的谱掩饰估算算法能有效去除被场景声音干扰的声音事件的特征[34]，但也屏蔽了声音事件的部分特征。而在白噪音的情况下，短时估计特征掩盖范围的方法[41]，容易滤除大部分声音事件特征，识别效果很差。谱减法[42]对所有频段的信号都进行了处理，不可避免地破坏了声音事件中的特征。虽然多频带谱减法[43]对谱减法做出了改进，但还存在破坏了声音事件特征的情况。

为了避免在抑制场景声音的同时，对声音事件的信号结构的影响，从而在低信噪比下得到了更高的识别率，本文提出用场景声音与声音事件混合的声音来训练分类器。在分类器模型的训练过程中，场景声音按不同信噪比与声音事件进行叠加，得到声音事件在各种声场景下的声音数据，对分类器进行训练。在检测处理中，通过希尔伯特-黄变换(Hilbert-Huang transform, HHT)变换中的经验模态分解（Empirical ModeDecomposition, EMD）[44]检测声音事件和场景声音的边界点。根据检测出的声音事件和场景声音的边界点，估计声音事件的信噪比和场景声音种类。从而，用信噪比区间和场景声音种类，选择分类器对声音数据中的声音事件进行识别。

对于各种声音事件及其场景声音的信号特征，本文总结相关文献[45-48]和已有工作[49]，采用声谱图的灰度共生矩阵（Gray Level Co-occurrence Matrix，GLCM）与高阶奇异值分解（Higher-Order Singular Value Decomposition，HOSVD）提取声音信号的特征。对于声音事件及场景声音的分类与识别，我们采用随机森林矩阵（Random forestsMatrix, RFM）、随机森林[50]（Random forests，RF）和多随机森林（Multi Randomforests，M-RF）。

对声音事件的识别过程，就是把信噪比区间和场景声音种类用于从RFM中选择RF，使用所选择的RF对声音事件进行识别。在实时声音事件检测中，我们利用场景声音数据与声音事件样本集训练RF或M-RF，来识别场景中的声音事件。

发明内容

本发明的目的在于提供一种能够在各种声场景下、有效提高低信噪比下识别率的低信噪比声场景下声音事件的识别方法。

为实现上述目的，本发明的技术方案是：一种低信噪比声场景下声音事件的识别方法，包括如下步骤，

步骤S1：随机森林矩阵的训练与生成：将声音事件样本集中的已知声音事件样本和场景声音样本集中的已知场景声音样本进行声音混合，得到混合声音信号集，并存放于训练声音集中，将所述训练声音集中的声音信号通过GLCM-HOSVD生成训练声音集的特征集，对该训练声音集的特征集进行训练，生成随机森林矩阵；

步骤S2：场景声音类型判别随机森林的训练与生成：对场景声音样本集中的已知场景声音样本进行GLCM-HOSVD，生成场景声音样本集的特征集，并对该场景声音样本集的特征集进行训练，生成场景声音类型判别随机森林；

步骤S3：对待测声音事件进行识别：

第一步，将待测声音信号通过EMD分解出场景声音和声音事件，并计算出该待测声音事件的信噪比；

第二步，计算待测场景声音和待测声音事件的特征值，并将所述待测场景声音的特征值输入所述步骤S2生成的场景声音类型判别随机森林，检测出待测场景声音类型；

第三步，通过所述待测场景声音类型和待测声音事件的信噪比，从所述步骤S1生成的随机森林矩阵中选择进行声音事件识别的随机森林；

第四步，将所述待测声音事件的特征值通过第三步所选择的随机森林进行识别得到声音类型。

在本发明实施例中，所述步骤S3中的第一步的具体实现过程如下，

将待测声音信号y(t)通过EMD，EMD能依据信号自身的特性将待测声音信号y(t)自适地分为n级固有模态函数的线性叠加，即

(1)

其中，为残余函数，L _i (t)为n级固有模态函数；

在n级固有模态函数L _i (t)中，1级固有模态函数L ₁ (t)主要包含噪音成分，有效声音成分极少，所述噪音成分即场景声音部分，有效声音成分即声音事件部分；因此，我们仅选取2-6级固有模态函数，即取i=2, 3, …, 6，用于对待测声音端点的检测；用第i级固有模态函数L _i (t)进行待测声音端点检测的过程具体如下，

S311：对第i级固有模态函数L _i (t)做预处理

(2)

其中，表示对固有模态函数做希尔伯特变换；

S312：对进行平滑

(3)

其中，为平滑窗口，取采样率的0.05倍；

S313：对归一化

(4)

S314：计算声音事件等级、场景声音等级和初始化场景声音等级阀值

(5)

(6)

(7)

其中，为门限值参数，取；

S315：计算在第k个窗口的平均值

(8)

其中，k为窗口索引，为窗长，取信号采样率0.02倍；

S316：对是否存在声音事件进行判断

(9)

若声音事件存在，跳转至步骤S318；

S317：对场景声音进行动态估计，更新场景声音等级

(10)

其中，为第n个窗口的场景声音等级，在更新场景声音等级后跳转至步骤S319；

S318：更新场景声音等级阀值

(11)

其中，为常数，取；

S319：若场景声音等级阀值在之前的循环中被更新过，则更新声音事件等级

(12)

其中，，作为声音事件等级更新的权值；

S3110：k=k+1，移动窗口，若窗口没有结束跳转至步骤S315，否则循环结束；

选取的2-6级固有模态函数L _i (t)经上述步骤S311至S3110的处理，得到5种不同的端点检测结果，再经投票确定最终端点检测结果；

将声音信号y(t)分离为声音事件段s(t)与场景声音段n(t)之后，为了能够更准确地估计信噪比，我们对信号能量进行平滑，首先计算场景声音能量：

（13）

其次，对场景声音能量进行调整

（14）

其中，系数，该过程的目的是将场景声音段中错分的声音事件段做调整；

最后计算信噪比

（15）

其中，表示声音事件段与场景声音段长度的比值，由于分离后的声音事件段中含有场景声音成分，对声音事件段的能量值产生影响，因此，使用作为该影响的估计，剔除了场景声音对能量值的影响。

在本发明实施例中，所述步骤S1至S3中，待测场景声音的特征、待测声音事件的特征、训练声音事件的特征、已知场景声音的特征的计算方法如下：

GLCM可表示为：

（16）

其中，表示声谱图中的像素坐标，且，表示图像的大小；为图像的灰度级数，表示集合中元素的数量；

截取声音事件的声谱图中大小为，灰度级为L的图像区域，根据公式（16）及、的取值，计算获得GLCM，并将各个GLCM组合成高阶矩阵，；对该高阶矩阵进行张量展开，得到，，其中，将的元素放置在大小为二维矩阵的行、列，这里，，当k> n时，，当k<n时，

对进行奇异值分解，得到

（17）

其中U ⁽ⁿ⁾是酉矩阵；Σ⁽ⁿ⁾是半正定对角矩阵；而V ^(n)H，即V的共轭转置，是酉矩阵；根据式（17）得到，根据，可得

（18）

将作为声音事件的特征，即

（19）

其中，；表示的第个奇异值，；

根据上述声音事件的特征值计算方式，即可计算得到待测场景声音的特征、待测声音事件的特征、训练声音事件的特征、已知场景声音的特征。

相较于现有技术，本发明具有以下有益效果：

1、提出随机森林矩阵(RFM)：把声音事件与各种环境声以不同信噪比混合，用混合声音来对声音事件进行分类器训练；

2、提出用EMD及对固有模态函数(Intrinsic Mode Function, IMF) 进行投票的方法，对场景声音与声音事件端点进行检测并估算信噪比：通过多级固有模态函数对声音数据中的场景声音和声音事件的边界点进行检测，经投票确定最终边界点的检测结果，并估算声音事件的信噪比；

3、提出GLCM-HOSVD特征：把声谱图转换成灰度共生矩阵（GLCM），通过对GLCM进行高阶奇异值分解（HOSVD），得到声音信号特征值；

4、用随机森林矩阵(RFM)对不同场景与信噪比的声音事件进行识别：通过场景声类型和声音事件的信噪比，选择相应的随机森林，对声音事件进行识别；

5、提出随机森林(RF)和多随机森林(M-RF)实时识别声音事件：把实时场景声音与声音事件样本集中的声音事件相混合，训练RF或M-RF，用于实时声音事件识别。

附图说明

图1为声谱图GLCM-HOSVD。

图2为本发明各种声场景下声音事件识别的EMD+GLCM-HOSVD+RFM架构图。

图3为本发明声场景中的声音事件实时识别的EMD+GLCM-HOSVD+RF架构图。

图4为本发明声场景中的声音事件实时识别的EMD+GLCM-HOSVD+M-RF架构图。

图5为0db的不同声场景下端点检测检测结果图，图5(a)纯净声音，图5((b)风声场景，图5(c)雨声场景，图5((d)高斯白噪声，图5((e)公路声场景，图5((f)机场声音场景。

图6为灰度共生矩阵中像素对间的位置关系。

图7为灰度共生矩阵GLCM生成示例，图7(a)4×5的灰度图像，图7(b)时的GLCM，图7(c)及组成的8×8×8三阶矩阵。

图8为随机森林的基本原理图。

图9为两种纹理特征提取方法在不同场景、不同信噪比下的识别结果图，图9(a)公路场景，图9(b)风声场景，图9(c)流水场景，图9(d)雨声场景，图9(e)机场声场景，图9(f)高斯白噪声。

图10为EMD+M-RF, EMD+RF与pRF在6种场景下的平均识别结果图。

图11为EMD+GLCM-HOSVD+M-RF与MP-feature识别率比较图，图11(a)公路场景，图11(b)风声场景，图11(c)流水场景，图11(d)雨声场景，图11(e)机场噪音，图11(f)高斯白噪声。

图12为EMD+GLCM-HOSVD+M-RF与SPD在低信噪比下的比较图，图12(a)公路场景，图12(b)风声场景，图12(c)流水场景，图12(d)雨声场景，图12(e)机场噪音，图12(f)高斯白噪声。

图13为低信噪比下EMD+GLCM-HOSVD+M-RF、MP-feature和SPD三种方法的平均识别率图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明一种低信噪比声场景下声音事件的识别方法，包括如下步骤，

步骤S3：对待测声音事件进行识别：

以下具体讲述本发明方法的实施过程。

一、声音事件识别模型

这部分，介绍在各种低信噪比的声场景中基于GLCM-HOSVD的声音事件识别的架构。其中，把声音信号经过GLCM-HOSVD，生成特征值w的过程如图1所示。GLCM-HOSVD的过程，就是把声音信号转换成声谱图，计算声谱图的GLCM，通过对GLCM进行HOSVD，得到声音信号的特征值w。本申请中需要涉及的特征值w包括训练图2中的训练声音集的特征集W ^l以及图3中的W ^s和图4中的W ^sh ,W ^s ,W ^sl，已知的有限种场景声音的特征值W ⁿ，待测试声音中的场景声音的特征值w ^t和待测声音事件的特征值w ^e。

在各种声场景下识别声音事件的架构如图2所示。这种架构我们称为EMD, GLCM-HOSVD与RFM架构。相关内容包括，1）随机森林矩阵RFM训练与生成部分，如图2中虚线框部分所示；2）场景声音类型判别随机森林RF _n训练与生成部分，如图2中点线框部分所示；3) 待测声音事件识别部分，如图2中半划线框部分所示。

其中，随机森林矩阵训练与生成部分包括声音事件样本，场景声音样本，声音混合，训练声音集，GLCM-HOSVD和随机森林矩阵RFM。声音事件样本，存放各种类型的已知声音事件样本。场景声音样本，存放S种已知类型的场景声音样本。声音混合，把各种已知声音事件样本和S种场景声音样本按照N个不同的信噪比进行叠加，生成S种声场景、N个不同信噪比的S×N种类型的混合声音信号集，并存放在训练声音集中。GLCM-HOSVD对训练声音集中的声音进行GLCM-HOSVD，生成声音训练集的特征集。其中，M 为声音样本的数量。RFM，对S×N个特征集W ^l进行训练，生成S×N的随机森林矩阵。

场景声音类型判别随机森林训练与生成部分，对场景声音样本进行GLCM-HOSVD，生成场景声音特征w ⁿ。对场景声音特征样本集进行训练，生成场景声音类型判别随机森林RF _n，其中，P为场景声音样本的数量。

待测声音事件识别部分，把待测声音信号y(t)通过EMD，分解出场景声音部分n(t)和声音事件部分s(t)。计算待测场景声音的特征值w ^t。把w ^t输入场景声音类型判别随机森林RF _n，检测出待测场景声音类型l _t。通过场景声音n(t)和声音事件s(t)，计算待测声音事件的信噪比l _s。通过待测声音事件中的场景声音类型l _t和信噪比l _s，从随机森林矩阵中选择进行声音事件识别的随机森林RF _s,n。计算待测声音事件的特征值w ^e，用w ^e通过随机森林RF _s,n识别声音事件得到类型l。对于声场景中的声音事件的实时识别过程，我们对图2的架构进行简化，得到图3所示的EMD, GLCM-HOSVD与RF架构。

在实时测试中，只需把经过EMD分割后的场景声音n(t)，根据场景声音n(t)和声音事件s(t)的信噪比l _s，直接与声音事件样本库中的M个各种声音事件进行混合，把混合声音集进行GLCM-HOSVD，生成特征集，用W ^s建立RF _s。用建立的RF _s对待测声音事件s(t)的特征值w ^e进行识别。

一般情况下，对声音信号中声音事件的信噪比的检测，存在偏差。尤其在低信噪比时，如果对信噪比的估算出现偏差，训练出的RF分类器，可能无法对声音事件进行准确检测。因此，我们把图3的EMD, GLCM-HOSVD与RF组成的架构，进一步扩展成图4所示的EMD,GLCM-HOSVD与M-RF组成的声音事件识别架构。对于声音信号，我们同时用实际检测得到的信噪比l _s值相近的两个信噪比l _sh和l _sl(l _sh>l _s>l _sl)，分别与声音事件样本混合成三组声音集。把三组混合声音集通过GLCM-HOSVD，生成，和分别训练三个RF分类器RF _sh, RF _s, RF _sl。在对声音事件进行识别时，分别用RF _sh, RF _s, RF _sl对声音事件进行识别，最后通过三个随机森林中的所有决策树投票确定识别结果。

二、低信噪比声音事件识别

这部分包括对声音数据进行经验模态分解，对声音事件的端点进行检测，计算声音数据中声音事件与场景声音的信噪比。把声音数据转换成声谱图，计算声音数据的GLCM。对GLCM进行HOSVD，生成特征w。用特征集W训练生成随机森林矩阵，用随机森林对识别声音数据中的声音事件。

A.声音事件端点检测与信噪比估算

首先，我们通过经验模态分解，进行声音事件端点检测，然后，根据场景声音与声音事件的端点进行信噪比估算。

EMD是HHT变换的核心[44]。EMD能依据信号自身的特性将原始信号y(t)自适地分为n级IMF的线性叠加，即

(1)

其中，为残余函数。

在n级固有模态函数L _i (t)中, 1级固有模态函数L ₁ (t)主要包含噪音成分，有效声音成分极少。因此，我们仅选取2-6级固有模态函数，即取i=2, 3, …, 6，用于对前景声音端点的检测。用第i级固有模态函数L _i (t)进行前景声音端点检测的过程如下。

1）对第i级固有模态函数L _i (t)做预处理

(2)

其中，表示对固有模态函数做希尔伯特变换。

2)对进行平滑。

(3)

其中，为平滑窗口，这里取采样率的0.05倍。

3)对归一化。

(4)

4) 计算声音事件等级、场景声音等级和初始化场景声音等级阀值

(5)

(6)

(7)

其中，为门限值参数，取。

5) 计算在第k个窗口的平均值

(8)

其中，k为窗口索引，为窗长，取信号采样率0.02倍。

6)对是否存在声音事件进行判断。

(9)

如果声音事件存在，跳转至步骤8）。

7)对场景声音进行动态估计，更新场景声音等级。

(10)

其中，为第n个窗口的场景声音等级。在更新场景声音等级后跳转至步骤9）。

8)更新场景声音等级阀值。

(11)

其中，为常数，取。

9)如果阀值在之前的循环中被更新过，则更新声音事件等级：

(12)

其中，，作为声音事件等级更新的权值。

10)k=k+1，移动窗口。如窗口没有结束跳转至步骤5)，否则循环结束。

选取的2-6级固有模态函数L _i (t)经上述步骤处理，可以得到5种不同的端点检测结果，再经投票确定最终端点检测结果。

图5中蓝色部分为声音信号波形图，红色部分为端点检测结果，高位表示包含声音事件，低位表示仅包含场景声音。 (b)、(c)、(d)、(e)、(f)分别为各类声场景下，信号强度为0db的波形图及声音事件端点检测结果。通过以上各图，可以看出，该方法在0db下能够基本检测出声音事件的声音段。

将声音信号y(t)分离为声音事件段s(t)与场景声音段n(t)之后，为了能够更准确地估计信噪比，我们对信号能量进行平滑。首先计算场景声音能量：

（13）

其次，对场景声音能量进行调整：

（14）

其中系数。该过程的目的是将场景声音段中错分的声音事件段做调整。

最后计算信噪比:

（15）

其中，表示声音事件段与场景声音段长度的比值。由于分离后的声音事件段中含有场景声音成分，对声音事件段的能量值产生影响。因此，使用作为该影响的估计，剔除了场景声音对能量值的影响。由于端点检测存在错误，所以信噪比的计算存在一定的误差。因此，为了匹配相应的分类器模型，信噪比计算结果在(-6, -0.5), [-0.5,2.5), [2.5, 7.5), [7.5, 15), [15, 25)dB区间内的，分别使用-5dB、0dB、5dB、10dB、20dB分类器模型对声音事件进行识别。

B. 声音信号的GLCM

这部分，我们计算每个声音段的谱图S(f, t)的GLCM。

这里，GLCM是指声谱图中相距，灰度级分别为和的两个像素点同时出现的联合概率分布，其中和的具体范围由两个参数决定：像素间距和矩阵的生成方向[46]，且满足，如图6所示。GLCM用可表示为：

（16）

其中，表示声谱图中的像素坐标，且，表示图像的大小；为图像的灰度级数，表示集合中元素的数量。当和确定时，可以简写为。

影响GLCM的性能和计算复杂度的最主要有三个：灰度级数L、像素间距和方向。根据实验，本文中我们选取L=8，d=1,2，。

如图7所示为一个GLCM的生成示例。其中图7(a)是从声谱图中截取的一个大小为4×5、灰度级为8的图像区域。图7(b)是该图像区域在时，所对应的GLCM, 即A ₁。如图7(a)在水平方向上从左到右，(4,6)这个灰度对共出现了2次，所以图7(b)中GLCM的第4行第6列的值应为2，即根据(16)，。又如图7(a)中(0,1)这个灰度对，从左到右出现了2次，所以图7(b)GLCM的第0行第1列的值为2，即。

同样，对于及；及，我们可以得到另外的7个GLCM，A ₂ , …, A ₈。我们把这八个矩阵组成一个8×8×8三阶矩阵，如图7(c)所示。

C. HOSVD

为了进一步提取声音事件的特征，我们把图7(c)的三阶矩阵进行HOSVD。

这里我们先来回顾一下奇异值分解[47]。对于任意一个大小为的矩阵，。则存在一个分解使得

(17)

其中，是阶酉矩阵，是半正定阶对角矩阵，而，即的共轭转置，是阶酉矩阵。

对于一个大小为的高阶矩阵，。可以对进行张量的展开[34]，得到 ₎，。其中，把的元素放置在大小为二维矩阵的行、列。这里，，当k>n时，，当k<n时，。

与奇异值分解类似，对进行奇异值分解，

（18）

其中U ⁽ⁿ⁾是酉矩阵；Σ⁽ⁿ⁾是半正定对角矩阵；而V ^(n)H，即V的共轭转置，是酉矩阵。可以得到。根据，我们可以得到

（19）

我们把作为声音事件的特征，即

（20）

其中，；表示的第个奇异值，。

以图7(c)，8×8×8三阶矩阵为例，可以表示成，其中，。则。对A沿I₁维展开，得到A ₍₁₎，，即。

同样，其沿I₂和I₃维展开，可以得到A ₍₂₎和A ₍₃₎。

因此，根据(18)与(19)可以得到，即。

其中，O _n,m表示大小为n×m的零矩阵。σ⁽¹⁾=[6.31, 5.24, 5.01, 3.08, 2.71,2.12, 1.91, 1.27]。同样，可以得到σ⁽²⁾=[6.26, 5.66, 4.60, 3.31, 2.77, 2, 1.69,1]，σ⁽³⁾=[6.51, 5.65, 4.43, 3.10, 2.46, 2.16, 1.68, 1.36]。最后根据(20)将组合成w , 作为声音事件识别的特征。

.

用同样的方法，我们可以得到II部分所述的训练声音事件的特征w ^l，已知的场景声音的特征w ⁿ，待测试声音中的场景声音的特征w ^t和待测声音事件的特征w ^e。对于包含M个声音事件的声音集，我们可以得到特征集W={w ₁ , …, w _M }。通过特征集W，我们可以进一步训练随机森林。

D. RF识别

随机森林是一种利用多个决策树分类器来对数据进行判别的集成分类器算法[49-52]。其原理如图7所示，即通过自助重采样（Bootstrap）技术，从原始训练样本的特征集中自助重采样，生成新的k个训练数据集。然后这些新生成的k个训练数据集，按照决策树的构建方法生长成k颗/棵决策树，并组合在一起形成森林。测试数据的判别结果则由森林中k颗树，投票形成的分数而定。

使用随机森林对未知测试样本的识别过程如下。首先，将图2或图3图4所示，待测试声音中的场景声音的特征w ^t或待测声音事件的特征w ^e，置于随机森林中所有棵决策树的根节点处。然后按照决策树的分类规则向下传递，直到到达某一个叶节点处。这个叶节点对应类标签便是这棵决策树对特征w ^t或w ^e所属类别l所做的投票。随机森林的棵决策树均对w ^t或w ^e的类别l进行了投票，统计这k个投票，其中票数最多的便成为w ^t或w ^e对应的类标l。

三、实验

A.声音事件样本集

实验用到的40种纯净鸟鸣声来自Freesound声音数据库[43]，每种鸟鸣声有30个样本，共1200个样本。实验用到的六种场景声音分别为高斯白噪声、繁忙的公路场景声、流水场景声、机场场景声、下雨场景声、刮风场景声。其中，高斯白噪声是由计算机随机产生的均值为0、功率谱密度为1且均匀分布的随机信号，经白化得到。其他场景声是以44.1kHz的采样频率，分别在相应的声场景中录制。为规范以上声音文件的编码格式和长度，将它们统一转换成采样频率为8kHz、采样精度为16bit，长度为2s的单声道WAV格式声音片段。

B.实验设置

首先，是基本实验。

1)GLCM-HOSVD与GLCM-SDH(Sum and difference histograms) [45,49]比较。分别用GLCM-HOSVD与GLCM-SDH提取包含声音事件的不同信噪比的声音信号的特征，通过随机森林（进行识别）。比较GLCM-HOSVD与GLCM-SDH这两种特征对6类不同声场景下，对声音事件识别的性能。

1)本文关键实验。过程如图2所示，采用EMD,GLCM-HOSVD与RFM组成的架构。内容包括: a) 随机森林矩阵RFM训练与生成部分；b)场景声音类型判别随机森林RF _n训练与生成部分；c)待测声音事件识别部分。

森林矩阵RFM训练与生成把（每种20个）40种声音事件样本与6类场景声音样本以20，10，5，0，-5dB等5种信噪比进行混合，生成6×5=30个混合声音集。把混合声音进行GLCM-HOSVD，产生特征集。用30特征集训练并生成6×5的随机森林矩阵RFM。

2)场景声音类型判别随机森林RF _n，建立对6种场景声音类型进行判别的随机森林。从RFM中选择RF _s,n，用RF _s,n对相应声场景和5种信噪比的待测声音事件进行识别。

3)比较EMD,GLCM-HOSVD与RF架构与单纯声音事件训练的pRF方法。pRF方法，就是用声音事件样本库中的40种单纯的声音事件训练的随机森林。RF _s,n方法就是图2中用待测声音事件的信噪比l _s与场景声音的类型l _t从RFM中选择相匹配的RF _s,n，用选择的RF _s,n对待测声音事件进行识别。在声场景确定的实时检测中，我们把图2的架构简化成图3的EMD,GLCM-HOSVD与RF架构，即通过RF _s进行识别。

4) EMD, GLCM-HOSVD与RF架构的检测性能根据上述实验结果，对所提方法进行实用改进。即具体运用中，采用对图4所示的EMD, GLCM-HOSVD与M-RF架构。

其次，EMD, GLCM-HOSVD与M-RF架构与MP-feature[27,28]比较。在6种不同声场景下，把图4的EMD, GLCM-HOSVD与M-RF架构与文献[27]的MP+PCA+LDA+SVM的方法进行比较。MP结合PCA与LDA的SVM方法，这里简称MP-feature，就是用匹配追踪算法从Gabor字典中选择重要的原子，用主成分分析(PCA)和线性判别分析(LDA)确定声音事件的特征，采用SVM分类器进行识别。

再次，EMD, GLCM-HOSVD与M-RF架构与SPD比较。把EMD, GLCM-HOSVD与M-RF架构和文献[20]的SPD+KNN的方法，在5dB、0dB和-5dB的情况下，进行声音事件识别性能的比较。SPD结合KNN的方法，简称SPD，其中子带功率分布(sub-band power distribution, SPD)把高能、可靠的少部分声音事件谱图与场景声音分离，最近邻居分类器(kNN)对这些高能可靠的少部分谱图进行识别。

C.实验场景

6类声音场景包括：公路场景声音、刮风场景声音、流水场景声音、下雨场景声音、机场场景声音与高斯白噪声。

四、结果与讨论

A. 基本情况

第1组实验，对比GLCM-HOSVD与GLCM-SDH两种方法的识别率。识别率如图9所示。图9中(a)、(b)、(c)、(d)、(e)、(f)分别为公路场景、风声场景、流水场景、雨声场景、机场声场景和高斯白噪声在不同信噪比下的识别率。

可以看出，在大多数声场景下，信噪比在10-20dB的情况，采用GLCM-HOSVD特征比采用GLCM-SDH特征，识别率高出20%左右。

对于图9(a)中，由于公路周围声场景的不稳定，实验结果也依然是GLCM-HOSVD方法明显好于GLCM-SDH。虽然，也出现如图9(e)所示，在机场声场景下，当声音事件的信噪比为0dB时，GLCM-HOSVD方法微弱地低于GLCM-SDH方法。但总体而言，我们提出的GLCM-HOSVD方法比GLCM-SDH方法能更好地表征声谱图的纹理特征。

第2组实验，本文的关键实验。在实验中，我们预定的场景声音种类较少，选择随机森林判别器，可以确保对场景声音种类的正确识别。对于实际应用，我们在四.D中讨论。实验中，我们对随机森林矩阵RFM中每一种声场景及信噪比的随机森林RF _s,n，都用这种声音场景下的5种不同信噪比的声音事件进行测试。6种声场景下的平均识别率如表1所示。

从表1可以看出，当随机森林RF _s,n的信噪比与测试声音信噪比相匹配时，识别精度几乎不受信噪比的影响。如表1主对角线所示，不论是高信噪比，还是低信噪比，识别精度都很高。如果测试声音信噪比与训练声音信噪比有偏差，则识别精度随着偏差的加大而下降。如，表1第一行，当RF _s,n信噪比为20dB，测试声音信噪比10dB时为68.63%，5dB时为46.88%，0dB时为27.63%，-5dB时为13.75%。同时，RF _s,n信噪比越低，RF _s,n信噪比与测试声音信噪比错误匹配时，对识别率的影响越大。如表1第五行，当RF _s,n信噪比为-5dB，测试声音信噪比0dB时为19.00%，5dB时为7.13%，10dB时为2.38%，20dB时为5.43%。但是，只要确保RF _s,n信噪比与测试声音信噪比匹配，即便RF _s,n为-5dB低信噪比情况，也能保持很高的识别率。

第3组实验，对于EMD, GLCM-HOSVD与RF架构，图10中简称EMD+RF。按照图3的架构，待测声音事件估算的信噪比l _s和它的真实信噪比存在偏差。使得RF _s的信噪比与待测声音事件的信噪比存在偏差。使得RF _s对待测声音事件的识别率降低。这种情况在RF _s低信噪比时尤为明显。相关结果分别如图10中的绿色直方图所示。其中，当RF _s为20dB时，对6类声场景的平均识别率为92%；10dB时、83%；5dB时，77.5%；0dB时、64%；-5dB时、29%。

对于pRF，在不同信噪比下，对6种声场景的声音事件的平均识别率，图10中简称RF.从图10的蓝色直方图可以看出，信噪比20dB时pRF识别率略高于RF _s。但整体识别结果，RF _s明显好于RF的识别结果。

第4组实验EMD, GLCM-HOSVD与M-RF架构，图10中简称EMD+M-RF。在试验中我们选取与估计的信噪比相差的信噪比以及估计的信噪比本身，来对M-RF进行混合。在不同信噪比下的这种方法的平均识别率如图10的红色直方图所示。我们可以看到EMD, GLCM-HOSVD与M-RF架构的方法在低信噪比下能极大的提升识别率。关于相关的改进，在四.D中讨论。

B. EMD, GLCM-HOSVD与M-RF架构与MP-feature的比较

EMD, GLCM-HOSVD与M-RF架构与MP-feature两种特征提取方法的在6类声场景下的识别情况如图11所示。图11中，在6类声场景下，MP特征在低信噪比，如5dB以下，大部分都无法进行声音事件的识别。唯一例外的是图11(f)，由于高斯白噪音不存在明显的规律，不易通过匹配追踪(MP)还原，因此，在5dB时还能保持一定的识别能力。而EMD, GLCM-HOSVD与M-RF架构在各种类型的场景声中，在0dB时，能够保持80%以上的识别率。尤其，在-5dB的情况下，依然保持平均70%以上的识别率。

C.EMD, GLCM-HOSVD与M-RF架构与SPD在低信噪比下的比较

图12为EMD, GLCM-HOSVD与M-RF架构与SPD两种方法，在6类场景声音，在5 dB、0dB和-5dB 3种信噪比下的识别率。SPD方法，在半监督的情况下，舍弃了被场景声音干扰的部分特征，保留部分可靠的高能特征。从图12可以看出，SPD虽然在5 dB、0 dB的情况下，依然能保持一定程度的识别率，但对于更低的信噪比，如-5dB的情况，则无法保持正常识别能力。而对于0 dB、-5 dB的情况，EMD, GLCM-HOSVD与M-RF架构依然保持良好的识别效率。

D. 讨论

这部分分析本文提出的EMD, GLCM-HOSVD与RFM架构、EMD, GLCM-HOSVD与RF架构以及EMD, GLCM-HOSVD与M-RF架构分类器，在各种声场景下，识别环境声音的性能。并把EMD, GLCM-HOSVD与M-RF架构与SPD、MP的方法进行比较。

实验表明，GLCM-HOSVD优于GLCM-SDH；采用EMD, GLCM-HOSVD与RFM架构与EMD,GLCM-HOSVD与RF架构可以检测出低信噪比中的声音事件。EMD, GLCM-HOSVD与M-RF架构性能优于MP结合PCA与LDA的SVM方法。在信噪比低于0dB时，EMD, GLCM-HOSVD与M-RF架构优于SPD结合KNN的方法。图13为6类声场景下，声音事件在5dB、0dB与-5dB等3种不同信噪比下的平均检测正确率。从图13可以看出，该方法能够在0dB到-5dB时依然保持较高的识别正确率。

如四.B基本实验2中所述，本文实验只选择6类声场景，使得采用RF来判别场景声音，不会产生误判。如果对场景声音产生错误的判断，可能对识别精度产生影响。在实际应用中，我们采用如图3或图4所示的方法。即采用III.A的声音事件端点检测与信噪比估算方法，把从待测声音事件中分离出来的场景声音；根据声音事件的信噪比，直接与声音事件样本库中的所有声音事件进行混合，生成相应场景下的声音事件集；再提取声音事件集的GLCM-HOSVD特征，训练并生成随机森林。用这个生成的RF对待测声音事件进行判别，可以确保待测声音事件的场景类型与随机森林的场景声音类型一致。

在实际应用中，对于某种环境(场景)而言，可能发生的声音事件有限。因此，声音事件样本库中的声音事件数也是有限的。因此，按照图3的EMD, GLCM-HOSVD与RF架构或图4的EMD, GLCM-HOSVD与M-RF架构，把相关的场景声音与样本库中的声音事件进行混合，并建立RF _s或RF _sh -RF _s -RF _sl，可以实时进行。这样使得在各种声场景下识别低信噪比声音事件可以实时进行。

进一步的问题，四.A基本实验4中所述，对待测声音事件信噪比估算的偏差，引起识别率降低。考虑到场景声音的非平稳性，分离出的环境声音与其它时间段的环境声音存在偏差。针对这个问题，改进方法之一，选择多段代表性的非平稳场景声音，分别与样本库中的声音事件进行混合，生成多个RF，最后结果由多个RF的结果，进一步投票确定。

因此，我们认为，以本文所提出的EMD, GLCM-HOSVD与RFM架构、EMD, GLCM-HOSVD与RF架构和EMD, GLCM-HOSVD与M-RF架构分类器为基础，能实现各种声场景中低信噪比声音事件的识别。

综上所述，本文提出的一种能够在各种声场景下、有效提高低信噪比下识别率的声音事件识别方法。该方法把待测声音事件中的场景声音，与声音事件样本库相结合，通过GLCM-HOSVD提取声音数据的特征，生成判别待测声音事件判别的RF。利用这种方法生成的RF，可以在特定场景中，实现低信噪比下，声音事件的识别。实验结果表明，该方法能使声音事件与场景声音信噪比为-5dB的情况，保持平均精度73%以上声音事件的识别率。与MP，SPD提取特征的方法相比，一定程度上说，我们所提出的这种方法解决了低信噪比情况下，声音事件的识别问题。

参考文献：

[1] H. Malik, “Acoustic environment identification and itsapplications to audio forensics,” IEEE Trans. Inf. Foren. Sec., vol. 8, no.11, pp. 1827-1837, Nov. 2013.

[2] T. Heittola, A. Mesaros, T. Virtanen, A. Eronen, “Sound EventDetection in Multisource Environments Using Source Separation,” in Proc. CHiME, pp. 36-40, 2011.

[3] C. -H. Lee, S. -B. Hsu, J. -L. Shih, and C. -H. Chou, “Continuousbirdsong recognition using gaussian mixture modeling of image shapefeatures,” IEEE Trans.multimedia, vol. 15, no. 2, pp. 454-464, Feb. 2013.

[4] Z. Shi, J. Han, T. Zheng, and J. Li, “Identification ofObjectionable Audio Segments Based on Pseudo and Heterogeneous MixtureModels,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 3, pp. 611-623, Mar. 2013.

[5] S. Ntalampiras, I. Potamitis, and N. Fakotakis, “An adaptiveframework for acoustic monitoring of potential hazards,” EURASIP J. Audio, Speech, Music Process. vol. 2009, pp. 1-16, Jan. 2009.

[6] C. Clavel, T. Ehrette, G. Richard, “Events detection for anaudio-based surveillance system,” in Proc. ICME, pp. 1306-1309, 2005.

[7] H. Zhao and H. Malik, “Audio recording location identificationusing acoustic environment signature,” IEEE Trans. Inf. Foren. Sec., vol. 8,no. 11, pp. 1746-1759, Nov. 2013.

[8] C. Clavel, I. Vasilescu, L. Devillers, G. Richard, T. Ehrette,“Fear-type emotion recognition for future audio-based surveillance systems,”Speech Commun., vol. 50, pp. 487-503, 2008.

[9] J. N. Mcnames, A. M. Fraser, “Obstructive sleep apneaclassification based on spectrogram patterns in the electrocardiogram,”Computers in Cardiology, vol. 27, pp.749-752 ,Sep.2000.

[10] V. Kudriavtsev, V. Polyshchuk, and D. L. Roy, “Heart energysignature spectrogram for cardiovascular diagnosis,” BioMedical Engineering Online, vol. 6, no. 1, pp. 16, 2007.

[11]V. N. Varghees, K. I. Ramachandran, “A novel heart sound activitydetection framework for automated heart sound analysis,” Biomedical Signal Processing and Contro., vol. 13, pp. 174-188, Sep. 2014.

[12]A. Gavrovska, V. Bogdanović, I. Reljin, and B. Reljin, “Automaticheart sound detection in pediatric patients without electrocardiogramreference via pseudo-affine Wigner–Ville distribution and Haar waveletlifting,” Computer methods and programs in biomedicine vol. 113, no. 2, pp.515-528, Feb. 2014.

[13] S. Ntalampiras, I. Potamitis, N. Fakotakis, “On acousticsurveillance of hazardous situations,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’09), 2009, pp. 165-168.

[14] S. Içer, S. Gengeç,“Classification and analysis of non-stationary characteristics of crackle and rhonchus lung adventitious sounds,”Digital Signal Processing, vol. 28, pp. 18-27, May. 2014.

[15]B. Lei, S. A. Rahman, and I. Song, “Content-based classificationof breath sound with enhanced features,” Neurocomputing , vol. 141, pp. 139-147, Oct. 2014.

[16]Y. Wang, W. Li, J. Zhou, X. Li, and Y. Pu, “Identification of thenormal and abnormal heart sounds using wavelet-time entropy features based onOMS-WPD,” Future Generation Computer Systems , vol. 37, pp. 488-495, Jul.2014.

[17]F. Jin, F. Sattar, and D. Y. Goh, “New approaches for spectro-temporal feature extraction with applications to respiratory soundclassification,” Neurocomputing , vol. 123, pp. 362-371, Jan. 2014.

[18] G. Muhammad, M. Moutasem, “Pathological voice detection andbinary classification using MPEG-7 audio features,” Biomedical Signal Processing and Control, vol.11, pp. 1-9, May.2014.

[19] G. Richard, S. Sundaram, and S. Narayanan, “An overview onperceptually motivated audio indexing and classification,” Proc. IEEE, vol.101, no. 9, pp. 1939-1954, Sep. 2013.

[20]R. Yan, R. X. Gao, “Multi-scale enveloping spectrogram forvibration analysis in bearing defect diagnosis,” Tribology International ,vol. 42, no. 2, pp. 293-302, Feb.2009.

[21]M. S. Lew, N. Sebe, C. Djeraba, and R. Jain, “Content-BasedMultimedia Information Retrieval: State of the Art and Challenges,” ACM Trans.Multimedia Comput., Commun., Applic., vol. 2, no. 1, pp. 1-19, Feb.2006.

[22] J. Wang, K. Zhang, K Madani, and C Sabourin, “Salientenvironmental sound detection framework for machine awareness,”Neurocomputing , vol. 152, pp. 444-454, Mar. 2015.

[23]S. Ntalampiras , “A novel holistic modeling approach forgeneralized sound recognition,” IEEE Signal Process. Lett., vol. 20, no. 2,pp. 185-188, Feb. 2013.

[24]J.-C. Wang, C,-H. Lin, B,-W, Chen, and M.-K Tsai, “Gabor-basednonuniform scale-frequency map for environmental sound classification in homeautomation,” IEEE Trans. Autom. Sci. Eng., vol. 11, no. 2, pp. 607-613, Apr.2014.

[25] S. Chu, S. Narayanan, and C. C. J. Kuo, “Environmental soundrecognition with time-frequency audio features,” IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 6, pp. 1142-1158, Aug. 2009.

[26] Z. R. Feng, Q. Zhou, J. Zhang, P. Jiang, and X. W. Yang “ATarget Guided Subband Filter for Acoustic Event Detection in NoisyEnvironments Using Wavelet Packets,” IEEE Trans. Audio, Speech, Lang. Process., vol. 23, no. 22, pp. 361-372, Feb.2015.

[27]J. Ludeña-Choez, A Gallardo-Antolín, “Feature extraction based onthe high-pass filtering of audio signals for Acoustic Event Classification,”Computer Speech & Language , vol. 30, no. 1, pp. 32-42, Mar. 2015.

[28] H. Phan, M. Maas, R. Mazur, and A. Mertins, “Random RegressionForests for Acoustic Event Detection and Classification,” IEEE Trans. Audio, Speech, Lang. Process., vol. 23, no. 1, pp. 20-31, Jan.2015.

[29] J. Ye, T. Kobayashi, M. Murakawa, T. Higuchi, “Kerneldiscriminant analysis for environmental sound recognition based on acousticsubspace,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’ 13), 2013, pp. 808 - 812.

[30] P. Khunarsal, C. Lursinsap, and T. Raicharoen, “Very short timeenvironmental sound classiﬁcation based on spectrogram pattern matching,”Inform. Sci., vol. 243, pp. 57-74, Sep. 2013.

[31] C. Baug´e, M. Lagrange, J. And´en, and S. Mallat, “Representingenvironmental sounds using the separable scattering transform,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’13), 2013, pp. 8667-8671.

[32] J. C. Wang, C. H. Lin, E. Siahaan, B. W. Chen, and H. L. Chuang,“Mixed sound event verification on wireless sensor network for homeautomation,” IEEE Trans. Ind. Informat., vol. 10, no. 1, pp. 803–812, Feb.2014.

[33] J. Dennis, H. D. Tran and E. S. Chng. “Overlapping sound eventrecognition using local spectrogram features with the generalised houghtransform,” Pattern Recognition Lett., vol. 34, no. 9, pp. 1085-1093, Sep.2013.

[34] J. Dennis, H. D. Tran, and E. S. Chng, “Image featurerepresentation of the subband power distribution for robust sound eventclassification,” IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 2,pp367-377, Feb. 2013.

[35] T. Heittola, A. Mesaros, A. Eronen, and T. Virtanen, “Context-dependent sound event detection,” EURASIP J. Audio, Speech, Music Process.,vol. 2013, no. 1, pp. 1-13, Jan. 2013.

[36]A. Plinge, R. Grzeszick, and G. A. Fink, “A bag-of-featuresapproach to acoustic event detection,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’14), 2014, pp. 3704-3708.

[37]T. H. Dat, N. W. Z. Terence, J. W. Dennis, and L. Y. Ren,“Generalized Gaussian distribution kullback-leibler kernel for robust soundevent recognition,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’14), 2014, pp. 5949-5953.

[38]J. Ye, T. Kobayashi, M Murakawa, and T. Higuchi, “Robust acousticfeature extraction for sound classification based on noise reduction,” inProc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’14), 2014, pp.5944-4948.

[39]S. Deng, J. Han, C. Zhang , T. Zheng, and G. Zheng, “ Robustminimum statistics project coefficients feature for acoustic environmentrecognition,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’14), 2014, pp. 8232-8236.

[40]X. Lu, Y. Tsao, S. Matsuda, and C. Hori, “Sparse representationbased on a bag of spectral exemplars for acoustic event detection,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’14), 2014, pp. 6255-6259.

[41]M. Seltzer, B. Raj, and R. Stern, “A Bayesian classifier forspectrographic mask estimation for missing feature speech recognition,”Speech Commun., vol. 43, no. 4, pp. 379–393, 2004.

[42]K. Yamashita, T. Shimamura, “Nonstationary noise estimation usinglow-frequency regions for spectral subtraction,” IEEE Signal Process. Lett.,vol. 12, no. 6, pp. 465-468, 2005.

[43]K. Sunil and L. Philipos, “A multi-band spectral subtractionmethod for enhancing speech corrupted by colored noise,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP’02), 2002, vol. 4, pp. 13-17.

[44]H. Huang and J. Q. Pan, “Speech pitch determination based onHilbert-Huang transform,” Signal Process., vol. 86, no. 4, pp. 792-803, 2006.

[45]M. Unser, “Sum and difference histograms for textureclassification,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 8, no. 1, pp.118-125, 1986.

[46]L. K. Soh and C.Tsatsoulis, “Texture analysis of SAR sea iceimagery using gray level co-occurrence matrices,” IEEE Trans. Geosci. Remote S., vol. 37, no. 2, pp. 780-795, 1999.

[47]Z. Xie, G. Liu, C. He, and Y. Wen, “Texture image retrieval basedon gray level co-occurrence matrix and singular value decomposition,” inProc. ICMT, pp. 1-3, 2010.

[48]L. D. Lathauwer, B. D. Moor, and J. Vandewalle, “A multilinearsingular value decomposition,” SIAM J. Matrix Anal. Appli., vol. 21, no. 4,pp. 1253-1278, 2000.

[49] J. Wei, Y. Li, “Specific environmental sounds recognition usingtime-frequency texture features and random forest”, in Proc. CISP, pp. 1705-1709, 2013.

[50] L. Breiman. “Random forests,” Machine Learning, vol. 45, no. 1,pp. 5-32, 2001.

[51] H. Pang, A. Lin, M. Holford, and B. E. Enerson, “Pathwayanalysis using random forests classification and regression,” Bioinformatics,vol. 22, no. 16, pp. 2028-2036, 2006.

[52] K. L. Unella, L.B. Hayward, J.Scgal, and P. V. Eerdewegh,“Screening large-scale association study data: exploiting interactions usingrandom forests”, BMC Genetics, vol. 11, no. 5, pp. 32-37, 2004.

[53] Universitat Pompeu Fabra. Repository of sound under the creativecommons license, Freesound. org [DB/OL]. http://www.freesound.org, 2012-5-14. 。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种低信噪比声场景下声音事件的识别方法，其特征在于：包括如下步骤，

步骤S3：对待测声音事件进行识别：

2.根据权利要求1所述的低信噪比声场景下声音事件的识别方法，其特征在于：所述步骤S3中的第一步的具体实现过程如下，

将待测声音信号y(t)通过EMD，EMD能依据信号自身的特性将待测声音信号y(t)自适应地分为n级固有模态函数的线性叠加，即

<mrow> <mi>y</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>L</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>r</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，r_i(t)为残余函数，L_i(t)为n级固有模态函数；

在n级固有模态函数L_i(t)中，1级固有模态函数L₁(t)主要包含噪音成分，有效声音成分极少，所述噪音成分即场景声音部分，有效声音成分即声音事件部分；因此，我们仅选取2-6级固有模态函数，即取i＝2,3,…,6，用于对待测声音端点的检测；用第i级固有模态函数L_i(t)进行待测声音端点检测的过程具体如下，

S311：对第i级固有模态函数L_i(t)做预处理

e_i(t)＝|H{L_i(t)}|+L_i(t) (2)

其中，H{L_i(t)}表示对固有模态函数做希尔伯特变换；

S312：对e_i(t)进行平滑

<mrow> <msub> <mi>E</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>&sigma;</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>t</mi> <mo>-</mo> <mfrac> <mi>&sigma;</mi> <mn>2</mn> </mfrac> </mrow> <mrow> <mi>j</mi> <mo>=</mo> <mi>t</mi> <mo>+</mo> <mfrac> <mi>&sigma;</mi> <mn>2</mn> </mfrac> </mrow> </munderover> <msub> <mi>e</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中，σ为平滑窗口，取采样率的0.05倍；

S313：对E_i(t)归一化

S314：计算声音事件等级S_level、场景声音等级N_level和初始化场景声音等级阀值T

S_level＝mean[F_i(t)] (5)

N_level＝β∑F_i(t) (6)

T＝αS_level (7)

其中，α，β为门限值参数，取α＝4，β＝0.25；

S315：计算F_i(t)在第k个窗口的平均值

<mrow> <msub> <mover> <mi>F</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mi>k</mi> <mo>&CenterDot;</mo> <msub> <mi>W</mi> <mi>d</mi> </msub> </mrow> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> <mo>&CenterDot;</mo> <msub> <mi>W</mi> <mi>d</mi> </msub> </mrow> </munderover> <msub> <mi>F</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <msub> <mi>W</mi> <mi>d</mi> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中，k为窗口索引，W_d为窗长，取信号采样率0.02倍；

S316：对是否存在声音事件进行判断

若声音事件存在，跳转至步骤S318；

S317：对场景声音进行动态估计，更新场景声音等级

<mrow> <msub> <mi>N</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mover> <mi>F</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <msub> <mover> <mi>F</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <mi>T</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>N</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>v</mi> <mi>e</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mi>k</mi> </mfrac> </mtd> <mtd> <mrow> <msub> <mover> <mi>F</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>></mo> <mi>T</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中，N_level(n)为第n个窗口的场景声音等级，在更新场景声音等级N_level(n)后跳转至步骤S319；

S318：更新场景声音等级阀值

<mrow> <mi>T</mi> <mo>=</mo> <mfrac> <mi>&theta;</mi> <msub> <mi>W</mi> <mi>d</mi> </msub> </mfrac> <msub> <mover> <mi>F</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中，θ为常数，取θ＝0.2；

S319：若场景声音等级阀值在之前的循环中被更新过，则更新声音事件等级S_level

S_level＝N_level+λ|T-N_level| (12)

其中，λ＝0.5，作为声音事件等级更新的权值；

S3110：k＝k+1，移动窗口，若窗口没有结束跳转至步骤S315，否则循环结束；

选取的2-6级固有模态函数L_i(t)经上述步骤S311至S3110的处理，得到5种不同的端点检测结果，再经投票确定最终端点检测结果；

P_n(t)＝n²(t) (13)

其次，对场景声音能量进行调整

P_n(t)＝mean(P_n) if P_n(t)＞γmean(P_n) (14)

其中，系数γ＝3，该过程的目的是将场景声音段中错分的声音事件段做调整；

最后计算信噪比

<mrow> <mi>b</mi> <mo>=</mo> <mn>10</mn> <msub> <mi>log</mi> <mn>10</mn> </msub> <mfrac> <mrow> <mo>&Sigma;</mo> <msup> <mi>s</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>l</mi> <mo>&Sigma;</mo> <msub> <mi>P</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>P</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

其中，l表示声音事件段与场景声音段长度的比值，由于分离后的声音事件段中含有场景声音成分，对声音事件段的能量值产生影响，因此，使用l∑P_n(t)作为该影响的估计，剔除了场景声音对能量值的影响。

3.根据权利要求1所述的低信噪比声场景下声音事件的识别方法，其特征在于：所述步骤S1至S3中，待测场景声音的特征、待测声音事件的特征、训练声音事件的特征、已知场景声音的特征的计算方法如下：

GLCM可表示为：

P(i，j|d，θ)＝#{(x，y)，(x+Δx，y+Δy)|f(x，y)＝i，f(x+Δx，y+Δy)＝j} (16)

其中，x，y表示声谱图中的像素坐标，且x+Δx≤M，y+Δy≤N，M×N表示图像的大小；i，j＝0，1，…，L-1，L为图像的灰度级数，#{S}表示集合S中元素的数量；

截取声音事件的声谱图中大小为M×N，灰度级为L的图像区域，根据公式(16)及d、θ的取值，计算获得GLCM，并将各个GLCM组合成高阶矩阵A，对该高阶矩阵A进行张量展开，得到A(n)，其中，将A的元素放置在大小为I_n×(I_n+1×…×I_N×I₁×…I_n-1)二维矩阵的i_n行、j列，这里，当k>n时，当k<n时，

对A_(n)进行奇异值分解，得到

<mrow> <msub> <mi>A</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msub> <mo>=</mo> <msup> <mi>U</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>V</mi> <msup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>H</mi> </msup> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>

其中U⁽ⁿ⁾是酉矩阵；Σ⁽ⁿ⁾是半正定对角矩阵；而V^(n)H，即V的共轭转置，是酉矩阵；根据式(17)得到∑⁽ⁿ⁾，根据∑⁽ⁿ⁾，可得

<mrow> <msup> <mi>&sigma;</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mo>&lsqb;</mo> <msubsup> <mi>&sigma;</mi> <mn>1</mn> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mn>...</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>i</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mn>...</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>I</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>18</mn> <mo>)</mo> </mrow> </mrow>

将σ⁽¹⁾...σ⁽ⁿ⁾...σ^(N)作为声音事件的特征，即

<mrow> <mi>w</mi> <mo>=</mo> <mo>&lsqb;</mo> <msubsup> <mi>&sigma;</mi> <mn>1</mn> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mn>...</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>i</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mn>...</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>I</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msubsup> <mi>&sigma;</mi> <mn>1</mn> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mn>....</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>i</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mn>...</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>I</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msubsup> <mi>&sigma;</mi> <mn>1</mn> <mrow> <mo>(</mo> <mi>N</mi> <mo>)</mo> </mrow> </msubsup> <mn>...</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>i</mi> <mi>N</mi> </msub> <mrow> <mo>(</mo> <mi>N</mi> <mo>)</mo> </mrow> </msubsup> <mn>...</mn> <msubsup> <mi>&sigma;</mi> <msub> <mi>I</mi> <mi>N</mi> </msub> <mrow> <mo>(</mo> <mi>N</mi> <mo>)</mo> </mrow> </msubsup> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>

其中，1≤n≤N；表示∑⁽ⁿ⁾的第i_n个奇异值，1≤i_n≤I_n；