CN105654944B

CN105654944B - 一种融合了短时与长时特征建模的环境声识别方法及装置

Info

Publication number: CN105654944B
Application number: CN201511020925.3A
Authority: CN
Inventors: 刘文举; 胡鹏飞; 张邯平; 高鹏; 董理科; 刘晓飞; 乔利玮; 王桐
Original assignee: Shanxi Zhenzhong Electric Power Co ltd; Institute of Automation of Chinese Academy of Science; Electric Power Research Institute of State Grid Shanxi Electric Power Co Ltd
Current assignee: Shanxi Zhenzhong Electric Power Co ltd; Institute of Automation of Chinese Academy of Science; Electric Power Research Institute of State Grid Shanxi Electric Power Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2019-11-01
Anticipated expiration: 2035-12-30
Also published as: CN105654944A

Abstract

本发明公开了一种融合了短时与长时特征建模的环境声识别方法及装置。本发明提出了一种模型级联融合的方法，使得短时和长时的信息在整个识别过程中都能够得以运用。本发明的方案包括下列步骤：对于滑动窗，首先基于短时特征使用混合高斯模型(GMM)建模进行预分类；对GMM的分类结果，进行置信度判别，置信度高的结果直接作为最终的分类结果，置信度较低时，则基于长时特征再分类；在第二阶段，基于对GMM分类结果混淆矩阵的分析，找出容易混淆的类，训练这些类之间的支持向量机(SVM)分类模型，使用SVM进行再分类。第二阶段的建模过程使用GMM的概率得分加入长时特征一起作为SVM的输入。

Description

一种融合了短时与长时特征建模的环境声识别方法及装置

技术领域

本发明涉及环境声识别领域，特别涉及环境声的声学建模领域。

背景技术

近年来，针对非语音感知的研究已逐渐成为研究的热点。非语音的环境声音也能传递有用信息，如在特定环境中人的活动通常会产生种类丰富的声学事件。通过对这些环境声音的分析和处理，能够有效获知人的活动情况和相应的环境状态，如鼓掌声、笑声、脚步声、枪声、爆炸声、玻璃碎裂声等。

针对环境声识别，研究者们尝试了各种方法。由于都是对声音的处理，环境声识别首先借鉴了语音识别领域的GMM(Gaussian Mixture Model：混合高斯模型)/HMM(HiddenMarkov Model：隐马尔科夫模型)技术。该方法使用HMM为每一个环境声类别建立声学模型，HMM的每一个状态关联一个GMM模型，识别时则采用Viterbi算法进行解码。GMM可作为一个状态的HMM，被用于单独的声学建模。此类方法都是基于分帧后提取的短时特征。在解码过程中，通过逐帧处理实现声音的分割和识别。

相比与逐帧的处理策略，另一种环境声识别的策略则是通过滑动窗来分段声音信号，然后进行逐段分类。通过设定合适的窗长，每一次选择一小段音频，处理若干帧数据。此类方法以滑动窗为处理单元，因此可以在滑动窗内，对音频进行长时分析，提取描述声音长时变化的特征。将一个滑动窗使用长时特征表示为一个向量之后，再使用SVM等分类器进行分类。此类方法的优点是可以加入更多的长时特征，不足之处在于，将含有若干帧的滑动窗用一个向量表示时，其短时特征的细节信息便不得不丢弃。如实际处理中，会将短时特征的均值和方差作为滑动窗向量表示的一部分。

如上所述，传统的GMM/HMM方法基于短时特征建模，识别时采取逐帧处理的策略，处理过程中不便于长时信息的引入。基于滑动窗的方法虽然可以进行长时的分析，但为了方便使用分类器，需要把每一个滑动窗表示为一个向量，短时特征的细节信息将会抛弃。实际上音频短时和长时特征分别是音频信息表达的不同尺度，它们含有了声音不同方面的特性，对声音的识别都有一定的帮助作用。但现有的环境声识别方法或基于短时特征建模，或基于长时特征建模，顾此失彼。本发明中的算法提出了一种能够融合两种尺度建模的方法，在识别过程中，兼顾短时与长时的信息，提高了识别率。

发明内容

(一)要解决的技术问题

本发明的目的在于解决现有环境声识别中算法中信息利用不充分的情况。

(二)技术方案

为解决上述问题，本发明提出了一种融合短时与长时特征建模的环境声识别方法，包括以下步骤：

步骤1：对待识别声音进行分帧处理，基于每一帧提取短时特征；

步骤2：基于短时特征，利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类，给出每个滑动窗的GMM分类结果；其中，所述GMM环境声分类预先基于训练语料中的短时特征训练得到；

步骤3：对GMM环境声分类模型的分类结果进行置信度判别，若置信度高于预定阈值，则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果，否则转下一步进行再分类；

步骤4：对于置信度低于预定阈值的待识别声音，以滑动窗为处理单元，提取所述待识别声音的长时特征；

步骤5：将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类，得到最终的识别结果；其中，所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。

根据本发明另一方面，其提供了一种融合短时与长时特征建模的环境声识别装置，包括：

短时特征提取模块，对待识别声音进行分帧处理，基于每一帧提取短时特征；

GMM分类模块，基于短时特征，利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类，给出每个滑动窗的GMM分类结果；其中，所述GMM环境声分类预先基于训练语料中的短时特征训练得到；

第一识别模块，对GMM环境声分类模型的分类结果进行置信度判别，若置信度高于预定阈值，则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果，否则进行再分类；

长时特征提取模块，对于置信度低于预定阈值的待识别声音，以滑动窗为处理单元，提取所述待识别声音的长时特征；

再分类模块，将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类，得到最终的识别结果；其中，所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。

(三)有益效果

本发明针对现有环境声识别算法中音频信息利用不充分的情况，提出了一种级联模型，以融合短时特征与长时特征的建模。该方法引入置信度判别，首先使得第一阶段基于短时特征建模的置信度较高的识别结果得以保留。对于置信度低的结果，使用SVM进行第二阶段的再分类。在再分类过程中，使用GMM的概率得分与长时特征一起作为SVM的输入。GMM的概率得分携带了大量来自短时特征的区分性信息，使得短时信息在长时建模时再次得到利用。此外，GMM是产生式模型，SVM是典型的判别式模型，通过GMM与SVM两种方法的级联融合，不仅使音频的短时与长时信息在整个识别过程中都得到了利用，还使得两种模型各自发挥自己的优势。最终提高了识别结果。

附图说明

图1是根据本发明的融合短时与长时特征建模的环境声识别算法的流程图；

图2是根据本发明的基于帧提取短时特征的流程图；

图3是根据本发明的使用EM算法训练混合高斯模型的流程图；

图4是根据本发明的使用已训练的GMM进行环境声识别的流程图；

图5是根据本发明的对GMM分类结果进行置信度判别的示意图；

图6是根据本发明的基于滑动窗提取长时特征的示意图；

图7是根据本发明的基于对GMM分类结果混淆矩阵的分析，找出易混淆的类，进而训练SVM模型的示意图。

图8是根据本发明使用SVM进行再分类的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

为了环境声识别过程中能够充分地利用音频各个尺度的信息，本发明基于音频的短时特征与长时特征，提出了一个级联融合模型。整个过程分别采用了GMM与SVM基于不同的特征进行了建模。GMM模型的实施基于音频的短时特征。SVM分类器的输入则包括长时特征与GMM的概率得分。在这个两阶段的框架内，首先通过引入置信度使得第一阶段正确的分类结果予以保留，同时通过GMM的概率得分作为SVM输入的一部分，使得短时的区分性信息在第二阶段的分类中继续得以使用。该机制使得音频的短时与长时信息在识别过程中都得到充分利用。

图1为融合短时与长时特征，使用了GMM与SVM模型的环境声识别的流程图。识别过程以滑动窗为处理单元，首先在每一个滑动窗内得到对应的短时特征与长时特征。第一个阶段基于短时特征使用GMM建模，对待处理的滑动窗，使用GMM进行分类，然后对GMM的分类结果进行置信度判别，对于置信度高的结果，直接作为最后的识别结果，否则进行第二阶段的分类。在系统的第二阶段，将长时特征与滑动窗在各个GMM模型上的概率得分一起作为SVM的输入，进行再分类。

如图1所示，该方法具体包括以下几个步骤：

步骤1：对待识别声音进行分帧处理，基于每一帧提取短时特征。

步骤3：对GMM环境声分类模型的分类结果进行置信度判别，若置信度高于预定阈值，则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果，否则进行再分类；

步骤5：将所述长时特征与所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类，得到最终的识别结果；其中，所述SVM环境声再分类模型是通过分析所述GMM环境声分类模型的分类结果的混淆矩阵，找出容易混淆的类，训练得到的这些容易混淆类之间的SVM分类器。

下面结合附图将详细介绍上述各个步骤。

图2为本发明中对声音进行分帧后提取短时特征的流程图。如图2所示，其中以帧长取30ms，帧移15ms为例，所提取的短时特征包括梅尔倒谱系数(Mel FrequencyCepstralCoefficients，MFCC)与其差分，以及过零率、频谱质心、频谱熵与频谱滚降共38维。其中过零率是唯一的时域特征，直接基于加窗后的声音信号提取。频谱质心、频谱熵与频谱滚降都是描述频谱某种统计特性的特征，需要事先对声音信号进行离散傅里叶变换，得到频谱图。其中频谱质心是指频谱熵所有频率的重心位置；频谱熵也称为频谱光滑度，用来描述能量在频谱上分布的均匀程度；频谱滚降是指频谱的截止频率，它定义为频谱中多少频率以下的能量涵盖了总能量的85％。MFCC则是一种频谱分析与人耳的听觉特性结合的特征，是在语音识别领域最为常用的语音特征参数。结合实验结果，MFCC的阶数取0～16阶，共17维，同时本发明中还选取了MFCC的差分特征，体现出了更好的鲁棒性。所述对声音分帧后提取短时特征具体包括：

步骤101：输入声音信号，对其加汉宁窗；

步骤102：从加窗后的声音信号直接提取过零率；并对加窗后的声音信号进行离散傅里叶变换，得到频谱图；

步骤103：利用所述频谱图提取频谱质心、频谱熵和频谱滚降；并对所得到的频谱图进行Mel梅尔尺度变换及滤波，来模拟人耳的掩蔽效应；

步骤104：对梅尔滤波器的输出取对数，并进行DCT离散余弦变换，得到各维无关的信号

步骤105：从离散余弦变换的系数得到MFCC及其差分特征，。

图3为本发明中根据训练语料中的短时特征，训练GMM环境声分类模型的流程图。本发明主要采用了期望最大化(EM)算法训练GMM模型的参数。最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，用于估计后验概率密度函数。在识别算法中，使用高斯混合模型来表示概率密度函数，因此主要是估计高斯混合模型中每个高斯分量的均值、方差等参数。在估计时，首先计算期望(E步)，利用对隐藏变量的现有估计值，计算其最大似然估计值；其次是最大化(M步)，最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行，最终完成高斯混合模型的参数估计。最初时，GMM的高斯数目设置为比较小的数值，然后算法采用HTK的HHEd工具来分裂每个GMM的高斯分量，其输入为训练预料的短时特征，短时特征的具体提取过程与步骤1相同。对于高斯混合模型中的任意分量，将其分裂成均值与方差相等、权重不同的两个高斯分量，从而达到逐步增加中高斯分布的数量的目的。将更新高斯分布的均值和方差及增加高斯分布数量的过程进行循环迭代，直到GMM中高斯分量的数目达到期望值为止，得到最终的GMM环境声分类模型。

图4为本发明步骤2中利用所述GMM环境声分类模型对待识别声音的每个滑动窗进行识别分类的流程图。如图4所示，步骤2具体包括：

步骤201：计算滑动窗内每一帧的特征在GMM环境声分类模型上的概率取对数；

步骤202：将所述滑动窗口内的所有帧的概率对数相加，最后再除以帧数，得到所有帧平均联合概率的对数形式；

步骤203：根据平均联合概率的对数大小得到分类结果；其中，将所述GMM环境声分类模型中得到的平均联合概率的对数最高的类别作为分类结果。

在计算中使用对数概率使得联合概率的计算由乘法转变为加法，能够简化计算过程。

图5为本发明步骤3中对GMM环境声分类模型的分类结果的置信度计算流程图。如图5所示，步骤3具体包括：

步骤301：对每一个滑动窗，基于识别过程中计算的概率对数，找到最优和次优的GMM的概率得分，即概率对数最大的和概率对数第二大的GMM：L₁和L₂。然后使用下面的公式计算置信度：

步骤302：若置信度高于预定值，则将GMM环境声分类模型给出的分类结果作为所述待识别语音的最终识别结果；该置信度给出了最优的模型得分与次优的模型得分的相对差异，若差异较大，则说明最优的模型以较大的优势获胜，分类结果置信度便比较高。否则说明最高得分对应的模型优势并不明显，两个模型对用的类别容易发生混淆，则分类结果的置信度也相对较低。最终的判决则通过事先设定的阈值来完成，当置信度低于一定阈值时，说明GMM的分类结果的可信度不高，继续进行第二阶段的分类。

图6为本发明步骤4中滑动窗的长时特征提取的示意图。如图6所示，系统识别时以一个滑动窗为处理单元，一个滑动窗包含若干帧。滑动窗可取450ms，共29帧，每次窗移可取250ms。计算的长时特征包括滑动窗内所有的短时帧特征的均值与方差、低能量比率、频谱流量与高过零率，其中，低能量比率指低能量的帧在滑动窗中所有帧的比例，如滑动窗中共有N帧，能量比较低的有M帧，低能量比例就是M/N；高过零率是指过零率比较高的帧占的比例。

图7与图8分别为第二阶段SVM的训练和识别过程。SVM本身是处理二类分类问题的分类器，对于n类环境声的分类问题，则需要训练n(n-1)/2个SVM。为了减少SVM的个数，基于对GMM分类结果的混淆矩阵的分析，找出容易发生混淆的类，即对训练集中的语音利用所述GMM进行分类时，将其类别误分类为错误类别，则该语音的真实类别与所述错误类别即为易混淆的类。然后只训练这些易混淆类之间的SVM分类器。SVM的输入包括长时特征，以及GMM的概率得分。在训练阶段，需要对训练数据设置滑动窗，对每一个滑动窗提取长时特征，并计算其在各个GMM模型的概率得分一起作为SVM的输入。识别时，首先判断GMM分类时得分最高的两个类别是否是易混淆的类。若是，在已训练的SVM中，找出这两个类的SVM分类器，使用该分类器进行再分类。

如图7所示，本发明中SVM环境声再分类模型的训练过程如下：

计算GMM环境声分类模型中分类结果的混淆矩阵，确定易混淆的类；

以训练语料中所提取的长时特征，以及根据所述长时特征在所述GMM环境声分类模型中得到的GMM概率得分作为输入，训练易混淆类的SVM再分类模型；

如图8所示，本发明中利用SVM再分类模型进行识别的过程如下：

判断根据待识别语音在GMM环境声分类模型中得到的最优与次优类别是否为易混淆的类；

如果不是则将所述GMM环境声分类模型的分类结果作为最终的识别结果，否则将所述待识别语音的长时特征和GMM环境声分类模型的概率得分作为输入，利用所述SVM再分类模型进行分类；

所述SVM环境声再分类模型得到的分类结果作为最终的识别结果。

优选地，上述方法中，所述步骤5中的SVM使用了径向基核函数：

其中，参数σ为函数的宽度参数，控制了函数的径向作用范围，x和y分别为所述SVM的两个输入。

发明人在环境声识别系统上测试了本发明提出的上述算法的性能。实验的硬件平台为Intel 3.0GHz主频和4GB内存的PC机，运行过程中内存使用约为10MB-50MB。实验数据为事先定义的24类环境声。基线系统采用单独使用GMM模型与SVM模型的识别方法。置信度根据实验结果选取为0.75。在不使用置信度的情况下，仅依靠GMM的概率得分加入SVM的输入，能够使识别正确率提高3％，达到85.8％。引入置信度后，正确率达到87.8％，相比基线系统提高5％。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合短时与长时特征建模的环境声识别方法，包括以下步骤：

步骤2：基于短时特征，利用GMM环境声分类模型对待识别声音的每一个滑动窗进行分类，给出每个滑动窗的GMM分类结果；其中，所述GMM环境声分类模型预先基于训练语料中的短时特征训练得到；

所述步骤3具体包括：

步骤301：对每一个滑动窗，基于识别过程中计算的对数概率，找到最优和次优的GMM的概率得分：L₁和L₂；然后使用下面的公式计算置信度：

步骤302：若置信度高于预定值，则将GMM环境声分类模型给出的分类结果作为所述待识别语音的最终识别结果；

步骤5：将所述长时特征与在所述GMM环境声分类模型的概率得分一起作为SVM环境声再分类模型的输入进行再分类，得到最终的识别结果；其中，所述SVM环境声再分类模型是预先训练得到的用于分类所述GMM环境声分类模型的中易混淆类的SVM分类器。

2.如权利要求1所述的方法，其特征在于，所述步骤1中提取的短时特征包括MFCC及其差分、过零率、质心比率、频谱熵和频谱滚降。

3.如权利要求1所述的方法，其特征在于，使用期望最大化算法训练混合高斯模型并逐渐增加所述混合高斯模型中高斯分量的个数，最终得到所述GMM环境声分类模型。

4.如权利要求1所述的方法，其特征在于，步骤2具体包括：

步骤202：将所有帧的概率对数相加，最后再除以帧数，得到所有帧平均联合概率的对数形式；

5.如权利要求1所述的方法，其特征在于，所述步骤4中，所述长时特征包括滑动窗内短时特征的均值与方差，以及高过零率、低能量比率和频谱流量。

6.如权利要求1所述的方法，其特征在于，所述SVM环境声再分类模型如下训练得到：

以训练预料中所提取的长时特征，以及根据所述长时特征在所述GMM环境声分类模型中得到的概率得分作为输入，训练易混淆类的SVM环境声再分类模型。

7.如权利要求6所述的方法，其特征在于，所述SVM环境声再分类模型使用了如下所示的径向基核函数：

其中，参数σ为函数的宽度参数，用于控制函数的径向作用范围，x和y分别为训练时的两个输入。

8.如权利要求1所述的方法，其特征在于，步骤5具体包括：

如果不是则将所述GMM环境声分类模型的分类结果作为最终的识别结果，否则将所述待识别语音的长时特征和在GMM环境声分类模型的概率得分作为输入，利用所述SVM环境声再分类模型进行分类；

9.一种融合短时与长时特征建模的环境声识别装置，包括：

第一识别模块，对GMM环境声分类模型的分类结果进行置信度判别，对每一个滑动窗，基于识别过程中计算的对数概率，找到最优和次优的GMM的概率得分：L₁和L₂；然后使用下面的公式计算置信度：

若置信度高于预定阈值，则直接将GMM环境声分类模型的分类结果作为所述待识别声音的最终识别结果，否则进行再分类；