CN104485103B

CN104485103B - 一种基于矢量泰勒级数的多环境模型孤立词识别方法

Info

Publication number: CN104485103B
Application number: CN201410676529.5A
Authority: CN
Inventors: 周琳; 束佳明; 吕勇; 吴镇扬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2017-09-01
Anticipated expiration: 2034-11-21
Also published as: CN104485103A

Abstract

一种基于矢量泰勒级数的多环境模型孤立词识别方法，通过模型训练阶段：设置基本环境信噪比，利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型；通过孤立词识别阶段，根据训练阶段获得的含噪GMM模型，首先选择与当前测试环境最匹配的信噪比环境；其次基于矢量泰勒级数和纯净环境下的纯净GMM模型，估计测试语音中噪声的均值和方差，并根据最小均方误差准则将测试语音特征参数映射到最匹配信噪比环境下的含噪语音特征参数；最后，选择最匹配信噪比环境下的含噪HMM模型，将映射后的含噪特征参数与对应的含噪HMM模型进行匹配，得到最终的识别结果。本发明误识率比现有矢量泰勒级数大幅降低。

Description

一种基于矢量泰勒级数的多环境模型孤立词识别方法

技术领域

本发明涉及语音识别领域，具体涉及一种基于矢量泰勒级数的多环境模型孤立词识别方法。

背景技术

语音识别是一门涉及很广泛的学科，包括：信号处理、数理统计、模式识别、声学与语音学、人工智能等等。随着现代科学技术的迅猛发展，语音识别技术已经逐渐走出实验室进入人们的日常生活中。虽然语音识别系统在实验室中有较高的识别性能，但在实际环境中，由于语音的变异性和环境噪声的干扰，导致语音识别系统的识别性能不尽如人意。因此，研究语音识别技术，提高语音识别系统在噪声环境下的鲁棒性具有十分重要的实际意义。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于矢量泰勒级数的多环境模型孤立词识别方法，通过建立多种信噪比环境下的GMM模型和HMM模型，改进了现有技术的不足。

技术方案：一种基于矢量泰勒级数的多环境模型孤立词识别方法，其特征在于，该方法包括以下步骤：

步骤1)模型训练阶段：设置基本环境信噪比，对白噪声进行加权，将加权结果加载到纯净训练语音中，分别得到对应信噪比条件下的含噪训练语音；利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型；其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布，含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布；

步骤2)孤立词识别阶段：根据训练阶段获得的含噪GMM模型，基于最大似然准则选择与当前测试环境最匹配的信噪比环境，然后基于矢量泰勒级数和纯净环境下的纯净GMM模型，估计测试语音中噪声的均值和方差；接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型，将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数；最后识别时，选择最匹配信噪比环境下的含噪HMM模型，将映射后的含噪特征参数与对应的含噪HMM模型进行匹配，得到最终的识别结果。

进一步的，设置基本环境包括信噪比分别为0dB、5dB、10dB、15dB、20dB和纯净环境，步骤1)中模型训练阶段的具体包括以下步骤：

步骤1.1)根据设置的信噪比，对白噪声信号进行加权，加载到纯净训练语音数据中，得到不同环境下的含噪训练语音和纯净训练语音，在每一信噪比下，对训练语音进行预处理，所述预处理过程包括预加重、分帧加窗和端点检测；

步骤1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数；得到不同信噪比环境下所有孤立词的MFCC特征参数；

步骤1.3)在每一信噪比下，利用所有孤立词的MFCC特征参数建立该环境下的含噪GMM模型，得到设置的基本信噪比环境中所有孤立词特征参数的含噪GMM模型；所述含噪GMM模型包括纯净环境下的纯净GMM模型；

步骤1.4)在每一信噪比环境下，利用步骤1.2)中每个孤立词的MFCC特征参数，分别建立各个孤立词的含噪HMM模型；所述含噪HMM模型包括纯净环境下的纯净HMM模型。

进一步的，步骤2)中孤立词识别阶段具体包括以下步骤：

步骤2.1)测试语音经过预处理过程，该预处理过程包括预加重、分帧加窗和端点检测，提取出MFCC参数；

步骤2.2)利用步骤2.1)得到的MFCC参数和训练阶段建立的不同信噪比环境下的含噪GMM模型，基于ML准则估计与测试语音最匹配的最优GMM模型，该最优GMM模型所对应的信噪比环境就是和当前测试语音最为匹配的信噪比环境；

步骤2.3)基于矢量泰勒级数方法和纯净环境下的纯净GMM模型，根据步骤2.1)得到的MFCC参数，估计测试语音中噪声的均值和方差；

步骤2.4)利用步骤2.3)估计出的噪声参数和步骤2.2)得到的最优GMM模型，基于最小均方误差准则，将当前测试语音的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数；

步骤2.5)将步骤2.2)得到的最匹配信噪比环境下各个孤立词的含噪HMM模型作为当前识别模型，对经过步骤2.4)映射后的最匹配信噪比环境下的MFCC参数进行概率计算，得到最终的孤立词识别结果。

进一步的，MFCC特征参数为26维，该参数包括13维MFCC参数和13维一阶差分MFCC参数。

有益效果：与现有的矢量泰勒级数孤立词识别技术相比，本发明提出的基于矢量泰勒级数的多环境模型方法能明显提高各种噪声下孤立词识别的性能。在信噪比为0dB的白噪声(white)、工厂噪声(factory)和粉红噪声(pink)噪声环境下，本发明的误识率比现有矢量泰勒级数平均低11.2％。在white、factory和pink三种噪声的平均情况下，当信噪比分别为3dB、8dB及12dB时，本方法相对于现有矢量泰勒级数的平均误识率分别降低了39.6％、29.8％及19.0％。

附图说明

图1为本发明算法总体流程图。

图2为双门限端点检测流程图。

图3为MFCC特征参数提取流程图。

图4为多环境特征补偿的实现流程图。

图5为HMM识别流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

下面对本发明做更进一步的说明。

本发明提供一种基于矢量泰勒级数(VTS:Vector Taylor Series)的多环境模型(VTSME:VTS-based Multi-Environment)孤立词识别方法，主要包括两个阶段：训练阶段和识别阶段。

在模型训练阶段，设定基本环境包括信噪比为0dB、5dB、10dB、15dB、20dB和纯净环境，根据设置的信噪比参数，对白噪声进行加权，加载到纯净的训练语音，从而得到不同信噪比环境下的含噪训练语音。在每一种基本环境下，提取含噪训练语音的MFCC参数，分别训练生成含噪GMM(包括纯净GMM模型)和含噪HMM模型(包括纯净HMM模型)，这些含噪GMM模型和含噪HMM模型就组成了基本模型集。

在识别阶段，首先根据测试语音基于最大似然(ML:Maximum Likelihood)准则，在基本模型集中选择一个跟测试环境最匹配的信噪比环境。基于VTS和纯净环境下的GMM模型从测试语音中估计出当前测试环境噪声的均值和方差。然后利用选择的最匹配信噪比环境下的含噪GMM模型和估计出的当前测试语音的噪声参数，将当前测试环境下的MFCC特征参数映射到最匹配信噪比环境的MFCC特征参数。最后识别时，选择最匹配信噪比环境下的各个孤立词的含噪HMM模型，将映射后的含噪MFCC特征参数与对应的含噪HMM模型进行匹配，得到最终的识别结果。

图1给出了基于矢量泰勒级数的多环境模型孤立词识别算法总体流程图。下面结合附图对本发明技术方案的具体实施方式进行详细说明：

1、模型训练阶段：

1.1)本发明中所用的纯净训练语音采样频率为8KHz，量化位数为16比特。根据0dB、5dB、10dB、15dB、20dB的信噪比，将白噪声进行加权处理，和纯净的训练语音进行叠加，得到包含纯净训练语音在内共6种不同信噪比环境下的训练语音。

训练语音经过预加重、分帧加窗和端点检测处理。

预加重使用一个一阶FIR高通滤波器来完成，其传递函数表达式为：H(z)＝1-αz^-1，

其中α是预加重系数，本发明中取值0.9375。

分帧加窗中使用的窗函数是汉明窗，汉明窗的表达式为：

N表示帧长，本发明中取帧长N为128点，帧移为64点。

本发明采用动态双门限方法进行端点检测，根据语音信号对应的短时能量(E_t)和短时过零率(Z_t)分别设置一高一低两个门限。

其中x_t(n)是分帧后的语音信号，t为帧序号，sgn()是符号函数。

动态双门限的端点检测分为四段：静音段、过渡段、语音段及结束。

静音段：端点检测开始后，首先检测语音是否进入静音段，当某帧语音信号的短时能量或过零率超过低门限，则标记当前帧为语音的起点，语音进入过渡段。

过渡段：当语音处于过渡段时，继续观察短时能量和过零率，如果某帧语音的短时能量或过零率低于低门限时，语音回到静音段，如果有连续三帧语音的短时能量或过零率高于高门限，则表示语音进入语音段。

语音段：当语音的短时能量或过零率高于低门限时，语音处于语音段，若某帧语音的短时能量或过零率低于低门限时，则标记当前帧为语音的可疑终点，开始检测语音是否结束。

结束：短时能量或过零率小于低门限的语音帧，若其持续帧数大于最大静音段长度，则认为语音结束，之前标记的终点即语音的终点，反之，如果持续帧数小于最大静音段长度或之后有某帧语音的短时能量或过零率高于低门限，则取消终点的标记，语音仍旧处于语音段，继续检测终点。

该过程如图2所示。

上述最小语音长度是指能够被识别的语音段最小长度，是语音段的最短持续时间；最大静音长度是指语音相邻两个词之间的最长静音持续时间。

短时能量和过零率的高低门限计算公式如下：

其中E_H、E_L、Z_H及Z_L分别是短时能量和过零率的高低门限，E_max和E_min分别是原始语音信号短时能量的最大值和最小值，μ_z和σ_z分别为前15帧语音信号短时过零率的均值和标准差，Z_c为经验值，一般取25。

1.2)MFCC特征参数提取。

对1.1)中得到的每一帧时域信号x_t(n)进行快速傅里叶变换(FFT:Fast FourierTransform)，得到线性频谱X_t(k)。

将线性频谱X_t(k)通过美尔(Mel)滤波器组，得到Mel频谱S_t(m)。

其中W_m(k)表示Mel滤波器组中第m个三角滤波器在频率k处的加权因子，Mel滤波器组个数R为20。

对Mel频谱S_t(m)的对数作离散余弦变换(DCT：Discrete Cosine Transform)变换，将其变换到倒谱域，得到MFCC参数C_t(l)。

L为MFCC参数的阶数，取值13。C_t(l)为所求的MFCC参数。

一阶差分MFCC参数的计算公式为：

其中T是参与差分计算的帧数，是一个常数，本发明中取值为4。

将C_t与ΔC_t结合，就构成了本孤立词识别系统的MFCC特征参数，该MFCC参数包括13维MFCC参数和13维一阶差分MFCC参数，其具体计算过程如图3所示。

1.3)经过步骤1.2)，得到不同信噪比环境下所有孤立词的MFCC特征参数。在每一信噪比环境下，利用所有孤立词的MFCC特征参数建立该信噪比环境下的含噪GMM模型(包括纯净GMM模型)。GMM使用多个高斯模型来表征随机变量的概率密度函数，其概率密度函数P(x)主要由均值、方差及混合权重等参数决定。

其中x代表训练语音的MFCC特征参数集合，M是GMM的混合数，μ_x,m与σ_x,m分别是GMM中第m个高斯单元的均值与方差向量，P(m)是每个高斯单元对应的权重，满足如下条件：

本发明中设置的GMM模型混合数M为100。

每一信噪比环境下的含噪GMM模型是利用该信噪比环境下所有训练孤立词的MFCC参数训练得到，因此反映了MFCC特征参数在该信噪比环境下的概率分布。这样得到信噪比为0dB、5dB、10dB、15dB、20dB噪声环境以及纯净环境共6种环境下的含噪GMM模型。

1.4)HMM模型的训练。

经过步骤1.2)后得到不同信噪比环境下的所有孤立词的MFCC特征参数。在每一信噪比条件下，利用每个孤立词对应的MFCC特征参数训练得到该信噪比环境下对应孤立词的含噪HMM模型(包括纯净HMM模型)，这样得到每个信噪比环境下每个孤立词的含噪HMM模型。

每个信噪比环境下每个孤立词的含噪HMM模型(包括纯净HMM模型)的参数集可以记为λ_w＝f(π,A,B)其中π、A、B分别代表初始状态概率分布、状态转移概率分布和观测序列概率分布，w表示所对应的孤立词。

在给定每个信噪比环境下每个孤立词的MFCC特征参数C(n)＝{C(1),C(2),…,C(26)}和初始模型参数后，通过调整HMM模型参数λ_w＝f(π,A,B)使训练序列的输出概率最大，得到最终的含噪HMM模型参数。本发明中B的概率分布采用混合高斯模型对MFCC特征参数的概率密度函数进行建模，混合数设置为4，状态数设置为6，状态转移矩阵A采用自左向右无跳转结构。模型训练时参数π和A采用随机初始化，参数B采用分段K-均值聚类算法进行初始化，采用Baum-Welch迭代算法来估计HMM的参数，设定收敛阈值为0.0001，当相邻两次输出概率的差值小于该阈值时，认为模型已收敛。初始化HMM模型参数后，就可以开始对HMM训练。

2、识别阶段

2.1)测试语音的采样频率为8KHz，量化位数为16比特。测试语音的预加重、分帧加窗、端点检测和MFCC特征参数提取的处理方法和训练阶段所述相同。

2.2)由2.1)中得到测试语音的MFCC特征参数，利用训练阶段得到的纯净GMM模型，估计测试语音中噪声的均值和方差

噪声均值的估计式如下：

式中y_t表示测试语音的第t帧MFCC特征参数。γ_m(t)＝P(m|y_t,λ)是先验GMM参数集合λ已知时，y_t属于第m个高斯单元的条件概率，γ_m(t)属于后验概率。

C和C^-1分别代表DCT变换矩阵和其逆矩阵。

μ_n0是加性噪声n的初始均值，μ_x,m表示纯净GMM模型中第m个高斯单元的均值。σ_y,m表示含噪语音的GMM模型中第m个高斯单元的方差。

噪声方差的估计式如下：

式中

μ_y,m表示在估计当前测试环境的噪声均值后，当前测试语音的GMM模型中第m个高斯单元的均值。

σ_x,m表示纯净语音的GMM模型中第m个高斯单元的方差。

σ_x0表示纯净语音的初始方差。其余变量的定义与均值估计公式中的相同。

2.3)由2.1)步骤的MFCC特征参数和训练阶段的不同信噪比环境下的含噪GMM模型(包括纯净GMM模型)，基于最大似然准则ML选择与当前测试语音最匹配的信噪比环境，其计算过程为：

其中λ_i表示不同信噪比环境下的含噪GMM模型参数(由于此时有0dB、5dB、10dB、15dB、20dB和纯净环境这6种不同的基本环境，i的取值范围为1≤i≤6)，是测试语音的MFCC特征向量，T为当前测试语音的总帧数，表示测试语音MFCC特征向量在各含噪GMM模型下的输出概率。

2.4)由步骤2.2)得到当前测试语音的噪声均值和方差估计值后，利用最匹配信噪比环境下的含噪GMM模型，基于最小均方误差准则，将当前测试环境下的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数。

其中为映射到最匹配环境下的MFCC系数，t为帧号。y_t为测试语音的第t帧MFCC特征向量。表示根据估计的噪声均值和方差，确定测试语音GMM参数集时，y_t属于GMM第m个高斯单元的概率。M为模型混合数，本发明中取值100。μ_x,m表示最匹配含噪GMM模型中第m个高斯单元的均值。μ_b为训练噪声b的均值，μ_n为估计的当前测试环境噪声n的均值，即为步骤2.2)估计的

多环境特征补偿的过程如图4所示。

2.5)选择最匹配信噪比环境下的各个孤立词对应的含噪HMM模型作为当前识别模型，对经过步骤2.4)映射后的MFCC参数进行概率计算，得到最终的孤立词识别结果。

在最匹配信噪比条件下，每个孤立词w对应的含噪HMM模型为λ_w，测试语音经过2.4)映射到最匹配信噪比环境下的特征参数组成的序列为基于最大似然估计得到最后识别结果：

即为最终的识别孤立词，W为识别孤立词的总个数。

本发明中使用前后向算法得到输出概率采用对数运算，以避免下溢并减少计算量。

HMM识别的过程如图5所示。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于矢量泰勒级数的多环境模型孤立词识别方法，其特征在于，该方法包括以下步骤：

1)模型训练阶段：设置基本环境信噪比，对白噪声进行加权，将加权结果加载到纯净训练语音中，分别得到对应信噪比条件下的含噪训练语音；利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型；其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布，含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布；

2)孤立词识别阶段：根据训练阶段获得的含噪GMM模型，基于最大似然准则选择与当前测试环境最匹配的信噪比环境，然后基于矢量泰勒级数和纯净环境下的纯净GMM模型，估计测试语音中噪声的均值和方差；接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型，将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数；最后识别时，选择最匹配信噪比环境下的含噪HMM模型，将映射后的含噪特征参数与对应的含噪HMM模型进行匹配，得到最终的识别结果。

2.如权利要求1所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法，其特征在于，设置基本环境包括信噪比分别为0dB、5dB、10dB、15dB、20dB和纯净环境，步骤1)中模型训练阶段的具体包括以下步骤：

1.1)根据设置的信噪比，对白噪声信号进行加权，加载到纯净训练语音数据中，得到不同环境下的含噪训练语音和纯净训练语音，在每一信噪比下，对训练语音进行预处理，所述预处理过程包括预加重、分帧加窗和端点检测；

1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数；得到不同信噪比环境下所有孤立词的MFCC特征参数；

1.3)在每一信噪比下，利用所有孤立词的MFCC特征参数建立该环境下的含噪GMM模型，得到设置的基本信噪比环境中所有孤立词特征参数的含噪GMM模型；所述含噪GMM模型包括纯净环境下的纯净GMM模型；

1.4)在每一信噪比环境下，利用步骤1.2)中每个孤立词的MFCC特征参数，分别建立各个孤立词的含噪HMM模型；所述含噪HMM模型包括纯净环境下的纯净HMM模型。

3.如权利要求1所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法，其特征在于，步骤2)中孤立词识别阶段具体包括以下步骤：

2.1)测试语音经过预处理过程，该预处理过程包括预加重、分帧加窗和端点检测，提取出MFCC参数；

2.2)利用步骤2.1)得到的MFCC参数和训练阶段建立的不同信噪比环境下的含噪GMM模型，基于ML准则估计与测试语音最匹配的最优GMM模型，该最优GMM模型所对应的信噪比环境就是和当前测试语音最为匹配的信噪比环境；

2.3)基于矢量泰勒级数方法和纯净环境下的纯净GMM模型，根据步骤2.1)得到的MFCC参数，估计测试语音中噪声的均值和方差；

2.4)利用步骤2.3)估计出的噪声参数和步骤2.2)得到的最优GMM模型，基于最小均方误差准则，将当前测试语音的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数；

2.5)将步骤2.2)得到的最匹配信噪比环境下各个孤立词的含噪HMM模型作为当前识别模型，对经过步骤2.4)映射后的最匹配信噪比环境下的MFCC参数进行概率计算，得到最终的孤立词识别结果。

4.如权利要求2或3所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法，其特征在于，所述MFCC特征参数为26维，该参数包括13维MFCC参数和13维一阶差分MFCC参数。