CN108022588A

CN108022588A - 一种基于双特征模型的鲁棒语音识别方法

Info

Publication number: CN108022588A
Application number: CN201711112809.3A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-05-11
Anticipated expiration: 2037-11-13
Also published as: CN108022588B

Abstract

本发明公开一种基于双特征模型的鲁棒语音识别方法，针对语音的低能量系数容易被噪声覆盖的特点，用幂函数取代对数函数，对含噪输入语音的Mel谱系数进行压缩，得到含噪语音的幂美尔频率倒谱系数(PMFCC：Power Mel Frequency Cepstral Coefficients)，并根据含噪输入语音对声学模型的参数进行变换，使其与当前环境相匹配；如果输入语音是纯净测试语音，则仍采用传统的MFCC进行声学解码。本发明可以在保持纯净输入语音高识别率的同时，提高含噪语音的抗噪声能力，优于传统的单MFCC语音识别系统。

Description

一种基于双特征模型的鲁棒语音识别方法

技术领域

本发明属于语音识别领域，具体涉及到针对纯净测试语音和含噪测试语音两种环境采用不同语音特征进行声学解码的鲁棒语音识别方法。

背景技术

目前大多数语音识别系统以美尔频率倒谱系数(MFCC：Mel Frequency CepstralCoefficients)为特征参数，以隐马尔可夫模型(HMM：Hidden Markov Model)为声学模型。MFCC采用对数函数对Mel滤波后的系数进行非线性变换。对数函数不仅对高能量系数进行压缩，而且对低能量系数进行放大，因此MFCC考虑了各语音单元之间的细节差异，在纯净语音环境中可以取得很高的识别率。

在实际应用中，环境噪声往往是不可避免的，语音的低能量系数容易被噪声覆盖，不但不能提高语音单元之间的分辨率，而且使噪声环境下提取的MFCC与训练环境下生成的纯净语音声学模型严重失配，导致系统的识别性能下降。因此，在含噪测试语音环境下，没有必要考虑语音的低能量系数，只需要对高能量系数进行压缩即可。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于双特征模型的鲁棒语音识别方法。在该方法中，针对语音的低能量系数容易被噪声覆盖的特点，用幂函数取代对数函数，对含噪语音的Mel谱系数进行压缩，得到含噪语音的幂美尔频率倒谱系数(PMFCC：Power Mel Frequency Cepstral Coefficients)，并根据含噪输入语音对声学模型的参数进行变换，使其与当前环境相匹配；如果输入语音是纯净测试语音，则仍采用传统的MFCC进行声学解码，保持纯净语音的高识别率。

本发明的具体步骤如下：

(1)用一个含有较少(一般取10个高斯单元)高斯单元的高斯混合模型监测输入语音中是否含有噪声，输出噪声存在标识；

(2)提取输入语音的美尔频率倒谱系数(MFCC)，包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换；

(3)提取输入语音的幂美尔频率倒谱系数(PMFCC)，用指数为真分数的幂函数取代对数函数对Mel滤波后的系数进行压缩，其他步骤与MFCC相同；

(4)根据噪声存在标识，选择MFCC或PMFCC，作为系统的特征参数，前者用于纯净输入语音，后者用于含噪输入语音；

(5)如果输入是纯净语音，则直接输出MFCC声学模型用于声学解码；如果输入是含噪语音，则需要对PMFCC声学模型进行模型自适应，使其与含噪测试环境相匹配，再对含噪输入语音进行声学解码。

附图说明

图1为基于双特征模型的鲁棒语音识别系统的总体框架，主要包括噪声监测、MFCC提取、PMFCC提取、特征选择、模型自适应和声学解码模块。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于双特征模型的鲁棒语音识别方法主要包括噪声监测、MFCC提取、PMFCC提取、特征选择、模型自适应和声学解码模块。下面逐一详细说明附图中各主要模块的具体实施方案：

1、噪声监测

用一个含有较少(一般取10个高斯单元)高斯单元的高斯混合模型对环境噪声进行监测，根据其输出概率判断输入语音中是否含有噪声。

2、MFCC提取

MFCC提取采用标准方式，包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换。

3、PMFCC提取

在PMFCC提取中，用幂函数f(x)＝x^α，取代对数函数，对Mel滤波后的Mel谱系数进行压缩，0＜α＜1，α是幂函数的指数，x是Mel谱系数。设语音的Mel谱系数为x^lin，则其PMFCC为：

x＝C(x^lin)^α (1)

其中，x表示语音的PMFCC，C表示离散余弦变换矩阵。

4、特征选择

根据噪声存在标识，选择MFCC或PMFCC，作为系统的特征参数，前者用于纯净输入语音，后者用于含噪输入语音。对于每种特征，都用其纯净训练语音参数训练生成每个语音单元的声学模型。

5、模型自适应

对于每种特征MFCC或PMFCC，都有其对应的声学模型。如果特征选择模块选择的是MFCC，则不对其声学模型进行变换，直接输出，用于声学解码；如果特征选择模块选择的是PMFCC，则需要对其声学模型的参数进行变换，使其与含噪测试环境相匹配。

设用纯净语音训练生成的PMFCC声学模型的均值向量和协方差矩阵分别为μ_x和Σ_x，则根据环境噪声的均值向量μ_n和协方差矩阵Σ_n对其进行参数自适应，可得：

Σ_y＝VΣ_xV^T+UΣ_nU^T (3)

其中，μ_y和Σ_y分别表示含噪语音的均值向量和协方差矩阵；C和C^-1分别表示离散余弦变换矩阵及其逆矩阵；U和V的表达式为：

式(4)和式(5)中，diag()表示以括号中的向量元素为对角元素生成的对角矩阵。

6、声学解码

根据特征的不同，选取MFCC声学模型或自适应后的PMFCC声学模型对纯净语音的MFCC或含噪语音的PMFCC计算概率，识别出当前输入语音对应的语音单元。

Claims

1.一种基于双特征模型的鲁棒语音识别方法，其特征在于，针对语音的低能量系数容易被噪声覆盖的特点，用幂函数取代对数函数，对含噪输入语音的Mel谱系数进行压缩，得到含噪语音的幂美尔频率倒谱系数(PMFCC：Power Mel Frequency CepstralCoefficients)，并根据含噪输入语音对声学模型的参数进行变换，使其与当前环境相匹配；如果输入语音是纯净测试语音，则仍采用MFCC进行声学解码，保持纯净语音的高识别率。

2.根据权利要求1所述的一种基于双特征模型的鲁棒语音识别方法，其特征在于，具体包括：

(1)用一个含有较少高斯单元的高斯混合模型监测输入语音中是否含有噪声，输出噪声存在标识；

3.根据权利要求2所述的一种基于双特征模型的鲁棒语音识别方法，其特征在于，对PMFCC声学模型采用以下公式进行模型自适应：

<mrow> <msub> <mi>&mu;</mi> <mi>y</mi> </msub> <mo>=</mo> <mi>C</mi> <msup> <mrow> <mo>(</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> </msup> <mo>)</mo> </mrow> <mi>&alpha;</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

Σ_y＝VΣ_xV^T+UΣ_nU^T (2)

其中，μ_x和Σ_x分别表示用纯净语音训练生成的PMFCC声学模型的均值向量和协方差矩阵；μ_n和Σ_n分别表示加性噪声的均值向量和协方差矩阵；μ_y和Σ_y分别表示含噪语音的均值向量和协方差矩阵；C和C^-1分别表示离散余弦变换矩阵及其逆矩阵。

4.根据权利要求3所述的一种基于双特征模型的鲁棒语音识别方法，其特征在于，U和V的表达式为：

<mrow> <mi>U</mi> <mo>=</mo> <mi>C</mi> <mi>d</mi> <mi>i</mi> <mi>a</mi> <mi>g</mi> <mrow> <mo>(</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> </msup> </mrow> <mo>)</mo> </mrow> <mrow> <mi>&alpha;</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>V</mi> <mo>=</mo> <mi>C</mi> <mi>d</mi> <mi>i</mi> <mi>a</mi> <mi>g</mi> <mrow> <mo>(</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> </msup> </mrow> <mo>)</mo> </mrow> <mrow> <mi>&alpha;</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>&alpha;</mi> </mfrac> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

式(3)和式(4)中，diag()表示以括号中的向量元素为对角元素生成的对角矩阵。

5.根据权利要求2所述的一种基于双特征模型的鲁棒语音识别方法，其特征在于，在PMFCC提取中，用幂函数f(x)＝x^α，0＜α＜1取代对数函数，对Mel滤波后的Mel谱系数进行压缩。设语音的Mel谱系数为x^lin，则其PMFCC为：

x＝C(x^lin)^α (1)

其中，x表示语音的PMFCC，C表示离散余弦变换矩阵。