CN108022588A - 一种基于双特征模型的鲁棒语音识别方法 - Google Patents

一种基于双特征模型的鲁棒语音识别方法 Download PDF

Info

Publication number
CN108022588A
CN108022588A CN201711112809.3A CN201711112809A CN108022588A CN 108022588 A CN108022588 A CN 108022588A CN 201711112809 A CN201711112809 A CN 201711112809A CN 108022588 A CN108022588 A CN 108022588A
Authority
CN
China
Prior art keywords
mrow
msup
msub
mfrac
pmfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711112809.3A
Other languages
English (en)
Other versions
CN108022588B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201711112809.3A priority Critical patent/CN108022588B/zh
Publication of CN108022588A publication Critical patent/CN108022588A/zh
Application granted granted Critical
Publication of CN108022588B publication Critical patent/CN108022588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开一种基于双特征模型的鲁棒语音识别方法,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪输入语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:Power Mel Frequency Cepstral Coefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用传统的MFCC进行声学解码。本发明可以在保持纯净输入语音高识别率的同时,提高含噪语音的抗噪声能力,优于传统的单MFCC语音识别系统。

Description

一种基于双特征模型的鲁棒语音识别方法
技术领域
本发明属于语音识别领域,具体涉及到针对纯净测试语音和含噪测试语音两种环境采用不同语音特征进行声学解码的鲁棒语音识别方法。
背景技术
目前大多数语音识别系统以美尔频率倒谱系数(MFCC:Mel Frequency CepstralCoefficients)为特征参数,以隐马尔可夫模型(HMM:Hidden Markov Model)为声学模型。MFCC采用对数函数对Mel滤波后的系数进行非线性变换。对数函数不仅对高能量系数进行压缩,而且对低能量系数进行放大,因此MFCC考虑了各语音单元之间的细节差异,在纯净语音环境中可以取得很高的识别率。
在实际应用中,环境噪声往往是不可避免的,语音的低能量系数容易被噪声覆盖,不但不能提高语音单元之间的分辨率,而且使噪声环境下提取的MFCC与训练环境下生成的纯净语音声学模型严重失配,导致系统的识别性能下降。因此,在含噪测试语音环境下,没有必要考虑语音的低能量系数,只需要对高能量系数进行压缩即可。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于双特征模型的鲁棒语音识别方法。在该方法中,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:Power Mel Frequency Cepstral Coefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用传统的MFCC进行声学解码,保持纯净语音的高识别率。
本发明的具体步骤如下:
(1)用一个含有较少(一般取10个高斯单元)高斯单元的高斯混合模型监测输入语音中是否含有噪声,输出噪声存在标识;
(2)提取输入语音的美尔频率倒谱系数(MFCC),包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换;
(3)提取输入语音的幂美尔频率倒谱系数(PMFCC),用指数为真分数的幂函数取代对数函数对Mel滤波后的系数进行压缩,其他步骤与MFCC相同;
(4)根据噪声存在标识,选择MFCC或PMFCC,作为系统的特征参数,前者用于纯净输入语音,后者用于含噪输入语音;
(5)如果输入是纯净语音,则直接输出MFCC声学模型用于声学解码;如果输入是含噪语音,则需要对PMFCC声学模型进行模型自适应,使其与含噪测试环境相匹配,再对含噪输入语音进行声学解码。
附图说明
图1为基于双特征模型的鲁棒语音识别系统的总体框架,主要包括噪声监测、MFCC提取、PMFCC提取、特征选择、模型自适应和声学解码模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于双特征模型的鲁棒语音识别方法主要包括噪声监测、MFCC提取、PMFCC提取、特征选择、模型自适应和声学解码模块。下面逐一详细说明附图中各主要模块的具体实施方案:
1、噪声监测
用一个含有较少(一般取10个高斯单元)高斯单元的高斯混合模型对环境噪声进行监测,根据其输出概率判断输入语音中是否含有噪声。
2、MFCC提取
MFCC提取采用标准方式,包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换。
3、PMFCC提取
在PMFCC提取中,用幂函数f(x)=xα,取代对数函数,对Mel滤波后的Mel谱系数进行压缩,0<α<1,α是幂函数的指数,x是Mel谱系数。设语音的Mel谱系数为xlin,则其PMFCC为:
x=C(xlin)α (1)
其中,x表示语音的PMFCC,C表示离散余弦变换矩阵。
4、特征选择
根据噪声存在标识,选择MFCC或PMFCC,作为系统的特征参数,前者用于纯净输入语音,后者用于含噪输入语音。对于每种特征,都用其纯净训练语音参数训练生成每个语音单元的声学模型。
5、模型自适应
对于每种特征MFCC或PMFCC,都有其对应的声学模型。如果特征选择模块选择的是MFCC,则不对其声学模型进行变换,直接输出,用于声学解码;如果特征选择模块选择的是PMFCC,则需要对其声学模型的参数进行变换,使其与含噪测试环境相匹配。
设用纯净语音训练生成的PMFCC声学模型的均值向量和协方差矩阵分别为μx和Σx,则根据环境噪声的均值向量μn和协方差矩阵Σn对其进行参数自适应,可得:
Σy=VΣxVT+UΣnUT (3)
其中,μy和Σy分别表示含噪语音的均值向量和协方差矩阵;C和C-1分别表示离散余弦变换矩阵及其逆矩阵;U和V的表达式为:
式(4)和式(5)中,diag()表示以括号中的向量元素为对角元素生成的对角矩阵。
6、声学解码
根据特征的不同,选取MFCC声学模型或自适应后的PMFCC声学模型对纯净语音的MFCC或含噪语音的PMFCC计算概率,识别出当前输入语音对应的语音单元。

Claims (5)

1.一种基于双特征模型的鲁棒语音识别方法,其特征在于,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪输入语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:Power Mel Frequency CepstralCoefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用MFCC进行声学解码,保持纯净语音的高识别率。
2.根据权利要求1所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,具体包括:
(1)用一个含有较少高斯单元的高斯混合模型监测输入语音中是否含有噪声,输出噪声存在标识;
(2)提取输入语音的美尔频率倒谱系数(MFCC),包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换;
(3)提取输入语音的幂美尔频率倒谱系数(PMFCC),用指数为真分数的幂函数取代对数函数对Mel滤波后的系数进行压缩,其他步骤与MFCC相同;
(4)根据噪声存在标识,选择MFCC或PMFCC,作为系统的特征参数,前者用于纯净输入语音,后者用于含噪输入语音;
(5)如果输入是纯净语音,则直接输出MFCC声学模型用于声学解码;如果输入是含噪语音,则需要对PMFCC声学模型进行模型自适应,使其与含噪测试环境相匹配,再对含噪输入语音进行声学解码。
3.根据权利要求2所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,对PMFCC声学模型采用以下公式进行模型自适应:
<mrow> <msub> <mi>&amp;mu;</mi> <mi>y</mi> </msub> <mo>=</mo> <mi>C</mi> <msup> <mrow> <mo>(</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> </msup> <mo>)</mo> </mrow> <mi>&amp;alpha;</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
Σy=VΣxVT+UΣnUT (2)
其中,μx和Σx分别表示用纯净语音训练生成的PMFCC声学模型的均值向量和协方差矩阵;μn和Σn分别表示加性噪声的均值向量和协方差矩阵;μy和Σy分别表示含噪语音的均值向量和协方差矩阵;C和C-1分别表示离散余弦变换矩阵及其逆矩阵。
4.根据权利要求3所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,U和V的表达式为:
<mrow> <mi>U</mi> <mo>=</mo> <mi>C</mi> <mi>d</mi> <mi>i</mi> <mi>a</mi> <mi>g</mi> <mrow> <mo>(</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> </msup> </mrow> <mo>)</mo> </mrow> <mrow> <mi>&amp;alpha;</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>V</mi> <mo>=</mo> <mi>C</mi> <mi>d</mi> <mi>i</mi> <mi>a</mi> <mi>g</mi> <mrow> <mo>(</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> </msup> </mrow> <mo>)</mo> </mrow> <mrow> <mi>&amp;alpha;</mi> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>&amp;mu;</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> <mrow> <mfrac> <mn>1</mn> <mi>&amp;alpha;</mi> </mfrac> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
式(3)和式(4)中,diag()表示以括号中的向量元素为对角元素生成的对角矩阵。
5.根据权利要求2所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,在PMFCC提取中,用幂函数f(x)=xα,0<α<1取代对数函数,对Mel滤波后的Mel谱系数进行压缩。设语音的Mel谱系数为xlin,则其PMFCC为:
x=C(xlin)α (1)
其中,x表示语音的PMFCC,C表示离散余弦变换矩阵。
CN201711112809.3A 2017-11-13 2017-11-13 一种基于双特征模型的鲁棒语音识别方法 Active CN108022588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711112809.3A CN108022588B (zh) 2017-11-13 2017-11-13 一种基于双特征模型的鲁棒语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711112809.3A CN108022588B (zh) 2017-11-13 2017-11-13 一种基于双特征模型的鲁棒语音识别方法

Publications (2)

Publication Number Publication Date
CN108022588A true CN108022588A (zh) 2018-05-11
CN108022588B CN108022588B (zh) 2022-03-29

Family

ID=62080556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711112809.3A Active CN108022588B (zh) 2017-11-13 2017-11-13 一种基于双特征模型的鲁棒语音识别方法

Country Status (1)

Country Link
CN (1) CN108022588B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986794A (zh) * 2018-09-19 2018-12-11 河海大学 一种基于幂函数频率变换的说话人补偿方法
CN112002307A (zh) * 2020-08-31 2020-11-27 广州市百果园信息技术有限公司 一种语音识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701291B2 (en) * 2000-10-13 2004-03-02 Lucent Technologies Inc. Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis
US20040128130A1 (en) * 2000-10-02 2004-07-01 Kenneth Rose Perceptual harmonic cepstral coefficients as the front-end for speech recognition
CN102930870A (zh) * 2012-09-27 2013-02-13 福州大学 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN104751845A (zh) * 2015-03-31 2015-07-01 江苏久祥汽车电器集团有限公司 一种用于智能机器人的声音识别方法及系统
CN105185381A (zh) * 2015-08-26 2015-12-23 江苏久祥汽车电器集团有限公司 智能机器人声音识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128130A1 (en) * 2000-10-02 2004-07-01 Kenneth Rose Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6701291B2 (en) * 2000-10-13 2004-03-02 Lucent Technologies Inc. Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis
CN102930870A (zh) * 2012-09-27 2013-02-13 福州大学 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN104751845A (zh) * 2015-03-31 2015-07-01 江苏久祥汽车电器集团有限公司 一种用于智能机器人的声音识别方法及系统
CN105185381A (zh) * 2015-08-26 2015-12-23 江苏久祥汽车电器集团有限公司 智能机器人声音识别系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANWOO KIM: "Power-normalized cepstral coefficients (PNCC) for robust speech recognition", 《 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
SHANG CAI: "Noise Robust Feature Scheme for Automatic Speech Recognition Based on Auditory Perceptual Mechanisms", 《IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》 *
吴华玉: "一种具有鲁棒特性的Mel频率倒谱系数", 《金陵科技学院学报》 *
岳倩倩: "基于非线性幂函数的听觉特征提取算法研究", 《微电子学与计算机》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986794A (zh) * 2018-09-19 2018-12-11 河海大学 一种基于幂函数频率变换的说话人补偿方法
CN108986794B (zh) * 2018-09-19 2023-02-28 河海大学 一种基于幂函数频率变换的说话人补偿方法
CN112002307A (zh) * 2020-08-31 2020-11-27 广州市百果园信息技术有限公司 一种语音识别方法和装置
CN112002307B (zh) * 2020-08-31 2023-11-21 广州市百果园信息技术有限公司 一种语音识别方法和装置

Also Published As

Publication number Publication date
CN108022588B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN101014997B (zh) 用于生成用于自动语音识别器的训练数据的方法和系统
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
CN102483916B (zh) 声音特征量提取装置和声音特征量提取方法
Mitra et al. Medium-duration modulation cepstral feature for robust speech recognition
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
CN103310798A (zh) 降噪方法和装置
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Dev et al. Robust features for noisy speech recognition using mfcc computation from magnitude spectrum of higher order autocorrelation coefficients
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN107103913B (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
CN108022588A (zh) 一种基于双特征模型的鲁棒语音识别方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Hung et al. Robust speech recognition via enhancing the complex-valued acoustic spectrum in modulation domain
Gupta et al. High-accuracy connected digit recognition for mobile applications
CN107919115B (zh) 一种基于非线性谱变换的特征补偿方法
Du et al. Cepstral shape normalization (CSN) for robust speech recognition
Hsieh et al. Employing median filtering to enhance the complex-valued acoustic spectrograms in modulation domain for noise-robust speech recognition
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Pardede On noise robust feature for speech recognition based on power function family
Marković et al. Recognition of the Multimodal Speech Based on the GFCC features
Jung Filtering of Filter‐Bank Energies for Robust Speech Recognition
Hsieh et al. Enhancing the complex-valued acoustic spectrograms in modulation domain for creating noise-robust features in speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant