CN107818780B - 一种基于非线性特征补偿的鲁棒语音识别方法 - Google Patents

一种基于非线性特征补偿的鲁棒语音识别方法 Download PDF

Info

Publication number
CN107818780B
CN107818780B CN201711112816.3A CN201711112816A CN107818780B CN 107818780 B CN107818780 B CN 107818780B CN 201711112816 A CN201711112816 A CN 201711112816A CN 107818780 B CN107818780 B CN 107818780B
Authority
CN
China
Prior art keywords
speech
channel
mel
log
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711112816.3A
Other languages
English (en)
Other versions
CN107818780A (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201711112816.3A priority Critical patent/CN107818780B/zh
Publication of CN107818780A publication Critical patent/CN107818780A/zh
Application granted granted Critical
Publication of CN107818780B publication Critical patent/CN107818780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于非线性特征补偿的鲁棒语音识别方法,假设每个Mel通道上的语音特征参数只受本通道噪声的影响,通过含噪语音和纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,得到与纯净语音声学模型相匹配的测试语音特征参数。用于每个Mel通道非线性特征变换的噪声参数通过使本通道GMM的输出概率最大来确定。本发明的技术方案对噪声环境下提取的含噪语音特征进行非线性补偿,具有运算量小、灵活性好、与后端识别器无关的优点。

Description

一种基于非线性特征补偿的鲁棒语音识别方法
技术领域
本发明属于语音识别领域,具体涉及到在对数谱域对含噪语音信号的特征向量进行非线性特征补偿,使之与预先训练的声学模型相匹配的鲁棒语音识别方法。
背景技术
在语音信号的传输过程中,不可避免的要受到背景噪声的干扰,这就可能使实际环境中提取的含噪语音特征与预先训练的声学模型不匹配,从而导致语音识别系统的性能严重恶化。
一般来说,减小环境失配影响的鲁棒语音识别技术可以分为前端特征域方法和后端模型域方法。前者对测试语音的特征参数进行补偿,使之与预先训练的声学模型相匹配;后者利用测试环境下的少量自适应数据,对预先训练的声学模型的参数进行变换,使之与测试环境相匹配,直接对测试语音进行识别。特征域方法具有计算量较小、与后端识别器无关,灵活性好的优点。而模型域方法的补偿精度更高,但是其计算量较大,实时性较差。
在前端特征域,基于模型的特征补偿是一种有效的噪声鲁棒语音识别技术,它对预先训练的纯净语音高斯混合模型(GMM:Gaussian Mixture Model)进行参数变换,通过最小均方误差方法从含噪测试语音中估计纯净语音特征参数。基于模型的特征补偿方法虽然具有精度较高,补偿性能较好的优点,但是与模型域方法类似,它也涉及较为复杂的矩阵运算,计算量较大,不适用于运算性能较差的移动终端设备。因此有必要寻求更加高效的特征补偿方法,以便在计算复杂度和补偿精度之间取得更好的平衡。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种基于非线性特征补偿的鲁棒语音识别方法。在该方法中,假设每个Mel通道上的语音特征参数只受本通道噪声的影响,通过含噪语音和纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,即可得到与纯净语音声学模型相匹配的测试语音特征参数。
本发明的具体步骤如下:
(1)对纯净训练语音进行预处理、快速傅里叶变换(FFT:Fast FourierTransform)和Mel滤波,并对滤波后的各Mel通道系数取对数,得到训练语音的对数谱参数;
(2)用所有语音单元的纯净语音对数谱参数训练生成一个协方差矩阵都是对角矩阵的高斯混合模型;
(3)对含噪测试语音进行预处理、FFT和Mel滤波,并对滤波后的各Mel通道系数取对数,得到含噪测试语音的对数谱参数;
(4)在每个Mel通道上,通过使本通道的GMM输出概率最大来确定含噪语音与纯净语音之间的非线性变换参数;
(5)在每个Mel通道上,用含噪语音与纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,得到与纯净语音声学模型相匹配的测试语音对数谱参数;
(6)对非线性特征补偿后的对数谱参数作离散余弦变换(DCT:Discrete CosineTransform),得到美尔频率特征参数(MFCC:Mel Frequency Cepstral Coefficients),用于语音识别系统的后端声学解码。
附图说明
图1为基于非线性特征补偿的鲁棒语音识别系统的总体框架,主要包括预处理、FFT、Mel滤波、取对数、非线性特征补偿和DCT模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于非线性特征补偿的鲁棒语音识别方法主要包括预处理、FFT、Mel滤波、取对数、非线性特征补偿和DCT模块。其中,非线性特征补偿模块是本发明技术方案的核心部分。下面详细说明本发明的具体实施方案。
1、模型训练
对纯净训练语音进行预处理、FFT、Mel滤波,并对滤波后的各Mel通道系数取对数,得到训练语音的对数谱参数。用所有语音单元的纯净语音对数谱参数训练生成一个GMM。该GMM每个高斯单元的协方差矩阵都是对角矩阵,因此可以在每个Mel通道上独立输出概率。
2、对数谱特征提取
对含噪测试语音进行预处理、FFT、Mel滤波,并对滤波后的各Mel通道系数取对数,得到测试语音的对数谱参数。
3、非线性特征补偿
在对数谱域,加性噪声对语音的影响可用如下函数来描述:
y=log[exp(x)+exp(n)] (1)
其中,y、x和n分别表示含噪语音、纯净语音和加性噪声的对数谱特征参数。
在第k个Mel通道上,式(1)可以表示为:
y(k)=log[exp(x(k))+exp(n(k))] (2)
其中,y(k)、x(k)和n(k)分别表示y、x和n在第k个Mel通道的系数。
由式(2)可知,通过下式对第k个Mel通道的含噪语音对数谱系数y(k)进行非线性补偿,即可得到纯净语音对数谱系数x(k)的估计值
Figure BDA0001465629910000031
Figure BDA0001465629910000032
其中,
Figure BDA0001465629910000033
为噪声参数,x(k)min是对数谱系数x(k)的下限(计算结果不得小于这个值)。通过使GMM在该Mel通道上的输出概率最大来估计:
Figure BDA0001465629910000034
其中n表示所有可能的对数谱噪声参数。
设n的取值范围是nmin<n<nmax,为了提高搜索效率,首先将区间[nmin,nmax]分成10个子区间,每个子区间再分成5个更小的子区间。这样,求
Figure BDA0001465629910000035
时,先确定一个使P(y(k)|n)最大的子区间,再在该子区间中搜索P(y(k)|n)的最大值,得到
Figure BDA0001465629910000036
4、DCT
对特征补偿后的对数谱特征参数进行DCT变换,即可得到补偿后的测试语音MFCC。

Claims (2)

1.一种基于非线性特征补偿的鲁棒语音识别方法,其特征在于,包括以下步骤:
(1)对纯净训练语音进行预处理、快速傅里叶变换(FFT:Fast Fourier Transform)和Mel滤波,并对滤波后的各Mel通道系数取对数,得到训练语音的对数谱参数;
(2)用所有语音单元的纯净语音对数谱参数训练生成一个协方差矩阵都是对角矩阵的高斯混合模型;
(3)对含噪测试语音进行预处理、FFT和Mel滤波,并对滤波后的各Mel通道系数取对数,得到含噪测试语音的对数谱参数;
在对数谱域,加性噪声对语音的影响用如下函数来描述:
y=log[exp(x)+exp(n)] (1)
其中,y、x和n分别表示含噪语音、纯净语音和加性噪声的对数谱特征参数;
在第k个Mel通道上,式(1)表示为:
y(k)=log[exp(x(k))+exp(n(k))] (2)
其中,y(k)、x(k)和n(k)分别表示y、x和n在第k个Mel通道的系数;
(4)在每个Mel通道上,通过使本通道的GMM输出概率最大来确定含噪语音与纯净语音之间的非线性变换参数;
(5)在每个Mel通道上,用含噪语音与纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,得到与纯净语音声学模型相匹配的测试语音对数谱参数;
通过下式对第k个Mel通道的含噪语音对数谱系数y(k)进行非线性补偿,得到纯净语音对数谱系数x(k)的估计值
Figure FDA0002565905180000011
Figure FDA0002565905180000012
其中,
Figure FDA0002565905180000013
为噪声参数,通过使GMM在该Mel通道上的输出概率最大来估计:
Figure FDA0002565905180000014
其中n表示所有可能的对数谱噪声参数;
(6)对非线性特征补偿后的对数谱参数作离散余弦变换(DCT:Discrete CosineTransform),得到美尔频率特征参数(MFCC:Mel Frequency Cepstral Coefficients),用于语音识别系统的后端声学解码。
2.根据权利要求1所述的一种基于非线性特征补偿的鲁棒语音识别方法,其特征在于:设n的取值范围是nmin<n<nmax,为了提高搜索效率,首先将区间[nmin,nmax]分成10个子区间,每个子区间再分成5个更小的子区间,这样,求
Figure FDA0002565905180000021
时,先确定一个使P(y(k)|n)最大的子区间,再在该子区间中搜索P(y(k)|n)的最大值,得到
Figure FDA0002565905180000022
CN201711112816.3A 2017-11-13 2017-11-13 一种基于非线性特征补偿的鲁棒语音识别方法 Active CN107818780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711112816.3A CN107818780B (zh) 2017-11-13 2017-11-13 一种基于非线性特征补偿的鲁棒语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711112816.3A CN107818780B (zh) 2017-11-13 2017-11-13 一种基于非线性特征补偿的鲁棒语音识别方法

Publications (2)

Publication Number Publication Date
CN107818780A CN107818780A (zh) 2018-03-20
CN107818780B true CN107818780B (zh) 2020-09-18

Family

ID=61609481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711112816.3A Active CN107818780B (zh) 2017-11-13 2017-11-13 一种基于非线性特征补偿的鲁棒语音识别方法

Country Status (1)

Country Link
CN (1) CN107818780B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986794B (zh) * 2018-09-19 2023-02-28 河海大学 一种基于幂函数频率变换的说话人补偿方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853661A (zh) * 2010-05-14 2010-10-06 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN104205214A (zh) * 2012-03-09 2014-12-10 国际商业机器公司 噪声降低方法、程序产品和装置
CN106356058A (zh) * 2016-09-08 2017-01-25 河海大学 一种基于多频带特征补偿的鲁棒语音识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853661A (zh) * 2010-05-14 2010-10-06 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN104205214A (zh) * 2012-03-09 2014-12-10 国际商业机器公司 噪声降低方法、程序产品和装置
CN106356058A (zh) * 2016-09-08 2017-01-25 河海大学 一种基于多频带特征补偿的鲁棒语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于最大似然多项式回归的鲁棒语音识别;吕勇,吴镇扬;《声学学报》;声学学报;20100130;第35卷(第1期);88-96 *

Also Published As

Publication number Publication date
CN107818780A (zh) 2018-03-20

Similar Documents

Publication Publication Date Title
CN111276125B (zh) 一种面向边缘计算的轻量级语音关键词识别方法
CN106373559B (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN104392718A (zh) 一种基于声学模型阵列的鲁棒语音识别方法
CN105355199B (zh) 一种基于gmm噪声估计的模型组合语音识别方法
CN108922514B (zh) 一种基于低频对数谱的鲁棒特征提取方法
CN106356058B (zh) 一种基于多频带特征补偿的鲁棒语音识别方法
KR20130057668A (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN107818780B (zh) 一种基于非线性特征补偿的鲁棒语音识别方法
WO2019037426A1 (zh) Mfcc语音识别方法、存储介质、电子设备及系统
CN104392719A (zh) 一种用于语音识别系统的中心子带模型自适应方法
CN108022588B (zh) 一种基于双特征模型的鲁棒语音识别方法
CN107919115B (zh) 一种基于非线性谱变换的特征补偿方法
CN101533642B (zh) 一种语音信号处理方法及装置
CN111613211B (zh) 特定词语音的处理方法及装置
Pardede et al. Generalized-log spectral mean normalization for speech recognition
CN108053835B (zh) 一种基于通道泰勒级数的噪声估计方法
Li et al. Unscented transform with online distortion estimation for HMM adaptation
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
CN104361892B (zh) 一种干扰信号与语音调制信号混叠的窄带干扰识别方法
Panda A fast approach to psychoacoustic model compensation for robust speaker recognition in additive noise.
Rajnoha Multi-condition training for unknown environment adaptation in robust asr under real conditions
Arakawa et al. Model-basedwiener filter for noise robust speech recognition
CN106997766B (zh) 一种基于宽带噪声的同态滤波语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant