CN107818780B - 一种基于非线性特征补偿的鲁棒语音识别方法 - Google Patents
一种基于非线性特征补偿的鲁棒语音识别方法 Download PDFInfo
- Publication number
- CN107818780B CN107818780B CN201711112816.3A CN201711112816A CN107818780B CN 107818780 B CN107818780 B CN 107818780B CN 201711112816 A CN201711112816 A CN 201711112816A CN 107818780 B CN107818780 B CN 107818780B
- Authority
- CN
- China
- Prior art keywords
- speech
- channel
- mel
- log
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种基于非线性特征补偿的鲁棒语音识别方法,假设每个Mel通道上的语音特征参数只受本通道噪声的影响,通过含噪语音和纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,得到与纯净语音声学模型相匹配的测试语音特征参数。用于每个Mel通道非线性特征变换的噪声参数通过使本通道GMM的输出概率最大来确定。本发明的技术方案对噪声环境下提取的含噪语音特征进行非线性补偿,具有运算量小、灵活性好、与后端识别器无关的优点。
Description
技术领域
本发明属于语音识别领域,具体涉及到在对数谱域对含噪语音信号的特征向量进行非线性特征补偿,使之与预先训练的声学模型相匹配的鲁棒语音识别方法。
背景技术
在语音信号的传输过程中,不可避免的要受到背景噪声的干扰,这就可能使实际环境中提取的含噪语音特征与预先训练的声学模型不匹配,从而导致语音识别系统的性能严重恶化。
一般来说,减小环境失配影响的鲁棒语音识别技术可以分为前端特征域方法和后端模型域方法。前者对测试语音的特征参数进行补偿,使之与预先训练的声学模型相匹配;后者利用测试环境下的少量自适应数据,对预先训练的声学模型的参数进行变换,使之与测试环境相匹配,直接对测试语音进行识别。特征域方法具有计算量较小、与后端识别器无关,灵活性好的优点。而模型域方法的补偿精度更高,但是其计算量较大,实时性较差。
在前端特征域,基于模型的特征补偿是一种有效的噪声鲁棒语音识别技术,它对预先训练的纯净语音高斯混合模型(GMM:Gaussian Mixture Model)进行参数变换,通过最小均方误差方法从含噪测试语音中估计纯净语音特征参数。基于模型的特征补偿方法虽然具有精度较高,补偿性能较好的优点,但是与模型域方法类似,它也涉及较为复杂的矩阵运算,计算量较大,不适用于运算性能较差的移动终端设备。因此有必要寻求更加高效的特征补偿方法,以便在计算复杂度和补偿精度之间取得更好的平衡。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种基于非线性特征补偿的鲁棒语音识别方法。在该方法中,假设每个Mel通道上的语音特征参数只受本通道噪声的影响,通过含噪语音和纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,即可得到与纯净语音声学模型相匹配的测试语音特征参数。
本发明的具体步骤如下:
(1)对纯净训练语音进行预处理、快速傅里叶变换(FFT:Fast FourierTransform)和Mel滤波,并对滤波后的各Mel通道系数取对数,得到训练语音的对数谱参数;
(2)用所有语音单元的纯净语音对数谱参数训练生成一个协方差矩阵都是对角矩阵的高斯混合模型;
(3)对含噪测试语音进行预处理、FFT和Mel滤波,并对滤波后的各Mel通道系数取对数,得到含噪测试语音的对数谱参数;
(4)在每个Mel通道上,通过使本通道的GMM输出概率最大来确定含噪语音与纯净语音之间的非线性变换参数;
(5)在每个Mel通道上,用含噪语音与纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,得到与纯净语音声学模型相匹配的测试语音对数谱参数;
(6)对非线性特征补偿后的对数谱参数作离散余弦变换(DCT:Discrete CosineTransform),得到美尔频率特征参数(MFCC:Mel Frequency Cepstral Coefficients),用于语音识别系统的后端声学解码。
附图说明
图1为基于非线性特征补偿的鲁棒语音识别系统的总体框架,主要包括预处理、FFT、Mel滤波、取对数、非线性特征补偿和DCT模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于非线性特征补偿的鲁棒语音识别方法主要包括预处理、FFT、Mel滤波、取对数、非线性特征补偿和DCT模块。其中,非线性特征补偿模块是本发明技术方案的核心部分。下面详细说明本发明的具体实施方案。
1、模型训练
对纯净训练语音进行预处理、FFT、Mel滤波,并对滤波后的各Mel通道系数取对数,得到训练语音的对数谱参数。用所有语音单元的纯净语音对数谱参数训练生成一个GMM。该GMM每个高斯单元的协方差矩阵都是对角矩阵,因此可以在每个Mel通道上独立输出概率。
2、对数谱特征提取
对含噪测试语音进行预处理、FFT、Mel滤波,并对滤波后的各Mel通道系数取对数,得到测试语音的对数谱参数。
3、非线性特征补偿
在对数谱域,加性噪声对语音的影响可用如下函数来描述:
y=log[exp(x)+exp(n)] (1)
其中,y、x和n分别表示含噪语音、纯净语音和加性噪声的对数谱特征参数。
在第k个Mel通道上,式(1)可以表示为:
y(k)=log[exp(x(k))+exp(n(k))] (2)
其中,y(k)、x(k)和n(k)分别表示y、x和n在第k个Mel通道的系数。
其中n表示所有可能的对数谱噪声参数。
设n的取值范围是nmin<n<nmax,为了提高搜索效率,首先将区间[nmin,nmax]分成10个子区间,每个子区间再分成5个更小的子区间。这样,求时,先确定一个使P(y(k)|n)最大的子区间,再在该子区间中搜索P(y(k)|n)的最大值,得到
4、DCT
对特征补偿后的对数谱特征参数进行DCT变换,即可得到补偿后的测试语音MFCC。
Claims (2)
1.一种基于非线性特征补偿的鲁棒语音识别方法,其特征在于,包括以下步骤:
(1)对纯净训练语音进行预处理、快速傅里叶变换(FFT:Fast Fourier Transform)和Mel滤波,并对滤波后的各Mel通道系数取对数,得到训练语音的对数谱参数;
(2)用所有语音单元的纯净语音对数谱参数训练生成一个协方差矩阵都是对角矩阵的高斯混合模型;
(3)对含噪测试语音进行预处理、FFT和Mel滤波,并对滤波后的各Mel通道系数取对数,得到含噪测试语音的对数谱参数;
在对数谱域,加性噪声对语音的影响用如下函数来描述:
y=log[exp(x)+exp(n)] (1)
其中,y、x和n分别表示含噪语音、纯净语音和加性噪声的对数谱特征参数;
在第k个Mel通道上,式(1)表示为:
y(k)=log[exp(x(k))+exp(n(k))] (2)
其中,y(k)、x(k)和n(k)分别表示y、x和n在第k个Mel通道的系数;
(4)在每个Mel通道上,通过使本通道的GMM输出概率最大来确定含噪语音与纯净语音之间的非线性变换参数;
(5)在每个Mel通道上,用含噪语音与纯净语音之间的非线性变换关系对本通道的含噪语音特征参数进行变换,得到与纯净语音声学模型相匹配的测试语音对数谱参数;
其中n表示所有可能的对数谱噪声参数;
(6)对非线性特征补偿后的对数谱参数作离散余弦变换(DCT:Discrete CosineTransform),得到美尔频率特征参数(MFCC:Mel Frequency Cepstral Coefficients),用于语音识别系统的后端声学解码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112816.3A CN107818780B (zh) | 2017-11-13 | 2017-11-13 | 一种基于非线性特征补偿的鲁棒语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112816.3A CN107818780B (zh) | 2017-11-13 | 2017-11-13 | 一种基于非线性特征补偿的鲁棒语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107818780A CN107818780A (zh) | 2018-03-20 |
CN107818780B true CN107818780B (zh) | 2020-09-18 |
Family
ID=61609481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711112816.3A Active CN107818780B (zh) | 2017-11-13 | 2017-11-13 | 一种基于非线性特征补偿的鲁棒语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818780B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986794B (zh) * | 2018-09-19 | 2023-02-28 | 河海大学 | 一种基于幂函数频率变换的说话人补偿方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853661A (zh) * | 2010-05-14 | 2010-10-06 | 中国科学院声学研究所 | 基于非监督学习的噪声谱估计与语音活动度检测方法 |
CN104205214A (zh) * | 2012-03-09 | 2014-12-10 | 国际商业机器公司 | 噪声降低方法、程序产品和装置 |
CN106356058A (zh) * | 2016-09-08 | 2017-01-25 | 河海大学 | 一种基于多频带特征补偿的鲁棒语音识别方法 |
-
2017
- 2017-11-13 CN CN201711112816.3A patent/CN107818780B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853661A (zh) * | 2010-05-14 | 2010-10-06 | 中国科学院声学研究所 | 基于非监督学习的噪声谱估计与语音活动度检测方法 |
CN104205214A (zh) * | 2012-03-09 | 2014-12-10 | 国际商业机器公司 | 噪声降低方法、程序产品和装置 |
CN106356058A (zh) * | 2016-09-08 | 2017-01-25 | 河海大学 | 一种基于多频带特征补偿的鲁棒语音识别方法 |
Non-Patent Citations (1)
Title |
---|
基于最大似然多项式回归的鲁棒语音识别;吕勇,吴镇扬;《声学学报》;声学学报;20100130;第35卷(第1期);88-96 * |
Also Published As
Publication number | Publication date |
---|---|
CN107818780A (zh) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111276125B (zh) | 一种面向边缘计算的轻量级语音关键词识别方法 | |
CN106373559B (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN104392718A (zh) | 一种基于声学模型阵列的鲁棒语音识别方法 | |
CN105355199B (zh) | 一种基于gmm噪声估计的模型组合语音识别方法 | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
CN106356058B (zh) | 一种基于多频带特征补偿的鲁棒语音识别方法 | |
KR20130057668A (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN107818780B (zh) | 一种基于非线性特征补偿的鲁棒语音识别方法 | |
WO2019037426A1 (zh) | Mfcc语音识别方法、存储介质、电子设备及系统 | |
CN104392719A (zh) | 一种用于语音识别系统的中心子带模型自适应方法 | |
CN108022588B (zh) | 一种基于双特征模型的鲁棒语音识别方法 | |
CN107919115B (zh) | 一种基于非线性谱变换的特征补偿方法 | |
CN101533642B (zh) | 一种语音信号处理方法及装置 | |
CN111613211B (zh) | 特定词语音的处理方法及装置 | |
Pardede et al. | Generalized-log spectral mean normalization for speech recognition | |
CN108053835B (zh) | 一种基于通道泰勒级数的噪声估计方法 | |
Li et al. | Unscented transform with online distortion estimation for HMM adaptation | |
Shao et al. | A versatile speech enhancement system based on perceptual wavelet denoising | |
CN104361892B (zh) | 一种干扰信号与语音调制信号混叠的窄带干扰识别方法 | |
Panda | A fast approach to psychoacoustic model compensation for robust speaker recognition in additive noise. | |
Rajnoha | Multi-condition training for unknown environment adaptation in robust asr under real conditions | |
Arakawa et al. | Model-basedwiener filter for noise robust speech recognition | |
CN106997766B (zh) | 一种基于宽带噪声的同态滤波语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |