CN105355198A - 一种基于多重自适应的模型补偿语音识别方法 - Google Patents

一种基于多重自适应的模型补偿语音识别方法 Download PDF

Info

Publication number
CN105355198A
CN105355198A CN201510685551.0A CN201510685551A CN105355198A CN 105355198 A CN105355198 A CN 105355198A CN 201510685551 A CN201510685551 A CN 201510685551A CN 105355198 A CN105355198 A CN 105355198A
Authority
CN
China
Prior art keywords
sigma
self
adaptation
acoustic model
exp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510685551.0A
Other languages
English (en)
Other versions
CN105355198B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201510685551.0A priority Critical patent/CN105355198B/zh
Publication of CN105355198A publication Critical patent/CN105355198A/zh
Application granted granted Critical
Publication of CN105355198B publication Critical patent/CN105355198B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于多重自适应的模型补偿语音识别方法,首先对训练环境下预先训练的纯净语音声学模型的参数进行变换,得到与实际测试环境较为匹配的含噪语音声学模型;然后将首次自适应得到的含噪语音声学模型作为新的基环境声学模型,构建其对应的含噪语音与实际环境含噪测试语音之间的变换关系,对基环境声学模型再次进行模型自适应,包括正向自适应和负向自适应;最后比较正向自适应和负向自适应的输出似然值,取似然值较大的含噪语音声学模型作为该次模型自适应的结果。本发明可以进一步提高模型自适应的精度,得到与实际测试环境更加匹配的含噪语音声学模型。

Description

一种基于多重自适应的模型补偿语音识别方法
技术领域
本发明涉及到一种基于多重自适应的模型补偿语音识别方法,用矢量泰勒级数逼近基环境与目标环境之间的非线性环境变换关系,根据从测试语音中估得的环境偏差参数,更新声学模型的均值和方差,将每次自适应的结果作为基环境声学模型,再次进行模型自适应,通过多次模型自适应逼近非线性环境变换关系的多重模型自适应方法;属于语音识别技术领域。
背景技术
在实际应用中,加性背景噪声是导致测试环境与训练环境不匹配的重要因素,而且环境噪声通常是难以避免地,一个在实验室安静环境下精度很高的语音识别系统在噪声环境中识别性能会严重下降,甚至完全不能工作。因此,语音识别系统必须带有噪声补偿模块,以提高实际应用能力。模型自适应是一种有效的环境补偿方法,它根据测试环境下的少量自适应语音,对预先训练的声学模型的参数进行调整,使之与当前测试环境相匹配,从而减小环境失配的影响。
目前的语音识别系统多数以美尔频率倒谱系数(MFCC:Melfrequencycepstralcoefficient)为特征参数,以隐马尔可夫模型(HMM:HiddenMarkovModel)为声学模型。由于在MFCC的提取过程中存在取对数操作,因而在纯净语音和含噪语音的倒谱特征参数之间存在非线性变换关系。为了从含噪语音中得到噪声参数的闭式解,一般用矢量泰勒级数(VTS:VectorTaylorSeries)逼近这种非线性变换关系,对声学模型的参数进行自适应调整。在低信噪比等恶劣应用环境下,由于纯净训练环境与含噪测试环境之间的差异较大,线性泰勒级数展开式就难以很好地逼近实际非线性变换关系,因此模型自适应得到的含噪语音声学模型与用大量含噪测试语音直接训练得到的理想声学模型之间存在较大的差异。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于多重自适应的模型补偿语音识别方法,该方法将每次模型自适应的结果作为新的基环境声学模型,构建其与测试环境理想声学模型之间的变换关系,对其参数再次进行自适应调整,通过多次自适应来减小用线性展开式替代非线性变换关系带来的误差,提高模型自适应的精度。
基环境与目标环境之间的差异越小,用线性级数展开式逼近非线性变换的误差就越小。因此将模型自适应后的声学模型看作新的基环境声学模型,它与理想声学模型之间的差异远远小于纯净语音声学模型与理想声学模型之间的差异。由于新的基环境声学模型与理想声学模型都对应着含噪测试语音,因而用噪声偏差构建它们之间的变换关系,对该基环境声学模型再次进行模型自适应,可以减小用线性级数展开式替代非线性关系带来的误差,进一步提高模型自适应的精度。
技术方案:一种基于多重自适应的模型补偿语音识别方法,主要包括首次自适应、第2次自适应和后续自适应等模块,在第2次自适应和后续的每次自适应中都包括正向自适应、负向自适应和似然值比较三个子模块,下面具体说明其内容。
(1)首次自适应:首次自适应就是传统的模型自适应过程,用矢量泰勒级数逼近含噪测试语音与纯净训练语音之间的非线性变换关系,从含噪测试语音中估计噪声参数,对预先训练的纯净语音声学模型的参数进行变换,得到与实际测试环境较为匹配的含噪语音声学模型。
(2)第2次自适应:将首次自适应得到的自适应声学模型作为新的基环境声学模型,用噪声偏差构建其与测试环境理想声学模型之间的变换关系,再次进行模型自适应;由于实际含噪测试语音与基环境声学模型对应的含噪测试语音在线性谱域的偏差存在正负两种情况,因此第2次自适应及后续的每次自适应都需要通过正向和负向两次自适应来实现。
(3)正向自适应:在正向自适应中,假设实际含噪测试语音的线性谱特征与基环境声学模型对应的含噪语音的线性谱特征之间的差值为正值,构建两种含噪环境之间的变换关系,调整基环境声学模型的参数,得到含噪语音声学模型及似然值。
(4)负向自适应:在负向自适应中,假设实际含噪测试语音的线性谱特征与基环境声学模型对应的含噪语音的线性谱特征之间的差值为负值,构建两种含噪环境之间的变换关系,调整基环境声学模型的参数,得到含噪语音声学模型及似然值。
(5)似然值比较:正向自适应和负向自适应得到的声学模型中只有一个是正确的结果,取输出似然值较大的含噪语音声学模型作为模型自适应的结果。
(6)后续自适应:如果要进一步提高模型自适应的精度,可以将第2次自适应的结果作为新的基声学模型,再次进行模型自适应;考虑到模型自适应的计算量较大,且多重自适应的收敛性较好,后续自适应的次数不宜过多,通用有1到2次即可。
用两种含噪语音噪声的偏差构建非线性环境变换关系,再用矢量泰勒级数从含噪测试语音中估计噪声偏差的均值和方差,根据估得的偏差参数调整基环境声学模型的均值和方差,使之与实际测试环境更加匹配。
附图说明
图1为基于多重自适应的模型补偿语音识别系统总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多重自适应的模型补偿语音识别方法包括首次自适应、第2次自适应和后续自适应等模块。在第2次自适应和后续的每次自适应中都包括正向自适应、负向自适应和似然值比较三个子模块。下面具体说明其内容。
1、首次自适应
首次自适应就是传统模型自适应过程,其目的是将训练阶段预先训练的纯净语音声学模型转换为含噪语音声学模型,用于模型自适应的噪声参数利用最大期望(EM:Expectation-Maximization)算法从含噪语音中估计。设语音识别系统以HMM为每个基本语音单元的声学模型,以MFCC为特征参数。对第k个HMM的第i个状态的第m个高斯单元,含噪语音的均值向量μy,kim和协方差矩阵可以分别表示为:
μ y , k i m = U k i m μ n - U k i m μ n 0 + C l o g ( exp ( C - 1 μ x , k i m ) + exp ( C - 1 μ n 0 ) ) - - - ( 1 )
Σ y , k i m = ( I - U k i m ) Σ x , k i m ( I - U k i m ) T + U k i m Σ n U k i m T - - - ( 2 )
其中,分别表示纯净语音的均值向量和协方差矩阵;μn、μn0和Σn分别表示加性噪声的均值向量、初始均值向量和协方差矩阵;C和C-1分别表示离散余弦变换(DCT:DiscreteCosineTransform)矩阵及其逆矩阵;I表示单位矩阵;Ukim由下式给出:
U k i m = C d i a g ( exp ( C - 1 μ n 0 ) exp ( C - 1 μ x , k i m ) + exp ( C - 1 μ n 0 ) ) C - 1 - - - ( 3 )
式(3)中diag()表示以括号中向量的元素为对角元素生成对角矩阵。
噪声均值μn的估计公式为:
μ n = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ y , k i m - 1 U k i m ] - 1 [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ y , k i m - 1 ( y t - C log ( exp ( C - 1 μ x , k i m ) + exp ( C - 1 μ n 0 ) ) + U k i m μ n 0 ) ] - - - ( 4 )
其中,γkim(t)=P(θt=i,δt=m|Y,λk),表示给定观测向量序列Y={y1,…,yt,…,yT}和第k个HMM的先验参数集λk的条件下,第t帧向量属于该HMM第i个状态的第m个高斯单元的后验概率。
噪声方差Σn的估计公式为:
σ n = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( U k i m · * U k i m ) ] - 1 [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( ( y t - μ y , k i m ) · * ( y t - μ y , k i m ) - ( V k i m · * V k i m ) σ x , k i m ] - - - ( 5 )
其中,σy,m、σx,m、σn是分别用Σy,m、Σx,m、Σn的对角元素生成的方差向量;Vm=I-Um;操作符.*表示矩阵的点乘运算,即两个相同维数的矩阵的对应元素相乘;加权因子Gkim的表达式如下:
G k i m = ( U k i m T · * U k i m T ) d i a g [ ( ( V k i m · * V k i m ) σ x , k i m + ( U k i m · * U k i m ) σ n 0 ) - 2 ] - - - ( 6 )
2、第2次自适应
通过首次自适应得到的含噪语音声学模型已与实际环境下的理想声学模型较为接近,但是由于纯净训练语音与含噪测试语音的差异较大,线性级数展开式(1)和(2)不能很好地反应实际非线性环境变换关系,因此首次自适应得到的含噪语音声学模型与理想声学模型仍有一定偏差。在非线性变换关系中,因变量与自变量之间的差异越小,线性近似就越接近于非线性变换,因此只要对首次自适应的结果再次进行模型自适应,就可以提高模型自适应的精度。
为了便于描述,这里用yt表示首次自适应后的含噪语音声学模型对应的特征向量,用ot表示理想声学模型对应的特征向量,yt和ot都是含噪语音特征向量,它们的关系可以表示为:
ot=Clog(exp(C-1yt)±exp(C-1bt))(7)
其中,bt是两种含噪语音在线性谱域的偏差所对应的倒谱特征。由式(7)包含两种不同的变换关系,因此就需要正向和负向两种自适应来实现。在正向自适应中,变换关系为:
ot=Clog(exp(C-1yt)+exp(C-1bt))(8)
正向自适应的变换方法与首次自适应基本相同,其参数变换公式为:
μ o , k i m = U k i m μ b - U k i m μ b 0 + C l o g ( exp ( C - 1 μ y , k i m ) + exp ( C - 1 μ b 0 ) ) - - - ( 9 )
Σ o , k i m = ( I - U k i m ) Σ y , k r m ( I - U k i m ) T + U k i m Σ b U k i m T - - - ( 10 )
其中,分别表示ot的均值向量和协方差矩阵;μb、μb0和Σb分别表示偏差bt的均值向量、初始均值向量和协方差矩阵;在计算Ukim时,式(3)中的μx,kim和μn0需分别替换为μy,kim和μb0
变换参数μb和Σb的估计公式为:
μ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 U k i m ] - 1 [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 ( o t - C log ( exp ( C - 1 μ y , k i m ) + exp ( C - 1 μ b 0 ) ) + U k i m μ b 0 ) ] - - - ( 11 )
σ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( U k i m · * U k i m ) ] - 1 [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( ( o t - μ o , k i m ) · * ( o t - μ o , k i m ) - ( V k i m · * V k i m ) σ x , k i m ] - - - ( 12 )
在计算Gkim时,式(6)中的σx,kim和σn0需分别替换为σy,kim和σb0
在负向自适应中,变换关系为:
ot=Clog(exp(C-1yt)-exp(C-1bt))(13)
将式(13)中的变量省略下标t,并在定点(μyb0)处用一阶矢量泰勒级数(VTS:VectorTaylorSeries)展开,可以得到如下的线性近似式:
o=(I-U)(x-μy)+U(b-μb0)+Clog(exp(C-1μy)-exp(C-1μb0))(14)
其中U由下式决定:
U = C d i a g ( - exp ( C - 1 μ b 0 ) exp ( C - 1 μ y ) - exp ( C - 1 μ b 0 ) ) C - 1 - - - ( 15 )
对式(14)分别取均值和方差,即可得到两种模型的参数变换公式:
μo=Uμb-Uμb0+Clog(exp(C-1μy)-exp(C-1μb0))(16)
Σo=(I-U)Σy(I-U)T+UΣbUT(17)
对第k个HMM的第i个状态的第m个高斯单元,式(16)和(17)可以分别表示为:
μo,kim=Ukimμb-Ukimμb0+Clog(exp(C-1μy,kim)-exp(C-1μb0))(18)
σo,kim=((I-Ukim).*(I-Ukim))σy,kim+(Ukim.*Ukimb(19)
其中,σo,kim、σy,kim、σb分别是用Σo,kim、Σy,kim、Σb的对角元素生成的方差向量;Ukim由式(15)决定。
将式(18)和(19)分别代入EM算法的辅助函数,并分别令辅助函数关于μb和σb的导数等于0,即可得到μb和σb的估计公式:
μ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 U k i m ] - 1 [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 ( o t - C log ( exp ( C - 1 μ y , k i m ) + exp ( C - 1 μ b 0 ) ) + U k i m μ b 0 ) ] - - - ( 20 )
σ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( U k i m · * U k i m ) ] - 1 [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( ( o t - μ o , k i m ) · * ( o t - μ o , k i m ) - ( ( I - U k i m ) · * ( I - U k i m ) ) σ y , k i m ) ] - - - ( 21 )
式(21)中, G k i m = ( U k i m T · * U k i m T ) d i a g [ ( ( ( I - U k i m ) · * ( I - U k i m ) ) σ y , k i m + ( U k i m · * U k i m ) σ b 0 ) - 2 ] .
首次自适应得到的声学模型经过正向自适应和负向自适应后,各自得到一组含噪语音声学模型,通过比较两个自适应模块的似然值,选取似然值较大的含噪语音声学模型作为模型自适应的结果。
3、后续自适应
由于首次自适应后的声学模型与理想声学模型已经较为接近,因此矢量泰勒级数展开式与实际非线性环境变换关系的偏差很小,第2次自适应的结果与理想声学模型的偏差进一步缩小。如果要继续提高模型自适应的精度,可以通过后续自适应进一步改进模型参数。后续自适应的过程与第2次自适应相同,都是用上一次自适应的结果作为基模型,构建矢量泰勒级数近似式,根据估得的含噪语音的偏差参数,更新声学模型的均值和方差。考虑到模型自适应的计算量较大,且多重自适应的收敛性较好,后续自适应的次数不宜过多,一般有1到2次即可,或者直接用第2次自适应的声学模型作为最终模型自适应的结果。

Claims (6)

1.一种基于多重自适应的模型补偿语音识别方法,其特征在于,包括如下内容:
(1)通过首次自适应对纯净语音声学模型的参数进行变换,得到与实际测试环境较为匹配的含噪语音声学模型;
(2)将首次自适应得到的含噪语音声学模型作为新的基环境声学模型,构建其对应的含噪语音与实际环境含噪测试语音之间的变换关系,对基环境声学模型再次进行模型自适应;
(3)由于两种含噪语音在线性谱域存在正、负两种可能的偏差,因此在第2次自适应及后续的每次自适应中,通过正向自适应和负向自适应各自得到一组含噪语音声学模型及其输出似然值;
(4)对正向自适应和负向自适应的输出似然值进行比较,选取输出似然值较大的含噪语音声学模型作为该次模型自适应的结果;
(5)进行后续自适应,在后续自适应中重复第2次自适应的过程。
2.如权利要求1所述的基于多重自适应的模型补偿语音识别方法,其特征在于,后续自适应的次数为1到2次。
3.如权利要求1所述的基于多重自适应的模型补偿语音识别方法,其特征在于,首次自适应中用矢量泰勒级数逼近含噪测试语音与纯净训练语音之间的非线性变换关系,从含噪测试语音中估计噪声参数,对预先训练的纯净语音声学模型的参数进行变换,得到与实际测试环境较为匹配的含噪语音声学模型。
4.如权利要求1所述的基于多重自适应的模型补偿语音识别方法,其特征在于,第2次自适应:将首次自适应得到的自适应声学模型作为新的基环境声学模型,用噪声偏差构建其与测试环境理想声学模型之间的变换关系,再次进行模型自适应;由于实际含噪测试语音与基环境声学模型对应的含噪测试语音在线性谱域的偏差存在正负两种情况,因此第2次自适应及后续的每次自适应都需要通过正向和负向两次自适应来实现;
正向自适应:在正向自适应中,假设实际含噪测试语音的线性谱特征与基环境声学模型对应的含噪语音的线性谱特征之间的差值为正值,构建两种含噪环境之间的变换关系,调整基环境声学模型的参数,得到含噪语音声学模型及似然值;
负向自适应:在负向自适应中,假设实际含噪测试语音的线性谱特征与基环境声学模型对应的含噪语音的线性谱特征之间的差值为负值,构建两种含噪环境之间的变换关系,调整基环境声学模型的参数,得到含噪语音声学模型及似然值;
似然值比较:正向自适应和负向自适应得到的声学模型中只有一个是正确的结果,取输出似然值较大的含噪语音声学模型作为模型自适应的结果。
5.如权利要求1所述的基于多重自适应的模型补偿语音识别方法,其特征在于,设语音识别系统以HMM为每个基本语音单元的声学模型,以MFCC为特征参数。对第k个HMM的第i个状态的第m个高斯单元,含噪语音的均值向量μy,kim和协方差矩阵可以分别表示为:
μ y , k i m = U k i m μ n - U k i m μ n 0 + C l o g ( exp ( C - 1 μ x , k i m ) + exp ( C - 1 μ n 0 ) ) - - - ( 1 )
Σ y , k i m = ( I - U k i m ) Σ x , k i m ( I - U k i m ) T + U k i m Σ n U k i m T - - - ( 2 )
其中,分别表示纯净语音的均值向量和协方差矩阵;μn、μn0和Σn分别表示加性噪声的均值向量、初始均值向量和协方差矩阵;C和C-1分别表示离散余弦变换矩阵及其逆矩阵;I表示单位矩阵;Ukim由下式给出:
U k i m = C d i a g ( exp ( C - 1 μ n 0 ) exp ( C - 1 μ x , k i m ) + exp ( C - 1 μ n 0 ) ) C - 1 - - - ( 3 )
式(3)中diag()表示以括号中向量的元素为对角元素生成对角矩阵;
噪声均值μn的估计公式为:
μ n = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ y , k i m - 1 U k i m ] - 1
[ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ y , k i m - 1 ( y t - C log ( exp ( C - 1 μ x , k i m ) + exp ( C - 1 μ n 0 ) ) + U k i m μ n 0 ) ] - - - ( 4 )
其中,γkim(t)=P(θt=i,δt=m|Y,λk),表示给定观测向量序列Y={y1,…,yt,…,yT}和第k个HMM的先验参数集λk的条件下,第t帧向量属于该HMM第i个状态的第m个高斯单元的后验概率。
噪声方差Σn的估计公式为:
σ n = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( U k i m · * U k i m ) ] - 1
[ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( ( y t - μ y , k i m ) · * ( y t - μ y , k i m ) - ( V k i m · * V k i m ) σ x , k i m ) ] - - - ( 5 )
其中,σy,m、σx,m、σn是分别用Σy,m、Σx,m、Σn的对角元素生成的方差向量;Vm=I-Um;操作符·*表示矩阵的点乘运算,即两个相同维数的矩阵的对应元素相乘;加权因子Gkim的表达式如下:
G k i m = ( U k i m T · * U k i m T ) d i a g [ ( ( V k i m · * V k i m ) σ x , k i m + ( U k i m · * U k i m ) σ n 0 ) - 2 ] - - - ( 6 ) .
6.如权利要求5所述的基于多重自适应的模型补偿语音识别方法,其特征在于,
用yt表示首次自适应后的含噪语音声学模型对应的特征向量,用ot表示理想声学模型对应的特征向量,yt和ot都是含噪语音特征向量,它们的关系可以表示为:
ot=Clog(exp(C-1yt)±exp(C-1bt))(7)
其中,bt是两种含噪语音在线性谱域的偏差所对应的倒谱特征;由式(7)包含两种不同的变换关系,因此就需要正向和负向两种自适应来实现;在正向自适应中,变换关系为:
ot=Clog(exp(C-1yt)+exp(C-1bt))(8)
正向自适应的变换方法与首次自适应基本相同,其参数变换公式为:
μ o , k i m = U k i m μ b - U k i m μ b 0 + C l o g ( exp ( C - 1 μ y , k i m ) + exp ( C - 1 μ b 0 ) ) - - - ( 9 )
Σ o , k i m = ( I - U k i m ) Σ y , k i m ( I - U k i m ) T + U k i m Σ b U k i m T - - - ( 10 )
其中,分别表示ot的均值向量和协方差矩阵;μb、μb0和Σb分别表示偏差bt的均值向量、初始均值向量和协方差矩阵;在计算Ukim时,式(3)中的μx,kim和μn0需分别替换为μy,kim和μb0
变换参数μb和Σb的估计公式为:
μ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 U k i m ] - 1
[ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 ( o t - C log ( exp ( C - 1 μ y , k i m ) + exp ( C - 1 μ b 0 ) ) + U k i m μ b 0 ) ] - - - ( 11 )
σ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( U k i m · * U k i m ) ] - 1
[ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( ( o t - μ o , k i m ) · * ( o t - μ o , k i m ) - ( V k i m · * V k i m ) σ y , k i m ) ] - - - ( 12 )
在计算Gkim时,式(6)中的σx,kim和σn0需分别替换为σy,kim和σb0
在负向自适应中,变换关系为:
ot=Clog(exp(C-1yt)-exp(C-1bt))(13)
将式(13)中的变量省略下标t,并在定点(μyb0)处用一阶矢量泰勒级数(VTS:VectorTaylorSeries)展开,可以得到如下的线性近似式:
o=(I-U)(x-μy)+U(b-μb0)+Clog(exp(C-1μy)-exp(C-1μb0))(14)
其中U由下式决定:
U = C d i a g ( - exp ( C - 1 μ b 0 ) exp ( C - 1 μ y ) - exp ( C - 1 μ b 0 ) ) C - 1 - - - ( 15 )
对式(14)分别取均值和方差,即可得到两种模型的参数变换公式:
μo=Uμb-Uμb0+Clog(exp(C-1μy)-exp(C-1μb0))(16)
Σo=(I-U)Σy(I-U)T+UΣbUT(17)
对第k个HMM的第i个状态的第m个高斯单元,式(16)和(17)可以分别表示为:
μo,kim=Ukimμb-Ukimμb0+Clog(exp(C-1μy,kim)-exp(C-1μb0))(18)
σo,kim=((I-Ukim)·*(I-Ukim))σy,kim+(Ukim·*Ukimb(19)
其中,σo,kim、σy,kim、σb分别是用Σo,kim、Σy,kim、Σb的对角元素生成的方差向量;Ukim由式(15)决定;
将式(18)和(19)分别代入EM算法的辅助函数,并分别令辅助函数关于μb和σb的导数等于0,即可得到μb和σb的估计公式:
μ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 U k i m ] - 1
[ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) U k i m T Σ o , k i m - 1 ( o t - C log ( exp ( C - 1 μ y , k i m ) + exp ( C - 1 μ b 0 ) ) + U k i m μ b 0 ) ] - - - ( 20 )
σ b = [ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( U k i m · * U k i m ) ] - 1
[ Σ k = 1 K Σ i = 1 N Σ m = 1 M Σ t = 1 T γ k i m ( t ) G k i m ( ( o t - μ o , k i m ) · * ( o t - μ o , k i m ) - ( ( I - U k i m ) · * ( I - U k i m ) ) σ y , k i m ) ] - - - ( 21 )
式(12)中, G k i m = ( U k i m T · * U k i m T ) d i a g [ ( ( ( I - U k i m ) · * ( I - U k i m ) ) σ y , k i m + ( U k i m · * U k i m ) σ b 0 ) - 2 ] ;
首次自适应得到的声学模型经过正向自适应和负向自适应后,各自得到一组含噪语音声学模型,通过比较两个自适应模块的似然值,选取似然值较大的含噪语音声学模型作为模型自适应的结果。
CN201510685551.0A 2015-10-20 2015-10-20 一种基于多重自适应的模型补偿语音识别方法 Expired - Fee Related CN105355198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510685551.0A CN105355198B (zh) 2015-10-20 2015-10-20 一种基于多重自适应的模型补偿语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510685551.0A CN105355198B (zh) 2015-10-20 2015-10-20 一种基于多重自适应的模型补偿语音识别方法

Publications (2)

Publication Number Publication Date
CN105355198A true CN105355198A (zh) 2016-02-24
CN105355198B CN105355198B (zh) 2019-03-12

Family

ID=55331161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510685551.0A Expired - Fee Related CN105355198B (zh) 2015-10-20 2015-10-20 一种基于多重自适应的模型补偿语音识别方法

Country Status (1)

Country Link
CN (1) CN105355198B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法
CN110415698A (zh) * 2018-11-15 2019-11-05 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
CN110447068A (zh) * 2017-03-24 2019-11-12 三菱电机株式会社 语音识别装置和语音识别方法
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN111354374A (zh) * 2020-03-13 2020-06-30 北京声智科技有限公司 语音处理方法、模型训练方法及电子设备
WO2021217750A1 (zh) * 2020-04-30 2021-11-04 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及系统、电子设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0862160A2 (de) * 1997-02-28 1998-09-02 Philips Patentverwaltung GmbH Verfahren zur Spracherkennung mit Sprachmodellanpassung
EP1113419A1 (en) * 1999-12-28 2001-07-04 Sony Corporation Model adaptive apparatus and model adaptive method, recording medium, and pattern recognition apparatus
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN101443732A (zh) * 2006-05-12 2009-05-27 皇家飞利浦电子股份有限公司 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN104392719A (zh) * 2014-11-26 2015-03-04 河海大学 一种用于语音识别系统的中心子带模型自适应方法
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0862160A2 (de) * 1997-02-28 1998-09-02 Philips Patentverwaltung GmbH Verfahren zur Spracherkennung mit Sprachmodellanpassung
EP1113419A1 (en) * 1999-12-28 2001-07-04 Sony Corporation Model adaptive apparatus and model adaptive method, recording medium, and pattern recognition apparatus
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN101443732A (zh) * 2006-05-12 2009-05-27 皇家飞利浦电子股份有限公司 用于从第一自适应数据处理版本转换至第二自适应数据处理版本的方法
CN102945670A (zh) * 2012-11-26 2013-02-27 河海大学 一种用于语音识别系统的多环境特征补偿方法
CN103000174A (zh) * 2012-11-26 2013-03-27 河海大学 语音识别系统中基于快速噪声估计的特征补偿方法
CN103258533A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 远距离语音识别中的模型域补偿新方法
CN104392719A (zh) * 2014-11-26 2015-03-04 河海大学 一种用于语音识别系统的中心子带模型自适应方法
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LV YONG: ""Model Adaptation based on improved variance estimation for robust speech recognition"", 《2012 INTERNATIONAL CONFERENCE ON WIRELE COMMUNICATIONS AND SIGNAL PROCESSING》 *
YONG LV: ""Robust Speech Recognition Using Improved Vector Taylor Series Algorithm for Embedded Systems"", 《IEEE TRANSACTION ON CONSUMER ELECTRONICS》 *
吕勇: ""基于矢量泰勒级数的模型自适应算法"", 《电子与信息学报》 *
吕勇: "《鲁棒语音识别中的特征补偿与模型自适应算法研究》", 《万方学位论文数据库》 *
吴镇扬: "《基于矢量泰勒级数的鲁棒语音识别》", 《天津大学学报》 *
陈丽萍: ""鲁棒语音识别中的模型自适应算法研究与实现"", 《万方学位论文数据库》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110447068A (zh) * 2017-03-24 2019-11-12 三菱电机株式会社 语音识别装置和语音识别方法
CN107910008A (zh) * 2017-11-13 2018-04-13 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN107910008B (zh) * 2017-11-13 2021-06-11 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN110556097B (zh) * 2018-06-01 2023-10-13 声音猎手公司 定制声学模型
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法
CN110415698A (zh) * 2018-11-15 2019-11-05 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
CN111354374A (zh) * 2020-03-13 2020-06-30 北京声智科技有限公司 语音处理方法、模型训练方法及电子设备
WO2021217750A1 (zh) * 2020-04-30 2021-11-04 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及系统、电子设备及介质

Also Published As

Publication number Publication date
CN105355198B (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN105355198A (zh) 一种基于多重自适应的模型补偿语音识别方法
KR101975057B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법
CN103000174B (zh) 语音识别系统中基于快速噪声估计的特征补偿方法
CN104392718A (zh) 一种基于声学模型阵列的鲁棒语音识别方法
van Dalen et al. Extended VTS for noise-robust speech recognition
CN101853661B (zh) 基于非监督学习的噪声谱估计与语音活动度检测方法
CN102945670A (zh) 一种用于语音识别系统的多环境特征补偿方法
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
Frey et al. Algonquin-learning dynamic noise models from noisy speech for robust speech recognition
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
Shi et al. Fusion feature extraction based on auditory and energy for noise-robust speech recognition
CN104392719B (zh) 一种用于语音识别系统的中心子带模型自适应方法
Li et al. HMM adaptation using a phase-sensitive acoustic distortion model for environment-robust speech recognition
Zhao et al. On noise estimation for robust speech recognition using vector Taylor series
Li et al. Unscented transform with online distortion estimation for HMM adaptation
Suzuki et al. MFCC enhancement using joint corrupted and noise feature space for highly non-stationary noise environments
Sim et al. A trajectory-based parallel model combination with a unified static and dynamic parameter compensation for noisy speech recognition
Frankle et al. Robust speaker identification under noisy conditions using feature compensation and signal to noise ratio estimation
Du et al. HMM-based pseudo-clean speech synthesis for splice algorithm
Xiao et al. Lasso environment model combination for robust speech recognition
Fujimoto et al. Study of integration of statistical model-based voice activity detection and noise suppression.
Loweimi et al. Channel Compensation in the Generalised Vector Taylor Series Approach to Robust ASR.
Panda A fast approach to psychoacoustic model compensation for robust speaker recognition in additive noise.
Shilin et al. An investigation of temporally varying weight regression for noise robust speech recognition
Zhou et al. VTS feature compensation based on two-layer GMM structure for robust speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190312

Termination date: 20211020