CN1588536A - 语音识别中状态结构调整方法 - Google Patents
语音识别中状态结构调整方法 Download PDFInfo
- Publication number
- CN1588536A CN1588536A CNA2004100667929A CN200410066792A CN1588536A CN 1588536 A CN1588536 A CN 1588536A CN A2004100667929 A CNA2004100667929 A CN A2004100667929A CN 200410066792 A CN200410066792 A CN 200410066792A CN 1588536 A CN1588536 A CN 1588536A
- Authority
- CN
- China
- Prior art keywords
- voice
- self
- model
- state
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种语音识别领域的语音识别中状态结构调整方法,具体步骤如下:建立大词汇量连续语音识别系统:语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39;状态结构调整:包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;说话人自适应:采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。本发明提高了模型对样本的后验概率,增强对自适应语料的利用率,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。
Description
技术领域
本发明涉及一种语音识别领域的状态结构调整算法,具体是一种语音识别中状态结构调整方法。
背景技术
九十年代以来,基于连续概率HMM的非特定人(SI)、大词汇量连续语音识别(LVCSR)获得了很大的进展,为建立更精确的模型,LVCSR系统一般都采用上下文相关的三音子模型,利用基于声学决策树的状态共享策略进一步改善模型的性能。同时,在SI系统中,不同说话人的特性差异会带来系统性能的降低,这使得说话人自适应技术成为SI系统走向实用化的关键。常用的自适应方法包括贝叶斯(MAP)方法和最大似然线性回归(MLLR)方法,都是基于自适应语料对模型的参数做变换,没有考虑对决策树的结构做自适应。决策树中状态之间的合并或分裂是基于训练语料中似然值的变化和采样数据量进行的,得到的决策树的结构并不能有效地反映测试语料的特征,尤其是当训练语料与自适应语料的特征差别比较大时,这种结构的偏差直接会导致系统性能的降低。
为了解决训练语料决策树与测试语料决策树结构不匹配造成的识别率的降低,必须对训练语料决策树的结构做调整,由于直接调整训练语料决策树结构后,又会使得决策树结构与训练语料的不一致,造成模型精度下降。
经文献检索发现,A.Nakamura在国际声学、语音及信号处理会议(《ICASSP》,vol.1,pp.649-652,1998)中发表的“一种在非特定人声学建模中调整高斯混合函数结构的方法”(Restructuring Gaussian mixture density functions in speakerindependent acoustic models)中提出调整高斯混合分布函数方法,在该方案中,对于给定语音X,t时刻的观察矢量ot,对应的实际高斯函数为ft a(μ,δ2),属于状态sa,而通过维特比(Viterbi)解码算法得到的识别的高斯函数为ft b(μ,δ2),属于状态sb;sa与sb共享高斯函数ft b(μ,δ2),从而调整sa中高斯混合的分布函数。调整后的状态包含不同数量的高斯函数,某个高斯函数可被多个状态共享。然而该方法的训练过程比较随机,而且这是基于训练语料,在一定程度上不能反映测试语音的信息。
发明内容
本发明针对现有技术中存在的上述不足和缺陷,提供一种语音识别中状态结构调整方法,使其提高模型对样本的后验概率,增强对自适应语料的利用率,并增加状态内参数量,扩大模型的描述力,对系统总参数量的增加有限,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。
本发明是通过以下技术方案实现的,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下:
(1)建立大词汇量连续语音识别系统:语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别。提取训练语音每句话的特征,根据句子内容利用HTK(HMMToolKit)工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了不同音节间左右声韵母的情况,不同的语境对应不同的三音子模型;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布。
(2)状态结构调整:包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整。自适应语音和测试语音来自同一个测试者,基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现。因此,分析基线系统识别自适应语音出时出现的错误,对状态结构进行适当的调整不仅可以提高对自适应语料的利用率,还可以提高模型的后验概率。另一方面,仅利用自适应语料对状态结构调整,状态调整的范围有限;训练语料来自大量的说话人,发音具有一定的代表性。因此假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而可以利用训练语料对剩余状态的结构进行调整。
(3)说话人自适应:采用最大似然线性回归算法(MLLR),利用自适应语料对调整后的模型做自适应,目的是进一步补偿状态调整后的模型与测试语音之间的不匹配。
以下对本发明作进一步的说明,具体内容如下:
1、所述的利用自适应语音对模型状态结构调整,具体步骤是:
设HMMs的状态集为Ω;自适应样本X={X1,...,Xi,...}对应的状态集为Φ。每个样本Xi对应的特征矢量为Oi=(o1,...,ot,...,oT)、状态集为Φi(ΦiΦ)。根据样本Xi的声学模型,利用帧同步Viterbi算法得到矢量Oi对应于Φi的状态序列Ξ=(si,...,st,...,sT),称Ξ为实际的状态序列;同样地根据Viterbi识别算法得到Oi对应于状态集Ω的状态序列Ψ=(r1,...,rt,...,rT),称Ψ为识别的状态序列。比较这两组状态序列,得到对应于同一矢量ot的两个状态st和rt,若st≠rt,称rt为st的混淆状态,定义两者的混淆度(confusion):
因为状态st被误识成rt,所以当st≠rt,忽略语言模型和状态音转移概率,有P(ot|rt)>P(ot|st),即
从定义(1)可以看出,Cst|rt越大,说明实际状态st被识别成rt的可能性越大。因此,如果把状态rt的混合高斯以加权的形式与状态st共享,改变状态st的结构,则概率P(ot|st)会增大,从而可以降低系统的误识率,提高模型对观察矢量ot的后验概率。
设状态s∈Φ,对应于自适应样本的观察特征矢量Os;Rs为识别Os得到的状态集(RsΩ),称Rs为s的相近状态集。利用状态r(r∈Rs),对s结构进行调整,调整后的高斯混合函数为
式(2)中,取w0=1-D,D为常数;权值ws|r和概率函数P(·|r)的计算公式分别为
(4)式中L为状态调整前的高斯混合数,μr,l、∑r,l和mr,l分别为多元高斯函数N(·|μr,l,∑r,l)的均值矢量、对角协方差矩阵和权值。因此,结构调整后的状态存在两层权值:状态内权值mr,l和状态间权值Ws|r,满足
·状态内权值:
·状态间权值:
其中Rs′=Rs∪s.
2、所述的利用训练语音对模型状态结构调整,具体步骤是:
设调整前的状态为
s,对数似然值为
调整后似然值的增加:ΔL(Os)=L(Os)-L(Os)′,状态集Φ对应的平均似然值增加为: ΔL将作为阈值在基于训练语音的状态结构调整中使用。
定义状态集Ψ(Ψ=Ω-Φ),利用训练语料对模型状态结构做进一步调整,具体步骤是:
1)对训练样本Yi(Yi∈Y)和对应的特征矢量Oi,采用Viterbi解码算法识别后得到识别状态序列{η}i;根据Yi对应的声学模型,采用Viterbi帧同步对观察序列分段,得到对应于特征矢量Oi的实际状态序列{γ}i。
2)重复步骤1),完成对所有训练样本Y的操作,得到两类状态序列{η}({η}i{η})和{γ}({γ}i{γ})。
3)比较{η}和{γ},确定状态s(s∈{γ})的相近状态集Rs(Rs{η});计算状态r∈Rs与状态s的混淆度Cs|r。根据混淆度的大小,将状态集Rs的元素由大到小排列,并设状态集Rs的大小为Is。
4)对状态s的调整:取前i(0<i<Is)个状态对s进行调整,计算似然值的增加ΔLs。如果ΔLs<ΔL,取i=i+1,直到ΔLs>ΔL;如果当i=Is时,仍有ΔLs<ΔL,则不对状态s做调整。
5)重复步骤3)~4)直至完成对Ψ中每个状态的结构调整。
对增加的状态间权值ws|r重估,使用的目标函数是:
在求目标函数最大时的权值ws|r时,采用期望最大(EM)算法,辅助函数为:
在
条件下,上式对ws|r求导,得
这里
为观察o(o∈Os)属于状态r中第k个混合高斯的概率。
ws|r就是对ws|r的更新值。
利用MLLR算法对状态调整后的模型做自适应时,考虑到自适应语料的有限性,只对模型的均值做自适应,其余参数保持不变;MLLR算法中的平移矩阵采用对角平移矩阵,而且在不同目标均值之间共享平移矩阵。对角平移矩阵的估计是利用共享目标分布对应的所有自适应数据,共享的程度和范围根据自适应数据的多少和语音学分类进行调整。
本发明易混淆的状态间高斯混合函数共享,因为训练语音与测试语音决策树结构不匹配造成的识别误差,可以从识别自适应语音时出现的状态混淆中体现出来。例如,用女声模型识别男声语音,当状态A被识别成状态B(B≠A)时,其中大多数情况是A和B属于同一个决策树,有些情况是在男声决策树中A和B恰恰属于同一个叶节点。因此,本发明首先采用自适应语音对状态结构调整的方法,然后在此基础上再利用训练语音扩大状态调整的范围。
本发明提高了模型对样本的后验概率,增强对自适应语料的利用率,并增加状态内参数量,扩大模型的描述力,对系统总参数量的增加有限,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。需要说明的是本发明的保护范围不受建模单元大小以及数量的限制,也不受模型类型的限制,其方法适用于任何其它连续语音识别系统。
附图说明
图1:状态结构调整及说话人自适应
图2:基于训练语料的状态结构调整
图3:状态结构调整系统性能比较
图4:状态结构调整系统说话人自适应性能比较
具体实施方式
结合本发明方法的内容提供以下实施例对其进行进一步的理解。
实施例:
为更好地理解本发明的技术方案,采用连续语音数据库做实验进一步说明。基线系统F 863的训练集包括F_Tr包含68个女声录音,每人约530句话,共36210句;语音采用16KHz采样率、16位采样、帧长25ms、帧移为10ms。提取39维语音特征矢量,包括12维MFCC、1维归一化能量,以及它们的一阶、二阶差分。声学模型选择声母和带调韵母作为基本的建模单元,每个建模单元都用连续密度的HMM来表示,在本发明中,基本建模单元见表1(韵母后的数字代表声调,数字5代表轻声),包括声母27个,其中ga、ge、ger、go分别为单音节a、e、er、o的假定声母;带调韵母157个,其中ib表示在音节chi、ri、shi和zhi中的韵母,if代表在音节ci、si和zi中使用的韵母。加一个静音(silence)HMM模型,共训练185个单音子模型,模型的训练方法同一般语音识别过程。当训练模型由单音子扩展到三音子后,基于声学决策树,对三音子模型做状态聚类,聚类后的状态分布由单个高斯逐渐扩展到8个混合高斯,系统在识别过程中没有应用语言模型,实验仅仅是声学层上的结果。
表1声学模型中的声母和带调韵母
声母(initial) | b,c,ch,d,f,g,ga,ge,ger,go,h,j,k,l,m,n,p,q,r,s,sh,t,w,x,y,z,zh |
带调韵母(tonal final) | a(1-5),ai(1-4),an(1-4),ang(1-5),ao(1-4),e(1-5),ei(1-4),en(1-5),eng(1-4),er(2-4),i(1-5),ia(1-4),ib(1-4),ian(1-5),iang(1-4),iao(1-4),ie(1-4),if(1-4),in(1-4),ing(1-4),iong(1-3),iu(1-5),o(1-5),ong(1-4),ou(1-5),u(1-5),ua(1-4),uai(1-4),uan(1-4),uang(1-4),ui(1-4),un(1-4),uo(1-5),v(1-4),van(1-4),ve(1-4),vn(1-4) |
男声测试语料M_Te来自14个人,每人40句话;男声自适应语料M_Ad来自同样的14个测试者,每人40句话,其中测试语音与自适应语音之间是独立的。利用M_Ad对F_863做状态结构调整后的模型记为R1_F,在R1_F的基础上利用F_Tr做进一步调整后的模型记为R2_F,随自适应语句数量的变化,系统性能的比较如图3所示。从图3可以看出,R1_F和R2_F都获得了比F_863一致提高的识别率。当自适应语料较少时,例如只有1、3句时,R1_F中结构调整过的状态数量有限,其性能的提高也是有限的;而利用训练语料对剩余状态调整过的R2_F的性能却有明显提高,从而说明在利用训练语料对状态结构调整时做的假设是成立的。随着自适应语句的增加,R1_F与R2_F性能开始接近,当自适应语料足够多时,R1_F与R2_F将会保持一致。
对以上F_863、R1_F和R2_F三个系统利用男声自适应语音做MLLR说话人自适应,F_863/MLLR、F_R1/MLLR和F_R2/MLLR的识别率随自适应句子数的变化情况如图4所示。参数量多的系统做MLLR自适应后识别率会有显著提高,相比F_863系统,状态调整后的F_R1和F_R2系统不仅大大增加了状态内的参数量,而且从调整状态结构的角度间接地对决策树结构进行了调整,减少了决策树结构与测试语音不匹配对说话人自适应的影响,因此F_R1/MLLR,F_R2/MLLR的识别性能明显高于F_863/MLLR,从而证明了状态调整算法有利于提高系统的性能。
Claims (2)
1、一种语音识别中状态结构调整方法,其特征在于,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下:
(1)建立大词汇量连续语音识别系统:语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别,提取训练语音每句话的特征,根据句子内容利用HTK工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了音节间左右声韵母的情况,语境与三音子模型相对应;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布;
(2)状态结构调整:包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,自适应语音和测试语音来自同一个测试者,基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现,因此,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;
(3)说话人自适应:采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。
2、根据权利要求1所述的语音识别中状态结构调整方法,其特征是,所述的最大似然线性回归算法对状态调整后的模型做自适应时,考虑到自适应语料的有限性,只对模型的均值做自适应,最大似然线性回归算法中的平移矩阵采用对角平移矩阵,而且在两个以上的目标均值之间共享平移矩阵,对角平移矩阵的估计是利用共享目标分布对应的所有自适应数据,共享的程度和范围根据自适应数据的多少和语音学分类进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100667929A CN1295676C (zh) | 2004-09-29 | 2004-09-29 | 一种语音识别中的状态结构调整方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100667929A CN1295676C (zh) | 2004-09-29 | 2004-09-29 | 一种语音识别中的状态结构调整方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1588536A true CN1588536A (zh) | 2005-03-02 |
CN1295676C CN1295676C (zh) | 2007-01-17 |
Family
ID=34604094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100667929A Expired - Fee Related CN1295676C (zh) | 2004-09-29 | 2004-09-29 | 一种语音识别中的状态结构调整方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1295676C (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315733B (zh) * | 2008-07-17 | 2010-06-02 | 安徽科大讯飞信息科技股份有限公司 | 一种针对计算机语言学习系统发音评测的自适应方法 |
CN101604522B (zh) * | 2009-07-16 | 2011-09-28 | 北京森博克智能科技有限公司 | 非特定人的嵌入式中英文混合语音识别方法及系统 |
CN102237082A (zh) * | 2010-05-05 | 2011-11-09 | 三星电子株式会社 | 语音识别系统的自适应方法 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN104157294A (zh) * | 2014-08-27 | 2014-11-19 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
CN106898355A (zh) * | 2017-01-17 | 2017-06-27 | 清华大学 | 一种基于二次建模的说话人识别方法 |
CN110428819A (zh) * | 2019-05-21 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 解码网络生成方法、语音识别方法、装置、设备及介质 |
CN112927716A (zh) * | 2021-01-22 | 2021-06-08 | 华东交通大学 | 一种基于改进mfcc的工地特种车辆识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
CN1141697C (zh) * | 2000-09-27 | 2004-03-10 | 中国科学院自动化研究所 | 一种带调三音子模型及训练方法 |
CN1499481A (zh) * | 2002-10-24 | 2004-05-26 | 杜和平 | 鄂温克琴 |
-
2004
- 2004-09-29 CN CNB2004100667929A patent/CN1295676C/zh not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315733B (zh) * | 2008-07-17 | 2010-06-02 | 安徽科大讯飞信息科技股份有限公司 | 一种针对计算机语言学习系统发音评测的自适应方法 |
CN101604522B (zh) * | 2009-07-16 | 2011-09-28 | 北京森博克智能科技有限公司 | 非特定人的嵌入式中英文混合语音识别方法及系统 |
CN102237082B (zh) * | 2010-05-05 | 2015-04-01 | 三星电子株式会社 | 语音识别系统的自适应方法 |
CN102237082A (zh) * | 2010-05-05 | 2011-11-09 | 三星电子株式会社 | 语音识别系统的自适应方法 |
CN103117060B (zh) * | 2013-01-18 | 2015-10-28 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN104157294A (zh) * | 2014-08-27 | 2014-11-19 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
CN104157294B (zh) * | 2014-08-27 | 2017-08-11 | 中国农业科学院农业信息研究所 | 一种农产品市场要素信息采集的鲁棒性语音识别方法 |
CN106898355A (zh) * | 2017-01-17 | 2017-06-27 | 清华大学 | 一种基于二次建模的说话人识别方法 |
CN106898355B (zh) * | 2017-01-17 | 2020-04-14 | 北京华控智加科技有限公司 | 一种基于二次建模的说话人识别方法 |
CN110428819A (zh) * | 2019-05-21 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 解码网络生成方法、语音识别方法、装置、设备及介质 |
CN110428819B (zh) * | 2019-05-21 | 2020-11-24 | 腾讯科技(深圳)有限公司 | 解码网络生成方法、语音识别方法、装置、设备及介质 |
CN112927716A (zh) * | 2021-01-22 | 2021-06-08 | 华东交通大学 | 一种基于改进mfcc的工地特种车辆识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1295676C (zh) | 2007-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Maurya et al. | Speaker recognition for Hindi speech signal using MFCC-GMM approach | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
Chengalvarayan | Robust energy normalization using speech/nonspeech discriminator for German connected digit recognition. | |
Ting et al. | Combining MFCC and pitch to enhance the performance of the gender recognition | |
CN1295676C (zh) | 一种语音识别中的状态结构调整方法 | |
He et al. | Minimum classification error linear regression for acoustic model adaptation of continuous density HMMs | |
Sarikaya et al. | Analysis of the root-cepstrum for acoustic modeling and fast decoding in speech recognition. | |
Shahnawazuddin et al. | Enhancing the recognition of children's speech on acoustically mismatched ASR system | |
Zhang et al. | Improved context-dependent acoustic modeling for continuous Chinese speech recognition | |
Dusan | Estimation of speaker's height and vocal tract length from speech signal. | |
Gutman et al. | Speaker verification using phoneme-adapted gaussian mixture models | |
Dey et al. | Content normalization for text-dependent speaker verification | |
Konno et al. | Speech recognition with large-scale speaker-class-based acoustic modeling | |
Deshpande et al. | Text-independent speaker identification using hidden Markov models | |
Zhang et al. | A tree-structured clustering method integrating noise and SNR for piecewise linear-transformation-based noise adaptation | |
Antal | Phonetic speaker recognition | |
Morris et al. | GMM based clustering and speaker separability in the Timit speech database | |
Psutka et al. | Comparison of various feature decorrelation techniques in automatic speech recognition | |
Watanabe et al. | GE2E-AC: Generalized End-to-End Loss Training for Accent Classification | |
Fernando et al. | Advances in Feature Extraction and Modelling for Short Duration Language Identification | |
Zhu et al. | A maximum likelihood approach to unsupervised online adaptation of stochastic vector mapping function for robust speech recognition | |
Bocchieri et al. | Methods for task adaptation of acoustic models with limited transcribed in-domain data. | |
Ariff et al. | Malay speaker recognition system based on discrete HMM | |
Wada et al. | Investigations of features and estimators for speech-based age estimation | |
Kanokphara et al. | Comparative study: HMM and SVM for automatic articulatory feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070117 Termination date: 20091029 |