CN1157711C - 自适应语音识别器的生成装置及方法 - Google Patents
自适应语音识别器的生成装置及方法 Download PDFInfo
- Publication number
- CN1157711C CN1157711C CNB99805299XA CN99805299A CN1157711C CN 1157711 C CN1157711 C CN 1157711C CN B99805299X A CNB99805299X A CN B99805299XA CN 99805299 A CN99805299 A CN 99805299A CN 1157711 C CN1157711 C CN 1157711C
- Authority
- CN
- China
- Prior art keywords
- teller
- acoustic model
- adaptive
- maker
- sound data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006978 adaptation Effects 0.000 title description 9
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000009499 grossing Methods 0.000 claims abstract description 23
- 230000003044 adaptive effect Effects 0.000 claims description 51
- 238000007476 Maximum Likelihood Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 13
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 42
- 238000012545 processing Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 9
- 239000000203 mixture Substances 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- RLLPVAHGXHCWKJ-UHFFFAOYSA-N permethrin Chemical compound CC1(C)C(C=C(Cl)Cl)C1C(=O)OCC1=CC=CC(OC=2C=CC=CC=2)=C1 RLLPVAHGXHCWKJ-UHFFFAOYSA-N 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
Abstract
本发明涉及用于生成自适应与讲话人无关的语音识别器的生成器和方法。自适应语音识别器的生成器基于任意基本语言的基本语音识别器。该生成器还包括用于生成所述自适应语音识别器的附加语音数据语音资料库。所述附加语音数据语音资料库包括一批特殊领域语音数据和/或特殊方言语音数据。所述生成器包括利用讲话人自适应技术重新估算语言或基本语音识别器的特殊领域声学模型参数的重新估算装置。用于生成自适应语音识别器的所述重新估算装置使用所述附加语音数据语音资料库。本发明提出用于平滑重新估算的声学模型参数的平滑装置。给出贝叶斯平滑的平滑系数的有利范围。还建议迭代该自适应处理。
Description
1本发明背景
1.1发明领域
本发明涉及语音识别系统,特别是,本发明涉及一种用于生成自适应语音识别器的生成器此外,本发明还涉及一种生成该自适应语音识别器的方法,所述方法由所述生成器执行。
1.2现有技术说明和缺陷
语音识别系统二十多年来使用Hidden Markov模型捕获声学子字单元,例如音素或子音素前后关系的统计特性。在例如L.Rabiner在1989年的IEEE学报Vol.77(2),pp.257-285上发表的题为“HiddenMarkov模型及在语音识别中的选择应用教程”,或X.Huang和Y.Ariki以及M.Jack1990年在Edinburgh的Edinburgh大学杂志的信息技术丛书中发表的题为“用于语音别识的Hidden Markov模型”中可找到对该主题的概述。
Hidden Markov模型是工作在有限状态集S={s1,...,sN}的随机自动机并允许观察每个时间t,t=1,2,...,Ta被占用的状态。它是由多元组HMM=(π,A,B)定义的,其中初始状态向量
∏=[∏i]=[P(S(1)=Si)],1≤i≤N (1)
给出HMM在t=1时占据状态Si的可能性,以及
[A]=[aij]=[P(S(t+1)=Sj|S(t)=Si)],1≤i,j≤N, (2)
给出从状态Si转换到Sj的可能性,假设第一级时间不变处理。在离散HMM的情况下,从有限字母O={o1,...,OL}得出观察结果o1,和
B=[bkl]=[p(O1|S(t)=Sk)],1≤k≤N,1≤l≤L, (3)
是给出状态Sk中观察到o1的可能性的随机矩阵。
对于当今现有技术中提供大词汇量连续语音识别系统的(半)连续HMM,该观察是(连续评估的)特征矢量C,并由该可能性密度函数定义该输出可能性
B=[bkl]=[P(C1|S(t)=Sk)],1≤k≤N,1≤l≤L, (4)
通常由Nk高斯的混合逼近该特征矢量的实际分布P(C1|Sk):
在识别器训练期间,从大量录制的语音数据估算该混合分量加权ω,平均值μ,和协方差矩阵∑。解决该问题的一种熟知过程是EM算法(例如由A.Dempster和N.Laird以及D.Rubin在1977年的皇家统计社会杂志,丛书B(方法学)的Vo1.39(1),PP.1-38中发表的“通过EM算法来自不完整数据的最大似然”一文中所说明的),通常利用正向-反向算法估算Markov模型参数∏,A,B(例如由L.Rabiner在1989年的IEEE学报Vol.77(2),pp.257-285中发表的“Hidden Markov模型及在语音识别中的选择应用教程”一文中说明的)。
L.Bahl,S.Balakrishnan-Aiyer,J.Bellegarda,M.Franz,P.Gopalakrishnan,D.Nahamoo,M.Novak,M.Padmanabhan,M.Picheny和s.Roukos在1995年底特律的有关声学、语音、和信号处理的IEEE国际会议的会刊上的pp.41-44发表的“有关ARPA华尔街日报任务的IBM大词汇连续语音识别系统的性能”,或L.Bahl,P.deSouza,P.Gopalakrishnan,D.Nahamoo和M.Picheny在1993年Minneapolis的有关声学、语音、和信号处理的IEEE国际会议的会刊上发表的“用于连续语音识别的前后相关的矢量量化”中描述了训练任意语言的语音识别器的某些细节。由于它提供了本发明的基础,下面简要概述该过程。该算法假设存在标记训练语音资料库和与讲话者无关的识别器,能够用来计算所讲的话与语音信号之间的初始校准。在按帧计算逆频特征(cepstral feature)与其第一和第二级衍生字之后,将维特比算法用于选择与该发音匹配最好的语音基本形式。在Viterbi,A.J.,于1967年的有关信息理论的IEEE论文集Vol.13,pp.260-269发表的用于卷积码的误差界和渐近优化解码算法一文中可找到维特比算法的概述。
由于声学特性矢量在不同的前后关系中表现出明显变化,识别导致特定变化的语音前后关系是很重要的。为此,根据在特性矢量中观察的变化使标记训练数据通过将前后关系分成同级别的双择判决网络(binary decision network)。使用多维高斯混合模型模拟属于由该判决网络的终端节点(叶子)表示的每一级的特性矢量。这些模型用作一组前后相关的连续参数HMM的初始观察密度,并通过运行在经过几次迭代之后收敛到局部最佳的正向-后向算法进一步精选。前后相关的HMM和高斯的总数都由上边界的规范限定并取决于训练数据的数量和内容。
估算模型参数和相关的前后关系所需的大量数据以及需要运行一些正向-后向迭代这两者使语音识别器的训练耗费很多处理时间。此外,如果讲话人的发音与识别器训练期间的那些观察不同,他们必须面对识别准确性的大幅下降。这可能是由采集的数据与任务领域之间的不匹配所引起的声学模型训练不充分造成的。这可能是大部分市场上可买到的语音识别产品(像例如IBM ViaVoice,DragonNaturally Speaking,Kurzweill)即使不强迫,至少是推荐新用户朗读大约50-250个句子的注册正文,以便重新估算与讲话人有关的模型参数的主要原因。
对于重新估算处理,在识别器训练期间采用例如象高斯混合观察的最大归纳估算这样的讲话人自适应技术(MAP自适应),例如参见J.Gauvain和C.Lee在1994年的IEEE论文集,语音和音频处理Vol.2(2),pp.291-298上发表的题为“Markov链的多元高斯观察的最大归纳估算”,或最大似然线性识别MLLR自适应),例如参见C.Leggetter和P.Woodland在1995年的计算机语音和语言Vol.9,pp.171-185上发表的“用于连续密度Hidden Markov模型的讲话人自适应的最大似然线性回归”一文。
其它努力涉及在不匹配情况下改善语音识别性能的适应方案。然而,这些方案的应用主要限制在讲话人或声道适应任务。V.Diakoloukas,V.Digalakis,L.Neumeyer和J.Kaja.在1997年4月的有关声学、语音和信号处理的IEEE国际会议会刊上发表的“使用适应方法开发特殊方言的识别器”一文调查了自动语音识别(ASR)系统中训练与测试的讲话人之间不匹配方言的影响。由于它证明了方言不匹配明显影响识别准确性。设计者使用对不同方言训练的与方言有关的系统和来自目标方言的少量训练句子开发了特殊方言的识别系统。该适应利用少量训练句子改善了识别性能。
1.3本发明的目的
为了解决以上问题,本发明的目的是减少个人最终用户训练努力和改进与讲话人无关的识别准确性。
本发明进一步的目的是改进开发新的自适应语音识别器的便易性和快捷性。
2发明概要和优点
根据本申请描述的自适应语音识别器的生成器基于一种明确但任意的基本语言的基本语音识别器201。该生成器还包括用于生成所述自适应语音识别器的附加语音数据语音资料库202。所述附加语音数据语音资料库包括一批特殊领域的语音数据和/或特殊方言语音数据。此外,所述生成器包括利用讲话人自适应技术重新估算基本语音识别器的声学模型参数的重新估算装置203。用于生成自适应语音识别器的所述重新估算装置利用所述附加语音数据语音资料库。
因此,本发明提出的技术实现了明显减少个人最终用户的训练努力,为特殊领域和方言的讲话人提高了与讲话人无关的识别准确性,和在特殊环境中为语音识别器迅速开发新数据文件。此外,还改善了非方言讲话人的识别速度。
然而,在过去,讲话人自适应技术通常应用于个人终端用户语音数据并因此生成与讲话人有关的语音识别器,在本发明中,它们应用于从一些讲话人采集特殊方言和/或领域的训练数据。这样特别是(但不仅仅是)对给定方言和领域改进了与讲话人无关的识别并减少个人终端用户按他们的需要定制识别器所需的投资。
本发明另一重要方面是减少生成特殊语音识别器的努力:而市场上可买到的其他工具包从定义子字单元和/或HMM拓扑结构开始,并因此需要量相当大的训练数据,本方案从已经训练的通用语音识别器开始。
如果在集成语音识别器中处理方言和/或特殊领域,所描述的方案提供可升级的(scalable)识别准确性。由于本发明与特殊方言和/或特殊领域完全无关,可将它们以任何可能的组合合并。
此外,附加数据量(附加语音数据语音资料库)非常适中。仅需要很少的针对特定领域或方言的附加数据,除此之外,其价格较低并且容易采集。
最后,本发明使得明显减少了该识别器预先训练所需的时间。因此,允许在特殊环境或组合环境迅速开发新数据文件。
根据所提出发明的另一个实施例,可通过不监督或监督采集所述附加语音数据语音资料库。
根据这种教导,向这种教导的使用者提供了有关如何设置附加语音数据语音资料库的完全的灵活性。
根据所提出发明的另一个实施例,所述声学模型是Hidden-Markov模型(HMM)。
因此,该教导可应用于HMM技术。
因此,可用该教导进一步改进在语音识别领域最成功的技术之一-HMM方案。
根据所提出发明的另一个实施例,所述讲话人自适应技术是最大后验自适应(MAP)或最大似然线性回归自适应(MLLR)。
这些方案还允许处理仅有少量训练数据可供使用的情况。特别是用这些讲话人自适应技术在自适应语音识别器的识别准确性和生成速度方面达到了很好的自适应结果。
根据所提出发明的该附加实施例,引入了用于任选地平滑重新估算声学模型参数的平滑装置204。
实验表明:附加平滑进一步改善了识别准确性和自适应速度。特别是在有限的训练数据的情况下,这些改进特别重要。
根据所提出发明的另一个实施例,所述平滑装置执行贝叶斯定理的平滑。充分的实验表明:平滑系数K在1至500的范围可实现良好的效果。特别建议平滑系数在20至60的范围内。
根据所提出发明的另一个实施例,建议设置用于任选迭代所述重新估算装置的运算和任选迭代所述平滑装置的运算的迭代装置205。该迭代可基于所述重新估算的特殊方言或领域的声学模型参数或基于所述基本语言声学模型参数。
该描述允许逐步生成最佳自适应语音识别器的方案。
根据所提出发明的另一个实施例,所述迭代装置使用改进的附加语音数据语音资料库和/或所述迭代装置使用新平滑系数值K。
通过该描述,可能对迭代处理有大量可选择的影响。依据所述附加语音数据语音资料库的特性,迭代处理可基于扩大的或改进的附加语音数据语音资料库。例如,改变的平滑系数允许根据训练数据的狭窄度帮助该生成处理。
根据所提出发明的另一个实施例,所述自适应语音识别器与讲话人无关。
该方案同时提供可生成已适合于特数领域和/或方言或领域和/或方言集合但仍与讲话人无关的自适应语音识别器的优点。然而,可进一步使所述自适应语音识别器人格化,以得到与讲话人有关的语音识别器。因此,同时具有专业化和灵活性。
提出使用用于确定的但任意的基本语言的基本语音识别器201生成自适应语音识别器的方法。所述方法包括提供附加语音数据语音资料库的第一步骤202。所述附加语音数据语音资料库包括一批特殊领域语音数据和/或特殊方言语音数据。此外,所述方法包括使用所述附加语音数据语音资料库利用讲话人自适应技术,重新估算所述基本语音识别器的声学模型参数的第二步骤203。
根据所提出发明的另一个实施例,所述方法包括用于平滑重新估算的声学模型参数的任选第三步骤204。
实验表明:附加平滑进一步改善了识别准确性和自适应速度。特别是在训练数据量有限的情况下,这些改进特别重要。进一步的优点参考上面通过权利要求6,7,和讨论的好处。
根据所提出发明的另一个实施例,所述方法通过提供改进的附加语音数据语音资料库迭代所述第一步骤和根据所述重新估算声学模型参数或根据所述基本声学模型参数迭代所述第二和第三步骤的任选第四步骤205。
该描述所具有的优点参考上面权利要求9讨论的好处。
根据所提出发明的另一个实施例,所述声学模型是HiddenMarkov模型(HMM)。此外,讲明所述讲话人自适应技术是最大归纳自适应(MAP)或最大似然线性回归自适应(MLLR)。另外,建议进行贝叶斯平滑。
根据所提出发明的另一个实施例,所述自适应语音识别器与讲话人无关。
与上面的权利要求11一起讨论与该描述有关的优点。
4附图的简要说明
图1是反映从与讲话人无关的基本语言的语音识别器具体生成与讲话人有关的语音识别器的现有技术自适应处理的整体结构的示意图。
图2是反映根据本发明从与讲话人无关的基本语言语音识别器具体生成改进的与讲话人无关的语音识别器的自适应处理的整体结构的示意图。所述改进的与讲话人无关的语音识别器可以是定制生成改进的与讲话人有关的语音识别器的基础。
图3给出基线识别器(VV)、标准训练过程(VV-S)、和scalascefastboot方法(VV-G)对讲德语的测试者归一到基线识别器(VV)的误差率的误差率比较结果。
在整个说明书中的教导不限于特定语言、特定方言或特定使用领域。如果提到特定语言、特定方言或特定领域,应将其解释为仅是一个例子,而不是限定本发明的范围。
此外,如果该说明书中引用了一种方言/领域,可将此解释为特殊的方言/领域或方言/领域的组合。
4.1介绍
对于给定语言,例如Hidden Markov模型的基本语音识别器的训练需要采集大量用于检测相关的语音前后关系的一般语音数据和适当的估算声学模型参数。然而,如果讲话人的发音与训练语音资料库中给出的那些明显不同,可观察到识别准确性明显降低。因此,市场上能买到的语音识别器通过实施图1描绘的人格化的处理将声学参数的估算部分地施加到个人终端用户。
以与讲话人无关并且不是任何专业领域的基本语言的语音识别器101开始。个人用户必须阅读另外输入到重新估算处理102的预定义的注册正本103。在该重新估算处理中,利用根据现有技术可使用的讲话人自适应技术自适应该基础声学模型的参数。该生成处理的结果从与讲话人有关的语音识别器输出。
本发明描述了一种利用改进的识别准确性训练语音识别器的快速自举(即预先)过程;即,本发明根据基本语言的一般语音识别器提出了一种用于附加自适应的与讲话人无关的语音识别的生成处理。
根据本发明的描述,通过语言方言的显式建模和在建模处理中正交地积累特殊领域的训练数据可明显改善识别系统的准确性和速度。本发明的架构允许沿这两个方向改善识别系统。本发明利用了对于特殊方言,例如奥地利的德语或加拿大的法语,其语音的前后关系在基本语言(分别是德语或法语)中相似,而其声学模型参数因不同的发音而明显不同这一事实。同样,通过把本发明应用到来自目标领域的有限量的声学数据可更准确地估算未对特殊领域很好训练的声学模型(例如,基本领域:办公函件,特殊领域:放射学)。
通过大量终端用户对其进行方言和/或特殊领域的预先训练,可极大提高该识别系统的性能,并减小按其需要定制识别器的投资。
根据本发明,还能够减少对Hidden Markov模型参数的计算的训练过程。此外,能够使用贝叶斯平滑技术,以便更好地利用少量的方言或特殊领域训练数据,并对基本语音(或领域)中的特殊方言实现可升级的识别准确性。
因此,根据这些技术,本发明实现了减少个人终端用户的训练努力,对特殊领域和方言的讲话人改善了与讲话人无关的识别准确性,和在特殊环境中为语音识别器迅速开发新数据文件。
4.2技术方案
本发明(在剩余部分中称为快速引导(fastboot))采用讲话人自适应技术的结果,例如高斯混合观察(MAP自适应)的最大后验估算或最大似然线性回归(MLLR自适应),在识别准确性方面,对方言讲话人比对使用识别器训练期间观察的发音的讲话人产生了明显大得多的改善。根据该描述,该方案不仅对方言讲话人产生了改善的与讲话人无关的识别准确性。这些技术把HMM的输出可能性B移到了讲话人特定的声学空间,因此它可以达到:
o由HMM的输出可能性捕获方言与基本语言之间的主要区别,
o基本语言的训练参数已经通过正向-反向算法为特殊方言的重新估算提供了良好的初始值,和
o可省略来自方言数据的明显的前后关系重新估算以实现快速训练过程。
图2中描绘了本发明的基本描述,描述了附加讲话人自适应技术应用于预先训练,即在对特殊用户将语音识别器人格化之前,语音识别器针对基本语言中的方言或特殊领域的训练。
参考图2,本发明建议以用于基本语言的基本语音识别器201开始。为了最终生成自适应语音识别器,设置附加语音数据语音资料库202;本发明建议使用不可与字典等量齐观的实际语音数据。该附加语音数据语音资料库可包括任何采集的特殊领域的语音数据和/或特殊方言的语音数据。基本语言的语音识别器可已经用于未监督的附加语音数据采集。
生成处理包括使用附加语音数据语音资料库通过可供使用的讲话人自适应技术中的一种,重新估算203所述基本语音识别器的声学模型参数,从而生成改进的自适应语音识别器,该语音识别器减少了个人终端用户可能的训练努力,同时为特殊领域和/或方言讲话人改善了与讲话人无关的识别准确性。
任选地,本发明描述了应用重新估算的声学模型参数的进一步平滑204。贝叶斯平滑是用于此目的的有效平滑技术。已利用范围从1至500的平滑系数K达到了关于贝叶斯平滑的良好效果(见下文关于平滑方案更详细的说明)。特别是平滑系数k在20至60的范围产生了极好的效果。
任选地,本说明书建议迭代205上面提到的重新估算声学模型参数的生成处理和平滑。该迭代能以先前运行的重新估算声学模型参数或基本声学模型参数为基础。该迭代能以判断生成的自适应语音识别器是否表现出足够的识别改善为基础。为达到所希望的识别改善,迭代步骤可以以例如改进的附加语音数据语音资料库和/或新平滑系数值k的使用为基础。
最后,该处理导致了用于方言和/或特殊领域的自适应与讲话人无关的语音识别器的生成。
然而,过去,讲话人自适应技术通常应用于个人终端用户语音数据并因此在与讲话人有关的语音识别器中生成,在本发明中,将它们应用于从几个讲话人采集方言和/或特殊领域的训练数据。这样允许改善特别是(但不仅仅是)对给定的方言和领域与讲话人无关的识别,并减少个人终端用户按其需要定制识别器的投资。
本发明的另一个重要方面是减少了用于生成特殊语音识别器的努力:而其它市场上可买到的工具包从定义子字单元和/或HMM拓扑结构开始,因而需要相当大量的训练数据,本方案从已经训练的普通语音识别器开始。
对于进一步的识别改善,本发明建议将贝叶斯平滑任选地应用到重新估算的参数。特别是,建议使用基本语言系统(用上标b区分)的平均μi b、变量Гi b和混合分量加权ωi b,以便根据下面的方程式通过贝叶斯平滑和联系用于特殊方言参数μi d,Гi d和ωi d(例如参见J.Gauvain和C.Lee在1994年的IEEE论文集,语音和音频处理,vol.2(2),pp.291--298上发表的题为″Markov链的多变量高斯混合观察的最大归纳估算″一文):
在此,
是在时间t从所有观察的方言数据xt计算的第i个高斯的所有归纳可能性Ci(t)之和,N表示混合分量的总数,M是属于作为第i个高斯的相同语音前后关系的高斯的集合。常数k被称为平滑系数;它允许优化识别准确性并取决于方言训练数据的相关量。
4.3本发明实施例的例子
1997年,IBM语音系统以6种不同的语言发布了第一个连续语音识别软件ViaVoice。例如通过数百小时仔细阅读连续的句子来训练德语识别器。仅从不到一千个讲德语的本地人(约50%男性,50%女性)采集了语音。
为了测试本发明的目的,采集了20个不同的讲德语的人(10女,10男)和20个奥地利本地讲德语的人(10女,10男)。所有讲话人从被认为是连续语音识别最重要的应用之一的办公函件领域阅读相同的中度复杂的测试正文。
对于两组讲话人,图3比较了用基线识别器达到的与相关的讲话人无关的误差率图3表示基线识别器(VV),标准训练过程(VV-S),和可升级fastboot方法(VV-G)对讲德德语的测试者归一到基线识别器(VV)的误差率的误差率比较结果。奥地利讲话人的误差率增加百分之五十以上,表明需要改善方言讲话人的识别准确性。因此,对于后续产品ViaVoice Gold(VV-G),仅从约100个奥地利本地的讲话人(约50%女性,50%男性)采集了小于50小时的语音,并应用根据本发明的识别器的预先训练的fastboot方案。图3把利用fastboot方法(VV-G)所达到的结果与如果将两个训练语音资料库汇集在一起可应用的标准训练过程(VV-S)比较。很明显,fastboot方法优于标准过程并对方言讲话人产生了30%的改进。如果需要基本语言和方言(或与该方向正交,基本领域和特殊领域)的集成识别器,不同平滑系数值的结果表明该识别准确性是可升级的,这是一个重要特性。此外,由于普通识别器(VV-S)的汇集训练语音资料库约比奥地利训练语音资料库大7倍,并且标准训练过程通常必须计算4-5次正向-反向迭代,fastboot方法至少快了25倍。因此,用我们的发明能够快速开发用于特殊方言或领域的语音识别器。
4.4该描述进一步的优点
上面给出的本发明和其实施例证明了下面进一步的优点:
·fastboot方案对方言讲话人明显减少了与讲话人无关的误差率。此外,还改善了无方言的讲话人的识别率。
·如果在集成语音识别器中处理方言和/或特殊领域,fastboot方案提供了可升级的识别准确性。
·fastboot方案仅使用很少的几个低价的附加特殊领域或方言数据并且很容易采集。
·fastboot方案减少了识别器的预先训练的时间,因此允许在特殊领域中为识别器迅速开发新数据文件。
5缩写
HMM Hidden Markov Model Hidden Markov模型
MAP maximum a posteriori adaptation 最大后验自适应
MLLR maximum likelihood linear regression adaptation
最大似然线性回归适应
Claims (18)
1.一种自适应语音识别器的生成器,包括用于基本语言的基本语音识别器(201),并且包括用于所述自适应语音识别器的生成的附加语音数据语音资料库(202),和
所述生成器包括使用所述附加语音数据语音资料库通过讲话人自适应技术重新估算所述基本语音识别器的声学模型参数的重新估算装置(203),并且所述生成器的特征在于所述附加语音数据语音资料库包括一批特殊领域语音数据。
2.根据权利要求1所述的生成器,
其中通过不监督或监督的采集来提供所述附加语音数据语音资料库(202)。
3.根据权利要求2所述的生成器,
其中所述声学模型是Hidden Markov模型(HMM)。
4.根据权利要求3所述的生成器,
进一步包括用于任选地平滑重新估算的声学模型参数的平滑装置(204)。
5.根据权利要求4所述的生成器,
其中所述讲话人自适应技术是最大后验自适应(MAP)或
其中所述讲话人自适应技术是最大似然线性回归自适应(MLLR)。
6.根据权利要求5所述的生成器,
其中所述平滑装置执行贝叶斯平滑。
7.根据权利要求6所述的生成器,
其中平滑系数(K)的范围是从1至500。
8.根据权利要求6所述的生成器,
其中平滑系数(K)的范围是从20至60。
9.根据上面任何一个权利要求所述的生成器,
进一步包括根据所述重新估算的特殊方言或领域的声学模型参数或根据所述基本语言声学模型参数用于任选迭代所述重新估算装置的运算和任选迭代所述平滑装置的运算的迭代装置(205)。
10.根据权利要求9所述的生成器,
其中所述迭代装置使用改进的附加语音数据语音资料库和/或
其中所述迭代装置使用新平滑系数值(K)。
11.根据权利要求1-8的任一个所述的生成器,
其中所述自适应语音识别器与讲话人无关。
12.一种使用基本语言的基本语音识别器(201)生成自适应语音识别器的方法,
所述方法包括提供附加语音数据语音资料库的第一步骤(202),所述附加语音数据语音资料库包括一批特殊领域语音数据和/或特殊方言语音数据,和
所述方法包括使用所述附加语音数据语音资料库利用讲话人自适应技术,重新估算所述基本语音识别器的声学模型参数的第二步骤(203)。
13.根据权利要求12所述的生成自适应语音识别器的方法,
所述方法包括用于平滑重新估算的声学模型参数的任选第三步骤(204)。
14.根据权利要求12所述的生成自适应语音识别器的方法,
所述方法包括任选的第四步骤(205),
用于通过提供改进的附加语音数据语音资料库迭代所述第一步骤,和
用于根据所述重新估算声学模型参数或根据所述基本声学模型参数迭代所述第二和第三步骤。
15.根据权利要求13所述的生成自适应语音识别器的方法,
所述方法包括任选的第四步骤(205),
用于通过提供改进的附加语音数据语音资料库迭代所述第一步骤,和
用于根据所述重新估算声学模型参数或根据所述基本声学模型参数迭代所述第二和第三步骤。
16.根据权利要求12至15任一个所述的生成自适应语音识别器的方法,
其中所述声学模型是Hidden Markov模型(HMM),和
其中所述讲话人自适应技术是最大后验自适应(MAP)或
其中所述讲话人自适应技术是最大似然线性回归自适应(MLLR),和
其中所述第三步骤执行贝叶斯平滑。
17.根据权利要求12至15任一个所述的生成自适应语音识别器的方法,
其中所述自适应语音识别器与讲话人无关。
18.根据权利要求16所述的生成自适应语音识别器的方法,
其中所述自适应语音识别器与讲话人无关。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US8265698P | 1998-04-22 | 1998-04-22 | |
US60/082,656 | 1998-04-22 | ||
US6611398A | 1998-04-23 | 1998-04-23 | |
US09/066,113 | 1998-04-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1298533A CN1298533A (zh) | 2001-06-06 |
CN1157711C true CN1157711C (zh) | 2004-07-14 |
Family
ID=26746379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB99805299XA Expired - Fee Related CN1157711C (zh) | 1998-04-22 | 1999-04-21 | 自适应语音识别器的生成装置及方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1074019B1 (zh) |
CN (1) | CN1157711C (zh) |
AT (1) | ATE231642T1 (zh) |
DE (1) | DE69905030T2 (zh) |
TW (1) | TW477964B (zh) |
WO (1) | WO1999054869A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10014337A1 (de) * | 2000-03-24 | 2001-09-27 | Philips Corp Intellectual Pty | Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem |
DE60111329T2 (de) | 2000-11-14 | 2006-03-16 | International Business Machines Corp. | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung |
DE50003756D1 (de) * | 2000-12-18 | 2003-10-23 | Siemens Ag | Verfahren und Anordnung zur Spracherkennung für ein Kleingerät |
DE602006013969D1 (de) * | 2006-08-11 | 2010-06-10 | Harman Becker Automotive Sys | Spracherkennung mittels eines statistischen Sprachmodells unter Verwendung von Quadratwurzelglättung |
CN102543071B (zh) * | 2011-12-16 | 2013-12-11 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN103839546A (zh) * | 2014-03-26 | 2014-06-04 | 合肥新涛信息科技有限公司 | 一种基于江淮语系的语音识别系统 |
CN104766607A (zh) * | 2015-03-05 | 2015-07-08 | 广州视源电子科技股份有限公司 | 一种电视节目推荐方法与系统 |
CN104751844A (zh) * | 2015-03-12 | 2015-07-01 | 深圳市富途网络科技有限公司 | 用于证券信息交互的语音识别方法及其系统 |
CN106384587B (zh) * | 2015-07-24 | 2019-11-15 | 科大讯飞股份有限公司 | 一种语音识别方法及系统 |
CN107452403B (zh) * | 2017-09-12 | 2020-07-07 | 清华大学 | 一种说话人标记方法 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
CN112767961B (zh) * | 2021-02-07 | 2022-06-03 | 哈尔滨琦音科技有限公司 | 一种基于云端计算的口音矫正方法 |
-
1999
- 1999-03-12 TW TW088103857A patent/TW477964B/zh not_active IP Right Cessation
- 1999-04-21 CN CNB99805299XA patent/CN1157711C/zh not_active Expired - Fee Related
- 1999-04-21 EP EP99924814A patent/EP1074019B1/en not_active Expired - Lifetime
- 1999-04-21 AT AT99924814T patent/ATE231642T1/de not_active IP Right Cessation
- 1999-04-21 WO PCT/EP1999/002673 patent/WO1999054869A1/en active IP Right Grant
- 1999-04-21 DE DE69905030T patent/DE69905030T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69905030T2 (de) | 2003-11-27 |
EP1074019A1 (en) | 2001-02-07 |
WO1999054869A1 (en) | 1999-10-28 |
CN1298533A (zh) | 2001-06-06 |
ATE231642T1 (de) | 2003-02-15 |
DE69905030D1 (de) | 2003-02-27 |
EP1074019B1 (en) | 2003-01-22 |
TW477964B (en) | 2002-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bacchiani et al. | Unsupervised language model adaptation | |
CN107221318B (zh) | 英语口语发音评分方法和系统 | |
CN103971678B (zh) | 关键词检测方法和装置 | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
EP1989701B1 (en) | Speaker authentication | |
CN1236423C (zh) | 说话人声音的后台学习 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
CN1157711C (zh) | 自适应语音识别器的生成装置及方法 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
Vydana et al. | Improved emotion recognition using GMM-UBMs | |
Chen et al. | Automatic pronunciation assessment for Mandarin Chinese | |
Grewal et al. | Isolated word recognition system for English language | |
US20030171931A1 (en) | System for creating user-dependent recognition models and for making those models accessible by a user | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
Barman et al. | State of the art review of speech recognition using genetic algorithm | |
Ling et al. | Minimum unit selection error training for HMM-based unit selection speech synthesis system | |
CN111933121B (zh) | 一种声学模型训练方法及装置 | |
Liu et al. | Pronunciation modeling for spontaneous Mandarin speech recognition | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 | |
Lindgren | Speech recognition using features extracted from phase space reconstructions | |
Landini | A Pronunciation Scoring System for Second Language Learners | |
Shaik et al. | The RWTH Aachen German and English LVCSR systems for IWSLT-2013 | |
Thandil et al. | Automatic speech recognition system for utterances in Malayalam language | |
Ling | Keyword spotting in continuous speech utterances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1055275 Country of ref document: HK |
|
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040714 |