CN1237259A

CN1237259A - 隐含式－马而科夫－发音模型在语音识别系统中的匹配方法

Info

Publication number: CN1237259A
Application number: CN97199583A
Authority: CN
Inventors: U·巴布; H·赫格; J·科勒
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1996-09-10
Filing date: 1997-09-10
Publication date: 1999-12-01
Also published as: DE59705581D1; EP0925579A1; ATE209814T1; WO1998011534A1; EP0925579B1; US6460017B1; JP2001503154A; BR9712979A; ES2169432T3

Abstract

用本发明一个普通的提供给一个语言识别系统使用的隐含式－马而科夫发音模型的编码簿(CB)被适应于专门的应用情况。这些应用情况是通过被使用者改变的一个应用词典(LEX)定义的。适应(ADAP)是在运行中完成的,并且是通过隐含式－马而科夫－模型的概率密度分布的被存储的中心矢量的一个位移发生的,是在一个被识别的发音表达的特征矢量方向上并且是参照应用的隐含式－马而科夫－模型。与常用的方法对比本发明具有的优点是,它是在线运行的,并且它在一个小的计算费用情况下保证一个很高的识别率。通过多舌音音素的专用隐含式－马而科夫－模型的应用,在其中超出各种语言的发音相似性被充分利用,可以完成对外语的一个自动的适应。在所使用的声学发音建模方法中在综合不同的隐含式－马而科夫－发音模型在不同语言中的概率密度时不仅考虑了语言专用的而且也考虑了与语言无关的特性。

Description

隐含式-马而科夫-发音模型在语言识别系统中的匹配方法

本发明涉及隐含式-马而科夫-发音模型(hidden Markov-Lautmodell)在语言识别系统运行要求下的一种匹配方法，特别是使用专门构成的被与一个应用语言相匹配的多语言隐含式-马而科夫-发音模型时。

一个语言识别系统主要取之于两个互不相关的知识来源。一方面是一个音素词典，用它将被识别的词汇确定为字库。例如在那里被存储单个的将被识别的字的ASKⅡ-串，以及它的音素的发音改写。同样通过这个词典给出一个所谓的“任务”(Task)。另一方面它是一个编码簿(Codebuch)，它包括隐含式-马而科夫-发音模型(HMM)的参数和特别是包括属于识别部分的概率密度分布的中心。

当HMM-编码簿与词典最佳协调时，会得到一个语言识别系统的最好的效率。这是这样的情况，当HMM-编码簿与那个词典被同时运行，用该词典这个HMM-编码簿在一开头就是通过训练被制作的。如果这个不能被保证时，就可以确认一个效率损失。

例如在交换系统中使用的语言识别系统，常常出现这样的问题，系统带着一开头被训练的字库被供货，而在运行时字库被用户更改了。这一般会出现的后果是，现在在词典的新字中在音素之间出现同发音(Koartikulation)，它们在这之前不可能被训练过。因此在词典和HMM-编码簿之间存在一个“失配”，在实际运行时这种情况导致一个变坏的识别效率。

这种情况的一个实际例子可能是一个公司的一个电话交换系统，它懂得工作人员的名字和通过一个呼叫者的语言输入自动识别其连接要求，并且将呼叫连接到相应的分机上[呼叫-用-名字(Call-by-Name)]。因此工作人员的名字被存储在词典中。由于起伏，名字始终在变化和由于所述的原因所以该系统出现一个不满意的识别效率。

为了保证语言识别系统在上述使用条件下尽可能高的识别效率，则要求，这个识别系统的以HMM-编码簿为基础的与由于变化的词典决定的一个新任务相匹配(适应)。从当前技术水平已经知道解决这个问题的不同的方法。从文献[1]中知道一种方法，在其中被建议，为了编码簿与词典的匹配进行一个再训练。这种工作方法的缺点是，一般来说最终使用的词汇在训练时刻只是部分地是已知的。如果现在必须是在一个稍后的时刻开始再训练，则一个新词汇的所有重要的必要的声音模型必须被准备好，这是不经济的并且是很难实施的。从文献[2]中知道一种所谓的MAP-算法(最大尾数法(Maximum aPosteriori))用于声音模型的适应是通过用户在一个一定的语言试样的语句基础上的。为此语言识别系统的购入者必须提供很多说话人的语言试样。

编码簿的转换适应是通过监控下的学习完成的，也就是说必须告知系统一个表达(uβerung)的准确的按字母逐个改写(Transliteration)。这里要求的复杂的工作步骤对于一个用户来说是不能奢望的。

当前技术水平的两个解决方法具有共同的缺点，它们只是脱-线(Off-Line)运行的。因此对于一个HMM编码簿的适应来说运行的系统必须停下来，以便可以将新的参数，也就是说几乎相应的识别单元置入系统中。此外训练和适应过程对于熟悉和掌握则要求一个长的时间，这对系统的购入者意味着一个经济上的损失。因此常常在产品供货时已经准备好了一个HMM初始编码簿。为此当前技术水平提供两个训练战略。

一方面编码簿可以在一个音素平衡的训练数据语句基础上被生成。这样的编码簿的缺点是，它必须能解决不知道的任务(“任务”)中的所有可以想象的使用情况，因为它们没有优先的识别单元。另外一方面如果可能的话一个专家编码簿可以被训练。此时语言识别系统被准确地按照最终使用时起重要作用的字汇进行训练。因而对于专用的一个比较高的识别率主要是这样达到的，语言识别系统可以使用共发音，这些共发音在训练阶段已受到训练。对于应用时词典的改变，这样的专家编码簿则显示出较差的效率。

如果词典和最终使用的字库，如与本发明有关的情况，是可以改变的，或者在训练时刻还完全不知道的，则制造者常常争取，将一个尽可能普遍包容的编码簿装入他的语言识别系统。

此外，还有一个大的问题，对于那些应引入语言识别技术的每种语言，必须训练新的声学音素模型，以便能够进行一个国家的匹配。在语言识别系统中常常使用HMM用于语言特殊发音的建模。由这些统计学建模的发音模型随后将声学的字模型组合在一起，它在语言识别过程中在搜索过程期间被识别。为了这些发音模型的训练需要内容非常丰富的语言数据库，它的搜集和准备显示了一个非常大的费用-和时间花费。因此当一个语言识别技术由一种语言进入(Portierung)一种另外语言时出现了缺点，因为一个新语言数据库的制作一方面意味着产品价格的提高并且另一方面决定了在市场进入方面的一个时间推迟。

在商用的可以购入的语言识别系统中只使用语言专用的模型。为了使这种系统进入一种新的语言被搜集和处理了广泛内容丰富的语言数据库。然后对于新语言的发音模型和这些被搜集的语言数据从根本上被重新训练。

为了减少将语言识别系统划分成有区别的语言时的费用和时间推迟，因此应该进行分析，是否单个的语言发音模型适合使用于不同的语言。为此在文献[4]中已经有制作多语言发音模型的要点，并且将这些在当时的语言的语言识别中使用。那里也引入了复音素和单音素的概念。此时复音素发音意味着，它的发音组成特性在多种语言中足够的近似，可以被同等地使用。而单音素发音则意味着，它具有语言专有的特性。为了不至于使新的语言数据库对这样的开发工作和分析必须每次都训练，它们已经作为标准可提供使用，见文献[8],[6],[9]。从文献[10]中知道使用已有的多语言模型将一个目标语言中的语言数据分成段。然后发音模型的训练被在目标语言中进行。一个另外的当前技术关于发音模型在多语言中的应用是不知道的。

本发明的基本任务是，提供一种HMM在语言识别系统中的匹配方法，此时匹配是在语言识别系统连续运行时完成的。特别是通过匹配由于词典改变和由此而引起的任务改变的上述的各错综复杂情况被平衡掉。

此任务是按照权利要求1的特征解决的。

因此另外一个任务是提供专用的可多语言应用的HMM在一个语言识别系统中的构成和适应的方法，通过它当在一个多舌音的语言识别系统中的参数被减小时进入另一语言的语言识别系统的分配费用变为最小。

此任务是按照权利要求8的特征解决的。

本发明的其它改进结构在从属权利要求中给出。

按照本发明的方法，一个普遍包容的编码簿，例如包含多种语言共同应用的HMM编码簿作为种子模型使用，并且在连续运行中词典改变时与这个新词典相匹配。

特别有利的是通过本方法在运行中的一个匹配是这样达到的，一个发音表达的一个已经被识别的特征矢量导致在HMM-编码簿中被存储的中心矢量的一个位移，当借助于一个匹配系数在运行时一个字或发音序列被识别以后，完成隐含式-马而科夫-模型的概率分布中心在被识别的特征矢量方向上的一个位移。此时学习率可以通过匹配系数被任意调整。

在本方法中有利的是用标准方法，如菲特比-算法，将特征矢量附加给HMM。通过使用菲特比-算法在识别以后出现特征矢量与被存储的HMM编码簿的中心矢量的一个明确的从属关系。

特别有利的是被匹配和被识别的发音模型被保存在一个标准化的HMM-编码簿中提供使用，它可以用作所有被匹配的实际模型的基础，并且从而对于所有被匹配的系统在制作时只训练一次，或者必须以具有多语言HMM的编码薄的形式来准备。

特别有利的是重心矢量与被识别的特征矢量的匹配是用隐含式-马而科夫-模型的拉普拉斯-和高斯-概率密度分布与专门叙述的公式完成的，因而计算费用比较小。

有利的是在上述方法中达到一个更高的识别率，如果在一个不可靠的被识别的发音表达情况下这个被完全驳回和不进行匹配时。

特别有利的是在驳回时发音假定(Lauthypotese)的数目按照菲特比-搜索和其各自假定所从属的命中率被考虑是与表达有关的。在这种情况下建立了驳回和在命中率之间的区别的依赖关系，因为这个区别代表了被找到的解决方法的质量的一个质量数据。在区别大时可以不驳回和在区别小时必须驳回。最好对于这种情况在命中率的区别方面确定一个界限，低于这个界限时进行一个驳回，因为用一个界限的监控只需要一个小的计算费用。

上述方法的一个优点是，被使用一个统计学的相似率，它允许，从不同发音模型的一个给定的数目中，对于在不同语言中的相似发音中选定这样的发音模型，它在它的特性上能最好地描述所有提供使用的各自的发音的特征矢量。

有利的是为了选定最佳的HMM对于不同的发音特征矢量的尺度计算出在各自的HMM的和每个特征矢量之间的对数概率距离。这样就提供了一个尺度，反应了有关单个的发音模型的相似性和它们的识别率的试验状态。

有利的是作为描述一个尽可能有代表性的HMM的尺度，计算出在每个HMM和各自的特征矢量之间的对数概率距离的算术平均值，因为这样就得到了一个对称的距离值。

有利的是对于一个HMM为描述在不同语言中的发音的有代表性的特性的描述尺度是这样形成的，使用按照本发明的公式5-8，因为这样将产生一个较小的计算费用。

有利的是对于一个描述尺度的应用规定了一个界限条件，用它可以调整有代表性的HMM的一个识别率。

特别有利的是通过本方法用于一个语言数据库的存储费用可被减小，因为一个模型可以被使用在多种语言中。同样从一个语言划分为另外的一种语言所需的分配费用变为最小，它决定了用于划分上的时间花费的减小，这种花费通过在线适应也可以减小为零。同样有利的是在菲特比-搜索中一个比较小的计算费用成为可能，例如因为在多语言输入系统中只有较少的模型必须被检测。

特别有利的是专用的HMM被使用在多语言识别系统中。通过这种工作方式被组合的HMM可以被使用在多语言的复音素-模型的发音上。被使用的标准概率密度分布的重叠区在不同的模型中应被分析。为了描述复音素-模型可以引入一个任意的完全一样数目的在不同模型上使用的标准概率密度分布。有利的是也可以使用在不同的语言模型中的多个标准分布，因此而引起的各个语言特性的混合不至于导致在这个模型使用时的一个明显低的识别率。特别有利的是在相似标准概率分布密度之间的距离阈值为5在此显示出它的优越性。

特别有利的是使用本方法时是使用由三种状态首音，中间音和尾音建模的HMM，因为这样在发音描述时可以达到一个足够的精度，并且在识别时和在一个语言识别器上在线-适应时的计算费用保持很小。

以下本发明的实施例借助于附图进一步说明。

附图1示出借助于编码簿适应的一个语言识别方法的一个框图。

附图2示出一个单个的多舌音音素的结构。

在附图1上用一个框图形式叙述，本方法以及按照本方法工作的一个语言识别系统，要求什么样的各个处理步骤。

在语言识别系统的一个识别阶段ERKE中，语言SPRA被识别，并且作为字WO被输出。字的子单元也可以用隐含式-马而科夫-模型HMM建模，并且作为字WO被输出。例如在语言识别系统的一个词典LEX上作为由制造商规定的字串ANW为了应用以ASCⅡ-字符形式被存放。在一个HMM-编码簿CB上存放了在这以前训练过的并且与词典LEX一同供货的隐含式-马而科夫-发音模型的参数。对于语言识别系统的多语言应用，词典也可以包括专门为多语言应用准备好的以及构成的HMM。借助于词典LEX和HMM-编码簿CB，语言识别器ERKE对来自于语言信号SPRA的字进行识别。为了语言识别系统与一个专门的应用相匹配，例如词典LEX可以由用户通过专用的字串ANW予以改变。此外有时也可以被输入一个外语的字串。在这里外语指的是，在编码簿制作时没有被考虑的语言。按照本方法在一个专用的字或一个识别单元WO被识别以后，通过一个连接导线100通知给适应模块ADAP，这些字中的那个字被识别和从而哪些数据块(Segment)被连接。最后优先完成一个匹配，与被识别的字有联系的隐含式-马而科夫-模型的参数与由语言信号被推导出来的特征矢量相匹配。在适应模块ADAP上例如可以确定一个优先实施的适应战略与隐含式-马而科夫-模型相匹配。例如在一个适应方法中具有不可靠的命中率的字对于各个的假定(Hypothese)在菲特比-搜索以后，被丢掉。因为按照本发明新的共发音应该被学习，只有这样的特征矢量才能优先被选定用于匹配，它专门被附加给新的被学习的共发音数据块。然而有时也比较适合选定所有被提供使用的特征矢量作为匹配用，以便保证超过两个音素的连续发音也被包括进去作为匹配用。

以隐含式-马而科夫-模型为基础的重心矢量被与特征矢量匹配，例如当用分量的方法求出一个平均值，并且这个平均值导致在编码簿CB中被存储的特征矢量的一个位移。此外当时的平均值与一个在这里作为学习步距起作用的一个匹配系数相乘，这样在词典中被存储的隐含式-马而科夫-模型以及被存储的隐含式-马而科夫-模型的一个新的重心矢量出现。这个被适应的重心矢量将来在语言识别器ERKE中在识别语言信号时行使作为初始量的职责。

在此基本的构思在于，系统在使用时当出现一个被修改的和由用户规定的词典时被自动地再训练以及被再适应。例如确认了一个这样的修改，如果输入到词典LEX的字串ANW被与词典内容相比较时。用这种方法一个外语的字串也可以容易地被识别，以便必要时引入专用的多语言-HMM。最好与字串输入词典的同时进行作为语言SPRA的字的一个第一次输入，以便建立在编码簿CB中已经存在的HMM和新的应被识别的字之间的一个第一次的从属关系。按照本发明识别参数的这样的适应再训练是借助于语言数据完成的，语言数据是在系统操作时出现的。在此，适应优先是在每次改变时随后进行的，这样不至于在语言识别系统开发阶段对于制定词典LEX的各自的词汇必须都是已知的。与当前技术水平相反按照本发明的方法具有的优点是，它是在线运行的，对于训练不必需要一组专用的语言试样。因此多语言-HMM在线与一种外语相匹配同样成为可能。按照适应方法匹配最好在系统背景不监控的情况下进行，这样它自己的成果在应用时被用于适应。在此所需要的运算步骤相对比较容易实施并且要求一个小的运算效率。

在此基本的考虑在于，语言识别是建立在HMM基础上的。在训练这样的模型时特别是确定计算发射概率的参数，为计算所需要的概率密度是通过标准分布，如高斯-或拉普拉斯-分布被近似计算出来的。对于这种逼近的最重要的参数是各自分布的中心矢量以及重心矢量。这些参数被存储在编码簿中。当语言识别期间在识别时用所谓的菲特比-算法在分类以后将由特征矢量代表的各个语言单元附加在一定的识别数据块和相应的概率密度分布上。在上述方法以后原本的适应步骤最好是通过相应的概率密度分布中心的一个重新计算在使用在应用时出现的特征矢量情况下来完成。在此特别有利的是适应是在每次表达结束以后进行的，一旦出现菲特比-路径与特征矢量明确地附加在概率密度分布上时。

本发明要解决的一个问题是，一个大的与字汇无关的隐含式-马而科夫-模型的训练，它能解决从所有可以想象的实际应用中提出的所有要求，而这是不可能的见文献[1]。在实际应用中常提出特别严格的要求。语言识别的适应方法在此应如下述

-运算费用少和易于实施的

-不监控的

-与说话人无关的

-在线工作的，并且预先要求没有先前的适应设置。特别是在本发明的方法应用时使用一个HMM-编码簿作为种子模型，它是与字汇无关地被训练的，因而它没有特征和对任何一个专用识别单元的偏爱。例如基本的HMM可以作为单音素模型被训练，然而具有被连接成双音的隐含式-马而科夫-模型也可以被使用。在试验本发明的方法时隐含式-马而科夫-模型被作为种子模型使用，它是被单音素训练的。例如按照本方法在编码簿匹配时的战略是，使用它的单音素种子模型作为初始基础，例如也可以用于多语言的HMM，和使用它的音素目录制定一个有工作能力的双音素-模型，如果词典始不断被修改和一个有新的关联的数据块对于被修改的运行要求必须被制定的话。此时各自的模型最好在识别过程中在线地被适应。为此最好进行如下步骤：

-首先分析词典LEX以便找出，哪个有关联的数据块是需要的。

-如果一个出现的数据块到那时还是未知的，则将与普通模型相应的有关联的数据块的分布被复制到工作字典的新模型上。

-识别详尽的语言表达(eingehende Sprachuβerumg)。

-如果希望的话可将不可靠的识别结果驳回。

-用被叙述的匹配公式在详尽的语言数据基础上在线训练工作编码簿。

为了模型的匹配，将被识别的隐含式-马而科夫-模型的重心矢量与详尽的语言信号的特征矢量相匹配。此时优先按照一个学习率在词典中被存储的重心矢量在相应的发音表达的被识别的特征矢量方向上实现一个位移。此时在任务专用的词典版本之间的有关区别主要涉及隐含式-马儿科夫-模型的概率密度分布的参数，其中特别是涉及到平均值在声音空间的位置。

在一个语言识别系统的一个特征提取阶段，将一个详尽的表达优先转换为一个特征矢量的一个序列：

X={ x₁, x₂,...., x_T} (1)

使用菲特比-算法，然后例如每个单个的特征矢量 Xt，当t=1,2,…T时，在识别后得到一个最佳的隐含式-马而科夫-模型i的一个状态Θⁱ _l。多模态的拉普拉斯-分布被使用于隐含式-马而科夫-模型的建模和状态-发射概率的建模的情况下，一个隐含式-马而科夫-模型的第s-个状态对应的概率密度分布是这样逼近的

b_{s}^{i} (\bar{X}) = Σ_{m = 1}^{M_{s}^{i}} c_{s, m}^{i} e^{\frac{\sqrt{2}}{σ} | | X - {\bar{μ}}_{s, m, t}^{i} | | - - - - (2)}

其中Mⁱ _s,c¹ _s,m,和σ是常数，它们最好是在训练时被确定的。从一个被识别的特征矢量和一个状态的一个给定的从属关系中于是优先确定平均值 μⁱ _s,m,t，它的位置离特征矢量X_t最近，此时希迪-块距离(City-Blockabstand)(2*)被作为尺度和n是表示一个矢量的分量。

| | \bar{X} - \bar{μ} | | = \underset{n}{Σ} | X_{n} - μ_{n} | - - - - (2 *)

在此位于最接近的平均距离按照μⁱ _s,m,t+1=(1-α) μⁱ _s,m,t+α x_t (3)被现实化。对公式3人们可以将它在几何学方面作如下解释地想象。被现实化了的重心矢量 μⁱs,_m,t+1位于一条直线上，它穿过老的中心矢量μⁱ _s,m,t和现实的特征矢量 X_t。参数α是被使用作为适应系数或学习率。对于特殊情况，当α=0时，不进行适应，当α=1时现实的重心矢量与现实的特征矢量相对应。

在对话系统的所有应用中，同样可能出现识别错误。其原因例如是由于使用者的一个错误的输入字或者很简单是由于识别单元的一个错误的分类。对于出现一个错误的情况，例如一个对话管理员应要求使用者一个重新输入。简化一些也可以只被选定一个特别好的表达。此外例如使用一个相对简单的统计学的驳回战略。此时对最好的发音假定的命中率S₀和第二好的发音假定的命中率S₁按照在菲特比-算法的n-最佳搜索进行分析。

如果驳回标志为1时，则相应的表达优先通过适应算法被压缩。驳回的界限最好是通过经验的S_mean,也就是说每个字的所有命中率的平均值是从详尽的表达中求得的。通过试验得到极限值R_thresh=0,005S_mean。用这个界限值错误表达的一个驳回率达到61.2％，并且适应可以在可靠的分类数据情况下进行，如同没有驳回的情况一样。本方法在试验检验时对于适应是从一个被修改的词典的2000个测试-表达出发的。关于适应系数α和它的大小此时被确定，当α数值小时，也就是为0.025时，识别时的错误率已经显著地减小。当α为一个宽的最佳值时被确定为0.05和0.01之间。此时当最佳值为0.075时在识别字时错误率的改善达到了34.5％。这意味着，通过本发明的方法识别单元和被适应的编码簿CB，比没有使用它的情况，改善了34.5％。

当一个驳回如上述被执行时，匹配系数α的一个改善了的数值为0.125。这个改善了的数值α在试验被使用的字汇时使错误率减小为40.1％。比较高的系数α可以这样去解释，由于错误数据的驳回对于HMM-编码簿的适应出现了一个较好的特征矢量，并且因而可以选择一个比较高的学习步距。试验状态也表明，用适应方法如同使用专用模型一样对于相应的使用情况时达到几乎同样的识别率。此时识别率只比专用词典低0.7％。

附图2表示一个单一的多舌音音素的结构。在这种情况下被表示的是音素M。概率密度的数目和对于这个音素的识别率表示在表1中：

Thr.	#密度(a,b,c)	英语.(％)	德语.(％)	西班牙语.(％)
Thr.	#密度(a,b,c)	英语.(％)	德语.(％)	西班牙语.(％)	0	341(0 0 341)	46.7	44.7	59.4
2	334(0 14 327)	45.0	46.4	57.5	0	341(0 0 341)	46.7	44.7	59.4
2	334(0 14 327)	45.0	46.4	57.5	3	303(27 34 280 )	48.0	45.8	57.5
4	227(106 57 187)	50.9	44.1	58.7	3	303(27 34 280 )	48.0	45.8	57.5
4	227(106 57 187)	50.9	44.1	58.7	5	116(221,48,72)	49.3	43.1	57.0
6	61(285,22,34)	41.2	38.6	50.4	5	116(221,48,72)	49.3	43.1	57.0

在附图2上表示的是音素-模型的首音L，中间音M和尾音R。对于不同的语言英语EN，德语DE和西班牙语SP被记上了单个的被使用的标准概率密度的概率密度分布的重心，并且被标志为WD。例如在这里表示的是一个HMM的三个分状态。然而本发明应该不只被限制于使用这样的HMM，虽然这在考虑判据方面，即识别的计算费用应该最小，显示了一个一定的最佳化。本发明也同样可以使用于具有一个其它状态数目的HMM。通过本发明特别应该达到，减少以及避免将语言识别系统分成一个另外的语言时的分配费用，并且由于基本参数的减少被使用的计算资源尽可能被保持得很小。例如通过这样的语言识别系统被限制的硬件要求能比较好地得到满足，特别是如果一个和同一个对于多语言应用的语言识别系统应该可以在同一台机器上被提供使用。

首先应该达到的目标是，充分利用在不同语言中发音的相似性，并且在建模时注意考虑，音素在不同的语言中可以是不同的。理由主要是在于：

-不同音素的上下关联，由于在不同的语言中的不同的音素语句；

-不同的语言方式；

-不同的韵律特征；

-不同的区域发音变化；

一个特别重要应该考虑的方面是，有足够感觉技术上的音素可区别性的原则，见文献[7]。这意味着，单个的发音在不同的语言中在声学上保持可以区别的，这样对于单个的听众比较容易将它们区别开来。但是因为每个单个的语言有一个不同的音素库，两个相似的音素之间的界限在每个单个的语言中被语言专门地确定。由于这些原因一个一定的发音的特点有一个语言专门的成分。

基本的音素最好借助于连续的紧密的隐含式-马而科夫-模型(CD-HMM)建模，见文献[5]。常常使用拉普拉斯-混合作为密度函数。此时每个单个的音素是由从左向右方向排列的HMM的三个状态组成的。此时声学的特征矢量例如是由24二-分级音阶(mel-skaliertencepstral),12三音阶(delta cepstral),12三三音阶，能量(Energie)，三-能量和三三-能量-系数组成的。例如分析时间窗的长度被选择为25ms，此时在各个帧之间的帧距离为10ms。由于语言主体(Sprachkorpus)有限的大小只使用无上下关联生成的音素。作为特别有代表性的音素目录是从文献[6]中选择的。

本方法的构思在于，一方面使用一个被提供使用的相似率，以便从按照标准可提供使用的语言音素库中对于不同的语言可以选定这个HMM，它最接近由不同语言的不同的发音模型推导出来的特征矢量。这样就可能，求出两个音素-模型的相似性，并且在发音现实化和在发音模型之间的对数-似然-值(Log-Likelihood-Wert)的差值的基础上对相似率得出一个说法，是否值得，将一个发音对多种语言共同建模，以及一个有关的已经存在的HMM被使用于在多种语言中的发音建模。从而在语言识别和模型适应时被考虑的参数的数目被减少，如果被分析的HMM的数目被减少的话。

一个另外的方法要点是，使用一个专门的为在多种语言中的一个发音建模而制作的复音素-模型。为了它的生成，例如首先是由三个发音部分，以首音，中间音和尾音的形式组成的，其状态是由多个概率密度函数所谓的混合分布密度与其从属的密度组成的。在不同的语言中相似发音部分的这些密度，然后被组合成一个多舌音的编码簿。这样不同语言的发音部分分成同样的密度。当编码簿对多种语言同时可以被使用时，则例如用以对密度加权的权，对于每个语言分别地被求出和被准备好。

为了形成一个适当的相似率，此时HMM最好引用三种状态。距离尺度和相似率此时可以被使用，以便将多个音素-模型组合成一个多舌音的音素-模型或者用适当的方法将这些模型代替。这样就可以准备好一个多舌音的音素库，为了测量不同语言中同样发音的两个音素-模型的距离以及确定相似性，最好使用一个测量量，此量是建立在相对熵的基础上的，见文献[3]。在训练时各音素-模型的混合拉普拉斯密度分布参数被确定。此外，对于每个音素有一组音素符号X作为特征矢量从一个测试-或从开发语言主体中被提取出来。这些音素可以通过它们的国际标准化的语音标志被标记。据此将两个音素-模型λ_i和λ_j和它们的相关的音素符号X_i和X_j作如下处理，以确定这些不同音素间的相似率。

d(λ_i,λ_j)=logp(X_i｜λ_j)-logp(X_i｜λ_j) (5)

这个距离尺度可以被看作为对数-似然-距离，它表示两个不同的模型是多么好地与同一个特征矢量X_I相匹配。据此两个模型λ_i和λ_j之间的距离被按照：

d(λ_j,λ_j)=logp(X_j︱λ_j)-logp(X_j︱λ_i) (6)确定。为了得到在这两个音素-模型之间的一个对称距离，它最好按照

d (λ_{j}; λ_{i}) = \frac{1}{2} (d (λ_{i}, λ_{j}) + d (λ_{j}; λ_{i})) - - - - (7)

确定。借助于试验结果可能确定，完全有可能在其它语言中的几个音素-模型比一个德语的音素-模型能比较好的适合在一个德语语言识别系统中应用。例如这适合于音素K,P，和N。对于这些音素，英语的音素-模型比德语的能较好的适合。例如关于变元音aU被观察到在德语和英语的模型之间有一个大的区别，这意味着，对于两个发音在多舌音音素库中应引入一个不同的符号。另一方面对于变元音aI在德语和在英语中被确认了一个很好的相似性，这意味着，只用一个音素-模型可以同样好地使用在两种语言上。从这点出发为一个多舌音音素库的每个符号应被生成一个单独的统计学的模型。在文献[8]中复音素被表示为这样的音素，它们足够地相似，以便在不同的语言中被作为一个唯一的音素建模。这种工作方法的缺点是，对于语言专用的识别要使用复音素的整个的声音空间。然而目标是，将一个多舌音模型的与语言有关的和语言专用的声音特性组合在一起。按照本发明在一个复音素-模型中声音空间的这样的区域应受限制，在其中单个的音素的概率密度相互重叠。为此，例如被使用了一个分组增加密度技术(凝聚密度群技术agglommerative density clustering technique)，以便减少一个音素的一样的或相似特点。特别重要的是注意，只允许将单个HMM的相应状态的密度在音素中综合在一起。

在附图2中了解到，对于单个状态L,M，和R的各自的密度保持在被限制的区域里。在单个的语言EN,DE，和SP中分布着完全一样的密度时，而混合加权则随着语言相关地变化。然而要考虑的是，一个音素的专有的特点在不同语言中是以不同的频度出现的。

在此，不同的概率密度的综合可以用一个不同的距离阈值为在密度群(密度群density clustering)中的概率密度进行。例如当距离阈值为5时，被使用的密度数目比初始状态减少一个系数3，而且不会带来语言识别率明显的变坏。在这个例子中，由原来的初始密度341，分别为将复音素区，双语言-区和单语言-区组合成为221,48,72。在附图2中一个这样的复音素区是表示为各个语言的园截面。在被表示的HMM的中间音M上一个概率密度在一个这样的区内被标志为WDP。对于一个完整的多舌音的语言识别系统的识别率此时作为ML1和ML2被表示在表2的行4和5上：

语言	#语音符号	LDP[％]	ML1[％]	ML2[％]
语言	#语音符号	LDP[％]	ML1[％]	ML2[％]	英语	21191	39.0	37.3	37.0
德语	9430	40.0	34.7	37.7	英语	21191	39.0	37.3	37.0
德语	9430	40.0	34.7	37.7	西班牙语	9525	53.6	46.0	51.6
总计	46146	42.8	38.8	40.8	西班牙语	9525	53.6	46.0	51.6

在第一次试验时ML1被使用的是文献[8]中的传统的复音素-定义，这意味着，复音素-模型的完整的声音区，它是由附图2中语言区域的外轮廓组成的，被用于识别，该所述的方法只使用了其中的一部分区域。由于对于复音素-模型的建模使用了单个语言区域的部分重叠，一个改善例如可达到2％，如在表2的ML2行中表示的。

通过多舌音发音模型与自动在线适应方法的组合，模型识别精度可以得到改善。通过一个不监控的适应它们被与新的应用词典以及新的语言相匹配。此外有益的是为新语言不必搜集附加的数据。如果万能的发音模型被使用，则本方法可以被应用于任意的语言。例如可以用多舌音发音模型由德语，美语和西班牙语的语言数据中通过在线-适应，使斯洛文尼亚字符的单个字识别系统被最佳化。为此在识别过程中只给识别器输入斯洛文尼亚的数据材料。

文献

[1]Hon H.W.,Lee K.F.,“论词汇无关的语言建模”，IEEE国际会议文集，声学，语言和信号处理，1990年；

[2]Lee C.H.,Gauvain J.L.,“在HMM参数的MAP评价基础上的讲话者的适应”，IEEE国际会议文集，声学，语言，和信号处理，1993年；

[3]V.Digalakis A.Sankar,F.Beaufays.：“为改进语言识别的数据群训练”欧洲语言95会议文集503-506页，1995年；

[4]P.Dalsgaard和O.Andersen.：“利用来源于一个自控制神经网络的声音音素特征对单和复音素的识别”，ICSLP92会议文集547-550页，1992年；

[5]A.Hauenstein和E.Marschall.：“通过电话线改进语言识别的方法”，ICASSP95会议文集425-428页，1995年；

[6]J.L.Hieronymus.：“世界语的ASCⅡ发音符号：Worldbet”,1993年；

[7]P.Ladefoged：“发音过程”，Harcourt BraceJovanovich,San Diego,1993年；

[8]P.Dalsgaard O.Andersen和W.Barry.：“对四种欧洲语言的复-和单音素的用数据驱动的识别”，欧洲语言93会议文集759-762页，Ber-lin,1993年；

[9]A.Cole Y.K.Muthusamy和B.T.Oshika.:“OGI多国语言电话语言主体”，IC-SLP92会议文集895-898页，1992年；

[10]B.Wheatley,K.Kondo,W.Anderson,Y.Muthusamy：“对快速HMM在一种新语言中的开发的超-语言评价”，ICASSPP会议文集237-240页，1994年。

Claims

1．一个语言识别系统的编码簿中的一个隐含式-马而科夫-发音模型与被使用的音素词典中的一个字库改变时的实时-匹配方法，

a)在其中被识别的隐含式-马而科夫-发音模型至少有它的概率分布的一个第一平均值矢量被保存在编码簿(CB)中可提供使用，

b)在其中在一般情况下语言识别(ERKE)是通过从一个语言信号(SPRA)中提取特征矢量，并将特征矢量分配给编码簿(CB)中的隐含式-马而科夫-发音模型的概率分布来进行的，

c)和在其中对于字库改变的至少一个被识别的发音表达(Lautuβerung)(WO)立即在它识别以后，至少一个从属的隐含式-马而科夫-发音模型的第一重心矢量的位置，与被附加的特征矢量的位置，通过一个被确定的匹配系数在比例上被匹配(ADAP,CB,100)，并且被匹配的平均值矢量在编码簿(CB)中作为第一平均值矢量被存放。

2．按照权利要求1的方法，在其中矢量位置的匹配是通过分组方式求出平均值，并与一个为常数的匹配系数相乘进行的。

3．按照上述权利要求之一的方法，在其中特征矢量附加给相应的隐含式-马而科夫-发音模型是借助于菲特比-算法进行的。

4．按照上述权利要求之一的方法，

a)在其中对于语言识别，特征矢量的一个序列是用公式X={ X₁, X₂,...., X_T} (1)

被求得的，

b)在其中应被匹配的和应被识别的隐含式-马而科夫-发音模型至少每个有它的形式为

b_{s}^{i} (\bar{X}) = Σ_{m = 1}^{M_{s}^{i}} c_{s, m}^{i} e^{- \frac{\sqrt{2}}{σ} | | \bar{X} - {\bar{μ}}_{s, m, t}^{i} | | - - - - (2)}

的拉普拉斯-概率分布的一个第一重心矢量与在训练时被确定的常数Mⁱ _s,cⁱ _s,M,σ被保存可提供使用，

c)和在其中对于至少一个被识别的发音表达被识别以后，至少一个从属的隐含式-马而科夫-发音模型的第一重心矢量的位置与相关的特征矢量的位置通过μ_is,m,t+1=(1-α) μⁱ _s,m,t+α x_t (3)相匹配，其中 μⁱ _s,m,t+1为新的重心矢量的分量和α为匹配系数。

5．按照上述权利要求之一的方法，在其中一个未被识别的发音表达被驳回并且不被进行匹配。

6．按照权利要求3和4的方法，在其中在用菲特比-算法的n-最佳-搜索以后一个第一发音假定的一个第一命中率和一个第二发音假定的一个第二命中率被确定，并且驳回的完成至少与这两个命中率之间的区别有关。

7．按照权利要求6的方法，在其中完成驳回，当两个命中率之间的差值下降到超过一个被确定的极限时。

8．按照权利要求1-7之一的方法，用于一个如下被构成的多语言隐含式-马而科夫-发音模型的匹配：

a)从至少一个第一特征矢量对于在一个第一语言(SP,EN,DE)中的一个第一发音(L,M,R)出发，和从至少一个第二特征矢量对于至少在一个第二语言(DE,SP,EN)中的一个可比较的说出来的第二发音出发和从其所属的第一和第二隐含式-马而科夫-发音模型出发被求出，两个隐含式-马而科夫-发音模型(L,M,R)中的哪一个能比较好地描述两个特征矢量；

b)这个隐含式-马而科夫-发音模型(L,M,R)将用作在至少两个语言(SP,EN,DE)中的发音建模。

9．按照权利要求8的方法，在其中作为尺度，对于描述一个特征矢量是通过一个隐含式-马而科夫-发音模型(L,M,R)，在每个隐含式-马而科夫-发音模型和至少一个特征矢量之间，计算出作为对数似然距离的对数概率距离，此时一个较短的距离意味着一个较好的描述。

10．按照权利要求9的方法，在其中作为尺度，对于描述特征矢量是通过隐含式-马而科夫-发音模型，在每个隐含式-马而科夫-发音模型(L,M,R)和每个各自的特征矢量之间，计算出对数的概率距离或者对数似然距离的算术的平均值，此时一个较短的距离意味着一个较好的描述。

11．按照权利要求10的方法，在其中第一隐含式-马而科夫-发音模型(L,M,R)使用一个音素λ_i和第二个隐含式-马而科夫-发音模型使用一个音素λ_j，并且在其中作为第一个和第二个特性矢量被使用X_i和X_j，其中第一个特征矢量的对数概率距离按照

d(λ_i,λ_j)=logp(X_i︱λ_j)-logp(X_i︱λ_j) (5)被确定，和第二特征矢量的对数概率距离按照

d(λ_j,λ_i)=logp(X_j︱λ_j)-logp(X_j︱λ_i) (6)被确定，其中为了得到算术平均值的一个对称的距离尺度按照

d (λ_{j}; λ_{i}) = \frac{1}{2} (d (λ_{i}, λ_{j}) = + d (λ_{j}; λ_{i})) - - - - (7)

被计算。

12．按照权利要求11的方法，

在其中这个隐含式-马而科夫-发音模型(L,M,R)对于发音建模在至少两种语言中只有在d(λ_j；λ_i)满足一个被确定的极限条件时，才被使用。

13．按照权利要求1-7之一的方法用于一个如下构成的多语言隐含式-马而科夫-发音模型的匹配：

a)从至少一个第一隐含式-马而科夫-发音模型(L,M,R)对于在一种第一语言(SP,EN,DE)中的一个第一发音出发和从至少一个第二个隐含式-马而科夫-发音模型(L,M,R)对于至少在一种第二语言(DE,SP,EN)中的一个可比较的说出来的第二发音出发，一个复-音素-模型是被这样构成，对于第一和第二隐含式-马而科夫-发音模型(L,M,R)建模所使用的标准概率分布(WD)达到一个已确定的距离阈值，它说明在两个标准概率分布(WD)之间当达到什么样的最大距离时应该将它们组合在一起成为各自的一个新的标准概率分布(WDP)，并且只有被组合的标准概率分布才能表徵复音素模型；

b)这个复音素模型被使用在至少两种语言(DE,SP,EN)(L,M,R)中的发音建模。

14．按照权利要求13的方法，

在其中作为距离阈值被确定为5。

15．按照上述权利要求之一的方法，

在其中以三种状态使用隐含式-马而科夫-发音模型，这三种状态是由发音部分首音，中间音和尾音构成的。

16．语言识别系统，它是按照上述权利要求之一的一种方法构成的。