CN100508024C - 基于hmm的文字-音素分析器及其训练方法 - Google Patents
基于hmm的文字-音素分析器及其训练方法 Download PDFInfo
- Publication number
- CN100508024C CN100508024C CN02826819.9A CN02826819A CN100508024C CN 100508024 C CN100508024 C CN 100508024C CN 02826819 A CN02826819 A CN 02826819A CN 100508024 C CN100508024 C CN 100508024C
- Authority
- CN
- China
- Prior art keywords
- phoneme
- speech
- diphones
- probability
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title claims abstract description 19
- 230000008569 process Effects 0.000 claims description 40
- 230000011218 segmentation Effects 0.000 claims description 36
- 230000007704 transition Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000004087 circulation Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 51
- 238000013459 approach Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008929 regeneration Effects 0.000 description 6
- 238000011069 regeneration method Methods 0.000 description 6
- 101100465869 Dictyostelium discoideum psiL gene Proteins 0.000 description 5
- 238000000137 annealing Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 101100465881 Dictyostelium discoideum psiP gene Proteins 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种用一个概率数据库内的概率信息为一个书写的输入词产生一个或多个音素串的基于HMM的文字-音素分析器。本发明还提供了训练这种文字-音素分析器的技术。
Description
技术领域
本发明与语音处理有关,具体地说,与语音识别系统和技术有关。
背景技术
在有些语音识别系统中,词的隐式Markov模型(Hidden Markovmodels,HMM)通过级联音素的HMM得到。为了在这样的系统中构建词模型,必须知道与词相应的音素串。在很多情况下,可以在语音词典中找到一个词的音素串(即,读音)。然而,通常在语音词典内不包括许多正当的词(例如,姓氏、商号名称等)。因此,往往需要有可以自动为一个书写的词产生一个音素串的文字-音素分析器(text-to-phoneme parser)。
附图说明
图1为例示一个传统的HMM过程的示意图;
图2为例示按照本发明的一个实施例设计的文字-音素分析系统的方框图;
图3和4为例示按照本发明的一个实施例设计的训练一个基于HMM的文字-音素分析系统的方法的流程图的两个部分;
图5为例示按照本发明的一个实施例设计的两维Viterbi搜索表的示意图;以及
图6为例示按照本发明的一个实施例设计的一个经修改的HMM过程的示意图。
具体实施方式
下面,将结合例示可以实现本发明的一些具体实施例的附图进行详细说明。这些实施例说明得非常详细,足以使熟悉该技术领域的人员能实现本发明。可以理解,本发明的这些实施例虽然有所不同,但并非是相互排斥的。例如,在这里结合一个实施例说明的具体功能、结构或特征可以在其他实施例内实现,这并不背离本发明的精神实质和专利保护范围。此外,还可以理解,在每个所揭示的实施例内的各个组成部分的位置或排列也可以更改,这也不背离本发明的精神实质和专利保护范围。因此,以下详细说明并不是限制性的,本发明的专利保护范围仅由所附权利要求书给出。在这些附图中,相似的数字所标注的是这些图中的相同或类似的功能。
本发明与训练和实现利用隐式Markov模型(HMM)的文字-音素分析器的方法和结构有关。与采用决策树技术的分析器不同,基于HMM的文字-音素分析器不需要在一个训练期期间使用专家语言知识。基于HMM分析器所用的存储器还显著地比决策树分析器的小。此外,决策树分析器通常为一个给定的词产生单个读音,而基于HMM的文字-音素分析器能为一个词产生多个不同的读音及这些读音的相应可靠性信息。可以看到,这些特色可用来改善语音识别的精确度。这些创造性的原理可以用于多种语言,特别是对于具有比较复杂的决定文字和语音之间关系的规则的语言(例如,英语)最为有益。
音素表示用来构造词的基本声音。在一个采用HMM的语音系统中,用一个词的字母和音素来形成这个词的HMM。词的音素与HMM的隐状态相应,服从一价Markov过程。图1为例示一个传统的HMM过程10应用于词“right”的示意图。图的上部是词的字母,排列成一系列字母串(即,“R”,“IGH”和“T”)。图的下部是构成所说出的词的音素(即,“R”,“AY”和“T”)。具有“—”符号的方框表示空音素(即,无声音素)。作为HMM过程10的一部分,将词的音素说成“发出(emite)”相应的字母串。发出相应的字母串的情况在图1中用箭头12表示。Markov过程还考虑到在词内相继音素之间的转移。这些转移在图1中用箭头14表示。
图2为例示按照本发明的一个实施例设计的文字-音素分析系统20的方框图。如图所示,系统20包括:文字输入单元22、基于HMM的文字-音素分析器24和概率数据库26。文字输入单元22用来将书写词递交给基于HMM的文字-音素分析器24处理。文字输入单元22可以包括例如计算机键盘或其他使用户可以输入词的手动数据输入装置。其他类型的文字输入装置也是可以的。基于HMM的文字-音素分析器24对书写词进行分析,确定这个词的一个或多个音素串。所产生的音素串于是可以用来导出一个或多个用于相应词的Markov模型。为了为一个输入词产生一个音素串,基于HMM的文字-音素分析器24利用存储在概率数据库26内的概率信息。除了其他信息,概率数据库26通常包括与对于一个给定的语音词典的转移概率(transition probability)和发出概率(emission probability)有关的信息。基于HMM的文字-音素分析器24在Markov过程期间利用这信息确定对于输入词的一个或多个具有最高似然性的音素串。
在图2的系统20可以使用前,需要对系统进行“训练”,以在数据库26内形成概率信息。这个训练将表征对象语言的字母与音素之间的统计关系。在训练过程开始前,可以就对象语言的组成作若干假设。一个这样的假设是对单个音素可以发出的字母串的长度作出限制。例如,在至少是英语实施例中,假设单个音素只可以发出一个到四个字母的字母串。另一个这样的假设是假设两个音素可以组合成发出单个字母(例如,在词“sex”中,音素“K”和“S”可以组合成发出字母“x”)。这样的组合在这里称为“双音素(diphone)”。通常,双音素在训练开始前是不知道的,因此需要在训练期间确定。还可以作出其他一些假设。
图3和4为例示按照本发明的一个实施例设计的训练一个基于HMM的文字-音素分析系统的方法的流程图的两个部分。在至少一个实现中,这种方法有些或全部用在一个或多个数字处理设备(例如通用微处理器、数字信号处理器(DSP)、精简指令系统计算机(RISC)、复杂指令系统计算机(CISC)、现场可编程门阵列(FPGA)和/或其他设备)内执行的软件实现。为了启动训练过程,首先要准备一本包括对一个给定的词汇表的读音的语音词典(方框32)。这本词典可以是例如任何市售的语音词典。在一个实现中,使用的是Carnegie Mellon大学(CMU)的语音词典。CMU语音词典包括大约127,000个英文词与它们相应的语音读音。CMU语音词典还定义了英语中的39个各别音素。当然,也可以是使用其他词典。
对语音词典的词根据词典内相应读音进行沿线分段(Linearsegmentation)(方框34)。在沿线分段期间,每个词沿线分成一些段,段的数目等于相应词典读音内这个词的音素的数目。如果音素的数目超过词内字母的数目,可以假设存在双音素。根据沿线分段的结果,可以产生一个初始音素发出概率矩阵和双音素发出概率矩阵(方框36)。音素发出概率矩阵包括由特定的音素发出特定的字母串的概率(即P(字母串|音素))。双音素发出概率矩阵包括由特定的音素对发出特定的字母的概率(即,P(字母|音素1,音素2))。在一种方法中,每个概率可以利用沿线分段信息通过简单的计数来确定。例如,P(字母串|音素)将等于在沿线分段信息内与这个音素一起出现这个字母串的数目除以这个音素出现的总数。类似,P(字母|音素1,音素2)将等于在沿线分段信息内与这个音素对(即,音素1,音素2)一起出现这个字母的数目除以出现这对音素的总数。
用这两个初始发出概率矩阵执行有监督分段(supvisedsegmentation),将词典内的每个词分段成它的相应一些音素(方框38)。这种分段称为“有监督”分段,因为它是利用一个巳知的音素串进行分段的。在一种方法中,有监督分段利用Viterbi搜索技术执行。图5为例示可用来执行对词“位置”执行Viterbi搜索的二维表66的示意图。如图所示,表66的水平轴列出了词的各个字母(每个列一个字母),而垂直轴列出了从语音词典得到的词的各个音素(每个行一个音素)。从左下角的方块68开始,形成一系列通过表66的路径,以寻找一条“最可能”表示相应词的恰当分段的路径。为了保证因果性,Viterbi过程最好在表66中按列从左至右执行,在一个列内的所有音素都考虑过后再进至下一列。用来自初始音素发出概率矩阵和初始双音素发出概率矩阵的信息确定表66内各条路径的概率得分(Probabilityscore)。如果采用对数概率,这些得分通常将是一些概率和。如果采用传统的概率,这些得分通常将是一些概率积。在以下讨论中,假设采用对数概率。
来看图5,在方块68内,输入的是音素“L”发出字母“L”的概率(图中示为L|L,其中第二个L为音素)。在方块70内,输入的是音素对“L,OW”将发出字母“L”(即双音素)的概率。在方块72内,输入音素“L”将发出字母串“LO”的概率。在方块74内,输入的是(a)音素“L”发出字母“L”的概率与(b)音素“OW”发出字母“O”的概率之和。显然,已经从方块68到方块74建立了一条路径,而这和表示到达这个方块的路径的得分。在表66内有两条路径可通达方块76。在一种搜索方法中,计算出每条路径的得分,然后为这个方块录下这两个得分中较高的得分以及相应的路径信息。第一条从方块68至方块76的路径涉及音素对“OW,K”发出字母“O”。这条路径的得分为(a)音素“L”将发出字母“L”的概率(从方块68得到)与(b)音素对“OW,K”将发出字母“O”的概率之和。第二条路径是从方块70至方块76,涉及音素“K”发出字母“O”。这条路径的得分为(a)音素“L,OW”将发出字母“L”的概率(从方块70得到)与(b)音素“K”将发出字母“O”的概率之和。计算出这两条路径的得分后,录下较高的得分以及相应的路径信息。
在方块78内,输入音素“L”将发出字母串“LOC”的概率,作为得分。与方块76相似,有两条路径可以通达方块80。第一条路径从方块68通达,得分为(a)音素“L”将发出字母“L”的概率(从方块68得到)与(b)音素“OW”将发出字母“OC”的概率之和。第二条路径从方块72通达,得分为(a)音素“L”将发出字母串“L0”的概率(从方块72得到)与(b)音素“OW”将发出字母“C”的概率之和。同样,录下较高的得分以及相应的路径信息。有三条路径可以通达方块82。第一条路径从方块74通达,得分为方块74的得分与音素“K”将发出字母“C”的概率之和。第二条路径从方块70通达,得分为方块70的得分与音素“K”将发出字母串“OC”的概率之和。第三条路径从方块72通达,得分为方块72的得分与音素对“OW,K”将发出字母“C”的概率之和。然后,录下这三个得分中最高的得分以及相应的路径信息。
可用同样的基本程序来完成表格66的其余各项。例如,为了确定方块84的得分,必须考虑五条可能的路径(即从方块86,88,90,92与94通达)。这五个候选得分计算如下:
得分(方块84)=得分(方块86)+logP(OCAT|SH)
得分(方块84)=得分(方块88)+logP(CAT|SH)
得分(方块84)=得分(方块90)+logP(AT|SH)
得分(方块84)=得分(方块92)+logP(T|SH)
得分(方块84)=得分(方块94)+logP(T|EY,SH)
将这五个候选得分中最高的得分选为方块84的得分,并录下相应的路径信息。在一种方法中,在搜索期间填入两个数组。第一个数组(即,得分(字母,音素))记录通达表66内每个方块的最佳路径的得分。第二个数组(即,psi(字母,音素))记录数组内每个方块是从哪个方块通过最佳路径到达这个方块的。
表66填好后,执行一个回溯过程(backtracking process),以确定通过表66的最佳路径。从表66最后一列中的最后一行开始,用psi数组来确定所以得到高分的路径。所确定的路径与对这个对象词的最优分段相应。对于语音词典内的每个词都执行这个Viterbi过程。再来看图3,对这些词执行了有监督分段后,用有监督分段的结果产生新的音素发出概率矩阵和双音素发出概率矩阵(方框40)。可以再次如前面所说明的那样采用简单的计数策略。然后在一个迭代过程中重复有监督分段和再生概率矩阵的循环,直到满足预定条件(方框42)。通常,全部词典词的得分之和将随着每个相继循环单调递增。在一种方法中,分段和概率矩阵重新计算的循环执行到得分之和停止增大(或者以低于预定速度增大)。在另一种方法中,就执行预定次循环。其他终止迭代过程的条件也是可行的。
在本发明的至少一个实施例中,在产生新的音素发出概率矩阵和新的双音素发出概率矩阵(见方框40)期间采用“退火(annealing)”。也就是说,将概率矩阵内所有低于一个预定门限值的元都设置为这个门限值(或另一个值)。在随后的分段和矩阵再生期间也可以采用退火。在一种可行的技术中,在概率矩阵初始再生期间采用第一门限值(例如,为0.15),而对于每个后继的循环采用越来越低的门限值。
在训练过程中,此时就已从原来的实体得出了音素发出概率矩阵和双音素发出概率矩阵。过程确定了一些双音素后,将它们连同相应的计数信息一起列入双音素发出概率矩阵。在典型情况下最常出现的双音素涉及音素对“K,S”发出字母“X”。次常出现的双音素通常涉及音素对“Y,UW”发出字母“U”。还可以确定许多其他双音素,包括许多低计数的双音素。现在,对所确定的双音素进行删节,以减少由系统辨别的正当双音素的总数(方框44)。在一种方法中,在删节过程期间选择双音素中预定个计数最高的双音素(例如,10个双音素)。在另一种方法中,选择所有计数大于预定值的双音素。其他删节技术也是可行的。
来看图4,现在通过添加经删节的双音素建立一个扩展的音素集(方框46)。例如,在一个实现中,将删节后的10个双音素和空音素添入CMU语音词典的39个音素,从而产生一个扩展的音素集。此后,这些双音素将被处理为普通的音素,因此允许发出具有一个到四个字母的字母串。利用这个扩展的音素集,再次对词典内的每个词进行有监督分段(方框48)。这次的有监督分段可以包括例如类似于图5所示的Viterbi搜索。然而,这次Viterbi搜索现在将限于经删节的双音素集,而不是考虑所有可能的双音素。此外,如果Viterbi搜索表在它的对于一个特定的词的垂直轴内包括一个正当双音素,这个搜索过程现在必须认为这个双音素可以发出长度为一个到四个字母的字母串而不是象前面那样单个字母。否则,可以按与前面所说明的类似的方式计算出每个方块的得分。对于词典内的每个词,填好相应的相应后再用回溯来确定通过表的最佳路径。即使一个词的词典读音包括一个形成一个正当双音素的音素对,Viterbi过程也不会自动地这样解释这个音素对。也就是说,这个音素对将只解释为一个双音素,如果得分最高的路径将它认作一个双音素的话。
有监督分段完成后,用分段结果产生一个新的音素发出概率矩阵(方框50)。此时还产生一个音素“转移”概率矩阵。除了原来的音素之外,音素发出概率矩阵还包括经删节的双音素的发出概率。音素转移概率矩阵将基于给定上个音素时将出现一个特定的音素的概率(即,P(音素|上个音素)。如前面那样,可用一种简单计数方法来产生这些矩阵。在另一种方法中,音素转移概率矩阵初始化成所有的转移概率都具有相同的值。然后,这些初始值可以在分段和矩阵再生的后续各循环期间改变。产生了新的音素发出概率矩阵和音素转移概率矩阵后,这两个矩阵或者其中一个矩阵可以象前面所说明的那样予以退火。
用这新的音素发出概率信息和新的音素转移概率信息再次对词典词执行有监督分段(方框52)。同样,可以执行Viterbi搜索来分段词。然而,在搜索期间产生的得分现在将涉及转移概率以及发出概率。例如,如图5所示,为了产生方块84的得分,必需考虑以下候选得分:
得分(方块84)=得分(方块86)+logP(OCAT|SH)+logP(SH|音素86)
得分(方块84)=得分(方块88)+logP(CAT|SH)+logP(SH|音素88)
得分(方块84)=得分(方块90)+logP(AT|SH)+logP(SH|音素90)
得分(方块84)=得分(方块92)+logP(T|SH)+logP(SH|音素92)
其中音素86是与通达方块86的最佳路径关联的音素,音素88是与通达方块88的最佳路径关联的音素,音素90是与通达方块90的最佳路径关联的音素,而音素92是与通达方块92的最佳路径关联的音素。如果音素对“EY,SH”是一个正当的双音素,就还要考虑对于这个双音素(对于长度从1到4个字母的字母串)的附加候选得分。选择最高的候选得分,与相应的路径信息一起录下。对于词典内的每个词,如上面所说明的那样产生一个Viterbi搜索表。然后,用回溯来确定通过这个表的最佳路径,以确定对这个词的适当分段。
利用最新分段的结果,产生经更新的音素发出概率矩阵和音素转移概率矩阵(方框54)。如上所述,可以采用计数方法。例如,在一个实现中,对于所有的音素产生以下计数:计数(字母串|音素)和计数(音素|上个音素)。然后,用计数信息产生概率矩阵。于是可以重复这个有监督分段和矩阵再生循环直到满足预定条件(方框56)。例如,可以重复这个循环直到所有的词的得分之和停止增大(或者以低于预定速度增大)或者执行了预定次循环。在这些循环中的一个或多个循环期间可以执行退火,如前面所述。最后,产生最终的音素发出概率矩阵和音素转移概率矩阵。这些矩阵存储起来供在将来的文字-音素分析操作期间使用(方框58)。
在以上的讨论中,假设使用的是传统的Markov过程(诸如图1所例示的)。在本发明的至少一个实施例中,使用了经修改的HMM过程。例如,图6例示了一个按照本发明的一个实施例设计的广义HMM过程100。如图6所示,首先假设前一个音素(例如,为空音素110)导出后一个音素(例如,音素“R”112)。然后,假设这前、后音素导出一个字母串(例如,字母“R”114)。这在图6中示为箭头102和104。再假设这后一个音素(例如,音素“R”112)和字母串(例如,字母“R”114)导出下一个音素(例如,音素“AY”116)。这在图6中示为箭头106和108。这个过程从左至右进行,音素i和音素i+1导出字母串i+1,而音素i+1和字母串i+1导出音素i+2。
为了实现图6所示的广义HMM过程100,可以定义一个“广义”发出概率矩阵和一个“广义”转移概率矩阵。广义发出概率矩阵可以包括例如给定一个音素和前一个音素时将导出特定字母串的概率(即,P(字母串|音素,前一音素))。广义转移概率矩阵可以包括例如给定前一音素和前一字母串时将出现特定音素的概率(即,P(音素|前一音素,前一字母串))。在本发明的至少一个实施例中,图3和4所示的训练方法修改成可以产生上述广义发出概率矩阵和广义转移概率矩阵。例如,在图4的方框54,可以用最新的有监督分段的结果产生广义发出概率矩阵和广义转移概率矩阵而不是产生音素发出概率矩阵和音素转移概率矩阵。然后,可以执行分段和矩阵再生的附加循环,以进一步改善广义发出概率矩阵和广义转移概率矩阵。最后产生的最终矩阵存储起来供以后在文字-音素分析操作期间使用。
训练结束后,可用在训练阶段期间产生的概率矩阵执行文字-音素分析。也就是说,可用这两个矩阵产生与书写词相应的一个或多个音素串。所分析的各个词不必是在训练期间所用的语音词典中的词。相反,按照本发明设计的文字-音素分析器可用来分析多种多样的通常不包括在语音词典内的词,诸如人名之类。在一种方法中,在一个要分析的书写词输入后,就对这个字进行“无监督”分段。这种分段称为“无监督的”是因为并不对基础音素串的先验知识有所假设。分段可以用与前面所说明的分段操作类似的方式进行。也就是说,可以用一个Viterbi搜索表,这个表在水平轴上列出了书写词的字母而在垂面轴上列出了音素。然而,在表的垂直轴上列出的是扩展的音素集内的所有音素,而不是用这个词本身的音素(因为这些音素此时是不知道的)。搜索过程以本质上与前面所说明的相同的方式进行。在按列从左至右转移的同时产生各个方块的得分。还为这些方块录下了路径信息。在完成这个表时,就可以确定最高总分,再用回溯来确定相应路径。这条路径与输入词的最可能的音素串相应。
在采用广义HMM过程时,文字-音素分析(解码)可以如下这样进行。分析器对水平轴包括需分析的字母而垂直轴包括广义音素(所有音素都参与)的一个表进行操作。为表定义了三个逐字母(即按列)填入的数组。这些数组为“得分”数组、“psiP”数组和“psiL”数组。变量得分[I][P]纪录了通过表到达第I个字母和第P个音素这个方块的最佳路径的得分。变量psiL[I][P]纪录了路径的最后一段由音素P发出的字母的数目(在一个实施例中为从一个到四个字母)。给定了psiL[I][P],就知道最佳路径是从字母I-psiL[I][P]开始的。因此需要确定开始这条路径的音素的正身。这个音素用psiP[I][P]表示。从[I-3][P2]方块到达[I][P1]方块的路径的得分由以下递推关系给出:
得分[I][P1]=得分[I-3][P2]+logP[P1|P2,接P2的字母串]+logP(3个字母I-2,I-1,I|P1,P2)
其中第一个logP项为广义转移项,元“接P2的字母串”从psiL[I-3][P2]得出,而第二个logP项为广义发出项。选择的是得分最高的路径。例如,如果以上得分是最高分,于是设置psiL[I][P1]=3,而psiP[I][P1]=P2。
为了分析一个给定的词,必须首先“进入”这个词和最后“退出”这个词。在本发明的一个实施例中,在要分析的词的前、后各安插了一个空字母。例如,词“RIGHT”表示为“_RIGHT_”(下划线表示一个空字母)。在词“_RIGHT_”内,第一个下划线与附标I=0相应,“R”与附标I=1相应,诸如此类。所有的进入路径都是从方块[I=0][音素=0]开始。一个可能的进入路径通过以下递推给出:
得分[I=1][P1=R]=得分[I=0][音素=0]+logP[P1=R|P2=0,字母串=空]+logP(字母串=R|P1=R,P2=空)
所有的退出路径结束于方块[I=6][P1=空]。一个可能的退出路径通过以下递推给出:
得分[I=6][P1=空]=得分[I5][P2T+logP(P1=空|P2=T,字母串=T)+logP(字母=空|P1=空,P2=T)如果分析的是词“RIGHT”,表内就有七个列,包括词的前、后各一个空字母。按列从I=1开始直至I=6(空退出字母)填入“得分”和“psi”。对于空字母只允许空音素(如以上退出等式所示)。填好这些数组后,用回溯从方块[I=6][P1=空]开始找到最佳分析。
在本发明的至少一个实施例中,在分析过程期间产生与一个书写词相应的N个音素串(其中,N为大于1的正整数)。这N个最佳音素串可以介绍给用户,例如允许用户为这个输入词从这N个备选音素串中选择一个音素串(即,读音)。为了产生这N个最佳串,必须保持这N个通达搜索表内每个方块的最佳路径的径迹。然后,对在表最后一列内的N个最佳得分执行回溯。可以将分析器为一个给定的词提供的N个最佳音素串组织成一个读音网络。这种组织在变换成这个词的声学模型时需要较小的存储器。
为了减少在分析器内存储器的使用,可以限制为书写词的每个字母(即,搜索表的每个列)保存的最佳路径的数目。例如,在搜索表每个列内,可以只为一小部分音素保存最佳路径信息,而不是为在垂直轴内列出的所有音素(例如,在一个实施例中为49个音素)保存最佳路径。在测试这种方法中,发现在为一个表的每个列只保存10条最佳路径的情况下几乎感觉不到有性能下降。同时,达到了将存储器的使用减少为五分之一。在搜索N个最佳音素串时可以得到类似的结果。
在以上说明中,已经结合所揭示的实施例确定了不同的数据结构(例如,矩阵、数组等)。应该看到,在这些实施例中的数据组织和存储的具体格式并不是限制性的。
虽然以上是结合一些具体实施例对本发明进行说明的,但熟悉该技术领域的人员很容易理解,在不背离本发明的精神实质和专利保护范围的情况下可以作出各种修改和变动。所有这样的修改和变动都应列入所附权利要求书给出的本发明的专利保护范围。
Claims (14)
1.一种训练一个文字-音素分析系统的方法,所述方法包括下列步骤:
根据一本语音词典内的读音产生第一信息,所述第一信息确定了多个可能的双音素;
根据出现频率信息删节所述多个可能的双音素,产生一些经删节的双音素;
形成一个包括所述经删节的双音素作为正当音素的一个扩展的音素集;以及
根据所述扩展的音素集产生第二信息,供在执行文字-音素分析中使用。
2.权利要求1的方法,其中:
所述第一信息包括双音素发出信息。
3.权利要求1的方法,其中:
所述第一信息包括音素发出信息。
4.权利要求1的方法,其中:
所述产生第一信息的步骤包括对所述语音词典内的词执行有监督分段。
5.权利要求4的方法,其中:
所述执行有监督分段的步骤包括对一个第一词执行Viterbi搜索,以根据所述第一词在所述语音词典内所标的一组音素确定所述第一词的最佳分段。
6.权利要求1的方法,其中:
所述产生第一信息的步骤包括对所述语音词典内的词执行有监督分段和概率产生的循环。
7.权利要求1的方法,其中:
所述删节可能的双音素的步骤包括从所述多个可能的双音素中选择一些具有最高出现次数的双音素。
8.权利要求1的方法,其中:
所述语音词典标出了一个初始的音素集;以及
所述形成一个扩展的音素集的步骤包括将所述经删节的双音素添入所述初始的音素集。
9.权利要求1的方法,其中:
所述产生第二信息的步骤包括为所述扩展的音素集内的音素产生音素发出概率。
10.权利要求1的方法,其中:
所述产生第二信息的步骤包括为所述扩展的音素集内的音素产生音素转移概率。
11.权利要求1的方法,其中:
所述产生第二信息的步骤包括产生在给定一个当前音素和前一个音素时将导出一个特定字母串的概率。
12.权利要求1的方法,其中:
所述产生第二信息的步骤包括产生在给定前一个音素和一个由所述前一个音素发出的字母串时将导出一个特定音素的概率。
13.权利要求1的方法,其中:
所述产生第二信息的步骤包括对所述语音词典内的词执行有监督分段。
14.权利要求1的方法,其中:
所述产生第二信息的步骤包括对所述语音词典内的词执行有监督分段和概率产生的循环。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/013,239 | 2001-11-06 | ||
US10/013,239 US20030088416A1 (en) | 2001-11-06 | 2001-11-06 | HMM-based text-to-phoneme parser and method for training same |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1613107A CN1613107A (zh) | 2005-05-04 |
CN100508024C true CN100508024C (zh) | 2009-07-01 |
Family
ID=21758938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN02826819.9A Expired - Fee Related CN100508024C (zh) | 2001-11-06 | 2002-10-29 | 基于hmm的文字-音素分析器及其训练方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20030088416A1 (zh) |
EP (2) | EP1444686B1 (zh) |
CN (1) | CN100508024C (zh) |
AU (1) | AU2002363483A1 (zh) |
DE (1) | DE60231532D1 (zh) |
HK (1) | HK1070170A1 (zh) |
MY (1) | MY141708A (zh) |
WO (1) | WO2003041051A2 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2391143A (en) * | 2002-04-17 | 2004-01-28 | Rhetorical Systems Ltd | Method and apparatus for scultping synthesized speech |
US8321427B2 (en) | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
FR2864281A1 (fr) * | 2003-12-18 | 2005-06-24 | France Telecom | Procede de correspondance automatique entre des elements graphiques et elements phonetiques |
US7693715B2 (en) * | 2004-03-10 | 2010-04-06 | Microsoft Corporation | Generating large units of graphonemes with mutual information criterion for letter to sound conversion |
FR2892555A1 (fr) * | 2005-10-24 | 2007-04-27 | France Telecom | Systeme et procede de synthese vocale par concatenation d'unites acoustiques |
DE602006003723D1 (de) | 2006-03-17 | 2009-01-02 | Svox Ag | Text-zu-Sprache-Synthese |
US20070233490A1 (en) * | 2006-04-03 | 2007-10-04 | Texas Instruments, Incorporated | System and method for text-to-phoneme mapping with prior knowledge |
US20090299731A1 (en) * | 2007-03-12 | 2009-12-03 | Mongoose Ventures Limited | Aural similarity measuring system for text |
GB0704772D0 (en) * | 2007-03-12 | 2007-04-18 | Mongoose Ventures Ltd | Aural similarity measuring system for text |
CN101178896B (zh) * | 2007-12-06 | 2012-03-28 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
US20100125459A1 (en) * | 2008-11-18 | 2010-05-20 | Nuance Communications, Inc. | Stochastic phoneme and accent generation using accent class |
US8340965B2 (en) * | 2009-09-02 | 2012-12-25 | Microsoft Corporation | Rich context modeling for text-to-speech engines |
US8594993B2 (en) | 2011-04-04 | 2013-11-26 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
CN103186658B (zh) * | 2012-12-24 | 2016-05-25 | 中国科学院声学研究所 | 用于英语口语考试自动评分的参考语法生成方法和设备 |
CN104901807B (zh) * | 2015-04-07 | 2019-03-26 | 河南城建学院 | 一种可用于低端芯片的声纹密码方法 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
RU2692051C1 (ru) | 2017-12-29 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для синтеза речи из текста |
CN108510978B (zh) * | 2018-04-18 | 2020-08-21 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及系统 |
JP7332486B2 (ja) * | 2020-01-08 | 2023-08-23 | 株式会社東芝 | 記号列変換装置および記号列変換方法 |
CN113393831B (zh) * | 2020-03-13 | 2023-12-26 | 开曼商阿普力特医疗股份有限公司 | 基于至少双音素的语音输入操作方法及计算机可读介质 |
CN112037770B (zh) * | 2020-08-03 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 发音词典的生成方法、单词语音识别的方法和装置 |
CN112905024B (zh) * | 2021-01-21 | 2023-10-27 | 李博林 | 单词的音节记录方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2145298A1 (en) * | 1992-09-23 | 1994-03-31 | Sandra E. Hutchins | Method and apparatus for speech synthesis |
US5995926A (en) * | 1997-07-21 | 1999-11-30 | Lucent Technologies Inc. | Technique for effectively recognizing sequence of digits in voice dialing |
DE19942178C1 (de) * | 1999-09-03 | 2001-01-25 | Siemens Ag | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5949961A (en) * | 1995-07-19 | 1999-09-07 | International Business Machines Corporation | Word syllabification in speech synthesis system |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
JP3302266B2 (ja) * | 1996-07-23 | 2002-07-15 | 沖電気工業株式会社 | ヒドン・マルコフ・モデルの学習方法 |
DE59902946D1 (de) * | 1998-05-11 | 2002-11-07 | Siemens Ag | Verfahren und anordnung zur einführung zeitlicher abhängigkeit in hidden-markov-modellen für die spracherkennung |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
-
2001
- 2001-11-06 US US10/013,239 patent/US20030088416A1/en not_active Abandoned
-
2002
- 2002-10-29 WO PCT/IB2002/004495 patent/WO2003041051A2/en not_active Application Discontinuation
- 2002-10-29 CN CN02826819.9A patent/CN100508024C/zh not_active Expired - Fee Related
- 2002-10-29 EP EP02802680A patent/EP1444686B1/en not_active Expired - Fee Related
- 2002-10-29 AU AU2002363483A patent/AU2002363483A1/en not_active Abandoned
- 2002-10-29 EP EP07015758A patent/EP1850323A1/en not_active Withdrawn
- 2002-10-29 DE DE60231532T patent/DE60231532D1/de not_active Expired - Lifetime
- 2002-11-05 MY MYPI20024127A patent/MY141708A/en unknown
-
2005
- 2005-01-21 HK HK05100597.2A patent/HK1070170A1/xx not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2145298A1 (en) * | 1992-09-23 | 1994-03-31 | Sandra E. Hutchins | Method and apparatus for speech synthesis |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5995926A (en) * | 1997-07-21 | 1999-11-30 | Lucent Technologies Inc. | Technique for effectively recognizing sequence of digits in voice dialing |
DE19942178C1 (de) * | 1999-09-03 | 2001-01-25 | Siemens Ag | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung |
Non-Patent Citations (4)
Title |
---|
Introduction To Text-To-Speech Synthesis. DUTOIT T.AN INTRODUCTION TO TEXT-TO-SPEECH SYNTHESIS, TEXT, SPEECH AND LANGUAGE TECHNOLOGY,Vol.3 . 1997 |
Introduction To Text-To-Speech Synthesis. DUTOIT T.AN INTRODUCTION TO TEXT-TO-SPEECH SYNTHESIS, TEXT, SPEECH AND LANGUAGE TECHNOLOGY,Vol.3. 1997 * |
STOCHASTIC PHONOGRAPHIC TRANSDUCTION FORENGLISH. LUK R W P ET AL.COMPUTER SPEECH AND LANGUAGE, ACADEMIC PRESS,Vol.10 . 1996 |
STOCHASTIC PHONOGRAPHIC TRANSDUCTION FORENGLISH. LUK R W P ET AL.COMPUTER SPEECH AND LANGUAGE, ACADEMIC PRESS,Vol.10. 1996 * |
Also Published As
Publication number | Publication date |
---|---|
EP1444686A2 (en) | 2004-08-11 |
WO2003041051A2 (en) | 2003-05-15 |
AU2002363483A1 (en) | 2003-05-19 |
EP1444686B1 (en) | 2009-03-11 |
DE60231532D1 (de) | 2009-04-23 |
EP1850323A1 (en) | 2007-10-31 |
HK1070170A1 (en) | 2005-06-10 |
MY141708A (en) | 2010-06-15 |
WO2003041051A3 (en) | 2003-10-09 |
CN1613107A (zh) | 2005-05-04 |
US20030088416A1 (en) | 2003-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100508024C (zh) | 基于hmm的文字-音素分析器及其训练方法 | |
CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
US5848389A (en) | Speech recognizing method and apparatus, and speech translating system | |
US5729656A (en) | Reduction of search space in speech recognition using phone boundaries and phone ranking | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
Mangu et al. | Finding consensus in speech recognition: word error minimization and other applications of confusion networks | |
US7240002B2 (en) | Speech recognition apparatus | |
US5268990A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
Lee et al. | A frame-synchronous network search algorithm for connected word recognition | |
Mangu et al. | Finding consensus among words: lattice-based word error minimization. | |
JP5141687B2 (ja) | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 | |
JP4757936B2 (ja) | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111145729B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
JP2002531892A (ja) | テキストの自動区分 | |
CN111199727A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
JP2000075895A (ja) | 連続音声認識用n最良検索方法 | |
WO2004034378A1 (ja) | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 | |
Oh et al. | Fast offline transformer‐based end‐to‐end automatic speech recognition for real‐world applications | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
Hall et al. | Language modeling using efficient best-first bottom-up parsing | |
US20050049873A1 (en) | Dynamic ranges for viterbi calculations | |
Hu et al. | On-line handwriting recognition with constrained n-best decoding | |
JPH1078793A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090701 Termination date: 20101029 |