CN1223739A - 用于语音识别的动态调节的训练方法和系统 - Google Patents

用于语音识别的动态调节的训练方法和系统 Download PDF

Info

Publication number
CN1223739A
CN1223739A CN97195936A CN97195936A CN1223739A CN 1223739 A CN1223739 A CN 1223739A CN 97195936 A CN97195936 A CN 97195936A CN 97195936 A CN97195936 A CN 97195936A CN 1223739 A CN1223739 A CN 1223739A
Authority
CN
China
Prior art keywords
voice unit
speech
probability
pronunciation
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97195936A
Other languages
English (en)
Other versions
CN1165887C (zh
Inventor
晓-文·洪
学东·D·黄
眉-宇·黄
励·蒋
云-成·鞠
米林德·V·马哈贾
米切尔·J·若扎克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1223739A publication Critical patent/CN1223739A/zh
Application granted granted Critical
Publication of CN1165887C publication Critical patent/CN1165887C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

一种用来动态选择用来训练语音识别系统的词的方法和系统。语音识别系统使用隐藏的马尔克夫模型模拟每个音素,并且把每个词表示为音素的一个序列。训练系统根据相应代码字将作为音素的部分读出的概率排列用于每帧的每个音素。训练系统收集其相应词是已知的读出发音。训练系统然后把每个发音的代码字与它认为是其部分的音素对准。训练系统然后使用对准帧的对准代码字来计算对于每个音素的平均等级。最后,训练系统选择包含具有低等级的音素的词用于训练。

Description

用于语音识别的动态调节的训练方法和系统
本发明涉及计算机语音识别,更具体地说,涉及训练一种计算机语音识别系统。
借助于计算机系统迅速和准确地识别人类语音早就是计算机系统开发者长期追求的目标。由这样一种计算机语音识别(CSR)系统产生的益处是显著的。例如,与其把文件用键盘打入计算机系统中,倒不如人简单地读出文件的词,并且CSR系统识别词且存储每个词的字母,就象已经用键盘打出词一样。由于人们一般说得比打字快,所以能提高效率。而且,人们不必学习如何打字。计算机还能用于许多这样的用途中,在因为人的手忙于打字之外的任务而无法使用的场合中。
典型的CSR系统借助于把读出的发音与词汇中每个词的模型相比较来识别词。把其模型与发音匹配最好的词识别为讲出的词。CSR系统将每个词看作一个组成该词的音素序列的模型。为了识别发音,CSR系统辨别一个词序列,该序列的音素与发音很好地匹配。然而,这些音素可能与组成词的音素对应得不准确。因而,CSR系统一般使用概率分析,以确定哪个词最接近地对应于辨别的音素。
当识别发音时,CSR系统把代表发音的模拟信号转换成用来进一步处理的更适用形式。CSR系统首先把模拟信号转换成数字形式。CSR系统然后对该数字形式采用信号处理技术,如快速傅里叶变换(FFT)、线性预测编码(LPC)、或滤波器组,以抽取发音的适当参数表示。通常使用的表示是一个带有代表在各间隔(称为“帧”)处的频带和/或能带的FFT或LPC系数的“特征向量”。诸间隔依据计算机系统的计算容量和识别过程的希望准确度可短可长。典型间隔可能在10毫秒的范围内。就是说,CSR系统对于每10毫秒的发音产生一个特征向量。每帧一般25毫秒长。因此,每10毫秒产生一个25毫秒长的帧。在连续的帧之间有重叠。
为了便于特征向量的处理,把每个特征向量量化成有限数量(例如256个)的“量化向量”之一。就是说,CSR系统定义多个选择为代表特征向量典型或平均范围的量化向量。CSR系统然后把每个特征向量与每一个量化向量相比较,并且选择最接近类似于特征向量的量化向量,以表示特征向量。每个量化向量唯一地由一个数辨别(例如在1与256之间),这个数称作“代码字”。当一个特征向量表示为量化向量时,有信息丢失,因为多个不同的特征向量映到相同的量化向量上。为了保证这种信息丢失不会严重影响识别,CSR系统可以定义几千或几百万个量化向量。存储这样大数量的量化向量的定义所需的存储量会相当大。因而,为了减小所需的存储量,CSR系统将特征向量分段,并且把每段量化成小数量(例如256个)量化向量之一。因而,每个特征向量由用于每个段的量化向量(由一个代码字辨别)表示。为了解释简单起见,描述没有将特征向量分段并因而每个特征向量(或帧)仅有一个代码字的CSR系统。
如以上讨论的那样,读出的发音经常与词的模型对应得不准确。找到准确对应性的困难归因于语音中的巨大变化,语音不能由词模型完全和准确地捕捉。这些变化例如是由讲话者的音调、人讲话的速度和音高、讲话者的当前健康状况(例如感冒)、讲话者的年龄和性别等等产生的。使用概率技术的CSR系统在准确识别语音方面,比寻找准确对应的技术更成功。
通常用于语音识别的这样一种概率技术是隐藏马尔可夫(Markov)模型。CSR系统可以把隐藏马尔可夫模型(“HMM”)用于词汇中的每个词。用于词的HMM包括由其能导出代码字的任何序列对应于该词的概率的概率信息。因而,为了识别发音,CSR系统把发音转换成一个代码字序列,并且然后把HMM用于每个词,以确定词对应于发音的概率。CSR系统把发音识别为具有最高概率的词。
HMM由一个状态图表示。状态图传统上用来确定系统接收一个输入序列后处于的状态。状态图包括状态和源状态与目标状态之间的过渡段。每个过渡段与一个输入有关,该输入指示当系统接收到该输入且处于源状态时,系统将过渡到目标状态。这样一种状态图,例如能由识别代码字每个序列的系统使用,这些代码字组成词汇中的词。当系统处理每个代码字时,系统根据当前状态和正在处理的代码字确定下一个状态。在这个例子中,状态图可能具有对应于每个词的一定最终状态。然而,如果表示一个词的多种发音,那么每个词可能具有多个最终状态。如果在处理代码字之后,系统处于对应于一个词的最终状态,那么能把代码字的序列识别为最终状态的词。
然而,一个HMM具有与对于每个代码字从一个状态到另一个状态的每个过渡段有关的概率。例如,如果HMM处于状态2,那么某一代码字导致从当前状态过渡到下一状态的概率可能是.1,而相同代码字导致从当前状态过渡到下一不同状态的概率可能是.2。类似地,另一个不同代码字导致从当前状态过渡到下一状态的概率可能是.1。由于HMM具有与其状态图有关的概率,所以对于给定的代码字序列的最终状态的确定仅能用概率表示。因而,为了确定对于一个代码字序列的每个可能最终状态的概率,需要辨别用于HMM状态图的状态的每个可能序列,并且需要计算有关的概率。状态的每个这种序列称为状态路径。
为了简化识别,与其使用带有表示对于每个可能词用于代码字的每个可能序列的概率的大状态图的HMM,倒不如CSR系统用HMM表示每个可能的语音单元,并且把每个词表示为语音单元序列。传统上,语音单元就是音素。然而,已经使用了其他语音单元,如句素(Senones)。(见Hwang等,“用句素预测未知的三音素(Predicting Unseen Triphones withSenones)”,Proc.ICASSP’93,1993年,卷Ⅱ,第311-314页。)对于用于每个语音单元的HMM,CSR系统通过连接用于组成词的音素的HMM和估计生成的HMM,来估计表示某一词的音素序列的概率。
每个HMM包含对于每个状态中每个代码字将导致彼此状态过渡的概率。与每个状态过渡有关的概率由用于该状态的代码字依赖输出概率、和用于状态的代码字无关过渡概率表示。用于状态的代码字依赖输出概率反映在代码字序列导致HMM处于该状态之后,音素将包含该代码字作为下一个代码字的可能性。状态的代码字无关过渡概率指示HMM将从该状态过渡到每个下一状态的概率。因而,当输入代码字时HMM将从当前状态过渡到下一状态的概率,是从当前状态到下一状态的过渡概率与用于接收代码字的输出概率的乘积。
图1表明用于音素的样本HMM。HMM包含三个状态和离开每个状态的两个过渡段。一般地,CSR系统使用相同的状态图表示每个音素,但带有音素依赖输出和过渡概率.根据这种HMM,过渡仅出现在过渡至相同状态或模拟语音左至右本性的下一个状态。每个状态带有包含输出和过渡概率的相关的输出概率表和过渡概率表。如图1中所示,当HMM处于状态2时,用于代码字5的输出概率是.1,而当HMM处于状态2时,到状态3的过渡概率是.8。因而,当接收代码字5时HMM从状态2过渡到状态3的概率是.08(即.1×.8)。
为了确定代码字序列表示音素的概率,CSR系统可以产生概率网格。用于音素的HMM的概率网格表示用于对代码字序列的每个可能状态路径的概率计算。概率网格包含用于对序列中每个代码字HMM可能处于其中的每个可能状态的节点。每个节点包含至今处理过的代码字将使HMM处于与该节点有关的状态中的累计概率。具体代码字的节点中的概率之和指示至今处理过的代码字表示音素字首部分的可能性。
图2是表明概率网格的图。概率网格表示当处理代码字序列“7、5、2、1、2”时,用于图l中所示HMM的每个可能状态的概率计算。横轴对应于代码字,而纵轴对应于HMM的状态。网格的每个节点包含每个源状态的概率乘以输出和过渡概率时的最大概率,而不是概率之和。例如,节点201包含8.6E-6的概率,该概率是3.6E-4×.01×.9和1.4E-3×.03×.2的最大值。有许多引导到任何节点的不同状态路径(即状态序列)。例如,节点201可以通过状态路径“1、2、3、3、”“1、2、2、3、”和“1、l、2、3、”到达。每个状态路径具有当处理代码字序列时HMM跟随该状态路径的概率。每个节点中的概率是引导到节点的每个状态路径的概率中的最大值。这些最大概率用于如下讨论的维特比(Viterbi)对准。
图3表明用于词的概率网格。纵轴对应于用于组成词的音素的HMM的状态的连接。节点301表示词的最终状态,并且包含引导到该节点的所有状态路径的最大概率。图3中的加粗线表示其终点在节点301处的最大概率的状态路径。在一定的用途中(例如训练CSR系统),辨别具有引导到具体节点的最大概率的状态路径是有益的。一种用来辨别这样一种状态路径的熟知算法是维特比算法。在维特比算法已经确定了到最终状态的最大概率状态路径之后,有可能在网格中从最终节点回追且确定最大概率状态路径上的前一个节点,一路回到开始状态。例如,其终点在图2节点203处的最大概率的状态路径是“1、2、2、2、2、3”。当概率网格表示组成词的音素时,那么每个状态能依据音素和音素中的状态辨别。
CSR系统的准确度部分地取决于用于每个音素的HMM的输出和过渡概率准确度。典型的CSR系统“训练”CSR系统,从而输出和过渡概率准确地反映普通讲话者的语音。在训练期间,CSR系统从各讲话者大量各种各样的词收集代码字序列。这样选择词,从而很多次读出每个音素。根据这些代码字序列,CSR系统计算用于每个HMM的输出和过渡概率。各种用来计算这些概率的迭代计算法是熟知的,并且在Huang等的“用于语音识别的隐藏马尔克夫模型”(Edinburgh University Press,1990年)中,进行了描述。
然而,伴随这种训练技术的一个问题是,这样的普通HMM可能不准确地模拟其语音模式与普通模式不同的人们的语音。一般地说,每个人都具有不同于普通模式的一定语音模式。因此,CSR系统允许讲话者训练HMM,以适应讲话者的语音模式。在这样的训练中,CSR系统通过使用由系统的实际用户读出的训练发音来细化HMM参数,如输出和过渡概率及由代码字表示的量化向量。通过使用用户提供的数据以及由大量讲话者无关数据产生的信息和参数两者,导出适应的参数。因而,概率反映讲话者依赖特征。在Huang和Lee的“关于讲话者无关的、讲话者依赖的、和讲话者适应的语音识别(On Speaker-Independent,Speaker-Dependent,andSpeaker-Adaptive Speech Recognition)”,Proc.ICASSP’91,1991年,第877-880页中描述了一种这样的训练技术。
一般通过向讲话者呈现大量各种预选的词,来训练CSR系统。选择这些词,以保证能收集语音对应于每个音素的代表性样本。就这种代表性样本而言,CSR系统能保证,不准确反映讲话者的音素发音的任何HMM能被适当地修改。当进行另外的训练时,例如因为讲话者不满意识别的准确度,CSR系统就把另外的预选词呈现给讲话者。
尽管预选词的使用能提供适当的训练,但讲话者可能对于必须读出大量的词感到灰心。的确,由于词预选成包括每个音素,所以要求讲话者高效地读出其音素以可接受的准确度被模拟的词。因此,使训练系统能动态地选择用于训练的、将趋于优化训练准确度的、和减小要求讲话者读出的词数量的词,将是有益的。
本发明涉及一种用来动态选择用来训练语音识别系统的词的方法和系统。每个词由语音识别系统模拟为包含音素的单元。训练系统收集其相应词是已知的读出发音。训练系统根据读出的发音辨别哪些语音单元由语音识别系统模拟得不准确。训练系统然后选择包含用于语音识别系统训练的所辨别语音单元的词。
在本发明的一个方面,语音识别系统把每个词模拟为一个音素序列,并且具有用于每个音素的HMM。训练系统通过把每个发音的每个代码字与已知词的音素对准,来辨别哪些音素模拟得不准确,收集的发音根据音素模型对应于这些已知的词。训练系统然后通过估计每个代码字对准的音素并且把代码字与其他音素相比较,来计算准确模拟音素的准确度指示。
图1表明用于音素的样本HMM。
图2是表明概率网格的图。
图3表明用于一个词的概率网格。
图4表示每个代码字与音素的对准。
图5A表示每个音素包含每个代码字的概率。
图5B表示用于每个代码字的每个音素的等级。
图5C表示用于每帧的代码字的每个音素的等级。
图6表示与音素对准的代码字的普通等级的样本计算。
图7是在其上运行一种最佳训练系统的计算机系统的方块图。
图8是训练系统的流程图。
图9是根据HMM的准确度用来排列音素的程序的流程图。
本发明提供了一种用来动态选择用来训练计算机语音识别(CSR)系统的词的方法和系统。在一个实施例中,训练系统辨别哪些语音单元,如音素,由CSR系统模拟得最不准确。训练系统然后辨别包含一个或多个这些最不准确模拟音素的词。训练系统提示讲话者读出这些辨别的词。训练系统然后对应于读出的词修改音素的模型。通过选择包含模拟得最不准确的音素的词,训练系统能集中训练其模型偏离讲话者的实际语音模式最大的模型。而且,不要求讲话者读出已经准确模拟的词。
训练系统通过估计由讲话者读出的、其对应词是已知的各种发音,来确定哪些音素模拟得最不准确。训练系统把发音转换成代码词,然后在语音识别期间通过一个称为把代码字与音素对准的过程,来确定能把每个代码字考虑成哪个音素的部分。一旦对准完成,训练系统就在识别代码字是音素的部分时,为每个代码字确定对准音素的模型的准确度。例如,如果一个代码字与一个音素对准,并且模型预测与其他音素相比该代码字在该音素内的概率非常低,则该模型在识别该代码字为该音素的部分时的准确度较低。在确定用于每个代码字的音素模型的准确度之后,训练系统计算模型在识别对准代码字是音素的部分时的总准确度。总准确度能通过平均用于与该音素对准的每个代码字的准确度来计算。这些具有最低总准确度的音素模拟得最不准确。
训练系统选择用来训练的、包括模拟得最不准确的音素的词。训练系统可以使用几种不同的选择技术。训练系统可以辨别一定数量的模拟得最不准确的音素。训练系统然后可以选择任何包含至少一个辨别音素的词。可替换地,训练系统最好选择包含多于一个辨别音素的词,以减小讲话者需要读出以在辨别音素上训练的词的数量。而且,训练系统最好选择常说的词,以有助于保证讲话者不读出讲话者可能不熟悉的生僻词。
训练系统通过首先产生用于代码字和已知词的概率网格,把代码字序列与词的音素对准。训练系统然后辨别引导到最可几状态的最可几状态路径。这样一种状态路径的辨别最好使用基于维特比的算法。训练系统然后使用状态路径辨别哪些代码字能识别为哪些音素(与之对准的)的部分。
训练系统或通过具体提示训练的讲话者,或者通过保存由CSR系统误识别的发音以及正确的词,能收集在确定音素模型准确度时所用的语音。具体提示一般发生在训练对话期间。训练系统通过提示讲话者读出各种预选的词而开始,并然后相应修改模型。训练系统然后选择包含识别得最不准确的音素的词,并且提示讲话者读出这些词,且相应修改模型。训练系统能反复进行这种修改。如果收集的语音是误识别的发音,那么训练系统最初会选择包含那些确定为模拟得最不准确的误识别发音的音素的词。能通过把发音与误识别词的音素对准与正确词的音素对准相比较来确定哪个音素模型模拟得最不准确。在导出音素模型准确度的量度时能使用的因素包括:在误识别词中音素不正确识别的次数、和正确与不正确音素模型的概率值的差。使用误识别发音的优点在于,训练是基于讲话者在通常说话期间实际使用的词中的音素。
一种最佳的CSR系统还自动地确定何时应该进行训练。通常,讲话者认为难以进行训练对话。因此,他们不可能着手训练对话,除非识别系统的准确度存在重大问题。而且,训练是如此困难,以致于讲话者会经常修改其语音模式以匹配模型。为了使训练过程更加讲话者友好,CSR系统能定期地或者当确定足够多的句素被不准确地模拟而认为训练是必要时,自动地着手一个短期训练对话。例如,能以每天为基础自动地着手训练对话,或者当注意到20个句素与模型匹配得不够准确时着手进行。
本发明的技术还能在例如当讲话者学习一门新语言时用来把词的适当发音教授给讲话者。指导系统与其认为音素模拟得的不准确,倒不如认为音素被讲话者错误地读出。因而,一旦辨别到发音最不准确的音素,指导系统就特别强调教给讲话者如何发音带有这些音素的词。而且,指导系统根据使用模拟音素计算的读出音素的准确度,将讲话者的发音分级。
在一个最佳实施例中,训练系统根据给定音素包含一个给定代码字的声学模型概率确定,该音素包含该代码字的可能性。对于每个代码词,训练系统根据音素的概率排列每个音素。就是说,具有最大概率的音素分配到最高等级(即等级1)。然后当计算模型的准确度时,使用这些等级。特别是,训练系统使用与它对准的所有代码字来计算音素的平均等级。训练系统然后选择包含具有用于训练的低平均等级的那些音素的词。
图4-6表明各音素的准确度计算。这个例子表明基于一个词的读出的计算。然而,在实际中,这样一种计算可能基于多个词。输入词包括音素10、12、和2。训练系统把相应发音划分成具有如下代码字的15帧:5、10、255、2、3、50、32、256、6、4、6、10、2、3、和5。训练系统然后把代码字与音素对准。图4表示每个代码字与音素的对准。表401带有一根对应于音素的横轴、和一根对应于帧的纵轴。表的项指示每个音素与其对准的代码字。代码字5、10、255、和2与音素10对准;代码字3、50、32、256、6、和4与音素12对准;及代码字6、10、2、3、和5与音素2对准。
图5A表示声学模型代码字/音素概率表。该表带有一根对应于代码字的纵轴、和一根对应于音素的横轴。表中的每项包含相应音素包含该代码词的概率。例如,音素10包含代码字6的概率是.01,而音素3包含代码字5的概率是.04。每行列的概率之和是1。
图5B表示代码字/音素等级表。这个表包含对于每个代码字的、该代码字相对于每个音素的概率的等级。例如,代码字6对于音素10具有等级为33,这意味着代码字6在32个其他音素中的可能性比在音素10中的大,而且代码字6在音素10中的可能性比在7个其他音素中的大(假定总共40个音素)。因而,表的每等级包含具有从1至40的数的项。
音素用于每个代码字的等级能以几种方式产生。例如,对于每帧,CSR系统能辨别音素能产生用于该帧的代码字的声学模型概率。对于该帧,具有最大概率的音素分配到等级1,具有第二大概率的音素分配到等级2,以此类推。能根据来自代码字/音素概率表的信息动态地计算等级。图5C表示用于每帧的代码字的每个音素的等级。用于一帧的这些等级能通过按减小顺序动态地将对于该帧用于所有音素的概率分类来产生。另外,依据可存储的量,能一次产生该等级,如代码字/概率等级表中所示。
图6表示使用与音素对准的帧对这些音素的平均等级的样本计算。表601带有一根对应于音素的横轴、和一根对应于输入发音的代码字的纵轴。表的每项包含用于对准代码字的相应音素的等级。例如,代码字5、10、255、和2与音素10对准,并且对于这些代码字音素10分别具有等级19、31、15和1。表的底部包含等级的和、对准代码字的计数、及平均等级。例如,对于音素10等级的和是66,对准代码字的计数是4,及对于音素10平均等级因此是16。如表所示,对于音素12平均等级是13,而对于音素2平均等级是19。由于音素12具有最高的平均等级,所以CSR系统认为该音素比其他两个音素模拟得更准确。反之,由于音素2具有最低的平均等级,所以CSR系统认为该音素比其他两个音素模拟得更不准确,并且最好选择该音素用于训练。
图7是在其上运行一种最佳训练系统的计算机系统的方块图。计算机系统700包含一个存储器701、一个中央处理单元702、存储装置703、及显示装置704。训练系统可以永久地存储在计算机可读存储介质上,如磁盘上,并且装入用于执行的计算机系统的存储器中。一种最佳的CSR系统包括一个识别元件705、一个HMM元件706、和一个训练元件710。HMM元件包含一个用于每个音素的隐藏马尔克夫模型、和每个词对其音素的映象。训练元件包含一个样本收集元件711、一个代码字/音素对准元件712、一个音素排列元件713、及一个词选择元件714。样本收集元件或通过具体提示用户、或收集误识别的发音来收集发音的各种样本和其相应的词。样本收集元件把发音转换成代码字。代码字/音素对准元件接收代码字和其相应的词,并且使用HMM把每个代码字与词的音素对准。音素排列元件使用代码字与音素的对准,以使用与音素对准的代码字计算这些音素的平均等级。词选择元件然后使用平均等级从可用的词汇(末表示)中选择词。
图8是训练系统的流程图。在步骤801,训练系统根据用于每个音素的HMM的准确度排列所有音素,如图9中所描述的那样。在步骤802,训练系统辨别模拟得最不准确的音素,即具有较低等级的那些音素。在步骤803,训练系统根据辨别的音素选择用于训练的词。在步骤804,训练系统提示讲话者读出选择词的每一个。在步骤805,训练系统根据用于选择词的发音修改HMM。
图9是根据HMM的准确度用来排列音素的程序的流程图。在一个实施例中,这个程序通过提示讲话者读出训练词来收集发音,以在排列时使用。程序然后计算每个音素准确度的指示。在步骤901,程序从第一个训练词开始选择下一个训练词。训练词可以是预先建立的、或预先定义的训练词的集合,或者可以动态地预先选择。在步骤902,如果已经选择所有的训练词,那么程序继续到步骤911,否则程序继续到步骤903。在步骤903,程序提示讲话者读出选择的词,并且接收相应的发音。在步骤904,程序把发音转换成代码字序列。在步骤905,程序把每个代码字与每个最可能对应的词的音素对准。在步骤906-910,程序循环选择每个代码字和累计与该代码字对准的音素的等级。在步骤906,程序从第一个代码字开始选择下一个。在步骤907,如果已经选择所有的代码字,那么程序循环到步骤901,以选择下一个训练词,否则程序继续到步骤908。在步骤908,程序在对准代码字的范围内辨别音素的等级。在步骤909,程序累计用于对准音素的辨别等级。在步骤910,程序增大与该音素对准的代码字的数量计数,并且循环到906以选择下一个代码字。在步骤911,程序通过把累计等级除以计数来计算每个音素的平均等级,并且返回。
尽管按照最佳实施例已经描述了本发明,但不打算把本发明限于这些实施例。在本发明的实质范围内的改进对于熟悉本专业的技术人员将是显而易见的。例如,尽管按照识别离散的语音发音描述了本发明,但本发明能容易地用于连续的语音识别系统中。此外,本发明的技术能用于不使用隐藏马尔克夫模型的识别系统。而且,使用产生代码字的声学模型概率之外的量度,如通过使用用识别器的音素误识别的计数,也能计算音素的等级。根据求和的不同级而不是帧级能计算语音单元的等级。例如,以语音段级能求和等级,这里语音段包括多个帧或语音的可变长度时段。以粒度的不同级,如音素、在音素中的状态、句素、一种在上下文依赖音素中的状态、或完整的词本身,能计算语音单元的等级,和进行在选择用于训练的词中的语音单元的选择。上下文依赖音素可以取决于多个周围音素或词的上下文。也可以把一个完整的词考虑为在训练时用于模拟和选择的单元。当词汇大小较小时,或者当某些词经常使用并且可能混淆时,如英语字母和数字,使用完整的词作为单元是便利的。CSR系统能使用等级之外的准确度量度。例如,CSR系统可以使用音素概率与用于该帧的最好音素概率的差值或比值。而且,使用求平均之外的技术,如计算跨过多个出现的相同语音单元的准确度度量的最大值、最小值、或加权和,能组合跨过不同帧的等级或准确度量度信息。最后,CSR系统能使用关于音素模型准确度的收集信息(总称为误差分布),以改进识别过程本身。例如,如果误差分布表示识别该音素模型的机会在其已知出现期间较小,如由误差分布辨别的那样,则在识别期间能增大语音单元的概率。本发明的范围由如下的权利要求书限定。

Claims (116)

1.一种用来动态选择用来训练语音识别系统的词的计算机系统中的方法,该语音识别系统用来识别多个词,该语音识别系统具有组成每个词的音素的指示,该语音识别系统具有用于每个音素的模型,每个模型用来产生代码字的每个可能序列对应于模拟的音素的概率,该方法包括:
对于每个代码字,根据代码字将作为音素的部分读出的概率排列音素;
收集其相应词是已知的多个读出发音;
对于每个收集的发音,
把收集的发音转换成代码字序列;及
根据音素模型,把代码字序列中的每个代码字与收集发音对应的已知词的音素对准;
对于每个音素,
对于在每一个收集发音中与音素对准的所有代码字,累计该音素的等级;及
通过把累计的等级除以在收集发音中与该音素对准的代码字的总数,计算该音素的平均等级;
辨别具有低平均等级的音素;及
选择包含辨别音素的词,作为用来训练语音识别系统的词。
2.根据权利要求1所述的方法,其中模型是隐藏马尔克夫模型。
3.根据权利要求1所述的方法,其中对准使用一种基于维特比的对准算法。
4.根据权利要求1所述的方法,包括把选择的词呈现给讲话者以便训练。
5.根据权利要求4所述的方法,其中在词将由讲话者读出的概率下,最好选择选出的词。
6.根据权利要求1所述的方法,其中音素的辨别包括辨别多于一个具有低平均等级的音素,并且其中选择过程选择包含多于一个辨别音素的词。
7.根据权利要求6所述的方法,包括把选择的词呈现给讲话者以便训练。
8.根据权利要求7所述的方法,其中每个词具有指示该词将由讲话者读出的概率的语言模型概率,及其中按基于选择词的语言模型概率的顺序,把选择的词呈现给讲话者。
9.一种用来动态选择用来训练语音识别系统的词的计算机系统中的方法,该语音识别系统用来识别多个词,该语音识别系统具有组成每个词的语音单元的指示,该语音识别系统具有用于每个语音单元的模型,每个模型用来产生特征向量的每个可能序列对应于模拟的语音单元的概率,该方法包括:
收集其相应词是已知的多个读出发音;
对于每个收集的发音,
把收集的发音转换成特征向量序列;及
根据已知词的语音单元的模型,把特征向量序列中的每个特征向量与收集发音所对应的已知词的语音单元对准;
从与每个语音单元对准的特征向量中,辨别哪些语音单元模拟得最不准确;及
选择包含辨别音素的词,作为用来训练语音识别系统的词。
10.根据权利要求9所述的方法,其中哪些语音单元模拟得最不准确的辨别包括:根据对准语音单元和特征向量计算帧准确度度量;及通过组合基于该语音单元的帧准确度度量,计算对于每个独特语音单元的组合准确度度量。
11.根据权利要求10所述的方法,其中帧准确度度量是特征向量包含在特征向量与其对准的语音单元内的概率,与特征向量包含在任何语音单元内的最大概率的比值。
12.根据权利要求10所述的方法,其中帧准确度度量是特征向量包含在特征向量与其对准的语音单元内的概率,与特征向量包含在任何语音单元内的最大概率的差值。
13.根据权利要求10所述的方法,其中帧准确度度量是每个语音单元基于这些与语音单元对准的向量帧将作为语音单元的部分读出的概率的等级。
14.根据权利要求13所述的方法,其中与语音单元对准的这些特征向量将作为语音单元的部分读出的概率是声学模型概率。
15.根据权利要求13所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的平均值。
16.根据权利要求13所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的最大值。
17.根据权利要求13所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的最小值。
18.根据权利要求13所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的加权平均值。
19.根据权利要求9所述的方法,其中哪些语音单元模拟得最不准确的辨别是基于在识别期间误识别的词的分析。
20.根据权利要求9所述的方法,其中语音单元是一个音素。
21.根据权利要求9所述的方法,其中语音单元是一个句素。
22.根据权利要求9所述的方法,其中语音单元是一个上下文依赖的音素状态。
23.根据权利要求9所述的方法,其中语音单元是一个词。
24.根据权利要求9所述的方法,其中特征向量是量化向量。
25.根据权利要求9所述的方法,包括根据选择词来训练语音识别系统。
26.根据权利要求25所述的方法,其中训练包括产生指示对于每个语音单元用于每个特征向量的概率的、反映在训练期间模型与所读出的词之间差别的误差分布。
27.根据权利要求26所述的方法,其中误差分布的概率在语音识别期间分解成模型的概率。
28.一种用来将词的发音教给讲话者的计算机系统中的方法,每个词用语音方法由语音单元表示,每个语音单元具有用来产生特征向量的各序列对应于模拟的语音单元的概率的模型,该方法包括:
收集来自讲话者的其相应词是已知的多个读出发音;对于每个收集的发音,
把收集的发音转换成特征向量序列;及
根据已知词的语音单元的模型,把特征向量序列中的每个特征向量与收集发音对应的已知词的语音单元对准;
从与每个语音单元对准的特征向量中,辨别讲话者读得不准确的语音单元;及
选择包含辨别音素的词,作为用来教讲话者的词。
29.根据权利要求28所述的方法,包括把选择的词呈现给讲话者。
30.根据权利要求29所述的方法,包括接收对应于每个读出词的语音发音和估计接收语音发音的准确度。
31.根据权利要求28所述的方法,其中哪些语音单元模拟得最不准确的辨别包括:根据对准语音单元和特征向量计算帧准确度度量;及通过组合基于该语音单元的帧准确度度量,计算对于每个独特语音单元的组合准确度度量。
32.根据权利要求31所述的方法,其中帧准确度度量是特征向量包含在特征向量与其对准的语音单元内的概率,与特征向量包含在任何语音单元内的最大概率的比值。
33.根据权利要求31所述的方法,其中帧准确度度量是特征向量包含在特征向量与其对准的语音单元内的概率,与特征向量包含在任何语音单元内的最大概率的差值。
34.根据权利要求31所述的方法,其中帧准确度度量是基于这些与语音单元对准的向量帧将作为语音单元的部分读出的概率的每个语音单元等级。
35.根据权利要求34所述的方法,其中与语音单元对准的这些特征向量将作为语音单元的部分读出的概率是声学模型概率。
36.根据权利要求34所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的平均值。
37.根据权利要求34所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的最大值。
38.根据权利要求34所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的最小值。
39.根据权利要求34所述的方法,其中组合准确度量度是与该语音单元对准的每个特征向量包含在该语音单元内的概率的加权平均值。
40.根据权利要求28所述的方法,其中语音单元是一个音素。
41.根据权利要求28所述的方法,其中语音单元是一个句素。
42.根据权利要求28所述的方法,其中特征向量是量化向量。
43.一种用来选择用来训练语音识别系统的词的计算机系统中的方法,该语音识别系统用来识别多个词,读出的每个词带有语音单元,该方法包括:
接收对其确定相应词的多个读出发音;
对于接收读出发音的确定词的每一个的每个语音单元,确定语音识别系统在识别确定词内的语音单元时的上下文依赖准确度;
对于每个语音单元,根据上下文依赖准确度确定语音识别系统在识别语音单元时的上下文无关准确度;及
选择包含确定具有最低上下文无关准确度的语音单元的词,用来训练语音识别系统。
44.根据权利要求36所述的方法,其中语音单元是一个音素。
45.根据权利要求36所述的方法,其中语音单元是一个句素。
46.根据权利要求36所述的方法,其中语音单元是一个上下文依赖的音素状态。
47.根据权利要求36所述的方法,其中语音单元是一个词。
48.根据权利要求43所述的方法,其中根据用来训练语音识别系统的上下文依赖准确度来选择词。
49.根据权利要求43所述的方法,其中语音识别系统具有用于每个语音单元、指示量化向量序列对应于语音单元的概率的模型,并且其中上下文依赖准确度的确定包括:
对于每个接收的发音,
把读出的发音转换成量化向量序列;
根据用于确定词的语音单元的模型,把序列中的每个量化向量与所确定词的语音单元对准;及
辨别每个对准量化向量作为与该向量与之对准的语音单元的部分而读出的概率,其中辨别的概率用来确定上下文依赖准确度。
50.根据权利要求43所述的方法,包括把选择的词呈现给讲话者以便训练。
51.根据权利要求50所述的方法,其中每个词具有指示该词将要读出的概率的语言模型概率,及其中按基于词的语言模型概率的顺序,把选择的词呈现给讲话者。
52.根据权利要求43所述的方法,其中词的选择包括选择具有多于一个具有所确定上下文依赖准确度较低的语音单元的词。
53.根据权利要求52所述的方法,包括把选择的词呈现给讲话者以便训练。
54.根据权利要求53所述的方法,其中每个词具有指示该词将要读出的概率的语言模型概率,及其中按基于选择词的语言模型概率的顺序,把选择的词呈现给讲话者。
55.根据权利要求43所述的方法,其中多个读出发音的接收出现在识别过程期间,并且其中识别过程定期要求讲话者在选择的词上训练。
56.根据权利要求55所述的方法,其中重复地进行训练和识别。
57.根据权利要求43所述的方法,其中多个读出发音的接收出现在识别过程期间,并且其中当识别过程辨别到这时识别过程不正确地识别一定部分的读出发音时,自动提示在选择的词上进行训练。
58.根据权利要求43所述的方法,其中多个读出发音的接收出现在识别过程期间,并且其中在识别过程期间误识别接收的读出发音。
59.一种包含用来使计算机系统教讲话者词的发音的指令的计算机可读介质,每个读出的词带有语音单元,该介质的特征在于:
从讲话者接收其相应词是已知的多个读出发音;
由读出发音辨别哪些语音单元由讲话者读得不准确;及
选择包含辨别语音单元的词,用来教讲话者。
60.根据权利要求59所述的计算机可读介质,包括把选择的词呈现给讲话者。
61.根据权利要求60所述的计算机可读介质,包括接收对应于呈现给讲话者每个读出词的读出发音、和估计所接收读出发音的准确度。
62.根据权利要求59所述的计算机可读介质,其中语音单元是一个音素。
63.根据权利要求59所述的计算机可读介质,其中语音单元是一个句素。
64.一种包含用来使计算机系统选择用来训练语音识别系统的词的指令的计算机可读介质,该语音识别系统用来识别多个词,该语音识别系统具有组成每个词的语音单元的指示,该语音识别系统具有用于每个语音单元的模型,每个模型用来指示特征向量的每个可能序列对应于模拟的语音单元的概率,该介质的特征在于:
接收确定相应词的多个读出发音;
对于每个收集的发音,
把收集的发音转换成特征向量序列;及
根据确定词的语音单元模型,把特征向量序列中的每个特征向量与和收集发音对应的确定词的语音单元对准;
由与每个语音单元对准的特征向量,辨别哪些模拟得最不准确的语音单元;及
选择包含辨别音素的词,作为用来训练语音识别系统的词。
65.根据权利要求64所述的计算机可读介质,其中哪些语音单元模拟得最不准确的辨别包括:根据与语音单元对准的那些特征向量将作为语音单元的部分读出的概率,计算每个语音单元的等级。
66.根据权利要求65所述的计算机可读介质,其中与语音单元对准的那些特征向量将作为语音单元的部分读出的概率是声学模型概率。
67.根据权利要求64所述的计算机可读介质,包括根据选择的词训练语音识别系统。
68.根据权利要求67所述的计算机可读介质,其中训练包括产生指示对于每个语音单元用于每个特征向量的概率的、反映在训练期间模型与所读出的词之间差别的误差分布。
69.根据权利要求68所述的计算机可读介质,其中误差分布的概率在语音识别期间分解成模型的概率。
70.一种用来动态选择用来训练语音识别系统的词的计算机系统中的方法,每个词包括语音单元,该方法包括:
收集其相应词是已知的多个读出发音;
从读出发音中,辨别哪些语音单元由语音识别系统模拟得最不准确;及
选择包含辨别语音发音的词,用于语音识别系统的训练。
71.根据权利要求70所述的方法,其中语音单元是一个音素。
72.根据权利要求70所述的方法,其中语音单元是一个句素。
73.根据权利要求70所述的方法,其中语音单元是一个上下文依赖的音素状态。
74.根据权利要求70所述的方法,其中语音单元是一个词。
75.根据权利要求70所述的方法,其中语音识别系统具有用于每个语音单元的指示量化向量序列对应于语音单元的概率的模型,并且其中辨别包括:
对于每个收集的发音,
把收集的发音转换成量化向量序列;
根据用于确定词的语音单元的模型,把序列中的每个量化向量与已知词的语音单元对准;及
辨别每个对准量化向量作为与该向量对准的音素的部分而读出的概率。
76.根据权利要求70所述的方法,包括把选择的词呈现给讲话者以便训练。
77.根据权利要求76所述的方法,其中每个词具有指示该词将要读出的概率的语言模型概率,及其中按基于词的语言模型概率的顺序,把选择的词呈现给讲话者。
78.根据权利要求70所述的方法,其中词的选择包括选择具有多于一个不准确模拟的语音单元的词。
79.根据权利要求78所述的方法,包括把选择的词呈现给讲话者以便训练。
80.根据权利要求79所述的方法,其中每个词具有指示该词将要读出的概率的语言模型概率,及其中按基于选择词的语言模型概率的顺序,把选择的词呈现给讲话者。
81.根据权利要求70所述的方法,其中多个读出发音的接收在识别过程期间出现,并且其中识别过程定期地要求讲话者在选择词上训练。
82.根据权利要求81所述的方法,其中重复地进行训练和识别。
83.根据权利要求70所述的方法,其中多个读出发音的接收在识别过程期间出现,并且其中当识别过程辨别到这时识别过程不正确地识别一定部分的读出发音时,在选择的词上进行训练。
84.根据权利要求70所述的方法,其中多个读出发音的接收在识别过程期间出现,并且其中在识别过程期间接收的读出发音被误识别。
85.根据权利要求70所述的方法,其中哪些语音单元模拟得不准确的辨别包括:
把读出发音的特征向量对准语音单元;
根据对准的语音单元和特征向量计算对于每个特征向量的帧准确度度量;及
通过组合基于该语音单元的帧准确度度量,计算对于每个独特语音单元的组合准确度度量。
86.根据权利要求85所述的方法,其中帧准确度度量是该帧的读出发音包含在读出发音与其对准的语音单元内的概率,与该帧的读出发音包含在任何语音单元内的最大概率的比值。
87.根据权利要求85所述的方法,其中帧准确度度量是该帧的读出发音包含在读出发音与其对准的语音单元内的概率,与该帧的读出发音包含在任何语音单元内的最大概率的差值。
88.根据权利要求85所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的平均值。
89.根据权利要求85所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的最大值的平均值。
90.根据权利要求85所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的最小值。
91.根据权利要求85所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的加权平均值之和。
92.根据权利要求70所述的方法,其中哪些语音单元模拟得不准确的辨别包括计数在识别期间在一个误识别词中识别一个语音单元的次数。
93.根据权利要求70所述的方法,其中哪些语音单元模拟得不准确的辨别包括计数在识别期间在一个正确词中未识别一个语音单元的次数。
94.根据权利要求70所述的方法,其中哪些语音单元模拟得不准确的辨别是基于正确与不正确音素模型的概率值之间的差。
95.根据权利要求70所述的方法,其中语音单元是一个上下文依赖音素。
96.根据权利要求70所述的方法,其中语音单元是一个词。
97.根据权利要求70所述的方法,其中哪些语音单元模拟得不准确的辨别包括:把读出语音的帧的序列与语音单元对准,和根据帧的对准序列包含在该语音单元中的概率,计算语音单元的等级。
98.一种用来动态选择用来训练语音识别系统的词的计算机系统,每个词包括语音单元,该计算机系统包括:
一个样本收集元件,收集其相应词是已知的多个读出发音,并且把读出发音转换成代码字;
一个对准元件,把代码字与每个词的语音单元对准;
一个语音单元排列元件,由读出的发音辨别哪些语音单元由语音识别系统模拟得不准确;及
一个词选择元件,选择包含辨别发音的词,用来训练语音识别系统。
99.根据权利要求98所述的计算机系统,其中语音识别系统具有对于每个语音单元的指示量化向量序列对应于语音单元的概率的模型;其中对准元件根据用于确定词的语音单元的模型,把每个代码字与确定词的语音单元对准;及其中语音单元排列元件辨别每个对准代码字作为代码字与其对准的语音单元的部分读出的概率。
100.根据权利要求98所述的计算机系统,其中每个词具有指示该词将要读出的概率的语言模型概率,及包括一个按基于词的语言模型概率的顺序、把选择的词呈现给讲话者的呈现元件。
101.根据权利要求98所述的计算机系统,其中词选择元件选择具有多个模拟得不准确的语音单元的词。
102.一种用来估计识别系统在识别词时的准确度的计算机识别系统中的方法,每个词包括语音单元,该方法包括:
收集其相应词是已知的多个读出发音;及
通过把读出发音的帧与语音单元对准、和根据该帧的读出语音包含在读出语音与之对准的语音单元中的概率来计算用于每帧的帧准确度度量,来辨别每个语音单元的准确度。
103.根据权利要求102所述的方法,其中帧准确度度量是该帧的读出发音包含在读出发音与其对准的语音单元内的概率,与该帧的读出发音包含在任何语音单元内的最大概率的比值。
104.根据权利要求102所述的方法,其中帧准确度度量是该帧的读出发音包含在读出发音与其对准的语音单元内的概率,与该帧的读出发音包含在任何语音单元内的最大概率的差值。
105.根据权利要求102所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的平均值。
106.根据权利要求102所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的最大值。
107.根据权利要求102所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的最小值。
108.根据权利要求102所述的方法,其中帧准确度度量是与该语音单元对准的每个帧的读出发音包含在该语音单元内的概率的加权平均值。
109.根据权利要求102所述的方法,其中计算包括计数在识别期间在一个误识别词中未识别一个语音单元的次数。
110.根据权利要求102所述的方法,其中计算包括计数在识别期间在一个正确词中未识别一个语音单元的次数。
111.根据权利要求102所述的方法,其中语音单元是一个上下文依赖音素。
112.根据权利要求102所述的方法,其中语音单元是一个词。
113.根据权利要求102所述的方法,其中语音单元是一个音素的状态。
114.根据权利要求102所述的方法,其中语音单元是一个句素。
115.一种用来估计识别系统在识别词时的准确度的计算机识别系统中的方法,每个词包括语音单元,该方法包括:
收集其相应词是已知的多个读出发音;及
通过把读出发音的帧与语音单元对准、和计数在识别期间在一个正确词中未识别一个语音单元的次数,来辨别每个语音单元的准确度。
116.一种用来估计识别系统在识别词时的准确度的计算机识别系统中的方法,每个词包括语音单元,该方法包括:
收集其相应词是已知的多个读出发音;及
通过把读出发音的帧与语音单元对准、和计数在识别期间在一个误识别词中未识别一个语音单元的次数,来辨别每个语音单元的准确度。
CNB971959366A 1996-06-28 1997-06-27 用于语音识别的动态调节的训练方法和系统 Expired - Lifetime CN1165887C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/673,435 1996-06-28
US08/673,435 US5963903A (en) 1996-06-28 1996-06-28 Method and system for dynamically adjusted training for speech recognition

Publications (2)

Publication Number Publication Date
CN1223739A true CN1223739A (zh) 1999-07-21
CN1165887C CN1165887C (zh) 2004-09-08

Family

ID=24702640

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971959366A Expired - Lifetime CN1165887C (zh) 1996-06-28 1997-06-27 用于语音识别的动态调节的训练方法和系统

Country Status (6)

Country Link
US (1) US5963903A (zh)
EP (1) EP0907949B1 (zh)
JP (1) JP3672573B2 (zh)
CN (1) CN1165887C (zh)
DE (1) DE69707876T2 (zh)
WO (1) WO1998000834A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法
CN101577118B (zh) * 2009-06-12 2011-05-04 北京大学 面向智能服务机器人的语音交互系统的实现方法
CN102282608A (zh) * 2008-12-09 2011-12-14 诺基亚公司 自动语音识别声学模型的调整
CN107112010A (zh) * 2015-01-16 2017-08-29 三星电子株式会社 用于使用语法模型执行话音识别的方法和设备
CN110428819A (zh) * 2019-05-21 2019-11-08 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN111105799A (zh) * 2019-12-09 2020-05-05 国网浙江省电力有限公司杭州供电公司 基于发音量化和电力专用词库的离线语音识别装置及方法

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
AU777693B2 (en) * 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
ATE306116T1 (de) * 1999-07-08 2005-10-15 Koninkl Philips Electronics Nv Spracherkennungseinrichtung mit transfermitteln
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US6789060B1 (en) * 1999-11-01 2004-09-07 Gene J. Wolfe Network based speech transcription that maintains dynamic templates
US6546387B1 (en) * 1999-11-15 2003-04-08 Transcom Software Inc. Computer network information management system and method using intelligent software agents
US7881935B2 (en) * 2000-02-28 2011-02-01 Sony Corporation Speech recognition device and speech recognition method and recording medium utilizing preliminary word selection
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US20050135180A1 (en) * 2000-06-30 2005-06-23 Micron Technology, Inc. Interface command architecture for synchronous flash memory
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
US6832189B1 (en) 2000-11-15 2004-12-14 International Business Machines Corporation Integration of speech recognition and stenographic services for improved ASR training
US6928409B2 (en) * 2001-05-31 2005-08-09 Freescale Semiconductor, Inc. Speech recognition using polynomial expansion and hidden markov models
US20030055634A1 (en) * 2001-08-08 2003-03-20 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US20030088416A1 (en) * 2001-11-06 2003-05-08 D.S.P.C. Technologies Ltd. HMM-based text-to-phoneme parser and method for training same
US20030120493A1 (en) * 2001-12-21 2003-06-26 Gupta Sunil K. Method and system for updating and customizing recognition vocabulary
GB2385698B (en) * 2002-02-26 2005-06-15 Canon Kk Speech processing apparatus and method
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
US8321427B2 (en) 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US20040230431A1 (en) * 2003-05-14 2004-11-18 Gupta Sunil K. Automatic assessment of phonological processes for speech therapy and language instruction
US7302389B2 (en) * 2003-05-14 2007-11-27 Lucent Technologies Inc. Automatic assessment of phonological processes
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
US7200559B2 (en) 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US7809567B2 (en) * 2004-07-23 2010-10-05 Microsoft Corporation Speech recognition application or server using iterative recognition constraints
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7475016B2 (en) * 2004-12-15 2009-01-06 International Business Machines Corporation Speech segment clustering and ranking
GB2428853A (en) 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
ATE536611T1 (de) * 2006-02-14 2011-12-15 Intellectual Ventures Fund 21 Llc Kommunikationsgerät mit lautsprecherunabhängiger spracherkennung
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8135590B2 (en) * 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
CN101286317B (zh) * 2008-05-30 2011-07-27 同济大学 语音识别装置、模型训练方法、及交通信息服务平台
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
GB2489489B (en) * 2011-03-30 2013-08-21 Toshiba Res Europ Ltd A speech processing system and method
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
WO2014025682A2 (en) * 2012-08-07 2014-02-13 Interactive Intelligence, Inc. Method and system for acoustic data selection for training the parameters of an acoustic model
US9685154B2 (en) * 2012-09-25 2017-06-20 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition
TWI508033B (zh) * 2013-04-26 2015-11-11 Wistron Corp 語言學習方法與裝置以及電腦可讀記錄媒體
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法
CN102282608A (zh) * 2008-12-09 2011-12-14 诺基亚公司 自动语音识别声学模型的调整
CN102282608B (zh) * 2008-12-09 2013-06-12 诺基亚公司 自动语音识别声学模型的调整
CN101577118B (zh) * 2009-06-12 2011-05-04 北京大学 面向智能服务机器人的语音交互系统的实现方法
CN107112010A (zh) * 2015-01-16 2017-08-29 三星电子株式会社 用于使用语法模型执行话音识别的方法和设备
US10706838B2 (en) 2015-01-16 2020-07-07 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10964310B2 (en) 2015-01-16 2021-03-30 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
CN107112010B (zh) * 2015-01-16 2021-06-01 三星电子株式会社 用于使用语法模型执行话音识别的方法和设备
USRE49762E1 (en) 2015-01-16 2023-12-19 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
CN110428819A (zh) * 2019-05-21 2019-11-08 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN110428819B (zh) * 2019-05-21 2020-11-24 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN111105799A (zh) * 2019-12-09 2020-05-05 国网浙江省电力有限公司杭州供电公司 基于发音量化和电力专用词库的离线语音识别装置及方法

Also Published As

Publication number Publication date
JP3672573B2 (ja) 2005-07-20
US5963903A (en) 1999-10-05
EP0907949A1 (en) 1999-04-14
CN1165887C (zh) 2004-09-08
DE69707876D1 (de) 2001-12-06
JP2000514206A (ja) 2000-10-24
DE69707876T2 (de) 2002-04-11
EP0907949B1 (en) 2001-10-31
WO1998000834A1 (en) 1998-01-08

Similar Documents

Publication Publication Date Title
CN1165887C (zh) 用于语音识别的动态调节的训练方法和系统
US5857169A (en) Method and system for pattern recognition based on tree organized probability densities
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
WO1998000834A9 (en) Method and system for dynamically adjusted training for speech recognition
EP0635820B1 (en) Minimum error rate training of combined string models
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US6076053A (en) Methods and apparatus for discriminative training and adaptation of pronunciation networks
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
JP3434838B2 (ja) ワードスポッティング法
US11158307B1 (en) Alternate utterance generation
US8706487B2 (en) Audio recognition apparatus and speech recognition method using acoustic models and language models
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Huang et al. Unified stochastic engine (USE) for speech recognition
Vinyals et al. Discriminative pronounciation learning using phonetic decoder and minimum-classification-error criterion
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Zhang et al. Keyword spotting based on syllable confusion network
CN114783413A (zh) 重打分语言模型训练和语音识别方法、装置、系统及设备
CN116994570A (zh) 语音识别模型的训练方法和装置、语音识别方法和装置
JPH10149190A (ja) 音声認識方法及び音声認識装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150422

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040908