CN1391211A - 对识别系统中的参数进行训练的方法和系统 - Google Patents

对识别系统中的参数进行训练的方法和系统 Download PDF

Info

Publication number
CN1391211A
CN1391211A CN02121854.4A CN02121854A CN1391211A CN 1391211 A CN1391211 A CN 1391211A CN 02121854 A CN02121854 A CN 02121854A CN 1391211 A CN1391211 A CN 1391211A
Authority
CN
China
Prior art keywords
parameter
word
variable
relevant
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN02121854.4A
Other languages
English (en)
Inventor
H·施拉姆
P·贝耶莱恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1391211A publication Critical patent/CN1391211A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种对图形识别系统中的参数进行训练的方法,其中每个参数都仅同目录中图形的一个实际变量相关,该方法包括以下步骤:-生成可用的图形训练组,以及-通过区别对待目标函数的最优化来确定参数,以及实现上述方法的装置。

Description

对识别系统中的参数进行训练的方法和系统
本发明涉及一种对图形识别系统中的参数进行训练的方法和系统,其中每个参数都仅与目录中图形的一个实际变量相关,尤其涉及一种对语音识别系统中的参数进行训练的方法和系统,其中每个参数都仅与词汇表中单词的一个发音变量相关。
图形识别系统,尤其是语音识别系统可以应用到很多方面。举例来说,有自动电话信息系统例如德国汉莎航空公司的飞行信息服务、自动语音系统例如飞利浦公司的FreeSpeech、手写识别系统例如德国邮政服务公司的自动地址识别系统以及经常用于个人识别的生物系统例如指纹、虹膜或者容貌识别。这些图形识别系统尤其还可以用作其它一般图形识别系统的组成部分,例如上面所述的个人识别系统。
很多已知的系统采用统计的方法通过将对于系统来说为已知的参考图形同未知的测试图形相比较来识别测试图形。该参考图形通过合适的参数来对其进行描述,并且这些参数存储在该图形识别系统中。这样,例如,很多图形识别系统就可以使用一个单个词的词汇表来作为识别单元,该单元还被进一步的分成所谓的“子-词单元”来同未知的已被读出话语进行声音上的比较。这些“单词”可以为语言学上的单词,但是在语音识别系统中来说明的“单词”概念使用的更为广泛。在一个拼写应用中,例如,一个字母就可以构成一个单词,但是其它的系统可以使用音节或者用统计方法确定的语言学上的单词片断来作为单词来构成识别词汇表。
自动语音识别系统的问题还特别在于单词可以有不同的发音。一方面,这种不同说话者间的差别是由于说话者的思想状态或者是受说话者所使用的方言的单词发音的影响。另一方面,经常使用的单词可以在一个自然的发音和认真的大声朗读之间存在很大的不同。这样,例如,经常会缩短单词的发音:“would”可以变为“’d”以及“can”可以变成“c’n”。
很多系统都使用的发音变量来模拟相同单词之间的不同发音。例如,如果词汇表V的第lth个单词w1有不同的发音方式,则该单词的第1th种发音方式可以通过引进发音变量v1j来模拟。该发音变量v1j由符合单词w1的第jth种发音方式的子词单元构成。这种模拟语言基本发音的因素可以用作构成发音变量的子词单元。但是,使用统计的方法得到的字词单元也可以使用。隐含马尔科夫模型经常被用作最低级别的声音模拟。
用于语音识别的单词发音变量的概念如上所述,但是这一概念也可以类似地被应用于图形识别系统目录中的图形实际变量。语音识别系统词汇表中的单词相应于图形识别系统目录也就是识别单元中的图形。同单词可以有不同的发音一样,目录中的图形也可以有不同的方式来实现。这样,单词的手写和打印之间就有很大的不同,同时一个给定的面部表情例如微笑就可以根据个人和环境的不同有不同的构成。虽然由于经济上的原因在本申请的文本中只是参照语音识别系统进行描述的,但本发明所考虑的就是对图形识别系统中的每一个都仅与目录中图形的一个实际变量相关的参数进行训练的方法和系统。
正如上面所指出的,很多图形识别系统都是通过将一个未知的测试图形同存储在其目录中的参考图形相比较来确定该测试图形是否同某一个参考图形相对应,如果是的话再确定同哪个参考图形相对应。为这一目的的参考图形有合适的参数,并且该参数被存储在图形识别系统中。基于统计方法的图形识别系统接着就会计算表示参考图形和测试图形匹配程度的数值,并接着找出具有最高值的参考图形,该参考图形将作为该测试图形的识别结果而被输出。按照这样的一般过程就可以根据使用的发音变量来获得该数值,该数值表示已被读出话语与发音变量的的匹配程度以及发音变量与单词的匹配程度,也就是在后一种情况下说话者是否根据该发音变量来对该单词进行发音。
很多语音识别系统使用同概率模型最接近的量作为它们的数值。这可以由以下构成:例如,该语音识别系统的任务就是为已被读出话语x找出N个单词的单词序列 w ^ 1 N = ( w ^ 1 , w ^ 2 , . . . , w ^ N ) ,其中N为未知,其中所有可能长度为N’的所有可能的单词序列w1 N’与已被读出话语x最匹配,也就是在条件x的前提下具有最高的条件概率: w ^ 1 N = arg max w 1 N ′ p ( w 1 N ′ | x ) . . . . . ( 1 )
使用Bayes′定理来生成一个已知的模型部分: w ^ 1 N = max arg w 1 N ′ p ( x | w 1 N ′ ) · p ( w 1 N ′ ) . . . . . ( 2 )
同单词序列w1 N’相关的可能的发音变量v1 N’可以通过求和得出: p ( x | w 1 N ′ ) = Σ v 1 N ′ p ( x | v 1 N ′ ) · p ( v 1 N ′ | w 1 N ′ ) , . . . . . . . ( 3 ) 因为可以假设用发音变量v1 N’发音的已读出话语x同单词序列w1 N’之间的相关性是由发音变量序列v1 N’唯一确定的。
为了进一步模拟该相关性p(v1 N’|w1 N’),可以进行这种不考虑上下文影响假设: p ( v 1 N ′ | w 1 N ′ ) = Π i = 1 N ′ p ( v i | w i ) . . . . . . . . ( 4 )
如果该语音识别系统的词汇表V的第lth个单词为w1,则该单词的第lth个发音变量为v1j,并且发音变量v1j在发音变量序列v1 N’中出现的频率为h1j(v1 N’)(例如,发音变量“cuppa”在话语“give me a cuppa coffee”中出现的频率为1,但是在“cup of”中出现的频率为0,后面的表达式也可以写成: p ( v 1 N ′ | w 1 N ′ ) = Π i = 1 D [ p ( v 1 j | w 1 ) ] h ij ( v 1 N ′ ) , . . . . . ( 5 ) 其中的结果是对词汇表V的所有单词D进行的。
该量值p(v1j|w1)即单词w1用发音变量v1j发音的条件概率也就是该语音识别系统的的参数,其中在这种情况下每个参数都仅同词汇表中单词的一个发音变量相关。通过以声学语音信号的形式存在的已读出话语训练组来在语音识别系统训练期间以一种合适的方式对该量值进行估算,并且该估算值根据上述的公式在识别未知测试图形过程中被传给识别方案的数值。
对于上述的图形识别中常用的求解概率的过程,采用实际上没能满足该概率的条件的计算函数对于本领域内的技术人员来说是显而易见的。这样,例如,通常不把标准化条件作为必要条件或者代替概率p,相反却经常使用将参数λ作为指数的概率pλ。很多系统还使用该概率的负对数:-λlogp来表示“数值”。在本申请提及概率时,对于本领域内的技术人员来说常见的更一般的计算函数也包含在其中。
对其中每个参数都仅同词汇表中单词w1的一个发音变量v1j相关的语音识别系统中的参数p(v1j|w1)进行训练包括在多个语音识别系统中使用“最大概似法”的方法。例如可以这样确定训练组中单词w1的各个变量v1j多长时间被读一次。从该训练组中获得的相关频率frel(v1j|w1)直接被用作参数p(v1j|w1)的估算值或者首先进行统计修匀操作例如折扣。
与之相比美国专利文献US6076053公开了一种将词汇表中单词的发音变量合并到一个发音网络结构中的方法。这种发声网络结构的弧度由子词单元构成,例如发声变量中以HMMs(“指定给特定弧度的子词(音素)HMMs”)形式存在的音素。为确定词汇表中单词w1的某一个发声变量v1j是否被读出,在发声网络弧度的级别或者弧度HHM状态的子级别生成了加权乘法、加权加法以及电话宽度相关加权参数。
在美国专利文献US6076053中并没有使用数值p(v1j|w1)。相反,在使用加权参数例如弧度级别的过程中,数值ρj (k)被指定给用于第kth个单词的发声网络中的弧度j,其中ρj (k)例如为概率的(负)对数。在弧度级别加权中,弧度j被指定为数值ρj (k)。在一个优选实施例中,该数值为可能性的对数。该数值接着通过加权参数进行修改。(“使用弧度级别加权来得到修改后的述值gj (k)∶gj (k)=uj (k)·ρj (k)+cj (k)”)。这些加权参数本身是由不同的训练来确定的,例如在训练组中最小化分类错误率(通过使用使得不同发声网络间的区别最大化的最小分类错误标准使得该参数最优化)。
为达到这一目的,本发明提供了一种对图形识别系统中的参数进行训练的方法和系统,其中每个图形都仅与目录中图形的一个实际变量相关,尤其涉及一种对语音识别系统中的参数进行训练的方法和系统,其中每个参数都仅与词汇表中单词的一个发音变量相关,并且该图形识别系统在识别未知测试图像方面具有较高的精确度。
这一目的是通过对图形识别系统中的参数进行练的方法来实现的,其中每个参数都仅与目录中图形的一个实际变量相关,该方法包括以下步骤:-生成图形训练组,以及-通过区别对待目标函数的最优化以及用于对图形识别系统的参数进行训练的系统来确定参数,其中每个参数都仅同目录中图形的一个实际变量相关,该系统被指定为:-生成图形训练组,以及-通过区别对待目标函数的最优化以及尤其通过用于对语音识别系统的参数进行训练的方法来确定参数,其中每个参数都仅同词汇表中单词的一个发音变量相关,该方法包括以下步骤:-生成声学语音信号的训练组,以及-通过区别对待目标函数的最优化以及尤其通过用于对语音识别系统的参数进行训练的系统来确定参数,其中每个参数都仅同词汇表中单词的一个发音变量相关,该系统被指定为:-生成声学语音信号的训练组,以及-通过区别对待目标函数的最优化来确定参数。
独立权利要求2-5进一步涉及本发明实施例的优点。它们涉及参数被指定给数值p(v1j|w1)的形式、目标函数的细节、各种数值的类型以及对目标函数进行最优化的方法。
但是在权利要求9和10中,本发明涉及用权利要求7所述方法获得的参数,还涉及存储该参数的数据载体。
下面将参照实施例和附图对本发明上述这些以及其它的方面进行更详细的描述,其中:
图1为根据本发明的对语音识别系统中的仅同词汇表中单词的一个发音变量相关的参数进行训练的系统的一个实施例。
图2为根据本发明的对语音识别系统中的仅同词汇表中单词的一个发音变量相关的参数进行训练的方法的一个实施例的流程图。
语音识别系统的仅同词汇表中单词w1的一个发音变量v1j相关的参数p(v1j|w1)被直接提供给目标函数的不同优化过程。合适的目标函数包括语句错误率,也就是已被读出话语识别错误的比例(最小分类错误)和单词错误率,也就是单词识别错误的比例。由于这些都是离散函数,本领域内的技术人员通常会采用平滑结构来代替实际错误率。可用的优化过程例如用于最小化平滑错误率的过程为梯度过程,特别是“广义概率下降(GPD)”,还有用于非线性最优化的其它过程例如单工方法。
但是在本发明的一个优选实施例中,该优化问题以提供可能使用的不同模型组合的形式被提出。从用于各个模型逻辑线性组合信息和不同加权因素优化的WO99/31654中可知,该不同模型组合为一般的常用方法。因此,WO99/31654包括在本实施例中从而避免了对不同模型组合方法的重复叙述。
数值p(v1j|w1)本身并没有被直接用作实现不同模型组合方法的参数,但它们用含有新参数λ1j的指数形式表示:
p(v1j|w1)=eλ1j                                   (6)
其中参数λ1j在已知的非线性最优化方法中可以直接用来对目标函数进行最优化。该不同模型组合的目的就是实现模型数值p(W1 n|x)的逻辑线性形式。为了这一目的,等式(3)的和被限定为它的主要部分,近似为: p ( x | w 1 N ′ ) = p ( x | v ~ 1 N ′ ) · p ( v ~ 1 N ′ | w 1 N ′ ) , . . . . . . ( 7 ) v ~ 1 N ′ = arg max v 1 N ′ p ( x | v 1 N ′ ) · p ( v 1 N ′ | w 1 N ′ ) . . . . ( 8 )
考虑到上面所述的Bayes'定理(等式2)以及等式(5)和(7),预期的逻辑线性表达式为: log p Λ ( w 1 N | x ) = - log Z Λ ( x ) + λ 1 log p ( w 1 N ) + λ 2 log p ( x | v ~ 1 N ) + Σ i = 1 D λ 1 j h 1 j ( v ~ 1 N ) . . . ( 9 )
为了阐明将要被优化的参数Λ=(λ1,λ2,…,λ1j,…)之间的相关性,在相关位置引入Λ作为索引。更进一步的说,通常在不同模型组合中,其它的两个被加数log p(w1 N)和logp(x|
Figure A0212185400094
)也分别具有合适的参数λ1和λ2。但是这并不一定得进行最优化,却可以使得:λ1=λ2=1。然而,这些最优化并没有使得语音识别系统的量值得到改进。该量值Zλ(x)只取决于已被读出话语x(和参数Λ)并且仅用作标准化,直到它用来将数值pΛ(w1 N|x)作为概率模型来进行说明;也就是只有当标准化条件 Σ w 1 N p Λ ( w 1 N | x ) ( w 1 N | x ) = 1 时才来确定Zλ(x)。
该不同模型组合利用在训练过程中确定的多种形式的平滑单词错误率来作为目标函数。为了这一目的,该训练组应该由H个已被读出话语xn构成,n=1,...,H。每个话语xn都有一个长度为Ln的已被读出单词序列(n)w1 Ln,为方便起见这里采用了单词序列kn。kn并非一定是实际上的已被读出的单词序列;在非监视适应中,kn例如可以通过一个初步识别步骤来确定。进一步说,Kn个单词序列的量值(n)ki,i=1,...,Kn可以通过例如对每个话语xn计算称为单词表或N最佳列表的步骤来确定,其中含有Kn个单词的单词序列同已被读出单词序列kn在识别过程中竞争最高数值。为简便起见这些竞争单词序列被指定为k≠kn,其中符号k为用于kn和k≠kn的一般符号。
该语音识别系统确定单词序列kn和k(≠kn)的数值pΛ(kn|xn)和pΛ(k|xn),该数值表示它们与已被读出话语xn的匹配程度。由于语音识别系统选择具有最高数值的单词序列kn或k作为识别结果,所以通过计算已被读出(或者假定已被读出)单词序列kn和选中的单词序列之间的李文施坦(Levenshitein)距离Γ来得到单词错误率E(Λ): E ( Λ ) = 1 Σ n = 1 H L n Σ n = 1 H Γ ( k n , arg max k ( log p Λ ( k | x n ) p Λ ( k n | x n ) ) ) . . . ( 10 )
该单词错误率可以通过“指示函数”S(k,n,Λ)被平滑处理后而成为一个能够求导的连续函数Es(Λ): E S ( Λ ) = 1 Σ n = 1 H L n Σ n = 1 H Σ k ≠ k n Γ ( k n , k ) S ( k , n , Λ ) . . . . ( 11 ) 该指示函数S(k,n,Λ)对于由语音识别系统选出的具有最高数值的单词序列来说应该趋于1,而对于所有的其它单词序列来说趋于0。一个可能的选择就是: S ( k , n , Λ ) = p Λ ( k | x n ) η Σ k ′ p Λ ( k ′ | x n ) η . . . . . ( 12 ) η为一个合适的常数,在最简单的情况下为1。
等式11的目标函数可以通过例如迭代梯度的方法进行优化,使得在完成各个部分导出式之后,本领域内的技术人员就可以获得下面的用于发声变量λ1j的迭代等式: λ 1 j ( I + 1 ) = λ 1 j ( I ) - ϵ · η Σ n = 1 H L n Σ n = 1 H Σ k ≠ k n S ( k , n , Λ ( I ) ) · Γ ~ ( k , n , Λ ( I ) ) · [ h 1 j ( v ~ ( k ) n ) - h 1 j ( v ~ ( k n ) ) ] . 步骤宽度为ε的迭代步骤将从第Ith个迭代步骤的参数λ1j (1)中生成第(I+1)th个步骤的模参数λ1j (I+1)
Figure A0212185400112
(k)和
Figure A0212185400113
(kn)对于单词序列k和kn来说具有最高数值(根据等式8)的发声变量,并且
Figure A0212185400114
(k,n,Λ)简写为: Γ ~ ( k , n , Λ ) = Γ ( k , k n ) - Σ k ′ ≠ k n S ( k ′ , n , Λ ) Γ ( k ′ , k n ) . . . . ( 14 )
既然量值
Figure A0212185400116
(k,n,Λ)与错误率Γ(k,kn)之间的差大约为所有单词序列用S(k’,n,Λ)加权后的错误率之和,所以可以用单词序列k在满足 (k,n,Λ)<0时来作为正确的单词序列,这是因为它们示出了一个比用S(k’,n,Λ)加权后还要低的错误率。等式13的迭代规则确保参数λ1j,以及用于已被读出单词序列kn的发声变量v1j中将被放大的数值p(v1j|w1)频繁的出现在正确的单词序列中,也就是保证在正确的单词序列中h1j( (k))-h1j(
Figure A0212185400119
(kn))>0。对于不常出现在错误单词序列中的变量也可以采用类似的规则。另一方面,对于不常出现在正确单词序列中而经常出现在错误单词序列中的变量则要降低其数值。以上的说明就是本发明有益效果的一个很好的实例。
图1为根据本发明的对语音识别系统中的仅与单词的一个发音变量相关的参数进行训练的系统的一个实施例。根据本发明的对语音识别系统中的仅与一个发音变量相关的参数进行训练的方法是通过存储在程序存储器2中的程序控制计算机1实现的。麦克风3用来记录已读出的话语并被存储在语音存储器4中。除了通过麦克风3进行记录以外,这些已读出话语可以通过数据载体或者网络传送给语音存储器。
参数存储器5和6用来存储参数。可以设想在该实施例中上面讨论的迭代最优化进程是可以实现的。参数存储器5中则含有例如第(I+1)th迭代步骤进行计算所必需的第Ith步骤中在当时情况下已经是已知的参数,同时参数存储器5接收该第(I+1)th迭代步骤的新参数。接下来,也就是该实例的的第(I+2)th迭代步骤中,参数存储器5和6则互换任务。
根据本发明的方法可以在该实施中的通用计算机1中实现。其中包括一般设置的存储器2、5和6,而语音存储器4则位于可以通过网络进行存取的中央服务器中。但是,也可以使用特定的硬件来实现该方法,这样可以使得该方法或其中的一部分可以更快的实现。
图2为根据本发明的对语音识别系统中的仅与词汇表中单词的一个发音变量相关的参数进行训练的方法的一个实施例的流程图。在开始块101中进行一般的准备步骤,在这之后,在块102中选择参数的开始值Λ(0),并且迭代计数变量I被设为0:I=0。上面所述的“最大概似法”可以用来估算数值p(v1j|w1),这就可以通过对数函数的信息获得开始值λ1j (0)
块103通过已读出话语训练组来开始程序,将迭代计数变量I被设为1:I=1。在块104中选择与已读出话语xn相匹配的单词序列k≠kn。如果与已读出话语xn相匹配的已读出单词序列kn并不是训练数据,则可以通过更新块104中语音识别系统的参数信息来进行估算。但是也可以在这之前例如块102中进行这种估算。进一步讲,分散的语音识别系统也可以用来估算已被读出的单词序列kn
在块105中,开始竞争单词序列的量值k≠kn的程序,为这一目的,迭代计数变量I被设为1:k=1。在块106中按照等式13随着计数变量n和k的增加进行计算。在要求竞争单词序列的量值k≠kn的判断块107中测试是否存在任何其它的竞争单词序列k≠kn。如果判断结果为是,则转向块108,迭代计数变量k加1:k=k+1,接着再回到块106。如果判断结果为否,则转向块109,在通过已读出话语训练组来限制程序的判断块109中测试是否还有任何训练话语是可用的。如果判断结果为是,则转向块110,迭代计数变量n加1:n=n+1,接着再回到块104。如果判断结果为否,则已读出话语的训练量值的程序将被结束并转向块111。
在块111中,计算参数Λ的新值,也就是在第一迭代步骤I=1中的值Λ(1)。在接下来的块112中采用停止标准来判断最优化是否已经收敛。这可以通过很多种已知的方法来实现。例如,可以要求参数或者目标函数的相关变化降到一个给定的阈值之下。但在任何情况下,该迭代可以在一个给定的最多迭代次数之后终止。
如果该迭代没有收敛,则在块113中迭代计数变量I加1:I=I+1,于是在块103再次进入迭代循环。相反,在块114中采取一般的调整措施来终止迭代。
为确定参数λ1j上面详细叙述了一种特别的迭代最优化处理过程,但是对于本领域内的技术人员来说还可以采用多种其它的最优化方法。尤其是,可以采用所有的同不同模型组合相关的方法。这里需再次提及的就是WO99/31654中公开的方法。该方法可以以封闭的形式来确定非迭代参数。可以通过求解线性方程Λ=Q-1P来得到参数向量,其中矩阵Q和向量P由数值变换和目标函数得到。读者可以参照WO99/31654进行更深入的了解。
在确定参数λ1j之后,该参数可以用来对包含在发声词典中的发声变量v1j进行选择。这样,例如,具有在一个给定的阈值之下的数值p(v1j|w1)的变量v1j就可以从发声词典中移除。进一步,还可以生成一个具有给定数量变量v1j的发声词典,其中适当个具有最低数值p(v1j|w1)的变量v1j被删掉。

Claims (10)

1.一种对语音识别系统中的参数进行训练的方法,其中每个参数都仅与词汇表中单词的一个发音变量相关,该方法包括以下步骤:-生成声学语音信号可用的训练组,以及-通过区别对待目标函数的最优化来确定参数。
2.如权利要求1所述的方法,其特征在于,与词汇表中第lth个单词w1的第jth个发声变量v1j相关的参数λ1j和数值p(v1j|w1)之间具有以下的关系,使得单词w1和发声变量v1j一样发音:
p(v1j|w1)=eλ1j
3.如权利要求1或2所述的方法,其特征在于,目标函数是一个能够求导数的连续函数,具有如下量:-在与训练组中相应的声学语音信号xn相关的已被读出单词序列kn和与语音信号相关、同kn竞争的单词序列k≠kn之间的各个李文施坦距离Γ(kn,k),以及-分别表示单词序列k≠kn和已被读出单词序列kn同语音信号匹配程度的数值pΛ(k|xn)和pΛ(kn|xn)。
4.如权利要求1至3之一所述的方法,其特征在于:-概率模型用作所述的各个数值pΛ(v1j|w1),并表示单词w1和发声变量v1j一样发音的概率,以及-概率模型用作所述的各个数值pΛ(kn|xn),并表示同训练组中相应的声学语音信号xn相关的已读出单词序列kn和语音信号xn一样发音的概率,和/或-概率模型用作所述的各个数值pΛ(k|xn),并表示相关竞争单词序列k≠kn和语音信号xn一样发音的概率。
5.如权利要求1或4之一所述的方法,其特征在于,功能函数的区别对待最优化是通过不同模型组合中的一种方法实现的。
6.一种对语音识别系统中的参数进行训练的系统,其中每个参数都仅同词汇表中单词的一个发音变量相关,该系统被指定为:-生成可用的声学语音信号训练组,以及-通过区别对待目标函数的最优化来确定参数。
7.一种对图形识别系统中的参数进行训练的方法,其中每个参数都仅同目录中图形的一个实际变量相关,该方法包括以下步骤:-生成可用的图形训练组,以及-通过区别对待目标函数的最优化来确定参数。
8.一种对图形识别系统中的参数进行训练的系统,其中每个参数都仅同目录中图形的一个实际变量相关,该系统被指定为:-生成可用的图形训练组,以及-通过区别对待目标函数的最优化来确定参数。
9.仅各与目录中图形的一个实际变量相关的图形识别系统的各参数,其中该参数通过权利要求7所述的方法生成。
10.一种载有如权利要求9所述的图形识别系统的参数的数据载体。
CN02121854.4A 2001-04-20 2002-04-17 对识别系统中的参数进行训练的方法和系统 Pending CN1391211A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10119284.3 2001-04-20
DE10119284A DE10119284A1 (de) 2001-04-20 2001-04-20 Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems

Publications (1)

Publication Number Publication Date
CN1391211A true CN1391211A (zh) 2003-01-15

Family

ID=7682030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02121854.4A Pending CN1391211A (zh) 2001-04-20 2002-04-17 对识别系统中的参数进行训练的方法和系统

Country Status (5)

Country Link
US (1) US20030023438A1 (zh)
EP (1) EP1251489A3 (zh)
JP (1) JP2002358096A (zh)
CN (1) CN1391211A (zh)
DE (1) DE10119284A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
CN110992777A (zh) * 2019-11-20 2020-04-10 华中科技大学 多模态融合的示教方法、装置、计算设备及存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
CN101253452A (zh) * 2005-06-13 2008-08-27 Asml荷兰有限公司 主动式掩模版工具、光刻设备和在光刻工具中对器件图案化的方法
US20070083373A1 (en) * 2005-10-11 2007-04-12 Matsushita Electric Industrial Co., Ltd. Discriminative training of HMM models using maximum margin estimation for speech recognition
EP2005416A2 (en) * 2006-04-03 2008-12-24 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7680663B2 (en) * 2006-08-21 2010-03-16 Micrsoft Corporation Using a discretized, higher order representation of hidden dynamic variables for speech recognition
US20100281435A1 (en) * 2009-04-30 2010-11-04 At&T Intellectual Property I, L.P. System and method for multimodal interaction using robust gesture processing
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN116807479B (zh) * 2023-08-28 2023-11-10 成都信息工程大学 一种基于多模态深度神经网络的驾驶注意力检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296887C (zh) * 2004-09-29 2007-01-24 上海交通大学 用于嵌入式自动语音识别系统的训练方法
CN101546556B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类系统
CN110992777A (zh) * 2019-11-20 2020-04-10 华中科技大学 多模态融合的示教方法、装置、计算设备及存储介质

Also Published As

Publication number Publication date
EP1251489A2 (de) 2002-10-23
US20030023438A1 (en) 2003-01-30
EP1251489A3 (de) 2004-03-31
JP2002358096A (ja) 2002-12-13
DE10119284A1 (de) 2002-10-24

Similar Documents

Publication Publication Date Title
CN1391211A (zh) 对识别系统中的参数进行训练的方法和系统
AU751310B2 (en) Speech recognition system employing discriminatively trained models
KR101780760B1 (ko) 가변길이 문맥을 이용한 음성인식
US4741036A (en) Determination of phone weights for markov models in a speech recognition system
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
CN110517693B (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
US20100169093A1 (en) Information processing apparatus, method and recording medium for generating acoustic model
EP0617827B1 (en) Composite expert
US8494847B2 (en) Weighting factor learning system and audio recognition system
EP1557823B1 (en) Method of setting posterior probability parameters for a switching state space model
EP0788649A2 (en) Method and system for pattern recognition based on tree organised probability densities
WO1997008685A2 (en) Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
WO1992014237A1 (en) Method for recognizing speech using linguistically-motivated hidden markov models
JPH06332497A (ja) ニューラル・ネットワークを使用する話者非依存隔離単語音声認識システム
CN1150490A (zh) 优化隐藏的马尔科夫模型语音识别的方法、装置和无线电设备
US8762148B2 (en) Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
CN110349597A (zh) 一种语音检测方法及装置
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
Sancinetti et al. A transfer learning approach for pronunciation scoring
US7680664B2 (en) Parsimonious modeling by non-uniform kernel allocation
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
Liu et al. Automatic model complexity control using marginalized discriminative growth functions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication