CN1176455C - 验证言词话语的设备和方法 - Google Patents

验证言词话语的设备和方法 Download PDF

Info

Publication number
CN1176455C
CN1176455C CNB011109203A CN01110920A CN1176455C CN 1176455 C CN1176455 C CN 1176455C CN B011109203 A CNB011109203 A CN B011109203A CN 01110920 A CN01110920 A CN 01110920A CN 1176455 C CN1176455 C CN 1176455C
Authority
CN
China
Prior art keywords
text
words language
finite state
language
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB011109203A
Other languages
English (en)
Other versions
CN1312542A (zh
Inventor
V1
尤潘德拉·V·查德哈里
斯蒂芬尼·H·梅斯
�����ɷ�
吉里·纳夫拉特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1312542A publication Critical patent/CN1312542A/zh
Application granted granted Critical
Publication of CN1176455C publication Critical patent/CN1176455C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种验证言词话语的设备,包括:生成至少一个目标口令语句的目标口令语句生成器;接受装置,它把基于一个言词话语的文本与至少一个目标口令语句相比较,并根据比较结果决定接受还是拒绝该言词话语;解码器,它把一个言词话语转换为解码的文本,以便在所述接受装置中与所述至少一个口令语句进行比较;和有限状态语法生成器,生成一个有限语法状态供所述解码器使用;所述解码器通过应用有限状态语法修改言词话语而把该言词话语转换为解码的文本。

Description

验证言词话语的设备和方法
技术领域
本发明一般涉及对口述口令和语句进行验证的方法和设备。
背景技术
在近年来所涌现出来的多种技术及产品中,言词话语接收和拒绝的概念正逐步流行起来。例如,一种广为公众接受和使用的技术就是自动拨号电话,在这种技术中,当说出一个关键词或关键短语时,如“Mom”,“Office”,“Smith医生”等,一个适当的与该关键词/短语相应的电话号码就被自动拨出,这样用户就没必要牢记该电话号码或查找它了。与那种键盘型的基于记忆的通过按一个或几个按钮把一个常用的号码拨出去的拨号系统相比,本系统的本质优点在于这种简捷既不需有意识地查找电话号码,也不需牢记之。言词提示指令的其它应用自然也流行了起来并且得到了关注,它们的用途必然会随着适合于此类指令的附加技术或产品的开发而增加。
在传统的,对口述口令和语句进行验证的方法和设备中利用了由一个解码过程产生的“声似然”。所谓“声似然”就是一个口述的关键词或语句真正与一个给定的关键词或语句相匹配的概率。
在传统上,一般在一个话语基上对声似然进行规范化,并为了验证而使用预先设好的阈值(即,就其与一个给定的目标词或短语的匹配程度而言,基于一个给定的系数考察一个言词话语是否符合一个确定的阈值,若符合,就可认为它与上述目标词或短语足够地匹配)。
在美国专利No.5,717,826(Lucent Technologies,Inc.)中给出了一种实质上接近上述方法的言词实现,然而在这种情况下,为了转录关键词,需要一个完整的解码器才行。口令建模是在第二阶段中,在上述解码器之外进行的。
在别处,还可以发现类似的,不按我们所希望的方式来解决问题和争议的方案。在美国专利No.5,465,317的题为“具有改进的拒绝的语音识别系统...”中揭示了一种基于阈值的并依赖于语音似然的技术,该技术与题为“连接的数字语音识别的非数字流的拒绝”的美国专利No.5,613,037中揭示的技术一样。
从上述观点可见,确实有必要在本领域中基于上述努力改进并克服其上述不足。
发明内容
根据本发明的一个方面,提供了一种验证言词话语的设备,此设备包括:生成至少一个目标口令语句的目标口令语句生成器;接受装置,它把基于一个言词话语的文本与至少一个目标口令语句相比较,并根据比较结果决定接受还是拒绝该言词话语;解码器,它把一个言词话语转换为解码的文本,以便在所述接受装置中与所述至少一个口令语句进行比较;和有限状态语法生成器,生成一个有限语法状态供所述解码器使用;所述解码器通过应用有限状态语法修改言词话语而把该言词话语转换为解码的文本。
根据本发明的另一方面,提供了一种对言词话语进行验证的方法,包括:生成至少一个目标口令语句;把基于一个言词话语的文本与至少一个口令语句相比较;基于所述言词话语与至少一个目标口令语句相比较的结果决定接受或是拒绝言词话语;把所述言词话语转换为解码的文本;和生成一个有限状态语法;所述比较步骤包括把解码的文本与至少一个目标口令语句相比较的步骤;而所述转换步骤通过利用所述有限状态语法对所述言词话语进行修改来把该言词话语转换为解码的文本。
根据本发明的当前优选的至少一个实施例,一种建议的方法允许对一个口述的口令语句进行言词验证(不使用声阈值)的操作在不必经过用繁重的计算来对大量的词汇进行解码的情况下就可验证一个口述的口令语句。解码器最好能使用(代表将被验证的原始内容的)目标基本形及一组特殊的用有限状态语法(FSG)即可被很容易地构成的竞争的简化的基本形。因此,根据本发明的至少一个实施例,一个重大的,不同于以往的努力的地方在于,在上述解码器内部所进行的隐式口令搜索使得解码的复杂程度非常低。
在一种简单配置中,上述解码器可在口令基本形上用加给FSG图的任选跳跃转移实现一种强制定位(即利用把目标基本形中的若干部分用空弧替换的办法,从目标基本形中导出竞争基本形)。如果口述的话语,例如一个数字串,并不与上述目标基本形相对应,则由于有解码器所使用的某些跳跃转移,假设它不与全基本形相匹配的概率就大。这对于被登记为声附加词的口令来讲也是成立的,如下面详细所述的。
附图说明
为了更好地理解本发明及它的其它进一步的特性和优点,这里给出了下面的描述及附图作为参考,并在所附权利要求书中指出了本发明的保护范围。
图1示出了具有经修改的转移结构的解码图。
图2示出了一个附加词基本形的具有经修改的转移结构的解码图。
图3以图解的形式示出了一个话语验证系统的概览图。
具体实施方式
根据本发明的至少一个首选实施例,在至少两个用户登记的功能配置中使用一种话语证实系统,这一点是可以接受的。这两种功能配置被分别示于图1和图2,并在下文中予以说明。
在与图1相联系的第一种配置中,一个口令被用户选中,如通过选定或指定一个数字串等来进行选择,其文本形式能传递给系统。这样该口令的词法转录就开始被知道了。有关这一点,为了示范的目的,图1用空弧示出了一个具有一种经修改的转移结构的解码图。
解码器最好能用一种通过在格子内部的搜索空间上加上限制的词有限状态语法(FSG)实现一个维特比搜索。维特比搜索是在给定某些定义很好的似然度量的情况下,通过格子结构从许多路径中选出一条最优路径的搜索。有关维特比搜索的说明可在关于冲击解码器的文章中找到。即在未决的共同转让的美国专利No.09/015,150中及一篇与之相对应的(作者为Ramabhadran等,并被发表在《ICASSP’89,Seattle,1998》上)题为“只基于声的自动语音基本形生成”的文章中,对该冲击解码器都有说明。)一个口令最好由用户在一登记阶段就选中,该口令就构成FSG的第一部分。
图1中示出了一个4数字口令的例子。另外,FSG的这个部分最好是只允许按最初设好的顺序在各个数字w1...WT间转移(“强制定位’)。另外,FSG的第一部分还可以允许沉寂和单独词之间的非语音事件(如暂停,犹豫等)。
如果一个实际话语不附合正确的口令-话语表,FSG的第二部分就考虑竞争解码路径。这些单元可以是单独的竞争词(例如用“pat”代替“bat”),词类,垃圾模型或实现跳往下一个单元或在FSG的第一部分中所指定的任何后续单元的非发射(“空”)弧(Φ)。具体地,空弧被示在图1中。
关于竞争词,应当注意,它们的选择依赖于话语拒绝将在其中实现的那个应用或依赖于现有的设置。例如,如果对两个用户有两个口令,它们的某部分听起来非常相似,例如对于第一个用户是“pat”,对第二个用户是“bat”,则对于验证第二个用户来讲,则“pat”可能是一个竞争词,而对于验证第一个用户来讲,“bat”可能是一个竞争词。然而对于根据目前应用所进行的选择,竞争词甚至可以是非常不相似的词。
“词类”可以被认为是一个既包含了语法表(如“plate”动词“plated”)也包含了词法群的组。例如,一个数字词类可能包含从“0”至“9”的数字,但却把目标话语的个别目标数字排除在外。
“垃圾”,在上面所表达的上下文中,可以被看作是抓取了许多不同声音的单元,这些声音的起源可能有语言上的意义,也可能没有,例如咕哝声,不同的背景声等。
图2示出了一个针对附加词基本形的具有一种经修改的转移结构的解码图。这里所涉及的解码器的配置是在语音口令的词法结构是未知时的配置。另外,在图2所示的实施例中,口令是由用户选定的,但是这一次用户只是把该口令登记为一个语音话语,即不用为系统指定相应的文本转录。
与图1中所示的实施例不同,登记阶段将要涉及到用语音的形式把用户的口令(或许还有其重复)提供给系统。系统用一个解码器(最好是一个象前面所提的在美国专利No.09/015,150中和在Romabhadran等文章中所描述的那种冲击解码器)来获得用解码器单元表达的转录,它们通常是单音或单音类。转录随后被存储起来。
接下来,通过限制解码器图(即格空间),使之允许按照在登记阶段所看到的那种正确的口令转录进行转移,可使话语验证继续进行下去。然而,限制最好是能够通过对竞争单元、单元类或至语法的被强制定位部分的跳跃进行OR加运算来被“放宽”,以便当实际话语不同于正确的口令时,允许进行解码替换。
在简单重述参照图1和2描述和说明的实施例的过程中,应当注意到,按照其当前的至少一个优选实施例,本发明大概地包括了至少两不同的操作环境,它们分别对应着口令在解码系统中的登记方式。
在结合图1描述和说明的第一种环境中,登记主要是通过诸如键入一个词那样通过文本通信来进行的。随后产生一个FSG。该FSG最好由两部分构成。第一部分最好包括用户在登记过程中所选定的口令及其变化不大的变体。这样FSG的第一部分最好被扩展一下,超过登记的“纯”口令本身,而包含口令的具有沉寂和非语声事件如夹在单个词间的暂停和犹豫等的变体。
另一方面,如果一个未来的话语(即将与所登记的口令词相对比的话语)与所登记的口令形式不匹配,则FSG的第二部分最好能考虑竞争解码路径。由此,FSG的上述第二部分最好能包含已知的竞争词、词类、垃圾模型或能够实施向下一个单元或下面的某个在上述FSG的第一部分中即已指定的单元跳跃的非发射(φ)弧。关于这一点,图1在说明可能的空弧(φ)路径方面是有指导意义的。作为简单的可用于生成一个FSG的上述第二部分的算法的非限制性实例,人们可以为每个单独的词加一个跳跃转移,然后再在每隔一个词上加一个跳跃转移。可以把这一原理连续运用于每相邻三个或更多词的情形,直到最后一个跳跃转移,它把整个单词序列“桥接”为一个大跳跃转移。
然而,图2所示的实施例所涉及的是以语音的形式登记口令的情形,此处不用文本的形式进行登记。在美国专利No.09/015,150中对一种能在语音登记基础上导出语音转录的基本形的方法和方案进行了详细地描述。所以,为了导出语音口令登记的语音转录,希望上述结合图2进行描述和说明的实施例最好能使用在前面提到的美国专利No.09/015,150和Ramabhadran等人的文章中所描述的那种转录方案,或者使用一个适当的替代。上述语音转录最好能存储起来,以便用于与将来的用户话语做比较。对于在前面提到的美国No.09/015,150和Ramabhadran等人的文章中所描述的那种转录方案,可能的替代是其它可用于语音识别的常用方法,诸如向量量化技术或人工神经网络等。
与上述结合图1进行描述和说明的实施例相似,最好能对一个FSG进行限制,使之能允许转移按照“正确”的转录来进行。这里所谓的“正确”转录是指象在登记阶段所看到的或通过一个强制定位图所定义的那样的转录。该强制定位图最好用一个格空间来定义(见美国专利No.09/015,150)。然而,最好是通过利用OR逻辑,把竞争单元、单元类或是跳(φ)添加到FSG强制定位部分把限制扩展或“放宽”,以便当一个实际话语与正确的口令不同时可以进行解码替换。在说明一个具有修改的转移结构的解码图方面,图2具有指导意义,这种情况是由空弧(φ)来实现的,其中的a1…aN代表目标基本形,每个元素a1,a2…等代表结点(以圆代表)间的弧。如果美国专利No.09/015,150中所描述的转录方案,或使用其它功能等价的转录方案,则上面所提到的弧最好是单音的子元素,三个这类子元素联合起来构成该单音。“结点”主要是构成口令的“通道”,或者可以简单地把它们看成是离散的时间步骤,上面说的弧就是在它们之间展开的。在图2中,每个实心圆都既是弧序列的起始点又是其终止点,代表在弧序列前面或后面的一个沉寂状态。
现在开始从总体上讨论一个话语验证系统100,如图3所示,它是根据本发明的至少一个当前的优选实施例构成的。需要明白的是,图3中所示的实施例能够说明前面结合图1和2所描述和说明的两个登记子实施例。
基本上,在图3所示的话语验证方案100中,转录(分别指图中的102,104)主要是用来执行一个假设检验的,这也就构成了验证的步骤。上述转录来自结合图1和图2进行了描述和说明的那两种中任一种解码器配置。无论所用的是哪种转录系统,由解码器单元所组成的序列都最好能与所关心的口令的“正确”或“理想”实现相匹配,这种实现是同一种可以解释实际话语中由于不严重的误识别,沉寂和非语音事件所引起的若干插入的动态模式匹配技术来完成的。(上述解码器单元是指图1中的词或图2中的音素,或者,当使用了一种用于(象前面所提的)自动基本形生成的替换技术时,上述单元也可是其它单元。这里的自动基本形生成可以在诸如子音素或音节单元的基础上进行。)
如果使用了提示文本102,则相应的基本形以及FSG的第一部分(如在前面结合图1描述的)将在步骤106中生成。有关基本形生成的问题,其实主要就是要把文本输入进行语音转录。所生成的FSG图108最好能在步骤110中被修改,如添加空弧。这可被看成是生成FSG的第二部分的步骤,有关该第二部分的生成已在前面结合着图1进行了描述。
如果所用的不是提示文本,而是自动导出的基本形104,则就跳过步骤106了。这样在步骤110,为了从基本形中生成一个完整的FSG,就有了修改的必要,有关这一点在前面已结合图2进行了描述。
无论使用了哪种方法(即102所指的方法或104所指的方法),步骤110的结果都应是一个完整的FSG图或格的输出,这一结果将在后面的步骤112中被用来把语音输入111解析为一个基于FSG的强制定位。换言之,在最终验证(在步骤114中进行)之前,通过从一个语音信号(例如它可以对应着一个人为进行电话拨号而说出的口令和/或语音提示等)中去除非语音的单元(例如呼吸、咯吱声、暂停等),该语音信号111就被解析成一个由纯语音单元构成的强制定位图,上述去除操作是通过使原始语音输入111与已从步骤110输入的FSG图相符来实现的。所以,例如,与从FSG图中(步骤110输入的)最好去掉大量的夹杂于纯语音单元间的非语音单元(或事件)一样,在作为解码文本113输出之前,最好也从原始语音输入111中把这些非语声单元去除掉。象前面所讨论的那样,最好是从步骤110输入的FSG图中也能去除竞争语、语类、垃圾模型等,以便确保在步骤112中对既使是不能与正确口令相对应的语音输入111也能进行强制定位。
需要明白的是,在步骤112,即使FSG不能解释,甚至是部分解释语音信号111,解码器仍要执行选取一条它所能找到的对于上述给定的FSG而言是最佳的路径的操作。此处的“最佳路径”可以由任何合适的装置来确定,但最好是以下面这种方式去选,即它是上述FSG中的众多条路径中,比其它大部分路径(如果不能是全部的话)更接近上述语音信号。另外,为了此目的,FSG也可随机地选出一条路径,尤其是当语音信号111和FSG间差别非常明显时更应这样选。
下面两种可能事件中的任意之一都是我们所需要的,与语音信号111相联系的FSG路径产生低语音分数(如果语音记分真的需要使用的话,见后文),更重要的是,解码的单元序列非常可能不与步骤114中的目标单元序列相匹配(见后文)。无论是否伴随着使用了语音记分,后面这种可能事件,即单元不匹配事件都被认为比纯语音记分更可靠。
必须明白,上述解码原理及解码步骤112也可应用于以下情形,其中的话语不期望它必须只包含目标语句,而且也可包含该目标语句前和/或后的未知语句成份,例如在“口令是芝麻开门,我想”这句话中,“芝麻开门”正是我所希望的目标语句。(话语拒绝的这一“放宽”变体对于支持那些象在美国专利No.5,897,616中所给出的允许自然语音输入的应用来讲是非常重要的。)在这种情况下,112中的解码器作为一个使用在110中生成的FSG的“关键词/语句定位仪”,它与前面所述的模式的区别之处仅在于维特比网格的路径的开始点和终止点是动态地确定的,并且不必与语音信号111的开始点与终止点相同。在基于格的解码器中,有许多著名的关键词定位方法,例如,在D.A.James,S.J.Young,等人的发表于《Proc.of the InternationalConference on Acoustics,Speech,and Signal Pracessing 1994,Adelaide,Australia》的题为“基于网格的、独立于词汇表的快速词定位方法”的文章中所描述的那种方法。
在关键词定位的情形下,一种使用FSG110对语音信号进行解码的算法的例子可以表述如下:
1.在112,解码器从开始处起,逐帧地对语音话语进行处理,这里每一帧都对应着一个小的时间段,通常是10~20ms。
2.在每一个时间帧Vt处,解码器都要在由FSG(110)所定义的格中创建新的始于该帧Vt且以前并不存在的路径,另外解码器也维持若干在前面的时间帧V1,…,V(t-1)中某些时间帧处创建(并始于这些帧处)的路径。
3.在每一个时间帧Vt处,解码器对现有的路径的规范化语音分数进行估计,并基于一个裁剪阈值抛弃那些分数低的值。
4.在每一个时间帧Vt处,解码器都存储并终止一些不完整的路径,它们居留于FSG110的末端结点中,在前面的某个时间帧处分数达到过局部最大值,并从该时间帧开始,其分数值一直呈下降趋势。
5.解码器在最后的时间帧处停止并从在步骤4存储的路径集合中选出最佳不完整路径。这一路径就对应着解码文本113。
为了简化解释,可以这样认为,语音信号111确实包含着在其前后都有一些未知的非目标语音的目标语句(始于Vt1而止于Vt2)。在112处所执行的解码过程中,当解码器还没有进入话语的目标区域时(t<Vt1),要么因其似然差而将大部分路径丢弃(步骤3),之所以似然差是因为它们与修改后的FSG不匹配,要么因其与FSG的若干部分相匹配而将大部分路径保留。一旦解码进入目标区(Vt1<t<V2),就会产生具有高分数的路径,这些路径始于Vt1或其周围,且能与目标语句很好地对应。同样,当解码通过目标区的终点后,仍留存的路径的规范化分数开始下降,这些路径随后被存储和终止(步骤4)。在相反的情形中,当语音信号中根本不包含目标语句时,要么是不存在任何不完整路径(空串113),要么是它们的内容或多或少地带有随机性,在这种情况下,在114处(见下文)发生拒绝的概率就很高了。
从解码步骤112开始,在任何可能的事件中,在匹配步骤114处,解码的文本113都要与目标内容150对比。目标内容150应当是正在研究的口令的“纯”或“正确”的语音转录,不论它是来自于提示文本(102)还是来自于自动导出的基本形(104)都是如此。
步骤114中执行的匹配操作要产生一个分数(155)。分数(155)基本上可以用数种方法中的任何一种来定义。一种方法是把分数作为一个函数,它正比于正确单元的个数而反比于不匹配单元、被错误地插入的单元和被错误地删除的单元的个数。另外,可以为每两个单元间的相似性定义一种特殊的度量,并用它来计算分数。分数也可被称为“信任度”。对于实际的匹配操作,可以使用本技术领域的人们所熟知的“动态模式匹配”或“动态时间弯曲”过程来进行。
在步骤160中,上面所提到的分数被用作验证判断的基础。这个步骤可以用一个话语归一化阈值来进行。通过动态模式匹配方法(应在步骤114中执行),很可能会导出一个适用于基于阈值的判断的信任度或分数(155),这样就保持了具有一个可调操作点的可能性,而这正是值得赞赏的。
另外,上述动态模式匹配分数可与网格路径的与正确口令转录相对应的语音分数结合起来,在步骤160中提供一个验证判断。(有关语音分数的描述可在美国专利No.09/015,150及Ramabhadran等人的文章中找到。)根据本发明的一个当前的优选实施例,正确基本形路径的语音似然的计算被用一个或数个竞争路径、最佳空语法路径或是它们的任意一种结合形式来包含和归范化,基于言词的分数和基于语音的分数都应按照下面两种方式中的任意一种组合起来:
1.每个分数都首先与阈值比较,最终的判断则根据每一次单独的判断作出。
2.在运用阈值做出最终判决前,先把各分数数值地组合在一起。
在L.R.Rabiner等人的发表于《IEEE Trans.On Acosutics,Speech,and Signal Processing》Vol.ASSP-26,No.6,December 1978上的题为“关于离散词识别的动态时间弯曲算法的思考”的文章中可以找到一个合适的可用于实现本发明的实施例的动态模式匹配(DPM)的例子。
可以把分数计算方法明确地表述如下:
在定义的解码器的单元a1,…aN间,定义一种两两单元间的距离(或称“似然”或“相似性”)度量,设此距离是对称的,并且用D(ai,aj)来表示。DPM网的轴分别由单元的解码的序列和单元的最初(目标)序列来决定,在此DPM网的每个结点上都为相应的两个元素计算它们间的距离D的值。这个距离(或称似然)按前面提到的Rabiner等人的文章中所描述的方式进行累加,并被用于寻找通过DPM网的最佳路径。最终的最佳路径的距离(或称似然)就是用于基于阈值的话语拒绝的DPM“罚值”(或称似然的分数)。
人们可以使用分数的线性组合作为一种把DPM和语音分数组合在一起的方式的非限制性的例子,例如:
Score_final=A*Score_DPM+B*Score_Acoust,其中,Score_final是最终分数,Score_DPM是利用动态模式匹配得到的分数,Score_Acoust是语音分,A和B是预设的常数,它们分别以相对于具体的应用来说是合适的方式表示出了Score_DPM和Score_Acoust的权重。
简要重复一下,从前面的叙述可见,一条关于在本发明的至少一个实施例中所用的话语验证的根本原理是运用基于标签或词的解码序列的接受/拒绝规则,这正是它与仅使用具有阈值的基于语音似然的信任度量的规则的不同之处,并且这也正是其值得称赞的地方。另一个应当使用的相关的原理是在解码器内部运用限制,以便在一个话语符合正确口令时能够考虑到正确转录,而且通过运用竞争语法部分考虑到不正话语的错误转录。
从上述可见,一个与按照本发明的方法和设备相联系的重要的益处是在保持了具有与基于全解码器的系统可比的性能的同时,极大地降低了解码的复杂性(即附加给强制定位的计算量很低)。这一点是值得赞赏的。
如前所述,按照本发明的至少一个实施例的方法和设备的实际用途在事实上是无限的,例如,这中间就包括了基于姓名的电话应用。(例如,一个电话号码只有通过说出与它相联系的名字才能被拨出)。另一个可预见的实际用途是语音识别,例如可在一个允许用户访问敏感文件的计算机系统中使用。无论在哪种应用中,当用户的初始语音话语因与一个已知的口令不够相符而被拒绝时,话语拒绝就可被用来提醒该用户重说一个话语。
应当明白,文中所用的术语“口令”不仅指由一个词构成的口令,而且还指由多个词构成的口令语句,所以也应当清楚的是,术语“口令”和“口令语句”被认为是可以互换的。
应当明白,按照其至少一个当前的实施例,本发明包括一个生成至少一个目标口令的目标口令生成器和一个接受装置,此方案涉及两个内容,一是把基于一个言词话语的文本与至少一个口令相比较,二是基于比较结果决定接受还是拒绝该言词话语。还有,上述目标口令语句生成器和接受装置可在至少一台运行适当软件程序的通用计算机上实现。这些也可以在至少一个集成电路上或是至少一个集成电路的某个部分上实现。所以应当明白,本发明可用硬件、软件或二者的结合来实现。
如果文中不另外说明,我们总是假设文中所提及和引用的所有专利、专利申请、专利公开及其它公开内容都通过参考而成为一个整体。
尽管文中已结合着附图对本发明的示范性实施例进行了描述,但需要明白的是本发明并不限于上述具体的实施例,在不偏离本发明的范围及精神的情况下,一个本领域的人员可能会对本发明作出其它不同的改变与修改。

Claims (18)

1.一种验证言词话语的设备,此设备包括:
生成至少一个目标口令语句的目标口令语句生成器;
接受装置,它把基于一个言词话语的文本与至少一个目标口令语句相比较,并根据比较结果决定接受还是拒绝该言词话语;
解码器,它把一个言词话语转换为解码的文本,以便在所述接受装置中与所述至少一个口令语句进行比较;和
有限状态语法生成器,生成一个有限语法状态供所述解码器使用;
所述解码器通过应用有限状态语法修改言词话语而把该言词话语转换为解码的文本。
2.根据权利要求1的设备,其中所述解码器通过利用有限状态语法对所述言词话语进行强制定位而把该言词话语转换为解码的文本。
3.根据权利要求1的设备,其中所述有限状态语法生成器包括一个用于生成有限状态语法的第一部分的第一生成器和一个用于生成有限状态语法的第二部分的第二生成器。
4.根据权利要求3的设备,其中
所述第一生成器用来生成一个有限状态语法的包括至少一个目标口令语句的第一部分;而
所述第二生成器用来生成一个有限状态语法的包括目标口令语句的竞争解码路径的第二部分。
5.根据权利要求1的设备,其中所述目标口令语句生成器用来接收与至少一个口令相对应的提示文本。
6.根据权利要求1的设备,其中所述目标口令语句生成器用来自动地生成至少一个口令以作为从一个语音登记中导出的基本形。
7.根据权利要求1的设备,其中所述接受装置用来在把基于言词话语的文本与至少一个目标口令语句相比较的基础上导出一个匹配分数,并根据此分数决定是接受还是拒绝所述言词话语。
8.根据权利要求7的设备,其中所述接受装置用来通过动态模式匹配导出匹配分数。
9.根据权利要求7的设备,其中所述接受装置用来通过动态模式匹配与语音分数计算的组合导出匹配分数。
10.一种对言词话语进行验证的方法,包括:
生成至少一个目标口令语句;
把基于一个言词话语的文本与至少一个口令语句相比较;
基于所述言词话语与至少一个目标口令语句相比较的结果决定接受或是拒绝言词话语;
把所述言词话语转换为解码的文本;和
生成一个有限状态语法;
所述比较步骤包括把解码的文本与至少一个目标口令语句相比较的步骤;而
所述转换步骤通过利用所述有限状态语法对所述言词话语进行修改来把该言词话语转换为解码的文本。
11.根据权利要求10的方法,其中把言词话语转换为解码的文本的步骤包括使用所述有限状态语法对所述言词话语执行强制定位。
12.根据权利要求10的方法,其中生成一个有限状态语法的步骤包括生成该有限状态语法的第一部分和第二部分的步骤。
13.根据权利要求12的方法,其中:
所述生成有限状态语法的第一部分的步骤包括把至少一个目标口令语句包含进来的步骤;而
所述生成有限状态语法的第二部分的步骤包括把至少一个目标口令语句的竞争解码路径包含进来的步骤。
14.根据权利要求10的方法,其中所述生成至少一个目标口令语句的步骤包括接收提示文本的步骤。
15.根据权利要求10的方法,其中所述生成至少一个目标口令语句的步骤包括自动生成从语音登记中导出的基本形的步骤。
16.根据权利要求10的方法,其中所述接受或拒绝的步骤包括在把基于所述言词话语的文本与至少一个目标口令语句相比较的基础上导出匹配分数并在此分数的基础上决定接受或拒绝该言词话语的步骤。
17.根据权利要求16的方法,其中所述导出匹配分数的步骤包括利用动态模式匹配导出匹配分数的步骤。
18.根据权利要求16的方法,其中所述导出匹配分数的步骤包括利用动态模式匹配与语音分数计算二者的组合来导出匹配分数的步骤。
CNB011109203A 2000-03-06 2001-03-05 验证言词话语的设备和方法 Expired - Fee Related CN1176455C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/519,327 US7031923B1 (en) 2000-03-06 2000-03-06 Verbal utterance rejection using a labeller with grammatical constraints
US09/519,327 2000-03-06

Publications (2)

Publication Number Publication Date
CN1312542A CN1312542A (zh) 2001-09-12
CN1176455C true CN1176455C (zh) 2004-11-17

Family

ID=24067827

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011109203A Expired - Fee Related CN1176455C (zh) 2000-03-06 2001-03-05 验证言词话语的设备和方法

Country Status (5)

Country Link
US (1) US7031923B1 (zh)
JP (1) JP4038023B2 (zh)
KR (1) KR100379994B1 (zh)
CN (1) CN1176455C (zh)
TW (1) TW495737B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725319B2 (en) * 2003-07-07 2010-05-25 Dialogic Corporation Phoneme lattice construction and its application to speech recognition and keyword spotting
KR100735559B1 (ko) * 2005-11-18 2007-07-04 삼성전자주식회사 언어 모델 구축 장치 및 방법
US8065147B2 (en) * 2006-09-21 2011-11-22 Nuance Communications, Inc. Gramma generation for password recognition
US8010367B2 (en) * 2006-12-22 2011-08-30 Nuance Communications, Inc. Spoken free-form passwords for light-weight speaker verification using standard speech recognition engines
US8619965B1 (en) 2010-05-07 2013-12-31 Abraham & Son On-hold processing for telephonic systems
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
US20140039871A1 (en) * 2012-08-02 2014-02-06 Richard Henry Dana Crawford Synchronous Texts
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9916295B1 (en) * 2013-03-15 2018-03-13 Richard Henry Dana Crawford Synchronous context alignments
CN110111779B (zh) * 2018-01-29 2023-12-26 阿里巴巴集团控股有限公司 语法模型生成方法及装置、语音识别方法及装置
US10657952B2 (en) * 2018-02-09 2020-05-19 Intel IP Corporation Score trend analysis for reduced latency automatic speech recognition
US11640824B2 (en) * 2019-07-15 2023-05-02 Axon Enterprise, Inc. Methods and systems for transcription of audio data
CA3145254A1 (en) * 2019-07-29 2021-02-04 Edward F. CHANG Method of contextual speech decoding from the brain
US20220366916A1 (en) * 2021-05-13 2022-11-17 Itaú Unibanco S/A Access control system

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
JPS62217297A (ja) 1986-03-19 1987-09-24 富士通株式会社 単語音声認識装置
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5293452A (en) * 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input
EP0692135B1 (en) * 1993-03-12 2000-08-16 Sri International Method and apparatus for voice-interactive language instruction
US5465317A (en) 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5613037A (en) 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
JP3304665B2 (ja) 1995-02-17 2002-07-22 松下電器産業株式会社 音声認識装置
JP3741156B2 (ja) 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JP2880436B2 (ja) 1995-10-24 1999-04-12 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3537949B2 (ja) 1996-03-06 2004-06-14 株式会社東芝 パターン認識装置及び同装置における辞書修正方法
JP3009636B2 (ja) 1996-05-16 2000-02-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音声言語解析装置
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
JP2965529B2 (ja) 1996-12-20 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3825526B2 (ja) 1997-03-31 2006-09-27 株式会社東芝 音声認識装置
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6119084A (en) * 1997-12-29 2000-09-12 Nortel Networks Corporation Adaptive speaker verification apparatus and method including alternative access control
JP2002510075A (ja) 1998-03-27 2002-04-02 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 派生された単語を使用する音声認識辞書の拡張

Also Published As

Publication number Publication date
US7031923B1 (en) 2006-04-18
JP4038023B2 (ja) 2008-01-23
KR100379994B1 (ko) 2003-04-11
JP2001296885A (ja) 2001-10-26
TW495737B (en) 2002-07-21
CN1312542A (zh) 2001-09-12
KR20010087328A (ko) 2001-09-15

Similar Documents

Publication Publication Date Title
US11990127B2 (en) User recognition for speech processing systems
US11564090B1 (en) Audio verification
US10917758B1 (en) Voice-based messaging
US7698137B2 (en) Speech recognition device using statistical language model
US10170107B1 (en) Extendable label recognition of linguistic input
Souvignier et al. The thoughtful elephant: Strategies for spoken dialog systems
US10176809B1 (en) Customized compression and decompression of audio data
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
CN1176455C (zh) 验证言词话语的设备和方法
Kawahara et al. Flexible speech understanding based on combined key-phrase detection and verification
CN109979432B (zh) 一种方言翻译方法及装置
US10366690B1 (en) Speech recognition entity resolution
US10013974B1 (en) Compact HCLG FST
Kawahara et al. Key-phrase detection and verification for flexible speech understanding
Meng et al. Fusing multiple systems into a compact lattice index for Chinese spoken term detection
Meng et al. A study of lattice-based spoken term detection for Chinese spontaneous speech
JP3039634B2 (ja) 音声認識装置
Chen et al. Using Taigi dramas with Mandarin Chinese subtitles to improve Taigi speech recognition
Hieronymus et al. Exploiting Chinese character models to improve speech recognition performance
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
Ananthakrishnan et al. Prosody-enriched lattices for improved syllable recognition.
Li et al. Improving voice search using forward-backward lvcsr system combination
Tang Hybrid Arbitration Using Raw ASR String and NLU Information-Taking the Best of Both Embedded World and Cloud World.
Zhang et al. A spoken dialogue system based on keyword spotting technology
JPH11190999A (ja) 音声スポッティング装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090911

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090911

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20041117

Termination date: 20170305

CF01 Termination of patent right due to non-payment of annual fee