CN1183606A - 在语音识别过程中用于选择替换词的方法和系统 - Google Patents

在语音识别过程中用于选择替换词的方法和系统 Download PDF

Info

Publication number
CN1183606A
CN1183606A CN97121235A CN97121235A CN1183606A CN 1183606 A CN1183606 A CN 1183606A CN 97121235 A CN97121235 A CN 97121235A CN 97121235 A CN97121235 A CN 97121235A CN 1183606 A CN1183606 A CN 1183606A
Authority
CN
China
Prior art keywords
word
identification
speech utterance
new
dictation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97121235A
Other languages
English (en)
Other versions
CN1122967C (zh
Inventor
学东D·黄
洪晓文
李江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1183606A publication Critical patent/CN1183606A/zh
Application granted granted Critical
Publication of CN1122967C publication Critical patent/CN1122967C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Communication Control (AREA)

Abstract

一种用于编辑被错误识别的单词的方法和系统。通过调整纠正窗口的大小,该系统允许讲话者规定在纠正窗口中显示的替换单词的数目。该系统在纠正窗口中以字母次序显示单词。当被错误识别的单词被再次说出时,该系统避免了重新讲话的发音被再次识别为同一个错误识别的单词的可能性。当与一个字处理器一起工作时,该系统允许讲话者规定在被转送到字处理器之间被缓存的语音的数量。

Description

在语音识别过程中用于选择替换词的方法和系统
本发明涉及计算机语音识别,更具体说,涉及由语音识别系统产生的听写内容的编辑。
允许讲话者有效地听写以及允许听写内容被自动的识别的计算机语音信息系统是计算机语音系统开发者长期以来研究的目标。由这种计算机语音识别(CSR)系统产生的好处是具有实质性的。例如,不是通过打字的方法将文件输入到计算机系统中,而是简单地通过念出该文件的单词,CSR系统就将会识别这些单词并将每个单词的字母存储,如同这些单词是被打字进去的一样。由于人们通常讲话比打字快,所以可以提高效率。而且,人们也无需要再去学习打字。由于人的手被除了打字以外的其他工作所占用,所以计算机可具有的许多应用,在目前来讲是不可能的。
典型的CSR系统具有一个识别部分和一个听写编辑部分。识别部分控制讲话者的一系列的发音的接收,识别每一发音,并且将每一个发音所识别的词发送到听写编辑部分。听写编辑部分显示识别的词并允许使用者纠正被误识别的词。例如,听写编辑部分允许使用者或者通过重新念这个单词或者打出正确的单词来替代一个被误识别的单词。
识别部分典形地包括字典中每个单词的发音的模型。当识别部分接收到讲话发音时,识别部分将讲话发音与词典中的每个单词的模型发音相比较以便发现与讲话发音最接近的模型发音。典形的识别部分计算每个模型发音与讲话发音匹配的可能性。这种识别部分向听写编辑部分发送一系列的与讲话发音最高可能性相匹配的单词作为识别的单词表。
听写编辑部分从具有最高可能性的识别的单词表中选择出单词作为所识别的与讲话发音相对应的单词。听写编辑部分然后显示该单词。但是如果显示的单词是讲话发音的错误识别,则听写编辑部分允许讲话者纠正错误识别的单词。当讲话者指示纠正错误识别的单词时,听写编辑部分显示一个纠正窗口,该窗口包含以上识别的单词表中的单词。当该表中的单词中的一个是正确的单词时,讲话者可以单击此单词来执行纠正。但是,如果正确的词或不在该表中,讲话者则或者重新讲话或者打出正确的单词。
一些CSR系统被用作字处理器的听写装置。这种CSR系统控制讲话发音的接收和识别并且还向字处理器发送与识别的单词相对应的每个字符。这种配置的优点是当讲话者试图纠正己讲的单词时,字处理器不对已经识别的单字表进行访问,因此不能够显示这些单词以便于纠正。
本发明提供了一种新型的和改进型的计算机语音识别(CSR)系统,这种系统具有一个识别部分和一个听写编辑部分。听写编辑部分可以用来快速纠正误识别的单词。听写编辑部分允许讲话者通过调整纠正窗口的大小来选择在纠正窗口中显示的替换单词号。听写编辑部分在纠正窗口中以字母次序显示单词,以便于找出正确的单词。根据本发明的另一方面,基于对先前的讲话发音和最新的讲话发音之间的分析,当误识别的单词或短语被讲出时,这种CSR系统消除了新的讲话发音被再次识别成与误识别的单词或短语相同的单词或短语。这种听写编辑部分也能够允许讲话者在将识别的单词转移到字处理器之前,规定在听写编辑部分中缓存的语音的数量。该听写编辑系统也可以使用一种单词纠正类比器(metaphor)或者短语纠正类比器,来改变编辑工作,这种工作通常是以字符为基础的,来将其改变成或者是以单词为基础的或者是以短语为基础的。
附图1A显示了可调整大小的纠正窗口的例子。
附图1B显示了在调整大小之后的纠正窗口的例子。
附图2A显示一个可调整的听写窗口。
附图2B显示了使用一个纠正窗口在听写窗口中纠正文本。
附图3A-B显示了用于听写编辑部分的单词/短语纠正类比器。
附图4A-C是最佳实施例的计算机系统的方框图。
附图5A是具有可调整大小的纠正窗口的听写编辑部分的流程图。
附图5B是可调整大小的纠正窗口的窗口程序的流程图。
附图6是具有可调整的听写窗口的听写编辑部分的流程图。
附图7是执行单词纠正类比器的字处理器或者听写编辑部分的窗口程序的流程图。
附图8是能从进一步的识别中消除误识别单词的CSR系统的流程图。
附图9是自动识别训练的流程图。
本发明提供的听写编辑部分允许对计算机语音识别(CSR)系统产生的听写材料进行编辑。在一个示例性的实施例中,通过调整纠正窗口的大小,这种听写编辑部分允许讲话者选择在纠正窗口中显示的替换单词的数目。这一听写编辑部分也以字母次序的顺序在纠正窗口中显示单词。当一个被错误识别的单词被再次讲出来的时候,听写编辑部分最好还能够消除这个被再次讲出的发音被再识别为同一个错误识别的单词的可能性。当将识别的单词提供一个应用程序,例如一个字处理器时,这种听写编辑部分最好能够允许讲话者规定在将识别的单词转移到应用程序之前由听写编辑部分缓存的语音的数量。下面结合一种离散的CSR系统(即,讲话者在每个单词之间有停顿)描述本发明的各个方面。但是,这些方面可以用于连续CSR系统。例如,纠正窗口可以被调整大小,以指示要被显示的替换短语的数目。而且,当讲话者选择一个要被替换的短语时,用户界面系统可以保证同一个短语不会被再次识别。
附图1A显示了一个示例性的可调整大小的纠正窗口。听写编辑部分窗口101包括识别的单词102和纠正窗口103。在这个例子中,讲话者讲出了下面的单词“I will make the cake”。识别部分将单词“make”错误地识别为单词“fake”。然后,讲话者指出单词“fake”应该被纠正。在显示纠正窗口之前,听写编辑部分确定可调整大小的纠正窗口的当前大小并且计算在纠正窗口中显示的单词的数目。然后,听写编辑部分从具有最高可能性的识别的单词(即,替换单词)中选择单词数目,并且利用标准窗口调整技术(例如利用鼠标指向窗口的边界并且拖动鼠标)在纠正窗口中显示这些单词。如果讲话者想从表中看到更多的单词,讲话者可以简单地调整纠正窗口的大小。当纠正窗口被调整大小时,听写编辑部分再次确定可以在纠正窗口中显示的单词的数目,并在纠正窗口中显示这些数目的单词。当下次讲话者要纠正一个单词时,听写编辑部分在纠正窗口中显示与上次调整大小的窗口相吻合的那些数目的单词。这样,通过简单的调整纠正窗口的大小,讲话者可以有效地选择要被显示的单词的数目。附图1B显示了在调整大小后的示例性的纠正窗口。
另外,听写编辑部分最好以字母的次序在纠正窗口中显示单词。当单词被显示时,以字母次序显示单词可以允许讲话者迅速的找到正确的单词。现有技术的听写编辑部分是根据识别部分确定的可能性为基础确定的次序在纠正窗口中显示单词的。但是,当以可能性次序显示时,除非正确的单词被显示在第一位或第二位,否则对讲话者来说很难找到正确的单词。
附图2A显示了一个用于与一个字处理器相链接的计算机语音识别系统的可调整听写窗口。计算机语音识别系统输入一系列的来自讲话者的发音,识别这些发音,并在听写窗口201中显示对这些发音识别的单词。由于听写窗口是由听写编辑部分控制的,讲话者可以在听写窗口中纠正这些单词。因此,当讲话者在听写窗口内选择纠正一个单词时,讲话者可以利用由听写编辑部分支持的任何纠正设施。例如,对于目前在听写窗口中显示的任何单词,讲话者可以利用纠正窗口显示在识别的单词表中的单词。附图2B显示了在听写窗口中使用纠正窗口纠正文本。
在一个实施例中,听写编辑部分允许讲话者调整听写窗口可以容纳的语音的数量。由于讲话者只能对听写窗口内的单词使用纠正设施,而不能对字处理器窗口内的单词使用纠正设施,讲话者可以根据讲话者的听写习惯调整听写窗口的大小以容纳语音的数量。例如,讲话者可以规定听写窗口只能容纳一个句子,一个段落,或固定数目的单词。一方面,讲话者可以利用标准的窗口调整技术调整听写窗口大小,使得听写窗口可以容纳适合于窗口的数目的单词。当听写窗口变满时,计算机语音识别系统或者将听写窗口中的所有的单词或者将部分单词发送到字处理器中。例如,如果讲话者指示听写窗口应该容纳一个句子时,那么,在任何时候一个新的句子被开始时,计算机语音识别系统将把所有的单词(也就是说一个句子)发送到字处理器中。相反,如果讲话者调整听写窗口的大小,那么计算机语音识别系统可以一次只发送一行单词到字处理器中。
附图3A显示了用于听写编辑部分的单词纠正类比器。当字处理系统处于听写模式时,听写编辑部分自动地改变各种编辑事件(例如,键盘事件,鼠标事件,笔事件,和语音事件)的定义,成为以单词为基础的,而不是以字符为基础的。例如,在听写模式中,退格键,通常只后退一个字符,被设定为一次后退一个单词。因此,当在听写模式中使用者按下退格键时,在当前插入点左侧的整个单词将被删除。类似地,当在听写模式时,左和右箭头键将使插入点向左或向右移动一个单词,并且删除键将删除插入点右侧的整个的单词。而且,当使用者单击鼠标键而且鼠标光标在一个单词之上时,听写编辑部分选择鼠标光标正处于之上的单词,而不是简单地在该单词内设置插入点。但是,如果鼠标光标处于单词之间时,则插入点被设置在单词之间。行301-304显示了单词纠正类比器的示例性效果。每一行都显示了当指示的事件发生时之前和之后的文本。例如,行302显示了如果插入点在单词“test,”之后时,左箭头事件将引起插入点被移动到单词“test.”之前。单词纠正类比器的使用方便了在听写模式状态中的单词的纠正,因为通常讲话者在纠正时希望重新讲出整个单词。因此,当讲话者单击一个单词时,整个单词被选择,并且讲话者可以讲话以便替换被选择的单词。当语音识别是连续的情况时,最好使用短语纠正类比器。因为连续语音识别不能够正确地鉴别单词之间的界限,单词纠正类比器可能会选择一个发音只代表单词的一部分或者代表多个单词的错误识别的单词。在这种情况下,最好重新讲出整个短语。结果,各种编辑事件的定义将被改变成为以短语为基础,而不是被改变成为以单词为基础的。例如,使用者说单词“backspace”的编辑事件通常是后退到前面一个字符,现在则改变为一次后退一个短语。附图3B显示了这种短语纠正类比器。
在一个实施例中,计算机语音识别系统提供了错误识别的单词删除,以防止重新发音的被再次识别为已经被纠正的同一个单词。当讲话者纠正一个错误识别的单词时,听写编辑部分作出确定。讲话者可以不同方式纠正错误识别的单词。例如,讲话者可以删除该单词,然后在该单词被删除的位置的插入点再说出该单词。另外,讲话者可以点中错误识别的单词然后讲话以便替换被点中的单词。当识别部分接收到一个重新说出的发音时,识别部分识别该发音并向听写编辑部分发送一个新识别的单词表。听写编辑部分从新识别的单词表中选择并显示出被纠正的单词以外的具有最高可能性的单词。在一个实施例中,听写编辑部分利用以前错误识别的发音的识别单词表和新识别的单词表来选择与两种发音相匹配的具有最高可能性的单词(除被纠正的单词以外)。为了计算最高可能性,听写编辑部分确定两个识别的单词表中的单词并且乘以它们的可能性。例如,下面的表中显示了示例性的识别的单词表和对应的可能性。
以前识别的单词表    新识别的单词表。
Fake.4              Fake.4
Make.3              Mace.3
Bake.1              Make.2
Mace.1              Bake.1
如果讲话者说单词“make”,则没有错误识别的单词消除,听写编辑部分二次都将选择单词“fake”,因为它在两个表中都具有最高的可能性。利用错误识别的单词消除,当单词“fake”被纠正时,听写编辑部分选择单词“mace”,因为除单词“fake”以外,单词“mace”在当前的单词表中有最高的可能性。但是,当来自两个识别的单词表中的可能性被结合在一起时,听写编辑部分选择单词“make”作为正确的单词,因为它具有最高的结合的可能性。单词“make”的结合的可能性为.06(.3×.2),对于单词“mace为.03(.1×.3),对于单词“bake”,为.01(.1×.1)。
计算机语音识别系统也自动向其单词表中添加单词并且自动进行训练。当使用者通过打正确的单词来纠正一个错误识别的单词时,听写编辑部分确定被打的单词是否在单词表中。如果被打单词不在单词表中,则听写编辑部分指示识别部分利用被错误识别的讲话发音来训练该单词的模型来将其加入到单词表中。但是,如果被打的单词在单词表中,则听写编辑部分自动指示识别部分利用被错误识别的讲话发音训练这个被打的单词。
当与连续听写系统使用时,除了单词纠正以外,该听写编辑部分允许短语纠正。在连续听写系统中,识别部分可能会错误地鉴别单词的界限。例如,讲话者可能会说短语“I want to recognize speech.”。识别部分可能会将该短语识别为“I want to wreck a nice beach.”。但是,单个单词纠正的使用不能给讲话者提供一个友好的方式纠正这种错误识别。如果讲话者期望看到单词“beach”的替换的单词,在纠正窗口中可显示“peach”,“teach”,和“speech”。如果讲话者希望看到单词“nice”的替换单词,“ice”和“rice”可被显示,而对单词“wreck”,单词“heck”和单词“rack”可被显示。这种单个单词纠正不能够鉴别单词“recognize speech”。
这种听写编辑部分允许短语纠正,使得因为错误的单词边界引起的错误识别可以被有效地纠正。当讲话者选择一个要纠正的短语时,听写编辑部分选择并且显示一列替换的短语。例如,如果讲话者选择“wreck a nicebeach”,替换的短语可能是“wreck a nice peach”,“rack an ice leach”和“recognize speech”。而且,如果讲话者选择“wreck a nice”,替换的短语可以是“rack on ice”和“recognize”。
此外,当使用者选择一个要纠正的错误识别的短语时,听写编辑部分假定当前的短语与错误识别的短语的差别大于一个单词。如果在错误识别的短语中只有一个单词是不正确的,那么讲话者将可以简单地只选择错误识别的单词而不是整个错误识别的短语。利用这种假定,听写编辑部分不显示只与错误识别的短语有一个单词不同的替换短语。继续讲述前面的例子,如果讲话者选择“wreck a nice beach”,则只有替换短语“rack anice leach”和“recognize speech”将被显示。由于替换短语“wreck anice peach”只有一个单词不同,它不被显示。此外,在一个实施例中,听写编辑部分假定讲话者选择一个要纠正的短语时,错误识别是由于不正确的鉴别单词界限造成的。具体说,如果短语能够通过选择一个显示的替换单词来纠正,讲话者则将选择这些替换的单词。结果,听写编辑部分将不显示可以从替换表中纠正具体的单词来纠正的任何替换短语。例如,如果单词“rack”,“an”,“ice”,和“leach”是对应的错误识别的单词的替换单词的话,听写编辑部分将不显示短语“rack an iceleach”。
附图4A是最佳实施例的计算机系统的方框图。计算机系统400包括一个存储器401,中央处理单元402,输出输入接口单元403,存储装置404,显示装置405,键盘406,鼠标407,以及麦克风408。存储器包括一个计算机语音识别系统,该系统包括一个模型部分408,一个识别部分409,一个听写编辑部分410并且包含一个应用程序411。模型部分包括单词表中的各种单词的模型发音。识别部分接收讲话发音并访问模型部分以便产生识别的单词表。听写编辑部分接受识别的单词表,并显示识别的单词。识别部分,听写编辑部分,应用程序可以各种方式互联。附图4B-4C是显示识别部分,听写编辑部分,和应用程序之间各种互连的方框图。在附图4B中,识别部分与听写编辑部分的编程接口(API)相连,它反过来与应用程序的编程接口API相连。在附图4C中,识别部分与听写编辑部分和应用程序提供的应用程序编程接口API相连。另外,应用程序也可以与识别部分和听写编辑部分提供的API相连。
附图5A是具有可调整大小的纠正窗口的计算机语音识别系统的流程图。通过调整纠正窗口的大小,讲话者可以从识别的单词表中指示应该被显示的单词的数目。在步骤5A01-5A10中,计算机语音识别系统接收单词的发音,显示识别的单词,允许讲话者纠正该单词并且循环进行。在步骤5A01中,如果讲话者继续进行听写,则系统在步骤5A02继续,否则听写完成。在步骤5A02中,系统输入来自讲话者的下一个发音。在步骤5A03,系统使得识别部分识别所发出的发音。识别部分给出具有在单词表中对应于讲话发音的每个单词的多大可能性的识别的单词表。在步骤5A04,系统选择并且显示在识别的单词表中的具有最高可能性的单词。在步骤5A055A10中,系统循环允许讲话者纠正被显示的单词。在步骤5A05中,如果讲话者要纠正被显示的单词,则系统在步骤5A06继续,否则系统返回到步骤5A01继续进行听写。在步骤5A06,系统确定纠正窗口的当前大小。在步骤5A07,系统根据窗口当前的大小确定可以适合纠正窗口的单词的个数。在步骤5A08,系统从识别的单词表中选择具有最高可能性的单词并在纠正窗口中显示这些单词。在一个实施例中,系统在显示这些单词之前按字母次序对这些选择的单词排队。在步骤5A09中,系统接受来自讲话者的正确的单词。在步骤5A10,系统利用正确的单词替换被显示单词并返回到步骤5A05。
附图5B是用于纠正窗口的窗口程序的流程图。窗口程序接受并且控制指向纠正窗口的所有的事件(即,消息)的处理。在步骤5B01中,如果接收的消息指示窗口正在被调整大小,则程序在步骤5B02继续,否则程序继续进行其他消息的正常处理。在步骤5B02,程序存储纠正窗口的新的大小。此外,程序可以指示,计算机语音识别系统应该重新计算适合于纠正窗口的单词的数目,再次显示具有这些数目的单词的纠正窗口。
附图6是计算机语音识别系统的可调节的听写窗口处理的流程图。可调节的听写窗口允许讲话者规定听写窗口可以容纳的语音的数量。讲话者然后可以使用听写编辑部分的纠正设施纠正上次讲话的语音的数量。在步骤601,系统显示听写窗口。在步骤602-609,系统循环处理每个语音单元(例如,一句或一段),当一个单元被说出时,将该单元送到一个应用程序。当听写窗口被调整大小时,语音单元也可以是一行单词。在步骤602,如果接收到语音单元的结尾,那么系统在步骤610继续,否则系统在步骤603继续。在步骤610,系统向应用程序发送语音单元并在步骤603继续。在步骤603,讲话者指示听写完成,然后系统结束,否则系统在步骤604继续。在步骤604,系统输入来自讲话者的讲话发音。在步骤605,系统使得识别部分识别讲话发音并给出识别的单词表。在步骤606,系统保存识别的单词表并供以后纠正使用。在步骤607,系统选择并显示识别的单词表中的具有最高可能性的单词。在步骤608,如果讲话者指示进入纠正模式,则系统在步骤609继续,否则系统返回到步骤602确定是否语音单元的结尾已经到达。在步骤609,系统允许讲话者纠正听写窗口内的任何单词。当讲话者请求时,系统显示具有保存的识别单词表中的单词纠正窗口。然后系统返回到步骤602输入下一个发音。
附图7是实现单词纠正类比器的应用程序或者听写编辑部分的窗口程序的流程图。当在听写模式时,该部分改变编辑习惯成为以单词为基础,而不是以字符为基础。在步骤701-705,程序确定指哪一种消息被接收到。在步骤701,如果一个听写启动消息被接收到,程序在步骤701A继续,否则程序在步骤702继续。在步骤701A,程序将模式设定为听写模式并且返回。在步骤702,如果消息是听写不能执行消息,则程序在步骤702A继续,否则程序在步骤703继续。在步骤702A,程序将模式设定为数据输入是通过键盘而不是通过听写并且返回。在步骤703,如果消息是接收字符消息,则程序在步骤703A继续,否则,程序在步骤704继续。在步骤703A,程序显示接收的字符。字符可以或者通过键盘输入或者作为识别的单词字符中的一个被接收到。在步骤704,如果消息是退格消息,则程序在步骤704A继续,否则,步骤在705继续。在步骤704A,如果当前模式是听写模式,则程序在步骤704C继续,否则程序在步骤704B继续。在步骤704C,程序从当前的插入点后退一个单词。后退一个单词删除了插入点左侧的单词并且返回。在步骤704B,程序执行正常的一个字符的后退并且返回。在步骤705,如果消息为鼠标单击消息,则在程序在步骤705A继续,否则程序继续进行正常的处理。在步骤705A,如果当前模式为听写,则程序在步骤705C继续,否则,在步骤705B继续。在步骤705C,如果是在一个单词内单击,则程序选择整个单词。否则,程序在单词之间设置插入点并返回。在步骤705B,程序正常地设置插入点并返回。
附图8是从进一步的识别当中消除了错误识别的单词的听写编辑部分的流程图。当讲话者讲话纠正一个错误识别的单词时,听写编辑部分进行检测并防止被错误识别的单词被再次识别为重新讲话的发音。在步骤801,如果听写完成,则该部分结束,否则该部分在步骤803继续。在步骤803,听写编辑部分从听写部分接收一个识别的单词表。在步骤804,如果重新讲话的发音的目的是用于纠正一个错误识别的单词,则该部分在步骤805继续,否则该部分在步骤806继续。在步骤805,该部分选择除从识别的单词表中被纠正单词以外的一个单词并且在步骤807继续。在步骤806,该部分从识别的单词表中选择最有可能性的单词。在步骤807,该部分显示选择的单词。在步骤808,如果讲话者指示进入纠正模式,则该部分在步骤809继续,否则该部分返回到步骤801输入另一个发音。在步骤809,该部分接收用于一个显示的单词的纠正。在步骤810,如果纠正是通过键盘输入的,则该部分在步骤811继续,否则该部分返回到步骤801选择下一个输入的发音。在步骤811,如果所打的词已经在单词表中,则该部分在步骤813继续,否则该部分在步骤812继续。在步骤812,该部分将所打的单词加到单词表中。在步骤813,该部分针对打入的单词训练识别系统并返回到步骤801输入下一个发音。
附图9是自动训练识别程序的听写编辑部分的流程图。听写编辑部分收集被错误识别的发音以及正确的单词和短语。听写编辑部分然后指示识别部分训练识别程序,将错误识别的发音识别成为正确的单词和者短语。这种训练可以在每当错误识别的发音被纠正时进行或者将信息存储起来在以后进行训练。在步骤901-903,该部分收集错误识别的发音以及正确的单词和短语。这种信息可以在该部分检测到讲话者已经纠正了一个单词或者短语时被收集。在步骤903,该部分确定是否识别器应该被训练。这种训练可以在计算机系统空闲时进行或者当识别准确率不能接受时进行。在步骤904,该部分针对收集的发音训练识别器。
尽管本发明是针对最佳实施例进行描述的,但是本发明并不限于该实施例。在本发明精神范围之内的各种修改对于本领域的技术人员来说将是显而易见的。本发明的范围将由后面的权利要求书所限定。

Claims (6)

1.一种用于识别讲话发音的计算机系统,包括:
一个识别部分,接收讲话发音并且提供具有可能性的替换单词,这种可能性指示替换的单词是讲话发音的正确的识别结果;以及
一个编辑部分,接收一个新的讲话发音,代表对于以前的讲话发音的错误识别的单词纠正,以前的讲话发音具有以前的可能性的替换单词,
将新的讲话发音发送到识别部分并且提供新的替换单词,新的替换单词具有是新的讲话发音的正确的识别的可能性,以及
根据在以前的替换单词和新的替换单词中的可能性,将新的讲话发音识别为除错误识别的单词以外的单词。
2.根据权利要求1的计算机系统,其中编辑部分根据在以前的替换单词和新的替换单词中的单词的结合的可能性识别新的讲话发音。
3.根据权利要求2的计算机系统,其中单词的可能性是作为以前的替换单词的可能性和作为新的替换单词可能性的乘积。
4.一种在计算机系统中用于纠正错误识别的单词的方法,包括:
接收一个代表以前的讲话发音的错误识别的单词的纠正的新的讲话发音;
利用以前的讲话发音和新的讲话发音的结合选择除了错误识别的单词以外的新的识别的单词;以及
用新识别的单词替换错误识别的单词。
5.根据权利要求4的方法,其中计算机系统具有一个以前的单词表,该单词表与造成错误识别的单词的以前的讲话发音相匹配的可能性相关连,其中,新的讲话发音的识别产生一个与新的讲话发音相匹配的可能性相关联的新的单词表,并且其中识别的单词是以前的和新的单词表中除了错误识别的单词以外的具有最高的结合可能性的单词。
6.根据权利要求4的方法,其中讲话发音代表一个短语以及单词是该短语的一部分。
CN97121235A 1996-10-31 1997-10-30 在语音识别过程中用于选择替换词的方法和系统 Expired - Lifetime CN1122967C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US741,696 1996-10-31
US741696 1996-10-31
US08/741,696 US5829000A (en) 1996-10-31 1996-10-31 Method and system for correcting misrecognized spoken words or phrases

Publications (2)

Publication Number Publication Date
CN1183606A true CN1183606A (zh) 1998-06-03
CN1122967C CN1122967C (zh) 2003-10-01

Family

ID=24981791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97121235A Expired - Lifetime CN1122967C (zh) 1996-10-31 1997-10-30 在语音识别过程中用于选择替换词的方法和系统

Country Status (5)

Country Link
US (1) US5829000A (zh)
EP (1) EP0840289B1 (zh)
JP (1) JPH10133684A (zh)
CN (1) CN1122967C (zh)
DE (1) DE69721939T2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473295B2 (en) 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US5978738A (en) * 1997-02-13 1999-11-02 Anthony Brown Severe weather detector and alarm
US6219453B1 (en) * 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
JP2991178B2 (ja) * 1997-12-26 1999-12-20 日本電気株式会社 音声ワープロ
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
JP3543931B2 (ja) * 1998-12-17 2004-07-21 日本電気株式会社 音声認識による文字編集手段を有する移動通信端末装置
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6507816B2 (en) * 1999-05-04 2003-01-14 International Business Machines Corporation Method and apparatus for evaluating the accuracy of a speech recognition system
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
JP3542026B2 (ja) * 2000-05-02 2004-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
DE60113787T2 (de) * 2000-11-22 2006-08-10 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung
US6963840B2 (en) * 2001-01-12 2005-11-08 International Business Machines Corporation Method for incorporating multiple cursors in a speech recognition system
US7027976B1 (en) * 2001-01-29 2006-04-11 Adobe Systems Incorporated Document based character ambiguity resolution
US20020123894A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Processing speech recognition errors in an embedded speech recognition system
US6934682B2 (en) * 2001-03-01 2005-08-23 International Business Machines Corporation Processing speech recognition errors in an embedded speech recognition system
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
KR100668297B1 (ko) * 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치
JP3695448B2 (ja) * 2003-01-15 2005-09-14 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
EP1595245B1 (en) * 2003-02-21 2009-04-22 Voice Signal Technologies Inc. Method of producing alternate utterance hypotheses using auxiliary information on close competitors
EP1452953A1 (de) * 2003-02-26 2004-09-01 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Korrektur von gesprochenen Eingaben mittels einer einzigen Taste
US7200559B2 (en) 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
WO2005027093A1 (en) * 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
CN1871638B (zh) * 2003-10-21 2012-01-25 皇家飞利浦电子股份有限公司 采用用户接口的智能语音识别
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
GB0406451D0 (en) * 2004-03-23 2004-04-28 Patel Sanjay Keyboards
US7873149B2 (en) * 2004-06-01 2011-01-18 Verizon Business Global Llc Systems and methods for gathering information
US8392193B2 (en) * 2004-06-01 2013-03-05 Verizon Business Global Llc Systems and methods for performing speech recognition using constraint based processing
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US7805309B2 (en) * 2005-02-15 2010-09-28 Celf Corporation Conversational user interface that mimics the organization of memories in a human brain
GB0505942D0 (en) * 2005-03-23 2005-04-27 Patel Sanjay Human to mobile interfaces
GB0505941D0 (en) 2005-03-23 2005-04-27 Patel Sanjay Human-to-mobile interfaces
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7831431B2 (en) 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
GB2458238B (en) * 2006-11-30 2011-03-23 Nat Inst Of Advanced Ind Scien Web site system for voice data search
EP1933302A1 (en) 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20090063148A1 (en) * 2007-03-01 2009-03-05 Christopher Nelson Straut Calibration of word spots system, method, and computer program product
US8150020B1 (en) 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
US7813920B2 (en) 2007-06-29 2010-10-12 Microsoft Corporation Learning to reorder alternates based on a user'S personalized vocabulary
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
JP2011203434A (ja) * 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
US9396725B2 (en) 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US8738375B2 (en) * 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US9575946B2 (en) * 2011-05-23 2017-02-21 Nuance Communications, Inc. Text browsing, editing and correction methods for automotive applications
CN103369122A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音输入方法及系统
US9483459B1 (en) * 2012-03-31 2016-11-01 Google Inc. Natural language correction for speech input
US20130275133A1 (en) * 2013-06-13 2013-10-17 Dawei Wang Electronic Pen with Printable Arrangement
WO2015059976A1 (ja) * 2013-10-24 2015-04-30 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9779724B2 (en) 2013-11-04 2017-10-03 Google Inc. Selecting alternates in speech recognition
WO2015100172A1 (en) * 2013-12-27 2015-07-02 Kopin Corporation Text editing with gesture control and natural speech
US9448991B2 (en) * 2014-03-18 2016-09-20 Bayerische Motoren Werke Aktiengesellschaft Method for providing context-based correction of voice recognition results
US9679554B1 (en) * 2014-06-23 2017-06-13 Amazon Technologies, Inc. Text-to-speech corpus development system
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10248640B2 (en) * 2015-02-05 2019-04-02 Microsoft Technology Licensing, Llc Input-mode-based text deletion
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
CN105760356B (zh) * 2016-03-17 2018-10-19 广东小天才科技有限公司 一种英文单词听写题目备选选项自动生成方法及系统
JP7107219B2 (ja) * 2016-07-26 2022-07-27 ソニーグループ株式会社 情報処理装置、および情報処理方法
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10665223B2 (en) * 2017-09-29 2020-05-26 Udifi, Inc. Acoustic and other waveform event detection and correction systems and methods
US11597519B2 (en) 2017-10-17 2023-03-07 The Boeing Company Artificially intelligent flight crew systems and methods

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4566065A (en) * 1983-04-22 1986-01-21 Kalman Toth Computer aided stenographic system
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4799262A (en) * 1985-06-27 1989-01-17 Kurzweil Applied Intelligence, Inc. Speech recognition
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
GB8610809D0 (en) * 1986-05-02 1986-06-11 Smiths Industries Plc Speech recognition apparatus
WO1987007749A1 (en) * 1986-06-02 1987-12-17 Motorola, Inc. Continuous speech recognition system
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5604897A (en) * 1990-05-18 1997-02-18 Microsoft Corporation Method and system for correcting the spelling of misspelled words
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5367453A (en) * 1993-08-02 1994-11-22 Apple Computer, Inc. Method and apparatus for correcting words
US5623578A (en) * 1993-10-28 1997-04-22 Lucent Technologies Inc. Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words
TW323364B (zh) * 1993-11-24 1997-12-21 At & T Corp
US5487143A (en) * 1994-04-06 1996-01-23 Altera Corporation Computer user interface having tiled and overlapped window areas
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473295B2 (en) 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives

Also Published As

Publication number Publication date
EP0840289B1 (en) 2003-05-14
US5829000A (en) 1998-10-27
EP0840289A2 (en) 1998-05-06
JPH10133684A (ja) 1998-05-22
EP0840289A3 (en) 1999-05-06
DE69721939D1 (de) 2003-06-18
CN1122967C (zh) 2003-10-01
DE69721939T2 (de) 2004-01-22

Similar Documents

Publication Publication Date Title
CN1122967C (zh) 在语音识别过程中用于选择替换词的方法和系统
CN1188826C (zh) 在语音识别过程中用于显示可变数目的替换单词的方法和系统
CN1131506C (zh) 在语音识别过程中用于编辑短语的方法和系统
CN1183608A (zh) 在语音识别过程中用于缓存识别的单词的方法和系统
EP0376501B1 (en) Speech recognition system
EP0867857B1 (en) Enrolment in speech recognition
US6912498B2 (en) Error correction in speech recognition by correcting text around selected area
EP0773532B1 (en) Continuous speech recognition
US4866778A (en) Interactive speech recognition apparatus
US6735565B2 (en) Select a recognition error by comparing the phonetic
WO2002035519A1 (en) Speech recognition using word-in-phrase command
CN1181574A (zh) 在语音识别过程中用于选择识别的单词的方法和系统
Vinodh et al. Using polysyllabic units for text to speech synthesis in indian languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150422

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20031001