CN1188826C - 在语音识别过程中用于显示可变数目的替换单词的方法和系统 - Google Patents

在语音识别过程中用于显示可变数目的替换单词的方法和系统 Download PDF

Info

Publication number
CN1188826C
CN1188826C CNB971212414A CN97121241A CN1188826C CN 1188826 C CN1188826 C CN 1188826C CN B971212414 A CNB971212414 A CN B971212414A CN 97121241 A CN97121241 A CN 97121241A CN 1188826 C CN1188826 C CN 1188826C
Authority
CN
China
Prior art keywords
word
window
talker
dictation
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB971212414A
Other languages
English (en)
Other versions
CN1183607A (zh
Inventor
迈克尔·J·罗扎克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1183607A publication Critical patent/CN1183607A/zh
Application granted granted Critical
Publication of CN1188826C publication Critical patent/CN1188826C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Digital Computer Display Output (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

一种用于编辑被错误识别的单词的方法和系统。通过调整纠正窗口的大小,该系统允许讲话者规定在纠正窗口中显示的替换单词的数目。该系统在纠正窗口中以字母次序显示单词。当被错误识别的单词被再次说出时,该系统避免了重新讲话的发音被再次识别为同一个错误识别的单词的可能性。当与一个字处理器一起工作时,该系统允许讲话者规定在被转送到字处理器之前被缓存的语音的数量。

Description

在语音识别过程中用于显示 可变数目的替换单词的方法和系统
技术领域
本发明涉及计算机语音识别,更具体说,涉及由语音识别系统产生的听写内容的编辑。
背景技术
允许讲话者有效地听写以及允许听写内容被自动的识别的计算机语音信息系统是计算机语音系统开发者长期以来研究的目标。由这种计算机语音识别(CSR)系统产生的好处是具有实质性的。例如,不是通过打字的方法将文件输入到计算机系统中,而是简单地通过念出该文件的单词,CSR系统就将会识别这些单词并将每个单词的字母存储,如同这些单词是被打字进去的一样。由于人们通常讲话比打字快,所以可以提高效率。而且,人们也无需要再去学习打字。由于人的手被除了打字以外的其他工作所占用,所以计算机可具有的许多应用,在目前来讲是不可能的。
典型的CSR系统具有一个识别部分和一个听写编辑部分。识别部分控制讲话者的一系列的发音的接收,识别每一发音,并且将每一个发音所识别的词发送到听写编辑部分。听写编辑部分显示识别的词并允许使用者纠正被误识别的词。例如,听写编辑部分允许使用者或者通过重新念这个单词或者打出正确的单词来替代一个被误识别的单词。
识别部分典形地包括字典中每个单词的发音的模型。当识别部分接收到讲话发音时,识别部分将讲话发音与词典中的每个单词的模型发音相比较以便发现与讲话发音最接近的模型发音。典形的识别部分计算每个模型发音与讲话发音匹配的可能性。这种识别部分向听写编辑部分发送一系列的与讲话发音最高可能性相匹配的单词作为识别的单词表。
听写编辑部分从具有最高可能性的识别的单词表中选择出单词作为所识别的与讲话发音相对应的单词。听写编辑部分然后显示该单词。但是如果显示的单词是讲话发音的错误识别,则听写编辑部分允许讲话者纠正错误识别的单词。当讲话者指示纠正错误识别的单词时,听写编辑部分显示一个纠正窗口,该窗口包含以上识别的单词表中的单词。当该表中的单词中的一个是正确的单词时,讲话者可以单击此单词来执行纠正。但是,如果正确的词或不在该表中,讲话者则或者重新讲话或者打出正确的单词。
一些CSR系统被用作字处理器的听写装置。这种CSR系统控制讲话发音的接收和识别并且还向字处理器发送与识别的单词相对应的每个字符。这种配置的优点是当讲话者试图纠正己讲的单词时,字处理器不对已经识别的单字表进行访问,因此不能够显示这些单词以便于纠正。
发明内容
根据本发明,一种在计算机听写系统中用于在显示替换识别的单词的纠正窗口中显示可变数目的单词的方法,该方法包括:显示纠正窗口;响应于来自讲话者调整纠正窗口大小的请求调整纠正窗口的大小;根据调整的大小计算可以在纠正窗口中显示的单词的数目;在纠正窗口中显示那个计算的数目的单词使得讲话者可以通过调整纠正窗口的大小来指示要在纠正窗口中显示的一定数目的单词。
本发明提供了一种新型的和改进型的计算机语音识别(CSR)系统,这种系统具有一个识别部分和一个听写编辑部分。听写编辑部分可以用来快速纠正误识别的单词。听写编辑部分允许讲话者通过调整纠正窗口的大小来选择在纠正窗口中显示的替换单词号。听写编辑部分在纠正窗口中以字母次序显示单词,以便于找出正确的单词。根据本发明的另一方面,基于对先前的讲话发音和最新的讲话发音之间的分析,当误识别的单词或短语被讲出时,这种CSR系统消除了新的讲话发音被再次识别成与误识别的单词或短语相同的单词或短语。这种听写编辑部分也能够允许讲话者在将识别的单词转移到字处理器之前,规定在听写编辑部分中缓存的语音的数量。该听写编辑系统也可以使用一种单词纠正类比器(metaphor)或者短语纠正类比器,来改变编辑工作,这种工作通常是以字符为基础的,来将其改变成或者是以单词为基础的或者是以短语为基础的。
附图说明
附图1A显示了可调整大小的纠正窗口的例子。
附图1B显示了在调整大小之后的纠正窗口的例子。
附图2A显示一个可调整的听写窗口。
附图2B显示了使用一个纠正窗口在听写窗口中纠正文本。
附图3A-B显示了用于听写编辑部分的单词/短语纠正类比器。
附图4A-C是最佳实施例的计算机系统的方框图。
附图5A是具有可调整大小的纠正窗口的听写编辑部分的流程图。
附图5B是可调整大小的纠正窗口的窗口程序的流程图。
附图6是具有可调整的听写窗口的听写编辑部分的流程图。
附图7是执行单词纠正类比器的字处理器或者听写编辑部分的窗口程序的流程图。
附图8是能从进一步的识别中消除误识别单词的CSR系统的流程图。
附图9是自动识别训练的流程图。
具体实施方式
本发明提供的听写编辑部分允许对计算机语音识别(CSR)系统产生的听写材料进行编辑。在一个示例性的实施例中,通过调整纠正窗口的大小,这种听写编辑部分允许讲话者选择在纠正窗口中显示的替换单词的数目。这一听写编辑部分也以字母次序的顺序在纠正窗口中显示单词。当一个被错误识别的单词被再次讲出来的时候,听写编辑部分最好还能够消除这个被再次讲出的发音被再识别为同一个错误识别的单词的可能性。当将识别的单词提供一个应用程序,例如一个字处理器时,这种听写编辑部分最好能够允许讲话者规定在将识别的单词转移到应用程序之前由听写编辑部分缓存的语音的数量。下面结合一种离散的CSR系统(即,讲话者在每个单词之间有停顿)描述本发明的各个方面。但是,这些方面可以用于连续CSR系统。例如,纠正窗口可以被调整大小,以指示要被显示的替换短语的数目。而且,当讲话者选择一个要被替换的短语时,用户界面系统可以保证同一个短语不会被再次识别。
附图1A显示了一个示例性的可调整大小的纠正窗口。听写编辑部分窗口101包括识别的单词102和纠正窗口103。在这个例子中,讲话者讲出了下面的单词“I will make the cake”.”识别部分将单词“make”错误地识别为单词“fake”。然后,讲话者指出单词“fake”应该被纠正。在显示纠正窗口之前,听写编辑部分确定可调整大小的纠正窗口的当前大小并且计算在纠正窗口中显示的单词的数目。然后,听写编辑部分从具有最高可能性的识别的单词(即,替换单词)中选择单词数目,并且利用标准窗口调整技术(例如利用鼠标指向窗口的边界并且拖动鼠标)在纠正窗口中显示这些单词。如果讲话者想从表中看到更多的单词,讲话者可以简单地调整纠正窗口的大小。当纠正窗口被调整大小时,听写编辑部分再次确定可以在纠正窗口中显示的单词的数目,并在纠正窗口中显示这些数目的单词。当下次讲话者要纠正一个单词时,听写编辑部分在纠正窗口中显示与上次调整大小的窗口相吻合的那些数目的单词。这样,通过简单的调整纠正窗口的大小,讲话者可以有效地选择要被显示的单词的数目。附图1B显示了在调整大小后的示例性的纠正窗口。
另外,听写编辑部分最好以字母的次序在纠正窗口中显示单词。当单词被显示时,以字母次序显示单词可以允许讲话者迅速的找到正确的单词。现有技术的听写编辑部分是根据识别部分确定的可能性为基础确定的次序在纠正窗口中显示单词的。但是,当以可能性次序显示时,除非正确的单词被显示在第一位或第二位,否则对讲话者来说很难找到正确的单词。
附图2A显示了一个用于与一个字处理器相链接的计算机语音识别系统的可调整听写窗口。计算机语音识别系统输入一系列的来自讲话者的发音,识别这些发音,并在听写窗口201中显示对这些发音识别的单词。由于听写窗口是由听写编辑部分控制的,讲话者可以在听写窗口中纠正这些单词。因此,当讲话者在听写窗口内选择纠正一个单词时,讲话者可以利用由听写编辑部分支持的任何纠正设施。例如,对于目前在听写窗口中显示的任何单词,讲话者可以利用纠正窗口显示在识别的单词表中的单词。附图2B显示了在听写窗口中使用纠正窗口纠正文本。
在一个实施例中,听写编辑部分允许讲话者调整听写窗口可以容纳的语音的数量。由于讲话者只能对听写窗口内的单词使用纠正设施,而不能对字处理器窗口内的单词使用纠正设施,讲话者可以根据讲话者的听写习惯调整听写窗口的大小以容纳语音的数量。例如,讲话者可以规定听写窗口只能容纳一个句子,一个段落,或固定数目的单词。一方面,讲话者可以利用标准的窗口调整技术调整听写窗口大小,使得听写窗口可以容纳适合于窗口的数目的单词。当听写窗口变满时,计算机语音识别系统或者将听写窗口中的所有的单词或者将部分单词发送到字处理器中。例如,如果讲话者指示听写窗口应该容纳一个句子时,那么,在任何时候一个新的句子被开始时,计算机语音识别系统将把所有的单词(也就是说一个句子)发送到字处理器中。相反,如果讲话者调整听写窗口的大小,那么计算机语音识别系统可以一次只发送一行单词到字处理器中。
附图3A显示了用于听写编辑部分的单词纠正类比器。当字处理系统处于听写模式时,听写编辑部分自动地改变各种编辑事件(例如,键盘事件,鼠标事件,笔事件,和语音事件)的定义,成为以单词为基础的,而不是以字符为基础的。例如,在听写模式中,退格键,通常只后退一个字符,被设定为一次后退一个单词。因此,当在听写模式中使用者按下退格键时,在当前插入点左侧的整个单词将被删除。类似地,当在听写模式时,左和右箭头键将使插入点向左或向右移动一个单词,并且删除键将删除插入点右侧的整个的单词。而且,当使用者单击鼠标键而且鼠标光标在一个单词之上时,听写编辑部分选择鼠标光标正处于之上的单词,而不是简单地在该单词内设置插入点。但是,如果鼠标光标处于单词之间时,则插入点被设置在单词之间。行301-304显示了单词纠正类比器的示例性效果。每一行都显示了当指示的事件发生时之前和之后的文本。例如,行302显示了如果插入点在单词“test,”之后时,左箭头事件将引起插入点被移动到单词“test.”之前。单词纠正类比器的使用方便了在听写模式状态中的单词的纠正,因为通常讲话者在纠正时希望重新讲出整个单词。因此,当讲话者单击一个单词时,整个单词被选择,并且讲话者可以讲话以便替换被选择的单词。当语音识别是连续的情况时,最好使用短语纠正类比器。因为连续语音识别不能够正确地鉴别单词之间的界限,单词纠正类比器可能会选择一个发音只代表单词的一部分或者代表多个单词的错误识别的单词。在这种情况下,最好重新讲出整个短语。结果,各种编辑事件的定义将被改变成为以短语为基础,而不是被改变成为以单词为基础的。例如,使用者说单词“backspace”的编辑事件通常是后退到前面一个字符,现在则改变为一次后退一个短语。附图3B显示了这种短语纠正类比器。
在一个实施例中,计算机语音识别系统提供了错误识别的单词删除,以防止重新发音的被再次识别为已经被纠正的同一个单词。当讲话者纠正一个错误识别的单词时,听写编辑部分作出确定。讲话者可以不同方式纠正错误识别的单词。例如,讲话者可以删除该单词,然后在该单词被删除的位置的插入点再说出该单词。另外,讲话者可以点中错误识别的单词然后讲话以便替换被点中的单词。当识别部分接收到一个重新说出的发音时,识别部分识别该发音并向听写编辑部分发送一个新识别的单词表。听写编辑部分从新识别的单词表中选择并显示出被纠正的单词以外的具有最高可能性的单词。在一个实施例中,听写编辑部分利用以前错误识别的发音的识别单词表和新识别的单词表来选择与两种发音相匹配的具有最高可能性的单词(除被纠正的单词以外)。为了计算最高可能性,听写编辑部分确定两个识别的单词表中的单词并且乘以它们的可能性。例如,下面的表中显示了示例性的识别的单词表和对应的可能性。
      以前识别的单词表      新识别的单词表。
      Fake.4                Fake.4
      Make.3                Mace.3
      Bake.1                Make.2
      Mace.1                Bake.1
如果讲话者说单词“make”,则没有错误识别的单词消除,听写编辑部分二次都将选择单词“fake”,因为它在两个表中都具有最高的可能性。利用错误识别的单词消除,当单词“fake”被纠正时,听写编辑部分选择单词“mace”,因为除单词“fake”以外,单词“mace”在当前的单词表中有最高的可能性。但是,当来自两个识别的单词表中的可能性被结合在一起时,听写编辑部分选择单词“make”作为正确的单词,因为它具有最高的结合的可能性。单词“make”的结合的可能性为.06(.3×.2),对于单词“mace为.03(.1×.3),对于单词“bake”,为.01(.1×.1)。
计算机语音识别系统也自动向其单词表中添加单词并且自动进行训练。当使用者通过打正确的单词来纠正一个错误识别的单词时,听写编辑部分确定被打的单词是否在单词表中。如果被打单词不在单词表中,则听写编辑部分指示识别部分利用被错误识别的讲话发音来训练该单词的模型来将其加入到单词表中。但是,如果被打的单词在单词表中,则听写编辑部分自动指示识别部分利用被错误识别的讲话发音训练这个被打的单词。
当与连续听写系统使用时,除了单词纠正以外,该听写编辑部分允许短语纠正。在连续听写系统中,识别部分可能会错误地鉴别单词的界限。例如,讲话者可能会说短语“I want to recognize speech.”。识别部分可能会将该短语识别为“I want to wreck a nice beach.”。但是,单个单词纠正的使用不能给讲话者提供一个友好的方式纠正这种错误识别。如果讲话者期望看到单词“beach”的替换的单词,在纠正窗口中可显示“peach”,“teach”,和“speech”。如果讲话者希望看到单词“nice”的替换单词,“ice”和“rice”可被显示,而对单词“wreck”,单词“heck”和单词“rack”可被显示。这种单个单词纠正不能够鉴别单词“recognize speech”。
这种听写编辑部分允许短语纠正,使得因为错误的单词边界引起的错误识别可以被有效地纠正。当讲话者选择一个要纠正的短语时,听写编辑部分选择并且显示一列替换的短语。例如,如果讲话者选择“wreck a nicebeach”,替换的短语可能是“wreck a nice peach”,“rack an iceleach”和“recognize speech”。而且,如果讲话者选择“wreck a nice”,替换的短语可以是“rack on ice”和“recognize”。
此外,当使用者选择一个要纠正的错误识别的短语时,听写编辑部分假定当前的短语与错误识别的短语的差别大于一个单词。如果在错误识别的短语中只有一个单词是不正确的,那么讲话者将可以简单地只选择错误识别的单词而不是整个错误识别的短语。利用这种假定,听写编辑部分不显示只与错误识别的短语有一个单词不同的替换短语。继续讲述前面的例子,如果讲话者选择“wreck a nice beach”,则只有替换短语“rack anice leach”和“recognize speech”将被显示。由于替换短语“wreck anice peach”只有一个单词不同,它不被显示。此外,在一个实施例中,听写编辑部分假定讲话者选择一个要纠正的短语时,错误识别是由于不正确的鉴别单词界限造成的。具体说,如果短语能够通过选择一个显示的替换单词来纠正,讲话者则将选择这些替换的单词。结果,听写编辑部分将不显示可以从替换表中纠正具体的单词来纠正的任何替换短语。例如,如果单词“rack”,“an”,“ice”,和“leach”是对应的错误识别的单词的替换单词的话,听写编辑部分将不显示短语“rack an iceleach”。
附图4A是最佳实施例的计算机系统的方框图。计算机系统400包括一个存储器401,中央处理单元402,输出输入接口单元403,存储装置404,显示装置405,键盘406,鼠标407,以及麦克风408。存储器包括一个计算机语音识别系统,该系统包括一个模型部分408,一个识别部分409,一个听写编辑部分410并且包含一个应用程序411。模型部分包括单词表中的各种单词的模型发音。识别部分接收讲话发音并访问模型部分以便产生识别的单词表。听写编辑部分接受识别的单词表,并显示识别的单词。识别部分,听写编辑部分,应用程序可以各种方式互联。附图4B-4C是显示识别部分,听写编辑部分,和应用程序之间各种互连的方框图。在附图4B中,识别部分与听写编辑部分的编程接口(API)相连,它反过来与应用程序的编程接口API相连。在附图4C中,识别部分与听写编辑部分和应用程序提供的应用程序编程接口API相连。另外,应用程序也可以与识别部分和听写编辑部分提供的API相连。
附图5A是具有可调整大小的纠正窗口的计算机语音识别系统的流程图。通过调整纠正窗口的大小,讲话者可以从识别的单词表中指示应该被显示的单词的数目。在步骤5A01-5A10中,计算机语音识别系统接收单词的发音,显示识别的单词,允许讲话者纠正该单词并且循环进行。在步骤5A01中,如果讲话者继续进行听写,则系统在步骤5A02继续,否则听写完成。在步骤5A02中,系统输入来自讲话者的下一个发音。在步骤5A03,系统使得识别部分识别所发出的发音。识别部分给出具有在单词表中对应于讲话发音的每个单词的多大可能性的识别的单词表。在步骤5A04,系统选择并且显示在识别的单词表中的具有最高可能性的单词。在步骤5A05-5A10中,系统循环允许讲话者纠正被显示的单词。在步骤5A05中,如果讲话者要纠正被显示的单词,则系统在步骤5A06继续,否则系统返回到步骤5A01继续进行听写。在步骤5A06,系统确定纠正窗口的当前大小。在步骤5A07,系统根据窗口当前的大小确定可以适合纠正窗口的单词的个数。在步骤5A08,系统从识别的单词表中选择具有最高可能性的单词并在纠正窗口中显示这些单词。在一个实施例中,系统在显示这些单词之前按字母次序对这些选择的单词排队。在步骤5A09中,系统接受来自讲话者的正确的单词。在步骤5A10,系统利用正确的单词替换被显示单词并返回到步骤5A05。
附图5B是用于纠正窗口的窗口程序的流程图。窗口程序接受并且控制指向纠正窗口的所有的事件(即,消息)的处理。在步骤5B01中,如果接收的消息指示窗口正在被调整大小,则程序在步骤5B02继续,否则程序继续进行其他消息的正常处理。在步骤5B02,程序存储纠正窗口的新的大小。此外,程序可以指示,计算机语音识别系统应该重新计算适合于纠正窗口的单词的数目,再次显示具有这些数目的单词的纠正窗口。
附图6是计算机语音识别系统的可调节的听写窗口处理的流程图。可调节的听写窗口允许讲话者规定听写窗口可以容纳的语音的数量。讲话者然后可以使用听写编辑部分的纠正设施纠正上次讲话的语音的数量。在步骤601,系统显示听写窗口。在步骤602-609,系统循环处理每个语音单元(例如,一句或一段),当一个单元被说出时,将该单元送到一个应用程序。当听写窗口被调整大小时,语音单元也可以是一行单词。在步骤602,如果接收到语音单元的结尾,那么系统在步骤610继续,否则系统在步骤603继续。在步骤610,系统向应用程序发送语音单元并在步骤603继续。在步骤603,讲话者指示听写完成,然后系统结束,否则系统在步骤604继续。在步骤604,系统输入来自讲话者的讲话发音。在步骤605,系统使得识别部分识别讲话发音并给出识别的单词表。在步骤606,系统保存识别的单词表并供以后纠正使用。在步骤607,系统选择并显示识别的单词表中的具有最高可能性的单词。在步骤608,如果讲话者指示进入纠正模式,则系统在步骤609继续,否则系统返回到步骤602确定是否语音单元的结尾已经到达。在步骤609,系统允许讲话者纠正听写窗口内的任何单词。当讲话者请求时,系统显示具有保存的识别单词表中的单词纠正窗口。然后系统返回到步骤602输入下一个发音。
附图7是实现单词纠正类比器的应用程序或者听写编辑部分的窗口程序的流程图。当在听写模式时,该部分改变编辑习惯成为以单词为基础,而不是以字符为基础。在步骤701-705,程序确定指哪一种消息被接收到。在步骤701,如果一个听写启动消息被接收到,程序在步骤701A继续,否则程序在步骤702继续。在步骤701A,程序将模式设定为听写模式并且返回。在步骤702,如果消息是听写不能执行消息,则程序在步骤702A继续,否则程序在步骤703继续。在步骤702A,程序将模式设定为数据输入是通过键盘而不是通过听写并且返回。在步骤703,如果消息是接收字符消息,则程序在步骤703A继续,否则,程序在步骤704继续。在步骤703A,程序显示接收的字符。字符可以或者通过键盘输入或者作为识别的单词字符中的一个被接收到。在步骤704,如果消息是退格消息,则程序在步骤704A继续,否则,步骤在705继续。在步骤704A,如果当前模式是听写模式,则程序在步骤704C继续,否则程序在步骤704B继续。在步骤704C,程序从当前的插入点后退一个单词。后退一个单词删除了插入点左侧的单词并且返回。在步骤704B,程序执行正常的一个字符的后退并且返回。在步骤705,如果消息为鼠标单击消息,则在程序在步骤705A继续,否则程序继续进行正常的处理。在步骤705A,如果当前模式为听写,则程序在步骤705C继续,否则,在步骤705B继续。在步骤705C,如果是在一个单词内单击,则程序选择整个单词。否则,程序在单词之间设置插入点并返回。在步骤705B,程序正常地设置插入点并返回。
附图8是从进一步的识别当中消除了错误识别的单词的听写编辑部分的流程图。当讲话者讲话纠正一个错误识别的单词时,听写编辑部分进行检测并防止被错误识别的单词被再次识别为重新讲话的发音。在步骤801,如果听写完成,则该部分结束,否则该部分在步骤803继续。在步骤803,听写编辑部分从听写部分接收一个识别的单词表。在步骤804,如果重新讲话的发音的目的是用于纠正一个错误识别的单词,则该部分在步骤805继续,否则该部分在步骤806继续。在步骤805,该部分选择除从识别的单词表中被纠正单词以外的一个单词并且在步骤807继续。在步骤806,该部分从识别的单词表中选择最有可能性的单词。在步骤807,该部分显示选择的单词。在步骤808,如果讲话者指示进入纠正模式,则该部分在步骤809继续,否则该部分返回到步骤801输入另一个发音。在步骤809,该部分接收用于一个显示的单词的纠正。在步骤810,如果纠正是通过键盘输入的,则该部分在步骤811继续,否则该部分返回到步骤801选择下一个输入的发音。在步骤811,如果所打的词已经在单词表中,则该部分在步骤813继续,否则该部分在步骤812继续。在步骤812,该部分将所打的单词加到单词表中。在步骤813,该部分针对打入的单词训练识别系统并返回到步骤801输入下一个发音。
附图9是自动训练识别程序的听写编辑部分的流程图。听写编辑部分收集被错误识别的发音以及正确的单词和短语。听写编辑部分然后指示识别部分训练识别程序,将错误识别的发音识别成为正确的单词和者短语。这种训练可以在每当错误识别的发音被纠正时进行或者将信息存储起来在以后进行训练。在步骤901-903,该部分收集错误识别的发音以及正确的单词和短语。这种信息可以在该部分检测到讲话者已经纠正了一个单词或者短语时被收集。在步骤903,该部分确定是否识别器应该被训练。这种训练可以在计算机系统空闲时进行或者当识别准确率不能接受时进行。在步骤904,该部分针对收集的发音训练识别器。
尽管本发明是针对最佳实施例进行描述的,但是本发明并不限于该实施例。在本发明精神范围之内的各种修改对于本领域的技术人员来说将是显而易见的。本发明的范围将由后面的权利要求书所限定。

Claims (9)

1.一种在计算机听写系统中用于在显示替换识别的单词的纠正窗口中显示可变数目的单词的方法,该方法包括:
显示纠正窗口;
响应于来自讲话者调整纠正窗口大小的请求调整纠正窗口的大小;
根据调整的大小计算可以在纠正窗口中显示的单词的数目;
在纠正窗口中显示那个计算的数目的单词使得讲话者可以通过调整纠正窗口的大小来指示要在纠正窗口中显示的一定数目的单词。
2.根据权利要求1的方法,包括为一个被纠正的单词从替换单词表中选择要被显示的单词的步骤。
3.根据权利要求1的方法,其中单词是以字母次序被显示的。
4.根据权利要求1的方法,其中计算机听写系统是一种连续语音识别系统。
5.根据权利要求1的方法,其中计算机听写系统是一种离散听写系统。
6.根据权利要求1的方法,还包括:
选择那个数目的计算的单词;以及
在纠正窗口中显示计算的数目的单词,其中讲话者可以通过调整纠正窗口的大小指示要在纠正窗口中显示的一定数目的单词。
7.根据权利要求6的方法,其中计算的数目的单词中的每一个都具有一个相关的可能性并且其中的选择步骤选择具有最高可能性的那个数目的单词。
8.根据权利要求6的方法,包括在显示选择数目的计算单词之后,扩大窗口并且重复确定,计算,选择和显示步骤,在纠正窗口内执行多于计算的数目的单词的显示。
9.根据权利要求1的方法,其中讲话者通过利用鼠标光标指向窗口的边界并且拖动鼠标来调整纠正窗口的大小。
CNB971212414A 1996-10-31 1997-10-30 在语音识别过程中用于显示可变数目的替换单词的方法和系统 Expired - Lifetime CN1188826C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US741830 1996-10-31
US08/741,830 US5950160A (en) 1996-10-31 1996-10-31 Method and system for displaying a variable number of alternative words during speech recognition

Publications (2)

Publication Number Publication Date
CN1183607A CN1183607A (zh) 1998-06-03
CN1188826C true CN1188826C (zh) 2005-02-09

Family

ID=24982393

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971212414A Expired - Lifetime CN1188826C (zh) 1996-10-31 1997-10-30 在语音识别过程中用于显示可变数目的替换单词的方法和系统

Country Status (5)

Country Link
US (2) US5950160A (zh)
EP (1) EP0840286B1 (zh)
JP (2) JP3880163B2 (zh)
CN (1) CN1188826C (zh)
DE (1) DE69721938T2 (zh)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US7406084B2 (en) * 1997-09-19 2008-07-29 Nokia Siemens Networks Gmbh & Co. Kg Flexible software architecture for a call processing system
CA2219008C (en) * 1997-10-21 2002-11-19 Bell Canada A method and apparatus for improving the utility of speech recognition
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7319957B2 (en) * 2004-02-11 2008-01-15 Tegic Communications, Inc. Handwriting and voice input with automatic correction
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US6556970B1 (en) 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US7292980B1 (en) 1999-04-30 2007-11-06 Lucent Technologies Inc. Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
JP4565585B2 (ja) * 2000-04-13 2010-10-20 キヤノン株式会社 データ処理装置、データ処理方法、記録媒体
JP3567864B2 (ja) * 2000-07-21 2004-09-22 株式会社デンソー 音声認識装置及び記録媒体
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US6754625B2 (en) * 2000-12-26 2004-06-22 International Business Machines Corporation Augmentation of alternate word lists by acoustic confusability criterion
JP4056711B2 (ja) * 2001-03-19 2008-03-05 日産自動車株式会社 音声認識装置
US20060253784A1 (en) * 2001-05-03 2006-11-09 Bower James M Multi-tiered safety control system and methods for online communities
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
US20030120493A1 (en) * 2001-12-21 2003-06-26 Gupta Sunil K. Method and system for updating and customizing recognition vocabulary
EP1575031A3 (en) * 2002-05-15 2010-08-11 Pioneer Corporation Voice recognition apparatus
US8583440B2 (en) * 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
WO2004077404A1 (en) * 2003-02-21 2004-09-10 Voice Signal Technologies, Inc. Method of producing alternate utterance hypotheses using auxilia ry information on close competitors
ATE417346T1 (de) * 2003-03-26 2008-12-15 Koninkl Philips Electronics Nv Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen
JP5025261B2 (ja) * 2003-03-31 2012-09-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 信頼水準の指示により音声認識の結果を訂正するためのシステム
WO2005027093A1 (en) * 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US20050160433A1 (en) * 2004-01-21 2005-07-21 Lambert John R. Optimizations of user interface-independent testing
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
TW200538969A (en) * 2004-02-11 2005-12-01 America Online Inc Handwriting and voice input with automatic correction
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US20090193334A1 (en) * 2005-05-18 2009-07-30 Exb Asset Management Gmbh Predictive text input system and method involving two concurrent ranking means
US9606634B2 (en) 2005-05-18 2017-03-28 Nokia Technologies Oy Device incorporating improved text input mechanism
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US7983914B2 (en) * 2005-08-10 2011-07-19 Nuance Communications, Inc. Method and system for improved speech recognition by degrading utterance pronunciations
US7644209B2 (en) * 2005-08-31 2010-01-05 Research In Motion Limited Handheld electronic device with text disambiguation allowing dynamic expansion of input key associations
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070106506A1 (en) * 2005-11-07 2007-05-10 Ma Changxue C Personal synergic filtering of multimodal inputs
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
JP2007256643A (ja) * 2006-03-23 2007-10-04 Denso Corp 音声認識装置及びナビゲーションシステム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7831431B2 (en) 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
US8150020B1 (en) 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
CN100592249C (zh) * 2007-09-21 2010-02-24 上海汉翔信息技术有限公司 快速输入相关词的方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8229225B2 (en) * 2008-05-06 2012-07-24 Wu Yingchao Candidate selection method for handwriting input
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
DK201670539A1 (en) * 2016-03-14 2017-10-02 Apple Inc Dictation that allows editing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11597519B2 (en) 2017-10-17 2023-03-07 The Boeing Company Artificially intelligent flight crew systems and methods
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4566065A (en) * 1983-04-22 1986-01-21 Kalman Toth Computer aided stenographic system
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US4714918A (en) * 1984-04-30 1987-12-22 International Business Machines Corporation Window view control
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4799262A (en) * 1985-06-27 1989-01-17 Kurzweil Applied Intelligence, Inc. Speech recognition
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
GB8610809D0 (en) * 1986-05-02 1986-06-11 Smiths Industries Plc Speech recognition apparatus
WO1987007749A1 (en) * 1986-06-02 1987-12-17 Motorola, Inc. Continuous speech recognition system
JPS6324462A (ja) * 1986-07-17 1988-02-01 Toshiba Corp ウインドウ状態表示方式
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5604897A (en) * 1990-05-18 1997-02-18 Microsoft Corporation Method and system for correcting the spelling of misspelled words
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
DE4303071A1 (de) 1992-02-03 1993-10-28 Computervision Corp Verfahren und Vorrichtung zur Randbewertung in einer Nicht-Mannigfaltigkeits-Umgebung
US5425128A (en) * 1992-05-29 1995-06-13 Sunquest Information Systems, Inc. Automatic management system for speech recognition processes
FI97919C (fi) 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5367453A (en) * 1993-08-02 1994-11-22 Apple Computer, Inc. Method and apparatus for correcting words
US5623578A (en) * 1993-10-28 1997-04-22 Lucent Technologies Inc. Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words
TW323364B (zh) 1993-11-24 1997-12-21 At & T Corp
US5487143A (en) * 1994-04-06 1996-01-23 Altera Corporation Computer user interface having tiled and overlapped window areas
FI105114B (fi) 1994-04-08 2000-06-15 Valmet Paper Machinery Inc Laitteisto paperikoneen telan pinnoitteen kunnostamisessa
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US5899976A (en) * 1996-10-31 1999-05-04 Microsoft Corporation Method and system for buffering recognized words during speech recognition
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
US6157910A (en) * 1998-08-31 2000-12-05 International Business Machines Corporation Deferred correction file transfer for updating a speech file by creating a file log of corrections

Also Published As

Publication number Publication date
CN1183607A (zh) 1998-06-03
EP0840286A3 (en) 1999-07-28
JP4446312B2 (ja) 2010-04-07
EP0840286B1 (en) 2003-05-14
EP0840286A2 (en) 1998-05-06
JP3880163B2 (ja) 2007-02-14
DE69721938D1 (de) 2003-06-18
JPH10187709A (ja) 1998-07-21
US6363347B1 (en) 2002-03-26
DE69721938T2 (de) 2004-01-22
US5950160A (en) 1999-09-07
JP2006351028A (ja) 2006-12-28

Similar Documents

Publication Publication Date Title
CN1188826C (zh) 在语音识别过程中用于显示可变数目的替换单词的方法和系统
CN1122967C (zh) 在语音识别过程中用于选择替换词的方法和系统
CN1131506C (zh) 在语音识别过程中用于编辑短语的方法和系统
CN1183608A (zh) 在语音识别过程中用于缓存识别的单词的方法和系统
US5027406A (en) Method for interactive speech recognition and training
EP0867857B1 (en) Enrolment in speech recognition
US6912498B2 (en) Error correction in speech recognition by correcting text around selected area
EP0773532B1 (en) Continuous speech recognition
US7676373B2 (en) Displaying text of speech in synchronization with the speech
US6735565B2 (en) Select a recognition error by comparing the phonetic
US6195635B1 (en) User-cued speech recognition
EP1346343A1 (en) Speech recognition using word-in-phrase command
CN1181574A (zh) 在语音识别过程中用于选择识别的单词的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150422

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CX01 Expiry of patent term

Granted publication date: 20050209

CX01 Expiry of patent term