CN1183607A - 在语音识别过程中显示可变数目的替换单词的方法和系统 - Google Patents
在语音识别过程中显示可变数目的替换单词的方法和系统 Download PDFInfo
- Publication number
- CN1183607A CN1183607A CN97121241A CN97121241A CN1183607A CN 1183607 A CN1183607 A CN 1183607A CN 97121241 A CN97121241 A CN 97121241A CN 97121241 A CN97121241 A CN 97121241A CN 1183607 A CN1183607 A CN 1183607A
- Authority
- CN
- China
- Prior art keywords
- word
- window
- identification
- correct
- talker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012937 correction Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims description 19
- 238000003780 insertion Methods 0.000 claims description 15
- 230000037431 insertion Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 235000009421 Myristica fragrans Nutrition 0.000 description 5
- 239000001115 mace Substances 0.000 description 5
- 244000144730 Amygdalus persica Species 0.000 description 3
- 235000006040 Prunus persica var persica Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001839 systemic circulation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Digital Computer Display Output (AREA)
- User Interface Of Digital Computer (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
一种用于编辑被错误识别的单词的方法和系统。通过调整纠正窗口的大小,该系统允许讲话者规定在纠正窗口中显示的替换单词的数目。该系统在纠正窗口中以字母次序显示单词。当被错误识别的单词被再次说出时,该系统避免了重新讲话的发音被再次识别为同一个错误识别的单词的可能性。当与一个字处理器一起工作时,该系统允许讲话者规定在被转送到字处理器之前被缓存的语音的数量。
Description
本发明涉及计算机语音识别,更具体说,涉及由语音识别系统产生的听写内容的编辑。
允许讲话者有效地听写以及允许听写内容被自动的识别的计算机语音信息系统是计算机语音系统开发者长期以来研究的目标。由这种计算机语音识别(CSR)系统产生的好处是具有实质性的。例如,不是通过打字的方法将文件输入到计算机系统中,而是简单地通过念出该文件的单词,CSR系统就将会识别这些单词并将每个单词的字母存储,如同这些单词是被打字进去的一样。由于人们通常讲话比打字快,所以可以提高效率。而且,人们也无需要再去学习打字。由于人的手被除了打字以外的其他工作所占用,所以计算机可具有的许多应用,在目前来讲是不可能的。
典型的CSR系统具有一个识别部分和一个听写编辑部分。识别部分控制讲话者的一系列的发音的接收,识别每一发音,并且将每一个发音所识别的词发送到听写编辑部分。听写编辑部分显示识别的词并允许使用者纠正被误识别的词。例如,听写编辑部分允许使用者或者通过重新念这个单词或者打出正确的单词来替代一个被误识别的单词。
识别部分典形地包括字典中每个单词的发音的模型。当识别部分接收到讲话发音时,识别部分将讲话发音与词典中的每个单词的模型发音相比较以便发现与讲话发音最接近的模型发音。典形的识别部分计算每个模型发音与讲话发音匹配的可能性。这种识别部分向听写编辑部分发送一系列的与讲话发音最高可能性相匹配的单词作为识别的单词表。
听写编辑部分从具有最高可能性的识别的单词表中选择出单词作为所识别的与讲话发音相对应的单词。听写编辑部分然后显示该单词。但是如果显示的单词是讲话发音的错误识别,则听写编辑部分允许讲话者纠正错误识别的单词。当讲话者指示纠正错误识别的单词时,听写编辑部分显示一个纠正窗口,该窗口包含以上识别的单词表中的单词。当该表中的单词中的一个是正确的单词时,讲话者可以单击此单词来执行纠正。但是,如果正确的词或不在该表中,讲话者则或者重新讲话或者打出正确的单词。
一些CSR系统被用作字处理器的听写装置。这种CSR系统控制讲话发音的接收和识别并且还向字处理器发送与识别的单词相对应的每个字符。这种配置的优点是当讲话者试图纠正己讲的单词时,字处理器不对已经识别的单字表进行访问,因此不能够显示这些单词以便于纠正。
本发明提供了一种新型的和改进型的计算机语音识别(CSR)系统,这种系统具有一个识别部分和一个听写编辑部分。听写编辑部分可以用来快速纠正误识别的单词。听写编辑部分允许讲话者通过调整纠正窗口的大小来选择在纠正窗口中显示的替换单词号。听写编辑部分在纠正窗口中以字母次序显示单词,以便于找出正确的单词。根据本发明的另一方面,基于对先前的讲话发音和最新的讲话发音之间的分析,当误识别的单词或短语被讲出时,这种CSR系统消除了新的讲话发音被再次识别成与误识别的单词或短语相同的单词或短语。这种听写编辑部分也能够允许讲话者在将识别的单词转移到字处理器之前,规定在听写编辑部分中缓存的语音的数量。该听写编辑系统也可以使用一种单词纠正类比器(metaphor)或者短语纠正类比器,来改变编辑工作,这种工作通常是以字符为基础的,来将其改变成或者是以单词为基础的或者是以短语为基础的。
附图1A显示了可调整大小的纠正窗口的例子。
附图1B显示了在调整大小之后的纠正窗口的例子。
附图2A显示一个可调整的听写窗口。
附图2B显示了使用一个纠正窗口在听写窗口中纠正文本。
附图3A-B显示了用于听写编辑部分的单词/短语纠正类比器。
附图4A-C是最佳实施例的计算机系统的方框图。
附图5A是具有可调整大小的纠正窗口的听写编辑部分的流程图。
附图5B是可调整大小的纠正窗口的窗口程序的流程图。
附图6是具有可调整的听写窗口的听写编辑部分的流程图。
附图7是执行单词纠正类比器的字处理器或者听写编辑部分的窗口程序的流程图。
附图8是能从进一步的识别中消除误识别单词的CSR系统的流程图。
附图9是自动识别训练的流程图。
本发明提供的听写编辑部分允许对计算机语音识别(CSR)系统产生的听写材料进行编辑。在一个示例性的实施例中,通过调整纠正窗口的大小,这种听写编辑部分允许讲话者选择在纠正窗口中显示的替换单词的数目。这一听写编辑部分也以字母次序的顺序在纠正窗口中显示单词。当一个被错误识别的单词被再次讲出来的时候,听写编辑部分最好还能够消除这个被再次讲出的发音被再识别为同一个错误识别的单词的可能性。当将识别的单词提供一个应用程序,例如一个字处理器时,这种听写编辑部分最好能够允许讲话者规定在将识别的单词转移到应用程序之前由听写编辑部分缓存的语音的数量。下面结合一种离散的CSR系统(即,讲话者在每个单词之间有停顿)描述本发明的各个方面。但是,这些方面可以用于连续CSR系统。例如,纠正窗口可以被调整大小,以指示要被显示的替换短语的数目。而且,当讲话者选择一个要被替换的短语时,用户界面系统可以保证同一个短语不会被再次识别。
附图1A显示了一个示例性的可调整大小的纠正窗口。听写编辑部分窗口101包括识别的单词102和纠正窗口103。在这个例子中,讲话者讲出了下面的单词“I will make the cake”。识别部分将单词“make”错误地识别为单词“fake”。然后,讲话者指出单词“fake”应该被纠正。在显示纠正窗口之前,听写编辑部分确定可调整大小的纠正窗口的当前大小并且计算在纠正窗口中显示的单词的数目。然后,听写编辑部分从具有最高可能性的识别的单词(即,替换单词)中选择单词数目,并且利用标准窗口调整技术(例如利用鼠标指向窗口的边界并且拖动鼠标)在纠正窗口中显示这些单词。如果讲话者想从表中看到更多的单词,讲话者可以简单地调整纠正窗口的大小。当纠正窗口被调整大小时,听写编辑部分再次确定可以在纠正窗口中显示的单词的数目,并在纠正窗口中显示这些数目的单词。当下次讲话者要纠正一个单词时,听写编辑部分在纠正窗口中显示与上次调整大小的窗口相吻合的那些数目的单词。这样,通过简单的调整纠正窗口的大小,讲话者可以有效地选择要被显示的单词的数目。附图1B显示了在调整大小后的示例性的纠正窗口。
另外,听写编辑部分最好以字母的次序在纠正窗口中显示单词。当单词被显示时,以字母次序显示单词可以允许讲话者迅速的找到正确的单词。现有技术的听写编辑部分是根据识别部分确定的可能性为基础确定的次序在纠正窗口中显示单词的。但是,当以可能性次序显示时,除非正确的单词被显示在第一位或第二位,否则对讲话者来说很难找到正确的单词。
附图2A显示了一个用于与一个字处理器相链接的计算机语音识别系统的可调整听写窗口。计算机语音识别系统输入一系列的来自讲话者的发音,识别这些发音,并在听写窗口201中显示对这些发音识别的单词。由于听写窗口是由听写编辑部分控制的,讲话者可以在听写窗口中纠正这些单词。因此,当讲话者在听写窗口内选择纠正一个单词时,讲话者可以利用由听写编辑部分支持的任何纠正设施。例如,对于目前在听写窗口中显示的任何单词,讲话者可以利用纠正窗口显示在识别的单词表中的单词。附图2B显示了在听写窗口中使用纠正窗口纠正文本。
在一个实施例中,听写编辑部分允许讲话者调整听写窗口可以容纳的语音的数量。由于讲话者只能对听写窗口内的单词使用纠正设施,而不能对字处理器窗口内的单词使用纠正设施,讲话者可以根据讲话者的听写习惯调整听写窗口的大小以容纳语音的数量。例如,讲话者可以规定听写窗口只能容纳一个句子,一个段落,或固定数目的单词。一方面,讲话者可以利用标准的窗口调整技术调整听写窗口大小,使得听写窗口可以容纳适合于窗口的数目的单词。当听写窗口变满时,计算机语音识别系统或者将听写窗口中的所有的单词或者将部分单词发送到字处理器中。例如,如果讲话者指示听写窗口应该容纳一个句子时,那么,在任何时候一个新的句子被开始时,计算机语音识别系统将把所有的单词(也就是说一个句子)发送到字处理器中。相反,如果讲话者调整听写窗口的大小,那么计算机语音识别系统可以一次只发送一行单词到字处理器中。
附图3A显示了用于听写编辑部分的单词纠正类比器。当字处理系统处于听写模式时,听写编辑部分自动地改变各种编辑事件(例如,键盘事件,鼠标事件,笔事件,和语音事件)的定义,成为以单词为基础的,而不是以字符为基础的。例如,在听写模式中,退格键,通常只后退一个字符,被设定为一次后退一个单词。因此,当在听写模式中使用者按下退格键时,在当前插入点左侧的整个单词将被删除。类似地,当在听写模式时,左和右箭头键将使插入点向左或向右移动一个单词,并且删除键将删除插入点右侧的整个的单词。而且,当使用者单击鼠标键而且鼠标光标在一个单词之上时,听写编辑部分选择鼠标光标正处于之上的单词,而不是简单地在该单词内设置插入点。但是,如果鼠标光标处于单词之间时,则插入点被设置在单词之间。行301-304显示了单词纠正类比器的示例性效果。每一行都显示了当指示的事件发生时之前和之后的文本。例如,行302显示了如果插入点在单词“test,”之后时,左箭头事件将引起插入点被移动到单词“test.”之前。单词纠正类比器的使用方便了在听写模式状态中的单词的纠正,因为通常讲话者在纠正时希望重新讲出整个单词。因此,当讲话者单击一个单词时,整个单词被选择,并且讲话者可以讲话以便替换被选择的单词。当语音识别是连续的情况时,最好使用短语纠正类比器。因为连续语音识别不能够正确地鉴别单词之间的界限,单词纠正类比器可能会选择一个发音只代表单词的一部分或者代表多个单词的错误识别的单词。在这种情况下,最好重新讲出整个短语。结果,各种编辑事件的定义将被改变成为以短语为基础,而不是被改变成为以单词为基础的。例如,使用者说单词“backspace”的编辑事件通常是后退到前面一个字符,现在则改变为一次后退一个短语。附图3B显示了这种短语纠正类比器。
在一个实施例中,计算机语音识别系统提供了错误识别的单词删除,以防止重新发音的被再次识别为已经被纠正的同一个单词。当讲话者纠正一个错误识别的单词时,听写编辑部分作出确定。讲话者可以不同方式纠正错误识别的单词。例如,讲话者可以删除该单词,然后在该单词被删除的位置的插入点再说出该单词。另外,讲话者可以点中错误识别的单词然后讲话以便替换被点中的单词。当识别部分接收到一个重新说出的发音时,识别部分识别该发音并向听写编辑部分发送一个新识别的单词表。听写编辑部分从新识别的单词表中选择并显示出被纠正的单词以外的具有最高可能性的单词。在一个实施例中,听写编辑部分利用以前错误识别的发音的识别单词表和新识别的单词表来选择与两种发音相匹配的具有最高可能性的单词(除被纠正的单词以外)。为了计算最高可能性,听写编辑部分确定两个识别的单词表中的单词并且乘以它们的可能性。例如,下面的表中显示了示例性的识别的单词表和对应的可能性。
以前识别的单词表 新识别的单词表。
Fake.4 Fake.4
Make.3 Mace.3
Bake.1 Make.2
Mace.1 Bake.1
如果讲话者说单词“make”,则没有错误识别的单词消除,听写编辑部分二次都将选择单词“fake”,因为它在两个表中都具有最高的可能性。利用错误识别的单词消除,当单词“fake”被纠正时,听写编辑部分选择单词“mace”,因为除单词“fake”以外,单词“mace”在当前的单词表中有最高的可能性。但是,当来自两个识别的单词表中的可能性被结合在一起时,听写编辑部分选择单词“make”作为正确的单词,因为它具有最高的结合的可能性。单词“make”的结合的可能性为.06(.3×.2),对于单词“mace为.03(.1×.3),对于单词“bake”,为.01(.1×.1)。
计算机语音识别系统也自动向其单词表中添加单词并且自动进行训练。当使用者通过打正确的单词来纠正一个错误识别的单词时,听写编辑部分确定被打的单词是否在单词表中。如果被打单词不在单词表中,则听写编辑部分指示识别部分利用被错误识别的讲话发音来训练该单词的模型来将其加入到单词表中。但是,如果被打的单词在单词表中,则听写编辑部分自动指示识别部分利用被错误识别的讲话发音训练这个被打的单词。
当与连续听写系统使用时,除了单词纠正以外,该听写编辑部分允许短语纠正。在连续听写系统中,识别部分可能会错误地鉴别单词的界限。例如,讲话者可能会说短语“I want to recognize speech.”。识别部分可能会将该短语识别为“I want to wreck a nice beach.”。但是,单个单词纠正的使用不能给讲话者提供一个友好的方式纠正这种错误识别。如果讲话者期望看到单词“beach”的替换的单词,在纠正窗口中可显示“peach”,“teach”,和“speech”。如果讲话者希望看到单词“nice”的替换单词,“ice”和“rice”可被显示,而对单词“wreck”,单词“heck”和单词“rack”可被显示。这种单个单词纠正不能够鉴别单词“recognize speech”。
这种听写编辑部分允许短语纠正,使得因为错误的单词边界引起的错误识别可以被有效地纠正。当讲话者选择一个要纠正的短语时,听写编辑部分选择并且显示一列替换的短语。例如,如果讲话者选择“wreck a nicebeach”,替换的短语可能是“wreck a nice peach”,“rack an ice leach”和“recognize speech”。而且,如果讲话者选择“wreck a nice”,替换的短语可以是“rack on ice”和“recognize”。
此外,当使用者选择一个要纠正的错误识别的短语时,听写编辑部分假定当前的短语与错误识别的短语的差别大于一个单词。如果在错误识别的短语中只有一个单词是不正确的,那么讲话者将可以简单地只选择错误识别的单词而不是整个错误识别的短语。利用这种假定,听写编辑部分不显示只与错误识别的短语有一个单词不同的替换短语。继续讲述前面的例子,如果讲话者选择“wreck a nice beach”,则只有替换短语“rack anice leach”和“recognize speech”将被显示。由于替换短语“wreck anice peach”只有一个单词不同,它不被显示。此外,在一个实施例中,听写编辑部分假定讲话者选择一个要纠正的短语时,错误识别是由于不正确的鉴别单词界限造成的。具体说,如果短语能够通过选择一个显示的替换单词来纠正,讲话者则将选择这些替换的单词。结果,听写编辑部分将不显示可以从替换表中纠正具体的单词来纠正的任何替换短语。例如,如果单词“rack”,“an”,“ice”,和“leach”是对应的错误识别的单词的替换单词的话,听写编辑部分将不显示短语“rack an iceleach”。
附图4A是最佳实施例的计算机系统的方框图。计算机系统400包括一个存储器401,中央处理单元402,输出输入接口单元403,存储装置404,显示装置405,键盘406,鼠标407,以及麦克风408。存储器包括一个计算机语音识别系统,该系统包括一个模型部分408,一个识别部分409,一个听写编辑部分410并且包含一个应用程序411。模型部分包括单词表中的各种单词的模型发音。识别部分接收讲话发音并访问模型部分以便产生识别的单词表。听写编辑部分接受识别的单词表,并显示识别的单词。识别部分,听写编辑部分,应用程序可以各种方式互联。附图4B-4C是显示识别部分,听写编辑部分,和应用程序之间各种互连的方框图。在附图4B中,识别部分与听写编辑部分的编程接口(API)相连,它反过来与应用程序的编程接口API相连。在附图4C中,识别部分与听写编辑部分和应用程序提供的应用程序编程接口API相连。另外,应用程序也可以与识别部分和听写编辑部分提供的API相连。
附图5A是具有可调整大小的纠正窗口的计算机语音识别系统的流程图。通过调整纠正窗口的大小,讲话者可以从识别的单词表中指示应该被显示的单词的数目。在步骤5A01-5A10中,计算机语音识别系统接收单词的发音,显示识别的单词,允许讲话者纠正该单词并且循环进行。在步骤5A01中,如果讲话者继续进行听写,则系统在步骤5A02继续,否则听写完成。在步骤5A02中,系统输入来自讲话者的下一个发音。在步骤5A03,系统使得识别部分识别所发出的发音。识别部分给出具有在单词表中对应于讲话发音的每个单词的多大可能性的识别的单词表。在步骤5A04,系统选择并且显示在识别的单词表中的具有最高可能性的单词。在步骤5A05-5A10中,系统循环允许讲话者纠正被显示的单词。在步骤5A05中,如果讲话者要纠正被显示的单词,则系统在步骤5A06继续,否则系统返回到步骤5A01继续进行听写。在步骤5A06,系统确定纠正窗口的当前大小。在步骤5A07,系统根据窗口当前的大小确定可以适合纠正窗口的单词的个数。在步骤5A08,系统从识别的单词表中选择具有最高可能性的单词并在纠正窗口中显示这些单词。在一个实施例中,系统在显示这些单词之前按字母次序对这些选择的单词排队。在步骤5A09中,系统接受来自讲话者的正确的单词。在步骤5A10,系统利用正确的单词替换被显示单词并返回到步骤5A05。
附图5B是用于纠正窗口的窗口程序的流程图。窗口程序接受并且控制指向纠正窗口的所有的事件(即,消息)的处理。在步骤5B01中,如果接收的消息指示窗口正在被调整大小,则程序在步骤5B02继续,否则程序继续进行其他消息的正常处理。在步骤5B02,程序存储纠正窗口的新的大小。此外,程序可以指示,计算机语音识别系统应该重新计算适合于纠正窗口的单词的数目,再次显示具有这些数目的单词的纠正窗口。
附图6是计算机语音识别系统的可调节的听写窗口处理的流程图。可调节的听写窗口允许讲话者规定听写窗口可以容纳的语音的数量。讲话者然后可以使用听写编辑部分的纠正设施纠正上次讲话的语音的数量。在步骤601,系统显示听写窗口。在步骤602-609,系统循环处理每个语音单元(例如,一句或一段),当一个单元被说出时,将该单元送到一个应用程序。当听写窗口被调整大小时,语音单元也可以是一行单词。在步骤602,如果接收到语音单元的结尾,那么系统在步骤610继续,否则系统在步骤603继续。在步骤610,系统向应用程序发送语音单元并在步骤603继续。在步骤603,讲话者指示听写完成,然后系统结束,否则系统在步骤604继续。在步骤604,系统输入来自讲话者的讲话发音。在步骤605,系统使得识别部分识别讲话发音并给出识别的单词表。在步骤606,系统保存识别的单词表并供以后纠正使用。在步骤607,系统选择并显示识别的单词表中的具有最高可能性的单词。在步骤608,如果讲话者指示进入纠正模式,则系统在步骤609继续,否则系统返回到步骤602确定是否语音单元的结尾已经到达。在步骤609,系统允许讲话者纠正听写窗口内的任何单词。当讲话者请求时,系统显示具有保存的识别单词表中的单词纠正窗口。然后系统返回到步骤602输入下一个发音。
附图7是实现单词纠正类比器的应用程序或者听写编辑部分的窗口程序的流程图。当在听写模式时,该部分改变编辑习惯成为以单词为基础,而不是以字符为基础。在步骤701-705,程序确定指哪一种消息被接收到。在步骤701,如果一个听写启动消息被接收到,程序在步骤701A继续,否则程序在步骤702继续。在步骤701A,程序将模式设定为听写模式并且返回。在步骤702,如果消息是听写不能执行消息,则程序在步骤702A继续,否则程序在步骤703继续。在步骤702A,程序将模式设定为数据输入是通过键盘而不是通过听写并且返回。在步骤703,如果消息是接收字符消息,则程序在步骤703A继续,否则,程序在步骤704继续。在步骤703A,程序显示接收的字符。字符可以或者通过键盘输入或者作为识别的单词字符中的一个被接收到。在步骤704,如果消息是退格消息,则程序在步骤704A继续,否则,步骤在705继续。在步骤704A,如果当前模式是听写模式,则程序在步骤704C继续,否则程序在步骤704B继续。在步骤704C,程序从当前的插入点后退一个单词。后退一个单词删除了插入点左侧的单词并且返回。在步骤704B,程序执行正常的一个字符的后退并且返回。在步骤705,如果消息为鼠标单击消息,则在程序在步骤705A继续,否则程序继续进行正常的处理。在步骤705A,如果当前模式为听写,则程序在步骤705C继续,否则,在步骤705B继续。在步骤705C,如果是在一个单词内单击,则程序选择整个单词。否则,程序在单词之间设置插入点并返回。在步骤705B,程序正常地设置插入点并返回。
附图8是从进一步的识别当中消除了错误识别的单词的听写编辑部分的流程图。当讲话者讲话纠正一个错误识别的单词时,听写编辑部分进行检测并防止被错误识别的单词被再次识别为重新讲话的发音。在步骤801,如果听写完成,则该部分结束,否则该部分在步骤803继续。在步骤803,听写编辑部分从听写部分接收一个识别的单词表。在步骤804,如果重新讲话的发音的目的是用于纠正一个错误识别的单词,则该部分在步骤805继续,否则该部分在步骤806继续。在步骤805,该部分选择除从识别的单词表中被纠正单词以外的一个单词并且在步骤807继续。在步骤806,该部分从识别的单词表中选择最有可能性的单词。在步骤807,该部分显示选择的单词。在步骤808,如果讲话者指示进入纠正模式,则该部分在步骤809继续,否则该部分返回到步骤801输入另一个发音。在步骤809,该部分接收用于一个显示的单词的纠正。在步骤810,如果纠正是通过键盘输入的,则该部分在步骤811继续,否则该部分返回到步骤801选择下一个输入的发音。在步骤811,如果所打的词已经在单词表中,则该部分在步骤813继续,否则该部分在步骤812继续。在步骤812,该部分将所打的单词加到单词表中。在步骤813,该部分针对打入的单词训练识别系统并返回到步骤801输入下一个发音。
附图9是自动训练识别程序的听写编辑部分的流程图。听写编辑部分收集被错误识别的发音以及正确的单词和短语。听写编辑部分然后指示识别部分训练识别程序,将错误识别的发音识别成为正确的单词和者短语。这种训练可以在每当错误识别的发音被纠正时进行或者将信息存储起来在以后进行训练。在步骤901-903,该部分收集错误识别的发音以及正确的单词和短语。这种信息可以在该部分检测到讲话者已经纠正了一个单词或者短语时被收集。在步骤903,该部分确定是否识别器应该被训练。这种训练可以在计算机系统空闲时进行或者当识别准确率不能接受时进行。在步骤904,该部分针对收集的发音训练识别器。
尽管本发明是针对最佳实施例进行描述的,但是本发明并不限于该实施例。在本发明精神范围之内的各种修改对于本领域的技术人员来说将是显而易见的。本发明的范围将由后面的权利要求书所限定。
Claims (28)
1.一种在计算机听写系统中用于显示替换单词同时纠正由听写系统错误识别的单词的方法,该方法包括:确定纠正窗口的当前大小;从当前的窗口大小计算在纠正窗口中可被显示的替换单词的数目;选择这些数目的替换单词;以及在纠正窗口中显示选择的替换单词,其中讲话者可以通过调整纠正窗口的大小在纠正窗口中指示显示的替换单词的数目。
2.根据权利要求1的方法,其中每个替换单词具有一个相关的可能性并且其中的选择步骤选择具有最高可能性的那些数目的替换单词。
3.根据权利要求1的方法,包括在显示选择的替换单词之后扩大窗口并且重复确定,计算,选择和显示步骤,在纠正窗口内执行多于所述数目的替换单词的显示。
4.根据权利要求1的方法,其中选择的替换单词是以字母次序显示的。
5.根据权利要求1的方法,其中讲话者通过利用鼠标光标指向窗口的边界并且拖动鼠标来调整纠正窗口的大小。
6.根据权利要求1的方法,其中计算机听写系统是一种连续语音识别系统。
7.根据权利要求1的方法,其中计算机听写系统是一种离散听写系统。
8.一种在计算机听写系统中用于在纠正窗口中显示可变数目的单词的方法,该方法包括:显示纠正窗口;响应于来自讲话者调整纠正窗口大小的请求调整纠正窗口的大小;根据调整的大小计算在纠正窗口中可以显示的单词的数目;在纠正窗口中显示计算的数目的单词。
9.根据权利要求8的方法,包括为一个被纠正的单词从替换单词表中选择要被显示的单词的步骤。
10.根据权利要求8的方法,其中单词是以字母次序被显示的。
11.根据权利要求8的方法,其中计算机听写系统是一种连续语音识别系统。
12.根据权利要求8的方法,其中计算机听写系统是一种离散听写系统。
13.一种在计算机听写系统中用于显示错误识别的发音的替换单词的方法,该方法包括:鉴别具有是错误识别的发音的正确的识别的相关可能性的替换单词;选择具有高可能性的鉴别的单词;以字母的次序显示选择的单词,允许讲话者选择替换单词中的一个作为错误识别的发音的正确的识别。
14.一种计算机可阅读介质,包含有以使计算机听写系统在纠正窗口中显示可变数目的单词的指令,包括:显示纠正窗口;利用指点设备指向纠正窗口的边界并且拖动指点设备来调整纠正窗口的大小;根据调整的大小计算在纠正窗口中可以被显示的单词的数目;在纠正窗口中显示计算的数目的单词。
15.根据权利要求是14的计算机可阅读介质,其中的编辑命令是键盘的删除键,并且在听写模式中编辑行为是删除一个显示的单词,在非听写模式中,编辑行为是删除一个显示的字符。
16.根据权利要求是14的计算机可阅读介质,其中编辑命令是键盘的箭头键,并且当在听写模式时,编辑行为是将插入点移动一个显示的单词,在非听写模式时编辑行为是将插入点移动一个显示的字符。
17.根据权利要求14的计算机可阅读介质,其中编辑命令是鼠标的单击,当在听写模式时编辑行为是选择一个显示的单词,当在非听写模式时,编辑行为是设置一个插入点。
18.一种计算机可阅读介质,包含用于使计算机听写系统在纠正窗口内显示可变数目的单词的指令,包括显示纠正窗口;利用指点设备指向纠正窗口的边界并且拖动指点设备来调整纠正窗口的大小;根据调整的大小计算在纠正窗口中可以被显示的单词的数目;在纠正窗口中显示计算的数目的单词。
19.根据权利要求18的计算机可阅读介质,具有包括为一个被纠正的单词从替换单词表中选择要被显示的单词的步骤。
20.根据权利要求18的计算机可阅读介质,其中单词是以字母次序被显示的。
21.一种在识别系统中用于训练识别讲话发音为单词的方法,该方法包括:从讲话者接收一个讲话发音;识别该讲话发音为一个识别的单词;将识别的单词指示给讲话者;从讲话者接收一个为讲话发音的正确的识别的正确的单词;训练识别讲话发音为该正确的单词。
22.根据权利要求21的方法,其中识别的单词的指示包括显示识别的单词,并且其中正确的单词的接收是识别的单词的一个非讲话发音替换。
23.根据权利要求22的方法,其中非讲话发音替换是打入正确的单词。
24.根据权利要求21的方法,其中识别是连续语音识别。
25.根据权利要求21的方法,其中识别是离散语音识别。
26.根据权利要求21的方法,其中训练是当正确的单词被接收时自动进行的。
27.根据权利要求21的方法,其中训练是在识别的背景模式下进行。
28.根据权利要求21的方法,其中训练被延迟,直到多个讲话发音和正确的单词被接收到为止。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US741830 | 1996-10-31 | ||
US08/741,830 US5950160A (en) | 1996-10-31 | 1996-10-31 | Method and system for displaying a variable number of alternative words during speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1183607A true CN1183607A (zh) | 1998-06-03 |
CN1188826C CN1188826C (zh) | 2005-02-09 |
Family
ID=24982393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB971212414A Expired - Lifetime CN1188826C (zh) | 1996-10-31 | 1997-10-30 | 在语音识别过程中用于显示可变数目的替换单词的方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (2) | US5950160A (zh) |
EP (1) | EP0840286B1 (zh) |
JP (2) | JP3880163B2 (zh) |
CN (1) | CN1188826C (zh) |
DE (1) | DE69721938T2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779511A (zh) * | 2011-05-12 | 2012-11-14 | Nhn株式会社 | 基于单词级别的备选生成的语音识别系统及方法 |
CN103544952A (zh) * | 2012-07-12 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 语音自适应方法、装置及系统 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US7406084B2 (en) * | 1997-09-19 | 2008-07-29 | Nokia Siemens Networks Gmbh & Co. Kg | Flexible software architecture for a call processing system |
CA2219008C (en) * | 1997-10-21 | 2002-11-19 | Bell Canada | A method and apparatus for improving the utility of speech recognition |
US6457031B1 (en) * | 1998-09-02 | 2002-09-24 | International Business Machines Corp. | Method of marking previously dictated text for deferred correction in a speech recognition proofreader |
US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US7720682B2 (en) * | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US8938688B2 (en) | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US7319957B2 (en) * | 2004-02-11 | 2008-01-15 | Tegic Communications, Inc. | Handwriting and voice input with automatic correction |
US7679534B2 (en) | 1998-12-04 | 2010-03-16 | Tegic Communications, Inc. | Contextual prediction of user words and user actions |
US6556970B1 (en) | 1999-01-28 | 2003-04-29 | Denso Corporation | Apparatus for determining appropriate series of words carrying information to be recognized |
US7292980B1 (en) | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US6370503B1 (en) * | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
JP4565585B2 (ja) * | 2000-04-13 | 2010-10-20 | キヤノン株式会社 | データ処理装置、データ処理方法、記録媒体 |
JP3567864B2 (ja) * | 2000-07-21 | 2004-09-22 | 株式会社デンソー | 音声認識装置及び記録媒体 |
JP2002132287A (ja) * | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
US6754625B2 (en) * | 2000-12-26 | 2004-06-22 | International Business Machines Corporation | Augmentation of alternate word lists by acoustic confusability criterion |
JP4056711B2 (ja) * | 2001-03-19 | 2008-03-05 | 日産自動車株式会社 | 音声認識装置 |
US20060253784A1 (en) * | 2001-05-03 | 2006-11-09 | Bower James M | Multi-tiered safety control system and methods for online communities |
EP1262954A1 (en) * | 2001-05-30 | 2002-12-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for verbal entry of digits or commands |
US20030120493A1 (en) * | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
EP1575031A3 (en) * | 2002-05-15 | 2010-08-11 | Pioneer Corporation | Voice recognition apparatus |
US8583440B2 (en) * | 2002-06-20 | 2013-11-12 | Tegic Communications, Inc. | Apparatus and method for providing visual indication of character ambiguity during text entry |
WO2004077404A1 (en) * | 2003-02-21 | 2004-09-10 | Voice Signal Technologies, Inc. | Method of producing alternate utterance hypotheses using auxilia ry information on close competitors |
ATE417346T1 (de) * | 2003-03-26 | 2008-12-15 | Koninkl Philips Electronics Nv | Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen |
JP5025261B2 (ja) * | 2003-03-31 | 2012-09-12 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 信頼水準の指示により音声認識の結果を訂正するためのシステム |
WO2005027093A1 (en) * | 2003-09-11 | 2005-03-24 | Voice Signal Technologies, Inc. | Generation of an alternative pronunciation |
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US20050160433A1 (en) * | 2004-01-21 | 2005-07-21 | Lambert John R. | Optimizations of user interface-independent testing |
US20050192802A1 (en) * | 2004-02-11 | 2005-09-01 | Alex Robinson | Handwriting and voice input with automatic correction |
TW200538969A (en) * | 2004-02-11 | 2005-12-01 | America Online Inc | Handwriting and voice input with automatic correction |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US20090193334A1 (en) * | 2005-05-18 | 2009-07-30 | Exb Asset Management Gmbh | Predictive text input system and method involving two concurrent ranking means |
US9606634B2 (en) | 2005-05-18 | 2017-03-28 | Nokia Technologies Oy | Device incorporating improved text input mechanism |
US8473295B2 (en) * | 2005-08-05 | 2013-06-25 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
US7983914B2 (en) * | 2005-08-10 | 2011-07-19 | Nuance Communications, Inc. | Method and system for improved speech recognition by degrading utterance pronunciations |
US7644209B2 (en) * | 2005-08-31 | 2010-01-05 | Research In Motion Limited | Handheld electronic device with text disambiguation allowing dynamic expansion of input key associations |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070106506A1 (en) * | 2005-11-07 | 2007-05-10 | Ma Changxue C | Personal synergic filtering of multimodal inputs |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
JP2007256643A (ja) * | 2006-03-23 | 2007-10-04 | Denso Corp | 音声認識装置及びナビゲーションシステム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7831431B2 (en) | 2006-10-31 | 2010-11-09 | Honda Motor Co., Ltd. | Voice recognition updates via remote broadcast signal |
US8150020B1 (en) | 2007-04-04 | 2012-04-03 | At&T Intellectual Property Ii, L.P. | System and method for prompt modification based on caller hang ups in IVRs |
CN100592249C (zh) * | 2007-09-21 | 2010-02-24 | 上海汉翔信息技术有限公司 | 快速输入相关词的方法 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8229225B2 (en) * | 2008-05-06 | 2012-07-24 | Wu Yingchao | Candidate selection method for handwriting input |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
CN105185379B (zh) * | 2015-06-17 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 声纹认证方法和装置 |
DK201670539A1 (en) * | 2016-03-14 | 2017-10-02 | Apple Inc | Dictation that allows editing |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11597519B2 (en) | 2017-10-17 | 2023-03-07 | The Boeing Company | Artificially intelligent flight crew systems and methods |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4566065A (en) * | 1983-04-22 | 1986-01-21 | Kalman Toth | Computer aided stenographic system |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4714918A (en) * | 1984-04-30 | 1987-12-22 | International Business Machines Corporation | Window view control |
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US4799262A (en) * | 1985-06-27 | 1989-01-17 | Kurzweil Applied Intelligence, Inc. | Speech recognition |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
GB8610809D0 (en) * | 1986-05-02 | 1986-06-11 | Smiths Industries Plc | Speech recognition apparatus |
WO1987007749A1 (en) * | 1986-06-02 | 1987-12-17 | Motorola, Inc. | Continuous speech recognition system |
JPS6324462A (ja) * | 1986-07-17 | 1988-02-01 | Toshiba Corp | ウインドウ状態表示方式 |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
US5604897A (en) * | 1990-05-18 | 1997-02-18 | Microsoft Corporation | Method and system for correcting the spelling of misspelled words |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5329609A (en) * | 1990-07-31 | 1994-07-12 | Fujitsu Limited | Recognition apparatus with function of displaying plural recognition candidates |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
DE4303071A1 (de) | 1992-02-03 | 1993-10-28 | Computervision Corp | Verfahren und Vorrichtung zur Randbewertung in einer Nicht-Mannigfaltigkeits-Umgebung |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
FI97919C (fi) | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5367453A (en) * | 1993-08-02 | 1994-11-22 | Apple Computer, Inc. | Method and apparatus for correcting words |
US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
TW323364B (zh) | 1993-11-24 | 1997-12-21 | At & T Corp | |
US5487143A (en) * | 1994-04-06 | 1996-01-23 | Altera Corporation | Computer user interface having tiled and overlapped window areas |
FI105114B (fi) | 1994-04-08 | 2000-06-15 | Valmet Paper Machinery Inc | Laitteisto paperikoneen telan pinnoitteen kunnostamisessa |
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US5794189A (en) * | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
US5899976A (en) * | 1996-10-31 | 1999-05-04 | Microsoft Corporation | Method and system for buffering recognized words during speech recognition |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
US6157910A (en) * | 1998-08-31 | 2000-12-05 | International Business Machines Corporation | Deferred correction file transfer for updating a speech file by creating a file log of corrections |
-
1996
- 1996-10-31 US US08/741,830 patent/US5950160A/en not_active Expired - Lifetime
-
1997
- 1997-10-22 EP EP97118372A patent/EP0840286B1/en not_active Expired - Lifetime
- 1997-10-22 DE DE69721938T patent/DE69721938T2/de not_active Expired - Lifetime
- 1997-10-30 CN CNB971212414A patent/CN1188826C/zh not_active Expired - Lifetime
- 1997-10-30 JP JP29894597A patent/JP3880163B2/ja not_active Expired - Lifetime
-
1999
- 1999-02-16 US US09/250,991 patent/US6363347B1/en not_active Expired - Lifetime
-
2006
- 2006-07-10 JP JP2006188990A patent/JP4446312B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779511A (zh) * | 2011-05-12 | 2012-11-14 | Nhn株式会社 | 基于单词级别的备选生成的语音识别系统及方法 |
CN102779511B (zh) * | 2011-05-12 | 2014-12-03 | Nhn株式会社 | 基于单词级别的备选生成的语音识别系统及方法 |
CN103544952A (zh) * | 2012-07-12 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 语音自适应方法、装置及系统 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
Also Published As
Publication number | Publication date |
---|---|
EP0840286A3 (en) | 1999-07-28 |
JP4446312B2 (ja) | 2010-04-07 |
EP0840286B1 (en) | 2003-05-14 |
CN1188826C (zh) | 2005-02-09 |
EP0840286A2 (en) | 1998-05-06 |
JP3880163B2 (ja) | 2007-02-14 |
DE69721938D1 (de) | 2003-06-18 |
JPH10187709A (ja) | 1998-07-21 |
US6363347B1 (en) | 2002-03-26 |
DE69721938T2 (de) | 2004-01-22 |
US5950160A (en) | 1999-09-07 |
JP2006351028A (ja) | 2006-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1188826C (zh) | 在语音识别过程中用于显示可变数目的替换单词的方法和系统 | |
CN1122967C (zh) | 在语音识别过程中用于选择替换词的方法和系统 | |
CN1131506C (zh) | 在语音识别过程中用于编辑短语的方法和系统 | |
CN1183608A (zh) | 在语音识别过程中用于缓存识别的单词的方法和系统 | |
EP0867857B1 (en) | Enrolment in speech recognition | |
US5027406A (en) | Method for interactive speech recognition and training | |
US4866778A (en) | Interactive speech recognition apparatus | |
EP0773532B1 (en) | Continuous speech recognition | |
US6601027B1 (en) | Position manipulation in speech recognition | |
US5799279A (en) | Continuous speech recognition of text and commands | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
US6195635B1 (en) | User-cued speech recognition | |
JP2001034293A (ja) | 音声を転写するための方法及び装置 | |
EP1346343A1 (en) | Speech recognition using word-in-phrase command | |
CN1181574A (zh) | 在语音识别过程中用于选择识别的单词的方法和系统 | |
JPH06250689A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150422 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150422 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington, USA Patentee before: Microsoft Corp. |
|
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20050209 |