CN1131506C - 在语音识别过程中用于编辑短语的方法和系统 - Google Patents
在语音识别过程中用于编辑短语的方法和系统 Download PDFInfo
- Publication number
- CN1131506C CN1131506C CN97121261A CN97121261A CN1131506C CN 1131506 C CN1131506 C CN 1131506C CN 97121261 A CN97121261 A CN 97121261A CN 97121261 A CN97121261 A CN 97121261A CN 1131506 C CN1131506 C CN 1131506C
- Authority
- CN
- China
- Prior art keywords
- word
- phrase
- identification
- talker
- dictation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000008569 process Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 abstract description 27
- 238000010586 diagram Methods 0.000 description 12
- 238000003780 insertion Methods 0.000 description 12
- 230000037431 insertion Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 8
- 235000009421 Myristica fragrans Nutrition 0.000 description 5
- 239000001115 mace Substances 0.000 description 5
- 244000144730 Amygdalus persica Species 0.000 description 3
- 235000006040 Prunus persica var persica Nutrition 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001839 systemic circulation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical group [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
一种用于编辑被错误识别的单词的方法和系统。通过调整纠正窗口的大小,该系统允许讲话者规定在纠正窗口中显示的单词的数目。该系统在纠正窗口中以字母次序显示单词。当被错误识别的单词被再次说出时,该系统避免了重新讲话的发音被再次识别为同一个错误的单词的可能性。当与一个字处理器一起工作时,该系统允许讲话者规定在被转送到字处理器之前被缓存的语音的数量。
Description
本发明涉及计算机语音识别,更具体说,涉及由语音识别系统产生的听写内容的编辑。
允许讲话者有效地听写以及允许听写内容被自动的识别的计算机语音信息系统是计算机语音系统开发者长期以来研究的目标。由这种计算机语音识别(CSR)系统产生的好处是具有实质性的。例如,不是通过打字的方法将文件输入到计算机系统中,而是简单地通过念出该文件的单词,CSR系统就将会识别这些单词并将每个单词的字母存储,如同这些单词是被打字进去的一样。由于人们通常讲话比打字快,所以可以提高效率。而且,人们也无需要再去学习打字。由于人的手被除了打字以外的其他工作所占用,所以计算机可具有的许多应用,在目前来讲是不可能的。
典型的CSR系统具有一个识别部分和一个听写编辑部分。识别部分控制讲话者的一系列的发音的接收,识别每一发音,并且将每一个发音所识别的词发送到听写编辑部分。听写编辑部分显示识别的词并允许使用者纠正被误识别的词。例如,听写编辑部分允许使用者或者通过重新念这个单词或者打出正确的单词来替代一个被误识别的单词。
识别部分典形地包括字典中每个单词的发音的模型。当识别部分接收到讲话发音时,识别部分将讲话发音与词典中的每个单词的模型发音相比较以便发现与讲话发音最接近的模型发音。典形的识别部分计算每个模型发音与讲话发音匹配的可能性。这种识别部分向听写编辑部分发送一系列的与讲话发音最高可能性相匹配的单词作为识别的单词表。
听写编辑部分从具有最高可能性的识别的单词表中选择出单词作为所识别的与讲话发音相对应的单词。听写编辑部分然后显示该单词。但是如果显示的单词是讲话发音的错误识别,则听写编辑部分允许讲话者纠正错误识别的单词。当讲话者指示纠正错误识别的单词时,听写编辑部分显示一个纠正窗口,该窗口包含以上识别的单词表中的单词。当该表中的单词中的一个是正确的单词时,讲话者可以单击此单词来执行纠正。但是,如果正确的词或不在该表中,讲话者则或者重新讲话或者打出正确的单词。
一些CSR系统被用作字处理器的听写装置。这种CSR系统控制讲话发音的接收和识别并且还向字处理器发送与识别的单词相对应的每个字符。这种配置的优点是当讲话者试图纠正己讲的单词时,字处理器不对已经识别的单字表进行访问,因此不能够显示这些单词以便于纠正。
本发明提供了一种新型的和改进型的计算机语音识别(CSR)系统,这种系统具有一个识别部分和一个听写编辑部分。听写编辑部分可以用来快速纠正误识别的单词。听写编辑部分允许讲话者通过调整纠正窗口的大小来选择在纠正窗口中显示的替换单词号。听写编辑部分在纠正窗口中以字母次序显示单词,以便于找出正确的单词。根据本发明的另一方面,基于对先前的讲话发音和最新的讲话发音之间的分析,当误识别的单词或短语被讲出时,这种CSR系统消除了新的讲话发音被再次识别成与误识别的单词或短语相同的单词或短语。这种听写编辑部分也能够允许讲话者在将识别的单词转移到字处理器之前,规定在听写编辑部分中缓存的语音的数量。该听写编辑系统也可以使用一种单词纠正类比器(metaphor)或者短语纠正类比器,来改变编辑工作,这种工作通常是以字符为基础的,来将其改变成或者是以单词为基础的或者是以短语为基础的。
本发明提供一种在连续语音识别计算机系统中用于纠正被错误地识别为具有多个单词的短语的讲话发音的方法,该方法包括:从讲话者接收一个纠正错误识别的短语的指示;鉴别一个或多个可能与该讲话发音相对应的替换短语;显示鉴别的替换短语;从讲话者接收一个显示的短语的选择;利用选择的短语替换错误识别的短语;以及其中鉴别一个或多个替换短语的步骤不鉴别只与错误识别的短语相差一个单词的任何替换短语。
本发明还提供一种连续语音识别计算机系统,用于纠正具有多个单词的讲话发音,所述系统包括:被配置为显示包括错误识别的短语的多个单词的显示装置;被配置为从讲话者接受纠正错误识别的短语的指示的输入装置;被配置为鉴别可对应于该讲话发音的多个替换短语、在显示装置上显示鉴别的替换短语、从讲话者接收选择所述显示的短语以替代显示错误识别的短语的指示的听写编辑部分;并且其中听写编辑部分不鉴别可通过为错误识别的短语中的单词选择替换单词而被纠正的任何替换短语。
附图1A显示了可调整大小的纠正窗口的例子。
附图1B显示了在调整大小之后的纠正窗口的例子。
附图2A显示一个可调整的听写窗口。
附图2B显示了使用一个纠正窗口在听写窗口中纠正文本。
附图3A-B显示了用于听写编辑部分的单词/短语纠正类比器。
附图4A-C是最佳实施例的计算机系统的方框图。
附图5A是具有可调整大小的纠正窗口的听写编辑部分的流程图。
附图5B是可调整大小的纠正窗口的窗口程序的流程图。
附图6是具有可调整的听写窗口的听写编辑部分的流程图。
附图7是执行单词纠正类比器的字处理器或者听写编辑部分的窗口程序的流程图。
附图8是能从进一步的识别中消除误识别单词的CSR系统的流程图。
附图9是自动识别训练的流程图。
本发明提供的听写编辑部分允许对计算机语音识别(CSR)系统产生的听写材料进行编辑。在一个示例性的实施例中,通过调整纠正窗口的大小,这种听写编辑部分允许讲话者选择在纠正窗口中显示的替换单词的数目。这一听写编辑部分也以字母次序的顺序在纠正窗口中显示单词。当一个被错误识别的单词被再次讲出来的时候,听写编辑部分最好还能够消除这个被再次讲出的发音被再识别为同一个错误识别的单词的可能性。当将识别的单词提供一个应用程序,例如一个字处理器时,这种听写编辑部分最好能够允许讲话者规定在将识别的单词转移到应用程序之前由听写编辑部分缓存的语音的数量。下面结合一种离散的CSR系统(即,讲话者在每个单词之间有停顿)描述本发明的各个方面。但是,这些方面可以用于连续CSR系统。例如,纠正窗口可以被调整大小,以指示要被显示的替换短语的数目。而且,当讲话者选择一个要被替换的短语时,用户界面系统可以保证同一个短语不会被再次识别。
附图1A显示了一个示例性的可调整大小的纠正窗口。听写编辑部分窗口101包括识别的单词102和纠正窗口103。在这个例子中,讲话者讲出了下面的单词“I will make the cake”。识别部分将单词“make”错误地识别为单词“fake”。然后,讲话者指出单词“fake”应该被纠正。在显示纠正窗口之前,听写编辑部分确定可调整大小的纠正窗口的当前大小并且计算在纠正窗口中显示的单词的数目。然后,听写编辑部分从具有最高可能性的识别的单词(即,替换单词)中选择单词数目,并且利用标准窗口调整技术(例如利用鼠标指向窗口的边界并且拖动鼠标)在纠正窗口中显示这些单词。如果讲话者想从表中看到更多的单词,讲话者可以简单地调整纠正窗口的大小。当纠正窗口被调整大小时,听写编辑部分再次确定可以在纠正窗口中显示的单词的数目,并在纠正窗口中显示这些数目的单词。当下次讲话者要纠正一个单词时,听写编辑部分在纠正窗口中显示与上次调整大小的窗口相吻合的那些数目的单词。这样,通过简单的调整纠正窗口的大小,讲话者可以有效地选择要被显示的单词的数目。附图1B显示了在调整大小后的示例性的纠正窗口。
另外,听写编辑部分最好以字母的次序在纠正窗口中显示单词。当单词被显示时,以字母次序显示单词可以允许讲话者迅速的找到正确的单词。现有技术的听写编辑部分是根据识别部分确定的可能性为基础确定的次序在纠正窗口中显示单词的。但是,当以可能性次序显示时,除非正确的单词被显示在第一位或第二位,否则对讲话者来说很难找到正确的单词。
附图2A显示了一个用于与一个字处理器相链接的计算机语音识别系统的可调整听写窗口。计算机语音识别系统输入一系列的来自讲话者的发音,识别这些发音,并在听写窗口201中显示对这些发音识别的单词。由于听写窗口是由听写编辑部分控制的,讲话者可以在听写窗口中纠正这些单词。因此,当讲话者在听写窗口内选择纠正一个单词时,讲话者可以利用由听写编辑部分支持的任何纠正设施。例如,对于目前在听写窗口中显示的任何单词,讲话者可以利用纠正窗口显示在识别的单词表中的单词。附图2B显示了在听写窗口中使用纠正窗口纠正文本。
在一个实施例中,听写编辑部分允许讲话者调整听写窗口可以容纳的语音的数量。由于讲话者只能对听写窗口内的单词使用纠正设施,而不能对字处理器窗口内的单词使用纠正设施,讲话者可以根据讲话者的听写习惯调整听写窗口的大小以容纳语音的数量。例如,讲话者可以规定听写窗口只能容纳一个句子,一个段落,或固定数目的单词。一方面,讲话者可以利用标准的窗口调整技术调整听写窗口大小,使得听写窗口可以容纳适合于窗口的数目的单词。当听写窗口变满时,计算机语音识别系统或者将听写窗口中的所有的单词或者将部分单词发送到字处理器中。例如,如果讲话者指示听写窗口应该容纳一个句子时,那么,在任何时候一个新的句子被开始时,计算机语音识别系统将把所有的单词(也就是说一个句子)发送到字处理器中。相反,如果讲话者调整听写窗口的大小,那么计算机语音识别系统可以一次只发送一行单词到字处理器中。
附图3A显示了用于听写编辑部分的单词纠正类比器。当字处理系统处于听写模式时,听写编辑部分自动地改变各种编辑事件(例如,键盘事件,鼠标事件,笔事件,和语音事件)的定义,成为以单词为基础的,而不是以字符为基础的。例如,在听写模式中,退格键,通常只后退一个字符,被设定为一次后退一个单词。因此,当在听写模式中使用者按下退格键时,在当前插入点左侧的整个单词将被删除。类似地,当在听写模式时,左和右箭头键将使插入点向左或向右移动一个单词,并且删除键将删除插入点右侧的整个的单词。而且,当使用者单击鼠标键而且鼠标光标在一个单词之上时,听写编辑部分选择鼠标光标正处于之上的单词,而不是简单地在该单词内设置插入点。但是,如果鼠标光标处于单词之间时,则插入点被设置在单词之间。行301-304显示了单词纠正类比器的示例性效果。每一行都显示了当指示的事件发生时之前和之后的文本。例如,行302显示了如果插入点在单词“test,”之后时,左箭头事件将引起插入点被移动到单词“test.”之前。单词纠正类比器的使用方便了在听写模式状态中的单词的纠正,因为通常讲话者在纠正时希望重新讲出整个单词。因此,当讲话者单击一个单词时,整个单词被选择,并且讲话者可以讲话以便替换被选择的单词。当语音识别是连续的情况时,最好使用短语纠正类比器。因为连续语音识别不能够正确地鉴别单词之间的界限,单词纠正类比器可能会选择一个发音只代表单词的一部分或者代表多个单词的错误识别的单词。在这种情况下,最好重新讲出整个短语。结果,各种编辑事件的定义将被改变成为以短语为基础,而不是被改变成为以单词为基础的。例如,使用者说单词“backspace”的编辑事件通常是后退到前面一个字符,现在则改变为一次后退一个短语。附图3B显示了这种短语纠正类比器。
在一个实施例中,计算机语音识别系统提供了错误识别的单词删除,以防止重新发音的被再次识别为已经被纠正的同一个单词。当讲话者纠正一个错误识别的单词时,听写编辑部分作出确定。讲话者可以不同方式纠正错误识别的单词。例如,讲话者可以删除该单词,然后在该单词被删除的位置的插入点再说出该单词。另外,讲话者可以点中错误识别的单词然后讲话以便替换被点中的单词。当识别部分接收到一个重新说出的发音时,识别部分识别该发音并向听写编辑部分发送一个新识别的单词表。听写编辑部分从新识别的单词表中选择并显示出被纠正的单词以外的具有最高可能性的单词。在一个实施例中,听写编辑部分利用以前错误识别的发音的识别单词表和新识别的单词表来选择与两种发音相匹配的具有最高可能性的单词(除被纠正的单词以外)。为了计算最高可能性,听写编辑部分确定两个识别的单词表中的单词并且乘以它们的可能性。例如,下面的表中显示了示例性的识别的单词表和对应的可能性。
以前识别的单词表 | 新识别的单词表。 |
Fake .4 | Fake .4 |
Make .3 | Mace .3 |
Bake .1 | Make .2 |
Mace .1 | Bake .1 |
如果讲话者说单词“make”,则没有错误识别的单词消除,听写编辑部分二次都将选择单词“fake”,因为它在两个表中都具有最高的可能性。利用错误识别的单词消除,当单词“fake”被纠正时,听写编辑部分选择单词“mace”,因为除单词“fake”以外,单词“mace”在当前的单词表中有最高的可能性。但是,当来自两个识别的单词表中的可能性被结合在一起时,听写编辑部分选择单词“make”作为正确的单词,因为它具有最高的结合的可能性。单词“make”的结合的可能性为.06(.3×.2),对于单词“mace为.03(.1×.3),对于单词“bake”,为.01(.1×.1)。
计算机语音识别系统也自动向其单词表中添加单词并且自动进行训练。当使用者通过打正确的单词来纠正一个错误识别的单词时,听写编辑部分确定被打的单词是否在单词表中。如果被打单词不在单词表中,则听写编辑部分指示识别部分利用被错误识别的讲话发音来训练该单词的模型来将其加入到单词表中。但是,如果被打的单词在单词表中,则听写编辑部分自动指示识别部分利用被错误识别的讲话发音训练这个被打的单词。
当与连续听写系统使用时,除了单词纠正以外,该听写编辑部分允许短语纠正。在连续听写系统中,识别部分可能会错误地鉴别单词的界限。例如,讲话者可能会说短语“I want to recognize speech.”。识别部分可能会将该短语识别为“I want to wreck a nice beach.”。但是,单个单词纠正的使用不能给讲话者提供一个友好的方式纠正这种错误识别。如果讲话者期望看到单词“beach”的替换的单词,在纠正窗口中可显示“peach”,“teach”,和“speech”。如果讲话者希望看到单词“nice”的替换单词,“ice”和“rice”可被显示,而对单词“wreck”,单词“heck”和单词“rack”可被显示。这种单个单词纠正不能够鉴别单词“recognize speech”。
这种听写编辑部分允许短语纠正,使得因为错误的单词边界引起的错误识别可以被有效地纠正。当讲话者选择一个要纠正的短语时,听写编辑部分选择并且显示一列替换的短语。例如,如果讲话者选择“wreck a nicebeach”,替换的短语可能是“wreck a nice peach”,“rack an ice leach”和“recognize speech”。而且,如果讲话者选择“wreck a nice”,替换的短语可以是“rack on ice”和“recognize”。
此外,当使用者选择一个要纠正的错误识别的短语时,听写编辑部分假定当前的短语与错误识别的短语的差别大于一个单词。如果在错误识别的短语中只有一个单词是不正确的,那么讲话者将可以简单地只选择错误识别的单词而不是整个错误识别的短语。利用这种假定,听写编辑部分不显示只与错误识别的短语有一个单词不同的替换短语。继续讲述前面的例子,如果讲话者选择“wreck a nice beach”,则只有替换短语“rack anice leach”和“recognize speech”将被显示。由于替换短语“wreck anice peach”只有一个单词不同,它不被显示。此外,在一个实施例中,听写编辑部分假定讲话者选择一个要纠正的短语时,错误识别是由于不正确的鉴别单词界限造成的。具体说,如果短语能够通过选择一个显示的替换单词来纠正,讲话者则将选择这些替换的单词。结果,听写编辑部分将不显示可以从替换表中纠正具体的单词来纠正的任何替换短语。例如,如果单词“rack”,“an”,“ice”,和“leach”是对应的错误识别的单词的替换单词的话,听写编辑部分将不显示短语“rack an iceleach”。
附图4A是最佳实施例的计算机系统的方框图。计算机系统400包括一个存储器401,中央处理单元402,输出输入接口单元403,存储装置404,显示装置405,键盘406,鼠标407,以及麦克风408。存储器包括一个计算机语音识别系统,该系统包括一个模型部分408,一个识别部分409,一个听写编辑部分410并且包含一个应用程序411。模型部分包括单词表中的各种单词的模型发音。识别部分接收讲话发音并访问模型部分以便产生识别的单词表。听写编辑部分接受识别的单词表,并显示识别的单词。识别部分,听写编辑部分,应用程序可以各种方式互联。附图4B-4C是显示识别部分,听写编辑部分,和应用程序之间各种互连的方框图。在附图4B中,识别部分与听写编辑部分的编程接口(API)相连,它反过来与应用程序的编程接口API相连。在附图4C中,识别部分与听写编辑部分和应用程序提供的应用程序编程接口API相连。另外,应用程序也可以与识别部分和听写编辑部分提供的API相连。
附图5A是具有可调整大小的纠正窗口的计算机语音识别系统的流程图。通过调整纠正窗口的大小,讲话者可以从识别的单词表中指示应该被显示的单词的数目。在步骤5A01-5A10中,计算机语音识别系统接收单词的发音,显示识别的单词,允许讲话者纠正该单词并且循环进行。在步骤5A01中,如果讲话者继续进行听写,则系统在步骤5A02继续,否则听写完成。在步骤5A02中,系统输入来自讲话者的下一个发音。在步骤5A03,系统使得识别部分识别所发出的发音。识别部分给出具有在单词表中对应于讲话发音的每个单词的多大可能性的识别的单词表。在步骤5A04,系统选择并且显示在识别的单词表中的具有最高可能性的单词。在步骤5A05-5A10中,系统循环允许讲话者纠正被显示的单词。在步骤5A05中,如果讲话者要纠正被显示的单词,则系统在步骤5A06继续,否则系统返回到步骤5A01继续进行听写。在步骤5A06,系统确定纠正窗口的当前大小。在步骤5A07,系统根据窗口当前的大小确定可以适合纠正窗口的单词的个数。在步骤5A08,系统从识别的单词表中选择具有最高可能性的单词并在纠正窗口中显示这些单词。在一个实施例中,系统在显示这些单词之前按字母次序对这些选择的单词排队。在步骤5A09中,系统接受来自讲话者的正确的单词。在步骤5A10,系统利用正确的单词替换被显示单词并返回到步骤5A05。
附图5B是用于纠正窗口的窗口程序的流程图。窗口程序接受并且控制指向纠正窗口的所有的事件(即,消息)的处理。在步骤5B01中,如果接收的消息指示窗口正在被调整大小,则程序在步骤5B02继续,否则程序继续进行其他消息的正常处理。在步骤5B02,程序存储纠正窗口的新的大小。此外,程序可以指示,计算机语音识别系统应该重新计算适合于纠正窗口的单词的数目,再次显示具有这些数目的单词的纠正窗口。
附图6是计算机语音识别系统的可调节的听写窗口处理的流程图。可调节的听写窗口允许讲话者规定听写窗口可以容纳的语音的数量。讲话者然后可以使用听写编辑部分的纠正设施纠正上次讲话的语音的数量。在步骤601,系统显示听写窗口。在步骤602-609,系统循环处理每个语音单元(例如,一句或一段),当一个单元被说出时,将该单元送到一个应用程序。当听写窗口被调整大小时,语音单元也可以是一行单词。在步骤602,如果接收到语音单元的结尾,那么系统在步骤610继续,否则系统在步骤603继续。在步骤610,系统向应用程序发送语音单元并在步骤603继续。在步骤603,讲话者指示听写完成,然后系统结束,否则系统在步骤604继续。在步骤604,系统输入来自讲话者的讲话发音。在步骤605,系统使得识别部分识别讲话发音并给出识别的单词表。在步骤606,系统保存识别的单词表并供以后纠正使用。在步骤607,系统选择并显示识别的单词表中的具有最高可能性的单词。在步骤608,如果讲话者指示进入纠正模式,则系统在步骤609继续,否则系统返回到步骤602确定是否语音单元的结尾已经到达。在步骤609,系统允许讲话者纠正听写窗口内的任何单词。当讲话者请求时,系统显示具有保存的识别单词表中的单词纠正窗口。然后系统返回到步骤602输入下一个发音。
附图7是实现单词纠正类比器的应用程序或者听写编辑部分的窗口程序的流程图。当在听写模式时,该部分改变编辑习惯成为以单词为基础,而不是以字符为基础。在步骤701-705,程序确定指哪一种消息被接收到。在步骤701,如果一个听写启动消息被接收到,程序在步骤701A继续,否则程序在步骤702继续。在步骤701A,程序将模式设定为听写模式并且返回。在步骤702,如果消息是听写不能执行消息,则程序在步骤702A继续,否则程序在步骤703继续。在步骤702A,程序将模式设定为数据输入是通过键盘而不是通过听写并且返回。在步骤703,如果消息是接收字符消息,则程序在步骤703A继续,否则,程序在步骤704继续。在步骤703A,程序显示接收的字符。字符可以或者通过键盘输入或者作为识别的单词字符中的一个被接收到。在步骤704,如果消息是退格消息,则程序在步骤704A继续,否则,步骤在705继续。在步骤704A,如果当前模式是听写模式,则程序在步骤704C继续,否则程序在步骤704B继续。在步骤704C,程序从当前的插入点后退一个单词。后退一个单词删除了插入点左侧的单词并且返回。在步骤704B,程序执行正常的一个字符的后退并且返回。在步骤705,如果消息为鼠标单击消息,则在程序在步骤705A继续,否则程序继续进行正常的处理。在步骤705A,如果当前模式为听写,则程序在步骤705C继续,否则,在步骤705B继续。在步骤705C,如果是在一个单词内单击,则程序选择整个单词。否则,程序在单词之间设置插入点并返回。在步骤705B,程序正常地设置插入点并返回。
附图8是从进一步的识别当中消除了错误识别的单词的听写编辑部分的流程图。当讲话者讲话纠正一个错误识别的单词时,听写编辑部分进行检测并防止被错误识别的单词被再次识别为重新讲话的发音。在步骤801,如果听写完成,则该部分结束,否则该部分在步骤803继续。在步骤803,听写编辑部分从听写部分接收一个识别的单词表。在步骤804,如果重新讲话的发音的目的是用于纠正一个错误识别的单词,则该部分在步骤805继续,否则该部分在步骤806继续。在步骤805,该部分选择除从识别的单词表中被纠正单词以外的一个单词并且在步骤807继续。在步骤806,该部分从识别的单词表中选择最有可能性的单词。在步骤807,该部分显示选择的单词。在步骤808,如果讲话者指示进入纠正模式,则该部分在步骤809继续,否则该部分返回到步骤801输入另一个发音。在步骤809,该部分接收用于一个显示的单词的纠正。在步骤810,如果纠正是通过键盘输入的,则该部分在步骤811继续,否则该部分返回到步骤801选择下一个输入的发音。在步骤811,如果所打的词已经在单词表中,则该部分在步骤813继续,否则该部分在步骤812继续。在步骤812,该部分将所打的单词加到单词表中。在步骤813,该部分针对打入的单词训练识别系统并返回到步骤801输入下一个发音。
附图9是自动训练识别程序的听写编辑部分的流程图。听写编辑部分收集被错误识别的发音以及正确的单词和短语。听写编辑部分然后指示识别部分训练识别程序,将错误识别的发音识别成为正确的单词和者短语。这种训练可以在每当错误识别的发音被纠正时进行或者将信息存储起来在以后进行训练。在步骤901-903,该部分收集错误识别的发音以及正确的单词和短语。这种信息可以在该部分检测到讲话者已经纠正了一个单词或者短语时被收集。在步骤903,该部分确定是否识别器应该被训练。这种训练可以在计算机系统空闲时进行或者当识别准确率不能接受时进行。在步骤904,该部分针对收集的发音训练识别器。
尽管本发明是针对最佳实施例进行描述的,但是本发明并不限于该实施例。在本发明精神范围之内的各种修改对于本领域的技术人员来说将是显而易见的。本发明的范围将由后面的权利要求书所限定。
Claims (5)
1.一种在连续语音识别计算机系统中用于纠正被错误地识别为具有多个单词的短语的讲话发音的方法,该方法包括:
从讲话者接收一个纠正错误识别的短语的指示;
鉴别一个或多个可能与该讲话发音相对应的替换短语;
显示鉴别的替换短语;
从讲话者接收一个显示的短语的选择;
利用选择的短语替换错误识别的短语;以及
其中鉴别一个或多个替换短语的步骤不鉴别只与错误识别的短语相差一个单词的任何替换短语。
2.根据权利要求1的方法,其中鉴别一个或多个替换短语的步骤不鉴别可通过为错误识别的短语中的每个单词选择替换的单词而被纠正的任何替换短语。
3.一种连续语音识别计算机系统,用于纠正具有多个单词的讲话发音,所述系统包括:
被配置为显示包括错误识别的短语的多个单词的显示装置;
被配置为从讲话者接受纠正错误识别的短语的指示的输入装置;
被配置为鉴别可对应于该讲话发音的多个替换短语、在显示装置上显示鉴别的替换短语、从讲话者接收选择所述显示的短语以替代显示错误识别的短语的指示的听写编辑部分;并且
其中听写编辑部分不鉴别可通过为错误识别的短语中的单词选择替换单词而被纠正的任何替换短语。
4.根据权利要求3的连续语音识别计算机系统,其中听写编辑部分还被配置为不鉴别可通过选择错误识别的短语中的替换单词而被纠正的任何替换短语。
5.根据权利要求3的连续语音识别计算系统,其中听写编辑部分还被配置为不鉴别任何这样的替换短语,即所述短语带有的单词与讲话发音的各部分之间的对应关系跟与被错误识别的短语的单词之间的对应关系大体相同。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/741,691 US5884258A (en) | 1996-10-31 | 1996-10-31 | Method and system for editing phrases during continuous speech recognition |
US741691 | 1996-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1181573A CN1181573A (zh) | 1998-05-13 |
CN1131506C true CN1131506C (zh) | 2003-12-17 |
Family
ID=24981767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN97121261A Expired - Lifetime CN1131506C (zh) | 1996-10-31 | 1997-10-31 | 在语音识别过程中用于编辑短语的方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5884258A (zh) |
EP (1) | EP0840288B1 (zh) |
JP (1) | JP3477052B2 (zh) |
CN (1) | CN1131506C (zh) |
DE (1) | DE69725091T2 (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195637B1 (en) * | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
DE19821422A1 (de) * | 1998-05-13 | 1999-11-18 | Philips Patentverwaltung | Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern |
US6457031B1 (en) * | 1998-09-02 | 2002-09-24 | International Business Machines Corp. | Method of marking previously dictated text for deferred correction in a speech recognition proofreader |
US6321197B1 (en) * | 1999-01-22 | 2001-11-20 | Motorola, Inc. | Communication device and method for endpointing speech utterances |
US6253177B1 (en) * | 1999-03-08 | 2001-06-26 | International Business Machines Corp. | Method and system for automatically determining whether to update a language model based upon user amendments to dictated text |
US6611802B2 (en) | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
DE60022976T2 (de) * | 1999-07-08 | 2006-07-06 | Koninklijke Philips Electronics N.V. | Spracherkennungseinrichtung mit transfermitteln |
US6418410B1 (en) * | 1999-09-27 | 2002-07-09 | International Business Machines Corporation | Smart correction of dictated speech |
WO2002021510A1 (en) * | 2000-09-08 | 2002-03-14 | Koninklijke Philips Electronics N.V. | Speech recognition method with a replace command |
US6728676B1 (en) * | 2000-10-19 | 2004-04-27 | International Business Machines Corporation | Using speech recognition to improve efficiency of an inventory task |
US7809574B2 (en) * | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
US7444286B2 (en) * | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7286993B2 (en) * | 2002-01-31 | 2007-10-23 | Product Discovery, Inc. | Holographic speech translation system and method |
KR100668297B1 (ko) * | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
US7263483B2 (en) * | 2003-04-28 | 2007-08-28 | Dictaphone Corporation | USB dictation device |
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US20080114597A1 (en) * | 2006-11-14 | 2008-05-15 | Evgeny Karpov | Method and apparatus |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US9318110B2 (en) * | 2011-09-09 | 2016-04-19 | Roe Mobile Development Llc | Audio transcription generator and editor |
US9460067B2 (en) * | 2013-10-30 | 2016-10-04 | Lenovo (Singapore) Pte. Ltd. | Automatic sentence punctuation |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
CN106340293B (zh) * | 2015-07-06 | 2019-11-29 | 无锡天脉聚源传媒科技有限公司 | 一种音频数据识别结果的调整方法及装置 |
JP6922920B2 (ja) * | 2016-08-26 | 2021-08-18 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
US10360915B2 (en) * | 2017-04-28 | 2019-07-23 | Cloud Court, Inc. | System and method for automated legal proceeding assistant |
US11597519B2 (en) | 2017-10-17 | 2023-03-07 | The Boeing Company | Artificially intelligent flight crew systems and methods |
US11488602B2 (en) | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US10467335B2 (en) | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US11689379B2 (en) | 2019-06-24 | 2023-06-27 | Dropbox, Inc. | Generating customized meeting insights based on user interactions and meeting media |
US11404049B2 (en) * | 2019-12-09 | 2022-08-02 | Microsoft Technology Licensing, Llc | Interactive augmentation and integration of real-time speech-to-text |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4566065A (en) * | 1983-04-22 | 1986-01-21 | Kalman Toth | Computer aided stenographic system |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4914704A (en) * | 1984-10-30 | 1990-04-03 | International Business Machines Corporation | Text editor for speech input |
US4799262A (en) * | 1985-06-27 | 1989-01-17 | Kurzweil Applied Intelligence, Inc. | Speech recognition |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPH06103457B2 (ja) * | 1985-12-27 | 1994-12-14 | 株式会社日立製作所 | 音声タイプライタ |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
US4882757A (en) * | 1986-04-25 | 1989-11-21 | Texas Instruments Incorporated | Speech recognition system |
GB8610809D0 (en) * | 1986-05-02 | 1986-06-11 | Smiths Industries Plc | Speech recognition apparatus |
WO1987007749A1 (en) * | 1986-06-02 | 1987-12-17 | Motorola, Inc. | Continuous speech recognition system |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
JPH0766275B2 (ja) * | 1988-01-26 | 1995-07-19 | 株式会社東芝 | 入力装置 |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JPH03147052A (ja) * | 1989-11-01 | 1991-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声日本語入力方式 |
JPH03148750A (ja) * | 1989-11-06 | 1991-06-25 | Fujitsu Ltd | 音声ワープロ |
US5604897A (en) * | 1990-05-18 | 1997-02-18 | Microsoft Corporation | Method and system for correcting the spelling of misspelled words |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5248707A (en) * | 1990-08-02 | 1993-09-28 | Borden, Inc. | Accelerators for refractory magnesia |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
US5425128A (en) * | 1992-05-29 | 1995-06-13 | Sunquest Information Systems, Inc. | Automatic management system for speech recognition processes |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
JP3285954B2 (ja) * | 1992-09-25 | 2002-05-27 | 株式会社東芝 | 音声認識装置 |
US5367453A (en) * | 1993-08-02 | 1994-11-22 | Apple Computer, Inc. | Method and apparatus for correcting words |
US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
US5487143A (en) * | 1994-04-06 | 1996-01-23 | Altera Corporation | Computer user interface having tiled and overlapped window areas |
US5651096A (en) * | 1995-03-14 | 1997-07-22 | Apple Computer, Inc. | Merging of language models from two or more application programs for a speech recognition system |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
-
1996
- 1996-10-31 US US08/741,691 patent/US5884258A/en not_active Expired - Lifetime
-
1997
- 1997-10-22 DE DE69725091T patent/DE69725091T2/de not_active Expired - Lifetime
- 1997-10-22 EP EP97118374A patent/EP0840288B1/en not_active Expired - Lifetime
- 1997-10-30 JP JP29894797A patent/JP3477052B2/ja not_active Expired - Fee Related
- 1997-10-31 CN CN97121261A patent/CN1131506C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5884258A (en) | 1999-03-16 |
JPH10133685A (ja) | 1998-05-22 |
JP3477052B2 (ja) | 2003-12-10 |
CN1181573A (zh) | 1998-05-13 |
EP0840288B1 (en) | 2003-09-24 |
EP0840288A2 (en) | 1998-05-06 |
EP0840288A3 (en) | 1999-04-28 |
DE69725091T2 (de) | 2004-04-01 |
DE69725091D1 (de) | 2003-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1122967C (zh) | 在语音识别过程中用于选择替换词的方法和系统 | |
CN1131506C (zh) | 在语音识别过程中用于编辑短语的方法和系统 | |
CN1188826C (zh) | 在语音识别过程中用于显示可变数目的替换单词的方法和系统 | |
CN1183608A (zh) | 在语音识别过程中用于缓存识别的单词的方法和系统 | |
EP0376501B1 (en) | Speech recognition system | |
US6912498B2 (en) | Error correction in speech recognition by correcting text around selected area | |
EP0867857B1 (en) | Enrolment in speech recognition | |
EP0773532B1 (en) | Continuous speech recognition | |
US4866778A (en) | Interactive speech recognition apparatus | |
US7676373B2 (en) | Displaying text of speech in synchronization with the speech | |
US6735565B2 (en) | Select a recognition error by comparing the phonetic | |
WO2002035519A1 (en) | Speech recognition using word-in-phrase command | |
CN1181574A (zh) | 在语音识别过程中用于选择识别的单词的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150422 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150422 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington, USA Patentee before: Microsoft Corp. |
|
CX01 | Expiry of patent term |
Granted publication date: 20031217 |
|
CX01 | Expiry of patent term |