CN1280782C - 给用户提供声音反馈的可扩展语音识别系统 - Google Patents
给用户提供声音反馈的可扩展语音识别系统 Download PDFInfo
- Publication number
- CN1280782C CN1280782C CN200410087906.8A CN200410087906A CN1280782C CN 1280782 C CN1280782 C CN 1280782C CN 200410087906 A CN200410087906 A CN 200410087906A CN 1280782 C CN1280782 C CN 1280782C
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- user
- entry
- speech recognition
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000008859 change Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 48
- 238000013519 translation Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000012190 activator Substances 0.000 description 5
- 230000008676 import Effects 0.000 description 5
- 230000003213 activating effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一个语音识别系统(36)时刻扩展的,新词条可以添加到由语音识别系统(36)识别的词条清单(42)。该语音识别系统(36)在新词条被添加时提供一个声音反馈以便用户能够听到系统(36)期望该单词如何发音。然后用户可以接受这个发音或者提供自己的发音。用户还可以选择地改变一些单词的发音以便避免该系统(36)的错误识别。该系统(36)可以提供适当的用户界面元素用来使得用户改变单词的发音。系统(36)还可以包括智能,用于根据经验地导出信息自动地改变在识别中使用的单词发音。
Description
技术领域
本发明通常涉及到数据处理系统,尤其是涉及到一种为用户提供声音反馈的可扩展语音识别系统。
背景技术
语音识别系统使得一个计算机系统至少能够懂得输入到计算机系统的选定的语音部分。一般来讲,语音识别系统将输入的语音解析成可读取识别的部分。例如,输入的语音能够被解析到进一步处理的一些音素以便识别该语音的内容。典型地,一些语音识别系统通过将输入语音中单词的发音与一些模式或者由语音识别系统存储的样本比较来识别输入语音中的单词。这些样本是利用单词的语音学表示以及对于音素前后-依靠的样本来产生的。许多语音识别系统包括一些语音识别系统可识别词条的特定发音的字典。
语音识别系统使用的一种场合是用在听写系统中。这些听写系统将输入的语音变换成文字。在这些听写系统中,这些语音识别系统用于确定输入语音中的单词,而这些听写系统产生对应于这些确定单词的文字类型输出。遗憾地,这些听写系统经常遇到来自某些用户输入的语音的较高等级的错误识别。使用在这种字典中的语音识别系统对于每个单词有一种或者几种发音,但是这些单词的发音都是固定的并且代表该语音识别系统期望要听到的发音。如果用户对一个单词使用一种不是该语音识别系统期望的不同发音,则该语音识别系统将经常错误地识别用户的输入。当一个词条具有多种适当的发音并且用户使用的是不能通过语音识别系统变换的发音之一时,这个缺点特别使用户懊恼。
这种听写系统的另一种局限是或者它们不能够扩展(即,用户不可以添加一个新的词条到字典中)或者它们允许一些新词条的添加但是不允许用户开发发音而产生新词条本身的发音。这样的系统能够利用字母-到-声音启发式方法猜测新添加词条的发音。遗憾的是,这种启发式方法在许多例子中没有产生正确结果。通常,当一个用户添加一个新单词到一个听写系统中使用的扩充字典时,用户仅仅输入了一个新单词而没有提供一个发音,但该语音识别系统产生了一个新词条的发音。这个新发音可能是不正确的或者可能与用户期望的单词发音不对应。结果,相对于用户添加词条或者包括新添词条的语音输入,经常存在较高的错误识别。
发明内容
本发明克服了上面所描述已有技术的局限性。根据本发明的第一方面,一种方法由识别自讲话者输入的语音的计算机-执行的语音识别系统来实施。根据这种方法,一种文字-到-语音的结构被提供用于创建一个文字的口语译文。利用这种文字-到-语音的结构产生一个给定单词的口语译文,并且这个给定单词口语译文在声音设备上输出以便语音识别系统的用户知道该语音识别系统期望一个给定单词将如何发音。该文字-到-语音的结构产生符合语音识别系统期望听到给定单词发音的一个给定单词的发音。特别是,文字-到-语音的结构与给定语音识别系统共享相同字母-到-声音的元素,以至于由该文字-到-语音的结构产生的给定单词口语译文与语音识别系统期望听到的发音是完全相同的。
根据本发明的另一方面,这里提供由听写系统识别的一些单词的发音清单。接受来自用户要将存储在列表清单中选定单词的现行发音改变成一个新发音的请求。响应该请求存储在列表清单中选定单词的发音变换成新的发音。
根据本发明的又一个方面,由计算机-执行的语音识别系统实现了一种方法。提供一个语音识别系统识别词条的字典,并且该字典确定语音识别系统期望的每个词条如何发音。接受来自用户要添加一个新词条到字典中的请求并且该新词条的发音由语音识别系统产生。利用文字-到-语音的结构(用语音识别系统对信词条期望的发音作为输入),新词条的发音在一个声音输出设备上输出,并且该新的词条如产生的发音一样被添加到字典中。
再根据本发明的另一方面,对于一个选定单词的多种发音保存在一个语音识别系统的字典中。对于选定词条的每个发音在声音输出设备上输出以便用户能够听到该发音。对应于用户选定的一种发音,该选定的发音由语音识别系统利用去识别语音。
根据本发明的另一个方面,提供一个对每个词条具有发音的一些词条的字典。这些发音与语音识别系统所期望这些词条将被如何发音相对应。在讲话者读出词条之一以便语音识别系统识别该选定词条的一些例子中,用户所用选定词条的特定发音被确定。根据这种重复确定,该系统识别用户最有可能使用的被选定单词的可替换的发音,并且更新该字典以便指定这个发音为语音识别系统期望的发音。
再根据本发明的一方面,接受来自一个讲话者的已经给出发音词条的口语译文。提供一个对于该词条的期望发音。这个期望的发音对应于语音识别系统期望讲话者如何读出该词条。将该词条的口语译文的给定发音与期望发音比较以便确定差别的等级。在差别等级超过可接受预定阈值的地方,在输出设备上产生的输出通知讲话者该差别等级超过了阈值。这个输出还可以包括文字-到-语音结构产生词条的期望发音。
根据本发明的一个附加方面,一个计算机-执行的语音识别系统识别来自一个讲话者的口语语音。为一个给定单词提供一个期望的发音。该期望的发音构成语音识别系统期望的一个给定词将如何由讲话者发音。统计是根据作为讲话者的口语的给定单词由语音识别系统错误识别频率进行收集的。在统计显示出给定单词被较经常的错误识别超过一个阈值的情况下,显示设备上产生的输出促使用户去纠正给定单词的期望发音。
附图说明
将参照下面附图对本发明的一个最佳实施例进行更详细地描述。
图1是一个适合实现本发明最佳实施例的计算机系统的方框图。
图2是一个图解说明语音识别系统的部件的方框图。
图3是一个图解说明字典部分例子的视图。
图4是一个图解说明实现的步骤以便使用户改变字典中一个词条发音的流程图。
图5A-5D描述提供给用户来变换字典的词条发音的用户界面元素。
图6是说明添加一个新的词条到该字典中的实现步骤的流程。
图7A-7D图解说明提供给用户来添加一个具有给定发音的新词条到字典中的用户界面元素。
图8是一个图解说明没有交互的用户输入的替换存储在字典中的发音的步骤的流程。
具体实施方式
本发明最佳实施例为用户提供一种具有声音反馈的可扩展式的语音识别系统,因此,当一个用户寻求添加一个单词或词条到由语音识别系统使用的字典中时,用户被提供由声音反馈来识别该系统如何确认该词条的发音。然后用户可以接受这个发音或者要求改变其发音。在一个替换的方法中,用户利用拼读该单词如何发音来确认其发音。在另一个替换的方法中,该系统提供给用户该单词可替换的发音的清单并且用户来选择该单词。
本发明最佳实施例能使一个用户改变目前在字典中的任何单词的发音。此外,本发明最佳实施例使一个用户能够听到在字典中当前指定的一个单词的发音。该用户可以听到发音,然后如果需要的话可以改变该发音到一个可替换的发音。结果,用户大大地增强该语音识别系统实现的词条识别的水平。
在另一种可替换方法中,该语音识别系统所用的字典自动和明显地由该系统来更新。该系统处理一组发音数据以便在字典内为这些词条获得可替换的发音。当用户读出一个词条并且该词条被正确地识别出时,系统识别该用户所读词条的那个替换发音。在一个固定数量的正确识别和比较之后,系统获得一个用户正在读出的发音中的信任等级而改变该词典(包括以系统的方式将在观察的入口中的变化向其他没有观察的入口中传播)以使用其发音以至于增强本系统实现的识别等级。
下面将对应一个听写系统描述本发明最佳实施例。在该听写系统中,用户的讲话进入一语音输入装置,如一个话筒,以便输入所讲的文字。该听写系统识别其讲话内容,并且生成一个相应的文字作为一个文件的一部分。那些技术上熟知的人们将认识到本发明还能够实际地交流而不只是一个听写系统。本发明通常更多地应用于语音识别系统。
图1是一个适合于实现本发明最佳实施例的计算机系统10的方框图。该计算机系统10包括一个能够访问主存贮器14和第二存贮器16的中央处理单元(CPU)12。第二存储器16可以包括一些可移动的媒体驱动器,如CD-ROM驱动器,它们能够读取存贮在一种计算机可读媒体(即CD-ROM)的信息。该计算机系统10包括一些外设。这些外设可以包括,例如,一个键盘18,一个鼠标20,一个视频显示器22,一个扬声器24,以及一个语音话筒26。该计算机系统可以附加地包括一个调制解调器28,一个声卡29和一个能够使计算机系统与网络32接口的网络适配器30。存贮器14为该听写系统34保存程序指令和数据。这些指令只在CPU12上运行以实现本发明最佳实施例。该听写系统34可以使用应用程序35,如字处理程序和信息程序。该听写系统包括一个语音识别系统36。
那些技术上熟练的人们将认识到图1中所描述的计算机系统结构仅仅是为了解释说明而本发明没有限制。本发明还可以用另一种替换的计算机系统结构来实现,其包括多处理器系统和分布系统。为了下面讨论方便,假设本发明最佳实施例实现的步骤是在听写系统34或语音辊系统36的方向上。
一个适当的实现本发明最佳实施例的语音识别系统描述在标题为“采用连续密度隐藏马尔可夫模式用于语音识别的方法和系统”的专利申请中,申请号为No.08/655,273,其是在1996年5月1日申请的,它与本发明的申请指定给一个共同的受让人。图2描述对本发明最佳实施例的讨论特别感兴趣的话音识别系统36的元件。语音识别系统36包括一个利用字典42和字母-到-声音规则46的语音识别引擎40。该字典保存由语音识别引擎40来识别的词条清单和相关发音。图3描述字典42的一部分的一个例子。字典42中每个入口包括一个用于识别相关词条的字段50以及一个用于确定词条发音的字段52。图3显示对于词条“添加”的一个入口的例子。该词条的识别保存在字段54中而该词条的发音保存在字段56中。该字段的发音依靠音素系统来确定。
语音识别系统36还可以包括一个用于将文字变化成口语输出的文字-到-语音引擎44。文字-到-语音引擎44具有访问字典42和变换文字字符到相应声音的字符-到-声音的规则46的能力。文字-到-语音引擎44首先利用字典42定位发音,然后当要处理的字在字典中没有时再利用字符-到-语音规则46分类。那些技术上熟练的人将知道文字-到-语音引擎44不必是语音识别系统的一部分,而可以是一个分开的语音合成单元的一部分。然而,为了下面描述方便,假设文字-到-语音引擎44是语音识别系统36的一部分。一个适当的实现本发明最佳实施例的语音识别系统描述在标题为“对于语音合成运行时间声学单位选择的方法和系统”的相关专利申请中,申请号为No.08/648,808,其是在1996年4月30日申请的,它与本发明的申请指定给一个共同的受让人。那些技术上熟知的人还将认识到这种语音识别引擎40和文字-到-语音引擎可以有他们自己的字典与字母-到-声音的规则。
图4是一个流程图,它说明由该语音识别系统36实现使一个用户能改变存贮在字典42中词条的发音的步骤。首先,用户需要听一个给定单词的发音(图4中的步骤60)。然后用户识别希望要听发音的词条(图4中步骤62)。图5A显示一个用户界面元素78的例子,该界面部件是在用户做出要听单词发音的请求时显示的。用户界面元素78包括一个对发声单词的可替换的清单80。在图5A显示的例子中,单词是按字母来安排的。用户可以通过移动清单选择所希望的单词。在图5A描述的例子中用户已经选择出现在选择框82“orange”的单词。然后用户通过激活按钮84听所选词的发音(图4中步骤64)。一种用于激活按钮84合适方法是定位一个鼠标光标在按钮84上并且当鼠标光标定位在按钮84上时单击一下鼠标按钮。
用户听到该单词的发音然后做出判断该发音是否正确。输出的发音是由语音识别系统36使用的缺省发音。如果用户接受这个发音(参看图4中步骤66),用户可以激活“OK”按钮。另一方面,如果用户不喜欢用这个发音(看图4中步骤66),用户可以激活“改变”按钮87。在这种方式中,用户请求所选词条发音的改变(图4中步骤68)。
然后用户确定所选词条的新发音(图4中步骤68)。图5B显示由系统为该词条提供的多个可替换发音的第一替换入口,而用户选择这些发音中的一个。尤其是,如图5B中所示,一个用户界面元素88提供给用户,即要求从清单90所列的发音中选择一个发音。用户可以通过激活“取消”按钮来取消改变发音的处理或者也可以选择清单90中发音之一并且单击“OK”按钮92以接受该选中的发音做为此词条的一个新的缺省发音。
那些技术上熟知的人认识到这可能是一些产生词条可替换发音的多种方法。系统可以处理语言资料库以便为每个存贮在字典中词条产生多种发音。该系统可以为每个采用不同发音的词条提供多种样板。再者,这些多种发音可以从用户已经输入到语音识别系统36中的不同发音经验地推导出来。
第二种可替换描绘在图5C中。在这个第二可替换中,系统不提供可替换的发音;而用户要输入一个替换的发音。一个如图5C中描述的用户界面元素96被显示,而用户在文字框内拼读出新的发音。用户无须为该发音输入音素而只是输入一个希望捕获单词发音的字母序列(即字符串)。例如,如果用户希望拼读出词“orange”的发音,用户可以输入字符串“ornj”。然后用户可以听到该系统是如何翻译这个通过激活按钮100而输入在文字框98中的字符串。语音识别系统36利用字母-到-声音的规则及字典处理输入在文字框98中的字符串。如果用户满意这个词条发音的输出结果,用户可以激活“OK”按钮102。如果希望不改变该发音,用户可以激活“取消”按钮104。如果用户不满意这个词条发音的输出结果但是希望试图输入另一个发音,用户在文字框98中键入替换的发音并且重复这个处理过程。
那些技术上熟知的人认识到其它的替换也可使用。例如,这些发音可以不做为可选字符串表示给用户(如在第一个可替换中),反而可以与特殊的用户界面元素有关,如一些用户可以激活按钮去听替换的发音。图5D显示一个按钮93被显示位置的例子,并且每个按钮可激活以便为一个单独的发音产生语音输出。
在用户已经确定接受新发音后(即,图4中步骤68),系统需要相应地更新字典。具体地说,系统用满足用户要求的新确定的发音代替该词条的发音(图4中步骤70)。再者,系统能够以系统的方式扩展特殊词条的变化到其它词条的变化。例如,如果一个用户发音“what”为“HH W AHT”,那么这个变化可以扩展到所有“wh”开始的词(例如,“where”和“which”)。那些技术上熟知的人们将认识到,在这些可替换的实施例中,字典可以保存多种发音以及具有一个单独发音作为缺省发音。在这种代替实施例中,发音的变化仅仅是一种由语音识别系统36所用的缺省发音中的变化。
本发明最佳实施例的语音识别系统是可扩展的,即在新词条可以加入字典中。图6是一个图解说明当用户希望添加新词条到字典中时执行步骤的流程图。首先用户请求添加一个新词条到字典中(图6中步骤110)。图7A显示一个用户界面结构的例子,该结构由听写系统34提供以便使用户添加新词条到字典42中。图7A描述利用听写系统34的应用程序的窗口26。窗口126包括一个在其上包含编辑菜单字头134的菜单框132。当用户定位鼠标光标在编辑(Edit)菜单字头134上并且按下鼠标按钮时,包括用于添加新词条到字典中的菜单项138的一个菜单136被拉出。用户可以通过定位鼠标的光标在项目138上并且释放鼠标按钮或在该项目上单击。窗口126保存文字126,该文字是通过利用语音识别系统36的听写系统34通过翻译用户经话筒26读出的输入而产生的。当时的指示位置表示在图7A中。
在用户选择一个菜单项入口138后,一个如图7B中所示的对话框140被显示出。这个对话框140要求用户输入他希望添加到字典的词条的字符。字符框142提供在对话框140内。在用户输入字符后,用户可以通过单击“OK”按钮144继续添加新词条的处理或者通过单击“取消”按纽146终止这个处理。所以,用户为该词条提供的字符被添加到字典中(图6中的步骤112)。听写系统34在语音识别系统36上传递该文字字符。语音识别系统提供该字符给字典42和字母-到-声音的规则46以便产生新词条的发音(图6中的步骤114)。然后,生成的发音通过声音扬声器24输出给用户(图6中116步骤)以至于用户能够知道语音识别系统36期望的词条要如何正确发音。然后如图7C中所示的用户界面元素150可以显示以使得用户接受或者拒绝这个发音。如图7C中所示例子,用户界面元素150询问用户是否接受该新词条的发音并且该界面包括一个用来接受发音的“是(Yes)”按钮152,一个用来拒绝该发音的“否(No)”按钮154和一个用来对新词条发音产生声音输出的声音输出按钮153。通过激活这些按钮,用户接受或拒绝由字符-到-语音引擎44产生的发音(图6中步骤118)。
在用户接受该发音的时,该词条和相应的发音被添加到字典42中(图6中步骤120)。这个相应的发音将在以后的拼读词条的识别中使用。然而,如果用户不接受该发音,系统则提示该发音给用户(图6中步骤122)。语音识别系统136实现由词典42产生的发音以及用户没有接受的字符-到-声音的规则,因此,要求用户为这个单词产生一个发音的表示。语音识别系统36显示一个如图7D中描绘的对话框160以请求用户输入新词条的发音。对话框160包括一个用户可以键入新词条应如何发音的字符串的文字框162。用户输入文字到文字框162后,用户可以激活按钮164来听一下系统如果翻译输入到文字框中的文字。具体地说,系统产生的输入到文字框162中的发音表示在扬声器24输出。一旦用户已经输入一个产生可接受发音的字符串,用户可以通过激活“OK”按钮166改变这个发音。用户也可以通过激活“取消”按钮按钮168取消该发音的改变。一般来讲,系统将提示该发音给用户(步骤122),接受由用户输入的发音(步骤124)以及输出该用户已接受的发音直到用户接受最终结果的发音。代替地,系统可以将用户新加入的发音与当前的发音比较,并且如果足够接近则不再提示给用户接受或者拒绝。
该系统也可以在没有明确的用户请求下明显地更新字典42中保存的发音。这种结构可以独立于上述的用户初始逼近使用,以更新保存在字典42中的发音或者与该近似一起可以使用。初始地,该系统被提供有发音数据的语言资料库,以及该系统应用一种如分类的算法和回归树(“CART(计算机自动化评价技术)”)算法来导出相关词条的可替换的发音(图8中步骤170)。CART算法,在本技术领域上是大家非常熟悉的并且描述在包括Breiman等人出版的大量出版物中,1984年的《类骤与回归树》。那些技术上熟知的人将认识到其它启发式的研究也可以应用于导出这个发音。这个推导出的发音为以后的使用保存起来。当一个用户读出一个词条而该词条被识别时,系统将用户读出的词条与保存词条的可替换发音比较(图8中步骤172)。这个过程被重复(参考图8中返回到步骤172)执行直到系统确信其能够肯定是用户使用的可替换发音(参看图8中步骤174)。例如,在系统达到足够可信的水平之前,系统要求对于接收到的可替换发音中的一个有一定量的命中以至于确定该发音为用户所使用的发音。语音识别系统36然后改变字典42以便使用用户感兴趣的发音(即系统确定为用户所用的发音)(图8中步骤176)。
虽然本发明最佳实施例已参考最佳实施例描述了,但是那些熟知此技术的人们应认识到在形式和细节上所能够做出的各种改变并没有脱离本发明权利要求所限定的范围。
尽管本发明已该参照最佳实施例描述过,但是那些技术上熟知的人们应认识到在没有脱离本发明的精神和范围的情况下是能够做出形式或细节上的改变的。
Claims (21)
1.在一个用于将来自讲话者的语音输入变换成文字的计算机-执行的听写系统中使用的一种方法,该方法包括步骤:
为听写系统识别的单词提供一个发音清单;
提供存储在该清单中的一个被选择单词的可听的当前发音;
接受来自用户的一个请求以便将存储在所述清单中选定单词的现行发音改编成一个新的发音,所述请求指定新的发音;以及
为选定单词改变存储在清单中的发音,从现行发音改变成新的发音。
2.根据权利要求1所述的方法,其特征在于还包括提供一个用户界面的步骤,通过该界面用户做出请求以改变选定单词的现行发音。
3.根据权利要求2所述的方法,其特征在于用户界面使得一个用户用字母拼读出选定单词的新发音。
4.根据权利要求1所述的方法,所述听写系统具有一个声音输出设备,其特征在于所述方法还包括在接受请求之前输出选定单词的现行发音的步骤。
5.根据权利要求1所述的方法,其特征在于所述听写系统包括一个声音输出设备,以及接受请求步骤还包括一些步骤:
接受一个字符串,该字符串说明用户所相信的选定单词发声的新发音;
提供一个用户界面元素,用于使用户听到所述听写系统预想的所述字符串是如何发音的;
提供一个文字-到-语音引擎用于将文字变换成具有相关发音的语音;
响应使用该用户界面元素的用户,利用所述文字-到-语音引擎为字符串在声音输出设备上输出语音;以及
响应接受由所述文字-到-语音引擎为作为所述选定单词的一个正确发音的字符串所产生的语音的用户,产生一请求。
6.根据权利要求5所述的方法,其特征在于还包括为了用户提供一个附加用户界面元素以接受或者拒绝由所述文字-到-语音引擎输出的相关语音的发音的步骤。
7.在一个识别来自讲话者的语音输入以及包括一个声音输出设备的计算机-执行的语音识别系统中使用的方法,该方法包括步骤:
提供一个所述语音识别系统识别词条的字典,所述字典指定语音识别系统期望的每个词条如何发音;
接受来自用户的一个请求以添加一个新词条到所述字典中;
由所述语音识别系统为新词条产生一个发音;
在声音输出设备上为新词条输出所述发音以致用户可以监视并改变新词条的发音;以及
向字典添加所述新词条和产生的发音。
8.根据权利要求7所述的方法,其特征在于所述语音识别系统包括一个用于变换文字到语音的文字-到-语音引擎,以及所述文字-到-语音引擎用来输出所述新词条的发音。
9.根据权利要求8所述的方法,其特征在于所述文字-到-语音引擎利用字母-到-声音的规则产生所述新词条的发音。
10.根据权利要求7所述的方法,其特征在于所述方法还包括提示用户检验产生的新词条发音正确的步骤。
11.根据权利要求10所述的方法,其特征在于当用户检验产生的新词条发音不正确时,接受来自用户的一个新词条的正确发音的指定并且添加所述正确发音到字典中。
12.在一个识别来自讲话者的口语语音的计算机-执行的语音识别系统中使用的一种方法,所述系统包括一个声音输出设备和一个用于从文字产生语音的一文字-到-语音引擎,该方法包括步骤:
将选定单词的多种发音存储在由文字-到-语音引擎使用的字典中;
在声音输出设备上输出每个发音以便用户能够听到这些发音;以及
响应选定的发音中的一个的用户,使用由语音识别系统选定的发音去确认语音。
13.根据权利要求12所述的方法,其特征在于所述语音识别系统是用在一个将讲话者口语语音变换成文字的听写系统中。
14.在一个识别来自讲话者的口语语音的计算机-执行的语音识别系统中的一种方法,该方法包括步骤:
为对应于所述语音识别系统期望词条如何发音的词条提供一个具有发音的词条的字典;
进行试探以便引出所述词条的可替换的发音;
在讲话者读出词条之一以便语音识别系统识别该选定词条的多个例子中,确定用户所用选定词条的可替换发音的哪一个发音;以及
根据这个确定步骤,确定用户最可能使用的选定单词的可替换发音中的哪一个,并更新字典以便指定这个用户最可能使用的发音为语音识别系统期望的被选择词条的发音。
15.根据权利要求14所述的方法,其特征在于CART算法被应用于导出所述可替换发音。
16.在一个识别来自讲话者的口语语音的计算机-执行的语音识别系统中使用的方法,所述系统具有一个输出设备,该方法包括步骤:
从讲话者接受一个具有给定发音的词条的口语译本;
为与语音识别系统期望讲话者讲出的词条相对应的词条提供一个期望的发音;
将所述词条口语译本的给定发音与期望所述词条的发音比较,以便确定所述词条口语译本的给定发音和所述词条的期望发音之间的差别等级;以及
在差别的等级超过一个可接受的预定阈值时,在输出设备上产生输出以便通知讲话者差别等级超过阈值。
17.根据权利要求16所述的方法,其特征在于语音识别系统被用在字典系统中以便从语音生成文字。
18.根据权利要求16所述的方法,其特征在于输出装置是一音频输出装置,并且该输出是音频输出。
19.根据权利要求16所述的方法,其特征在于输出装置是一视频输出装置,并且该输出是视频输出。
20.根据权利要求16所述的方法,其特征在于系统包括文本-到-语音结构,其中文字-到-语音结构生成词条的发音版本。
21.在一个识别来自讲话者的语音输入的计算机-执行的语音识别系统中使用的一种方法,所述系统具有一个显示设备,该方法包括步骤:
提供一个给定单词的期望发音,其构成语音识别系统期望讲话者对该给定单词的发音;
搜集关于来自讲话者口语语音的给定单词被所述语音识别系统错误识别的频率的统计数;以及
在所述统计数表示给定单词被错误识别比一个阈值更频繁时,通过在显示设备上产生输出提示用户,通过一用户界面元素指示用户可以请求不同的发音,以便纠正给定单词的期望发音,由用户界面元素输出具有正确的期望的发音的给定单词的口语译本。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/833,916 | 1997-04-10 | ||
US08/833,916 US5933804A (en) | 1997-04-10 | 1997-04-10 | Extensible speech recognition system that provides a user with audio feedback |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98806081.7A Division CN1196105C (zh) | 1997-04-10 | 1998-04-08 | 给用户提供声音反馈的可扩展语音识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1604187A CN1604187A (zh) | 2005-04-06 |
CN1280782C true CN1280782C (zh) | 2006-10-18 |
Family
ID=25265611
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200410087906.8A Expired - Lifetime CN1280782C (zh) | 1997-04-10 | 1998-04-08 | 给用户提供声音反馈的可扩展语音识别系统 |
CN98806081.7A Expired - Lifetime CN1196105C (zh) | 1997-04-10 | 1998-04-08 | 给用户提供声音反馈的可扩展语音识别系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98806081.7A Expired - Lifetime CN1196105C (zh) | 1997-04-10 | 1998-04-08 | 给用户提供声音反馈的可扩展语音识别系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5933804A (zh) |
EP (2) | EP1693827B1 (zh) |
JP (1) | JP4570176B2 (zh) |
CN (2) | CN1280782C (zh) |
DE (2) | DE69842190D1 (zh) |
WO (1) | WO1998045834A1 (zh) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2219008C (en) * | 1997-10-21 | 2002-11-19 | Bell Canada | A method and apparatus for improving the utility of speech recognition |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6462616B1 (en) | 1998-09-24 | 2002-10-08 | Ericsson Inc. | Embedded phonetic support and TTS play button in a contacts database |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6324507B1 (en) | 1999-02-10 | 2001-11-27 | International Business Machines Corp. | Speech recognition enrollment for non-readers and displayless devices |
US7292980B1 (en) * | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
DE60026637T2 (de) | 1999-06-30 | 2006-10-05 | International Business Machines Corp. | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems |
EP1074973B1 (en) * | 1999-06-30 | 2006-03-15 | International Business Machines Corporation | Method of expanding a vocabulary of a speech system |
US7149690B2 (en) * | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
JP2002221980A (ja) * | 2001-01-25 | 2002-08-09 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
US7107215B2 (en) * | 2001-04-16 | 2006-09-12 | Sakhr Software Company | Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study |
DE10119677A1 (de) * | 2001-04-20 | 2002-10-24 | Philips Corp Intellectual Pty | Verfahren zum Ermitteln von Datenbankeinträgen |
US7493559B1 (en) * | 2002-01-09 | 2009-02-17 | Ricoh Co., Ltd. | System and method for direct multi-modal annotation of objects |
KR100467590B1 (ko) * | 2002-06-28 | 2005-01-24 | 삼성전자주식회사 | 발음 사전 갱신 장치 및 방법 |
DE10304229A1 (de) * | 2003-01-28 | 2004-08-05 | Deutsche Telekom Ag | Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten |
WO2005027093A1 (en) * | 2003-09-11 | 2005-03-24 | Voice Signal Technologies, Inc. | Generation of an alternative pronunciation |
US20050114131A1 (en) * | 2003-11-24 | 2005-05-26 | Kirill Stoimenov | Apparatus and method for voice-tagging lexicon |
US7340395B2 (en) * | 2004-04-23 | 2008-03-04 | Sap Aktiengesellschaft | Multiple speech recognition engines |
US20050273337A1 (en) * | 2004-06-02 | 2005-12-08 | Adoram Erell | Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
JP5040909B2 (ja) * | 2006-02-23 | 2012-10-03 | 日本電気株式会社 | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム |
US20080104537A1 (en) * | 2006-10-30 | 2008-05-01 | Sherryl Lee Lorraine Scott | Method of improved viewing of visual objects on a display, and handheld electronic device |
WO2008096310A1 (en) * | 2007-02-06 | 2008-08-14 | Nuance Communications Austria Gmbh | Method and system for creating or updating entries in a speech recognition lexicon |
US8484034B2 (en) * | 2008-03-31 | 2013-07-09 | Avaya Inc. | Arrangement for creating and using a phonetic-alphabet representation of a name of a party to a call |
US9202460B2 (en) * | 2008-05-14 | 2015-12-01 | At&T Intellectual Property I, Lp | Methods and apparatus to generate a speech recognition library |
US9077933B2 (en) | 2008-05-14 | 2015-07-07 | At&T Intellectual Property I, L.P. | Methods and apparatus to generate relevance rankings for use by a program selector of a media presentation system |
US8160881B2 (en) * | 2008-12-15 | 2012-04-17 | Microsoft Corporation | Human-assisted pronunciation generation |
JP5334178B2 (ja) * | 2009-01-21 | 2013-11-06 | クラリオン株式会社 | 音声認識装置およびデータ更新方法 |
CN101739459A (zh) * | 2009-12-21 | 2010-06-16 | 中兴通讯股份有限公司 | 一种移动终端的词库添加方法和移动终端 |
US9640175B2 (en) | 2011-10-07 | 2017-05-02 | Microsoft Technology Licensing, Llc | Pronunciation learning from user correction |
KR101179915B1 (ko) | 2011-12-29 | 2012-09-06 | 주식회사 예스피치 | 통계적 언어 모델이 적용된 음성인식 시스템의 발화 데이터 정제 장치 및 방법 |
US9721587B2 (en) * | 2013-01-24 | 2017-08-01 | Microsoft Technology Licensing, Llc | Visual feedback for speech recognition system |
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
US20150310851A1 (en) * | 2014-04-24 | 2015-10-29 | Ford Global Technologies, Llc | Method and Apparatus for Extra-Vehicular Voice Recognition Training Including Vehicular Updating |
US9613140B2 (en) * | 2014-05-16 | 2017-04-04 | International Business Machines Corporation | Real-time audio dictionary updating system |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
CN104598791A (zh) * | 2014-11-29 | 2015-05-06 | 深圳市金立通信设备有限公司 | 一种语音解锁方法 |
CN104505089B (zh) * | 2014-12-17 | 2018-05-18 | 福建网龙计算机网络信息技术有限公司 | 口语纠错方法及设备 |
US9787819B2 (en) * | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
US10706210B2 (en) * | 2016-08-31 | 2020-07-07 | Nuance Communications, Inc. | User interface for dictation application employing automatic speech recognition |
US11170757B2 (en) * | 2016-09-30 | 2021-11-09 | T-Mobile Usa, Inc. | Systems and methods for improved call handling |
CN109635096B (zh) * | 2018-12-20 | 2020-12-25 | 广东小天才科技有限公司 | 一种听写提示方法及电子设备 |
CN111081084B (zh) * | 2019-07-11 | 2021-11-26 | 广东小天才科技有限公司 | 一种听写内容的播报方法及电子设备 |
US11676572B2 (en) * | 2021-03-03 | 2023-06-13 | Google Llc | Instantaneous learning in text-to-speech during dialog |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4516260A (en) * | 1978-04-28 | 1985-05-07 | Texas Instruments Incorporated | Electronic learning aid or game having synthesized speech |
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
US4749353A (en) * | 1982-05-13 | 1988-06-07 | Texas Instruments Incorporated | Talking electronic learning aid for improvement of spelling with operator-controlled word list |
JPS6221199A (ja) * | 1985-07-22 | 1987-01-29 | 株式会社東芝 | 音声認識装置 |
JPS6287994A (ja) * | 1985-10-14 | 1987-04-22 | 株式会社リコー | 音声認識辞書更新方式 |
JPS63281196A (ja) * | 1987-05-14 | 1988-11-17 | 沖電気工業株式会社 | 音声認識装置 |
GB8817705D0 (en) * | 1988-07-25 | 1988-09-01 | British Telecomm | Optical communications system |
JPH0778183A (ja) * | 1993-06-25 | 1995-03-20 | Ricoh Co Ltd | デ−タベ−ス検索システム |
US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
JPH07306851A (ja) * | 1994-05-12 | 1995-11-21 | Ricoh Co Ltd | 発音記号編集装置 |
US5681108A (en) * | 1995-06-28 | 1997-10-28 | Miller; Alan | Golf scorekeeping system |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
JPH09292255A (ja) * | 1996-04-26 | 1997-11-11 | Pioneer Electron Corp | ナビゲーション方法及び装置 |
-
1997
- 1997-04-10 US US08/833,916 patent/US5933804A/en not_active Expired - Lifetime
-
1998
- 1998-04-08 CN CN200410087906.8A patent/CN1280782C/zh not_active Expired - Lifetime
- 1998-04-08 DE DE69842190T patent/DE69842190D1/de not_active Expired - Lifetime
- 1998-04-08 EP EP06010060A patent/EP1693827B1/en not_active Expired - Lifetime
- 1998-04-08 WO PCT/US1998/006923 patent/WO1998045834A1/en active IP Right Grant
- 1998-04-08 CN CN98806081.7A patent/CN1196105C/zh not_active Expired - Lifetime
- 1998-04-08 EP EP98914577A patent/EP0974141B1/en not_active Expired - Lifetime
- 1998-04-08 JP JP54305198A patent/JP4570176B2/ja not_active Expired - Fee Related
- 1998-04-08 DE DE69834553T patent/DE69834553T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69834553D1 (de) | 2006-06-22 |
DE69834553T2 (de) | 2007-04-26 |
DE69842190D1 (de) | 2011-04-28 |
US5933804A (en) | 1999-08-03 |
CN1264468A (zh) | 2000-08-23 |
JP4570176B2 (ja) | 2010-10-27 |
EP1693827A3 (en) | 2007-05-30 |
EP0974141A1 (en) | 2000-01-26 |
CN1604187A (zh) | 2005-04-06 |
WO1998045834A1 (en) | 1998-10-15 |
CN1196105C (zh) | 2005-04-06 |
EP1693827B1 (en) | 2011-03-16 |
EP0974141B1 (en) | 2006-05-17 |
EP1693827A2 (en) | 2006-08-23 |
JP2002511154A (ja) | 2002-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1280782C (zh) | 给用户提供声音反馈的可扩展语音识别系统 | |
US6366882B1 (en) | Apparatus for converting speech to text | |
US6424943B1 (en) | Non-interactive enrollment in speech recognition | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US7680658B2 (en) | Method and apparatus for speech recognition | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
US6529866B1 (en) | Speech recognition system and associated methods | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
Rudnicky et al. | Survey of current speech technology | |
Fendji et al. | Automatic speech recognition using limited vocabulary: A survey | |
Gardner-Bonneau et al. | Human factors and voice interactive systems | |
GB2323694A (en) | Adaptation in speech to text conversion | |
WO2007118020A2 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
US6591236B2 (en) | Method and system for determining available and alternative speech commands | |
CA2417926C (en) | Method of and system for improving accuracy in a speech recognition system | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
JP2002062891A (ja) | 音素割当て方法 | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
Imperl et al. | Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones | |
JP2003099086A (ja) | 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム | |
Sharman | Speech interfaces for computer systems: Problems and potential |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150430 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150430 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington, USA Patentee before: Microsoft Corp. |
|
CX01 | Expiry of patent term |
Granted publication date: 20061018 |
|
CX01 | Expiry of patent term |