CN1842842A - 一种根据辅助信息提高语音识别的方法和设备 - Google Patents

一种根据辅助信息提高语音识别的方法和设备 Download PDF

Info

Publication number
CN1842842A
CN1842842A CNA2004800248177A CN200480024817A CN1842842A CN 1842842 A CN1842842 A CN 1842842A CN A2004800248177 A CNA2004800248177 A CN A2004800248177A CN 200480024817 A CN200480024817 A CN 200480024817A CN 1842842 A CN1842842 A CN 1842842A
Authority
CN
China
Prior art keywords
auxiliary data
user
input
voice
input voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800248177A
Other languages
English (en)
Inventor
J-C·詹奎
R·库恩
M·康特立尼
R·切盖尔瓦瑞恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1842842A publication Critical patent/CN1842842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

一种提高语音识别器识别结果的方法利用辅助信息对识别结果进行确认。用户输入语音到驻留在移动设备或者远端服务器上的语音识别器。语音识别器根据输入语音确定识别结果。为所述识别结果计算出一个置信度度量值。如果该置信度度量值小于阈值,则向用户提示输入辅助数据。该辅助数据根据输入语音和识别结果之间的模糊度动态地被确定;通过辅助数据把输入语音和潜在的不正确识别结果区分开来。辅助数据可以是组成输入语音的字母数字字符集的子集,或者其他的一些和想得到的结果有关联的数据,比如电话区号或者位置。用户可以通过说话的方式提供这些辅助数据,也可以通过键盘,触控板,触摸屏和触控笔等设备手工输入这些信息。

Description

一种根据辅助信息提高语音识别的方法和设备
技术领域
本发明涉及语音拨号系统,特别是涉及提高语音拨号系统的性能。
背景技术
语音拨号系统需要具有语音识别能力来处理语音命令。在移动电话上,用户可以利用语音识别技术容易地拨出一个电话号码。例如,用户可以通过说出移动电话通讯薄中一个联系人名字的方式来启动对该联系人的呼叫。语音拨号系统通过语音识别技术处理这个名字并自动拨打正确的号码。
为了让语音拨号系统正确地识别出要拨打的电话号码,用户必须清楚地说出联系人的名字。但是,例如声音失真,发音错误,以及背景噪音都可能导致语音拨号系统错误理解期望的联系人。因此,语音拨号系统可以实现一个系统,在该系统中,给用户的输入语音分配一个置信度值。也就是说,该置信度值显示了语音拨号系统所确定的期望联系人假定的正确度。一个低的置信度值可能表明为了拨出正确的电话号码必须采取进一步的措施,例如,语音拨号系统可以要求用户重新说一遍要拨打的联系人的名字。当然,在具体实施时,也可以用一个度量值来替代上述置信度值的作用,当语音得到好的识别的时候,该度量值的值就低,而当错误识别的可能性大时,该度量值的值就高。这可被称为“不确定性”的度量。不确定性度量值取高值可能表明为了拨出正确的号码必须采取进一步的措施。虽然这两种度量在表面上看是不同的,但它们在系统中起到相同的作用。
发明内容
一种提高在远端位置的语音识别器识别结果的方法包括:在相同的远端位置接收来自用户的输入语音。根据输入语音决定一个或者一个以上候选匹配。在另一个实施方案中,所述一个或者一个以上候选匹配代表了所有可能候选的完整列表,并且根据输入语音对这个列表进行了排序。提示用户输入与上述输入语音相关联的辅助数据。从用户接收辅助数据。根据输入语音和辅助数据,从所述一个或者一个以上候选匹配中选出一个候选。
在本发明的另一方面,一种提高电子设备上语音识别器识别结果的方法包括:在该电子设备接收来自用户的输入语音。输入的语音在语音识别器进行解释。根据输入的语音,从多个候选记录中确定了一个或者一个以上候选记录。在另一个实施方案中,所述一个或者一个以上候选匹配代表了可能候选的完整列表,并且根据输入的语音对这个列表进行了排序。根据输入的语音为所述一个或一个以上候选记录生成置信度度量值。如果置信度度量值小于一个阈值,则提示用户输入与输入语音相关的辅助数据。在该设备接收用户的辅助数据。根据输入语音和辅助数据从所述一个或者一个以上候选记录中挑选出一个候选记录。
在本发明的另一方面,一个基于输入语音来拨打电话的系统包括:一个语音识别器,该语音识别器接收远端用户的输入语音。一个数据库包含多项记录。一个控制器可以与语音识别器和数据库通信,根据输入语音从所述多项纪录中选出一个或者一个以上候选记录。该控制器根据输入语音和所述一个或者一个以上候选记录间的模糊度确定辅助数据,并提示用户输入所述的辅助数据。
从下文的详细描述中,可以清楚地看出本发明应用的更多领域。需要指出的是,所述的详细描述和具体例子,在说明本发明的优选实施方案的同时,目的仅在于示意,而非对本发明范围的限制。
附图说明
本发明将通过详细描述和附图而得到更全面的了解,附图中:
图1为根据本发明的一种语音拨号系统的流程图;
图2为根据本发明的一种移动设备的功能模块图;
图3为根据本发明的结合了基于历史置信度度量值的语音拨号系统的流程图;
图4为根据本发明的一种自动接线总机的功能模块图。
具体实施方式
下文对有关优选实施方案的描述本质上仅属示例,而无意构成对本发明、本发明的应用或者用途的限制。
如图1所示,在步骤12,用户说出一个联系人的名字,从而触发了语音拨号算法10。语音拨号系统10解释输入的联系人名字,并将该输入联系人名字和通讯簿中的一个联系人名字联系起来。在步骤14,语音拨号系统10确定输入联系人名字的置信度度量值。在步骤16,语音拨号系统判断该置信度度量值是否大于阈值。如果该置信度度量值大于阈值,则语音拨号系统10在步骤18按照该联系人的名字得到他的电话号码并呼出。例如,语音拨号系统10可以要求置信度度量值大于一个特定的阈值,比如60%。该阈值可以预先设定或者可被用户修改。
如果上述置信度度量值小于所述阈值,但是不小于一个最小的阈值,那么,在步骤20,语音拨号系统10要求用户确认其口呼的联系人名字是否被正确解释。例如,语音拨号系统10可能会重复一遍该联系人的名字,然后要求用户回答“是”或者“否”。如果用户回答“是”,则语音拨号系统10可以继续上述的电话呼叫,并在步骤18拨出经过确认的联系人名字对应的电话号码。如果用户回答“否”,则在步骤22,语音拨号系统10要求用户输入辅助信息。作为替代,如果置信度度量值小于所述最小的阈值,则语音拨号系统10将忽略步骤20而直接转到步骤22。系统10可能会要求用户用键盘和/或语音命令来输入辅助信息。例如,语音拨号系统10可能要求用户口呼或者用键盘输入要拨打联系人的词首字母。用户也可以用其他的合适方式输入辅助信息,比如鼠标、触控板,触摸屏或者触控笔。在另外一个实施方案中,语音拨号系统10可能会在要求输入语音的步骤12之前要求用户输入键盘信息。在此实施方案下,语音拨号系统10可以根据键盘输入限定的约束解释输入的语音。
在步骤24,语音拨号系统10处理辅助信息来确定正确的联系人名字,然后运行到步骤18。如果该辅助信息仍不足以确定正确的联系人名字,则需要采取进一步的动作。例如,语音拨号系统10可以返回到步骤22以要求附加的辅助信息。在另外一个实施方案中,语音拨号系统10可以返回到步骤12并要求用户重新说出要拨打的联系人的名字。在另一个实施方案中,语音拨号系统10可能无法正确地确定输入的语音。在此情况下,语音拨号系统10可以引导用户到接线员那里获得进一步的帮助。例如,如果辅助信息不足以帮助确认联系人,则语音拨号系统10可以在步骤26增加一个计数器的值,并检验。如果该计数器的值没有达到一个预先设定的定点,则语音拨号系统10可以继续在步骤22要求输入辅助信息。如果计数器的值已经达到所述定点,则语音拨号系统10可以在步骤28将用户引导到接线员。
语音拨号系统10根据在步骤12输入的初始口呼联系人名字的模糊度来决定要求什么样的辅助信息。例如,如果要拨打的联系人的名字是“JohnSmith”,并且在通讯簿中有多条纪录都有词首字母“J”和“S”,那么要求用户输入词首字母可能不会有多大帮助。在这种情况下,语音拨号系统10可以要求用户输入其他的一些辅助信息,例如要拨打联系人的姓的前三个字母。或者,语音拨号系统10可以要求用户输入要拨打的联系人的电话区号。
语音拨号系统10在步骤22中所要求的辅助信息减到最少。也就是说,语音拨号系统将在保证足以确认拨打联系人名字的前提下要求尽可能少的信息输入,然后继续呼叫。如果步骤14确定的初始的置信度度量值是充分的,语音拨号系统将不会要求辅助信息。如果语音拨号系统10要求键盘输入,则语音拨号系统10将要求把要拨打的联系人从候选联系人的前N个最佳(N-best)列表中区分出来所需要的最少数量的键盘按键操作。例如,如果要拨打的联系人和相似纪录的前三个字母都是“smi”,则语音拨号系统10可以要求用户输入期望联系人名字的前四个字母。或者,语音拨号系统10可能仅仅要求用户用键盘输入联系人的名字,并且随着按键的输入自动地选择正确的联系人。也就是说,如果用户开始输入辅助信息,只要足够的信息被输入,则语音拨号系统10会立刻自动选出正确的联系人名字。语音拨号系统10也可以在用户输入先前要求的信息的时候动态地要求一些不同类型的辅助信息。
在另外一个实施方案中,语音拨号系统10可以对一些混淆的或者发音扭曲的输入语音进行补偿。语音识别器可能在开始的时候不正确地识别输入语音。当用户的辅助信息输入以后,输入的语音将被语音识别器重新解释。语音识别器将在辅助信息限定的约束范围内解释输入语音。照此方式,语音拨号系统10也可以补偿发音错误。
在另外一个实施方案中,语音拨号系统10可以补偿用户手工输入中的拼写错误和排字错误。例如,语音拨号系统10可以判断出辅助信息与联系人列表或数据库中的信息不一致。因此,系统10可以包含一个算法来判断辅助信息和数据库或者联系人列表之间的大约匹配度,并最终考虑输入语音。
图2所示的是带有语音拨号系统10的移动设备30。所述移动设备可以是移动手机,PDA,或者其他适当设备。用户口呼联系人名字或者其他的音频输入到移动设备30的音频输入装置32中。语音识别器34解释所述音频输入。控制器36把输入语音通过识别器34识别后得到的结果和数据库38中的联系人名字进行比较。控制器36根据比较结果产生一个置信度度量值。
如果置信度度量值大于一个阈值,则控制器36拨出该联系人的电话号码。如果该置信度度量值小于或者等于该阈值,则控制器36要求用户进行“是”或者“否”确认。如果用户没有回答“是”,则控制器36确定向用户要求什么样的辅助信息。也就是说,控制器36根据所解释出的联系人名字和期望的联系人名字之间可能出现的模糊度,确定希望获得的辅助信息。辅助信息包括(但不仅限于),拼写、词首字母和电话区号。期望的辅助信息可以通过显示屏40以视觉方式传递给用户,或者通过音频输出装置或者扬声器42告诉用户。用户可以通过口头的方式将辅助信息输入到音频输入装置32中,或者通过键盘44以手动方式键入辅助信息。控制器36根据所述辅助信息确定正确的联系人名字。作为一种替代方式,控制器36也可以省略(forego)“是”或“否”要求确认的步骤。例如,如果置信度度量值大于第二个阈值,控制器36可以确定一个特定联系人名字是正确的,从而自动拨打该联系人相应的电话号码。
除了联系人的名字,用户也可以把本发明应用于其他的一些应用。在一个实施方案中,用户可以请求导航信息。用户将一个位置或者地方的名字输入到音频输入装置32中。语音识别器34解释所述音频输入。控制器36把识别器34所解释的音频输入和数据库38中的位置列表进行比较。控制器36可以要求与导航相关的辅助信息。比如,如果用户输入一个城市名称,那么在发现不止一个州有该城市名称的情况下,则控制器36要求输入该城市所属州的简称。在另外一个实施方案中,用户可以通过向音频输入装置32口呼一个公司的名称,请求该公司的信息。控制器36可能会要求输入诸如公司股票简称之类的辅助信息。在又另一个实施方案中,用户也可以从一个特定的来源处请求电子邮件或者语音邮件。
一个基于历史记录的语音拨号系统50可能包含如图3所示的基于历史纪录的置信度度量值。一些特定的名字和其它口呼输入被错误识别发生的频率可能比其他的输入更频繁。而且,有一些特定呼叫者或者说话者的语音可能更难以被识别。例如,在步骤52用户对一个移动电话或者其它装置口呼一个联系人的名字,由语音识别器进行解释;在步骤54,基于历史记录的语音拨号系统50判断N-best列表中的联系人名字是否存在以前曾被错误识别的情况。例如,基于历史记录的语音拨号系统50可能包含一个历史记录模块,在该模块中,保存了所有曾经被错误识别过的名字。另外一种情形是,上述历史记录模块可以包含了一些已知的难于识别的名字,比如外国的名字或者具有不寻常发音的名字。也可以说,一些特殊的名字或者单词被硬编码在系统50中,以标明它们容易被混淆。例如,名字“Ryan”和“Brian”可以自动地被识别为容易相互混淆的名字。如果历史记录模块没有指明列表中任何一个名字曾经被误识过或者是已知的识别困难的名字,则基于历史记录的语音拨号系统50可以在步骤56进入语音拨号系统。否则,基于历史记录的语音拨号系统50继续执行步骤58。
在步骤58,一个置信度估计模块在部分程度上根据历史记录模块跟踪的名字来确定基于历史的置信度度量值。上述基于历史的置信度度量值是基于以前的识别过程中被错误识别的名字。也可以说,如果n-best列表中包含了任何识别困难或者以前曾经被错误识别的名字,则基于历史纪录的语音拨号系统50就假定上述输入的语音可能已经被错误地识别了。所以,典型的置信度度量可能已经不能满足要求,置信度的阈值可能做出相应的调整。通过这样方式的处理,基于历史记录的语音拨号系统50保证了潜在的可能被错误识别的输入语音都经过辅助信息的确认。在步骤60,进一步的动作被用来检验输入的语音。例如,在N-BEST列表中的识别困难的名字可以自动要求辅助信息的确认。
在另外一个实施方案中,基于历史记录的语音拨号系统50可能不要求确定置信度度量值。也就是说,基于历史纪录的语音拨号系统50可以省略步骤58,而是采用另外的标准来补偿识别困难的名字。例如,如果在N-BEST列表中存在识别困难的名字,则基于历史记录的语音拨号系统50可以自动要求输入辅助信息,而不管识别结果置信度度量值的大小。
现在参见图4,语音拨号服务或者目录70可以采用本发明来帮助那些说话不容易被识别的呼叫者拨打电话。用户可能拨打自动接线总机,例如专用交换机(PBX)交换系统72。用户可以通过电话基础网络74来访问PBX 72。PBX72通过一条或者多条外线76和电话网路74连接。外部电话机78可以通过一个唯一的电话号码到达。此外,一个或者多个内部电话机80可以通过电话线82连接到PBX72。可以分配给每个电话机80一个唯一的分机号码。一个语音拨号服务器84和PBX72相连,使呼叫者可以通过语音拨号接到内部的电话机80或者外部的电话机78。也就是说,呼叫者可以从外部电话机78呼叫内部电话机80,也可以从内部电话机80呼叫外部电话机78,并且/或者内部电话机80的呼叫者可以呼叫内部其他的电话机80。在另外一个实施方案中,外部呼叫者可以联系PBX72或者类似的接线总机来呼叫其他的外部电话机。一个关于语音拨号服务器的具体例子可以参见提交日期为1996年9月30的专利申请号为5930336的美国专利申请,该专利申请的全部内容被引用于此。
一个外部电话机78或者内部电话机80的用户通过PBX72连接到语音拨号服务器84。语音拨号服务器84接收用户的语音输入。例如,一个用户可能请求连接到一个特定联系人。该语音拨号服务器84包含一个语音识别器86。语音识别器86解释来自用户的输入请求。语音拨号服务器从联系人数据库88中确定候选联系人的一个N-best列表。该N-best列表中的每个可能的联系人具有一个置信度度量值。语音拨号服务器可以通过PBX 72要求用户输入辅助信息来确定正确的联系人。语音拨号服务器84除了包含通用的与说话人无关的语音模型外,还包含多个为一些说话人特征,比如说话人性别和口音,所特有的语音模型。所述语音模型可以在这类说话人语音的基础上加以配置。语音拨号服务器84可以基于语音模型90的信息改变置信度度量值。语音模型90的输出结果可以动态地和用户提供的辅助信息结合以更有效地确定出正确的联系人。此外,语音拨号服务器84可以包含多个针对不同用户的语音模型。语音拨号服务器84可以根据输入的语音为特定的用户动态地选择语音模型。一种替代方式是,语音拨号服务器84可以基于一个特定用户先前的呼叫为其选择一个语音模型,例如,语音拨号服务器84可以包含针对不同口音和方言的语音模型。
如图4所示,语音拨号服务70可以被用来从一个大的可能联系人列表中确定一个联系人。当一个移动电话或者其他设备本身驻留的联系人列表长度可能受到限制的情况下,目录或者交换系统可以负责长度不确定的联系人列表的存储。因而,语音拨号系统70根据用户的输入语音确定的N-best列表可能非常大。本发明的辅助信息就可以用来快速地缩小候选联系人的列表,从而使语音拨号系统70可以确定出正确的联系人。需要指出的是,类似的语音拨号系统可以用来把各种类型电话设备的用户连接到期望的联系人。例如,一个移动电话用户可以连接到位于远端的语音拨号系统或者服务器,以便利用本发明来联系其他的用户。
上述对本发明的描述本质上仅属示例,因此并未偏离本发明要旨的变化仍应在本发明的范围之中。这样的变化不应当被视为对本发明的精髓和范围的偏离。
(按照条约第19条的修改)
1.一种提高语音识别器的识别结果的方法,包括如下步骤:
接收来自用户的输入语音;
根据所述输入语音确定一个或者一个以上候选匹配;
通过评估在所述确定一个或者一个以上候选匹配的步骤后存在的模糊度,产生要求用户输入辅助数据的提示,并且裁剪所述提示,引导用户提供旨在消除所述模糊度的附加信息;
接收用户响应所述提示而输入的辅助数据;
根据所述输入语音和所述辅助数据从所述的一个或者一个以上候选的匹配中选出一个匹配。
2.如权利要求1所述的方法,其特征在于包括在语音识别器中对所述的输入语音进行解释。
3.如权利要求1所述的方法,其特征在于包括根据输入语音为所述的一个或者一个以上候选的匹配产生置信度度量值。
4.如权利要求3所述的方法,其特征在于,如果所述的置信度度量值小于阈值,则提示用户输入所述的辅助数据。
5.如权利要求1所述的方法,其特征在于,所述的辅助数据是组成上述输入语音的字母数字字符集的一个子集。
6.如权利要求1所述的方法,其特征在于,所述的辅助数据是区域号码,位置,或者一个名字的词首字母中的至少一个。
7.如权利要求1所述的方法,其特征在于,所述接收辅助数据的步骤包括通过口语和手写输入中的至少一种方式接收所述辅助数据。
8.如权利要求7所述的方法,其特征在于,所述手写输入包括来自键盘,触控板,触摸屏和触控笔中的至少一个的输入。
9.如权利要求1所述的方法,其特征在于包括提示用户对所选择的候选匹配进行确认的步骤。
10.如权利要求1所述的方法,其特征在于包括在用户和与所述一个或一个以上候选匹配中的所述一个匹配关联的实体之间建立通讯的步骤。
11.如权利要求10所述的方法,其特征在于,所述建立通讯包括发起电话呼叫,电子邮件消息,语音邮件消息和文本消息中的至少一个。
12.如权利要求10所述的方法,其特征在于,所述的实体是公司,政府

Claims (58)

1.一种提高位于远端位置的语音识别器的识别结果的方法,包括如下步骤:
在所述远端位置接收来自用户的输入语音;
根据所述输入语音确定一个或者一个以上候选的匹配;
提示用户输入与上述输入语音相关的辅助数据;
接收来自用户的辅助数据;
根据所述输入语音和所述辅助数据从所述的一个或者一个以上候选的匹配中选出一个匹配。
2.如权利要求1所述的方法,其特征在于包括在语音识别器中对所述的输入语音进行解释。
3.如权利要求1所述的方法,其特征在于包括根据输入语音为所述的一个或者一个以上候选的匹配产生置信度度量值。
4.如权利要求3所述的方法,其特征在于,如果所述的置信度度量值小于阈值,则提示用户输入所述的辅助数据。
5.如权利要求1所述的方法,其特征在于,所述的辅助数据是组成上述输入语音的字母数字字符集的一个子集。
6.如权利要求1所述的方法,其特征在于,所述的辅助数据是区域号码,位置,或者一个名字的词首字母中的至少一个。
7.如权利要求1所述的方法,其特征在于,所述接收辅助数据的步骤包括通过口语和手写输入中的至少一种方式接收所述辅助数据。
8.如权利要求7所述的方法,其特征在于,所述手写输入包括来自键盘,触控板,触摸屏和触控笔中的至少一个的输入。
9.如权利要求1所述的方法,其特征在于包括提示用户对所选择的候选匹配进行确认的步骤。
10.如权利要求1所述的方法,其特征在于包括在用户和与所述一个或一个以上候选匹配中的所述一个匹配关联的实体之间建立通讯的步骤。
11.如权利要求10所述的方法,其特征在于,所述建立通讯包括发起电话呼叫,电子邮件消息,语音邮件消息和文本消息中的至少一个。
12.如权利要求10所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置和服务中的至少一个。
13.如权利要求1所述的方法,其特征在于,所述的辅助数据和所述输入语音的模糊度有关。
14.如权利要求3所述的方法,其特征在于包括根据针对所述用户的语音模型修改置信度度量值的步骤。
15.如权利要求1所述的方法,其特征在于,确定一个或者一个以上候选匹配的步骤包括根据所述一个或者一个以上候选匹配的识别历史记录来确定一个或者一个以上候选匹配的步骤,其中所述的识别历史记录表明了在所述的一个或者一个以上候选匹配中,是否存在语音识别器难于解释的匹配。
16.如权利要求15所述的方法,其特征在于还包括基于输入语音及识别历史记录来为所述一个或者一个以上候选匹配产生置信度度量值;如果上述的置信度度量值小于阈值,提示用户输入辅助信息。
17.如权利要求16所述的方法,其特征在于还包括基于所述的识别历史记录来调整所述置信度度量值和所述阈值中的至少一个的步骤。
18.如权利要求1所述的方法,其特征在于,所述的远端位置为一个目录协助服务。
19.如权利要求1所述的方法,其特征在于还包括根据从用户接收的辅助信息中的排字错误和拼写错误中的至少一个,在辅助数据和所述一个或者一个以上候选匹配中确定一个近似符合的匹配。
20.如权利要求1所述的方法,其特征在于还包括根据辅助数据和输入语音中的发音错误中的至少一个,在输入语音和所述一个或者一个以上候选匹配中确定一个近似符合的匹配。
21.如权利要求2所述的方法,其特征在于,所述的语音识别器在部分程度上根据所述辅助数据来解释输入的语音。
22.如权利要求1所述的方法,其特征在于还包括向用户提供和所述一个或者一个以上候选匹配中的所述一个匹配关联的实体的有关信息。
23.如权利要求22所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置和服务中的至少一个。
24.如权利要求22所述的方法,其特征在于,所述的信息包括与所述实体有关的导航信息,目录协助信息,公司信息和联系人信息中的至少一个。
25.如权利要求1所述的方法,其特征在于还包括提示用户输入信息,以便发送到与所述一个或者一个以上候选匹配中的所述一个匹配关联的实体。
26.如权利要求25所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置,和服务中的至少一个。
27.如权利要求1所述的方法,其特征在于,所述的输入语音是所述一个或者一个以上候选匹配的子集。
28.一种提高位于电子设备中的语音识别器的识别结果的方法,包括如下步骤:
在上述设备中接收来自用户的辅助信息;
根据所述的辅助信息确定一个或者一个以上候选匹配;
提示用户输入与所述辅助数据相关的输入语音;
接收来自用户的输入语音;
根据所述的输入语音和辅助数据从所述的一个或者一个以上候选匹配中选出一个匹配。
29.如权利要求28所述的方法,其特征在于,所述的辅助数据是组成所述输入语音的字母数字字符集的子集。
30.如权利要求28所述的方法,其特征在于,所述的辅助数据是区域号码,位置,以及一个名字的词首字母中的至少一个。
31.如权利要求28所述的方法,其特征在于,接收所述辅助数据的步骤包括通过口语输入和手工输入的至少一个方式接收所述辅助数据。
32.如权利要求31所述的方法,其特征在于,所述的手工输入包括来自键盘,触控板,触摸屏和触控笔中的至少一个的输入。
33.如权利要求28所述的方法,其特征在于,还包括在语音识别器中解释输入语音的步骤,其中所述语音识别器根据所述的辅助数据来识别所述的输入语音。
34.如权利要求33所述的方法,其特征在于,所述的语音识别器在部分程度上根据所述的辅助数据来解释所述的输入语音。
35一种提高位于电子设备中的语音识别器的识别结果的方法,包括如下步骤:
在所述设备中接收来自用户的输入语音;
根据上述的输入语音从多个候选记录中确定一个或者一个以上候选记录;
在所述设备中接收来自用户的辅助数据;
根据所述的输入语音和辅助数据从所述的一个或者一个以上候选记录中选出一个记录。
36.如权利要求35所述的方法,其特征在于,还包括在语音识别器中解释所述输入语音的步骤。
37.如权利要求35所述的方法,其特征在于,该方法还包括根据所述的输入语音为所述一个或者一个以上候选记录生成置信度度量值。
38.如权利要求37所述的方法,其特征在于,如果所述的置信度度量值低于阈值,提示用户输入所述的辅助数据。
39.如权利要求35所述的方法,其特征在于,所述的多个候选记录在所述设备上组成一个数据库。
40.如权利要求35所述的方法,其特征在于,所述的辅助数据是组成所述输入语音的字母数字字符集的一个子集。
41.如权利要求35所述的方法,其特征在于,所述的辅助数据是区域号码,位置,一个名字的词首字母中的至少一个。
42.如权利要求35所述的方法,其特征在于,所述的设备是移动电话和个人数据助理中的至少一个。
43.如权利要求35所述的方法,其特征在于,该方法还包括提示用户对选择的候选记录进行确认的步骤。
44.如权利要求35所述的方法,其特征在于,接收所述辅助数据的步骤包括通过口语输入和手写输入中的至少一种方式接收所述辅助数据。
45.如权利要求44所述的方法,其特征在于,手写输入包括从键盘,触控板,触摸屏和触控笔中的至少一个进行的输入。
46.如权利要求35所述的方法,其特征在于,还包括提示用户输入信息,以便发送到与所述一个或者一个以上候选匹配中的所述一个匹配关联的实体。
47.如权利要求35所述的方法,其特征在于,还包括在用户和与所述的一个或者一个以上候选匹配中的所述一个匹配关联的实体之间建立通讯的步骤。
48.如权利要求47所述的方法,其特征在于,所述建立的通讯包括发起电话呼叫,电子邮件消息,语音邮件消息和文本消息中的至少一个。
49.如权利要求35所述的方法,其特征在于,还包括向用户提供和所述一个或者一个以上候选匹配中的所述一个匹配关联的实体的有关信息。
50.如权利要求49所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置和服务中的至少一个。
51.如权利要求49所述的方法,其特征在于,所述的信息包括与所述实体有关的导航信息,目录协助信息,公司信息和联系人信息中的至少一个。
52.如权利要求47所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置和服务中的至少一个。
53.如权利要求46所述的方法,其特征在于,所述的实体是公司,政府机构,一个或者多个人,位置和服务中的至少一个。
54.一种根据输入语音来引导电话呼叫的系统,包括从远端用户接收输入语音的语音识别器;包含多个记录的数据库;一个控制器,与语音识别器和数据库通讯,以便根据上述的输入语音从数据库的多个记录中选出一个或者一个以上候选记录,其中控制器根据输入语音和所述一个或者一个以上候选记录间的模糊度确定辅助数据,并提示所述用户输入所述的辅助数据。
55.如权利要求54所述的系统,其特征在于,所述控制器生成一个置信度度量值,其中如果所述的置信度度量值低于阈值,那么该控制器向用户发出提示。
56.如权利要求54所述的系统,其特征在于,包含一个或者多个语音模型,其中所述控制器根据所述的一个或者多个语音模型,所述的输入语音和辅助数据,来选出所述一个或者一个以上候选记录。
57.如权利要求54所述的系统,其特征在于,所述的辅助数据为组成上述输入语音的字母数字字符集的一个子集。
58.如权利要求54所述的系统,其特征在于,所述控制器根据输入语音和辅助数据中的至少一个拨打电话号码和分机号之一。
CNA2004800248177A 2003-08-29 2004-07-30 一种根据辅助信息提高语音识别的方法和设备 Pending CN1842842A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/652,146 2003-08-29
US10/652,146 US6983244B2 (en) 2003-08-29 2003-08-29 Method and apparatus for improved speech recognition with supplementary information

Publications (1)

Publication Number Publication Date
CN1842842A true CN1842842A (zh) 2006-10-04

Family

ID=34217569

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800248177A Pending CN1842842A (zh) 2003-08-29 2004-07-30 一种根据辅助信息提高语音识别的方法和设备

Country Status (5)

Country Link
US (1) US6983244B2 (zh)
EP (1) EP1661121A4 (zh)
JP (1) JP2007504490A (zh)
CN (1) CN1842842A (zh)
WO (1) WO2005024779A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102282609A (zh) * 2008-11-19 2011-12-14 罗伯特·博世有限公司 用于识别对话系统中的专有名称的系统和方法
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN102937834A (zh) * 2012-11-26 2013-02-20 上海量明科技发展有限公司 混合型输入的方法、客户端及系统
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN105931642A (zh) * 2016-05-31 2016-09-07 北京灵隆科技有限公司 语音识别方法、设备及系统
CN107924681A (zh) * 2015-09-11 2018-04-17 亚马逊技术股份有限公司 具有语音功能的装置之间的仲裁
CN118171655A (zh) * 2024-05-13 2024-06-11 北京中关村科金技术有限公司 姓名生成方法及装置、电子设备、计算机程序产品

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
EP1397797B1 (en) * 2001-04-19 2007-09-12 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
KR20050054706A (ko) * 2003-12-05 2005-06-10 엘지전자 주식회사 음성인식을 위한 어휘 트리 구축 방법
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
US7475017B2 (en) * 2004-07-27 2009-01-06 Microsoft Corporation Method and apparatus to improve name confirmation in voice-dialing systems
US20070180384A1 (en) * 2005-02-23 2007-08-02 Demetrio Aiello Method for selecting a list item and information or entertainment system, especially for motor vehicles
US8413069B2 (en) 2005-06-28 2013-04-02 Avaya Inc. Method and apparatus for the automatic completion of composite characters
DE102005030380B4 (de) * 2005-06-29 2014-09-11 Siemens Aktiengesellschaft Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
US7509094B2 (en) * 2005-06-30 2009-03-24 Modu Ltd. Wireless telecommunication device and uses thereof
US7636426B2 (en) * 2005-08-10 2009-12-22 Siemens Communications, Inc. Method and apparatus for automated voice dialing setup
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20080037720A1 (en) * 2006-07-27 2008-02-14 Speechphone, Llc Voice Activated Communication Using Automatically Updated Address Books
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8386248B2 (en) * 2006-09-22 2013-02-26 Nuance Communications, Inc. Tuning reusable software components in a speech application
EP1933302A1 (en) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
US8391921B2 (en) 2007-02-13 2013-03-05 Google Inc. Modular wireless communicator
US10027789B2 (en) 2007-02-13 2018-07-17 Google Llc Modular wireless communicator
US7970433B2 (en) 2007-06-08 2011-06-28 Modu Ltd. SD switch box in a cellular handset
US8650030B2 (en) 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
TWI360109B (en) * 2008-02-05 2012-03-11 Htc Corp Method for setting voice tag
DE102008028090A1 (de) * 2008-02-29 2009-09-10 Navigon Ag Verfahren zum Betrieb eines Navigationssystems
US8412226B2 (en) 2008-06-24 2013-04-02 Google Inc. Mobile phone locator
US9183834B2 (en) * 2009-07-22 2015-11-10 Cisco Technology, Inc. Speech recognition tuning tool
US8245249B2 (en) * 2009-10-09 2012-08-14 The Nielson Company (Us), Llc Methods and apparatus to adjust signature matching results for audience measurement
WO2012011636A1 (en) 2010-07-20 2012-01-26 Lg Electronics Inc. User profile based configuration of user experience environment
DE112010005675T5 (de) * 2010-07-20 2013-08-01 Lg Electronics Inc. Elektronisches Gerät, elektronisches System und Verfahren zum Bereitstellen von Information unter Verwendung derselben
US8667112B2 (en) 2010-07-20 2014-03-04 Lg Electronics Inc. Selective interaction between networked smart devices
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
US8868136B2 (en) * 2011-02-28 2014-10-21 Nokia Corporation Handling a voice communication request
US9236045B2 (en) * 2011-05-23 2016-01-12 Nuance Communications, Inc. Methods and apparatus for proofing of a text input
JP5553866B2 (ja) * 2012-07-23 2014-07-16 東芝テック株式会社 商品認識装置及び認識辞書追加プログラム
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US20150032238A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
US9472184B2 (en) * 2013-11-06 2016-10-18 Microsoft Technology Licensing, Llc Cross-language speech recognition
CN109313900A (zh) * 2016-06-15 2019-02-05 索尼公司 信息处理设备和信息处理方法
CN109689000B (zh) * 2016-09-12 2021-05-28 株式会社富士 介助装置
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
KR102613210B1 (ko) * 2018-11-08 2023-12-14 현대자동차주식회사 차량 및 그 제어방법
CN109785858B (zh) * 2018-12-14 2024-02-23 深圳市兴海物联科技有限公司 一种联系人添加方法、装置、可读存储介质及终端设备
CN110021293B (zh) * 2019-04-08 2022-01-28 上海汽车集团股份有限公司 语音识别方法及装置、可读存储介质
US11537881B2 (en) * 2019-10-21 2022-12-27 The Boeing Company Machine learning model development
US12002451B1 (en) * 2021-07-01 2024-06-04 Amazon Technologies, Inc. Automatic speech recognition
US20230115271A1 (en) * 2021-10-13 2023-04-13 Hithink Royalflush Information Network Co., Ltd. Systems and methods for speech recognition
US12033618B1 (en) * 2021-11-09 2024-07-09 Amazon Technologies, Inc. Relevant context determination

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5912949A (en) 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
CA2219008C (en) 1997-10-21 2002-11-19 Bell Canada A method and apparatus for improving the utility of speech recognition
JP2003509705A (ja) * 1999-06-10 2003-03-11 インフィネオン テクノロジーズ アクチエンゲゼルシャフト 音声認識方法および音声認識装置
US6421672B1 (en) * 1999-07-27 2002-07-16 Verizon Services Corp. Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys
US6587818B2 (en) * 1999-10-28 2003-07-01 International Business Machines Corporation System and method for resolving decoding ambiguity via dialog
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems
GB2378776A (en) * 2001-05-22 2003-02-19 Canon Kk Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102282609A (zh) * 2008-11-19 2011-12-14 罗伯特·博世有限公司 用于识别对话系统中的专有名称的系统和方法
CN102282609B (zh) * 2008-11-19 2015-05-20 罗伯特·博世有限公司 用于识别对话系统中的专有名称的系统和方法
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN102708862B (zh) * 2012-04-27 2014-09-24 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN103578468B (zh) * 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN102937834A (zh) * 2012-11-26 2013-02-20 上海量明科技发展有限公司 混合型输入的方法、客户端及系统
CN107924681A (zh) * 2015-09-11 2018-04-17 亚马逊技术股份有限公司 具有语音功能的装置之间的仲裁
CN107924681B (zh) * 2015-09-11 2022-05-17 亚马逊技术股份有限公司 用于在具有语音功能的装置之间的仲裁中的方法以及用于仲裁的系统
CN105931642A (zh) * 2016-05-31 2016-09-07 北京灵隆科技有限公司 语音识别方法、设备及系统
CN118171655A (zh) * 2024-05-13 2024-06-11 北京中关村科金技术有限公司 姓名生成方法及装置、电子设备、计算机程序产品

Also Published As

Publication number Publication date
US6983244B2 (en) 2006-01-03
WO2005024779B1 (en) 2005-07-21
EP1661121A2 (en) 2006-05-31
US20050049860A1 (en) 2005-03-03
EP1661121A4 (en) 2007-02-28
WO2005024779A2 (en) 2005-03-17
JP2007504490A (ja) 2007-03-01
WO2005024779A3 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
CN1842842A (zh) 一种根据辅助信息提高语音识别的方法和设备
CN1116770C (zh) 应用语音识别的自动旅店服务者
US9686414B1 (en) Methods and systems for managing telecommunications and for translating voice messages to text messages
US6996227B2 (en) Systems and methods for storing information associated with a subscriber
US8185539B1 (en) Web site or directory search using speech recognition of letters
US7657005B2 (en) System and method for identifying telephone callers
US9183834B2 (en) Speech recognition tuning tool
US6687673B2 (en) Speech recognition system
US7369988B1 (en) Method and system for voice-enabled text entry
EP0935378A2 (en) System and methods for automatic call and data transfer processing
US20040203660A1 (en) Method of assisting a user placed on-hold
US20080065378A1 (en) System and method for automatic caller transcription (ACT)
US7318029B2 (en) Method and apparatus for a interactive voice response system
KR20050016219A (ko) 음성 인식 강화 발신자 식별
WO2002051114A1 (en) Service request processing performed by artificial intelligence systems in conjunction with human intervention
US7636426B2 (en) Method and apparatus for automated voice dialing setup
KR20130113307A (ko) 이력 데이터를 이용한 연락처 정보의 명확화
US5752230A (en) Method and apparatus for identifying names with a speech recognition program
CN1165889C (zh) 话音拨号的方法和系统
US20040109543A1 (en) Method of accessing an information source
US20030007608A1 (en) System and method for making calls to vanity numbers using voice dialing
US20030081738A1 (en) Method and apparatus for improving access to numerical information in voice messages
CN1278207C (zh) 可用于手机的语音识别汉字输入法
EP1111891A2 (en) Method for addressing a message from a telephone
US8396193B2 (en) System and method for voice activated signaling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication