CN1633679A - 用于多级分布式语音识别的方法和装置 - Google Patents

用于多级分布式语音识别的方法和装置 Download PDF

Info

Publication number
CN1633679A
CN1633679A CNA028264967A CN02826496A CN1633679A CN 1633679 A CN1633679 A CN 1633679A CN A028264967 A CNA028264967 A CN A028264967A CN 02826496 A CN02826496 A CN 02826496A CN 1633679 A CN1633679 A CN 1633679A
Authority
CN
China
Prior art keywords
voice command
identification
confidence value
speech recognition
session manager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028264967A
Other languages
English (en)
Other versions
CN1320519C (zh
Inventor
塞纳卡·巴拉苏里亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1633679A publication Critical patent/CN1633679A/zh
Application granted granted Critical
Publication of CN1320519C publication Critical patent/CN1320519C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Abstract

本发明公开了一种用于多级分布式语音识别的系统和方法,包括一个终端,其具有一个可操作地耦合到麦克风(130)的终端语音识别器(136)。所述终端语音识别器(136)接收一个音频命令(37),产生至少一个终端识别的音频命令,其具有一个终端置信度值。一个网络元件(124)具有至少一个网络语音识别器(150),网络元件也接收音频命令(149),产生至少一个网络识别的音频命令,其具有一个网络置信度值。一个比较器(152)接收所述识别的音频命令,比较语音识别置信度值。所述比较器(152)提供一个输出(162)给所述至少一个识别的音频命令的会话管理器(160),其中所述会话管理器基于所述至少一个识别的音频命令执行一个命令,例如把所述至少一个识别音频命令呈送给用户进行检验或访问一个内容服务器。

Description

用于多级分布式语音识别的方法和装置
技术领域
本发明通常涉及通信装置和方法,更具体地涉及采用语音识别的通信设备和方法。
背景技术
一种涉及终端装置的新兴技术领域是以多种输入和输出格式的信息转换的应用,这些终端装置例如是手持装置,移动电话,便携式电脑,PDA,因特网设备,台式电脑或合适的装置。在终端装置上典型地有一个输入系统,其允许用户输入信息,诸如特殊的信息请求。例如,一个用户可以使用终端装置访问一个天气数据库以得到特定城市的天气信息。典型地,用户输入一个请求特定位置的天气信息的语音命令,诸如“芝加哥的天气”。由于与终端装置有关的处理限制,所述语音命令可能通过通信链路被转发到一个网络元件,其中所述网络元件是一个网络中的多个网络元件之一。所述网络元件包含一个语音识别引擎,其可以识别所述语音命令并且执行并搜索用户所请求的信息。此外,所述语音识别引擎可以位于所述网络中并且可操作地耦合到所述网络元件,而不是在所述网络元件中,以便所述语音识别引擎可以被多个网络元件访问。
随着无线技术的进步,用于无线装置的用户应用程序已经有了增加。这些装置许多都变得更加容易交互,为用户提供了输入命令请求和访问信息的能力。同时,随着无线技术的进步,用户可以提交特定信息请求的形式也有了增加。典型地,一个用户可以通过键盘输入一个命令请求,其中所述终端装置对所述输入编码并且把它提供给网络元件。所述系统的一个通用例子是电话银行系统,其中用户输入一个账号和个人身份号码(PIN)来访问帐户信息。终端装置或网络元件一旦通过键盘接收到输入,就把所述输入转换为一个双音多频信号(DTMF)并且把所述DTMF信号提供给银行服务器。
此外,用户可以使用语音输入来输入一个命令,诸如一个信息请求。即使随着语音识别技术的发展,仍然有许多处理和存储器存储要求限制了终端装置中的语音识别能力。典型地,一个语音识别引擎包括一个语音模型库,通过它可以匹配输入的语音命令。为了或的可靠的语音识别,时常需要一个大的库,因此需要大量的存储器。此外,随着语音识别性能的提高,功率消耗需要也增加了,从而缩短了终端装置的电池寿命。
终端语音识别引擎可以是一个自适应系统。语音识别引擎在具有一个较小的识别命令库的同时,更加适于并且能够理解用户的不同语音模型,例如语调(tone)、音调变化(inflection)、重音等等。因此,在终端中有限的语音识别库可以通过较高程度的语音识别正确概率来弥补。所述系统典型地限制于最通用的语音命令,例如用户叫一个名字且系统自动拨相关的号码这样的编程语音激活拨号特点,其预先被编程到终端中。
另一种用于语音识别的方法是提供一个完全的语音命令给网络元件。网络语音识别引擎可以提高语音识别效率,因为可用存储器的数量大,并且可以降低关于功率消耗要求的影响。但是,在一个网络元件上,语音识别引擎必须可以由访问这多个网络元件的多个用户访问,因此网络语音识别引擎受到不能识别诸如重音等这样的不同语音模型的限制。同样,网络语音识别引擎可以提供一个较大的语音识别命令词汇表,但是因为在个人用户语音模型中固有的限制,正确识别的概率较低。
还有,最近的发展提出了多级分布式语音识别,其中一个终端装置尝试识别一个语音命令,并且如果在所述终端中没有识别出来,所述语音命令就被编码并且送到网络语音识别引擎用于第二次语音识别尝试。授予Hedin等人的美国专利6,186,535B1公开了一种系统和方法,用于用户接口对服务应用程序的语音控制。所述系统提供了逐步的语音识别,其中只有在所述终端装置不能识别所述语音命令时,才利用至少一个网络语音识别引擎。美国专利6,186,535B1只提供了从终端语音识别引擎或从网络语音识别引擎提供正确识别音频命令的单级保证。
同样,需要一种采用语音识别引擎的改进通信装置。
附图说明
参照包含在此的下述附图将更容易理解本发明。
图1说明一种现有技术的无线系统。
图2说明一种根据本发明的用于多级分布式语音识别的设备的框图。
图3说明表示一种根据本发明的用于多级分布式语音识别的方法的流程图。
图4说明一种根据本发明的一个实施例的用于多级分布式语音识别的系统的框图。
图5说明表示一种根据本发明的一个实施例的用于多级分布式语音识别的方法的流程图。
具体实施方式
通常,通过一个终端识别引擎提供一种用于多级分布式语音识别的系统和方法,所述终端识别引擎可操作地耦合到终端装置的一个音频子系统内的麦克风,接收一个音频命令,诸如来自用户的语音命令,例如“芝加哥的天气”,并且产生至少一个终端识别的音频命令,其中所述至少一个终端识别的音频命令具有一个相应的终端置信度值。
所述系统和方法进一步包括一个在网络中的网络元件,其具有可操作地耦合到终端内的麦克风的至少一个网络语音识别引擎,引擎接收音频命令并且产生至少一个网络识别的音频命令,其中至少一个网络元件识别的音频命令具有一个相应的网络置信度值。
此外,所述系统和方法包括一个比较器,它是一个以硬件或软件实现的模块,其比较多个识别的音频命令和置信度值。比较器可操作地耦合到终端语音识别引擎,用于接收终端识别的音频命令和终端语音识别置信度值,比较器进一步耦合到网络语音识别引擎,用于接收网络识别的音频命令和网络语音识别置信度值。比较器比较终端语音识别置信度值和网络语音识别置信度值,通过相应的置信度值编译并且分类所识别的语音命令。在一个实施例中,比较器基于特定的语音识别引擎为置信度提供权重因子,诸如一个特定语音识别引擎的置信度值比其他置信度值的权重大。
一个会话管理器可操作地耦合到比较器上,其可以是一个语音浏览器,交互式语音响应单元(IVR),图形浏览器,基于JAVA的应用程序,软件程序应用,或其他本领域技术人员公知的软件/硬件应用。会话管理器是以硬件或软件实现的模块,其在接收到所识别的音频命令时接收、解释或执行一个命令。会话管理器可以为比较器提供一N个最佳(N-best)指示符,其指示要提供给会话管理器的具有最高置信度的识别命令数量。比较器为会话管理器提供所识别的音频命令和他们的置信度值即N个最佳识别音频命令和他们的置信度值的相关列表。此外,如果比较器不能为会话管理器提供任何识别的音频命令,那么比较器就提供一个错误通知给会话管理器。
当会话管理器接收一个或多个识别的音频命令和相应的置信度值时,会话管理器可以利用另外的步骤进一步限制该列表。例如,它可以执行具有最高置信度值的音频命令或把相关的列表呈现给用户,以便用户可以检验音频命令。还有,在会话管理器接收错误通知或没有一个识别的音频命令具有高于预定最小阈值的置信度值的情况中,会话管理器提供一个错误消息给用户。
如果音频命令是对内容服务器中的信息的请求,那么会话管理器访问内容服务器并且搜索编码的信息。至少一个内容服务器可操作地耦合到会话管理器,诸如通过因特网耦合的市场上可买到的服务器,通过局域网耦合的本地服务器,诸如银行系统这样的商业应用服务器,或任何其他合适的内容服务器。
所搜索的编码信息返回给会话管理器,典型地以会话管理器可解码的标记语言编码,诸如超文本标记语言(HTML),无线标记语言(WML),扩展标记语言(XML),语音扩展标记语言(VoiceXML),扩展超文本标记语言(XHTML),或其他这样的标记语言。因此,编码的信息通过会话管理器解码并且提供给用户。
因此,音频命令可以发送给布置在多级上的至少两个语音识别引擎,例如第一语音识别引擎在终端装置上,并且第二语音识别引擎在网络上。
图1说明一种现有技术的无线通信系统100,其使得用户102可以通过终端108和网络元件110之间的通信连路访问至少一个内容服务器104。网络元件110是网络112中的多个网络元件110之一。用户102提供一个输入命令114,诸如语音命令,例如“芝加哥的天气”给终端108。终端108解释所述命令并且通过诸如标准无线连接这样的通信链路106把所述命令提供给网络元件110。
网络元件110接收所述命令,处理所述命令,即利用一个语音识别器(未示出)来识别并解释所述输入命令114,然后访问多个内容服务器104的至少一个以搜索所请求的信息。一旦搜索所述信息,就把它返回给网络元件110。随即,所请求的信息通过通信链路106提供给终端108并且终端108提供一个输出116给用户,输出例如是一个可听消息。
在图1的现有技术中,输入命令114可以是提供给终端108的一个语音命令。终端108编码所述语音命令并且通过通信链路106把编码的语音命令提供给网络元件110。典型地,网络元件110内的语音识别引擎(未示出)将尝试识别所述语应命令并且搜索所请求的信息。如上所讨论的,语音命令114也可以在终端108内解释,然后终端对网络元件110请求,以得到所请求的信息。
提供音频命令114给终端108在本领域中也是已知的,随即终端108尝试解释所述命令。如果终端108不能解释所述命令114,那么就通过通信链路106把音频命令114提供给网络元件110,以便由至少一个网络语音识别引擎(未示出)来识别。现有技术的系统提供逐步的语音识别系统,只有在终端语音识别引擎不能识别所述语音命令时,才访问至少一个网络语音识别引擎。
图2说明根据本发明的一个实施例的用于多级分布式语音识别的设备。音频子系统120可操作地耦合到一个第一语音识别引擎122和至少一个第二语音识别引擎124,例如USA MA02111的波士顿695大街的Speech Works International公司所生产的OpenSpeech语音识别引擎1.0。如本领域技术人员所公知的,在此也可以利用任何其他合适的语音识别引擎。音频字系统120通过连接126耦合到语音识别引擎122和124。第一语音识别引擎122通过连接130可操作地耦合到一个比较器128,而第二语音识别引擎124通过连接132可操作地耦合到比较器128。
比较器128通过连接136耦合到一个会话管理器134。会话管理器通过连接140可操作地耦合到一个内容服务器138并且通过连接144耦合到一个语音合成引擎142。此外,语音合成引擎进一步通过连接146可操作地耦合到音频子系统120。
图2的设备的操作参照图3来描述,图3说明了根据本发明的一个实施例的用于多级分布式语音识别的方法。所述方法在150开始,这时设备在步骤152接收一个音频命令。典型地,音频命令被提供给音频子系统120。更具体,音频命令可以通过位于音频子系统内的麦克风(未示出)提供。如本领域技术人员所公知的,音频命令可以从任何其他合适的装置提供,例如从存储单元读取,从应用程序提供,等等。
一旦接收到音频命令,在步骤154音频子系统把音频命令提供给第一语音识别引擎122和至少一个第二语音识别引擎124。通过连接126提供音频命令。接下来,在步骤156第一语音识别引擎122识别所述音频命令并且产生至少一个第一识别的音频命令,其中,所述至少一个第一识别的音频命令具有相应的第一置信度值。在步骤158,第二语音识别引擎124还识别所述音频命令并且产生至少一个第二识别的音频命令,其中,所述至少一个第二识别的音频命令具有相应的第二置信度值。所述至少一个第二语音识别引擎与第一语音识别引擎识别相同的音频命令,但是独立于第一语音识别引擎来识别所述音频命令。
第一语音识别引擎122然后通过连接130把所述至少一个第一识别的音频命令提供给比较器128,第二语音识别引擎124然后通过连接132把所述至少一个第二识别的音频命令提供给比较器128。在本发明的一个实施例中,比较器用一个第一权重因子对所述至少一个第一置信度值加权,用一个第二权重因子对所述至少一个第二置信度值加权。例如,在步骤160所述比较器可以遵从第一语音识别引擎的识别,第一置信度值可以乘以0.95的比例因子,而第二置信度值乘以0.90的比例因子。
接下来,在步骤162比较器基于所述至少一个第一置信度值和所述至少一个第二置信度值从所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令选择至少一个识别的音频命令,其具有一个识别音频命令置信度值。在本发明的一个实施例中,会话管理器为比较器提供一个N-best指示符,指示所需要的识别命令的数量,例如N-best指示符为5时是5个最佳识别命令。
会话管理器134通过连接136从比较器128接收识别的音频命令,如N个最好的识别命令。在步骤164会话管理器基于所述至少一个识别的音频命令执行至少一个操作。例如,在步骤166会话管理器通过把识别音频命令的N-best识别列表提供给用户由用户检验,以期检验所述至少一个识别的音频命令。在本发明的一个实施例中,会话管理器134通过连接144把识别音频命令的N-best识别列表提供给语音合成引擎142。语音合成引擎142对这N个最佳识别音频命令进行合成并且通过连接146把它们提供给音频子系统120。音频子系统把N-best识别列表提供给用户。
此外,会话管理器可以对所述N-best列表执行进一步的过滤操作,例如比较所述至少一个识别音频命令置信度值和一个例如0.65这样的最小置信度水平,然后简单地指定具有最高置信度值的识别音频命令为正确的识别音频命令。其中,会话管理器执行那个命令,如通过连接140访问一个内容服务器以搜索所请求的信息,如一个特定城市的天气信息。
此外,在步骤168,当所述至少一个第一置信度值和所述至少一个第二置信度值都低于一个最小置信度值,那么比较器产生一个错误通知。例如,参照图2,所述比较器128可以有一个内部最小置信度水平,例如0.55,第一置信度值和第二置信度值和它相比较。如果第一置信度值和第二置信度值没有一个高于所述最小置信度水平,那么比较器就通过连接176发出一个错误通知给会话管理器134。
此外,例如在N个最佳识别音频命令中的识别音频命令没有包含一个高于会话管理器置信度水平的识别置信度值的情况中,会话管理器可以发出一个错误通知。当第一语音识别引擎和第二语音识别引擎不能识别任何音频命令,或其中识别的音频命令低于第一语音识别引擎、第二语音识别引擎或比较器所指定的最小置信度水平时,比较器也可以产生错误通知。
当通过比较器128或会话管理器134发出错误通知时,会话管理器执行一个错误命令,其中,错误命令通过连接144提供给语音合成引擎142并且进一步通过连接146提供给最终的用户。如本领域技术人员所公知的,错误命令可以通过任何其他的合适装置,例如使用可视显示器提供给用户。
图2的设备提供了多级分布式语音识别。一旦会话管理器响应所述至少一个识别的命令执行一个操作,所述方法就在步骤170结束。
图4说明根据本发明的一个实施例的多级分布式语音识别系统。系统200包括一个终端202和一个网络元件204。如本领域普通技术人员所公知的,网络元件202是网络206中的多个网络元件204之一。
终端202有一个音频子系统206,其中有一个扬声器208和一个麦克风210。音频子系统206可操作地耦合到一个终端语音传送接口212。此外,在终端202内有一个终端会话管理器214。
终端202还有一个终端语音识别引擎216,例如60196 USA的伊利诺斯州的Scharumburg的1301East Algonquin Road的摩托罗拉公司生产的可以提供激活拨号的Motorola i90cTM,其可操作地通过连接218耦合到音频子系统206。如本领域技术人员所公知的,在此可以利用其他合适的语音识别引擎。终端语音识别引擎216初始通过音频子系统206内的麦克风216从用户222接收一个音频命令222。
终端会话管理器214可操作地耦合到位于网络元件204中的一个网络元件会话管理器222。如本领域技术人员所公知的,终端会话管理器214和网络元件会话管理器222在用于会话通信会话初始化时以及在通信会话终止时进行通信。例如,在位于终端202和网络元件204内的各种元件初始化启动期间提供地址分配。
终端语音传送接口212可操作地耦合到位于网络元件204内的一个网络元件语音传送接口224。网络元件语音传送接口224进一步可操作地耦合到至少一个网络语音识别引擎226,如例如USA MA02111的波士顿695大街的Speech Works International公司所生产的OpenSpeech语音识别引擎1.0。如本领域技术人员所公知的,在此可以利用任何其他合适的语音识别引擎。所述至少一个网络语音识别引擎226进一步通过连接230耦合到一个比较器228,比较器可以以软件或硬件实现,其用于从终端语音识别引擎216和网络语音识别引擎226接收的识别音频命令中选择至少一个识别的音频命令。
比较器228进一步通过连接232耦合到位于终端202中的终端语音识别引擎216。比较器228还通过连接236耦合到一个会话管理器234。会话管理器234可操作地耦合到多个模块,通过连接240耦合到一个语音合成引擎238,并且耦合到至少一个内容服务器104。如本领域技术人员所公知的,会话管理器可以耦合到多个其他部件,为了清楚的目的,这些部件从图4中省略了。
图5说明根据本发明的一个实施例的用于多级分布式语音识别的方法。如参照图4所说明的,图5的方法在步骤300开始,此时在终端202内接收音频命令。典型地,音频命令通过用户102提供一个音频输入给音频子系统206的麦克风210提供给终端202。在步骤304,音频输入以标准编码格式编码并且提供给终端语音识别引擎216并且进一步通过终端语音传送接口212和至少一个网络元件语音传送接口224提供给至少一个网络语音识别引擎226。
类似于图2的设备,在步骤306,终端语音识别引擎识别音频命令以产生至少一个终端识别的音频命令,其中,该至少一个终端识别的音频命令具有相应的终端置信度值。在步骤308,所述至少一个网络语音识别引擎226识别音频命令以产生至少一个网络识别的音频命令,其中,所述至少一个网络识别的音频命令具有相应的网络置信度值。所述至少一个网络语音识别引擎与终端语音识别引擎识别相同的音频命令,但是独立于终端语音识别引擎来识别音频命令。
一旦终端语音识别引擎216已经识别音频命令,那么通过连接232把所述至少一个终端识别的音频命令提供给比较器228。同样,一旦所述至少一个网络语音识别引擎226已经识别所述音频命令,那么通过连接230把所述至少一个网络识别的音频命令提供给比较器228。
在本发明的一个实施例中,在步骤310比较器228用一个终端权重因子对至少一个终端置信度值加权,用一个网络权重因子对至少一个网络置信度值加权。例如,所述比较器可以遵从所述至少一个网络语音识别引擎的识别,从而调整即把所述网络置信度值乘以一个比例因子以增大网络置信度值并且调整即把终端置信度值乘以一个比例因子以降低终端置信度值。
此外,所述方法在步骤312从所述至少一个终端识别音频命令和所述至少一个网络识别的音频命令选择至少一个识别的音频命令,其具有一个识别命令置信度值。特别是,比较器228基于所述识别音频命令的置信度值选择多个识别的音频命令。在本发明的一个实施例中,会话管理器234向比较器提供一个N-best指示符,指示所需要的识别命令的数量N。比较器228通过所述至少一个终端识别的音频命令和所述至少一个网络识别的音频命令的相应置信度值对它们进行分类并且从中提取N个最佳命令。
在本发明的一个实施例中,比较器228可以基于所识别的音频命令的相应置信度值过滤所述至少一个终端识别的音频命令和至少一个网络识别的音频命令。例如,比较器可以有一个最小置信度值,所识别的音频命令置信度值与它相比较并且具有低于所述最小置信度值的置信度值的所有识别音频命令被排除。从而,比较器向会话管理器提供N个最佳命令。
此外,在置信度值高于最小度置信度水平的命令小于N个的情况中,比较器可以向会话管理器提供小于N个的命令。在比较器没有接收到任何置信度值高于最小置信度水平的识别命令时,比较器产生一个错误通知并且通过连接236把所述错误通知提供给会话管理器。此外,在步骤314,当至少一个终端置信度值和至少一个网络置信度值低于一个最小置信度值时,例如低于0.5的置信度水平,产生一个错误通知。
在本发明的一个实施例中,在步骤316会话管理器可以检验所述至少一个识别的音频命令,以产生一个检验过的识别音频命令,并且基于所述检验过的识别音频命令执行一个操作。例如,会话管理器可以经语音传送接口212和214和语音合成引擎238,通过扬声器208把识别音频命令的N-best列表提供给用户。用户然后可以选择N个最佳命令中的哪一个能精确反映原始的音频命令,从而产生一个检验过的识别音频命令。
然后以与提供原始音频命令相同的方式把检验过的识别音频命令返回给会话管理器234。例如,N-best列表中的第四个识别的音频命令是正确的命令,并且用户检验所述命令,产生一个检验过的识别音频命令,所述用户然后可以向麦克风206说出单词4,其被提供给终端语音识别引擎216和所述至少一个网络语音识别引擎226并且进一步提供给比较器228,在那里它被提供给会话管理器234。会话管理器234一接收到所述检验过的识别音频命令就基于所述检验过的识别音频命令执行一个操作。
会话管理器234可以基于所述至少一个识别的音频命令或所述检验过的音频命令执行多个操作。例如,会话管理器可以访问一个内容服务器104,例如一个商业数据库,以搜索所请求的信息。此外,会话管理器可以执行程序内的一个操作,如继续预编程的应用程序的下一个步骤。还有,会话管理器可以把识别的音频命令填充为一种形式并且随即从用户请求用于所述形式的下一条或输入。如本领域技术人员所公知的,会话管理器可以针对或在接收到至少一个识别音频命令时执行任何合适的操作。
在本发明的一个实施例中,在步骤318一旦接收到所述至少一个识别的音频命令,会话管理器基于所述至少一个识别的音频命令的置信度值过滤所述至少一个识别的命令,并且基于具有最高识别音频命令置信度值的识别音频命令执行一个操作。例如,会话管理器可以除去所有置信度值低于一个预定设置,例如低于0.6的所有识别音频命令,并且基于其余的识别音频命令执行一个操作。如上所述,会话管理器可以响应所述至少一个识别的音频命令执行任何合适的可执行操作。
此外,类似于比较器236执行的操作,会话管理器可以基于所述过滤设法除去任何置信度值低于预定置信度水平的任何识别音频命令。例如,会话管理器设置的最小置信度值可以比比较器高,如所述最小置信度水平可以由会话管理器234独立于系统200的其他部分来设置。在过滤后会话管理器不包含任何高于所述会话管理器最小置信度水平的识别音频命令的情况中,类似于比较器228,会话管理器234产生一个错误通知。
一旦产生所述错误通知,所述会话管理器执行一个错误命令234以通知用户,没有正确接收到音频命令。如本领域技术人员所公知的,会话管理器可以简单地执行错误命令,而不像比较器228执行的那样产生错误通知。
一旦会话管理器已经完全执行了所述操作,在步骤320完成用于多级分布式识别的方法。
本发明通过一个第一语音识别引擎和至少一个第二语音识别引擎针对多级分布式语音识别。在本发明的一个实施例中,第一语音识别位于终端内并且所述至少一个第二语音识别引擎位于网络中。如本领域技术人员所公知的,语音识别引擎可以位于终端、网络元件,位于可操作地耦合到所述网络元件在所述网络上的一个单独的服务器等等,其中语音识别引擎接收音频命令并且提供至少一个识别的音频命令进行比较并且提供给一个会话管理器。此外,本发明通过独立于提供命令给第一语音识别引擎,提供相同的音频命令给第二语音识别引擎来改进现有技术。因此,与第一语音识别引擎的识别能力无关,同样的音频命令进一步提供给第二语音识别。同样,本发明通过利用多个语音识别引擎和一个比较器和会话管理器来改上语音识别的可靠性,它们可以接收并且进一步改进系统和方法的语音识别能力的精确度。
应所述理解,本发明的其他变形和修改的实施和它的各方面对于本领域普通技术人员是显而易见的,本发明并不受在此描述的具体实施例的限制。例如,图4的比较器和会话管理器可以位于耦合到所述网络元件的一个服务器上,而不位于所述网络元件内。因此可以想到,本发明覆盖落在在此公开和描述的基础原理的精神和范围内的任何和所有修改、变形或等效方式。

Claims (22)

1.一种用于多级分布式语音识别的方法,包括:
将音频命令提供给一个第一语音识别引擎和至少一个第二语音识别引擎;
在所述第一语音识别引擎中识别所述音频命令以产生至少一个第一识别的音频命令,其中所述至少一个第一识别的音频命令具有一个相应的第一置信度值;并且
独立于第一语音识别引擎识别所述音频命令,在所述至少一个第二语音识别引擎中识别所述音频命令以产生至少一个第二识别的音频命令,其中所述至少一个第二识别的音频命令具有一个相应的第二置信度值。
2.如权利要求1的方法,进一步包括:
基于所述至少一个第一置信度值和所述至少一个第二置信度值从所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令中选择至少具有一个识别音频命令置信度值的一个识别的音频命令。
3.如权利要求1的方法,进一步包括:
在选择至少一个识别的音频命令之前,用第一权重因子对所述至少一个第一置信度值进行加权,并且用第二权重因子对所述至少一个第二置信度值进行加权。
4.如权利要求2的方法,进一步包括:
基于所述至少一个识别的音频命令执行至少一个操作。
5.如权利要求2的方法,进一步包括:
检验所述至少一个识别的音频命令。
6.如权利要求1的方法,进一步包括;
当所述至少一个第一置信度值和所述至少一个第二置信度值低于一个最小置信度水平时,产生一个错误通知。
7.一种用于多级分布式语音识别的方法,该方法包括:
将音频命令提供给一个终端语音识别引擎和至少一个网络语音识别引擎;
在所述终端语音识别引擎中识别所述音频命令以产生至少一个终端识别的音频命令,其中所述至少一个终端识别的音频命令具有一个相应的终端置信度值;并且
在所述至少一个网络语音识别引擎中识别所述音频命令以产生至少一个网络识别的音频命令,其中所述至少一个网络识别的音频命令具有一个相应的网络置信度值;
从所述至少一个终端识别的音频命令和所述至少一个网络识别的音频命令中选择具有一个识别音频命令置信度值的至少一个识别的音频命令。
8.如权利要求7的方法,进一步包括;
当所述至少一个终端置信度值和所述至少一个网络置信度值低于一个最小置信度水平时,产生一个错误通知。
9.如权利要求7的方法,进一步包括:
在选择所述至少一个识别的音频命令之前,用终端权重因子对所述至少一个终端置信度值进行加权,并且用网络权重因子对所述至少一个网络置信度值进行加权。
10.如权利要求7的方法,进一步包括:
基于所述至少一个识别的音频命令的置信度值来过滤所述至少一个识别的音频命令;并且
基于具有最高识别的音频命令的置信度值的所述识别音频命令执行一操作。
11.如权利要求7的方法,进一步包括:
检验所述至少一个识别的音频命令,以产生一个检验的识别音频命令;并且
基于所述检验的识别音频命令执行一操作。
12.一种用于多级分布式音频识别的设备,该设备包括:
可操作地耦合到音频子系统的第一音频识别装置,用于接收一个音频命令、并且产生一个第一识别的音频命令,其中,所述至少一个第一识别的音频命令具有相应的第一置信度值;并且
可操作地耦合到所述音频子系统的第二语音识别装置,其独立于第一语音识别装置,用于接收所述音频命令、并且产生至少一个第二识别的音频命令,其中,所述至少一个第二识别的音频命令具有相应的第二置信度值;以及
可操作地耦合到所述第一和第二语音识别装置的装置,用于接收所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令。
13.如权利要求12的设备,进一步包括:
可操作地耦合到所述用于接收的装置的会话管理器,其中,所述用于接收的装置基于所述至少一个第一置信度值和所述至少一个第二置信度值、从所述至少一个第一识别的音频命令和所述至少一个第二识别的音频命令中选择具有一个识别音频命令置信度值的至少一个识别的音频命令,其中,所选择的至少一个音频命令被提供给所述会话管理器。
14.如权利要求12的设备,其中:
所述会话管理器基于所述至少一个识别的音频命令置信度水平、从所述至少一个识别的音频命令确定一个会话管理器音频命令,其中,所述会话管理器响应所述会话管理器音频命令执行一操作。
15.如权利要求14的设备,其中
所述会话管理器访问一个内容服务器,并且响应所述会话管理器音频命令,搜索编码的信息。
16.如权利要求15的设备,进一步包括:
可操作地耦合到所述会话管理器的语音合成引擎,其中,所述语音合成引擎从所述会话管理器接收所述语音编码的信息、并且产生语音格式化的信息。
17.如权利要求16的设备,其中
所述音频子系统可操作地耦合到所述语音合成引擎,其中,所述音频子系统接收所述语音格式化的信息并且提供一个输出消息。
18.如权利要求17的设备,其中
当比较器向所述会话管理器提供一个错误通知时,所述输出消息是一个错误状态。
19.一种用于多级分布式音频识别的系统,该系统包括:
可操作地耦合到一个麦克风的终端音频识别引擎,其被耦合以接收一个音频命令并且产生至少一个终端识别的音频命令,其中,所述至少一个终端识别的音频命令具有一个相应的终端置信度值;并且
可操作地耦合到所述麦克风的至少一个网络语音识别引擎,其被耦合以独立于所述终端语音识别引擎,接收所述音频命令、并且产生至少一个网络识别的音频命令,其中,所述至少一个网络识别的音频命令具有一个相应的网络置信度值;
可操作地耦合到所述终端识别引擎的比较器,其被可操作地耦合以接收所述至少一个终端识别的音频命令,并且进一步被可操作地耦合到所述至少一个网络语音识别引擎,可操作地耦合以接收所述至少一个网络识别的音频命令;以及
可操作地耦合到所述比较器的会话管理器,其中,所述比较器基于所述至少一个终端置信度值和所述至少一个网络置信度值从所述至少一个终端识别的音频命令和所述至少一个网络识别的音频命令中选择具有一个识别音频命令置信度值的至少一个识别的音频命令,其中,所选的至少一个识别的音频命令被提供给所述会话管理器。
20.如权利要求19的系统,其中:
所述会话管理器基于所述至少一个识别的音频命令置信度水平从所述至少一个识别的音频命令确定一个会话管理器音频命令,其中,所述会话管理器响应所述会话管理器音频命令执行一操作。
21.如权利要求20的系统,其中
所述会话管理器访问一个内容服务器,并且响应所述会话管理器音频命令搜索编码的信息。
22.如权利要求21的系统,其中
可操作地耦合到所述会话管理器的语音合成引擎,其中,所述语音合成引擎从所述会话管理器接收所述语音编码的信息、并且产生语音格式化的信息,以及
可操作地耦合到所述语音合成引擎的扬声器,其中,所述扬声器接收所述语音格式化的信息并且提供一个输出消息。
CNB028264967A 2001-12-29 2002-12-20 用于多级分布式语音识别的方法和装置 Expired - Lifetime CN1320519C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/034,542 US6898567B2 (en) 2001-12-29 2001-12-29 Method and apparatus for multi-level distributed speech recognition
US10/034,542 2001-12-29

Publications (2)

Publication Number Publication Date
CN1633679A true CN1633679A (zh) 2005-06-29
CN1320519C CN1320519C (zh) 2007-06-06

Family

ID=21877069

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028264967A Expired - Lifetime CN1320519C (zh) 2001-12-29 2002-12-20 用于多级分布式语音识别的方法和装置

Country Status (7)

Country Link
US (1) US6898567B2 (zh)
JP (1) JP4509566B2 (zh)
KR (1) KR100632912B1 (zh)
CN (1) CN1320519C (zh)
AU (1) AU2002367354A1 (zh)
FI (2) FI125330B (zh)
WO (1) WO2003058604A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101484934B (zh) * 2006-06-27 2013-01-02 德国电信股份公司 语言表达的自然语言识别方法和装置
CN103117058A (zh) * 2012-12-20 2013-05-22 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别系统
CN105027574A (zh) * 2013-01-07 2015-11-04 三星电子株式会社 在语音识别系统中控制显示装置的显示装置和方法
CN101366073B (zh) * 2005-08-09 2016-01-20 移动声控有限公司 多种语音识别软件实例的使用
CN105374357A (zh) * 2015-11-23 2016-03-02 青岛海尔智能技术研发有限公司 一种语音识别方法、装置及语音控制系统
CN106340297A (zh) * 2016-09-21 2017-01-18 广东工业大学 一种基于云计算与置信度计算的语音识别方法与系统
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
CN106601257A (zh) * 2016-12-31 2017-04-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
CN110431626A (zh) * 2017-03-03 2019-11-08 微软技术许可有限责任公司 使用成对比较进行重复语音查询中的超发音检测以改进语音识别
CN110706711A (zh) * 2014-01-17 2020-01-17 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
US11817101B2 (en) 2013-09-19 2023-11-14 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US20030145062A1 (en) * 2002-01-14 2003-07-31 Dipanshu Sharma Data conversion server for voice browsing system
US7324942B1 (en) * 2002-01-29 2008-01-29 Microstrategy, Incorporated System and method for interactive voice services using markup language with N-best filter element
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7809565B2 (en) * 2003-03-01 2010-10-05 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
JP4000095B2 (ja) * 2003-07-30 2007-10-31 株式会社東芝 音声認識方法、装置及びプログラム
US20050209859A1 (en) * 2004-01-22 2005-09-22 Porto Ranelli, Sa Method for aiding and enhancing verbal communication
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition
US7421387B2 (en) * 2004-02-24 2008-09-02 General Motors Corporation Dynamic N-best algorithm to reduce recognition errors
US20050187767A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce speech recognition errors
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
GB2412997A (en) * 2004-04-07 2005-10-12 Mitel Networks Corp Method and apparatus for hands-free speech recognition using a microphone array
TWI237991B (en) * 2004-06-28 2005-08-11 Delta Electronics Inc Integrated dialogue system and method thereof
US20060009974A1 (en) * 2004-07-09 2006-01-12 Matsushita Electric Industrial Co., Ltd. Hands-free voice dialing for portable and remote devices
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
US8221126B2 (en) * 2004-11-22 2012-07-17 Bravobrava L.L.C. System and method for performing programmatic language learning tests and evaluations
WO2006057896A2 (en) * 2004-11-22 2006-06-01 Bravobrava, L.L.C. System and method for assisting language learning
US8272874B2 (en) * 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
KR100655489B1 (ko) * 2004-12-06 2006-12-08 한국전자통신연구원 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법
KR100728620B1 (ko) * 2005-02-07 2007-06-14 한국정보통신대학교 산학협력단 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
KR100693284B1 (ko) * 2005-04-14 2007-03-13 학교법인 포항공과대학교 음성 인식 장치
US20060287863A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Speaker identification and voice verification for voice applications
GB0513820D0 (en) * 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
US7953603B2 (en) * 2005-12-21 2011-05-31 International Business Machines Corporation Load balancing based upon speech processing specific factors
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
JP5177561B2 (ja) * 2007-02-06 2013-04-03 日本電気株式会社 認識器重み学習装置および音声認識装置、ならびに、システム
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US8306021B2 (en) 2008-04-02 2012-11-06 Twilio, Inc. System and method for processing telephony sessions
US8837465B2 (en) 2008-04-02 2014-09-16 Twilio, Inc. System and method for processing telephony sessions
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
WO2010040010A1 (en) 2008-10-01 2010-04-08 Twilio Inc Telephony web event system and method
CN102415068B (zh) 2009-03-02 2015-09-02 特维里奥公司 用于多租户电话网络的方法和系统
US8509415B2 (en) 2009-03-02 2013-08-13 Twilio, Inc. Method and system for a multitenancy telephony network
US20110083179A1 (en) * 2009-10-07 2011-04-07 Jeffrey Lawson System and method for mitigating a denial of service attack using cloud computing
US9210275B2 (en) 2009-10-07 2015-12-08 Twilio, Inc. System and method for running a multi-module telephony application
US8582737B2 (en) * 2009-10-07 2013-11-12 Twilio, Inc. System and method for running a multi-module telephony application
KR20110065095A (ko) * 2009-12-09 2011-06-15 삼성전자주식회사 디바이스를 제어하는 방법 및 그 장치
US8638781B2 (en) * 2010-01-19 2014-01-28 Twilio, Inc. Method and system for preserving telephony session state
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
DE102010012622B4 (de) * 2010-03-24 2015-04-30 Siemens Medical Instruments Pte. Ltd. Binaurales Verfahren und binaurale Anordnung zur Sprachsteuerung von Hörgeräten
US9459925B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US9338064B2 (en) 2010-06-23 2016-05-10 Twilio, Inc. System and method for managing a computing cluster
US20120208495A1 (en) 2010-06-23 2012-08-16 Twilio, Inc. System and method for monitoring account usage on a platform
US9459926B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US8416923B2 (en) 2010-06-23 2013-04-09 Twilio, Inc. Method for providing clean endpoint addresses
US9590849B2 (en) 2010-06-23 2017-03-07 Twilio, Inc. System and method for managing a computing cluster
US8838707B2 (en) 2010-06-25 2014-09-16 Twilio, Inc. System and method for enabling real-time eventing
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US8649268B2 (en) 2011-02-04 2014-02-11 Twilio, Inc. Method for processing telephony sessions of a network
US9648006B2 (en) 2011-05-23 2017-05-09 Twilio, Inc. System and method for communicating with a client application
WO2012162397A1 (en) 2011-05-23 2012-11-29 Twilio, Inc. System and method for connecting a communication to a client
US20140044123A1 (en) 2011-05-23 2014-02-13 Twilio, Inc. System and method for real time communicating with a client application
JP5658641B2 (ja) * 2011-09-15 2015-01-28 株式会社Nttドコモ 端末装置、音声認識プログラム、音声認識方法および音声認識システム
US10182147B2 (en) 2011-09-21 2019-01-15 Twilio Inc. System and method for determining and communicating presence information
WO2013044138A1 (en) 2011-09-21 2013-03-28 Twilio, Inc. System and method for authorizing and connecting application developers and users
US9495227B2 (en) 2012-02-10 2016-11-15 Twilio, Inc. System and method for managing concurrent events
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9240941B2 (en) 2012-05-09 2016-01-19 Twilio, Inc. System and method for managing media in a distributed communication network
US9602586B2 (en) 2012-05-09 2017-03-21 Twilio, Inc. System and method for managing media in a distributed communication network
US20130304928A1 (en) 2012-05-09 2013-11-14 Twilio, Inc. System and method for managing latency in a distributed telephony network
US8849041B2 (en) 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
US9247062B2 (en) 2012-06-19 2016-01-26 Twilio, Inc. System and method for queuing a communication session
US8737962B2 (en) 2012-07-24 2014-05-27 Twilio, Inc. Method and system for preventing illicit use of a telephony platform
US8738051B2 (en) 2012-07-26 2014-05-27 Twilio, Inc. Method and system for controlling message routing
JP5706384B2 (ja) * 2012-09-24 2015-04-22 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
WO2014055076A1 (en) 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
US8948356B2 (en) 2012-10-15 2015-02-03 Twilio, Inc. System and method for routing communications
US8938053B2 (en) 2012-10-15 2015-01-20 Twilio, Inc. System and method for triggering on platform usage
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9253254B2 (en) 2013-01-14 2016-02-02 Twilio, Inc. System and method for offering a multi-partner delegated platform
US9734819B2 (en) * 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9282124B2 (en) 2013-03-14 2016-03-08 Twilio, Inc. System and method for integrating session initiation protocol communication in a telecommunications platform
US9001666B2 (en) 2013-03-15 2015-04-07 Twilio, Inc. System and method for improving routing in a distributed communication platform
JP6050171B2 (ja) * 2013-03-28 2016-12-21 日本電気株式会社 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
US9160696B2 (en) 2013-06-19 2015-10-13 Twilio, Inc. System for transforming media resource into destination device compatible messaging format
US9338280B2 (en) 2013-06-19 2016-05-10 Twilio, Inc. System and method for managing telephony endpoint inventory
US9225840B2 (en) 2013-06-19 2015-12-29 Twilio, Inc. System and method for providing a communication endpoint information service
US9483328B2 (en) 2013-07-19 2016-11-01 Twilio, Inc. System and method for delivering application content
KR102394485B1 (ko) 2013-08-26 2022-05-06 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
US9274858B2 (en) 2013-09-17 2016-03-01 Twilio, Inc. System and method for tagging and tracking events of an application platform
US9338018B2 (en) 2013-09-17 2016-05-10 Twilio, Inc. System and method for pricing communication of a telecommunication platform
US9137127B2 (en) 2013-09-17 2015-09-15 Twilio, Inc. System and method for providing communication platform metadata
CN104517609A (zh) * 2013-09-27 2015-04-15 华为技术有限公司 一种语音识别方法及装置
US9553799B2 (en) 2013-11-12 2017-01-24 Twilio, Inc. System and method for client communication in a distributed telephony network
US9325624B2 (en) 2013-11-12 2016-04-26 Twilio, Inc. System and method for enabling dynamic multi-modal communication
KR102215579B1 (ko) 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置
US9344573B2 (en) 2014-03-14 2016-05-17 Twilio, Inc. System and method for a work distribution service
US9226217B2 (en) 2014-04-17 2015-12-29 Twilio, Inc. System and method for enabling multi-modal communication
US9251371B2 (en) 2014-07-07 2016-02-02 Twilio, Inc. Method and system for applying data retention policies in a computing platform
US9774687B2 (en) 2014-07-07 2017-09-26 Twilio, Inc. System and method for managing media and signaling in a communication platform
US9246694B1 (en) 2014-07-07 2016-01-26 Twilio, Inc. System and method for managing conferencing in a distributed communication network
US9516101B2 (en) 2014-07-07 2016-12-06 Twilio, Inc. System and method for collecting feedback in a multi-tenant communication platform
US9749428B2 (en) 2014-10-21 2017-08-29 Twilio, Inc. System and method for providing a network discovery service platform
US9477975B2 (en) 2015-02-03 2016-10-25 Twilio, Inc. System and method for a media intelligence platform
JP6572969B2 (ja) * 2015-03-30 2019-09-11 富士通クライアントコンピューティング株式会社 音声認識装置、音声認識システム、及び、プログラム
US10395555B2 (en) * 2015-03-30 2019-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing optimal braille output based on spoken and sign language
US9948703B2 (en) 2015-05-14 2018-04-17 Twilio, Inc. System and method for signaling through data storage
US10419891B2 (en) 2015-05-14 2019-09-17 Twilio, Inc. System and method for communicating through multiple endpoints
CN105551494A (zh) * 2015-12-11 2016-05-04 奇瑞汽车股份有限公司 一种基于手机互联的车载语音识别系统及识别方法
US10659349B2 (en) 2016-02-04 2020-05-19 Twilio Inc. Systems and methods for providing secure network exchanged for a multitenant virtual private cloud
US10686902B2 (en) 2016-05-23 2020-06-16 Twilio Inc. System and method for a multi-channel notification service
US10063713B2 (en) 2016-05-23 2018-08-28 Twilio Inc. System and method for programmatic device connectivity
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
CN109741743B (zh) * 2019-01-10 2021-03-05 深圳市江波龙电子股份有限公司 一种设备的控制方法及装置、非易失性存储介质
CN112896048A (zh) * 2021-03-15 2021-06-04 中电科创智联(武汉)有限责任公司 一种基于手机互联和语音识别的车载环视显示系统及方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5101375A (en) * 1989-03-31 1992-03-31 Kurzweil Applied Intelligence, Inc. Method and apparatus for providing binding and capitalization in structured report generation
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
US5365574A (en) * 1990-05-15 1994-11-15 Vcs Industries, Inc. Telephone network voice recognition and verification using selectively-adjustable signal thresholds
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH09326856A (ja) * 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JPH10116093A (ja) * 1996-10-09 1998-05-06 Nec Corp 音声認識装置
JP3039399B2 (ja) * 1996-10-31 2000-05-08 日本電気株式会社 非母国語音声認識装置
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6101473A (en) * 1997-08-08 2000-08-08 Board Of Trustees, Leland Stanford Jr., University Using speech recognition to access the internet, including access via a telephone
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6119087A (en) 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
US6229880B1 (en) * 1998-05-21 2001-05-08 Bell Atlantic Network Services, Inc. Methods and apparatus for efficiently providing a communication system with speech recognition capabilities
US6185535B1 (en) 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
US6292781B1 (en) 1999-05-28 2001-09-18 Motorola Method and apparatus for facilitating distributed speech processing in a communication system
US7203651B2 (en) * 2000-12-07 2007-04-10 Art-Advanced Recognition Technologies, Ltd. Voice control system with multiple voice recognition engines
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366073B (zh) * 2005-08-09 2016-01-20 移动声控有限公司 多种语音识别软件实例的使用
CN101484934B (zh) * 2006-06-27 2013-01-02 德国电信股份公司 语言表达的自然语言识别方法和装置
CN103117058A (zh) * 2012-12-20 2013-05-22 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
CN103117058B (zh) * 2012-12-20 2015-12-09 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
CN105027574B (zh) * 2013-01-07 2018-11-02 三星电子株式会社 在语音识别系统中控制显示装置的显示装置和方法
US9880808B2 (en) 2013-01-07 2018-01-30 Samsung Electronics Co., Ltd. Display apparatus and method of controlling a display apparatus in a voice recognition system
CN105027574A (zh) * 2013-01-07 2015-11-04 三星电子株式会社 在语音识别系统中控制显示装置的显示装置和方法
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别系统
US11817101B2 (en) 2013-09-19 2023-11-14 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
CN103700368B (zh) * 2014-01-13 2017-01-18 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN110706711A (zh) * 2014-01-17 2020-01-17 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
CN110706711B (zh) * 2014-01-17 2023-11-28 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
CN106471570B (zh) * 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
CN106471570A (zh) * 2014-05-30 2017-03-01 苹果公司 多命令单一话语输入方法
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
CN105374357A (zh) * 2015-11-23 2016-03-02 青岛海尔智能技术研发有限公司 一种语音识别方法、装置及语音控制系统
CN106340297A (zh) * 2016-09-21 2017-01-18 广东工业大学 一种基于云计算与置信度计算的语音识别方法与系统
US10438590B2 (en) 2016-12-31 2019-10-08 Lenovo (Beijing) Co., Ltd. Voice recognition
CN106601257A (zh) * 2016-12-31 2017-04-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
CN110431626A (zh) * 2017-03-03 2019-11-08 微软技术许可有限责任公司 使用成对比较进行重复语音查询中的超发音检测以改进语音识别
CN110431626B (zh) * 2017-03-03 2023-08-25 微软技术许可有限责任公司 使用成对比较进行重复语音查询中的超发音检测以改进语音识别

Also Published As

Publication number Publication date
US6898567B2 (en) 2005-05-24
FI20040872A0 (fi) 2004-06-23
WO2003058604A1 (en) 2003-07-17
WO2003058604B1 (en) 2004-04-08
FI20145179L (fi) 2014-02-25
FI125330B (fi) 2015-08-31
US20030139924A1 (en) 2003-07-24
JP4509566B2 (ja) 2010-07-21
AU2002367354A1 (en) 2003-07-24
KR100632912B1 (ko) 2006-10-13
CN1320519C (zh) 2007-06-06
KR20040072691A (ko) 2004-08-18
FI20040872A (fi) 2004-08-25
JP2005524859A (ja) 2005-08-18

Similar Documents

Publication Publication Date Title
CN1320519C (zh) 用于多级分布式语音识别的方法和装置
JP2005524859A5 (zh)
US7668710B2 (en) Determining voice recognition accuracy in a voice recognition system
US8601096B2 (en) Method and system for multi-modal communication
US7496503B1 (en) Timing of speech recognition over lossy transmission systems
CN101467204A (zh) 用于生物计量声纹认证的方法和系统
JP4173207B2 (ja) 発声音に関する話者の検証を行うためのシステム及び方法
US20070276651A1 (en) Grammar adaptation through cooperative client and server based speech recognition
CN1278944A (zh) 语音基准登记方法
US20090228274A1 (en) Use of intermediate speech transcription results in editing final speech transcription results
CN1752975A (zh) 用于支持话音的自动填充的方法和系统
CN104040626A (zh) 多译码模式信号分类
CN1329739A (zh) 到服务应用程序上的用户接口的声音控制
CN101542591A (zh) 用于提供语音识别的方法和系统
CN1977522A (zh) 基于ip语音的生物测量认证
US20030125947A1 (en) Network-accessible speaker-dependent voice models of multiple persons
CN108399913B (zh) 高鲁棒性音频指纹识别方法及系统
US20030195751A1 (en) Distributed automatic speech recognition with persistent user parameters
CN1459091A (zh) 中止自动转换的转换服务
JPH09205478A (ja) 音声認識データベースにアドレスを登録する方法とシステム
CN1165889C (zh) 话音拨号的方法和系统
CN115206321A (zh) 语音关键词的识别方法、装置和电子设备
Bimbot et al. An overview of the PICASSO project research activities in speaker verification for telephone applications
CN112102808A (zh) 用于伪造语音的深度神经网络的构建方法及系统
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110110

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110110

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois, USA

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160516

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term

Granted publication date: 20070606

CX01 Expiry of patent term