CN1722230A - 语音识别任务的分配及其结果综合 - Google Patents
语音识别任务的分配及其结果综合 Download PDFInfo
- Publication number
- CN1722230A CN1722230A CNA2005100846995A CN200510084699A CN1722230A CN 1722230 A CN1722230 A CN 1722230A CN A2005100846995 A CNA2005100846995 A CN A2005100846995A CN 200510084699 A CN200510084699 A CN 200510084699A CN 1722230 A CN1722230 A CN 1722230A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- recognition devices
- mobile device
- distribution
- tasks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 19
- 230000008878 coupling Effects 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 10
- 238000005859 coupling reaction Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 229920002457 flexible plastic Polymers 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本文介绍了一种优化多个语音识别器之间语音识别任务分配并综合这些识别器结果的系统、方法、计算机可读介质和计算机实现的系统。采用基于精度的分配机制、基于复杂性的分配机制及基于可用性的分配机制中的至少一种机制,执行分配确定以在多个语音识别器之间分配语音识别任务。基于确定的分配在多个识别器之间分配语音识别任务。综合根据语音识别任务分配从多个语音识别器接收的识别器结果。
Description
发明领域
本发明涉及语音识别任务的分配及其结果综合。
背景技术
电信业希望在移动手持式设备如个人数字助理、移动电话和其它类似设备和组合设备上执行大规模语音识别应用。这些设备一般缺乏在亦称为端点的设备本身上适应计算密集型的识别和自然语言理解任务所需的处理能力。已提出并实现了将计算密集型任务的识别部分重新分配到远程“后端”网内识别系统的方法。“后端”网内识别系统与用户采用的手持式设备分离,但经电信路径连接到用户设备;该路径是无线或有线连接。
在分布式电信系统中要解决的一个问题是在何处执行语音识别。过去已建议并/或尝试了多种解决方案:
·在移动设备上执行语音识别;
·在服务器上执行语音识别;以及
·在第三方/应用服务器上执行语音识别。
对于在移动设备上执行的语音识别,诸如手持式设备、基于输入板的个人计算机(PC)以及蜂窝电话之类的现有移动设备配备了能够在大多数情况下执行轻量级操作的计算平台。语音识别是一个复杂的过程,需要分析语音信号、提取特征、搜索统计模型(如高斯混合模型、神经网络等)以及词和语言统计信息组合。由于设备的性质和大小的原因,移动设备上诸如内存和处理能力等资源通常受到限制。因此,嵌入式语音识别软件(例如,可从《www.sensoryinc.com》获得的Sensory软件或可从《www.fonix.com》获得的fonix软件)适用于执行简单的任务;然而,语音识别软件需要更大更强的计算平台来执行复杂任务。
在终端用户移动设备上执行语音识别可能具有以下优点:
1)在移动设备上的识别任务开始后识别立即自发进行,并且无网络传送延迟;
2)识别需要更少的网络连接时间;以及
3)便于执行简单的识别任务。
移动设备上的语音识别具有以下缺点:
1)嵌入式识别器通常具有有限的处理能力;以及
2)识别任务消耗设备的计算能力,并使设备上执行的其它操作的速度放慢。
对于在电信服务器上执行的语音识别,许多电信运营商支持后端交互式话音响应系统。例如,蜂窝电信公司如Sprint支持使用移动电话进行针对语音电子邮件消息的语音浏览。电信提供商提供话音识别器子系统(通常设在单独的服务器上)来执行语音识别。此类服务器上的语音识别器通常是功能强大的高端识别器,这是因为有计算资源可用于执行复杂的识别任务。
对于应用/第三方服务器上执行的语音识别,有时电信运营商不向用户提供话音识别服务。在此类系统中,将话音信号路由到第三方应用服务器,由该服务器执行语音识别和所请求的功能。类似于电信提供商提供的解决方案,复杂的识别任务在此解决方案中由第三方应用提供商的计算平台执行。
在(无论电信提供商或第三方)服务器上执行语音识别可能具有以下优点:
1)适用于复杂的识别任务;
2)与移动设备的识别精度相比,识别精度通常更高;以及
3)使移动设备摆脱了繁重的识别操作,从而使设备能够更快地响应用户。
在服务器上执行语音识别具有以下缺点:
1)需要网络连接并且要利用网络带宽来传送话音数据;以及
2)服务器计算资源与多个用户共享,因此服务器负荷取决于同时使用系统的用户数量。
发明内容
本发明在包括移动设备的分布式网络系统中分配语音识别任务。语音识别在移动设备如蜂窝电话或移动手持设备以及后端服务器如电信服务器或应用服务器上执行。本发明的实施例描述了将语音识别任务分配到多个语音识别引擎的多种方案,这些引擎包括移动设备和服务器上的识别引擎。这些方案用于优化语音识别任务的分配,以提高在响应时间和识别精度方面的性能。将依据语音识别任务分配从多个语音识别器接收的识别器结果相综合。
系统方面包括:一种分配确定机制,用于确定语音识别任务在多个语音识别器之间的分配,其中:所述多个语音识别器在不止一个设备上执行,其中至少一个设备是移动设备;一种任务分配机制,用于基于所述分配确定机制确定的分配在所述多个语音识别器之间分配语音识别任务;以及一种综合机制,用于根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果。
方法方面包括:确定语音识别任务在多个语音识别器之间的分配,其中所述多个语音识别器在不止一个设备上执行,其中至少一个设备是是移动设备;基于所述确定的分配,在多个语音识别器之间分配语音识别任务;以及根据所述语音识别任务分配综合从多个语音识别器接收的识别器结果。
计算机可读介质方面包括至少一个机器可执行指令序列,并且所述介质承载机器形式的可执行指令,其中:由处理器执行所述指令使所述处理器:确定语音识别任务在多个语音识别器之间的分配;基于所述确定的分配在多个语音识别器之间分配语音识别任务;以及根据所述语音识别任务分配综合从多个语音识别器接收的识别器结果;其中,所述多个语音识别器在不止一个设备上执行,其中至少一个设备是移动设备。
一种在多个语音识别器之间分配语音识别任务的计算机实现的系统包括:用于接收和发送数据的处理器以及耦合到所述处理器的存储器;所述存储器中存储一些指令,这些指令使所述处理器确定语音识别任务在多个语音识别器之间的分配;基于所述确定的分配在多个语音识别器之间分配语音识别任务;以及根据所述语音识别任务分配综合从多个语音识别器接收的识别结果;其中,所述多个语音识别器在不止一个设备上执行,其中至少一个设备是移动设备。
本领域技术人员根据如下详细说明容易明白本发明的其它优点,以下简单地通过例示实施本发明的最佳模式来显示并描述了本发明的实施例。将会意识到,本发明可以采取其它的和不同的实施例,并且其若干细节可以在各方面加以修改,所有这些均未背离本
发明范围。
附图说明
本发明通过附图中的非限制性示例来加以说明,在所有附图中,具有相同标记的要素表示类似的要素,附图中:
图1是可结合本发明实施例使用的系统的高级框图;
图2是在如图1所示的系统中执行语音识别的方法实施例的高级对象交互图;以及
图3是可结合本发明实施例使用的计算机系统的高级框图。
具体实施方式
与上述方法不同,根据本发明的实施例利用多个语音识别器,每个常驻在移动设备、电信服务器或应用服务器等上面,并且将多个语音识别器的输出综合成单个确定结果。
图1和图2分别显示了可结合本发明使用的系统100的高级结构图和高级对象操作交互图。系统100包括可经无线网络106连接到后端电信/应用服务器108的移动设备104如移动手持式电话。如图2所示,此类系统中的共同操作包括:
·用户102使用话音或语音命令与系统100进行交互;
·系统100(移动设备104、在服务器108A和应用服务器108B上执行的网络后端应用)使用语音识别来识别用户输入命令;
·执行与用户输入命令关联的功能(在移动设备104或服务器108A、108B上);以及
·随后将执行所请求的功能得到的结果回送给用户102。
下面的情况描述根据本发明实施例的方法,以便1)优化语音识别任务到一个或多个分布式语音识别器的分配以及2)将分布式任务的结果综合成单个识别结果。
情况1:基于复杂性的分配
采样基于复杂性的分配方案,根据识别任务的复杂性将语音识别任务分配到语音识别器。如上所述,轻量级识别任务可在移动设备104上执行,而重量级识别任务则分配给服务器108。移动设备104增加了增强移动设备104能力的语音识别复杂性评估单元,并提供语音识别接口以确定是将识别任务分配到本地(在设备104上的)语音识别器还是将其分配到服务器108上的识别器。
移动设备104通过多种方法完成识别任务复杂性评估。一种评估标准是使用词汇量。小词汇量语音识别任务执行起来更容易且更快速,这是因为它们需要更少的统计模型和格型搜索技术。因此,嵌入识别器,例如安装在移动设备104上的识别器执行这样的简单任务。大词汇量语音识别更加困难,需要更多的计算资源,因而由服务器108执行。
作为说明性示例,在主叫方(即,用户)与移动设备104上的应用之间的对话可包含要求“是/否”答复的简单查询。该应用提示用户102说出电话号码或一组数字。简单的语音识别任务分配给移动设备104上的嵌入式识别器。相反,使主叫方可以自然地向应用说话的应用要求能够在服务器108上执行复杂的自然语言处理和统计模型。
基于复杂性的分配方法在对话期间执行。例如,设置词汇量阈值,超过该阈值,则将识别委派给服务器108。在根据本发明的另一实施例中,标出了用于本地(移动设备104)或远程(服务器108)语音识别的对话设计。作为实施示例,对标记语言如语音扩展标记语言(VoiceXML)或语音应用语言标志(SALT)中的提示标志扩展为允许设计人员指定某个参数,该参数控制是使用移动设备104上的嵌入式识别器还是服务器108上的远程识别器来执行针对特定用户输入的识别。在移动设备104上执行的对话解释器相应地委派识别任务。如果移动设备104识别器不可用或不存在,则解释器自动切换到基于服务器108的识别。
在替代实施例中,对话解释器在服务器108上执行以确定识别任务在移动设备104与服务器108之间的分配。
情况2:基于可用性的分配
使用基于可用性的分配方案,识别器可用性是使用哪个识别器执行语音识别任务的决定因素。移动设备104经无线网络106与服务器108进行交互。存在服务器108(电信或应用服务器)上的语音识别器不可用的情形。可用性受限的原因有下列几种:
1.移动设备104不可访问网络。这在用户离开覆盖区域或者由于不可控制的情况(例如,在隧道内驾驶)而使呼叫中断时发生。
2.服务器108不可用。服务器108语音识别器是可由连接到网络106的多个用户102使用的共享资源。服务器108语音识别器一般基于每个端口许可使用,并且可用端口的数量通常是用户总数的一部分。连接到网络106的用户102的数量超过可用端口数量时,就会经移动设备104返回拒绝消息给用户102(在特定实施例中,采用识别任务队列来将识别任务排队,直至端口变为可用为止)。
3.服务器108超时。如果服务器108语音识别器由于以上原因之一而负荷太重,可能已超出完成识别任务的阈值时间,因此,移动设备104可使发送到服务器108的识别任务消息超时。由于服务器108可能断开与移动设备104的连接,或者服务器可能太慢而无法响应移动设备,因此,移动设备104启动了超时。
采用基于可用性的分配方案,移动设备104在基于服务器108的识别器不可用或者基于服务器的识别器超时时切换到基于设备的识别器。虽然设备104识别器不是完全的识别器,但有时继续使用有限的识别能力是可接受的,而不是通知用户语音识别不可用。
情况3:基于精度的分配
在识别精度相关和首选或重要的情况如电话银行中,使用了多个语音识别器,并且综合输出以提高识别精度和/或增加识别输出的可信度。在发言(utterance)“难”识别时,也使用语音识别任务的基于精度的分配方案。这是有时移动电话的情况,其中,周围环境嘈杂或背景中有发生在其它各方之间的另一交谈。一个识别器在移动设备104上执行,而其它识别器在服务器108上执行。
语音识别任务的分配是基于使用几种量度中的一种或多种量度测得的复杂性来确定的。例如,预计用户要说的词汇量。低复杂性意味着很少的备选词,高复杂性意味着许多词。在另一示例中,背景噪声确定复杂程度。噪声检测器在移动设备104上使用,测量语音信号的噪声级。如果语音信号太嘈杂,即,确定信号超过预设的阈级,则将信号确定为复杂信号。在另一示例中,用户必须重复所述内容的次数是复杂性的决定因素。如果用户重复所述内容两次或更多次,则将信号确定为复杂信号。不同实施例中可以采用其它标准。
如上所述,复杂性的预设阈级是基于一个或多个不同因素如噪声级、重复次数等设置的。在一个实施例中,移动设备104上的噪声检测器在确定复杂性时监听预设的噪声级。在另一实施例中,移动设备104用户的特殊使用,如尝试的例如软件应用或事务处理决定复杂性。例如,银行事务处理经常需要更高级别的精度,并因而具有更高的复杂性程度。
在各识别引擎如移动设备104、后端电信服务器108A和应用服务器108B分配并识别分布式识别任务后,将各个结果综合以生成单个识别结果。本发明者已制定出几种用于综合多个语音识别器输出的策略。
在2003年1月30日提出的题为“双引擎语音识别(Two EngineSpeech Recognition)”的美国专利申请10/354415(此专利受让给本发明的受让人,且通过引用全部结合于本文中)中,介绍了通过利用对识别器历史行为的统计分析和混淆矩阵来综合两个语音识别引擎输出的技术和两种综合方法。在第一种方法中,将为每个语音识别引擎统计生成的混淆矩阵转换成备选矩阵,在该矩阵中,每列按最高到最低的概率排序。设置了程序循环,在循环中,将每个语音识别引擎的语音识别输出与备选矩阵交叉比较。如果第一自动化语音识别(ASR)引擎的输出与某个备选项匹配,则将第一ASR的输出选为最终输出。如果备选矩阵提供的向量取尽而未找到匹配,则将第一语音识别引擎的输出选为最终输出。在第二种方法中,将每个ASR引擎的混淆矩阵转换为贝叶斯概率矩阵。
采用这两种方法之一,大大降低了误词率(WER),尤其对难的发言如此。将此方法应用到根据本发明的实施例,一个识别器在移动设备104上执行,而另一个识别器在服务器108A、108B中任意一个上执行。与上述申请中的所述两种识别引擎描述相反,根据本发明实施例的两个识别引擎分布在不同的设备中。通过使用训练集,即输入发言(基于用户话音的)集合来创建上述申请中所述的用于两个识别引擎的混淆矩阵,并且发言的对应副本用于理解识别引擎结果何时不正确,并校正识别引擎识别能力。训练集用于创建混淆矩阵,供以后用户使用时在识别引擎的执行期间使用。
由于一个引擎在移动设备104上执行,因此,基于不同的周围环境训练混淆矩阵很重要。移动设备104提出的难题在于:周围环境不是确定性的,因此,信号质量会受到影响。在另一实现方案中,用于在移动设备上执行的引擎的混淆矩阵基于环境参数来创建。实际上,基于周围环境创建了几个混淆矩阵。例如,基于在移动设备104上检测到的测量信噪比(SNR),生成了用于噪声环境的混淆矩阵和用于正常环境的另一矩阵。也就是说,将特殊环境的SNR与预设阈值进行比较,如果超出阈值,则确定环境为正常环境。如果未超出阈值,则确定环境为噪声环境。在替代实施例中,可设置不止一个阈值来指定不同的环境类型。
在操作中,基于音频输入检测环境条件,并且将对应的混淆矩阵用于综合。也就是说,由一种音频环境确定机制,例如在移动设备104上执行的对移动设备接收的音频输入进行评估的进程确定移动设备所处的音频环境类型。基于所确定的音频环境类型,该确定机制确定用于所确定的音频环境类型的适当混淆矩阵,例如将噪声环境类型混淆矩阵用于检测到的噪声环境中的发言。
ASR引擎顺序尝试
在具有申请序列号10/339423且题为“商用自动语音识别引擎组合(Commercial Automatic Speech Recognitioin EngineCombinations)”的美国专利申请中,描述了一种系统,该系统使用主ASR引擎,另一补充ASR引擎根据结果进一步处理语音;该申请通过引用全部结合于本文中。将此方法应用于根据本发明的实施例,首先执行移动设备104上的嵌入式识别器。随后,使用输出置信度得分测量设备104识别器的精度,如本领域技术人员所公知的那样。如果置信度得分低于预设阈值,则将识别任务分配给服务器108识别器。例如,假定80%的发言由移动设备104上的嵌入式识别器处理,则服务器108识别器解除了80%的负荷时间。也就是说,将80%的识别器任务分配给移动设备104而非服务器108。
本领域技术人员公知的其它多识别器方案,如多数表决方案可结合根据本发明的实施例使用。例如,可使用多个网络识别器:一个在设备104上,一个在电信服务器108上,一个在应用服务器108B上,一个在第三方服务器上等。移动设备105上不必正好具有一个识别器,服务器108上不必正好具有一个识别器,分布在其它设备中的多个识别器应视为在本发明实施例范围内。
示例
在根据本发明的分布式实施例中,多个识别器,即移动设备104识别器、后端电信服务器108A识别器和应用服务器108B识别器接收用于语音识别处理的相同语音。根据分布式实施例,每个识别器基于接收的相同语音输入执行语音识别处理,并将结果提供给移动设备104。在替代实施例中,将结果提供给后端电信服务器108A或应用服务器108B。在分布式实施例的一种变型中,移动设备104基于上述使用分配确定机制的一种或多种分配方法,使用根据上述方案之一的任务分配机制,将识别任务分配到多个识别器。
每个识别器逐词处理并将识别处理结果提供给移动设备104,以便使用根据上述方案之一的综合机制进行综合。提供的每个结果包括至少一个确定的匹配词、该词匹配的置信度得分及可选的每个匹配词的一个或多个其它可能性。一个匹配词和可选的可能匹配词各包括一个权重系数。匹配词的权重比可能匹配词的大得多。第一可能匹配词的权重比第二可能匹配词的大得多,对于每个可能的匹配词以此类推。这样,赋予最佳匹配词相当大的权重。
在收到每个识别器的结果后,除非正在顺序尝试ASR引擎,否则移动设备104基于多数表决技术综合结果。将每个识别器的识别结果中的每个词进行比较,如果三个识别器结果中至少两个对于给定词匹配,则将该词选为识别词。如果无一识别器结果匹配,则综合识别器所识别的每个词的置信度得分和加权以得出比较值。移动设备104对来自每个识别器结果的每个匹配词和可选的可能匹配词生成比较值。如果如上所述采用有序尝试方法,则将预设置信度得分用于确定其它设备上的其它识别引擎是否分配了识别任务。
硬件概述
图3是显示示范计算机系统300的方框图,该系统可用于实施包括服务器108和一些不同的移动设备104的本发明实施例。本发明实施例可用于当前可获得的手持式设备、个人计算机、小型主机、服务器及诸如此类。
计算机系统300包括用于传送信息的总线302或其它通信机制以及与总线302连接的用于处理信息的处理器304。计算机系统300还包括连接到总线302的主存储器306如随机存取存储器(RAM)或其它动态存储设备,以存储事务和交互数据以及要由处理器304执行的指令。主存储器306也可用于在要由处理器304执行的指令执行期间存储临时变量或其它中间信息。计算机系统300还包括连接到总线302的只读存储器(ROM)308或其它静态存储装置,以存储用于处理器304的静态信息和指令。在替代实施例中,可提供诸如磁盘或光盘等可选存储设备310(虚线),并将其连接到总线302,以存储事务和交互数据、库存量数据、订单数据及指令。
计算机系统300可经总线302连接到显示器312,如阴极射线管(CRT)或平板显示器,以向用户102显示信息和用户界面。包括输入键的输入设备314连接到总线302,以将信息和命令选择传送给处理器304。另一类型的可选用户输入设备是光标控制316(虚线),如鼠标、轨迹球或光标方向键,以将方向信息和命令选择传送给处理器304,并控制显示器312上光标的移动。此输入设备一般在两个轴,即第一轴(例如,x)和第二轴(例如,y)上具有两种自由程度,因而允许设备指定平面中的某个位置。
在用于移动设备104的计算机系统300的实施例中,可将不同类型的输入设备314和光标控制316用于实现控制和输入功能。
本发明的实施例涉及使用计算机系统300如图3所示系统来优化语音识别任务的分配。根据本发明实施例,处理器304响应经输入设备314、光标控制316或通信接口318接收的输入而执行包含在主存储器306中的指令序列,响应于此,计算机系统300对语音识别任务进行分配。所述指令可从另一计算机可读介质如存储设备310读入主存储器306中。
然而,计算机可读介质并不限于诸如存储设备310之类的设备。例如,计算机可读介质可包括软盘、软磁盘、硬盘、磁带或任何其它磁介质、只读光盘(CD-ROM)、任何其它光学介质、穿孔卡、纸带、具有穿孔图案的任何其它物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、电可编程只读存储器(EPROM)、FLASH-EPROM、任何其它存储器芯片或盒式磁盘、包含在电、电磁、红外或光信号中的载波或计算机可读取的任何其它介质。执行主存储器306中所包含的指令序列使处理器304执行上述过程步骤。在替代实施例中,硬连线电路可用于替代实施本发明的计算机软件指令或与之相结合。因此,本发明的实施例并不限于硬件电路和/或软件的任一特定组合。
计算机系统300还包括连接到总线302的通信接口318。通信接口308提供公知的双向通信。例如,通信接口318可以是无线通信网络、综合业务数字网(ISDN)卡、数字用户线(DSL)卡或向对应类型的电话线提供数据通信连接的调制解调器。又如,通信接口318可以是局域网(LAN)卡,以提供到兼容LAN的数据通信连接。也可以实现无线网络链路。在所述任何一种实现中,通信接口318发送和接收承载表示各类信息的数字数据流的电、电磁或光信号。特别要注意的是,通过接口318的通信可允许发送或接收用户提供的语音输入。例如,两个或两个以上计算机系统300可以常规方式连网,且每个均使用通信接口318。
网络链路320一般通过一个或多个网络向其它数据设备提供数据通信。例如,网络链路320可通过局域网322提供到主机324的连接,或者提供到由因特网服务提供商(ISP)326或电信服务提供商操作的数据设备的连接。ISP 326又通过现在通称为“因特网”328的环球分组数据通信网络提供数据通信服务。局域网322和因特网328均使用承载数字数据流的电、电磁或光信号。通过各种网络的信号和在网络链路320上且经过通信接口318的信号是传输信息的示范载波形式,它们承载往来于计算机系统300的数字数据。
计算机系统300可通过上述网络、网络链路320和通信接口318发送消息并接收包括程序代码的数据。在因特网示例中,服务器330可通过因特网328、ISP 326、局域网322和通信接口318发送请求的应用程序代码。根据本发明的实施例,一个这样下载的应用可实现对语音识别任务的优化分配。
接收的代码可由处理器304在接收时执行,和/或存储在存储设备310或其它非易失性存储器中以便以后执行。这样,计算机系统300可以载波形式获得应用代码。
通过同时提交识别输入到多个识别系统(其中一个识别系统位于手持式设备(前端)即设备104上,而多个识别系统位于后端即服务器108上),总的识别精度和可用性高于任一单独的系统。通常通过使用统计方法指定所说短语匹配预期输入的概率来完成语音识别。应用可决定在接收输入前短语需要匹配的程度。通过设置很高的百分比,语音识别系统可生成更精确的输出,但如果对响应不确定,则可能需要重新询问用户。通过向多个识别器提交,可由端点即移动设备104解决简单的识别任务,即是/否询问,而更复杂的基于语言学的识别任务则交给设备104识别器和服务器108识别器二者执行。虽然设备104识别器可能无法迅速处理复杂任务,但更强大的网内服务器108可以处理更复杂的任务。
下述方法和设备具有许多优点。
本发明实施例基于如下思想:可将多个网内识别器用于优化识别性能(例如在精度和速度方面),并且其中一个识别系统在移动设备如电话上,然后可利用网内识别提高识别性能。
根据本发明的实施例与上述系统相比有独特的优势;多个识别器可用于(同时或一个接一个或一次一个)提高识别精度。
当将本发明用作向自移动设备、蜂窝电话、手持式设备和无线输入板请求用户输入的装置时,可有利地提高话音接口的服务质量(QoS)和可用性。此外,在网络中使用多个分布式识别器以及用于优化语音识别任务在多个网络识别器之间的分配以提高精度和速度的方法和设备是有利的。
此外,在移动设备上完成处理器密集型复杂语音识别任务,同时保持在服务器上执行识别任务的潜在灵活性是有利的。进而(与前述相关),使在能力有限设备如蜂窝电话上执行的轻量级识别与驻留在电信服务器或应用服务器上的完全网络识别器结合使用是有利的。
在阅读上述说明书后,本领域的普通技术人员将能够影响本文以概括方式公开的本发明的各种变化、等效替换以及其它各方面。因此,本发明的预定保护范围仅由所附权利要求及其等同物限定。
Claims (10)
1.一种使用多个语音识别器的系统,所述系统包括:
一种分配确定机制,用于确定语音识别任务在多个语音识别器之间的分配,其中:所述多个语音识别器在不止一个设备上执行,其中至少一个设备是移动设备(104);
一种任务分配机制,用于基于所述分配确定机制确定的分配在所述多个语音识别器之间分配语音识别任务;以及
一种综合机制,用于根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果。
2.如权利要求1所述的系统,其特征在于:所述分配机制包括对所述多个语音识别器中的每个识别器使用混淆矩阵,其中所述混淆矩阵是基于预定音频环境类型生成的。
3.如权利要求2所述的系统,其特征在于还包括:
一种用于确定音频环境类型的音频环境确定机制,其中所述音频环境确定机制确定供所述多个语音识别器用于所述确定的音频环境类型的适当混淆矩阵。
4.一种使用多个语音识别器的方法,包括以下步骤:
确定语音识别任务在所述多个语音识别器之间的分配,其中:所述多个语音识别器在不止一个设备上执行,其中至少一个设备是是移动设备(104);
基于所述确定的分配,在所述多个语音识别器之间分配语音识别任务;以及
根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果。
5.如权利要求4所述的方法,其特征在于还包括:
基于预定音频环境类型生成混淆矩阵;
确定所述移动设备(104)上的音频环境类型;以及
基于所述确定的音频环境类型确定供所述多个语音识别器使用的适当混淆矩阵。
6.一种计算机可读介质,包括:
至少一个机器可执行指令序列;以及
所述介质承载机器形式的所述可执行指令,其中,处理器执行所述指令导致所述处理器:
确定语音识别任务在多个语音识别器之间的分配;基于所述确定的分配,在多个语音识别器之间分配语音识别任务;以及根据所述语音识别任务分配综合从所述多个语音识别器接收的识别器结果;其中,所述多个语音识别器在不止一个设备上执行,其中至少一个设备是移动设备(104)。
7.如权利要求6所述的计算机可读介质,其特征在于还包括一些指令,这些指令在由所述处理器执行时使所述处理器:基于预定音频环境类型生成混淆矩阵;确定在所述移动设备104上的音频环境类型;以及基于所述确定的音频环境类型确定供所述多个语音识别器使用的适当混淆矩阵。
8.一种用于在多个语音识别器之间分配语音识别任务的计算机实现的系统,所述系统包括:
用于接收和发送数据的处理器;以及
耦合到所述处理器的存储器;所述存储器存储一些指令,这些指令使所述处理器:确定语音识别任务在多个语音识别器之间的分配;基于所述确定的分配在多个语音识别器之间分配语音识别任务;以及根据所述语音识别任务分配综合从所述多个语音识别器接收的识别结果;其中,所述多个语音识别器在不止一个设备上执行,其中至少一个设备是移动设备(104)。
9.如权利要求8所述的系统,其特征在于还包括一些指令,这些指令在由所述处理器执行时使所述处理器基于预定音频环境类型生成混淆矩阵。
10.如权利要求8所述的系统,其特征在于还包括一些指令,这些指令在由所述处理器执行时使所述处理器:确定所述移动设备(104)上的音频环境类型,并基于所述确定的音频环境类型确定供所述多个语音识别器使用的适当混淆矩阵。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/888,593 US8589156B2 (en) | 2004-07-12 | 2004-07-12 | Allocation of speech recognition tasks and combination of results thereof |
US10/888593 | 2004-07-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1722230A true CN1722230A (zh) | 2006-01-18 |
Family
ID=35107019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005100846995A Pending CN1722230A (zh) | 2004-07-12 | 2005-07-11 | 语音识别任务的分配及其结果综合 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8589156B2 (zh) |
EP (1) | EP1617410B1 (zh) |
CN (1) | CN1722230A (zh) |
DE (1) | DE602005024894D1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894108A (zh) * | 2009-05-19 | 2010-11-24 | 上海易狄欧电子科技有限公司 | 网上搜索书源的方法及其系统 |
CN103081004A (zh) * | 2010-09-08 | 2013-05-01 | 纽昂斯通讯公司 | 用于向语音使能应用程序提供输入的方法和装置 |
CN103871409A (zh) * | 2012-12-17 | 2014-06-18 | 联想(北京)有限公司 | 一种语音识别的方法、信息处理的方法及电子设备 |
CN106019993A (zh) * | 2016-06-01 | 2016-10-12 | 佛山市顺德区美的电热电器制造有限公司 | 烹饪系统 |
CN106164921A (zh) * | 2014-07-18 | 2016-11-23 | 谷歌公司 | 利用协同定位信息的发言人验证 |
US9959865B2 (en) | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
CN108475214A (zh) * | 2016-03-28 | 2018-08-31 | 谷歌有限责任公司 | 自适应人工神经网络选择技术 |
Families Citing this family (167)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073690A1 (en) | 2002-09-30 | 2004-04-15 | Neil Hepworth | Voice over IP endpoint call admission |
US7359979B2 (en) * | 2002-09-30 | 2008-04-15 | Avaya Technology Corp. | Packet prioritization and associated bandwidth and buffer management techniques for audio over IP |
US7978827B1 (en) | 2004-06-30 | 2011-07-12 | Avaya Inc. | Automatic configuration of call handling based on end-user needs and characteristics |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7529677B1 (en) * | 2005-01-21 | 2009-05-05 | Itt Manufacturing Enterprises, Inc. | Methods and apparatus for remotely processing locally generated commands to control a local device |
US8068819B2 (en) * | 2005-01-24 | 2011-11-29 | Kyocera Corporation | System and method for increased wireless communication device performance |
EP1920432A4 (en) * | 2005-08-09 | 2011-03-16 | Mobile Voice Control Llc | LANGUAGE-CONTROLLED WIRELESS COMMUNICATION DEVICE SYSTEM |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8635073B2 (en) * | 2005-09-14 | 2014-01-21 | At&T Intellectual Property I, L.P. | Wireless multimodal voice browser for wireline-based IPTV services |
KR100664960B1 (ko) * | 2005-10-06 | 2007-01-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US9330668B2 (en) * | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
US20070162282A1 (en) * | 2006-01-09 | 2007-07-12 | Gilad Odinak | System and method for performing distributed speech recognition |
WO2007125151A1 (en) * | 2006-04-27 | 2007-11-08 | Risto Kurki-Suonio | A method, a system and a device for converting speech |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080120094A1 (en) * | 2006-11-17 | 2008-05-22 | Nokia Corporation | Seamless automatic speech recognition transfer |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20080221884A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US8204746B2 (en) * | 2007-03-29 | 2012-06-19 | Intellisist, Inc. | System and method for providing an automated call center inline architecture |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
TW200841691A (en) * | 2007-04-13 | 2008-10-16 | Benq Corp | Apparatuses and methods for voice command processing |
US20090125813A1 (en) * | 2007-11-09 | 2009-05-14 | Zhongnan Shen | Method and system for processing multiple dialog sessions in parallel |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
US8218751B2 (en) | 2008-09-29 | 2012-07-10 | Avaya Inc. | Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
WO2011052412A1 (ja) | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
US8346549B2 (en) * | 2009-12-04 | 2013-01-01 | At&T Intellectual Property I, L.P. | System and method for supplemental speech recognition by identified idle resources |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US9263058B2 (en) | 2010-06-24 | 2016-02-16 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
US9246914B2 (en) | 2010-07-16 | 2016-01-26 | Nokia Technologies Oy | Method and apparatus for processing biometric information using distributed computation |
US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
US9953643B2 (en) | 2010-12-23 | 2018-04-24 | Lenovo (Singapore) Pte. Ltd. | Selective transmission of voice data |
US9953653B2 (en) * | 2011-01-07 | 2018-04-24 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US20120197630A1 (en) * | 2011-01-28 | 2012-08-02 | Lyons Kenton M | Methods and systems to summarize a source text as a function of contextual information |
EP2678861B1 (en) | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US8810368B2 (en) | 2011-03-29 | 2014-08-19 | Nokia Corporation | Method and apparatus for providing biometric authentication using distributed computations |
US8996381B2 (en) * | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
KR20130045471A (ko) * | 2011-10-26 | 2013-05-06 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US8972263B2 (en) * | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
US20130218836A1 (en) * | 2012-02-22 | 2013-08-22 | Microsoft Corporation | Deep Linking From Task List Based on Intent |
CN102708865A (zh) * | 2012-04-25 | 2012-10-03 | 北京车音网科技有限公司 | 语音识别方法、装置及系统 |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10354650B2 (en) | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
KR101961139B1 (ko) | 2012-06-28 | 2019-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 음성 인식 방법 |
DE102012218151B4 (de) * | 2012-10-04 | 2024-02-01 | Bayerische Motoren Werke Aktiengesellschaft | Dialogführungsvorrichtung für ein Fahrzeug |
KR101284594B1 (ko) * | 2012-10-26 | 2013-07-10 | 삼성전자주식회사 | 영상처리장치 및 그 제어방법, 영상처리 시스템 |
KR20140054643A (ko) * | 2012-10-29 | 2014-05-09 | 삼성전자주식회사 | 음성인식장치 및 음성인식방법 |
US9570076B2 (en) * | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
US9171066B2 (en) | 2012-11-12 | 2015-10-27 | Nuance Communications, Inc. | Distributed natural language understanding and processing using local data sources |
US9992306B2 (en) | 2012-12-21 | 2018-06-05 | E*Trade Financial Corporation | Dynamic execution |
US10097989B2 (en) | 2012-12-21 | 2018-10-09 | E*Trade Financial Corporation | Dynamic communication |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9542947B2 (en) | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9530103B2 (en) * | 2013-04-04 | 2016-12-27 | Cypress Semiconductor Corporation | Combining of results from multiple decoders |
CN105144052B (zh) * | 2013-04-26 | 2019-02-15 | 意美森公司 | 用于柔性显示器的被动刚度和主动变形触觉输出设备 |
US9058805B2 (en) | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
US20140358538A1 (en) * | 2013-05-28 | 2014-12-04 | GM Global Technology Operations LLC | Methods and systems for shaping dialog of speech systems |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9640182B2 (en) * | 2013-07-01 | 2017-05-02 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and vehicles that provide speech recognition system notifications |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
EP3040985B1 (en) | 2013-08-26 | 2023-08-23 | Samsung Electronics Co., Ltd. | Electronic device and method for voice recognition |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
US20150120296A1 (en) * | 2013-10-29 | 2015-04-30 | At&T Intellectual Property I, L.P. | System and method for selecting network-based versus embedded speech processing |
KR102215579B1 (ko) * | 2014-01-22 | 2021-02-15 | 삼성전자주식회사 | 대화형 시스템, 디스플레이 장치 및 그 제어 방법 |
US9552817B2 (en) * | 2014-03-19 | 2017-01-24 | Microsoft Technology Licensing, Llc | Incremental utterance decoder combination for efficient and accurate decoding |
US9516165B1 (en) * | 2014-03-26 | 2016-12-06 | West Corporation | IVR engagements and upfront background noise |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10115394B2 (en) * | 2014-07-08 | 2018-10-30 | Mitsubishi Electric Corporation | Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
US10679140B2 (en) * | 2014-10-06 | 2020-06-09 | Seagate Technology Llc | Dynamically modifying a boundary of a deep learning network |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
KR101736109B1 (ko) * | 2015-08-20 | 2017-05-16 | 현대자동차주식회사 | 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US9653075B1 (en) | 2015-11-06 | 2017-05-16 | Google Inc. | Voice commands across devices |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US11017793B2 (en) * | 2015-12-18 | 2021-05-25 | Dolby Laboratories Licensing Corporation | Nuisance notification |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3428917B1 (en) * | 2016-03-10 | 2021-05-19 | Sony Corporation | Voice processing device and voice processing method |
JP6724511B2 (ja) * | 2016-04-12 | 2020-07-15 | 富士通株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
KR102481881B1 (ko) | 2016-09-07 | 2022-12-27 | 삼성전자주식회사 | 외부 디바이스를 제어하는 서버 및 그 방법 |
WO2018047421A1 (ja) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
US10062385B2 (en) * | 2016-09-30 | 2018-08-28 | International Business Machines Corporation | Automatic speech-to-text engine selection |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) * | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10410635B2 (en) * | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
US10607606B2 (en) | 2017-06-19 | 2020-03-31 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for execution of digital assistant |
KR102374910B1 (ko) | 2017-08-22 | 2022-03-16 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
US10770094B2 (en) * | 2018-01-09 | 2020-09-08 | Intel IP Corporation | Routing audio streams based on semantically generated result sets |
JP7062958B2 (ja) * | 2018-01-10 | 2022-05-09 | トヨタ自動車株式会社 | 通信システム、及び通信方法 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11355106B2 (en) * | 2018-03-30 | 2022-06-07 | Ricoh Company, Ltd. | Information processing apparatus, method of processing information and storage medium comprising dot per inch resolution for scan or copy |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
WO2020096218A1 (en) * | 2018-11-05 | 2020-05-14 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
JP2020086412A (ja) * | 2018-11-30 | 2020-06-04 | 株式会社リコー | 情報処理システム、プログラムおよび情報処理方法 |
JP7234612B2 (ja) * | 2018-11-30 | 2023-03-08 | 株式会社リコー | 情報処理システム及び情報処理方法 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11967318B2 (en) * | 2019-01-08 | 2024-04-23 | Samsung Electronics Co., Ltd. | Method and system for performing speech recognition in an electronic device |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
KR20210027991A (ko) * | 2019-09-03 | 2021-03-11 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11935519B2 (en) * | 2020-10-15 | 2024-03-19 | Google Llc | Preserving speech hypotheses across computing devices and/or dialog sessions |
US11532312B2 (en) * | 2020-12-15 | 2022-12-20 | Microsoft Technology Licensing, Llc | User-perceived latency while maintaining accuracy |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5621858A (en) * | 1992-05-26 | 1997-04-15 | Ricoh Corporation | Neural network acoustic and visual speech recognition system training method and apparatus |
WO1994014270A1 (en) * | 1992-12-17 | 1994-06-23 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
SE517836C2 (sv) * | 1995-02-14 | 2002-07-23 | Telia Ab | Metod och anordning för fastställande av talkvalitet |
US7174299B2 (en) * | 1995-08-18 | 2007-02-06 | Canon Kabushiki Kaisha | Speech recognition system, speech recognition apparatus, and speech recognition method |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
JP3887856B2 (ja) * | 1996-12-13 | 2007-02-28 | 株式会社日立製作所 | 端末装置 |
US6061654A (en) * | 1996-12-16 | 2000-05-09 | At&T Corp. | System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices |
WO1998028733A1 (en) * | 1996-12-24 | 1998-07-02 | Koninklijke Philips Electronics N.V. | A method for training a speech recognition system and an apparatus for practising the method, in particular, a portable telephone apparatus |
US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
US6205261B1 (en) * | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
WO2000058946A1 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US6314402B1 (en) * | 1999-04-23 | 2001-11-06 | Nuance Communications | Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system |
CN1207664C (zh) * | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
US7016835B2 (en) * | 1999-10-29 | 2006-03-21 | International Business Machines Corporation | Speech and signal digitization by using recognition metrics to select from multiple techniques |
JP2002116796A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US6885989B2 (en) * | 2001-04-02 | 2005-04-26 | International Business Machines Corporation | Method and system for collaborative speech recognition for small-area network |
JP4858663B2 (ja) * | 2001-06-08 | 2012-01-18 | 日本電気株式会社 | 音声認識方法及び音声認識装置 |
US6996525B2 (en) * | 2001-06-15 | 2006-02-07 | Intel Corporation | Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US6985861B2 (en) * | 2001-12-12 | 2006-01-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for combining subword recognition and whole word recognition of a spoken input |
GB2383459B (en) | 2001-12-20 | 2005-05-18 | Hewlett Packard Co | Speech recognition system and method |
US6898567B2 (en) * | 2001-12-29 | 2005-05-24 | Motorola, Inc. | Method and apparatus for multi-level distributed speech recognition |
US20030144837A1 (en) * | 2002-01-29 | 2003-07-31 | Basson Sara H. | Collaboration of multiple automatic speech recognition (ASR) systems |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
WO2003088209A1 (fr) * | 2002-04-12 | 2003-10-23 | Mitsubishi Denki Kabushiki Kaisha | Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme |
US7224981B2 (en) * | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
US6834265B2 (en) * | 2002-12-13 | 2004-12-21 | Motorola, Inc. | Method and apparatus for selective speech recognition |
US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US20040138885A1 (en) | 2003-01-09 | 2004-07-15 | Xiaofan Lin | Commercial automatic speech recognition engine combinations |
US7149689B2 (en) * | 2003-01-30 | 2006-12-12 | Hewlett-Packard Development Company, Lp. | Two-engine speech recognition |
US7363228B2 (en) * | 2003-09-18 | 2008-04-22 | Interactive Intelligence, Inc. | Speech recognition system and method |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US7917364B2 (en) * | 2003-09-23 | 2011-03-29 | Hewlett-Packard Development Company, L.P. | System and method using multiple automated speech recognition engines |
US7340395B2 (en) * | 2004-04-23 | 2008-03-04 | Sap Aktiengesellschaft | Multiple speech recognition engines |
-
2004
- 2004-07-12 US US10/888,593 patent/US8589156B2/en active Active
-
2005
- 2005-07-11 DE DE602005024894T patent/DE602005024894D1/de active Active
- 2005-07-11 CN CNA2005100846995A patent/CN1722230A/zh active Pending
- 2005-07-11 EP EP05254326A patent/EP1617410B1/en active Active
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894108A (zh) * | 2009-05-19 | 2010-11-24 | 上海易狄欧电子科技有限公司 | 网上搜索书源的方法及其系统 |
CN103081004A (zh) * | 2010-09-08 | 2013-05-01 | 纽昂斯通讯公司 | 用于向语音使能应用程序提供输入的方法和装置 |
CN103081004B (zh) * | 2010-09-08 | 2016-08-10 | 纽昂斯通讯公司 | 用于向语音使能应用程序提供输入的方法和装置 |
US9959865B2 (en) | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
CN103871409A (zh) * | 2012-12-17 | 2014-06-18 | 联想(北京)有限公司 | 一种语音识别的方法、信息处理的方法及电子设备 |
CN103871409B (zh) * | 2012-12-17 | 2018-01-23 | 联想(北京)有限公司 | 一种语音识别的方法、信息处理的方法及电子设备 |
CN106164921A (zh) * | 2014-07-18 | 2016-11-23 | 谷歌公司 | 利用协同定位信息的发言人验证 |
CN106164921B (zh) * | 2014-07-18 | 2018-12-07 | 谷歌有限责任公司 | 发言人验证系统、方法和计算机可读介质 |
CN108475214A (zh) * | 2016-03-28 | 2018-08-31 | 谷歌有限责任公司 | 自适应人工神经网络选择技术 |
CN106019993A (zh) * | 2016-06-01 | 2016-10-12 | 佛山市顺德区美的电热电器制造有限公司 | 烹饪系统 |
Also Published As
Publication number | Publication date |
---|---|
EP1617410B1 (en) | 2010-11-24 |
DE602005024894D1 (de) | 2011-01-05 |
US8589156B2 (en) | 2013-11-19 |
EP1617410A1 (en) | 2006-01-18 |
US20060009980A1 (en) | 2006-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1722230A (zh) | 语音识别任务的分配及其结果综合 | |
CN101341532B (zh) | 通过标记共享话音应用处理 | |
CN103440867B (zh) | 语音识别方法及系统 | |
US7983399B2 (en) | Remote notification system and method and intelligent agent therefor | |
CN110557451B (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
US20220115012A1 (en) | Method and apparatus for processing voices, device and computer storage medium | |
CN1764945A (zh) | 分布式语音识别系统 | |
WO2011082340A1 (en) | Method and system for processing multiple speech recognition results from a single utterance | |
CN101536084A (zh) | 对话分析 | |
CN1881206A (zh) | 对话系统 | |
CN1592427A (zh) | 从自动系统到人工操作者的呼叫处理的理想传送 | |
CN109274831A (zh) | 一种语音通话方法、装置、设备及可读存储介质 | |
CN1764946A (zh) | 分布式语音识别方法 | |
CN1577267A (zh) | 步进式标记语言与面向对象的开发工具的组合使用 | |
CN1577277A (zh) | 管理程序应用 | |
US11990130B2 (en) | Method, apparatus, device and computer storage medium for processing voices | |
US20030125947A1 (en) | Network-accessible speaker-dependent voice models of multiple persons | |
US11722596B2 (en) | Method and system for group communication across electronic mail users and feature phone users | |
CN1149795C (zh) | 下一代网络业务和智能数据网路由器的高级业务体系结构 | |
CN1671167A (zh) | 在建立通信时提供个性化指示数据 | |
US20220311766A1 (en) | Sensor-based authentication, notification, and assistance systems | |
CN1628456A (zh) | 在分组交换电话网络中进行集成式计算机控制的呼叫处理的装置和方法 | |
CN113518153B (zh) | 一种识别用户通话响应状态的方法、装置和电子设备 | |
CN1756279A (zh) | 提供要由应用使用的服务的媒体资源的管理方法 | |
CN100346625C (zh) | 一种电话语音交互系统及其实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20060118 |