CN101454775A - 通过基于协同客户端和服务器的语言识别的语法调整 - Google Patents
通过基于协同客户端和服务器的语言识别的语法调整 Download PDFInfo
- Publication number
- CN101454775A CN101454775A CNA2007800190875A CN200780019087A CN101454775A CN 101454775 A CN101454775 A CN 101454775A CN A2007800190875 A CNA2007800190875 A CN A2007800190875A CN 200780019087 A CN200780019087 A CN 200780019087A CN 101454775 A CN101454775 A CN 101454775A
- Authority
- CN
- China
- Prior art keywords
- grammar
- voice
- speech recognition
- identification
- voice grammar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006978 adaptation Effects 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004891 communication Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 10
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 4
- 238000010295 mobile communication Methods 0.000 description 16
- 235000013305 food Nutrition 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 241000234282 Allium Species 0.000 description 4
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 235000013550 pizza Nutrition 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
提供了一种用于语法调整的系统(200)和方法(300)。该方法可以包括使用第一语音语法(204)来尝试所说话语(304)的第一识别、基于识别失败而咨询(308)第二语音语法(224)、以及接收正确的识别结果(310)和一部分语音语法以用于更新(312)所述第一语音语法。第一语法可以递增地更新或扩展,以随着时间的推移而拓宽语法覆盖范围来适应用户的词汇和语法。
Description
技术领域
本文的实施例总体上涉及语音识别,并且更特别地涉及语音识别语法。
背景技术
近年来,便携式电子设备和移动通信设备的使用已显著增加。移动通信设备正在提供更多特征,诸如语音识别、画面、音乐、音频以及视频等。此类特征促进了由此人能够与移动设备互动的容易度。而且,人与移动设备之间的语音通信接口随着移动设备试图向其环境和在该环境内使用便携式设备的人学习而变得更加自然。移动通信设备上可用的许多语音识别特征可以要求对大的信息数据库的访问权。这些数据库可以包括能够存在于移动设备外部的电话簿和媒体内容。该数据库可以存在于网络上,移动设备能够接入该网络以接收此信息。
用于实现自动语音识别(ASR)的技术在本领域中众所周知。已知的ASR技术是使用语法的那些技术。语法是预期在给定的上下文中使用或说出的语言或短语的表示。因此,在某种意义上,ASR语法通常将语音识别器限制于作为可能说出单词(words)的全域的子集的词汇;并且语法可以包括子语法。于是,来自一个或多个语法或子语法的ASR语法规则可以用来表示给定上下文中可以预期的“短语”集合或词的有序组合。“语法”通常还可以是指统计语言模型(其中统计语音模型可以表示短语以及那些短语中的词之间的转变概率),诸如口述内容语音识别器中使用的那些。
虽然移动设备上的语音识别系统受到词汇的数量和语法规定的约束的限制,但它们能够充分识别人类语音。该语音识别系统可使用语音语法规则将复杂的所说话语(spoken utterances)与具体动作相关联。基于设备的语音识别系统具有低延迟且不需要网络连接的优点。但是,便携式设备具有有限的资源,包括较小词汇量和不够广泛的语音语法。因此,用于多重上下文的大的词汇量和广泛的语音语法在功率有限且存储器有限的便携式设备上可能无法实行。相反,网络语音识别系统可以利用用于许多上下文的大量词汇和语法来工作,并且能够提供更高的识别准确度。
而且,移动设备的用户通常是最常使用移动设备的语音识别能力的人。语音识别系统能够采用语音语法来缩小搜索范围,这又帮助语音识别系统得到正确的识别。然而,所述语音语法通常未并入语音识别性能,并因此通常不被告知关于成功或失败的识别尝试。因此需要通过考虑语音语法对语音识别过程的作用来改进语音识别性能。
附图说明
将在随附权利要求书中特别地阐述被认为新颖的系统的特征。结合附图,参照以下说明可以理解此处的实施例,在所述几个附图中,相同的参考编号标识相同的单元,并且其中:
图1是移动通信环境的示图;
图2是示出了依照本发明实施例的移动设备的语音处理组件的示意图;
图3是依照本发明实施例的语法调整的流程图;
图4是依照本发明实施例的语法调整的方法;
图5是依照本发明的实施例的适合于在蜂窝电话中使用的语法调整的示例;
图6是依照本发明的实施例的适合于在便携式音乐播放器中使用的语法调整的示例;
图7是依照本发明的实施例的调整用于语音口述内容的语音语法的方法;以及
图8是依照本发明的实施例的适合用于语音口述内容的语法调整的示例。
具体实施方式
虽然本说明书以限定被认为新颖的本发明的实施例的特征的权利要求结束,但人们相信通过结合附图考虑以下说明,将更好地理解方法、系统以及其它实施例,在所述附图中,相同的参考编号延续使用。
根据需要,本文公开了本方法和系统的详细实施例。然而,应理解的是所公开的实施例仅仅是示例性的,可以以各种形式体现。因此,此处所公开的具体结构和功能细节不应被解释为限制性的,而是仅仅作为权利要求的基础和作为用于教导本领域的技术人员以不同的方式在实质上适当的任何详细结构中采用本发明的实施例的代表性基础。此外,此处所使用的术语和短语并不意在是限制性的;而是在此处提供实施例的可理解说明。
如此处所使用的,术语“一(a)”或“一个(an)”被定义为一个或多于一个。如此处所使用的,术语“多个”被定义为两个或多于两个。如此处所使用的,术语“另一”被定义为至少第二或以上。如此处所使用的,术语“包括”和/或“具有”被定义为包括(即开放性语言)。如此处所使用的,术语“耦合”被定义为连接,然而不一定是直接连接,且不一定是机械连接。术语“抑制”可以被定义为部分或完全减少或消除。术语“处理”可以定义为预编程或编程指令集的许多适当的处理器、控制器、单元或诸如此类。
如此处所使用的,术语“程序”、“软件应用”以及诸如此类被定义为设计用于在计算机系统上执行的指令序列。程序、计算机程序、或软件应用可以包括子程序、函数、过程、对象方法、对象实现、可执行应用、小应用程序(applet)、小服务程序(servlet)、源代码、对象代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。
本发明的实施例涉及一种用于基于语音识别性能更新一个或多个语音语法的方法和系统。例如,具有基于设备的语音识别系统和语音语法的移动设备可以支持(enlist)具有语音识别系统和语音语法的服务器来实现更高识别准确度。移动设备上的语音语法可以依照语音识别失败而用服务器上的语音语法来更新。例如,可以评估移动设备上的语音语法的所说话语的识别性能。一旦识别失败,就可以评估服务器上的语音语法,以正确地标识所说话语。服务器可以向移动设备发送用于正确地标识所说话语的一部分或多部分语音语法。该部分语音语法可以提供所说话语的一种或多种正确解释。该部分还可以包括对应于正确的识别的数据,诸如电话簿联系信息或音乐选择数据。移动设备上的语音语法可以递增地更新或扩展,以随着时间的推移而拓宽语法覆盖范围来适应用户的词汇和语法。
该方法包括选择用于第一语音识别系统的第一语音语法;使用该第一语音语法尝试所说话语的第一识别;基于第一语法的识别失败而使用第二语音语法咨询第二语音识别系统;以及将具有对应数据和一部分第二语音语法的正确识别发送到第一语音识别系统来更新该识别和第一语音语法。基于由第二识别系统提供的所述正确识别和第二语音语法,所述第一语音识别系统调整所说话语的识别和第一语音语法。明显地,该语音语法是用于缩小基于识别性能更新的所说话语的识别范围的规则集合。该方法包括使第一语音语法与第二语音语法同步来提供所说话语的上下文。
参照图1,示出了用于语音识别的移动通信环境100。移动通信环境100可以通过射频(RF)通信网或无线局域网(WLAN)提供无线连接。在一种布置中,移动设备102可以使用诸如CDMA、GSM或iDEN的标准通信协议来与基站接收机110通信。基站接收机110又可以通过分组交换链路将移动设备102连接到因特网120。因特网120可以支持应用服务和服务层向移动设备102提供媒体或内容。移动设备102还可以使用无线通信信道来通过因特网120连接到其它通信设备。移动设备102可以与该网络上的服务器130并且与其它移动设备建立连接来交换信息。服务器130具有对数据库140的访问权,该数据库140可以被本地或远程地存储且包含简档数据(profile data)。该服务器还可以直接或通过因特网120来做应用服务的主机。在一种布置中,服务器130可以是用于输入和检索存在数据的信息服务器。
移动设备102还可以通过WLAN 104连接到因特网。无线本地接入网(WLAN)提供在本地地理区域105内的移动通信环境100的无线接入。WLAN还可以补充蜂窝式系统上的负荷,以便增大容量。WLAN通常由亦称基站的接入点(AP)104集群组成。移动通信设备102可以与基站区域105内的其它WLAN站通信,诸如膝上型电脑103。在典型的WLAN实现中,物理层使用各种技术,诸如802.11b或802.11gWLAN技术。物理层可以使用2.4GHz频带中的红外、跳频扩展频谱或2.4GHz频带中的直接序列扩展频谱。移动设备102可以向服务器130或移动通信环境100上的其它远程服务器发送和接收数据。在一个示例中,移动设备102可以通过服务器130来从语音识别数据库140发送和接收语法和词汇。
参照图2,示出了依照本发明实施例的移动设备102和服务器130的组件。移动设备102可以是任何类型的通信设备,诸如蜂窝电话、个人数字助理、膝上型电脑、笔记本、媒体播放器、音乐播放器、收音机或诸如此类。移动设备102可以包括具有本地词汇的语音识别系统(SRS)202、语音语法204以及处理器206。处理器206可以是微处理器、DSP、微芯片或能够进行计算处理的任何其它系统或设备。移动设备102可以包括外围输入和输出组件来捕获语音和播放语音和/或音乐,诸如本领域中已知的扩音器和扬声器。移动设备102还可以包括用于存储词汇关联(association)的词典210、用于记录语音的口述内容单元212以及支持应用的应用数据库214。该词典可以包括具有发音录音(transcription)并具有包括词义在内的其它相关联语音识别资源的一个或多个单词。SRS 202可以参考字典210以识别SRS 202词汇的一个或多个单词。应用数据库214可以包含用于电话簿应用的电话号码、用于音乐浏览器应用的歌曲或移动设备102上的特定应用所需的另外形式的数据。
SRS 202可以接收来自移动设备的用户的所说话语,并试图识别某些单词或短语。本领域的技术人员可以意识到SRS 202还可以应用于语音导航、语音命令、VoIP、语音XML、语音识别、语音口述内容以及诸如此类。SRS 202可以访问语音语法204,该语音语法提供一组规则以缩小本地词汇中所说话语的搜索范围。移动设备102还可以包括用于建立与服务器130的通信信道以发送和接收信息的通信单元208。该通信单元可以是RF单元,该RF单元可以提供对诸如TCP/IP和SIP等更高层次协议的支持,在所述更高层次协议上,诸如语音扩展标记语言(VoiceXML)的语言可以工作。处理器206可以通过所建立的通信信道向服务器130发送所说话语。可理解的是,处理器206可以实现SRS 202、语音语法204以及通信单元208的功能方面。这些组件仅为了说明工作原理而单独地示出,它们可以被组合在此处所考虑的本发明的其它实施例内。
服务器130还可以包括语音识别系统(SRS)222、一个或多个语音语法224、通信单元228以及处理器226。通信单元228可以与语言识别数据库140、因特网120、基站接收机110、移动设备102、接入点104以及连接到服务器130的其它通信系统通信。因此,服务器130可以接入因特网上的大量词汇、词典、以及众多的语音语法。例如,服务器130可以从移动通信环境100将大量的语音语法和词汇分别下载到语音语法224和词典230。可理解的是,服务器130接入移动通信环境100,以检索在存储器中太大而不能存储在移动设备102上的大量词汇和语音语法。
可理解的是,移动设备102可能受制于可能影响响应时间和语音识别性能的存储器和计算复杂性。如本领域中所已知的,具有较小电子组件的较小设备通常受到功率限制。这限制了它们可以执行的处理的程度。特别是,语言识别处理消耗大量的存储器和处理功能。移动设备102受到可能限制成功识别率的这些处理限制的控制。然而,移动设备102上的语音识别系统202具有低延迟并且不需要网络连接的优点。相反,服务器130上的语音识别系统222可以用能够轻易更新的大量的语法来工作。服务器130可以访问对于大量资源的网络连接性,这些资源包括各种语音语法、词典、媒体以及语言模型。
在实践中,移动设备102的用户可以向移动设备102中说话以执行动作,例如话音拨号或另一种类型的命令和控制响应。SRS 202可以识别被SRS 202语音语法204和词典210许可的某些所说话语。一方面,语音语法204可以包括用于标识所说话语并将该所说话语与动作或过程相关联的符号序列。例如,对于语音命令拨号来说,语音语法204可以包括名称与电话号码拨号动作或与所识别的所说姓名对应的其它动作的关联。例如,所说话语“查找罗伯特(Robert)”在语法中可以表示从应用数据库214访问相关联的电话号码、地址以及个人帐户。
SRS 202可能需要预先了解将被要求听取的所说话语。因此,SRS202参考提供应用上下文的此信息的语音语法204。该语音语法标识单词使用的类型和用于将针对应用的单词组合的规则。例如,用于从食物菜单点菜的语法将包含菜单上的单词列表和用于组合这些单词的容许规则集合。普通单词可以由第一SRS 202标识,并且更专门的单词可以由第二SRS 222标识。第一SRS 202和第二SRS 222可以使用相同语义类型的语法来建立应用上下文。此预先通知可以以描述语法的规则和内容的语法文件的形式出现。例如,该语法文件可以是包括巴科斯诺尔范式(BNF)中的单词关联的文本文件。该语法文件定义了控制语法中的有效话语的规则集合。作为示例,用于回答问题“在比萨饼上您想要点什么?”的语法可以被表示为:
<回答>:(("我要"|"我想要")("蘑菇"|"洋葱"))
(<reply>:(("I want"|"I′d like")("mushrooms"|"onions")));
在此规则集合下,所有有效的回答由两部分组成:1)“我要(Iwant)”或“我想要(I′d like)”,然后是2)“蘑菇(mushrooms)”或“洋葱(onions)”。这种表示法(notation)称为巴科斯诺尔范式(BNF),其中相邻元素在逻辑上“与”在一起,并且‘|’标识逻辑或。这些规则是可以添加到第二语音语法中以扩展第二语音语法的语法覆盖范围的一部分语音语法。所述语法文件可以由移动设备102或服务器130上的应用的开发人员来创建。该语法文件可以被更新以包括新规则和新单词。例如,SRS 202访问词典210来识别所说单词并将结果与语言语法204的词汇相关联。应注意的是语法规则可以增添语义注解以表示由与经过该规则许可的单词型式相关联的设备所采取的动作,例如,在食物菜单点菜应用中,用户可以请求菜单订单,并且设备一旦识别该请求,就可以提交该订单。
通常,移动设备102的用户是最经常使用设备的语音识别能力的人。例如,用户可以具有存储在移动设备102的应用数据库214中的通讯录或联系人表,用户能够查看该通讯录或联系人表来启动电话呼叫。用户可以提交SRS 202能够识别的所说话语以启动电话呼叫或执行响应动作。在呼叫期间,用户可以以包括某一语音语法的预定方式与人建立对话。例如,尽管用户可以使用某一术语或语法来与其同事说话,但是用户可以用另一术语和语法与其孩子们说话。可理解的是,该语法缩小了用于识别某一应用上下文中的所说话语的搜索范围。也就是说,该语法能够通过基于预定布置向某些单词给出预测权重而指示最可能的单词序列。
所述应用上下文及因此的语音语法对于人来说可以在设备对话系统中不同。例如,在呼叫期间,用户可以以预定方式对自然语言理解系统说话。可以存在各种语音语法,用于提供与电话拨号应用、电话簿应用以及音乐浏览器应用的对话。例如,用户可能希望在移动设备上播放某一首歌曲。该用户可以提交提供用于选择可下载歌曲的歌曲请求的所说话语。SRS 202可以识别所说话语并访问词典210,以将该识别与对应语音语法204的歌曲列表词汇相关联。每个应用可以具有其自己的语音语法,当用户在该应用程序内时可以调用该语音语法。例如,当用户下载歌曲时,可以选择歌曲列表语法。作为另一示例,当用户从头至尾滚动电话簿条目时,可以选择电话簿语法。
然而,默认语音语法可能通常不可应用于此类大范围的语法上下文;也就是说,对于不同的所说对话应用,识别不同说话情况下的各种单词。在这些情况下,默认语音语法可能不能应用广义性来识别所说话语。例如,SRS 202可能由于不足的语法覆盖范围而未能识别所说话语。该语音识别并未成功地识别所说话语,因为语音语法限制了在未知情况的上下文中的解释能力。也就是说,语法文件并未提供用于充分提供语法覆盖范围的足够的规则或内容。
因此,本发明的实施例提供对可以应用于不同应用上下文的一个或多个语音语法的更新。此外,可以基于失败的识别尝试更新语音语法,以识别针对用户的普通对话的话语。在实践中,移动设备可以使语法适应于给定情况或应用的用户对话。特定于该用户的语音语法可以移植到设备上。例如,语音语法或部分语音语法可以被下载到用户正在操作的设备。
在某些情况下,移动设备102可以查看服务器130以检索词表外的(out-of-vocabulary)单词或未识别的单词。例如,用户可以给出本地语音识别系统202不能识别的所说话语。作为响应,移动设备102可以将该所说话语或一部分所说话语发送到服务器以识别该所说话语,标识与该话语相关联的一个或多个资源,并标识用于识别所说话语的一部分语音语法。服务器130可以向移动设备102发送具有识别的词汇的可以是单词序列的识别、该部分语音语法以及相关联的资源。移动设备102可以使用该部分语音语法,以更新本地语音语法。所述词汇可以包括可以添加到词典210的一个或多个词典条目。明显地,所述识别还可以包括表示所说话语的意义的逻辑形式。而且,可以将可以是电话号码、地址或音乐选择、或诸如此类的相关联的资源添加到应用数据库214。
考虑到移动设备102可能并不总是连接到图1的移动通信环境中。因此,移动设备102可能并不总是能够依赖于服务器的语音识别。可理解地,移动设备102可以查看响应于先前的识别失败而下载的更新后的语音语法。可以使该语音语法适应于用户的词汇和语法,这是本发明的一个优点。
参照图3,依照本发明的实施例示出了语法调整的高级流程图300。流程图300描述了用于从服务器上的语音语法更新移动设备上的语音语法的事件序列。特别的,服务器上的部分语音语法被发送到移动设备,以更新该移动设备上的语音语法。这可以包括具有一个或多个单词词典条目的词汇。在步骤302,可以在移动设备102上接收所说话语。在步骤304,移动设备上的SRS 202尝试所说话语的识别。SRS 202可以参考语音语法204,以缩小所说话语的识别搜索范围。例如,SRS 202可以参考词典210,以标识对应于所说话语的SRS 202词汇中的一个或多个单词。然而,SRS 202可能由于语音语法而未能标识所说话语的适当识别或解释。例如,对应于所说话语的单词可以在词典210中,虽然SRS 202未将该单词标识为潜在的识别匹配。明显地,语音语法标识正被识别的潜在单词型式的列表。因此,即使该单词可用,SRS 202也会返回识别失败。如果该单词不在词汇中,SRS 202也将返回识别失败。应注意的是可能有很多其他的失败原因,并且这只是一个示例,在本文中并不限制本发明。
在步骤306,移动设备102可以确定识别304是否成功。特别的,如果SRS 202未成功,则语音语法可能是不充分的。一旦标识了未成功的语音识别,移动设备102就向服务器130发送所说话语。在步骤308,服务器130尝试所说话语的识别。该服务器可以参考移动通信环境100中的一个或多个相连系统以识别所说话语。在步骤310,可以评估服务器上的SRS的成功。如果该服务器不能识别所说话语,则确认未成功的识别313,并且可以将未成功的识别响应提供给移动设备。如果服务器成功地识别所说话语,则可以将该正确的识别和用于识别所说话语的一部分语音语法发送到移动设备。在步骤312,移动设备可以用从服务器接收到的那部分语音语法更新本地语音语法。明显地,发明的这些方面包括发送用于识别所说话语的至少一部分语音语法。该部分可以包括全部的语音语法。可理解地,为了调整设备上的语音识别系统,所述本地语音语法被更新以提供语音覆盖范围。明显地,与该部分语法相关联的一部分词典和与该部分语法相关联的一部分应用数据库可以连同该部分语法一起被发送到移动设备。
参照图4,提供了一种用于语法调整的方法400。方法400的步骤还阐明了流程图300的方面。将参照图1标识与处理步骤相关联的组件。在步骤402,可以选择第一语音语法以用于第一语音识别系统。例如,用户可以提交可以由SRS 202处理的所说话语(302)。SRS 202可以选择一个或多个语音语法204以评估所说话语,并在步骤404使用所选的语音语法来尝试正确的识别。在步骤406,基于未成功的识别(306),移动设备102可以咨询服务器130上的第二SRS 222。例如,通信单元208和处理器206可以将所说话语发送到服务器130上的通信单元228以识别所说话语(308)。
处理器还可以使语音语法204与第二语音语法224同步以改善第二SRS 222的识别准确度。可理解地,第二SRS 222可以不知道第一SRS 202的上下文。也就是说,第二SRS 222可以执行穷举搜索以识别不可以应用于该情况(即该上下文)的单词。第二语音语法224与语音语法204的同步有益地缩小了第二SRS 22的搜索范围。通过使第一SRS 202和第二SRS 222之间的语音语法同步,第二SRS 222可以缩小搜索正确的语音识别匹配的范围。例如,如果第一SRS 222正在使用语音语法204并搜索其无法识别的食物订单表中的食物菜单项,则移动设备102可以发送未识别的食物菜单项并使第二语音语法224与第一语音语法204同步。因此,基于由同步的语音语法224所建立的上下文,SRS 222可以搜索未识别的食物菜单项。例如,如果语音语法224将语法标识为食物菜单订单,则SRS 222将不会在汽车订单表中搜索汽车零件。所述同步减少了匹配与食物菜单订单相关联的语音语法的可能单词。
第一语音识别系统和第二语音识别系统可以使用相同语义类型的语法以建立应用上下文。语法的语义可以定义该语法中使用的术语的意义。例如,食物菜单订单应用可以具有与食物选择有关的语音语法,而医院应用可以具有病历语音语法。天气应用可以具有用于查询天气情况或统计数字的询问部分。另一上下文可以包括位置感知,其中用户说出地理区域以获取位置感知覆盖范围,诸如存在信息。服务器130上的SRS 224可以下载语音语法和词汇,以识别接收到的所说话语。如果SRS 224正确地标识了所说话语(310),服务器130可以将具有一部分语音语法的正确识别发送到移动设备102(312)。该识别可以包括所说话语的正确解释连同诸如电话号码、地址、音乐选择义及诸如此类的相关资源。该识别还可以包括正确词汇的词典条目和最近邻识别的列表。例如,最近邻可以是具有所说话语的正确解释的一个或多个单词,诸如同义词。
基于从移动设备102接收到正确的识别,服务器130还可以更新诸如语音语法224的资源。该资源还可以是词典、口述内容存储器、或诸如日历或通讯录的个人信息文件夹,虽然其不限于这些。服务器130还可以将正确的词汇和最近邻识别的列表添加到与移动设备的用户相关联的词典230。另一方面,一旦接收到词汇并验证其是正确的,移动设备就可以向服务器130发送已收到(receipt)。该服务器可以将正确识别的简档存储在词典230中,该词典包括提供给移动设备102的最近邻识别的列表。该词典可以包括发音列表。
一旦接收到正确识别,移动设备102就可以更新词典210和语音语法204(312)。例如,对于口述内容类语音识别,该部分语音语法可以是诸如N元语法的语言模型。正确的识别可以包括新词汇单词、新词典条目或与正确识别相关联的新资源,诸如电话号码、地址或音乐选择。在命令和控制类语音识别的情形中,可以使用有限状态语法或诸如上下文无关语法或递归转移网络的其它语言约束识别一组受约束的命令。有限状态语法是容许单词转移的图表,上下文无关语法是一组特定上下文无关语法规则格式的规则,并且递归转移网络是可以嵌套的有限状态语法的集合。
在步骤410,基于正确的词汇和所提供的部分语音语法,可以调整语音语法204。例如,可以调整语音语法204单词连接,以并入生词连接,或者可以用词汇更新词典210。移动设备还可以记录一个或多个识别成功或一个或多个识别失败,以调整SRS 202。
如果SRS 222不能识别所说话语,则识别失败可以被发送到移动单元102,以将失败的尝试通知移动单元102。作为响应,移动单元102可以向用户显示未成功的识别消息并请求用户提交正确的识别。例如,用户可以打字输入未识别的所说话语。移动设备接收手动文本输入并依照新词汇信息更新SRS 202和语音语法204。可以使用重音标注(letter to sound)程序来用文本输入的词汇更新词典210,以确定新词汇的读音。
参照图5,示出了蜂窝电话的语法调整的示例。例如,移动设备102可以包括用于标识一个或多个呼叫参数的电话簿(214)。在步骤502,用户对语音识别(VR)蜂窝电话(102)说出命令,以呼叫当前未存储在设备电话簿(214)中的人。由于与现有语音语法(204)或词典(210)不充分匹配而导致语言识别(202)失败。作为响应,设备(102)将话语发送到服务器(130),该服务器已经将该人列于VR电话簿中。在一种布置中,服务器130可以是企业服务器。服务器(130)识别姓名并向设备发送具有联系人信息的姓名、词典条目(230)以及一部分语音语法(224)。设备(102)将该新姓名和号码添加到基于设备的电话簿(214)中,并更新语音语法(204)和词典(210)。在由用户呼叫此联系人的下一次尝试中,设备(102)SRS将能够在不访问服务器的情况下识别该姓名。
在一个方案中,可以填写电话簿,并且可以在下一次识别识别更新时替换最不常用的条目。例如,SRS 202可以用从服务器(130)接收到的正确识别、或词汇单词来更新语音语法(204)和词典(210)。移动设备还可以评估词典中的词汇的使用历史,并用正确的识别来替换最不常用的词汇。在另一方案中,用户可以知道特定的条目不在设备上,并明确请求设备(102)下载该条目。该条目可以包括组列表或类列表。例如,该用户可以请求上传诸如“Phoenix的雇员”的条目的类。如果服务器(130)上不存在该条目,则用户可以使用其中服务器也被更新的多模式用户界面来手动输入该条目及相关联的信息。
参照图6,示出了便携式音乐播放器的语法调整的另一示例。例如,移动设备102可以是音乐播放器,该音乐播放器从歌曲列表播放一首或多首歌曲并用该歌曲列表更新语音语法,其中所说话语标识歌曲。在步骤602,用户说出播放并不在设备(102)上的歌曲的请求。VR软件(202)无法将请求匹配于设备上的任何歌曲。设备(102)将该请求发送到具有VR能力(222)的音乐存储服务器(130)。服务器(130)将该请求与用户的家庭服务器上的歌曲相匹配。例如,移动设备(102)可以请求服务器(130)提供提供与用户授权的其它设备的无缝连接。例如,用户允许服务器(130)与用户的家庭计算机通信,以检索包括歌曲的文件或信息。继续本示例,服务器(130)将语法的歌曲名称部分和歌曲发送回设备(102)。设备(102)播放该歌曲,并将该歌曲保存在歌曲列表中以用于将来播放该歌曲的语音请求。替代地,该歌曲可以已在移动设备上可用,虽然SRS 202不能识别该歌曲。因此,服务器130可以查询失败的识别,以解释所说话语并标识该歌曲。随后可以从移动设备上访问该歌曲。
在一种布置中,歌曲保留在服务器(130)上,并且使重放流到设备(102)。例如,下载歌曲可能需要限制的存储器量和处理时间。另外,阻止用户下载整首歌曲的连接服务可能会发生成本。用户可能更喜欢以降低的成本仅听歌曲的一部分或剪辑。因此,该歌曲可以流到用户,从而允许用户终止该流;也就是说,内容的传送根据用户命令而停止。在此布置中,可以将歌曲列表下载到设备。用户可以说出歌曲的名称,该歌曲的音频内容将流到设备。针对识别所说话语中的任何失败,都可以咨询服务器(130)。
在一个示例中,移动设备102向具有VR能力的所有用户网络可访问音乐存储器广播歌曲请求。例如,用户可以具有多个设备,该多个设备在移动通信环境100内彼此互连且具有对存储在多个设备140上的歌曲访问权。用户特别搜索的歌曲可以位于多个设备140中的一个上。因此,移动设备102可以将该歌曲请求广播到能够解释并可能提供该歌曲的收听设备。在实践中,语音识别系统可以以对歌曲请求的一个或多个匹配来响应。移动设备可以给出歌曲列表,由此用户可以选择歌曲。用户可以使用该设备购买该歌曲并下载该歌曲。
参照图7,示出了调整用于语音口述内容的语音语法的方法。简单地说,参照图1,移动设备102包括用于捕获并记录用户语音的口述内容单元212。该移动设备可以将一个或多个所说话语转换成文本。
在步骤702,可以接收到来自用户的口述内容,其中该口述内容包括来自用户的词汇的一个或多个单词。在步骤704,可以标识该口述内容的一个或多个未识别的单词。例如,语音识别系统(202)可以试图识别语音语法的上下文中的所说话语,但可能失败。响应于该失败,移动设备(102)可以将所说话语发送到服务器(130),以处理该所说话语。
在步骤706,可以将包含未识别单词的一部分口述内容发送到服务器(130)上的语音识别系统(222),以识别该口述内容。一旦正确地识别所说话语,在步骤708,服务器(130)就可以向移动设备上的SRS(202)发送识别结果串、一个或多个词典条目以及语言模型更新。所述识别结果串可以是经识别的话语的文本,所述一个或多个词典条目可以是与所识别的单词相关联的参数,例如表示那些单词的发音的录音。
在步骤710,一旦接收到识别结果串,移动设备102就可以修改所述口述内容,并将所述一个或多个词典条目添加到本地词典210并用语言模型更新来更新语音语法204。例如,可以将口述内容修改为包括正确的识别,并且可以更新语音语法以从失败的识别尝试中学习。因此,SRS 202使本地词汇和词典(210)适应于用户的词汇。
一方面,向用户显示包括正确识别的口述内容消息以供确认。例如,在口述内容期间,可以从服务器130接收到一个或多个正确识别。移动设备102在用户正在口述内容时显示正确的识别以通知用户该修正。用户可以接受该修正,据此移动设备将更新语音语法、词汇以及词典。可以向服务器发送确认,通知服务器所接受的修正。所述口述内容消息可以作为用于进一步口述内容的起始点被存储和参考。口述内容消息可以按照使用频率排名并作为用于显示的可浏览列表呈现给用户。用户可以从头至尾滚动口述内容的列表,并继续口述内容或通过语音识别编辑该口述内容。例如,移动设备显示识别结果串以请求确认,并且一旦接收到所述确认,就将识别结果存储到可浏览档案文件中。
参照图8,示出了用于语音口述内容的语法调整。在步骤802,用户向设备口述消息,其中该消息包括当前不在本地口述内容词典中的一个或多个单词。在步骤804,设备将所有或一部分口述的消息发送到大词汇量语音识别服务器。在806,在服务器上用置信度来识别消息。在步骤808,识别结果串连同结果串中的单词的词典条目和语言模型更新一起被发送回设备。在步骤810,设备将单词更新添加到本地词典和语言模型,供设备上的口述内容系统使用。这可以包括添加新的词汇单词并更新语音语法和词典。在步骤812,设备通过使用修改本地词典,以适应于用户的词汇,从而需要较少的服务器查询。
适用时,可以以硬件、软件或硬件与软件的组合实现本发明的这些实施例。适合于执行本文所述方法的任何种类的计算机系统或其它装置均是合适的。硬件与软件的典型组合可以是具有计算机程序的移动通信设备,该计算机程序在被加载并执行时可以控制移动通信设备,以便其执行本文所述的方法。本发明和系统的一些部分还可以嵌入计算机程序产品,该计算机程序产品包括使得能够实现本文所述方法的所有特征,并且当被加载到计算机系统中时,能够执行这些方法。
虽然已经例举和描述了本发明的优选实施例,但很显然本发明的实施例并不限于此。在不偏离如随附权利要求书所限定的本发明这些实施例的精神和范围的情况下,本领域的技术人员将想到许多修改、变更、变体、替换以及等同物。
Claims (17)
1.一种用于语法调整的方法,包括:
选择第一语音语法,以用于第一语音识别系统;
使用所述第一语音语法来尝试所说话语的第一识别;
基于未成功的识别,使用第二语音语法来咨询第二语音识别系统;以及
将所述第一识别的正确识别结果和来自所述第二语音识别系统的部分语音语法发送到所述第一语音识别系统,以更新所述第一识别系统和所述第一语音语法,
其中,所述第一语音识别系统基于所述第一识别和由所述第二识别系统提供的所述部分的所述语音语法,来调整一个或多个所说话语的识别。
2.根据权利要求1所述的方法,其中所述语音语法可以是诸如上下文无关语法的基于规则的语法,或诸如有限状态语法或递归转移网络的非基于规则的语法。
3.根据权利要求1所述的方法,其中所述咨询还包括:
确认所述用于识别所说话语的第二语音识别系统的未成功识别;
将所述失败通知给所述第一语音识别系统;
响应于所述识别失败,接收手动文本输入,以提供所述第一识别的正确识别结果;以及
基于所述手动文本输入,来更新所述第一语音语法。
4.根据权利要求1所述的方法,其中所述咨询还包括:
确定用于识别所说话语的所述第二语音识别系统处的识别成功;以及
通过所述正确识别结果和所述部分的语音语法,将所述识别成功通知给所述第一语音识别系统,其中所述正确识别结果包括与所说话语的正确解释相对应的一个或多个相关联的资源。
5.根据权利要求1所述的方法,还包括:
在所述第一语音识别系统和所述第二语音识别系统之间建立协同通信;以及
基于识别失败,使所述第一语音语法和所述第二语音语法同步,以提供所说话语的应用上下文,其中所述第一语音识别系统和所述第二语音识别系统使用相同语义类型的语法来建立所述应用上下文。
6.根据权利要求1所述的方法,其中所述第一语音识别系统基于所述正确识别结果的接收,来更新相关联的资源。
7.根据权利要求1所述的方法,还包括:
记录一个或多个识别成功和一个或多个识别失败,以调节所述语音识别系统。
8.根据权利要求7所述的方法,还包括:
评估所述词典中的正确识别结果的使用历史;以及
用所述正确识别结果代替最不常用的识别结果。
9.根据权利要求7所述的方法,还包括:将正确词汇添加到识别词典,其中所述词典包含与所说话语的正确解释相对应的一个或多个词条。
10.一种用于语法调整的系统,包括:
移动设备,包括:
具有本地词典的第一语音语法;
第一语音识别系统,用于使用所述第一语音语法尝试所说话语的第一识别;以及
处理器,用于响应于识别失败将所说话语发送到服务器,并用于从所述服务器接收所述第一识别的识别结果和至少一部分的语音语法,以更新所述第一识别和所述第一语音语法,
其中所述语音识别系统基于所述识别结果和更新的语音语法,来调整一个或多个所说话语的所述识别。
11.根据权利要求10所述的系统,其中所述移动设备还包括:
电话簿,用于标识一个或多个呼叫资源、所识别的呼叫参数的词汇、以及对第一语音语法的呼叫列表更新,其中所述所说话语标识所述呼叫参数。
12.根据权利要求10所述的系统,还包括:
语音服务器,包括:
第二语音语法,所述第二语音语法具有对词典的访问权;
第二语音识别系统,用于使用所述第二语音语法识别所说话语;以及
处理器,用于将所说话语的识别结果和用来识别所说话语的一部分语音语法发送到所述移动设备。
13.根据权利要求10所述的系统,其中所述移动设备还包括:
音乐播放器,用于接收所识别歌曲的所述词汇和对所述第一语音语法的歌曲列表更新,其中所述所说话语标识歌曲。
14.根据权利要求10所述的系统,其中所述移动设备还包括:
语音口述内容单元,用于捕获语音、将一个或多个所说话语转换成文本、以及接收词汇来更新所述第一语音语法。
15.一种调整语音口述内容的语音语法的方法,包括:
接收来自用户的口述内容,其中所述口述内容包括来自所述用户词汇的一个或多个单词;
使用具有词典和语言模型的第一语音识别系统,来标识第一语音语法应用上下文中的口述内容的一个或多个未识别单词;
将包含所述未识别单词的至少一部分所述口述内容发送到第二语音识别系统,以识别所述口述内容;
接收识别结果串,且在所述结果串中有关于一个或多个单词的一个或多个词典条目和语言模型;
用所述识别结果串修改所述口述内容;以及
将所述一个或多个单词添加到所述词典和所述语言模型,其中所述词典被修改以适应于用户的词汇。
16.根据权利要求15所述的方法,还包括:将所述口述内容用作创建一个或多个消息的起始点,其中所述消息按照使用频率排列。
17.根据权利要求15所述的方法,进一步包括:
显示所述识别结果串来请求确认。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/419,804 US20070276651A1 (en) | 2006-05-23 | 2006-05-23 | Grammar adaptation through cooperative client and server based speech recognition |
US11/419,804 | 2006-05-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101454775A true CN101454775A (zh) | 2009-06-10 |
Family
ID=38750613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800190875A Pending CN101454775A (zh) | 2006-05-23 | 2007-03-30 | 通过基于协同客户端和服务器的语言识别的语法调整 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070276651A1 (zh) |
CN (1) | CN101454775A (zh) |
WO (1) | WO2007140047A2 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023644A (zh) * | 2010-11-10 | 2011-04-20 | 新太科技股份有限公司 | 一种基于语音识别技术的云台控制的方法 |
CN102543082A (zh) * | 2012-01-19 | 2012-07-04 | 北京赛德斯汽车信息技术有限公司 | 使用自然语言的车载信息服务系统语音操作方法及系统 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN102708865A (zh) * | 2012-04-25 | 2012-10-03 | 北京车音网科技有限公司 | 语音识别方法、装置及系统 |
CN103137129A (zh) * | 2011-12-02 | 2013-06-05 | 联发科技股份有限公司 | 语音识别方法及电子装置 |
CN105956485A (zh) * | 2016-04-26 | 2016-09-21 | 深圳Tcl数字技术有限公司 | 国际化语言管理方法和系统 |
CN106164869A (zh) * | 2014-04-01 | 2016-11-23 | 微软技术许可有限责任公司 | 用于并行处理的混合客户端/服务器架构 |
CN106384594A (zh) * | 2016-11-04 | 2017-02-08 | 湖南海翼电子商务股份有限公司 | 语音识别的车载终端及其方法 |
US9898454B2 (en) | 2010-12-14 | 2018-02-20 | Microsoft Technology Licensing, Llc | Using text messages to interact with spreadsheets |
US10311878B2 (en) | 2014-01-17 | 2019-06-04 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
CN110797027A (zh) * | 2013-05-13 | 2020-02-14 | 谷歌有限责任公司 | 多识别器语音识别 |
CN111670471A (zh) * | 2018-01-04 | 2020-09-15 | 谷歌有限责任公司 | 基于对在线语音命令的使用来学习离线语音命令 |
CN111833872A (zh) * | 2020-07-08 | 2020-10-27 | 北京声智科技有限公司 | 对电梯的语音控制方法、装置、设备、系统及介质 |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
Families Citing this family (212)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9167301B2 (en) * | 2004-10-05 | 2015-10-20 | At&T Intellectual Property I, L.P. | Methods and computer program products for taking a secondary action responsive to receipt of an advertisement |
US8806537B2 (en) | 2004-10-05 | 2014-08-12 | At&T Intellectual Property I, L.P. | Methods, systems, and computer program products for implementing interactive control of radio and other media |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070129949A1 (en) * | 2005-12-06 | 2007-06-07 | Alberth William P Jr | System and method for assisted speech recognition |
KR100760301B1 (ko) * | 2006-02-23 | 2007-09-19 | 삼성전자주식회사 | 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8355915B2 (en) * | 2006-11-30 | 2013-01-15 | Rao Ashwin P | Multimodal speech recognition system |
US9830912B2 (en) | 2006-11-30 | 2017-11-28 | Ashwin P Rao | Speak and touch auto correction interface |
US8056070B2 (en) * | 2007-01-10 | 2011-11-08 | Goller Michael D | System and method for modifying and updating a speech recognition program |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8880405B2 (en) | 2007-03-07 | 2014-11-04 | Vlingo Corporation | Application text entry in a mobile environment using a speech processing facility |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8650030B2 (en) * | 2007-04-02 | 2014-02-11 | Google Inc. | Location based responses to telephone requests |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
TW200841691A (en) * | 2007-04-13 | 2008-10-16 | Benq Corp | Apparatuses and methods for voice command processing |
TWI336048B (en) * | 2007-05-11 | 2011-01-11 | Delta Electronics Inc | Input system for mobile search and method therefor |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US7437291B1 (en) * | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
EP2088548A1 (en) | 2008-02-11 | 2009-08-12 | Accenture Global Services GmbH | Point of sale payment method |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8326631B1 (en) * | 2008-04-02 | 2012-12-04 | Verint Americas, Inc. | Systems and methods for speech indexing |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9922640B2 (en) | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110067059A1 (en) * | 2009-09-15 | 2011-03-17 | At&T Intellectual Property I, L.P. | Media control |
WO2011059997A1 (en) * | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9218807B2 (en) * | 2010-01-08 | 2015-12-22 | Nuance Communications, Inc. | Calibration of a speech recognition engine using validated text |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
EP2572302B1 (en) * | 2010-05-19 | 2021-02-17 | Sanofi-Aventis Deutschland GmbH | Modification of operational data of an interaction and/or instruction determination process |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
JP6317111B2 (ja) * | 2011-02-22 | 2018-04-25 | スピーク・ウィズ・ミー・インコーポレイテッドSpeak With Me,Inc. | ハイブリッド型クライアントサーバ音声認識 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
EP2709332A4 (en) * | 2011-06-03 | 2014-04-30 | Huawei Tech Co Ltd | METHOD, DEVICE AND SYSTEM FOR ONLINE INFORMATION PROCESSING |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
EP2747077A4 (en) * | 2011-08-19 | 2015-05-20 | Asahi Chemical Ind | VOICE RECOGNITION SYSTEM, RECOGNITION DICTIONARY LOGIC SYSTEM, AND AUDIO MODEL IDENTIFIER SERIES GENERATION DEVICE |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) * | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8972263B2 (en) * | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US20130244685A1 (en) | 2012-03-14 | 2013-09-19 | Kelly L. Dempski | System for providing extensible location-based services |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US8805340B2 (en) * | 2012-06-15 | 2014-08-12 | BlackBerry Limited and QNX Software Systems Limited | Method and apparatus pertaining to contact information disambiguation |
KR101961139B1 (ko) * | 2012-06-28 | 2019-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 음성 인식 방법 |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9583100B2 (en) * | 2012-09-05 | 2017-02-28 | GM Global Technology Operations LLC | Centralized speech logger analysis |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8473300B1 (en) | 2012-09-26 | 2013-06-25 | Google Inc. | Log mining to modify grammar-based text processing |
KR101330671B1 (ko) | 2012-09-28 | 2013-11-15 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
WO2014060054A1 (de) * | 2012-10-16 | 2014-04-24 | Audi Ag | Spracherkennung in einem kraftfahrzeug |
US9601111B2 (en) | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
US20140136210A1 (en) * | 2012-11-14 | 2014-05-15 | At&T Intellectual Property I, L.P. | System and method for robust personalization of speech recognition |
US9922639B1 (en) | 2013-01-11 | 2018-03-20 | Amazon Technologies, Inc. | User feedback for speech interactions |
CN103971687B (zh) * | 2013-02-01 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种语音识别系统中的负载均衡实现方法和装置 |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9672818B2 (en) * | 2013-04-18 | 2017-06-06 | Nuance Communications, Inc. | Updating population language models based on changes made by user clusters |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
DE102013219649A1 (de) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher |
DE102013114763A1 (de) * | 2013-10-16 | 2015-04-16 | Semvox Gmbh | Sprachsteuerungsverfahren sowie Computerprogrammprodukt und Vorrichtung zur Durchführung des Verfahrens |
CN104598257B (zh) * | 2013-10-30 | 2019-01-18 | 华为技术有限公司 | 远程应用程序运行的方法和装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
WO2015195307A1 (en) * | 2014-06-19 | 2015-12-23 | Thomson Licensing | Cloud service supplementing embedded natural language processing engine |
US20150371628A1 (en) * | 2014-06-23 | 2015-12-24 | Harman International Industries, Inc. | User-adapted speech recognition |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US9530408B2 (en) | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9858614B2 (en) | 2015-04-16 | 2018-01-02 | Accenture Global Services Limited | Future order throttling |
US9966073B2 (en) * | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9922138B2 (en) * | 2015-05-27 | 2018-03-20 | Google Llc | Dynamically updatable offline grammar model for resource-constrained offline device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9870196B2 (en) | 2015-05-27 | 2018-01-16 | Google Llc | Selective aborting of online processing of voice inputs in a voice-enabled electronic device |
US10650437B2 (en) | 2015-06-01 | 2020-05-12 | Accenture Global Services Limited | User interface generation for transacting goods |
US9239987B1 (en) | 2015-06-01 | 2016-01-19 | Accenture Global Services Limited | Trigger repeat order notifications |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
US10402435B2 (en) | 2015-06-30 | 2019-09-03 | Microsoft Technology Licensing, Llc | Utilizing semantic hierarchies to process free-form text |
KR20170028628A (ko) * | 2015-09-04 | 2017-03-14 | 삼성전자주식회사 | 음성인식장치, 음성인식장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
AU2017353879B2 (en) * | 2016-11-02 | 2020-08-06 | Genesys Cloud Services Holdings II, LLC | System and method for parameterization of speech recognition grammar specification (SRGS) grammars |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10679008B2 (en) * | 2016-12-16 | 2020-06-09 | Microsoft Technology Licensing, Llc | Knowledge base for analysis of text |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
KR102389625B1 (ko) * | 2017-04-30 | 2022-04-25 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
KR102112564B1 (ko) * | 2017-05-19 | 2020-06-04 | 엘지전자 주식회사 | 홈 어플라이언스 및 그 동작 방법 |
US10410635B2 (en) | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
US20190019516A1 (en) * | 2017-07-14 | 2019-01-17 | Ford Global Technologies, Llc | Speech recognition user macros for improving vehicle grammars |
US10636423B2 (en) | 2018-02-21 | 2020-04-28 | Motorola Solutions, Inc. | System and method for managing speech recognition |
KR102517228B1 (ko) * | 2018-03-14 | 2023-04-04 | 삼성전자주식회사 | 사용자의 입력에 대한 외부 전자 장치의 응답 시간에 기반하여 지정된 기능을 제어하는 전자 장치 및 그의 방법 |
AU2019100576C4 (en) * | 2018-06-03 | 2020-01-30 | Apple Inc. | Accelerated task performance |
DK201870360A1 (en) * | 2018-06-03 | 2019-12-20 | Apple Inc. | ACCELERATED TASK PERFORMANCE |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
US10777186B1 (en) * | 2018-11-13 | 2020-09-15 | Amazon Technolgies, Inc. | Streaming real-time automatic speech recognition service |
WO2021029627A1 (en) * | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
US12020696B2 (en) | 2019-10-21 | 2024-06-25 | Soundhound Ai Ip, Llc | Automatic synchronization for an offline virtual assistant |
JP7029434B2 (ja) | 2019-10-23 | 2022-03-03 | サウンドハウンド,インコーポレイテッド | コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末 |
US11900817B2 (en) * | 2020-01-27 | 2024-02-13 | Honeywell International Inc. | Aircraft speech recognition systems and methods |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US20040030540A1 (en) * | 2002-08-07 | 2004-02-12 | Joel Ovil | Method and apparatus for language processing |
US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7003464B2 (en) * | 2003-01-09 | 2006-02-21 | Motorola, Inc. | Dialog recognition and control in a voice browser |
US20040254787A1 (en) * | 2003-06-12 | 2004-12-16 | Shah Sheetal R. | System and method for distributed speech recognition with a cache feature |
US7529657B2 (en) * | 2004-09-24 | 2009-05-05 | Microsoft Corporation | Configurable parameters for grammar authoring for speech recognition and natural language understanding |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US8688451B2 (en) * | 2006-05-11 | 2014-04-01 | General Motors Llc | Distinguishing out-of-vocabulary speech from in-vocabulary speech |
-
2006
- 2006-05-23 US US11/419,804 patent/US20070276651A1/en not_active Abandoned
-
2007
- 2007-03-30 WO PCT/US2007/065559 patent/WO2007140047A2/en active Application Filing
- 2007-03-30 CN CNA2007800190875A patent/CN101454775A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023644A (zh) * | 2010-11-10 | 2011-04-20 | 新太科技股份有限公司 | 一种基于语音识别技术的云台控制的方法 |
US9898454B2 (en) | 2010-12-14 | 2018-02-20 | Microsoft Technology Licensing, Llc | Using text messages to interact with spreadsheets |
CN103137129A (zh) * | 2011-12-02 | 2013-06-05 | 联发科技股份有限公司 | 语音识别方法及电子装置 |
CN103137129B (zh) * | 2011-12-02 | 2015-11-18 | 联发科技股份有限公司 | 语音识别方法及电子装置 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN102543082A (zh) * | 2012-01-19 | 2012-07-04 | 北京赛德斯汽车信息技术有限公司 | 使用自然语言的车载信息服务系统语音操作方法及系统 |
CN102708865A (zh) * | 2012-04-25 | 2012-10-03 | 北京车音网科技有限公司 | 语音识别方法、装置及系统 |
CN110797027B (zh) * | 2013-05-13 | 2023-11-21 | 谷歌有限责任公司 | 多识别器语音识别 |
CN110797027A (zh) * | 2013-05-13 | 2020-02-14 | 谷歌有限责任公司 | 多识别器语音识别 |
US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
US10311878B2 (en) | 2014-01-17 | 2019-06-04 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
CN106164869B (zh) * | 2014-04-01 | 2020-12-11 | 微软技术许可有限责任公司 | 用于并行处理的混合客户端/服务器架构 |
CN106164869A (zh) * | 2014-04-01 | 2016-11-23 | 微软技术许可有限责任公司 | 用于并行处理的混合客户端/服务器架构 |
CN105956485A (zh) * | 2016-04-26 | 2016-09-21 | 深圳Tcl数字技术有限公司 | 国际化语言管理方法和系统 |
CN106384594A (zh) * | 2016-11-04 | 2017-02-08 | 湖南海翼电子商务股份有限公司 | 语音识别的车载终端及其方法 |
CN111670471A (zh) * | 2018-01-04 | 2020-09-15 | 谷歌有限责任公司 | 基于对在线语音命令的使用来学习离线语音命令 |
US11790890B2 (en) | 2018-01-04 | 2023-10-17 | Google Llc | Learning offline voice commands based on usage of online voice commands |
CN111670471B (zh) * | 2018-01-04 | 2024-02-20 | 谷歌有限责任公司 | 基于对在线语音命令的使用来学习离线语音命令 |
CN111833872A (zh) * | 2020-07-08 | 2020-10-27 | 北京声智科技有限公司 | 对电梯的语音控制方法、装置、设备、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2007140047A2 (en) | 2007-12-06 |
US20070276651A1 (en) | 2007-11-29 |
WO2007140047A3 (en) | 2008-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101454775A (zh) | 通过基于协同客户端和服务器的语言识别的语法调整 | |
US9263039B2 (en) | Systems and methods for responding to natural language speech utterance | |
US8332227B2 (en) | System and method for providing network coordinated conversational services | |
US9626959B2 (en) | System and method of supporting adaptive misrecognition in conversational speech | |
US7689417B2 (en) | Method, system and apparatus for improved voice recognition | |
US7421390B2 (en) | Method and system for voice control of software applications | |
CA2345660C (en) | System and method for providing network coordinated conversational services | |
US8185539B1 (en) | Web site or directory search using speech recognition of letters | |
US20060143007A1 (en) | User interaction with voice information services | |
US20070265850A1 (en) | Systems and methods for responding to natural language speech utterance | |
US8782171B2 (en) | Voice-enabled web portal system | |
US20050060156A1 (en) | Speech synthesis | |
EP1635328B1 (en) | Speech recognition method constrained with a grammar received from a remote system. | |
JP2003255988A (ja) | 対話型情報提供装置、プログラム及び記録媒体 | |
JP2004354711A (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090610 |