CN102137085A - 语音命令的多维消歧 - Google Patents
语音命令的多维消歧 Download PDFInfo
- Publication number
- CN102137085A CN102137085A CN2010102791432A CN201010279143A CN102137085A CN 102137085 A CN102137085 A CN 102137085A CN 2010102791432 A CN2010102791432 A CN 2010102791432A CN 201010279143 A CN201010279143 A CN 201010279143A CN 102137085 A CN102137085 A CN 102137085A
- Authority
- CN
- China
- Prior art keywords
- action
- user
- candidate
- word
- client device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Abstract
本发明涉及语音命令的多维消歧。用于处理语音命令的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:在服务器接收音频信号;通过所述服务器对所述音频信号执行语音识别,以识别匹配所述音频信号的一个或多个部分的一个或多个候选词语;对于每一个候选词语识别一个或多个可能的意欲动作;提供信息用于在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;从所述客户端设备接收由用户选择的动作的指示,其中从在所述提供的信息中包括的所述动作中选择这个动作;以及,调用由所述用户选择的这个动作。
Description
技术领域
本说明书涉及搜索引擎。
背景技术
随着在因特网上可获得的信息量已经显著地扩大,用户明确地表达用于定位特定的相关信息的有效搜索查询越来越困难。近些年来,在搜索引擎提供商之间的竞争已经引起在搜索引擎算法的演进以及用于显示搜索结果的用户界面的爆炸性的加速。
可以使用各种机制来向搜索引擎提供查询。例如,用户可以使用在计算设备上的键盘向搜索框中明确地键入查询,并且可以然后提交该查询。查询也可以是隐含的,诸如通过用户在他们的计算设备上显示的地图上移景(panning),并且通过查询被发送来显示在地图的该区域中的企业的注释信息。另外,用户可以通过说出查询来输入它们,特别是当使用键盘可能很小或免提操作可能很重要的移动设备(例如,智能电话或应用手机)时。
发明内容
语音命令的正确解释一般要求它们在至少二维中消歧。在本说明书称作“识别质量”的维度的第一维中的消岐包括:将在语音命令中包括的声音与说话者可能已经说出的术语匹配。在一个示例中,在识别质量维度中的消岐可以试图确定:当说话者发出具有声音“kα□bil”(使用国际音标(IPA)注音符号)的语音命令时,他们是否意欲说出类似发音的词语“call bil”、“call Phil”、“cobble”、“cable”、“kill bill”、“call bull”或“Kabul”。本说明书将作为对语音命令执行语音识别过程的结果输出的一个或多个词称作“候选词语”。
在本说明书称作“说话者意图”维度的第二维中的消岐涉及确定当说话者说出构成语音命令的词语时说话者可能意在进行什么动作。例如,如果假定说话者已经在语音命令期间说出了词语“call bill”,则在说话者意图维度中的消岐可以试图确定说话者是否可能意欲“call(呼叫)”名为“Bill”的第一联系人或名为“Bill”的第二联系人,说话者是否可能意欲“call(呼叫)”在家中或工作中的名为“Bill”的联系人或说话者是否可能指令应当发出“call”以从服务提供者请求“bill(账单)”(或“invoice(单据)”)。本说明书将当说话者说出构成语音命令的词语时说话者可能意欲进行的动作称作“可能的意欲动作”。
因此,在这两个维度中的语音命令的消岐可能导致一个候选词语,该候选词语具有多于一个的相关联的动作,诸如单个词语“call bill”可以与呼叫名为“Bill”的两个联系人之一的可能意欲动作相关联的情况。另外,语音命令的消岐可能导致两个或更多的候选词语,每一个具有一个或多个相关联的动作,诸如同一语音命令匹配到词语“callbill”以呼叫名为“Bill”的联系人并且匹配到词语“Kabul”以购买到Kabul(喀布尔)市的飞机票的情况。在任何一种情况下,根据在本说明书中描述的主题的一个创新方面,如果不能自动地解决在不同的候选词语和动作之间的歧义,则可以向用户提供多维消岐的结果以用于选择。
一般地,在本说明书中描述的主题的另一个创新方面可以被体现在下述方法中,该方法包括动作:在服务器接收音频信号;由所述服务器对所述音频信号执行语音识别,以识别与所述音频信号的一个或多个部分匹配的一个或多个候选词语;对于每一个候选词语识别一个或多个可能的意欲动作;提供信息以在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;从所述客户端设备接收由用户选择的动作的指示,其中,所述动作是从在所提供的信息中包括的动作中选择的;以及,调用由所述用户选择的所述动作。该方面的其他实施例包括被配置为执行编码在计算机存储设备上的方法的动作的对应系统、装置和计算机程序。
这些和其他实施例每一个可以可选地包括下面特征中的一个或多个。例如,服务器可以是搜索引擎。可以从客户端设备接收索引,其中,执行语音识别进一步包括:识别索引中的与音频信号匹配的候选词语。所述索引可以是由所述客户端设备存储的联系人的索引。
在其他示例中,当候选词语是人的姓名时,与候选词语相关联的动作中的一个或多个可以启动与该人的呼叫、电子邮件或即时消息会话。当候选词语包括兴趣点(POI)时,与候选词语相关联的动作中的一个或多个可以获得所述POI的地图、到所述POI的路线指引(direction)、关于所述POI的详细信息或到所述POI的距离。当候选词语识别媒体内容时,与该候选词语相关联的动作中的一个或多个可以播放所述媒体内容,启动对于所述媒体内容的下载或获得关于所述媒体内容的详细信息。与候选词语相关联的动作中的一个或多个可以使用候选词语作为查询词语来启动web搜索查询。可以对于每一个动作确定歧义值,其中,可以递增与用户选择的动作相关联的歧义值。
在其他示例中,所述动作也可以包括:确定特定动作的所述歧义值满足阈值;基于确定所述歧义值满足所述阈值而自动地调用所述特定动作;确定用户已经取消了所述特定动作;以及基于确定所述用户已经取消了所述特定动作而递减所述特定动作的所述歧义值,其中,基于确定所述用户已经取消了所述特定动作而提供所述信息。
在其他示例中,可以对每一个候选词语确定语音识别置信量度,其中,可以基于对于与动作相关联的候选词语确定的语音识别置信量度来确定每一个动作的歧义值。可以基于动作各自的歧义值来产生动作的排名,其中,提供所述信息可以进一步包括提供所述排名。用于识别特定动作的所述信息可以是图标。调用所述用户选择的应用可以进一步包括:向所述客户端设备提供用于识别由所述客户端设备存储的应用的信息。
一般地,在本说明书中描述的主题的另一个创新方面可以被体现在下述方法中,所述方法包括如下动作:通过客户端设备向服务器提供音频信号;获得指定与所述音频信号的一个或多个部分匹配的一个或多个候选词语和用于每一个候选词语的一个或多个可能意欲的动作的信息;接收对动作的用户选择;向所述服务器提供所述用户选择的动作的指示;以及调用由所述用户选择的所述动作。该方面的其他实施例包括被配置为执行编码在计算机存储设备上的方法的动作的对应系统、装置和计算机程序。
在下面的附图和说明书中阐述了在本说明书中描述的主题的一个或多个实施例的细节。通过说明书、附图和权利要求,所述主题的其他潜在特征、方面和优点将变得显而易见。
附图说明
图1是解释响应于语音命令对动作的调用的概念图。
图2和7图示了示例性系统。
图3和4是示例性过程的流程图。
图5A-5B和6A-6B图示了示例性用户界面。
在全部附图中,相似的附图标记表示对应的部分。
具体实施方式
图1是用于执行语音命令的多维消岐的示例性框架的概念图。更具体地,该图描述了客户端设备104(例如,蜂窝电话、PDA或个人计算机)和服务器116,它们一起构成信息搜索系统100,并且该图也描述了在客户端设备104和服务器116之间的数据流以及在各种状态中的客户端设备104的用户界面(被标注为分别在时间顺序的状态(a)、(h)、(1)和“n”中的用户界面102、130、136、150)。服务器116可以是搜索引擎或由搜索引擎用来执行语音识别的服务器。
如状态(a)中所示,在客户端设备104上显示的用户界面102包括控件106,控件106作为用于接收查询词语的搜索框和用于接收命令的命令提示符。当控件106实现搜索功能时,客户端设备104的用户可以通过向控件中输入查询词语的一部分或一个或多个完整的查询词语来启动对于在公用或专用网络上存储的信息的搜索。
当控件106实现命令功能时,客户端设备的用户可以发出任何适当的命令,例如用于指令客户端设备104呼叫在用户的联系人列表中的联系人的命令、用于指示客户端设备104编写和向在它们的联系人列表中的联系人发送电子通信(例如,电子邮件、即时消息、文本消息)的命令、用于指令客户端设备104播放各种类型的媒体内容(例如,音频、视频)、下载各种类型的媒体内容(例如,音频、视频)或与各种类型的媒体内容(例如,音频、视频)交互的命令或用于指示客户端设备执行任何其他类型的功能的命令。控件106因此提供简化的、直观的和强大的用户界面,用于允许用户通过单个多功能命令框或提示符输入或说出多种类型的命令,并且请求多种类型的功能。
不不同于在用户界面的不同部分上或在不同的用户界面上提供不同的功能的客户端设备,客户端设备104可以使用控件106来实现搜索功能和命令功能,而不要求用户首先输入导航功能,以便调用特定的期望功能。在客户端设备是移动设备的情况下,这样的方法允许用户界面102最佳地利用小屏幕大小、有限的处理能力和可能在客户端设备104上存在的完整键盘的缺少。
在图1中所示的示例框架中,通过语音命令向控件106输入词语。在一些示例中,在说出语音命令之前,用户可以选择用户界面控件来激活语音控制,以允许语音命令用于向控件106内输入词语。控件106可以是用户界面102的永久或半永久特征,例如,在用户界面102上保持的浏览器工具条上的搜索框,只要浏览器在执行,或者,用户可以例如通过输入与控件106相关联的统一资源定位符(URL)来导航到控件106。
如状态(b)中图示,使用键盘或其他输入机制来向控件106输入词语。当激活语音控件时,用户108可以向麦克风112说出声音110。用户108可以例如在说话之前按下麦克风112上的按钮,说出语音命令,然后释放麦克风上的按钮,以启动消岐过程。又如,麦克风112可以被嵌入客户端设备104内或否则安装在客户端设备104上,并且用户108可以在说话之前选择用户界面控件(例如,麦克风的图标)。又如,麦克风112可以在用户108说话之前是“打开”的,或可以处于“总是打开”的状态(例如,用户108可以仅说话而不用“打开”麦克风112)。
声音110可以包括一个或多个音素,其中,音素是用于形成在发音之间的有意义的对比的声音的最小单位。例如,声音110包括音素“ka:”和“bil”。举几个例子,声音110可以表示短语“call Bill”、“kill Bill”、“cobble”或“Kabul”中的一个。
如在状态(c)中所示,与声音110对应的音频信号114被从客户端设备104提供到服务器116。例如,客户端设备104可以通过记录声音110来建立声音文件或数据流,并且可以通过诸如因特网的网络来发送声音文件。服务器116可以是一个或多个服务器计算设备。向服务器116发送音频信号并且使得服务器116执行语音识别、命令消岐和与命令执行相关的一些或全部处理可以允许对于客户端设备104的低处理要求。然而,在其他示例实施方式中,语音识别可以发生在客户端设备104,并且,向服务器116发送语音识别的结果而不是音频信号。
如在状态(d)中所示,服务器116对接收的音频信号执行语音识别过程,以识别与音频信号匹配的一个或多个候选词语118a-d。词语可以包括一个或多个词。例如,对接收的包括声音110的记录的声音文件执行的语音识别可以识别候选词语“call Bill”118a、“kill Bill”118b、“Kabul”118c和“cable”118d,如在表格120的最左列中所示。
可以通过选择具有在识别阈值之上的对应语音识别置信量度的候选词语来执行候选词语118a-d的识别。例如,语音识别过程可以识别由服务器116的语音识别模块返回的候选词语匹配记录的声音或匹配用户108所说的内容的概率。该置信量度反应了概率;分值越高,则候选词语越可能匹配记录的声音。
可以识别诸如5%的置信度的阈值。可以对于在说话者意图维度中的消岐选择满足阈值(例如,大于或等于5%)的候选词语,并且,可以忽略或从识别的候选词语118的列表排除具有不满足该阈值的置信度的候选词语。对于5%的阈值,与候选词语118a-d分别对应的50%122a、30%122b、15%122c和5%122d的置信量度值每一个满足阈值。
又如,可以识别具有N个最高语音识别置信量度的N个候选词语,其中,N是正整数(例如,5)。N的选择可以例如基于用户界面102的大小的估计,或基于典型移动设备的显示器的大小的估计(例如,如下所述,可以在用户界面上呈现候选词语,并且,N的选择可以基于多少候选词语可以垂直地适配在特定或典型的用户界面显示中)。又如,可以选择置信量度122a-d,使得置信量度值122a-d的和等于100%或60%。对于由用户108或一般而言由用户历史选择的候选词语,可以调整(例如,提高)置信量度值。提高量可以基于历史选择的数量或频率。
可以至少部分地基于在从客户端设备接收的数据的索引或数据库中的候选词语的包含来识别该候选词语。例如,服务器116可以从客户端设备104定期地接收联系人的索引。语音识别可以包括:识别在索引中包括并且与接收的音频信号匹配的候选词语。例如,由于在从客户端设备104接收的联系人索引中包括姓名“Bill”,所以可以部分地识别候选词语“call Bill”118a。如果在客户端提供的索引中未包括“Bill”,则可能不能识别候选词语“call Bill”118a,可以以较低的置信量度识别候选词语“call Bill”118a,或可以将姓名“Bill”仅识别为与“invoice”同义的词。客户端提供的索引也可以包括其他信息,诸如与客户端设备能够执行的应用程序相关的信息、用户界面尺寸、在客户端设备上可用的媒体内容等。
如在状态(e)中和在表123中所示,服务器116识别与每一个识别的候选词语118a-d相关联的一个或多个动作124a-e。例如,可以对于“call Bill”候选词语118a识别“call Bill at home(呼叫家中的Bill)”124a、“call Bill at work(呼叫工作中的Bill)”124b和“perform a web search for‘Call Bill’(执行对于“Call Bill”的web搜索)”124c动作。其他示例包括:识别与“kill Bill”候选词语118b相关联的“download‘Kill Bill’movie(下载“kill Bill”电影)”动作124d、识别与“Kabul”候选词语118c相关联的“get directions to Kabul(获得到喀布尔的路线指引)”动作124e和识别与“cable”候选词语118d相关联的“pay cable bill(支付有线电视账单)”动作124f。动作的其他示例包括:基于人的姓名来启动与人的电子邮件或即时消息会话;基于媒体内容的题目来播放媒体内容或获得关于媒体内容的详细信息;以及基于POI的名称来获得POI的地图、POI的详细信息或到POI的距离。
当候选词语本身不识别动作或命令时,可以使用词语/动作映射器或其他规则引擎来确定适当的动作。例如,可以对于包括名称的候选词语选择“启动联系人”动作,可以对于识别媒体内容的候选词语选择“下载”动作,可以对于识别与用户108有关系的企业的候选词语选择“支付”动作,以及可以对于识别POI的候选词语选择“地图”动作。
如在状态(f)中所示,可以对于每一个动作确定歧义值,其中,歧义值表示用户意欲进行该动作的可能性。例如,可以对于动作124a-f分别确定30128a、10128b、10128c、10128d、0128e和10128f的歧义值。高歧义值可以表示用户意欲进行相关联的动作的概率的高置信度。例如,30的歧义值128a可以表示相关联的动作124a具有比具有较低的歧义值(例如,10)的动作124b更高的是用户意欲进行的动作的概率。在一些实施方式中,高歧义值可以指示相关联的动作是高度模糊的(例如,不可能已经被意欲进行)。
例如,在一些实施方式中,基于大于10的歧义值128b的30的歧义值128a,动作124a可以被认为比动作124b更不太可能已经被意欲进行。高歧义值可以与服务器116的用户或其他用户过去已经选择的动作相关联。低歧义值可以与服务器116的用户或其他用户过去从未选择或仅很少选择的动作相关联。如下更全面所述,低歧义值也可以与用户过去取消的动作相关联。
歧义值可以与语音识别置信量度相关。例如,高的语音识别置信量度可以导致相关联的动作的高的歧义值(例如,意欲的高可能性),并且反之亦然。如下更详细所述,随着时间的推移,可以递增与用户选择的动作相关联的歧义值,并且,可以递减与用户取消的动作相关联的歧义值。如果用户之前未选择动作或如果以前对于用户未识别对应的候选词语,则该动作的初始歧义值可以是0。
可以识别总共M个动作,其中,M是正整数(例如,7)。M的选择可以例如基于用户界面102的大小的估计,或基于典型的移动设备的显示器的大小的估计(例如,如下所述,可以在用户界面上呈现候选词语/动作对,并且,M的选择可以基于多少候选词语/动作对可以垂直地适配在特定或典型的用户界面显示中)。又如,可以在识别的动作124a-e中包括具有在阈值(例如,10)之上的对应歧义值的动作,并且可以从识别的动作124a-e排除具有在阈值之下的对应歧义值的动作。又如,可以在识别的动作中包括每一个类型的最大数量的动作。例如,在一些示例中,可以包括“呼叫联系人”类型的最多三个动作,即使可以基于识别的候选词语来识别超过三个“呼叫联系人”动作。
可以对于候选词语识别一个或多个默认动作,而与是否已经对于候选词语识别了其他类型的动作无关。例如,每一个候选词语可以具有相关联的“web搜索”动作。可以对于候选词语识别的其他默认动作可以包括:在在线词典或在线百科全书中查找候选词语。对于一些音频信号,可以识别仅一个动作。
例如,对于一些音频信号,可以识别仅一个候选词语,并且可以对于候选词语识别仅一个默认动作(例如,web搜索)。对于一些音频信号,语音识别过程可能不能识别具有可接受的置信量度的任何适当候选词语,并且在一些实施方式中,服务器116可能不能识别与不可识别的音频信号相关联的任何动作。在其他实施方式中,服务器116可以识别可以触发客户端设备104请用户重复它们的命令的未识别的音频信号的动作。
如果一组歧义值指示很可能用户意欲进行特定的动作,则可以使用“隐含”的调用过程来自动地调用那个动作。可以从绝对或相对形式的、用于指示用户的意图很模糊的高歧义值建立这样的高概率。如果动作具有大于阈值(例如,30)的歧义值,则可以隐含地调用动作。又如,如果最高歧义值是第二最高歧义值的至少三倍,则可以隐含地调用具有最高歧义值的动作。作为第三示例,如果最高歧义值是第二最高歧义值的至少四倍并且也大于阈值(例如,20),则可以隐含地调用具有最高歧义值的动作。换句话说,在一些实施方式中,在诸如最高歧义值是4并且每一个其他的歧义值是1或更少的示例中,即使最高歧义值比每一个其他的歧义值大至少4倍,也可以不隐含地调用具有最高歧义值的动作,因为最高歧义值不超过阈值。
状态(g)图示了特定的“call Bill at home”动作124a的隐含调用。例如,由于在阈值之上的相关联的歧义值124c(例如,30的歧义值可以超过诸如20的阈值),可以隐含地调用动作124a。服务器116可以向客户端设备104发送指示要调用的动作的类型(例如,拨打联系人)和相关联的候选词语(例如,诸如“Bill”的联系人的姓名)的元数据。在一些示例中,服务器116也可以发送其他信息,诸如联系人的电话号码。换句话说,为了减少用户108的等待时间,服务器可以向客户端设备104发送要拨打的号码,使得客户端设备104不必查找联系人的号码。如上所述,与联系人相关联的电话号码可以被包括在从客户端设备104向服务器116定期地发送的索引中。
从服务器116接收的信息可以触发客户端设备104调用动作124a。在一些示例中,客户端设备104可以立即调用动作124a(例如,可以在从服务器116接收到信息时立即拨打Bill的电话号码)。在其他示例中,可以在调用动作124a之前,在用户界面102上显示窗口130。窗口130可以实现“倒计时定时器”,其中,向用户108呈现倒计时消息,用于指示当倒计时定时器达到0时将执行动作124a。如果用户意欲呼叫Bill,则用户108可以使得倒计时定时器达到0,并且,在那个点,可以调用对于Bill的呼叫。
倒计时定时器倒计时的时间量可以基于相关联的动作的歧义值。例如,如果歧义值128a指示用户108意欲进行动作124a的概率高(例如,75%),则可以根本不使用倒计时定时器。如果歧义值128a指示用户108意欲进行动作124a的概率是中等的(例如,50%),则倒计时定时器可以在小数量的秒数(例如,2)时启动,并且,如果歧义值128a指示低概率(例如,20%),则倒计时定时器可以在较高的秒数(例如,4)开始。在一些实施方式中,服务器116确定倒计时定时器开始值,并且向客户端设备104发送该值。
可以在窗口130中包括取消控件132,以允许用户108在调用动作124a之前取消动作124a(或者,对于诸如电话号码的拨打的一些动作,一旦其在进行中则取消该动作)。如在状态(n)中所示,用户108不意欲呼叫Bill,选择取消控件132来取消动作124a的调用。响应于对取消控件132的选择,可以从客户端设备104向服务器116发送中断信号(如状态(i)所示)。
响应于接收到中断信号,服务器116可以递减动作124a的歧义值,以考虑动作124a不是用户108意欲进行的动作的事实。例如,状态(j)图示了相关联的歧义值128a减少值5。递减用户手动取消的动作的歧义值将减少如果在未来的语音命令中说出类似的声音模式则自动调用所取消的动作的机会。
也响应于接收到中断信号,服务器116可以向客户端设备104发送候选词语/动作对的列表134,使得用户108可以挑选实际上意欲进行的动作。如果歧义值128a-d都不在阈值之上,则列表134也可以被发送到客户端设备104,或具有隐含地调用动作的元数据(例如,在状态(g)中)。换句话说,如果歧义值128a-d都不高得足以引起相关联的动作的隐含调用,则列表134可以被发送到客户端设备104。在一些实施方式中,列表134是基于其各自的歧义值的动作124a-c的排名。在其他实施方式中,列表134在被服务器116发送时未被排名(例如,未排序),并且在这样的示例中,列表134可以随后被客户端设备104排名。可以以替代列表116的另一种数据结构来封装词语/动作对,该数据结构包括表、数据库或XML文件。
在接收到列表134后,客户端设备104可以在用户界面102上显示窗口136。在一些实施方式中,服务器116产生用于显示窗口136的代码(例如,HTML(超文本标记语言)代码),并且将该代码与列表134相结合地发送。窗口136包括列表138,列表138显示分别与动作124a-f对应的列表项目140a-f。在一些实施方式中,如果用户108取消隐含动作的调用(例如,用户108可以通过选择取消控件132来取消动作124a的隐含调用)。则列表138可以不包括用于所取消的动作的对应列表项目。例如,如果用户已经取消了动作124a的隐含调用(例如,在状态(h)中),则列表138可以不包括列表项目140a。
每一个列表项目140a-f包括对应的图标142a-f。图标142a-f指示与各列表项目140a-f对应的动作的类型。例如,图标142a-b指示列表项目140a-b对应于“呼叫联系人”动作。图标142c指示列表项目140c对应于“web搜索”动作。图标142d指示列表项目140d对应于播放电影(例如,流或购买和下载)动作。图标142e指示列表项目140e对应于地图或路线指引动作,并且图标142f指示列表项目140f对应于“支付账单”动作。
窗口136包括如果用户108意欲进行的动作未在列表138中被显示则用户108可以使用来输入或说出不同的命令或动作的搜索框144。如果用户108意义进行的动作被显示在对应的列表项目140a-d中,则用户108可以选择与意欲进行的动作对应的列表项目140a-d。例如,如在状态(l)中所示,用户108可以选择列表项目140e,以指示他们希望调用对应的动作124e,以显示到喀布尔的路线指引。响应于对列表项目140a-e的用户选择,客户端设备104向服务器116发送与所选择的列表项目140a-e对应的动作的指示。例如,状态(m)图示了向服务器116发送指示,该指示指示对与请求到喀布尔的路线指引对应的动作124e的选择。与状态(g)的隐含调用过程相反,状态(k)和(l)提供了对动作的手工选择,这在本说明书中被称作“显式的”调用过程。
响应于接收到用户选择的动作的指示,服务器116调用用户选择的动作。对于一些类型的动作,诸如产生地图或产生到一个位置的路线指引,则在服务器116上进行处理,并且向客户端设备104发送用于显示结果(例如,显示图像、HTML代码)的信息。例如,对于用户选择的动作124e,可以通过在服务器116上运行的地图应用来产生喀布尔的地图和到喀布尔的路线指引。用于显示地图和路线指引的HTML代码可以被发送到客户端设备104,如状态(n)所示。客户端设备可以在用户界面102中显示所产生的地图和路线指引,诸如在窗口150中显示所产生的地图和路线指引。
对于一些类型的动作,服务器116可以向客户端设备104发送消息,该消息指示动作的类型并且有可能指示与动作相关的元数据。在接收到该消息后,客户端设备104可以执行所示的动作。例如,如果用户108选择列表项目140b来指示选择呼叫工作中的Bill的动作124b,则服务器116可以向客户端设备104发送用于指示客户端设备104应当启动呼叫的消息。从服务器116向客户端设备104发送的消息可以包括Bill的工作号码。
对于一些类型的动作,动作的调用包含在服务器116和客户端设备104上的处理(例如,除了仅查找信息或仅显示信息之外的处理)。例如,对于播放媒体标题的动作,服务器116可以从媒体服务器下载标题,处理信用卡交易并且解锁数字媒体权限。服务器116可以向客户端设备104发送媒体内容。客户端设备104可以解码媒体内容,并且可以播放该内容。
响应于对动作的用户选择,可以递增相关联的歧义值。例如,状态(o)图示与用户选择的动作124e对应的歧义值128e增加5。随着时间推移,歧义值可以增加到其在或大于阈值的点,使得如果动作随后被映射到候选词语,则可以隐含地调用相关联的动作。
图2图示了可以用于响应于语音命令或其他音频信号而调用动作的示例性系统200。系统200包括通过网络206而连接到一个或多个客户端设备204的服务器202。服务器202除了别的之外包括一个或多个处理器208、网络接口210、查询修订器212、用户接口213和介质214。服务器202可以是搜索引擎,或者,服务器202可以被搜索引擎用于执行语音识别。客户端设备204包括一个或多个处理器220、用户界面222、网络接口224、麦克风226和介质228。客户端设备204可以是移动电话、膝上型计算机、PDA、智能电话、BlackberryTM或其他手持或移动设备。在另一种实施方式中,客户端设备204不是便携或移动的,而是台式计算机或服务器。
介质214和228存储和记录信息或数据,并且每一个可以是光学存储介质、磁性存储介质、快闪存储器或任何其他适当的存储介质类型。介质214包括词语消岐器应用230,并且可能包括一个或多个其他应用232。词语消岐器应用包括语音识别模块234、词语/动作映射器236、置信分值产生器238、动作启动器240和客户端设备索引242。
语音识别模块234对接收的音频信号执行语音识别,以识别与音频信号匹配的一个或多个候选词语。语音识别模块可以确定每一个识别的词语的语音识别置信量度,每一个识别的词语的语音识别置信量度指示候选词语匹配音频信号的置信度。词语/动作映射器236识别与每一个候选词语相关联的一个或多个动作。置信分值产生器238确定每一个动作的歧义值,该歧义值表示用户意欲进行该动作的可能性。查询修订器212可以调节歧义值,诸如增加用户选择的动作的歧义值并且减少用户取消的动作的歧义值。
客户端设备索引242可以包括从一个或多个客户端设备204接收的一个或多个类型的索引。例如,服务器202可以定期地从客户端设备204接收联系人的索引。语音识别模块234可以识别在客户端设备索引242中包括并且匹配所接收的音频信号的候选词语。客户端设备索引242也可以包括其他信息,诸如与客户端设备204能够执行的应用程序相关的信息、用户界面尺寸、在客户端设备204上可获得的媒体内容等。其他应用232除了别的之外可以包括例如地图产生器应用、交易应用(例如,用于支持电子账单或用于管理媒体内容的购买)和搜索应用。
介质228包括搜索应用250,并且可能包括一个或多个其他应用252。介质228也包括用户偏好254、图标数据库256和联系人数据库258。联系人数据库258可以包括例如在客户端设备204上存储的个人联系人的列表。联系人数据库258的一些或全部内容以被定期地发送到服务器202。图标数据库256可以包括用于指示特定类型的动作的图标。可以接着在向客户端设备204的用户呈现的建议的候选词语/动作对的列表中的候选词语/动作对或与其一起显示图标。
搜索应用250可以向客户端设备204的用户提供搜索用户界面,该搜索用户界面允许用户输入语音命令来执行因特网搜索,并且执行其他动作,诸如拨打联系人、通过电子邮件或其他电子通信来与联系人进行通信、进行电子账单支付、获得到POI的路线指引或关于POI的其他信息或其他动作。用户偏好254可以包括:用于特定用户的定制阈值,诸如用于指示用户一般通过语音命令例如意欲呼叫联系人而不是执行web搜索的值;或用于指示用户偏好立即调用命令而不是使用倒计时定时器的值。其他用户偏好254可以指示用户偏好自动地调用特定类型的动作(例如,拨打联系人)或用户偏好看到在建议的候选词语/动作对的列表中首先呈现web搜索动作的建议。
服务器202可以连接到网络206,并且有可能通过网络接口210连接到一个或多个其他网络。类似地,客户端设备204可以连接到网络206,并且有可能通过网络接口224连接到一个或多个其他网络。网络206可以包括例如因特网、广域网(WAN)、局域网(LAN)、模拟或数字有线和无线电话网络(例如,PSTN、综合业务数字网(ISDN)和数字用户线(xDSL))、无线电、电视机、有线电视、卫星和/或用于承载数据业务的任何适当的其他递送或隧道传送机制的一个或多个。网络可以包括多个网络或子网,其中每一个可以包括例如有线或无线数据路径。
处理器208包括一个或多个处理器,并且处理用于服务器202的操作系统或应用程序计算机指令。类似地,处理器220包括一个或多个处理器,并且处理用于客户端设备204的操作系统或应用程序计算机指令。用户界面222显示应用用户界面,应用用户界面包括用于在客户端设备204上运行的应用的用户界面控件。例如,用户界面222可以显示用于搜索应用250的界面。用户界面213显示用于在服务器202上运行的应用的应用用户界面。例如,用户界面213可以显示用于配置、监控和调用词语消岐器应用230的管理员应用的界面。
图3是图示用于基于语音命令来调用动作的计算机实现的过程300的流程图。简而言之,过程300包括:在服务器接收音频信号;通过所述服务器对音频信号执行语音识别,以识别与音频信号的一个或多个部分匹配的一个或多个候选词语;识别用于每一个候选词语的一个或多个可能意欲的动作;提供用于在客户端设备上显示的信息,所述信息指定所述候选词语和用于每一个候选词语的动作;从所述客户端设备接收由用户选择的动作的指示,其中,从在所提供的信息中包括的动作中选择所述动作;以及调用由所述用户选择的动作。使用过程300,在至少二维中对构成语音命令的声音进行消岐。
进一步详细而言,当过程300开始时(302),服务器从客户端设备接收音频信号(303)。服务器可以间接地从客户端设备接收音频信号,例如,其中客户端设备向搜索引擎发送音频信号,搜索引擎继而向服务器发送该音频信号。
服务器对音频信号执行语音识别,以识别与音频信号的一个或多个部分匹配的一个或多个候选词语(304)。如图1中所示,服务器116对音频信号114执行语音识别,以识别候选词语118a-d。执行语音识别可以包括:在客户端接收的索引中识别匹配音频信号的候选词语(例如联系人的姓名)。
语音识别用于在“识别质量”维度中执行对语音命令的消岐。使用语音识别,构成语音命令的声音匹配到说话者可能已经说出的词语。在一个示例中,在识别质量维度中的消岐可以试图确定当说话者发出语音命令时他们是否意欲说出类似声音的词语“directions to Paris(到巴黎的路线指引)”、“directions to Perris(到佩里斯的路线指引)”、“direct to Perry’s house(直接到Perry家)”、“do you reckon two pairs(你估计两对吗)”、“door erect chintz toupee wrist”或其他可能的候选词语。
对于每一个候选词语识别一个或多个可能意欲的动作(306)。例如,如图1中所示,对于相关联的动作118a-d识别动作124a-e。动作可以包括例如拨打联系人、执行对于候选词语的web搜索、获得到POI的路线指引、播放媒体内容或支付在线账单。动作的其他示例包括:基于人的姓名来启动与人的电子邮件或即时消息会话;基于媒体内容的标题来播放媒体内容或获得关于媒体内容的详细信息;以及基于POI的名称来获得POI的地图、关于POI的详细信息或到POI的距离。
由将候选词语匹配到适当动作的在客户端或服务器上的模块执行在“说话者意图”第二维度中的消岐,并且在“说话者意图”第二维度中的消岐获得与每一个动作相关联的歧义值。在这样做时,当说话者说出构成语音命令的词语时他们可能已经意欲进行该动作。
用于指定候选词语和用于每一个候选词语的动作的信息被提供来在客户端设备上显示(308)。例如,可以在客户端设备上显示用户界面,该用户界面包括候选词语/动作对的列表,并且表示动作类型的图标接着每一个候选词语/动作对或被包括在每一个候选词语/动作对中。可以以基于用户意欲进行动作的可能性的顺序来在用户界面中排名并且呈现候选词语/动作对。
对于上述的“directions to Paris”示例,用户界面可以向用户提供下述选项:获得到法国巴黎、德克萨斯的巴黎或加利福尼亚的佩里斯的路线指引;确定到用户的朋友“Perry”的家的路径;使用词语“do you reckon two pairs”来执行web搜索;或者确定电影“Directions to Paris”的演出时间。如果用户未生活在法国、德克萨斯或加利福尼亚附近,但是他们有名为“Perry”的朋友,或如果他们的用户偏好指示他们喜欢电影,则可以将路径和演出时间动作排名得比路线指引和web搜索动作更高。
识别用户选择的动作,并且,接收由用户选择的动作的指示(310)。从在提供的信息中包括的动作中选择动作。例如,用户可以在用户界面中选择候选词语/动作对,以指示他们期望调用所选择的动作。用户可以例如说出数字“2”以选择第二个识别的动作。
调用由用户选择的动作(312),由此结束过程300(314)。对于一些类型的动作,诸如产生地图或产生到位置的路线指引,在服务器上进行处理,并且用于显示结果(例如,显示图像、HTML代码)的信息被发送到客户端设备。对于其他类型的动作,服务器可以向客户端设备发送消息,该消息指示要在客户端设备上调用的动作的类型,并且可能指示与动作相关的元数据。在接收到消息后,客户端设备可以执行所指示的动作。例如,客户端设备可以启动向联系人的呼叫。对于一些类型的动作,动作的调用包含在服务器和客户端设备两者上的处理。例如,对于播放媒体标题的动作,服务器可以从媒体服务器下载标题,处理信用卡交易,并且解锁数字媒体权限。服务器可以向客户端设备发送媒体内容,并且客户端设备可以解码和播放媒体内容。
图4是图示用于基于音频信号调用动作的计算机实现的过程300的流程图。简而言之,过程400包括:通过客户端设备向服务器提供音频信号;获得信息,该信息指定与音频信号的一个或多个部分匹配的一个或多个候选词语和用于每一个候选词语的一个或多个可能的意欲动作;接收对动作的用户选择;向服务器提供用户选择的动作的指示;以及调用由用户选择的动作。
进一步详细而言,当过程400开始时(402),通过客户端设备向服务器提供音频信号(404)。例如,并且如图1中所示,客户端设备104向服务器116发送音频信号114。可以例如通过将由用户108说出的语音命令记录到麦克风112中来建立音频信号114。
获得用于识别与音频信号匹配的一个或多个词语和与每一个候选词语相关联的一个或多个动作的信息(406)。例如并且如图1中所示,服务器116可以向客户端设备104发送候选词语/动作对的列表134。可以通过歧义值来排名列表134,或在一些实施方式中,不排名列表134。
接收对动作的用户选择(408)。例如,用户可以从在客户端设备的用户界面上显示的建议的候选词语/动作对的列表中选择动作。例如并且如图1中所示,用户108可以选择与“directions to Kabul”动作124e对应的列表项目140e。
用于识别用户选择的动作的信息被提供到服务器(S410)。例如并且如图1中所示,可以从客户端设备104向服务器116发送对动作124e的选择的指示。
调用用户选择的动作(412),由此结束过程400(414)。对于一些类型的动作,诸如产生地图或产生到一个位置的路线指引,在服务器上进行处理,并且用于显示结果(例如,显示图像、HTML代码)的信息被发送到客户端设备。对于其他类型的动作,服务器可以向客户端设备发送消息,该消息指示要在客户端设备上调用的动作的类型,并且可以指示与动作相关的元数据。在接收到消息后,客户端设备可以执行所指示的动作。例如,客户端设备可以启动向联系人的呼叫。对于一些类型的动作,动作的调用包含在服务器和客户端设备两者上的处理。例如,对于播放媒体标题的动作,服务器可以从媒体服务器下载标题,处理信用卡交易,并且解锁数字媒体权限。服务器可以向客户端设备发送媒体内容,并且客户端设备可以解码和播放媒体内容。
图5A-5B和6A-6B图示了示例性用户界面。图5A图示了可以例如在移动客户端设备上显示的示例用户界面500。用户界面500包括麦克风控件502,用户可以在说出语音命令之前选择麦克风控件502。用户的语音命令可以被记录,并且对应的音频信号可以被发送到服务器。服务器可以执行语音识别以识别匹配音频信号的一个或多个候选词语。服务器也可以识别与每一个识别的候选词语对应的一个或多个动作。服务器可以发送可以在用户界面500的列表区域506中的列表项目504a-h中识别的候选词语/动作对的列表。在一些实施方式中,服务器产生用于显示列表区域506的信息(例如,显示图像、HTML代码),并且移动客户端设备使用所接收的信息来呈现列表区域506。
列表项目504a-h每一个分别包括相关联的图标508a-h。图标508a-h的每一个指示与相应的列表项目504a-h对应的动作或动作的类型。例如,图标508a-f——每一个包括对应的联系人的图片——每一个指示“call contact(呼叫联系人)”动作类型。图标508g-h每一个指示“websearch(web搜索)”动作类型。用户可以选择列表项目504a-h来使得调用对应的动作。例如,用户可以选择列表项目504b,以在他的移动电话上呼叫名为“Huan”的联系人。又如,用户可以选择列表项目504g以启动对于短语“call Bill(呼叫比尔)”的web搜索。如果用户选择列表项目504e或列表项目504f,则用户可以被提示来输入对应的“Jeff”或“billB”联系人的电话号码,因为移动客户端设备不具有那些联系人的电话号码。响应于用户选择列表项目504a-h,服务器可以递增与用户选择的动作相关联的歧义值。
图5B图示了示例用户界面550。如果用户选择了上面参考图5A描述的列表项目504a,则可以例如在移动客户端设备上显示用户界面550。又如,如果服务器隐含地调用“call Bill at home(呼叫家中的比尔)”,诸如如果认为“call Bill at home”动作很可能是用户在发出语音命令时意欲进行的动作,则可以显示用户界面550(例如,“call Bill at home”动作可能是被用户频繁地请求的动作,和/或语音识别过程可能已经确定了用于识别随后被映射到“call Bill at home”动作的候选词语的高置信度阈值)。在一些实施方式中,可以隐含地调用“call Bill at home”动作,而不显示用户界面550。
在服务器接收到用于向移动客户端设备指示隐含地调用“call Bill at home”动作的消息后,客户端设备可以显示用户界面550。在一些示例中,移动客户端设备在显示用户界面550后可以立即启动“call Bill at home”动作。在其他示例中,在调用“call Bill at home”动作之前,在用户界面550上可以显示窗口552。在一些示例中,响应于用户选择“拨打”控件554而调用“call Bill at home”动作。
在其他示例中,窗口552可以实现“倒计时定时器”,其中,向用户呈现倒计时消息,该消息用于指示当倒计时定时器达到0时将执行“call Bill at home”动作。如果用户意欲呼叫比尔,则用户可以使得倒计时定时器达到0,并且在那个点,可以调用对于比尔的呼叫。在定时器达到0之前,用户也可以选择拨打控件554以调用呼叫动作。倒计时定时器倒计时的时间量可以基于相关联的动作的歧义值。例如,如果歧义值指示用户意欲进行“call Bill at home”动作的概率高,则可以根本不使用倒计时定时器。如果歧义值指示用户意欲进行“call Bill at home”动作的概率是中等的,则倒计时定时器可以在小数量的秒数(例如,2)时启动,并且如果歧义值指示低概率,则倒计时定时器可以在较高的秒数(例如,4)开始。
取消控件556可以被包括在窗口552中,以允许用户在进行呼叫之前取消“call Bill at home”动作,或例如如果移动设备已经拨打但是正在等待比尔的电话回答则取消呼叫。如果用户选择取消控件556来取消对于比尔的呼叫,则可以从移动客户端设备向服务器发送中断信号。响应于接收到中断信号,服务器可以递减“call Bill at home”动作的歧义值,以考虑该动作不是用户意欲进行的动作的事实。另外,如果由于确定隐含地调用“call Bill at home”动作而显示用户界面550,则服务器可以响应于用户选择取消控件556来向移动客户端设备发送候选词语/动作对的列表,以指示所述移动客户端设备显示上面参考图5A描述的界面500,以允许用户选择他们意欲调用的动作。
图6A图示了可以例如在移动客户端设备上显示的示例用户界面600。可以响应于服务器发送候选词语/动作对的列表而显示用户界面600,该候选词语/动作对的列表对应于一组候选词语,该组候选词语匹配与由移动客户端设备向服务器发送的语音命令相关联的音频信号。例如,移动客户端设备的用户可能已经说出了语音命令“directions to Paris”。所接收的候选词语/动作对的列表可以用于在用户界面600的列表区域606中显示列表项目604a-h。
列表项目604a-h每一个分别包括相关联的图标608a-h。每一个图标608a-h指示与相应的列表项目604a-h对应的动作的类型。例如,图标608a-h每一个指示“get directions(获得路线指引)”动作类型(例如,分别与“directions to Paris”、“directions to parents”、“directions to parris”和“directions to tears”动作)。图标608e-g每一个指示“web search(web搜索)”动作类型(例如,分别与对于短语“directions to Paris”、“directions to parents”和“directions to tears”的web搜索对应)。图标608h指示电影下载动作类型(例如,与“下载‘Directions to Paris’电影”动作相关联)。
用户可以选择列表项目604a-h来使得调用对应的动作。例如,用户可以选择列表项目604b以获得到“parents(父母)”的路线指引。又如,用户可以选择列表项目604g来启动对于短语“directions to tears”的web搜索。响应于用户选择列表项目604a-h,服务器可以递增与用户选择的动作相关联的歧义值。
图6B图示了示例用户界面650。如果用户选择了上面参考图6A所述的列表项目604a,则用户界面650可以被例如显示在移动客户端设备上。又如,如果服务器隐含地调用“directions to Paris”,诸如如果认为“directions to Paris”动作很可能是当说出语音命令时用户意欲进行的动作,则可以显示用户界面650。移动客户端设备在接收到服务器的用于向移动客户端设备指示隐含地调用“directions to Paris”动作的消息后,可以显示用户界面650。在一些示例中,可以由移动客户端设备在显示用户界面650后立即启动“directions to Paris”动作。在其他示例中,可以在调用“directions to Paris”之前在用户界面650上显示窗口652。在一些示例中,响应于用户选择“go”控件654来调用“directions to Paris”动作。
在其他示例中,窗口652可以实现“倒计时定时器”,其中,向用户呈现倒计时消息,该消息用于指示当倒计时定时器达到0时将执行“directions to Paris”动作。用户可以使得倒计时定时器达到0,并且在那个点,可以调用该动作。用户也可以选择“go”控件654,以在定时器达到0之前调用该动作。取消控件656可以被包括在窗口652中,以允许用户在调用该动作之前取消“directions to Paris”动作。如果用户选择取消控件656来取消该动作,则可以从移动客户端设备向服务器发送中断信号。响应于接收到中断信号,服务器可以递减用于“directions to Paris”动作的歧义值,以考虑该动作不是用户意欲进行的动作的事实。另外,如果由于确定隐含地调用“directions to Paris”动作而显示用户界面650,则服务器可以响应于用户选择取消控件656来向移动客户端设备发送候选词语/动作对的列表,以指示移动客户端设备显示上面参考图6A所述的界面600,以允许用户选择他们意欲调用的动作。
图7是一般计算机系统700的示例的示意图。系统700包括处理器710、存储器720、存储设备730和输入/输出设备740。组件710、720、730和740中的每一个使用系统总线750互连。处理器710能够处理用于在系统700内执行的指令。在一种实施方式中,处理器710是单线程的处理器。在另一种实施方式中,处理器710是多线程处理器。处理器710能够处理在存储器720中或在存储设备730上存储的指令,以在输入/输出设备740上显示用户界面的图形信息。
存储器720存储系统700内信息。在一种实施方式中,存储器720是计算机可读介质。在另一种实施方式中,存储器720是易失性存储器单元。在另一种实施方式中,存储器720是非易失性存储器单元。
存储设备730能够为系统700提供大容量存储。在一种实施方式中,存储设备730是计算机可读介质。在各种不同的实施方式中,存储设备730可以是软盘设备、硬盘设备、光盘设备或带设备。
输入/输出设备740为系统700提供输入/输出操作。在一种实施方式中,输入/输出设备740包括键盘和/或指示设备。在另一种实施方式中,输入/输出设备740包括显示单元,用于显示图形用户界面。
可以在数字电子电路中、在计算机硬件中或在计算机硬件和固件或软件的组合中实现所述的特征。可以在计算机可读存储设备中有形地包含的计算机程序产品中实现该装置,该计算机程序产品由可编程处理器执行;并且可以通过可编程处理器来执行方法步骤,该可编程处理器通过操作输入数据并且产生输出来执行指令的程序以执行所述实施方式的功能。可以在一个或多个计算机程序中有益地实现所述的特征,该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行,该至少一个可编程处理器耦合来从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,以及向数据存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。计算机程序是可以在计算机中直接地或间接地使用来执行特定动作或带来特定结果的指令集。可以以包括编译型或解释型语言的编程语言的任何适当形式来编写计算机程序,并且,可以任何适当的形式来部署计算机程序,包括作为单独程序或作为适合于用在计算环境中的模块、组件、子例程或其他单元。
用于执行指令的程序的适当处理器包括例如通用和专用微处理器以及任何相关种类的计算机的单个处理器或多个处理器之一。一般地,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。一般地,计算机也包括一个或多个大容量存储设备或可操作地耦合以与一个或多个大容量存储设备进行通信,该一个或多个大容量存储设备用于存储数据文件;这样的设备包括诸如内部硬盘和移动盘的磁盘、磁光盘和光盘。适合于有形地包含计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,其中例如包括:半导体存储器设备,诸如EPROM、EEPROM和快闪存储器设备;磁盘,诸如内部硬盘和移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以被ASIC(专用集成电路)补充或被包含在ASIC中。
为了提供与用户的交互,可以在具有显示设备和键盘和指示设备的计算机上实现特征,该显示设备诸如是CRT(阴极射线管)或LCD(液晶显示器)监控器,用于向用户显示信息,该键盘和指示设备诸如是鼠标或跟踪球,通过其,用户可以向计算机提供输入。
可以在计算机系统中实现特征,该计算机系统包括诸如数据服务器的后端组件,或者该计算机系统包括诸如应用服务器或因特网服务器的中间件组件,或者该计算机系统包括前端组件,诸如具有图形用户界面或因特网浏览器的客户端计算机,或者该计算机系统包括上述的任何可操作组合。系统的组件可以通过诸如通信网络的数字数据通信的任何相关形式或介质连接。通信网络的示例包括例如局域网、广域网和形成因特网的计算机和网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过诸如所述的网络来交互。客户端和服务器的关系依靠运行在相应的计算机上并且彼此具有客户端-服务器关系的计算机程序而出现。
电子文档(为了简洁称作文档)可以但是不必对应于文件。文档可以被存储在保持其他文档的文件的一部分中、在专用于涉及的文档的单个文件中或在多个协同的文件中。
在本说明书中描述的主题和操作的实施例可以被实现在数字电子电路中或在计算机软件、固件或硬件中或在它们的一个或多个的组合中,该计算机软件、固件或硬件包括在本说明书中公开的结构及其结构等同物。在本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序,即计算机程序指令的一个或多个模块,该一个或多个计算机程序被编码在计算机存储介质上,以由数据处理装置执行或控制数据处理装置的操作。
计算机存储介质可以是计算机可读存储装置、计算机可读存储基底、随机或串行存取存储器阵列或设备或它们的一个或多个的组合或包括在其中。而且,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是以人为产生的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是一个或多个分立的物理组件或介质(例如,多个CD、盘或其他存储设备),或可以被包括在其中。在本说明书中描述的操作可以被实现为由数据处理设备对于在一个或多个计算机可读存储设备上存储或从其他源接收的数据执行的操作。
术语“数据处理装置”涵盖用于处理数据的所有种类的设备、装置和机器,包括例如可编程处理器、计算机、片上系统或上述的多个或组合。该装置可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置也可以包括创建所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时间环境、虚拟机或它们的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础结构,诸如web服务、分布式计算和网格计算基础结构。
可以以任何适当形式的编程语言来编写计算机程序(也称作程序、软件、软件应用、脚本或代码),该任何适当形式的编程语言包括编译型或解释型语言、说明性语言或程序语言,并且可以以任何可操作形式来部署计算机程序,该任何可操作形式包括作为单独程序或作为适合于用在计算环境中的模块、组件、子例程、对象或其他单元。计算机程序可以但是不必对应于在文件系统中的文件。程序可以被存储在保持其他程序或数据(例如,在标记语言文档中存储的一个或多个脚本)的文件的一部分中、在专用于所涉及的程序的单个文件中或在多个协调的文件(例如,存储一个或多个模块、支程序或代码的部分的文件)中。计算机程序可以被部署为在一个计算机上或在位于一个位置或分布在多个位置并且通过通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流可以被执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过操作输入数据和产生输出来执行动作。过程和逻辑流也可以被专用逻辑电路执行,并且装置也可以被实现为专用逻辑电路,该专用逻辑电路例如是FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于计算机程序的执行的处理器包括例如通用和专用微处理器和任何适当种类的数字计算机的任何一个或多个处理器。一般地,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于根据指令来执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。一般地,计算机也包括一个或多个大容量存储设备,或可操作地耦合来从一个或多个大容量存储设备接收数据或向其传送数据或两者,该一个或多个大容量存储设备用于存储数据,例如磁盘、磁光盘或光盘。然而,计算机不必具有这样的设备。而且,可以在另一种设备中嵌入计算机,该另一种设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放机、游戏控制器、全球定位系统(GPS)接收器或便携存储设备(例如,通用串行总线(USB)快闪驱动),仅列举出几个。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,包括例如:半导体存储器设备,例如,EPROM、EEPROM和快闪存储器设备;磁盘,例如内部硬件或移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以被专用逻辑电路补充或被包含在其中。
为了提供与用户的交互,在本说明书中描述的主题的实施例可以被实现在计算机上,该计算机具有显示设备与键盘和指示设备,该显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监控器,用于向用户显示信息,该键盘和指示设备例如是鼠标或跟踪球,通过其用户可以向计算机提供输入。也可以使用其他种类的设备来提供与用户的交互;例如,向用户提供的反馈可以是任何适当形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何相关的形式来接收来自用户的输入,该任何相关的形式包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如通过响应于从web浏览器接收的请求向在用户的客户端设备上的web浏览器发送网页。
可以在计算系统中实现在本说明书中描述的主题的实施例,该计算系统包括后端组件,例如作为数据服务器,或该计算系统包括中间件组件,例如应用服务器,或该计算系统包括前端组件,例如具有图形用户界面或web浏览器的客户计算机,通过该图形用户界面或web浏览器,用户可以与在本说明书中描述的主题的实现交互,或该计算系统包括这样的后端、中间件或前端组件的一个或多个的组合。系统的组件可以通过任何适当形式或介质的数字数据通信——例如通信网络——来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、国际网络(例如因特网)和对等网络(例如自组织对等网络)。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离,并且通常通过通信网络来交互。客户端和服务器的关系依靠运行在相应的计算机上并且彼此具有客户端-服务器关系的计算机程序而出现。在一些实施例中,服务器向客户端设备发送数据(例如,HTML页面)(例如,用于显示数据和从与客户端设备交互的用户接收用户输入)。可以在服务器从客户端设备接收在客户端设备产生的数据(例如,用户交互的结果)。
已经描述了多个实施方式。尽管如此,可以明白,在不偏离本公开的精神和范围的情况下,可以进行各种修改。因此,其他实施方式在所附的权利要求的范围内。
Claims (20)
1.一种计算机实现的方法,包括:
在服务器接收音频信号;
通过所述服务器对所述音频信号执行语音识别,以识别匹配所述音频信号的一个或多个部分的一个或多个候选词语;
对于每一个候选词语识别一个或多个可能的意欲动作;
提供信息用于在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;
从所述客户端设备接收由用户选择的动作的指示,其中所述动作是从在所提供的信息中包括的动作中选择的;以及
调用由所述用户选择的所述动作。
2.根据权利要求1所述的方法,其中,所述服务器包括搜索引擎。
3.根据权利要求1所述的方法,进一步包括:
从客户端设备接收索引,以及
其中,执行所述语音识别进一步包括:识别所述索引中的匹配所述音频信号的候选词语。
4.根据权利要求3所述的方法,其中,所述索引进一步包括由所述客户端设备存储的联系人的索引。
5.根据权利要求1所述的方法,其中,当候选词语包括人的姓名时,与所述候选词语相关联的动作中的一个或多个启动与所述人的呼叫、电子邮件或即时消息会话。
6.根据权利要求1所述的方法,其中,当候选词语包括兴趣点(POI)时,与所述候选词语相关联的动作中的一个或多个获得所述POI的地图、到所述POI的路线指引、关于所述POI的详细信息或到所述POI的距离。
7.根据权利要求1所述的方法,其中,当候选词语识别媒体内容时,与所述候选词语相关联的动作中的一个或多个播放所述媒体内容、启动对于所述媒体内容的下载或获得关于所述媒体内容的详细信息。
8.根据权利要求1所述的方法,其中,与候选词语相关联的动作中的一个或多个使用所述候选词语作为查询词语来启动web搜索查询。
9.根据权利要求1所述的方法,进一步包括:确定每一个动作的歧义值,所述歧义值表示所述用户实际上意欲进行所述动作的确定度。
10.根据权利要求9所述的方法,进一步包括:
响应于接收到由所述用户选择的所述动作的指示,递增与所述用户选择的动作相关联的所述歧义值。
11.根据权利要求9所述的方法,进一步包括:
确定特定动作的所述歧义值满足阈值;
基于确定所述歧义值满足所述阈值,自动地调用所述特定动作;
确定用户已经取消了所述特定动作;以及
基于确定所述用户已经取消了所述特定动作,递减所述特定动作的所述歧义值,
其中,基于确定所述用户已经取消了所述特定动作来提供所述信息。
12.根据权利要求9所述的方法,进一步包括:
确定每一个候选词语的语音识别置信量度,
其中,基于对于与每一个动作相关联的候选词语确定的所述语音识别置信量度,确定所述动作的所述歧义值。
13.根据权利要求9所述的方法,进一步包括:
基于所述动作各自的歧义值,产生所述动作的排名,
其中,提供所述信息进一步包括提供所述排名。
14.根据权利要求1所述的方法,其中,指定特定动作的所述信息包括图标。
15.根据权利要求1所述的方法,其中,调用所述用户选择的应用进一步包括:向客户端设备提供指定由所述客户端设备存储的应用的信息。
16.一种系统,包括:
一个或多个计算机;以及
耦接到所述一个或多个计算机的计算机可读介质,其上存储有指令,所述指令当被所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:
在服务器接收音频信号;
通过所述服务器对所述音频信号执行语音识别,以识别匹配所述音频信号的一个或多个部分的一个或多个候选词语;
对于每一个候选词语识别一个或多个可能的意欲动作;
提供信息用于在客户端设备上显示,所述信息指定所述候选词语和用于每一个候选词语的动作;
从所述客户端设备接收由用户选择的动作的指示,其中所述动作是从在所提供的信息中包括的动作中选择的;以及
调用由所述用户选择的所述动作。
17.一种计算机实现的方法,包括:
通过客户端设备向服务器提供音频信号;
获得信息,所述信息指定匹配所述音频信号的一个或多个部分的一个或多个候选词语和用于每一个候选词语的一个或多个可能的意欲动作;
从所述一个或多个可能的意欲动作接收对动作的用户选择;
向所述服务器提供所述用户选择的动作的指示;以及
调用由所述用户选择的所述动作。
18.一种编码有计算机程序的计算机存储介质,所述程序包括指令,所述指令当被数据处理装置执行时使得所述数据处理装置执行操作,所述操作包括:
通过客户端设备向服务器提供音频信号;
获得信息,所述信息指定匹配所述音频信号的一个或多个部分的一个或多个候选词语和用于每一个候选词语的一个或多个可能的意欲动作;
从所述一个或多个可能的意欲动作接收对动作的用户选择;
向所述服务器提供所述用户选择的动作的指示;以及
调用由所述用户选择的所述动作。
19.根据权利要求18所述的介质,其中,所述操作进一步包括:从所述客户端设备向所述服务器发送联系人的索引。
20.根据权利要求18所述的介质,其中,所述操作进一步包括:
确定每一个动作的歧义值;
确定特定动作的所述歧义值满足阈值;
基于确定所述歧义值满足所述阈值,自动地调用所述特定动作;
确定所述用户已经取消了所述特定动作;以及
基于确定所述用户已经取消了所述特定动作,递减所述特定动作的所述歧义值,
其中,基于确定所述用户已经取消了所述特定动作,提供所述信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/692,307 US8626511B2 (en) | 2010-01-22 | 2010-01-22 | Multi-dimensional disambiguation of voice commands |
US12/692,307 | 2010-01-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102137085A true CN102137085A (zh) | 2011-07-27 |
CN102137085B CN102137085B (zh) | 2016-02-24 |
Family
ID=43983537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010279143.2A Active CN102137085B (zh) | 2010-01-22 | 2010-09-08 | 用于语音命令的多维消歧的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8626511B2 (zh) |
EP (1) | EP2355093B1 (zh) |
JP (1) | JP5911669B2 (zh) |
KR (1) | KR101667006B1 (zh) |
CN (1) | CN102137085B (zh) |
AU (1) | AU2010214793B2 (zh) |
Cited By (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722525A (zh) * | 2012-05-15 | 2012-10-10 | 北京百度网讯科技有限公司 | 通讯录人名的语言模型建立方法、语音搜索方法及其系统 |
CN103092887A (zh) * | 2011-11-07 | 2013-05-08 | 联想(北京)有限公司 | 电子设备及其语音信息提供方法 |
CN103377652A (zh) * | 2012-04-25 | 2013-10-30 | 上海智臻网络科技有限公司 | 一种用于进行语音识别的方法、装置和设备 |
CN103517094A (zh) * | 2012-06-15 | 2014-01-15 | 三星电子株式会社 | 服务器和控制该服务器的方法 |
CN103915094A (zh) * | 2012-12-28 | 2014-07-09 | 财团法人工业技术研究院 | 基于目标名称识别的共享语音操控方法与装置 |
CN104112448A (zh) * | 2013-04-19 | 2014-10-22 | 通用汽车环球科技运作有限责任公司 | 用于管理语音系统的对话的方法和系统 |
CN104299623A (zh) * | 2013-07-15 | 2015-01-21 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和系统 |
CN104424944A (zh) * | 2013-08-19 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104699236A (zh) * | 2013-12-05 | 2015-06-10 | 联想(新加坡)私人有限公司 | 利用境况解释自然语言语音识别命令 |
CN104731918A (zh) * | 2015-03-25 | 2015-06-24 | 百度在线网络技术(北京)有限公司 | 一种语音搜索方法及装置 |
CN105960673A (zh) * | 2014-10-09 | 2016-09-21 | 谷歌公司 | 多个设备上的热词检测 |
CN106471570A (zh) * | 2014-05-30 | 2017-03-01 | 苹果公司 | 多命令单一话语输入方法 |
CN107004413A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 扩展数字个人助理动作提供者 |
TWI601032B (zh) * | 2013-08-02 | 2017-10-01 | 晨星半導體股份有限公司 | 應用於聲控裝置的控制器與相關方法 |
CN107274889A (zh) * | 2017-06-19 | 2017-10-20 | 北京紫博光彦信息技术有限公司 | 一种根据语音生成业务单据的方法及装置 |
CN107452378A (zh) * | 2017-08-15 | 2017-12-08 | 北京百度网讯科技有限公司 | 基于人工智能的语音交互方法和装置 |
CN107491468A (zh) * | 2016-06-11 | 2017-12-19 | 苹果公司 | 具有数字助理的应用集成 |
CN108257601A (zh) * | 2017-11-06 | 2018-07-06 | 广州市动景计算机科技有限公司 | 用于语音识别文本的方法、设备、客户端装置及电子设备 |
CN108369580A (zh) * | 2015-12-11 | 2018-08-03 | 微软技术许可有限责任公司 | 针对屏幕上项目选择的基于语言和域独立模型的方法 |
CN110111793A (zh) * | 2018-02-01 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 音频信息的处理方法、装置、存储介质及电子装置 |
CN110168541A (zh) * | 2016-07-29 | 2019-08-23 | 乐威指南公司 | 基于静态和时间知识图消除词语歧义的系统和方法 |
CN110310631A (zh) * | 2019-06-28 | 2019-10-08 | 北京百度网讯科技有限公司 | 语音识别方法、装置、服务器和存储介质 |
CN110720098A (zh) * | 2018-05-11 | 2020-01-21 | 谷歌有限责任公司 | 语音激活网络中的自适应接口 |
CN110741362A (zh) * | 2018-05-03 | 2020-01-31 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
CN110956967A (zh) * | 2018-09-27 | 2020-04-03 | 上海博泰悦臻网络技术服务有限公司 | 基于声纹识别的车辆控制方法与车辆 |
CN111309136A (zh) * | 2018-06-03 | 2020-06-19 | 苹果公司 | 加速的任务执行 |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
CN111857636A (zh) * | 2019-04-24 | 2020-10-30 | 本田技研工业株式会社 | 声音操作系统及装置、声音操作控制方法和记录介质 |
CN111880425A (zh) * | 2014-05-30 | 2020-11-03 | 苹果公司 | 用于家庭自动化的智能助理 |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
CN112416484A (zh) * | 2018-06-03 | 2021-02-26 | 苹果公司 | 加速任务执行 |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN113504888A (zh) * | 2016-12-30 | 2021-10-15 | 谷歌有限责任公司 | 用于序列相关数据消息整合的系统和方法 |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
Families Citing this family (270)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US20060271520A1 (en) * | 2005-05-27 | 2006-11-30 | Ragan Gene Z | Content-based implicit search query |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8306836B2 (en) | 2008-12-01 | 2012-11-06 | Trimble Navigation Limited | Management of materials on a construction site |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
KR101699720B1 (ko) * | 2010-08-03 | 2017-01-26 | 삼성전자주식회사 | 음성명령 인식 장치 및 음성명령 인식 방법 |
US9349368B1 (en) | 2010-08-05 | 2016-05-24 | Google Inc. | Generating an audio notification based on detection of a triggering event |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
EP2555536A1 (en) | 2011-08-05 | 2013-02-06 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
CA3023918C (en) * | 2011-09-30 | 2022-11-29 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
AU2015203483A1 (en) * | 2011-09-30 | 2015-07-16 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9570086B1 (en) * | 2011-11-18 | 2017-02-14 | Google Inc. | Intelligently canceling user input |
US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
KR101980173B1 (ko) * | 2012-03-16 | 2019-05-20 | 삼성전자주식회사 | 서드 파티 테스크 공급자들의 서비스 제공을 대행하는 협력적 퍼스널 어시스턴트 시스템 및 그에 따른 방법 |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9275411B2 (en) * | 2012-05-23 | 2016-03-01 | Google Inc. | Customized voice action system |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US8886576B1 (en) | 2012-06-22 | 2014-11-11 | Google Inc. | Automatic label suggestions for albums based on machine learning |
US8429103B1 (en) | 2012-06-22 | 2013-04-23 | Google Inc. | Native machine learning service for user adaptation on a mobile platform |
US8510238B1 (en) | 2012-06-22 | 2013-08-13 | Google, Inc. | Method to predict session duration on mobile devices using native machine learning |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
KR20140004515A (ko) * | 2012-07-03 | 2014-01-13 | 삼성전자주식회사 | 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법 |
US20150169286A1 (en) * | 2012-08-06 | 2015-06-18 | Koninklijke Philips N.V. | Audio activated and/or audio activation of a mode and/or a tool of an executing software application |
US10026394B1 (en) | 2012-08-31 | 2018-07-17 | Amazon Technologies, Inc. | Managing dialogs on a speech recognition platform |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US20150088523A1 (en) * | 2012-09-10 | 2015-03-26 | Google Inc. | Systems and Methods for Designing Voice Applications |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9082413B2 (en) | 2012-11-02 | 2015-07-14 | International Business Machines Corporation | Electronic transaction authentication based on sound proximity |
CN103871401B (zh) * | 2012-12-10 | 2016-12-28 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN103871408B (zh) * | 2012-12-14 | 2017-05-24 | 联想(北京)有限公司 | 一种语音识别方法及装置、电子设备 |
CN103020047A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 修正语音应答的方法及自然语言对话系统 |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
US20140350941A1 (en) * | 2013-05-21 | 2014-11-27 | Microsoft Corporation | Method For Finding Elements In A Webpage Suitable For Use In A Voice User Interface (Disambiguation) |
KR101456974B1 (ko) * | 2013-05-21 | 2014-10-31 | 삼성전자 주식회사 | 사용자 단말기, 음성인식 서버 및 음성인식 가이드 방법 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
US9786296B2 (en) * | 2013-07-08 | 2017-10-10 | Qualcomm Incorporated | Method and apparatus for assigning keyword model to voice operated function |
US20150031416A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
US10186262B2 (en) | 2013-07-31 | 2019-01-22 | Microsoft Technology Licensing, Llc | System with multiple simultaneous speech recognizers |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
CN103456300B (zh) * | 2013-08-07 | 2016-04-20 | 科大讯飞股份有限公司 | 一种基于class-base语言模型的POI语音识别方法 |
US9361084B1 (en) | 2013-11-14 | 2016-06-07 | Google Inc. | Methods and systems for installing and executing applications |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9858039B2 (en) * | 2014-01-28 | 2018-01-02 | Oracle International Corporation | Voice recognition of commands extracted from user interface screen devices |
US9589562B2 (en) | 2014-02-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Pronunciation learning through correction logs |
CN103870160B (zh) * | 2014-03-26 | 2018-03-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US9959296B1 (en) * | 2014-05-12 | 2018-05-01 | Google Llc | Providing suggestions within a document |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
KR101572932B1 (ko) | 2014-07-11 | 2015-11-30 | 현대자동차주식회사 | 음성 인식 기능이 탑재된 차량에서의 발신 통화 제어 방법 및 장치 |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
KR102319530B1 (ko) | 2014-08-18 | 2021-10-29 | 삼성전자주식회사 | 사용자 입력 처리 방법 및 장치 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9690542B2 (en) * | 2014-12-22 | 2017-06-27 | Microsoft Technology Licensing, Llc | Scaling digital personal assistant agents across devices |
CN105786356B (zh) * | 2014-12-23 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 一种应用的操作方法及装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US20160349894A1 (en) * | 2015-05-27 | 2016-12-01 | Remote Media, Llc | Touchscreen Method and System for Sharing Multimedia Content |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
KR20170033722A (ko) * | 2015-09-17 | 2017-03-27 | 삼성전자주식회사 | 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치 |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9973887B2 (en) * | 2016-01-21 | 2018-05-15 | Google Llc | Sharing navigation data among co-located computing devices |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US9922648B2 (en) * | 2016-03-01 | 2018-03-20 | Google Llc | Developer voice actions system |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
KR20170138279A (ko) * | 2016-06-07 | 2017-12-15 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
US10462619B2 (en) * | 2016-06-08 | 2019-10-29 | Google Llc | Providing a personal assistant module with a selectively-traversable state machine |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10403273B2 (en) * | 2016-09-09 | 2019-09-03 | Oath Inc. | Method and system for facilitating a guided dialog between a user and a conversational agent |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9984688B2 (en) * | 2016-09-28 | 2018-05-29 | Visteon Global Technologies, Inc. | Dynamically adjusting a voice recognition system |
EP3430617B1 (en) | 2016-11-07 | 2019-10-23 | Google LLC | Recorded media hotword trigger suppression |
TWI612472B (zh) * | 2016-12-01 | 2018-01-21 | 財團法人資訊工業策進會 | 指令轉換方法與系統以及非暫態電腦可讀取記錄媒體 |
JP6725006B2 (ja) * | 2016-12-02 | 2020-07-15 | ヤマハ株式会社 | 制御装置および機器制御システム |
JP6760394B2 (ja) | 2016-12-02 | 2020-09-23 | ヤマハ株式会社 | コンテンツ再生機器、収音機器、及びコンテンツ再生システム |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
KR102502220B1 (ko) * | 2016-12-20 | 2023-02-22 | 삼성전자주식회사 | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10529324B1 (en) * | 2016-12-27 | 2020-01-07 | Cognistic, LLC | Geographical based voice transcription |
US10706843B1 (en) * | 2017-03-09 | 2020-07-07 | Amazon Technologies, Inc. | Contact resolution for communications systems |
JP2018167339A (ja) * | 2017-03-29 | 2018-11-01 | 富士通株式会社 | 発話制御プログラム、情報処理装置及び発話制御方法 |
US11170768B2 (en) | 2017-04-17 | 2021-11-09 | Samsung Electronics Co., Ltd | Device for performing task corresponding to user utterance |
KR102414122B1 (ko) * | 2017-04-19 | 2022-06-29 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
EP3485492B1 (en) | 2017-04-20 | 2021-04-07 | Google LLC | Multi-user authentication on a device |
KR20180118461A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
CN107146616B (zh) * | 2017-06-13 | 2020-05-08 | Oppo广东移动通信有限公司 | 设备控制方法及相关产品 |
US10607606B2 (en) | 2017-06-19 | 2020-03-31 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for execution of digital assistant |
US10854191B1 (en) * | 2017-09-20 | 2020-12-01 | Amazon Technologies, Inc. | Machine learning models for data driven dialog management |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10672379B1 (en) * | 2017-09-25 | 2020-06-02 | Amazon Technologies, Inc. | Systems and methods for selecting a recipient device for communications |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
CN111183488A (zh) | 2017-10-10 | 2020-05-19 | 赛诺菲 | 医疗查询应答设备 |
US11445235B2 (en) | 2017-10-24 | 2022-09-13 | Comcast Cable Communications, Llc | Determining context to initiate interactivity |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
WO2019188269A1 (ja) * | 2018-03-27 | 2019-10-03 | ソニー株式会社 | 情報処理装置、情報処理方法、送信装置、及び送信方法 |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
KR102612835B1 (ko) * | 2018-04-20 | 2023-12-13 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
CN108632653B (zh) * | 2018-05-30 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 语音管控方法、智能电视及计算机可读存储介质 |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US20210264904A1 (en) * | 2018-06-21 | 2021-08-26 | Sony Corporation | Information processing apparatus and information processing method |
CN108881466B (zh) * | 2018-07-04 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 交互方法和装置 |
US11151986B1 (en) * | 2018-09-21 | 2021-10-19 | Amazon Technologies, Inc. | Learning how to rewrite user-specific input for natural language understanding |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US20220046310A1 (en) * | 2018-10-15 | 2022-02-10 | Sony Corporation | Information processing device, information processing method, and computer program |
US10984791B2 (en) | 2018-11-29 | 2021-04-20 | Hughes Network Systems, Llc | Spoken language interface for network management |
KR20200099036A (ko) * | 2019-02-13 | 2020-08-21 | 삼성전자주식회사 | 음성 인식 기능을 이용한 동작을 수행하는 전자 장치 및 이를 이용한 동작과 관련된 알림을 제공하는 방법 |
KR20200099380A (ko) * | 2019-02-14 | 2020-08-24 | 삼성전자주식회사 | 음성 인식 서비스를 제공하는 방법 및 그 전자 장치 |
US11003419B2 (en) * | 2019-03-19 | 2021-05-11 | Spotify Ab | Refinement of voice query interpretation |
AU2020290470B2 (en) * | 2019-06-12 | 2023-03-02 | Liveperson, Inc. | Systems and methods for communication system intent analysis |
US11875231B2 (en) * | 2019-06-26 | 2024-01-16 | Samsung Electronics Co., Ltd. | System and method for complex task machine learning |
US11438452B1 (en) | 2019-08-09 | 2022-09-06 | Apple Inc. | Propagating context information in a privacy preserving manner |
KR20220141891A (ko) | 2020-02-28 | 2022-10-20 | 구글 엘엘씨 | 디지털 액션 실행을 위한 인터페이스 및 모드 선택 |
US11463437B2 (en) * | 2020-03-04 | 2022-10-04 | International Business Machines Corporation | Device activation verification |
US11301902B2 (en) * | 2020-04-16 | 2022-04-12 | At&T Intellectual Property I, L.P. | Methods, systems, and devices for providing information and recommended actions regarding advertising entities using a virtual assistant |
US20220044676A1 (en) * | 2020-08-04 | 2022-02-10 | Bank Of America Corporation | Determination of user intent using contextual analysis |
US20220157315A1 (en) * | 2020-11-13 | 2022-05-19 | Apple Inc. | Speculative task flow execution |
CN116830190A (zh) * | 2020-12-21 | 2023-09-29 | 塞伦妮经营公司 | 跨不同种生态系统路由用户命令 |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
US11507346B1 (en) * | 2021-10-25 | 2022-11-22 | GM Global Technology Operations LLC | Intelligent text and voice feedback for voice assistant |
EP4210047A1 (en) * | 2022-01-05 | 2023-07-12 | Honeywell International Inc. | Contextual editable speech recognition methods and systems |
WO2024029850A1 (ko) * | 2022-08-05 | 2024-02-08 | 삼성전자주식회사 | 언어 모델에 기초하여 사용자 발화를 처리하는 방법 및 전자 장치 |
WO2024072142A1 (ko) * | 2022-09-29 | 2024-04-04 | 삼성전자 주식회사 | 서술어를 포함하지 않는 발화를 처리하는 전자 장치, 동작 방법 및 저장 매체 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090030696A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
CN101366074A (zh) * | 2005-08-09 | 2009-02-11 | 移动声控有限公司 | 话音控制式无线通信装置系统 |
US20090157404A1 (en) * | 2007-12-17 | 2009-06-18 | Verizon Business Network Services Inc. | Grammar weighting voice recognition information |
CN101589427A (zh) * | 2005-06-30 | 2009-11-25 | 微软公司 | 语音应用程序装备和记入 |
Family Cites Families (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
JPH03163623A (ja) * | 1989-06-23 | 1991-07-15 | Articulate Syst Inc | 音声制御コンピュータ・インターフェース |
US6965864B1 (en) * | 1995-04-10 | 2005-11-15 | Texas Instruments Incorporated | Voice activated hypermedia systems using grammatical metadata |
US6292767B1 (en) * | 1995-07-18 | 2001-09-18 | Nuance Communications | Method and system for building and running natural language understanding systems |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US6961700B2 (en) * | 1996-09-24 | 2005-11-01 | Allvoice Computing Plc | Method and apparatus for processing the output of a speech recognition engine |
US5797123A (en) | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US5895466A (en) * | 1997-08-19 | 1999-04-20 | At&T Corp | Automated natural language understanding customer service system |
US6021384A (en) * | 1997-10-29 | 2000-02-01 | At&T Corp. | Automatic generation of superwords |
US6633235B1 (en) * | 1998-06-15 | 2003-10-14 | Winbond Electronics Corp. | Method and apparatus for allowing a personal computer to control one or more devices |
JP2000076040A (ja) * | 1998-09-03 | 2000-03-14 | Matsushita Electric Ind Co Ltd | 音声入力ネットワーク端末装置 |
US6453292B2 (en) * | 1998-10-28 | 2002-09-17 | International Business Machines Corporation | Command boundary identifier for conversational natural language |
US6839669B1 (en) * | 1998-11-05 | 2005-01-04 | Scansoft, Inc. | Performing actions identified in recognized speech |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US8275617B1 (en) * | 1998-12-17 | 2012-09-25 | Nuance Communications, Inc. | Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands |
US6523061B1 (en) * | 1999-01-05 | 2003-02-18 | Sri International, Inc. | System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system |
US6556970B1 (en) * | 1999-01-28 | 2003-04-29 | Denso Corporation | Apparatus for determining appropriate series of words carrying information to be recognized |
US6643620B1 (en) * | 1999-03-15 | 2003-11-04 | Matsushita Electric Industrial Co., Ltd. | Voice activated controller for recording and retrieving audio/video programs |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
US6513006B2 (en) * | 1999-08-26 | 2003-01-28 | Matsushita Electronic Industrial Co., Ltd. | Automatic control of household activity using speech recognition and natural language |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
WO2001084535A2 (en) * | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
US7447299B1 (en) * | 2000-05-02 | 2008-11-04 | Microsoft Corporation | Voice and telephone keypad based data entry for interacting with voice information services |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
US20060143007A1 (en) * | 2000-07-24 | 2006-06-29 | Koh V E | User interaction with voice information services |
US6922670B2 (en) * | 2000-10-24 | 2005-07-26 | Sanyo Electric Co., Ltd. | User support apparatus and system using agents |
US6795808B1 (en) * | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
EP1346344A1 (en) * | 2000-12-18 | 2003-09-24 | Koninklijke Philips Electronics N.V. | Store speech, select vocabulary to recognize word |
JP3523213B2 (ja) * | 2001-03-28 | 2004-04-26 | 株式会社ジャストシステム | コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム |
US6801897B2 (en) * | 2001-03-28 | 2004-10-05 | International Business Machines Corporation | Method of providing concise forms of natural commands |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US20020198714A1 (en) * | 2001-06-26 | 2002-12-26 | Guojun Zhou | Statistical spoken dialog system |
US20030093419A1 (en) * | 2001-08-17 | 2003-05-15 | Srinivas Bangalore | System and method for querying information using a flexible multi-modal interface |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
US7099829B2 (en) * | 2001-11-06 | 2006-08-29 | International Business Machines Corporation | Method of dynamically displaying speech recognition system information |
US7861169B2 (en) * | 2001-11-19 | 2010-12-28 | Ricoh Co. Ltd. | Multimedia print driver dialog interfaces |
US20030149566A1 (en) * | 2002-01-02 | 2003-08-07 | Esther Levin | System and method for a spoken language interface to a large database of changing records |
US7203907B2 (en) * | 2002-02-07 | 2007-04-10 | Sap Aktiengesellschaft | Multi-modal synchronization |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
US7519534B2 (en) * | 2002-10-31 | 2009-04-14 | Agiletv Corporation | Speech controlled access to content on a presentation medium |
US6993482B2 (en) * | 2002-12-18 | 2006-01-31 | Motorola, Inc. | Method and apparatus for displaying speech recognition results |
US20050004799A1 (en) * | 2002-12-31 | 2005-01-06 | Yevgenly Lyudovyk | System and method for a spoken language interface to a large database of changing records |
US20050021826A1 (en) * | 2003-04-21 | 2005-01-27 | Sunil Kumar | Gateway controller for a multimodal system that provides inter-communication among different data and voice servers through various mobile devices, and interface for that controller |
US7539619B1 (en) * | 2003-09-05 | 2009-05-26 | Spoken Translation Ind. | Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy |
JP2008504607A (ja) * | 2004-06-22 | 2008-02-14 | ヴォイス シグナル テクノロジーズ インコーポレーティッド | 拡張可能な音声コマンド |
US7599838B2 (en) * | 2004-09-01 | 2009-10-06 | Sap Aktiengesellschaft | Speech animation with behavioral contexts for application scenarios |
US8942985B2 (en) * | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
US7457751B2 (en) * | 2004-11-30 | 2008-11-25 | Vocera Communications, Inc. | System and method for improving recognition accuracy in speech recognition applications |
US7751551B2 (en) * | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7450698B2 (en) | 2005-01-14 | 2008-11-11 | At&T Intellectual Property 1, L.P. | System and method of utilizing a hybrid semantic model for speech recognition |
US7437297B2 (en) * | 2005-01-27 | 2008-10-14 | International Business Machines Corporation | Systems and methods for predicting consequences of misinterpretation of user commands in automated systems |
US7720684B2 (en) * | 2005-04-29 | 2010-05-18 | Nuance Communications, Inc. | Method, apparatus, and computer program product for one-step correction of voice interaction |
JP4804052B2 (ja) * | 2005-07-08 | 2011-10-26 | アルパイン株式会社 | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 |
WO2007008248A2 (en) * | 2005-07-11 | 2007-01-18 | Voicedemand, Inc. | Voice control of a media player |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
US7603360B2 (en) * | 2005-09-14 | 2009-10-13 | Jumptap, Inc. | Location influenced search results |
JP2007142840A (ja) * | 2005-11-18 | 2007-06-07 | Canon Inc | 情報処理装置及び情報処理方法 |
WO2007070410A2 (en) * | 2005-12-12 | 2007-06-21 | Tegic Communications Llc | Mobile device retrieval and navigation |
US8271107B2 (en) * | 2006-01-13 | 2012-09-18 | International Business Machines Corporation | Controlling audio operation for data management and data rendering |
US20070203701A1 (en) * | 2006-02-14 | 2007-08-30 | Intellectual Ventures Fund 21 Llc | Communication Device Having Speaker Independent Speech Recognition |
US20070208567A1 (en) * | 2006-03-01 | 2007-09-06 | At&T Corp. | Error Correction In Automatic Speech Recognition Transcripts |
US20070239531A1 (en) * | 2006-03-30 | 2007-10-11 | Francoise Beaufays | Controlling the serving of serially rendered ads, such as audio ads |
US20090306989A1 (en) * | 2006-03-31 | 2009-12-10 | Masayo Kaji | Voice input support device, method thereof, program thereof, recording medium containing the program, and navigation device |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8099287B2 (en) * | 2006-12-05 | 2012-01-17 | Nuance Communications, Inc. | Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8650030B2 (en) * | 2007-04-02 | 2014-02-11 | Google Inc. | Location based responses to telephone requests |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
JP4412504B2 (ja) * | 2007-04-17 | 2010-02-10 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識用プログラム |
US8438024B2 (en) * | 2007-10-05 | 2013-05-07 | International Business Machines Corporation | Indexing method for quick search of voice recognition results |
US8140335B2 (en) * | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8478578B2 (en) * | 2008-01-09 | 2013-07-02 | Fluential, Llc | Mobile speech-to-speech interpretation system |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US7917368B2 (en) * | 2008-02-25 | 2011-03-29 | Mitsubishi Electric Research Laboratories, Inc. | Method for interacting with users of speech recognition systems |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
KR101427686B1 (ko) * | 2008-06-09 | 2014-08-12 | 삼성전자주식회사 | 프로그램 선택 방법 및 그 장치 |
US8762153B2 (en) * | 2008-08-18 | 2014-06-24 | At&T Intellectual Property I, L.P. | System and method for improving name dialer performance |
US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8688449B2 (en) * | 2008-11-25 | 2014-04-01 | Asahi Kasei Kabushiki Kaisha | Weight coefficient generation device, voice recognition device, navigation device, vehicle, weight coefficient generation method, and weight coefficient generation program |
US9311917B2 (en) * | 2009-01-21 | 2016-04-12 | International Business Machines Corporation | Machine, system and method for user-guided teaching of deictic references and referent objects of deictic references to a conversational command and control system |
JP5334178B2 (ja) * | 2009-01-21 | 2013-11-06 | クラリオン株式会社 | 音声認識装置およびデータ更新方法 |
KR101567603B1 (ko) * | 2009-05-07 | 2015-11-20 | 엘지전자 주식회사 | 멀티 음성 시스템의 동작 제어 장치 및 방법 |
AU2010253843B2 (en) * | 2009-05-27 | 2015-12-03 | Google Inc. | Computer application data in search results |
EP2339576B1 (en) * | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US8914401B2 (en) * | 2009-12-30 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for an N-best list interface |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US8433570B2 (en) * | 2010-01-06 | 2013-04-30 | General Motors Llc | Method of recognizing speech |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US20110184740A1 (en) * | 2010-01-26 | 2011-07-28 | Google Inc. | Integration of Embedded and Network Speech Recognizers |
US20110246944A1 (en) * | 2010-04-06 | 2011-10-06 | Google Inc. | Application-independent text entry |
US8392411B2 (en) * | 2010-05-20 | 2013-03-05 | Google Inc. | Automatic routing of search results |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US8224654B1 (en) * | 2010-08-06 | 2012-07-17 | Google Inc. | Editing voice input |
US8359020B2 (en) * | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US8731939B1 (en) * | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
-
2010
- 2010-01-22 US US12/692,307 patent/US8626511B2/en active Active
- 2010-09-03 AU AU2010214793A patent/AU2010214793B2/en active Active
- 2010-09-06 EP EP10175449.7A patent/EP2355093B1/en active Active
- 2010-09-07 JP JP2010199777A patent/JP5911669B2/ja active Active
- 2010-09-08 CN CN201010279143.2A patent/CN102137085B/zh active Active
- 2010-09-08 KR KR1020100088025A patent/KR101667006B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101589427A (zh) * | 2005-06-30 | 2009-11-25 | 微软公司 | 语音应用程序装备和记入 |
CN101366074A (zh) * | 2005-08-09 | 2009-02-11 | 移动声控有限公司 | 话音控制式无线通信装置系统 |
US20090030696A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20090157404A1 (en) * | 2007-12-17 | 2009-06-18 | Verizon Business Network Services Inc. | Grammar weighting voice recognition information |
Cited By (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
CN103092887B (zh) * | 2011-11-07 | 2016-10-05 | 联想(北京)有限公司 | 电子设备及其语音信息提供方法 |
CN103092887A (zh) * | 2011-11-07 | 2013-05-08 | 联想(北京)有限公司 | 电子设备及其语音信息提供方法 |
CN103377652A (zh) * | 2012-04-25 | 2013-10-30 | 上海智臻网络科技有限公司 | 一种用于进行语音识别的方法、装置和设备 |
CN103377652B (zh) * | 2012-04-25 | 2016-04-13 | 上海智臻智能网络科技股份有限公司 | 一种用于进行语音识别的方法、装置和设备 |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN102722525A (zh) * | 2012-05-15 | 2012-10-10 | 北京百度网讯科技有限公司 | 通讯录人名的语言模型建立方法、语音搜索方法及其系统 |
CN103517094A (zh) * | 2012-06-15 | 2014-01-15 | 三星电子株式会社 | 服务器和控制该服务器的方法 |
CN103517094B (zh) * | 2012-06-15 | 2018-04-17 | 三星电子株式会社 | 服务器和控制该服务器的方法 |
CN103915094A (zh) * | 2012-12-28 | 2014-07-09 | 财团法人工业技术研究院 | 基于目标名称识别的共享语音操控方法与装置 |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN104112448B (zh) * | 2013-04-19 | 2017-07-14 | 通用汽车环球科技运作有限责任公司 | 用于管理语音系统的对话的方法和系统 |
CN104112448A (zh) * | 2013-04-19 | 2014-10-22 | 通用汽车环球科技运作有限责任公司 | 用于管理语音系统的对话的方法和系统 |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN104299623B (zh) * | 2013-07-15 | 2017-09-29 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和系统 |
CN104299623A (zh) * | 2013-07-15 | 2015-01-21 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和系统 |
TWI601032B (zh) * | 2013-08-02 | 2017-10-01 | 晨星半導體股份有限公司 | 應用於聲控裝置的控制器與相關方法 |
CN104424944B (zh) * | 2013-08-19 | 2018-01-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104424944A (zh) * | 2013-08-19 | 2015-03-18 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104699236A (zh) * | 2013-12-05 | 2015-06-10 | 联想(新加坡)私人有限公司 | 利用境况解释自然语言语音识别命令 |
US11138971B2 (en) | 2013-12-05 | 2021-10-05 | Lenovo (Singapore) Pte. Ltd. | Using context to interpret natural language speech recognition commands |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
CN106471570A (zh) * | 2014-05-30 | 2017-03-01 | 苹果公司 | 多命令单一话语输入方法 |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
CN110797019A (zh) * | 2014-05-30 | 2020-02-14 | 苹果公司 | 多命令单一话语输入方法 |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN110797019B (zh) * | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
CN106471570B (zh) * | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
CN111880425A (zh) * | 2014-05-30 | 2020-11-03 | 苹果公司 | 用于家庭自动化的智能助理 |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11955121B2 (en) | 2014-10-09 | 2024-04-09 | Google Llc | Hotword detection on multiple devices |
CN105960673A (zh) * | 2014-10-09 | 2016-09-21 | 谷歌公司 | 多个设备上的热词检测 |
CN105960673B (zh) * | 2014-10-09 | 2019-12-31 | 谷歌有限责任公司 | 多个设备上的热词检测 |
US10665239B2 (en) | 2014-10-09 | 2020-05-26 | Google Llc | Hotword detection on multiple devices |
US11024313B2 (en) | 2014-10-09 | 2021-06-01 | Google Llc | Hotword detection on multiple devices |
CN107004413A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 扩展数字个人助理动作提供者 |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
CN104731918A (zh) * | 2015-03-25 | 2015-06-24 | 百度在线网络技术(北京)有限公司 | 一种语音搜索方法及装置 |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
CN108369580B (zh) * | 2015-12-11 | 2021-11-26 | 微软技术许可有限责任公司 | 针对屏幕上项目选择的基于语言和域独立模型的方法 |
CN108369580A (zh) * | 2015-12-11 | 2018-08-03 | 微软技术许可有限责任公司 | 针对屏幕上项目选择的基于语言和域独立模型的方法 |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
CN107491468B (zh) * | 2016-06-11 | 2021-06-01 | 苹果公司 | 具有数字助理的应用集成 |
CN107491468A (zh) * | 2016-06-11 | 2017-12-19 | 苹果公司 | 具有数字助理的应用集成 |
CN110168541B (zh) * | 2016-07-29 | 2023-10-17 | 乐威指南公司 | 基于静态和时间知识图消除词语歧义的系统和方法 |
CN110168541A (zh) * | 2016-07-29 | 2019-08-23 | 乐威指南公司 | 基于静态和时间知识图消除词语歧义的系统和方法 |
CN113504888A (zh) * | 2016-12-30 | 2021-10-15 | 谷歌有限责任公司 | 用于序列相关数据消息整合的系统和方法 |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
CN107274889A (zh) * | 2017-06-19 | 2017-10-20 | 北京紫博光彦信息技术有限公司 | 一种根据语音生成业务单据的方法及装置 |
CN107452378A (zh) * | 2017-08-15 | 2017-12-08 | 北京百度网讯科技有限公司 | 基于人工智能的语音交互方法和装置 |
CN108257601A (zh) * | 2017-11-06 | 2018-07-06 | 广州市动景计算机科技有限公司 | 用于语音识别文本的方法、设备、客户端装置及电子设备 |
CN110111793A (zh) * | 2018-02-01 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 音频信息的处理方法、装置、存储介质及电子装置 |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
CN110741362A (zh) * | 2018-05-03 | 2020-01-31 | 谷歌有限责任公司 | 音频查询的重叠处理的协调 |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
CN110720098A (zh) * | 2018-05-11 | 2020-01-21 | 谷歌有限责任公司 | 语音激活网络中的自适应接口 |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
CN111309136A (zh) * | 2018-06-03 | 2020-06-19 | 苹果公司 | 加速的任务执行 |
CN112416484A (zh) * | 2018-06-03 | 2021-02-26 | 苹果公司 | 加速任务执行 |
CN111309136B (zh) * | 2018-06-03 | 2021-10-26 | 苹果公司 | 加速的任务执行 |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
CN113867516A (zh) * | 2018-06-03 | 2021-12-31 | 苹果公司 | 加速的任务执行 |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
CN110956967A (zh) * | 2018-09-27 | 2020-04-03 | 上海博泰悦臻网络技术服务有限公司 | 基于声纹识别的车辆控制方法与车辆 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111857636A (zh) * | 2019-04-24 | 2020-10-30 | 本田技研工业株式会社 | 声音操作系统及装置、声音操作控制方法和记录介质 |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110310631A (zh) * | 2019-06-28 | 2019-10-08 | 北京百度网讯科技有限公司 | 语音识别方法、装置、服务器和存储介质 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
Also Published As
Publication number | Publication date |
---|---|
EP2355093A3 (en) | 2011-09-14 |
US8626511B2 (en) | 2014-01-07 |
EP2355093B1 (en) | 2015-08-19 |
KR20110086492A (ko) | 2011-07-28 |
KR101667006B1 (ko) | 2016-10-24 |
EP2355093A2 (en) | 2011-08-10 |
AU2010214793B2 (en) | 2014-09-18 |
AU2010214793A1 (en) | 2011-08-11 |
CN102137085B (zh) | 2016-02-24 |
US20110184730A1 (en) | 2011-07-28 |
JP2011150682A (ja) | 2011-08-04 |
JP5911669B2 (ja) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102137085B (zh) | 用于语音命令的多维消歧的系统和方法 | |
US11341972B2 (en) | Speech recognition using two language models | |
US11349991B2 (en) | Systems and methods to present voice message information to a user of a computing device | |
US11638059B2 (en) | Content playback on multiple devices | |
RU2710984C2 (ru) | Совершение задачи без монитора в цифровом персональном помощнике | |
AU2011209760B2 (en) | Integration of embedded and network speech recognizers | |
CN103035240B (zh) | 用于使用上下文信息的语音识别修复的方法和系统 | |
KR101881985B1 (ko) | 컨텍스트에 기초한 음성 인식 문법 선택 | |
CN111670471B (zh) | 基于对在线语音命令的使用来学习离线语音命令 | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
CN110797022B (zh) | 一种应用控制方法、装置、终端和服务器 | |
CN110462647B (zh) | 电子设备及执行电子设备的功能的方法 | |
EP1635328B1 (en) | Speech recognition method constrained with a grammar received from a remote system. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |