CN107112015B - 发现第三方启用语音的资源的能力 - Google Patents

发现第三方启用语音的资源的能力 Download PDF

Info

Publication number
CN107112015B
CN107112015B CN201580071996.8A CN201580071996A CN107112015B CN 107112015 B CN107112015 B CN 107112015B CN 201580071996 A CN201580071996 A CN 201580071996A CN 107112015 B CN107112015 B CN 107112015B
Authority
CN
China
Prior art keywords
voice
user
enabled
party
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580071996.8A
Other languages
English (en)
Other versions
CN107112015A (zh
Inventor
V·S·坎南
A·乌瑟拉克
J·坎贝尔
D·J·黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107112015A publication Critical patent/CN107112015A/zh
Application granted granted Critical
Publication of CN107112015B publication Critical patent/CN107112015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

描述了用于发现启用语音的资源的能力的技术。语音控制的数字个人助理可以响应于用户请求列出能够使用语音输入执行特定任务的可用的启用语音的资源。语音控制的数字个人助理还可以响应于用户请求列出特定的启用语音的资源可以使用语音输入执行的任务。语音控制的数字个人助理还可以支持实行模式,在该模式中用户实行用于执行启用语音的资源所支持的任务的语音命令。

Description

发现第三方启用语音的资源的能力
背景
随着计算技术的发展,越来越强大的计算设备已经变得可用。例如,计算设备正越来越多地增加各特征,例如语音识别。对于用户来说,语音可以是一种与计算设备进行通信的有效方式,并且语音控制是由设备的软件(诸如语音控制的数字个人助理)来提供。
数字个人助理可以被用于执行用于个体的任务或服务。例如,数字个人助理可以是在移动设备或台式计算机上运行的软件模块。可以由数字个人助理执行的任务和服务的示例可以包括拨打电话呼叫和设置日历提醒。
尽管用户可能知道如何执行由数字个人助理提供的某些任务,但对于用户来说了解如何使用数字个人助理并了解可使用该数字个人助理执行的任务仍然可能是困难的。因此,存在足够机会来改进涉及语音控制的数字个人助理的技术。
概述
提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
描述了用于使用启用语音的数字个人助理来发现第三方启用语音的资源(例如包括本地安装的应用、可远程获得的应用(诸如可从应用商店获得的那些应用)以及诸如远程web服务之类的远程服务)的能力的技术。例如,可以通过话筒(例如与计算设备相关联的话筒)从用户处接收数字语音输入。可以使用数字语音输入执行自然语言处理以确定用户语音请求。用户语音请求可以是对能够执行任务的可用的第三方启用语音的应用的请求、对能够由特定第三方启用语音的应用执行的可用任务的请求、对使用实行模式实行语音命令的请求、对设置启用语音的数字个人助理的配置选项(例如移除对所选语音命令或任务的支持)的请求,和/或对执行由启用语音的数字个人助理所支持的另一个动作的请求。在一些实现中,用户可以在无需使用语音输入的情况下(例如用户可以输入文本请求)发现第三方启用语音的资源的能力。
作为另一示例,可提供包括处理单元、存储器以及话筒的用于执行本文所述的操作的计算设备。例如,计算设备可以通过话筒接收用于使得启用语音的数字个人助理执行操作以确定第三方启用语音的应用(例如内置应用和/或可远程获得的应用)的能力的用户语音输入。
如本文所述的,各种其它特征和优点可按照需要被结合到所述技术中。
附图简述
图1是用于发现第三方启用语音的应用的能力的示例计算环境的示图。
图2是描述用于与启用语音的数字个人助理交互以发现哪个第三方启用语音的应用可以执行任务的用户界面示例的示图。
图3是描述用于与启用语音的数字个人助理交互以发现第三方启用语音的应用可以执行哪些任务的用户界面示例的示图。
图4是描述用于与启用语音的数字个人助理交互以实行第三方启用语音的应用的语音命令的用户界面示例的示图。
图5、6和7是用于发现第三方启用语音的应用的能力的示例方法的流程图。
图8是其中可实现所描述的一些实施例的示例计算系统的示图。
图9是可以连同本文所述的技术被使用的示例移动设备。
图10是可连同本文中描述的技术来使用的示例云支持环境。
详细描述
概览
如在此所述,各种技术和方案可以被应用于发现启用语音的资源(例如包括本地安装的应用、可远程获得的应用(诸如可从应用商店获得的那些应用)以及诸如远程web服务之类的远程服务)的能力。还可以为用户提供技术以实行使用这样的启用语音的资源的能力。
例如,语音控制的数字个人助理(例如可扩展语音控制的数字个人助理)可以维护一个可用的(例如已向语音控制的数字个人助理注册的)启用语音的资源(例如第三方启用语音的资源)连同它们的能力(例如该启用语音的应用可以执行的任务或动作)的列表。语音控制的数字个人助理可以帮助用户发现、理解、管理和实行该语音控制的资源可以执行的各种任务。
如在此所使用的,“启用语音”的资源(例如第三方启用语音的资源)是一种固有地支持语音输入的资源和/或一种不固有地支持语音输入但通过向语音控制的数字个人助理注册(例如通过针对语音命令向语音控制的数字个人助理注册)而被扩展为支持语音输入的资源。
例如,随着用户对使用语音控制的数字个人助理变得更加舒适,该用户可能更喜欢在语音控制的数字个人助理的上下文内执行更多动作。然而,语音控制的数字个人助理的提供者可能最初仅支持有限数目的“内置”资源(例如作为由语音控制的数字个人助理的提供者所提供的操作系统的一部分的应用,诸如电话应用、日历应用和web浏览器应用)。因此,可以期望语音控制的数字个人助理包括用于扩展对由除语音控制的数字个人助理的提供者之外的实体创建的第三方启用语音的资源的支持的技术。
在一些实现中,语音控制的数字个人助理帮助用户确定哪些第三方启用语音的资源(例如第三方启用语音的应用)能够使用语音输入(例如使用语音识别技术)执行特定的任务。例如,用户可以使用用户的计算设备(例如智能电话或其它类型的计算设备)来做出用户语音请求,诸如“Which applications can play movies?(哪些应用可以播放电影?)”。语音控制的数字个人助理可以确定哪些第三方启用语音的应用能够执行所述任务并告知用户。例如,语音控制的数字个人助理可以显示能够执行所述任务(例如可以在用户的计算设备上播放电影)的第三方启用语音的应用的列表。作为显示列表的替代或补充,语音控制的数字个人助理可以使用语音输出告知用户哪方启用语音的应用能够执行所述任务(例如通过使用经由用户的计算设备的音频回放组件的模拟语音来告诉用户)。在一些实现中,用户可以在无需使用语音输入的情况下发现第三方启用语音的资源的能力。例如,用户可以使用文本输入(例如通过屏上键盘键入)以使用语音控制的数字个人助理执行请求(例如用户可以键入“Which applications can play movies?”(哪些应用可以播放电影?))。
通过允许用户询问语音控制的数字个人助理关于能够执行特定任务的可用第三方启用语音的资源(例如第三方启用语音的应用),用户可以更快速且有效地发现并使用这样的第三方启用语音的资源。例如,用户可以在用户的计算设备上安装各种第三方启用语音的应用。为了发现哪些第三方启用语音的应用可以执行特定任务,用户可以打开每个第三方启用语音的应用以尝试并确定哪些任务是可用的。为了避免这种耗时且低效的过程,在此所述的技术允许用户询问语音控制的数字个人助理哪些(例如安装在用户设备上的和/或从诸如应用商店或在线服务之类的另一个源可获得的)第三方启用语音的应用是可用于执行特定任务。例如,用户可以询问“Where can I find the best deal on<specificproduct>?(我可以从哪里找到关于<特定产品>的最好价格)?”。作为响应,语音控制的数字个人助理可以告知用户关于提供针对该特定产品(例如特定数码相机型号)的定价和可用性的本地安装的应用。语音控制的数字个人助理还可以告知用户关于从应用商店可获得的应用(例如用户可以下载并安装的提供产品定价信息的应用)和/或远程web服务(例如出售由用户所标识的该特定产品的在线购物网站)。作为另一个示例,用户可以询问“What canI do on<web service>?(对于<web服务>我可以干什么呢?)”。作为响应,语音控制的数字个人助理可以告知用户web服务的能力(例如如果用户询问“What can I do on
Figure BDA0001337891530000041
(在
Figure BDA0001337891530000042
上我可以干什么?)”,语音控制的数字个人助理可以列出:购物、观看电影和听音乐)。
在一些实现中,语音控制的数字个人助理帮助用户确定特定第三方启用语音的资源(例如第三方启用语音的应用)能够执行哪些任务。例如,用户可以使用用户的计算设备(例如智能电话、平板或其它类型的计算设备)来做出语音请求,诸如“What tasks can<name of specific application>perform?(<特定应用的名字>能够执行哪些任务?)”。语音控制的数字个人助理可以确定特定第三方启用语音的应用能够使用语音输入执行哪些任务并告知用户。例如,语音控制的数字个人助理可以显示特定第三方启用语音的应用能够执行的任务(例如连同对应的语音命令)的列表。作为显示列表的替代或补充,语音控制的数字个人助理可以告知用户特定第三方启用语音的应用能够执行哪些任务(例如通过使用经由用户的计算设备的音频回放组件的模拟语音来告诉用户)。
通过允许用户询问语音控制的数字个人助理哪些任务能够由特定第三方启用语音的资源执行,用户可以更快速且有效地发现并利用该特定第三方启用语音的资源的能力。例如,用户可以在用户的计算设备上安装特定第三方启用语音的应用。为了发现特定第三方启用语音的应用可以使用语音命令执行什么任务,用户可以打开该特定第三方启用语音的应用以(例如通过滚动遍历菜单或帮助信息)尝试确定哪些任务是可用的。为了避免这种耗时且低效的过程,在此所述的技术允许用户询问语音控制的数字个人助理以提供可由(例如安装在用户设备上的和/或从诸如应用商店或在线服务之类的另一个源可获得的)特定第三方启用语音的应用执行的任务。
在一些实现中,语音控制的数字个人助理帮助用户实行用于执行第三方启用语音的资源(例如第三方启用语音的应用)所支持的任务的语音命令。例如,用户可以使用用户的计算设备来做出语音请求以实行用于特定任务的语音命令,例如“Practice adding amovie to my queue using<name of specific application>(使用<特定应用的名字>实行将电影加入到我的队列)”。随后,用户可以(例如在由语音控制的数字个人助理进行提示时)说出用于启动该特定任务的语音命令。语音控制的数字个人助理可以随后确定用户所说的语音命令是否将激活任务。语音控制的数字个人助理可以在无需必须与原本将(在非实行情景中)执行任务的第三方启用语音的应用进行通信的情况下做出所述确定。第三方启用语音的应用随后可以(例如视觉上地和/或通过语音响应)向用户报告用户的语音命令是否成功执行所述任务。例如,如果语音命令被理解(例如与用于执行特定任务的语音命令匹配),那么语音控制的数字个人助理可以返回与应当由第三方启用语音的应用返回的结果相类似的结果(例如“该电影已经被添加到你的队列”)。如果所述语音命令没有被理解(例如如果没有找到匹配),那么语音控制的数字个人助理可以告知用户(例如“I did notunderstand your request.(我不明白你的请求。)”)并且在一些实现中提供建议(例如提供用户可以说出以执行任务的语音命令变体连同语音命令示例的列表)。
通过允许用户使用语音控制的数字个人助理实行语音命令,用户可以变得精通语音命令并减少了在使用实际第三方启用语音的资源执行语音命令时的错误的数量(和后续的重试)。例如,语音控制的数字个人助理可以(例如通过允许用户标识用户可以记住的特定语音命令变体)帮助用户选择并实行用户可以执行特定任务的各种方式。使用语音控制的数字个人助理实行语音命令可以减少用户关于使用语音输入来控制第三方启用语音的应用的语音输入的焦虑。
在一些实现中,语音控制的数字个人助理允许用户(例如通过设置偏好)管理由第三方启用语音的资源执行的任务。在一些实现中,用户可以移除或以其他方式解除激活由第三方启用语音的应用所执行的任务。例如,用户可能想要移除(例如删除)由特定第三方启用语音的应用所支持的特定任务以及其对应的用于执行该任务的语音命令,以便该任务不能通过语音输入被激活。移除特定任务可以(例如通过减少语音控制的数字个人助理选择可能与期望语音命令相类似或相混淆的语命令的可能性)改进语音命令的可靠性。另外,移除特定任务可以改善性能,因为当确定用户语音输入的匹配时语音控制的数字个人助理具有更少的语音命令选项供查阅。作为一个具体示例,启用语音的银行应用可以支持包括使用账单支付语音命令(例如“pay my bills(支付我的账单)”)激活的账单支付任务的任务。如果用户没有使用银行的账单支付系统,该用户可以使用语音控制的数字个人助理来移除或以其他方式禁止账单支付任务以及其对应的语音命令(例如以移除或以其它方式禁止将执行账单支付任务的所有语音命令的变体)。在一些实现中,用户还可以移除可以执行特定任务的具体语音命令变体(例如仅用户不想要使用的一个或多个具体语音命令变体,这也将帮助改进语音控制的数字个人助理的可靠性和一致性)。
可扩展的语音控制的数字个人助理
在在此所述的技术中,可扩展的语音控制的数字个人助理可以提供用于使用语音命令与用户交互的语音用户界面。可扩展的语音控制的数字个人助理可以帮助用户发现在用户的计算设备(例如用户的电话或平板设备,或另一种类型的计算设备)上可用和/或从诸如应用商店的另一位置可获得的或通过在线服务可访问的第三方启用语音的资源(例如应用)的能力。可扩展的语音控制的数字个人助理还可以帮助用户实行由第三方启用语音的应用所支持的各种语音命令。可扩展的语音控制的数字个人助理还可以允许用户配置选项(例如移除任务或语音命令)。
可扩展的数字个人助理的功能不局限于操作系统特征和相关联的服务(例如内置或操作系统提供的应用,诸如电子邮件、日历和地图绘制应用)。替代地,可扩展的数字个人助理可以被扩展为支持第三方启用语音的应用。
在一些实现中,第三方启用语音的应用将它们的能力向可扩展的数字个人助理注册。例如,第三方启用语音的应用可以向可扩展的数字个人助理注册用于执行多种任务的多种语音命令。注册语音命令可以包括注册用户可能说出以便执行该语音命令的语音命令的变体(语音命令变体)以及可以被提供给用户的各种示例(语音命令示例)。
在一些实现中,第三方启用语音的应用使用数据结构将它们的能力向可扩展的数字个人助理注册。所述数据结构可以标识第三方启用语音的应用和该第三方应用所支持的命令(语音命令)连同相关联的语音命令变体和语音命令示例。在一些实现中,数据结构被实现为XML结构。
注册第三方启用语音的资源
在在此所述的技术中,第三方启用语音的资源(例如应用)可以向可扩展的语音控制的数字个人助理注册。例如,第三方启用语音的应用可以通过标识该应用可以处理以执行各种任务的具体语音命令来向语音控制的数字个人助理注册其能力。例如,第三方启用语音的应用可以向语音控制的数字个人助理注册用于执行多种任务的多种语音命令。注册语音命令可以包括注册用户可能说出以便执行该语音命令的语音命令的变体(语音命令变体)以及可以被提供给用户的各种示例(语音命令示例)。作为另一个示例,第三方启用语音的web服务或位于应用商店的应用可以向语音控制的数字个人助理注册其能力。
在一些实现中,第三方启用语音的资源使用数据结构将它们的能力向语音控制的数字个人助理注册。所述数据结构可以标识第三方启用语音的资源和该第三方启用语音的应用所支持的命令(语音命令)连同相关联的语音命令变体和语音命令示例。在一些实现中,数据结构用XML格式来实现。
作为简化示例,支持数字视频管理和回放的第三方启用语音的应用(例如诸如
Figure BDA0001337891530000081
之类的应用)可以定义用于管理队列、播放视频内容等的许多命令。下述表1提供了许多这样的语音命令连同它们相关联的语音命令变体(与语音命令相关联的并被用于执行语音命令任务的语音输入的变体)以及语音命令示例(可以被提供给用户以说明用户如何能激活语音命令的语音输入的变体的示例)的简化示例。
Figure BDA0001337891530000082
Figure BDA0001337891530000091
示例1-示例语音命令
在一些实现中,第三方启用语音的资源使用模式定义将它们的能力向可扩展的数字个人助理注册。例如,语音控制的数字个人助理可以接收和/或存储定义了第三方语音控制的资源所支持的语音命令和相关联的任务的语音命令定义(VCD)文件。下面描述了用于两个语音命令的示例的VCD模式。具体而言,下述示例VCD模式定义了用于将电影添加到用户的队列的语音命令和用于将电影从用户的队列中删除的语音命令,它们可以是由第三方语音控制的应用所提供的用于播放媒体内容的两种语音命令。
VCD模式(示例):
<appName>MovieApp</appName>
<Command Name="AddMovie">
<Example>add movie to queue</Example>
<ListenFor>add{Movie}to queue</ListenFor>
<ListenFor>add{Movie}to my queue</ListenFor>
<Feedback>Sure,I’ve added{Movie}to your queue</Feedback>
<Navigate Target=”/queue.xaml”/>
</Command>
<Command Name="DeleteMovie">
<Example>delete movie to queue</Example>
<ListenFor>delete{Movie}to queue</ListenFor>
<ListenFor>delete{Movie}to my queue</ListenFor>
<Feedback>Sure,I’ve deleted{Movie}from your queue</Feedback>
<Navigate Target=”/queue.xaml”/>
</Command>
模式定义(例如VCD模式定义)可以被用于定义远程应用和远程web服务的能力。例如,语音控制的数字个人助理可以访问在远程位置(例如远程网站)处的VCD文件以扩展用于启用语音web服务或远程可用的(例如可从应用商店获得的)应用的功能。
发现第三方启用语音的资源的能力
在在此所述的技术中,语音控制的数字个人助理可以提供用于使用语音命令与用户交互的语音用户界面。语音控制的数字个人助理可以帮助用户发现第三方启用语音的资源的能力。
图1是用于发现第三方启用语音的资源的能力的示例环境100的示图。示例环境100包括计算设备130(例如电话、平板、膝上型计算机、台式机或另一类型的计算设备)。计算设备130包括用于将声音转换成电子信号的话筒150。话筒150可以是分别使用电磁感应、电容或压电中的相应改变从气压变化中产生电子信号的动态的电容器或压电话筒。话筒150可以包括放大器、一个或多个模拟或数字滤波器和/或模-数转换器以产生数字声音输入。数字声音输入可以包括用户语音的再现,诸如在用户命令语音控制的数字个人助理120完成任务时。
语音控制的数字个人助理120在计算设备130上运行,并允许计算设备130的用户使用语音输入执行各种动作。例如,语音控制的数字个人助理120可以通过话筒150接收用户语音输入,使用语音命令数据结构140从用户语音输入中确定对应的语音命令,并执行该语音命令。在一些情形中,受控的数字个人助理120将语音命令发送到第三方启用语音的应用110之一。在其它情形中,语音控制的数字个人助理120自己处理语音命令(例如当用户正在实行语音命令时)。
所述语音命令数据结构140可以标识第三方启用语音的应用110和该第三方启用语音的应用110所支持的命令(语音命令)连同相关联的语音命令变体和语音命令示例。在一些实现中,语音命令数据结构140用XML格式来实现。在一些实现中,语音命令数据结构140可以标识可从应用商店164远程获得的启用语音的应用和/或可从web服务166远程获得的启用语音的服务(例如通过访问可从远程服务器计算机160获得的定义远程应用和/或远程服务的能力的模式定义)。
语音控制的数字个人助理120可以使用自然语言处理模块122处理用户语音输入。自然语言处理模块122可以接收数字声音输入并使用语音识别将用户所说的词转换成文本。所提取的文本可以被语义分析以确定用户语音命令。通过分析数字声音输入并响应于所说的命令采取动作,语音控制的数字个人助理120可以由用户的语音输入来控制。例如,语音控制的数字个人助理120可以将所提取的文本与(例如存储在语音命令数据结构140中的)可能的用户命令的列表相比较以确定最可能与用户的意图匹配的命令。所述匹配可以是基于统计或概率方法、决策树或其它规则、其它合适的匹配准则或其组合。可能的用户命令可以是语音控制的数字个人助理120的本机命令和/或在命令数据结构140中所定义的命令。这样,通过在命令数据结构140中定义命令,可以代表用户由语音控制的数字个人助理120所执行的任务的范围可被扩展。可能的命令可以包括用于执行第三方启用语音的应用110的可用任务112的语音命令。
语音控制的数字个人助理120包括语音和/或图形用户界面124。用户界面124可以向用户提供描述第三方启用语音的应用110的能力的信息。例如,用户界面124可以提供能够执行由用户所请求的任务的可用第三方启用语音的应用110的列表或第三方启用语音的应用110中的特定应用可执行的可用任务的列表。用户界面124可以提供关于所实行的语音命令的反馈(例如成功响应、关于语音命令的变体的反馈等)。
语音控制的数字个人助理120可以访问在远程服务器计算机160上执行的远程服务161。远程服务161可以包括在网络(诸如网络170)上的网络地址处提供的软件功能。网络170可包括局域网(LAN)、广域网(WAN)、因特网、内联网、有线网络、无线网络、蜂窝网络、其组合、或适用于提供在计算设备130和远程服务器计算机160之间进行通信的信道的任何网络。应该理解,图1所示的网络拓扑结构已经被简化,并且可利用多个网络和联网设备来互连此处所公开的各种计算系统。远程服务161可以包括可通过网络170从远程服务器计算机160访问的各种计算服务。远程服务161可以包括(例如由语音控制的数字个人助理120所调用以执行或协助自然语言处理功能的)自然语言处理服务162。远程服务161可以包括应用商店(例如提供启用语音的应用的应用商店,所述应用可以被搜索或下载和安装)。远程服务161还可以包括web服务166,其可以使用语音控制的数字个人助理120通过语音输入被访问。远程服务161还可以包括应用商店164,其可以提供供计算设备130使用的应用(例如以供下载并安装第三方启用语音的应用)。
用于发现第三方启用语音的资源的能力的用户界面
在在此所述的技术中,可扩展的语音控制的数字个人助理可以提供用于使用语音命令与用户交互的各种图形和/或语音控制的用户界面。用户界面可以被提供用于发现第三方启用语音的资源的能力。例如,用户界面可以被提供用于发现哪些第三方启用语音的资源可以执行特定任务,用于发现特定的第三方启用语音的资源可以执行哪些任务,用于使用第三方启用语音的资源实行执行任务的语音输入,和/或用于配置语音控制的数字个人助理的选项。
图2是描述用于与启用语音的数字个人助理交互以发现第三方启用语音的应用的能力(包括发现哪些第三方启用语音的应用可执行任务)的用户界面示例200的示图。具体而言,在图2中的用户界面示例200描述了用户尝试发现哪些第三方启用语音的应用可用于执行特定任务的场景。启用语音的数字个人助理在计算设备210(例如电话、平板或另一类型的计算设备)上运行。
在用户界面示例200中,语音控制的数字个人助理提供向用户提示提供语音命令的第一图形用户界面220。为了输入语音命令,用户可以通过选择用户界面元素(例如在屏幕上轻击、选择话筒图标等),或通过执行另一种动作(例如按下设备上的按键或仅向设备说出语音命令)来激活语音输入。
如在225处所描述的,用户已经提供了语音输入(例如通过计算设备210的话筒接收的数字语音输入)。响应于语音输入,第二图形用户界面222由语音控制的数字个人助理提供。如在第二图形用户界面222中所描述的,语音控制的数字个人助理已经(例如通过由计算设备210和/或通过诸如云服务之类的外部服务所执行的自然语言处理)确定来自数字语音输入的用户语音请求。在该示例中的用户语音请求是“Which applications can playmovies?(哪些应用可以播放电影?)”,如在230处所述。
如在235处所述,语音控制的数字个人助理接着确定哪些第三方启用语音的应用能够执行由用户所请求的任务。具体而言,在该示例中,语音控制的数字个人助理确定哪些第三方启用语音的应用能够播放电影。作为响应,语音控制的数字个人助理在240处显示列出能够执行所述任务的第三方启用语音的应用的第三图形用户界面224。具体而言,在该示例中,能够在计算设备210上播放电影的第三方启用语音的应用包括
Figure BDA0001337891530000131
Plus,以及Amazon Instant
Figure BDA0001337891530000132
图3是描述用于与启用语音的数字个人助理交互以发现第三方启用语音的应用的能力(包括发现特定第三方启用语音的应用可执行哪些任务)的用户界面示例300的示图。具体而言,在图3中的用户界面示例300描述了用户尝试发现特定第三方启用语音的应用可执行哪些任务的场景。
在用户界面示例300中,语音控制的数字个人助理提供向用户提示提供语音命令的第一图形用户界面320。为了输入语音命令,用户可以通过选择用户界面元素(例如在屏幕上轻击、选择话筒图标等),或通过执行另一种动作(例如按下设备上的按键或仅向设备说出语音命令)来激活语音输入。
如在325处所述,用户已经提供了语音输入。响应于语音输入,第二图形用户界面322由语音控制的数字个人助理提供。如在第二图形用户界面322中所描述的,语音控制的数字个人助理已经(例如通过由计算设备210和/或通过诸如云服务之类的外部服务所执行的自然语言处理)确定来自数字语音输入的用户语音请求。在该示例中的用户语音请求是“Which tasks can<application>perform?(<应用>可以执行哪些任务?)”,如在330处所述。例如,如果用户询问Netflix应用可以执行哪些任务,那么语音请求将是“Which taskscan Netflix perform?(Netflix可以执行哪些任务?)”。
如在335处所述,语音控制的数字个人助理接着确定特定第三方启用语音的应用能够执行哪些任务。例如,如果用户询问Netflix应用可以执行哪些任务,那么列出任务的第三图形用户界面324可以被显示,如在340处所述。在340处所述的任务是可以由Netflix应用所支持的示例语音命令连同说明用户可以如何使用给定的语音命令的语音示例。在一些实现中,所述第三方启用语音的应用可以控制可用的语音命令的显示的格式(例如包括语音命令变体和语音命令示例)。例如,第三方启用语音的应用可以控制哪些语音命令被显示和如何组织所述显示(例如显示哪些变体和示例以及如何安排它们)。
图4是描述用于与启用语音的数字个人助理交互以发现第三方启用语音的应用的能力(包括实行第三方启用语音的应用的语音命令)的用户界面示例400的示图。具体而言,在图4中的用户界面示例400描述了用户尝试实行用于执行第三方启用语音的应用的任务的语音命令的场景。
在用户界面示例400中,语音控制的数字个人助理提供了描述可以由所选的第三方启用语音的应用所执行任务的列表的第一图形用户界面420。在该示例中,第三方启用语音的应用可以是支持播放电影、将电影添加到用户队列以及搜索电影的语音命令的Netflix应用。例如,第一图形用户界面420可以作为用户询问语音控制的数字个人助理特定第三方启用语音的应用可以执行哪些任务的结果而被显示,如在图3中所述。
使用第一图形用户界面420,用户执行启动实行模式的动作。所述动作可以包括选择用户界面元素(例如选择实行按键,如在430处所述)和/或说出语音命令(例如由语音输入435所指示的)。响应于进入实行模式,显示列出用户可以实行的各种语音命令连同许多语音命令示例的第二图形用户界面422。
如在440处所述,用户已经提供了用于实行语音命令的语音输入。响应于语音输入,语音控制的数字个人助理确定(例如使用自然语言处理)用户已经说出的语音命令并将其与特定第三方启用语音的应用的可用的语音命令(例如与可能的语音命令变体)进行比较。随后,所述语音控制的数字个人助理将实行的命令的结果呈现给用户(例如成功命令或不成功命令的指示)。在第三图形用户界面424中描述的示例中,用户已经说出语音命令“Please play The Croods(请播放疯狂原始人)”(如在450处所述),其与由第三方启用语音的应用所提供的(在该示例中由Netflix所提供的)语音命令之一匹配,并且因此向所述用户呈现提及所述语音命令将使得应用执行所述任务(在该示例中是播放所述电影)的消息,如在445处所述。在一些实现中,所述第三方启用语音的应用可以控制可用的任务和实行模式语音命令的显示的格式。例如,第三方启用语音的应用可以控制在示例用户界面420、422和424中所述的信息的内容和格式。
如上所讨论的用户界面示例200、300和400部分描述了用于与语音控制的数字个人助理交互的图形用户界面。然而,在一些实现中,语音控制的数字个人助理可以使用语音输入/输出与用户单独交互。另外,用户界面示例200、300和400在(例如安装在显示所述用户界面的计算设备上的)第三方启用语音的应用的上下文中被描述。然而,用户界面示例200、300和400还应用在诸如远程启用语音的应用和远程服务(例如远程启用语音的web服务)之类的其它第三方启用语音的资源的上下文中。
用于发现第三方启用语音的资源的能力的方法
在在此所述的任何示例中,可以提供用于发现第三方启用语音的资源的能力的方法。例如,语音控制的数字个人助理可以响应用户语音请求以列出哪些第三方启用语音的应用可以执行特定任务或特定第三方启用语音的应用可以执行哪些任务。语音控制的数字个人助理还可以允许用户实行由第三方启用语音的应用所支持的语音命令并设置配置选项。
图5是用于发现第三方启用语音的应用的能力的示例方法500的流程图。示例方法500可至少部分地由计算设备,例如计算设备210,来执行。示例方法500可至少部分地由在计算设备上运行的语音控制的数字个人助理来执行。
在510,数字语音输入由语音控制的数字个人助理来接收。数字语音输入可通过话筒从用户处被接收。
在520,执行自然语言处理以确定对能够执行任务的可用的第三方启用语音的应用的用户语音请求。在一些实现中,第三方启用语音的应用是安装在计算设备上的本地应用。在一些实现中,第三方启用语音的应用可以是安装在计算设备上的本地应用和/或(例如在应用商店处或通过在线服务)可远程获得的应用。
在530,能够执行所述任务的第三方启用语音的应用被标识。例如,可以使用定义可用的第三方启用语音的应用所支持的任务的数据结构来标识第三方启用语音的应用。在一些实现中,语音控制的数字个人助理搜索遍历数据结构以标识能够使用语音输入执行所请求的任务的可用的第三方启用语音的应用(例如本地安装的应用和/或远程可获得的应用)。
在550,向用户提供标识能够执行所述任务的第三方启用语音的应用的响应。所述响应可以通过图形用户界面(例如作为第三方启用语音的应用的列表)和/或通过音频输出(例如通过语音控制的数字个人助理告知用户哪些第三方启用语音的应用能够执行所述任务)来提供。所述响应还可以包括用于执行所述任务的包含语音命令示例的语音命令变体的指示。在一些实现中,用户可以实行可用于执行所述任务的语音命令。
图6是用于发现第三方启用语音的应用的能力的示例方法600的流程图。示例方法600可至少部分地由计算设备,例如计算设备210,来执行。示例方法600可至少部分地由在计算设备上运行的语音控制的数字个人助理来执行。
在610,数字语音输入由语音控制的数字个人助理来接收。数字语音输入可通过话筒从用户处被接收。
在620,执行自然语言处理以确定对能够由特定第三方启用语音的应用执行的可用任务的用户语音请求。在一些实现中,特定第三方启用语音的应用是安装在计算设备上的本地应用。在一些实现中,特定第三方启用语音的应用可以是本地应用和/或(例如在应用商店处或通过在线服务)可远程获得的应用。
在630,能够由特定第三方启用语音的应用执行的可用任务被标识。例如,可以使用定义特定第三方启用语音的应用所支持的任务的数据结构来标识可用任务。在一些实现中,语音控制的数字个人助理搜索遍历该数据结构以标识由特定第三方启用语音的应用所支持的可用任务。
在640,向用户提供标识可用任务的响应(例如作为图形用户界面响应和/或语音响应)。例如,语音控制的数字个人助理可以向用户显示任务列表连同相关联的语音命令变体和语音命令示例。
图7是用于发现第三方启用语音的应用的能力的示例方法700的流程图。示例方法700可至少部分地由计算设备,例如计算设备210,来执行。示例方法700可至少部分地由在计算设备上运行的语音控制的数字个人助理来执行。
在710,用户请求被语音控制的数字个人助理接收以实行由第三方启用语音的应用所提供的语音命令。例如,可以响应于用户选择用户界面元素(例如在所显示的图形图标上轻击)来接收所述请求以实行当前选择的第三方启用语音的应用的语音命令。还可以通过语音输入从用户(例如通过作出实行特定第三方启用语音的应用的语音命令的请求的用户)来接收所述请求。
在720,数字语音输入由语音控制的数字个人助理来接收。数字语音输入可通过话筒从用户处被接收。
在730,执行自然语言处理以确定用户语音请求。用户语音请求表示用户尝试使用语音输入执行由第三方启用语音的应用所支持的任务。
在740,做出关于用户语音请求是否匹配与第三方启用语音的应用的任务相关联的语音命令变体的判定。例如,语音控制的数字个人助理可以使用定义了由第三方启用语音的应用所支持的语音命令的数据结构来确定用户语音请求是否匹配语音命令变体。
在750,向用户提供指示在用户语音请求和语音命令变体之间是否存在匹配的响应。所述响应可以以图形用户界面和/或语音响应的格式被提供。所述响应可以指示哪个语音命令变体与用户语音请求匹配和/或哪个任务通过用户语音请求在没有采用实行模式的情况下已被执行。
在无需语音控制的数字个人助理必须与第三方启用语音的应用进行通信的情况下,示例方法700可以由语音控制的数字个人助理执行。以此方式,语音控制的数字个人助理可允许用户在无需运行该方启用语音的应用的情况下实行语音命令。例如,语音控制的数字个人助理可以单独使用由语音控制的数字个人助理所维护的数据结构来确定用户语音输入是否匹配语音命令变体。
示例方法500、600和700是在第三方启用语音的应用的上下文中描述的。然而,用户示例方法500、600和700还应用在诸如远程启用语音的应用和远程服务(例如远程启用语音的web服务)之类的其它第三方启用语音的资源的上下文中。
计算系统
图8示出了其中可实现所描述的创新的合适的计算系统800的一般化示例。计算系统800并不旨对使用范围或功能提出任何限制,因为这些创新可以在不同的通用或专用计算系统中实现。
参考图8,计算系统800包括一个或多个处理单元810、815和存储器820、825。在图8中,该基本配置830被包括在虚线内。处理单元810、815执行计算机可执行的指令。处理单元可以是通用中央处理单元(CPU)、专用集成电路(ASIC)中的处理器或任意其它类型的处理器。在多处理系统中,多个处理单元执行计算机可执行指令以提高处理能力。例如,图8示出中央处理单元810以及图形处理单元或协处理单元815。有形存储器820、825可以是可由(诸)处理单元存取的易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、闪存等)或者两者的某一组合。存储器820、825以适合被(诸)处理单元执行的计算机可执行指令的形式,存储实现此处描述的一个或多个发明的软件880。
计算系统可具有附加的特征。例如,计算系统800包括存储840、一个或多个输入设备850、一个或多个输出设备860以及一个或多个通信连接870。诸如总线、控制器或网络之类的互连机制(未示出)将计算系统800的各组件互连。通常,操作系统软件(未示出)为在计算系统800中执行的其它软件提供操作环境,并协调计算系统800的各组件的活动。
有形存储840可以是可移动或不可移动的,并包括磁盘、磁带或磁带盒、CD-ROM、DVD或可用于储存信息并可在计算系统800内访问的任何其他介质。存储器840存储用于软件880的指令,所述软件880实现此处描述的一个或多个发明。
(诸)输入设备850可以是触摸输入设备(诸如键盘、鼠标、笔或跟踪球)、语音输入设备、扫描设备或向计算系统800提供输入的另一设备。对于视频编码,(诸)输入设备850可以是相机、视频卡、TV调谐卡或接受模拟或数字形式的视频输入的类似设备,或将视频样本读入计算系统800的CD-ROM或CD-RW。(诸)输出设备860可以是显示器、打印机、扬声器、CD刻录机或提供来自计算系统800的输出的另一设备。
(诸)通信连接870允许在通信介质上到另一计算实体的通信。通信介质传达诸如计算机可执行指令、音频或视频输入或输出、或已调制数据信号中的其他数据之类的信息。已调制数据信号是使其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非限制,通信介质可以使用电的、光学的、RF或其它载体。
各创新可在计算机可执行指令(诸如包括在程序模块中的在目标现实或虚拟处理器上在计算系统中执行的那些计算机可执行指令)的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。如各实施例中描述的,这些程序模块的功能可以被组合,或者在这些程序模块之间拆分。针对各程序模块的计算机可执行指令可以在本地或分布式计算系统中执行。
术语“系统”和“设备”在此被互换地使用。除非上下文明确指示,否则,术语并不暗示对计算系统或计算设备的类型的任何限制。一般说来,计算系统或计算设备可以是本地的或分布式的,并且可以包括具有实现本文中描述的功能的软件的专用硬件和/或通用硬件的任意组合。
为了呈现起见,本详细描述使用了如“确定”和“使用”等术语来描述计算系统中的计算机操作。这些术语是对由计算机执行的操作的高级抽象,且不应与人类所执行的动作混淆。对应于这些术语的实际的计算机操作取决于实现而不同。
移动设备
图9是描述一示例移动设备900的系统示意图,该示例移动设备900包括在902概括示出的各种任选的硬件和软件组件。移动设备中的任何组件902可以与任何其他组件通信,然而为容易说明未示出所有连接。该移动设备可以是各种计算设备(例如,蜂窝电话、智能电话、手持式计算机、个人数字助理(PDA)等)中的任一个,并且可允许与诸如蜂窝、卫星或其他网络的一个或多个移动通信网络904进行无线双向通信。
图示的移动设备900可以包括用于执行任务的控制器或处理器910(例如,信号处理器、微处理器、ASIC或者其他控制和处理逻辑电路),所述任务诸如信号编码、数据处理、输入/输出处理、功率控制、和/或其他功能。操作系统912可以控制各组件902的分配和使用,并且支持一个或多个应用程序914。应用程序可以包括常见的移动计算应用(例如,电子邮件应用、日历、联系人管理器、web浏览器、消息收发应用)、或者任何其他计算应用。用于访问应用存储的功能913还可以用于获取和更新应用程序914。
所例示的移动设备900可包括存储器920。存储器920可以包括不可移动存储器922和/或可移动存储器924。不可移动存储器922可以包括RAM、ROM、闪存、硬盘或者其他公知的存储器存储技术。可移动存储器924可以包括闪存或订户身份模块(SIM)卡,这在GSM通信系统或者其他公知的存储器存储技术中是公知的,诸如“智能卡”。存储器920可用于存储运行操作系统912和应用914的数据和/或代码。示例数据可以包括要经由一个或多个有线或无线网络被发送至和/或接收自一个或多个网络服务器或其他设备的网页、文本、图像、声音文件、视频数据或者其他数据集。存储器920可用于存储订户标识符和设备标识符,所述订户标识符诸如国际移动订户身份(IMSI),所述设备标识符诸如国际移动设备标识符(IMEI)。这种标识符可以被发射至网络服务器以标识用户和设备。
移动设备900可以支持一个或多个输入设备930以及一个或多个输出设备950,所述输入设备诸如触摸屏932、麦克风934、照相机936、物理键盘938和/或轨迹球940,所述输出设备诸如扬声器952和显示器954。其他可能的输出设备(未示出)可以包括压电或其他触觉输出设备。一些设备可以用于多于一个输入/输出功能。例如,触摸屏932和显示器954可被组合在单个输入/输出设备中。
输入设备930可以包括自然用户界面(NUI)。NUI是使用户能以“自然”方式与设备交互、免受诸如鼠标、键盘、远程控件等输入设备所施加的人工约束的任一界面技术。NUI方法的示例包括依赖于语音识别、触摸和触笔识别、屏上及邻近屏的姿势识别、空中姿势、头部和眼部跟踪、说话和语音、视觉、触摸、姿势以及机器智能的那些方法。NUI的其他示例包括使用加速度计/陀螺仪、面部识别、3D显示器、头部、眼部和凝视跟踪的运动手势检测、沉浸式增强的现实和虚拟现实系统,这些中的全部都提供更自然的界面,还包括使用电场传感电极(EEG及相关方法)来感测脑部活动的技术。因此,在一个具体示例中,操作系统912或应用914可以包括语音识别软件作为语音用户界面的一部分,该语音用户界面允许用户经由语音命令来操作设备900。而且,设备900可以包括允许经由用户的空间手势进行用户交互的输入设备和软件,诸如检测和解释手势以便向游戏应用提供输入。
无线调制解调器960可被耦合到天线(未示出),并可支持处理器910和外部设备之间的双向通信,如本领域中清楚理解的。调制解调器960被一般性地示出,并且可以包括用于与移动通信网络904的蜂窝调制解调器和/或其它基于无线电的调制解调器(例如蓝牙964或Wi-Fi 962)。无线调制解调器960一般被配置成与一个或多个蜂窝网络(诸如GSM网络)通信,用于单个蜂窝网络内、多个蜂窝网络之间、或者在移动设备和公共交换电话网(PSTN)之间的数据和语音通信。
移动设备还可以包括至少一个输入/输出端口980、电源982、卫星导航系统接收机984(诸如全球定位系统(GPS)接收机)、加速度计986、和/或物理连接器990,物理连接器990可以是USB端口、IEEE 1394(火线)端口和/或RS-232端口。图示的组件902不是必须的或全包含的,因为任何组件可以被删除且其他组件可以被添加。
云支持环境
图10示出了其中可实现所描述的实施例、技巧和技术的合适的云支持环境1000的一般化示例。在示例环境1000中,由云1010提供各种类型的服务(例如,计算服务)。例如,云1010可以包括多个计算设备的集合,多个计算设备可以是中央式或分布式定位的,所述多个计算设备向经由诸如互联网这样的网络连接的各类用户和设备提供基于云的服务。实现方式环境1000可以不同方式被用来完成计算任务。例如,一些任务(例如,处理用户输入和呈现用户界面)可以在本地计算设备(例如,所连接的设备1030、1040、1050)上执行,而其他任务(例如,要在后续处理中使用的数据的存储)可以在云1010中执行。
在示例环境1000中,云1010为具有各种屏幕能力的所连接的设备1030、1040、1050提供服务。所连接的设备1030代表具有计算机屏幕1035(例如,中等尺寸屏幕)的设备。例如,所连接的设备1030可以是诸如台式计算机、膝上型电脑、笔记本、上网本等个人计算机。所连接的设备1040代表具有移动设备屏幕1045(例如,小尺寸屏幕)的设备。例如,连接的设备1040可以是移动电话、智能电话、个人数字助理、平板计算机等。所连接的设备1050代表具有大屏幕1055的设备。例如,所连接的设备1050可以是电视机屏幕(例如,智能电视机)或连至电视机的另一设备(例如,机顶盒或游戏控制台)等等。所连接的设备1030、1040、1050中的一者或多者可以包括触摸屏能力。触摸屏可按不同的方式接受输入。例如,电容式触摸屏在物体(例如,指尖或指示笔)变形或中断了流过表面的电流时检测到触摸输入。举另一个示例,触摸屏可以使用光学传感器在来自光学传感器的波束被中断时检测到触摸输入。对于一些触摸屏所检测的输入而言,与屏幕表面的物理接触不是必要的。在示例环境1000中也可以使用没有屏幕能力的设备。例如,云1010可以为没有显示器的一个或多个计算机(例如,服务器计算机)提供服务。
服务可由云1010通过服务提供者1020提供、或通过其他在线服务提供者(未图示)而提供。例如,云服务可以被定制为特定的所连接设备(例如,所连接的设备1030、1040、1050)的屏幕大小、显示器能力和/或触摸屏能力。
在示例环境1000中,云1010至少部分使用服务提供者1020,将此处所述的技术和解决方案提供给各种所连接的设备1030、1040、1050。例如,服务提供者1020可以为各种基于云的服务提供集中式解决方案。服务提供者1020可以管理对于各用户和/或设备(例如,对于所连接的设备1030、1040、1050和/或它们相应的用户)的服务预订。
示例实现
尽管以特定的顺序次序描述所公开方法的一些的操作以便于方便呈现,但应当理解,这一描述方式包含重排,除非以下提出的具体语言要求特定的次序。例如,顺序描述的操作可以在一些情况下并行地重排或同时执行。此外,为简洁起见,附图可能不示出所公开的方法可以结合其他方法使用的各种方式。
所公开的方法中的任何方法可被实现为被存储在一个或多个计算机可读存储介质上并在计算设备(例如任何可用计算设备,包括智能电话或其他包括计算硬件的移动设备)上执行的计算机可执行指令或计算机程序产品。计算机可读存储介质是在计算环境内可访问的任何可用的有形介质(例如,诸如DVD或CD之类的一个或多个光学介质盘、易失性存储器组件(诸如DRAM或SRAM)或非易失性存储器组件(诸如闪存或硬件驱动器))。作为示例并参考图8,计算机可读存储介质包括存储器820和825以及存储840。作为示例并参考图9,计算机可读存储介质包括存储器以及存储920、922和924。术语计算机可读存储介质不包括信号和载波。此外,术语计算机可读存储介质不包括通信连接(例如,870、960、962和964)。
用于实现所公开技术的计算机可执行指令中的任一个以及在实现所公开的实施例期间创建和使用的任何数据可以被存储在一个或多个计算机可读存储介质上。计算机可执行指令可以是例如专用软件应用或者经由web浏览器或其他软件应用(诸如远程计算应用)访问和下载的软件应用的一部分。这种软件可以例如在单个本地计算机(例如,任何适当的商业可购买计算机)上或者使用一个或多个网络计算机在网络环境(例如,经由互联网、广域网、局域网、客户端-服务器网络(诸如云计算网络)、或者其他这样的网络)中执行。
为清楚起见,仅描述了基于软件的实现方式的特定所选方面。省略了本领域公知的其他细节。例如,应当理解,所公开的技术不限于任何具体的计算机语言或程序。例如,所公开的技术可以通过以C++、Java、Perl、JavaScript、Adobe Flash或者任何其他适当的编程语言编写的软件来实现。同样,所公开的技术不限于任何特定的计算机或硬件类型。适当计算机和硬件的特定细节是公知的,并且不需要在本公开中详细提出。
而且,基于软件的实施例(包括例如用于使计算机执行所公开方法的任一种的计算机可执行指令)中的任一者可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信或者其他这样的通信手段。
所公开的方法、装置和系统不应以任何方式被限制。相反,本公开针对各种公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合,所公开的实施例也不要求存在任一个或多个具体优点或者解决问题。
来自任何示例的技术可以与在任何一个或多个其他示例中所描述的技术相组合。鉴于可应用所公开的本技术的原理的许多可能的实施例,应当认识到,所示实施例仅是所公开的技术的示例,并且不应被用作是对所公开的技术的范围的限制。

Claims (20)

1.一种计算设备,包括:
处理单元;
存储器;以及
一个或多个话筒;
所述计算设备配置有语音控制的数字个人助理,以执行发现第三方启用语音的资源的能力的操作,所述操作包括:
通过所述一个或多个话筒接收由用户生成的数字语音输入;
使用所述数字语音输入执行自然语言处理以确定用户语音请求,其中所述用户语音请求是对能够执行任务的可用第三方启用语音的资源的请求;
标识能够使用语音输入执行所述任务的一个或多个第三方启用语音的资源,其中所述一个或多个第三方启用语音的资源使用一个数据结构来标识,所述数据结构定义了可用第三方启用语音的资源所支持的使用语音输入的任务;
向所述用户提供标识能够执行所述任务的所述一个或多个第三方启用语音的资源的响应;以及
接收用户启动的命令,其中所述用户启动的命令从所述一个或多个第三方启用语音的资源中标识一个特定的第三方启用语音的资源,其中所述用户启动的命令指令所述语音控制的数字个人助理来删除由所述特定的第三方启用语音的资源所支持的任务以及对应的用于执行该任务的语音命令,其中被删除的任务不能通过用户语音输入来执行。
2.如权利要求1所述的计算设备,其特征在于,其中所述标识能够执行所述任务的所述一个或多个第三方启用语音的资源包括:
评估安装在所述计算设备上的第三方启用语音的应用。
3.如权利要求1所述的计算设备,其特征在于,其中所述标识能够执行所述任务的所述一个或多个第三方启用语音的资源包括:
评估可从远程web服务获得的第三方启用语音的资源。
4.如权利要求1所述的计算设备,其特征在于,其中所述数据结构包括:
标识由所述可用第三方启用语音的资源所支持的语音命令的信息;
标识由所述可用第三方启用语音的资源所支持的语音命令变体的信息;以及
标识由所述可用第三方启用语音的资源所支持的语音命令示例的信息。
5.如权利要求1所述的计算设备,其特征在于,其中所述数据结构包括,对于所述一个或多个第三方启用语音的资源中的每个:
标识由所述第三方启用语音的资源所支持的一个或多个语音命令的信息;以及
对于由所述第三方启用语音的资源所支持的所述一个或多个语音命令中的每个:
定义一个或多个语音命令变体的信息,其中所述一个或多个语音命令变体定义了用户语音输入的将执行所述语音命令的一个或多个变体;以及
标识一个或多个语音命令示例的信息,其中所述一个或多个语音命令示例是用户语音输入的将执行所述语音命令的示例。
6.如权利要求1所述的计算设备,其特征在于,其中向所述用户提供所述响应包括,对于能够执行所述任务的所述一个或多个第三方启用语音的资源中的每个:
显示由所述第三方启用语音的资源所支持的将执行所述任务的至少一个语音命令变体的指示;以及
显示用于执行所述任务的至少一个语音命令示例的指示。
7.如权利要求1所述的计算设备,其特征在于,
所述用户启动的命令从所述一个或多个第三方启用语音的资源中标识一个特定的第三方启用语音的资源以及对实行由所述特定的第三方启用语音的资源所支持的任务的请求。
8.如权利要求1所述的计算设备,其特征在于,所述用户启动的命令从所述一个或多个第三方启用语音的资源中标识一个特定的第三方启用语音的资源以及对实行用于执行由所述特定的第三方启用语音的资源所支持的特定任务的特定语音命令变体的请求。
9.如权利要求1所述的计算设备,其特征在于,所述任务是播放电影的任务,其中所述一个或多个第三方启用语音的资源能够在所述计算设备上播放电影,并且其中向所述用户的响应列出了能够播放电影的所述一个或多个第三方启用语音的资源。
10.一种由包括话筒的计算设备实现的用于发现第三方启用语音的资源的能力的方法,所述方法包括:
由语音控制的数字个人助理接收由用户生成的数字语音输入,其中所述数字语音输入是经由所述话筒来接收的;
使用所述数字语音输入执行自然语言处理以确定用户语音请求,其中所述用户语音请求是对能够由特定第三方启用语音的资源执行的可用任务的请求;
由所述语音控制的数字个人助理标识能够由所述特定第三方启用语音的资源执行的可用任务,其中所述可用任务使用一个数据结构来标识,所述数据结构定义了所述特定第三方启用语音的资源所支持的使用语音输入的可用任务;
由所述语音控制的数字个人助理向所述用户提供标识了能够由所述特定第三方启用语音的资源执行的可用任务中的每个任务的响应;以及
由所述语音控制的数字个人助理接收用户启动的命令,其中所述用户启动的命令从能够由特定第三方启用语音的资源执行的可用任务中标识一个特定的任务,并且其中所述用户启动的命令指令所述语音控制的数字个人助理删除由所述特定第三方启用语音的资源所支持的所述特定任务以及对应的用于执行该任务的语音命令,其中被删除的任务不能通过用户语音输入来执行。
11.如权利要求10所述的方法,其特征在于,其中所述特定第三方启用语音的资源是特定的第三方启用语音的应用,并且其中所述数据结构包括:
标识由所述特定第三方启用语音的应用所支持的可用任务中的每个任务的信息;
标识由所述特定第三方启用语音的应用所支持的语音命令变体的信息;以及
标识由所述特定第三方启用语音的应用所支持的语音命令示例的信息。
12.如权利要求10所述的方法,其特征在于,所述特定第三方启用语音的资源是远程web资源,所述方法还包括:
从远程web站点接收所述数据结构。
13.如权利要求10所述的方法,其特征在于,其中向所述用户提供所述响应包括,对于能够由所述特定第三方启用语音的资源执行的可用任务中的一个或多个任务的每个任务:
由所述语音控制的数字个人助理显示由所述特定第三方启用语音的资源所支持的将执行所述任务的至少一个语音命令变体的指示;以及
由所述语音控制的数字个人助理显示用于执行所述任务的至少一个语音命令示例的指示。
14.一种存储用于使得计算设备执行用于发现第三方启用语音的资源的能力的操作的计算机可执行指令的计算机可读存储介质,所述操作包括:
由语音控制的数字个人助理接收对实行由第三方启用语音的资源所提供的语音命令的用户请求;
由所述语音控制的数字个人助理接收由所述用户生成的数字语音输入,其中所述数字语音输入是经由所述计算设备的话筒来接收的;
使用所述数字语音输入执行自然语言处理以确定用户语音请求;
由所述语音控制的数字个人助理确定所述用户语音请求是否匹配与所述第三方启用语音的资源的任务相关联的语音命令变体;
由所述语音控制的数字个人助理向所述用户提供指示所述用户语音请求是否匹配与所述任务相关联的语音命令变体的响应;以及
由所述语音控制的数字个人助理接收用户启动的命令,其中所述用户启动的命令从能够由特定第三方启用语音的资源执行的可用任务中标识一个特定的任务,并且其中所述用户启动的命令指令所述语音控制的数字个人助理删除由所述特定第三方启用语音的资源所支持的所述特定任务以及对应的用于执行该任务的语音命令,其中被删除的任务不能通过用户语音输入来执行。
15.如权利要求14所述的计算机可读存储介质,其特征在于,所述操作还包括:
由所述语音控制的数字个人助理呈现所述第三方启用语音的资源所支持的可用任务的列表,其中所述任务是可用任务的列表中的一个。
16.如权利要求14所述的计算机可读存储介质,其特征在于,其中所述用户语音请求匹配与所述任务相关联的语音命令变体,并且其中所述向用户提供的响应指示所述用户已经成功地说出将执行所述任务的所述用户语音请求。
17.如权利要求14所述的计算机可读存储介质,其特征在于,其中所述用户语音请求匹配与所述任务相关联的语音命令变体,并且其中向所述用户提供所述响应包括:
由所述语音控制的数字个人助理提供语音响应,所述语音响应包括所述第三方启用语音的资源对所述用户语音请求的模拟响应,其中所述模拟响应从由所述语音控制的数字个人助理维护的数据结构中获得,所述数据结构定义了所支持的任务以及它们相关联的模拟语音响应,并且其中所述语音控制的数字个人助理在无需所述第三方启用语音的资源介入的情况下提供了所述模拟响应。
18.如权利要求14所述的计算机可读存储介质,其特征在于,其中所述用户语音请求不匹配与所述任务相关联的语音命令变体,并且其中向所述用户提供所述响应包括:
由所述语音控制的数字个人助理提供包括用于执行所述任务的一个或多个语音命令示例的响应,其中所述一个或多个语音命令示例从由所述语音控制的数字个人助理维护的数据结构中获得,所述数据结构定义了所支持的任务以及它们相关联的语音命令示例。
19.一种具有指令的计算机可读存储介质,当所述指令被执行时使得机器执行如权利要求10-13中任一权利要求所述的方法。
20.一种计算机系统,包括用于执行如权利要求10-13中任一权利要求所述的方法的装置。
CN201580071996.8A 2014-12-30 2015-12-07 发现第三方启用语音的资源的能力 Active CN107112015B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/586,449 US9837081B2 (en) 2014-12-30 2014-12-30 Discovering capabilities of third-party voice-enabled resources
US14/586,449 2014-12-30
PCT/US2015/064172 WO2016109122A2 (en) 2014-12-30 2015-12-07 Discovering capabilities of third-party voice-enabled resources

Publications (2)

Publication Number Publication Date
CN107112015A CN107112015A (zh) 2017-08-29
CN107112015B true CN107112015B (zh) 2021-04-27

Family

ID=55069091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580071996.8A Active CN107112015B (zh) 2014-12-30 2015-12-07 发现第三方启用语音的资源的能力

Country Status (4)

Country Link
US (2) US9837081B2 (zh)
EP (2) EP3241213B1 (zh)
CN (1) CN107112015B (zh)
WO (1) WO2016109122A2 (zh)

Families Citing this family (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US20170310819A1 (en) * 2015-01-23 2017-10-26 Huawei Technologies Co., Ltd. Voice play method and voice play device
CN104635927A (zh) * 2015-01-27 2015-05-20 深圳富泰宏精密工业有限公司 互动显示系统及方法
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) * 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10739960B2 (en) * 2015-09-22 2020-08-11 Samsung Electronics Co., Ltd. Performing application-specific searches using touchscreen-enabled computing devices
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10282417B2 (en) * 2016-02-19 2019-05-07 International Business Machines Corporation Conversational list management
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) * 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10621581B2 (en) 2016-06-11 2020-04-14 Apple Inc. User interface for transactions
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10771969B2 (en) * 2016-07-11 2020-09-08 T-Mobile Usa, Inc. Voice control and telecommunications service integration
US20180039478A1 (en) * 2016-08-02 2018-02-08 Google Inc. Voice interaction services
US10261752B2 (en) * 2016-08-02 2019-04-16 Google Llc Component libraries for voice interaction services
US10192551B2 (en) 2016-08-30 2019-01-29 Google Llc Using textual input and user state information to generate reply content to present in response to the textual input
US20180068313A1 (en) 2016-09-06 2018-03-08 Apple Inc. User interfaces for stored-value accounts
US10555172B2 (en) 2016-09-07 2020-02-04 T-Mobile Usa, Inc. Untrusted device access to services over a cellular network
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10853747B2 (en) * 2016-10-03 2020-12-01 Google Llc Selection of computational agent for task performance
US10311856B2 (en) 2016-10-03 2019-06-04 Google Llc Synthesized voice selection for computational agents
US11663535B2 (en) 2016-10-03 2023-05-30 Google Llc Multi computational agent performance of tasks
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10224031B2 (en) * 2016-12-30 2019-03-05 Google Llc Generating and transmitting invocation request to appropriate third-party agent
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10547729B2 (en) * 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
US10255917B2 (en) 2017-03-31 2019-04-09 International Business Machines Corporation Coordinating the execution of a voice command across multiple connected devices
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11221744B2 (en) 2017-05-16 2022-01-11 Apple Inc. User interfaces for peer-to-peer transfers
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10796294B2 (en) 2017-05-16 2020-10-06 Apple Inc. User interfaces for peer-to-peer transfers
US20180366113A1 (en) * 2017-05-18 2018-12-20 Aiqudo, Inc. Robust replay of digital assistant operations
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10929081B1 (en) * 2017-06-06 2021-02-23 United Services Automobile Association (Usaa) Context management for multiple devices
US10853740B2 (en) 2017-06-23 2020-12-01 Microsoft Technology Licensing, Llc Natural language interface to interactive, operating-system shell and techniques for creating training data for the same
US11423879B2 (en) * 2017-07-18 2022-08-23 Disney Enterprises, Inc. Verbal cues for high-speed control of a voice-enabled device
US10708268B2 (en) * 2017-07-31 2020-07-07 Airwatch, Llc Managing voice applications within a digital workspace
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
EP4273696A3 (en) 2017-10-03 2024-01-03 Google LLC Multiple digital assistant coordination in vehicular environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US11113027B2 (en) * 2017-12-28 2021-09-07 Sharp Kabushiki Kaisha Apparatus, system, and method that support operation to switch to input terminal to be activated among input terminals included in display apparatus
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10643632B2 (en) * 2018-01-12 2020-05-05 Wells Fargo Bank, N.A. Automated voice assistant personality selector
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11144278B2 (en) * 2018-05-07 2021-10-12 Google Llc Verifying operational statuses of agents interfacing with digital assistant applications
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN112219203A (zh) 2018-06-03 2021-01-12 苹果公司 用于转账账户的用户界面
US11100498B2 (en) 2018-06-03 2021-08-24 Apple Inc. User interfaces for transfer accounts
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
CN110610701B (zh) * 2018-06-14 2023-08-25 淘宝(中国)软件有限公司 语音交互方法、语音交互提示方法、装置和设备
EP3682345B1 (en) 2018-08-07 2021-11-24 Google LLC Assembling and evaluating automated assistant responses for privacy concerns
KR20200027753A (ko) * 2018-09-05 2020-03-13 삼성전자주식회사 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11361767B2 (en) 2018-10-31 2022-06-14 Samsung Electronics Co., Ltd Method and apparatus for capability-based processing of voice queries in a multi-assistant environment
CN111200744B (zh) * 2018-11-19 2021-05-25 Tcl科技集团股份有限公司 一种多媒体播放控制方法、装置及智能设备
CN109256117A (zh) * 2018-11-20 2019-01-22 北京千丁互联科技有限公司 一种语音数据处理方法及装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11328352B2 (en) 2019-03-24 2022-05-10 Apple Inc. User interfaces for managing an account
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110390935B (zh) * 2019-07-15 2021-12-31 百度在线网络技术(北京)有限公司 语音交互方法和装置
US11264025B2 (en) * 2019-07-23 2022-03-01 Cdw Llc Automated graphical user interface control methods and systems using voice commands
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11538483B2 (en) * 2020-03-25 2022-12-27 Vmware, Inc. Task redirection by a voice assistant
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11930420B1 (en) 2020-09-15 2024-03-12 Apple Inc. Handheld electronic devices with contextual input-output capabilities
US11947783B2 (en) * 2021-01-25 2024-04-02 Google Llc Undoing application operation(s) via user interaction(s) with an automated assistant
US11921992B2 (en) 2021-05-14 2024-03-05 Apple Inc. User interfaces related to time
US11784956B2 (en) 2021-09-20 2023-10-10 Apple Inc. Requests to add assets to an asset account

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7624351B2 (en) 2001-10-02 2009-11-24 Verizon Corporate Services Group Inc. Methods and apparatus for controlling a plurality of applications
US20040015481A1 (en) * 2002-05-23 2004-01-22 Kenneth Zinda Patent data mining
EP1602217A1 (de) 2003-03-11 2005-12-07 Siemens Aktiengesellschaft Verfahren, server und mobiles endgerät zur kontrole von interaktionen zwischen einer server-anwendung und einem mobilen endgerät durch erzeugung eines virtuellen assistenten
US7899673B2 (en) 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US8538757B2 (en) 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US7979447B2 (en) * 2008-01-18 2011-07-12 Sony Corporation Method and apparatus for use in providing information to accessing content
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20130219333A1 (en) 2009-06-12 2013-08-22 Adobe Systems Incorporated Extensible Framework for Facilitating Interaction with Devices
US8386929B2 (en) 2010-06-22 2013-02-26 Microsoft Corporation Personal assistant for task utilization
US8622839B1 (en) 2010-12-09 2014-01-07 Amazon Technologies, Inc. Enhancing user experience by presenting past application usage
KR101980173B1 (ko) 2012-03-16 2019-05-20 삼성전자주식회사 서드 파티 테스크 공급자들의 서비스 제공을 대행하는 협력적 퍼스널 어시스턴트 시스템 및 그에 따른 방법
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9781262B2 (en) * 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
EP2699031B1 (en) 2012-08-13 2016-05-04 BlackBerry Limited Targeted content streaming banners
US20140114901A1 (en) 2012-10-19 2014-04-24 Cbs Interactive Inc. System and method for recommending application resources
US9171092B2 (en) 2012-12-07 2015-10-27 Empire Technology Development Llc Personal assistant context building
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US20140201681A1 (en) 2013-01-16 2014-07-17 Lookout, Inc. Method and system for managing and displaying activity icons on a mobile device
US20140218372A1 (en) 2013-02-05 2014-08-07 Apple Inc. Intelligent digital assistant in a desktop environment
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
WO2014197335A1 (en) * 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR102261552B1 (ko) * 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US9418663B2 (en) * 2014-07-31 2016-08-16 Google Inc. Conversational agent with a particular spoken style of speech
KR101594835B1 (ko) * 2014-11-05 2016-02-17 현대자동차주식회사 음성인식 기능을 갖는 차량 및 헤드유닛과 이를 위한 음성 인식방법

Also Published As

Publication number Publication date
US20160189717A1 (en) 2016-06-30
CN107112015A (zh) 2017-08-29
WO2016109122A2 (en) 2016-07-07
US9837081B2 (en) 2017-12-05
EP3241213B1 (en) 2019-07-24
EP3671731B1 (en) 2024-03-06
WO2016109122A3 (en) 2016-08-25
EP3241213A2 (en) 2017-11-08
EP3671731A1 (en) 2020-06-24
US20180005634A1 (en) 2018-01-04

Similar Documents

Publication Publication Date Title
CN107112015B (zh) 发现第三方启用语音的资源的能力
CA2970725C (en) Headless task completion within digital personal assistants
AU2016211903B2 (en) Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
US9811313B2 (en) Voice-triggered macros
EP3281103B1 (en) System and method for extracting and sharing application-related user data
US10048748B2 (en) Audio-visual interaction with user devices
US20140250143A1 (en) Digital ink based contextual search
US9639526B2 (en) Mobile language translation of web content
US20140282460A1 (en) Enterprise device unenrollment
US20190369825A1 (en) Electronic device and method for providing information related to image to application through input unit
US20140351232A1 (en) Accessing enterprise data using a natural language-based search
EP3669272A1 (en) File exchange by maintaining copy of file system data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant