CN107004411B - 话音应用架构 - Google Patents

话音应用架构 Download PDF

Info

Publication number
CN107004411B
CN107004411B CN201580042259.5A CN201580042259A CN107004411B CN 107004411 B CN107004411 B CN 107004411B CN 201580042259 A CN201580042259 A CN 201580042259A CN 107004411 B CN107004411 B CN 107004411B
Authority
CN
China
Prior art keywords
intent
user
application
interface device
voice interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580042259.5A
Other languages
English (en)
Other versions
CN107004411A (zh
Inventor
维卡斯·简恩
罗翰·穆塔基
皮特·保罗·亨利·卡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN107004411A publication Critical patent/CN107004411A/zh
Application granted granted Critical
Publication of CN107004411B publication Critical patent/CN107004411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种基于话音的系统可包括本地语音接口装置和远程控制服务。用户可使用语音来与所述系统交互以获得服务并执行功能。所述系统可允许用户安装应用以提供增强或定制的功能性。此类应用可被安装在所述语音接口装置或所述控制服务上。所述控制服务接收用户语音并基于所述语音来确定用户意图。如果安装在所述控制服务上的应用可对所述意图做出响应,那么调用所述应用。否则,将所述意图提供到所述语音接口装置,所述语音接口装置通过调用其应用中的一个以对所述意图做出响应来做出响应。

Description

话音应用架构
相关申请案的交叉引用
本申请案主张2014年8月11日提交的第14/456,620号美国专利申请案的优先权。所述申请案的全部内容特此通过引用并入本文中。
背景技术
家中和其它用户处所越来越多地配备有永远在线因特网或“云”连接。在许多情况下,甚至移动用户具有恒定的或几乎恒定的数据连接。网络通信的公共可用性,结合计算装置的增加的能力,已产生使用各种用户可访问的连接装置的服务和其它功能性的多种新可能性。基于语言和基于语音的系统是可被用于在用户与自动化系统交互时向用户提供便利的技术的实例。
附图说明
参考附图描述具体实施方式。在图式中,参考数字的最左位识别该参考数字首先出现的图。在不同的图式中使用相同的参考数字指示相似或相同的部件或特征。
图1是说明具有控制服务和语音接口装置的基于语音的系统的框图。
图2是说明应用在控制服务和语音接口装置上的使用和安装的框图。
图3和图4是说明在基于语音选择应用时所使用的功能部件的框图。
图5是说明在所描述的实施方案中可通过控制服务来执行的动作的实例的流程图。
图6是说明在所描述的实施方案中可通过语音接口装置来执行的动作的实例的流程图。
具体实施方式
本公开描述执行与用户的自然语言和/或基于语音的交互的装置、系统以及服务。在所描述的实施方案中,系统收听用户的语音或与用户交互,以基于对用户的语音的自然语言理解来确定用户意图。例如,用户可说出某一表达,所述表达被理解为播放歌曲或订电影票的意图。在某些实施方案中,系统可与用户进行自然语言对话以确定或弄清用户意图。在确定用户的意图后,系统通过执行动作或提供服务以履行所述意图来作用于所述意图,诸如通过播放歌曲或另外与用户交互以订电影票。
系统可包含位于用户的家中的语音接口装置和基于支持云的控制服务。语音接口装置经配置以捕获用户话语并将其提供到控制服务。控制服务对话语执行语音识别和自然语言理解以确定话语所表达的意图。响应于所识别的意图,控制服务使得执行对应的动作。动作可在控制服务处执行,或通过指示语音接口执行某一功能来执行。
系统的内置能力可通过由用户选定或购买的售后应用来扩展。此类应用可经设计用于在控制服务或语音接口装置上安装和执行。在基于所接收的用户语音来确定用户意图后,控制服务识别所述应用中的适合于对意图做出响应的一个应用。如果此应用已在控制服务上安装并启用,那么控制服务调用所述应用。否则,如果合适的应用安装在语音接口装置上,那么控制服务将用户意图的指示传递到语音接口装置。在接收到意图的指示后,语音接口装置调用对应的应用以对用户意图做出响应。
图1示出基于话音的平台或系统100的实例,所述基于话音的平台或系统诸如可用于实施这些技术。系统100可包含或可利用能够捕获并播放音频的语音接口装置102。语音接口装置102可以是环境104(诸如家中或其它处所)本地的和/或位于所述环境内以为用户106提供服务。语音接口装置可在本文中替代地被称为语音接口、被称为接口装置或被简称为装置。在不同的实施方案中,语音接口装置的功能可通过不同类型的装置来执行,所述不同类型的装置包含移动装置,诸如智能手机、平板计算机、媒体播放器、个人计算机等。
语音接口装置102可结合远程的基于网络或网络可访问的控制服务108和/或在所述服务的控制下操作,所述服务也被称为语音服务或基于语音的服务,且经配置以从语音接口装置102接收音频,识别所接收的音频中的语音,且响应于所识别的语音而执行或启动功能或服务。此类功能或服务可通过控制服务108独立于语音接口装置102来实施,和/或可通过将命令提供到语音接口装置102以用于通过语音接口装置102在本地执行来实施。例如,控制服务108可指示语音接口装置102播放音乐、语音或通过控制服务108指定的其它音频内容。另外,功能或服务可通过被用户启用和/或安装以用于在语音接口装置102或控制服务108上执行的应用来实施。
语音接口装置102可具有一个或多个麦克风110以及一个或多个音频扬声器或换能器112以促进与用户106的语音交互。语音接口装置102可具有网络通信接口114,用于经由通信网络116与控制服务108通信。通信网络116可包括公用广域网,诸如因特网,或可包括延伸超出用户106的本地处所的各种其它类型的公用和专用网络中的任何网络。另外,通信接口114可在本地经由用户处所内的局域网来通信。
语音接口装置102可包含操作或控制逻辑,其可包括处理器118和存储器120。处理器118可包含多个处理器和/或具有多个内核的处理器。处理器118还可包括或包含用于处理音频信号的数字信号处理器。
控制逻辑可包含可含有存储在存储器120中的应用、程序以及其它软件。软件可包括计算机可执行的指令,所述指令被处理器118执行以执行实施语音接口装置102的所需功能性的行动或动作,所述所需功能性包含本文中描述的功能性。存储器120可为一种非暂时性计算机可读存储介质,且可包含易失性和非易失性存储器。因此,存储器120可包含但不限于,RAM、ROM、EEPROM、闪存存储器、磁性介质、光学介质或其它存储器技术。存储器120还可包含通常用于传递或分配软件的介质,诸如CD-ROM、DVD、闪存驱动、记忆棒等。
软件可包含系统或操作软件122,其预安装在语音接口装置102上并与之集成。操作软件122可包括操作系统,其提供语音接口装置102的基础功能性,包含驱动器、音频处理功能、控制服务108的接口等等。操作软件122可包含用于执行各种“内置”功能和动作的预安装程序或应用。操作软件122还可包含动作处理器或接口,其响应于从控制服务108接收到的指令而执行动作。
存储器可120还可包含用户安装的应用124,在本文中也被称为装置应用,其可包括在装置102的购买和安装后已被用户106安装在存储器120且被激活以用于由处理器118执行的应用。各种售后应用可供用户用于本地安装和执行。在一些实施方案中,控制服务108可提供功能性以用于允许用户识别并安装已由各种开发者和供应商提供用于在语音接口装置102上执行的应用。例如,用户可陈述“找到用于打出租车的应用”。控制服务108可通过建议提供此类应用以用于安装在语音接口装置102上来做出响应。用户可接受此建议,由此应用可被提供到语音接口装置102并安装在所述语音接口装置上。
在一些情况下,控制服务108可为网络可访问的计算平台中的经由网络116维持并可访问的部分。诸如此平台等网络可访问的计算平台可使用术语诸如“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问的平台”、“云服务”、“数据中心”等等来称呼。控制服务108可经配置以将服务提供到在不同用户的家中或处所中的大量语音接口装置102。
语音接口装置102和/或控制服务108可经由有线技术(例如,导线、通用串行总线(USB)、光纤电缆等)、无线技术(例如,射频(RF)、蜂窝、移动电话网络、卫星、蓝牙等)或其它连接技术来通信地耦合到网络116。网络116表示任何类型的通信网络,包含数据和/或话音网络,且可使用有线基础设施(例如,同轴电缆、光纤电缆等)、无线基础设施(例如,RF、蜂窝、微波、卫星、
Figure BDA0001220766730000051
等)和/或其它连接技术来实施。
控制服务108经配置以从语音接口装置102接收音频流,识别音频流中的语音,以及从所识别的语音确定用户意图。取决于所识别的意图的性质,控制服务108可通过执行动作或调用应用以执行动作来做出响应。
在一些情况下,控制服务108可确定意图并将对意图的描述返回到语音接口装置102,使得语音接口装置102可响应于意图而执行动作。在从控制服务108接收到所识别的意图后,语音接口装置可调用用户安装的应用124中的一个来执行动作以履行意图。
在其它情况下,控制服务可将指令或命令返回到语音接口装置102,且语音接口装置102的命令处理器可执行所述指令或命令以在环境104内执行动作。
控制服务108包含操作或控制逻辑,其可包括一个或多个服务器、计算机和/或处理器126。控制逻辑包含存储器128,其包含应用、程序和/或呈指令的形式的其它软件,所述指令被处理器126执行以执行实施控制服务108的所需功能性的行动或动作,所述所需功能性包含本文中描述的功能性。存储器128可为一种非暂时性计算机可读存储介质,且可包含易失性和非易失性存储器。因此,存储器128可包含但不限于,RAM、ROM、EEPROM、闪存存储器、磁性介质、光学介质或其它存储器技术。存储器128还可包含通常用于传递或分配软件的介质,诸如CD-ROM、DVD、闪存驱动、记忆棒等。
在未具体示出的其它逻辑和物理部件中,控制服务108的软件可包含语音处理部件130,也被称为语音服务130。语音服务130可包含自动语音识别(ASR)功能性,其在由语音接口装置102提供的来自麦克风110的音频信号中识别人类语音。语音服务130还可包含自然语言理解(NLU)功能性,其基于通过语音识别部件识别的用户语音来确定用户意图。语音服务130还可包含语音生成功能性,其合成或以其它方式产生语音音频。例如,语音生成功能性可包括文本到语音部件,其产生语音以在语音接口装置102的扬声器112上播放。
控制服务108还可提供对话管理部件132,其经配置以结合语音服务130来协调与用户106的语音对话或交互。可使用语音对话以通过使用语音提示向用户询问信息来确定或弄清用户意图。
控制服务108还可包括命令解释器与动作调度器134(下文简称为命令解释器134),其确定对应于通过用户语音表达的意图的功能或命令。在一些情况下,命令可对应于将至少部分通过语音接口装置102执行的功能,且在那些情况下,命令解释器134可将装置命令或指令提供到语音接口装置102以用于实施此类功能。命令解释器134实施结合语音接口装置102来使用的基础“内置”能力。此类基础能力可默认地被实施和启用用于所有语音接口装置102的用户。基础能力的实例可包括设定警告或通知,增加/降低扬声器112的音量,通过扬声器112生成可听语音,启动与类似装置的用户的某些类型的通信等等。
控制服务108还可具有一个或多个用户安装的应用136或还可经配置以使用一个或多个用户安装的应用,所述应用还可被描述为售后应用、第三方应用、可选应用、启用应用、服务器应用等等。诸如此应用等的应用可为可选的,且可由用户106从可用可安装应用的库或其它集合获得。在一些情况下,用户可购买应用以用于与系统100结合使用。一般地,服务器应用可由用户以与装置应用124相同的方式选定、获得并安装。
除由命令解释器134提供的基础功能性外,用户安装的应用136还提供补充的和/或另外的功能性和能力。响应于启用或授权的用户安装的应用136应用能够服务的所识别的用户意图,可自动地调用所述应用。
在某些情况下,用户安装的服务器应用136可由控制服务108提供并托管。替代地,某些服务器应用136可由第三方或第三方服务提供和/或托管,且可使用基于网络的接口来与控制服务108通信。
控制服务108还可具有应用选择部件138,其在本文中也被称为意图路由器138,其基于所识别的通过用户语音表达的意图来选择并调用应用。例如,服务器应用136中的每一个可与应用能够对其做出响应的一个或多个意图相关联。响应于所识别的不可由命令解释器134服务的用户意图,应用选择器138可选择并调用控制服务108的服务器应用136中的一个。在一些情况下,应用选择器138还可从语音接口装置的经安装的装置应用124中进行选择。
响应于从所接收的音频识别的语音,控制服务108还可执行涉及图1中未示出的实体或装置的功能。例如,控制服务108可与其它基于网络的服务交互以代表用户106获得信息或服务。
图2说明在某些实施方案中可如何获得并使用可安装的基于语音的应用的实例。如上文所描述,语音接口装置102可具有多个用户安装的装置应用124,且控制服务108也可具有多个用户安装的服务器应用136。经安装的应用124和136可响应于用户请求而从可用可安装应用202的集合获得并安装。可用应用202可包括可选的并补充由系统100提供的功能性或添加另外的功能性的应用。可用应用202可由控制服务108的操作人员提供,或可由第三方实体设计并提供。
某些可用应用202可由网络服务器或服务来托管并从网络服务器或服务执行,且可通过适当的网络应用编程接口(API)来访问。其它可用应用202可经设计用于在控制服务108的服务器或处理器上执行。经安装的服务器应用136可包含通过控制服务108执行的那些应用,以及在控制服务108的监督下通过第三方服务托管的那些应用。再其它可用应用202可经设计用于安装在语音接口装置102上并通过所述语音接口装置执行。经安装的装置应用124包含诸如此应用的应用。
如上文参考图1所提及,控制服务108可具有自动语音识别(ASR)部件204和自然语言理解(NLU)部件206。对话管理部件132经配置以基于如通过语音识别部件204所识别和/或通过自然语言理解部件206所理解的语音来协调与用户106的对话或交互。控制服务108还可具有文本到语音部件208,其响应于对话管理部件132以生成语音以用于在语音接口装置102上对用户106重放。
上文描述的部件可基于不同类型的模型或规则来起作用。例如,ASR部件204可使其功能性基于ASR模型210,所述ASR模型可包含借助于各种训练技术产生的声学模型。类似地,NLU部件206可利用NLU模型212,所述NLU模型指定语法、词汇、短语、响应等等,且还可通过训练产生。对话管理部件132可利用对话模型214,其指定用于与用户进行对话的逻辑。对话包括用户106的自然语言语句或话语与系统生成的语音或文本响应的交替序列。对话模型214体现用于进行以下操作的逻辑:基于所接收的用户语句来产生响应,以便提示用户106关于意图的更详细信息或从用户106获得其它信息。
响应于通过NLU部件206识别的用户意图,应用选择部件或意图路由器138识别、选择和/或调用经安装的装置应用124和/或经安装的服务器应用136。响应于所确定的用户意图,意图路由器138尝试识别经安装的应用124和136中的能够服务于用户意图的一个应用。如果找到此类应用,那么调用(called)或调用(invoked)此应用以满足用户意图或与用户进行另外的对话以另外细化用户意图。
经安装的应用124和136中的每一个可具有或提供意图规范,其界定所述应用可服务的意图。通过意图规范指示的意图可在本文中被称为应用意图或称为应用的可服务意图。经安装的应用的意图规范界定可通过所述应用服务的一般意图或意图类型。控制服务108使用经安装的应用的意图规范来检测对应于应用124和136的用户话语、表达或意图。
应用意图规范可包含NLU模型,以供自然语言理解部件206结合NLU模型212使用。在一些情况下,NLU模型212可包含或并入有通过经安装的应用124和136指定的NLU模型。
经安装的应用124和136还可具有或指定产生并协调与用户106的语音交互的对话模型。所述对话模型可通过对话管理部件132结合对话模型214来使用以产生并协调与用户106的对话,并在经安装的应用124和136的操作之前或期间确定用户意图。在一些情况下,对话模型214可包含或并入有通过经安装的应用124和136指定的对话模型。
控制服务108可具有或显露应用编程接口,且某些应用124和136可通过API及控制服务108来注册。特定应用的注册可指示或提供对应的意图规范以供控制服务108使用。应用开发者可通过API提供其应用的注册,使得应用124和136可结合控制服务108来使用。
在一些实施方案中,NLU部件206和对话管理部件132可经配置以使用应用124和136的意图规范来进行对话,以识别用户所表达的意图,且以识别对应于用户所表达的意图或能够服务于所述意图的经安装的应用。
应用的意图规范可在应用的操作之前或期间使用。在一些情况下,例如,在启动或调用应用之前,当确定一般用户意图时,对话管理部件132可利用意图规范。更具体地说,NLU部件206和对话管理部件132可使用应用的意图规范,结合NLU模型212和对话模型214来确定用户何时表达可由所述应用服务的意图。随后,NLU部件206和对话管理部件132可使用意图规范来与用户106进行另外的对话,以便另外细化用户意图。替代地,应用本身可利用控制服务108的能力来与用户106进行另外对话,以细化用户意图,以便提供相关联的功能性。
作为实例,响应于用户话语,控制服务108可参考多个应用的意图规范,包含装置应用124和服务器应用136的意图规范,以将已被注册的“购票”意图识别为应用中的一个的可服务意图。服务108随后可调用对应的应用。在被调用后,所述应用可接收所确定的意图的指示,且可进行或协调与用户106的另外对话,以便得出另外的意图细节。在确定关于用户意图的足够细节后,应用可执行其经设计的功能性以履行意图。
当与用户106进行对话时,经安装的应用可利用控制服务108的语音相关的能力,例如ASR部件204、NLU部件206、对话管理部件132以及文本到语音部件208的那些能力。
作为另一实例,用户可陈述不可由当前可用于用户的任何应用服务的意图。例如,用户可陈述“我想打出租车”。尽管用户当前已安装或激活的应用都不能服务于此意图,但控制服务108可搜索可用应用202的列表或市场,以识别已指定匹配的或对应的可服务意图的应用。在一些情况下,控制服务108随后可自动地安装或启用所识别的应用。在其它情况下,控制服务108可提示用户购买或激活应用,且随后启动或调用应用。当安装应用202中的一个时,应用可安装在语音接口装置102上或安装在控制服务108上。
当应用已被调用或启动时,可在已启动的应用的控制下执行与用户的另外语音交互,所述已启动的应用可根据应用的活动领域,使用特定于所述应用及其领域的NLU模型来解释用户语句。例如,应用可根据所述应用经设计以执行的功能来与用户进行对话。在检测到与应用的活动领域不相符的用户语句或意图后,应用可自终止且控制可返回到控制服务108。在一些情况下,控制服务108可在经安装的应用的执行期间继续监视用户语句,且可在检测到用户的与应用的活动领域不相符的表达或意图后预先制止应用。
图3说明可在系统100中通过语音接口装置102和控制服务108实施的逻辑部件和功能性。图3说明的配置允许可安装应用位于语音接口装置102或控制服务108处且从所述语音接口装置或控制服务执行。应注意,尽管某些功能性说明为通过离散的部件实施,但此类功能性可通过在语音接口装置102和控制服务108中的任一个或每一个内的硬件和/或软件的不同组合来实施。
语音接口装置102具有音频捕获功能或部件302,其使用麦克风110从环境104捕获音频。音频捕获部件302产生音频信号304并将音频信号304提供到控制服务108。音频信号304可能地包含用户话语,包含用户106的语音。
ASR部件204接收音频信号304并执行语音识别以产生含有用户106说出的自然语言的文本串306。文本串306被提供到NLU部件206,所述NLU部件使用自然语言理解技术来确定文本串306的文字所表达的意图308。
控制服务108可具有如上文所描述的多个经安装的服务器应用136,其已被用户选定并启用以用于在控制服务108的一个或多个服务器计算机上执行。语音接口装置102还可具有多个经安装的装置应用124,其已被用户选定并启用以用于在语音接口装置102上执行。经安装的应用124和136可执行不同的功能或提供涉及不同的活动或内容领域的不同服务。例如,一个应用可涉及音乐领域,且可具有用于查找并播放音乐的功能性。另一应用可对应于通知领域且可具有用于设定并发出告警或警告的功能性。应用可以是语音启用的,意味着所述应用经配置以通过语音与用户交互以提供所需功能性。应用中的每一个可对应于所述应用能够满足或服务的一个或多个可服务意图。
控制服务108可经配置以跟踪哪些服务器应用136已被安装或启用以用于多个语音接口装置102中的每一个。控制服务108还可经配置以跟踪哪些装置应用124已在多个语音接口装置102中的每一个上被安装和启用。另外,控制服务108可经配置以跟踪每一经安装或启用的应用能够对其做出响应或另外处理的意图。
在识别出意图308后,应用选择器或意图路由器138识别并选择装置应用124中的一个或服务器应用136中的一个。意图路由器138将所识别的意图308的指示或描述提供到选定应用,并调用选定应用或造成选定应用的调用。选定应用的调用可以编程方式实现,和/或通过对所述应用或对语音接口装置102的适当API调用来实现。
当选定应用124或136中的一个时,选定应用通过执行对应的动作来对所提供的意图做出响应。当选定服务器应用136中的一个时,可完全通过应用136来执行动作,或应用136可将命令310发送到语音接口装置102的动作处理器312以使得语音接口装置102执行所述动作或所述动作的一部分。例如,应用136可针对语音接口装置102发送命令以播放某一音调,以增加扬声器音量,以播放语音或以执行某一其它动作。
当选定装置应用124中的一个时,意图路由器可将命令发送到语音接口装置102,所述命令指定将被调用的应用和所述应用将对其做出响应的意图。在一些情况下,应用可通过应用标识符(App ID)指定。作为响应,语音接口装置102的操作软件122可以编程方式调用经指定的装置应用124。选定装置应用可通过使用经集成的语音接口装置102的能力和/或由控制服务108提供的能力来对指定意图做出响应。例如,经选定并调用的装置应用124可利用控制服务108的语音服务,包含ASR和NLU服务,以便与用户106进行交互和对话。选定装置应用124还可使用其它在线服务或结合其它在线服务来作用,所述在线服务诸如音乐服务、新闻服务、在线商家、各种类型的服务提供商等等。
图4说明可在系统100中通过语音接口装置102和控制服务108实施的部件和功能性的替代配置。图4说明的配置类似于图3所说明的配置,除添加应用选择部件或意图路由器402以作为语音接口装置102的部分外。在此实例中,控制服务108的意图路由器138响应于意图而不选择装置应用124中的一个。相反,意图308的指示被传递到语音接口装置102的意图路由器402,且所述意图路由器402基于意图的性质来选择适当的应用。
在此实例中,控制服务108的意图路由器138可首先尝试识别并调用服务器应用136中的适合于对所确定的意图308做出响应的一个服务器应用。如果不能找到此类应用,那么将意图308传递到语音接口装置的意图路由器402,所述意图路由器尝试识别并调用装置应用124中的能够服务于所识别的意图的一个装置应用。在一些实施方案中,控制服务108的意图路由器138可经配置以跟踪哪些装置应用124安装在语音接口102上,且可仅当装置应用124中的一个能够对意图做出响应时,才将意图308传递到语音接口装置102。
应注意,尽管已在基于语音的上下文中描述某些技术,但可以不同于语音的方式(诸如以文本方式)提供或进行用户输入和对话。例如,用户可通过使用键盘键入自然语言语句来指定意图,且服务可通过显示响应文本来做出响应。对话可使用此类双向文本交流来进行。另外,可在其它环境或配置中使用不同于本文中描述的架构的架构。例如,说明为通过语音接口装置执行的功能可通过计算装置来执行,诸如个人计算机、智能手机、平板计算机或任何其它类型的装置。
特定的可执行应用可经设计用于在语音接口装置102或控制服务108上安装并执行。在其中装置可能能够提供更多资源和/或更低时延的某些情况下,在语音接口装置102上执行应用可为所期望的。另外,安装在语音接口装置上的应用可能能够在网络不可用的时段期间继续提供某些功能,诸如本地控制功能。家庭自动化是可期望将应用安装在语音接口装置102上的实例环境。
在其中语音接口装置102对于大量使用语音服务的应用、对于主要利用网络资源的功能和/或在其它情况下具有有限的功能的情况下,在控制服务108上执行应用可为所期望的。
在一些情况下,应用可经设计以在语音接口装置102和控制服务108中的一个上执行,或可实施为适合于在各自的实体上执行的两个起类似作用的版本。在这些情况下,可要求用户指定应用是应被安装在语音接口装置102上还是应被安装在控制服务108上。替代地,系统100可评估其它因素且可确定安装应用的地方。在一些情况下,应用可安装在语音接口装置102和控制服务108两者上,且可取决于各种情况在不同位置上执行。此外,在一些情况下,不同的应用可安装在语音接口装置102和控制服务108中的每一个上以用于处理同一意图,且系统100可基于情形或其它因素来确定调用所述应用中的哪个。
图5说明在诸如上文所描述的系统等基于语音或基于语言的系统中选择并调用用户安装的应用的实例方法500。在所描述的实施方案中,系统包含本地语音接口装置,以及经配置以实施控制服务的一个或多个远程服务器计算机。用户安装的应用可包含服务器应用,其已被用户选定并启用以用于在一个或多个服务器计算机上执行以结合语音接口装置来操作。用户安装的应用还可包含装置应用,其已被用户选定并启用以用于在语音接口装置上执行。在一些情况下,启用应用可通过以下操作执行:将待安装的应用安装或引导在装置存储器、计算机服务器存储器或与装置或计算机服务器相关联或可由装置或计算机服务器访问的其它存储器中。术语“用户安装的”用于指示应用已被系统的用户明确地选定且被启用或安装以用于执行。图5的动作被描述为通过系统100的控制服务108执行,但方法500还可在其它环境中执行。
动作502包括接收指示或表达对应的用户意图的用户语音和/或用户话语。动作502可包括从语音接口装置102接收音频,所述音频可含有用户语音。语音接口装置102可将连续的音频流提供到控制服务108,或可提供含有个别的用户话语的音频段。
动作504包括对所接收的用户语音执行语音处理,以确定通过用户语音表达的意图。动作504可包含对所接收的用户语音执行自动语音识别(ASR)和自然语言理解(NLU),以确定通过用户语音或话语表达的意图。动作504还可包含执行与用户的双向语音对话,以提示用户另外的信息且由此弄清用户意图的元素或角色。
动作506包括识别和/或选择服务器应用136中的或装置应用124中的对应于通过用户话语表达的意图中的一个服务器应用或装置应用。应用可通过确定哪一个应用具有与用户的所表达意图匹配的相关联的可服务意图来选定。
另外的动作取决于所识别和/或选定的应用是装置应用124中的一个还是服务器应用136中的一个,如通过图5的判定框508指示。如果所识别的应用是装置应用124中的一个,那么控制服务108执行将意图的指示提供到语音接口装置102的动作510。语音接口装置102响应于所接收的意图的指示来调用装置应用124中的执行对应于意图的动作的一个装置应用。在一些情况下,控制服务108还可执行明确地指定将使用哪一个装置应用124来对用户意图做出响应(诸如具体地说通过应用标识符)的动作512。语音接口装置102通过调用指定的应用124来对此指定做出响应,所述应用转而通过执行对应于用户意图的动作来做出响应。在一些情况下,经调用的装置应用还可通过以下操作做出响应:向控制服务108或意图路由器138确认装置应用已响应于所提供的意图采取动作或装置应用能够对所提供的意图做出响应。
如果所识别的应用是服务器应用136中的一个,那么执行启动或调用所识别的服务器应用136的动作514,并执行将所确定的用户意图的指示提供到经调用的服务器应用136的动作516。经调用的应用136可通过执行对应于用户意图的动作来做出响应。在一些情况下,经调用的服务器应用还可通过以下操作做出响应:向控制服务108或意图路由器138确认服务器应用已响应于所提供的意图采取动作或服务器应用能够对所提供的意图做出响应。
应注意,在一些实施方案中,意图路由器138可经配置以响应于特定意图而调用装置应用124和服务器应用136两者,且以将意图的指示提供到两个应用。两个经调用的应用中的任一个或两个可提供指示响应于第一意图所述应用具有或将执行动作的响应。当意图路由器从应用中的一个接收响应时,可终止或取消其它应用,或指示应用取消任何另外的处理。例如,装置可提供响应于意图所述装置的应用中的一个将执行动作的响应,且意图路由器可做出响应以取消先前已被调用以处理意图的服务器应用。替代地,服务器应用可提供指示响应于意图所述服务器应用将执行动作的响应,且意图路由器可做出响应以指示装置取消装置应用。在一些情况下,此技术可用于减少响应时延。
方法500可迭代地执行以处理连续的用户话语和意图。例如,控制服务108可接收对应于第一和第二用户意图的连续的第一和第二用户话语。响应于第一用户意图,控制服务108可识别、选择服务器应用并使得调用服务器应用,且还可将第一用户意图的指示提供到服务器应用。响应于第二用户意图,控制服务108可识别、选择装置应用并使得调用装置应用,且可将第二用户意图的指示提供到装置和/或装置应用。替代地,响应于第二用户意图,控制服务108可简单地将第二用户意图的指示传递到语音接口装置,且语音接口装置本身可从其用户安装的装置应用选择并调用应用,以对第二用户意图做出响应。
在一些实施中,控制服务108可首先尝试确定服务器应用中的一个是否能够对特定用户意图做出响应。如果是,那么调用所述服务器应用以对用户意图做出响应。否则,将用户意图的指示提供到语音接口装置,且语音接口装置识别、选择并调用其装置应用中的一个以对用户意图做出响应。
图6示出可通过语音接口装置102结合图5的方法来执行的方法600。尽管方法600参考上文描述的系统来描述,但方法600还可在其它环境中并结合其它类型的装置来实施。
动作602包括捕获音频并将音频提供到控制服务108。音频可含有用户语音或话语。音频所含有的话语可表达或对应于可由先前已被选定和启用以用于通过语音接口装置102或控制服务108执行的应用服务的用户意图。
动作604包括响应于将用户语音提供到控制服务108,接收通过用户语音表达的意图的指示。在一些情况下,动作604还包括接收响应于用户意图将被调用的装置应用的指定。装置应用可依据应用标识符(ID)来指定。
动作606包括识别对应于通过动作604指示的用户意图的应用。在控制服务108已明确地指定应用或应用ID的情况下,此动作可包括简单地识别通过控制服务108指定的应用。在控制服务108尚未指定特定装置应用124的其它情况下,动作606可包括将所接收的意图与当前安装的装置应用能够对其做出响应的意图进行比较,并选择装置应用中的能够对通过控制服务108指示的意图做出响应的一个装置应用。
动作608包括启动或调用选定应用。动作610可包括将从控制服务108接收的意图提供到经调用的应用。通过经调用的应用执行的动作612包括执行对应于通过用户语音表达的意图的动作。在一些情况下,应用可与用户进行另外的对话,且可接收另外的语音以便确定应执行的一个或多个动作。
尽管已用特定于结构特征的语言描述主题,但应理解在所附权利要求中界定的主题未必限于所描述的特定特征。相反,公开特定特征以作为实施权利要求的说明性形式。
条款
1.一种系统,其包括:
一个或多个服务器计算机;
一个或多个服务器应用,其已被用户选定并启用以用于在所述一个或多个服务器计算机上执行,其中所述一个或多个经选定并启用的服务器应用结合位于所述用户的处所中的语音接口装置来操作,以为所述用户提供服务;
语音处理部件,其经配置以从所述语音接口装置接收第一和第二话语,其中所述第一和第二话语分别表达第一和第二用户意图,所述语音处理部件另外经配置以对所述第一和第二话语执行自动语音识别和自然语言理解以确定所述第一和第二用户意图;
意图路由器,其经配置以执行包括以下各项的行动:
识别所述一个或多个服务器应用中的对应于所述第一用户意图的服务器应用;
调用所述所识别的服务器应用以执行对应于所述第一用户意图的第一动作;以及
将所述第二用户意图的指示提供到所述语音接口装置,其中所述语音接口装置响应于所述第二用户意图以执行对应于所述第二用户意图的第二动作。
2.根据条款1所述的系统,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
所述语音接口装置经配置以(a)识别所述一个或多个装置应用中的对应于所述第二用户意图的装置应用,以及(b)调用所述所识别的装置应用以执行所述第二动作。
3.根据条款1所述的系统,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)识别所述一个或多个装置应用中的对应于所述第二用户意图的装置应用,以及(b)使得所述所识别的装置应用被调用以执行所述第二动作。
4.根据条款1所述的系统,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)确定所述一个或多个装置应用中的至少一个对应于所述第二用户意图,以及(b)将所述第二用户意图的所述指示提供到所述语音接口装置。
5.根据条款1所述的系统,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
响应于一个或多个用户请求,所述一个或多个服务器应用和所述一个或多个装置应用从可用应用的集合获得。
6.一种方法,其包括:
从语音接口装置接收第一用户语音,其中所述第一用户语音指示第一意图;
对所述第一用户语音执行自然语言理解以确定所述第一意图;
使得第一应用对所述第一意图做出响应;
从所述语音接口装置接收第二用户语音,其中所述第二用户语音指示第二意图;
对所述第二用户语音执行自然语言理解以确定所述第二意图;以及
将所述第二意图的指示提供到所述语音接口装置。
7.根据条款6所述的方法,其中所述第一应用已被用户选定并启用以用于在一个或多个服务器计算机上执行。
8.根据条款6所述的方法,其中所述语音接口装置响应于所述第二意图的所述指示以执行对应于所述第二意图的动作。
9.根据条款6所述的方法,其中所述语音接口装置响应于所述第二意图的所述指示以:
识别对应于所述第二意图的第二应用,其中所述第二应用已被用户选定并启用以用于在语音接口装置上执行;以及
调用所述第二应用以执行对应于所述第二意图的动作。
10.根据条款6所述的方法,其另外包括:
识别对应于所述第二意图的第二应用,其中所述第二应用已被用户选定并启用以用于在语音接口装置上执行;以及
使得所述第二应用对所述第二意图做出响应。
11.根据条款6所述的方法,其另外包括与用户进行自然语言对话以接收所述第一和第二用户语音。
12.根据条款6所述的方法,其中响应于确定第二应用在所述语音接口装置上可用以用于对所述第二意图做出响应,执行将所述第二意图的所述指示提供到所述语音接口装置。
13.根据条款6所述的方法,其中所述第一应用已被用户选定并启用以用于在一个或多个服务器计算机上执行,并且其中响应于确定所述用户尚未选定并启用用于对所述第二意图做出响应的应用以用于在所述一个或多个服务器计算机上执行,执行将所述第二意图的所述指示提供到所述语音接口装置。
14.一种方法,其包括:
确定装置的用户所表达的第一意图;
识别对应于所述第一意图的第一应用,其中所述第一应用已被用户选定并启用以用于在一个或多个服务器计算机上执行;
调用所述第一应用以对所述第一意图做出响应;
确定所述装置的所述用户所表达的第二意图;以及
将所述第二意图的指示提供到所述装置并使得所述装置调用第二应用以对所述第二意图做出响应,其中所述第二应用已被所述用户选定并启用以用于在所述装置上执行。
15.根据条款14所述的方法,其另外包括将所述第一意图的指示提供到所述装置以用于调用第三应用以对所述第一意图做出响应。
16.根据条款14所述的方法,其另外包括:
将所述第一意图的指示提供到所述装置以用于调用第三应用以对所述第一意图做出响应;
从所述装置接收确认:所述装置将响应于所述第一意图执行动作,或所述装置已响应于所述第一意图执行动作;以及
响应于接收到所述确认,指示所述第一应用取消对所述第一意图做出响应。
17.根据条款14所述的方法,其另外包括:
将所述第一意图的指示提供到所述装置以用于调用第三应用以对所述第一意图做出响应;
从所述第一应用接收确认:所述第一应用将响应于所述第一意图执行动作,或所述第一应用已响应于所述第一意图执行动作;以及
响应于接收到所述确认,指示所述第三应用取消对所述第一意图做出响应。
18.根据条款14所述的方法,其中所述装置包括位于所述用户的家中的语音接口。
19.根据条款14所述的方法,其另外包括通过所述装置与所述用户进行自然语言对话以确定所述第一和第二意图。
20.根据条款14所述的方法,其中所述第一应用经配置以通过将一个或多个指令发送到所述装置来对所述第一意图做出响应。
21.根据条款14所述的方法,其另外包括从多个应用识别已被所述用户选定并启用以用于在所述一个或多个服务器计算机上执行的所述第一应用。
22.根据条款14所述的方法,其另外包括从多个应用识别已被所述用户安装以用于在所述装置上执行的所述第二应用。
23.根据条款14所述的方法,其中所述装置响应于所述第二意图的所述指示,以从多个应用识别已被所述用户安装以用于在所述装置上执行的所述第二应用。
24.根据条款14所述的方法,其中响应于确定应用被安置在所述装置上以用于对所述第二意图做出响应,执行将所述第二意图的所述指示提供到装置。
25.根据条款14所述的方法,其中响应于确定所述用户尚未选定并启用用于对所述第二意图做出响应的服务器应用以用于在所述一个或多个服务器计算机上执行,执行将所述第二意图的所述指示提供到所述装置。

Claims (13)

1.一种用于基于语音的用户交互的系统,其包括:
一个或多个服务器计算机;
一个或多个服务器应用,其已被选定以用于在所述一个或多个服务器计算机上执行,其中所述一个或多个服务器应用结合位于用户的处所中的语音接口装置来操作,以为所述用户提供服务;
语音处理部件,其经配置以从所述语音接口装置接收表示用户语音的音频信号,其中所述用户语音表达用户意图,所述语音处理部件另外经配置以对所述音频信号执行自动语音识别以识别所述用户语音和对所述用户语音执行自然语言理解以确定用户意图;以及
意图路由器,其经配置以执行包括以下各项的行动:
识别所述一个或多个服务器应用中的对应于所述用户意图的第一服务器应用;
向所述第一服务器应用提供第一指示以调用对应于所述用户意图的动作;
将所述用户意图的第二指示提供到所述语音接口装置,其中所述语音接口装置响应于所述用户意图以执行对应于所述用户意图的所述动作;
在所述一个或多个服务器计算机处,从所述语音接口装置接收以下至少一个的确认:(i)所述语音接口装置将响应于所述用户意图执行所述动作,或者(ii)所述语音接口装置已经响应于所述用户意图执行了所述动作;以及
至少部分地基于接收所述确认,将第三指示提供到所述第一服务器应用以取消与所述用户意图的对应。
2.根据权利要求1所述的系统,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
所述语音接口装置经配置以(a)识别所述一个或多个装置应用中的对应于所述用户意图的装置应用,以及(b)调用所述装置应用以执行所述动作。
3.根据权利要求1所述的系统,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)识别所述一个或多个装置应用中的对应于所述用户意图的装置应用,以及(b)使得所述装置应用被调用以执行所述动作。
4.根据权利要求1所述的系统,其中:
所述用户意图是第一用户意图;
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)确定所述一个或多个装置应用中的至少一个对应于第二用户意图,以及(b)将所述第二用户意图的第四指示提供到所述语音接口装置。
5.根据权利要求1所述的系统,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
响应于一个或多个用户请求,所述一个或多个服务器应用和所述一个或多个装置应用从可用应用的集合获得。
6.一种用于执行基于语音的用户交互的方法,其包括:
在配置有可执行指令的一个或多个计算系统的控制下,
接收第一选择以在一个或多个服务器计算机上安装第一应用;
接收第二选择以在语音接口装置上安装第二应用;
从所述语音接口装置接收表示用户语音的音频信号,其中所述用户语音指示意图;
对所述用户语音执行自然语言理解以确定所述意图;
调用所述第一应用对所述意图做出响应;
调用所述第二应用对所述意图做出响应;
接收以下至少一个的确认:(i)所述第一应用将至少部分地基于所述意图执行动作,或者(ii)所述第一应用已经至少部分地基于所述意图执行了所述动作;以及
至少部分地基于所述接收所述确认,将第一指示提供到所述第二应用以取消与所述意图的对应。
7.根据权利要求6所述的方法,还包括将所述意图的第二指示提供到所述语音接口装置,其中所述语音接口装置响应于所述意图的所述第二指示以执行对应于所述意图的所述动作。
8.根据权利要求6所述的方法,还包括将所述意图的第二指示提供到所述语音接口装置,其中所述语音接口装置响应于所述意图的所述第二指示以:
识别对应于所述意图的所述第二应用,其中所述第二应用已被选定以用于在所述语音接口装置上执行;以及
调用所述第二应用以执行对应于所述意图的所述动作。
9.根据权利要求6所述的方法,其另外包括:
识别对应于所述意图的所述第二应用,其中所述第二应用已被选定以用于在所述语音接口装置上执行;以及
使得所述第二应用对所述意图做出响应。
10.根据权利要求6所述的方法,其另外包括与所述用户进行自然语言对话以接收所述用户语音。
11.根据权利要求6所述的方法,还包括确定所述第二应用在所述语音接口装置上可用以用于对所述意图做出响应;以及
将所述意图的第二指示提供到所述语音接口装置。
12.根据权利要求6所述的方法,其中所述音频信号是第一音频信号,其中所述用户语音是第一用户语音,以及其中所述意图是第一意图,所述方法还包括:
从所述语音接口装置接收表示第二用户语音的第二音频信号,其中所述第二用户语音指示第二意图;
对所述第二音频信号执行自然语言理解以确定所述第二意图;以及
将所述第二意图的第二指示提供到所述语音接口装置。
13.根据权利要求12所述的方法,还包括确定尚未选定用于对所述第二意图做出响应的应用以用于在所述一个或多个服务器计算机上执行。
CN201580042259.5A 2014-08-11 2015-07-20 话音应用架构 Active CN107004411B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/456,620 2014-08-11
US14/456,620 US9548066B2 (en) 2014-08-11 2014-08-11 Voice application architecture
PCT/US2015/041186 WO2016025128A1 (en) 2014-08-11 2015-07-20 Voice application architecture

Publications (2)

Publication Number Publication Date
CN107004411A CN107004411A (zh) 2017-08-01
CN107004411B true CN107004411B (zh) 2020-12-11

Family

ID=53765577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580042259.5A Active CN107004411B (zh) 2014-08-11 2015-07-20 话音应用架构

Country Status (5)

Country Link
US (1) US9548066B2 (zh)
EP (1) EP3180786B1 (zh)
JP (1) JP6480568B2 (zh)
CN (1) CN107004411B (zh)
WO (1) WO2016025128A1 (zh)

Families Citing this family (268)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9135269B2 (en) * 2011-12-07 2015-09-15 Egnyte, Inc. System and method of implementing an object storage infrastructure for cloud-based services
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10102195B2 (en) 2014-06-25 2018-10-16 Amazon Technologies, Inc. Attribute fill using text extraction
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10310808B2 (en) * 2014-09-08 2019-06-04 Google Llc Systems and methods for simultaneously receiving voice instructions on onboard and offboard devices
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9641919B1 (en) * 2014-09-30 2017-05-02 Amazon Technologies, Inc. Audio assemblies for electronic devices
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10417345B1 (en) * 2014-12-22 2019-09-17 Amazon Technologies, Inc. Providing customer service agents with customer-personalized result of spoken language intent
US9767091B2 (en) * 2015-01-23 2017-09-19 Microsoft Technology Licensing, Llc Methods for understanding incomplete natural language query
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10453461B1 (en) 2015-03-17 2019-10-22 Amazon Technologies, Inc. Remote execution of secondary-device drivers
US9472196B1 (en) * 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US9870196B2 (en) 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10655951B1 (en) 2015-06-25 2020-05-19 Amazon Technologies, Inc. Determining relative positions of user devices
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10365620B1 (en) 2015-06-30 2019-07-30 Amazon Technologies, Inc. Interoperability of secondary-device hubs
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10069940B2 (en) * 2015-09-10 2018-09-04 Microsoft Technology Licensing, Llc Deployment meta-data based applicability targetting
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10079024B1 (en) 2016-08-19 2018-09-18 Amazon Technologies, Inc. Detecting replay attacks in voice-based authentication
US10880284B1 (en) 2016-08-19 2020-12-29 Amazon Technologies, Inc. Repurposing limited functionality devices as authentication factors
KR20180022021A (ko) 2016-08-23 2018-03-06 삼성전자주식회사 음성 인식 방법 및 이를 수행하는 전자 장치
US10360300B2 (en) 2016-08-24 2019-07-23 Microsoft Technology Licensing, Llc Multi-turn cross-domain natural language understanding systems, building platforms, and methods
US10438264B1 (en) 2016-08-31 2019-10-08 Amazon Technologies, Inc. Artificial intelligence feature extraction service for products
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10331791B2 (en) * 2016-11-23 2019-06-25 Amazon Technologies, Inc. Service for developing dialog-driven applications
US10891152B2 (en) * 2016-11-23 2021-01-12 Amazon Technologies, Inc. Back-end task fulfillment for dialog-driven applications
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10359993B2 (en) 2017-01-20 2019-07-23 Essential Products, Inc. Contextual user interface based on environment
US10166465B2 (en) 2017-01-20 2019-01-01 Essential Products, Inc. Contextual user interface based on video game playback
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
US10936662B1 (en) 2017-05-02 2021-03-02 Amazon Technologies, Inc. Detection of automated agents through interaction element presentation
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN109102802B (zh) 2017-06-21 2023-10-17 三星电子株式会社 用于处理用户话语的系统
KR102445382B1 (ko) 2017-07-10 2022-09-20 삼성전자주식회사 음성 처리 방법 및 이를 지원하는 시스템
US10554657B1 (en) 2017-07-31 2020-02-04 Amazon Technologies, Inc. Using an audio interface device to authenticate another device
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
US10796687B2 (en) * 2017-09-06 2020-10-06 Amazon Technologies, Inc. Voice-activated selective memory for voice-capturing devices
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10854191B1 (en) * 2017-09-20 2020-12-01 Amazon Technologies, Inc. Machine learning models for data driven dialog management
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10957313B1 (en) 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10600419B1 (en) * 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) * 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11120796B2 (en) * 2017-10-03 2021-09-14 Google Llc Display mode dependent response generation with latency considerations
EP3622390B1 (en) * 2017-10-03 2023-12-06 Google LLC Multiple digital assistant coordination in vehicular environments
CN107704450B (zh) * 2017-10-13 2020-12-04 威盛电子股份有限公司 自然语言识别设备以及自然语言识别方法
US11360736B1 (en) * 2017-11-03 2022-06-14 Amazon Technologies, Inc. System command processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10713007B2 (en) 2017-12-12 2020-07-14 Amazon Technologies, Inc. Architecture for a hub configured to control a second device while a connection to a remote system is unavailable
US11062088B2 (en) * 2017-12-12 2021-07-13 International Business Machines Corporation Contextual automation of information technology change services
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
KR102596436B1 (ko) * 2018-02-20 2023-11-01 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
KR20190101630A (ko) 2018-02-23 2019-09-02 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10984784B2 (en) 2018-03-07 2021-04-20 Google Llc Facilitating end-to-end communications with automated assistants in multiple languages
US11354521B2 (en) * 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10685669B1 (en) * 2018-03-20 2020-06-16 Amazon Technologies, Inc. Device selection from audio data
US10984799B2 (en) * 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11869496B2 (en) 2018-05-25 2024-01-09 Sony Corporation Information processing device and information processing method, and information processing system
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
EP3753017B1 (en) 2018-06-05 2023-08-02 Samsung Electronics Co., Ltd. A voice assistant device and method thereof
CN112243526A (zh) * 2018-06-05 2021-01-19 三星电子株式会社 语音辅助设备及其方法
US11234094B2 (en) 2018-06-25 2022-01-25 Sony Corporation Information processing device, information processing method, and information processing system
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109036396A (zh) 2018-06-29 2018-12-18 百度在线网络技术(北京)有限公司 一种第三方应用的交互方法及系统
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
KR102376693B1 (ko) * 2018-12-03 2022-03-18 주식회사 케이티 인공지능 스피커와의 연동 서비스 제공 방법, 전자장치 및 시스템
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109903763B (zh) * 2019-01-11 2022-02-22 百度在线网络技术(北京)有限公司 服务控制方法、装置及设备
CN113366812B (zh) * 2019-01-15 2024-03-12 瑞典爱立信有限公司 使用i/o装置的集合提供通信服务
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
KR20200107058A (ko) * 2019-03-06 2020-09-16 삼성전자주식회사 복수 개의 엔드 포인트가 포함된 플랜들을 처리하는 방법 및 그 방법을 적용한 전자 장치
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10902220B2 (en) 2019-04-12 2021-01-26 The Toronto-Dominion Bank Systems and methods of generating responses associated with natural language input
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11705114B1 (en) 2019-08-08 2023-07-18 State Farm Mutual Automobile Insurance Company Systems and methods for parsing multiple intents in natural language speech
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
FR3103307B1 (fr) * 2019-11-18 2021-10-15 Sagemcom Broadband Sas Assistant vocal économe en ressource de calcul
KR20210061091A (ko) * 2019-11-19 2021-05-27 삼성전자주식회사 인텔리전트 어시스턴스 서비스를 제공하기 위한 전자 장치 및 그의 동작 방법
CN114600081A (zh) * 2019-11-27 2022-06-07 谷歌有限责任公司 经由动态更新自然语言处理与应用交互
US11574634B2 (en) 2019-11-27 2023-02-07 Google Llc Interfacing with applications via dynamically updating natural language processing
US11289075B1 (en) * 2019-12-13 2022-03-29 Amazon Technologies, Inc. Routing of natural language inputs to speech processing applications
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111128125A (zh) * 2019-12-30 2020-05-08 深圳市优必选科技股份有限公司 语音服务配置系统及其语音服务配置方法和装置
CN113127609A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 语音控制方法、装置、服务器、终端设备及存储介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11341339B1 (en) * 2020-05-14 2022-05-24 Amazon Technologies, Inc. Confidence calibration for natural-language understanding models that provides optimal interpretability
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11393456B1 (en) * 2020-06-26 2022-07-19 Amazon Technologies, Inc. Spoken language understanding system
KR20210091328A (ko) 2020-06-29 2021-07-21 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 애플릿의 음성 제어방법, 기기 및 저장매체
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11252149B1 (en) 2020-09-30 2022-02-15 Amazon Technologies, Inc. Resource management techniques for dialog-driven applications
US11817091B1 (en) 2020-09-30 2023-11-14 Amazon Technologies, Inc. Fault-tolerance techniques for dialog-driven applications
US11948019B1 (en) 2020-09-30 2024-04-02 Amazon Technologies, Inc. Customized configuration of multimodal interactions for dialog-driven applications
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
KR20220082577A (ko) * 2020-12-10 2022-06-17 삼성전자주식회사 전자장치 및 그의 제어방법
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN117334183A (zh) * 2022-06-24 2024-01-02 华为技术有限公司 语音交互的方法、电子设备和语音助手开发平台
DE102022002701A1 (de) 2022-07-26 2024-02-01 Mercedes-Benz Group AG Verfahren zum Betreiben eines Sprachassistenten und Fahrzeug mit einem Sprachassistenten

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720683B1 (en) 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
US7418392B1 (en) 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
WO2007061466A2 (en) * 2005-08-09 2007-05-31 Mobilevoicecontrol, Inc. A voice controlled wireless communication device system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) * 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8717915B2 (en) * 2010-05-25 2014-05-06 Microsoft Corporation Process-integrated tree view control for interactive voice response design
US20120223885A1 (en) 2011-03-02 2012-09-06 Microsoft Corporation Immersive display experience
US9858343B2 (en) * 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US8515766B1 (en) 2011-09-30 2013-08-20 Google Inc. Voice application finding and user invoking applications related to a single entity
US9292492B2 (en) 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
US10176167B2 (en) * 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs

Also Published As

Publication number Publication date
JP6480568B2 (ja) 2019-03-13
JP2017527844A (ja) 2017-09-21
EP3180786A1 (en) 2017-06-21
EP3180786B1 (en) 2018-05-02
WO2016025128A1 (en) 2016-02-18
US9548066B2 (en) 2017-01-17
US20160042748A1 (en) 2016-02-11
CN107004411A (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN107004411B (zh) 话音应用架构
EP3084633B1 (en) Attribute-based audio channel arbitration
US11468889B1 (en) Speech recognition services
US10540970B2 (en) Architectures and topologies for vehicle-based, voice-controlled devices
US20220013122A1 (en) Voice assistant tracking and activation
US10079017B1 (en) Speech-responsive portable speaker
JP5663031B2 (ja) 自然言語音声サービス環境におけるハイブリッド処理のシステム及び方法
US9672812B1 (en) Qualifying trigger expressions in speech-based systems
US9098467B1 (en) Accepting voice commands based on user identity
US20210241775A1 (en) Hybrid speech interface device
US11176934B1 (en) Language switching on a speech interface device
EP3047481A1 (en) Local and remote speech processing
KR20190075800A (ko) 지능형 개인 보조 인터페이스 시스템
US10249296B1 (en) Application discovery and selection in language-based systems
US11862153B1 (en) System for recognizing and responding to environmental noises
CN110858481A (zh) 用于处理用户语音话语的系统和用于操作该系统的方法
JP6619488B2 (ja) 人工知能機器における連続会話機能
US10629199B1 (en) Architectures and topologies for vehicle-based, voice-controlled devices
KR20220143683A (ko) 전자 개인 비서 조정
US10062386B1 (en) Signaling voice-controlled devices
KR102135182B1 (ko) 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
CN111724773A (zh) 应用开启方法、装置和计算机系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant