CN105556592A - 检测自我生成的唤醒声调 - Google Patents
检测自我生成的唤醒声调 Download PDFInfo
- Publication number
- CN105556592A CN105556592A CN201480037022.3A CN201480037022A CN105556592A CN 105556592 A CN105556592 A CN 105556592A CN 201480037022 A CN201480037022 A CN 201480037022A CN 105556592 A CN105556592 A CN 105556592A
- Authority
- CN
- China
- Prior art keywords
- tone
- predefine
- audio frequency
- audio
- sound signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
本发明公开了一种基于语音的音频装置,其可以被配置来检测用户发出的唤醒声调且通过将后续单词或词语解译为命令来作出响应。为了区分所述用户发出的所述唤醒声调与所述装置本身生成的所述唤醒声调,可以分析定向音频信号以检测所述唤醒声调是否接收自多个方向。如果所述唤醒声调接收自许多方向,那么宣布所述唤醒声调是由所述音频装置生成且被忽略。否则,如果所述唤醒声调接收自单一方向或有限数量的方向,那么宣布所述唤醒声调是由所述用户发出且后续单词或词语是由所述音频装置解译和作用。
Description
相关申请
本申请要求2013年6月27日提交的名为“检测自我生成的唤醒声调(DetectingSelf-GeneratedWakeExpressions)”的第13/929,540号美国专利申请的优先权,所述申请的全部内容以引用方式并入本文中。
背景技术
家庭、办公室、汽车和公共空间正越来越多地进行联网且与诸如笔记本计算机、平板计算机、娱乐系统和便携式通信装置的计算装置的增长密切相关。随着计算装置的演变,其中用户与这些装置交互的方式继续演变。例如,人们可通过机械装置(例如,键盘、鼠标等等)、电气装置(例如,触屏、触控板等等)和光学装置(例如,运动检测器、照相机等等)与计算装置交互。与计算装置交互的另一方式是通过采集并响应人类语音的音频装置进行。
附图说明
参考附图描述详述。在图中,元件符号的最左侧数字识别其中元件符号首次出现的图。相同元件符号在不同图中的使用指示类似或相似组件或特征。
图1是包括声控音频装置的说明性语音交互计算架构的方框图。
图2是诸如可能在图1的架构中使用的声控音频装置的视图。
图3和4是说明可以被实施来区分用户发出唤醒声调与装置产生的唤醒声调的功能的方框图。
图5是说明用于获取可以用于检测装置产生的唤醒声调的参考参数的示例性程序的流程图。
图6是说明用于区分用户发出的唤醒声调与装置产生的唤醒声调的示例性程序的流程图。
具体实施方式
本公开内容通常涉及一种提供与用户的基于语音的交互的语音接口装置或其它音频装置。音频装置具有在用户和采集用户语音的麦克风的环境内产生音频的扬声器。音频装置可以被配置来通过执行功能和提供服务响应于用户语音。用户命令可以开始于唤醒声调(又称作触发声调,诸如预定义单词、词语或其它声音)。响应于检测到唤醒声调,音频装置将任何紧邻单词或词语解译为可操作输入或命令。
在给用户提供服务时,音频装置本身可以在其扬声器处生成唤醒声调,这可以使音频装置的反应如同用户说出唤醒声调一样。为了避免此反应,音频装置可以被配置来评估从其中接收到唤醒声调的方向。通常,将全方位接收由音频装置生成的唤醒声调。另一方面,将从一个方向或有限数量的方向接收由用户生成的唤醒声调。因此,音频装置可以被配置来忽略全方位或从一个或两个以上方向接收的唤醒声调。注意,用户发出的唤醒声调有时候由于特定环境内的声波反射而可以表现为源自于一个以上方向。
更特定地说,音频装置可以被配置来对多个定向音频信号执行唤醒声调检测。音频装置还可被配置来比较包括唤醒声调的定向音频信号的数量或图案与参考数量或图案。参考可以指示定向输入信号的阈值数量或定向信号的图案或集合。当参考包括阈值时,如果包括唤醒声调的定向输入音频信号的数量超过阈值,那么唤醒声调被视为由音频装置生成。当参考包括图案或集合时,基于包括唤醒声调的特定定向输入音频信号是否匹配所述图案或集合来评估唤醒声调。
在一些实施方式中,音频装置可以被配置来获取或训练其自身关于音频特性的图案是装置生成的唤醒声调的特性。例如,音频装置可以被配置来在初始化之后生成唤醒声调或另一声音,且识别其中检测到声调或声音的定向音频信号的组合。随后,音频装置可以被配置来当在定向音频信号的获取组合中检测到唤醒声调时忽略所述唤醒声调。
当确定受检测唤醒声调是否由音频装置而非用户生成时还可以分析或考虑其它条件或参数。作为实例,这些条件或参数可以包括以下项:扬声器输出的存在和/或响度;扬声器输出是否被视为包括语音;回声特性输入信号和/或回声降低的有效性;包括定向音频信号的已接收音频信号的响度。
机器获取技术可以用于分析各种参数以确定当已自我生成唤醒声调时通常展现出的参数的图案。
图1示出了包括用户104的环境102(例如家庭环境)中设置的说明性语音交互计算架构100。架构100包括用户104可以与其交互的电子声控音频装置106。在已说明的实施方式中,音频装置106位于环境102的房间内的桌子上。在其它实施方式中,音频装置106可以被放置在任何数量的位置中(例如,天花板、墙壁、灯具中、桌子下面、椅子下面等等)。此外,一个以上音频装置106可以位于单一房间中,或一个音频装置106可以用于适应来自一个以上房间的用户交互。
通常,音频装置106可以具有麦克风阵列108和一个或一个以上音频扬声器或换能器110以促进与用户104和/或其它用户的音频交互。麦克风阵列108产生表示来自环境102的音频(诸如由用户104发出的声音和环境102内的环境噪音)的输入音频信号。输入音频信号还可以包括由扬声器110产生的输出音频分量。如下文将更详细地描述,由麦克风阵列108产生的输入音频信号可以包括定向音频信号或可以用于产生定向音频信号,其中定向音频信号中的每一个强调来自不同于麦克风阵列108的方向的音频。
音频装置106包括操作逻辑,在许多情况中其可以包括处理器112和存储器114。处理器112可以包括多个处理器和/或具有多个核心的处理器。存储器114可以包括呈指令形式的应用程序和程序,所述指令由处理器112执行以执行实施音频装置106的所需功能(包括下文具体描述的功能)的行动或动作。存储器114可以是一种类型的计算机存储介质,且可以包括易失性和非易失性存储器。因此,存储器114可以包括但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术。
音频装置106可以具有操作系统116,其被配置来管理音频装置106内且耦合到音频装置106的硬件和服务。此外,音频装置106可以包括音频处理组件118和语音处理组件120。
音频处理组件118可以包括用于处理由麦克风阵列108生成的输入音频信号和/或提供到扬声器110的输出音频信号的功能。作为实例,音频处理组件118可以包括用于减少由麦克风阵列108与扬声器110之间的声波耦合生成的声学回波的声学回声消除或抑制组件122。音频处理组件118还可以包括用于减少已接收音频信号中的噪音的降噪组件124,诸如音频信号而非用户语音的元件。
音频处理组件118可以包括一个或多个音频波束形成器或波束形成组件126,其被配置来生成集中在已从其中检测到用户语音的方向上的音频信号。更具体地说,波束形成组件126可以响应于麦克风阵列108的空间分离麦克风元件以产生强调源自于不同于音频装置106的方向的声音的定向音频信号,且选择并输出最有可能包括用户语音的音频信号之一。
语音处理组件120接收已由音频处理组件118处理的音频信号且执行各种类型的处理以了解由人类语音表达的意图。语音处理组件120可以包括自动语音识别组件128,其识别由已接收音频信号表示的音频中的人类语音。语音处理组件120还可以包括自然语言理解组件130,其被配置来基于用户104的已识别语音确定用户意图。
语音处理组件120还可以包括文字转语音或语音生成组件132,其将文字转换为语音以在扬声器110处生成。
音频装置106可以包括多个应用程序134,其被配置来结合音频装置106的其它元件工作以提供服务和功能。应用程序134可以包括媒体播放服务,诸如音乐播放器。作为实例,由应用程序134执行或提供的其它服务或操作可以包括请求和消费娱乐(例如,游戏、寻找并播放音乐、电影或其它内容等等)、个人管理(例如,日程安排、笔记等等)、在线购物、金融交易、数据库查询等等。在一些实施方案中,应用程序可以被预安装在音频装置106上,且可以实施音频装置106的核心功能。在其它实施方案中,应用程序134中的一个或多个可以由用户104安装,或在用户104初始化音频装置106之后以其它方式安装,且可以实施用户104所需要的额外或定制功能。
在某些实施方案中,用户与音频装置106交互的主要模式是语音。例如,音频装置106可以从用户104接收口头命令,且响应于命令提供服务。用户可以发出预定义唤醒或触发声调(例如,“叫醒”),其后面可以跟着指令或指令符(例如,“我要去看电影。请告诉我当地电影院正在播放什么电影”)。所提供的服务可以包括执行动作或活动、呈现媒体、获得和/或提供信息、经由通过音频装置106的已生成或合成语音提供信息、代表用户104起始基于互联网的服务,等等。
音频装置106可以包括唤醒声调检测组件136,其监测已接收的输入音频并响应于用户发出唤醒或触发声调而将事件通知提供到语音处理组件120和/或应用程序134。语音处理组件120和/或应用程序134可以通过解译且作用于遵循唤醒声调的用户语音来响应。唤醒声调可以包括单词、词语或其它声音。
在一些实例中,音频装置106可以结合远距环境102的计算资源138操作或可以其它方式利用所述计算资源138。例如,音频装置106可以通过网络140耦合到远程计算资源138。如所说明,远程计算资源138可以被实施为一个或多个服务器或服务器装置142。远程计算资源138在一些实例中可以是经由诸如互联网的网络140维护和访问的网络可访问计算平台的部分。与这些远程计算资源138相关的常见表达可以包括“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问平台”、“云服务”、“数据中心”等等。
服务器142中的每一个可以包括处理器144和存储器146。服务器142可以执行支持音频装置106的各种功能,且还可以结合音频装置106提供额外服务。此外,本文中被描述为由音频装置106执行的功能中的一种或多种反而可以完全或部分由服务器142执行。作为实例,服务器142在一些情况中可以将归属于其上的功能提供到语音处理组件120。类似地,应用程序134中的一个或多个可以驻留在服务器142的存储器146中且可以由服务器142执行。
音频装置106可以经由有线技术(例如,导线、通用串行总线(USB)、光纤电缆等等)、无线技术(例如,射频(RF)、蜂巢、移动电话网络、卫星、蓝牙等等)或其它连接技术通信地耦合到网络140。网络140表示任何类型的通信网络,包括数据和/或语音网络,且可以使用有线基础设施(例如,同轴电缆、光纤电缆等等)、无线基础设施(例如,RF、蜂窝、微波、卫星、等等)和/或其它连接技术而实施。
虽然音频装置106在本文中被描述为声控或基于语音的接口装置,但是本文中描述的技术可以结合各种不同类型的装置(诸如电信装置和组件、免提装置、娱乐装置、媒体播放装置等等)实施。
图2说明音频装置106的示例性实施方案中的麦克风和扬声器定位的细节。在此实施方案中,音频装置106由圆柱体202容纳。麦克风阵列108包括6个麦克风204,其彼此横向地分开使得其可由音频波束形成组件使用来产生定向音频信号。在所说明的实施方案中,麦克风204位于圆柱体202的顶面206上的圆圈或六边形中。麦克风204中的每一者在所描述的实施方案中是全方位的,且波束形成技术用于基于来自麦克风204的信号产生定向音频信号。在其它实施方案中,麦克风可以具有定向音频接收,其可以消除对后续波束形成的需要。
在各个实施方案中,麦克风阵列108可以包括大于或小于所示出的麦克风数量的麦克风。例如,额外麦克风可以位于顶面206的中心且结合用于产生方向集中的音频信号的外围麦克风来使用。
扬声器110可以位于圆柱体202的底部处且可以被配置来以绕音频装置106的360度图案全方位发声。例如,扬声器110可以包括向下指向主体202的下部部分中的圆形扬声器元件以通过主体202的下部部分中的全方位开口或间隙208径向地发射声音。
图3说明检测唤醒声调(诸如可能结合上文描述的架构执行)的实例300。扬声器110被配置来在用户环境102中产生音频。麦克风阵列108如上文描述般配置以从用户环境102接收输入音频,其可以包括用户104发出的语音以及由扬声器110产生的音频的分量。麦克风阵列108产生分别对应于麦克风阵列108的麦克风中的每一个的多个输入音频信号302。
音频波束形成器126接收音频信号302且处理信号302以产生多个定向或定向集中的音频信号304。定向音频信号304表示或包括来自环境102的分别对应于环境102的不同区域或部分的输入音频。在所描述的实施方案中,定向音频信号304分别对应于不同于音频装置106的径向方向。
又称作音频阵列处理的音频波束形成使用具有彼此分开已知距离的多个麦克风的麦克风阵列。源自于某个来源的声音由麦克风中的每一个接收。然而,因为每一麦克风可能与声源相距不同距离,所以正传播的声波在稍微不同时间到达麦克风中的每一个处。此到达时间差在由麦克风产生的音频信号之间产生相差。可利用相差来相对于麦克风阵列增强源自于所选取方向的声音。
波束形成使用信号处理技术来组合来自不同麦克风的信号使得强调源自于特定方向的声音信号,同时解除对来自其它方向的声音信号的强调。更具体地说,以此方式组合来自不同麦克风的信号使得来自特定方向的信号经历相长干扰,而来自其它方向的信号经历相消干扰。用于波束形成的参数可以被改变来动态地选择不同方向,即使使用固定配置的麦克风阵列也是如此。
唤醒声调检测器136接收定向音频信号304且检测到由个别定向音频信号304表示的音频中发生唤醒声调。在所描述的实施方案中,这是由分别对应于定向音频信号304中的每一者的多个声调识别器或检测器306执行。声调识别器被配置来识别哪些定向音频信号304有可能包括或表示唤醒声调。在一些实施方案中,声调识别器406可以被共同地配置来识别其中检测到唤醒声调或其中有可能已发生唤醒声调的定向音频信号304的集合。
声调识别器306中的每一者实施自动语音识别以检测对应的定向音频信号304中的唤醒声调。在一些情况中,与全识别系统相比,由于只需要检测单一单词或词语的事实,可以稍微简化由声调识别器306对自动语音识别的实施。然而,在一些实施方式中,由语音识别组件128提供的元件或功能可以用于执行声调识别器306的功能。
声调识别器306产生提供对应的定向音频信号304的音频是否包括唤醒声调的指示的识别指示或参数308的集合。在一些实施方式中,每一参数或指示308可以包括关于对应的定向音频信号304的音频中是否检测到唤醒声调的二进制真值/伪值或参数。在其它实施方式中,参数或指示308可以包括置信度或概率,指示对应的定向音频信号中检测到唤醒声调的相对可能性。例如,置信度可以被指示为从0%到100%的范围的百分比。
唤醒声调检测器136可以包括分类器310,其至少部分基于由声调识别器306产生的参数308(关于哪些定向音频信号有可能包括唤醒声调)区分由扬声器110生成的唤醒声调与用户104发出的唤醒声调。
在某些实施方案中,识别器306中的每一个可以被配置来产生指示对应的定向音频信号304中是否检测或识别唤醒声调的二进制值。基于此二进制指示,分类器310识别包括唤醒声调的定向音频信号304的集合。分类器310然后基于哪些定向音频信号在定向音频信号的识别集合中来确定唤醒声调是由扬声器110生成还是由用户104发出。
作为实例,在某些情形中可以假设,用户发出的唤醒声调将接收自与音频装置106所成的单一方向或定向锥角且由扬声器110产生的唤醒声调将接收自所有方向或多个定向锥角。基于此假设,分类器310可以在所有或大多数(即,大于一半)的定向音频信号304中检测到唤醒声调时将唤醒声调评估为由扬声器110生成。如果只有定向音频信号之一或对应于单一方向的定向音频信号的相对较小集合中检测到唤醒声调,那么分类器310可以将唤醒声调评估为由用户104发出。例如,可以推断如果从音频装置处的顶点延伸的单一锥角形状内的多个方向或定向信号中发生唤醒声调,那么唤醒声调是由用户发出。
在一些情况中,由于环境102内的声波反射,可以从一个以上方向或定向锥角接收用户发出的唤醒声调。因此,分类器310可以被配置来确定如果对应于两个不同方向的定向音频信号中检测到唤醒声调,那么唤醒声调是由用户104发出,所述两个不同方向可以由从音频装置处的一个或多个顶点延伸的两个锥角形状表示。在一些情况中,如果唤醒声调被发现在少于所有定向音频信号304中或如果唤醒表达被发现在小于阈值的多个定向音频信号304中,那么唤醒表达可以被视为由用户发出。类似地,分类器310可以推断如果所有或大多数定向音频信号304由声调识别器306识别为有可能包括唤醒声调,那么唤醒声调是由扬声器110生成。
在一些实施方式中,声调识别器306可以产生关于唤醒声调是否有可能存在于对应的定向音频信号304中的非二进制指示。例如,每一声调识别器306可以提供指示唤醒声调存在于对应的定向音频信号304中的可能性或概率的置信度。分类器可以比较所接收的置信度与预定阈值或可以使用其它手段来评估唤醒声调是否存在于定向音频信号中的每一个中。
在一些情形中,分类器310可以被配置来识别当唤醒声调是由扬声器110生成时通常包括唤醒声调的定向音频信号304的图案或集合。参考图案或信号集在一些情况中可以在初始化程序中通过在扬声器110处生成唤醒声调且同时记录哪些定向音频信号304被识别为包括唤醒声调来识别。已识别信号然后被视为参考集的成员。在正常操作期间,分类器310可以推断当所观察图案或信号集具有与参考图案或信号集相同的成员时,受检测唤醒声调是由扬声器110生成。
如果分类器310确定受检测唤醒声调是由用户104发出且并非由扬声器110生成,那么分类器310生成或提供唤醒事件或唤醒通知312。唤醒事件312可以被提供到语音处理组件120、操作系统116和/或各种应用程序134。
图4说明可以在一些环境中用于评估唤醒声调是由用户发出还是自我生成的其它技术。在此情况中,分类器402接收关于所接收音频、所生成音频和音频装置106的其它操作方面的各种参数404,且基于参数404区分用户发出的唤醒声调与自我生成的唤醒声调。
由分类器402利用的参数404可以包括诸如可能由图3的声调识别器306产生的识别参数404(a)。识别参数404(a)可以包括分别对应于定向音频信号中的每一个的置信度。识别参数404(a)中的每一个可以指示对应的定向音频信号304包括唤醒声调的可能性。置信度值或可能性可以被指示为连续量表上的值,诸如从0%到100%的范围的百分比。
参数404还可以包括回声或回声相关参数404(b),其指示存在于定向音频信号中的每一个中的回声的量或已被施加于定向音频信号中的每一个的回声降低的量。这些参数可以由回声消除组件122(图1)提供给定向音频信号304中的每一个或所有定向音频信号。回声相关参数404(b)可以被指示为连续量表上的值,诸如从0%到100%的范围的百分比。
参数404还可以包括响度参数404(c),其指示扬声器110生成音频时的当前响度或音量级和/或所接收的定向音频信号中的每一个的响度。正如先前描述的参数,响度参数404(c)可以被指示为连续量表上的值,诸如从0%到100%的范围的百分比。响度可以基于信号的振幅(诸如输出音频信号的振幅或输入音频信号的振幅)来评估。
参数404可以包括信息参数404(d),其指示音频装置102的其它方面。例如,信息参数404(d)可以指示语音或其它音频(可以或可以不包括唤醒声调)当前是否由扬声器110产生。类似地,信息参数404(d)可以指示唤醒声调当前是否由音频装置106的文字转语音组件132生成或原本被视为存在于扬声器110的输出中。
参数404可以被共同地评估来区分由用户发出的唤醒声调与由装置扬声器产生的唤醒声调。作为实例,以下因素可以指示扬声器生成的唤醒声调的概率:
扬声器被视为产生语音、音乐或其它音频;
高的扬声器音量;
低的回声消除度;
沿许多方向的高唤醒声调识别置信度;和
来自许多方向的高输入音频音量级。
类似地,以下因素可以指示用户生成的唤醒声调的概率:
扬声器不产生语音、音乐或其它音频;
低高的扬声器音量;
高的回声消除度;
定向音频信号中的一个或两个中的高唤醒声调识别置信度;和
来自一个或两个方向的高输入音频音量级。
分类器402可以被配置来比较参数404与参考参数406的集合以确定受检测唤醒声调是否由用户104发出或唤醒声调是否由扬声器110生成。如果所接收参数404匹配参考参数或在参考参数的公差内,那么分类器310可以产生唤醒事件312。
参考参数406可以由系统设计者基于音频装置106和/或其环境的已知特性来提供。替代地,参考参数可以在训练或机器获取程序中获取,训练或机器获取程序的实例在下文参考图5描述。参考参数406可以被指定为具体值、值和允许偏差和/或可允许范围的值。
唤醒事件312可以包括已发生唤醒声调的简单通知。替代地,唤醒事件312可以包括或伴随有允许音频装置106或应用程序134评估是否已发生唤醒声调的信息。例如,唤醒事件312可以指示或伴随有置信度,所述置信度指示发生唤醒声调的评估概率。置信度可以指示连续量表上的概率,诸如从0%到100%。取决于置信度,应用程序134可以不同方式响应于唤醒事件。例如,应用程序可以通过降低输出音频的音量来响应于低置信度使得唤醒声调的重复发出更有可能被检测到。作为另一实例,应用程序可以通过口头提示用户进行确认来响应于具有低置信度的唤醒事件。作为另一实例,应用程序可以根据接收到具有低置信度的唤醒事件来更改其随时间变化的行为。
唤醒事件312可以指示其它信息。例如,唤醒事件312可以指示发出唤醒声调的用户的身份。作为另一实例,唤醒事件312可以指示已检测到多个可用唤醒声调中的哪一个。作为另一实例,唤醒事件312可以包括识别参数404或基于或关于识别参数404的其它参数。
图5说明可以用于获取或生成参考参数406的示例性方法500。在一些情况中,示例性方法500可以被实施为机器获取以在唤醒声调被视为发生于输出音频中时动态地获取哪些定向音频信号有可能包括唤醒声调。在其它情况中,示例性方法可以被实施为机器获取以动态地获取可以用于检测音频装置106的扬声器110生成唤醒声调的各种参数和/或参数范围。
动作502包括在扬声器110处产生或生成唤醒声调。动作502可以在音频装置106启动或初始化之后和/或音频装置106的操作期间的其它时间执行。在一些实施方式中,动作502可以包括生成唤醒声调作为响应于用户命令的部分。例如,唤醒声调可以被包括在由语音生成组件132生成的语音中,且可以被生成作为提供服务或响应给用户104的部分。音频装置106可以被配置来获取参考参数或响应于扬声器110对唤醒声调的任何此已知生成而完善参考参数。
动作504包括在麦克风阵列108处接收输入音频。由于扬声器110与麦克风阵列108之间的声波计算,输入音频包括生成于动作502中的唤醒声调。
动作506包括基于所接收的输入音频产生和/或接收定向音频信号。定向音频信号在一些实施方案中可通过波束形成技术产生。在其它实施方案中,定向音频信号可以通过其它技术(诸如通过定向麦克风或放置在房间的不同区域中的麦克风)产生。
动作508包括对所产生或所接收的定向音频信号中的每一个执行唤醒声调检测。动作508可以包括评估所产生或所接收的定向音频信号以分别生成定向音频信号是否包括唤醒声调的对应指示。可通过如上文描述的识别参数指示个别定向音频信号中的唤醒声调的检测,所述识别参数可以包括二进制值或非二进制概率。
动作510包括接收识别参数,诸如上文参考图4描述的识别参数404(a),其可以包括唤醒声调检测508的结果。在一些实施方式中,识别参数可以指示其中已检测到唤醒声调的定向音频信号的集合。在其它实施方式中,识别参数可以包括关于定向音频信号中的每一个的概率,其中每一概率指示对应的定向音频信号包括唤醒声调的可能性。
动作510还可以包括接收其它参数或指示,诸如上文参考图4描述的回声参数404(b)、响度参数404(c)和信息参数404(d)。
动作512可以包括基于动作510中接收的参数生成并保存参考参数的集合。参考参数可以包括检测到唤醒声调时的参数404的值。方法500可以在音频装置的操作期间重复或连续执行以微调和再次微调所获取的参考参数。
图6示出了检测唤醒声调且确定其是由用户104发出还是由音频装置106生成的程序600。
动作602包括在用户环境102中的扬声器110处产生输出音频。输出音频可以包括所生成的语音、音乐或其它内容,其可以由音频装置106生成或接收自其它内容源。输出音频有时候可以包括唤醒声调。
动作604包括接收输入音频,其可以包括输出音频中由于扬声器110与麦克风阵列108之间的声波耦合而产生的分量。输入音频还可以包括由用户104发出的语音,其可以包括唤醒声调。
动作606包括产生和/或接收对应于来自用户环境102的不同区域的输入音频的多个定向音频信号。定向音频信号包括来自用户环境102的不同区域或部分(诸如来自不同于音频装置106的径向方向)的音频分量。定向音频信号可以使用波束形成技术基于非定向麦克风的阵列而产生,或可以分别接收自多个定向麦克风。
动作608包括生成和/或接收关于音频装置106的操作的装置参数或指示。在一些实施方案中,动作608可以包括评估定向音频信号以生成分别对应的识别参数或定向音频信号是否包括唤醒声调的其它指示。所述参数或指示还可以包括关于语音生成、输出音频生成、回声消除等等的参数。
动作610包括评估装置参数或指示以至少部分基于声调识别参数确定输入音频中是否发生唤醒声调。此可以包括确定定向音频信号中的任何一个或多个中是否发生唤醒声调,且可以由图3的个别声调识别器306来执行。
如果没有发生唤醒声调,那么不采取进一步动作。如果定向音频信号中的至少一个中发生唤醒声调,那么执行动作612。动作612包括确定输入音频中何时检测到发生唤醒声调是输出音频中发生和/或由音频装置106的扬声器110产生唤醒声调的结果。动作612至少部分基于由动作608生成的识别参数。
在一些实施方案中,可以根据其中发现唤醒声调的定向音频信号的数量或图案来作出确定612。例如,检测到所有或大多数定向音频信号中的唤醒声调可以被视为唤醒声调是由扬声器110生成的指示,而检测到少于大多数定向音频信号中的唤醒声调可以被视为唤醒声调是由位于相对于音频装置106的特定方向上的用户生成的指示。作为另一实例,动作612可以包括识别有可能包括唤醒声调的定向音频信号的数量,及比较所述数量与阈值。更具体地说,如果被识别为有可能包括阈值的定向信号的数量小于或等于1或2的阈值,那么唤醒声调可以被视为由用户发出。
作为另一实例,动作612可以包括识别有可能包括唤醒声调的定向音频信号的集合及比较已识别集合与定向音频信号的预定集合,其中预定集合包括当输出音频中发生唤醒声调时被视为包括所述唤醒声调的定向音频信号。预定集合可以在初始化程序或在音频装置106被视为产生唤醒声调的其它时间获取。更特定地说,获取程序可以用于确定当唤醒声调已从扬声器110产生时可预期包括所述唤醒声调的定向音频信号的特定集合。类似地,获取程序可以用于确定当唤醒声调由用户发出时可预期包括所述唤醒声调的定向音频信号的图案或组。
作为另一实例,可以分析其中检测到唤醒声调的定向音频信号的图案以确定唤醒声调是否被接收作为全方位输入或其是否接收自对应于用户的位置的单一方向。在一些情况中,用户发出的唤醒声调还可以被接收作为来自反射表面的音频反射。因此,源自于两个相异方向的唤醒声调在一些情况中可以被评估为由用户发出。
某些实施方案可以参考参考参数614的集合利用动作612中的更复杂分析。参考参数614可以由系统设计者指定,或可以包括如上文参考图5描述般获取的参数。参考参数可以包括指示哪些定向音频信号包括或有可能包括唤醒声调的声调识别参数。参考参数还可以包括关于语音生成、输出音频生成、回声消除等等的参数。包括神经网络、模糊逻辑和贝叶斯(Bayesian)分类的机器获取技术可以用于配制参考参数和/或执行当前参数与参考参数的比较。
在其中由装置扬声器产生或接收自装置扬声器的音频并非全方位的情形中可以使用已获取的参考参数。诸如此的情形可以由声波反射或其它异常现象所致,和/或导致其中装置的扬声器是定向的而非全方位的实施方案。在一些实施方案中,有时候称为条形音响的波束形成扬声器可以用于在特定环境的独特声音特性的背景中针对最优性能定制扬声器输出。例如,扬声器的定向可以被配置来最小化反射和优化检测用户发出的音频的能力。
如果动作612确定受检测唤醒声调是由扬声器110产生,那么执行动作516,其包括忽略唤醒声调。否则,如果动作612确定受检测唤醒声调是由用户104发出,那么执行动作618。动作618包括宣布唤醒事件。音频装置106可以通过解译并作用于随后检测的用户语音来响应于已宣布的唤醒事件。
上文描述的实施方案可以编程方式(诸如利用计算机、处理器)实施为数字信号处理器、模拟处理器等等。然而,在其它实施方案中,可以使用专业或专用电路(包括模拟电路和/或数字逻辑电路)实施组件、功能或元件中的一个或多个。如本文中使用的术语“组件”旨在包括用于实施归属于组件的功能的任何硬件、软件、逻辑或前述组合。
虽然已按照结构特征所特有的语言描述了本主题,但是应了解,随附权利要求书中定义的主题不一定被限于所描述的具体特征。相反地,具体特征被公开为实施所述权利要求书的说明形式。
条款
1.一种被配置来响应于由用户发出的触发声调的音频装置,其包括:
扬声器,其被配置来生成输出音频;
麦克风阵列,其被配置来产生多个输入音频信号;
音频波束形成器,其被配置来至少部分基于所述输入音频信号产生多个定向音频信号,其中所述定向音频信号表示来自分别对应于所述音频装置的方向的音频;
一个或多个语音识别组件,其被配置来检测由所述相应定向音频信号中的每一个表示的所述音频中是否发生预定义声调;和
声调检测器,其被配置来(a)如果所述触发声调发生在由少于阈值数量的所述定向音频信号表示的所述音频中,那么确定所述触发声调是由所述用户发出;和(b)如果所述预定义声调发生在由所有所述定向音频信号表示的所述音频中,那么确定所述预定义声调并非由所述扬声器生成。
2.根据条款1所述的音频装置,其中所述声调检测器还被配置来在所述触发声调发生于来自在从所述音频装置处的顶点延伸的单一锥角形状内的多个方向的所述音频中时确定所述触发声调是由所述用户发出。
3.根据条款1所述的音频装置,其中所述声调检测器还被配置来在所述预定义声调发生于来自在从所述音频装置处的顶点延伸的两个锥角形状内的多个方向的所述音频中时确定所述预定义声调是由所述用户发出。
4.根据条款1所述的音频装置,其中所述声调检测器还被配置来在所述预定义声调发生于由多于一半的所述定向音频信号表示的所述音频中时确定所述预定义声调是由所述扬声器生成。
5.一种方法,其包括:
在用户环境中产生输出音频;
分别从所述用户环境的对应部分接收表示输入音频的多个音频信号;
生成指示所述定向音频信号中的一个或几个中的哪些定向音频信号包括预定义声调的一个或多个识别参数;和
至少部分基于所述一个或多个识别参数确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调结果。
6.根据条款5所述的方法,其中所述确定包括:
确定所述一个或多个识别参数是否指示所有所述音频信号均表示包括所述预定义声调的输入音频;和
如果所述一个或多个识别参数指示所有所述输入音频信号均表示包括所述预定义声调的输入音频,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。
7.根据条款5所述的方法,其中所述确定包括:
至少部分基于所述识别参数识别表示包括所述预定义声调的输入音频的所述音频信号的数量;和
如果所述数量超过阈值,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。
8.根据条款5所述的方法,其中:
所述识别参数包括分别对应于所述音频信号的个别参数;
每一个别参数指示所述对应音频信号是否表示包括所述预定义声调的输入音频;
所述确定还包括至少部分基于所述个别参数识别表示包括所述预定义声调的输入音频的所述音频信号的数量;和
所述确定还包括如果所述数量超过阈值,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。
9.根据条款5所述的方法,其中所述确定包括:
识别观察信号集,其中所述观察信号集具有包括所述音频信号中的一个或多个的一个或多个成员,所述音频信号由所述一个或多个识别参数指示为表示包括所述预定义声调的输入音频;
如果所述观察信号集和参考信号集具有所述相同的一个或多个成员,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果;和
其中所述参考信号集具有包括所述音频信号中的一个或多个的一个或多个成员,所述音频信号包括所述输出音频中发生所述预定义声调期间的所述预定义声调。
10.根据条款9所述的方法,其还包括识别所述输出音频中已知发生所述预定义声调期间的所述参考信号集的所述一个或多个成员,其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个,所述音频信号由所述一个或多个识别参数指示为表示包括所述输出音频中已知发生所述预定义声调期间的所述预定义声调的输入音频。
11.根据条款5所述的方法,其中所述一个或多个识别参数指示以下一项或多项:
所述输出音频的响度;
所述输出音频是否被视为包括语音;
所述输入音频的响度;或
所述音频信号的回声特性。
12.根据条款11所述的方法,其还包括使用机器获取来执行所述确定。
13.根据条款5所述的方法,其中所述一个或多个识别参数分别对应于所述定向音频信号,且其中所述一个或多个识别参数中的每一个指示所述预定义声调是否存在于所述对应音频信号中。
14.根据条款5所述的方法,其中所述一个或多个识别参数分别对应于所述音频信号,且其中所述一个或多个识别参数中的每一个指示所述预定义声调存在于所述对应音频信号中的概率。
15.一种音频装置,其包括:
一个或多个处理器;
存储计算机可执行指令的存储器,所述计算机可执行指令在由一个或多个处理器执行时使所述一个或多个处理器执行包括以下项的行动:
分别从用户环境的对应部分接收表示输入音频的多个音频信号;
评估所述音频信号以生成分别对应于所述音频信号的指示,其中每一指示指示由所述对应音频信号表示的所述输入音频是否包括预定义声调;和
评估所述指示以至少部分基于所述音频信号中的哪一个或多个表示包括所述预定义声调的输入音频来区分用户发出的所述预定义声调与音频扬声器产生的所述预定义声调。
16.根据条款15所述的音频装置,其中所述指示中的每一个包括指示所述预定义声调是否发生在由所述对应音频信号表示的所述输入音频中的二进制参数。
17.根据条款15所述的音频装置,其中所述指示中的每一个包括所述预定义声调发生在由所述对应音频信号表示的所述输入音频中的概率。
18.根据条款15所述的音频装置,所述行动还包括:
识别观察信号集,其中所述观察信号集具有包括所述音频信号中的一个或多个的一个或多个成员,所述音频信号表示包括所述预定义声调的输入音频;
其中所述评估包括如果所述观察信号集和参考信号集具有所述相同的一个或多个成员,那么确定所述输入音频中发生所述预定义声调是所述预定义声调由所述音频扬声器产生的结果;和
其中所述参考信号集中的所述一个或多个成员包括所述音频信号中的一个或多个,所述音频信号包括所述音频扬声器产生所述预定义声调期间的所述预定义声调。
19.根据条款18所述的音频装置,所述行动还包括识别所述音频扬声器已知产生所述预定义声调期间的所述参考信号集的所述一个或多个成员,其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个,所述音频信号由所述指示指示为包括所述输出扬声器已知产生所述预定义声调期间的所述预定义声调。
20.根据条款15所述的音频装置,所述行动还包括生成指示所述预定义声调是否由所述用户发出的概率的唤醒事件。
Claims (15)
1.一种方法,其包括:
在用户环境中产生输出音频;
分别从所述用户环境的对应部分接收表示输入音频的多个音频信号;
生成指示所述定向音频信号中的哪一个或几个包括预定义声调的一个或多个识别参数;和
至少部分基于所述一个或多个识别参数来确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调结果。
2.根据权利要求1所述的方法,其中所述确定包括:
确定所述一个或多个识别参数是否指示所有所述音频信号均表示包括所述预定义声调的输入音频;和
如果所述一个或多个识别参数指示所有所述输入音频信号均表示包括所述预定义声调的输入音频,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。
3.根据权利要求1所述的方法,其中所述确定包括:
至少部分基于所述识别参数来识别表示包括所述预定义声调的输入音频的所述音频信号的数量;和
如果所述数量超过阈值,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。
4.根据权利要求1所述的方法,其中:
所述识别参数包括分别对应于所述音频信号的个别参数;
每一个别参数指示所述对应音频信号是否表示包括所述预定义声调的输入音频;
所述确定还包括至少部分基于所述个别参数来识别所述音频信号的数量,所述音频信号的数量表示包括所述预定义声调的输入音频;和
所述确定还包括如果所述数量超过阈值,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。
5.根据权利要求1所述的方法,其中所述确定包括:
识别观察信号集,其中所述观察信号集具有包括所述音频信号中的一个或多个的一个或多个成员,所述音频信号由所述一个或多个识别参数指示为表示包括所述预定义声调的输入音频;
如果所述观察信号集和参考信号集具有所述相同的一个或多个成员,那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果;和
其中所述参考信号集具有包括所述音频信号中的一个或多个的一个或多个成员,所述音频信号包括所述输出音频中发生所述预定义声调期间的所述预定义声调。
6.根据权利要求5所述的方法,其还包括识别所述输出音频中已知发生所述预定义声调期间的所述参考信号集的所述一个或多个成员,其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个,所述音频信号由所述一个或多个识别参数指示为表示包括所述输出音频中已知发生所述预定义声调期间的所述预定义声调的输入音频。
7.根据权利要求1所述的方法,其中所述一个或多个识别参数指示以下一项或多项:
所述输出音频的响度;
所述输出音频是否被视为包括语音;
所述输入音频的响度;或
所述音频信号的回声特性。
8.根据权利要求1所述的方法,其中所述一个或多个识别参数分别对应于所述定向音频信号,且其中所述一个或多个识别参数中的每一个指示所述预定义声调是否存在于所述对应音频信号中。
9.根据权利要求1所述的方法,其中所述一个或多个识别参数分别对应于所述音频信号,且其中所述一个或多个识别参数中的每一个指示所述预定义声调存在于所述对应音频信号中的概率。
10.一种音频装置,其包括:
一个或多个处理器;
存储计算机可执行指令的存储器,所述计算机可执行指令在由一个或多个处理器执行时使所述一个或多个处理器执行包括以下项的行动:
分别从用户环境的对应部分接收表示输入音频的多个音频信号;
评估所述音频信号以生成分别对应于所述音频信号的指示,其中每一指示指示由所述对应音频信号表示的所述输入音频是否包括预定义声调;和
评估所述指示以至少部分基于所述音频信号中的哪一个或多个表示包括所述预定义声调的输入音频来区分用户发出的所述预定义声调与音频扬声器产生的所述预定义声调。
11.根据权利要求10所述的音频装置,其中所述指示中的每一个包括指示所述预定义声调是否发生在由所述对应音频信号表示的所述输入音频中的二进制参数。
12.根据权利要求10所述的音频装置,其中所述指示中的每一个包括所述预定义声调发生在由所述对应音频信号表示的所述输入音频中的概率。
13.根据权利要求10所述的音频装置,所述行动还包括:
识别观察信号集,其中所述观察信号集具有包括所述音频信号中的一个或多个的一个或多个成员,所述音频信号表示包括所述预定义声调的输入音频;
其中所述评估包括如果所述观察信号集和参考信号集具有所述相同的一个或多个成员,那么确定所述输入音频中发生所述预定义声调是所述预定义声调由所述音频扬声器产生的结果;和
其中所述参考信号集中的所述一个或多个成员包括所述音频信号中的一个或多个,所述音频信号包括所述音频扬声器产生所述预定义声调期间的所述预定义声调。
14.根据权利要求13所述的音频装置,所述行动还包括识别所述音频扬声器已知产生所述预定义声调期间的所述参考信号集的所述一个或多个成员,其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个,所述音频信号由所述指示指示为包括所述输出扬声器已知产生所述预定义声调期间的所述预定义声调。
15.根据权利要求10所述的音频装置,所述行动还包括生成指示所述预定义声调是否由所述用户发出的概率的唤醒事件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/929,540 US9747899B2 (en) | 2013-06-27 | 2013-06-27 | Detecting self-generated wake expressions |
US13/929,540 | 2013-06-27 | ||
PCT/US2014/044455 WO2014210392A2 (en) | 2013-06-27 | 2014-06-26 | Detecting self-generated wake expressions |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105556592A true CN105556592A (zh) | 2016-05-04 |
CN105556592B CN105556592B (zh) | 2019-08-09 |
Family
ID=52116456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480037022.3A Active CN105556592B (zh) | 2013-06-27 | 2014-06-26 | 检测自我生成的唤醒声调 |
Country Status (5)
Country | Link |
---|---|
US (4) | US9747899B2 (zh) |
EP (1) | EP3014607B1 (zh) |
JP (1) | JP6314219B2 (zh) |
CN (1) | CN105556592B (zh) |
WO (1) | WO2014210392A2 (zh) |
Cited By (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316645A (zh) * | 2017-06-01 | 2017-11-03 | 北京京东尚科信息技术有限公司 | 一种语音购物的方法和系统 |
CN108055619A (zh) * | 2018-01-29 | 2018-05-18 | 北京麦哲科技有限公司 | 一种音频采集外放装置 |
CN108364648A (zh) * | 2018-02-11 | 2018-08-03 | 北京百度网讯科技有限公司 | 用于获取音频信息的方法及装置 |
CN108461083A (zh) * | 2018-03-23 | 2018-08-28 | 北京小米移动软件有限公司 | 电子设备主板、音频处理方法、装置和电子设备 |
CN109328381A (zh) * | 2017-05-16 | 2019-02-12 | 苹果公司 | 检测数字助理的触发 |
CN109791764A (zh) * | 2016-09-01 | 2019-05-21 | 亚马逊技术公司 | 基于话音的通信 |
CN110164446A (zh) * | 2018-06-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
CN111048067A (zh) * | 2019-11-11 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种麦克风响应方法及装置 |
CN111344780A (zh) * | 2017-08-30 | 2020-06-26 | 亚马逊技术股份有限公司 | 基于上下文的设备仲裁 |
CN111418008A (zh) * | 2017-11-30 | 2020-07-14 | 三星电子株式会社 | 基于声源的位置提供服务的方法以及为此的语音辨识设备 |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
CN111667843A (zh) * | 2019-03-05 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、系统、电子设备、存储介质 |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
Families Citing this family (155)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8861756B2 (en) | 2010-09-24 | 2014-10-14 | LI Creative Technologies, Inc. | Microphone array system |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US9672812B1 (en) * | 2013-09-18 | 2017-06-06 | Amazon Technologies, Inc. | Qualifying trigger expressions in speech-based systems |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9432769B1 (en) | 2014-07-30 | 2016-08-30 | Amazon Technologies, Inc. | Method and system for beam selection in microphone array beamformers |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10009676B2 (en) * | 2014-11-03 | 2018-06-26 | Storz Endoskop Produktions Gmbh | Voice control system with multiple microphone arrays |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
GB201506046D0 (en) * | 2015-04-09 | 2015-05-27 | Sinvent As | Speech recognition |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
CN106328165A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种机器人自身音源消除系统 |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9826599B2 (en) | 2015-12-28 | 2017-11-21 | Amazon Technologies, Inc. | Voice-controlled light switches |
KR102392113B1 (ko) * | 2016-01-20 | 2022-04-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령 처리 방법 |
KR102642666B1 (ko) * | 2016-02-05 | 2024-03-05 | 삼성전자주식회사 | 음성인식 장치 및 방법, 음성인식시스템 |
WO2017138934A1 (en) | 2016-02-10 | 2017-08-17 | Nuance Communications, Inc. | Techniques for spatially selective wake-up word recognition and related systems and methods |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10743101B2 (en) | 2016-02-22 | 2020-08-11 | Sonos, Inc. | Content mixing |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10142754B2 (en) | 2016-02-22 | 2018-11-27 | Sonos, Inc. | Sensor on moving component of transducer |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
EP3434024B1 (en) * | 2016-04-21 | 2023-08-02 | Hewlett-Packard Development Company, L.P. | Electronic device microphone listening modes |
US20170330565A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Handling Responses to Speech Processing |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
WO2017217978A1 (en) * | 2016-06-15 | 2017-12-21 | Nuance Communications, Inc. | Techniques for wake-up word recognition and related systems and methods |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
JP6739041B2 (ja) | 2016-07-28 | 2020-08-12 | パナソニックIpマネジメント株式会社 | 音声モニタリングシステム及び音声モニタリング方法 |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
JP7191819B2 (ja) * | 2016-10-17 | 2022-12-19 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 音声能力を備えたポータブルオーディオデバイス |
US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11545146B2 (en) | 2016-11-10 | 2023-01-03 | Cerence Operating Company | Techniques for language independent wake-up word detection |
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
CN106910500B (zh) * | 2016-12-23 | 2020-04-17 | 北京小鸟听听科技有限公司 | 对带麦克风阵列的设备进行语音控制的方法及设备 |
US20180218747A1 (en) * | 2017-01-28 | 2018-08-02 | Bose Corporation | Audio Device Filter Modification |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10643609B1 (en) * | 2017-03-29 | 2020-05-05 | Amazon Technologies, Inc. | Selecting speech inputs |
KR20180118461A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10983753B2 (en) | 2017-06-09 | 2021-04-20 | International Business Machines Corporation | Cognitive and interactive sensor based smart home solution |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10204624B1 (en) * | 2017-08-14 | 2019-02-12 | Lenovo (Singapore) Pte. Ltd. | False positive wake word |
KR102413282B1 (ko) * | 2017-08-14 | 2022-06-27 | 삼성전자주식회사 | 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버 |
US10482904B1 (en) | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10733990B2 (en) * | 2017-10-18 | 2020-08-04 | Motorola Mobility Llc | Preventing initiation of a voice recognition session |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10529331B2 (en) * | 2017-12-12 | 2020-01-07 | Intel Corporation | Suppressing key phrase detection in generated audio using self-trigger detector |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11150869B2 (en) | 2018-02-14 | 2021-10-19 | International Business Machines Corporation | Voice command filtering |
US10978061B2 (en) | 2018-03-09 | 2021-04-13 | International Business Machines Corporation | Voice command processing without a wake word |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10586538B2 (en) | 2018-04-25 | 2020-03-10 | Comcast Cable Comminications, LLC | Microphone array beamforming control |
US11238856B2 (en) | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
US11200890B2 (en) * | 2018-05-01 | 2021-12-14 | International Business Machines Corporation | Distinguishing voice commands |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
EP3756087A4 (en) * | 2018-06-05 | 2021-04-21 | Samsung Electronics Co., Ltd. | PASSIVE WAKE-UP PROCESSES AND SYSTEMS OF A USER INTERACTION DEVICE |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10540960B1 (en) * | 2018-09-05 | 2020-01-21 | International Business Machines Corporation | Intelligent command filtering using cones of authentication in an internet of things (IoT) computing environment |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11100923B2 (en) * | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11627012B2 (en) | 2018-10-09 | 2023-04-11 | NewTekSol, LLC | Home automation management system |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
CN109599124B (zh) * | 2018-11-23 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
JP7407580B2 (ja) * | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11227588B2 (en) * | 2018-12-07 | 2022-01-18 | Nuance Communications, Inc. | System and method for feature based beam steering |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11355108B2 (en) * | 2019-08-20 | 2022-06-07 | International Business Machines Corporation | Distinguishing voice commands |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308959B2 (en) * | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
US11290834B2 (en) | 2020-03-04 | 2022-03-29 | Apple Inc. | Determining head pose based on room reverberation |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11657814B2 (en) * | 2020-10-08 | 2023-05-23 | Harman International Industries, Incorporated | Techniques for dynamic auditory phrase completion |
CN112863545B (zh) * | 2021-01-13 | 2023-10-03 | 抖音视界有限公司 | 性能测试方法、装置、电子设备及计算机可读存储介质 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US20220284883A1 (en) * | 2021-03-05 | 2022-09-08 | Comcast Cable Communications, Llc | Keyword Detection |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
WO2007138503A1 (en) * | 2006-05-31 | 2007-12-06 | Philips Intellectual Property & Standards Gmbh | Method of driving a speech recognition system |
US20080059192A1 (en) * | 2006-01-13 | 2008-03-06 | Marian Trinkel | Method and System for Performing Telecommunication of Data |
US20090055170A1 (en) * | 2005-08-11 | 2009-02-26 | Katsumasa Nagahama | Sound Source Separation Device, Speech Recognition Device, Mobile Telephone, Sound Source Separation Method, and Program |
US20090232287A1 (en) * | 2008-03-13 | 2009-09-17 | International Business Machines Corporation | Telecom Web Browsers, and Methods for Defining a Telecom Web Browser |
US20100225461A1 (en) * | 2009-03-05 | 2010-09-09 | Raja Singh Tuli | Apparatus and method for detection of a specified audio signal or gesture |
US20110142253A1 (en) * | 2008-08-22 | 2011-06-16 | Yamaha Corporation | Recording/reproducing apparatus |
CN102136269A (zh) * | 2010-01-22 | 2011-07-27 | 微软公司 | 经由标识信息的语音识别分析 |
CN102664004A (zh) * | 2012-03-22 | 2012-09-12 | 重庆英卡电子有限公司 | 森林盗窃行为识别方法 |
Family Cites Families (110)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5086385A (en) * | 1989-01-31 | 1992-02-04 | Custom Command Systems | Expandable home automation system |
US5857172A (en) * | 1995-07-31 | 1999-01-05 | Microsoft Corporation | Activation control of a speech recognizer through use of a pointing device |
DE59803137D1 (de) * | 1997-06-06 | 2002-03-28 | Bsh Bosch Siemens Hausgeraete | Haushaltsgerät, insbesondere elektrisch betriebenes haushaltsgerät |
WO2000005709A1 (de) | 1998-07-23 | 2000-02-03 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache |
US6850886B2 (en) | 1999-10-21 | 2005-02-01 | Sony Corporation | System and method for speech verification using an efficient confidence measure |
US7103543B2 (en) * | 2001-05-31 | 2006-09-05 | Sony Corporation | System and method for speech verification using a robust confidence measure |
US6876970B1 (en) * | 2001-06-13 | 2005-04-05 | Bellsouth Intellectual Property Corporation | Voice-activated tuning of broadcast channels |
US20030055535A1 (en) * | 2001-09-17 | 2003-03-20 | Hunter Engineering Company | Voice interface for vehicle wheel alignment system |
US7492908B2 (en) | 2002-05-03 | 2009-02-17 | Harman International Industries, Incorporated | Sound localization system based on analysis of the sound field |
US7464035B2 (en) * | 2002-07-24 | 2008-12-09 | Robert Bosch Corporation | Voice control of home automation systems via telephone |
EP2587481B1 (en) * | 2002-10-23 | 2020-01-08 | Nuance Communications, Inc. | Controlling an apparatus based on speech |
US7698136B1 (en) * | 2003-01-28 | 2010-04-13 | Voxify, Inc. | Methods and apparatus for flexible speech recognition |
US7617094B2 (en) * | 2003-02-28 | 2009-11-10 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for identifying a conversation |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
EP1494208A1 (en) | 2003-06-30 | 2005-01-05 | Harman Becker Automotive Systems GmbH | Method for controlling a speech dialog system and speech dialog system |
US20080249779A1 (en) | 2003-06-30 | 2008-10-09 | Marcus Hennecke | Speech dialog system |
US7418392B1 (en) | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
JP4765289B2 (ja) * | 2003-12-10 | 2011-09-07 | ソニー株式会社 | 音響システムにおけるスピーカ装置の配置関係検出方法、音響システム、サーバ装置およびスピーカ装置 |
US20090164215A1 (en) * | 2004-02-09 | 2009-06-25 | Delta Electronics, Inc. | Device with voice-assisted system |
US7672845B2 (en) * | 2004-06-22 | 2010-03-02 | International Business Machines Corporation | Method and system for keyword detection using voice-recognition |
US7778950B2 (en) * | 2004-08-14 | 2010-08-17 | Hrl Laboratories, Llc | Cognitive signal separation and classification system |
US20060085199A1 (en) * | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for controlling the behavior of a device capable of speech recognition |
US7593539B2 (en) * | 2005-04-29 | 2009-09-22 | Lifesize Communications, Inc. | Microphone and speaker arrangement in speakerphone |
US7464029B2 (en) | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US20070133437A1 (en) * | 2005-12-13 | 2007-06-14 | Wengrovitz Michael S | System and methods for enabling applications of who-is-speaking (WIS) signals |
US8180067B2 (en) | 2006-04-28 | 2012-05-15 | Harman International Industries, Incorporated | System for selectively extracting components of an audio input signal |
US8207936B2 (en) * | 2006-06-30 | 2012-06-26 | Sony Ericsson Mobile Communications Ab | Voice remote control |
US8279171B2 (en) | 2006-07-06 | 2012-10-02 | Panasonic Corporation | Voice input device |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
US7680465B2 (en) | 2006-07-31 | 2010-03-16 | Broadcom Corporation | Sound enhancement for audio devices based on user-specific audio processing parameters |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7706549B2 (en) * | 2006-09-14 | 2010-04-27 | Fortemedia, Inc. | Broadside small array microphone beamforming apparatus |
US8214219B2 (en) * | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
US8738368B2 (en) | 2006-09-21 | 2014-05-27 | GM Global Technology Operations LLC | Speech processing responsive to a determined active communication zone in a vehicle |
US7769593B2 (en) * | 2006-09-28 | 2010-08-03 | Sri International | Method and apparatus for active noise cancellation |
US8054990B2 (en) * | 2006-11-22 | 2011-11-08 | General Motors Llc | Method of recognizing speech from a plurality of speaking locations within a vehicle |
EP1933303B1 (en) | 2006-12-14 | 2008-08-06 | Harman/Becker Automotive Systems GmbH | Speech dialog control based on signal pre-processing |
US7809564B2 (en) * | 2006-12-18 | 2010-10-05 | International Business Machines Corporation | Voice based keyword search algorithm |
EP1953735B1 (en) * | 2007-02-02 | 2010-01-06 | Harman Becker Automotive Systems GmbH | Voice control system and method for voice control |
EP1983799B1 (en) | 2007-04-17 | 2010-07-07 | Harman Becker Automotive Systems GmbH | Acoustic localization of a speaker |
US8538757B2 (en) * | 2007-05-17 | 2013-09-17 | Redstart Systems, Inc. | System and method of a list commands utility for a speech recognition command system |
US20100098266A1 (en) * | 2007-06-01 | 2010-04-22 | Ikoa Corporation | Multi-channel audio device |
DK2012304T3 (da) | 2007-07-06 | 2012-11-19 | Zero To One Technology Comscope | Fremgangsmåder til elektronisk analyse af en dialog samt tilsvarende systemer |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
EP2146519B1 (en) * | 2008-07-16 | 2012-06-06 | Nuance Communications, Inc. | Beamforming pre-processing for speaker localization |
EP2148325B1 (en) | 2008-07-22 | 2014-10-01 | Nuance Communications, Inc. | Method for determining the presence of a wanted signal component |
US8019608B2 (en) * | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
JP5328307B2 (ja) * | 2008-11-14 | 2013-10-30 | キヤノン株式会社 | 振れ補正機能を有する撮影装置及びその制御方法 |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US20100217590A1 (en) | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
US11012732B2 (en) * | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
US20110111805A1 (en) | 2009-11-06 | 2011-05-12 | Apple Inc. | Synthesized audio message over communication links |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
US8219394B2 (en) | 2010-01-20 | 2012-07-10 | Microsoft Corporation | Adaptive ambient sound suppression and speech tracking |
US8812056B2 (en) * | 2010-02-12 | 2014-08-19 | Christopher D. Higginbotham | Voice-based command driven computer implemented method |
EP2385680B1 (en) * | 2010-05-06 | 2012-10-03 | Voddler Sweden AB | Content delivery over a peer-to-peer network |
US8522283B2 (en) * | 2010-05-20 | 2013-08-27 | Google Inc. | Television remote control data transfer |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US8359020B2 (en) * | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
US8645132B2 (en) | 2011-08-24 | 2014-02-04 | Sensory, Inc. | Truly handsfree speech recognition in high noise environments |
US8395503B2 (en) * | 2010-09-23 | 2013-03-12 | Altorr Corporation | Automatic door |
US9240111B2 (en) * | 2010-10-06 | 2016-01-19 | Microsoft Technology Licensing, Llc | Inferring building metadata from distributed sensors |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
JP5328744B2 (ja) | 2010-10-15 | 2013-10-30 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US20120130774A1 (en) | 2010-11-18 | 2012-05-24 | Dror Daniel Ziv | Analyzing performance using video analytics |
US9037458B2 (en) * | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
US20120223885A1 (en) | 2011-03-02 | 2012-09-06 | Microsoft Corporation | Immersive display experience |
JP2012208218A (ja) | 2011-03-29 | 2012-10-25 | Yamaha Corp | 電子機器 |
US20120259638A1 (en) | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
JP5739718B2 (ja) | 2011-04-19 | 2015-06-24 | 本田技研工業株式会社 | 対話装置 |
WO2012145709A2 (en) | 2011-04-20 | 2012-10-26 | Aurenta Inc. | A method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation |
US8743658B2 (en) * | 2011-04-29 | 2014-06-03 | Siemens Corporation | Systems and methods for blind localization of correlated sources |
US9329832B2 (en) * | 2011-05-09 | 2016-05-03 | Robert Allen Blaisch | Voice internet system and method |
US9176957B2 (en) * | 2011-06-10 | 2015-11-03 | Linkedin Corporation | Selective fact checking method and system |
US9087048B2 (en) * | 2011-06-10 | 2015-07-21 | Linkedin Corporation | Method of and system for validating a fact checking system |
US9973848B2 (en) | 2011-06-21 | 2018-05-15 | Amazon Technologies, Inc. | Signal-enhancing beamforming in an augmented reality environment |
US8798995B1 (en) * | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
US8452597B2 (en) * | 2011-09-30 | 2013-05-28 | Google Inc. | Systems and methods for continual speech recognition and detection in mobile computing devices |
JP2013080015A (ja) | 2011-09-30 | 2013-05-02 | Toshiba Corp | 音声認識装置および音声認識方法 |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US9256396B2 (en) * | 2011-10-10 | 2016-02-09 | Microsoft Technology Licensing, Llc | Speech recognition for context switching |
US9232071B2 (en) * | 2011-12-16 | 2016-01-05 | Qualcomm Incorporated | Optimizing audio processing functions by dynamically compensating for variable distances between speaker(s) and microphone(s) in a mobile device |
US9838810B2 (en) * | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
US9275411B2 (en) * | 2012-05-23 | 2016-03-01 | Google Inc. | Customized voice action system |
US9899026B2 (en) | 2012-05-31 | 2018-02-20 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US9529793B1 (en) * | 2012-06-01 | 2016-12-27 | Google Inc. | Resolving pronoun ambiguity in voice queries |
US10156455B2 (en) * | 2012-06-05 | 2018-12-18 | Apple Inc. | Context-aware voice guidance |
US9997069B2 (en) * | 2012-06-05 | 2018-06-12 | Apple Inc. | Context-aware voice guidance |
US9881616B2 (en) | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
US20130346068A1 (en) * | 2012-06-25 | 2013-12-26 | Apple Inc. | Voice-Based Image Tagging and Searching |
JP5653392B2 (ja) * | 2012-06-29 | 2015-01-14 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
KR101330671B1 (ko) * | 2012-09-28 | 2013-11-15 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
US9124965B2 (en) * | 2012-11-08 | 2015-09-01 | Dsp Group Ltd. | Adaptive system for managing a plurality of microphones and speakers |
US9275642B2 (en) * | 2012-11-13 | 2016-03-01 | Unified Computer Intelligence Corporation | Voice-operated internet-ready ubiquitous computing device and method thereof |
US20140156281A1 (en) * | 2012-12-03 | 2014-06-05 | Qualcomm Incorporated | Voice-controlled configuration of an automation system |
US9047857B1 (en) * | 2012-12-19 | 2015-06-02 | Rawles Llc | Voice commands for transitioning between device states |
EP2954514B1 (en) | 2013-02-07 | 2021-03-31 | Apple Inc. | Voice trigger for a digital assistant |
US9842489B2 (en) * | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
US20140244267A1 (en) * | 2013-02-26 | 2014-08-28 | Avaya Inc. | Integration of user orientation into a voice command system |
US10395651B2 (en) * | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9542933B2 (en) * | 2013-03-08 | 2017-01-10 | Analog Devices Global | Microphone circuit assembly and system with speech recognition |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9189196B2 (en) * | 2013-03-14 | 2015-11-17 | Google Inc. | Compartmentalized self registration of external devices |
US9390561B2 (en) * | 2013-04-12 | 2016-07-12 | Microsoft Technology Licensing, Llc | Personal holographic billboard |
US9472205B2 (en) * | 2013-05-06 | 2016-10-18 | Honeywell International Inc. | Device voice recognition systems and methods |
US9111548B2 (en) * | 2013-05-23 | 2015-08-18 | Knowles Electronics, Llc | Synchronization of buffered data in multiple microphones |
US20140358553A1 (en) * | 2013-06-04 | 2014-12-04 | Richard John Helmke | Voice command for control of automation systems |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
US8719039B1 (en) * | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
-
2013
- 2013-06-27 US US13/929,540 patent/US9747899B2/en active Active
-
2014
- 2014-06-26 CN CN201480037022.3A patent/CN105556592B/zh active Active
- 2014-06-26 EP EP14817855.1A patent/EP3014607B1/en active Active
- 2014-06-26 JP JP2016524222A patent/JP6314219B2/ja active Active
- 2014-06-26 WO PCT/US2014/044455 patent/WO2014210392A2/en active Application Filing
-
2017
- 2017-07-17 US US15/652,019 patent/US10720155B2/en active Active
-
2020
- 2020-07-20 US US16/933,904 patent/US11568867B2/en active Active
- 2020-07-20 US US16/933,931 patent/US11600271B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
US20090055170A1 (en) * | 2005-08-11 | 2009-02-26 | Katsumasa Nagahama | Sound Source Separation Device, Speech Recognition Device, Mobile Telephone, Sound Source Separation Method, and Program |
US20080059192A1 (en) * | 2006-01-13 | 2008-03-06 | Marian Trinkel | Method and System for Performing Telecommunication of Data |
WO2007138503A1 (en) * | 2006-05-31 | 2007-12-06 | Philips Intellectual Property & Standards Gmbh | Method of driving a speech recognition system |
US20090232287A1 (en) * | 2008-03-13 | 2009-09-17 | International Business Machines Corporation | Telecom Web Browsers, and Methods for Defining a Telecom Web Browser |
US20110142253A1 (en) * | 2008-08-22 | 2011-06-16 | Yamaha Corporation | Recording/reproducing apparatus |
US20100225461A1 (en) * | 2009-03-05 | 2010-09-09 | Raja Singh Tuli | Apparatus and method for detection of a specified audio signal or gesture |
CN102136269A (zh) * | 2010-01-22 | 2011-07-27 | 微软公司 | 经由标识信息的语音识别分析 |
CN102664004A (zh) * | 2012-03-22 | 2012-09-12 | 重庆英卡电子有限公司 | 森林盗窃行为识别方法 |
Cited By (112)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
CN109791764A (zh) * | 2016-09-01 | 2019-05-21 | 亚马逊技术公司 | 基于话音的通信 |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
CN109328381A (zh) * | 2017-05-16 | 2019-02-12 | 苹果公司 | 检测数字助理的触发 |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
CN110288994B (zh) * | 2017-05-16 | 2021-03-30 | 苹果公司 | 检测数字助理的触发 |
CN109328381B (zh) * | 2017-05-16 | 2019-08-27 | 苹果公司 | 检测数字助理的触发 |
CN110288994A (zh) * | 2017-05-16 | 2019-09-27 | 苹果公司 | 检测数字助理的触发 |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
CN107316645A (zh) * | 2017-06-01 | 2017-11-03 | 北京京东尚科信息技术有限公司 | 一种语音购物的方法和系统 |
CN111344780A (zh) * | 2017-08-30 | 2020-06-26 | 亚马逊技术股份有限公司 | 基于上下文的设备仲裁 |
CN111418008A (zh) * | 2017-11-30 | 2020-07-14 | 三星电子株式会社 | 基于声源的位置提供服务的方法以及为此的语音辨识设备 |
CN111418008B (zh) * | 2017-11-30 | 2023-10-13 | 三星电子株式会社 | 基于声源的位置提供服务的方法以及为此的语音辨识设备 |
CN108055619A (zh) * | 2018-01-29 | 2018-05-18 | 北京麦哲科技有限公司 | 一种音频采集外放装置 |
CN108364648B (zh) * | 2018-02-11 | 2021-08-03 | 北京百度网讯科技有限公司 | 用于获取音频信息的方法及装置 |
CN108364648A (zh) * | 2018-02-11 | 2018-08-03 | 北京百度网讯科技有限公司 | 用于获取音频信息的方法及装置 |
CN108461083A (zh) * | 2018-03-23 | 2018-08-28 | 北京小米移动软件有限公司 | 电子设备主板、音频处理方法、装置和电子设备 |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
CN110164446A (zh) * | 2018-06-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
CN110164446B (zh) * | 2018-06-28 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 语音信号识别方法和装置、计算机设备和电子设备 |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN111667843A (zh) * | 2019-03-05 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、系统、电子设备、存储介质 |
CN111667843B (zh) * | 2019-03-05 | 2021-12-31 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、系统、电子设备、存储介质 |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN111048067A (zh) * | 2019-11-11 | 2020-04-21 | 云知声智能科技股份有限公司 | 一种麦克风响应方法及装置 |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
Also Published As
Publication number | Publication date |
---|---|
WO2014210392A3 (en) | 2015-07-16 |
US11568867B2 (en) | 2023-01-31 |
CN105556592B (zh) | 2019-08-09 |
US20150006176A1 (en) | 2015-01-01 |
US20180130468A1 (en) | 2018-05-10 |
JP6314219B2 (ja) | 2018-04-18 |
WO2014210392A2 (en) | 2014-12-31 |
JP2016524193A (ja) | 2016-08-12 |
EP3014607A2 (en) | 2016-05-04 |
EP3014607B1 (en) | 2019-05-15 |
US9747899B2 (en) | 2017-08-29 |
EP3014607A4 (en) | 2016-11-30 |
US20210005197A1 (en) | 2021-01-07 |
US11600271B2 (en) | 2023-03-07 |
US20210005198A1 (en) | 2021-01-07 |
US10720155B2 (en) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11600271B2 (en) | Detecting self-generated wake expressions | |
CN108351872B (zh) | 用于响应用户语音的方法和系统 | |
CN110503969B (zh) | 一种音频数据处理方法、装置及存储介质 | |
US9940949B1 (en) | Dynamic adjustment of expression detection criteria | |
JP6640993B2 (ja) | 音声対応デバイス間の調停 | |
US11138977B1 (en) | Determining device groups | |
US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
US9494683B1 (en) | Audio-based gesture detection | |
JP7173758B2 (ja) | 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ | |
JP2016531375A (ja) | ローカルとリモートのスピーチ処理 | |
CN110556103A (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
US9799329B1 (en) | Removing recurring environmental sounds | |
US10878812B1 (en) | Determining devices to respond to user requests | |
US11862153B1 (en) | System for recognizing and responding to environmental noises | |
JP2020115206A (ja) | システム及び方法 | |
JP2023546703A (ja) | マルチチャネル音声アクティビティ検出 | |
KR20230084154A (ko) | 동적 분류기를 사용한 사용자 음성 활동 검출 | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |