CN105556592A

CN105556592A - 检测自我生成的唤醒声调

Info

Publication number: CN105556592A
Application number: CN201480037022.3A
Authority: CN
Inventors: 迈克尔·艾伦·波格; 菲利普·瑞安·希尔莫斯
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2013-06-27
Filing date: 2014-06-26
Publication date: 2016-05-04
Anticipated expiration: 2034-06-26
Also published as: WO2014210392A3; US11568867B2; CN105556592B; US20150006176A1; US20180130468A1; JP6314219B2; WO2014210392A2; JP2016524193A; EP3014607A2; EP3014607B1; US9747899B2; EP3014607A4; US20210005197A1; US11600271B2; US20210005198A1; US10720155B2

Abstract

本发明公开了一种基于语音的音频装置，其可以被配置来检测用户发出的唤醒声调且通过将后续单词或词语解译为命令来作出响应。为了区分所述用户发出的所述唤醒声调与所述装置本身生成的所述唤醒声调，可以分析定向音频信号以检测所述唤醒声调是否接收自多个方向。如果所述唤醒声调接收自许多方向，那么宣布所述唤醒声调是由所述音频装置生成且被忽略。否则，如果所述唤醒声调接收自单一方向或有限数量的方向，那么宣布所述唤醒声调是由所述用户发出且后续单词或词语是由所述音频装置解译和作用。

Description

检测自我生成的唤醒声调

相关申请

本申请要求2013年6月27日提交的名为“检测自我生成的唤醒声调(DetectingSelf-GeneratedWakeExpressions)”的第13/929,540号美国专利申请的优先权，所述申请的全部内容以引用方式并入本文中。

背景技术

家庭、办公室、汽车和公共空间正越来越多地进行联网且与诸如笔记本计算机、平板计算机、娱乐系统和便携式通信装置的计算装置的增长密切相关。随着计算装置的演变，其中用户与这些装置交互的方式继续演变。例如，人们可通过机械装置(例如，键盘、鼠标等等)、电气装置(例如，触屏、触控板等等)和光学装置(例如，运动检测器、照相机等等)与计算装置交互。与计算装置交互的另一方式是通过采集并响应人类语音的音频装置进行。

附图说明

参考附图描述详述。在图中，元件符号的最左侧数字识别其中元件符号首次出现的图。相同元件符号在不同图中的使用指示类似或相似组件或特征。

图1是包括声控音频装置的说明性语音交互计算架构的方框图。

图2是诸如可能在图1的架构中使用的声控音频装置的视图。

图3和4是说明可以被实施来区分用户发出唤醒声调与装置产生的唤醒声调的功能的方框图。

图5是说明用于获取可以用于检测装置产生的唤醒声调的参考参数的示例性程序的流程图。

图6是说明用于区分用户发出的唤醒声调与装置产生的唤醒声调的示例性程序的流程图。

具体实施方式

本公开内容通常涉及一种提供与用户的基于语音的交互的语音接口装置或其它音频装置。音频装置具有在用户和采集用户语音的麦克风的环境内产生音频的扬声器。音频装置可以被配置来通过执行功能和提供服务响应于用户语音。用户命令可以开始于唤醒声调(又称作触发声调，诸如预定义单词、词语或其它声音)。响应于检测到唤醒声调，音频装置将任何紧邻单词或词语解译为可操作输入或命令。

在给用户提供服务时，音频装置本身可以在其扬声器处生成唤醒声调，这可以使音频装置的反应如同用户说出唤醒声调一样。为了避免此反应，音频装置可以被配置来评估从其中接收到唤醒声调的方向。通常，将全方位接收由音频装置生成的唤醒声调。另一方面，将从一个方向或有限数量的方向接收由用户生成的唤醒声调。因此，音频装置可以被配置来忽略全方位或从一个或两个以上方向接收的唤醒声调。注意，用户发出的唤醒声调有时候由于特定环境内的声波反射而可以表现为源自于一个以上方向。

更特定地说，音频装置可以被配置来对多个定向音频信号执行唤醒声调检测。音频装置还可被配置来比较包括唤醒声调的定向音频信号的数量或图案与参考数量或图案。参考可以指示定向输入信号的阈值数量或定向信号的图案或集合。当参考包括阈值时，如果包括唤醒声调的定向输入音频信号的数量超过阈值，那么唤醒声调被视为由音频装置生成。当参考包括图案或集合时，基于包括唤醒声调的特定定向输入音频信号是否匹配所述图案或集合来评估唤醒声调。

在一些实施方式中，音频装置可以被配置来获取或训练其自身关于音频特性的图案是装置生成的唤醒声调的特性。例如，音频装置可以被配置来在初始化之后生成唤醒声调或另一声音，且识别其中检测到声调或声音的定向音频信号的组合。随后，音频装置可以被配置来当在定向音频信号的获取组合中检测到唤醒声调时忽略所述唤醒声调。

当确定受检测唤醒声调是否由音频装置而非用户生成时还可以分析或考虑其它条件或参数。作为实例，这些条件或参数可以包括以下项：扬声器输出的存在和/或响度；扬声器输出是否被视为包括语音；回声特性输入信号和/或回声降低的有效性；包括定向音频信号的已接收音频信号的响度。

机器获取技术可以用于分析各种参数以确定当已自我生成唤醒声调时通常展现出的参数的图案。

图1示出了包括用户104的环境102(例如家庭环境)中设置的说明性语音交互计算架构100。架构100包括用户104可以与其交互的电子声控音频装置106。在已说明的实施方式中，音频装置106位于环境102的房间内的桌子上。在其它实施方式中，音频装置106可以被放置在任何数量的位置中(例如，天花板、墙壁、灯具中、桌子下面、椅子下面等等)。此外，一个以上音频装置106可以位于单一房间中，或一个音频装置106可以用于适应来自一个以上房间的用户交互。

通常，音频装置106可以具有麦克风阵列108和一个或一个以上音频扬声器或换能器110以促进与用户104和/或其它用户的音频交互。麦克风阵列108产生表示来自环境102的音频(诸如由用户104发出的声音和环境102内的环境噪音)的输入音频信号。输入音频信号还可以包括由扬声器110产生的输出音频分量。如下文将更详细地描述，由麦克风阵列108产生的输入音频信号可以包括定向音频信号或可以用于产生定向音频信号，其中定向音频信号中的每一个强调来自不同于麦克风阵列108的方向的音频。

音频装置106包括操作逻辑，在许多情况中其可以包括处理器112和存储器114。处理器112可以包括多个处理器和/或具有多个核心的处理器。存储器114可以包括呈指令形式的应用程序和程序，所述指令由处理器112执行以执行实施音频装置106的所需功能(包括下文具体描述的功能)的行动或动作。存储器114可以是一种类型的计算机存储介质，且可以包括易失性和非易失性存储器。因此，存储器114可以包括但不限于RAM、ROM、EEPROM、快闪存储器或其它存储器技术。

音频装置106可以具有操作系统116，其被配置来管理音频装置106内且耦合到音频装置106的硬件和服务。此外，音频装置106可以包括音频处理组件118和语音处理组件120。

音频处理组件118可以包括用于处理由麦克风阵列108生成的输入音频信号和/或提供到扬声器110的输出音频信号的功能。作为实例，音频处理组件118可以包括用于减少由麦克风阵列108与扬声器110之间的声波耦合生成的声学回波的声学回声消除或抑制组件122。音频处理组件118还可以包括用于减少已接收音频信号中的噪音的降噪组件124，诸如音频信号而非用户语音的元件。

音频处理组件118可以包括一个或多个音频波束形成器或波束形成组件126，其被配置来生成集中在已从其中检测到用户语音的方向上的音频信号。更具体地说，波束形成组件126可以响应于麦克风阵列108的空间分离麦克风元件以产生强调源自于不同于音频装置106的方向的声音的定向音频信号，且选择并输出最有可能包括用户语音的音频信号之一。

语音处理组件120接收已由音频处理组件118处理的音频信号且执行各种类型的处理以了解由人类语音表达的意图。语音处理组件120可以包括自动语音识别组件128，其识别由已接收音频信号表示的音频中的人类语音。语音处理组件120还可以包括自然语言理解组件130，其被配置来基于用户104的已识别语音确定用户意图。

语音处理组件120还可以包括文字转语音或语音生成组件132，其将文字转换为语音以在扬声器110处生成。

音频装置106可以包括多个应用程序134，其被配置来结合音频装置106的其它元件工作以提供服务和功能。应用程序134可以包括媒体播放服务，诸如音乐播放器。作为实例，由应用程序134执行或提供的其它服务或操作可以包括请求和消费娱乐(例如，游戏、寻找并播放音乐、电影或其它内容等等)、个人管理(例如，日程安排、笔记等等)、在线购物、金融交易、数据库查询等等。在一些实施方案中，应用程序可以被预安装在音频装置106上，且可以实施音频装置106的核心功能。在其它实施方案中，应用程序134中的一个或多个可以由用户104安装，或在用户104初始化音频装置106之后以其它方式安装，且可以实施用户104所需要的额外或定制功能。

在某些实施方案中，用户与音频装置106交互的主要模式是语音。例如，音频装置106可以从用户104接收口头命令，且响应于命令提供服务。用户可以发出预定义唤醒或触发声调(例如，“叫醒”)，其后面可以跟着指令或指令符(例如，“我要去看电影。请告诉我当地电影院正在播放什么电影”)。所提供的服务可以包括执行动作或活动、呈现媒体、获得和/或提供信息、经由通过音频装置106的已生成或合成语音提供信息、代表用户104起始基于互联网的服务，等等。

音频装置106可以包括唤醒声调检测组件136，其监测已接收的输入音频并响应于用户发出唤醒或触发声调而将事件通知提供到语音处理组件120和/或应用程序134。语音处理组件120和/或应用程序134可以通过解译且作用于遵循唤醒声调的用户语音来响应。唤醒声调可以包括单词、词语或其它声音。

在一些实例中，音频装置106可以结合远距环境102的计算资源138操作或可以其它方式利用所述计算资源138。例如，音频装置106可以通过网络140耦合到远程计算资源138。如所说明，远程计算资源138可以被实施为一个或多个服务器或服务器装置142。远程计算资源138在一些实例中可以是经由诸如互联网的网络140维护和访问的网络可访问计算平台的部分。与这些远程计算资源138相关的常见表达可以包括“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问平台”、“云服务”、“数据中心”等等。

服务器142中的每一个可以包括处理器144和存储器146。服务器142可以执行支持音频装置106的各种功能，且还可以结合音频装置106提供额外服务。此外，本文中被描述为由音频装置106执行的功能中的一种或多种反而可以完全或部分由服务器142执行。作为实例，服务器142在一些情况中可以将归属于其上的功能提供到语音处理组件120。类似地，应用程序134中的一个或多个可以驻留在服务器142的存储器146中且可以由服务器142执行。

音频装置106可以经由有线技术(例如，导线、通用串行总线(USB)、光纤电缆等等)、无线技术(例如，射频(RF)、蜂巢、移动电话网络、卫星、蓝牙等等)或其它连接技术通信地耦合到网络140。网络140表示任何类型的通信网络，包括数据和/或语音网络，且可以使用有线基础设施(例如，同轴电缆、光纤电缆等等)、无线基础设施(例如，RF、蜂窝、微波、卫星、等等)和/或其它连接技术而实施。

虽然音频装置106在本文中被描述为声控或基于语音的接口装置，但是本文中描述的技术可以结合各种不同类型的装置(诸如电信装置和组件、免提装置、娱乐装置、媒体播放装置等等)实施。

图2说明音频装置106的示例性实施方案中的麦克风和扬声器定位的细节。在此实施方案中，音频装置106由圆柱体202容纳。麦克风阵列108包括6个麦克风204，其彼此横向地分开使得其可由音频波束形成组件使用来产生定向音频信号。在所说明的实施方案中，麦克风204位于圆柱体202的顶面206上的圆圈或六边形中。麦克风204中的每一者在所描述的实施方案中是全方位的，且波束形成技术用于基于来自麦克风204的信号产生定向音频信号。在其它实施方案中，麦克风可以具有定向音频接收，其可以消除对后续波束形成的需要。

在各个实施方案中，麦克风阵列108可以包括大于或小于所示出的麦克风数量的麦克风。例如，额外麦克风可以位于顶面206的中心且结合用于产生方向集中的音频信号的外围麦克风来使用。

扬声器110可以位于圆柱体202的底部处且可以被配置来以绕音频装置106的360度图案全方位发声。例如，扬声器110可以包括向下指向主体202的下部部分中的圆形扬声器元件以通过主体202的下部部分中的全方位开口或间隙208径向地发射声音。

图3说明检测唤醒声调(诸如可能结合上文描述的架构执行)的实例300。扬声器110被配置来在用户环境102中产生音频。麦克风阵列108如上文描述般配置以从用户环境102接收输入音频，其可以包括用户104发出的语音以及由扬声器110产生的音频的分量。麦克风阵列108产生分别对应于麦克风阵列108的麦克风中的每一个的多个输入音频信号302。

音频波束形成器126接收音频信号302且处理信号302以产生多个定向或定向集中的音频信号304。定向音频信号304表示或包括来自环境102的分别对应于环境102的不同区域或部分的输入音频。在所描述的实施方案中，定向音频信号304分别对应于不同于音频装置106的径向方向。

又称作音频阵列处理的音频波束形成使用具有彼此分开已知距离的多个麦克风的麦克风阵列。源自于某个来源的声音由麦克风中的每一个接收。然而，因为每一麦克风可能与声源相距不同距离，所以正传播的声波在稍微不同时间到达麦克风中的每一个处。此到达时间差在由麦克风产生的音频信号之间产生相差。可利用相差来相对于麦克风阵列增强源自于所选取方向的声音。

波束形成使用信号处理技术来组合来自不同麦克风的信号使得强调源自于特定方向的声音信号，同时解除对来自其它方向的声音信号的强调。更具体地说，以此方式组合来自不同麦克风的信号使得来自特定方向的信号经历相长干扰，而来自其它方向的信号经历相消干扰。用于波束形成的参数可以被改变来动态地选择不同方向，即使使用固定配置的麦克风阵列也是如此。

唤醒声调检测器136接收定向音频信号304且检测到由个别定向音频信号304表示的音频中发生唤醒声调。在所描述的实施方案中，这是由分别对应于定向音频信号304中的每一者的多个声调识别器或检测器306执行。声调识别器被配置来识别哪些定向音频信号304有可能包括或表示唤醒声调。在一些实施方案中，声调识别器406可以被共同地配置来识别其中检测到唤醒声调或其中有可能已发生唤醒声调的定向音频信号304的集合。

声调识别器306中的每一者实施自动语音识别以检测对应的定向音频信号304中的唤醒声调。在一些情况中，与全识别系统相比，由于只需要检测单一单词或词语的事实，可以稍微简化由声调识别器306对自动语音识别的实施。然而，在一些实施方式中，由语音识别组件128提供的元件或功能可以用于执行声调识别器306的功能。

声调识别器306产生提供对应的定向音频信号304的音频是否包括唤醒声调的指示的识别指示或参数308的集合。在一些实施方式中，每一参数或指示308可以包括关于对应的定向音频信号304的音频中是否检测到唤醒声调的二进制真值/伪值或参数。在其它实施方式中，参数或指示308可以包括置信度或概率，指示对应的定向音频信号中检测到唤醒声调的相对可能性。例如，置信度可以被指示为从0％到100％的范围的百分比。

唤醒声调检测器136可以包括分类器310，其至少部分基于由声调识别器306产生的参数308(关于哪些定向音频信号有可能包括唤醒声调)区分由扬声器110生成的唤醒声调与用户104发出的唤醒声调。

在某些实施方案中，识别器306中的每一个可以被配置来产生指示对应的定向音频信号304中是否检测或识别唤醒声调的二进制值。基于此二进制指示，分类器310识别包括唤醒声调的定向音频信号304的集合。分类器310然后基于哪些定向音频信号在定向音频信号的识别集合中来确定唤醒声调是由扬声器110生成还是由用户104发出。

作为实例，在某些情形中可以假设，用户发出的唤醒声调将接收自与音频装置106所成的单一方向或定向锥角且由扬声器110产生的唤醒声调将接收自所有方向或多个定向锥角。基于此假设，分类器310可以在所有或大多数(即，大于一半)的定向音频信号304中检测到唤醒声调时将唤醒声调评估为由扬声器110生成。如果只有定向音频信号之一或对应于单一方向的定向音频信号的相对较小集合中检测到唤醒声调，那么分类器310可以将唤醒声调评估为由用户104发出。例如，可以推断如果从音频装置处的顶点延伸的单一锥角形状内的多个方向或定向信号中发生唤醒声调，那么唤醒声调是由用户发出。

在一些情况中，由于环境102内的声波反射，可以从一个以上方向或定向锥角接收用户发出的唤醒声调。因此，分类器310可以被配置来确定如果对应于两个不同方向的定向音频信号中检测到唤醒声调，那么唤醒声调是由用户104发出，所述两个不同方向可以由从音频装置处的一个或多个顶点延伸的两个锥角形状表示。在一些情况中，如果唤醒声调被发现在少于所有定向音频信号304中或如果唤醒表达被发现在小于阈值的多个定向音频信号304中，那么唤醒表达可以被视为由用户发出。类似地，分类器310可以推断如果所有或大多数定向音频信号304由声调识别器306识别为有可能包括唤醒声调，那么唤醒声调是由扬声器110生成。

在一些实施方式中，声调识别器306可以产生关于唤醒声调是否有可能存在于对应的定向音频信号304中的非二进制指示。例如，每一声调识别器306可以提供指示唤醒声调存在于对应的定向音频信号304中的可能性或概率的置信度。分类器可以比较所接收的置信度与预定阈值或可以使用其它手段来评估唤醒声调是否存在于定向音频信号中的每一个中。

在一些情形中，分类器310可以被配置来识别当唤醒声调是由扬声器110生成时通常包括唤醒声调的定向音频信号304的图案或集合。参考图案或信号集在一些情况中可以在初始化程序中通过在扬声器110处生成唤醒声调且同时记录哪些定向音频信号304被识别为包括唤醒声调来识别。已识别信号然后被视为参考集的成员。在正常操作期间，分类器310可以推断当所观察图案或信号集具有与参考图案或信号集相同的成员时，受检测唤醒声调是由扬声器110生成。

如果分类器310确定受检测唤醒声调是由用户104发出且并非由扬声器110生成，那么分类器310生成或提供唤醒事件或唤醒通知312。唤醒事件312可以被提供到语音处理组件120、操作系统116和/或各种应用程序134。

图4说明可以在一些环境中用于评估唤醒声调是由用户发出还是自我生成的其它技术。在此情况中，分类器402接收关于所接收音频、所生成音频和音频装置106的其它操作方面的各种参数404，且基于参数404区分用户发出的唤醒声调与自我生成的唤醒声调。

由分类器402利用的参数404可以包括诸如可能由图3的声调识别器306产生的识别参数404(a)。识别参数404(a)可以包括分别对应于定向音频信号中的每一个的置信度。识别参数404(a)中的每一个可以指示对应的定向音频信号304包括唤醒声调的可能性。置信度值或可能性可以被指示为连续量表上的值，诸如从0％到100％的范围的百分比。

参数404还可以包括回声或回声相关参数404(b)，其指示存在于定向音频信号中的每一个中的回声的量或已被施加于定向音频信号中的每一个的回声降低的量。这些参数可以由回声消除组件122(图1)提供给定向音频信号304中的每一个或所有定向音频信号。回声相关参数404(b)可以被指示为连续量表上的值，诸如从0％到100％的范围的百分比。

参数404还可以包括响度参数404(c)，其指示扬声器110生成音频时的当前响度或音量级和/或所接收的定向音频信号中的每一个的响度。正如先前描述的参数，响度参数404(c)可以被指示为连续量表上的值，诸如从0％到100％的范围的百分比。响度可以基于信号的振幅(诸如输出音频信号的振幅或输入音频信号的振幅)来评估。

参数404可以包括信息参数404(d)，其指示音频装置102的其它方面。例如，信息参数404(d)可以指示语音或其它音频(可以或可以不包括唤醒声调)当前是否由扬声器110产生。类似地，信息参数404(d)可以指示唤醒声调当前是否由音频装置106的文字转语音组件132生成或原本被视为存在于扬声器110的输出中。

参数404可以被共同地评估来区分由用户发出的唤醒声调与由装置扬声器产生的唤醒声调。作为实例，以下因素可以指示扬声器生成的唤醒声调的概率：

扬声器被视为产生语音、音乐或其它音频；

高的扬声器音量；

低的回声消除度；

沿许多方向的高唤醒声调识别置信度；和

来自许多方向的高输入音频音量级。

类似地，以下因素可以指示用户生成的唤醒声调的概率：

扬声器不产生语音、音乐或其它音频；

低高的扬声器音量；

高的回声消除度；

定向音频信号中的一个或两个中的高唤醒声调识别置信度；和

来自一个或两个方向的高输入音频音量级。

分类器402可以被配置来比较参数404与参考参数406的集合以确定受检测唤醒声调是否由用户104发出或唤醒声调是否由扬声器110生成。如果所接收参数404匹配参考参数或在参考参数的公差内，那么分类器310可以产生唤醒事件312。

参考参数406可以由系统设计者基于音频装置106和/或其环境的已知特性来提供。替代地，参考参数可以在训练或机器获取程序中获取，训练或机器获取程序的实例在下文参考图5描述。参考参数406可以被指定为具体值、值和允许偏差和/或可允许范围的值。

唤醒事件312可以包括已发生唤醒声调的简单通知。替代地，唤醒事件312可以包括或伴随有允许音频装置106或应用程序134评估是否已发生唤醒声调的信息。例如，唤醒事件312可以指示或伴随有置信度，所述置信度指示发生唤醒声调的评估概率。置信度可以指示连续量表上的概率，诸如从0％到100％。取决于置信度，应用程序134可以不同方式响应于唤醒事件。例如，应用程序可以通过降低输出音频的音量来响应于低置信度使得唤醒声调的重复发出更有可能被检测到。作为另一实例，应用程序可以通过口头提示用户进行确认来响应于具有低置信度的唤醒事件。作为另一实例，应用程序可以根据接收到具有低置信度的唤醒事件来更改其随时间变化的行为。

唤醒事件312可以指示其它信息。例如，唤醒事件312可以指示发出唤醒声调的用户的身份。作为另一实例，唤醒事件312可以指示已检测到多个可用唤醒声调中的哪一个。作为另一实例，唤醒事件312可以包括识别参数404或基于或关于识别参数404的其它参数。

图5说明可以用于获取或生成参考参数406的示例性方法500。在一些情况中，示例性方法500可以被实施为机器获取以在唤醒声调被视为发生于输出音频中时动态地获取哪些定向音频信号有可能包括唤醒声调。在其它情况中，示例性方法可以被实施为机器获取以动态地获取可以用于检测音频装置106的扬声器110生成唤醒声调的各种参数和/或参数范围。

动作502包括在扬声器110处产生或生成唤醒声调。动作502可以在音频装置106启动或初始化之后和/或音频装置106的操作期间的其它时间执行。在一些实施方式中，动作502可以包括生成唤醒声调作为响应于用户命令的部分。例如，唤醒声调可以被包括在由语音生成组件132生成的语音中，且可以被生成作为提供服务或响应给用户104的部分。音频装置106可以被配置来获取参考参数或响应于扬声器110对唤醒声调的任何此已知生成而完善参考参数。

动作504包括在麦克风阵列108处接收输入音频。由于扬声器110与麦克风阵列108之间的声波计算，输入音频包括生成于动作502中的唤醒声调。

动作506包括基于所接收的输入音频产生和/或接收定向音频信号。定向音频信号在一些实施方案中可通过波束形成技术产生。在其它实施方案中，定向音频信号可以通过其它技术(诸如通过定向麦克风或放置在房间的不同区域中的麦克风)产生。

动作508包括对所产生或所接收的定向音频信号中的每一个执行唤醒声调检测。动作508可以包括评估所产生或所接收的定向音频信号以分别生成定向音频信号是否包括唤醒声调的对应指示。可通过如上文描述的识别参数指示个别定向音频信号中的唤醒声调的检测，所述识别参数可以包括二进制值或非二进制概率。

动作510包括接收识别参数，诸如上文参考图4描述的识别参数404(a)，其可以包括唤醒声调检测508的结果。在一些实施方式中，识别参数可以指示其中已检测到唤醒声调的定向音频信号的集合。在其它实施方式中，识别参数可以包括关于定向音频信号中的每一个的概率，其中每一概率指示对应的定向音频信号包括唤醒声调的可能性。

动作510还可以包括接收其它参数或指示，诸如上文参考图4描述的回声参数404(b)、响度参数404(c)和信息参数404(d)。

动作512可以包括基于动作510中接收的参数生成并保存参考参数的集合。参考参数可以包括检测到唤醒声调时的参数404的值。方法500可以在音频装置的操作期间重复或连续执行以微调和再次微调所获取的参考参数。

图6示出了检测唤醒声调且确定其是由用户104发出还是由音频装置106生成的程序600。

动作602包括在用户环境102中的扬声器110处产生输出音频。输出音频可以包括所生成的语音、音乐或其它内容，其可以由音频装置106生成或接收自其它内容源。输出音频有时候可以包括唤醒声调。

动作604包括接收输入音频，其可以包括输出音频中由于扬声器110与麦克风阵列108之间的声波耦合而产生的分量。输入音频还可以包括由用户104发出的语音，其可以包括唤醒声调。

动作606包括产生和/或接收对应于来自用户环境102的不同区域的输入音频的多个定向音频信号。定向音频信号包括来自用户环境102的不同区域或部分(诸如来自不同于音频装置106的径向方向)的音频分量。定向音频信号可以使用波束形成技术基于非定向麦克风的阵列而产生，或可以分别接收自多个定向麦克风。

动作608包括生成和/或接收关于音频装置106的操作的装置参数或指示。在一些实施方案中，动作608可以包括评估定向音频信号以生成分别对应的识别参数或定向音频信号是否包括唤醒声调的其它指示。所述参数或指示还可以包括关于语音生成、输出音频生成、回声消除等等的参数。

动作610包括评估装置参数或指示以至少部分基于声调识别参数确定输入音频中是否发生唤醒声调。此可以包括确定定向音频信号中的任何一个或多个中是否发生唤醒声调，且可以由图3的个别声调识别器306来执行。

如果没有发生唤醒声调，那么不采取进一步动作。如果定向音频信号中的至少一个中发生唤醒声调，那么执行动作612。动作612包括确定输入音频中何时检测到发生唤醒声调是输出音频中发生和/或由音频装置106的扬声器110产生唤醒声调的结果。动作612至少部分基于由动作608生成的识别参数。

在一些实施方案中，可以根据其中发现唤醒声调的定向音频信号的数量或图案来作出确定612。例如，检测到所有或大多数定向音频信号中的唤醒声调可以被视为唤醒声调是由扬声器110生成的指示，而检测到少于大多数定向音频信号中的唤醒声调可以被视为唤醒声调是由位于相对于音频装置106的特定方向上的用户生成的指示。作为另一实例，动作612可以包括识别有可能包括唤醒声调的定向音频信号的数量，及比较所述数量与阈值。更具体地说，如果被识别为有可能包括阈值的定向信号的数量小于或等于1或2的阈值，那么唤醒声调可以被视为由用户发出。

作为另一实例，动作612可以包括识别有可能包括唤醒声调的定向音频信号的集合及比较已识别集合与定向音频信号的预定集合，其中预定集合包括当输出音频中发生唤醒声调时被视为包括所述唤醒声调的定向音频信号。预定集合可以在初始化程序或在音频装置106被视为产生唤醒声调的其它时间获取。更特定地说，获取程序可以用于确定当唤醒声调已从扬声器110产生时可预期包括所述唤醒声调的定向音频信号的特定集合。类似地，获取程序可以用于确定当唤醒声调由用户发出时可预期包括所述唤醒声调的定向音频信号的图案或组。

作为另一实例，可以分析其中检测到唤醒声调的定向音频信号的图案以确定唤醒声调是否被接收作为全方位输入或其是否接收自对应于用户的位置的单一方向。在一些情况中，用户发出的唤醒声调还可以被接收作为来自反射表面的音频反射。因此，源自于两个相异方向的唤醒声调在一些情况中可以被评估为由用户发出。

某些实施方案可以参考参考参数614的集合利用动作612中的更复杂分析。参考参数614可以由系统设计者指定，或可以包括如上文参考图5描述般获取的参数。参考参数可以包括指示哪些定向音频信号包括或有可能包括唤醒声调的声调识别参数。参考参数还可以包括关于语音生成、输出音频生成、回声消除等等的参数。包括神经网络、模糊逻辑和贝叶斯(Bayesian)分类的机器获取技术可以用于配制参考参数和/或执行当前参数与参考参数的比较。

在其中由装置扬声器产生或接收自装置扬声器的音频并非全方位的情形中可以使用已获取的参考参数。诸如此的情形可以由声波反射或其它异常现象所致，和/或导致其中装置的扬声器是定向的而非全方位的实施方案。在一些实施方案中，有时候称为条形音响的波束形成扬声器可以用于在特定环境的独特声音特性的背景中针对最优性能定制扬声器输出。例如，扬声器的定向可以被配置来最小化反射和优化检测用户发出的音频的能力。

如果动作612确定受检测唤醒声调是由扬声器110产生，那么执行动作516，其包括忽略唤醒声调。否则，如果动作612确定受检测唤醒声调是由用户104发出，那么执行动作618。动作618包括宣布唤醒事件。音频装置106可以通过解译并作用于随后检测的用户语音来响应于已宣布的唤醒事件。

上文描述的实施方案可以编程方式(诸如利用计算机、处理器)实施为数字信号处理器、模拟处理器等等。然而，在其它实施方案中，可以使用专业或专用电路(包括模拟电路和/或数字逻辑电路)实施组件、功能或元件中的一个或多个。如本文中使用的术语“组件”旨在包括用于实施归属于组件的功能的任何硬件、软件、逻辑或前述组合。

虽然已按照结构特征所特有的语言描述了本主题，但是应了解，随附权利要求书中定义的主题不一定被限于所描述的具体特征。相反地，具体特征被公开为实施所述权利要求书的说明形式。

条款

1.一种被配置来响应于由用户发出的触发声调的音频装置，其包括：

扬声器，其被配置来生成输出音频；

麦克风阵列，其被配置来产生多个输入音频信号；

音频波束形成器，其被配置来至少部分基于所述输入音频信号产生多个定向音频信号，其中所述定向音频信号表示来自分别对应于所述音频装置的方向的音频；

一个或多个语音识别组件，其被配置来检测由所述相应定向音频信号中的每一个表示的所述音频中是否发生预定义声调；和

声调检测器，其被配置来(a)如果所述触发声调发生在由少于阈值数量的所述定向音频信号表示的所述音频中，那么确定所述触发声调是由所述用户发出；和(b)如果所述预定义声调发生在由所有所述定向音频信号表示的所述音频中，那么确定所述预定义声调并非由所述扬声器生成。

2.根据条款1所述的音频装置，其中所述声调检测器还被配置来在所述触发声调发生于来自在从所述音频装置处的顶点延伸的单一锥角形状内的多个方向的所述音频中时确定所述触发声调是由所述用户发出。

3.根据条款1所述的音频装置，其中所述声调检测器还被配置来在所述预定义声调发生于来自在从所述音频装置处的顶点延伸的两个锥角形状内的多个方向的所述音频中时确定所述预定义声调是由所述用户发出。

4.根据条款1所述的音频装置，其中所述声调检测器还被配置来在所述预定义声调发生于由多于一半的所述定向音频信号表示的所述音频中时确定所述预定义声调是由所述扬声器生成。

5.一种方法，其包括：

在用户环境中产生输出音频；

分别从所述用户环境的对应部分接收表示输入音频的多个音频信号；

生成指示所述定向音频信号中的一个或几个中的哪些定向音频信号包括预定义声调的一个或多个识别参数；和

至少部分基于所述一个或多个识别参数确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调结果。

6.根据条款5所述的方法，其中所述确定包括：

确定所述一个或多个识别参数是否指示所有所述音频信号均表示包括所述预定义声调的输入音频；和

如果所述一个或多个识别参数指示所有所述输入音频信号均表示包括所述预定义声调的输入音频，那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。

7.根据条款5所述的方法，其中所述确定包括：

至少部分基于所述识别参数识别表示包括所述预定义声调的输入音频的所述音频信号的数量；和

如果所述数量超过阈值，那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。

8.根据条款5所述的方法，其中：

所述识别参数包括分别对应于所述音频信号的个别参数；

每一个别参数指示所述对应音频信号是否表示包括所述预定义声调的输入音频；

所述确定还包括至少部分基于所述个别参数识别表示包括所述预定义声调的输入音频的所述音频信号的数量；和

所述确定还包括如果所述数量超过阈值，那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果。

9.根据条款5所述的方法，其中所述确定包括：

识别观察信号集，其中所述观察信号集具有包括所述音频信号中的一个或多个的一个或多个成员，所述音频信号由所述一个或多个识别参数指示为表示包括所述预定义声调的输入音频；

如果所述观察信号集和参考信号集具有所述相同的一个或多个成员，那么确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调的结果；和

其中所述参考信号集具有包括所述音频信号中的一个或多个的一个或多个成员，所述音频信号包括所述输出音频中发生所述预定义声调期间的所述预定义声调。

10.根据条款9所述的方法，其还包括识别所述输出音频中已知发生所述预定义声调期间的所述参考信号集的所述一个或多个成员，其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个，所述音频信号由所述一个或多个识别参数指示为表示包括所述输出音频中已知发生所述预定义声调期间的所述预定义声调的输入音频。

11.根据条款5所述的方法，其中所述一个或多个识别参数指示以下一项或多项：

所述输出音频的响度；

所述输出音频是否被视为包括语音；

所述输入音频的响度；或

所述音频信号的回声特性。

12.根据条款11所述的方法，其还包括使用机器获取来执行所述确定。

13.根据条款5所述的方法，其中所述一个或多个识别参数分别对应于所述定向音频信号，且其中所述一个或多个识别参数中的每一个指示所述预定义声调是否存在于所述对应音频信号中。

14.根据条款5所述的方法，其中所述一个或多个识别参数分别对应于所述音频信号，且其中所述一个或多个识别参数中的每一个指示所述预定义声调存在于所述对应音频信号中的概率。

15.一种音频装置，其包括：

一个或多个处理器；

存储计算机可执行指令的存储器，所述计算机可执行指令在由一个或多个处理器执行时使所述一个或多个处理器执行包括以下项的行动：

分别从用户环境的对应部分接收表示输入音频的多个音频信号；

评估所述音频信号以生成分别对应于所述音频信号的指示，其中每一指示指示由所述对应音频信号表示的所述输入音频是否包括预定义声调；和

评估所述指示以至少部分基于所述音频信号中的哪一个或多个表示包括所述预定义声调的输入音频来区分用户发出的所述预定义声调与音频扬声器产生的所述预定义声调。

16.根据条款15所述的音频装置，其中所述指示中的每一个包括指示所述预定义声调是否发生在由所述对应音频信号表示的所述输入音频中的二进制参数。

17.根据条款15所述的音频装置，其中所述指示中的每一个包括所述预定义声调发生在由所述对应音频信号表示的所述输入音频中的概率。

18.根据条款15所述的音频装置，所述行动还包括：

识别观察信号集，其中所述观察信号集具有包括所述音频信号中的一个或多个的一个或多个成员，所述音频信号表示包括所述预定义声调的输入音频；

其中所述评估包括如果所述观察信号集和参考信号集具有所述相同的一个或多个成员，那么确定所述输入音频中发生所述预定义声调是所述预定义声调由所述音频扬声器产生的结果；和

其中所述参考信号集中的所述一个或多个成员包括所述音频信号中的一个或多个，所述音频信号包括所述音频扬声器产生所述预定义声调期间的所述预定义声调。

19.根据条款18所述的音频装置，所述行动还包括识别所述音频扬声器已知产生所述预定义声调期间的所述参考信号集的所述一个或多个成员，其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个，所述音频信号由所述指示指示为包括所述输出扬声器已知产生所述预定义声调期间的所述预定义声调。

20.根据条款15所述的音频装置，所述行动还包括生成指示所述预定义声调是否由所述用户发出的概率的唤醒事件。

Claims

1.一种方法，其包括：

在用户环境中产生输出音频；

生成指示所述定向音频信号中的哪一个或几个包括预定义声调的一个或多个识别参数；和

至少部分基于所述一个或多个识别参数来确定所述输入音频中发生所述预定义声调是所述输出音频中发生所述预定义声调结果。

2.根据权利要求1所述的方法，其中所述确定包括：

3.根据权利要求1所述的方法，其中所述确定包括：

至少部分基于所述识别参数来识别表示包括所述预定义声调的输入音频的所述音频信号的数量；和

4.根据权利要求1所述的方法，其中：

所述识别参数包括分别对应于所述音频信号的个别参数；

所述确定还包括至少部分基于所述个别参数来识别所述音频信号的数量，所述音频信号的数量表示包括所述预定义声调的输入音频；和

5.根据权利要求1所述的方法，其中所述确定包括：

6.根据权利要求5所述的方法，其还包括识别所述输出音频中已知发生所述预定义声调期间的所述参考信号集的所述一个或多个成员，其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个，所述音频信号由所述一个或多个识别参数指示为表示包括所述输出音频中已知发生所述预定义声调期间的所述预定义声调的输入音频。

7.根据权利要求1所述的方法，其中所述一个或多个识别参数指示以下一项或多项：

所述输出音频的响度；

所述输出音频是否被视为包括语音；

所述输入音频的响度；或

所述音频信号的回声特性。

8.根据权利要求1所述的方法，其中所述一个或多个识别参数分别对应于所述定向音频信号，且其中所述一个或多个识别参数中的每一个指示所述预定义声调是否存在于所述对应音频信号中。

9.根据权利要求1所述的方法，其中所述一个或多个识别参数分别对应于所述音频信号，且其中所述一个或多个识别参数中的每一个指示所述预定义声调存在于所述对应音频信号中的概率。

10.一种音频装置，其包括：

一个或多个处理器；

11.根据权利要求10所述的音频装置，其中所述指示中的每一个包括指示所述预定义声调是否发生在由所述对应音频信号表示的所述输入音频中的二进制参数。

12.根据权利要求10所述的音频装置，其中所述指示中的每一个包括所述预定义声调发生在由所述对应音频信号表示的所述输入音频中的概率。

13.根据权利要求10所述的音频装置，所述行动还包括：

14.根据权利要求13所述的音频装置，所述行动还包括识别所述音频扬声器已知产生所述预定义声调期间的所述参考信号集的所述一个或多个成员，其中所述参考信号集的所述一个或多个成员包括所述音频信号中的一个或多个，所述音频信号由所述指示指示为包括所述输出扬声器已知产生所述预定义声调期间的所述预定义声调。

15.根据权利要求10所述的音频装置，所述行动还包括生成指示所述预定义声调是否由所述用户发出的概率的唤醒事件。