CN110709931A

CN110709931A - 用于音频模式识别的系统和方法

Info

Publication number: CN110709931A
Application number: CN201880036812.8A
Authority: CN
Inventors: 阿舒托什·潘迪; 罗伯特·措普夫
Original assignee: Cypress Semiconductor Corp
Current assignee: Cypress Semiconductor Corp
Priority date: 2017-06-06
Filing date: 2018-05-10
Publication date: 2020-01-17
Anticipated expiration: 2038-05-10
Also published as: WO2018226359A1; US20180350357A1; US10468020B2; CN110709931B; DE112018002871T5

Abstract

一个示例装置基于由一个或更多个麦克风接收的声波提供输入信号。输入信号包括语音命令分量和一个或更多个干扰分量。该装置通过一个或更多个计算机网络接收音频数据，并且该音频数据对应于一个或更多个干扰分量。该装置使用音频数据从输入信号中去除一个或更多个干扰分量的一部分以生成输出信号，并提供输出信号作为语音命令分量的估计，用于话音识别。

Description

用于音频模式识别的系统和方法

相关申请

本申请是于2017年9月26日提交的第15/716,173号美国专利申请的国际申请，其要求于2017年6月6日提交的第62/515,712号美国临时申请的优先权，这两个申请都通过引用以其整体并入本文。

技术领域

本主题涉及连接解决方案领域。更具体地，但不是作为限制，本主题公开了用于促进音频模式识别的技术。

背景

音频模式识别通常包括音频处理设备接收预定音频模式(例如通过麦克风)，并本地地或远程地执行音频模式识别，以将预定音频模式与相应的语意匹配。音频处理设备的环境不仅可以包括预定音频模式的源，还可以包括干扰音频输入的源。当干扰音频输入在音频处理设备的麦克风处被作为声波接收时，干扰音频输入与预定音频模式的声波结合，使得模式识别成为技术挑战。

附图简述

在附图的图中，一些实施例通过示例而非限制的方式示出，其中：

图1是示出了根据各种实施例的通过一个或更多个网络通信地耦合到其他设备的音频处理设备的框图；

图2是示出了根据实施例的音频处理设备的交互的框图；

图3是示出了根据实施例的参考生成器的方面的框图；

图4是示出了根据实施例的扬声器系统的交互的框图；

图5是示出了根据实施例的设备操作模式的时序图；

图6是示出了根据实施例的促进音频模式识别的方法的流程图；

图7是示出了根据实施例的用于提供声音输出和相应音频数据的方法的流程图；

图8是示出了根据实施例的包括语音控制中心(Voice Controlled Hub)(VCH)的IoT系统的框图；和

图9是示出了根据实施例的电子设备的框图。

详细描述

描述了用于音频模式识别的系统和方法。在下文的描述中，为了解释的目的，阐述了许多示例和实施例以便提供对所要求保护的主题的深入的理解。对于本领域技术人员将明显的是，所要求保护的主题可以在其他实施例中实践。一些实施例现在被简要介绍，且然后与从图1开始的其他实施例一起更详细地讨论。

根据本文描述的实施例，具有感测音频能力的连接设备可以被用作音频处理设备，以促进本地和/或远程音频模式识别。例如，智能电话具有连接到远程计算设备的接口(例如，通过个人局域网(PAN)、局域网(LAN)、互联网和/或其他网络类型)，并且具有用于感测音频(例如，语音命令)的麦克风。音频处理设备的另一个示例是语音控制中心(VCH)，其可以响应语音命令通过网络(例如蓝牙或Wi-Fi)控制设备。VCH可以被设立来控制设备，包括但不限于白色家电、恒温器、照明设备、媒体设备和/或在计算设备上运行的应用。在实施例中，VCH通过麦克风接收用户语音命令，从而促进语音识别，并指示连接设备执行相应的动作(例如，打开照明开关、播放音乐、改变电视频道、执行互联网搜索)。促进语音识别可以包括本地识别话音(speech)或者让远程话音识别应用识别话音。因此，VCH可以将连接设备的资源从必须识别话音中释放出来。

对于促进本地或远程音频模式识别的音频处理设备，当与要识别的音频模式混合时，来自环境中的源(例如，电视、扬声器或其他环境噪声)的干扰音频通常是没有用的。事实上，与仅向话音识别应用呈现音频模式的情况相比，用于分辨混合信号的音频模式的话音识别应用(例如，自动话音识别(ASR))的操作可能更消耗功率、更耗时、更不一致且更不准确。

在实施例中，由环境音频源向音频处理设备的麦克风输出的干扰音频也作为音频数据通过网络(例如，由环境音频源)提供给音频处理设备。音频处理设备然后使用共享音频数据来衰减干扰音频，该干扰音频混合在期望音频模式中呈现给麦克风。结果，音频处理设备因此可以向话音识别应用呈现期望音频模式的估计。

回到VCH示例，VCH的麦克风阵列可以接收人类用户的语音命令和由远程扬声器系统生成的扬声器声音。反过来，麦克风阵列提供包括语音命令分量和扬声器声音分量的音频输入信号。VCH还使用其射频(RF)收发器通过一个或更多个射频信道接收来自远程扬声器系统的对应于扬声器声音的流数据。处理系统可以使用数据包丢失隐藏器来隐藏流数据的不可用的数据包。

在实施例中，VCH的处理系统使用噪声消除来区分音频输入信号的语音命令分量和音频输入信号的扬声器声音分量。在实施例中，自适应滤波器可以使用相应的流数据来估计扬声器声音分量，并且将估计的流数据与音频输入信号进行比较(例如，数学地)以生成估计的语音命令分量。

在实施例中，处理系统使用VCH的存储器系统来缓冲音频输入信号，使得VCH能够将估计的流数据的定时与音频输入信号的定时同步。同步允许自适应滤波器在生成估计的语音命令分量时准确地比较估计的流数据和音频输入信号。在实施例中，根据包括但不限于语音活动、网络拥塞、功耗和/或传输时间的各种状况，VCH可以控制何时应该接收流数据以及何时不应该接收流数据。例如，处理系统可以首先检测VCH的活动(例如，语音激活)的指示，并响应地请求和接收来自扬声器系统的流数据。在处理系统检测到不活动的指示(例如，没有语音输入)之后，VCH可以响应地请求扬声器系统停止传输流数据。

本文描述的实施例可以通过加速语音识别过程、提高识别率(例如，理解更大百分比的语音命令)和提高识别的准确性来改善用户体验，同时允许用户继续使用他们连接的媒体设备。与现有技术相比，实施例可以减少和/或释放与识别话音相关联的功率和资源消耗，因为干扰音频信号从话音识别应用的输入中被去除。这些和/或类似的性能改进扩展到使用系统和方法来促进本文描述的音频模式识别的任何连接设备。例如，任何设备(例如，在点对点(P2P)网络中)都可以检测连接的媒体设备和/或请求来自当前播放干扰音频的其他设备的音频传输。本文将进一步详细描述这些和其他实施例。

下文的详细描述包括对附图的引用，附图构成详细描述的一部分。附图示出根据实施例的图示。这些实施例也可在本文被称为“示例”，它们被足够详细地描述以使本领域技术人员能够实践所要求保护的主题的实施例。在不偏离所要求保护的主题的情况下，可将实施例组合，可利用其它实施例，或可做出结构的、逻辑的和电气的改变。因此，以下详细描述不应被理解为限制意义的，并且范围由所附权利要求及其等同物限定。

图1是示出了根据各种实施例的通过一个或更多个网络114通信地耦合到其他设备的音频处理设备102的框图100。音频处理设备102促进音频模式识别，并且可以基于识别的音频模式来控制设备或应用。音频处理设备102被示为分别接收来自音频模式源104的声波105以及来自音频干扰源106和108的声波107和109。音频处理设备本身可以发出音频干扰(未示出)(例如，通过扬声器)。

音频处理设备102也被示为通过通信链路与网络114交互。为了促进模式识别，音频处理设备102提供噪声消除，以使用通过网络114从音频干扰源106和108接收的或内部生成的相应音频数据来消除一些或所有音频干扰。在实施例中，噪声消除可以使用独立分量分析(ICA)来实现，其中传入信号(例如，来自麦克风的信号)按源(例如，来自音频模式源的信号和音频干扰源的信号)分离，然后将音频数据与分离的信号进行比较，以确定哪些信号应该被去除，以留下估计的音频模式。在其他实施例中，噪声消除可以利用自适应滤波器、神经网络或本领域已知的可用来衰减信号的非目标分量的任何技术。在一些实施例中，音频处理设备102可以与受控设备103(例如，本地设备或应用)耦合，该设备可以基于识别的音频模式进行控制。

音频模式源104将提供对应于可识别音频模式的声波105。在一些实施例中，音频模式源104可以通过通信链路与网络114交互。在实施例中，音频模式是由与音频处理设备102相关联的模式识别应用可识别的音频模式和/或预定音频模式。音频模式源104可以是有生命的(例如人类)或无生命的物体(例如机器)。

音频干扰源106和108分别是声波107和109的源，它们干扰对应于声波105的音频模式的识别。音频干扰源106和108被示为通过通信链路与网络114交互。音频干扰源106和108可以通过网络114向音频处理设备102提供对应于音频干扰的音频数据。音频干扰源可以包括扬声器、电视、视频游戏、工业噪声源或任何其他噪声源，这些噪声源的声音输出被数字化或可以被数字化，并通过网络114提供给音频处理设备102。

受控设备110被示为通过链路耦合到网络114。受控设备110和103可以包括具有能够响应于由音频处理设备102促进的音频模式识别而启动的功能的任何设备。示例受控设备包括白色家电、恒温器、照明设备、自动百叶窗、自动门锁、汽车控制、窗户、工业控制和致动器。如本文所使用的，受控设备可以包括由受控设备110运行的任何逻辑、固件或软件应用。

模式识别应用112操作以识别音频模式并将识别的音频模式与相应的语意相关联。模式识别应用可以位于在通过链路耦合到网络114的计算设备上，并且使用或通过使用处理器、存储器、电路、算术逻辑、软件、算法和数据结构来组织和处理可听声音的属性，可听声音包括音高、音量、音色、重复声音或节奏声音和/或诸如单词、短语等语言声音被实现。在实施例中，模式识别应用112包括ASR，其识别预定音频模式并将它们彼此关联(例如，通过使用数据结构)和/或将它们与相应的语意相关联。模式识别应用112可识别的音频模式可以促进例如但不限于音乐识别、歌曲识别、语音识别和话音识别。

网络114可以包括一种或更多种类型的有线和/或无线网络，用于通信地耦合图1的网络节点和另一个网络节点。例如，但不限于，网络可以包括无线局域网(WLAN)(例如，符合Wi-Fi，802.11)、PAN(例如，符合Bluetooth SIG标准或Zigbee，符合IEEE 802.15.4)和互联网。在实施例中，音频处理设备102通过Wi-Fi和互联网通信耦合到模式识别应用112。音频处理设备102可以通过Bluetooth和/或Wi-Fi通信地耦合到音频干扰源106和108以及受控设备110。

图2是示出了根据实施例的音频处理设备202的交互的框图。音频处理设备202被示出为包括各种交互式功能块。每个功能块可以使用硬件(例如电路)、指令(例如软件和/或固件)或者硬件和指令的组合来实现。

麦克风阵列220将接收人类扬声器204的语音命令的声波205和/或分别从扬声器系统206和208输出的干扰声波207和209。麦克风阵列220的每个麦克风包括将声波能量转换成电子信号的机构(例如，包括膜片)。当声波205、207和209在公共周期期间被接收时，电子信号包括对应于语音命令和音频干扰的分量。在一些实施例中，阵列中的一个或更多个麦克风可以是数字麦克风。

音频输入处理230包括处理和分析从麦克风阵列220接收的电子音频信号的电路。在实施例中，音频输入处理230提供模数转换以数字化电子音频信号。一旦被数字化，音频输入处理230可以提供信号处理(例如解调、混合、滤波)，以分析或操纵音频输入的属性(例如相位、波长、频率)。音频输入处理230可以隔离音频分量(例如，通过使用波束成形)或者确定与一个或更多个音频源相关联的距离和或位置信息(例如，通过使用诸如到达时间距离(TDOA)和/或到达角度(AoA)的技术)。在一些实施例中，音频输入处理230可以使用一个或更多个自适应滤波器来提供(例如，背景噪声的)噪声消除和/或噪声分量的估计和消除。一旦这样的附加处理(如果有的话)完成，音频输入处理230可以(例如通过缓冲器240)向组合器280提供所产生的输入信号232(例如，对于麦克风阵列220的每个麦克风一个输入信号)。

激活检测250检测开始促进模式识别的指示(例如，活动模式)和/或停止促进模式识别的指示(例如，非活动模式)。促进模式识别可以包括接收来自干扰源的音频数据。在一些实施例中，人、设备或网络的活动、不活动、行为或状况可以提供指示。例如，用户可以经由对接口的触摸输入(未示出)(例如触摸屏或机械按钮)、通过做出预定的声音、手势、凝视或眼神接触来提供指示。激活检测250可以通过识别由用户说出的关键词或者通过识别用户的语音来检测该指示。在一些实施例中，该指示可以是指示缺少语音活动、用户活动或设备活动的超时。该指示可以由硬件或软件基于定时器、功耗、网络条件(例如拥塞)或任何其他内部或外部设备或网络状况来提供。在实施例中，激活检测250可以向其他部件和/或远程设备报告检测，和/或响应于检测到该指示启动模式改变。

RF/数据包处理260提供网络接口、处理网络数据包、实现编解码器、解压/压缩音频和/或提供任何其他模拟或数字数据包处理。在实施例中，RF/数据包处理260包括RF收发器，以用于无线发送和接收数据包。在实施例中，RF/数据包处理260分别经由链路215、216和217与扬声器系统206、扬声器系统208和受控设备210通信。

例如，RF/数据包处理可以接收从扬声器系统206和208接收对应于麦克风阵列220处接收的干扰声波207和209的音频数据。在实施例中，RF/数据包处理260可以提供数据包丢失隐藏，以估计和隐藏由于丢失的或损坏的数据包而缺失音频数据的部分。RF/数据包处理260还可以包括分析和处理RF信号的属性(例如相位、频率、幅度、信号强度)的电路，以估计发射设备相对于音频处理设备202的位置和/或距离。RF/数据包处理260可以检查数据包内容，以确定与发送设备相关联的特性、状态和能力(例如时间戳、位置、扬声器规格、音频质量和音量)。在实施例中，RF/数据包处理260向参考生成器270提供接收的音频数据261以及任何相关联的信息以供处理。

图2的音频处理设备是使用参考生成器270和组合器280提供噪声消除的实施例。在不脱离本发明主题的情况下，可以利用本领域已知的其他噪声消除技术。在该实施例中，消除了由音频输入处理230生成的输入信号232(例如，单通道)上的噪声，输入信号232包括来自阵列中每个麦克风的输入的组合。在其他实施例中，在生成输入信号232之前，可以针对麦克风阵列220和音频输入处理230之间的每个麦克风信号提供噪声消除。

参考生成器270基于音频数据261生成参考信号272，参考信号272是输入信号232中一个或更多个干扰分量的估计。在实施例中，参考信号272是来自不同干扰源的音频数据261的组合。为了提供干扰分量的估计，参考生成器270可以使用由音频输入处理230和/或由RF/数据包处理260提供的信息。例如，参考生成器270可以使用输入信号的属性特性、干扰源相对于音频处理设备202的距离和/或角度、和/或音频数据261的属性来估计由麦克风阵列220处的干扰声波207和209生成的干扰分量。在实施例中，参考生成器270可以使用在数字信号处理器(DSP)、应用处理器、专用硬件或两者的组合(例如，硬件加速器)上的固件中实现的自适应滤波。参考图3描述了参考生成器270的实施例。

组合器280基于参考信号272和输入信号232的比较来生成输出信号282。在实施例中，可以缓冲输入信号232的缓冲器240用于在组合之前将输入信号232的定时与参考信号272的定时同步。参考图5更详细地描述了示例缓冲器时序。

在实施例中，组合器280从输入信号232中去除所有或部分的干扰分量，以产生表示输入信号232的语音命令分量的估计的输出信号282。例如，输出信号282可以是由组合器280计算的在输入信号232和参考信号272之间的差。可选地或附加地，组合器280可以单独或组合地使用加法、乘法、除法或其他数学运算和/或算法来生成输出信号282。

组合器280可以向模式识别应用290提供输出信号282。模式识别应用290不需要位于在音频处理设备202中。在其他实施例中，输出信号282的全部或一部分可以由RF/数据包处理260发送到远程音频处理应用(例如，位于耦合到互联网的一个或更多个计算设备上)以用于语音识别。然后，音频处理设备202可以通过链路217将语音命令发送给受控设备210，以完成相应的动作。

图3是示出了根据实施例的参考生成器300的各方面的框图。在实施例中，加法器369接收来自音频干扰源n1(t)、n2(t)…nI((t))的数字I的音频数据318，并组合音频数据318以生成音频数据361，N(t)。加法器369可以位于图2的RF/数据包处理260中和/或图2的参考生成器270中。自适应滤波器371接收音频数据361，N(t)，并将参考信号372输出到减法器383。输入信号332，y(t)也被提供给减法器383。减法器383可以位于图2的参考生成器270和/或组合器280中。输入信号332，y(t)经历了在来自音频干扰源的声波传播期间的修改之后，可以包括期望的音频模式分量，x(t)和/或音频干扰分量N(t)’。因此，输入信号332，y(t)可以表示为：

y(t)＝x(t)+N(t)’ 方程1。

在实施例中，音频数据361，N(t)可以表示音频干扰分量，其没有经历在声波传播期间的修改。自适应滤波器371使用对音频数据361,N(t)的卷积运算(例如由“*”表示)和估计的脉冲响应h(t)来估计修改的音频干扰分量N(t)’。例如，自适应滤波器371可以导出通过扬声器、经由房间，然后到麦克风的传播的估计的脉冲响应h(t)。修改的音频干扰分量N(t)’可以表示为：

N(t)’＝N(t)*h(t) 方程2。

因此，减法器383的输出信号282，x(t)是期望的音频模式分量x(t)的估计，由下式给出：

x(t)＝x(t)+N(t)’-N(t)*h(t) 方程3。

在一些实施例中，音频处理设备202(未示出)的处理逻辑可以使用本领域已知的任何语音激活检测算法(例如，使用神经网络技术)来评估输出信号，以确定输入信号是否包括来自预定音频模式的目标源的有用分量。处理逻辑可以根据该确定来启动或禁止模式识别。例如，当期望音频模式的估计x(t)小于预定阈值时，处理逻辑可以确定输入信号不包括来自目标源的有用分量。当期望音频模式的估计x(t)满足或超过预定阈值时，处理逻辑可以确定输入信号确实包括来自目标源的有用分量。在实施例中，预定阈值可以在制造过程期间被选择并存储在存储器中，和/或基于运行时间期间的运行状态被动态确定并存储在存储器中。

在实施例中，加法器369、自适应滤波器371和/或减法器383的操作在频域中实现。可以使用本领域已知的任何自适应滤波技术，包括归一化最小均方(NLMS)算法。

图4是示出了根据实施例的扬声器系统206的交互的框图。扬声器系统206被示为包括各种交互式功能块。每个功能块可以使用硬件(例如电路)、指令(例如软件和/或固件)或者硬件和指令的组合来实现。

在实施例中，扬声器系统206通过扩音器437提供音频回放，并且通过RF/数据包处理460和链路217向音频处理设备202提供相应的音频数据436。RF/数据包处理460向一个或更多个网络提供通信接口，并且可以与参考图2描述的RF/数据包处理260相同或相似。音频数据生成器435路由音频数据436，以由扩音器437输出并传输到音频处理设备202。音频数据生成器435可以位于扬声器系统206的音频路由块中。在实施例中，无论何时扬声器系统206通过扩音器437回放音频，扬声器系统206都将音频数据436传输到音频处理设备202。在一些实施例中，扬声器系统206基于来自以促进模式识别的模式运行的音频处理设备202的请求或其他指示来发送音频数据436。

激活检测450用于检测音频数据436应该被发送的模式的指示或者音频数据436应该停止被发送到音频处理设备202的模式的指示。在各种实施例中，指示可以与参考图2的激活检测250描述的那些相同或相似。缓冲器240用于在音频处理设备202请求对应于已经从扩音器437播放的音频干扰的音频数据436的情况下存储音频数据436。与操作模式相关联的示例缓冲器要求将在下面参考图5进行描述。

图5是示出根据实施例的设备操作模式的时序图500。在T1 502处，音频处理设备202在其麦克风处接收声波。音频处理设备202开始生成输入信号(例如，图2的输入信号232)并缓冲输入信号，使得当音频处理设备202进入激活模式时，该输入信号可以用于促进模式识别。同样在T1 502处，扬声器系统206通过其扩音器437输出音频，并开始缓冲相应的音频数据(例如，图4的音频数据436)。

在T2 504处，音频处理设备202在T3 506处响应性地请求来自干扰源的音频数据之前检测激活指示。在实施例中，音频处理设备202可以在请求中指定所请求的音频数据应该开始的开始时间。在T4 508处，扬声器系统206开始传输其已经缓冲的音频数据。例如，尽管扬声器系统206可能自T1 502以来一直在缓冲，但是扬声器系统206可能仅发送自T2 504处的激活检测以来缓冲的音频数据。在T4 508之后，在一些实施例中，扬声器系统206可以在没有缓冲的情况下流式传输音频数据。在T5 510处，音频处理设备202接收音频数据，并且可以继续缓冲输入信号，直到参考信号已经生成并且准备好与已经缓冲的输入信号组合为止。

在实施例中，从大约T2 504(例如，激活)缓冲到大约T5 510(接收音频数据)的输入信号用于转换到活动模式。在使用该初始缓冲之后，音频处理设备202可以根据需要继续缓冲(未示出)，以支持输入信号与参考信号的同步。

在T6 512处，音频处理设备202在T7 514处响应性地请求干扰源停止发送音频数据之前被禁用。在准备另一次激活时，音频处理设备202可以在T6 512处再次开始缓冲，扬声器系统206可以在T8 516处停止发送音频数据并再次开始缓冲。

图6是示出根据实施例的用于促进音频模式识别的方法600的流程图。可以通过包括硬件(电路、判决逻辑等)、软件(诸如运行在通用计算系统或专用机上)、固件(嵌入式软件)或它们的任意组合的处理逻辑实施方法600。在各种实施例中，方法600可以由图2的音频处理设备来执行。

例如，在块602处，音频输入处理230向缓冲器240提供输入信号232，该输入信号232包括预定的或其他可识别的音频模式(例如，语音命令分量)和音频干扰(例如，干扰分量)。缓冲器240在将输入信号232提供给组合器280以在块612处使用之前缓冲输入信号232。缓冲器240可以存储输入信号232，如上参考图5所述。在一些实施例中，缓冲器将输入信号232存储足够长的时间，以支持输入信号的定时与参考信号的定时同步，使得缓冲的输入信号232的至少一部分用于生成输出信号282。

在一些实施例中，音频处理设备202或另一设备可以控制音频处理设备202是否接收来自干扰源的音频数据。干扰源或另一设备也可以控制干扰源是否向音频处理设备202发送音频数据。音频处理设备202可以在活动模式下接收音频数据，而在非活动模式下不接收音频数据。例如，可以基于网络拥塞和/或网络活动的级别来控制来自干扰源的音频数据的传输。一些实施例包括检查模式改变的块606和618以及响应于检测到模式改变开始或停止接收音频数据的块608和620。

例如，在块606处，激活检测250可以确定音频处理设备202是否已经接收到进入主动准备和提供输出信号282用于音频模式识别的模式(例如，活动模式)或者保持在当前操作模式(例如，非活动模式)的指示。如果激活检测250确定操作应该在非活动模式下继续，则在块604处，缓冲器240继续缓冲输入信号232。如果激活检测250确定操作应该改变到活动模式，则在块608处，激活检测250使得RF/数据包处理260请求对应于音频干扰的音频数据。

在块610处，RF/数据包处理260接收对应于音频干扰的音频数据，并将其转发给参考生成器270。在实施例中，可以从通信地耦合到音频处理设备202的音频干扰分量的任一源请求和接收音频数据。

在块612处，参考生成器270和组合器280使用音频数据以从输入信号中去除干扰分量并生成输出信号。例如，参考生成器基于音频数据261生成参考信号272，并将参考信号272提供给组合器280。如参照图3所述，加法器369可以组合来自多个干扰源的音频数据。图2的组合器280基于参考信号272和输入信号232生成输出信号282。例如，图3的减法器383通过从输入信号332中减去参考信号372生成输出信号382。在块616处，组合器280提供输出信号282用于音频模式识别。

在一些实施例中，音频处理设备202的处理逻辑可以提供语音活动检测，以基于所产生的输出信号282的值来确定输入信号232是否包括旨在被识别的音频模式分量。例如，处理逻辑可以使用本领域已知的任何适当的语音活动算法(例如，使用神经网络技术)来区分输入信号是包括语音命令还是仅包括来自连接设备的音频输入。例如，当输出信号282的值低于预定阈值时，处理逻辑可以确定输入信号232的值与参考信号272的值相同或相似，和/或确定输入信号232包括很少或不包括来自用户的语音命令分量，因此不需要进行语音识别应用。当输出信号382满足或超过预定阈值时，处理逻辑可以确定输入信号232的值与参考信号272的值不相同或相似，和/或确定输入信号232包括来自用户的足够量的语音命令分量，因此，应该进行语音识别应用。

在块618处，如果激活检测250确定操作应该从活动模式改变到非活动模式，则在块620处，激活检测250使得音频处理设备202停止接收对应于音频干扰的音频数据。在一些实施例中，激活检测250可以导致RF/数据包处理260请求扬声器系统206和208停止发送音频数据。可选地或附加地，激活检测250可以导致RF/数据包处理260阻止或拒绝任何传入音频数据。

图7是示出根据实施例的用于提供声音输出和相应音频数据的方法700的流程图。可以通过包括硬件(电路、判决逻辑等)、软件(诸如运行在通用计算系统或专用机上)、固件(嵌入式软件)或它们的任意组合的处理逻辑实施方法700。在各种实施例中，方法700可以由图4的音频处理设备来执行。

在块702处，音频数据生成器生成音频数据436，并将其提供给扩音器437，以便在块704处回放。同时地，但是依赖于当前操作模式，音频数据生成器435可以在块706处(例如，在非活动模式下)向缓冲器440提供音频数据436，或者在块710处(例如，在活动模式下)绕过缓冲并且向音频处理设备202提供音频数据436。

如果在块706处缓冲了音频数据，则该方法可以进行到块708，在块708中，激活检测450确定扬声器系统206是否已经接收到音频处理设备202已经进入活动模式或者正在保持工作在非活动模式的指示。在一些实施例中，模式改变指示器是来自音频处理设备202的请求或指令。如果激活检测450检测到非活动模式，缓冲器440继续在块606处缓冲音频数据。如果激活检测450检测到从非活动模式到活动模式的变化，操作进行到块710，在块710中，扬声器系统206向音频处理设备202提供音频数据436。

在块712处，激活检测450监控从活动模式到非活动模式的改变。如果模式没有改变，扬声器系统206如在块710中继续提供音频数据。如果模式变为非活动，则在块710处，扬声器系统206停止向音频处理设备202提供音频数据436，而是将其如在块706中提供给缓冲器440进行缓冲。

图8是示出了根据实施例的包括VCH 802的IoT系统800的框图。在实施例中，房间或区域中的智能设备由连接到云ASR 812的VCH 802控制。VCH 802被放置在一个区域中，以监听该区域中的任何人、检测和解释命令，并执行所请求的动作。例如，VCH 802可以控制区域内连接的灯开关811、恒温器810、电视808和扬声器806。

通过将语音控制集中放置在VCH 802中，VCH 802可以通过控制链路控制连接的设备。这可以消除在每个连接的设备上实现语音接口的需要，并且可以在提供硬件能力和开发工作方面为设备制造商节省大量成本。VCH 802可以访问互联网，并且可以执行基于云的ASR而不是本地的ASR，从而获得先进的ASR能力、处理能力，并提高性能和用户体验。

由实现实施例的VCH 802获得的来自电视808和扬声器806的音频输出避免了对语音控制操作的干扰、话音识别率的降低以及先前技术对用户体验的损害。例如，假设目标人类说话者804向VCH 802发出命令“VCH，几点了？”。同时，扬声器806正在播放一首歌词为“Come as you are”的歌曲，同时电视808正在播放带有音频“Touchdown Patriots”的超级碗。VCH 802中的麦克风802.1捕捉所有音频信号，并将混合音频信号传递给声学回声消除块(AEC)802.2。

AEC 802.2可以从音频输入信号中阻止或去除回声信号或任何不想要的信号。回声消除可以包括识别重新出现的最初发送的信号，该信号在发送或接收的信号中以一定的延迟重新出现。一旦识别出回声，就可以通过从发送或接收的信号中减去回声来消除回声。这种技术通常使用数字信号处理器或软件以数字方式实现，尽管它也可以在模拟电路中实现。

扬声器806还经由Bluetooth或Wi-Fi音频链路向VCH 802发送“Come as youare”，电视808经由Bluetooth或Wi-Fi音频链路向VCH 802发送“Touchdown Patriots”。通过无线链路的音频传输将经历位错误和数据包丢失，因此数据包丢失隐藏(PLC)算法802.4可以在VCH 802处接收信号时应用，并且在被AEC 802.2用作参考之前应用。在实施例中，驱动VCH扬声器802.5的音频信号也可以被AEC 802.2用作参考。

这些信号被用作对AEC 802.2的参考输入，在802.3处，AEC 802.2从由麦克风802.1捕捉的混合信号中减去它们的估计。结果是消除了干扰的目标信号“VCH，几点了”。该信号被传送到云ASR 812，从而使得能够准确识别，导致来自VCH扬声器802.5的回答，“时间是下午6:30”。

在一些实施例中，无论用户是否发出命令，无论何时播放音频，连接的设备都将音频传输到VCH 802。根据VCH 802的无线环境和能力，这可能会导致网络拥塞。如果经由音频链路连续地发送音频关系到功耗和/或拥塞或其他原因，则VCH 802可以基于话音信号或关键词短语的检测，经由控制链路向连接的设备发出何时发送的信号。

连接的设备可以在缓冲器中存储一定量的已播放音频。当VCH 802检测到来自用户的活动话音时，它使用控制链路通知连接的设备开始音频传输。可选择地或附加地，当VCH 802检测到语音和/或关键词短语时，VCH 802可以使用控制链路来禁用或降低正在播放音频的连接设备上的音量。VCH 802还可以使用来自麦克风802.3的传入音频的缓冲器，使其能够将AEC 802.2与捕捉的音频正确对准。在实施例中，缓冲要求基于语音活动检测延迟以及向远程设备发信号并开始接收参考信号所需的时间。

本文描述的实施例可以应用于P2P连接的场景，其中设备A想要与用户交互并执行语音识别，但是设备B正在播放音频。设备A可以在控制信道上通告请求，以找出当前是否有任何连接的设备正在播放音频。响应于该请求，建立音频链路，并且设备B将其音频发送到设备A，然后设备A可以执行设备B音频的消除，当用户试图使用语音识别时，设备B音频作为干扰被获取。

图9是示出根据实施例的电子设备900的框图。电子设备900可以完全或部分地包括和/或操作图1的音频处理设备102、音频模式源104、音频干扰源106和108、受控设备103和110和/或模式识别应用112的示例实施例。电子设备900可以是计算机系统的形式，在该计算机系统中可以执行多组指令，以使电子设备900执行本文讨论的方法中的任何一种或更多种。电子设备900可以作为独立设备运行，或者可以连接(例如联网)到其他机器。在网络化部署中，电子设备900可以在服务器-客户端网络环境中以服务器或客户端机器的身份运行，或者在P2P(或分布式)网络环境中以对等机器的身份运行。

电子设备900可以是物联网(IoT)设备、服务器计算机、客户端计算机、个人计算机(PC)、平板电脑、机顶盒(STB)、VCH、个人数字助理(PDA)、移动电话、网络设备、网络路由器、交换机或网桥、电视、扬声器、遥控器、监视器、手持多媒体设备、手持视频播放器、手持游戏设备或控制面板，或者能够执行一组指令(有顺序地或以其他方式)的任何其他机器，这些指令指定了该机器要执行的动作。此外，虽然仅示出了单个电子设备900，但是术语“设备”还应被理解为包括单独或共同地执行一组(或多组)指令以执行本文所讨论的方法的任何一种或更多种的任何机器集合。

电子设备900被示为包括处理器902。在实施例中，电子设备900和/或处理器902可以包括处理设备905，例如由加利福尼亚州圣何塞的Cypress Semiconductor Corporation开发的片上系统处理设备。可选地，电子设备900可以包括本领域的普通技术人员已知的一种或更多种其他处理设备，诸如微处理器或中央处理单元、应用处理器、主控制器、控制器、专用处理器、DSP、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等等。总线系统901可以包括通信块(未示出)，以经由通信接口909和/或总线系统901与内部或外部部件(例如嵌入式控制器或应用处理器)通信。

电子设备900的部件可位于共同载体衬底上，诸如，例如集成电路(IC)管芯衬底、多芯片模块衬底等。可选地，电子设备900的部件可以是一个或更多个独立的集成电路和/或分立部件。

存储器系统904可以包括易失性存储器和/或非易失性存储器，它们可以通过总线系统901彼此通信。存储器系统904可以包括例如随机存取存储器(RAM)和程序闪存。RAM可以是静态RAM(SRAM)，并且程序闪存可以是非易失性储存器，其可用于存储固件(例如，由处理器902可执行以实现本文描述的操作的控制算法)。存储器系统904可以包括指令903，指令903在被执行时施行本文描述的方法。存储器系统904的部分可以被动态分配以提供缓存、缓冲和/或其他基于存储器的功能。

存储器系统904可以包括提供机器可读介质的驱动单元，在该机器可读介质上可以存储一组或更多组指令903(例如，软件)，这些指令体现了本文描述的方法或功能的任何一种或更多种。在由电子设备900执行期间，指令903还可以完全地或至少部分地位于在存储器系统904的其他存储器设备内和/或处理器902内，在一些实施例中，电子设备900构成机器可读介质。指令903还可以经由通信接口909在网络上被发送或接收。

虽然机器可读介质在一些实施例中是单个介质，但是术语“机器可读介质”应当被认为包括存储一组或更多组指令的单个介质或多个介质(例如，集中式或分布式的数据库和/或相关联的缓存以及服务器)。术语“机器可读介质”也应当被认为包括能够存储或编码由机器执行的任何一组指令并使机器实施任何一个或更多个本文描述的示例操作的任何介质。术语“机器可读介质”应相应地被理解为包括但不限于固态存储器以及光学和磁性介质。

电子设备900还被示出为包括显示接口906(例如，液晶显示器(LCD)、触摸屏、阴极射线管(CRI)以及对显示技术的软件和硬件支持)、音频接口908(例如，麦克风、扬声器以及对麦克风输入/输出和扬声器输入/输出的软件和硬件支持)。电子设备900还被示出为包括用户接口910(例如，键盘、按钮、开关、触摸板、触摸屏以及对用户接口的软件和硬件支持)。

以上描述旨在是例证性而不是限制性的。例如，上述实施例(或其一个或更多个方面)可以彼此结合使用。在回顾以上描述之后，其他实施例对于本领域的技术人员将是明显的。在本文件中，术语“一个(a)”或“一个(an)”，如专利文件中常见的那样，用于包括一个或多于一个。在本文件中，术语“或”用于指非排他性的或，由此“A或B”包括“A但不是B”、“B但不是A”和“A和B”，除非另有说明。如果本文件和以引用方式并入的文件之间的用法不一致，则并入的参考文件中的用法应被认为是对本文件用法的补充；对于不可调和的不一致，本文件中的用法将取代任何引用文献中的用法。

虽然参考具体的实施例描述了所要求保护的主题，但明显地，在不背离所要求保护的更广泛的精神和范围的情况下，可以对这些实施例作出各种修改和变化。因此，说明书和附图被认为是说明性的而不是限制性的。本权利要求的范围应参考所附权利要求连同这些权利要求有权要求的等效物的整个范围来确定。在所附权利要求中，术语“包括(including)”和“其中(in which)”被用作相应术语“包括(comprising)”和“其中(wherein)”的简明英语等同物。此外，在以下权利要求中，术语“包括(including)”和“包括(comprising)”是开放式的；除了在权利要求中的术语之后列出的那些元素之外，还包括其他元素的系统、设备、物品或过程仍然被认为落入该权利要求的范围内。此外，在以下权利要求中，术语“第一”、“第二”和“第三”等仅用作标签，并不打算对其对象强加数字要求。

本公开的摘要被提供以符合37 C.F.R§1.72(b)，要求摘要能让读者快速确定技术公开的性质。应当理解的是，它将不用于解释或限制权利要求的范围或意义。

Claims

1.一种方法，包括：

基于由一个或更多个麦克风接收的声波提供输入信号，所述输入信号包括语音命令分量和一个或更多个干扰分量；

经由一个或更多个计算机网络接收音频数据，所述音频数据对应于所述一个或更多个干扰分量；

使用所述音频数据，从所述输入信号中去除所述一个或更多个干扰分量的至少一部分，以生成输出信号；和

提供所述输出信号作为所述语音命令分量的估计，用于话音识别。

2.根据权利要求1所述的方法，其中，所述音频数据的使用包括通过组合所述音频数据的第一音频数据和所述音频数据的第二音频数据来生成参考信号，其中，所述第一音频数据对应于所述一个或更多个干扰分量的第一干扰分量，并且所述第二音频数据对应于所述一个或更多个干扰分量的第二干扰分量，其中，从所述输入信号中去除所述一个或更多个干扰分量的至少一部分包括从所述输入信号中减去所述参考信号。

3.根据权利要求2所述的方法，其中，从所述输入信号中去除所述一个或更多个干扰分量的至少一部分包括将所述音频数据的至少一部分与所述输入信号的至少一部分进行组合。

4.根据权利要求1所述的方法，其中，从所述输入信号中去除所述一个或更多个干扰分量的至少一部分包括将所述音频数据的至少一部分与所述输入信号的至少一部分进行比较。

5.根据权利要求1所述的方法，还包括缓冲所述输入信号，并且使用所缓冲的输入信号的至少一部分来使所述音频数据的定时与所述输入信号的定时同步。

6.根据权利要求1所述的方法，还包括：

缓冲所述输入信号，至少直到接收到所述音频数据为止；

检测接收音频数据的指示；和

响应于检测到所述指示，经由所述一个或更多个计算机网络接收所述音频数据，其中，所述音频数据的接收响应于所述指示的检测。

7.根据权利要求6所述的方法，还包括检测停止接收音频数据的指示，并响应地停止所述音频数据的接收，以及缓冲所述输入信号。

8.根据权利要求1所述的方法，其中，经由所述一个或更多个计算机网络接收所述音频数据包括通过一个或更多个射频信道无线地接收所述音频数据的第一音频数据。

9.根据权利要求1所述的方法，其中，所述音频数据的接收包括：从所述一个或更多个干扰分量的第一干扰分量的源接收所述音频数据的第一音频数据，以及从所述一个或更多个干扰分量的第二干扰分量的源接收所述音频数据的第二音频数据。

10.根据权利要求1所述的方法，其中，提供用于话音识别的所述输出信号包括将所述输出信号传输到通信地耦合到所述一个或更多个计算机网络的第一计算机网络的话音识别应用。

11.一种音频处理设备，包括：

一个或更多个麦克风；

音频输入电路，所述音频输入电路耦合到所述一个或更多个麦克风，并且被构造为生成对应于第一声音和第二声音中的至少一个的音频信号，其中，所述第一声音包括预定音频模式，并且所述第二声音不包括所述预定音频模式；

无线接收器；和

处理逻辑，所述处理逻辑耦合到所述音频输入电路和所述无线接收器，所述处理逻辑被构造成接收对应于所述第二声音的音频数据，使用所述音频数据来估计所述音频信号的对应于所述第一声音的分量，并且基于所估计的分量的值来确定所述音频信号是否对应于所述第一声音。

12.根据权利要求11所述的音频处理设备，其中，所述处理逻辑被构造为响应于基于所述估计的分量的值小于预定阈值确定所述音频信号不对应于所述第一声音，禁止与所述第一声音相关联的音频模式识别操作。

13.根据权利要求11所述的音频处理设备，其中，所述处理逻辑被构造为响应于基于所述估计的分量的值满足或超过预定阈值确定所述音频信号对应于所述第一声音，启动与所述第一声音相关联的音频模式识别操作。

14.根据权利要求11所述的音频处理设备，其中，所述处理逻辑被构造成接收来自所述无线接收器的所述音频数据，其中，所述无线接收器被构造成经由无线传输接收来自所述第二声音的源的所述音频数据。

15.根据权利要求11所述的音频处理设备，还包括：

音频数据生成器，所述音频数据生成器被构造成生成所述音频数据；和

扬声器，所述扬声器被构造成接收所述音频数据并输出所述第二声音，其中，所述处理逻辑被构造成接收来自所述音频数据生成器的所述音频数据。

16.一种语音控制中心，包括：

麦克风阵列，所述麦克风阵列被构造成捕捉人类用户的语音命令和由远程扬声器系统生成的扬声器声音，并提供包括语音命令分量和扬声器声音分量的音频输入信号；

射频收发器，所述射频收发器被构造成接收来自所述远程扬声器系统的对应于所述扬声器声音的流数据；和

处理系统，所述处理系统被构造成使用噪声消除器来区分所述音频输入信号的所述语音命令分量和所述音频输入信号的所述扬声器声音分量，其中，所述噪声消除器被构造成使用所述流数据来从所述音频输入信号中去除所述扬声器声音分量的至少一部分，以生成估计的语音命令分量。

17.根据权利要求16所述的语音控制中心，还包括数据包丢失隐藏器，其中，所述处理系统被构造成使用所述数据包丢失隐藏器来隐藏所述流数据中对于所述噪声消除器不可用的数据包。

18.根据权利要求16所述的语音控制中心，还包括存储器系统，其中，所述处理系统被构造成使用所述存储器系统来缓冲所述音频输入信号，以使所述流数据的定时与所述音频输入信号的定时同步。

19.根据权利要求18所述的语音控制中心，其中，所述处理系统被构造成检测所述语音控制中心的语音激活，并且响应地使用所述射频收发器请求来自所述远程扬声器系统的所述流数据。

20.根据权利要求16所述的语音控制中心，其中，所述射频收发器被构造成将所述估计的语音命令分量发送到远程自动话音识别应用，并接收对应于所述估计的语音命令的语音命令数据，并且其中，所述处理系统被构造成基于所述语音命令数据启动设备功能。