CN108475511A

CN108475511A - 用于创建参考信道的自适应波束形成

Info

Publication number: CN108475511A
Application number: CN201680071469.1A
Authority: CN
Inventors: 罗伯特·阿拉佩提恩; 菲利普·瑞安·希勒姆斯
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2015-12-17
Filing date: 2016-12-08
Publication date: 2018-08-31
Anticipated expiration: 2036-12-08
Also published as: WO2017105998A1; CN108475511B; EP3391374A1; US9747920B2; US20170178662A1

Abstract

一种回声消除系统，其执行音频波束形成以便将音频输入分到多个方向上并且根据所述多个方向确定目标信号和参考信号。例如，所述系统可检测与扬声器相关联的强信号并且选择所述强信号作为参考信号，选择另一方向作为目标信号。所述系统可确定语音位置，并且可选择所述语音位置作为目标信号并选择相反方向作为参考信号。所述系统可创建相反方向的成对组合，其中选择单独的方向作为目标信号和参考信号。所述系统可选择固定波束形成器输出用于所述目标信号并且选择自适应波束形成器输出用于所述参考信号，或者反之亦然。所述系统可去除所述参考信号(例如，由所述扬声器输出的音频)以隔离包括在所述目标信号中的语音。

Description

用于创建参考信道的自适应波束形成

相关申请数据的交叉引用

本专利申请要求2015年12月17日提交的美国专利申请号14/973,274的优先权，所述申请以全文引用方式并入本文。

背景

在音频系统中，自动回声消除(AEC)是指用于在系统先前通过扬声器输出的一定延迟之后识别系统何时通过麦克风重新捕获声音的技术。提供AEC的系统从所捕获的音频中减去原始音频信号的延迟版本，从而产生所捕获音频的以下版本：所述版本理想地消除了原始音频信号的“回声”，仅留下新的音频信息。例如，如果当扬声器输出预先录制的音乐时有人正在用麦克风唱卡拉OK，则AEC可用于从由麦克风捕获的音频中去除任何录制的音乐，从而允许将歌手的话音放大并输出，而不会另外再现原始音乐的延迟“回声”。又如，通过麦克风接受话音命令的媒体播放器可使用AEC来去除由麦克风捕获的与输出媒体相对应的再现声音，从而使得处理输入话音命令更容易。

附图简述

为了更完整地理解本公开，现在参考以下结合附图进行的描述。

图1示出根据本公开的实施方案的执行自适应波束形成的回声消除系统。

图2是根据本公开的实施方案的波束形成的图示。

图3A-3B示出根据本公开的实施方案的波束形成配置的实例。

图4示出根据本公开的实施方案的自适应波束形成的不同技术的实例。

图5A-5B示出根据本公开的实施方案的使用第一技术的第一信号映射的实例。

图6A-6C示出根据本公开的实施方案的使用第一技术的信号映射的实例。

图7A-7C示出根据本公开的实施方案的使用第二技术的信号映射的实例。

图8A-8B示出根据本公开的实施方案的使用第三技术的信号映射的实例。

图9是概念性地示出根据本公开的实施方案的用于确定信号映射的示例性方法的流程图。

图10A-10B示出根据本公开的实施方案的使用第四技术的信号映射的实例。

图11是概念性地示出根据本公开的实施方案的用于确定信号映射的示例性方法的流程图。

图12是概念性地示出根据本公开的实施方案的用于回声消除的系统的示例性组件的框图。

详述

通常，常规的声学回声消除(AEC)系统可通过减去初始传输音频的延迟版本来从系统的麦克风所捕获的音频中去除由扬声器输出的音频。然而，在包括无线或网络连接的扬声器和/或麦克风的立体声和多声道音频系统中，问题的主要原因是当发送到扬声器的信号与扬声器处播放的信号之间存在差异时的情况。由于发送到扬声器的信号与扬声器处播放的信号不同，所以发送到扬声器的信号并不是AEC系统的真实参考信号。例如，当AEC系统试图通过减去初始传输音频的延迟版本来从系统的麦克风所捕获的音频中去除由扬声器输出的音频时，麦克风所捕获的音频与已经发送到扬声器的音频具有细微的不同。

由于一个或多个原因，发送到扬声器的信号与扬声器处播放的信号可能存在差异。第一个原因是扬声器与麦克风之间的时钟同步的差异(例如，时钟偏移)。例如，在包括六个无线扬声器的无线“环绕声”5.1系统中，每个无线扬声器接收来自环绕声接收器的音频信号，所述接收器和每个扬声器具有它自己的晶体振荡器，所述晶体振荡器向相应的组件提供独立的“时钟”信号。除其他之外，时钟信号的用处是将模拟音频信号转换为数字音频信号(“A/D转换”)以及将数字音频信号转换为模拟音频信号(“D/A转换”)。此类转换在音频系统中是常见的，诸如当环绕声接收器在向无线扬声器传输音频之前执行A/D转换时，以及当扬声器对所接收的信号执行D/A转换以重新创建模拟信号时。扬声器通过驱动具有模拟信号的放大版本的“音圈”来产生可听声音。

第二个原因是：发送到扬声器的信号可在无线通信期间基于压缩/解压缩而被修改，从而导致由扬声器接收的信号与发送到扬声器的信号不同。第三个情况是在播放所接收的信号之前、由扬声器对所接收的信号执行的非线性后处理。第四个原因是由扬声器执行的缓冲，这可能产生未知的延迟、附加的样本、较少的样本等，这使由扬声器播放的信号发生细微的改变。

为了在不了解由扬声器播放的信号的情况下执行声学回声消除(AEC)，设备、系统和方法可对由麦克风接收的信号执行音频波束形成，并且可基于所述音频波束形成来确定参考信号和目标信号。例如，系统可接收音频输入并将所述音频输入分到多个方向上。系统可检测与扬声器相关联的强信号并且可将所述强信号设置为参考信号，以便选择另一方向作为目标信号。在一些实例中，系统可确定语音位置(例如，近端谈话位置)，并且可将与所述语音位置相关联的方向设置为目标信号并且将相反方向设置为参考信号。如果系统未能检测到强信号或确定语音位置，则系统可创建相反方向的成对组合，其中单独的方向被用作目标信号和参考信号。系统可去除参考信号(例如，由扬声器输出的音频)以隔离包括在目标信号中的语音。

图1示出AEC系统100的回声消除方面的高级概念性框图。如图所示，音频输入110提供立体声音频“参考”信号x₁(n)112a和x₂(n)112b。参考信号x₁(n)112a通过射频(RF)链路113被传输到无线扬声器114a，并且参考信号x₂(n)112b通过RF链路113被传输到无线扬声器114b。每个扬声器输出所接收的音频，并且输出声音的部分作为“回声”信号y₁(n)120a和y₂(n)120b由一对麦克风118a和118b捕获，除了由麦克风118拾取的任何附加声音(例如，语音)之外，所述输出声音的部分还包含来自参考信号x₁(n)112a和x₂(n)112b的一些再现声音。

为了将附加声音从再现声音中隔离，设备102可包括自适应波束形成器104，所述自适应波束形成器104可对回声信号120执行音频波束形成以确定目标信号122和参考信号124。例如，自适应波束形成器104可包括固定波束形成器(FBF)105、多输入消除器(MC)106和/或阻塞矩阵(BM)107。FBF 105可被配置来在特定方向上形成波束，以使得目标信号通过并且所有其他信号被衰减，从而使得自适应波束形成器104能够选择特定方向。相比之下，BM 107可被配置来在特定方向上形成空值，以使得目标信号被衰减并且所有其他信号通过。自适应波束形成器104可生成固定波束形成(例如，FBF 105的输出)，或者可使用线性约束最小方差(LCMV)波束形成器、最小方差无失真响应(MVDR)波束形成器或其他波束形成技术来生成自适应波束形成。例如，自适应波束形成器104可接收音频输入，确定六个波束形成方向并且输出六个固定波束形成输出和六个自适应波束形成输出。在一些实例中，自适应波束形成器104可生成六个固定波束形成输出、六个LCMV波束形成输出和六个MVDR波束形成输出，但本公开不限于此。使用自适应波束形成器104和以下讨论的技术，设备102可确定目标信号122和参考信号124以便传递到声学回声消除(AEC)108。AEC 108可将参考信号(例如，再现声音)从目标信号(例如，再现声音和附加声音)中去除以去除再现声音并将附加声音(例如，语音)隔离为音频输出126。

为了说明，在一些实例中，设备102可使用FBF 105的输出作为目标信号122。例如，FBF 105的输出可在等式(1)中示出：

目标＝s+z+噪声 (1)

其中s是语音(例如，附加声音)，z是来自发送到扬声器的信号的回声(例如，再现声音)，并且噪声是不与语音或回声相关联的附加噪声。为了使回声(z)衰减，设备102可使用BM 107的输出作为参考信号124，所述参考信号124可在等式2中示出：

参考＝z+噪声 (2)

通过将参考信号124从目标信号122中去除，设备102可去除回声并且生成仅包括语音和一些噪声的音频输出126。设备102可使用音频输出126来对语音执行语音识别处理以确定命令并且可执行所述命令。例如，设备102可确定语音对应于播放音乐的命令，并且设备102可响应于接收到所述语音而播放音乐。

在一些实例中，设备102可基于发送到扬声器的信号的特征来将特定方向与再现声音和/或语音相关联。特征的实例包括可用于识别发送到扬声器的信号的功率谱密度、峰值水平、暂停间隔等，和/或不同信号之间的传播延迟。例如，自适应波束形成器104可将发送到扬声器的信号和与第一方向相关联的信号进行比较，以确定与第一方向相关联的信号是否包括来自扬声器的再现声音。当与第一方向相关联的信号与发送到扬声器的信号相匹配时，设备102可将第一方向与无线扬声器相关联。当与第一方向相关联的信号与发送到扬声器的信号不匹配时，设备102可将第一方向与语音、语音位置、人等相关联。

如图1所示，设备102可接收(130)音频输入并且可执行(132)音频波束形成。例如，设备102可从麦克风118接收音频输入并且可执行音频波束形成以便将音频输入分到单独的方向上。设备102可确定(134)与语音和/或讲话的人相关联的语音位置(例如，近端谈话位置)。例如，设备102可使用音频数据(例如，识别语音时的音频波束形成)、视频数据(例如，面部识别)和/或本领域技术人员已知的其他输入来识别语音、人和/或与语音/人相关联的位置。设备102可确定(136)目标信号并且可基于语音位置和音频波束形成来确定(138)参考信号。例如，设备102可将语音位置与目标信号相关联，并且可选择相反方向作为参考信号。

设备102可使用多种技术来确定目标信号和参考信号，这将在以下更详细地讨论。例如，当设备102检测到清晰限定的扬声器信号时，设备102可使用第一技术，当设备102未检测到清晰限定的扬声器信号但确实识别到语音位置时，设备102可使用第二技术，并且/或者当设备102未检测到清晰限定的扬声器信号或语音位置时，设备102可使用第三技术。使用第一技术，设备102可将清晰限定的扬声器信号与参考信号相关联，并且可选择任何或所有其他方向作为目标信号。例如，设备102可使用单个扬声器的所有剩余方向来生成单个目标信号，或者可使用多个扬声器的部分剩余方向来生成多个目标信号。使用第二技术，设备102可将语音位置与目标信号相关联，并且可选择相反方向作为参考信号。使用第三技术，设备102可选择相反方向的多种组合来生成多个目标信号和多个参考信号。

设备102可通过去除参考信号来将回声从目标信号中去除(140)，以隔离语音或附加声音，并且可输出(142)包括所述语音或附加声音的音频数据。例如，设备102可去除通过扬声器114播放的音乐(例如，再现声音)，以隔离输入到麦克风118的话音命令。

设备102可包括具有多个麦克风118的麦克风阵列，所述多个麦克风118彼此横向隔开，以使得它们能够由音频波束形成组件用来产生定向音频信号。在一些情况下，麦克风118可围绕设备102的周边散布，以便基于由麦克风118捕获的声音来将波束图案应用于音频信号。例如，麦克风118可沿着设备102的周边以隔开的间隔定位，但本公开不限于此。在一些实例中，麦克风118可在设备102的大体垂直表面和/或设备102的顶部表面上间隔排列。每个麦克风118是全向的，并且使用波束形成技术来基于来自麦克风118的信号产生定向音频信号。在其他实施方案中，麦克风可具有定向音频接收，这可消除对后续波束形成的需要。

在各种实施方案中，麦克风阵列可包括比所示麦克风118的数量更多或更少的麦克风。扬声器(未示出)可位于设备102的底部，并且可被配置来围绕设备102以360度模式全向地发出声音。例如，扬声器可包括在设备102的下部中向下指向的圆形扬声器元件。

使用多个麦克风118，设备102可采用波束形成技术来隔离期望的声音，以便将这些声音转换为音频信号以供系统进行语音处理。波束形成是将一组波束形成器系数应用于音频信号数据以创建波束图案或者创建增益或衰减的有效方向的过程。在一些实现方式中，这些量可被认为是由来自麦克风阵列中的各个麦克风的信号之间的相长干涉和相消干涉引起的。

设备102可包括自适应波束形成器104，所述自适应波束形成器104可包括被配置来生成音频信号的一个或多个音频波束形成器或波束形成组件，所述音频信号聚焦在已经检测到用户语音的方向上。更具体地，所述波束形成组件可对麦克风阵列的空间上分开的麦克风元件作出响应，以产生强调源自相对于设备102不同方向的声音的定向音频信号，并且选择并输出音频信号中最有可能包含用户语音的一个。

音频波束形成(也称为音频阵列处理)使用具有多个麦克风的麦克风阵列，所述多个麦克风以已知距离彼此隔开。每个麦克风接收源自声源的声音。然而，因为每个麦克风可能处于距声源的不同距离，所以传播的声波在稍微不同的时间到达每个麦克风。到达时间的这种差异导致由麦克风产生的音频信号之间的相位差。可利用所述相位差来增强源自相对于麦克风阵列的所选方向的声音。

波束形成使用信号处理技术来将来自不同麦克风的信号组合，以使得强调源自特定方向的声音信号，而不强调来自其他方向的声音信号。更具体地，来自不同麦克风的信号以这样一种方式组合：来自特定方向的信号经历相长干涉，而来自其他方向的信号经历相消干涉。即使在使用固定配置的麦克风阵列时，波束形成中使用的参数也可变化以便动态地选择不同的方向。

可使用给定的波束图案来选择性地从信号源所在的特定空间位置收集信号。所选择的波束图案可被配置来为信号源提供增益或衰减。例如，波束图案可聚焦在特定用户的头部，以允许恢复用户的语音，同时衰减来自正在运转的空调的噪声，所述空调横跨房间并且与用户相对于捕获音频信号的设备处于不同的方向上。

通过使用波束形成实现的这种空间选择性允许抑制或衰减波束图案之外的不合期望的信号。波束图案的增加的选择性提高了音频信号的信噪比。通过提高信噪比，提高了对音频信号执行的讲话人识别的准确度。

来自波束形成器模块的经处理的数据然后可经历附加的滤波或由其他模块直接使用。例如，可将滤波器应用于经处理的数据，所述滤波器正在从用户获取语音以去除来自在环境中运行的机器的残余音频噪声。

图2是根据本公开的实施方案的波束形成的图示。图2示出通过将波束形成系数应用于从设备102的麦克风阵列获取的信号数据而形成的波束图案202的示意图。如上所述，由于将一组波束形成器系数应用于信号数据而产生波束图案202。所述波束图案生成有效增益或衰减的方向。在这个图示中，虚线指示由波束形成系数提供的增益的等距线。例如，这里虚线处的增益可相对于各向同性的麦克风为+12分贝(dB)。

波束图案202可呈现出多个波瓣或增益区，其中增益在指定为波束图案方向204的特定方向上占主导地位。这里示出主波瓣206沿着波束图案方向204延伸。示出了主波瓣波束宽度208，其指示主波瓣206的最大宽度。在这个实例中，波束图案202还包括旁波瓣210、212、214和216。与沿着波束图案方向204的主波瓣206相反的是后波瓣218。设置在波束图案202周围的是空值区220。这些空值区是信号衰减的区域。在这个实例中，人10驻留在主波瓣206内并且受益于由波束图案202提供的增益，并且与通过非波束形成所获取的信号相比，呈现出提高的SNR比。相比之下，如果人10要从空值区讲话，则所得的音频信号可能显著减少。如这个图示中所示，与非波束形成相比，波束图案的使用提供了信号获取中的增益。波束形成还允许空间选择性，以便有效地允许系统对不感兴趣的信号“充耳不闻”。波束形成可导致定向音频信号，所述定向音频信号然后可由设备102和/或系统100的其他组件处理。

虽然单独的波束形成可增加音频信号的信噪(SNR)比，但是将环境的已知声学特性(例如，房间脉冲响应(RIR))和先前波束图案波瓣选择的启发式知识组合可提供正在讲话的用户在环境内的可能位置的更好指示。在一些情况下，设备包括多个麦克风，所述多个麦克风捕获包括用户语音的音频信号。如本文已知和所使用的，“捕获”音频信号包括麦克风将所捕获声音的音频波转变为电信号以及编解码器使所述信号数字化。设备还可包括用于将不同的波束图案应用于所捕获的音频信号的功能，其中每个波束图案具有多个波瓣。通过使用以上讨论的组合来识别最可能包含用户语音的波瓣，所述技术使得能够投入音频信号的最有可能包含用户语音的部分的附加处理资源，以提供更好的回声消除并且因此提供所得的经处理音频信号的更清晰的SNR比。

为了确定环境的声学特性的值(例如，环境的RIR)，设备102可以已知频率发出声音(例如，啁啾声、文本转语音音频、音乐或口语文字内容回放等)来测量环境的混响特征以生成环境的RIR。随时间以持续的方式测量，设备可能够生成环境的RIR和混响质量的一致图片，因此使得设备能够更好地确定或近似其相对于环境的墙壁或角落所在的位置(假设设备是静止的)。此外，如果设备被移动，则设备可能够通过注意到RIR图案的改变来确定这种改变。结合这个信息，通过随时间追踪设备最常选择波束图案的哪个波瓣作为具有最强口语信号路径的波瓣，设备可开始注意选择波瓣的图案。如果选择了某一组波瓣(或麦克风)，则设备可启发式地确定环境中用户的典型讲话位置。设备可将更多的CPU资源投入针对那个波瓣或那一组波瓣的数字信号处理(DSP)技术。例如，设备可在三个最常见的目标波瓣上以全强度运行声学回声消除(AEC)，而不是挑选单个波瓣来以全强度运行AEC。所述技术因此可改善后续的自动语音识别(ASR)和/或讲话人识别结果，条件是设备未被旋转或移动。而且，如果设备被移动，所述技术可帮助设备通过以下方式确定这种改变：将当前的RIR结果与历史的RIR结果进行比较来识别差异，所述差异足够显著以致使设备开始处理来自大致相等的所有波瓣的信号，而不是仅聚焦于最常见的目标波瓣。

与处理资源相等地分散到整个音频信号的情况下的SNR相比，通过将处理资源集中在音频信号的最有可能包括用户语音的一部分，这个部分的SNR可增大。在对所得的音频信号执行讲话人识别时，音频信号的最相关部分的这种较高SNR可增加设备102的功效。

使用以上基于波束形成和定向的技术，系统可确定所检测的音频相对于音频捕获组件的方向。如以下所描述的，这种方向信息可用于将语音/所识别的讲话人身份链接到视频数据。

图3A-3B示出根据本公开的实施方案的波束形成配置的实例。如图3A所示，设备102可执行波束形成以确定从麦克风阵列接收到的音频的多个部分或区段。图3A示出包括六个部分或区段(例如，区段1-6)的波束形成配置310。例如，设备102可包括六个不同的麦克风，可将围绕设备102的区域划分为六个区段等。然而，本公开不限于此，并且麦克风阵列中的麦克风的数量和/或波束形成中的部分/区段的数量可变化。如图3B所示，在不脱离本公开的情况下，设备102可生成包括八个部分/区段(例如，区段1-8)的波束形成配置312。例如，设备102可包括八个不同的麦克风，可将围绕设备102的区域划分为八个部分/区段等。因此，以下实例可执行波束形成并且将音频信号分成八个不同的部分/区段，但这些实例旨在作为说明性实例，并且本公开不限于此。

使用波束形成生成的部分/区段的数量并不取决于麦克风阵列中的麦克风的数量。例如，在不脱离本公开的情况下，设备102可包括麦克风阵列中的十二个麦克风，但可确定音频数据的三个部分、六个部分或十二个部分。如以上所讨论的，自适应波束形成器104可生成固定波束形成(例如，FBF 105的输出)，或者可使用线性约束最小方差(LCMV)波束形成器、最小方差无失真响应(MVDR)波束形成器或其他波束形成技术生成自适应波束形成。例如，自适应波束形成器104可接收音频输入，可确定六个波束形成方向并且输出与六个波束形成方向相对应的六个固定波束形成输出和六个自适应波束形成输出。在一些实例中，自适应波束形成器104可生成六个固定波束形成输出、六个LCMV波束形成输出和六个MVDR波束形成输出，但本公开不限于此。

设备102可使用固定波束形成输出来确定无线扬声器的数量和/或与无线扬声器相关联的方向。例如，设备102可定位频域中的能量并且清晰地识别与两个无线扬声器相关联的两个方向(例如，与第一扬声器相关联的第一方向以及与第二扬声器相关联的第二方向)上高得多的能量。在一些实例中，设备102可使用频率范围(例如，1kHz至3kHz)来确定与无线扬声器相关联的存在和/或位置，但本公开不限于此。在一些实例中，设备102可使用固定波束形成输出来确定无线扬声器的存在和位置，可选择固定波束形成输出的一部分作为目标信号并且可选择自适应波束形成输出的对应于无线扬声器的一部分作为参考信号。

为了执行回声消除，设备102可确定目标信号和参考信号，并且可将参考信号从目标信号中去除以生成输出信号。例如，扬声器可输出与第一方向相关联的可听声音，并且人可生成与第二方向相关联的语音。为了去除从扬声器输出的可听声音，设备102可选择音频数据的对应于第一方向的第一部分作为参考信号，并且可选择音频数据的对应于第二方向的第二部分作为目标信号。然而，本公开不限于单个部分与参考信号和/或目标信号相关联，并且在不脱离本公开的情况下，设备102可选择音频数据的对应于多个方向的多个部分作为参考信号/目标信号。例如，设备102可选择第一部分和第二部分作为参考信号，并且可选择第三部分和第四部分作为目标信号。

另外或可替代地，设备102可确定多于一个参考信号和/或目标信号。例如，设备102可识别第一无线扬声器和第二无线扬声器，并且可确定与第一无线扬声器相关联的第一参考信号并且确定与第二无线扬声器相关联的第二参考信号。设备102可通过将第一参考信号从目标信号中去除来生成第一输出，并且可通过将第二参考信号从目标信号中去除来生成第二输出。类似地，设备102可选择音频数据的第一部分作为第一目标信号，并且可选择音频数据的第二部分作为第二目标信号。因此，设备102可通过将参考信号从第一目标信号中去除来生成第一输出，并且可通过将参考信号从第二目标信号中去除来生成第二输出。

在不脱离本公开的情况下，设备102可使用音频数据的部分的任何组合来确定参考信号、目标信号和/或输出信号。例如，设备102可选择音频数据的第一部分和第二部分作为第一参考信号，可选择音频数据的第三部分作为第二参考信号，并且可选择音频数据的剩余部分作为目标信号。在一些实例中，设备102可将第一部分包括在第一参考信号和第二参考信号中，或者可将第二部分包括在第一目标信号和第二目标信号中。在不脱离本公开的情况下，如果设备102选择多个目标信号和/或参考信号，则设备102可单独地将每个参考信号从每个目标信号中去除(例如，将参考信号1从目标信号1中去除，将参考信号1从目标信号2中去除，将参考信号2从目标信号1中去除等)，可共同地将参考信号从每个单独的目标信号中去除(例如，将参考信号1-2从目标信号1中去除，将参考信号1-2从目标信号2中去除等)，共同地将单独的参考信号从目标信号中去除(例如，将参考信号1从目标信号1-2中去除，将参考信号2从目标信号1-2中去除等)或者它们的任何组合。

在不脱离本公开的情况下，设备102可选择固定波束形成输出或自适应波束形成输出作为目标信号和/或参考信号。在第一实例中，设备102可选择第一固定波束形成输出(例如，使用固定波束形成技术确定的音频数据的第一部分)作为参考信号并且选择第二固定波束形成输出作为目标信号。在第二实例中，设备102可选择第一自适应波束形成输出(例如，使用自适应波束形成技术确定的音频数据的第一部分)作为参考信号并且选择第二自适应波束形成输出作为目标信号。在第三实例中，设备102可选择第一固定波束形成输出作为参考信号并且选择第二自适应波束形成输出作为目标信号。在第四实例中，设备102可选择第一自适应波束形成输出作为参考信号并且选择第二固定波束形成输出作为目标信号。然而，本公开不限于此，并且在不脱离本公开的情况下，可选择它们的其他组合。

图4示出根据本公开的实施方案的自适应波束形成的不同技术的实例。如图4所示，第一技术可用于场景A，所述场景A可在设备102检测到清晰限定的扬声器信号时发生。例如，配置410包括无线扬声器402，并且设备102可将无线扬声器402与第一区段S1相关联。设备102可识别无线扬声器402和/或将第一区段S1与无线扬声器相关联。如以下将更详细讨论的，设备102可将第一区段S1设置为参考信号并且可将一个或多个区段识别为目标信号。虽然配置410包括单个无线扬声器402，但本公开不限于此，并且可存在多个无线扬声器402。

如图4所示，第二技术可用于场景B，所述场景B在设备102未检测到清晰限定的扬声器信号但确实识别出与人404相关联的语音位置(例如，近端谈话位置)时发生。例如，设备102可使用音频数据(例如，音频波束形成)、视频数据(例如，面部识别)和/或本领域技术人员已知的其他输入来识别人404和/或与人404相关联的位置。如图4所示，设备102可将人404与区段S7相关联。通过确定与人404相关联的位置，设备102可将所述区段(例如，S7)设置为目标信号，并且可将一个或多个区段设置为参考信号。

如图4所示，第三技术可用于场景C，所述场景C在设备102未检测到清晰限定的扬声器信号或语音位置时发生。例如，来自无线扬声器的音频可从多个对象反射，以使得设备102一次从多个位置接收音频，并且因此不能定位与无线扬声器相关联的特定区段。由于缺少限定的扬声器信号和语音位置，设备102可通过创建区段的成对组合来去除回声。例如，如以下将更详细描述的，设备102在第一等式中可使用第一区段S1作为目标信号并使用第五区段S5作为参考信号，并且在第二等式中可使用第五区段S5作为目标信号并使用第一区段S1作为参考信号。设备102可将不同区段中的每一个组合，以使得存在与区段(例如，八个)相同数量的等式(例如，八个)。

图5A-5B示出根据本公开的实施方案的使用第一技术的第一信号映射的实例。如图5A所示，配置510可包括无线扬声器502，并且设备102可在第一区段S1中检测到清晰限定的扬声器信号，并且可将第一区段S1与无线扬声器502相关联。例如，设备102可识别出无线扬声器502和/或将第一区段S1与未识别的无线扬声器相关联。

在确定配置510中存在单个无线扬声器502之后，设备102可将第一区段S1设置为参考信号522，并且可将一个或多个其他区段(例如，区段S2-S8)识别为目标信号520a-520g。通过将参考信号522从目标信号520a-520g中去除，设备102可去除由接收到来自无线扬声器502的可听声音而引起的回声。因此，当设备102检测到单个无线扬声器502时，设备102可将无线扬声器502(或接收来自无线扬声器的音频的区段)与参考信号相关联，并且将参考信号从其他区段中去除。

虽然配置510包括单个无线扬声器502，但本公开不限于此，并且可存在多个无线扬声器502。图6A-6C示出根据本公开的实施方案的使用第一技术的信号映射的实例。如图6A所示，配置610可包括第一无线扬声器602a和第二无线扬声器602b。因此，设备102可从两个方向检测到清晰限定的扬声器信号，并且可将相应的区段(例如，S1和S7)与无线扬声器602相关联。例如，设备102可识别出第一无线扬声器602a和第二无线扬声器602b，并且将第一无线扬声器602a与第一区段S1相关联并将第二无线扬声器602b与第七区段S7相关联。另外或可替代地，设备102可将第一区段S1和第七区段S7与未识别的无线扬声器相关联。

如图6B所示，在确定配置610中存在多个无线扬声器602之后，设备102可选择第一区段S1作为第一参考信号622a，并且可选择第七区段S7作为第二参考信号622b。设备102可选择剩余区段(例如，区段S2-S6和S8)中的一个或多个作为目标信号620a-620f。通过将第一参考信号622a和第二参考信号622b从目标信号620a-620f中去除，设备102可去除由接收到来自第一无线扬声器602a和第二无线扬声器602b的可听声音而引起的回声。

虽然图6B示出选择与第一无线扬声器602a和第二无线扬声器602b相对应的区段作为参考信号以及选择剩余区段作为目标信号，但本公开不限于此。替代地，设备102可将单独的目标信号与单独的参考信号相关联。例如，图6C示出设备102选择第一区段S1作为第一参考信号632，并且将一个或多个其他区段(例如，区段S5-S6)识别为第一目标信号630a-630b。通过将第一参考信号632从第一目标信号630a-630b中去除，设备102可去除由接收到来自第一无线扬声器602a的可听声音而引起的回声。另外，设备102可选择第七区段S7作为第二参考信号642，并且可将一个或多个其他区段(例如，区段S3-S4)识别为第二目标信号640a-640b。通过将第二参考信号642从第二目标信号640a-640b中去除，设备102可去除由接收到来自第二无线扬声器602b的可听声音而引起的回声。

如图6C所示，设备102将第一目标信号630a-620b选择为与第一参考信号632相反。例如，设备102可将第一参考信号632与第一区段S1相关联，并且可选择第五区段S5用于第一目标信号630a并选择第六区段S6用于第一目标信号630b。然而，虽然图6C示出设备102选择第六区段S6作为第二目标信号630b，但本公开不限于此，并且在不脱离本公开的情况下，设备102可仅将第五区段S5识别为目标信号630a。因此，当设备102检测到多个无线扬声器602时，设备102可将从无线扬声器602接收音频的区段与参考信号相关联，可确定与参考信号相反的一个或多个区段，可将相反区段与目标信号相关联，并且可将参考信号从目标信号中去除。

虽然图6A-6C示出两个无线扬声器，但本公开不限于此，并且在不脱离本公开的情况下，图6A-6C所示的实例可用于一个无线扬声器(例如，单声道音频)、两个无线扬声器(例如，立体声音频)和/或三个或更多个无线扬声器(例如，5.1音频、7.1音频等)。

图7A-7C示出根据本公开的实施方案的使用第二技术的信号映射的实例。如图7A所示，设备102可能未检测到清晰限定的扬声器信号，并且可替代地识别出与人704相关联的语音位置。例如，设备102可使用音频数据(例如，音频波束形成)、视频数据(例如，面部识别)和/或本领域技术人员已知的其他输入来识别人704和/或与人704相关联的位置。如图7B所示，设备102可将区段S7与人704相关联。通过确定与人704相关联的位置，设备102可将对应的区段(例如，S7)设置为目标信号720，并且可将一个或多个其他区段(例如，S3-S4)设置为参考信号722a-722b。例如，设备102可识别出语音位置，可将第七区段S7与所述语音位置和目标信号相关联，可确定与目标信号相反的一个或多个区段，可将相反区段与参考信号相关联，并且可将参考信号从目标信号中去除。与以上关于图5A-6C所讨论的基于无线扬声器来识别参考信号相比，设备102可替代地基于人704来识别目标信号720，并且可将参考信号从目标信号中去除以隔离语音并去除回声。

虽然图7B示出设备102选择具有参考信号722的区段S3和S4，但这旨在作为说明性实例，并且本公开不限于此。在一些实例中，设备102可选择与目标信号相反的区段(例如，与区段S7相反的区段S3)作为参考信号。在其他实例中，设备102可选择与目标信号相反的多个区段(例如，区段S2-S5中的两个或更多个)。如图7C所示，设备102可选择目标信号(例如，区段S7)中不包括的所有剩余区段(例如，区段S1-S6和S8)作为参考信号。例如，设备102可选择区段S7作为目标信号730，并且可选择区段S1-S6和S8作为参考信号732a-732g。

虽然在图7A-7C中未示出，但设备102可确定两个或更多个语音位置(例如，近端谈话位置)，并且可基于所述两个或更多个语音位置来确定一个或多个目标信号。例如，设备102可选择音频波束形成的对应于两个或更多个语音位置的多个区段作为单个目标信号；或者设备102可选择音频波束形成的对应于第一语音位置的第一区段作为第一目标信号，并且可选择音频波束形成的对应于第二语音位置的第二区段作为第二目标信号。在不脱离本公开的情况下，设备102可使用附加的组合来选择目标信号和/或参考信号。

在一些实例中，设备102可能未检测到清晰限定的扬声器信号或者未确定语音位置。为了去除回声，设备102可确定相对区段的成对组合。图8A-8B示出根据本公开的实施方案的使用第三技术的信号映射的实例。如图8A所示，设备102可能未检测到清晰限定的扬声器信号。例如，来自无线扬声器的音频可从多个对象反射，以使得设备102一次从多个位置接收音频，并且因此不能定位与无线扬声器相关联的特定区段。此外，设备102可能未确定与人相关联的语音位置。由于缺少限定的扬声器信号和语音位置，设备102可创建相对区段的成对组合。

如图8A所示，设备102可使用第一区段S1作为目标信号T1并使用区段S5-S6作为参考信号R1a-R1b来生成第一信号映射812-1。设备102可使用第二区段S2作为目标信号T2并使用区段S6-S7作为参考信号R2a-R2b来生成第二信号映射812-2。设备102可使用第三区段S3作为目标信号T3并使用区段S7-S8作为参考信号R3a-R3b来生成第三信号映射812-3。设备102可使用第四区段S4作为目标信号T4并使用区段S8-S1作为参考信号R4a-R4b来生成第四信号映射812-4。设备102可使用第五区段S5作为目标信号T5并使用区段S1-S2作为参考信号R5a-R5b来生成第五信号映射812-5。设备102可使用第六区段S6作为目标信号T6并使用区段S2-S3作为参考信号R6a-R6b来生成第六信号映射812-6。设备102可使用第七区段S7作为目标信号T7并使用区段S3-S4作为参考信号R7a-R7b来生成第七信号映射812-7。设备102可使用第八区段S8作为目标信号T8并使用区段S4-S5作为参考信号R8a-R8b来生成第八信号映射812-8。

如图8A所示，每个区段既用作目标信号又用作参考信号，从而导致与存在的区段相等数量的信号映射812。设备102可使用每个信号映射812-1至812-8来生成方程，并且可求解方程以便将回声从一个或多个无线扬声器中去除。

虽然图8A示出在单个信号映射812中多个区段被用作参考信号，但本公开不限于此。替代地，图8B示出在单个信号映射中单个区段被用作参考信号的实例。此外，图8B示出单独的区段与单独的麦克风(m1-m8)相关联。例如，在由八个麦克风组成的麦克风阵列中，第一区段S1可对应于第一麦克风m1，第二区段S2可对应于第二麦克风m2等等。

如图8B所示，设备102可使用第一麦克风m1作为目标信号T1并使用麦克风m5作为参考信号R1来生成第一信号映射822-1。设备102可使用第二麦克风m2作为目标信号T2并使用麦克风m6作为参考信号R2来生成第二信号映射822-2。设备102可使用第三麦克风m3作为目标信号T3并使用麦克风m7作为参考信号R3来生成第三信号映射822-3。设备102可使用第四麦克风m4作为目标信号T4并使用麦克风m8作为参考信号R4来生成第四信号映射822-4。设备102可使用第五麦克风m5作为目标信号T5并使用麦克风m1作为参考信号R5来生成第五信号映射822-5。设备102可使用第六麦克风m6作为目标信号T6并使用麦克风m2作为参考信号R6来生成第六信号映射822-6。设备102可使用第七麦克风m7作为目标信号T7并使用麦克风m3作为参考信号R7来生成第七信号映射822-7。设备102可使用第八麦克风m8作为目标信号T8并使用麦克风m4作为参考信号R8来生成第八信号映射822-8。

如图8B所示，设备102生成相对麦克风的成对组合，以使得每个麦克风既用作目标信号又用作参考信号，从而导致与存在的麦克风相等数量的信号映射822。设备102可使用每个信号映射822-1至822-8来生成方程，并且可求解方程以便将回声从一个或多个无线扬声器中去除。

图9是概念性地示出根据本公开的实施方案的用于确定信号映射的示例性方法的流程图。如图9所示，设备102可执行(910)音频波束形成以便将音频数据分成多个区段。设备102可确定(912)在一个或多个区段中是否存在强扬声器信号。如果存在强扬声器信号，则设备102可确定(914)扬声器信号(例如，与扬声器信号相关联的区段)为参考信号，并且可确定(916)剩余信号为目标信号。然后，设备102可使用参考信号来将回声从目标信号中去除(140)，并且可输出(142)语音，如以上关于图1所讨论的。

虽然在图9中未示出，但是如果设备102检测到两个或更多个强扬声器信号，则设备102可确定对应于所述两个或更多个强扬声器信号的一个或多个参考信号，并且可确定对应于音频波束形成的剩余部分的一个或多个目标信号。如以上所讨论的，在不脱离本公开的情况下，设备102可确定目标信号、参考信号和输出信号的任何组合。例如，如以上关于图6B所讨论的，设备102可确定与无线扬声器相关联的参考信号，并且可选择波束形成输出的剩余部分作为目标信号。另外或可替代地，如图6C所示，如果设备102检测到多个无线扬声器，则设备102可生成单独的参考信号，其中每个无线扬声器与参考信号相关联，并且与参考信号相反的区段与对应的目标信号相关联。例如，设备102可检测到第一无线扬声器，将对应的区段确定为第一参考信号，确定与第一参考信号相反的一个或多个区段，并且将所述一个或多个区段确定为第一目标信号。然后，设备102可检测到第二无线扬声器，将对应的区段确定为第二参考信号，确定与第二参考信号相反的一个或多个区段，并且将所述一个或多个区段确定为第二目标信号。

如果设备102未检测到强扬声器信号，则设备102可确定(918)音频数据中是否存在语音位置或者是否存在与音频数据相关联的语音位置。例如，设备102可使用音频数据(例如，音频波束形成)、相关联的视频数据(例如，面部识别)和/或本领域技术人员已知的其他输入来识别讲话的人和/或与人相关联的位置。在一些实例中，设备102可确定语音与一个区段相关联，并且可使用所述区段来确定语音位置。在其他实例中，设备102可接收与音频数据相关联的视频数据，并且可使用面部识别或其他技术来确定与在视频数据中识别出的面部相关联的位置。如果设备102检测到语音位置，则设备102可确定(920)所述语音位置为目标信号，并且可确定(922)相反方向为参考信号。例如，第一区段S1可与目标信号相关联，并且设备102可确定第五区段S5与第一区段S1相反，并且可使用第五区段S5作为参考信号。在不脱离本公开的情况下，设备102可将多于一个区段确定为参考信号。然后，设备102可使用参考信号来将回声从目标信号中去除(140)，并且可输出(142)语音，如以上关于图1所讨论的。虽然在图9中未示出，但设备102可确定两个或更多个语音位置(例如，近端谈话位置)，并且可基于所述两个或更多个语音位置来确定一个或多个目标信号。例如，设备102可选择音频波束形成的对应于两个或更多个语音位置的多个区段作为单个目标信号；或者设备102可选择音频波束形成的对应于第一语音位置的第一区段作为第一目标信号，并且可选择音频波束形成的对应于第二语音位置的第二区段作为第二目标信号。

如果设备102未检测到语音位置，则设备102可基于音频束形成来确定(924)多个组合。例如，设备102可确定相对区段和/或麦克风的多个组合，如图8A-8B所示。设备102可选择(selet)(926)第一组合，确定(828)目标信号并且确定(930)参考信号。例如，设备102可选择第一区段S1作为目标信号，并且选择与第一区段S1相反的第五区段S5作为参考信号。设备102可确定(932)是否存在附加的组合，并且如果存在，则可循环(934)到步骤926并重复步骤926-930。例如，在稍后的组合中，设备102可选择第五区段S5作为目标信号并选择第一区段S1作为参考信号。一旦设备102已经为每个组合确定了目标信号和参考信号，则设备102可使用参考信号来将回声从目标信号中去除(140)并且输出(142)语音，如以上关于图1所讨论的。

在一些实例中，语音位置可能在无线扬声器附近(例如，语音位置与无线扬声器之间的距离低于阈值)。因此，设备102可将由人生成的语音与由无线扬声器实现的音频输出分组，从而将回声(例如，由无线扬声器实现的音频输出)和语音两者从音频数据中去除。如果设备102检测到多于一个无线扬声器，则设备102可执行第四技术以便在保留语音的同时去除回声。图10A-10B示出根据本公开的实施方案的使用第四技术的第四信号映射的实例。在图10A-10B所示的实例中，设备102已经确定存在至少两个无线扬声器。在一些实例中，设备102可确定语音位置对应于无线扬声器中的一个，但本公开不限于此。虽然图10A-10B示出两个无线扬声器，但在不脱离本公开的情况下，所述技术可适用于三个或更多个无线扬声器。

如图10A所示，配置1010可包括第一无线扬声器1004a和第二无线扬声器1004b。在某个时间，人1002可位于第一无线扬声器1004a附近，这可导致设备102对来自人1002的语音以及来自第一无线扬声器1004a的音频输出进行分组，并且除了由第一无线扬声器1004a实现的音频输出之外，还将语音从音频数据中去除。为了防止这种无意的语音去除，任选地，设备102可确定人1002在第一无线扬声器1004a附近(例如，人1002和无线扬声器1004a都与第一区段S1相关联)，并且可选择第一区段S1作为目标信号1020。然后,设备102可选择与第二无线扬声器1004b相关联的第七区段S7作为参考信号1022。设备102可将参考信号1022从目标信号1020中去除，从而将由人1002生成的语音与由第一无线扬声器1004a实现的音频输出隔离。

在一些实例中，设备102可使用本领域技术人员已知的技术来将由第一无线扬声器1004a实现的第一音频输出与由第二无线扬声器1004b实现的第二音频输出相匹配。例如，设备102可确定第一音频输出与第二音频输出之间的传播延迟，并且可基于所述传播延迟将参考信号1022从目标信号1020中去除。

图11是概念性地示出根据本公开的实施方案的用于确定信号映射的示例性方法的流程图。如图11所示，设备102可执行(1110)音频波束形成以便将音频数据分成单独的区段。设备102可检测到(1112)从多个无线扬声器输出的音频信号。例如，设备102可识别出与第一扬声器方向相关联的第一无线扬声器，并且识别出与第二扬声器方向相关联的第二无线扬声器。设备102可选择(1114)第一扬声器方向作为目标信号，并且可选择(1116)第二扬声器方向作为参考信号。设备102可使用参考信号来将回声从目标信号中去除(1118)以隔离语音并且可输出(1120)所述语音。例如，语音的语音位置可在第一无线扬声器附近，并且设备102可将由第二无线扬声器实现的第二音频输出从由第一无线扬声器实现的第一音频输出中去除以隔离语音。在一些实例中，设备102可确定语音位置，并且可基于所述语音位置来选择目标信号(例如，语音位置与目标信号相关联)。然而，本公开不限于此，并且即使当语音与参考信号相关联时，设备102也可隔离语音。

图12是概念性地示出系统100的示例性组件的框图。在操作中，系统100可包括驻留在设备102上的计算机可读且计算机可执行指令，如以下将进一步讨论的。

系统100可包括一个或多个音频捕获设备，诸如麦克风或麦克风阵列118。音频捕获设备可整合在设备102中或者可以是分开的。

系统100还可包括用于产生声音的音频输出设备，诸如扬声器116。音频输出设备可整合在设备102中或者可以是分开的。

设备102可包括用于在设备102的组件之间传送数据的地址/数据总线1224。除了(或者代替)通过总线1224连接到其他组件，设备102内的每个组件还可直接连接到其他组件。

设备102可包括：一个或多个控制器/处理器1204，所述一个或多个控制器/处理器1204可各自包括用于处理数据和计算机可读指令的中央处理单元(CPU)；以及用于存储数据和指令的存储器1206。存储器1206可包括易失性随机存取存储器(RAM)、非易失性只读存储器(ROM)、非易失性磁阻随机存取存储器(MRAM)和/或其他类型的存储器。设备102还可包括用于存储数据和控制器/处理器可执行指令(例如，用于执行图1、图10和/或图11中所示的算法的指令)的数据存储组件1208。数据存储组件1208可包括一个或多个一种或多种非易失性存储装置类型，诸如磁存储装置、光存储装置、固态存储装置等。设备102还可通过输入/输出设备接口1202连接到可移动或外部非易失性存储器和/或存储装置(诸如可移动存储卡、存储器密钥驱动器、网络存储装置等)。

可由控制器/处理器1204使用存储器1206作为运行时的暂时性“工作”存储装置来执行用于操作设备102及其各种组件的计算机指令。计算机指令可以非暂时性方式存储在非易失性存储器1206、存储装置1208或外部设备中。可替代地，除了软件或者代替软件，可执行指令中的一些或全部可以嵌入硬件或者固件中。

设备102包括输入/输出设备接口1202。多种组件可通过输入/输出设备接口1202连接，诸如扬声器116、麦克风118以及媒体源(诸如数字媒体播放器(未示出))。如果麦克风118与设备102整合在一起或者直接硬连线到设备102，则输入/输出接口1202可包括用于将麦克风118的输出转换成信号y 120的A/D转换器。如果麦克风118是独立的，则A/D转换器将被包括在麦克风中，并且可独立于设备102的计时而进行计时。同样，如果扬声器114与设备102整合在一起或者硬连线到设备102，则输入/输出接口1202可包括用于将参考信号x 112转换为模拟电流以驱动扬声器114的D/A转换器。然而，如果扬声器是独立的，则D/A转换器将被包括在扬声器中，并且可独立于设备102(例如，常规蓝牙扬声器)的计时而进行计时。

输入/输出设备接口1202还可包括用于外部外围设备连接(诸如通用串行总线(USB)、FireWire、Thunderbolt或者其他连接协议)的接口。输入/输出设备接口1202还可包括通过以太网端口、无线局域网(WLAN)(诸如WiFi)无线电、蓝牙和/或无线网络无线电(诸如能够与诸如长期演进(LTE)网络、WiMAX网络、3G网络等的无线通信网络进行通信的无线电)到一个或多个网络1299的连接。通过网络1299，系统100可分布在网络环境中。

设备102还包括自适应波束形成器104和声学回声消除(AEC)108，所述自适应波束形成器104包括固定波束形成器(FBF)105、多输入消除器(MC)106以及阻塞矩阵(BM)107。

多个设备102可用于单个系统100中。在这种多设备系统中，设备102中的每一个可包括用于执行AEC过程的不同方面的不同组件。多个设备可包括重叠的组件。如图12所示的设备102的组件是示例性的，并且可以是独立设备或者可整体或部分地被包括为更大的设备或系统的组件。例如，在某些系统配置中，一个设备可传输和接收音频数据，另一个设备可执行AEC，并且还有一个设备可使用音频输出126进行诸如语音识别的操作。

本文所公开的概念可在多个不同的设备和计算机系统内应用，所述设备和计算机系统包括例如通用计算系统、多媒体机顶盒、电视机、立体声设备、无线电、服务器-客户端计算系统、电话计算系统、膝上型计算机、蜂窝电话、个人数字助理(PDA)、平板计算机、可穿戴计算设备(手表、眼镜等)、其他移动设备等。

本公开的上述方面意图是说明性的。它们被选择来解释本公开的原理和应用，并且不意图是详尽的或者限制本公开。本公开的方面的许多修改和变化可以对本领域技术人员显而易见。数字信号处理和回声消除领域的普通技术人员应认识到，本文所描述的组件和过程步骤可与其他组件或步骤或者组件或步骤的组合互换，并且仍然实现本公开的益处和优点。此外，本领域的技术人员应明白，可在没有本文所公开的特定细节和步骤中的一些或全部的情况下实践本公开。

所公开的系统的方面可被实现为计算机方法，或者被实现为诸如存储器设备或非暂时性计算机可读存储介质的制造制品。计算机可读存储介质可由计算机读取并且可包括用于致使计算机或者其他设备执行本公开中描述的过程的指令。计算机可读存储介质可通过易失性计算机存储器、非易失性计算机存储器、硬盘驱动器、固态存储器、闪存驱动器、可移动磁盘和/或其他介质来实现。STFT AEC模块1230中的一些或全部可由数字信号处理器(DSP)来实现。

如在本公开中所使用的，术语“一个(a)”或“一种(one)”可包括一个或多个项目，除非另外特别说明。此外，除非另有明确说明，否则短语“基于”意图指“至少部分地基于”。

本公开的实施方案可鉴于以下条款来描述：

1.一种用于从音频信号中消除回声以隔离所接收的语音的计算机实现的方法，所述方法包括：

向第一无线扬声器发送第一输出音频信号；

从麦克风阵列中的第一麦克风接收第一输入音频信号，所述第一输入音频信号包括由所述第一无线扬声器输出的可听声音的第一表示以及语音输入的第一表示；

从所述麦克风阵列中的第二麦克风接收第二输入音频信号，所述第二输入音频信号包括由所述第一无线扬声器输出的所述可听声音的第二表示以及所述语音输入的第二表示；

执行第一音频波束形成以确定组合输入音频数据的第一部分，所述第一部分包括所述第一输入音频信号的对应于第一方向的第一部分以及所述第二输入音频信号的对应于所述第一方向的第一部分；

执行第二音频波束形成以确定所述组合输入音频数据的第二部分，所述第二部分包括所述第一输入音频信号的对应于第二方向的第二部分以及所述第二输入音频信号的对应于所述第二方向的第二部分；

选择至少所述第一部分作为将执行回声消除的目标信号；

选择至少所述第二部分作为将从所述目标信号中去除的参考信号；

将所述参考信号从所述目标信号中去除以生成包括所述语音输入的第三表示的第二输出音频信号；

对所述第二输出音频信号执行语音识别处理以确定命令；以及

执行所述命令。

2.如权利要求1所述的计算机实现的方法，其还包括：

确定所述第二部分对应于多个部分的可听声输出的最高幅值表示；

确定所述第二部分的幅值高于阈值；

将所述第二部分与所述第一无线扬声器相关联；

选择所述第二部分作为所述参考信号；以及

选择所述多个部分的剩余部分作为所述目标信号。

3.如权利要求1所述的计算机实现的方法，其还包括：

确定所述语音输入与所述第一方向相关联；

选择所述第一部分作为所述目标信号；以及

选择至少所述第二部分作为所述参考信号。

4.如权利要求1所述的计算机实现的方法，其还包括：

确定所述第二部分对应于多个部分的可听声音输出的最高幅值表示；

确定所述第二部分的幅值低于阈值；

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；

选择所述第二部分作为所述参考信号；

选择所述第二部分作为第二目标信号；

选择所述第一部分作为第二参考信号；

将所述参考信号从所述目标信号中去除以生成所述第二输出音频信号；以及

将所述第二参考信号从所述第二目标信号中去除以生成第三输出音频信号。

5.一种计算机实现的方法，其包括：

从麦克风阵列中的第一麦克风接收第一输入音频数据，所述第一输入音频数据包括由第一无线扬声器输出的声音的第一表示以及语音输入的第一表示；

从所述麦克风阵列中的第二麦克风接收第二输入音频数据，所述第二输入音频数据包括由所述第一无线扬声器输出的所述可听声音的第二表示以及所述语音输入的第二表示；

选择至少所述第一部分作为目标信号；

选择至少所述第二部分作为参考信号；以及

将所述参考信号从所述目标信号中去除以生成包括所述语音输入的第三表示的第一输出音频数据。

6.如权利要求5所述的计算机实现的方法，其还包括：

向所述第一无线扬声器发送第二输出音频数据；

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值高于阈值；以及

将所述第二部分与所述第一无线扬声器相关联。

7.如权利要求5所述的计算机实现的方法，其还包括：

确定与所述第二部分相关联的幅值高于阈值；

确定与多个部分中的剩余部分相关联的最高幅值低于所述阈值；

选择所述第二部分作为所述参考信号；以及

选择所述剩余部分作为所述目标信号。

8.如权利要求5所述的计算机实现的方法，其还包括：

确定与所述第二部分相关联的第一幅值高于阈值；

确定与多个部分中的第三部分相关联的第二幅值高于所述阈值；

选择所述第二部分作为所述参考信号；

选择所述第三部分作为第二参考信号；

选择至少所述第一部分作为所述目标信号；以及

将所述参考信号和所述第二参考信号从所述目标信号中去除以生成所述第一输出音频数据。

9.如权利要求5所述的计算机实现的方法，其还包括：

确定与所述第一部分相关联的第一幅值高于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

确定所述语音输入与所述第一方向相关联；

选择所述第一部分作为所述目标信号；以及

选择所述第二部分作为所述参考信号。

10.如权利要求5所述的计算机实现的方法，其还包括：

确定所述语音输入与所述第一方向相关联

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；以及

选择至少所述第二部分作为所述参考信号。

11.如权利要求5所述的计算机实现的方法，其还包括：

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值低于阈值；

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；

选择所述第二部分作为所述参考信号；

选择所述第二部分作为第二目标信号；

选择所述第一部分作为第二参考信号；以及

将所述第二参考信号从所述第二目标信号中去除以生成包括所述语音输入的第四表示的第二输出音频数据。

12.如权利要求5所述的计算机实现的方法，其还包括：

使用固定波束形成技术来执行所述第一音频波束形成以确定所述第一部分；

使用所述固定波束形成技术来执行所述第二音频波束形成以确定所述第二部分；

确定与所述第一部分相关联的第一幅值低于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

使用自适应波束形成技术来执行第三音频波束形成以确定所述组合输入音频数据的第三部分，所述第三部分包括所述第一输入音频信号的对应于所述第二方向的第三部分以及所述第二输入音频信号的对应于所述第二方向的第三部分；

选择至少所述第一部分作为所述目标信号；以及

选择至少所述第三部分作为所述参考信号。

13.一种设备，其包括：

至少一个处理器；

存储器设备，其包括可操作来由所述至少一个处理器执行以便将所述设备配置来进行以下操作的指令：

选择至少所述第一部分作为目标信号；

选择至少所述第二部分作为参考信号；以及

14.如权利要求13所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

向所述第一无线扬声器发送第二输出音频数据；

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值高于阈值；以及

将所述第二部分与所述第一无线扬声器相关联。

15.如权利要求13所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第二部分相关联的幅值高于阈值；

选择所述第二部分作为所述参考信号；以及

选择所述剩余部分作为所述目标信号。

16.如权利要求13所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第二部分相关联的第一幅值高于阈值；

选择所述第二部分作为所述参考信号；

选择所述第三部分作为第二参考信号；

选择至少所述第一部分作为所述目标信号；以及

17.如权利要求13所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第一部分相关联的第一幅值高于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

确定所述语音输入与所述第一方向相关联；

选择所述第一部分作为所述目标信号；以及

选择所述第二部分作为所述参考信号。

18.如权利要求13所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定所述语音输入与所述第一方向相关联

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；以及

选择至少所述第二部分作为所述参考信号。

19.如权利要求13所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值低于阈值；

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；

选择所述第二部分作为所述参考信号；

选择所述第二部分作为第二目标信号；

选择所述第一部分作为第二参考信号；以及

20.如权利要求13所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第一部分相关联的第一幅值低于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

选择至少所述第一部分作为所述目标信号；以及

选择至少所述第三部分作为所述参考信号。

Claims

1.一种计算机实现的方法，其包括：

选择至少所述第一部分作为目标信号；

选择至少所述第二部分作为参考信号；以及

2.如权利要求1所述的计算机实现的方法，其还包括：

向所述第一无线扬声器发送第二输出音频数据；

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值高于阈值；以及

将所述第二部分与所述第一无线扬声器相关联。

3.如权利要求1-2中任一项所述的计算机实现的方法，其还包括：

确定与所述第二部分相关联的幅值高于阈值；

选择所述第二部分作为所述参考信号；以及

选择所述剩余部分作为所述目标信号。

4.如权利要求1-3中任一项所述的计算机实现的方法，其还包括：

确定与所述第二部分相关联的第一幅值高于阈值；

选择所述第二部分作为所述参考信号；

选择所述第三部分作为第二参考信号；

选择至少所述第一部分作为所述目标信号；以及

5.如权利要求1-4中任一项所述的计算机实现的方法，其还包括：

确定与所述第一部分相关联的第一幅值高于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

确定所述语音输入与所述第一方向相关联；

选择所述第一部分作为所述目标信号；以及

选择所述第二部分作为所述参考信号。

6.如权利要求1-5中任一项所述的计算机实现的方法，其还包括：

确定所述语音输入与所述第一方向相关联

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；以及

选择至少所述第二部分作为所述参考信号。

7.如权利要求1-6中任一项所述的计算机实现的方法，其还包括：

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值低于阈值；

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；

选择所述第二部分作为所述参考信号；

选择所述第二部分作为第二目标信号；

选择所述第一部分作为第二参考信号；以及

8.如权利要求1-7中任一项所述的计算机实现的方法，其还包括：

确定与所述第一部分相关联的第一幅值低于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

选择至少所述第一部分作为所述目标信号；以及

选择至少所述第三部分作为所述参考信号。

9.一种设备，其包括：

至少一个处理器；

选择至少所述第一部分作为目标信号；

选择至少所述第二部分作为参考信号；以及

10.如权利要求9所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

向所述第一无线扬声器发送第二输出音频数据；

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值高于阈值；以及

将所述第二部分与所述第一无线扬声器相关联。

11.如权利要求9-10中任一项所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第二部分相关联的幅值高于阈值；

选择所述第二部分作为所述参考信号；以及

选择所述剩余部分作为所述目标信号。

12.如权利要求9-11中任一项所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第二部分相关联的第一幅值高于阈值；

选择所述第二部分作为所述参考信号；

选择所述第三部分作为第二参考信号；

选择至少所述第一部分作为所述目标信号；以及

13.如权利要求9-12中任一项所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第一部分相关联的第一幅值高于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

确定所述语音输入与所述第一方向相关联；

选择所述第一部分作为所述目标信号；以及

选择所述第二部分作为所述参考信号。

14.如权利要求9-13中任一项所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定所述语音输入与所述第一方向相关联

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；以及

选择至少所述第二部分作为所述参考信号。

15.如权利要求9-14中任一项所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定所述第二部分对应于多个部分的最高幅值；

确定所述第二部分的幅值低于阈值；

选择所述第一部分作为所述目标信号；

确定所述第二方向与所述第一方向相反；

选择所述第二部分作为所述参考信号；

选择所述第二部分作为第二目标信号；

选择所述第一部分作为第二参考信号；以及

16.如权利要求9-15中任一项所述的系统，其中所述指令进一步将所述系统配置来进行以下操作：

确定与所述第一部分相关联的第一幅值低于阈值；

确定与所述第二部分相关联的第二幅值高于所述阈值；

选择至少所述第一部分作为所述目标信号；以及

选择至少所述第三部分作为所述参考信号。