CN113168841B

CN113168841B - 经编码的音频的回放期间的声学回声消除

Info

Publication number: CN113168841B
Application number: CN201980079946.2A
Authority: CN
Inventors: A·科斯蒂克; E·乔伊; D·拉马克里希南
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2018-12-13
Filing date: 2019-12-12
Publication date: 2022-06-21
Anticipated expiration: 2039-12-12
Also published as: US20200194019A1; CN113168841A; US11031026B2; WO2020123835A1; WO2020123835A9

Abstract

给出了用于在经编码的音频的回放期间进行声学回声消除的方法、系统、计算机可读介质和装置。在一些实施例中，解码器被布置为对经编码的媒体信号进行解码以产生回声参考信号，并且回声消除器被布置为基于回声参考信号来对输入语音信号执行声学回声消除操作，以产生经回声消除的语音信号。回声消除器可以被配置为相对于输入语音信号的语音分量的能量来降低基于来自经编码的媒体信号的音频内容的输入语音信号的信号分量的能量。

Description

经编码的音频的回放期间的声学回声消除

依据35U.S.C.§119要求优先权

本专利申请要求享受于2018年12月13日递交的、名称为“ACOUSTIC ECHOCANCELLATION DURING PLAYBACK OF ENCODED AUDIO”的非临时申请No.16/219,620的优先权，该非临时申请被转让给本专利申请的受让人并且据此通过引用明确地并入本文中。

技术领域

本公开内容的各方面涉及回声消除。

背景技术

短距离无线协议的广泛采用导致消费设备的发展，消费设备对音频信号进行编码，以便无线传输到附近的设备进行再现。

协议(由华盛顿州柯克兰的蓝牙特别兴趣小组(SIG)指定)是支持此类应用的短距离无线协议的示例。

图1A示出了与再现设备进行通信的编码设备的框图。编码设备的编码器E对携带音频内容(例如，语音和/或音乐)的数字媒体信号进行编码。再现设备从编码设备接收经编码的信号(例如，无线地)，并且解码器D对所接收的经编码的信号进行解码以产生由音频输出级AO处理并且由扬声器LS再现的音频输出信号。再现设备可以经由例如

连接来接收经编码的数字信号。在一个常见场景中，再现设备是汽车或其它车辆的音频系统(例如，信息娱乐系统)，并且编码设备是车辆乘客的智能电话。在另一常见场景中，编码设备是智能电话，并且再现设备是回音壁或其它家庭音频系统。

图1A中示出的编码设备还包括语音处理系统VP，其经由麦克风MC接收来自设备的用户的语音输入。语音处理系统VP可以被配置为例如产生用于蜂窝电话的语音输出。在另一示例中，语音处理系统VP可以被配置为产生到语音识别系统的语音输出。在任一情况下，除了语音输入之外，麦克风MC还可以从由扬声器LS再现的数字媒体信号拾取内容，这可能是不期望输入到语音处理系统VP的。

图1B示出了被配备有回声消除器EC的编码设备的框图。回声消除器EC接收数字媒体信号作为回声参考信号，并且执行声学回声消除操作，以在将麦克风信号提供给语音处理系统VP之前从中消除来自数字媒体信号的内容。

发明内容

一种根据通用配置的装置包括：编码器，其被布置为对数字媒体信号进行编码以产生经编码的媒体信号；解码器，其被布置为对经编码的媒体信号进行解码以产生回声参考信号；以及回声消除器，其被布置为基于回声参考信号来对输入语音信号执行声学回声消除操作，以产生经回声消除的语音信号。在该装置中，回声控制器被配置为相对于输入语音信号的语音分量的能量来降低基于来自经编码的媒体信号的音频内容的输入语音信号的信号分量的能量。

一种根据通用配置的方法包括：对数字媒体信号进行编码以产生经编码的媒体信号；对经编码的媒体信号进行解码以产生回声参考信号；以及基于回声参考信号来对输入语音信号执行声学回声消除，以产生经回声消除的语音信号。在该方法中，输入语音信号包括基于来自经编码的媒体信号的音频内容的语音分量和信号分量，并且相对于基于来自经编码的媒体信号的音频内容的信号分量的能量而言的语音分量的能量在经回声消除的语音信号中比在输入语音信号中大。还公开了包括代码的计算机可读存储介质，所述代码在由至少一个处理器执行时使得至少一个处理器执行这种方法。

附图说明

通过示例说明了本公开内容的各方面。在附图中，相似的附图标记指示相似的元素。

图1A示出了与再现设备进行通信的编码设备的框图；

图1B示出了被配备有回声消除器的编码设备的框图；

图2A示出了根据通用配置的装置A100的框图；

图2B示出了系统S100的框图，系统S100包括接收机RX100、解码器DE200和装置A100的实例；

图2C示出了根据通用配置的系统S50的框图，系统S50包括接收机RX100的实例和装置A50的实例；图2D示出了系统S150的框图，系统S150包括存储控制器SC100、解码器DE200和装置A100的实例；

图3A示出了系统S200的框图，系统S200包括发射机TX100和装置A100的实例；

图3B示出了系统S300的框图，系统S300包括音频输入级AI100和装置A100的实例；

图3C示出了系统S350的框图，系统S350包括音频输入级AI100的实现AI200和装置A100的实例；

图4A示出了系统S400的框图，系统S400包括关键字检测器KD100和装置A100的实例；

图4B示出了系统S400的实现S500的框图，系统S400包括关键字检测器KD100的实现KD110和发射机TX100的实现TX110；

图4C示出了系统S400的实现S410的框图，系统S400包括发射机TX200和关键字检测器KD100的实现KD120；

图5A示出了系统S450的框图，系统S450包括自动语音识别引擎ASR100和装置A100的实例；

图5B示出了系统S400和S450的实现S420的框图，系统S400和S450包括自动语音识别引擎ASR100的实现ASR110和关键字检测器KD120的实例；

图6A示出了系统S410和S420的实现S430的框图；

图6B示出了系统S420和S500的实现S520的框图，系统S420和S500包括自动语音识别引擎ASR110的实现ASR120；

图7示出了装置A100的实现A200的框图；

图8A示出了根据通用配置的装置F100的框图；

图8B示出了装置F100的实现F200的框图；

图9A示出了根据通用配置的方法M100的流程图；以及

图9B示出了方法M100的实现M200的流程图。

具体实施方式

有损编码方案可以极大地压缩信号的数据带宽，同时对感知质量具有小得多的比较影响。可能期望使用有损音频编码方案来对数字音频信号进行编码，以便例如可以将经编码的音频信号发送到有限带宽信道中。然而，从绝对意义上讲，经解码的音频信号可能与原始数字音频信号显著不同。有损音频编码方案的当前实现通常是基于心理声学原理的，并且源音频信号与经解码的音频信号之间的差异可能例如来自编解码器中的非线性处理操作(例如，源音频信号中被确定为在时间和/或频率上被掩模的分量的省略)。这种差异可能导致如上文参照图1B描述的声学回声消除操作产生经回声消除的信号，其包括可能干扰后续通信和/或处理操作的伪影。例如，用于关键字检测和/或自动语音识别(ASR)的系统可能难以处理包括这些伪影的环境噪声，并且它们的存在可能导致系统误认或未能识别系统的用户的命令。

本公开内容包括用于处理输入音频信号以消除与经编码的音频信号的再现有关的声学回声的系统、方法、装置和计算机可读介质的描述。现在将关于构成本文一部分的附图来描述若干说明性配置。虽然下文描述了可以在其中实现本公开内容的一个或多个方面的特定配置，但是在不脱离本公开内容的范围或所附权利要求书的精神的情况下，可以使用其它配置并且可以进行各种修改。

除非明确地受到其上下文的限制，否则本文使用术语“信号”来指示任何其普通含义，包括在线、总线或其它传输介质上表示的存储器位置(或存储器位置集合)的状态。除非明确地受到其上下文的限制，否则本文使用术语“生成”来指示任何其普通含义，诸如计算或以其它方式生成。除非明确地受到其上下文的限制，否则本文使用术语“计算”来指示任何其普通含义，诸如计算、评估、估计和/或从多个值中选择。除非明确地受到其上下文的限制，否则使用术语“获得”来指示任何其普通含义，诸如计算、推导、接收(例如，从外部设备)和/或取回(例如，从存储元件阵列)。除非明确地受到其上下文的限制，否则使用术语“选择”来指示任何其普通含义，诸如识别、指示、应用和/或使用两个或更多个的集合中的至少一个并且少于全部。除非明确地受到其上下文的限制，否则使用术语“确定”来指示任何其普通含义，诸如决定、建立、作结论、计算、选择和/或评估。在本描述和权利要求书中使用术语“包括”的情况下，不排除其它元素或操作。术语“基于”(如“A基于B”)用于指示任何其普通含义，包括情况(i)“从...中推导出”(例如，“B是A的前导”)，(ii)“至少基于”(例如，“A至少基于B”)以及如果在特定上下文中合适的话，(iii)“等于”(例如，“A等于B”)。类似地，术语“响应于”用于指示任何其普通含义，包括“至少响应于”。除非另有说明，否则术语“A、B和C中的至少一个”、“A、B和C中的一个或多个”、“A、B和C当中的至少一个”以及“A、B和C当中的一个或多个”指示“A和/或B和/或C”。除非另有说明，否则术语“A、B和C中的每一个”和“A、B和C当中的每一个”指示“A、B和C”

除非另有说明，否则对具有特定特征的装置的操作的任何公开也明确地旨在公开具有类似特征的方法(反之亦然)，并且对根据特定配置的装置的操作的任何公开也明确地旨在公开根据类似配置的方法(反之亦然)。术语“配置”可以用于参考由其特定上下文指示的方法、装置和/或系统。除非特定上下文另有说明，否则术语“方法”、“过程”、“步骤”和“技术”是通用和可互换的。具有多个子任务的“任务”也是一种方法。除非特定上下文另有说明，否则术语“装置”和“设备”也可以是通用和可互换的。术语“元素”和“模块”通常用于表示更大配置的一部分。除非明确地受到其上下文的限制，否则本文使用术语“系统”来指示任何其普通含义，包括“为共同目的而相互作用的一组元素”。

除非最初由定冠词引入，否则用于修改权利要求元素的序数术语(例如，“第一”、“第二”、“第三”等)本身并不指示权利要求元素相对于另一权利要求元素的任何优先级或顺序，而仅仅是将权利要求元素与具有相同名称(但是使用序数术语)的另一权利要求元素区分开。除非明确地受到其上下文的限制，否则本文使用术语“多个”和“集合”中的每一个来指示大于1的整数数量。

可互换地使用术语“译码器”、“编解码器”和“译码系统”来指示系统，该系统包括被配置为接收和编码音频信号的帧(可能在一个或多个预处理操作之后，诸如感知加权和/或其它滤波操作)的至少一个编码器和被配置为产生帧的经解码的表示的对应解码器。这样的编码器和解码器通常部署在通信链路的相对终端。术语“信号分量”用于指示信号的组成部分，该信号可以包括其它信号分量。术语“来自信号的音频内容”用于指示由信号携带的音频信息的表达。

图2A示出了根据通用配置的装置A100的框图，装置A100包括编码器EN100、解码器DE100和回声消除器EC100。在该装置中，编码器EN100被布置为对数字媒体信号DMS100进行编码以产生经编码的媒体信号EMS100，解码器DE100被布置为对经编码的媒体信号EMS100进行解码以产生回声参考信号ERS100，并且回声消除器EC100被布置为基于回声参考信号ERS100来对输入语音信号IVS100执行声学回声消除操作，以产生经回声消除的语音信号OAS100。

数字媒体信号DMS100可以是PCM(脉冲编码调制)信号。在装置A100的典型应用中，数字媒体信号DMS100是LPCM(线性PCM)信号。用于数字媒体信号DMS100的典型采样率包括44.1kHz、48kHz和96kHz，并且用于数字媒体信号DMS100的典型分辨率包括16比特和24比特。数字媒体信号DMS100可以具有一个声道(例如，单声道)、两个声道(例如，立体声)或更多个声道(例如，对于5.1环绕声或另一种多声道格式)。

编码器EN100可以被配置为对数字媒体信号DMS100执行有损压缩操作以产生经编码的媒体信号EMS100。例如，EN100可以被配置为根据适用于高级音频分发配置文件(A2DP)内的源设备进行

传输的编解码器来对信号DMS100进行编码(例如，由蓝牙特别兴趣小组(SIG)(华盛顿州柯克兰)在2012年7月24日发布的高级音频分发配置文件规范V13(AADP_SPEC)中指定的)。此类编解码器的示例包括以下任何一种：

低复杂度子带编码(SBC，例如，如在AADP-SPEC中定义的)；

aptX、aptX-LL和aptX HD(高通公司，加利福尼亚州圣地亚哥)；

MPEG-1第3部分和MPEG-2第3部分(例如，如分别在国际标准化组织/国际电工委员会(ISO/IEC)11172-3:1993和13818-3:1998中定义的)；

高级音频编码(AAC)和高效率AAC(HE-AAC，也被称为AAC+)(例如，如ISO/IEC14496-3:2009中定义的)；

HE-AAC v2(例如，如欧洲电信标准协会技术规范(ETSI TS)126 401 V6.1.0(2004年12月)中定义的)；

自适应变换声学编码(ATRAC)和LDAC(索尼公司，日本东京)；以及超高质量(UHQ)-BT(三星电子有限公司，韩国水原)。编码器EN100可以被实现为可配置(例如，经由用户接口)为使用来自多个可用编解码器中与用户选择相对应的编解码器(例如，aptX用于用户选择“标准”，并且aptX HD用于用户选择“高质量”)。

解码器DE100可以被配置为通过对经编码的媒体信号EMS100执行解码操作来产生回声参考信号ERS100，该解码操作与由编码器EN100执行的编码操作互补。例如，编码器EN100和解码器DE100可以符合相同编解码器规范的对应部分。回声参考信号ERS100可以具有与数字媒体信号DMS100相同的格式。替代地，回声参考信号ERS100可以具有与数字媒体信号DMS100不同的采样率(例如，较低的采样率)、不同的比特分辨率(例如，较低的比特分辨率)和/或不同数量的信道(例如，较少的信道)。

作为有损压缩操作的结果，可能预期回声参考信号ERS100不同于数字媒体信号DMS100(例如，由于编码器EN100和/或解码器DE100引入的伪影)。回声消除器EC100被布置为基于回声参考信号ERS100来对输入语音信号IVS100执行声学回声消除器操作，以产生经回声消除的语音信号EVS100。回声控制器EC100被配置为：相对于输入语音信号IVS100的语音分量的能量，来降低输入语音信号IVS100的信号分量的能量，其中该输入语音信号IVS100的信号分量是基于来自经编码的媒体信号EMS100的音频内容的。在典型用例中，输入语音信号IVS100的语音分量是用户的语音，并且基于来自经编码的媒体信号EMS100的音频内容的、输入语音信号IVS100的信号分量由再现设备(例如，

宿)再现，该再现设备经由一个或多个扬声器无线地接收经编码的媒体信号EMS100并且对其进行解码以再现其音频内容(例如，音乐或语音)。

回声消除器EC100可以被配置为应用回声参考信号ERS100作为参考信号。回声消除器EC100可以被配置为实现例如最小均方(LMS)算法(例如，滤波参考(“滤波-X”)LMS、子带LMS、归一化LMS(NLMS)、块NLMS、步长NLMS等)。回声消除器EC100可以被实现为例如前馈系统。回声消除器EC100可以被实现为包括回声消除器领域中已知的一个或多个其它特征，诸如举例而言，双话检测(例如，在用户正在说话时抑制滤波器自适应)。

在一些应用中，数字媒体信号DMS100是通过对无线地接收的音频流(例如，经由蜂窝电话、卫星无线电或局域无线网)进行解码获得的。图2B示出了这样的系统S100的框图，系统S100包括接收机RX100、解码器DE200和装置A100的实例。接收机RX100被配置为处理射频信号以产生经编码的媒体流ES100。例如，接收机RX100可以被实现为用于蜂窝电话、卫星无线电和/或无线网络(例如，如电气与电子工程师协会(IEEE)标准802.11-2012(新泽西州的皮斯卡塔韦)中规定的Wi-Fi)的接收机。

解码器DE200可以被实现为根据适用于特定流式传输服务(例如，aptX、AAC、HE-AAC、HE-AAC+v2、MPEG)的编解码器来对经编码的媒体流ES100进行解码。在如图2C所示的另外的示例中，使用适用于

传输的编解码器来对经编码的媒体流ES100进行编码。在这种情况下，可以实现装置A100，其不像装置A50一样包括编码器EN100的实例，并且可以实现系统S100，其不像系统S50一样包括解码器DE200的实例。系统S50还可以被实现为包括发射机(例如，如本文描述的发射机TX100的实例)，以通过重传经编码的媒体流ES100来作为

源进行操作，并且还要注意的是，装置A50可以替换下文描述的任何系统(例如，系统S150、S200、S300、S350、S400、S410、S420、S430、S450、S500、S520)中的装置A100，其中利用经编码的媒体流ES100来代替经编码的媒体信号EMS100。

替代地或另外，可以从存储装置(例如，从包括装置A100的同一设备内的存储器)获得数字媒体信号DMS100。图2D示出了系统S150的框图，系统S150包括存储控制器SC100、解码器DE200和装置A100的实例。存储控制器SC100可以被配置为从可以与装置A100位于同一设备内(例如，在相同的印刷电路板上或甚至在相同的芯片上)的存储装置(诸如易失性存储器(例如，动态随机存取存储器(RAM)或DRAM)或非易失性存储器(例如，闪速RAM))中的选定文件产生取回的信号VS100。取回的信号VS100可以包含在例如本文提及的任何编解码器中编码的音频内容。在另一示例中，取回的信号VS100包含在无损编解码器(诸如MPEG-4可伸缩到无损(SLS)或免费无损音频编解码器(FLAC，Xiph.org，马萨诸塞州的萨默维尔))中编码的音频内容。在另外的示例中，取回的信号VS100可以是适合作为数字媒体信号DMS100的未压缩形式(例如，来自波形音频文件格式或WAV的文件)，以便可以绕过或省略解码器DE200。

如上所述，可能期望在源设备(诸如可操作为

源的设备)内实现设备A100。图3A示出了系统S200的框图，系统S200包括装置A100的实例和发射机TX100，发射机TX100被布置为产生基于经编码的媒体信号EMS100的射频信号RFS100(例如，用于经由一个或多个天线进行无线传输)。在这种情况下，基于来自经编码的媒体信号EMS100的音频内容的、输入语音信号IVS100的信号分量也是基于来自射频信号RFS100的音频内容的。发射机TX100可以被实现为执行与特定传输协议(例如，信息分包)相关联的一个或多个额外的操作。例如，发射机TX100可以被配置为产生符合如在例如AADP_SPEC中规定的

A2DP的信号RFS100。射频信号RFS100可以包括其它信息，诸如一个或多个远程控制命令，其可以与再现设备对经解码的音频内容的再现(例如，音量、平衡)有关。在一个这样的示例中，发射机TX100还被配置为产生符合

音频/视频远程控制配置文件(AVRCP)(例如，如2015年12月15日发布的音频/视频远程控制配置文件v1.6.1中的蓝牙SIG(AVRCP_SPEC)中规定的)的信号RFS100。在另一示例中，发射机TX100可以被配置为产生符合Wi-Fi协议(例如，如在电气与电子工程师协会(IEEE)标准802.11-2012(新泽西州的皮斯卡塔韦)中规定的)的信号RFS100。

图3B示出了系统S300的框图，系统S300包括装置A100的实例和从麦克风MC100接收输入的音频输入级AI100。可以用于麦克风MC100的各种类型的麦克风包括(但不限于)压电麦克风、动态麦克风、驻极体麦克风和微电子机械系统(MEMS)麦克风。音频输入级AI100可以对麦克风MC100响应于感测到的空气压力变化而产生的输出信号执行一个或多个操作，诸如举例而言，模数转换(例如，采样)、预放大、自动增益控制(AGC)和/或高通滤波。

可能期望由音频输入级AI100对麦克风输出信号(或多个麦克风输出信号)执行的操作包括一个或多个噪声抑制操作。图3C示出了系统S300的实现S350的框图，系统S300包括装置A100的实例和从麦克风MC100的实例MC100A和MC100B接收输入的音频输入级AI100的实现AI200。音频输入级AI200被配置为对从各种麦克风接收的麦克风输出信号执行空间选择性处理操作(例如，定向选择性处理操作，诸如波束成形)。这样的操作可以通过将波束指向期望声音分量的源(例如，用户的嘴)和/或将零波束指向干扰的源(例如，从经编码的媒体信号EMS100再现音频内容的扬声器)来帮助减少来自经再现的音频信号的干扰。在典型实现中，音频输入级AI200被配置为在数字域(例如，模数转换操作的下游)中对麦克风输出信号执行空间选择性处理操作。尽管图3C中示出的示例包括两个麦克风MC100A和MC100B，但是将理解的是，系统S350可以被实现为接收和处理来自任意数量的麦克风(例如，三个、四个、五个、六个或更多个)的输入。

如上所述，可能期望使用经回声消除的语音信号EVS100作为蜂窝电话的语音信号。装置A100可以例如在蜂窝电话(例如，智能电话)内实现并且被布置为向用于蜂窝电话的电话的收发机提供经回声消除的语音信号EVS100(例如，作为近端信号)。替代地或另外，可能期望使用经回声消除的语音信号EVS100作为对用于语音内容响应的系统的输入。图4A示出了这样的系统S400的框图，系统S400包括装置A100的实例和被布置为接收经回声消除的语音信号EVS100的关键字检测器KD100。关键字检测器KD100被配置为在经回声消除的语音信号EVS100中检测至少一个预定关键字。关键字检测器KD100可以被实现为例如从经回声消除的语音信号EVS100提取特征向量，并且使用一个或多个隐马尔可夫模型(HMM)、高斯混合模型(GMM)和/或神经网络(NN)来对其进行处理。

关键字检测器KD100被配置为处理经回声消除的语音信号EVS100以识别有限的关键字词汇表(例如，大小在一、二、五或十到二十、二十五、三十或五十个字的范围内的词汇表)中的一个或多个关键字。例如，这样的词汇表可以足以支持期望的有限控制功能，同时使得关键字检测器KD100能够具有足够低的功率预算，以便在其内实现系统S400的设备(例如，智能电话或智能扬声器)的使用期间保持“始终开启”。在一个示例中，关键字检测器KD100被配置为处理经回声消除的语音信号EVS100以识别与有限的远程控制功能集合相关的字。图4B示出了系统S200和S400的实现S500的框图，系统S200和S400包括关键字检测器KD100的实现KD110和发射机TX100的实现TX110。关键字检测器KD110被配置为响应于在经回声消除的语音信号EVS100内检测到一个或多个对应的预定关键字(例如，“音量增大”)而产生远程控制命令RCC100，并且发射机TX110被配置为在射频信号RFS100的实现RFS110中包括该命令。在一个示例中，发射机TX110被配置为根据

AVRCP、Wi-Fi或其它射频协议来产生信号RFS110。在另一示例中，包括装置A100和关键字检测器KD110的系统被配置为将远程控制命令RCC100作为可见光或红外(IR)信号(例如，根据诸如RC5(飞利浦，荷兰阿姆斯特丹)或TC101(NEC公司，日本东京)之类的协议的PCM信号)进行发送。

替代地或另外，关键字检测器KD100可以被配置为处理经回声消除的语音信号EVS100以识别一个或多个“唤醒字”。“唤醒字”是用于激活用于语音内容响应的系统的字或短的短语。在这种情况下，可能期望布置关键字检测器KD100以在检测到“唤醒字”(例如，“OK Google”)时激活一个或多个其它装置、设备或系统。

图4C示出了系统S400的实现S410的框图，系统S400包括被布置为接收经回声消除的语音信号EVS100的发射机TX200和被配置为指示对“唤醒字”的检测的关键字检测器KD100的实现KD120。发射机TX200被配置为响应于关键字检测器KD120关于已经检测到“唤醒字”的指示来产生基于经回声消除的语音信号EVS100的射频信号。例如，发射机TX200可以被配置为在网络连接上(例如，经由蜂窝电话或Wi-Fi)将经回声消除的语音信号EVS100(或从经回声消除的语音信号EVS100提取的特征)发送到外部服务器以进行自然语言处理。可能期望实现系统S410来缓冲经回声消除的语音信号EVS100(例如，使用环形缓冲器(未示出))，并且实现发射机TX200来发送包括检测到的“唤醒字”的经缓冲的信号的一部分(例如，长度为二、五或十秒的一部分)。在这样的情况下，可能期望实现发射机TX200，以便还发送指示该部分内检测到的“唤醒字”的开始和结束的索引。

图5A示出了系统S450的框图，系统S450包括装置A100的实例和被布置为接收经回声消除的语音信号EVS100的自动语音识别引擎ASR100。与关键字检测器KD100相比，自动语音识别引擎ASR100可以被配置为支持更大的词汇表(例如，从一百到一千或更多个字)，用于诸如地理导航、与列表相关联的命令(例如，给来自联系人列表的特定联系人打电话)和/或自然语言处理之类的应用，并且因此，可能预期自动语音识别引擎ASR100的实例在操作期间比关键字检测器KD100的实例消耗更多的功率。图5B示出了系统S400和S450的实现S420的框图，系统S400和S450包括自动语音识别引擎ASR100的实现ASR110。在该系统中，自动语音识别引擎ASR110被配置为响应于关键字检测器KD120关于已经检测到“唤醒字”的指示来发起对经回声消除的语音信号EVS100的处理(例如，以便唤醒)。

图6A示出了系统S410和S420的实现S430的框图。在该示例中，关键字检测器KD120被布置为向自动语音识别引擎ASR110和发射机TX200两者指示检测到“唤醒字”。

图6B示出了系统S420和S500的实现S520的框图，系统S420和S500包括自动语音识别引擎ASR110的实现ASR120。在该示例中，自动语音识别引擎ASR120被配置为响应于关键字检测器KD120关于已经检测到“唤醒字”的指示来唤醒(例如，激活)，并且响应于检测到对应的预定命令字来产生远程控制命令RCC100。

系统S100、S150、S200、S300、S350、S400、S410、S420、S430、S450、S500和S520中的任何一个系统可以被实现为以下各项(或者被实现为以下各项的一部分)：装置、设备、组件、集成电路(例如，芯片)、芯片组或印刷电路板。在一个示例中，这样的系统在蜂窝电话(例如，智能电话)或其它移动计算设备内实现。用例包括通过这样的设备(例如，经由

Wi-Fi或如本文描述的其它无线连接)将经编码的媒体信号EMS100(或ES100)和/或来自经回声消除的语音信号EVS100的信息发送到汽车或其它车辆的音频系统(例如，信息娱乐系统)或智能扬声器(例如，家用扬声器或虚拟助理)。在另一示例中，这样的系统在智能扬声器内实现。

此外，如本文描述的系统S100、S150、S200、S300、S400和S500的任何实现可以被组合，并且所有这样的组合都被预期并且据此被公开。例如，图7示出了装置A100的实现A200的框图，装置A100包括系统S100、S150、S200、S300和S400中的每个系统的实现。装置A200还包括选择器SL100，其被布置为选择到解码器DE200的输入的源(例如，如用户接口所指示的)。

图8A示出了根据通用配置的装置F100的框图，装置F100包括：用于对数字媒体信号进行编码以产生经编码的媒体信号的单元MF100(例如，如本文参照编码器EN100描述的)；用于对经编码的媒体信号进行解码以产生回声参考信号的单元MF200(例如，如本文参照解码器DE100描述的)；以及用于基于回声参考信号来对输入语音信号执行声学回声消除操作，以产生经回声消除的语音信号的单元MF300(例如，如本文参照回声消除器EC100描述的)。装置MF300包括：用于相对于输入语音信号的语音分量的能量，来降低基于来自经编码的媒体信号的音频内容的、输入语音信号的信号分量的能量的单元(例如，如本文参照回声消除器EC100描述的)。在一个实施例中，集成电路包括单元MF100、单元MF200和单元MF300。替代地或另外，单元MF300可以被布置为基于麦克风的输出来接收输入语音信号。

图8B示出了装置F100的实现F200的框图，装置F100包括：用于对选择的第二经编码的媒体信号进行解码以产生数字媒体信号的单元MF400(例如，如本文参照解码器DE200描述的，解码器DE200可能耦合到用于处理射频信号以产生第二经编码的媒体信号的单元，例如，如本文参照RX100描述的)；用于产生基于经编码的媒体信号的射频信号的单元MF500(例如，如本文参照发射机TX100描述的)；用于对多个麦克风输出信号执行空间选择性处理操作以产生输入语音信号的单元MF600(例如，如本文参照音频输入级AI200描述的)；用于在经回声消除的语音信号中检测至少一个预定关键字的单元MF700(例如，如本文参照关键字检测器KD100描述的)；以及用于响应于检测来产生基于经回声消除的语音信号的射频信号的单元MF800(例如，如本文参照发射机TX200描述的)。

图9A示出了根据通用配置的包括任务T100、T200和T300的方法M100的流程图。在该方法中，任务T100对数字媒体信号进行编码以产生经编码的媒体信号(例如，如本文参照编码器EN100描述的)，任务T200对经编码的媒体信号进行解码以产生回声参考信号(例如，如本文参照解码器DE100描述的)，并且任务T300基于回声参考信号来对输入语音信号执行声学回声消除，以产生经回声消除的语音信号(例如，如本文参照回声消除器EC100描述的)。在该方法中，输入语音信号包括语音分量和基于来自经编码的媒体信号的音频内容的信号分量，并且相对于基于来自经编码的媒体信号的音频内容的、信号分量的能量而言的语音分量的能量在经回声消除的语音信号中比在输入语音信号中大。

图9B示出了方法M100的实现M200的流程图，实现M200包括：任务T400，其对选择的第二经编码的媒体信号进行解码以产生数字媒体信号(例如，如本文参照解码器DE200描述的)；任务T500，其产生基于经编码的媒体信号的射频信号(例如，如本文参照发射机TX100描述的)；任务T600，其对多个麦克风输出信号执行空间选择性处理操作以产生输入语音信号(例如，如本文参照音频输入级AI200描述的)；任务T700，其在经回声消除的语音信号中检测至少一个预定关键字(例如，如本文参照关键字检测器KD100描述的)；以及任务T800，其响应于检测来产生基于经回声消除的语音信号的射频信号(例如，如本文参照发射机TX200描述的)。

如本文公开的装置或系统(例如，装置A50、A100、A200、F100或F200；系统S50、S100、S150、S200、S300、S350、S400、S410、S420、S430、S450、S500或S520)的实现的各种元件可以体现在被认为适合预期应用的硬件与软件和/或与固件的任何组合中。例如，这些元件可以被制造成例如驻留在同一芯片上或芯片组中的两个或更多个芯片之间的电子和/或光学设备。这样的设备的一个示例是诸如晶体管或逻辑门之类的逻辑元件的固定或可编程阵列，并且这些元件中的任何一个可以被实现为一个或多个这样的阵列。这些元件中的任意两个或更多个或者甚至全部可以在相同的一个或多个阵列内实现。这样的一个或多个阵列可以在一个或多个芯片内(例如，在包括两个或更多个芯片的芯片组内)实现。

如本文公开的用于处理的处理器或其它单元可以被制造成例如驻留在同一芯片上或芯片组中的两个或更多个芯片之间的一个或多个电子和/或光学设备。这样的设备的一个示例是诸如晶体管或逻辑门之类的逻辑元件的固定或可编程阵列，并且这些元件中的任何一个可以被实现为一个或多个这样的阵列。这样的一个或多个阵列可以在一个或多个芯片内(例如，在包括两个或更多个芯片的芯片组内)实现。这样的阵列的示例包括逻辑元件的固定或可编程阵列，诸如微处理器、嵌入式处理器、IP核、DSP(数字信号处理器)、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文公开的用于处理的处理器或其它单元也可以被实现为一个或多个计算机(例如，包括被编程为执行一个或多个指令集或指令序列的一个或多个阵列的机器)或其它处理器。可能使如本文描述的处理器用于执行任务或执行与方法M100或M200的实现的过程(或如参照本文描述的装置或系统的操作而公开的另一方法)(诸如与在其中嵌入处理器的设备或系统(例如，语音通信设备，诸如智能电话或智能扬声器)的另一操作相关的任务)不直接相关的其它指令集。还可能使如本文公开的方法的一部分在一个或多个其它处理器的控制下执行。

本文公开的方法的任务中的每个任务可以直接体现在硬件、由处理器执行的软件模块或两者的组合中。在如本文公开的方法的实现的典型应用中，逻辑元件(例如，逻辑门)的阵列被配置为执行该方法的各种任务中的一个、一个以上或甚至全部任务。任务中的一个或多个(可能全部)任务还可以被实现为体现在计算机程序产品(例如，一个或多个数据存储介质，诸如磁盘、闪存或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如，一个或多个指令集)，该代码可由包括逻辑元件(例如，处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如，计算机)读取和/或执行。如本文公开的方法的实现的任务也可以由一个以上这样的阵列或机器来执行。在这些或其它实现中，任务可以在用于无线通信的设备(诸如蜂窝电话或具有这种通信能力的其它设备)内执行。这样的设备可以被配置为与电路交换和/或分组交换网络进行通信(例如，使用一种或多种协议，诸如VoIP)。例如，这样的设备可以包括被配置为接收和/或发射经编码的帧的RF电路。

在一个或多个示例性实施例中，本文描述的操作可以在硬件、软件、固件或其任何组合中实现。如果在软件中实现，则这些操作可以作为一个或多个指令或代码存储在计算机可读介质上或在计算机可读介质上发送。术语“计算机可读介质”包括计算机可读存储介质和通信(例如，传输)介质两者。通过举例而非限制性的方式，计算机可读存储介质可以包括存储元件的阵列，诸如半导体存储器(其可以包括但不限于动态或静态RAM、ROM、EEPROM和/或闪速RAM)或铁电、磁阻、交流控制半导体元件、聚合物或相变存储器；CD-ROM或其它光盘存储装置；和/或磁盘存储装置或其它磁存储设备。这样的存储介质可以以可以由计算机访问的指令或数据结构的形式存储信息。通信介质可以包括可以用于以指令或数据结构的形式携带期望的程序代码并且可以由计算机访问的任何介质，包括促进将计算机程序从一个地方传输到另一个地方的任何介质。此外，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或无线技术(诸如红外、无线电和/或微波)从网站、服务器或其它远程源发送软件，则同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电和/或微波)被包括在介质的定义中。如本文所使用的，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘^TM(蓝光光盘协会，加利福尼亚州环球城)，其中，磁盘通常磁性地复制数据，而光盘则通常利用激光来光学地复制数据。上述的组合也应当被包括在计算机可读介质的范围内。

在一个示例中，非暂时性计算机可读存储介质包括代码，该代码在由至少一个处理器执行时使得至少一个处理器执行如本文描述的回声消除的方法。这种存储介质的另外的示例包括：进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器导致产生基于经编码的介质信号的射频信号，其中，基于来自经编码的媒体信号的音频内容的信号分量也是基于来自射频信号的音频内容的(例如，如本文参照发射机TX100和任务T500描述的)；进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器对多个麦克风输出信号执行空间选择性处理操作以产生输入语音信号(例如，如本文参照音频输入级AI200和任务T600描述的)；进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器导致对射频信号的处理以产生经编码的媒体流，并且执行对经编码的媒体流的解码以产生数字媒体信号(例如，如本文参照解码器DE200和任务T400描述的)；进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器执行在经回声消除的语音信号内检测至少一个预定关键字(例如，如本文参照关键字检测器KD100和任务T700描述的)；可能进一步包括代码的介质，该代码在由至少一个处理器执行时使得至少一个处理器响应于检测到至少一个预定关键字导致产生基于来自经回声消除的语音信号的信息的射频信号(例如，如本文参照发射机TX200和任务T800描述的)。

提供前述描述，以使本领域的任何技术人员能够实现或使用所公开的实现。对这些实现的各种修改对于本领域技术人员而言将是显而易见的，以及在不脱离本公开内容的范围的情况下，本文所定义的原理可以应用于其它实现。因此，本公开内容并不旨在限于本文示出的实现，而是被赋予与所附权利要求书定义的原理和新颖特征相一致的可能的最宽的范围。

Claims

1.一种用于回声消除的装置，包括：

处理器，其被配置为进行以下操作：

从第一设备接收经编码的媒体信号；

对所述经编码的媒体信号进行解码以产生回声参考信号；

基于所述回声参考信号来对输入语音信号执行声学回声消除操作，以产生经回声消除的语音信号，其中，所述声学回声消除操作被配置为：相对于所述输入语音信号的语音分量的能量，来降低所述输入语音信号的信号分量的能量，其中所述输入语音信号的信号分量是基于来自所述经编码的媒体信号的音频内容的；以及

基于所述经回声消除的语音信号向所述第一设备发送命令。

2.根据权利要求1所述的装置，其中，所述经编码的媒体信号是经由射频信号接收的，并且其中，所述射频信号还包括第一远程控制命令。

3.根据权利要求1所述的装置，还包括：发射机，其中，所述处理器被配置为经由所述发射机向所述第一设备发送所述命令。

4.根据权利要求3所述的装置，还包括：麦克风，其被布置为感测声学语音信号，其中，所述输入语音信号是基于所述麦克风的输出的。

5.根据权利要求1所述的装置，其中，所述装置包含包括所述处理器的车辆。

6.根据权利要求1所述的装置，还包括：关键字检测器，其被配置为在所述经回声消除的语音信号内检测至少一个预定关键字，其中，所述命令是基于所述至少一个预定关键字来生成的。

7.根据权利要求1所述的装置，其中，所述装置包括用于蜂窝电信的设备，所述设备包括所述处理器。

8.一种用于回声消除的方法，包括：

从第一设备接收经编码的媒体信号；

对所述经编码的媒体信号进行解码以产生回声参考信号；

基于所述回声参考信号来对输入语音信号执行声学回声消除，以产生经回声消除的语音信号，其中，所述输入语音信号包括语音分量和信号分量，所述信号分量是基于来自所述经编码的媒体信号的音频内容的，并且其中，相对于基于来自所述经编码的媒体信号的音频内容的、所述信号分量的能量而言，所述语音分量的能量在所述经回声消除的语音信号中比在所述输入语音信号中大；以及

基于所述经回声消除的语音信号向所述第一设备发送命令。

9.根据权利要求8所述的方法，还包括：对多个麦克风输出信号执行空间选择性处理操作，以产生所述输入语音信号。

10.根据权利要求8所述的方法，其中，所述经编码的媒体信号是经由第一无线信号接收的，并且其中，所述命令是经由第二无线信号发送的。

11.一种包括指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时使得所述处理器进行以下操作：

从第一设备接收经编码的媒体信号；

对所述经编码的媒体信号进行解码以产生回声参考信号；以及

基于所述经回声消除的语音信号向所述第一设备发送命令。

12.一种车辆，包括：

处理器，其被配置为进行以下操作：

从第一设备接收经编码的媒体信号；

基于所述回声参考信号来对输入语音信号执行声学回声消除操作，以产生经回声消除的语音信号，其中，所述声学回声消除操作被配置为：相对于所述输入语音信号的语音分量的能量，来降低所述输入语音信号的信号分量的能量，其中所述输入语音信号的信号分量是基于来自所述经编码的媒体信号的音频内容的。

13.根据权利要求12所述的车辆，其中，所述处理器还被配置为：基于所述经回声消除的语音信号向所述第一设备发送命令。

14.根据权利要求12所述的车辆，其中，所述第一设备包括移动电话。

15.根据权利要求13所述的车辆，其中，所述命令指导所述第一设备进行电话呼叫。

16.根据权利要求13所述的车辆，其中，所述命令与地理导航应用相关联。

17.根据权利要求12所述的车辆，还包括：音频系统，其中，所述经编码的媒体信号与要由所述音频系统回放的音频信号相对应。

18.根据权利要求17所述的车辆，其中，所述音频系统被包括在所述车辆的信息娱乐系统中。

19.根据权利要求12所述的车辆，其中，所述车辆与汽车相对应。

20.根据权利要求12所述的车辆，还包括：一个或多个麦克风，其被耦合到所述处理器，并且被配置为生成所述输入语音信号。