CN105940445A

CN105940445A - 一种语音通信系统及其方法

Info

Publication number: CN105940445A
Application number: CN201680000358.1A
Authority: CN
Inventors: 黄以腾; 曾新晓
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-02-04
Filing date: 2016-02-04
Publication date: 2016-09-14
Anticipated expiration: 2036-02-04
Also published as: JP2018538765A; US10706871B2; US10460744B2; CN105940445B; WO2017132958A1; JP6574529B2; US20200027472A1; US20180226086A1

Abstract

本发明实施例公开一种语音通信系统及其方法。在一些实施例中，提供一种语音通信系统，该系统包括：第一音频传感器，所述第一音频传感器用于采集声音输入并基于所述声音输入产生第一音频信号，所述第一音频传感器放置在纺织结构的第一表面与第二表面之间。在一些实施例中，所述第一音频传感器放置在位于所述纺织结构的第一表面和第二表面之间的区域。在一些实施例中，所述第一音频传感器放置在位于所述纺织结构的第一表面和第二表面之间的第一通道中。

Description

一种语音通信系统及其方法

【技术领域】

本发明涉及通信领域，尤其涉及一种语音通信系统及其方法。具体而言，本发明涉及利用嵌埋有传感器的可穿戴设备来提供语音通信系统及其方法。

【背景技术】

语音控制的技术应用日益普及。例如，移动电话、汽车导航系统等电子设备逐渐可以通过语音进行控制。更具体来说，例如，通过这种语音控制的技术应用，用户可以对着麦克风说出语音指令(例如词语或短语)，电子设备可以接收到语音指令并根据语音指令进行操作。希望可以为更喜欢免提体验的用户，例如正在操作机动车辆、飞行器等的用户提供这种语音控制功能。

【发明内容】

本发明提供一种语音通信系统及其方法。在一些实施例中，提供一种语音通信系统，该系统包括：第一音频传感器，所述第一音频传感器用于采集声音输入并基于所述声音输入产生第一音频信号，所述第一音频传感器放置在纺织结构的第一表面与第二表面之间。

在一些实施例中，所述第一音频传感器是装配在硅晶圆片上的麦克风。

在一些实施例中，所述麦克风是微机电系统(MEMS)麦克风。

在一些实施例中，所述第一音频传感器放置在位于所述纺织结构的第一表面和第二表面之间的区域。

在一些实施例中，所述第一音频传感器放置在位于所述纺织结构的第一表面和第二表面之间的第一通道中。

在一些实施例中，所述系统还包括基于声学输入产生第二音频信号的第二音频传感器，所述纺织结构还包括第二通道，并且所述第二音频传感器的至少一部分放置在第二通道中。

在一些实施例中，所述第一通道与第二通道平行。

在一些实施例中，所述第一音频传感器和第二音频传感器形成音频传感器的差分子阵。

在一些实施例中，所述系统还包括或连接置于独立设备中基于所述第一音频信号和第二音频信号产生语音信号的处理器。

在一些实施例中，所述纺织结构包括多个层。多个层包括第一层和第二层。

在一些实施例中，所述第一音频传感器和第二音频传感器嵌埋在所述纺织结构的第一层中。

在一些实施例中，与所述第一音频传感器相连电路的至少一部分嵌埋在所述纺织结构的第一层中。

在一些实施例中，与所述第一音频传感器相连电路的至少一部分嵌埋在所述纺织结构的第二层中。

在一些实施例中，所述纺织结构的第一表面与第二表面之间的距离不大于2.5mm。

在一些实施例中，所述距离代表纺织结构的最大厚度。

在一些实施例中，所述处理器还用于:通过合并所述第一音频信号和第二音频信号产生输出信号；并对输出信号进行回声消除。

在一些实施例中，所述处理器还用于：构建声学通路的代表模型；并基于该模型估计输出信号的成分。

在一些实施例中，所述处理器还用于：对所述第二音频信号进行延迟以产生延迟音频信号；合并所述第一音频信号和延迟音频信号以产生输出信号。

【附图说明】

参考下面本发明的详细描述并结合附图，将可以更全面地理解本发明的各种目的、特征和有益效果。附图中相似的标记表示相似的部分。

图1为本发明实施例中语音通信系统的一个实施例的示意图；

图2A-B为本发明实施例中嵌有传感器的纺织结构的示意图；

图3为本发明实施例中处理器示意图；

图4是本发明实施例中波束形成器的一个实施例的示意图；

图5是本发明实施例中声学回声消除器的一个实施例的示意图；

图6是本发明另一个实施例中声学回声消除器的一个实施例的示意图；

图7是本发明实施例中处理语音通信音频信号的流程示意图；

图8是本发明实施例中空间滤波的流程示意图；

图9是本发明实施例中回声消除的流程示意图；

图10是本发明实施例中多通道降噪的流程示意图；

图11是本发明实施例中嵌埋在可穿戴设备中的音频传感器子阵的示意图；

图12是本发明实施例中语音通信系统的一个实施例示意图；

图13是本发明实施例中可穿戴设备的截面图的示意图；

图14是本发明实施例中可用在可穿戴设备中的纺织结构的示意图；

图15和图16是本发明实施例中与一个或多个传感器相连的电路示意图。

【具体实施方式】

本发明，根据其各种实施方式，提供了某些用于语音通信的方案，其包括系统及方法，下面将加以详细描述。

在一些实施例中，所述方案可以提供利用嵌埋有传感器的可穿戴设备的语音通信系统。所述可穿戴设备可以是和/或包括任何可以附着在用户的一个或多个部位的设备。例如，可穿戴设备可以是和/或包括安全带、膜片、施工安全护具、可穿戴计算设备、安全帽、安全帽系带、头戴式设备、带(例如腕带)等，或它们的任意组合。

可穿戴设备可以包括其中可以嵌埋有一个或多个传感器的一个或多个纺织结构。举例来说，纺织结构可以是安全带等的织带。嵌入的一个或多个传感器可以捕捉有关音频信号、体温、脉膊、血压、心率、呼吸率、心电图、肌电图、物体移动的信息、用户的定位信息和/或任何其他信息。

纺织结构可以由任何其中可嵌入传感器的适当材料制成，例如织物(如织造织物、非织造织物、导电织物、非导电织物等)、织带、纤维、纺织品、增强膜、塑料、塑料膜、聚氨酯、硅橡胶、金属、陶瓷、玻璃、膜、纸、卡纸、聚合物、聚酯、聚酰亚胺、聚对苯二甲酸乙二醇酯、弹性材料、压电材料、碳纳米管、仿生材料和/或任何其他可用来制造嵌有传感器的纺织结构的适当材料。所述纺织结构可由导电材料(如导电线、导电织物、导电丝、导电纤维等)、非导电材料(如非导电织物、非导电环氧树脂等)和/或带有任何其他导电性的材料制成。

纺织结构中可嵌有一个或多个传感器(如麦克风、生物计量传感器等)。例如，传感器可以放置在纺织结构的第一表面和第二表面之间(如朝向机动车辆乘员的安全带的内表面、安全带的外表面等)。在一个更具体的例子中，纺织结构可以包括位于纺织结构的第一表面和第二表面之间的通道。传感器和/或其相连电路可以放置在通道中。通道的一个或多个部分可以是中空的。在另一个更具体的例子中，传感器和/或其相连电路的一个或多个部分可以放置在纺织结构的位于第一表面和第二表面之间的区域，使得传感器及其相连电路完全嵌入在纺织结构中。这样，嵌入的传感器的存在可以不必改变纺织结构的厚度和/或外观。纺织结构的厚度仍与无嵌入传感器时的厚度相同。纺织结构的两个表面可以都是平滑的。

纺织结构可以具有一个或多个层。各层可以包括一个或多个音频传感器、与音频传感器相连的电路和/或任何其他硬件、处理器和/或任何其他适当部分。例如，一个或多个音频传感器及他们的相连电路和/或硬件可以嵌在纺织结构的第一层中。另一个例子是，一个或多个音频传感器可以嵌在纺织结构的第一层中。它们的相连电路的一个或多个部分可以嵌在纺织结构的一个或多个其他层中(例如第二层、第三层等)。

在一些实施例中，纺织结构中可嵌入多个音频传感器(如麦克风)以促进语音通信。音频传感器可以排列形成音频传感器阵列(本文中也称为“麦克风阵列”)。麦克风阵列可以包括一个或多个音频传感器子阵(本文中也称为“麦克风子阵”)。在一些实施例中，麦克风子阵可以沿纺织结构的一条或多条纵向线安放。例如，麦克风子阵可以放置在纺织结构的沿纵向延伸的多个通道中。这些通道可以彼此平行或不平行，可以位于纺织结构的不同位置。

麦克风子阵可以包括嵌在纺织结构中的一个或多个音频传感器。在一些实施例中，麦克风子阵可以包括两个音频传感器(如第一音频传感器和第二音频传感器)，它们可以形成差分定向麦克风系统。在一些实施例中，第一音频传感器和第二音频传感器可以沿纺织结构的横截面线排列。第一音频传感器和第二音频传感器可以产生声学输入(如包括相当于用户语音的成分的输入信号)的第一音频信号和第二音频信号代表。可以对第一音频信号和第二音频信号进行处理以产生具有某些定向特性的麦克风子阵输出(使用一种或多种波束形成、空间滤波和/或任何其他适当的技术)。

麦克风子阵的输出可以在没有麦克风子阵的几何学信息(如第一麦克风和/或第二麦克风对于用户的具体位置)和/或声源位置(如用户或用户嘴巴的位置)的情况下产生，下面将更详细地加以描述。这样，当麦克风子阵的几何学变化时(例如当用户位置移动、纺织结构弯曲时等)，可以产生麦克风输出以实现某些定向特性。

在一些实施例中，可以用多个麦克风子阵来产生代表声学输入的多个输出信号。所述方案可以处理一个或多个输出信号以产生代表声学输入的语音成分(如用户的声音)的语音信号。例如，所述方案可以对一个或多个输出信号进行回声消除以减少和/或消除输出信号的回声和/或反馈成分。另一个例子是，所述方案可以对一个或多个输出信号(如相当于某些音频通道的一个或多个输出信号)进行多通道降噪。再一个例子是，所述方案可以对一个或多个输出信号进行残余噪声和/或回声抑制。

所述方案还可以处理语音信号以向用户提供各种不同功能。例如，所述方案可以分析语音信号以确定语音信号的内容(如使用一种或多种适当的语音识别技术和/或任何其他信号处理技术)。所述方案接着可以基于经分析的语音信号内容进行一种或多种操作。例如，所述方案可以基于经分析的内容提供媒体内容(如音频内容、视频内容、图像、文本等)。更具体地说，例如，所述媒体内容可以涉及地图、网页内容、导航信息、新闻、音频剪辑和/或任何其他语音信号内容相关的信息。另一个例子是，所述方案可以使用实现了所述方案的应用软件和/或任何其他应用软件为用户打电话。再一个例子是，所述方案可以基于语音信号收发信息。还一个例子是，所述方案可以对分析出的内容进行搜索(如向可进行相关搜索的服务器发送请求)。

因此，本发明完整地提供了实现一种可以向用户提供免提通信体验的语音通信系统的方案，。该语音通信系统可以在车辆中得以实现，从而增强用户的车内体验。

基于检测到的音频事件来回放媒体内容的这些和其他特性将在下面结合图1-16加以描述。

图1显示了本发明一些实施例中语音通信系统的一个例子100。

如图1所示，系统100可以包括一个或多个音频传感器110、处理器120、控制器130、通信网络140和/或任何其他适合用于处理本发明音频信号的部分。

音频传感器110可以是任何能够接收声学输入、处理声学输入、基于声学输入产生一个或多个音频信号、处理音频信号和/或进行任何其他适当功能的适当设备。音频信号可以包括一个或多个模拟信号和/或数字信号。各音频传感器110可以包括或不包括模拟数字转换器(ADC)。

各音频传感器110可以是和/或包括任何适当类型的麦克风，如激光麦克风、电容麦克风、硅元麦克风(如微机电系统(MEMS)麦克风)等或它们的任意组合。在一些实施例中，硅元麦克风(也称为麦克风芯片)的制造可以通过直接在硅晶圆中蚀刻出压敏薄膜而完成。该制造工艺中的几何尺寸可以是微米级(如10^-6米)。麦克风芯片的各种电子和/或机械部分可以集成在芯片中。硅元麦克风的芯片可以包括内置的模拟数字转换器(ADC)电路和/或任何其他电路。硅元麦克风可以是和/或包括电容麦克风、光纤麦克风、表面贴装器件和/或任何其他类型的麦克风。

可以将一个或多个音频传感器110嵌埋入可附着在人体一个或多个部位的可穿戴设备中。可穿戴设备可以是和/或包括安全带、膜片、施工安全护具、可穿戴计算设备、安全帽、安全帽系带、头戴式设备、带(例如腕带)等或它们的任意组合。

各音频传感器110可以具有任何适合嵌在可穿戴设备的纺织结构中的尺寸。例如，音频传感器110的大小(如尺寸)可以使音频传感器可以完全嵌入一定厚度(如不大于2.5mm或任何其他阀值的厚度)的纺织结构中。更具体地说，例如，音频传感器可以放置在纺织结构的第一表面和第二表面之间。

例如，可以将一个或多个音频传感器110和它们的连接电路嵌埋入纺织结构中，使音频传感器110置于纺织结构的第一表面和第二表面之间。这样，嵌入的音频传感器的存在可以不必改变纺织结构的厚度和/或外观。纺织结构的厚度仍与无嵌入传感器时的厚度相同。纺织结构的两个表面可以都是平滑的。更具体来说，例如，可以将一个或多个传感器嵌埋在纺织结构的两个表面之间，没有任何部件突出于纺织结构的任何部分。在一些实施例中，音频传感器可以按下图11-16用一种或多种技术嵌入到纺织结构中。

音频传感器110可以具有各种不同的定向特性。例如，一个或多个音频传感器110可以是定向的，对来自一个或多个具体方向的声音敏感。更具体来说，例如，音频传感器110可以是偶极麦克风、双向麦克风等或它们的任意组合。另一个例子是，一个或多个音频传感器110可以是非定向的。例如，音频传感器110可以是全向麦克风。

在一些实施例中，多个音频传感器110可以排列成音频传感器的阵列(本文也称为“麦克风阵列”)以促进语音通信。麦克风阵列可以包括音频传感器的一个或多个子阵(本文也称为“麦克风子阵”)。各麦克风子阵可以包括一个或多个音频传感器(如麦克风)。麦克风子阵可以形成指向可穿戴设备用户(如戴安全带的车辆乘员)的差分定向麦克风系统。麦克风子阵可以输出代表用户语音的输出信号。可以对一个或多个麦克风子阵产生的一个或多个输出信号加以合并、处理等以产生代表用户语音和/或用户提供的任何其他声学输入的语音信号，下面将会详细描述。在一些实施例中，麦克风阵列的多个音频传感器可以嵌埋入纺织结构(如放在纺织结构的第一表面和第二表面之间)中，下面也会进行详细描述。

处理器120和/或任何其他设备可以处理语音信号以实现一种或多种语音控制的技术应用。例如，处理器120可以分析语音信号以识别语音信号的内容。更具体地说，例如，可以用任何适当的语音识别技术来识别用户所说的一个或多个关键词、短语等。处理器120接着可以根据识别的内容来执行一种或多种操作(例如通过产生一个或多个执行操作的指令、通过执行操作、通过提供可用于执行操作的信息等)。例如，处理器120可以将媒体内容(如音频内容、视频内容、文本、图像等)在显示装置上显示给用户。媒体内容可能涉及地图、网页内容、导航信息、新闻、音频片段和/或任何其他有关语音信号内容的信息。另一个例子是，处理器120可以基于语音信号的内容进行搜索(如通过向服务器发送请求来搜索识别的关键词和/或短语，通过控制另一个装置和/或技术应用来发送请求等)。

处理器120可以是任何能够对音频信号进行接收、处理和/或进行任何其他适当功能的适当设备。例如，处理器120能接收来自一个或多个麦克风子阵和/或任何其他能够产生音频信号的适当设备的音频信号。处理器120接着能够对音频信号进行空间滤波、回声消除、降噪、噪音和/或回声抑制、和/或任何其他适当的操作以产生语音信号。

处理器120可以是和/或包括任何计算机等通用设备或者客户端、服务器等专用设备。这些通用或专用设备可以包括任何适当的部分，如硬件处理器(其可以是微处理器、数字信号处理器、控制器等)、存储器、通信接口、显示控制器、输入设备、存储设备(其可以包括硬盘驱动器、数字录像机、固态存储设备、可移动存储设备或任何其他适当的存储设备)等。

在一些实施例中，处理器120可以是和/或包括图3所示的处理器。在一些实施例中，处理器120可以执行一种或多种操作和/或实现下图7-10所示的一种或多种处理进程700-1000。

可以配置控制器130来控制系统100的一个或多个部分的各种功能和操作。控制器130可以是单独的控制设备(如控制电路、转换器等)、控制总线、移动设备(如移动电话、平板电脑设备等)等或它们的任意组合。在一些实施例中，控制器130可以提供一个或多个用户界面(图1未示出)来获得用户指令。在一些实施例中，可以根据不同条件，例如车辆速度、环境噪声、用户特性(如用户历史数据、用户设置)、空间特性等或它们的任意组合来用控制器130选择一个或多个子阵、一种或多种处理方法。

在一些实施例中，处理器120可以分别通过通信线路151和153与音频传感器110和控制器130通信连接。在一些实施例中，各音频传感器110、处理器120和控制器130可以分别通过通信线路155、157和159与通信网络140连接。通信线路151、153、155、157和159可以是和/或包括任何适当的通信线路，如网络线路、拨号线路、无线线路、蓝牙^TM线路、硬接线线路、任何其他适当的通信线路或这些线路的组合。

通信网络140可以是任何适当的计算机网络，包括互联网、内联网、广域网(“WAN”)、局域网(“LAN”)、无线网、数字用户线路(“DSL”)网、帧中继网、异步传输模式(“ATM”)网、虚拟专用网(“VPN”)、有线电视网、光纤网、电话网、卫星网或这些网络的任意组合。

在一些实施例中，音频传感器110、处理器120和控制器130可以通过通信网络140彼此通信。例如，音频信号可以通过通信网络140由音频传感器110传输至处理器120以进一步处理。另一个例子是，控制信号可以通过通信网络140由控制器130传输至一个或多个音频传感器110和处理器120。

在一些实施例中，各音频传感器110、处理器120和控制器130可以实现于一个独立的设备或是与系统100的其他组件集成。

在一些实施例中，系统100的各部分可以在一个或多个设备中实现。例如，系统100的一个或多个音频传感器110、处理器120和/或控制器130可以嵌埋入一个可穿戴设备(如安全带、膜片等)中。另一个例子是，音频传感器110可以嵌入一个可穿戴设备中，而一个或多个处理器120和控制器130可以置于另一个设备(如独立的处理器、移动电话、服务器、平板电脑等)中。

在一些实施例中，系统100也可以包括一个或多个生物传感器，其能够检测用户的心率、呼吸率、脉搏、血压、体温、呼出气体中酒精含量、指纹、心电图、肌电图、位置和/或任何其他用户信息之一。系统100可以用作智能控制设备的一部分。例如，如图13B所示(未见图13B)，可以根据系统100接收到的语音信号等或其任意组合发出一个或多个控制指令。在一个实施例中，所述语音信号可以由系统100获得，可以控制移动电话来进行一项或多项功能(如开/关机、在通讯录中搜索名字并打电话、编写信息等)。在另一个实施例中，呼出气体中酒精含量可以由系统100获得，并且当获得的酒精含量超过阈值(如高于20mg/100ml、80mg/100ml等)时车辆可以被锁定。在还一个实施例中，用户的心率或任何其他生物计量参数可以由系统100获得，并且可以发出警示。在一些实施例中，警示可以被发送至另一个用户(例如服务器、健康护理提供者的移动电话等)。

图2A显示了本发明一些实施例中嵌埋有音频传感器的纺织结构的例子200。纺织结构200可以是可穿戴设备的一部分。

如图所示，纺织结构200可以包括一个或多个层(如层202a、202b、202n等)。虽然图2A中显示了3层，但这仅仅是示意性的。纺织结构200可以包括任何适当的层数(如1层、2层等)。

各层202a-n可以被视为其中可以嵌入音频传感器、与音频传感器相连的电路和/或任何其他硬件等的纺织结构。如图2A所示，层202a-n可以沿纬度方向排列。

纺织结构200和/或各层202a-n可以由任何适当的材料制成，例如织物(如织造织物、非织造织物、导电织物、非导电织物等)、织带、纤维、纺织品、增强膜、塑料、塑料膜、聚氨酯、硅橡胶、金属、陶瓷、玻璃、膜、纸、卡纸、聚合物、聚酯、聚酰亚胺、聚对苯二甲酸乙二醇酯、弹性材料、压电材料、碳纳米管、仿生材料和/或任何其他可用来制造嵌有传感器的纺织结构的适当材料。纺织结构200和/或各层202a-n可由导电材料(如导电线、导电织物、导电丝、导电纤维等)、非导电材料(如非导电织物、非导电环氧树脂等)和/或带有任何其他导电性的材料制成。在一些实施例中，基底200的多个层可以由相同或不同的材料制成。层202a-n的颜色、形状、密度、弹性、厚度、导电性、导热性、透气性和/或任何其他特性可以相同或不同。

各层202a-n可以具有任何适当的尺寸(如长度、宽度、厚度(如高度)等)。纺织结构200的多个层可以具有相同或不同的尺寸。例如，层202a、202b和202n的厚度可以分别为204a、204b和204n。厚度204a、204b和204n可以彼此相同或不同。在一些实施例中，纺织结构200的一个或多个层可以具有一定厚度。例如，纺织结构200的所有层的厚度(例如厚度204a-n之和)可以小于或等于一定厚度(如2.5mm、2.4mm、2mm、3mm、4mm和/或任何其他厚度值)。另一个例子是，纺织结构200的具体层的厚度可以小于或等于一定厚度(如2.5mm、2.4mm、2mm、3mm、4mm和/或任何其他厚度值)。

在一些实施例中，纺织结构的层的厚度可以用该层的第一表面与该层的第二表面之间的距离来度量(如厚度204a、204b和204n等)。所述层的第一表面可以与第二表面平行或不平行。所述层的厚度可以是该层的第一表面与第二表面之间的最大距离(本文也称为“最大厚度”)。所述层的厚度也可以是该层的第一表面与第二表面之间的任何其他距离。

类似地，纺织结构的厚度可以用该纺织结构的第一表面与该纺织结构的第二表面之间的距离来度量。所述纺织结构的第一表面可以与第二表面平行或不平行。所述纺织结构的厚度可以是该纺织结构的第一表面与第二表面之间的最大距离(本文也称为“最大厚度”)。所述纺织结构的厚度也可以是该纺织结构的第一表面与第二表面之间的任何其他距离。

纺织结构200可以是任何适当的可穿戴设备的一部分，譬如安全带、施工安全护具、可穿戴计算设备、安全帽、安全帽系带、头戴式设备、带(例如腕带)、服装、军用服装等。在一些实施例中，纺织结构200可以是和/或包括安全带织带。

各层202a-n可以包括一个或多个音频传感器、与音频传感器相连的电路和/或任何其他硬件、处理器和/或任何其他适合用于提供可穿戴设备的通信系统的部件。例如，一个或多个音频传感器及它们的连接电路和/或硬件可以嵌在纺织结构200的一个层中。另一个例子是，一个或多个音频传感器可以嵌在纺织结构200的一个特定层中(如第一层)。它们的连接电路的一个或多个部分可以嵌入纺织结构200的一个或多个其他层中(如第二层、第三层等)。在一些实施例中，各层202a-n可以是和/或包括图2B和11-14所示的一个或多个纺织结构。

在一些实施例中，嵌在纺织结构200的一个或多个层中的多个音频传感器可以形成音频传感器的一个或多个阵列(如麦克风阵列)，各个阵列可以进一步包括音频传感器的一个或多个子阵(如麦克风子阵)。例如，麦克风阵列和/或麦克风子阵可以由嵌在纺织结构200的特定层中的音频传感器形成。另一个例子是，麦克风阵列和/或麦克风子阵可以由嵌在纺织结构200的多个层中的音频传感器形成。在一些实施例中，多个音频传感器可以如图2B和11-14所示排列在纺织结构200的一个或多个层中。

在一些实施例中，层202a-n的一个或多个层可以包括其中可以嵌入音频传感器、音频传感器的连接电路、处理器等的一个或多个通道(如通道206a、206b、206n等)。例如，各通道可以是和/或包括图2B的通道201a-g、图11的通道1101a-e、图13的通道1310、图14的通道1411和1421中的一个或多个。作为替代方案或者补充方案，一个或多个音频传感器、与音频传感器相连的电路和/或任何其他硬件(如电极、导线等)等可以集成在纺织结构200的一个或多个部分。

图2B显示了本发明一些实施例中嵌有传感器的纺织结构的例子210、220、230和240。各纺织结构210、220、230和240可以代表可穿戴设备的一部分。例如，各纺织结构210、220、230和240可以包括在图2A所示的纺织结构的一层中。另一个例子是，两个或更多个纺织结构210、220、230和240可以包括在图2A所示的纺织结构的一层中。作为替代方案或者补充方案，纺织结构210、220、230和240可以用在多个可穿戴设备中。

各纺织结构210、220、230和240可以包括一个或多个通道(例如通道201a、201b、201c、201d、201e、201e、201f和201g)。根据本发明的一些实施例，各通道可以包括一个或多个音频传感器(如音频传感器203a-p)、与音频传感器相连的电路和/或任何其他硬件、和/或任何其他适当的部分。各音频传感器203a-p可以是和/或包括图1所示的音频传感器110。

在一些实施例中，一个或多个通道201a-g可以沿纺织结构纵向延伸。或者，各通道210a-g可以沿任何其他适当方向排列。

纺织结构中的多个通道可以按任何适当的方式排列。例如，位于纺织结构中的多个通道(如通道201b-c、通道201d-e、通道201f-g等)可以彼此平行或不平行。另一个例子是，纺织结构中的多个通道(如通道201b-c、通道201d-e、通道201f-g等)的起始端和末端可以相同或不同。还一个例子是，纺织结构中的多个通道可以具有相同或不同的尺寸(如长度、宽度、高度(即厚度)、形状等)。各通道201a-g可以具有任何适当的形状，例如弧形、矩形、椭圆形等或它们的任意组合。通道201a-g的空间结构可以包括，但不限于：长方体、圆柱体、椭圆体等或它们的任意组合。多个通道的形状和空间结构可以相同或不同。各通道201a-g的一个或多个部分可以是中空的。在一些实施例中，各通道201a-g可以是和/或包括图11所示的通道1101a-e。各通道201a-g也可以是和/或包括图14所示的通道1411和/或1412。

尽管例子220、230和240中显示了两个通道，但这仅仅是示意性的。各纺织结构可以包括任何适当数目的通道(如0、1、2等)。

如图所示，各音频传感器203a-p可以放置在通道中。与一个或多个音频传感器连接的一个或多个电路(如图12-16所示的电路)也可以放置在通道中。在一些实施例中，音频传感器203可以在通道201的纵向线上。在另一个实施例中，音频传感器203可以在通道201的不同线上。在一些实施例中，一排或多排音频传感器203可以置于一个通道201中。音频传感器203可以置于带有或不带凸起部分的纺织结构的通道201中。例如，在一些实施例中，音频传感器203和/或它们的连接电路不突出于纺织结构。

在一些实施例中，通道201的数目和音频传感器203的排列方式可以相同或不同。在210中，通道201可以制在纺织结构中并可以在通道201中安置一个或多个音频传感器。音频传感器203的输出可以合并以产生音频信号。在例子220、230和240中，多个通道201可以制在纺织结构中并可以在各通道201中安置一个或多个音频传感器。相邻的多个通道201的间距可以相同或不同。在220中，音频传感器可以位于平行的横向线上。横向线可以垂直于纵向线。之后音频传感器可以用于形成一个或多个差分定向音频传感器子阵。一个或多个差分定向音频传感器子阵的输出可以合并以产生音频信号。例如，音频传感器203b和203c可以形成差分定向音频传感器子阵。音频传感器203d和音频传感器203e可以形成差分定向音频传感器子阵。音频传感器203f和音频传感器203g可以形成差分定向音频传感器子阵。

在230中，音频传感器203可位于平行的横向线和其他线上。位于平行横向线上的音频传感器203可用于形成一个或多个差分定向音频传感器子阵。一个或多个差分定向音频传感器子阵的输出可以合并以产生音频信号。例如，音频传感器203h和音频传感器203i可以形成差分定向音频传感器子阵。音频传感器203j和203k可以形成差分定向音频传感器子阵。音频传感器203m和203n可以形成差分定向音频传感器子阵。在一些实施例中，在240中，一个或多个音频传感器203可以无规排列且位于多条横向线上。音频传感器203的输出可以合并以产生音频信号。

图3显示了本发明一些实施例中处理器的例子300。如图所示，处理器300可以包括I/O模块310、空间滤波模块320、回声消除模块330、降噪模块340和/或任何其他适当的处理本发明各种实施例的音频信号的部分。处理器300也可以包括更多或更少的部分而不失普遍性。例如，两个模块可以合并在一个模块中，或者一个模块可以分成两个或更多个模块。在一种实施方式中，一个或多个模块可以存在不同的电脑设备(如不同的服务器电脑)中。在一些实施例中，图3的处理器300可以与图1的处理器120相同。

I/O模块310可以用于不同的控制技术应用中。例如，I/O模块310可以包括接收来自电子设备(如音频传感器、压力传感器、光电传感器、电流传感器等或它们的任意组合)的信号的电路。在一些实施例中，I/O模块310可以将接收到的信号或任何其他信号(如得自一个或多个接收到的信号的信号或者与一个或多个接收到的信号有关的信号)传输至系统300的其他模块(如通过通信线路传输至空间滤波模块320、回声消除模块330和降噪模块340)。在其他一些实施例中，I/O模块310可以将处理器300的一个或多个部分产生的信号传输至任何其他设备以进一步处理。在一些实施例中，I/O模块310可以包括可以将模拟信号转换成数字信号的模拟数字转换器(图3未示出)。

空间滤波模块320可以包括一个或多个波束形成器322、低通滤波器324和/或任何其他适当的对音频信号进行空间滤波的部分。波束形成器322可以合并子阵的不同音频传感器接收到的音频信号。例如，波束形成器322可以对来自不同方向的信号做出不同的响应。可以允许来自特定方向的信号通过波束形成器322，而来自其他方向的信号则可以被抑制。由波束形成器322区分的信号方向可以由以下的信息而确定：例如，基于构成波束形成器322的麦克风阵列和/或麦克风子阵的音频传感器的几何信息、音频传感器的数量、源信号的位置信息、和/或任何其他可能与信号的方向性有关的信息等。在一些实施例中，波束形成器322可以包括图4的一个或多个波束形成器400和/或波束形成器400的一个或多个部分。如下面将就图4进行讨论的，波束形成器322可以不参考音频传感器的几何信息(如音频传感器的位置、音频传感器之间的距离等)和源信号的位置来形成波束。

低通滤波器324可以减轻与使用波束形成器有关的失真。在一些实施例中，低通滤波器324可以除去波束形成器322产生的音频信号的失真成分。例如，失真成分可以通过平衡失真(例如由音频传感器的子阵构成、音频传感器的数量、信号的源位置等或它们的任意组合引起的失真)来除去。

如图3所示，处理器300也可以包括回声消除模块330，其可以除去输入音频信号(如I/O模块310、空间滤波模块320或任何其他设备产生的信号)中所含的回声和/或反馈成分(本文也称为“回声成分”)。例如，回声消除模块330可以估计输入音频信号中所含的回声成分，并可以从输入音频信号中除去回声成分(例如通过从输入音频信号中减去估计的回声成分)。输入音频信号的回声成分可以表示由于声学环境中的音频传感器(如麦克风)和一个或多个扬声器之间缺乏合适的隔音而产生的回声。例如，麦克风产生的音频信号可以含有分别来自远端语音和近端音频(如指令或来自信息娱乐子系统的音频信号)的回声和反馈成分。这些回声和/或反馈成分可以由一个或多个扬声器回放来产生声学回声。

在一些实施例中，回声消除模块330可以包括声学回声消除器332、双端发声检测器334和/或任何其他适当的对音频信号进行回声和/或反馈消除的部分。

在一些实施例中，声学回声消除器332可以估计输入音频信号的回声成分。例如，声学回声消除器332可以构建产生回声成分的声学通路的代表模型。声学回声消除器332接着可以基于该模型估计回声成分。在一些实施例中，声学通路可以用自适应算法，如归一化最小均方(NLMS)算法、仿射投影(AP)算法、频域LMS(FLMS)算法等来建模。在一些实施例中，声学通路可以由滤波器，如带有限脉冲响应(FIR)的自适应滤波器来建模。自适应滤波器可以如下图5和6所示构建。

双端发声检测器334可以进行双端发声检测并基于这种检测指导回声消除。双端发声可以发生在回声消除模块330同时或实质上同时接收到多个谈话者语音的多个代表信号时。通过检测双端发声的出现，双端发声检测器334可以暂停或减慢由声学回声消除器332构建的自适应滤波器。

在一些实施例中，双端发声检测器334可以基于一个或多个扬声器信号和一个或多个音频传感器产生的输出信号之间的相关性信息来检测双端发声的出现。例如，可以基于能量比测试、类似统计学的交互关联或相关性等或它们的任意组合来检测双端发声的出现。双端发声检测器334也可以提供有关扬声器信号和麦克风信号与声学回声消除器332相关性的信息。在一些实施例中，可以基于该信息暂停或减慢由声学回声消除器332构建的自适应滤波器。图5和6将更详细地讨论回声消除模块330进行的各种功能。

降噪模块340可以对输入音频信号，如一个或多个音频传感器、I/O模块310、空间滤波模块320、回声消除模块330和/或任何其他设备产生的音频信号进行降噪。如图3所示，降噪模块340可以包括通道选择单元342、多通道降噪(MNR)单元344、残余噪声和回声抑制单元346和/或任何其他适当的用来降噪的部分。

通道选择单元342可以选择一个或多个音频通道进一步处理。这些音频通道可以相应于多个音频传感器(例如一个或多个麦克风阵列、麦克风子阵等)的输出。在一些实施例中，可以基于音频通道提供的音频信号的质量选择一个或多个音频通道。例如，可以基于音频通道提供的音频信号的信噪比(SNR)来选择一个或多个音频通道。更具体地说，例如，通道选择单元342可以选择一个或多个与具体质量(如具体SNR，如最高的SNR、前三个SNR、高于阀值的SNR等)相关的音频通道。

通过选择音频通道，通道选择单元342可以向多通道降噪(MCNR)单元344提供有关选择的信息、选择的音频通道提供的音频信号和/或任何其他信息以进一步处理。之后MCNR单元344可以对选择的音频通道提供的音频信号进行降噪。

MCNR单元344可以接收来自通道选择单元342、I/O模块310、空间滤波模块320、回声消除模块330、一个或多个音频传感器、和/或任何其他设备的一个或多个输入音频信号。MCNR单元344接收到的输入音频信号可以包括语音成分、噪音成分和/或任何其他成分。语音信号可以相应于希望的语音信号(如用户的声音、任何其他声学输入和/或任何其他希望的信号)。噪音成分可以对应于环境噪音、回路噪音和/或任何其他类型的噪音。MCNR单元344可以对输入音频信号进行处理以产生语音信号(如通过估计语音成分和/或噪音成分的统计学信息)。例如，MCNR单元344可以构建一个或多个降噪滤波器并可以将降噪滤波器应用于输入音频信号，以产生语音信号和/或降噪信号。类似地，也可以构建一个或多个降噪滤波器以处理相应于多个音频通道的多个输入音频信号。可以构建一个或多个这些降噪滤波器用于单通道降噪和/或多通道降噪。降噪滤波器可以基于一种或多种滤波技术构建，例如经典的Wiener滤波、梳状滤波技术(采用线性滤波器，仅使来自基因周期的语音的谐波部分通过)、语音的线性全极点和零极点模型(例如通过估计来自带噪语音的语音成分的系数)、隐式马尔科夫模型等。在一些实施例中，可以通过进行图10所示的一种或多种操作来构建一个或多个降噪滤波器。

在一些实施例中，MCNR单元344可以在沉默段估计和追踪噪音的统计数据。当语音信号出现时，MCNR单元344可以使用估计的信息来抑制噪音成分。在一些实施例中，MCNR单元344可以在较少甚至没有语音失真的情况下实现降噪。MCNR单元344可以处理多个音频传感器的输出信号。多个音频传感器的输出信号可以被分解为来自未知源的成分、噪音成分和/或任何其他成分。在一些实施例中，MCNR单元344可以估算来自未知源的成分。MCNR单元344之后可以基于来自未知源的成分和相应的估计过程产生误差信号。MCNR单元344可以接着根据误差信号产生降噪信号。

在一些实施例中，可以基于一个或多个其他音频通道提供的音频信号的统计数据对音频通道进行降噪。作为替代方案或者补充方案，可以使用单通道降噪方式对各音频通道进行降噪。

由MCNR单元344产生的语音信号可传输至残余噪声和回声抑制单元346以进一步处理。例如，残余噪声和回声抑制单元346可以抑制语音信号中包含的残余噪声和/或回声(例如任何未被回声MCNR344和/或回声消除模块330除去的噪声和/或回声成分)。图10中将更详细地讨论降噪模块340执行的各种功能。

本说明书仅用于对本发明进行描述，并非限定权利要求的范围，其多种变化、变动和修改对本领域技术人员来说是显而易见的。本说明书中描述的示例性实施例的特征、结构、方法和其他特性可以多种方式组合而获得补充性和/或替代性的示例实施例。例如，回声消除模块330中可以有线路回声消除器(图3未示出)以消除线路回声。另一个例子是，声学回声消除器334可以具有消除线路回声的功能。

图4的示意图显示了本发明一些实施例中波束形成器的一个例子400。在一些实施例中，波束形成器400可以与图3中所示的波束形成器322相同。

在一些实施例中，麦克风子阵450可以包括音频传感器410和420。各音频传感器410和420可以是全向麦克风或具有任何其他适当的定向特性。可以放置音频传感器410和420以形成差分波束形成器(如固定差分波束形成器、自适应差分波束形成器、一阶差分波束形成器、二阶差分波束形成器等)。在一些实施例中，音频传感器410和420可以按某一距离(如相对于冲击声波的波长较小的距离)排列。音频传感器410和420可以如图2A-B所示形成麦克风子阵。各音频传感器410和420可以是和/或包括图1的音频传感器110。

轴405是麦克风子阵450的轴。例如，轴405可以表示连接音频传感器410和420的线。例如，轴405可以连接音频传感器410和420的几何中心和/或音频传感器410和420的任何其他部分。

音频传感器410和音频传感器420可以接收声波407。在一些实施例中，声波407可以是冲击平面波、非平面波(如球面波、柱面波等)等。各音频传感器410和420可以产生代表声波407的音频信号。例如，音频传感器410和420可以分别产生第一音频信号和第二音频信号。

延迟模块430可以基于第一音频信号和/或第二音频信号产生延迟音频信号。例如，延迟模块430可以通过对第二音频信号施加时间延迟产生延迟音频信号。时间延迟可以使用线性算法、非线性算法和/或任何其他适当的可用于产生延迟音频信号的算法来确定。可以基于声波在音频传感器410和420之间轴向行进的传播时间来对时间延迟进行调节，以实现各种不同的定向性响应，下文将会加以详述。

合并模块440可以合并第一音频信号(如音频传感器410产生的音频信号)和延迟模块430产生的延迟音频信号。例如，合并模块440可以以正负交替的方式(alternatingsign fashion)合并第一音频信号和延迟音频信号。在一些实施例中，合并模块440可以用近场模型、远场模型、和/或任何其他可以用于合并多个音频信号的模型来合并第一音频信号和延迟音频信号。例如，两个传感器可以形成近场波束形成器。在一些实施例中，合并模块440所用的算法可以是线性算法、非线性算法、实时算法、非实时算法、时域算法或频域算法等或它们的任意组合。在一些实施例中，合并模块440所用的算法可以基于一种或多种波束形成或空间滤波技术，例如，基于两步时延估计(TDOA)的算法、一步时延估计、基于可控波束的算法、基于独立成分分析的算法、延迟叠加(DAS)算法、最小方差无畸变响应(MVDR)算法、广义旁瓣抵消器(GSC)算法、最小均方误差(MMSE)等或它们的任意组合。

在一些实施例中，音频传感器410和420可以形成固定的一阶差分波束形成器。更具体来说，例如，所述一阶差分波束形成器的(空间)灵敏度与包括最高是第一阶的声压场空间导数值成正比。对于入射在麦克风子阵450上的振幅为S₀、角频率为ω的平面波来说，合并模块440的输出可以用下式表示：

X(ω，θ)＝S₀·[1-e^{-jω(τ+d·cosθ/c)}]. (1)

式(1)中d表示麦克风间距(如音频传感器410和420之间的距离)，c表示声速，θ表示声波407相对于轴405的入射角，τ表示用于麦克风子阵中的一个音频传感器的时间延迟。

在一些实施例中，音频传感器间距d可以较小(如满足ω·d/c＜＜π且ω·τ＜＜π的值)。合并模块440的输出可以表示为：

X(ω，θ)≈S₀·ω(τ+d/c·cosθ) (2)

如式(2)所示，合并模块440不必参考音频传感器410和420的几何信息以产生输出信号。式(2)括号中的项可以包含麦克风子阵的定向响应。

在一些实施例中，麦克风子阵可能具有一阶高通频率依赖性。因此，直接到达轴405(如θ＝0°)的所希望的信号S(jω)会失真，失真系数为ω。该失真可以用低通滤波器来减轻和/或消除(如通过均衡合并模块440产生的输出信号)。在一些实施例中，低通滤波器可以是匹配低通滤波器。一个更具体的例子是，低通滤波器可以是一阶递归低通滤波器。在一些实施例中，低通滤波器可以是和/或包括图3的低通滤波器324。

在一些实施例中，合并模块440可以基于声波在子阵的两个音频传感器之间轴向行进的传播时间(如数值d/c)来调节时间延迟τ。更具体地说，例如数值τ可以与数值d/c成比例(如τ的值可以为0、d/c、d/3c、等)。在一些实施例中，时间延迟τ可以在例如0至数值d/c之间的范围内调节以实现不同的定向性响应。例如，可以调节时间延迟以使麦克风子阵响应的最小值在90°和180°之间变化。在一些实施例中，向音频传感器420施加的时间延迟τ可以用下式确定：

τ = \frac{d}{c} c o s θ - - - (2.1)

作为替代方案或者补充方案，延迟时间τ可以用下式计算：

τ = \frac{d}{c} s i n θ - - - (2.2)

图5显示了本发明一个实施例中声学回声消除器(AEC)的一个例子500。

如图所示，AEC 500可以包括扬声器501、双端发声检测器(DTD)503、自适应滤波器505、合成器506和/或任何其他适当的用于进行声学回声消除的部分。在一些实施例中，AEC500的一个或多个部分可以包括在图3的回声消除模块330中。例如，如图5所示，回声消除模块330可以包括双端发声检测器(DTD)503、自适应滤波器505和合成器506。音频传感器508的更详细信息可参见图2A-B中的音频传感器203。

扬声器501可以是和/或包括任何可以将音频信号转换为相应声音的装置。扬声器501可以是单独的装置或者与一个或多个其他装置集成。例如，扬声器501可以是汽车音频系统的内置扬声器、移动电话集成的扬声器等。

扬声器501可以输出扬声器信号507。扬声器信号507可以通过声学通路(如声学通路519)并可以产生回声信号509。在一些实施例中，扬声器信号507和回声信号509可以分别表示为x(n)和y_e(n)，其中n表示离散时间索引。回声信号509可以与本地语音信号511、本地噪音信号513和/或任何其他能被音频传感器508捕捉的信号一起被音频传感器508捕捉。本地语音信号511和本地噪音信号513可以分别表示为v(n)和u(n)。本地语音信号511可以表示用户的声音、任何其他声学输入和/或任何其他可被音频传感器508捕捉的所希望的输入信号。本地噪音信号513可以表示环境噪音和/或任何其他类型的噪音。本地语音v(n)511本质上可以是时断时续的，而本地噪音u(n)513则可以是相对随时间静止的。

音频传感器508可以输出输出信号515。输出信号515可以表示为相应于回声信号509的成分(例如回声成分)、相应于本地语音511的成分(例如语音成分)、相应于本地噪音513的成分(例如噪音成分)和/或任何其他成分的组合。

回声消除模块330可以用自适应滤波器505对声学通路519建模来估计回声信号509。自适应滤波器505可以是和/或包括带有限脉冲响应(FIR)的滤波器以估计回声信号509。回声消除模块330可以用自适应算法来估计滤波器。在一些实施例中，自适应滤波器505可以是带线性滤波器的系统，其具有受一个或多个可变参数和一个或多个装置控制的传递函数以根据自适应算法调节所述一个或多个参数。

自适应滤波器505可以接收扬声器信号507和输出信号515。自适应滤波器505之后可以处理接收到的信号以产生回声信号509估计的估计回声信号(如信号)代表。估计的回声信号可以被视为回声信号509的副本。合成器506可以通过合并估计的回声信号和输出信号515而产生回声消除信号517。例如，回声消除信号517可以通过从输出信号515中减去估计的回声信号产生，以实现回声和/或反馈消除。在自适应算法中，本地语音信号v(n)511和本地噪音信号u(n)513二者均可以作为无关干扰。在一些实施例中，本地语音信号511可以是断续的，而本地噪音信号513可以是相对随时间静止的。

在一些实施例中，自适应滤波器505所用的算法可以是线性或非线性的。自适应滤波器505所用的算法可以包括，但不限于：归一化最小均方(NLMS)、仿射投影(AP)算法、递推最小二乘(RLS)算法、频域最小均方(FLMS)算法等或它们的任意组合。

在一些实施例中，可以用开发的FLMS算法对声学通路519建模和/或产生估计的回声信号。使用FLMS算法中，可以构建声学通路519的声学脉冲响应代表和自适应滤波器505。在一些实施例中，声学脉冲响应和自适应滤波器505可以具有有限长度L。开发的FLMS算法可以将来自时域或空域的一个或多个信号转换成在频域中的表示，反之亦然。例如，快速傅立叶变换可以用于将一个输入信号转换成在频域中的表示(例如输入信号的频域表示)。重叠保留处理技术可以处理这种表示。在一些实施例中，重叠保留处理技术可以用于处理输入的频域表示(例如通过估计信号和有限脉冲响应滤波器之间的离散卷积)。从时域或空域转换成在频域中的表示(反之亦然)的转换方法包括，但不限于：快速傅立叶变换、小波变换、拉普拉斯变换、Z-变换等或它们的任意组合。FFT可以包括，但不限于：素因子FFT 算法、Bruun FFT算法、Rader FFT算法，Bluestein FFT算法等或它们的任意组合。

声学通路519产生的真实声学脉冲响应可以用矢量，例如下面的矢量来表征：

h \overset{Δ}{=} {[\begin{matrix} h_{0} & h_{1} & ... & h_{L - 1} \end{matrix}]}^{T} . - - - (3)

自适应滤波器505可以用矢量、例如下面的矢量来表征：

\hat{h} (n) \overset{Δ}{=} {[\begin{matrix} {\hat{h}}_{0} (n) & {\hat{h}}_{1} (n) & ... & {\hat{h}}_{L - 1} (n) \end{matrix}]}^{T} . - - - (4)

式(3)和(4)中，(·)^T表示矢量或矩阵的转换，n是离散时间索引。h可以表示声学通路519。可以表示由自适应滤波器505建模的声学通路。各矢量h和可以是实值矢量。如上所述，在一些实施例中，真实的声学脉冲响应和自适应滤波器可以具有有限长度L。

可以基于真实的声学脉冲响应对音频传感器508的输出信号 515建模，该信号515可以包括相应于回声信号509、语音信号511、本地噪音信号513等的一种或多种成分。例如，输出信号 515可以如下建模：

y(n)＝x^T(n)·h+w(n)， (5)

其中

x (n) \overset{Δ}{=} [\begin{matrix} x (n) & x (n - 1) & ... & x (n - L + 1) \end{matrix}], - - - (6)

w (n) \overset{Δ}{=} v (n) + u (n), - - - (7)

式(5)-(7)中，x(n)相应于扬声器信号507(例如L个样本)，v(n)相应于本地语音信号511，u(n)相应于本地噪音信号513。

在一些实施例中，可以将输出信号y(n)515和扬声器信号x(n)507分帧。每帧可以包括一定数目的样本(例如L个样本)。输出信号y(n)515的帧可以写成：

y (m) \overset{Δ}{=} {[\begin{matrix} y (m \cdot L) & y (m \cdot L + 1) & ... & y (m \cdot L + L - 1) \end{matrix}]}^{T} . - - - (8)

扬声器信号x(n)507的帧可以写成：

x (m) \overset{Δ}{=} {[\begin{matrix} x (m \cdot L) & x (m \cdot L + 1) & ... & x (m \cdot L + L - 1) \end{matrix}]}^{T}, - - - (9)

式(8)和(9)中，m表示帧的索引(m＝0，1，2，···)。

扬声器信号和/或输出信号可以被转换至频域(如通过进行一次或多次快速傅立叶变换(FFT))。变换可以对扬声器信号和/或输出信号的一个或多个帧进行。例如，可以通过如下进行2L点FFT来产生扬声器信号当前帧(例如第m帧)的频域表示：

x_{f} (m) \overset{Δ}{=} F_{2 L \times 2 L} \cdot [\begin{matrix} x (m) \\ x (m - 1) \end{matrix}], - - - (10)

其中F_2L×2L可以是(2L×2L)大小的傅立叶矩阵。

应用于上一帧(例如第(m-1)帧)的自适应滤波器的频域表示可以如下确定：

其中F_2L×2L可以是(2L×2L)大小的傅立叶矩阵。

可以计算x_f(m)和的Schur(一个元素一个元素)乘积。可以产生Schur乘积的时域表示(例如通过使用反向FFT或任何其他适当的将频域信号转换至时域的方法将Schur乘积转换至时域)。回声消除模块330于是可以基于Schur乘积的时域表示产生回声信号当前帧(如y(m))的估计。例如，估计的帧(例如估计的回声信号回声的当前帧)可以如下基于Schur乘积的时域表示的最后L个元素而产生：

其中

W_{L \times 2 L}^{01} \overset{Δ}{=} [0_{L \times L} 1_{L \times L}] . - - - (13)

⊙可以表示Schur乘积。

回声消除模块330可以基于回声信号和估计回声信号之间的先验误差信号代表的相似性更新自适应滤波器505的一个或多个系数。例如，对于回声信号的当前帧(如y(m))，可以基于回声信号的当前帧(如y(m))和估计信号的当前帧(如)之间的差异来确定先验误差信号e(m)。在一些实施例中，先验误差信号e(m)可基于下式确定：

用表示对角元素是元素x_f(m)的2L×2L对角矩阵，则式(14)可以写成：

e (m) = y (m) - W_{L \times 2 L}^{01} \cdot F_{2 L \times 2 L}^{- 1} \cdot X_{f} (m) \cdot {\hat{h}}_{f} (m - 1), - - - (15 y)

基于这一先验误差信号，代价函数J(m)可以定义为：

J (m) \overset{Δ}{=} (1 - λ) \cdot Σ_{i = 0}^{m} λ^{m - 1} \cdot e^{T} (i) \cdot e (i) - - - (16)

其中λ是指数遗忘因数。λ的值可以设为任何适当的值。例如，λ的值可以在例如0<λ＜1的范围内。可以基于代价函数产生正规方程(例如通过将代价函数J(m)的梯度设为0)。回声消除模块330可以基于正规方程得到用于FLMS算法的更新法则。例如，通过在时帧m和m-1实施正规方程可以得到下述更新法则：

e_{f} (m) = F_{2 L \times 2 L} \cdot [\begin{matrix} 0_{L \times 1} \\ e (m) \end{matrix}] = F_{2 L \times 2 L} \cdot W_{2 L \times 2 L}^{01} \cdot e (m), - - - (17)

{\hat{h}}_{f} (m) = {\hat{h}}_{f} (m - 1) + 2 μ \cdot (1 - λ) \cdot G_{2 L \times 2 L}^{10} \cdot {[S_{f} (m) + {δI}_{2 L \times 2 L}]}^{- 1} \cdot X_{f}^{*} (m) \cdot e_{f} (m), - - - (18)

其中μ可以是步长，δ可以是正则化因数

G_{2 L \times 2 L}^{10} \overset{Δ}{=} F_{2 L \times 2 l} \cdot [\begin{matrix} 1_{L \times L} & 0_{L \times L} \\ 0_{L \times L} & 0_{L \times L} \end{matrix}] \cdot F_{2 L \times 2 L}^{- 1} . - - - (18.1)

I_2L×2L可以是2L×2L大小的恒等矩阵，Sf(m)可以表示对角元素可以是扬声器501的信号x(n)507的估计能谱元素的对角矩阵。回声消除模块330可以基于下式递归更新矩阵S_f(m)

S_{f} (m) = λ \cdot S_{f} (m) + (1 - λ) \cdot X_{f}^{*} (m) \cdot X_{f} (m), - - - (19)

其中(·)^*可以是复合共扼算子。

通过使接近I2L×2L/2，回声消除模块330可以推出FLMS算法的更新版本。回声消除模块330可以递归更新自适应滤波器505。例如，自适应滤波器505可以按每L个样本更新一次。当L可以与在回声消除模块330中一样大时，长的延迟会恶化自适应算法的循迹能力。因此，对于回声消除模块330来说，通过利用更高或更低的重叠百分比，牺牲一些计算的复杂性来换取更好的循迹表现会是值得的。

根据式(16)，可以基于递推最小二乘法(RLS)原则更新FLMS算法。回声消除模块330可以通过调节遗忘因子λ来控制FLMS算法的收敛比、追踪效果、失调和稳定性等或它们的任意组合。遗忘因子λ可以在一个或多个频点独立地随时间变化。在一些实施例中，式(18)中的步长μ和正则化因数δ可以忽略以调节遗忘因子λ。遗忘因子λ可以通过进行一次或多次下式(20)-(31)的运算来调节。在一些实施例中，FLMS算法的更新法则(如无约束FLMS算法)可以如下确定：

{\hat{h}}_{f} (m) = {\hat{h}}_{f} (m - 1) + Λ_{v} (m) \cdot S_{f}^{- 1} (m) \cdot X_{f}^{*} (m) \cdot e_{f} (m), - - - (20)

其中

v_{l} (m) \overset{Δ}{=} 1 - λ_{l} (m), l = 1, 2, ..., 2 L, - - - (20.1)

Λ_{v} (m) \overset{Δ}{=} d i a g [\begin{matrix} {&upsi;}_{1} (m) & {&upsi;}_{2} (m) & ... & {&upsi;}_{2 L} (m) \end{matrix}] . - - - (20.2)

通过将式(15)代入式(17)可以将频域先验误差矢量e_f(m)改写为下式：

e_{f} (m) = y_{f} (m) - G_{2 L \times 2 L}^{01} \cdot X_{f} (m) \cdot {\hat{h}}_{f} (m - 1), - - - (21)

其中

y_{f} (m) \overset{Δ}{=} F_{2 L \times 2 L} \cdot W_{2 L \times L}^{01} \cdot y (m), - - - (21.1)

G_{2 L \times 2 L}^{10} \overset{Δ}{=} F_{2 L \times 2 l} \cdot [\begin{matrix} 0_{L \times L} & 0_{L \times L} \\ 0_{L \times L} & 1_{L \times L} \end{matrix}] \cdot F_{2 L \times 2 L}^{- 1} . - - - (21.2)

回声消除模块330可以如下确定频域先验误差矢量ε_f(m)：

ϵ_{f} (m) = y_{f} (m) - G_{2 L \times 2 L}^{01} \cdot X_{f} (m) \cdot {\hat{h}}_{f} (m) . - - - (22)

回声消除模块330可以将式(20)代入式(22)，并使用式(21)，得到下式：

ϵ_{f} (m) = [I_{2 L \times 2 L} - \frac{1}{2} Λ_{v} (m) \cdot Ψ_{f} (m)] \cdot e_{f} (m), - - - (23)

其中可以使用的近似，且

Ψ_{f} (m) \overset{Δ}{=} d i a g [\begin{matrix} ψ_{1} (m) & ψ_{2} (m) & ... & ψ_{2 L} (m) \end{matrix}] = X_{f} (m) \cdot S_{f}^{- 1} (m) \cdot X_{f}^{*} (m) . - - - (24)

期望函数E[ψ_l(m)]可以如下确定：

E [ψ_{l} (m)] = E [X_{f, l} (m) \cdot S_{f, l}^{- 1} (m) \cdot X_{f, l}^{*} (m)] = 1, l = 1, 2, ..., 2 L . - - - (25)

在一些实施例中，遗忘因子λ和/或矩阵Λ_v(m)可以用回声消除模块330来调节以使下式成立，

E [ϵ_{f, l}^{2} (m)] = E [W_{f, l}^{2} (m)], l = 1, 2, ..., 2 L, - - - (26)

这样，回声消除模块330可以通过满足下式来获得自适应滤波器的方案：

E {{[\hat{h} - \hat{h} (m)]}^{T} \cdot X_{f}^{*} (m) \cdot X_{f} (m) \cdot [\hat{h} - \hat{h} (m)]} = 0. - - - (27)

通过将式(23)代入式(26)中，回声消除模块330可以得到下式：

\frac{1}{2} v_{l} (m) \cdot E [ψ_{l} (m)] = 1 - \frac{σ_{w_{f, l}}}{σ_{e_{f, l}}}, - - - (28)

其中是可以用来表示随机变量a的二阶矩，即

在一些实施例中，基于先验误差信号与输入信号无关的假设，可以获得式(28)。基于式(25)，回声消除模块330可以由式(28)得到下式：

v_{l} (m) = 2 (1 - \frac{σ_{w_{f, l}}}{σ_{e_{f, l}}}), l = 1, 2, ..., 2 L . - - - (29)

在一些实施例中，自适应滤波器可以收敛至一定程度，回声消除模块330可以基于如下近似构建用于FLMS算法的变量遗忘因子控制方案，

{\hat{σ}}_{w_{f, l}}^{2} \approx {\hat{σ}}_{y_{f, l}}^{2} - {\hat{σ}}_{{\hat{y}}_{f, l}}^{2}, - - - (30)

变量遗忘因子控制方案可以基于下式构建：

λ_{l} (m) = 1 - v_{l} (m) = 1 - 2 (1 - \frac{\sqrt{| {\hat{σ}}_{y_{f, l}}^{2} - {\hat{σ}}_{{\hat{y}}_{f, l}}^{2} |}}{{\hat{σ}}_{e_{f, l}}}), - - - (31)

其中可以分别用回声消除模块330由它们相应的信号递归估计。

基于上述自适应算法，自适应滤波器505输出可以由音频传感器508的输出信号y(n)515估计并减去，以实现声学回声和反馈消除。

在一些实施例中，双端发声检测器DTD 503可以检测出现的一次或多次双端发声。例如，当扬声器信号507和输出信号515同时出现在自适应滤波器505(例如x(n)≠0和v(n)≠0)时，可以确定出现双端发声。扬声器信号507的存在会影响自适应滤波器505的性能(例如通过引起自适应算法的偏离)。例如，听得见的回声可以通过回声消除模块330并会出现在AEC系统500的输出517中。在一些实施例中，通过检测双端发声的出现，DTD503会产生表示自适应滤波器505存在双端发声的控制信号。该控制信号可以传输至自适应滤波器505和/或AEC 330的任何其他部分以暂停或减慢自适应算法的适应性(例如通过暂停自适应滤波器505系数的更新)。

DTD 503可以使用Geigel算法、互相关法、相干法、双通路(two-path)法等或它们的任意组合来检测双端发声。DTD 503可以基于扬声器信号507和输出信号515之间的相互关联信息来检测双端发声的出现。在一些实施例中，扬声器和麦克风信号之间的高相关性可以显示不存在双端发声。扬声器信号507和输出信号515之间的低相关性可以显示存在双端发声。在一些实施例中，扬声器信号和麦克风信号之间的相互关联性可以用一种或多种检测统计数据来表示。当相关性的一种或多种检测统计数据代表大于或等于阀值时，相互关联性可被视为高相关。类似地，当相关性的一种或多种检测统计数据代表不大于预定的阀值时，相互关联性可被视为低相关。DTD 503可以基于自适应滤波器505的系数(例如)、扬声器信号501、麦克风信号515、误差信号e和/或任何其他可用来确定扬声器信号507和输出信号515之间的相干性和/或相互关联性的信息，通过确定一种或多种检测统计数据来确定扬声器信号和输出信号之间的关系。在一些实施例中，DTD 503可以通过对比检测统计数据和预定的阀值来检测双端发声的存在。

通过检测双端发声的存在，DTD 503可以产生控制信号以将自适应滤波器505禁用或暂停一段时间。确定了双端发声不存在和/或双端发声在一定时间间隔不存在后，DTD503可以产生控制信号以将自适应滤波器505激活。

在一些实施例中，DTD 503可以基于互相关法或相干法类似的统计学来进行双端发声检测。可以将统计学的决定进一步标准化(例如通过使其上限为1)。在一些实施例中，当确定了双端发声检测中将使用的阈值时，可以考虑或不考虑声学通路的变化。

在一些实施例中，一种或多种检测统计数据可以在频域中得到。在一些实施例中，扬声器信号507和输出信号515之间相关性的一种或多种检测统计数据代表可以在频域中确定(如通过DTD 503)。

例如，DTD 503可以根据基于假相干的DTD(PC-DTD)技术确定一种或多种检测统计数据和/或进行双端发声检测。PC-DTD可以基于假相干(PC)矢量其可以如下定义：

c_{x y}^{P C} \overset{Δ}{=} {[2 L^{2} \cdot σ_{y}^{2} \cdot Φ_{f, x x}]}^{- 1 / 2} \cdot Φ_{x y}, - - - (32)

其中

Φ_{f, x x} \overset{Δ}{=} E {X_{f}^{*} (m) \cdot G_{2 L \times 2 L}^{10} \cdot X_{f} (m)}, - - - (32.1)

G_{2 L \times 2 L}^{01} \overset{Δ}{=} F_{2 L \times 2 L} \cdot [\begin{matrix} 0_{L \times L} & 0_{L \times L} \\ 0_{L \times L} & 1_{L \times L} \end{matrix}] \cdot F_{2 L \times 2 L}^{- 1}, - - - (32.2)

Φ_{x y} \overset{Δ}{=} E {X_{f}^{*} (m) \cdot y_{f, 2 L} (m)}, - - - (32.3)

y_{f, 2 L} (m) \overset{Δ}{=} F_{2 L \times 2 L} \cdot [\begin{matrix} 0_{L \times 1} \\ y (m) \end{matrix}] . - - - (32.4)

回声消除模块330可以使用的近似来计算Φ_f，xx。该计算可以通过调节遗忘因子λ_b(本文中也称为背景遗忘因子)，用类似(19)的递归估计方案来简化。背景遗忘因子λ_b可以与上述遗忘因子λ_a(本文中也称为前景遗忘因子)相同或不同。DTD 503可以响应近端语音的开始，然后可以在自适应滤波器可能开始偏离之前发出警示。估计的量可以基于下式确定：

Φ_{f, x x} (m) = λ_{b} \cdot Φ_{f, x x} (m - 1) + (1 - λ_{b}) \cdot X_{f}^{*} (m) \cdot X_{f} (m) / 2, - - - (33)

Φ_{x y} (m) = λ_{b} \cdot Φ_{x y} (m - 1) + (1 - λ_{b}) \cdot X_{f}^{*} (m) \cdot y_{f, 2 L} (m), - - - (34)

σ_{y}^{2} (m) = λ_{b} \cdot σ_{y}^{2} (m - 1) + (1 - λ_{b}) \cdot y {(m)}^{T} \cdot y (m) / L . - - - (35)

在一些实施例中，由于Φ_f，xx(m)可以与(19)中定义的S_f(m)略有不同。由于Φ_f，xx(m)可以是对角矩阵，其逆可以简单确定。

检测统计数据可以基于PC矢量确定。例如，可以基于下式确定检测统计数据：

ξ = | | c_{x y}^{P C} | |_{2} - - - (36)

在一些实施例中，DTD 503可以将检测统计数据(例如ξ的值或任何其他检测统计数据)与预定的阀值比较，然后可以基于比较结果来检测双端发声的存在。例如，在确定了检测统计数据不大于预定的阀值后，DTD 503可以确定存在双端发声。另一个例子是，在确定了检测统计数据大于预定的阀值后，DTD 503可以确定不存在双端发声。例如，可以根据下式进行确定：

其中参数T可以是预设的阈值。参数T可以是任何适当的值。在一些实施例中，T的值可以在一个范围内(例如0＜T＜1，0.75≤T≤0.98等)。

另一个例子是，DTD 503也可以用双滤波器结构来进行双端发声检测。由式(32)可以将时帧m的统计数据决定的平方ξ²(m)改写为：

ξ^{2} (m) = \frac{Φ_{x y}^{H} (m) \cdot Φ_{f, x x}^{- 1} (m) \cdot Φ_{x y} (m)}{2 L^{2} \cdot σ_{y}^{2} (m)} = \frac{Φ_{x y}^{H} (m) \cdot {\hat{h}}_{f, b} (m)}{2 L^{2} \cdot σ_{y}^{2} (m)}, - - - (37)

其中(·)^H可以表示一个或多个矩阵或矢量的Hermitian转置，

{\hat{h}}_{f, b} (m) = Φ_{f, x x}^{- 1} (m) \cdot Φ_{x y} (m) - - - (38)

可以被定义为等效的“背景”滤波器。自适应滤波器505可以如下更新：

e_{f, b} (m) = y_{f, 2 l} (m) - G_{2 L \times 2 L}^{01} \cdot X_{f, m} \cdot {\hat{h}}_{f, b} (m - 1), - - - (39)

{\hat{h}}_{f, b} (m) = {\hat{h}}_{f, b} (m - 1) + (1 - λ_{b}) \cdot {[S_{f} (m) + {δI}_{2 L \times 2 L}]}^{- 1} \cdot X_{f}^{*} (m) \cdot e_{f, b} (m), - - - (40)

如式(33)-(35)所示，与较远的过去相比，单极递归平均会更重视较近的过去。相应的脉冲响应衰减为λ_b的值可以基于循迹能力、估计偏差和/或任何其他因素来确定。λ_b的值可以是固定值(例如常数)、变量(例如使用下述递归技术确定的值)等。在一些实施例中，可以选择λ_b的值以满足0＜λ_b＜1。在一些实施例中，随着λb的减小，追踪估计量的变化的能力会得到改进，但估计偏差会增大。对于PC-DTD，λ_b可以如下确定：

λ_{b} = e^{- 2 L \cdot (1 - ρ) / (f_{s} \cdot t_{c, b})}, - - - (41)

其中ρ可以是重叠的百分比，f_s可以是采样率，t_c，b可以是递归平均的时间常数。在一些实施例中，DTD 503可以捕捉本地语音v(n)511的一次或多次爆发的引发边界(例如双端发声的存在)。可以基于循迹能力和估计偏差之间的折衷来选择λ_b的值。例如，可以指定较小的λ_b以捕捉本地语音的一次或多次爆发的引发边界。但当λ_b过小时，则统计数据决定估计数据ξ会在阈值之上波动，同时双端发声仍会继续，会导致错过检测。

在一些实施例中，对应于当前帧的遗忘因子λ_b的值可以基于之前的一帧或多帧期间有无双端发声而变化。例如，λ_b的值可以使用递归技术确定(例如双边单极递归技术)。回声消除模块330可以用下式(42)的规则管理t_c，b：

其中t_{c，b，attack}可以是本文称为“引发”系数的系数，t_{c，b，decay}可以是本文称为“衰减”系数的系数。在一些实施例中，可以选择“引发”系数和“衰减”系数来满足不等式t_{c，b，attack}＜t_c＜t_{c，b，decay}。例如，回声消除模块330可以选择t_{c，b，attack}＝300ms和t_{c，b，decay}＝500ms。在一些实施例中，当在上一帧未检测到双端发声时，可以使用较小的t_c，b和较小的λ_b。或者，如果上一帧已经是双端发声的一部分(例如当检测到存在与上一帧相关的双端发声)，那么考虑到双端发声将很可能因语音的天性而持续一段时间，可以选择较大的λ_b。这会导致ξ的平滑变化，并可以防止有可能发生的错过检测。而且，这种情况下，更大的λ_b将会使背景滤波器的更新减慢，而不是完全停下来(例如，与“前景”滤波器一样)。

图6显示了本发明另一个实施例中AEC系统的例子600。

如图所示，AEC 600可以包括扬声器601a-z、一个或多个DTD 603、自适应滤波器605a-z、一个或多个合成器606和608、音频传感器619a和619z和/或任何其他适当的部分来进行声学回声消除。AEC 600可以包括更多或更少部分，而不失其普遍性。例如，两个模块可以合并到一个模块中，或者一个模块可以分成两个或更多个模块。在一种实施方式中，一个或多个模块可以存在于不同的计算设备中(例如不同的服务器计算机)。

在一些实施例中，AEC 600的一个或多个部分可以包括在图3的回声消除模块330中。例如，如图6所示，回声消除模块330可以包括DTD 603、自适应滤波器605a-z、合成器606和合成器608。在一些实施例中，图6的DTD 603可以与图5的DTD 503相同。

各扬声器601a-z可以是和/或包括任何可以将音频信号转化为相应声音的设备。各扬声器601a-z可以是独立的设备或者与一种或多种其他设备集成。例如，各扬声器601a-z可以是汽车音频系统的内置扬声器、移动电话集成的扬声器等。尽管图6中显示了一定数目的扬声器、音频传感器、自适应滤波器等，但这仅仅是示意性的。AEC 600中可以包括任何数目的扬声器、音频传感器、自适应滤波器等。

扬声器601a、b和z可以分别输出扬声器信号607a、b和z。扬声器信号607a-z可以穿过它们相应的声学通路(如声学通路619a-z)并可以产生回声信号609。回声信号609可以与本地语音信号511、本地噪音信号513和/或任何其他可被音频传感器619a-z捕捉的信号一起被音频传感器603a和/或603b捕捉。

各音频传感器619a-z可以输出输出信号615。回声消除模块330可以用自适应滤波器605a、605b和605z对声学通路619a-z建模来估计回声信号609。自适应滤波器605a-z可以是和/或包括带有限脉冲响应(FIR)的滤波器来产生回声信号609。回声消除模块330就可以用自适应算法来估计滤波器。

自适应滤波器605a-z可以分别接收扬声器信号607a-z。各个自适应滤波器就可以产生并输出相应于一个扬声器信号的估计回声信号。自适应滤波器605a-z的输出可以表示相应于扬声器信号607a-z的估计回声信号。合成器606可以合并输出信号而产生回声信号609的估计数据的信号代表(如信号)。

在一些实施例中，在扬声器信号607a-z供给自适应滤波器605a-z之前，可以对一个或多个扬声器信号进行变换以降低扬声器信号的相关性。例如，变换可以包括零记忆非线性变换。更具体地说，例如所述变换可以通过向扬声器信号增加扬声器信号的半波整流版和/或通过应用控制非线性量的比例因子来进行。在一些实施例中，所述变换可以基于式(48)进行。另一个例子是，所述变换可以通过向一个或多个扬声器信号增加不相关噪音(例如White Gaussian噪音、Schroeder噪音等)来进行。再一个例子是，可以将随时间变化的全通滤波器用于一个或多个扬声器信号。

在一些实施例中，可以对各扬声器信号607a-z进行变换以产生相应的变换扬声器信号。自适应滤波器605a-z可以对相应于扬声器信号607a-z的变换扬声器信号进行处理而产生回声信号609的估计数据。

合成器608可以通过合并估计的回声信号和输出信号615来产生回声消除信号617。例如，可以通过从输出信号615中除去估计的回声信号来产生回声消除信号617，以实现回声和/或反馈消除。

如图6所示，由于K≥2，音频传感器619a-z中的一个捕捉到的声学回声y_e(n)609可以是来自它们相应声学通道的、不同但高度相关的扬声器信号607a-z。音频传感器619a的输出信号615可以基于真实的声学脉冲响应建模，并可以包括相应于回声信号609、语音信号511、本地噪音信号513等的一种或多种成分。例如，音频传感器的输出信号615可以如下建模：

y (n) = Σ_{k = 1}^{K} x_{k}^{T} (n) \cdot h_{k} + w (n), - - - (43)

其中回声消除模块330中的定义可以如下：

x_{k} (n) \overset{Δ}{=} {[\begin{matrix} x_{k} (n) & x_{k} (n - 1) & ... & x_{k} (n - L + 1) \end{matrix}]}^{T}, - - - (43.1)

h_{k} \overset{Δ}{=} {[\begin{matrix} h_{k, 0} & h_{k, 1} & ... & h_{k, L - 1} \end{matrix}]}^{T} . - - - (43.2)

式(43)中，x_k(n)相应于扬声器信号607a-z，w(n)相应于本地语音信号511和本地噪音信号513之和。

回声消除模块330可以如下定义堆迭矢量x(n)和h(n)：

x (n) \overset{Δ}{=} {[\begin{matrix} x_{1}^{T} (n) & x_{2}^{T} (n) & ... & x_{K}^{T} (n) \end{matrix}]}^{T}, - - - (43.3)

h \overset{Δ}{=} [\begin{matrix} h_{1}^{T} & h_{2}^{T} & ... & h_{K}^{T} \end{matrix}] . - - - (43.4)

式(43)可以写成

y(n)＝x^T(n)·h+w(n)， (44)

x(n)和h的长度可以为K·L。在一些实施例中，后验误差信号ε(n)及其相关代价函数J可以如下定义：

ϵ (n) \overset{Δ}{=} y (n) - \hat{y} (n) = x^{T} (n) [h - \hat{h} (n)] + w (n), - - - (45)

J \overset{Δ}{=} E {ϵ^{2} (n)} . - - - - (46)

通过使该代价函数最小化，回声消除模块330可以如下导出Winer滤波器：

{\hat{h}}_{W} = \arg \min_{{\hat{h}}_{n}} J = R_{x x}^{- 1} \cdot r_{x y}, - - - (47)

其中

r_{x y} \overset{Δ}{=} {x (n) \cdot y (n)} = [\begin{matrix} E {x_{1} (n) \cdot y (n)} \\ F {x_{2} (n) \cdot y (n)} \\ . \\ . \\ . \\ E {x_{K} (n) \cdot y (n)} \end{matrix}] . - - - (47.2)

在多扬声器AEC系统600中，扬声器信号607a-z可以是相关的。在一些实施例中，为单扬声器情况开发的自适应算法未直接应用于多扬声器回声消除。原因是无法获得希望的滤波器[例如]，同时使后验误差ε(n)达到一个值。例如，该值可以为0。

解决这一问题的挑战是将多个扬声器信号x(n)507的相关性降低到一定水平。该水平足以使自适应算法收敛至合适的滤波器，还低至感觉上可以忽略。在一些实施例中，回声消除模块330可以向扬声器信号增加该扬声器信号的半波整流版。扬声器信号也可以用常数α量度以控制非线性量。在一些实施例中，所述变换可以基于下式进行：

{\hat{x}}_{k} (n) = x_{k} (n) + α \cdot \frac{x_{k} (n) + | x_{k} (n) |}{2}, k = 1, 2, ..., K . - - - (48)

自适应滤波器605a-z可以相应于扬声器601a-z。在一些实施例中，自适应滤波器605a-z的数目和扬声器601a-z的数目可以相同或不同。可以估计自适应滤波器605a-z，估计的自适应滤波器605a-z之和可以由音频传感器619a的输出信号615减去以实现声学回声和/或反馈消除。

图7是本发明一些实施例中处理音频信号过程的例子700的流程。在一些实施例中，方法700的一种或多种操作可以用一个或多个处理器进行(例如图1-6中所示的一个或多个处理器120)。

如图所示，过程700可以始于701的接收由相应于一个或多个音频通道的一个或多个麦克风子阵产生的一个或多个音频信号。各音频信号可以包括，但不限于：语音成分、本地噪音成分、相应于一个或多个扬声器信号的回声成分等或它们的任意组合。在一些实施例中，本发明的传感器子阵可以是MEMS麦克风子阵。在一些实施例中，麦克风子阵可以如图2A-B所示排列。

在703，过程700可以对音频信号进行空间滤波以产生一个或多个空间滤波信号。在一些实施例中，空间滤波的一种或多种操作可以通过图3-4所示的空间滤波模块320进行。

在一些实施例中，可以通过对麦克风子阵产生的音频信号进行空间滤波来产生空间滤波信号。例如，各个接收到的音频信号都可以产生空间滤波信号。作为替代方案或者补充方案，可以通过对多个麦克风子阵产生的多个音频信号的组合进行空间滤波来产生空间滤波信号。

空间滤波信号可以通过进行任何适当的操作来产生。例如，可以用一个或多个波束形成器对一个或多个音频信号进行波束形成来产生空间滤波信号。在一些实施例中，波束形成可以用图3-4所示的一个或多个波束形成器来进行。另一个例子是，空间滤波信号可以通过平衡波束形成器的输出信号而产生(例如将低通滤波器用于输出信号)。在一些实施例中，所述平衡可以通过图3-4所示的一个或多个低通滤波器来进行。空间滤波可以通过执行图8的一种或多种操作来进行。

在705，过程700可以对空间滤波信号进行回声消除以产生一个或多个回声消除信号。例如，可以如下对空间滤波信号进行回声消除：估计空间滤波信号的回声成分，由空间滤波信号中减去估计的回声成分。回声成分可以相应于一个或多个扬声器产生的一个或多个扬声器信号。回声成分可以基于对产生回声成分的声学通路建模的自适应滤波器来估计。

在一些实施例中，回声消除可以用图3、5和6所示的回声消除模块来进行。用来消除音频信号的回声和反馈的算法可以包括，但不限于：归一化最小均方(NLMS)、仿射投影(AP)、块最小均方(BLMS)和频域(FLMS)算法等或它们的任意组合。在一些实施例中，回声消除可以通过执行图9所示的一种或多种操作来进行。

在707，过程700可以选择一个或多个音频通道。选择可以由图3所示的降噪模块340进行(例如通道选择单元342)。在一些实施例中，选择可以使用统计学或聚类算法基于音频信号的一种或多种特性进行。在一些实施例中，可以基于音频通道提供的音频信号的质量选择一个或多个音频通道。例如，可以基于音频通道提供的音频信号的信噪比(SNR)选择一个或多个音频通道。更具体地说，例如，通道选择单元342可以选择与具体质量(如具体SNR，如最高的SNR、前三个SNR、高于阀值的SNR等)关联的一个或多个音频通道。在一些实施例中，所述选择可以基于用户设置、自适应计算等或它们的任意组合来进行。在一些实施例中，过程700中可以省略707。作为替代方案或者补充方案，在一些实施例中，可以进行所有音频通道的选择。

在709中，过程700可以对相应于选择的音频通道的回声消除信号进行降噪以产生一个或多个降噪信号。各降噪信号可以相应于希望的语音信号。在一些实施例中，降噪可以如图3所示由降噪模块340进行。例如，MCNR单元344可以构建一个或多个降噪滤波器并可以将降噪滤波器用于回声消除信号。在一些实施例中，降噪可以通过执行图10中所示的一种或多种操作来进行。

在711，过程700可以对降噪信号进行噪音和/或回声抑制以产生语音信号。在一些实施例中，残余噪声和回声抑制操作可以由降噪模块340的残余噪声和回声抑制单元346进行。例如，残余噪声和回声抑制单元346可以抑制未被MCNR单元344除去的残余噪声和/或回声。

在713，过程700可以输出语音信号。可以进一步处理语音信号以提供各种不同的功能。例如，可以对语音信号进行分析以确定语音信号的内容(例如使用一种或多种适当的语音识别技术和/或任何其他信号处理技术)。接下来可以基于分析的语音信号内容由过程700和/或任何其他过程进行一种或多种操作。例如，基于分析的内容可以呈现媒体内容(如音频内容、视频内容、图像、文本等)。更具体地说，例如，所述媒体内容可以涉及地图、网页内容、导航信息、新闻、音频剪辑和/或任何其他有关语音信号内容的信息。另一个例子是，可以为用户打电话。再一个例子是，可以基于语音信号收发信息等。还一个例子是，可以进行分析内容的搜索(如通过向可进行搜索的服务器发送请求)。

图8是本发明一些实施例中空间滤波过程的例子800的流程。在一些实施例中，过程800可以如图1-4所示，由执行空间滤波模块320的一个或多个处理器进行。

在801，过程800可以接收由音频传感器子阵的第一音频传感器捕捉的声学输入的第一音频信号代表。声学输入可以相应于用户的声音和/或任何其他来自一个或多个声源的输入。在803，过程800可以接收子阵的第二音频传感器捕捉的声学输入的第二音频信号代表。在一些实施例中，第一音频信号和第二音频信号可以相同或不同。第一音频信号和第二音频信号可以同时、大体上同时和/或以任何其他方式收到。第一音频传感器和第二音频传感器的各传感器可以是和/或包括任何适当的音频传感器，如图1所示系统100的音频传感器110。可以对第一音频传感器和第二音频传感器进行排列以形成麦克风子阵，如图2A、2B和4所示的麦克风子阵。

在805，过程800可以通过对第二音频信号施加时间延迟来产生延迟音频信号。在一些实施例中，延迟音频信号可以如图3所示，由空间滤波模块320的波束形成器322产生(例如图4所示的延迟模块430)。在一些实施例中，可以基于第一音频传感器和/或第二音频传感器之间的距离来确定及施加时间延迟。例如，时间延迟可以基于式(2.1)和/或式(2.2)来计算。

在807，过程800可以合并第一音频信号和延迟音频信号以产生合并信号。在一些实施例中，合并信号可以如图3所示，由空间滤波模块320的波束形成器322产生(例如图4所示的合并模块440)。合并信号可以用式(1)和/或(2)表示。

在809，过程800可以平衡合并信号。例如，过程800可以通过将低通滤波器(例如图3的低通滤波器324)用于合并信号来平衡合并信号。

在811，过程800可以将平衡信号输出为音频传感器子阵的输出。

图9是本发明一些实施例中回声消除过程的例子900的流程。在一些实施例中，过程900可以如图3所示，由执行回声消除模块330的一个或多个处理器进行。

在901，过程900可以接收包括语音成分和回声成分在内的音频信号。音频信号可以包括任何其他可以被音频传感器捕捉的成分。在一些实施例中，如图5所示，回声成分和语音成分可以相应于回声信号509和本地语音信号511。

在903，过程900可以获得产生回声成分的参考音频信号。在一些实施例中，如图5-6所示，参考音频信号可以是和/或包括一个或多个扬声器信号。作为替代方案或者补充方案，参考音频信号可以包括基于扬声器信号产生的一个或多个信号。例如，参考音频信号可以包括基于扬声器信号产生的变换信号(例如基于式(48))。

在905，过程900可以对产生回声成分的声学通路建模。例如，声学通路可以用一个或多个自适应滤波器构建。在一些实施例中，可以有一个或多个声学通路的一个或多个模型代表。声学通路模型可以是自适应声学通路模型、开放声学通路模型、线性声学通路模型、非线性声学通路模型等或它们的任意组合。在一些实施例中，该模型可以基于式(5)-(48)的一个或多个来构建。

在907，过程900可以基于模型和参考音频信号来产生估计回声信号。例如，估计回声信号可以是和/或包括在606构建的自适应滤波器的输出信号。在一些实施例中，如图6所示，估计回声信号可以是多个自适应滤波器产生的输出的组合。

在909，过程900可以通过合并估计回声信号和音频信号来产生回声消除信号。例如，回声消除信号可以通过从音频信号中减去估计的回声信号来产生。

图10是本发明一些实施例中多通道降噪过程的例子1000的流程图。在一些实施例中，过程1000可以通过执行图3的降噪模块340的一个或多个处理器进行。

在1001，过程1000可以接收多个音频传感器产生的输入信号。音频传感器可以形成阵列(例如线性阵列、差分阵列等)。各音频信号可以包括语音成分、噪音成分和/或任何其他成分。语音成分可以相应于希望的语音信号(例如用户声音的信号代表)。语音成分可以基于来自未知源的通道脉冲响应来建模。噪音成分可以相应于明显的噪音和/或任何其他类型的噪音。在一些实施例中，输入信号可以是和/或包括音频传感器的输出信号。或者，输入信号可以是和/或包括由图3的空间滤波模块320、图3的回声消除模块330和/或任何其他设备产生的信号。

在一些实施例中，输出信号可以由形成阵列的一定数目的音频传感器(如P个音频传感器)产生。过程1000可以如下对音频传感器的输出信号建模：

y_p(n)＝g_p·s(n)+v_p(n) (49)

＝x_p(n)+v_p(n)，p＝1，2，…P，(50)

其中p是音频传感器的索引，g_p可以是由未知源s(n)到第p个音频传感器的通道脉冲响应；v_p(n)可以是音频传感器p处的噪音。在一些实施例中，前端可以包括差分音频传感器子阵。通道脉冲响应可以包括室内脉冲响应和差分阵列波束图两者。信号x_p(n)和v_p(n)可以是不相关的和零均值的。

在一些实施例中，第一音频传感器可以具有最高的SNR。例如，过程1000可以用SNR对输出信号排序并可以因此对输出信号重编索引。

在一些实施例中，MCNR单元可以将一个或多个输出信号由时域或空域变换至频域，反之亦然。例如，可以对各个音频信号进行时频变换。时频变换可以是和/或包括，例如快速傅立叶变换、小波变换、拉普拉斯变换、Z-变换等或它们的任意组合。FFT可以包括，但不限于：素因子FFT算法、Bruun FFT算法、Rader FFT算法，Bluestein FFT算法等。

例如，过程1000可以用短时傅里叶变换(STFT)将式(49)变换至频域并得到下式：

Y_p(jω)＝G_p(jω)·S(jω)+V_p(jω) (51)

＝X_p(jω)+V_p(jω)，p＝1，2，…P， (52)

其中ω可以是角频率，Y_p(jω)、S(jω)、G_p(jω)、X_p(jω)＝G_p(jω)·S(jω)和V_p(jω)可以分别是y_p(n)、s(n)、g_p、x_p(n)和v_p(n)的STFT。

在1003，过程1000可以确定输入音频信号的语音信号的估计数据。例如，所述估计可以通过确定输入信号的一个或多个功率谱密度(PSD)矩阵来进行。更具体地说，例如，给定输入信号(例如第p个输入音频信号)y_p(n)的PSD可以如下确定：

\begin{matrix} φ_{y_{p} y_{p}} (ω) = φ_{x_{p} x_{p}} (ω) + φ_{v_{p} v_{p}} (ω) - - - (53) \\ = | G_{p} (j ω) |^{2} \cdot φ_{s s} (ω) + φ_{v_{p} v_{p}} (ω), p = 1, 2, ..., P, - - - (54) \end{matrix}

其中

φ_{a b} (j ω) \overset{Δ}{=} E {A (j ω) \cdot B^{*} (j ω)} - - - (55)

可以是两个信号a(n)和b(n)之间的互谱，φ_aa(ω)和φ_bb(ω)可以是它们各自的PSD，E{·}可以表示数学期望值，(·)^*可以表示复共扼。在时间系列分析中，互谱可以用作两个时间系列之间的互相关或交叉协方差的频域分析的一部分。

在一些实施例中，过程1000可以如下由P个音频传感器信号获得X₁(jω)的线性估计数据：

\begin{matrix} Z (j ω) = H_{1}^{*} (j ω) \cdot Y_{1} (j ω) + H_{2}^{*} (j ω) \cdot Y_{2} (j ω) + ... + H_{P}^{*} (j ω) \cdot Y_{P} (j ω) \\ = h^{H} (j ω) \cdot y (j ω) - - - (56.0) \\ = h^{H} (j ω) \cdot [x (j ω) + v (j ω)], - - - (56) \end{matrix}

其中

y (j ω) \overset{Δ}{=} {[\begin{matrix} Y_{1} (j ω) & Y_{2} (j ω) & ... & Y_{P} (j ω) \end{matrix}]}^{T},

x (j ω) \overset{Δ}{=} S (j ω) \cdot {[\begin{matrix} G_{1} (j ω) & G_{2} (j ω) & ... & G_{P} (j ω) \end{matrix}]}^{T} = S (j ω) \cdot g (j ω) .

在一些实施例中，过程1000可以以类似的方式将v(jω)定义为y(jω)，

h (j ω) \overset{Δ}{=} {[\begin{matrix} H_{1} (j ω) & H_{2} (j ω) & ... & H_{P} (j ω) \end{matrix}]}^{T}

可以是包含P个待确定的不相关过滤器的矢量。z(n)的PSD可以如下：

φ_zz(ω)=h^H(jω)·Φ_xx(jω)·h(ω)+h^H(jω)·Φ_vv(jω)·h(ω) (57)

其中

Φ_{x x} (j ω) \overset{Δ}{=} E {x (j ω) \cdot x^{H} (j ω)} = φ_{s s} (ω) \cdot g (j ω) \cdot g^{H} (j ω) - - - (58)

Φ_{v v} (j ω) \overset{Δ}{=} E {v (j ω) \cdot v^{H} (j ω)} - - - (59)

可以分别是信号x_p(n)和v_p(n)的PSD矩阵。矩阵Φ_xx(jω)的排行可以等于1。

在1005，过程1000可以基于语音成分的估计数据构建一个或多个降噪滤波器。例如，可以基于语音成分的估计数据、输入信号的语音成分和/或噪音成分的一个或多个PSD矩阵、和/或任何其他信息构建Wiener滤波器。

更具体地说，例如，过程1000可以基于语音成分和相应的线性估计数据产生误差信号。在一些实施例中，过程1000可以基于下式产生误差信号：

\begin{matrix} ϵ (j ω) \overset{Δ}{=} X_{1} (j ω) - Z (j ω) \\ = X_{1} (j ω) - h^{H} (j ω) \cdot y (j ω) \\ = {[u - h (j ω)]}^{H} \cdot x (j ω) - h^{H} (j ω) \cdot v (j ω) \end{matrix} - - - (60)

其中

u \overset{Δ}{=} {[\begin{matrix} 1 & 0 & ... & 0 \end{matrix}]}^{T}

可以是长度P的矢量。相应的均方误差(MSE)可以如下表示：

J [h (j ω)] \overset{Δ}{=} E {| ϵ (j ω) |^{2}} . - - - (61)

一估算算法的MSE可以衡量“误差”平方的平均值，即估计值和估计的数据之间的差异。

过程1000可以如下通过将MSE最小化来推导出Wiener方案h_W(jω)：

h_W(jω)＝argmin_h(jω)J[h(jω)].(62)

式(62)的方案可以表示为：

\begin{matrix} h_{w} (j ω) = Φ_{y y}^{- 1} (j ω) \cdot Φ_{x x} (j ω) \cdot u - - - (63.0) \\ = [I_{P \times P} - Φ_{y y}^{- 1} (j ω) \cdot Φ_{v v} (j ω)] \cdot u - - - (63) \end{matrix}

其中

\begin{matrix} Φ_{y y} (j ω) \overset{Δ}{=} E {y (j ω) \cdot y^{H} (j ω)} - - - (64.0) \\ = φ_{s s} (ω) \cdot g (j ω) \cdot g^{H} (j ω) + Φ_{v v} (j ω) - - - (64) \end{matrix}

Φ_{v v} (j ω) \overset{Δ}{=} E {v (j ω) \cdot v^{H} (j ω)}

过程1000可以通过使用如下Woodbury恒等式由式(64)确定Φ_yy(jω)的逆。

\begin{matrix} Φ_{y y}^{- 1} (j ω) = {[φ_{s s} ω \cdot g (j ω) \cdot g^{H} (j ω) + Φ_{v v} (j ω)]}^{- 1} - - - (65.0) \\ = Φ_{v v}^{- 1} (j ω) - \frac{Φ_{v v}^{- 1} (j ω) \cdot g (j ω) \cdot g^{H} (j ω) \cdot Φ_{v v}^{- 1} (j ω)}{φ_{s s}^{- 1} (ω) + g^{H} (j ω) \cdot Φ_{v v}^{- 1} (j ω) \cdot g (j ω)} - - - (65.1) \\ = Φ_{v v}^{- 1} (j ω) + \frac{Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω) \cdot Φ_{v v}^{- 1} (j ω)}{1 + t r [Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω)]} - - - (65) \end{matrix}

其中tr[·]可以表示矩阵的迹。通过使用Woodbury恒等式，通过对原矩阵的逆进行k秩校正，可以计算一些矩阵的k秩校正的逆。过程1000可以将式(65)代入式(63)中来获得如下Wiener滤波器的其他公式：

\begin{matrix} h_{W} (j ω) = \frac{Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω)}{1 + t r [Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω)]} \cdot u - - - (66) \\ = \frac{Φ_{v v}^{- 1} (j ω) \cdot Φ_{y y} (j ω) - I_{P \times P}}{1 - P + t r [Φ_{v v}^{- 1} (j ω) \cdot Φ_{y y} (j ω)]} \cdot u - - - (67) \end{matrix}

在一些实施例中，过程1000可以用单极递归技术更新Φ_yy(jω)和Φ_vv(jω)的估计数据。Φ_yy(jω)和Φ_vv(jω)的各估计数据可以在静止期和/或以任何其他适当的方式连续更新。

另一个例子是，过程1000可以用最小方差无畸变响应(MVDR)法构建多通道降噪(MCNR)滤波器。构建的滤波器在本文中也称为“MVDR滤波器”。MVDR滤波器可以基于式(56)设计。可以在希望的语音信号不失真的情况下，构建MVDR滤波器以使MCNR输出中的噪音水平达到最低。可以通过解决如下定义的约束最优化问题来构建MCNR：

h_{M V D R} (j ω) \overset{Δ}{=} \arg \underset{h (j ω)}{m i n} h^{H} (j ω) \cdot Φ_{v v} (j ω) \cdot h (j ω),

服从h^H(jω)·g(jω)＝G₁(jω).(68)

可以用Lagrange乘子来解决式(68)并得到：

h_{M V D R} (j ω) = G_{i}^{*} (j ω) \cdot \frac{Φ_{v v}^{- 1} (j ω) \cdot g (j ω)}{g^{H} (j ω) \cdot Φ_{v v}^{- 1} (j ω) \cdot g (j ω)} . - - - (69)

在一些实施例中，式(68)的解决方案也可以表示为：

\begin{matrix} h_{M V D R} (j ω) = \frac{Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω)}{t r [Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω)]} \cdot u - - - (70) \\ = \frac{Φ_{v v}^{- 1} (j ω) \cdot Φ_{y y} (j ω) - I_{P \times P}}{t r [Φ_{v v}^{- 1} (j ω) \cdot Φ_{y y} (j ω)] - P} \cdot u . - - - (71) \end{matrix}

过程1000可以比较式(66)和(70)而获得

h_W(jω)＝h_MVDR(jω)·H'(ω))，(72)

其中

H^{'} (ω) = \frac{t r [Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω)]}{1 + t r [Φ_{v v}^{- 1} (j ω) \cdot Φ_{x x} (j ω)]} . - - - (73)

根据式(70)，MVDR滤波器可以基于下式构建：

式(74)可以表示在用MVDR滤波器进行MCNR之后用于单通道降噪(SCNR)的Wiener滤波器。

在1007，过程1000单元可以基于降噪滤波器产生降噪信号。例如，过程1000可以将降噪滤波器用于输入信号。

应当注意的是，图7-10流程的上述步骤可以按任何次序或顺序来执行或进行，并不限于图中所示的次序和顺序。而且，图7-10流程的一些上述步骤在适当时可以实质上同时或者并列执行或进行，以缩短延迟时间和处理时间。此外，还应注意，图7-10仅用于示例。至少这些图中所示的一些步骤可以用与图中所示不同的次序进行、同时进行或一起省略。例如，709可以在705之后进行而没有步骤705。另一个例子是，707、709、711可以在用一个或多个传感器子阵接收多个音频信号之后进行。

图11显示了本发明一些实施例中纺织结构的例子1110、1120和1130。在一些实施例中，各纺织结构1110、1120和1130可以表示可穿戴设备的一部分。作为替代方案或者补充方案，各纺织结构1110、1120和1130可用于单独的可穿戴设备。在一些实施例中，各纺织结构可以包括在图2A所示纺织结构的一个层中。

如图所示，纺织结构1110、1120和1130可以包括一个或多个通道1101a、1101b、1101c、1101d和1101e。各通道1101a-e的一个或多个部分可以是中空的。通道1101b和1101c可以彼此平行或不平行。类似地，通道1101d可以与通道1101e平行或不平行。通道1101a、1101b、1101c、1101d和1101e可以具有或不具有相同的结构。

纺织结构1110、1120和1130也可以包括一个或多个其中可以放置语音通信系统(如语音通信系统1105a、1105b、1105c等)的区域(如1103a、1103b、1103c等)。各区域可以包括供声音轻易穿过以到达位于该区域的音频传感器的部分。供声音轻易穿过的部分可以是通孔。供声音轻易穿过的区域的形状可以包括，但不限于：密集规则排列的小孔、圆形、多边形、基于音频传感器的尺寸确定的形状等或它们的任意组合。

可以任何适当的方式在纺织结构中排布一个或多个区域和一个或多个通道。例如，区域和/或该区域的一个或多个部分(如区域1103a、1103b和1103c)可以是通道的一部分(如通道1101a、1101b和1101d)。另一个例子是，区域可以不必是通道的一部分。更具体地说，例如，区域可以位于纺织结构的表面和通道之间。在一些实施例中，一个或多个传感器可以嵌在所述区域和/或通道中，以使传感器和/或传感器的连接电路没有任何部分突出于纺织结构。

各区域的形状可以包括，但不限于：密集规则排列的小孔、圆形、多边形等或它们的任意组合。在一些实施例中，指定区域的形状可以基于位于该区域的语音通信系统的尺寸来确定和/或制造。制造各区域的方法可以包括，但不限于：激光切割、一体成型等或它们的任意组合。

通道1101a-e的空间结构包括，但不限于：立方体、圆柱体、椭圆体等或它们的任意组合。制造纺织结构的材料可以包括，但不限于：织带、尼龙、聚酯纤维等或它们的任意组合。

在一些实施例中，各语音通信系统1105a、1105b和1105c可以包括一个或多个传感器(如音频传感器)、与传感器相连的电路和/或任何其他适当的部分。例如，各语音通信系统1105a、1105b和1105c可以包括图12的一个或多个语音通信系统1200和/或语音通信系统1200的一个或多个部分。语音通信系统1200可以固定到通道1101a-e的一个表面。因此，语音通信系统1200和通道表面之间的连接会比较牢固。连接语音通信系统1200和通道表面的方法包括但不限于：加热热熔胶、粘贴、一体成型、螺丝固定等或它们的任意组合。

图12示出了本发明一些实施例中语音通信系统的例子1200。语音通信系统1200可以包括一个或多个音频传感器1201a-c、外罩1203a-c、焊点1205、连接器1207a-b、电容器1209和/或任何其他适当的用于语音通信系统的部分。

各音频传感器1201a、1201b和1201c可以捕捉输入声学信号并将捕捉的声学信号转换成一个或多个音频信号。在一些实施例中，各音频传感器1201a、1201b和1201c可以是和/或包括麦克风。在一些实施例中，麦克风可以包括，但不限于：激光麦克风、电容式麦克风、MEMS麦克风等或它们的任意组合。例如，MEMS麦克风可以通过直接将压敏薄膜蚀刻到硅片中来制造。该制造工艺中的几何尺寸可以是微米级的。在一些实施例中，各音频传感器1201a、1201b和1201c可以是和/或包括如之前图1所示的音频传感器110。

如图12所示，音频传感器1201a、1201b和1201c和/或其连接电路可以分别连接到外罩1203a、1203b和1203c上。例如，音频传感器可以通过包括但不限于焊接、粘贴、一体成型、螺丝固定等或它们的任意组合的方法连接到外罩上。外罩1203可以连接到图11的通道1101表面。各外罩1203a、1203b和1203c可以使用任何适当的材料，如塑料、纤维、任何其他非导电材料等或它们的任意组合来制造。

在一些实施例中，外罩1203a、1203b和1203c可以彼此通信连接。例如，外罩1203a可以经一个或多个连接器1207a与外罩1203b通信连接。另一个例子是，外罩1203b可以经一个或多个连接器1207b与外罩1203c通信连接。在一些实施例中，各连接器1207a-b可以通过焊接(如经焊点1205)连接到语音通信系统1203的外罩上。在一些实施例中，装在外罩1203上的音频传感器1201a、1201b和1201c可以通过焊接与外罩1203中的电路通信连接。之后，音频传感器1201可以彼此电连接。各连接器1207a-b可以用任何适当的材料，如铜、铝、镍合金等或它们的任意组合来制备。

在制造过程中，外罩1203a-c的一个或多个表面和/或通道1310(示于图13中)可以涂有熔胶，然后可以将通信系统1200插入通道中。这样，可以对熔胶进行加热来将外罩固定到通道表面。因此，音频传感器1201a-c可以固定到纺织结构上。在一些实施例中，在纺织结构中，沿通道201(图11-12中未示出)长度方向的柔性余量可以使连接器1207在纺织结构弯折时弯折。柔性余量可以包括，但不限于：伸缩余量、弹性结构等或它们的任意组合。例如，连接两个固定点的连接器1207a-b的长度可以大于这两个固定点之间的直线距离，这样可以产生伸缩余量。在一些实施例中，为了产生弹性结构，连接器1207a-b的形状可以包括，但不限于：螺旋状、S型、折线形等或它们的任意组合。

在一些实施例中，电容器1209可以位于外罩上以分流其他电路元器件引起的噪音并减轻噪音可能对电路其余部分造成的影响。例如，电容器1209可以是去藕电容器。

虽然图12中示出了外罩和音频传感器的具体数目，但这仅仅是示意性的。例如，语音通信系统1200可以包括连接到任何适当数目的音频传感器的任何适当数目的外罩。另一个例子是，语音通信系统1200的外罩可以连接到一个或多个音频传感器和/或它们的连接电路。

图13显示了本发明一些实施例中嵌有传感器的纺织结构的截面图例子1300。在一些实施例中，纺织结构1300可以是和/或包括如图11所示的纺织结构。纺织结构1300可以包括图12的语音通信系统1200的一个或多个部分。纺织结构1300可以包括在图2A所示纺织结构的一个层中。

如图所示，纺织结构1300可以包括可以放置一块或多块外罩1320a、1320b和1320c的通道1310。外罩1320a、1320b和1320c可以经一条或多条连接器1207a、1207b等通信连接。

传感器1330a、1330b、1330c、1330d、1330e和1330f可以与一块或多块外罩1320a-c连接。例如，传感器1330a和1330b可以与外罩1320a连接。各传感器1330a-f可以捕捉和/或产生各种类型的信号。例如，各传感器1330a-f可以是和/或包括可以捕捉声学信号和/或产生音频信号的音频传感器(如之前图1所述的音频传感器110)。

各传感器1330a-f可以放置在纺织结构1300的第一表面1301和第二表面1303之间。例如，传感器1330a的一个或多个部分和/或其连接电路可以连接到外罩1320a上，并可以放置在通道1310中。作为补充方案或者替代方案，传感器1330a的一个或多个部分和/或其连接电路可以放置在纺织结构1300的位于表面1301和通道1310之间的区域。另一个例子是，传感器1330b的一个或多个部分可以与外罩1320a连接，并可以放置在通道1310中。作为补充方案或者替代方案，传感器1330b的一个或多个部分和/或其连接电路可以放置在纺织结构1300的位于表面1303和通道1310之间的区域。在一些实施例中，一个或多个传感器和/或它们的连接电路可以嵌在纺织结构的表面1301和1303之间，没有任何部件突出于纺织结构的任何部分。

在一些实施例中，表面1301可以朝向用户(如车辆乘员)。或者，表面1303可以相当于纺织结构1300可以朝向用户的部分。在一个更具体的例子中，传感器1330a可以是和/或包括音频传感器。传感器1330b可以是和/或包括能够捕捉脉搏、血压、心率、呼吸频率信息和/或任何其他有关乘员信息的生物传感器。在一些实施例中，作为这种例子，表面1303可以朝向使用者。

在一些实施例中，一个或多个传感器1330a-f可以通过包括，但不限于焊接、粘贴、一体成型、螺丝固定等或它们的任意组合的方法连接至一块或多块外罩1320a-c。在一些实施例中，外罩1320a、1320b和1320c可以分别相当于图12的外罩1203a、1203b和1203c。

外罩1320a-c可以通过连接器1207彼此电连接。在一些实施例中，连接器1207可以包括长度方向的柔性余量。柔性余量可以包括，但不限于：伸缩余量、弹性结构等或它们的任意组合。例如，连接两个固定点的连接器1207的长度可以大于这两个固定点之间的直线距离，这样可以产生伸缩余量。在一些实施例中，为了产生弹性结构，连接器的形状可以包括，但不限于：螺旋状、S型、折线形等或它们的任意组合。

没有附属物的外罩1320a-c的表面可以涂布热熔胶。

图14显示了本发明一些实施例中用于实施语音通信系统1200的嵌有传感器的纺织结构例子1410和1420。在一些实施例中，各纺织结构1310和1320可以表示可穿戴设备(如安全带、膜片等)的一部分。作为替代方案或者补充方案，纺织结构1410和1420可以表示多个不同可穿戴设备的多个部分。在一些实施例中，各纺织结构1410和1420可以包括在图2A所示纺织结构的一个层中。

如图所示，纺织结构1410包括通道1411。类似地，纺织结构1420可以包括通道1421。语音通信系统，如一个或多个语音通信系统1200和/或其一个或多个部分可以放置在通道1411和/或1421中。

各通道1411和1421可以在纺织结构的中间部分。在1420中，一个或多个通道中的一些通道可以在纺织结构的靠近人体声源的边缘。例如，人体声源可以指人的嘴巴。

在一些实施例中，纺织结构中可以制造一个或多个通道1411和1421。相邻的多个通道1411的间距可以相同或不同。多个通道的起始端和末端可以相同或不同。

在制造过程中，语音通信系统1200可以放置在通道1411中，通道1411未被占用的空白区域可以用填充物填充。这样，语音通信系统1200可以通过填充物的注塑固定至通道1401。填充物可以包括，但不限于：硅胶、硅橡胶、天然橡胶等或它们的任意组合。在一些实施例中，填充过程中可以使用涂有填充物的连接器1207。因此，音频传感器1201和外罩1203可以在填充过程中用填充物填充。在另一些实施例中，连接器1207、音频传感器1201和外罩1203可以在一个填充过程中用填充物填充。

在一些实施例中，填充物可以产生供声音沿音频传感器1201的外表面轻易穿过的区域。例如，该区域可以是图11所示的区域1103。在填充物的注塑之后，通道1411中的容纳物各部分的厚度可以小于和/或大于通道1411的相应深度。通道深度在不同部分可以不同。因此，通道1411中的容纳物可以包括从通道1411凸起和/或不凸起的部件。

图15显示了本发明一些实施例中语音通信系统1200的布线例子1500。布线1500可以包括一个或多个VDD连接器1501、GND连接器1503、SD数据连接器1505、音频传感器1201和外罩1203和/或任何其他适当的用来实施语音通信系统的部分。

音频传感器1201可以包括一个或多个管脚1507。例如，音频传感器203可以包括6个管脚1507a-f。各音频传感器1201的管脚可以相同或不同。一个或多个管脚可以连接至VDD连接器1501和GND连接器1503。之后，可以向音频传感器1201供电。例如，三个管脚1507a-c可以连接至GND连接器1503，一个管脚1507f可以连接至VDD连接器1501。一个或多个管脚1507可以彼此相连。在一些实施例中，管脚1507b和1507e可以彼此相连。音频传感器1201可以包括连到输出信号的一个或多个管脚1507。例如，管脚1507d可以连接至SD数据连接器1505至输出信号。在图15中，布线1500可以包括4个音频传感器1201和4个相应的SD数据连接器1505a、1505b、1505c和1505d。在其他一些实施例中，音频传感器1201的数目和SD数据连接器1505的数目可以变化。另外，音频传感器1201的数目和SD数据连接器的数目可以相同或不同。

VDD连接器1501、GND连接器1503、SD数据连接器1505和外罩1203之间的连接可以是串联和/或并联。在一些实施例中，外罩1203可以有一层或多层。VDD连接器1501、GND连接器1503和SD数据连接器1505的交叉连接可以在外罩1203中实现。VDD连接器1501、GND连接器1503和SD数据连接器1505可以彼此平行。语音通信系统1200的布线1500可以插入纺织结构的通道201中(图15中未示出)并固定至通道201的表面。

图16显示了本发明一些实施例中语音通信系统1200的布线例子1600。布线1600可以包括一条或多条VDD连接器1601、GND连接器1603、WS位时钟连接器1605、SCK采样时钟连接器1607、SD数据连接器1609、音频传感器1201a-b和外罩1203和/或任何其他适当的用来实施语音通信系统的部分。

音频传感器1201a-b可以包括一个或多个管脚1611和1613。例如，音频传感器1201a可以包括八个管脚1611a-h。音频传感器1201b可以包括八个管脚1613a-h。一个或多个管脚可以连接至VDD连接器1601和GND连接器1603。之后，可以对音频传感器1201a和1201b供电。例如，在1201a中，管脚1611f可以连接至VDD连接器1601，管脚1611h可以连接至GND连接器1603。在1201b中，1613d和1613f可以连接至VDD连接器1601，管脚1613h可以连接至GND连接器1603。一个或多个管脚1611可以彼此相连。一个或多个管脚1613也可以彼此相连。在一些实施例中，在1201a中，管脚1611f可以连接至1611g。1611d和1611e可以连接至1611h。在1201b中，管脚1613f可以连接至1613g。1613e可以连接至1613h。

WS位时钟连接器1605和SCK采样时钟连接器1607可以提供一个或多个时钟信号。在1201a中，管脚1611c可以连接至WS位时钟连接器1605，管脚1611a可以连接至SCK采样时钟连接器1607。在1201b中，管脚1613c可以连接至WS位时钟连接器1605，管脚1613a可以连接至SCK采样时钟连接器1607。

音频传感器1201可以包括连到输出信号的一个或多个管脚。一个或多个管脚可以连接至SD数据连接器1609。一个或多个SD数据连接器1609可以连接至管脚1611和/或1613。例如，1201a中的管脚1611b和1201b中的管脚1613b可以连接至SD数据连接器1609a至输出信号。在图16中，布线1600可以包括四条SD数据连接器1609a、1609b、1609c和1609d。其他音频传感器1201(图16未示出)可以连接至SD数据连接器1609。在其他实施例中，音频传感器1201的数目和SD数据连接器1609的数目可以变化。这两个数目也可以相同或不同。

VDD连接器1601、GND连接器1603和SD数据连接器1609可以串联和/或并联连接至外罩1203。在一些实施例中，外罩1203可以具有一层或多层。VDD连接器1601、GND连接器1603和SD数据连接器1609的交叉连接可以在外罩1203中实现。VDD连接器1601、GND连接器1603和SD数据连接器1609可以彼此平行。语音通信系统1200的布线1600可以插入纺织结构的通道201(图16未示出)并固定到通道201的表面。

本说明书在以上说明中提到了很多细节，但显而易见的是，没有这些具体细节本发明也可以实施。在一些例子中，为了突出本发明的内容，熟知的结构和设备以方块图的形式显示，而非具体细节。

之后的详细描述的一部分以计算机存储中的数据位运算的算式和符号表达呈现。这些算法描述和表达是数据处理领域的技术人员常用的手段，以最有效地将他们的实质性工作传递给该领域的其他技术人员。总地来说，本文中的算法是一连串独立的步骤，可以获得希望的结果。这些步骤要求物理量的物理运算。通常来说，尽管不是必需的，这些量是能够被存储、传输、合并、比较和进行其他运算的电信号或磁信号的形式。由于常用的原因，可以方便地将这些信号称为比特、(数)值、元素、符号、字符、术语、数字等。

然而，应该记住的是，所有这些和类似的术语用于与适当的物理量关联，并仅仅是用于这些量的方便的标签。如无特别指明，由下述讨论中可以看出，整个说明书中，使用如“发送”、“接收”、“产生”、“提供”、“计算”、“执行”、“存储”、“确定”、“嵌”、“(放)置”、“位于”等术语进行的讨论是指计算机系统或类似的电子计算设备的行为或过程，其将以计算机系统的寄存器和存储器中的物理(电子)量表示的数据处理和转换成其他类似地以计算机系统的存储器或寄存器或其他这类信息存储、传送或显示装置中的物理量表示的数据。

本文中使用的术语“第一”、“第二”、“第三”、“第四”等是用于区分不同部件的标记，可以不必具有所用数字编号的序数含义。

在实施本发明的一些方式中，可以使用任何适当的计算机可读介质来存储进行本文所述过程的指令。例如，在一些实施方式中，计算机可读介质可以是临时性的或非临时性的。例如，非临时性的计算机可读介质可以包括如磁性介质(如硬盘、软盘等)、光学介质(如光盘、数字视频光盘、蓝光光盘等)、半导体介质(如闪存、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)等)等介质、任何适当的在传输期间不会消逝或缺乏外表的持久性的介质、和/或任何适当的有形介质。另一个例子是，临时性的计算机可读介质可以包括在网络上、连接器、半导体、光纤、电路、任何适当的在传输期间消逝并缺乏外表的持久性的介质、和/或任何适当的有形介质中的信号。

Claims

1.一种语音通信系统，其特征在于，包括：第一音频传感器，所述第一音频传感器用于采集声音输入并基于所述声音输入产生第一音频信号，所述第一音频传感器放置在纺织结构的第一表面与第二表面之间。

2.根据权利要求1所述的系统，其特征在于，所述第一音频传感器是装配在硅晶圆片上的麦克风。

3.根据权利要求1所述的系统，其特征在于，所述第一音频传感器放置在位于纺织结构的第一表面和第二表面之间的区域。

4.根据权利要求1所述的系统，其特征在于，所述纺织结构包含位于该纺织结构的第一表面和第二表面之间的第一通道，所述第一音频传感器放置在所述第一通道中。

5.根据权利要求4所述的系统，其特征在于，所述系统还包括基于声学输入产生第二音频信号的第二音频传感器，所述纺织结构还包括第二通道，并且所述第二音频传感器的至少一部分放置在第二通道中。

6.根据权利要求5所述的系统，其特征在于，所述第一通道与第二通道平行。

7.根据权利要求5所述的系统，其特征在于，所述第一音频传感器和第二音频传感器形成音频传感器的差分子阵。

8.根据权利要求5所述的系统，其特征在于，所述系统还包括基于所述第一音频信号和第二音频信号产生语音信号的处理器。

9.根据权利要求1所述的系统，其特征在于，所述第一音频传感器和第二音频传感器嵌埋在所述纺织结构的第一层中。

10.根据权利要求9所述的系统，其特征在于，与所述第一音频传感器相连电路的至少一部分嵌埋在所述纺织结构的第二层中。

11.根据权利要求1所述的系统，其特征在于，所述纺织结构的第一表面与第二表面之间的距离不大于2.5 mm。

12.根据权利要求8所述的系统，其特征在于，为了产生语音信号，所述处理器还用于：通过合并所述第一音频信号和第二音频信号产生输出信号；并对输出信号进行回声消除。

13.根据权利要求12所述的系统，其特征在于，为了进行回声消除，所述处理器还用于：构建声学通路的代表模型；并基于该模型估计输出信号的成分。

14.根据权利要求1所述的系统，其特征在于，所述第一音频传感器不突出于所述纺织结构。

15.根据权利要求1所述的系统，其特征在于，还包括放置于纺织结构的第一表面和第二表面之间的生物传感器。

16.一种语音通信方法，其特征在于，包括：

接收由麦克风阵列产生的多个音频信号，其中所述麦克风阵列包括第一麦克风子阵，所述多个音频信号包括第一麦克风子阵产生的第一音频信号；

对多个音频信号进行空间滤波以产生多个空间滤波信号；

通过处理器对多个音频信号进行回声消除以产生至少一个语音信号。

17.根据权利要求16所述的方法，其特征在于，对多个音频信号进行降噪以产生语音信号，其中进行降噪包括：

构建至少一个降噪滤波器；和

将降噪滤波器用于多个音频信号。

18.根据权利要求17所述的方法，其特征在于，所述构建至少一个降噪滤波器包括：

基于多个音频信号确定第一音频信号的所希望成分的估计值；

基于第一音频信号的所希望成分的估计值确定误差信号；

基于误差信号解决最优化问题。

19.根据权利要求所述18所述的方法，其特征在于，所述构建至少一个降噪滤波器还包括：

确定第一音频信号的第一功率谱密度，

确定第一音频信号的所希望成分的第二功率谱密度;

确定第一音频信号的噪音成分的第三功率谱密度;

基于第一功率谱密度、第二功率谱密度或第三功率谱密度的至少一个构建至少一个降噪滤波器。

20.根据权利要求17所述的方法，其特征在于，所述至少一个降噪滤波器包括相应于麦克风阵列中的多个音频传感器的多个非因果滤波器。

21.根据权利要求17所述的方法，其特征在于，还包括采用单极递归技术更新降噪滤波器。

22.根据权利要求17所述的方法，其特征在于，进行降噪还包括将降噪滤波器用于空间滤波信号。

23.根据权利要求16所述的方法，其特征在于，进行回声消除包括：

接收多个扬声器产生的多个扬声器信号;

对各扬声器信号进行非线性变换以产生多个变换的扬声器信号；

基于变换的扬声器信号构建多个滤波器，其中各个滤波器代表对应于多个扬声器信号中的一个的声学通路；

将多个滤波器用于变换的扬声器信号以估计第一音频信号的回声成分。

24.根据权利要求23所述的方法，其特征在于，对多个扬声器信号的第一扬声器信号进行非线性变换包括：向第一扬声器信号增加该第一扬声器信号的半波整流版。

25.根据权利要求23所述的方法，其特征在于，所述构建多个滤波器包括：

基于第一音频信号确定后验误差信号；

基于后验误差信号确定代价函数：和

使代价函数最小化。

26.根据权利要求16所述的方法，其特征在于，所述进行回声消除还包括：

确定第一音频信号的上一帧是否检测到双端发声；

基于确定结果计算遗忘因子；和

基于遗忘因子对第一音频信号的当前帧进行双端发声检测。

27.根据权利要求16所述的方法，其特征在于，所述第一麦克风子阵包括第一音频传感器和第二音频传感器，其中对多个输出信号进行空间滤波包括：

对所述第二音频传感器产生的第二音频信号施加时间延迟以产生延迟信号；

合并所述第一音频信号和延迟信号以产生合并信号，其中所述第一音频信号由第一音频传感器产生；和

将低通滤波器用于合并信号。