CN107924684B

CN107924684B - 使用半盲自适应滤波器模型的通信终端的声学击键瞬态消除器

Info

Publication number: CN107924684B
Application number: CN201680034279.2A
Authority: CN
Inventors: 赫伯特·巴克纳; 西蒙·J·戈德席尔; 简·斯科格隆
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-12-30
Filing date: 2016-10-18
Publication date: 2022-01-11
Anticipated expiration: 2036-10-18
Also published as: JP6502581B2; US9881630B2; KR102078046B1; EP3329488A1; WO2017116532A1; EP3329488B1; JP2018533052A; KR20180019717A; CN107924684A; US20170194015A1

Abstract

提供了使用半盲自适应滤波器模型的用于用户通信设备的声学击键瞬态消除/抑制的方法和系统。该方法和系统被设计用于通过考虑一些较少缺陷的信号作为瞬态的边信息来克服在瞬态噪声抑制中存在的问题，并且还使用动态模型来考虑声学信号传播(包括回声效应)。该方法和系统利用嵌入在用户设备的键盘中的同步参考麦克风，并且采用利用该键座麦克风信号的知识的自适应滤波方法。

Description

使用半盲自适应滤波器模型的通信终端的声学击键瞬态消除器

背景技术

在音频和/或视频会议环境中，通常遇到恼人的键盘打字噪声，既与话音同时出现又在话音之间的“无声”停顿中出现。典型的场景是参加电话会议的人在会议进行时在他们的膝上型计算机上记笔记，或者在语音通话期间有人检查他们的电子邮件。当音频数据中存在这种类型的噪声时，对用户来说可以特别恼人或烦扰。

发明内容

本概述以简化的形式引入了概念的选择，以提供对本公开的一些方面的基本理解。本概述不是本公开的广泛概述，并且不旨在识别本公开的关键或重要元素或描绘本公开的范围。本概述仅作为下面提供的具体实施方式的前序呈现本公开的一些概念。

本公开一般涉及用于信号处理的方法和系统。更具体地，本公开的方面涉及使用来自辅助麦克风的输入作为参考信号来抑制音频信号中的瞬态噪声。

本公开的一个实施例涉及一种用于抑制瞬态噪声的系统，该系统包括：多个输入传感器，所述多个输入传感器输入从一个或多个源捕获的音频信号，其中音频信号包含由输入传感器捕获的语音数据和瞬态噪声；参考传感器，所述参考传感器输入包含与瞬态噪声有关的数据的参考信号，其中参考传感器与输入传感器分离地定位；以及多个滤波器，所述多个滤波器基于包含在参考信号中的所述数据选择性地对来自音频信号的所述瞬态噪声进行滤波以提取语音数据，并输出包含所提取的语音数据的增强的音频信号。

在另一个实施例中，用于抑制瞬态噪声的系统中的多个滤波器包括自适应前景滤波器和自适应背景滤波器，其中前景滤波器自适应地对瞬态噪声进行滤波以产生增强的输出音频信号，并且背景滤波器控制前景滤波器的自适应。

本公开的另一个实施例涉及一种用于抑制瞬态噪声的方法，该方法包括：从多个输入传感器接收从一个或多个源捕获的输入音频信号，其中音频信号包含由输入传感器捕获的语音数据和瞬态噪声；从参考传感器接收包含与瞬态噪声有关的数据的参考信号，其中参考传感器与输入传感器分离地定位；基于包含在参考信号中的所述数据选择性地对来自音频信号的所述瞬态噪声进行滤波以提取语音数据；以及输出包含所提取的语音数据的增强的音频信号。

在另一个实施例中，用于抑制瞬态噪声的方法进一步包括对前景滤波器进行自适应以自适应地对瞬态噪声进行滤波以产生增强的输出音频信号。

在另一个实施例中，用于抑制瞬态噪声的方法还包括使用背景滤波器来控制前景滤波器的所述自适应。

在一个或多个其他实施例中，这里描述的方法和系统可以可选地包括以下中的一个或多个：每个滤波器是宽带有限脉冲响应滤波器；使用宽带有限脉冲响应滤波器从音频信号中选择性地滤波瞬态噪声；背景滤波器基于包含在参考信号中的数据来控制前景滤波器的自适应；背景滤波器响应于在音频信号中检测到瞬态噪声来控制前景滤波器的自适应；背景滤波器基于以下中的一个或多个来控制前景滤波器的自适应：参考信号的功率、参考信号的线性近似与非线性贡献的比率以及与参考信号相关联的空间-时间源信号活动数据；背景滤波器基于参考信号的功率、参考信号的线性近似与非线性贡献的比率以及与参考信号相关联的空间-时间源信号活动数据来控制前景滤波器的自适应；在音频信号中包含的瞬态噪声是从用户设备的键座生成的击键噪声；输入传感器和参考传感器是麦克风；和/或多个滤波器通过从参考传感器中减去参考信号输入来对来自音频信号的瞬态噪声进行滤波。

根据下面给出的详细描述，本公开的适用性的进一步范围将变得显而易见。然而，应该理解的是，虽然指出了优选实施例，但是详细描述和具体示例仅仅是以示例的方式给出的，因为根据本详细描述在本公开的精神和范围内的各种改变和修改对于本领域技术人员来说是显而易见的。

附图说明

通过结合所附权利要求和附图研究以下具体实施方式，本公开的这些和其他目的、特征和特性对于本领域技术人员而言将变得更加显而易见，所有这些形成本说明书的一部分。在附图中：

图1是图示出根据本文描述的一个或多个实施例的使用来自辅助麦克风的输入作为参考信号的用于瞬态噪声抑制的示例应用的示意图。

图2是图示出在不同回声条件和不同打字速度下的键盘瞬态噪声的图形表示集合。

图3是图示出根据本文描述的一个或多个实施例的具有用于提取期望的话音信号的多个输入信道和多个输出信道的示例系统的框图。

图4是图示出根据本文描述的一个或多个实施例的示例监督式自适应滤波器结构的框图。

图5是图示出根据本文描述的一个或多个实施例的用于信号增强的基于信号和基于系统的方法的示例要求的表格。

图6是图示出根据本文描述的一个或多个实施例的用于半监督声学击键瞬态抑制的示例系统的框图。

图7是图示出根据本文描述的一个或多个实施例的用于半盲声学击键瞬态抑制的示例方法的流程图。

图8是图示出根据本文描述的一个或多个实施例的针对半监督声学击键瞬态抑制布置的示例计算设备的框图。

这里提供的标题仅仅是为了方便，并不一定影响在本公开中要求保护的范围或含义。

在附图中，为了便于理解和方便，相同的附图标记和任何首字母缩略词识别具有相同或相似结构或功能的元件或动作。附图将在以下具体实施方式的过程中详细描述。

具体实施方式

概述

现在将描述各种示例和实施例。下面的描述提供了透彻的理解和描述这些示例的具体细节。然而，相关领域的技术人员将理解，可以在没有许多这些细节的情况下实践本文所描述的一个或多个实施例。同样，相关领域的技术人员也将理解，本公开的一个或多个实施例可以包括本文未详细描述的许多其他明显的特征。此外，一些众所周知的结构或功能可能不会在下文中被详细示出或描述，以避免不必要地模糊相关描述。

高速互联网连接的可用性的快速增加使个人计算设备成为电话会议应用的非常流行的基础。虽然膝上型计算机或平板计算机中的嵌入式麦克风、扬声器和web摄像头使得召开电话会议非常容易，但是由此产生的声学免提通信场景通常带来了对于许多具有挑战性和相互关联的信号处理问题的需求，诸如例如，声学回声控制、来自背景噪声或其他竞争源的信号分离/提取以及理想地去回声。

已经成为特别持续的问题并且由本公开的方法和系统解决的具体类型的声学噪声是由击键瞬态引起的脉冲噪声，特别是在电话会议应用期间当使用膝上型计算机的嵌入式键盘时(例如，为了做笔记、写电子邮件等)。在这种情况下，麦克风信号中的这种脉冲噪声可以由于麦克风和键盘之间的空间接近性，部分是由于设备壳体内的可能的振动效应和固体声传导而造成很大的干扰。

如上所述，当在音频和/或视频会议期间键盘打字噪声存在时，用户发现它具有破坏性和恼人。因此，希望在不对期望的话音引起可感知的失真的情况下消除这样的噪声。相应地，本公开提供了专门用于半监督声学击键瞬态消除的新型和新颖的信号增强方法和系统。

以下部分将更详细地阐明和分析信号处理问题，然后集中于使用宽带自适应FIR滤波器表征的特定类别的方法。另外，半监督/半盲信号处理问题的各个方面将在包括键盘下方的附加参考传感器的用户设备(例如膝上型计算机)的场境下描述。如将要描述的那样，在这种场境下，除了已经在本领域中已经更广泛地研究的问题类型之外，半监督/半盲信号处理问题可以被认为是免提场境下的新类型的自适应滤波问题。

许多现有的单信道话音增强方法通常基于短时傅立叶变换(STFT)域中的噪声功率估计和谱幅度修改。然而，对于这种类型的许多方法来说，降低诸如击键瞬态的高度非平稳噪声仍然是具有挑战性的问题。分离方法(诸如例如非负矩阵分解(NMF))在谱域中的应用已经显示出对于脉冲噪声的有希望的结果。虽然在长信号样本可用的情况下，特别是对于批量估计而言这种方法可以是有效的，但是不幸的是，实际上由于击键瞬态的短活动和声学点击事件的变化，可用的自适应时间非常少。同样重要的是，注意到键盘噪声是宽带的，其主要频率分量通常与话音信号的频率分量在相同的范围内。由于这样的挑战性条件，这个信号处理问题主要是通过丢失特征方法来解决的。从图像和视频处理中也已知类似的方法。类似于上面提到的话音增强方法，丢失特征类型方法通常需要非常准确地检测击键瞬态。而且，在击键噪声的情况下，这种检测问题由回声效应和每个击键实际上导致两个具有未知和变化的距离的可听见的咔哒声的事实而加剧，由此第二咔哒声的波峰通常被完全掩埋在重叠的话音信号中(由于实际的击键发生第一咔哒声，而在释放键之后发生第二咔哒声)。

还应该注意的是，简单地使用来自设备的操作系统的打字信息通常不够精确，因为由操作系统(OS)记录的打字信息与实际声学事件之间的时间偏差可以广泛地变化并不是确定性的。

为了进一步示出信号处理问题，下面在不同的回声条件和不同的打字速度下描述一些测量的击键瞬态噪声信号(例如，使用在其显示器顶部配置有内部麦克风的用户设备)。

打字速度通常以每分钟词数(wpm)来衡量，其中根据定义，一个“词”由五个字符组成。应该理解，每个字符由两个击键瞬态组成。基于对不同技术水平和目的的计算机用户的各种研究，对于膝上型计算机的典型QWERTY键盘上的触摸打字速度，40wpm已经成为一般经验法则。由于40wpm与每秒6.7次击键瞬态相对应，击键之间的平均距离有时可以低至150毫秒(毫秒)。图2中所示的示例信号确认了这种近似，其中绘图(a)的测量是在消声环境(例如，汽车驾驶室)中执行的。在绘图(a)中，键的向下和向上移动两者的瞬态是清晰可见的。相比之下，如图(b)、(c)和(d)所示，随着打字速度的增加和/或房间回声的增加导致击键的效果重叠，信号重建通常变得越来越具有挑战性。而且，在回声环境中(例如，图(c)和(d))，咔哒声噪声可能在多个分析块上延伸。

本公开的方法和系统被设计成克服便携式用户设备(例如，膝上型计算机、平板计算机、移动电话、智能电话等)中的音频流的瞬态噪声抑制中的现有问题。例如，本文描述的方法和系统可以考虑一些较差的信号作为关于瞬态(例如，击键)的边信息(sideinformation)，并且还考虑使用动态模型的包括回声效果的声学信号传播。如将在下面更详细地描述的，所提供的方法和系统被设计成利用嵌入在用户设备的键盘中的同步参考麦克风(在本文中有时可以被称为“键座”麦克风)，并采用利用该键座麦克风信号的知识的自适应滤波方法。

根据本文描述的一个或多个实施例，与用户设备相关联的一个或多个麦克风记录被环境噪声破坏的语音信号以及来自例如键盘和/或鼠标点击的瞬态噪声。用户设备还包括嵌入在用户设备的键盘中的同步参考麦克风，其允许测量实质不受语音信号和环境噪声影响的键击噪声。这样的设置允许更强大的、半监督式击键瞬态抑制，诸如根据本公开描述的那样。

图1图示出了这种应用的示例100，其中用户设备140(例如，膝上型计算机、平板计算机等)包括一个或多个主音频捕获设备110(例如，麦克风)、用户输入设备165(例如，键盘、小键盘、键座等)以及辅助(例如，次要或参考)音频捕获设备115。

一个或多个主音频捕获设备110可以捕获由用户120(例如，音频源)生成的话音/源信号(150)以及从音频130的一个或多个背景源生成的背景噪声(145)。另外，由操作用户输入设备165(例如，在经由用户设备140参与音频/视频通信会话的同时在键盘上键入)的用户120生成的瞬态噪声(155)也可以由音频捕获设备110捕获。例如，话音/源信号(150)、背景噪声(145)和瞬态噪声(155)的组合可以由音频捕获设备110捕获并且作为一个或多个输入信号(160)输入(例如，接收、获得等)到信号处理器170。根据至少一个实施例，信号处理器170可以在客户端处操作，而根据至少一个其他实施例，信号处理器可以通过网络(例如，互联网)在服务器处操作与用户设备140通信。

辅助音频捕获设备115可以位于用户设备140的内部(例如，在用户输入设备165之上、之下、旁边等)，并且可以被配置为测量与用户输入设备165的交互。例如，根据至少一个实施例，辅助音频捕获设备115测量与键座的交互所生成的击键。然后可以使用由辅助麦克风115获得的信息来更好地恢复由于与键座的交互导致击键而破坏的语音麦克风信号(例如，可能被瞬态噪声(155)破坏的输入信号(160))。例如，可以将由辅助麦克风115获得的信息作为参考信号(180)输入到信号处理器170。

如下面将更详细地描述的，信号处理器170可以被配置为使用来自辅助音频捕获设备115的参考信号(180)对接收到的输入信号(160)(例如，语音信号)执行瞬态抑制/消除。根据一个或多个实施例，由信号处理器170执行的瞬态抑制/消除可以基于宽带自适应多输入多输出(MIMO)滤波。

本公开的方法和系统具有许多现实世界的应用。例如，所述方法和系统可以在具有位于键盘之下的辅助麦克风的计算设备(例如，膝上型计算机、平板计算机等)中实现(或者除了一个或多个主要麦克风位于的位置之外的设备上的某个其他位置)以便提高可能执行的瞬态噪声抑制处理的有效性和效率。在一个或多个其他示例中，本公开的方法和系统可以在移动设备(例如，移动电话、智能电话、个人数字助理(PDA))以及被设计为通过话音识别来控制设备的各种系统中使用。

利用可用参考信号(例如，图1中所示的示例系统100中的参考信号180)和自适应滤波的应用，可以看出本公开的方法和系统所解决的问题类似于传统的声学回声消除(AEC)问题或干扰消除问题。然而，这里描述的击键瞬态抑制方法和系统与现有的AEC和/或干扰消除方法之间存在显着的差异，其中一些在图5所示的表格500中示出并反映如下：

(i)待识别的“回声路径”是快速时变的。

(ii)“回声路径”的激励(击键瞬态)通常非常短，这意味着估计过程的数据量是有限的。

(iii)存在从话音源到击键麦克风的低(但是明显的)功率的串扰。

(iv)如在传统AEC中一样，双向通话控制(或特别是双向通话检测)在本文所述的方法和系统所解决的情况中(主要归因于(iii)和(v))不是直接的。

(v)高度非线性系统。实验表明，由于壳体内的固体声传导，导致从键盘到麦克风的声学路径包含显着的非线性贡献。非线性贡献(例如，卡嗒卡嗒声(rattling))也表现出显着的记忆。

(vi)尽管存在(i)-(v)的挑战，但是系统/方法应该具有低复杂性。

基于宽带自适应MIMO滤波的击键瞬态消除

以下提供了关于本公开的击键瞬态抑制/消除方法和系统的细节，其被设计为处理针对击键瞬态抑制的以上挑战(i)-(vi)，并且还描述了根据其的一些示例性能结果。以下部分开发了从具有用于提取所需话音信号的多个输入信道和多个输出信道(MIMO)的通用自适应动态系统开始的信号处理方法，其示例在图3中示出。特别是，图3示出了被认为是通用2×3源分离问题的系统的示例。

图3示出了具有多个输入信道和多个输出信道的示例系统300，而图4和图6图示出了根据本公开的一个或多个实施例的更具体的布置。具体而言，图4示出了与监督式自适应滤波器结构相对应的示例系统400，并且图6示出了与半盲自适应SIMO滤波器结构的稍微修改版本相对应的示例系统600(更具体地，图6图示出了具有均衡后置滤波器的半盲自适应SIMO滤波器结构)。

关于图3、图4和图6所示的示例系统，应该注意，由h_ij(例如，h₁₁、h₁₂、h₂₁等)表示的路径指示从声源s_i到音频输入设备x_j(例如，麦克风)的声学传播路径。在下面的描述中，假定这些传播路径h_ij的线性贡献可以由脉冲响应h_ij(n)来描述。而且，由w_ji识别的块指示具有冲激响应w_ji(n)的自适应有限脉冲响应(FIR)滤波器。

应该理解的是，与用于声学击键瞬态消除的现有方法相反，本公开的方法和系统使用自适应FIR滤波器。通常，包括在图3、图4和图6所示的示例系统中的FIR滤波器(例如，分别在示例系统300、400和600中由w_ji表示的块)可以通过以下滤波等式来描述：

其在下面作为等式(2)再现。滤波器等式(2)的细节在后面的章节中提供。

MIMO系统的系数(线性情况下的脉冲响应)被认为是潜在变量。假设这些潜在变量在观测数据的多个时间帧上具有较小的变化性。由于它们允许在更长的数据序列上进行全局优化，所以潜在变量模型具有减少数据维度的众所周知的优点，使得其更易于理解，并且因此在当前的场境下减少或避免输出信号中的失真。在下文中，与下面还将描述的“基于信号的”方法相比，这种方法可以被称为“基于系统”的优化。应该注意的是，在实践中，将用于信号增强的基于信号的方法和基于系统的方法组合起来通常是有用的，因此，将在当前场境中详细描述如何组合这些方法的示例。

本公开的基于系统的优化方法将通过作为通用MIMO情况的专业化的不同可想像的自适应滤波配置的描述来开发。通过在下面进一步描述并由示例要求(i)-(vi)指导的宽带自适应MIMO滤波的一般框架将促进该开发。

监督式自适应滤波器结构

如上所述，利用可用键盘参考信号x₃的最简单的情况将是AEC结构。实际上，AEC结构和各种已知的监督技术可以看作是宽带自适应MIMO滤波框架的特定情况。在本公开的特定设置中(在图3中示出的设置之后)，对应的假设可以读取h₁₃(n)≡0，h₂₃(n)＝δ(n)。这意味着这种方法假定实际击键瞬态s₂和滤波器w₃₁的输入x₃之间的直接连接。

典型地，如图4所示，基于在没有来自任何其他源s₁(n)的串扰的情况下直接访问干扰键盘参考信号s₂(n)，作为结果的监督式自适应过程非常简单且鲁棒，并且由于这种方法仅减去适当滤波的键盘参考，所以不会对期望的话音信号造成失真。而且，已经示出了被称为声学回音抑制(AES)的紧密相关的技术对于快速时变系统是特别有吸引力的。对于低复杂度的AES，一种现有的方法(其固有地包括双向通话控制和低失真约束)是满足要求(i)、(ii)、(iv)和(vi)的有吸引力的候选者。然而，现有的类似于AEC/AES的结构忽略了(iii)和(v)的要求，这在当前的场境和应用中是非常重要的。已经示出了由于壳体内的固体声传导，所有声学路径h₂₁、h₂₂、h₂₃实际上是非线性的。根据本公开的一个或多个实施例，这里描述的方法和系统被设计为避免由于复杂度(vi)和数字原因(v)而导致的非线性AEC。

应当指出，由于参考信号(例如，滤波器输入)x₃不再与话音信号s₁(要求(iv))在统计上独立，所以要求(iii)也使得自适应控制比传统的AEC明显更加困难。这与监督式自适应滤波理论中的常见假设以及双向通话检测的常见策略相矛盾。

半盲自适应SIMO滤波器结构

典型地，在实践中，x₁、x₂之间的关系分别比x₃、x₁之间的关系和x₃、x₂之间的关系更接近线性(参见图3所示的示例系统)。这将激发使用两个阵列麦克风x₁、x₂的盲空间信号处理。

另一方面，由于键盘和键盘麦克风之间的接近，x₃仍然包含明显较少的串扰和较少的回声。因此，键盘麦克风最适合指导自适应。换句话说，当核心过程被盲目地自适应时，整个系统可以被认为是半盲系统。使用键盘麦克风指导自适应解决了双向通话问题和在盲自适应滤波方法的输出中关于期望的源的固有置换模糊性的解决方案。

使用从键盘麦克风信号(下面将更详细地描述)推断的检测信息，优化标准相对于两个输出信号y₁和y₂的近似解耦是可能的。这种解耦允许根据图3对全MIMO结构再次进行修剪，并且所得到的结构可以再次被认为是宽带自适应MIMO滤波的已知框架的特定情况。所得到的结构可以被解释为子空间方法/盲信号提取(BSE)方法或用于单输入和多输出(SIMO)系统的盲系统识别(BSI)的方法。如将在下面更详细地描述的，根据本公开的整个系统的至少一个实际实施方式，可以利用这两种解释；用于提取期望的话音信号的BSE以及用于本文提供的新的双向通话控制过程的BSI。

具体而言，根据图3，消除输出信号y₁(n)中声学击键瞬态的条件是

h₂₁(n)*w₁₁(n)＝-h₂₂(n)*w₂₁(n). (1)

应该指出的是，在等式(1)中星号(*)指示线性卷积(类似于等式(2)中的定义)。对于仅一个有源信号的情况(例如，MIMO去混合系统简化为MISO系统)，滤波器自适应过程简化为类似于众所周知的监督式自适应方法的形式。此外，可以看出，该过程执行盲系统识别，因此，理想情况下，w₁₁(n)∝h₂₂(n)和w₂₁(n)∝-h₂₁(n)。只要h₂₂(n)和h₂₁(n)在z域中不共享共同的零，并且滤波器长度对于串扰消除足够长，则这些理想的解决方案遵循等式(1)。

假设在语音麦克风的情况下近似线性成立，只要仅在击键瞬态期间自适应消除滤波器w₁₁和w₂₁，则可以期望这种基于半盲系统的方法可靠工作(与自适应有关附加细节控制在下面提供)。然后具有输出信号y₁(n)的自适应MISO系统对击键瞬态和期望的话音信号起到持续有效的时空选择性滤波器的作用。

具有均衡后置滤波器的半盲自适应SIMO滤波器结构

由于通常在话音活动期间，也由相同的MISO FIR滤波器对(其可以在击键的活动期间被估计，例如，通过在上一节中描述的简化的消除过程)期望的信号s₁(n)进行滤波，直接在输出信号y₁上增加附件的均衡滤波器来消除任何剩余的线性失真。这个单信道均衡滤波器将不改变信号提取性能。例如，根据本公开的一个或多个实施例，这样的滤波器的设计可以基于示例系统300中的滤波器之一(例如滤波器w₁₁)的近似逆(approximateinversion)。这样的示例设计也符合所谓的最小失真原理。

已经设计了w₁₁的近似逆滤波器，通过将该逆滤波器移动到两个路径w₁₁和w₂₁中，可以进一步简化整个系统。这个等价的表达式分别导致纯延迟D个样本(而不是自适应滤波器w₁₁)和单个修改的滤波器w'₂₁，如图6所示的系统中的实线所示(将在下面更详细地描述)。为了确保任意扬声器位置的自适应滤波器w'₂₁的因果性，可以将延迟选择为

自适应的有效实现和控制

根据上述要求(i)-(vi)，已经识别了用于最优的基于系统的方法的有希望的候选者，根据本公开的一个或多个实施例，下面的部分描述了自适应的有效实际实现和控制。

宽带块在线频域自适应

为了全面描述本公开的宽带自适应方法和系统的各种特征和实施例，有必要首先引入上述滤波器结构的计算有效的频域公式化的表述。包括相关数量的表示的公式化的表述将成为下面的宽带自适应方法和系统的描述的基础。该频域框架的重要特征是它增加了自适应过程(例如，Hessian的近似对角化)和滤波过程(例如，通过利用FFT的效率的快速卷积)两者的效率。

下面描述在分块(即，(整数)块长度N＝L/K可以是滤波器长度L的分数)的场境下的自适应方法和系统的各种特征和示例。该L和N的解耦对于处理高度非平稳信号(诸如由本文描述的方法和系统所解决的击键瞬态)是特别理想的。

考虑根据图3所示的示例框图的独立子滤波器w_pq之一的输入-输出关系。这个子滤波器在时间n的输出信号读取

其中w_pq,l是滤波器脉冲响应w_pq的系数。通过将长度为L的脉冲响应w_pq划分为整数长度为N＝L/K的K段，等式(2)可以写为

其中

w_pq，k＝[w_pq，N_k，w_pq，N_k+1，...，w_pq，N_k+N-1]^T， (5)

上标T指示向量或矩阵的转置。长度为N的向量w_pq,k，k＝0，...，K-1表示分割的抽头权重向量的子滤波器

现在可以定义长度为N的块输出信号。基于上面提出的等式(3)

其中m是块时间索引，以及

y_qp(m)＝[y_qp(mN)，...，y_qp(mN+N-1)]^T， (9)

U_p，k(m)＝[x_p，k(mN)，...，x_p，k(mN+N-1)]. (10)

为了导出频域过程，将块输出信号(等式(8))变换到其频域对应部分(例如，使用离散傅立叶变换(DFT)矩阵)。矩阵U_p,k(m)，k＝0，...，K-1是大小为(N×N)的托普利兹矩阵。通过加倍其大小，托普利兹矩阵U_p,k(m)可以被转化为大小(2N×2N)的循环矩阵，并且循环矩阵可以使用(2N×2N)-DFT矩阵F_2N与元素e^{-j2πνn/(2N)}(ν,n＝0,...,2N-1)对角化，这给出

与对角矩阵

并且如下面所示的表1中定义的窗口矩阵(window matrices)

和

这最终导致第pq个滤波器的以下块输出信号：

其中

X_p(m)＝[X_p，0(m)，X_p，1(m)，...，X_p，_K-1(m)]，(13)

基于对于p＝1,2,3和q＝1,2的等式(12)的紧凑表达式，输出信号块(例如，在图3中示出并且如上所述的示例中的y₁，y₂)和/或者优化标准所需的误差信号块可以通过这些信号向量的叠加而容易地获得。例如，在图6中所示的示例系统的简化结构中，用于对滤波器w'₂₁进行自适应的块误差信号e(m)读取

其中x₁(m)指示延迟了D个采样的麦克风信号x₁(n)的长度为N的块。类似地，上述原始基于盲SIMO系统识别的方法的自适应方法可以使用误差信号向量来表示，其中根据等式(12)，式(16)中的延迟参考信号x₁(m)被另一个自适应子滤波器项代替，即

根据至少一个实施例，表2(下面)中呈现的实施方式可以基于等式(16)的误差信号相对于频域系数向量w'₂₁的逐块最小化。根据至少一个其它实施例，可以使用类似公式，其相对于组合系数向量

来使等式(17)的误差信号最小化(其在下面和表2中更详细地描述)

鲁棒统计

已经以紧凑的分割块频域表示表达了误差信号之后，下面提供了根据本公开的一个或多个实施例的基于合适的块的优化标准。如上所述，这种滤波器优化应当在击键瞬态的独占活动期间(以及声学环境中的话音或其他信号的不活动)进行。一旦建立了基于合适的块的优化标准，下面的描述还将提供关于根据图6在回声环境中的针对半盲场景的本公开的新的快速反应的瞬态噪声检测系统和方法的细节。

为了便于解释，下面的特征和示例在具有击键瞬态活动的单一通话情景的场境下被描述。最常见的自适应方法是基于最小二乘的方法，其中递归最小二乘(RLS)方法已知表现出最快的初始收敛速度，这是当前情况下的重要属性，其中非常短的击键瞬态作为自适应的激励信号起作用。为了获得计算有效的实施方式，下面的描述适用于每样本具有O(logL)复杂度的类似RLS的频域自适应滤波器(FDAF)。基于上述分割块误差(有时也称为“多延迟滤波器”)公式的DFT域中的这种宽带自适应方案已知保留了许多所需的RLS类型收敛性质。

此外，根据一个或多个实施例，由于确保双向通话期间自适应的鲁棒性对于类似RLS的快速收敛过程尤其重要，所以本公开的方法和系统在该频域框架(半)盲情景内附加地应用鲁棒统计的概念。鲁棒统计是一种有效的技术，其可以使估计过程本身对偶然异常值(例如，可能由罕见但不可避免的自适应控制检测故障引起的短突发)较不敏感。为了确保快速收敛(与原始非鲁棒方法一样)，同时避免在基本上可以由修改的超高斯(例如，重尾)背景噪声概率分布函数(pdf)描述的这种情况下的突然发散，本公开的鲁棒自适应方法和系统至少由以下组成，下面将更详细地描述其中的每一个：

(1)使用修改的优化标准的鲁棒自适应滤波器估计，以及

(2)自适应(例如时变)比例因子估计。

鲁棒自适应滤波器估计

使用超高斯概率分布函数来建模噪声以获得异常值鲁棒技术与非二次优化标准相对应。在基于块的加权最小平方标准之后被泛化到对应的M估计器：

其中β(i，m)是定义不同类别方法的加权函数，例如β(i，m)＝(1-λ)λ^m-i，其中遗忘因子0<λ<1以获得类似RLS的方法，e(iN)，...，e(iN+N-1)指示具有块索引i的信号向量e(i)的元素(根据以上关于宽带块在线频域自适应的描述)。应该指出的是

给出了对应的非鲁棒方法。通常，ρ(·)是凸函数，s_ρ是第i个块的实值正比例因子(如下面进一步描述的)。鲁棒统计理论的主要陈述之一是，只要非线性函数ρ(·)具有有界导数，则所得到的过程继承了鲁棒属性。可以很容易地证明，对于经典情形ρ(·)＝|·|²，有界导数的条件未被满足。

所谓的胡伯估计器给出了对于鲁棒性的ρ(·)的特别简单而有效的选择：

其中k₀>0是控制过程鲁棒性的常量。胡伯估计器的ρ(·)的导数，

明确地满足有界要求，并且可以示出等式(19)中的选择给出了在高斯背景噪声的假设下的最佳等变鲁棒估计器。

下面表2根据本文描述的一个或多个实施例示出了基于图6中所示的系统配置的示例方法的伪代码、等式(18)的优化标准以及等式(16)中的多延迟公式化表述。如图6所示，根据至少一个实施例，整个系统600可以包括前景滤波器620(例如，如上所述产生增强输出信号y₁的主要自适应滤波器)以及单独的背景滤波器640(由虚线指示)，其可用于控制前景滤波器620的自适应。这两个组件(前景滤波器620和背景滤波器640)也由表2中所示的伪代码中的两个最低(主)部分表示。

参考上面的表2，注意力集中在伪码中的最后部分中的前景滤波器(等式(21s)-(21y))，包括必要的卡尔曼增益(等式(21e)和(21f))(其用于由于它们的公共输入信号X₂(m)导致的前景滤波器和背景滤波器两者的计算效率)和所要求的输入信号(等式(21a)-(21c))。直接基于上述标准的这种鲁棒频域自适应方法的推导是本领域技术人员已知的。应该注意的是，[a]_n指示向量a的第n个元素(例如，在等式(21t)中)。而且，下面将更详细地描述用于自适应控制的背景滤波器。

根据本公开的一个或多个实施例，为了进一步加速收敛，根据表2的示例实施方式的重要特征是每个块中的附加离线迭代(由索引

指示)。虽然这样的块式离线迭代在盲自适应滤波中可能更常见，但是该方法直接转到监督情况。实际上，在监督式自适应滤波的情况下，这种方法是特别有效的，因为整个卡尔曼增益计算仅取决于传感器信号(意味着卡尔曼增益只需要每块计算一次)。此外，根据至少一个实施例，为了避免使用该方法针对大量离线迭代的不希望的“过度学习”现象，还允许在一定程度上利用本地信号统计的方法的快速跟踪能力，离线迭代的总数

可以细分为两个步骤，如下所述：

(1)在第一l_max,sys迭代(其中

)期间，自适应的目标是严格基于系统的。在这些迭代之后(参见上面的表2中的等式(21w))，所得到的滤波器系数集合

因此被认为从一个信号块到下一个全局有效。因此，为了获得鲁棒的可泛化的估计，可以在这些迭代期间应用鲁棒统计的方法。

(2)在第二迭代集合

中，严格的基于系统的目标可能会放松。所述第二迭代集合产生最终输出信号块

但是所得到的滤波器系数集合不被传送到下一个信号块的处理。换句话说，这第二步骤可以被视为后滤波(postfiltering)阶段。事实证明，在极端情况

下，该方法类似于众所周知的维纳后置滤波器(例如，参见下面的等式(23))，应该理解有许多不同之处。首先，

的选择提供了关于来自先前信号块的参数估计的合并的折中参数。只要

就可以考虑先前的参数估计，如等式(22)的通用表达式所示。其次，与大多数传统的二维维纳后置滤波实施方式(通常在短时傅立叶变换(STFT)域中)相反，由附加离线迭代产生的后置滤波器仍然基于宽带优化，如等式(22)中的约束矩阵反映的。这个宽带属性甚至可以在等式(23)中的极端情况

中看出，其中由于矩阵

逆2L×2L矩阵不是严格稀疏的。尽管有这些特征，但是在表2中提供的示例方法之后的迭代实现仍然是计算有效的，因为除了别的之外，频域中的更新等式的O(logL)复杂性和卡尔曼增益计算(表2中的等式(21e)和(21f))只需要对所有迭代执行一次的事实。

应该注意的是，使用离线迭代的方法对于多延迟(例如，分割的)滤波器模型是特别有效的，其允许滤波器长度L和块长度N的解耦。这样的模型在具有高度非平稳的击键瞬态的本公开的应用中是有吸引力，因为多延迟模型进一步提高了本地信号统计的跟踪能力。

还应该理解的是，迄今为止所描述的所有构件块可以转到上面关于基于宽带自适应MIMO滤波的击键瞬态消除所描述的任何或全部示例整个系统结构。

比例因子估计

除了滤波器系数向量w的估计之外，比例因子s_ρ是鲁棒统计方法的另一主要成分(参见上面的等式(18))，并且是对随机误差的扩展的适当估计。实际上，可以从残差中得到s_ρ，残差依次取决于w。根据本公开的一个或多个实施例，比例因子例如应该反映本地声学环境中的背景噪声水平，在双向通话期间对短的错误突发是鲁棒的，并且跟踪由于声学混合系统中的变化(例如，图6所示的示例系统中以及上面描述的脉冲响应h_qp)引起的残差的长期变化，这可能是由例如扬声器移动引起的。根据本文描述的至少一个实施例，在表2中的等式(21z)中应用用于块长度N的对应块公式，其中s_ρ(0)＝σ_x并且β是取决于k₀的归一化常数。

半盲多延迟双向通话检测

前面的部分基于前面提出的要求(i)-(vi)开发和描述了整个系统架构的至少一个示例，并且还开发和描述了根据至少一个实施例的自适应击键瞬态消除器的主要部分(例如，表2中的伪代码的最后部分)。如此，下面的部分现在描述根据本公开的一个或多个实施例的关于控制自适应的各种特征和方面的细节(例如，使用双向通话检测器(表2中的第一主要部分))。在下文中，开发和描述了可靠的决策机制，使得仅在击键瞬态的排他性活动期间执行击键瞬态消除器的自适应。

例如，构成以下描述基础的考虑可以基于本公开的利用键盘参考麦克风(例如便携式计算设备，诸如例如膝上型计算机)用于击键瞬态检测的半盲系统结构，如前面的部分所述。然而，尽管键盘参考麦克风可用，但是至少在当前情况下，可靠的自适应控制是比众所周知的监督式自适应滤波情况的自适应控制问题更具挑战性的任务(例如，用于声学回声消除)。这主要是由于期望的话音信号到键盘参考麦克风的明显的串扰，以及击键瞬态的传播路径中的非常明显的非线性分量(例如，上述的要求(iii)-(v))。因此，在现有方法中使用的单个基于功率或基于相关性的决策统计在这种情况下是不够的。

相反，本公开提供了一种基于多个判定标准的新型自适应控制，其也利用多个麦克风信道的空间选择性。至少在某些方面中，所得到的方法可以被认为是基于多延迟的检测机制的半盲泛化。根据一个或多个实施例，可以被集成在自适应控制中的标准包括例如键盘参考信号的功率、非线性效应、以及近似盲混合系统识别和源定位，其中的每一个将在下面进一步描述。

由于键盘与正下方的参考麦克风之间的接近，所以根据等式(21i)(在上面的表2中示出)的键盘参考信号的信号功率

通常给出击键的活动的非常可靠的指示。为了确保检测器的快速反应，使用多延迟滤波器模型将块长度N选择为比滤波器长度L短。而且，遗忘因子

应该小于遗忘因子λ。遗忘因子(0和1之间)的选择本质上定义了估计信号功率的有效窗口长度。较小的遗忘因子与较短的窗口长度相对应，因此更快跟踪(时变)信号统计。

应该理解的是，为了判定关于击键的排他性活动，该第一标准应该补充进一步的标准，这将在下面详细描述。与基于监督式自适应滤波器的已知前景-背景结构有些相似，在至少一个实施例中，本公开的自适应控制将该前景-背景结构传送给盲/半盲情况。如下所示，在背景中使用自适应滤波器为不同检测标准的计算之间的协同提供了各种机会。

除了作为第一检测变量的短时信号功率

检测变量

描述了x3中线性近似与非线性贡献的比率。

通过检测变量

描述了一个更重要的标准。该标准可以被理解为时空源信号活动检测器。值得注意的是，检测变量

和

均基于自适应背景滤波器(类似于前景滤波器，但是具有稍大的步长和较小的遗忘因子，用于检测机制的快速反应)。

检测变量

利用麦克风阵列的几何形状。根据图6中所示的示例物理布置，可以安全地假定h₂₃的直接路径将明显短于h₁₃的直接路径。由于背景滤波器系数的最大值与到达时间差的关系，可以对两个源s₁和s₂的活动做出近似判定(等式(21p)中的1≤a<b<c≤L)，如上表2所示)。根据至少一个实施例，为了进一步提高检测精度，可以应用用于背景滤波器系数的稀疏学习的正则化(等式(21m)-(21o)，其中Φ(·，a)表示中心削波器，其也被称为宽度a的缩小操作符(shrinkage operator))。

图8是根据本文所描述的一个或多个实施例的布置用于使用半盲自适应滤波的声学击键瞬态抑制/消除的示例性计算机(800)的高级框图。根据至少一个实施例，计算机(800)可以被配置为基于利用多个麦克风信道的空间选择性的多个判定标准来执行滤波器的自适应控制。可以被集成到自适应控制中的标准的示例包括由键座麦克风提供的参考信号的功率、非线性效应以及近似的盲混合系统识别和源定位。在非常基本的配置(801)中，计算设备(800)通常包括一个或多个处理器(810)和系统存储器(820)。存储器总线(830)可以用于处理器(810)和系统存储器(820)之间的通信。

取决于期望的配置，处理器(810)可以是任何类型的，包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器(810)可以包括诸如一级高速缓存(811)和二级高速缓存(812)的一个或多个级别的高速缓存、处理器核心(813)以及寄存器(814)。处理器核心(813)可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核心(DSP核心)或其任何组合。存储器控制器(815)也可以与处理器(810)一起使用，或者在一些实施方式中，存储器控制器(815)可以是处理器(810)的内部部分。

取决于期望的配置，系统存储器(820)可以是任何类型的，包括但不限于易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者其任何组合。系统存储器(820)通常包括操作系统(821)、一个或多个应用(822)和程序数据(824)。根据本文所描述的一个或多个实施例，应用(822)可以包括自适应滤波器系统(823)，用于使用自适应有限冲激响应(FIR)滤波器来选择性地抑制/消除包含语音数据的音频信号中的瞬态噪声。程序数据(824)可以包括存储指令，该指令在由一个或多个处理设备执行时实现用于使用半盲自适应滤波的声学击键瞬态抑制/消除的方法。

另外，根据至少一个实施例，程序数据(824)可以包括参考信号数据(825)，其可以包括关于由参考麦克风(例如，图1所示的示例系统100中的参考麦克风115)测量的瞬态噪声的数据(例如，功率数据、非线性数据以及近似盲混合系统识别和源定位数据)。在一些实施例中，应用(822)可以被布置为在操作系统(821)上与程序数据(824)一起操作。

计算设备(800)可以具有附加的特征或功能以及附加的接口以促进基本配置(801)与任何所需的设备和接口之间的通信。

系统存储器(820)是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字多功能盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其它磁存储设备或可用于存储期望信息并可由计算设备800访问的任何其他介质。任何这样的计算机存储介质可以是设备(800)的一部分。

计算设备(800)可以被实现为小型便携式(或移动)电子设备的一部分，诸如蜂窝电话、智能电话、个人数字助理(PDA)、个人媒体播放器设备、平板计算机(平板)、无线web观看设备、个人头戴式耳机设备、专用设备、或包括任何上述功能的混合设备。计算设备(800)也可以被实现为包括膝上型计算机和非膝上型计算机配置的个人计算机。

前面的详细描述已经经由使用框图、流程图和/或示例阐述了设备和/或过程的各种实施例。只要这些框图、流程图和/或示例包含一个或多个功能和/或操作，那么本领域的技术人员将会理解，可以通过各种各样的硬件、软件、固件、或者其实际任何组合来单独地和/或共同地实现这些框图、流程图或示例中的每个功能和/或操作。根据至少一个实施例，可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成格式来实现本文所描述的主题的若干部分。然而，本领域技术人员将认识到，本文所公开的实施例的一些方面可以全部或部分地在集成电路中等效地实现为在一个或多个计算机上运行的一个或多个计算机程序、在一个或多个处理器上运行的一个或多个程序、固件或其实际任何组合，并且设计电路和/或编写用于软件和/或固件的代码是受到本公开的启示的本领域技术人员的技术内已知的。

另外，本领域的技术人员将认识到，本文描述的主题的机制能够以各种形式作为程序产品被分发，并且本文描述的主题的说明性实施例应用而不考虑用于实际执行分发的特定类型的非暂时性信号承载介质。非暂时信号承载介质的示例包括但不限于以下：可记录型介质，诸如软盘、硬盘驱动器、光盘(CD)、数字视频盘(DVD)、数字视盘数字磁带、计算机存储器等；以及传输型介质，诸如数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路等)。

关于本文中基本上任何复数和/或单数术语的使用，本领域技术人员可以根据上下文和/或应用将复数解释为单数和/或将单数解释为复数。为了清楚起见，这里可以明确地阐述各种单数/复数置换。

因此，已经描述了主题的特定实施例。其他实施例在以下权利要求的范围内。在一些情况下，权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。另外，附图中描绘的过程不一定需要所示出的特定顺序或次序，以实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种用于抑制瞬态噪声的系统，所述系统包括：

多个输入传感器，所述多个输入传感器输入从一个或多个源捕获的音频信号，其中所述音频信号包含由所述输入传感器捕获的语音数据和瞬态噪声；

参考传感器，所述参考传感器输入包含与所述瞬态噪声有关的数据的参考信号，其中所述参考传感器与所述输入传感器分离地定位；

半盲自适应单输入多输出滤波结构，包括：

多个滤波器，所述多个滤波器基于包含在所述参考信号中的所述数据，选择性地对来自所述音频信号的所述瞬态噪声进行滤波以提取所述语音数据，并输出包含所提取的语音数据的音频信号；以及

单信道均衡后置滤波器，所述单信道均衡后置滤波器对来自包含所提取的语音数据的所述音频信号的线性失真进行滤波并且输出包含所提取的语音数据的增强音频信号，其中所述单信道均衡后置滤波器包括作为所述多个滤波器中的一个滤波器的近似逆的滤波器。

2.根据权利要求1所述的系统，其中所述多个滤波器中的每个滤波器是宽带有限脉冲响应滤波器。

3.根据权利要求1或2所述的系统，其中所述多个滤波器包括：

自适应前景滤波器；以及

自适应背景滤波器，其中，

所述自适应前景滤波器自适应地对所述瞬态噪声进行滤波以产生所述输出音频信号，以及

所述自适应背景滤波器控制所述前景滤波器的自适应。

4.根据权利要求3所述的系统，其中所述背景滤波器基于包含在所述参考信号中的所述数据来控制所述前景滤波器的所述自适应。

5.根据权利要求3所述的系统，其中所述背景滤波器响应于在所述音频信号中检测到瞬态噪声来控制所述前景滤波器的所述自适应。

6.根据权利要求3所述的系统，其中所述背景滤波器基于以下中的一个或多个来控制所述前景滤波器的所述自适应：所述参考信号的功率、所述参考信号的线性近似与非线性贡献的比率以及与所述参考信号相关联的空间-时间源信号活动数据。

7.根据权利要求1所述的系统，其中在所述音频信号中包含的所述瞬态噪声是从用户设备的键座生成的击键噪声。

8.根据权利要求1所述的系统，其中所述输入传感器和所述参考传感器是麦克风。

9.根据权利要求1所述的系统，其中所述多个滤波器通过从所述参考传感器中减去所述参考信号输入来对来自所述音频信号的所述瞬态噪声进行滤波。

10.一种用于抑制瞬态噪声的方法，所述方法包括：

从多个输入传感器接收从一个或多个源捕获的输入音频信号，其中所述音频信号包含由所述输入传感器捕获的语音数据和瞬态噪声；

从参考传感器接收包含与所述瞬态噪声有关的数据的参考信号，其中所述参考传感器与所述输入传感器分离地定位；

由多个滤波器基于包含在所述参考信号中的所述数据，选择性地对来自所述音频信号的所述瞬态噪声进行滤波以提取所述语音数据；

输出包含所提取的语音数据的音频信号；

由单信道均衡后置滤波器对来自包含所提取的语音数据的所述音频信号的线性失真进行滤波，其中所述单信道均衡后置滤波器包括作为所述多个滤波器中的一个滤波器的近似逆的滤波器；以及

输出包含所提取的语音数据的增强音频信号。

11.根据权利要求10所述的方法，其中使用宽带有限脉冲响应滤波器从所述音频信号中选择性地对所述瞬态噪声进行滤波。

12.根据权利要求10或权利要求11所述的方法，进一步包括：

使前景滤波器进行自适应，以自适应地对所述瞬态噪声进行滤波以产生所述输出音频信号。

13.根据权利要求12所述的方法，进一步包括：

使用背景滤波器来控制所述前景滤波器的自适应。

14.根据权利要求13所述的方法，其中所述背景滤波器基于包含在所述参考信号中的所述数据来控制所述前景滤波器的所述自适应。

15.根据权利要求13所述的方法，其中所述背景滤波器响应于在所述音频信号中检测到瞬态噪声来控制所述前景滤波器的所述自适应。

16.根据权利要求13所述的方法，其中所述背景滤波器基于以下中的一个或多个来控制所述前景滤波器的所述自适应：所述参考信号的功率、所述参考信号的线性近似与非线性贡献的比率、以及与所述参考信号相关联的空间-时间源信号活动数据。

17.根据权利要求10所述的方法，其中在所述音频信号中包含的所述瞬态噪声是从用户设备的键座生成的击键噪声。

18.根据权利要求10所述的方法，其中所述输入传感器和所述参考传感器是麦克风。