CN109478409A

CN109478409A - 用于计算设备的话筒噪声抑制

Info

Publication number: CN109478409A
Application number: CN201780043195.XA
Authority: CN
Inventors: T·乔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-07-11
Filing date: 2017-07-03
Publication date: 2019-03-15
Anticipated expiration: 2037-07-03
Also published as: CN109478409B; EP3482394B1; WO2018013371A1; US20180012585A1; EP3482394A1; US9922637B2

Abstract

公开了一种具有话筒系统的计算设备。该计算设备包括具有环境话筒和噪声话筒的话筒系统。环境话筒拾取环境话筒信号，其包括(1)基于期望的声音的期望信号分量，以及(2)基于来自噪声源的噪声的噪声分量。噪声话筒拾取基于噪声的噪声话筒信号并被配置成，在存在期望的声音的情况下，使得该期望的声音相对于环境话筒而言，对噪声话筒信号的贡献减弱。控制器接收并处理来自噪声话筒信号的时间样本以产生噪声分量的噪声估计。从环境话筒信号中减去估计以产生终端用户输出。

Description

用于计算设备的话筒噪声抑制

背景技术

计算设备通常包括用于捕捉人类语音或其他期望的环境声音的话筒。然而，在一些情况下，物体可能会与计算设备的零件接触，导致耦合到话筒中的振动产生噪声。例如，触控笔通常会产生在话筒的输出中可能显得很突兀的敲击声音，产生对用户想要记录的内容产生分心的恼人的噪声。

附图简述

图1示意性地描绘了具有噪声话筒的示例计算设备，该噪声话筒被配置成估计存在于环境话筒的记录内容中的噪声分量。

图2示意性地描绘了包括图1的话筒系统的示例配置的计算设备。

图3示意性地描绘了包括图1的话筒系统的另一示例配置的图2的计算设备。

图4描绘了用于处理由计算设备(诸如图1-3的计算设备)的话筒系统接收的声音的示例方法。

图5描绘了可与图1-4的设备、系统和方法的各方面结合使用的示例计算设备/系统。

详细描述

计算设备/系统通常包括一个或多个话筒以记录和处理附近的声音。在许多情况下，环境声音包括期望的声音(例如，诸如会议室中在会议期间的人类语音)，以及来自一个或多个噪声源的噪声。在记录中，由话筒拾取的噪声可能是恼人的且使人分心的，并且可能会抑制听见期望的声音的能力。

可能发生此情况的特定场景是装备话筒的设备包括触摸交互式显示器的情况。当手指或触控笔接触显示器，来自手指或触控笔的声音可产生敲击声或振动。由于话筒通常位于显示器表面附近，因此通过显示器传送的振动尤其会在所记录的声音中呈现明显的噪声问题。通常，对同时在周围环境中收听的用户而言，敲击和类似的噪声较少受到关注，因为用户通常相对远离噪声源，并且/或者环境声音主导了房间中收听者的噪声。

另一方面，对于正在被触控笔或其他物体接触的计算设备上的话筒而言，该噪声源可能比环境声音(例如，人类语音)更靠近话筒，并且可能经由往往会放大噪声的传播路径行进(例如，通过触摸屏上的振动防护玻璃罩)。因此，敲击噪声可显著地竞争和干扰由话筒拾取的信号中的期望声音。

本说明书构想了一种与计算设备一起使用的系统，其中多个话筒与多种处理技术一起使用，以抑制在所记录的声音中的不被期望的噪声。尽管来自接触计算设备(例如，触控笔)的物体的噪声是本文描述的许多示例所针对的噪声源，但是各种类型的噪声可被抑制。

本文的各实施例包括用于具有环境话筒和噪声话筒的计算设备的话筒系统，其输出被不同地处理，以便抑制在最终终端用户输出中的不被期望的噪声。环境话筒被配置成拾取环境话筒信号，其包括(1)基于期望的声音的期望信号分量，以及(2)基于来自噪声源的噪声的噪声分量。例如，期望的声音可以是人类语音，而噪声源是触控笔敲击触摸屏。噪声话筒被配置成基于来自噪声源的噪声来拾取噪声话筒信号，即，在此示例中，来自触控笔敲击的噪声。

噪声话筒可被对准、定位或以其他方式被配置，使得敲击噪声相对于其他声音(例如，人类语音)而言占主导地位。例如，噪声话筒可以在计算设备内部，靠近触摸屏的内部背面。实际上，在许多情况下，将期望噪声话筒被配置成使得期望的声音相对于对环境话筒信号的贡献而言，对噪声话筒信号的贡献减弱。例如，可采用各种配置以将噪声话筒与人类语音或其他环境声音相隔离，使得噪声话筒主要拾取触控笔敲击或其他噪声源。

将理解，噪声源在环境话筒和噪声话筒两者的信号中产生噪声贡献。然而，噪声源信号沿着不同的传播路径行进，并因此在各个话筒信号中来自噪声源的贡献通常彼此不同。然而，各贡献确实导出自相同的源(例如，触控笔敲击)，并因此它们通常彼此高度相关。另一方面，期望的环境声音通常与噪声高度不相关。

上述相关性状态——即(1)两个话筒中的噪声贡献通常是高度相关的；且(2)噪声与人类语音或其他期望的声音不相关——可被利用以对环境话筒中的噪声与期望的声音进行区分。具体而言，可采用对样本进行不间断的处理，以便使用噪声话筒信号来估计环境话筒信号中的噪声贡献。更具体地，控制器可处理来自噪声话筒的各种时间样本以产生噪声估计，然后可从环境话筒信号中减去该噪声估计以产生噪声被减轻的终端用户输出。在一些示例中，可采用自适应滤波来使机制收敛于越来越精确的噪声估计，然后可保持该噪声估计直到条件的变化导致诸如噪声的特性的显著变化，在此情况下，滤波器可重置和/或恢复朝向最佳状态的收敛。

现在转向附图，图1描绘了包括话筒系统102、控制器104和触摸交互式显示器106的计算设备100。计算设备100可以以各种不同的形状因子来实现，包括诸如智能电话、平板计算机、膝上型计算机等便携式设备。计算设备100还可被实现为台式计算机、大型触摸设备(例如，壁挂式)或任何其他合适的设备。在典型的实现中，如在所描绘的示例中，计算设备将是触摸设备，但是非触摸配置也是可能的。图5描述了可用计算设备100实现的各种其他特征和组件。具体而言，图5的描述描述了控制器104可在处理硬件逻辑/电路系统中和/或经由执行任何其他类型的指令来实现。

在计算设备100中和计算设备100周围可能发生各种声音，包括期望的声音，诸如发生在会议中的对话、音乐表演、老师教授学生等。图1描绘了例如在使用计算设备100的协作会议期间的人112谈话形式的期望的声音110。来自各种源的不期望的噪声也可能发生。在本示例中，来自噪声源116的噪声114与手指118或触控笔120接触计算设备100的触摸交互式显示器106的外表面106a相关联。

话筒系统102包括环境话筒126和噪声话筒128。尽管两个话筒都在期望声音110和噪声114的范围内，但是它们通常被不同地配置，使得它们以不同方式拾取这些声音。具体而言，如下面将更详细地描述的，噪声话筒被配置成使得相对于期望的声音对环境话筒的贡献而言，期望的声音对噪声话筒的贡献减弱。在一些示例中，噪声话筒在一定程度上与期望声音隔离，例如通过将噪声话筒外壳在计算设备100内，使得噪声话筒主要拾取在显示堆栈的背面上的触控笔敲击振动。在其他情况下，可在计算设备100的外部使用特殊改装的话筒，使得该特殊改装的话筒主要捕捉噪声114并最小化期望的声音。

环境话筒126拾取环境话筒信号140，在本文中有时也称为x(n)，其中(n)表示特定时间，使得x(n)是在时间n时的环境话筒信号140的样本。在一些情况下，环境话筒信号将用x(__)表示为对信号的一般参考(即，不针对特定时间)。本文将使用类似的符号表示其他时间样本/信号。环境话筒信号x(n)包括基于期望声音110的期望信号分量142(也称为s(n))和基于噪声114的噪声分量144(本文也称为n_o(n))。噪声话筒128基于噪声114拾取噪声话筒信号146(也称为n_i(n))。在一些情况下，期望声音110可能会对噪声话筒信号n_i(n)做出非平凡贡献，但是通常会存在某种类型的隔离以使得噪声将是更重要的贡献者。

根据上文，将理解，如果环境话筒信号x(n)被直接输出(例如，输出到远程参与者)，则它将包括使人分心的噪声分量n_o(n)。因此，本系统和方法意味着使用来自噪声话筒128的输出来估计n_o(n)并抑制/消除环境话筒信号x(n)中的n_o(n)。在与显示有关的声音的情况下，这可显著改善用户体验，因为那些声音可能很大，特别是在通过振动防护玻璃罩或显示设备的其他振动结构的传播路径的情况下。

控制器104可对各种输入进行处理和响应以便估计和抑制环境话筒信号x(n)中的噪声。在一些情况下，这可能意味着使用输出噪声估计152(也称为y(n))的自适应滤波器150，如稍后将解释的。在任何情况下，控制器的输入和输出都可如下：控制器接收x(n)(环境话筒信号140)和n_i(n)(噪声话筒信号146)，并输出终端用户输出154(也称为e(n))。终端用户输出154是为用户消费(例如，后续回放或同期传输给远程用户)而提供的噪声抑制输出信号。通常，控制器可处理噪声话筒信号146的多个时间样本n_i(__)以产生当前时间样本噪声分量n_o(n)的当前时间样本噪声估计y(n)。换言之，当前噪声估计不仅可基于n_i(n)，还可基于噪声话筒信号n_i(__)的一个或多个先前样本。例如，控制器可处理n_i(__)的四个样本：[n_i(n)，n_i(n-1)，n_i(n-2)，n_i(n-3)]。换言之，为了导出噪声估计y(n)，当前时间的样本被处理，n_i(__)的三个在先时间样本也被处理——其以任何期望的频率进行采样。由于在不同传播路径上行进的噪声具有相关联的不同的时间延迟，n_i(__)的在先时间样本通常对当前时间分量n_i(n)有贡献。换言之，噪声时间样本n_i(n-3)与n_i(n-2)相比，到当前时间的传播/延迟路径更长。在一些示例中，可不采用当前样本，而仅使用先前时间样本。此外，不需要使用连续的时间样本——可跳过/省略过去样本中的一个或多个。

在任何情况下，如控制器描绘中所示，可通过从环境话筒信号x(n)中减去噪声估计y(n)(例如，经由加和器160)来导出终端用户输出e(n)。在一些示例中，经由(例如，向自适应滤波器150)反馈终端用户输出e(n)来实现控制器的自适应行为，以便动态地调谐噪声估计y(n)。

自适应滤波器150可被配置成处理噪声话筒信号n_i(__)的多个时间样本，以产生环境话筒信号x(n)中的噪声分量n_o(n)的噪声估计y(n)。自适应滤波器150还可以以自适应滤波器150处理时间样本以产生噪声估计的方式动态更新。如前所述，可假设期望信号分量s(n)与噪声分量n_o(n)或噪声话筒信号n_i(n)不相关。另一方面，由于噪声分量n_o(n)和噪声话筒信号n_i(n)导出自相同的源(例如，触控笔敲击声)，因此它们可能彼此高度相关，即使它们通过不同的传播路径到达各个话筒处。因此，可应用滤波器来估计环境话筒信号x(n)中的噪声。

可采用各种不同的滤波器。在一些示例中，系数被应用于噪声话筒信号的不同的时间样本，诸如将系数应用于n_i(n)、n_i(n-1)、n_i(n-2)等。在一些示例中，系数被应用于线性滤波器的实现中。例如，噪声估计y(n)(即，时间n处的噪声估计)可如下导出：

y(n)＝w*n _i (1)

其中w是系数集，而n _i是应用该系数的一组噪声话筒信号样本。给定N个系数(N阶滤波器)，y(n)如下：

y(n)＝w₀*n_i(n)+w₁*n_i(n-1)+w₂*n_i(n-2)…w_N-1*n_i(n-N+1) (2)

将理解，可对任何数量的样本采用任何数量的系数。由于各种因素，诸如噪声的位置和类型以及噪声话筒的放置，噪声水平可能因较长的延迟路径而显著下降。这因此可能会影响关于滤波器的阶数的决定(即，要处理多少个在先样本)。在一些情况下，可能期望具有较低阶数的滤波器以简化处理。而且，尽管可能会采用不同类型的滤波器，但由于线性滤波器计算/处理更简单，许多设置可能期望线性滤波器。如下面将更详细描述的，在一些示例中，在操作期间(例如，经由控制器104的操作)可动态地调谐滤波器的阶数。

在一些实现中，由于期望信号分量s(n)与噪声分量n_o(n)和噪声话筒信号n_i(n)不相关，因此系数集w可被选择以最小化均方误差：

E(e(n)²)＝E((x(n)–y(n))²), (3)

其中E(x)表示信号x的期望。这意味着

E(n_i(n-k)e(n))＝0, (4)

其中k＝[0,1,2，...，N-1]。在此情况下，输出e(n)与噪声n_i(n)不相关，这意味着噪声n_o(n)从环境话筒信号x(n)中(至少显著地)消除。

如果噪声传播模式是确定性的，则可采用非自适应滤波器，其中期望的滤波器系数被预先计算。例如，一些装备(例如，示波器)可被用于捕捉来自两个话筒的信号，以便在设计时间期间找到最佳解决方案。然而，在许多设置中，噪声和噪声传播模式可能显著变化(由于不同的触控笔、不同的用户、或在计算设备上运行的不同的应用，仅举几个示例)。因此，自适应滤波器150可被采用，并被配置成动态更新(例如，经由控制器104的操作)以改变自适应滤波器150处理噪声话筒信号的时间样本来获得噪声估计的方式。如上文提及的，在一个实现中，通过将终端用户输出e(n)反馈给控制器和自适应滤波器150来实现动态更新。

在一个示例中，应用于噪声话筒信号的时间样本的滤波器系数可被动态更新。一个示例是如下的最小均方更新：

w(n+1)＝w(n)+μ*n _i*e(n), (5)

其中w(n)是在时间n处设置的当前系数，w(n+1)是在时间n+1处设置的更新系数。如μ因子所指示的，可经由步长来更新系数以调谐它们从一个周期到另一个周期的变化速度。将从上文理解，e(n)和n _i的乘积被用作反馈以调谐针对下一输入样本的系数。当滤波器收敛时，应当理解，基本上，y(n)＝n_o(n)和e(n)与n _i不相关。因此，平均而言，e(n)*n _i＝0并且系数根据上述等式(5)保持稳定。

在操作期间，可能出现干扰系数已收敛或变得高度稳定的情况的条件。在一个示例中，噪声分量之间的关系可以改变。例如，噪声分量n_o(n)和噪声话筒信号n_i(n)之间的关系可能会发生显著变化，或者，无论关系如何变化，这些分量中的一者或两者可能显著地变化。例如，如果不同的用户正在操作触控笔，或者如果设备上运行的软件要求以不同的方式操作触控笔(更响亮、更柔和、不同的敲击声)，则可能发生这种情况。

在此改变条件的示例中，当前系数集可首先产生相对不期望的噪声估计。换言之，噪声估计y(n)可能与噪声分量n_o(n)显著不同，在此情况下，剩余的终端用户输出e(n)＝x(n)-y(n)仍将与n_i(n)高度相关(即，终端用户输出是有噪声的)，这将导致系数被推回到最佳或更佳的值(例如，根据上述等式(5))。并且，如上文所指示的，滤波器可被配置成控制系数变化的步长，以便理想地控制滤波器系数的收敛速度、稳定时间等。将进一步理解，考虑到终端用户输出e(n)与n_i(n)高度相关，前期变化的速度可能更高。换言之，在本示例中，相关性越高，终端用户输出e(n)中存在的噪声就越多，并进而滤波器将更积极地收敛。

在系数实现中，系数可被初始化为特定值。例如，这可能在启动时发生。可基于预期的平均噪声值来选择初始化系数。例如，可使用跨一系列场景的工程期间测试来导出键入经学习的噪声分布的系数。出于各种原因，系数重置可能发生在操作期间，在这种情况下，滤波器对系数的自然调整被重置值(例如，用于启动的重置值)所覆盖。例如，当噪声特性存在很大变化时，这种情况可能会发生。可经由观察环境话筒信号x(n)中的噪声分量n_o(n)与噪声话筒信号n_i(n)之间的关系的变化来执行对这些变化的检测。其他检测也可导致系数重置。例如，滤波器操作可以在启动新应用、切换到不同应用、检测来自不同用户的触控笔输入等等之际被重置。当参数被采用时，系数重置可以基于阈值(例如噪声的阈值变化)、n_o(n)和n_i(n)之间的关系等等。

使用线性滤波器进行自适应滤波(其中系数经由最小均方来调整)仅是一个示例。可采用非线性滤波器。可以应用递归方法，例如递归最小二乘机制。其他类型的处理可被使用，其中函数或多个不同的函数被应用于噪声话筒信号n_i(n)的多个不同的入站样本中。

从上文将理解，除了可能的其他功能，控制器104执行：(1)噪声消除——例如，从环境话筒信号140中减去噪声估计；以及(2)动态更新——例如，更新控制器104处理样本以调谐其噪声估计的方式(例如，通对滤波器系数进行自适应更新)。

在一些示例中，控制器104被配置成选择性地启用和禁用动态更新，例如，自适应滤波器150的滤波器系数的动态更新。在一些情况下，响应于检测到条件而执行选择性启用/禁用。此类条件的一个示例是检测到噪声话筒信号低于阈值。将理解，自适应滤波器150的动态操作被部分地用于了解来自噪声源116的噪声。如果不存在此类噪声，或者如果此类噪声低于某个最小阈值，则持续动态更新可以以在未来时刻实际上存在非平凡噪声时可能无益的方式自适应地移位处理。换言之，可能没有噪声分量可被用于训练滤波器系数或其他动态处理方面。在其他示例中，检测到的条件或条件缺失可包括确定触控笔或手指是否与触摸表面接触(例如，经由触摸传感器或另一机制检测“向上”和“向下”事件)。具体而言，一个示例是当触摸传感器记录接触事件时开启自适应学习。

上文提供了可控制动态更新的条件的具体示例(例如，训练自适应滤波器150)。一般而言，以下四个条件可被用于确定控制器104和自适应滤波器150的操作状态：

(1)噪声话筒信号146低于阈值且环境话筒信号140低于阈值；

(2)噪声话筒信号146低于阈值且环境话筒信号140高于阈值；

(3)噪声话筒信号146高于阈值且环境话筒信号140低于阈值；以及

(4)噪声话筒信号146高于阈值且环境话筒信号140高于阈值。

如上文提及的，可能期望在噪声话筒信号强度较低的情况(1)和(2)中禁用自适应学习。在一些实现中，可使用对上述各条件中的一者或多者的检测来确定是否执行噪声消除，即，从环境话筒信号x(n)中减去噪声估计y(n)。例如，当噪声强度较低时(上文的情况(1)和(2))，可能期望关闭噪声消除。另一方面，在这些情况下，仍可能期望保持噪声消除激活。这是因为自适应滤波器输出可能包括诸如白噪声之类的一定量的背景噪声。因此，当噪声消除被开启时，远程用户或收听经记录的输出的人可能听到更大量的背景噪声。这可能听起来比非常寂静的输出更自然(例如，缺失背景噪声可能导致远程用户认为连接失败，或者可能因重复启用和禁用噪声消除而产生不期望的声音伪像)。因此，噪声消除功能可以始终被启用，或者如果关闭，则可将经生成/经记录的背景噪声添加到环境话筒信号x(n)，使得它出现在终端用户输出e(n)中。

上文的情况(3)可呈现启用动态更新过程的期望机会，通过该动态更新过程，控制器104调谐其产生噪声估计的方式。具体而言，环境声音的缺失可改善训练的质量(例如，对滤波器系数进行更新)。在此情况下，存在较少对信号有贡献的环境声音，并且调谐操作的输入因此与自适应滤波器所“学习”的内容更加一致。

如上文所指示的，自适应滤波器150可具有阶数(即阶数N)，其是指用于缩放噪声话筒信号的各种时间样本n_i(__)的系数的数量。各种考虑因素可能会影响对滤波器的阶数的选择。在一些示例中，自适应滤波器的阶数可在设计时被固定，例如利用以硬件实现的算法。具体而言，由于传播损耗，噪声源与话筒之间的传播距离在某些情况下会大大降低噪声功率。因此，只有前几个传播路径(即时间n处的样本和相对较少数量的在先样本n-1、n-2)才需要系数缩放。在其他情况下，更大的阶数可能是合适的，虽然这可能涉及接受更强烈、耗时的处理的权衡。

在其他实现中，控制器104可被配置成动态地选择滤波器的阶数。可执行动态学习过程，其中不同的阶数被应用于信号路径以评估性能。在一些示例中，一系列阶数可被应用于信号，并且可评估每个阶数的性能以标识提供足够的期望性能的一个或多个阶数(例如，低于某个阈值的终端用户输出154)。一种方式涉及从满足阈值的一个或多个阶数中选择最低阶数滤波器。一般而言，如果两个滤波器提供足够的性能，则可能期望选择较低的阶数。如上文所提及的，较低阶数可能涉及较少的计算复杂度。而且，这可降低过度拟合的可能性——即，次优地消除期望的声音。

响应于检测到噪声话筒信号146高于阈值并且环境话筒信号低于阈值(即，上文提到的情况(3))，上述对滤波器的阶数的动态选择可被提供。由于缺失或存在极少的期望声音110，这可能是有益的。在此类情况下，对滤波器的操作的重大改变可能对终端用户(即终端用户输出e(n)的消费者)具有较小或不太明显的影响。在一些示例中，动态阶数选择在启动时发生一次，然后在整个操作中使用相同的阶数；在其他情况下，阶数选择可在运行时间期间被调谐。

总结如何触发功能的选项：

(1)对自适应滤波器进行动态更新(例如，可根据是否存在显著噪声来开启/关闭学习系数)。可在噪声高于阈值时执行更新(例如，在噪声话筒信号146中)，并且在噪声低于阈值时禁用更新。在其他示例中，无论噪声状态如何都可持续更新。

(2)噪声减除(滤波)可被触发以在噪声话筒信号146高于阈值时操作，而在噪声话筒信号146低于阈值时关闭。然而，如上文所指示的，当期望即使在缺失显著噪声的情况下持续滤波时，可能存在与背景噪声有关的情况。当噪声低于阈值时，其他因素也可能会影响持续滤波的决定。

(3)当期望的声音和噪声两者都显著存在时，将通常期望动态更新滤波器并消除噪声。在其他情况下，在仅存在噪声时对滤波器的动态更新可被保留，因为这可能更有利于系数的有效学习。

(4)在仅存在噪声时可通过可在其他时间实现对滤波器的阶数的动态调谐来执行对滤波器的阶数的动态选择。

图2描绘了示例计算设备200，包括具有外表面204的触摸交互式显示器202。类似于图1的显示器106，各种触摸输入可被施加到外表面204，从而产生不期望的噪声。计算设备200包括外壳206、环境话筒208和外壳206内的噪声话筒210。话筒208向外指向左侧，并因此有利地定位以拾取人类语音和其他期望的环境信号。两个话筒可对应于参考图1描述的话筒，并且可如参考控制器104所描述的那样处理由那些话筒拾取的信号。该图具体地描绘了一种减少非噪声信号成为对由噪声话筒210接收到的信号的重要贡献者的布置。具体而言，外壳206在某种程度上将噪声话筒210与人类语音和其他期望的环境声音(例如，图1的期望信号分量142)相隔离。在一些设置中，将噪声话筒聚焦于噪声源(例如，触控笔敲击)以便降低非噪声贡献可增强对诸如自适应滤波器150之类的自适应滤波器的使用以生成精确的噪声估计。

图3描绘了具有包括环境话筒302和噪声话筒304的替换话筒系统的计算设备200。如图2所示，环境话筒被配置以便有利地拾取人类语音和其他期望的声音。同样如图2所示，可如参考图1所讨论的那样处理这些话筒及其信号。在此示例中，噪声话筒304比环境话筒302更朝向噪声源(例如，在外表面204上敲击)，环境话筒302是全向的和/或向外(朝左)对准人类语音和其他期望的声音可能来自的地方。噪声话筒可以以各种方式被安装(安装未示出)，以使其适合于从噪声源拾取显著的信号功率。如先前示例所述，该实现在期望的声音存在于噪声话筒信号146中(图1)的情况下可提供用于使期望的声音相对于它们对环境话筒信号140的贡献减弱的机制，从而使该噪声话筒信号路径能够更有效地用于生成噪声估计。在一些示例中，可针对噪声话筒304采用各种定向话筒模式(心形、超心形、霰弹枪(shotgun)等)，以便生成主要聚焦于噪声的噪声话筒信号，其具有最小的非噪声或环境声音。一般而言，根据上文，将理解噪声话筒可以用聚焦于噪声源的定向特征/配置来实现，例如聚焦于其诸如触摸屏的某些部分、外壳或传送噪声相关振动的其他部件之类的位置。

现在参考图4，该图描绘了用于处理由计算设备的话筒系统接收的声音的方法。该描述有时将参考参照图1-3描述的系统，但是将理解，除了那些系统之外或代替那些系统可采用各种不同的配置。

在400处，该方法包括从环境话筒接收环境话筒信号。环境话筒信号包括基于期望的声音的期望信号分量，以及基于来自噪声源的噪声的噪声分量。在一些设置中的噪声源可以与触控笔、笔、手/手指/拇指或与触摸交互式显示器或计算设备的其他部分接触的其他物体相关联。期望信号分量可以与人类语音、音乐或用户希望在经记录的音频信号中听到的任何其他合适的内容相关联。

在402处，该方法包括从噪声话筒接收噪声话筒信号。通常，噪声话筒被配置成使得与环境话筒相比，噪声话筒与期望的声音至少相对隔离。换言之，期望的声音(如果存在)对噪声话筒信号的贡献相对于其在环境话筒信号中的存在而言减弱。如在上文各示例中那样，噪声话筒可经由外壳被隔离，具有将其聚焦于噪声源的定向特征，或以其他方式被配置成使得其信号强调噪声源而不是人类语音或其他期望的环境声音。

如在上述系统示例中，该方法可包括接收和处理噪声话筒信号的多个时间样本以产生环境话筒信号中的噪声分量的噪声估计。可结合这些时间样本采用自适应滤波。实际上，如404处所示，该方法可包括使用自适应滤波器来处理噪声话筒信号的多个时间样本以产生环境话筒信号中的噪声分量的噪声估计。如406处所示，这可包括将系数应用于时间样本。

如408处所示，该方法可包括从环境话筒信号中减去经计算的噪声估计以产生终端用户输出。此类输出可被传送到远程用户，在话筒正在拾取各个信号时被各个用户同时消费，等等。在任何情况下，在许多设置中，触控笔敲击和类似的声音都可从环境话筒接收到的信号中显著减少。

如410处所示，该方法可包括动态更新计算噪声估计的方式。具体而言，自适应滤波器可以以自适应滤波器处理噪声话筒信号的时间样本以产生其对环境话筒信号中的噪声分量的噪声估计的方式动态更新。如412处所示，这可包括动态更新自适应滤波器系数。如上文所讨论的，可采用最小均方和/或递归最小二乘法来使系数朝向最佳值收敛。如414处所示，该方法还可包括响应于一个或多个条件禁用自适应滤波器的动态更新。一个具体条件是检测到噪声话筒信号低于阈值。如上文所描述的，如果不存在显著噪声，则可能不期望训练自适应滤波器。

在一些实施例中，本文中所描述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言，这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库、和/或其他计算机程序产品。

图5示意性地示出了可执行上述方法和过程中的一个或多个的计算系统500的非限制性实施例。以简化形式示出了计算系统500。计算系统500可采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)、和/或其他计算设备。在许多示例中，如上文所描述的，计算系统通常将包括触摸屏或其他组件，当与触控笔或其他物体接触时，该触摸屏或其他组件将振动以便将不期望的噪声耦合到一个或多个话筒中。

计算系统500包括逻辑机502和存储机504。计算系统500还可包括显示子系统506、输入子系统508和/或在图5中未示出的其他组件。

逻辑机502可对应于和/或用于实现图1的控制器104和其噪声估计/减除以及动态更新。逻辑机502包括被配置成执行指令的一个或多个物理设备。例如，逻辑机可被配置成执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其他逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个组件的状态、实现技术效果、或以其他方式得到期望结果。

逻辑机可包括被配置成执行软件指令的一个或多个处理器。例如，参考图1和4描述的各种功能可通过软件、硬件和/或固件指令被实现。附加地或替换地，逻辑机可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核，且在其上执行的指令可被配置成用于串行、并行、和/或分布式处理。逻辑机的各个个体组件可任选地分布在两个或更多分离的设备上，这些设备可位于远程和/或被配置成用于协同处理。逻辑机的各方面可由按云计算配置来被配置的能远程地访问的联网计算设备来被虚拟化和执行。

存储机504包括被配置成保持能由逻辑机执行以实现本文中所描述的方法和过程的指令的一个或多个物理设备。当实现这些方法和过程时，可以变换存储机504的状态(例如，以保持不同的数据)。

存储机504可包括可移除和/或内置设备。存储机504可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)、和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)，等等。存储机504可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址、和/或内容可寻址设备。

应当领会，存储机504包括一个或多个物理设备。然而，本文中所描述的指令的各方面可替代地通过不由物理设备在有限持续时间内保持的通信介质(例如，电磁信号、光信号等)来传播。

逻辑机502和存储机504的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

术语“模块”、“程序”和“引擎”可被用来描述被实现来执行特定功能的计算系统500的一方面。在一些情形中，可以经由执行被存储机504保持的指令的逻辑机502来实例化模块、程序或引擎。将理解，不同的模块、程序、和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等实例化。类似地，相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语“模块”、“程序”和“引擎”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

将会领会，如本文中所使用的“服务”是能跨多个用户会话执行的应用程序。服务可用于一个或多个系统组件、程序、和/或其他服务。在一些实现中，服务可以在一个或多个服务器计算设备上运行。

当包括显示子系统506时，显示子系统506可被用来呈现由存储机504保持的数据的视觉表示。该视觉表示可采取图形用户界面(GUI)的形式。由于本文中所描述的方法和过程改变了由存储机保持的数据，并由此变换了存储机的状态，因此同样可以转变显示子系统506的状态以视觉地表示底层数据中的改变。显示子系统506可包括使用实质上任何类型的技术的一个或多个显示设备。可将这样的显示设备与逻辑机502和/或存储机504组合在共享外壳中，或者这样的显示设备可以是外围显示设备。

输入子系统508可包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中，输入子系统可包括所选择的自然用户输入(NUI)部件或与其对接。此类部件可以是集成的或外围的，并且输入动作的换能和/或处理可以在板上或板外被处置。示例NUI部件可包括用于语音和/或话音识别的话筒；用于机器视觉和/或姿势识别的红外、色彩、立体、和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计、和/或陀螺仪；以及用于评估脑部活动的电场感测部件。结合前述示例，输入子系统508可包括具有噪声话筒和环境话筒的话筒系统。可如前文所描述的处理由这些话筒拾取的信号以估计和减去来自环境话筒信号的噪声。

在一个示例中，本公开涉及一种具有话筒系统的计算设备，该话筒系统包括环境话筒、噪声话筒、控制器和加和器。环境话筒被配置成拾取环境话筒信号，该环境话筒信号包括基于期望的声音的期望信号分量和基于来自噪声源的噪声的噪声分量。噪声话筒被配置成拾取基于来自噪声源的噪声的噪声话筒信号，其中噪声话筒被配置成在存在期望的声音的情况下，使得期望的声音相对于对环境话筒信号的贡献而言，对噪声话筒信号的此类贡献减弱。控制器被配置成接收和处理噪声话筒信号的多个时间样本以产生噪声分量的噪声估计。加和器被配置成从环境话筒信号中减去噪声估计以产生终端用户输出。

在此示例中，控制器可包括自适应滤波器，该自适应滤波器被配置成处理噪声话筒信号的多个时间样本以产生噪声估计，该自适应滤波器进一步被配置成以其处理噪声话筒信号的时间样本来产生噪声估计的方式动态更新。动态更新可基于终端用户输出到控制器的反馈。自适应滤波器可被配置成将系数应用于噪声话筒信号的多个时间样本中的每一个时间样本以产生噪声估计，并且其中动态更新包括对系数中的一个或多个系数进行更新。更新可经由最小均方或递归最小二乘滤波器/机制发生。

在此示例中，控制器可被配置成响应于检测到条件而选择性地启用和禁用对自适应滤波器的动态更新，这可包括检测到噪声话筒信号低于阈值。

在此示例中，控制器可被配置成动态地选择自适应滤波器的阶数，并且此类动态选择可通过检测到噪声话筒信号高于阈值并且环境话筒信号低于阈值而被触发。

在此示例中，控制器可被配置成响应于检测到条件，禁用来自环境话筒信号的噪声估计减除。

在此示例中，计算设备可包括外壳，其中环境话筒位于外壳外，并且其中噪声话筒位于外壳内，和/或噪声话筒可具有聚焦于噪声源的位置的定向配置。

在另一示例中，本公开涉及一种用于处理由计算设备的话筒系统接收的声音的方法。该方法包括：(1)接收来自环境话筒的环境话筒信号，该环境话筒信号包括基于期望的声音的期望信号分量和基于来自噪声源的噪声的噪声分量；(2)接收来自噪声话筒的噪声话筒信号，该噪声话筒被配置成，在存在期望的声音的情况下，使得该期望的声音相对于对环境话筒信号的贡献而言，对噪声话筒信号的此类贡献减弱；(3)使用自适应滤波器处理噪声话筒信号的多个时间样本以产生噪声分量的噪声估计；(4)从环境话筒信号中减去噪声估计以产生终端用户输出；以及(5)动态更新自适应滤波器以更新其处理噪声话筒信号的时间样本来产生噪声估计的方式。

在此示例中，使用自适应滤波器来处理噪声话筒信号的多个时间样本可包括将系数应用于多个时间样本中的每一个时间样本，系数基于终端用户输出到自适应滤波器的反馈而动态更新。

在此示例中，此方法可进一步包括响应于检测到噪声话筒信号低于阈值而禁用对自适应滤波器的动态更新。

在此示例中，该方法可进一步包括响应于检测到噪声话筒信号高于阈值并且环境话筒信号低于阈值而动态地选择自适应滤波器的阶数。

在又一示例中，本公开涉及一种具有话筒系统的计算设备。该计算设备包括：(1)环境话筒，该环境话筒被配置成拾取环境话筒信号，该环境话筒信号包括基于期望的声音的期望信号分量和基于来自噪声源的噪声的噪声分量；(2)噪声话筒，该噪声话筒被配置成拾取基于来自噪声源的噪声的噪声话筒信号，其中该噪声话筒被配置成在存在期望的声音的情况下，使得期望的声音相对于对环境话筒信号的贡献而言，对噪声话筒信号的此类贡献减弱；(3)控制器，该控制器包括自适应滤波器，该自适应滤波器被配置成接收并处理噪声话筒信号的多个时间样本以产生噪声分量的噪声估计，该自适应滤波器被配置成以其处理噪声话筒信号的时间样本来产生噪声估计的方式动态更新；以及(4)加和器，该加和器被配置成从环境话筒信号中减去噪声估计以产生终端用户输出。在此示例中，控制器被配置成响应于检测到噪声话筒信号低于阈值而禁用对自适应滤波器的动态更新。

在此示例中，控制器可被配置为动态地选择自适应滤波器的阶数，并且计算设备可包括外壳，其中环境话筒处于外壳外而噪声话筒处于外壳内。

应当理解，本文中所描述的配置和/或方式本质上是示例性的，且这些具体实施例或示例不应被视为具有限制意义，因为许多变体是可能的。本文中所描述的具体例程或方法可表示任何数量的处理策略中的一个或多个。由此，所例示和/或所描述的各种动作可以以所例示和/或所描述的顺序执行、以其他顺序执行、并行地执行，或者被省略。同样地，以上所描述的过程的次序可被改变。

本公开的主题包括本文中所公开的各种过程、系统和配置以及其他特征、功能、动作、和/或属性的所有新颖和非显而易见的组合和子组合，以及其任何和所有等同物。

Claims

1.一种具有话筒系统的计算设备，包括：

环境话筒，所述环境话筒被配置成拾取环境话筒信号，所述环境话筒信号包括基于期望的声音的期望信号分量和基于来自噪声源的噪声的噪声分量；

噪声话筒，所述噪声话筒被配置成拾取基于来自所述噪声源的所述噪声的噪声话筒信号，其中所述噪声话筒被配置成在存在所述期望的声音的情况下，使得所述期望的声音相对于对所述环境话筒信号的贡献而言，对所述噪声话筒信号的此类贡献减弱；

控制器，所述控制器被配置成接收和处理所述噪声话筒信号的多个时间样本以产生所述噪声分量的噪声估计；以及

加和器，所述加和器被配置成从所述环境话筒信号中减去所述噪声估计以产生终端用户输出。

2.如权利要求1所述的计算设备，其特征在于，所述控制器包括自适应滤波器，所述自适应滤波器被配置成处理所述噪声话筒信号的所述多个时间样本以产生所述噪声估计，所述自适应滤波器进一步被配置成以其处理所述噪声话筒信号的时间样本来产生所述噪声估计的方式动态更新。

3.如权利要求2所述的计算设备，其特征在于，所述动态更新基于所述终端用户输出到所述控制器的反馈。

4.如权利要求2所述的计算设备，其特征在于，所述自适应滤波器被配置成将系数应用于所述噪声话筒信号的所述多个时间样本中的每一个时间样本以产生所述噪声估计，并且其中所述动态更新包括对所述系数中的一个或多个系数进行更新。

5.如权利要求4所述的计算设备，其特征在于，所述系数经由最小均方机制被更新。

6.如权利要求4所述的计算设备，其特征在于，所述系数经由递归最小二乘滤波器被更新。

7.如权利要求2所述的计算设备，其特征在于，所述控制器被配置成响应于检测到条件，选择性地启用和禁用对所述自适应滤波器的所述动态更新。

8.如权利要求7所述的计算设备，其特征在于，所述控制器被配置成响应于检测到所述噪声话筒信号低于阈值而禁用对所述自适应滤波器的所述动态更新。

9.如权利要求2所述的计算设备，其特征在于，所述控制器被配置成动态地选择所述自适应滤波器的阶数。

10.如权利要求9所述的计算设备，其特征在于，所述控制器被配置成响应于检测到所述噪声话筒信号高于阈值并且所述环境话筒信号低于阈值而对所述自适应滤波器的阶数执行所述动态选择。

11.如权利要求2所述的计算设备，其特征在于，所述控制器被配置成响应于检测到条件，禁用来自所述环境话筒信号的噪声估计减除。

12.如权利要求1所述的计算设备，其特征在于，进一步包括外壳，其中所述环境话筒位于所述外壳外，并且其中所述噪声话筒位于所述外壳内。

13.如权利要求1所述的计算设备，其特征在于，所述噪声话筒具有聚焦于所述噪声源的位置的定向配置。

14.一种处理由计算设备的话筒系统接收的声音的方法，包括：

接收来自环境话筒的环境话筒信号，所述环境话筒信号包括基于期望的声音的期望信号分量和基于来自噪声源的噪声的噪声分量；

接收来自噪声话筒的噪声话筒信号，所述噪声话筒被配置成，在存在所述期望的声音的情况下，使得所述期望的声音相对于对所述环境话筒信号的贡献而言，对所述噪声话筒信号的此类贡献减弱；

使用自适应滤波器处理所述噪声话筒信号的多个时间样本以产生所述噪声分量的噪声估计；

从所述环境话筒信号中减去所述噪声估计以产生终端用户输出；以及

动态更新所述自适应滤波器以更新其处理所述噪声话筒信号的时间样本来产生所述噪声估计的方式。

15.如权利要求14所述的方法，其特征在于，使用所述自适应滤波器来处理所述噪声话筒信号的所述多个时间样本包括将系数应用于所述多个时间样本中的每一个时间样本，所述系数基于所述终端用户输出到所述自适应滤波器的反馈而动态更新。