CN104685903A

CN104685903A - 用于音频干扰估计的方法和设备

Info

Publication number: CN104685903A
Application number: CN201380052791.6A
Authority: CN
Inventors: P.科奇奇安
Original assignee: Koninklijke Philips Electronics NV
Current assignee: MediaTek Inc
Priority date: 2012-10-09
Filing date: 2013-10-04
Publication date: 2015-06-03
Anticipated expiration: 2033-10-04
Also published as: US20150271616A1; RU2015117617A; EP2907323A1; BR112015007625A2; JP2015535962A; EP2907323B1; US9591422B2; JP6580990B2; CN104685903B; WO2014057406A1; RU2651616C2; BR112015007625B1

Abstract

一种设备包括从麦克风（201）接收麦克风信号的接收机（203），其中麦克风信号包括与音频测试信号相对应的测试信号分量。分割器（215）将麦克风信号分成多个测试间隔信号分量，其中每一个测试间隔信号分量在时间间隔中对应于麦克风信号。集合处理器（217）生成测试间隔信号分量的集合，并且相似性处理器（219）为每一个集合生成相似值。干扰估计器（221）为个别测试间隔信号分量确定干扰量度，以响应相似值。干扰量度可以用于选择信号段，而信号段能够用于适配应用于麦克风信号的音频处理算法，例如，诸如语音增强或回声消除。该方案可以允许在保持低复杂性的同时生成可靠的干扰估计。

Description

用于音频干扰估计的方法和设备

技术领域

本发明涉及音频干扰估计并且尤其但是不完全涉及包括麦克风信号的干扰估计的考虑的音频处理的适配（adaptation）。

背景技术

音频系统一般地依据与其中使用这些音频系统的声学环境有关并且与所牵涉的仪器的属性有关的某些一般性假定来研制。然而，在其中使用这些音频系统的实际环境以及在许多情况下仪器的特性可能显著地变化。相应地，许多音频系统和应用包括用于针对当前操作特性进行适配的功能。具体地，许多音频系统包括用于校准系统并针对例如在其中使用这些系统的特定声学环境来适配系统的功能。这样的适配可以定期执行，以便考虑到随时间的变化。

实际上，在许多应用中并且尤其在与用于话音通信的语音增强系统相关的应用中，例如，与算法相关的参数针对特定器件(device)及其硬件的特性诸如（一个或多个）麦克风、（一个或多个）扬声器等等的特性进行适配。虽然自适应信号处理技术存在以便在器件的正常操作期间执行这样的适配，但是在许多情况中不得不在生产期间在一般在其中只有相关信号存在的受控的例如安静的环境中执行的特殊校准会话中估计某些参数（尤其是这些自适应技术所依赖的参数）。

能够在接近于理想条件下执行这样的校准。然而，当在使用环境中执行这种适配时，由此产生的系统性能可能降级。在这样的环境中，本地干扰诸如语音和噪声时常可能存在。

例如，包含能够依附于电视的一个或多个麦克风并且进一步被安排为使用电视的扬声器和板载处理（onboard processing）的通信附件在生产期间不能被调谐/适配/校准，这是因为相关的硬件取决于它与之一起使用的特定电视。因此，适配必须由用户在他或她自己的家中执行，而在其家中噪声条件可以导致不良适配的系统。

作为特定示例，许多通信系统时常结合其他的器件来使用或在一系列不同的声学环境中使用。一个这样的器件的示例是具有用于基于电视的因特网电话服务的内置式麦克风的免提通信附件。这样的器件可以被安装在电视上或被安装在电视附近并且也能够包括摄像机以及数字信号处理单元，从而允许直接地经由电视来使用软件，以便连接到其他的器件和实施双向或多方通信。在研制这样的附件时的挑战是它可以与之一起使用的宽范围的电视以及在其中它应该能够提供令人满意的性能的声学环境的变化。

电视机中的音频再生链以及在其中使用电视机的环境影响所产生的声音的声学特性。例如，一些电视在音频链中使用较高保真度组件，诸如能够在宽的动态输入范围上线性操作的更佳扬声器，而其他的电视对接收到的音频信号诸如模拟环绕声和低音增强应用非线性处理或动态范围压缩。此外，电视的音频输出可以被馈送至家庭音频系统，其中电视的扬声器被静音（mute）。

语音增强系统对捕获的（一个或多个）（麦克风）信号应用信号处理算法，诸如声学回声消除、噪声抑制和去混响，并将干净语音信号传送至远端呼叫参与者。语音增强寻求改善声音质量，例如，以便减少与长对话相关联的收听者疲劳（fatigue）。这样的语音增强的性能可以取决于所牵涉的仪器和音频环境的各种特性。

这样的器件被用在这样的宽范围的情形中的事实使之难以提供一贯表现良好的语音增强系统。因此，一般在器件初始化期间和/或在系统检测到差的语音增强性能时的运行时间期间适配/调谐语音增强系统。大多数的适配例程采用利用所连接的器件的声音再生系统来回放并利用捕获器件所记录的测试信号来估计和设置语音增强系统的声学参数值。

作为调谐例程的简单示例，可以考虑房间的声学冲激（impulse）响应的测量。例如，收听环境诸如起居室利用其混响时间来表征，而混响时间被定义为房间的声学冲激响应被衰减一定量所花费的时间。例如，T₆₀表示房间的声学冲激响应尾部被衰减60dB的时间量。

诸如白噪声之类的测试信号能够利用器件的扬声器来再现，并且由此产生的声音信号能够利用麦克风来记录。自适应滤波器随后被用于估计线性声学冲激响应。从这个冲激响应中，例如，通过基于混响时间来执行去混响，诸如T₆₀之类的各种参数能够被估计并被用于改善语音增强系统的性能。作为特定示例，混响时间时常使用如下给定的能量衰减曲线来测量：

其中是声学冲激响应。声学冲激响应及其相应的能量衰减曲线显示在图1中。

然而，与基于音频测试信号的适配程序相关联的显著问题是：它们往往受到干扰声音的存在的影响。具体地，如果具有干扰声源，这将引起所捕获的信号相对于所再现的音频信号被失真，从而使得适配处理降级。

例如，在确定房间的声学冲激响应时，利用麦克风所捕获的信号能够被干扰声源污染，而这可以导致冲激响应估计的错误，或者这甚至可以导致冲激响应估计无法生成任何估计（例如，由于模拟估计的冲激响应的自适应滤波器无法收敛）。

例如，用于音频处理、诸如用于语音增强系统的适配例程一般假定：只有已知的且适当的声源存在，具体地，诸如用于适配的测试声音。例如，为了调谐声学回声消除系统，利用麦克风捕获的信号应该仅包含利用扬声器所产生的信号（回声）。本地环境中的任何本地干扰诸如噪声源或近端扬声器将只会恶化由此产生的性能。

由于通常不可能保证除了在适配中使用的声源之外没有其他的声源存在，所以相应地时常至关重要的是：能够估计干扰是否存在，而如果干扰存在的话，则估计干扰有多强时常是有益的。因此，对于音频处理的适配而言，干扰估计时常是至关重要的，并且如果能够生成相对精确的干扰估计而没有过于复杂的处理，则尤其是所希望的。实际上，干扰估计可以适用于许多音频处理算法和方案，并且相应地需要用于确定音频干扰估计的改善方案。

由此，用于生成音频干扰量度（measure）的改善方案将是有益的，并且尤其允许增加灵活性、降低复杂性、减少资源使用、便利操作、改善精度、增加可靠性和/或改善性能的方案将是有益的。

发明内容

相应地，本发明寻求优选地、单独地或以任何组合来减轻、缓解或消除上述缺陷之中的一个或多个缺陷。

根据本发明的一方面，提供一种设备，其包括：接收机，用于从麦克风接收麦克风信号，麦克风信号包括与利用麦克风所捕获的音频测试信号相对应的测试信号分量；分割器（divider），用于将麦克风信号分成多个测试间隔信号分量，每一个测试间隔信号分量在时间间隔中对应于麦克风信号；集合处理器，用于从多个测试间隔信号分量中生成测试间隔信号分量的集合；相似性处理器，用于为测试间隔信号分量的每一个集合生成相似值；干扰估计器，用于为个别测试间隔信号分量确定干扰量度，以响应相似值。

本发明可以允许指示存在于麦克风信号中的音频干扰的程度的音频干扰量度的改善的和/或便利的确定。该方案可以允许利用麦克风捕获的声学环境中的干扰的存在的低复杂性和/或可靠的检测。干扰量度可以是针对利用或操作于麦克风信号上的其他音频处理算法的输入。

该方案允许低复杂性干扰确定。特别的优点是：因为干扰量度能够从麦克风信号的不同部分的直接比较中进行确定并且不需要相对于已知的预定的参考信号的比较，所以该系统不需要音频测试信号的细节的显性知识。

该方案可以促进与其他仪器的互操作并且可以被添加至现有仪器。

在一些实施例中，该设备可以进一步包括测试信号生成器，用于生成测试信号以便利用音频换能器（transducer）的再生，从而生成音频测试信号。音频测试信号可以有利地具有重复特性并且可以包括或由基本信号序列的许多重复构成。

该设备可以假定：麦克风信号包括音频测试信号。因而，干扰量度可以依据测试信号分量存在于麦克风信号中的假定来确定。对于该设备而言，确定或为其提供指示测试信号存在的信息并不是必要的或必不可少的。

根据本发明的可选特征，该设备进一步包括校准单元，用于响应于测试间隔信号分量来适配信号处理，该适配单元被安排为响应于针对第一时间间隔的干扰估计来加权至少第一测试间隔信号分量贡献（contribution）。

本发明可以提供改善的音频信号处理算法的适配。特别地，可以显著减少对于非平稳音频干扰的敏感度以及由于非平稳音频干扰而引起的降级。

例如，加权可以直接地针对时间间隔信号分量或可以例如针对响应于时间间隔信号分量而生成的适配参数。

根据本发明的可选特征，该设备进一步包括校准单元，用于响应于测试间隔信号分量来适配信号处理，该适配单元被安排为响应于针对第一时间间隔的干扰估计来至少加权第一测试间隔信号分量贡献。

这可以改善适配。特别地，这可以允许低复杂性然而改善性能。该方案可以允许丢弃经历太高音频干扰的时间间隔信号分量，从而防止这些信号分量对于适配引入降级。

根据本发明的可选特征，该设备进一步包括平稳噪声估计器，其被安排为：生成平稳噪声估计，并且补偿阈值和干扰估计中的至少一个，以响应平稳噪声估计。

这可以允许更精确的干扰量度并且具体地可以允许经历太多非平稳干扰的时间间隔信号分量的更精确的检测。

具体地，平稳噪声估计可以是本底噪声估计。

根据本发明的可选特征，该设备进一步包括测试信号估计器，其被安排为：为测试信号分量生成水平估计，并且补偿阈值和干扰估计中的至少一个，以响应水平估计。

许多相似性量度且相应地干扰量度可以取决于信号能量，并且针对测试信号能量的补偿可以导致更精确的干扰量度。

具体地，测试信号分量可以是来自系统的扬声器的回声分量，并且通过补偿回声，能够实现改善的性能。

根据本发明的可选特征，分割器被安排为将麦克风信号分成多个测试间隔信号分量，以响应音频测试信号的重复特性。

这可以提供改善的性能并且便于操作。具体地，分割器可以将麦克风信号分成多个测试间隔信号分量，以响应音频测试信号的重复的持续时间和/或定时。这些时间间隔信号分量可以与音频测试信号的重复同步。

根据本发明的可选特征，音频测试信号包括音频信号分量的多个重复，并且测试间隔信号分量的定时对应于这些重复的定时。

这可以允许改善的性能和/或便利的操作。具体地，每一个时间间隔信号分量可以对应于与音频信号分量的整数数量的重复相对准的间隔。

根据本发明的可选特征，干扰估计器被安排为：为多个测试间隔信号分量中的第一测试间隔信号分量，针对包括第一测试间隔信号分量的集合的相似值来确定最大相似值；以及为第一测试间隔信号分量确定干扰量度，以响应最大相似值。

这可以改善性能和/或减少复杂性。特别地，这可以增加识别经历低的音频干扰的时间间隔信号分量的概率。

根据本发明的可选特征，分割器被安排为生成至少包括测试间隔信号分量中的第一测试间隔信号分量的至少两个集合。

根据本发明的可选特征，每一个集合由两个测试间隔信号分量构成。

根据本发明的可选特征，分割器被安排为生成与测试间隔信号分量的所有配对组合相对应的集合。

根据本发明的一方面，提供生成音频干扰量度的方法，该方法包括：从麦克风接收麦克风信号，麦克风信号包括与利用麦克风捕获的音频测试信号相对应的测试信号分量；将麦克风信号分成多个测试间隔信号分量，每一个测试间隔信号分量在时间间隔中对应于麦克风信号；从多个测试间隔信号分量中生成测试间隔信号分量的集合；为测试间隔信号分量的每一个集合生成相似值；以及为个别测试间隔信号分量确定干扰量度，以响应相似值。

本发明的这些与其他方面、特征和优点从下文描述的（一个或多个）实施例中将是显而易见的并将参考这（一个或多个）实施例来阐述。

附图说明

本发明的实施例将仅通过示例、参考附图来描述，其中：

图1示出房间的声学冲激响应及其相应的能量衰减曲线的示例；

图2示出根据本发明的一些实施例的音频处理系统的元素的示例；和

图3-10示出根据本发明的一些实施例的音频处理系统的实验结果。

具体实施方式

下面的描述专注于可应用于为音频处理适配应用生成音频干扰估计的本发明的实施例，但是将意识到：本发明并不限于这种应用，而可以应用于许多其他的音频应用。

图2示出根据本发明的一些实施例的音频处理系统的示例。

音频系统包括麦克风201，其被安排为在声学环境中捕获声音。具体地，利用麦克风201生成的麦克风信号可以代表在麦克风201的位置上所捕获到的房间中的声音。

麦克风201耦合到接收麦克风信号的接收机203。在大多数的实施例中，接收机203可以包括放大、滤波和可能地提供麦克风信号的数字化版本的模-数转换器，从而允许在数字域中执行后续处理。

在该示例中，音频处理系统进一步包括应用处理器205，其被安排为支持或运行音频应用。应用处理器205从接收机203接收麦克风信号并着手根据特定的音频应用来处理它。

音频应用例如可以是支持与远程实体进行双向通信的通信应用。然而，将意识到：所描述的用于适配和干扰估计的原理可以与任何合适的应用一起使用。在该示例中，应用处理器205被安排为接收麦克风信号并处理此，以便传送至远程通信单元。该处理可以包括语音增强、回声消除、语音编码等等。应用处理器205此外被安排为从远程通信单元接收音频数据并处理此，以便生成能够本地再现的信号。因而，应用处理器205从远程单元接收音频数据并生成相应的音频输出信号。

图2的音频处理系统因此包括扬声器驱动器207和在特定示例中是扬声器209的音频换能器。扬声器驱动器207从应用处理器205接收音频信号并着手为扬声器209生成相应的驱动信号。具体地，扬声器驱动器207可以包括放大电路，如对于本领域技术人员而言将是已知的。

在该示例中，应用处理器205被安排为对接收到的麦克风信号执行语音增强并且具体地执行回声消除和/或抑制。利用扬声器209所再现的音频可以利用麦克风201来拾取，而如果这个贡献不被抑制的话，它将导致远程单元接收它自己的信号的拷贝。这将听起来如同远程通信单元上的回声，并且相应地，应用处理器205包括用于衰减麦克风信号中与从扬声器209中再现的音频相对应的信号分量。这样的处理被称为回声消除。

为了回声消除最佳地执行，必须针对所使用的仪器以及在其中使用该仪器的声学环境二者的特定特性来适配该算法。具体地，自应用处理器205开始经由扬声器驱动器207、扬声器201、从扬声器209到麦克风201的声学路径、麦克风201和接收机203而返回到应用处理器205的信号路径应该优选地是已知的以及可能的，以便回声消除适于消除掉回声。

相应地，图1的系统包括校准处理器211，其被安排为适配应用处理器205的音频处理。在特定示例中，校准处理器211被安排为估计自应用处理器205开始经由扬声器209和麦克风201而返回到应用处理器205的信号路径、即从至扬声器驱动器207的输入到接收机203的输出的信号路径的传递函数。

校准处理器211使用测试信号来估计传递函数。音频系统相应地包括测试信号生成器213，其生成被馈送至扬声器驱动器207的测试信号。测试信号相应地利用扬声器209来再现，并且由此产生的音频测试信号的一部分利用麦克风201来捕获。接收机203的输出被馈送至校准处理器211，而校准处理器211能够着手通过将它与生成的测试信号进行比较来表征传递函数。由此产生的冲激响应/传递函数参数随后被馈送至应用处理器205并被用于回声消除。

将意识到：可以在不同的实施例中使用不同的测试信号和冲激响应估计，并且可以使用任何合适的方案。例如，测试信号可以是短脉冲（对应于Dirac(狄拉克)脉冲的近似）或可以是例如频率扫描或可以是例如人工语音信号，其中人工语音信号虽然是难以理解的但是包含与真实语音的频域和时域特性相类似的频域和时域特性。

为了校准是最佳的，利用麦克风201捕获的唯一声音应该是测试信号的声音。相应地，音频处理系统通常在校准操作期间不再现任何其他的声音。然而，甚至在这种情况下，也可能具有由于声学环境中的其他声源而引起的音频干扰。例如，可能有人在房间中说话，其他的音频器件可以是活动的，等等。这样的音频干扰将使得冲激响应的估计降级并因而导致降级的回声消除性能。

图2的音频处理系统包括用于生成指示音频干扰的数量和/或存在的干扰量度的功能。在该示例中，不是由于测试信号的再现而产生的任何声音都是音频干扰。因而，音频处理系统生成指示所捕获的不是归因于测试信号的再现的声音的程度的量度。

干扰量度例如可以用于确定何时由校准处理器211执行校准。例如，校准处理器211可以适配应用处理器205的处理，以响应仅仅对其的干扰量度指示音频干扰低于给定水平的时间间隔中的麦克风信号。在一些实施例中，干扰量度可以用于为所生成的校准值生成可靠性指示，并且例如，依赖于校准的现有参数的更新可以取决于这样的可靠性量度。例如，当可靠性是低的时候，仅采用边缘适配（marginal adaptation），而当可靠性是高的时候，执行更显著的适配。

更详细地，音频处理系统包括分割器215，其中分割器215将麦克风信号分成多个测试间隔信号分量。每一个测试间隔信号分量在时间间隔中对应于麦克风信号。

在图2的示例中，生成测试信号，以致它是重复信号。具体地，相同的信号可以在许多连续的时间间隔中被重复。在该系统中，分割器215被安排为将麦克风信号分到与这些重复时间间隔同步的时间间隔中。具体地，分割器215将麦克风信号分到具有的持续时间是测试信号的重复持续时间的倍数并且此外具有的开始和停止时间与重复时间间隔的开始和停止时间相对准的时间间隔中。具体地，重复间隔和分割时间间隔可以实质上是相同的。作为选择，可以分割到（可能实质上）小于重复间隔的时间间隔中。然而，如果分割的较小时间间隔相对于重复间隔进行同步的话，那么在没有任何降级或噪声的情况下在不同的重复间隔中相应的段仍然可以是相同的。同步可以是自动的，例如仅通过测试信号生成器和时间分割器使用相同的定时信号，或可以例如利用同步处理（例如，诸如通过最大化相关性量度）来实现同步。

分割器耦合到集合处理器217，其中集合处理器217从分割器接收测试间隔信号分量。集合处理器217被安排为生成测试间隔信号分量的许多集合。在特定示例中，每个集合包括两个测试间隔信号分量，并因而集合处理器217生成测试间隔信号分量的许多配对。

为了简洁和清晰起见，每一个测试间隔信号分量在下面将被称为信号块。

信号块的配对被馈送至相似性处理器219，其中相似性处理器被安排为：为集合处理器217所生成的每一个集合，确定相似值。信号块的集合的相似值指示这些信号块有多相似，即，它指示在个别集合中包括的时间间隔中麦克风信号有多相似。

将意识到：可以使用任何合适的相似值来确定两个信号有多相似。具体地，互相关值可以被生成并被用作相似值。在每一个集合包括两个以上的信号块的情况下，可以在逐个配对的基础上确定相似值，并且整个集合的相似值可以被确定为平均或累积的相似值。

相似性处理器219耦合到干扰估计器221，而干扰估计器221进一步耦合到集合处理器217和校准处理器211。干扰处理器221被安排为基于所生成的相似性量度为不同的信号块生成干扰量度。具体地，针对第一信号块的干扰估计基于为其中包括第一信号块的集合确定的相似值来生成。因而，在图2的系统中，针对信号块的干扰量度响应于包括那个信号块的至少一个集合的相似值来确定。

作为特定示例，可能地与其中不包括第一信号块的集合的平均相似值相对照，可以生成第一信号块的干扰量度作为其中包括该信号块的集合的平均相似值。作为另一示例，干扰量度可以被确定，以对应于其中包括第一信号块的集合的最大相似值。

干扰量度被馈送至校准处理器211，其中校准处理器211在校准处理中使用该干扰量度。例如，校准处理器可以使用干扰量度作为所生成的适配参数的可靠性值。作为另一示例，校准处理器211可以仅使用针对其的干扰量度是足够高的、从而指示音频干扰是足够低的信号块来执行校准。

发明人已认识到：音频干扰通常是非平稳的，并且这能够被利用来生成干扰估计。在存在非平稳干扰的情况下，所捕获的麦克风信号有可能比在非平稳干扰不存在的情况下更多变化。这在图2的系统中被利用来生成干扰量度。实际上，信号块之间的相似性有可能在存在显著的非平稳干扰源的情况下显著降低。对于给定的信号块来说，在不同的时间上与信号块进行的比较的低相似值因此是具有干扰存在的指示，而较高的相似值通常指示没有或较少干扰存在。

当和具有与信号块的时间间隔同步的重复特征的特定测试信号的生成与再现进行组合时，效果是特别显著的。在这样的情形中，如果没有噪声或干扰，那么麦克风信号将与测试信号（实质上）是相同的，并因而不同的信号块也将（实质上）是相同的，从而导致相似值具有非常高的值。当（非平稳）干扰增加时，这将在不同的时间上不同地影响所捕获的音频信号，并因而将导致信号块是越来越不同的。相应地，两个信号块之间的相似值随着干扰增加而降低。

给定集合的信号块的相似值相应地随着干扰增加而降低。因而，对于给定信号块来说，其中包括该信号块的集合的相似值提供音频干扰存在的程度的良好指示。

诸如针对语音增强或回声消除，所述的方案可以提供改善的音频处理算法的适配。例如，用于语音增强的适配例程一般假定只有相关声源的存在。例如，为了调谐声学回声消除系统，利用麦克风捕获的信号被假定为仅包含由扬声器产生的信号（即，回声）。诸如在本地环境中的噪声源或近端说话者之类的任何本地干扰将导致由此产生的性能的恶化。在实践中，不存在任何干扰通常是不可行的，反而所捕获的信号通常在例如近端用户移动或说话时被近端环境中产生的音频干扰或诸如通风系统之类的本地噪声源所污染。因此，利用适配例程所确定的系统参数通常将不是这些器件和本地环境的声学行为的忠实代表。

图2的系统能够在具有通常相对短的持续时间的个别时间段中评估干扰。特别地，它可以提供有效的能够在个别时间段中检测本地干扰的信号完整性检查系统。相应地，例如通过使用仅仅对其而言具有足够低的干扰的段中的信号，能够适配该适配处理。因而，能够实现更可靠的适配并因而能够实现改善的音频处理的性能。

图2的系统的特别优势是：可以利用与底层(underlying)适配算法无关并且实际上与被适配的音频处理无关的功能来提供干扰估计。这可以便于操作和实施，并且尤其可以提供改善的后向兼容性以及改善的与形成音频系统的部分的其他仪器的兼容性。作为特定示例，干扰估计可以被添加至现有的校准系统作为丢弃针对其的干扰估计太高的所有信号块的附加功能。然而，对于被传递至适配处理的信号块来说，可以使用相同的程序，就好像没有完整性检查被应用一样，并且没有适配操作或声音处理的修改是必要的。

将意识到：可以使用用于生成测试信号的不同方案，并且测试信号在不同的实施例中可以具有不同的特性。

在图3的示例中，测试信号包括重复信号分量。例如，该信号可以具有被定期重复的特定波形。在一些实施例中，在每一个重复间隔中的信号可能已被设计成允许全校准/估计操作。例如，每一个重复间隔可以包括全频扫描或可以包括单个如同脉冲的Dirac，其中重复间隔是足够长的，以允许在下一个脉冲之前的全冲激响应。在其他的实施例中，重复间隔可以是相对短的，和/或重复信号可以是简单信号。例如，在一些示例中，每一个重复间隔可以对应于单个正弦波周期。测试信号相应地具有重复特性，尽管确切的重复特性实质上在不同的实施例之间可以变化。测试信号在一些实施例中可以只具有两个重复，但是在大多数实施例中，测试信号具有显著更多的重复并且实际上可以时常具有十或更多重复。

在一些实施例中，测试信号可以是存储在存储器中的预先记录的信号。所存储的信号可能已由N个周期组成，或者所存储的信号可以对应于随后被重复的一个重复。

作为另一示例，例如，使用模型诸如语音产生的模型来同步测试信号，其中在这样的模型中模型参数或是固定的或根据在运行时间期间已提取的远端和/或麦克风信号的特征来估计。这样的特征能够包括音调信息、时域波形特性诸如波峰因子、振幅、包络等等。

在许多实施例中，如果测试信号满足以下要求，则是所希望的：

1．感兴趣的频谱中的能量应该是足够的，以允许与语音增强算法相关的相关参数的适当适配。对于语音应用来说，这将意指语音频谱（例如，在300与4000Hz之间）中的能量；

2．重复的数量应该是足够高的。在一些实施例中，将只需要两个重复，但是在许多实施例中使用实质上更高数量的重复。这可以改善操作的噪声鲁棒性（robustness）。

将意识到：分割器215可以使用不同的用于将麦克风信号分成信号块的方案。

分割器215可以将这些信号块与重复间隔相对准并且具体地可以对准这些信号块，以致测试信号对于与不同的信号块相对应的时间间隔而言是相同的。

将意识到：对准可以是近似的，并且例如同步中的某些不确定性可以降低所生成的干扰估计的精度，但是仍然可以允许干扰估计被生成（并且是足够精确的）。

在一些实施例中，时间间隔可以不与重复间隔相对准，并且例如从测试信号的开始时间到测试信号的重复的开始的偏移在不同的间隔之间可以变化。在这样的实施例中，例如通过偏移这两个信号块以最大化相似值，相似值确定可以考虑这样的潜在的时间偏移。例如，可以为多个时间偏移确定互相关，并且最高的由此产生的互相关可以被用作相似值。在这样的情况下，时间间隔可以长于重复间隔，并且确定相关性的间隔可以等于或者有可能短于重复间隔。在一些实施例中，相关窗口可以大于重复间隔并且可以包括多个重复间隔。通常，在其上面确定相似值的窗口将接近与每一个信号块相对应的时间间隔的持续时间，以便生成尽可能可靠的估计。

将意识到：信号块的时间间隔（也被称为时间段）可以短于、长于重复间隔或实际上与重复间隔是相同的。

例如，在一些实施例中，测试信号可以是纯音（pure tune），并且每一个重复间隔可以对应于被重复的单个正弦波。在这样的示例中，重复时间间隔可以是非常短的（有可能大约1毫秒），而每一个信号块的时间段可以实质上是更大的且包括潜在大数量的重复。例如，每一个时间段可以是20毫秒并因而包括音频信号的20个重复。

在其他实施例中，这些时间段可以被选择为实质上与重复间隔是相同的。例如，测试信号可以包括具有100毫秒的持续时间的频率扫描，其中扫描被重复许多次。在这样的示例中，每一个时间段可以被选择为具有100毫秒的持续时间并因而直接地对应于重复间隔。

在还有其他的实施例中，每一个时间段可以实质上低于重复间隔。例如，测试信号可以是被重复例如3次（提供15秒的总长度）的5秒持续时间的音乐的样本。在这种情况中，这些时间段可以被选择为对应于例如32毫秒（对应于16kHz的采样率上的512个样本）。虽然这样的小信号块不包含整个重复序列，但是它们能够例如相当于其他重复间隔的相应信号块。较短的持续时间不仅允许便利的操作，而且还可以允许干扰量度的更精细的时间分辨率，并且尤其可以允许选择哪些信号段用于适配以便具有更精细的时间分辨率。

所生成的信号块的数量将取决于特定实施例以及特定应用的偏好与要求。然而，在许多实施例中，每一个信号块的持续时间通常不小于10毫秒且不大于200毫秒。这在许多实施例中允许特别有利的操作。

也将意识到：集合处理器217所使用的方案可以取决于个别实施例的特殊偏好和要求而变化。

在许多实施例中，信号块被安排在仅由两个信号块组成的集合中，即，生成信号块的配对。在其他实施例中，可以生成具有三、四乃至更多信号块的集合。

在一些实施例中，集合处理器217可以被安排为生成信号块的组合的所有可能的集合。例如，可以生成信号块的所有可能的配对组合。在其他实施例中，只生成可能的配对组合的子集。例如，可以只生成可能的配对组合的一半或四分之一。

在其中在所生成的集合中只代表组合的子集的实施例中，集合处理器217可以在不同的实施例中使用不同的标准。例如，在许多实施例中，可以生成集合，以致每一个集合中的信号块之间的时间差超出阈值。实际上，通过将信号块与较大的时间偏移进行比较，更有可能的是：非平稳音频干扰在这些信号块之间是不相关的，并且相应地能够生成改善的干扰量度。

例如，在生成配对时，集合处理器217可以不选择是连续的信号块而选择至少具有给定数量的干预（intervening）信号块的信号块。

在一些实施例中，每一个信号块被包括在仅仅一个集合中。然而，在大多数实施例中，每一个信号块被包括在至少两个信号块（集合）中，并且实际上在许多实施例中，每一个信号块可以被包括在2、5、10或更多的集合中。这可以减少高估某些信号块的干扰的风险。例如，如果一对信号块的相似值是低的，从而指示具有显著的音频干扰存在，则这可能是由于在这些信号块之中的仅仅一个信号块中的干扰而导致的。例如，如果在配对的一个信号块中没有音频干扰而另一个信号块经历高程度的干扰，这将导致低的相关值并因而导致低的相似值。然而，可能不可能确定哪一个信号块经历音频干扰，并相应地可能基于这个比较而拒绝这两个信号块。

然而，如果这些信号块被包括在更多的配对中，则具有增加的干净的信号块将与另一个相对干净的信号块被配对在至少一个配对中的机会。相应地，这个配对的相关值将是相对高的，并因而相似值将是相对高的。这种配对将相应地反映：两个信号块是干净的并且能够用于进一步的处理。

将意识到：可以挑选集合的数量，以便在计算资源需求、存储器需求、性能和可靠性之间提供合适的权衡。

相似性处理器219可以使用任何合适的方案来确定集合的相似值。

例如，对于信号块的配对而言，互相关值可以被确定并被用作相似值。

作为特定示例，与第i个信号块和第j个信号块之间的归一化互相关性相对应的相似性可以被计算为：

其中指示第x个信号块的第n个样本，而E{}指示期望值运算符。可以对信号块或信号块的子段来计算期望值，在这种情况中：

其中对应于在给定子段中包含的信号样本的列矢量，而T表示矢量转置运算。

麦克风信号可被认为是由三个分量即测试信号分量、平稳噪声分量（通常，加性白高斯噪声）和非平稳音频干扰构成。干扰量度寻求估计后一分量。

在一些实施例中，相似性处理器219和/或干扰估计器221可以包括用于估计测试信号分量和/或平稳噪声分量的功能。相似值和/或干扰量度随后可以进行补偿，以响应这些估计。

例如，增加测试信号能量可以减少归一化相关值。相应地，如果能够估计测试信号能量，则可以相应地补偿所生成的干扰量度。例如，将能级与补偿值相关的查找表可以和随后被应用于每一个相似值或最终干扰量度的补偿值一起使用。

例如，信号能量可以基于信号块的集合来估计。例如，可以识别对于所有集合而言具有最高相似值的集合。这有可能具有最低可能的音频干扰，并且相应地测试信号分量的信号能量可以被估计成对应于具有最低能量的信号块的能量。

类似地，平稳噪声可以影响相似值，并且通过基于平稳噪声估计来补偿相似值和/或干扰量度，能够实现改善的性能。平稳噪声估计可以具体地是本底噪声估计。例如，本底噪声平稳噪声估计可以通过将时域信号分解成许多频率分量并跟踪每个分量的最小包络值来确定。频率上的平均功率可以被用作时域中的本底噪声的估计。

给定信号块的干扰量度可以具体地通过识别其中包括该信号块的集合的最高相似值以及随后将干扰量度设置成这个值（或这个值的单调函数）来生成。

这将确保：干扰量度反映在两个信号块经历最小干扰时有可能发生的所实现的最佳比较。该方案可以具体地反映：如果能够为信号块找到一个紧密匹配（close match），则有可能这些信号块中的两个信号块经历低的干扰。

在其他实施例中，可以确定更复杂的干扰量度。例如，可以使用给定信号块的所有相似值的加权平均，其中加权针对不断增加的相似值而增加。

校准处理器211被安排为在确定音频应用的适配参数时考虑干扰量度。具体地，每一个信号块的贡献可以依赖于干扰量度来加权，以致与针对其的干扰量度是相对低的信号块相比，针对其的干扰量度是相对高的信号块对所生成的适配参数具有更多的影响。这种加权例如在一些实施例中可以针对至校准处理器211的输入信号来执行，即针对信号块本身来执行。在其他示例中，针对给定信号块生成的适配参数估计在与针对其他信号块的参数估计进行组合之前可以根据干扰量度来加权。

在一些实施例中，可以执行二进制加权，并且具体地信号块可以在基于干扰量度的适配中被丢弃或被使用。因而，可以在适配中使用针对其的干扰量度低于阈值（对应于相似值高于阈值）的信号块，而针对其的干扰量度超出该阈值的信号块则被丢弃并且不进一步使用。该阈值在一些实施例中可以是固定阈值并且在其他实施例中可以是自适应阈值。

例如，如前所述，相关值以及因而干扰量度可以取决于测试信号分量能量和取决于平稳噪声。用于丢弃或接受信号块的阈值反而可以响应于测试信号能量估计或平稳噪声估计来修改，而不补偿相似值或干扰量度。

使用在制造测试期间确定的补偿值的查找表的类似方案例如可以与应用于阈值的由此产生的补偿值一起使用。

在前面的示例中，分割器215可以生成存储在本地存储器中的大量信号块，用于利用集合处理器217和相似性处理器219进行的组合处理。然而，将意识到：可以使用许多其他的实施方式，并且具体地可以使用更有序的处理。

因而，不是在生成所有信号块的集合之后生成所有块的相似值，等等。例如，对于每一个新的块，可以个别地执行这些步骤。

例如，在开始适配处理时，测试信号生成器213可以生成测试信号。第一信号块可以被生成并被存储在本地存储器中。在合适的延迟（例如，简单地对应于信号块时间间隔）之后，可以生成第二信号块。这个信号块随后与存储的信号块进行比较，以生成相似值。如果相似值是足够高的，则新的信号块被馈送至校准处理器211，用于进一步处理。

在接收到导致相似值低于阈值的信号块时，新的信号块可以替代存储的信号块并因而可以被用作后面信号块的参考。在一些实施例中，是保持存储的参考还是利用新近接收的信号块来替代它的决定可以动态地做出。例如，可以存储具有最低信号能量的信号块，因为对于具有最低音频干扰能量的信号块而言（特别地，如果干扰和测试信号是足够去相关的话），有可能是这种情况。

在下面，将描述本发明的实施例的操作的特定示例。该示例可应用于图2的系统。

该示例涉及用于声学回声抑制的语音增强系统，其中该系统基于音频信号来适配。这样的系统一般包括回声消除器，其后面跟随着后置处理器，该后置处理器抑制任何剩余的回声并且一般地也基于非线性回声的特定模型。测试信号经由该器件的扬声器来回放，并且所捕获的麦克风信号被记录。

假定：长度NT样本的离散时间调谐信号x(n)是周期性的，具有周期T样本，

其中N是周期的数量。稍后，将简化注释，并将假定：该信号被分成N个连续的且相同的部分，其中每个部分具有利用表示的长度T，其中k=1,…N。

假定：声学回声路径是非线性的时变系统，其中只有回声路径的线性部分是时变的并且跟随在时不变非线性部分的后面。对应于每一个重复的麦克风信号利用下式来给定：

其中回声分量包含线性和非线性分量二者，被假定为非平稳音频干扰诸如语音，而被假定为能够被建模为白噪声处理的平稳背景噪声。非平稳干扰和背景平稳噪声被假定为彼此不相关且跨期（across period），

其中表示期望值，并且。

也假定：这些信号是独立的和零均值（高通滤波），

。

该系统包括信号完整性检查，其验证所记录的麦克风信号并丢弃经历太多干扰的信号块/段。

这通过计算的各自块之间的相似性量度来实现，其中。

所计算的相似性的总数在特定示例中是每个块，其中：

。

如果两个块仅包含回声/测试信号（和平稳噪声分量），那么它们将是相似的并且能够用于适配该系统。然而，如果在配对方式比较中这些块中的至少一个块包含显著的干扰，则测试块的其他配对。如果没有两个块是相似的，那么在适配例程中不使用该块。为了增加鲁棒性，时常希望挑选N>2，以增加块的至少一个配对是相似的概率。

可以使用不同的相似性量度。在下面，包括一些特定选项。

基于相关性的相似性量度

如前所述，第i个块和第j个块之间的归一化互相关性可以被用作相似值。这可以具体地被给定为：

其中。

互相关性可以相应地被给定为：

。

应注意：非平稳干扰源的存在减小的值。因而，假定在第i个和第j个信号块/段中不存在任何的音频干扰，则确定是包括还是丢弃用于适配的块的阈值的下界可以利用下式来给定：

其中，这是因为。注意：虽然回声e(n)也包含非线性分量，但是能够使用利用线性自适应滤波器估计的回声信号来计算互相关性和第二矩项(second-moment term)的估计。取决于步长和滤波器长度，自适应滤波器能够在某种程度上跟踪非线性。

如果假定该系统是时不变的，即对于所有的k而言，，则阈值减至：

其中表示回声-噪声比。

基于均方差的相似性量度

可能的基于均方差的相似性量度利用下式来给定：

其中。如果置换和，则：

。

假定不存在音频干扰(==0)，则这能够被简化为：

其能够被用作检测两个帧之一是否包含音频干扰的阈值，其中：

。

如果假定时不变性，即，对于所有的k而言，，则阈值减至：

。

基于功率的相似性量度

对信号的精细结构不太敏感的量度利用下式来给定：

。

如果扩展麦克风信号项，则：

。

假定不存在音频干扰(==0)，则这能够被简化为：

。

这个值具有的复杂之处在于：的符号能够是正的或负的，这使之不太适合于作为阈值。

过零计数差量度

过零率或计数是特别适合于区分音乐与语音的特征。过零计数差（zero-crossing count difference）（ZCCD）量度能够被定义为：

其中计数过零的数量。

互信息互相关索引

互信息互相关索引（mutual information cross-correlation index）（MICI）能够利用下式来给定：

其在和是线性依赖的时候等于零并随着依赖性降低而增加。这个量度也使用这两个信号之间的归一化互相关函数。

该方案可以如下操作。

首先，再现测试信号，其中测试信号包括N个重复。利用麦克风201来捕获该信号。

该系统随后着手估计所捕获信号的本底噪声。

麦克风信号被分成长度T样本的N个连续部分。这种分割对于在测试信号的发生（onset）之后的初始周期而言在麦克风信号中可以忽略，以允许效果稳定（尤其，以便允许测试信号的混响存在于所生成的第一信号块中）。

对于每一个段，使用自适应滤波器来估计线性声学回声。这可以为利用麦克风捕获的回声/测试信号的信号能量提供水平估计。

对于每一个块，确定是否应该接受该块的阈值使用回声估计和本底噪声估计来确定，以推导出阈值。能够针对每一个块/段来更新该阈值。

每帧的最终阈值能够基于所有帧上的最大值（在使用的情况中）或最小值（在使用的情况中）。

对于块的每一个配对，该配对取决于量度超过（在使用的情况中）还是低于（在使用的情况中）给定阈值而被分类为是否相似。

如果具有限制性的阈值，则不可避免的是：回声响应中的某些瞬变可以导致干净块的漏检。换句话说，当事实上瞬变条件诸如移动引起大的差异被检测到时，该块可以被分类为包含干扰。为了防止这种情况，可以采用某种形式的检测平滑，例如使用中值滤波。例如，假定值1表示：当前帧与另一帧相似，而0表示当前帧是不同的。在给定当前帧检测和B-1个以前检测的缓存器的情况下，如果相似帧的数量低于某个阈值，则检测缓存器中的中间帧被设置成0。如果相似帧的数量超出某个阈值，则中间帧被设置成1。

另一考虑的方面是如何基于利用声学回声消除器所产生的回声估计来推导出阈值。如果针对每一个块都更新阈值，那么所产生的回声估计基于以前的自适应滤波器系数。因此，在滤波器系数的每一次更新之后，应该优选地产生新的回声估计，以改善当前相似性量度与各自阈值之间的同步性。

因为上述的阈值是非常限制性的，所以例如通过诸如以下之类的缩放(scaling)来放松这些阈值将时常是适当的：

。

在图3-10中呈现其中使用了由三个周期构成的测试信号的情景的实验数据。

在该示例中，测试信号经由电视的扬声器来再现。信号块长度被设置成512个样本，并且用于估计回声路径的自适应滤波器长度被设置成512个样本。采用NLMS算法来估计线性回声。此外，用于缩放阈值的上面公式中的和的值分别被设置成0.98和3.0。长度10（块检测）的中值滤波器也被使用来平滑这些检测并且对于给定的帧尺寸而言对应于近似320ms（毫秒）。

理想地，该方案对于能够改变声学回声路径冲激响应的本地环境中的移动而言应该是鲁棒的。在以下的结果集合中，站立在房间中的人在测试信号的周期之间移动到不同的位置，从而有效地改变声学回声路径。图3-6显示相似性量度以及使用基于相关性和基于差的相似性量度的结果。注意：这两个量度显示相对于本地声学环境中的移动的鲁棒性，这是重要的，这是因为声学路径的改变不应该导致干扰源存在的错误检测。

特别地，图3示出在仅具有本地移动的情况下针对测试信号的三个周期的基于相关性的相似性量度和阈值。y轴标签指示在相似性量度中所牵涉的测试信号周期，例如12表示在第一与第二周期之间的相似性量度。图4示出使用基于相关性的相似性量度的由此产生的检测性能（其中1表示被视为干净的块，而0表示被视为经历干扰的块）。图5示出在仅具有本地移动的情况下针对测试信号的三个周期的基于均方差的相似性量度和阈值。图6示出相同的但是针对基于均方差的相似性量度。

在以下的示例中，在每一个测试周期的下半部分期间在测试信号的记录期间引入本地语音干扰。注意：在该周期的下半部分期间，适配丢弃包含干扰语音的帧。

图7示出在具有本地语音干扰的情况下针对测试信号的三个周期的基于相关性的相似性量度和阈值。图8示出使用基于相关性的相似性量度的由此产生的检测性能。图9示出在具有本地语音干扰的情况下针对测试信号的三个周期的基于均方差的相似性量度和阈值。图10示出相同的但是针对基于均方差的相似性量度。

将意识到：为了清楚起见的上面描述参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，可以使用在不同的功能电路、单元或处理器之间的任何合适的功能分布而不偏离本发明，这将是显而易见的。例如，被示为由单独的处理器或控制器执行的功能可以利用相同的处理器或控制器来执行。因此，针对特定的功能单元或电路的参考仅被视为针对用于提供所述功能的合适手段的参考，而不是指示严格的逻辑或物理的结构或组织。

本发明能够采用任何合适的包括硬件、软件、固件或这些的任何组合的形式来实施。本发明可以任选地至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元素和组件可以物理上、功能上和逻辑上采用任何合适的方式来实施。实际上，本发明可以在单个单元中、在多个单元中或作为其他的功能单元的一部分来实施。因而，本发明可以在单个单元中进行实施或可以物理上和功能上分布于不同的单元、电路和处理器之间。

虽然结合一些实施例描述了本发明，但是并不打算将本发明限于在这里阐述的特定形式。相反，本发明的范围仅利用所附权利要求书来限制。另外，虽然特征可能看来似乎是结合特殊实施例来描述的，但是本领域技术人员将认识到：所述实施例的各个特征可以根据本发明进行组合。在权利要求书中，术语包括并不排除其他元素或步骤的存在。

此外，虽然个别地列出，但是例如可以利用单个电路、单元或处理器来实施多个装置、元素、电路或方法步骤。另外，虽然个别特征可以被包括在不同的权利要求中，但是这些特征可以可能地有利地进行组合，并且在不同的权利要求中的列入并不意味着：特征的组合不是可行的和/或有益的。特征在一种类别的权利要求中的列入也并不意味着针对这一类别的限制，而是指示：该特征同样可酌情应用于其他的权利要求类别。此外，特征在这些权利要求中的顺序并不意味着这些特征必须按此工作的任何特定顺序，并且特别地，个别步骤在方法权利要求中的顺序并不意味着：这些步骤必须按照这个顺序来执行。相反，这些步骤可以按照任何合适的顺序来执行。另外，单数引用并不排除复数。因而，对于“一”、“一个”、“第一”、“第二”等等的引用并不排除多个。这些权利要求中的参考符号仅作为说明示例来提供而不应该被解释为以任何方式来限制这些权利要求的范围。

Claims

1.一种设备，包括：

接收机（203），用于从麦克风（201）接收麦克风信号，所述麦克风信号包括与利用所述麦克风捕获的音频测试信号相对应的测试信号分量；

分割器（215），用于将所述麦克风信号分成多个测试间隔信号分量，每一个测试间隔信号分量在时间间隔中对应于所述麦克风信号；

集合处理器（217），用于从多个测试间隔信号分量中生成测试间隔信号分量的集合；

相似性处理器（219），用于为测试间隔信号分量的每一个集合生成相似值；

干扰估计器（221），用于为个别测试间隔信号分量确定干扰量度，以响应所述相似值。

2.根据权利要求1所述的设备，进一步包括：校准单元（211），用于适配信号处理以响应测试间隔信号分量，所述适配单元被安排为响应于针对第一时间间隔的干扰估计来加权至少第一测试间隔信号分量贡献。

3.根据权利要求2所述的设备，进一步包括：校准单元（211），用于适配信号处理以响应测试间隔信号分量，所述适配单元被安排为响应于针对第一时间间隔的干扰估计来加权至少第一测试间隔信号分量贡献。

4.根据权利要求1或3所述的设备，进一步包括：平稳噪声估计器，其被安排为生成平稳噪声估计并且补偿阈值和干扰估计中的至少一个，以响应所述平稳噪声估计。

5.根据权利要求4所述的设备，其中所述平稳噪声估计是本底噪声估计。

6.根据权利要求1或3所述的设备，进一步包括：测试信号估计器，其被安排成为测试信号分量生成水平估计并且补偿阈值和干扰估计中的至少一个，以响应所述水平估计。

7.根据权利要求1所述的设备，其中所述分割器（215）被安排为将所述麦克风信号分成多个测试间隔信号分量，以响应所述音频测试信号的重复特性。

8.根据权利要求1所述的设备，其中所述音频测试信号包括音频信号分量的多个重复，并且所述测试间隔信号分量的定时与所述重复的定时相对应。

9.根据权利要求1所述的设备，其中所述干扰估计器（221）被安排为：为所述多个测试间隔信号分量中的第一测试间隔信号分量，对于包括第一测试间隔信号分量的集合的相似值确定最大相似值；以及为第一测试间隔信号分量确定干扰量度，以响应所述最大相似值。

10.根据权利要求1所述的设备，其中所述分割器（215）被安排为生成至少包括所述测试间隔信号分量中的第一测试间隔信号分量的至少两个集合。

11.根据权利要求1所述的设备，其中每一个集合由两个测试间隔信号分量构成。

12.根据权利要求11所述的设备，其中所述分割器（215）被安排为生成与所述测试间隔信号分量的所有配对组合相对应的集合。

13.根据权利要求10所述的设备，其中每一个测试间隔信号分量具有不小于10毫秒且不大于200毫秒的持续时间。

14.一种生成音频干扰量度的方法，所述方法包括：

从麦克风（201）接收麦克风信号，所述麦克风信号包括与利用所述麦克风捕获的音频测试信号相对应的测试信号分量；

将所述麦克风信号分成多个测试间隔信号分量，每一个测试间隔信号分量在时间间隔中对应于所述麦克风信号；

从所述多个测试间隔信号分量中生成测试间隔信号分量的集合；

为测试间隔信号分量的每一个集合，生成相似值；以及

为个别测试间隔信号分量确定干扰量度，以响应所述相似值。

15.一种计算机程序产品，包括计算机程序代码装置，其适于当所述程序运行在计算机上时执行权利要求14的所有步骤。