CN106164846B

CN106164846B - 音频信号处理

Info

Publication number: CN106164846B
Application number: CN201580019249.XA
Authority: CN
Inventors: U·N·哈马奎斯特
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-04-11
Filing date: 2015-04-06
Publication date: 2019-02-15
Anticipated expiration: 2035-04-06
Also published as: EP3114683A1; EP3114683B1; GB201406574D0; CN110007892A; CN110007892B; TW201543471A; WO2015157136A1; CN106164846A; US20150294675A1; US9437210B2

Abstract

公开了一种具有音频接口的设备，该音频接口被配置为从音频信号生成送出音频信号以便供给扩音器组件。音频接口被配置为，在生成送出音频信号时，将动态范围压缩应用于音频信号。设备软件被配置为接收进入音频信号并且从进入音频信号生成音频信号。由软件生成的音频信号被供给到音频接口以便由扩音器组件输出且还用作音频信号处理中的基准。生成音频信号包括软件将初始非线性振幅处理应用于进入音频信号以修正其功率包络。修正后的功率包络足够平滑以便当音频接口应用动态范围压缩时基本不受影响。

Description

音频信号处理

背景技术

通信系统允许用户彼此经由网络通信。网络可以是例如因特网或公共交换电话网(PSTN)。音频信号能够在网络的节点间传输，从而允许用户在通信系统上的通信会话中彼此发送和接收音频数据(诸如语音数据)。

用户设备可以具有诸如麦克风的音频输入装置，其能够用于接收来自用户的诸如语言的音频信号。用户可以进入与另一用户的通信会话，诸如私有通话(在通话中仅有两个用户)或者会议通话(在通话中有两个以上的用户)。用户的语音在麦克风处接收到，经过处理，然后经由网络发送到通话中的其它用户。用户设备还可以具有诸如扬声器的音频输出装置，用于将在通话期间经由网络自远端用户接收的音频信号输出到近端用户。这些扬声器还能够用于从在用户设备处执行的其它应用输出音频信号，并且该音频信号可能被麦克风拾取作为非期望的音频信号，该非期望的音频信号将干扰来自近端用户的语音信号。

连同来自用户的音频信号一起，麦克风还可以接收其它音频信号，诸如背景噪声，其是非期望的并且可能干扰从用户接收到的音频信号。背景噪声可能会带来对在麦克风处从近端用户接收到而在通话中传输到远端用户的音频信号的干扰。

发明内容

提供该发明内容以便以简化的形式来引入下面的具体实施方式中进一步描述的概念的选择。该发明内容不旨在确定所要求保护的主题的关键特征或主要特征，也不旨在用于限定所要求保护的主题的范围。

公开的是一种音频信号处理设备，其具有用于输出模拟音频信号的扩音器组件和用于接收模拟音频信号的麦克风组件。该设备包括音频接口。音频接口被配置为以数字形式接收在设备上生成的以便经由扩音器组件输出的任何音频信号以及从所述音频信号生成模拟形式的送出音频信号(outgoing audio signal)以便供给到所述扩音器组件。音频接口被配置为，在生成所述送出音频信号时，将动态范围压缩应用于所述音频信号。设备还包括处理器，处理器被配置为执行软件。该软件被配置为接收进入音频信号(incomingaudio signal)并且从进入音频信号生成数字形式的音频信号。由软件生成的音频信号被供给到音频接口以便由扩音器组件输出并且用作经由麦克风组件接收到的音频信号的音频信号处理的基准。

生成音频信号包括软件将初始非线性振幅处理应用于进入音频信号以修正其功率包络，所述音频信号因此具有修正后的功率包络。音频信号的修正后功率包络足够平滑以使得当动态范围压缩由音频接口应用于所述音频信号时基本上不受动态范围压缩影响。

附图说明

为了辅助理解本主题并且显示出如何将本主题投入实际使用，现在通过示例的方式参考以下附图，在附图中：

图1示出了通信系统的示意图；

图2是用户设备的示意性框图；

图3是根据一个实施例的回波消除技术的示意功能图；

图3A是根据另一实施例的回波消除技术的示意功能图；

图3B是根据另一实施例的回波消除技术的示意功能图；

图4是回波消除过程的流程图；

图5A是动态范围向下压缩函数的示意性表示；

图5B是动态范围向上压缩函数的示意性表示；

图6A和6B是音频信号功率包络的示意性比较；

图7是查找表的示意图。

具体实施方式

现在仅通过示例的方式来描述实施例。

图1示出了通信系统100，通信系统100包括与第一用户设备104相关联的第一用户102(“用户A”)和与第二用户设备110相关联的第二用户108(“用户B”)。在其它实施例中，通信系统100可以包括任意数量的用户和相关联的用户设备。用户设备104和110能够通过通信系统100中的网络106来通信，从而允许用户102和108彼此通过网络106通信。图1所示的通信系统100是基于分组的通信系统，但是可以使用其它类型的通信系统。网络106可以是例如因特网。用户设备104和110中的每一个可以是例如移动电话、平板设备、膝上型设备、个人计算机(“PC”)(包括例如Windows^TM、Mac OS^TM和Linux^TM PC)、游戏设备、电视、个人数字助理(“PDA”)或能够连接到网络106的其它嵌入式设备。用户设备104被布置成从用户设备110的用户108接收信息以及输出信息给用户设备110的用户108。用户设备104包括诸如显示器和扬声器的输出装置。用户设备104还包括诸如键板、触摸屏、用于接收音频信号的麦克风和/或用于捕获视频信号的图像的照相机的输入装置。用户设备104连接到网络106。

用户设备104执行由与通信系统100相关联的软件提供商所提供的通信客户端的实例。通信客户端是在用户设备104中的本地处理器上执行的软件程序。客户端执行在用户设备104处所需的处理以便用户设备104经由通信系统100发送和接收数据。

用户设备110对应于用户设备104并且在本地处理器上执行对应于在用户设备104处执行的通信客户端的通信客户端。在用户设备110处的客户端执行所需的处理以允许用户108以与用户设备104处的客户端执行所需处理而允许用户102经由网络106通信的方式相同的方式来经由网络106通信。用户设备104和110是通信系统100中的端点。为清晰，图1仅示出了两个用户(102和108)以及两个用户设备(104和110)，但是更多的用户和用户设备可以包含在通信系统100中，并且可以利用在他们相应的用户设备上执行的相应的通信客户端经由通信系统100来通信。

除了设备上的本地处理器之外，设备典型地具有专门的音频信号处理模块(诸如，声卡)。该音频信号处理模块为用户设备执行音频处理功能，诸如对在麦克风处捕获的音频信号的模拟数字转换(ADC)以及对从扬声器播出的音频信号的数字模拟转换(DAC)。为了使用音频信号处理模块，在设备上的本地处理器上执行的操作系统(OS)通常需要特定的软件。例如，为了使用声卡，OS通常需要特定的声卡驱动器(处置声卡的物理硬件与操作系统之间的数据连接的软件程序)。

声卡硬件和声卡驱动器软件构成了本文所使用的“音频接口”的示例。一般地，音频接口是设备(例如，用户设备104、110)的组件(例如，软件、硬件或两者的组合)，其被配置为以数字形式接收在该设备上生成的以便经由扩音器组件输出的任何音频信号以及从所述音频信号生成模拟形式的送出音频信号以便供给到扩音器组件。

常见的是，音频接口(也即，驱动器软件和/或硬件本身)引入对播出信号(即，待从扬声器输出的信号)的影响从而最大化用户体验(例如，包含在驱动器和/或硬件中的响度增强效果)。这些效果是通过音频接口的信号处理模块来实现的，其功能是在使用OS中可用的播出系统的、在设备上的本地处理器上执行的应用(例如，通信客户端)的控制之外的，并且可能不为其所知。例如，常见的是硬件制造商在例如膝上型设备、智能手机、平板设备等中的扩音器设置中包含“动态范围压缩”(例如，用于针对给定峰值信号电平最大化觉察到的响度的最大化)。

动态范围压缩(还称为动态压缩或简称为压缩)通过缩窄或“压缩”音频信号的动态范围来减少了响亮声音的音量或者放大静音的音量(例如，使得安静的部分更可听和/或防止响亮的部分过度响亮)。向下压缩将特定阈值以上的响亮声音降低同时安静的声音保持不受影响，而向上压缩增大阈值以下的声音的响度同时使得较响亮的音段不变。向下压缩和向上压缩均减小了音频信号的动态范围。

一般地，本公开考虑音频接口，该音频接口被配置为，在由供给的音频信号生成送出音频信号时，将动态范围压缩应用于该音频信号。这种压缩的使用意在增强用户体验，例如，因为用户能够觉察到较响亮的声音。

第一用户设备104和第二用户设备110二者均可以执行声学回波消除。存在两种主要的实现声学回波消除的方式，一种是回波减除，另一种是回波抑制。通常，这两种方法是组合的。

通过第一用户设备104的麦克风捕获的音频信号经由网络106传输以便由第二用户设备110播出。第二用户设备110的麦克风捕获由第一用户设备104传输的音频信号的回波。如果该回波没有完全地消除，则第二用户设备110将其传回第一用户设备104。该接收到的信号通过第一用户设备104的扬声器播出，并且回波通过第一用户设备104的麦克风捕获。如果第一用户设备104中的回波消除器不能完全地去除该回波，则回波信号再次传输到第二用户设备110。

回波消除典型地利用从扩音器前的音频信号处理链中的一点抽取(tap)的基准，该基准典型地是在音频信号供给到扩音器之前的音频信号的某个版本，并且对音频信号的该版本所观察到的回波路径进行建模。该回波路径不仅包括扩音器与麦克风之间的空气接口，而且还包括在音频信号的该版本被抽取的点后应用于音频信号的该版本的、且因此没有反映在基准中的任何后续信号处理。

一般地，当在设备播出的输出中寻求基准时(用于回波消除或某其它基于基准的信号处理)，如果设备应用了在基准中未反映出的未知的非线性处理，则可能会发生问题。

例如，传统的回波消除器更佳地适于对回波路径中的线性失真进行建模并且通常具有导致存在于回波路径中的非线性失真的问题。该非线性回波路径会导致信号中的回波泄漏或回波残差。也即，当在基准与麦克风信号中拾取的回波分量之间存在大致线性关系时，传统的回波消除器典型地表现最佳。

然而，当在通信设备的音频接口中使用动态范围压缩时，其会将非线性引入回波路径中。这对于回波消除器产生了挑战，因为动态范围压缩构成了通过传统回波消除方案建模差的非线性振幅处理，如所论述的。

一些操作系统包括用于将正要播出的信号反馈回到在本地处理器上执行的应用的功能。反馈回到在本地处理器上执行的应用的该信号在下文称为“回送信号”。该回送信号随后可用作回波消除程序中的基准。包含该功能的操作系统的示例是微软的Windows 7、8、XP和Vista，以及Windows Phone 8操作系统。使用回送信号的回波消除器不需要对由音频接口引入的那些非线性失真进行建模(因为音频接口有效地从回波路径去除)，并且因此，回波泄漏是不期望的。然而，回送信号不能为全部操作系统所用。不具有该回送功能的操作系统的示例是Android和iOS移动操作系统。在缺失回送基准信号的情况下，回波消除会失败并且产生回波泄漏以及其它，本公开的一个目的在于防止或至少减少这种回波泄漏。

音频信号，诸如通过麦克风捕获的基本上未经处理的语音，典型地具有随时间变化的峰值信号振幅。也即，音频信号典型地具有随时间变化的功率包络。音频信号的功率包络是反映音频信号功率|x(t)|²中的峰值的变化的音频信号x(t)的特性。音频信号的功率包络能够通过对|x(t)|²(或者|x(t)|²的正则化版本)进行低通滤波来获得，例如，通过在适当的持续期间(参见下文)的时间窗口内取信号功率|x(t)|²或者正则化信号功率的移动平均值(窗口平均值)。

本公开实现了：当应用于具有典型的时变功率包络ENV[|w(t)|²|(其中，ENV[.]是适当的低通滤波器，诸如移动平均函数)的典型的音频信号w(t)时，例如基本上未经处理的语音，动态范围压缩的效果是减少峰值信号功率中的变化，从而平滑该信号的功率包络ENV[|w(t)|²](即，减少其中的变化)。也即，利用压缩来减小动态范围也使得信号功率包络平滑。

然而，本公开进一步认识到，当由函数B(.)表示的动态范围压缩(DRC)被应用于(例如，通过音频接口)具有已经足够平滑的功率包络ENV[|x(t)|²]的音频信号x(t)时，该已经平滑的功率包络基本上不受音频接口DRC B(.)影响，意味着DRC B(.)对于该音频信号x(t)的效果至多是信号功率包络ENV[|x(t)|²]的基本上线性振幅变换；也即，音频信号功率包络的基本上线性的标定其中c是常数，Δ(t)基本上为零。在多频带方案中，该关系变成其中每个i指示不同的滤波器组容器(filter bank bin)，并且Δ_i(t)对于每个i基本上为零。

本公开进一步在音频信号处理设备(例如，用户设备)的背景下利用该实现，音频信号处理设备具有扩音器(或类似部件)、麦克风(或类似部件)以及上述种类的音频接口，即，在设备上的软件生成用来输出的任何音频信号如果要经由扩音器输出则必须供给到该音频接口，该音频接口使得供给的音频信号经过不能受软件控制的‘非自发’动态范围压缩B(.)。经由麦克风接收到的音频信号经过基于基准的音频信号处理，基于基准的音频信号处理利用基准(例如，如上所提及以及如下文进一步详述的回波消除)。

更具体地，主题采用前述实现通过软件在预处理步骤应用初始的‘自发’非线性振幅处理(例如，初始DRC)于进入音频信号w(t)以修正其在软件域内的功率包络，从而生成具有修正后的功率包络的数字音频信号x(t)——修正后的功率包络足够平滑以便基本上不受音频接口DRC B(.)影响(即，使得实现功率包络匹配ENV[|B(x(t))|²]≈c*ENV[|x(t)|²]，参见上文)，其能够通过使得初始DRC足够进取(aggressive)来实现(参见下文)。通过在预处理步骤中衰减，通过应用初始DRC以压缩信号，未知的非线性处理的德尔塔效应(上文的Δ(t))预期会少很多。

在多频带方案中，对于每个子频带i的匹配ENV[|B(x_i(t))|²]≈c*ENV[|x_i(t)|²]，可通过在每个子频带i中单独应用DRC(多频带DRC)来实现。如果音频接口的未知处理的已知的不同子频带是已知的，则这可以进行优化，至少粗略地因为能够在软件域中执行等价的滤波器组划分(即，将多频带软件DRC的子频带匹配那些未知的处理)。

在实施例中，应用DRC，其足够进取以使得进一步顺着信号路径下行的(未知的)处理在衰减方面不具有大的德尔塔效应。

在应用诸如初始DRC的足够进取的初始非线性振幅运算时(其可以或者可以不类似于音频接口压缩)，在音频接口已经对其进行运算之后对修正后的功率包络的净效应小。如参考下文变得显而易见的，定义功率包络的窗口可以具有对于不同实现方式变化且取决于应用到麦克风信号的信号处理的本质的多个适当的持续期间，窗口定义了音频信号基本上不受音频接口处理影响的时间尺度。例如，其中信号处理是回波消除，适当的持续期间由回波消除器的时间尺度来确定，并且需要足够小以显示出不能适应的差别(例如，因为它们过于突然)作为系统增益变化，系统增益变化反映在麦克风信号中，例如，过于突然而不能由回波消除器适应的系统增益变化，就好像它是由移动扬声器和麦克风更靠近或者更分开而引起的(典型地，回波消除器能够适应类似这样的变化)。

例如，对于典型的基于抑制的回波消除形式的信号处理，期望定义在具有数百毫秒大小的数量级(例如近似200ms，这是约略的数字)的窗口内的音频信号x(t)的功率包络足以基本上不受音频接口处理影响而实现期望的效果。如参考下文将意识到的，这些值仅旨在示范，而且将取决于回波抑制的本质而变化(下文进行讨论)。

在该上下文中，音频接口动态范围压缩能够被视为“快速动作自动增益控制”，其中“快速”意指对于音频信号处理(例如，回波消除)而言过快而不能跟得上将导致缺少初始动态范围压缩的增益变化(例如，对于回波消除器而言过快而不能适应且因此会导致回波泄漏的变化)。然而，通过应用初始处理来匹配输入与输出信号功率包络，这防止发生任何这样的快速增益变化。

因为音频信号x(t)产生于软件本身之中，所以软件能够容易地被配置为提供减小动态范围的音频信号x(t)以用作麦克风信号的音频信号处理中的基准。并且，因为在音频信号x(t)供给到音频接口时音频信号x(t)的动态范围已经足够窄，所以由该信号x(t)观察到的回波路径由于音频接口DRC B(.)而不包含任何非线性——也即，音频接口的任何固有的非线性特性(由于DRC B(.)引起)不会显现在音频接口的输出B(x(t))中，并且因此当将基于基准的音频信号处理应用于拾取了扩音器输出的麦克风信号时，不必对其进行解释。

也即，基准与麦克风信号中的任何回波分量之间的非线性振幅差(由于B(x(t))是在当经由扩音器输出时拾取的)减小，这样能够简化音频信号处理以及其它。

当Δ(t)(或者对于每个i的Δ_i(t))足够小而使得其不显著地影响信号处理(例如，足够小以使得信号处理能够在假设基准与麦克风信号中的回波分量之间的线性关系的假设下正确地起作用)时，软件生成的信号x(t)和来自音频接口的送出音频信号B(x(t))被视为匹配。也即，一般地，用于匹配信号的具体标准是情形相关的并且尤其取决于应用于麦克风信号的信号处理的本质。

例如，在信号处理是回波消除的情况下，回波消除被简化，因为音频接口的非线性特性不必被建模(因为这些特性没有显现在音频接口的输出B(x(t))中)。初始软件DRC的非线性特性也不必被建模，因为由于软件压缩信号x(t)用作基准所以软件DRC有效地布置在建模的回波路径之前。

在回波消除的情况下，当Δ(t)(或者对于每个i的Δ_i(t))足够小而不会引起回波消除过程中的显著伪迹(artefact)时，例如足够小而不会引起回波泄漏，软件生成的信号x(t)和来自音频接口的送出音频信号B(x(t))的功率包络被视为匹配。回波消除器典型地对于回波路径中的小的非线性具有一定的鲁棒性(以防止小的非线性引起回波泄漏)，并且在该情况下，当回波消除器对于Δ(t)(或者Δ_i(t))鲁棒时，包络被视为匹配。例如，回波抑制器可以应用过抑制以提供该鲁棒性，并且在该情况下，至少当Δ(t)(或者Δ_i(t))足够小以由过抑制补偿时信号包络才被视为匹配(下文论述)。

主题尤其而非排他地应用于音频接口的输出B(x(t))不能在用户设备上的软件中使用的情形(例如，没有可用的回送信号的情况)。

图2图示出用户设备104的详细视图，在该用户设备上执行通信客户端实例206以便经由通信系统100通信。用户设备104包括一个或多个中央处理单元(“CPU”)202，连接到它的有：输出设备，诸如显示器208，其可以实现为触摸屏；以及用于输出音频信号的扬声器(或者“扩音器”)210；用于接收音频信号的诸如麦克风212的输入设备；用于接收图像数据的照相机216，以及键板218；用于存储数据的存储器214；以及用于与网络106通信的诸如调制解调器的网络接口220。扬声器210经由音频信号处理模块209连接到CPU 202。用户设备104可以包括诸如图2所示的其它元件。显示器208、扬声器210、麦克风212、存储器214、照相机216、键板218和网络接口220可以集成到用户设备104中，如图2所示。在可替代的用户设备中，显示器208、扬声器210、麦克风212、存储器214、照相机216、键板218和网络接口220中的一个或多个可以不集成到用户设备104中并且可以经由相应的接口连接到CPU 202。该接口的一个示例是USB接口。如果用户设备104与网络106的经由网络接口220的连接是无线连接，则网络接口220可以包括用于将信号无线发送到网络106以及无线地接收来自网络106的信号的天线。

图2还图示出在CPU 202上执行的操作系统(“OS”)204。在OS 204上运行的是通信系统100的客户端实例206的软件。操作系统204管理计算机的硬件资源并且处置经由网络接口220发送到网络106以及发送自网络106的数据。客户端206与操作系统204通信并且管理经由通信系统的连接。客户端206具有客户端用户接口，其用于向用户102呈现信息以及接收来自用户102的信息。通过这种方式，客户端206执行允许用户102在通信系统100上通信所需的处理。在该示例中，OS 204不提供客户端206使用的回送信号。

CPU 202还执行驱动器软件(未示出)，其将软件接口提供给音频信号处理模块209。生成以便在用户设备140上输出(例如，由客户端和其它应用)的任何音频数据在将要经由扬声器210输出时必须供给到音频信号处理模块209进行处理。

参考图3，现在描述一种回波消除的方法。图3是用户设备104的部分的功能图。

如图3所示，用户设备104包括音频接口306，其代表了音频信号处理模块209及其关联的驱动器软件的组合功能。用户设备104还包括扬声器210、麦克风212和信号处理模块300。信号处理模块300(诸如图3中的虚线框所示)代表了通过在设备104的CPU 202上执行通信客户端应用206所实现的信号处理功能。信号处理模块包括：非线性振幅处理模块，其为动态范围压缩(DRC)模块302的形式；建模模块304，其包括滤波器模块、降噪模块308以及回波消除模块，回波消除模块是抑制模块310以在该实施例中实现回波抑制，但是在其它实施例中可以可替代地或者另外实现回波减除。通过执行通信客户端应用206所实现的信号处理功能可以包括比图3所示更多或更少的功能。

为了对回波路径增益建模以及估计通过麦克风捕获的回波，需要基准信号，其为标记为x(t)的信号。该信号代表了通信客户端发送(经由网络106)以便从扬声器播出的且在其经由扩音器210输出之前经过了位于软件客户端域之外的音频接口306的后续处理的音频信号w(t)(通过压缩模块302处理)的处理后版本。

如上所述，音频接口进行的该进一步的处理包括在信号处理模块300的控制之外的(进一步的)动态范围压缩。

待从扬声器210输出的进入音频信号w(t)与DRC模块302的输入耦合。信号处理模块300与音频接口306耦合。特别地，增益模块303的输出x(t)＝A(w(t))(标示“远端信号”)与音频接口306的输入耦合。增益模块302的输出还与建模模块304的第一输入耦合。音频接口306的输出与扬声器210耦合。应当注意，在本文所述的实施例中，仅存在一个扬声器(通过图中的附图标记210来指示)，而在其它实施例中，可以存在多于一个的扬声器，待输出信号与扬声器耦合(用于从其中输出)。类似地，在本文所述的实施例中，仅存在一个麦克风(由图中的附图标记212指示)，但是在其它实施例中，可以存在从周围环境接收音频信号的多于一个的麦克风)。麦克风212的输出y(t)与信号处理模块300耦合。特别地，麦克风212的输出y(t)与降噪模块308的输入耦合。麦克风212的输出y(t)还与建模模块304的第二输入耦合。建模模块304的输出与回波抑制模块310的第一输入耦合。降噪模块308的输出与回波抑制模块310的第二输入耦合。回波抑制模块310的输出用于提供接收的信号(已经应用了回波消除)以便在用户设备104中进一步处理。

此处，函数“A(.)”是预处理算子，其应用动态范围压缩(例如，最大化)；也即，“A(.)”表示在生成输出x(t)＝A(w(t))时由DRC模块302执行的函数。音频信号x(t)是用作回波消除基准的信号，并且还送到驱动器(即，送到音频接口)以便播出。

图4是信号处理模块300的过程的流程图。

在步骤S400中，接收到进入音频信号w(t)，其是从扬声器210输出的。例如，待输出信号可以是远端信号，其在用户102与108之间经由通信系统100进行通话的期间在网络接口220处从用户设备110接收到用户设备104处。在其它实施例中，待输出信号可以从除了在通话中经由通信系统100之外的某处接收。例如，待输出信号可能已经存储在存储器214中，并且步骤S400可以包括从存储器214取回信号。

在步骤S402中，软件DRC压缩模块302将初始动态范围压缩——由函数A(.)表示——应用于进入音频信号w(t)以减小其动态范围，从而生成具有减小的动态范围(即，压缩的音频信号)的音频信号x(t)＝A(w(t))。在应用软件级(通过客户端应用206)以数字形式生成压缩的音频信号x(t)＝A(w(t))。

在实施例中，初始动态范围压缩可以构成对进入音频信号w(t)执行的向下压缩函数和/或向上压缩函数，由此通过将电平相关增益应用于进入信号w(t)，进入信号w(t)的较响亮部分相对于较安静部分减少。

向下压缩函数的示例图示在图5A的曲线图500中。对输入信号(当通过DRC模块302实现时为w(t))执行向下压缩函数以生成具有比输入信号窄的动态范围的输出信号(当通过DRC模块302执行时为x(t))。曲线图500显示出作为以dB(“分贝”)计的输入信号电平的函数的以dB计的输出信号电平。向下压缩函数具有阈值T和比率R:1(R≥1)的形式的参数，其以如下方式确定向下压缩的本质和程度。

如图5A所示，对于具有阈值电平T以下的电平的输入信号的每个(时间的)部分，该部分的电平基本上不受向下压缩影响。也即，在该阈值以下，电平相关增益具有基本为0dB的恒定值(等于线性域中的增益1)。

相反，对于具有阈值T以上的电平的信号的每个(时间的)部分，该部分的电平按比率R:1所确定的量衰减。具体地，对于具有超过阈值T的特定电平IN的输入信号的特定部分，该特定部分衰减而具有降低的电平也即，衰减了以dB计的量(其是电平相关的，因为衰减量取决于输入电平IN)。

压缩具有进取性，其至少部分地通过阈值和比率值来实现。动态范围压缩的进取性意味着输出音频信号的动态范围相对于输入信号的动态范围减小的程度——较低(相应地较高)的阈值和较高(相应地较低)的比率实现了更多(相应地更少)的进取性的动态范围压缩。

在图5B的曲线图500’图示出了向上压缩函数的示例。向上压缩函数也对输入信号(当通过DRC模块302实现时为w(t))执行以生成具有比输入信号窄的动态范围的输出信号(当通过DRC模块302执行时为x(t))。曲线图500’显示出作为以dB(“分贝”)计的输入信号电平的函数的以dB计的输出信号电平。向上压缩函数还具有阈值T和比率R:1(R≥1)的形式的参数，其以如下方式确定向下压缩的本质和程度。然而，与图5B的向下压缩对比，对于具有阈值电平T以上的电平的输入信号的每个(时间的)部分，该部分的电平基本上不受向上压缩影响。也即，在该阈值以上，电平相关增益具有基本上为0dB的恒定值(等价于线性域内的增益1)。对于具有阈值T以下的电平的信号的每个(时间的)部分，该部分的电平提升了按比率R:1所确定的量。具体地，对于具有位于阈值T以下的特定电平IN的输入信号的特定部分，该特定部分被提升为具有增加的电平

此处，音频信号a(t)的“动态范围”(例如，A(x(t)))是指该音频信号a(t)的较响亮部分与较安静部分之差并且能够按例如应用于音频信号a(t)或功率包络ENV[|a(t)|²|]的统计测量进行量化，例如(移动)标准差，曲线的差值的(移动)范数，等等。

如将意识到的，这些仅是简单动态压缩器的示例。可替代的压缩器可以通过另外的参数而参数化，另外的参数诸如攻击时间(其确定了一旦该信号的电平开始超过阈值则压缩器响应以衰减输入信号的速度)、释放时间(其确定了一旦信号电平降至阈值以下则压缩器返回0dB增益的速度)、和/或拐点(其起到平滑从阈值以下的无衰减区域到阈值以上的电平相关衰减区域的过渡的作用)。通过减小(相应地增加)攻击时间或释放时间，和/或通过减小(相应地增加)拐点，能够增加(相应地减小)压缩的进取性。

此外，可替代地或者另外地，压缩器可以是多频带压缩器，其中信号的两个或更多个的相应的频带中的两个或更多个的频率分量被彼此单独压缩——在该情况下，相应量的增益基于频率分量的电平而应用于每个信号。对于每个频率分量，可以存在确定待应用于该频率分量的增益的单个相应的阈值和/或比率(和/或其它参数)，或者相同的参数可以用于不同的频率分量。

在一个实施例中，软件DRC构成了最大化器，其应用增益量于信号w(t)，该量取决于信号w(t)的电平，进取性具有大小为10ms的数量级(其将被视为极有进取性)。

在该上下文中，进取性是指软件DRC(例如，最大化器)的时间常数τ。时间常数确定了通过改变其应用于信号w(t)的信号电平的变化的电平相关增益的软件DRC反应有多快(适应时间)。例如，在w(t)的电平变化了δ₁而引起电平相关DRC增益最终变化了δ₂的情况下，对于具有时间常数τ的软件DRC，电平相关增益将花费近似τ来使电平相关增益变化即，实现近似63％的分数变化。

如将意识到的，10ms数量级的大小是粗略的数字，如将要论述的，其实际上对于信号处理(例如，回波消除)的本质具有显著相关性。如将意识到的，实际上，软件DRC的进取性可以适当地在设计阶段进行调谐，作为正常设计过程的部分。

在实施例中，初始(软件)动态范围压缩可以具有比音频接口所应用的动态范围压缩短的时间常数。也即，初始动态范围压缩可以比打算取消的音频接口处理的期望类型的快。这具有在比音频接口处理的响应时间短的时间尺度上平滑x(t)相对于w(t)的功率包络的效果，有助于确保x(t)基本上不受该接口处理影响。

在步骤S404中，远端信号x(t)供给到音频接口306，音频接口306执行远端信号的数字模拟转换(DAC)，从而生成模拟形式的送出音频信号以供给扩音器210。

如所表明的，在S404处生成送出音频信号时，音频接口306将其自身(进一步的)动态范围压缩应用于已经压缩的远端信号x(t)(已经由DRC模块302压缩)，在该实施例中该进一步DRC是在客户端应用206的控制之外的。

例如，音频接口还可以实现如图5所示的向下动态范围压缩函数(x(t)作为输入信号且B(x(t))作为输出信号)，具有其自身阈值和比率(和/或其它参数，频带等)。

然而，如所表明的，在S402处应用的初始DRC的调谐足够进取以生成具有基本上不受音频接口306所应用的DRC影响的足够窄的动态范围的压缩音频x(t)。因此，尽管音频接口正在应用其自身DRC于客户端206控制之外的已经压缩信号的事实，但是实际上没有将非线性引入x(t)实际上观察到的回波路径。

这示意性地图示在图6A和图6B中，这些图图示出示范性的理想化的情况。图6A代表了没有使用软件DRDC 304的情形，并且其中进入音频信号w(t)直接用作基准和到音频接口306的输入。图6A分别显示出基准和音频接口输出的功率包络602、604(例如，在近似200ms的窗口内定义，参见上文)，在该方案中基准是w(t)，以及音频接口输出在该方案中是送出信号B(w(t))。如图6A中可见，这些功率包络具有显著变化的相应的形状。特别地，w(t)的功率包络602比B(w(t))的功率包络基本上不太平滑(即，展现出基本上更多的变化)。

相反，图6B图示出本公开的上述方案，其中使用软件DRC 304来生成既用作基准又用作到音频接口306的输入的压缩信号x(t)。图6B分别显示出基准x(t)(与w(t)相对)和音频接口输出B(x(t))(与B(w(t))相对)的功率包络606、608(例如，在近似200ms的窗口内定义，参见上文)。如图6B可见，与图6A相比，这些功率包络具有基本上匹配的相应的形状。如上所述，功率包络代表了信号功率(或标准化信号功率)的移动窗口平均。因此，在不同信号具有匹配的功率包络的情况下，这表达了那些信号在由窗口尺寸定义的时间尺度上彼此匹配的事实。在回波消除的情况下，窗口尺寸需要足够小以显示出过于突然而不能适应系统增益变化的差别(也即，过于突然而不能适应，好像它们是由于比如将扬声器210和麦克风212移动得靠近/进一步分开而得到的一样)。

软件生成的音频信号与送出音频信号之间的振幅变化会出现在该信号的功率包络中没有反映的那些信号的较高频率分量中(因为该功率包络仅反映较低频率分量)。然而，典型地，基于抑制的声学回波消除器由于鲁棒性原因而具有某程度的过度抑制(即，它们应用于麦克风信号的回波抑制增益的量超过了理论上从麦克风信号中去除回波分量所必要的回波抑制增益的量)。因此，在该上下文中，用于定义功率包络的适当的窗口将具有足够小以确保在包络中没有反映出的振幅波导足够小以便由过度抑制解释的持续期间。

本公开因此考虑了音频信号处理(例如，回波抑制)，其对软件生成的音频信号(基准)的较高频率分量与功率包络中没有反映出的送出音频信号之间的振幅差鲁棒，而对如果存在的情况下将反映在功率包络中的较低频率分量之间的振幅差不鲁棒。因此，匹配信号的功率包络是足够的，因为这基本上消除了较低频率分量，而无需对较高频率分量进行不必要的考虑。

在调谐软件DRC 302时，例如，作为软件设计过程的部分，可以假设普通模型，其中进取提升衰减应用于预处理步骤，而无需音频接口306执行的DRC的任何知识(如上文所述)。

然而，在实施例中，通用模型可通过对音频接口自身非线性处理(DRC)的特性(例如，参数)进行建模或者进行其它检测/推导来增强。目标是构建一个使得信号的变化可忽略的模型，如将意识到，这可以通过多种方式来实现。

也即，虽然客户端206不能对音频接口306应用的动态范围压缩进行控制，但是一些实施例提供了客户端能够借以至少确定有关音频接口应用的DRC的本质的信息，然后自动地在S402处实况的方案中调谐软件DRC模块(例如，一旦客户端已经安装到用户设备104上并且在处理器202上实例化)。

在如图3A中示意性图示的一个这样的实施例中，查找表322以客户端206可访问的方式存储，例如存储在本地存储器214或者远程存储器中，例如在客户端206能够经由网络106访问的与网络106连接的服务器和/或数据中心处的远程存储器中。如图3A所示，在该实施例中，信号处理模块(通过客户端106来实现)包括与如图3A所示相同的组件，并且还包括用于访问查找表312且具有被配置为接收有关执行客户端106的用户设备104的设备信息的输入的第一控制器320。在该实施例中，软件DRC模块302具有与第一控制器320的输出连接的第一附加输入，通过该第一附加输入，第一控制器320能够配置DRC模块302的参数(诸如上文提到的那些参数)。

在操作中，第一控制器320可以例如被配置为在客户端206执行于用户设备104上时请求来自操作系统204的设备信息。该信息可以OS 204能访问的方式存储在存储器214中。可替代地，存储的信息可由客户端106直接访问。设备信息可以例如包括设备制造商的标识符和设备的型号、有关音频接口硬件的信息(例如，制造商和型号ID)、音频接口驱动器(例如，驱动器版本号)等中的一项或多项。

如图7所示，查找表322包括多个关联702、704，每个关联将一个或多个设备信息与用于调谐DRC模块420的一组一个或多个参数值(例如，阈值和/或比率值，等等)相关联。

第一控制器320基于接收到的设备信息根据所述查找表322来确定相关联的一组DRC参数值并且将DRC模块302的参数配置到那些值(例如，设定阈值到相关联的阈值的值，设定比率到相关联的比率的值，等等)。

查找表322可以‘离线’汇编，例如通过软件设计者在不同制造商制造的不同的设备模型上运行客户端，手动调谐DRC模块302的参数以实现期望的结果，以及将优化的参数记录在查找表312中，以便‘在线’使用。查找表能够随时间而更新，并且更新可以分布为例如客户端软件更新的部分，或者在表格远程存取的情况下分布到适当的服务器上。

在另一这样的实施例中，客户端206被配置为检测音频接口的性质，例如，检测其正将多少DRC(如果有的话)应用于远端信号，例如，通过将供给到音频接口的远端信号x(t)与麦克风信号y(t)进行比较。如图3B所示，在该实施例中，信号处理模块300包括第二控制器330，该第二控制器具有被配置为接收近端信号x(t)和麦克风信号y(t)的第一输入和第二输入。在该实施例中，DRC压缩模块具有连接到第二控制器330的输出的第二附加输入。

用于检测非线性振幅处理(诸如DRC)是否存在于信号路径中以及当存在于该信号路径中时通过信号比较用于进一步检测压缩量的过程描述于申请号为GB1321052.1的申请人的共同未决UK专利申请中。该过程涉及到将第一音频信号和第二音频信号进行比较，以检测指示第一信号的该处理包含动态范围压缩的条件，第二音频信号是第一音频信号的处理后的版本。该过程是能够由第二控制器330以远端信号x(t)作为第一信号且将麦克风信号y(t)作为第二信号实现的过程的示例，从而使得第二控制器302检测音频接口306是否已经在回波路径中添加了压缩以及在何种程度上添加了压缩。

在实现GB1321052.1的过程中，第二控制器利用了如下事实：每当信号x(t)的动态范围进一步被音频接口306减小时，麦克风信号y(t)的标准化版本的振幅分布将具有不同于近端信号x(t)的标准化版本的对应的振幅分布的形状的形状，但是相反，每当音频接口306不改变信号x(t)的动态范围时，这些分布的形状将基本上匹配。此处，音频信号的标准化的版本意味着已经经过了音频标准化的该信号的版本。音频标准化是信号在振幅上经过均匀地进行标度调节而具有共同峰值振幅大小，例如，比如0dBFS(“相对于满标的分贝数)的预定峰值大小的过程，是本领域已知的技术。

如本文所使用的，信号a(t)(即，在时间t具有振幅a(t))的“振幅分布”D_a(t)定义在值V的集合上(跨过V的集合)，对应于信号振幅a的一个或多个可能的值的集合V中的每个值v∈V(例如，集合V是定义了分布的一组信号振幅的值，例如，范围[a₁，a₂]，每个值v∈V是信号振幅；集合V是信号振幅的函数的一组值，例如，范围[f(a₁)，(a₂)]，诸如[|a₁|，|a₂|])。对于集合V中的每个值v∈V，分布具有尺寸D_a(t)(v)，该尺寸与对应于该值v∈V的振幅出现在信号a(t)中的观察平均率有关(例如，与其成比例)(例如，对于在一组振幅大小[|a₁|，|a₂|]上定义的分布D_a(t)，分布的尺寸D_a(t)(|a_n|)与具有大小|a_n|的振幅——其是两个振幅a_n和-a_n——出现在信号a(t)中的观察率有关)。对于数字采样的音频信号，振幅分布可以是定义在一组值B上的直方图H_a(t)，每个值是容器b∈B，每个容器是振幅的值的范围b＝[|a_m|，|a_n|)(其是振幅大小值大于或等于|a_m|而小于|a_n|的范围)，以使得直方图定义在一组这样的容器B＝{b₁＝[|a₁|，|a₂|)，b₂＝[|a₂|，|a₃|)，...}上，对于每个容器b∈B，直方图H_a(t)具有尺寸H_a(t)(b)，该尺寸与振幅出现在具有在该容器b＝[|a_m|，|a_n|)内的大小的信号a(t)的观察平均率有关(即，具有在范围[|a_m|，|a_n|内的大小)。在该示例中，每个容器(即，分布集合B的每个值b)对应于在该容器b中具有相应大小的振幅。

在S402，第二控制器基于检测到的条件来自动调谐DRC模块302的参数。例如，初始软件DRC的进取性可以增加直至在回波路径中没有观察到DRC型的效应(即，直至振幅分布的形状或多或少收敛)。可替选地，检测到的条件可用作初始DRC的二进制开/关切换(当没有检测到音频接口DRC时为关，而当其它时候为开)，或者选择(例如，不同级别的进取性的)多个初始DRC模型中的一个。

在步骤S406在，已经由音频接口306处理的送出音频信号从扬声器210输出。通过该方式，已经由音频接口306处理过的送出音频信号输出给用户102。

在步骤S408中，麦克风212接收音频信号。如图3所示，接收到的音频信号可以包括为期望信号或“主要信号”的近端信号。近端信号是用户102想要麦克风212接收到的信号(在图3中标记为近端)，例如，语音。然而，接收到的音频信号还包括由在步骤S406中从扬声器210输出的音频信号得到的回波信号。接收到的音频信号还可以包括噪声，诸如背景噪声(未示出)。因此，接收到的全部音频信号y(t)能够由近端信号、回波和噪声之和给出。回波和噪声充当近端信号的干扰。虽然图3中没有示出，模拟数字(ADC)转换应用于由麦克风212捕获的信号以得到数字信号y(t)。

建模模块304取信号处理模块300(远端的、压缩信号)的输出x(t)和接收到的音频信号y(t)作为输入。在步骤S410中，建模模块304用于对接收到的音频信号y(t)中的回波的回波路径进行建模。

回波路径描述了从扬声器210输出的音频信号行进到达麦克风212的声学路径的效果。音频信号可以从扬声器210直接行进到麦克风212，或者其可以在近端终端的环境中从各个表面反射。从扬声器210输出的音频信号所遍历的回波路径可被视为具有随时间而变化的频率和相位响应的系统。

为了从近端麦克风212处记录的信号y(t)中去除声学回波s(t)，需要估计回波路径如何将期望的远端扬声器输出信号变成输入信号中的非期望的回波分量。

回波路径建模在该情况下假设近似线性的回波路径，即，假设回波路径的输出信号振幅与回波路径的输入信号振幅线性地成比例，该假设由于DRC模块302的效应而更可能成立，因为该DRC模块显著地降低了音频接口306将非线性引入压缩的信号x(t)所观察到的回波路径中的可能性(参见上文)。

对于近似线性的回波路径，回波路径h(t)描述了接收到的音频信号y(t)中的回波如何与从扬声器210输出的远端信号x(t)相关，例如，对于脉冲响应h(t)根据如下等式所表示的线性回波路径：其中s(t)是接收到的音频信号y(t)中的回波，N_true是由麦克风212接收到的输出的远端信号x(t)的样本的数量，h_n(t)是描述回波路径h(t)的脉冲响应的系数。回波路径h(t)在时间和频率上都可以变化并且在本文可称为h(t)或h(t,f)。回波路径h(t)可取决于(i)扬声器210和麦克风212周围的当前环境条件(例如，从扬声器210到麦克风212的音频信号的通道是否存在任何物理障碍，气压、温度、风力等)，以及(ii)扬声器210和/或麦克风212的特性，其会随着信号被输出和/或接收而改变信号，以及(iii)可能没有在远端信号中反映出的信号的任何其它处理，尤其是，由于音频信号处理模块209进行的处理(但是还可能是由于其它因素，例如缓冲器延迟)。

滤波器模块304通过确定输出的远端信号x(t)的当前值和有限数量(N)的先前值的加权和来对与接收到的音频信号y(t)中的回波相关联的回波路径h(t)进行建模。滤波器模块304因此实现了N阶滤波器，其具有有限的长度(时间上的)，在该有限长度内，在确定回波路径的估计时考虑输出的远端信号x(t)的值。通过该方式，滤波器模块304动态地适应回波路径的滤波器估计该运算是由以下等式来描述的，其根据输出的远端信号x(t)定义了接收到的音频信号y(t)中的回波：因此，输出的远端信号x(t)的N+1个样本被使用，具有相应的N+1个权重N+1个权重的集合在本文简称为回波路径的估计换言之，回波路径的估计是具有N+1个值的向量，其中滤波器模块304实现N阶滤波器，考虑到输出的远端信号x(t)的N+1个值(例如，N+1帧)。

能够意识到，当回波是接收到的音频信号的占优部分时，即，当时，更易于适应回波路径的滤波器估计然而，即使当回波不是接收到的音频信号y(t)的占优部分时，如果回波s(t)独立于y(t)的其它信号分量，则有可能适应回波路径的滤波器估计

本领域技术人员将意识到，回波路径的估计无需明确地计算出，而是可以由从随机梯度算法获得的滤波器系数来表示，随机梯度算法为诸如最小均方(LMS)、标准化最小均方(NLMS)、快速仿射投影(FAP)和递归最小二乘(RLS)。

回波路径的估计用来提供对远端信号滤波以根据回波路径的估计生成麦克风信号y(t)中的回波分量的估计的滤波器系数。无论使用何种特定的算法，利用算法的每次迭代来更新滤波器模块304的滤波器系数，因此，滤波器模块304的系数持续地随时间更新，而无论当前的信号条件如何。

虽然上文的说明是指使用回波路径的时间域FIR模型来估计近端信号y(t)中的回波分量，但是本领域技术人员将意识到，这仅是示例，不以任何方式进行限制。也即，滤波器模块304可以运行以确定回波路径的估计并且因此确定在时间域或频率域中近端信号y(t)中的回波分量的估计

回波路径的估计典型地基于高频信号，因为那些信号是产生最可靠的回波路径估计的信号。

降噪模块308被布置成降低麦克风信号y(t)的噪声水平，而不影响麦克风信号y(t)的语音信号质量。本领域技术人员已知，为了消除噪声的目的，可有各种降噪技术。频谱减除是用来在噪声存在的情况下增强语音的这些方法中的一种。频谱减除使用噪声频谱和有噪声的语音频谱的估计来形成基于信噪比(SNR)的增益函数，其与输入频谱相乘以抑制具有低SNR的频率。该过程的目的是获得包含比原信号少的噪声的音频信号。

建模模块304中的滤波器模块对远端信号x(t)进行滤波以根据回波路径的估计来生成麦克风信号y(t)中的回波分量的估计。

回波抑制模块310被布置成将回波抑制应用于接收到的音频信号y(t)的高电平部分。回波抑制器310的目的是将麦克风信号中存在的扩音器回波，例如，VoIP客户端中的，抑制到足够低以使其在麦克风212拾取的近端声音(非回波声音)的存在的情况下不能被觉察/产生干扰的水平。回波抑制方法在本领域是已知的。此外，通过回波抑制模块310应用的回波抑制方法可以通过多种方式来实现。因此，回波抑制方法的确切的细节没有在此详述。

回波抑制模块310被布置成，在降噪模块308实现的降噪之后，接收麦克风信号中的回波分量的估计和麦克风信号y(t)本身作为输入。回波抑制模块310被布置成确定降噪之后的估计回波的功率和麦克风信号y(t)的功率。在回波抑制模块310中，估计的回波功率连同所确定的麦克风信号y(t)的功率以及过度抑制因素估计模块306的输出一起使用，以形成时间t和频率f的回波抑制增益G(t，f)。回波抑制增益具有将麦克风信号y(t)中的任何回波s(t)抑制(在S414处)到它们不能被觉察的水平的目的。

回波消除模块310输出接收到的信号，回波已经被抑制，例如，以便在设备104上进一步处理。例如，在用户102与108之间的通话中，从回波抑制模块310输出的信号可由客户端206处理(例如，编码和分组)，然后经由网络106传送到用户设备110。另外地或者可替代地，从数字增益控制模块312输出的信号可以由用户设备104用于其它目的，例如，信号可以存储在存储器214中或者作为输入用于在用户设备104处执行的应用中。

虽然在上文中主题在声学回波消除的背景下使用，一般地，该主题可用于使用基准来处理麦克风的任何音频信号处理的背景中，例如，基于在基准与麦克风信号的至少分量之间存在线性关系的假设来处理麦克风信号的任何音频信号处理。

在上述的实施例中，回波去除实现在VoIP系统中(例如，接收到的音频信号可以包括在用户102与108之间经由通信系统100通话的期间用于传送到用户设备110的用户102的语音)。然而，本文所描述的方法能够应用于其中要应用回波消除或其它基于基准的信号处理的任何适合的系统中。

本文所描述的方法可以通过在用户设备104处执行计算机程序产品(例如，客户端206)来实现。也即，计算机程序产品可被配置为在包括用户设备104的声学系统中执行音频信号处理(例如，回波消除)。声学系统还可以包括至少一个另外的用户设备。计算机程序产品具体实施在计算机可读存储介质上(例如，存储在存储器214中)并且被配置为当执行在设备104的CPU 202上时执行本文所描述的任意方法的操作。

在上文中，公开了一种音频信号处理设备，该音频信号处理设备具有用于输出模拟音频信号的扩音器组件以及用于接收模拟音频信号的麦克风组件。该设备包括音频接口。该音频接口被配置为以数字形式接收在设备上生成的以便经由扩音器组件输出的任何音频信号并且从所述音频信号生成模拟形式的送出音频信号以供给扩音器组件。音频接口被配置为，在生成送出音频信号时，将动态范围压缩应用于音频信号。该设备还包括被配置为执行软件的处理器。该软件被配置为接收进入音频信号并且从进入音频信号生成数字形式的音频信号。软件生成的音频信号供给到音频接口，以便由扩音器组件输出并且用作对经由麦克风组件接收到的音频信号的音频信号处理中的基准。

生成音频信号包括软件将初始非线性振幅处理应用于进入音频信号以减小其动态范围，音频信号和由此具有减小的动态范围。音频信号的减小的动态范围足够窄以便当动态范围压缩由音频接口应用于音频信号时基本不受动态范围压缩影响。

例如，初始处理可以是初始动态范围压缩。除了平滑功率包络的期望效果之外，动态范围的减小是初始DRC的固有结果。

一般，本文所描述的任何功能(例如，图3、3A和3B所示的功能模块以及图4所示的功能步骤)可以利用软件、固件、硬件(例如，固定逻辑电路系统)来实现，或者这些实现方式的组合来实现。在图3、图3A，图3B和图4中单独示出的模块和步骤可以或者可以不实现为单独的模块或步骤。本文所使用的术语“模块”、“功能”、“组件”和“逻辑”一般表示软件、固件、硬件或其组合。在软件实现方式的情况下，模块、功能或逻辑代表了当在处理器(例如，一个CPU或多个CPU)上执行时执行规定任务的程序代码。程序代码可以存储在一个或多个计算机可读存储器设备上。本文描述的技术的特征是平台独立的，意指技术可实现在具有各种处理器的各种商业计算平台上。例如，用户设备还可以包括使得用户设备的硬件执行操作的实体(例如，软件)，例如处理器功能块等等。例如，用户设备可以包括计算机可读介质，计算机可读介质被配置为维护使用户设备以及更具体地用户设备的操作系统和相关联的硬件执行操作的指令。因此，指令起到配置操作系统和相关联的硬件执行操作且以此方式实现操作系统和相关联的硬件的变换而执行功能的作用。指令可由计算机可读介质经由各种不同的配置提供给用户设备。

计算机可读介质的一种这样的配置是信号承载介质并且因此配置为将指令(例如，作为载波)发送给计算设备，诸如经由网络。计算机可读介质还可以被配置为计算机可读存储介质且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器(ROM)、光盘、闪速存储器、硬盘存储器以及可使用磁、光和其它技术来存储指令和其它数据的其它存储器设备。

虽然以特定于结构特征和/或方法行为的语言描述了主题，但是应当理解的是，在随附的权利要求中限定的主题不一定局限于上述的具体特征或行为。而是，上述的具体特征和行为被公开作为实现权利要求的示例形式。

Claims

1.一种音频信号处理设备，具有用于输出模拟音频信号的扩音器组件以及用于接收模拟音频信号的麦克风组件，所述设备包括：

音频接口，其被配置为以数字形式接收在设备上生成的以便经由所述扩音器组件输出的任何音频信号，以及从所述音频信号生成模拟形式的送出音频信号以便供给到所述扩音器组件，所述音频接口被配置为在生成所述送出音频信号时将动态范围压缩应用到所述音频信号；以及

处理器，其被配置为执行软件，所述软件被配置为接收进入音频信号并且从所述进入音频信号生成数字形式的音频信号，由所述软件生成的所述音频信号被供给到所述音频接口以便由所述扩音器组件输出并且被用作对经由所述麦克风组件接收到的音频信号的音频信号处理中的基准；

其中，所述进入音频信号具有功率包络以使得，如果所述进入音频信号要供给到所述音频接口以由所述扩音器组件输出，则所述功率包络将由所述动态范围压缩而改变；

其中，生成所述音频信号包括所述软件将初始非线性振幅处理应用于所述进入音频信号以修正其功率包络，所述音频信号因此具有修正后的功率包络；以及

其中，所述音频信号的所述修正后的功率包络足够平滑以便当所述动态范围压缩通过所述音频接口应用于所述音频信号时基本不受所述动态范围压缩影响，基本上不受影响是因为所述音频接口中的任何固有的非线性特性没有显现在所述音频接口的输出中。

2.根据权利要求1所述的音频信号处理设备，其中，所述初始非线性振幅处理是初始动态范围压缩。

3.根据权利要求2所述的音频信号处理设备，其中，所述初始动态范围压缩具有时间常数，所述时间常数具有10毫秒大小的数量级。

4.根据权利要求2或3所述的音频信号处理设备，其中，初始动态范围压缩具有比所述音频接口所应用的所述动态范围压缩的时间常数短的时间常数。

5.根据权利要求1所述的音频信号处理设备，其中，所述音频信号处理基于在所述基准与经由所述麦克风组件接收到的音频信号的分量之间存在基本上线性关系的假设。

6.根据权利要求1所述的音频信号处理设备，其中，所述音频信号处理包括：利用所生成的音频信号作为所述基准，将声学回波消除应用到经由所述麦克风组件接收到的音频信号，从而消除那些信号中的回波。

7.根据权利要求1所述的音频信号处理设备，其中，所述音频接口包括在所述处理器上执行的驱动器软件；以及

其中，通过在所述处理器上执行的应用来接收所述进入音频信号，并且生成所述音频信号，所生成的音频信号被供给到所述驱动器软件。

8.根据权利要求1所述的音频信号处理设备，其中，所述软件被进一步配置为检测由所述音频接口应用的所述动态范围压缩的一个或多个特性，以及基于所检测到的特性来控制所述初始非线性振幅处理；

其中，所述音频信号处理设备包括计算机存储设备和被配置为从所述计算机存储设备取回关于所述设备的至少一个设备信息块的第一控制器；以及

其中，所述第一控制器被配置为访问将所述设备信息块与至少一个非线性处理参数相关联的已存储的关联，以及基于该关联来控制所述初始非线性振幅处理。

9.根据权利要求1所述的音频信号处理设备，其中，所述软件被进一步配置为检测由所述音频接口应用的所述动态范围压缩的一个或多个特性，以及基于所检测到的特性来控制所述初始非线性振幅处理；以及

其中，所述音频信号处理设备包括第二控制器，所述第二控制器被配置为通过将所述音频信号与经由所述麦克风组件接收到的麦克风音频信号进行比较来检测由所述音频接口应用的所述动态范围压缩的特性，以及基于该检测来控制所述初始非线性振幅处理。

10.一种存储用于在音频信号处理设备上执行的软件的计算机可读介质，所述音频信号处理设备具有用于输出模拟音频信号的扩音器组件、用于接收模拟音频信号的麦克风组件，并且包括音频接口，所述音频接口被配置为以数字形式接收在设备上生成的以便经由所述扩音器组件输出的任何音频信号，以及从所述音频信号生成模拟形式的送出音频信号以便供给到所述扩音器组件，所述音频接口被配置为，在生成所述送出音频信号时将动态范围压缩应用到所述音频信号；

其中，所述软件被配置为，当执行时：

接收进入音频信号并且从所述进入音频信号生成数字形式的音频信号；

将所生成的音频信号供给到所述音频接口，以便由所述扩音器组件输出；

提供所生成的音频信号以用作对经由所述麦克风组件接收到的音频信号的音频信号处理中的基准；

其中，生成所述音频信号包括将初始非线性振幅处理应用到所述进入音频信号以修正其功率包络，所述音频信号因此具有修正后的功率包络；以及

其中，所述音频信号的修正后的功率包络足够平滑以便当所述动态范围压缩通过所述音频接口应用到所述音频信号时基本不受所述动态范围压缩影响，基本上不受影响是因为所述音频接口中的任何固有的非线性特性没有显现在所述音频接口的输出中。