CN103325380B

CN103325380B - 用于信号增强的增益后处理

Info

Publication number: CN103325380B
Application number: CN201210080971.2A
Authority: CN
Inventors: 孙学京; 格伦·N·迪金森
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2017-09-12
Anticipated expiration: 2032-03-23
Also published as: US10311891B2; US11694711B2; US20150030180A1; US9584087B2; US10902865B2; US20210217435A1; EP2828852B1; US20220328060A1; EP2828852A1; US20190287548A1; CN103325380A; WO2013142661A1; US20170162212A1; US11308976B2; US20230419983A1

Abstract

本发明涉及一种方法、一种装置以及逻辑，用于对通过输入处理确定的原始增益进行后处理以生成经后处理的增益，包括使用增量增益平滑和判决引导的增益平滑之一或两者。增量增益平滑包括将具有取决于如下增益增量的平滑因子的平滑滤波器应用于原始增益：当前帧的原始增益和前一帧的经后处理的增益之间的差的绝对值。判决引导的增益平滑包括将原始增益转换为信噪比，将具有平滑因子的平滑滤波器应用到信噪比以计算平滑信噪比，以及转换平滑信噪比以确定第二平滑增益，其中平滑因子可能取决于增益增量。

Description

用于信号增强的增益后处理

技术领域

本公开通常涉及音频信号处理。

背景技术

用于减少可以包括语音或其他期望信号分量的单个音频输入信号中的噪声减少技术典型地确定在频域中应用到音频输入信号的频域表示的增益函数。已知许多方法用于该增益确定。我们将该增益确定称为输入处理。由于许多因素，例如所存在的实际噪声的非固定性、方法中的估计误差以及该方法仅去除不需要的信号以隔离期望的信号的一般需要，应用通过该输入处理确定的增益可能产生各种人工产物，诸如话音失真和音乐噪声。音乐噪声人工产物可能因频域中的估计误差引起，其可能在应用所确定的增益函数之后导致信号的频谱表示中的假性峰值。当结果被变换回到时域时，这些峰值对应于频率内容可能随机地和不自然地从帧到帧变化的音调激发。

如这里使用的输入处理方法和系统意味着使用先验信噪比(SNR)估计确定用于噪声减少的增益的方法和系统或者不基于先验SNR确定增益的方法和系统。例如，具有多个输入的输入处理系统可以确定从空间特征得到的增益。具有一个或多个参考信号的输入处理系统可以确定实现回波抑制的增益。输入处理还可以确定用于执行基于知觉域的调平、基于知觉域的动态范围控制和基于知觉域的动态均衡中的一个或多个的增益，它们考虑根据音频信号的复制水平的音频感知的变化，如例如本申请人共有的题为“METHOD，APPARATUSAND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS OFAN AUDIO SIGNAL”的WO 2004111994中描述的那样。

应用这些增益之后的输出可能经受音乐噪声或者其他类型的人工产物。

附图说明

图1A示出了包括本发明的一个实施例的处理例如麦克风信号的输入音频信号的一个示例实施例的框图。

图1B示出了利用可选的回波抑制处理例如来自不同位置的麦克风的信号的一个或多个输入音频信号，并且包括本发明的实施例的一个示例实施例的框图。

图2示出了根据本发明的一个实施例的，用于确定可以经受后处理的带化增益集合的输入处理的一个示例的框图。

图3A和3B示出了通过简单的线性增益平滑得到的经后处理的增益的表面图线和若干个2D(二维)图线。

图4A和4B示出了通过应用本发明的一个实施例的增量增益平滑方法得到的经后处理的增益的表面图线和若干个2D图线。

图5A和5B、6A和6B以及7A和7B示出了通过利用不同参数值的判决引导的增益平滑的形式得到的经后处理的增益的表面图线和若干个2D图线。

图8A和8B示出了通过应用本发明的一个实施例的判决引导的增量增益平滑方法得到的经后处理的增益的表面图线和若干个2D图线。

图9示出了处理装置实施例的简化框图，该处理装置用于处理一个或多个音频输入以确定原始增益集合，对原始增益进行包括根据这里描述的平滑方法使所确定的原始增益平滑的后处理，以及生成已通过应用经后处理的增益进行修改的音频输出。

图10示出了本发明的一个方法实施例的简化流程图。

具体实施方式

现将详细参照若干个实施例，在附图中图示了它们的示例。注意，实际使用的相似或相同的附图标记可以在图中各处使用并且可以指示相似或相同的功能。附图仅出于说明目的示出了所公开的系统(或方法)的实施例。本领域技术人员将根据下面的描述容易地认识到，在不偏离这里描述的原理的情况下可以使用这里说明的结构和方法的替选实施例。

概述

本发明的实施例包括一种方法、一种装置，以及编码在一个或多个计算机可读有形介质中以执行方法的逻辑。该方法用于对通过输入处理确定的原始增益进行后处理。

具体实施例包括一种操作处理装置的方法，包括对通过输入处理一个或多个输入信号确定的原始增益进行后处理。后处理将生成用于应用到信号的经后处理的增益。后处理包括：使用用于确定第一平滑增益的增量增益平滑和用于确定第二平滑增益的判决引导的增益平滑之一或两者确定关于频点集合中的每个频点的经后处理的增益，以及根据第一平滑增益和第二平滑增益之一或两者确定经后处理的增益。增量增益平滑包括将具有取决于当前帧的原始增益和前一帧的经后处理的增益之间的差的绝对值的平滑因子的平滑滤波器应用于原始增益。判决引导的增益平滑包括将原始增益转换为信噪比，将平滑水平由平滑因子控制的平滑滤波器应用到信噪比以计算平滑信噪比，以及转换平滑信噪比以确定第二平滑增益。

在一种形式中，后处理包括具有由增益增量的幂函数加权的平滑因子的增量增益平滑。

在另一形式中，后处理包括判决引导的增益平滑。在一个这样的形式中，用于信噪比的平滑滤波器的平滑因子取决于当前帧的原始增益和前一帧的经后处理的增益之间的差的绝对值。

一种形式包括使用增量增益平滑确定第一平滑增益，使用判决引导的增益平滑确定第二平滑增益，以及组合第一和第二平滑增益以生成经后处理的增益。

具体实施例包括：包括指令的有形计算机可读存储介质，所述指令在被处理系统的一个或多个处理器执行时使处理硬件执行如以上方法实施例描述的对用于应用到信号的增益进行后处理的方法。

具体实施例包括程序逻辑，其在被至少一个处理器执行时使得执行如以上方法实施例描述的方法。

具体实施例包括一种装置，其包括一个或多个处理器以及存储元件，该存储元件包括指令，所述指令在被一个或多个处理器中的至少一个处理器执行时使该装置执行如以上方法实施例描述的方法。

具体实施例可以提供这些方面、特征或优点的全部或一些或者不提供这些方面、特征或优点。具体实施例可以提供一个或多个其他方面、特征或优点，根据这里的附图、描述和权利要求，其中的一个或多个对于本领域技术人员是易见的。

一些示例实施例

本发明的一个方面包括用于增益平滑的增益处理，这些增益用于噪声减少或者用于其他输入处理。

图1A示出了包括本发明的实施例的处理例如麦克风信号101的输入音频信号101的一个示例。处理按照具有许多个，例如M个样本的时间帧进行。时间帧由索引t表示。时间-频率变换器接受具有如本领域中常见的重叠的时间帧的形式的采样输入音频信号101，并且执行时间-频率变换。在一个实施例中，时间-频率变换器实现短时傅立叶变换(STFT)。对于计算效率，变换器使用通过快速傅立叶变换实现的离散有限长度傅立叶变换(DFT)。其他实施例使用不同的变换。

变换信号的频点由k表示，k＝0，...，N-1，并且频域中的输入信号由D(k，t)表示。

这里通过输入处理器105的输入处理确定的关于时间索引t处的频点k(k＝0，...，N-1)的增益由G_t(k，t)表示，该输入处理例如根据噪声减少方法确定增益。对于单通道解决方案，这些方法典型地但不一定在两个步骤中操作。首先，使用噪声频谱估计器，其跟踪输入信号D(k，t)中的噪声分量。其次，通过将增益函数G_t(k，t)应用到输入信号的频域表示D(k，t)来确定时间索引t处的表示为(k，k＝0，...，N-1)的噪声减少信号。根据估计的噪声频谱和(有噪声的)输入音频信号确定G_t(k，t)。本发明的一个方面是后处理器121，其对增益G_t(k，t)执行后处理以确定经后处理的增益。通过输入处理确定的增益G_t(k，t)的后处理结果由G(k，t)表示。增益G(k，t)用于应用到输入音频信号的频域表示，或者对于不止一个音频输入信号的情况，应用到多个输入音频信号的函数的频域表示。

在不包括本发明的后处理的方法中，应用增益G_t(k，t)以确定噪声减少信号可以由如下增益应用器在频域中执行：

其中k是频点索引并且t是时间索引。

在本发明的一个实施例中，增益应用模块131接受G(k，t)，即经后处理的增益125，并且将这些增益应用到D(k，t)，即输入信号的频域表示，以确定噪声减少信号133。

即经处理的数据133随后可以由输入合成滤波器组135转换回样本域以产生M个信号样本的帧137。此外或替选地，在一些实施例中，信号133经受变换或再映射，例如变换或再映射到易于根据某种编码方法进行编码的形式。

在本发明的一些实施例中，可以使用用于确定(原始)增益G_t(k，t)的不同类型的增益函数，诸如频谱减法(SS)、Wiener滤波、最小均方差频谱幅度估计(MMSE-SA)(在Y.Ephraim和D.Malah的“Speech enhancement using a minimum mean square errorshort-time spectral amplitude estimator，”IEEE Trans.on Acoust.，Speech，SignalProcessing，vol.ASSP-32，pp.1109-1121，Dec.1984中描述)、以及最小均方差对数频谱幅度估计(MMSE-LSA)(首先在Y.Ephraim和D.Malah的“Speech enhancement using aminimum mean square error log-spectral amplitude estimator，”IEEE Trans.onAcoust.，Speech，Signal Processing，vol.ASSP-33，pp.443-445，Apr.1985中描述)。下文连同其中使用每个增益函数的方法一起总结了一些这样的增益函数：

A)功率频谱减法：其中表示先验信噪比(SNR)，P_N(k，t)和P_D(k，t)分别表示噪声减少信号的估计的功率频谱、包括的噪声信号和输入音频信号(例如，麦克风信号)的估计功率频谱。

功率频谱减法可以被概括为：

B)广义频谱减法：其中α和β是参数。

C)Wiener滤波器：

D)MMSE-SA：

其中，M(x)＝e^-0.5x[(1+x)I₀(0.5x)+xI₁(0.5x)]表示后验SNR，并且I₀和I₁分别是零和一阶修正贝赛耳函数。

E)MMSE-LSA：

其中

在以上定义中，用于生成的增益值典型地在[0，1]的范围内。

由于噪声的非固定性、估计误差以及应用增益实际去除不需要的信号以隔离期望的信号的一般需要，应用原始增益G_t(k，t)可能产生各种处理人工产物，诸如增强信号中的话音失真和音乐噪声。特别地，音乐噪声人工产物可能因频域中的估计误差引起，其导致增强信号的频谱表示中的假性峰值。当增强信号被变换回到时域时，这些峰值对应于频率随机地从帧到帧变化的音调激发。

本发明的实施例包括用于对输入处理确定的增益进行后处理以便确定应用到信号的关于频点集合的经后处理的增益的方法。

尽管以上讨论关于使用例如Wiener滤波、MMSE-SA或MMSE-LSA确定用于噪声减少的增益的输入处理器，但是本发明不限于对仅用于噪声减少的增益进行后处理。本发明的各种实施例中描述的后处理方法和后处理器不仅可应用于针对噪声减少而确定的增益，而且可应用于针对在不止一个麦克风输入被输入到输入处理时的与脱离原位(out-of-location)信号减少组合的噪声减少而确定的增益。随后可以将增益应用于所得到的输入信号的形式。被描述为本发明的实施例的增益平滑后处理方法也可应用于针对在一个或多个参考信号可用于估计回波特性(例如，使用线性预测)时的噪声减少和回波抑制的组合而确定的增益。被描述为本发明的实施例的增益平滑后处理方法也可应用于噪声、回波和脱离原位信号的组合抑制。此外，尽管在频点域中应用增益，但是输入处理可以确定关于频带集合而非频点的增益，至少一些频带包括不止一个频点。这些带化增益在被应用到频点数据时被内插到频点。本发明的实施例还可应用于这些带化增益，并且如何修改这里的描述以适应带化增益对于本领域技术人员是直接和清楚的。

图1B示出了更一般的系统的一个示例，其可以包括关于例如来自不同位置的麦克风的多个输入信号的情况的脱离原位信号减少，并且其可以包括关于输入一个或多个参考信号的情况的回波抑制。图1B的系统包括本发明的实施例，并且用于处理一个输入音频信号101，例如麦克风信号101，或者多个输入音频信号，例如来自不同位置的麦克风的麦克风信号101。处理可以按具有许多个，例如M个样本的时间帧进行。时间帧由索引t表示。在图1B中存在一个或多个、数目由P表示的输入(例如麦克风信号101)的集合。输入处理器105接受采样输入音频信号101并且形成关于多个(B个)频带的输入音频信号101的带化瞬时频域幅度度量119。在其中存在不止一个输入音频信号的一些实施例中，瞬时幅度度量119从输入音频信号下混频。幅度度量表示频谱内容。在这里描述的许多实施例中，频谱内容依据功率频谱。然而，本发明不限于处理功率频谱值。相反，可以使用任何频谱幅度依赖度量。例如，如果直接使用幅度频谱，则该频谱内容有时被称为频谱包络。因此，在描述中有时使用术语“功率(或其他幅度度量)频谱”。

在一个噪声减少实施例中，输入处理器105确定应用到瞬时幅度度量119的增益集合111。在一个实施例中，输入处理进一步包括确定输入音频信号的信号分类，例如，如语音活动检测器(VAD)确定的输入音频信号是否可能是语音的指示，和/或如风活动检测器(WAD)确定的输入音频信号是否可能是风的指示，和/或如例如频谱通量超过阈值指示的信号能量迅速改变的指示。

本发明的实施例的特征包括对增益进行后处理以改进输出质量。后处理产生经后处理的增益125，其被应用到瞬时功率(或者其他幅度度量)119以产生输出，例如，作为多个经处理的频点133，或者被应用到经变换的输入。输出合成滤波器组135(或者用于后继编码，变换器/再映射器)将这些频点转换为期望的输出137。

输入处理元件105包括输入分析滤波器组，以及增益计算器。对于一个输入音频信号101的情况，输入分析滤波器组包括用于将帧的样本变换成频点的变换器。本发明的一些实施例包括用于形成频带的带化元件，大部分频带包括多个频点。对于多个输入音频信号101的情况，输入分析滤波器组包括用于将每个输入音频信号的帧的样本变换成频点的变换器、下混频器(例如，将多个信号下混频成单个信号的波束赋形器)和用于形成频带的带化元件，大部分频带包括多个频点。

在一个实施例中，B个频带处于间距是单调非减的频率处。合理数目的，例如90％的频带包括来自不止一个频点的贡献，并且在具体实施例中，每个频带包括来自两个或更多个频点的贡献。在一些实施例中，频带以对数方式单调递增。在一些实施例中，频带基于心理声学标度，就是说，频带通过与心理声学临界间距相关的定标而间隔，这种带化在这里被称为“知觉间隔带化”。在具体实施例中，频带间距约为1ERB或0.5Bark，或者是具有约10％的中心频率处的频率区间的等同频带。频率间距的合理范围是5至20％或者约0.5至2ERB。

在其中输入处理包括噪声减少的一些实施例中，输入处理还包括回波减少。在本申请人共有的国际提交日期为2012年2月8日的题为“COMBINED SUPPRESSION OF NOISE，ECHO，AND OUT-OF-LOCATION SIGNALS”国际申请第PCT/US2012/024370号(其公布号是WO________)中描述了包括回波减少的输入处理的一个示例，该申请的内容通过引用合并于此。对于其中输入处理包括回波减少的实施例，还包括一个或多个参考信号并且其用于获得回波的某种性质的估计，例如回波的功率(或者其他幅度度量)频谱的估计。得到的带化增益实现了同时的回波减少和噪声减少。

在包括噪声减少和回波减少的一些实施例中，经后处理的增益由元件123接受，其修改增益以包括另外的回波抑制。结果是经后处理的增益集合125，其用于处理例如作为频点的频域中的输入音频信号，如果存在例如来之位置不同的麦克风的不止一个输入音频信号，则在下混频之后进行处理。

在一个实施例中，带化增益被内插并且应用到输入音频信号的频点数据(如果仅存在一个输入音频信号)或者经下混频的输入音频信号(如果存在不止一个输入音频信号)，其被表示为n＝0，1，...，N-1，其中N是频点的数目。Y_n，n＝0，1，...，N-1是输入音频信号样本Y_m，m＝1，...，M的帧的频点。随后可以通过输出合成滤波器组135将经处理的数据133转换回样本域以产生M个信号样本的帧137。此外或替选地，在一些实施例中，信号133经受变换或再映射，例如变换或再映射到易于根据某种编码方法进行编码的形式。

示例声学噪声减少系统

声学噪声减少系统典型地包括噪声估计器和用于确定噪声减少增益集合的增益计算模块，该噪声减少增益集合例如在频带集合上确定并且在变换到频域并且带化到频带集合之后应用到(有噪声的)输入音频信号以使噪声分量衰减。声学噪声减少系统可以包括一个麦克风，或者多个输入，其来自不同位置的麦克风并且进行下混频，例如波束赋形，以生成一个输入音频信号。声学噪声减少系统可以进一步包括回波减少，并且可以进一步包括脱离原位信号减少。

图2示出了被配置为确定经后处理的增益集合的装置的一个示例，该经后处理的增益集合用于噪声抑制，并且在一些形式中，用于同时回波抑制，并且在一些形式中，用于同时脱离原位信号抑制。例如在PCT/2012/024370中描述了该系统。输入包括例如来自不同位置的麦克风的信号的一个或多个输入音频信号201的集合，每个音频信号具有每个帧M个样本集合的形式。当包括空间信息时，存在两个或更多个输入音频信号，例如来自空间分离的麦克风的信号。当包括回波抑制时，还接受一个或多个参考信号103，其例如具有M个样本的帧的形式。这些可以是例如来自一个或多个扬声器的一个或多个信号，或者在另一实施例中，是用于驱动扬声器的信号。第一输入处理级203确定表示为P′_b的带化信号功率(或者其他幅度度量)频谱213以及表示为Y′_b的瞬时功率的带化测度217。当包括不止一个输入音频信号时，频谱213和瞬时带化测度217中的每个具有通过例如波束赋形器的下混频器进行下混频之后的输入。当包括回波抑制时，第一输入处理级203还确定表示为E′_b的回波的带化功率频谱估计215，该确定依据先前使用具有自适应确定的滤波器系数集合的滤波器计算的回波的功率频谱估计。在包括脱离原位信号抑制的形式中，第一输入处理级203还确定具有带化位置概率指示符219的形式的空间特征219，其可用于将信号分离成源自期望位置的分量和并非源自期望方向的分量。

来自第一级203的量用在第二级205中，第二级205确定增益，并且对增益进行包括本发明的实施例的后处理，以确定带化的经后处理的增益125。第二级205的实施例包括噪声功率(或其他幅度度量)频谱计算器221，其用于确定表示为E′_b噪声功率(或其他幅度度量)频谱；以及信号分类器223，其用于确定信号分类115，例如，语音活动检测器(VAD)、风活动检测器和功率通量计算器中的一个或多个。图2示出了包括VAD的信号分类器223。

当然，本发明不限于用于噪声减少的增益后处理或者通过PCT/2012/024370中描述的输入处理和增益计算确定的增益后处理。

尽管在一个实施例中，输出处理将减少噪声(并且可能减少回波或脱离原位信号)，但是在其他实施例中，输入处理可以另外地或者主要地确定用于执行基于知觉域的调平、基于知觉域的动态范围控制和基于知觉域的动态均衡中的一个或多个的带化增益，它们考虑根据音频信号的复制水平的音频感知的变化，如例如本申请人共有的题为“METHOD，APPARATUS AND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THE PERCEIVEDLOUDNESS OF AN AUDIO SIGNAL”的WO 2004111994中描述的那样。如这里描述的，对通过WO2004111994计算的带化增益进行后处理，以确定应用于(经变换的)输入的经后处理的增益125。

用于增益平滑的后处理

音乐噪声人工产物可能因估计误差引起，其可能增强导致信号的频谱表示中的假性峰值。用增益的观点来说，我们可以证明音乐噪声产物可以来自增加的增益波动，这些波动在经处理的信号的频谱中形成峰值或孔洞。对于准固定噪声本底，这些增益变化损害了最初知觉时间连续性，并且因此导致不快的收听体验。为了解决该问题，显然应使增益的变化与噪声的变化成比例。为此，本发明的实施例包括通过后处理器对增益进行后处理以执行增益平滑。

增量增益平滑和判决引导的增益平滑之一或两者

回想通过对一个或多个输入音频信号的样本帧进行输入处理确定的未平滑瞬时增益由G_t(k，t)表示，帧由索引t表示，并且频点由k表示。为了简化符号，以下略去频点索引k。本领域普通技术人员将理解，G_t(t)实际是G_t(k，t)，并且经后处理的增益G(t)实际是G(k，t)，这些增益中的每个是时间索引t和频点k的函数。

在不同形式的输入处理中，通过使用Wiener滤波、MMSE-SA、MMSE-LSA、不同的噪声抑制增益或者包括噪声抑制、回波抑制和脱离原位抑制中的一个或多个的不止一个增益函数的组合，可以得到增益G_t(k，t)。

图10示出了本发明的一个方法实施例1000的简化流程图。该方法包括操作处理装置并且包括在1003中在处理装置中接受一个或多个音频输入，并且在1005中执行输入处理以确定原始增益，例如关于频点集合的作为频点k和时间帧索引t的函数的表示为原始增益G_t(k，t)的原始增益。本发明的实施例包括在1007中使用增量增益平滑和判决引导的增益平滑之一或两者确定关于频点集合中的每个频点的经后处理的增益，其中增量增益平滑包括将具有取决于当前帧的原始增益和前一帧的经后处理的增益之间的差的绝对值的平滑因子的平滑滤波器应用于原始增益G_t(k，t)，并且其中判决引导的增益平滑包括将原始增益转换为信噪比，将平滑水平由平滑因子控制的平滑滤波器应用到信噪比以计算平滑信噪比，以及转换平滑信噪比以确定平滑增益作为经后处理的增益。

该方法包括在1009中将经后处理的增益应用到表示一个或多个音频输入信号的信号的频点数据。该方法进一步包括在1011中，输出合成和变换到时域输出和/或再映射到频域输出。

增量增益平滑

假设低变化噪声本底，增量增益平滑的中心思想是使用增益微分(称为“增量”或“增益增量”)调节原始增益的平滑量。

一种可能的增益平滑方法是应用一阶线性平滑滤波器，其根据下式对增益进行后处理以确定G(t)：

G(t)＝G(t-1)+α_g(t)(G_t(t)-G(t-1))，

其中α_g(t)是值介于0和1之间的平滑因子，其控制平滑程度。较小的α_g(t)导致较大的平滑。为了确定适当的平滑参数，设想期望平滑时间时长T_S。设想帧间隔是T。随后设定α_g(t)＝1-exp[-1/(T_S/T)]。作为示例，设想T_S是0.2s，并且帧间隔T是16ms＝0.016s，则α_g(t)＝0.0796。通常，对于增益，α_g(t)≥0.5。

实际上该简单的线性平滑方法可以去除一些音乐噪声但是可能导致话音失真、环境声音和回波人工产物。本发明的一个实施例添加如下增益增量项：

G(t)＝G(t-1)+α_g(t)|G_t(t)-G(t-1)|^β(G_t(t)-G(t-1))， (1)

其中β是取正值的参数。在一个实施例中，β＝1，使得滤波器是一阶平滑滤波器，其平滑因子是增益增量的函数。在更一般的情况下，由于有效平滑因子现在是α_g(t)|G_t(t)-G(t-1)|^β，因此α_g(t)不再限于[0，1]的范围内。相反，

0≤α_g(t)|G_t(t)-G(t-1)|^β≤1， (2)

实际上，α_g(t)可以是固定的，例如1，并且使用不同的β值。在一个实施例中，β＝1。在另一实施例中，β＝0.5，并且在又一实施例中，β＝2。

可以看到，通过增量平滑，当增益增量，即当前原始增益和前一经后处理的增益之间的差的绝对值小时，更剧烈地使增益平滑。另一方面，较大的增益增量导致较小的平滑，这对于话音建立期间的语音质量保持以及避免话音偏移期间的升高的噪声本底是特别理想的。

图3A和3B示出了关于简单线性增益平滑的G(t)相对于G_t(t)和G(t-1)两者的图线以及G(t)相对于G(t-1)的图线。图4A和4B示出了关于本发明的增量增益平滑实施例的G(t)相对于G_t(t)和G(t-1)两者的图线以及G(t)相对于G(t-1)的图线。对于这些示例以及这里描述的所有其他示例，在16kHz处对输入音频信号采样。在宽度为32ms，即512个样本的窗口上采取DFT。每个帧具有50％的重叠，使得帧间隔，即时间索引单位对应于16ms。当然，可以利用其他采样速率实现这里描述的方法，例如用于话音的8kHz，或者32kHz等，并且还可以使用不同的时间窗口和帧间隔，例如分别是20ms和10ms。

对于图3A和3B的线性增益平滑，α_g(t)＝0.5，而对于图4A和4B的增益平滑结果，α_g(t)＝1并且β＝1。当使用不同的采样速率时，可能需要调整参数值。

作为示例，考虑其中G_t(t)＝0.99和G(t-1)＝0.1的话音建立。根据本发明的一个实施例的增量增益平滑产生期望的高增益值G(t)＝0.97，而线性增益平滑生成G(t)＝0.5。对于话音偏移，设想G_t(t)＝0.01和G(t-1)＝0.99，在该情况下来自增量平滑和线性平滑的最终增益分别是G(t)＝0.03和G(t)＝0.5。来自增量平滑的较小的增益在这里是优选的，因为较高的值将导致紧接话音片段之后的升高的噪声本底。当G_t(t)和G(t-1)之间的差变小时，平滑增益近似是增量平滑的G_t(t)和G(t-1)的平均值，这与线性增益平滑相似。可以证明通过在线性平滑式中使用较大的α_g(t)可以简单地解决前述话音建立和偏移问题。不幸地，这将导致不太有效的平滑。因此明显的是，通过使用线性平滑的α_g(t)的试探性调谐，难于实现整体最优性能。

尽管一个实施例使用式1描述的增量平滑后处理，但是替选实施例使用增量平滑后处理的变化方案。在一些实施例中，增量增益平滑的平滑因子取决于信号分类，例如输入是否可能是语音。一个替选实施例考虑在话音期间，可能期望保持语音质量。一种确定输入是否可能是语音的方法是查明增益是否在预先限定的阈值以上。一个这样的实施例包括当增益在预先限定的阈值以上时禁用平滑。在一个示例中，

其中Th是介于0和1之间的预先限定的阈值。在一个实施例中，使用Th＝0.4的值。通常，较高的Th将使较多的增益滑过平滑处理，平滑是更剧烈的。Th的其他的合理的值可以是0.5、0.6等等。

另一种确定输入是否可能是语音的方法是查明增益增量是否在预先限定的阈值以上。一个这样的实施例包括当增益增量大时禁用平滑。在一个示例中，

再次地，Th是介于0和1之间的预先限定的阈值。在一个实施例中，使用Th＝0.4的值。通常，较高的Th将使较多的增益滑过平滑处理，平滑是更剧烈的。Th的其他的合理的值可以是0.5、0.6等等。

另一种确定输入是否可能是语音的方法是使用语音活动检测器(VAD)或语音活动检测方法。在又一实施例中，使用VAD或语音活动检测方法，并且根据VAD的输出控制平滑。因此，

在其中使用VAD的另一实施例中，一个实施例在如VAD检测的语音活动期间使用不太剧烈的平滑，例如α_g(t)＝1和β＝0.5的增量平滑，并且在VAD指示没有语音时使用较剧烈的平滑，例如α_g(t)＝1和β＝2。

本发明的实施例不限于任何特定类型的语音活动检测方法或VAD，并且许多VAD在本领域中是公知的，并且对于本领域技术人员是熟悉的。

根据又一实施例，此外或者替选地，该方法包括仅当存在预先限定的增益改变方向时使增益平滑。例如，该方法包括仅当存在增益增加时使增益平滑。在一个这样的示例中：

作为另一示例，该方法包括仅当存在增益减少时使增益平滑，例如：

在一个实施例中，当预期输入不包括语音时使用仅当增益增加时执行平滑的方案(式6)，并且当预期输入包括语音时使用仅当增益减少时执行平滑的方案(式7)。此外，这与如下方案组合：针对与输入的非语音部分对应的t值使用的α_g(t)值(式6)不同于针对与输入的语音部分对应的t值使用的α_g(t)值(式7)。

在又一实施例中，使平滑增益和原始增益组合。这在例如增量平滑被认为过于剧烈的情况下是适当的。评估平滑是否过于剧烈可以依据诸如话音质量的知觉评估(PESQ)、话音失真、信噪比改进(SNRI)等的测度。在一个实施例中，使用原始增益和平滑增益的简单组合而非对剧烈性的评定。

在一个形式中，表示为G(k，t)的最终使用的增益是

G(t)＝αG_SMOOTH(t)+(1-α)G_t(t)，

其中G_SMOOTH(t)通过如上文的式1至7中的一个式描述的增量增益平滑方法确定。在一个形式中，使用0.5的α值。α值的合理的范围是0.4和0.9之间。

在以上增量增益平滑的形式中，平滑仅是暂时的。其他实施例包括依赖频率的增益平滑。一个这样的增量增益平滑实施例的集合包括使平滑因子是频点k的函数。例如，可以使平滑因子α_g(t)依赖于频率，其具有针对不同频率产生不同的平滑量的预先限定的值。一个示例实施例使用如下的频率变化。为此，在符号中包括频点k，k＝0，...，N-1：

表示为

这样，对于一种形式的依赖频率的增量平滑，

G(k，t)＝G(k，t-1)+α_g(t)α_fd(k，t)(G_t(k，t)-G(k，t-1)) (9)

对于该公式表示，对于最低频点，即k＝0，α_fd(k，t)等于|G_t(k，t)-G(k，t-1)|^β，而随着频点k变大，增量项|G_t(k，t)-G(k，t-1)|^β的贡献减小，并且最终α_fd(k，t)变为1或非常接近1。

替选实施例使用不同的依赖频率的平滑因子α_fd(k，t)，其具有如下性质：对于最低k，α_fd(k，t)等于|G_t(k，t)-G(k，t-1)|^β，并且随着频点k变大，最终α_fd(k，t)变为1或非常接近1。

本发明的各种增量增益平滑实施例中描述的增量增益平滑方法可应用于不仅针对噪声减少而确定的增益，而且可应用于针对在不止一个麦克风输入被输入到输入处理时的与脱离原位信号减少组合的噪声减少而确定的增益。随后可以将增益应用于输入信号的下混频形式。本发明的各种增量增益平滑实施例中描述的增量增益平滑方法可应用于针对在一个或多个参考信号可用于估计回波特性(例如，使用线性预测)时的噪声减少和回波抑制的组合而确定的增益。各种增量增益平滑实施例中描述的增量增益平滑方法也可应用于噪声、回波和脱离原位信号的组合抑制。

与增量增益平滑组合的判决引导的增益平滑

本发明的一些实施例包括判决引导的增益平滑，其包括将原始增益转换为信噪比，将平滑水平由平滑因子控制的平滑滤波器应用到信噪比以计算平滑信噪比，以及转换平滑信噪比以确定平滑增益。

具体地，判决引导的增益平滑包括根据针对当前帧确定的原始增益G_t(t)计算原始后验SNR并且根据关于前一帧的经后处理的增益计算前一帧的SNR。在一个实施例中，使用如下Wiener滤波器关系确定信噪比：

和

其中再次地，为了简化符号，在符号中略去频点k依赖关系，但是本领域技术人员将理解其是存在的。

判决引导的增益平滑的一个实施例进一步包括将平滑滤波器应用到SNR以确定平滑SNR。在一个实施例中，用于使SNR平滑的平滑滤波器由下式限定

其中是平滑SNR，并且α是平滑因子。

该方法进一步包括将关于当前增益的平滑先验SNR转换为平滑增益。在一个实施例中，

因此，估计的是R_POST(k，t)的平滑形式，其有助于应对音乐噪声影响。参数α的值对最终增益有显著的影响。图5A和5B示出了关于参数α＝0.02的各种G_t(t)值的G(t)相对于G_t(t)和G(t-1)两者的图线以及G(t)相对于G(t-1)的图线。图6A和6B示出了关于参数α＝0.5的各种G_t(t)值的G(t)相对于G_t(t)和G(t-1)两者的图线以及G(t)相对于G(t-1)的图线，并且图7A和7B示出了关于参数α＝0.9的各种G_t(t)值的G(t)相对于G_t(t)和G(t-1)两者的图线以及G(t)相对于G(t-1)的图线。

比较这些关于三种α设定的结果，可以看到较小的α减少当前瞬时增益G_t(t)的影响。例如，对于α＝0.02(参见图5A和5B)，G_t(t)＝0.01和G_t(t)＝0.5几乎对G(t-1)没有影响，使得G(t)遵循G(t-1)。这将导致高度平滑的增益，因为新的增益做出极小的贡献。当G_t(t)＝0.99时，G_t(t)的影响开始介入，这对于话音信号是理想的，因为在话音建立的情况下期望避免过度平滑。关于该设定α＝0.02的一个明显的缺陷在于话音偏移之后的升高的噪声本底，当G_t(t)小并且G(t-1)大时，这由较高的G(t)值反映。另一方面，对于α＝0.9(参见图7A和7B)，G_t(t)对最终输出G(t)施加更大的影响。例如当G_t(t)＝0.99时，其总体上支配平滑操作，而与前一增益值G(t-1)无关，这将导致出色的话音建立性能。该设定也呈现了关于特征在于高G_t(t)和低G(t-1)的话音偏移情况的改进的性能，尽管可能耗用几次迭代来下拉G(t)值。该高α设定的缺点在于其针对中间的增益值到低的增益值的平滑是不充分的。

本发明的一些实施例进一步包括使SNR平滑滤波器的平滑因子依赖于增益增量。我们将这种方法称为判决引导的增量(DDD)增益平滑。

在DDD增益平滑的一个实施例中，该方法包括将式10转换为SNR，以及对SNR使用平滑滤波器以确定用于确定经后处理的增益的先验SNR，平滑因子由增益增量进行加权。具体地，再次省略频点k依赖关系，

该方法进一步包括例如使用式12将平滑先验SNR转换为经后处理的增益。

与增量增益平滑相似，我们还可以得到判决引导的增益平滑和DDD增益平滑方法的基本形式的一系列变化方案。例如，我们可以在增益或增益增量大时禁用平滑。还可以使用外部VAD控制DDD增益平滑处理。

图8A和8B示出了关于在参数α＝1和β＝0.5的情况下根据式10、12和13的DDD增益平滑实施例的各种G_t(t)值的G(t)相对于G_t(t)和G(t-1)两者的图线以及G(t)相对于G(t-1)的图线。

将该图线与图4A和4B中示出的增量增益平滑的结果比较，可以注意到若干不同。首先，当G_t(t)高时，其表示话音建立情况，在增量平滑的中间存在急降(参见图4B中的G_t(t)＝0.99曲线)，而对于如图8B中所示的DDD平滑，平滑G(t)保持平坦。推测起来，DDD增益平滑应好地保持话音建立。其次，当G_t(t)小时(参见例如图4B和8B中的G_t(t)＝0.01曲线)，当G(t-1)小于大致0.5时，这两种方法的行为相似。对于前一增益G(t-1)的增加，增量平滑(图4B)开始下拉增益G(t)，而对于DDD增益平滑(图8B)，G(t)随着G(t-1)的增加而缓慢增加。因此对于该情况，DDD增益平滑可以导致话音偏移之后的某种升高的噪声本底。然而，G_t(t)＝0.01曲线指示G(t)将在若干次迭代之后快速收敛到G_t(t)。第三，当G_t(t)和G(t-1)两者均相对小时，这意味着信号可能不包含话音，例如主要是噪声，这两种方法呈现相似的趋势，增量平滑在平滑方面出现在更剧烈的一侧。

尽管一个实施例使用如上文所述的式10、12和13的判决引导的增益平滑或DDD增益平滑方法，但是替选实施例使用这些方法的变化方案。

一个替选实施例考虑在话音期间，可能期望保持语音质量。

一个这样的实施例包括当增益在预先限定的阈值以上时禁用平滑。在一个示例中，如果G_t(t)≤Th，则根据式10、12和13的判决引导的增益平滑或DDD增益平滑方法确定G(t)，否则G(t)＝G_t(t)，其中Th是介于0和1之间的预先限定的阈值。在一个实施例中，使用Th＝0.4的值。通常，较高的Th将使较多的增益滑过平滑处理，平滑是更剧烈的。Th的其他的合理的值可以是0.5、0.6等等。

在另一实施例中，当增益增量大时禁用平滑。在一个示例中，如果|G_t(t)-G(t-1)|^β≤Th，则根据式10、12和13的判决引导的增益平滑或DDD增益平滑方法确定G(t)，否则G(t)＝G_t(t)。再次地，Th是介于0和1之间的预先限定的阈值。在一个实施例中，使用Th＝0.4的值。通常，较高的Th将使较多的增益滑过平滑处理，平滑是更剧烈的。Th的其他的合理的值可以是0.5、0.6等等。

在又一实施例中，使用语音活动检测器(VAD)或语音活动检测方法，并且根据VAD的输出控制平滑。因此，在一个形式中，如果VAD指示没有语音，则根据式10、12和13的判决引导的增益平滑或DDD增益平滑方法确定G(t)，否则G(t)＝G_t(t)。

在其中使用VAD的另一实施例中，一个实施例在如VAD检测的语音活动期间使用不太剧烈的平滑，例如α＝1和β＝0.5的根据式10、12和13的DDD平滑，并且在VAD指示没有语音时使用较剧烈的根据式10、12和13的DDD平滑，例如α＝1和β＝2。

根据又一实施例，此外或者替选地，该方法包括仅当存在预先限定的增益改变方向时，该方法包括根据式10、12和13的判决引导的增益平滑或DDD增益平滑方法使增益平滑。例如，该方法包括当存在增益增加时根据式10、12和13使增益平滑。作为另一示例，该方法包括仅当存在增益减少时根据式10、12和13使增益平滑。

在又一实施例中，使根据式10、12和13的判决引导的增益平滑或DDD增益平滑方法和原始增益组合。这在例如DDD平滑被认为过于剧烈的情况下是适当的。在一个形式中，表示为G(k，t)的最终使用的增益是

G(t)＝α_cG_SMOOTH(t)+(1-α_c)G_t(t)，

其中G_SMOOTH(t)通过如式10、12和13单独描述的或者上述变化方案中的判决引导的增益平滑或DDD增益平滑方法确定。在一个形式中，使用0.5的α_c值。α_c值的合理的范围是0.4和0.9之间。

在以上判决引导的增益平滑和DDD增益平滑的形式中，平滑仅是暂时的。其他实施例包括依赖频率的增益平滑。一个这样的增量增益平滑实施例的集合包括使平滑因子依赖于频点。例如，可以使式11或式13中的平滑因子α依赖于频率，其具有针对不同频率产生不同的平滑量的预先限定的值。另一示例实施例使用如下的频率变化。为此，在符号中包括频点k，k＝0，...，N-1：

表示为

这样，对于一种形式的依赖频率的平滑，式11被替换为

对于使用关于增益平滑的式10、12和14的该公式表示，对于最低频点，即k＝0，α_fd(k，t)等于|G_t(k，t)-G(k，t-1)|^β，而随着频点k变大，增量项|G_t(k，t)-G(k，t-1)|^β的贡献减小，并且最终α_fd(k，t)变为1或非常接近1。

尽管在上文所述的判决引导的增益平滑和DDD增益平滑的实施例中，将原始增益转换为SNR并且将平滑SNR逆转换为经后处理的增益使用Wiener滤波器关系，但是替选实施例使用从原始增益转换为SNR并且逆转换为经后处理的增益的替选方法。一个替选实施例使用根据下式的频谱功率减法关系：

对于判决引导的增益平滑，

对于DDD平滑，

再者，

还可以使用其他替选转换。

注意，增量增益平滑和判决引导的增益平滑两者的一个特征在于后处理方法是相对计算高效的，并且计算完全取决于增益自身，这使得它们可应用于范围广泛的增益函数。

混合增益平滑

其他实施例包括使用增量增益平滑确定第一平滑增益，使用判决引导的增益平滑确定第二平滑增益，以及组合第一和第二平滑增益以生成经后处理的增益。在一些这样的实施例中，组合取决于信号分类，例如输入是否可能是语音。

第一个这样的实施例使用作为使用增量增益平滑确定的第一增益和使用DDD增益平滑确定的第二增益的积的增益。第二个这样的实施例使用用于查明输入是否可能是语音的方法，并且包括针对语音部分使用增量增益平滑并且针对非语音部分使用DDD增益平滑。又一这样的实施例包括针对非语音部分使用增量增益平滑并且针对语音部分使用DDD增益平滑。包括使用增量增益平滑和DDD增益平滑两者的又一实施例针对与低频区域对应的频点使用增量增益平滑并且针对剩余的(高频)频点使用DDD增益平滑。又一实施例包括针对与低频区域对应的频点使用增量增益平滑和DDD增益平滑两者并且针对剩余的(高频)频点使用增量增益平滑。

基于处理系统的装置

图9示出了用于处理例如来自麦克风(未示出)的一个或多个音频输入101的一个处理装置实施例900的简化框图。处理装置900用于确定增益集合，根据本发明的实施例对增益进行后处理，以及生成已通过应用经后处理的增益进行修改的音频输出137。一种形式实现了基于知觉域的调平、基于知觉域的动态范围控制和基于知觉域的动态均衡中的一个或多个，它们考虑根据音频信号的复制水平的音频感知的变化。另一形式实现了噪声减少。

一个实施例对单个麦克风输入音频信号执行噪声减少。该形式仅包括输入和输出。

另一实施例还包括回波减少，并且在该形式中，处理装置还接受例如来自一个或多个扬声器(未示出)或者来自针对这样的扬声器的馈送的一个或多个参考信号103。

在一个该噪声减少形式中，处理装置900将生成音频输出137，如根据本发明的一个或多个特征说明的，在一个实施例中，该音频输出137已通过抑制噪声和脱离原位信号进行修改，并且在另一实施例中，该音频输出137还通过抑制回波进行修改。例如，该装置可以实现图1B中所示的系统，以及其任何替选方案，并且当操作时可以执行图8的方法，包括这里描述的方法的任何变化方案。该装置可以包括在例如耳机装置中，诸如蓝牙耳机。假设音频输入101、参考输入103和音频输出137具有采样数据的M个样本的帧的形式。在模拟输入的情况下，将存在包括模数转换器的数字转换器和量化器。对于音频回放，将存在解量化器和数模转换器。可以包括在例如耳机设备的完整的音频处理系统中的这些和其他元件被省去，并且如何包括这些元件对于本领域技术人员将是清楚的。

图9中所示的实施例包括处理系统903，其在操作上被配置为执行这里描述的抑制方法。处理系统903包括至少一个处理器905，其可以是数字信号处理设备的处理单元，或者更加通用的处理设备的CPU。处理系统903还包括存储元件，例如典型地包括一个或多个存储器元件的存储子系统907。处理系统的元件例如通过图9中未示出的总线子系统或者某些其他互联机制耦接。使用本领域技术人员公知的技术，可以将处理系统903的一些元件集成到单个电路中。

存储子系统907包括指令911，其在被处理器905执行时使得执行这里描述的方法。

在一些实施例中，存储子系统907被配置为存储一个或多个调谐参数913，其可用于改变由处理系统903执行的一些处理步骤。

图9中所示的系统可以并入诸如耳机的专用设备，例如无线蓝牙耳机。该系统也可以是例如被配置为处理音频信号的个人计算机的通用计算机的一部分。

综述

除非相反地明确声明，否则应认识到，在说明书通篇中，使用诸如“生成”、“处理”、“计算”、“运算”、“确定”等的术语的讨论指的是(不作为限制)硬件(例如，电子电路、计算机或计算系统、或者相似的电子计算设备)的动作和/或处理，其将表示为物理(诸如电子)量的数据操纵和/或转换成相似地表示为物理量的其他数据。

以相似的方式，术语“处理器”可以指的是任何设备或设备的一部分，其对例如来自寄存器和/或存储器的电子数据进行处理，以将该电子数据变换成例如可以存储在寄存器和/或存储器中的其他电子数据。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。

注意，当描述包括若干个元素(例如，若干个步骤)的方法时，不暗示这些元素(例如，步骤)的排序，除非明确声明。

在一些实施例中，这里描述的方法可由一个或多个处理器执行，这一个或多个处理器接受在一个或多个计算机可读介质上编码的逻辑、指令。当被一个或多个处理器执行时，指令使得执行这里描述的至少一种方法。能够执行指定要采取的动作的指令集(依次的或其他)的任何处理器包括在内。因此，一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU或相似元件、图形处理单元(GPU)、现场可编程门阵列、专用集成电路和/或可编程DSP单元中的一个或多个。处理系统进一步包括具有至少一个存储介质的存储子系统(其可以包括嵌入在半导体设备中的存储器)或者包括主RAM和/或静态RAM和/或ROM以及还有缓存的分立的存储器子系统。存储子系统可以进一步包括一个或多个其他存储设备，诸如磁和/或光和/或另外的固态存储设备。可以包括总线子系统以用于部件之间的通信。处理系统进一步可以是具有通过网络(例如，经由网络接口设备或无线网络接口设备)耦接的处理器的分布式处理系统。如果处理系统需要显示器，则可以包括这样的显示器，例如，液晶显示器(LCD)、有机发光显示器(OLED)或阴极射线管(CRT)显示器。如果需要手工数据输入，则处理系统还包括输入装置，诸如字母数字输入单元(诸如键盘)、指向控制设备(诸如鼠标)等中的一个或多个。如果从上下文清楚并且除非明确相反声明，否则此处所使用的术语“存储装置”、“存储子系统”或“存储器单元”还包括诸如盘驱动单元的存储系统。在一些配置中，处理系统可以包括声音输出设备和网络接口设备。

在一些实施例中，非暂态的计算机可读存储介质配置有(例如，编码有)指令(例如，逻辑)，这些指令在被处理系统(诸如，包括至少一个处理器元件和例如存储子系统的存储元件的数字信号处理装置或子系统)的一个或多个处理器执行时，使得执行如这里描述的方法。一些实施例具有逻辑自身的形式。非暂态的计算机可读介质是特定的暂态传播信号或暂态载波或一些其他暂态传送介质以外的任何计算机可读介质。因此术语“非暂态的计算机可读介质”涵盖任何有形的计算机可读存储介质。非暂态的计算机可读介质包括任何有形的计算机可读存储介质并且可以采取许多形式，包括非易失性存储介质和易失性存储介质。非易失性存储介质包括例如，静态RAM、光盘、磁盘和磁光盘。易失性存储介质包括诸如处理系统中的主存储器的动态存储器，以及处理系统中的硬件寄存器。在如上文所述的典型的处理系统中，存储元件是计算机可读存储介质，其配置有(例如，编码有)指令(例如，逻辑(例如，软件))，这些指令在被一个或多个处理器执行时，使得执行如这里描述的一个或多个方法步骤。软件可以驻留在硬盘中，或者也可以完全地或者至少部分地驻留在例如RAM的存储器内和/或在其由计算机系统执行期间驻留在处理器寄存器内。因此，存储器和处理器寄存器也构成其上可以编码指令的非暂态的计算机可读介质，这些指令在被执行时使得执行方法步骤。

尽管计算机可读介质在示例实施例中被示出为单个介质，但是术语“介质”应该被解释为包括存储一个或多个指令集的单个介质或多个介质(例如，多个存储器、集中式或分布式数据库和/或相关联的缓存和服务器)。

此外，非暂态的计算机可读介质(例如，计算机可读存储介质)可以形成计算机程序产品，或者可以包括在计算机程序产品中。

在替选实施例中，一个或多个处理器作为单机设备操作或者可以连接(例如，联网)到联网部署中的其他处理器，或者一个或多个处理器可以在服务器-客户机网络环境中以服务器或客户机的能力工作，或者用作对等或分布式网络环境中的对等机。术语“处理系统”包括所有这样的可能性，除非此处明确排除在外。一个或多个处理器可形成个人计算机(PC)、媒体回放设备、耳机设备、免提通信设备、平板PC、机顶盒(STB)、个人数字助理(PDA)、游戏机、蜂窝电话、Web设施、网络路由器、交换机或桥、或者任何能够执行指令集(依次的或其他)的机器，该指令集指定要由该机器采取的动作。

注意，尽管一些图仅示出了单个处理器和单个存储元件(例如，存储包括指令的逻辑的单个存储器)，但是本领域技术人员将理解，包括多个上述部件，但是没有明确示出或描述这些部件，以便不模糊本发明的方面。例如，尽管仅示出了单个机器，但是术语“机器”还应被解释为包括单独地或联合地执行指令集(或多个集)的任何机器集合，以执行此处所讨论的任何一个或多个方法。

因此，如本领域技术人员认识到的，本发明的实施例可以被实施为方法、诸如专用装置的装置、诸如数据处理系统的装置、例如在非暂态的计算机可读存储介质中实施的逻辑，或者编码有指令的计算机可读介质(例如，被配置为计算机程序产品的计算机可读存储介质)。计算机可读介质还配置有如下指令集：在被一个或多个处理器执行时，使得执行方法步骤。因此，本发明的方面可采取方法、完全硬件实施例、完全软件实施例或者组合软件和硬件方面的实施例的形式。此外，本发明可采取例如计算机可读存储介质上的计算机程序的程序逻辑，或者配置有计算机可读程序代码(例如，计算机程序产品)的计算机可读存储介质的形式。

还应理解，本发明的实施例不限于任何特定的实现方案或编程技术，并且本发明可使用用于实现此处描述的功能性的任何适当的技术来实现。此外，实施例不限于任何特定的编程语言或操作系统。

在本说明书中提及“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在本说明书中的各处出现的短语“在一个实施例中”或“在实施例中”不一定都指的是同一实施例，但是可能指的是同一实施例。此外，在一个或多个实施例中，如本领域技术人员从本公开内容将明了的，特定的特征、结构或特性可以以任何适当的方式来组合。

相似地，应理解，在本发明的示例实施例的以上描述中，本发明的各种特征有时在单个实施例、图或其描述中被分组在一起，以简化本公开内容并且帮助理解各发明方面中的一个或多个。然而，本公开内容的该方法不被解释为反映如下意图：要求保护的发明需要比各个权利要求中所明确阐述的特征更多的特征。相反，如所附权利要求所反映的，发明的方面在于小于单个上述公开实施例的全部特征。因此，所附权利要求由此明确地并入“具体实施方式”中，其中每个权利要求自身作为本发明的单独实施例。

此外，如本领域技术人员所理解的，尽管此处描述的一些实施例包括一些其他实施例中没有包括的特征，但是不同实施例的特征的组合应在本发明的范围内，并且形成不同的实施例。例如，在所附权利要求中，任何要求保护的实施例可以以任何组合来使用。

此外，一些实施例在此处被描述为方法或可以由计算机系统的处理器或通过执行功能的其他部件来实现的方法的元素的组合。因此，具有用于执行这样的方法或方法的元素的必要指令的处理器形成用于执行方法或方法的元素的部件。此外，装置实施例的此处所描述的元件是用于执行由元件执行的功能以实施本发明的部件的示例。

在此处所提供的描述中，阐述了大量具体的细节。然而，应理解，本发明的实施例可以在没有这些具体细节的情况下来实践。在其他实例中，没有详细示出公知的方法、结构和技术，以便不会模糊对本描述的理解。

如此处所使用的，除非相反地指定，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象仅指示指的是相同对象的不同实例，并且不旨在暗示如此描述的对象必须按时间上、空间上、队列上或任何其他方式的给定序列。

尽管在一个实施例中，使用短时傅立叶变换(STFT)获得频带，但是本发明不限于STFT。诸如STFT的变换常常指的是循环变换。循环变换的最一般的形式可以由缓冲、窗口、扭曲(实值到复值的变换)和例如FFT的DFT表示。DFT之后的复扭曲可用于调整频域表示以匹配特定的变换定义。本发明可以由任何该类变换实现，包括改进DFT(MDFT)、短时傅立叶变换(STFT)、并且通过较长的窗口和包容、共轭正交镜像滤波器(CQMF)来实现。可使用诸如改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)的其他标准变换，其具有频域点的另外的复扭曲，不会改变底层的频率分辨率或者变换的处理能力并且因此可以保留到处理链末端，并且如果需要，在再映射中应用。

此处所引用的所有美国专利、美国专利申请以及指定美国的国际(PCT)专利申请通过引用合并于此，除非权限不允许通过引用进行合并，在该情况下申请人保留通过修改将所有这些资料的任何部分插入到说明书中且该插入并未考虑新的主题的权力。在专利法规定或章程不允许通过对本身通过引用而合并信息的材料进行引用而合并的情况下，此处通过对该材料的引用而进行的合并排除在这种通过引用合并的材料中通过引用而合并的任何信息，除非这样的信息在此处明确通过引用而被合并。

本说明书中对现有技术的任何讨论决不应该认为是承认这种现有技术是广泛已知的、公开已知的或者构成本领域常识的一部分。

在所附权利要求和此处的描述中，术语“包括”、“由...构成”或“其包括”中的任何一个是开放性术语，其表示至少包括该术语后的元素/特征，但是不排除其他元素/特征。因此，术语“包括”当在权利要求中使用时，不应被解释为限于此后列出的装置或元素或步骤。例如，表述“包括A和B的装置”的范围不应限于仅由元件A和B组成的装置。如此处所使用的术语“包括”或“其包括(which includes)”或“它包括(that includes)”中的任何一个也是开放性术语，其也表示至少包括该术语后的元素/特征，但是不排除其他元素/特征。因此，包括(including)与包括(comprising)是同义的并且表示包括(comprising)。

相似地，要注意，术语“耦接”当在权利要求中使用时，不应解释为仅限于直接连接。可以使用术语“耦接”和“连接”以及其变型。应理解，这些术语不旨在为彼此的同义词，但是可能是同义词。因此，表述“耦接到设备B的设备A”的范围不应被解释为其中设备A的输入或输出直接连接到设备B的输出或输入的设备或系统。其意指在设备A和设备B之间存在路径，该路径可以是在它们之间包括其他设备或部件的路径。此外，“耦接”并不暗示方向。因此，表述“设备A耦接到设备B”可以与表述“设备B耦接到设备A”同义。“耦接”可以意指两个或更多个元件直接物理或电接触，或者表示两个或更多个元件不是彼此直接接触但是仍与彼此合作或交互。

此外，这里使用“一个”描述实施例的元件和部件。这仅为了便利并且给出本发明的一般概念。该描述应理解为包括一个或至少一个并且单数也包括复数，除非显然另有所指。

因此，尽管已描述了相信为本发明的优选实施例的实施例，但是本领域技术人员将认识到，在不背离本发明的精神的情况下，可进行其他和另外的修改，并且旨在保护落入本发明的范围内的所有这样的改变和修改。例如，以上给出的任何公式仅表示可使用的过程。可向框图添加或从其删除功能性，并且可以在功能元件当中互换操作。在本发明的范围内，步骤可添加到所描述的方法或从该方法删除。

Claims

1.一种音频信号处理方法，包括：

对通过输入处理一个或多个输入信号确定的原始增益进行后处理，所述后处理将生成用于应用到信号的经后处理的增益，所述后处理包括：

使用用于确定第一平滑增益的增量增益平滑和用于确定第二平滑增益的判决引导的增益平滑之一或两者确定关于频点集合中的每个频点的经后处理的增益，以及

根据所述第一平滑增益和所述第二平滑增益之一或两者确定经后处理的增益，

其中所述增量增益平滑包括将具有取决于当前帧的原始增益和前一帧的经后处理的增益之间的差的绝对值的平滑因子的平滑滤波器应用于原始增益，并且其中所述判决引导的增益平滑包括将原始增益转换为信噪比，将平滑水平由平滑因子控制的平滑滤波器应用到信噪比以计算平滑信噪比，以及转换所述平滑信噪比以确定所述第二平滑增益。

2.根据权利要求1所述的方法，其中所述后处理包括具有由增益增量的幂函数加权的平滑因子的增量增益平滑。

3.根据权利要求2所述的方法，其中所述增量增益平滑包括应用由下式定义的一阶平滑滤波器：

G(k,t)＝G(k,t-1)+α_g(k,t)|G_t(k,t)-G(k,t-1)|^β(G_t(k,t)-G(k,t-1))

其中k是频点索引，t是时间帧索引，G(k,t)是当前帧的经后处理的增益，G(k,t-1)是前一帧的经后处理的增益，G_t(k,t)是通过输入处理确定的原始增益，α_g(k,t)和β是参数，并且α_g(k,t)|G_t(k,t)-G(k,t-1)|^β是所述增量增益平滑的平滑因子。

4.根据权利要求3所述的方法，其中所述增量增益平滑的平滑因子取决于信号分类。

5.根据权利要求4所述的方法，其中所述信号分类包括所述一个或多个输入信号是否可能包括语音。

6.根据权利要求3所述的方法，其中所述增量增益平滑的平滑因子进一步取决于原始增益正在增加还是减少。

7.根据权利要求3至6中任一项所述的方法，其中所述增量增益平滑的平滑因子依赖于频点。

8.根据权利要求1所述的方法，其中所述后处理包括判决引导的增益平滑。

9.根据权利要求8所述的方法，其中从原始增益转换为信噪比使用增益和信噪比之间的Wiener滤波器关系。

10.根据权利要求8或9所述的方法，其中从平滑信噪比转换为平滑增益使用Wiener滤波器关系。

11.根据权利要求8或9所述的方法，其中所述判决引导的增益平滑的平滑滤波器是：

<mrow> <msub> <mover> <mi>R</mi> <mo>^</mo> </mover> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>G</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mfrac> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中k是频点索引，t是时间帧索引，是由所述平滑滤波器确定的信噪比，G(k,t)是时间帧索引t的经后处理的增益，G(k,t-1)是前一帧的经后处理的增益，G_t(k,t)是通过输入处理确定的原始增益，并且α是关于信噪比的平滑滤波器的平滑因子。

12.根据权利要求8或9所述的方法，其中所述的关于信噪比的平滑滤波器的平滑因子取决于当前帧的原始增益和前一帧的经后处理的增益之间的差的绝对值。

13.根据权利要求12所述的方法，其中关于所述判决引导的增益平滑的平滑滤波器是：

<mrow> <msub> <mover> <mi>R</mi> <mo>^</mo> </mover> <mrow> <mi>P</mi> <mi>R</mi> <mi>I</mi> <mi>O</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <msub> <mi>G</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mi>&beta;</mi> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>G</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>G</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mfrac> <mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>G</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中k是频点索引，t是时间帧索引，是由所述平滑滤波器确定的信噪比，G(k,t)是当前帧的经后处理的增益，G(k,t-1)是前一帧的经后处理的增益，G_t(k,t)是通过输入处理确定的原始增益，α是关于信噪比的平滑滤波器的平滑因子，并且β是取正值的参数。

14.根据权利要求1所述的方法，其中所述后处理包括使用增量增益平滑确定第一平滑增益，使用判决引导的增益平滑确定第二平滑增益，以及组合所述第一平滑增益和所述第二平滑增益以生成经后处理的增益。

15.根据权利要求14所述的方法，其中所述组合取决于信号分类。

16.根据权利要求1至6中任一项所述的方法，其中根据一个或多个输入信号以及一个或多个参考信号确定原始增益以便减少噪声和回波。

17.根据权利要求1至6中任一项所述的方法，其中所述输入处理包括确定原始增益以实现基于知觉域的调平、基于知觉域的动态范围控制和基于知觉域的动态均衡中的一个或多个。

18.一种包括指令的有形计算机可读存储介质，所述指令在被处理系统的一个或多个处理器执行时使处理硬件执行根据权利要求1至17中任一项所述的音频信号处理方法。

19.一种音频信号处理装置，包括：

后处理单元，被配置成对通过输入处理一个或多个输入信号确定的原始增益进行后处理，以便生成用于应用到信号的经后处理的增益，所述后处理单元被进一步配置成：