CN114981888A

CN114981888A - 本底噪声估计和噪声降低

Info

Publication number: CN114981888A
Application number: CN202180009383.7A
Authority: CN
Inventors: G·琴加莱; A·马特奥斯索莱; D·斯卡伊尼
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2020-01-21
Filing date: 2021-01-18
Publication date: 2022-08-30
Also published as: US20230081633A1; EP4094254A1; EP4094254B1; JP7413545B2; WO2021148342A1; US12033649B2; JP2023511553A

Abstract

公开了本底噪声估计和噪声降低，在实施例中，一种方法包括：获得音频信号；将音频信号划分到多个缓冲区中；确定音频信号的每个缓冲区的时频样本；针对每个缓冲区和每个频率，基于缓冲区中的样本和相邻缓冲区中的样本确定能量中值(或均值)和能量变化量的量度，缓冲区中的样本和相邻缓冲区中的样本一起跨越音频信号的指定时间范围；将中值(或均值)和能量变化量的量度组合为成本函数；针对每个频率：确定与成本函数的最小值相对应的音频信号的特定缓冲区的信号能量；选择信号能量作为音频信号的估计的本底噪声；以及使用估计的本底噪声来降低音频信号中的噪声。

Description

本底噪声估计和噪声降低

相关申请的交叉引用

本申请要求以下优先申请的优先权：于2020年1月21日提交的西班牙申请P202030040(参考号：D19149ES)、于2020年3月26日提交的美国临时申请63/000,223(参考号：D19149USP1)和于2020年11月23日提交的美国临时申请63/117,313(参考号：D19149USP2)，这些申请通过引用并入本文。

技术领域

本公开总体上涉及音频信号处理。

背景技术

与专业场景不同，背景噪声是用户生成的音频内容(UGC)中的潜在问题，这是由于所用设备的限制和录音发生处的不受控的声学环境导致的。这样的背景噪声除了令人困扰以外，还可能会被对音频内容应用大量动态范围压缩和均衡的处理工具变得甚至更大声。因此，为降低背景噪声，噪声降低是音频处理链中的关键元素。噪声降低依赖于成功测量本底噪声，所述本底噪声可以通过分析仅包含背景噪声的录音片段的功率谱来获得。这样的片段可以由用户手动识别，可以自动找到，或者可以通过要求执行者/说活者在录音的前几秒期间保持安静来获得。然而，仍存在无法获得仅包含噪声的音频内容片段的场景。

在例如因为信号存在于不同时间不同频率处而不存在这样的片段的情况下，基于(手动或自动)找到音频的安静片段的现有方法失效。其他方法基于将音频频谱与穿过最小值的光滑曲线拟合。这样的方法通常会丢弃噪声的窄带音调分量，如电嗡嗡声。基于计算每个频率处的电平分布并将分布的低百分比(例如，10％百分比)选择为噪声的其他方法对于例如信号的淡入和淡出是不稳健的。最后，其他方法依赖于关于信号的性质的假设(例如，假设信号是语音)，并且因此，不能推广到所有类型的音频信号。

发明内容

公开了本底噪声估计和噪声降低的实施方式。

在实施例中，一种方法包括：获得音频信号；将所述音频信号划分到多个缓冲区中；确定所述音频信号的每个缓冲区的时频样本；针对每个缓冲区和每个频率，基于所述缓冲区中的样本和相邻缓冲区中的样本确定能量变化量的量度和中值，所述缓冲区中的样本和相邻缓冲区中的样本一起跨越所述音频信号的指定时间范围；将所述中值和所述能量变化量的量度组合为成本函数；针对每个频率：确定与所述成本函数的最小值相对应的所述音频信号的特定缓冲区的信号能量；选择所述信号能量作为所述音频信号的估计的本底噪声；以及使用所述估计的本底噪声来降低所述音频信号中的噪声。

在实施例中，确定均值而不是中值。

在实施例中，变化量的量度和中值或均值被缩放到0.0与1.0之间。

在实施例中，变化量与均值或中值的组合是其值之和加上其乘积与1之和的倒数。

在实施例中，变化量与中值或均值的组合是其平方值之和。

在实施例中，变化量与中值或均值的组合是中值或均值的平方与能量方差的sigmoid之和。

在实施例中，变化量与中值或均值的组合是中值或均值与方差的sigmoid之和。

在实施例中，将变化量替换为跨越指定时间范围内的缓冲区上的能量最大值与跨越指定时间范围内的缓冲区上的能量最小值之间的差。

在实施例中，具有对音频信号的块计算的方差以及中值或均值的缓冲区包括总体信号能量低于预定义阈值的至少一个缓冲区，并且所述至少一个缓冲区不用于估计音频信号的本底噪声。

在实施例中，预定义阈值是相对于音频信号的最大电平确定的。

在实施例中，预定义阈值是相对于音频信号的平均电平确定的。

在实施例中，所述方法进一步包括：使用一个或多个处理器分析所述音频信号的块的分布，根据所述分布估计每个频率处的本底噪声；选择块k和频率f；以及如果增大的成本小于第二预定义阈值，则用从块k计算的值替换频率f处的估计噪声。

在实施例中，所述方法进一步包括根据所选择的缓冲区处的能量变化量的值确定置信度值。

在实施例中，置信度值在频率上被平滑。

在实施例中，降低音频信号中的噪声进一步包括在每个频率处应用增益降低，所述增益降低随所述频率处的置信度值减小。

在实施例中，所述方法进一步包括：使用一个或多个处理器选择频率f₁；使用一个或多个处理器，针对高于所选择的频率f₁的具有预定大小的所有区间，计算具有预定义大小的段中频谱的离散导数的平均值；使用一个或多个处理器在最大负导数小于预定义值时选择具有所述负值的段作为截止频率f_c；以及使用一个或多个处理器将高于所述截止频率的频谱值替换为具有与所述截止频率相邻的上边界的预定义长度的频带中频谱的平均值。

在实施例中，所述成本函数随着中值或均值的增大而增大，并且随着所述能量变化量的量度的增大而增大。

在实施例中，所述成本函数是非线性的。

在实施例中，所述成本函数在能量变化量的量度和所述均值或中值上是对称的。

在实施例中，所述成本函数是不对称的，并且当所述能量变化量的量度小于预定义阈值时，所述能量变化量的量度的权重小于所述均值或中值的权重。

在实施例中，一种系统包括：一个或多个处理器；以及非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行前述方法中任何一个的操作。

在实施例中，一种非暂态计算机可读介质存储有指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行前述方法中任何一个的操作。

本文公开的其他实施方式涉及系统、装置和计算机可读介质。下文的附图和描述中阐述了所公开的实施方式的细节。根据本说明书、附图和权利要求，其他特征、目的和优点是显而易见的。

本文公开的特定实施方式提供了以下优点中的一个或多个。在音频信号的本底噪声的可靠估计不可获得的情况下(例如，仅有背景噪声的片段)，可以使用所公开的系统和方法来估计本底噪声。与现有解决方案不同，所公开的系统和方法不丢弃音频信号的窄带音调分量(例如，电嗡嗡声)并且对于例如音频信号的淡入和淡出是稳健的。此外，不需要对音频信号的性质进行假设，这允许所公开的系统和方法应用于所有类型的音频信号。

附图说明

在附图中，为了便于描述，示出了示意性元件的特定布置或排序，如那些表示设备、单元、指令块和数据元件的示意性元件。然而，本领域技术人员应当理解，附图中示意性元件的特定排序或布置并不意味着需要特定处理次序或顺序，或者处理分离。进一步地，在附图中包括示意性元件并不意味着在所有实施例中都需要这种元件，或者在一些实施方式中，由这种元件表示的特征可以不包括在其他元件中或与其他元件组合。

进一步地，在使用如实线或虚线或箭头等连接元件来说明两个或更多个其他示意性元件之间的连接、关系或关联的附图中，不存在任何这种连接元件并不意味着不能存在连接、关系或关联。换句话说，元件之间的一些连接、关系或关联没有在附图中示出，以免混淆本公开。另外，为了便于说明，使用单个连接元件来表示元件之间的多种连接、关系或关联。例如，在连接元件表示信号、数据或指令的通信的情况下，本领域技术人员应该理解，这种元件表示可能需要的一个或多个信号路径，以影响通信。

图1是根据实施例的用于本底噪声估计和噪声降低的系统的框图。

图2A至图2C是(从上到下)图示了根据实施例的在某个频率处缓冲区上的信号能量、中值(μ)和标准偏差(σ)的曲线图。

图3图示了根据实施例的μ和σ的成本函数。

图4A图示了根据实施例的在给定频率f处每个缓冲区i的示例能量水平，突出显示了与最小成本函数J(i，f)相对应的缓冲区。

图4B图示了根据实施例的针对图4A的缓冲区i和频率f的以dB为单位的示例中值(μ)。

图4C图示了根据实施例的针对图4A的缓冲区i和频率f的以dB为单位的示例标准偏差(σ)。

图4D图示了根据实施例的针对缓冲区i和频率f的成本函数J(i，f)的示例最小值，并且突出显示了与argmin_i{J(i，f)}相对应的缓冲区。

图5A图示了根据实施例的作为频率f的函数的示例估计噪声电平(dB)。

图5B图示了根据实施例的估计噪声的示例标准偏差，在每个频率f处，所述标准偏差对应于给定频率处具有最低成本函数的缓冲区。

图5C示出了根据实施例的基于图5B中示出的标准偏差σ的图5A的噪声估计的置信度。

图6图示了根据实施例的噪声降低的增益曲线(传递函数)。

图7A图示了根据实施例的本底噪声在高频处有较大下降的情况。

图7B图示了根据实施例的将图7A中示出的高于频率f₁的噪声频谱划分为具有L个点的长度和预定义的重叠的段，并计算每个段中的点的平均导数，按其对应段的频率递增排序。

图7C图示了根据实施例的找到具有大于预定义负值的值的第一平均导数。

图7D图示了根据实施例的计算截止频率f_c之前的小区域中的噪声频谱的平均值，并用噪声频谱的平均值替换高于f_c的噪声频谱的值。

图8是根据实施例的用于本底噪声估计和噪声降低的过程的流程图。

图9示出了根据实施例的用于实施参考图1至图8描述的特征和过程的示例系统的框图。

各附图中使用的相同附图标记指示相同的元件。

具体实施方式

在以下详细说明中，阐述了许多具体细节以提供对所描述的各种实施例的全面理解。对于本领域普通技术人员而言将明显的是，可以在没有这些具体细节的情况下实施所描述的不同实施方式。在其他实例中，并未详细描述熟知方法、程序、部件以及电路以免不必要地模糊实施例的方面。下文描述了几个特征，每个特征可以彼此独立使用或者与其他特征的任何组合一起使用。

命名法

如本文所使用的，术语“包括”及其变体应被理解为意思是“包括但不限于”的开放式术语。除非上下文另外明确指出，否则术语“或”应被理解为“和/或”。术语“基于”应被理解为“至少部分地基于”。术语“一个示例实施方式”和“示例实施方式”应被理解为“至少一个示例实施方式”。术语“另一个实施方式”应被理解为“至少一个其他实施方式”。术语“确定(determined、determines或determining)”应被理解为获得、接收、计算、估算、估计、预测或得到。另外，在以下描述和权利要求中，除非另外定义，否则本文所使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。

系统概述

所公开的实施例针对音频信号(例如，音频文件或音频流)的每个频率找到音频录音的这样的片段，所述片段中的能量小于音频录音的其他片段中的能量，并且在这样的片段中能量的方差相当小。这样的片段在感兴趣频率处的能量被视为该频率处的稳定噪声电平。在每个频率处，选择合适的片段被视为最小化问题，其中，偏好低能量和低方差的片段，从而找到两个自变量之间的最佳折衷。如果在某个频率处，被识别为本底噪声的电平对应于相对较高的方差，则与这样的频率相关联的置信度较小。使用置信度值来通知后续噪声降低单元，因此应用于抑制噪声的增益衰减根据置信度值降低，从而允许采用潜在不准确的噪声估计不会对噪声降低的输出质量产生负面影响的保守方法。在本底噪声在高频下有较大下降(例如，通常是由于有损编解码器中的频带限制)的情况下，降低前的估计噪声值将保持直到频谱结束，以避免由于衰减增益在降低区域周围的频率上的平滑而导致的衰减增益减小。

图1是根据实施例的用于本底噪声估计和噪声降低的系统100的框图。系统100包括频谱生成单元101、缓冲区102、均方根(RMS)计算器103、统计分析单元104(“STATS”)、成本函数单元105、可选的平滑单元106、噪声降低单元107和划分单元108。

在实施例中，输入音频信号x(t)(例如，音频文件或音频流)由划分单元108划分为多个缓冲区102，每个缓冲区在Z kHz采样率(例如，48kHz)下包括N个样本(例如，4096个样本)且与相邻缓冲区百分之Y重叠(例如，50％重叠)。频谱生成单元101对多个缓冲区102的内容应用频率变换以获得时频表示X(n,f)，所述时频表示在Z kHz采样率(例如，48kHz)下包括具有M个频率区间(例如，4096个样本)的缓冲区。例如，4096个样本、50％重叠和48kHz的采样率导致每个缓冲区的频率分辨率约为12Hz。在一些实施例中，频率变换是短时傅里叶变换(STFT)，其输出时频数据(例如，时频片)。

对于每个缓冲区i，RMS计算器103计算缓冲区在时域中的RMS电平并且定义相对于最大RMS(例如，低于最大RMS-80dB)的静音阈值。静音阈值是通过分析整个音频信号来计算的，因此仅限于“离线”用例。可替代地，静音阈值定义为固定数字(例如，-100dBFS)，或取决于输入音频文件/流的位深度的固定数字(例如，对于16位信号为-90dBFS，并且对于24位信号为-140dBFS)。静音缓冲区是具有低于静音阈值的RMS电平的那些缓冲区。

对于每个频率f和每个缓冲区i，统计分析单元104计算j个缓冲区中样本的能量的中值和变化量的量度(例如，标准偏差、方差、范围(最大值-最小值)、四分位距)，其中，j个缓冲区属于以缓冲区i为中心的音频信号x(t)的块(例如，1秒的音频)。等式[1]和[2]使用j个缓冲区中样本的能量的中值μ和标准偏差σ描述统计分析单元104的操作，如下所示：

μ(i，f)＝median(20*Log(|X_i(j，f)|))， [1]

σ(i，f)＝std(20*Log(|X_i(j，f)|))。 [2]

包含一个或多个静音缓冲区(由静音阈值确定)的音频信号块不用于计算中值和标准偏差。在一些实施例中，可以用均值替换中值以降低计算成本。

图2A至图2C是(从上到下)图示了根据实施例的在某个频率处缓冲区上的信号能量、中值μ和标准偏差σ的曲线图。目标是找到每个频率处最能代表音频信号的本底噪声的音频信号块，即，中值/均值μ和标准偏差σ很小的块。代替引入阈值，成本函数单元105在重新缩放μ和σ以使其处于区间[0.0,1.0]即，归一化之后，计算成本函数的数值联合最小化J(μ(i，f),σ(i，f))：

一旦确定了与argmin_i{J(i，f)}相对应的缓冲区k(f)，就使音频文件/流的本底噪声等于缓冲区k的中值/均值：

noise(f)＝μ(k(f)，f) [4]

与缓冲区k相对应的音频块包括缓冲区k的一些相邻缓冲区，被称为频率f处的选定块。图3图示了根据等式[3]的μ和σ的成本函数。

注意，后验地重新缩放μ和σ需要获得其对于整个音频文件的值。如果要在线进行噪声估计，而文件被记录或处理，可以通过基于先前的经验观察引入这两个变量的固定范围[μ_max,μ_min]和[σ_max,σ_min]来完成重新缩放，使得重新缩放后的变量变为：

μ(i，f)＝0，如果μ(i，f)≤μ_min [5]

μ(i，f)＝(μ(i，f)-μ_min)/(μ_max-μ_min)，如果μ_min＜μ(i，f)＜μ_max [6]

μ(i，f)＝1，如果μ(i，f)≥μ_min。 [7]

可以使用等式[5]至[7]并将μ替换为σ来以类似的方式重新缩放σ。

在一些实施例中，考虑了对成本函数的以下改变(仍然假设μ和σ基于它们的最大值和最小值后验地或者基于猜测的最大值和最小值在线地重新缩放到[0,1])。成本函数可以用二次项表达：

J(i，f)＝μ²(i，f)+σ²(i，f)。 [8]

μ和σ各自的作用和重要性可以改变，从而破坏成本函数的对称性。一种方法是对σ进行变换，使得其在低于某个阈值时给出较低的成本，而在高于此阈值时给出较高的成本，并在这两者之间平滑过渡。这个公式将对于较小的σ值最小化J(i，f)。一种可能的实施方式是使用方程[9]中示出的sigmoid函数：

其中，α＝10是sigmoid函数的很好的示例比例因子。

在一些实施例中，二次项μ²(i，f)可以用线性项μ(i，f)替换，以对电平较低的块给予较少的权重，从而避免潜在的低估。

有益的是，偏好对选自同一音频块的相邻频率的噪声估计，以避免噪声曲线中的偶然低估异常值，所述噪声曲线除此以外非常平滑。实现这一点的一个实施例是通过检查选定块k(f)在频率上的分布，例如通过可视化音频文件中选定块的位置的直方图。如果在某个块

上发现较大的簇并且很少有偶然异常值，则可以假设块k主要是背景噪声，并且可以迫使估计同一个块上的异常值频率。对于对应块为

的频率，可以计算成本

并且如果成本增加小于某个阈值：

将noise(f)＝μ(k,f)替换为

该规则的轻微变化是只要成本差小于J_Th，就选择与

周围的n_k个缓冲区范围中的最小成本相对应的噪声估计值。

图4A图示了针对给定的缓冲区i和频率f与成本函数J(i，f)的最小值相对应的噪声电平的示例。图4B图示了针对缓冲区i和频率f的以dB为单位的示例中值/均值(μ)。图4C图示了针对缓冲区i和频率f的以dB为单位的示例标准偏差(σ)。图4D图示了针对缓冲区i和频率f的示例成本函数、以及其达到最小值的缓冲区argmin_i{J(i，f}。

在实施例中，可选的平滑单元106对估计的本底噪声应用平滑以避免由于从音频信号的不同块估计相邻区间而引起的波动。平滑单元106将noise(f)的每个值替换为f附近的频带中的值的平均值。这种频带的形状可以是矩形、三角形等。在一些实施例中，可以使用在频带边界处达到0值的平滑函数。出于感知原因，频带的宽度是指数的并且对应于恒定分数的倍频程。在一些实施例中，恒定分数是1/100，这是非常窄的带宽，用于保持足以准确测量噪声分量的分辨率。

通过将小置信度与具有高方差值的频率相关联或者相反，可以根据σ(k)的值获得表示估计的可靠度的置信度值c(f)：

c(f)＝0，如果σ≥σ_H， [10]

c(f)＝1，如果σ≤σ_L。 [12]

凭经验确定的示例值为σ_H＝14和σ_L＝7.5。置信度可以用于通知噪声降低单元107关于本底噪声估计的准确性，因此改善了噪声降低，从而避免在估计被认为不准确的频率处的不期望的伪影。

图5A图示了作为频率f的函数的示例估计噪声电平(dB)。图5B图示了图5A中示出的估计噪声的示例标准偏差，即，在给定频率f处成本函数具有最低值的缓冲区的标准偏差。图5C示出了基于图5B中示出的标准偏差σ的图5A的噪声估计的置信度。注意，根据等式[12]，当σ低于σ_L时，置信度为1；根据等式[11]，当σ在σ_L与σ_H之间时，置信度由下式给出

并且根据等式[10]，当σ大于σ_H时，置信度为0。

在实施例中，噪声降低单元107是基于频带或基于FFT的扩展器。在任何给定的帧上，能量接近于估计的本底噪声的频率区间被衰减，所述衰减的增益同能量与本底噪声的接近度成一定比例。在一些实施例中，增益衰减G(n,f)由L(n,f)使用与下文图6中示出的曲线类似的曲线确定。

具体地，令N(f)为以dB为单位的噪声的能量电平，并且令S(n,f)为音频内容在帧n和频率f处的能量电平。在一些实施例中，定义以分贝为单位的阈值Th，并且高于阈值的电平量被计算为：

L(n，f)＝10Log(S(n，f))-(N(f)+Th)。 [13]

参考图6，示出了增益曲线601(也称为“噪声降低曲线”)和旁路曲线602。在给定的输入电平(dB)下，增益衰减是输入电平(x轴)与所需输出电平(dB)(y轴)之间的差。增益曲线601在高于阈值603时斜率为1，在低于阈值点603时斜率对应于所选比率(例如，通常为5或更大)，并且在阈值点603周围平滑或骤然地过渡。当由成本函数单元106提供置信度c(f)时，噪声降低单元107使用所述置信度来减弱噪声降低在置信度较小的频率处的效果，方法是利用置信度来缩放以分贝为单位的增益降低：

G(i，f)＝c(f)G(i，f)。 [14]

在一些实施例中，还可以通过平滑单元105对置信度进行平滑，从而确保在置信度高的频带中的完全噪声降低与在置信度低的频带中的零噪声降低之间连续地过渡。

如图7A所示，在本底噪声在高频下有较大下降(例如，通常是由于有损编解码器中的频带限制)的情况下，降低前的估计噪声值将保持直到频谱结束。这是为了避免由于衰减增益在降低区域周围的频率上的平滑而导致的衰减增益减小。

在一些实施例中，降低的频率由以下方式确定：1)选择第一频率f₁，将在高于第一频率f₁处估计截止频率f_c，如图7A所示；2)将高于f₁的噪声频谱划分为具有L个点的长度和预定义的重叠(例如，50％)的段，如图7B所示；3)并且，在每个段中，计算平均导数，按其对应块的递增频率排序，找到具有小于预定义负值(例如，-20dB)的值的第一个导数，如图7C所示；以及4)计算f_c之前的小区域中的噪声频谱的平均值n_c，并将高于f_c的噪声频谱的值替换为n_c，如图7D所示。注意，步骤(3)应被解释为频谱上的显著降低，并且对应段的频率被认为是截止频率f_c

示例过程

图8是根据实施例的用于本底噪声估计和噪声降低的过程800的流程图。过程800可以使用如参考图8中示出的设备架构来实施。

过程800开始于使用一个或多个处理器获得音频信号(例如，文件、流)(801)，将音频信号划分到多个缓冲区中(802)，针对音频信号的每个缓冲区生成时频样本(803)，如参考图1至图7所描述的。

过程800继续进行：针对每个缓冲区并且针对每个频率，基于所述缓冲区中的样本和相邻缓冲区中的样本中的能量确定能量的中值(或均值)和标准偏差，所述缓冲区中的样本和相邻缓冲区中的样本一起跨越音频信号的指定时间范围(804)，以及将中值和标准偏差组合为成本函数(805)，如参考图1至图7所描述的。

过程800继续进行：针对每个频率，将音频信号的本底噪声估计为与成本函数的最小值相对应的音频信号的特定缓冲区的信号能量(806)，以及使用估计的本底噪声来降低音频信号中的噪声(807)，如参考图1至图7所描述的。

示例系统架构

图9示出了根据实施例的用于实施参考图1至图8描述的特征和过程的示例系统的框图。系统900包括能够播放音频的任何设备，包括但不限于：智能电话、平板计算机、可穿戴计算机、车载计算机、游戏控制台、环绕系统、信息亭。

如所示出的，系统900包括中央处理单元(CPU)901，所述中央处理单元能够根据存储在例如只读存储器(ROM)902中的程序或者从例如存储单元908加载到随机存取存储器(RAM)903的程序来执行各种进程。在RAM 903中，还根据需要存储CPU 901执行各种进程时所需的数据。CPU 901、ROM 902和RAM 903经由总线909相互连接。输入/输出(I/O)接口905也连接到总线904。

以下部件连接到I/O接口905：输入单元906，输入单元可以包括键盘、鼠标等；输出单元907，输出单元可以包括如液晶显示器(LCD)等显示器以及一个或多个扬声器；存储单元908，存储单元包括硬盘或另一种合适的存储设备；以及通信单元909，通信单元包括如网卡(例如，有线或无线)等网络接口卡。

在一些实施方式中，输入单元906包括位于不同位置(取决于主机设备)的一个或多个麦克风，一个或多个麦克风使得能够捕获各种格式(例如，单声道、立体声、空间、沉浸式和其他合适的格式)的音频信号。

在一些实施方式中，输出单元907包括具有各种数量的扬声器的系统。如图9所图示的，输出单元907(取决于主机设备的能力)可以渲染各种格式(例如，单声道、立体声、沉浸式、双耳和其他合适的格式)的音频信号。

通信单元909被配置成(例如，经由网络)与其他设备通信。根据需要，驱动器910也连接到I/O接口905。根据需要，如磁盘、光盘、磁光盘、闪存驱动器或其他合适的可移动介质等可移动介质911被安装在驱动器910上，使得从中读取的计算机程序被安装到存储单元908中。本领域技术人员将理解，尽管系统900被描述为包括上文所描述的部件，但是在实际应用中，可以添加、移除和/或替换这些部件中的一些部件，并且所有这些修改或变更都落入本公开的范围内。

根据本公开的示例实施例，上文所描述的过程可以实施为计算机软件程序或者在计算机可读存储介质上实施。例如，本公开的实施例包括计算机程序产品，计算机程序产品包括有形地体现在机器可读介质上的计算机程序，计算机程序包括用于执行方法的程序代码。在这种实施例中，计算机程序可以经由通信单元909从网络下载和安装，和/或从可移动介质911安装，如图9所示。

通常，本公开的各种示例实施例可以在硬件或专用电路(例如，控制电路)、软件、逻辑或其任何组合中实施。例如，上文所讨论的单元可以由控制电路(例如，与图9的其他部件组合的CPU)执行，因此，控制电路可以执行本公开中描述的动作。一些方面可以以硬件来实施，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件(例如，控制电路)来实施。尽管本公开的示例实施例的各个方面被图示和描述为框图、流程图或使用一些其他图形表示，应当理解，本文所描述的框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其他计算设备、或其某种组合来实施，作为非限制性示例。

另外，流程图中所示的各个框可以被视为方法步骤、和/或由计算机程序代码的操作产生的操作、和/或被构造为执行相关联的(多个)功能的多个耦接逻辑电路元件。例如，本公开的实施例包括计算机程序产品，计算机程序产品包括有形地体现在机器可读介质上的计算机程序，计算机程序包含被配置成执行上文所描述的方法的程序代码。

在本公开的上下文中，机器可读存储介质可以是可以包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以是非暂态的并且可以包括但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备、或前述的任何合适的组合。机器可读存储介质的更具体的示例将包括具有一条或多条导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者前述各项的任何合适的组合。

用于执行本公开的方法的计算机程序代码可以用一种或多种编程语言的任何组合来编写。这些计算机程序代码可以被提供给通用计算机、专用计算机或具有控制电路的其他可编程数据处理装置的处理器，使得程序代码在由计算机的处理器或其他可编程数据处理装置执行时，实施流程图和/或框图中指定的功能/操作。程序代码可以完全在计算机上执行，部分在计算机上执行，作为独立的软件包，部分在计算机上执行，并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行，或者分布在一个或多个远程计算机和/或服务器上。

虽然本文档包含许多具体实施方式细节，但是这些细节不应被解释为对可能要求的事物的范围的限制，而是被解释为对可能特定于特定实施例的特征的描述。在单独的实施例的上下文中在本说明书中所描述的某些特征还可以按组合形式实施在单一实施例中。相反，在单一实施例的上下文中描述的各种特征也可以被单独地或以任何适合的子组合的方式实施在多个实施例中。此外，尽管特征在上文可以被描述为以某些组合起作用并且甚至最初如此声明，但是在一些情况下可以从组合中去除要求保护的组合的一个或多个特征，并且所要求保护的组合可以涉及子组合或子组合的变体。在附图中描绘的逻辑流程不需要所示出的特定顺序或者有序顺序来实现期望的结果。另外，可以从所描述的流程中提供其他步骤，或者可以删除步骤，并且可以向所描述的系统添加其他部件，或者从所描述的系统中去除其他部件。因此，其他实施方式在以下权利要求的范围内。

Claims

1.一种估计音频信号的本底噪声的方法，所述方法包括：

使用一个或多个处理器获得音频信号；

使用所述一个或多个处理器将所述音频信号划分到多个缓冲区中；

使用所述一个或多个处理器确定所述音频信号的每个缓冲区的时频样本；

针对每个缓冲区和每个频率，使用所述一个或多个处理器基于所述缓冲区中的样本和相邻缓冲区中的样本确定能量变化量的量度和中值，所述缓冲区中的样本和相邻缓冲区中的样本一起跨越所述音频信号的指定时间范围；

使用所述一个或多个处理器将所述变化量的量度和所述中值或均值组合为成本函数；

针对每个频率：

使用所述一个或多个处理器确定与所述成本函数的最小值相对应的所述音频信号的特定缓冲区的信号能量；

使用所述一个或多个处理器选择所述信号能量作为所述音频信号的估计的本底噪声；以及

使用所述一个或多个处理器和所述估计的本底噪声来降低所述音频信号中的噪声。

2.如权利要求1所述的方法，其中，所述能量变化量的量度和中值或均值被缩放到0.0与1.0之间。

3.如权利要求1或2所述的方法，其中，所述成本函数随着中值或均值的增大而增大，并且随着所述能量变化量的量度的增大而增大。

4.如权利要求1或2所述的方法，其中，所述成本函数是非线性的。

5.如权利要求1或2所述的方法，其中，所述成本函数在所述变化量的量度和均值或中值上是对称的。

6.如权利要求1或2所述的方法，其中，所述成本函数是不对称的，并且当所述能量变化量的量度小于预定义阈值时，所述能量变化量的量度的权重小于所述均值或中值的权重。

7.如权利要求1或2所述的方法，其中，所述能量变化量的量度是：

标准偏差；或者

跨越所述指定时间范围内的缓冲区上的能量最大值与跨越所述指定时间范围内的缓冲区上的能量最小值之间的差。

8.如权利要求7所述的方法，其中，所述变化量的量度与均值或中值的组合是其平方值之和加上其乘积与1之和的倒数。

9.如权利要求7所述的方法，其中，所述变化量的量度与所述中值或均值的组合是其平方值之和。

10.如权利要求7所述的方法，其中，所述能量量的量度与中值或均值的组合是所述中值或均值的平方与所述变化量的量度的sigmoid。

11.如权利要求7所述的方法，其中，所述变化量的量度与中值或均值的组合是所述中值或均值与所述变化量的量度的sigmoid之和。

12.如前述权利要求7至11中任一项所述的方法，其中，具有对所述音频信号的块计算的所述变化量的量度以及中值或均值的缓冲区包括总体信号能量低于预定义阈值的至少一个缓冲区，并且所述至少一个缓冲区不用于估计所述音频信号的本底噪声。

13.如前述权利要求7至12中任一项所述的方法，其中，所述预定义阈值是相对于所述音频信号的最大电平确定的。

14.如前述权利要求7至13中任一项所述的方法，其中，所述预定义阈值是相对于所述音频信号的平均电平确定的。

15.如前述权利要求7至14中任一项所述的方法，进一步包括：

使用所述一个或多个处理器分析所述音频信号的块的分布，根据所述分布估计每个频率处的本底噪声；

选择块k和频率f；

如果增大的成本小于第二预定义阈值，则用从块k计算的值替换频率f处的估计噪声。

16.如前述权利要求1至15中任一项所述的方法，进一步包括：

根据所选择的缓冲区处的所述标准偏差的值确定置信度值。

17.如权利要求16所述的方法，其中，所述置信度值在频率上被平滑。

18.如前述权利要求1至17中任一项所述的方法，其中，降低所述音频信号中的噪声，进一步包括：

在每个频率处应用增益降低，所述增益降低随所述频率处的置信度值减小。

19.如前述权利要求1至18中任一项所述的方法，进一步包括：

使用所述一个或多个处理器选择频率f₁；

使用所述一个或多个处理器，针对高于所选择的频率f₁的具有预定大小的所有区间，计算具有预定义大小的段中频谱的离散导数的平均值；

使用所述一个或多个处理器在最大负导数小于预定义值时选择具有所述负值的段作为截止频率f_c；以及

使用所述一个或多个处理器将高于所述截止频率的频谱值替换为具有与所述截止频率相邻的上边界的预定义长度的频带中频谱的平均值。

20.一种系统，包括：

一个或多个处理器；以及

非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行方法权利要求1至19中任一项所述的操作。

21.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行方法权利要求1至19中任一项所述的操作。