CN105830154B

CN105830154B - 估计音频信号中的背景噪声

Info

Publication number: CN105830154B
Application number: CN201480067985.8A
Authority: CN
Inventors: 马丁·绍尔斯戴德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2013-12-19
Filing date: 2014-12-01
Publication date: 2019-06-28
Anticipated expiration: 2034-12-01
Also published as: RU2618940C1; RU2720357C2; RU2020114434A3; US10573332B2; HUE041826T2; CN110265059B; DK3719801T3; US20190259407A1; EP3719801A1; US10311890B2; EP3719801B1; RU2020114434A; PL3084763T3; CN110265058B; US20180033455A1; WO2015094083A1; EP3084763A4; ES2697423T3; EP3084763A1; CN105830154A

Abstract

本发明涉及一种背景噪声估计器及其中的方法，用于支持在音频信号分段中进行声音活动检测。所述方法包括：当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时，减小当前背景噪声估计。以上操作在以下情况下执行：当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时，或者当音频信号分段的能量水平与lt_min的差小于阈值，但是在音频信号分段中没有检测到停顿时，其中，所述lt_min是多个在先音频信号分段所确定的。执行所述方法与现有技术相比实现基于背景噪声估计的更准确的声音活动检测。

Description

估计音频信号中的背景噪声

技术领域

本发明的实施例涉及音频编码，具体地，涉及估计背景噪声以用于支持声音活动判断。

背景技术

在利用不连续传输(DTX)的通信系统中，找到效率和不降低质量之间的平衡是重要的。在这种系统中，活动检测器用于指示要被活动编码的活动信号(例如语音或音乐)、以及具有可以用在接收机侧产生的舒适噪声所替代的背景信号的分段。如果活动检测器在检测非活动时效率太高，则它将会在活动信号中引入削波(clipping)，当削波后的活动分段被舒适噪声替代时其将被感知为主观上的质量劣化。同时，如果活动检测器的效率不够并且将背景噪声分段分类为活动并对背景噪声进行活动编码而不是利用舒适噪声进入DTX模式，则DTX的效率降低。在多数情况下，削波问题被视为更严重。

图1示出了总体的声音活动检测器(SAD)或语音活动检测器(VAD)的框图，其采用音频信号作为输入并且产生活动判断作为输出。取决于实施方式，输出信号被划分为数据帧(即，例如5-30ms的音频信号分段)，并且每帧产生一个活动判断作为输出。

由图1中示出的主检测器进行主判断“prim”。主判断基本上只是当前帧的特征与从先前输入帧估计的背景特征之间的比较。当前帧的特征与背景特征之间的差异比阈值大导致活动主判断。延迟(hangover)加法块用于基于过去的主判断扩展主判断以形成最终判断“flag”。使用延迟的原因主要是为了减小/移除在活动突发的中间和后端削波的风险。如图所示，操作控制器可以根据输入信号的特性调整延迟加法的长度和主检测器的阈值。使用背景估计器块来估计输入信号中的背景噪声。在本文中，背景噪声还可以被称为“背景”或者“背景特征”。

可以根据两个基本不同的原理来进行背景特征的估计：通过使用如图1中的虚线所示的主判断(即利用判断或判断度量反馈)，或者通过使用输入信号的一些其它特性(即不使用判断反馈)。还可以使用这两种策略的组合。

使用用于背景估计的判断反馈的编解码器的示例是AMR-NB(自适应多速率窄带)，并且不使用判断反馈的编解码器的示例是EVRC(增强可变速率CODEC)和G.718。

可以使用多种不同的信号特征或特性，但是在VAD中使用的一个公共特征是输入信号的频率特性。通常使用的频率特性的类型是子带帧能量，由于其低复杂度和在低SRN中的可靠操作。因此假设输入信号被分割为不同频率子带，并且针对每个子带估计背景水平。通过这种方式，背景噪声特征之一是具有针对每个子带的能量值的矢量，这些值用于在频域中表征输入信号中的背景噪声。

为了实现对背景噪声的跟踪，可以以至少三种不同方式来进行实际背景噪声估计更新。一种方式是针对每个频率点(frequency bin)使用自动回归(AR)处理来处理更新。这种编解码器的示例是AMR-NB和G.718。基本上，对于这种类型的更新，更新的步长与观察到的当前输入和当前背景估计之间的差成正比。另一种方式是使用当前估计的乘法缩放，其限制是所述估计不能大于当前输入或者小于最小值。这意味着估计随着每帧增加，直到其高于当前输入。在此情况下，当前输入被用作估计。EVRC是使用该技术来对VAD功能的背景估计进行更新的编解码器的示例。应注意，EVRC针对VAD和噪声抑制使用不同的背景估计。应当注意的是，可以在除DTX以外的其它情境中使用VAD。例如，在可变速率编解码器(例如EVRC)中，VAD可以用作速率确定功能的一部分。

第三种方式是使用所谓的最小技术，其中，估计是在先前帧的滑动时间窗口期间的最小值。这基本上给出了使用补偿因子被缩放的最小估计，以达到或近似针对静止噪声的平均估计。

在高SNR情况下(其中活动信号的信号水平比背景信号的信号水平高得多)，很容易就能判断输入音频信号是活动还是非活动。然而，很难在低SNR情况下分出活动信号和非活动信号，尤其是在背景非静止或者甚至在其特性上与活动信号相似的情况下。

发明内容

希望更准确地判断音频信号是否包括活动语音或音乐。本文提供了一种用于产生背景噪声估计的改进方法，其能够使声音活动检测器做出更准确的判断。

根据第一方面，提供了一种背景噪声估计方法，用于支持在音频信号分段中进行声音活动检测。意在由背景噪声估计器来执行所述方法。所述方法包括：当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时，减小当前背景噪声估计。以上操作在以下情况下执行：当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时，或者当音频信号分段的能量水平与lt_min的差小于阈值，但是在音频信号分段中没有检测到停顿时，其中，所述lt_min通过多个在先音频信号分段来确定。

根据第二方面，提供了一种背景噪声估计器，用于支持在音频信号分段中进行声音检测。背景噪声估计器被配置为：当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时，或者当音频信号分段的能量水平与lt_min的差小于阈值，但是在音频信号分段中没有检测到停顿时：当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时，减小当前背景噪声估计。

根据第三方面，提供了一种SAD，其包括根据第二方面的背景噪声估计器。

根据第四方面，提供了一种编解码器，其包括根据第二方面的背景噪声估计器。

根据第五方面，提供了一种通信设备，其包括根据第二方面的背景噪声估计器。

根据第六方面，提供了一种网络节点，其包括根据第二方面的背景噪声估计器。

根据第七方面，提供了一种计算机程序，包括指令，所述指令当在至少一个处理器上执行时使所述至少一个处理器执行根据第一方面的方法。

根据第八方面，提供了一种载体，其包含根据第七方面的计算机程序。

附图说明

根据以下对附图中示出的实施例更具体的描述，本文公开的技术的以上或其他目的、特征、优点将显而易见。附图不一定按比例绘制，相反重点在于示意此处公开的技术的原理。

图1是示出了活动性检测器和延迟确定逻辑的框图。

图2是示出了根据示例性实施例的背景更新判断逻辑的流程图。

图3和图4示出了根据不同示例性实施例的背景估计器。

图5是示出了子带能量背景估计器的框图。

图6至图9是示出了实施例如何实现对音频信号中的背景噪声的更好跟踪的示图。

具体实施方式

本文公开的方案涉及估计音频信号中的背景噪声。在图1中所示的总体活动性检测器中，由被表示为“背景估计器”的块来执行估计背景噪声的功能。可以在之前公开的W02011/049514和W02011/049515的方案中找到与本方案相关的一些实施例，其通过引用合并于此。本文公开的方案将与这些之前公开的申请的实施方式进行比较。即使W02011/049514和W02011/049515中公开的方案是优良的方案，但是本文呈现的方案仍然具有相对于这些方案的优点。例如，本文呈现的方案具有更低复杂度的实施方式，并且其在跟踪背景噪声的操作中更准确。

VAD的性能取决于背景噪声估计器跟踪背景特性的能力，尤其是在其遇到非静止背景的情况下。通过更好的跟踪，可以使得VAD更高效，同时也不会增加语音削波的风险。

当前噪声估计方法的一个问题在于为了实现在低SNR中对背景噪声进行良好跟踪，需要可靠的停顿检测器。对于只有语音的输入，可以利用音节速率或者人不可能一直说话的事实来找到语音中的停顿。这种方案可以涉及在不进行背景更新的足够时间之后，“放松”对停顿检测的需要，从而更可能检测语音中的停顿。这允许对噪声特性或水平中的突然改变进行响应。这种噪声恢复逻辑的一些示例是：1)由于语音话语包含具有高相关性的分段，因此在没有相关性的足够帧数之后，通常可以假设在语音中存在停顿。2)当信噪比SNR＞0时，语音能量高于背景噪声，所以如果帧能量在长时间(例如1-5秒)内接近最小能量，也可以假设这在语音停顿中。虽然之前的技术在只有语音的输入的情况下工作良好，但是它们在音乐被视为活动输入的情况下是不够的。在音乐中，可能存在具有低相关性的长分段，但是其仍是音乐。此外，音乐中能量的动态特性还可以触发错误的停顿检测，这会导致对背景噪声估计的不期望的、错误的更新。

理想地，会需要活动检测器的逆功能(或者被称为“停顿发生检测器”)来控制噪声估计。这将确保仅在当前帧中不存在活动信号时进行对背景噪声特性的更新。然而，如上所述，不易于确定音频信号分段是否包括活动信号。

传统上，当已知活动信号是语音信号时，活动检测器被称为语音活动检测器(VAD)。还在输入信号可能包括音乐时经常使用针对活动检测器的术语VAD。然而，在现代编解码器中，当音乐也被检测为活动信号时，还通常将活动检测器称为声音活动检测器(SAD)。

图1中示出的背景估计器利用来自主检测器和/或延迟块的反馈来定位非活动音频信号分段。当开发本文所述的技术时，期望移除或者至少减少对这种反馈的依赖性。对于本文公开的背景估计，发明人认为，当只有包括活动信号和背景信号的未知混合在内的输入信号可用时，能够找到可靠特征来识别背景信号特性是重要的。发明人还认识到，不能假设输入信号开始于噪声分段，甚至也不能假设该输入信号是混合有噪声的语音，因为活动信号也可能是音乐。

本文实施例的优于现有技术的一个贡献在于对要使用的特征的选择，甚至于如何对选择的特征进行组合以实现针对不同类型的输入都能可靠地工作的噪声估计逻辑。

从上文我们已经知道，存在针对特定条件工作良好的若干特征。困难在于以对噪声估计和背景跟踪有益的方式来对这些特征进行组合。尤其是在想要避免关于初始条件的假设而仅依赖于目前为止的信号的特性，并且能够处理语音和音乐都被视为活动输入的条件的情况下。

图2是示出了根据本文提出的技术的用于背景噪声估计的方法的示例性实施例的流程图。该方法意在由作为SAD的一部分的背景噪声估计器来执行。背景噪声估计器和SAD还可以包括在音频编码器中，进而包括在无线设备或网络节点中。对于描述的背景噪声估计器，不限制将噪声估计向下调节。对于每帧，计算可能的新子带噪声估计，而不管帧是背景还是活动内容，如果新值比当前值低，则其被直接用作最可能来自于背景帧。以下的噪声估计逻辑是第二步骤，其中判断子带噪声估计是否可以增加并且如果可以增加的话可以增加多少，所述增加基于之前计算的可能的新子带噪声估计。基本上，该逻辑导致将当前帧确定为背景帧，并且如果其不确定的话，则可以允许比原始所估计的更小的增加。

图2所示的方法包括：当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值(202∶1)时，或者当音频信号分段的能量水平与lt_min的差小于阈值(202∶2)，但是在音频信号分段中没有检测到停顿(204∶1)时：

-当音频信号分段被确定(203∶2)为包括音乐，并且当前背景噪声估计超过最小值(在图2中被表示为“T”，并且在下面的代码中还被示例化为例如2*E_MIN)(205∶1)时，减少(206)当前背景噪声估计。

通过执行以上操作并且向SAD提供背景噪声估计，SAD能够执行更准确的声音活动检测。此外，还能够从错误背景噪声估计更新中恢复。

在上述方法中使用的音频信号分段的能量水平可以备选地称为例如当前帧能量(Etot)，或者被称为信号分段或帧的能量，其可以通过对当前信号分段的子带能量进行求和来计算。

在上述方法中使用的其它能量特征(即长期最小能量水平lt_min)是一种估计，其通过多个在先音频信号分段或帧来确定。lt_min可以备选地表示为例如Etot_l_lp。推导lt_min的一个基本方式是使用若干过去帧的当前帧能量的历史的最小值。如果值被计算为：“当前帧能量-长期最小估计”低于阈值(被表示为例如THR1)，则当前帧能量在此被视为接近长期最小能量，或者在长期最小能量附近。也就是说，当(Etot-lt_min)＜THR1时，当前帧能量(Etot)可以被确定(202)为在长期最小能量lt_min附近。取决于实施方式，当(Etot-lt_min)＝THR1时的情况可以被称为判断202∶1或202∶2。图2中是序号202∶1指示当前帧能量不在lt_min附近的判断，而序号202∶2指示当前帧能量在lt_min附近的判断。图2中的关于形式XXX∶Y的其它序号指示相应判断。将在下文进一步描述特征lt_min。

当前背景噪声估计要超过的以便被减小的最小值可以被假设为零或小的正值。例如，如将在下面的代码中所解释的，背景估计的当前总能量(可以被表示为“totalNoise”并被确定为例如10*log10∑backr[i])需要超过最小值零以在后续讨论中减小。备选地或者附加地，在包括子带背景估计的矢量backr[i]中的每个条目可以与最小值(E_MIN)相比较，用于要被执行的减小。在下文的代码示例中，E_MIN是小的正值。

应注意的是，根据本文建议的方案的优选实施例，确定音频信号分段的能量水平与lt_min的差是否高于阈值仅基于从输入音频信号得到的信息，也就是说，其不基于来自声音活动检测器判断的反馈。

可以基于一个或多个准则按照不同方式来确定(204)当前帧是否包括停顿。停顿准则还可以被称为停顿检测器。可以应用单个停顿检测器或不同停顿检测器的组合。在停顿检测器的组合的情况下，每个停顿检测器可以用于检测不同条件下的停顿。当前帧可能包括停顿(或非活动)的一个指示符是该帧的相关性特征低，并且多个在先帧也具有低相关性特征。如果当前能量接近长期最小能量，并且检测到停顿，则可以根据当前输入来更新背景噪声，如图2中所示。除了音频信号分段的能量水平与lt_min的差小于阈值之外，可以在以下情况中视为检测到停顿：预定义数目的连续在先音频信号分段已被确定为不包括活动信号和/或音频信号的动态特性超过阈值。这还示出在下文的代码示例中。

背景噪声估计的减小(206)使得能够处理背景噪声估计变得“太高”(即与真实背景噪声相关)的情况。这还可以被表达为背景噪声估计偏离了实际背景噪声。太高的背景噪声估计可能会导致SAD的不准确的判断，其中，即使包括活动语音或音乐，当前信号分段也被确定为非活动的。背景噪声估计变得太高的原因在于例如在音乐中的错误的或不期望的背景噪声更新，其中噪声估计将音乐误认为背景并且允许噪声估计增加。公开的方法允许例如在输入信号的后续帧被确定为包括音乐时对错误更新的背景噪声估计进行调整。通过背景噪声估计的强制减小(其中噪声估计被缩减)来进行该调整，即使当前输入信号分段能量高于例如子带中的当前背景噪声估计。应注意的是，上述用于背景噪声估计的逻辑用于控制背景子带能量的增加。在当前帧子带能量低于背景噪声估计时，始终允许降低子带能量。该功能没有在图2中明确地示出。这种下降通常具有针对步长的固定设置。然而，根据上述方法，背景噪声估计应该仅被允许与判断逻辑相关联地增加。当检测到停顿时，还可以使用能量和相关性特征来决定(207)在进行实际背景噪声更新之前，背景估计增加的调整步长应该多大。

如前所述，一些音乐分段可能由于与噪声很像而难以从背景噪声中分离出来。因此，噪声更新逻辑可能会意外地允许增加子带能量估计，即使输入信号是活动信号。这会造成问题，因为噪声估计可能变得比它们所应该的高。

在现有技术的背景噪声估计器中，仅在输入子带能量低于当前噪声估计时，子带能量估计才能减小。然而，由于一些音乐分段可能由于很像噪声而难以从背景噪声中分离出来，发明人认识到需要针对音乐的恢复策略。在本文描述的实施例中，可以通过在输入信号回到类似音乐的特性时强制进行噪声估计减小来进行这种恢复。也就是说，当上文所述的能量和停顿逻辑防止(202∶1、204∶1)噪声估计增加时，测试(203)输入是否被怀疑是音乐，如果是(203∶2)，则逐帧将子带能量减小(206)小的量，直到噪声估计达到最低水平(205∶2)。

本文公开的方案还涉及一种在硬件和/或软件中实施的背景估计器。在图3中示意性地示出了根据示例性实施例的背景估计器500。背景估计器500可以被假设为包括：输入单元502，用于接收能量测量以及可能的相关性测量；以及输出单元505，用于提供更新的背景噪声估计。背景估计器500还包括处理器503和存储器504，所述存储器包含可以由所述处理器503执行的指令507。指令507的执行使得所述背景估计器500可操作为执行用于上述背景噪声估计的方法的至少一个实施例。换言之，由处理器503执行指令507使得背景估计器500操作为：当音频信号分段的能量水平与长期最小能量水平lt_min(其通过多个在先音频信号分段来确定)的差大于阈值时，或者当音频信号分段的能量水平与lt_min的差小于阈值，但是在音频信号分段中没有检测到停顿时：

-当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时，减小当前背景噪声估计；指令507可以存储为计算机代码(例如在本公开的下文中呈现的代码)的形式。在被背景估计器存储和/或执行之前，指令或计算机程序可以由载体承载。这种载体可以是例如电子信号、光信号、无线电信号或者计算机可读存储介质。

图4示出了背景估计器的备选实施。背景估计器400包括输入/输出单元401；能量确定装置402，被配置为确定当前帧能量是否接近长期最小能量估计；停顿检测器403，被配置为确定当前帧是否包括停顿；音乐检测器404，被配置为确定当前帧是否包括音乐。背景估计器400还包括背景估计器调整器405，被配置为：当音频信号分段的能量水平与长期最小能量水平lt_min的差大于阈值时，或者当音频信号分段的能量水平与lt_min的差小于阈值，但是在音频信号分段中没有检测到停顿时：-当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时，减小当前背景噪声估计。背景估计器调整器405还可以配置为执行例如规则调整，如图2中的208所示。

如上所述的背景估计器可以包括或者实施在VAD或SAD和/或编码器和/或解码器中，其中，编码器和/或解码器可以被实施在用户设备(例如移动电话、膝上型计算机、平板计算机等)中。背景估计器还可以包括在网络节点(例如媒体网关)中，例如作为编解码器的一部分。

图5是示意性示出了根据示例性实施例的背景估计器的实施的框图。输入成帧块51首先将输入信号划分为合适长度(例如5-30ms)的帧。对于每帧，特征提取器52从输入中计算至少以下特征：1)特征提取器在频域中分析帧，并且计算针对子带集合的能量。子带是要用于背景估计的相同子带。2)特征提取器还在时域中分析帧，并且计算相关性(被表示为cor_est和/或lt_cor_est)，其用于确定帧是否包括活动内容。3)特征提取器还利用当前帧总能量(例如被表示为Etot)来更新当前和更早的输入帧的能量历史的特征，例如长期最小能量lt_min。相关性和能量特征随后被馈送给更新判断逻辑块53。

这里，根据本文公开方案的判断逻辑被实施在更新判断逻辑块53中，其中，相关性和能量特征被用于确定当前帧能量是否接近长期最小能量；确定当前帧是否是停顿(非活动信号)的一部分；以及确定当前帧是否是音乐的一部分。根据本文描述的实施例的方案涉及如何使用这些特征和判断来以鲁棒方式更新背景噪声估计。

在下文中，将描述本文公开的方案的实施例的实施细节。下文的实施细节来自于基于G.718的编码器中的实施例。本实施例使用在WO2011/049514和WO2011/049515中描述与的一些特征，这些部分被附进本公开。

在WO2011/049514中描述的修改的G.718中定义了以下特征：

Etot；当前输入帧的总能量

Etot_l跟踪最小能量包络

Etot_l_lp；最小能量包络Etot_l的平滑版本

totalNoise：背景估计的当前总能量

bckr[i]；具有子带背景估计的矢量；

tmpN[i]；预计算的潜在新背景估计

aEn；使用多个特征的背景检测器(计数器)

harm_cor_cnt对从具有相关性或谐波事件的最后帧开始的帧计数

act_pred对仅来自于输入帧特征的活动的估计

Cor[i]具有相关性估计的矢量，其中i＝0是当前帧的结束，

i＝1是当前帧的开始，i＝2是前一帧的结束

在WO201I/049515中描述的修改的G.718中定义了以下特征：

Etot_h跟踪最大能量包络

sign_dyn_lp；平滑后的输入信号动态特性

在WO2011/049514中还定义了特征Etot_v_h，但是在本实施例中其被修改并且现在被实施为以下：

Etot_v测量帧之间的绝对能量变化，即，帧之间的瞬时能量变化的绝对值。在以上示例中，当最后帧能量和当前帧能量之间的差小于7个单位时，这两个帧之间的能量变化被确定为“低”。这被用作表明当前帧(和先前帧)可能是停顿的一部分(即，仅包括背景噪声)的指示符。然而，这种低变化还可以在例如突发语音的中间找到。变量Etot_last是先前帧的能量水平。

以上在代码中描述的步骤可以被执行为图2中的流程图的“计算/更新相关性和能量”步骤的一部分，即，动作201的一部分。在WO2011/049514实施中，VAD标记被用于确定当前音频信号分段是否包括背景噪声。发明人认识到依赖于反馈信息可能会有问题。在本文公开的方案中，确定是否更新背景噪声估计不依赖于VAD(或SAD)判断。

此外，在本文公开的方案中，不是WO2011/049514实施的一部分的以下特征可以被计算/更新为相同步骤的一部分，即，在图2中示出的计算/更新相关性和能量步骤。这些特征还被判断逻辑用于确定是否更新背景估计。

为了实现更准确的背景噪声估计，以下定义多个特征。例如，定义了新的关于相关性的特征cor_est和It_cor_est。特征cor_est是当前帧中的相关性的估计，并且cor_est还用于产生It_cor_est，It_cor_est是对相关性的平滑后的长期估计。

cor_est＝(cor[0]+cor[1]+cor[2])/3.0f；

st-＞lt_cor_est＝0.01f*cor_est+0.99f*st-＞lt_cor_est；

如上所述，cor[i]是包括相关性估计的矢量，cor[0]表示当前帧的结束，cor[1]表示当前帧的开始，并且cor[2]表示先前帧的结束。

此外，计算新特征It_tn_track，其给出关于背景估计有多频繁地接近当前帧能量的长期估计。在当前帧足够接近当前背景估计时，其被登记为用信号(1/0)通知是否接近背景的条件。该信号用于形成长期测量It_tn_track。

st-＞lt_tn_track＝0，03f*(Etot-st-＞tota1Noise＜10)+0.97f*st-＞lt_tn_track；

在该示例中，在当前帧能量接近背景噪声估计时添加0.03，否则剩下的项只有0.97乘以先前值。在该示例中，“接近”被定义为当前帧能量Etot和背景噪声估计totalNoise之间的差小于10个单位。“接近”的其它定义也是可行的。

此外，当前帧能量Etot和当前背景估计totalNoise之间的差被用于确定给出对该距离的长期估计的特征lt_tn_dist。创建类似的特征lt_Ellp_dist用于长期最小能量Etot_l_lp和当前帧能量Etot之间的距离。

st-＞lt_tn_dist＝0.03f*(Etot-st-＞totalNoise)+0.97f*st-＞lt_tn_dist；

st-＞lt_Ellp_dist＝0.03f*(Etot-st-＞Etot_l_lp)+0.97f*st-＞lt_Ellp_dist；

上文引入的特征harm_cor_cnt用于对从具有相关性或谐波事件的最近帧开始(即，从满足与活动相关的特定准则的帧开始)的帧的数目进行计数。也就是说，当条件harm_cor_cnt＝＝0，则其暗示当前帧很可能是活动帧，因为其显示了相关性或谐波事件。这用于形成对这种事件多频繁发生的长期平滑估计lt_haco_ev。在此情况下，更新不对称，也就是说，在增加或降低估计的情况下使用不同时间常数，如下文所述。

上文引入的特征It_tn_track的低值指示针对一些帧，输入帧能量没有接近背景能量。这是由于在当前帧能量不接近背景能量估计的情况下，It_tn_track针对每个帧而降低。It_tn_track仅在当前帧能量接近背景能量估计时增加，如上所示。为了得到对该“不跟踪”(即，帧能量远离背景估计)持续了多久的更好估计，用于不存在跟踪的帧的数目的计数器low_tn_track_cnt被形成为：

在以上示例中，“低”被定义为低于值0.05。这应该被视为示例性值，其可以被不同地选择。

对于在图2中示出的步骤“形成停顿和音乐判断”，使用以下三个代码表达来形成停顿检测(还被表示为背景检测)。在其它实施例和实施方式中，还可以添加其它准则来进行停顿检测。使用相关性和能量特征来在代码中形成实际音乐判断。

1：bg_bgd＝Etot＜Etot_1_lp+0.6f*st-＞Etot_v_h；

当Etot接近背景噪声估计时bg_bgd将变为“1”或“真”。bg_bgd用作针对其它背景检测器的掩码。也就是说，如果bg_bgd不为“真”，则不需要评估下面的背景检测器2和3。Etot_v_h是噪声变化估计，其可以备选地表示为N_var。使用Etot_v从(对数域中的)输入总能量得到Etot_v_h，其中，Etot_v测量帧之间的绝对能量变化。应注意，特征Etot_v_h被限制为只针对每帧将最大值增加小的常数值(例如0.2)。Etot_l_lp是最小能量包络Etot_l的平滑版本。

2：aE_bgd＝st-＞aEn＝＝0；

当aEn为零时，aE_bgd变为“1”或“真”。aEn是如下计数器：当活动信号被确定为存在于当前帧中时递增，当当前帧被确定为不包括活动信号时递减。aEn可以不递增多于特定数目(例如6)，并且不减小到小于零。在多个(例如6个)连续帧之后，在不存在活动信号的情况下，aEn将等于零。

3.sd1_bgd＝(st-＞sign_dyn_lp＞15)&&(Etot-st-＞Etot_l_lp)＜st-＞Etot_v_h&&st-＞harm_cor_cnt＞20；

在以下三个不同情况是真的情况下，sd1_bgd将为“1”或“真”：信号动态特性sign_dyn_lp高，在此示例中多于15；当前帧能量接近背景估计；以及：通过了不具有相关性或谐波事件的特定数目的帧，在该示例中为20帧。

bg_bgd的功能是用作用于检测当前帧能量接近长期最小能量的标记。后两者aE_bgd和sd1_bgd表示不同条件下的停顿或背景检测。aE_bgd是这两者中最常用的检测器，而sdl_bgd主要检测高SNR中的语音停顿。

根据本文公开的技术的实施例的新判断逻辑被构建在下面的代码中。判断逻辑包括掩码条件bg_bgd以及两个停顿检测器aE_bgd和sdl_bgd。还可存在第三停顿检测器，其评估关于totalNoise跟踪最小能量估计的性能的长期统计量。在第一行是真的情况下评估的条件是关于步长应该为多大的判断逻辑，updt和实际噪声估计更新是将值指派给“st-＞bckr[i]＝-”。应注意，tmpN[i]是之前计算的根据在WO2011/049514中描述的方案所计算的潜在新噪声水平。下文的判断逻辑遵循图2的部分209，其被与下文的代码相关联地部分指示

以″/*If in music…*/开始的最后代码块中的代码分段包含对背景估计的强制缩减，其在怀疑当前输入是音乐的情况下被使用。这被判断为函数：长期的与最小能量估计相比的不良跟踪背景噪声AND(与)经常发生谐波或相关性事件AND最后条件“totalNoise＞0”检查到背景估计的当前总能量大于零，其暗示可以考虑背景估计的减小。此外，确定“bckr[i]＞2*E_MIN”是否成立，其中，E_MIN是较小的正值。这是为了检查包括子带背景估计在内的矢量中的每个条目，从而条目需要超过E_MIN以被减小(在该示例中乘以0.98)。进行这些检查以避免将背景估计减小为太小的值。

实施例改善了背景噪声估计，其使得SAD/VAD能够以更好的性能实现高效DTX方案，并且避免由于削波而引起的语音质量或音乐的劣化。

通过从Etot_v_h移除在WO2011/049514中描述的判断反馈，可以更好地分离噪声估计和SAD。这在如果/当SAD功能/调谐改变时而噪声估计不变的情况下是有益的。也就是说，背景噪声估计的确定变得独立于SAD的功能。此外，噪声估计逻辑的调谐也变得更简单，因为其不受当背景估计改变时来自于SAD的次生效应的影响。

下文是对示出了利用本文公开的实施例解决的问题的附图的描述。

图6是示出了音频信号的多个帧的能量Etot(点)的示图。示图示出了利用现有技术方案估计的背景(靠下的较细的曲线“x”)、以及根据建议方案的实施例估计的背景(靠上的较粗的曲线“+”)。该示图示出了实施例如何通过将总能量估计保持在较高的水平，并且通过在例如帧2510(与原始方案中的帧2610相比)附近更快地反应，来实现对背景噪声的更好跟踪。

图7也是示出了音频信号的多个帧的能量Etot(点)的示图。示图示出了利用现有技术方案估计的背景(靠下的较细的曲线“x”)、以及根据建议方案的实施例估计的背景(靠上的较粗的曲线“+”)。可以看出，根据本文建议的方案的估计更高效地跟踪背景噪声(例如话语之间的背景噪声)，尤其是在帧数范围1600-1700中。

图8也是示出了音频信号的多个帧的能量Etot(点)的示图。示图示出了利用现有技术方案估计的背景(靠上的较细的曲线“x”)、以及根据建议方案的实施例估计的背景(靠下的较粗的曲线“+”)。示图还示出了建议的方案与(现有技术)跟踪背景太高效时相比的优势。当在帧2300和2400之间在背景中存在能量突发时，话语的前端削波在帧2400处开始的风险增加。

图9也是示出了音频信号(在此情况下为音乐信号)的多个帧的能量Etot(点)的示图。该示图中的音乐文件具有很像噪声的开始，并且其导致噪声估计做出了错误的判断，并且允许对文件(在帧200附近)进行一点更新。然而，利用强制背景减小，其开始在帧1700恢复，并且在帧2100，噪声估计下降到强制减小的最低水平。从附图中可以看出，由于针对多数帧而言输入高于背景估计，利用普通更新逻辑不能具有相同的背景水平减小。

结论陈述

上述背景估计器可以包括在SAD、编解码器和/或诸如通信设备的设备中。通信设备可以是用户设备(UE)，其形式为移动电话、视频相机、录音机、平板电脑、台式电脑、膝上型电脑、TV机顶盒或家庭服务器/家庭网关/家庭接入点/家庭路由器。在一些实施例中，通信设备可以是适于编码和/或转码的通信网络设备。这种通信网络设备的示例是服务器，例如媒体服务器、应用服务器、网关和无线电基站。通信设备还可以适于布置在(即嵌入在)诸如轮船之类的船舰、无人飞机、飞机和诸如汽车、巴士或火车之类的道路车辆中。这种嵌入式设备通常属于车辆信息设备单元或车辆信息娱乐系统。

本文所述的步骤、功能、过程、模块、单元和/或块可以使用任何常规技术实现在硬件中，例如分立式电路或集成电路技术，包括通用电子电路和专用电路二者。

特定示例包括一个或多个合适配置的数字信号处理器和其他已知电子电路，例如用于专用特别功能的互连的分立逻辑门、或者应用专用集成电路(ASIC)。

备选地，上述步骤、功能、过程、模块、单元和/或块的至少一部分可以实现在软件中，例如由包括一个或多个处理单元的合适处理电路来执行的计算机程序。在被网络节点中的计算机程序使用之前或期间，软件可以由载体(例如电子信号、光信号、无线电信号或计算机可读存储介质)承载。

当由一个或多个处理器执行时，本文提出的流程图(一个或多个)可被认为是计算机流程图(一个或多个)。对应的装置可定义为一组功能模块，其中由处理器执行的每个步骤对应于功能模块。在这种情况下，功能模块实现为在处理器上运行的计算机程序。

处理电路的示例包括但不限于，一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个中央处理单元(CPU)和/或任意合适的可编程逻辑电路，例如一个或多个现场可编程门阵列(FPGA)或者一个或多个可编程逻辑控制器(PLC)。也就是说，在上述不同节点中的布置中的单元或模块可以被实施为模拟或数字电路的组合、和/或由存储在存储器中的软件和/或固件配置的一个或多个处理器。这些处理器中的一个或多个以及其它数字硬件可以包括在单个专用集成电路(ASIC)中，或者若干个处理器和各种数字硬件可以分布在若干个分离的组件上，不论单独封装还是组装为片上系统(SoC)。

也应当理解，可以重用其中实现了所提出的技术的任意传统设备或单元的通用处理能力。还可以例如通过重新编程现有的软件或者通过添加新的软件组件来重新使用现有的软件。

仅作为示例，提出上述实施例，并且应当理解，所提出的技术不限于此。本领域技术人员将会理解，在不背离本发明范围的情况下，可以对该实施例进行各种修改、合并和改变。尤其是，不同实施例中的不同部分的方案可在其他技术上可行配置中进行组合。

当使用词语″包括″或″包括……″时，应当被理解为非限制性的，即意味着″至少包括″。

应该注意的是，在一些备选实施例中，在块中标记的功能/动作可以不以流程图中标记的顺序发生。例如依赖于所涉及的功能/动作，连续示出的两个块实际上可以实质上同时执行，或者块有时候可以按照相反的顺序执行。此外，可以将流程图和/或方框图中的给定模块的功能分离成多个块和/或流程图的两个或更多块的功能和/或可以至少部分地集成方框图。最后，可以在不脱离本发明构思的情况下，在示出的块之间添加/插入其它块，和/或可以删除块/操作。

应当理解，在本公开内对交互单元的选择以及单元的命名仅用于示例目的，并且可通过多个备选方式来配置适合于执行上述任何方法的节点，从而能够执行所公开的处理动作。

还应当注意，本公开中描述的单元应被认为是逻辑实体，并且不必是分离的物理实体。

除非明确地阐述，对单数形式的元件的引用不意图表示“一个且仅一个”，而是“一个或更多个”。上述优选元素实施例的元素的对于本领域的普通技术人员已知的所有结构和功能等同物明确通过引用并入本文，并旨在由本权利要求所涵盖。此外，设备或方法不必须解决本文公开的技术所要解决的每个问题，其用于被包含于此。

在本文的一些实例中，省略众所周知的设备、电路和方法的详细说明，以免不必要的细节模糊所公开技术的说明。本文中列出所公开技术的原理、方面和实施例，以及其具体实例的所有陈述旨在包括其结构和功能等同物。此外，不考虑结构，希望这种等价形式既包括当前已知的等价形式，也包括未来发展的等价形式，例如执行相同功能的发展的单元。

缩写

AMR 自适应多速率

DTX 不连续传输

VAD 语音活动检测器

3GPP 第三代合作伙伴计划

SID 静音插入描述符

SAD 语音活动检测器

SNR 信噪比

WB 宽带

Claims

1.一种用于支持在音频信号分段中进行声音活动检测的背景噪声估计方法，所述方法包括：

当音频信号分段的能量水平与长期最小能量水平1t_min之间的差大于阈值(202：1)时，或者当所述差小于所述阈值(202：2)并且在音频信号分段中没有检测到停顿(204：1)时：

-当确定音频信号分段包括音乐(203：2)并且当前背景噪声估计超过最小值(205：1)时，减小(206)当前背景噪声估计，

其中，所述1t_min是对多个在先音频信号分段所确定的。

2.根据权利要求1所述的方法，其中，判断音频信号分段的能量水平与1t_min之间的差是否大于所述阈值是基于从输入音频信号得到的信息，而不是基于来自声音活动检测器的反馈。

3.根据权利要求1或2所述的方法，其中，除了音频信号分段的能量水平与1t_min之间的差小于所述阈值之外，当还满足以下条件之一或两者时认为检测到停顿：

-已经确定预定义数目的连续在先音频信号分段不包括活动信号；

-音频信号的动态特性超过音频信号动态阈值。

4.一种背景噪声估计器(500)，用于支持在音频信号分段中进行声音检测，所述背景噪声估计器被配置为：

当音频信号分段的能量水平与长期最小能量水平1t_min之间的差大于阈值时，或者当所述差小于所述阈值并且在音频信号分段中没有检测到停顿时：

-当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时，减小当前背景噪声估计，

其中，所述1t_min是对多个在先音频信号分段所确定的。

5.根据权利要求4所述的背景噪声估计器，被配置为基于从输入音频信号得到的信息而不是基于来自声音活动检测器的反馈，来判断音频信号分段的能量水平与1t_min之间的差是否大于所述阈值。

6.根据权利要求4或5所述的背景噪声估计器，被配置为：除了音频信号分段的能量水平与1t_min之间的差小于所述阈值之外，当还满足以下条件之一或两者时检测到停顿：

-音频信号的动态特性超过音频信号动态阈值。

7.一种声音活动检测器SAD，包括根据权利要求4-6中任一项所述的背景噪声估计器。

8.一种编解码器，包括根据权利要求4-6中任一项所述的背景噪声估计器。

9.一种无线设备，包括根据权利要求4-6中任一项所述的背景噪声估计器。

10.一种网络节点，包括根据权利要求4-6中任一项所述的背景噪声估计器。

11.一种存储指令的计算机可读存储介质，所述指令当在至少一个处理器上执行时使所述至少一个处理器执行根据权利要求1-3中任一项所述的方法。