CN112334980B

CN112334980B - 自适应舒适噪声参数确定

Info

Publication number: CN112334980B
Application number: CN201980042502.1A
Authority: CN
Inventors: 弗雷德里克·詹森; 托马斯·詹森托夫特戈德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2018-06-28
Filing date: 2019-06-26
Publication date: 2024-05-14
Anticipated expiration: 2039-06-26
Also published as: US11670308B2; EP3815082A1; EP4270390A3; CN112334980A; EP3815082B1; US20210272575A1; BR112020026793A2; WO2020002448A1; EP4270390A2; US20230410820A1; ES2956797T3

Abstract

提供了一种用于生成舒适噪声(CN)参数的方法。该方法包括：接收音频输入；使用语音活动检测器(VAD)检测音频输入中的当前非活跃段；作为使用VAD检测到音频输入中的当前非活跃段的结果，计算CN参数CN_used；以及向解码器提供CN参数CN_used。CN参数CN_used是至少部分地基于当前非活跃段和前一非活跃段来计算的。

Description

自适应舒适噪声参数确定

技术领域

公开了与舒适噪声(CN)生成相关的实施例。

背景技术

尽管电信网络中的容量在不断增加，但是限制每个通信信道所需的带宽仍然令人非常关注。在移动网络中，针对每个呼叫的传输带宽较小意味着移动网络可以并行服务于大量用户。降低传输带宽也会在移动设备和基站两者中产生较低的功耗。这转化为给移动运营商节约了能量和成本，而最终用户将经历延长的电池寿命和增加的通话时间。

用于减少语音通信中的传输带宽的一种这样的方法是利用语音中的自然停顿。在大多数对话中，一次只有一个讲话者是活跃的，因此在一个方向上的语音停顿通常会占据信号的一半以上。使用典型对话的这一属性来减小传输带宽的方法是采用不连续传输(DTX)方案，其中在语音停顿期间中断活跃信号编码。针对所有3GPP移动电话标准(即2G、3G和VoLTE)对DTX方案进行了标准化。它通常也用于IP语音(Voice over IP)系统中。

在语音停顿期间，通常发送背景噪声的极低比特率编码，以允许接收端中的舒适噪声发生器(CNG)使用具有与原始噪声相似特性的背景噪声来填充停顿。CNG使声音更自然，因为背景噪声被保持并且不随着语音而开启和关闭。非活跃段(即语音停顿)中的完全静音感知起来是烦人的，并经常导致误解呼叫已中断。

DTX方案还依赖于语音活动检测器(VAD)，该语音活动检测器向系统指示是否在活跃段中使用活跃信号编码方法或在非活跃段中使用低速率背景噪声编码。系统可以被概括为通过使用(通用)声音活动检测器(GSAD或SAD)来在其他来源类型之间进行区分，该(通用)声音活动检测器不仅可以从背景噪声中区分出语音，而且还可以检测音乐或其他信号类型(其被认为是相关的)。

可以通过支持立体声或多声道音频传输来进一步增强通信服务。在这些情况下，DTX/CNG系统还需要考虑信号的空间特性，以便提供听起来令人愉快的舒适噪声。

例如在所有3GPP语音编解码器中使用的常见的CN生成方法是，发送与语音停顿中的背景噪声的能量和频谱形状有关的信息。这可以使用比语音段的常规编码数量明显更少的比特来完成。在接收机侧，通过以下方式来生成CN：创建伪随机信号，然后基于从发送侧接收的信息来使用滤波器对信号的频谱进行整形。该信号生成和频谱整形可以在时域或频域中完成。

发明内容

在典型的DTX系统中，容量增益来自以下事实：使用比常规编码少的比特来对CN进行编码。这种比特节省的一部分原因来自以下事实：CN参数通常不像常规编码参数那样频繁地发送。这通常运行良好，因为背景噪声特征的变化不像例如语音信号那样快。编码的CN参数通常被称为“SID帧”，其中SID代表静音描述符。

典型的情况是，CN参数在每第8个语音编码器帧发送(一个语音编码器帧通常为20ms)，然后它们被用于接收机中，直到接收到下一组CN参数为止(参见图2)。避免CN中的不期望的波动的一种解决方案是在所有8个语音编码器帧期间对CN参数进行采样，然后发送平均值，或者是使参数基于所有8个帧的某种其他方式，如图3所示。

在新的非活跃段中的第一帧中(即，紧接在语音突发之后)，可能无法使用在若干帧上获得的平均值。某些编解码器(如3GPP EVS编解码器)在非活跃段之前使用所谓的尾响(hangover)时段。在此尾响时段中，信号被分类为非活跃的，但是在开始非活跃编码之前，仍然针对多达8个帧使用活跃编码。其原因之一是允许在该时段期间允许对CN参数进行平均(参见图4)。如果活跃时段很短，则尾响时段的长度被缩短或甚至完全被省略，以避免使短活跃声音突发触发长得多的尾响时段，从而不必要地增大活跃传输时段(参见图5)。

上述解决方案的问题在于，第一CN参数组不是总能在若干语音编码器帧上被采样，而是将替代地在更少或甚至仅一个帧中被采样。这可能导致非活跃段以如下CN开始的情况：该CN在开始时是不同的，并且然后在平均后的参数的传输开始时变化并且稳定下来。这对于收听者感知起来可能是烦人的，特别是如果它经常发生的话。

在本发明的实施例中，当位于非活跃段中时，CN参数通常基于两个连续的CN参数传输之间的时段上的信号特性来确定。然而，每个非活跃段中的第一个帧被不同地处理：这里CN参数基于非活跃编码的第一个帧(通常是第一个SID帧)和任何尾响帧的信号特性，并且还基于前一非活跃段结束时最后发送的SID帧以及其后的任何非活跃帧的信号特性。应用加权因子，使得针对来自前一非活跃段的数据的权重根据活跃段其间的长度而减小。先前的数据越旧，它获得的权重就越小。

本发明的实施例改进了在解码器中生成的CN的稳定性，同时其足够灵敏以跟随输入信号的变化。

根据第一方面，提供了一种用于生成舒适噪声(CN)参数的方法。该方法包括：接收音频输入；使用语音活动检测器(VAD)检测音频输入中的当前非活跃段；作为使用VAD检测到音频输入中的当前非活跃段的结果，计算CN参数CN_used；以及向解码器提供CN参数CN_used。CN参数CN_used是至少部分地基于当前非活跃段和前一非活跃段来计算的。

在一些实施例中，计算CN参数包括计算CN_used＝f(T_active，T_curr，T_prev，CN_curr，CN_prev)，

其中：

CN_curr指代来自当前非活跃段的CN参数；

CN_prev指代来自前一非活跃段的CN参数；

T_prev指代与CN_prev相关的时间间隔参数；

T_curr指代与CN_curr相关的时间间隔参数；以及

T_active指代前一非活跃段与当前非活跃段之间的活跃段的时间间隔参数。

在一些实施例中，将函数f(·)定义为函数g₁(·)和g₂(·)的加权和，使得CN参数CN_used由下式给出：

CN_used＝W₁(T_active，T_curr，T_prev)*g₁(CN_curr，T_curr)+W₂(T_active，T_curr，T_prev)*g₂(CN_prev，T_prev)

其中W₁(·)和W₂(·)是加权函数。在一些实施例中，W₁(·)和W₂(·)总和为1，使得W₂(T_active，T_curr，T_prev)＝1-W₁(T_active，T_curr，T_prev)。在一些实施例中，函数g₁(·)表示在时间段T_curr上的平均值，并且函数g₂(·)表示在时间段T_prev上的平均值。在一些实施例中，加权函数W₁(·)和W₂(·)仅是T_active的函数，使得W₁(T_active，T_curr，T_prev)＝W₁(T_active)并且W₂(T_active，T_curr，T_prev)＝W₂(T_active)。在一些实施例中，0＜W₁(·)≤1并且0＜1-W₂(·)≤1，并且其中，随着时间T_active接近无穷大，在极限情况下W₁(·)收敛到1并且W₂(·)收敛到0。

在一些实施例中，函数f(·)被定义为使得CN参数CN_used由下式给出

其中，N_curr表示与时间间隔参数T_curr相对应的帧数，而N_prev表示与时间间隔参数T_prev相对应的帧数；并且其中W₁(T_active)和W₂(T_active)是加权函数。

根据第二方面，提供了一种用于生成舒适噪声(CN)侧边增益(side gain)参数的方法。该方法包括：接收音频输入，其中，该音频输入包括多个声道；使用语音活动检测器(VAD)检测音频输入中的当前非活跃段；作为使用VAD检测到音频输入中的当前非活跃段的结果，计算针对频带b的CN侧边增益参数SG(b)；以及向解码器提供CN侧边增益参数SG(b)。CN侧边增益参数SG(b)是至少部分地基于当前非活跃段和前一非活跃段来计算的。

在一些实施例中，计算针对频带b的CN侧边增益参数SG(b)包括计算

其中：

SG_curr(b，i)表示针对频带b和当前非活跃段中的帧i的侧边增益值；

SG_prev(b，j)表示针对频带b和前一非活跃段中的帧j的侧边增益值；

N_curr表示来自当前非活跃段的总计帧数；

N_prev表示来自前一非活跃段的总计帧数；

W(k)表示加权函数；以及

nF表示当前非活跃段与前一非活跃段之间的活跃段中的帧数，对应于T_active。

在一些实施例中，W(k)由给出。

根据第三方面，提供了一种用于生成舒适噪声(CN)的方法。该方法包括：接收根据第一方面的任何一个实施例生成的CN参数CN_used；以及基于CN参数CN_used生成舒适噪声。

根据第四方面，提供了一种用于生成舒适噪声(CN)的方法。该方法包括：接收根据第二方面的任何一个实施例生成的针对频带b的CN侧边增益参数SG(b)；以及基于CN参数SG(b)生成舒适噪声。

根据第五方面，提供了一种用于生成舒适噪声(CN)参数的节点。该节点包括：接收单元，被配置为接收音频输入；检测单元，被配置为使用语音活动检测器(VAD)检测音频输入中的当前非活跃段；计算单元，被配置为作为使用VAD检测到音频输入中的当前非活跃段的结果，计算CN参数CN_used；以及提供单元，被配置为向解码器提供CN参数CN_used。CN参数CN_used由计算单元至少部分地基于当前非活跃段和前一非活跃段来计算。

在一些实施例中，计算单元还被配置为通过计算CN_used＝f(T_active，T_curr，T_prev，CN_curr，CN_prev)来计算CN参数CN_used，

其中：

CN_curr指代来自当前非活跃段的CN参数；

CN_prev指代来自前一非活跃段的CN参数；

T_prev指代与CN_prev相关的时间间隔参数；

T_curr指代与CN_curr相关的时间间隔参数；以及

根据第六方面，提供了一种用于生成舒适噪声(CN)侧边增益参数的节点。该节点包括：接收单元，被配置为接收音频输入，其中，该音频输入包括多个声道；检测单元，被配置为使用语音活动检测器(VAD)检测音频输入中的当前非活跃段；计算单元，被配置为作为使用VAD检测到音频输入中的当前非活跃段的结果，计算针对频带b的CN侧边增益参数SG(b)；以及提供单元，被配置为向解码器提供CN侧边增益参数SG(b)。CN侧边增益参数SG(b)是至少部分地基于当前非活跃段和前一非活跃段来计算的。

在一些实施例中，计算单元还被配置为通过计算下式来计算针对频带b的CN侧边增益参数SG(b)

其中：

N_curr表示来自当前非活跃段的总计帧数；

N_prev表示来自前一非活跃段的总计帧数；

W(k)表示加权函数；以及

根据第七方面，提供了一种用于生成舒适噪声(CN)的节点。该节点包括：接收单元，被配置为接收根据第一方面的任何一个实施例生成的CN参数CN_used；以及生成单元，被配置为基于CN参数CN_used来生成舒适噪声。

根据第八方面，提供了一种用于生成舒适噪声(CN)的节点。该节点包括：接收单元，被配置为接收根据第二方面的任何一个实施例生成的针对频带b的CN侧边增益参数SG(b)；以及生成单元，被配置为基于CN侧边增益参数SG(b)来生成舒适噪声。

根据第九方面，提供了一种计算机程序，该计算机程序包括指令，该指令在由节点的处理电路执行时，使得该节点执行根据第一方面和第二方面的任何一个实施例的方法。

根据第十方面，提供了一种载体，该载体包含第九方面的任何实施例的计算机程序，其中，该载体是电子信号、光信号、无线电信号和计算机可读存储介质之一。

附图说明

本文中所包含并形成说明书的一部分的附图示出了各种实施例。

图1示出了根据一个实施例的DTX系统。

图2是示出了根据一个实施例的CN参数编码和传输的图。

图3是示出了根据一个实施例的求平均(averaging)的图。

图4是示出了根据一个实施例的在尾响时段的情况下求平均的图。

图5是示出了根据一个实施例的在没有尾响时段的情况下求平均的图。

图6是示出了根据一个实施例的侧边增益求平均的图。

图7是示出了根据一个实施例的过程的流程图。

图8是示出了根据一个实施例的过程的流程图。

图9是示出了根据一个实施例的过程的流程图。

图10是示出了根据一个实施例的节点的功能单元的图。

图11是示出了根据一个实施例的节点的功能单元的图。

图12是根据一个实施例的节点的框图。

具体实施方式

在许多情况下，例如带有其移动电话的一个人静止地站立，背景噪声特性随时间的推移将是稳定的。在这些情况下，以下操作将运行良好：将来自前一非活跃段的CN参数用作当前非活跃段的起始点，而不是依赖在当前非活跃段开始时的较短的时间段内获取的较不稳定的样本。

然而，存在背景噪声条件可能随时间的推移而改变的情况。用户可能从一个位置移动到另一个位置，例如从寂静的办公室移动到嘈杂的街道。即使电话用户不移动，环境中也可能存在变化的事物，例如在街道上驶过的公共汽车。这意味着将CN参数基于来自前一非活跃段的信号特性可能并不总是运行良好。

图1示出了根据一些实施例的DTX系统100。在DTX系统100中，接收音频信号作为输入。系统100包括三个模块：语音活动检测器(VAD)、语音/音频编码器和CNG编码器。VAD模块做出语音/噪声判定(例如，检测活跃或非活跃段，例如活跃语音的段或无语音的段)。如果存在语音，则语音/音频编码器将对音频信号进行编码并发送要发送的结果。如果不存在语音，则CNG编码器将生成要发送的舒适噪声参数。

本发明的实施例旨在针对具有CNG的改进的DTX系统自适应地平衡上述方面。在实施例中，可以基于函数f(·)将舒适噪声参数CN_used确定如下：

CN_used＝f(T_active，T_curr，T_prev，CN_curr，CN_prev)

在上述公式中，引用的变量具有以下含义：

CN_used用于CN生成的CN参数

CN_curr来自当前非活跃段的CN参数

CN_prev来自前一非活跃段的CN参数

T_prev用于确定前一非活跃段的CN参数的时间间隔参数

T_curr用于确定当前非活跃段的CN参数的时间间隔参数

T_active前一和当前非活跃段之间的活跃段的时间间隔参数

在一个实施例中，函数f(·)被定义为CN_curr和CN_prev的函数g₁(·)和g₂(·)的加权和，即

其中W₁(·)和W₂(·)是加权函数。

在一个实施例中，函数g₁(·)和g₂(·)可以例如分别是时间段T_curr和T_prev上的平均值。在实施例中，通常∑W_i＝1。

在一些实施例中，前一CN参数平均值和当前CN参数平均值之间的加权可以仅基于活跃段的长度，即，基于T_active。例如，可以使用以下公式：

在上面的公式中，引用的附加变量具有以下含义：

N_curr当前平均值中使用的帧数，对应于T_curr

N_prev先前平均值中使用的帧数，对应于T_prev，

W(t)加权函数，0＜W(t)≤1，W(∞)＝1

通过使用从当前非活跃段中获取的平均值和从前一段中获取的平均值两者来进行参数CN的求平均。然后基于加权函数，利用加权因子将这两个值组合，在一些实施例中，该加权函数取决于当前非活跃段与前一非活跃段之间的活跃段的长度，使得如果该活跃段长则给予前一平均值较小的权重，如果活跃段短则给予前一平均值较大的权重。

在另一个实施例中，附加地基于T_prev和T_curr来适配权重。例如，这可能意味着赋予先前的CN参数较大的权重，因为T_curr时段太短而无法给出对可以由CNG系统表示的长期信号特性的稳定估计。对应于该实施例的公式的示例如下：

在上面的公式中，引用的其他变量具有以下含义：

N_curr当前平均值中使用的帧数，对应于T_curr

N_prev前一平均值中使用的帧数，对应于T_prev

W₁(t)，加权函数

W2(t)

用于编码多声道(例如，立体声)信号的已建立的方法是创建输入信号的混合缩减(mix-down)(或缩减混合)信号(例如，在立体声输入信号的情况下为单声道)，并且确定与编码后的缩减混合信号一起编码和发送的其他参数，以用于解码器处的增强混合(up-mix)。在立体声DTX情况下，可以将单声道信号编码并生成为CN，并且然后将使用立体声参数从单声道CN信号创建立体声信号。立体声参数通常例如在声源定位和立体声宽度方面来控制立体声图像。

在具有非固定立体声麦克风(例如移动电话或连接到移动电话的耳机)的情况下，立体声参数的变化可能比单声道CN参数的变化快。

为了通过示例来说明这一点：将头旋转90度可以非常快地完成，但是从一种类型的背景噪声环境移动到另一种类型的背景噪声环境将花费更长的时间。在许多情况下，立体声图像将不断变化，因为很难将移动电话或耳机保持在同一位置达任何较长的时间段。因此，本发明的实施例对于立体声参数可能是特别重要的。

立体声参数的一个示例是侧边增益SG。立体声信号可以被划分为混合缩减信号DMX和侧边信号S：

DMX(t)＝L(t)+R(t)

S(t)＝L(t)-R(t)

其中L(t)和R(t)分别指代左音频信号和右音频信号。然后对应的增强混合(up-mix)将是：

为了节省用于发送编码立体声信号的比特，根据下式，可以通过利用侧边增益参数SG从DMX信号中预测侧边信号S的一些分量

最小化的预测误差可以通过下式获得：

其中<·，·>表示信号(通常是信号的帧)之间的内积。

侧边增益可以在宽带中根据时域信号来确定，或者在频率子带中根据在变换域(例如，离散傅里叶变换(DFT)或修改的离散余弦变换(MDCT)域)中表示的或通过一些其他滤波器组表示而表示的缩减混合和侧边信号来获得。如果CNG的第一个帧中的侧边增益将显著基于前一非活跃段，并且与随后的帧显著不同，则与在非活跃段的其余部分期间的较慢节奏相比，立体声图像将在非活跃段的开始处剧烈变化。这被收听者感知起来将是烦人的，特别是如果这在每次新的非活跃段(即语音停顿)开始时都会重复的话。

下面的公式示出了本发明的实施例可以如何被用于从频分侧边增益(frequencydivided side gain)参数获得CN侧边增益参数的一个示例。

在上面的公式中，引用的变量具有以下含义：

SG(b)要在针对频带b的CN生成中使用的侧边增益值

SG_curr(b，i)前一平均值中使用的帧数，对应于T_prev

SG_prev(b，j)针对频带b和前一非活跃段中的帧j的侧边增益值N_curr来自当前非活跃段的总计帧数

N_prev来自前一非活跃段的总计帧数

W(k)加权函数。在一些实施例中：

nF当前和先前非活跃段之间的活跃段中的帧数，对应于T_active。

图6示出了根据实施例的如何进行侧边增益求平均的示意图。注意，组合的加权平均值通常仅在每个交互段的第一个帧中使用。

注意，N_curr和N_prev，可能有时会彼此不同。除了最后发送的CN参数的帧之外，N_prev还包括最后的CN参数发送帧与第一活跃帧之间的非活跃帧(所谓的无数据帧)。活跃帧当然可以随时发生，因此该数目将变化。N_curr将包括尾响时段中的帧数加上第一个非活跃帧，如果尾响时段的长度是自适应的，则N_curr也可能会变化。N_curr不仅可以包括连续的尾响帧，而且通常还可以表示在确定当前CN参数时包括的帧数。

注意，改变平均值中使用的帧数只是改变在其上计算参数的时间间隔长度的一种方法。还存在改变参数所基于的时间间隔的长度的其他方法。例如，针对CN生成，线性预测编码(LPC)分析中的帧长也可以改变。

图7示出了用于生成舒适噪声(CN)参数的过程700。

该方法包括：接收音频输入(步骤702)。该方法还包括：使用语音活动检测器(VAD)检测音频输入中的当前非活跃段(步骤704)。该方法还包括：作为使用VAD检测到音频输入中的当前非活跃段的结果，计算CN参数CN_used(步骤706)。该方法还包括：向解码器提供CN参数CN_used。CN参数CN_used是至少部分地基于当前非活跃段与前一非活跃段来计算的。

在一些实施例中，计算CN参数CN_used包括计算CN_used＝f(T_active，T_curr，T_prev，CN_curr，CN_prev)，其中CN_curr指代来自当前非活跃段的CN参数；CN_prev指代来自前一非活跃段的CN参数；T_prev指代与CN_prev相关的时间间隔参数；T_curr指代与CN_curr相关的时间间隔参数；T_active指代前一非活跃段与当前非活跃段之间的活跃段的时间间隔参数。

其中W₁(·)和W₂(·)是加权函数。在一些实施例中，W₁(·)和W₂(·)总和为1，使得W₂(T_active，T_curr，T_prev)＝1-W₁(T_active，T_curr，T_prev)。在一些实施例中，函数g₁(·)表示在时间段T_curr上的平均值，并且函数g₂(·)表示在时间段T_prev上的平均值。在一些实施例中，加权函数W₁(·)和W₂(·)仅是T_active的函数，使得W₁(T_active，T_curr，T_prev)＝W₁(T_active)并且W₂(T_active，T_curr，T_prev)＝W₂(T_active)。在一些实施例中，并且其中N_curr表示与时间间隔参数T_curr相对应的帧数，并且N_prev表示与时间间隔参数T_prev相对应的帧数。

在一些实施例中，0＜W₁(·)≤1并且0＜1-W₂(·)≤1，并且随着时间T_active接近无穷大，在极限情况下W₁(·)收敛到1并且W₂(·)收敛到0。在实施例中，函数f(·)被定义为使得CN参数CN_used由下式给出

其中，N_curr表示与所述时间间隔参数T_curr相对应的帧数，并且N_prev表示与所述时间间隔参数T_prev相对应的帧数；并且其中W₁(T_active)和W₂(T_active)是加权函数。

图8示出了用于生成舒适噪声(CN)侧边增益参数的过程800。该方法包括：接收音频输入，其中，该音频输入包括多个声道(步骤802)。该方法还包括：使用语音活动检测器(VAD)检测音频输入中的当前非活跃段(步骤804)。该方法还包括：作为使用VAD检测到音频输入中的当前非活跃段的结果，计算针对频带b的CN侧边增益参数SG(b)(步骤806)。该方法还包括：向解码器提供CN侧边增益参数SG(b)(步骤808)。CN侧边增益参数SG(b)是至少部分地基于当前非活跃段和前一非活跃段来计算的(步骤810)。

其中SG_curr(b，i)表示针对频带b和当前非活跃段中的帧i的侧边增益值；SG_prev(b，j)表示针对频带b和前一非活跃段中的帧j的侧边增益值；N_curr表示来自当前非活跃段的总计帧数；N_prev表示来自前一非活跃段的总计帧数；W(k)表示加权函数；以及nF表示当前非活跃段与前一非活跃段之间的活跃段中的帧数，其对应于T_active。

在一些实施例中，W(k)由下式给出

图9示出了用于生成舒适噪声(CN)的过程900和910。根据过程900，该过程包括如下步骤：接收CN参数CN_used，其中CN参数CN_used是根据本文公开的用于生成舒适噪声(CN)参数的实施例中的任一实施例来生成的(步骤902)；以及基于CN参数CN_used生成舒适噪声(步骤904)。根据过程910，该过程包括以下步骤：接收针对频带b的CN侧边增益参数SG(b)，其中针对频带b的CN侧边增益参数SG(b)是根据本文公开的用于生成针对频带b的CN侧边增益参数SG(b)的实施例中的任一实施例来生成的(步骤912)；以及基于CN参数SG(b)生成舒适噪声(步骤914)。

图10是示出了根据实施例的用于生成舒适噪声(CN)参数的节点1002(例如，编码器/解码器)的功能单元的图。

该节点1002包括：接收单元1004，被配置为接收音频输入；检测单元1006，被配置为使用语音活动检测器(VAD)检测音频输入中的当前非活跃段；计算单元1008，被配置为作为使用VAD检测到音频输入中的当前非活跃段的结果，计算CN参数CN_used；以及提供单元1010，被配置为向解码器提供CN参数CN_used。CN参数CN_used是由计算单元至少部分地基于当前非活跃段和前一非活跃段来计算的。

图11是示出了根据实施例的用于生成舒适噪声(CN)侧边增益参数的节点1002(例如，编码器/解码器)的功能单元的图。该节点1002包括：接收单元1104，被配置为接收根据针对图7讨论的实施例中的任一实施例的CN参数CN_used；以及生成单元1104，被配置为基于CN参数CN_used生成舒适噪声。在实施例中，接收单元被配置为接收根据针对图8讨论的实施例中的任一实施例的针对频带b的CN侧边增益参数SG(b)，并且生成单元被配置为基于CN参数SG(b)生成舒适噪声。

图12是根据一些实施例的用于生成舒适噪声(CN)参数和/或用于生成舒适噪声(CN)的节点1002(例如，编码器/解码器)的框图。如图12所示，节点1002可以包括：处理电路(PC)或数据处理装置(PDA)1202，其可以包括一个或多个处理器(P)1255(例如，通用微处理器和/或一个或多个其他处理器，例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等)；网络接口1248，包括发射机(Tx)1245和接收机(Rx)1247，用于使节点1002能够向连接到网络1210(例如，互联网协议(IP)网络)的其他节点发送数据以及从该其他节点接收数据，其中网络接口1248连接到网络1210；以及本地存储单元(又称为“数据存储系统”)1208，其可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备。在PC 1202包括可编程处理器的实施例中，可以提供计算机程序产品(CPP)1241。CPP 1241包括计算机可读介质(CRM)1242，该计算机可读介质(CRM)1242存储包括计算机可读指令(CRI)1244的计算机程序(CP)1243。CRM 1242可以是非暂时性计算机可读介质，例如，磁介质(例如，硬盘)、光学介质、存储器设备(例如，随机存取存储器、闪存)等。在一些实施例中，计算机程序1243的CRI 1244被配置为使得当由PC 1202执行时，CRI使节点1002执行本文描述的步骤(例如，本文中参考流程图描述的步骤)。在其他实施例中，节点1002可以被配置为在不需要代码的情况下执行本文描述的步骤。也就是说，例如，PC 1202可以仅由一个或多个ASIC组成。因此，本文描述的实施例的特征可以以硬件和/或软件来实现。

尽管本文描述了本公开的各种实施例，但应当理解，它们其仅以示例而非限制的方式提出。因此，本公开的宽度和范围不应当受到上述示例性实施例中任意一个的限制。此外，上述要素以其所有可能变型的任意组合都包含在本公开中，除非本文另有指示或与上下文另有明确冲突。

附加地，尽管上文描述并且在附图中示出的过程被示为一系列步骤，但其仅用于说明目的而进行。因此，可以预期到可以增加一些步骤、可以省略一些步骤，可以重新排列步骤的顺序，以及可以并行地执行一些步骤。

Claims

1.一种用于生成舒适噪声(CN)参数的方法，所述方法包括：

接收音频输入；

使用语音活动检测器(VAD)检测所述音频输入中的当前非活跃段；

作为使用所述VAD检测到所述音频输入中的当前非活跃段的结果，计算CN参数CN_used；以及

向解码器提供所述CN参数CN_used，

其中，计算所述CN参数CN_used包括：计算CN_used＝f(T_active,T_curr,T_prev,CN_curr,CN_prev)，

其中：

CN_curr指代来自所述当前非活跃段的CN参数；

CN_prev指代来自前一非活跃段的CN参数；

T_prev指代与CN_prev相关的时间间隔参数；

T_curr指代与CN_curr相关的时间间隔参数；以及

T_active指代所述前一非活跃段与所述当前非活跃段之间的活跃段的时间间隔参数。

2.根据权利要求1所述的方法，其中，将函数f(·)定义为函数g₁(·)与g₂(·)的加权和，使得所述CN参数CN_used由下式给出：

CN_used＝W₁(T_active,T_curr,T_prev)*g₁(CN_curr,T_curr+W₂(T_active,T_curr,T_prev)*g₂(CN_prev,T_prev)

其中，W₁(·)和W₂(·)是加权函数。

3.根据权利要求2所述的方法，其中，W₁(·)和W₂(·)总和为1，使得W₂(T_active,T_curr,T_prev)＝1-W₁(T_active,T_curr,T_prev)。

4.根据权利要求2至3中任一项所述的方法，其中，所述函数g₁(·)表示在时间段T_curr上的平均值，并且所述函数g₂(·)表示在时间段T_prev上的平均值。

5.根据权利要求2至3中任一项所述的方法，其中，所述加权函数W₁(·)和W₂(·)仅是T_active的函数，使得W₁(T_active,T_curr,T_prev)＝W₁(T_active)并且W₂(T_active,T_curr,T_prev)＝W₂(T_active)。

6.根据权利要求4所述的方法，其中，0<W₁(·)≤1并且0<1-W₂(·)≤1，并且其中，随着时间T_active接近无穷大，在极限情况下W₁(·)收敛到1并且W₂(·)收敛到0。

7.根据权利要求1所述的方法，其中，所述函数f(·)被定义为使得所述CN参数CN_used由下式给出：

其中，N_curr表示与时间间隔参数T_curr相对应的帧数，N_prev表示与时间间隔参数T_prev相对应的帧数；并且其中W₁(T_active)和W₂(T_active)是加权函数。

8.根据权利要求1所述的方法，其中所述CN参数是针对频带b的CN侧边增益参数SG(b)。

9.根据权利要求8所述的方法，其中，计算针对所述频带b的所述CN侧边增益参数SG(b)包括计算

其中：

SG_curr(b,i)表示针对频带b和所述当前非活跃段中的帧i的侧边增益值；

SG_prev(b,j)表示针对频带b和所述前一非活跃段中的帧j的侧边增益值；

N_curr表示来自所述当前非活跃段的总计帧数，对应于时间间隔参数T_curr；

N_prev表示来自所述前一非活跃段的总计帧数，对应于时间间隔参数T_prev；

W(nF)表示加权函数；以及

nF表示所述当前非活跃段与所述前一非活跃段之间的活跃段中的帧数，对应于T_active。

10.一种用于生成舒适噪声(CN)的方法，所述方法包括：

接收根据权利要求1至9中任一项生成的CN参数CN_used；以及

基于所述CN参数CN_used生成舒适噪声。

11.一种用于生成舒适噪声(CN)参数的节点，所述节点包括：

接收单元，被配置为接收音频输入；

检测单元，被配置为使用语音活动检测器(VAD)检测所述音频输入中的当前非活跃段；

计算单元，被配置为：作为使用所述VAD检测到所述音频输入中的当前非活跃段的结果，计算CN参数CN_used；以及

提供单元，被配置为向解码器提供所述CN参数CN_used，

其中，所述计算单元还被配置为通过计算CN_used＝f(T_active,T_curr,T_prev,CN_curr,CN_prev)来计算所述CN参数CN_used，

其中：

CN_curr指代来自当前非活跃段的CN参数；

CN_prev指代来自前一非活跃段的CN参数；

T_prev指代与CN_prev相关的时间间隔参数；

T_curr指代与CN_curr相关的时间间隔参数；以及

12.根据权利要求11所述的节点，其中，将函数f(·)定义为函数g₁(·)和g₂(·)的加权和，使得所述CN参数CN_used由下式给出：

其中，W₁(·)和W₂(·)是加权函数。

13.根据权利要求12所述的节点，其中，W₁(·)和W₂(·)总和为1，使得W₂(T_active,T_curr,T_prev)＝1-W₁(T_active,T_curr,T_prev)。

14.根据权利要求12至13中任一项所述的节点，其中，所述函数g₁(·)表示在时间段T_curr上的平均值，并且所述函数g₂(·)表示在时间段T_prev上的平均值。

15.根据权利要求12至13中任一项所述的节点，其中，所述加权函数W₁(·)和W₂(·)仅是T_active的函数，使得W₁(T_active,T_curr,T_prev)＝W₁(T_active)并且W₂(T_active,T_curr,T_prev)＝W₂(T_active)。

16.根据权利要求15所述的节点，其中

并且

其中，N_curr表示与时间间隔参数T_curr相对应的帧数，并且N_prev表示与时间间隔参数T_prev相对应的帧数。

17.根据权利要求16所述的节点，其中，0<W₁(·)≤1并且0<1-W₂(·)≤1，并且其中，随着时间T_active接近无穷大，在极限情况下W₁(·)收敛到1并且W₂(·)收敛到0。

18.根据权利要求11所述的节点，其中，所述函数f(·)被定义为使得所述CN参数CN_used由下式给出

19.根据权利要求11所述的节点，其中所述CN参数是针对频带b的CN侧边增益参数SG(b)。

20.根据权利要求19的节点，其中，所述计算单元还被配置为通过计算下式来计算针对频带b的所述CN侧边增益参数SG(b)

其中：

SG_curr(b,i)表示针对频带b和当前非活跃段中的帧i的侧边增益值；

SG_prev(b,j)表示针对频带b和前一非活跃段中的帧j的侧边增益值；

N_curr表示来自当前非活跃段的总计帧数，对应于时间间隔参数T_curr；

N_prev表示来自前一非活跃段的总计帧数，对应于时间间隔参数T_prev；

W(nF)表示加权函数；以及

21.一种用于生成舒适噪声(CN)的节点，所述节点包括：

接收单元，被配置为接收根据权利要求1至9中任一项生成的CN参数CN_used；以及

生成单元，被配置为基于所述CN参数CN_used生成舒适噪声。

22.一种包括指令的计算机程序产品，所述指令在由节点的处理电路执行时，使所述节点执行根据权利要求1至9中任一项所述的方法。

23.一种包括指令的计算机可读存储介质，所述指令在由节点的处理电路执行时，使所述节点执行根据权利要求1至9中任一项所述的方法。