CN104505097B

CN104505097B - 检索激励的固定贡献的量化增益的设备和方法

Info

Publication number: CN104505097B
Application number: CN201510023526.6A
Authority: CN
Inventors: V.马来诺夫斯基
Original assignee: VoiceAge Corp
Current assignee: Shengdai EVs Limited
Priority date: 2011-02-15
Filing date: 2012-02-14
Publication date: 2018-08-17
Anticipated expiration: 2032-02-14
Also published as: CN103392203A; AU2012218778B2; AU2012218778A1; MX2013009295A; NZ611801A; JP2017097367A; ZA201305431B; SI2676271T1; CN104505097A; RU2591021C2; LT2676271T; US20120209599A1; JP6072700B2; JP2014509407A; EP2676271B1; ES2812598T3; DK2676271T3; JP6316398B2; KR101999563B1; EP3686888A1

Abstract

本发明涉及在编码声音信号的包括子帧的帧中量化激励的固定贡献的增益的设备和方法，其中使用代表该帧的分类的参数在子帧中估计固定激励贡献的增益。然后使用估计增益在子帧中量化固定激励贡献的增益。使用了在编码声音信号的帧中联合量化激励的自适应和固定贡献的增益的设备和方法。为了在帧的子帧中检索激励的固定贡献的量化增益，使用代表帧的分类的参数估计固定激励贡献的增益，增益码本响应接收的增益码本索引供应校正因子，并且乘法器将估计增益乘以校正因子以提供固定激励贡献的量化增益。

Description

检索激励的固定贡献的量化增益的设备和方法

本分案申请是申请日为2012年2月14日、申请号为201280008952.7、发明名称为“用于在码激励线性预测编解码器中量化激励的自适应和固定贡献的增益的设备和方法”的分案申请。

技术领域

本公开涉及编码声音信号中激励的固定贡献的增益的量化。本公开还涉及激励的自适应和固定贡献的增益的联合量化。

背景技术

在编解码器结构(例如，像ACELP(代数码激励线性预测)那样的CELP(码激励线性预测)编解码器结构)的编码器中，以称为帧的短段为单位处理输入语音或音频信号(声音信号)。为了捕捉输入声音信号的迅速变化特性，将每个帧进一步划分成子帧。CELP编解码器结构还产生加在一起形成总激励的激励的自适应码本和固定码本贡献。与激励的自适应和固定码本贡献有关的增益被量化并与其他编码参数一起发送给解码器。激励的自适应码本贡献和固定码本贡献在整个文件中将被称为激励的“自适应贡献”和“固定贡献”。

需要一种量化自适应和固定激励贡献的增益的技术，其提高抵抗将编码参数从编码器发送到解码器期间，可能出现的帧擦除或分组丢失的编解码器的鲁棒性。

发明内容

按照第一方面，本公开涉及在编码声音信号包括子帧的帧中量化激励的固定贡献的增益的设备，其包含：代表该帧的分类的参数的输入；在该帧的子帧中估计激励的固定贡献的增益的估计器，其中将代表该帧的分类的参数供给该估计器；以及使用估计增益在子帧中预测量化激励的固定贡献的增益的预测量化器。

本公开还涉及在编码声音信号的包括子帧的帧中量化激励的固定贡献的增益的方法，其包含：接收代表该帧的分类的参数；使用代表帧的分类的参数在该帧的子帧中估计激励的固定贡献的增益；以及使用估计的增益在子帧中预测量化激励的固定贡献的增益。

按照第三方面，提供了在编码声音信号的帧中联合量化激励的自适应和固定贡献的增益的设备，其包含：量化激励的自适应贡献的增益的量化器；以及量化激励的固定贡献的增益的上述设备。

本公开进一步涉及在编码声音信号的帧中联合量化激励的自适应和固定贡献的增益的方法，其包含：量化激励的自适应贡献的增益；以及使用上述方法量化激励的固定贡献的增益。

按照第五方面，提供了在帧的子帧中检索激励的固定贡献的量化增益的设备，其包含：增益码本索引的接收器；在子帧中估计激励的固定贡献的增益的估计器，其中将代表该帧的分类的参数供给该估计器；响应增益码本索引供应校正因子的增益码本；以及将估计增益乘以校正因子以便提供子帧中激励的固定贡献的量化增益的乘法器。

本公开还涉及在帧的子帧中检索激励的固定贡献的量化增益的方法，其包含：接收增益码本索引；使用代表该帧的分类的参数在子帧中估计激励的固定贡献的增益；响应增益码本索引从增益码本和为子帧供应校正因子；以及将估计增益乘以校正因子以便提供所述子帧中激励的固定贡献的量化增益。

本公开还进一步涉及在帧的子帧中检索激励的自适应和固定贡献的量化增益的设备，其包含：增益码本索引的接收器；在子帧中估计激励的固定贡献的增益的估计器，其中将代表该帧的分类的参数供给该估计器；响应增益码本索引为子帧供应激励的自适应贡献的量化增益和校正因子的增益码本；以及将估计增益乘以校正因子以便提供子帧中激励的固定贡献的量化增益的乘法器。

按照进一步方面，本公开描述了在帧的子帧中检索激励的自适应和固定贡献的量化增益的方法，其包含：接收增益码本索引；使用代表该帧的分类的参数在子帧中估计激励的固定贡献的增益；响应增益码本索引从增益码本和为子帧供应激励的自适应贡献的量化增益和校正因子；以及将估计增益乘以校正因子以便提供子帧中激励的固定贡献的量化增益。

一旦阅读了仅参考附图举例给出的例示性实施例的如下非限制性描述，前述和其他特征将变得更加显而易见。

附图说明

在附图中：

图1是描述基于CELP的编码器中滤波激励的结构的示意图；

图2是描述在每个帧的第一子帧中激励的固定贡献的增益的估计器的示意性方块图；

图3是描述在第一子帧之后的所有子帧中激励的固定贡献的增益的估计器的示意性方块图；

图4是描述其中计算估计系数和将其用于为每个子帧设计增益码本的状态机的示意性方块图；

图5是描述增益量化器的示意性方块图；以及

图6是与图5的增益量化器等效的增益量化器的另一个实施例的示意性方块图。

具体实施方式

在下文中，描述编码声音信号中激励的固定贡献的增益的量化，以及激励的自适应和固定贡献的增益的联合量化。可以将量化应用于任何数量的子帧和推广应用在以任意采样频率采样的输入语音或音频信号(输入声音信号)上。此外，无需帧间预测地量化激励的自适应和固定贡献的增益。帧间预测的缺乏导致了抵抗在发送编码参数期间可能出现的帧擦除或分组丢失的鲁棒性的提高。

直接量化激励的自适应贡献的增益而通过估计增益量化激励的固定贡献的增益。激励的固定贡献的增益的估计基于存在于编码器和解码器两者上的参数。这些参数在当前帧的处理期间计算。因此，在量化或解码的过程中无需来自之前帧的信息，如上所述，这提高了抵抗帧擦除的编解码器的鲁棒性。

尽管如下描述将涉及CELP(码激励线性预测)编解码结构，例如，ACELP(代数码激励线性预测)，但应该牢记，本公开的主题可以应用于其他类型的编解码结构。

激励的自适应和固定贡献的最佳非量化增益

在CELP编码的现有技术中，激励由两部分贡献组成：自适应贡献(自适应码本贡献)和固定贡献(固定码本贡献)。自适应码本基于长期预测，因此与过去激励有关。激励的自适应贡献通过围绕音调滞后的估计值的闭环搜索来寻找。闭环搜索由使目标信号(在CELP编码中，输入语音或音频信号(输入声音信号)的感知滤波形式)与通过自适应码本增益缩放的激励的滤波自适应贡献之间的均方加权误差(MSWE)最小组成。闭环搜索中的滤波对应于CELP编码的现有技术中的加权合成滤波。固定码本搜索也通过使更新目标信号(除去激励的自适应贡献之后)与通过固定码本增益缩放的激励的滤波固定贡献之间的均方误差(MSE)最小来进行。总滤波贡献的结构显示在图1中。有关进一步参考，在如下文献中描述了CELP编码的一种实现：3GPP TS 26.190,“Adaptive Multi-Rate-Wideband(AMR-WB)speech codec；Transcoding functions”，在此通过引用将其全部内容并入本文中。

图1是描述CELP编码器中滤波总激励的结构的示意图。由上述目标信号形成的输入信号101被表示成x(i)，用作激励的自适应和固定贡献的增益搜索期间的参考。激励的滤波自适应贡献被表示成y(i)，激励的滤波固定贡献(创新(innovation))被表示成z(i)。对于激励的自适应贡献，相应增益被表示成g_p，对于激励的固定贡献，相应增益被表示成g_c。如图1所例示，放大器104将增益g_p应用于激励的滤波自适应贡献y(i)，放大器105将增益g_c应用于激励的滤波固定贡献z(i)。最佳量化增益通过第一减法器107从目标信号x_i中减去放大器104的输出端上的信号g_py(i)和第二减法器108从减法器107的相减结果中减去放大器105的输出端上的信号g_cz(i)计算的误差信号e(i)的均方的最小化来寻找。对于图1中的所有信号，索引i表示从0到L-1的不同信号样本和运行，其中L是每个子帧的长度。如本领域的普通技术人员所熟知，滤波自适应码本贡献通常作为自适应码本激励矢量v(n)与加权合成滤波器的脉冲响应h(n)之间的卷积来计算，也就是说，y(n)＝v(n)*h(n)。类似地，滤波固定码本激励通过z(n)＝c(n)*h(n)给出，其中c(n)是固定码本激励。

假设已知目标信号x(i)，激励的滤波自适应贡献y(i)和激励的滤波固定贡献z(i)，非量化g_p和g_c的最佳集合通过使如下方程给出的误差信号e(i)的能量来寻找：

e(i)＝x(i)-g_py(i)-g_cz(i)，i＝0，...，L-1 (1)

方程(1)可以以矢量形式给出：

e＝x-g_py-g_cz (2)

并且通过使如下误差信号的能量最小：其中t表示矢量转置，得出最佳非量化增益：

其中，常数或相关性c₀，c₁，c₂，c₃，c₄和c₅按如下计算：

c₀＝y^ty，c₁＝x^ty，c₂＝z^tz，c₃＝x^tz，c₄＝y^tz，c₅＝x^tx. (4)

不直接量化方程(3)中的最佳增益，而如后所述在训练增益码本中使用它们。在将预测应用于激励的固定贡献的增益之后，联合量化增益。该预测通过计算激励的固定贡献的增益g_c0的估计值来进行。激励的固定贡献的增益通过g_c＝g_c0·γ给出，其中γ是校正因子。因此，每个码本条目包含两个值。第一个值对应于激励的自适应贡献的量化增益g_p。第二个值对应于用于乘以激励的固定贡献的估计增益g_c0的校正因子γ。增益码本(g_p和γ)中的最佳索引通过使目标信号与滤波总激励之间的均方误差最小来寻找。下面详细描述激励的固定贡献的增益的估计。

激励的固定贡献的增益的估计

每个帧包含一定数量的子帧。让我们将帧中子帧的数量表示成K，将当前子帧的索引表示成k。在每个子帧中不同地进行激励的固定贡献的增益的估计g_c0。

图2是描述在每个帧的第一子帧中估计激励的固定贡献的增益(下文称为固定码本增益)的估计器的示意性方块图。

估计器200首先响应代表当前帧的分类的参数t计算固定码本增益的估计量。然后从估计的固定码本增益中减去来自固定码本的创新码矢的能量，以便将滤波创新码矢的这个能量考虑进来。将所得估计固定码本增益乘以从增益码本中选择的校正因子，以生成量化固定码本增益g_c。

在一个实施例中，估计器200包含对数域中的固定码本增益的线性估计量的计算器201。固定码本增益通过来自固定码本的创新码矢202的单位能量来估计。计算器201只使用一个估计参数，即，代表当前帧的分类的参数t。减法器203然后从计算器201的输出端上对数域中的线性估计固定码本增益中减去对数域中来自固定码本的滤波创新码矢202的能量。转换器204将来自减法器203的对数域中的估计固定码本增益转换成线性域。来自转换器204的线性域中的输出是估计固定码本增益g_c0。乘法器205将估计增益g_c0乘以从增益码本中选择的校正因子206。如前段所述，乘法器205的输出构成量化固定码本增益g_c。

激励的自适应贡献的量化增益g_p(在下文中自适应码本增益)直接从增益码本中选择。乘法器207将来自自适应码本的滤波自适应激励208乘以量化自适应码本增益g_p，以生成滤波激励的滤波自适应贡献209。另一个乘法器210将来自固定码本的滤波创新码矢202乘以量化固定码本增益g_c，以生成滤波激励的滤波固定贡献211。最终，加法器212相加激励的滤波自适应(209)和固定(211)贡献以形成总滤波激励214。

在当前帧的第一子帧中，减法器203的输出端上对数域中的估计固定码本增益通过下式给出：

方程(5)的算法内的内项对应于滤波创新矢量202的能量的平方根(E_i是帧n的第一子帧中的滤波创新矢量的能量)。这个内项(能量E_i的平方根)由滤波创新矢量202的能量E_i的第一计算器215和能量E_i的平方根的计算器216来计算。然后计算器217计算能量E_i的平方根的对数以便施加于减法器203的负输入。内项(能量E_i的平方根)具有非零能量；在所有帧都是零的情况下，将能量加一个小量，以避免log(0)。

计算器201中固定码本增益的估计对于估计系数a₀和a₁在对数域中是线性的，如下面的描述所说明，估计系数a₀和a₁是对每个子帧通过大型信号数据库(训练)上的均方最小化找到的。方程中只有估计参数t 202表示帧n的分类参数(在一个实施例中，在帧n中，这个值对于所有子帧来说是常数)。下面给出有关帧的分类的细节。最终，通过计算器204将对数域中增益的估计值转换回到线性域()，并如下面的描述所说明，用在增益码本的最佳索引的搜索过程中。

上标⁽¹⁾表示当前帧n的第一子帧。

如下面的描述所说明，将代表当前帧的分类的参数t用在估计固定码本增益g_c0的计算中。可以为语音信号的不同类别设计不同码本。这将增加存储要求。此外，在接在第一帧后面的帧中的固定码本增益的估计可以基于帧分类参数t和来自当前帧中的之前子帧的可用自适应和固定码本增益。该估计局限定于帧边界以便提高抵抗帧擦除的鲁棒性。

例如，可以将帧分类成清音、浊音、一般或过渡帧。下面给出一个例子作为非限制例示性实施例。可以将不同可替代方法用于分类。进一步，语音类别的数量可以不同于上文使用的那个。例如，在一个实施例中，只能是浊音或清音地分类。在另一个实施例中，可以加上像强浊音或强清音那样的更多类别。

分类估计参数t的数值可以任意选择。例如，对于窄带信号，对于清音、浊音、一般或过渡帧，将参数t的数值分别设置成1，3，5和7，而对于宽带信号，将它们分别设置成0，2，4和6。但是，可以将估计参数t的其他值用于每个类别。当包括这种估计时，确定估计参数的设计和训练中的分类参数t将得出固定码本增益的更好估计值g_c0。

一个帧中接在第一子帧之后的子帧使用稍为不同的估计方案。该差异事实上在于在这些子帧中，将来自当前帧中的之前子帧的量化自适应码本增益和量化固定码本增益用作辅助估计参数以提高效率。

图3是在当前帧中接在第一子帧之后的子帧中估计固定码本增益的估计器300的示意性方块图。估计参数包括分类参数t和来自当前帧的之前子帧的自适应和固定码本增益两者的量化值(参数301)。将这些参数301表示成g_p ⁽¹⁾，g_c ⁽¹⁾，g_p ⁽²⁾，g_c ⁽²⁾等，其中上标指的是第一、第二和其他之前子帧。计算固定码本增益的估计值，并将其乘以从增益码本中选择的校正因子，以生成形成激励的固定贡献的增益的量化固定码本增益g_c(这个估计固定码本增益不同于第一子帧的那个)。

在一个实施例中，计算器302再次在对数域中计算固定码本增益的线性估计值，转换器303将增益估计值转换回到线性域。将来自之前子帧的量化自适应码本增益g_p ⁽¹⁾，g_p ⁽²⁾等直接供应给计算器302，而将来自之前子帧的量化自适应码本增益g_c ⁽¹⁾，g_c ⁽²⁾等通过对数计算器304在对数域中供应给计算器302。然后乘法器305将估计固定码本增益g_c0(不同于第一子帧的那个)乘以从增益码本选择的校正因子306。如前段所述，乘法器305然后输出形成激励的固定贡献的增益的量化固定码本增益g_c。

第一乘法器307将来自自适应码本的滤波自适应激励308乘以从增益码本中直接选择的量化自适应码本增益g_p，以生成激励的自适应贡献309。第二乘法器310将来自固定码本的滤波创新码矢311乘以量化固定码本增益g_c，以生成激励的固定贡献312。加法器313将激励的滤波自适应(309)和滤波固定(312)贡献相加在一起，以便形成当前帧的总滤波激励314。

对数域中当前帧的第k子帧中来自计算器302的估计固定码本增益通过下式给出：

其中是子帧k中对数域中的量化固定码本增益，以及是子帧k中的量化自适应码本增益。

例如，在一个实施例中，使用四(4)个子帧(K＝4)，因此，来自计算器302、第二、第三、和第四子帧中、对数域中的估计固定码本增益通过如下关系给出：

固定码本增益的上述估计基于当前帧的所有之前子帧的量化自适应和固定码本增益两者。在这个估计方案与用在第一子帧中的那一个之间还存在另一种差异。未从来自计算器302的对数域中的固定码本增益的线性估计值中减去来自固定码本的滤波创新矢量的能量。原因来自于在估计方程中使用了量化自适应码本和来自之前子帧的固定码本增益。在第一子帧中，假设创新矢量为单位能量地由计算器201进行线性估计。随后，减去这个能量以便使估计固定码本增益变成与它的最佳值相同的能量水平(或至少与它接近)。在第二和随后子帧中，固定码本增益的之前量化值已经在这个水平上，因此无需考虑滤波创新矢量的能量。估计系数a_i和b_i对于每个子帧是不同的，如下文所述，使用大型训练数据库离线确定它们。

估计系数的计算

在包含各种语言和程度的和有男女说话的干净、嘈杂、和混合语音信号的大型数据库上寻找估计系数的最佳集合。

通过利用自适应和固定码本增益的最佳非量化值对大型数据库运行编码解器计算估计系数。要提醒的是，按照方程(3)和(4)寻找最佳非量化自适应和固定码本增益。

在如下描述中，假设数据库包含N+1个帧，以及帧索引是n＝0，...，N。将帧索引n加入随帧而变的用在训练中的参数中(分类、第一子帧创新能量、和最佳自适应和固定码本增益)。

通过在数据库中在所有帧上使估计固定码本增益与对数域中的最佳增益之间的均方误差最小寻找估计系数。

对于第一子帧，均方误差能量通过下式给出：

根据方程(5)，帧n的第一子帧中的估计固定码本增益通过下式给出：

然后，均方误差能量通过下式给出：

在上面的方程(8)中，E_est是两者都在对数域中的估计和最佳固定码本增益之间的误差的总能量(在整个数据库上)。g⁽¹⁾ _c，opt表示第一子帧中的最佳、固定码本增益。如上文的描述所提及。E_i(n)是来自固定码本的滤波创新矢量的能量，以及t(n)是帧n的分类参数。上索引⁽¹⁾用于表示第一子帧，以及n是帧索引。

最小化问题可以通过在对数域中定义创新矢量的归一化增益来简化。也就是说，

然后总误差能量变成

上面定义的MSE(均方误差)问题的解通过如下一对偏导数求出：

从上面的方程中得出的估计系数的最佳值通过下式给出：

在对数域中进行第一子帧中的固定码本增益的估计，该估计的固定码本增益应该尽可能接近对数域中的创新矢量的归一化增益G_i ⁽¹⁾(n)。

对于第二和其他随后子帧，估计方案稍有不同。误差能量通过下式给出：

其中将方程(6)代入方程(12)中获得如下方程：

对于每个帧的第二和其他随后子帧中的估计系数的计算，将之前子帧的固定和自适应码本增益两者的量化值用在上述方程(13)中。尽管在它们的位置中可以使用最佳非量化增益，但量化值的使用导致所有子帧中的最大估计效率和因此导致增益量化器的更好总体性能。

因此，估计系数的数量随着当前子帧的索引提前而增加。增益量化本身描述在如下描述中。估计系数a_i和b_i对于每个子帧是不同的，但为了简单起见，使用相同符号。通常，它们具有与之相联系的上标^(k)，或对于每个子帧不同地表示它们，其中k是子帧索引。

方程(13)中的误差函数的最小化导致如下线性方程组：

这里不提供这个方程组的解，即，估计系数a₀，a₁，b₀，...，b_2k-3的最佳集合，因为这会得出复杂的公式。通常，这通过配备了线性方程解算器的数学软件，例如，MATLAB来求解。在离线的时候完成而不是在编码过程中完成是有利的。

对于第二子帧，方程(14)简化为：

如上所述，估计系数的计算如图4所描绘与增益量化交互进行。更具体地说，图4是描述为每个子帧计算(401)估计系数的状态机的示意性方块图。然后使用计算的估计系数为每个子帧设计(402)增益码本。然后根据计算的估计系数和增益码本设计进行每个子帧的增益量化(403)。固定码本增益本身的估计在每个子帧中稍有不同，估计系数通过最小均方误差求出，以及增益码本可以使用如描述在，例如，下面的文献中的KMEANS算法来设计：MacQueen,J.B.(1967)."Some Methods for classification and Analysis ofMultivariate Observations".Proceedings of 5th Berkeley Symposium onMathematical Statistics and Probability.University of CaliforniaPress.pp.281-297，在此通过引用将其全部内容并入本文中。

增益量化

图5是描述增益量化器500的示意性方块图。

在增益量化之前，假设来自自适应码本的滤波自适应激励501和来自固定码本的滤波创新码矢502两者都是已知的。编码器上的增益量化通过在MMSE(最小均方误差)意义上搜索指定增益码本503来进行。如前面的描述所述，增益码本503中的每个条目包括包括两个值：量化自适应码本增益g_p和激励的固定贡献的校正因子γ。事先进行固定码本增益的估计，将估计的固定码本增益g_c0用于乘以从增益码本503中选择的校正因子γ。在每个子帧中，完全地，即，对作为增益码本的索引的数量的索引q＝0，....，Q-1，Q搜索增益码本503。在强制量化自适应码本增益g_p低于某个阈值的情况下，可以限制搜索范围。为了缩小搜索范围，可以按照自适应码本增益g_p的数值以升序分类码本条目。

参照图5，搜索两条目增益码本503，每个搜索提供两个值—自适应码本增益g_p和校正因子γ。乘法器504将校正因子γ乘以估计固定码本增益g_c0，并将所得值用作激励的固定贡献的量化增益505(量化固定码本增益)。另一个乘法器506将来自自适应码本的滤波自适应激励505乘以来自增益码本503的量化自适应码本增益g_p，以生成激励的自适应贡献507。乘法器508将滤波创新码矢502乘以量化固定码本增益505，以生成激励的固定贡献509。加法器510将激励的自适应(507)和固定(509)贡献加在一起以便形成滤波总激励511。减法器512从目标信号x_i中减去滤波总激励511以生成误差信号e_i。计算器513计算误差信号e_i的能量515，并将其供还给增益码本搜索机构。以这种方式搜索增益码本501的所有索引或索引的一个子集，并选择产生最低误差能量515的增益码本503的索引，将其发送给解码器。

增益量化可以通过使方程(2)中的误差的能量最小来进行，该能量通过下式给出：

E＝e^te＝(x-g_py-g_cz)^t(x-g_py-g_cz). (15)

将γg_c0代入g_c中获得如下关系：

其中像在上面的方程(4)中那样计算常数或相关性c₀，c₁，c₂，c₃，c₄和c₅。常数c₀，c₁，c₂，c₃，c₄和c₅以及估计增益g_c0在增益码本503的搜索之前计算，然后针对每个码本索引(每组条目值g_p和γ)计算方程(16)中的能量。

选取导致误差信号e_i的最低能量515的来自增益码本503的码矢作为它的获胜码矢，它的条目值对应于量化值g_p和_γ。然后像如下那样计算固定码本增益的量化值：

g_c＝g_c0·γ·

图6是使用方程(16)进行误差信号e_i的能量E_i的计算、像图5中那样的等效增益量化器600的示意性方块图。更具体地说，增益量化器600包含增益码本601、常数或相关性的计算器602、和误差信号的能量604的计算器603。计算器602使用方程(4)以及目标矢量x、来自自适应码本的滤波自适应激励矢量y、和来自固定码本的滤波固定码矢z计算常数或相关性c₀，c₁，c₂，c₃，c₄和c₅，其中t表示矢量转置。计算器603使用方程(16)从估计固定码本增益g_c0、来自计算器602的相关性c₀，c₁，c₂，c₃，c₄和c₅、和来自增益码本601的量化自适应码本增益g_p和校正因子γ中计算误差信号ei的能量E_i。将来自计算器603的误差信号的能量603供还给增益码本搜索机构。并且，以这种方式搜索增益码本601的所有索引或索引的一个子集，并选择产生最低误差能量604的增益码本601的索引作为获胜索引，将其发送给解码器。

在图6的增益量化器600中，增益码本601具有可以随子帧而不同的大小。由于估计参数的数量的增加，在一个帧中的较后子帧中获得固定码本增益的较好估计。因此，在较后子帧中可以使用较少位数，在一个实施例中，使用四(4)个子帧，其中增益码本的位数是分别与子帧1，2，3和4相对应的8，7，6和6个。在在较低位速率上的另一个实施例中，在每个子帧中使用6个位。

在解码器中，将接收的索引用于从增益码本中检索量化自适应码本增益g_p和校正因子γ的数值。固定码本增益的估计以如前面的描述所述，与编码器相同的方式进行。固定码本增益的量化值通过方程g_c＝g_c0·γ来计算。从位流中解码自适应码矢和创新码矢两者，它们变成乘以各自自适应和固定码本增益的自适应和固定激励贡献。将两种激励贡献加在一起以形成总激励。如在CELP编码的现有技术中所公知，通过LP合成滤波器滤波总激励求出合成信号。

信号分类

可以将不同方法用于确定帧的分类，例如，图1的参数t。在将帧分类成清音、浊音、一般或过渡帧的如下描述中给出了一个非限制性例子。但是，语音类别的数量可以与用在本例中的那个不同。例如，在一个实施例中，只能是浊音或清音地分类。在另一个实施例中，可以加上像强浊音或强清音那样的更多类别。

信号分类可以分三个步骤进行，其中每个步骤区分特定信号类别。首先，信号活动检测器(SAD)区分有效和无效语音帧。如果检测到无效语音帧(本底噪声信号)，则分类链终止，利用舒适噪声生成(CNG)编码帧。如果检测到有效语音帧，则让该帧受第二分类器支配，以区分清音帧。如果该分类器将帧分类成清音信号，则分类链终止，使用最适合清音信号的编码方法编码该帧。否则，通过“稳定浊音”分类模块处理该帧。如果该帧被分类成稳定浊音帧，则使用最适合稳定浊音信号的编码方法编码该帧。否则，该帧有可能包含像浊音发端或迅速演变浊音信号那样的非稳定信号段。这些帧通常需要通用编码器和高位速率来维持良好主观质量。公开的增益量化技术已经开发出来，并且最适用于稳定浊音和通用帧。但是，对于任何其他信号类别，可以容易地推广它。

在下文中，将描述清音和浊音信号帧的分类。

声音信号的清音部分通过缺失周期性分量来表征，并且可以进一步划分成能量和频谱迅速变化的不稳定帧、和这些特性保持相对稳定的稳定帧。清音帧的分类使用如下参数：

作为平均归一化相关性计算的发声度量()；

平均频谱倾斜度量()；

有效检测爆炸信号段的低水平上的最大短时能量增量(dE₀)；

用于评价帧稳定的最大短时能量偏差(dE)；

如在下面的文献中所述将音乐与清音信号区分开的音调稳定性：Jelinek,M.,Vaillancourt,T.,Gibbs,J.,"G.718:A new embedded speech and audio codingstandard with high resilience to error-prone transmission channels”,In IEEECommunications Magazine,vol.47,pp.117-123,October 2009，在此通过引用将其全部内容并入本文中；以及

检测极低能信号的相应帧能量(E_rel)

发声度量

将用于确定发声度量的归一化相关性作为开环音高分析的一部分来计算。在CELP编码的现有技术中，开环搜索模块通常每帧输出两个估计量。这里，也用于输出归一化相关性度量。这些归一化相关性是对加权信号和开环音调延迟的过去加权信号计算的。加权语音信号s_w(n)使用感知加权滤波器来计算。例如，使用适合宽带信号、具有固定分母的感知加权滤波。感知加权滤波器的传递函数的一个例子通过如下关系给出：

其中A(z)是通过莱文逊-德宾(Levinson-Durbin)算法计算和通过如下关系给出的线性预测(LP)滤波的传递函数：

LP分析和开环音调分析在CELP编码的现有技术中是公知的，于是，在本描述中将不作进一步描述。

发声度量被定义成通过如下关系给出的平均归一化相关性：

其中C_nom(d₀)、C_nom(d₁)和C_nom(d₂)分别是当前帧的前一半的归一化相关性、当前帧的后一半的归一化相关性、和前头(下一个帧的开头)的归一化相关性。相关性的变元是开环音调滞后。

频谱倾斜

频谱倾斜包含有关能量的频率分布的信息。频谱倾斜可以在频域中作为集中在低频的能量与集中在高频的能量之间的比率来估计。但是，也可以用像信号的两个第一互相关系数之间的比率那样的不同方式来估计。

如下面的文献所述，高频和低频中的能量沿着感知临界频带来计算：J.D.Johnston,"Transform Coding of Audio Signals Using Perceptual NoiseCriteria,"IEEE Journal on Selected Areas in Communications,vol.6,no.2,pp.314-323,February 1988，在此通过引用将其全部内容并入本文中。高频中的能量使用如下关系作为最后两个临界频带的平均能量来计算：

其中E_CB(i)是第i频带的临界频带能量和b_max是最后临界频带。低频中的能量使用如下关系作为前10个临界频带的平均能量来计算：

其中b_min是第一临界频带。

中间临界频带被排除在计算之外，因为它们往往不会改善高能集中在低频(一般是浊音)的帧与高能集中在高频(一般是清音)的帧之间的区分。在两者之间，能量含量不是进一步讨论的任何类别的特征，并且会增加判定混乱。

频谱倾斜通过下式给出：

其中和分别是以与和相同的方式计算、最后两个临界频带和前10个临界频带中的平均噪声能量。将估计的噪声能量加入倾斜计算中以计及本底噪声的存在。频谱倾斜计算每个帧进行两次，然后计算用在清音帧分类中的平均频谱倾斜。也就是说，

其中e_old是之前帧的后一半中的频谱倾斜。

低水平上的最大短时能量增量

对输入声音信号s(n)评估低水平上的最大短时能量增量dE0，其中n＝0对应于当前帧的第一样本。对每个子帧评估信号能量两次。假设，例如，每个帧四个子帧的情形，每个帧计算能量8次。如果总帧长是，例如，256个样本，则这些短段的每一个可以具有32个样本。在计算中，也考虑从前一帧开始的最后32个样本和从下一帧开始的前32个样本的短期能量。该短期能量使用如下关系来计算：

其中j＝-1和j＝8分别对应于前一帧的末端和下一帧的开头。九个短期能量的另一个集合使用如下关系将前面方程中的信号索引移动16个样本来计算：

对于足够低，即，满足条件的能量，对第一组能量计算如下比率：

以及对(j＝0，...，7)重复相同计算，以获取两组比率rat⁽¹⁾和rat⁽¹⁾。通过作为低水平上的最大短期能量增量的下式搜索这两组中的唯一最大值：

dEO＝max(rat⁽¹⁾，rat⁽²⁾)

最大短时能量偏差

这个参数dE类似于低水平上的最大短时能量增量，差异在于不应用低水平条件。因此，作为如下四个值的最大值来计算参数：

清音信号分类

清音信号帧的分类基于上述的参数，即：发声度量平均频谱倾斜度量()、低水平上的最大短时能量增量dE0和最大短时能量偏差dE。该算法得到音调稳定性参数、SAD标志和在噪声能量更新阶段计算的相对帧能量进一步支持。对于有关这些参考的更详细信息，参见，例如，如下参考文献：Jelinek,M.,et al.,"Advances in source-controlledvariable bitrate wideband speech coding",Special Workshop in MAUI(SWIM)；Lectures by masters in speech processing,Maui,January 12-24,2004，在此通过引用将其全部内容并入本文中。

相对帧能量通过下式给出：

宽带信号的清音分类的规则总结如下：

[last frame INACTIVE OR UNVOICED OR((e_old＜2.4)AND(r_x(O)＜0.66))]

[dEO＜250]AND

[e_t(1)＜2.7]AND

这个条件的第一行与低能信号和它们的能量集中在高频的低相关性的信号有关。第二行涵盖浊音偏移，第三行涵盖爆炸信号段以及第四行与浊音发端有关。最后一行区分要不然被宣称为清音的音乐信号。

如果满足组合条件，则通过将当前帧宣称为清音结束该分类。

浊音信号分类

如果一个帧未被分类成有效帧或清音帧，则测试是否是稳定浊音帧。判定规则基于每个子帧(具有1/4子样本分辨率)的归一化相关性平均频谱倾斜和所有子帧(具有1/4子样本分辨率)的开环音调估计。

开环音调估计过程计算三种开环音调滞后：对应于前半帧、后半帧和前头(随后帧的前半帧)的d₀、d₁和d₂。为了获取所有四个子帧中的精确音调信息，计算1/4样本分辨率分数音调细化。这种细化是对感知加权输入信号s_wd(n)(例如，通过上述感知加权滤波器滤波的输入声音信号s(n))计算的。在每个子帧的开头上，使用如下延迟在(-7，+7)间隔中进行分辨率为1个样本的短相关性分析(40个样本)：对于第一和第二子帧，d₀；对于第三和第四子帧，d₁。然后在分数位置上d_max-3/4，d_max-1/2，d_max-1/4，d_max，d_max+1/4，d_max+1/2，d_max+3/4上围绕它们的最大值内插相关性。选取生成最大相关性的数值作为细化音调滞后。

将所有四个子帧中的细化开环音调滞后表示成T(0)，T(1)，T(2)和T(3)，以及将它们的相应归一化相关性表示成C(0)，C(1)，C(2)和C(3)。然后，通过下式给出浊音信号分类条件：

[C(0)＞0.605]AND

[C(1)＞0.605]AND

[C(2)＞0.605]AND

[C(3)＞0.605]AND

[|T(1)-T(0)|]＜3AND

[|T(2)-T(1)|]＜3AND

[|T(3)-T(2)|]＜3

上面的浊音信号分类条件指示归一化相关性在所有子帧中都必须足够高，音调估计在整个帧中必须不发散，以及能量必须集中在低频中。如果满足这个条件，则通过将当前帧宣称为浊音结束该分类。否则，将当前帧宣称为一般的。

尽管在前面的描述中已经参考其非限制例示性实施例描述了本发明，但可以不偏离本发明的精神和性质地在所附权利要求书的范围内随意修改这些实施例。

Claims

1.一种在帧的子帧中检索激励的固定贡献的量化增益的设备，其包含：

增益码本索引的接收器；

在子帧中估计激励的固定贡献的增益的估计器，其中将具有代表该帧的分类的值参数t供给该估计器，并且使用参数t的值作为用于计算激励的固定贡献的估计增益的函数中用于线性估计量的乘法因子；

响应增益码本索引供应校正因子的增益码本；以及

将估计增益乘以校正因子以便提供所述子帧中激励的固定贡献的量化增益的乘法器。

2.按照权利要求1所述的检索激励的固定贡献的量化增益的设备，其中该估计器包含对于该帧的第一子帧，响应代表帧的分类的参数t的值计算激励的固定贡献的增益的第一估计的计算器、和从第一估计中减去来自固定码本的滤波创新码矢的能量以获取估计增益的减法器。

3.按照权利要求2所述的检索激励的固定贡献的量化增益的设备，其中该估计器对于接在第一子帧之后的所述帧的每个子帧，响应代表帧的分类的参数t的值和该帧的至少一个之前子帧的激励的自适应和固定贡献的增益，估计激励的固定贡献的增益。

4.按照权利要求1到3的任何一项所述的检索激励的固定贡献的量化增益的设备，其中该估计器将对于该帧的每个子帧不同的估计系数用于估计激励的固定贡献的增益。

5.按照权利要求1到3的任何一项所述的检索激励的固定贡献的量化增益的设备，其中该估计器将激励的固定贡献的增益的估计限制在该帧中以提高抵抗帧擦除的鲁棒性。

6.一种在帧的子帧中检索激励的自适应和固定贡献的量化增益的设备，其包含：

增益码本索引的接收器；

在子帧中估计激励的固定贡献的增益的估计器，其中将具有代表该帧的分类的值的参数t供给该估计器，并且使用参数t的值作为用于计算激励的固定贡献的估计增益的函数中用于线性估计量的乘法因子；

响应增益码本索引，为子帧供应激励的自适应贡献的量化增益和校正因子的增益码本；以及

将估计增益乘以校正因子以便提供子帧中激励的所述固定贡献的量化增益的乘法器。

7.按照权利要求6所述的检索激励的自适应和固定贡献的量化增益的设备，其中增益码本包含每一个包含激励的自适应贡献的量化增益和估计增益的校正因子的条目。

8.按照权利要求6或7所述的检索激励的自适应和固定贡献的量化增益的设备，其中该增益码本在帧的不同子帧中具有不同的大小。

9.一种在帧的子帧中检索激励的固定贡献的量化增益的方法，其包含：

接收增益码本索引；

使用代表该帧的分类的参数t的值作为用于计算激励的固定贡献的估计增益的函数中用于线性估计量的乘法因子，在子帧中估计激励的固定贡献的增益；

响应增益码本索引，从增益码本和为子帧供应校正因子；以及

将估计增益乘以校正因子以便提供所述子帧中激励的固定贡献的量化增益。

10.按照权利要求9所述的检索激励的固定贡献的量化增益的方法，其中估计激励的固定贡献的增益包含：对于该帧的第一子帧，响应代表帧的分类的参数t的值计算激励的固定贡献的增益的第一估计，以及从第一估计中减去来自固定码本的滤波创新码矢的能量以获取估计增益。

11.按照权利要求10所述的检索激励的固定贡献的量化增益的方法，其中估计激励的固定贡献的增益包含：在接在第一子帧之后的所述帧的每个子帧中，使用代表帧的分类的参数的值和该帧的至少一个之前子帧的激励的自适应和固定贡献的增益，估计激励的固定贡献的增益。

12.按照权利要求9到11的任何一项所述的检索激励的固定贡献的量化增益的方法，其中估计激励的固定贡献的增益包含：使用对于该帧的每个子帧不同的估计系数。

13.按照权利要求9到11的任何一项所述的检索激励的固定贡献的量化增益的方法，其中将激励的固定贡献的增益的估计限制在该帧中以提高抵抗帧擦除的鲁棒性。

14.一种在帧的子帧中检索激励的自适应和固定贡献的量化增益的方法，其包含：

接收增益码本索引；

响应增益码本索引，从增益码本和为子帧供应激励的自适应贡献的量化增益和校正因子；以及

将估计增益乘以校正因子以便提供子帧中激励的所述固定贡献的量化增益。

15.按照权利要求14所述的检索激励的自适应和固定贡献的量化增益的方法，其中增益码本包含每一个包含激励的自适应贡献的量化增益和估计增益的校正因子的条目。

16.按照权利要求14或15所述的检索激励的自适应和固定贡献的量化增益的方法，其中该增益码本在帧的不同子帧中具有不同的大小。