CN101207665B

CN101207665B - 一种衰减因子的获取方法

Info

Publication number: CN101207665B
Application number: CN2007101696180A
Authority: CN
Inventors: 詹五洲; 王东琦; 涂永峰; 王静; 张清; 苗磊; 许剑峰; 胡晨; 杨毅; 杜正中; 齐峰岩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-11-05
Filing date: 2007-11-05
Publication date: 2010-12-08
Anticipated expiration: 2027-11-05
Also published as: CN102169692A; EP2056292A2; JP2010176142A; BRPI0808765A2; EP2161719A2; JP4824734B2; EP2056292B1; KR20090046714A; CN102682777B; EP2056292A3; JP5255585B2; US20090116486A1; CN101578657B; HK1155844A1; DK2056292T3; CN102682777A; US7957961B2; HK1142713A1; EP2161719B1; WO2009059497A1

Abstract

本发明公开了一种衰减因子的获取方法，用于丢包隐藏中的合成信号的处理，包括以下步骤：获取信号最后两个基音周期信号的变化趋势；根据所述信号最后两个基音周期信号的变化趋势获取衰减因子；根据所述信号最后两个基音周期信号的变化趋势，对合成信号进行动态衰减。通过使用本发明，使用历史信号最近的变化趋势来动态调整自适应衰减因子，实现历史数据和最新收到的数据的平稳过渡，使得补偿后的信号和原始信号尽量保持一致的衰减速度，适应人的语音丰富多变的特点。

Description

一种衰减因子的获取方法

技术领域

本发明涉及信号处理领域，尤其涉及一种衰减因子的获取方法。

背景技术

在实时语音通信系统中，对语音数据的传输要求实时可靠，例如VoIP(Voice over IP，基于IP的语音)系统。但由于网络系统自身的不可靠特性，数据包在从发送端到接收端传输过程中有可能会被丢弃或者不能及时的达到目的地，而这两种情况都被接收端认为是网络丢包。而发生网络丢包是不可避免的，同时也是影响语音通话质量最主要因素之一，因此在实时通信系统中需要健壮的丢包隐藏方法来恢复丢失的数据包，使得在发生网络丢包的情况下仍获得良好的通话质量。

G.722是ITU-T制定的应用于语音通信的语音编码算法。G.722编码器的原理示意图如图1所示：在发送端，G.722编码器把宽带语音分成高低两个子带，并使用ADPCM(Adaptive Differential Pulse Code Modulation，自适应差分脉冲编码调制)分别对两个子带进行编码并通过网络一起发送给接收端。在接收端，使用ADPCM解码器对两个子带分别解码，然后使用QMF(QuadratureMirror Filter，正交镜像滤波)合成滤波器合成最终的信号。

在现有技术中给出了适用于G..722的PLC(Packet Loss Concealment，丢包隐藏)算法，对于两个不同的子带采用了不同的PLC算法，低带部分的PLC算法，即图1中的虚线框中①的部分，而对于高带的PLC算法，对应图1中的虚线框②。对于低带信号，xl(n)对应当前收到的数据帧解码后对应的信号、而yl(n)对应当有丢包时利用zl(n)，n＝-289，...，-1合成的信号，zl(n)对应进行完CROSS-FADING(交叉衰减)后最终输出的低带信号；对于高带信号，zh(n)为最终输出的高带信号。得到低带信号zl(n)和高带信号zh(n)后，对低带信号zl(n)和高带信号zh(n)作QMF，合成最终要输出的宽带信号y(n)。

下面仅对低带信号做详细介绍：

在没有丢包的情况下，zl(n)＝xl(n)，即CROSS-FADING时不改变重构信号。

在有丢包情况下，对于第一个丢失的数据帧，使用短时预测器和长时预测器对历史信号zl(n)，n＜0进行分析，并提取出语音类别信息；接着使用上述预测器和类别信息，使用线性预测基音周期重复的方法生成信号yl(n)；然后重构丢失帧的信号zl(n)＝yl(n)，n＝0，…，L-1。另外，ADPCM的状态也要随之同步更新，直到遇到一个好帧。注意到不仅要生成丢失的帧所对应信号，也要生成用于CROSS-FADING的10ms信号yl(n)，n＝L，…，L+79，那么一旦收到一个好帧，就对xl(n)，n＝L，…，L+79，和yl(n)，n＝L，…，L+79做CROSS-FADING处理。注意到此类CROSS-FADING仅在发生丢帧后，接收端收到第一个好帧数据时才进行。

图2为现有技术中给出的低带部分基于基音周期重复部分的LPC模块的更详细的框架。

当数据帧是好帧时，zl(n)被存储到一个缓冲区里面以备后用。

当遇到第一个坏帧时，则需要分两步来合成最终的信号yl(n)。首先对历史信号zl(n)，n＝-297，…，-1进行分析，然后结合分析的结果合成信号yl(n)，n＝0，…，L-1，其中L是数据帧的帧长。

该基于基音周期重复部分的LPC模块具体包括以下部分：

(1)LP(Linear Prediction，线性预测)分析

短时分析和合成滤波器A(z)和1/A(z)均是基于8阶LP的滤波器。LP分析滤波定义为：

A(z)＝1+a₁z^-1+a₂ ^z-2+…+a₈z^-8

LP分析之后，使得历史信号zl(n)通过滤波器A(z)后得到残差信号e(n)，n＝-289，…，-1：

e (n) = zl (n) + Σ_{i = 1}^{8} a_{i} zl (n - i) .

(2)历史数据分析

现有技术中G.722使用基音周期重复方法对丢失的数据进行补偿。因此，首先需要估计出基因周期T0，首先对zl(n)进行预处理，去除在LTP(Long TermPrediction，长时预测)分析中不需要的低频成分，然后通过LTP分析可以得到历史信号的基因周期T₀，并结合信号分类模块得到语音的类别。

在G.722附录A中把语音分成了如下几类，如下表所示：

分类名称	解释
		TRANSIENT	能量变化大的语音，例如爆破音
UNVOICED	对于非语音信号
		VUV_TRANSITION	语音和非语音信号的转换
WEAKLY_VOICED	语音信号的开始或者结束
		VOICED	语音信号，例如稳定的元音

(3)基音周期重复

基因周期重复模块用于估计丢失帧的LP残差信号e(n)，n＝0，…，L-1。在进行基因周期重复之前，如果语音的类别不是VOICED，则采用下面的公式来限制采样点的幅度：

e (n) = \min (\max_{i = - 2, . . ., + 2} (| e (n - T_{0} + i) |), | e (n) |) \times sign (e (n)),

n＝-T₀，…，-1

其中，

sign (x) = \{\begin{matrix} 1 & if & x &GreaterEqual; 0 \\ - 1 & if & x < 0 \end{matrix}

如果语音的类别是VOICED，则丢失信号所对应的残差e(n)，n＝0，…，L-1采用重复历史数据对应的最后一个基音周期的残差数据获得，即：

e(n)＝e(n-T₀)

而对于其它类型的语音，为了避免生成的数据周期性太强(对于非语音的数据，如果周期性太强，听起来就会有音乐噪声等不舒服噪声)，则使用下面的公式生成丢失信号所对应的残差信号e(n)，n＝0，…，L-1：

e(n)＝e(n-T₀+(-1)ⁿ)。

除了生成丢失帧对应的信号外，为了保证丢失帧和丢失帧之后的第一个好帧之间的平滑拼接，还要继续生成额外80个样点的数据e(n)，n＝L，…，L+79，以生成用于CROSS-FADING的信号。

(4)LP合成

在生成丢失帧和CROSS-FADING对应的残差信号e(n)后，接着用下面的公式得到重构的丢失帧信号yl_pre(n)，n＝0，…，L-1：

{yl}_{pre} (n) = e (n) - Σ_{i = 1}^{8} a_{i} yl (n - i)

其中，残差信号e(n)，n＝0，…，L-1，是在章节步骤3基音周期重复中得到的残差。

除此之外，还要继续使用上述公式生成用于CROSS-FADING的80个样点yl_pre(n)，n＝L，…，L+79。

(5)Adaptive muting

为了实现平滑的能量过渡，在与高带信号进行QMF之前，还需要对低带信号进行CROSS-FADING处理，规则如下表所示：

在上表中，zl(n)为对应最终输出的当前帧对应的信号；xl(n)当前帧对应的好帧的信号；yl(n)对应当前帧同一时刻合成的信号，其中L为帧长，80为进行CROSS-FADING样点的个数。

G.722附录4还考虑到针对不同的语音类型，在进行CROSS-FADING之前对yl_pre(n)中的信号的能量进行控制。即

yl(n)＝g_mute_lb×yl_pre(n)n＝0，…，L+79

其中，g_mute_lb为每个样点所对应的系数。它的取值根据语音类型的不同以及丢包情况而变化，如下图3所示。其中开始80个样点对应当前丢失帧的g_mute_lb。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有技术中使用如图3所示的静态的自适应衰减因子来控制合成信号的能量。虽然它所规定的衰减因子也是逐渐变化的，但它的衰减速度，即衰减因子的大小，对同一类型的语音，都是一样的。但人的发音的特点是很丰富多变的，如果衰减因子不匹配，重建后的信号就会有令人不舒适的噪声，特别是在稳定语音的末尾，使用静态的自适应衰减因子就不能适应人的语音丰富多变的特点。

例如图4所示的情况，其中T₀为历史信号的基音周期，上面的信号对应原始信号，即没有丢包情况下的波形示意图。下面的短划线信号为根据现有G.722合成的信号。从图中可以发现：合成的信号没有保持和原始信号一致的衰减速度，如果同一基音周期重复次数太多，则合成的信号就会出现明显得音乐噪声，与理想的情况差距很大。

发明内容

本发明的实施例提供一种衰减因子的获取方法，用于自适应的动态调整合成信号处理中所使用的衰减因子，实现历史数据和最新收到的数据的平稳过渡。

为达到上述目的，本发明的实施例提供一种衰减因子的获取方法，用于丢包隐藏中的合成信号的处理，包括以下步骤：

获取信号最后两个基音周期信号的变化趋势；

根据所述信号最后两个基音周期信号的变化趋势获取衰减因子1-C*(n+1)，用于对合成信号进行动态衰减yl(n)＝yl_pre(n)*(1-C*(n+1))，n＝0，..，N-1；

其中，yl_pre(n)为重构的丢失帧信号，C为衰减系数，N为合成信号的长度，C＝(1-R)/T₀，T₀为基音周期的长度，R为所述信号最后一个基音周期信号的能量与前一个基音周期信号的能量的比值，或所述信号最后一个基音周期信号的最大幅度值和最小幅度值的差值与前一个基音周期信号的最大幅度值和最小幅度值的差值的比值；

当R为所述信号最后一个基音周期信号的能量与前一个基音周期信号的能量的比值时，

其中，E₁为最后一个基音周期信号的能量，E₂为前一个基音周期信号的能量；

当R为所述信号最后一个基音周期信号的最大幅度值和最小幅度值的差值与前一个基音周期信号的最大幅度值和最小幅度值的差值的比值时，R＝P₁/P₂；其中，P₁为信号最后一个基音周期信号的最大幅度值和最小幅度值的差值，P₂为前一个基音周期信号的最大幅度值和最小幅度值的差值。

与现有技术相比，本发明的实施例具有以下优点：

使用历史信号的变化趋势来动态调整自适应衰减因子，实现历史数据和最新收到的数据的平稳过渡，使得补偿后的信号和原始信号尽量保持一致的衰减速度，适应人的语音丰富多变的特点。

附图说明

图1是现有技术中G.722编码器的原理示意图；

图2是现有技术中低带部分基于基音周期重复部分的LPC模块示意图；

图3是现有技术中静音因子的取值与语音类型以及丢包情况的关系示意图；

图4是现有技术中原始信号和根据现有G.722合成的信号的示意图；

图5是本发明的实施例一中一种衰减因子的获取方法的流程图；

图6是本发明的实施例一中动态衰减方法后输出信号的示意图；

图7A和图7B是本发明的实施例二中衰减因子获取装置的结构示意图；

图8是本发明的实施例二中衰减因子获取装置的应用场景示意图。

具体实施方式

以下结合附图和实施例，对本发明的实施方式做进一步说明。

本发明的实施例一中提供了一种衰减因子的获取方法，用于丢包隐藏中的合成信号的处理，如图5所示，包括以下步骤：

步骤s101、获取信号的变化趋势。

具体的，该变化趋势可以通过以下参数表示：(1)信号最后一个基音周期信号的能量与前一个基音周期信号的能量的比值；(2)信号最后一个基音周期信号的最大幅度值和最小幅度值的差值与前一个基音周期信号的最大幅度值和最小幅度值的差值的比值。

步骤s102、根据该变化趋势获取衰减因子。

以下结合具体的应用场景，描述本发明实施例一的具体处理方法。

本发明的实施例一中，提供了一种衰减因子的获取方法，用于丢包隐藏中的合成信号的处理，主要针对图3中对衰减因子计算的改进。

具体的，假设接收到的历史信号中最后两个基音周期的信号如图6中的原始信号所示，则根据上述历史信号最后两个基音周期的变化趋势来动态调整自适应动态衰减因子。具体的调整方法包括以下步骤：

步骤s201、获取信号的变化趋势。

可以通过信号最后一个基音周期信号的能量与前一个基音周期信号的能量的比值表示信号的变化趋势，即计算历史信号最后两个基音周期信号的能量E₁和E₂，以及二能量的比值。

E_{1} = Σ_{i = 1}^{T_{0}} {xl}^{2} (- i)

E_{2} = Σ_{i = 1}^{T_{0}} x l^{2} (- i - T_{0})

R = \sqrt{\frac{E_{1}}{E_{2}}}

其中，E₁为最后一个基音周期信号的能量，E₂为前一个基音周期信号的能量，T₀为历史信号对应的基音周期。

或者：

也可以通过历史信号最后两个基音周期的峰值峰谷差的比值来表示信号的变化趋势：

P₁＝max(xl(i))-min(xl(j)) (i，j)＝-T₀，...，-1

P₂＝max(xl(i))-min(xl(j)) (i，j)＝-2T₀，...，-(T₀+1)

其中，P₁为信号最后一个基音周期信号的最大幅度值和最小幅度值的差值，P₂为前一个基音周期信号的最大幅度值和最小幅度值的差值，然后计算其比值为：

R = \frac{P_{1}}{P_{2}}

步骤s202、根据该获取到的信号的变化趋势，对合成的信号进行动态衰减。

计算公式如下：

yl(n)＝yl_pre(n)*(1-C*(n+1)) n＝0，..，N-1

其中yl_pre(n)为重构的丢失帧信号，N为合成信号的长度，C为自适应衰减系数，其值为：

C = \frac{1 - R}{T_{0}}

对于衰减因子1-C*(n+1)＜0的情况下，需令1-C*(n+1)＝0，以避免出现采样点对应衰减因子为负的情况。

特殊的，为了避免在R＞1的情况下，出现采样点对应幅值溢出的情况下，可以考虑仅在R＜1的情况下，使用本实施例步骤s202的公式对合成的信号进行动态衰减。

特殊的，为了避免能量比较小的信号衰减速度过快，则可以考虑仅在E₁超过某个限定值的情况下，使用本实施例步骤s202的公式对合成的信号进行动态衰减。

特殊的，为了避免合成信号由于衰减速度过快，特别是在有连续丢帧的情况下，则给衰减系数C设定一个上限，当超过某个限定值时，则使得衰减系数为上限所设定的值。

特殊的，在网络环境差，在有连续丢帧的情况下，为防止衰减速度过快，可以设定一定的条件，例如可以考虑当丢失帧的个数超过指定个数，例如2帧，或者丢失帧对应的信号超过指定长度，例如20ms，或者当前衰减因子(1-C*(n+1))到达指定的阀值后的一个或者多个条件后，则需要对衰减系数C进行调整，以防止衰减过快，导致输出信号为静音的情况。

例如在8K采样，帧长为40个采样点的情况下，可以设定丢失帧个数为4，且衰减因子1-C*(n+1)小于0.9以后，则将衰减系数C调整为较小的值。其中所述较小的值的规则为：

假定预计依当前的衰减系数C和衰减因子的值V，那么衰减因子V将在V/C个采样点后衰减为0，而比较理想的情况是在M(M≠V/C)个采样点后衰减为0，那么调整衰减系数C为：

C＝V/M

如图6所示，最上信号为原始信号，中间的信号为合成的信号，从图中可以看到，该信号虽然有一定程度的衰减，但仍然保持了很强的浊音特征，如果持续时间过长，就会表现为音乐性的噪声，特别是在浊音的尾部。最下面信号为使用了本发明实施例中动态衰减之后的信号，可以看出和原始信号已经非常接近。

通过使用上述实施例提供的方法，使用历史信号的变化趋势来动态调整自适应衰减因子，实现历史数据和最新收到的数据的平稳过渡，使得补偿后的信号和原始信号尽量保持一致的衰减速度，适应人的语音丰富多变的特点。

本发明的实施例二中提供一种衰减因子获取装置，用于丢包隐藏中的合成信号的处理，包括：

变化趋势获取单元10，用于获取信号的变化趋势。

衰减因子获取单元20，用于根据变化趋势获取单元10获取的变化趋势获取衰减因子。

该衰减因子获取单元20进一步包括：衰减系数获取子单元21，用于根据变化趋势获取单元10获取的变化趋势生成衰减系数；衰减因子获取子单元22，用于根据衰减系数获取单元21生成的衰减系数获取衰减因子。还包括：衰减系数调整子单元23，用于在满足特定条件时，将衰减系数获取子单元21获取的衰减系数的值调整为特定值，该特定条件包括衰减系数的值是否超过上限、是否存在连续丢帧的情况、衰减速度是否过快中的一种或多种。

具体的，该变化趋势获取单元10获取的变化趋势可以通过以下参数体现：(1)信号最后一个基音周期信号的能量与前一个基音周期信号的能量的比值；(2)信号最后一个基音周期信号的最大幅度值和最小幅度值的差值与前一个基音周期信号的最大幅度值和最小幅度值的差值的比值。

该变化趋势使用上述(1)中能量的比值表示时，该衰减因子获取装置的结构如图7A所示，变化趋势获取单元10进一步包括：

能量获取子单元11，用于获取信号最后一个基音周期信号的能量与前一个基音周期信号的能量；能量比值获取子单元12，用于获取能量获取子单元11获取的信号最后一个基音周期信号的能量与前一个基音周期信号的能量的比值，以该比值表示所述信号的变化趋势。

该变化趋势使用上述(2)中的幅度差值的比值表示时，该衰减因子获取装置的结构如图7B所示，所述变化趋势获取单元进一步包括：

幅度差值获取子单元13，用于获取信号最后一个基音周期信号的最大幅度值和最小幅度值的差值，以及前一个基音周期信号的最大幅度值和最小幅度值的差值；幅度差值比值获取子单元14，用于获取信号最后一个基音周期信号的差值与前一个基音周期信号的差值的比值，以该比值表示所述信号的变化趋势。

本发明的实施例二中一种衰减因子获取装置的应用场景示意图如图8所示，用于使用历史信号的变化趋势来动态调整自适应衰减因子。

通过使用上述实施例提供的装置，使用历史信号的变化趋势来动态调整自适应衰减因子，实现历史数据和最新收到的数据的平稳过渡，使得补偿后的信号和原始信号尽量保持一致的衰减速度，适应人的语音丰富多变的特点。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备执行本发明各个实施例所述的方法。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种衰减因子的获取方法，用于丢包隐藏中的合成信号的处理，其特征在于，包括以下步骤：

获取信号最后两个基音周期信号的变化趋势；

2.如权利要求1所述衰减因子的获取方法，其特征在于，所述衰减因子为1-C*(n+1)，当1-C*(n+1)＜0时，令所述衰减因子1-C*(n+1)＝0。

3.如权利要求1所述衰减因子的获取方法，其特征在于，预先为衰减系数C设定一个上限值，当根据C＝(1-R)/T₀获取的C值超过所述上限值时，使得衰减系数C为所述上限值。

4.如权利要求1所述衰减因子的获取方法，其特征在于，连续丢失多个帧时，则将衰减系数C调整为：

预设信号在M个样点后衰减为零；

令调整后的衰减系数C＝V/M，其中V为当前的衰减因子。