CN101286320A - 增益量化系统用于改进语音丢包修补质量的方法 - Google Patents

增益量化系统用于改进语音丢包修补质量的方法 Download PDF

Info

Publication number
CN101286320A
CN101286320A CNA2007101942753A CN200710194275A CN101286320A CN 101286320 A CN101286320 A CN 101286320A CN A2007101942753 A CNA2007101942753 A CN A2007101942753A CN 200710194275 A CN200710194275 A CN 200710194275A CN 101286320 A CN101286320 A CN 101286320A
Authority
CN
China
Prior art keywords
excitation
energy
mrow
gain
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101942753A
Other languages
English (en)
Other versions
CN101286320B (zh
Inventor
高扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN101286320A publication Critical patent/CN101286320A/zh
Application granted granted Critical
Publication of CN101286320B publication Critical patent/CN101286320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明的增益量化系统用于改进语音丢包修补质量的方法,主要是先将两个激励元增益(Gp和Gc)转化为两个特殊的参数:一个表示全部的激励能量,另一个表示自适应激励的能量部分占全部激励能量的比值。然后,将转化后的参数量化,送到解码器。在解码端将这两个参数恢复为原始增益形式(Gp和Gc)。具有能够在丢包后快速地恢复到正确的激励能量,改进语音丢包后的修补质量,有效地减少错误传播等优点。

Description

增益量化系统用于改进语音丢包修补质量的方法
技术领域
本发明属于信号编码领域。具体讲是语音编码领域;尤其是专为改进在语音包传输时丢包后性能的补偿。
背景技术
传统来讲,所有的参数化语音编码方法常常都是利用语音信号本身的冗余,来减少必须传输的信息量,并估算语音信号短时段内的参数。这种冗余首先起因于语音波形周期性的重复和频谱包络慢变过程。
不同形式语音波形的冗余对应于不同类型的语音信号,如浊声和清声。就浊声语音而言,语音信号基本上是周期性的;然而,这种周期性在语音段中是变化的,且周期波形在语音段之间缓慢变化。低比特率的语音编码可以很大地受益于这种周期性。浊声周期称为基音周期(pitch),这种基音周期性预测被命名为长项预测。至于清音,其信号更像一个随机噪声,周期性也较小。
在任何情况下,参数编码通过分割频谱包络和语音段的激励来减少语音段的冗余。频谱包络慢变过程被描述成线性预测(也称作短项预测)。低比特率的语音编码也同样受益于短项预测。这种编码的优点就来自于参数的慢速变化。然而,在几毫秒内这些参数值有很大变化的可能性很小。因此,在8k Hz或16k Hz采样时,语音编码算法是将10~30毫秒语音段作为一帧。而20毫秒是最常用的帧长。在较近期的知名国际标准中,诸如G.723、G.729、EFR、AMR,编码激励线性预测技术(CELP)已经被广泛采用;通常编码激励线性预测技术(CELP)被理解为是编码激励、长项预测和短项预测各技术的综合。利用编码激励线性预测技术(CELP)的语音编码算法在语音压缩领域已经相当流行。
图1显示CELP初始语音编码器,利用综合分析法,综合语音102和原始语音101之间的加权误差109被减到最小,即最小化113。W(z)是加权滤波器110。它对误差信号111进行加权滤波处理。1/B(z)是长项预测滤波器105,1/A(z)是短项预测滤波器,标为103。编码激励108,又被称作固化码本(fixed codebook)激励,在通过线性滤波器前乘于增益Gc(标为106)。短项预测线性滤波(标为103)通过分析原始信号101完成,并由一个线性预测系数集合表示:
A ( z ) = Σ i = 1 P 1 + a i · z - i , i = 1,2 , . . . , P - - - ( 1 )
加权滤波器(110)涉及和用到上面的短项预测滤波。一个典型的加权滤波器可表示为:
W ( z ) = A ( z / α ) A ( z / β ) , - - - ( 2 )
其中β<α,0<β<1,0<α≤1。长项预测(105)取决于基音周期和基音周期增益;
对基音周期的估计基于原始信号、残留信号或者加权原始信号。长项预测函数可表示为:
B(z)=1-β·z-Pitch            (3)
编码激励(108)通常由类似脉冲的信号或类似噪音的信号构成,这些信号可用数学方法实时产生或者存到码本中。最后,将编码激励指数,量化的增益指数,量化的长项预测参数指数和量化的短项预测参数指数传到解码器中。
图2显示初始的语音解码器,在综合语音后添加后处理单元207。解码器由编码激励201、长项预测203、短项预测205、后期处理207等几个单元组成。除后期处理单元,其它都和图1中的编码器定义相同。后期处理单元由短项后期处理和长项后期处理组成。
图3显示基本的CELP编码器。它和图1的唯一不同之处在于用含有过去的综合激励304的自适应码本307来实现长项预测。语音的基音周期信息用来产生相应的自适应激励分量。这一激励分量将乘于一增益Gp(标为305)(也称作周期增益)。两个由增益控制幅度的激励分量在通过短项预测滤波器(标为303)前被加到一起。这两个增益变量(Gp和Gc306)需量化,然后送到解码器。自适应码本307激励分量和固化码本308激励分量加在一起产生总的激励e(n)。
图4显示基本的CELP解码器,它完全对应于图3中的编码器,但在综合语音407后添加了后处理单元408。这个解码器除自适应码本外,其它类似于图2。解码器也由几个单元组成,包括编码激励402、自适应码本401、短项预测406和后期处理408。除了后期处理单元,每个单元都和图3中的编码器有相同的定义。
固化码本激励308的产生方式有一个很长历史。编码激励产生的设计受三个主要因素的影响。第一个是感性质量;第二个是计算的复杂性;第三个是所需存储空间的大小。激励的最初模型由随机的噪声激励组成。噪声激励可以产生高质量的清音语音,但浊音语音的质量却不尽人意。另一个流行的激励模型是脉冲激励,像多脉冲激励,其中每个可能脉冲的脉冲位置和幅度都需要编码并发送到解码器。该脉冲激励可以产生高质量的浊音语音。另一种变型的脉冲激励模型(ACELP激励模型或者二元激励模型)在工作时每个脉冲位置指数都需要发送到解码器;但除了需要发送到解码器的幅度符号(+1或-1)外,所有幅度都赋予常数值1。这是目前最流行的一种激励模型,应用于多个国际标准中。
增益量化系统可分类为标量量化(SQ)和矢量量化(VQ);也可分类为直接量化和非直接量化;还可分为预测量化和非预测量化;更进一步,可以将上述方法相互组合。标量量化(SQ)意思是每个参数独立量化。矢量量化(VQ)意思是参数组联合量化,这需要参照先期存储的码本表,从参数表中选出最优的矢量量化参数,从而受益于参数间的相关性。直接量化系统是将两个增益(Gp305和Gc306)直接量化。非直接量化是将两个增益参数转化为另一组参数,再将这组参数量化;量化指数要传给解码器;解码器再将这组参数变回到原来形式。预测性量化用以前的量化参数来预测当前的参数,并且仅仅对参数不可预测部分进行量化。这种预测可以减少量化这些参数所需的比特数;但是在传输中有比特流包丢失时会造成错误传播延长。
发明内容
本发明的目的是为了克服上述现有技术中的不足之处,提出一个改进的增益量化系统,它能够在丢包后快速地恢复到正确的激励能量,改进语音丢包后的修补质量,有效地减少错误传播的增益量化系统用于改进语音丢包修补质量的方法。
本发明的增益量化系统用于改进语音丢包修补质量的方法,可以为语音信号或普通信号编解码,编码系统包含两个激励元或两个激励分量;一个激励元通过增益(标为Gp)控制能量,这一激励元称为自适应码本激励,基音周期激励或者称为由以前综合激励贡献的激励;另一个激励元通过增益(标为Gc)控制能量,这一激励元称为固化码本激励或者当前贡献的激励;其特征在于两个增益值(Gp和Gc)首先被转化为另两个参数,一个表示全部的激励能量,另一个表示自适应激励的能量部分占全部激励能量的比重;这两个变换后的参数可标为{Ee,Rp}。
所述编码系统包含CELP技术。
所述激励的总能量可以用激励的平均能量来表示;
所述激励的总能量可以用激励的平均能量幅值来表示;
所述激励的总能量可以用激励能量的和来表示;
所述激励的能量比是指激励元之一的能量相对总能量的比值。
所述激励的能量比是指激励元之一的能量幅值相对总能量幅值的比值。
所述方法进一步包含以下几步:在编码器中量化变换后的参数{Ee,Rp};发送量化指数到解码器;在解码器将量化参数算回到原始增益(Gp和Gc)。
本发明使用增益量化系统进行改进语音丢包修补质量的方法,主要是先将两个增益(Gp和Gc)转化为两个特殊的参数:一个表示全部的激励能量,另一个表示自适应激励的能量部分占全部激励能量的比值。然后,将转化后的参数量化,送到解码器。在解码端将这两个参数恢复为原始增益形式(Gp和Gc)。具有能够在丢包后快速地恢复到正确的激励能量,改进语音丢包后的修补质量,有效地减少错误传播等优点。
附图说明
图1是初始CELP语音编码器方框图;
图2是初始CELP语音解码器方框图;
图3是基本的CELP编码器方框图;
图4是基本的CELP解码器方框图;
图5是一种比特流包丢失示例的示意图。
具体实施方式
结合附图对本发明作进一步描述如下:
以下的描述包括了相关的编码激励线性预测技术CELP的详细信息。同时,熟悉相关技术的人会发现本方法可以实践于其它各种不同的语音编码技术算法中,而非只局限于本文所讨论的应用。此外,为了突出本发明的特性,本文对一些本技术领域内的一般性知识细节并没有讨论。
本文附图及其附带说明也只是针对本发明的一些举例。为了简明扼要,其它应用本发明的相关方法的实体将不一一详细叙述或给出图示。
图3举了一个能说明本发明的编码器示例。参照图3和图4,对短项预测滤波器303的总激励是由二个分量组成。一个来自于自适应码本307。另一个来自于编码激励108;编码激励又被称作固化码本(fixed codebook)激励。长项预测在浊音编码中扮演着重要角色,这是由于浊音的强周期性。同时,相邻的语音基音周期非常相似,这就导致下面表达式中激励的基音周期增益Gp 305数值上很高。编码激励分量无论对浊音还是清音都很重要。组合后的总激励可表达为:
e(n)=Gp·ep(n)+Gc·ec(n)        (4)
上式中ep(n)是以n为取样序数的一个子帧,它从包含过去激励304的自适应码本307得来;ec(n)来自于作用于当前激励的编码激励码本308(又叫固化码本fixed codebook)。对于浊音,ep(n)的作用更显著,周期增益Gp 305是一个1附近的值。一般情况下激励每一子帧更新一次。典型的帧长为20毫秒;子帧长为5毫秒。
固化码本激励308的产生方式有一个很长历史。编码激励产生的设计受三个主要因素的影响。第一个是感性质量;第二个是计算的复杂性;第三个是所需存储空间的大小。激励的最初模型由随机的噪声激励组成。噪声激励可以产生高质量的清音语音,但浊音语音的质量却不尽人意。另一个流行的激励模型是脉冲激励,像多脉冲激励,其中每个可能脉冲的脉冲位置和幅度都需要编码并发送到解码器。该脉冲激励可以产生高质量的浊音语音。另一种变型的脉冲激励模型(ACELP激励模型或者二元激励模型)在工作时每个脉冲位置指数都需要发送到解码器;但除了需要发送到解码器的幅度符号(+1或-1)外,所有幅度都赋予常数值1。这是目前最流行的一种激励模型,应用于多个国际标准中。
增益量化系统可分类为标量量化(SQ)和矢量量化(VQ);也可分类为直接量化和非直接量化;还可分为预测量化和非预测量化;更进一步,可以将上述方法相互组合。标量量化(SQ)意思是每个参数独立量化。矢量量化(VQ)意思是参数组联合量化,这需要参照先期存储的码本表,从参数表中选出最优的矢量量化参数,从而受益于参数间的相关性。直接量化系统是将两个增益(Gp 305和Gc 306)直接量化。非直接量化是将两个增益参数转化为另一组参数,再将这组参数量化;量化指数要传给解码器;解码器再将这组参数变回到原来形式。预测性量化用以前的量化参数来预测当前的参数,并且仅仅对参数不可预测部分进行量化。这种预测可以减少量化这些参数所需的比特数;但是在传输中有比特流包丢失时会造成错误传播延长。
本发明将提出一个改进的量化系统,它能够在丢包后快速地恢复到正确的激励能量,有效地减少错误传播。
图3中显示,激励可以表示成(4)式。对于浊音语音,来自于自适应码本的ep(n)的作用非常显著,所以,增益Gp是一个1附近的值,其能量比||Gp·ep(n)||2/||e(n)||2相对较高。对于清音语音,来自于固化码本的ec(n)作用更显著,其能量比||Gc·ec(n)||2/||e(n)||2也相对较高。如果增益(Gp和Gc)是直接量化的,在前一个语音包发生丢失的情况下,尽管当前的包已经正常,当前直接量化增益(Gp和Gc)也正确,但当前激励e(n)的能量可能要大大偏离正确值。这是因为当前的自适应激励分量ep(n)仍然是前一个丢包后激励的估计。而造成错误能量估计的另一个原因之一是ep(n)和ec(n)的对应关系在语音包丢失后发生了改变。在发生丢包后,为了快速恢复正确的激励能量和自适应激励的比重,先将两个增益(Gp和Gc)转化为两个特殊的参数:一个表示全部的激励能量,另一个表示自适应激励的能量部分占全部激励能量的比重。
从等式(4)出发,e(n)是长为L_sub的一个子帧激励,其总能量可以用相应的平均能量来表示:
E ‾ e = | | e ( n ) | | 2 / L _ sub
= { G p 2 &CenterDot; | | e p ( n ) | | 2 + 2 &CenterDot; G p &CenterDot; G c &CenterDot; < e p ( n ) , e c ( n ) > + G c 2 &CenterDot; | | e c ( n ) | | 2 } / L _ sub
= G p 2 &CenterDot; A + G p &CenterDot; G c &CenterDot; B + G c 2 &CenterDot; C - - - ( 5 )
其中,
A=||ep(n)||2/L_sub,
B=2·<ep(n),ec(n)>/L_sub,
C=||ec(n)||2/L_sub
以上各式中A、B、C的值在增益量化以前已经确定。能量参数也可简单地定义为激励能量的和:
E &OverBar; e = { G p 2 &CenterDot; | | e p ( n ) | | 2 + G c 2 &CenterDot; | | e c ( n ) | | 2 } / L _ sub
= G p 2 &CenterDot; A + G c 2 &CenterDot; C - - - ( 6 )
第二个转化了的参数表示两个激励元各自所占能量的比重,定义为:
R p = G p 2 &CenterDot; A / E &OverBar; e
or
R p = G c 2 &CenterDot; C / E &OverBar; e - - - ( 7 )
用方程组{(5),(7)}或{(6),(7)},原始增益参数{Gp和Gc}被转化成另外两个参数{Ee,Rp},然后被量化并送到解码器。{Ee,Rp}的量化可基于SQ或VQ,在直接域或dB域量化。{Ee,Rp}量化后,量化指数送到解码器;在解码端,由(7)式回算Gp;由(5)式或(6)式回算Gc。由于是变换后的参数{Ee,Rp}被量化并送到解码器,在丢包帧后紧跟的正确帧中,分别由参数{Ee,Rp}表示的激励能量和激励周期性能得到维持;因此一旦收到正确包后,将迅速恢复正确的激励能量(见图5)和周期性。图5中501为丢失帧;502为丢失帧的后继不丢失帧;正确的激励能量在502帧中迅速恢复正确。
下面是两个转化后参数的量化表示例:
Rp:{0.010000,0.066667,0.133333,0.200000,0.266667,0.333333,0.400000,0.466667,0.533333,0.600000,0.666667,0.733333,0.800000,0.866667,0.933333,0.980000};
Ee:{0.100000,0.309747,0.715438,1.246790,1.942727,2.854229,4.048066,5.611690,7.659643,10.341944,13.855080,18.456401,24.482967,32.376247,42.714448,56.254879,73.989421,97.217189,127.639694,167.485488,219.673407,288.026391,377.551525,494.806824,648.381632,849.525815,1112.973860,1458.024216,1909.952975,2501.865431,3277.121151,4292.510210,5622.413252,7364.250123,9645.616199,12633.629177,16547.170999,21672.921696,…..}.
本发明可以有其他具体的不偏离其精髓或本质特征的表现形式。文中所述的实例也只是具有说明性的而非严格限制性的意义。因此,较前面的叙述,后面的附加权利要求更明显地体现了本发明的范围。全部与权利要求的意义等价的变化都包含在这权利要求的范围内。

Claims (8)

1、一种增益量化系统用于改进语音丢包修补质量的方法,可以为语音信号或普通信号编解码,编码系统包含两个激励元或两个激励分量;
一个激励元通过增益(标为Gp)控制能量,这一激励元称为自适应码本激励,基音周期激励或者称为由以前综合激励贡献的激励;
另一个激励元通过增益(标为Gc)控制能量,这一激励元称为固化码本激励或者当前贡献的激励;
其特征在于两个增益值(Gp和Gc)首先被转化为另两个参数,一个表示全部的激励能量,另一个表示自适应激励的能量部分占全部激励能量的比重;
这两个变换后的参数可标为{Ee,Rp}。
2、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法,其特征在于所述编码系统包含CELP技术。
3、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法,其特征在于所述激励的总能量可以用激励的平均能量来表示;
4、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法,其特征在于所述激励的总能量可以用激励的平均能量幅值来表示;
5、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法,其特征在于所述激励的总能量可以用激励能量的和来表示;
6、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法,其特征在于所述激励的能量比是指激励元之一的能量相对总能量的比值。
7、如权利要求1所述的增益量化系统用于改进语音丢包修补质量的方法,其特征在于所述激励的能量比是指激励元之一的能量幅值相对总能量幅值的比值。
8、如权利要求1中所述的增益量化系统用于改进语音丢包修补质量的方法,其特征在于该方法进一步包含以下几步:在编码器中量化变换后的参数{Ee,Rp};发送量化指数到解码器;在解码器将量化参数算回到原始增益(Gp和Gc)。
CN2007101942753A 2006-12-26 2007-12-12 增益量化系统用于改进语音丢包修补质量的方法 Active CN101286320B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US87717306P 2006-12-26 2006-12-26
US60/877,173 2006-12-26

Publications (2)

Publication Number Publication Date
CN101286320A true CN101286320A (zh) 2008-10-15
CN101286320B CN101286320B (zh) 2013-04-17

Family

ID=40058483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101942753A Active CN101286320B (zh) 2006-12-26 2007-12-12 增益量化系统用于改进语音丢包修补质量的方法

Country Status (1)

Country Link
CN (1) CN101286320B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
JP4003240B2 (ja) * 1996-11-07 2007-11-07 松下電器産業株式会社 音声符号化装置及び音声復号化装置
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
US6397178B1 (en) * 1998-09-18 2002-05-28 Conexant Systems, Inc. Data organizational scheme for enhanced selection of gain parameters for speech coding
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames

Also Published As

Publication number Publication date
CN101286320B (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
CA2556797C (en) Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx
JP6201043B2 (ja) エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法
CA2666546C (en) Method and device for coding transition frames in speech signals
US20090306992A1 (en) Method for switching rate and bandwidth scalable audio decoding rate
JP3602593B2 (ja) 音声エンコーダ及び音声デコーダ、並びに音声符号化方法及び音声復号化方法
US20080275709A1 (en) Audio Encoding and Decoding
Jelinek et al. Wideband speech coding advances in VMR-WB standard
Vaillancourt et al. ITU-T EV-VBR: A robust 8-32 kbit/s scalable coder for error prone telecommunications channels
US7024354B2 (en) Speech decoder capable of decoding background noise signal with high quality
KR102138320B1 (ko) 통신 시스템에서 신호 코덱 장치 및 방법
KR20130069546A (ko) 씨이엘피 부호기 및 복호기에 사용하기 위한 가요성 및 스케일러블 조합형 이노베이션 코드북
CN101609681B (zh) 编码方法、编码器、解码方法及解码器
CN101622667A (zh) 用于分层编解码器的后置滤波器
US8175870B2 (en) Dual-pulse excited linear prediction for speech coding
CN101651752B (zh) 解码的方法及装置
CN101286320A (zh) 增益量化系统用于改进语音丢包修补质量的方法
Tzeng Analysis-by-synthesis linear predictive speech coding at 2.4 kbit/s
US7133823B2 (en) System for an adaptive excitation pattern for speech coding
US8000961B2 (en) Gain quantization system for speech coding to improve packet loss concealment
Jelínek et al. Itu-t G. EV-VBR baseline codec
Eksler et al. Glottal-shape codebook to improve robustness of CELP codecs
Kim et al. A 4 kbps adaptive fixed code-excited linear prediction speech coder
JPH034300A (ja) 音声符号化復号化方式
JPH08123493A (ja) 符号励振線形予測音声符号化装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: HUAWEI TECHNOLOGIES CO., LTD.

Free format text: FORMER OWNER: GAO YANG

Effective date: 20121205

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; TO: 518129 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20121205

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Applicant after: Huawei Technologies Co., Ltd.

Address before: 26586 Vee E San Torini, California, USA

Applicant before: Gao Yang

C14 Grant of patent or utility model
GR01 Patent grant