CN1112671C - 综合分析语音编码器中噪声隐蔽电平适应性修改方法 - Google Patents

综合分析语音编码器中噪声隐蔽电平适应性修改方法 Download PDF

Info

Publication number
CN1112671C
CN1112671C CN96105872A CN96105872A CN1112671C CN 1112671 C CN1112671 C CN 1112671C CN 96105872 A CN96105872 A CN 96105872A CN 96105872 A CN96105872 A CN 96105872A CN 1112671 C CN1112671 C CN 1112671C
Authority
CN
China
Prior art keywords
frequency spectrum
parameter
value
short
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN96105872A
Other languages
English (en)
Other versions
CN1138183A (zh
Inventor
史蒂芬·普罗斯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN1138183A publication Critical patent/CN1138183A/zh
Application granted granted Critical
Publication of CN1112671C publication Critical patent/CN1112671C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Abstract

在应用带有传递函数W(z)=A(z/γ1)/A(z/γ2)的短期感觉加权滤波器综合分析语音编码器中,基于在短期线性预测分析中获得的频谱参数对频谱扩张系数γ1与γ2的数值进行动态适应性修改。用于这一适应性修改的频谱参数可特别包括表示语音信号频谱的整体斜率的参数,以及表示短期综合滤波器谐振特性的参数。

Description

综合分析语音编码器中 噪声掩蔽电平适应性修改方法
本发明涉及应用综合分析技术的语音编码。
综合分析语音编码方法通常包括以下步骤:
-对按逐次帧数字化的P阶语音信号进行线性预测分析,以便判定确定短期综合滤波器的参数;
-对确定施加到短期综合滤波器上的激励信号的激励参数进行判定,以便产生表示语音信号的合成信号,其中至少一些激励参数是以至少一个感觉加权滤波器通过对语音信号与合成信号之间的差的滤波所产生误差信号的能量进行最小化而判定的;以及
-产生确定短期综合滤波器的参数及激励参数的量化数值。
通过线性预测所得到的短期综合滤波器的参数表示声域的传递函数和输入信号的频谱特性。
对于施加到短期综合滤波器的激励信号有各种能够在各级综合分析编码器之间进行区分的建模方法。在很多流行的编码器中,激励信号包含由长期综合型滤波器或者由自适应代码薄技术所综合的长期成分,该成分使得能够发掘诸如元音这样的由于声带振动而产生的语音的长期周期性。在CELP编码器(″Code ExcitedLinear Prediction″,见M.R.Schroeder和B.C.Atal:″Code-Excited Linear Prediction(CELP):High Quality Speech at VeryLow Bit Rates″,proc.ICASSP’85,Trampa,1985年3月,第937-940页)中,剩余激励是通过一个从统计代码薄所抽取以及由一个增益所放大的波形模示的。CELP编码器使得能够在通常的电话频带中把所需的数字位率从64kbit/s(普通的PCM编码器)减少到16kbit/s(LD-CELP编码器),甚至对于最近的大多数编码器减少到8kbit/s,而不会降低语音的质量。现在这些编码器通常用于电话传输,但是它们提供了许多其它的用途诸如存储,宽带电话或者卫星传输。在可使用本发明的综合分析编码器的其它例子中要特别提到MP-LPC编码器(Multi-Pulse Linear PredictiveCoding,见B.S.Atal和J.R.Remde:″A New Model of LPCExcitation for Producing Natural-Souding Speech at Low BitRates″,Proc.ICASSP’82,巴黎,1982年5月,第1卷,第614-617页),其中剩余激励由带有指定给它的各自增益的可变位脉冲模示,以及VSELP编码器(Vector-Sum Excited Linear Predic-tion,见I.A.Gerson和M.A.Jasiuk,″Vector-Sum Excited Lin-ear Prediction(VSELP)Speech Coding at 8 kbits/s″,Proc.ICASSP’90 Albuquerque,1990年4月,第l卷,第461-464页),其中激励是由从各个代码薄所抽取的脉冲向量的线性组合模示的。
编码器对使合成信号与原始语音信号之间的感觉上的加权误差最小化的“闭环”过程中的剩余激励进行评价。已经知道感觉加权可根据直接极小化均方差来显著改进合成语音的主观感觉。短期感觉加权之要点是在极小化的误差准则的范围以内减小其中信号电平比较高的语音频谱区域的重要性。换言之,如果其频谱,即一个优先平坦部分(priori flat),被成形使得它能够在格式区域之内比在格式之间的区域内接收到更多的噪声,则由听觉器所感觉到的噪声被减小。为了达到这一点,短期感觉加权滤波器常常具有形式为
W(z)=A(z)/A(z/γ)
的传递函数,其中 A ( z ) = 1 - Σ i = 1 P a i z - i 系数ai为线性预测分析步骤中获得的线性预测系数,γ表示0与1之间的一个频谱扩张系数。这一加权公式是由B.S.Atal与M.R.Schroeder提出的:″Predictive Coding of Speech Signals andSubjective Error Criteria″,IEEE Trans.on Acoustics,Speech,and Signal Processing,Vol.ASSP-27,No.3,1979年6月,第247-254页。对于γ=1,则没有掩蔽:对合成信号进行方差的极小化。如果γ=0,则是全掩蔽:对剩余进行极小化,并且编码噪声具有和语音信号同样的频谱包络。
广义来说在于为感觉加权滤波器选择一个形式为
       W(z)=A(z/γ1)/A(z/γ2)的传递函数,γ1,γ2表示频谱扩张系数,使得0≤γ2≤γ1≤1。见J.H.Chen和A.Gersho:″Real-Time Vector APC Speech Coding at4800 Bps with Adaptive Postfiltering″,Proc.ICASSP’87,1987年4月,第2185-2188页。应当注意,当γ1=γ2时,没有掩蔽,而当γ1=1并且γ2=0时,为全掩蔽。频谱扩张系数γ1与γ2确定所需的噪声掩蔽水平。太弱的掩蔽使得固定粒状量化噪声成为可感觉到的。而过强的掩蔽则影响格式的形状,这时失真变得高度可听到。
在最强有力的当前的编码器中,也通过涉及感觉加权滤波器的闭环过程对于每一帧或者子帧确定包含LTP延时和可能的相位(分数延时)或者一组系数(多抽头LTP滤波器)的长期预测器的参数。
在一些编码器中,发掘语音信号短期模型并规定噪声格式分布的感觉加权滤波器W(z)被补充以一个谐波加权滤波器,该滤波器在对应于谐波的峰值中增加噪声的能量并在这些峰值之间减小该能量,和/或被补充以一个斜率校正滤波器,用于防止在高频下,特别是在宽带应用中非掩蔽噪声的出现。本发明主要是关于短期感觉加权滤波器W(z)的。
短期感觉滤波器频谱扩张系数γ、或γ1与γ2的选择通常是借助于主观测试进行优化的。继而这一选择被固定。然而,本申请人已经观察到,频谱扩张系数的优化值可能根据输入信号的频谱特性而经受相当大的变化。因而所作的选择构成了一种或多或少满意的折衷办法。
本发明的目的是为了通过对感觉加权滤波器进行较好的特征刻划,提高被编码信号的主观质量。另一目的是为了使编码器的性能对于各种类型的输入信号更为均匀。又一目的是为了使这种改进并不需要明显的更多的复杂性。
于是本发明关系到开始时指出的类型的综合分析语音编码方法,其中感觉加权滤波器具有如前所示的一般公式W(z)=A(z/γ1)/A(z/γ2),并且其中基于在线性预测分析步骤中所获得的频谱参数对频谱扩张系数γ1,γ2中至少一个系数的数值作适应性修改。
使得感觉加权滤波器的系数γ1与γ2具有适应性,有可能为输入信号的各种频谱特性而优化编码噪声掩蔽电平,这些频谱特性可能依赖拾取的声音特性,话音的各种特性或者强背景噪声的出现(例如移动无线电话中的汽车噪声)而有显著的变化。增加了所感觉到的主观质量并使得编码性能对于各种类型的输入更为均匀。
基于其对频谱扩张系数中至少一个系数的数值作适应性修改的频谱参数最好包括表示语音信号频谱的整体斜率的至少一个参数。语音频谱在低频(大约基频范围是从成年男低音的60Hz起到童音的500Hz)下平均具有更多的能量,因而一般是一下降的斜率。然而,成年的男低音将具有多得多的被衰减的高频,因而具有一个较大斜率的频谱。由声音拾取系统所施加的前置滤波对这一斜率有很大影响。通常的电话手机进行高通前置滤波,称为IRS,这相当大地降低了这一斜率的作用。然而,在一些更近期的装置中通过对比所进行的“线性”输入保留了低频的全部重要性。弱掩蔽(γ1与γ2之间小的差距)与信号的斜率相比太多地降低了感觉滤波器的斜率。如果信号在高频具有小的能量,则高频的噪声电平余留得大而变得大于信号自身。耳朵感觉到高频未掩蔽的噪声,所有这种噪声由于常常具有谐波特性而造成更多的烦扰。滤波器斜率简单的校正不适于满意地对于能量差建模。对考虑语音频谱的总体斜率频谱扩张系数作适应性修改,能够使这一问题得到较好的处理。
最好是借以对频谱扩张系数中至少一个系数作适应性修改的频谱参数还包括至少一个表示短期综合滤波器(LPC)的谐振特性的参数。在电话频带中语音信号具有多达四个或者五个格式。刻划频谱轮廓的这些“凸起”一般是相当圆滑的。然而,LPC分析可能导致接近不稳定的滤波器。这时对应于LPC滤波器的频谱包含在小带宽范围内具有大能量的相当显著的高峰。掩蔽越大,则噪声频谱越是接近LPC频谱。可是,噪声分布中能量高峰的出现是很麻烦的。这将在相当大的能量区域内产生格式电平的失真,在这些区域中造成的破坏是明显可感觉到的。这时本发明有可能在LPC滤波器的谐振特性增加时降低掩蔽电平。
当短期综合滤波器由线性频谱参数或者频率(LSP或者LSF)表示时,则借以对γ1与/或γ2的数值进行适应性修改的表示短期综合滤波器谐振特性的参数可能是两个顺序的线谱频率之间的最小距离。
本发明的其它特点和优点将在以下较佳的但是并非限定性的示范性实施方式的参照附图的说明中显现,这些附图是:
-图1和2是能够实现本发明CELP解码器以及CELP编码器的示意性布局;
-图3是估算感觉加权过程的流程图;以及
-图4是函数log[(l-r)/(l+r)]的曲线图。
以下就其在CELP型语音编码器的应用对本发明进行说明。然而应当明白,本发明也可用于其它类型的综合分析编码器(MP-LPC,VSELP…)。
CELP编码器和CELP解码器中实现的语音综合过程示于图1中。激励产生器10响应指数k,传送属于预定编码薄的一激励代码Ck。放大器12以激励增益β放大这一激励代码,所得的信号经受长期综合滤波器14的作用。从滤波器14所输出的信号u又经受短期综合滤波器16的作用,来自该滤波器的输出,构成在此当作综合语音信号的信号。当然,正如语音编码领域中所熟知的,其它滤波器,例如后置滤波器,也可以解码器的电平实现。
上述信号是以例如等于8kHz的采样速率由例如16位字所表示的数字信号。综合滤波器14,16为一般的纯递归滤波器。长期综合滤波器14通常具有形式为1/B(z)的传递函数,其中B(z)=1-Gz-T。延时T和增益G构成可由该编码器适应地确定的长期预测(LTP)参数。短期综合滤波器16的LPC参数在该编码器由语音信号的线性预测确定。于是滤波器16的传递函数的形式为1/A(z),其中 A ( z ) = 1 - Σ i = 1 P a i z - i 在p(通常p≈10)阶的线性预测的情形下,ai表示第i个线性预测系数。
这里,“激励信号”指施加到短期综合滤波器14的信号u(n)。这一激励信号包含一个LTP成分G.u(n-T)和一个剩余成分,或者新息序列,βCk(n)。在综合分析编码器中,刻划剩余成分以及任选LTP成分的参数是应用感觉加权滤波器在闭环中估算的。
图2表示CELP编码器的布局。语音信号s(n)是一个数字信号,例如由模/数转换器20提供,该模/数转换器20处理被放大的和被滤波的话筒22的输出信号。信号s(n)作为其本身被分为L个样本的子帧,或者激励帧的Λ个样本的相继帧而被数字化(例如Λ=240,L=40)。
LPC、LTP及EXC参数(指数k及激励增益β)分别通过三个分析模块24、26及28以编码器电平获得。然后这些参数按已知的方式以有效的数字传输为目的而被量化,之后经受多路复用器30的作用,以形成从该编码器输出的信号。这些参数还供给模块32,以计算该编码器的一些滤波器的原始状态。这一模块32主要包括如图1中所表示的解码链。如同该解码器,模块32是基于量化的LPC、LTP及EXC参数工作的。如果LPC参数的内插计算如通常那样在解码器进行,则类似的内插计算是由模块32执行的。模块32以编码器电平给出了该解码器的综合滤波器14、16的早期状态的消息,这些状态是基于综合及激励参数在考虑子帧之前确定的。
在编码过程的第一步骤中,短期分析模块24通过分析语音信号s(n)的短期相关性而确定LPC参数(短期综合滤波器的系数ai)。这一确定例如是Λ个样本的每个帧进行一次,其方式是要适应语音信号频谱内容的变化。LPC分析方法在本技术界是熟知的。例如可参考著作″Digital Processing of Speech Signals″by L.R.Rabiner和R.W.Shafer,Prentice-Hall Iht.,1978。这一著作特别描述了Durbin算法,该算法包含以下步骤:
-在包含当前帧的,以及如果该帧的长度小(例如为20到30ms)可能还包括早期样本的分析窗口上估算语音信号s(n)的自相关R(i)(0≤i<p): R ( i ) = Σ n = i M - 1 s * ( n ) · s * ( n - i ) 其中M≥Λ以及s*(n)=s(n)·f(n),f(n)表示长度M的窗口函数,例如矩形函数或者Hamming函数;
-系数ai的递归估算:
    E(0)=R(0)对于i从1到p,计算 r i = [ R ( i ) - Σ j = 1 i - 1 a j ( i - 1 ) . R ( i - j ) ] / E ( i - 1 )
ai (i)=ri
E(i)=(1-ri 2)·E(i-1)对于j从1到i-1计算
aj (i)=aj (i-1)-ri·ai-j (i-1)
系数ai取为等于在最后迭代中获得的ai (p)。量E(p)是残余预测误差的能量。处于-1与1之间的系数ri,称为反射系数。它们常常由对数-面积-比率LARi=LAR(ri)表示,函数LAR由LAR(r)=log10[(1-r)/(1+r)]定义。
LPC参数的量化可直接对于参数ai,对于反射参数ri或者对于对数-面积-比率LARi进行。另一可能性是量化线谱参数(LSP代表“线谱对”,或者LSF代表“线谱频率”)。被规范到0与π之间的p个线谱频率ωi(1≤i≤p)使得复数1,exp(jω2),exp(jω4),…,exp(jωp),为多项式P(z)=A(z)-z-(p+1)A(z-1)的根,以及复数exp(jω1),exp(jω3),…,exp(jωp-1),与-1为多项式Q(z)=A(z)+z-(p+1)A(z-1)的根。量化可对于规范化的频率ωi或者对于它们的余弦进行。
模块24可根据Durbin经典算法进行LPC分析,该算法曾在上面引证以定义实现本发明中有用的量值ri,LARi及ωi。使用另一些在比较近期研究的提供相同结果的算法则有优越性,特别是Levinson的分割算法(见″A new Efficient Algorithm to Computethe LSP Parameters for Speech Coding″,by S.Saoudi,J.M.Boucher和A.Le Guyader,Signal Processing,第28卷,1992年,第201-212页),或者使用Chebyshev多项式(见″The Coputationof Line Spectrum Frequencies Using Chebyshev Polinomials″,byP.Kabal and R.P.Ramachandran,IEEE Trans.on Acoustics,Speech,and Signal processing,Vol.ASSP-34,No.6,第1419-1426页,1986年12月)。
编码的下一个步骤在于确定长期预测LTP参数。这些参数是例如L个样本的每一个子帧确定一次。减法器34从语音信号s(n)减去短期综合滤波器16的响应到零输入信号。这一响应由滤波器36使用传递函数1/A(z)确定,其系数由模块24所确定的LPC参数给出,并且其初始状态,由模块32提供,使它们对应于综合信号的最后p个样本。来自减法器34的输出信号经受感觉加权滤波器38的作用,该滤波器的作用是加重其中误差最能够感觉出的频谱部分,即格式之间的区域。
感觉加权滤波器的传递函数W(z)具有一般形式:W(z)=A(z/γ1)/A(z/γ2),其中γ1及γ2为频谱扩张系数,使0≤γ2≤γ1≤1。本发明基于由LPC分析模块24所确定的频谱参数提出动态地适应γ1与γ2的数值。这一适应是由模块39进行的以便根据进一步描述的处理过程估算感觉加权。
感觉加权滤波器可被看作是p阶全极点滤波器序列中的顺序,其传递函数为: 1 / A ( z / γ 2 ) = 1 / [ Σ I = 0 p b i z - i ]
其中b0=1及bi=-aiγ2 i对于0<i≤p,并可作为p阶全零滤波器的顺序,其传递函数为: A ( z / γ 1 ) = Σ i = 0 p c i z - i 其中c0=1及ci=-aiγ1 i对于0<i≤p。模块39这样对于每一帧计算出系数bi与ci并将它们提供给滤波器38。
由模块26所进行的闭环LTP分析在于按普通方式对每一子帧选择延时T,该延时使得下面规范化的相关函数达到最大值: [ Σ n = 0 L - 1 x ′ ( n ) · y T ( n ) ] 2 / [ Σ n = 0 L - 1 [ y T ( n ) ] 2 ] 其中x’(n)表示在相关子帧期间从滤波器38输出的信号,而yT(n)表示卷积乘积u(n-T)*h’(n)。以上表达式中,h’(0),h’(1),…,h’(L-1)表示被加权的综合滤波器的脉冲响应,传递函数为W(z)/A(z)。这一脉冲响应h’是基于由模块39所提供的系数bi及ci以及对于子帧确定的LPC参数,通过用于计算脉冲响应的模块40而获得的,如果必要则是在量化和内插之后进行。样本u(n-T)是由模块32提供的长期综合滤波器14的较早状态。就小于子帧的长度的延时T来说,遗漏的样本u(n-T)是通过基于较早的样本的内插或者是从语音信号而获得的。延时T为整数或者分数,是从一个例如20到143个样本的范围的指定窗口选择的。为了减小闭环搜索范围,并因而减小要计算的卷积yT(n)的数目,例如可首先每一帧一次地确定样品的一个开环延时T’,并然后对于每一子帧在T’左右的降低了的区间中选择闭环延时。开环搜索更是只在于对可能是由反向滤波器以传递函数A(z)滤波的语音信号s(n)的自相关函数,确定使它成为最大的延时T’。一旦延时T已经确定,则长期预测增益G通过以下公式获得: G = [ Σ n = 0 L - 1 x ′ ( n ) · y T ( n ) ] / [ Σ n = 0 L - 1 [ y T ( n ) ] 2 ]
为了搜索与子帧相关的CELP激励,首先由减法器42从信号x’(n)中减去由模块26对于优化的延时T所计算的信号GyT(n)。所得到的信号x(n)经受背向(backward)滤波器44作用,该滤波器提供由以下公式给出的信号D(n): D ( n ) = Σ i = n L - 1 x ( i ) · h ( i - n )
其中h(0),h(1),…,h(L-1)表示由综合滤波器与加权滤波器形成的合成滤波器的脉冲响应,这一响应是由模块40计算的。换言之,该合成滤波器具有传递函数W(z)/[A(z)·B(z)]。于是在矩阵表示法中,我们有:
D=(D(0),D(1),…,D(L-1))=x·H其中x=(x(0),x(1),…,x(L-1))以及 H = h ( 0 ) 0 · · · 0 h ( 1 ) h ( 0 ) · · · · · · · h ( L - 2 ) · h ( 0 ) 0 h ( L - 1 ) h ( L - 2 ) · · h ( 1 ) h ( 0 )
向量D构成一个用于激励搜索模块28的目标向量。这一模块28从编码薄确定一个使规范化的相关Pk 2k 2最大化的编码字,其中
    Pk=D·Ck T
    αk 2=Ck·HT·H·Ck T=Ck·U·Ck T
优化的指标k已经被确定,激励增益β取作等于β=Pkk 2
参见图1,CELP解码器包括一个接收由编码器输出的二进制流的多路分解器8。EXC激励参数和LPT以及LPC综合参数的量化数值提供给产生器10,放大器12以及滤波器14,16,以便重构合成信号,该信号例如在被放大并然后施加到扬声器19之前,可通过转换器18转换为模拟信号以便存储原始语音。
借以对系数γ1和γ2进行适应修改的频谱参数一方面包括主要的两个反射系数r1=R(1)/R(0)以及r2=[R(2)-r1R(1)]/[(1-r1 2)R(0)],它们表示语音频谱的整体斜率;而另一方面包括线谱频率,其分布表示短期综合滤波器的谐振特性。当两个线谱频率之间的最小距离dmin降低时,短期综合滤波器的谐振特性增加。频率ωi按升序(0<ω1<ω2<…ωp<π)获得,我们有: d min = min 1 &le; i < p ( &omega; i + 1 - &omega; i )
通过在上面引证的Durbin算法的第一迭代停机,由传递函数1/(1-r1·z-1)产生语音频谱的粗近似值。因而在第一反射系数r1趋近1时,综合滤波器的整体斜率(通常为负值)在绝对值上趋于增加。如果通过增加迭代而继续分析到2阶,就以带有传递函数1/[1-(r1-r1r2)·z-1-r2·z-2)]的2阶滤波器达到不很粗糙的模式。当其极点趋向单位圆,即r1趋向1而r2趋向-1时,这一2阶滤波器的低频谐振特性增加。因而可断定,在r1趋向1而r2趋向一1时,语音频谱在低频具有相对大的能量(或者另一说法,相对大的负整体斜率)。
众所周知,语音频谱中的格式峰值导致几个线谱频率(2或者3)拥挤在一起,而该频谱的平坦部分是对应于这些频率的均匀分布的。因而在距离dmin降低时,LPC滤波器的谐振特性增加。
一般说来,在综合滤波器的低通特性增加时(r1趋向1而r2趋向-1),和/或在综合滤波器的谐振特性降低(dmin增加)时,采用较大的掩蔽(r1与r2之间较大的间隙)。
图3表示由模块39在每一帧所进行的用来估算感觉加权的操作的示例性的流程图。
在每一帧,模块39接收来自模块24的LPC参数ai,ri(或者LARi)以及ωi(1≤i≤p)。在步骤50,模块39通过对于ωi+1i,其中1≤i<p,的最小化估算两个相继线谱频率之间的极小距离dmin
基于表示帧上的整体频谱斜率的参数(r1与r2),模块39在N个级别P0,P1,…,PN-1中进行帧的分级。在图3的例子中,N=2。P1级对应于语音信号s(n)在低频相对高能的情形(r1相对接近1而r2相对接近-1)。因而,一般在P1级比在P0级采用较大的掩蔽。
为了避免级之间过于频繁的变换,基于r1与r2的数值引入了一些频滞。可这样规定:要从每一帧选择P1级,则该帧r1要大于正阈值T1而r2要小于负阈值-T2,而要从每一帧选择P0级则该帧r1要小于另一个正阈值T1’(T1’<T1)而r2要大于另一个负阈值-T2’(T2’<T2)。如果给定反射系数在±1附近的灵敏度,则这一频滞比较容易在对数-面积-比率LAP的域中看到(见图4),其中阈值T1,T1’,-T2,-T2’分别对应于阈值-S1,-S1’,S2,S2’。
在初始化时,默认的级例如为掩蔽最小的级(P0)。
在步骤52,模块39检查前面的帧是在P0级还是在P1之下来到的。如果前面的帧为P0级,则模块39在54测试条件{LAR1<-S1以及LAR2>S2},或者如果模块24供给反射系数r1与r2取代对数-面积-比率LAPL1,AP2,则测试等价条件{r1>T1与r2<-T2}。如果LAR1<-S1以及LAR2>S2,则进行到P1级的转换(步骤56)。如果测试54显示LAR1≥-S1或LAR2≤S2,则当前帧保持在P0级(步骤58)。
如果步骤52显示,前面的帧为P1级,模块39在60测试条件{LAR1>-S1’或者LAR2<S2’},或者如果模块24供给反射系数r1与r2取代对数-面积-比率LAR1,LAR2,则测试等价条件{r1<T1’或r2>-T2’}。如果LAR1>-S1’或者LAR2<S2’,则进行到P0级的转换(步骤56)。如果测试60显示LAR1≤-S1’以及LAR2≥S2’,则当前帧保持在P1级(步骤56)。
在图3所示的例子中,两个频谱扩张系数中的较大者r1在P0,P1级中各级中都具有不变的数值Г0,Г1,其中Г0≤Г1,并且另一个频谱扩张系数r2为线谱频率之间最小距离dmin的下降仿射函数:在P0级为r2=-λ0·dmin0,并在P1级为r2=-λ1·dmin1,其中λ0≥λ1≥0以及μ1≥μ0≥0。r2的数值也可以是有界限的以避免剧烈的变化:在级P0为Δmin,0≤r2≤Δmax,0,以及在级P1为Δmin,1≤r2≤Δmax,1。根据当前帧所取的级,模块39在步骤56或者58指定r1与r2的数值,然后在步骤62计算感觉加权因子的系数bi及ci
如前所述,模块24在其范围内计算LPC参数的Λ个样本的帧,常常被细分为用于确定激励信号的L个样本的子帧。一般说来,LPC参数的内插在子帧范围进行。在这种情形下,建议最好对于每一个子帧或者激励帧都借助于内插的LPC参数执行图3的过程。
本申请人已经在以8kbit/s操作的代数编码薄CELP编码器的情形下测试过用于对系数r1与r2进行适应性修改的过程,为此按每10ms帧(Λ=80)计算LPC参数。这些帧中的每一个被分为用于搜索激励信号的两个5ms子帧(L=40)。对于一个帧所获得的LPC滤波器被用于这些子帧中的第二个。对于第一个子帧,在这一滤波器与前面的帧所获得的滤波器之间的一个LSF域中进行内插。以子帧的速率施加用于适应性地修改掩蔽电平的过程,对用于第一子帧的LSFωi以及反射系数r1与r2进行内插。图3所示的过程已经以按以下数值应用:S1=1.74;S1’=1.52;S2=0.65;S2’=0.43;Г0=0.94;λ0=0;μ0=0.6;Г1=0.98;λ1=6;μ1=1;Δmin,1=0.4,Δmax,1=0.7,频率ωi规范化为0与π之间。
这一适应性过程具有可忽略的额外的复杂性并对于编码器没有重大的结构修改,已经使得有可能看到被编码语音的主观质量的有效改进。
申请人还利用在8到16kbits/s之间的可变位速率下施加到一个(低延时)LD-CELP编码器的图3的过程,还获得了可称道的结果。其斜率级别与前面的情形相同,其中Г0=0.98;λ0=4;μ0=1;Δmin,0=0.6;Δmax,0=0.8;Г1=0.98;λ1=6;μ1=1;Δmin,1=0.2;Δmax,1=0.7。

Claims (8)

1.综合分析语音编码方法,包括以下步骤:
-对按相继帧数字化的P阶语音信号(s(n))进行线性预测分析,以便判定定义短期综合滤波器(16)的参数;
-对定义施加到短期综合滤波器上的激励信号的激励参数进行判定,以便产生表示语音信号的合成信号,其中至少一些激励参数是以至少一个感觉加权滤波器通过对语音信号与合成信号之间的差的滤波所产生的误差信号的能量进行最小化而判定的,该感觉加权滤波器的传递函数形式为W(z)=A(z/γ1)/A(z/γ2),其中 A ( z ) = 1 - &Sigma; i = 1 P a i z - i 系数ai是在线性预测分析步骤中所获得的线性预测系数,γ1与γ2表示频谱扩张系数,使得0≤γ2≤γ1≤1;以及
-产生定义短期综合滤波器的参数及激励参数的量化数值,
其特征在于,基于在线性预测分析步骤中所获得的频谱参数,对至少一个频谱扩张系数的数值进行适应性修改。
2.根据权利要求1的方法,其特征在于,借以对频谱扩张系数中至少一个系数的数值作适应性修改的频谱参数包括,表示语音信号频谱的整体斜率的至少一个参数(r1,r2),并包括表示短期综合滤波器(16)的谐振特性的至少一个参数(dmin)。
3.根据权利要求2的方法,其特征在于,所述表示频谱整体斜率的参数包括在线性预测分析期间所确定的第一和第二反射系数(r1,r2)。
4.根据权利要求2或3的方法,其特征在于,所述表示谐振特性的参数是相继线谱频率之间的距离的最小值(dmin)。
5.根据权利要求2的方法,其特征在于,数个等级(P0,P1)之中的语音信号的帧的分级是基于表面频谱整体斜率的单个参数或者多个参数(r1,r2)进行的,并在于,对于每一级采用两个频谱扩张系数的数值使得在短期综合滤波器(16)的谐振特性上升时,它们的差值γ12下降。
6.根据权利要求3或5的方法,其特征在于,提供了基于第一反射系数r1=R(1)/R(0)和第二反射系数r2=[R(2)-r1R(1)]/[(1-r1 2)R(0)]的数值而选择的两个级别,R(j)表示用于j个样本的一个延时的语音信号的自相关函数;在于第一级(P1)是选自这样的每一个帧,其第一反射系数(r1)大于第一正阈值(T1)并且第二反射系数(r2)小于第一负阈值(-T2);和在于第二级(P0)是选自这样的每一个帧,其第一反射系数(r1)小于第二正阈值(T1’),该第二正阈值(T1’)小于第一正阈值,或者第二反射系数(r2)大于第二负阈值(-T2’),该第二负阈值(-T2’)绝对值小于第一负阈值(-T2)绝对值。
7.根据权利要求4的方法,其特征在于,在每一级(P0,P1)之中,频谱扩张系数的最大值γ1被固定,而频谱扩张系数的最小值γ2是两个相继线谱频率之间的距离的最小值(dmin)的一个下降仿射函数。
8.根据权利要求5的方法,其特征在于,在每一级(P0,P1)之中,频谱扩张系数的最大值γ1被固定,而频谱扩张系数的最小γ2是两个相继线谱频率之间的距离的最小值(dmin)的一个下降仿射函数。
CN96105872A 1995-05-17 1996-05-16 综合分析语音编码器中噪声隐蔽电平适应性修改方法 Expired - Lifetime CN1112671C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9505851A FR2734389B1 (fr) 1995-05-17 1995-05-17 Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
FR9505851 1995-05-17

Publications (2)

Publication Number Publication Date
CN1138183A CN1138183A (zh) 1996-12-18
CN1112671C true CN1112671C (zh) 2003-06-25

Family

ID=9479077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96105872A Expired - Lifetime CN1112671C (zh) 1995-05-17 1996-05-16 综合分析语音编码器中噪声隐蔽电平适应性修改方法

Country Status (9)

Country Link
US (1) US5845244A (zh)
EP (1) EP0743634B1 (zh)
JP (1) JP3481390B2 (zh)
KR (1) KR100389692B1 (zh)
CN (1) CN1112671C (zh)
CA (1) CA2176665C (zh)
DE (1) DE69604526T2 (zh)
FR (1) FR2734389B1 (zh)
HK (1) HK1003735A1 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
US6304843B1 (en) * 1999-01-05 2001-10-16 Motorola, Inc. Method and apparatus for reconstructing a linear prediction filter excitation signal
GB2348342B (en) * 1999-03-25 2004-01-21 Roke Manor Research Improvements in or relating to telecommunication systems
JP3594854B2 (ja) 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
DE60134861D1 (de) 2000-08-09 2008-08-28 Sony Corp Vorrichtung zur verarbeitung von sprachdaten und verfahren der verarbeitung
JP4517262B2 (ja) * 2000-11-14 2010-08-04 ソニー株式会社 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
US7283961B2 (en) 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
JP4857467B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
EP1557827B8 (en) * 2002-10-31 2015-01-07 Fujitsu Limited Voice intensifier
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
WO2004064041A1 (en) * 2003-01-09 2004-07-29 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR100986957B1 (ko) * 2005-12-05 2010-10-12 퀄컴 인코포레이티드 토널 컴포넌트들을 감지하는 시스템들, 방법들, 및 장치들
EP1989706B1 (fr) * 2006-02-14 2011-10-26 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8271273B2 (en) * 2007-10-04 2012-09-18 Huawei Technologies Co., Ltd. Adaptive approach to improve G.711 perceptual quality
JP5269914B2 (ja) * 2009-01-22 2013-08-21 パナソニック株式会社 ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法
JP5331901B2 (ja) * 2009-12-21 2013-10-30 富士通株式会社 音声制御装置
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
EP3079151A1 (en) 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
US10699725B2 (en) * 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US10756755B2 (en) * 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
US10770088B2 (en) * 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
US20170330575A1 (en) * 2016-05-10 2017-11-16 Immersion Services LLC Adaptive audio codec system, method and article
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
IT1180126B (it) * 1984-11-13 1987-09-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
DE69029120T2 (de) * 1989-04-25 1997-04-30 Toshiba Kawasaki Kk Stimmenkodierer
EP0401452B1 (en) * 1989-06-07 1994-03-23 International Business Machines Corporation Low-delay low-bit-rate speech coder
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JPH04284500A (ja) * 1991-03-14 1992-10-09 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動型予測符号化方法
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
JPH0744196A (ja) * 1993-07-29 1995-02-14 Olympus Optical Co Ltd 音声符号化復号化装置
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
JP2970407B2 (ja) * 1994-06-21 1999-11-02 日本電気株式会社 音声の励振信号符号化装置

Also Published As

Publication number Publication date
FR2734389A1 (fr) 1996-11-22
EP0743634A1 (en) 1996-11-20
DE69604526D1 (de) 1999-11-11
FR2734389B1 (fr) 1997-07-18
CN1138183A (zh) 1996-12-18
US5845244A (en) 1998-12-01
EP0743634B1 (en) 1999-10-06
KR100389692B1 (ko) 2003-11-17
CA2176665C (en) 2005-05-03
CA2176665A1 (en) 1996-11-18
DE69604526T2 (de) 2000-07-20
KR960042516A (ko) 1996-12-21
HK1003735A1 (en) 1998-11-06
JPH08328591A (ja) 1996-12-13
JP3481390B2 (ja) 2003-12-22

Similar Documents

Publication Publication Date Title
CN1112671C (zh) 综合分析语音编码器中噪声隐蔽电平适应性修改方法
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
KR100421226B1 (ko) 음성 주파수 신호의 선형예측 분석 코딩 및 디코딩방법과 그 응용
CN101496101B (zh) 用于增益因子限制的系统、方法及设备
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
KR101147878B1 (ko) 코딩 및 디코딩 방법 및 장치
US7272556B1 (en) Scalable and embedded codec for speech and audio signals
CN101622661B (zh) 一种数字语音信号的改进编解码方法
CA2815249C (en) Coding generic audio signals at low bitrates and low delay
JP4166673B2 (ja) 相互使用可能なボコーダ
JP3234609B2 (ja) 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化
AU746342B2 (en) Method and apparatus for pitch estimation using perception based analysis by synthesis
CN106910509B (zh) 用于修正通用音频合成的设备及其方法
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
US6912495B2 (en) Speech model and analysis, synthesis, and quantization methods
McCree et al. A 1.7 kb/s MELP coder with improved analysis and quantization
CN105359211A (zh) 语音处理的清音/浊音判决
JPH09258795A (ja) ディジタルフィルタおよび音響符号化/復号化装置
WO2004090864A2 (en) Method and apparatus for the encoding and decoding of speech
KR100480341B1 (ko) 광대역 저전송률 음성 신호의 부호화기
US8433562B2 (en) Speech coder that determines pulsed parameters
Spanias Speech coding standards
Kim et al. A 4 kbps adaptive fixed code-excited linear prediction speech coder
Beritelli et al. A new efficient approach to the optimization of a low-complexity multipulse speech coder
Kövesi et al. A Multi-Rate Codec Family Based on GSM EFR and ITU-T G. 729

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20030625

EXPY Termination of patent right or utility model