CN1625681A - 产生lsf矢量 - Google Patents

产生lsf矢量 Download PDF

Info

Publication number
CN1625681A
CN1625681A CNA028288025A CN02828802A CN1625681A CN 1625681 A CN1625681 A CN 1625681A CN A028288025 A CNA028288025 A CN A028288025A CN 02828802 A CN02828802 A CN 02828802A CN 1625681 A CN1625681 A CN 1625681A
Authority
CN
China
Prior art keywords
lsf
vector
track
output speed
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028288025A
Other languages
English (en)
Other versions
CN1312463C (zh
Inventor
K·T·阿-奈米
S·维勒特
A·康多滋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1625681A publication Critical patent/CN1625681A/zh
Application granted granted Critical
Publication of CN1312463C publication Critical patent/CN1312463C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Control Of Eletrric Generators (AREA)
  • Amplifiers (AREA)
  • Oscillators With Electromechanical Resonators (AREA)

Abstract

一种用于以想要的矢量输出速率从音频信号中产生线谱频率(LSF)矢量的方法。为了缓解信号混叠的问题并减小系统复杂度,提出:所述方法包括从音频信号样本中计算线性预测系数(LPC)并以比所述想要的矢量速率高的速率从所述LPC中提取LSF矢量,所述LSF矢量包括不同的LSF参数值。接下来,对于至少一个所述LSF参数形成一条LSF轨迹。而后对至少一条所述已形成的LSF轨迹进行低通滤波。最后,从经低通滤波后的LSF轨迹中重建抽样的LSF矢量,所述抽样数目对应于所述想要的矢量速率。

Description

产生LSF矢量
发明领域
本发明通常涉及音频信号的编码,尤其涉及一种以想要的矢量输出速率从音频信号中产生线谱频率(LSF)矢量的方法。本发明同样涉及相应的移动站、相应的编码器、相应的芯片、相应的通信网络、相应的通信系统、相应的计算机程序以及相应的计算机程序产品。
发明背景
为了能够将音频信号(例如语音)从发送端有效地传输至接收端,众所周知,在本领域中是于发送端将语音分割为谱包络和激励信号。谱包络和激励信号随后都被量化并在相应的比特流中传送至接收端。
一种用于获得语音的短期谱包络表示的通用技术是线性预测系数(LPC)滤波。然而,所得到的LPC本身对于量化噪声缺少鲁棒性,这会导致滤波不稳定的问题。因此,例如F.Itakura在“Line spectrum representationof linear predictive coefficients of speech signals(语音信号的线性预测系数的线谱表示)”(J.Acoust,Soc.Amer.第57卷,p.S35,1975年4月)中已经提出将LPC变换成其它更适合的参数(线谱频率(LSF)参数)以进行传输。这些LSF参数(也称作线谱对)对于量化噪声比较鲁棒,并也展示出其它富有吸引力的特征。
当从线性预测中提取LSF参数时,将信号从时域变换至频域应当考虑到采样理论和抽样理论。
采样理论表明,如果时域信号xa(t)具有一个频带有限的傅里叶变换Xa(Ω)以使得对于Ω≥2π*F有Xa(Ω)=0(其中F是一特定频率),则由等间距的样本xa(nT)就能唯一的重建这个信号xa(t),其中-∞<n<∞,并且如果 1 T > 2 * F 则T是时间间隔。
另一方面,抽样理论定义如何可能通过用系数M除当前速率来将时域信号的较高采样率改变至较低速率而不产生谱交叠,其中M≥1。
在传统的声码器中,包括不同LSF参数值的LSF矢量是从在加窗语音上估计的线性预测系数中提取的,所述语音加窗典型的使用长度为160至240个样本的特定速率(如20、10甚至5ms的时间间隔)的窗(例如汉明窗)。从抽样的角度来看,它类似于将更频繁地提取的LSF矢量(例如通过将LPC分析窗每次移位一个样本而对于每个语音样本所计算的LSF矢量)抽样成想要的LSF矢量速率,例如上述速率之一。
发明概述
本发明的一个目的是通过减少LSF矢量在时间中的高频变化来提高LSF矢量的编码效率。
本发明的又一个目的是提出一种当从可用音频信号中产生LSF矢量时减少由混叠引起的信号失真的可能性。
本发明的一个同样的目的是提供一种具有低复杂度的LSF矢量提取方法。
通过以想要的矢量输出速率从音频信号中产生LSF矢量的方法可以实现根据本发明的这些目的。所提出的方法包括在第一步骤中从音频信号样本中计算线性预测系数(LPC)。从这些LPC中,以高于所想要的矢量输出速率的提取速率提取LSF矢量。所提取出的LSF矢量由不同的LSF参数值组成。在下一个步骤中,对于至少一个LSF参数形成LSF轨迹。如以上提到的,一条LSF轨迹代表了对应的LSF参数在时间上的值。而后,以预定的截止频率对至少一条所形成的LSF轨迹进行低通滤波。最后,通过从低通滤波后的LSF轨迹中重建抽样数目的LSF矢量来获得具有想要的矢量输出速率的LSF矢量,其中抽样数目对应于想要的矢量输出速率。
同样,采用移动站、编码器、芯片以及包含编码器或者包括用于执行所提出方法的各步骤的处理装置的通信网络来实现本发明的各目的。采用包括通信网络和移动站的通信系统也能实现本发明的各目的,所述通信网络和移动站的至少其中之一包括用于执行所提出方法的各步骤的装置。
最后,本发明的各目的可以通过计算机程序和包括作为存储这种计算机程序的存储装置的机器可读载体的计算机程序产品来实现。在这两种情况下,计算机程序包括当在处理单元中工作时执行根据本发明的方法的各步骤的程序代码代码。
可以理解术语音频数据包括语音数据以及其它音频数据。
本发明是出于这样的考虑:通过适当的带宽管理能够减轻LSF轨迹中的意外混叠。在这种带宽管理中,必须确保在以较低速率采样时,所重建的信号不会由于较高频带中的能量而受到失真。通过首先以高于想要的输出速率的提取速率从LPC中提取LSF矢量,就能根据本发明实现这一点。在将对于以较高提取速率提取的LSF矢量所得到频谱低通滤波之后,随后才将具有较高提取速率的LSF矢量仅仅抽样到想要的输出速率。作为根据本发明的低通滤波的意外和惊人的效果,能提高LSF轨迹的品质。
本领域的熟练技术人员不会预期到对LSF轨迹进行低通滤波会提高或破坏可听信号品质,因为对于平稳(stationary)语音来说,混叠不应是个问题。在对于本发明的调查中,实际表明由于非平稳性引起的混叠不是个大问题,并且当本发明明显减少了该混叠时,可听差别并不很显著。因此本发明的一个优点在于,它从最终的LSF矢量中除去了不必要的信息,然而同时保留了信号的品质。
所除去的信息导致了更高的帧间相关性。这就使得量化更容易,并且由于码本比特分配的减少,使得能够对LSF参数进行更好的打包。
量化中的改进可以导致比特率的减小,然而仍能保持当前系统的语音品质和可识度。工作在非常低的比特率(也就是,低于或等于2.4kbps)下的当前的语音声码器将大多数可用比特分配给谱参数(即LPC和谱幅度)。在“Efficient Parameter Quantisation for 2.4/1.2kb/s Split-Band LPC Coding(用作2.4/1.2kb/s分离频带LPC编码的有效参数量化)”(IEEE Workshop onSpeech Coding,Dalavan,Wisconsin,USA,2000年9月17-20日)中,S.Villette、Y.D.Cho和A.M.Kondoz描述了例如一个在Surrey大学通信系统研究中心开发的1.2/2.4kbps分离频带LPC(SBLPC)声码器,通过它,高达60%的可用比特被用于代表谱参数。
通过从属权利要求本发明的优选实施例就会很明显。
有利的,根据所想要的最终LSF矢量提取速率选择低通滤波截止频率。对于每5ms一个矢量的想要的最终LSF矢量提取速率,截止频率可设置为例如100Hz,对于每10ms一个矢量的想要的最终LSF矢量提取速率,截止频率可设置为例如50Hz,对于每20ms一个矢量的想要的最终LSF矢量提取速率,截止频率可设置为例如25Hz。因此截止频率应相当于矢量提取速率的一办。
可以在时域或频域中对LSF轨迹施加低通滤波。当通过将LPC分析窗中心每次移位一个样本而对于每个音频样本从LPC中提取LSF矢量时,以及当对所有得到的LSF轨迹施加低通滤波时,采用根据本发明的方法可以预期最小的最终信号失真。然而为了减少系统的复杂度,也可能只对所选择的各LSF轨迹施加低通滤波。为了替换地或进一步地减少复杂度,还可能不对所有样本都提取LSF矢量,只要从LPC中提取的LSF矢量比想要的最终LSF矢量输出速率所需的多。
根据本发明的方法尤其可被实现在声码器中,该声码器用于对音频数据进行编码,所述音频数据要通过无线电接口从发送端发送至接收端,例如从通信网络的收发信机发送到连接至通信网络的移动站的收发信机,反之亦然。
附图的简要描述
以下,通过参考附图的举例更加详细的解释本发明,其中
图1为说明本发明方法的第一实施例的流程图;
图2-5为比较采用或不采用所提出的低通滤波技术对于每个样本所提取的LSF参数(轨迹)随时间变化的图表,这里给出了第一、第四、第七和第十LSF轨迹;
图6-10为当采用传统编码器时、以及当采用根据本发明的编码器时,在每20ms一个矢量、每5ms一个矢量、每10ms一个矢量、每30ms一个矢量、以及每40ms一个矢量的LSF矢量提取速率下,比较由不同预测参数得到的残差LSF方差(variance of residual LSF)的图表;
图11为比较在采用传统编码器时和在采用根据本发明的编码器时由不同预测参数得到的WMSE的图表;
图12为比较在采用传统编码器时和在采用本发明的编码器时由不同预测参数得到的平均SD的图表;
图13为比较在采用传统编码器时和在采用本发明的编码器时由不同预测参数得到的2dB界外值%的图表;
图14为比较在采用传统编码器时和在采用本发明的编码器时由不同预测参数得到的WMSE的图表;
图15为比较在采用传统编码器时和在采用本发明的编码器时由不同码本比特得到的平均SD的图表;
图16为比较在采用传统编码器时和在采用本发明的编码器时由不同码本比特得到的2dB界外值%的图表;
图17为对于所选择的码本比特范围更详细地描述图16的2dB界外值%的图表;
图18为说明在LSF轨迹的频谱上的能量分布的图表,其中对于每个音频样本提取LSF矢量以用于所述LSF轨迹;
图19为图18的对数级谱变化的摘录;
发明的详细描述
为了说明,首先描述从语音样本中提取LSF矢量的试验。在试验中,采用10阶LPC滤波器,从长度为200个样本的加汉明窗后的语音数据中对于每个样本计算LPC。更加具体的,通过将LPC分析窗的中心每次移位一个样本来计算这些LPC。而后,对所获得的LPC执行15Hz的带宽扩展。而后从LPC中,提取每一个样本的LSF矢量。每个LSF矢量被进一步划分为不同的LSF参数,每一个参数在时间上的变化也称为LSF轨迹。因为采用10阶LPC滤波器,所以所述划分产生10条LSF轨迹。所有LSF轨迹的全部谱能量几乎都在在低于100Hz的低频带内,如图18和19所示。
在图18中,描述了在0Hz和4000Hz之间的频率(单位是Hz)上10条LSF轨迹的幅度(单位是db)。图19显示在0Hz至120Hz的频率范围内图18中的对数级谱变化的摘录。所有LSF轨迹的幅度都随频率的增加而类似地减小,因此没有将所描述的10条曲线指定到对应的LSF轨迹。现在在本发明中注意到,如果将LSF矢量抽样到减少的矢量输出速率,在特定频率极限以上的频带内的能量总和将导致谱混叠。根据采样理论,该频率极限取决于所选的抽样速率。图19所示的频率范围构成了对于每20ms一个矢量、每10ms一个矢量以及每5ms一个矢量的LSF矢量提取速率的感兴趣范围。例如,如果系统以每20ms一个矢量的提取速率计算LSF矢量,那么大于25Hz的频带内的所有能量将成为谱混叠的源、产生不准确的LSF参数提取。
传统上,基于分析窗内的语音片段是平稳的这一假设进行语音分析。这种假设对于LSF轨迹频谱上的高频分量的源可能是不成立的,并且,与真正平稳的语音的LSF轨迹相反,一些混叠确实发生在抽样中。因此,由于在根据本发明的方法中减少了混叠,与在先技术相比本发明在信号品质方面具有预想不到的优点。
下表1详细的表示出在以上参考图18和19描述的试验中对于每个LSF轨迹所得到的在三个不同频带上的能量百分比,更具体的说是0Hz和25Hz之间的频带、25Hz和50Hz之间的频带以及50Hz以上的频带。作为语音数据,采用4位男性和4位女性讲话者的语音,每个人讲两句。根据以上提到的采样理论,当采用每20ms一个矢量的LSF矢量提取速率时,25Hz以下频带内的能量不会引起谱交叠,而当采用每10ms一个矢量的矢量提取速率时,50Hz以下频带内的能量不会引起失真。
                   表1
  LSF参数     能量(%)每频带
    25Hz以下     25-50Hz     50Hz以上
    LSF1     94.52     4.24     1.24
    LSF2     95.44     3.61     0.95
    LSF3     96.67     2.71     0.62
    LSF4     96.81     2.56     0.63
    LSF5     98.10     1.51     0.38
    LSF6     97.46     1.99     0.55
    LSF7     96.36     2.88     0.76
    LSF8     95.54     3.28     1.18
    LSF9     94.64     4.41     1.22
    LSF10     92.72     3.97     3.31
从表1中可以看出超过92%的能量位于25Hz以下的频带内,当采用每20ms一个矢量的矢量提取速率时,它是相关带。然而,在25Hz以上频带内剩余的小于8%的能量仍足够在LSF参数提取中的产生错误。对于每10ms一个矢量的矢量提取速率,在相应的50Hz以上频带内的能量小于4%。
图1的流程图示出了根据本发明的方法的第一实施例。该方法例如可以被实现为通信网络声码器的处理装置中的计算机程序,其中该声码器用于对语音数据进行编码,所述语音数据要从通信网络发送至移动站。
在该方法的第一步骤1中,为处理装置提供语音样本。基于这些语音样本,用10阶LPC滤波器计算每个样本的LPC,这是通过将LPC分析窗的中心对于对应长度为200个样本的加汉明窗后的语音数据每次移位一个样本。在第二步骤2中对所计算出的LPC进行15Hz带宽扩展。可以理解也可采用不同的滤波器阶数、不同的窗口类型和尺寸以及不同的带宽扩展(或者不扩展)。
在第三步骤3中,对于每个样本从经带宽扩展的LPC中提取LSF矢量。因此此时就获得了相应于原始语音样本速率的LSF矢量速率,也就是说,该提取速率与采样速率相等。
随后,在第四步骤4中,从每个LSF矢量的对应的10参数中产生10条LSF轨迹。
此后,每个经FFT变换的LSF轨迹分别地在频域中被低通滤波。在此第五步骤5中,根据以上提到的采样理论,根据想要的最终LSF矢量输出速率选择用于低通滤波的截止频率。例如,在想要的LSF矢量输出速率为每20ms一个矢量的情况下,选择25Hz的截止频率。替换地,也可以在时域内执行低通滤波。
在第六步骤6中,以所想要的最终LSF矢量速率(即用于传输至移动站的速率,或可能是用于存储的速率)从经低通滤波的LSF轨迹中抽样出LSF矢量。
所得到的LSF矢量能被量化并发送至移动站。
对于不同的LSF轨迹,图2至5示出了采用所述的实施例所达到的谱混叠减少。一方面每一幅图示出了在采用传统方法的试验中得到的LSF轨迹在时间上的变化,另一方面示出了在采用参照图1所描述方法的试验中得到的相同LSF轨迹在时间上的变化。
在传统方法中,是以想要的LSF矢量速率从经扩展的LPC中直接提取LSF矢量。
在本发明的方法中,改为在带宽扩展之后执行以上参考图1所描述的步骤3至5。因此,与传统方法相反,引入低通滤波操作作为抽样前的预处理阶段。
图2是表示10条LSF轨迹中的第一条在时间上的相应变化的图表。该图包括具有显著短期变化的标有“ORG LSF”(原始LSF)的第一曲线。该曲线代表传统方法的结果。该图还示出了标有“LPF’d LSF”(经低通滤波的LSF)的第二条曲线,它更平滑并且变化缓慢。第二条曲线代表了包括有低通滤波的根据本发明方法的结果。
图3至5对于所述10条LSF轨迹中的第四、第七和第十条示出了具有类似差别的标有“ORG LSF”和“LPF’d LSF”的相应曲线。由传统方法得到的LSF轨迹的变化在更高的LSF参数中(即在如图4和5分别示出的第七条和第十条LSF轨迹中)更为明显。另一方面,由根据本发明的方法得到的曲线都是平滑且变化缓慢的。
在H.P.Knagenhjelm和W.B.Kleijn的文献“Spectral dynamics is moreimportant that spectral distortion(谱动态比谱失真更重要)”(1995International Conference on Acoustics,Speech,and Signal Processing.Conference Proceedings,IEEE.Part vol.1,1995,pp.732-5 vol.1.New York,NY,USA)中,根据其标题已经表明谱动态比谱失真(SD)更重要。谱动态也导致低速率量化,如由T.Eriksson、H-G Kang和P.Hedelin在‘Low-ratequantization of spectrum parameters(频谱参数的低速率量化)’(2000 IEEEInternational Conference on Acoustics,Speech,and Signal Processing.Proceedings.IEEE.Part vol.3,2000,pp.1447-50 vol.3.Piscataway,NJ,USA)中所示出的那样。由于其更平滑的变化,谱动态在经低通滤波的轨迹中比在由传统方法产生的轨迹中保持得明显更好。
为了验证所提出的LSF轨迹的低通滤波不会导致合成语音的品质降低,以每20ms一个矢量的LSF矢量输出速率从经低通滤波后的LSF轨迹中重建LSF矢量。然后对男性和女性讲话者的合成语音进行一个非正式的听力测验,该语音由以下两者产生:传统地产生的LSF矢量和在低通滤波后从LSF轨迹中提取的LSF矢量。在该试验中,没有发现在从两个不同LSF矢量集合成的语音之间的品质差别。
因为低通滤波产生更平滑和更缓慢变化的轨迹,在保持信号品质的同时,能够预期在更容易量化这方面的优点和作为结果的通过比特节省的增益。以下,通过第一阶移动平均(MA)预测器和一个矢量量化器展示所提出的方法相应的优点。
给出第一阶MA预测器如下:
resn i=lsfn i-(ls fi*fb_resn i)                            (1)又
fb_resn i=resn-1 i                                           (2)
在公式(1)中,lsfn i是帧n中的第i个LSF参数,resn i是帧n中的第i个LSF预测残差,ls fi是第i个LSF参数平均值,α是预测参数。还有,fb_resn i是帧n中的反馈LSF预测残差。根据公式(2),使用前一个帧的量化残差LSF预测resn-1 i更新该公式的反馈部分。
为了比较传统方法与本发明的方法,以不同LSF矢量输出速率对由传统方法和本发明的方法获得的LSF矢量集进行不同的试验,尤其是对于每5ms一个矢量、每10ms一个矢量、每20ms一个矢量、每30ms一个矢量以及每40ms一个矢量的速率进行试验。
为了获得不同的LSF矢量集,同样对于用200样本长的汉明窗加窗的语音计算每个样本的LPC,然后对其进行15Hz带宽扩展。而后从经带宽扩展的LPC中提取LSF矢量。随后,对于每个LSF轨迹执行低通滤波,根据采样理论,所采用的截止频率取决于所需的最终LSF矢量输出速率。因此,对于每5ms一个矢量的矢量输出速率,截止频率设为100Hz,对于每10ms一个矢量的矢量输出速率,截止频率设为50Hz,对于每20ms一个矢量的矢量输出速率,截止频率设为25Hz,对于每30ms一个矢量的矢量输出速率,截止频率设为16.7Hz,对于每40ms一个矢量的矢量输出速率,截止频率设为12.5Hz。最后,采用本发明的方法,通过以各个希望的矢量输出速率对经低通滤波后的LSF轨迹进行抽样,就能对于每个所考虑的LSF矢量输出速率产生第一个LSF矢量集。
采用传统方法,对于每个所考虑的LSF矢量输出速率产生第二个LSF矢量集,也就是说,通过以想要的矢量输出速率从经扩展的LPC中直接提取LSF矢量。
对于在所描述的试验中得到的每个LSF矢量集,随后采用不同预测参数α来确定反馈LSF预测残差fb_resn i。公式(1)中的反馈部分采用前一帧中的对应的未量化的LSF预测残差来更新。在每个仿真的末尾,对于每个LSF矢量集确定反馈LSF预测残差fb_resn i的方差。
在图6至10中描述了各试验的结果,每个图示出了以传统方法和根据本发明的方法获得的、对于特定LSF矢量输出速率由不同预测参数得到的反馈LSF预测残差fb_resn i的方差。在每一图中,基于由原始的、传统方法获得的LSF矢量的第一曲线标有“ORG LSF”,基于经低通滤波的LSF轨迹的第二条曲线标有“LPF’d LSF”。
在图6中描述了在每20ms一个矢量的矢量输出速率下的残差LSF预测的方差。如在图中可看到的,低通滤波方法的方差始终低于传统提取方法的方差。而且,与传统方法相比较,低通滤波方法的最小方差发生在预测参数α的较高值上,在低通方法中相应的预测参数α≈0.8,在传统方法中α≈0.7。预测参数α的较高值表明根据本发明的方法产生更相关的LSF矢量,正如由于经低通滤波的LSF轨迹比由传统方法产生的轨迹更平滑这一性质所能预期的。
在图7中描述了在每5ms一个矢量的矢量输出速率下的残差LSF预测的相应方差。在图8中描述了在每10ms一个矢量的矢量输出速率下的残差LSF预测的变化。在图9中描述了在每30ms一个矢量的矢量输出速率下的残差LSF预测的变化。最后,在图10中描述了在每40ms一个矢量的矢量输出速率下的残差LSF预测的变化。
当比较图6至10时,很明显LSF矢量输出速率越高,连续LSF矢量之间的相关性就越高,这依次导致了更高的最佳预测参数α。
从图6至10中也能看出,不管LSF矢量输出速率是多少,低通滤波方法的LSF残差的方差总是低于传统方法。而且,不管所选的LSF矢量输出速率是多少,由于经低通滤波的LSF矢量的较平滑的变化、并因此由于连续集之间的更高的相关性,经低通滤波的LSF矢量总是得到更高的最佳预测参数α。高相关性和较低的方差使量化更容易。
出于以上所述试验的结果,对于传统方法和根据本发明的方法,对每一个LSF矢量输出速率都能够确定一个预测增益。
通过下式给出预测增益‘g’:
g = X min x 0 * 100 % - - - ( 3 )
其中x0是当预测系数α为0时,残差LSF的方差,其中Xmin是残差LSF的最小方差。
预测增益g表明采用MA预测器获得的优点。预测增益g越高,通过MA预测量化技术获得的优点越多。
表2对于经低通滤波的LSF矢量集以百分比形式示出了在不同LSF矢量输出速率下的预测增益g的值。
表2
  40毫秒   30毫秒   20毫秒   10毫秒   5毫秒
预测增益%   29.55   33.82   36.53   43.34   49.75
表3对于用传统方法获得的LSF矢量集以百分比形式示出了在不同LSF矢量输出速率下的预测增益g的值。
表3
 40毫秒    30毫秒    20毫秒    10毫秒     5毫秒
预测增益%   12.5     16.6     29.6     37.6     42.6
相应于图6至10的图表(其中更高的LSF矢量输出速率被关联到连续LSF矢量间的更高相关性),表2和3说明更高的LSF矢量输出速率导致预测增益的增加。而且,在表2和3中能够看出,低通滤波方法总是比传统提取方法具有更高的预测增益。
高相关性和较低的方差导致量化更容易。这进一步导致在量化中的比特减少,这将在以下示出。
为了对LSF矢量进行量化以用于从网络到移动站的传输,采用矢量量化码本。
对于特定的失真量度(例如平均谱失真(SD)、2dB界外值百分比、4dB界外值百分比以及加权的均方误差(WMSE))可以使用码本训练,以用于产生最优化的矢量量化码本。2dB界外值百分比是SD超过2dB多少次的量度,以及4dB界外值百分比是SD超过4dB多少次的量度。
现在将表明采用合适的码本训练,所提出的方法能够在较高比特分配中节省码本比特,同时保持采用传统LSF码本获得的相同的失真量度。
作为示例性码本训练策略,选择具有第一阶MA预测以及M最佳树查找(例如M=8)的多级矢量量化器(MSVQ),因为它是一种流行的方法。MA预测器的优点是以上提到的,即基本上是产生较低方差的LSF残差从而导致更容易的量化。
对于每20ms一个矢量的矢量输出速率将提出对于码本训练所执行的试验。这一矢量输出速率使得能够以2.4kbps在以上提到的SBLPC声码器中使用所训练的码本,它每20ms计算LSF矢量。
首先,确定用于码本训练的最佳MA预测参数。对于以上提到的MA预测器,反馈部分fb_resn i是非量化的LSF预测残差,然而在MSVQ-MA算法的MA部分中,fb_resn i是经量化的LSF预测残差。因此,在其结果示于图6的试验(即经低通滤波的LSF矢量的预测参数α≈0.8,以及传统地获得的LSF矢量的预测参数α≈0.7,)中对于每20ms一个矢量的LSF矢量输出速率所找到的最优预测参数可能与用于码本训练目的的最优预测参数不同。
为了找到用于MSVQ-MA的最优MA预测参数进行了试验,在试验中,对于经低通滤波获得的和传统地获得的LSF矢量,MSVQ-MA训练算法中的MA预测器的预测参数α都从0.35变化至0.75。
对于试验,采用从包括有48位男性和48位女性讲话者的语音的语音数据库的96个语音文件中准备的30000个LSF矢量对具有3级、每级7比特的MSVQ-MA量化器进行训练。为了产生第二LSF矢量集,接下来,在执行低通滤波后进行抽样。随后预测系数α以0.05的步幅从0.35变化至0.75,并且在每一个迭代中产生MSVQ-MA码本。
图11至13示出了该试验的结果。更具体的,图11是描述所得到的WMSE随预测参数变化的图表,图12是以分贝形式描述所得到的平均SD随预测参数变化的图表,图13是以百分比形式描述所得到的2dB界外值随预测参数变化的图表。每个图都包含由传统方法和根据本发明的方法得到的结果。由传统方法得到的对应曲线也标有“ORG LSF”,由根据本发明的方法得到的对应曲线也标有“LPF’d LSF”。没有包括以百分比形式描述4dB界外值随预测参数变化的结果的附图,因为对于用于MSVQ-MA算法的码本配置它的值是零。
从图11至13中可以看出,对于平均SD、对于2dB界外值%以及对于WMSE来说,预测参数α的最优值对于低通滤波方法是α≈0.5,对于传统方法是α≈0.4。
包括有MA预测作为量化的一部分的声码器,通常采用0.6和0.7之间的预测值作为最优值,而所提到的试验表明,对于平均SD以及对于2dB界外值%,在α≈0.4处获得较低值。根据图11至13,对于低通滤波方法所得到的最优预测参数α大约为0.5,与对于传统方法所得到的大约为0.4的最优值不一样,与通常使用的0.6至0.7的预测参数也不一样。
从图11至13中也明显看出,经低通滤波的LSF矢量的WMSE、平均SD和2dB界外值%要比传统地提取的LSF矢量更低。这表明,要保持与传统LSF量化器相同的失真量度,可以通过使用更少比特的量化器来实现。可替换的,相同大小的量化器会得到更高的品质。
以下表4总结了用在表中称作“LPF’d”的低通滤波法和在表中称作“ORG”的传统方法的最优预测参数得到的失真量度。
表4
  预测因子  平均SD  2dB界外值% 4dB界外值%   WMSE
 LPF’d     0.5  0.9262     0.0356     0  7.85E-05
 ORG     0.4  1.0306     0.2313     0  9.66E-05
如在表4中可看到的,与传统方法相比,低通滤波方法显示出在平均SD上的优点和低得多的2dB界外值%。
注意到在以上试验中采用的30000个LSF矢量的数目对于最优码本训练来说是相当小的,但是它清楚的反映出所提出的系统比传统方法更有优点,正如在显示出相似结果的具有较大语音数据库的试验中所验证的那样。
接下来,与已知的LSF矢量提取方法相比,利用根据本发明的方法所能获得的比特率的减少将被量化。
为此所执行的试验是基于为针对两种LSF提取方法的码本训练所确定的最优预测参数。
该试验相应于用于为码本训练确定最优MA预测参数的试验,除了在以下方面有所不同:MSVQ-MA 3级码本的比特分配是变化的,而预测参数保持恒定。
表5示出在所实施的试验中所采用的MSVQ-MA码本的不同比特分配。
表5
    总的比特分配     每个码本级分配的比特
    15     5,5,5
    16     6,5,5
    17     6,6,5
    18     6,6,6
    19     7,6,6
    20     7,7,6
    21     7,7,7
    22     8,7,7
    23     8,8,7
    24     8,8,8
图14至16分别示出对于表5中的码本比特,对于WMSE、平均SD和百分比形式的2dB界外值所获得的结果。另外图17还只在20码本比特到24码本比特范围内以百分比形式示出2dB界外值随码本比特的变化。在每一幅图中,低通滤波方法的对应失真量度低于传统方法的失真量度。
表6以百分比形式示出在表中也称作“LPF’d”的低通滤波方法和在表中也称作“ORG”传统方法的4dB界外值。采用大于或等于18比特的分配,4dB界外值百分比的值为零。
表6
    15     16     17     18
    LPf’d     0.0059     0.0059     0     0
    ORG     0.0415     0.0119     0.0059     0
由图14至17以及表6明显看出,采用根据本发明的方法时比特减少是可能的。可以看出对于由传统方法得到的失真量度的给定集,采用所提出的系统能在较低比特需求下获得失真量度的相同集,这导致节省约1.5至2比特,相当于节省大约10%的比特。
对于4位男性和4位女性讲话者执行附加的非正式听力测试,每人讲两句。测试的结果证明了低通滤波方法产生与传统方法相同的合成语音,然而,当采用矢量量化器时,对于给定的语音品质,所提出的方法需要较低数目的比特。
在以上描述的根据本发明的方法的第一实施例中,对于每一个样本提取LSF矢量,并对每个LSF轨迹执行滤波。这会导致系统的相当高的复杂度。
因此,对于包括在能够计算LSF矢量的频度方面以及在滤波方面的修改的实际的实时系统实现方式特别设计了根据本发明的方法的第二实施例。对于第二实施例,再次参照图1的流程图。
第二实施例的第一和第二步骤对应于以上提到的第一实施例的第一和第二步骤1、2,其中用10阶滤波器从语音样本中计算出LPC,并且其中对所述LPC进行带宽扩展。
然而,在第三步骤中,并不是象在第一实施例中和图1所表明的那样对于每一个样本提取LSF矢量,而是以更低的提取速率提取。该更低的提取速率应同时高于最终所需的LSF矢量输出速率。与第一实施例相比,选择更低的提取速率,这样当在第三步骤中对于每一个样本提取LSF矢量时,仍将得到大部分的好处。
由于在本发明的第二实施例中采用更低的提取速率,建议采用每5ms一个矢量的矢量速率。每5ms提取LSF矢量以及随后进行低通滤波和抽样,其是低复杂度和最终得到的好处之间好的折衷,因为这个速率在现有SBLPC声码器系统上加上一个小的有效载荷,并且覆盖了每个LSF轨迹的大多数的能量百分比,这由以下表7就看得更明显。
表7对于三个不同频带示出了从来自每人讲两句的4位男性和4位女性讲话者的语音样本得到的所计算的能量百分比。第一频带是低于25Hz的频带,第二频带是25Hz和100Hz之间的频带,第三频带是100Hz以上的频带。对于从LSF矢量得到的LSF轨迹确定了能量百分比,其中所述LSF矢量是对于每一语音样本从LPC中提取的。
表7
  LSF参数            频带中的能量(%)
   25Hz以下   25-100Hz   100Hz以上
    LSF1     94.52     5.31     0.17
    LSF2     95.44     4.44     0.12
    LSF3     96.67     3.25     0.08
    LSF4     96.81     3.1     0.09
    LSF5     98.1     1.85     0.05
    LSF6     97.46     2.44     0.1
    LSF7     96.36     3.52     0.12
    LSF8     95.54     3.99     0.47
    LSF9     94.64     5.12     0.24
    LSF10     92.72     5.1     2.18
从表7中能看出,多数能量存在于100Hz以下的频带内。在感觉上,最后的LSF轨迹相比其它轨迹来说不太重要。对于前9条轨迹中的每一条,超过90%的频谱交叠能量(25Hz频带以外的能量)位于25和100Hz之间的频带内。因此,可以假定每5ms提取LSF矢量可以给出所提出系统的大多数优点,却具有较低的复杂度开销。
在第二实施例的第四步骤中,从所提取的LSF矢量的对应的10个参数中再次形成10条LSF轨迹。
而后在第五步骤中,对每条LSF轨迹进行低通滤波。
在第六步骤中,以想要的最终LSF矢量输出速率从经滤波后的LSF轨迹中抽样出LSF矢量。
如对于第一实施例所提到的,可对所得到的LSF矢量进行量化并发送。
上面连同现有技术已经对图18和19作出了描述。
应当注意到,所描述的本发明的实施例仅仅构成能以很多方式被改变的范例。

Claims (17)

1、以想要的矢量输出速率从音频信号中产生线谱频率(LSF)矢量的方法,该方法包括:
—从所述音频信号的样本中计算线性预测系数(LPC);
—以高于所述想要的矢量输出速率的提取速率从所述LPC中提取LSF矢量,所述的LSF矢量包括不同LSF参数值;
—为至少一个所述LSF参数形成LSF轨迹,该LSF轨迹代表对应的LSF参数在时间上的值;
—以预定截止频率对至少一条所述所形成的LSF轨迹进行低通滤波;以及
—从所述的经低通滤波后的LSF轨迹中重建抽样数目的LSF矢量,所述的抽样数目相应于所述想要的矢量输出速率。
2、根据权利要求1所述的方法,其中以高于所述想要的矢量输出速率的提取速率从所述LPC中提取的所述LSF矢量是对于所述音频信号的所有样本提取的,其中从所述音频信号中计算LPC。
3、根据权利要求1所述的方法,其中以高于所述想要的矢量输出速率的提取速率从所述LPC中提取的所述LSF矢量是以低于音频信号样本速率的提取速率提取的,其中从所述音频信号中计算LPC。
4、根据以上权利要求之一所述的方法,其中对于每一个所述的LSF参数形成一个LSF轨迹,并且其中以预定截止频率对所述LSF轨迹中的每一条进行低通滤波。
5、根据以上权利要求之一所述的方法,其中在频域进行所述低通滤波。
6、根据权利要求1至4中的一个所述的方法,其中在时域进行所述低通滤波。
7、根据以上权利要求之一所述的方法,其中为了用于无线电接口的传输,对以所述想要的矢量输出速率从所述经低通滤波的LSF轨迹中抽样的所述LSF矢量进行量化。
8、根据以上权利要求之一所述的方法,其中对于以所述想要的矢量输出速率从所述经低通滤波的LSF轨迹中重建的所述LSF矢量,确定专用的最佳帧间预测器。
9、根据以上权利要求之一所述的方法,其中将最优化的矢量量化码本用于量化所述想要的矢量输出速率的所述LSF矢量,该码本基于专用的码本训练产生,所述码本训练用于以所述想要的矢量输出速率从所述经低通滤波的LSF轨迹中重建的所述LSF矢量。
10、根据以上权利要求之一所述的方法,其中根据公式F≈1/(2*T),所述截止频率F的选择取决于所述想要的LSF矢量输出速率1/T。
11、用于通信系统的移动站,所述通信系统包括用于执行根据权利要求1至10之一的方法的各步骤的处理装置。
12、包括用于执行根据权利要求1至10之一的方法的各步骤的处理装置的编码器。
13、包括用于执行根据权利要求1至10之一的方法的各步骤的装置的芯片。
14、包括编码器的通信网络,该编码器具有用于执行根据权利要求1至10之一的方法的各步骤的处理装置。
15、包括通信网络和至少一个移动站的通信系统,其中所述的通信网络和/或所述至少一个移动站包括用于执行根据权利要求1至10之一的方法的各步骤的处理装置。
16、带有程序代码的计算机程序,当在处理装置中运行所述计算机程序时,所述程序代码用于执行根据权利要求1至10之一的方法的各步骤。
17、带有程序代码的计算机程序产品,该程序代码存储在机器可读载体中,当在处理装置中运行所述计算机程序的时候,所述程序代码用于执行根据权利要求1至10之一的方法的各步骤。
CNB028288025A 2002-04-22 2002-04-22 一种产生lsf矢量的方法和装置 Expired - Fee Related CN1312463C (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2002/001305 WO2003089892A1 (en) 2002-04-22 2002-04-22 Generating lsf vectors

Publications (2)

Publication Number Publication Date
CN1625681A true CN1625681A (zh) 2005-06-08
CN1312463C CN1312463C (zh) 2007-04-25

Family

ID=29227359

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028288025A Expired - Fee Related CN1312463C (zh) 2002-04-22 2002-04-22 一种产生lsf矢量的方法和装置

Country Status (8)

Country Link
US (1) US7493255B2 (zh)
EP (1) EP1497631B1 (zh)
KR (1) KR100914220B1 (zh)
CN (1) CN1312463C (zh)
AT (1) ATE381091T1 (zh)
AU (1) AU2002307889A1 (zh)
DE (1) DE60224100T2 (zh)
WO (1) WO2003089892A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101149927B (zh) * 2006-09-18 2011-05-04 展讯通信(上海)有限公司 在线性预测分析中确定isf参数的方法
CN103620676A (zh) * 2011-04-21 2014-03-05 三星电子株式会社 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质
US9626979B2 (en) 2011-04-21 2017-04-18 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3947969B2 (ja) * 2002-05-15 2007-07-25 ソニー株式会社 画像処理装置、および画像処理方法、記録媒体、並びにプログラム
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
US8886612B2 (en) * 2007-10-04 2014-11-11 Core Wireless Licensing S.A.R.L. Method, apparatus and computer program product for providing improved data compression
KR20100134623A (ko) * 2008-03-04 2010-12-23 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
CN102072789B (zh) * 2010-11-03 2012-05-23 西南交通大学 一种地面测试铁道车辆轮轨力的连续化处理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5675701A (en) * 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
KR100198476B1 (ko) 1997-04-23 1999-06-15 윤종용 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
WO2000011649A1 (en) * 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
FI118242B (fi) * 2000-09-19 2007-08-31 Nokia Corp Puhekehyksen käsitteleminen radiojärjestelmässä

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101149927B (zh) * 2006-09-18 2011-05-04 展讯通信(上海)有限公司 在线性预测分析中确定isf参数的方法
CN103620676A (zh) * 2011-04-21 2014-03-05 三星电子株式会社 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质
CN103620676B (zh) * 2011-04-21 2016-03-09 三星电子株式会社 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质
US9626980B2 (en) 2011-04-21 2017-04-18 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor
US9626979B2 (en) 2011-04-21 2017-04-18 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore
US10224051B2 (en) 2011-04-21 2019-03-05 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore
US10229692B2 (en) 2011-04-21 2019-03-12 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor

Also Published As

Publication number Publication date
WO2003089892A1 (en) 2003-10-30
CN1312463C (zh) 2007-04-25
KR20040102152A (ko) 2004-12-03
ATE381091T1 (de) 2007-12-15
US7493255B2 (en) 2009-02-17
DE60224100T2 (de) 2008-12-04
US20040006463A1 (en) 2004-01-08
EP1497631B1 (en) 2007-12-12
EP1497631A1 (en) 2005-01-19
AU2002307889A1 (en) 2003-11-03
DE60224100D1 (de) 2008-01-24
KR100914220B1 (ko) 2009-08-26

Similar Documents

Publication Publication Date Title
CN1185626C (zh) 修改语音信号的系统和方法
KR101428608B1 (ko) 대역폭 확장을 위한 스펙트럼 평탄도 제어
US11521625B2 (en) Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
CN1750124A (zh) 带限音频信号的带宽扩展
CN1220972C (zh) 解码装置及编码装置与解码方法及编码方法
CN1241170C (zh) 语音编解码器中用于线频谱频率矢量量化的方法和系统
CN1969319A (zh) 信号编码
CN101044552A (zh) 语音编码装置和语音编码方法
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
CN1527995A (zh) 编码设备和解码设备
CN1795495A (zh) 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
CN1512488A (zh) 在速率可变的声码器中选择编码速率的方法和装置
CN101044553A (zh) 可扩展编码装置、可扩展解码装置及其方法
EP2791937A2 (en) Generation of a high band extension of a bandwidth extended audio signal
JP2004101720A (ja) 音響符号化装置及び音響符号化方法
CN101044554A (zh) 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法
CN104956438B (zh) 执行噪声调制和增益调节的系统和方法
CN1193344C (zh) 语音解码器和一种语音解码方法
CN1787383A (zh) 变换、编码、逆变换和解码音频信号的方法和设备
CN101031960A (zh) 可扩展性编码装置和可扩展性解码装置及其方法
CN1918630A (zh) 量化信息信号的方法和设备
WO2014129233A1 (ja) 音声強調装置
CN1625681A (zh) 产生lsf矢量
CN1145925C (zh) 具有改进语音编码器和解码器的发射机

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070425

Termination date: 20130422