CN1751338A - 用于语音编码的方法和设备 - Google Patents

用于语音编码的方法和设备 Download PDF

Info

Publication number
CN1751338A
CN1751338A CNA2004800045187A CN200480004518A CN1751338A CN 1751338 A CN1751338 A CN 1751338A CN A2004800045187 A CNA2004800045187 A CN A2004800045187A CN 200480004518 A CN200480004518 A CN 200480004518A CN 1751338 A CN1751338 A CN 1751338A
Authority
CN
China
Prior art keywords
filter
ltp
many taps
vector
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800045187A
Other languages
English (en)
Other versions
CN1751338B (zh
Inventor
马克·A·加休科
坦卡西·V·拉玛巴德兰
乌达·米塔尔
詹姆斯·P·阿什利
迈克尔·J·麦克劳克林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CN201010189396.0A priority Critical patent/CN101847414B/zh
Publication of CN1751338A publication Critical patent/CN1751338A/zh
Application granted granted Critical
Publication of CN1751338B publication Critical patent/CN1751338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种方法(图9)和设备(500,600),用于语音编码系统中的预测,使用子采样分解延迟,将一阶长时预测器(LTP)滤波器扩展到多抽头LTP滤波器(504,604)。从另一角度来看,将常规整数采样分解多抽头LTP滤波器扩展为使用子采样分解延迟。这样的多抽头LTP滤波器提供了相对现有技术的多种优势。具体地说,定义具有子采样分解的滞后,使得有可能显式地对具有小数分量的延迟值建模,其处于插值滤波器所采用的过采样因子的分解的限度内。多抽头LTP滤波器的系数(βi’s)因此不用对具有小数分量的延迟的效应进行建模。因此,其主要功能是通过对所呈现出的周期性程度建模并且通过施加频谱整形来最大化LTP滤波器的预测增益。

Description

用于语音编码的方法和设备
技术领域
本发明一般涉及信号压缩系统,更具体涉及用于语音编码的方法和设备。
背景技术
低速编码应用,诸如数字语音,通常采用诸如线性预测编码(LPC)的技术来对短时语音信号的频谱建模。采用LPC技术的编码系统提供了预测残差信号来校正短时模型的特性。一种这样的语音系统是称为码激励线性预测(CELP)的语音编码系统,其以低码率提供了高质量的合成语音,其中的低码率也就是4.8到9.6kbps的码率。这类语音编码也被称为矢量激励线性预测或随机编码,用于许多语音通信和语音合成应用中。CELP还特别适用于很关注语音质量、数据率、大小和成本的数字语音加密和数字无线电话通信系统。
实现LPC编码技术的CELP语音编码器通常采用长时(基音)和短时(共振峰)预测器,对输入语音信号的特性进行建模并且结合到一组时变线性滤波器中。滤波器的激励信号或码矢量是从存储的码矢量码本中选取的。对于每个语音帧,语音编码器将码矢量应用于滤波器以生成重构的语音信号,并且将原始输入语音信号与重构信号进行比较来创建差信号。随后通过使差信号通过具有基于人类听觉的响应的感觉加权滤波器来对差信号进行加权。通过选择产生具有最小能量(差值)的加权差信号的一个或多个码矢量来为当前帧确定优化激励信号。通常,将帧分成两个或者更多的相邻的子帧。通常每帧确定一次短时预测器参数,通过在当前帧和前一帧的短时预测器参数之间插值来在每个子帧进行更新。通常对于每一子帧确定激励信号参数。
例如,图1是现有技术的CELP编码器100的框图。在CELP编码器100中,将输入信号s(n)施加到线性预测(LP)分析器101,其中使用线性编码来估计短时谱包络。生成的谱系数(或者线性预测(LP)系数)由传输函数A(z)表示。将谱系数施加于LP量化器102,量化谱系数以产生适用于复用器109的量化后的谱系数Aq。随后将量化谱系数Aq传输到复用器109,复用器根据量化频谱系数和一组与激励矢量有关的参数L,βi’s,I和γ产生编码码流,其中这组与激励矢量有关的参数是通过方差最小化/参数量化模块108确定的。结果,对于每个语音块,产生了对应的一组与激励矢量有关的参数,其包括多抽头(multi-tap)长时预测器(LTP)参数(滞后L和多抽头预测器系数βi’s),以及固定码本参数(索引I和缩放因子γ)。
量化谱参数还本地传送到具有对应的传输函数1/Aq(z)的LP合成滤波器105。LP合成滤波器105还接收组合激励信号ex(n)并根据量化谱系数Aq和组合激励信号ex(n)产生对输入信号的估计
Figure A20048000451800051
。组合激励信号ex(n)如下产生。固定码本(FCB)码矢量或激励矢量
Figure A20048000451800052
基于固定码本索引参数I而选择白固定码本(FCB)103。FCB码矢量 随后根据增益参数γ进行缩放,将缩放后的固定码本码矢量传送到多抽头长时预测器(LTP)滤波器104。多抽头LTP滤波器104具有对应的传输函数:
1 ( 1 - Σ i = - K 1 K 2 β i z - L + i ) , K 1 ≥ 0 , K 2 ≥ 0 , K = 1 + K 1 + K 2 - - - ( 1 )
其中,K是LTP滤波器阶数(通常在1到3之间,包含1、3),βi’s和L是与激励矢量有关的参数,通过方差最小/参数量化模块108传送到滤波器。在上面的LTP滤波器传输函数的定义中,L是以采样数目表示的延迟的整数值。LTP滤波器传输函数的这种形式在下述论文中有描述:Bishnu S.Atal,“Predictive Coding of Speech at Low BitRates,”IEEE Transactions on Communications,VOL.COM-30,NO.4,April 1982,pp.600-614(以下称为Atal)以及Ravi P.Ramachandran andPeter Kabal,“Pitch Prediction Filters in Speech Coding,”IEEETransactions on Acoustics,Speech,and Signal Processing,VOL.37,NO.4,April 1989,pp.467-478(以下称为Ramachandran et.al.)。滤波器104对从FCB 103接收的缩放固定码本码矢量进行滤波,产生组合激励信号ex(n)并将激励信号传送到LP合成滤波器105。
LP合成滤波器105将输入信号估计
Figure A20048000451800061
传送到组合器106。组合器106还接收输入信号s(n)并用输入信号s(n)减去输入信号估计
Figure A20048000451800062
输入信号s(n)和输入信号估计 之差施加到感觉差加权滤波器107,该滤波器根据
Figure A20048000451800064
与s(n)之差以及加权函数W(z)产生感觉加权的差信号e(n)。随后将感觉加权的差信号e(n)传送到方差最小/参数量化模块108。方差最小/参数量化模块108使用差信号e(n)来确定差值E(通常, E = Σ n e 2 ( n ) ),以及优化的一组与激励矢量有关的参数L,βi’s,I和γ,以根据最小化的E产生输入信号s(n)的最佳估计
Figure A20048000451800066
。量化LP系数和优化的一组参数L,βi’s,I和γ随后通过通信信道传送到接收通信设备,在接收通信设备,语音合成器使用LP系数和与激励矢量有关的参数来重构输入语音信号的估计 。可替换的使用包括有效存储到电子或电机设备,诸如计算机硬盘。
在诸如编码器100的CELP编码器中,用于生成CELP编码器组合激励信号ex(n)的合成函数由下面的广义差分方程给出:
ex ( n ) = γ c ~ I ( n ) + Σ i = - K 1 K 2 β i ex ( n - L + i ) , n = 0 , . . . , N - 1 , K 1 ≥ 0 , K 2 ≥ 0 - - - ( 1 a )
其中,ex(n)是子帧的合成组合激励信号, 是码矢量或激励矢量,选择自码本,诸如FCB 103,I是索引参数或码字,指定所选的码矢量,γ是用于缩放码矢量的增益,ex(n-L+i)是相对于当前子帧的第(n+i)个采样延迟L(整数分解)个采样的合成组合激励信号(对于浊音语音,L通常与基音周期有关),βi’s是长时预测器(LTP)滤波器系数,N是子帧中的采样数。当n-L+i<0时,ex(n-L+i)包含过去合成激励的历史,构造为如式(1a)所示。也就是说,对于n-L+i<0,表达式“ex(n-L+i)”对应于在当前子帧之前构建的激励采样,该激励采样已经根据LTP滤波器传输函数延迟且缩放,其中传输函数为
1 1 - Σ i = - K 1 K 2 β i z - L + i , K 1 ≥ 0 , K 2 ≥ 0 , K = 1 + K 1 + K 2 - - - ( 2 )
诸如编码器100的典型CELP语音编码器的任务在于选择指定合成激励的参数,也就是编码器100中的参数L,βi’s,I,γ,给出ex(n),0≤n<N以及所确定的短时线性预测器(LP)滤波器105的系数,由此,当合成激励序列ex(n),0≤n<N通过LP滤波器105滤波时,得到的合成语音信号
Figure A20048000451800072
非常接近于(根据所采用的失真标准)要对该子帧编码的输入语音信号s(n)。
当LTP滤波器阶数K>1,式(1)中所定义的LTP滤波器是多抽头滤波器。所述的常规整数采样分解延迟多抽头滤波器寻求将给定采样预测为K个通常相邻的延迟采样的加权和,其中延迟限于期望的基音周期值的范围内(通常8kHz信号采样率为20到147个采样之间)。整数采样分解延迟(L)多抽头LTP滤波器能够隐式地对非整数值延迟建模,同时提供频谱整形(Atal,Ramachandran et.al.)。多抽头LTP滤波器除了L之外,需要K个独特βi系数的量化。如果K=1,一阶LTP滤波器结果只需要一个β0系数的量化和L。但是,一阶LTP滤波器使用整数采样分解延迟L,不能够隐式地对非整数延迟值建模,不同于舍入到最近的整数或非整数延迟的整倍数。也不会提供频谱整形。然而,考虑到许多低码率语音编码器实现,通常已使用一阶LTP滤波器实现,因为只有两个参数L和β需要量化。
引入一阶LTP滤波器,使用子采样分解延迟,显著提高了LTP滤波器设计的前沿技术。该项技术在下述文献中有记载:发明人Ira A.Gerson和Mark A.Jasiuk、题为“Digital Speech Coder Having ImprovedSub-sample Resolution Long-Term Predictor,”的美国专利5,359,696(下文称为Gerson et.al.),以及教科书章节Peter Kroon和Bishnu S.Atal,“OnImproving the Performance of Pitch Predictors in Speech CodingSystems,”Advances in Speech Coding,Kluwer Academic Publishers,1991,Chapter 30,pp.321-327(下文称为Kroon et.al)。使用这样的技术,延迟值显式地表示以子采样分解,在此重新定义为
Figure A20048000451800081
延迟
Figure A20048000451800082
的采样可以通过使用插值滤波器而获得。为了计算具有不同小数部分的 值延迟的采样,插值滤波器相位提供了最接近所需小数部分的表示,可以选择来通过使用对应于所选插值滤波器相位的插值滤波器系数进行滤波而生成子采样分解延迟采样。这样的一阶LTP滤波器明显使用了子采样分解延迟,能够以子采样分解提供预测采样,但是缺乏提供频谱整形的能力。但是,已经看到(Kroon et.al.)一阶LTP滤波器通过子采样分解延迟可以比常规整数采样分解延迟多抽头LTP滤波器更加有效地去除长时信号相关。由于是一阶LTP滤波器,只需要将两个参数从编码器传送到解码器:β和 从而提高了相对于整数分解延迟多抽头LTP滤波器的量化效率,因为整数分解延迟多抽头LTP滤波器需要量化L和K个唯一的βi系数。因此,LTP滤波器的一阶子采样分解形式在当前CELP型语音编码算法中得到了最广泛应用。LTP滤波器传输函数由下式给出:
1 1 - βz - L ^ - - - ( 3 )
也给出了对应的差分方程:
ex ( n ) = &gamma; c ~ I ( n ) + &beta;ex ( n - L ^ ) , 0 &le; n < N - - - ( 4 )
在式(3)和(4)中隐式地使用了插值滤波器来通过子采样分解延迟
Figure A20048000451800087
计算所指向的采样。
图2显示了多抽头LTP(图1所示)与具有子采样分解的LTP之间的固有差,如上所述。在编码器200中,LTP 204只需要来自差最小化/参数量化模块208的两个参数(β, 随后将参数
Figure A20048000451800092
β,I,γ,传送到复用器109。
注意,在关于LTP滤波器的描述中,给出了LTP滤波器传输函数的广义形式。ex(n)对于n<0的值包含LTP滤波器状态。对于有必要访问n(n≥0)采样的L或
Figure A20048000451800093
值,当评估式(1)或(4)中的ex(n)时,通常使用称为虚拟码本或自适应码本(ACB)的LTP滤波器的简化和非等价形式,这将在后面进行详细地描述。这项技术记载于发明人为Richard H.Ketchum,Willem B.Kleijn,Daniel J.Krasinski,题为“CodeExcited Linear Predictive Vocoder Using Virtual Searching”的美国专利4,910,781(下文称为Ketchum et.al.)。术语“LTP滤波器”,严格地说,指的是式(1a)或(4)的直接实现,但是如此处所使用的,也可以指LTP滤波器的ACB实现。在这个差别对于描述现有技术和本发明来说十分重要的情况下,将明显地加以区分。
ACB实现的图形表示如图3所示。当子采样分解滤波器延迟 值大于子帧长度N时,图2和3通常是等价的。在此情形下,ACB存储器310和LTP滤波器204存储器基本上包含相同的数据。但是,当滤波器延迟小于子帧长度时,缩放的FCB激励和LTP滤波器存储器通过LTP存储器204再循环,并且通过β系数进行递归缩放迭代。在ACB实现310中,ACB矢量使用单位增益长时滤波器进行循环,形式上为:
ex ( n ) = ex ( n - L ^ ) , 0 &le; n < N - - - ( 4 a )
然后使c0(n)=ex(n),0≤n<N,随后通过单一、非递归情况的β系数进行缩放。
考虑到讨论过的实现LTP滤波器的两种方法,即整数分解延迟多抽头LTP滤波器和一阶子采样分解延迟LTP滤波器,每种方法都能够直接实现(100,200)或者通过ACB方法(300)实现,可详细说明如下:
常规多抽头预测器同时执行两个任务:频谱整形和通过生成预测采样作为预测用采样的加权和来进行非整数延迟的隐式建模(Atal et.al.和Ramachandran et.al.)。在常规多抽头LTP滤波器中,两个任务——频谱整形和非整数延迟的隐式建模不会有效地在一起建模。例如,三阶多抽头LTP滤波器,如果不需要对给定子帧的频谱整形,将通过非整数分解隐式地对延迟建模。但是,这样一个滤波器的阶数不足以高到能提供高质量内插采样值。
另一方面,一阶子采样分解LTP滤波器可以显式地使用延迟的小数部分来选择任意阶插值滤波器的相位,并因此非常高质量。该方法中子采样分解延迟被明显地定义和使用,提供了表示插值滤波器系数的非常有效方法。这些系数不需要显式地进行量化和传输,而是可以从接收的延迟中推导出来,其中所说的延迟是通过子采样分解表示的。尽管这样的滤波器不能够引入频谱整形,对于浊音(准周期性)语音来说,可以发现通过子采样分解定义的延迟的效果比引入频谱整形的能力更加重要(Kroon et.al.)。这就是通过子采样分解延迟的一阶LTP滤波器比常规多抽头LTP滤波器更有效、更广泛用于许多业界标准的原因。
尽管子采样分解一阶LTP滤波器为LTP滤波器提供了非常有效的模型,希望提供一种机制来进行频谱整形,这是子采样分解一阶LTP滤波器所缺乏的特性。语音信号谐波结构倾向于弱化高频。这个效应对于宽带语音编码系统来说变得愈加显著,而其特征就在于增加了信号带宽(相对于窄带信号)。在宽带语音编码系统中,信号带宽可以达到8kHz(16kHz采样率),而窄带语音编码系统只能达到最大4kHz(8kHz采样率)。一种增加频谱整形的方法记载于发明人为BrunoBessette,Redwan Salami,Roch Lefebvre,题为“Pitch Search in CodingWideband Signals”的专利WO 00/25298(下文称为Bessette et.al.)。该方法如图4所描绘的,规定提供至少两个频谱整形滤波器(420)以供选择(其中的一个具有单位传输函数),并且需要通过评估频谱整形滤波器对LTP矢量进行显式滤波。还描述了该方法的可替换的实现,由此提供了至少两种不同的插值滤波器,每一种都具有不同的频谱整形。在这两种实现的任何一种中,滤波后的LTP矢量用于生成失真度量,其被结合LTP滤波器参数来评估(408)选择使用这至少两个频谱整形滤波器中的哪个(421)。尽管这项技术提供了改变频谱整形的方法,但其需要在计算对应于LTP矢量和频谱整形滤波器组合的失真度量之前显式地生成频谱整形后的LTP矢量。如果提供了一大组的频谱整形滤波器以供选择的话,由于滤波操作的原因,可能会导致可估计的复杂度增加。而且,与所选滤波器有关的信息,诸如索引m,需要进行量化并从编码器(通过复用器109)传送到解码器。
因此,需要一种用于语音编码的方法和设备,其能够有效对非整数延迟值建模且能够提供频谱整形。
附图说明
图1是使用整数采样分解延迟多抽头LTP滤波器的现有技术的码激励线性预测(CELP)编码器的框图。
图2是使用子采样分解一阶LTP滤波器的现有技术的码激励线性预测(CELP)编码器的框图。
图3是使用子采样分解一阶LTP滤波器(实现为虚拟码本)的现有技术的码激励线性预测(CELP)编码器的框图。
图4是使用子采样分解一阶LTP滤波器(实现为虚拟码本)和频谱整形滤波器的现有技术的码激励线性预测(CELP)编码器的框图。
图5是根据本发明实施例(非约束子采样分解多抽头LTP滤波器)的码激励线性预测(CELP)编码器的框图。
图6是根据本发明实施例(非约束子采样分解多抽头LTP滤波器,实现为虚拟码本)的码激励线性预测(CELP)编码器的框图。
图7是根据本发明另一实施例(子采样分解多抽头LTP滤波器的对称实现)的码激励线性预测(CELP)编码器的框图。
图8是用于编码器中的本发明的信号流程和处理模块的框图(子采样分解多抽头LTP滤波器和子采样分解多抽头LTP滤波器的对称实现)。
图9是根据本发明实施例的图8的CELP编码器在对信号编码过程中所执行的步骤的逻辑流程图。
具体实施方式
为了解决上述需要,这里提供了一种用于在语音编码系统中预测的方法和设备。使用子采样分解延迟的一阶LTP滤波器的方法,扩展到多抽头LTP滤波器,或者从另一优势角度来看,常规整数采样分解多抽头LTP滤波器扩展到了使用子采样分解延迟。这个新颖的多抽头LTP滤波器方程提供了相对于现有技术LTP滤波器配置的多种优点。限定具有子采样分解的滞后,使得有可能在插值滤波器所使用的过采样因子的分解的限制内显式地对具有小数分量的延迟值建模。这样的多抽头LTP滤波器的系数(βi’s)因此不用对具有小数分量的延迟的效应进行建模。由此,其主要功能是通过对呈现出的周期性程度建模并且通过进行频谱整形来最大化LTP滤波器的预测增益。这与常规整数采样分解多抽头LTP滤波器形成对比,常规整数采样分解多抽头LTP滤波器使用单一、低效率的模型来处理对非整数值延迟和频谱整形都建模的有时的冲突任务。比较新LTP滤波器与一阶子采样分解LTP滤波器,新方法在将一阶子采样分解LTP滤波器扩展到多抽头LTP滤波器方面,增加了对频谱整形建模的能力。
对于某些语音编码器应用,可能希望对LTP矢量进行频谱整形。例如,新的LTP方程提供了用于表示子采样分解延迟和频谱整形的非常有效的模型,可用于在给定码率改进语音质量。对于具有宽带信号输入的语音编码器来说,提供频谱整形的能力具有额外的重要性,因为信号中的谐波结构倾向于减弱高频,其减弱程度各子帧都不相同。现有技术中将频谱整形加入到一阶子采样分解LTP滤波器的方法(Bessette,et.al.)是将频谱整形滤波器施加到LTP滤波器的输出,提供至少两个整形滤波器以供选择。频谱整形的LTP矢量随后被用于生成失真度量,评估该失真度量以确定要使用的频谱整形滤波器。
图5显示了LTP滤波器配置,提供了一种用于表示子采样分解延迟和频谱整形的更灵活的模型。滤波器配置提供了一种用于计算或选择这样的滤波器的参数的方法,而不用明显地执行频谱整形滤波操作。本发明的这个方面使得可以非常有效地计算滤波器参数βi’s,其体现了有关优化频谱整形的信息,或者从提供的一组βi系数值(或βi矢量)中选择多抽头滤波器系数βi’s。LTP滤波器504的广义传输函数为:
1 1 - &Sigma; i = - K 1 K 2 &beta; i z - L ^ + i , K 1 &GreaterEqual; 0 , K 2 &GreaterEqual; 0 , K 1 + K 2 > 0 , K = 1 + K 1 + K 2 - - - ( 5 )
上述滤波器的阶数是K,其中选择K>1,导致多抽头LTP滤波器。延迟 是通过子采样分解进行定义的,对于具有小数部分的延迟值 是用插值滤波器来计算子采样分解延迟采样,如Gerson et.al.和Kroon et.al所述。系数(βi’s)不用对具有小数分量的延迟效应进行建模,可以计算或选择以通过呈现出的周期性程度建模或者通过同时加以频谱整形来最大化LTP滤波器的预测增益。这是新LTP滤波器配置和Bessette et.al.之间的另一个区别。系数(βi’s)隐式体现了频谱整形特性;也就是说,不需要专用的一组频谱整形滤波器以供选择,通过滤波器选择决策然后量化并从编码器传送到解码器。例如,如果完成了βi系数的矢量量化且βi矢量量化表包含J种可能的βi矢量供选择,这样的表可能隐式地包含J种不同的频谱整形特性,每个βi矢量一个。而且,不需要进行频谱整形滤波来计算对应于要评估的βi矢量的失真度量(在508中),如将要解释的。在本发明另一实施例中,LTP滤波器系数可以通过要求LTP滤波器的多个抽头对称从而完全防止对非整数延迟建模的尝试。对称滤波器需要对于所有有效索引值i,β-i=βi;也就是说,对于K1≤i≤K2,其中K1=K2且K为奇数。这样的配置对于量化效率和降低计算复杂度来说是有利的。
结合图6-9说明可以更全面地描述本发明。图6是根据本发明实施例的CELP型语音编码器600的框图。很显然,LTP滤波器604包括多抽头LTP滤波器604,包括码本310、K激励矢量生成器(620)、缩放单元(621)以及加法器612。
编码器600实现在处理器中,诸如一个或多个微处理器、微控制器、数字信号处理器(DSP)、其组合或者本领域普通技术人员已知的其他这样的设备,其可以与一个或多个相关存储设备通信,存储设备诸如随机存取存储器(RAM)、动态随机存取存储器(DRAM)和/或只读存储器(ROM)或其等价物,用来储存数据、码本、以及可由处理器执行的程序。
新多抽头LTP滤波器的传输函数(式5)重写如下:
P ( z ) = 1 1 - &Sigma; i = - k 1 K 2 &beta; i z - L ^ + i , K 1 &GreaterEqual; 0 , K 2 &GreaterEqual; 0 , K 1 + K 2 > 0 , K = 1 + K 1 + K 2 - - - ( 6 )
对应的用于创建组合合成激励ex(n)的CELP广义差分方程为:
ex ( n ) = &gamma; c ~ I ( n ) + &Sigma; i = - K ` K 2 &beta; i ex ( n - L ^ + i ) , 0 &le; n < N , where - - - ( 7 )
K1≥0,K2≥0,K1+K2>0,K=1+K1+K2
在优选实施例中,对于需要访问到 ex ( n - L ^ + i ) ( ( n - L ^ + i ) &GreaterEqual; 0 ) 的值,使用自适应码本(ACB)技术来减低复杂度。如较早前讨论的,该技术是LTP滤波器的简化和非等价实现,并且记载于Ketchum et.al.中。该简化包括使当前子帧的ex(n)的采样;即0≤n<N,取决于ex(n)的采样,定义n<0,并且因此独立于当前子帧的ex(n)的采样定义,0≤n<N。使用这样的技术,ACB矢量定义如下:
ex ( n ) = ex ( n - L ^ ) , 0 &le; n < N - - - ( 8 )
对于具有小数分量的
Figure A20048000451800152
值,使用插值滤波器来计算延迟采样。与Ketchum et.al.中给出的ACB的原始定义不同,需要在子帧的第N个采样之外计算ex(n)的K2个额外采样:
ex ( n ) = ex ( n - L ^ ) , N &le; n < N + K 2 - - - ( 9 )
使用式(8-9)中生成的ex(n)的采样,定义新的信号ci(n):
ci(n)=ex(n+i),0≤n<N,-K1≤i≤K2        (10)
组合合成子帧激励现在可以使用式(8-10)的结果表示为:
ex ( n ) = &gamma; c ~ I ( n ) + &Sigma; i = - K 1 K 2 &beta; i c i ( n ) , 0 &le; n < N , - K 1 &le; i < K 2 - - - ( 11 )
语音编码器的任务是选择LTP滤波器参数
Figure A20048000451800155
和βi’s以及激励码本索引I和码矢量增益γ,从而最小化输入语音s(n)和编码语音 之间的感觉加权差能量。
重写式(11)得到:
ex ( n ) = &Sigma; j = 0 K &lambda; j c &OverBar; j ( n ) , 0 &le; n < N , 其中           (12)
c &OverBar; j ( n ) = c - K 1 + j ( n ) . 0 &le; j < K c ~ I ( n ) , j = K , 0 &le; n < N - - - ( 13 )
&lambda; j = &beta; - K 1 + j , 0 &le; j < K &gamma; , j = K - - - ( 14 )
让感觉加权合成滤波器滤波后的ex(n)为:
ex &prime; ( n ) = &Sigma; j = 0 K &lambda; j c &OverBar; j &prime; ( n ) , 0 &le; n < N - - - ( 15 )
cj′(n)是通过感觉加权合成滤波器H(z)=W(z)/Aq(z)滤波后的cj(n)。而且,让p(n)为通过感觉加权滤波器W(z)的输入语音s(n)。随后,每采样的感觉加权差e(n)为:
e ( n ) = p ( n ) - ex &prime; ( n ) = p ( n ) - &Sigma; j = 0 K &lambda; j c &OverBar; j &prime; ( n ) , 0 &le; n < N - - - ( 16 )
给出子帧加权差能量值E:
E = &Sigma; n = 0 N - 1 e 2 ( n ) = &Sigma; n = 0 N - 1 [ p ( n ) - ex &prime; ( n ) ] 2 = &Sigma; n = 0 N - 1 [ p ( n ) - &Sigma; j = 0 K &lambda; j c &OverBar; j &prime; ( n ) ] 2 - - - ( 17 )
并且可以扩展为:
E = &Sigma; n = 0 N - 1 [ p 2 ( n ) - 2 &Sigma; j = 0 K &lambda; j p ( n ) c &OverBar; j &prime; ( n ) + 2 &Sigma; i = 0 K - 1 &Sigma; j = i + 1 K &lambda; i &lambda; j c &OverBar; i &prime; ( n ) c &OverBar; i &prime; ( n ) c &OverBar; j &prime; ( n ) + &Sigma; j = 0 K &lambda; j 2 c &OverBar; j &prime; 2 ( n ) ] - - - ( 18 )
将求和
Figure A20048000451800164
移动到式(18)的括号中,得到:
E = &Sigma; n = 0 N - 1 p 2 ( n ) - 2 &Sigma; j = 0 K &lambda; j &Sigma; n = 0 N - 1 p ( n ) c &OverBar; j &prime; ( n ) + 2 &Sigma; i = 0 K - 1 &Sigma; j = i + 1 K &lambda; i &lambda; j &Sigma; n = 0 N - 1 c &OverBar; i &prime; ( n ) c &OverBar; j &prime; ( n ) + &Sigma; j = 0 K &lambda; j 2 &Sigma; n = 0 N - 1 c &OverBar; j &prime; 2 ( n ) - - - ( 19 )
很明显,式(19)可以等价地表示为下面几项:
(i)βi,-K1≤i≤K2和γ,或者等价为(λ0,λ1,…,λK),
(ii)滤波构成矢量 c0′(n)到 cK′(n)之间的互相关,即(Rcc(i,j)),
(iii)感觉加权目标矢量p(n)和每个滤波构成矢量之间的互相关,即(Rpc(i)),和
(iv)子帧的加权目标矢量p(n)中的能量,即(Rpp)。
上面列出的相关可以用下面的公式来表示:
R pp = &Sigma; n = 0 N - 1 p 2 ( n ) - - - ( 20 )
R pc ( i ) = &Sigma; n = 0 N - 1 p ( n ) c &OverBar; i &prime; ( n ) , 0 &le; i &le; K - - - ( 21 )
R cc ( i , j ) = &Sigma; n = 0 N - 1 c &OverBar; i &prime; ( n ) c &OverBar; j &prime; ( n ) , 0 &le; i &le; K , i &le; j &le; K - - - ( 22 )
Rcc(j,i)=Rcc(i,j),0≤i<K,i<j≤K           (23)
以式(20)-(23)和增益矢量λj,0≤j≤K的形式重写式(19),则生成下面的关于子帧的感觉加权差能量值E的公式:
E = R pp - 2 &Sigma; j = 0 K &lambda; j R pc ( j ) + 2 &Sigma; i = 0 K - 1 &Sigma; j = i + 1 K &lambda; i &lambda; j R cc ( i , j ) + &Sigma; j = 0 K &lambda; j 2 R cc ( j , j ) - - - ( 24 )
解联合优化的一组与激励矢量有关的增益项λj,0≤j≤K包括对于每个λj,0≤j≤K取E的偏微分,将每个得到的偏微分方程设为等于0,然后解得到的K+1个联立线性方程的系统,即,解下面的一组联立线性方程:
&PartialD; E &PartialD; &lambda; j = 0,0 &le; j &le; K - - - ( 25 )
评估式(25)中给出的K+1个方程,得到K+1个联立线性方程的系统。联合优化增益或缩放因子(λ0,λ1,…,λK)的矢量的解可以通过解下面的方程而获得:
R cc ( 0,0 ) R cc ( 0,1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( 0 , K ) R cc ( 1,0 ) R cc ( 1,1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( 1 , K ) &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; R cc ( K , 0 ) R cc ( K , 1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( K , K ) &lambda; 0 &lambda; 1 &CenterDot; &lambda; K = R pc ( 0 ) R pc ( 1 ) &CenterDot; R pc ( K ) - - - ( 26 )
本领域普通技术人员应该认识到,解方程(26)不需要编码器600实时执行。编码器600可以脱机地解方程(26),作为训练和获取储存在各个增益信息表626中的增益矢量(λ0,λ1,…,λK)的一部分。每个增益信息表626可包括一个或多个表,储存增益信息,其包括在各个差最小化单元/电路608中,或者可以由各个差最小化单元/电路608所引,并且随后用于量化和联合优化与激励矢量有关的增益项(λ0,λ1,…,λK)。注意,式(11)中定义的组合合成激励ex(n)所需的增益项βi’s和γ(并且重写如下):
ex ( n ) = &gamma; c ~ 1 ( n ) + &Sigma; i = - K 1 K 2 &beta; i c i ( n ) , 0 &le; n < N , - K 1 &le; i &le; K 2 , K = 1 + K 1 + K 2 - - - ( 27 )
可以使用式(14)中指定的变量映射来获得,如下:
&beta; i = &lambda; K 1 + i , - K 1 &le; i &le; K 2
γ=λk                 (28)
给定由此获得的每个增益信息表626,编码器600、尤其是差最小化单元608的任务就是使用增益信息表626选择增益矢量,即(λ0,λ1,…,λK),从而在评估的增益信息表上最小化如式(24)所表示的子帧的感觉加权差能量E。为了帮助选择生成感觉加权差矢量的最小能量的(λ0,λ1,…,λK)矢量,式(24)中包括表达为E的表示中的λi,0≤i≤K的每一项可以对于每一(λ0,λ1,…,λK)矢量进行预计算,并储存在各个增益信息表626中,其中每一增益信息626包括查找表。
一旦根据增益信息表626确定了增益矢量,所选(λ0,λ1,…,λK)的每个元素都可以通过用式(24)的预计算的项(对应于所选增益矢量)的第一(K+1)的对应元素(也就是
Figure A20048000451800183
乘以值“-0.5”。这使得有可能储存预计算的差项(由此降低评估E所需的计算量),并消除在量化表中显式储存实际(λ0,λ1,…,λK)矢量的需要。由于相关Rpp、Rpc和Rcc是通过如上所述的生成芍 cj′(n),0≤j≤K的分解步骤显式地从增益项(λ0,λ1,…,λK)去耦的,相关Rpp、Rpc和Rcc可以每子帧只计算一次。而且,对Rpp的计算可以一起忽略,因为对于给定子帧,相关Rpp是一个常量,在式(24)中有或没有相关Rpp的结果,都将选择相同的增益矢量,即(λ0,λ1,…,λK)。
当如上所述预计算式(24)的项时,对式(24)的评估可以有效地通过每个评估的增益矢量使用 次乘累加(MAC)操作来实现。本领域普通技术人员将认识到,尽管这里为了说明的目的描述了差最小化单元608的特定增益矢量量化器,即增益信息表626的特定格式,但所概述的方法适用于其他量化增益信息的方法,例如标量量化、矢量量化、或者矢量量化和标量量化技术的组合,包括无记忆和/或预测技术。本领域公知,使用标量量化或矢量量化技术将包括将增益信息储存到增益信息表626中,其可用于确定增益矢量。
因此,在编码器600操作过程中,差加权滤波器107输出加权差信号e(n)到差最小化电路608,电路608输出多抽头滤波器系数和所选的LTP滤波器延迟
Figure A20048000451800192
来最小化加权差值。如上所讨论的,滤波器延迟包括子采样分解值。提供多抽头LTP滤波器604来接收滤波器系数和基音延迟以及固定码本激励,并根据滤波器延迟和多抽头滤波器系数输出组合合成激励信号。
在图6和图7(下面描述)中,多抽头LTP滤波器604、704包括自适应码本,接收滤波器延迟并输出自适应码本矢量。矢量生成器620、720生成时移/组合自适应码本矢量。提供多个缩放单元621、721,每个单元用来接收时移自适应码本矢量并输出多个缩放的时移码本矢量。注意,时移自适应码本矢量之一的时移值有可能为0,对应于没有时移。最终,求和电路612接收缩放的时移码本矢量以及所选择的缩放FCB激励矢量,并输出组合合成激励信号,作为缩放时移码本矢量和所选择的缩放FCB激励矢量的和。
现在描述本发明的另一实施例,如图7所示。如前所述,多抽头LTP滤波器的系数βi使用子采样分解延迟 不用对LTP滤波器延迟
Figure A20048000451800202
的非整数值建模,因为具有小数分量的
Figure A20048000451800203
值对小数延迟的采样建模是使用差值滤波器显式地完成的;例如,如Gerson et.al.和Kroon et.al.所教导的。尽管如此,即使使用延迟的子采样分解值,表示 的分解通常限于诸如插值滤波器所使用的最大过采样因子设计选择和用于表示离散值
Figure A20048000451800205
的量化器的分解。计算或选择语音编码器增益从而最小化式(24)的子帧加权差能量E的过程采用了K个βi系数中固有的K种自由度来补偿差异。通常,这是个正效应。但是,如果用于量化语音编码增益的比特分配有限,则可能有利的是,重新定义子采样分解延迟多抽头LTP滤波器(或其ACB实现),从而从多抽头滤波器抽头βi中去除了补偿由于用所选(有限)分解表示
Figure A20048000451800206
所引起的失真的建模能力。这样的方程减少了βi系数的变化,使得βi’s更顺从于随后的量化。在此情况中,βi系数的建模弹性限于表示呈现的周期性的程度以及对频谱整形建模——这都是寻求最小化式(24)的E的副产品。
使子采样分解多抽头LTP滤波器为奇阶数,也就是要求阶数K为奇数,并且使滤波器对称,也就是具有这样的性质:β-i=βi,K1=K2,K1≤i≤K2,这使得LTP滤波器704满足上述设计目标。注意,对称滤波器可以是偶阶数的,但是在优选实施例中选择为奇数。式(6)的LTP滤波器传输函数版本被修改为对应于奇、对称滤波器,如下所示:
P ( z ) = 1 1 - &beta; 0 z - L ^ - &Sigma; i = 1 K &prime; &beta; i ( z - L ^ - i + z - L ^ + i ) , K &prime; &GreaterEqual; 1 , K = 1 + 2 K &prime; - - - ( 6 a )
现在通过ACB码本实现来描述优选实施例的滤波器。根据式(8),重新写下ACB矢量定义:
ex ( n ) = ex ( n - L ^ ) , 0 &le; n < N - - - ( 29 )
对于具有小数分量的 值,使用插值滤波器来计算延迟采样。定义新变量K′,其中K′=K1=K2。接下来,在子帧的第N个采样之外将ex(n)扩展K′个采样:
ex ( n ) = ex ( n - L ^ ) , N &le; n < N + K &prime; , K &prime; &GreaterEqual; 1 - - - ( 30 )
对称滤波器的阶数为:
K=1+2K′                     (31)
在优选实施例中,K′=1。由于β-i=βi,很方便地考虑只有唯一的βi值;也就是将βi系数的索引以0≤i≤K′代替-K′≤i≤K′。这可以如下所示地完成。使用式(30-31)中生成的采样ex(n),现在定义新的信号vi(n):
v i ( n ) = ex ( n ) , i = 0 [ ex ( n - i ) + ex ( n + i ) ] , 1 &le; i &le; K &prime; , 0 &le; n < N - - - ( 32 )
组合合成子帧激励ex(n)随后可以使用式(30-32)的结果表示为:
ex ( n ) = &gamma; c ~ I ( n ) + &Sigma; i = 0 K &prime; &beta; i v i ( n ) , 0 &le; n < N - - - ( 33 )
语音编码器的任务是选择LTP滤波器参数
Figure A20048000451800214
和βi系数以及激励码本索引I和码矢量增益γ,从而最小化语音s(n)和编码语音
Figure A20048000451800215
之间的子帧加权差能量。
重写式(33)得到:
ex ( n ) = &Sigma; j = 0 K &prime; + 1 &lambda; j c &OverBar; j ( n ) , 0 &le; n < N , where - - - ( 34 )
c &OverBar; j ( n ) = v j ( n ) , 0 &le; j &le; K &prime; c ~ I ( n ) , j = K &prime; + 1 , 0 &le; n < N - - - ( 35 )
&lambda; j = &beta; j , 0 &le; j &le; K &prime; &gamma; , j = K &prime; + 1 - - - ( 36 )
让感觉加权合成滤波器所滤波后的ex(n)为:
ex &prime; ( n ) = &Sigma; j = 0 K &prime; + 1 &lambda; j c &OverBar; j &prime; ( n ) , 0 &le; n < N - - - ( 37 )
cj′(n)是 cj(n)在被感觉加权合成滤波器H(z)=W(z)/Aq(z)滤波后的版本。如前,让p(n)为经过感觉加权滤波器W(z)滤波的输入语音s(n)。则每采样的感觉加权差e(n)为:
e ( n ) = p ( n ) - ex &prime; ( n ) = p ( n ) - &Sigma; j = 0 K &prime; + 1 &lambda; j c &OverBar; j &prime; ( n ) , 0 &le; n < N . - - - ( 38 )
给出子帧加权差能量E为:
E = &Sigma; n = 0 N - 1 e 2 ( n ) = &Sigma; n = 0 N - 1 [ p ( n ) - ex &prime; ( n ) ] 2 = &Sigma; n = 0 N - 1 [ p ( n ) - &Sigma; j = 0 K &prime; + 1 &lambda; j c &OverBar; j &prime; ( n ) ] 2 - - - ( 39 )
其类似于式(17)。在经过相同的分析和如同式(18-26)的推导之后,我们得到下面的表达式:
E = R pp - 2 &Sigma; j = 0 K &prime; + 1 &lambda; j R pc ( j ) + 2 &Sigma; i = 0 K &prime; &Sigma; j = i + 1 K &prime; + 1 &lambda; i &lambda; j R cc ( i , j ) + &Sigma; j = 0 K &prime; + 1 &lambda; j 2 R cc ( j , j ) - - - ( 46 )
其导出了下面的联立方程组:
R cc ( 0,0 ) R cc ( 0,1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( 0 , K &prime; + 1 ) R cc ( 1,0 ) R cc ( 1,1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( 1 , K &prime; + 1 ) &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; R cc ( K &prime; + 1 , 0 ) R cc ( K &prime; + 1 , 1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( K &prime; + 1 , K &prime; + 1 ) &lambda; 0 &lambda; 1 &CenterDot; &lambda; K &prime; + 1 = R pc ( 0 ) R pc ( 1 ) &CenterDot; R pc ( K &prime; + 1 ) - - - ( 48 )
如前,本领域普通技术人员应该认识到,解方程(48)不需要编码器700实时执行。编码器700可以脱机地解方程(48),作为训练和获得储存在各个增益信息表726中的增益矢量(λ0,λ1,…,λK′+1)的一部分。增益信息表726可包括一个或多个表,储存增益信息,其包括在各个差最小化单元708中,或者可以由各个差最小化单元708所引,并且随后用于量化和联合优化与激励矢量有关的增益项(λ0,λ1,…,λK′+1)。
在本发明优选实施例的迄今为止的描述中,多抽头LTP滤波器抽头的间隔都给定为1个采样。在本发明的另一实施例中,多抽头滤波器抽头之间的间隔可以不是一个采样。也就是说,可以是一个小数的采样或者可以是一个具有整数和小数部分的值。本发明的这个实施例可以通过修改式(6)而如下说明:
P ( z ) = 1 1 - &Sigma; i = - K 1 K 2 &beta; i z - L ^ + i&Delta; , K 1 &GreaterEqual; 0 , K 2 &GreaterEqual; 0 , K 1 + K 2 > 0 , K = 1 + K 2 , &Delta; &NotEqual; 1 - - - ( 6 b )
注意,式(6a)可以类似地修改为:
P ( z ) = 1 1 - &beta; 0 z - L ^ - &Sigma; i = 1 K &prime; &beta; i ( z - L ^ - i&Delta; + z - L ^ + i&Delta; ) , K &prime; &GreaterEqual; 1 , K + 1 + 2 K &prime; , &Delta; &NotEqual; 1 - - - ( 6 c )
Δ值依赖于所使用的插值滤波器的解析度。如果插值滤波器的最大解析度相对于信号s(n)的采样频率为
Figure A20048000451800233
采样,则Δ可以选择为
Figure A20048000451800234
这里l≥1。还要注意,尽管式(6b)和(6c)所示的滤波器抽头间隔是一致的,但也可以实现不一致的抽头间隔。而且,对于Δ<1的值要注意,滤波器阶数K可能需要增加,这是相对于抽头的单采样间隔情况而言的。
为了降低在编码器700中与选择激励参数 βi’s,I和γ有关的计算复杂度,可以首先选择LTP滤波器参数 βi’s,假定固定码本零贡献。这导致式(46)的修改版本的子帧加权差,其修改包括从E中消除了与固定码本矢量有关的项,生成简化加权差表达:
E = R pp - 2 &Sigma; j = 0 K &prime; &lambda; j R pc ( j ) + 2 &Sigma; i = 0 K &prime; - 1 &Sigma; j = i + 1 K &prime; &lambda; i &lambda; j R cc ( i , j ) + &Sigma; j = 0 K &prime; &lambda; j 2 R cc ( j , j ) - - - ( 51 )
计算一组(λ0,λ1,…,λK′)增益,得到式(51)中的最小化E,包括解K′+1个联立线性方程,如下:
R cc ( 0,0 ) R cc ( 0,1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( 0 , K &prime; ) R cc ( 1,0 ) R cc ( 1,1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( 1 , K &prime; ) &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; R cc ( K &prime; , 0 ) R cc ( K &prime; , 1 ) &CenterDot; &CenterDot; &CenterDot; R cc ( K &prime; , K &prime; ) &lambda; 0 &lambda; 1 &CenterDot; &lambda; K &prime; = R pc ( 0 ) R pc ( 1 ) &CenterDot; R pc ( K &prime; ) - - - ( 52 )
另外,根据所使用的搜索方法,可搜索一个或多个量化表来寻找最小化式(51)中的E的(λ0,λ1,…,λK′)矢量。在此情况下,LTP滤波器系数可以得到量化,而不用考虑FCB矢量贡献。但是,在优选实施例中,(λ0,λ1,…,λK′+1)的量化矢量的选择是由对式(46)的评估引导的,对应于对所有(K′+2)个编码器增益的联合优化。在这两种情况的任何一种中,加权目标信号p(n)可以修改为为固定码本搜索给出加权目标信号Pfcb(n),包括从p(n)中删除感觉加权LTP滤波器贡献,使用(λ0,λ1,…,λK′)增益,该增益是假定从FCB得到零贡献而计算出来的(或者从量化表中选择出来的):
p fcb ( n ) = p ( n ) - &Sigma; j = 0 K &prime; &lambda; j c &OverBar; j &prime; ( n ) , 0 &le; n &le; N - - - ( 53 )
随后搜索FCB的索引i,其最小化了子帧加权差能量Efcb,i,用所采用的方法来搜索:
E fcb , i = &Sigma; n = 0 N - 1 ( p fcb ( n ) - &gamma; i c ~ i &prime; &prime; ( n ) ) 2 - - - ( 54 )
在上面的表达式中,i是评估的FCB矢量的索引, 是零状态加权合成滤波器滤波后的第i个FCB码矢量,γi是对应于
Figure A20048000451800245
的优化缩放因子。提取的索引i变为I,即对应于所选FCB矢量的码字。
另外,FCB搜索可以假定中间LTP滤波器矢量为“浮点(floating)”而进行实现。该技术记载于发明人为Ira A.Gerson、题为“Digital SpeechCoder with Vector Excitation Source Having Improved Speech Quality”的专利WO9101545A1中,该专利公开了用于搜索FCB码本的方法,由此对于每个评估的候选FCB矢量,假定该矢量和中间LTP滤波器矢量的一组联合优化的增益。LTP矢量在下面的意义上是“中间”:假定没有FCB贡献而选择其参数,并进行修正。例如,一旦完成对索引I的FCB搜索,所有增益随后都可以再次优化,或者重新计算(例如,通过解方程(48)),或者从量化表中选择(例如,使用式(46)作为选择标准)。定义加权合成滤波器所滤波的中间LTP滤波器矢量为:
c &OverBar; ltp &prime; ( n ) = &Sigma; j = 0 K &prime; &lambda; j c &OverBar; j &prime; ( n ) - - - ( 55 )
对应于采用联合优化增益的FCB搜索的加权差表达式由下式给出:
E fcb , i = &Sigma; n = 0 N - 1 ( p fcb ( n ) - &chi; i c &OverBar; ltp &prime; ( n ) - &gamma; i c ~ i &prime; ( n ) ) 2 - - - ( 56 )
对于每个评估的
Figure A20048000451800253
采用联合优化参数χi和γi。最小化式(56)的索引i,变成了所选FCB的码字I。另外,可以使用式(56)的修改形式,由此对于每个评估FCB矢量,所有(K′+2)个缩放因子都进行联合优化,如下所示:
E fcb , i = &Sigma; n = 0 N - 1 ( p fcb ( n ) - &Sigma; j = 0 K &prime; &lambda; j , i c &OverBar; j &prime; ( n ) - &gamma; i c ~ i &prime; ( n ) ) 2 - - - ( 57 )
也就是说,对于评估的第i个FCB矢量,采用了一组联合优化的增益参数(λ0,i,…,λK′,i,γi)。
对于这两种FCB搜索方法中的任何一种,即
(i)通过从中删除中间LTP矢量的贡献而为FCB搜索重新定义目标矢量,或
(ii)采用联合优化增益实现FCB搜索,
从量化效率的优势角度来看,有利之处在于约束了中间LTP矢量的增益。例如,如果已知βi系数的量化值受到设备限制而不能超过预定幅度,可以在计算时类似地约束中间LTP滤波器系数。
实施例之一对LTP滤波器系数进行下面的约束来获得中间滤波后的LTP矢量 cltp′(n)。首先,我们假设LTP滤波器系数是对称的,即β-i=βi,并且假设对于i>1,LTP滤波器系数为0。而且我们还假设中间滤波后的LTP矢量的形式为:
c &OverBar; ltp &prime; ( n ) = &theta; ( &alpha; c &OverBar; 0 &prime; ( n ) + 1 - &alpha; 2 c &OverBar; 1 &prime; ( n ) ) 0.5 &le; &alpha; &le; 1.0 - - - ( 58 )
上面的约束确保了整形滤波器特性实际上是低通。注意,式55中的λ’s现在为:β0=θα, &beta; 1 = &theta; 1 - &alpha; 2 . 现在选择整个LTP增益值(θ)和低通整形系数(α)来最小化加权差能量值
E = &Sigma; n ( p ( n ) - c &OverBar; ltp &prime; ( n ) ) 2 - - - ( 59 )
关于θ设置式59的偏微分,得到:
&theta; = &alpha; R pc ( 0 ) + 1 - &alpha; 2 R pc ( 1 ) &alpha; 2 R cc ( 0,0 ) + &alpha; ( 1 - &alpha; ) R cc ( 1,0 ) + ( 1 - &alpha; 2 ) 2 R cc ( 1,1 ) - - - ( 60 )
替换式(59)中的θ值,可以看出,最大化下面的表达式将会得到最小化的E值。
( &alpha; R pc ( 0 ) + 1 - &alpha; 2 R pc ( 1 ) ) 2 &alpha; 2 R cc ( 0,0 ) + &alpha; ( 1 - &alpha; ) R cc ( 1,0 ) + ( 1 - &alpha; 2 ) 2 R cc ( 1,1 ) - - - ( 61 )
定义:
&alpha; 1 = R cc ( 0,0 ) + R cc ( 1,1 ) 4 - R cc ( 1,0 )
&alpha; 2 = R cc ( 1 , 0 ) - R cc ( 1,1 ) 2
&alpha; 3 = R cc ( 1,1 ) 4
&alpha; 4 = R pc ( 0 ) - R pc ( 1 ) 2
&alpha; 5 = R pc ( 1 ) 2
现在,式(61)中的表达式变为:
( &alpha; 4 &alpha; + &alpha; 5 ) 2 &alpha; 1 &alpha; 2 + &alpha; 2 &alpha; + &alpha; 3 - - - ( 62 )
再次使关于α的偏微分方程(62)等于0,得到:
&alpha; = &alpha; 2 &alpha; 5 - 2 &alpha; 4 &alpha; 3 &alpha; 2 &alpha; 4 - 2 &alpha; 1 &alpha; 5 - - - ( 63 )
这最大化了式(62)中的表达式。由此获得的参数α范围在1.0和0.5之间,以保证低通频谱整形特性。全部LTP增益值θ可以通过式60而获得并且直接施加用于上述的FCB搜索方法(i),或者可以根据上述的FCB搜索方法(ii)进行联合优化(即,允许“浮点”)。而且,对α进行不同的约束将允许其他整形特性,诸如高通或凹槽(notch),这对本领域技术人员来说是显而易见的。对更高阶多抽头滤波器的类似约束也是本领域技术人员显而易见的,可以包括带通整形特性。
尽管迄今为止讨论了许多的实施例,图8描绘了一种广义设备,包括本发明的最佳模式,而图9是显示相应操作的流程图。如图8所示,子帧分解延迟值
Figure A20048000451800273
用作自适应码本(310)和移位器/组合器(820)的输入,以产生多个移位/组合的自适应码本矢量,如式(8-10、13)及式(29-32、35)所述。如前所述,本发明可包括自适应码本或长时预测器滤波器,并且可以包括或者可以不包括FCB分量。此外,采用加权合成滤波器W(z)/Aq(z)(830),其来自于对加权差矢量e(n)的代数运算,如式(16)的相关文本所述。本领域技术人员可以认识到,加权合成滤波器(830)可施加到矢量 ci(n)或等价地施加到c(n),或者可以合并作为自适应码本(310)的一部分。滤波后的自适应码本矢量 cj′(n)(901)和目标矢量p(n)(903)都可基于对输入信号s(n)的感觉加权(通过感觉加权滤波器(832)进行滤波),然后呈现给相关生成器(833),相关生成器(833)输出在式(20-23)中定义的多个相关项(905),用于输入差最小化单元(808)。基于这多个相关项,评估感觉加权差值E,而不需要显式的滤波操作,从而产生多个多抽头滤波器系数βi(907)。根据实施例,差值E可以在式(24、46、51)中通过利用增益表626中的值而评估,如对于编码器(600、700)所述,或者可以直接通过一组联立线性方程(26、48、52、63)而解出。在任何一种情况下,为符号上表示的方便,多抽头滤波器系数βi交叉引到一般形式的系数λi(式(14、28)),即合并固定码本的贡献而不损失其一般性。
尽管已经通过结合特定实施例具体地显示和描述了本发明,本领域技术人员应该理解,可以作出各种形式和细节上的改变,而不会偏离本发明的精神和范围。例如,本发明是使用加权滤波器W(z)进行描述的。但尽管根据“基于人类听觉的响应”而陈述了加权滤波器W(z)的具体特性,对于本发明来说,假定W(z)可以是任意的。在极端情况中,W(z)可以具有单位增益传输函数W(z)=1,或者W(z)可以是LP合成滤波器的反函数W(z)=Aq(z),导致在残留域中对差的评估。因此,本领域技术人员将认识到,对W(z)的选择是与本发明没有任何逻辑关系的。
而且,根据广义CELP框架描述了本发明,其中所呈现的体系结构简化到允许尽可能对本发明描述简洁。但是,在采用优化了的本发明的体系结构方面还有许多其他的变化,例如,减少处理复杂度和/或使用本发明范围外的技术来改进性能。一种这样的技术可能使用叠加的原理来更改框图,使得加权滤波器W(z)分解为零状态和零输入响应部分,并且组合以其他滤波操作来减少加权差计算的复杂度。另外一种这样的复杂度降低技术可能包括进行开环基音搜索以获得
Figure A20048000451800281
的中间值,从而使得差最小化单元508、608、708在最终(闭环)优化阶段不需要测试所有可能的 值。
注意,本领域技术人员已知存在有多种FCB类型,而且有各种各样的有效的FCB搜索技术。由于所使用的FCB的具体类型与本发明关系不大,因此简单假定FCB码本搜索生成FCB索引I,其导致了Efcb,i的最小化,进行所采用的搜索策略。此外,尽管是通过实现为自适应码本的多抽头LTP滤波器来描述本发明的,但本发明可以等价地实现于直接实现多抽头LTP滤波器的情况。这样的改变都在所附权利要求的范围内。

Claims (10)

1.一种用于编码语音的方法,该方法包括如下步骤:
基于子采样分解延迟值、自适应码本和加权合成滤波器,生成多个加权自适应码本矢量( c0′(n)... cK-1′(n));
接收输入信号s(n);
基于输入信号生成目标矢量p(n);
基于目标矢量p(n)和多个加权自适应码本矢量( c0′(n)... cK-1′(n)),生成多个相关项(Rcc(i,j),Rpc(i));和
基于多个相关项(Rcc(i,j),Rpc(i)),生成多个多抽头长时预测器滤波器系数(βi’s)。
2.权利要求1中所述的方法,其中,基于输入信号s(n)生成目标矢量p(n)的步骤包括通过对输入信号s(n)进行感觉加权而生成目标矢量p(n)的步骤。
3.权利要求1中所述的方法,其中,生成多个多抽头长时预测器滤波器系数的步骤包括生成多个对称多抽头长时预测器滤波器系数的步骤。
4.权利要求1中所述的方法,其中,生成多个多抽头长时预测器滤波器系数的步骤包括根据差最小化标准解联立线性方程组。
5.权利要求1中所述的方法,其中,生成多个多抽头长时预测器滤波器系数的步骤包括根据差最小化标准从表中选择一组多抽头滤波器系数的步骤。
6.权利要求1中所述的方法,其中,生成多个多抽头长时预测器滤波器系数的步骤包括生成多个约束了值的范围的多抽头长时预测器滤波器系数。
7.权利要求3中所述的方法,其中,生成多个多抽头长时预测器滤波器系数的步骤包括生成多个约束为β0=αθ和 &beta; 1 = ( 1 - &alpha; ) &theta; 2 的多抽头长时预测器滤波器系数,其中α是整形系数。
8.权利要求7所述的方法,其中α约束为预定范围。
9.一种设备,包括:
基于子采样分解延迟值、自适应码本和加权合成滤波器,生成多个加权自适应码本矢量( c0′(n)... cK-1′(n))的装置;
接收输入信号s(n)的装置;
基于输入信号s(n)生成目标矢量p(n)的装置;
基于目标矢量p(n)和多个加权自适应码本矢量( c0′(n)... cK-1′(n)),生成多个相关项(Rcc(i,j),Rpc(i))的装置;和
基于多个相关项(Rcc(i,j),Rpc(i)),生成多个多抽头长时预测器滤波器系数(βi’s)的装置。
10.一种设备,包括:
多个加权自适应码本矢量( c0′(n)... cK-1′(n)),基于子采样分解延迟值、自适应码本和加权合成滤波器;
感觉差加权滤波器,接收输入信号s(n)并至少基于s(n)输出目标矢量p(n);
相关生成器,接收加权自适应码本矢量( c0′(n)... cK-1′(n))和目标矢量p(n),基于目标矢量p(n)和加权自适应码本矢量( c0′(n)... cK-1′(n))输出多个相关项(Rcc(i,j),Rpc(i));和
差最小化电路,接收相关项(Rcc(i,j),Rpc(i)),基于多个相关项(Rcc(i,j),Rpc(i))输出多个多抽头长时预测器滤波器系数(βi’s)。
CN2004800045187A 2003-12-19 2004-12-17 用于语音编码的方法和设备 Active CN1751338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010189396.0A CN101847414B (zh) 2003-12-19 2004-12-17 用于语音编码的方法和设备

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US53139603P 2003-12-19 2003-12-19
US60/531,396 2003-12-19
US10/964,861 US7792670B2 (en) 2003-12-19 2004-10-14 Method and apparatus for speech coding
US10/964,861 2004-10-14
PCT/US2004/042642 WO2005064591A1 (en) 2003-12-19 2004-12-17 Method and apparatus for speech coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201010189396.0A Division CN101847414B (zh) 2003-12-19 2004-12-17 用于语音编码的方法和设备

Publications (2)

Publication Number Publication Date
CN1751338A true CN1751338A (zh) 2006-03-22
CN1751338B CN1751338B (zh) 2010-09-01

Family

ID=34681619

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2004800045187A Active CN1751338B (zh) 2003-12-19 2004-12-17 用于语音编码的方法和设备
CN201010189396.0A Active CN101847414B (zh) 2003-12-19 2004-12-17 用于语音编码的方法和设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201010189396.0A Active CN101847414B (zh) 2003-12-19 2004-12-17 用于语音编码的方法和设备

Country Status (7)

Country Link
US (2) US7792670B2 (zh)
EP (1) EP1697925A4 (zh)
JP (3) JP4539988B2 (zh)
KR (1) KR100748381B1 (zh)
CN (2) CN1751338B (zh)
BR (1) BRPI0407593A (zh)
WO (1) WO2005064591A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516530A (zh) * 2012-10-01 2017-12-26 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质
CN109883692A (zh) * 2019-04-04 2019-06-14 西安交通大学 基于内置编码器信息的广义差分滤波方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060067016A (ko) * 2004-12-14 2006-06-19 엘지전자 주식회사 음성 부호화 장치 및 방법
FR2880724A1 (fr) * 2005-01-11 2006-07-14 France Telecom Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
CN101609677B (zh) * 2009-03-13 2012-01-04 华为技术有限公司 一种预处理方法、装置及编码设备
TWI462087B (zh) * 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
CN103636129B (zh) * 2011-07-01 2017-02-15 诺基亚技术有限公司 多尺度码本搜索
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
WO2013062370A1 (ko) * 2011-10-28 2013-05-02 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
EP2916705B1 (en) 2012-11-09 2020-06-03 Aktiebolaget Electrolux Cyclone dust separator arrangement, cyclone dust separator and cyclone vacuum cleaner
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CA2991341A1 (en) 2015-07-06 2017-01-12 Nokia Technologies Oy Bit error detector for an audio signal decoder
US11380340B2 (en) * 2016-09-09 2022-07-05 Dts, Inc. System and method for long term prediction in audio codecs
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
CN114006668B (zh) * 2021-10-29 2024-02-20 中国人民解放军国防科技大学 卫星信道免系数更新的高精确时延滤波方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
US5359696A (en) * 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JP3194481B2 (ja) * 1991-10-22 2001-07-30 日本電信電話株式会社 音声符号化法
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
JPH10228491A (ja) * 1997-02-13 1998-08-25 Toshiba Corp 論理検証装置
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
JP2002366199A (ja) * 2001-06-11 2002-12-20 Matsushita Electric Ind Co Ltd Celp型音声符号化装置
JP3984048B2 (ja) * 2001-12-25 2007-09-26 株式会社東芝 音声/音響信号の符号化方法及び電子装置
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516530A (zh) * 2012-10-01 2017-12-26 日本电信电话株式会社 编码方法、编码装置、程序以及记录介质
CN107516530B (zh) * 2012-10-01 2020-08-25 日本电信电话株式会社 编码方法、编码装置以及记录介质
CN109883692A (zh) * 2019-04-04 2019-06-14 西安交通大学 基于内置编码器信息的广义差分滤波方法
CN109883692B (zh) * 2019-04-04 2020-01-14 西安交通大学 基于内置编码器信息的广义差分滤波方法

Also Published As

Publication number Publication date
KR100748381B1 (ko) 2007-08-10
CN1751338B (zh) 2010-09-01
US20100286980A1 (en) 2010-11-11
US20050137863A1 (en) 2005-06-23
EP1697925A1 (en) 2006-09-06
US8538747B2 (en) 2013-09-17
JP5400701B2 (ja) 2014-01-29
BRPI0407593A (pt) 2006-02-21
KR20060030012A (ko) 2006-04-07
JP4539988B2 (ja) 2010-09-08
EP1697925A4 (en) 2009-07-08
JP2010217912A (ja) 2010-09-30
CN101847414A (zh) 2010-09-29
CN101847414B (zh) 2016-08-17
WO2005064591A1 (en) 2005-07-14
US7792670B2 (en) 2010-09-07
JP2013218360A (ja) 2013-10-24
JP2006514343A (ja) 2006-04-27

Similar Documents

Publication Publication Date Title
CN1158648C (zh) 语音可变速率编码方法与设备
CN1751338A (zh) 用于语音编码的方法和设备
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1154086C (zh) Celp转发
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1274456A (zh) 语音编码器
CN1957398A (zh) 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
US20040064311A1 (en) Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
CN1708907A (zh) 用于快速celp参数映射的方法和装置
CN1457425A (zh) 用于语音编码的码本结构与搜索
CN1689069A (zh) 声音编码设备和声音编码方法
CN1890714A (zh) 一种优化的复合编码方法
CN1097396C (zh) 声音编码装置和方法
CN1947174A (zh) 可扩展编码装置、可扩展解码装置、可扩展编码方法以及可扩展解码方法
CN101044554A (zh) 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法
CN1293535C (zh) 声音编码设备和方法以及声音解码设备和方法
CN1711589A (zh) 在语音编码系统中对增益信息进行编码的方法和装置
CN1711587A (zh) 对信息信号编码的方法和设备
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
US8112271B2 (en) Audio encoding device and audio encoding method
JPWO2008072732A1 (ja) 音声符号化装置および音声符号化方法
KR100718487B1 (ko) 디지털 음성 코더들에서의 고조파 잡음 가중
JP6001451B2 (ja) 符号化装置及び符号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110107

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110107

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois, USA

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160406

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC