CN101401153B - Celp技术中改进的数字音频信号的编码/解码 - Google Patents
Celp技术中改进的数字音频信号的编码/解码 Download PDFInfo
- Publication number
- CN101401153B CN101401153B CN2007800065199A CN200780006519A CN101401153B CN 101401153 B CN101401153 B CN 101401153B CN 2007800065199 A CN2007800065199 A CN 2007800065199A CN 200780006519 A CN200780006519 A CN 200780006519A CN 101401153 B CN101401153 B CN 101401153B
- Authority
- CN
- China
- Prior art keywords
- code book
- pulse
- pattern
- vector
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
Abstract
本发明针对构造用于编码/解码数字音频信号的CELP激励矢量的改进的辞典。一般地,每个N维矢量包括占据N个有效位置的脉冲。本发明涉及使用特殊的构造方法的辞典的构造:基于上述N个有效位置之间的一个或多个各自位置上的一个或多个项,提供形成基础图样的通用脉冲序列;以及为辞典的每个激励矢量指定基础图样;本发明也涉及辞典的联合,通过联合或加法或级联与可选的标准的多脉冲辞典进行构造。
Description
本发明涉及使用“码激励线性预测(CELP)”技术的数字音频信号编码/解码。
对于这些信号的传输或存储,需要对其进行压缩模式的编码。该信号可为语音信号,更一般地。,可为数字化的声音信号。更具体地,本发明涉及预测编码技术,其中:
-首先执行输入信号的短期预测,来估计合成滤波器(称为“LPC”滤波器,其中LPC代表“线性预测编码”);
-然后,将通过用LPC滤波器对原始信号进行滤波获得的残差信号模型化(通过进行滤波来生成重构信号的所谓“激励”信号)并将其编码。
更具体地,本发明涉及CELP编码器家族,所述CELP编码器通过将合成滤波器的输出(其由激励信号激励)与原始信号进行比较、并引入感知加权,而从一组候选信号中选择激励信号。这些编码器被广泛用于6Kbit/s到24Kbit/s的语音信号编码,并显著适用于ITU-TG.729、GSM-EFR、3GPP/WB-AMR标准。
本发明有利地适用于下文中详细描述的分级编码系统,对于分级编码系统,通过其后跟随有补充层的基本层形成比特流,以增强质量。现有技术的情况
图1给出了CELP编码器的一般图表。图2介绍了相关的解码器。
特别给出该类编码器/解码器的相关细节作为基本参考:
“Code-Excited Linear Prediction(CELP):High Quality Speech atVery Low Bit Rates(码激励线性预测:低比特率的高质量语音)”,B.S.Atal and M.R.Schroeder,ICASSP,1985,pp.937-940。
参考图1,编码器将输入信号S(n)分割为抽样块或“帧”(通常以10到20ms的信号的序列)。然后,执行LPC分析10,以估计和量化 短期线性预测滤波器的参数。然后,在大多数情况下,利用两个码本来实现激励信号exc(z)的模拟:
-适应性码本DICa,其趋向于对谐音的周期进行模拟;以及
-所谓的“固定”码本DICf,其用于非谐音部分和非语音声音。
本发明主要针对“固定”码本DICf,而下文优选地未处理涉及适应性码本DICa的部分。
激励信号的模拟一般在对应于信号子帧的抽样块上执行,其中,该子帧通常为5ms的序列。在下文中,将会考虑包含N个抽样(例如,在8KHz抽样频率上的N=40个抽样)的信号子帧的情况。在该编码器中,通过将感知加权误差信号的能量最小化,而实现码本(也称为“矢量码”或“波形”)中的最优码字的选择,表达为如下类型的关系式:E(z)=W(z)(S(z)-(z)),其中,符号E(z)、S(z)、(z)分别表示加权误差信号的z变换、将被编码的原始信号的z变换和重构信号的z变换。
加权误差信号E(z)可通过如下类型的关系式表示为:
-1/Aq(z)对应于LPC合成滤波器12;
-res(z)是LPC残差信号;
-exc(z)是如下定义的激励信号:
信号excpast(n)和exccurrent(n)分别代表过去的激励信号(在当前块上为零信号)和当前的激励信号(零记忆信号)。
因此,在适应性码本DICa和固定码本DICf的输出处,将各自适当的增益 和 分别作用到信号 和 上。然后,将这些信号加在一起获得激励信号exc(n)。
通常还定义了混合滤波器:
以及通过如下类型的关系式定义了“滤波的目标信号”:
x(z)=H(z)(res(z)-excpast(z))
从这些关系式可推出,对于加权误差信号,为如下类型的表达式:
E(z)=x(z)-H(z)×exccurrent(z)
CELP的极小化准则(随后的模块13和模块14)表示为在码本中搜索使以下量最小化的波形{c(n);0≤n≤N-1}:
或,甚至,使比率 最小化的波形,
其中
元素{h(n)}表示滤波器H(其由上文的关系式(1)定义)的脉冲响应。
一般认为滤波器H是因果的,即,n<0时元素h(n)为零。然而,在下文中,将假定更一般的情况,即,n<0时,全部或部分的元素h(n)可为非零的。
通常,在文献“Fast CELP coding based on algebraic codes(基于代数码的快速CELP编码)”,J.P.Adoul,P.Mabilleau,M.Delprat,S.Morissette,ICASSP 1987,pp.1957-1960中解释的所谓的逆(backward)滤波技术可用于通过下式预先计算用于分子的、所有矢量所通用的元素(尤其是目标矢量和滤波器H(z)间的互相关性):
类似地,可在在码本中进行搜索之前计算滤波器H(z)的自相关性,并利用该自相关性来加快分母的计算速度,其中:
其中, ,k和k’的范围为0到N-1。
量化与所选矢量码相关的最优增益。发送(通过无线电通信网络)量化索引和与所选矢量码相关的索引,或简单地将其存储以用于随后的传输。则解码都是在这些索引的基础上发生的。
参考图2,在解码中,对各自的增益ga i,gf i进行解码,并可分别使用所选的矢量码的索引ia opt,if opt来获取其分量元素,重构激励信号,然后重构该信号(随后的模块21和模块22)。
激励码本的选择受比特率、质量(或对于给定比特率的效率)和复杂性的约束。对于有限的比特率,很难为将要编码的任意信号获得好的重现质量。复杂性也是重要因素。对于所有的通信应用来说,实时约束在计算时间上施加了局限性。文献中所提的第一CELP码本是通过随机提取的矢量码来构成的,对于码本的每一矢量来说,其强加了对判别式的分子和分母的计算。搜索最优码字则令人望而却步地复杂。
然后提出结构化的码本来加快对最优波形的搜索,通过码本结构,利用矢量间引入的关系为不同的输入信号进行一次特定的搜索计算(或“通用计算”)。最受欢迎的结构化码本之一是代数码本家族,其由脉冲组成,其中,所述脉冲的位置由代数码定义,或甚至基于一组规则或非规则的点(通常为Gosset阵列)来定义。最传统的码本代表是众所周知的ACELP(“代数CELP”)。这些结构化的码本能够避免码字的存储,双射关系使其能够根据索引计算矢量码的元素。
而且,这些给定的码本已实现通过次优的但非常有效地聚焦的探索算法(effective focused exploration algorithms)加速的快速搜索。因此,对于多脉冲码本,如果假定该码本的矢量由幅度为sk的K个脉冲 组成,其中,k的范围为0到K-1(实际上的这些幅度常常简化为简单的符号),那么,上文所定义的分子和分母的表达式可简化为:
以及
其中,ak和ai代表脉冲出现的位置。
然而,当比特率的约束限制了这些码本的大小时,这些码本在内容上则会缺乏丰富性。由于该原因,脉冲变少了且非常稀疏。采用术语“稀疏码本”。所有的非零采样均具有相同的幅度,而且很难正确地在具有非常少脉冲的块中的采样之间表现出幅度的平衡性。由使用非常差的代数码本引起的衰减则是可以听得出来的。例如,其通过信号的某些沙哑声来表现其特征。
为了克服这些缺点,在第6,029,125号美国专利中提出了所谓的“减少稀疏”技术。其提出了通过加入噪声信号或者利用全通滤波器进行滤波,来丰富具有较少脉冲(并从而表现出某种“稀疏”)的多脉冲码本,所述全通滤波器的滤波在不需要修正信号频谱系数的情况下使脉冲分散(disperses)。该滤波主要作用在相位上。码本的这些修正可在解码之后引入,或在选择处理中(因此在编码中)引入。
然而,当在编码中引入时,噪声的加入妨碍了用于选择最优波形的快速算法的使用。而且,由于滤波器易于散布对滤波信号的支持,因此固定码本的滤波需要以处理的某些连续性为前提,并且,由于一般不可能校正在先块的激励,因此由处理恶劣控制的编码抽样块的边缘会出现不规则。
此外,如果希望根据信号调整对码本采用的修正类型,那么,除了提供不同的滤波器之外没有其它的解决方法,但这种方法也会产生失真。
而且,如上文中已经指出的,在第6,029,125号美国专利中所提出的技术通过应用保持码本频谱的外形的修正,而设法修补码本中缺少的脉冲。现在,常常有必要通过包含对频谱的某些部分(尤其是高频 部分)更好地编码的矢量码来丰富多脉冲码本,该方法与第6,029,125号美国专利中的解决方法是不相容的。
其它类型的码本是建议通过保持可接受的搜索复杂性来提高性能。因此,可能不同的级联码本(或“多级(multi-stage)”码本)进行多个连续的CELP搜索,其中,每个搜索都生成具有其相关增益的、所选矢量码的索引。
激励矢量表示如下:
如果假设I个的码本是级联的,那么:
在I个码本中对码的子矢量{ci(n)}的进行联合搜索是复杂的。实际上,使用次优的串行搜索方法,该方法包括在第一码本中选择最优波形并计算相关增益,然后量化该增益并减去第一码本的已知贡献,其需要再次使用上述的关系式,解释如下:
将“滤波目标信号”修正为x′(z)=H(z)(res(z)-exc1(z))并选择第二码本的子矢量。然后对所有连续的码本重复以上处理。
应该注意的是,也能在该上下文使用正交码本。
接下来是分级编码结构的简要描述。
也称为“级联”的这种结构为编码处理提供了分成连续的层的二进制数据。基础层由对比特流的解码绝对必要并确定最小解码质量的位构成。随后的层能够逐渐地增强解码信号的质量,每个新层都要增加新的信息,所述新的信息在解码中用于输出质量提高的信号。分级编码器的一个特殊特征是在不需要提供给编码器或解码器任何特殊指示的情况下,可干预传输和存储链的任意级来删除比特流的一部分。解码器使用其接收到的二进制信息并生成具有相应质量的信号。
分级编码处理操作的组成包括编码“层”的概念。这些层能够通 过实现从不同技术中得到的方法来构造。作为一种变体,不同的编码层可从同一类型的处理中得到,其中,可通过提供补充数据来简单地提高质量。因此,也称为“嵌套CELP”编码器的分级CELP编码器通常使用多个码本,其中,所述多个码本的每一级可以是不同的也可以是相同的。
然而,级联码本和包含在分级编码结构中的码本仍然出现了上述的相同问题。
本发明设法改进这种情况。
特别地,其目标是在波形和频谱内容方面在低比特率上对CELP码本的丰富性进行修补,而保持非常简单的解码和与码本相关的低复杂性。其还提供了对码本的渐进的丰富方法,特别是在分级编码结构的上下文中。另一目标是提出了对所谓“反稀疏”技术的吸引人的可选方法,更一般地,该方法通过更好的控制连续的块之间的连贯性而有利于稀疏码本的丰富。
为此,提出了为编码/解码数字音频信号构造CELP类型激励矢量的码本的方法,每个N维矢量都包括可占用N个有效位置的脉冲。
在本发明方法中,初始码本(也称为“基础码本”)通过如下方法构造:
-提供形成基础图样的通用脉冲序列;以及
-基于分别位于上述N个有效位置中一个或多个位置上的一个或多个项(occurrence),为码本的每个激励矢量指定基础图样
本文中,“脉冲序列”应该理解为表示一系列包含脉冲的抽样,以及适当时还包括,脉冲之间和/或在连续抽样的开始和/或结尾处的一个或多个零抽样。
优选地,这样构造的码本是所谓“固定”类型的CELP激励码本(例如参考上文中图1和图2所示的DICf)。
优选地,将在激励矢量中每个项上出现的基础图样与上述项相关的幅度相乘,该幅度例如选自包含值+1和-1的集合。
再次优选地,初始码本中的所有矢量都包括同一数目的、基础图样的项。
因此,初始码本由下列各项定义:
-形成基础图样的脉冲序列;
-在每个矢量中的图样的项数;
-允许用于上述图样的项的位置集;以及
-与上述图样的项相关的幅度集。
因此,本发明提出了构造CELP激励矢量的码本,这些码本由基础图样的数据所定义,其中该基础图样出现在一个或多个项上,每个项都与幅度相乘。可能出现在块边缘(抽样帧或子帧)的图样将被截断以完全插入到该块中。
在更一般的情况下,可理解的是,将出现在矢量块边缘的图样截断,且被截断后图样的剩余脉冲占据块的开始或结尾位置。
将N维矢量结合到一起的、通过本发明方法获得的码本由基础图样所定义,该基础图样为在长度为N的块中“移动”。每个图样都出现在加在一起的K个项中,每个项本身由如下方面定义:
-幅度(可能有极性),也就是,对于每个项将图样乘以给定值(例如±1);
-以及图样在项中的位置。
应该注意的是,本领域中众所周知的多脉冲码本构成了以该方法获得的码本的特殊情况,在码本多脉冲的情况下图样的长度差不多为1。该类型的多脉冲码本在下文中称为“平凡基础码本”。
而且,本发明方法能够构造码本组合(如上所述的初始码本和构造的码本,不需要排除一个或多个补充的传统多脉冲码本的使用)。
因此,由本发明方法获得的码本由下列项组成:
-单个基础码本,其为非平凡的,并由基础图样(长度大于1)和根据不同项的图样位置和相关幅度所定义;或者
-基础码本的并集,其中,至少一个基础码本是非平凡的基础码本;或者
-基础码本的和,可能是加权和,其中,至少一个基础码本是非平凡的基础码本,所有图样的项被加在一起。
更一般地,整体码本可由基础码本的和构造,其中至少一个基础 码本是由基础图样定义的初始码本。在该情况下,整体码本的矢量是通过将各基础码本矢量在公共位置处的脉冲加在一起形成的,优选地,基础码本的脉冲是由与码本相关的每个增益一个接一个进行加权的。
作为一种变体,整体码本可由基础码本的并集所构造,其中至少一个基础码本是由基础图样所定义的初始码本。在该情况下,整体码本简单地包括所有基础码本的所有矢量。
该码本的构造方法已经能够提供多种内容类型。根据基础图样的形式和它们的项数,可获得不同外形的激励矢量,并可能具有相当大量的非零脉冲。例如,基础图样的选择可由频谱类型的考虑而支配。内容的丰富并不一定需要特别大的码本尺寸,这是因为,通过将图样的项加在一起,利用中等数量的图样和项就能够改变激励矢量的形式。因此,对于多组相同的索引,能够表现出频谱内容上基本不同于传统多脉冲码本的激励矢量。
在该实施方式中,可规定基础图样包括至少一个中心脉冲,并在该中心脉冲之前和之后都具有与其符号相反的至少一个脉冲。更一般地,该图样总共包括三个脉冲,命名为:
-中心脉冲;
-位于中心脉冲之前的第二脉冲;
-位于中心脉冲之后的第三脉冲;
第二脉冲和第三脉冲的符号与中心脉冲的符号相反,第二脉冲和第三脉冲的幅度在绝对值上小于中心脉冲的幅度,有利地,其绝对值在0(不含)和中心脉冲的幅度的大约一半之间变化。
其对提供包含级联码本的编码/解码装置是有利的,其中,至少一个初始码本在级联中是连续的,该初始码本包含关于中心脉冲对称的图样,其中,位于中心脉冲之前和之后的脉冲的幅度与该中心脉冲的幅度是相反的。该装置有利地在整体听觉加权滤波器中包含高通滤波,其中该整体听觉加权滤波器特别地用于搜索最优激励矢量的编码中。参考图8a、图8b、图8c和图9,详细描述了该实施方式的一个实施例。该实施方式通过使用高通滤波器可集中于在初始码本中进行搜索。
本文中简单陈述了,该实施方式提出了多脉冲码本与由中心对称 的图样限定的码本的级联,其中,图样的中心项描述与多脉冲码本的脉冲项相同的集合。
通过加上一个或多个补充的基础码本,该实施方式可扩展初始基础码本的频谱域,然后通过修正与搜索最优矢量相关的感知加权滤波器,集中于在补充基础码本中的搜索,该修正的选择和这些补充基础码本的图样的选择可为关联的。
更一般地,在某些基础码本的并集或和的情况下,使用其图样中心和相关幅度描述相同的集、但用于不同图样的基础码本。
因此,更一般地,在码本矢量中图样和/或脉冲的位置(尤其当它们是级联时)描述了优选地相同的集合时,图样的位置基本上由构成图样的脉冲序列中的中心脉冲位置识别。
由于根据本发明构造的码本使用了传统多脉冲码本的特殊结构并使其能够在多脉冲码本的情况下使用有效的处理操作,因此,用于搜索最优候选激励矢量的技术在根据本发明构造的码本中保持快速,所以能够共享计算和快速处理算法。
需要指出的是,如果图样包含奇数个脉冲,图样的位置则可由图样中心抽样块的位置来识别。然而,以严格等价的方式,可将奇数长度的任何图像补零,以产生偶数长度。更一般地,可设想用于识别图样位置的任何其它变体。
本发明提出了用于对该码本的矢量索引进行解码的非常简单的技术,该技术是通过将图样的定标项加在一起实现的,其中,对于每个项,都传输该图样的位置和幅度因子。
在一般条件下,在编码中,在确定了初始码本中的最优候选矢量之后,形成索引,所述索引中优选地至少包括对如下各项的指示:
-最优候选矢量中的基础图样的一个或多个位置;以及
-与图样的所述一个或多个位置相关的一个或多个幅度;
上述索引倾向于被传输,以用于随后的解码。
如果提供了多个码本,索引则还包括对在其中找到最优候选矢量的码本的指示。因此,如果已在包含基础图样的初始码本中找到了最优候选矢量,则索引尤其包括与上述初始码本相关的指示,从而关于 基础图样的指示则可构造码本和最优候选矢量。
在单个基础码本的情况下,索引已经反映了与每个项相关的幅度和位置。为了对最优候选矢量进行解码,则需要将基础图像定位于不同的位置,以使其针具在每个项中,将其乘以相关的幅度并计算项的总和。
在基础码本的并集的情况下,如上所述,索引还给出关于所选的基础码本的信息。
在基础码本的和的情况下,每个基础图样的项的幅度和位置都是可用的,且该过程等价于并集的情况,此时,将所有图样的贡献相加。
根据本发明,对码本的矢量索引的解码是非常简单的。
在解码中,优选地,根据索引并通过以下步骤对最优候选矢量进行重构:
-可能地在使用码本联合的情况下,已经确定对应于由索引指示的初始码本的基础图样;
-将基础图样定位于在索引指示的位置上;
-将在每个位置上的图样乘以由索引指示的相关幅度;以及
-将位于所指示的位置的、进行了乘法后的图样加在一起。
在使用码本的和的情况下,优选地确定每个码本中的矢量索引,从而将上文描述的最后三个步骤应用到每个索引中。
根据本发明能够加速码本中的搜索,且对提供具有强大结构的图样的位置集特别感兴趣(例如,ACELP码本的位置集),以适应ACELP码本中通常具有的非常有效的快速搜索。
因此,在更多一般条件下,根据本发明构造的码本优选地包括被接受的图样位置并有利地作为ACELP码本脉冲的位置集,所述接受的图样位置描述了非常结构化的集合。
如上所述,在使用多个码本的情况下,特别感兴趣的是,提供具有相同的图样位置集的两个或更多个码本,以便能够在码本搜索中重新使用相同的处理操作。因此,这些码本的至少其中之一可有利为ACELP类型。
包含至少一个基础码本的码本级联是非常有利的。该变体尤其适 用于分级编码结构的情况。然而,不同的基础码本不能为同一个目的服务,这是因为,第一码本通常处理希望重构的信号的最小质量的编码。随后的码本更倾向于改进其质量,并将巩固编码,减少信号类型的敏感度,或解决某些其它因素。
在更一般的条件下,多个码本的级联等于构造单个整体码本,其中,如上所述,该整体码本由增益加权的码本的和得到。
在该情况下,每个激励矢量都对应于由基础码本中的得到的乘以了增益的矢量之和,通过减去由在先码本的矢量所生成的部分激励的已知贡献,在基础码本中一个接一个地探索。因此,在该有利的实施方式中,对于当前码本,通过减去由至少一个前面的码本生成的部分激励的已知贡献,级联的码本一个接一个地被探索,从而形成了分级的编码结构。
以一种特别有利的方式,在根据本发明的码本中搜索最优候选激励矢量是根据CELP准则的估计来实现的,其对现有技术仅进行了小的改变且包括如下步骤:
a)计算滤波器的脉冲响应和所述码本的所述基础图样的卷积来获得卷积的滤波器矢量,其中,所述的脉冲响应是由LPC合成滤波器与预测滤波器相乘得到的;
b)计算潜在的目标矢量和所述卷积的滤波器矢量之间的互相关矢量的元素;
c)可能地,校正自相关矢量的元素,以考虑在至少一个块边缘上的基础图样的截断;
d)计算所述卷积的滤波器矢量的自相关矩阵的元素;
e)可能地,校正上述矩阵的元素,以考虑在至少一个块边缘上的基础图样的截断;
f)利用表示为比率最大化的CELP准则实现对所述最佳候选矢量的搜索,所述比率中的分子包含所述互相关矢量的所述元素,其分母包括所述自相关矩阵的所述元素。
可理解的是,由于搜索能够显示块边缘的基础图样,因此,与现有技术的CELP准则的估计相比,通过加上步骤c)和e)稍微修正了 CELP准则的估计。
而且,当边缘图样将被截掉部分的相关能量比保留在块中的部分的相关能量小时,还提出了对基础码本的最优搜索算法的简化算法。在该情况下,可省略步骤c)和e)的至少其中之一。
还提出了其它的简化算法,其目标是截断乘以了感知滤波器的合成滤波器的脉冲响应,并截断在步骤a)中所计算的卷积滤波器矢量。
本发明不仅针对上文中提出的方法,也针对CELP激励矢量的码本本身和码本,该CELP激励矢量的码本可通过实现本发明的方法的数字音频信号编码/解码设备所构造。
本发明还针对包含指令的计算机程序,其中该指令用于实现上文中定义的构造码本的方法。
本发明还针对数字音频信号编码/解码设备,其中,该设备包含根据本发明的至少一个码本。通常,有利的实施方式由提供包含用于产生一个或多个码本的CELP激励矢量的装置(例如为处理器、计算存储器等)的设备构成,其中至少一个码本是通过实现本发明方法构造的。
有利地,这些码本可通过执行上述类型的计算机程序来构造,并存储在该编码/解码设备的存储器中,例如,通过使用将矢量索引与矢量码本身相关联的代数规律(例如,ACELP技术)。
本发明还针对用于编码/解码数字音频信号的设备的使用(因此通常为编码/解码方法),以及用于数字音频信号编码/解码设备的、包括用于实现该用途的计算指令的计算机程序。
一般地,上文表达的所有或某些的一般和可选的特征能够平等地应用于码本的构造、码本自身、包含至少一个适当构造的码本的编码/解码设备或该设备的用途、甚至用于产生码本的计算机程序、或能实现该装置的用途的计算机程序。
因此,本发明提出了CELP类型的激励矢量的码本及其用途,其对适中的大小提供了内容的极大丰富。尽管形式多变,但是与索引相关的解码不是非常复杂。也可能通过利用这些码本的特殊成分为选择最优矢量加入快速算法。
可被记住的是,本发明提出了一类CELP码本,该类码本允许用相对适中的比特率对各种激励信号进行编码,且提供了快速有效的算法用于选择合适的矢量。
通过学习如下的详细描述和附图,本发明的其它特征和优点将会变得显而易见,其中,除了图1和图2,其它附图描述如下:
-图3a图解说明了用于本发明实现的基础图样;
-图3b和图3c分别图解说明了基础图样的第一和第二项的第一位置集A0和第二位置集A1;
-图3d图解说明了由本发明的实现所选的矢量码的实施例;
-图4是根据本发明利用码本在CELP准则的估计中对自相关矩阵所作的修正的表;
-图5图解说明了根据本发明用于在码本中搜索最优矢量码的基本步骤,其通过应用“校正的”CELP准则来考虑出现在当前块之外的图样部分而实现;
-图6图解说明了根据本发明的码本的并集的实施例;
-图7图解说明了根据本发明的码本的和的实施例;
-图8a和图8b图解说明了本发明示例性实施方式的第一和第二基础码本,以根据G729标准来对CELP编码器进行改进;
-图8c比较图8a的码本和图8c的码本的波形的平均频谱的外形;
-图9图解说明了由本发明的示例性实施方式改进的、根据G.729标准的CELP编码器的示例性实施方式。
首先参考图3a到图3b,对根据本发明的“基础”码本的内容进行描述。
通过将基础图样y(j)(-p≤j≤p)定义为在长度为N的块中移动的抽样序列(图3a),并且通过当其超出块时将其截断,而获得基础码本的矢量码。将相同图样的、乘以幅度因子后的K个项加到一起,以构成码本的矢量码。
作为一个实施例,图7中的虚线框D2图解说明了以该方法构造的基础码本的少数矢量V21、V22、V2n。第一矢量V21包括基础图样Pat(D2),其中,该图样Pat(D2)包含11个连续的脉冲。对于该图样 的左侧,只能看到反极性的且被截断的图样的“结尾”,即矢量V21中出现的第9到第11个脉冲。下一矢量V22重复完整的图样Pat(D2),以及在右侧被截断的反极性的另一图样。在矢量V21和矢量V22中,图样是独立的。换句话说,在最后的矢量V2n中,两个基础图样以相同的极性被重复,但是这两个图样部分各自的中心位置非常接近以使其部分重叠。在该情况下,重叠部分的脉冲被加在一起,并考虑了其大小。例如,在图7的实施例中码本D2最后的矢量V2n包括两个基础图样脉冲在其边缘处的总和,一个在右边另一个在左边(整个图样从左边数的第9和第11个脉冲)。类似地,在矢量V21+V12的和中,矢量V21的第二图样的中心脉冲(负)与矢量V12的第二脉冲(正)相互抵消。
因此,在更一般的条件下,在激励矢量的每个块中,当超出基础图样可接受的位置时,图样位置使得图样至少一部分地重叠(矢量V2n的情况)。在该情况下,将重叠的图样脉冲加在一起。
应该注意的是,上文中给出的有助于阐明随后的发展的公式:y(j)(-p≤j≤p)似乎对基础图样施加了奇数个元素(-p≤j≤p)的先验条件。实际上,如上所述,该特殊特性对于实现本发明来说不是必要的。如果使用具有偶数个元素的图样,所要做的只是在其中的一个边缘加上零元素,且仍能使用本文中的公式。
基础码本中的每个N维的矢量{c(n)}通过加上具有K个项的矢量yk而构造,使得:
YK={sk×yk(n)},n的范围是0到N-1,且k的范围是0到K-1。
这些矢量由基础图样构成,该基础图样被指定了给定的幅度,且必要时在边缘截断或补充零。
每个项k的特性在于:
-从集Sk中取值为其指定的幅度sk,;
-基础图样的位置,例如,其可由中心位置ak表示,ak从集Ak中取值,且可能超出范围[0,N-1],当然,唯一的局限性是块中图样的交集不为零。
图3b和图3c图解说明了特别地K=2的码本。第一项由中心a0和幅度s0∈S0={±1}表征,其中,中心a0可位于位置集 中的五个位置上(图3b)。第二项由中心a1和幅度s1∈S1={±1}表征,其中,该中心可位于位置集 中的四个位置上(图3c)。则该码本包括:
5(A0位置)×4(A1位置)×2(A0的极性)×2(A1的极性)=80个矢量码。
图3b给出了该码本的矢量码的实施例(由位置 和 以及幅度s0=+1和s1=-1所定义)。
因此公式如下:
也可表示为:
其中,使用了Kroenecker函数δ(.),并且如果 则截断函数t(n)=0。
每个矢量{c(n)}由每个项的基础图样的中心位置集 以及与不同的项相关联的幅度集 所表征,其中∏表示集合的笛卡儿乘积。
通过将由K维矢量yk对抽样n的的(任何)贡献相加,而根据以下关系式获得元素c(n)(0≤n≤N-1):
如果(N+2p)维矢量{c0(n)}定义如下:
则
通过与基础图样y进行卷积,并在段[0,N-1]边缘的截断,来根据矢量{c0(n)}推断出基础码本的矢量{c(n)}。
可理解的是,矢量{c0,(n)}由基础图样的中心 的 数据和幅度的数据 所定义。如果这些中心是结构化排序的,则可理解的是,为了加快码本中的矢量码的选择速度,可使用该结构来定义快速算法。
截断函数t(n)在表达式c(n)中引入了非线性特性,通过将N维的矢量{c(n)}扩充为(N+2p)维的矢量{c′(n)},可分散该非线性:
因此矢量{c′(n)}显示为三部分:
c′(n)=cc(n)+cg(n)+cd(n);-p≤n≤N-1+p
中心部分 对应于{c0(n)}和基础图样的卷积,且边缘间隔[-p,-1]和[N,N+p-1]中的分量先验地为非零的。
其它两项消除了cc(n)的边缘的非零成分,且对应于边缘上图样的可能截断所引入的效应:
-其中,块左边缘的效应:
-块右边缘的效应:
接下来描述了在基础码本中搜索矢量码。
可记住的是,将被最大化的CELP准则
包括计算两个量:分子Num和分母Den。
(N+2p)维矢量{cw(n)}由上文给定的矢量{c′(n)}和过滤器H(z)的脉冲响应的卷积所定义。然而,在最优波形的选择中,只使用该矢量中的N个中心元素。
在该表达式中,中心因子 通过引入矢量{h′(i)}来计算,矢量{h′(i)}对应于滤波器H的脉冲响应和基础图样的卷积
然后获得:
可被记住的是,中心因子表示如下:
通过引入联合了K个集Ak(k∈[0,K-1])的集合 ,位置-2p≤ak<p,
“左边缘”因子
或
也表示为:
因子bg(n)的项数依赖于K个项中基础图样的中心ak的定义域Ak。然而,对于至少部分地与当前块重叠的图样来说,重要的是通过大于p个抽样而避免中心与该块的第一抽样距离过远。该条件表示为ak≥-p,其导致
因此
通过定义函数
“左边缘”因子表示为
应该注意到,对于每个项k,后一个表达式只包括范围为[-p,p-1]的中心值ak。
“右边缘”因子表示开始端 且重复上述应用于左边缘的原理:
或
在先前情况的对称方式中,图样的中心位于离右边缘最多p个抽样处,导致ak≤N+p-1,因此:
通过定义函数
也可表示为:
非零元素h″′(n,j)的数目因此依赖于n<0时非零元素h(n)的数目。如果假定滤波器H(z)是因果滤波器,则n≤N-1的所有元素bd(n)则都为零。
因此,在因果滤波器(其中,如果n<0,则h(n)=0)的情况下,右边缘效应对该计算无影响。
在下文中,将假定图样在两个边缘上不可同时截断。相反的情况意味着图样的大小可大于长度为N的块,对于这种情况,本发明仍然可适用。
接下来描述了根据本发明的码本的CELP准则的应用。
分子可计算如下:
通过引入如下表达式,可为根据根发明的码本的所有分子获得类似的表达式:
其相当于为属于集Γg和Γd的中心ak的元素d(ak)加上修正,其中,元素d(ak)对应于位于边缘的需要截断的图样的项。然后应用 ,其类似于搜索传统多脉冲类型码本的最优波形中的分子。
分母计算如下:
“中心”项通常表示为:
后一种表达式再次类似于在传统多脉冲码本情况下的分母表达式。
换句话说,对于在具有根据本发明的码本的CELP准则中估计所得的所有分母来说,引入根据图4的表所示的方法进行修正的自相关函数。通过考虑自相关函数的该修正,可获得与传统多脉冲码本的情况一致的表达式。
修正的矩阵能够以如下形式表示在根据本发明的码本中进行搜索的分母:
该表达式与用于在传统多脉冲码本中进行搜索的分母是一致的。
接下来描述在根据本发明的码本中进行的适当的搜索。
参考图5,优选地提供如下步骤:
计算滤波器H的脉冲响应与基础图样的卷积矢量(步骤51)
然后计算目标矢量x(n)和矢量{h′(i)}(在步骤51中获得的)之间的相关矢量的元素 (步骤52)。
然后,如果需要的话,对于出现在块边缘的图样,对这些元素进行校正(图5的综合步骤53)。实际上,对于使图样的中心ak∈Ak在块的边缘施加截断函数的值k∈{0,1...,K-1}(测试54的输出为“是”箭头),都需要计算校正元素d′(ak)(步骤56)。否则(测试54的输出为“否”箭头),则执行d′(ak)=d(ak)(步骤55)。在这两种情况下,在步骤53的结束处,都有利地获得考虑了边缘效应的矢量d′(ak)。
为了确定分母,然后计算{h′(i)}的自相关矩阵的元素(步骤57):
ak∈Ak,al∈Al,k=0→K-1,l=k+1→K-1.
如果需要的话,对这些元素进行校正,以再次考虑出现在边缘的图样(图5的综合步骤63)。实际上,对于所有的对(ak,al)中(其中至少一个元素对应于超出块的一个边缘的图样项)(测试58的输出为“是”箭头),在步骤60中,计算被校正的元素Φ′(ak,al)。否则(块边缘无图样,对应于测试58的输出为“否”箭头),在步骤59中执行Φ′(ak,al)=Φ(ak,al)。在这两种情况下,在综合步骤63的结尾处,都有利地获得考虑了边缘效应的矩阵元素。
然后利用传统CELP搜索准则来实现最优波形的搜索(步骤61),以最终获得最优矢量码VC(步骤62),其中,该准则表示为比率的最大化,该比率的分子实现矢量{d′(ak)},且分母实现元素Φ′(ak,al),。
这里需要指出的是,图5以流程图的形式说明了计算机程序的一部分算法,其中,该程序能够使用包括根据本发明的至少一个码本的编码/解码设备。
众所周知并有效的是,在根据本发明的基础码本中搜索波形最终归结为在传统多脉冲码本中的搜索。特别地,如果图样的k个(范围为0到K-1)项的中心位置ak∈Ak描述了ACELP类型的结构化的码本 的脉冲位置,将可使用为这种ACELP码本开发的有效的快速算法。
已经假定图样的尺寸小于块的尺寸。然而,使方法不失一般性地,在相反的情况下,需要引入区域Γg∩Γd,其中,应用了两个修正。
本发明还提出了上述方法的简化形式。例如,当被截断的元素的相关能量小于保留在块中的元素的能量时,对于边缘处的项来说,可简单地忽视边缘效应(则不需要进行测试54和测试58)。在该情况下,可简单地去掉校正步骤53和步骤63中至少一个(优选地步骤63)或二者均去掉。
接下来描述基础码本的一些可能的构成。
提出了两种联合方法,用于提供能够提供各种波形表示的整体码本,特别地,用于提供非常满意的频谱丰富。实际上,可将每个基础码本的内容指向一个或多个信号类别。
*基础码本的并集
基础码本的并集能够提供单个码本,该码本的每部分对应于一个基础码本。对于将由其中一个基础码本更好地表示的信号部分,能在该基础码本内找到最优波形来表示该信号部分。
图6图解说明了这样的码本,其示出了两个基础码本D1和D2的并集,所述两个基础码本由用于项的相同的中心位置集和相同的幅度集所构造,且每个基础码本分别具有两个图样,所述并集码本包括:
-用于第一基础码本D1的信号脉冲Pat(D1);
-以及用于第二基础码本D2且根据图3a的图样的脉冲序列Pat(D2)的序列。
对于对给定的待编码的激励矢量,优选地,对每个基础码本分别进行探索,然后,将在每个基础码本中搜索而得的最优波形相互之间进行比较,以在其中选择最合适的波形。在该情况下,搜索的复杂性等价于在每个基础码本中搜索的复杂性的总和。如上所述,由基础码本的有利结构引入的快速搜索已被证明是非常有效的。
还提出了探索变体。例如,首先从构成整体码本中确定一个(或几个)基础码本,然后将搜索限制在适当地预先选定的基础码本内。
通过首先识别已选的基础码本(例如,通过将所选矢量码的索引 与存储在存储器中且对应于完整码本中的基础码本的边界的值),来进行索引的解码。然后,用先前提到的方法对基础码本中的矢量码的索引进行解码。
*码本的和
该实现是有利的。其目标为构造和使用加上了基础码本的矢量的码本,以使用作为其成分的基础码本的特征以及其组合的特征。
因此,在码本的和的情况下,通过将基础码本中的全部矢量一个接一个且一个采样接一个采样地相加,而简单地形成码本的矢量,如下文描述的第二实施方式,也可用增益将其进行加权。
实际上,下文提出了两个实施方式用于获得几个码本的和。
在第一实施方式中,通过将得自每个基础码本的波形加在一起,得到整体码本D=D1+D2。图7图解说明了这种基础码本加法的原理。在描述的实施例中,只有两个码本D1和D2加到了一起,但是,将认识到,在和D1+D2中,且可知码本D1的矢量Vli的脉冲的加权与码本D2的矢量V2j的脉冲的加权是相同的。
然后,在本文中定义了与给定的和相关的单个增益。因此,还具有与利用码本对解码进行的简化相关的优点,所述码本中的至少之一是基础码本。实际上,通过标示图样的中心位置和不同码本中的项(也就是用于不同图样的项)的幅度,并通过将定标的并适当布置的图样进行相加,可表示属于基础码本D2的矢量码。
可通过I个码本相加获得的、这种码本的矢量码的成分表示为如下类型的关系式:
还可有利地将在单个基础码本的上下文中提出的快速算法适应为用于上文描述的码本的和中。作为示例性的实施例,考虑两个基础码本的和,表示为:
其中,索引1和2分别指来自分别具有K1和K2个项第一图样γ1和第二图样γ2的矢量。
如上所述在单个基础码本的情况下,可定义对应于第一图样的矢量{h′1(i)}, 和对应与第二图样的矢量{h′2(i)}, 倘若使相关矢量的表达式适应于如下关系式,则再次采用在多脉冲码本中的搜索的分子和分母的传统表达式。
对于目标矢量的互相关性,可按如上提出的方法计算修正的矢量{d′1(ak)}和{d′2(ak)},分子则表示为:
然而,分母的情况更复杂,这是因为,除了上述的自相关φ′1(ak,al); 和φ′2(ak,al); 外,还包括了第一图样的项和第二图样的项之间的相关性。因此,例如,例如对于使 的中心值 和使 的中心值 来说(k<1),必须计算下式:
即使这些表达式仍在本领域技术人员的范围内,但其在一般情况下是相当复杂的。
分母根据如下类类型的关系式表示为:
以这样的一种方式,可计算修正的自相关矩阵的元素,并可再次使用多脉冲编码的加快的搜索算法。
基础码本的和的第二实施方式产生更简单的搜索算法。该原理由将基础码本的和级联所构成,不同的增益与得自基础码本的每个子矢量相关。在该情况下,激励矢量表示为:
该变体在复杂性方面是非常有利的。
其还表现出了更多的优点。由于每个基础码本更具体地倾向于丰 富整体码本,例如,根据激励信号的特殊类型,能够有利地为基础码本中的不同搜索使用不同的预测滤波器wi(z)(i的范围是0到I-1)。例如,可使用更适合于表示激励信号的低频率部分的第一基础码本,以及更倾向于表示高频率部分的第二基础码本。尤其有利的是,该方案在第二基础码本搜索中偏爱频谱的高频率部分。例如,在第二搜索中,传统的预测滤波器可和高通滤波器级联。而且,该操作适于担任“频谱调焦(spectral focusing)”。将在下文参考图9对此详细描述,以说明示例性的实施方式。
最后,第二实施方式有利地适用于分级CELP编码结构。实际上,在这些结构中,比特流被分级地组织,在第二实施方式实现中,对应于基础码本的每个子矢量码的索引的为和对应于其增益的位可形成分离的分级层(或分离的层中的“参与者”)。如果解码器只接收到该信息的一部分,那么,通过对接收到的与第一层基础码本的子矢量码相关的索引和增益进行解码,且通过将由该方法获得的部分激励相加在一起,可重构激励的至少一部分。
如上所述,第一基础码本则处理最小质量编码,随后的码本则例如通过提供宽频谱容量来提供质量的逐步改进并更好地包含信号的可能的变化。
接下来描述应用于现存编码器/解码器中的本发明的实施方式。
下文中描述的示例性实施方式是在分级CELP编码器的上下文中的,其中,该分级CELP编码器生成包括两层的比特流。第一层对应于分级结构的“核心”编码并工作在8Kbit/s的比特率,第二层为另外的4Kbit/s提供质量增强,该两层的比特流产生12Kbit/s的总比特率。第一层的比特流可与ITU-T G.729标准化编码器的比特流“兼容”,从而使根据本发明的编码器和解码器可分别和遵守G.729标准及其附录的解码器和编码器一起工作,用于8Kbit/s的比特率。
在所提出的示例性实施方式中,通过使用根据本发明的基础码本的级联总和的变体的码本,而提供分级。块大小为5ms,或在8kHz时为40个抽样。
第一基础码本D1(图8a)是“平凡”类型的,且简单地对应于 G.729编码器的ACELP码本,该码本的矢量通过将四个有符号的脉冲加在一起而获得,这四个脉冲的位置属于下表2所示的集合。对于更详细的细节,可参考ITU-T建议G.729(“Coding of Speech at 8Kbit/susing Conjugate Structure Algebraic Code Excited Linear Prediction(CS-ACELP)”,March 1996)。
因此,其为与图样相关的基础码本,其中,该图样限制为中心脉冲(p=0)并具有K=4个项,集合S0,S1,S2,S3在表2的第二列中给出,且集合A0,A1,A2,A3在最后一列中。
脉冲 | 符号 | 位置 |
i0 | S0:±1 | A0:0,5,10,15,20,25,30,35 |
i1 | S1:±1 | A1:1,6,11,16,21,26,31,36 |
i2 | S2:±1 | A2:2,7,12,17,22,27,32,37 |
i3 | S3:±1 | A3:3,8,13,18,23,28,33,38 4,9,14,24,29,34,39 |
表2:用于G.729编码器的ACELP码本
第二基础码本D2(图8b)是非平凡的码本,其长度为3的基础图样(或“三脉冲”)包括幅度分别为-α,+1和-α的三个脉冲,优选地,0<α≤0.35。有利地,值α可根据输入信号的特征动态地选择。
该图样的项数、中心位置和幅度都和第一码本的情况相同。
图8c示出了第一码本(箭头D1)和第二码本(箭头D2)的波形的平均频谱的外观。可看出,第一码本表现出在频谱上平坦的内容,而第二码本则在高频率处更丰富些。
该观测结果能够使通过第一编码层获得的质量得到提高,并在低频部分的区间[300-3400Hz]内为语音信号提供了好质量的重放,且趋向于在高频处降低能量和保真度。
为了更好地集中于在频谱的高频处进行第二基础码本中的搜索,当探索第二码本时,将辅助的高通滤波器Hp(z)应用到滤波器W(z)上。
图9图解说明了根据该实施方式的编码器。第一级ET-1引入了适应性码本DICa(矢量{p(n)})及其相关的增益gp以及第一固定码本D1(矢量{c1(n)})和相关的增益g1。第二级ET-2表示在第二固定码本D2(矢量{c2(n)})中的搜索和相关的增益g2。在适应性码本DICa和第一固定码本D1中的搜索使用预测滤波器W1(z)=W(z),例如在G.729 标准中所定义的预测滤波器。第二码本D2通过加入滤波器Hp(z):W2(z)=W(z)×Hp(z),来使用聚焦在高频率上的搜索。
在第一基础码本D1中的搜索是众所周知的,并使用例如在G.729标准中及其简化了复杂性的附录A(ITU-T Recommendation G.729,“Annex A:Reduced complexity 8Kbit/s CS-ACELP speech codec”,November 1996)中介绍的快速及聚焦算法中的一个或其它。
如上所述,在第二基础码本D2的搜索也使用该快速算法。
为了下文中的易读性,下列关于第二码本相关的所有索引“2”将会被省略(例如H2(z)变成H(z),c2 w(n)变成cw(n),等)。
根据第一简化方法,滤波器的脉冲响应 被截断为0≤n≤39的元素h(n)(块长度为N=40)。
因此,定义-1≤n≤40的矢量{cw(n)}。如上所述,由于n<0时h(n)=0(因果滤波器),因此右边缘并不包括在内(bd(n)=0)。
可看出,中心位置ak全在块[0,39]内。
在这些条件中,集合 只包括集合A0中的单个元素(即,位置a0=0),且该元素对应于第一项上的三脉冲图样的第一位置:Γg={0}。
图9概略地表示了根据本发明的设备,特别地,在该情况下,为编码设备。
如上所述,首先计算滤波器H的脉冲响应的矢量与基础图样的卷积(参考图5中51的第一步骤),给出:
h′(n)=-αh(n+1)+h(n)-αh(n-1)
由于对于n≤0或n≥40,h(n)为0,因此,对于-1≤n≤40,h′(n)先验地为非零值。
为了计算CELP准则的分子 首先计算互相关性 (步骤52),将其修正为(整体步骤53):
因此所做的校正被限制为校正第一元素:
集合Ak包括块[0,39]的所有位置。因此有必要为0≤j≤39的任意j用如下关系式计算d′(j):
并且 if 1≤j≤39
对于分母,必须计算自相关性(步骤57):
(将记起符号k=x→y实际上表示“k的范围为x到y”)
对于i<j的任意一对元素(i,j),n<-1时h′(n)=0的约束导致 其中应记住Φ(i,j)=Φ(j,i)。
考虑了左边缘对元素Φ′(ak,al)所做的校正(步骤60),如下所示:
因此,最终没有必要计算h′(40),而只有-1≤n≤39时的元素h′(n)与该计算相关。将被记住的是,其它元素Φ(ak,ak)(其中ak≠0)以及Φ(ak,al)(其中ak≠0,al≠0)并不一定需要校正,并在这种情况下设定Φ′(ak,al)=Φ(ak,al)(图5中的步骤59)。
本发明还提出了另外的简化方法,尤其对于小系数α。实际上,对于分母的计算,如果元素表示为h′(n)=-αh(n-1)+h(n)-αh(n+1),则能显示自相关函数:
当矩阵的元素乘以α2时,可做出判定以忽略与该矩阵的元素相关的所有项。
而且,假设在和 中仅包括很少的边缘效应,那么,在计算分母中没有必要考虑边缘效应,记住p=1且α基本上小于1。
从而,可在分子和分母中均忽略边缘效应。
最后,可引入另外的简化方法,使计算第二基础码本的自相关矩阵的元素的方法与计算第一基础码本的自相关矩阵的元素的方法完全相同。该简化的方法包括截断范围[0,39]内的{h′(n)}。以该方法产生的误差依赖于α值,但也依赖于频谱的梯度。通常,对于在低频上集中了强大能量的信号,h(0)的值与相邻元素的值具有相同的阶,且可理解的是,h′(-1)=-α×h(0)在计算上具有很小的影响。
当然,本发明并不局限于上文通过实施例描述的实施方式,其可延伸到其它变体。
一般地,由本发明的实施方式所定义的码本提供了广泛的使用灵活性。由于每个块完全独立于前面的块或后面的块,因此,对于每个块可使用与相邻的块所使用的码本完全不同的码本,而不需要特殊的预防措施。因此避免任何连续性的问题。可非常容易地对用于将被编码的信号的码本进行适应,例如,通过修正用于基础码本的图样。还规定了对修正定义项中的图样的中心位置集和/或幅度集合进行修正。例如,这些可能的修正尤其适应于源支配的可变比特率编码的情况。
如下特性的应用可有利地在根据本发明的方法中实现:
-与图样的项相关的幅度选自包括值-1和+1的集合;
-整体码书可由基础码书的并集来构造,其中至少一个基础码书是由基础图样定义的基础码书,且整体码书包括所有基础码书的所有矢量;
-包含在并集或和中的至少一个码书是ACELP类型,和/或所构造的码书包括可接受的图样位置,该位置描述了被构造为ACELP码书 的一组脉冲位置的集合;
-第一和第二脉冲的幅度的绝对值在0和大约中心脉冲的幅度的绝对值的一半之间变化。
对于在随后的码书中进行搜索,根据本发明的设备有利地包括整体感知加权滤波器中的高通滤波,值得注意的是,该滤波器包含在搜索最优激励矢量的编码中。
根据本发明的设备的用途可包括根据CELP准则的估计,在码本中进行对潜在的最优激励矢量的搜索,所述搜索包括如下步骤:
-计算滤波器的脉冲响应和所述码本的所述基础图样的卷积来获得卷积的滤波器矢量,其中,所述的脉冲响应是由LPC合成滤波器与预测滤波器相乘得到的;
-计算潜在的目标矢量和所述卷积的滤波器矢量之间的互相关矢量的元素;
-计算所述卷积的滤波器矢量的自相关矩阵的元素;
-利用表示为比率最大化的CELP准则实现对所述最佳候选矢量的搜索,所述比率中的分子包含所述互相关矢量的所述元素,其分母包括所述自相关矩阵的所述元素。
本发明还针对用于数字音频信号编码/解码设备的计算机程序,该计算机程序包括用于实现根据本发明的设备的一般用途的指令。
Claims (13)
1.一种构造CELP类型的激励矢量的方法,所述激励矢量用于对数字语音信号进行编码/解码,每个N维矢量都包括占据N个有效位置的脉冲,其中,初始码本如下构造:
-提供形成基础图样的通用脉冲序列;以及
-基于分别位于所述N个有效位置中的一个或多个位置上的一个或多个项,将所述基础图样分配给所述码本的每个激励矢量。
2.如权利要求1所述的方法,其中,将在激励矢量中的每个项上出现的所述基础图样乘以与所述项相关的幅度。
3.如权利要求1所述的方法,其特征在于,所述初始码本的所有矢量包括的项与所述图样的项的数量相同,并且所述初始码本由如下各项定义:
-形成所述基础图样的所述脉冲序列;
-在每个矢量中的图样的项数;
-允许用于所述图样的所述项的位置集合;以及
-将与所述图样的所述项相关的幅度集合。
4.如权利要求1所述的方法,其中,将出现在矢量的块边缘的图样截断,且截断后的图样中的剩余脉冲占据所述块的开始处或结尾处。
5.如权利要求1所述的方法,其中,在矢量的每个块的图样所接受的位置之中,所述位置使得所述图样至少部分地重叠,并且,所述图样中重叠的脉冲一对一地相加。
6.如权利要求1所述的方法,其中,整体码本由基础码本的和构造,所述基础码本中的至少一个是由基础图样定义的初始码本,并且,所述整体码本的矢量是通过将处于相同位置的、所述基础码本的矢量的脉冲相加来构成的,并且,将所述基础码本的矢量由增益加权以构造所述和,每个码本与一个增益相关。
7.如权利要求1所述的方法,其中,所述基础图样包括至少一个中心脉冲,所述中心脉冲的之间和之后都有符号与所述中心脉冲的符号相反的至少一个脉冲,并且所述图样包括三个脉冲,即:
-中心脉冲;
-位于所述中心脉冲之前的第二脉冲;以及
-位于所述中心脉冲之后的第三脉冲;
所述第二和第三脉冲的符号与所述中心脉冲的符号相反;
所述第二和第三脉冲的幅度的绝对值小于所述中心脉冲的幅度的绝对值。
8.用于对数字音频信号进行编码/解码的设备,所述设备被配置为使用通过实现如权利要求1到7中一项所述的方法获得的CELP类型的激励矢量的码本。
9.如权利要求8所述的设备,包括多个级联的码本,所述码本包括至少一个初始码本,并且,所述设备还包括初始码本和所述级联码本中的随后的码本,所述初始码本是通过提供基础图样来构造的,所述基础图样包括至少一个中心脉冲,所述中心脉冲的之前和之后具都有符号与所述中心脉冲的符号相反的至少一个脉冲,并且,所述图样包括三个脉冲,即:
-中心脉冲;
-位于所述中心脉冲之前的第二脉冲;以及
-位于所述中心脉冲之后的第三脉冲;
所述第二和第三脉冲的符号与所述中心脉冲的符号相反;
所述第二和第三脉冲的幅度的绝对值小于所述中心脉冲的幅度的绝对值。
10.如权利要求9所述的设备,其中,所述图样的位置和/或所述级联码本的矢量中的脉冲的位置描述了同一集合,图样的位置由构成所述图样的脉冲序列的中心脉冲的位置来识别。
11.一种如权利要求8所述的设备的使用方法,其中,在编码中,在确定了初始码本中的最优候选矢量后,形成索引,所述索引至少包含对以下各项的指示:
-在所述最优候选矢量中,所述基础图样的一个或多个位置;以及
-与所述图样的所述一个或多个位置相关的一个或多个幅度;
所述索引倾向于被发送,用于随后的解码;
并且,在解码中,根据所述索引通过以下步骤对所述最优候选矢量进行重构:
-将所述基础图样定位于由所述索引指示的所述位置上;
-将每个位置上的所述图样乘以相关的幅度;以及
-将位于所指示的位置上的相乘后的图样相加。
12.如权利要求11所述的使用方法,其中,所述设备包括多个码本的级联,所述级联等于构造单个整体码本,所述整体码本是通过将增益加权后的码本相加来获得的,并且,对于当前码本,通过减去由至少一个先前码本的矢量生成的部分激励的已知贡献,对所述级联码本一个接一个地探索,其称为分级编码结构。
13.如权利要求11所述的使用方法,其中,所述搜索在包括矢量的码本中进行的,所述矢量包括在矢量的块边缘出现并被截断的图样,被截断后的图样的剩余脉冲占据所述块的开始处或结尾处,并且,为了考虑所述基础图样在至少一个块边缘上的截断,根据需要对所述互相关矢量的元素和/或所述自相关矩阵的元素进行校正。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0601563 | 2006-02-22 | ||
FR0601563 | 2006-02-22 | ||
PCT/FR2007/050780 WO2007096550A2 (fr) | 2006-02-22 | 2007-02-13 | Codage/decodage perfectionnes d'un signal audionumerique, en technique celp |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101401153A CN101401153A (zh) | 2009-04-01 |
CN101401153B true CN101401153B (zh) | 2011-11-16 |
Family
ID=37308852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800065199A Expired - Fee Related CN101401153B (zh) | 2006-02-22 | 2007-02-13 | Celp技术中改进的数字音频信号的编码/解码 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8271274B2 (zh) |
EP (1) | EP1994531B1 (zh) |
JP (1) | JP5188990B2 (zh) |
KR (1) | KR101370017B1 (zh) |
CN (1) | CN101401153B (zh) |
AT (1) | ATE520121T1 (zh) |
WO (1) | WO2007096550A2 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466674B (en) * | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
US20100174539A1 (en) * | 2009-01-06 | 2010-07-08 | Qualcomm Incorporated | Method and apparatus for vector quantization codebook search |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
WO2011052221A1 (ja) * | 2009-10-30 | 2011-05-05 | パナソニック株式会社 | 符号化装置、復号装置、およびそれらの方法 |
PL2515299T3 (pl) | 2009-12-14 | 2018-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie do kwantyzacji wektorowej, urządzenie do kodowania głosu, sposób kwantyzacji wektorowej i sposób kodowania głosu |
US8924203B2 (en) * | 2011-10-28 | 2014-12-30 | Electronics And Telecommunications Research Institute | Apparatus and method for coding signal in a communication system |
FI3444818T3 (fi) * | 2012-10-05 | 2023-06-22 | Fraunhofer Ges Forschung | Laitteisto puhesignaalin koodaamiseksi ACELPia käyttäen autokorrelaatiotasossa |
KR101763131B1 (ko) | 2013-05-24 | 2017-07-31 | 돌비 인터네셔널 에이비 | 오디오 인코더 및 디코더 |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
AU2014336357B2 (en) | 2013-10-18 | 2017-04-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
CN105745705B (zh) | 2013-10-18 | 2020-03-20 | 弗朗霍夫应用科学研究促进协会 | 编码和解码音频信号的编码器、解码器及相关方法 |
JP6272619B2 (ja) | 2013-11-13 | 2018-01-31 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法 |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0967594B1 (en) * | 1997-10-22 | 2006-12-13 | Matsushita Electric Industrial Co., Ltd. | Sound encoder and sound decoder |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI98104C (fi) * | 1991-05-20 | 1997-04-10 | Nokia Mobile Phones Ltd | Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi |
JPH10133697A (ja) * | 1996-09-05 | 1998-05-22 | Seiko Epson Corp | 音声符号化方法およびその装置 |
JP3175667B2 (ja) * | 1997-10-28 | 2001-06-11 | 松下電器産業株式会社 | ベクトル量子化法 |
JP3174756B2 (ja) * | 1998-03-31 | 2001-06-11 | 松下電器産業株式会社 | 音源ベクトル生成装置及び音源ベクトル生成方法 |
JP3235543B2 (ja) * | 1997-10-22 | 2001-12-04 | 松下電器産業株式会社 | 音声符号化/復号化装置 |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
JP4173940B2 (ja) * | 1999-03-05 | 2008-10-29 | 松下電器産業株式会社 | 音声符号化装置及び音声符号化方法 |
US6449313B1 (en) * | 1999-04-28 | 2002-09-10 | Lucent Technologies Inc. | Shaped fixed codebook search for celp speech coding |
US6236960B1 (en) * | 1999-08-06 | 2001-05-22 | Motorola, Inc. | Factorial packing method and apparatus for information coding |
-
2007
- 2007-02-13 US US12/224,205 patent/US8271274B2/en not_active Expired - Fee Related
- 2007-02-13 JP JP2008555849A patent/JP5188990B2/ja not_active Expired - Fee Related
- 2007-02-13 EP EP07731605A patent/EP1994531B1/fr not_active Not-in-force
- 2007-02-13 KR KR1020087023140A patent/KR101370017B1/ko not_active IP Right Cessation
- 2007-02-13 AT AT07731605T patent/ATE520121T1/de not_active IP Right Cessation
- 2007-02-13 WO PCT/FR2007/050780 patent/WO2007096550A2/fr active Application Filing
- 2007-02-13 CN CN2007800065199A patent/CN101401153B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0967594B1 (en) * | 1997-10-22 | 2006-12-13 | Matsushita Electric Industrial Co., Ltd. | Sound encoder and sound decoder |
Also Published As
Publication number | Publication date |
---|---|
US20090222273A1 (en) | 2009-09-03 |
EP1994531A2 (fr) | 2008-11-26 |
JP2009527784A (ja) | 2009-07-30 |
KR101370017B1 (ko) | 2014-03-05 |
WO2007096550A2 (fr) | 2007-08-30 |
JP5188990B2 (ja) | 2013-04-24 |
KR20080110757A (ko) | 2008-12-19 |
ATE520121T1 (de) | 2011-08-15 |
WO2007096550A3 (fr) | 2007-10-11 |
CN101401153A (zh) | 2009-04-01 |
US8271274B2 (en) | 2012-09-18 |
EP1994531B1 (fr) | 2011-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101401153B (zh) | Celp技术中改进的数字音频信号的编码/解码 | |
KR100283547B1 (ko) | 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치 | |
CN102037650B (zh) | 用于信号的低复杂度组合编码的装置和方法 | |
CN106328122A (zh) | 一种利用长短期记忆模型递归神经网络的语音识别方法 | |
CN102682778B (zh) | 编码装置以及编码方法 | |
CN102194461B (zh) | 固定码本搜索装置 | |
US20070118366A1 (en) | Methods and apparatuses for variable dimension vector quantization | |
CN101821953A (zh) | 用于信号的低复杂度组合编码的设备和方法 | |
CN104126201B (zh) | 用于语音编码的混合码本激励的系统和方法 | |
CN1124589C (zh) | 码激励线性预测(celp)编码器中搜索激励代码簿的方法和装置 | |
CN1751338B (zh) | 用于语音编码的方法和设备 | |
CN103229234A (zh) | 音频编码装置、方法和程序以及音频解码装置、方法和程序 | |
CN1890713B (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换的方法及系统 | |
CN100593195C (zh) | 在语音编码系统中对增益信息进行编码的方法和装置 | |
CN101821800A (zh) | 矢量量化装置、矢量反量化装置和其方法 | |
CN107077857A (zh) | 对线性预测系数量化的方法和装置及解量化的方法和装置 | |
CN100580772C (zh) | 对信息信号编码的方法和设备 | |
US20040039567A1 (en) | Structured VSELP codebook for low complexity search | |
CN103081007A (zh) | 量化装置及量化方法 | |
CN101256771A (zh) | 嵌入式编码、解码方法、编码器、解码器及系统 | |
CN103366752A (zh) | 生成用于编码信息信号的候选码矢的方法和设备 | |
JPH1063300A (ja) | 音声復号化装置及び音声符号化装置 | |
CN101345530B (zh) | 一种矢量量化方法及矢量量化器 | |
JP3984048B2 (ja) | 音声/音響信号の符号化方法及び電子装置 | |
CN105340010A (zh) | 用于通过应用分布量化和编码分裂音频信号包络的音频信号包络编码、处理和解码的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111116 Termination date: 20170213 |