CN101390158B - 量化索引的编码方法、解码信号包络方法、编解码模块 - Google Patents
量化索引的编码方法、解码信号包络方法、编解码模块 Download PDFInfo
- Publication number
- CN101390158B CN101390158B CN2007800066863A CN200780006686A CN101390158B CN 101390158 B CN101390158 B CN 101390158B CN 2007800066863 A CN2007800066863 A CN 2007800066863A CN 200780006686 A CN200780006686 A CN 200780006686A CN 101390158 B CN101390158 B CN 101390158B
- Authority
- CN
- China
- Prior art keywords
- coding
- coding mode
- length
- signal envelope
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Abstract
本发明涉及一种用于信号包络的二进制编码模块(402),包括用于编码可变长度第一模式的模块(502)。根据本发明,所述用于编码第一模式的编码模块合并了包络饱和检测器,并且所述编码模块(402)还包括与用于编码第一模式的编码模块(502)并联的、用于编码第二模式的第二编码模块(503),以及适配为依据来自包络饱和检测器的结果和代码长度准则的函数选择两种编码模式中的一种的模式选择器(504)。本发明适于通过音频信号变换的编码。
Description
技术领域
本发明涉及定义信号包络的量化索引的二进制编码方法。本发明也涉及用于实现该方法的二进制编码模块。本发明还涉及用于解码通过本发明的二进制编码方法和二进制编码模块编码的包络的方法和模块。
本发明在传输和存储诸如音频语音、音乐等信号的数字信号方面找到特别有利的应用。本发明的编码方法和编码模块更具体地适合于音频信号的变换编码。
背景技术
存在用于数字化和压缩音频语音、音乐等信号的各种技术。最常用的方法是:
·诸如PCM和ADPCM编码的“波形编码”方法;
·“参数分析/合成编码”方法,诸如码本激励线性预测(CELP)编码;
·“子带或变换知觉(perceptual)编码”方法。
在编者W.B.Kleijn和K.K.Paliwal的″Speech Coding and Synthesis″,Elsevier,1995一书中描述了这些用于编码音频-频率信号的传统技术。
如上指出的,本发明主要关注变换编码技术。
ITU-T建议G.722.1,“Coding at 24 kbit/s and 32 kbit/s for hands-free operation in systems with low frame loss”,September 1999,描述了一种变换编码器,用于在从50赫兹(Hz)到7000Hz的被称为宽带的通带中,按照16千赫兹(kHz)的采样频率和按照24千比特每秒(kbit/s)或32kbit/s的比特率压缩语音或音乐音频信号。图1示出相关的编码方案,如在前面所述的建议中叙述的。
如该图所示,G.722.1编码器是基于调制重叠变换(MLT)的。帧长是20毫秒(ms)并且该帧包含N=320个采样。
具有Malvar重叠的调制变换的MLT变换是MDCT(改进的离散余弦变换)的变型。
图2在略图中示出MDCT的原理。
包括当前帧和以后帧的采样的长度L=2N的信号x(n)的MDCT变换X(m)被如下定义,其中m=0,...,N-1:
在以上公式中,正弦项对应于图2所示的窗口。X(m)的计算由此对应于x(n)在具有正弦曲线窗口的局部余弦底部之上的投影。存在快速MDCT计算算法(例如见论文P.Duhamel,Y.Mahieux,J.P.Petit,“A fast algorithm for theimplementation of filter banks based on time domain aliasing cancellation”,ICASSP,vol.3,pp.2209-2212,1991)。
为了计算该变换的频谱包络,得自MDCT的值X(0),...,X(N-1)被分组成每个具有20个系数的16个子带。仅首先14个子带(14×20=280个系数)被量化和编码,对应于0-7000Hz的频带,忽略7000-8000频带(40个系数)。
关于第j子带的频谱包络的值在对数域中定义如下,其中j=0,...,13,ε项用来避免log2(0):
该包络由此对应于每个子带的均方根值。
然后按以下方式量化该频谱包络:
·值的集合
log_rms={log_rms(0)log_rms(1)...log_rms(13)}
首先被舍入为:
rms_index={rms_index(0)rms_index(1)...rms_index(13)}
其中对于j=0,...,13,索引rms_index(j)被舍入为最接近log_rms(j)×0.5的整数。
量化步长由此是20×log10(20.5)=3.0103...dB。获得的值被限制为:
对于j=0,3≤rms_index(0)≤33(动态范围31×3.01=93.31dB);以及
对于j=1,...,13,-6≤rms_index(j)≤33(动态范围40×3.01=120.4dB)。
然后通过计算在一个子带和前一个子带的频谱包络的rms值之间的差 值将关于最后13个频带的rms_index值变换成差分索引:
diff_rms_index(j)=rms_index(j)-rms_index(j-1)对于j=1,...,13
这些差分索引也被限制为:
-12≤diff_rms_index(j)≤11;对于j=1,...,13
以下表述“量化索引的范围”指代能够被二进制编码表示的索引的范围。在G.722.1编码器中,差分索引的范围被限定为范围[-11,12]。因此G.722.1编码器的范围说来将是“足够”用于编码在rms_index(j)和rms_index(j-1)之间的差值,条件是:
-12≤rms_index(j)-rms_index(j-1)≤11
否则,G.722.1编码器的范围说来将是“不够的”。因此一旦在两个子带之间的rms差值超过12×3.01=36.12分贝(dB),频谱包络编码就达到饱和。
在G.722.1编码器中量化索引rms_index(0)在5比特上传输。通过霍夫曼编码来编码差分量化索引diff_rms_index(j)(j=1,...,13),每个变量具有自身的霍夫曼表。此编码因此是可变长度的熵编码,其原理是将就比特而言为简短的代码分配给最有可能的差分索引值,最不可能的差分量化索引值具有较长的代码。就平均比特率而言此类型编码是十分有效的,记住用来编码在G.722.1中的频谱包络的比特的总数平均在50比特左右。然而,如下清晰明了的,最坏的情形是失去控制。
图3的表给出对每个子带最短代码的长度(Min),由此为最可能的值的情形(最好情形),以及给出最长代码的长度(Max),由此为最不可能的值的情形(最坏情形)。注意在此表中第一子带(j=0)具有5比特的固定长度,不同于随后的各子带。
对于这些代码长度值,可看到在最好情形中编码频谱包络要求39比特(1.95kbit/s)并且理论上最坏情形为190比特(9.5kbit/s)。
在G.722.1编码器中,在编码频谱包络的量化索引之后剩余的比特然后被分发来编码通过量化包络归一化的MDCT系数。通过分类处理实现在子带中的比特的分配,该分类处理与本发明无关且这里不作详细描述。出于相同的原因,G.722.1处理的剩余部分也不作详细描述。
在G.722.1编码器中编码MDCT频谱包络存在许多不足。
如上指出的,在最坏的情形中可变长度编码能够导致使用极大数量的比特以编码频谱包络。同样,上面也指出对于某些高频谱不一致的信号的饱和 的风险,例如孤立的正弦曲线,差分编码不起作用,因为范围±36.12dB无法表示在各rms值之间的差值的全部的动态范围。
因此本发明的主题要解决的一个技术问题是提出一种用于定义信号包络的量化索引的二进制编码方法,其包括可变长度编码步骤并且即便在最坏的情形下都会将编码长度最小化到限定的比特数目。
此外,本发明将要解决的另一个问题涉及管理关于具有高rms值的信号(诸如正弦曲线)的饱和的风险。
发明内容
根据本发明,对于此技术问题的解决方案在于第一编码模式合并了包络饱和检测,并且所述方法也包括与第一编码模式并行执行的第二编码模式,以及依据在第一编码模式中检测包络饱和的结果和代码长度准则的函数选择两种编码模式中的一个。
因此本发明的方法是基于两种编码模式的共同存在,其中的一个或每个编码模式支持可变长度,从而能够选择产生最低数目的编码比特的模式,尤其在最坏情形中,即对于最不可能的rms值。
此外,如果编码模式中的一个导致子带的rms值的饱和,则另一个模式被“强制”和假定优先,即便它导致更大的编码长度。
在优选实现中,如果以下条件的一个或多个被满足则选择第二编码模式:
·第二编码模式的代码长度比第一编码模式的代码长度更短;
·第一编码模式的包络饱和检测指示饱和。
本发明也提供一种用于信号包络的二进制编码的模块,包括用于编码可变长度第一模式的模块,值得注意的是所述第一模式的编码模块合并了包络饱和检测器,并且所述编码模块也包括与用于编码第一模式的模块并联的、用于编码第二模式的第二模块,以及依据来自包络饱和检测器的结果和代码长度准则的函数保留两种编码模式中的一种的模式选择器。
除了选择最合适的代码,模式选择器还能够产生保留的编码模式指示符以便向下游解码器指示它必须施加哪种解码模式。
本发明还提供一种解码信号包络的方法,所述包络通过本发明的二进制编码方法被编码,值得注意的是所述解码方法包括检测所述选择的编码模式指示符的步骤和依照所选择编码模式的解码步骤。
本发明还提供用于解码信号包络的模块,所述包络通过本发明的二进制编码模块被编码,所述解码模块包括用于解码可变长度第一模式的解码模块,值得注意的是所述解码模块也包括与用于解码可变长度第一模式的解码模块并联的、用于解码第二模式的第二解码模块以及模式检测器,所述模式检测器被适配来检测所述编码模式指示符和激活对应于检测的指示符的解码模块。
本发明最后提供一种包括存储在计算机可读介质上的指令的程序,以执行本发明的方法的步骤。
附图说明
参考作为非限制示例提供的附图的以下说明清楚地解释了本发明的组成和如何能够实现本发明。
图1是遵守G.722.1建议的编码器的图;
图2是表示MDCT类型变换的图;
图3是对于图1编码器的霍夫曼编码中按照每个子带的代码的比特的最小长度(Min)和最大长度(Max)的表;
图4是包括实现本发明的MDCT编码器的分级音频编码器的图;
图5是图4的MDCT编码器的详图;
图6是图5的MDCT编码器的频谱包络编码模块的图;
图7包含定义MDCT频谱划分成18子带的表(a)和给出子带的大小的表(b);
图8是用于表示差分索引的霍夫曼编码的示例的表;
图9是实现本发明的包括MDCT解码器的分级音频解码器的图;
图10是图9的MDCT解码器的详图;
图11是图10的MDCT解码器的频谱包络解码模块的图。
具体实施方式
在运行于8kbit/s到32kbit/s的特定类型的分级音频编码器的环境中描述本发明。然而,必须清楚地理解,根据本发明用于频谱包络的二进制编码和解码的方法和模块并不限定于此类型的编码器,并且能够适用于任何形式的定义信号在子带中的能量的频谱包络二进制编码。
如图4所示,按16kHz采样的、宽带分级编码器的输入信号首先由二次镜像滤波器(QMF)划分成两个子带。通过低通滤波300和抽选301获得从0到4000Hz的低频带,通过高通滤波302和抽选303获得从4000到8000Hz的高频带。在优选实施例中,滤波器300和滤波器302具有长度64并且在以下论文中描述:J.Johnston,“A filter family designed for use in quadrature mirrorfilter banks”,ICASSP,vol.5,pp.291-294,1980。
在窄带(50Hz到4000Hz)的CELP编码305之前由消除50Hz以下的分量的高通滤波器304预处理该低频带。高通滤波考虑宽带定义为50Hz到7000Hz频带的事实。在描述的实施例中,所使用的窄带CELP编码305的形式对应于级联的CELP编码,其包括作为第一级的修改的G.729编码(ITU-TG.729 Recommendation,“Coding of Speech at 8kbit/s using Conjugate StructureAlgebraic Code Excited Linear Prediction(CS-ACELP)”,1996年3月)且没有预处理滤波器,以及包括作为第二级的附加的固定字典(dictionary)。CELP编码误差信号通过减法器306计算然后由WNB(z)滤波器307进行知觉加权以获得信号xlo。该信号被改进的离散余弦变换(MDCT)308分析以获得离散变换的频谱Xlo。
在高频带的声音失真(aliasing)首先被消除309以补偿由HQMF滤波器302导致的声音失真,之后,该高频带被由低通滤波器310预处理以消除在原始信号中介于范围7000Hz到8000Hz的分量。生成信号xhi经历MDCT变换311以获得离散变换的频谱Xhi。基于xhi和Xhi实现频带扩展312。
如已经参考图2解释的,信号xlo和xhi被划分成N个采样的帧,并且长度L=2N的MDCT变换分析当前帧和以后帧。在优选实施例中,xlo和Xhi是按8kHz采样的窄带信号,并且N=160(20ms)。MDCT变换Xlo和Xhi因此包括N=160个系数,且每个系数则表示4000/160=25Hz的频带。在优选的实施例中,通过由以下论文:P.Duhamel,Y.Mahieux,J.P.Petit,“A fastalgorithm for the implementation of filter banks based on‘time domain aliasingcancellation’”,ICASS P,vol.3,pp.2209-2212,1991描述的算法实现该MDCT变换。
在变换编码模块313中编码低频带和高频带MDCT频谱Xlo和Xhi。本发明更特别涉及此编码器。
由编码模块305产生的比特流312和313在复用器314中被复用和组织 成分级比特流。通过20ms采样(帧)的块实现编码,即320个采样的块。编码比特率是8kbit/s、12kbit/s、按2kbit/s步进的14kbit/s到32kbit/s。
参考图5详细描述MDCT编码器313。
低频带和高频带MDCT变换首先在合并块400中被组合。系数
Xlo={Xlo(0)Xlo(1)...Xlo(N-1)}和
Xhi={Xhi(0)Xhi(1)...Xhi(N-1)}
由此被分组成单个矢量以形成全频带离散变换的频谱:
X={X(m)}m=0...L-1={Xlo(0)Xlo(1)...Xlo(N-1)Xhi(0)Xhi(1)...Xhi(N-1)}
X的MDCT系数X(0),...,X(L-1)被分组到K个子带。能够由定义子带的边界的K+1个元素的表tabis={tabis(0)tabis(1)...tabis(K)}来描述子带划分。那么第一子带包括系数X(tabis(0))到X(tabis(1)-1),第二子带包括系数X(tabis(1))到X(tabis(2)-1)等。
在优选实施例中,K=18;在图7的表(a)中指定该关联的划分。
描述每个子带的能量分布的幅度log_rms的频谱包络被计算401且然后通过频谱包络编码器编码402以获得索引rms_index。将比特分配403给每个子带并且球形矢量量化404被施加到频谱X。在优选实施例中,比特分配对应于在以下论文公开的方法:Y.Mahieux,J.P.Petit,“Transform coding of audiosignals at 64kbit/s”,IEEE GLOBECOM,vol.1,pp.518-522,1990,以及如国际申请PCT/FR04/00219描述的一样来实现球形矢量量化。
通过复用器314处理由编码频谱包络和MDCT系数的矢量量化产生的比特。
下面更具体地描述频谱包络计算和编码。
对于第j子带定义在对数域的频谱包络log_rms如下:
其中j=0,..,K-1且nb_coeff(j)=tabis(j+1)-tabis(j)是在第j子带中系数的数目。ε项用来避免log2(0)。频谱包络对应于第j子带的rms值(dB);因此它是幅度包络。
在图7的表(b)中给出在优选实施例中子带的大小nb_coeff(j)。此外,ε=2-24,这表示log_rms(j)≥-12。
在图6中示出通过编码器402的频谱包络的编码。
在对数域的包络log_rms首先被均匀量化500舍入为rms_index= {rms_index(0)rms_index(1)...rms_index(K-1)}。该量化由下面简明地给出:
rms_index(j)=舍入为log_rms(j)×0.5的最接近的整数,
如果rms_index(j)<-11,则rms_index(j)=-11
如果rms_index(j)>+20,则rms_index(j)=+20。
然后以20×log10(20.5)=3.0103,...dB的均匀对数步长编码该频谱包络。产生的矢量rms_index包含从-11到+20(即,32种可能的值)的整数索引。该频谱包络因此表示达到32×3.01=96.31dB级别的动态范围。
然后通过块501将量化包络rms_index划分成两个子矢量:对于低频带包络的一个子矢量rms_index_bb={rms_index(0)rms_index(1)...rms_index(K_BB-1)}和对于高频带包络的另一个矢量rms_index_bh={rms_index(K_BB)...rms_index(K-1)}。在优选的实施例中,K=18和K_BB=10;换句话说,最先10个子带处于低频带(0到4000Hz)中和最后8个子带处于高频带(4000Hz到7000Hz)中。
通过两个竞相运作的编码模块502和503(即可变长度差分编码模块502和固定长度(“等概率”)编码模块503)将低频带包络rms_index_bb二进制化。在优选的实施例中,模块502是差分霍夫曼编码模块而模块503是普通(natural)二进制编码模块。
差分霍夫曼编码模块502包括以下详细描述的两个编码步骤:
·差分索引的计算。
差分量化索引diff_index(1)diff_index(2)...diff_index(K_BB-1)由下面给出:
satur_bb=0
diff_index(j)=rms_index(j)-rms_index(j-1)
if(diff_index(j)<-12)or(diff_index(j)>+12),
then satur_bb=1
二进制指示符satur_bb被用来检测diff_index(j)不在范围[-12,+12]的情况。如果satur_bb=0,全部元素在该范围中且差分霍夫曼编码索引范围足够;否则,这些元素中的一个小于-12或大于+12而索引的所述范围则是不够的。指示符satur_bb由此被用来通过低频带的差分霍夫曼编码检测频谱包络饱和状态。如果检测到饱和,则编码模式被改变为固定长度(等概率)编码模式。通过设计,等概率模式的索引的范围总是足够的。
·第一索引的二进制转化和差分索引的霍夫曼编码:
·量化索引rms_index(0)具有从-11到+20的整数值。其被直接地二进制编码成具有5比特固定长度。对于j=1...K_BB-1的差分量化索引diff_index(j)然后通过霍夫曼编码转换成二进制形式(可变长度)。在图8的表中指定使用的霍夫曼表。
·通过rms_index(0)的该二进制转换以及量化索引diff_index(j)的霍夫曼编码所得到的比特的总数bit_cnt1_bb改变。
·在优选的实施例中,霍夫曼代码的最大长度是14比特且霍夫曼编码施加到低频带的K_BB-1=9的差分索引。因此理论上bit_cnt1_bb的最大值是5+9×14=131比特。虽然这仅是理论值,注意在最坏情形的场景中在低频带中由频谱包络编码使用的比特的数目可能相当高;限制该最坏情形的场景正是等概率编码的作用。
等概率编码模块503直接将元素rms_index(0)rms_index(1)...rms_index(K_BB-1)转换为普通二进制形式。这些范围从-11到+20且因此每个按5比特编码。用于等概率编码必需的比特数目由此简化成:bit_cnt2_bb=5×K_BB比特。在优选的实施例中,K_BB=10因此bit_cnt2_bb=50比特。
模式选择器504选择两个模块502或503(差分霍夫曼编码或等概率编码)中产生较低比特数目的那个。由于差分霍夫曼模式使差分索引在+/-12处饱和,一旦在差分量化索引的计算中检测到饱和就选择等概率模式。一旦在两个相邻频带的rms值之间的差值超过12×3.01=36.12dB,该方法就避免频谱包络饱和。以下解释模式选择:
·如果(satur_bb=1)或(bit_cnt2_bb<bit_cnt1_bb),则选择等概率模式;
·如果不成立,则选择差分霍夫曼模式。
模式选择器504产生指示已经选择了差分霍夫曼或等概率模式中哪一个的比特,使用以下的约定:0用于差分霍夫曼模式,1用于等概率模式。该比特和由编码频谱包络产生的其它比特一起在复用器314中被复用。同样,模式选择器504触发双稳态505,其在复用器314中复用所选择的编码模式的比特。
按照和rms_index_bb完全相同的方式处理高频带包络rms_index_bh:通过等概率编码模块507在5比特均匀编码第一索引log_rms(0)以及通过编码模块506对差分索引进行霍夫曼编码。在模块506中使用的霍夫曼表与在模块502中使用的相同。类似地,等概率编码507与低频带的编码503相同。模 式选择器504产生指示已经选择了哪一个模式(差分霍夫曼模式或等概率模式)的比特,并且该比特和来自双稳态509的比特一起在复用器3 14中被复用。在高频带中用于等概率编码必需的比特数是bit_cntt2_bh=(K-K_BB)×5;在优选实施例中,K-K_BB=8,因此bit_cnt2_bh=40比特。
重要的应注意在优选实施例中与高频带的包络关联的比特在与低频带的包络关联的比特之前被复用。这样,如果仅编码的频谱包络的部分被解码器接收,则高频带的包络能够在低频带的包络之前被解码。
与刚描述的编码器关联的分级音频解码器在图9示出。在解复用器600中解复用定义每个20ms帧的比特。这里示出以8kbit/s到32kbit/s的解码。在实际中,比特流可以被截断成8kbit/s、12kbit/s、14kbit/s或从14kbit/s按2kbit/s步进到32kbit/s。
8和12kbit/s的各层的比特流被CELP解码器601用来产生第一窄带(0到4000Hz)合成。与14kbit/s层关联的比特流部分被频带扩展模块602解码。在高频带(4000Hz到7000Hz)获得的信号通过施加MDCT变换603被变换成变换信号 在图10示出MDCT解码604并且在下面讨论。从与介于14kbit/s到32kbit/s的比特率关联的比特流中产生在低频带的重建频谱 和在高频带的重建频谱 这些频谱通过块605和606中的MDCT逆变换被转换时域信号 和 在由反向知觉滤波607之后信号 被加到CELP合成608,然后该结果被进行后滤波609。
依靠施加包括过采样的合成QMF滤波器排(bank)610和612、低通滤波和高通滤波611和613,和求和614获得按16kHz采样的宽带输出信号。
以下参考图10描述MDCT解码器604。
在解复用器600中解复用与此模块关联的比特。频谱包络被首先解码701以获得索引rms_index和线性刻度(scale)重建的频谱包络rms_q。在图11中示出解码模块701并在下面描述。在没有比特误差和如果定义频谱包络的全部比特被正确地接收,则索引rms_index准确对应于在编码器中计算的那些;此性质是根本,因为比特的分配702要求在编码器和解码器中的相同信息从而编码器和解码器兼容。在块703中解码标准化的MDCT系数。
通过那些来自替代模块704的频谱 取代由于具有太少能量而没有被接收或没有被编码的子带。最后,模块705施加每子带的幅度包络到在模块704的输出端提供的系数,并且重建频谱 被分离706为低频带(0到4000Hz) 的重建频谱 和高频带(4000Hz到7000Hz)的重建频谱
图11示出频谱包络的解码。通过解复用器600解复用与频谱包络关联的比特。
在优选的实施例中,与高频带的频谱包络关联的比特先于低频带的那些被传输。因此解码开始于在模式选择器801中读取从编码器中接收的模式选择比特的值(差分霍夫曼模式或等概率模式)。选择器801遵守和编码相同的约定,即:0用于差分霍夫曼模式,1用于等概率模式。该比特的值驱动双稳态802和805。
如果模式选择比特是0,则通过可变长度解码模块803实现差分霍夫曼解码:首先解码从-11到+20并且用5比特表示的绝对值rms_index(K_BB),随后解码与差分量化索引diff_index(j)(对于j=K_BB.K-1)关联的霍夫曼代码。然后使用以下表达式重建整数索引rms_index(j),对于j=K_BB.K-1:
rms_index(j)=rms_index(j-1)+diff_index(j)
如果模式选择比特是1,则通过固定长度解码模块804连续地解码从-11到+20并且用5比特表示的rms_index(j)(对于j=K_BB.K-1)的值。
如果在模式0中没有找到霍夫曼代码或如果接收的比特数目不足够来完整地解码高频带,则解码过程向MDCT解码器指示错误发生。
按与和高频带关联的比特相同的方式解码和低频带关联的比特。该解码部分因此包括模式选择器806、双稳态807和810、和解码模块808和809。
低频带重建频谱包络包括整数索引rms_index(j)(对于j=K_BB.K-1)。在低频带的该重建包括整数索引rms_index(j)(对于j=0...K_BB-1)。这些索引在合并块811中被分组成单个矢量rms_index={rms_index(0)rms_index(1)...rms_index(K-1)}。矢量rms_index表示2为底的对数刻度的重建频谱包络;频谱包络被转换模块812转化成线性刻度,其执行以下运算,其中j=0,...,K-1:
rms_q(j)=2rms_index(j)
显然本发明并不限定于已经描述的实施例。尤其,应当注意到本发明编码的包络能够对应于定义信号的每子帧的rms值的时间包络,而不是定义每子帧的rms值的频谱包络。
此外,和差分霍夫曼编码竞相运作的固定长度编码步骤能够由可变长度编码步骤取代,例如量化索引的霍夫曼编码替代差分索引的霍夫曼编码。霍 夫曼编码也能够被任何其它无损编码替代,诸如算术编码、Tunstall编码等。
Claims (12)
1.一种表示音频信号包络的量化索引的二进制编码方法,包括可变长度第一编码模式且其特征在于第一编码模式合并了音频信号包络饱和检测,以检测音频信号包络的量化索引是否超出编码器所能表示的量化索引范围,并且所述方法也包括与第一编码模式并行执行的第二编码模式,以及依据代码长度准则和在第一编码模式中检测音频信号包络饱和的结果选择两种编码模式中的一种,
其中如果以下条件的一个或多个被满足则选择第二编码模式:
·第二编码模式的代码长度比第一编码模式的代码长度更短;
·在第一编码模式的音频信号包络饱和检测指示饱和,
其中所述第二编码模式是固定长度普通二进制编码,所述可变长度第一编码模式是可变长度差分编码。
2.如权利要求1所述的方法,其特征在于所述方法也包括产生选择的编码模式指示符的步骤。
3.如权利要求2所述的方法,其特征在于所述指示符是单个比特。
4.如权利要求1所述的方法,其特征在于所述可变长度第一编码模式是差分霍夫曼编码。
5.如权利要求1所述的方法,其特征在于所述量化索引是通过表示在所述音频信号的子带中的能量的频率包络的标量(scalar)量化来获得。
6.如权利要求1所述的方法,其特征在于所述量化索引是通过表示在所述音频信号的子帧中的能量的时间包络的标量量化来获得。
7.如权利要求4或5所述的方法,其特征在于对第一子带或子帧进行固定长度编码以及对除第一子带或子帧外的其它子带或子帧相对于前一个的差分能量进行可变长度编码。
8.一种解码音频信号包络的方法,该音频信号包络通过根据权利要求2到3中任何一个所述的二进制编码方法编码,其特征在于所述解码方法包括检测所述选择的编码模式指示符的步骤和依照所选择编码模式进行解码的步骤。
9.一种用于对表示音频信号包络的量化索引进行二进制编码的装置(402),包括用于可变长度第一编码模式的编码模块(502),其特征在于所述用于第一编码模式的编码模块合并了检测音频信号包络的量化索引是否超出编码器所能表示的量化索引范围的音频信号包络饱和检测器,并且所述对表示音频信号包络的量化索引进行二进制编码的装置(402)也包括与用于第一编码模式的编码模块(502)并联的、用于第二编码模式的第二编码模块(503),以及依据来自音频信号包络饱和检测器的结果和代码长度准则的函数保留两种编码模式中的一种的模式选择器(504),
其中如果以下条件的一个或多个被满足则选择第二编码模式:
·第二编码模式的代码长度比第一编码模式的代码长度更短;
·在第一编码模式的音频信号包络饱和检测指示饱和,
其中所述第二编码模式是固定长度普通二进制编码,所述可变长度第一编码模式是可变长度差分编码。
10.如权利要求9所述的装置,其特征在于所述模式选择器(504)被适配来产生选择的编码模式指示符。
11.如权利要求9所述的装置,其特征在于所述可变长度第一编码模式是差分霍夫曼编码。
12.一种用于解码音频信号包络的装置(701),所述音频信号包络通过根据权利要9所述的二进制编码装置编码,所述用于解码音频信号包络的装置(701)包括用于可变长度第一解码模式的解码模块(808),其特征在于所述用于解码音频信号包络的装置(701)也包括与用于第一解码模式的所述解码模块(808)并联的、用于第二解码模式的第二解码模块(809)以及模式检测器(806),所述模式检测器被适配来检测编码模式指示符和激活对应于检测的指示符的用于第一解码模式的所述解码模块(808)、用于第二解码模式的第二解码模块(809)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0650638 | 2006-02-24 | ||
FR0650638 | 2006-02-24 | ||
PCT/FR2007/050781 WO2007096551A2 (fr) | 2006-02-24 | 2007-02-13 | Procede de codage binaire d'indices de quantification d'une enveloppe d'un signal, procede de decodage d'une enveloppe d'un signal et modules de codage et decodage correspondants |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101390158A CN101390158A (zh) | 2009-03-18 |
CN101390158B true CN101390158B (zh) | 2012-03-14 |
Family
ID=37192313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800066863A Expired - Fee Related CN101390158B (zh) | 2006-02-24 | 2007-02-13 | 量化索引的编码方法、解码信号包络方法、编解码模块 |
Country Status (9)
Country | Link |
---|---|
US (1) | US8315880B2 (zh) |
EP (1) | EP1989707A2 (zh) |
JP (1) | JP5235684B2 (zh) |
KR (1) | KR101364979B1 (zh) |
CN (1) | CN101390158B (zh) |
BR (1) | BRPI0708267A2 (zh) |
MX (1) | MX2008010836A (zh) |
RU (1) | RU2420816C2 (zh) |
WO (1) | WO2007096551A2 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100889750B1 (ko) * | 2007-05-17 | 2009-03-24 | 한국전자통신연구원 | 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법 |
US20090254150A1 (en) * | 2008-04-08 | 2009-10-08 | Med-El Elektromedizinische Geraete Gmbh | Electrical Stimulation of the Acoustic Nerve with Coherent Fine Structure |
JP5519230B2 (ja) * | 2009-09-30 | 2014-06-11 | パナソニック株式会社 | オーディオエンコーダ及び音信号処理システム |
CN102256139B (zh) * | 2010-05-19 | 2013-10-02 | 晨星软件研发(深圳)有限公司 | 媒体编码系统、量化系数编码装置及量化系数编码方法 |
US9881625B2 (en) | 2011-04-20 | 2018-01-30 | Panasonic Intellectual Property Corporation Of America | Device and method for execution of huffman coding |
RU2464649C1 (ru) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
TWI671736B (zh) * | 2011-10-21 | 2019-09-11 | 南韓商三星電子股份有限公司 | 對信號的包絡進行寫碼的設備及對其進行解碼的設備 |
CN105976824B (zh) | 2012-12-06 | 2021-06-08 | 华为技术有限公司 | 信号解码的方法和设备 |
CN105208974B (zh) * | 2013-03-15 | 2017-11-21 | 康复米斯公司 | 后侧稳定型膝植入物部件及器械 |
KR20230129576A (ko) * | 2013-05-24 | 2023-09-08 | 돌비 인터네셔널 에이비 | 오디오 인코더 및 디코더 |
ES2635026T3 (es) | 2013-06-10 | 2017-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento de codificación, procesamiento y decodificación de envolvente de señal de audio por división de la envolvente de la señal de audio utilizando cuantización y codificación de distribución |
RU2662921C2 (ru) * | 2013-06-10 | 2018-07-31 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения |
CN108198564B (zh) | 2013-07-01 | 2021-02-26 | 华为技术有限公司 | 信号编码和解码方法以及设备 |
BR112016004299B1 (pt) * | 2013-08-28 | 2022-05-17 | Dolby Laboratories Licensing Corporation | Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida |
WO2015037961A1 (ko) * | 2013-09-13 | 2015-03-19 | 삼성전자 주식회사 | 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치 |
CN105723454B (zh) * | 2013-09-13 | 2020-01-24 | 三星电子株式会社 | 能量无损编码方法和设备、信号编码方法和设备、能量无损解码方法和设备及信号解码方法和设备 |
EP3614381A1 (en) | 2013-09-16 | 2020-02-26 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
KR101839016B1 (ko) * | 2014-05-01 | 2018-03-16 | 니폰 덴신 덴와 가부시끼가이샤 | 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 부호화 프로그램, 복호 프로그램, 기록매체 |
WO2015199143A1 (ja) * | 2014-06-24 | 2015-12-30 | 国立大学法人愛媛大学 | 人工膝関節 |
KR20170037970A (ko) | 2014-07-28 | 2017-04-05 | 삼성전자주식회사 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
PT3405951T (pt) | 2016-01-22 | 2020-02-05 | Fraunhofer Ges Forschung | Aparelhos e métodos para codificar ou descodificar um sinal de áudio multicanal utilizando sincronização de controlo de quadro |
CN107342090B (zh) * | 2016-04-29 | 2020-08-25 | 华为技术有限公司 | 一种音频信号编码、解码方法及音频信号编码器、解码器 |
GB2559200A (en) * | 2017-01-31 | 2018-08-01 | Nokia Technologies Oy | Stereo audio signal encoder |
EP3637418B1 (en) * | 2017-06-07 | 2022-03-16 | Nippon Telegraph And Telephone Corporation | Encoding device, decoding device, smoothing device, reverse-smoothing device, methods therefor, and program |
JP7262593B2 (ja) * | 2019-01-13 | 2023-04-21 | 華為技術有限公司 | ハイレゾリューションオーディオ符号化 |
GB2587196A (en) * | 2019-09-13 | 2021-03-24 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
WO2021120067A1 (zh) * | 2019-12-18 | 2021-06-24 | 深圳市大疆创新科技有限公司 | 数据编码方法、数据解码方法、数据处理方法、编码器、解码器、系统、可移动平台与计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0361384A2 (en) * | 1988-09-26 | 1990-04-04 | Fujitsu Limited | Variable rate coder |
CN1287347A (zh) * | 1999-09-07 | 2001-03-14 | 三菱电机株式会社 | 声音编码装置和声音译码装置 |
CN1347549A (zh) * | 1999-04-16 | 2002-05-01 | 多尔拜实验特许公司 | 在音频编码中应用增益自适应量化和变长码 |
EP1345331A1 (en) * | 2000-12-22 | 2003-09-17 | Sony Corporation | Encoder and decoder |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4815068A (en) * | 1987-08-07 | 1989-03-21 | Dolby Ray Milton | Audio encoder for use with more than one decoder each having different characteristics |
DE68911287T2 (de) * | 1988-06-08 | 1994-05-05 | Fujitsu Ltd | Codierer/decodierer. |
JPH05334038A (ja) * | 1992-06-04 | 1993-12-17 | Toshiba Corp | データの符号化及び復元処理装置 |
US5924064A (en) | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
JP2000151413A (ja) * | 1998-11-10 | 2000-05-30 | Matsushita Electric Ind Co Ltd | オーディオ符号化における適応ダイナミック可変ビット割り当て方法 |
JP3323175B2 (ja) * | 1999-04-20 | 2002-09-09 | 松下電器産業株式会社 | 符号化装置 |
US6625226B1 (en) * | 1999-12-03 | 2003-09-23 | Allen Gersho | Variable bit rate coder, and associated method, for a communication station operable in a communication system |
JP3580251B2 (ja) | 2000-12-27 | 2004-10-20 | 日本電気株式会社 | データ圧縮装置及び圧縮方法並びにその制御プログラムを記録した記録媒体 |
WO2002103683A1 (fr) * | 2001-06-15 | 2002-12-27 | Sony Corporation | Appareil et procede de codage |
EP1446796A1 (en) * | 2001-10-26 | 2004-08-18 | Koninklijke Philips Electronics N.V. | Tracking of sinusoidal parameters in an audio coder |
EP1374230B1 (en) * | 2001-11-14 | 2006-06-21 | Matsushita Electric Industrial Co., Ltd. | Audio coding and decoding |
US6845360B2 (en) * | 2002-11-22 | 2005-01-18 | Arbitron Inc. | Encoding multiple messages in audio data and detecting same |
FI114071B (fi) * | 2003-01-13 | 2004-07-30 | Nokia Corp | Kuvien käsitteleminen rajoitetulla bittimäärällä |
DE602004023917D1 (de) * | 2003-02-06 | 2009-12-17 | Dolby Lab Licensing Corp | Kontinuierliche audiodatensicherung |
WO2005083889A1 (fr) | 2004-01-30 | 2005-09-09 | France Telecom | Quantification vectorielle en dimension et resolution variables |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
MX2007003063A (es) * | 2004-09-17 | 2007-05-16 | Koninkl Philips Electronics Nv | Codificacion combinada de audio que minimiza la distorsion perceptual. |
-
2007
- 2007-02-13 CN CN2007800066863A patent/CN101390158B/zh not_active Expired - Fee Related
- 2007-02-13 JP JP2008555850A patent/JP5235684B2/ja not_active Expired - Fee Related
- 2007-02-13 US US12/280,644 patent/US8315880B2/en not_active Expired - Fee Related
- 2007-02-13 BR BRPI0708267-3A patent/BRPI0708267A2/pt not_active IP Right Cessation
- 2007-02-13 WO PCT/FR2007/050781 patent/WO2007096551A2/fr active Application Filing
- 2007-02-13 RU RU2008137987/09A patent/RU2420816C2/ru not_active IP Right Cessation
- 2007-02-13 EP EP07731606A patent/EP1989707A2/fr not_active Withdrawn
- 2007-02-13 MX MX2008010836A patent/MX2008010836A/es active IP Right Grant
- 2007-02-13 KR KR1020087023295A patent/KR101364979B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0361384A2 (en) * | 1988-09-26 | 1990-04-04 | Fujitsu Limited | Variable rate coder |
CN1347549A (zh) * | 1999-04-16 | 2002-05-01 | 多尔拜实验特许公司 | 在音频编码中应用增益自适应量化和变长码 |
CN1287347A (zh) * | 1999-09-07 | 2001-03-14 | 三菱电机株式会社 | 声音编码装置和声音译码装置 |
EP1345331A1 (en) * | 2000-12-22 | 2003-09-17 | Sony Corporation | Encoder and decoder |
Also Published As
Publication number | Publication date |
---|---|
KR101364979B1 (ko) | 2014-02-20 |
EP1989707A2 (fr) | 2008-11-12 |
WO2007096551A3 (fr) | 2007-11-01 |
WO2007096551A2 (fr) | 2007-08-30 |
RU2008137987A (ru) | 2010-03-27 |
US8315880B2 (en) | 2012-11-20 |
KR20080107428A (ko) | 2008-12-10 |
BRPI0708267A2 (pt) | 2011-05-24 |
JP5235684B2 (ja) | 2013-07-10 |
US20090030678A1 (en) | 2009-01-29 |
RU2420816C2 (ru) | 2011-06-10 |
CN101390158A (zh) | 2009-03-18 |
JP2009527785A (ja) | 2009-07-30 |
MX2008010836A (es) | 2008-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101390158B (zh) | 量化索引的编码方法、解码信号包络方法、编解码模块 | |
KR101425944B1 (ko) | 디지털 오디오 신호에 대한 향상된 코딩/디코딩 | |
Iwakami et al. | High-quality audio-coding at less than 64 kbit/s by using transform-domain weighted interleave vector quantization (TWINVQ) | |
KR100958144B1 (ko) | 오디오 압축 | |
JP5117407B2 (ja) | オーディオ符号化/復号化で知覚的に重み付けするための装置 | |
JP5863868B2 (ja) | 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 | |
KR100848324B1 (ko) | 음성 부호화 장치 및 그 방법 | |
CN102511062B (zh) | 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配 | |
CN102436819B (zh) | 无线音频压缩、解压缩方法及音频编码器和音频解码器 | |
CN102576536B (zh) | 数字音频信号的增强的编码/解码方法和装置 | |
KR102105305B1 (ko) | 계층형 정현파 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치 | |
US20020072899A1 (en) | Sub-band speech coding system | |
CN101430880A (zh) | 一种背景噪声的编解码方法和装置 | |
US7848923B2 (en) | Method for reducing decoder complexity in waveform interpolation speech decoding by converting dimension of vector | |
Najaf-Zadeh et al. | Narrowband perceptual audio coding: Enhancements for speech | |
Jbira et al. | Low delay coding of wideband audio (20 Hz-15 kHz) at 64 kbps | |
Hong et al. | Enhancement of super-wideband coder by considering audio feature in MDCT domain | |
CN101488343A (zh) | 一种宽带语音编码器及方法 | |
Ning | Analysis and coding of high quality audio signals | |
Moreau et al. | Codeur Audio (20Hz-15kHz) Hiérarchique (64-32 kbit/s) et À Faible Retard (< 25 ms) | |
KR20080034817A (ko) | 부호화/복호화 장치 및 방법 | |
CA2355194A1 (en) | Wideband speech decoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120314 Termination date: 20170213 |