CN1121620A - 音频信号编码/译码方法 - Google Patents
音频信号编码/译码方法 Download PDFInfo
- Publication number
- CN1121620A CN1121620A CN95109605A CN95109605A CN1121620A CN 1121620 A CN1121620 A CN 1121620A CN 95109605 A CN95109605 A CN 95109605A CN 95109605 A CN95109605 A CN 95109605A CN 1121620 A CN1121620 A CN 1121620A
- Authority
- CN
- China
- Prior art keywords
- thick shape
- frequency
- coefficient
- quantization
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000005236 sound signal Effects 0.000 title claims abstract description 52
- 238000001228 spectrum Methods 0.000 claims abstract description 127
- 230000005540 biological transmission Effects 0.000 claims abstract description 27
- 238000013139 quantization Methods 0.000 claims description 107
- 238000009826 distribution Methods 0.000 claims description 35
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 9
- 238000011002 quantification Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 abstract description 23
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种自适应变换编码/译码方案,有效地利用了频谱包络的各频带之间的不同冗余,以低位速率实现音频信号的编码。在自适应变换编码方法中,将频谱包络分割为各个频带,以便对各频带的频谱包络应用不同的编码方法。通过将本发明应用到音频信号的自适应变换编码中,可将频谱包络调整为适应每个频带的时间波动的编码/传输方法,以有效地利用各频带的不同冗余。
Description
本发明涉及音频信号的通信和记录操作,更具体地,涉及音频信号编码/译码方法。
近年来,在例如电视会议等中所用的宽带语音的大量语音编码领域中,以及例如多媒体中所用的高质量音频编码领域中都取得飞速发展。在这种编码方法中,利用频谱包络信息作为辅助信息的自适应变换编码方法已被频繁使用。在现有技术中,利用这种自适应变换编码方法的编码/译码方法的一个例子,是日本专利公开第184098/1991号中的“自适应变换编码方法和系统”中所公开的方法,或IEEE Journal on Selected Areas in Communications第6卷第2号中James D.Johnston的“利用感性噪声标准的音频信号的变换编码”中所公开的方法。
为描述本发明,首先描述现有技术中所用的自适应变换编码方法。图2是编码发送器1和译码接收器2之间这样的自适应变换编码/译码方法的简要处理流程的框图。
图2中,参考标号3指用于存储数字化输入的预定数目的抽样值以构造一个编码块的输入缓冲器的处理。标号4指用于由快速傅立叶变换等将输入音频信号变换到提供多个离散频带输出的频域的处理。标号13指用于反向变换到时域的处理,与变换4相应,标号5指用于利用Max量化器量化变换系数的处理。标号11指用于反向量化的处理,与量化5相应。标号6指用于计算频谱包络的处理。例如,这可以通过下述方法实现:对几个离散频带的频域变换系数的幂进行平均而逼近频谱包络;或者通过线性预分析输入而演绎出频谱包络;等等。标号7指用于对频谱包络进行编码的处理,而标号12指用于对频谱包络进行译码的处理,与编码7相应。标号8指用于根据速率失真定理或类似定理对每个离散频带的变换系数量化的位分配/量化步长进行自适应控制的处理。标号9指用于多路复用量化变换系数和频谱包络码以产生一个传输码的处理,而标号10指用于多路分解传输码以对量化变换系数和频谱包络码进行译码的处理。标号14指用于以块为单位存储输出信号以顺序输出它们的输出缓冲器。
下面参照图2描述编码/译码流程。在编码操作中,由缓冲器3从输入昔频信号中构造一个编码块,并由频域变换4变换为变换系数,直到它由变换系数量化5量化。在该变换系数量化5中,每个离散频带的系数用位分配和量化步长量化,该位分配和量化步长是根据频谱包络计算6从输入信号中获得的频谱包络而自适应控制的。完成这些操作,以对每个离散频带的量化失真进行审计性控制。另一方面,由编码操作7对全频带频谱包络进行编码。然后,由多路复用操作9从量化变换系数和频谱包络码中产生传输码。
在译码操作2中,首先由多路分解操作10将量化变换系数和频谱包络码分开。然后,由频谱包络译码操作12对频谱包络进行译码,并且由位分配/量化步长计算8根据已译码的频谱包络计算位分配/量化步长,以便在反向变换系数量化11中,通过使用位分配/量化步长而对变换系数进行译码。该系数由反向时域变换13变换为时域信号,并存储在输出缓冲器14中,以便能顺序输出,对音频信号进行译码。
在上述现有技术的自适应变换编码方法中,全频带的频谱包络是通过相同的编码方法进行编码的,并对每个全频带块进行更新。另一方面,对于全频带内的不同的频带,音频信号的频谱包络的时间波动可能是不同的,并一般具有一种趋势:在较低频域中时间波动减小。这样,时间波动小的频带在相邻的块之间具有大的相关性并具有大的冗余。然而,现有技术的自适应变换编码方法并未有效地利用这种冗余,具有低的编码效率,在现有技术的方法中,对全频带用相同的编码方法对频谱包络进行编码,在每个全频带块中对频谱包络进行更新。尤其是在由线性预分析将要估算频谱包络的情况下,现有技术的方法不能考虑每频带时间波动的差异,因为对于全频带,将输入信号作为整体进行分析,以便对线性预测系数进行计算/编码和传输。
如上所述,在现有技术中,没有考虑各频带之间的频谱包络的时间波动的差异所引起的冗余。因此,现有技术对高质量的低位速率编码不足以提供自适应变换编码/译码方法。
本发明的一个目的是解决上述问题,并提供一种音频信号编码/译码方法,它能够有效地利用不同频带的不同冗余,并有效地利用频谱包络的冗余成分,而独立于音频信号的特性。
为解决这些问题,本发明的特征在于对音频信号的频率分量的粗形状(例如,频谱包络)进行频带划分,以便执行与每个频带频谱包络中时间波动相适应的编码。
图1A和1B是显示本发明的音频信号编码/译码方法的工作的流程图。
图2是显示一种已知的音频信号自适应变换编码/译码方法的原理的结构图。
图3是本发明的第一实施方式的编码操作的结构图。
图4是本发明第一实施方式的译码操作的结构图。
图5是本发明第二实施方式的编码方法的流程图。
图6是本发明第二实施方式的译码方法的流程图。
图7是本发明第三实施方式的编码方法的流程图。
图8是本发明第三实施方式的译码方法的流程图。
该方法的处理流程示于图1A和1B。在图1A和1B中,字母i指从较低频域到较高频域顺序赋给各频带的索引,字母N指频谱包络的所划分的频带的数目。换言之,如果频谱包络被分为两个频带(即,N2),则频带i 1将是最低频域中的频带,而频带i 2则是最高频域中的频带。
在图1A和1B中示出了下列要素和步骤:步骤203执行到频域的快速傅立叶变换的变换,尽管并不特别限于此;步骤222执行到时域的变换,与步骤203相应;步骤209和220执行根据速率失真定理等对位分配/量化步长的计算,尽管并不特别限于此;步骤210执行Max量化器等的量化,尽管并不特别限于此;以及步骤221执行反向量化,与步骤步210相应。参照图3描述利用本发明解决现有技术问题的装置。
在编码操作中,首先,步骤201输入的被抽样的音频信号的M个抽样值在输入缓冲器更新步骤202被存储以构造一个编码块。值M并不是特别限制的。在步骤203将该编码块变换到频域,以计算变换系数。
接着,在频带索引初始化步骤204(i=0)之后,由步骤205计算第一频带i的频谱包络,以计算频带i被分割的频谱包络,并在步骤206进行编码,以对频带i被分割的频谱包络进行编码。这里,在频带i被分割的频谱包络计算步骤205中,将频谱包络分割为多个频带,以免相邻频带的变换系数的平均幂值是该频谱包络,并对输入信号进行频带分割,以进行线性预分析,以便对每个被分割的频带计算频谱包络,以免该频谱包络由线性预分析预测。另一方面,频带i被分割的频谱包络编码步骤206是一个编码步骤,该步骤的方法最适于特定频带i频谱包络的时间波动。该步骤206使能够对各个频带利用不同的方法,如,对于具有小时间波动的频带,使用向后自适应、内块预编码方法或延长更新周期的方法。执行频带索引增加步骤207,后随频带处理结束判定步骤208。
对N个频带的每一个,执行步骤205至208,以便逼近音频信号的频率分量的粗形状的全频带频谱包络。据此,在位分配/量化步长计算步骤209,确定将应用到变换系数量化210的每个离散频带的位分配/量化步长,并在步骤210量化已在步骤203确定的变换系数210。另外,在多路复用步骤211,对变换系数码、频谱包络码和其他码进行多路复用,以在步骤213输出传输码。
在译码侧,传输码输入步骤214的变换系数码、频谱包络码和其他码首先在多路分解步骤215进行多路分解。在频带索引初始化步骤216之后,执行频带i被分割的频谱包络解调步骤217,以对每个频带i的频谱包络进行译码。对N个频带,利用频带索引增加步骤218和频带处理结束判定步骤219执行该译码,以构造全频带的频谱包络。然后,在位分配/量化步长计算步骤220确定每个离散频带的的变换系数的位分配/量化步长,以便在反向变换系数量化已步骤221对变换系数进行译码。在反向变换步骤222,将该译码的变换系数变换为时域信号,并在输出缓冲器更新步骤223通过更新输出缓冲器而顺序输出,以对音频信号进行译码,如输出224所指。
在本发明中,如上所述,通过对频谱包络进行频带分割所得的各个频带利用不同编码的方法,应用到自适应变换编码方法中,使得在对各个频带考虑音频信号频谱包络的时间波动的差异时完成编码。特别是,可以有效地利用具有小时间波动的任何频带的冗余,以利用自适应变换编码方法实现低位速率的频谱包络编码,而抑制编码失真。
本发明第一个实施方式示于图3和图4。图3是编码侧本实施方式的结构框图;而图4是译码侧的结构框图。本实施方式针对于N=2的例子,其中音频带被分为较高频带和较低频带(其中较高频带称为“较高频域”,而较低频带称为“较低频域”),对不同的频域分别使用不同的音频编码/译码方法。
参照图3描述编码操作。在该编码操作中,首先将一个抽样输入输入到输入缓冲器303中。在本实施方式中,该输入是一个音频信号,其频带限制在50至7,000赫兹,抽样频率为16K赫兹。缓冲器303存储紧接前面8个抽样值之后的120个抽样值,以构造一个编码块。简言之,该编码块具有8个抽样值的交迭成分,该输入与分析窗口W(t)相乘,如下述等式1所示:在等式1中,M:编码块中交迭抽样值的数目,t:编码块中一个抽样值的位置的索引,L:编码块的一个抽样值。在本实施方式中,等式1中的L为128,而M为8。加窗口后的编码块在1 28个点由DCT305进行离散余弦变换,使其被变换为DCT系数。该系数由1至5位Max量化器组成的量化306进行量化。在该量化306中,每个离散频带的DCT系数的位分配/量化步长由位分配/量化步长计算323控制。在本实施方式中,位分配Rj通过下述等式2计算: 量化步长Sj由下述等式3计算: 顺便说一下,等式2和3中,j:从较低频域顺序分配的变换系数的频带的索引,σj:频带j的频谱包络,R*:每次抽样的平均位数。在本实施方式中,值R*设为1.93。另外,在本实施方式中,频谱包络具有其在编码侧301确定的较高频域(即,4K赫兹至7K赫兹)和在译码侧302确定的较低频域(即,50赫兹至4K赫兹),将7位向量量化应用到较高频域,而将向后自适应方法应用到较低频域。
在较高频域频谱计算/编码301中,首先从输入中由QMF(即,正交镜面滤波器,由公知的24—抽头QMF构成)308计算较高频域信号(即,4K赫兹至7K赫兹),并且由分析缓冲器更新309更新较高频域频谱包络分析缓冲器。该较高频域频谱包络分析缓冲器由100个抽样值组成。对于该分析缓冲器,在LPC分析310中执行第8级线性预分析,以计算线性预测系数(LPC)。该系数由LPC—>LSP变换311变换为线性频谱对(LSP),并在VQ312中进行7位向量量化。另一方面,该码在VQ—1 313中进行反向量化,并由LSP—>LPC变换314变换为量化的LPC系数,然后它由频谱包络变换315变换为较高频域频谱包络。
另一方面,在较低频域频谱计算302中,使用向后自适应方法,其中输入的频谱包络由从在先编码/译码信号中计算的值逼近。为此,由反向量化307从变换系数码中确定变换系数,并在1DCT316中在128个点处受到反向余弦变换,以便将译码后的信号在1—块延迟317中锁存一块的时间周期。该译码后的信号的频带由24—抽头QMF318分割为确定的较低频域信号,并且由100个抽样值组成的较低频域频谱分析缓冲器由分析缓冲器更新步骤319更新。对于这个分析缓冲器,由LPC分析320执行第12级的LPC分析,且由频谱包络变换321计算较低频域频谱包络。
在301和302确定的较低和较高频域频谱包络在全频带频谱合成322中进行合成,并用于前述位分配/量化步长计算323的操作中。另外,由多路复用步骤324从变换系数码和较高频域LSP码构成传输码。
接着,描述译码操作。在该译码操作中,首先由多路分解步骤403将传输码分离为变换系数码和7位的较高频域LSP码。在一个单元401中,对较高频域频谱包络进行译码,如图所示。在VQ—1步骤中,对较高频域LSP码进行反向量化,并由LSP—>LPC变换411变换为量化的LPC系数,然后由频谱包络确定步骤315译码为较高频域频谱包络。另一方面,使用向后自适应方法,在译码单元402中计算较低频域频谱,如图所示。在该译码侧的向后自适应方法与在编码侧的类似。由1—块延迟413所延迟的译码后的信号的频带由24—抽头QMF414分割。利用这个较低频域信号,较低频域频谱分析缓冲器由分析缓冲器更新步骤415更新,并且在LPC分析416中执行第12级的LPC分析,以便在频谱包络变换步骤41 7中得到较低频域频谱包络。另外,如在编码侧时那样,执行全频带频谱合成404,以在位分配/量化步长计算405中由与编码侧323中的类似操作得到变换系数量化条件。根据该条件,变换系数在128个点处受到反向量化406和IDCT操作407。该系数在步骤408中乘以下述等式4的合成窗口w,(t),并增加交迭的16个抽样值,以确定输出信号。这些输出信号存储在输出缓冲器409中,并顺序地输出以产生一个译码输出。
w(t)=1 0≤t≤L-1
本实施方式利用了较低频域频谱包络块之间的高度相关性,并且对较低频域频谱包络使用向后自适应方法,从而,仅有较高频域频谱包络被编码/传输。结果是,即使需要7位/块的位对频谱包络进行编码,也达到了极高的音质。根据本实施方式,对于相同传输位速率而言,总体上与在全频带上对LSP进行量化/传输的情况相比,达到更高的音质。
另外,通过将本实施方式的音频信号编码/译码方法应用到宽带电话系统中,传输位速率为32K位/秒时能达到极高的音质。
下面,本发明的第二实施方式的流程图示于图5和图6。图5是本实施方式的编码流程图,图6是译码流程图。顺更说一下,在图5和图6中,i代表从较低频域侧顺序分配的频谱包络编码被分割频带的索引,而N代表频谱包络编码的被分割频带的数目。在本实施方式中,频带也分为两个:较低频域和较高频域。顺便说一下,本实施方式用流程图说明,从流程图可以容易地构造框图。
首先,参照图5描述编码操作。在编码操作中,在输入501中输入的抽样音频信号在缓冲器更新步骤502中被构造到一个编码块中。在本实施方式中,抽样频率为16K赫兹;当然,尽管本发明不限于此。另外,在本实施方式中,编码块由256个抽样值组成,其中16个抽样值是交迭成分。在分析窗口503中,该编码块乘以分析窗口,如等式1所示,其中L为256,M为16,并由DCT504在256个点处进行离散余弦变换。另一方面,为了频谱包络计算/编码目的,由N—频带分离滤波器505将编码块分割为N个频带的信号。在本实施方式中,N设为N=2,并使用公知的24个抽头的QMF作为分离滤波器。开始时,执行频带索引i初始化步骤506(注意,图6中相应的频带索引i初始化步骤603)。另外,对于频带i的信号,在LPC分析507中计算第m(i)级的LPC系数,并在LPC—>LSP步骤508变换为LSP系数。再有,在LSP差计算509中,根据等式5计算与紧接前面块的量化LSP系数的差。然而,在等式5中,p代表LSP系数的级,n代表被编码的块,n-1代表指示紧接前面块的索引,lsp代表差值。 在频带i差判定步骤510之后,该差值或者在差分向量量化511中以kd(i)位进行向量量化,此时其绝对值的平均值小于th(i),或者在LSP向量量化512中以k(i)位进行向量量化。如此获得的量化LSP系数在LSP频谱包络变换步骤513中被变换为频谱包络,然后进行频带索引i增加步骤514,以及频带分割结束处理步骤515。
对N个频带执行前述步骤507至515的操作,以逼近全频带的频谱包络。据此,将要被施加到DCT系数量化517的每个离散频带的位分配/量化步长由位分配/量化步长计算516确定,以量化预先确定的DCT系数。在本实施方式中,将计算等式(通过将等式2和3中的L的值设为256,R*的值设为1.47而获得的)应用到位分配/量化步长计算516,并使用公知的(1至5位的)Max量化器以量化DCT系数。另外,在多路复用步骤518中,对DCT系数码、LSP系数码和用于对频带i的LSP进行编码的差值/非差值开关标志(0/1)进行多路复用,并作为具有总位速率为360位/块的传输码输出519。
在译码侧,首先,在步骤601中接收DCT系数码、LSP系数码和用于对频带i的LSP进行编码的差值/非差值开关标志(0/1),并在多路分解步骤602中被分离。另外,对于每个频带i,根据开关标志步骤604,由反向差分向量量化605或反向LSP向量量化606对LSP系数进行译码,并在LSP频谱包络变换步骤607中,对频带i的频谱包络进行译码。然后执行频带索引i增加步骤608和频带分割处理及判定步骤609。
对于N个频带执行这些操作,以对全频带的频谱包络进行译码,并且由位分配/量化步长计算610确定每个离散频带的DCT系数的位分配/量化步长,以便由反向DCT系数量化611对DCT系数进行译码。由IDCT612在256个点对其进行反向余弦变换,并在合成窗口613中乘以等式4的窗口。在输出缓冲器更新步骤614中加入交迭的成分,以对音频输出信号进行译码615。
在本实施方式中,值m(i)、th(i)、kd(i)和k(i)的值由表1给定。
表1
i | m(i) | th(i) | kd(i) | k(i) |
0 | 12 | 0.2 | 10 | 16 |
1 | 8 | 0.2 | 5 | 7 |
根据本实施方式,较高或较低频域的频谱包络可以被跟随,即使其波动大,并且如果时间波动低,则可减少冗余位。在自适应变换编码方法中,为进行DCT系数量化,除了用于频谱包络编码的位之外的所有位都用到了,使得,在冗余位减少的块中能够提高音质。根据本发明的方法,由于这种效果,对于相同的传输位速率而言,在输入频谱波动较小的部分中,与现有技术的方法相比,能够提高音质。
再者,通过将本实施方式的方法应用到24K位/秒的语音传输系统,对于相同的位速率,能达到比现有技术系统更好的音质。
本发明第三个实施方式的流程图示于图7和图8。图7是本实施方式的编码流程图;图8是译码流程图。顺便说一下,在图7和图8中,n代表在编码开始时从编码块0顺序分配的编码块的索引,i代表从较低频域顺序分配的频谱包络编码被分割频带的索引。本实施方式也将其频带分为两个:较低频域和较高频域。顺便说,本实施方式用流程图说明。从中可以容易地得到框图。
首先参照图7描述编码操作。在编码操作中,在输入701处输入的抽样音频信号在输入缓冲器更新步骤702处被构造到一个编码块中。本实施方式中,抽样频率为32K赫兹。另外,在本实施方式中,编码块由256个抽样值组成,其中16个抽样值是一个交迭成分。该编码块由分析窗口703乘以一个分析窗口(如等式1所示,其中L为256,M为16),并由DCT704在256个点进行离散余弦变换。另外,为了频谱包络计算/编码目的,将DCT系数分割为N个频带。在本实施方式中,进行这种分割,如表2中频带i的列中所列。表2列出了属于频带i的DCT系数的频带的索引范围。
表2
另外,至于频带i的信号,在频带索引i初始化步骤705之后,在频带i更新时序判定705中判定块n是否处于频带i的更新时序,并切换频谱计算/编码操作和频谱译码操作。这种切换可以根据频谱包络的时间波动自适应地执行(但在本实施方式中是固定的),以便在更新时序条件下起作用,如表2所列。另外,在频谱计算/编码操作时,由频带i频谱计算707从较低频域顺序计算DCT系数的m(i)号的平均值,并在频谱向量量化708中执行k(i)位的向量量化。另一方面,在没有频谱更新的情况下,在预测频谱值计算709处从先前频谱中计算预测值,以提供块n的频谱包络。该预测值计算是由如等式6所表示的方法执行。顺便说一下,在等式6中,ajr代表一个预测系数,Q代表预测级。在本实施方式中,预测级Q设为2,预测系数ajr举例为由LBG算法或类似算法根据几个数据得出的值。 在频谱内插步骤710中,在对数域中将频谱量化值或预测值线性内插到频带i的频谱包络中。然后,进行频带索引增加步骤711和频带索引结束判定步骤712。
i | 频带i的结构(i) | 更新时序m(i) | m(i) | k(i) |
0 | 0~63 | n: 3的倍数 | 2 | 24(分离-VQ) |
1 | 64~127 | n: 2的倍数 | 2 | 20(分离-VQ) |
2 | 128~255 | 所有n | 4 | 20(分离-VQ) |
对于N个频带执行前述步骤706至712的操作,以逼近全频带的频谱包络。据此,由位分配/量化步长计算713确定每个离散频带的位分配/量化步长(如将要应用到DCT系数量化714中的),并且量化在步骤704预先确定的DCT系数。在本实施方式中,将等式2(其中R*为1.25)和等式3应用到位分配/量化步长计算713,并且DCT系数量化714由公知的(1至5位的)Max量化器组成。另外,在多路复用步骤715,对DCT系数码和频谱码进行多路复用,以输出传输码716。
在译码侧,首先,在多路分解步骤802分离步骤801的DCT系数码和频谱码。另外,对每个频带i,根据频带i开关时序判定804执行反向频谱向量量化805或频谱预测值计算806,并且在频谱内插807处在对数域中执行线性内插,以对频带i的频谱包络进行译码。然后,进行频带索引增加步骤808和频带结束判定步骤809。
对N个频带执行前述步骤804至809的操作,以构造全频带的频谱包络。在位分配/量化步长计算810处确定每个离散频带的DCT系数的位分配/量化步长,以在反向DCT系数量化811中对DCT系数进行译码。在IDCT812中在256个点处对其进行反向余弦变换,并在合成窗口813中乘以等式4的窗口,并在输出缓冲器更新步骤814中增加一个交迭成分,从而对音频输出信号进行译码815。
根据本实施方式,具有小的频谱包络波动的域,其频谱包络只由预测方法确定,但含有一个不传输的块。因此,能够降低平均传输位速率,而保持良好的音质。
另外,通过对48K位/秒的音频信号记录系统应用本实施方式,能够达到的音质与具有64K位/秒传输位速率的现有系统的音质相同。
顺便说一下,首先,上述第二和第三实施方式都举出在频谱包络的全频带被分割为两个频带(即较低频域和较高频域)时的方法,使得对较低频域和较高频域应用不同的编码/译码方法。然而,分割的数目并不限于两个,也可以是三个或更多,使得对分割的域应用不同的编码/译方法,或者,使得对某些分割的频带应用共同的编码/译码方法,这取决于对每个频带什么是最适当的。
根据本发明,能调节在自适应变换编码方法中所用的频谱包络,以使用对每个频带的时间波动适当的编码/传输方法,以提供能有效利用对于不同频带是不同的冗余的音频信号编码/译码方法。另外,根据本发明,每个频带的频谱包络编码/译码方法可以根据时间波动而自适应地改变,从而实现自适应变换编码方法,它独立于音频信号的性质有效地利用频谱包络的冗余成分。
Claims (15)
1.一种信号编码/译码方法,它通过以由预定数目的抽样值组成的块为单位将所述信号从时域变换到频域内的系数、并通过根据所述信号的频率分量的粗形状控制所述系数的量化位分配和量化步长实现,
其特征在于:所述频率分量的粗形状被分割为多个单个的频带,以便根据频率分量的粗形状的时间波动对各频带利用不同的方法对所述频率分量进行编码。
2.权利要求1的方法,其中所述信号是一个音频信号。
3.权利要求1或2的方法,其特征在于:对频率分量粗形状——其被分割为所述多个单个的频带——进行编码的方法是根据每个所述频带的频率分量的粗形状的时间波动而改变的。
4.权利要求1的方法,其特征在于:对频率分量的粗形状——其被分割为所述多个单个的频带——进行更新的周期是根据每个所述频带的频率分量的粗形状的波动而改变的。
5.权利要求2的方法,其特征在于:对频率分量的粗形状——其被分割为所述多个单个的频带——进行更新的周期是根据每个所述频带的频率分量的粗形状的波动而改变的。
6.权利要求1或2的方法,其特征在于:频率分量的粗形状——其被分割为所述多个单个的频带——是通过对由所述信号在时间域中频带分割所得的信号进行线性预分析而估计的。
7.一种对音频信号进行编码/译码的方法,包括步骤:以由预定数目的抽样值组成的块为单位将时域内的音频信号变换到频域的系数;在所述粗形状已被编码后,通过根据所述音频信号的频率分量的粗形状,控制所述系数的量化位分配和量化步长,而对所述频域的离散频带的系数进行量化,以获得一个量化系数;通过对量化系数和已编码的粗形状进行多路复用,从所述量化系数和所述已编码的粗形状产生一个传输码;通过从所述传输码中多路分解所述量化系数和所述已编码的粗形状,解调所述粗形状;根据所述粗形状计算位分配/量化步长;通过应用所述位分配/量化步长解调所述传输系数;以及将所述系数变换为一个时域信号,并存储和顺序输出所述时域信号;还包括步骤:
将所述粗形状分割为多个频带;
通过在每个所述频带中,根据所述频率分量的粗形状的时间波动,对每个频带应用不同的方法,而进行编码/译码操作;
通过逼近粗形状的全频带,计算每个离散频带的位分配/量化步长。
8.一种对音频信号进行编码/译码的方法,包括步骤:以由预定数目的抽样值组成的块为单位将时域内的音频信号变换到频域的系数;在所述粗形状已被编码后,通过根据所述音频信号的频率分量的粗形状,控制所述系数的量化位分配和量化步长,而对所述频域的离散频带的系数进行量化,以获得一个量化系数;通过对量化系数和已编码的粗形状进行多路复用,从所述量化系数和所述已编码的粗形状产生一个传输码;通过从所述传输码中多路分解所述量化系数和所述已编码的粗形状,解调所述粗形状;根据所述粗形状计算位分配/量化步长;通过应用所述位分配/量化步长解调所述传输系数;以及将所述系数变换为一个时域信号,并存储和顺序输出所述时域信号;还包括步骤:
将由输入音频信号组成的已抽样和已编码的块分割为多个频带的信号;
将所述音频信号频带分割为多个时域带,通过对每个所述时域带信号的线性预分析计算线性预测系数,并将它们变换为线频谱对;
计算所述线频谱对与紧接前块的线频谱对的量化系数之间的差以确定一个差值;
如果所述差的绝对值的平均值小于一个预定值,则向量量化该差值,并且如果所述差的绝对值的平均值大于所述预定值,则向量量化线频谱对系数,以确定线频谱对的量化系数,并将该线频谱对的这个量化系数变换为一个粗形状;以及
通过逼近粗形状的全频带,计算每个离散频带的位分配/量化步长。
9.一种对音频信号进行编码/译码的方法,包括步骤:以由预定数目的抽样值组成的块为单位将时域内的音频信号变换到频域的系数;在所述粗形状已被编码后,通过根据所述音频信号的频率分量的粗形状,控制所述系数的量化位分配和量化步长,而对所述频域的离散频带的系数进行量化,以获得一个量化系数;通过对量化系数和已编码的粗形状进行多路复用,从所述量化系数和所述已编码的粗形状产生一个传输码;通过从所述传输码中多路分解所述量化系数和所述已编码的粗形状,解调所述粗形状;根据所述粗形状计算位分配/量化步长;通过应用所述位分配/量化步长解调所述传输系数;以及将所述系数变换为一个时域信号,并存储和顺序输出所述时域信号;还包括步骤:
将由输入音频信号组成的已抽样和已编码的块分割为多个频带;
判定所述已抽样和已编码的块的一个频带是否处于更新时序的一点;
如果处于更新时序的一点,则进行粗形状计算并对所述频带进行向量量化,如果所述频带不处于更新时序的一点,则从预测粗形状中计算所述粗形状的预测值;
线性内插来自所述向量量化的量化值或所述粗形状的所述预测值;以及
通过逼近粗形状的全频带,计算每个离散频带的位分配/量化步长。
10.一种对音频信号进行编码/译码的方法,包括步骤:以由预定数目的抽样值组成的块为单位将时域内的音频信号变换到频域的系数;在所述粗形状已被编码后,通过根据所述音频信号的频率分量的粗形状,控制所述系数的量化位分配和量化步长,而对所述频域的离散频带的系数进行量化,以获得一个量化系数;通过对量化系数和已编码的粗形状进行多路复用,从所述量化系数和所述已编码的粗形状产生一个传输码;通过从所述传输码中多路分解所述量化系数和所述已编码的粗形状,解调所述粗形状;根据所述粗形状计算位分配/量化步长;通过应用所述位分配/量化步长解调所述传输系数;以及将所述系数变换为一个时域信号,并存储和顺序输出所述时域信号;还包括步骤:
向量量化步骤:从已抽样的输入音频信号中计算/存储粗形状的较高频域信号,通过对所述信号的线性预分析计算线性预测系数,并将所述系数变换为线频谱对;
较高频步骤:反向量化由所述向量量化步骤获得的码,将所述线频谱对反向变换为线性预测系数,并将反向变换后的系数变换为较高频域的粗形状;
较低频步骤:反向量化以对由所述系数的量化所获得的变换系数码进行译码,通过频带分割已译码的信号锁存一块已译码的变换系数,以确定粗形状的较低频域信号,并线性预分析所述信号,以计算较低频域的粗形状;以及
合成步骤:合成由前述步骤确定的较低/较高频域的粗形状,以计算所述系数的位分配和量化步长。
11.权利要求1或2的方法,其中所述信号的频率分量的所述粗形状包括所述信号的频率分量的频谱包络。
12.权利要求7的方法,其中所述音频信号的频率分量的所述粗形状包括所述音频信号的频率分量的频谱包络。
13.权利要求8的方法,其中所述音频信号的频率分量的所述粗形状包括所述音频信号的频率分量的频谱包络。
14.权利要求9的方法,其中所述音频信号的频率分量的所述粗形状包括所述音频信号的频率分量的频谱包络。
15.权利要求10的方法,其中所述音频信号的频率分量的所述粗形状包括所述音频信号的频率分量的频谱包络。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17649694A JP3237089B2 (ja) | 1994-07-28 | 1994-07-28 | 音響信号符号化復号方法 |
JP176496/94 | 1994-07-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1121620A true CN1121620A (zh) | 1996-05-01 |
Family
ID=16014680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN95109605A Pending CN1121620A (zh) | 1994-07-28 | 1995-07-27 | 音频信号编码/译码方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5956686A (zh) |
JP (1) | JP3237089B2 (zh) |
KR (1) | KR960006301A (zh) |
CN (1) | CN1121620A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1909066B (zh) * | 2005-08-03 | 2011-02-09 | 昆山杰得微电子有限公司 | 音频编码码量控制和调整的方法 |
US8468025B2 (en) | 2008-12-31 | 2013-06-18 | Huawei Technologies Co., Ltd. | Method and apparatus for processing signal |
CN105431902A (zh) * | 2013-06-10 | 2016-03-23 | 弗朗霍夫应用科学研究促进协会 | 用于通过应用分布量化和编码建模累积和表示的音频信号包络编码、处理和解码的装置和方法 |
CN110299146A (zh) * | 2014-01-24 | 2019-10-01 | 日本电信电话株式会社 | 线性预测分析装置、方法、程序以及记录介质 |
CN111105806A (zh) * | 2014-03-24 | 2020-05-05 | 三星电子株式会社 | 高频带编码方法和装置,以及高频带解码方法和装置 |
US11676614B2 (en) | 2014-03-03 | 2023-06-13 | Samsung Electronics Co., Ltd. | Method and apparatus for high frequency decoding for bandwidth extension |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE59900797D1 (de) * | 1998-03-19 | 2002-03-14 | Siemens Ag | Verfahren und vorrichtung zur bearbeitung eines tonsignals |
JP3871840B2 (ja) * | 1999-12-24 | 2007-01-24 | 日本電気株式会社 | 圧縮動画像再符号化装置 |
DE10008699C1 (de) * | 2000-02-24 | 2001-05-23 | Daimler Chrysler Ag | Verfahren und Vorrichtung zur Analog-Digital-Wandlung eines Signals |
DE10028593C1 (de) * | 2000-06-14 | 2001-10-18 | Daimler Chrysler Ag | Verfahren und Vorrichtung zur Digital-Analog-Wandlung eines Signals |
EP1199812A1 (en) | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Perceptually improved encoding of acoustic signals |
SE522553C2 (sv) | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
JP3415126B2 (ja) * | 2001-09-04 | 2003-06-09 | 三菱電機株式会社 | 可変長符号多重化装置、可変長符号分離装置、可変長符号多重化方法及び可変長符号分離方法 |
US7062429B2 (en) * | 2001-09-07 | 2006-06-13 | Agere Systems Inc. | Distortion-based method and apparatus for buffer control in a communication system |
KR100524065B1 (ko) * | 2002-12-23 | 2005-10-26 | 삼성전자주식회사 | 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치 |
US7724827B2 (en) * | 2003-09-07 | 2010-05-25 | Microsoft Corporation | Multi-layer run level encoding and decoding |
KR20070009644A (ko) * | 2004-04-27 | 2007-01-18 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법 |
US8599925B2 (en) * | 2005-08-12 | 2013-12-03 | Microsoft Corporation | Efficient coding and decoding of transform blocks |
KR101261524B1 (ko) * | 2007-03-14 | 2013-05-06 | 삼성전자주식회사 | 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치 |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
KR101403340B1 (ko) * | 2007-08-02 | 2014-06-09 | 삼성전자주식회사 | 변환 부호화 방법 및 장치 |
EP2242391A2 (de) * | 2008-01-26 | 2010-10-27 | IND Co Establishment | Schuhwerk |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4622680A (en) * | 1984-10-17 | 1986-11-11 | General Electric Company | Hybrid subband coder/decoder method and apparatus |
US4975956A (en) * | 1989-07-26 | 1990-12-04 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
JPH03181232A (ja) * | 1989-12-11 | 1991-08-07 | Toshiba Corp | 可変レート符号化方式 |
CA2032765C (en) * | 1989-12-21 | 1995-12-12 | Hidetaka Yoshikawa | Variable rate encoding and communicating apparatus |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
JPH04127747A (ja) * | 1990-09-19 | 1992-04-28 | Toshiba Corp | 可変レート符号化方式 |
JP3134455B2 (ja) * | 1992-01-29 | 2001-02-13 | ソニー株式会社 | 高能率符号化装置及び方法 |
US5526464A (en) * | 1993-04-29 | 1996-06-11 | Northern Telecom Limited | Reducing search complexity for code-excited linear prediction (CELP) coding |
IT1270439B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce |
EP0657874B1 (en) * | 1993-12-10 | 2001-03-14 | Nec Corporation | Voice coder and a method for searching codebooks |
-
1994
- 1994-07-28 JP JP17649694A patent/JP3237089B2/ja not_active Expired - Fee Related
-
1995
- 1995-06-30 US US08/497,474 patent/US5956686A/en not_active Expired - Fee Related
- 1995-07-12 KR KR1019950020429A patent/KR960006301A/ko not_active Application Discontinuation
- 1995-07-27 CN CN95109605A patent/CN1121620A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1909066B (zh) * | 2005-08-03 | 2011-02-09 | 昆山杰得微电子有限公司 | 音频编码码量控制和调整的方法 |
US8468025B2 (en) | 2008-12-31 | 2013-06-18 | Huawei Technologies Co., Ltd. | Method and apparatus for processing signal |
CN105431902A (zh) * | 2013-06-10 | 2016-03-23 | 弗朗霍夫应用科学研究促进协会 | 用于通过应用分布量化和编码建模累积和表示的音频信号包络编码、处理和解码的装置和方法 |
CN105431902B (zh) * | 2013-06-10 | 2020-03-31 | 弗朗霍夫应用科学研究促进协会 | 用于音频信号包络编码、处理和解码的装置和方法 |
US10734008B2 (en) | 2013-06-10 | 2020-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio signal envelope encoding, processing, and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
CN110299146A (zh) * | 2014-01-24 | 2019-10-01 | 日本电信电话株式会社 | 线性预测分析装置、方法、程序以及记录介质 |
CN110299146B (zh) * | 2014-01-24 | 2023-03-24 | 日本电信电话株式会社 | 线性预测分析装置、方法以及记录介质 |
US11676614B2 (en) | 2014-03-03 | 2023-06-13 | Samsung Electronics Co., Ltd. | Method and apparatus for high frequency decoding for bandwidth extension |
CN111105806A (zh) * | 2014-03-24 | 2020-05-05 | 三星电子株式会社 | 高频带编码方法和装置,以及高频带解码方法和装置 |
US11688406B2 (en) | 2014-03-24 | 2023-06-27 | Samsung Electronics Co., Ltd. | High-band encoding method and device, and high-band decoding method and device |
CN111105806B (zh) * | 2014-03-24 | 2024-04-26 | 三星电子株式会社 | 高频带编码方法和装置,以及高频带解码方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US5956686A (en) | 1999-09-21 |
JP3237089B2 (ja) | 2001-12-10 |
JPH0844392A (ja) | 1996-02-16 |
KR960006301A (ko) | 1996-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1121620A (zh) | 音频信号编码/译码方法 | |
US7212973B2 (en) | Encoding method, encoding apparatus, decoding method, decoding apparatus and program | |
AU2006270259B2 (en) | Selectively using multiple entropy models in adaptive coding and decoding | |
EP1904999B1 (en) | Frequency segmentation to obtain bands for efficient coding of digital media | |
US6064954A (en) | Digital audio signal coding | |
CN1172293C (zh) | 有效频谱包络编码方法及其编解码设备 | |
US7289951B1 (en) | Method for improving the coding efficiency of an audio signal | |
CN1195930A (zh) | 音频信号编码方法及其有关设备 | |
EP0927988A2 (en) | Encoding speech | |
CN101796579B (zh) | 数字音频信号的分级编码 | |
KR101033256B1 (ko) | Fgs 오디오 부호화에서 스케일 팩터방식 비트시프트 | |
EP1503502B1 (en) | Encoding method and device | |
US5651026A (en) | Robust vector quantization of line spectral frequencies | |
JPH0590974A (ja) | 前反響処理方法およびその装置 | |
US7426462B2 (en) | Fast codebook selection method in audio encoding | |
CN1571992A (zh) | 正弦模型参数的频率差分编码 | |
US6012025A (en) | Audio coding method and apparatus using backward adaptive prediction | |
KR100188912B1 (ko) | 서브밴드코딩의 비트재할당 방법 | |
JP3150475B2 (ja) | 量子化方法 | |
US7831436B2 (en) | Apparatus for decoding audio data with scalability and method thereof | |
JP3597750B2 (ja) | グループ化方法及びグループ化装置 | |
CN1199959A (zh) | 音频编码方法和装置 | |
CN102801427B (zh) | 源信号变速率格矢量量化的编解码方法和系统 | |
JPS6333025A (ja) | 音声符号化法 | |
Kandadai et al. | Scalable audio compression at low bitrates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |