CN1806239A - 用于转换为变换表示或对变换表示进行反转换的设备和方法 - Google Patents

用于转换为变换表示或对变换表示进行反转换的设备和方法 Download PDF

Info

Publication number
CN1806239A
CN1806239A CNA2004800166016A CN200480016601A CN1806239A CN 1806239 A CN1806239 A CN 1806239A CN A2004800166016 A CNA2004800166016 A CN A2004800166016A CN 200480016601 A CN200480016601 A CN 200480016601A CN 1806239 A CN1806239 A CN 1806239A
Authority
CN
China
Prior art keywords
value
conversion
rounds
output valve
discrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800166016A
Other languages
English (en)
Other versions
CN100416553C (zh
Inventor
拉尔夫·基戈
杰拉尔德·舒勒
托马斯·斯伯尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN1806239A publication Critical patent/CN1806239A/zh
Application granted granted Critical
Publication of CN100416553C publication Critical patent/CN100416553C/zh
Anticipated expiration legal-status Critical
Active legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Discrete Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)

Abstract

为了将第一和第二块离散值转换为变换表示,按照第一变换规则变换(102)第一块,并然后取整(104)。然后,取整的变换值和第二块原始离散值(106)加和,以便然后按照第二变换规则处理(108)加和结果。经第二变换规则变换的输出值被再次取整(110),并然后从第一块离散值的原始离散值中减去(112),以获得变换表示的一块整数输出值。通过多维提升方案,获得无损整数变换,该整数变换可通过应用相同的变换规则、但在加法和减法中分别具有不同的符号,而逆反,使得也可获得逆整数变换。相比于将变换分为旋转,一方面,显著地减小了计算复杂性,另一方面,防止了近似误差的累积。

Description

用于转换为变换表示或对变换 表示进行反转换的设备和方法
技术领域
本发明涉及用于具有音频和/或图像信息的离散值的压缩算法,尤其涉及变换算法,该变换算法特别用于基于变换的编码器中,基于变换表示不对原始音频和/或图像信号进行量化/编码,而是包括在量化/编码之前变换到谱范围中。
背景技术
现代音频编码方法,如MPEG Layer3(MP3)或MPEG AAC使用变换,如所谓的改进离散余弦变换(MDCT),以获得音频信号的按组(block-wise)频率表示。通常,这样的音频编码器接收时间离散音频采样流。音频采样流被加窗以获得例如1024或2048个加窗的音频采样的加窗块。为了加窗,使用不同窗函数,如正弦窗,等等。
然后,加窗的时间离散音频采样经滤波器组转换为谱表示。原则上,可使用傅立叶变换,或为了特殊原因,使用傅立叶变换的变型,如FFT或,如上面解释的MDCT。然后,如果需要,可进一步处理滤波器组输出端上的音频谱值。在上面提到的音频编码器中,随后进行音频谱值的量化,其中通常这样选择量化级,使得由量化引入的量化噪声低于心理声学掩蔽阈值(psycho-acoustic masking threshold),即被“掩蔽掉(masked away)”。量化是一种有损耗的编码。为了获得进一步的数据量减少,量化的谱值然后被熵编码(entropyencoded),例如经Huffman编码。通过添加边信息(side information),如标度因子等等,位流多路复用器从熵编码的量化谱值形成可被存储或传输的位流。
在音频解码器中,位流经位流分解器分成编码的量化谱值和边信息。熵编码的量化谱值首先被熵解码,以获得量化的谱值。量化谱值然后被反量化以获得解码的谱值,解码的谱值具有量化噪声,该量化噪声低于心理声学掩蔽阈值,因此是听不到的。这些谱值然后经综合滤波器组转换为时域表示(time representation)以获得时间离散的解码音频采样。在综合滤波器组中必须使用与上面的变换算法逆反的变换算法。此外,在频域到时域的反变换之后必须取消加窗。
为了获得好的频率选择性,现代音频编码器通常使用块交叠(block overlapping)。一个这样的例子示于图12a中。首先,例如,2048个时间离散的音频采样被接收并经装置402被加窗。表示装置402的窗具有2N个采样的窗长度,并在输出侧提供2N个加窗采样的块。为了实现窗重叠,通过装置404形成第二2N个采样的块,装置404在图12a中仅为了清晰的原因而与装置402分开表示。然而,馈入装置404中的2048个采样不是与第一窗直接相邻的时间离散的音频采样,而是包括被装置402加窗的采样的后半部分,并且仅仅另外包括1024个“新的”采样。重叠通过图12a中的装置406被象征性地图解说明,它实现了50%的重叠度。由装置402输出的2N个加窗的采样和由装置404输出的2N个加窗的采样然后分别通过装置408和410都执行MDCT算法。按照公知的MDCT算法,装置408提供第一窗的N个谱值,而装置410也提供N个谱值,但是是第二窗的N个谱值,其中在第一窗和第二窗之间存在50%的重叠。
如图12b所示,在解码器中,第一窗的N个谱值被提供给装置412,该装置412执行反向的改进离散余弦变换。这同样适用于第二窗的N个谱值。这些谱值被提供给也执行反向的改进离散余弦变换的装置414。装置412和装置414每个都分别提供第一窗的2N个采样和第二窗的2N个采样。
在图12b中被标示为TDAC(TDAC=时域混迭消除)的装置416中考虑了这两个窗交叠的事实。特别地,第一窗后半部分的采样y1,即索引为N+k的采样,和第二窗前半部分的采样y2,即索引为k的采样加和,使得在输出侧,即在解码器,生成N个解码的时间采样。
应该指出,通过装置416的函数,该函数也称为加函数,在图12a中示意示出的编码器中执行的加窗被自动考虑,使得在图12b中所示的解码器中不必须执行明确的“反加窗”。
如果由装置402或404执行的窗函数被称为w(k),其中索引k表示时间索引,则必须满足以下条件,即窗加权w(k)的平方与窗加权w(N+k)的平方相加等于1,其中k从0到N-1。如果使用其窗加权遵从正弦函数的前半波的正弦窗,则该条件总是满足的,因为对于每个角,正弦的平方和余弦的平方相加等于值1。
图12a中描述的带有随后MDCT函数的加窗方法不足之处在于,通过乘以时间离散的采样值而实现加窗,在考虑正弦窗时,时间离散的采样值具有浮点数,因为除了90度角之外,0到180度之间的角的正弦不产生整数。即使整数的时间离散的采样被加窗,在加窗之后也产生浮点数。
因此,即使不使用心理声学编码器,这意味着当要获得无损编码时,需要在装置408和410的输出端进行量化,以便能够执行合理的可管理的熵编码。
一般地,当前公知的用于无损音频和/或视频编码的整数变换是通过将其中所使用的变换分离成Givens旋转,并通过对每个Givens旋转应用提升方案(lifting scheme)而获得的。因此,在每一步中都引入舍入误差。对于Givens旋转的随后阶段,舍入误差保持累加。尤其对于无损音频解码,得到的近似误差变得难以解决,特别是当使用长的变换时,长变换提供例如1024个谱值,例如在公知的具有交叠和加和的MDCT的情形(MDCT=改进的离散余弦变换)。特别在更高频率范围内,其中音频信号通常具有非常低的能量,近似误差可能快速地变得大于实际信号,使得该方法对于无损编码,特别是对于由此可达到的编码效率是有问题的。
对于音频编码,生成整数输出值的整数变换,即变换算法,特别基于公知的不考虑恒定成分(constant component)的DCT-IV,而用于图像应用的整数变换是基于DCT-II的,DCT-II特别包含用于恒定成分的条件。这样的整数变换在下列文章中描述,例如2001年5月的Proc.ICASSP’01第1181-1184页中Y.Zeng,G.Bi和Z.Lin的“Integer sinusoidal transforms based on lifting factorization”、Proc.ICASSP 1998年第三卷第1769-1772页中K.Komatsu和K.Sezaki的“Reversible Discrete Cosine Transform”,IEEE Trans.SignalProcessing,Signal Processing第49卷的2314-2324页中P.Hao和Q.Shi的“Matrix factorizations for reversible integer mapping”、和J.Wang,J.Sun和S.Yu在2003年4月香港的ICASSP’03的“1-d and2-d transforms from integers to integers”。
如上面解释的那样,这里描述的整数变换是基于将变换分离成Givens旋转,并基于将公知的提升方案应用至Givens旋转,这涉及累积舍入误差的问题。这特别是由于在一个变换内,即每个提升步骤之后,必须执行几次取整,使得特别是在相应地涉及许多提升步骤的、长的变换中,必须特别经常地执行取整。如已经解释的那样,这导致累积的误差,并特别导致相对复杂的处理,因为在每个提升步骤之后执行取整,以执行下一个提升步骤。
发明内容
本发明的目的是提供更有效和精确的设计,用于将离散值转换为变换的表示,并用于该变换的表示的相应反变换。
本发明的这个目的是通过按照权利要求1的转换设备,按照权利要求17的转换方法,按照权利要求19的反转换设备,按照权利要求21的反转换方法或按照权利要求24的计算机程序实现的。
本发明进一步的目的是提供正向变换设备和反向变换设备,其分别包括用于转换的发明构思和用于反转换的发明构思。
该目的是通过按照权利要求16的正向变换设备,按照权利要求18的正向变换方法,按照权利要求22的反向变换设备或按照权利要求23的反向变换方法或按照权利要求24的计算机程序实现的。
本发明基于这样的认识,即通过将一维提升方案扩展至多维提升方案以及通过至少两个这种提升步骤的级联执行,一方面降低输入误差,另一方面,提高计算效率。因此,按照本发明,需要至少两块包括音频和/或图像信息的值,对这些至少两个块中的每个块进行任意变换算法。按照本发明,仅在执行完整的变换算法之后执行取整。这意味着,仅例如第一变换的输出结果值,如谱值,和第二变换的输出结果值被取整。因此,不需要在变换内取整。因此,任意存在的、特别是任何已经测试的变换规则,例如现有的并可自由利用的程序代码形式的变换规则,可用作第一变换规则和第二变换规则,而不必如现有技术中的那样,通过干涉实际变换而将变换本身分成各个旋转。
按照本发明,通过将第二块与第一块的变换表示相加,第二块被用作第一块的变换表示的载波。进一步,按照本发明,通过从第一块中减去第二块的变换的表示,第一块被用作第二块的变换表示的载波,其中第二块的变换的表示已经包含第一块的谱值。
因为,按照本发明,仅在第一和第二变换之后执行取整,且因为取整值分别被加性和减性地叠加在相应的载波值上,所以在逆转换中可以没有数据损失地实现取消在转换中执行的步骤,使得实现整数变换算法,该整数变换算法一方面可以计算有效的方式执行,并且另一方面不产生舍入误差的累积。这是由于这样的事实,即仅在完整的第一或第二变换之后执行取整,这一方面消除了舍入误差的累积,另一方面,与将变换本身分成旋转的情形相比显著减少了取整步骤的数量,在将变换本身分成旋转的情形中,在实际变换算法中,在每次提升步骤之后执行取整。
本发明的一个优点是可以进一步使用任何传统的非整数变换规则,因为仅在变换之后必须执行取整。
进一步,本发明是有利的,因为可使用快速算法,其消耗O不根据N2增加,而仅根据NlogN增加。这对于音频信号特别重要,因为值N,即变换长度,在音频信号中相对较大,并且在上述公知音频压缩方法中约为1024个值。
在本发明优选实施例中,其中使用已知的浮点MDCT变换的整数版本,公知的、对于第一和第二变换包括相同变换矩阵作为变换规则的DCT-IC变换是变换规则。进一步,为了获得对应于带有交叠和相加的MDCT的完全整数变换,优选地将通常的MDCT的加窗与时域混迭消除功能性(TDAC功能性)结合,并通过Givens旋转表达它,Givens旋转又可以通过提升方案整数地计算,以实现MDCT的完全整数版本。
被提供给根据本发明的转换设备的两块离散值对应于时间离散音频采样或离散图像采样或在现代视频压缩算法预测后图像残余值的交叠加窗块的Givens旋转值,其中在音频数据的情形中,DCT-IV算法优选作为变换算法。在解码器一侧,DCT-IV算法又优选作为频率时间变换设备,在DCT-IV算法后跟随有旋转级,该旋转级执行逆提升方案以无损耗地再现在编码器侧引入的N个取整,即在时间频率变换中引入的取整。
附图说明
以下将参考附图说明本发明的优选实施例,附图分别示出:
图1是根据本发明的用于转换的设备的方框图;
图2是根据本发明的用于逆转换的设备的方框图;
图3是按照本发明优选实施例的转换设备的方框图;
图4是按照本发明优选实施例的逆转换设备;
图5是值的两个相继块的变换的表示,其可应用于本发明;
图6是具有正向变换矩阵的多维提升步骤的详细表示;
图7是具有反向变换矩阵的多维逆提升步骤的详细表示;
图8是本发明的表示,用于将长度为N的DCT-IV分成两个N/2长度的DCT-IV;
图9是优选装置的方框图,用于处理时间离散的音频采样以获得整数值,通过该整数值可确定整数谱值;
图10是将MDCT和逆MDCT分为Givens旋转和两个DCT-IV操作的示意表示;
图11是用于示出将具有50%交叠的MDCT分成旋转和DCT-IV操作的表示;
图12a是带有MDCT和50%交叠的公知编码器的示意方框图;和
图12b是用于解码图10a所生成的值的公知解码器的方框图。
具体实施方式
图1示出了根据本发明的、用于将离散值转换为具有整数值的变换表示的设备。离散值经第一输出端100a和第二输入端100b馈送到根据本发明的设备。第一块离散值经输入端100a馈入,而第二块离散值经输入端100b馈入。离散值分别表示音频数据或图像数据和视频数据。如下面将解释的那样,第一块离散值和第二块离散值实际可包括两块时间上连续的音频采样。第一和第二块离散值也可分别包括两个在预测后由离散值表示的图像和残余值,或在差分编码(differenceencoding)中的差值,等等。可选地,这两块离散值可已经被预处理,如在MDCT的整数实现中,其中已经由Givens旋转从实际加窗的采样中生成第一块和第二块离散值。因此,可通过任何处理,如旋转,置换,正/负蝶形(butteflies),缩放等等,从原始音频数据或图像数据中获得第一和第二块离散值。而且,第一和第二块离散值分别包含音频信息和图像信息,虽然它们不直接是音频采样或离散图像值。
第一块离散值经输入端100a被馈入到装置102,以通过使用第一变换规则处理第一块离散值,以在装置102a的输出端获得第一块变换的值,如图1所示。该第一块变换的值通常不是整数,而是包括浮点值,如同它们通常通过任何变换规则,如傅立叶变换、拉普拉斯变换、FFT,DCT,DST,MDCT,MDST或诸如具有任意基函数(basefunctions)的小波变换的任何其他变换,所获得的那样。第一块变换值被馈送到装置104,以对第一块变换值取整,从而在输出侧获得第一块取整的变换值。形成用于取整的装置104以执行任何取整功能,如通过舍弃的取整或根据浮点值执行的向上取整或向下取整。
因此,由装置104执行的取整规则负责第一块取整的变换值又仅具有整数值,其精度由装置104所使用的取整规则决定。第一块取整的变换值被提供给用于求和的装置106,而第二块离散值被提供给第二输入端100b,以获得第二块加和的值。如果考虑音频信号例子,可以看到,通过装置106将来自第一块取整变换值的谱值被添加到来自第二块离散值的时间值上。如果第二块的离散值例如作为电压值出现,那么建议第一块取整的变换值也是作为电压幅值,即单位为V的值,出现。在这种情况下,在求和中没有单位问题。然而,本领域技术人员可以理解,用第一块取整的变换值或用第二块离散值可以进行任何单位标准化,因为第一块取整的变换值和第二块离散值都是例如没有单位的。
第二块加和值被提供至装置108,以利用第二变换规则处理第二块加和值,从而获得第二块变换值。如果装置102中所利用的变换规则是例如时间频率变换规则,那么块108中所利用的第二变换规则是例如频率时间变换规则。这些关系也可以逆转,使得第一和第二块离散值是例如谱值,从而通过用于在变换规则下处理的装置102获得时间值,而又通过用于经由反变换规则处理的装置,即装置108,获得谱值。因此,第一和第二变换规则可以是正向变换规则或反向变换规则,其中反变换规则分别是反向变换规则和正向变换规则。
第二块变换值被馈送到用于取整的装置110,如图1所示,以获得第二块取整的变换值,该取整的变换值然后被馈送到用于减法的装置112,以从经第一输入端108a馈入的第一块离散值中减去第二块取整的变换值,以获得一块变换表示的整数输出值,其可以在输出端114输出。通过使用任意第三变换规则处理该块变换表示的整数输出值,且通过随后对该块变换输出值取整以获得一块取整的变换输出值,并通过随后对该块取整的变换输出值和第二块加和值求和,可获得另一块变换表示的整数输出值,其中该任意第三变换规则也已经应用在装置102中或与其不同,该另一块整数输出值通过那块位于输出端114的整数输出值提供第一和第二块离散值的完整变换表示。
但是,即使没有最后三个处理、取整和求和步骤,其中该块变换表示整数输出值被施加到输出端114,可获得整个变换表示的一部分,也就是例如前半部分,其当受到逆处理时使得能够重新计算第一块离散值和第二块离散值。
这里,应该指出,根据变换规则,第一、第二,以及必要时还有第三变换规则可以是相同的。例如,在DCT-IV中的情形。如果FFT用作第一变换规则,则与FFT不同的IFFT可用作第二(逆)变换规则。
出于计算的原因,优选地提供矩阵形式的变换规则,于是当第一块的离散值数量等于第二块的离散值数量时,如果第一块的离散值数量和第二块的离散值数量都等于N,则该矩阵是N×N的方阵。
在本发明的一个优选实施例中,构造用于取整的装置104和110,以根据取整函数进行取整,该取整函数提供取整的结果,其精度小于执行图1所示功能的计算机固有的机器精度。按照取整函数,应该指出,取整函数在一个优选实施例中仅将非整数数字映射到相邻的较高或较小整数,如数字17.7映射到数字10或数字20,只要取整函数降低要取整的数字的精度。在上面的例子中,未取整的数字是小数点后有一个数位的数字,而取整的数字是小数点后没有数位的数字。
虽然在图1中将用于利用第一变换规则进行处理的装置102和用于利用第二变换规则进行处理的装置108示为分开的装置,但是应该指出,在具体实施中,可以仅有一个变换功能单元,其由特定序列控制来控制,首先变换第一块离散值,然后在算法的相应时刻反变换第二块加和值。于是,第一和第二变换规则是相同的。这同样地适用于用于取整的装置104、110。它们也不必被提供为分开的装置,而是可以由取整功能单元执行,其由序列控制根据算法的要求控制,首先取整第一块变换值,然后取整第二块变换值。
在本发明的一个优选实施例中,第一块离散值和第二块离散值是整数加窗采样,如它们是在图9中块28的输出端获得的,图9将在下面讨论。于是,通过图1中所示的整数算法实现图9的块14中的整数DCT,使得例如对于图9所涉及的音频信号,变换表示代表图9中所示装置的输出端30上的整数谱值。
以下,将借助于图2说明对应于图1的用于反变换的装置,其中除了图1的块112的输出端上的那块整数输出值之外,还使用图1的装置106的输出端上的第二块加和值。参考将在下面更详细地讨论的图4,这对应于仅存在块150和130而没有变换块124的情形。
图2示出了根据本发明的、用于对变换表示的一块整数输出值,如在图1的输出端114上所获得的那块整数输出值,以及第二块加和值进行逆转换的设备。第二块加和值被馈送到图2中所示的逆转换设备的输入端120。变换表示的该块输出值被馈送到逆转换设备的另一个输入端122。
如果编码中最后使用的变换规则是第二变换规则,则第二块加和值被馈送到装置130,该装置130用于通过使用第二变换规则处理该块。在输出侧,装置130提供第一块变换值,其被提供给用于取整的装置132,装置132又在输出侧生成第一块取整的变换值。然后由装置134从变换表示的输出值块减去第一块取整的变换值,以便在图2的设备的第一输出端149上获得第一块离散值。
该第一块离散值被提供给装置150,装置150用于通过使用第一变换规则处理该块以在装置150的输出端获得第二块变换值。该第二块变换的减去值又在装置152中取整,以获得第二块取整的变换值。然后从在输出侧上提供的、已经通过输入端120输入的第二块加和值中减去该第二块取整的变换值,以在输出侧的输出端136上获得第二块离散值。
对于第一、第二、和第三变换规则的关系以及对于通过公共功能单元和相应的序列控制/临时存储器具体实现图2中各个功能块,参考图1说明。
下面,参考图3讨论图1中一般示出的、用于转换到变换表示的设备的优选实施例。和图1相比,图1中的实施例包括进一步的变换/取整,以便从第二块加和值中生成另一块整数输出值。
第一输入端100a包括N条输入线x0,...,xN-1,用于输入第一块离散值的N个值。第二输入端100b也包括N条线,用于输入第二块离散值的N个值xN,...,x2N-1。图1的装置102在图3中示为DCT-IV变换器。构造DCT变换器102以由N个输入值生成N个输出值,每个输出值然后将由装置104通过由“[·]”指示的取整规范而取整,如图3所示。这样表示用于求和的装置106,使得进行数值方式的累加。这意味着,装置102的索引为0的输出值与第二块离散值的索引为N的第一值加和。因此,一般地,第一块取整的变换值的序数为i的值在取整装置104的输出端分别与第二块输出值的序数为N+i的离散值加和,其中i是从0到N-1的循环变量。
用于通过使用第二变换规则进行处理的装置108也被表示为DCT-IV变换器。在图3所示的优选实施例中,还构造用于减法的装置112,以执行数值方式的减法,即,取整器110的输出值,即第二块取整的变换值的值,被分别从第一块离散值中减去。在图3所示的实施例中,优选地执行相应的减法,即将第二块的序数为N+i的值从第一块的序数为i的值中减去,其中i也是从0到N-1。可选地,可执行其他加和/减法,例如将一块中序数为N-1的值从另一块中序数为N-1的值中减去,只要这相应地在逆转换中被考虑。
在输出侧,用于减法的装置112已经提供变换表示的一块整数输出值,即变换表示的整数输出值y0到yN-1。如果可选地希望获得变换表示的其余整数输出值,即另一块yN到y2N-1,则由正向变换器140通过使用第三变换规则对变换表示的位于输出端114的那块整数输出值进行变换,其中正向变换器140的输出值也被取整,如取整装置142所示,以执行这些值与第二块加和值在加法器106的输出端上的加和,如图3中附图标记144所示。加法器144的输出值表示变换表示的另一块的整数输出值146,其由yN到y2N-1表示。
下面,将参考图4说明根据本发明的、用于对根据优选实施例的变换表示进行逆转换的设备。应该指出,图3中设备所执行的操作可由图4所示设备以无损方式反向处理。除了用于根据在图2所示实施例中被馈入输入端120的另一块变换的输出值生成第二块加和值的附加变换/取整级以外,图4对应于图2。应该指出,加法功能分别被加法功能逆反。进一步地,应该指出,也可以向加法器/减法器对(图3的144和图4的128)提供符号相反的输入量,使得当一组输入量与所示情形相比具有相反的符号时,加法器144实际执行减法操作,只要这一点在然后实际执行加法操作的相应部件(图4中的128)中被考虑。
又构造图4中所示的减法器128、加法器134和另一减法器154,以执行单个数值方式的加法/减法,其中还使用与已经参考图3所表示的序数相同的序数处理。如果在图3中使用与图示不同的序数用法,这将在图4中相应地考虑。
由x0到xN-1表示的第一块离散值136已经出现在减法器134的输出端。为了还获得余下的反变换表示,第一块离散值被提供给以第一变换规则操作的变换器150,其输出侧的值被取整器152取整,并从减法器128的输出端的第二块减去值中减去,以最终获得第二块离散值156,它们由xN,...,x2N-1指示。
下面,参考图5-8,讨论如图1-4所示的用于根据本发明的设备的数学背景。通过根据本发明的、分别用于转换和用于逆转换的设备,提供了用于无损音频编码的整数变换方法,其中减小了近似误差。此外,还考虑了计算消耗,即不再使用公知的将提升方案应用到每个Givens旋转的方法,其中总是出现微小的(trivial)和差蝶形(sum-difference butterfly)。与要复制的变换的原始非整数版本相比,它们显著增加了计算消耗。
通常地,使用提升方案,以获得Givens旋转的可逆整数近似。
cos α - sin sin α cos α ≅ 1 cos α - 1 sin α 0 1 1 0 sin α 1 1 cos α - 1 sin α 0 1
通过在每次加法之后,即在每个提升步骤之后,使用取整函数而获得该整数近似。
提升方案也可用于某些缩放操作的可逆整数近似。在专业出版物R.Geiger和G.Schuller,“Integer low delay and MDCT filter banks”Proc.of the Asilomar Conf.on Signals,Systems and Computers,2002中,示出并说明了下面的行列式等于1的2×2缩放矩阵的提升分离:
d 0 0 d - 1 = - 1 0 d - 1 1 1 - d 0 1 0 1 1 d - 1
根据本发明,该一维,即仅涉及2×2缩放矩阵的提升分离被扩展到多维情形。单独地,前面等式的所有值由n×n矩阵取代,其中n,即一块的离散值数量,大于或等于2。因此,对于每个任意n×n矩阵T,该矩阵T优选是可逆的,可能如下那样分成2n×2n块矩阵,其中En表示n×n单位矩阵:
T 0 0 T - 1 = - E n 0 T - 1 E n E n - T 0 E n 0 E n E n T - 1
除了采样操作,诸如置换或乘以-1,之外,这个分离的所有三个块都具有下面的一般结构
E n 0 A E n
对于这个2n×2n块矩阵,可使用根据本发明的一般提升方案,该方案随后也称为多维提升。
对于值矢量x=(x0,...,x2n-1),该块矩阵的应用提供了下面的等式:
E n 0 A E n ( x 0 , . . . , x 2 n - 1 ) = ( ( x 0 , . . . , x n - 1 ) , ( x n , . . . , x 2 n - 1 ) + A · ( x 0 , . . . , x n - 1 ) )
应该理解,在前一等式的右侧存在矢量,其维数,即行数,等于2n。前n个分量,即从0到n-1的分量,对应于x0到xn-1。后n个分量,即在前一等式右侧得到的矢量的后半部分,等于第二块离散值,即xn,...,x2n-1,现在与对应于图1-4变换矩阵的矩阵A乘以第一块离散值x0,...,xn-1的加和。变换矩阵表示第一、第二或第三变换规则。
类似于具有
Figure A20048001660100215
形式2×2矩阵的通常提升方案,这些2n×2n矩阵可如下用于变换T的可逆整数近似。对于整数输入值(x0,...,x2n-1),浮点输出值(y0,...,yn-1)=A·(x0,...,xn-1)在被加到整数值(xn,...,x2n-1)之前被取整为整数值。块矩阵的逆结果如下:
E n 0 A E n - 1 = E n 0 - A E n
因此,该过程可通过简单地通过使用相同矩阵A和相同取整函数,并通过减去所得到的值而非正向处理中的加上,来求逆,而没有误差。正向处理示于图6中,而反向处理示于图7中。应该注意,图6中变换矩阵和图7中的变换矩阵相同,这是为了实施简单而优选的。
因为值(x0,...,xn-1)在图6所示的正向步骤中没有被修改,所以它们仍然出现在逆步骤中,即图7中反向步骤。应该指出,对矩阵A没有特定限制。因此,矩阵A不必是可逆的。
为了获得公知MDCT的可逆的整数近似,将第一级的MDCT分成Givens旋转,其中该级是加窗级,以及分为随后的DCT-IV级。该分离在图10中示出,其将在下面讨论且在DE 10129240A1中详细描述。
和其中DCT-IV被分成多级Givens旋转的现有技术相比,按照本发明,保留变换自身,并然后被取整。
因此,如同公知的那样,通过多级基于提升的Givens旋转执行DCT-IV的整数近似。Givens旋转的数目由所使用的快速算法决定。因此,对于长度为N的变换,Givens旋转的数量给定为O(N log N)。每个MDCT分离的加窗级仅包括N/2个Givens旋转或3N/2个取整步骤。因此,尤其在高变换长度中,如在音频编码应用中所使用的(例如1024),DCT-IV的整数近似是近似误差的主要原因。
根据本发明的方法使用所述的多维提升方案。因此,DCTIV中取整步骤的数目被减少至3N/2,即与传统的基于提升的方法中约2Nlog2N个取整步骤相比,等于加窗级中的取整步骤的数目。
按照本发明,DCT-IV同时应用到两块信号。其一种可能性示于图5中,其中例如对时间连续的两块采样进行DCT-IV。经过这两个变换的两个块也可以是多信道信号的两个信道的采样。
上述多维提升等式的分离被应用到也可以被当作N×N矩阵的变换规则。因为尤其在DCT-IV中,其逆也是DCT-IV,所以得到以下用于图5所示设计的分离:
DCT IV 0 0 DCT IV = - E N 0 DC T IV E N E N - DCT IV 0 E N 0 E N E N DCT IV
可在各个块矩阵中提取乘以-1的置换,因此产生下面结果:
DCT IV 0 0 DCT IV = - E N 0 DC T IV E N E N - DCT IV 0 E N 0 E N E N DCT IV
因此,可以优选为三个多维提升步骤实现将变换应用到两块信号,即两块离散值,该三个多维提升步骤如下:
E N 0 DC T IV E N E N - DCT IV 0 E N E N 0 DCT IV E N
在图3中借助于本发明一个优选实施例图形示出上面的等式。如已经解释的那样,逆转换相应地在图4中示出。
关于根据本发明的方法,两个长度为N的DCT-IV变换可以可逆方式实现,其中仅需要3N个取整步骤,即每个变换有3N/2个取整步骤。
三个多维提升步骤中的DCT-IV可具有任意实施方式,即例如基于浮点或基于定点的实施方式。其甚至不必是可逆的。其仅必须以完全相同的方式在正向和反向过程中执行。因此,该设计适于高变换长度,如1024,如在当前音频编码应用中所使用的那样。
整个计算复杂性是两个DCT-IV变换的非整数实施的计算复杂性的1.5倍。该计算复杂性显著低于传统的基于提升的整数实施方式,传统基于提升的整数实施方式的计算复杂性约是传统DCT-IV的两倍,因为这些实施方式基于所用的提升方案必须使用微小的正/负蝶形,以获得能量守恒,如同R.Geiger,T.Sporer,J.Koller和K.Brandenburg在111th AES Convention,New York,2001上的“AudioCoding based on Integer Transforms”中描述的那样。
所示的方法将同时,即在一个转换内,计算至少两个DCT-IV变换。这可例如通过计算用于音频信号的两个相继块或图像信号的两个相继图像的DCT-IV变换而实现。在两声道立体信号的情况下,这也可通过在转换动作和逆转换动作中分别计算左声道和右声道的DCT-IV而实现。第一种方案向系统中引入了附加延迟一个块。第二种方案对于立体声道或一般而言多声道信号是可能的。
可选地,如果这两个选项都是不希望的,但是如果要保持N个值的正常块处理长度,则长度为N的DCT-IV可被分成长度为N/2的两个DCT-IV变换。在本说明书中,参考Y.Zeng,G.Bi和Z.Lin在Proc.Occassp’01,2001年5月的1181-1184页中“Integer sinusoidaltransforms based on lifting factorization”,其中执行了该分离。除了两个长度为N/2的DCT变换之外,还需要附加的多级Givens旋转。进一步,在该算法中,还使用块矩阵
E N / 2 - E N / 2 E N / 2 E N / 2 ,
即N/2正/负蝶形、具有N/2Givens旋转的块对角矩阵以及另外几个置换矩阵。通过使用这些附加级N/2Givens旋转,多维提升方法也可用于计算仅一个长度为N的DCT-IV。该算法的基本结构示于图8中,其中除了其中使用两个长度为N/2的DCT-IV变换的实际转换级之外,首先出现一个蝶形级,以计算长度仅为N/2的第一和第二块离散值。在输出侧,还设置旋转级,以由分别仅具有N/2个值的变换表示的该块输出值和变换表示的另一块输出值而获得等于图5的DCT-IV操作的输出值的输出值y0,...,yN-1,如在比较图8和图5中输入侧和输出侧索引时看到的那样。
至此,仅仅已经说明了将多维提升应用到下面形式的块矩阵。
T 0 0 T - 1
然而,也可以将其他块矩阵分成多维提升步骤。例如,可使用以下分离,以通过三步多维提升实施将带有归一化的正/负蝶形的级与两块DCT-IV变换组合:
1 2 E N E N - E N E N DCT TV 0 0 DCT IV = 1 2 DCT IV 1 2 DCT IV - 1 2 DCT IV 1 2 DC T IV =
E N 0 E N - 2 DCT IV E N E N 1 2 DCT IV 0 E N E N 0 E N - 2 DCT IV E N
从前面的等式中可显然看出,在前面等式的左刮号中所使用的第一变换规则、和前面等式的中间刮号中所使用的第二变换规则、以及在前面等式的最后刮号中使用的第三变换规则不必须是相同的。此外,从前面等式中显然看出,不仅其中仅具有主对角元素的块矩阵可被分离,而且被完全占据的矩阵也可按照本发明处理。而且,应该注意到,本发明不局限于这样的事实,即在转换成变换的表示中所使用的变换规则必须相同或彼此必须有任何关系,使得例如第二变换规则是第一变换规则的反变换规则。一般地,可使用三种不同的规则,只要其在反表示中被考虑。
在本说明书中,再次参考图3和图4。当将离散值转换为变换表示时,可构造装置102,以执行任何变换规则1。此外,还可构造装置108,以使用任何其它或相同变换规则,该变换规则被称为变换规则2。此外,还可构造装置140,以使用一般任意的变换规则3,其不必须与第一或第二变换规则相同。
然而,在变换表示的逆转换中,必须找到对图3中所示变换规则1-3的匹配,即用于转换的第一装置124不执行任意变换规则,而是执行图3的块140中所执行的变换规则3。相应地,图4中的装置130必须执行也已经由图3中块108执行的变换规则2。最后,图4的装置150必须执行也已经由图3的装置102执行的变换规则1,从而获得无损反变换。
下面,参考图9-11,再次表示MDCT加窗的分离,如DE 10129240A1中描述的那样,其中以提升矩阵和相应的取整将MDCT加窗分成Givens旋转可有利地与图1所示的用于转换和图2中所示的用于逆转换的设计相结合,以获得完全整数MDCT近似,即按照本发明的整数MDCT(IntMDCT),其中已经以MDCT的例子执行了正向变换设计和反向变换设计。
图9示出根据本发明优选的、用于处理表示音频信号的时间离散采样以获得整数值的设备的概略图,在整数值上执行Int-MDCT整数变换算法。时间离散的采样被图9所示装置加窗,并可选地转换为谱表示。以长度对应于2N个时间离散采样的窗w对在输入端10被馈送到该设备的时间离散采样加窗,以在输出端12获得适于借助于变换、尤其是借助于执行整数DCT的装置14转换为谱表示的整数加窗采样。构造整数DCT,以生成N个输入值的N个输出值,这与图12a的MDCT函数408相反,MDCT函数408由于MDCT等式,由2N个加窗的采样仅生成N个谱值。
为了对时间离散采样进行加窗,首先在装置16中选择一起表示时间离散采样矢量的两个时间离散采样。由装置16选择的时间离散采样位于窗的第一个四分之一区。其它时间离散采样位于窗的第二个四分之一区,如将参考图11更详细地讨论的那样。现在为由装置16生成的矢量提供2×2维的旋转矩阵,其中该操作不是直接执行,而是经由几个所谓的提升矩阵执行。
提升矩阵具有这样的特征,即其仅具有一个元素,该元素取决于窗w且不等于“1”或“0”。
在专业出版物“Factoring Wavelet Transforms Into LiftingSteps”,Ingrid Daubechies和Wim Sweldens,Preprint,BellLaboratories,Lucent Technologies,1996中说明了将小波变换分解为提升步骤。一般地,提升方案是完美重构的、具有相同低通或高通滤波器的滤波器对之间的简单关系。每对互补滤波器可被分解为提升步骤。
这特别应用于Givens旋转。将考虑其中多相矩阵(polyphasematrix)是Givens旋转的情形。以下成立:
cos α - sin α sin α cos α = 1 cos α - 1 sin α 0 1 1 0 sin α 1 1 cos α - 1 sin α 0 1 - - - - ( 1 )
位于等式右边的三个提升矩阵中的每个都有值“1”作为主对角线元素。而且,在每个提升矩阵中,一个次对角元素等于0,而另一个次对角元素取决于旋转角α。
矢量现在乘以第三提升矩阵,即,上面等式最右边的提升矩阵,以获得第一结果矢量。这在图9中通过装置18说明。现在,用将实数量映射到整数量的任意取整函数对第一结果矢量取整,如图9中通过装置20所示。取整的第一结果矢量被馈送到装置22,以将其乘以中间的,即第二提升矩阵,从而获得第二结果矢量,第二结果矢量又在装置24中被取整,以获得取整的第二结果矢量。取整的第二结果矢量现在被馈送到装置26中,以将其乘以上面等式中左边所示的提升矩阵,即第一提升矩阵,从而获得第三结果矢量,第三结果矢量然后经装置28被最终取整,以最终在输出端12获得整数加窗的采样,现在,如果需要其谱表示,则整数加窗的采样必须由装置14处理,以在谱输出端30获得整数谱值。
装置14优选实现为整数DCT。
由下式给出长度为N的根据类型4(DCT-IV)的离散余弦变换:
x t ( m ) = 2 n Σ k = 0 N - 1 x ( k ) cos ( π 4 N ( 2 k + 1 ) ( 2 m + 1 ) ) - - - - ( 2 )
DCT-IV的系数形成正交的N×N矩阵。每个正交的N×N矩阵可分成N(N-1)/2个Givens旋转,如在专业出版物P.P.Vaidyanathan,“Multirate System And Filter Banks”,Prentice Hall,EnglewoodCliffs,1993中所讨论的那样。应该注意,也存在其它的分离。
关于不同DCT算法的分类,应参考H.S.Malvar,“SignalProcessing With Lapped Transforms”,Artein House,1992。一般地,DCT算法的不同在于其基本函数的类型。虽然这里优选的DCT-IV包括非对称基本函数,即余弦四分之一波,余弦四分之三波,余弦四分之五波,余弦四分之七波,等等,但是离散余弦变换,例如类型II(DCT-II)的离散余弦变换,具有轴对称和点对称的基本函数。0阶基本函数具有直线成分(direct component),一阶基本函数是半余弦波,二阶基本函数是整余弦波,等等。由于DCT-II特别考虑恒定成分,因此其被用在视频编码中而非音频编码中,因为与视频编码相反,恒定成分与音频编码无关。
下面,讨论Givens旋转的旋转角α如何取决于窗函数。
窗长度为2N的MDCT可减少到长度为N的IV类离散余弦变换。这通过在时域中显式地执行TDAC操作,并然后应用DCT-IV而实现。在50%交叠中,块t的窗的左半部分与前一个块,即块t-1,的右半部分交叠。两个相继的块t-1和t的交叠部分在时域中,即在变换之前,被如下处理,即在图9的输入端10和输出端12之间处理:
x ~ t ( k ) x ~ t - 1 ( N - 1 - k ) = w ( N 2 + k ) - w ( N 2 - 1 - k ) w ( N 2 - 1 - k ) w ( N 2 + k ) x t ( N 2 + k ) x t ( N 2 - 1 - k ) - - - - ( 3 )
用颚化符号指示的值是图9的输出端12的值,而上面等式中没有颚化符号的x值是输入端10或用于选择的装置16之后的值。循环变量k从0到N/2-1,而w表示窗函数。
由窗函数w的TDAC条件,以下关系成立:
w ( N 2 + k ) 2 + w ( N 2 - 1 - k ) 2 = 1 - - - - ( 4 )
对于某些角αk,k=0,...,N/2-1,这个时域中的预处理可写为Givens旋转,如已经解释的那样。
Givens旋转的角α取决于窗函数w,如下:
α=arctan[w(N/2-1-k)/w(N/2+k)]     (5)
应该注意到,可以使用任何窗函数w,只要它们满足TDAC条件。
下面,参考图10说明级联的编码器和解码器。首先由图9的装置16这样选择被一个窗一起加窗的时间离散采样x(0)到x(2N-1),使得选择采样x(0)和采样x(N-1),即来自窗第一个四分之一的采样和来自窗第二个四分之一的采样,以形成装置16的输出端的矢量。交叉箭头示意表示装置18、20或22、24或26、28的提升乘法和随后的取整,以在DCT-IV块的输入端获得整数加窗采样。
如果第一矢量已经被处理,如上所述,而且,采样x(N/2-1)和x(n/2),即来自窗的第一个四分之一的采样和来自窗的第二个四分之一的采样,的第二矢量被选择并被图9所述的算法处理。类似地,窗的第一和第二个四分之一的所有其它采样对被处理。对第一窗的第三和第四个四分之一执行相同的处理。现在,2N个加窗的整数采样出现在输出端12,其被馈送到DCT-IV变换,如图10所示。特别地,第二和第三个四分之一的整数加窗采样被馈送到DCT。窗的第一个四分之一的加窗整数采样在前一个DCT-IV中与前一个窗的第四个四分之一的加窗整数采样一起被处理。类似地,图10中加窗整数采样的第四个四分之一与下一个窗的第一个四分之一一起被馈送到DCT-IV变换。图10中间所示的整数DCT-IV变换提供N个整数谱值y(0)到y(N-1)。这些整数谱值可以很容易被熵编码,而无须中间量化,因为加窗和变换提供整数输出值。
解码器示于图10的右半部分。包括反变换和“逆加窗”的解码器相对于编码器逆向工作。已知,逆DCT-IV可用于DCT-IV的反变换,如图10所示。解码器DCT-IV 34的输出值被,如图10所示,以前一变换或后一变换的相应值逆向处理,从而由装置34输出端的整数加窗采样或前一及后一变换又生成时间离散的音频采样x(0)到x(2N-1)。
输出侧的操作是通过逆Givens旋转执行,使得块26、28或22、24或18、20在相对的方向上运行。这借助于等式1的第二提升矩阵更详细地说明。如果(在编码器中)通过将取整的第一结果矢量与第二提升矩阵(装置22)相乘而形成第二结果矢量,则产生下面的结果:
在等式(6)右侧的值x,y是整数。然而,xsinα不是这样。这里,必须引入取整函数r,如下面的等式所示的那样
Figure A20048001660100292
该操作由装置24执行。
逆映射(解码器中)被定义如下:
Figure A20048001660100293
由于取整算子前的负号,显然提升步骤的整数近似可逆,而不会引入误差。将该近似应用到三个提升步骤中的每一个就导致Givens旋转的整数近似。取整的旋转(在编码器中)可被逆转(在解码器中)而不引入误差,即通过以相反顺序执行逆取整提升步骤,即如果在解码时,图9的算法是从下向上执行。
如果取整函数r是点对称的,则逆取整旋转与以角-α的取整旋转相同,如下:
cos α sin α - sin α cos α - - - - ( 9 )
在该情形中,通过只用“-sinα”取代“sinα”,直接从等式(1)中得到用于解码器,即用于逆Givens旋转,的提升矩阵。
下面,参考图1再次说明分离具有交叠窗40到46的通常MDCT。窗40到46每个交叠50%。每个窗,首先在窗的第一和第二个四分之一中或在窗的第三和第四个四分之一中执行Givens旋转,如箭头48示意示出的那样。然后,旋转的值,即加窗的整数采样,被馈送到N到N的DCT,使得一个窗的第二和第三个四分之一或相继的窗的第四和第一个四分之一一起借助于DCT-IV算法被转换为谱表示。
因此,通常的Givens旋转被分成顺序执行的提升矩阵,其中在每个提升矩阵乘法之后引入取整步骤,使得在浮点数一出现就对其取整,从而在每次结果矢量与提升矩阵相乘之前结果矢量仅具有整数。
因此,输出值总是整数,其中优选地也使用整数输入值。这表示没有限制,因为,例如任何PCM采样,如它们存储在CD上那样,是整数值,其数值范围根据位宽度而不同,即根据时间离散数字输入值是16位值还是24位值。而且,如已经讨论的那样,通过在逆方向上执行逆旋转,整个过程是可逆的。因此,存在具有完美重构,即无损变换,的MDCT的整数近似。
所示的变换提供整数输出值,而非浮点值。其提供完美重构,使得当正向、然后反向变换被执行时,不引入误差。按照本发明的一个优选实施例,变换是替代修正的离散余弦变换。其它变换方法也可以整数方式执行,只要分离成旋转和将旋转分离成提升步骤是可能的。
整数MDCT具有最有利的MDCT特征。其具有交叠结构,从而获得比非交叠块变换更好的频率选择性。由于在变换前的加窗时已经被考虑的TDAC函数,临界采样被保持,使得表示音频信号的谱值的总数目等于输入采样的总数目。
和提供浮点采样的普通MDCT相比,所描述的优选整数变换表现了相比于具有低信号电平的普通MDCT,噪声仅在谱值范围内增加,而该噪声增加在显著的信号电平中不明显。因此,整数处理适于有效的硬件实现,因为仅使用乘法步骤,而其可以很容易分成能够在硬件中以简单快速的方式实现的移位/加法步骤。当然,软件实现也是可能的。
整数变换提供了音频信号的良好谱表示,并仍保持在整数范围内。如果将其应用到音频信号的音调部分(tonal parts),则这导致良好的能量守恒。从而,通过简单地将图9中所示的加窗/变换与熵编码器级联,可建立有效的无损编码方案。特别地,使用逃逸值(escapevalues),如MPEG AAC中所使用的,的堆叠编码是有利的。优选用2的某个幂按比例缩小所有值,直到它们适合所希望的代码表,以然后附加地编码省略的最低位。相比于使用更大代码表的可选方案,所描述的可选方案在存储代码表的存储器消耗方面更有利。也能够通过简单地省略某些最低位而获得几乎无损的编码器。
特别对于声调信号,整数谱值的熵编码使得能够获得高编码器增益。对于信号的瞬变部分,编码器增益低,这是由于瞬变信号的平谱(flat spectrum),即由于少量等于0或几乎等于0的谱值。
如J.Herre,J.D.Johnston:“Enhancing the Performance ofPerceptual Audio Coders by Using Temporal Noise Shaping(TNS)”101.AES Convention,Los Angeles,1996,Preprint 4348中所述,可通过在频率范围内使用线性预测而使用该平整度。一种可选的方案是具有开环的预测。另一种可选方案是具有闭环的预测器。第一种可选方案,即具有开环的预测器,被称为TNS。预测后的量化导致所产生的量化噪声对音频信号的时间结构的适应,并因此防止心理声学音频编码器中的超前回声。对于无损音频编码,第二可选方案,即具有闭环的预测器的可选方案,更合适,因为具有闭环的预测允许输入信号的精确重构。如果将该技术应用到所生成的谱,则必须在预测滤波器的每个步骤之后执行取整步骤,以保持在整数范围内。通过使用逆向滤波器和相同的取整函数,原始谱能够被精确地重构。
为了将两个信道间的冗余用于数据减少,如果使用具有π/4角的取整旋转,则可以无损方式使用中央-边侧编码(center-sideencoding)。相比于计算立体声信号的左声道和右声道的和与差的可选方案,取整旋转具有能量守恒的优点。可为每个波段接通或关断所谓的联合-立体声编码(joint-stereo encoding)技术的使用,如其在标准MPEG AAC中执行的那样。也可考虑其它旋转角,以更灵活地减小两个信道间的冗余。
根据环境,本发明的用于转换和用于逆转换的方法、和用于时间-频率变换或频率-时间变换的方法可以硬件或软件实现。其实现可在数字存储介质上实现,特别在具有电可读取的控制信号的磁盘或CD,它们能与可编程计算机系统协作,以便执行该方法。一般地,本发明因此也包括计算机程序产品,该计算机程序产品具有存储在机器可读载体上的程序代码,用于当计算机程序在计算机上运行时执行本发明的方法。换句话说,本发明可实现为计算机程序,该计算机程序具有用于当计算机程序运行在计算机上时执行本方法的程序代码。

Claims (24)

1.一种用于将离散值转换成具有整数值的变换表示的设备,其中所述离散值具有音频和/或图像信息,所述设备包括:
用于利用第一变换规则处理第一块离散值以获得第一块变换值的装置(102);
用于对所述第一块变换值取整以获得第一块取整的变换值的装置(104);
用于对所述第一块取整变换值与第二块离散值求和以获得第二块加和值的装置(106);
用于通过使用第二变换规则处理所述第二块加和值以获得第二块变换值的装置(108);
用于对所述第二块变换值取整以获得第二块取整变换值的装置(110);和
用于从所述第一块离散值中减去所述第二块取整变换值以获得所述变换表示的一块整数输出值的装置(112)。
2.如权利要求1所述的设备,进一步包括:
用于通过使用第三变换规则处理所述一块整数输出值以获得一块变换的输出值的装置(140);
用于对所述一块变换输出值取整以获得一块取整的变换输出值的装置(142);和
用于对所述一块取整的变换输出值和所述第二块加和值求和以获得所述变换表示的另一块整数输出值的装置(144)。
3.如权利要求1或2所述的设备,其中所述第一变换规则、所述第二变换规则和所述第三变换规则分别包括变换矩阵。
4.如前述权利要求中任一条所述的设备,其中
所述第一变换规则、所述第二变换规则和所述第三变换规则彼此相同。
5.如前述权利要求中任一条所述的设备,其中所述第一变换规则和所述第三变换规则是正向变换规则,而所述第二变换规则是反向变换规则。
6.如前述权利要求中任一条所述的设备,其中
构造所述用于对第一块取整的装置(104)和所述用于对第二块取整的装置(110)和所述用于对所述一块变换输出值取整的装置(142),以按照提供取整结果的取整函数进行取整,其精度小于包括所述设备的计算机的机器精度。
7.如前述权利要求中任一条所述的设备,其中
所述第一块离散值具有序数为0到序数为N-1的离散值,其中所述第二块离散值具有序数为N到序数为2N-1的离散值,
其中所述第一块取整的变换值序数为0到N-1,且其中构造所述用于求和的装置(106)以执行数值方式的加法,使得所述一块取整变换值的序数为i的值被加到所述第二块离散值中序数为i+N的值,其中i是从0到N-1的循环变量。
8.如前述权利要求中任一条所述的设备,其中
所述第一块离散值具有序数为0到序数为N-1的离散值,其中所述第二块离散值具有序数为0到序数为2N-1的离散值,
其中所述第二块取整的变换值具有序数N和2N-1之间的值,
其中构造所述减法装置(112),以从所述第一块中序数为i的值中减去所述一块取整变换值中序数为n+i的值,其中i是从0到N-1的循环变量。
9.如前述权利要求中任一条所述的设备,其中所述第一和第二块离散值包括整数离散值。
10.如前述权利要求中任一条所述的设备,其中构造所述用于对第一块变换值取整的装置(104)或所述用于对第二块变换值取整的装置(110),以按照相同的取整规则进行取整。
11.如权利要求3所述的设备,
其中所述第一变换规则所基于的变换矩阵、所述第二变换规则所基于的变换矩阵和所述第三变换规则所基于的变换矩阵分别是方矩阵,所述方矩阵具有等于所述第一或第二块中离散值数量的行数或列数。
12.如前述权利要求中任一条所述的设备,其中
在变换器中构造所述用于按照第一变换规则进行处理的装置(102)和所述用于按照第二变换规则进行处理的装置(108),和
其中还设置序列控制,构造所述序列控制以首先将所述第一块离散值、然后将所述第二块加和值提供给所述变换器。
13.如前述权利要求中任一条所述的设备,其中
在取整器中构造所述用于对第一块变换值取整的装置(104)和所述用于对第二块变换值取整的装置(110),且
其中还设置序列控制,以首先将所述第一块离散值、然后将所述第二块变换值提供给所述取整器。
14.如前述权利要求中任一条所述的设备,其中所述第一和第二块离散值是多声道音频信号的第一和第二声道的音频采样。
15.如权利要求1到13中任一条所述的设备,其中所述第一块和第二块是音频信号的时间连续采样。
16.一种正向变换设备,包括:
通过使用多个提升矩阵(18,22,26)和随后的取整操作(20,24,28),用于对表示音频信号或图像信号的第一块采样进行加窗、且用于对表示音频信号或图像信号的第二块采样进行加窗,以获得第一块离散值和第二块离散值的装置(16,18,20,22,24,26,28)而;和
按照权利要求1到15中任一项的设备,以从所述具有整数输出值的第一和第二块中获得变换的表示。
17.一种用于将离散值转换为具有整数值的变换表示的方法,其中所述离散值具有音频和/或图像信息,所述方法包括以下步骤:
利用第一变换规则处理(102)第一块离散值,以获得第一块变换值;
取整(104)所述第一块变换值,以获得第一块取整的变换值;
对所述第一块取整的变换值和第二块离散值求和(106),以获得第二块加和值;
利用第二变换规则处理(108)所述第二块加和值,以获得第二块取整的变换值;
取整(110)所述第二块变换值,以获得第二块取整的变换值;以及
从所述第一块离散值中减去(112)所述第二块取整的变换值,以获得所述变换表示的一块整数输出值。
18.一种正向变换方法,包括以下步骤:
通过使用多个提升矩阵(18,22,26)和随后的取整操作(20,24,28),对表示音频信号或图像信号的第一块采样加窗(16,18,20,22,24,26,28),和对表示音频信号或图像信号的第二块采样加窗,从而获得第一块离散值和第二块离散值;和
按照权利要求17的方法,以从所述具有整数输出值的第一和第二块中获得变换的表示。
19.一种用于对一块整数输出值块和第二块加和值进行反变换以获得第一和第二块离散值的设备,其中所述整数输出值和加和值是离散值的变换表示,其中所述一块整数输出值和所述第二块加和值是通过利用第一变换规则处理(102)第一块离散值以获得第一块变换值、取整(104)所述第一块变换值以获得第一块取整的变换值、对所述第一块取整的变换值与第二块离散值求和(106)以获得所述第二块加和值、利用第二变换规则处理(108)所述第二块加和值以获得第二块变换值、取整(110)所述第二块变换值以获得第二块取整的变换值、及从所述第一块离散值中减去(112)所述第二块取整的变换值以获得所述变换表示的一块整数输出值而从所述第一和第二块离散值中推导出的,所述设备包括:
用于利用所述第二变换规则处理所述第二块加和值以获得第一块变换的输出值的装置(130);
用于对所述第一块变换的输出值取整以获得的第一块取整的变换值的装置(132);
用于对所述第一块取整的变换输出值与所述一块整数输出值求和以获得所述第一块离散值的装置(134);
用于使用所述第一变换规则处理所述第一块离散值以获得第二块变换值的装置(150);
用于对所述第二块变换值取整以获得一块取整的变换值的装置(152);和
用于从所述第二块加和值中减去所述一块取整的变换值以获得所述第二块离散值的装置(154)。
20.如权利要求19所述的设备,其中通过利用第三变换规则处理(140)所述一块整数输出值以获得一块变换输出值、通过取整(142)所述一块变换输出值以获得一块取整的变换输出值、及通过对所述一块取整的变换输出值和所述第二块加和值求和(144)以获得所述变换表示的另一块整数输出值而从所述第二块加和值中计算所述变换表示的另一块整数输出值,所述设备进一步包括:
用于利用所述第三变换规则处理所述一块整数输出值以获得第一块变换的输出值的装置(124);
用于对所述第一块变换输出值取整以获得第一块取整的变换输出值的装置(126);和
用于从所述另一块输出值中减去(128)所述第一块取整的变换输出值以获得所述第二块加和值的装置。
21.一种用于对一块整数输出值和第二块加和值进行逆转换以获得第一和第二块离散值的方法,其中所述整数输出值和所述加和值是离散值的变换表示,其中通过使用第一变换规则处理(102)第一块离散值以获得第一块变换值、取整(104)所述第一块变换值以获得第一块取整的变换值、对所述第一块取整的变换值和第二块离散值求和(106)以获得所述第二块加和值、使用第二变换规则处理(108)所述第二块加和值以获得第二块变换值、取整(110)所述第二块变换值以获得第二块取整的变换值、及从所述第一块离散值中减去(112)所述第二块取整的变换值以获得所述变换表示的一块整数输出值而已经从所述第一和第二块离散值推导出所述一块整数输出值和所述第二块加和值,所述方法包括以下步骤:
利用所述第二变换规则处理(130)所述第二块加和值,以获得第一块变换的输出值;
取整(132)所述第一块变换输出值,以获得第一块取整的变换值;
对所述第一块取整的变换输出值和所述一块整数输出值求和(134),以获得所述第一块离散值;
利用所述第一变换规则处理(150)所述第一块离散值,以获得第二块变换值;
取整(152)所述第二块变换值,以获得一块取整的变换值;和
从所述第二块加和值中减去(154)所述一块取整的变换值,以获得所述第二块离散值。
22.一种反向变换设备,包括:
按照权利要求19或20的设备;和
用于利用提升矩阵(18,22,26)和随后的取整操作(20,24,28)对所述第一和第二块离散值逆加窗,以获得表示音频采样或图像采样的第一和第二块原始值的装置。
23.一种反向变换方法,包括以下步骤:
按照权利要求21的方法;和
利用提升矩阵(18,22,26)和随后的取整操作(20,24,28)对所述第一和第二块离散值逆加窗,以获得表示音频采样或图像采样的第一和第二块原始值。
24.一种具有程序代码的计算机程序,所述程序代码用于当所述计算机程序在计算机上运行时执行按照权利要求17、18、21或23的方法。
CNB2004800166016A 2003-07-14 2004-07-05 用于转换为变换表示或对变换表示进行反转换的设备和方法 Active CN100416553C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10331803.8 2003-07-14
DE10331803A DE10331803A1 (de) 2003-07-14 2003-07-14 Vorrichtung und Verfahren zum Umsetzen in eine transformierte Darstellung oder zum inversen Umsetzen der transformierten Darstellung

Publications (2)

Publication Number Publication Date
CN1806239A true CN1806239A (zh) 2006-07-19
CN100416553C CN100416553C (zh) 2008-09-03

Family

ID=34041838

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004800166016A Active CN100416553C (zh) 2003-07-14 2004-07-05 用于转换为变换表示或对变换表示进行反转换的设备和方法

Country Status (15)

Country Link
US (1) US8195730B2 (zh)
EP (1) EP1609084B1 (zh)
JP (1) JP4398979B2 (zh)
KR (1) KR100776235B1 (zh)
CN (1) CN100416553C (zh)
AT (1) ATE339728T1 (zh)
AU (1) AU2004300713B2 (zh)
BR (1) BRPI0412166B1 (zh)
CA (1) CA2532288C (zh)
DE (2) DE10331803A1 (zh)
ES (1) ES2273268T3 (zh)
HK (1) HK1085033A1 (zh)
MX (1) MXPA06000528A (zh)
PT (1) PT1609084E (zh)
WO (1) WO2005006624A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101868822B (zh) * 2007-11-23 2012-05-30 汤姆森许可贸易公司 基于整数变换的编码和解码的取整噪声整形
CN108200436A (zh) * 2017-12-29 2018-06-22 华中科技大学 一种面向线列扫描红外成像非均匀性残差的无损压缩方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA06003508A (es) * 2003-09-29 2007-01-25 Agency Science Tech & Res Metodo para transformar una senal digital del dominio de tiempo al dominio de frecuencia y viceversa.
DE10345995B4 (de) 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
US20090099844A1 (en) * 2007-10-16 2009-04-16 Qualcomm Incorporated Efficient implementation of analysis and synthesis filterbanks for mpeg aac and mpeg aac eld encoders/decoders
KR101067531B1 (ko) 2009-08-27 2011-09-27 성균관대학교산학협력단 양방향 정수 변환 장치 및 방법
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
SG185519A1 (en) * 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122303A1 (en) * 2011-03-07 2012-09-13 Xiph. Org Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122297A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US10860683B2 (en) 2012-10-25 2020-12-08 The Research Foundation For The State University Of New York Pattern change discovery between high dimensional data sets
US10089319B2 (en) * 2015-02-20 2018-10-02 International Business Machines Corporation Policy-based, multi-scheme data reduction for computer memory
US10448053B2 (en) * 2016-02-15 2019-10-15 Qualcomm Incorporated Multi-pass non-separable transforms for video coding
KR20190039562A (ko) * 2016-09-01 2019-04-12 엘지전자 주식회사 레이어드 기븐스 변환을 이용하여 변환을 수행하는 방법 및 장치
KR101916525B1 (ko) 2016-09-30 2018-11-07 연세대학교 산학협력단 필터 뱅크 멀티캐리어 시스템 및 필터링 방법
EP3616196A4 (en) 2017-04-28 2021-01-20 DTS, Inc. AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS
TWI777907B (zh) * 2017-07-13 2022-09-11 美商松下電器(美國)知識產權公司 編碼裝置、編碼方法、解碼裝置、解碼方法及電腦可讀取之非暫時性媒體
CN108986794B (zh) * 2018-09-19 2023-02-28 河海大学 一种基于幂函数频率变换的说话人补偿方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473744A (en) * 1992-09-28 1995-12-05 Optical Magnetic Imaging Corporation Computer-assisted interactive method and apparatus for making a multi-media presentation
EP0624032B1 (en) * 1993-05-07 2000-07-26 Lg Electronics Inc. Video format conversion apparatus and method
JP3291948B2 (ja) 1994-12-15 2002-06-17 ソニー株式会社 高能率符号化方法及び装置、並びに伝送媒体
WO1999023834A1 (en) * 1997-11-05 1999-05-14 Sony Corporation Method for converting digital signal and apparatus for converting digital signal
US6360204B1 (en) 1998-04-24 2002-03-19 Sarnoff Corporation Method and apparatus for implementing rounding in decoding an audio signal
US6263019B1 (en) * 1998-10-09 2001-07-17 Matsushita Electric Industrial Co., Ltd. Variable rate MPEG-2 video syntax processor
KR100289621B1 (ko) * 1998-12-29 2001-05-02 이계철 비디오 인코더의 변환 및 역변환 부호화 장치 및 그 방법
US20050143981A1 (en) 2000-06-06 2005-06-30 Yukio Koyanagi Compressing method and apparatus, expanding method and apparatus, compression and expansion system, recorded medium, program
JP2002311997A (ja) 2001-04-16 2002-10-25 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置
DE10129240A1 (de) * 2001-06-18 2003-01-02 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten
MXPA06003508A (es) * 2003-09-29 2007-01-25 Agency Science Tech & Res Metodo para transformar una senal digital del dominio de tiempo al dominio de frecuencia y viceversa.

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101868822B (zh) * 2007-11-23 2012-05-30 汤姆森许可贸易公司 基于整数变换的编码和解码的取整噪声整形
CN108200436A (zh) * 2017-12-29 2018-06-22 华中科技大学 一种面向线列扫描红外成像非均匀性残差的无损压缩方法
CN108200436B (zh) * 2017-12-29 2019-06-18 华中科技大学 一种面向线列扫描红外成像非均匀性残差的无损压缩方法

Also Published As

Publication number Publication date
US8195730B2 (en) 2012-06-05
MXPA06000528A (es) 2006-03-30
BRPI0412166A (pt) 2006-08-22
HK1085033A1 (en) 2006-08-11
DE502004001490D1 (de) 2006-10-26
EP1609084B1 (de) 2006-09-13
ES2273268T3 (es) 2007-05-01
PT1609084E (pt) 2007-01-31
AU2004300713A1 (en) 2005-01-20
KR20060034293A (ko) 2006-04-21
EP1609084A2 (de) 2005-12-28
CN100416553C (zh) 2008-09-03
WO2005006624A2 (de) 2005-01-20
KR100776235B1 (ko) 2007-11-16
DE10331803A1 (de) 2005-02-17
AU2004300713B2 (en) 2007-11-08
BRPI0412166B1 (pt) 2017-06-06
CA2532288C (en) 2012-10-02
CA2532288A1 (en) 2005-01-20
JP2009513993A (ja) 2009-04-02
ATE339728T1 (de) 2006-10-15
JP4398979B2 (ja) 2010-01-13
WO2005006624A3 (de) 2005-02-10
US20060115171A1 (en) 2006-06-01

Similar Documents

Publication Publication Date Title
CN1806239A (zh) 用于转换为变换表示或对变换表示进行反转换的设备和方法
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
CN1258172C (zh) 对音频信号进行编码及解码的装置和方法
US7917564B2 (en) Device and method for processing a signal having a sequence of discrete values
US7873227B2 (en) Device and method for processing at least two input values
CN1675683A (zh) 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法
CN1914669A (zh) 使用复数值数据的音频信号解码
CN1875402A (zh) 音频信号编码或解码
JP5400143B2 (ja) オーバーラッピング変換の2つのブロック変換への因数分解
CN101053019A (zh) 使用复值滤波器组的音频信号的编码和解码
JP2009524108A (ja) 拡張帯域周波数コーディングによる複素変換チャネルコーディング
JP3814611B2 (ja) 時間離散オーディオサンプル値を処理する方法と装置
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
CN1890712A (zh) 音频信号编码

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Munich, Germany

Patentee after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.