CN1864158A - 用于处理至少两个输入值的装置和方法 - Google Patents

用于处理至少两个输入值的装置和方法 Download PDF

Info

Publication number
CN1864158A
CN1864158A CNA2004800287114A CN200480028711A CN1864158A CN 1864158 A CN1864158 A CN 1864158A CN A2004800287114 A CNA2004800287114 A CN A2004800287114A CN 200480028711 A CN200480028711 A CN 200480028711A CN 1864158 A CN1864158 A CN 1864158A
Authority
CN
China
Prior art keywords
value
round
integer
input value
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800287114A
Other languages
English (en)
Other versions
CN100435137C (zh
Inventor
拉尔夫·基戈
杰拉尔德·舒勒
托马斯·斯伯尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN1864158A publication Critical patent/CN1864158A/zh
Application granted granted Critical
Publication of CN100435137C publication Critical patent/CN100435137C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Processing (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

为了减少四舍五入误差,第一和第二非整数输入值被提供(260,262)和结合(268),例如在非整数状态通过加法,从而获得非整数结果值,其被取整并加到(269)第三输入值。因此,取整误差可在两个被分成提升步骤的旋转之间,或在被分成提升步骤的第一旋转和随后的多维提升序列的第一提升步骤之间的接口处减少。

Description

用于处理至少两个输入值的装置和方法
技术领域
本发明涉及信号处理,尤其涉及序列值-例如音频采样值或视频采样值-的信号处理,本发明特别适用于无损耗编码应用。
本发明还适用于包含音频和/或图像信息的离散值的压缩算法,特别适用于包括频域或时域或位置域中的转换的编码算法,其中在编码算法的后面是编码,例如霍夫曼编码或算术编码形式的熵编码。
背景技术
现代音频编码方法-例如MPEG层3(MP3)或MPEG AAC-使用变换-例如所谓的改进的离散余弦变换(MDCT),以获得音频信号的分块频率表示。这种音频编码器通常获得一串时间离散音频采样值。这串音频采样值被加窗,以获得例如1024或2048个窗口音频采样值的窗口块。对于加窗操作,使用多种窗口函数,例如正弦窗等。
然后,借助于滤波器组将加窗的时间离散音频采样值转换为谱表示。为此,原则上可以采用傅立叶变换,或者由于特殊原因,采用傅立叶变换的变形,例如FFT,或所讨论的MDCT。然后,根据需要,可以对滤波器组输出端上的音频谱值块做进一步的处理。在上述音频编码器中,接着进行音频谱值的量化,其中通常这样选择量化级,使得量化所引起的量化噪音低于心理声学屏蔽阈值,也就是“被屏蔽”。量化是一种有损耗的编码。为了进一步减少数据量,然后例如借助于霍夫曼编码来对量化后的谱值进行熵编码。通过引入边信息,例如标度因子等等,借助于比特流多路复用器,由熵编码后的量化谱值形成可以被存储或传输的比特流。
在音频解码器中,借助于比特流信号分离器将比特流分解为编码后的量化谱值。首先对熵编码后的量化谱值进行熵编码,以获得量化后的谱值。然后对量化后的谱值进行反量化处理,以获得包含量化噪音的解码后的谱值,但是,该量化噪音低于心理声学屏蔽阈值,因而是听不见的。然后借助于合成滤波器组将这些谱值转换为时间表示,以获得时间离散的解码后的音频采样值。在合成滤波器组中,必须采用变换算法的逆变换算法。此外,在频率-时间逆变换之后,必须进行逆加窗。
为了实现良好的频率选择性,现代音频编码器通常使用块重叠。在图6a中图解了这种情况。首先提取例如2048个时间离散的音频采样值,并借助于装置402将其加窗。装置402实现的窗口具有2N个采样值的窗口长度,并且在输出侧提供一块2N个加窗采样值。为了实现窗口重叠,借助于装置404形成第二块2N个加窗采样值,其中在图6a中只是为了清楚而将装置404与装置402分开表示。但是,供应给装置404的2048个采样值并不是紧接着第一窗口的时间离散的音频采样值,而是包含被装置402加窗的采样值的后一半,并且还包含仅仅1024个“新”采样值。图6a中通过装置406象征性地表示重叠,得到50%的重叠度。然后,借助于装置408或410,对由装置402输出的2N个加窗的采样值以及由装置404输出的2N个加窗的采样值进行MDCT算法处理。根据已知的MDCT算法,装置408提供第一窗口的N个谱值,而装置410同样提供N个谱值,但是这些谱值是用于第二窗口的,其中第一窗口和第二窗口之间存在50%的重叠。
在解码器中,第一窗口的N个谱值-如图6b中所示-被供应到装置412中,装置412执行改进的离散余弦变换的逆变换。将相同的变换应用于第二窗口的N个谱值。这些谱值被供应到装置414中,装置414同样执行改进的离散余弦变换的逆变换。装置412和装置414分别提供第一窗口的2N个采样值或第二窗口的2N个采样值。
在装置416-在图6b中用TDAC(时域混迭消除)表示-中,考虑这一事实,即两个窗口是重叠的。特别地,第一窗口的后半部分中的采样值y1,即索引为N+k的采样值,与第二窗口的前半部分中的采样值y2,即索引为k的采样值,相加,从而使得在输出侧,即在解码器中,产生N个解码后的时间采样值。
应该注意,借助于装置416的函数-也被称为加法函数,在一定程度上自动考虑由图6a中示意性表示的编码器所执行的加窗操作,从而使得在图6b所示的解码器中不执行明确的“逆加窗”。
如果由装置402或404所执行的窗口函数被表示为w(k),其中索引k表示时间索引,则必须满足这一条件,即窗口权数(Fenstergewicht)w(k)的平方与窗口权数w(N+k)的平方相加等于1,其中k为从0到N-1如果使用窗口加权(Fenster-Gewichtung)遵循正弦函数的前半部分波形的正弦窗口,则总是满足该条件,因为每个角度的正弦值的平方与余弦值的平方之和等于值1。
对于图6a中所述的使用随后的MDCT函数的窗口方法中,不利之处在于,如果考虑正弦窗口,由于0和180°之间的除了90°角之外的角的正弦值都不是整数,所以通过时间离散采样值的乘法运算进行的加窗操作得到的是浮点数。即使整数的时间离散采样值被加窗,加窗操作之后得到的结果仍然是浮点数。
因此,即使不使用心理声学编码器,即如果要实现无损耗编码,在装置408或410的输出端进行量化处理也是必需的,以便能够执行易于合理管理的熵编码。
一般地,通过将所使用的变换分解为Givens旋转,并且将提升方案(Lifting-Schemas)应用于每个Givens旋转,获得用于无损耗音频和/或视频编码的当前已知的整数变换。因此,在每个步骤中引入取整误差。对于随后的Givens旋转级,取整误差继续累积。所得到的近似误差尤其对于无损耗音频编码方法是有问题的,特别是当使用长的变换时,长的变换例如提供1024个谱值,如在具有重叠和加法的已知MDCT(MDCT=改进的离散余弦变换)中就是这种情况。特别是在较高频率范围中,其中音频信号通常总是具有很低的能量,近似误差可能迅速地变为大于实际信号,从而使得这些方法对于无损耗编码、并且尤其对于其中可实现的编码效率是有问题的。
对于音频编码,整数变换-即生成整数输出值的变换算法-尤其地基于不考虑直流分量的已知DCT-IV,而对于图像应用,整数变换是以DCT-II为基础,其中DCT-II特别包含对直流分量的规定。这种整数变换例如在下列文献中公开,即2001年5月的Proc.ICASSP’01第1,181-1,184页中,Y.Zeng,G.Bi和Z.Lin的“Integer sinusoidaltransforms based on lifting factorization”,1998年的Proc.ICASSP第3卷第1,769-1,772页中,K.Komatsu和K.Sezaki的“ReversibleDiscrete Cosine Transform”,IEEE Trans.Signal Processing,SignalProcessing,第49卷第2,314-2,324页中,P.Hao和Q.Shi的“Matrixfactorizations for reversible integer mapping”,以及2003年4月香港的Proc.ICASSP’03中,J.Wang,J.Sun和S.Yu的“1-d and 2-dtransformations from integers to integers”。
如上文中所提到的,所述整数变换是基于将变换分解为Givens旋转,并且将已知的提升方案应用于Givens旋转,这导致累加取整误差的问题。这尤其在于,在变换中必须执行多次取整,即在每个提升步骤之后都要执行,从而使得尤其在导致相应的很多提升步骤的长变换中,尤其必须经常被取整。正如所描述的,这导致累加的误差,尤其还会导致相对复杂的处理过程,因为在每个提升步骤之后都要取整以便执行下一提升步骤。
随后将参照图9到11,再次描述MDCT加窗的分解,如DE10129240 Al中所描述的,其中这个将MDCT加窗分解为具有提升矩阵和相应取整的Givens旋转的分解有利地可以与图1中为变换和图2中为逆变换所述的设计结合,以便获得完全整数的MDCT近似,即根据本发明的整数MDCT(IntMDCT),其中执行例如MDCT的正变换和反变换设计。
图3示出了根据本发明的优选装置的概括图,其中该装置用于处理表示音频信号的时间离散采样值,以便获得整数值,其中以整数值为基础的Int-MDCT整数变换算法是有效的。时间离散采样值被图3中所示的装置加窗,并且被可选地(optional)转换为谱表示。在输入端10提供给装置的时间离散采样值通过长度对应于2N个时间离散采样值的窗口w被加窗,以便在输出端12获得整数的加窗后的采样值,其中该整数的加窗后的采样值适合于借助变换并且尤其借助于用于执行整数DCT的装置14被转换成谱表示。整数DCT被构造,以便由N个输入值产生N个输出值,这与图6a中的MDCT函数408相反,其中MDCT函数408根据MDCT等式由2N个加窗的采样值产生N个谱值。
为了对时间离散采样值进行加窗操作,首先在装置16中选择两个时间离散的采样值,其中这两个时间离散采样值共同表示时间离散采样值的向量。装置16所选择的一个时间离散采样值位于窗口的第一象限中。如借助于图5所详细讨论的那样,另一时间离散采样值位于窗口的第二象限中。现在,装置16所产生的向量被供给维数为2×2的旋转矩阵,其中该运算不是直接执行的,而是借助于多个所谓的提升矩阵而执行的。
提升矩阵具有这样的特征,即只包含一个元素,该元素取决于窗口w,并且不等于“1”或“0”。
在技术文献“Factoring Wavelet Transforms Into LiftingSteps”,Ingrid Daubechies和Wim Sweldens,Preprint,BellLaboratories,Lucent Technologies,1996中提出了将小波变换因式分解为提升步骤。提升方案通常是具有相同低通滤波器或高通滤波器的优良重构的滤波器对之间的简单关系。每一对互补的滤波器可以被因式分解为提升步骤。这尤其适用于Givens旋转。考虑这种情况,即其中Givens旋转是多相矩阵。于是,成立下列等式:
cos α - sin α sin α cos α = 1 cos α - 1 sin α 0 1 1 0 sin α 1 1 cos α - 1 sin α 0 1 - - - ( 1 )
等号右侧的三个提升矩阵中的每一个都具有作为主对角线元素的值“1”。此外,在每个提升矩阵中,一个副对角线元素等于0,并且一个副对角线元素取决于旋转角α。
现在将向量与第三提升矩阵-即上面等式中最右端的提升矩阵-相乘,以便得到第一结果向量。图3中通过装置18表示该过程。现在通过将实数集映射为整数集的任意取整函数对第一结果向量进行取整,如图3中通过装置20所示。在装置20的输出端获得取整后的第一结果向量。现在将取整后的第一结果向量提供到装置22,装置22将其与中间的提升矩阵-即第二提升矩阵-相乘,以便获得第二结果向量,该第二结果向量在装置24中又被取整,以便获得取整后的第二结果向量。现在将取整后的第二结果向量提供到装置26,即将其与上面等式中左侧所示的提升矩阵-即第一提升矩阵-相乘,以便获得第三结果向量,该第三结果向量最后借助于装置28被取整,以便最后在输出端12获得整数的加窗后的采样值,其中如果希望得到其谱表示,则现在必须通过装置14对该整数的加窗后的采样值进行处理,以便在谱输出端30得到整数谱值。
优选地,装置14被执行为整数DCT。
通过下式提供长度为N的根据类型4(DCT-IV)的离散余弦变换:
X t ( m ) = 2 N Σ k = 0 N = 1 x ( k ) cos ( π 4 N ( 2 k + 1 ) ( 2 m + 1 ) ) - - - ( 2 )
DCT-IV的系数形成N×N的正交矩阵。每个N×N正交矩阵可以被分解为N(N-1)/2个Givens旋转,如在技术文献P.P.Vaidyanathan,“Multirate Systems And Filter Banks”,Prentice Hall,EnglewoodCliffs,1993中所述。应该注意,还存在其它的分解。
关于多种DCT算法的分类,参看H.S.Malvar,“Signal ProcessingWith Lapped Transforms”,Artech House,1992。DCT算法通常通过它们的基函数的类型来区别。虽然这里优选的DCT-IV包括不对称的基函数,即1/4余弦波,3/4余弦波,5/4余弦波,7/4余弦波等等,但是例如类型II(DCT-II)的离散余弦变换具有轴对称和点对称的基函数。第0基函数具有直流分量,第一基函数是一半的余弦波,第二基函数是整个余弦波等等。由于这一事实,即DCT-II特别考虑直流分量,所以它在视频编码时被使用,但在音频编码时不被使用,这是因为与视频编码相反,在音频编码中,直流分量是不重要的。
在下文中,将讨论Givens旋转的旋转角α如何取决于窗口函数。
窗口长度为2N的MDCT可以被简化为长度为N的类型IV的离散余弦变换。这是通过在时域中明确执行TDAC运算、然后应用DCT-IV来实现的。在重叠率是50%的情况中,用于块t的窗口的左半部分与前一块-即块t-1-的右半部分重叠。两个相邻块t-1和t的重叠部分在时域中-即在变换之前-被如下预处理,即在图3的输入端10和输出端12之间被处理:
x ~ t ( k ) x ~ t - 1 ( N - 1 - k ) = w ( N 2 + k ) - w ( N 2 - 1 - k ) w ( N 2 - 1 - k ) w ( N 2 + k ) x t ( N 2 + k ) x t ( N 2 - 1 - k ) - - - ( 3 )
被标记上“~”的值是图3的输出端12处的值,而上式中没有标记“~”的值是输入端10处或选择装置16后的值。循环变量k从0变化到N/2-1,而w表示窗口函数。
通过窗口函数w的TDAC条件,成立下列等式:
w ( N 2 + k ) 2 + w ( N 2 - 1 - k ) 2 = 1 - - - ( 4 )
对于某一个角αk,k=0,…,N/2-1,正如所讨论的那样,该预处理过程在时域中可以被写作Givens旋转。
Givens旋转的角度α如下地取决于窗口函数w:
α=arctan[w(N/2-1-k)/w(N/2+k)]          (5)
应该注意,就可以使用任何窗口函数w,只要其满足该TDAC条件。
在下文中,将参照图4介绍级联编码器和解码器。首先通过图3中的装置16这样选择通过窗口被一起“加窗”的时间离散采样值x(0)到x(2N-1),使得采样值x(0)和采样值x(N-1),即来自窗口第一象限的一个采样值和来自窗口第二象限的一个采样值,被挑选,以便在装置16的输出端形成向量。交叉的箭头示意性地表示装置18、20或22、24或26、28的提升乘法以及随后的取整,以便在DCT-IV块的输入端得到整数的加窗后的采样值。
当第一向量被如上所述地被处理时,还选择包括采样值x(N/2-1)和x(N/2)-即来自窗口第一象限的一个采样值和来自窗口第二象限的一个采样值-的第二向量,并且通过图3中所描述的算法对其进行处理。类似地,对来自窗口的第一和第二象限的所有其它采样值对进行处理。对第一窗口的第三和第四象限进行相同的处理过程。现在,在输出端12处有2N个加窗后的整数采样值,其中这些加窗后的整数采样值现在被提供给DCT-IV变换,如图4中所示。特别地,第二和第三象限的整数的加窗后的采样值被提供给DCT。窗口的第一象限的加窗后的整数采样值和前一窗口的第四象限的加窗后的整数采样值一起被处理为前一DCT-IV。类似地,图4中第四象限的加窗后的整数采样值和下一窗口的第一象限被提供给DCT-IV变换。现在,图4中间所示的整数DCT-IV变换32提供N个整数谱值y(0)到y(N-1)。这些整数谱值现在可以例如被简单地熵编码,而不需要其间的量化,这是因为加窗操作和变换提供整数输出值。
在图4的右半部分中表示解码器。包括反变换和“逆加窗操作”的解码器所进行的操作与编码器相反。已知,逆DCT-IV可以被用作为DCT-IV的反变换,如图4所示。现在,通过前一变换或后一变换的相应值对解码器DCT-IV 34的输出值进行逆处理,如图4所示,以便根据装置34的输出端处的或者前一和后一变换的整数的加窗后的采样值重新生成时间离散音频采样值x(0)到x(2N-1)。
输出侧的运算是通过逆Givens旋转实现的,即方框26、28或22、24或18、20以相反的方向进行。这将参照等式1的第二提升矩阵进行更详细的说明。如果(在编码器中)通过将取整后的第一结果向量与第二提升矩阵(装置22)相乘而形成第二结果向量,则产生下列表达式:
等式6右侧的值x,y都是整数。但是这并不适用于值xsinα。在这里,必须引入取整函数r,如下式所示:
Figure A20048002871100112
该运算是通过装置24来进行的。
(解码器中的)逆映射被定义为下式:
Figure A20048002871100121
由于取整运算前面的减号,显然提升步骤的整数近似可以被逆向处理,而不引入误差。将该近似应用到三个提升步骤中的每一个就得到Givens旋转的整数近似。通过以逆反的顺序进行反取整后的提升步骤,即在解码图3的算法时从下到上地执行,取整后的旋转(编码器中)可以被逆向处理(解码器中),而不引入误差。
如果取整函数r是点对称的,则反取整后的旋转与角度为-α的取整后的旋转是相同的,并且可以用下列矩阵来表示:
cos α sin α - sin α cos α - - - ( 9 )
用于解码器-即用于反Givens旋转-的提升矩阵在这种情况下通过只是将表达式“sinα”替换成表达式“-sinα”而从等式(1)中直接得到。
在下文中,将参照图5对常用MDCT通过重叠窗口40到46的分解再一次进行说明。窗口40到46分别重叠50%。首先,每个窗口地,在窗口的第一和第二象限内或窗口的第三和第四象限内执行Givens旋转,如箭头48所示意性表示的那样。然后,将旋转后的值-即加窗后的整数采样值-这样提供到N到N DCT中,使得窗口的第二和第三象限或后一窗口的第四和第一象限借助于DCT-IV算法被共同变换为谱表示。
因此,常用的Givens旋转被分解为顺序执行的提升矩阵,其中在每次提升矩阵乘法之后插入取整步骤,使得浮点数在其产生以后立即被取整,从而在结果向量与提升矩阵的每次相乘之前,结果向量只包含整数。
输出值总是保持为整数的,其中优选地也使用整数输入值。这并不代表一种限制,因为所有例如PCM采样值-如存储在CD上的那些-是整数值,值的范围根据位宽度而变化,即取决于时间离散数字输入值是16位值还是24位值。然而,正如上文中所讨论的,通过以逆序执行反旋转,整个过程是可逆的。因此存在具有优良重构的MDCT的整数近似,即无损耗变换。
所示的变换提供整数输出值,而不是浮点值。它提供优良的重构,使得在执行正变换,然后执行反变换时不引入误差。根据本发明的一个优选实施例,该变换取代了改进的离散余弦变换。但是,也可以整数地执行其它变换方法,只要可以分解为旋转,并且将旋转分解为提升步骤。
整数MDCT具有MDCT的大部分有利性质。其具有重叠的结构,从而获得比非重叠块变换更好的频率选择性。由于在变换之前的加窗操作中已经考虑的TDAC函数,所以保持了临界采样,从而使得表示音频信号的谱值的总量等于输入采样值的总量。
与提供浮点采样值的一般MDCT相比较,所描述的优选整数变换表明,只在信号电平很小的谱范围内噪音与一般MDCT相比较增加了,而该噪音增加在大信号电平中是不明显的。为此,提供了用于有效硬件实现的整数处理,因为只使用乘法步骤,其中乘法步骤可以被很容易地分解为移位-加法步骤,移位-加法步骤可以简单快速地通过硬件实现。当然,软件实现也是可能的。
整数变换提供音频信号的良好谱表示,并且保持在整数范围内。如果将其应用于音频信号的音调部分,则得到良好的能量集中。因此,可以通过简单地将图3中所示的加窗/变换与熵编码器级联,而构建有效的无损耗编码方案。特别地,使用逃逸(escape)值的堆叠编码(stacked coding)-如用于MPEG AAC中的-是有利的。优选地,将所有值按比例缩小2的某次幂,直到它们适合期望的编码表,然后附加地对省略的最低有效位编码。与使用更大编码表的方案相比较,所描述的方案在用于存储编码表的存储器消耗方面更有利。通过简单地省略某几个最低有效位数,也可以得到几乎无损耗的编码器。
特别是对于音调信号,整数谱值的熵编码使得能够得到高的编码增益。对于信号的瞬变部分,编码增益低,这是由于瞬变信号的平坦的谱(flat spectrum),即由于少量等于0或近似等于0的谱值。如J.Herre,J.D.Johnson:“Enhancing the performance of PerceptualAudio Coders by Using Temporal Noise Shaping(TNS)”101.AESConvention,Los Angeles,1996,Preprint 4384中所描述的,该平坦也可以通过在频域中使用线性预测而被利用。一种方案是具有开环的预测。另一方案是具有闭环的预测器。第一方案-即具有开环的预测器-被称作TNS。预测之后的量化导致所得到的量化噪音与音频信号的时间结构相适应,从而避免了心理声学音频编码器中的超前回声。对于无损耗音频编码,第二方案-即具有闭环的预测器-更合适,因为具有闭环的预测允许对输入信号进行准确的重构。如果将该技术应用到所产生的频谱,则在预测滤波器的每个步骤之后必须执行取整步骤,以便保持在整数范围内。通过使用反滤波器和相同的取整函数,可以准确地再现初始频谱。
为了利用两个信道之间的冗余以减少数据,如果使用角度为π/4的取整旋转,则也可以无损耗地使用中间侧编码(Mitte-Seite-Codierung)。与计算立体声信号左右信道的总和与差值的方案相比较,取整后的旋转具有能量守恒的优势。对于每个频带可以使用或不使用所谓的联合立体声编码技术,如在标准MPEG AAC中执行的那样。此外,同样可以考虑旋转角度,以便能够更灵活地减少两个信道之间的冗余。
特别地,参照图3所示的变换设计提供了MDCT的整数实现,即IntMDCT,其在正变换和随后的反变换方面无损耗地工作。此外,通过取整步骤20、24、28以及整数DCT中相应的取整步骤(图3中的方框14),整数处理总是可能的,即具有比例如通过与提升矩阵的浮点乘法(图3中的方框18、22、26)所产生的更粗糙的量化值的处理。
这导致整个IntMDCT也可以被计算有效地执行。
该IntMDCT的无损耗性或者一般而言被称为无损耗的所有编码算法的无损耗性涉及信号-如果其被编码以便获得编码后的信号以及如果然后又被解码以便获得编码/解码后的信号-与初始信号“看上去”完全一样。换句话说,初始信号与编码/解码后的初始信号相同。这与所谓的有损耗编码形成的鲜明对比,在有损耗编码中,如在基于心理声学工作的音频编码器的情况下那样,通过编码过程,尤其是通过由心理声学模型所控制的量化过程,数据被不可恢复地丢失。
当然,但是仍然引入取整误差。因此,如借助于图3在方框20、24、28中所示,执行取整步骤,该取整步骤当然就引入取整误差,其中该取整误差在解码器中-如果执行逆运算-才重新被“消除”。因此,无损耗编码/解码设计与有损耗编码设计的本质不同之处在于,在无损耗编码/解码设计中这样引入取整误差,使得其可以重新被消除,而在有损耗编码/解码设计中就不是这种情况。
但是,如果观察编码后的信号,即例如变换编码器的实例中观察时间采样值的块的频谱,则正变换中的取整或一般地这种信号的量化就导致在信号中引入误差。因此,在信号的理想无误差频谱上叠加取整误差,其中取整误差通常例如在图3的情况中是均等地包含所考虑的频谱范围中所有频率分量的白噪音。因此,叠加到理想频谱上的这个白噪音表示取整误差,其中该取整误差例如通过加窗期间-即方框14中的实际DCT之前的信号预处理期间-在方框20、24、28中的取整而产生。特别要注意的是,对于无损耗要求,整个取整误差必须被编码,即必须被传送到解码器,因为解码器需要在编码器中引入的整个取整误差,以便重新实现正确的无损耗重构。
如果没有对谱表示进行“处理”,即如果谱表示仅仅被存储地传输并且通过正确匹配的逆解码器重新解码,则取整误差不成为问题。于是,无损耗标准总是被满足,而与多少取整误差被引入到频谱中无关。但是,如果对谱表示-即对初始信号的包含取整误差的理想谱表示进行某些处理,如例如产生可缩放性层(Skalierbarkeitsschichten)等等,则取整误差越小,所有这些事情就工作得越好。
因此,在无损耗编码/解码中还存在如下要求,即信号一方面应该可以通过特定解码器被无损耗地重构,但是信号在其谱表示中也应该具有尽可能小的取整误差,以便保持下列灵活性,即也可以向非理想无损耗解码器提供谱表示,或可以产生可缩放层等等。
如上面所讨论的,取整误差在所观察的整个频谱范围内被表示为白噪音。另一方面,特别是在高质量应用中,如对于无损耗情况特别感兴趣的那样,即在采样频率非常高-例如96kHz-的音频应用中,音频信号只在特定频谱范围-其典型地最高达到20kHz-内具有合理的信号内容。典型地,音频信号的大多数信号能量集中在其中的范围是0和10kHz之间的范围,而信号能量在大于10kHz的范围内已经显著地降低。但是,这对于由取整所引起的白噪音是无所谓的。其在信号能量的所观察的整个频谱范围内叠加。这导致,在频谱范围内,即通常在其中不存在音频信号能量或只存在极小音频信号能量的高频谱范围内,只存在取整误差。取整误差尤其由于其非确定特征同样也难以被编码,即只可以以相对大的位消耗(Bitaufwand)而编码。因此,位消耗尤其在某些无损耗应用中不起决定性作用。但是,为了无损耗编码应用越来越普遍,这里位效率非常高的工作很重要,以便将无损耗应用中固有的不存在质量降低的优点也与相应的位效率组合,如从有损耗编码设计中了解的那样。
虽然在无损耗环境中取整误差如下是没有问题的,即取整误差在解码中可以被消除,但是取整误差仍然是相当重要的,即无损耗解码或重构完全可以实现。另一方面,正如已经讨论的,取整误差是以下情况的原因,即谱表示有错误,即与未取整信号的理想谱表示相比较而言失真。对于特定应用情况,其中谱表示实际上是重要的,即编码后的信号实际上是重要的,也就是当例如由编码后的信号生成多个缩放性层时,仍然希望获得取整误差尽可能小的编码后的表示,但是从该编码后的表示中不消除对于重构需要的取整误差。
发明内容
本发明的任务是提供用于处理输入值的人工简化设计。
该任务是通过根据权利要求1的用于处理至少两个输入值的装置或根据权利要求11的用于处理至少两个输入值的方法或根据权利要求12的计算机程序而实现的。
本发明是基于这样的认识的,即取整误差的降低可以通过以下方式实现,即只要本来必须取整两个值,然后例如通过加法将这两个取整后的值组合到另一个第三值,就如下地减小取整误差,即首先将这两个值在未取整状态中-即以浮点表示方式-相加,接着仅要将相加得到的输出值与第三值相加。与其中每个值被分别处理的常规步骤相比较,根据本发明的设计使一个求和过程和一个取整过程被省略,从而使得根据本发明的设计除了减小取整误差这一事实之外,还有助于有效的算法执行。
在本发明的一个优选实施例中,如果两个被分解为提升步骤的旋转相互“邻接”,即如果存在以下情形,其中第一值首先要与第三值一起被“旋转”,并且如果然后这个第一次旋转的结果又要与第二值旋转,则根据本发明的设计被用于减小取整误差。
根据本发明设计的用于减少取整误差的另一应用情况存在于下列情形中,即在多维提升设计的提升级之前连接蝶式,如例如当N个点的DCT被分解为具有一半长度-即N/2个点-的两个DCT时所出现的那样。在这种情况下,在本来的多维提升之前,存在蝶式级,而在多维提升之后,存在旋转级。特别地,由蝶式级所要求的取整可以与多维提升设计的第一提升级的取整结合起来,以便减小取整误差。
由于在具有用于转换的整数加窗/预处理以及多维提升处理的整数MDCT中取整级的数目与现有技术相比较在没有应用本发明的情况下已有被较大的降低,所以根据本发明的设计尤其在这种情况中有助于显著地减小还存在的本来已经很小的取整误差。这导致,由于还存在的、但是现在被大大降低的取整误差,例如频谱相对于理想频谱只有很小的偏差。
特别是在无损耗编码/解码的情况下,本发明可以与取整误差的频谱整形结合起来,其中还存在的取整误差被这样进行频谱整形,从而使得其被“安置”在待编码信号的、信号本来具有高信号能量的频率区域中,并且因此在其中信号本来不具有能量的范围中不存在取整误差。虽然在现有技术中,在无损耗编码并且尤其是在基于整数算法的无损耗编码中,取整误差被白色地分布在信号的整个频谱中,但是取整误差以粉红色噪音(pink noise)的形式叠加在理想频谱上,也就是使得在信号本来具有其最高能量的地方存在由取整引起的噪音能量,并且因此在待编码信号本身同样没有能量的地方,由取整误差所引起的噪音同样具有小的能量,或甚至不存在能量。因此,避免了最不利的情况,即作为随机信号并因此难以被编码的取整误差在频率范围中是待编码信号,因而不需要增加位率。
如果观察能量位于低频率范围中的音频信号,则取整装置被构造,以实现所产生的取整误差的频谱低通整形,如下:在编码后的信号的高频率中,既没有信号能量,也没有噪音能量,而取整误差被映射到其中信号本来具有很多能量的范围中。
尤其是对于无损耗编码应用,这与现有技术相反,在现有技术中,取整误差被频谱高通地滤波,以便使取整误差离开可听范围。这也对应于这样的情况,即电子地或通过听力自身将取整误差位于其中的频谱范围滤出,以便消除取整误差。然而,对于无损耗编码/解码,取整误差在解码器中是绝对必要的,因为否则解码器中所使用的与无损耗编码算法相反的算法产生失真。
取整误差的频谱整形设计有利地被用于具有高采样率的无损耗应用中,因为特别在这种情况-即频谱在理论上扩展到高达40KHz以上(由于过采样)-中,在本来不存在信号能量-即其中可以非常有效地编码-的高频率范围中,实现相同的情况,如在其中在高频率范围中信号能量同样为零的非整数编码的情况中一样。
通过大多数零被非常有效地编码,并且通过将被有错误地编码的取整误差被移动到通常本来被非常精细地编码的范围中,因此与取整误差作为白噪音分布在整个频率范围上的情况相比较,信号的总数据率降低。此外,编码性能被增强,并且因此解码性能也得到增强,这是因为对于高频率范围的编码和解码也不必须耗费计算时间。因此,该设计还导致,在编码器侧或在解码器侧可以实现快的信号处理。
在一个实施例中,整形/减小近似误差的设计被应用在可逆整数变换中,特别是在IntMDCT中。这里存在两个应用领域,即一方面是多维提升,通过其,MDCT在需要的取整步骤方面可以被大大简化,以及另一方面是整数加窗所必需的取整运算,如在本来的DCT之前的预处理中出现的那样。
误差反馈设计被用于取整误差的频谱整形,其中取整误差被移动到其中正好被处理的信号具有最大信号能量的频率范围中。在音频信号中,尤其是在视频信号中,这是低频率范围,使得误差反馈系统具有低通特性。由此在其中通常存在很少信号分量的上频率范围中得到很小的取整误差。在现有技术中,取整误差在上频率范围中占主要部分,其中必须对这些取整误差编码,并且因而增加了编码所必需的位数。有利地,这个取整误差在更高频率中被减小,这直接减小了编码所需的位数。
附图说明
在下文中将参照附图对本发明的优选实施例进行更为详细的说明,其中:
图1示出用于通过对取整误差进行频谱整形来处理具有一系列离散值的信号的设计的方框图;
图2a示出用于高通频谱整形量化误差的已知设计;
图2b示出用于低通整形取整误差的设计;
图2c示出根据一个实施例的用于频谱整形/取整块的方框图;
图3示出一个优选装置的方框图,其中该装置用于处理时间离散音频采样值,以便获得整数值,根据这些整数值可以确定整数谱值;
图4是将MDCT和反MDCT分解为Givens旋转和两个DCT-IV运算的示意图;
图5是用于图解将具有50%重叠的MDCT分解为旋转和DCT-IV运算的示意图;
图6a示出具有MDCT和50%重叠的已知编码器的示意方框图;
图6b示出用于对由图10a所产生的值进行解码的已知解码器的方框图;
图7是在根据图3的加窗操作中的提升的示意图;
图8是用于在本来的变换之前进行加窗操作的图7的提升的“再分类(umsortiert)”示意图;
图9示出根据图3、7和8的加窗操作的频谱整形应用;
图10示出根据本发明一个优选实施例的变换装置的方框图;
图11示出根据本发明一个优选实施例的反变换装置;
图12是两个连续块的值的变换的示意图,如其可用于本发明那样;
图13是具有正变换矩阵的多维提升步骤的详图;
图14是具有反变换矩阵的多维反提升步骤的示意图;
图15是用于将长度为N的DCT-IV分解为两个长度为N/2的DCT-IV的本发明的示意图;
图16示出根据本发明的设计在具有图10的多维提升的变换内的应用;
图17示出用于根据本发明的取整误差减小的两个连续提升步骤的示意图;
图18是用于减小图17的两个连续提升步骤中取整误差的根据本发明设计的示意图;以及
图19示出图18的设计与图16的设计的一种优选组合。
具体实施方式
图1示出用于处理具有离散值序列的信号的装置,其中该信号通过信号输入端200被输入到控制装置202中。信号典型地被构造,以便具有第一频率范围和第二频率范围,其中在第一频率范围中信号具有高的能量,而在第二频率范围中信号具有低的能量。如果第一信号是音频信号,则其在第一频率范围-即在低频率范围-中具有高的能量,而在高频率范围中具有低的能量。但是,如果信号是视频信号,则其同样在低范围中具有高的能量,而在高范围中具有低的能量。与音频信号相反,在视频信号中,频率范围是空间频率区,除非观察连续的视频帧,其中对于例如连续视频帧中的选定图像区域,同样存在时间频率。
控制装置202通常被构造以便这样控制离散值序列,从而得到控制后的值的序列,其中至少一个控制后的值不是整数。该非整数离散值序列被提供给用于对控制后的值的序列进行取整的装置204中,以便得到取整后的控制后的值的序列。取整装置204被这样构造,以便这样实现对取整所产生的取整误差的频谱整形,从而使得第一频率范围-即其中初始信号具有高能量的频率范围-中的频谱整形后的取整误差同样具有高能量,并且在第二频率范围-即其中初始信号具有低能量的频率范围-中的频谱整形后的取整误差同样具有低的能量或不具有能量。因此,第一频率范围中的频谱整形后的取整误差的能量通常高于第二频率范围中的频谱整形后的取整误差的能量。但是,频谱整形优选不对取整误差的总能量作出任何改变。
有利地,直接地或者通过进一步的控制/取整组合,用于生成取整后的控制后的值的含误差序列的装置被耦合到用于变换为谱表示的装置206。因此,可以直接将取整后的控制后的值的含误差序列提供给用于变换为谱表示的装置206中,以便得到取整后的控制后的值的含误差序列的直接频谱。但是,在一个实施例中,控制装置是提升步骤或提升矩阵,并且取整装置被构造以便对提升步骤的非整数结果进行取整。在这种情况中,装置204后面有执行第二提升步骤的另一控制装置,该另一控制装置后面又有取整装置,该取整装置后面又有实现第三提升步骤的第三控制装置,其中又进行控制,从而使得所有三个提升步骤得到完成。因此,生成了由装置204的输出端处的取整后的控制后的值的初始含误差序列得到的取整后的控制后的值的含误差序列,该序列最后有利地同样通过整数变换被变换为谱表示,如方框206所示。在方框206的输出端的谱表示的输出信号现在具有这样的频谱,其与现有技术相反,不再具有被白色地分布的取整误差,而是具有被频谱整形的取整误差,即使得在本来的“有用频谱”具有高信号能量的地方同样是高的取整误差能量,而在其中不存在信号能量的频率范围中,在最有利的情况下也不存在取整误差能量。
然后将该频谱提供给用于对谱表示进行熵编码的装置208。熵编码装置可以包含任何编码方法,例如霍夫曼编码、算术编码等等。尤其为了对大量等于零并且相互邻接的谱线进行编码,行程编码也是适合的,当然,其不能在现有技术中应用,因为这里在这样的频率范围中必须对本来确定性的信号进行编码,但是该信号具有白频谱,并且因此对任何种类的编码工具特别不利,因为各个谱值相互完全不相关。
以下将参照图2a、2b和2c对具有频谱整形的取整装置204的一个优选实施例进行讨论。
图2a示出用于对量化误差进行频谱整形的已知误差反馈系统,如在教科书“Digitale Audiosignalverarbeitung”,U.Zoelzer,Teubner-Verlag,Stuttgart,1997中所描述的。输入值x(i)被提供给输入端加法器210。加法器210的输出信号被提供给量化器212,其中量化器212在频谱整形装置的输出端提供量化后的输出值y(i)。在第二加法器214中,确定量化器212之后的值与量化器212之前的值之间的差值,即取整误差e(i)。第二加法器214的输出信号被提供给延时装置216。然后,借助于加法器210将被延迟了一个时间单位的误差e(i)从输入值中减去。因此,得到初始误差信号e(n)的高通评估。
如果使用z-1(-2+z-1)来代替图2a中用216表示的延时装置z-1,则得到二阶高通评估。在特定应用实例中,量化误差的这种频谱整形被用于从可感受范围-即从例如信号x(n)的低通范围-中“屏蔽”量化误差,从而量化误差不被察觉。
如图2b所示,执行低通评估来代替它,以便不是在感知范围外,而是正好在感知范围内实现误差的频谱整形。为此,加法器210的输出信号-如在图2b中所示-被提供到取整方框218,取整方框218实现任何取整函数,例如可以是向上取整,向下取整,截断取整,向上取整/向下取整到下一个整数,或者到再下一个,再下两个……整数。在误差反馈通道中-即加法器214和加法器210之间,现在除了延时元件216以外,还有具有脉冲响应h(n)或转移函数H(z)的另一反馈方框220。输出序列的z变换,即Y(z)通过图2b中所示的等式与输入序列X(z)建立联系。
e(n)=x’(n)-y(n)
在上面的等式中,x(n)是加法器210的输入信号,而y(n)是来自取整方框218的输出信号。
此外,成立下式:
y(n)=round(x’(n))
在上面的等式中,“round”表示由方框218执行的取整函数。此外,成立下式,其中“*”表示卷积运算:
x’(n)=x(n)-h(n)*e(n-1)
在z域中,得到有下列结果:
Y(z)=X’(z)+E(z)
X’(z)=X(z)-E(z)z-1H(z)
Y(z)=X(z)+(1-z-1H(z))E(z)
由于E(z)是取整误差,所以其通过滤波器(1-z-1H(z))被频谱整形。根据本发明,现在使用低通类转移函数。如果例如设定H(z)=-1,则可以得到最简单的低通类转移函数。在这个简单实例中,在应用下一取整运算之前,先前取整运算的取整误差与要进行取整的值简单相加。因此,实现了一种简单的、对于本发明非常有效的、并且因而是优选的取整误差低通滤波。
图2c中表示一种实现。特别地,表示了用于控制整数离散值的初始序列的装置202,其中该装置在输出侧提供非整数离散值序列y0,y1,y2,……,yi。现在,与现有技术相反,不再对每个值取整,如例如参照图3中的方框20、24、28或参照图10中的方框104、110、142或参照图11中的126、132、150所图示。相反地,通过图2c中所示的“网络”,序列的非整数离散值y0、y1、y2、y3……被相互依赖地在反馈支路中以低通特性被滤波,从而使得到所述的频谱整形。通过相同参考数字表示图2c中与图2b中相同的元件。
此外,在图2c示出了一种并行实现,即这样一种实现,其中并行地提供待取整的值。当然,这只是示意的表示。可以顺序地提供值y0、y1、y2……,以得到连续的输出值。其中在这种情况中,包括元件210、214、216、218、220的结构的单一实现方式就足够了。只是为了清晰起见,才表示元件214、218、210,220的重复结构。
图2c中所示的取整装置204因而能够首先计算取整后的值[y0]。然后,计算出取整误差i0。然后取整误差i0通过具有转移函数H(z)-其优选等于-1-的方框220被加权(滤波),并且被提供给加法器210。该滤波后的取整误差与序列yi的下一值相加,随后加法器210的结果在方框218中被取整,以便得到下一取整后的值[y1]。随后,通过加法器214又确定取整误差,即通过使用取整后的值[y1]和初始值y1,其中这个所得到的取整误差i1又在方框220被滤波,以便为序列的下一值y2执行相同的运算过程。
在这一点上,应该注意,方向是无关紧要的。这就意味着,也可以从下标大的yi到下标小的yi变化,即与图2c中尤其通过从方框220延伸到加法器210的箭头所表示的方向相反的方向。因此,顺序,即运算过程的进行是以从低到高的下标顺序,还是以从高到低的下标顺序,是不重要的。
特别是在整数MDCT(IntMDCT)的应用情况下,取整误差的频谱整形在满足下列条件的情况中优选被尤其有效地使用:
-取整误差相互独立地添加到多个相邻值。
-相邻值是(从最广的意义上)时间信号,该时间信号后来通过变换被转换为谱表示,即被转移到频率范围中。
在下文中,将更详细地介绍在整数MDCT的那些部分中优选地使用取整误差的频谱整形。
第一优选应用情况在于本来的变换之前的加窗,即对于图3中通过方框20、24、28所指定的取整。通过图7中所示的图表也可以表示提升运算,如其受到每个单一初始采样值x1,……,xn的那样,以及其借助于图3所概述的那样。在这里,三个提升矩阵的应用-即分别与采样值的因数相乘-被通过采样方式表示,从而使得得到“从上到下”、“从下到上”以及“从上到下”的序列。
对于图7中的标记,应该注意,当箭头与水平线相接时,在那里进行加法运算。例如图7中的27示出了这种加法运算。如果将图4与图7比较,则唯一的区别是图4中的x(0)对应图7中的x1。在这方面,图7中的xN对应图4中的x(N-1)。然而,图4中的x(N/2-1)对应图7中的xN/2。此外,图4中的x(N/2)对应图7中的xN/2+1,从而使得得到图4中所示的蝶式,通过该蝶式,根据提升步骤以窗口第二象限的一个值对窗口第一象限的一个值进行加权,而类似地,通过“下-上-下分类”,以窗口第四象限的一个值对窗口第三象限的一个值进行处理,如图7所示。
相应地,对一对值xN/2和xN/2+1进行相应的运算过程。这里又存在下-上-下顺序,其中下步骤29a后面是上步骤29b,上步骤29b后面又是下步骤29c。
因此,图7示出通过提升的整数加窗。该计算也可以重新排列,而在不改变结果,如图8所示。因此,当然可以首先执行所有向下步骤(所有步骤29a)。然后可以执行所有向上步骤(29b),以便最终执行所有向下步骤29c,从而使得得到向下方框31a、向上方框31b、以及又一向下方框31c。要注意的是,图8与图7相对应,但是是适合于理解本发明的另一表示。
现在,图9示出其中执行具有频谱整形的取整的设计。图9中所示的提升计算设计在以下方面对应于图1:即输入值x1,xN/2表示在输入端200的整数离散值初始序列。下方框31a中的评估方框cs1、cs2、……,csk一起构成控制装置202。由[.]/噪音整形所表示的方框表示图1的取整装置204。现在,在该方框204的输出端得到取整后的控制后的值的含误差序列。
在图9所示的实施例中,含误差的取整后的控制后的值的序列与另一序列xN/2+1到xN相加,以便得到新的整数离散值序列,该新的整数离散值序列又(通过上方框31b中的方框s1,sk)被控制,以便然后通过元件204b实现上方框31b中的取整。然后,如下方框31a中那样,即如在加法器205a的情况中一样,又设置值方式的加法器205b以便得到新的序列,该新序列又被提供给控制器202c,其中控制器202c的输出信号是非整数的,并且在另一取整器204c中被取整,以便又通过另一加法器205c相加,即与提供给控制器202b的序列相加。
在图9中所示的实施例中,在输出侧得到加窗后的采样值的块,该块分类-如借助于图4所示的那样-被提供给相应移动的DCT-IV方框。这些移动的DCT方框提供一种变换,以便将取整后的控制后的值的含误差序列转换为谱表示。因此,图4中的DCT-IV方框表示图1的装置206的实现。类似地,执行逆整数DCT-IV的方框表示用于转换为时间表示的模拟装置。
以下参照图10到15对多维提升的应用进行讨论,以便提出用于变换为图10a的谱表示206的装置的整数实现或逆变换(用于解码器)的模拟整数实现。多维提升的设计在申请号为10331803.8的德国专利申请中提出。
图10a示出用于将离散值转换为具有整数值的变换后的表示的一种装置。离散值通过第一输入端100a以及通过第二输入端100b被提供给装置。通过输入端100a提供第一块离散值,而第二块离散值通过输入端100b被提供。离散值表示音频数据或图像数据或者视频数据。正如下文中所讨论的,第一块离散值和第二块离散值实际可以包括两个时间连续的音频采样值块。第一和第二块离散值还可以包括两个通过离散值表示的图像或预测后的残余值或者差分编码中的差值等等。可选地,这两块离散值可以经过预处理,如例如在MDCT的整数实现中那样,在那里,根据实际加窗后的采样值通过Givens旋转产生第一和第二块离散值。因此,第一和第二块离散值可以通过初始音频数据或图像数据的任何处理-例如旋转、置换、正/负蝶式、换算(Skalierung)等等-而被导出。虽然第一和第二块离散值并不直接是音频采样值或离散图像值,但是它们仍然获得音频信息或图像信息。
第一块离散值通过输入端100a被提供给装置102,其中装置102用于利用第一变换规则处理第一块离散值,以便在装置102的输出端得到第一块变换后的值,如图10a所示。该第一块变换后的值通常不是整数的,而是包括浮点值,如其通常通过任何变换规则-例如傅立叶变换、拉普拉斯变换、FFT、DCT、DST、MDCT、MDST、或任何其它变换-例如具有任意基函数的小波变换-所获得的那样。第一块变换后的值被提供给装置104,其中装置104用于对第一块变换后的值进行取整,以便在输出侧得到第一块取整后的变换后的值。取整装置104被构造,以便执行任何取整函数,例如截断取整或者根据浮点值执行的向上取整或向下取整,等等。
因此,装置104所实现的取整规则负责第一块取整后的变换后的值又只包含整数值,这些整数值的准确度是由装置104所使用的取整规则来确定。第一块取整后的变换后的值-同样如位于第二输入端100b的第二块离散值一样-被提供给加法装置106,以便得到第二块总和值。如果观察音频信号实例,则可以看到,来自第一块取整后的变换后的值的谱值通过装置106与来自第二块离散值的时间值相加。如果第二块离散值例如是电压值,则第一块取整后的变换后的值同样是以电压辐值的形式存在,即单位为V的数值。在这种情况下,在求和中不会出现单位问题。但是,对于本领域技术人员来说,显然通过第一块取整后的变换后的值或第二块离散值可以如下进行任何单位归一化,即第一块取整后的变换后的值和第二块离散值例如是没有单位的。
第二块总和值被提供给装置108,其中装置108是用来利用第二变换规则处理第二块总和值,以便得到第二块变换后的值。如果装置102中所使用的变换规则例如是时间-频率变换规则,那么用于方框108的第二变换规则就是例如频率-时间变换规则。但是,该关系也可以颠倒过来,使得第一和第二块离散值是例如谱值,从而使得通过利用变换规则进行处理的装置102获得时间值,而又通过借助逆变换规则进行处理的装置-即装置108-获得谱值。因此,第一和第二变换规则可以是正变换规则或反变换规则,其中逆变换规则是反变换规则或正变换规则。
第二块变换后的值被提供给取整装置110,如图10a所示,以便获得第二块取整后的变换后的值,其中第二块取整后的变换后的值最后被提供给减法装置112,以便将第二块取整后的变换后的值从通过第一输入端108a提供的第一块离散值中减去,以得到可以在输出端114输出的变换后的表示的整数输出值块。通过利用也被用于装置102中或与其不同的任何第三变换规则对变换后的表示的整数输出值块进行处理,并且通过随后对变换后的输出值块进行取整以便获得取整后的变换后的输出值块,并且然后通过将取整后的变换后的输出值块与第二块总和值相加求和,可以得到变换后的表示的另一整数输出值块,其中所得到的变换后的表示的另一整数输出值块与位于输出端114的整数输出值块提供第一和第二块离散值的完整的变换后的表示。
但是,即使没有最后的处理、取整和相加三个步骤,其中在这些步骤中使用输出端114处的变换后的表示的整数输出值块,也已经可以得到整个变换后的表示的一部分,即例如第一半部分,其中如果该部分经受逆处理,则其使得能够进行第一和第二块离散值的反向计算。
在这一点上,要注意的是,根据变换规则,第一、第二和第三(若有的话)变换规则可以是相同的。例如在DCT-IV中是这种情况。如果FFT被用作第一变换规则,那么与FFT不相同的IFFT可以被用作第二(逆)变换规则。
由于计算方面的原因,优选提供矩阵形式的变换规则,如果第一块离散值数目等于第二块离散值数目,并且分别为N,则该矩阵形式的变换规则就是N×N方矩。
在一个实施例中,取整装置104和110被构造,以便根据取整函数进行取整,该取整函数提供精度小于执行图10a中所示的功能性的固有机器精度的取整后的结果。关于取整函数,要注意的是,该函数只在一个优选实施例中将非整数数字映射成为下一个更大或更小的整数。只要取整函数实现了待取整数字准确度的降低,取整函数就可以也正确地映射成其它整数,例如数字17.7映射成数字10或数字20。在上面的实例中,未取整数字是逗号后面有一位的数字,而取整后的数字是逗号后面没有位的数字。
虽然在图10a中,通过使用第一变换规则进行处理的装置102和通过使用第二变换规则进行处理的装置108被显示为分开的装置,但是要注意的是,在具体实现中,可以只存在一个变换函数单位,该变换函数单位在由特定时序控制下首先对第一块离散值进行变换,然后在算法的相应时间点对第二块总和值进行逆变换。于是,第一和第二变换规则是相同的。这同样适用于两个取整装置104、110。它们同样不需要被设置为分开的装置,而是可以通过一个取整函数单位来实现,其中又在时序控制下根据算法的要求首先对第一块变换后的值进行取整,然后对第二块变换后的值进行取整。
在一个实施例中,第一块离散值和第二块离散值是整数的加窗后的采样值,如在图3中方框28的输出端上所得到的那样。然后,通过图1中所示的整数算法这样执行图3的方框14中的整数DCT,从而使得图3所涉及的音频信号实例的变换后的表示表现了图3中所示的装置的输出端30处的整数谱值。
以下,参照图10b对图10a所对应的用于逆转换的装置进行图解,其中除了图10a中方框112输出端上的整数输出值块之外,还使用图10a中装置106的输出端上的第二块总和值。参照下文中将要更详细说明的图11,这与这样一种情况相对应,即只存在方框150和130,而没有变换方框124。
图10b示出一种装置,该装置用于对变换后的表示的整数输出值块-如其在图10a的输出端114上所得到的-以及第二块总和值进行逆变换。第二块总和值被提供给图10b中所示的用于逆变换的装置的输入端120。变换后的表示的输出值块被提供给用于逆变换的装置的另一输入端122。
如果最后用于编码的变换规则是第二变换规则,那么第二块总和值被提供给通过利用第二变换规则来处理该块的装置130。装置130在输出侧提供第一块变换后的值,该第一块变换后的值被提供给取整装置132,取整装置132又在输出侧产生第一块取整后的变换后的值。然后第一块取整后的变换后的值借助装置134而从变换后的表示的输出值块中减去,以便在图10b的装置的第一输出端149处获得第一块离散值。
该第一块离散值被提供给通过利用第一变换规则来处理该块的装置150,以便在装置150的输出端获得第二块变换后的值。该第二块变换后的减去后的值又在装置152中被取整,以便得到第二块取整后的变换后的值。该第二块取整后的变换后的值从在输入侧提供的,通过输入端120输入的第二块总和值中减去,以便在输出端136获得第二块离散值。
关于第一、第二和第三变换规则的关系,以及关于通过一般函数单位和相应时序控制/中间存储具体实现图10b中的各个函数块,参看所给出的关于图10a的讨论。
以下参照图10c,描述用于转换为变换后的表示的图10a中一般表示的装置的一个优选实施例。图10a中的实施例与图10a相比较包括另一变换/取整,以便根据第二块总和值产生另一块整数输出值。
第一输入端100a包括N条输入线x0,……,xN-1,用于输入第一块离散值的N个值。第二输入端100b也包括N条线,用来输入第二块离散值的N个值xN,……,x2N-1。图10a的装置102在图10c中被表示为DCT-IV变换器。DCT变换器102被构造,以便根据N个输入值产生N个输出值,然后通过以“[.]”表示的取整规则对每个输出值进行取整,如图10c中通过装置104所示。这样表示求和装置106,使得进行值方式的求和运算。这就意味着,下标为0的装置102的输出值与第二块离散值中下标为N的第一值相加。一般地,因此,取整装置104输出端的第一块取整后的变换后的值中序数为i的值分别与第二块输出值中序数为N+i的离散值相加,其中i是从0到N-1的变量。
通过利用第二变换规则进行处理的装置108也同样被表示为DCT-IV变换器。在图10c中所示的优选实施例中,减法装置112被构造,以便执行值方式的减法,即取整器110的输出值-即第二块取整后的变换后的值中的值从第一块离散值中减去。在图10c中所示的实施例中,优选进行相应的减法,即第二块中序数为N+i的值被从第一块中序数为i的值中减去,其中i又从0到N-1。可选地,但是也可以执行其它求和/减法,即例如块中序数为N-1的值被从另一块中序数为N的值中减去,只要这在逆变换中得到相应地考虑。
减法装置112已经在输出侧提供了变换后的表示的整数输出值块,即变换后的表示的整数输出值y0到yN-1。为了如果在可选希望的情况下也获得变换后的表示的剩余整数输出值-即另一块yN到y2N-1,则位于输出端114的变换后的表示的整数输出值的块通过正变换器140受到利用第三变换规则进行的变换,其中其输出值又被取整,如取整装置142所示,以便将这些值与加法器106输出端的第二块总和值相加,如图10c中参考数字144所示。加法器144的输出值表示变换后的表示的整数输出值的另一块146,其中这些整数输出值以yN到y2N-1表示。
以下参照图11介绍根据一个实施例用于对变换后的表示进行逆变换的装置。要注意的是,图10c中所示的装置所执行的运算被图11中所示的装置无损耗地反向。除了用来根据另一块变换后的输出值产生第二块总和值的附加变换/取整级以外,图11对应于图10b,其中所产生的第二块总和值在图10b中所示的实施例中被提供给输入端120。要注意的是,加法器的功能分别被减法函数反转。还要注意的是,也可以向加法器/减法器对(图10c的144和图11中的128)提供关于符号反向的输入量,使得如果与图示的情况相比较,提供一组带负号的输入量,则加法器144实际执行减法运算,只要这在实际进行加法运算的对应情形(图11中的128)中被考虑。
图11中所示的减法器128、加法器134以及另一减法器154被构造,以便执行单个值方式的加法/减法,其中又使用与参考图10c所示的相同的序数处理。如果在图10c中使用与图示不同的序数应用,则这就将在图11中得到相应地考虑。
在减法器134的输出端,已经有第一块离散值136,该第一块离散值被表示为x0到xN-1。为了也获得其余的反变换后的表示,第一块离散值被提供给以第一变换规则工作的变换器150,该变换器150在输出侧的值被取整器152取整,并且从减法器128输出端的第二块减去后的值中减去,以便最后得到第二块离散值156,该第二块离散值被表示为xN,……,x2N-1
以下参照图12-15介绍用于借助图10a、10b、10c和11中所描述的装置的数学背景。通过所图解的变换装置或逆变换装置,提供无损耗音频编码的整数变换方法,其中近似值误差得到减少。此外,还考虑计算消耗,即不再以将提升方案应用到每个Givens旋转的已知解决方案为基础,其中这里总是出现无意义的和-差蝶式。与要模拟的初始非整数版本相比较,这会大大增加计算消耗。
通常使用提升方案,以便获得Givens旋转的可逆整数近似。
cos α - sin α sin α cos α ≅ 1 cos α - 1 sin α 0 1 1 0 sin α 1 1 cos α - 1 sin α 0 1
该整数近似通过以下方式实现,即在每次加法运算之后,也就是在每个提升步骤之后,使用取整函数。
提升方案同样可用于特定换算运算的可逆整数近似。在专业文献R.Geiger和G.Schuller的“Integer low delay and MDCT filter banks”,Proc.of the Asilomar Conf.on Signals,Systems and Computers,2002中,对行列式等于1的2×2换算矩阵的下列提升分解进行了讨论和说明:
d 0 0 d - 1 = - 1 0 d - 1 1 1 - d 0 1 0 1 1 d - 1
一维的-即只涉及2×2换算矩阵-的该提升分解被扩展到多维的情况。特别地,上面等式中的所有值可以被替换为n×n矩阵,其中n-即块中离散值的数目-大于或等于2。因此,得到,对于优选应为可逆的每个任何n×n矩阵T,可以进行下面的2n×2n分块矩阵的分解,其中En表示n×n单位矩阵:
T 0 0 T - 1 = - E n 0 T - 1 E n E n - T 0 E n 0 E n E n T - 1
除了简单的运算之外,如置换或与-1相乘,该分解的全部三个分块具有下列通用结构:
E n 0 A E n
对于该2n×2n分块矩阵,可以使用一般的提升方案,其中该一般的提升方案在后面也被称为多维提升。
对于值x=(x0,……,x2n-1)的向量,该分块矩阵的应用提供了下列等式:
E n 0 A E n ( x 0 , . . . . . . , x 2 n - 1 ) ′ = ( ( x 0 , . . . . . . , x n - 1 ) , ( x n , . . . . . . , x 2 n - 1 ) + A · ( x 0 , . . . . . . , x n - 1 ) ′ )
要注意的是,在上述等式的右侧,有一个向量,该向量的维数-即其列数-等于2n。前n个元素-即从0到n-1的元素-对应于xn到xn-1相对应。后n个元素-即在上述等式右侧所得到的向量的后半部分-等于第二块离散值-即xn,……,x2n-1-的总和,但是现在与图10a,10b,10c和11的变换矩阵相对应的矩阵A和第一块离散值x0,……,xn-1的乘积相加。变换矩阵表示第一,第二或第三变换规则。
与具有下列形式的2×2矩阵的常规提升方案相似
1 a 0 1
该2n×2n矩阵可以如下地被用于变换T的可逆整数近似。对于整数输入值(x0,……,x2n-1),浮点输出值(y0,……,yn-1)=A·(x0,……,xn-1)在与整数值(x0,……,x2n-1)相加之前被取整,也就是成为整数值。分块矩阵的逆矩阵如下:
E n 0 A E n - 1 = E n 0 - A E n
因此,可以在没有误差的情况下将该过程逆反,通过以下方式:简单地使用相同的矩阵A和相同的取整函数,并且现在通过对所的到的值进行减法运算,而不是正向处理中的加法运算。图13中图解了正向处理,而在图14中图解了反向处理。要注意的是,图13中的变换矩阵与图14中的变换矩阵相同,这出于实现简易的原因是优选的。
由于数值(x0,……,xn-1)在图13中所示的前向步骤中不被修改,所以它们对于逆步骤,也就是图14中的反向步骤,也存在。要注意的是,对矩阵A没有特殊的限制。因此,其没有必要必须可逆。
为了获得已知MDCT的可逆整数近似,在第一级中,其中该级是加窗级,以及在后面的DCT-IV级中,MDCT被分解成Givens旋转。该分解在以下还介绍的图3中被讨论,并且在DE 10129240 A1中对其进行详细描述。
与现有技术-其中DCT-IV被分解成为多级Givens旋转-不同,变换本身保持不变,并且随后要被取整。
因此,众所周知地,通过多级基于提升的Givens旋转执行DCT-IV的整数近似。通过基本使用的快速算法确定Givens旋转的数目。因此,对于长度为N的变换,Givens旋转的数目是O(N log N)。每个MDCT分解的加窗级仅包括N/2个Givens旋转或3N/2个取整步骤。因此,特别在高的变换长度中,如其在音频编码应用中使用的(例如1,024),DCT-IV的整数近似提供了近似值误差的主要分量。
该方法利用所描述的多维提升方案。因此,DCTIV中取整步骤的数目被减少到3N/2,即等于加窗级中的取整步骤数目,即与基于提升的常规方法中大约2N个log2N个取整步骤相比较。
DCT-IV同时被应用到两块信号中。图12中图解了这样一种可能性,其中例如两个时间连续块采样值受到DCT-IV,但是,经受这两个变换的两个块也可以是多信道信号的两个信道的采样值。
上述多维提升等式的分解被应用到可被认为是N×N矩阵的变换规则中。由于逆变换尤其在DCT-IV中又是DCT-IV,所以得到用于图12中所示设计的下列分解:
DCT IV 0 0 DCT IV = - E N 0 DCT IV E N E N - DCT IV 0 E N 0 E N E N DCT IV
与-1相乘的置换可以被提取为一些分块矩阵,使得得到下列分解:
DCT IV 0 0 DCT IV = - E N 0 0 E N E N 0 DCT IV E N E N - DCT IV 0 E N E N 0 DCT IV E N 0 E N E N 0
因此,变换在两块信号-即在两块离散值-上的应用可以通过优选三个多维提升步骤来实现:
E N 0 DCT IV E N E N - DCT IV 0 E N E N 0 DCT IV E N
在图10c中,借助一个实施例图解了上面的等式。正如所讨论的,图11中相应地图解了逆变换。
通过使用该方法,可以通过可逆的方式实现长度为N的两个DCT-IV变换,其中只需要3N个取整步骤,即每个变换3N/2个取整步骤。
三个多维提升步骤中的DCT-IV可以有任何实现方式,也就是,例如基于浮点或基于定点的实现。它不必须是可逆的。只需要在正向和反向处理中完全以相同的方式执行。这导致,该设计适用于高变换长度,如例如1,024,如其在当前音频编码应用中使用的那样。
总计算复杂性等于两个DCT-IV变换的非整数实现的计算复杂性的1.5倍。该计算复杂性仍然大大低于基于提升的常规整数实现的计算复杂性,其中基于提升的常规整数实现的计算复杂性大约是常规DCT-IV的两倍,因为这些实现必须利用基于所使用的提升方案的无意义的正/负蝶式,以便实现能量守恒,如R.Geiger,T.Sporer,J.Koller和K.Brandenburg在111th AES Convention,New York,2001的“Audio Coding based on Integer Transforms”中所描述的。
所示方法将同时,即在一个变换内,计算至少两个DCT-IV变换。这可以通过例如,为两个连续块音频信号或图像信号的两个连续图像计算DCT-IV变换来实现。在双信道立体声信号的情况中,这也可以通过在一个变换作用或逆变换作用中计算左右信道的DCT-IV来实现。第一型式向系统内引入一个块的附加延时。第二型式对于立体声信道或一般而言对于多信道信号是可能的。
可选地,如果两个选项都不是希望的,但是如果应该保持N个值的标准块处理长度,那么长度为N的DCT-IV也可以被分解为长度为N/2的两个DCT-IV变换。关于这一点,参看Y.Zeng,G.Bi和Z.Lin,在2001年5月的Proc.ICASSP’01,第1181-1184页的“Integersinusoidal transforms based on lifting factorization”,其中对该分解进行了讨论。除了长度为N/2的两个DCT变换以外,还需要一些附加的Givens旋转级。在该算法中,还使用分块矩阵
E N / 2 - E N / 2 E N / 2 E N / 2 ,
即N/2个正/负蝶式、具有N/2个Givens旋转的分块对角矩阵以及另外一些置换矩阵。通过使用这些附加级的N/2个Givens旋转,多维提升法还可以用于只计算长度为N的DCT-IV。图15中图解了该算法的基本结构,其中除了其中使用长度为N/2的两个DCT-IV变换的本来变换级以外,首先要有蝶式级,以便计算第一和第二块离散值,但是现在该第一和第二块离散值的长度只有N/2。还要在输出侧设置旋转级,以便根据变换后的表示的输出值块和变换后的表示的另一输出值块得到输出值y0,……,yN-1,其中然而变换后的表示的输出值块和另一输出值块现在都只有N/2个值,输出值y0,……,yN-1等于图12的DCT-IV运算的输出值,如其在比较图15与图12的输入侧和输出侧下标中所看到的那样。
到现在为止,只讨论了多维提升在下列形式的分块矩阵中的应用。
T  0
0  T-1
但是,同样可以将其它分块矩阵分解为多维提升步骤。例如,可以使用下列分解,以便通过三个多维提升步骤来组合具有归一化正/负蝶式的级与两块DCT-IV变换:
1 2 E N E N - E N E N DCT IV 0 0 DCT IV = 1 2 DCT IV 1 2 DCT IV - 1 2 DCT IV 1 2 DCT IV =
E N 0 E N - 2 DCT IV E N E N 1 2 DCT IV 0 E N E N 0 E N - 2 DCT IV E N
从上式中可见,在上式左侧括弧中使用的第一变换规则以及在上式中间括弧中使用的第二变换规则以及在上式最后括弧中使用的第三变换规则没有必要是相同的。此外。从上式中可见,不仅只包含主对角元素的分块矩阵可以被分解,而且全部占满元素的矩阵也可以被处理。此外,要注意的是,没有这些方面的限制,即用于变换为变换后的表示的变换规则必须是相同的,或者相互之间必须要有联系,使得例如第二变换规则是第一变换规则的反变换规则。就基本上可以使用互不相同的三个变换规则,只要这在逆表示中得到考虑。
关于这一点,再次参照图10c和11。在将离散值变换为变换后的表示中,可以构造装置102,以便实现任意变换规则1。此外,同样可以构造装置108,以便使用被称为变换规则2的任何其它变换规则或相同变换规则。还可以构造装置140,以便使用一般任意的变换规则3,其中变换规则3没有必要必须与第一或第二变换规则相同。
但是,在变换后的表示的逆向变换中,必须建立对图10c中所讨论的变换规则1到3的匹配,即第一变换装置124不执行任何变换规则,而是执行图10c的方框140中所执行的变换规则3。相应地,图11中的装置130必须执行由图10c中方框108所执行的变换规则2。最后,图11中的装置150必须执行由图10c的装置102所执行的变换规则1,从而获得无损耗的逆变换。
图16示出了图10c所描述的设计的修改。特别地,正变换的元件104,110,142中的取整,或者反变换中的元件126,132,152中的取整不再以采样值方式执行,而是这样执行,使得进行取整误差的频谱整形。
在比较图10c与图16时可见,优选只将方框104替换为方框204a,并且使用方框204b来代替取整方框110。情况正是如此,因为当随后在频率范围内进行变换时,该设计是特别有利的,其中如果不执行频谱整形,则取整误差的白噪音会成为问题。由于在取整之后没有频率变换,所以方框142中的频谱整形将不再有优势。但是,这是方框204a的情况,因为通过方框108中的变换又进行频率变换。因此,方框204b中的频谱整形同样是有利的,因为通过最后的方框140又进行变换。但是,正如参照图16所看到的,噪音整形后的取整误差已经进入到输出方框114,使得在方框204b中,已经可以进行通常取整,如图10c中方框110所示,来代替取整误差的频谱整形。
在第二变换-即变换108-的末端是被频谱整形地取整还是通常的取整,即带有具有白频谱分布的取整误差,取决于具体应用情况。
因此,一定数目,例如k个值的独立取整被具有频谱整形的取整代替,其中具有频谱整形的取整也可以被称为“相关取整”。
从上文中参照图16进行的讨论中可见,取整误差的频谱整形同样也可用于IntMDCT所必需的整数DCT。然而,正如所讨论的,在这里必须注意,通过误差反馈的频谱整形只在下列情况中特别有利的,即待取整的值是通过另一变换步骤被转移到频率范围中的时间信号。因此,正如根据图16中的多维提升所说明的,频谱整形在前两个步骤中是有利的,但是在第三个步骤中不再一定有利。
要注意的是,图16示出了编码器的对应于图10c的情况。与图16对应的解码器情况直接源自图16和图11的比较。与图16直接对应的解码器起因于图11,即除了两个取整方框132,152以外,所有方框都以相同的方式工作。在图11中,这两个取整方框作为独立取整方框工作,并且在解码器中被替换为相关取整方框204a,204b,其中相关取整方框204a,204b都具有例如图2c中所示的结构。特别要注意的是,在编码器中,与编码器中使用完全相同的频谱整形取整算法。
图2b和2c中所示的设计,特别是对于H(z)=“-1”,还特别适合于实现根据本发明的取整误差的降低,并且尤其实现整数变换中取整误差的降低。
根据本发明,如果两个浮点值被取整,并且与同一值,而不是与不同值相加,则取整误差的这种降低总是可能的。图17中图解了这样一种示例性情况。这里,首先存在具有包括提升元素x1和x3之间下-上-下的序列的第一提升步骤。还有具有包括下-上-下的已知序列的第二提升序列,但是现在具有提升元素x2和x3。特别地,在第一提升运算中获得的值x3被用于在第二提升步骤中用作为相加对象,如在图17中所见的。还要注意的是,当箭头到达水平线时,这就表示加法运算。换句话说,刚被取整的值因此与水平线所对应的值相加。
具体地,在图17所示的实例中,值x1首先被加权(方框250),然后被单独地取整(方框252)。方框252的输出信号与x3相加(方框254)。然后加法运算254的结果又被加权(方框256)和又被取整(方框258)。现在该取整258的结果与x1相加(260)。加法运算260的结果又被加权(方框262)和取整(方框264),以便与x3的当前值相加(到方框266)。相应地,值x2通过方框270被加权,然后通过方框272被取整。方框272的结果与x3的当前值相加(274)。然后又被加权(276)和取整(278),以便将方框278的结果又与x2的当前值相加(280)。该加法运算280的结果又被加权(方框282),并且对加权后的结果进行取整(方框284),以便然后又将取整方框284的结果与x3的当前值相加(方框286),从而得到x3的结果值。从图17可见,首先第一值,即方框262的结果,被取整,然后与x3相加。此外,第二值,即方框270的结果,同样被取整(方框272),然后与值x3相加(加法器274)。出现这样的情况,即两个浮点值相继被取整,并且与同一值,而不是与不同值相加。在图17所示的实例中,第三和第四提升步骤的结果与同一值,即x3,相加,加法运算是通过取整函数[.]来进行的:
[x1·cs1]+[x2·cs2]
如果第三提升步骤在取整时的误差被提供给第四提升步骤,则在这种情况下可以使用第三步骤的误差,并且只产生一个取整误差,而不是两个取整误差。根据计算,通过下列等式得到它:
[x1·cs1]+[x2·cs2+(x1·cs1-[x1·cs1)]=[x1·cs1]+[x2·cs2+x1·cs1]
-[x1·cs1]=[x2·cs2]+[x1·cs1]
因此,根据计算,在这种情况中将取整误差提供给下一取整步骤,是与值的加法运算和随后的取整相同的。图18中图解了这种情况,其中图18与图17相对应,然而两个分开的取整方框264,272以及两个分开的加法器266,274被方框268替代,其中方框268被构造,以便执行上述等式。因此,两个方框262和270的结果首先以未取整的形式相加,然后被取整。因此,在有利的情况中,取整误差被减小直到一半。在方框268的输出端,现在只产生一个值,该值通过加法器269与x3相加。
例如,如图19所示,当一组Givens旋转和多维提升步骤互相跟随时,同样可以实现取整误差的降低与整形的结合。在这里,只作为实例地,用值x1到x4执行用于多个值的下-上-下序列的最后一步,也就是例如图9的下步骤31c。这些值现在要与相应值相加,图16中取整后的值,即方框204a输出端的值,也要与上述相应值相加。在这种情况中,优选首先将未取整的值相加,即通过图19中所示的加法器203,以便然后在图19的方框204中对相加后的值取整,同时执行噪音整形,使得只得到一个简单的取整误差,并且输出值在通过加法器106进行的加法运算之后包含较小的误差。如果将图9放置在图16的左侧,并且尤其是如果使用N/2个值的DCT-IV来代替N个值的DCT-IV,则得到图19中的情况。
因此,根据本发明,优选将取整误差的降低与取整误差的整形结合起来。因此,在降低取整误差的情况中,多个输入值被处理并且被一起取整,其中取整后的值与一个值相加,而在取整误差的频谱整形的情况中,取整后的值相互独立地被取整,并且与多个分别不同的其它值相加。
还要注意的是,如图15所示,如果使用N/2个DCT,则也可能出现图19中的情况。在这里,在变换级之前,即在两个DCT方框之前,存在在图15中被表示为蝶式级的级,其中输入值x0到xN/2-1被相应地加权和取整,以便然后与相同的值相加,DCT-IV级的值也与上述相同的值相加。还要注意的是,图15中只示意性表示变换级。如果在图16中,描述xN/2-1而不是xN-1,并且如果不介绍xN/2,并且如果介绍xN-1而不是xN/2-1,那么图15中所示意性表示的两个DCT-IV方框在实际实现中被图16中所示的部件所代替。
因此,图19示出了尤其对于单一应用有利的实现,即对于这样的情况,其中要使用N/2个DCT-IV。
根据情况,根据本发明的取整方法可以在硬件或在软件中实现。实现可以在数字存储介质,特别是具有可电子读出的控制信号的软盘或CD中实现,其中数字存储介质可以与可编程计算机系统合作,从而执行本方法。因此,一般地,本发明也在于一种计算机程序产品,其具有被存储在机器可读载体上的程序代码,该程序代码用于当计算机程序产品在计算机上运行时执行根据本发明的方法。换句话说,本发明也是一种计算机程序,其具有用于当计算机程序在计算机上运行时执行方法的程序代码。

Claims (13)

1.用于处理至少两个输入值的设备,包括:
用于提供第一非整数输入值和第二非整数输入值的装置(202;250,252,254,256,258,260,262);和
用于组合所述第一输入值和所述第二输入值以获得非整数结果值、并且用于对所述结果值取整以获得取整后的结果值的装置(268)。
2.如权利要求1所述的设备,其中所述用于组合的装置被构造,以便形成加和或差值。
3.如权利要求1或2所述的设备,其中所述第一和第二输入值是包含音频和/或视频信息的离散值。
4.如前述权利要求中任一项所述的设备,还包括:
用于将所述结果值与第三输入值耦合以获得输出值的装置(269)。
5.如权利要求4所述的设备,其中所述用于耦合的装置(269;104)被构造为加法器或减法器。
6.如权利要求4或5所述的设备,其中所述第三输入值是整数输入值,使得所述输出值也是整数值。
7.如前述权利要求中任一项所述的设备,
其中所述提供装置被构造,以便通过第一和第二提升步骤以及随后的加权(262),根据第一原始值和第三值(x3)生成所述第一输入值,以及通过加权(270)根据原始第二输入值(x2)生成所述第二输入值。
8.如权利要求7所述的设备,进一步被构造,以便将所述整数结果值加到由提升运算修改的第三输入值,并以所述由提升运算修改的第三输入值和所述第二输入值执行旋转的第二和第三提升步骤。
9.如前述权利要求中任一项所述的设备,
其中所述提供装置被构造,以便加权第一原始值以获得所述第一输入值,并通过变换根据所述原始第一值(x1)所属于的原始输入值序列计算所述第二输入值。
10.如权利要求9所述的设备,还包括用于将所述整数输入值与作为通过第一变换规则(102)处理的序列的一部分的另一输入值相加以获得通过第二变换规则处理的另一序列的值的装置(106),其中所述第一变化规则与所述第二变换规则是定义第一和第二多维提升步骤的变换规则。
11.用于处理至少两个输入值的方法,包括以下步骤:
提供(202;250,252,254,256,258,260,262)第一非整数输入值和第二非整数输入值;和
组合(268)所述第一输入值和所述第二输入值,以便获得非整数结果值,并对所述结果值取整,以便获得取整后的结果值。
12.如权利要求11所述的方法,其中在所述组合步骤之后,执行以下步骤:
耦合(269)所述结果值与第三整数输入值,以便获得整数输出值。
13.具有程序代码的计算机程序,其中所述程序代码用于当所述程序在计算机上运行时执行根据权利要求11所述方法。
CNB2004800287114A 2003-10-02 2004-09-28 用于处理至少两个输入值的装置和方法 Active CN100435137C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10345996.0 2003-10-02
DE10345996A DE10345996A1 (de) 2003-10-02 2003-10-02 Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten

Publications (2)

Publication Number Publication Date
CN1864158A true CN1864158A (zh) 2006-11-15
CN100435137C CN100435137C (zh) 2008-11-19

Family

ID=34399212

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004800287114A Active CN100435137C (zh) 2003-10-02 2004-09-28 用于处理至少两个输入值的装置和方法

Country Status (16)

Country Link
US (1) US7873227B2 (zh)
EP (1) EP1654674B1 (zh)
JP (1) JP4328805B2 (zh)
KR (1) KR100804053B1 (zh)
CN (1) CN100435137C (zh)
AT (1) ATE364206T1 (zh)
AU (1) AU2004278829B2 (zh)
BR (1) BRPI0415152B1 (zh)
CA (1) CA2540581C (zh)
DE (2) DE10345996A1 (zh)
DK (1) DK1654674T3 (zh)
HK (1) HK1086367A1 (zh)
IL (1) IL174318A (zh)
NO (1) NO334930B1 (zh)
RU (1) RU2323469C2 (zh)
WO (1) WO2005033965A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103460287A (zh) * 2011-04-05 2013-12-18 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序、记录介质
CN109408427A (zh) * 2017-08-18 2019-03-01 龙芯中科技术有限公司 一种跨时钟域数据处理方法及系统

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214200B2 (en) * 2007-03-14 2012-07-03 Xfrm, Inc. Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid
EP2063417A1 (en) 2007-11-23 2009-05-27 Deutsche Thomson OHG Rounding noise shaping for integer transform based encoding and decoding
US8447591B2 (en) 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
MX2011000366A (es) 2008-07-11 2011-04-28 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar muestras de audio.
RU2523035C2 (ru) * 2008-12-15 2014-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудио кодер и декодер, увеличивающий полосу частот
PT2359366T (pt) 2008-12-15 2017-01-20 Fraunhofer Ges Forschung Codificador de áudio e descodificador de extensão de largura de banda
EP3764356A1 (en) * 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
CA2774555A1 (en) 2009-09-25 2011-03-31 Glaxosmithkline Biologicals S.A. Immunodiffusion assay for influenza virus
WO2011085483A1 (en) 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
EP2645365B1 (en) * 2010-11-24 2018-01-17 LG Electronics Inc. Speech signal encoding method and speech signal decoding method
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
BR112013020587B1 (pt) 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
WO2012110415A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012110478A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
KR101748760B1 (ko) 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
CN110232929B (zh) * 2013-02-20 2023-06-13 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9094033B1 (en) 2015-01-23 2015-07-28 Pmc-Sierra Us, Inc. Quantization noise-shaping device
US10743025B2 (en) * 2016-09-01 2020-08-11 Lg Electronics Inc. Method and apparatus for performing transformation using layered givens transform

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757659B1 (en) * 1998-11-16 2004-06-29 Victor Company Of Japan, Ltd. Audio signal processing apparatus
DE10129240A1 (de) * 2001-06-18 2003-01-02 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten
JP2003108248A (ja) * 2001-09-27 2003-04-11 Alpine Electronics Inc 操作装置
US7076108B2 (en) * 2001-12-11 2006-07-11 Gen Dow Huang Apparatus and method for image/video compression using discrete wavelet transform
CN1154084C (zh) * 2002-06-05 2004-06-16 北京阜国数字技术有限公司 一种基于伪小波滤波的音频编/解码方法
US8126950B2 (en) * 2003-09-29 2012-02-28 Agency For Science, Technology And Research Method for performing a domain transformation of a digital signal from the time domain into the frequency domain and vice versa
DE10345995B4 (de) 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103460287A (zh) * 2011-04-05 2013-12-18 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置、程序、记录介质
CN103460287B (zh) * 2011-04-05 2016-03-23 日本电信电话株式会社 音响信号的编码方法、解码方法、编码装置、解码装置
CN109408427A (zh) * 2017-08-18 2019-03-01 龙芯中科技术有限公司 一种跨时钟域数据处理方法及系统

Also Published As

Publication number Publication date
IL174318A0 (en) 2006-08-01
US20070196022A1 (en) 2007-08-23
NO334930B1 (no) 2014-07-14
JP2007508605A (ja) 2007-04-05
RU2006110319A (ru) 2007-10-20
US7873227B2 (en) 2011-01-18
KR100804053B1 (ko) 2008-02-18
AU2004278829B2 (en) 2008-04-24
RU2323469C2 (ru) 2008-04-27
WO2005033965A1 (de) 2005-04-14
EP1654674A1 (de) 2006-05-10
ATE364206T1 (de) 2007-06-15
CA2540581C (en) 2012-11-27
CA2540581A1 (en) 2005-04-14
CN100435137C (zh) 2008-11-19
IL174318A (en) 2010-11-30
KR20060071425A (ko) 2006-06-26
BRPI0415152A (pt) 2006-11-28
DK1654674T3 (da) 2007-10-08
NO20061450L (no) 2006-06-14
HK1086367A1 (en) 2006-09-15
DE502004004043D1 (de) 2007-07-19
JP4328805B2 (ja) 2009-09-09
AU2004278829A1 (en) 2005-04-14
BRPI0415152B1 (pt) 2017-03-07
DE10345996A1 (de) 2005-04-28
EP1654674B1 (de) 2007-06-06

Similar Documents

Publication Publication Date Title
CN1864158A (zh) 用于处理至少两个输入值的装置和方法
CN1860527A (zh) 一种处理具有离散值序列的信号的设备和方法
CN1288849C (zh) 音频译码装置
CN101036183A (zh) 立体声兼容的多声道音频编码
CN1096148C (zh) 信号编码方法和装置
CN1806239A (zh) 用于转换为变换表示或对变换表示进行反转换的设备和方法
CN1910655A (zh) 构造多通道输出信号或生成下混信号的设备和方法
CN1675683A (zh) 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法
CN1805548A (zh) 用于重叠双正交变换的可逆二维前置/后置滤波
CN1565083A (zh) 减少位深的量子化方法
CN1685369A (zh) 视频编码的低复杂性和统一标准的变换
CN1930608A (zh) 生成等级参数的设备和方法及生成多通道表示的设备和方法
CN1240978A (zh) 音频信号编码装置、解码装置及音频信号编码、解码装置
CN1689069A (zh) 声音编码设备和声音编码方法
CN1767395A (zh) 整数数据的无损自适应编码与解码
CN1097396C (zh) 声音编码装置和方法
CN1484756A (zh) 编码设备,解码设备以及音频数据分配系统
CN1890711A (zh) 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法
CN87104093A (zh) 一维余弦变换的计算装置以及包括该计算装置的图象编码装置和解码装置
CN101069233A (zh) 通过不同子带域之间通道进行数据处理的方法
CN1799200A (zh) 浮点信号可逆编码方法、解码方法、其设备、程序及其记录介质
CN1750407A (zh) 用于对多声道数字音频信号进行压缩编码的编码方法
CN101076853A (zh) 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
CN1697328A (zh) 快速视频编解码变换实现
CN1520589A (zh) 声频信号处理设备及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Munich, Germany

Patentee after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.