CN1918562A

CN1918562A - 将数字信号从时域变换到频域及其反向变换的方法

Info

Publication number: CN1918562A
Application number: CN 200480035055
Authority: CN
Inventors: 黄海滨; 林晓; S·拉哈尔贾; 俞容山
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2003-09-29
Filing date: 2004-05-06
Publication date: 2007-02-21
Anticipated expiration: 2024-05-06
Also published as: CN100570597C; CN1882938A; CN100520765C; CN1886737A; CN100517298C

Abstract

一种用于使用变换函数将数字信号从时域变换到频域以及从频域变换到时域的方法，所述变换函数包括变换矩阵，所述数字信号包括被分组为多个块的多个数字符号，其中每个块包括预定数目的所述数字符号，所述方法包括：利用一个变换元素来变换所述数字信号的两个块，其中所述变换元素对应于包括两个子矩阵的块对角矩阵，其中每个子矩阵包括所述变换矩阵，所述变换元素包括多个提升级，而其中每个提升级包括由辅助变换和四舍五入单元对所述数字信号的块进行的处理。

Description

将数字信号从时域变换到频域及其反向变换的方法

相关申请的交叉引用

本申请要求2003年9月29日提交的美国临时申请No.60/507,210以及2003年9月29日提交的美国临时申请No.60/507,440的优先权，在此将每个的内容全文引入作为参考，以用于所有目的。

此外，下述共同拥有的申请一起同时提交，在此全文引入：

“Method for Performing a Domain Transformation of a DigitalSignal from the Time Domain into the Frequency Domain and vice Versa”，代理案卷号No.P100442，以及

“Process and Device for Determining a Transforming Element for aGiven Transformation Function，Method and Device for Transforming aDigital signal from the Time Domain into the Frequency Domain and viceVersa and Computer Readable Medium”，代理案卷号No.P100452。

背景技术

本发明涉及用于将数字信号从时域变换到频域以及从频域变换到时域的方法。

域变换，例如离散余弦变换(DCT)，被广泛地应用于当今信号处理工业。近年来，因为其在无损编码应用中的重要角色，称为整数DCT的DCT的变形已经吸引了许多研究兴趣。术语“无损”意味着解码器可以根据已编码的比特流产生源信号的确切复制。

所述DCT是实值块变换。即使所述输入块仅仅包括整数，所述DCT的输出块可以包括非整数分量。为了简便，所述输入块被称为输入矢量，而输出块被称为输出矢量。如果矢量仅仅包括整数分量，则该矢量被称为整数矢量。对照于DCT，所述整数DCT根据整数输入矢量产生整数输出矢量。对于同一整数输入矢量，整数DCT的整数输出矢量非常接近于DCT的实输出矢量。因此，整数DCT在频谱分析时保持所述DCT的所有良好的特性。

所述整数DCT的重要特性是可逆性。可逆性意味着存在整数离散余弦反变换(IDCT)，使得如果所述整数DCT根据输入矢量 x产生输出矢量 y，则所述整数IDCT可以根据矢量 y恢复出矢量 x。有时整数DCT也被称为正向变换，整数IDCT被称为反向变换或反变换。

称为整数改进离散余弦变换(IntMDCT)的变换近年被提出且被用于ISO/IEC MPEG-4音频压缩中。所述IntMDCT源于其原型---改进离散余弦变换(MDCT)。H.S.Malvar在1992年的“Signal Processing With lappedTransforms”中的公开通过利用DCT-IV块来级联一系列的Givens旋转来有效地实现MDCT。已经熟知的是，Givens旋转可以被分解为三个提升步骤，用于将整数映射到整数。例如，参见R.Geiger、T.Sporer、J.Koller、K.Brandenburg在2001年9月在美国纽约AES第111次会议上的“AudioCoding based on Integer Transforms”。

因此，IntMDCT的实现依赖于整数DCT-IV的有效实现。

通过利用三个提升步骤替换每个Givens旋转，可以从其原型直接转换整数变换。由于在每个提升步骤中存在一个四舍五入操作，整数变换的总四舍五入次数是原型变换的Givens旋转次数的3倍。对于离散三角变换(例如离散傅立叶变换(DFT)或离散余弦变换(DCT))，所涉及的Givens旋转的次数通常为Nlog₂N级，其中N是所述块的大小，即每个块中包括的所述数字信号被划分成的数据符号的量。因此，对于直接转换的整数变换的家族，所述总四舍五入次数也为Nlog₂N级。由于所述四舍五入，整数变换仅仅近似于其浮点原型。所述近似误差随着四舍五入的次数的增加而增加。

因此，所需要的是用于以更为有效的方式来对数字信号进行域变换的系统和方法。

发明内容

本发明提供用于对数字信号进行域变换，由此在同一操作中同时对两个数据输入块进行域变换的系统和方法。这种配置减少了有效四舍五入操作的次数，并且因此减少近似误差。

在本发明的一个实施例中，呈现本发明的一种方法，该方法使用变换函数来将数字信号从时域变换到频域以及从频域变换到时域。所述变换函数包括变换矩阵，所述数字信号包括被分组为多个块的多个数据符号，每个块包括预定数目的数据符号。所述方法包括利用一个变换元素来变换数字信号的两个块，其中所述变换元素对应于包括两个子矩阵的块对角矩阵，其中每个子矩阵包括变换矩阵，而变换元素包括多个提升级(liftingstage)，其中每个提升级包括利用辅助变换和四舍五入单元来对数字信号的块进行处理。

当按照附图和具体实施例的详细描述来观看时，本发明的这些和其他特征将更好理解。

附图说明

图1示出了根据本发明的实施例的音频编码器的体系结构；

图2示出了根据本发明的实施例的音频解码器的体系结构，其对应于图1中示出的音频编码器；

图3示出了根据本发明的方法的实施例的流程图；

图4说明了根据本发明的方法的实施例，其使用DCT-IV作为变换函数；

图5说明了用于根据图4中说明的本发明的方法的实施例的反变换的算法；

图6示出了根据本发明的实施例的图像归档系统的体系结构；

图7示出了用于估计所述提出的系统和方法的性能的正变换编码器和反变换编码器。

发明详述

图l示出了根据本发明的实施例的音频编码器100的体系结构。所述音频编码器100包括基于改进离散余弦变换(MDCT)的常规感知基本层编码器(perceptual base layer coder)和基于整数改进离散余弦变换(IntMDCT)的无损增强编码器(enhancement coder)。

例如，将由麦克风110提供且由模/数转换器111进行数字化的音频信号109提供给音频编码器100。所述音频信号109包括多个数据符号。所述音频信号109被分为多个块，其中每个块包括数字信号的多个数据符号，并且由改进离散余弦变换(MDCT)设备101对每个块进行变换。所述MDCT系数由量化器103借助于感知模型102来进行量化。所述感知模型按照这样一种方式控制所述量化器103，使得由量化误差产生的声音失真低。随后由比特流编码器104对已量化的MDCT系数进行编码，该比特流编码器104产生有损的感知编码的(perceptually coded)输出比特流112。

所述比特流编码器104利用诸如Huffman编码或游程(Run-Length)编码的标准方法无损地压缩其输入以产生一输出，该输出的平均比特率要低于其输入的平均比特率。所述输入音频信号109也被输送到产生IntMDCT系数的IntMDCT设备105中。由量化器103的输出的已量化MDCT系数被用于预测所述IntMDCT系数。所述已量化MDCT系数被输送到逆-量化器106中，并且所述输出(已恢复或非量化的MDCT系数)被输送到四舍五入单元107。

所述四舍五入单元将所述提供的MDCT系数四舍五入到一个整数值，并且由熵编码器108对残余的IntMDCT系数进行熵编码，所述残余的IntMDCT系数是整数值MDCT和IntMDCT系数之差。所述熵编码器，类似于比特流编码器104，无损地减少它的输入的平均比特率，并且产生无损增强比特流113。所述无损增强比特流113和感知编码比特流112一起承载必需的信息，以重构具有最小误差的输入音频信号109。

图2示出了包括本发明的实施例的音频解码器200的体系结构，其对应于图1中示出的音频编码器100。所述感知编码比特流207被提供给比特流解码器201，该比特流解码器201执行图1的比特流编码器104的操作的逆操作，产生已解码的比特流。所述已解码的比特流被提供给逆-量化器202，该逆-量化器202的输出(已恢复的MDCT系数)被提供给改进离散余弦反变换(反MDCT)设备203。因此，获得重构的感知编码音频信号209。

所述无损增强比特流208被提供给熵解码器204，该熵解码器204执行图1中的熵编码器108的操作的逆操作，产生相应的残余IntMDCT系数。由四舍五入设备205对逆-量化器202的输出进行四舍五入，以产生整数值MDCT系数。所述整数值MDCT系数被加到所述残余IntMDCT系数，由此产生所述IntMDCT系数。最后，由所述整数改进离散余弦反变换(反IntMDCT)设备206对所述IntMDCT系数进行所述整数改进离散余弦反变换，以产生所述重构的无损的已编码音频信号210。

图3示出了根据本发明的方法的实施例的流程图300，该方法使用DCT-IV作为变换以及使用三个提升级，第一提升级301、第二提升级302以及第三提升级303。这个方法优选在图1的IntMDCT设备105和图2的反IntMDCT设备206中使用，以分别完成IntMDCT和反IntMDCT。在图3中， x₁ 和 x₂ 分别是数字信号的第一块和第二块。 z是中间信号，而y₁ 和 y₂ 分别是与数字信号的第一块和第二块对应的输出信号。

如上所述，DCT-IV算法在无损音频编码中扮演重要角色。所述DCT-IV的变换函数包括变换矩阵。根据本发明的这个实施例，所述变换元素对应于包括两个块的块对角矩阵，其中每个块包括变换矩阵

因此，在这个实施例中，与根据本发明的变换元素对应的变换矩阵是：

[\begin{matrix} \underset{&OverBar;}{C_{N}^{IN}} \\ \underset{&OverBar;}{C_{N}^{IV}} \end{matrix}]

在这个实施例的上下文中，

自此以后应该被称作变换矩阵。

在本发明的这个实施例中，提升矩阵的数目，以及变换元素中的提升级的数目为3，其中DCT-IV是变换函数。

N点实输入序列x(n)的DCT-IV被如下定义：

y (m) = \sqrt{\frac{2}{N}} Σ_{n = 0}^{N - 1} x (n) \cos (\frac{(m + 1 / 2) (n + 1 / 2) π}{N}) m, n = 0,1, \cdot \cdot \cdot, N - 1 - - - (1)

假设是DCT-IV的变换矩阵，即，

\underset{&OverBar;}{C_{N}^{IN}} = \sqrt{\frac{2}{N}} {[\cos (\frac{(m + 1 / 2) (n + 1 / 2) π}{N})]}_{m, n = 0,1, \cdot \cdot \cdot, N - 1} - - - (2)

对于反DCT-IV矩阵，下述关系成立，

{(\underset{&OverBar;}{C_{N}^{IV}})}^{- 1} = \underset{&OverBar;}{C_{N}^{IV}} - - - (3)

特别地，矩阵是自逆矩阵(involutory)。

当 x＝[x(n)]_{n＝0，1，…，N-1}和 y＝[y(m)]_{m＝0，1，…，N-1}时，等式(1)可以表述为

\underset{&OverBar;}{y} = \underset{&OverBar;}{C_{N}^{IV}} \underset{&OverBar;}{x}

现在，假设 x₁ 和 x₂ 是两个整数N×1列矢量。所述列矢量 x₁ 和 x₂ 对应于数字信号的两个块，根据本发明，利用一个变换元素对该两个块进行变换。 x₁ 和 x₂ 的DCT-IV变换分别为 y₁ 和 y₂ 。

\underset{&OverBar;}{y_{1}} = \underset{&OverBar;}{C_{N}^{IV} x_{1}} - - - (5)

\underset{&OverBar;}{y_{2}} = \underset{&OverBar;}{C_{N}^{IV} x_{2}} - - - (6)

合并(5)和(6)：

[\begin{matrix} \underset{&OverBar;}{y_{1}} \\ \underset{&OverBar;}{y_{2}} \end{matrix}] = [\begin{matrix} \underset{&OverBar;}{C_{N}^{IV}} \\ \underset{&OverBar;}{C_{N}^{IV}} \end{matrix}] [\begin{matrix} \underset{&OverBar;}{x_{1}} \\ \underset{&OverBar;}{x_{2}} \end{matrix}] - - - (7)

上述对角矩阵是根据本发明的变换元素对应的块对角矩阵。

如果利用简单的代数修正来改变上述等式，例如导致

[\begin{matrix} \underset{&OverBar;}{y_{1}} \\ \underset{&OverBar;}{y_{2}} \end{matrix}] = [\begin{matrix} \underset{&OverBar;}{C_{N}^{IV}} \\ \underset{&OverBar;}{C_{N}^{IV}} \end{matrix}] [\begin{matrix} \underset{&OverBar;}{x_{2}} \\ \underset{&OverBar;}{x_{1}} \end{matrix}] - - - (8)

则仍在本发明的范围内。

假设 T _2N是(8)中的反(counter)对角矩阵，则

\underset{&OverBar;}{T_{2 N}} = [\begin{matrix} \underset{&OverBar;}{C_{N}^{IV}} \\ \underset{&OverBar;}{C_{N}^{IV}} \end{matrix}] - - - (9)

矩阵 T _2N可被如下分解

\underset{&OverBar;}{T_{2 N}} = [\begin{matrix} \underset{&OverBar;}{C_{N}^{IV}} \\ \underset{&OverBar;}{C_{N}^{IV}} \end{matrix}] = [\begin{matrix} \underset{&OverBar;}{I_{N}} \\ - \underset{&OverBar;}{C_{N}^{IV}} & \underset{&OverBar;}{I_{N}} \end{matrix}] [\begin{matrix} - \underset{&OverBar;}{I_{N}} & \underset{&OverBar;}{C_{N}^{IV}} \\ \underset{&OverBar;}{I_{N}} \end{matrix}] [\begin{matrix} \underset{&OverBar;}{I_{N}} \\ \underset{&OverBar;}{C_{N}^{IV}} & \underset{&OverBar;}{I_{N}} \end{matrix}] - - - (10)

其中 I _N是N×N的单位矩阵。

使用等式(3)中的DCT-IV的特性可以容易地验证等式(10)。使用等式(10)，等式(8)可以被表述为

[\begin{matrix} \underset{&OverBar;}{y_{1}} \\ \underset{&OverBar;}{y_{2}} \end{matrix}] = [\begin{matrix} \underset{&OverBar;}{I_{N}} \\ - \underset{&OverBar;}{C_{N}^{IV}} & \underset{&OverBar;}{I_{N}} \end{matrix}] [\begin{matrix} - \underset{&OverBar;}{I_{N}} & \underset{&OverBar;}{C_{N}^{IV}} \\ \underset{&OverBar;}{I_{N}} \end{matrix}] [\begin{matrix} \underset{&OverBar;}{I_{N}} \\ \underset{&OverBar;}{C_{N}^{IV}} & \underset{&OverBar;}{I_{N}} \end{matrix}] [\begin{matrix} \underset{&OverBar;}{x_{2}} \\ \underset{&OverBar;}{x_{1}} \end{matrix}] - - - (11)

等式(11)中的三个提升矩阵对应于图3中的三个提升级。

根据等式(11)，可以得到下述整数DCT-IV算法，该算法使用一个变换元素来计算两个整数DCT-IV。

图4例示了根据本发明的方法的实施例，该方法使用DCT-IV作为变换函数。这个实施例被用于图1中示出的音频编码器100中，以实现IntMDCT。类似于图3中， X₁ 和 X₂ 分别是所述输入数字信号的两个块。 z是中间信号，而 y₁ 和 y₂ 分别是输出信号的相应块。

图4中例示的三个提升级对应于等式(11)中的三个提升矩阵。

如图4所示，利用下述方案来确定时域到频域整数变换：

在第一级401中，利用DCT-IV变换来对 x₂ 进行变换402，对DCT-IV系数进行四舍五入403。随后将经过四舍五入后的DCT-IV系数加到 x₁ 404。由此，产生中间信号 z。因此，中间信号 z满足等式：

在第二级405中，利用DCT-IV变换来对 z进行变换406，对DCT-IV系数进行四舍五入407。随后从经过四舍五入后的DCT-IV系数中减去 X₂ 。由此，产生输出信号 y₁ 。因此，输出信号 y₁ 满足等式：

在第三级409中，利用DCT-IV变换来对 y₁ 进行变换410，对DCT-IV系数进行四舍五入411。随后从 z中减去经过四舍五入后的DCT-IV系数。由此，产生输出信号 y ₂。因此，输出信号 y ₂满足等式：

其中*表示四舍五入操作。

图5说明了根据本发明的方法的实施例的反变换的算法，该方法使用DCT-IV作为变换函数。这个实施例被用于图2中示出的音频解码器200中，以实现反IntMDCT。图5中例示的算法是图4中例示的算法的逆运算。不同信号的表示 y ₁， y ₂， x ₁， x ₂以及z被选择为对应于图4中的表示。

如图5所示，利用下述方法来确定频域到时域的整数变换：

在第一级501中，利用DCT-IV变换来对 y ₁进行变换502，对DCT-IV系数进行四舍五入503。随后将经过四舍五入后的DCT-IV系数加到 y ₂504。由此，产生中间信号 z。因此，中间信号 z满足等式：

在第二级505中，利用DCT-IV变换来对z进行变换506，对DCT-IV系数进行四舍五入507。随后从经过四舍五入后的DCT-IV系数中减去 y ₁。由此，产生信号 x ₂。因此，信号 x ₂满足等式：

在第三级509中，利用DCT-IV变换来对 x ₂进行变换510，对DCT-IV系数进行四舍五入511。随后从 z中减去经过四舍五入后的DCT-IV系数。由此，产生信号 x ₁。因此，信号 x ₁满足等式：

可以看出，根据等式(13a)到(13c)的算法是根据等式(12a)到(12c)的算法的逆。因此，如果在图1和图2中例示的编码器和解码器中使用，则所述算法提供用于无损音频编码的方法和装置。

在下述解释的本发明的实施例中，将上述方法用于图像归档系统。

等式(12a)到(12c)和(13a)到(13c)进一步示出，为了计算两个N×N的整数DCT-IV，需要三次N×N的DCT-IV、三次N×1的四舍五入以及三次N×1的加法。因此，对于一个N×N的整数DCT-IV，平均值为：

RC(N)＝1.5N (14)

AC (N) = 1.5 AC (C_{N}^{IV}) + 1.5 N - - - (15)

其中RC(.)是总的四舍五入次数，而AC(.)是算法操作的总次数。与直接转换的整数DCT-IV算法相比，所述提出的整数DCT-IV算法将RC从Nlog₂N数量级减少到N。

如等式(15)所示，所述提出的整数DCT-IV算法的复杂度多于DCT-IV算法的复杂度约50％。然而，如果还考虑RC，则所述提出的算法的组合复杂度(AC+RC)并未大大超过直接转换的整数算法的复杂度。所述算法的复杂度的精确分析取决于所使用的DCT-IV算法。

如图4和5中所示，所述提出的整数DCT-IV算法简单且在结构上模块化。在其DCT-IV计算块中，其可以使用任何现有DCT-IV算法。所述提出的算法适合于要求IntMDCT的应用，例如在MPEG-4音频扩展3参考模型0中。

图6示出了根据本发明的实施例的图像归档系统的体系结构。

在图6中，图像源601，例如照相机，提供模拟图像信号。由模/数转换器602来对该图像信号进行处理，以提供相应的数字图像信号。由无损图像编码器603对该数字图像信号进行无损编码，其包括从时域到频域的变换。在这个实施例中，时域对应于所述图像的坐标空间。所述无损编码后的图像信号被存储在存储设备604中，例如硬盘或DVD。当需要所述图像时，从所述存储设备604中取出所述无损编码后的图像信号，并且将其提供给与无损图像编码器603对应的无损图像解码器605，该无损图像解码器605对无损编码后的图像信号进行解码，并且重构所述原始图像信号而不会出现数据丢失。

例如，在所述图像是半导体晶片的误差图且必须被存储来以用于以后分析的情况下，图像信号的此种无损归档是重要的。

在本发明的这个实施例中，图3到图5中例示的方法的实施例用于无损图像编码器603和无损图像解码器605中。如上所述，图3到图5中例示的方法的实施例提供一种可逆的变换，因此特别提供了一种用于无损图像编码的方法。

根据本发明的方法不限于音频图像信号。还可以利用根据本发明的方法来对例如视频信号的其他数字信号进行变换。

在下面，对根据本发明的用于将数字信号从时域变换到频率域和从频率域变换到时域的方法的又一实施例进行解释。

在本发明的这个实施例中，所述域变换是DCT变换，由此块大小N是某一整数。在一个实施例中，N是2的幂。

假设C_N ^II是DCT的N×N变换矩阵(也被称为II型DCT)：

C_{N}^{II} = \sqrt{2 / N} [k_{m} \cos (m (n + 1 / 2) π / N)]

m，n＝0，1，…，N-1(16)

其中

k_{m} = \{\begin{matrix} 1 / \sqrt{2} & if & m = 0 \\ 1 & if & m &NotEqual; 0 \end{matrix} - - - (17)

并且N是变换大小。m和n是矩阵索引(index)。

假设C_N ^IV是IV型DCT的DCT的N×N变换矩阵，已经如上定义：

C_{N}^{IV} = \sqrt{2 / N} [\cos ((m + 1 / 2) (n + 1 / 2) π / N)]

m，n＝0，1，…，N-1(18)

如上，使用多个提升矩阵，在这个实施例中，所述提升矩阵是具有下述形式的2N×2N矩阵：

L_{2 N} = [\begin{matrix} &PlusMinus; I_{N} & A_{N} \\ O_{N} & &PlusMinus; I_{N} \end{matrix}] - - - (19)

其中I_N是N×N的单位矩阵，O_N是N×N的零矩阵，而A_N是任意的N×N矩阵。

对于每个提升矩阵L_2N，按照与引入的下述参考文献中描述的2×2提升步骤相同的方式来实现提升级可逆的整数到整数的映射，所述参考文献是朗讯科技贝尔实验室的I.Daubechies和W.Sweldens在1996年的Tech.Report(技术报告)“Factoring Wavlet Transforms into Lifting Steps”。仅有的区别在于四舍五入被应用于矢量，而不是应用于单个变量。

在其他实施例的上述描述中，已经详细地描述了如何为一个提升矩阵实现一个提升级，因此，在下面将省略与提升矩阵对应的提升级的解释。

可以看出，L_2N的转置L_2N ^T也是提升矩阵。

在这个实施例中，所述变换元素对应于矩阵T_2N，其被按照下述方式定义为2N×2N矩阵：

T_{2 N} = [\begin{matrix} C_{N}^{IV} & O_{N} \\ O_{N} & C_{N}^{IV} \end{matrix}] - - - (20)

将矩阵T_2N分解为提升矩阵具有下述形式：

T_2N＝P3·L8·L7·L6·P2·L5·L4·L3·L2·L1·P1(21)

在下面解释组成上述等式的右手侧的矩阵。

P1是由下述等式给出的第一置换矩阵

P 1 = [\begin{matrix} O_{N} & D_{N} \\ J_{N} & O_{N} \end{matrix}] - - - (22)

其中J_N是由下面给出的反索引矩阵(counter index matrix)

而D_N是其中对角元素交替为1和-1的N×N的对角矩阵：

P2是第二置换矩阵，其例子由下述MATLAB脚本语言产生：

Pd=eye(2*N);

for i=2:2:N,

Pd(i,i)=0;Pd(N+i,N+i)=0;

Pd(i,N+i)=1;Pd(N+i,i)=1;

end

Peo=zeros(2*N);

for i=1:N,

Peo(i,2*i-1)=1;

Peo(i+N,2*i)=1;

end

P2=(Pd*Peo)′;

作为例子，当N为4时，P2是8×8矩阵，如下给出

P 2 = [\begin{matrix} 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \end{matrix}]

其中N＝4 (25)

P3是第三置换矩阵，其例子由下述MATLAB脚本语言产生：

P3=zeros(2*N);

fori=1:N,

P3(i,2*i-1)=1;

P3(N2＝i+1,2*i)=1;

end

作为例子，当N为4时，P3是8×8矩阵，如下给出

P 3 = [\begin{matrix} 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \end{matrix}]

其中N＝4 (26)

L1是第一提升矩阵

L 1 = [\begin{matrix} I_{N} & O_{N} \\ {Z 1}_{N} & I_{N} \end{matrix}] - - - (27)

其中Z_1N是如下给出的N×N反对角矩阵：

L2是第二提升矩阵

L 2 = [\begin{matrix} I_{N} & {Z 2}_{N} \\ O_{N} & I_{N} \end{matrix}] - - - (29)

其中Z2_N是如下给出的N×N反对角矩阵：

L3是第三提升矩阵

L 3 = [\begin{matrix} I_{N} & O_{N} \\ {Z 3}_{N} & I_{N} \end{matrix}] - - - (31)

其中

{Z 3}_{N} = \sqrt{2} C_{N}^{IV} + I_{N} + {Z 1}_{N} - - - (32)

L4是第四提升矩阵

L 4 = [\begin{matrix} - I_{N} & {Z 4}_{N} \\ O_{N} & I_{N} \end{matrix}] - - - (33)

其中

{Z 4}_{N} = C_{N}^{IV} / \sqrt{2} - - - (34)

L5是第五提升矩阵

L 5 = [\begin{matrix} I_{N} & O_{N} \\ {Z 5}_{N} & I_{N} \end{matrix}] - - - (35)

其中

{Z 5}_{N} = - (\sqrt{2} C_{N}^{IV} + I_{N}) - - - (36)

L6是第六提升矩阵

L 6 = [\begin{matrix} I_{N} & O_{N} \\ {Z 6}_{N} & I_{N} \end{matrix}] - - - (37)

其中Z6_N是如下给出的N×N反对角矩阵：

L7是第七提升矩阵

L 7 = [\begin{matrix} I_{N} & {Z 7}_{N} \\ O_{N} & I_{N} \end{matrix}] - - - (39)

其中Z7_N是如下给出的N×N反对角矩阵：

L8是第八提升矩阵：

L8＝L6 (41)

由此，导致如(42)中所示的因式分解：

T_2N＝P3·L8·L7·L6·P2·L5·L4·L3·L2·L1·P1 (42)

其中P1、P2和P3是三个置换矩阵，L_j是八个提升矩阵，其中j从1到8。

提升矩阵L3、L4和L5包括辅助变换矩阵，在这种情况下，其为变换矩阵C_N ^IV自身。

根据等式(42)，可以为大小为N×1的两个输入信号计算整数DCT。

由于等式(42)提供描述DCT-IV变换域的提升矩阵因式分解，所以其提升矩阵可被按照这里示出的方式用来计算所施加的输入信号的域变换。

可以按照下述方式得到等式(42)。

可以使用下述公开来得到下述分解，该公开是Wang，Zhongde在1985十月的IEEE Transactions on Acoustic，Speech and Signal Processing(声学、语音和信号处理学报)，Vol.ASSP-33，No.4上发表的“On Computingthe Discrete Fourier and Cosine Transforms”。

C_{N}^{IV} = {(B_{N})}^{T} \cdot {(P_{N})}^{T} \cdot [\begin{matrix} C_{N / 2}^{II} \\ \overset{\overset{&OverBar;}{&OverBar;}}{S_{N / 2}^{II}} \end{matrix}] \cdot T_{N}

= {(B_{N})}^{T} \cdot {(P_{N})}^{T} \cdot [\begin{matrix} C_{N / 2}^{II} \\ C_{N / 2}^{II} \end{matrix}] \cdot P_{DJ} \cdot T_{N}

是已知的，其中S_N/2 ^II表示II型离散正弦变换的变换矩阵。

P_{DJ} = [\begin{matrix} I \\ D \cdot J \end{matrix}]

P _N是如下给出的N×N置换矩阵

\underset{&OverBar;}{P_{N}} = [\begin{matrix} \underset{&OverBar;}{I_{N / 2}} \\ \underset{&OverBar;}{J_{N / 2}} \end{matrix}] - - - (44)

和

等式(85)可以与下述等式合并

C_{N}^{IV} = R_{PO} \cdot [\begin{matrix} C_{N / 2}^{IV} \\ C_{N / 2}^{IV} \end{matrix}] \cdot R_{PR} \cdot P_{D} \cdot P_{EO} - - - (45)

其中P_EO是偶奇置换矩阵，

\underset{&OverBar;}{R_{pr}} = \frac{1}{\sqrt{2}} [\begin{matrix} \underset{&OverBar;}{I_{N / 2}} & \underset{&OverBar;}{I_{N / 2}} \\ \underset{&OverBar;}{I_{N / 2}} & \underset{&OverBar;}{{- I}_{N / 2}} \end{matrix}]

R_PO等于T_N，

{\underset{&OverBar;}{P}}_{D} = [\begin{matrix} \underset{&OverBar;}{I_{\frac{N}{2}}} \\ \underset{&OverBar;}{D_{\frac{N}{2}}} \end{matrix}]

在转置等式(45)转换为(46)后：

C_{N}^{IV} = {(P_{EO})}^{T} \cdot {(P_{D})}^{T} \cdot R_{PR} \cdot [\begin{matrix} C_{N / 2}^{IV} \\ C_{N / 2}^{IV} \end{matrix}] \cdot {(R_{PO})}^{T}

= {(P_{EO})}^{T} \cdot {(P_{D})}^{T} \cdot \frac{1}{\sqrt{2}} [\begin{matrix} C_{N / 2}^{IV} & C_{N / 2}^{IV} \\ C_{N / 2}^{IV} & - C_{N / 2}^{IV} \end{matrix}] \cdot {(R_{PO})}^{T}

(46)

组合等式(43)和(46)得到：

[\begin{matrix} C_{N / 2}^{II} \\ C_{N / 2}^{II} \end{matrix}] P_{N} \cdot B_{N} \cdot {(P_{EO})}^{T} {(P_{D})}^{T} \cdot \frac{1}{\sqrt{2}} [\begin{matrix} C_{N / 2}^{IV} & C_{N / 2}^{IV} \\ C_{N / 2}^{IV} & - C_{N / 2}^{IV} \end{matrix}] {(R_{PO})}^{T} \cdot T_{N} \cdot {(P_{DJ})}^{T}

= P_{3} \cdot R_{2} \cdot P_{2} \cdot \frac{1}{\sqrt{2}} [\begin{matrix} C_{N / 2}^{IV} & C_{N / 2}^{IV} \\ C_{N / 2}^{IV} & {- C}_{N / 2}^{IV} \end{matrix}] \cdot R_{1} \cdot P_{1}

(47)

其中：

P₁＝(P_DJ)^T

P₂＝(P_EO)^T·(P_D)^T＝(P_D·P_EO)^T

P₃＝P_N

R₁＝(R_PO)^T·T_N

R₂＝B_N

根据等式(47)，可以容易地得到等式(42)。

在这个实施例中，域变换的计算仅仅需要4N次四舍五入操作，如同现在将要描述。

假设α(^*)是实加法的次数，μ(^*)是实乘法的次数，而γ(^*)是实四舍五入的次数。对于所述提出的IntDCT算法，可以得到：

α(IntDCT)＝11N+3α(DCT-IV)

μ(IntDCT)＝9N+3μ(DCT-IV)

γ(IntDCT)＝8N

因为所述提出的IntDCT算法对它们一起进行处理，所以上述结果是针对数据采样的两个块的。由此，对于数据采样的一个块，所述计算的次数被减半，其为

α₁(IntDCT)＝5.5N+1.5α(DCT-IV)

μ₁(IntDCT)＝4.5N+1.5μ(DCT-IV)

γ₁(IntDCT)＝4N

其中α₁、μ₁和γ₁分别是针对采样的一个块的实加法的次数、实乘法的次数以及实四舍五入次数。

对于DCT-IV计算，可以使用在并入的参考文献H.S.Malvar，1992年由Norwood，MA.Artech House出版“Signal Processing With lappedTransforms”的第199-201页上描述的基于FFT的算法，根据该算法

α(DCT-IV)＝1.5Nlog₂N

μ(DCT-IV)＝0.5Nlog₂N+N

因此得到：

α₁(IntDCT)＝2.25Nlog₂N+5.5N

μ₁(IntDCT)＝0.75Nlog₂N+6N

在下面，对根据本发明的用于将数字信号从时域变换到频移和从频率域变换到时域的方法的又一实施例进行解释。

在这个实施例中，将离散快速傅立叶变换(FFT)用作域变换。

假设F是具有归一化的FFT的N×N变换矩阵，

m，n＝0，1，...，N-1 (48)

F = \sqrt{\frac{1}{N}} [\exp (\frac{- j 2 πmn}{N})]

其中N是变换大小。m和n是矩阵索引。

在这个实施例中，维数为N×N的置换矩阵P是包括索引0或1的矩阵。在将其与N×1维矢量(输入信号的矩阵表示)相乘后，所述矢量中的元素的顺序被改变。

在这个实施例中，提升矩阵被定义为具有下述形式的2N×2N矩阵。

L = [\begin{matrix} P_{1} & A \\ O & P_{2} \end{matrix}] - - - (49)

其中P₁和P₂是两个置换矩阵，O是N×N零矩阵，A是任意N×N矩阵。对于提升矩阵L，按照与上述并入的I.Daubechies的参考文献中的2×2提升步骤相同的方式来实现可逆整数到整数映射。然而，如上所述，将四舍五入应用于矢量而不是应用于单个变量。显而易见的是，所述L的转置LT也是提升矩阵。

此外，假设T是2N×2N变换矩阵：

T = [\begin{matrix} O & F \\ F & O \end{matrix}] - - - (50)

因此，改进的变换矩阵T(并且相应地所述域变换本身)可以被表示为提升矩阵因子分解形式：

T = [\begin{matrix} I & O \\ - Q \cdot F & I \end{matrix}] \cdot [\begin{matrix} - Q & F \\ O & I \end{matrix}] \cdot [\begin{matrix} I & O \\ F & I \end{matrix}] - - - (51)

其中I是N×N的单位矩阵，而Q是如下给出的N×N的置换矩阵

Q = [\begin{matrix} 1 & O_{1 xN - 1} \\ O_{N - 1 x 1} & J \end{matrix}] - - - (52)

并且O_1xN-1和O_N-1x1别是具有N＝1个零的行矢量和列矢量。J是如下给出的(N-1)×(N-1)反索引矩阵

在等式(53)中，方括号中的空白处表示所有零矩阵元素。

从等式(51)中可以看出，提升矩阵因子分解形式可以被用来使用这里描述的方法来为两个N×1复矢量计算整数FFT。

在这个实施例中，域变换的计算仅仅需要3N次四舍五入操作，如同现在将要描述的。

分别假设α(^*)是实加法的次数，

μ(^*)是实乘法的次数，以及

γ(^*)是实四舍五入的次数。

对于所述提出的IntFFT算法，可以得到：

α(IntFFT)＝6N+3α(FFT)

μ(IntFFT)＝3μ(FFT)

γ(IntFFT)＝6N

因为所述提出的IntFFT算法对它们一起进行处理，所以上述结果是针对数据采样的两个块的。由此，对于数据采样的一个块，所述计算的次数被减半，其为

α₁(IntFFT)＝3N+1.5α(FFT)

μ₁(IntFFT)＝1.5μ(FFT)

γ₁(IntFFT)＝3N

其中α₁、μ₁和γ₁分别是针对采样的一个块的实加法的次数、实乘法的次数以及实四舍五入操作次数。

对于FFT计算，可以使用分裂基FFT(SRFFT)的算法，根据该算法

α(SRFFT)＝3Nlog₂N-3N+4

μ(SRFFT)＝Nlog₂N-3N+4

结果，我们得到：

α₁(IntFFT)＝4.5Nlog₂N-1.5N+6

μ₁(IntFFT)＝1.5Nlog₂N-4.5N+6

图7示出了用于评定上述DCT变换技术和上述FFT域变换的变换精确度的正变换编码器和反变换编码器。所述测试涉及根据在这里引入的2003年三月泰国的ISO/IEC JTC 1/SC 29/WG 11 N5778 Pattaya，“Codingof Moving Pictures and Audio：Work plan for Evaluation of Integer MDCTfor FGS to Lossless Experimentation Framework”中描述的由MPEG-4无损音频编码组提出的评估标准来测量变换的平均方差(MSE)。

具体地，IntDCT和整数反DCT(IntIDCT)的MSE如下给出

MSE = \frac{1}{K} Σ_{j = 0}^{K - 1} \frac{1}{N} Σ_{i = 0}^{N - 1} e_{i}^{2} - - - (54)

其中，对于IntDCT，误差信号e是e_j；对于IntIDCT，误差信号e是e_i，如图1中所示。K是所述评估中使用的采样块的总数。

IntFFT和整数反FFT(IntIFFT)的MSE如下给出

MSE = \frac{1}{K} Σ_{j = 0}^{K - 1} \frac{1}{N} Σ_{i = 0}^{N - 1} {| | e_{i} | |}^{2} - - - (55)

其中，对于IntFFT，误差信号e是e_j；对于IntIFFT，误差信号e是e_i，如图1中所示。‖*‖表示复数值的模。K是所述评估中使用的采样块的总数。

对于两种域变换，在48kHz/16比特测试组中使用具有15个不同类型的音乐文件的总共450秒。表I示出了所述测试结果。

从表1中可以看出，使用本发明的系统和方法产生的MSE非常小，并且不像常规系统，基本上与处理块的大小无关。参照DCT-IV域变换，在将块大小N增大到多达4096个比特时，所述MSE仅仅稍微增加。所述FFT的MSE甚至更好，对于块大小增大到4096个比特，显示出稳定的MSE 0.4。当根据所呈现的能力和对更长块大小的需求的增长来看本发明所展示的性能时，本发明的优势更加明显。

N

IntDCT-IV

IntIDCT-IV

IntFFT

IntIFFT

8	0.537	0.537	0.456	0.371
8	0.537	0.537	0.456	0.371	16	0.546	0.546	0.480	0.412
32	0.549	0.548	0.461	0.391	16	0.546	0.546	0.480	0.412
32	0.549	0.548	0.461	0.391	64	0.550	0.550	0.462	0.393
128	0.551	0.551	0.461	0.391	64	0.550	0.550	0.462	0.393
128	0.551	0.551	0.461	0.391	256	0.552	0.552	0.461	0.391
512	0.552	0.552	0.461	0.391	256	0.552	0.552	0.461	0.391
512	0.552	0.552	0.461	0.391	1024	0.552	0.552	0.460	0.391
2048	0.552	0.552	0.461	0.391	1024	0.552	0.552	0.460	0.391
2048	0.552	0.552	0.461	0.391	4096	0.553	0.552	0.461	0.391

表I

引入文献

通过参考在这里引入下述文献：

H.S.Malver，“Signal Processing with Lapped Transforms”ArtechHouse，1992；

R.Geiger，T.Sporer，J.Koller，K.Brandenburg，“Audio Coding basedon Integer Transforms”AES 111th Convention，New York，USA，Sept.2001；

Wang，Zhongde，“On Computing the Discrete Fourier and CosineTransforms”，IEEE Transactions on Acoustics，Speech and SignalProcessing，Vol.ASSP-33，No.4 October 1985；

I.Daubechies and W.Sweldens，″Factoring wavelet transforms intolifting steps″，Tech.Report，Bell Laboratories，Lucent Technologies，1996；

S.Oraintara，Y.J.Chen and T.Q.Nguyen，″Integer fast Fouriertransform″，IEEE Trans.Signal Processing，vol.50，no.3，Mar.2002，pp.607-618；

P.Hao and Q.Shi，″Matrix factorizations for reversible integermapping，″IEEE Trans.Signal Processing，vol.49，no.10，Oct.2001，pp.2314-2324；

G.Plonka and M.Tasche，″Invertible integer DCT algorithms″，Appl.Comput.Harmon.Anal.15：70-88，2003；

Y.H.Zeng，L.Z.Cheng，G. A.Bi，and Alex C.Kot，″Integer DCTs andfast algorithms″，IEEE Trahs.Signal Processing，vol.49，no.11，Nov.2001，pp.2774-2782；

J.Wang，J.Sun and S.Yu，″1-D and 2-D transforms from integers tointegers″，in Proc.Int.Conf.Acoustics，Speech and Signal Processing，Hong Kong，2003，vol.II，pp.549-552；

″Coding of Moving Pictures and Audio：Work plan for Evaluation ofInteger MDCT for FGS to Lossless Experimentation Framework″，ISO/IEC JTC I/SC 29/WG 11 N5578，Pattaya，Thailand，Mar.2003.

Claims

1、一种用于使用变换函数将数字信号从时域变换到频域以及从频域变换到时域的方法，所述变换函数包括变换矩阵，所述数字信号包括被分组为多个块的多个数字符号，其中每个块包括预定数目的所述数字符号，所述方法包括：

利用一个变换元素来变换所述数字信号的两个块，其中所述变换元素对应于包括两个子矩阵的块对角矩阵，其中每个子矩阵包括所述变换矩阵，所述变换元素包括多个提升级，而其中每个提升级包括由辅助变换和四舍五入单元对所述数字信号的多个块进行的处理。

2、如权利要求1所述的方法，其中，所述变换函数是DCT-I变换函数、DCT-IV变换函数、DFT-I变换函数、DFT-IV变换函数、DST-I变换函数、DST-IV变换函数、DWT-I变换函数或DWT-IV变换函数。

3、如权利要求1或2所述的方法，其中，每个提升级对应于一个提升矩阵，其中所述提升矩阵是包括四个子矩阵的块三角矩阵，其中两个可逆整数矩阵作为一个对角上的两个所述子矩阵，而所述变换矩阵和零作为另一个角上的另外两个所述子矩阵。

4、如权利要求3所述的方法，其中，每个提升矩阵中的所述可逆整数矩阵是单位矩阵或负单位矩阵。

5、如权利要求1到4中任何一个权利要求所述的方法，其中，所述变换元素包括三个提升级。

6、如权利要求1到5中任何一个权利要求所述的方法，其中，音频信号或视频信号被用作所述数字信号。

7、一种用于使用变换函数将数字信号从时域变换到频域以及从频域变换到时域的设备，所述变换函数包括变换矩阵，所述数字信号包括多个数字符号且被分为多个块，其中每个块包括预定数目的所述数字符号，所述设备包括：

变换单元，其利用一个变换元素来变换所述数字信号的两个块，其中所述变换元素对应于包括两个子矩阵的块对角矩阵，其中每个子块包括所述变换矩阵，并且所述变换元素包括多个提升级。

8、如权利要求7所述的设备，其中，所述变换单元包括用于每个提升级的辅助变换单元，用于处理所述数字信号的所述块。

9、如权利要求7或8中一个所述的设备，其中，所述变换单元包括用于每个提升级的四舍五入单元，用于处理所述数字信号的所述块。

10、如权利要求7-9中任何一个权利要求所述的设备，其中，所述变换单元包括：

改进离散余弦变换设备，其耦合来接收所述多个数据块，且被配置来将每个数据块域变换为MDCT系数；

量化器，其耦合来接收每个所述MDCT系数，与之响应，所述量化器用来产生已量化的MDCT系数；

比特流编码器，其耦合来接收所述已量化的MDCT系数，与之响应，所述比特流编码器产生感知编码的比特流；

逆量化器，其耦合来接收已量化的MDCT系数，所述逆量化器用于将所述MDCT系数恢复到非量化状态；和

四舍五入单元，其耦合来接收所述恢复的MDCT系数，并且用于产生整数值MDCT系数。

11、如权利要求10所述的设备，其中，所述变换单元还包括：

改进离散余弦反变换设备，其耦合来接收所述数据块，与之响应，用于产生IntMDCT系数；

计算装置，用于计算各个IntMDCT系数和整数值MDCT系数之间的差值，以产生各个残余MDCT系数；以及

熵编码器，其耦合来接收所述残余MDCT系数，与之响应，用于产生无损增强比特流。

12、如权利要求11所述的设备，其中，所述变换单元还包括：

比特流解码器，其耦合来接收所述感知编码的比特流，与之响应，用于输出已解码的比特流；

逆量化器，其耦合来接收所述已解码的比特流，与之响应，所述逆量化器产生已恢复的MDCT系数；

四舍五入单元，其耦合来接收所述恢复的MDCT系数，并且用于将每个MDCT系数四舍五入为整数值；以及

反MDCT设备，其耦合来接收所述已恢复的MDCT流，与之响应，用于产生重构的一份所述感知编码信号。

13、如权利要求12所述的设备，其中，所述变换单元包括：

熵解码器，其耦合来接收所述无损比特流，与之响应，用于产生残余IntMDCT系数；

相加装置，用于将所述残余IntMDCT系数与所述整数值MDCT系数相加来产生IntMDCT系数；以及

反IntMDCT设备，其耦合来接收所述整数值MDCT系数和所述IntMDCT系数的和，以产生重构的一份所述无损编码音频信号的复制。

14、一种其上记录有程序的计算机可读介质，其中，所述程序适合于使计算机执行一种用于使用变换函数将数字信号从时域变换到频域以及从频域变换到时域的方法，所述变换函数包括变换矩阵，所述数字信号包括多个数据符号且被分为多个块，其中每个块包括预定数目的所述数据符号，所述计算机可读介质包括：

用于利用一个变换元素来变换所述数据信号的两个块的代码，其中所述变换元素对应于包括两个子矩阵的块对角矩阵，其中每个子块包括所述变换矩阵，所述变换元素包括多个提升级，而其中每个提升级包括由辅助变换和四舍五入单元对所述数字信号的子块进行的处理。