CN1816144A

CN1816144A - 一种二维离散余弦变换装置及方法

Info

Publication number: CN1816144A
Application number: CN 200510001649
Authority: CN
Inventors: 蒋晓华
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2005-02-03
Filing date: 2005-02-03
Publication date: 2006-08-09
Anticipated expiration: 2025-02-03
Also published as: CN100448293C

Abstract

本发明公开了一种二维DCT装置，包括：控制模块、输入寄存模块、并行DCT列变换模块和DCT行变换模块。本发明同时公开了一种二维DCT方法，本发明提供的方法包括：对原始输入图像的单位子块的所有列同时进行并行的一维DCT，然后依次对单位子块的每一行作一维DCT。本发明方法通过在列变换的向量计算中减少乘法次数并增加相同运算，以利于对各列同时进行一维DCT，大大加快了列变换的速度；在行变换中通过提取每一行各元素的相同运算项，以利于对每一行的各元素同时进行一维DCT，从整体上提高了二维DCT的运算速度。本发明公开的装置和方法可以应用在图像压缩编码中，实现实时的视频编解码。

Description

一种二维离散余弦变换装置及方法

技术领域

本发明涉及图像压缩编码技术领域，具体涉及一种二维离散余弦变换装置及方法。

背景技术

离散余弦变换(DCT，Discrete Cosine Transform)具有很强的能量聚积特性：绝大部分信号能量被聚集在低频分量，部分高频分量在信号处理和传输过程中可以被忽略。因为这一特性，DCT在图像处理和数据压缩等领域被广泛应用。运动图像编码标准(MPEG)和静止图像编码标准(JPEG)都采用DCT来消除空间冗余，DCT也被应用在国际电信联盟(ITU)的H.261、H.263及H.26L等视频编码标准中。

二维DCT的定义如公式(1)：

Y_{u, v} = \frac{2}{N} A_{u} A_{v} Σ_{i = 0}^{N - 1} Σ_{j = 0}^{N - 1} X_{i, j} \cos \frac{(2 i + 1) uπ}{2 N} \cos \frac{(2 j + 1) vπ}{2 N} - - - (1)

其中，i，j，u，v＝0，1，...，N-1；i，j是采样域中的空间坐标，u，v是变换域中的坐标，A_u，

二维DCT一般都采用行列分离法来实现，即首先依次对采样域中每一行的图像数据作一维DCT，这称作行变换，然后再依次对每一列的图像数据作一维DCT，这称作列变换。也可以先作列变换再做行变换。其原理简述如公式(2)：

Y_{u, v} = \frac{2}{N} A_{u} A_{v} Σ_{i = 0}^{N - 1} [Σ_{i = 0}^{N - 1} X_{i, j} \cos \frac{(2 j + 1) vπ}{2 N}] \cos \frac{(2 i + 1) uπ}{2 N} - - - (2)

这种方法的缺点是，每次只能处理一行或一列数据，运算速度较慢，对于MPEG-4、H.264等视频编解码算法，由于这些视频编码算法的复杂度很高，采用现有的DCT算法无法实现实时的视频编解码。

发明内容

有鉴于此，本发明的主要目的在于提供一种二维DCT装置，以实现实时的视频编解码。

本发明另一目的在于提供一种二维DCT方法，以提高二维DCT的速度，从而提高图像编码算法的效率，实现实时的视频编解码。

为达到上述目的，本发明的技术方案是这样实现的：

一种二维DCT装置，该装置包括：

控制模块：用于启动输入寄存模块；

输入寄存模块：用于接收单位图像子块，然后将所接收的该单位图像子块输出到并行DCT列变换模块；

并行DCT列变换模块：用于接收输入寄存模块输出的单位图像子块，对该单位图像子块的所有列同时进行并行的一维DCT后，将得到的单位图像子块输出到DCT行变换模块；

DCT行变换模块：用于接收并行DCT列变换模块输出的单位图像子块，对该单位图像子块的每一行依次作一维DCT。

所述DCT行变换模块进一步包括：

数据转换模块：用于接收并行DCT列变换模块输出的单位图像子块，分别提取并计算该图像子块每一行各元素经一维DCT展开后的相同运算项，将相同运算项的计算结果以矩阵形式输出到并行加乘模块；

系数装载模块：用于保存每一行的行变换系数，在接收到控制模块的启动指令后，将每一行的行变换系数以矩阵形式输出到并行加乘模块；

并行加乘模块：用于接收数据转换模块和系数装载模块的输出矩阵，分别对每一行的行变换系数和数据转换模块输出矩阵的对应元素，相乘后相加，再将每一行的结果以矩阵形式输出到加模块；

加模块：用于接收并行加乘模块的输出矩阵，然后将该矩阵的对应元素相加，依次得到二维DCT结果矩阵的每一行的所有元素；

同时，所述控制模块进一步用于，在启动输入寄存模块后，启动系数装载模块。

一种二维DCT方法，该方法包括：

A、将原始图像数据的单位图像子块以单位矩阵的形式读入，然后，对该单位矩阵的所有列同时进行并行的一维DCT，得到列变换结果；

B、将列变换的结果以单位矩阵形式读入，对矩阵的每一行依次作一维DCT，得到二维DCT的最终结果。

所述对单位矩阵的所有列同时进行并行的一维DCT具体为：

将单位矩阵的行向量进行一维DCT展开，利用三角关系对所有向量进行优化，提取并删除优化后的每个向量的公因数，然后，对所有向量同时进行计算；且，

在步骤B之前进一步包括，将所述删除的公因数与对应的行变换系数相乘。

所述对列变换的所有向量进行优化为，根据每个向量中的乘法运算最少和向量相互间含相同运算最多的原则进行优化。

步骤B所述对单位矩阵的每一行作一维DCT具体为：

分别将每一行的行变换系数以矩阵形读入，同时，对步骤A得到的列变换结果矩阵的每一行的各个元素进行一维DCT展开，分别提取并计算每一行各元素间的相同运算项，然后将相同运算项与对应的行变换系数同时进行加乘后得到一个矩阵，再将该矩阵各列的相邻元素同时相加，得到二维DCT结果矩阵的行向量。

与现有技术相比，本发明通过在列变换中减少乘法次数并增加相同运算，以利于对各列同时进行一维DCT，大大加快了列变换的速度；在行变换中通过提取每一行各元素的相同运算项，以利于对每一行的各元素同时进行一维DCT，从整体上提高了二维DCT的运算速度。本发明提供的方法可以应用在图像压缩编码中，实现实时的视频编解码。

附图说明

图1为本发明提供的实现二维DCT列变换的数据流程图；

图2为利用PMADDWD指令实现数据加乘的示意图；

图3为本发明提供的实现二维DCT的装置图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

通常，对图像作二维DCT是以8*8的子块为一个变换单元。图1是本发明对由8*8子块组成的图像数据实现二维DCT列变换的数据流程图，为方便起见，将8*8的子块描述成8*8的矩阵，本发明中，将8*8的子块作为单位图像子块，8*8的矩阵作为单位矩阵。如图1所示，变换前8*8矩阵X的行向量为：X₀，...，X₇，经列变换后得到矩阵Y，其行向量为：Y₀，...，Y₇。为了了解列变换的具体实现流程，将图1中各种运算结构的具体功能描述如下：

结构11：设其输入为I₁₁和I₁₂，输出为Y₀和Y₄，则其实现的功能为：Y₀＝I₁₁+I₁₂，Y₄＝I₁₁-I₁₂。

结构12：设其输入为I₂₁和I₂₂，输出为Y₁和Y₂，则其实现的功能为：Y₁＝I₂₂+I₂₁*T₁，Y₇＝I₂₂*T₁-I₂₁。

结构1₃：设其输入为I₃₁和I₃₂，输出为Y₅和Y₃，则其实现的功能为：Y₅＝I₃₂-I₃₁*T₃，Y₃＝-(I₃₂*T₃+I₃₁)。

结构14：设其输入为I₄，输出为O₄，则其实现的功能为：O₄＝I₄*C₄。

需要指出的是，在图1中若有跟以上所述结构之一相同的运算结构，那么只需改变以上所述结构的输入或者输入和系数就可得到该运算结构的输出。

图1的设计原理如下：

根据一维DCT变换公式：

Y_{u} = \sqrt{\frac{2}{N}} A_{u} Σ_{i = 0}^{N - 1} X_{i} \cos \frac{(2 i + 1) uπ}{2 N},

可得出公式(3)：

Y₀＝(X₀+X₇+X₁+X₆+X₂+X₅+X₃+X₄)*C4/2；

Y₄＝[(X₀+X₇+X₃+X₄)-(X₁+X₆+X₂+X₅)]*C4/2；

Y₂＝{[(X₀+X₇)-(X₃+X₄)]*C2+[(X₁+X₆)-(X₂+X₅)]*C6}/2；

Y₆＝{[(X₀+X₇)-(X₃+X₄)]*C6-[(X₁+X₆)-(X₂+X₅)]*C2}/2；

Y₁＝{[(X₀-X₇)*C1+(X₁-X₆)*C3]+[(X₂-X₅)*C5+(X₃-X₄)]*C7}/2；

Y₃＝{[(X₀-X₇)*C3-(X₁-X₆)*C7]-[(X₂-X₅)*C1-(X₃-X₄)]*C5}/2；

Y₅＝{[(X₀-X₇)*C5-(X₁-X₆)*C1]+[(X₂-X₅)*C7+(X₃-X₄)]*C3}/2；

Y₇＝{[(X₀-X₇)*C7-(X₁-X₆)*C5]+[(X₂-X₅)*C3-(X₃-X₄)]*C1}/2

(3)其中，C1，...，C7分别为：

\cos \frac{1 π}{16}, . . ., \cos \frac{7 π}{16} .

根据三角公式：tanα＝sinα/cosα，sin(α+β)＝sinαcosβ+cosαsinβ，sin(α-β)＝sinαcosβ-cosαsinβ，cos(α+β)＝cosαcosβ-sinαsinβ，cos(α-β)＝cosαcosβ+sinαsinβ，

\sin (\frac{π}{2} - α) = \cos α,

可将公式(3)转换为公式(4)：

Y₂＝{(X₀+X₇)-(X₃+X₄)+[(X₁+X₆)-(X₂+X₅)]*T2}*C2/2；

Y₆＝{[(X₀+X₇)-(X₃+X₄)]*T2-[(X₁+X₆)-(X₂+X₅)]}*C2/2；

Y₁＝{(X₀-X₇)+[(X₁-X₆)+(X₂-X₅)]*C4+{(X₃-X₄)+[(X₁-X₆)-(X₂-X₅)]*C4}*T1}*C1/2；

Y₃＝{(X₀-X₇)-[(X₁-X₆)+(X₂-X₅)]*C4-{(X₃-X₄)-[(X₁-X₆)-(X₂-X₅)]*C4}*T3}*C3/2；

Y₅＝{(X₀-X₇)-[(X₁-X₆)+(X₂-X₅)]*C4}*T3+{(X₃-X₄)-[(X₁-X₆)-(X₂-X₅)]*C4}}*C3/2；

Y₇＝{{(X₀-X₇)+[(X₁-X₆)+(X₂-X₅)]*C4}*T1-{(X₃-X₄)+[(X₁-X₆)-(X₂-X₅)]*C4}}*C1/2

(4)其中，T1，...，T7分别为：

\tan \frac{1 π}{16}, . . ., \tan \frac{7 π}{16} .

将公式(3)转换为公式(4)的目的是，减少乘法次数，同时使得Y₁，...，Y₇的计算公式间含有尽可能多的同种运算，以利于并行运算。

去掉公式(4)中各个计算公式的的公因数，将其变为公式(5)：

Y₀′＝X₀+X₇+X₁+X₆+X₂+X₅+X₃+X₄；

Y₄′＝(X₀+X₇+X₃+X₄)-(X₁+X₆+X₂+X₅)；

Y₂′＝(X₀+X₇)-(X₃+X₄)+[(X₁+X₆)-(X₂+X₅)]*T2；

Y₆′＝[(X₀+X₇)-(X₃+X₄)]*T2-[(X₁+X₆)-(X₂+X₅)]；

Y₁′＝(X₀-X₇)+[(X₁-X₆)+(X₂-X₅)]*C4+{(X₃-X₄)+[(X₁-X₆)-(X₂-X₅)]*C4}*T1；

Y₃′＝(X₀-X₇)-[(X₁-X₆)+(X₂-X₅)]*C4-{(X₃-X₄)-[(X₁-X₆)-(X₂-X₅)]*C4}*T3；

Y₅′＝{(X₀-X₇)-[(X₁-X₆)+(X₂-X₅)]*C4}*T3+{(X₃-X₄)-[(X₁-X₆)-(X₂-X₅)]*C4}；

Y₇′＝{(X₀-X₇)+[(X₁-X₆)+(X₂-X₅)]*C4}*T1-{(X₃-X₄)+[(X₁-X₆)-(X₂-X₅)]*C4}

(5)

将公式(5)与公式(4)相比可以看出，公式(5)将公式(4)各个计算公式的公因数省掉了，这些省掉的公因数将在行变换时乘上，这样既可以提高运算速度，也可以提高运算精度。

以下是本发明提供的对由8*8子块组成的图像数据实现二维DCT的具体步骤，为方便起见，同样将8*8的子块描述成8*8的矩阵。

步骤1：利用公式(5)对原始8*8矩阵X的每一列同时作一维DCT，即作并行列变换。

设X₀，...，X₇为矩阵X的行向量，Y₀′，...，Y₇′为经列变换后得到的矩阵Y′的行向量。

在进行列变换时，当从寄存器读取或处理向量X₀时，实际上是同时读取或处理X₀的8个元素，例如：当计算X₀+X₇时，实际上是同时将X₀中的8个元素和X₇中的8个元素对应相加。同时，X₀+X₇等各向量的相同运算项只需计算一次，之后可供各向量共享。因此，8个列变换可以同时进行，大大加快了DCT运算的速度。

以上列变换可利用Intel处理器集成的第二代流单条指令处理多个数据扩展(SSE2，Stream SIMD Extension 2)技术提供的指令实现，SSE2提供的指令可以同时处理8个16位整数。

步骤2：利用一维DCT公式对列变换结果矩阵的每一行依次作行变换，得到二维DCT的最终结果。

在利用一维DCT公式对列变换结果矩阵的每一行依次作行变换，具体可采用如下步骤：

步骤201：根据一维DCT的展开公式(6)，对矩阵Y′中的元素作如公式(7)所示的变换。

公式(6)如下：

w_j0＝[(y_j0+y_j7)*C4+(y_j1+y_j6)*C4+(y_j2+y_j5)*C4+(y_j5+y_j4)*C4]/2；

w_j1＝{[(y_j0-y_j7)*C1+(y_j1-y_j6)*C3]+[(y_j2-y_j5)*C5+(y_j3-y_j4)]*C7}/2；

w_j2＝{[(y_j0+y_j7)*C2+(y_j1+y_j6)*C6]-[(y_j2+y_j5)*C6+(y_j3+y_j4)*C2]}/2；

w_j3＝{[(y_j0-y_j7)*C3-(y_j1-y_j6)*C7]-[(y_j2-y_j5)*C1+(y_j3-y_j4)]*C5}/2；

w_j4＝{[(y_j0+y_j7)*C4-(y_j1+y_j6)*C4]-[(y_j2+y_j5)*C4-(y_j3+y_j4)*C4]}/2；

w_j5＝{[(y_j0-y_j7)*C5-(y_j1-y_j6)*C1]+[(y_j2-y_j5)*C7+(y_j3-y_j4)]*C3}/2；

w_j6＝{[(y_j0+y_j7)*C6-(y_j1+y_j6)*C2]+[(y_j2+y_j5)*C2-(y_j3+y_j4)*C6]}/2；

w_j7＝{[(y_j0-y_j7)*C7-(y_j1-y_j6)*C5]+[(y_j2-y_j5)*C3-(y_j3-y_j4)]*C1}/2，(j＝0，...，7)

(6)其中，y_j0，...，y_j7为行变换前的矩阵Y的第j行的元素，w_j0，...，w_j7为行变换后的结果矩阵W的第j行的元素。

从公式(6)可以看出，各个计算公式间含有很多相同运算，例如：y′_j0+y′_j7，y′_j0-y′_j7，y′_j1+y′_j6，y′_j1-y′_j6，y′_j2+y′_j5，y′_j2-y′_j5，y′_j3+y′_j4，y′_j3-y′_j4，因此，可首先计算出这些相同运算项，然后将它们代入各计算公式中。也就是说，相同运算项只需计算一次，之后可供同一行的各元素共享。

将公式(6)中的各个计算公式间的相同运算项用公式(7)表示为：

m_j0＝y′_j0+y′_j7，m_j7＝y′_j0-y′_j7，m_j1＝y′_j1+y′_j6，m_j6＝y′_j1-y′_j6，

(7)

m_j2＝y′_j2+y′_j5，m_j5＝y′_j2-y′_j5，m_j3＝y′_j3+y′_j4，m_j4＝y′_j3-y′_j4其中，y′_j0，...，y′_j7表示向量Y′_j(j＝0，...，7)的8个元素。

将公式(7)代入公式(6)可得到：

w_j0＝(C4*m_j0+C4*m_j1+C4*m_j2+C4*m_j3)/2；

w_j1＝(C1*m_j7+C3*m_j6+C5*m_j5+C7*m_j4)/2；

w_j2＝(C2*m_j0+C6*m_j1-C6*m_j2-C2*m_j3)/2；

w_j3＝(C3*m_j7-C7*m_j6-C1*m_j5-C5*m_j4)/2；

w_j4＝(C4*m_j0-C4*m_j1-C4*m_j2+C4*m_j3)/2；

w_j5＝(C5*m_j7-C1*m_j6+C7*m_j5+C3*m_j4)/2；

w_j6＝(C6*m_j0-C2*m_j1+C2*m_j2-C6*m_j3)/2；

w_j7＝(C7*m_j7-C5*m_j6+C3*m_j5-C1*m_j4)/2，(j＝0，...，7) (8)

步骤202：给出矩阵M_j和系数矩阵P_j(j＝0，...，7)。

矩阵M_j如公式(9)：

M_{j} = [\begin{matrix} m_{j 0} & m_{j 1} & m_{j 7} & m_{j 6} & m_{j 0} & m_{j 1} & m_{j 7} & m_{j 6} \\ m_{j 2} & m_{j 3} & m_{j 5} & m_{j 4} & m_{j 2} & m_{j 3} & m_{j 5} & m_{j 4} \end{matrix}] - - - (9)

由公式(8)可以看出，公式(8)中的各个计算公式实际上都是由公式(7)中的部分相同运算项和一些系数相乘后再相加得到的，为了实现相同运算项和对应系数的加乘，将公式(8)中各个计算公式的系数写成如公式(10)的矩阵形式：

P_{j} = [\begin{matrix} {p 4}_{j} & {p 4}_{j} & {p 1}_{j} & {p 3}_{j} & {p 2}_{j} & {p 6}_{j} & {p 3}_{j} & {- p 7}_{j} \\ {p 4}_{j} & {p 4}_{j} & {p 5}_{j} & {p 7}_{j} & {- p 6}_{j} & {- p 2}_{j} & {- p 1}_{j} & {- p 5}_{j} \\ {p 4}_{j} & {- p 4}_{j} & {p 5}_{j} & {- p 1}_{j} & {p 6}_{j} & {- p 2}_{j} & {p 7}_{j} & {- p 5}_{j} \\ {- p 4}_{j} & {p 4}_{j} & {p 7}_{j} & {p 3}_{j} & {p 2}_{j} & {- p 6}_{j} & {p 3}_{j} & {- p 1}_{j} \end{matrix}],

j＝0，4时，p1_j，p2_j，...，p7_j分别为：

C1*C4，C2*C4，...，C7*C4；

j＝1，7时，p1_j，p2_j，...，p7_j分别为：

C1*C1，C2*C1，...，C7*C1；

j＝2，6时，p1_j，p2_j，...，p7_j分别为：

C1*C2，C2*C2，...，C7*C2；

j＝3，5时，p1_j，p2_j，...，p7_j分别为：

C1*C3，C2*C3，...，C7*C3 (10)

将公式(10)中的系数与公式(8)中的相比可以看出，j＝0，4时，公式(10)中的p1_j，p2_j，...，p7_j比公式(8)多乘了C4，这是为了将列变换时省掉的公因数乘上。同样，j＝1，7，j＝2，6，j＝3，5时，各个对应的系数都要作此处理。

在这里，可暂不考虑列变换时省掉的公因数以及行变换的各计算公式中的公因数可在行变换的最后再将各元素乘上

即可。

步骤203：将P_j和M0_j的对应向量进行加乘。

具体步骤如下：

设矩阵P_j的行向量为：P0_j，P1_j，P2_j，P3_j，矩阵M_j的行向量为：M0_j，M1_j。

a、对P0_j和M0_j进行加乘运算，即将P0_j和M0_j的对应元素相乘，得到8个元素，然后将第0和第1个、第2和第3个、第4和第5个、第6和第7个元素分别相加，得到矩阵Z_j的行向量Z0_j；

b、对P1_j和M1_j进行加乘运算，可得到矩阵Z_j的行向量Z1_j；

c、对P2_j和M0_j进行加乘运算，可得到矩阵Z_j的行向量Z2_j；

d、对P3_j和M1_j进行加乘运算，可得到矩阵Z_j的行向量Z3_j，

最后得到矩阵Z_j：

Z_{j} = [\begin{matrix} {p 4}_{j} * m_{j 0} + {p 4}_{j} * m_{j 1} & {p 1}_{j} * m_{j 7} + {p 3}_{j} * m_{j 6} & {p 2}_{j} * m_{j 0} + {p 6}_{j} * m_{j 1} & {p 3}_{j} * m_{j 7} - {p 7}_{j} * m_{j 6} \\ {p 4}_{j} * m_{j 2} + {p 4}_{j} * m_{j 3} & {p 5}_{j} * m_{j 5} + {p 7}_{j} * m_{j 4} & {- p 6}_{j} * m_{j 2} - {p 2}_{j} * m_{j 3} & {- p 1}_{j} * m_{j 5} - {p 5}_{j} * m_{j 4} \\ {p 4}_{j} * m_{j 0} - {p 4}_{j} * m_{j 1} & {p 5}_{j} * m_{j 7} - {p 1}_{j} * m_{j 6} & {p 6}_{j} * m_{j 0} - {p 2}_{j} * m_{j 1} & {p 7}_{1} * m_{j 7} - {p 5}_{j} * m_{j 6} \\ {- p 4}_{j} * m_{j 2} + {p 4}_{j} * m_{j 3} & {p 7}_{j} * m_{j 5} + {p 3}_{j} * m_{j 4} & {p 2}_{j} * m_{j 2} - {p 6}_{j} * m_{j 3} & {p 3}_{j} * m_{j 5} - {p 1}_{j} * m_{j 4} \end{matrix}] - - - (11)

SSE2提供的加乘指令(PMADDWD)可以实现8个16位整数和另外8个16位整数的加乘。其具体功能如图2所示，设目标寄存器XMM0中存放了8个16位整数：X0，...，X7，源寄存器XMM1中存放了8个16位整数：Y0，...，Y7，则对XMM0和XMM1中的数据利用PMADDWD指令后可以得到结果：X7*Y7+X6*Y6，X5*Y5+X4*Y4，X3*Y3+X2*Y2，X1*Y1+X0*Y0，这4个32位整数存放在XMM0中。

e、将矩阵Z_j的元素z₀₀和z₁₀、z₀₁和z₁₁、z₀₂和z₁₂、z₀₃和z₁₃、z₂₀和z₃₀、z₂₁和z₃₁、z₂₂和z₃₂、z₂₃和z₃₃分别相加，可以得到：

s_j0＝p4_j*(m_j0+m_j1+m_j2+m_j3)；

s_j1＝p1_j*m_j7+p3_j*m_j6+p5_j*m_j5+p7_j*m_j4；

s_j2＝p2_j*(m_j0-m_j3)+p6_j*(m_j1-m_j2)；

s_j3＝p3_j*m_j7-p7_j*m_j6-p1_j*m_j5-p5_j*m_j6；

s_j4＝p4_j*(m_j0-m_j1-m_j2+m_j3)；

s_j5＝p4_j*(m_j0-m_j1)+p4_j*(m_j3-m_j2)；

s_j6＝p₅*m_j7-p1_j*m_j6+p7_j*m_j5+p3_j*m_j4；

s_j7＝p7_j*m_j7-p5_j*m_j6+p3_j*m_j5-p1_j*m_j6， (12)其中，z_uv，u，v＝0，1，2，3为矩阵Z_j第u行的第v个元素，s_j0，...，s_j7为矩阵S的第j行的元素。

该步骤可以利用SSE2提供的加法指令(PADDD)实现，PADDD指令可同时作4个32位整数的加法。

该步骤实际上是依据公式(8)，将矩阵Z_j各列的相邻元素同时相加，这里的相邻元素指的是：矩阵各列的第0个和第1个元素，第2个和第3个元素，第3个和第4个元素，...，即每个元素只和其相邻元素作一次加运算。

f、将s_j0，...，s_j7分别乘上

得到二维DCT的结果矩阵W的第j行的元素w_j0，...，w_j7。

这是因为在作列变换和行变换时都省掉了公因数

依次令j＝0，...，7，执行步骤a～f，即可得到矩阵X经二维DCT变换后的结果矩阵W。

需要指出的是，矩阵M_j和P_j中各个元素的排列次序并不局限于公式(9)和公式(10)所示的情况，只要它们的排列次序满足条件：将M_j和P_j的对应向量加乘并将加乘后得到的矩阵的各列的相邻元素相加后可得到公式(8)中的各元素即可。

另外，由于从寄存器读取数据的规律是：每次读一行，因此，如果行变换采用与列变换相同的并行算法，在进行行变换前必须对列变换的结果矩阵进行转置，即将行列互换，而转置过程比较耗时，因此从总体运算速度考虑，在本发明中行变换采用了依次对各行作一维DCT的算法，避免了行列转置过程，从总体上提高了运算速度。

图3是本发明提供的实现二维DCT的装置图，以8*8的图像子块为例，如图3所示，该装置主要包括：

控制模块30：用于启动输入寄存模块31，并在启动输入寄存模块时启动系数装载模块302。

输入寄存模块31：用于接入8*8的图像子块，并在接收到控制模块的启动指令后将其输出到并行DCT列变换模块32。接入或输出可以矩阵形式，即以每次并行接入或输出1列数据的形式进行，每8次接入或输出为一个矩阵。

并行DCT列变换模块32：用于接收8*8的矩阵，并对8*8的矩阵作并行DCT列变换，将列变换结果以矩阵形式输出到DCT行变换模块33。

DCT行变换模块33：用于依次对并行DCT列变换模块输出矩阵的每一行作一维DCT变换，得到二维DCT的最终结果。

DCT行变换模块主要包括以下子模块：

数据转换模块301：用于接收并行DCT列变换模块32的输出矩阵，并根据公式(6)对该矩阵每一行的各元素进行一维DCT展开，提取并计算各计算公式间的相同运算项，并将计算得到的结果以矩阵形式输出到并行加乘模块303。

系数装载模块302：用于保存行变换的系数，并在接收到控制模块的启动指令后将系数以矩阵形式输出到并行加乘模块303。系数矩阵中元素的排列依据是公式(8)以及数据转换模块301的输出矩阵。

并行加乘模块303：用于根据公式(8)实现系数装载模块302输出的系数矩阵和数据转换模块301输出矩阵的对应行的加乘，并将加乘结果以矩阵形式输出到加模块304。

加模块304：用于根据公式(8)将并行加乘模块303的输出对应相加，得到二维DCT结果矩阵的行向量。

以上所述仅为本发明的过程及方法实施例，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种二维DCT装置，其特征在于，该装置包括：

控制模块：用于启动输入寄存模块；

2、如权利要求1所述的装置，其特征在于，所述DCT行变换模块进一步包括：

3、一种二维DCT方法，其特征在于，该方法包括：

4、如权利要求3所述的方法，其特征在于，所述对单位矩阵的所有列同时进行并行的一维DCT具体为：

5、如权利要求4所述的方法，其特征在于，所述对列变换的所有向量进行优化为，根据每个向量中的乘法运算最少和向量相互间含相同运算最多的原则进行优化。

6、如权利要求3所述的方法，其特征在于，步骤B所述对单位矩阵的每一行作一维DCT具体为：