CN101188761A

CN101188761A - Avs标准中基于并行处理来优化dct快速算法的方法

Info

Publication number: CN101188761A
Application number: CN 200710171618
Authority: CN
Inventors: 陈勇; 李国平
Original assignee: Central Academy of SVA Group Co Ltd
Current assignee: Central Academy of SVA Group Co Ltd
Priority date: 2007-11-30
Filing date: 2007-11-30
Publication date: 2008-05-28

Abstract

本发明提供了一种AVS标准中基于并行处理来优化DCT快速算法的方法，是在DCT蝶形快速算法的基础上进行并行优化，通过采用数据对齐，临时数据存储，指令配对，预取数据，对数据进行扩充或者缩减，并且对系数合并相乘等方法步骤，从而进一步提高运算速度，减少占用CPU的时间，使得编码器能够实时编码图像。

Description

AVS标准中基于并行处理来优化DCT快速算法的方法

技术领域

本发明涉及信号处理中的音视频编解码技术领域，尤其涉及一种视频编码的AVS标准中基于并行处理来优化DCT快速算法的方法。

背景技术

近年出现的一批数字音视频编解码标准，具有代表性的有国际标准H.264/MPEG-4 AVC，我国自主制定的标准AVS等。AVS标准采用了一系列技术来达到高效率的视频编码，包括帧内预测、帧间预测、DCT(离散余弦变换Discrete Cosine Transform)变换、量化和熵编码等。帧间预测使用基于块的运动矢量来消除图像间的冗余，帧内预测使用空间预测模式来消除图像内的冗余，再通过对预测残差进行变换和量化消除图像内的视觉冗余，最后，运动矢量、预测模式、量化参数和变换系数用熵编码进行压缩。但是通过Intel的Vtune(TM)Performance Analyzer性能分析工具可以得到在AVS编码算法中，DCT模块占用了较多的运算时间。

AVS标准中采用的视频基本处理单元是宏块。一个宏块包括一个16×16的亮度样值块和对应的色度样值块。宏块可进一步划分到最小8×8的样本块来进行预测，所以DCT变换的单元是8×8的残差样值矩阵。如下所示的8×8的残差样值矩阵H，经过变换变成系数矩阵CoeffMatrix，变换公式如下：

CoeffMatrix＝T₈×H×T₈ ^T

T₈是变换矩阵，T₈ ^T是T₈的转置矩阵，变换矩阵是AVS标准规定的。

H = [\begin{matrix} h_{00} & h_{01} & h_{02} & h_{03} & h_{04} & h_{05} & h_{06} & h_{07} \\ h_{10} & h_{11} & h_{12} & h_{13} & h_{14} & h_{15} & h_{16} & h_{17} \\ h_{20} & h_{21} & h_{22} & h_{23} & h_{24} & h_{25} & h_{26} & h_{27} \\ h_{30} & h_{31} & h_{32} & h_{33} & h_{34} & h_{35} & h_{36} & h_{37} \\ h_{40} & h_{41} & h_{42} & h_{43} & h_{44} & h_{45} & h_{46} & h_{47} \\ h_{50} & h_{51} & h_{52} & h_{53} & h_{54} & h_{55} & h_{56} & h_{57} \\ h_{60} & h_{61} & h_{62} & h_{63} & h_{64} & h_{65} & h_{66} & h_{67} \\ h_{70} & h_{71} & h_{72} & h_{73} & h_{74} & h_{75} & h_{76} & h_{77} \end{matrix}]

T_{8} = [\begin{matrix} 1 & 10 & 2 & 9 & 1 & 6 & 1 & 2 \\ 1 & 9 & 1 & - 2 & - 1 & 10 & - 2 & - 6 \\ 1 & 6 & - 1 & - 10 & - 1 & 2 & 2 & 9 \\ 1 & 2 & - 2 & - 6 & 1 & 9 & - 1 & - 10 \\ 1 & - 2 & - 2 & 6 & 1 & - 9 & - 1 & 10 \\ 1 & - 6 & - 1 & 10 & - 1 & - 2 & 2 & - 9 \\ 1 & - 9 & 1 & 2 & - 1 & 10 & - 2 & 6 \\ 1 & - 10 & 2 & - 9 & 1 & - 6 & 1 & - 2 \end{matrix}]

CorffMatrix = [\begin{matrix} w_{00} & w_{01} & w_{02} & w_{03} & w_{04} & w_{05} & w_{06} & w_{07} \\ w_{10} & w_{11} & w_{12} & w_{13} & w_{14} & w_{15} & w_{16} & w_{17} \\ w_{20} & w_{21} & w_{22} & w_{23} & w_{24} & w_{25} & w_{26} & w_{27} \\ w_{30} & w_{31} & w_{32} & w_{33} & w_{34} & w_{35} & w_{36} & w_{37} \\ w_{40} & w_{41} & w_{42} & w_{43} & w_{44} & w_{45} & w_{46} & w_{47} \\ w_{50} & w_{51} & w_{52} & w_{53} & w_{54} & w_{55} & w_{56} & w_{57} \\ w_{60} & w_{61} & w_{62} & w_{63} & w_{64} & w_{65} & w_{66} & w_{67} \\ w_{70} & w_{71} & w_{72} & w_{73} & w_{74} & w_{75} & w_{76} & w_{77} \end{matrix}]

DCT变换就是为了实现上述过程。通常DCT变换的快速算法一般可以是从以下几个方面考虑寻找：(a)利用FFT(快速傅里叶变换Fast FourierTransform)算法，对FFT取实部即是DCT结果；(b)利用代数分解寻找类似FFT中的蝶形关系；(c)利用矩阵分解将变换矩阵分解为稀疏矩阵的积，减少运算次数。

在AVS编码器中实现DCT变换的算法采用了蝶形算法，将二维DCT变换变为行列变换的分开操作，对每个8×8块的每行进行变换，然后每列进行变换，从而得到的是一个8×8的变换系数矩阵CoeffMatrix。其中w₀₀位置的元素就是直流分量，CoeffMatrix矩阵中的其他元素根据其位置表示不同频率的交流分量，这样的变化使得矩阵的相乘转化为相加减和移位操作，减少了运算量，但是运算速度仍然有待提高，从而使得编码器能够实时编码图像。

发明内容

本发明提供的一种AVS标准中基于并行处理来优化DCT快速算法的方法，是在DCT蝶形快速算法的基础上进行并行优化，从而进一步提高运算速度，减少占用CPU的时间，使得编码器能够实时编码图像。

为了达到上述目的，本发明根据CPU支持的指令集的不同，针对MMX(Multi Media Extension，多媒体扩展指令集)、SSE(Streaming SIMDExtensions，单指令多数据流扩展指令集)、SSE2(Streaming SIMD Extensions2，单指令多数据流扩展指令集2)、SSE3指令集(Streaming SIMD Extensions3，单指令多数据流扩展指令集3)，提供了一种AVS标准中基于并行处理来优化DCT快速算法的方法，包含以下步骤：

步骤1、数据对齐：

步骤1.1、在一个周期中将数据对齐成整字节的位置，对于128位寄存器需要16字节对齐；

步骤1.2、将8x8的数据块中对齐后的数据逐一取入对应指令的寄存器中，比如MMX寄存器(64位寄存器)、SSE2寄存器(128位寄存器)；

步骤2、寄存器组被占满的情况下还需要寄存器时的临时数据存储：

步骤2.1、划分一块临时数据存储空间；

步骤2.2、将寄存器中的数据存储到临时内存空间中；

步骤2.3、再从临时数据存储空间中将数据取出；

步骤3、指令配对：

CPU在一个时钟周期内能够完成两个不同的指令，符合指令配对原则，该原则是通用配对规则、整数配对规则和MMX指令与整数指令配对规则。在Intel公司的文档Optimizations for Intel′s 32-Bit Processors中有详细规则。只要没有寄存器冲突和指令冲突，就能够同时在同一个时钟周期内完成两条操作；

步骤4、预取数据：

在运算前将内存中需要的数据预先取入到Cache缓存(高速缓冲存储器)中，这样能够加快访问速度；

步骤5、数据扩充或者缩减：

步骤5.1、在运算过程中，采用指令将取入的原本16位shory(16位双字节有符号整数)的数据的高16位和低16位进行扩充，变为32位int(四字节有符号整数)的数据；

步骤5.2、运算结束的时候，将32位int的数据合并成16位short的数据存储到内存地址中，采用指令将两个32位数据进行合并为一个包含高16位和低16位的32位数据；

步骤6、系数合并相乘，同时得到不同系数相乘相加的结果：

步骤6.1、将四个常数系数合并存到一个64位的数中；

步骤6.2、将步骤6.2中得到的64位的数放入一个寄存器中；

步骤6.3、用一条乘加指令在一个周期内得到两个结果；

步骤7、并行处理：

MMX寄存器64位可以存储4个16位数据，SSE2寄存器128位可以存储8个16位数据，这样可以同时对8×8的一行或者一列数据进行处理，加快运算速度，提高效率。

具体实施方式

以下分别针对MMX和SSE2指令集，具体说明本发明的较佳实施方式：

本发明提供了一种AVS标准中基于并行处理来优化DCT快速算法的方法，包含以下步骤：

步骤1、数据对齐：

步骤1.2、将8×8的数据块中对齐后的数据逐一取入对应指令的寄存器中，比如MMX寄存器(64位寄存器)、SSE2寄存器(128位寄存器)；

步骤2.1、划分一块临时数据存储空间；

步骤2.2、将寄存器中的数据存储到临时内存空间中；

步骤2.3、再从临时数据存储空间中将数据取出；

步骤3、指令配对：同一个周期内完成两条没有冲突的不同指令操作；

步骤4、预取数据：在运算前将内存中需要的数据预先取入到Cache缓存中，这样能够加快访问速度；

步骤5、数据扩充或者缩减：

步骤5.1、在运算过程中，采用指令将取入的原本16位short的数据的高16位和低16位进行扩充，变为32位int的数据；

步骤6、系数合并相乘，同时得到不同系数相乘相加的结果：

根据AVS参考软件中DCT的C代码的蝶形变换，行变换需要得到如下形式的结果

10*tmp1+9*tmp2+6*tmp3+2*tmp4；

9*tmp1-2*tmp2-10*tmp3-6*tmp4；

6*tmp1-10*tmp2-2*tmp3+9*tmp4；

2*tmp1-6*tmp2+9*tmp3-10*tmp4。

步骤6.1、将四个常数[10，9]和[9，-2]系数合并为一个数0x000a00090009fffe；

步骤6.2、将步骤6.2中得到的64位的数放入一个寄存器中；

步骤6.3、将寄存器中的64位的数乘以[tmp1，tmp2]同时得到两个相乘相加的结果10*tmp1+9*tmp2，9*tmp1-2*tmp2；

其他的计算相类似，包括列变换需要类似形式的结果；

步骤7、并行处理：

下表为在Pentium 4(英特尔奔腾4)2.4GHz(支持MMX、SSE、SSE2)，512M内存的台式PC平台中，对编码Foreman.cif图像采用本发明的并行处理方法做实验得到的数据，(编码88帧图像，GOP(Group Of Pictures，画面组)格式为IPBBPBB)。

优化方法	C代码	MMX	SSE2
优化方法	C代码	MMX	SSE2	编码运行速度(帧/秒)	10.5465	15.4712	16.5165
相对于C代码提高效率	无	46.69％	56.6％	编码运行速度(帧/秒)	10.5465	15.4712	16.5165

从实验数据看出，本发明提供的一种AVS标准中基于并行处理来优化DCT快速算法的方法，大幅度提高了运算速度，减少占用CPU的时间，使得编码器能够实时编码图像。

Claims

1.一种AVS标准中基于并行处理来优化DCT快速算法的方法，其特征在于，包含以下步骤：

步骤1、数据对齐；

步骤2、寄存器组被占满的情况下还需要寄存器时的临时数据存储；

步骤4、预取数据：在运算前将内存中需要的数据预先取入到高速缓存储器中；

步骤5、数据扩充或者缩减；

步骤6、系数合并相乘，同时得到不同系数相乘相加的结果；

步骤7、并行处理，同时对8×8数据块的一行或者一列数据进行处理。

2.如权利要求1所述的AVS标准中基于并行处理来优化DCT快速算法的方法，其特征在于，所述的步骤1包含以下步骤：

步骤1.2、将8×8的数据块中对齐后的数据逐一取入对应指令的寄存器中。

3.如权利要求1所述的AVS标准中基于并行处理来优化DCT快速算法的方法，其特征在于，所述的步骤2包含以下步骤：

步骤2.1、划分一块临时数据存储空间；

步骤2.2、将寄存器中的数据存储到临时内存空间中；

步骤2.3、再从临时数据存储空间中将数据取出。

4.如权利要求1所述的AVS标准中基于并行处理来优化DCT快速算法的方法，其特征在于，所述的步骤5包含以下步骤：

步骤5.1、在运算过程中，采用指令将取入的原本16位双字节有符号整数数据的高16位和低16位进行扩充，变为32位四字节有符号整数数据；

步骤5.2、运算结束的时候，将32位四字节有符号整数数据合并成16位双字节有符号整数数据存储到内存地址中，采用指令将两个32位数据进行合并为一个包含高16位和低16位的32位数据。

5.如权利要求1所述的AVS标准中基于并行处理来优化DCT快速算法的方法，其特征在于，所述的步骤6包含以下步骤：

步骤6.1、将四个常数系数合并存到一个64位的数中；

步骤6.2、将步骤6.2中得到的64位的数放入一个寄存器中；

步骤6.3、用一条乘加指令在一个周期内得到两个结果。