CN104811738A

CN104811738A - 基于资源共享的低开销多标准8×8一维离散余弦变换电路

Info

Publication number: CN104811738A
Application number: CN201510195893.4A
Authority: CN
Inventors: 杨海钢; 贾瑞; 陈锐; 林郁; 王新刚; 郭珍红
Original assignee: Institute of Electronics of CAS
Current assignee: Institute of Electronics of CAS
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2015-07-29
Anticipated expiration: 2035-04-23
Also published as: CN104811738B

Abstract

本发明提供一种基于硬件资源共享的低开销多标准8×8一维离散余弦变换电路，主要包括4个处理单元PE和蝶形变换网络；所述处理单元包括常系数乘法器、数据分发器、两组累加单元、两寄存器以及两个二选一选择器；其中输入的数据经过常系数乘法器相乘得到乘法结果，乘法结果经过数据分发器的分发，将奇、偶部分别传递到两组累加单元，分别经过两组累加单元的累加计算之后输出到存储单元，然后经两个二选一选择器选择后将最终的计算结果传递到蝶形变换网络中，由蝶形变换网络对接收的信号进行处理，实现一维离散余弦变换电路的设计。本发明目的是提供一种节约电路逻辑资源、提高性能的离散余弦变换电路结构，其能够快速完成离散余弦变换运算。

Description

基于资源共享的低开销多标准8×8一维离散余弦变换电路

技术领域

本发明涉及一种基于硬件资源共享的低开销多标准离散余弦变换电路，尤其涉及一种可用于图像视频领域的8×8尺寸的图像数据进行一维离散余弦变换(Discrete Cosine Transform，DCT)的电路。

背景技术

随着高端多媒体应用的增长，业界提出了越来越多的复杂算法和相应的标准。在视频和图像领域，为了提升编码的效率，也提出了多种视频编码技术，常见的有H.264/AVC、VC-1、AVS和HEVC。作为关键的转化步骤，离散余弦变换(Discrete Cosine Transform，DCT)的工作效率往往决定着整个编码的效率。

事实上，随着业界提出的视频标准的增加，需要一种统一的电路结构能够有效的支持各种现有的标准，同时，也希望能尽可能的减少整个系统的功耗。

视频压缩标准中采用的DCT可以分为两类：离散余弦正变换(Forward DCT,FDCT)和离散余弦逆变换(Inverse DCT,IDCT)。从公式(1)和(2)上可以看出二者在计算方式上有很大的相似性，二者的硬件设计一般可以实现共用。

Y＝CXC^T＝C(CX^T)^T (1)

X＝C^TYC＝C^T(C^TY^T)^T (2)

以8×82D-IDCT为例，系数矩阵中的系数摆放位置和符号关系如图2中的C₈所示，表1列出了不同视频压缩标准的系数比较。公式(1)中的矩阵X是待处理的像素块，矩阵Y是处理结果。从公式(1)或(2)可以看出，2D-IDCT/FDCT的整个计算过程一般会被拆成三部分：基于行的1D-IDCT/FDCT、矩阵转置和基于列的1D-IDCT/FDCT。而这三部分的硬件实现可以划分为两类：流水线结构(如图1(a)所示)和时分复用结构(如图1(b)所示)。前者可以实现流水执行，因此速度很快，后者速度较慢，但是所需的硬件资源较前者少。这两种结构的共同之处在于矩阵转置需要借助于存储器或者寄存器阵列。

1D-IDCT/FDCT的计算一般不会直接通过矩阵乘法实现，而是先将系数矩阵分解为尺寸较小的块矩阵。分解方式是基于文献[1]W.-H.Chen,C.Smith,and S.Fralick.A fast computational algorithm for the discrete cosine transform[J].IEEE Transactions on Communications,1977,25(9):1004-1009.提出的快速DCT算法。

对于1D-IDCT/FDCT的优化往往是通过硬件的共享来减低整个系统的开销。矩阵分解往往是不同硬件共享策略的创新源头。近年来，已有许多研究在文献[1]提出的硬件算法的基础，致力于降低1D-FDCT/IDCT硬件实现的难度，具有代表性的硬件实现算法有：

1)基于常系数(Constant Multiplication)乘法，相应的公开文献有：

[2]H.Qi,Q.Huang,and WenGao.A low-cost very large scale integration architecture formultistandard inverse transform[J].IEEE Transactions on Circuits and Systems—II:Express Briefs,2010,57(7):551-555.

[3]F.Chih-Peng,F.Chia-Hao,C.Chia-Wei,et al..Fast multiple inverse transforms with low-cost hardware sharing design for multistandard video decoding[J].IEEE Transactions on Circuits and Systems—II:Express Briefs,2011,58(8):517-521.

[4]M.Martuza and K.A.Wahid.Low cost design of a hybrid architecture of integer inverse DCT for H.264,VC-1,AVS,and HEVC[J].Journal of Real-Time Image Processing,2012:1-12.

[5]C.-W.Chang,S.-J.Hsu,and C.-P.Fan.Efficient fast transform processor with cost-effective hardware sharing architecture for multi-standard video encoding[C].5th International Congress on Image and Signal Processing(CISP),2012:14-18.

2)基于分布式(Distribute Arithmetic)算法，相应的公开文献为：

[6]S.Yu and E.Swartziander Jr.DCT implementation with distributed arithmetic[J].IEEE Transactions on Computers,2001,50(9):985-991.

3)基于Cordic(COordinate Rotation DIgital Computer)算法，相应的公开文献为：

[7]H.Huang and L.Xiao.CORDIC based fast radix-2DCT algorithm[J].IEEE Signal Processing Letters,2013,20(5):483-486.

其中，常系数乘法主要是通过研究和发掘不同标准系数的共有特性和差异化特性，通过移位和加法运算来实现多标准的系数乘法，通过乘法运算操作的共享来降低系统所需要的开销。分布式算法由于需要额外的ROM和控制逻辑，其在面积开销方面的优势较小。而基于Cordic的算法，通过Cordic迭代执行移位和加法来实现乘法，减低了开销，其计算的鲜明特点是需要迭代，可能会对最高解码率有影响。

目前，现有技术中最主要的技术缺陷：

没有充分考虑硬件共享，没有充分考虑矩阵分解之后，奇、偶部分的相似之处，往往在实现DCT的过程中占用了较多的硬件逻辑资源。

发明内容

有鉴于此，本发明的目的是为了解决现有DCT电路设计未充分考虑硬件共享，而占用较多硬件资源的问题，提出一种基于硬件资源共享的低开销多标准8×8一维离散余弦变换电路，其节约电路逻辑资源，能够快速完成离散余弦变换运算，适用于多种视频编码压缩标准。

实现本发明的技术方案如下：

一种基于硬件资源共享的低开销多标准8×8一维离散余弦变换电路，主要包括以下2部分结构：4个处理单元(Processing Element，PE)和蝶形变换网络，通过4个PE和蝶形变换网络的组合实现了一种低开销的结构。

所述处理单元包括常系数乘法器、数据分发器、两组累加单元、两寄存器以及两个二选一选择器；其中

输入的数据(input)和系数配置信息(cfg_in)，所述输入的数据经过常系数乘法器相乘得到乘法结果，乘法结果经过数据分发器的分发，将奇、偶部分别传递到两组累加单元，分别经过两组累加单元的累加计算之后输出到存储单元，然后经两二选一选择器选择后将最终的计算结果传递到蝶形变换网络中；

所述乘法器包括四个移位器、四个二选一多路选择器及三个加法器，输入的数据(input)先经过四个移位器对其进行移位，移位后的结果经过四个二选一多路选择器进行选择，选择输出的结果经过加法器的相加得到最终的乘法结果；在常系数乘法的整个工作过程中，乘法器中的移位器和二选一多路选择器所需要的配置信息都来源于系数配置信息cfg_in，而cfg_in是由视频标准的系数所产生的；

累加单元包括二选一多路选择器、加法器和寄存器，输入信号经过加法器相加之后将暂时的结果存放在寄存器中，如果还需要进一步和输入的结果进行加法运算，二选一多路选择器就会选择寄存器中的结果和下一次的输入信号在中进一步进行加法运算，当所需要的计算完成之后，计算结果通过add_result输出；

所述蝶形变换网络由4个蝶形变换单元组成，每一蝶形变换单元由加法器和减法器构成，该蝶形变换网络有4个输入端，两个输出端；将4个PE的输出分别定义为Even_i和Odd_i，其中i取0～3；将Even_i和Odd_(3-i)输入第i个蝶形变换单元到减法器，将Odd_i和Even_(3-i)输入到第i个蝶形变换单元的加法器中。

有益效果

a、本发明目的是提供一种节约电路逻辑资源、提高性能的离散余弦变换电路结构，其能够快速完成离散余弦变换运算。

b、本发明基于矩阵分解的方法，设计了一款支持多个视频压缩标准的离散余弦变换的硬件电路结构。

c、本发明通过定PE和蝶形变换网络，实现了用较少逻辑资源来完成矩阵乘法的运算，降低了整个运算所需要的逻辑资源。

d、本发明所提出的整个电路结构形成了一种“阶”流水线结构，能够实现流水处理8×8尺寸的像素块。

e、具有“阶”流的结构对实现整个2维的DCT变换方面也会起到一定优化效果。

附图说明

图1为常见的2D-DCT硬件结构框图；

图2为矩阵分解过程中用到的表达式；

图3为U·X_E和V·X_O的详细表达式；

图4为本发明所提出的一维DCT的整体结构图；

图5为本发明所提出的PE的整体结构图；

图6为本发明所提出的标准系数的编码格式；

图7为本发明所提出的蝶形变换网络的结构；

图8为共享计算资源的一维DCT的整体工作过程；

具体实施方式

表1不同视频编码标准采用的系数；

表2HEVC 8×8系数的编码格式。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的设计思想为：本发明以文献[1]提出的硬件算法为基础，按照图2所示的方式矩阵进行分解，得到1D-FDCT的计算结果主要取决于U·X_E和V·X_O的结论。而且，从矩阵U·X_E和V·X_O所需的计算种类和数目上看，U·X_E和V·X_O属于相类似的矩阵，如图3所示。因此，本发明通过定制处理单元的硬件电路结构，节省面积开销；同时，通过引入“阶段级”的流水线结构，进一步提升了计算效率，降低了对输入输出数据带宽和I/O数目的需求。

如图4所示，本发明所提出的硬件电路结构包括：四个处理单元02～05(对应于图中的PE0～PE3)和蝶形变换网络07。控制不同标准系数的01作为输入的控制信号随着不同的视频标准进行相应的改变。输入信号包括待处理的视频像素和经过编码的视频标准系数(cfg_in)。这些信号被分发到各个处理单元中，进行并行的计算，得到的计算结果经过蝶形变换网络的变换之后便完成了1D FDCT的操作。所得到的结果可以作为下一阶段处理计算的输入信号。整个计算过程是在控制模块06的控制下进行的，保证数据是按照8-clock进行阶段流水的。

为了进一步说明本发明所设计的结构，以下将分别对处理单元和蝶形变换网络进行详细介绍。

针对U·X_E和V·X_O共有属性，为了尽可能的共享计算资源，定制实现了如图5所示的处理单元结构。该结构是由一个常系数乘法器501和两组累加单元513组成。处理单元整体上的工作流程是一个奇、偶交替计算的过程。像素信号采用串行的方式进入到常系数乘法器中，经过计算，按序产生了奇、偶相间的乘积结果；这些结果被分发到对应的两个累加单元中，再经过累加计算，完成了计算得到U·X_E和V·X_O。

本发明在对输入信号做乘法运算所采用的是常系数乘法器501。结合表2，常系数乘法器501(Constant Multiplier，CM)的结构如图5(b)所示，图像的像素串行输入到常系数乘法器中，视频标准的系数cfg_in按照图6示的编码格式进行编码，对移位器50101、50102、50103、50104(sh1,sh2,sh3,sh4)和2选1的多路选择器50108、50107、50106、50105(CM1,CM2,CM3,CM4)进行控制。经过移位和选择出的结果通过加法器50111、50110、50109完成了最终的乘法运算。对应的表2，作为一个例子，给出了HEVC标准对应系数的编码格式。

本发明所提出的处理单元PE，包括有组累加单元，参考图5。二选一多路选择器503、加法器511和寄存器510构成一组累加单元，二选一多路选择器508、加法器512和寄存器509构成另一组累加单元.。参考图5(c)，累加单元包括一个加法器、寄存器和一个2选1的多路选择器。通过多次累加，对常系数乘法器输出的结果进行了累加求和，减少了完成整个计算所需要的加法器的数目，为整个系统实现低开销提供了可能。

本发明所提出的蝶形变换网络如图7所示。一维DCT的最终结果是通过蝶形变换网络得到的。输入的信号是各个处理单元产生的计算结果(Even_i和Odd_i对应于U·X_E和V·X_O)。为了做到整个蝶形变换网络的模块化，先设计实现蝶形变换单元701，它是由一个加法器70102和一个减法器70101组成。四个蝶形变换单元701组成最终的蝶形变换网络702。

本发明所提出的一维DCT结构的整体工作过程如图8所示。4个处理单元中的操作时完全同步的。奇、偶操作交替进行，完成一次运算需要8个时钟周期。采用这种方式，一维DCT能够连续不断的以8个时钟作为周期进行运算。本发明所提出的一维DCT结构基于矩阵U·X_E和V·X_O的共性，实现了加法器和乘法器的共享，减小了用于矩阵运算的所需要的逻辑资源，实现了系统的低开销。

本发明在常用的矩阵分解方法的基础上总结奇数和偶数部分的共同特点，提出了一种新的DCT结构，在实现常系数乘法时所采用的时采用的是“移位”和“加/减”的操作，采用其他类似方法实现系数乘法的设计都属于本发明的可替代方案。

本发明的被处理数据的位宽也不受限制，可以根据实际应用确定该设计的被处理数据的位宽，根据被处理数据位宽变化所产生的结构方面的修饰都属于本发明的替代方案。

本法明所提出的定制PE和定制蝶形变换网络结构实现了逻辑资源的共享，采用其他类似的定制方法或者是在本定制方法上任何的修饰和改进都属于本发明的替代方案。

表1不同视频编码标准采用的系数

MPEG-1/2/4

AVS

VC-1

H.264

HEVC

[0060]

a	362	8	12	8	64
						b	502	10	16	12	89
c	426	9	15	10	75
						d	284	6	9	6	50
e	100	2	4	3	18
						f	473	10	16	8	83
g	196	4	6	4	36

表2HEVC 8×8系数的编码格式

Claims

1.一种基于硬件资源共享的低开销多标准8×8一维离散余弦变换电路，其特征在于，主要包括4个处理单元PE和蝶形变换网络；

所述处理单元包括常系数乘法器(501)、数据分发器(502)、两组累加单元(513)、两寄存器(505,506)以及两个二选一选择器(504,507)；其中输入的数据经过常系数乘法器(501)相乘得到乘法结果，乘法结果经过数据分发器(502)的分发，将奇、偶部分别传递到两组累加单元，分别经过两组累加单元的累加计算之后输出到存储单元(506,505)，然后经两个二选一选择器(504,507)选择后将最终的计算结果传递到蝶形变换网络中；

所述乘法器(501)包括四个移位器(50101、50102、50103、50104)、四个二选一多路选择器(50108、50107、50106、50105)及三个加法器(50111、50109和50110)，输入的数据先经过四个移位器对其进行移位，移位后的结果经过四个二选一多路选择器进行选择，选择输出的结果经过加法器的相加得到最终的乘法结果；

累加单元(513)包括二选一多路选择器(503)、加法器(511)和寄存器(510)，输入信号经过加法器相加之后将暂时的结果存放在寄存器中，如果还需要进一步和输入的结果进行加法运算，二选一多路选择器就会选择寄存器中的结果和下一次的输入信号在中进一步进行加法运算，当所需要的计算完成之后，将计算结果输出；

所述蝶形变换网络由4个蝶形变换单元(701)组成，每一蝶形变换单元由加法器和减法器构成，该蝶形变换单元有4个输入端，两个输出端；将4个PE的输出分别定义为Even_i和Odd_i，其中i取0～3；将Even_i和Odd_(3-i)输入第i个蝶形变换单元到减法器，将Odd_i和Even_(3-i)输入到第i个蝶形变换单元的加法器中。