CN104581174A - 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 - Google Patents
一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 Download PDFInfo
- Publication number
- CN104581174A CN104581174A CN201510033123.XA CN201510033123A CN104581174A CN 104581174 A CN104581174 A CN 104581174A CN 201510033123 A CN201510033123 A CN 201510033123A CN 104581174 A CN104581174 A CN 104581174A
- Authority
- CN
- China
- Prior art keywords
- dct
- idct
- hardware
- multiplexing
- throughput
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明属于高清数字视频压缩编解码技术领域,具体为一种适用于HEVC视频编码标准下可配置的高吞吐率的DCT与IDCT硬件复用架构。DCT能够去除图像的空间冗余信息,提高图像的压缩效率,IDCT是DCT的逆过程,编码器中需要DCT和IDCT计算,解码器中需要IDCT计算,通过一定的算法改进DCT和IDCT可以用一套硬件实现,相比于DCT和IDCT的分立实现,复用结构可以大大减小硬件开销。发明基于变换单元(TU)进行,支持HEVC允许的4种TU大小(4x4、8x8、16x16、32x32)并可实现固定的吞吐率,可同时支持DCT和IDCT。发明可以有效的减小DCT与IDCT的硬件实现开销并实现固定的高吞吐率,从而高效的实现高清视频的实时编码。
Description
技术领域
本发明属于高清数字视频压缩编解码技术领域,针对HEVC视频编解码标准,具体涉及一种适用于HEVC视频编码标准下视频编码器和解码器中可配置的高吞吐率DCT/IDCT硬件复用结构。
背景技术
HEVC(High Efficiency Video Coding)是由国际电信组织(ITU)和运动图像专家组(MPEG)联合成立的组织JCTVC提出的下一代视频编解码标准。目标是在相同的视觉效果的前提下,相比于上一代标准H.264/AVC,压缩率提高一倍。压缩率的提高是以计算复杂度的成倍提高为代价。
绝大部分图像中直流和低频区占很大一部分,而高频区则占很小一部分。DCT变换可将图像从空间域变换到频域,产生相关性很小的一些变换系数,有利于图像压缩。IDCT是DCT的逆过程,应用于解码端为进一步提高图像压缩律,HEVC编码标准支持16x16和32x32的二维整形DCT/IDCT。
HEVC规定了4x4,8x8,16x16,32x32的DCT/IDCT所使用的矩阵。这些矩阵有如下规律:偶数行元素左右对称,奇数行元素左右反对称,偶数行元素组成的矩阵还可继续分解。N点DCT和IDCT矩阵AN和AN T可按下式进行分解:
其中,PN和PN T可实现排序功能,PN T为PN的转置,PN具体如下:
BN和BN T实现蝶形运算的功能,具体如下:
其中,EN/2为单位对角矩阵,为反对角单位矩阵。
AN/2和AN/2 T分别为N/2点DCT和IDCT矩阵,可以继续分解。RN/2为从N点DCT矩阵的奇数行中提取的矩阵,RN/2 T为RN/2的转置矩阵。
DCT和IDCT模块是编解码系统性能的瓶颈所在,为了达到对高清视频实时编解码的要求,提高DCT和IDCT模块的性能十分必要。
发明内容
本发明的目的在于提出一种可以克服现有技术不足,适用于HEVC视频编码标准下视频编码器和解码器中可配置的高吞吐率DCT和IDCT硬件复用结构。
本发明提出高吞吐率DCT和IDCT硬件复用结构,其硬件结构是可配置的,可由四种基本的硬件结构单元组成:①PE_N(N点排序单元,具体顺序视DCT和IDCT而定);②A4/A4T(4点DCT和IDCT硬件复用单元);③RN/RNT(N点奇数矩阵计算单元);④BE_N(N点蝶形单元)。
DCT和IDCT硬件复用结构,同时支持DCT和IDCT运算,固定吞吐率为32piexs/cycle,可同时处理8条4X4的输入,4条8x8的输入,2条16x16的输入,1条32x32的输入。以A4和A4 T为基本单元,X表示输入,Y表示相应的DCT或IDCT的输出。公式(2)-(5)显示了实现固定吞吐率32piexs/cycle的DCT需要的硬件,公式(6)-(9)显示了实现固定吞吐率32piexs/cycle的IDCT需要的硬件。不同尺寸的DCT和IDCT之间部分硬件可以共享。
[Y040 T,Y041 T,Y042 T,Y043 T,Y140 T,Y141 T,Y142 T,Y143 T]T=
diag(A4,A4,A4,A4,A4,A4,A4,A4)*[X040 X041 X042 X043 X140 X141 X142 X143]T (2)
[Y80 T,Y81 T,Y82 T,Y83 T]T=diag(A8,A8,A8,A8)*[X80 X81 X82 X83]T
diag(P8,P8,P8,P8)*diag(A4,R4,A4,R4,A4,R4,A4,R4)*diag(B8,B8,B8,B8)*[X80 X81 X82 X83]T (3)
[Y160 T,Y161 T]T=diag(A16,A16)*[X160 X161]T
=diag(P16,P16)*diag(A8,R8,A8,R8)*diag(B16,B16)*[X160 X161]T
=diag(P16,P16)*diag(P8,E8,P8,E8)*diag(A4,R4,R8,A4,R4,R8)*diag(B8,E8,B8,E8)*
diag(B16,B16)*[X160 X161]T (4)
Y32=A32*X32 T=P32*diag(A16,R16)*B32*X32 T
=P32*diag(P16,E16)*diag(A8,R8,R16)*diag(B16,E16)*B32*X32 T=
P32*diag(P16,E16)*diag(P8,E24)*diag(A4,R4,R8,R16)*diag(B8,E24)*diag(B16,E16)*B32*X32 T
(5)
[Y040 T,Y041 T,Y042 T,Y043 T,Y140 T,Y141 T,Y142 T,Y143 T]T=
diag(A4 T,A4 T,A4 T,A4 T,A4 T,A4 T,A4 T,A4 T)*[X040 X041 X042 X043 X140 X141 X142 X143]T (6)
[Y80 T,Y81 T,Y82 T,Y83 T]T=diag(A8 T,A8 T,A8 T,A8 T)*[X80 X81 X82 X83]T
=diag(B8,B8,B8,B8)*diag(A4 T,R4 T,A4 T,R4 T,A4 T,R4 T,A4 T,R4 T)*diag(P8 T,P8 T,P8 T,P8 T)*
[X80 X81 X82 X83]T (7)
[Y160 T,Y161 T]T=diag(A16,A16)*[X160 X161]T
=diag(B16,B16)*diag(A8 T,R8 T,A8 T,R8 T)*diag(P16 T,P16 T)*[X160 X161]T
=diag(B16,B16)*diag(B8,E8,B8,E8)*diag(A4 T,R4 T,R8 T,A4 T,R4 T,R8 T)*diag(P8 T,E8,P8 T,E8)*
diag(P16 T,P16 T)*[X160 X161]T (8)
Y32=AN T*X32 T=B32*diag(B16,E16)*diag(B8,E8,E8,E8)
*diag(A4 T,R4 T,R8 T,R16 T)*diag(P8 T,E8,E8,E8)*diag(P16 T,E16)*P32 T*X32 T (9)
用于DCT计算的N点奇数矩阵(RN)和用于IDCT计算的N点奇数矩阵(RNT)中对应位置的元素绝对值相同,符号不同。符号具有如下规律:偶数行中偶数列对应位置的元素符号相同,奇数列对应位置的元素符号不同;奇数行中偶数列对应位置的元素符号不同,奇数列对应位置的元素符号相同。RN和RNT矩阵运算的硬件实现可以基于MCM(多常数乘法器)和log2N级加法器树阵列实现。调整加法器树的输入顺序,并对第一级加法器的输出结果进行有选择的取反控制,即可实现RN和RNT单元的硬件复用。
复用A4和A4T,RN和RNT(N=4,8,16)的硬件单元和两套蝶形硬件单元及两套排序单元,可以得到DCT与IDCT复用模块的硬件结构。蝶形硬件单元包括一个BE_32模块,两个BE_16模块,四个BE_8模块。排序硬件单元包括一个PE_32模块,两个PE_16模块,四个PE_8模块。需要的矩阵运算单元包括八个A4和A4T复用模块,四个R4和R4T复用模块,,两个R8和R8T复用模块,一个R16和R16T复用模块。
附图说明
图1:DCT和IDCT复用结构。
图2:8点蝶形硬件模块。
图3:A4和A4T复用模块。
图4:R4和R4T复用模块。
具体实施方式
图1所示为可配置的高吞吐率DCT和IDCT可复用结构。size和inv为两个控制信号,当inv=0时进行DCT操作,inv=1时进行IDCT操作。size=00时进行4x4一维DCT或IDCT运算,输入为8条4x4的图像;size=01时进行8x8一维DCT或IDCT运算,输入为4条8x8的像素;size=10时进行16x16一维DCT或IDCT运算,输入为2条16x16像素;size=11时进行32x32的一维DCT或IDCT运算,输入为1条32x32的像素。
图2为BE_8模块,sel为控制信号,由size信号确定。当sel=0时,信号直接通过BE_8模块;sel=1时,模块对输入信号进行蝶形运算。
图3为A4和A4T矩阵运算的硬件复用模块。inv为控制信号,当inv=0时进行A4的矩阵运算;当inv=1时进行A4T的矩阵运算。
图4为R4和R4T复用模块的硬件结构。图(a)所示为用于R4和R4T矩阵运算模块的多常数乘法器结构。图(b)所示为R4和R4T复用模块的具体硬件结构,inv为控制信号,inv=0时进行关于R4的矩阵运算,inv=1时进行关于R4T的矩阵运算。R8和R8T,R16和R16T复用模块的硬件结构可以通过同样的方法得到。
Claims (2)
1.一种可配置的高吞吐率DCT和IDCT硬件复用结构,适用于HEVC视频编码标准下视频编码器和解码器,其特征在于由四种基本的硬件结构单元组成:
N点排序单元,记为PE_N; 4点DCT和IDCT硬件复用单元,记为A4/A4T;
N点奇数矩阵计算单元,记为RN/RNT;N点蝶形单元,记为BE_N;
以A4和为基本单元,X表示输入,Y表示相应的DCT或IDCT的输出,下述公式(2)-(5)显示实现固定吞吐率32piexs/cycle的DCT需要的硬件,公式(6)-(9)显示实现固定吞吐率32piexs/cycle的IDCT需要的硬件,不同尺寸的DCT和IDCT之间部分硬件共享:
。
2.根据权利要求1所述的可配置的高吞吐率DCT和IDCT硬件复用结构,其特征在于:
RN:用于DCT计算的N点奇数矩阵,和RNT:用于IDCT计算的N点奇数矩阵中对应位置的元素绝对值相同,符号不同;符号具有如下规律:偶数行中偶数列对应位置的元素符号相同,奇数列对应位置的元素符号不同;奇数行中偶数列对应位置的元素符号不同,奇数列对应位置的元素符号相同;
RN和RNT矩阵运算的硬件实现可以基于多常数乘法器和级加法器树阵列实现;调整加法器树的输入顺序,并对第一级加法器的输出结果进行有选择的取反控制,即实现RN和RNT单元的硬件复用;
复用A4和A4T,RN和RNT的硬件单元和两套蝶形硬件单元及两套排序单元,得到DCT与IDCT复用模块的硬件结构,,N=4,8,16;蝶形硬件单元包括一个BE_32模块,两个BE_16模块,四个BE_8模块;排序硬件单元包括一个PE_32模块,两个PE_16模块,四个PE_8模块;需要的矩阵运算单元包括八个A4和A4T复用模块,四个R4和R4T复用模块,,两个R8和R8T复用模块,一个R16和R16T复用模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510033123.XA CN104581174B (zh) | 2015-01-22 | 2015-01-22 | 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510033123.XA CN104581174B (zh) | 2015-01-22 | 2015-01-22 | 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104581174A true CN104581174A (zh) | 2015-04-29 |
CN104581174B CN104581174B (zh) | 2018-04-03 |
Family
ID=53096233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510033123.XA Active CN104581174B (zh) | 2015-01-22 | 2015-01-22 | 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104581174B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106210715A (zh) * | 2015-05-06 | 2016-12-07 | 北京君正集成电路股份有限公司 | 一种hevc标准中视频编解码变换方法及装置 |
CN108184127A (zh) * | 2018-01-13 | 2018-06-19 | 福州大学 | 一种可配置的多尺寸dct变换硬件复用架构 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6308193B1 (en) * | 1998-01-30 | 2001-10-23 | Hyundai Electronics Ind. Co., Ltd. | DCT/IDCT processor |
CN102387367A (zh) * | 2011-11-08 | 2012-03-21 | 复旦大学 | 适用于多种视频标准、多尺寸二维整数余弦变换的通用方法 |
CN102404569A (zh) * | 2011-11-08 | 2012-04-04 | 复旦大学 | 可用于多种视频标准、多尺寸二维整数余弦反变换的通用方法 |
CN102769754A (zh) * | 2012-08-02 | 2012-11-07 | 豪威科技(上海)有限公司 | H264编码器及其图像变换、量化及重构的方法 |
CN103237219A (zh) * | 2013-04-24 | 2013-08-07 | 南京龙渊微电子科技有限公司 | 二维离散余弦变换/逆离散余弦变换电路及方法 |
-
2015
- 2015-01-22 CN CN201510033123.XA patent/CN104581174B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6308193B1 (en) * | 1998-01-30 | 2001-10-23 | Hyundai Electronics Ind. Co., Ltd. | DCT/IDCT processor |
CN102387367A (zh) * | 2011-11-08 | 2012-03-21 | 复旦大学 | 适用于多种视频标准、多尺寸二维整数余弦变换的通用方法 |
CN102404569A (zh) * | 2011-11-08 | 2012-04-04 | 复旦大学 | 可用于多种视频标准、多尺寸二维整数余弦反变换的通用方法 |
CN102769754A (zh) * | 2012-08-02 | 2012-11-07 | 豪威科技(上海)有限公司 | H264编码器及其图像变换、量化及重构的方法 |
CN103237219A (zh) * | 2013-04-24 | 2013-08-07 | 南京龙渊微电子科技有限公司 | 二维离散余弦变换/逆离散余弦变换电路及方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106210715A (zh) * | 2015-05-06 | 2016-12-07 | 北京君正集成电路股份有限公司 | 一种hevc标准中视频编解码变换方法及装置 |
CN106210715B (zh) * | 2015-05-06 | 2019-02-15 | 北京君正集成电路股份有限公司 | 一种hevc标准中视频编解码变换方法及装置 |
CN108184127A (zh) * | 2018-01-13 | 2018-06-19 | 福州大学 | 一种可配置的多尺寸dct变换硬件复用架构 |
CN108184127B (zh) * | 2018-01-13 | 2020-06-12 | 福州大学 | 一种可配置的多尺寸dct变换硬件复用架构 |
Also Published As
Publication number | Publication date |
---|---|
CN104581174B (zh) | 2018-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3417621B1 (en) | Multi-pass non-separable transforms for video coding | |
JP2023179682A (ja) | 隣接サンプル減少を伴う線形またはアフィン変換を使用するイントラ予測 | |
CN103098473A (zh) | 对帧内预测使用自适应dct/dst的低复杂度变换编码 | |
Zhao et al. | High-performance multiplierless transform architecture for HEVC | |
CN103636205A (zh) | 具有低延迟的用于残差编码的模式依赖变换 | |
Yan et al. | Implementation of HEVC decoder on x86 processors with SIMD optimization | |
CN107623854B (zh) | 部分解码电路和部分编码电路 | |
Afonso et al. | Low cost and high throughput FME interpolation for the HEVC emerging video coding standard | |
CN108200439B (zh) | 提高数字信号变换性能的方法及数字信号变换方法和装置 | |
CN101083769B (zh) | 处理n比特视频数据的编/解码器和编/解码方法 | |
CN104581174A (zh) | 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 | |
US6181831B1 (en) | Spatial frequency-domain video signal processing | |
EP2750386A1 (en) | Image coding and decoding method and device | |
JPS622721A (ja) | 画像信号の符号化・復号化装置 | |
CN104270643A (zh) | 基于single-port SRAM的转置矩阵的地址映射算法 | |
CN105227959A (zh) | 用于视频编码的多编码点混编流水方法及其装置 | |
WO2020060832A1 (en) | Fast implementation of odd one dimensional transforms | |
CN104602026B (zh) | 一种适用于hevc标准下编码器中全复用的重建环路结构 | |
CN101472174A (zh) | 视频解码器中用于复原原始图像数据的方法及装置 | |
CN104754363A (zh) | 用于hevc的环路滤波方法及装置、编码器及解码器 | |
CN103327332B (zh) | 一种hevc标准中8×8idct变换的实现方法 | |
Wang et al. | High definition IEEE AVS decoder on ARM NEON platform | |
KR101423083B1 (ko) | Hevc 복호기용 역변환기 설계 방법 | |
Jiang et al. | A fine-grained parallel intra prediction for HEVC based on GPU | |
CN105430413A (zh) | 一种适用于hevc标准中整数运动估计的四分块硬件扫描方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |