CN104581174A - 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 - Google Patents

一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 Download PDF

Info

Publication number
CN104581174A
CN104581174A CN201510033123.XA CN201510033123A CN104581174A CN 104581174 A CN104581174 A CN 104581174A CN 201510033123 A CN201510033123 A CN 201510033123A CN 104581174 A CN104581174 A CN 104581174A
Authority
CN
China
Prior art keywords
dct
idct
hardware
multiplexing
throughput
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510033123.XA
Other languages
English (en)
Other versions
CN104581174B (zh
Inventor
范益波
谢峥
黄磊磊
王利鸣
程魏
曾晓洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201510033123.XA priority Critical patent/CN104581174B/zh
Publication of CN104581174A publication Critical patent/CN104581174A/zh
Application granted granted Critical
Publication of CN104581174B publication Critical patent/CN104581174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于高清数字视频压缩编解码技术领域,具体为一种适用于HEVC视频编码标准下可配置的高吞吐率的DCT与IDCT硬件复用架构。DCT能够去除图像的空间冗余信息,提高图像的压缩效率,IDCT是DCT的逆过程,编码器中需要DCT和IDCT计算,解码器中需要IDCT计算,通过一定的算法改进DCT和IDCT可以用一套硬件实现,相比于DCT和IDCT的分立实现,复用结构可以大大减小硬件开销。发明基于变换单元(TU)进行,支持HEVC允许的4种TU大小(4x4、8x8、16x16、32x32)并可实现固定的吞吐率,可同时支持DCT和IDCT。发明可以有效的减小DCT与IDCT的硬件实现开销并实现固定的高吞吐率,从而高效的实现高清视频的实时编码。

Description

一种适用于HEVC标准的高吞吐率DCT和IDCT硬件复用结构
技术领域
本发明属于高清数字视频压缩编解码技术领域,针对HEVC视频编解码标准,具体涉及一种适用于HEVC视频编码标准下视频编码器和解码器中可配置的高吞吐率DCT/IDCT硬件复用结构。
背景技术
HEVC(High Efficiency Video Coding)是由国际电信组织(ITU)和运动图像专家组(MPEG)联合成立的组织JCTVC提出的下一代视频编解码标准。目标是在相同的视觉效果的前提下,相比于上一代标准H.264/AVC,压缩率提高一倍。压缩率的提高是以计算复杂度的成倍提高为代价。
绝大部分图像中直流和低频区占很大一部分,而高频区则占很小一部分。DCT变换可将图像从空间域变换到频域,产生相关性很小的一些变换系数,有利于图像压缩。IDCT是DCT的逆过程,应用于解码端为进一步提高图像压缩律,HEVC编码标准支持16x16和32x32的二维整形DCT/IDCT。
HEVC规定了4x4,8x8,16x16,32x32的DCT/IDCT所使用的矩阵。这些矩阵有如下规律:偶数行元素左右对称,奇数行元素左右反对称,偶数行元素组成的矩阵还可继续分解。N点DCT和IDCT矩阵AN和AN T可按下式进行分解:
A N = P N * A N / 2 0 0 R N / 2 * B N
A N T = B N * A N / 2 T 0 0 R N / 2 T * P N T - - - ( 1 )
其中,PN和PN T可实现排序功能,PN T为PN的转置,PN具体如下:
P N ( i , j ) = 1 for i = 2 * jori = ( j - N / 2 ) * 2 + 1 ; = 0 otherwise ;
BN和BN T实现蝶形运算的功能,具体如下:
其中,EN/2为单位对角矩阵,为反对角单位矩阵。
AN/2和AN/2 T分别为N/2点DCT和IDCT矩阵,可以继续分解。RN/2为从N点DCT矩阵的奇数行中提取的矩阵,RN/2 T为RN/2的转置矩阵。
DCT和IDCT模块是编解码系统性能的瓶颈所在,为了达到对高清视频实时编解码的要求,提高DCT和IDCT模块的性能十分必要。
发明内容
本发明的目的在于提出一种可以克服现有技术不足,适用于HEVC视频编码标准下视频编码器和解码器中可配置的高吞吐率DCT和IDCT硬件复用结构。
本发明提出高吞吐率DCT和IDCT硬件复用结构,其硬件结构是可配置的,可由四种基本的硬件结构单元组成:①PE_N(N点排序单元,具体顺序视DCT和IDCT而定);②A4/A4T(4点DCT和IDCT硬件复用单元);③RN/RNT(N点奇数矩阵计算单元);④BE_N(N点蝶形单元)。
DCT和IDCT硬件复用结构,同时支持DCT和IDCT运算,固定吞吐率为32piexs/cycle,可同时处理8条4X4的输入,4条8x8的输入,2条16x16的输入,1条32x32的输入。以A4和A4 T为基本单元,X表示输入,Y表示相应的DCT或IDCT的输出。公式(2)-(5)显示了实现固定吞吐率32piexs/cycle的DCT需要的硬件,公式(6)-(9)显示了实现固定吞吐率32piexs/cycle的IDCT需要的硬件。不同尺寸的DCT和IDCT之间部分硬件可以共享。
[Y040 T,Y041 T,Y042 T,Y043 T,Y140 T,Y141 T,Y142 T,Y143 T]T
diag(A4,A4,A4,A4,A4,A4,A4,A4)*[X040 X041 X042 X043 X140 X141 X142 X143]T (2)
[Y80 T,Y81 T,Y82 T,Y83 T]T=diag(A8,A8,A8,A8)*[X80 X81 X82 X83]T
diag(P8,P8,P8,P8)*diag(A4,R4,A4,R4,A4,R4,A4,R4)*diag(B8,B8,B8,B8)*[X80 X81 X82 X83]T (3)
[Y160 T,Y161 T]T=diag(A16,A16)*[X160 X161]T
=diag(P16,P16)*diag(A8,R8,A8,R8)*diag(B16,B16)*[X160 X161]T
=diag(P16,P16)*diag(P8,E8,P8,E8)*diag(A4,R4,R8,A4,R4,R8)*diag(B8,E8,B8,E8)*
diag(B16,B16)*[X160 X161]T (4)
Y32=A32*X32 T=P32*diag(A16,R16)*B32*X32 T
=P32*diag(P16,E16)*diag(A8,R8,R16)*diag(B16,E16)*B32*X32 T
P32*diag(P16,E16)*diag(P8,E24)*diag(A4,R4,R8,R16)*diag(B8,E24)*diag(B16,E16)*B32*X32 T
(5)
[Y040 T,Y041 T,Y042 T,Y043 T,Y140 T,Y141 T,Y142 T,Y143 T]T
diag(A4 T,A4 T,A4 T,A4 T,A4 T,A4 T,A4 T,A4 T)*[X040 X041 X042 X043 X140 X141 X142 X143]T (6)
[Y80 T,Y81 T,Y82 T,Y83 T]T=diag(A8 T,A8 T,A8 T,A8 T)*[X80 X81 X82 X83]T
=diag(B8,B8,B8,B8)*diag(A4 T,R4 T,A4 T,R4 T,A4 T,R4 T,A4 T,R4 T)*diag(P8 T,P8 T,P8 T,P8 T)*
[X80 X81 X82 X83]T (7)
[Y160 T,Y161 T]T=diag(A16,A16)*[X160 X161]T
=diag(B16,B16)*diag(A8 T,R8 T,A8 T,R8 T)*diag(P16 T,P16 T)*[X160 X161]T
=diag(B16,B16)*diag(B8,E8,B8,E8)*diag(A4 T,R4 T,R8 T,A4 T,R4 T,R8 T)*diag(P8 T,E8,P8 T,E8)*
diag(P16 T,P16 T)*[X160 X161]T (8)
Y32=AN T*X32 T=B32*diag(B16,E16)*diag(B8,E8,E8,E8)
*diag(A4 T,R4 T,R8 T,R16 T)*diag(P8 T,E8,E8,E8)*diag(P16 T,E16)*P32 T*X32 T (9)
用于DCT计算的N点奇数矩阵(RN)和用于IDCT计算的N点奇数矩阵(RNT)中对应位置的元素绝对值相同,符号不同。符号具有如下规律:偶数行中偶数列对应位置的元素符号相同,奇数列对应位置的元素符号不同;奇数行中偶数列对应位置的元素符号不同,奇数列对应位置的元素符号相同。RN和RNT矩阵运算的硬件实现可以基于MCM(多常数乘法器)和log2N级加法器树阵列实现。调整加法器树的输入顺序,并对第一级加法器的输出结果进行有选择的取反控制,即可实现RN和RNT单元的硬件复用。
复用A4和A4T,RN和RNT(N=4,8,16)的硬件单元和两套蝶形硬件单元及两套排序单元,可以得到DCT与IDCT复用模块的硬件结构。蝶形硬件单元包括一个BE_32模块,两个BE_16模块,四个BE_8模块。排序硬件单元包括一个PE_32模块,两个PE_16模块,四个PE_8模块。需要的矩阵运算单元包括八个A4和A4T复用模块,四个R4和R4T复用模块,,两个R8和R8T复用模块,一个R16和R16T复用模块。
附图说明
图1:DCT和IDCT复用结构。
图2:8点蝶形硬件模块。
图3:A4和A4T复用模块。
图4:R4和R4T复用模块。
具体实施方式
图1所示为可配置的高吞吐率DCT和IDCT可复用结构。size和inv为两个控制信号,当inv=0时进行DCT操作,inv=1时进行IDCT操作。size=00时进行4x4一维DCT或IDCT运算,输入为8条4x4的图像;size=01时进行8x8一维DCT或IDCT运算,输入为4条8x8的像素;size=10时进行16x16一维DCT或IDCT运算,输入为2条16x16像素;size=11时进行32x32的一维DCT或IDCT运算,输入为1条32x32的像素。
图2为BE_8模块,sel为控制信号,由size信号确定。当sel=0时,信号直接通过BE_8模块;sel=1时,模块对输入信号进行蝶形运算。
图3为A4和A4T矩阵运算的硬件复用模块。inv为控制信号,当inv=0时进行A4的矩阵运算;当inv=1时进行A4T的矩阵运算。
图4为R4和R4T复用模块的硬件结构。图(a)所示为用于R4和R4T矩阵运算模块的多常数乘法器结构。图(b)所示为R4和R4T复用模块的具体硬件结构,inv为控制信号,inv=0时进行关于R4的矩阵运算,inv=1时进行关于R4T的矩阵运算。R8和R8T,R16和R16T复用模块的硬件结构可以通过同样的方法得到。

Claims (2)

1.一种可配置的高吞吐率DCT和IDCT硬件复用结构,适用于HEVC视频编码标准下视频编码器和解码器,其特征在于由四种基本的硬件结构单元组成: N点排序单元,记为PE_N; 4点DCT和IDCT硬件复用单元,记为A4/A4T N点奇数矩阵计算单元,记为RN/RNTN点蝶形单元,记为BE_N;
以A4和为基本单元,X表示输入,Y表示相应的DCT或IDCT的输出,下述公式(2)-(5)显示实现固定吞吐率32piexs/cycle的DCT需要的硬件,公式(6)-(9)显示实现固定吞吐率32piexs/cycle的IDCT需要的硬件,不同尺寸的DCT和IDCT之间部分硬件共享:
2.根据权利要求1所述的可配置的高吞吐率DCT和IDCT硬件复用结构,其特征在于:
RN:用于DCT计算的N点奇数矩阵,和RNT:用于IDCT计算的N点奇数矩阵中对应位置的元素绝对值相同,符号不同;符号具有如下规律:偶数行中偶数列对应位置的元素符号相同,奇数列对应位置的元素符号不同;奇数行中偶数列对应位置的元素符号不同,奇数列对应位置的元素符号相同;
RN和RNT矩阵运算的硬件实现可以基于多常数乘法器和级加法器树阵列实现;调整加法器树的输入顺序,并对第一级加法器的输出结果进行有选择的取反控制,即实现RN和RNT单元的硬件复用;
复用A4和A4T,RN和RNT的硬件单元和两套蝶形硬件单元及两套排序单元,得到DCT与IDCT复用模块的硬件结构,,N=4,8,16;蝶形硬件单元包括一个BE_32模块,两个BE_16模块,四个BE_8模块;排序硬件单元包括一个PE_32模块,两个PE_16模块,四个PE_8模块;需要的矩阵运算单元包括八个A4和A4T复用模块,四个R4和R4T复用模块,,两个R8和R8T复用模块,一个R16和R16T复用模块。
CN201510033123.XA 2015-01-22 2015-01-22 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构 Active CN104581174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510033123.XA CN104581174B (zh) 2015-01-22 2015-01-22 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510033123.XA CN104581174B (zh) 2015-01-22 2015-01-22 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构

Publications (2)

Publication Number Publication Date
CN104581174A true CN104581174A (zh) 2015-04-29
CN104581174B CN104581174B (zh) 2018-04-03

Family

ID=53096233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510033123.XA Active CN104581174B (zh) 2015-01-22 2015-01-22 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构

Country Status (1)

Country Link
CN (1) CN104581174B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106210715A (zh) * 2015-05-06 2016-12-07 北京君正集成电路股份有限公司 一种hevc标准中视频编解码变换方法及装置
CN108184127A (zh) * 2018-01-13 2018-06-19 福州大学 一种可配置的多尺寸dct变换硬件复用架构

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6308193B1 (en) * 1998-01-30 2001-10-23 Hyundai Electronics Ind. Co., Ltd. DCT/IDCT processor
CN102387367A (zh) * 2011-11-08 2012-03-21 复旦大学 适用于多种视频标准、多尺寸二维整数余弦变换的通用方法
CN102404569A (zh) * 2011-11-08 2012-04-04 复旦大学 可用于多种视频标准、多尺寸二维整数余弦反变换的通用方法
CN102769754A (zh) * 2012-08-02 2012-11-07 豪威科技(上海)有限公司 H264编码器及其图像变换、量化及重构的方法
CN103237219A (zh) * 2013-04-24 2013-08-07 南京龙渊微电子科技有限公司 二维离散余弦变换/逆离散余弦变换电路及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6308193B1 (en) * 1998-01-30 2001-10-23 Hyundai Electronics Ind. Co., Ltd. DCT/IDCT processor
CN102387367A (zh) * 2011-11-08 2012-03-21 复旦大学 适用于多种视频标准、多尺寸二维整数余弦变换的通用方法
CN102404569A (zh) * 2011-11-08 2012-04-04 复旦大学 可用于多种视频标准、多尺寸二维整数余弦反变换的通用方法
CN102769754A (zh) * 2012-08-02 2012-11-07 豪威科技(上海)有限公司 H264编码器及其图像变换、量化及重构的方法
CN103237219A (zh) * 2013-04-24 2013-08-07 南京龙渊微电子科技有限公司 二维离散余弦变换/逆离散余弦变换电路及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106210715A (zh) * 2015-05-06 2016-12-07 北京君正集成电路股份有限公司 一种hevc标准中视频编解码变换方法及装置
CN106210715B (zh) * 2015-05-06 2019-02-15 北京君正集成电路股份有限公司 一种hevc标准中视频编解码变换方法及装置
CN108184127A (zh) * 2018-01-13 2018-06-19 福州大学 一种可配置的多尺寸dct变换硬件复用架构
CN108184127B (zh) * 2018-01-13 2020-06-12 福州大学 一种可配置的多尺寸dct变换硬件复用架构

Also Published As

Publication number Publication date
CN104581174B (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
EP3417621B1 (en) Multi-pass non-separable transforms for video coding
JP2023179682A (ja) 隣接サンプル減少を伴う線形またはアフィン変換を使用するイントラ予測
Zhao et al. High-performance multiplierless transform architecture for HEVC
CN103636205A (zh) 具有低延迟的用于残差编码的模式依赖变换
Yan et al. Implementation of HEVC decoder on x86 processors with SIMD optimization
CN107623854B (zh) 部分解码电路和部分编码电路
Afonso et al. Low cost and high throughput FME interpolation for the HEVC emerging video coding standard
CN107027025A (zh) 一种基于宏像素块自适应预测的光场图像压缩方法
CN104244010B (zh) 提高数字信号变换性能的方法及数字信号变换方法和装置
CN101083769B (zh) 处理n比特视频数据的编/解码器和编/解码方法
CN102387367A (zh) 适用于多种视频标准、多尺寸二维整数余弦变换的通用方法
CN104581174A (zh) 一种适用于hevc标准的高吞吐率dct和idct硬件复用结构
US6181831B1 (en) Spatial frequency-domain video signal processing
EP2750386A1 (en) Image coding and decoding method and device
JPS622721A (ja) 画像信号の符号化・復号化装置
CN104270643B (zh) 基于single‑port SRAM的转置矩阵的地址映射算法
CN105227959A (zh) 用于视频编码的多编码点混编流水方法及其装置
WO2020060832A1 (en) Fast implementation of odd one dimensional transforms
CN104602026B (zh) 一种适用于hevc标准下编码器中全复用的重建环路结构
CN101472174A (zh) 视频解码器中用于复原原始图像数据的方法及装置
Silveira et al. Multiple transform selection hardware design for 4k@ 60fps real-time versatile video coding
CN101562744B (zh) 二维反变换装置
Wang et al. High definition IEEE AVS decoder on ARM NEON platform
KR101423083B1 (ko) Hevc 복호기용 역변환기 설계 방법
Jiang et al. A fine-grained parallel intra prediction for HEVC based on GPU

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant