CN103747250B

CN103747250B - 一种H.264/AVC中4x4子宏块的并行帧内预测方法

Info

Publication number: CN103747250B
Application number: CN201310740320.6A
Authority: CN
Inventors: 金海�; 蒋文斌; 廖小飞; 龙敏; 王鹏程; 梅鸿雁
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2013-12-28
Filing date: 2013-12-28
Publication date: 2016-08-17
Anticipated expiration: 2033-12-28
Also published as: CN103747250A

Abstract

本发明公开了一种H.264/AVC中4x4子宏块的并行帧内预测方法，包括以下步骤：统一帧内预测公式、参考值数组、参考位置表和并行帧内预测的具体执行步骤，统一帧内预测公式是根据CUDA和帧内预测计算公式的特性改进而成的，通过将9种预测模式对应的预测公式变换成一个计算公式，满足了CUDA多线程单指令多数据流的需求，实现了帧内预测子宏块中细粒度并行，参考值数组及参考位置表是为了配合统一帧内预测公式而设计的，完全消除了影响并行算法性能的大量分支语句。本发明在帧内预测过程中实现了像素级并行，可以有效地利用GPU中众核资源加速帧内预测过程，缩短编码时间。

Description

一种H.264/AVC中4x4子宏块的并行帧内预测方法

技术领域

本发明属于视频编码领域和显卡通用计算领域，更具体地，涉及一种H.264/AVC中4x4子宏块的并行帧内预测方法。

背景技术

H.264/AVC标准是当前主流的视频压缩标准，在许多领域都有着广泛地应用。与之前的标准不同，H.264/AVC提出了一种全新的基于像素域的帧内预测方法，该方法针对9种可用的预测模式以及各种分块大小进行遍历计算，通过率失真公式得到一个在视频质量和视频压缩率两方面效果都比较好的一种预测模式，然而这种全模式预测使得整个过程计算复杂度相当高。

为了降低全模式预测的编码时间，研究者提出了许多行之有效的解决方案，其中基于GPU硬件加速的方法在减少编码时间上效果最好。基于GPU的帧内预测主要采用的是CUDA架构，它是由NVIDIA提出的通用计算平台，将复杂的GPU指令包装成浅显易懂的运行时指令，极大地降低了编写显卡设备代码的难度。CUDA采用的是一种类似于SIMD的执行模型，比较适合于易并行计算，对于数据相关性强、逻辑复杂的情况，CUDA并行并不是很好的选择。

利用GPU的众核优势并行处理多帧图像，可以极大地提升编码效率。这一类算法需要修改视频帧中的像素块之间的编码顺序来提升并行度，其中一部分算法甚至牺牲视频质量，主动减少可使用的模式来降低数据依赖，进一步提升并行度。但是现有算法只是停留在粗粒度的并行方法上，对于细粒度的像素级并行仍然没有涉及，对GPU的性能还不能充分地利用。现有技术方案总是采用单线程来遍历计算4x4子宏块中的9种预测模式，不能采用多线程来并行处理所有像素，这是由于编码块中的每个像素对应的预测公式不尽相同，并且每个像素所参考的重建像素值也随自己所在位置而变化，进一步地这种情况会导致大量的分支语句，因此不适合采用CUDA来并行处理。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种H.264/AVC中4x4子宏块的并行帧内预测方法，其目的在于，根据CUDA执行模型以及4x4子宏块帧内预测中的特性，统一帧内预测中各种模式的预测公式，消除了执行过程中的大量分支语句，从而实现了像素级的并行，使之可以更有效地利用GPU的众核优势。

为实现上述目的，按照本发明的一个方面，提供了一种H.264/AVC中4x4子宏块的并行帧内预测方法，包括以下步骤：

（1）从已编码的视频帧中获取13个参考像素A～M，其中A、B、C和D为从上到下排列的上方参考像素，E、F、G和H为从左到右排列的右上方参考像素，I、J、K和L为从左到右排列的左侧参考像素，M为左上方参考像素；其中需要预测的4x4子宏块中的像素为a-p，所有a-p像素构成4x4子宏块，这些像素在对应的子宏块内的坐标位置表示为（x，y）；

（2）根据获取的参考像素生成一个长度为16的空的参考值数组Ref，该参考值数组用于存储A至M的像素、两个随机生成的保留值、以及一个根据H.264/AVC标准对13个参考像素进行计算生成的预测值DC；

（3）根据H.264/AVC中针对4x4子宏块的帧内预测计算公式和参考值数组Ref构造参考位置表T；

（4）根据步骤（3）构造的参考位置表T对4x4子宏块执行基于CUDA的并行帧内预测，其共有144个线程用于并行处理所有9种预测模式。

优选地，步骤（3）包括以下子步骤：

（3.1）将H.264/AVC中针对4x4子宏块的帧内预测计算公式归纳成以下四种形式：

pred(x,y,m)=U (1)

pred(x,y,m)=(U+V+1)>>1 (2)

pred(x,y,m)=(U+V*3+2)>>2 (3)

pred(x,y,m)=(U+V*2+W+2)>>2 (4)

其中U、V和W是4x4子宏块中的参考像素A～M、以及预测值DC的任何一个，pred(x,y,m)是指坐标为（x,y）且模式为m的像素的预测值，m表示4x4子宏块中帧内预测的预测模式，(x,y,m)表示该像素对应的线程序号：

（3.2）将公式（1）～公式（4）转换成以下形式：

pred(x,y,m)=(U+U+U+U+2)>>2 (5)

pred(x,y,m)=(U+U+V+V+2)>>2 (6)

pred(x,y,m)=(U+V+V+V+2)>>2 (7)

pred(x,y,m)=(U+V+V+W+2)>>2 (8)

（3.3）进一步将公式（5）～公式（8）归纳成统一预测公式（9）；

pred(x,y,m)=(r_a+r_b+r_c+r_d+2)>>2 (9)

其中r_a、r_b、r_c和r_d4x4子宏块中参考像素A～M、以及预测值DC的任何一个；

（3.4）将r_a、r_b、r_c和r_d所对应的参考像素A～M以及预测值DC在参考值数组Ref中的偏移量存储至参考位置表T中，其在参考位置表T中的位置偏移分别为m*64+4*y+x、m*64+4*y+x+16、m*64+4*y+x+32和m*64+4*y+x+48。

优选地，步骤（4）包括以下子步骤：

（4.1）根据4x4子宏块中参考像素A～M对参考值数组Ref进行初始化；

（4.2）对4x4子宏块很内预测执行预测，以生成9种模式的预测矩阵；

（4.3）根据生成的9种模式的4x4预测矩阵并采用率失真优化策略决策出一种最优模式。

优选地，步骤（4.1）包括以下子步骤：

（4.1.1）判断当前像素对应的线程序号是否等于（0，0，0），若等于则转入步骤（4.1.2），否则转入步骤（4.1.5）；

（4.1.2）将左上方参考像素M拷贝至Ref[0]；

（4.1.3）将左侧参考像素I、J、K和L分别拷贝至Ref[1]、Ref[2]、Ref[3]和Ref[4]；

（4.1.4）将上方参考像素A、B、C、D和右上方参考像素E、F、G和H分别拷贝至Ref[8]、Ref[9]、Ref[10]、Ref[11]、Ref[12]、Ref[13]、Ref[14]和Ref[15]；

（4.1.5）根据H.264/AVC标准计算m=2时4x4子宏块的预测值DC，并将该预测值DC拷贝至Ref[5]；

（4.1.6）所有的144个线程执行同步操作；

优选地，步骤（4.2）包括以下子步骤：

（4.2.1）线程序号为（x，y，m）的线程从参考位置表T中依次读取4个偏移值p_a、p_b、p_c和p_d，其中p_a=T[m*64+4*y+x]、p_b=T[m*64+4*y+x+16]、p_c=T[m*64+4*y+x+32]和pd=T[m*64+4*y+x+48]；

（4.2.2）从参考值数组Ref中读取4个偏移值p_a、p_b、p_c和p_d对应的参考像素Ref[p_a]、Ref[p_b]、Ref[p_c]和Ref[p_d]；

（4.2.3）利用公式pred(x,y,m)=(Ref[p_a]+Ref[p_b]+Ref[p_c]+Ref[p_d]+2)>>2计算得到预测像素的预测值；

（4.2.4）将所有预测像素的预测值写入内存，形成9种模式的4x4子宏块预测矩阵；

（4.2.5）所有的144个线程执行同步操作。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）计算并行度高：采用本方法可以保证每个模式的每个像素的预测过程中的指令完全一致，消除了执行过程中的大量分支语句，从而实现了像素级和模式级的细粒度并行；

（2）编码时间短：对每个4x4子宏块采用了144个线程并行处理，相比传统基于GPU的帧内预测算法采用单线程处理一个4x4子宏块，可以极大地缩短编码时间；

（3）与H.264/AVC标准兼容：对预测算法的修改并没有使任何应用该算法编码的视频序列产生任何与H.264/AVC不兼容的特性，任何符合H.264/AVC标准的解码器都可以正确地解码采用当前方法编码的视频。

附图说明

图1是本发明预测像素和参考像素的构成图。

图2是本发明参考值数组的构成图。

图3是本发明参考位置表的构成图。

图4是本发明H.264/AVC中4x4子宏块的并行帧内预测方法的总体流程图。

图5是本发明方法中步骤（3）的细化流程图。

图6是本发明方法中步骤（4）的细化流程图。

图7是本发明方法中步骤（4.1）的细化流程图。

图8是本发明方法中步骤（4.2）的细化流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的整体思路在于，根据CUDA执行模型以及4x4子宏块帧内预测中的特性，统一帧内预测中各种模式的预测公式，实现像素级的并行，使之可以更有效地利用GPU的众核优势。

如图4所示，本发明H.264/AVC中4x4子宏块的并行帧内预测方法包括以下步骤：

（1）从已编码的视频帧中获取13个参考像素A～M，其中A、B、C和D为从上到下排列的上方参考像素，E、F、G和H为从左到右排列的右上方参考像素，I、J、K和L为从左到右排列的左侧参考像素，M为左上方参考像素；其格式如图1所示，该图中的a-p像素表示需要预测的4x4子宏块中的像素，该像素在对应的子宏块内的坐标位置（x，y）分别为(0,0),(0,1),(0,2),(0,3),(1,0),(1,1),(1,2),(1,3),(2,0),(2,1),(2,2),(2,3),(3,0),(3,1),(3,2)和(3,3)，所有a-p像素构成4x4子宏块；

（2）根据获取的参考像素生成一个长度为16的空的参考值数组Ref，如图2所示，该参考值数组用于存储A至M的像素、两个随机生成的保留值、以及一个根据H.264/AVC标准对13个参考像素进行计算生成的预测值DC；

（3）根据H.264/AVC中针对4x4子宏块的帧内预测计算公式和参考值数组Ref构造参考位置表T（如图3所示）；如图5所示，本步骤包括以下子步骤：

（3.1）将H.264/AVC中针对4x4子宏块的帧内预测计算公式归纳成以下四种形式，公式（1）～公式（4），

pred(x,y,m)=U (1)

pred(x,y,m)=(U+V+1)>>1 (2)

pred(x,y,m)=(U+V*3+2)>>2 (3)

pred(x,y,m)=(U+V*2+W+2)>>2 (4)

其中U、V和W可以是图1中4x4子宏块中参考像素A～M、以及图2中预测值DC的任何一个，pred(x,y,m)是指坐标为（x,y）且模式为m的像素的预测值，其中m为0至8之间的整数，用于表示4x4子宏块中帧内预测的预测模式，总共有9种模式；

为同时处理4x4子宏块中9种模式的16个像素值，共144个像素，每个线程块需要启动144个线程，因此CUDA线程块中线程的组织方式为(4，4，9)，(x,y,m)表示该像素对应的线程序号：

（3.2）将公式（1）～公式（4）转换成以下形式：

pred(x,y,m)=(U+U+U+U+2)>>2 (5)

pred(x,y,m)=(U+U+V+V+2)>>2 (6)

pred(x,y,m)=(U+V+V+V+2)>>2 (7)

pred(x,y,m)=(U+V+V+W+2)>>2 (8)

pred(x,y,m)=(r_a+r_b+r_c+r_d+2)>>2 (9)

其中r_a、r_b、r_c和r_d可以是图1中4x4子宏块中参考像素A～M、以及图2中预测值DC的任何一个，针对9种4x4子宏块中帧内预测的预测模式，每种预测模式有16个像素需要计算，因此总共有144个像素，即共144个公式（9）这样的预测公式；

（3.4）将r_a、r_b、r_c和r_d所对应的参考像素A～M以及预测值DC在参考值数组Ref中的偏移量存储至参考位置表T中，其在参考位置表T中的位置偏移分别为m*64+4*y+x、m*64+4*y+x+16、m*64+4*y+x+32和m*64+4*y+x+48；

（4）根据步骤（3）构造的参考位置表T对4x4子宏块执行基于CUDA的并行帧内预测，其共有144个线程用于并行处理所有9种预测模式，如图6所示，本步骤具体包括以下子步骤：

（4.1）根据4x4子宏块中参考像素A～M对参考值数组Ref进行初始化，如图7所示，本步骤包括以下子步骤；

（4.1.2）将左上方参考像素M拷贝至Ref[0]；

（4.1.6）所有的144个线程执行同步操作；

（4.2）对4x4子宏块很内预测执行预测，以生成9种模式的预测矩阵，如图8所示，本步骤具体包括以下子步骤；

（4.2.1）线程序号为（x，y，m）的线程从参考位置表T中依次读取4个偏移值p_a、p_b、p_c和p_d，其中p_a=T[m*64+4*y+x]、p_b=T[m*64+4*y+x+16]、p_c=T[m*64+4*y+x+32]和p_d=T[m*64+4*y+x+48]；

（4.2.5）所有的144个线程执行同步操作；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种H.264/AVC中4x4子宏块的并行帧内预测方法，其特征在于，包括以下步骤：

(1)从已编码的视频帧中获取13个参考像素A～M，其中A、B、C和D为从上到下排列的上方参考像素，E、F、G和H为从左到右排列的右上方参考像素，I、J、K和L为从左到右排列的左侧参考像素，M为左上方参考像素；其中需要预测的4x4子宏块中的像素为a-p，所有a-p像素构成4x4子宏块，这些像素在对应的子宏块内的坐标位置表示为(x，y)；

(2)根据获取的参考像素生成一个长度为16的空的参考值数组Ref，该参考值数组用于存储A至M的像素、两个随机生成的保留值、以及一个根据H.264/AVC标准对13个参考像素进行计算生成的预测值DC；

(3)根据H.264/AVC中针对4x4子宏块的帧内预测计算公式和参考值数组Ref构造参考位置表T；本步骤包括以下子步骤：

(3.1)将H.264/AVC中针对4x4子宏块的帧内预测计算公式归纳成以下四种形式：

pred(x,y,m)＝U (1)

pred(x,y,m)＝(U+V+1)>>1 (2)

pred(x,y,m)＝(U+V*3+2)>>2 (3)

pred(x,y,m)＝(U+V*2+W+2)>>2 (4)

其中U、V和W是4x4子宏块中的参考像素A～M、以及预测值DC的任何一个，pred(x,y,m)是指坐标为(x,y)且模式为m的像素的预测值，m表示4x4子宏块中帧内预测的预测模式，(x,y,m)表示该像素对应的线程序号：

(3.2)将公式(1)～公式(4)转换成以下形式：

pred(x,y,m)＝(U+U+U+U+2)>>2 (5)

pred(x,y,m)＝(U+U+V+V+2)>>2 (6)

pred(x,y,m)＝(U+V+V+V+2)>>2 (7)

pred(x,y,m)＝(U+V+V+W+2)>>2 (8)

(3.3)进一步将公式(5)～公式(8)归纳成统一预测公式(9)；

pred(x,y,m)＝(r_a+r_b+r_c+r_d+2)>>2 (9)

其中r_a、r_b、r_c和r_d是4x4子宏块中参考像素A～M、以及预测值DC的任何一个；

(3.4)将r_a、r_b、r_c和r_d所对应的参考像素A～M以及预测值DC在参考值数组Ref中的偏移量存储至参考位置表T中，其在参考位置表T中的位置偏移分别为m*64+4*y+x、m*64+4*y+x+16、m*64+4*y+x+32和m*64+4*y+x+48；

(4)根据步骤(3)构造的参考位置表T对4x4子宏块执行基于CUDA的并行帧内预测，其共有144个线程用于并行处理所有9种预测模式。

2.根据权利要求1所述的并行帧内预测方法，其特征在于，步骤(4)包括以下子步骤：

(4.1)根据4x4子宏块中参考像素A～M对参考值数组Ref进行初始化；

(4.2)对4x4子宏块帧内预测执行预测，以生成9种模式的预测矩阵；

(4.3)根据生成的9种模式的4x4预测矩阵并采用率失真优化策略决策出一种最优模式。

3.根据权利要求2所述的并行帧内预测方法，其特征在于，步骤(4.1)包括以下子步骤：

(4.1.1)判断当前像素对应的线程序号是否等于(0，0，0)，若等于则转入步骤(4.1.2)，否则转入步骤(4.1.5)；

(4.1.2)将左上方参考像素M拷贝至Ref[0]；

(4.1.3)将左侧参考像素I、J、K和L分别拷贝至Ref[1]、Ref[2]、Ref[3]和Ref[4]；

(4.1.4)将上方参考像素A、B、C、D和右上方参考像素E、F、G和H分别拷贝至Ref[8]、Ref[9]、Ref[10]、Ref[11]、Ref[12]、Ref[13]、Ref[14] 和Ref[15]；

(4.1.5)根据H.264/AVC标准计算m＝2时4x4子宏块的预测值DC，并将该预测值DC拷贝至Ref[5]；

(4.1.6)所有的144个线程执行同步操作。

4.根据权利要求3所述的并行帧内预测方法，其特征在于，步骤(4.2)包括以下子步骤：

(4.2.1)线程序号为(x，y，m)的线程从参考位置表T中依次读取4个偏移值p_a、p_b、p_c和p_d，其中p_a＝T[m*64+4*y+x]、p_b＝T[m*64+4*y+x+16]、p_c＝T[m*64+4*y+x+32]和p_d＝T[m*64+4*y+x+48]；

(4.2.2)从参考值数组Ref中读取4个偏移值p_a、p_b、p_c和p_d对应的参考像素Ref[p_a]、Ref[p_b]、Ref[p_c]和Ref[p_d]；

(4.2.3)利用公式pred(x,y,m)＝(Ref[p_a]+Ref[p_b]+Ref[p_c]+Ref[p_d]+2)>>2计算得到预测像素的预测值；

(4.2.4)将所有预测像素的预测值写入内存，形成9种模式的4x4子宏块预测矩阵；

(4.2.5)所有的144个线程执行同步操作。