CN103916664A

CN103916664A - 一种帧间模式选择设备和方法

Info

Publication number: CN103916664A
Application number: CN201310210632.6A
Authority: CN
Inventors: 周同; 董全武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2013-01-06
Filing date: 2013-05-30
Publication date: 2014-07-09

Abstract

本发明提出了一种帧间模式选择的装置和方法。根据宏块信息计算残差，选择搜索和预测模式，对于不同的视频片段，可以根据其性质选择相应的模式。实验结果说明，本发明的技术方案的性能介于高低复杂度之间，既考虑到了低复杂度模式选择的快速的优点，又考虑了高复杂度模式选择的较好的比特率-PSNR曲线效果。

Description

一种帧间模式选择设备和方法

技术领域

本发明涉及一种帧间模式选择设备和方法，具体涉及一种在帧间模式选择时同时采用部分高复杂度模式选择方法和低复杂度模式选择方法的模式选择设备和方法，属于视频编解码、数字电视等技术领域。

背景技术

H.264/AVC是2003年5月ITU-T正式批准新一代视频编码标准，与以前的视频编码标准相比，该标准的显著优点是压缩效率高，网络性能好，适用于交互和非交互应用环境，现已受到越来越广泛的关注。H.264/AVC性能的提高与它采用的一些新技术密不可分，如新的帧内预测方法、整数变换、4X4块的运动估计/运动补偿、环路滤波、新的熵编码方法、率失真优化技术(RDO)等。

参见附图1，H.264/AVC共支持三类帧内预测：第一类Intra_4x4是针对4x4亮度块的预测，共有9种预测模式，其中包括1种均值预测模式和8种具有一定方向性的预测模式，分别是均值预测（DC模式）、垂直、水平、下左对角线、下右对角线、垂直偏左、垂直偏右、水平偏上、水平偏下模式；如图1所示，A-L分别代表与子块上方与右方相邻的12个像素点，M代表当前块左上方的邻块，箭头表明预测方向。预测模式描述如下：

垂直模式：通过当前预测块正上方的相邻系数进行预测

水平模式：通过当前预测块正左方的相邻系数进行预测

均值预测模式(DC)：(A+B+C+D+I+J+K+L)/8

下左对角线模式：以45度角的方向预测当前块

下右对角线模式：以-45度角的方向预测当前块

垂直偏右模式：以270度+a的方向预测当前块

水平偏下模式：以-a的方向预测当前块

垂直偏左模式：以270度-a的方向预测当前块

水平偏上模式：以a的方向预测当前块

其中a=tan-1(1/2)。

如图2所示，第二类Intra_16x16是针对16x16亮度块的预测，共有4种预测模式，分别是垂直、水平、均值预测（DC模式）、和平面模式；预测模式描述如下：

垂直模式：由上边像素推出相应像素值

水平模式：由左边像素推出相应像素值值

垂直模式：由上边和左边像素平均值推出相应像素值

平面模式：利用线形“plane”函数及左、上像素推出相应像素，适用于亮度变化平缓的区域。

第三类Intra_8x8是针对8x8色度块的预测，共有4种预测模式。Intra_4x4模式由于块尺寸较小，比较适合于编码细节丰富的图像，且能获得较小的差值，但由于Intra_4x4的模式数较多，所以成为增加帧内编码复杂度的一个重要原因。

如图3所示，在H.264编码标准中，支持7种不同块大小的帧间编码模式。每个宏块可按照16x16、16x8、8x16、8x8进行分割，如果选择8x8块模式，还可按照8x8、8x4、4x8、4x4进行亚分割。图3直观地显示了这7种块模式。

另外，帧间编码还采用了直接拷贝模式SKIP和帧内预测模式I4MB和I16MB。

虽然现有的H.264的编码方式、预测方式较为成熟，但其仍然存在不够灵活，不能根据特定的应用场景方便简单地找出最佳预测模式而保障其编码质量，因此，需要一种能够采用部分高复杂度模式选择方法和低复杂度模式选择方法的模式选择方法。

发明内容

针对现有技术中所存在缺陷，本发明的目的在于提出了一种帧间模式选择的方法和设备，这种方法和设备既考虑到了低复杂度模式选择的快速的优点，又考虑了高复杂度模式选择的较好的比特率-PSNR曲线效果。

为了实现上述发明目的，本发明提供了如下技术方案。

一种帧间模式选择设备，包括：

时空域的搜索和预测装置，用于模式选择和运动搜索及残差计算；

前向转换和量化装置，接收时空域的搜索和预测装置发送来的残差数据，并对参差数据进行DCT变换和量化；

反向变换及量化装置，接收前向转换和量化装置传递进来的DCT系数，并对DCT系数进行反DCT和反量化，得到重建数据；

其中，所述模式包括高复杂度和低复杂度模式。

更进一步，该设备还包括：编码装置，根据共有宏块模式信息和运动矢量信息，各个子宏块的DCT系数以及其他宏块头信息进行编码。

此外，所述在高复杂度模式中，时空域的搜索和预测装置计算I、P、B三类帧内预测和7种帧间编码模式中每种模式的率失真优化RDO的值，RDO值最小的被选为最优模式。

更为优选地，在低复杂度模式中，计算不同模式的SAD，选出最小的模式作为最终模式。时空域的搜索和预测装置判断宏块模式，如果宏块模式是INTER16X16，INTER16X8，INTER8X16，INTER8X8中的一种，则将该宏块模式定为best_mode模式，并best_mode与全部或其他部分模式进行率失真RDO值计算，将计算结果中的最小者确定为宏块的最终模式。

在另一个可选的实施方式中，如果所应用场景为监控，则选用best_mode+inter16x16进行RDO值计算。如果所应用场景为监控马路，则选用best_mode+inter16x8或best_mode+inter8x16进行RDO值计算。如果应用场景为电视节目，则选用best_mode+inter8x8进行RDO值计算。

本发明还提供一种帧间模式选择方法，包括以下步骤：

（1）根据宏块信息计算残差，选择搜索和预测模式；

（2）对残差数据进行DCT变换和量化；

（3）对DCT系数进行反DCT和反量化，得到重建数据。

进一步，所述步骤（1）中的模式的选择包括以下步骤：

（1-1）如果所应用场景为监控，则选用best_mode+inter16x16进行RDO值计算；否则进行步骤（1-2）；

（1-2）如果所应用场景为监控马路，则选用best_mode+inter16x8或best_mode+inter8x16进行RDO值计算；否则进行步骤（1-3）；

(1-3)如果应用场景为电视节目，则选用best_mode+inter8x8进行RDO值计算。

本发明的效果在于：本发明的技术方案所采用的方法和设备既考虑到了低复杂度模式选择的快速的优点，又考虑了高复杂度模式选择的较好的比特率-PSNR曲线效果，能根据特定的应用场景方便简单地找出最佳预测模式而保障其编码质量。这个方法包括十个子方法。实验结果说明这种方法的性能介于高低复杂度之间，并且对于不同的视频片段，可以根据其性质选择十种子方法中的任意一种。

附图说明

图1是帧内宏块第一类预测模式的示意图；

图2是帧内宏块第二类预测模式的示意图；

图3是帧间宏块模式的示意图；

图4是本发明所述方法具体实施方式的流程示意图。

具体实施方式

以下将结合说明书附图对本发明的技术方案作详细描述。

参见附图4，附图4示出了本发明的第一实施方式，其提供一种基于H.264混合复杂度的帧间模式选择设备，包括以下装置：

时空域的搜索和预测装置，用于模式选择和运动搜索及残差计算。其中“宏块头数据”中包括宏块模式信息和运动矢量信息。

前向转换和量化装置，该前向转换和量化装置接收时空域的搜索和预测装置发送来的残差数据，并对参差数据进行DCT变换和量化，其中“量化数据”中包括各个子宏块的DCT系数。

反向变换及量化装置，接收前向转换和量化装置传递进来的DCT系数，并对DCT系数进行反DCT和反量化，得到重建数据，然后通过“滤波”模块生成最终的重构图像。

编码装置，对量化数据和宏块头数据进行编码。具体地，其综合共有宏块模式信息和运动矢量信息，各个子宏块的DCT系数以及其他宏块头信息进行编码。

第二实施方式中，对时空域的搜索和预测装置的模式选择过程进行了进一步限定。所述模式包括高复杂度和低复杂度模式。

在高复杂度模式中，将计算I、P、B三类帧内预测和7种帧间编码模式中每种模式的率失真优化RDO的值，RDO值最小的被选为最优模式。

在低复杂度模式中，计算不同模式的SAD（绝对差和），选出最小的模式作为最终模式。

Diff(i,j)为原始图像和预测图像之差。

预测方式包括以下几种：

（1）Intra预测：按照Intra_4x4预测计算SAD，确定值最小的SAD，得到SADminI4x4，所述SADminI4x4是Intra_4x4预测模式下的最小SAD值。再按照Intra_16x16的4种模式分别计算SAD，确定值最小的SAD。得到SADminI16x16。SADminI4x4和SADminI16x16中小的一个作为最终的INTRA模式。

(2)Inter预测：首先，将16x16的宏块按4个8x8的分割，每个8x8块再按8x8、8x4、4x8、4x4这4种模式分别计算运动向量。运动向量得到后，计算SAD，找到最佳模式。然后，将宏块分别按16x16、16x8、8x16的分割分别计算这三种模式的运动向量。得到各种可能组合的向量后，计算SAD，与8x8模式一起比较确定最小的INTER模式，先计算出8x8宏块大小下的最小SADmin_8x8，然后分别计算16x16、16x8、8x16的SAD，再将这些SAD与SADmin_8x8比较，得到具有最小SAD的帧间模式。最后将最好的INTER模式和INTRA模式的SAD相比，确定为最终的宏块模式。

如果在P帧中，在低复杂度下确定宏块模式为INTRA或SKIP，那么对这种宏块不进行任何操作。

如果宏块模式是INTER16X16，INTER16X8，INTER8X16，INTER8X8中的一种，把这种模式暂时称为best_mode。然后将best_mode与其他三种模式中的全部或部分模式进行高复杂度的RDO值计算，计算结果中的最小者我们将其确定为宏块的最终模式。

针对上述方案，本发明的第三实施方式对其进行了新的改进，第三实施方式为本发明优选的实施方式。具体地，第三实施方式中设定了十种方法，对应于不同的视频片段，采用不同的方法，取其最优法。十种子方法的具体待选模式如列表1所示。

表1

序号	方法
		1	best_mode+interl6xl6
2	best_mode+interl6x8
		3	best_mode+inter8x16
4	best_mode+inter8x8
		5	best_mode+interl6xl6+interl6x8
6	best_mode+interl6xl6+interl6x8+inter8xl6
		7	best_mode+interl6xl6+interl6x8+inter8xl6+inter8x8
8	best_mode+interl6x8+inter8xl6
		9	best_mode+interl6x8+inter8xl6+inter8x8
10	best_mode+inter8xl6+inter8x8

更具体地，根据实验数据，如果所应用场景为监控，如大楼里的停车场，走廊等，建议选用best_mode+inter16x16进行。如果场景为马路，如长安街等，建议选用best_mode+inter16x8或best_mode+inter8x16。如果应用场景为内容非常丰富的电视节目，那么建议选用best_mode+8x8。

本发明的第四实施方式中提供了一种基于H.264混合复杂度的帧间模式选择方法，包括以下步骤：

（1）根据宏块信息计算残差，选择搜索和预测模式；

（2）对残差数据进行DCT变换和量化；

（3）对DCT系数进行反DCT和反量化，得到重建数据。

更进一步，所述步骤（1）中的模式的选择包括以下步骤：

从本发明的最佳实施方式可以看出，本发明的技术方案能根据特定的应用场景方便简单地找出最佳预测模式而保障其编码质量。

本领域技术人员应该明白，本发明所述的方法和设备并不限于具体实施方式中所述的实施例，上面的具体描述只是为了解释本发明的目的，并非用于限制本发明。本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围，本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种帧间模式选择设备，其特征在于包括：

其中，所述模式包括高复杂度和低复杂度模式。

2.如权利要求1所述的设备，其特征在于，还包括：编码装置，根据共有宏块模式信息和运动矢量信息，各个子宏块的DCT系数以及其他宏块头信息进行编码。

3.如权利要求1所述的设备，其特征在于，所述在高复杂度模式中，时空域的搜索和预测装置计算I、P、B三类帧内预测和7种帧间编码模式中每种模式的率失真优化RDO的值，RDO值最小的被选为最优模式。

4.如权利要求1所述的设备，其特征在于，在低复杂度模式中，计算不同模式的SAD，选出最小的模式作为最终模式。

5.如权利要求1所述的设备，其特征在于，时空域的搜索和预测装置判断宏块模式，如果宏块模式是INTER16X16，INTER16X8，INTER8X16，INTER8X8中的一种，则将该宏块模式定为best_mode模式，并best_mode与全部或其他部分模式进行率失真RDO值计算，将计算结果中的最小者确定为宏块的最终模式。

6.如权利要求5所述的设备，其特征在于，如果所应用场景为监控，则选用best_mode+inter16x16进行RDO值计算。

7.如权利要求5所述的设备，其特征在于，如果所应用场景为监控马路，则选用best_mode+inter16x8或best_mode+inter8x16进行RDO值计算。

8.如权利要求5所述的设备，其特征在于，如果应用场景为电视节目，则选用best_mode+inter8x8进行RDO值计算。

9.一种帧间模式选择方法，包括以下步骤：

（1）根据宏块信息计算残差，选择搜索和预测模式；

（2）对残差数据进行DCT变换和量化；

（3）对DCT系数进行反DCT和反量化，得到重建数据。

10.如权利要求9所述的方法，其特征在于，所述步骤（1）中的模式的选择包括以下步骤：