CN103024390B

CN103024390B - 用于视频编码中的运动估计的自适应搜索方法

Info

Publication number: CN103024390B
Application number: CN201210574913.5A
Authority: CN
Inventors: 张涛; 周晶; 王赞; 王晓晨; 蔡晓
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2015-09-09
Anticipated expiration: 2032-12-21
Also published as: CN103024390A

Abstract

一种用于视频编码中的运动估计的自适应搜索方法，包括：1）根据运动矢量分布的空间方向性，并结合运动估计的中值预测值来简化搜索模板的层数，将运动估计的中值预测值中X方向和Y方向中的最大值表示为Max；将搜索层次数表示为Num，设定初始状态的Num=search_range/4，查找搜索点坐标；2）利用当前获得的最佳运动矢量与邻近参考帧运动矢量预测值的偏离方向，确定自适应模板的搜素方向。本发明的算法在提高编码速度上效果尤为明显，尤其是对运动的图像序列，效果更好；并且本发明的算法适用于各种分辨率的图像序列；而且随着搜索范围的扩大，本发明的算法的效果就越明显。

Description

用于视频编码中的运动估计的自适应搜索方法

技术领域

本发明涉及一种自适应搜索方法。特别是涉及一种用于视频编码中的运动估计的自适应搜索方法。

背景技术

由JVT制定的最新视频编码标准H.264/AVC（Wiegand T,Sullivan G. J,Luthra A.Overviewof the H.264/AVC video coding standard[J].IEEE Transactions on Circuits and System for VideoTechnology，2003,13(7):560-576.），由于其采用了很多新技术新方法，特别是帧间预测中的可变化尺寸块运动估计、1/4像素精度的运动估计、多参考帧的使用，所以其比以往的视频标准有更高的编码质量，同时也有更高的复杂性。运动估计所需要的时间占整个编码器编码时间的60%到80%（CHEN Zhibo,XU Jianfeng,HE Yun,et al.Fast integer-pel and fractional-pelmotion estimation for H.264/AVC[J].Journal of Visual Communication and Image Representation,2006,17(2):264-290.）。为了提高编码速度，研究运动估计快速算法，也非常必要。

近年来，各国学者提出多种运动估计的快速算法，在保证编码质量基本不变的前提下，提高运动估计的效率。比如，三步法（TSS）、四步法（FSS）、六边形搜索法（HEXBS）、钻石搜索法（DS）、改进的预测式区域搜索算法（EPZS）、非对称十字形多层次六边形格点搜索（UMHexagonS）算法（CHEN Zhibo,XU Jianfeng,HE Yun,et al.Fast integer-pel andfractional-pel motion estimation for H.264/AVC[J].Journal of Visual Communication and ImageRepresentation,2006,17(2):264-290.）。其中UMHexagonS算法采用高效的起始点预测，使用自适应的搜索模板和搜索方式，以及自适应阈值的提前终止，表现出不错的效果，已被H.264/AVC标准的JM编解码器参考模型正式采用。

UMHexagonS搜索算法主要包括4个步骤（CHEN Zhibo,XU Jianfeng,HE Yun,et al.Fastinteger-pel and fractional-pel motion estimation for H.264/AVC[J].Journal of VisualCommunication and Image Representation,2006,17(2):264-290.）：（1）非对称的十字形搜索（2）5*5小矩形搜索（3）非均匀多层次六边形搜索（4）扩展的六边形搜索。算法流程如图1。

在开始搜索之前，起始搜索点要根据当前块的运动情况，在原点预测值、中值预测值（MV_{pred_MP}）、上层预测值（MV_{pred_UP}）、相邻参考帧预测值（MV_{pred_NRP}）和时域对应块预测值（MV_{pred_CP}）这五种预测模式中来进行选择。搜索范围的大小通过文件的search_range参数来设置。在搜索的同时，UMHexagonS算法中还设定了提前终止搜索和跳转搜索步骤的阈值，这就大大减少搜索点数，节省了搜索时间。

UMHexagonS算法同时也存在计算复杂的问题，某些块进行搜索匹配过程中还是没有很好的避免落入局部最优，要进行多种搜索模板来宏块匹配，并且有些搜索模板搜索点数过多，在很大程度上影响了编码速度。

发明内容

本发明所要解决的技术问题是，提供一种可实现减少运动估计搜索时间，提高编码的速度的运动估计搜索模板的用于视频编码中的运动估计的自适应搜索方法。

本发明所采用的技术方案是：一种用于视频编码中的运动估计的自适应搜索方法，是多层次多角度的自适应搜索方法，具体包括如下步骤：

1）根据运动矢量分布的空间方向性，并结合运动估计的中值预测值来简化搜索模板的层数，包括：

将运动估计的中值预测值中X方向和Y方向中的最大值表示为Max；将搜索层次数表示为Num，设定初始状态的Num=search_range/4，

（1）当search_range/4≥4时，

如果Max≥12，则Num=4；

如果8≤Max＜12，则Num=3；

如果Max＜8，则Num=2；

（2）当search_range/4＝3时，

如果Max≥8，则Num=3；

如果6≤Max＜8，则Num=2；

如果Max＜6，则Num=1；

（3）当search_range/4＝2时，

如果Max≥6，Num=2；

如果Max＜6，则Num=1；

（4）当search_range/4≤1时，

Num=1；

其中，Num＝1时为单层，Num＝2时为在单层的基础上，再向外扩展一层，第二层上的搜索点坐标为单层时的2倍，Num＝3时为在单层的基础上，再向外扩展二层，第二层上的搜索点坐标为单层时的2倍，第三层上的搜索点坐标为单层时的3倍，Num＝4时以此类推；

2）利用当前获得的最佳运动矢量与邻近参考帧运动矢量预测值的偏离方向，确定自适应模板的搜素方向，当偏离角度在第一象限或第三象限时，使用由第一象限和第三象限上的10个点所构成的模板；当偏离角度在第二象限Ⅱ或第四象限Ⅳ时，使用第二象限Ⅱ和第四象限Ⅳ上的10个点所构成的模板；当偏离角度在X轴方向时，使用由X轴上的点和与该点在Y方向上间隔相邻的点共6个点所构成的模板；当偏离角度在Y轴方向时，使用由Y轴上的点和临近Y轴上的点共6个点所构成的模板。

本发明的用于视频编码中的运动估计的自适应搜索方法，算法的PSNR与UMHexagonS算法的PSNR相比几乎不变；本发明的算法的码率与UMHexagonS算法的码率相比，幅度变化不大；但是本发明的算法在提高编码速度上效果尤为明显，尤其是对运动的图像序列，效果更好；并且本发明的算法适用于各种分辨率的图像序列；而且随着搜索范围的扩大，本发明的算法的效果就越明显。

附图说明

图1UMHexagonS搜索算法的步骤（搜索范围为16时，起始搜索点为（0,0））

图2是图1中的非均匀多层次六边形搜索的单层模板。

具体实施方式

下面结合实施例和附图对本发明的用于视频编码中的运动估计的自适应搜索方法做出详细说明。

本发明的用于视频编码中的运动估计的自适应搜索方法，此步骤可以根据运动矢量分布的空间方向性（参考：Tourapis A M,Au O C,Liou M L.Predictive motion vector field adaptivesearch technique(PMVFAST)enhancing block based motion estimation[C].Proceedings of VisualCommunications and Image Processing2001(VCIP2001),San Josc,CA,2001.），并结合MV_{pred_MP}来简化搜索模板的层数，同时利用当前获得的最佳运动矢量与上一帧对应位置块的运动矢量的偏离方向，确定自适应模板的搜素方向。这样既减少了搜索点数，提高搜索效率，又能准确的避免陷入局部最小。

本发明的用于视频编码中的运动估计的自适应搜索方法，是在运动估计搜索中选择不同的方向性和不同层次的搜索模板，从而提高整个算法的效率和稳定性，是多层次多角度的自适应搜索方法，具体包括如下步骤：

1）根据运动矢量分布的空间方向性，并结合运动估计的中值预测值（MV_{pred_MP}）来简化搜索模板的层数，包括：

（1）当search_range/4≥4时，

如果Max≥12，则Num=4；

如果8≤Max＜12，则Num=3；

如果Max＜8，则Num=2；

（2）当search_range/4＝3时，

如果Max≥8，则Num=3；

如果6≤Max＜8，则Num=2；

如果Max＜6，则Num=1；

（3）当search_range/4＝2时，

如果Max≥6，Num=2；

如果Max＜6，则Num=1；

（4）当search_range/4≤1时，

Num=1；

2）利用当前获得的最佳运动矢量与邻近参考帧运动矢量预测值的偏离方向，确定自适应模板的搜素方向，既减少了搜索点数，又能准确的避免陷入局部最小。图2是非均匀多层次六边形搜索的单层模板。当偏离角度在第一象限Ⅰ或第三象限Ⅲ时，使用由第一象限Ⅰ和第三象限Ⅲ上的12、13、14、15、0、4、5、6、7、8这10个点所构成的模板；当偏离角度在第二象限Ⅱ或第四象限Ⅳ时，使用第二象限Ⅱ和第四象限Ⅳ上的0、1、2、3、4、8、9、10、11、12这10个点所构成的模板；当偏离角度在X轴方向时，即X轴方向不为0，Y轴方向为0使用由X轴上的点和与该点在Y方向上间隔相邻的2、4、6、10、12、14点共6个点所构成的模板；当偏离角度在Y轴方向时，使用由Y轴上的点和临近Y轴上的15、0、1、7、8、9点共6个点所构成的模板。

下面结合具体实例进一步说明本发明。

实例1：

为了对本发明的算法的性能做出相应的评价，选择的H.264/AVC的JM11.0平台进行测试。实验所用计算机的硬件配置：Intel（R）Core（TM）i5-23102.90Hz，4G内存，操作系统为Windows XP SP3。为了更好地评价本发明算法，实验选取几组不同运动类型的、不同分辨率的标准测试序列，设定不同的搜索范围，序列格式为YUV4：2：0，编码档次为BaselineProfile。实验主要的编码参数如下：FramesToBeEncoded，SearchRange，FrameRate=30，UseHadamard=1，NumberReferenceFrames=5，其他参数为缺省配置。测试序列如表1，测试结果如表2和表3。

表1

测试序列	分辨率	帧率	搜索范围	编码帧数
					Coastguard	QCIF	30	16/32/64	100
Foreman	QCIF	30	16/32/64	100
					Highway（图像运动缓慢）	QCIF	30	16/32/64	100
Mobile	QCIF	30	16/32/64	100
					Container	CIF	30	32/64	100
Flower	CIF	30	32/64	100
					Football	CIF	30	32/64	100
News（图像运动缓慢）	CIF	30	32/64	100
					Basketball	D1	30	32/64	50
Boat	D1	30	32/64	50
					Harbour（图像运动缓慢）	720p	30	32/64/128	50
Sailormen（图像运动缓慢）	720p	30	32/64/128	50

[0054] 表2

	搜索范围	PSNR（dB）	码率（%）	运动估计时间（%）
					QCIF序列平均值	32	0.00	0.00	-18.61
Highway	32	0.00	1.60	-7.55
					CIF序列平均值	32	0.00	0.38	-13.39
News	32	0.00	0.28	-7.28

表3

	搜索范围	PSNR（dB）	码率（%）	运动估计时间（%）
					QCIF序列平均值	16	0.00	0.00	-9.76
	32	0.00	0.00	-18.61
						64	0.00	0.00	-28.28
CIF序列平均值	32	0.00	0.38	-13.39
						64	0.00	0.01	-21.43
D1序列平均值	32	0.00	0.31	-14.28
						64	0.00	0.27	-19.52
	128	0.00	0.21	-26.94
					720p序列平均值	32	0.00	0.04	-3.51
	64	0.00	0.11	-3.81
						128	0.00	0.03	-4.72

UMHexagonS搜索算法主要包括4个步骤，算法流程如图1。在本实施例中将本发明的算法代替UMHexagonS算法的第三步。与UMHexagonS算法在不同的搜索范围下的PSNR、码率、编码时间、运动估计时间等方面进行了比较。实验数据如表2和表3。在表2和表3中的序列平均值是表1中的相同分辨率的序列测试结果的平均值。

从表2可以看出，本发明的算法在优化运动估计方面有很大的优势，特别是对图像运动剧烈的序列，效果尤为明显。本发明的算法在PSNR和码率变化不大的情况下，当QCIF分辨率下搜索范围为32时，运动估计时间平均可节省18.61%。

由表3可知，随着搜索范围的扩大，本发明的算法在运动估计时间上优势就越明显，运动估计时间节省率可达到28.28%，并且本发明的算法对不同分辨率的序列都有很好的效果。

从以上实验结果来看，本发明的算法的PSNR与UMHexagonS算法的PSNR相比几乎不变；本发明的算法的码率与UMHexagonS算法的码率相比，幅度变化不大；但是本发明的算法在提高编码速度上效果尤为明显，尤其是对运动的图像序列，效果更好；并且本发明的算法适用于各种分辨率的图像序列；而且随着搜索范围的扩大，本发明的算法的效果就越明显。

Claims

1.一种用于视频编码中的运动估计的自适应搜索方法，其特征在于，是多层次多角度的自适应搜索方法，具体包括如下步骤：

将运动估计的中值预测值中X方向和Y方向中的最大值表示为Max；将搜索层次数表示为Num，设定初始状态的Num = search_range/4，

（1）当search_range/4 ≥ 4时，

如果Max ≥ 12，则Num = 4；

如果8≤Max＜12，则Num = 3；

如果Max＜8，则Num = 2；

（2）当search_range/4＝3时，

如果Max≥ 8，则Num = 3；

如果6≤Max ＜8，则Num = 2；

如果Max＜6，则Num = 1；

（3）当search_range/4＝2时，

如果Max ≥ 6，Num = 2；

如果Max＜6，则Num = 1；

（4）当search_range/4≤1时，

Num = 1；

2）利用当前获得的最佳运动矢量与邻近参考帧运动矢量预测值的偏离方向，确定自适应模板的搜素方向，当偏离角度在第一象限或第三象限时，使用由第一象限和第三象限上的10个点所构成的模板；当偏离角度在第二象Ⅱ限或第四象限Ⅳ时，使用第二象限Ⅱ和第四象限Ⅳ上的10个点所构成的模板；当偏离角度在X方向时，使用由X轴上的点和与该点在Y方向上间隔相邻的点共6个点所构成的模板；当偏离角度在Y方向时，使用由Y轴上的点和临近Y轴上的点共6个点所构成的模板。