CN101009834A

CN101009834A - 一种用于视频编码的混合运动估计方法

Info

Publication number: CN101009834A
Application number: CN 200710026256
Authority: CN
Inventors: 陆寄远; 朝红阳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2007-01-09
Filing date: 2007-01-09
Publication date: 2007-08-01

Abstract

本发明属于信号处理中的视频编码领域，涉及混合的运动估计方法。一种用于视频编码的混合运动估计方法利用了同一帧图像中不同宏块的运动特性，构造出一种特殊的运动估计模式。本发明混合运动估计方法对首行的宏块全部采用高精度运动估计方法，对首列的宏块间隔地采用高精度运动估计方法，其余的宏块采用简单运动估计方法。本发明综合利用了现存两类运动估计方法的特性，在保证搜索速度与简单运动估计方法相当的同时，使运动估计的精度仍然与高精度运动估计方法一样。在保证视频编码效率和质量的同时，本发明能大幅地减少软硬件计算的复杂度。

Description

一种用于视频编码的混合运动估计方法

技术领域

本发明属于信号处理中的视频编码领域，是一种对于目前各种流行的视频编码标准都适用的快速运动估计方法即用于视频编码的混合运动估计方法。在保证视频编码效率和质量的同时，本发明方法能大幅地减少软硬件计算的复杂度。

背景技术

MPEG-2凭借其清晰的图像质量，成为了第一代数字电视视频部分的压缩标准。但随着压缩技术的不断发展以及硬件设备运算速度的持续提高，MPEG-2越来越显示出不足的地方。最有机会成为下一代高清数字电视视频压缩标准有三个。第一，由ISO的MPEG工作组和ITU的VCEG工作组联合制定的MPEG-4AVC/H.264标准。第二，中国于2006年四月颁布了视频压缩标准AVS。AVS目前主要针对数字电视，视频存储等应用领域。第三，美国电影与电视工程师协会(SMPTE)颁布了VC-1标准。VC-1实质是微软视窗系统的Windows MediaVideo-9(WMV-9)。在这3个压缩标准中，H.264一直是最权威的压缩标准，并且它的前身MPEG-2已经被实际应用到了数字电视领域。而AVS和VC-1都在计算速度和专利授权两方面都各自标榜它们比H.264都更有优势。

为了符合新一代数字电视的应用需求，视频压缩技术最关键的问题就是其清晰度，压缩率和实现的复杂度。新一代的数字电视也称作高清数字电视，因此它对图像质量的要求是最严格的。另外，现在电视频道和电视节目的数量都大幅度地增长，自然对广播网络的负载大大加重。如何提高压缩率减少带宽成为了另一个重点考虑的问题。而且为了节省电视节目制作的成本，视频的压缩设备都会尽量采用低廉的硬件，所以对于压缩算法的实现也要尽量简单。

目前主流的视频编码技术都是基于运动补偿的视频编码。这种技术是把需要压缩的原始图像帧按照从左到右，由上至下的顺序切割成一个个的宏块，然后分别对这些宏块进行压缩。如图1所示是一幅QCIF格式(176×144)的图像分割为11×9个宏块进行运动估计的示意图。不同的压缩技术，如帧内预测，帧间预测，整数变换，可变长编码都会被应用到每个宏块上。但当前的运动预测技术都是在宏块的这一个层面进行考虑，并没有针对不同的宏块特性采用不同的运动估计方法。

在视频压缩过程中，采用运动估计的方法提取时域上的冗余度对压缩码率的贡献最为重要。但运动估计也是计算量需求最大的部分。因此出现了许多优秀的快速运动估计算法。它们大致可以分为两类：一类是简单运动估计方法。如图2所示是简单的运动估计方法对一个宏块进行运动估计示例。它比较侧重于运算速度的简单运动搜索方法。这些算法都利用了相邻宏块运动向量的相似性，预测出当前的初始运动向量，然后采用一个较小的模板进行细化搜索。因此简单运动估计方法是十分高速的。但是在运动比较剧烈的场景下，邻近宏块间运动向量的相似性就会变差，使用这些简单方法经常会使运动搜索被中止在局部最优的位置上，影响最终的图像质量。因为这类算法实现比较简单，需要的硬件配置要求不高，所以多数情况下被应用在视频会议，可视电话这类领域。与这类方法相关的参考文献有以下3篇：

1.Ahmad，I.，et al.，A fast adaptive motion estimation algorithm[J].Circuits and Systems for Video Technology，IEEE Transactions on，2006.16(3)：p.420；

2.Lee，Y.G.and J.B.Ra，Fast Motion Estimation Robust to RandomMotions Based on a Distance Prediction[J].Circuits and Systems for VideoTechnology，IEEE Transactions on，2006.16(7)：p.869-875；

3.Qaralleh，E.A.A.and T.S.Chang，Fast Variable Block Size MotionEstimation by Adaptive Early Termination[J].Circuits and Systems forVideo Technology，IEEE Transactions on，2006.16(8)：p.1021-1026。

另一类是高精度的搜索方法。图3是高精度的运动估计方法对一个宏块进行运动估计示例。主要适用于高码率和高清晰的广播领域，如高清电视，DVD等。这类应用对图像的质量要求十分严格，因此它在简单预测点方法的基础上增加了许多不同的搜索模板，用以减少因为视频中运动不规则时，搜索中止在局部最优的可能性。可对比的技术文献有以下1篇：

1.Chen，Z.，et al.，Fast integer-pel and fractional-pel motionestimation for H.264/AVC[J].Journal of Visual Communication and ImageRepresentation，2006.17(2)：p.264。

在运动估计的时候，高精度运动估计方法主要在通过其复杂的计算来保证运动矢量的准确性。这种方法是以一种最坏的情况考虑整幅图像的运动矢量分布。所以高精度运动估计方法虽然有较高的准确性，但所消耗的计算时间也是相当可观的。而且，视频序列中相邻宏块间的运动矢量有十分高的相关性，特别是在空间上相邻宏块运动矢量间的这种相关性就更大了。所以在大多数情况下不需要对每个宏块都做最坏的打算并进行高精度的运动估计。简单运动估计方法就是最大限度地利用了这个相关性，大幅地提高搜索速度。可是有三种情况大大地影响这种简单搜索方法的精度。首先，如果当前的运动向量与相邻的运动向量都没有明显的关联，而预测点与实际的运动向量相差甚远的时候，简单的搜索方法很容易就会中止在某一个局部最优的位置上了。这种情况经常发生在视频场景切换的时候。其次，采用基于预测点的搜索方法，位于图像边缘的运动向量在极大程度上会影响所有运动向量的搜索。因为视频编码通常采用光栅扫描的顺序，由上自下逐行扫描。顶行的运动向量和最左列的运动向量都直接或间接地作为其余运动向量的预测点。这些基本预测点的精度同时也影响了其余运动向量的精度。第三，对特征不明显的宏块进行搜索，例如一堵墙或一块布。不同位置所得到的残差值都是十分接近的，所以在这些位置上搜索出来的运动向量有一定的混乱性。利用它们作为其他运动向量的预测点是十分不适当的。

发明内容

为了克服现在技术的不足，本发明的提出一种适合于目前高清数字视频领域的混合运动估计方法，本发明方法既可以有足够高的运动估计精度，又节省大量的硬件计算时间。并且这种方法综合的利用了两类当前被应用得很广泛的运动估计技术，使它们能相互协作，取长补短。

本发明所采用的技术方案如下：一种用于视频编码的混合运动估计方法，首先把需要压缩的原始图像帧按照从左到右，由上至下的顺序切割成一个个的宏块，然后分别对这些宏块进行压缩，其特征在于本方法结合了简单运动估计算法的快速性和高精度算法的准确性，在每帧图像的不同宏块上分别应用不同的运动估计方法进行处理。

所述对图像的不同宏块的具体处理步骤是：

①对第一行的宏块全部应用高精度的运动搜索方法处理。因为视频编码技术对于宏块的压缩是按照由上至下，从左到右的顺序，所以在对当前宏块进行运动估计的时候，可以参照的相邻运动向量为左上方，上方，右上方和左方这几个宏块的运动向量。而在右方以及下方(包括左下方，正下方，右下方)宏块的运动向量因为还未曾进行运动估计，所以不能作为参照运动向量。另外，对第一行的宏块进行运动估计的时候，因为第一个宏块位于图像帧的左上角，所以是没有任何可以参照的运动向量。而其余在第一行的宏块则只有一个左相邻的运动向量可以作为参照。因此使用简单的运动估计方法对于首行宏块运动向量进行估计的准确度是不足够的。特别在视频场景有全局运动的情况下，这个现象特别明显。此外，第一行的运动向还会作为后续运动向量估计的起始位置，所以它们的准确性在很大程度上会影响整幅图像所有运动向量的准确程度。因此，本发明对于首行宏块运动向量的估计方法采用了高精度的运动估计方法，从而保证它们的准确性。

②对第一列宏块间隔地使用高精度运动估计方法处理。同样，对于靠近图像左侧第一列的宏块，除了最上方的一个，都拥有两个参考运动向量。这两个分别是位于上方和右上方的运动向量。而使用快速的简单运动估计算法与参考运动向量的可信度有很大的关系，只要这些运动向量与最终的目标运动向量有足够的接近，那么使用简单运动估计方法是十分有效的。同时，因为第一列的第一个宏块也属于第一行的宏块，所以已经采用了较复杂的高精度运动估计方法。因此在它下方的第二个宏块使用简单的运动估计方法已经可以准确地找到运动向量。但，为了补偿首列宏块参考运动向量的不足，本发明间隔地应用高精度运动估计方法和简单运动估计方法到这一列的宏块上。

③对其余宏块都使用简单运动估计方法处理。对于一帧图像中的其它非首列和非首行的宏块，因为它们都有四个空间相邻的运动向量作为参考运动向量，所以对这些宏块应用简单的运动估计方法所搜索出来的运动向量已经是足够精确的了。

所述步骤②对第一列宏块间隔地使用高精度运动估计方法处理，即是在单数行的宏块上使用的是高精度运动估计方法，而在偶数行的宏块上使用的是简单的运动估计方法。

所述步骤①对第一行的宏块全部应用高精度的运动搜索方法处理的具体做法是对每一个宏块都进行高精度的四级运动搜索：第一级是以初始预测点为中心进行的一个5×5像素范围内的全搜索；第二级是以上一级搜索的最优点为中心，进行的一个非对称十字形模板搜索；第三级是以上一级搜索的最优点为中心，进行的非均匀多层次六边形格点搜索；第四级是以上一级搜索的最优点为中心，进行局部六边形搜索，当最优位置不在局部六边形模板的中心时，就继续移动局部六边形模板进行搜索，否则，在局部六边形模板内部使用一个十字形模板搜索，十字形模板搜索出来的最优位置就是最终的运动估计位置。

所述步骤③对其余宏块都使用简单运动估计方法处理的具体做法是对每个宏块都进行简单的两级运动搜索：第一级是对起始预测点的搜索，起始预测点分别为零运动向量，上相邻运动向量，左相邻运动向量，右上相邻运动向量和中值运动向量，在这四个位置中选择与当前宏块最匹配的位置作为下一级搜索的起始点；如图4所示是获取某一宏块参考运动向量的左上、上方、右上和左方四个相邻宏块示意图。第二级是以上一级搜索出来的最优点为中心，应用一个十字形搜索模板进行搜索，当最优位置不在十字形模板的中心时，继续移动十字形模板进行搜索，否则，停止搜索，当前十字形模板的中心位置就为最终的运动估计位置。

本发明的有益效果如下：传统的运动估计方法都是以宏块为独立的单位进行运动估计。本发明利用了不同宏块的运动估计特性，分别在第一行的全部宏块和第一列的单数宏块上使用了准确度比较高的运动估计方法，保证了整体运动估计的准确性。而在其余对整帧图像运动估计质量影响不是太重要的宏块上都采用了十分快速的简单运动估计方法，保证了运动估计的快速性。通过有效的结合当前两类主流的运动估计方法，本发明同时具有了它们的优点。

附图说明

图1是一幅QCIF格式(176×144)的图像分割为11×9个宏块进行运动估计的示意图；

图2是简单的运动估计方法对一个宏块进行运动估计示例；

图3是高精度的运动估计方法对一个宏块进行运动估计示例；

图4是获取某一宏块参考运动向量的左上、上方、右上和左方四个相邻宏块示意图；

图5为本发明混合运动估计方法的原理示意图。

具体实施方式

下面结合最新的国际视频压缩标准MPEG-4 AVC/H.264(下面简称H.264)对本发明的一个实施方式进行说明。

H.264和其它著名的压缩标准MPEG-2，MPEG-4，H.263一样都是基于宏块的视频压缩标准。本发明还可以应用在其它所有基于宏块的压缩技术上面。H.264在宏块的基础上增加了16×8，8×16，8×8三种子块和8×4，4×8，4×4三种分区。因此H.264在做运动估计的时候会分别对宏块，不同的子块和不同的分区进行。

本发明所提到混合运动估计方法，如图5所示为本发明混合运动估计方法的原理示意图。就是首行全部采用高精度运动估计，首列间隔采用高精度估计，在H.264上应用，只工作在宏块这一级别上。而对于在子块和分区这两个级别，则全部使用的是简单运动估计方法。具体的过程如下：对于不同分块的运动估计顺序，采用由大到小的运动估计顺序，即先在尺寸最大的宏块级别上进行运动估计，然后分别按照16×8，8×16，8×8，8×4，4×8，4×4进行运动估计。

在宏块这一级别上，采用本发明提出的混合运动估计方法，可以很准确地搜索到与每个宏块相关联的运动向量。

在子块和分区这一级别上，统统采用简单运动估计方法。因为这些子块和分区都从属于某一个宏块，而与该宏块相关的运动向量已经被估计出来了，所以该运动向量就会做为从属子块和分区的参考运动向量。因此在子块和分区进行运动估计的时候，除了左上，正上，右上和左方这四个运动向量作为简单运动估计方法的参考运动向量外，它们所属宏块的运动向量，也叫做上层运动向量也会被作为参考运动向量。加入了这个上层运动向量作为参考运动向量，在子块和分区层面上使用简单运动估计方法已经可以很准确的搜索到最优的运动向量。

通过上面三个步骤把本发明应用到压缩标准H.264上，能大幅地提高编码器的速度。可以使得公认为计算复杂性很高的视频压缩标准H.264能实际的应用到很多的硬件平台上。

Claims

1、一种用于视频编码的混合运动估计方法，首先把需要压缩的原始图像帧按照从左到右，由上至下的顺序切割成一个个的宏块，然后分别对这些宏块进行压缩，其特征在于本方法结合了简单运动估计算法的快速性和高精度算法的准确性，在每帧图像的不同宏块上分别应用不同的运动估计方法进行处理。

2、根据权利要求1所述用于视频编码的混合运动估计方法，其特征是所述对图像的不同宏块的具体处理步骤是：①对第一行的宏块全部应用高精度的运动搜索方法处理；②对第一列宏块间隔地使用高精度运动估计方法处理；③对其余宏块都使用简单运动估计方法处理。

3、根据权利要求2所述用于视频编码的混合运动估计方法，其特征是所述步骤②对第一列宏块间隔地使用高精度运动估计方法处理，即是在单数行的宏块上使用的是高精度运动估计方法，而在偶数行的宏块上使用的是简单的运动估计方法。

4、根据权利要求2所述用于视频编码的混合运动估计方法，其特征是所述步骤①对第一行的宏块全部应用高精度的运动搜索方法处理的具体做法是对每一个宏块都进行高精度的四级运动搜索：第一级是以初始预测点为中心进行的一个5×5像素范围内的全搜索；第二级是以上一级搜索的最优点为中心，进行的一个非对称十字形模板搜索；第三级是以上一级搜索的最优点为中心，进行的非均匀多层次六边形格点搜索；第四级是以上一级搜索的最优点为中心，进行局部六边形搜索，当最优位置不在局部六边形模板的中心时，就继续移动局部六边形模板进行搜索，否则，在局部六边形模板内部使用一个十字形模板搜索，十字形模板搜索出来的最优位置就是最终的运动估计位置。

5、根据权利要求2所述用于视频编码的混合运动估计方法，其特征是所述步骤③对其余宏块都使用简单运动估计方法处理的具体做法是对每个宏块都进行简单的两级运动搜索：第一级是对起始预测点的搜索，起始预测点分别为零运动向量，上相邻运动向量，左相邻运动向量，右上相邻运动向量和中值运动向量，在这四个位置中选择与当前宏块最匹配的位置作为下一级搜索的起始点；第二级是以上一级搜索出来的最优点为中心，应用一个十字形搜索模板进行搜索，当最优位置不在十字形模板的中心时，继续移动十字形模板进行搜索，否则，停止搜索，当前十字形模板的中心位置就为最终的运动估计位置。