CN103237220A

CN103237220A - 视频编码中基于非均匀像素截断的运动估计方法

Info

Publication number: CN103237220A
Application number: CN2013101568667A
Authority: CN
Inventors: 余全合; 荣耀程; 安达; 佟欣; 何芸
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-04-29
Filing date: 2013-04-29
Publication date: 2013-08-07
Anticipated expiration: 2033-04-29
Also published as: CN103237220B

Abstract

本发明公开了一种视频编码中基于非均匀像素截断的运动估计方法，属于视频编码领域。该方法包括：把运动估计区域划分为多个运动估计子区域；确定多个子区域中的候选点对应的搜索像素组中的像素截断位数，并且至少有两个不同运动估计子区域中的候选点对应的搜索像素组中的像素截断位数是不同的；分别对多个子区域中的候选点进行运动估计，选出多个子区域中的最优点；从各个子区域的最优点集合中选出全域最优点。本发明有效的减少了运动估计的计算量，降低了运动估计的功耗，有利于降低视频编码的整体功耗，适用于移动设备的视频通信领域。

Description

视频编码中基于非均匀像素截断的运动估计方法

技术领域

本发明属于视频编码领域，具体涉及一种基于非均匀像素截断的运动估计方法。

背景技术

视频是指由一系列时间上相关的图片组成的。其中每一幅图像称为一帧，每一帧又分为若干个像素组，通常像素组的大小为正方形或长方形，像素组的大小也可以是其他任意形状，组成像素组的基本单位是像素，其中，整像素是指构成图像的点，是构成图像的最

小单元。亚像素是通过插值得到的，亚像素可以进一步分为1/2像素和1/4像素等，如图1所示，正方形表示的1/2像素是由它周围圆形的整像素进行插值得到的，菱形表示的1/4像素是由它周围的圆形整像素和正方形1/2像素进行插值得到的。

视频编码是指在保证一定的视频图像质量的前提下，有效的减少表达视频信息所需数据量的技术，它是以视频信号之间的冗余和人的心理视觉冗余为出发点，通过恰当的编码方式，来消除这些冗余。传统的视频编码技术如ITU制定的H.263，H.264/AVC标准以及ISO的MPEG组织制定的MPEG-1，MPEG-2，MPEG-4标准，中国制定的AVS标准等都是建立在混合编码框架之上的。上述视频编码方法如图2所示，包括运动估计和运动补偿，变换/量化，反量化/反变换，帧内预测，环路滤波，其中帧间预测中的运动估计和运动补偿是消除时间上的冗余，帧内预测是消除空间上的冗余，变换和量化是消除人眼视觉的冗余，环路滤波是用于提高视频质量，熵编码是消除统计冗余。

帧间预测是指利用时间域的相关性，来达到图像压缩的目的，帧间预测是由运动估计和运动补偿组成的。

运动补偿是指根据由运动估计输出的运动信息，在参考图像中提取与当前编码像素组对应的信息，其中当前编码像素组是指由待编码图像中的像素组组成的。

运动估计根据像素在时间域的相关性，由已编码的相邻图像作为参考图像，对于当前编码像素组，根据一定的匹配度准则在参考图像中搜索最佳匹配像素组，搜索是对搜索窗内的候选点进行的，该搜索窗定义在参考图像中，范围从相对于当前编码像素组的位置，左移H_x，右移H_x，上移V_y，下移V_y所覆盖的所有候选点，H_x，V_y构成矩形搜索窗（2H_x+1）x（2V_y+1），如果H_x=V_y=W，也叫搜索窗±W，搜索窗也称为运动估计区域，搜索窗可以是矩形区域或非矩形区域；每一个候选的匹配像素组，即搜索像素组，有一个用来标注该像素组在搜索窗中位置的像素点，这个像素点叫做搜索窗中的候选点。上述的匹配度准则可以有多种定义，公式（1）定义的当前编码像素组与候选点对应的搜索像素组的绝对残差和是衡量匹配度准则的重要组成部分，某些情况，绝对残差和会直接作为匹配度，绝对残差和的值越小表明匹配度越高，选取匹配度最高的候选点作为最优点，最优点也可以是多个最优匹配点，即根据匹配运算结果，选出多个最优点。候选点到相对于当前编码像素组位置的偏移为运动矢量。

SAD = Σ_{j = 0}^{M - 1} Σ_{i = 0}^{N - 1} | c (i, j) - r (i - x, j - y) | - - - (1)

式（1）中的c(i,j)是当前编码图像在（i,j）坐标位置处的像素值；r(i-x,j-y)是参考图像在（i-x,j-y）坐标位置处的像素值。N×M是当前编码像素组的大小，也是参考图像中搜索像素组的大小。

匹配度并不限于公式（1），可以是衡量当前编码像素组和搜索像素组匹配程度的任何度量。

例如：图3中的每个方块表示的是一个像素，X,Y分别表示的是横轴和纵轴的两个方向，其他字母表示的是各个方块所对应的像素，Z表示的是原点位置的像素，当前编码像素组是由图3中的A,B,C,…P这16个像素组成的。，它的位置是图3所示的A像素位置，坐标为（10,11）的点，对应于参考图像中如图4所示的a像素位置，图4中的字母表示的意思和图3是一样的，运动估计区域是由图4中的R,U,V,W这四个像素组成的9×9的矩阵所覆盖的所有候选点组成的，它的大小为±8，当前编码像素组和搜索像素组的大小为4x4。对候选点b，像素位置为（3,9）的点进行运动估计，（1）式中的f(i,j)是当前编码像素组中的像素，它们的像素值记为P_A,P_B,P_C,P_D,P_E,P_F,P_G,P_H,P_I,P_J,P_K,P_L,P_M,P_N,P_O,P_P,f'(i-x,j-y)是b点对应的搜索像素组中的像素，它是由图4中b,c,d,…q这16个像素组成的。，它们的像素值记为P_b,P_c,P_d,P_e,P_f,P_g,P_h,P_i,P_j,P_k,P_l,P_m,P_n,P_o,P_p,P_q，x=7,y=2，则公式（1）为：

SAD_b=|P_A-P_b|+|P_B-P_c|+|P_C-P_d|+|P_D-P_e|+|P_E-P_f|+|P_F-P_g|+|P_G-P_h|+|P_H-P_i|

+|P_I-P_j|+|P_J-P_k|+|P_K-P_l|+|P_L-P_m|+|P_M-P_n|+|P_N-P_o|+|P_O-P_p|+|P_P-P_q|

候选点b点（3,9）相对于当前编码像素组的位置（10,11）的运动矢量为（-7，-2）。对运动估计区域内的所有候选点进行如上的运动估计操作，如果候选点b对应于（1）式的匹配度在运动估计区域所有的候选点对应的匹配度中最高，则最优运动矢量可以为（-7，-2）。

上述的例子是非像素截断方法计算(1)式的匹配度，（1）式中的c(i,j)和r(i-x,j-y)是原始的像素值，通常由8位或者10位二进制数表示，范围从0-255或者0-1023。有时为了降低运算量，减少编码器功耗，可以对（1）式中的c(i,j)和r(i-x,j-y)进行修改，得到对应的匹配度，如像素截断方法来计算（1）式的匹配度，其中像素截断是指对表达当前像素值的二进制位数进行截断，对截断的位数可以有多种操作，通常情况下进行舍弃或者用0来填充处理；并且通常情况下，截断像素值的低位，保留剩余的高位。例如8位二进制数表达的像素值，保留高6位，截断低2位，当前像素的像素值由原来的高6位组成，低2位舍弃不用，当前像素值只有6位；或者当前像素的像素值由原来的高6位和用0来填充的低2位组成。用像素截断方法后，（1）式的匹配度为：

SAD = Σ_{j = 0}^{M - 1} Σ_{i = 0}^{N - 1} | c^{'} (i, j) - r^{'} (i - x, j - y) | - - - (2)

式（2）中的c'(i,j)和r'(i-x,j-y)是当前编码像素组中的像素和搜索像素组中的像素都进行像素截断后的像素值。

例如，图3中的每个方块表示的是一个像素，X,Y分别表示的是横轴和纵轴的两个方向，其他字母表示的是各个方块所对应的像素，Z表示的是原点位置的像素，当前编码像素组是由图3中的A,B,C,…P这16个像素组成的。，它的位置是图3所示的A像素位置，坐标为（10,11）的点，对应于参考图像中如图4所示的a像素位置，图4中的字母表示的意思和图3是一样的，运动估计区域是由图4中的R,U,V,W这四个像素组成的9×9的矩阵所覆盖的所有候选点组成的，它的大小为±8，当前编码像素组和搜索像素组的大小为4x4。首先对当前编码像素组中的像素和候选点对应的搜索像素组中的像素进行像素低4位截断，截断的低4位作舍弃处理；然后对该候选点进行运动估计。如图3中A像素点原始像素值为109，它的二进制表示为：1101101，截断低四位后为:110，所以它截断后的像素值为6，截断后当前编码像素组的像素值记为P_A',P_B',P_C',P_D',P_E',P_F',P_G',P_H',P_I',P_J',P_K',P_L',P_M',P_N',P_O',P_P'。对图4中候选点b，像素位置为（3,9）的点进行运动估计，把b点对应搜索像素组中的所有像素点进行像素低4位截断，得到的像素值记为：P'_b,P_c',Pd',P_e',P_f',P_g',P_h',P_i',P_j',P_k',P_l',P_m',P_n',P_o',P_p',P_q'，再计算（2）式的匹配度，（2）式中的c'(i,j)是进行像素低4位截断后的当前编码像素组，r'(i-x,j-y)是进行像素低4位截断后的搜索像素组，x=7,y=2，则公式（2）为：

SAD_b=|P_A'-P_b'|+|P_B'-P_c'|+|P_C'-P_d'|+|P_D'-P_e'|+|P_E'-P_f'|+|P'_F-P_g'|+|P_G'-P_h'|+|P_H'-P_i'|

+|P_I'-P_j'|+|P_J'-P_k'|+|P_K'-P_l'|+|P_L'-P_m'|+|P_M'-P_n'|+|P_N'-P_o'|+|P_O'-P_p'|+|P_P'-P_q'|

候选点b点（3,9）相对于当前编码像素组的位置（10,11）的运动矢量为（-7，-2）。对运动估计区域中的所有候选点进行如上的运动估计操作，如果候选点b对应于（2）式的匹配度在运动估计区域所有的候选点对应的匹配度中最高，则最优运动矢量可以为（-7，-2）。

在对候选点进行整像素运动估计之后，为了得到更加准确的运动矢量，提高视频编码器的性能，许多编码器需要在以整像素最优运动矢量对应的候选点为中心，在该中心周围对整像素进行插值得到1/2像素，然后再进行运动估计，称为1/2像素运动估计。1/4像素运动估计过程同理。

在当前日常生活中，智能手机，平板电脑，超级本等这些设备因为它们的娱乐性和轻便性越来越受到人们的青睐。人们对这些设备的视频质量的要求越来越高，如高清摄像头，高清分辨率，高清3D游戏等；另一方面，电池续航能力是这些设备最重要的指标之一，人们希望它们的续航时间长，功耗低。因此低功耗的视频编码器设计是一个研究重点。研究发现，在视频编码过程中，帧间预测中的运动估计过程占用50%-90%的计算复杂度，大约77%的功耗消耗在运动估计过程中。因此，为了满足低功耗的编码需求，现有技术中对帧间预测中的运动估计部分作了许多工作，其中像素截断是一种降低功耗的有效方法。

例如像素截断方法，该方法由He,Z.,and Liou,M.L.以“Reducing hardwarecomplexity of motion estimation algorithms using truncated pixels(利用像素截断降低运动估计硬件复杂度的方法)”为名发表在in Circuits and Systems,1997.ISCAS'97.,Proceedings of1997IEEE International Symposium on vol.4,ed:IEEE,1997,pp.2809-2812.该方法虽然很大程度上降低了功耗，但性能无法得到保证，在运动激烈时质量下降明显，不能应用于高质量图像编码。该方法的具体过程为把参与运动估计过程的像素位数由原来的8位均截断为4位：保留高4位，舍弃低4位，然后再对候选点进行运动估计，该方法实际上是对运动估计区域中的所有候选点采用相同的像素截断位数。

由Zhong-Li,H.,Chi-Ying,T.,Kai-Keung,C.,and Liou,M.L等人以“Low-powerVLSI design for motion estimation using adaptive pixel truncation（基于自适应像素截断的低功耗运动估计电路设计）”为题发表在Circuits and Systems for VideoTechnology,IEEE Transactions on,2000,10,(5),pp.669-678的自适应像素截断方法，该方法可以根据编码的量化值来决定当前帧进行运动估计的像素截断数，每一帧只采用一个像素截断位数，它较上一像素截断方法有较好的性能保证，但该方法的不足之处和上述所提的像素截断方法一样，在运动剧烈图像时，重建图像有很大的失真，该方法和上面的方法相似，在运动估计过程中也是对运动估计区域中的所有候选点采用相同的像素截断位数。

由Bahari,A.,Arslan,T.,and Erdogan,A.T三人以“Low-power H.264videocompression architectures for mobile communication（针对移动通信的低功耗H.264视频压缩结构）”为题发表在Circuits and Systems for Video Technology,IEEETransactions on,2009,19,(9),pp.1251-1261的方法和由Bahari,A.,Arslan,T.,and Erdogan,A.T三人以“Power efficient motion estimation algorithm andarchitecture based on pixel truncation（基于像素截断的高效功率的运动估计算法和结构）”为题发表在Consumer Electronics,IEEE Transactions on,2011,57,(4),pp.1782-1790的方法都是二步法：先进行基于像素截断的运动估计，然后进行非像素截断的运动估计，这种方法是先在较大运动估计区域中进行像素截断的运动估计，得到各个候选点对应的搜索像素组的匹配度，选取匹配度最高的一点作为最优候选点，然后再以这个最优候选点为中心的较小的运动估计区域中进行非像素截断的运动估计。这种方法的复杂度比上述的像素截断方法和自适应像素截断方法要高，该方法在进行像素截断的运动估计时，也是对运动估计区域中的所有候选点采用同一的像素截断位数。

以上的方法都是对运动估计区域中的所有候选点均采用相同的像素截断位数，不能在降低功耗的同时保证编码性能。

发明内容

本发明的目的是克服已有技术的不足，提出一种视频编码中基于非均匀像素截断的运动估计方法，在保持原有视频编码技术性能的同时大大降低了整像素运动估计和亚像素运动估计的功耗。且本方法并不限于当前主流的视频编码标准H.264/AVC,MPEG4，AVS，也可以应用于其他非国际标准和未来视频编码标准。

本发明提供一种视频编码中基于非均匀像素截断的运动估计方法，其特征在于，该方法包括以下步骤：

1）在视频编码参考图像中对当前编码像素组对应的运动估计区域进行划分，将运动估计区域划分为多个运动估计子区域；

利用所述的多个运动估计子区域，确定多个子区域中的候选点对应的搜索像素组中的像素截断位数，并且至少有两个不同运动估计子区域中的候选点对应的搜索像素组中的像素截断位数是不同的；

2）对各个运动估计子区域的候选点对应的搜索像素组中的像素进行像素截断，同时对当前编码像素组中的像素进行像素截断，再对各个运动估计子区域的候选点进行运动估计，计算各个子区域中的候选点对应搜索像素组的匹配度，得到多个运动估计子区域最优点以及最优点对应的运动矢量；

3）按照预定的判断准则从步骤2)中得到的多个运动估计子区域最优点中选出一个或多个作为全域最优点,根据当前编码像素组位置和全域最优点的对应关系，计算得到全域最优运动矢量，把全域运动矢量传递给后续的编码计算单元。

所述步骤1）对当前编码像素组对应的运动估计区域进行划分，将运动估计区域划分为多个运动估计子区域是：

将运动估计区域划分为多个重叠或不重叠的运动估计子区域，子区域的个数大于等于二，划分的运动估计子区域是运动估计区域的子集，所有子区域的并集覆盖整个运动估计区域。

所述步骤1）的运动估计子区域是由单个或者多个候选点组成的，子区域是连通的或是不连通的(运动估计子区域的形状不限定)。

所述步骤2）的计算各个子区域中的候选点对应搜索像素组的匹配度的确定采用主流视频编码标准中对运动估计过程的匹配度的计算方法(但不限于该方法),该方法用代价函数cost来衡量，代价函数cost表示为：

cost＝SAD+λBits_mv

上式中的λ是调节因子，Bits_mv是编码运动矢量所需的比特数(代价函数cost值越小表明匹配度越高)，SAD为绝对残差和（它是计算各个子区域中的候选点对应搜索像素组的匹配度的主要组成部分，在某些情况下，绝对残差和SAD会直接作为代价函数cost），绝对残差和SAD的计算如式（3）所示：

SAD = Σ_{j = 0}^{M - 1} Σ_{i = 0}^{N - 1} | c^{'} (i, j) - r^{'} (i - x, j - y) | - - - (3)

上式（3）中的c'(i,j)和r'(i-x,j-y)分别表示当前编码像素组中的像素进行像素截断后的像素值和搜索像素组中的像素进行像素截断后的像素值，N×M是当前编码像素组的大小，也是搜索像素组的大小，x,y是当前编码像素组位置的偏移量。

所述步骤2）的得到多个运动估计子区域最优点是指：选取运动估计子区域中匹配度最高的一个作为该运动估计子区域最优点，或者按照匹配度从高到低的顺序，选取前多个候选点作为该运动估计子区域最优点。

所述步骤3）的预定的判断准则可采用非像素截断判断准则，具体为：

由常规的匹配度准则确定选取全域最优点(即对当前编码像素组不进行像素截断，对多个运动估计子区域最优点对应的搜索像素组中的像素也不进行像素截断，然后对多个运动估计子区域最优点进行运动估计)，选取匹配度最高的一个作为全域最优点,或者按照匹配度从高到低的顺序，选取前多个候选点作为全域最优点。

所述步骤3）的预定的判断准则可为阈值判断准则，具体为：

根据多个运动估计子区域的候选点进行运动估计过程中得到的多个运动估计子区域最优点对应的匹配度，与设定的阈值进行判断，选择一个或多个全域最优点,其中阈值的选择与像素截断位数有关，像素截断的位数越大选择的阈值就越大。

本发明中所述的运动估计方法，包括但不限于整像素运动估计，亚像素运动估计（亚像素通过插值得到的，包括1/2像素插值,1/4像素插值,1/8像素插值及更多）。

本发明的特点及有益效果：

由于已有技术在运动估计过程中采用同一的像素截断位数或者非像素截断位数方法，这些方法不能在降低功耗的同时保证编码性能，本发明正是克服这种不足，它能在保持原有视频编码技术性能的同时大大降低整像素运动估计和亚像素运动估计的功耗，特别适用于对功耗要求高的视频应用领域，如移动设备和电视设备等。

附图说明

图1是亚像素插值原理示意图。

图2是现有技术提供的一种视频编码的原理示意图。

图3是当前编码像素组的示意图。

图4是参考图像中的运动估计示意图。

图5是本发明的方法总体流程图.

图6是本发明实施例1提供的视频编码中基于非均匀像素截断的运动估计方法的结构示意图。

图7是本发明实施例1和实施例2提供的当前编码像素组的示意图。

图8是是本发明实施例1提供的视频编码中基于非均匀像素截断的运动估计方法的运动估计区域划分和像素截断结构示意图。

图9是本发明实施例2提供的视频编码中基于非均匀像素截断的运动估计方法的结构示意图。

图10是是本发明实施例2提供的视频编码中基于非均匀像素截断的运动估计方法的运动估计区域划分和像素截断结构示意图。

图11是本发明实施例3提供的视频编码中基于非均匀像素截断的运动估计方法的结构示意图。

图12是本发明实施例3和实施例4提供的视频编码中基于非均匀像素截断的运动估计方法的1/2像素插值、1/2运动估计区域划分和1/2像素截断结构示意图。

图13是本发明实施例4提供的视频编码中基于非均匀像素截断的运动估计方法的结构示意图。

具体实施方式

下面通过附图及实施例更清楚的说明本发明，下面描述中的附图仅仅是本发明的一些实施例，不用以限制本发明的保护范围；即本领域普通技术人员，根据这些附图对实施例的内容进行的变化、等同替换，均应属于本发明的保护范畴。

本发明提供一种视频编码中基于非均匀像素截断的运动估计方法，如图5所示，该方法包括以下步骤：

实施例1：

本发明实施例提供的一种视频编码中基于非均匀像素截断的运动估计方法，参见图6，该方法包括：

运动估计区域划分和确定整像素候选点对应的搜索像素组中的整像素截断位数：在视频编码参考图像中对当前编码像素组对应的运动估计区域进行划分，将运动估计区域划分为多个运动估计子区域；

利用所述的多个运动估计子区域，确定多个子区域中的整像素候选点对应的搜索像素组中的整像素截断位数，并且至少有两个不同运动估计子区域中的候选点对应的搜索像素组中的像素截断位数是不同的；

选出运动估计子区域最优点：对各个运动估计子区域的整像素候选点对应的搜索像素组中的整像素进行像素截断，同时对当前编码像素组中的整像素进行像素截断，再对各个运动估计子区域的候选点进行运动估计，计算各个子区域中的整像素候选点对应搜索像素组的匹配度，得到多个运动估计子区域的最优点以及最优点对应的运动矢量;

按照预定的阈值判断准则选出全域最优点：按照阈值判断准则从多个运动估计子区域最优点中选择一个作为全域最优点,根据当前编码像素组位置和全域最优点的对应关系，计算得到全域最优运动矢量，把选出的全域最优运动矢量传递给后续的编码计算单元。

具体地，如图7和图8所示，图7和图8中的每个方块表示的是一个像素，X,Y分别表示的是横轴和纵轴的两个方向，其他字母表示的是各个方块所对应的像素，Z表示的是原点位置的像素，当前编码像素组是由图6中的A,B,C,…P这16个点像素组成的，它的位置是图7所示的A像素位置，坐标为（5,5）的点，对应参考图像中如图8所示的位置为a像素位置，运动估计区域是由图8中的Z，U,V,W这四个像素组成的5×5的矩阵所覆盖的所有候选点组成的，它的大小为±4，当前编码像素组的大小为4x4，也就是参考图像中搜索像素组的大小为4x4。先将运动估计区域划分为图8中的两部分，其中双实线所包括的候选点组成运动估计子区域1，其他非运动估计子区域1的候选点组成运动估计子区域2，接着确定对子区域1中候选点对应的搜索像素组中的像素进行像素低2位截断，对子区域2中的候选点对应的搜索像素组中的像素进行像素低4位截断，截断的位数用0来填充；然后对子区域1的所有整像素候选点进行运动估计，计算子区域1的候选点对应搜索像素组的匹配度，如对子区域1的b点进行运动估计，计算该候选点对应搜索像素组的匹配度，b候选点对应的搜索像素组中的像素为：b,c,d,…q这16个点，由于b点在子区域1中，所以对这16个点进行像素低2位截断，如q点原来像素值为119，二进制数为：1110111，截断后的二进制数为1110100：像素值为116，这16个点进行像素低2位截断后的像素值分别为：P'_b,P_c',P_d',P_e',P_f',P_g',P_h',P_i',P_j',P_k',P_l',P_m',P_n',P_o',P_p',P_q'。然后对当前编码像素组中的16个像素（A,B,C,…P）也进行像素低2位截断，这16个点进行像素截断后的像素值分别为：P_A',P_B',P_C',P_D',P_E',P_F',P_G',P_H',P_I',P_J',P_K',P_L',P_M',P_N',P_O',P_P',把进行像素截断后的当前编码像素组的像素和参考图像中像素截断后的搜索像素组的像素进行绝对残差和计算，公式（2）即为：

得到公式（2）中的匹配度，对子区域1的所有候选点进行如上运动估计操作，得到子区域1的所有候选点对应搜索像素组的匹配度，选择匹配度最高的候选点作为子区域1的最优点，记为a点，它对应的绝对残差和为SAD_trun1。同理对子区域2中的所有候选点进行运动估计操作，在运动估计过程中搜索像素组和当前编码像素组截断的像素位数为4位数，得到子区域2的最优点，记为d点，它对应的绝对残差和为SAD_trun2。

然后根据阈值判断准则来选择全域最优点，具体过程为：计算两个绝对残差和（SAD_trun1和SAD_trun2）的差值，记为：SAD_{diff_trun}=SAD_trun1-SAD_trun2,根据SAD_trun1和SAD_trun2的概率分布特性，SAD_trun1满足均值为SAD_full1，标准方差为σ₁的正态分布；SAD_trun2满足均值为SAD_full2，标准方差为σ₂的正态分布，其中SAD_full1和SAD_full2分别为用非像素截断方法对a点和d点进行运动估计得到的绝对残差和，σ₁和σ₂值的大小与截断的位数有关，根据理论推导，σ₁和σ₂值与截断位数的关系如下表所示：\

上表中的N为当前编码像素组的大小,在本实施例中N为4。

由于SAD_{diff_trun}=SAD_trun1-SAD_trun2，因此SAD_{diff_trun}满足均值SAD_{diff_full}，标准方差为σ的正态分布，其中SAD_{diff_full}=SAD_full1-SAD_full2，

设定的阈值TH一般为正数，并且与σ成正比关系，设为：

TH＝w×δ+y

上式中的w,y为调节因子，w>0，因此σ值越大，阈值TH越大。

由于SAD_{diff_trun}满足均值SAD_{diff_full}，标准方差为σ的正态分布，所以

当SAD_{diff_trun}<-TH时，SAD_{diff_full}<0有很大的概率，因此这种情况下应该设定SAD_trun1对应的子区域1的候选点作为全域最优点，即为a点；

当SAD_{diff_trun}>TH时，SAD_{diff_full}>0有很大的概率，因此这种情况下应该设定SAD_trun2对应的子区域2的候选点作为全域最优点，即为d点。

当-TH≤SAD_{diff_trun}≤TH时，根据阈值判断准则很难判断SAD_{diff_full}是否大于0。可以直接选择采用截断位数更小的候选点作为全域最优点，在本实施例中由于a点采用的截断位数为2位，d点采用的截断位数为4位，因此选择a点作为全域最优点。

阈值TH的大小会影响编码性能。因此，为了取得较好的编码性能，需要通过调节w,y来细微调整阈值TH。

得到全域最优点之后，根据当前编码像素组位置和全域最优点的对应关系，计算得到全域最优运动矢量，把全域最优运动矢量传递给后续的编码计算单元。

实施例2：

本发明实施例提供的另一种视频编码中基于非均匀像素截断的运动估计方法，参见图9，该方法包括：

运动估计区域划分和确定整像素候选点对应的搜索像素组中的整像素截断位数：在视频编码参考图像中对当前编码像素组对应的运动估计区域进行划分，将运动估计区域划分为多个运动估计子区域。

选出运动估计子区域最优点：对各个运动估计子区域的整像素候选点对应的搜索像素组中的整像素进行像素截断，同时对当前编码像素组中的整像素进行像素截断，再对各个运动估计子区域的候选点进行运动估计，计算各个子区域中的候选点对应搜索像素组的匹配度，得到多个运动估计子区域的最优点以及最优点对应的运动矢量；

按照预定的非像素截断准则选出全域最优点：按照非像素截断准则从多个运动估计子区域最优点中选择二个作为全域最优点，根据当前编码像素组位置和全域最优点的对应关系，计算得到全域最优运动矢量，把选出的全域最优运动矢量传递给后续的编码计算单元。

具体地，如图7和图10所示，图7和图10中的每个方块表示的是一个像素，X,Y分别表示的是横轴和纵轴的两个方向，其他字母表示的是各个方块所对应的像素，Z表示的是原点位置的像素，当前编码像素组是由图7中的A,B,C,…P这16个点像素组成的，它的位置是图7所示的A像素位置，坐标为（5,5）的点，对应参考图像中如图10所示的位置为a像素位置，运动估计区域是由图10中的Z，U,V,W这四个像素组成的5×5的矩阵所覆盖的所有候选点组成的，它的大小为±4，，当前编码像素组的大小为4x4，也就是参考图像中搜索像素组的大小为4x4。先将运动估计区域划分为图10中的三部分，其中粗实线所包括的候选点组成运动估计子区域1，双实线所包括的候选点组成运动估计子区域2，其他非运动估计子区域1的候选点和非运动估计子区域2的候选点组成运动估计子区域3，其中子区域1和子区域2有重叠的部分。接着确定对子区域1中候选点对应的搜索像素组中的像素进行像素低4位截断，对子区域2中的候选点对应的搜索像素组中的像素进行像素低2位截断，对子区域3中的候选点对应的搜索像素组中的像素进行像素低3位截断，截断的位数作舍弃处理；然后对子区域1的所有整像素候选点进行运动估计，计算子区域1的候选点对应搜索像素组的匹配度，如对子区域1的b点进行运动估计，计算该点的匹配度，b候选点对应的搜索像素组中的像素为：b,c,d,…q这16个点，由于b点在子区域1中，所以对这16个点进行像素低4位截断，如Q点原来像素值为118，二进制数为：1110110，截断后的二进制数为：111，像素值为7，这16个点进行像素低4位截断后的像素值分别为：P'_b,P_c',P_d',P_e',P_f',P_g',P_h',P_i',P_j',P_k',P_l',P_m',P_n',P_o',P_p',P_q'。然后对当前编码像素组中的16个像素（A,B,C,…P）也进行像素低4位截断，这16个点进行像素截断后的像素值分别为：P_A',P_B',P_C',P_D',P_E',P_F',P_G',P_H',P_I',P_J',P_K',P_L',P_M',P_N',P_O',P_P'，

把进行像素截断后的当前编码像素组的像素和参考图像中像素截断后的搜索像素组的像素进行绝对残差和计算，公式（2）即为：

得到公式（2）中的匹配度，对子区域1的所有候选点进行如上运动估计操作，得到子区域1的所有候选点对应搜索像素组的匹配度，选择匹配度最高的候选点作为子区域1最优点，设为b点；同理对子区域2中的所有候选点进行运动估计操作，在运动估计过程中搜索像素组和当前编码像素组截断的像素位数为2位数，得到区域子2的最优点，设为s点；对子区域3中的所有候选点进行运动估计操作，在运动估计过程中搜索像素组和当前编码像素组截断的像素位数为3位数，得到子区域3的最优点，设为t点。由于e点既属于子区域1的候选点也属于子区域2的候选点，在计算子区域1的所有候选点的匹配度时，e点对应的搜索像素组和当前编码像素组截断的像素位数为4位数，在计算子区域2的所有候选点的匹配度时，e点对应的搜索像素组和当前编码像素组截断的像素位数为2位数。

然后根据非像素截断判断准则来选择全域最优点，具体过程为：然后对b点，s点，t点分别进行非像素截断的运动估计过程，具体为对当前编码像素组不进行像素截断，保留它们原始的值，这些像素值记为：P_A,P_B,P_C,P_D,P_E,P_F,P_G,P_H,P_I,P_J,P_K,P_L,P_M,P_N,P_O,P_P，对b点对应的搜索像素组中的像素也不进行像素截断，保留它们原始的值，这些像素值记为：P_b,P_c,P_d,P_e,P_f,P_g,P_h,P_i,P_j,P_k,P_l,P_m,P_n,P_o,P_p,P_q然后对当前编码像素组的像素和参考图像中搜索像素组的像素进行绝对残差和计算，公式（1）即为：

得到公式（1）中的匹配度；对s点和t点的过程同理。对b点，s点，t点进行运动估计过程后得到三个匹配度，按照匹配度从高到低的顺序，对这三个匹配度进行排序，选择前二候选点作为全域最优点。

根据当前编码像素组位置和全域最优点的对应关系，计算得到全域最优运动矢量，把全域最优运动矢量传递给后续的编码计算单元。

实施例3：

本发明实施例提供的第三种视频编码中基于非均匀像素截断的运动估计方法，参见图11，该方法包括：

运动估计区域划分和确定1/2像素候选点对应的搜索像素组中的像素截断位数：在视频编码参考图像中对当前编码像素组对应的运动估计区域进行划分，将运动估计区域划分为多个运动估计子区域；

选出运动估计子区域最优点：对各个运动估计子区域的候选点对应的搜索像素组中的像素进行像素截断，同时对当前编码像素组中的像素进行像素截断，再对各个运动估计子区域的候选点然后进行运动估计，计算各个子区域中的候选点对应搜索像素组的匹配度，得到多个运动估计子区域的最优点以及最优点对应的运动矢量；

按照预定的非像素截断准则选出全域最优点：按照非像素截断准则从多个运动估计子区域最优点中选择一个作为全域最优点，根据当前编码像素组位置和全域最优点的对应关系，计算得到全域最优运动矢量，把选出的全域最优运动矢量传递给后续的编码计算单元。

具体地，如图7和图12所示，图7和图12中的每个方块表示的是一个像素，X,Y分别表示的是横轴和纵轴的两个方向，其他符号表示的是各个方块所对应的像素，其中小写字母表示的是1/2像素，Z表示的是原点位置的像素，当前编码像素组是由图7中的A,B,C,…P这16个点像素组成的，它的位置是图7所示的A像素位置，坐标为（5,5）的点，对当前编码像素组的运动估计区域进行整像素运动估计之后，得到运动估计区域中的一个全域的最优整像素候选点，设为A’点，对应参考图像中的位置为A’的点，如图12所示，以A’点为中心，进行1/2像素插值，得到1/2像素，如图12中的小写字母所示，运动估计区域的大小为±1，它是由图12中的a,b,c,e,A’,g,i,j,k这9个候选点组成的，当前编码像素组的大小为4x4，也就是参考图像中搜索像素组的大小为4x4。先对运动估计区域划分为图12中的二个部分，其中a,b,e,A’,i,j这6个候选点组成运动估计子区域1，c,g,k这三个候选点组成运动估计子区域2。接着确定对子区域1中候选点对应的搜索像素组中的像素进行像素低4位截断，对子区域2中的候选点对应的搜索像素组中的像素进行像素低2位截断，截断的位数作舍弃处理；然后对子区域1的所有1/2像素候选点进行运动估计，计算子区域1的候选点对应搜索像素组的匹配度，如对子区域1的a点进行运动估计，计算该点匹配度，a候选点对应的搜索像素组中的像素为：a,b,c,d,e,A’,g,F’,i,j,k,l,m,H’,o,I’这16个点，如图12所示，由于a点在子区域1中，所以对这16个点进行像素低4位截断，如c点原来像素值为120，二进制为：1111000，截断后的二进制为：111，像素值为7，这16个点进行像素低4位截断后的像素值分别为：P'_a,P_b',P_c',P_d',P_e',P_A'',P_g',P_F'',P_i',P_j',P_k',P_l',P_m',P_H'',P_o',P_I''。然后对当前编码像素组中的16个像素（图7中的A,B,C,…P）也进行像素低4位截断，这16个点进行像素截断后的像素值分别为：P_A',P_B',P_C',P_D',P_E',P_F',P_G',P_H',P_I',P_J',P_K',P_L',P_M',P_N',P_O',P_P',把进行像素截断后的当前编码像素组的像素和参考图像中像素截断后搜索像素组的像素进行绝对残差和计算，公式（2）即为：

SAD_a=|P_A'-P_a'|+|P_B'-P_b'|+|P_C'-P_c'|+|P_D'-P_d'|+|P_E'-P_e'|+|P'_F-P_A''|+|P_G'-P_g'|+|P_H'-P_F''|

+|P_I'-P_i'|+|P_J'-P_j'|+|P_K'-P_k'|+|P_L'-P_l'|+|P_M'-P_m'|+|P_N'-P_H''|+|P_O'-P_o'|+|P_P'-P_I''|

得到公式（2）中的匹配度，对子区域1的所有候选点进行如上运动估计操作，得到子区域1的所有候选点对应搜索像素组的匹配度，选择匹配度最高的候选点的作为子区域1最优点，设为a点。同理对子区域2中的所有候选点进行运动估计操作，在运动估计过程中搜索像素组和当前编码像素组截断的像素位数为2位数，得到子区域2的最优点，设为c点。

然后根据非像素截断判断准则来选择全域最优点，具体过程为：对a点，c点分别进行非像素截断的运动估计过程，具体是对当前编码像素组不进行像素截断，保留它们原来的值，这些像素值记为：P_A,P_B,P_C,P_D,P_E,P_F,P_G,P_H,P_I,P_J,P_K,P_L,P_M,P_N,P_O,P_P，对a点对应的搜索像素组中的像素也不进行像素截断，保留它们原来的值，这些像素值记为：P_a,P_b,P_c,P_d,P_e,P_A',P_g,P_F',P_i,P_j,P_k,P_l,P_m,P_H',P_o,P_p,P_I'。然后对当前编码像素组的像素和参考图像中搜索像素组的像素进行绝对残差和计算，公式（1）即为：

SAD_a=|P_A-P_a|+|P_B-P_b|+|P_C-P_c|+|P_D-P_d|+|P_E-P_e|+|P_F-P_A'|+|P_G-P_g|+|P_H-P_F'|

+|P_I-P_i|+|P_J-P_j|+|P_K-P_k|+|P_L-P_l|+|P_M-P_m|+|P_N-P_H'|+|P_O-P_o|+|P_P-P_I'|

得到公式（1）中的匹配度；对c点的过程同理。对a点，c点进行运动估计过程后得到二个匹配度，选择匹配度度最高的点作为全域最优点。

实施例4：

本发明实施例提供的第四种视频编码中基于非均匀像素截断的运动估计方法，参见图13，该方法包括：

按照预定的阈值判断准则选出全域最优点：按照阈值判断准则从多个运动估计子区域最优点中选择一个作为全域最优点，根据当前编码像素组位置和全域最优点的对应关系，计算得到全域最优运动矢量，把选出的全域最优运动矢量传递给后续的编码计算单元。

具体地，如图7和图12所示，图7和图12中的每个方块表示的是一个像素，X,Y分别表示的是横轴和纵轴的两个方向，其他符号表示的是各个方块所对应的像素，其中小写字母表示的是1/2像素，Z表示的是原点位置的像素，当前编码像素组是由图7中的A,B,C,…P这16个点像素组成的，它的位置是图7所示的A像素位置，坐标为（5,5）的点，对当前编码像素组的运动估计区域进行整像素运动估计之后，得到运动估计区域中的一个全域的最优整像素候选点，设为A’点，对应参考图像中的位置为A’的点，如图12所示，以A’点为中心，进行1/2像素插值，得到1/2像素，如图12中的小写字母所示，运动估计区域的大小为±1，它是由图12中的a,b,c,e,A’,g,i,j,k这9个候选点组成的，当前编码像素组的大小为4x4，也就是参考图像中搜索像素组的大小为4x4。先对运动估计区域划分为图12中的二个部分，其中a,b,e,A’,i,j这6个候选点组成运动估计子区域1，c,g,k这三个候选点组成运动估计子区域2。接着确定对子区域1中候选点对应的搜索像素组中的像素进行像素低4位截断，对子区域2中的候选点对应的搜索像素组中的像素进行像素低2位截断，截断的位数用0来填充；然后对子区域1的所有1/2像素候选点进行运动估计，计算子区域1的候选点对应搜索像素组的匹配度，如对子区域1的a点进行运动估计，计算该点匹配度，a候选点对应的搜索像素组中的像素为：a,b,c,d,e,A’,g,F’,i,j,k,l,m,H’,o,I’这16个点，如图12所示，由于a点在子区域1中，所以对这16个点进行像素低4位截断，如c点原来像素值为120，二进制为：1111000，截断后的二进制为：1110000，像素值为112，这16个点进行像素低4位截断后的像素值分别为：P'_a,P_b',P_c',P_d',P_e',P_A'',P_g',P_F'',P_i',P_j',P_k',P_l',P_m',P_H'',P_o',P_I''。然后对当前编码像素组中的16个像素（图7中的A,B,C,…P）也进行像素低4位截断，这16个点进行像素截断后的像素值分别为：P_A',P_B',P_C',P_D',P_E',P_F',P_G',P_H',P_I',P_J',P_K',P_L',P_M',P_N',P_O',P_P',把进行像素截断后的当前编码像素组的像素和参考图像中像素截断后搜索像素组的像素进行绝对残差和计算，公式（2）即为：

得到公式（2）中的匹配度，对子区域1的所有候选点进行如上运动估计操作，得到子区域1的所有候选点对应搜索像素组的匹配度，选择匹配度最高的候选点的作为子区域1最优点，记为a点。同理对子区域2中的所有候选点进行运动估计操作，在运动估计过程中搜索像素组和当前编码像素组截断的像素位数为2位数，得到子区域2的最优点，设为c点，它对应的决定残差和为SAD_trun2，

然后根据阈值判断准则来选择全域最优点，具体过程为：计算两个绝对残差和（SAD_trun1和SAD_trun2）的差值，记为：SAD_{diff_trun}=SAD_trun1-SAD_trun2,根据SAD_trun1和SAD_trun2的概率分布特性，SAD_trun1满足均值为SAD_full1，标准方差为σ₁的正态分布；SAD_trun2满足均值为SAD_full2，标准方差为σ₂的正态分布，其中SAD_full1和SAD_full2分别为用非像素截断方法对a点和c点进行运动估计得到的绝对残差和，σ₁和σ₂值的大小与截断的位数有关，根据理论推导，σ₁和σ₂值与截断位数的关系如下表所示：

上表中的N为当前编码像素组的大小,在本实施例中N为4。

设定的阈值TH一般为正数，并且与σ成正比关系，设为：

TH＝w×δ+y

上式中的w,y为调节因子，w>0，因此σ值越大，阈值TH越大。

当SAD_{diff_trun}>TH时，SAD_{diff_full}>0有很大的概率，因此这种情况下应该设定SAD_trun2对应的子区域2的候选点作为全域最优点，即为c点。

当-TH≤SAD_{diff_trun}≤TH时，根据阈值判断准则很难判断SAD_{diff_full}是否大于0。可以直接选择采用截断位数更小的候选点作为全域最优点，在本实施例中由于a点采用的截断位数为4位，c点采用的截断位数为2位，因此选择c点作为全域最优点。

Claims

1.一种视频编码中基于非均匀像素截断的运动估计方法，其特征在于，该方法包括以下步骤：

1）在视频编码参考图像中对当前编码像素组对应的运动估计区域进行划分，将运动估计区域划分为多个运动估计子区域；利用所述的多个运动估计子区域，确定多个子区域中的候选点对应的搜索像素组中的像素截断位数，并且至少有两个不同运动估计子区域中的候选点对应的搜索像素组中的像素截断位数是不同的；

2.如权利要求1所述方法，其特征在于，所述步骤1）对当前编码像素组对应的运动估计区域进行划分，将运动估计区域划分为多个运动估计子区域是：

3.如权利要求1所述方法，其特征在于，所述步骤1）的运动估计子区域是由单个或者多个候选点组成的，子区域是连通的或是不连通的。

4.如权利要求1所述方法，其特征在于，所述步骤2）的计算各个子区域中的候选点对应搜索像素组的匹配度的确定采用主流视频编码标准中对运动估计过程的匹配度的计算方法,该方法用代价函数cost来衡量，代价函数cost表示为：

cost＝SAD+λBits_mv

上式中的λ是调节因子，Bits_mv是编码运动矢量所需的比特数，SAD为绝对残差和，绝对残差和SAD的计算如式（3）所示：

SAD = Σ_{j = 0}^{M - 1} Σ_{i = 0}^{N - 1} | c^{'} (i, j) - r^{'} (i - x, j - y) | - - - (3)

5.如权利要求1所述方法，其特征在于，所述步骤2）的得到多个运动估计子区域最优点是指：选取运动估计子区域中匹配度最高的一个作为该运动估计子区域最优点，或者按照匹配度从高到低的顺序，选取前多个候选点作为该运动估计子区域最优点。

6.如权利要求1所述方法，其特征在于，所述步骤3）的预定的判断准则采用非像素截断判断准则，具体为：

由常规的匹配度准则确定选取全域最优点，选取匹配度最高的一个作为全域最优点,或者按照匹配度从高到低的顺序，选取前多个候选点作为全域最优点。

7.如权利要求1所述方法，其特征在于，所述步骤3）的预定的判断准则为阈值判断准则，具体为：

根据多个运动估计子区域的候选点进行运动估计过程中得到的多个运动估计子区域最优点对应的匹配度，与设定的阈值进行判断，选择一个或多个全域最优点,像素截断的位数越大选择的阈值就越大。