CN113518225B

CN113518225B - 6次多项式拟合匹配误差曲面的快速缩放运动估计方法

Info

Publication number: CN113518225B
Application number: CN202110911323.6A
Authority: CN
Inventors: 宋传鸣; 孙诗琦; 乔明泽; 刘丹; 王相海
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-06-16
Anticipated expiration: 2041-08-10
Also published as: CN113518225A

Abstract

本发明公开一种6次多项式拟合匹配误差曲面的快速缩放运动估计方法，首先，使用双三次插值方法在基于块匹配的平移模型中引进一个缩放因子，进而采用以缩放因子为自变量的一元6次多项式对运动补偿误差曲面进行拟合；其次，利用一元6次实系数多项式的求根方法计算出最佳的缩放因子，在此基础上，提出一种基于缩放模型的快速块匹配运动估计算法。实验结果表明，本发明的运动补偿平均峰值信噪比较之块匹配全搜索、块匹配菱形搜索和3D‑ZPDS分别提高了0.23dB、0.76dB、0.11dB，本发明的计算量比块匹配全搜索、3D‑ZPDS分别加速28.71倍、29.57倍。

Description

6次多项式拟合匹配误差曲面的快速缩放运动估计方法

技术领域

本发明涉及视频编码压缩领域，尤其是一种运算速度快、运动补偿质量高、实时性强、无需重复的亚像素插值运算、能有效预测视频缩放运动因子的6次多项式拟合匹配误差曲面的快速缩放运动估计方法。

背景技术

在基于块的差分预测+变换的闭环混合编码框架下，运动估计是一种有效的时间维差分预测技术，被广泛应用于AVS、H.264/AVC、H.265/HEVC、H.266/VVC和VC-1等视频编码标准中，是影响和制约视频编码器的整体率失真性能的关键技术。然而，运动估计环节所消耗的计算资源往往占编码器全部资源的50％以上，甚至可达80％。在这种情况下，为了在复杂度和预测精度之间进行折中，现有视频编码标准普遍采用基于平移模型的块匹配运动估计方法，并陆续提出了多种快速块匹配策略，如基于候选向量下采样的块匹配运动估计、基于像素下采样的块匹配运动估计、基于低比特深度像素的块匹配运动估计等。然而，平移模型无法有效预测由物体的旋转、缩放、变形和摄像机运动产生的非刚性复合运动。而且，基于块平移模型的运动估计通常不能获得平滑、连续的运动场，特别是在低码率下容易产生块效应，从而不可避免地影响了解码视频的主观质量。在这种情况下，近年来高阶运动模型被引入到视频编码器的运动估计环节，先后提出了基于网格模型的运动估计、基于仿射模型的运动估计、基于弹性模型的运动估计和基于缩放模型的运动估计等，从而弥补平移运动模型的不足。

通过在16个标准测试视频序列上进行实验统计后发现，大约74.46％的宏块包含非整数像素精度的缩放运动。可见，缩放运动是除平移运动以外、视频中最普遍存在的运动形式之一，可有效表示由于摄像机的推摄、拉摄和复合运动拍摄所产生的物体运动，并且无法利用基于块匹配的传统平移模型实现准确预测和补偿。因此，基于缩放模型的运动估计对于提高运动估计/补偿质量和视频编码的率失真性能具有重要作用。然而，基于缩放模型的运动估计需要在块平移向量的基础上，通过在可能的参数空间中“暴力搜索”最优的缩放步长，进而计算最佳的缩放比例，才能得到率失真性能较好的缩放运动向量。该过程涉及大量的亚像素插值运算，其计算复杂度远远高于块平移模型的全搜索，根本无法实现实时的运动估计/补偿，这在很大程度上限制了其实用性。

为克服上述不足，视频编码领域的技术人员目前主要从两个方面对基于缩放模型的运动估计方法进行改进。

第一，以隐式的方式求解缩放系数，不需要向解码端传输同步信息，可以直接与视频编码标准进行结合。Po等人使用多达23个缩放参考帧完成运动估计，与没有使用缩放参考帧的传统运动补偿预测相比，该方法明显提高了帧间预测精度，其平均峰值信噪比提高了1.69dB～2.34dB。但是，该方法对缩放因子的估计以及基于这些缩放因子重建的缩放参考帧会显著增加计算复杂度和内存需求；此外，该方法利用6-抽头有限脉冲响应滤波器来获得内插帧，所需的缓存空间非常大，并且不能提供灵活的缩放因子，无法实现缩放因子的自适应计算。为了节约缩放参考帧所需的缓存空间，Yuan等人从相机成像的原理出发建立了全局/局部缩放运动的线性运动模型，再使用线性回归来计算当前编码块的模型参数以及随着像素坐标线性变化的缩放运动向量。不过，该方法在预测运动向量时会产生编码增益不稳定的情况，还容易受到亮度变化的干扰，所获得的运动向量与精确的线性运动模型并不完全一致，导致帧间预测精度下降。为此，Liu等人提出了一种结合线性回归、模板匹配和率失真优化的运动补偿预测方法，首先利用线性回归和位于待编码块左侧、上方、右侧相邻块的运动向量计算当前待编码块的模型参数，然后采用模型参数和当前块的坐标来计算基本候选运动向量，进而通过模板匹配求解最佳的候选运动向量。然而，由于视频序列中往往存在局部亮度变化、随机噪声或其他不规则运动，该方法的搜索过程容易陷入局部最优点。Luo等人提出了一种在编码树单元、预测单元和运动矢量层中优化运动估计过程并实现分层并行化的方法，在编码树单元层引进了一种新的运动矢量预测器，为预测单元层设计了一个新的索引表来实现高效的误差推导策略，并在运动矢量层中利用一种处理器描述符来表示运动矢量及其整体开销。

第二，以显式方式计算缩放系数，并向解码端传输同步信息。Kim等人提出了一种基于多尺度策略的缩放运动估计方法，通过对待预测块进行多次的双线性插值，得到了不同尺度下的高质量视频场景，从而完成运动估计和补偿。然而，这种反复插值的策略也不可避免地导致计算量的大量增加。为此，通过分析当对象和摄像机之间的距离发生变化时会发生缩放运动这一规律，Lee等人采用双线性插值运算对待预测块的尺寸进行调整，使得缩放后的参考块与待预测块的尺寸相同，从而完成块匹配操作并实现了一种基于块的局部区域缩放方法。并且，Lee等人引入三维菱形搜索策略提出了一种3D-ZPDS(Zoom PredictiveDiamond Search)方法，以减少不必要运动向量的搜索点数量，能够更有效地找到缩放运动向量。虽然该方法能够降低复杂性且不需要内存缓冲，但是当缩放比例较大时，其运动向量搜索过程会出现预测失败的可能。由于亚像素插值是视频编码器中计算最复杂的部分之一，尤其是H.266/VVC标准的插值滤波器长度更长、计算复杂度更高，宋传鸣等人提出了一种基于整像素精度像素计算自适应缩放系数的缩放运动估计算法。然而，由于双线性插值无法准确逼近亚像素的像素值，该方法所得到的缩放运动向量仅为近似最优值，其预测精度尚有进一步提高的空间。

综合上述两方面的现有技术可知，有效控制缩放因子所产生的高计算成本和缓存开销、减少频繁的亚像素插值操作是改善缩放运动估计效率的关键所在。遗憾的是，目前尚没有一种能够在计算复杂度、亚像素插值次数和缩放运动向量精度之间达到理想折中的运算速度快、运动补偿质量高、实时性强、无需重复的亚像素插值运算、能有效预测视频缩放运动因子的快速缩放运动估计方法。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种运算速度快、运动补偿质量高、实时性强、无需重复的亚像素插值运算、能有效预测视频缩放运动因子的6次多项式拟合匹配误差曲面的快速缩放运动估计方法。

本发明的技术解决方案是：一种6次多项式拟合匹配误差曲面的快速缩放运动估计方法，其特征在于按照如下步骤进行：

步骤1.输入待处理的视频序列V，令其视频长度为L帧，并令l←2；

步骤2.从视频序列V中取出第l帧作为当前帧，并将第l-1帧作为参考帧；

步骤3.若第l帧中的所有宏块都已处理完毕，则转入步骤28，否则，从当前帧中选出一个未处理过的宏块I(x_TL,y_TL)作为当前宏块，设其大小为M×N像素，所述x_TL、y_TL分别表示当前宏块的左上角像素的横坐标和纵坐标；

步骤4.利用块匹配菱形搜索算法计算当前宏块I(x_TL,y_TL)的水平方向平移运动分量v_x和竖直方向平移运动分量v_y，进而得到整像素精度的最佳匹配块R，其左上角像素的横坐标和纵坐标分别为x_TL+v_x、y_TL+v_y，所产生的运动补偿误差为D₀；

步骤5.根据公式(1)的定义，计算最佳匹配块R的0阶自相关

所述R(x_TL+v_x+m,y_TL+v_y+n)表示最佳匹配块R中坐标为(x_TL+v_x+m,y_TL+v_y+n)处的像素值；

步骤6.根据公式(2)的定义，计算最佳匹配块R的0阶自相关

所述R(x_TL+v_x+m+1,y_TL+v_y+n+1)表示最佳匹配块R中坐标为(x_TL+v_x+m+1,y_TL+v_y+n+1)处的像素值；

步骤7.根据公式(3)的定义，计算最佳匹配块R的0阶自相关

所述R(x_TL+v_x+m-1,y_TL+v_y+n-1)表示最佳匹配块R中坐标为(x_TL+v_x+m-1,y_TL+v_y+n-1)处的像素值；

步骤8.根据公式(4)的定义，计算最佳匹配块R的0阶自相关

所述R(x_TL+v_x+m+2,y_TL+v_y+n+2)表示最佳匹配块R中坐标为(x_TL+v_x+m+2,y_TL+v_y+n+2)处的像素值；

步骤9.根据公式(5)的定义，计算最佳匹配块R的1阶自相关

步骤10.根据公式(6)的定义，计算最佳匹配块R的1阶自相关

步骤11.根据公式(7)的定义，计算最佳匹配块R的1阶自相关

步骤12.根据公式(8)的定义，计算最佳匹配块R的2阶自相关

步骤13.根据公式(9)的定义，计算最佳匹配块R的2阶自相关

步骤14.根据公式(10)的定义，计算最佳匹配块R的3阶自相关

步骤15.根据公式(11)的定义，计算当前宏块I(x_TL,y_TL)的0阶自相关

所述I(x_TL+m,y_TL+n)表示当前宏块I(x_TL,y_TL)中坐标为(x_TL+m,y_TL+n)处的像素值；

步骤16.根据公式(12)的定义，计算当前宏块I(x_TL,y_TL)与最佳匹配块R的0阶互相关

步骤17.根据公式(13)的定义，计算当前宏块I(x_TL,y_TL)与最佳匹配块R的1阶互相关

步骤18.根据公式(14)的定义，计算当前宏块I(x_TL,y_TL)与最佳匹配块R的1阶互相关

步骤19.根据公式(15)的定义，计算当前宏块I(x_TL,y_TL)与最佳匹配块R的2阶互相关

步骤20.计算匹配误差曲面方程的常系数b₁、b₂、b₃、b₄、b₅、b₆；

步骤20.1根据公式(16)的定义，计算匹配误差曲面方程的常系数b₁；

步骤20.2根据公式(17)的定义，计算匹配误差曲面方程的常系数b₂；

步骤20.3根据公式(18)的定义，计算匹配误差曲面方程的常系数b₃；

步骤20.4根据公式(19)的定义，计算匹配误差曲面方程的常系数b₄；

步骤20.5根据公式(20)的定义，计算匹配误差曲面方程的常系数b₅；

步骤20.6根据公式(21)的定义，计算匹配误差曲面方程的常系数b₆；

步骤21.根据公式(22)～公式(28)的定义，利用b₁、b₂、b₃、b₄、b₅、b₆及其关于m和(1-m)的非线性加权组合，计算缩放因子z<1且(1-z)·(M-1)<1时的一元6次多项式的实系数u₀、u₁、u₂、u₃、u₄、u₅、u₆，进而建立一个关于缩放因子z的一元6次多项式P₆′(z)＝u₀z⁶+u₁z⁵+u₂z⁴+u₃z³+u₄z²+u₅z+u₆对此时的匹配误差曲面进行拟合；

u₀＝m⁶b₁ (22)

u₁＝6m⁵(1-m)b₁+m⁵b₂ (23)

u₂＝15m⁴(1-m)²b₁+5m⁴(1-m)b₂+m⁴b₃ (24)

u₃＝20m³(1-m)³b₁+10m³(1-m)²b₂+4m³(1-m)b₃+m³b₄ (25)

u₄＝15m²(1-m)⁴b₁+10m²(1-m)³b₂+6m²(1-m)²b₃+3m²(1-m)b₄+m²b₅ (26)

u₅＝6m(1-m)⁵b₁+5m(1-m)⁴b₂+4m(1-m)³b₃+3m(1-m)²b₄+2m(1-m)b₅ (27)

u₆＝(1-m)⁶b₁+(1-m)⁵b₂+(1-m)⁴b₃+(1-m)³b₄+(1-m)²b₅+b₆ (28)

所述m是整数且m∈[0,M-1]；

步骤22.根据公式(29)～公式(35)的定义，利用b₁、b₂、b₃、b₄、b₅、b₆及其关于m和(1-m)的非线性加权组合，计算缩放因子z>1且(z-1)·(M-1)<1时的一元6次方程的实系数uu₀、uu₁、uu₂、uu₃、uu₄、uu₅、uu₆，进而建立一个关于缩放因子z的一元6次多项式P₆″(z)＝uu₀z⁶+uu₁z⁵+uu₂z⁴+uu₃z³+uu₄z²+uu₅z+uu₆对此时的匹配误差曲面进行拟合；

uu₀＝m⁶b₁ (29)

uu₁＝-6m⁶b₁+m⁵b₂ (30)

uu₂＝15m⁶b₁-5m⁵b₂+m⁴b₃ (31)

uu₃＝-20m⁶b₁+10m⁵b₂-4m⁴b₃+m³b₄ (32)

uu₄＝15m⁶b₁-10m⁵b₂+6m⁴b₃-3m³b₄+m²b₅ (33)

uu₅＝-6m⁶b₁+5m⁵b₂-4m⁴b₃+3m³b₄+2m²b₅ (34)

uu₆＝m⁶b₁-m⁵b₂+m⁴b₃-m³b₄+m²b₅+b₆ (35)

步骤23.根据公式(36)的定义，计算一元6次多项式P₆′(z)＝u₀z⁶+u₁z⁵+u₂z⁴+u₃z³+u₄z²+u₅z+u₆的根z_1,1、z_1,2、z_1,3、z_1,4、z_1,5、z_1,6，并舍去不合理的复数根和负数根；

其中，k∈{0,1,2,3,4,5}；

步骤24.根据公式(37)的定义，计算一元6次多项式P₆″(z)＝uu₀z⁶+uu₁z⁵+uu₂z⁴+uu₃z³+uu₄z²+uu₅z+uu₆的根z_2,1、z_2,2、z_2,3、z_2,4、z_2,5、z_2,6，并舍去不合理的复数根和负数根；

其中，k∈{0,1,2,3,4,5}；

步骤25.根据公式(38)～公式(43)的定义，计算当z<1且(1-z)·(M-1)<1时的最佳缩放因子

及其运动补偿误差D₁；

w(x_TL,v_x,z,m)＝z·m+(x_TL+v_x) (40)

w(y_TL,v_y,z,n)＝z·n+(y_TL+v_y) (41)

所述R(·)表示最佳匹配块R中坐标为“·”处的像素值，其亚像素精度的像素值由双三次插值得到；

步骤26.根据公式(44)和公式(47)的定义，计算当z>1且(z-1)·(M-1)<1时的最佳缩放因子

及其运动补偿误差D₂；

步骤27.对运动补偿误差D₀、D₁和D₂进行比较，并令D＝min{D₀,D₁,D₂}，所述min{·}表示取最小值的运算；

步骤27.1若D＝D₀，则令当前宏块I(x_TL,y_TL)的最佳缩放因子z^*＝0，即不发生缩放运动；

步骤27.2若D＝D₁，则令当前宏块I(x_TL,y_TL)的最佳缩放因子

即发生局部缩小运动；

步骤27.3若D＝D₂，则令当前宏块I(x_TL,y_TL)的最佳缩放因子

即发生局部放大运动；

步骤27.4输出当前宏块I(x_TL,y_TL)的缩放运动向量(v_x,v_y,z^*)及其运动补偿误差，其中，v_x表示当前宏块的水平方向平移运动分量，v_y表示当前宏块的竖直方向平移运动分量，z^*表示当前宏块的最佳缩放因子，返回步骤3；

步骤28.令l←l+1，若l≤L，则返回步骤2，否则，运动估计过程结束。

与现有的技术相比，本发明从三个方面降低缩放运动估计的计算复杂度，并提高其运动估计和补偿的精度：首先，采用当前待预测块及其基于块平移模型的最佳匹配块的0阶自相关、1阶自相关、2阶自相关、3阶自相关、0阶互相关、1阶互相关、2阶互相关，建立一个关于视频缩放因子的一元6次多项式对运动补偿误差曲面进行精确拟合，并通过求解该6次多项式的根，得到视频缩放运动的最优缩放因子，既无需传统缩放运动估计方法的“暴力”搜索，又能够有效避免最优缩放因子的快速搜索过程陷入局部最优点；其次，由于仅在获得了最佳缩放因子的情况下才进行亚像素插值，本发明只需对当前待预测块进行2次亚像素插值，显著减少了传统缩放运动估计方法所需的重复的亚像素插值运算次数，其计算复杂度大幅度降低，从而保证了缩放运动估计方法的实时性能；第三，传统缩放运动估计方法只将缩放因子限制在[0.97,1.03]区间内的5个实数上，而由于本发明采用一元6次多项式对运动补偿误差曲面进行拟合，其得到的最优缩放比例可为任意正实数，从而突破了传统方法所设定的缩放因子的值域，进而有效提高了缩放运动向量的精度、减小了运动补偿的误差。因此，本发明具有运算速度快、运动补偿质量高、实时性强、无需重复的亚像素插值运算、能有效预测视频缩放运动因子等优点。

具体实施方式

本发明的一种6次多项式拟合匹配误差曲面的快速缩放运动估计方法，其特征在于按照如下步骤进行：

步骤3.若第l帧中的所有宏块都已处理完毕，则转入步骤28，否则，从当前帧中选出一个未处理过的宏块I(x_TL,y_TL)作为当前宏块，设其大小为M×N像素，所述x_TL、y_TL分别表示当前宏块的左上角像素的横坐标和纵坐标，在本实施例中，令M＝16，N＝16；

步骤5.根据公式(1)的定义，计算最佳匹配块R的0阶自相关

步骤6.根据公式(2)的定义，计算最佳匹配块R的0阶自相关

步骤7.根据公式(3)的定义，计算最佳匹配块R的0阶自相关

步骤8.根据公式(4)的定义，计算最佳匹配块R的0阶自相关

步骤9.根据公式(5)的定义，计算最佳匹配块R的1阶自相关

步骤10.根据公式(6)的定义，计算最佳匹配块R的1阶自相关

步骤11.根据公式(7)的定义，计算最佳匹配块R的1阶自相关

步骤12.根据公式(8)的定义，计算最佳匹配块R的2阶自相关

步骤13.根据公式(9)的定义，计算最佳匹配块R的2阶自相关

步骤14.根据公式(10)的定义，计算最佳匹配块R的3阶自相关

所述I(x_TL+m,y_TL+n)表示当前宏块I(x_TL,y_TL)中坐标为(x_TL+m，y_TL+n)处的像素值；

u₀＝m⁶b₁ (22)

u₁＝6m⁵(1-m)b₁+m⁵b₂ (23)

u₂＝15m⁴(1-m)²b₁+5m⁴(1-m)b₂+m⁴b₃ (24)

u₃＝20m³(1-m)³b₁+10m³(1-m)²b₂+4m³(1-m)b₃+m³b₄ (25)

u₆＝(1-m)⁶b₁+(1-m)⁵b₂+(1-m)⁴b₃+(1-m)³b₄+(1-m)²b₅+b₆ (28)

所述m是整数且m∈[0,M-1]；

uu₀＝m⁶b₁ (29)

uu₁＝-6m⁶b₁+m⁵b₂ (30)

uu₂＝15m⁶b₁-5m⁵b₂+m⁴b₃ (31)

uu₃＝-20m⁶b₁+10m⁵b₂-4m⁴b₃+m³b₄ (32)

uu₄＝15m⁶b₁-10m⁵b₂+6m⁴b₃-3m³b₄+m²b₅ (33)

uu₅＝-6m⁶b₁+5m⁵b₂-4m⁴b₃+3m³b₄+2m²b₅ (34)

uu₆＝m⁶b₁-m⁵b₂+m⁴b₃-m³b₄+m²b₅+b₆ (35)

其中，k∈{0,1,2,3,4,5}；

其中，k∈{0,1,2,3,4,5}；

及其运动补偿误差D₁；

w(x_TL,v_x,z,m)＝z·m+(x_TL+v_x) (40)

w(y_TL,v_y,z,n)＝z·n+(y_TL+v_y) (41)

及其运动补偿误差D₂；

步骤27.2若D＝D₁，则令当前宏块I(x_TL,y_TL)的最佳缩放因子

即发生局部缩小运动；

步骤27.3若D＝D₂，则令当前宏块I(x_TL,y_TL)的最佳缩放因子

即发生局部放大运动；

以国际视频编码标准公布的33个通用标准视频序列的第1～90帧为例进行实验，分别采用块匹配全搜索、块匹配菱形搜索、3D-ZPDS、自适应系数预测的缩放运动估计和本发明进行运动估计，所得到的运动补偿峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)结果如表1。

表1本发明与不同运动估计方法的运动补偿PSNR比较(单位：dB)

从表1中可见，本发明利用一元6次多项式对运动补偿的匹配误差曲面进行拟合，进而求解出最佳的视频缩放运动因子，其平均PSNR比块匹配菱形搜索方法提高了0.76dB，比块匹配全搜索方法提高了0.23dB。可见，缩放运动估计可以增强基于块匹配的运动补偿性能，而且通过组合平移和缩放运动分量，能够更加高效地处理更多现实世界中的运动，是一种合理并且有效的优化方案。进一步地，本发明的平均PSNR比3D-ZPDS方法提高了0.11dB，比自适应缩放系数的缩放运动估计方法提高了0.12dB，表明本发明能够利用一元6次多项式更加准确地拟合匹配误差曲面，更加充分地发掘像素间的非线性相关关系，其得到的最优缩放比例可为任意正实数，从而突破了传统方法所设定的缩放因子的值域，有效提高了缩放运动向量的精度、减小了运动补偿的误差。

本实施例的硬件环境为Intel Haswell i7-4790 CPU@3.6GHz，内存为16GB，软件环境为64位Windows 7旗舰版操作系统、Microsoft Visual Studio 2010和MatlabR2014a。不同视频测试序列采用本发明及基于模型传统的缩放运动估计方法所需的计算时间如表2。

表2本发明与不同运动估计方法的计算量比较(单位：秒/帧)

从表2可见，本发明的平均计算时间略高于块匹配菱形搜索方法，但是明显小于块匹配全搜索方法，较后者节省了96.52％，加速了28.71倍；并且，本发明的平均计算时间相当于3D-ZFDS、自适应缩放系数的缩放运动估计方法的3.38％和87.5％，分别加速了29.57倍、1.14倍。