CN109640097B

CN109640097B - 自适应因子的视频仿射运动估计方法

Info

Publication number: CN109640097B
Application number: CN201811494317.XA
Authority: CN
Inventors: 宋传鸣; 闫小红; 葛明博; 王相海
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2021-08-03
Anticipated expiration: 2038-12-07
Also published as: CN109640097A

Abstract

本发明公开一种自适应因子的视频仿射运动估计方法，采用平移运动矢量所对应的线性加权预测误差和参考帧的2D加权自相关来判别当前待预测宏块的缩放因子；其次，保持缩放因子不变，将仿射运动补偿误差表示为关于旋转角度的二次函数，通过Vieta定理计算出仿射运动下的自适应旋转角度，进而获得当前待预测宏块的仿射运动向量。本发明避免了传统仿射运动估计方法的“暴力”参数搜索或迭代求解，可直接计算得到最优缩放因子和旋转角度，显著减少了仿射运动估计/补偿过程的亚像素插值操作次数，从而在保证实时性的同时，提高传统块匹配运动估计方法的补偿质量。

Description

自适应因子的视频仿射运动估计方法

技术领域

本发明涉及视频编码压缩领域，尤其是一种运算速度快、运动补偿质量高且能有效预测视频中存在的仿射运动的自适应因子的视频仿射运动估计方法。

背景技术

运动估计是一种有效的时间维预测技术，而且多年来视频编码效率的大部分提升均是由于其采用了更为优秀的运动估计算法。然而，运动估计环节所消耗的计算资源往往占编码器全部资源的50%以上，甚至可达80%。为了在复杂度和预测精度之间达到较好的折中，现有视频编码标准普遍采用基于平移模型的块匹配运动估计算法，并陆续提出了多种快速块匹配策略，如基于候选向量下采样的策略、基于像素下采样的策略、基于低复杂度匹配函数的策略、基于低比特深度像素的策略等。但是，平移模型无法有效预测由物体的旋转、缩放、变形和摄像机运动产生的非刚性复合运动。同时，基于块平移模型的运动估计通常不能获得平滑、连续的运动场，往往出现块效应，尤其是在低码率下，影响解码视频的主观质量。在这种情况下，一些研究人员多年来尝试将高阶运动模型引入到运动估计/补偿中来弥补平移运动模型的不足，出现了基于网格模型的运动估计、基于仿射模型的运动估计（如4-参数缩放模型、4-参数混合缩放和旋转模型、6-参数仿射模型、8-参数透视或双线性模型、12-参数投影变换模型）和基于弹性模型的运动估计等。

基于4-参数混合缩放和旋转模型的运动估计是Li等人在2018年提出的一种视频运动估计方法，它将缩放因子与旋转因子统一表示为一个混合因子，可预测由于摄像机与前景物体的相对平移运动和摄像机的推摄、拉摄、摇摄所产生的视频缩放、旋转运动。由平面仿射变换的性质可知，平移、缩放和刚性旋转是平面仿射坐标系下的基本运动形式，并且通过三者的组合可以表示任意的复杂仿射运动。与6-参数仿射模型相比，该4-参数模型的同步信息量减少了33%，收敛性更稳定，计算复杂度也更低。同时，通过在30个标准测试视频序列上进行实验统计，发现有60%以上的宏块能够利用亚像素精度的混合缩放和旋转模型取得较之块平移模型更高的运动补偿质量；高清视频发生缩放运动的平均比例高于标清视频，屏幕内容视频发生旋转运动的平均比例高于自然视频。可见，缩放运动和旋转运动是视频中普遍存在的一种运动形式，而且无法利用基于平移模型的传统块匹配实现准确预测和补偿。故此，若在视频运动估计中引入混合缩放和旋转模型，则可望有效提高其预测精度。

为了获得每个宏块的仿射运动参数，典型方法是在一定尺寸的搜索窗口内以“暴力”搜索的方式计算出2个控制点的最优运动矢量组合，再将所得结果与宏块中各像素的坐标一起，代入4-参数混合缩放和旋转模型即可得到任意像素的预测，但是其运算复杂度是搜索窗口尺寸的4次幂。为此，Huang等人借鉴贪心算法思路，在固定第1个控制点的同时，优化求解第2个控制点的运动矢量，再在固定第2个控制点的情况下计算第1个控制点的运动矢量，如此交替迭代下去，就能以平方阶的计算复杂度得到近似最优解。为进一步降低运动估计的计算量，Li等人提出一种基于梯度的快速仿射运动估计方法，其基本思路是采用Sobel算子计算参考帧的像素梯度，再迭代求解一个以像素坐标和匹配误差为自变量的线性方程组。若运动矢量的增量在某次迭代后小于某预设阈值，即可停止迭代，将结果作为当前宏块的仿射运动矢量。实验表明，该方法一般只需6~8次迭代就能收敛到局部最优解。然而，上述三种方法的求解过程均涉及大量亚像素精度的插值运算，其计算复杂度甚至远高于块平移模型的全搜索，无法实现实时的运动估计/补偿，在很大程度上限制了其实用性。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种运算速度快、运动补偿质量高的自适应因子的视频仿射运动估计方法。

本发明的技术解决方案是：一种自适应因子的视频仿射运动估计方法，其特征在于按照如下步骤进行：

步骤1. 若当前图像组(Group of Picture, GOP)的所有帧都已处理完毕，则算法结束；否则，选取当前GOP中未处理过的一帧作为当前帧

，并将其前一帧作为参考帧

；

步骤2. 若当前帧

的所有宏块均已处理完毕，则转入步骤1；否则，选取当前帧的一个未处理宏块

作为当前宏块，设其大小为

像素，

、

表示当前宏块左上角像素的横、纵坐标，

为一个预设常数；

步骤3. 根据公式(1)的定义，利用菱形搜索方法在大小为

像素的窗口中，计算当前宏块

的平移运动矢量

及其对应的预测误差

：

(1)

所述

表示当前帧

中坐标为

处的像素值，

表示参考帧

中坐标为

处的像素值，

为一个预设常数；

步骤4. 根据公式(2)的定义，计算运动矢量

所对应的线性加权预测误差

：

(2)

步骤5. 根据公式(3)的定义，计算运动矢量

所对应的线性加权预测误差

：

(3)

所述

表示参考帧

中坐标为

处的像素值；

步骤6. 根据公式(4)和公式(5)的定义，计算最佳平移匹配块的2D加权自相关

、

：

(4)

(5)

步骤7. 根据公式(6)的定义，计算当前宏块缩小时的最优缩放因子

：

(6)

步骤8. 根据公式(7)的定义，计算当前宏块放大时的最优缩放因子

：

(7)

步骤9. 根据公式(8)的定义，计算当前宏块在缩放运动矢量

下的预测误差

：

(8)

所述

为参考帧

中坐标

处的像素值；

步骤10. 根据公式(9)的定义，计算当前宏块在缩放运动矢量

下的预测误差

：

(9)

所述

为参考帧

中坐标

处的像素值；

步骤11. 根据公式(10)的定义，计算运动矢量

所对应的非线性加权预测误差

：

(10)

步骤12. 根据公式(11)的定义，计算运动矢量

所对应的非线性加权预测误差

：

(11)

步骤13. 根据公式(12)和公式(13)的定义，计算最佳平移匹配块的2D加权自相关

、

：

(12)

(13)

步骤14. 根据公式(14)的定义，计算当前宏块在缩小情况下的最佳旋转角度的余弦

：

(14)

并据此计算该最佳旋转角度的正弦：

；

步骤15. 根据公式(15)的定义，计算当前宏块在放大情况下的最佳旋转角度的余弦

：

(15)

并据此计算该最佳旋转角度的正弦：

；

步骤16. 令

，

，根据公式(16)的定义，计算当前宏块在仿射运动矢量

下的预测误差

：

(16)

所述

为参考帧

中坐标

处的像素值；

步骤17. 令

，

，根据公式(17)的定义，计算当前宏块在仿射运动矢量

下的预测误差

：

(17)

所述

为参考帧

中坐标

处的像素值；

步骤18. 比较

、

、

、

和

，并令

，所述

表示取最小值函数；

步骤18.1 若

，则当前宏块只发生了平移运动，输出平移运动矢量

及其预测误差

，转入步骤2；

步骤18.2 若

，则当前宏块发生了平移和缩小运动，输出运动矢量

及其预测误差

，转入步骤2；

步骤18.3 若

，则当前宏块发生了平移和放大运动，输出运动矢量

及其预测误差

，转入步骤2；

步骤18.4 若

，则当前宏块发生了仿射运动，输出运动矢量

及其预测误差

，转入步骤2；

步骤18.5 否则，输出运动矢量

及其预测误差

，转入步骤2。

与现有的技术相比，本发明从三个方面提高了运动估计的效率：首先，采用平移运动矢量所对应的线性加权预测误差，以及参考帧的2D加权自相关来判别待预测的当前宏块的缩放因子，进而将预测误差建模为关于旋转角度的一元2次函数，并通过Vieta定理计算出仿射运动下的自适应旋转角度，避免了传统仿射运动估计方法的“暴力”搜索或迭代求解；其次，传统“暴力”搜索或迭代求解过程中需要大量亚像素精度的插值操作，以6~8次迭代为例，就需要6~8轮亚像素插值，而本发明可直接计算得到最优缩放比例和旋转角度，其参数预测过程不需要亚像素插值操作，从而可显著加快运动估计速度，降低计算复杂度；最后，与目前视频编码器广泛采用的基于块平移模型的快速运动估计方法相比，本发明通过引进自适应的缩放因子和旋转因子，可预测由物体旋转、缩放、变形和摄像机运动产生的非刚性仿射运动，有效提高视频运动补偿的质量。因此，本发明具有运算速度快、运动补偿质量高、仿射因子自适应等优点。

具体实施方式

本发明的自适应因子的视频仿射运动估计方法，其特征在于按照如下步骤进行：

，并将其前一帧作为参考帧

；

步骤2. 若当前帧

作为当前宏块，设其大小为

像素，

、

表示当前宏块左上角像素的横、纵坐标，

为一个预设常数，在本实施例中，令

；

步骤3. 根据公式(1)的定义，利用菱形搜索方法在大小为

像素的窗口中，计算当前宏块

的平移运动矢量

及其对应的预测误差

：

(1)

所述

表示当前帧

中坐标为

处的像素值，

表示参考帧

中坐标为

处的像素值，

为一个预设常数，在本实施例中，令

=33；

步骤4. 根据公式(2)的定义，计算运动矢量

所对应的线性加权预测误差

：

(2)

步骤5. 根据公式(3)的定义，计算运动矢量

所对应的线性加权预测误差

：

(3)

所述

表示参考帧

中坐标为

处的像素值；

、

：

(4)

(5)

：

(6)

：

(7)

步骤9. 根据公式(8)的定义，计算当前宏块在缩放运动矢量

下的预测误差

：

(8)

所述

为参考帧

中坐标

处的像素值；

步骤10. 根据公式(9)的定义，计算当前宏块在缩放运动矢量

下的预测误差

：

(9)

所述

为参考帧

中坐标

处的像素值；

步骤11. 根据公式(10)的定义，计算运动矢量

所对应的非线性加权预测误差

：

(10)

步骤12. 根据公式(11)的定义，计算运动矢量

所对应的非线性加权预测误差

：

(11)

、

：

(12)

(13)

：

(14)

并据此计算该最佳旋转角度的正弦：

；

：

(15)

并据此计算该最佳旋转角度的正弦：

；

步骤16. 令

，

，根据公式(16)的定义，计算当前宏块在仿射运动矢量

下的预测误差

：

(16)

所述

为参考帧

中坐标

处的像素值；

步骤17. 令

，

，根据公式(17)的定义，计算当前宏块在仿射运动矢量

下的预测误差

：

(17)

所述

为参考帧

中坐标

处的像素值；

步骤18. 比较

、

、

、

和

，并令

，所述

表示取最小值函数；

步骤18.1 若

，则当前宏块只发生了平移运动，输出平移运动矢量

及其预测误差

，转入步骤2；

步骤18.2 若

，则当前宏块发生了平移和缩小运动，输出运动矢量

及其预测误差

，转入步骤2；

步骤18.3 若

，则当前宏块发生了平移和放大运动，输出运动矢量

及其预测误差

，转入步骤2；

步骤18.4 若

，则当前宏块发生了仿射运动，输出运动矢量

及其预测误差

，转入步骤2；

步骤18.5 否则，输出运动矢量

及其预测误差

，转入步骤2。

不同视频测试序列采用本发明及不同运动估计方法得到的运动补偿峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)结果如表1。

表1 不同运动估计方法的运动补偿PSNR比较（单位：dB）

不同视频测试序列采用本发明及典型运动估计方法所需的计算时间如表2（本实施例的硬件环境为CPU为Intel (R) Core (TM) i7-4790 @3.60GHz双核，内存为16GB，软件环境为Window 10操作系统、Visual C++ 6.0集成开发环境）。

表2 不同运动估计方法的计算时间比较（单位：秒/帧）

实验结果表明，本发明比块匹配全搜索的峰值信噪比平均提高了0.18dB，比块匹配菱形搜索的峰值信噪比平均提高了0.76dB，比快速缩放运动估计方法3D-ZPDS的峰值信噪比平均提高了0.31dB；同时，本发明所需的计算量仅为块匹配全搜索的6.19%，为基于缩放模型的全搜索的0.17%，为基于缩放模型的快速搜索3D-ZPDS的6.12%。