CN109120940B

CN109120940B - 自适应因子的视频缩放运动估计方法

Info

Publication number: CN109120940B
Application number: CN201810870048.6A
Authority: CN
Inventors: 宋传鸣; 闫小红; 王相海; 傅博
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2021-07-13
Anticipated expiration: 2038-08-02
Also published as: CN109120940A

Abstract

本发明公开一种自适应因子的视频缩放运动估计方法，首先，采用运动向量(0,0)、(1,0)所对应的运动补偿误差以及参考帧的1阶水平自相关来判别待预测宏块的缩放形式，进而提供了最优缩放比例的计算方法，显著减少了所需的双线性插值运算次数和运算时间；其次，在基于平移模型的块匹配运动估计的基础上，结合最优缩放比例，得到缩放运动向量，可突破传统缩放运动估计的缩放比例范围，进而提高了运动估计精度。本发明比传统缩放运动估计/补偿方法的峰值信噪比平均提高了4.54 dB，比块匹配全搜索的运动补偿峰值信噪比平均提高了5.45dB；所需的计算量比传统缩放运动估计方法平均降低了96.54%。

Description

自适应因子的视频缩放运动估计方法

技术领域

本发明涉及视频编码压缩领域，尤其是一种运算速度快、运动补偿质量高，且能有效预测视频中存在的缩放运动的具备缩放因子自适应能力的视频运动估计方法。

背景技术

运动估计是一种有效的时间维预测技术，而且多年来视频编码效率的大部分提升均是由于其采用了更为优秀的运动估计算法。然而，运动估计环节所消耗的计算资源往往占编码器全部资源的50%以上，甚至可达80%。为了在复杂度和预测精度之间达到较好的折中，现有视频编码标准普遍采用基于平移模型的块匹配运动估计算法，并陆续提出了多种快速块匹配策略，如基于候选向量下采样的策略、基于像素下采样的策略、基于低复杂度匹配函数的策略、基于低比特深度像素的策略等。但是，平移模型无法有效预测由物体的旋转、缩放、变形和摄像机运动产生的非刚性复合运动。同时，基于块平移模型的运动估计通常不能获得平滑、连续的运动场，往往出现块效应，尤其是在低码率下，影响解码视频的主观质量。在这种情况下，一些研究人员多年来尝试将高阶运动模型引入到运动估计/补偿中来弥补平移运动模型的不足，出现了基于网格模型的运动估计、基于仿射模型的运动估计（如4参数模型、6参数仿射模型、8参数透视或双线性模型、12参数变换模型及其混合模型）、基于弹性模型的运动估计和基于缩放模型的运动估计等。

基于缩放模型的运动估计(Zoom Motion Estimation Model)是2012年以来出现的一种视频运动估计方法，它可有效预测由于摄像机的推摄、拉摄和综合运动拍摄所产生的视频运动。通过在16个标准测试视频序列上进行实验统计，发现大约74.46%的宏块包含非整数像素精度的缩放运动。可见，缩放运动是视频中普遍存在的一种运动形式，并且无法利用基于块匹配的传统平移模型实现准确预测和补偿。

然而，基于缩放模型的运动估计需要在块平移向量的基础上，通过在可能的参数空间中“暴力”搜索最优的缩放步长，进而计算最佳的缩放比例，得到缩放运动向量。该过程涉及大量的分数像素插值运算，其计算复杂度远远高于块平移模型的全搜索，根本无法实现实时的运动估计/补偿，这在很大程度上限制了其实用性。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种运算速度快、运动补偿质量高，且能有效预测视频中存在的缩放运动的具备缩放因子自适应能力的视频运动估计方法。

本发明的技术解决方案是：一种自适应因子的视频缩放运动估计方法，其特征在于按照如下步骤进行：

步骤1. 若当前图像组（Group of Picture, GOP）的所有帧都已处理完毕，则算法结束；否则，选取当前图像组中未处理过的一帧作为当前帧

，并将其前一帧作为参考帧

；

步骤2. 若当前帧

的所有宏块均已处理完毕，则转入步骤1；否则，选取当前帧的一个未处理宏块

作为当前宏块，设其大小为

像素，

、

表示当前宏块左上角像素的横、纵坐标，

为一个预设常数；

步骤3. 根据公式

的定义，计算零矢量所对应的运动补偿误差

：

所述

表示当前帧

中坐标为

处的像素值，

表示参考帧

中坐标为

处的像素值；

步骤4. 根据公式

的定义，计算运动矢量(1,0)所对应的运动补偿误差

：

所述

表示参考帧

中坐标为

处的像素值；

步骤5. 根据公式

的定义，计算零矢量所对应的参考宏块的1阶水平自相关

：

步骤6. 如果

，那么表明缩放比例

，转入步骤7.1；如果

，那么表明缩放比例

，转入步骤7.2；否则，表明缩放比例

，转入步骤8；

步骤7. 计算缩放比例

的最优值：

步骤7.1根据公式

的定义计算

的最优值：

步骤7.2 根据公式

的定义计算

的最优值：

步骤8. 在大小为

像素的窗口中，利用基于块平移模型的全搜索计算当前宏块的平移运动向量

，进而得到缩放运动向量

，所述

为一个预设常数；

步骤9. 对于当前宏块中的每个像素

，根据缩放运动向量

和公式

的定义，计算其在缩放运动模型下的匹配像素坐标：

所述

表示像素

在当前帧中的坐标，

表示参考帧中与像素

相匹配的像素坐标；然后利用双线性插值计算参考帧中处于

点的像素值

，并将其作为像素

的运动补偿值；转入步骤2。

与现有的技术相比，本发明从两个方面降低缩放运动估计的计算复杂度，并提高其运动估计和补偿的精度：首先，采用运动向量(0,0)、(1,1)所对应的运动补偿误差，以及参考帧的1阶水平自相关来判别待预测宏块的缩放形式，进而提供了最优缩放比例的计算方法，避免了传统缩放运动估计方法的“暴力”搜索，并显著减少了所需的双线性插值运算次数；其次，为了降低运算量，传统缩放运动估计方法将缩放比例限制在[0.97,1.03]区间内，而由于本发明可直接计算得到最优缩放比例，突破了传统方法的缩放比例区间，进而提高了运动估计精度。实验结果表明，本发明比传统缩放运动估计/补偿方法的峰值信噪比平均提高了4.54 dB，比块匹配全搜索的运动补偿峰值信噪比平均提高了5.45dB；同时，本发明所需的计算量比传统缩放运动估计方法平均降低了96.54%。与现有技术相比，本发明具有运算速度快、运动补偿质量高、缩放因子自适应等优点。

具体实施方式

本发明的一种自适应因子的视频缩放运动估计方法，其特征在于按照如下步骤进行：

步骤1. 若当前图像组(Group of Picture, GOP)的所有帧都已处理完毕，则算法结束；否则，选取当前图像组中未处理过的一帧作为当前帧

，并将其前一帧作为参考帧

；

步骤2. 若当前帧

作为当前宏块，设其大小为

像素，

、

表示当前宏块左上角像素的横、纵坐标，

为一个预设常数，本实施例中，令

；

步骤3. 根据公式的定义，计算零矢量所对应的运动补偿误差

：

所述

表示当前帧

中坐标为

处的像素值，

表示参考帧

中坐标为

处的像素值；

步骤4. 根据公式

的定义，计算运动矢量(1,0)所对应的运动补偿误差

：

所述

表示参考帧

中坐标为

处的像素值；

步骤5.根据公式

的定义，计算零矢量所对应的参考宏块的1阶水平自相关

：

步骤6. 如果

，那么表明缩放比例

，转入步骤7.1；如果

，那么表明缩放比例

，转入步骤7.2；否则，表明缩放比例

，转入步骤8；

步骤7. 计算缩放比例

的最优值：

步骤7.1 根据公式

的定义计算

的最优值：

步骤7.2 根据公式

的定义计算

的最优值：

步骤8. 在大小为

，进而得到缩放运动向量

，所述

为一个预设常数，本实施例中，令

；

步骤9. 对于当前宏块中的每个像素

，根据缩放运动向量

和公式

的定义，计算其在缩放运动模型下的匹配像素坐标：

所述

表示像素

在当前帧中的坐标，

表示参考帧中与像素

相匹配的像素坐标；然后利用双线性插值计算参考帧中处于

点的像素值

，并将其作为像素

的运动补偿值；转入步骤2。

不同视频测试序列采用本发明及不同运动估计方法得到的运动补偿峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)结果如表1。

表1 不同运动估计方法的运动补偿PSNR比较（单位：dB）

视频序列名称	格式	块匹配全搜索	传统的缩放运动估计	本发明
					Football	352×288 @ 30fps	27.37	27.78	35.07
Hall	352×288 @ 30fps	34.48	35.02	36.15
					Husky	352×288 @ 30fps	19.70	20.74	29.02
Mobile	352×288 @ 30fps	23.96	25.59	30.60
					Tempete	352×288 @ 30fps	27.75	28.82	33.36
Tennis	352×288 @ 30fps	28.91	29.65	33.41
					Crew	704×576 @ 30fps	32.36	33.21	39.02
City	704×576 @ 30fps	30.86	32.03	35.99
					Harbour	704×576 @ 30fps	28.10	29.04	32.82
Flowervase	832×480 @ 30 fps	37.42	38.41	39.75
					sc_Robot	1280×720 @ 30 fps	32.20	34.62	38.35
twist_tunnel	1280×720 @ 60 fps	16.59	16.73	27.65
					Johnny	1280×720 @ 60 fps	38.83	39.76	40.37
Kimonol	1920×1080 @ 50 fps	33.82	34.36	35.45
					ParkScene	1920×1080 @ 24 fps	29.98	30.93	37.10
VenueVu	1920×1080 @ 30 fps	27.12	27.35	32.58
					平均	——	29.34	30.25	34.79

不同视频测试序列采用本发明及基于缩放模型的传统运动估计方法所需的计算时间如表2（本实施例的硬件环境为CPU为Intel (R) Core (TM) i7-4790 @3.60GHz双核，内存为16GB，软件环境为Window 10操作系统、Visual C++ 6.0集成开发环境）。

表2 本发明与传统缩放运动估计的计算量比较（单位：秒）

实验结果表明，本发明比传统缩放运动估计/补偿方法的峰值信噪比平均提高了4.54 dB，比块匹配全搜索的运动补偿峰值信噪比平均提高了5.45dB；同时，本发明所需的计算量比传统缩放运动估计方法平均降低了96.54%。