CN109600667B

CN109600667B - 一种基于网格与帧分组的视频重定向的方法

Info

Publication number: CN109600667B
Application number: CN201811478011.5A
Authority: CN
Inventors: 唐振华; 黄宝婵; 王帅; 梁雪霞; 唐雨霞; 覃团发
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2021-04-13
Anticipated expiration: 2038-12-05
Also published as: CN109600667A

Abstract

为了保持重定向视频的时空连贯性，以及保证视频重要内容的重建质量，本发明提出了一种基于网格与帧分组的视频重定向的方法。包括：首先在构造视频全局运动模型的基础上，按网格的大小对视频帧进行分组；然后在每个视频组形成的拼接图上实现网格划分，并根据各网格相应的时间和空间约束，获得其缩放因子；最后利用各视频分组中网格对应的缩放因子对组内所有视频帧实现重定向操作。实验结果表明,与现有视频重定向方法对比，该方法不仅能获得较好的视频重要内容的重建质量,并且能有效地降低重定向视频的抖动。

Description

一种基于网格与帧分组的视频重定向的方法

技术领域

本发明属于视频处理技术领域，更具体地，涉及一种基于网格与帧分组的视频重定向的方法。

背景技术

随着手机、MP4和平板电脑等移动终端设备的日益普及，人们可以利用不同的终端设备随时随地的观看数字视频等媒体内容。但是，由于不同终端设备的功能用途和市场定位不同，显示屏的尺寸和宽高比例呈现多样性。为了将视频内容完整而不失真地呈现于不同的设备中，需要有效地调整视频的分辨率和宽高比。传统的视频缩放方法有三种：均匀缩放、边缘填充和裁剪。均匀缩放方法通过线性插值的方法均匀地删除或增加视频帧中的像素，会使视频中重要内容随其他内容采用相同的比例进行缩放，影响其重建的质量；边缘填充方法通过填充边缘保留原视频的宽高比，但造成了播放设备屏幕的浪费，视觉效果不好；而传统的裁剪的方法通过框出视频的中心区域以达到适应尺寸与宽高比的效果，当不同设备的宽高比相差较大的时候，往往容易造成视频内容的大量丢失。上述三种视频缩放算法均未考虑重要内容的失真问题，缩放效果不佳，难以满足观众的要求。因此，有学者提出了基于内容的视频重定向(video retargeting)方法^[1]-[4]，在对视频缩放的过程中，尽可能保证视频重要内容不失真，并保持视频缩放后的时空连贯性，以达到良好的视觉效果。

现有的基于内容的视频重定向方法主要包括：基于线剪裁(seam carving)、基于网格变形(mesh warping)和基于内容裁切(content-awrare cropping)三类方法。

基于线剪裁的方法主要通过增加或者删除视觉重要性最弱的像素线来实现视频重定向。其具有代表性的工作有：Grundmann等人^[5]在Avidan等人^[6]提出的基于内容的线剪裁图像缩放方法基础上提出不连续线裁剪的概念用来处理视频。该方法的线突破了传统线像素间8邻域的限制，使得线可以很容易绕过较大的重要物体。但是，由于该方法的时间相干性是基于线的先前帧的像素位置，当一个对象移动非常快的时候，则新的裁剪线匹配不上运动对象，并导致线裁剪在连续两帧中经过不同的对象，从而造成视频的抖动现象。林晓等人^[7]在Avidan等人^[6]的基础上提出一种逐帧优化的视频缩放方法。首先逐帧读入视频，按照梯度求出当前帧的能量图，并使用高速缓存的置换思想调整能量图；根据能量图找出线后使用线性插值的方法删除线,得到目标大小的帧。

基于网格变形的方法是将视频帧划分网格，基于网格的重要程度及相关的时空约束进行相应的映射变换，其代表性的方法有：Wolf等人^[8]提出了非线性的变形方法，使用全局非均匀映射方式调整视频尺寸大小，该方法首先将显著度图、人脸区域和视频帧之间的运动场融合得到每帧图像的重要度图，然后按照重要区域变形较小、非重要区域变形较大的原则进行非均匀映射，但是该方法的处理效果一般，结果中存在有内容的不连续现象。Wang等人^[9]对其提出的基于网格的最优化图像变形方法^[10]进行了扩展，着重考虑到运动的信息，首先通过估计相邻帧之间的相机运动对齐视频帧、辅助目标运动和重要度，然后逐帧求解一个在空间和时间的约束下全局优化函数的最小化问题。缩放后视频视觉效果较好，但由于运算量大，很难达到实时的要求。Yan等人^[11]在Panozzo等人^[12]提出的基于轴对齐变形的图像重定向方法的基础上通过约束相邻帧之间的匹配块相似以达到约束视频时间连贯性的目的。但由于Panozzo等人^[12]的方法在缩放图像时仅考虑重要性而没有考虑相邻网格缩放程度应相似的问题，导致视频缩放后视觉效果不佳。

基于内容裁切的方法在检测出视频帧中的重要内容的基础上，按照目标尺寸比例裁切掉一部分不重要的内容。其代表性的方法有：Liu等人^[13]提出了一种感兴趣区域选择方法，该算法采用快速曲线拟合方法，在镜头内一组连续视频帧上寻找最佳裁切序列，避免了相邻帧间存在时间约束的复杂优化问题。Carlier等人^[14]不再通过视频内容的分析确定视频的重要内容，而是通过与用户交互的方法，收集用户的痕迹，推断出视频重要内容及其动态，将重要内容分组为镜头，并自动对这些镜头进行裁切。

然而，由于视频内容的多样性，现有的视频重定向方法仍无法对所有的视频均保持较好的时空连贯性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出一种基于网格与帧分组的视频重定向方案，该方案整体考虑每个视频分组的空间约束以及组间的时间约束，能有效地降低重定向后视频发生的抖动。

本发明提出了一种基于网格和帧分组的视频重定向方法充分利用视频对象在帧间运动的联系，对视频帧进行分组后，同一组内的所有帧共用一套缩放因子，组与组之间通过相应的背景和运动建立对应的约束联系，在保证视频重要内容显示质量的前提下，有效地降低重定向后视频发生的抖动。缩小视频帧的分辨率大小是视频重定向的核心问题之一。本发明以缩小视频帧空间分辨率为主要目标提出了视频重定向方法的整体流程。当然，该方法也可直接扩展应用到放大视频帧大小的情况上。

本发明方法包括六步：①首先利用原始视频帧建立全局运动模型，获得帧与帧之间的相对位移。②以设定的初始网格宽度对所有视频帧进行分组，确保同一组内的帧之间的相对位移不超过设定的初始网格宽度，同时组与组之间具有相对的运动关系。③对各组内的视频帧进行拼接获得拼接图，并对拼接图进行网格划分。④分别提取每一组拼接图中的运动目标及重要度，得到每一组拼接图中的运动目标及重要度，获得每一组拼接图中各网格的重要度以及运动目标所在的网格。⑤根据当前组各网格的重要度以及相邻网格变化应相似的要求，对当前组的拼接图进行组内空间约束；根据组与组之间的相对运动关系与运动目标所在的网格关系形成组间时间约束。⑥根据约束条件求得当前组各网格的缩放因子后，对当前组内各帧进行缩放，便可得到重定向后的视频帧。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：本发明方法以输入视频的首帧为基准建立全局的运动模型，有效地将视频中相机运动、对象运动与背景进行分离；在建立全局运动模型的基础上，按网格的大小对视频帧进行分组，每个视频组形成基于背景的拼接图，有利于避免组内的视频帧在时间上的抖动问题；在视频组的拼接图上划分网格，根据各网格相应的时间和空间约束，获得其缩放因子，并实现重定向操作。实验结果表明，本发明方法能保持重定向视频的时空连贯性，获得较好的视觉效果。对于背景特征不明显的视频内容来说，如何有效地实现背景拼接以获得精确的全局运动模型，将作为本发明进一步提升视频重定向性能的后续工作。

附图说明

图1是本发明实施例中基于网格和帧分组的视频重定向方法的流程示意图；

图2是本发明实施例中视频序列的全局运动模型示意图，其中图2(a)为stefan序列，图2(b)为coastgurd序列；

图3是本发明实施例中视频分组的伪代码；

图4是本发明实施例中划分网格的方法示意图，其中图4(a)为各组原始拼接图，图4(b)为裁剪图，图4(c)为网格划分图；

图5是本发明实施例中划分网格的拼接示例图，其中其中图5(a)为原始帧拼接图，图5(b)为裁剪拼接图，图5(c)为划分网格示例图；

图6是本发明实施例中组内视频帧拼接图及其重要度图，其中图6(a)为coastgurd拼接帧及重要度图，图6(b)为stefan拼接帧及重要度图，图6(c)为foreman拼接帧及重要度图；

图7是本发明实施例中计算运动目标图的示意图，其中图7(a)为某组第一帧，图7(b)为该帧的光流幅度图，图7(c)为该帧的二值化图，图7(d)为该帧的膨胀腐蚀图，图7(e)为该帧的运动目标图；

图8是本发明实施例中将tempete视频帧的宽度缩小至原来的70％的效果对比示意图，其中图8(a)为原始帧，图8(b)采用均匀缩放方法，图8(c)采用边缘填充方法，图8(d)采用裁剪方法，图8(e)采用文献[12]中的方法，图8(f)采用本发明方法；

图9是本发明实施例中将stefan视频帧的宽度缩小至原来的60％的效果对比示意图，其中图9(a)为原始帧，图9(b)采用均匀缩放方法，图9(c)采用边缘填充方法，图9(d)采用裁剪方法，图9(e)采用文献[12]中的方法，图9(f)采用本发明方法；

图10是本发明实施例中将coastgurd视频帧的宽度缩小至原来的50％的效果对比示意图，其中图10(a)为原始帧，图10(b)采用均匀缩放方法，图10(c)采用边缘填充方法，图10(d)采用裁剪方法，图10(e)采用文献[12]中的方法，图10(f)采用本发明方法；

图11是本发明实施例中将foreman视频帧的宽度缩小至原来的40％的效果对比示意图，其中图11(a)为原始帧，图11(b)采用均匀缩放方法，图11(c)采用边缘填充方法，图11(d)采用裁剪方法，图11(e)采用文献[12]中的方法，图11(f)采用本发明方法。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出的基于网格和帧分组的视频重定向方法充分利用视频对象在帧间运动的联系，对视频帧进行分组后，同一组内的所有帧共用一套缩放因子，组与组之间通过相应的背景和运动建立对应的约束联系，在保证视频重要内容显示质量的前提下，有效地降低重定向后视频发生的抖动。缩小视频帧的分辨率大小是视频重定向的核心问题之一^[8，9，11]。本发明以缩小视频帧空间分辨率为主要目标提出了视频重定向方法的整体流程，如图1所示。当然，该方法也可直接扩展应用到放大视频帧大小的情况上。

本发明方法包括六步：①首先利用原始视频帧建立全局运动模型，获得帧与帧之间的相对位移。②以设定的初始网格宽度对所有视频帧进行分组，确保同一组内的帧之间的相对位移不超过设定的初始网格宽度，同时组与组之间具有相对的运动关系。③对各组内的视频帧进行拼接获得拼接图，并对拼接图进行网格划分。④分别提取每一组拼接图中的运动目标及重要度，得到每一组拼接图中的运动目标及重要度，获得每一组拼接图中各网格的重要度以及运动目标所在的网格。如图1所示，黑色方块代表运动目标，灰色程度的深浅代表在该组中该网格的重要程度。⑤根据当前组各网格的重要度以及相邻网格变化应相似的要求，对当前组的拼接图进行组内空间约束；根据组与组之间的相对运动关系与运动目标所在的网格关系形成组间时间约束。⑥根据约束条件求得当前组各网格的缩放因子后，对当前组内各帧进行缩放，便可得到重定向后的视频帧。

1全局运动模型

本发明方法以输入视频的首帧为基准建立全局的运动模型。其目的在于，有效地将视频中相机运动、对象运动与背景进行分离，为后续构建分组运动关系打下基础。在视频帧之间获取全局运动模型已有不少的研究工作，由于文献^[10]的方法能有效地获取视频全局运动模型，因此本发明采用文献^[10]的的方法来建立视频的全局运动模型。

设原始视频共有C帧，视频高度为H，宽度为W。设第t帧的左上顶点记为V_t，x_t和y_t分别表示V_t的齐次坐标归一化下的横坐标与纵坐标，则V_t的坐标表示为V_t＝[x_t,y_t,1],t∈[1,C]。本发明首先通过SIFT(尺度不变特征变换，Scale-invariant feature transform)方法^[15]获取第t帧与第t-1帧之间的对应匹配特征点，然后利用RANSAC(Random SampleConsensus)方法^[16]消除SIFT算法错配的点，筛选出正确的特征匹配点，最后得到描述两帧对应匹配点位置关系的3×3变换矩阵H_t,t-1：

其中，H_t,t-1代表第t帧相对第t-1帧的变换矩阵，[x'_t,y'_t,1]为第t帧与第t-1帧配准后第t帧各个像素点在相机运动模型下的新坐标。

由于变换矩阵具有累乘的特点，因而在求得相邻两帧之间的变换矩阵H_t,t-1后，可根据式(2)求得第t帧相对第1帧的变换关系H_t,1：

H_t,l×H_l,1＝H_t,1 (2)

根据H_t,1可获得第t帧与第1帧配准后左上顶点的新坐标V_t'，V_t'也可视为第t帧相对第1帧的位移。如图2所示，将每一帧按照新坐标进行平移，便可得到该视频全局运动模型。图2(a)～图2(b)为两个视频序列依据相机运动拼接而得的全局运动模型，视频序列建立全局运动模型后，各视频帧的背景得到了一一对应。

2分组及网格划分

2.1视频分组

本发明将连续的多帧视频视为一幅拼接图像，则对于组成该拼接图像的所有视频帧将无需再考虑时间连贯性的约束，而仅需考虑空间连贯性的约束。本发明将组成同一拼接图像的视频帧划为一组，有利于解决组内视频帧间抖动问题。由于本发明采用的是基于网格的缩放方法，因此考虑能组成一幅拼接图像的帧必须具备以下两个条件：第一，在时间上必须是连续的；再者，组成图像的每一帧在图像划分网格时都具备相同的网格，且网格的背景内容相同。

基于第二个条件，划分的网格大小影响着视频分组。已知全局运动模型下各帧左上顶点的新坐标为V_t'＝[x′_t,y′_t,1],t∈[1,C]。设划分网格的大小为N，若对原始视频的宽度进行缩放，则划分的网格大小为H×N(即分列)，以y′_t坐标进行分组；若对原始视频的高度进行缩放，则划分的网格大小为N×W(即分行)，以x′_t坐标进行分组。

以缩放视频的宽度为例阐述分组步骤，如图3所示。设G_s,i表示第i组的起始帧，G_e,i表示第i组的结束帧，则第1组到第i组中的起始帧的集合可表示为{G_s,1,…,G_s,i}，而结束帧的集合则表示为{G_e,1,…,G_e,i}。假设i从1到C循环，若第i组的结束帧G_e,i＝C，则i结束循环，分组完成。在i的循环过程中，设定第i组的起始帧G_s,i初始值为1,结束帧G_e,i初始值为C，第i组相对第i-1组的位移L_i初始值为0。若i≠1，即当前组不为第1组时，第i组的起始帧G_s,i为第i-1组的结束帧G_e,i-1的后一帧。通过第i组起始帧G_s,i的坐标

与第i-1组结束帧G_e,i-1的坐标

的差值k来判断第i组相对第i-1组的背景内容是向左移还是向右移。若k＞0，说明第i组相对第i-1组右移，令L_i＝1，否则L_i＝-1。在第i组中，从该组的起始帧G_s,i开始，依次判断第t帧是否属于第i组，判断的依据为第t帧的坐标y′_t与第i组起始帧G_s,i的坐标

的差值p。若|p|≤N且p×L_i≥0，则第t帧属于第i组，继续判断第t+1帧；否则说明第t帧不属于第i组，此时第i组的结束帧G_e,i为第t-1帧。

分组完成后，需要再次更新视频的每一帧在相机运动模型中的左上顶点坐标。这次不再是以视频的第一帧为基准，而是组内的每一帧都以该组内最小的y′_t为基准，按照式(3)更新y′_t：

y″_t＝y′_t-(min(y′_t)-1)，t∈[G_s，i，G_e，i] (3)

如此一来，每一组最左边的帧的左上顶点的水平方向坐标为1，最上边的帧的左上顶点的垂直方向坐标也为1。将组内每一帧按照对应的y″_t与x″_t进行平移，便得到了每一组的拼接图，第i组拼接图的总宽度W_i为:

W_i＝W+max(y″t)，t∈[G_s，i，G_e，i] (4)

2.2拼接图划分网格

由上述的视频帧分组步骤可知，同一组内的所有帧应具有相同的网格，因此组内所有帧的网格划分是建立在该组拼接图像的网格划分上的。如果分组是基于大小为H×N(缩放宽度)的网格进行的，则可直接将拼接图分成多个H×N大小的网格便可。但是，由于分完组后每一组的拼接图宽度W_i不一定是网格宽度N的整倍数，为了保证组内每一帧的网格数相同，必须保证分列的实际网格宽度不小于理论网格宽度N。因此，先根据式(5)求出该组的网格数u_i，并根据式(6)求得第i组拼接图剩余的宽度r_i，最后根据式(7)求得第j个网格在水平方向上开始的位置c_j，至此便网格划分完毕。

r_i＝W_i-u_iN (6)

上述分列方法可确保组内每一帧都拥有的相同的网格数，但由于每一组的总宽度并不总是相等，会出现每一组的列数u_i不一定相同的情况。为了防止上述情况的发生，需要令每组的总宽度相同。图4(a)为三个视频组的原始拼接图，虚线为每个网格开始的位置，颜色相同的两条竖实线之间的距离相当于一个视频帧的宽度。在三个视频组中，首先找到总宽度最小的组。图4中总宽度最小的组为第i组，以第i组左起第2列和最后一列开始的位置为基准线，裁去所有组中基准线外侧的内容，保留基准线内侧宽度为W'的内容。然后以W'为总宽度，按式(5)、(6)、(7)对拼接图重新分列，得到第i组新的列数u′_i及第i组中第j列新的宽度c'_j，结果如图4(b)所示。尽管此时所有组均拥有了相同的网格数，但是每组都经过裁剪后组内失去了帧与帧之间的运动关系。为了解决这个问题，可复制图4(a)中帧间的位移关系，进一步对组内各帧进行裁剪，裁剪得到每组每帧的宽度

与每组每帧每列的宽度c'_j，结果如图4(c)所示。

上述操作可在不影响相机运动的前提下，使得每组和每帧的网格数都相同，为后续的约束奠定了基础。图5(a)为原始帧拼接图，对应图4(a)；图5(b)为经过裁剪后的拼接图，对应图4(b)；而图5(c)为裁剪后的拼接图进行网格划分，对应图4(c)。从图5(c)可以看出，第i组相对第i-1组左移了一列，且两组间位置对应的列大小相同，背景内容达到一致。

3时空约束条件

为了保证视频重定向的时空连贯性，需要对视频分组后划分的网格设定相应的时间和空间约束。

3.1组内空间约束

构造空间约束主要为了保持重要物体尽量不形变的同时保持视频图像的空间连贯性。因此本发明以组为单位，考虑重要度与空间连贯性两个约束条件。

(1)重要度约束

设视频组i内各帧的混合重要度图为

中每一个像素p的重要度

可表示为：

其中，I^t(p)为裁剪后每帧独立的重要度。与文献^[11]类似，第t帧的重要度I^t为：

这里

为每帧的梯度，

为每帧用Itti算法^[17]算出的显著度图。图6(a)为三个视频序列的拼接图及对应的重要度图，从重要度图可明显看出运动目标的运动轨迹。

计算出每组的重要度图

后，便按该组的网格划分原则，求出该组中每个网格的重要度

重要度越大的网格，变化应该越小。因而，每个网格的重要度约束E_si表示为：

表示第i组第j列的缩放因子。

(2)空间连贯性约束

根据每个网格的重要度求其缩放因子时，还需考虑相邻网格之间的变化应尽可能相似。如果相邻网格之间的缩放因子差异太大，有可能会引起横跨两个网格的同一内容产生失真。因而，本发明考虑相邻网格之间的能量约束，其表示为：

3.2组间时间约束

由2.2节可知，同一组内的帧与帧之间无需考虑时间连贯性的问题。但是，视频组之间仍可能存在目标运动与背景运动，因此需对其进行约束。

(1)运动目标约束

视频中的运动目标往往是人眼关注的焦点之一，为了减少重定向视频帧间由运动目标产生的抖动，需要对运动目标进行必要的约束。根据2.1所述，全局运动模型已对帧与帧之间的全局运动做了补偿，因此计算每个视频组的运动目标等价为相机不动的视频求运动目标的问题。同时，计算视频某组的运动目标可通过计算该组第一帧的运动目标来实现。本发明通过光流法计算每组第二帧与第一帧之间的光流，对光流矢量二值化，辅助膨胀腐蚀操作以去除散点影响，便可得到每组第一帧的运动目标，其过程如图7所示。

提取出运动目标后，便可根据网格划分原则，找出该运动目标跨越的最左边的网格

和最右边的网格

从而得出该运动目标所在的网格为

同一运动目标在两组之间缩放变化应该相似。因而，组间运动目标所在的网格约束能量E_to可表示为：

(2)背景约束

分组完成后，相邻两个视频组之间背景的关系已比较明确。如图5所示，若当前组相对前一组向右移，即L_i＝1时，当前组在水平方向上第一个网格的背景即为前一组第二个网格的背景，当前组第二个网格的背景为前一组第三个网格的背景……依此类推。若当前组相对前一组向左移，即L_i＝-1时，当前组第二个网格的背景即为前一组第一个网格的背景……依此类推。由于相邻两组之间背景相同的网格变化应该相似，因而组间背景所在的网格约束能量E_tb可表示为：

4联合优化及缩放因子

通过结合3所述的组内空间约束与组间时间约束，可得到最终的优化能量E：

E＝λ₁×E_si+λ₂×E_ss+λ₅×(λ₃×E_to+λ₄×E_tb)

W^r为目标缩放宽度。在约束条件下令优化函数最小即可求出每一组各个网格的缩放因子

其中，λ₁、λ₂、λ₃、λ₄与λ₅为各个约束函数的权重。

按照分组的原理，原则上同一组内每一帧相同网格的缩放因子应该相同。但是实验发现，若组内所有帧的缩放因子相同，则处于两组衔接处的两帧抖动较为明显。为了解决上述现象，对组内的所有帧采取一种渐变的方法。在当前视频组内，位置越靠近下一个视频组额帧对应的缩放因子与下一组中对应背景的网格越相似；若与下一组没有对应背景的网格，则该组内所有帧的该网格缩放因子相同：

其中，全集U＝{j|1≤j≤u′_i}，当L_i+1＝1时，A＝{j|1+L_i+1≤j≤u′_i}；当L_i+1＝-1时，A＝{j|1≤j≤u′_i+L_i+1}。

由此可求出每组每帧每个网格的缩放因子。利用缩放因子即可进行视频帧的缩放。

实验结果与讨论

为了验证视频重定向方法的性能，利用MATLAB软件对本发明方法、均匀缩放、边缘填充、剪裁和文献^[12]的视频重定向算法进行了实验测试。实验在CPU为3.20GHz，内存为4GB的计算机上完成，对12个视频测试序列进行了测试，这些视频序列均为100帧，分辨率为CIF格式(352×288)，视频格式为YUV 4：2：0。设定网格大小为N＝40，经过实验发现，当λ₁＝λ₃＝0.6、λ₂＝λ₄＝0.4，λ₅＝2时实验结果较好。

本发明分别对视频的宽度分别缩小至原来的70％、60％、50％和40％的情况进行了测试和比较，结果如图8、9、10和11所示。在各视频序列中提取4个视频帧做比较，每间隔10个视频帧抽取1帧，其中图8～11分别为tempete、stefan、coastguard和foreman序列的宽度缩小至原来的70％、60％、50％和40％的结果。

图8(a)～图11(a)均为视频原始帧。图8(b)～图11(b)为各视频序列采用均匀缩放方法的结果。从图8到图11可看出，图8(b)中的黄花、图9(b)中的网球选手、图10(b)中的轮船以及图11(b)中的人均因为缩小了宽度出现明显的纵向拉伸失真。这是由于均匀缩放方法没有对视频的重要内容实施保护，仅仅采用线性插值的方法均匀地缩小了图像而引起的。此外还可以看出，随着缩小的比例逐渐变大时，视频的重要内容失真会越明显。

图8(c)～图11(c)为各视频序列采用边缘填充方法的结果。从采用边缘填充方法获得的结果可看出，尽管该方法产生的结果完全保持了原始视频帧的宽高比，重要内容也没有失真，但是填充的边缘既不美观，又造成了播放设备屏幕的浪费。主要的原因是，边缘填充方法为了在缩放时保持视频的原始宽高比而填充黑边，当视频的目标尺寸与原始尺寸差别越大时，补充的黑边越多，观感越不好。

图8(d)～图11(d)为各视频序列采用裁剪方法的结果。裁剪方法主要是保留视频重要内容的中心区域，裁去边缘区域，以达到视频适应播放设备尺寸的效果。当缩小的比例变大时，可能裁剪到视频的重要区域，例如图10(d)中被裁去了船体两边的部分内容，图11(d)裁去了人物的半边脸。

图8(e)～图11(e)为各视频序列采用文献^[12]的结果。由结果可看出，随着缩小比例的变大，视频的重要对象出现了明显的变形，例如图10(d)和图11(d)。采用该方法的结果能较好地保持了视频的时间连贯性，但无法保证空间连贯性。主要的原因是，采用文献^[12]的方法对视频进行重定向时没有考虑同一视频帧相邻区域缩放程度相似的问题，导致空间的连贯性无法保持，视觉效果不佳。

图8(f)～图11(f)为各视频序列采用本发明方法的结果。由结果图可以看到，本发明方法在保持重定向视频良好时空连贯性的前提下，视频重要内容具有较好的重建质量。

就运算复杂度来说，传统的均匀缩放、边缘填充、裁剪三种方法由于没有考虑重要内容的保护问题，因此运算较简单。而基于内容的视频重定向方法目前从优化帧数上来说可以分为全局优化和局部优化。全局优化即把所需处理的视频帧一起考虑，性能较好，但时间复杂度也最高；局部优化可分为分组优化和逐帧优化，逐帧优化时间复杂度较低，但帧与帧之间的连贯性保持的性能较差；分组优化则是全局优化与逐帧优化的折中，综合性能与时间复杂度来看，分组优化的性价比较高。本发明的方法采用的是分组优化的思路，实验证明，性能与时间复杂度都在可接受范围内，此外，视频重定向程序还可以利用C++等平台进行优化改善，以提升其运行速度。

文献索引：

[1].Liu D,Wu Z,Lin X,et al.Towards perceptual video cropping withcurve fitting[J].Multimedia Tools&Applications,2016,75(20):12465-12475.

[2].Kaur H,Kour S,Sen D.Prediction based seam carving for videoretargeting[C]//International Conference on Pattern Recognition.IEEE,2017:877-882.

[3].Li K,Yan B,Yuan B.A new metric to assess temporal coherence forvideo retargeting[C]//Optoelectronic Imaging and Multimedia TechnologyIII.International Society for Optics and Photonics,2014:92732Z-92732Z-6.

[4].Lin S S,Lin C H,Kuo Y H,et al.Consistent volumetric warping usingfloating boundaries for stereoscopic video retargeting[J].IEEE Transactionson Circuits&Systems for Videong[J].IEEE Transactions on Circuits&Systems forVideo Technology,2016,26(5):801-813.

[5].Grundmann M,Kwatra V,Han M,et al.Discontinuous seam-carving forvideo retargeting[C]//Computer Vision and Pattern Recognition.IEEE,2010:569-576.

[6].Avidan S,Shamir A.Seam carving for content-aware image resizing[J].ACM Transactions on Graphics(TOG),2007,26(3):10.

[7].(林晓,杨明晖,马利庄,等.基于Seam Carving的逐帧优化视频缩放方法[J].计算机辅助设计与图形学学报,2015(7):1298-1303.)

[8].Wolf L,Guttmann M,Cohen-Or D.Non-homogeneous content-drivenvideo-retargeting[C]//International Conference on Computer Vision.IEEE,2007:1-6.

[9].Wang Y S,Fu H,Sorkine O,et al.Motion-aware temporal coherence forvideo resizing.[J].ACM Transactions on Graphics,2009,28(5):1-10.

[10].Wang Y S,Tai C L,Sorkine O,et al.Optimized scale-and-stretch forimage resizing[J].ACM Trans Graph,2008,27(5):1-8.

[11].Yan B,Yuan B,Yang B.Effective Video retargeting with jitteryassessment[J].IEEE Transactions on Multimedia,2014,16(1):272-277.

[12].Panozzo D,Weber O,Sorkine O.Robust image retargeting via axis-aligned deformation[J].Computer Graphics Forum,2012,31(2pt1):229-236.

[13].Liu D,Wu Z,Lin X,et al.Towards perceptual video cropping withcurve fitting[J].Multimedia Tools&Applications,2016,75(20):12465-12475.

[14].Carlier A,Charvillat V,Wei T O,et al.Crowdsourced automatic zoomand scroll for video retargeting[C]//International Conference on Multimedea2010,Firenze,Italy,October.DBLP,2010:201-210.

[15].Lowe D G.Distinctive image features from scale-invariantkeypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[16].Fischler MA,Bolles R C.Random sample consensus:a paradigm formodel fitting with applications to image analysis and automated cartography[M].ACM,1981.

[17].Itti L,Koch C,Niebur E.A model of saliency-based visualattention for rapid scene analysis[M].IEEE Computer Society,1998.

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网格和帧分组的视频重定向方法，其特征在于，包括：

(1)利用原始视频帧建立全局运动模型，获得帧与帧之间的相对位移；

(2)以设定的初始网格宽度对所有视频帧进行分组，确保同一组内的帧之间的相对位移不超过设定的初始网格宽度，同时组与组之间具有相对的运动关系；

(3)对各组内的视频帧进行拼接获得拼接图，并对拼接图进行网格划分；对拼接图进行网格划分，具体为：

在视频组中首先找到总宽度最小的组记为第i组，以第i组左起第2列和最后一列开始的位置为基准线，裁去所有组中基准线外侧的内容，保留基准线内侧宽度为W_i′的内容，然后以W_i′为总宽度，根据公式

求出该组的网格数u_i′，并根据公式r_i′＝W_i′-u_i′N求得第i组拼接图剩余的宽度r_i′，最后根据公式

求得第i组中第j个网格在水平方向上开始的位置c′_j，进一步对组内各帧进行裁剪，裁剪得到每组每帧的宽度

与每组每帧每列的宽度c″_j，其中：

(4)分别提取每一组拼接图中的运动目标及重要度，得到每一组拼接图中的运动目标及重要度，获得每一组拼接图中各网格的重要度以及运动目标所在的网格；

(5)根据当前组各网格的重要度以及相邻网格变化应相似的要求，对当前组的拼接图进行组内空间约束；具体为，以组为单位考虑重要度与空间连贯性两个约束条件，其中：

重要度约束为：

设视频组i内各帧的混合重要度图为

中每一个像素p的重要度

表示为：

其中，I^t(p)为裁剪后每帧独立的重要度，第t帧的重要度I^t为：

其中

为每帧的梯度，

为每帧用Itti算法算出的显著度图，G_s，i表示第i组的起始帧，G_e，i表示第i组的结束帧；

计算出每组的重要度图

后，按该组的网格划分原则求出该组中每个网格的重要度

每个网格的重要度约束E_si表示为：

表示第i组第j列的缩放因子，u′_i表示第i组新的列数，num′_i表示第i组中列的总数；

空间连贯性约束为：相邻网格之间的能量约束，其表示为：

根据组与组之间的相对运动关系与运动目标所在的网格关系形成组间时间约束；具体包括：

运动目标约束：

通过光流法计算每组第二帧与第一帧之间的光流，对光流矢量二值化，辅助膨胀腐蚀操作以去除散点影响，得到每组第一帧的运动目标；

提取出运动目标后，根据网格划分原则，找出该运动目标跨越的最左边的网格

和最右边的网格

得出该运动目标所在的网格为

组间运动目标所在的网格约束能量E_to表示为：

背景约束：

分组完成后，若当前组相对前一组向右移，即L_i＝1时，当前组在水平方向上第一个网格的背景即为前一组第二个网格的背景，当前组第二个网格的背景为前一组第三个网格的背景......依此类推；若当前组相对前一组向左移，即L_i＝-1时，当前组第二个网格的背景即为前一组第一个网格的背景......依此类推；组间背景所在的网格约束能量E_tb表示为：

(6)根据约束条件求得当前组各网格的缩放因子后，对当前组内各帧进行缩放，便可得到重定向后的视频帧。

2.如权利要求1所述的基于网格和帧分组的视频重定向方法，其特征在于，所述步骤(1)具体为：

设原始视频共有C帧，视频高度为H，宽度为W，设第t帧的左上顶点记为V_t，x_t和y_t分别表示V_t的齐次坐标归一化下的横坐标与纵坐标，则V_t的坐标表示为V_t＝[x_t，y_t，1]，t∈[1，C]；

通过SIFT方法获取第t帧与第t-1帧之间的对应匹配特征点，然后利用RANSAC方法消除SIFT算法错配的点，筛选出正确的特征匹配点，最后得到描述两帧对应匹配点位置关系的3×3变换矩阵H_t，t-1：

其中，H_t，t-1代表第t帧相对第t-1帧的变换矩阵，[x′_t，y′_t，1]为第t帧与第t-1帧配准后第t帧各个像素点在相机运动模型下的新坐标；

求得相邻两帧之间的变换矩阵H_t，t-1后，根据公式H_t，l×H_l，1＝H_t，1求得第t帧相对第1帧的变换关系H_t，1：

根据H_t，1获得第t帧与第1帧配准后左上顶点的新坐标V_t′，V_t′即视为第t帧相对第1帧的位移；

将每一帧按照新坐标进行平移，便可得到该视频全局运动模型。

3.如权利要求2所述的基于网格和帧分组的视频重定向方法，其特征在于，所述步骤(2)中以设定的初始网格宽度对所有视频帧进行分组，具体为：

设全局运动模型下各帧左上顶点的新坐标为V′_t＝[x′_t，y′_t，1]，t∈[1，C]，设划分网格的大小为N，若对原始视频的宽度进行缩放，则划分的网格大小为H×N，以x′_t坐标进行分组；若对原始视频的高度进行缩放，则划分的网格大小为N×W，以y′_t坐标进行分组。

4.如权利要求3所述的基于网格和帧分组的视频重定向方法，其特征在于，所述对原始视频的宽度进行缩放，具体为：

设G_s，i表示第i组的起始帧，G_e，i表示第i组的结束帧，则第1组到第i组中的起始帧的集合表示为{G_s，1，…，G_s，i}，结束帧的集合则表示为{G_e，1，…，G_e，i}；设i从1到C循环，若第i组的结束帧G_e，i＝C，则i结束循环，分组完成；在i的循环过程中，设定第i组的起始帧G_s，i初始值为1，结束帧G_e，i初始值为C，第i组相对第i-1组的位移L_i初始值为0；若i≠1，即当前组不为第1组时，第i组的起始帧G_s，i为第i-1组的结束帧G_e，i-1的后一帧；通过第i组起始帧G_s，i的坐标

与第i-1组结束帧G_e，i-1的坐标

的差值k来判断第i组相对第i-1组的背景内容是向左移还是向右移；若k＞0，说明第i组相对第i-1组右移，令L_i＝1，否则L_i＝-1；在第i组中，从该组的起始帧G_s，i开始，依次判断第t帧是否属于第i组，判断的依据为第t帧的坐标y′_t与第i组起始帧G_s，i的坐标

的差值p；若|p|≤N且p×L_i≥0，则第t帧属于第i组，继续判断第t+1帧；否则说明第t帧不属于第i组，此时第i组的结束帧G_e，i为第t-1帧。

5.如权利要求4所述的基于网格和帧分组的视频重定向方法，其特征在于，所述步骤(3)中对各组内的视频帧进行拼接获得拼接图，具体为：

分组完成后需要再次更新视频的每一帧在相机运动模型中的左上顶点坐标，组内的每一帧都以该组内最小的y′_t为基准，按照公式y″_t＝y′_t-(min(y′_t)-1)，t∈[G_s，i，G_e，i]更新y′_t：

如此每一组最左边的帧的左上顶点的水平方向坐标为1，最上边的帧的左上顶点的垂直方向坐标也为1，将组内每一帧按照对应的y″_t与x″_t进行平移，便得到了每一组的拼接图，第i组拼接图的总宽度W_i为：W_i＝W+max(x″_t)，t∈[G_s，i，G_e，i]。

6.如权利要求5所述的基于网格和帧分组的视频重定向方法，其特征在于，所述步骤(6)具体为：

通过结合组内空间约束与组间时间约束，得到最终的优化能量E：

E＝λ₁×E_si+λ₂×E_ss+λ₅×(λ₃×E_to+λ₄×E_tb)

其中W^r为目标缩放宽度，在约束条件下令优化函数最小即可求出每一组各个网格的缩放因子

其中，λ₁、λ₂、λ₃、λ₄与λ₅为各个约束函数的权重；

对组内的所有帧采取渐变的方法，即在当前视频组内，位置越靠近下一个视频组帧对应的缩放因子与下一组中对应背景的网格越相似，若与下一组没有对应背景的网格，则该组内所有帧的该网格缩放因子相同：

其中，全集U＝{j|1≤j≤u′_i}，当L_i+1＝1时，A＝{j|1+L_i+1≤j≤u′_i}；当L_i+1＝-1时，A＝{j|1≤j≤u′_i+L_i+1}；

求出每组每帧每个网格的缩放因子，利用缩放因子进行视频帧的缩放。