CN108564554A

CN108564554A - 一种基于运动轨迹优化的视频稳定方法

Info

Publication number: CN108564554A
Application number: CN201810434939.7A
Authority: CN
Inventors: 安平; 周杰; 尤志翔
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2018-09-21

Abstract

本发明公开了一种基于运动轨迹优化的视频稳定方法。首先对输入的视频做全局相机运动轨迹的视频稳定，利用特征点匹配估计出原始相机运动轨迹，通过最优化运动轨迹的能量函数平滑相机运动轨迹。然后对稳定后的视频进行局部的稳定调整，将视频图像划分为一个个网格，分别估计每个网格内的相机运动并对相机运动进行平滑处理。最后对视频的全局运动进行再稳定调整，进一步提高视频的稳定性。本发明是一种使视频稳定性能好、鲁棒性高的视频稳定方法，能够对由相机抖动、拍摄设备不完善以及拍摄环境不佳所导致的拍摄视频的抖动进行修正，可提高观看视频的舒适度。

Description

一种基于运动轨迹优化的视频稳定方法

技术领域

本发明涉及一种视频稳定方法，尤其涉及一种基于运动轨迹优化的视频稳定方法，属于电子稳像技术领域。

背景技术

近年来，随着便携式拍摄仪器的高速发展，业余的摄影影像的数量呈指数级增长。然而，业余摄影爱好者在采集视频的过程中，由于拍摄条件和采集设备的限制，往往在相机拍摄过程中无法保持设备长时间的稳定，导致拍摄的视频中存在抖动等不稳定现象。这些不稳定现象严重影响了拍摄视频的质量以及用户观看的舒适度。利用机械平台稳像方法，比如将相机固定在云台等拍摄平台上，可以减少视频的不稳定，但这种方法的缺点是设备重、价格昂贵等，同时由于工艺加工的原因，稳定精度有限。另一方面，采用基于图像处理的视频稳定技术具有成本低、稳定效果好等优势。近年来，视频稳定技术在视频监控、视频跟踪、车载移动拍摄和机器人导航等方面得到了广泛的应用。

视频稳定技术是指：去除视频中非刻意的相机抖动，保留刻意的相机运动的过程。其问题的关键主要分为相机的运动估计和相机的运动平滑两部分。相机的运动估计是通过视频相邻帧之间的特征匹配估计图像之间的运动模型。运动平滑则是通过平滑处理减少视频相邻帧之间的剧烈抖动变化，使帧间运动轨迹更加平滑。

Shene T N,Sridharan K,Sudha N.Real-Time SURF-Based VideoStabilization System for an FPGA-Driven Mobile Robot[J]//EEE Transactions onIndustrial Electronics,2016.公开了一种基于SURF(Speeded Up Robust Features)特征点匹配的实时视频稳定系统，该方法通过相邻帧的特征匹配估计相机全局运动，然后对视频帧应用低通滤波来去除抖动分量。Li L,Ma X,Zhao Z.Real-time videostabilization based on fast block matching and improved Kalman filter[C]//Fifth International Conference on Intelligent Control and InformationProcessing.IEEE,2014.公开了一种基于块匹配的视频稳定方法，该方法通过块匹配方法估计相机全局运动模型，然后应用改进的卡尔曼滤波对运动轨迹进行补偿。Yu H,ZhangW.Moving camera video stabilization based on Kalman filter and least squaresfitting[C]//Intelligent Control and Automation.IEEE,2015.公开了一种视频稳定方法，该方法分别采用卡尔曼滤波和最小二乘拟合方法对抖动视频进行运动补偿，并得到结论：最小二乘拟合在运动补偿方面比卡尔曼滤波性能更好，但卡尔曼滤波处理速度更快，更适合实时处理的场景。这三种方法都属于2D(2-dimensional)视频稳定方法，通过相邻帧的特征匹配或块匹配方法估计相机的全局运动模型，然后采用滤波的方法去除相机的抖动，从而提高视频的质量和观看的舒适度。

近年来，由于2D视频稳定方法中估计的相机运动模型无法处理场景中的较大视差，研究者采用3D的方法来克服该问题。Liu S,Wang Y,Yuan L,et al.Videostabilization with a depth camera[C]//Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on.IEEE,2012.公开了一种3D视频稳定方法。该方法结合彩色图像和Kinect拍摄的深度图像获取特征点的三维信息，并在世界坐标系下得到相邻帧之间的运动模型，然后应用曲线拟合方法对运动轨迹进行平滑。传统的基于SFM(structureform motion)的3D视频稳定方法具有计算量大和受应用场景的限制等缺陷，该方法避免了这些弊端，提高了稳定方法的鲁棒性。但由于Kinect深度传感器获取的深度信息范围有限，只适用于室内场景，因此该方法对室外场景的稳定效果不佳。Zhou Z,Jin H,Ma Y.Plane-Based Content Preserving Warps for Video Stabilization[C]//Computer Visionand Pattern Recognition.IEEE,2013.公开了一种基于平面的视频稳定方法，该方法将视频图像划分为一个个平面，对每个平面分别建立基于平面的三维模型，然后分别进行平滑处理。该方法降低了计算复杂度，提高了SFM重建的鲁棒性，但该方法依然受到SFM算法的约束和限制。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种稳定性能更好、鲁棒性更高的基于运动轨迹优化的视频稳定方法，降低了由于视频不稳定导致的视频质量低和观赏的不舒适。

为达到上述目的，本发明的构思是：首先对输入的视频做全局相机运动轨迹的视频稳定，利用特征点匹配估计出原始相机运动轨迹，然后对稳定后的视频进行局部的稳定调整，最后对视频的全局运动进行再稳定调整，进一步提高视频的稳定性。

根据上述构思，本发明的技术方案是：

一种基于运动轨迹优化的视频稳定方法，包括以下步骤：

步骤1，视频初始稳定：首先提取视频的连续图像的特征点，进行特征点匹配，并对匹配特征点进行特征点筛选，剔除错误的特征点匹配，得到精准的特征点匹配，再根据精准的特征点匹配估计视频的原始相机运动轨迹；然后建立基于原始相机运动轨迹的能量函数，通过最优化能量函数得到最优的平滑运动轨迹；

步骤2，视频图像合成：对经过上述步骤1处理后的视频进行图像合成，将视频的每帧图像划分为若干个网格，根据匹配特征点对应网格的四个顶点建立具有数据项和平滑项的能量函数，通过最优能量函数求得网格的最优变换矩阵，将变换矩阵分别应用在对应的网格，最终得到合成的图像；

步骤3，视频稳定调整：对上述步骤2得到的视频应用光流法估计前后相邻帧之间的运动变换T_origna，该变换主要有三个参数组成：水平平移参数d_x、垂直平移参数d_y、旋转参数d_a；

累计d_x、d_y、d_a得到视频的运动轨迹∑d_x、∑d_y、∑d_a；采用局部平滑方法计算出平滑运动轨迹参数∑d_xavg、∑d_yavg、∑d_aavg，结合上述参数得到新的变换参数d_xsmoot、d_ysmoot、d_asmoot为：

d_xsmooth＝d_x+(d_xavg-∑d_x)

d_ysmooth＝d_y+(d_yavg-∑d_y)

d_asmooth＝d_a+(d_aavg-∑d_a)

最终得到平滑后的运动模型T_smoot；具体模型为：

将T_smooth应用于步骤2输出的视频上得到最终的视频稳定结果。

所述步骤1的具体步骤为：

步骤1.1，精准的特征点提取、匹配和筛选：对输入视频的前后视频帧提取特征点，并进行特征点匹配，为了提高匹配的准确性，首先采用欧氏距离比值判定的方法，验证匹配的准确性：

其中d₁是第t帧图像的特征点p和在第t+1帧图像中离它最近的特征点q之间的距离，d₂是第t帧图像的特征点p和在第t+1帧图像中离它次近的特征点q′之间的距离；当d₁和d₂的比值超过预先设定的阈值时，则认为该特征点匹配不准确，剔除该匹配，否则保留该特征点匹配；其次应用双向验证的方法进一步提高匹配的鲁棒性，即查询图像的特征描述子和模板图像的特征描述子进行双向的匹配验证；最后应用RANSAC方法进一步剔除错误特征点匹配，该方法通过迭代的方式寻找一个最优的变换矩阵H，使得满足变换矩阵的匹配特征点数量最多，即内点数量最多；经过特征点匹配筛选后，得到可靠、准确的特征点匹配；

步骤1.2，相机运动轨迹估计：根据步骤1.1得到的特征点匹配，帧间运动模型由单应性变换描述；设定视频连续图像编号为I₁,I₂,...I_n，第I_t-1帧图像和第I_t帧图像之间的变换为H_t，第I_t帧图像的原始运动轨迹为C_t：

C_t+1＝C_tH_t+1

其中C_t＝H₁H₂...H_t，即第I_t帧图像的原始运动轨迹是前t-1帧图像的运动模型的乘积；

步骤1.3，运动轨迹平滑：根据步骤1.2得到的相机原始运动轨迹C_t，设定平滑后运动轨迹为P_t，则两者之间的关系可以表示为：

P_t＝C_tB_t

其中是原始运动轨迹和平滑运动轨迹之间的变换矩阵；从摄影学的角度上说，静止相机、相机匀速移动、相机匀加速移动三种拍摄方式带来的观赏体验最佳，在三种拍摄方式之间通过剪辑避免突然的速度变化，因此分别建立静止路径、匀速路径和匀加速路径的数据项：

其中D¹(P)是静止路径的数据项，D²(P)是匀速路径的数据项，D³(P)是匀加速路径的数据项；并且为了尽量避免平滑后的路径远离原始路径，需要建立原始路径和平滑路径之间的数据项：

同时为了保证相邻运动轨迹之间的平滑，需要建立相邻运动轨迹P_r之间的平滑项：

结合数据项和平滑项建立能量函数：

其中λ₁和λ₂是能量函数的平衡因子，通过最优能量函数得到最优的平滑相机路径P_t，并结合原始路径C_t求得最优的变化矩阵B_t，最后将B_t应用于原始图像得到稳定的视频。

所述步骤2的具体步骤为：

步骤2.1，局部特征点提取和匹配：对步骤1得到的稳定视频进行网格划分，划分为若干个网格；并在每个网格图像内提取特征点，进行特征点匹配；然后采用RANSAC方法进行特征点筛选，获得准确的局部网格图像的特征点匹配；

步骤2.2，合成图像：根据步骤2.1得到的局部网格图像的特征点匹配，设定当前图像的特征点为p，其对应的匹配特征点为p′，特征点p对应的网格为其中分别是网格V_p的四个顶点；特征点p和网格V_p的四个顶点具有线性插值的关系：p＝V_pB_p，其中是插值系数；由于在相机运动过程中p′和对应的网格具备相同的插值系数B_p，其中分别是网格的四个顶点，因此建立能量函数的数据项：

同时为了避免合成图像的扭曲现象，设立了平滑项：

其中是网格的顶点，结合数据项和平滑项建立基于网格顶点的能量函数：

其中α是平衡权重，使得合成图像的误差最小；通过能量函数得到网格V_p对应的网格然后根据对应网格的顶点得到网格之间的变化矩阵H_p，最后将变化矩阵应用到步骤1得到的视频图像上，获得合成的图像。

与现有技术相比，本发明具有如下突出的实质性特点和显著的优点：

本发明提供了一种使视频稳定性能好、鲁棒性高的视频稳定方法，能够对由相机抖动、拍摄设备不完善以及拍摄环境不佳所导致的拍摄视频的抖动进行修正，减轻了由于视频不稳定导致的视频质量低和观赏不舒适的问题。

附图说明

图1为本发明的流程图；

图2为本实施例中原始视频的相邻两帧图像；

图3(a)和(b)为前后帧图像原始特征点正向和反向匹配图；

图4为筛选后的特征点匹配图；

图5为输入视频的水平、垂直方向上的运动轨迹和初始平滑后的运动轨迹；

图6为输入视频的水平、垂直方向上的运动轨迹和初始平滑后的运动轨迹；

图7为初始平滑后图像的网格划分图；

图8为合成后视频图像；

图9为合成图像及其光流图；

图10为稳定调整后视频的水平方向上的运动轨迹和初始平滑后的运动轨迹；

图11为稳定调整后视频的垂直方向上的运动轨迹和初始平滑后的运动轨迹。

具体实施方式

以下结合附图对本发明的实施例作详细说明。本实施例以本发明的技术方案为前提进行实施，但本发明的保护范围不限于下述的实施例。

如图1所示，一种基于运动轨迹优化的视频稳定方法，包含以下步骤：

步骤1，视频初始稳定：首先提取视频的连续图像的特征点，进行特征点匹配，并对匹配特征点进行特征点筛选，剔除错误的特征点匹配，得到精准的特征点匹配，再根据精准的特征点匹配估计视频的原始相机运动轨迹；然后建立基于原始相机运动轨迹的能量函数，通过最优化能量函数得到最优的帧间运动变换，将最优运动变换应用于输入视频得到稳定视频，具体步骤如下：

步骤1.1，精准的特征点提取、匹配和筛选：对输入视频的前后视频帧提取特征点，并进行特征点匹配，本实施例并不局限特征点提取和匹配算法，可选取尺度不变的特征点算法，如SIFT、SURF、ORB、Harris等特征点提取算法，在本实施例中使用的是SURF特征点提取算法。进一步，为了提高匹配的准确性，首先采用欧氏距离比值判定的方法，验证匹配的准确性：

其中d₁是第t帧图像的特征点p和在第t+1帧图像中离它最近的特征点q之间的距离，d₂是第t帧图像的特征点p和在第t+1帧图像中离它次近的特征点q′之间的距离；当d₁和d₂的比值超过预先设定的阈值时，则认为该特征点匹配不准确，剔除该匹配，否则保留该特征点匹配；其次应用双向验证的方法进一步提高匹配的鲁棒性，即查询图像的特征描述子和模板图像的特征描述子进行双向的匹配验证；最后应用RANSAC(Random SampleConsensus，随机采样一致性)方法进一步剔除错误特征点匹配，该方法通过迭代的方式寻找一个最优的变换矩阵H，使得满足变换矩阵的匹配特征点数量最多，即内点数量最多；经过特征点匹配筛选后，得到可靠、准确的特征点匹配。

步骤1.2，相机运动轨迹估计：根据步骤1.1得到的特征点匹配，帧间运动模型可以由单应性变换描述；设定视频连续图像编号为I₁,I₂,...I_n，第I_t-1帧图像和第I_t帧图像之间的变换为H_t，第I_t帧图像的原始运动轨迹为C_t:

C_t+1＝C_tH_t+1

其中C_t＝H₁H₂...H_t，即第I_t帧图像的原始运动轨迹是前t-1帧图像的运动模型的乘积。

步骤1.3，运动轨迹平滑：在相机运动轨迹估计之后，本实施例采用轨迹优化的方法进一步去除视频中的抖动，平滑视频的运动轨迹。在本实施例中，视频的第一帧图像被认为是稳定的。根据步骤1.2得到的相机原始运动轨迹C_t，设定平滑后运动轨迹为P_t，则两者之间的关系可以表示为：

P_t＝C_tB_t

其中是原始运动轨迹和平滑运动轨迹之间的变换矩阵。从摄影学的角度上说，静止相机、相机匀速移动、相机匀加速移动三种拍摄方式带来的观赏体验最佳，在三种拍摄方式之间通过剪辑避免突然的速度变化。因此分别建立静止路径、匀速路径和匀加速路径的数据项：

其中D¹(P)是静止路径的数据项，D²(P)是匀速路径的数据项，D³(P)是匀加速路径的数据项。并且为了尽量避免平滑后的路径远离原始路径，需要建立原始路径和平滑路径之间的数据项：

同时为了保证相邻运动轨迹之间的平滑，需要建立相邻运动轨迹之间的平滑项：

结合数据项和平滑项建立能量函数：

至此，本实施例完成了视频的初步稳定过程。

步骤2，视频图像合成：对经过上述步骤1处理后的视频进行图像合成，将视频的每帧图像划分为若干个网格，根据匹配特征点对应网格的四个顶点建立具有数据项和平滑项的能量函数，通过最优能量函数求得网格的最优变换矩阵，将变换矩阵分别应用在对应的网格，最终得到合成的图像，具体步骤如下：

步骤2.1，局部特征点提取和匹配：对上述步骤1得到的稳定视频进行网格划分，划分为若干个网格；并在每个网格图像内提取特征点，进行特征点匹配；然后采用RANSAC方法进行特征点筛选，获得准确的局部网格图像的特征点匹配。

步骤2.2，合成图像：根据步骤2.1得到的局部网格图像的特征点匹配，设定当前图像的特征点为p，其对应的匹配特征点为p′，特征点p对应的网格为其中分别是网格V_p的四个顶点。特征点p和网格V_p的四个顶点具有线性插值的关系：p＝V_pB_p，其中是插值系数。由于在相机运动过程中p′和对应的网格具备相同的插值系数B_p，其中分别是网格的四个顶点，因此建立能量函数的数据项：

同时为了避免合成图像的扭曲现象，设立了平滑项：

其中是网格的三个顶点，结合数据项和平滑项建立基于网格顶点的能量函数：

其中α是平衡权重，使得合成图像的误差最小。通过能量函数得到网格V_p对应的网格然后根据对应网格的顶点得到网格之间的变化矩阵H_p，最后将变化矩阵应用到步骤1得到的视频图像上，获得合成的图像。

至此，本实施例完成了图像合成过程。

步骤3，视频稳定调整：对上述步骤2得到的视频应用光流法估计前后相邻帧之间的运动变换T_origna，_l该变换主要由三个参数组成：水平平移参数d_x、垂直平移参数d_y、旋转参数d_a。

累计d_x、d_y、d_a得到视频的运动轨迹∑d_x、∑d_y、∑d_a；采用局部平滑方法计算出平滑运动轨迹参数∑d_xavg、∑d_yavg、∑d_aavg，结合上述参数得到新的变换参数d_xsmoot、 d_ysmoot、d_asmoot为：

d_xsmooth＝d_x+(d_xavg-∑d_x)

d_ysmooth＝d_y+(d_yavg-∑d_y)

d_asmooth＝d_a+(d_aavg-∑d_a)

最终得到平滑后的运动模型T_smoot。具体模型为：

将T_smooth应用于步骤2输出的视频上，得到最终的视频稳定结果。

本实施例中，采用SURF特征点匹配的方法跟踪相机运动轨迹。为了得到准确的特征点匹配，本实施例采用了特征点距离比值、双向验证和RANSAC算法提高匹配的精确性。本发明并不局限于SURF特征提取和匹配算法，也可以选用其他尺度不变的特征点提取和匹配算法。图2是原始输入视频图像，图3(a)是正向特征点匹配结果图，图3(b)是反向匹配结果图。如图3(a)和(b)所示，正向和反向匹配之后的结果并不完全相同，即单向匹配会产生一定程度的不精确。图4是双向验证后特征点匹配的结果，减少了错误的特征点匹配，得到准确的特征点匹配，根据精确的特征点匹配可以更好地获得相机初始的运动轨迹，为后续的平滑过程奠定了良好的基础。

本实施例中，采用轨迹曲线优化的方法对相机运动轨迹进行平滑，建立了基于原始运动轨迹的能量函数，通过最优化能量函数得到最优的帧间运动变换。图5是参数λ₁＝0.1，λ₂＝2情况下平滑的效果图，其中图5(a)为x方向上原始运动轨迹和平滑后运动轨迹的对比，图5(b)为y方向上原始运动轨迹和平滑后运动轨迹的对比。图6是参数λ₁＝0.5，λ₂＝2情况下平滑的效果图，其中图6(a)为x方向上运动轨迹的对比，图6(b)为y方向上运动轨迹的对比，实线为输入视频的运动轨迹，虚线为初步平滑处理后的运动轨迹。

相比图5，图6更好地避免了平滑后的运动轨迹脱离原始轨迹的现象。

本实施例采用局部的方法进行图像合成，图7是视频图像的网格划分图，图8为合成之后的图像。

在本实施例中对合成后的图像进行了稳定调整，进一步增强了稳定效果，图像的光流图如图9(b)所示，图中彩色区域即为运动的物体。调整过程的运动轨迹对比如图10、11所示，图10为x方向的运动轨迹对比，图11为y方向运动轨迹对比，实线为初步稳定的运动轨迹，虚线为调整后视频的运动轨迹。

Claims

1.一种基于运动轨迹优化的视频稳定方法，其特征在于，包括以下步骤：

步骤3，视频稳定调整：对上述步骤2得到的视频应用光流法估计前后相邻帧之间的运动变换T_orignal，该变换主要有三个参数组成：水平平移参数d_x、垂直平移参数d_y、旋转参数d_a；

累计d_x、d_y、d_a得到视频的运动轨迹∑d_x、∑d_y、∑d_a；采用局部平滑方法计算出平滑运动轨迹参数∑d_xavg、∑d_yavg、∑d_aavg，结合上述参数得到新的变换参数d_xsmooth、d_ysmooth、d_asmooth为：

d_xsmooth＝d_x+(d_xavg-∑d_x)

d_ysmooth＝d_y+(d_yavg-∑d_y)

d_asmooth＝d_a+(d_aavg-∑d_a)

最终得到平滑后的运动模型T_smoot；_h具体模型为：

2.根据权利要求1所述的基于运动轨迹优化的视频稳定方法，其特征在于，所述步骤1的具体步骤为：

C_t+1＝C_tH_t+1

步骤1.3，运动轨迹平滑：根据步骤1.2得到的相机原始运动轨迹C_t，设定平滑后运动轨迹为P_t，则两者之间的关系表示为：

P_t＝C_tB_t

结合数据项和平滑项建立能量函数：

3.根据权利要求1所述的基于运动轨迹优化的视频稳定方法，其特征在于，所述步骤2的具体步骤为：

同时为了避免合成图像的扭曲现象，设立了平滑项：