CN115760590A

CN115760590A - 一种视频稳像方法及系统

Info

Publication number: CN115760590A
Application number: CN202211248653.2A
Authority: CN
Inventors: 赵伟越; 曹治国; 陆昊; 骆贤瑞; 彭展
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-03-07

Abstract

本发明公开了一种视频稳像方法及系统，属于计算机视觉领域，基于光流预测网络获得帧间光流场以及对应的置信度图，并利用置信度图反向传播寻找多帧共同的共享区域掩膜，从而得到多帧共享的背景区域；通过将视频稳像问题转化为不动点的优化问题，构建相机位姿回归网络，使其利用帧间共享背景区域的光流场，通过迭代得到最优的相机轨迹参数，平滑后对视频进行稳像；本发明通过端到端的相机位姿回归网络直接回归相邻帧之间的位姿变换参数，相比于传统的方法需要通特征检测、特征匹配、计算变换矩阵以及分解参数的复杂步骤，能够在保证视觉质量的前提下，以较快的运行速度实现视频稳像。

Description

一种视频稳像方法及系统

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种视频稳像方法及系统。

背景技术

随着短视频在社交媒体平台(TikTok、Instagram)的日益普及，视频在我们的日常生活中扮演着越来越重要的角色。然而，由于业余拍摄的因素，随手拍摄的短视频往往是抖动的，长时间观看甚至会导致头晕。虽然可以通过使用专业设备(微云台、稳定器)来缓解这些问题，但基于硬件的解决方案的成本往往很高，使其在现实世界的应用中不切实际。相比之下，基于软件或计算的解决方案，如视频稳定算法已经成为有吸引力的替代方案，它通过消除不良的抖动来改善抖动视频的视觉质量。

现有的视频稳定方法可以分为两类：基于传统优化的方法和基于神经网络学习的方法。与基于传统优化的方法相比，基于神经网络学习的方法可以实现更高的视觉质量，更具有优越性，但是该方法模型过于复杂，无法实现快速实时的计算，并且由于其训练数据集的稀缺性，该方法的泛化性能仍存在未知性。由此可见，现有技术存在难以兼具运行速度与视觉质量的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种视频稳像方法及系统，用以解决现有技术无法以无法在保证视觉质量的前提下以较快的运行速度实现视频稳像的技术问题。

为了实现上述目的，第一方面，本发明提供了一种视频稳像方法，包括以下步骤：

S1、将待处理的抖动视频按照预设采样间隔进行采样，得到采样视频；对采样视频进行分段，得到采样视频的各子段视频；

S2、依次对采样视频的各子段视频和抖动视频中各采样间隔时间段内的子段视频，分别进行以下操作，得到抖动视频中所有的相邻帧的光流场以及对应的掩膜：

将各子段视频分别输入到光流预测网络中，得到各子段视频相邻帧以及首尾帧之间的光流场以及对应的置信度图；分别对各置信度图进行二值化，得到对应的掩膜；

对各子段视频相邻帧之间的掩膜按照时间轴顺序进行排列，得到掩膜序列，并将首尾帧之间的掩膜作为掩膜序列中的最后一项；对掩膜序列中的各掩膜从后往前依次执行：基于当前掩膜对应的光流场对其进行重投影，并与其前一个掩膜进行与操作，以对其前一个掩膜进行更新；

S3、将所述抖动视频中所有的相邻帧的光流场以及对应的掩膜输入到预训练好的相机位姿回归网络中，得到抖动视频中所有相邻帧之间的相机轨迹参数；对各相机轨迹参数进行平滑操作，并采用平滑操作后的各相机轨迹参数对所述抖动视频进行稳像，得到稳定视频；

其中，相机位姿回归网络包括：特征提取模块、相机轨迹参数预测模块和光流场更新模块；

特征提取模块用于将输入的光流场和对应的掩膜按照通道进行拼接，得到融合图，并提取融合图的特征图；

相机轨迹参数预测模块用于将特征图映射为相机轨迹参数，并输出至光流场更新模块中；当迭代次数达到预设迭代次数时，将此时的相机轨迹参数作为相机位姿回归网络的输出；

光流场更新模块用于当当前迭代次数小于预设迭代次数时，基于相机轨迹参数对输入的光流场进行更新操作，将当前迭代次数加一，并将更新后的光流场重新输入到特征提取模块中。

进一步优选地，上述光流场更新模块采用以下公式基于相机轨迹参数对光流场进行更新：

Y_k＝Y_k-(S_k·R_k·V+T_k)

其中，Y_k为第k对相邻帧的光流场；S_k为第k对相邻帧的光流场所对应的缩放矩阵，具体为

R_k为第k对相邻帧的光流场所对应的旋转矩阵，具体为

为预设图像坐标网格，h为预设图像坐标网格的大小；T_k为平移矩阵，

s_k为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的尺度因子；θ_k为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的旋转角度；

为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的x轴偏置；

为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的y轴偏置。

进一步优选地，相机轨迹参数预测模块用于将特征图在通道维度上进行加权求和后，经由全连接层进行映射后，得到相机轨迹参数。

进一步优选地，相机位姿回归网络的训练方法包括：将相机位姿回归训练集输入到相机位姿回归网络中，通过同时最小化相机位姿回归网络输出的相机轨迹参数与其真值之间的差异、以及对预设图像坐标网格分别采用相机位姿回归网络输出的相机轨迹参数和相机轨迹参数真值进行图像变换操作后的图像变换矩阵之间的差异，对相机位姿回归网络中的参数进行更新；

其中，相机位姿回归训练集包括：抖动的视频以及对应的稳定视频的相机轨迹参数真值。

进一步优选地，上述相机位姿回归网络的损失函数L_stab为：

L_stab＝L_gt+λ_gridL_grid

其中，λ_grid为网格损失误差权值；λ_θ为角度参数误差权值；λ_s为尺度参数误差权值；λ_t为平移参数权值；θ、s、d_x和d_y均为相机轨迹参数；θ为旋转角度；s为尺度因子；d_x为x轴偏置；d_y为y轴偏置；

为旋转角度真值；

为尺度因子真值；

为x轴偏置真值；

为y轴偏置真值；S为缩放矩阵，具体为

R为旋转矩阵，具体为

为预设图像坐标网格，h为预设图像坐标网格的大小；T为平移矩阵，

为缩放矩阵真值；

为旋转矩阵真值；

为平移矩阵真值；∈为预设参数。

进一步优选地，上述视频稳像方法还包括：在步骤S3之后执行的步骤S4，具体包括：

基于相机轨迹参数对抖动视频中所有的相邻帧的光流场进行更新，得到稳定视频中所有相邻帧的光流场；

采用步长为m的滑动窗口对稳定视频进行采样，得到多个长度为N的稳定子段视频；

将每一个稳定子段视频中的所有相邻帧的光流场和对应的掩膜输入到光流平滑网络中，得到稳定子段视频中前N-1帧所对应的光流翘曲场；

对稳定视频的前m帧图像分别采用对应的光流翘曲场进行重投影，从而对稳定视频进一步进行像素级别的稳像；

其中，光流平滑网络的结构为跨连的U-Net网络结构，通过最小化掩膜区域的光流值训练得到。

进一步优选地，上述步骤S4中采用以下公式基于相机轨迹参数对抖动视频中所有的相邻帧的光流场进行更新：

Y_k＝H_k+1·[V+Y_k|1]-H_k·[V|1]

其中，Y_k为抖动视频中第k对相邻帧的光流场；

为预设图像坐标网格，h为预设图像坐标网格的大小；H_k为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数所对应的图像变换矩阵，具体为：

为当输入抖动视频中第k对相邻帧的光流场时光流预测网络预测得到的相机轨迹参数中的y轴偏置；[·|1]表示齐次坐标表达。

进一步优选地，上述视频稳像方法还包括：在步骤S4之后执行的步骤S5，具体包括：

分别对步骤S4所得的稳定视频中的每一帧图像，利用相邻帧的像素填补其缺失像素区域，得到每一帧图像的全帧图像，进而得到全帧的稳定视频；

其中，获取每一帧图像的全帧图像的方法，包括：

S51、将当前帧图像作为目标图像，前、后p帧图像分别作为其源图像，构成2p组图像对；分别对各图像对执行以下操作：

将图像对输入到光流预测网络中，得到图像对所对应的光流场和置信度图，并获取目标图像去掉黑边后的掩膜和置信度图之间的交集，得到图像对所对应的掩膜M_valid；

将图像对所对应的光流场和掩膜M_valid输入到光流外推网络中，得到第一扩展光流场；

将源图像根据第一扩展光流场进行重投影，得到第一投影图；

计算目标图像与第一投影图之间的共有区域，并将共有区域以外的非共有区域分别从目标图像和第一投影图中裁剪出来，得到目标非共有区域图和投影非共有区域图；

将目标非共有区域图和投影非共有区域图之间的光流场、以及对应的掩膜M_valid输入到光流外推网络中，得到第二扩展光流场；

将投影非共有区域图根据第二扩展光流场进行重投影，得到第二投影图；

计算目标非共有区域图与第二投影图之间的残差图，并通过漫水法从中心向外进行递推，得到目标掩膜；

基于目标掩膜将目标图像和第二投影图进行融合，通过保留目标图像中的目标掩膜区域，去除第二投影图中的目标掩膜区域后进行叠加，得到图像对的拼接图；

S52、分别计算各图像对的拼接图中的有效区域面积、误对齐区域面积以及IoU比值；按照误对齐区域面积对各拼接图由小到大进行排序，并在误对齐区域面积小于预设阈值η_u、IoU比值大于预设阈值η_r以及有效区域面积大于预设阈值η_s的约束条件下，得到各拼接图中的融合区域；对各拼接图中相邻的两个拼接图中的融合区域的重叠部分，采用最小割算法进行拼接，得到大FOV图像；采用图像内绘网络对大FOV图像中的无像素区域进行填补，得到当前帧图像的全帧图像；

其中，有效区域面积A^s为目标掩膜的面积；误对齐区域面积A^u为目标掩膜去除目标图像与第一投影图之间的共有区域后的剩余面积；IoU比值为A^u/(A^s+1)；

上述光流外推网络包括跳接的U-Net网络结构。

进一步优选地，上述光流外推网络的训练方法，包括：将光流外推训练集输入到光流外推网络中，通过同时最小化光流外推网络输出的扩展光流场与输入到光流外推网络中的光流场在掩膜区域内的差异、光流外推网络输出的扩展光流场与对应的真值光流场在非掩膜区域内的差异、以及光流外推网络输出的扩展光流场的频域幅值，对光流外推网络中的参数进行更新；

其中，光流外推训练集包括：带黑边的目标图像和源图像之间的光流场和掩膜、以及对应的不带黑边的目标图像和源图像的真值光流场。

进一步优选地，上述光流外推网络的损失函数L_outpaint为：

L_outpaint＝L_Y+λ_YL_F

其中，λ_in为掩膜区域内光流误差损失权值；Y_large为光流外推网络输出的扩展光流场；λ_out为掩膜区域外光流误差损失权值；Y_small为输入到光流外推网络中的光流场；M_valid为输入到光流外推网络中的掩膜；～M_valid为将M_valid中的值取反后的结果；

为真值光流场；

为归一化后的高斯图按其最大值倒置后的结果；

为Y_large的傅里叶频谱。

第二方面，本发明提供了一种视频稳像系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明第一方面所提供的视频稳像方法。

第三方面，本发明还提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现本发明第一方面所提供的视频稳像方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明提供了一种视频稳像方法，基于光流预测网络获得帧间光流场以及对应的置信度图，并利用置信度图反向传播寻找多帧共同的共享区域掩膜，从而得到多帧共享的背景区域；通过将视频稳像问题转化为不动点的优化问题，构建相机位姿回归网络，使其利用帧间共享背景区域的光流场，通过迭代得到最优的相机轨迹参数，平滑后对视频进行稳像；本发明通过端到端的相机位姿回归网络直接回归相邻帧之间的位姿变换参数，相比于传统的方法需要通特征检测、特征匹配、计算变换矩阵以及分解参数的复杂步骤，能够在保证视觉质量的前提下，以较快的运行速度实现视频稳像。

2、本发明所提供的视频稳像方法，在基于平滑后的相机轨迹参数对抖动视频进行稳像的基础上，进一步构建光流平滑网络，使其基于不动点理论优化像素轨迹到一条稳定的直线，从而实现对步骤S3所得的稳定视频进一步基于其光流图进行逐像素的轨迹优化，进而对抖动视频进行了像素级别的稳像，能够避免非中心区域产生畸变，进一步减小视频的抖动，使其更加稳定。另外，本发明也实现了端到端的网络设计，使得模型的运行效率也得到了大幅提升。

3、本发明所提供的视频稳像方法，在步骤S4的基础上进一步进行了基于多帧融合的图像渲染，通过构建光流外推网络来计算一连串相邻帧的非重叠区域的光流场，进而基于非重叠区域的光流场使用多帧融合的选择策略，利用相邻帧的像素填补目标图像缺失像素的区域，通过权衡每一帧的度量参数，得到具有大视野的目标帧，进而得到与原始输入相同分辨率的图像全帧图像，进一步提高了稳像后视频的视觉质量，不仅能够通过带掩膜的光流图高效快速地稳定抖动视频(平均一帧处理时间约为97ms)，同时也能够得到不需裁剪的全帧稳定视频。

附图说明

图1为本发明实施例1所提供的视频稳像方法的流程图；

图2为本发明实施例1所提供的相机位姿回归网络的结构示意图；

图3为本发明实施例1所提供的光流平滑网络的结构示意图；

图4为采用本发明实施例2所提供的视频稳定方法对抖动视频进行稳像后，跟踪一个固定的关键点在10帧图像中的关键点轨迹示意图；

图5为本发明实施例3所提供的光流外推网络的结构示意图；

图6为本发明实施例3所提供的图像对的拼接图的获取流程示意图；

图7为本发明实施例3所提供的第二投影图的结果示意图；

图8为本发明实施例3所提供的图像对的拼接图的结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1、

一种视频稳像方法，如图1所示，包括以下步骤：

S1、将待处理的抖动视频按照预设采样间隔进行采样，得到采样视频；对采样视频进行分段，得到采样视频的各子段视频；本实施例中，采样间隔取值为10；采样视频中各子段视频的帧数为5。

将各子段视频分别输入到光流预测网络中，得到各子段视频相邻帧以及首尾帧之间的光流场以及对应的置信度图；分别对各置信度图进行二值化，得到对应的掩膜；具体为：

其中，M_C为置信度图，δ_C为预设置信度阈值，本实施例中取值为0.5；

表示若M_C-δ_C大于0，则取值为1，否则，取值为0。进一步地，光流预测网络可以为PDC-Net、ProbNet、HD³F等。本实施例中光流预测网络采用PDC-Net，通过将子段视频中的相邻两帧分别作为源图像和目标图像，光流场表示将源图像映射到目标图像的位置偏移关系，对应的置信度图表示每个位置处光流场的可靠度。

利用置信度图反向传播寻找各子段视频中多帧图像共同的共享区域掩膜：对各子段视频相邻帧之间的掩膜按照时间轴顺序进行排列，得到掩膜序列，并将首尾帧之间的掩膜作为掩膜序列中的最后一项；对掩膜序列中的各掩膜从后往前依次执行：基于当前掩膜对应的光流场对其进行重投影，并与其前一个掩膜进行与操作，以对其前一个掩膜进行更新。需要说明的是，这里更新后的掩膜即为对应子段视频中的共享区域。

本实施例中，先对采样视频的各子段视频进行处理：将子段视频中的各帧图像构造成环状结构，将其第一帧与最后一帧图像相连，利用光流场Y将掩膜M从后向前反向传播得到多帧共同的共享区域的掩膜

并将掩膜M更新为掩膜

之后，在再对抖动视频中各采样间隔时间段内的子段视频按照同样的方式进行操作，在采样间隔时间段内部进行二次推理，获得待处理的抖动视频相邻帧的共享区域。

S3、将所述抖动视频中所有的相邻帧的光流场以及对应的掩膜输入到预训练好的相机位姿回归网络中，得到抖动视频中所有相邻帧之间的相机轨迹参数；对各相机轨迹参数进行平滑操作，并采用平滑操作后的各相机轨迹参数对所述抖动视频进行稳像，得到稳定视频；具体地，可以采用高斯滑窗函数、低通滤波器等对相机轨迹参数进行平滑操作；本实施例中，采用窗口大小为20移动高斯滤波器对相机轨迹参数进行平滑操作。基于平滑操作后的相机轨迹参数将每帧图像通过图像变换投影进行稳像，从而得到稳定视频。

需要说明的是，本实施例定义了一个图像变换函数T(·)，不动点优化问题表示为

其中，⊙表示哈达玛乘积。将图像变换函数T(·)转化为预测四个位置参数，分别是旋转角度θ、尺度因子s、x轴偏置d_x以及y轴偏置d_y，即T(·)∝{θ,s,d_x,d_y}。其中，每个参数对应不同的变换矩阵，包括旋转矩阵

缩放矩阵

平移矩阵

为了得到四个位置参数，将光流Y和掩膜M输入相机位姿回归网络Φ(·)，即{θ,s,d_x,d_y}＝Φ(Y,M)。

具体地，相机位姿回归网络包括：特征提取模块、相机轨迹参数预测模块和光流场更新模块；

相机轨迹参数预测模块用于将特征图映射为相机轨迹参数，并输出至光流场更新模块中；当当前迭代次数达到预设迭代次数时，将此时的相机轨迹参数作为相机位姿回归网络的输出；

光流场更新模块用于当当前迭代次数小于预设迭代次数(本实施例中取值为3)时，基于相机轨迹参数对输入的光流场进行更新操作，将当前迭代次数加一，并将更新后的光流场重新输入到特征提取模块中；其中，当前迭代次数初始化为1，在迭代的过程中加一。

具体地，光流场更新模块采用以下公式基于相机轨迹参数对光流场进行更新：

Y_k＝Y_k-(S_k·R_k·V+T_k)

R_k为第k对相邻帧的光流场所对应的旋转矩阵，具体为

进一步地，在一种可选实施方式下，相机位姿回归网络的结构如图2所示。相机位姿回归网络的输入是包含掩膜的光流图Y，目的是为了让网络只关注共享区域的光流，不受前景光流的干扰(比如，行人、车辆等)。通过一系列下采样卷积层之后，得到输入分辨率1/16倍的特征图。网络结构的卷积层均采用5x5卷积核(padding＝2，stride＝1)且通道数依次为8，32和64。除了最后一个卷积层没有激活函数和BN层外，其他卷积层均采用LeakyReLU激活函数(negative_slope＝0.1)。为了预测可靠的相机位姿，将低分辨率的特征图展开，并为每个特征向量预测一个权值，将不同特征向量加权求和，最终得到一个64维度的特征向量。在网络的尾部，通过四个全连接层，得到最终的四个图像变换参数{θ,s,d_x,d_y}。特别地，上述相机位姿回归网络将每次预测得到的结果用于更新输入的光流图

并将

再次送入网络修正变换参数{θ+Δθ,s·Δs,d_x+Δx,d_y+Δy}。通过多次迭代上述步骤，最终可以得到高可靠的图像变换参数。

为了训练优化上述相机位姿回归网络，本发明设计了多个损失函数共同监督，具体地，上述相机位姿回归网络的训练方法包括：将相机位姿回归训练集输入到相机位姿回归网络中，通过同时最小化相机位姿回归网络输出的相机轨迹参数与其真值之间的差异、以及对预设图像坐标网格分别采用相机位姿回归网络输出的相机轨迹参数和相机轨迹参数真值进行图像变换操作后的图像变换矩阵之间的差异，对相机位姿回归网络中的参数进行更新；其中，相机位姿回归训练集包括：抖动的视频以及对应的稳定视频的相机轨迹参数真值。

具体地，在一种可选实施方式下，上述相机位姿回归网络的损失函数L_stab为：

L_stab＝L_gt+λ_gridL_grid

其中，预测的相机轨迹参数与相机轨迹参数真值的L₁损失：

为了进一步地从整体变换角度监督估计参数，加入网格损失函数。具体的，给定一个固定的图像坐标网格

损失函数如下：

具体地，λ_grid为网格损失误差权值；λ_θ为角度参数误差权值；λ_s为尺度参数误差权值；λ_t为平移参数权值；θ、s、d_x和d_y均为相机轨迹参数；θ为旋转角度；s为尺度因子；d_x为x轴偏置；d_y为y轴偏置；

为旋转角度真值；

为尺度因子真值；

为x轴偏置真值；

为y轴偏置真值；S为缩放矩阵，具体为

R为旋转矩阵，具体为

为缩放矩阵真值；

为旋转矩阵真值；

为平移矩阵真值；∈为预设参数，是一个很小的值，用于保证L₁损失的稳定性，本实施例中取值为1e^-6。

本实施例中，在相机位姿回归网络的训练阶段，前6k次迭代时，λ_θ＝1.0，λ_s＝1.0，λ_t＝1.5，λ_grid＝2.0；剩余4k次迭代时，λ_θ＝2.0，λ_s＝8.0，λ_t＝1.0，λ_grid＝2.0。

实施例2、

实施例1将抖动视频通过图像变换进行了稳定，但是由于刚性变化的假设，会在非中心区域出现畸变，因此需要基于像素级对视频进行进一步增稳，以进一步减小视频的抖动，使其更加稳定。具体地，定义一个光流翘曲函数W(·)，不动点优化问题表示为

具体地，本实施例中的视频稳像方法是实施例1中的视频稳像方法的进一步扩展优化，在实施例1的基础上，本实施例所提供的视频稳像方法还包括：在实施例1中的步骤S3之后执行的步骤S4，具体包括：

S41、基于相机轨迹参数对抖动视频中所有的相邻帧的光流场进行更新，得到稳定视频中所有相邻帧的光流场；具体地，采用以下公式基于相机轨迹参数对抖动视频中所有的相邻帧的光流场进行更新：

Y_k＝H_k+1·[V+Y_k|1]-H_k·[V|1]

其中，Y_k为抖动视频中第k对相邻帧的光流场；

S42、采用步长为m的滑动窗口对稳定视频进行采样，得到多个长度为N的稳定子段视频；本实施例中，m取值为5，N取值为20；

S43、将每一个稳定子段视频中的所有相邻帧的光流场和对应的掩膜输入到光流平滑网络中，得到稳定子段视频中前N-1帧所对应的光流翘曲场；

S44、对稳定视频的前m帧图像分别采用对应的光流翘曲场进行重投影，从而对稳定视频进一步进行像素级别的稳像；

具体地，本实施例中，光流平滑网络基于不动点理论优化像素轨迹到一条稳定的直线，使用稳定视频中N帧对应的光流场F和掩膜M作为输入，输出中间N-1帧的光流翘曲场W，这里N选取20帧。如图3所示，光流平滑网络采用U-Net网络结构，通过跨连的卷积层以及上采样、下采样卷积结构，来抓取多帧之间的像素轨迹，使得同一个点在不同帧的轨迹趋于一条直线。在这过程中，光流平滑网络会为稳定子段视频中前N-1帧分别预测一个光流翘曲场；将光流翘曲场作用于对应帧上，可以实现像素级的图像映射，从而达到视频增稳的效果。本实施例中的光流平滑网络的卷积层均采用3x3卷积核且通道数依次为16，32，64和128。在上采样过程中，会借助下采样的特征层进行指导。除了最后一个卷积层没有激活函数外，其他卷积层均采用BN层和ReLU激活函数。

在光流平滑网络的训练过程中，通过自监督的损失函数来监督网络的学习：

其中，M_k趋使光流平滑网络只关注共享区域的轨迹变化，避免受到移动的前景物体干扰。特别地，W₀＝W_N＝0。

进一步的，如图4所示，通过跟踪一个固定的关键点在10帧中的位置(x,y)，可以观察到关键点的轨迹通过实施例2所提供的视频稳定方法稳定收敛到一个固定位置；其中，每两帧间隔5帧采样得到。

实施例3、

和现有的视频稳定方法一样，实施例2中的视频稳定方法在稳定视频的过程中，需要对得到的结果进行裁剪以去除由于图像变换带来的黑边，相较于原始输入视频，最终得到的稳定视频的分辨率会有所降低。因此，本实施例在实施例2的基础上进一步进行优化扩展，具体地，本实施例所提供的视频稳像方法还包括：在实施例2中的步骤S4之后执行的步骤S5，具体包括：

分别对步骤S4所得的稳定视频中的每一帧图像，利用相邻帧的像素填补其缺失像素区域，得到每一帧图像的全帧图像，进而得到全帧的稳定视频；具体地，通过使用一连串相邻的帧来对目标帧进行涂抹，使用多帧融合的选择策略，通过权衡每一帧的度量参数，得到具有大视野的目标帧，进而得到全帧图像。

其中，获取每一帧图像的全帧图像的方法，包括：

S51、将当前帧图像作为目标图像I^t，前、后p帧图像分别作为其源图像I^s，构成2p组图像对；如图6所示，分别对各图像对执行以下操作：

将图像对输入到光流预测网络中，得到图像对所对应的光流场Y_small和置信度图，并获取目标图像I^t去掉黑边后的掩膜和置信度图之间的交集，得到图像对所对应的掩膜M_valid；

将图像对所对应的光流场Y_small和掩膜M_valid输入到光流外推网络中，得到第一扩展光流场Y_large；

将源图像I^s根据第一扩展光流场Y_large进行重投影，得到第一投影图I^crop；

计算目标图像I^t与第一投影图I^crop之间的共有区域，并将共有区域以外的非共有区域分别从目标图像和第一投影图中裁剪出来，得到目标非共有区域图

和投影非共有区域图

将目标非共有区域图

和投影非共有区域图

之间的光流场、以及对应的掩膜输入到光流外推网络中，得到第二扩展光流场；

将投影非共有区域图

根据第二扩展光流场进行重投影，得到第二投影图

具体如图7所示；

计算目标非共有区域图

与第二投影图

之间的残差图，并通过漫水法从中心向外进行递推，得到目标掩膜

以识别目标非共有区域图与第二投影图的错位区域；

基于目标掩膜

将目标图像I^t和第二投影图

进行融合，通过保留目标图像中的目标掩膜区域，去除第二投影图中的目标掩膜区域后进行叠加，得到图像对的拼接图；具体地，图像对的拼接图为：

具体如图8所示，从图中可以看出，该方法可以很好的去除伪影和对齐误差。

S52、分别计算各图像对的拼接图中的有效区域面积、误对齐区域面积以及IoU比值；按照误对齐区域面积对各拼接图由小到大进行排序，并在误对齐区域面积小于预设阈值η_u(本实施例中取值为25×10³)、IoU比值大于预设阈值η_r(本实施例中取值为1.2)以及有效区域面积大于预设阈值η_s(本实施例中取值为2×10³)的约束条件下，得到各拼接图中的融合区域，以实现在多帧融合的时候尽可能用对齐效果好的帧作为融合帧；对各拼接图中相邻的两个拼接图中的融合区域的重叠部分，采用最小割算法进行拼接，最终得到融合多帧的大FOV图像；采用图像内绘网络对大FOV图像中的无像素区域进行填补，得到当前帧图像的全帧图像；

其中，有效区域面积A^s为目标掩膜的面积；误对齐区域面积A^u为目标掩膜去除目标图像与第一投影图之间的共有区域后的剩余面积；IoU比值为A^u/(A^s+1)。

进一步地，上述光流外推网络包括跳接的U-Net网络结构；本实施例中，光流外推网络的结构如图5所示，具体地，光流外推网络包含下采样层、若干卷积层、若干门控卷积层和上采样层，整体结构采用跳连的U-Net结构。网络的卷积层均采用3x3卷积核，激活函数均使用ReLU激活函数。使用门控卷积层，是为了让网络关注黑边区域的光流估计，可以根据已有的可靠的光流外推未知区域的光流，保证局部结构的一致性。网络的输出为新的光流图，即扩展光流图。在下采样和上采样过程中，分别使用3x3卷积核的Maxpooling函数和双线性上采样来完成。

上述光流外推网络的训练方法，包括：将光流外推训练集输入到光流外推网络中，通过同时最小化光流外推网络输出的扩展光流场与输入到光流外推网络中的光流场在掩膜区域内的差异、光流外推网络输出的扩展光流场与对应的真值光流场在非掩膜区域内的差异、以及光流外推网络输出的扩展光流场的频域幅值，对光流外推网络中的参数进行更新；其中，光流外推训练集包括：带黑边的目标图像和源图像之间的光流场和掩膜、以及对应的不带黑边的目标图像和源图像的真值光流场。

具体地，在一种可选实施方式下，上述光流外推网络的损失函数L_outpaint由两部分组成，分别是与真值的L₁损失和基于频域的损失函数，具体为：

L_outpaint＝L_y+λ_YL_F

其中，与真值的L₁损失L_Y负责监督预测光流在拓展区域的准确性以及保证掩膜区域要尽可能保留原始的光流值，因此损失函数L_Y分别对两块区域计算损失，具体为：

为了鼓励低频和平滑的Y_large，增加了频域中的损失L_F：

具体地，λ_in为掩膜区域内光流误差损失权值；Y_large为光流外推网络输出的扩展光流场；λ_out为掩膜区域外光流误差损失权值；Y_small为输入到光流外推网络中的光流场；M_valid为输入到光流外推网络中的掩膜；～M_valid为将M_valid中的值取反后的结果；

为真值光流场；

为归一化后的高斯图(本实施例中μ＝0，σ＝3)按其最大值倒置后的结果；

为Y_large的傅里叶频谱。

本实施例中，在光流外推网络训练过程中的前10k次迭代中λ_Y＝10.0，λ_in＝2.0，λ_out＝1.0；在剩余的10k次迭代中λ_Y＝0.0，λ_in＝0.6，λ_out＝1.0。

综上，本实施例公开了一种基于不动点迭代优化和神经网络结构的全帧视频稳像方法，该方法包括：利用光流估计网络获得帧间光流图以及对应的置信度图，利用置信度图反向传播寻找多帧共同的共享区域掩膜；相机位姿回归网络利用帧间共享区域的光流图，通过迭代得到最优的位姿参数，并利用高斯滑窗函数对相机轨迹平滑，利用平滑的位姿参数对视频进行预稳像；光流平滑网络利用预稳像之后的光流图进行逐像素的轨迹优化，获得稳定的视频；多帧融合算法通过光流外推网络，利用相邻帧的像素填补稳定视频帧的缺失像素区域，获得全帧的稳定视频。本发明不仅能够通过带掩膜的光流图高效快速地稳定抖动视频(平均一帧处理时间约为97ms)，同时能够得到不需裁剪的全帧稳定视频。

需要说明的是，上述各实施例中所采用的相机位姿回归网络、光流平滑网络和光流外推网络含有需要学习的参数，这些网络的训练需要人工合成数据集，具体步骤如下：

使用DPED，CityScapes和ADE-20K数据集中的图片合成人工视频，包括稳定视频与对应的抖动视频。为了生成一个稳定的视频，选取一张图，随机生成一组仿射变换参数。最大旋转角度θ被设定为10°。缩放的范围s被设置为0.7～1.3。x和y方向上的最大平移量(d_x,d_y)分别为100和70。然后，将这些变换参数平均分成N份，得到N个帧的视频，

其中，f_k表示第k帧图，I表示输入的图片。为了模拟真实场景中移动物体的存在，稳定的视频被进一步增加了额外的独立移动的随机物体。为此，这些物体从COCO数据集中取样，并使用它们的分割掩码插入到合成视频帧的顶部。具体来说，我们随机选择q个物体(q不超过5个)，并为每个物体生成独立于背景变换的仿射变换参数。将每个前景物体从一个随机选择的位置转换到相应的帧上，最后将图像围绕其中心裁剪为720×480分辨率。同时，对于每个网络的训练，将人工合成视频分为训练集和验证集，训练网络学习参数。本发明值的人工合成数据集的构建方法，将现实场景中的物体间的遮挡以及前景与背景之间的独立运动关系纳入到数据集的制备中，从而使得网络在现实场景中的应用更加稳定和鲁棒。

实施例4、

一种视频稳像系统，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行本发明实施例1、实施例2和/或实施例3所提供的视频稳像方法。

相关技术方案同本发明实施例1-3，这里不做赘述。

实施例5、

一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现本发明实施例1、实施例2和/或实施例3所提供的视频稳像方法。

相关技术方案同本发明实施例1-3，这里不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频稳像方法，其特征在于，包括以下步骤：

S1、将待处理的抖动视频按照预设采样间隔进行采样，得到采样视频；对所述采样视频进行分段，得到所述采样视频的各子段视频；

S2、依次对所述采样视频的各子段视频和所述抖动视频中各采样间隔时间段内的子段视频，分别进行以下操作，得到所述抖动视频中所有的相邻帧的光流场以及对应的掩膜：

对各子段视频相邻帧之间的掩膜按照时间轴顺序进行排列，得到掩膜序列，并将首尾帧之间的掩膜作为所述掩膜序列中的最后一项；对所述掩膜序列中的各掩膜从后往前依次执行：基于当前掩膜对应的光流场对其进行重投影，并与其前一个掩膜进行与操作，以对其前一个掩膜进行更新；

其中，所述相机位姿回归网络包括：特征提取模块、相机轨迹参数预测模块和光流场更新模块；

所述特征提取模块用于将输入的光流场和对应的掩膜按照通道进行拼接，得到融合图，并提取融合图的特征图；

所述相机轨迹参数预测模块用于将所述特征图映射为相机轨迹参数，并输出至所述光流场更新模块中；当迭代次数达到预设迭代次数时，将此时的相机轨迹参数作为相机位姿回归网络的输出；

所述光流场更新模块用于当当前迭代次数小于预设迭代次数时，基于所述相机轨迹参数对输入的光流场进行更新操作，将当前迭代次数加一，并将更新后的光流场重新输入到所述特征提取模块中。

2.根据权利要求1所述的视频稳像方法，其特征在于，所述光流场更新模块采用以下公式基于相机轨迹参数对光流场进行更新：

Y_k＝Y_k-(S_k·R_k·V+T_k)

R_k为第k对相邻帧的光流场所对应的旋转矩阵，具体为

3.根据权利要求1所述的视频稳像方法，其特征在于，所述相机轨迹参数预测模块用于将特征图在通道维度上进行加权求和后，经由全连接层进行映射后，得到相机轨迹参数。

4.根据权利要求1所述的视频稳像方法，其特征在于，所述相机位姿回归网络的训练方法包括：将相机位姿回归训练集输入到所述相机位姿回归网络中，通过同时最小化所述相机位姿回归网络输出的相机轨迹参数与其真值之间的差异、以及对预设图像坐标网格分别采用所述相机位姿回归网络输出的相机轨迹参数和相机轨迹参数真值进行图像变换操作后的图像变换矩阵之间的差异，对所述相机位姿回归网络中的参数进行更新；

其中，所述相机位姿回归训练集包括：抖动的视频以及对应的稳定视频的相机轨迹参数真值。

5.根据权利要求4所述的视频稳像方法，其特征在于，所述相机位姿回归网络的损失函数L_stab为：

L_stab＝L_gt+λ_gridL_drid

为旋转角度真值；

为尺度因子真值；

为x轴偏置真值；

为y轴偏置真值；S为缩放矩阵，具体为

R为旋转矩阵，具体为

为缩放矩阵真值；

为旋转矩阵真值；

为平移矩阵真值；∈为预设参数。

6.根据权利要求1-5任意一项所述的视频稳像方法，其特征在于，还包括：在所述步骤S3之后执行的步骤S4；

所述步骤S4包括：

基于所述步骤S3中所得的各相机轨迹参数对抖动视频中所有的相邻帧的光流场进行更新，得到所述稳定视频中所有相邻帧的光流场；

对稳定视频的前m帧图像分别采用对应的光流翘曲场进行重投影，从而对所述稳定视频进一步进行像素级别的稳像；

其中，所述光流平滑网络的结构为跨连的U-Net网络结构，通过最小化掩膜区域的光流值训练得到。

7.根据权利要求6所述的视频稳像方法，其特征在于，所述步骤S4中采用以下公式基于相机轨迹参数对抖动视频中所有的相邻帧的光流场进行更新：

Y_k＝H_k+1·[V+Y_k|1]-H_k·[V|1]

其中，Y_k为抖动视频中第k对相邻帧的光流场；

8.根据权利要求6所述的视频稳像方法，其特征在于，还包括：在所述步骤S4之后执行的步骤S5；

所述步骤S5包括：

分别对所述步骤S4所得的稳定视频中的每一帧图像，利用相邻帧的像素填补其缺失像素区域，得到每一帧图像的全帧图像，进而得到全帧的稳定视频；

其中，获取每一帧图像的全帧图像的方法，包括：

将源图像根据所述第一扩展光流场进行重投影，得到第一投影图；

计算目标图像与所述第一投影图之间的共有区域，并将所述共有区域以外的非共有区域分别从目标图像和所述第一投影图中裁剪出来，得到目标非共有区域图和投影非共有区域图；

将所述目标非共有区域图和所述投影非共有区域图之间的光流场、以及对应的掩膜M_valid输入到所述光流外推网络中，得到第二扩展光流场；

将所述投影非共有区域图根据所述第二扩展光流场进行重投影，得到第二投影图；

计算所述目标非共有区域图与所述第二投影图之间的残差图，并通过漫水法从中心向外进行递推，得到目标掩膜；

基于所述目标掩膜将目标图像和所述第二投影图进行融合，通过保留目标图像中的目标掩膜区域，去除所述第二投影图中的目标掩膜区域后进行叠加，得到图像对的拼接图；

S52、分别计算各图像对的拼接图中的有效区域面积、误对齐区域面积以及IoU比值；按照误对齐区域面积对各拼接图由小到大进行排序，并在误对齐区域面积小于预设阈值η_u、IoU比值大于预设阈值η_r以及有效区域面积大于预设阈值η_s的约束条件下，得到各拼接图中的融合区域；对各拼接图中相邻的两个拼接图中的融合区域的重叠部分，采用最小割算法进行拼接，得到大FOV图像；采用图像内绘网络对所述大FOV图像中的无像素区域进行填补，得到当前帧图像的全帧图像；

其中，所述有效区域面积A^s为所述目标掩膜的面积；所述误对齐区域面积A^u为所述目标掩膜去除目标图像与所述第一投影图之间的共有区域后的剩余面积；IoU比值为A^u/(A^s+1)；

所述光流外推网络包括跳接的U-Net网络结构，其训练方法，包括：将光流外推训练集输入到光流外推网络中，通过同时最小化所述光流外推网络输出的扩展光流场与输入到所述光流外推网络中的光流场在掩膜区域内的差异、所述光流外推网络输出的扩展光流场与对应的真值光流场在非掩膜区域内的差异、以及所述光流外推网络输出的扩展光流场的频域幅值，对所述光流外推网络中的参数进行更新；

所述光流外推训练集包括：带黑边的目标图像和源图像之间的光流场和掩膜、以及对应的不带黑边的目标图像和源图像的真值光流场。

9.根据权利要求8所述的视频稳像方法，其特征在于，所述光流外推网络的损失函数L_outpaint为：

L_outpaint＝L_Y+λ_YL_F

其中，λ_in为掩膜区域内光流误差损失权值；Y_large为光流外推网络输出的扩展光流场；λ_out为掩膜区域外光流误差损失权值；Y_small为输入到光流外推网络中的光流场；M_calid为输入到光流外推网络中的掩膜；～M_valid为将M_valid中的值取反后的结果；

为真值光流场；

为归一化后的高斯图按其最大值倒置后的结果；

为Y_large的傅里叶频谱。

10.一种视频稳像系统，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行权利要求1-9任意一项所述的视频稳像方法。