CN111901532B

CN111901532B - 基于循环神经网络迭代策略的视频稳定方法

Info

Publication number: CN111901532B
Application number: CN202011054088.7A
Authority: CN
Inventors: 李恒; 谢浩鹏; 肖亮
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-25
Anticipated expiration: 2040-09-30
Also published as: CN111901532A

Abstract

本发明公开了一种基于循环神经网络迭代策略的视频稳定方法，该方法包括：用抖动视频采集及稳定化处理硬件装置捕获成对视频数据；对采集的视频流样本进行预处理；设计并构造端到端的基于循环神经网络帧内与帧间迭代策略的全卷积深度神经网络；将预处理后的训练数据输入到循环神经网络中，使用四种损失的线性加权引导网络参数的训练过程，得到训练完成的模型；将低质抖动测试视频输入到训练好的神经网络中，得到目标视频的稳定版本。本发明通过循环神经网络的迭代策略在时间序列上，为每一个当前视频帧传递历史运动状态信息，增强了网络对于抖动序列帧信息的感知能力，从而更加精准的预测稳定画面。

Description

基于循环神经网络迭代策略的视频稳定方法

技术领域

本发明属于遥感图像处理技术领域，特别是一种基于循环神经网络迭代策略的视频稳定方法。

背景技术

遥感高光谱图像超分辨是目前应用广泛且热门的研究领域。视频作为图像的一种时序组合表达方式，很多视频处理算法对于一些低质量视频（模糊、躁点、画面抖动、光线不足）的鲁棒性不高，所以视频质量是考验视频处理算法性能的关键。而视频稳像可以作为这些算法的预处理步骤，通过提高视频画面质量来进一步提高算法性能。经过稳定之后的视频才可以更好的应用于超分辨、分类等各种视觉任务。

传统主流的视频稳像方法是基于多视图几何的图像处理方法，按照运动估计的不同可以细分为二维单应估计、三维运动重建、特征轨迹表示或者上述方法的混合方式。例如，何等人通过一种混合方法，首先用二维方法进行预稳定，再利用三维技术场景中稀疏点云和摄像机参数，来拟合摄像机轨迹的平滑二次曲线路径，最后根据新的摄像机参数，在预稳定和二维运动信息的约束下得到最终的稳定视频（何发智等. "一种二维三维混合的视频稳定方法." CN.）。Beysserie等人使用一种缓冲技术，使得当前帧还可以参照未来帧来调节稳定强度参数或加权参数。（Beysserie X, Sebastien, Zhou, Jianping, and BenSoussan, Stephane S. "Video image stabilization with enforced stabilizationconstraints." (2017).）这些传统方法遵循“估计->平滑->扭曲”的步骤来完成视频画面的稳定。然而从图像序列中估计镜头路径这本身就是一项挑战性难题，传统方法非常依赖于视频帧质量，当画面内容出现大视差、低光照、高模糊、快速运动等问题时这些传统稳像方法便可能失败。

近年来，随着神经网络在计算机视觉领域的兴起，一些基于卷积神经网络的方法用深度网络直接学习不稳定帧到稳定帧的扭曲变换，从而巧妙的避开了传统稳像方法流程中路径估计的难题。例如Wang等人构建了一个孪生编码结构的ConvNet网络来预测输入不稳定帧的单应射影变换，并且提出了一种硬件结构来捕获用于训练的视频稳定数据集（Wang, Miao, et al. Deep online video stabilization with multi-grid warpingtransformation learning[J]. IEEE Transactions on Image Processing 28.5(2018): 2283-2292.）。又比如，Zhao等人使用基于CNN的多级级联编解码的孪生网络来估计像素级的扭曲映射，取得了较好的效果（Zhao M, Ling Q. PWStableNet: LearningPixel-Wise Warping Maps for Video Stabilization[J]. IEEE Transactions onImage Processing, 2020, 29: 3582-3595.）。然而这些深度视频稳定方法仅仅将相邻时序视频帧在输入通道维度上进行堆叠，再设计时间正则化项来让卷积网络学习帧间运动的相干性，但是这种方法并不能很好的利用相邻帧的时序信息。

发明内容

本发明的目的在于提供一种基于循环神经网络迭代策略的视频稳定方法。

实现本发明目的的技术方案为：一种基于循环神经网络迭代策略的视频稳定方法，包括如下步骤：

步骤1，采用抖动视频采集及稳定化处理硬件装置来获取成对视频数据，用于深度网络的训练；捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频，构成端对端的视频数据集样本；

步骤2，对采集的视频流样本进行预处理，包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化；

步骤3，将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合，构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络；该网络通过帧间迭代和帧内迭代策略更新隐藏状态，并按照时间顺序传递视频帧的运动状态信息；

步骤4，将预处理后的训练数据集输入到循环神经网络中，利用四种不同作用损失函数的线性加权作为网络最终的损失，来引导网络的训练过程；

步骤5，将待稳定的测试视频输入到训练好的网络中，得到低质抖动视频的预测稳定版本。

进一步的，步骤1中采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据；其中一个视频捕获设备使用手持云台稳定装置进行稳定化处理，另外一个视频捕获设备则通过固定支架与手柄连接，从而保持与原始手部运动的一致，得到低质抖动视频；该硬件装置实时采集低质抖动视频和硬件稳定化后的稳定视频数据，构成端对端的视频数据集样本。

进一步的，步骤2中将采集的视频流成对样本的每一帧画面在时间序列上对齐，并通过剪裁来消除差异；再将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容进行类别划分与标注；最后将所有视频帧缩放到256像素大小的相同尺度，并进行亮度归一化，作为后续网络的输入。

进一步的，步骤3中构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络；该网络通过帧间迭代和帧内迭代策略更新隐藏状态，并按照时间顺序传递视频帧的运动状态信息，来预测最终的稳定画面；低质抖动视频帧序列在网络前向传播的过程如下：

首先用零初始化两个隐藏状态

和

；在当前时间步t下，将预处理后训练集中的抖动视频帧序列

中的

输入到特征编码器

中，用多层卷积结构提取抖动帧画面

中更深层次的特征信息

；之后结合上一个时间步的隐藏状态

、

，在记忆选择器

的门控单元上应用卷积操作来分别计算输入门状态

、遗忘门状态

、输出门状态

和输入数据

，其中

和

代表各卷积操作的参数；最后计算当前不稳定帧

的中间稳定状态

和

，公式如下：

再使用参数回归器

，在中间稳定状态

和

中回归一个

的矢量

，作为扭曲画面的

单应变换矩阵

除尺度变量外的前8个参数；稳定画面

由如下数学模型计算而得：

其中*表示扭曲映射；之后对稳定画面

进行裁剪和缩放，来消除由扭曲引入的无意义黑色边界，得到最后的稳定结果；

然后将中间稳定状态

和

送入与特征编码器

跳跃链接的帧解码器

中，从残差特征中恢复原始不稳定帧

的一个稳定版本

；之后开始帧内迭代策略，将稳定版本

再次送入特征编码器和记忆选择器中来获得更深层次特征信息

以及更新之后的隐藏状态

和

，用来传递给下一个时间步，从而结束帧内迭代；

最后跳入进入下一个时间步，重复上述步骤，完成帧间迭代，获得抖动视频帧序列

的预测稳定序列

。

进一步的，步骤4中将预处理后的训练数据集输入到循环神经网络中，利用四种不同作用损失函数的线性加权作为网络最终的损失，来引导网络的训练过程；像素对齐损失

的计算模型如下，其中C、W、H分别表示输入图像的通道数，宽度和高度尺寸，将预测的扭曲变换

应用于原始帧

后计算其与地面真值稳定帧

之间的均方误差：

之后使用特征提取算法在帧

和

中提取的

对匹配特征点

和

。将预测的扭曲变换

应用于特征点

，按照如下公式计算特征对齐损失

：

再利用预训练的深度卷积网络

，从输入图像数据中提取深层次的特征信息，作为高频特征提取器，来计算扭曲后的预测稳定帧与地面真值稳定帧

之间的相似性，感知损失

的计算公式为：

然后把前一个时间步下预测的稳定帧

用光流扭曲算法

，扭曲到当前时间步t下，来计算时间损失

，使相邻帧的过度更加平滑，其公式如下：

最后将计算的四种损失函数加权求和，作为循环神经网络的最终损失

，监督网络的训练过程；其计算公式如下：

其中

、

和

是各损失的加权参数，调整加权参数大小，使得各种损失对网络训练的约束能力相当；

在网络的训练阶段，使用正态分布初始化网络权重；动态调整学习率使网络的损失趋于收敛；训练结束之后，得到用于视频稳定的循环神经网络。

本发明与现有技术相比，其显著特点在于：（1）本发明通过一个抖动视频采集及稳定化处理硬件装置可以同时捕获目标场景的低质抖动视频和稳定化视频，为神经网络的训练提供数据支持；（2）对视频数据集进行类别划分，使网络训练过程具有针对性，增加应对复杂情况下视频处理的鲁棒能力；（3）利用帧间迭代和帧内迭代策略，使帧间运动信息在时间序列上进行传递，大幅度提升预测扭曲参数的精度；（4）本发明方法适用于任意低质量视频画面；并且本方法没有使用未来帧序列信息辅助视频稳定过程，符合实时稳定的标准；（5）本发明通过循环神经网络的迭代策略在时间序列上，为每一个当前视频帧传递历史运动状态信息，增强了网络对于抖动序列帧信息的感知能力，从而更加精准的预测稳定画面；（6）本发明利用按照不同运动内容标注分类后的视频数据集，来提高模型对于挑战性环境下复杂运动产生的抖动视频稳定的鲁棒能力，从而达到对于低质量视频更好的稳定效果。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是基于循环神经网络迭代策略的视频稳定方法的主流程图。

图2是对采集的视频流样本进行预处理的流程图。

图3是低质抖动视频帧序列在循环神经网络网络前向传播的流程图。

图4是网络训练流程图。

图5是抖动视频采集及稳定化处理硬件装置线条结构图。

图6是类别标注后的各类视频缩略图，其中图6中的（a）~图6中的（i）分别为简单、跑步、快速旋转、交通工具、大视差、不连续深度、近距离遮挡、人群、低质量视频缩略图。

图7为稳定前后运动轨迹及其对比示意图，其中图7中的（a）是抖动视频相机运动轨迹的近似估计图，图7中的（b）是稳定化视频相机运动轨迹的近似估计图，图7中的（c）是稳定前后运动轨迹的对比图。

具体实施方式

本发明将遥感图像处理技术与深度学习相结合，提供一种基于循环神经网络迭代策略的视频稳定方法，实现对于抖动序列图像的稳定以及画面质量的提高。循环神经网络可以在长时间序列上传递视频帧之间的运动状态，并为当前帧扭曲提供参考，使得稳定后的画面更加连贯清晰。该方法思路简单明确，避免了因丢失帧间时序关系而导致的不真实的抖动伪影，通过循环神经网络的迭代策略更新所学的隐藏状态，从而有效地提高了稳定的效果。

结合图1，详细说明本发明方法的主流程步骤：

步骤1：采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据，用于深度网络的训练；捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频，构成端对端的视频数据集样本；其具体步骤如下：

步骤11，如图5所示，准备如下硬件设备：其中6为两部型号相同的摄像设备，一个手持云台稳定器包含云台转动轴7和云台电机8以及足够长度的固定支架9；

步骤12，开启摄像镜头，保持两个设备在同一竖直平面；

步骤13，用手持云台稳定化装置对一个摄像设备进行稳定，获取稳定视频画面。另外一个摄像设备通过固定支架连接在手柄上，与原始手部运动保持一致，获得低质抖动视频；

步骤14，在不同环境内容、不同运动模式下同时采集成对的视频数据集样本；

步骤2：如图2所示，对采集的视频流样本进行预处理，包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化，具体步骤如下：

步骤21，将视频流样本的每一帧画面在时间序列上对齐，并通过剪裁的方式尽可能消除两个摄像设备由于微小视差带来的画面内容的不一致，剪裁后所有视频处理成为

像素大小；

步骤22，将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容分为以下九个类别：（1）简单（2）跑步（3）快速旋转（4）交通工具（5）大视差（6）不连续深度（7）近距离遮挡（8）人群（9）低质量，进行类别标注，除“简单”和“低质量”有30组视频以外，其他类别各有10组，视频缩略图如图6所示。随后按照9:1的比例将视频数据集划分为训练集与测试集；

步骤23，将分类后视频中的每一帧图像的长宽缩放到256像素大小，并将原始RGB图像的亮度范围从（0～255）归一化至（0～1）范围内，以对应后续网络的输入；

步骤3：如图3所示，将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合，构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络；低质抖动视频帧序列在网络中前向传播的具体步骤如下：

步骤31，先用零初始化隐藏状态

和

。将预处理后训练集中的抖动视频帧序列

按照时间顺序输入循环神经网络中，设置训练的时间步长为20，并将每次训练序列的第一帧复制

次，放在序列头部，以获得一个相对静止的初始运动状态，让后续帧序列的隐藏状态拥有足够的缓冲时间；

步骤32，在当前时间步t下，将预处理后训练集中的抖动视频帧序列

中的

输入到特征编码器

中，经过卷积核大小不同的三个Conv-BatchNorm-LeakyRelu-MaxPool组合以及最后一个拓展特征通道的卷积操作，在以

为尺寸的输入彩色帧中提取大小为

的更深层次特征信息

；

步骤33，将步骤32得到的特征信息

结合上一个时间步传递的隐藏状态

、

，在记忆选择器

的门控单元上应用卷积操作来分别计算输入门状态

、遗忘门状态

、输出门状态

和输入数据

，其中

和

代表各卷积操作的参数。最后计算当前不稳定帧

的中间稳定状态

和

，公式如下：

由于上式中的卷积计算过程大多一致，因此我们可以使用单个卷积层的多个滤波器卷积核方式，完成所有门控状态的计算。我们将利用缓慢变化的

在帧间传递镜头的运动状态，以消除高频抖动噪声带来的突变。而

则负责从运动状态

与特征信息

中进行“选择性输出”，所以

在不同的时间步单元下往往会非常不同，从而分析出适用于当前帧画面的目标稳定状态。

步骤34，使用一个参数回归器

，把中间状态

和

经过一个平均池，来移除所有层，得到一个

的特征映射。再经过核大小为

的conv层来回归一个

的矢量

，作为

单应变换矩阵

除最后一个尺度变量以外的前八个参数；

步骤35，将预测出的单应变换矩阵

应用于当前不稳定帧

来获得稳定画面

，公式如下：

其中*表示扭曲映射。对于稳定画面

中由于扭曲引入的无意义黑色边界，我们在尽可能保持画面内容的情况下，对稳定画面

进行裁剪和缩放，得到最后的稳定结果；

步骤36，将步骤33得到的中间稳定状态

和

送入帧解码器

中。帧解码器

由与特征编码器对应的三个DeConv-Conv-BatchNorm-LeakyRelu-MaxPool操作和一个

卷积来组成，并且引入了跳跃链接方式，将编码器对应阶段的特征映射融合到当前阶段中，从残差特征中恢复原始不稳定帧

的一个稳定版本

；

步骤37，开始帧内迭代，把原始抖动帧画面

用稳定版本

代替，并重复步骤32以及步骤33，分别获得

的深层次特征信息

以及更新之后的隐藏状态

和

，用来传递给下一个时间步，以此完成帧内迭代；

步骤38，进入下一个时间步，开始帧间迭代，重复步骤32至步骤37，直到所有抖动帧序列都通过循环神经网络。最后获得抖动视频帧序列

的预测稳定序列

；

步骤4：如图4所示，将预处理后的训练数据集输入到循环神经网络中，利用四种不同作用损失函数的线性加权作为网络最终的损失，来引导网络在训练过程中获得更好的稳定能力，具体步骤如下：

步骤41，把网络预测的扭曲变换

应用于每个不稳定帧

，计算其与地面真值稳定帧

之间的均方误差，作为像素对齐损失

，其中C、W、H分别表示输入图像的通道数，宽度和高度尺寸：

来使预测稳定帧逼近地面真值；

步骤42，使用加速鲁棒特征（SURF）和随机一致性采样（RANSAC）作为特征检测算法在帧

和

中提取的

对匹配特征点

和

。将预测的扭曲变换

应用于特征点

，按照如下公式计算变换后的特征点坐标与地面真值帧的特征点

之间的平均对齐误差，作为特征对齐损失

：

步骤43，利用预先训练好的19层深度卷积神经网络（VGG19）提取预测稳定帧

与地面真值帧

之间的特征相似性，计算感知损失

：

步骤44，把前一个时间步下预测的稳定帧

用Lucas–Kanade算法计算稀疏光流，然后扭曲到当前时间步t下，计算时间损失

，公式如下：

其中

为光流扭曲。

步骤45，将步骤41至步骤44计算的四种损失函数加权求和，作为循环神经网络的最终损失

，以在网络的训练过程中帮助网络获得更好的稳定能力。其计算公式如下：

其中

、

和

是各损失的加权参数，调整加权参数大小，使得各种损失对网络训练的约束能力相当。

步骤46，在网络的训练阶段，使用正态分布初始化网络权重；动态调整学习率使网络的损失趋于收敛。本实施例中，使用

，

的正态分布来初始化网络权重；选择

，

参数设置下的Adam优化器作为网络的优化策略；初始学习率设置为0.002，每10轮乘以0.1；训练足够的轮数使网络的最终损失趋于收敛；

步骤47，获得最终训练好的用于视频稳定的循环神经网络。

步骤5：最后，将待稳定的测试视频输入到训练好的网络中，得到低质抖动视频的预测稳定版本。

本发明利用循环单元构成的链式结构可以在细胞单元之间传递时序状态信息的特性，在时间序列上学习并传递视频帧之间的运动状态，使网络对于时序信息有更好的理解，从而更加精准地预测最终稳定帧所需的扭曲参数，大幅度提升了模型对于低质量视频的稳定效果。

本发明的效果可通过以下仿真实验进一步说明：

（1）仿真内容

仿真实验采用的视频数据来自文献"Bundled camera paths for videostabilization." 的公开数据集。此视频数据集按照不同运动内容划分为6个类型，所有视频的长度在20～30秒之间，视频帧率大小为30FPS。在我们的实验中，我们选择了4个典型类别，包括常规（regular）、跑步（running）、视差（parallax）和人群（crowd），与另外两个深度学习视频稳定方法进行对比（StabNet和PWStableNet）。

本发明采用的评价指标是视频稳定工作中通用的三个客观指标，分别为剪裁率（cropping ratio, C）、失真度（distortion score, D）和稳定性评分（stability score,S），其中三个指标的范围为[0,1]，数值越大表示效果越好。

（2）仿真条件

仿真实验均在Linux系统安装的python3.7下完成，硬件测试条件为NVIDIAGeForce RTX 2080 Ti的GPU，显卡内存为11GB。

（3）仿真实验结果分析

我们将各种视频稳定方法对于上述视频数据集中四类视频的客观指标得分平均值相比较，其结果如表1所示。

表1 不同方法的视频稳定效果指标对比

通过表1可以看出，相比另外两个对比方法，本发明对奔跑、大视差等复杂场景下的抖动视频稳定有良好的鲁棒能力，在低质量视频中取得了更好的稳定效果。

并且本发明通过循环神经网络的迭代策略，在长时间序列上保留了历史运动状态信息，增强了网络对于抖动序列信息的感知能力，减少了画面的扭曲失真，在失真度指标上要略优于另外两种对比方法，再一次说明了本发明基于循环神经网络迭代策略视频稳定方法的有效性。

我们还将稳定前后的相邻帧做特征匹配进行拼接，并计算出画面中心点轨迹，作为相机运动轨迹的近似估计，如图7所示，图7中的（a）是抖动视频相机运动轨迹的近似估计图，图7中的（b）是稳定化视频相机运动轨迹的近似估计图。图7中的（c）为稳定前后运动轨迹的对比图，从图7中的（c）可以看出，本方法可以平滑相机运动的高频抖动，并且取得了良好的稳定效果。

Claims

1.一种基于循环神经网络迭代策略的视频稳定方法，其特征在于，该方法包括以下步骤：

像素对齐损失

应用于原始帧

后计算其与地面真值稳定帧

之间的均方误差：

之后使用特征提取算法在帧

和

中提取的

对匹配特征点

和

；将预测的扭曲变换

应用于特征点

，按照如下公式计算特征对齐损失

：

再利用预训练的深度卷积网络Net，从输入图像数据中提取深层次的特征信息，作为高频特征提取器，来计算扭曲后的预测稳定帧与地面真值稳定帧

之间的相似性，感知损失

的计算公式为：

然后把前一个时间步下预测的稳定帧

用光流扭曲算法

，扭曲到当前时间步t下，来计算时间损失

，使相邻帧的过度更加平滑，其公式如下：

，监督网络的训练过程；其计算公式如下：

其中

、

和

在网络的训练阶段，使用正态分布初始化网络权重；动态调整学习率使网络的损失趋于收敛；训练结束之后，得到用于视频稳定的循环神经网络；

2.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法，其特征在于，步骤1中采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据；其中一个视频捕获设备使用手持云台稳定装置进行稳定化处理，另外一个视频捕获设备则通过固定支架与手柄连接，从而保持与原始手部运动的一致，得到低质抖动视频；该硬件装置实时采集低质抖动视频和硬件稳定化后的稳定视频数据，构成端对端的视频数据集样本。

3.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法，其特征在于，步骤2中将采集的视频流成对样本的每一帧画面在时间序列上对齐，并通过剪裁来消除差异；再将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容进行类别划分与标注；最后将所有视频帧缩放到256像素大小的相同尺度，并进行亮度归一化，作为后续网络的输入。

4.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法，其特征在于，步骤3中构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络；该网络通过帧间迭代和帧内迭代策略更新隐藏状态，并按照时间顺序传递视频帧的运动状态信息，来预测最终的稳定画面；低质抖动视频帧序列在网络前向传播的过程如下：

首先用零初始化两个隐藏状态