CN110276739A

CN110276739A - 一种基于深度学习的视频去抖方法

Info

Publication number: CN110276739A
Application number: CN201910670613.9A
Authority: CN
Inventors: 凌强; 赵敏达; 李峰
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-09-24
Anticipated expiration: 2039-07-24
Also published as: CN110276739B

Abstract

本发明涉及一种基于深度学习的视频去抖方法，通过设计一个全卷积网络学习一个逐点的映射图，并根据这个映射图将抖动视角的像素点逐点映射到稳定视角。本发明提出的方法不再基于传统的特征匹配策略和单应矩阵估计，转而进行像素级的映射关系估计，这样的变换可以解决不连续的深度变化导致的局部不能用同一单应矩阵拟合的问题，从而在真实的视频中取得了更好的效果。同时本方法训练的深度网络具有更好的鲁棒性，尤其在处理低质量视频(如模糊视频、夜晚视频、含水印视频)时，具有比传统方法更好的效果。借助GPU并行处理的特性，本发明取得了比传统方法更快的处理速度，可以实现在线实时的视频去抖。

Description

一种基于深度学习的视频去抖方法

技术领域

本发明涉及一种基于深度学习的视频去抖方法，属于计算机视觉和视频去抖技术领域。

背景技术

近些年来，越来越多的摄像机被应用于现实生活中的各种场景，其中包括大量的便携可移动的摄像设备，手持设备由于人为抖动导致了摄录的视频质量的大幅度下降，剧烈的抖动造成了人感官上的不适。

普通的手持设备摄录视频去抖方法大致分为三类，2D,2.5D和3D方法。2D方法通常使用帧间矩阵序列进行相机运动的建模然后进行平滑【1】。3D方法对于视差的处理效果更好，通过运用运动恢复结构(Structure from Motion,SfM)进行相机路径的估计【2】，然后利用内容保持的扭曲变换(content-preserving warping)【3】进行平滑轨迹的重建。但3D方法耗时严重，并且当视差不明显时容易造成算法失效。2.5D方法结合了2D算法和3D算法的优势，Ling【4】使用通过建立时空约束将前景和背景轨迹结合用于抖动的估计并进行运动的平滑。但是其使用单个单应矩阵进行抖动视角到稳定视角的变换限制了其解决3D视频的能力。

进行年来，CNN在解决传统计算机视觉问题中取得了较大的成功，但是利用深度网络进行视频去抖的研究较少。仅有的研究是Wang等通过构建一个DeepStab数据集并搭建以Resnet为基础网络的深度网络来实现单应矩阵序列的回归预测【5】。同时其研究团队也提出了基于生成对抗网络进行单应矩阵估计的方法【6】。

以上方法在抖动帧到稳定帧映射时通常采用单个单应矩阵或基于固定分块的单应矩阵序列进行透视变换，导致了针对不连续的深度变化存在一定误差，因此对于复杂场景中深度不连续性较强的视频处理效果不佳，本发明采用深度学习的方式搭建网络直接进行逐像素的预测，生成和输入视频尺寸一致的映射图，并利用该映射图进行像素级的抖动帧到稳定帧的映射，因此增强了针对抖动视频的去抖能力。本发明在视频中存在较大视差时去抖性能提升更加显著。

【1】Chen B Y,Lee K Y,Huang W T,et al.Capturing Intention-based Full-Frame Video Stabilization[C]//Computer Graphics Forum.Blackwell PublishingLtd,2008,27(7):1805-1814.

【2】Hartley R,Zisserman A.Multiple view geometry in computer vision[M].Cambridge university press,2003.

【3】Liu F,Gleicher M,Jin H,et al.Content-preserving warps for 3D videostabilization[C]//ACM Transactions on Graphics(TOG).ACM,2009,28(3):44.

【4】Ling Q,Zhao M.Stabilization of Traffic Videos based on bothForeground and Background Feature Trajectories[J].IEEE Transactions onCircuits and Systems for Video Technology,2018:1-1.

【5】Wang M,Yang G Y,Lin J K,et al.Deep Online Video Stabilization WithMulti-Grid Warping Transformation Learning[J].IEEE Transactions on ImageProcessing,2018,28(5):2283-2292.

【6】Xu S Z,Hu J,Wang M,et al.Deep Video Stabilization UsingAdversarial Networks[C]//Computer Graphics Forum.2018,37(7):267-276.

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于深度学习的交通视频去抖方法，具有更快的处理速度，可以实现在线实时的视频去抖。

本发明技术解决方案：本发明的的基于深度学习的视频去抖方法，具体实现步骤如下：

Step1:训练阶段将连续的抖动帧序列作为网络的输入，将稳定的帧作为网络的输出进行有监督训练，生成带权重的深度网络；

Step2:测试阶段将连续的抖动帧序列作为网络的输入，生成像素级的映射图；

Step3:测试阶段通过Step2生成的映射图将抖动帧逐点映射生成稳定帧。

进一步的，上述基于深度学习的交通视频去抖方法中，所述Step1中训练阶段有监督训练方式如下：

采用如图2所示的孪生网络结构，该孪生网络的两个分支采用相同的全卷积网络结构，并共享参数。两个分支的输出为相邻的抖动帧序列:S_t＝{I_t-ω,…,I_t,…I_t+ω,}和S_t+1＝{I_t-ω+1,…,I_t+1,…I_t+ω+1,}。I_t表示t时刻的抖动帧。ω＝15表示去抖所考虑的邻域范围。网络的预测为与输入图像尺寸相同(记长和宽分别为W和H)且通道数为2的映射图T＝{T_x,T_y}。对于T中的每个点，T_x(i,j)表示抖动帧I_t中应该被映射到稳定帧中(i,j)点的像素的横坐标；T_y(i,j)表示对应像素的纵坐标。通过这种逐点的映射，可以生成t时刻的稳定帧由于实际估计的T往往是浮点数，因此在具体操作时采用双线性插值方式进行像素值的计算，即使用{T_x(i,j),T_y(i,j)}相邻的四个整数像素点的值进行双线性插值得到。

训练阶段采用的数据集是公开的DeepStab数据集。该数据集包含61对抖动和稳定的视频对。网络的输入图像序列缩放至256×256，像素值归一化至[-1,1]。孪生网络的一个分支的具体结构如图3。采用级联三层的全卷积网络，每一层网络是一个类似于U-net的全卷积网络模型。但是在层间添加了直连结构，可以实现层间的特征信息的有效传输。

该结构在图3中用红色的虚线框表示，具体结构如图4(a)图4(b)。在下采样阶段，层间连接的具体结构如图4(a)，首先将上一层的特征图直接引入到下一层中，与下一层中对应的特征图相加，然后在通过卷积层、BN层、激活层进行降采样。在上采样阶段，层间连接的具体结构如图4(b)，首先将上层的特征引入到下层中，与下一层中对应的特征相加，然后通过卷积层、BN层、激活层进行上采样，最后通过跨层连接进行特征的连接。通过这图4的两个模块可以将上层信息引入到下一层中，使得下一层学习相对于上一层的残差，这样的结构可以在更深的层中学习到更加准确的映射图。

损失函数设计如下：

其中表示内容损失项，表示形状损失项，表示帧间相似性损失项。下面具体介绍三项Loss。

内容损失项：此项Loss用来约束映射之后的稳定帧应该和真实的稳定帧在内容上相似，具体定义如下：

其中表示的对应像素的二范数之差，表示将两幅图像经过VGG-16后最后一层池化层的输出之差。

形状损失项：此项Loss用来约束映射之后的稳定帧和真实的稳定帧在形状上相似并且避免失真。具体定义如下：

其中λ₃＝λ₄＝1。

项主要用来在训练初始阶段引导T_t的生成并加速训练过程。首先在抖动帧I_t和对应的真实稳定帧中提取SIFT特征，并进行最近邻匹配得到匹配点对。记为P_i,t和i表示第i组匹配特征点。通过估计的映射图T_x,T_y,我们定义映射的稳定帧中坐标为的点来自于抖动帧中对应像素的坐标为：

其中分别表示的横坐标和纵坐标。所以L_feature定义为根据估计的映射图将抖动帧中特征点映射到稳定帧特征点的平均误差：

为了保持估计的映射图满足刚性变换的需求，本方法添加了L_grid(T_t)。具体做法如下：

(1)对于给定的抖动帧和真实稳定帧，计算抖动帧到稳定帧的单应矩阵。

(2)利用该单应矩阵将抖动帧变换到稳定视角下。

(3)在(2)生成的图像中取最大内接矩形作为有效区域。

(4)在该有效区域内设置随机大小的矩形并记尺寸为＝_r×h_r，并在该矩形内均匀采样K个特征点，记为{(x₁,y₁),(x₂,y₂),…,(x_K,y_C)}。这K个点在T中的对应位置的取值记为

(5)通过这K个对应的点对求取单应矩阵的近似解如下：

将上述公式简写为Aβ＝B。其中定义单应矩阵可由β生成：

则利用最小二乘估计可得最小二乘的估计误差||Aβ-B||²定义为

其中

帧间相似性损失：这项损失主要用于约束孪生网络两个分支输出的连续的稳定帧的帧间相似性，从而保证帧间的连续性和平稳性。记连续的抖动帧序列S_t-1,S_t作为网络输入的输出稳定帧为帧间相似性损失定义为：

进一步的，上述基于深度学习的视频去抖方法中，所述Step2中测试阶段只使用孪生网络中的一个分支进行计算，将连续的抖动帧序列缩放至256×256作为输入，生成像素级的映射图T＝{T_x,T_y}。进一步的，上述基于特征轨迹的交通视频去抖方法中，所述Step2中在平滑处理中使用分布式优化方法具体步骤如下：

进一步的，上述基于深度学习的视频去抖方法中，所述Step3中测试阶段通过Step2生成的映射图将抖动帧逐点映射生成稳定帧方法如下：

首先将生成的映射图通过双线性插值缩放至原始视频图像大小记为为了计算生成的稳定帧每一点(i,j),使用相邻的四个整数像素点的值进行双线性插值得到。

本发明与现有技术相比的优点在于:

现有技术主要通过单个单应矩阵或者基于固定分块的单应矩阵阵列进行抖动视角到稳定视角的变换。这导致了其处理深度变换不连续的视频时产生形变或者其他误差。为了从根本上解决这样的问题，本发明对抖动视角到稳定视角进行逐点的映射关系估计。本发明引入深度学习的方法，通过设计一个全卷积网络学习一个逐点的映射图，并根据这个映射图将抖动视角的像素点逐点映射到稳定视角。本发明提出的方法不再基于传统的特征匹配策略和单应矩阵估计，转而进行像素级的映射关系估计，这样的变换可以解决不连续的深度变化导致的局部不能用同一单应矩阵拟合的问题，从而在真实的视频中取得了更好的效果。为了提高估计的精度，本发明设计了多层级联的编码-解码网络(下采样-上采样网络)，并在层间添加直连的结构，将上层的信息传输给下一层。该结构的添加使得下一层可以学习上一层估计的残差，从而得到更加准确的结果。为了增加训练网络的稳定性，本发明设计了特定的损失函数，保证了网络输出的合理性和准确性。同时本发明训练的深度网络具有更好的鲁棒性，尤其在处理低质量视频(如模糊视频、夜晚视频、含水印视频)时，具有比传统方法更好的效果。借助GPU并行处理的特性，本发明取得了比传统方法更快的处理速度，可以实现在线实时的视频去抖。

附图说明

图1为本发明方法实现流程图；

图2为本发明孪生网络的总体结构；

图3为孪生网络中单个分支的具体结构；

图4(a)是下采样阶段层间直连结构，图4(b)是上采样阶段层间直连结构；

图5是将本发明方法与现有技术Xu et al.【6】，StabNet【5】在【5】中公开的数据集(按照场景不同分为regular,quick rotation,zooming,parallax running和crowd)中比较的结果；

图6是将本发明方法与现有技术Xu et al.【6】，StabNet【5】在【5】中parallex和crowd两个深度变化复杂场景的子数据集中各随机选择5个视频进行性能比较的结果。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明方法包括如下步骤：

深度网络的训练步骤，将连续的抖动帧序列作为网络的输入，将稳定的帧作为网络的输出进行有监督训练，生成带权重的深度网络；

测试阶段稳定帧生成步骤，将连续的抖动帧序列作为Step1训练的网络的输入，生成像素级的映射图。然后通过生成的映射图将抖动帧逐点映射生成稳定帧。

下面对上述步骤的具体实施方式进行详细说明。

1.深度网络的训练

该结构在图3中用虚线框表示，具体结构如图4(a)(b)、。在下采样阶段，层间连接的具体结构如图4(a)中，首先将上一层的特征图直接引入到下一层中，与下一层中对应的特征图相加，然后在通过卷积层、BN层、激活层进行降采样。在上采样阶段，层间连接的具体结构如图4(b)中，首先将上层的特征引入到下层中，与下一层中对应的特征相加，然后通过卷积层、BN层、激活层进行上采样，最后通过跨层连接进行特征的连接。通过这图4(a)、(b)的两个模块可以将上层信息引入到下一层中，使得下一层学习相对于上一层的残差，这样的结构可以在更深的层中学习到更加准确的映射图。

损失函数设计如下：

其中L_content表示内容损失项，L_shape表示形状损失项，L_tempora.表示帧间相似性损失项。下面具体介绍三项Loss。

其中λ₁＝λ₂＝1。表示的对应像素的二范数之差，表示将两幅图像经过VGG-16后最后一层池化层的输出之差。

其中λ₃＝λ_:＝1。

L_feature项主要用来在训练初始阶段引导T_t的生成并加速训练过程。首先在抖动帧I_t和对应的真实稳定帧中提取SIFT特征，并进行最近邻匹配得到匹配点对。记为P_i,t和i表示第i组匹配特征点。通过估计的映射图T_x,T_y,定义映射的稳定帧中坐标为的点来自于抖动帧中对应像素的坐标为：

为了保持估计的映射图满足刚性变换的需求，本方法添加了L_grid。具体做法如下：

(2)利用该单应矩阵将抖动帧变换到稳定视角下。

(3)在(2)生成的图像中取最大内接矩形作为有效区域

(4)在该有效区域内设置随机大小的矩形并记尺寸为w_r×h_r，并在该矩形内均匀采样K个特征点，记为{(x₁,y₁),(x₂,y₂),…,(x_C,y_C)}。这K个点在T中的对应位置的取值记为

(5)通过这K个对应的点对我们求取单应矩阵的近似解如下：

为方便下面的公式推导，将上述公式简写为Aβ＝B。其中定义单应矩阵可由β生成：

则利用最小二乘估计可得β＝(A^TA)^-1A^TB，最小二乘的估计误差||Aβ -B||²定义为：

其中

2、测试阶段稳定生成

测试阶段只使用孪生网络中的一个分支进行计算，将连续的抖动帧序列缩放至256×256作为输入，生成像素级的映射图T＝{T_x,T_y}。然后将生成的映射图通过双线性插值缩放至原始视频图像大小记为对于T中的每个点，T_x(i,j)表示抖动帧I_t中应该被映射到稳定帧中(i,j)点的像素的横坐标；T_y(i,j)表示对应像素的纵坐标。为了计算生成的稳定帧每一点(i,j),使用相邻的四个整数像素点的值进行双线性插值得到。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

3、和现有方法的对比和效果展示

本发明利用三个指标衡量本发明效果与现有方法的比较，分别是croppingratio,distortion score和stability score。其中cropping ratio表示稳定帧中有效面积和原抖动视频面积的比值，值越大表明保留的有效内容越多。Distortion score利用抖动帧和稳定帧之间的单应矩阵计算，越大表示产生的扭曲越小。Stability score利用生成的稳定视频的轨迹计算稳定性，越大表示越稳定。利用【5】中公开的数据集(按照场景不同分为regular,quick rotation,zooming,parallax running和crowd)。将本发明方法(PWNet)与现有技术Xu et al.【6】，StabNet【5】进行比较,结果如如图5所示，显示了本发明方法的更优的性能。

为了说明本发明对于深度不连续变化的场景去抖效果更佳，从parallex和crowd两个深度变化复杂场景的子数据集中各随机选择5个视频进行性能比较，如图6所示，相关指标显示本发明对于解决这种复杂场景的视频去抖问题效果更佳。

Claims

1.一种基于深度学习的视频去抖方法，其特征在于，包括以下步骤：

Step1：训练阶段，将连续的抖动帧序列作为深度网络的输入，将稳定的帧作为深度网络的输出进行有监督训练，生成带权重的深度网络；

Step2：测试阶段，将连续的抖动帧序列作为带权重的深度网络的输入，生成像素级的映射图，并变换生成稳定帧。

2.根据权利要求1所述的基于深度学习的视频去抖方法，其特征在于：所述Step1中训练阶段有监督训练的方法如下：

(1)深度网络采用孪生网络结构，该孪生网络的两个分支采用相同的全卷积网络结构，并共享参数，两个分支的输出为相邻的抖动帧序列：S_t＝{I_t-ω，...，I_t，...I_t+ω，}和S_t+1＝{I_t-ω+1，...，I_t+1，...I_t+ω+1，}，I_t表示t时刻的抖动帧，ω＝15表示去抖所考虑的邻域范围；网络的预测为与输入图像尺寸相同，记长和宽分别为W和H，且通道数为2的映射图T＝{T_x，T_y}，对于T中的每个点，T_x(i，j)表示抖动帧I_t中应该被映射到稳定帧中(i，j)点的像素的横坐标；T_y(i，j)表示对应像素的纵坐标；通过这种逐点的映射，生成t时刻的稳定帧

(2)训练阶段采用的数据集是公开的DeepStab数据集，设计的孪生网络的一个分支采用级联三层的全卷积网络，每一层网络是一个先下采样后上采样的全卷积网络模型，但是在层间添加了直连结构，实现层间的特征信息的有效传输，通过跨层的直连结构，将上层信息引入到下一层中，使得下一层学习相对于上一层的残差，这样的结构在更深的层中学习到更加准确的映射图；

(3)损失函数设计如下：

其中L_content表示内容损失项，L_shape表示形状损失项，L_temporal表示帧间相似性损失项。

3.根据权利要求2所述的基于深度学习的视频去抖方法，其特征在于：所述用来约束映射之后的稳定帧应该和真实的稳定帧在内容上相似，具体定义如下：

其中λ₁＝λ₂＝1，表示的对应像素的二范数之差，表示将两幅图像经过VGG-16后最后一层池化层的输出之差。

4.根据权利要求2所述的基于深度学习的视频去抖方法，其特征在于：所述形状损失项用来约束映射之后的稳定帧和真实的稳定帧在形状上相似并且避免失真，具体定义如下：

其中λ₃＝λ₄＝1。

项用来在训练初始阶段引导T_t的生成并加速训练过程；

为了保持估计的映射图满足刚性变换的需求，本发明添加了L_grid(T_t)，具体如下：

(1)对于给定的抖动帧和真实稳定帧，计算抖动帧到稳定帧的单应矩阵；

(2)利用该单应矩阵将抖动帧变换到稳定视角下；

(3)在(2)生成的图像中取最大内接矩形作为有效区域；

(4)在该有效区域内设置随机大小的矩形并记尺寸为w_r×h_r，并在该矩形内均匀采样K个特征点，记为{(x₁，y₁)，(x₂，y₂)，...，(x_K，y_K)}。这K个点在T中的对应位置的取值记为

(5)使这K个对应的点对尽可能满足同一单应矩阵。

5.根据权利要求2所述的基于深度学习的视频去抖方法，其特征在于：所述帧间相似性损失用于约束孪生网络两个分支输出的连续的稳定帧的帧间相似性，从而保证帧间的连续性和平稳性，记连续的抖动帧序列S_t-1，S_t作为网络输入的输出稳定帧为帧间相似性损失定义为：