CN110276739A - 一种基于深度学习的视频去抖方法 - Google Patents
一种基于深度学习的视频去抖方法 Download PDFInfo
- Publication number
- CN110276739A CN110276739A CN201910670613.9A CN201910670613A CN110276739A CN 110276739 A CN110276739 A CN 110276739A CN 201910670613 A CN201910670613 A CN 201910670613A CN 110276739 A CN110276739 A CN 110276739A
- Authority
- CN
- China
- Prior art keywords
- frame
- network
- video
- point
- stabilizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 238000013461 design Methods 0.000 claims abstract description 6
- 239000010410 layer Substances 0.000 claims description 52
- 239000003381 stabilizer Substances 0.000 claims description 48
- 239000011229 interlayer Substances 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 5
- 238000007796 conventional method Methods 0.000 abstract description 4
- 230000006641 stabilisation Effects 0.000 description 6
- 238000011105 stabilization Methods 0.000 description 6
- 239000011248 coating agent Substances 0.000 description 4
- 238000000576 coating method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/21—Circuitry for suppressing or minimising disturbance, e.g. moiré or halo
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于深度学习的视频去抖方法,通过设计一个全卷积网络学习一个逐点的映射图,并根据这个映射图将抖动视角的像素点逐点映射到稳定视角。本发明提出的方法不再基于传统的特征匹配策略和单应矩阵估计,转而进行像素级的映射关系估计,这样的变换可以解决不连续的深度变化导致的局部不能用同一单应矩阵拟合的问题,从而在真实的视频中取得了更好的效果。同时本方法训练的深度网络具有更好的鲁棒性,尤其在处理低质量视频(如模糊视频、夜晚视频、含水印视频)时,具有比传统方法更好的效果。借助GPU并行处理的特性,本发明取得了比传统方法更快的处理速度,可以实现在线实时的视频去抖。
Description
技术领域
本发明涉及一种基于深度学习的视频去抖方法,属于计算机视觉和视频去抖技术领域。
背景技术
近些年来,越来越多的摄像机被应用于现实生活中的各种场景,其中包括大量的便携可移动的摄像设备,手持设备由于人为抖动导致了摄录的视频质量的大幅度下降,剧烈的抖动造成了人感官上的不适。
普通的手持设备摄录视频去抖方法大致分为三类,2D,2.5D和3D方法。2D方法通常使用帧间矩阵序列进行相机运动的建模然后进行平滑【1】。3D方法对于视差的处理效果更好,通过运用运动恢复结构(Structure from Motion,SfM)进行相机路径的估计【2】,然后利用内容保持的扭曲变换(content-preserving warping)【3】进行平滑轨迹的重建。但3D方法耗时严重,并且当视差不明显时容易造成算法失效。2.5D方法结合了2D算法和3D算法的优势,Ling【4】使用通过建立时空约束将前景和背景轨迹结合用于抖动的估计并进行运动的平滑。但是其使用单个单应矩阵进行抖动视角到稳定视角的变换限制了其解决3D视频的能力。
进行年来,CNN在解决传统计算机视觉问题中取得了较大的成功,但是利用深度网络进行视频去抖的研究较少。仅有的研究是Wang等通过构建一个DeepStab数据集并搭建以Resnet为基础网络的深度网络来实现单应矩阵序列的回归预测【5】。同时其研究团队也提出了基于生成对抗网络进行单应矩阵估计的方法【6】。
以上方法在抖动帧到稳定帧映射时通常采用单个单应矩阵或基于固定分块的单应矩阵序列进行透视变换,导致了针对不连续的深度变化存在一定误差,因此对于复杂场景中深度不连续性较强的视频处理效果不佳,本发明采用深度学习的方式搭建网络直接进行逐像素的预测,生成和输入视频尺寸一致的映射图,并利用该映射图进行像素级的抖动帧到稳定帧的映射,因此增强了针对抖动视频的去抖能力。本发明在视频中存在较大视差时去抖性能提升更加显著。
【1】Chen B Y,Lee K Y,Huang W T,et al.Capturing Intention-based Full-Frame Video Stabilization[C]//Computer Graphics Forum.Blackwell PublishingLtd,2008,27(7):1805-1814.
【2】Hartley R,Zisserman A.Multiple view geometry in computer vision[M].Cambridge university press,2003.
【3】Liu F,Gleicher M,Jin H,et al.Content-preserving warps for 3D videostabilization[C]//ACM Transactions on Graphics(TOG).ACM,2009,28(3):44.
【4】Ling Q,Zhao M.Stabilization of Traffic Videos based on bothForeground and Background Feature Trajectories[J].IEEE Transactions onCircuits and Systems for Video Technology,2018:1-1.
【5】Wang M,Yang G Y,Lin J K,et al.Deep Online Video Stabilization WithMulti-Grid Warping Transformation Learning[J].IEEE Transactions on ImageProcessing,2018,28(5):2283-2292.
【6】Xu S Z,Hu J,Wang M,et al.Deep Video Stabilization UsingAdversarial Networks[C]//Computer Graphics Forum.2018,37(7):267-276.
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于深度学习的交通视频去抖方法,具有更快的处理速度,可以实现在线实时的视频去抖。
本发明技术解决方案:本发明的的基于深度学习的视频去抖方法,具体实现步骤如下:
Step1:训练阶段将连续的抖动帧序列作为网络的输入,将稳定的帧作为网络的输出进行有监督训练,生成带权重的深度网络;
Step2:测试阶段将连续的抖动帧序列作为网络的输入,生成像素级的映射图;
Step3:测试阶段通过Step2生成的映射图将抖动帧逐点映射生成稳定帧。
进一步的,上述基于深度学习的交通视频去抖方法中,所述Step1中训练阶段有监督训练方式如下:
采用如图2所示的孪生网络结构,该孪生网络的两个分支采用相同的全卷积网络结构,并共享参数。两个分支的输出为相邻的抖动帧序列:St={It-ω,…,It,…It+ω,}和St+1={It-ω+1,…,It+1,…It+ω+1,}。It表示t时刻的抖动帧。ω=15表示去抖所考虑的邻域范围。网络的预测为与输入图像尺寸相同(记长和宽分别为W和H)且通道数为2的映射图T={Tx,Ty}。对于T中的每个点,Tx(i,j)表示抖动帧It中应该被映射到稳定帧中(i,j)点的像素的横坐标;Ty(i,j)表示对应像素的纵坐标。通过这种逐点的映射,可以生成t时刻的稳定帧由于实际估计的T往往是浮点数,因此在具体操作时采用双线性插值方式进行像素值的计算,即使用{Tx(i,j),Ty(i,j)}相邻的四个整数像素点的值进行双线性插值得到。
训练阶段采用的数据集是公开的DeepStab数据集。该数据集包含61对抖动和稳定的视频对。网络的输入图像序列缩放至256×256,像素值归一化至[-1,1]。孪生网络的一个分支的具体结构如图3。采用级联三层的全卷积网络,每一层网络是一个类似于U-net的全卷积网络模型。但是在层间添加了直连结构,可以实现层间的特征信息的有效传输。
该结构在图3中用红色的虚线框表示,具体结构如图4(a)图4(b)。在下采样阶段,层间连接的具体结构如图4(a),首先将上一层的特征图直接引入到下一层中,与下一层中对应的特征图相加,然后在通过卷积层、BN层、激活层进行降采样。在上采样阶段,层间连接的具体结构如图4(b),首先将上层的特征引入到下层中,与下一层中对应的特征相加,然后通过卷积层、BN层、激活层进行上采样,最后通过跨层连接进行特征的连接。通过这图4的两个模块可以将上层信息引入到下一层中,使得下一层学习相对于上一层的残差,这样的结构可以在更深的层中学习到更加准确的映射图。
损失函数设计如下:
其中表示内容损失项,表示形状损失项,表示帧间相似性损失项。下面具体介绍三项Loss。
内容损失项:此项Loss用来约束映射之后的稳定帧应该和真实的稳定帧在内容上相似,具体定义如下:
其中表示的对应像素的二范数之差,表示将两幅图像经过VGG-16后最后一层池化层的输出之差。
形状损失项:此项Loss用来约束映射之后的稳定帧和真实的稳定帧在形状上相似并且避免失真。具体定义如下:
其中λ3=λ4=1。
项主要用来在训练初始阶段引导Tt的生成并加速训练过程。首先在抖动帧It和对应的真实稳定帧中提取SIFT特征,并进行最近邻匹配得到匹配点对。记为Pi,t和i表示第i组匹配特征点。通过估计的映射图Tx,Ty,我们定义映射的稳定帧中坐标为的点来自于抖动帧中对应像素的坐标为:
其中分别表示的横坐标和纵坐标。所以Lfeature定义为根据估计的映射图将抖动帧中特征点映射到稳定帧特征点的平均误差:
为了保持估计的映射图满足刚性变换的需求,本方法添加了Lgrid(Tt)。具体做法如下:
(1)对于给定的抖动帧和真实稳定帧,计算抖动帧到稳定帧的单应矩阵。
(2)利用该单应矩阵将抖动帧变换到稳定视角下。
(3)在(2)生成的图像中取最大内接矩形作为有效区域。
(4)在该有效区域内设置随机大小的矩形并记尺寸为=r×hr,并在该矩形内均匀采样K个特征点,记为{(x1,y1),(x2,y2),…,(xK,yC)}。这K个点在T中的对应位置的取值记为
(5)通过这K个对应的点对求取单应矩阵的近似解如下:
将上述公式简写为Aβ=B。其中定义单应矩阵可由β生成:
则利用最小二乘估计可得最小二乘的估计误差||Aβ-B||2定义为
其中
帧间相似性损失:这项损失主要用于约束孪生网络两个分支输出的连续的稳定帧的帧间相似性,从而保证帧间的连续性和平稳性。记连续的抖动帧序列St-1,St作为网络输入的输出稳定帧为帧间相似性损失定义为:
进一步的,上述基于深度学习的视频去抖方法中,所述Step2中测试阶段只使用孪生网络中的一个分支进行计算,将连续的抖动帧序列缩放至256×256作为输入,生成像素级的映射图T={Tx,Ty}。进一步的,上述基于特征轨迹的交通视频去抖方法中,所述Step2中在平滑处理中使用分布式优化方法具体步骤如下:
进一步的,上述基于深度学习的视频去抖方法中,所述Step3中测试阶段通过Step2生成的映射图将抖动帧逐点映射生成稳定帧方法如下:
首先将生成的映射图通过双线性插值缩放至原始视频图像大小记为为了计算生成的稳定帧每一点(i,j),使用相邻的四个整数像素点的值进行双线性插值得到。
本发明与现有技术相比的优点在于:
现有技术主要通过单个单应矩阵或者基于固定分块的单应矩阵阵列进行抖动视角到稳定视角的变换。这导致了其处理深度变换不连续的视频时产生形变或者其他误差。为了从根本上解决这样的问题,本发明对抖动视角到稳定视角进行逐点的映射关系估计。本发明引入深度学习的方法,通过设计一个全卷积网络学习一个逐点的映射图,并根据这个映射图将抖动视角的像素点逐点映射到稳定视角。本发明提出的方法不再基于传统的特征匹配策略和单应矩阵估计,转而进行像素级的映射关系估计,这样的变换可以解决不连续的深度变化导致的局部不能用同一单应矩阵拟合的问题,从而在真实的视频中取得了更好的效果。为了提高估计的精度,本发明设计了多层级联的编码-解码网络(下采样-上采样网络),并在层间添加直连的结构,将上层的信息传输给下一层。该结构的添加使得下一层可以学习上一层估计的残差,从而得到更加准确的结果。为了增加训练网络的稳定性,本发明设计了特定的损失函数,保证了网络输出的合理性和准确性。同时本发明训练的深度网络具有更好的鲁棒性,尤其在处理低质量视频(如模糊视频、夜晚视频、含水印视频)时,具有比传统方法更好的效果。借助GPU并行处理的特性,本发明取得了比传统方法更快的处理速度,可以实现在线实时的视频去抖。
附图说明
图1为本发明方法实现流程图;
图2为本发明孪生网络的总体结构;
图3为孪生网络中单个分支的具体结构;
图4(a)是下采样阶段层间直连结构,图4(b)是上采样阶段层间直连结构;
图5是将本发明方法与现有技术Xu et al.【6】,StabNet【5】在【5】中公开的数据集(按照场景不同分为regular,quick rotation,zooming,parallax running和crowd)中比较的结果;
图6是将本发明方法与现有技术Xu et al.【6】,StabNet【5】在【5】中parallex和crowd两个深度变化复杂场景的子数据集中各随机选择5个视频进行性能比较的结果。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明方法包括如下步骤:
Step1:训练阶段将连续的抖动帧序列作为网络的输入,将稳定的帧作为网络的输出进行有监督训练,生成带权重的深度网络;
Step2:测试阶段将连续的抖动帧序列作为网络的输入,生成像素级的映射图;
Step3:测试阶段通过Step2生成的映射图将抖动帧逐点映射生成稳定帧。
深度网络的训练步骤,将连续的抖动帧序列作为网络的输入,将稳定的帧作为网络的输出进行有监督训练,生成带权重的深度网络;
测试阶段稳定帧生成步骤,将连续的抖动帧序列作为Step1训练的网络的输入,生成像素级的映射图。然后通过生成的映射图将抖动帧逐点映射生成稳定帧。
下面对上述步骤的具体实施方式进行详细说明。
1.深度网络的训练
采用如图2所示的孪生网络结构,该孪生网络的两个分支采用相同的全卷积网络结构,并共享参数。两个分支的输出为相邻的抖动帧序列:St={It-ω,…,It,…It+ω,}和St+1={It-ω+1,…,It+1,…It+ω+1,}。It表示t时刻的抖动帧。ω=15表示去抖所考虑的邻域范围。网络的预测为与输入图像尺寸相同(记长和宽分别为W和H)且通道数为2的映射图T={Tx,Ty}。对于T中的每个点,Tx(i,j)表示抖动帧It中应该被映射到稳定帧中(i,j)点的像素的横坐标;Ty(i,j)表示对应像素的纵坐标。通过这种逐点的映射,可以生成t时刻的稳定帧由于实际估计的T往往是浮点数,因此在具体操作时采用双线性插值方式进行像素值的计算,即使用{Tx(i,j),Ty(i,j)}相邻的四个整数像素点的值进行双线性插值得到。
训练阶段采用的数据集是公开的DeepStab数据集。该数据集包含61对抖动和稳定的视频对。网络的输入图像序列缩放至256×256,像素值归一化至[-1,1]。孪生网络的一个分支的具体结构如图3。采用级联三层的全卷积网络,每一层网络是一个类似于U-net的全卷积网络模型。但是在层间添加了直连结构,可以实现层间的特征信息的有效传输。
该结构在图3中用虚线框表示,具体结构如图4(a)(b)、。在下采样阶段,层间连接的具体结构如图4(a)中,首先将上一层的特征图直接引入到下一层中,与下一层中对应的特征图相加,然后在通过卷积层、BN层、激活层进行降采样。在上采样阶段,层间连接的具体结构如图4(b)中,首先将上层的特征引入到下层中,与下一层中对应的特征相加,然后通过卷积层、BN层、激活层进行上采样,最后通过跨层连接进行特征的连接。通过这图4(a)、(b)的两个模块可以将上层信息引入到下一层中,使得下一层学习相对于上一层的残差,这样的结构可以在更深的层中学习到更加准确的映射图。
损失函数设计如下:
其中Lcontent表示内容损失项,Lshape表示形状损失项,Ltempora.表示帧间相似性损失项。下面具体介绍三项Loss。
内容损失项:此项Loss用来约束映射之后的稳定帧应该和真实的稳定帧在内容上相似,具体定义如下:
其中λ1=λ2=1。表示的对应像素的二范数之差,表示将两幅图像经过VGG-16后最后一层池化层的输出之差。
形状损失项:此项Loss用来约束映射之后的稳定帧和真实的稳定帧在形状上相似并且避免失真。具体定义如下:
其中λ3=λ:=1。
Lfeature项主要用来在训练初始阶段引导Tt的生成并加速训练过程。首先在抖动帧It和对应的真实稳定帧中提取SIFT特征,并进行最近邻匹配得到匹配点对。记为Pi,t和i表示第i组匹配特征点。通过估计的映射图Tx,Ty,定义映射的稳定帧中坐标为的点来自于抖动帧中对应像素的坐标为:
其中分别表示的横坐标和纵坐标。所以Lfeature定义为根据估计的映射图将抖动帧中特征点映射到稳定帧特征点的平均误差:
为了保持估计的映射图满足刚性变换的需求,本方法添加了Lgrid。具体做法如下:
(1)对于给定的抖动帧和真实稳定帧,计算抖动帧到稳定帧的单应矩阵。
(2)利用该单应矩阵将抖动帧变换到稳定视角下。
(3)在(2)生成的图像中取最大内接矩形作为有效区域
(4)在该有效区域内设置随机大小的矩形并记尺寸为wr×hr,并在该矩形内均匀采样K个特征点,记为{(x1,y1),(x2,y2),…,(xC,yC)}。这K个点在T中的对应位置的取值记为
(5)通过这K个对应的点对我们求取单应矩阵的近似解如下:
为方便下面的公式推导,将上述公式简写为Aβ=B。其中定义单应矩阵可由β生成:
则利用最小二乘估计可得β=(ATA)-1ATB,最小二乘的估计误差||Aβ -B||2定义为:
其中
帧间相似性损失:这项损失主要用于约束孪生网络两个分支输出的连续的稳定帧的帧间相似性,从而保证帧间的连续性和平稳性。记连续的抖动帧序列St-1,St作为网络输入的输出稳定帧为帧间相似性损失定义为:
2、测试阶段稳定生成
测试阶段只使用孪生网络中的一个分支进行计算,将连续的抖动帧序列缩放至256×256作为输入,生成像素级的映射图T={Tx,Ty}。然后将生成的映射图通过双线性插值缩放至原始视频图像大小记为对于T中的每个点,Tx(i,j)表示抖动帧It中应该被映射到稳定帧中(i,j)点的像素的横坐标;Ty(i,j)表示对应像素的纵坐标。为了计算生成的稳定帧每一点(i,j),使用相邻的四个整数像素点的值进行双线性插值得到。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
3、和现有方法的对比和效果展示
本发明利用三个指标衡量本发明效果与现有方法的比较,分别是croppingratio,distortion score和stability score。其中cropping ratio表示稳定帧中有效面积和原抖动视频面积的比值,值越大表明保留的有效内容越多。Distortion score利用抖动帧和稳定帧之间的单应矩阵计算,越大表示产生的扭曲越小。Stability score利用生成的稳定视频的轨迹计算稳定性,越大表示越稳定。利用【5】中公开的数据集(按照场景不同分为regular,quick rotation,zooming,parallax running和crowd)。将本发明方法(PWNet)与现有技术Xu et al.【6】,StabNet【5】进行比较,结果如如图5所示,显示了本发明方法的更优的性能。
为了说明本发明对于深度不连续变化的场景去抖效果更佳,从parallex和crowd两个深度变化复杂场景的子数据集中各随机选择5个视频进行性能比较,如图6所示,相关指标显示本发明对于解决这种复杂场景的视频去抖问题效果更佳。
Claims (5)
1.一种基于深度学习的视频去抖方法,其特征在于,包括以下步骤:
Step1:训练阶段,将连续的抖动帧序列作为深度网络的输入,将稳定的帧作为深度网络的输出进行有监督训练,生成带权重的深度网络;
Step2:测试阶段,将连续的抖动帧序列作为带权重的深度网络的输入,生成像素级的映射图,并变换生成稳定帧。
2.根据权利要求1所述的基于深度学习的视频去抖方法,其特征在于:所述Step1中训练阶段有监督训练的方法如下:
(1)深度网络采用孪生网络结构,该孪生网络的两个分支采用相同的全卷积网络结构,并共享参数,两个分支的输出为相邻的抖动帧序列:St={It-ω,...,It,...It+ω,}和St+1={It-ω+1,...,It+1,...It+ω+1,},It表示t时刻的抖动帧,ω=15表示去抖所考虑的邻域范围;网络的预测为与输入图像尺寸相同,记长和宽分别为W和H,且通道数为2的映射图T={Tx,Ty},对于T中的每个点,Tx(i,j)表示抖动帧It中应该被映射到稳定帧中(i,j)点的像素的横坐标;Ty(i,j)表示对应像素的纵坐标;通过这种逐点的映射,生成t时刻的稳定帧
(2)训练阶段采用的数据集是公开的DeepStab数据集,设计的孪生网络的一个分支采用级联三层的全卷积网络,每一层网络是一个先下采样后上采样的全卷积网络模型,但是在层间添加了直连结构,实现层间的特征信息的有效传输,通过跨层的直连结构,将上层信息引入到下一层中,使得下一层学习相对于上一层的残差,这样的结构在更深的层中学习到更加准确的映射图;
(3)损失函数设计如下:
其中Lcontent表示内容损失项,Lshape表示形状损失项,Ltemporal表示帧间相似性损失项。
3.根据权利要求2所述的基于深度学习的视频去抖方法,其特征在于:所述用来约束映射之后的稳定帧应该和真实的稳定帧在内容上相似,具体定义如下:
其中λ1=λ2=1,表示的对应像素的二范数之差,表示将两幅图像经过VGG-16后最后一层池化层的输出之差。
4.根据权利要求2所述的基于深度学习的视频去抖方法,其特征在于:所述形状损失项用来约束映射之后的稳定帧和真实的稳定帧在形状上相似并且避免失真,具体定义如下:
其中λ3=λ4=1。
项用来在训练初始阶段引导Tt的生成并加速训练过程;
为了保持估计的映射图满足刚性变换的需求,本发明添加了Lgrid(Tt),具体如下:
(1)对于给定的抖动帧和真实稳定帧,计算抖动帧到稳定帧的单应矩阵;
(2)利用该单应矩阵将抖动帧变换到稳定视角下;
(3)在(2)生成的图像中取最大内接矩形作为有效区域;
(4)在该有效区域内设置随机大小的矩形并记尺寸为wr×hr,并在该矩形内均匀采样K个特征点,记为{(x1,y1),(x2,y2),...,(xK,yK)}。这K个点在T中的对应位置的取值记为
(5)使这K个对应的点对尽可能满足同一单应矩阵。
5.根据权利要求2所述的基于深度学习的视频去抖方法,其特征在于:所述帧间相似性损失用于约束孪生网络两个分支输出的连续的稳定帧的帧间相似性,从而保证帧间的连续性和平稳性,记连续的抖动帧序列St-1,St作为网络输入的输出稳定帧为帧间相似性损失定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910670613.9A CN110276739B (zh) | 2019-07-24 | 2019-07-24 | 一种基于深度学习的视频去抖方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910670613.9A CN110276739B (zh) | 2019-07-24 | 2019-07-24 | 一种基于深度学习的视频去抖方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110276739A true CN110276739A (zh) | 2019-09-24 |
CN110276739B CN110276739B (zh) | 2021-05-07 |
Family
ID=67965218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910670613.9A Active CN110276739B (zh) | 2019-07-24 | 2019-07-24 | 一种基于深度学习的视频去抖方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276739B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047532A (zh) * | 2019-12-06 | 2020-04-21 | 广东启迪图卫科技股份有限公司 | 一种基于3d卷积神经网络的低照度视频增强方法 |
CN112633222A (zh) * | 2020-12-30 | 2021-04-09 | 民航成都电子技术有限责任公司 | 基于对抗网络的步态识别方法、装置、设备及介质 |
CN114138658A (zh) * | 2021-12-06 | 2022-03-04 | 中国航空工业集团公司西安飞行自动控制研究所 | 基于时间序列场景的去抖功能测试方法及测试装置 |
CN117095412A (zh) * | 2023-10-19 | 2023-11-21 | 四川泓宝润业工程技术有限公司 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2284764A1 (en) * | 2009-07-13 | 2011-02-16 | Honeywell International Inc. | Acquisition system for obtaining sharp barcode images despite motion |
EP2680567A1 (en) * | 2012-06-25 | 2014-01-01 | Axis AB | Video noise reduction |
CN107274433A (zh) * | 2017-06-21 | 2017-10-20 | 吉林大学 | 基于深度学习的目标跟踪方法、装置及存储介质 |
US20180121767A1 (en) * | 2016-11-02 | 2018-05-03 | Adobe Systems Incorporated | Video deblurring using neural networks |
CN108304808A (zh) * | 2018-02-06 | 2018-07-20 | 广东顺德西安交通大学研究院 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
CN108805898A (zh) * | 2018-05-31 | 2018-11-13 | 北京字节跳动网络技术有限公司 | 视频图像处理方法和装置 |
CN108961186A (zh) * | 2018-06-29 | 2018-12-07 | 赵岩 | 一种基于深度学习的老旧影片修复重制方法 |
CN109360171A (zh) * | 2018-10-26 | 2019-02-19 | 北京理工大学 | 一种基于神经网络的视频图像实时去模糊方法 |
US10241520B2 (en) * | 2016-12-22 | 2019-03-26 | TCL Research America Inc. | System and method for vision-based flight self-stabilization by deep gated recurrent Q-networks |
CN109785359A (zh) * | 2018-11-27 | 2019-05-21 | 北京理工大学 | 一种基于深度特征金字塔与跟踪损失的视频目标检测方法 |
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN110021033A (zh) * | 2019-02-22 | 2019-07-16 | 广西师范大学 | 一种基于金字塔孪生网络的目标跟踪方法 |
-
2019
- 2019-07-24 CN CN201910670613.9A patent/CN110276739B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2284764A1 (en) * | 2009-07-13 | 2011-02-16 | Honeywell International Inc. | Acquisition system for obtaining sharp barcode images despite motion |
EP2680567A1 (en) * | 2012-06-25 | 2014-01-01 | Axis AB | Video noise reduction |
US20180121767A1 (en) * | 2016-11-02 | 2018-05-03 | Adobe Systems Incorporated | Video deblurring using neural networks |
US10241520B2 (en) * | 2016-12-22 | 2019-03-26 | TCL Research America Inc. | System and method for vision-based flight self-stabilization by deep gated recurrent Q-networks |
CN107274433A (zh) * | 2017-06-21 | 2017-10-20 | 吉林大学 | 基于深度学习的目标跟踪方法、装置及存储介质 |
CN108304808A (zh) * | 2018-02-06 | 2018-07-20 | 广东顺德西安交通大学研究院 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
CN108805898A (zh) * | 2018-05-31 | 2018-11-13 | 北京字节跳动网络技术有限公司 | 视频图像处理方法和装置 |
CN108961186A (zh) * | 2018-06-29 | 2018-12-07 | 赵岩 | 一种基于深度学习的老旧影片修复重制方法 |
CN109360171A (zh) * | 2018-10-26 | 2019-02-19 | 北京理工大学 | 一种基于神经网络的视频图像实时去模糊方法 |
CN109785359A (zh) * | 2018-11-27 | 2019-05-21 | 北京理工大学 | 一种基于深度特征金字塔与跟踪损失的视频目标检测方法 |
CN110021033A (zh) * | 2019-02-22 | 2019-07-16 | 广西师范大学 | 一种基于金字塔孪生网络的目标跟踪方法 |
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
Non-Patent Citations (6)
Title |
---|
CHRISTIAN LEDIG等: "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
MIAO WANG等: "Deep Online Video Stabilization With Multi-Grid Warping Transformation Learning", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
SEN-ZHE XU等: "Deep Video Stabilization Using Adversarial Networks", 《PACIFIC GRAPHICS 2018》 * |
XINTAO等: "Scale-recurrent Network for Deep Image Deblurring", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
刘刚 等: "基于DSP的交通视频稳像算法设计与实现", 《微型机与应用》 * |
赵敏达 等: "结合Harris角点的栅格状雷达的检测方法", 《小型微型计算机系统》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047532A (zh) * | 2019-12-06 | 2020-04-21 | 广东启迪图卫科技股份有限公司 | 一种基于3d卷积神经网络的低照度视频增强方法 |
CN111047532B (zh) * | 2019-12-06 | 2020-12-29 | 广东启迪图卫科技股份有限公司 | 一种基于3d卷积神经网络的低照度视频增强方法 |
CN112633222A (zh) * | 2020-12-30 | 2021-04-09 | 民航成都电子技术有限责任公司 | 基于对抗网络的步态识别方法、装置、设备及介质 |
CN114138658A (zh) * | 2021-12-06 | 2022-03-04 | 中国航空工业集团公司西安飞行自动控制研究所 | 基于时间序列场景的去抖功能测试方法及测试装置 |
CN117095412A (zh) * | 2023-10-19 | 2023-11-21 | 四川泓宝润业工程技术有限公司 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
CN117095412B (zh) * | 2023-10-19 | 2023-12-15 | 四川泓宝润业工程技术有限公司 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110276739B (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276739A (zh) | 一种基于深度学习的视频去抖方法 | |
CN109671023B (zh) | 一种人脸图像超分辨率二次重建方法 | |
Deng et al. | Restricted deformable convolution-based road scene semantic segmentation using surround view cameras | |
Tateno et al. | Distortion-aware convolutional filters for dense prediction in panoramic images | |
CN109191491B (zh) | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 | |
TWI709107B (zh) | 影像特徵提取方法及包含其顯著物體預測方法 | |
WO2021093584A1 (zh) | 基于深度卷积神经网络的自由视点视频生成及交互方法 | |
CN111901532B (zh) | 基于循环神经网络迭代策略的视频稳定方法 | |
CN111524068A (zh) | 一种基于深度学习的变长输入超分辨率视频重建方法 | |
CN107067370A (zh) | 一种基于网格变形的图像拼接方法 | |
CN105245841A (zh) | 一种基于cuda的全景视频监控系统 | |
CN106101535A (zh) | 一种基于局部及整体运动差异补偿的视频稳定方法 | |
Peng et al. | LVE-S2D: Low-light video enhancement from static to dynamic | |
CN110189286A (zh) | 一种基于ResNet的红外与可见光图像融合方法 | |
CN117274501B (zh) | 一种可驱动数字人建模方法、装置、设备及介质 | |
CN113538243A (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
CN115760590A (zh) | 一种视频稳像方法及系统 | |
CN109087247A (zh) | 一种对立体图像进行超分的方法 | |
CN111818298B (zh) | 一种基于光场的高清视频监控系统及方法 | |
Wu et al. | Stereo superpixel segmentation via dual-attention fusion networks | |
Cai et al. | LiDAR point cloud image interpolation via separable convolution | |
Zou et al. | Stable Viewport-Based Unsupervised Compressed 360$^{\circ} $ Video Quality Enhancement | |
CN115908128A (zh) | 一种基于视频数据的轻量化超分辨率方法 | |
CN115988338B (zh) | 一种基于复眼相机阵列的远场信号反演重建方法 | |
Qian et al. | 360-Degree Image Super-Resolution Based on Single Image Sample and Progressive Residual Generative Adversarial Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: No.443 Huangshan Road, Shushan District, Hefei City, Anhui Province 230022 Patentee after: University of Science and Technology of China Address before: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96 Patentee before: University of Science and Technology of China |
|
CP02 | Change in the address of a patent holder |