CN111901532B - 基于循环神经网络迭代策略的视频稳定方法 - Google Patents

基于循环神经网络迭代策略的视频稳定方法 Download PDF

Info

Publication number
CN111901532B
CN111901532B CN202011054088.7A CN202011054088A CN111901532B CN 111901532 B CN111901532 B CN 111901532B CN 202011054088 A CN202011054088 A CN 202011054088A CN 111901532 B CN111901532 B CN 111901532B
Authority
CN
China
Prior art keywords
video
frame
neural network
network
stable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011054088.7A
Other languages
English (en)
Other versions
CN111901532A (zh
Inventor
李恒
谢浩鹏
肖亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202011054088.7A priority Critical patent/CN111901532B/zh
Publication of CN111901532A publication Critical patent/CN111901532A/zh
Application granted granted Critical
Publication of CN111901532B publication Critical patent/CN111901532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/557Motion estimation characterised by stopping computation or iteration based on certain criteria, e.g. error magnitude being too large or early exit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于循环神经网络迭代策略的视频稳定方法,该方法包括:用抖动视频采集及稳定化处理硬件装置捕获成对视频数据;对采集的视频流样本进行预处理;设计并构造端到端的基于循环神经网络帧内与帧间迭代策略的全卷积深度神经网络;将预处理后的训练数据输入到循环神经网络中,使用四种损失的线性加权引导网络参数的训练过程,得到训练完成的模型;将低质抖动测试视频输入到训练好的神经网络中,得到目标视频的稳定版本。本发明通过循环神经网络的迭代策略在时间序列上,为每一个当前视频帧传递历史运动状态信息,增强了网络对于抖动序列帧信息的感知能力,从而更加精准的预测稳定画面。

Description

基于循环神经网络迭代策略的视频稳定方法
技术领域
本发明属于遥感图像处理技术领域,特别是一种基于循环神经网络迭代策略的视频稳定方法。
背景技术
遥感高光谱图像超分辨是目前应用广泛且热门的研究领域。视频作为图像的一种时序组合表达方式,很多视频处理算法对于一些低质量视频(模糊、躁点、画面抖动、光线不足)的鲁棒性不高,所以视频质量是考验视频处理算法性能的关键。而视频稳像可以作为这些算法的预处理步骤,通过提高视频画面质量来进一步提高算法性能。经过稳定之后的视频才可以更好的应用于超分辨、分类等各种视觉任务。
传统主流的视频稳像方法是基于多视图几何的图像处理方法,按照运动估计的不同可以细分为二维单应估计、三维运动重建、特征轨迹表示或者上述方法的混合方式。例如,何等人通过一种混合方法,首先用二维方法进行预稳定,再利用三维技术场景中稀疏点云和摄像机参数,来拟合摄像机轨迹的平滑二次曲线路径,最后根据新的摄像机参数,在预稳定和二维运动信息的约束下得到最终的稳定视频(何发智等. "一种二维三维混合的视频稳定方法." CN.)。Beysserie等人使用一种缓冲技术,使得当前帧还可以参照未来帧来调节稳定强度参数或加权参数。(Beysserie X, Sebastien, Zhou, Jianping, and BenSoussan, Stephane S. "Video image stabilization with enforced stabilizationconstraints." (2017).)这些传统方法遵循“估计->平滑->扭曲”的步骤来完成视频画面的稳定。然而从图像序列中估计镜头路径这本身就是一项挑战性难题,传统方法非常依赖于视频帧质量,当画面内容出现大视差、低光照、高模糊、快速运动等问题时这些传统稳像方法便可能失败。
近年来,随着神经网络在计算机视觉领域的兴起,一些基于卷积神经网络的方法用深度网络直接学习不稳定帧到稳定帧的扭曲变换,从而巧妙的避开了传统稳像方法流程中路径估计的难题。例如Wang等人构建了一个孪生编码结构的ConvNet网络来预测输入不稳定帧的单应射影变换,并且提出了一种硬件结构来捕获用于训练的视频稳定数据集(Wang, Miao, et al. Deep online video stabilization with multi-grid warpingtransformation learning[J]. IEEE Transactions on Image Processing 28.5(2018): 2283-2292.)。又比如,Zhao等人使用基于CNN的多级级联编解码的孪生网络来估计像素级的扭曲映射,取得了较好的效果(Zhao M, Ling Q. PWStableNet: LearningPixel-Wise Warping Maps for Video Stabilization[J]. IEEE Transactions onImage Processing, 2020, 29: 3582-3595.)。然而这些深度视频稳定方法仅仅将相邻时序视频帧在输入通道维度上进行堆叠,再设计时间正则化项来让卷积网络学习帧间运动的相干性,但是这种方法并不能很好的利用相邻帧的时序信息。
发明内容
本发明的目的在于提供一种基于循环神经网络迭代策略的视频稳定方法。
实现本发明目的的技术方案为:一种基于循环神经网络迭代策略的视频稳定方法,包括如下步骤:
步骤1,采用抖动视频采集及稳定化处理硬件装置来获取成对视频数据,用于深度网络的训练;捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频,构成端对端的视频数据集样本;
步骤2,对采集的视频流样本进行预处理,包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化;
步骤3,将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合,构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息;
步骤4,将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络的训练过程;
步骤5,将待稳定的测试视频输入到训练好的网络中,得到低质抖动视频的预测稳定版本。
进一步的,步骤1中采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据;其中一个视频捕获设备使用手持云台稳定装置进行稳定化处理,另外一个视频捕获设备则通过固定支架与手柄连接,从而保持与原始手部运动的一致,得到低质抖动视频;该硬件装置实时采集低质抖动视频和硬件稳定化后的稳定视频数据,构成端对端的视频数据集样本。
进一步的,步骤2中将采集的视频流成对样本的每一帧画面在时间序列上对齐,并通过剪裁来消除差异;再将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容进行类别划分与标注;最后将所有视频帧缩放到256像素大小的相同尺度,并进行亮度归一化,作为后续网络的输入。
进一步的,步骤3中构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息,来预测最终的稳定画面;低质抖动视频帧序列在网络前向传播的过程如下:
首先用零初始化两个隐藏状态
Figure 187089DEST_PATH_IMAGE001
Figure 134316DEST_PATH_IMAGE002
;在当前时间步t下,将预处理后训练集中的抖动视频帧序列
Figure 308946DEST_PATH_IMAGE003
中的
Figure 313286DEST_PATH_IMAGE004
输入到特征编码器
Figure 714312DEST_PATH_IMAGE005
中,用多层卷积结构提取抖动帧画面
Figure 589864DEST_PATH_IMAGE004
中更深层次的特征信息
Figure 494366DEST_PATH_IMAGE006
;之后结合上一个时间步的隐藏状态
Figure 203696DEST_PATH_IMAGE007
Figure 685493DEST_PATH_IMAGE008
,在记忆选择器
Figure 240102DEST_PATH_IMAGE009
的门控单元上应用卷积操作来分别计算输入门状态
Figure 999111DEST_PATH_IMAGE010
、遗忘门状态
Figure 472818DEST_PATH_IMAGE011
、输出门状态
Figure 582856DEST_PATH_IMAGE012
和输入数据
Figure 534631DEST_PATH_IMAGE013
,其中
Figure 679305DEST_PATH_IMAGE014
Figure 467788DEST_PATH_IMAGE015
代表各卷积操作的参数;最后计算当前不稳定帧
Figure 924177DEST_PATH_IMAGE004
的中间稳定状态
Figure 555010DEST_PATH_IMAGE016
Figure 147665DEST_PATH_IMAGE017
,公式如下:
Figure 104120DEST_PATH_IMAGE018
Figure 923171DEST_PATH_IMAGE019
Figure 747908DEST_PATH_IMAGE020
Figure 336015DEST_PATH_IMAGE021
Figure 56846DEST_PATH_IMAGE022
Figure 628773DEST_PATH_IMAGE023
再使用参数回归器
Figure 601408DEST_PATH_IMAGE024
,在中间稳定状态
Figure 699814DEST_PATH_IMAGE016
Figure 732493DEST_PATH_IMAGE017
中回归一个
Figure 523207DEST_PATH_IMAGE025
的矢量
Figure 689746DEST_PATH_IMAGE026
,作为扭曲画面的
Figure 986866DEST_PATH_IMAGE027
单应变换矩阵
Figure 315079DEST_PATH_IMAGE028
除尺度变量外的前8个参数;稳定画面
Figure 596019DEST_PATH_IMAGE029
由如下数学模型计算而得:
Figure 441615DEST_PATH_IMAGE030
其中*表示扭曲映射;之后对稳定画面
Figure 983455DEST_PATH_IMAGE029
进行裁剪和缩放,来消除由扭曲引入的无意义黑色边界,得到最后的稳定结果;
然后将中间稳定状态
Figure 623515DEST_PATH_IMAGE016
Figure 126171DEST_PATH_IMAGE017
送入与特征编码器
Figure 368934DEST_PATH_IMAGE005
跳跃链接的帧解码器
Figure 906226DEST_PATH_IMAGE031
中,从残差特征中恢复原始不稳定帧
Figure 576241DEST_PATH_IMAGE004
的一个稳定版本
Figure 831773DEST_PATH_IMAGE032
;之后开始帧内迭代策略,将稳定版本
Figure 744804DEST_PATH_IMAGE032
再次送入特征编码器和记忆选择器中来获得更深层次特征信息
Figure 261236DEST_PATH_IMAGE033
以及更新之后的隐藏状态
Figure 977519DEST_PATH_IMAGE034
Figure 720347DEST_PATH_IMAGE035
,用来传递给下一个时间步,从而结束帧内迭代;
最后跳入进入下一个时间步,重复上述步骤,完成帧间迭代,获得抖动视频帧序列
Figure 304912DEST_PATH_IMAGE003
的预测稳定序列
Figure 816796DEST_PATH_IMAGE036
进一步的,步骤4中将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络的训练过程;像素对齐损失
Figure 969560DEST_PATH_IMAGE037
的计算模型如下,其中C、W、H分别表示输入图像的通道数,宽度和高度尺寸,将预测的扭曲变换
Figure 58739DEST_PATH_IMAGE028
应用于原始帧
Figure 322361DEST_PATH_IMAGE004
后计算其与地面真值稳定帧
Figure 688751DEST_PATH_IMAGE038
之间的均方误差:
Figure 137050DEST_PATH_IMAGE039
之后使用特征提取算法在帧
Figure 588891DEST_PATH_IMAGE004
Figure 515259DEST_PATH_IMAGE038
中提取的
Figure 733226DEST_PATH_IMAGE040
对匹配特征点
Figure 493372DEST_PATH_IMAGE041
Figure 291564DEST_PATH_IMAGE042
。将预测的扭曲变换
Figure 896988DEST_PATH_IMAGE028
应用于特征点
Figure 972392DEST_PATH_IMAGE041
,按照如下公式计算特征对齐损失
Figure 28072DEST_PATH_IMAGE043
Figure 188927DEST_PATH_IMAGE044
再利用预训练的深度卷积网络
Figure 598042DEST_PATH_IMAGE045
,从输入图像数据中提取深层次的特征信息,作为高频特征提取器,来计算扭曲后的预测稳定帧与地面真值稳定帧
Figure 652586DEST_PATH_IMAGE038
之间的相似性,感知损失
Figure 488955DEST_PATH_IMAGE046
的计算公式为:
Figure 261739DEST_PATH_IMAGE047
然后把前一个时间步下预测的稳定帧
Figure 208966DEST_PATH_IMAGE029
用光流扭曲算法
Figure 527471DEST_PATH_IMAGE048
,扭曲到当前时间步t下,来计算时间损失
Figure 393796DEST_PATH_IMAGE049
,使相邻帧的过度更加平滑,其公式如下:
Figure 794821DEST_PATH_IMAGE050
最后将计算的四种损失函数加权求和,作为循环神经网络的最终损失
Figure 404794DEST_PATH_IMAGE051
,监督网络的训练过程;其计算公式如下:
Figure 309296DEST_PATH_IMAGE052
其中
Figure 487468DEST_PATH_IMAGE053
Figure 234844DEST_PATH_IMAGE054
Figure 523874DEST_PATH_IMAGE055
Figure 673095DEST_PATH_IMAGE056
是各损失的加权参数,调整加权参数大小,使得各种损失对网络训练的约束能力相当;
在网络的训练阶段,使用正态分布初始化网络权重;动态调整学习率使网络的损失趋于收敛;训练结束之后,得到用于视频稳定的循环神经网络。
本发明与现有技术相比,其显著特点在于:(1)本发明通过一个抖动视频采集及稳定化处理硬件装置可以同时捕获目标场景的低质抖动视频和稳定化视频,为神经网络的训练提供数据支持;(2)对视频数据集进行类别划分,使网络训练过程具有针对性,增加应对复杂情况下视频处理的鲁棒能力;(3)利用帧间迭代和帧内迭代策略,使帧间运动信息在时间序列上进行传递,大幅度提升预测扭曲参数的精度;(4)本发明方法适用于任意低质量视频画面;并且本方法没有使用未来帧序列信息辅助视频稳定过程,符合实时稳定的标准;(5)本发明通过循环神经网络的迭代策略在时间序列上,为每一个当前视频帧传递历史运动状态信息,增强了网络对于抖动序列帧信息的感知能力,从而更加精准的预测稳定画面;(6)本发明利用按照不同运动内容标注分类后的视频数据集,来提高模型对于挑战性环境下复杂运动产生的抖动视频稳定的鲁棒能力,从而达到对于低质量视频更好的稳定效果。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是基于循环神经网络迭代策略的视频稳定方法的主流程图。
图2是对采集的视频流样本进行预处理的流程图。
图3是低质抖动视频帧序列在循环神经网络网络前向传播的流程图。
图4是网络训练流程图。
图5是抖动视频采集及稳定化处理硬件装置线条结构图。
图6是类别标注后的各类视频缩略图,其中图6中的(a)~图6中的(i)分别为简单、跑步、快速旋转、交通工具、大视差、不连续深度、近距离遮挡、人群、低质量视频缩略图。
图7为稳定前后运动轨迹及其对比示意图,其中图7中的(a)是抖动视频相机运动轨迹的近似估计图,图7中的(b)是稳定化视频相机运动轨迹的近似估计图,图7中的(c)是稳定前后运动轨迹的对比图。
具体实施方式
本发明将遥感图像处理技术与深度学习相结合,提供一种基于循环神经网络迭代策略的视频稳定方法,实现对于抖动序列图像的稳定以及画面质量的提高。循环神经网络可以在长时间序列上传递视频帧之间的运动状态,并为当前帧扭曲提供参考,使得稳定后的画面更加连贯清晰。该方法思路简单明确,避免了因丢失帧间时序关系而导致的不真实的抖动伪影,通过循环神经网络的迭代策略更新所学的隐藏状态,从而有效地提高了稳定的效果。
结合图1,详细说明本发明方法的主流程步骤:
步骤1:采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据,用于深度网络的训练;捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频,构成端对端的视频数据集样本;其具体步骤如下:
步骤11,如图5所示,准备如下硬件设备:其中6为两部型号相同的摄像设备,一个手持云台稳定器包含云台转动轴7和云台电机8以及足够长度的固定支架9;
步骤12,开启摄像镜头,保持两个设备在同一竖直平面;
步骤13,用手持云台稳定化装置对一个摄像设备进行稳定,获取稳定视频画面。另外一个摄像设备通过固定支架连接在手柄上,与原始手部运动保持一致,获得低质抖动视频;
步骤14,在不同环境内容、不同运动模式下同时采集成对的视频数据集样本;
步骤2:如图2所示,对采集的视频流样本进行预处理,包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化,具体步骤如下:
步骤21,将视频流样本的每一帧画面在时间序列上对齐,并通过剪裁的方式尽可能消除两个摄像设备由于微小视差带来的画面内容的不一致,剪裁后所有视频处理成为
Figure 22168DEST_PATH_IMAGE057
像素大小;
步骤22,将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容分为以下九个类别:(1)简单(2)跑步(3)快速旋转(4)交通工具(5)大视差(6)不连续深度(7)近距离遮挡(8)人群(9)低质量,进行类别标注,除“简单”和“低质量”有30组视频以外,其他类别各有10组,视频缩略图如图6所示。随后按照9:1的比例将视频数据集划分为训练集与测试集;
步骤23,将分类后视频中的每一帧图像的长宽缩放到256像素大小,并将原始RGB图像的亮度范围从(0~255)归一化至(0~1)范围内,以对应后续网络的输入;
步骤3:如图3所示,将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合,构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;低质抖动视频帧序列在网络中前向传播的具体步骤如下:
步骤31,先用零初始化隐藏状态
Figure 132207DEST_PATH_IMAGE001
Figure 83982DEST_PATH_IMAGE002
。将预处理后训练集中的抖动视频帧序列
Figure 228656DEST_PATH_IMAGE003
按照时间顺序输入循环神经网络中,设置训练的时间步长为20,并将每次训练序列的第一帧复制
Figure 607684DEST_PATH_IMAGE058
次,放在序列头部,以获得一个相对静止的初始运动状态,让后续帧序列的隐藏状态拥有足够的缓冲时间;
步骤32,在当前时间步t下,将预处理后训练集中的抖动视频帧序列
Figure 202089DEST_PATH_IMAGE003
中的
Figure 832922DEST_PATH_IMAGE004
输入到特征编码器
Figure 956736DEST_PATH_IMAGE005
中,经过卷积核大小不同的三个Conv-BatchNorm-LeakyRelu-MaxPool组合以及最后一个拓展特征通道的卷积操作,在以
Figure 647611DEST_PATH_IMAGE059
为尺寸的输入彩色帧中提取大小为
Figure 732242DEST_PATH_IMAGE060
的更深层次特征信息
Figure 25820DEST_PATH_IMAGE006
步骤33,将步骤32得到的特征信息
Figure 879507DEST_PATH_IMAGE006
结合上一个时间步传递的隐藏状态
Figure 865917DEST_PATH_IMAGE007
Figure 172265DEST_PATH_IMAGE008
,在记忆选择器
Figure 269534DEST_PATH_IMAGE009
的门控单元上应用卷积操作来分别计算输入门状态
Figure 977727DEST_PATH_IMAGE010
、遗忘门状态
Figure 275984DEST_PATH_IMAGE011
、输出门状态
Figure 194261DEST_PATH_IMAGE012
和输入数据
Figure 719657DEST_PATH_IMAGE013
,其中
Figure 547935DEST_PATH_IMAGE014
Figure 141728DEST_PATH_IMAGE015
代表各卷积操作的参数。最后计算当前不稳定帧
Figure 157088DEST_PATH_IMAGE004
的中间稳定状态
Figure 2685DEST_PATH_IMAGE016
Figure 544524DEST_PATH_IMAGE017
,公式如下:
Figure 919005DEST_PATH_IMAGE018
Figure 546295DEST_PATH_IMAGE019
Figure 664424DEST_PATH_IMAGE020
Figure 326350DEST_PATH_IMAGE061
Figure 137311DEST_PATH_IMAGE022
Figure 127264DEST_PATH_IMAGE023
由于上式中的卷积计算过程大多一致,因此我们可以使用单个卷积层的多个滤波器卷积核方式,完成所有门控状态的计算。我们将利用缓慢变化的
Figure 173717DEST_PATH_IMAGE035
在帧间传递镜头的运动状态,以消除高频抖动噪声带来的突变。而
Figure 562586DEST_PATH_IMAGE034
则负责从运动状态
Figure 544448DEST_PATH_IMAGE035
与特征信息
Figure 146331DEST_PATH_IMAGE006
中进行“选择性输出”,所以
Figure 871841DEST_PATH_IMAGE062
在不同的时间步单元下往往会非常不同,从而分析出适用于当前帧画面的目标稳定状态。
步骤34,使用一个参数回归器
Figure 242780DEST_PATH_IMAGE024
,把中间状态
Figure 395543DEST_PATH_IMAGE016
Figure 94509DEST_PATH_IMAGE017
经过一个平均池,来移除所有层,得到一个
Figure 482765DEST_PATH_IMAGE063
的特征映射。再经过核大小为
Figure 114735DEST_PATH_IMAGE064
的conv层来回归一个
Figure 172821DEST_PATH_IMAGE065
的矢量
Figure 155820DEST_PATH_IMAGE026
,作为
Figure 22801DEST_PATH_IMAGE027
单应变换矩阵
Figure 509277DEST_PATH_IMAGE028
除最后一个尺度变量以外的前八个参数;
步骤35,将预测出的单应变换矩阵
Figure 269422DEST_PATH_IMAGE028
应用于当前不稳定帧
Figure 208560DEST_PATH_IMAGE004
来获得稳定画面
Figure 938618DEST_PATH_IMAGE029
,公式如下:
Figure 279601DEST_PATH_IMAGE030
其中*表示扭曲映射。对于稳定画面
Figure 210648DEST_PATH_IMAGE029
中由于扭曲引入的无意义黑色边界,我们在尽可能保持画面内容的情况下,对稳定画面
Figure 371502DEST_PATH_IMAGE029
进行裁剪和缩放,得到最后的稳定结果;
步骤36,将步骤33得到的中间稳定状态
Figure 170830DEST_PATH_IMAGE016
Figure 100740DEST_PATH_IMAGE017
送入帧解码器
Figure 934180DEST_PATH_IMAGE031
中。帧解码器
Figure 972543DEST_PATH_IMAGE031
由与特征编码器对应的三个DeConv-Conv-BatchNorm-LeakyRelu-MaxPool操作和一个
Figure 185349DEST_PATH_IMAGE064
卷积来组成,并且引入了跳跃链接方式,将编码器对应阶段的特征映射融合到当前阶段中,从残差特征中恢复原始不稳定帧
Figure 969766DEST_PATH_IMAGE004
的一个稳定版本
Figure 101670DEST_PATH_IMAGE032
步骤37,开始帧内迭代,把原始抖动帧画面
Figure 237116DEST_PATH_IMAGE004
用稳定版本
Figure 112668DEST_PATH_IMAGE032
代替,并重复步骤32以及步骤33,分别获得
Figure 282750DEST_PATH_IMAGE032
的深层次特征信息
Figure 195342DEST_PATH_IMAGE033
以及更新之后的隐藏状态
Figure 208297DEST_PATH_IMAGE034
Figure 497327DEST_PATH_IMAGE035
,用来传递给下一个时间步,以此完成帧内迭代;
步骤38,进入下一个时间步,开始帧间迭代,重复步骤32至步骤37,直到所有抖动帧序列都通过循环神经网络。最后获得抖动视频帧序列
Figure 521915DEST_PATH_IMAGE003
的预测稳定序列
Figure 730043DEST_PATH_IMAGE036
步骤4:如图4所示,将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络在训练过程中获得更好的稳定能力,具体步骤如下:
步骤41,把网络预测的扭曲变换
Figure 831292DEST_PATH_IMAGE028
应用于每个不稳定帧
Figure 48647DEST_PATH_IMAGE004
,计算其与地面真值稳定帧
Figure 927741DEST_PATH_IMAGE038
之间的均方误差,作为像素对齐损失
Figure 447715DEST_PATH_IMAGE066
,其中C、W、H分别表示输入图像的通道数,宽度和高度尺寸:
Figure 169684DEST_PATH_IMAGE067
来使预测稳定帧逼近地面真值;
步骤42,使用加速鲁棒特征(SURF)和随机一致性采样(RANSAC)作为特征检测算法在帧
Figure 66095DEST_PATH_IMAGE004
Figure 799696DEST_PATH_IMAGE038
中提取的
Figure 615205DEST_PATH_IMAGE040
对匹配特征点
Figure 168678DEST_PATH_IMAGE041
Figure 993414DEST_PATH_IMAGE042
。将预测的扭曲变换
Figure 581521DEST_PATH_IMAGE028
应用于特征点
Figure 708877DEST_PATH_IMAGE041
,按照如下公式计算变换后的特征点坐标与地面真值帧的特征点
Figure 139859DEST_PATH_IMAGE042
之间的平均对齐误差,作为特征对齐损失
Figure 375144DEST_PATH_IMAGE068
Figure 942391DEST_PATH_IMAGE069
步骤43,利用预先训练好的19层深度卷积神经网络(VGG19)提取预测稳定帧
Figure 240648DEST_PATH_IMAGE029
与地面真值帧
Figure 768713DEST_PATH_IMAGE038
之间的特征相似性,计算感知损失
Figure 935252DEST_PATH_IMAGE046
Figure 497951DEST_PATH_IMAGE070
步骤44,把前一个时间步下预测的稳定帧
Figure 967110DEST_PATH_IMAGE029
用Lucas–Kanade算法计算稀疏光流,然后扭曲到当前时间步t下,计算时间损失
Figure 372684DEST_PATH_IMAGE049
,公式如下:
Figure 687121DEST_PATH_IMAGE071
其中
Figure 369907DEST_PATH_IMAGE048
为光流扭曲。
步骤45,将步骤41至步骤44计算的四种损失函数加权求和,作为循环神经网络的最终损失
Figure 869021DEST_PATH_IMAGE051
,以在网络的训练过程中帮助网络获得更好的稳定能力。其计算公式如下:
Figure 637257DEST_PATH_IMAGE072
其中
Figure 880019DEST_PATH_IMAGE053
Figure 685820DEST_PATH_IMAGE054
Figure 496781DEST_PATH_IMAGE055
Figure 345789DEST_PATH_IMAGE056
是各损失的加权参数,调整加权参数大小,使得各种损失对网络训练的约束能力相当。
步骤46,在网络的训练阶段,使用正态分布初始化网络权重;动态调整学习率使网络的损失趋于收敛。本实施例中,使用
Figure 267608DEST_PATH_IMAGE073
Figure 924986DEST_PATH_IMAGE074
的正态分布来初始化网络权重;选择
Figure 765903DEST_PATH_IMAGE075
Figure 243151DEST_PATH_IMAGE076
参数设置下的Adam优化器作为网络的优化策略;初始学习率设置为0.002,每10轮乘以0.1;训练足够的轮数使网络的最终损失趋于收敛;
步骤47,获得最终训练好的用于视频稳定的循环神经网络。
步骤5:最后,将待稳定的测试视频输入到训练好的网络中,得到低质抖动视频的预测稳定版本。
本发明利用循环单元构成的链式结构可以在细胞单元之间传递时序状态信息的特性,在时间序列上学习并传递视频帧之间的运动状态,使网络对于时序信息有更好的理解,从而更加精准地预测最终稳定帧所需的扭曲参数,大幅度提升了模型对于低质量视频的稳定效果。
本发明的效果可通过以下仿真实验进一步说明:
(1)仿真内容
仿真实验采用的视频数据来自文献"Bundled camera paths for videostabilization." 的公开数据集。此视频数据集按照不同运动内容划分为6个类型,所有视频的长度在20~30秒之间,视频帧率大小为30FPS。在我们的实验中,我们选择了4个典型类别,包括常规(regular)、跑步(running)、视差(parallax)和人群(crowd),与另外两个深度学习视频稳定方法进行对比(StabNet和PWStableNet)。
本发明采用的评价指标是视频稳定工作中通用的三个客观指标,分别为剪裁率(cropping ratio, C)、失真度(distortion score, D)和稳定性评分(stability score,S),其中三个指标的范围为[0,1],数值越大表示效果越好。
(2)仿真条件
仿真实验均在Linux系统安装的python3.7下完成,硬件测试条件为NVIDIAGeForce RTX 2080 Ti的GPU,显卡内存为11GB。
(3)仿真实验结果分析
我们将各种视频稳定方法对于上述视频数据集中四类视频的客观指标得分平均值相比较,其结果如表1所示。
表1 不同方法的视频稳定效果指标对比
Figure 827717DEST_PATH_IMAGE077
通过表1可以看出,相比另外两个对比方法,本发明对奔跑、大视差等复杂场景下的抖动视频稳定有良好的鲁棒能力,在低质量视频中取得了更好的稳定效果。
并且本发明通过循环神经网络的迭代策略,在长时间序列上保留了历史运动状态信息,增强了网络对于抖动序列信息的感知能力,减少了画面的扭曲失真,在失真度指标上要略优于另外两种对比方法,再一次说明了本发明基于循环神经网络迭代策略视频稳定方法的有效性。
我们还将稳定前后的相邻帧做特征匹配进行拼接,并计算出画面中心点轨迹,作为相机运动轨迹的近似估计,如图7所示,图7中的(a)是抖动视频相机运动轨迹的近似估计图,图7中的(b)是稳定化视频相机运动轨迹的近似估计图。图7中的(c)为稳定前后运动轨迹的对比图,从图7中的(c)可以看出,本方法可以平滑相机运动的高频抖动,并且取得了良好的稳定效果。

Claims (4)

1.一种基于循环神经网络迭代策略的视频稳定方法,其特征在于,该方法包括以下步骤:
步骤1,采用抖动视频采集及稳定化处理硬件装置来获取成对视频数据,用于深度网络的训练;捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频,构成端对端的视频数据集样本;
步骤2,对采集的视频流样本进行预处理,包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化;
步骤3,将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合,构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息;
步骤4,将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络的训练过程;
像素对齐损失
Figure 294957DEST_PATH_IMAGE001
的计算模型如下,其中C、W、H分别表示输入图像的通道数,宽度和高度尺寸,将预测的扭曲变换
Figure 651989DEST_PATH_IMAGE002
应用于原始帧
Figure 158057DEST_PATH_IMAGE003
后计算其与地面真值稳定帧
Figure 843116DEST_PATH_IMAGE004
之间的均方误差:
Figure 460042DEST_PATH_IMAGE005
之后使用特征提取算法在帧
Figure 671581DEST_PATH_IMAGE003
Figure 348550DEST_PATH_IMAGE004
中提取的
Figure 520905DEST_PATH_IMAGE006
对匹配特征点
Figure 675943DEST_PATH_IMAGE007
Figure 7567DEST_PATH_IMAGE008
;将预测的扭曲变换
Figure 855438DEST_PATH_IMAGE002
应用于特征点
Figure 515089DEST_PATH_IMAGE007
,按照如下公式计算特征对齐损失
Figure 473818DEST_PATH_IMAGE009
Figure 535315DEST_PATH_IMAGE010
再利用预训练的深度卷积网络Net,从输入图像数据中提取深层次的特征信息,作为高频特征提取器,来计算扭曲后的预测稳定帧与地面真值稳定帧
Figure 413141DEST_PATH_IMAGE004
之间的相似性,感知损失
Figure 560088DEST_PATH_IMAGE011
的计算公式为:
Figure 322508DEST_PATH_IMAGE012
然后把前一个时间步下预测的稳定帧
Figure 363145DEST_PATH_IMAGE013
用光流扭曲算法
Figure 287239DEST_PATH_IMAGE014
,扭曲到当前时间步t下,来计算时间损失
Figure 921483DEST_PATH_IMAGE015
,使相邻帧的过度更加平滑,其公式如下:
Figure 222014DEST_PATH_IMAGE016
最后将计算的四种损失函数加权求和,作为循环神经网络的最终损失
Figure 382737DEST_PATH_IMAGE017
,监督网络的训练过程;其计算公式如下:
Figure 477732DEST_PATH_IMAGE018
其中
Figure 864851DEST_PATH_IMAGE019
Figure 969073DEST_PATH_IMAGE020
Figure 594089DEST_PATH_IMAGE021
Figure 250199DEST_PATH_IMAGE022
是各损失的加权参数,调整加权参数大小,使得各种损失对网络训练的约束能力相当;
在网络的训练阶段,使用正态分布初始化网络权重;动态调整学习率使网络的损失趋于收敛;训练结束之后,得到用于视频稳定的循环神经网络;
步骤5,将待稳定的测试视频输入到训练好的网络中,得到低质抖动视频的预测稳定版本。
2.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法,其特征在于,步骤1中采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据;其中一个视频捕获设备使用手持云台稳定装置进行稳定化处理,另外一个视频捕获设备则通过固定支架与手柄连接,从而保持与原始手部运动的一致,得到低质抖动视频;该硬件装置实时采集低质抖动视频和硬件稳定化后的稳定视频数据,构成端对端的视频数据集样本。
3.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法,其特征在于,步骤2中将采集的视频流成对样本的每一帧画面在时间序列上对齐,并通过剪裁来消除差异;再将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容进行类别划分与标注;最后将所有视频帧缩放到256像素大小的相同尺度,并进行亮度归一化,作为后续网络的输入。
4.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法,其特征在于,步骤3中构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息,来预测最终的稳定画面;低质抖动视频帧序列在网络前向传播的过程如下:
首先用零初始化两个隐藏状态
Figure 593455DEST_PATH_IMAGE023
Figure 501369DEST_PATH_IMAGE024
;在当前时间步t下,将预处理后训练集中的抖动视频帧序列
Figure 246471DEST_PATH_IMAGE025
中的
Figure 807902DEST_PATH_IMAGE003
输入到特征编码器
Figure 904034DEST_PATH_IMAGE026
中,用多层卷积结构提取抖动帧画面
Figure 84480DEST_PATH_IMAGE003
中更深层次的特征信息
Figure 808722DEST_PATH_IMAGE027
;之后结合上一个时间步的隐藏状态
Figure 947579DEST_PATH_IMAGE028
Figure 265428DEST_PATH_IMAGE029
,在记忆选择器
Figure 249565DEST_PATH_IMAGE030
的门控单元上应用卷积操作来分别计算输入门状态
Figure 969259DEST_PATH_IMAGE031
、遗忘门状态
Figure 138072DEST_PATH_IMAGE032
、输出门状态
Figure 943217DEST_PATH_IMAGE033
和输入数据
Figure 731045DEST_PATH_IMAGE034
,其中
Figure 305245DEST_PATH_IMAGE035
Figure 644960DEST_PATH_IMAGE036
代表各卷积操作的参数;最后计算当前不稳定帧
Figure 671822DEST_PATH_IMAGE003
的中间稳定状态
Figure 263340DEST_PATH_IMAGE037
Figure 692047DEST_PATH_IMAGE038
,公式如下:
Figure 214382DEST_PATH_IMAGE039
Figure 994119DEST_PATH_IMAGE040
Figure 123749DEST_PATH_IMAGE041
Figure 406963DEST_PATH_IMAGE042
Figure 354059DEST_PATH_IMAGE043
Figure 355513DEST_PATH_IMAGE044
再使用参数回归器
Figure 288834DEST_PATH_IMAGE045
,在中间稳定状态
Figure 426554DEST_PATH_IMAGE037
Figure 544552DEST_PATH_IMAGE038
中回归一个
Figure 33302DEST_PATH_IMAGE046
的矢量
Figure 504735DEST_PATH_IMAGE047
,作为扭曲画面的
Figure 762541DEST_PATH_IMAGE048
单应变换矩阵
Figure 51440DEST_PATH_IMAGE002
除尺度变量外的前8个参数;稳定画面
Figure 761907DEST_PATH_IMAGE013
由如下数学模型计算而得:
Figure 37030DEST_PATH_IMAGE049
其中*表示扭曲映射;之后对稳定画面
Figure 414922DEST_PATH_IMAGE013
进行裁剪和缩放,来消除由扭曲引入的无意义黑色边界,得到最后的稳定结果;
然后将中间稳定状态
Figure 609143DEST_PATH_IMAGE037
Figure 72485DEST_PATH_IMAGE038
送入与特征编码器
Figure 885720DEST_PATH_IMAGE026
跳跃链接的帧解码器
Figure 118119DEST_PATH_IMAGE050
中,从残差特征中恢复原始不稳定帧
Figure 483241DEST_PATH_IMAGE003
的一个稳定版本
Figure 433879DEST_PATH_IMAGE051
;之后开始帧内迭代策略,将稳定版本
Figure 50806DEST_PATH_IMAGE051
再次送入特征编码器和记忆选择器中来获得更深层次特征信息
Figure 137710DEST_PATH_IMAGE052
以及更新之后的隐藏状态
Figure 939313DEST_PATH_IMAGE053
Figure 111668DEST_PATH_IMAGE054
,用来传递给下一个时间步,从而结束帧内迭代;
最后跳入进入下一个时间步,重复上述步骤,完成帧间迭代,获得抖动视频帧序列
Figure 266706DEST_PATH_IMAGE025
的预测稳定序列
Figure 473697DEST_PATH_IMAGE055
CN202011054088.7A 2020-09-30 2020-09-30 基于循环神经网络迭代策略的视频稳定方法 Active CN111901532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011054088.7A CN111901532B (zh) 2020-09-30 2020-09-30 基于循环神经网络迭代策略的视频稳定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011054088.7A CN111901532B (zh) 2020-09-30 2020-09-30 基于循环神经网络迭代策略的视频稳定方法

Publications (2)

Publication Number Publication Date
CN111901532A CN111901532A (zh) 2020-11-06
CN111901532B true CN111901532B (zh) 2020-12-25

Family

ID=73224019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011054088.7A Active CN111901532B (zh) 2020-09-30 2020-09-30 基于循环神经网络迭代策略的视频稳定方法

Country Status (1)

Country Link
CN (1) CN111901532B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819743A (zh) * 2021-02-08 2021-05-18 福建帝视信息科技有限公司 一种基于神经网络的通用视频时域对齐方法
CN113163121A (zh) * 2021-04-21 2021-07-23 安徽清新互联信息科技有限公司 一种视频防抖方法及可读存储介质
CN113706414B (zh) * 2021-08-26 2022-09-09 荣耀终端有限公司 视频优化模型的训练方法和电子设备
CN115242966A (zh) * 2022-05-24 2022-10-25 浙江华感科技有限公司 一种摄像设备的防抖方法、装置和计算机可读存储介质
CN116828211B (zh) * 2023-08-30 2023-11-14 华洋通信科技股份有限公司 一种矿下视频无线传输自适应编码方法
CN117237358B (zh) * 2023-11-15 2024-02-06 天津大学 一种基于度量学习的立体图像质量评价方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596090B (zh) * 2018-04-24 2019-08-27 北京达佳互联信息技术有限公司 人脸图像关键点检测方法、装置、计算机设备及存储介质
CN109671061B (zh) * 2018-12-07 2021-05-04 深圳美图创新科技有限公司 一种图像分析方法、装置、计算设备及存储介质
US10482584B1 (en) * 2019-01-31 2019-11-19 StradVision, Inc. Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same

Also Published As

Publication number Publication date
CN111901532A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111901532B (zh) 基于循环神经网络迭代策略的视频稳定方法
Wang et al. Esrgan: Enhanced super-resolution generative adversarial networks
CN109064507B (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN109671023B (zh) 一种人脸图像超分辨率二次重建方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
Reda et al. Unsupervised video interpolation using cycle consistency
CN111709895A (zh) 基于注意力机制的图像盲去模糊方法及系统
CN110580472B (zh) 一种基于全卷积网络和条件对抗网络的视频前景检测方法
Royer et al. Probabilistic image colorization
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN113159019B (zh) 一种基于光流变换的暗光视频增强方法
Shouno Photo-realistic video prediction on natural videos of largely changing frames
WO2024002211A1 (zh) 一种图像处理方法及相关装置
CN112288627A (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN114339030B (zh) 一种基于自适应可分离卷积的网络直播视频稳像方法
Guo et al. Dense123'color enhancement dehazing network
Aakerberg et al. Semantic segmentation guided real-world super-resolution
KS et al. Deep multi-stage learning for hdr with large object motions
Chen et al. Image denoising via deep network based on edge enhancement
Liu et al. End‐to‐end learning interpolation for object tracking in low frame‐rate video
Wang et al. Uneven image dehazing by heterogeneous twin network
Zhang et al. Single image dehazing via reinforcement learning
CN114066750B (zh) 一种基于域变换的自编码器去模糊方法
CN105160664B (zh) 基于低秩模型的压缩感知视频重构方法
Lee et al. Efficient Low Light Video Enhancement Based on Improved Retinex Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant