CN111901532A - 基于循环神经网络迭代策略的视频稳定方法 - Google Patents
基于循环神经网络迭代策略的视频稳定方法 Download PDFInfo
- Publication number
- CN111901532A CN111901532A CN202011054088.7A CN202011054088A CN111901532A CN 111901532 A CN111901532 A CN 111901532A CN 202011054088 A CN202011054088 A CN 202011054088A CN 111901532 A CN111901532 A CN 111901532A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- network
- neural network
- stable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/68—Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
- H04N23/682—Vibration or motion blur correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/557—Motion estimation characterised by stopping computation or iteration based on certain criteria, e.g. error magnitude being too large or early exit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于循环神经网络迭代策略的视频稳定方法,该方法包括:用抖动视频采集及稳定化处理硬件装置捕获成对视频数据;对采集的视频流样本进行预处理;设计并构造端到端的基于循环神经网络帧内与帧间迭代策略的全卷积深度神经网络;将预处理后的训练数据输入到循环神经网络中,使用四种损失的线性加权引导网络参数的训练过程,得到训练完成的模型;将低质抖动测试视频输入到训练好的神经网络中,得到目标视频的稳定版本。本发明通过循环神经网络的迭代策略在时间序列上,为每一个当前视频帧传递历史运动状态信息,增强了网络对于抖动序列帧信息的感知能力,从而更加精准的预测稳定画面。
Description
技术领域
本发明属于遥感图像处理技术领域,特别是一种基于循环神经网络迭代策略的视频稳定方法。
背景技术
遥感高光谱图像超分辨是目前应用广泛且热门的研究领域。视频作为图像的一种时序组合表达方式,很多视频处理算法对于一些低质量视频(模糊、躁点、画面抖动、光线不足)的鲁棒性不高,所以视频质量是考验视频处理算法性能的关键。而视频稳像可以作为这些算法的预处理步骤,通过提高视频画面质量来进一步提高算法性能。经过稳定之后的视频才可以更好的应用于超分辨、分类等各种视觉任务。
传统主流的视频稳像方法是基于多视图几何的图像处理方法,按照运动估计的不同可以细分为二维单应估计、三维运动重建、特征轨迹表示或者上述方法的混合方式。例如,何等人通过一种混合方法,首先用二维方法进行预稳定,再利用三维技术场景中稀疏点云和摄像机参数,来拟合摄像机轨迹的平滑二次曲线路径,最后根据新的摄像机参数,在预稳定和二维运动信息的约束下得到最终的稳定视频(何发智等. "一种二维三维混合的视频稳定方法." CN.)。Beysserie等人使用一种缓冲技术,使得当前帧还可以参照未来帧来调节稳定强度参数或加权参数。(Beysserie X, Sebastien, Zhou, Jianping, and BenSoussan, Stephane S. "Video image stabilization with enforced stabilizationconstraints." (2017).)这些传统方法遵循“估计->平滑->扭曲”的步骤来完成视频画面的稳定。然而从图像序列中估计镜头路径这本身就是一项挑战性难题,传统方法非常依赖于视频帧质量,当画面内容出现大视差、低光照、高模糊、快速运动等问题时这些传统稳像方法便可能失败。
近年来,随着神经网络在计算机视觉领域的兴起,一些基于卷积神经网络的方法用深度网络直接学习不稳定帧到稳定帧的扭曲变换,从而巧妙的避开了传统稳像方法流程中路径估计的难题。例如Wang等人构建了一个孪生编码结构的ConvNet网络来预测输入不稳定帧的单应射影变换,并且提出了一种硬件结构来捕获用于训练的视频稳定数据集(Wang, Miao, et al. Deep online video stabilization with multi-grid warpingtransformation learning[J]. IEEE Transactions on Image Processing 28.5(2018): 2283-2292.)。又比如,Zhao等人使用基于CNN的多级级联编解码的孪生网络来估计像素级的扭曲映射,取得了较好的效果(Zhao M, Ling Q. PWStableNet: LearningPixel-Wise Warping Maps for Video Stabilization[J]. IEEE Transactions onImage Processing, 2020, 29: 3582-3595.)。然而这些深度视频稳定方法仅仅将相邻时序视频帧在输入通道维度上进行堆叠,再设计时间正则化项来让卷积网络学习帧间运动的相干性,但是这种方法并不能很好的利用相邻帧的时序信息。
发明内容
本发明的目的在于提供一种基于循环神经网络迭代策略的视频稳定方法。
实现本发明目的的技术方案为:一种基于循环神经网络迭代策略的视频稳定方法,包括如下步骤:
步骤1,采用抖动视频采集及稳定化处理硬件装置来获取成对视频数据,用于深度网络的训练;捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频,构成端对端的视频数据集样本;
步骤2,对采集的视频流样本进行预处理,包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化;
步骤3,将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合,构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息;
步骤4,将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络的训练过程;
步骤5,将待稳定的测试视频输入到训练好的网络中,得到低质抖动视频的预测稳定版本。
进一步的,步骤1中采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据;其中一个视频捕获设备使用手持云台稳定装置进行稳定化处理,另外一个视频捕获设备则通过固定支架与手柄连接,从而保持与原始手部运动的一致,得到低质抖动视频;该硬件装置实时采集低质抖动视频和硬件稳定化后的稳定视频数据,构成端对端的视频数据集样本。
进一步的,步骤2中将采集的视频流成对样本的每一帧画面在时间序列上对齐,并通过剪裁来消除差异;再将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容进行类别划分与标注;最后将所有视频帧缩放到256像素大小的相同尺度,并进行亮度归一化,作为后续网络的输入。
进一步的,步骤3中构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息,来预测最终的稳定画面;低质抖动视频帧序列在网络前向传播的过程如下:
首先用零初始化两个隐藏状态和;在当前时间步t下,将预处理后训练集中的抖动视频帧序列中的输入到特征编码器中,用多层卷积结构提取抖动帧画面中更深层次的特征信息;之后结合上一个时间步的隐藏状态、,在记忆选择器的门控单元上应用卷积操作来分别计算输入门状态、遗忘门状态、输出门状态和输入数据,其中和代表各卷积操作的参数;最后计算当前不稳定帧的中间稳定状态和,公式如下:
然后将中间稳定状态和送入与特征编码器跳跃链接的帧解码器中,从残差特征中恢复原始不稳定帧的一个稳定版本;之后开始帧内迭代策略,将稳定版本再次送入特征编码器和记忆选择器中来获得更深层次特征信息以及更新之后的隐藏状态和,用来传递给下一个时间步,从而结束帧内迭代;
进一步的,步骤4中将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络的训练过程;像素对齐损失的计算模型如下,其中C、W、H分别表示输入图像的通道数,宽度和高度尺寸,将预测的扭曲变换应用于原始帧后计算其与地面真值稳定帧之间的均方误差:
在网络的训练阶段,使用正态分布初始化网络权重;动态调整学习率使网络的损失趋于收敛;训练结束之后,得到用于视频稳定的循环神经网络。
本发明与现有技术相比,其显著特点在于:(1)本发明通过一个抖动视频采集及稳定化处理硬件装置可以同时捕获目标场景的低质抖动视频和稳定化视频,为神经网络的训练提供数据支持;(2)对视频数据集进行类别划分,使网络训练过程具有针对性,增加应对复杂情况下视频处理的鲁棒能力;(3)利用帧间迭代和帧内迭代策略,使帧间运动信息在时间序列上进行传递,大幅度提升预测扭曲参数的精度;(4)本发明方法适用于任意低质量视频画面;并且本方法没有使用未来帧序列信息辅助视频稳定过程,符合实时稳定的标准;(5)本发明通过循环神经网络的迭代策略在时间序列上,为每一个当前视频帧传递历史运动状态信息,增强了网络对于抖动序列帧信息的感知能力,从而更加精准的预测稳定画面;(6)本发明利用按照不同运动内容标注分类后的视频数据集,来提高模型对于挑战性环境下复杂运动产生的抖动视频稳定的鲁棒能力,从而达到对于低质量视频更好的稳定效果。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是基于循环神经网络迭代策略的视频稳定方法的主流程图。
图2是对采集的视频流样本进行预处理的流程图。
图3是低质抖动视频帧序列在循环神经网络网络前向传播的流程图。
图4是网络训练流程图。
图5是抖动视频采集及稳定化处理硬件装置线条结构图。
图6是类别标注后的各类视频缩略图,其中图6(a)~图6(i)分别为简单、跑步、快速旋转、交通工具、大视差、不连续深度、近距离遮挡、人群、低质量视频缩略图。
图7为稳定前后运动轨迹及其对比示意图,其中图7(a)是抖动视频相机运动轨迹的近似估计图,图7(b)是稳定化视频相机运动轨迹的近似估计图,图7(c)是稳定前后运动轨迹的对比图。
具体实施方式
本发明将遥感图像处理技术与深度学习相结合,提供一种基于循环神经网络迭代策略的视频稳定方法,实现对于抖动序列图像的稳定以及画面质量的提高。循环神经网络可以在长时间序列上传递视频帧之间的运动状态,并为当前帧扭曲提供参考,使得稳定后的画面更加连贯清晰。该方法思路简单明确,避免了因丢失帧间时序关系而导致的不真实的抖动伪影,通过循环神经网络的迭代策略更新所学的隐藏状态,从而有效地提高了稳定的效果。
结合图1,详细说明本发明方法的主流程步骤:
步骤1:采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据,用于深度网络的训练;捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频,构成端对端的视频数据集样本;其具体步骤如下:
步骤11,如图5所示,准备如下硬件设备:其中6为两部型号相同的摄像设备,一个手持云台稳定器包含云台转动轴7和云台电机8以及足够长度的固定支架9;
步骤12,开启摄像镜头,保持两个设备在同一竖直平面;
步骤13,用手持云台稳定化装置对一个摄像设备进行稳定,获取稳定视频画面。另外一个摄像设备通过固定支架连接在手柄上,与原始手部运动保持一致,获得低质抖动视频;
步骤14,在不同环境内容、不同运动模式下同时采集成对的视频数据集样本;
步骤2:如图2所示,对采集的视频流样本进行预处理,包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化,具体步骤如下:
步骤22,将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容分为以下九个类别:(1)简单(2)跑步(3)快速旋转(4)交通工具(5)大视差(6)不连续深度(7)近距离遮挡(8)人群(9)低质量,进行类别标注,除“简单”和“低质量”有30组视频以外,其他类别各有10组,视频缩略图如图6所示。随后按照9:1的比例将视频数据集划分为训练集与测试集;
步骤23,将分类后视频中的每一帧图像的长宽缩放到256像素大小,并将原始RGB图像的亮度范围从(0~255)归一化至(0~1)范围内,以对应后续网络的输入;
步骤3:如图3所示,将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合,构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;低质抖动视频帧序列在网络中前向传播的具体步骤如下:
步骤31,先用零初始化隐藏状态和。将预处理后训练集中的抖动视频帧序列按照时间顺序输入循环神经网络中,设置训练的时间步长为20,并将每次训练序列的第一帧复制次,放在序列头部,以获得一个相对静止的初始运动状态,让后续帧序列的隐藏状态拥有足够的缓冲时间;
步骤32,在当前时间步t下,将预处理后训练集中的抖动视频帧序列中的输入到特征编码器中,经过卷积核大小不同的三个Conv-BatchNorm-LeakyRelu-MaxPool组合以及最后一个拓展特征通道的卷积操作,在以为尺寸的输入彩色帧中提取大小为的更深层次特征信息;
步骤33,将步骤32得到的特征信息结合上一个时间步传递的隐藏状态、,在记忆选择器的门控单元上应用卷积操作来分别计算输入门状态、遗忘门状态、输出门状态和输入数据,其中和代表各卷积操作的参数。最后计算当前不稳定帧 的中间稳定状态和,公式如下:
由于上式中的卷积计算过程大多一致,因此我们可以使用单个卷积层的多个滤波器卷积核方式,完成所有门控状态的计算。我们将利用缓慢变化的在帧间传递镜头的运动状态,以消除高频抖动噪声带来的突变。而则负责从运动状态与特征信息中进行“选择性输出”,所以在不同的时间步单元下往往会非常不同,从而分析出适用于当前帧画面的目标稳定状态。
步骤36,将步骤33得到的中间稳定状态和送入帧解码器中。帧解码器由与特征编码器对应的三个DeConv-Conv-BatchNorm-LeakyRelu-MaxPool操作和一个卷积来组成,并且引入了跳跃链接方式,将编码器对应阶段的特征映射融合到当前阶段中,从残差特征中恢复原始不稳定帧的一个稳定版本;
步骤4:如图4所示,将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络在训练过程中获得更好的稳定能力,具体步骤如下:
来使预测稳定帧逼近地面真值;
步骤42,使用加速鲁棒特征(SURF)和随机一致性采样(RANSAC)作为特征检测算法在帧和中提取的对匹配特征点 和 。将预测的扭曲变换 应用于特征点 ,按照如下公式计算变换后的特征点坐标与地面真值帧的特征点之间的平均对齐误差,作为特征对齐损失:
步骤46,在网络的训练阶段,使用正态分布初始化网络权重;动态调整学习率使网络的损失趋于收敛。本实施例中,使用,的正态分布来初始化网络权重;选择,参数设置下的Adam优化器作为网络的优化策略;初始学习率设置为0.002,每10轮乘以0.1;训练足够的轮数使网络的最终损失趋于收敛;
步骤47,获得最终训练好的用于视频稳定的循环神经网络。
步骤5:最后,将待稳定的测试视频输入到训练好的网络中,得到低质抖动视频的预测稳定版本。
本发明利用循环单元构成的链式结构可以在细胞单元之间传递时序状态信息的特性,在时间序列上学习并传递视频帧之间的运动状态,使网络对于时序信息有更好的理解,从而更加精准地预测最终稳定帧所需的扭曲参数,大幅度提升了模型对于低质量视频的稳定效果。
本发明的效果可通过以下仿真实验进一步说明:
(1)仿真内容
仿真实验采用的视频数据来自文献"Bundled camera paths for videostabilization." 的公开数据集。此视频数据集按照不同运动内容划分为6个类型,所有视频的长度在20~30秒之间,视频帧率大小为30FPS。在我们的实验中,我们选择了4个典型类别,包括常规(regular)、跑步(running)、视差(parallax)和人群(crowd),与另外两个深度学习视频稳定方法进行对比(StabNet和PWStableNet)。
本发明采用的评价指标是视频稳定工作中通用的三个客观指标,分别为剪裁率(cropping ratio, C)、失真度(distortion score, D)和稳定性评分(stability score,S),其中三个指标的范围为[0,1],数值越大表示效果越好。
(2)仿真条件
仿真实验均在Linux系统安装的python3.7下完成,硬件测试条件为NVIDIA GeForceRTX 2080 Ti的GPU,显卡内存为11GB。
(3)仿真实验结果分析
我们将各种视频稳定方法对于上述视频数据集中四类视频的客观指标得分平均值相比较,其结果如表1所示。
表1 不同方法的视频稳定效果指标对比
通过表1可以看出,相比另外两个对比方法,本发明对奔跑、大视差等复杂场景下的抖动视频稳定有良好的鲁棒能力,在低质量视频中取得了更好的稳定效果。
并且本发明通过循环神经网络的迭代策略,在长时间序列上保留了历史运动状态信息,增强了网络对于抖动序列信息的感知能力,减少了画面的扭曲失真,在失真度指标上要略优于另外两种对比方法,再一次说明了本发明基于循环神经网络迭代策略视频稳定方法的有效性。
我们还将稳定前后的相邻帧做特征匹配进行拼接,并计算出画面中心点轨迹,作为相机运动轨迹的近似估计,如图7所示,图7(a)是抖动视频相机运动轨迹的近似估计图,图7(b)是稳定化视频相机运动轨迹的近似估计图。图7(c)为稳定前后运动轨迹的对比图,从图7(c)可以看出,本方法可以平滑相机运动的高频抖动,并且取得了良好的稳定效果。
Claims (5)
1.一种基于循环神经网络迭代策略的视频稳定方法,其特征在于,该方法包括以下步骤:
步骤1,采用抖动视频采集及稳定化处理硬件装置来获取成对视频数据,用于深度网络的训练;捕获的数据包括实时采集的低质抖动视频和硬件稳定化后的稳定视频,构成端对端的视频数据集样本;
步骤2,对采集的视频流样本进行预处理,包括对齐时间轴、剪裁一致画面内容、按照运动内容进行类别标注、分割训练集和测试集、缩放到相同的尺度并进行亮度归一化;
步骤3,将跳跃链接的特征编解码器、用于迭代的循环单元和预测扭曲参数的回归器在输入与输出上进行组合,构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息;
步骤4,将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络的训练过程;
步骤5,将待稳定的测试视频输入到训练好的网络中,得到低质抖动视频的预测稳定版本。
2.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法,其特征在于,步骤1中采用一个抖动视频采集及稳定化处理硬件装置来获取成对视频数据;其中一个视频捕获设备使用手持云台稳定装置进行稳定化处理,另外一个视频捕获设备则通过固定支架与手柄连接,从而保持与原始手部运动的一致,得到低质抖动视频;该硬件装置实时采集低质抖动视频和硬件稳定化后的稳定视频数据,构成端对端的视频数据集样本。
3.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法,其特征在于,步骤2中将采集的视频流成对样本的每一帧画面在时间序列上对齐,并通过剪裁来消除差异;再将所有抖动视频按照镜头运动类型、抖动程度和视频画面中的挑战性内容进行类别划分与标注;最后将所有视频帧缩放到256像素大小的相同尺度,并进行亮度归一化,作为后续网络的输入。
4.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法,其特征在于,步骤3中构造端到端的基于循环神经网络迭代策略的全卷积深度神经网络;该网络通过帧间迭代和帧内迭代策略更新隐藏状态,并按照时间顺序传递视频帧的运动状态信息,来预测最终的稳定画面;低质抖动视频帧序列在网络前向传播的过程如下:
首先用零初始化两个隐藏状态和;在当前时间步t下,将预处理后训练集中的抖动视频帧序列中的输入到特征编码器中,用多层卷积结构提取抖动帧画面中更深层次的特征信息;之后结合上一个时间步的隐藏状态、,在记忆选择器的门控单元上应用卷积操作来分别计算输入门状态、遗忘门状态、输出门状态和输入数据,其中和代表各卷积操作的参数;最后计算当前不稳定帧的中间稳定状态和,公式如下:
然后将中间稳定状态和送入与特征编码器跳跃链接的帧解码器中,从残差特征中恢复原始不稳定帧的一个稳定版本;之后开始帧内迭代策略,将稳定版本再次送入特征编码器和记忆选择器中来获得更深层次特征信息以及更新之后的隐藏状态和,用来传递给下一个时间步,从而结束帧内迭代;
5.根据权利要求1所述的基于循环神经网络迭代策略的视频稳定方法,其特征在于,步骤4中将预处理后的训练数据集输入到循环神经网络中,利用四种不同作用损失函数的线性加权作为网络最终的损失,来引导网络的训练过程;像素对齐损失的计算模型如下,其中C、W、H分别表示输入图像的通道数,宽度和高度尺寸,将预测的扭曲变换应用于原始帧后计算其与地面真值稳定帧之间的均方误差:
在网络的训练阶段,使用正态分布初始化网络权重;动态调整学习率使网络的损失趋于收敛;训练结束之后,得到用于视频稳定的循环神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011054088.7A CN111901532B (zh) | 2020-09-30 | 2020-09-30 | 基于循环神经网络迭代策略的视频稳定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011054088.7A CN111901532B (zh) | 2020-09-30 | 2020-09-30 | 基于循环神经网络迭代策略的视频稳定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111901532A true CN111901532A (zh) | 2020-11-06 |
CN111901532B CN111901532B (zh) | 2020-12-25 |
Family
ID=73224019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011054088.7A Active CN111901532B (zh) | 2020-09-30 | 2020-09-30 | 基于循环神经网络迭代策略的视频稳定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111901532B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819743A (zh) * | 2021-02-08 | 2021-05-18 | 福建帝视信息科技有限公司 | 一种基于神经网络的通用视频时域对齐方法 |
CN113163121A (zh) * | 2021-04-21 | 2021-07-23 | 安徽清新互联信息科技有限公司 | 一种视频防抖方法及可读存储介质 |
CN113706414A (zh) * | 2021-08-26 | 2021-11-26 | 荣耀终端有限公司 | 视频优化模型的训练方法和电子设备 |
CN115242966A (zh) * | 2022-05-24 | 2022-10-25 | 浙江华感科技有限公司 | 一种摄像设备的防抖方法、装置和计算机可读存储介质 |
CN116828211A (zh) * | 2023-08-30 | 2023-09-29 | 华洋通信科技股份有限公司 | 一种矿下视频无线传输自适应编码方法 |
CN117237358A (zh) * | 2023-11-15 | 2023-12-15 | 天津大学 | 一种基于度量学习的立体图像质量评价方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596090A (zh) * | 2018-04-24 | 2018-09-28 | 北京达佳互联信息技术有限公司 | 人脸图像关键点检测方法、装置、计算机设备及存储介质 |
CN109671061A (zh) * | 2018-12-07 | 2019-04-23 | 深圳美图创新科技有限公司 | 一种图像分析方法、装置、计算设备及存储介质 |
EP3690811A1 (en) * | 2019-01-31 | 2020-08-05 | StradVision, Inc. | Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same |
-
2020
- 2020-09-30 CN CN202011054088.7A patent/CN111901532B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596090A (zh) * | 2018-04-24 | 2018-09-28 | 北京达佳互联信息技术有限公司 | 人脸图像关键点检测方法、装置、计算机设备及存储介质 |
CN109671061A (zh) * | 2018-12-07 | 2019-04-23 | 深圳美图创新科技有限公司 | 一种图像分析方法、装置、计算设备及存储介质 |
EP3690811A1 (en) * | 2019-01-31 | 2020-08-05 | StradVision, Inc. | Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819743A (zh) * | 2021-02-08 | 2021-05-18 | 福建帝视信息科技有限公司 | 一种基于神经网络的通用视频时域对齐方法 |
CN113163121A (zh) * | 2021-04-21 | 2021-07-23 | 安徽清新互联信息科技有限公司 | 一种视频防抖方法及可读存储介质 |
CN113706414A (zh) * | 2021-08-26 | 2021-11-26 | 荣耀终端有限公司 | 视频优化模型的训练方法和电子设备 |
CN113706414B (zh) * | 2021-08-26 | 2022-09-09 | 荣耀终端有限公司 | 视频优化模型的训练方法和电子设备 |
CN115242966A (zh) * | 2022-05-24 | 2022-10-25 | 浙江华感科技有限公司 | 一种摄像设备的防抖方法、装置和计算机可读存储介质 |
CN116828211A (zh) * | 2023-08-30 | 2023-09-29 | 华洋通信科技股份有限公司 | 一种矿下视频无线传输自适应编码方法 |
CN116828211B (zh) * | 2023-08-30 | 2023-11-14 | 华洋通信科技股份有限公司 | 一种矿下视频无线传输自适应编码方法 |
CN117237358A (zh) * | 2023-11-15 | 2023-12-15 | 天津大学 | 一种基于度量学习的立体图像质量评价方法 |
CN117237358B (zh) * | 2023-11-15 | 2024-02-06 | 天津大学 | 一种基于度量学习的立体图像质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111901532B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111901532B (zh) | 基于循环神经网络迭代策略的视频稳定方法 | |
Wang et al. | Esrgan: Enhanced super-resolution generative adversarial networks | |
CN109064507B (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN109671023B (zh) | 一种人脸图像超分辨率二次重建方法 | |
Reda et al. | Unsupervised video interpolation using cycle consistency | |
CN110675328B (zh) | 基于条件生成对抗网络的低照度图像增强方法及装置 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN110163246A (zh) | 基于卷积神经网络的单目光场图像无监督深度估计方法 | |
Royer et al. | Probabilistic image colorization | |
CN110580472B (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN114463218B (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN113159019B (zh) | 一种基于光流变换的暗光视频增强方法 | |
CN113947589A (zh) | 一种基于对抗生成网络的弹载图像去模糊方法 | |
Shouno | Photo-realistic video prediction on natural videos of largely changing frames | |
Guo et al. | Dense123'color enhancement dehazing network | |
WO2024002211A1 (zh) | 一种图像处理方法及相关装置 | |
Aakerberg et al. | Semantic segmentation guided real-world super-resolution | |
KS et al. | Deep multi-stage learning for hdr with large object motions | |
CN102222321A (zh) | 一种视频序列盲重建方法 | |
Zheng et al. | Overwater image dehazing via cycle-consistent generative adversarial network | |
CN117893409A (zh) | 基于光照条件约束扩散模型的人脸超分辨率重建方法及系统 | |
Wang et al. | Uneven image dehazing by heterogeneous twin network | |
Yang et al. | Blind VQA on 360° video via progressively learning from pixels, frames, and video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |