CN111371983A - 一种视频在线稳定方法及系统 - Google Patents

一种视频在线稳定方法及系统 Download PDF

Info

Publication number
CN111371983A
CN111371983A CN201811599338.8A CN201811599338A CN111371983A CN 111371983 A CN111371983 A CN 111371983A CN 201811599338 A CN201811599338 A CN 201811599338A CN 111371983 A CN111371983 A CN 111371983A
Authority
CN
China
Prior art keywords
video
frame image
neural network
convolutional neural
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811599338.8A
Other languages
English (en)
Inventor
胡事民
汪淼
杨国烨
林锦坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811599338.8A priority Critical patent/CN111371983A/zh
Publication of CN111371983A publication Critical patent/CN111371983A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • H04N23/683Vibration or motion blur correction performed by a processor, e.g. controlling the readout of an image memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种视频在线稳定方法及系统,该方法包括:获取待测视频和训练后的卷积神经网络;将所述待测视频中位于当前帧图像及之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数;通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;直到处理完所述待测视频的所有帧,获取稳定后的待测视频。本发明实施例提供的一种视频在线稳定方法及系统,通过深度卷积神经网络解决了视频稳定化的问题,并且,本发明实施例的可并行度高,在GPU上的运行速度比传统离线方法快十倍,扩展了视频稳定化的应用场景。

Description

一种视频在线稳定方法及系统
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种视频在线稳定方法及系统。
背景技术
随着移动设备与社交网络的快速发展,使用手机等移动设备拍摄成为了常见的网络媒体形式之一。由于高频抖动,视频稳定技术对于大多数手持拍摄视频至关重要。先前已经提出了几种基于2D、2.5D和3D的稳定技术,但据我们所知,迄今为止还没有提出基于深度卷积神经网络的解决方案。这种遗漏的主要原因是训练数据的不足以及使用神经网络对问题建模的挑战。
在视频稳定化领域,Grundmann等人在2011年提出用基于L1路径优化的方法对手持拍摄的视频进行稳定化,Liu等人在2013年提出将视频图像域划分成规则网格,通过对每个网格内的视频内容进行平滑,从而对视频整体内容进行稳定化。总体来讲,视频稳定化技术可以分为基于三维的场景重建的方法与基于二维特征点跟踪的方法将相机路径进行表达并平滑。
近年来,在深度卷积神经网络在计算机视觉任务方面的应用,可以预测光流,相机运动或语义。也有很多直接产生视频的应用,如场景动态生成,帧插值和去模糊,但是预测长视频序列仍然是一个具有挑战性的问题,所以上述所有工作仅使用两个或几个连续帧作为训练样本。
因此,亟需一种在深度卷积神经网络领域解决视频稳定化问题的方法。
发明内容
针对上述问题,本发明实施例提供一种视频在线稳定方法及系统。
第一方面,本发明实施例提供一种视频在线稳定方法,包括:
S1,获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
S2,将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
S3,通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
S4,重复步骤S2至S3,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
第二方面,本发明实施例提供一种视频在线稳定系统,包括:
获取模块,用于获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
变形模块,用于将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
转换模块,用于通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
处理模块,用于重复上述步骤,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
第三方面,本发明实施例提供一种电子设备,包括:
至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面提供的一种视频在线稳定方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面提供的一种视频在线稳定方法。
本发明实施例提供的一种视频在线稳定方法及系统,通过深度卷积神经网络解决了视频稳定化的问题,并且,本发明实施例的可并行度高,在GPU上的运行速度比传统离线方法快十倍,扩展了视频稳定化的应用场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种视频在线稳定方法的流程图;
图2为本发明实施例中卷积神经网络的结构示意图;
图3为本发明实施例中的形变项变量示意图;
图4为本发明实施例一种视频在线稳定系统的结构示意图;
图5示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种视频在线稳定方法的流程图,如图1所示,该方法包括:
S1,获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
S2,将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
S3,通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
S4,重复步骤S2至S3,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
首先获取待测视频和训练后的卷积神经网络,待测视频是指需要进行稳定化的视频,也就是说待测视频中的图像是不稳定的,通过训练视频集中的训练视频,对初始卷积神经网络进行训练得到训练后的卷积神经网络。
为了方便描述,用I表示当前帧,I+1表示当前帧的下一帧,待测视频中的前I帧表示已经稳定化后的帧序,将待测视频中的前I帧中的若干帧以及需要进行稳定化的第I+1帧输入到训练后的卷积神经网络中,得到变形参数,变形参数表示将不稳定图像变换为稳定图像的网格参数。
变形参数的具体获得过程为:
若为4*4的网格,则需要回归5*5个网格变换后的坐标,每个坐标的变换用(dx,dy)表示与原坐标的差,故总共需要回归5*5*2个值表示变换。
通过获得的变形参数,对第I+1帧图像进行转换,使得第I+1帧图像变为稳定的图像,按照上面的步骤依次将不稳定的图像变为稳定的图像,直到待测视频中所有不稳定的图像都变为稳定的图像,从而完成对视频的在线稳定。
本发明实施例提供的一种视频在线稳定方法,通过深度卷积神经网络解决了视频稳定化的问题,并且,本发明实施例的可并行度高。
在上述实施例的基础上,优选地,所述训练视频集中包括若干对训练视频,对于任一对训练视频,所述任一对训练视频中两个训练视频的拍摄路径和拍摄时间相同,所述任一对训练视频中的其中一个视频是通过位于稳定云台上的相机拍摄得到的,所述任一训练视频中的另外一个视频与使用者的手或身体的运动一致。
具体地,训练视频集中的视频具有如下特征:该训练视频集中包括若干对训练视频,每一对训练视频中包括2个训练视频,其中一个训练视频是由位于稳定云台上相机拍摄的,由于该相机位于稳定云台上,所以拍摄出来的视频是稳定的,另外一个视频是通过绑定在云台的不可进行去抖的握持杆上的相机拍摄的,由于在拍摄过程中可能会有抖动,所以这样拍摄出来的视频是不稳定的,通过这两种方法拍摄出来的视频的拍摄路径和拍摄时间相同。
在训练时,输入的前序稳定帧用数据集中一对视频里稳定视频的前序帧代替。
在上述实施例的基础上,优选地,图2为本发明实施例中卷积神经网络的结构示意图,如图2所示,所述初始卷积神经网络为StabNet,StabNet由一个编码器和一个网格格点回归器组成,所述编码器由ResNet-50实现,所述网格格点回归器由若干个全连接层组成。
具体地,所述通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像稳定后的下一帧图像,具体为:
Figure BDA0001922067220000051
其中,
Figure BDA0001922067220000052
表示稳定后的下一帧图像,It表示所述当前帧图像的下一帧图像,Ft表示所述变形参数。
对于一个需要进行稳定化的帧,可以等分的把该帧切成4乘以4的网格
Figure BDA0001922067220000061
然后回归对这个网格的变换Ft={ft i,j|1≤i,j≤4}。
其中,ft i,j表示帧与网格
Figure BDA0001922067220000062
的差
Figure BDA0001922067220000063
网络可以回归网格格点的变换,并且用于变换输入的待稳定化的图像It
具体地,所述对初始卷积神经网络进行训练过程中约束条件中的视频稳定项为:
Lstab(Ft,It)=α1Lpixel(Ft,It)+α2Lfeature(Ft,It),
Figure BDA0001922067220000064
Figure BDA0001922067220000065
Figure BDA0001922067220000066
α1=50,α2=1
其中,Pt为m个It和It′中对应的特征点对集合,Lstab(Ft,It)表示生成结果的稳定性损失,Lpixel(Ft,It)表示生成结果与稳定监督图像的逐像素差别损失,Lfeature(Ft,It)表示生成结果与所述稳定监督图像通过的对应特征点距离损失,It′表示所述稳定监督图像,m表示求得的特征点数,
Figure BDA0001922067220000067
表示所述稳定监督图像的第i个特征点,
Figure BDA0001922067220000068
表示生成结果图像的第i个特征点。
图3为本发明实施例中的形变项变量示意图,如图3所示,图3中(a)为Lintra的当Lintra=0时的
Figure BDA0001922067220000069
Figure BDA00019220672200000610
示意图,图3中(b)为Linter的Linter=0时的
Figure BDA00019220672200000611
Figure BDA00019220672200000612
Figure BDA00019220672200000613
示意图。
具体地,所述初始卷积神经网络进行训练过程中约束条件的形变约束项为:
Lshape(Ft,Gt)=γ1Lintra(Ft,Gt)+γ2Linter(Ft,Gt),
Figure BDA00019220672200000614
Figure BDA0001922067220000071
Figure BDA0001922067220000072
Figure BDA0001922067220000073
Figure BDA0001922067220000074
Figure BDA0001922067220000075
γ1=1,γ2=20,
其中,
Figure BDA0001922067220000076
Figure BDA0001922067220000077
是相邻的格点,Lshape(Ft,Gt)表示网格的变形度损失,Lintra(Ft,Gt)表示单个格子扭曲度损失,Linter(Ft,Gt)表示相邻格子不一致性损失,Gt表示4乘4的网格,
Figure BDA0001922067220000078
Figure BDA0001922067220000079
是一条直线上的3个相邻格点。
具体地,所述初始卷积神经网络进行训练过程中约束条件的临帧连续项为:
Figure BDA00019220672200000710
λ=10,
其中,ω表示It'-1到It'计算得到的光流信息,Ltemp(Ft,Ft-1,It,It-1)表示生成的相邻结果的不连续性损失,D表示图像像素数。
StabNet通过对视频稳定项、形变约束项和临帧连续项联合优化学习,
L=∑i∈{t,t-1}Lstab(Fi,Ii)+Lshape(Fi,Gi)+Ltemp(Ft,Ft-1,It,It-1)。
Lstab项用于监督使生成结果稳定,Lshape项用于使生成结果不为了稳定而过度变形,Ltemp项用于使生成的相邻两帧之间有一致性。
图4为本发明实施例一种视频在线稳定系统的结构示意图,如图4所示,该系统包括:获取模块401、变形模块402、转换模块403和处理模块404,其中:
获取模块401用于获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
变形模块402用于将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
转换模块403用于通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
处理模块404用于重复上述步骤,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
本系统实施例的具体执行过程与上述方法实施例的具体执行过程相同,详情请参考上述方法实施例,本系统实施例在此不再赘述。
图5示例了一种电子设备的实体结构示意图,如图5所示,该服务器可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和总线540,其中,处理器510,通信接口520,存储器530通过总线540完成相互间的通信。通信接口540可以用于服务器与智能电视之间的信息传输。处理器510可以调用存储器530中的逻辑指令,以执行如下方法:
S1,获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
S2,将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
S3,通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
S4,重复步骤S2至S3,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:
S1,获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
S2,将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
S3,通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
S4,重复步骤S2至S3,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种视频在线稳定方法,其特征在于,包括:
S1,获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
S2,将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
S3,通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
S4,重复步骤S2至S3,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
2.根据权利要求1所述方法,其特征在于,所述训练视频集中包括若干对训练视频,对于任一对训练视频,所述任一对训练视频中两个训练视频的拍摄路径和拍摄时间相同,所述任一对训练视频中的其中一个视频是通过位于稳定云台上的相机拍摄得到的,所述任一训练视频中的另外一个视频与使用者的手或身体的运动一致。
3.根据权利要求1所述方法,其特征在于,所述初始卷积神经网络为StabNet,StabNet由一个编码器和一个网格格点回归器组成,所述编码器由ResNet-50实现,所述网格格点回归器由若干个全连接层组成。
4.根据权利要求1所述方法,其特征在于,所述通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像稳定后的下一帧图像,具体为:
Figure FDA0001922067210000011
其中,
Figure FDA0001922067210000012
表示稳定后的下一帧图像,It表示所述当前帧图像的下一帧图像,Ft表示所述变形参数。
5.根据权利要求4所述方法,其特征在于,所述对初始卷积神经网络进行训练过程中约束条件中的视频稳定项为:
Lstab(Ft,It)=α1Lpixel(Ft,It)+α2Lfeature(Ft,It),
Figure FDA0001922067210000021
Figure FDA0001922067210000022
Figure FDA0001922067210000023
α1=50,α2=1,
其中,Pt为m个It和I′t中对应的特征点对集合,Lstab(Ft,It)表示生成结果的稳定性损失,Lpixel(Ft,It)表示生成结果与训练数据中稳定视频的第t帧,即稳定监督图像的逐像素差别损失,Lfeature(Ft,It)表示生成结果与所述稳定监督图像通过的对应特征点距离损失,I′t表示所述稳定监督图像,m表示求得的特征点数,
Figure FDA0001922067210000024
表示所述稳定监督图像的第i个特征点,
Figure FDA0001922067210000025
表示生成结果图像的第i个特征点。
6.根据权利要求4所述方法,其特征在于,所述初始卷积神经网络进行训练过程中约束条件的形变约束项为:
Lshape(Ft,Gt)=γ1Lintra(Ft,Gt)+γ2Linter(Ft,Gt),
Figure FDA0001922067210000026
Figure FDA0001922067210000027
Figure FDA0001922067210000028
Figure FDA0001922067210000029
Figure FDA00019220672100000210
Figure FDA00019220672100000211
γ1=1,γ2=20,
其中,
Figure FDA0001922067210000031
Figure FDA0001922067210000032
是相邻的格点,Lshape(Ft,Gt)表示网格的变形度损失,Lintra(Ft,Gt)表示单个格子扭曲度损失,Linter(Ft,Gt)表示相邻格子不一致性损失,Gt表示4乘4的网格,
Figure FDA0001922067210000033
Figure FDA0001922067210000034
是一条直线上的3个相邻格点。
7.根据权利要求4所述方法,其特征在于,所述初始卷积神经网络进行训练过程中约束条件的临帧连续项为:
Figure FDA0001922067210000035
λ=10,
其中,ω表示I’t-1到I’t计算得到的光流信息,Ltemp(Ft,Ft-1,It,It-1)表示生成的相邻结果的不连续性损失,D表示图像像素数。
8.一种视频在线稳定系统,其特征在于,包括:
获取模块,用于获取待测视频和训练后的卷积神经网络,训练后的卷积神经网络通过训练视频集对初始卷积神经网络进行训练得到;
变形模块,用于将所述待测视频中的当前图像、和位于所述当前帧图像之前的若干帧图像输入到训练后的卷积神经网络中,获取变形参数,所述当前图像和位于所述当前帧图像之前的图像是稳定的,所述变形参数表示将不稳定图像转换为稳定图像的网格参数;
转换模块,用于通过所述变形参数对所述当前帧图像的下一帧图像进行转换,获取稳定后的下一帧图像,并将稳定后的下一帧图像重新作为所述当前帧图像;
处理模块,用于重复上述步骤,直到处理完所述待测视频的所有帧,获取稳定后的待测视频。
9.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201811599338.8A 2018-12-26 2018-12-26 一种视频在线稳定方法及系统 Pending CN111371983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811599338.8A CN111371983A (zh) 2018-12-26 2018-12-26 一种视频在线稳定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811599338.8A CN111371983A (zh) 2018-12-26 2018-12-26 一种视频在线稳定方法及系统

Publications (1)

Publication Number Publication Date
CN111371983A true CN111371983A (zh) 2020-07-03

Family

ID=71211467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811599338.8A Pending CN111371983A (zh) 2018-12-26 2018-12-26 一种视频在线稳定方法及系统

Country Status (1)

Country Link
CN (1) CN111371983A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112788236A (zh) * 2020-12-31 2021-05-11 维沃移动通信有限公司 视频帧处理方法、装置、电子设备和可读存储介质
CN113163121A (zh) * 2021-04-21 2021-07-23 安徽清新互联信息科技有限公司 一种视频防抖方法及可读存储介质
CN113163120A (zh) * 2021-04-21 2021-07-23 安徽清新互联信息科技有限公司 一种基于transformer的视频防抖方法
CN115242966A (zh) * 2022-05-24 2022-10-25 浙江华感科技有限公司 一种摄像设备的防抖方法、装置和计算机可读存储介质
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120207383A1 (en) * 2010-09-02 2012-08-16 Edge 3 Technologies, Inc. Method and apparatus for performing segmentation of an image
CN105279555A (zh) * 2015-10-28 2016-01-27 清华大学 一种基于进化算法的自适应学习神经网络实现方法
US20160379352A1 (en) * 2015-06-24 2016-12-29 Samsung Electronics Co., Ltd. Label-free non-reference image quality assessment via deep neural network
CN106686472A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于深度学习的高帧率视频生成方法及系统
CN107507234A (zh) * 2017-08-29 2017-12-22 北京大学 锥束计算机断层扫描图像与x光图像配准方法
CN107566688A (zh) * 2017-08-30 2018-01-09 广州华多网络科技有限公司 一种基于卷积神经网络的视频防抖方法及装置
CN108897342A (zh) * 2018-08-22 2018-11-27 江西理工大学 针对快速移动的民用多旋翼无人机的定位跟踪方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120207383A1 (en) * 2010-09-02 2012-08-16 Edge 3 Technologies, Inc. Method and apparatus for performing segmentation of an image
US20160379352A1 (en) * 2015-06-24 2016-12-29 Samsung Electronics Co., Ltd. Label-free non-reference image quality assessment via deep neural network
CN105279555A (zh) * 2015-10-28 2016-01-27 清华大学 一种基于进化算法的自适应学习神经网络实现方法
CN106686472A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于深度学习的高帧率视频生成方法及系统
CN107507234A (zh) * 2017-08-29 2017-12-22 北京大学 锥束计算机断层扫描图像与x光图像配准方法
CN107566688A (zh) * 2017-08-30 2018-01-09 广州华多网络科技有限公司 一种基于卷积神经网络的视频防抖方法及装置
CN108897342A (zh) * 2018-08-22 2018-11-27 江西理工大学 针对快速移动的民用多旋翼无人机的定位跟踪方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIAO WANG等: "《Deep Online Video Stabilization With Multi-Grid Warping Transformation Learning》", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
王志明: "《无参考图像质量评价综述》", 《自动化学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112788236A (zh) * 2020-12-31 2021-05-11 维沃移动通信有限公司 视频帧处理方法、装置、电子设备和可读存储介质
CN113163121A (zh) * 2021-04-21 2021-07-23 安徽清新互联信息科技有限公司 一种视频防抖方法及可读存储介质
CN113163120A (zh) * 2021-04-21 2021-07-23 安徽清新互联信息科技有限公司 一种基于transformer的视频防抖方法
CN115242966A (zh) * 2022-05-24 2022-10-25 浙江华感科技有限公司 一种摄像设备的防抖方法、装置和计算机可读存储介质
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法
CN117714875B (zh) * 2024-02-06 2024-04-30 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Similar Documents

Publication Publication Date Title
CN111371983A (zh) 一种视频在线稳定方法及系统
US20220237869A1 (en) 3d face modeling based on neural networks
CN111192226B (zh) 一种图像融合去噪方法及装置、系统
CN113838176A (zh) 模型的训练方法、三维人脸图像生成方法及设备
EP4447465A1 (en) Video processing method and apparatus, and computer device and storage medium
CN113688907B (zh) 模型训练、视频处理方法,装置,设备以及存储介质
CN113723317B (zh) 3d人脸的重建方法、装置、电子设备和存储介质
US10726612B2 (en) Method and apparatus for reconstructing three-dimensional model of object
CN111985281B (zh) 图像生成模型的生成方法、装置及图像生成方法、装置
CN112541867A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN110958469A (zh) 视频处理方法、装置、电子设备及存储介质
CN112767294B (zh) 深度图像的增强方法、装置、电子设备以及存储介质
US11688116B2 (en) Preserving geometry details in a sequence of tracked meshes
Sakurai et al. Fast algorithm for total variation minimization
CN116310105A (zh) 基于多视图的物体三维重建方法、装置、设备及存储介质
CN113658091A (zh) 一种图像评价方法、存储介质及终端设备
CN116433809A (zh) 表情驱动方法、以及模型训练方法
CN111476060A (zh) 人脸清晰度分析方法、装置、计算机设备及存储介质
CN117830077A (zh) 图像处理方法、装置以及电子设备
CN111292234B (zh) 一种全景图像生成方法及装置
Polakovič et al. An approach to video compression using saliency based foveation
CN108898557B (zh) 图像恢复方法及装置、电子设备、计算机程序及存储介质
CN105163198B (zh) 一种即时视频的编码方法和电子设备
CN116309158A (zh) 网络模型的训练方法、三维重建方法、装置、设备和介质
CN112150608B (zh) 一种基于图卷积神经网络的三维人脸重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703