CN107968962B - 一种基于深度学习的两帧不相邻图像的视频生成方法 - Google Patents

一种基于深度学习的两帧不相邻图像的视频生成方法 Download PDF

Info

Publication number
CN107968962B
CN107968962B CN201711343243.5A CN201711343243A CN107968962B CN 107968962 B CN107968962 B CN 107968962B CN 201711343243 A CN201711343243 A CN 201711343243A CN 107968962 B CN107968962 B CN 107968962B
Authority
CN
China
Prior art keywords
image
frame
video
conterminous
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711343243.5A
Other languages
English (en)
Other versions
CN107968962A (zh
Inventor
温世平
刘威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711343243.5A priority Critical patent/CN107968962B/zh
Publication of CN107968962A publication Critical patent/CN107968962A/zh
Application granted granted Critical
Publication of CN107968962B publication Critical patent/CN107968962B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的两帧不相邻图像的视频生成方法,属于对抗学习以及视频生成领域,包括对两帧不相邻图像进行线性插值处理得到N帧输入图像,将N帧输入图像输入第一生成器,得到两帧不相邻图像之间的N帧模糊的视频图像;将N帧视频图像输入训练好的第二生成器,得到新的N帧清晰的视频图像,并且两帧不相邻图像和新的N帧视频图像连接起来生成视频。其中,使用全卷积层构建第一深度自编码卷积网络,使用对抗训练,得到训练好的第一生成器,使用全卷积层并进行跨层连接构建第二深度自编码卷积网络,使用对抗训练,得到训练好的第二生成器。本发明生成的视频质量好,时间长。

Description

一种基于深度学习的两帧不相邻图像的视频生成方法
技术领域
本发明属于对抗学习以及视频生成领域,更具体地,涉及一种基于深度学习的两帧不相邻图像的视频生成方法。
背景技术
视频生成的预测一直是计算机视觉领域的难题,传统的非深度学习的算法很难生成连续的高质量的视频,但是事实上视频生成和预测可以用到很多领域当中,比如行为分析,智能监控,视频预测,动画制作等等。
上个世纪80年代,Yuan Lecun等人就已经提出了深度学习的基本理论,但是用于当时的硬件水平并不能满足其计算要求,所以人工智能发展缓慢,但是随着硬件水平的提高,深度学习的兴起,运用卷积神经网络学习的特征代替人工设计的特征的方法被广泛采用,这种方法克服了传统方法那样人为设计算法的困难,而是采用了搭建神经网络,通过梯度下降等优化算法优化网络的参数,进而使网络可以拟合一个非常好的非线性函数,代替了人为设计算法。
以往的基于深度学习的视频生成方法主要预测视频下一帧或者多帧图像,或者动作预测。主要就是输入给网络一帧或多帧静态图像,使用接下来的帧作为预测对象,训练神经网络去完成从输入到输出,也即是从过去的帧到未来帧这样的映射,当神经网络学习到比较好的映射的函数时。输入给训练好的神经网络一些视频帧,神经网络就可以输入未来的帧的样子。但是预测的视频往往比较模糊,尤其是预测长序列的视频时,能预测的视频长度也很有限,往往只能预测几帧模糊的视频。这些困难严重的限制了视频预测和生成的应用。除此之外,给定一个目标,未知接下来目标运动结果的前提下,这个目标很多种运动可能,对应着视频生成的结果具有无限多种解。但是对于我们人类来说,当我们看到视频中人们微笑着走近时,他们接下来做拥抱动作的概率很大,但是对于一个神经网络来说,他们没有能力理解那么长的时间信息以及上下文信息。第二个困难就是很难生成质量较好的图像序列,大部分的生成结果都很模糊,很难生成较长的图像序列,只能做短时间的运动分析等等,这些生成很难应用到动画制作、短视频生成。
由此可见,现有技术存在生成或预测视频的质量差,时间短的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于深度学习的两帧不相邻图像的视频生成方法,由此解决现有技术存在生成或预测视频的质量差,时间短的技术问题。
为实现上述目的,本发明提供了一种基于深度学习的两帧不相邻图像的视频生成方法,包括:
(1)对两帧不相邻图像进行线性插值处理得到N帧输入图像,将N帧输入图像输入训练好的第一生成器,得到两帧不相邻图像之间的N帧视频图像;
(2)将N帧视频图像输入训练好的第二生成器,得到新的N帧视频图像,并且两帧不相邻图像和新的N帧视频图像连接起来生成视频;
所述第一生成器的训练包括:使用全卷积层构建第一深度自编码卷积网络,对第一深度自编码卷积网络使用对抗训练,得到训练好的第一生成器;所述第二生成器的训练包括:使用全卷积层并进行跨层连接构建第二深度自编码卷积网络;对第二深度自编码卷积网络使用对抗训练,得到训练好的第二生成器。
进一步的,第一生成器的训练包括:
(S1)使用全卷积层构建第一深度自编码卷积网络,从样本视频中获取两帧不相邻样本图像和两帧不相邻样本图像中的N帧真实图像;
(S2)对两帧不相邻样本图像进行线性插值处理得到N帧样本输入图像输入第一深度自编码卷积网络,以损失函数最小为目标对第一深度自编码卷积网络进行训练,得到N帧第一训练图像,将N帧第一训练图像和N帧真实图像输入判别器得到第一判别结果;
(S3)当第一判别结果大于阈值时,重复步骤(S2),当第一判别结果小于等于阈值时,得到训练好的第一生成器。
进一步的,第二生成器的训练包括:
(T1)使用全卷积层并进行跨层连接构建第二深度自编码卷积网络;
(T2)将N帧第一训练图像输入第二深度自编码卷积网络,以损失函数最小为目标对第二深度自编码卷积网络进行训练,得到N帧第二训练图像,将N帧第二训练图像和N帧真实图像输入判别器得到第二判别结果;
(T3)当第二判别结果大于阈值时,重复步骤(T2),当第二判别结果小于等于阈值时,得到训练好的第二生成器。
本发明使用不相邻帧图像生成连续的视频,代替了根据先前帧预测下一帧的方法。为了提高生成质量,使用了双生成器串联的结构,双生成器具有不同的任务,也具有不同的网络结构,第一个生成器负责从插帧得到的输入帧中学习到动作特征,第二个生成器在第一个生成器的基础上提高图像的质量,两个生成器串联得到高质量的视频生成结果,并且可以实现端对端的方式训练。设计了新的损失函数:归一化积相关损失函数,用在训练过程中提高生成结果的质量。
进一步的,第一深度自编码卷积网络和第二深度自编码卷积网络中的每层卷积层后设置一个RELU非线性函数。
进一步的,判别器包括6个卷积层和一个全连接层,每层卷积层后依次设置一个归一化操作和一个RELU非线性函数。
进一步的,损失函数为:
Loss=λ1Ladv2Lmse3Lgdl4Lnpcl
其中,Loss为损失函数,Ladv为对抗损失函数,λ1为对抗损失函数的权重,Lmse为均方差损失函数,λ2为均方差损失函数的权重,Lgdl为梯度损失函数,λ3为梯度损失函数的权重,Lnpcl为归一化积相关损失函数,λ4为归一化积相关损失函数的权重。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明使用了不相邻的两帧作为生成器的输入,第二帧可以作为是对视频生成的约束项,因此可以极大的减少解空间的维度,令生成变得更加容易,同时使用对抗训练更适合图像的生成。另外就是使用了两个生成器级联的生成网络去生成视频,不同的生成器负责不同的任务,并且具有不同的网络结构,两个生成器生成的结果的质量更高,生成的视频帧的数量更多。
(2)本发明采用对抗训练的方式,生成器和判别器构成对抗网络,对抗网络和对抗训练相结合更适合图像的生成,使用四个损失函数,分别是对抗损失函数,均方差损失函数,梯度损失函数和归一化积相关损失函数,对生成结果从不同方面做惩罚,使生成结果和真实结果具有很强的相似性。
(3)本发明与之前的方法相比,能够生成更长的视频序列,并且保证视频生成的质量。可以被广泛用在动作预测、视频压缩、视频生成领域。
附图说明
图1是本发明实施例提供的一种基于深度学习的两帧不相邻图像的视频生成方法的流程图;
图2(a)是本发明实施例提供的第一种仿真图;
图2(b)是本发明实施例提供的第二种仿真图;
图2(c)是本发明实施例提供的第三种仿真图;
图2(d)是本发明实施例提供的第四种仿真图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于深度学习的两帧不相邻图像的视频生成方法,包括:
(1)对两帧不相邻图像进行线性插值处理得到N帧输入图像,将N帧输入图像输入训练好的第一生成器,得到两帧不相邻图像之间的N帧视频图像;
(2)将N帧视频图像输入训练好的第二生成器,得到新的N帧视频图像,并且两帧不相邻图像和新的N帧视频图像连接起来生成视频;
第一生成器的训练包括:
(S1)使用全卷积层构建第一深度自编码卷积网络,如表1所示,不使用池化层和归一化层,全部使用卷积层构建网络,并在每一层的后面使用relu激活函数增加网络的非线性能力。为避免随机噪声的影响,我们采用一种自编码式的网络结构,一方面可以增加生成网络模型的拓扑结构的对称性,另一方面也可以提升整体网络的稳定性。
表1
第一深度自编码卷积网络如下:
第一层卷积层,卷积核大小5*5,输出特征图数量64,步长为1;
第二层卷积层,卷积核大小3*3,输出特征图数量128,步长为2;
第三层卷积层,卷积核大小3*3,输出特征图数量128,步长为1;
第四层卷积层,卷积核大小3*3,输出特征图数量256,步长为2;
第五层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第六层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第七层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第八层卷积层,卷积核大小3*3,输出特征图数量512,步长为1;
第九层卷积层,卷积核大小3*3,输出特征图数量512,步长为1;
第十层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第十一层转置卷积层,卷积核大小3*3,输出特征图数量256,步长为2;
第十二层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第十三层转置卷积层,卷积核大小4*4,输出特征图数量64,步长为2;
第十四层卷积层,卷积核大小3*3,输出特征图数量3,步长为1;
在第一深度自编码卷积网络中,使用多层卷积层,主要为了让生成器更准确的学习视频中目标的运动信息,为接下来的生成做准备。
其次,由于采用对抗训练的方法需要一个生成器和判别器,我们搭建了一个判别器网络对生成器的输出做判别,判别器中,每一层卷积的后面有一个归一化(BatchNormalization)操作,然后是一个RELU非线性函数,增强网络的非线性能力,因为判别器输出的是对真图像和假图像的判别,所以在网络的最后一层,我们使用全连接层,其网络结构如下:
第一层卷积层,卷积核大小3*3,输出特征图数量128,步长为2;
第二层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第三层卷积层,卷积核大小3*3,输出特征图数量256,步长为2;
第四层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第五层卷积层,卷积核大小3*3,输出特征图数量128,步长为2;
第六层卷积层,卷积核大小3*3,输出特征图数量128,步长为1;
第七层全连接层,输出神经元1个。
从样本视频中获取两帧不相邻样本图像和两帧不相邻样本图像中的N帧真实图像;
(S2)对两帧不相邻样本图像进行线性插值处理得到N帧样本输入图像输入第一深度自编码卷积网络,以损失函数最小为目标对第一深度自编码卷积网络进行训练,得到N帧第一训练图像,将N帧第一训练图像和N帧真实图像输入判别器得到第一判别结果;
(S3)当第一判别结果大于阈值时,重复步骤(S2),当第一判别结果小于等于阈值时,得到训练好的第一生成器。
第二生成器的训练包括:
(T1)使用全卷积层并进行跨层连接构建第二深度自编码卷积网络;如表2所示,
表2
不同于第一生成器,使用了跨层连接,即将前几层卷积层卷积得到的特征图和后几层卷积得到的特征图并在一起共同作为下一层卷积的输入,这样做的优势在于网络更容易综合图像的特征,加上对抗训练,输出的图像和真实的图像具有更相似的结构信息。
第二深度自编码卷积网络结构如下所示:
第一层卷积层,卷积核大小3*3,输出特征图数量128,步长为1;
第二层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第三层卷积层,卷积核大小3*3,输出特征图数量256,步长为2;
第四层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第五层卷积层,卷积核大小3*3,输出特征图数量256,步长为2;
第六层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第七层转置卷积层,卷积核大小3*3,输出特征图数量256,步长为2;
将第四层得到的256个特征图与第七层得到的卷积层级联到一起得到512个特征图,作为第八层卷积的输入。
第八层卷积层,卷积核大小3*3,输出特征图数量512,步长为1;
第九层卷积层,卷积核大小3*3,输出特征图数量512,步长为2;
将第二层得到的256个特征图与第九层得到的卷积层级联到一起得到768个特征图,作为第十层卷积的输入。
第十层卷积层,卷积核大小3*3,输出特征图数量256,步长为1;
第十一层卷积层,卷积核大小3*3,输出特征图数量3,步长为1;
(T2)将N帧第一训练图像输入第二深度自编码卷积网络,以损失函数最小为目标对第二深度自编码卷积网络进行训练,得到N帧第二训练图像,将N帧第二训练图像和N帧真实图像输入判别器得到第二判别结果;
(T3)当第二判别结果大于阈值时,重复步骤(T2),当第二判别结果小于等于阈值时,得到训练好的第二生成器。
对抗损失函数的形式如下:
其中,L代表损失函数(loss function),adv是下标,表示对抗(adversarial),由于对抗损失函数是采用交叉熵的形式进行,所以等式右端是交叉熵公式的形式,其中E表示取期望,D表示我们方法中的判别器,G是生成器,GD合起来构成生成对抗网络。另外,我们的目的是生成视频,为了满足训练要求,我们需要输入真实的视频帧作为基准数据,X就是表示真实的视频帧图像(数量大于2),根据两帧视频帧生成中间缺失的部分,所以,为了保证输入输出一致,根据两帧视频帧按照加权的方式得到了和X一样数量的视频帧目的就是让生成器G根据去生成和X类似的帧,即完成生成过程。由于采用的是深度学习的方法的神经网络,GD都是神经网络,因此都可以用一个非线性函数来表示,所以公式中的D,G都可看作是函数,括号里面表示的是输入数据,分别是X和
仅仅采用对抗损失得到的结果只是和真实的图像在像素分布上有一定的相似性,但是在图像的结构上不一定相似,为了保证在后者上具有相似性,我们使用了均方差损失和梯度损失增强输出结果和真实图像的相似性。其中这两个损失函数的形式如下:
均方差损失函数为输入的两个数据Y、X之差的二范数:
梯度损失函数为:
本发明中设置p和α均为2,Xi,j表示的都是函数输入的图像,因为图像由像素点组成,因此数学上可以视为是矩阵,i,j分别是矩阵的下标,此函数主要是对图像相邻像素点做差,求范数,然后对差的范数在做差。直观上理解,当Y和X一样的时候,上述式子为0,当不一样时,上述式子不为0。是我们生成的图像,也就是所以我们希望尽量希望接近与X。
双生成器网络配合以上三个损失函数我们可以得到非常清晰的结果,但是在图像的对比度上仍然存在一些差异,因此,我们使用了另一个归一化积相关损失函数惩罚输出结果的图像对比度等。其形式如下:
其中,X表示输入的图像,矩阵形式。M,N表示矩阵的行数和列数。归一化积相关损失函数的范围是位于0-1之间的,越接近1代表图像越相似,为了使其变为损失函数的形式,我们对其做了一个取对数操作,并加了一个负号,这样输出结果越接近0,代表图像相关性越大,这种形式更切合损失函数的形式。搭建好神经网络和选择好损失函数之后,接下来就是训练神经网络。在训练神经网络50个epoch后,网络已经具有了根据两帧图像生成中间缺失的多帧图像的能力,而且生成的结果具有较高的质量。联合损失函数形式如下:
Loss=λ1Ladv2Lmse3Lgdl4Lnpcl
给定两帧视频图像,作为本方法深度卷积生成网络的输入,在输入之前会对这两张图像做线性插值处理(sampling)得到十张图像,按照下列公式:
(1-r)*X0+r*Xn+1
其中r是0-1之间的10个均匀的小数,这样就得到了十张输入图像。这十张图像作为第一个生成器的输入,按照卷积层做卷积计算,并输出网络计算得到的新的十张图像Y’,Y’和真实的图像X一同作为判别器D1的输入,并输出判别结果y1∈(0,1),y1代表判别器对第一个生成器生成结果的评价,越大代表生成结果越差,生成器会根据y1不断调整自己以生成更好的结果。另外就是第一个生成器的结果作为第二个生成器的输入,并通过卷积层做卷积计算,得到新的生成结果Y,然后Y同真实图像X一起作为判别器D2的输入,并输出判别结果y2∈(0,1),y2代表判别器对第二个生成器生成结果的评价,越大代表生成结果越差,生成器会根据y2不断调整自己以生成更好的结果。然后更换输入X,不断重复这样的过程做训练,直到网络具备根据两张图像生成多张真实图像的能力。这时候不在需要判别器的参与,只需要两个生成器网络就可以完成生成任务。即按照图二所演示的步骤,输入给网络两帧图像,经过两个生成器的计算之后,网络就可以生成出10张新的视频帧,并且将这12帧图像连接起来形成一个视频。本方法得到的生成结果在图2(a)、图2(b)、图2(c)和图2(d)中做了部分展示。并且可以控制需要生成的帧的数量。我们选择生成十张图像,结合结果来看,本发明所研究的算法不仅能够生成逼真、清晰、连贯的视频帧,而且能够生成或预测更多的帧,可以广泛的用于动画制作,视频生成,视频插帧,视频压缩解压等领域,具有广泛的应用价值。
事实上视频生成具有很大的解空间,这就意味着神经网络在极大的解空间中很难去找到合适的解,如果没有合适的缺乏约束信息的情况下,很难去生成符合逻辑的视频序列,另外生成的质量也很差。本发明提出使用具有时间差的两帧(X1,Xk)生成中间的运动过程图像(X2,…,Xk-1),我们使用图像Xk作为输入的一部分约束视频生成的解,Xk中描述了X1中目标将来的运动状态,因此对于生成任务来说,Xk是对于动作生成的约束项,网络的输出会尽可能的接近Xk。另一方面我们采用对抗网络作为训练模型同时也作为是一种对抗约束,利用对抗网络生成的样本尽可能与输入图像相似。另外为了解决第二个问题,我们采用对抗训练的方式并采取了多种不同损失函数的联合损失保证较好的生成质量,并使用了灰度互相关作为一种新的损失函数增强生成结果的清晰度。并且替代了以往生成式网络只有一个生成器的方法,我们使用两个生成器的串联作为级联生成器,第一个生成器主要用来通过对抗训练的方式学习视频中目标的动作信息,并不期待生成质量有多好;第二个生成器可以在第一个生成器的基础上提高生成视频的质量。该方法与其他方法相比,生成的视频非常接近真实的视频,并且生成的视频的长度远超过以往的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于深度学习的两帧不相邻图像的视频生成方法,其特征在于,包括:
(1)对两帧不相邻图像进行线性插值处理得到N帧输入图像,将N帧输入图像输入训练好的第一生成器,得到两帧不相邻图像之间的N帧视频图像;
(2)将N帧视频图像输入训练好的第二生成器,得到新的N帧视频图像,并且两帧不相邻图像和新的N帧视频图像连接起来生成视频;
所述第一生成器的训练包括:
(S1)使用全卷积层构建第一深度自编码卷积网络,从样本视频中获取两帧不相邻样本图像和两帧不相邻样本图像中的N帧真实图像;
(S2)对两帧不相邻样本图像进行线性插值处理得到N帧样本输入图像输入第一深度自编码卷积网络,以损失函数最小为目标对第一深度自编码卷积网络进行训练,得到N帧第一训练图像,将N帧第一训练图像和N帧真实图像输入判别器得到第一判别结果;
(S3)当第一判别结果大于阈值时,重复步骤(S2),当第一判别结果小于等于阈值时,得到训练好的第一生成器;
所述第二生成器的训练包括:
(T1)使用全卷积层并进行跨层连接构建第二深度自编码卷积网络;
(T2)将N帧第一训练图像输入第二深度自编码卷积网络,以损失函数最小为目标对第二深度自编码卷积网络进行训练,得到N帧第二训练图像,将N帧第二训练图像和N帧真实图像输入判别器得到第二判别结果;
(T3)当第二判别结果大于阈值时,重复步骤(T2),当第二判别结果小于等于阈值时,得到训练好的第二生成器;
所述跨层连接是将前几层卷积层卷积得到的特征图和后几层卷积得到的特征图并在一起共同作为下一层卷积的输入;
所述损失函数为:
Loss=λ1Ladv2Lmse3Lgdl4Lnpcl
其中,Loss为损失函数,Ladv为对抗损失函数,λ1为对抗损失函数的权重,Lmse为均方差损失函数,λ2为均方差损失函数的权重,Lgdl为梯度损失函数,λ3为梯度损失函数的权重,Lnpcl为归一化积相关损失函数,λ4为归一化积相关损失函数的权重。
2.如权利要求1所述的一种基于深度学习的两帧不相邻图像的视频生成方法,其特征在于,所述第一深度自编码卷积网络和第二深度自编码卷积网络中的每层卷积层后设置一个RELU非线性函数。
3.如权利要求1或2所述的一种基于深度学习的两帧不相邻图像的视频生成方法,其特征在于,所述判别器包括6个卷积层和一个全连接层,每层卷积层后依次设置一个归一化操作和一个RELU非线性函数。
CN201711343243.5A 2017-12-12 2017-12-12 一种基于深度学习的两帧不相邻图像的视频生成方法 Expired - Fee Related CN107968962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711343243.5A CN107968962B (zh) 2017-12-12 2017-12-12 一种基于深度学习的两帧不相邻图像的视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711343243.5A CN107968962B (zh) 2017-12-12 2017-12-12 一种基于深度学习的两帧不相邻图像的视频生成方法

Publications (2)

Publication Number Publication Date
CN107968962A CN107968962A (zh) 2018-04-27
CN107968962B true CN107968962B (zh) 2019-08-09

Family

ID=61994443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711343243.5A Expired - Fee Related CN107968962B (zh) 2017-12-12 2017-12-12 一种基于深度学习的两帧不相邻图像的视频生成方法

Country Status (1)

Country Link
CN (1) CN107968962B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615073B (zh) * 2018-04-28 2020-11-03 京东数字科技控股有限公司 图像处理方法及装置、计算机可读存储介质、电子设备
CN110473147A (zh) * 2018-05-09 2019-11-19 腾讯科技(深圳)有限公司 一种视频去模糊方法和装置
CN108665432A (zh) * 2018-05-18 2018-10-16 百年金海科技有限公司 一种基于生成对抗网络的单幅图像去雾方法
CN108805188B (zh) * 2018-05-29 2020-08-21 徐州工程学院 一种基于特征重标定生成对抗网络的图像分类方法
CN108875818B (zh) * 2018-06-06 2020-08-18 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109325931A (zh) * 2018-08-22 2019-02-12 中北大学 基于生成对抗网络和超分辨率网络的多模态图像融合方法
US10318842B1 (en) * 2018-09-05 2019-06-11 StradVision, Inc. Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same
CN109218629B (zh) * 2018-09-14 2021-02-05 三星电子(中国)研发中心 视频生成方法、存储介质和装置
CN109151575B (zh) * 2018-10-16 2021-12-14 Oppo广东移动通信有限公司 多媒体数据处理方法及装置、计算机可读存储介质
CN109544652B (zh) * 2018-10-18 2024-01-05 上海威豪医疗科技有限公司 基于深度生成对抗神经网络的核磁共振多加权成像方法
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN109360436B (zh) * 2018-11-02 2021-01-08 Oppo广东移动通信有限公司 一种视频生成方法、终端及存储介质
WO2020097795A1 (zh) * 2018-11-13 2020-05-22 北京比特大陆科技有限公司 图像处理方法、装置、设备、存储介质及程序产品
CN109993820B (zh) * 2019-03-29 2022-09-13 合肥工业大学 一种动画视频自动生成方法及其装置
CN110047118B (zh) * 2019-04-08 2023-06-27 腾讯科技(深圳)有限公司 视频生成方法、装置、计算机设备及存储介质
CN110070612B (zh) * 2019-04-25 2023-09-22 东北大学 一种基于生成对抗网络的ct图像层间插值方法
CN110310351B (zh) * 2019-07-04 2023-07-21 北京信息科技大学 一种基于草图的三维人体骨骼动画自动生成方法
CN110852970A (zh) * 2019-11-08 2020-02-28 南京工程学院 基于深度卷积生成对抗网络的水下机器人图像增强方法
CN111476868B (zh) * 2020-04-07 2023-06-23 哈尔滨工业大学 基于深度学习的动画生成模型训练、动画生成方法及装置
CN111696049A (zh) * 2020-05-07 2020-09-22 中国海洋大学 基于深度学习的水下扭曲图像重建方法
CN112995433B (zh) * 2021-02-08 2023-04-28 北京影谱科技股份有限公司 一种时序视频生成方法、装置、计算设备及存储介质
CN113222964B (zh) * 2021-05-27 2021-11-12 推想医疗科技股份有限公司 一种冠脉中心线提取模型的生成方法及装置
CN113674185B (zh) * 2021-07-29 2023-12-08 昆明理工大学 一种基于融合多种图像生成技术的加权平均图像生成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552727B2 (en) * 2015-12-15 2020-02-04 Deep Instinct Ltd. Methods and systems for data traffic analysis
CN105354565A (zh) * 2015-12-23 2016-02-24 北京市商汤科技开发有限公司 基于全卷积网络人脸五官定位与判别的方法及系统
US20170278135A1 (en) * 2016-02-18 2017-09-28 Fitroom, Inc. Image recognition artificial intelligence system for ecommerce
EP4312157A3 (en) * 2016-05-20 2024-03-20 DeepMind Technologies Limited Progressive neurale netzwerke
CN106127702B (zh) * 2016-06-17 2018-08-14 兰州理工大学 一种基于深度学习的图像去雾方法
CN106296692A (zh) * 2016-08-11 2017-01-04 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN106952239A (zh) * 2017-03-28 2017-07-14 厦门幻世网络科技有限公司 图像生成方法和装置
CN107220600B (zh) * 2017-05-17 2019-09-10 清华大学深圳研究生院 一种基于深度学习的图片生成方法及生成对抗网络
CN107330444A (zh) * 2017-05-27 2017-11-07 苏州科技大学 一种基于生成对抗网络的图像自动文本标注方法
CN107273936B (zh) * 2017-07-07 2020-09-11 广东工业大学 一种gan图像处理方法及系统
CN107463951A (zh) * 2017-07-19 2017-12-12 清华大学 一种提高深度学习模型鲁棒性的方法及装置

Also Published As

Publication number Publication date
CN107968962A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN107968962B (zh) 一种基于深度学习的两帧不相邻图像的视频生成方法
CN110378844A (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN105844635A (zh) 一种基于结构字典的稀疏表示深度图像重建算法
CN109325513B (zh) 一种基于海量单类单幅图像的图像分类网络训练方法
CN115481431A (zh) 基于双重扰动的联邦学习对抗推理攻击隐私保护方法
CN109949217A (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN109993702A (zh) 基于生成对抗网络的满文图像超分辨率重建方法
CN109658508B (zh) 一种多尺度细节融合的地形合成方法
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
Wu et al. Ganhead: Towards generative animatable neural head avatars
Shariff et al. Artificial (or) fake human face generator using generative adversarial network (GAN) machine learning model
Shen et al. Channel recombination and projection network for blind image quality measurement
CN112380764B (zh) 一种在有限视图下的气体场景端到端快速重建方法
CN116306780B (zh) 一种动态图链接生成方法
CN113450295B (zh) 一种基于差分对比学习的深度图合成方法
CN113129237B (zh) 基于多尺度融合编码网络的深度图像去模糊方法
CN110009568A (zh) 满文图像超分辨率重建的生成器构建方法
CN112508792A (zh) 一种基于在线知识迁移的深度神经网络集成模型单张图像超分辨率方法和系统
CN113343761A (zh) 一种基于生成对抗的实时人脸表情迁移方法
Nayak et al. Learning a sparse dictionary of video structure for activity modeling
CN114511488B (zh) 一种夜间场景的日间风格可视化方法
Racković et al. Distributed Solution of the Blendshape Rig Inversion Problem
Guo et al. A Vision Transformer with Improved LeFF and Vision Combinative Self-attention Mechanism for Waste Image Classification
Feng et al. Binocular Visual Mechanism Guided No-Reference Stereoscopic Image Quality Assessment Considering Spatial Saliency
An et al. Low-resolution face recognition and sports training action analysis based on wireless sensors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190809

Termination date: 20191212