CN110572696A - 一种变分自编码器与生成对抗网络结合的视频生成方法 - Google Patents

一种变分自编码器与生成对抗网络结合的视频生成方法 Download PDF

Info

Publication number
CN110572696A
CN110572696A CN201910739833.2A CN201910739833A CN110572696A CN 110572696 A CN110572696 A CN 110572696A CN 201910739833 A CN201910739833 A CN 201910739833A CN 110572696 A CN110572696 A CN 110572696A
Authority
CN
China
Prior art keywords
encoder
video
training
variational self
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910739833.2A
Other languages
English (en)
Other versions
CN110572696B (zh
Inventor
吴萌
李荣鹏
赵志峰
张宏纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910739833.2A priority Critical patent/CN110572696B/zh
Publication of CN110572696A publication Critical patent/CN110572696A/zh
Application granted granted Critical
Publication of CN110572696B publication Critical patent/CN110572696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种变分自编码器与生成对抗网络结合的视频生成方法,属于视频生成技术领域,该方法包括:生成对抗网络的生成器不直接生成视频,而是生成系列相关联的隐变量,将这些隐变量经过已训练好的变分自编码器的解码器生成系列相关图像,生成对抗网络的判别器不对视频直接判别,而是将视频通过变分自编码器的编码器得到系列低维的隐变量,并对隐变量进行判别。该方法能够根据输入描述文本生成视频,克服生成视频中帧间连续性差的问题,同时提高了视频生成的帧间连续性,将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分,使训练更容易以及更稳定。

Description

一种变分自编码器与生成对抗网络结合的视频生成方法
技术领域
本发明属于视频生成技术领域,尤其涉及一种变分自编码器与生成对抗网络结合的视频生成方法。
背景技术
近年来,随着人工智能技术在各行业的广泛应用,各行各业的生产力得到了很大提升,如在电视节目制作中,视频生成技术可以极大程度的减轻人力工作。业内,NVIDIA等公司提出了基于生成对抗网络的视频生成技术,以应对多种情形下的视频生成需求。然而,现有的视频生成方法在输入信息不足时往往出现生成的视频中帧与帧之间的时间连续性不足,图像变形等问题,从而降低了视频生成的质量。
Diederik P Kingma等于2013年提出变分自编码器,通过将样本映射到一个特定的正态分布,再从该正态分布中采样一个点以恢复样本的方法构建了一个隐空间连续性好的生成学习模型。Ian Goodfellow等于2014年提出生成对抗网络,以生成器生成样本,以判别器区分生成器生成的样本与真样本,二者以对抗的方式进行学习,构成动态的博弈,当最终达到纳什均衡时,判别器不能区分生成样本与真样本,此时生成样本也就被认为与真样本无差别了。
发明内容
本发明的目的:提供一种变分自编码器与生成对抗网络结合的视频生成方法,利用变分自编码器对数据集中视频的每一帧进行学习,构建具有良好连续性的隐空间,隐空间中的每一点对应视频中的一帧。然后将噪声与文本输入生成对抗网络的生成器,生成器则生成潜变量空间中的多个相关联的点,然后将这些点通过变分自编码器的解码器生成多帧相关联连续图像,这些图像组成所要生成的视频。
为了实现上述目的,本发明的技术方案是:一种变分自编码器与生成对抗网络结合的视频生成方法,包括如下步骤:
(1)收集各种类的视频,并按照类别对每个视频做好文本描述;
(2)对步骤1收集的视频及文本描述做归一化处理,得到生成对抗网络训练过程中使用的“视频-文本”数据集;
(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的文本描述,得到变分自编码器训练过程中使用的“图像-文本”数据集;
(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值meanx和方差variancex,将图像映射到专属于该图像的正态分布N(meanx,variancex),再从该分布随机中采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值meani附近,这个均值通过神经网络计算得到。
变分自编码器的损失函数:
其中,meanx、variancex分别是图像x经过编码器Encoder得到的正态分布的均值和方差,meani是该图像所属类别均值,x为变分自编码器输出的重建图像。训练过程以最小化损失函数LVAE为目标,设置每经过一定次数的迭代对Decoder输出的解码图像进行人工检查,重复这一操作直到解码图像的质量达到要求,得到训练好的变分自编码器模型。
(5)从步骤2处理后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对,取出所述M个样本对中的的描述文本,对这M个描述文本重新配上与描述不匹配的视频,得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本,以步骤4训练好的变分自编码器模型与生成对抗网络结合,使用M个真实样本对,M个不匹配样本对及M个输入描述文本,输入生成对抗网络进行训练。
生成对抗网络包括生成器G和判别器D,生成的视频为L帧,其中生成器生成的是L个D维的变量delta1,delta2,...deltaL,根据需要生成的视频类别加上对应类别的均值meani
zk=meani+deltak,(k=1,2,...,L)
得到L个D维的变分自编码器的隐变量zk:z1,z2,...zL,将z1,z2,...zL输入到步骤4中已经训练好的变分自编码器的解码器Decoder中得到长度为L帧的视频;
所述的生成器G的损失函数:
LG=-log(D(xgen,sgen))
其中,xreal是采样于真实视频数据分布的视频样本,sreal是对xreal的描述文本,(xreal,sreal)为所述真实样本对,(xmis,smis)为所述的真实样本对,sgen为输入生成器G的输入描述文本,xgen为生成器G生成的视频样本。
所述的判别器D的损失函数:
LD=-log(D(zreal,sreal))-log(1-D(zmis,smis)-log(1-D(zfake,sgen))
zreal,zmis,zfake分别是xreal,xmis,xgen经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LG为目标,判别器D的训练以最小化LD为目标。训练过程中先训练判别器D,再训练生成器G,重复训练过程,对生成器生成的视频样本质量进行人工检查,直到生成的视频样本质量达到要求。
(6)将步骤5训练得到的网络中输入描述文本,生成视频。
进一步地,所述变分自编码器的编码器Encoder由多层卷积神经网络构成,解码器Decoder由多层反卷积神经网络构成。
进一步地,所述生成器G为生成变分自编码器隐变量的隐变量生成器。
进一步地,所述生成器G为循环神经网络:LSTM(long short-term memory)。
进一步地,所述判别器D对变分自编码器隐变量进行判别。
本发明的有益效果在于:该发明的视频生成方法能够根据输入描述文本生成视频,克服生成视频中帧间连续性差的问题,相比于单独使用生成对抗网络,变分自编码器与生成对抗网络结合的视频生成方法提高了视频生成的帧间连续性,将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分,使训练更容易以及更稳定。
附图说明
图1是所述变分自编码器结构示意图;
图2是本发明所述一种变分自编码器与生成对抗网络结合的视频生成方法结构示意图。
具体实施方式
以下结合附图1和附图2进一步说明本发明的实施例。
一种变分自编码器与生成对抗网络结合的视频生成方法,包括如下步骤:
(1)收集各种类的视频,并按照类别对每个视频做好文本描述;
(2)对步骤1收集的视频及文本描述做归一化处理,得到生成对抗网络训练过程中使用的“视频-文本”数据集;
(3)对步骤2预处理后的“视频-文本”数据集中的视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的文本描述,得到变分自编码器训练过程中使用的“图像-文本”数据集;
(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,所述变分自编码器的编码器Encoder由多层卷积神经网络构成,解码器Decoder由多层反卷积神经网络构成。其中编码器Encoder通过对输入的每一帧图像x计算均值meanx和方差variancex,将图像映射到专属于该图像的正态分布N(meanx,variancex),再从该分布随机中采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像。同一类别i的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值meani附近,这个均值通过神经网络计算得到,通过这个操作,在后续步骤中生成视频时,对于每一帧,如果该帧属于类别j,则可以在隐空间中meani的附近寻找该帧对应的隐变量。
变分自编码器的损失函数:
其中,meanx、variancex分别是图像x经过编码器Encoder得到的正态分布的均值和方差,meani是该图像所属类别均值,x为变分自编码器输出的重建图像。训练过程以最小化LVAE为目标,设置每经过一定次数的迭代对Decoder输出的解码图像进行人工检查,重复这一操作直到解码图像的质量达到要求,得到训练好的变分自编码器模型。
(5)从步骤2处理后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对,取出所述M个样本对中的的描述文本,对这M个描述文本重新配上与描述不匹配的视频,得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本,以步骤4训练好的变分自编码器与生成对抗网络结合,使用M个真实样本对,M个不匹配样本对及M个输入描述文本,输入生成对抗网络进行训练。
生成对抗网络包括生成器G和判别器D,生成的视频为L帧,所述生成器G为生成变分自编码器隐变量的隐变量生成器,该生成器G为循环神经网络:LSTM(long short-termmemory)。所述判别器D对变分自编码器隐变量进行判别,首先,输入描述文本sgen通过LSTM组成的生成器生成的是L个相关联的D维的变量delta1,delta2,...deltaL,根据需要生成的视频类别加上对应类别的均值meani:
zk=meani+deltak,(k=1,2,...,L)
得到L个D维的变分自编码器的隐变量zk:z1,z2,...zL,将z1,z2,...zL输入到步骤4中已经训练好的变分自编码器的解码器Decoder中得到长度为L帧的视频;
所述的生成器G的损失函数:
LG=-log(D(xgen,sgen))
其中,xreal是采样于真实视频数据分布的视频样本,sreal是对xreal的描述文本,(xreal,sreal)为所述真实样本对,(xmis,smis)为所述的真实样本对,sgen为输入生成器G的输入描述文本,xgen为生成器G生成的视频样本。
所述的判别器D的损失函数:
LD=-log(D(zreal,sreal))-log(1-D(zmis,smis)-log(1-D(zfake,sgen))
如图2所示,zreal,zmis,zfake分别是xreal,xmis,xgen经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LG为目标,判别器D的训练以最小化LD为目标。训练过程中先训练判别器D,再训练生成器G,为一次迭代。训练过程中变分自编码器的编码器Encoder和解码器Decoder的参数不更新,只更新判别器D和生成器G的参数。设置每进行一定次数迭代,对生成器生成的视频样本质量进行人工检查,重复训练过程,直到生成的视频样本质量达到要求。
(6)将步骤5训练得到的网络中输入描述文本,生成视频。
实施例
步骤1,从MNIST数据集中取出手写数字图片,取出的手写数字图片种类如果是“0,1,4,6,9”则对该数字形成一个16帧的48×48像素的视频,该数字在第一帧中以任意位置作为起点,在16帧中进行上下移动;取出的手写数字图片种类如果是“2,3,5,7,8”则对该数字形成一个16帧的48×48像素的视频,该数字在第一帧中以任意位置作为起点,在16帧中进行左右移动;对每个手写数字的移动视频做文本描述,如“The digit 0is moving up anddown”、“The digit 2is moving left and right”,这样,得到10个类别的手写数字移动视频,每个类别的视频有相应的文本描述;
步骤2,对步骤1中得到的视频数据集及其文本描述进行预处理,得到生成对抗网络训练使用的“视频-文本”数据集;
步骤3,对步骤2中预处理后的视频数据集按帧分割,对分割得到的每一帧图像匹配一个其原所属视频的文本描述,共10个类别的手写数字图像,每个类别的手写数字图像有相应的文本描述,得到变分自编码器训练中使用的“图像-文本”数据集;
步骤4,从步骤3中得到的数据集中随机取出N个样本对输入图1所示的变分自编码器进行训练,变分自编码器中编码器输出的隐空间维度为D,根据需求,重复操作多次;
步骤5,从步骤2中处理后的数据集中取出M个“视频-文本”样本对,作为生成对抗网络训练中使用的真实样本对,取出这M个真实样本对中的的视频,对这M个视频重新配上与内容不匹配的描述文本,得到M个不匹配样本对,以这M个真实样本对中的描述文本作为输入描述文本。以生成对抗网络与步骤4训练后得到的变分自编码器结合,使用M个真实样本对,M个不匹配样本对及M个输入描述文本输入生成对抗网络进行训练。生成对抗网络与变分自编码器的结合方式如图2,其中,Textgen是输入描述文本,latent variablegenerator是隐变量生成器,Textgen与从正态分布中随机采样的一个噪声noise一同输入隐变量生成器,Encoder、Decoder分别是是在步骤4中已训练好的变分自编码器中的编码器和解码器,是生成对抗网络生成的L个D维变分自编码器隐变量,经过Decoder得到L帧图像即生成的视频,即不匹配样本对,即真实样本对,分别通过Encoder再次得到变分自编码器的隐空间的正态分布,并分别从正态分布中采样得到L个隐变量 这三组隐变量分别输入判别器Discriminator并以Textgen,Textmis,Textreal为条件信息。分别计算生成器G和判别器D的损失函数,再根据梯度下降算法和梯度反向传播算法对latent variablegenerator和的Discriminator参数进行更新,其他网络参数不更新。
步骤6,对步骤5中训练得到的网络输入描述文本,得到生成视频。
结果表明,在24000个16帧48×48像素的手写数字移动视频数据集上设定batchsize大小为64,经500epoch的训练,网络能够针对输入文本生成接近训练数据集中的手写数字移动视频。
由上述实施例可知,该发明的视频生成方法能够根据输入描述文本生成视频,克服生成视频中帧间连续性差的问题,相比于单独使用生成对抗网络,变分自编码器与生成对抗网络结合的视频生成方法提高了视频生成的帧间连续性,将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分,使训练更容易以及更稳定。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构变换,或直接或间接运用附属在其他相关产品的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种变分自编码器与生成对抗网络结合的视频生成方法,其特征在于:包括如下步骤:
(1)收集各种类的视频,并按照类别对每个视频做好文本描述;
(2)对步骤1收集的视频及文本描述做归一化处理,得到生成对抗网络训练过程中使用的“视频-文本”数据集;
(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割,对分割得到的每一帧图像匹配其原所属视频的文本描述,得到变分自编码器训练过程中使用的“图像-文本”数据集;
(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D,变分自编码器包括编码器Encoder和解码器Decoder,其中编码器Encoder通过对输入的每一帧图像x计算均值meanx和方差variancex,将图像映射到专属于该图像的正态分布N(meanx,variancex),再从该分布随机中采样一个D维的隐变量,将该隐变量输入解码器Decoder,Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值meani附近,所述均值通过神经网络计算得到。
变分自编码器的损失函数LVAE为:
其中,meanx、variancex分别是图像x经过编码器Encoder得到的正态分布的均值和方差,meani为所述图像所属类别均值,x为变分自编码器输出的重建图像,训练过程以最小化损失函数LVAE为目标,Decoder输出的解码图像进行人工检查,重复操作直到解码图像的质量达到要求,得到训练好的变分自编码器模型。
(5)从步骤2处理后的数据集中取出M个样本对,作为生成对抗网络训练中使用的真实样本对,取出所述M个样本对中的的描述文本,对这M个描述文本重新配上与描述不匹配的视频,得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本,以步骤4训练好的变分自编码器模型与生成对抗网络结合,使用M个真实样本对,M个不匹配样本对及M个输入描述文本,输入生成对抗网络进行训练。
生成对抗网络包括生成器G和判别器D,生成的视频为L帧,其中生成器生成的是L个D维的变量delta1,delta2,…deltaL,根据需要生成的视频类别加上对应类别的均值meani
zk=meani+deltak,(k=1,2,…,L)
得到L个D维的变分自编码器的隐变量zk:z1,z2,…zL,将z1,z2,…zL输入到步骤4中已经训练好的变分自编码器的解码器Decoder中得到长度为L帧的视频;
所述的生成器G的损失函数LG为:
LG=-log(D(xgen,sgen))
其中,xreal是采样于真实视频数据分布的视频样本,sreal是对xreal的描述文本,(xreal,sreal)为所述真实样本对,(xmis,smis)为所述的真实样本对,sgen为输入生成器G的输入描述文本,xgen为生成器G生成的视频样本。
所述判别器D的损失函数LD为:
LD=-log(D(zreal,sreal))-log(1-D(zmis,smis)-log(1-D(zfake,sgen))
zreal,zmis,zfake分别是xreal,xmis,xgen经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。
生成对抗网络的训练过程分为生成器G的训练和判别器D的训练,生成器G的训练以最小化LG为目标,判别器D的训练以最小化LD为目标。训练过程中先训练判别器D,再训练生成器G,重复训练过程,对生成器生成的视频样本质量进行人工检查,直到生成的视频样本质量达到要求。
(6)将步骤5训练得到的网络中输入描述文本,生成视频。
2.根据权利要求1所述视频生成方法,其特征在于:所述变分自编码器的编码器Encoder由多层卷积神经网络构成,解码器Decoder由多层反卷积神经网络构成。
3.根据权利要求1所述视频生成方法,其特征在于:所述生成器G为生成变分自编码器隐变量的隐变量生成器。
4.根据权利要求3所述视频生成方法,其特征在于:所述生成器G为循环神经网络:LSTM(long short-term memory)。
5.根据权利要求1所述视频生成方法,其特征在于:所述判别器D对变分自编码器隐变量进行判别。
CN201910739833.2A 2019-08-12 2019-08-12 一种变分自编码器与生成对抗网络结合的视频生成方法 Active CN110572696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910739833.2A CN110572696B (zh) 2019-08-12 2019-08-12 一种变分自编码器与生成对抗网络结合的视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910739833.2A CN110572696B (zh) 2019-08-12 2019-08-12 一种变分自编码器与生成对抗网络结合的视频生成方法

Publications (2)

Publication Number Publication Date
CN110572696A true CN110572696A (zh) 2019-12-13
CN110572696B CN110572696B (zh) 2021-04-20

Family

ID=68775108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910739833.2A Active CN110572696B (zh) 2019-08-12 2019-08-12 一种变分自编码器与生成对抗网络结合的视频生成方法

Country Status (1)

Country Link
CN (1) CN110572696B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104997A (zh) * 2019-12-25 2020-05-05 深圳创新奇智科技有限公司 一种基于深度学习的商品二维码生成方法及系统
CN111415009A (zh) * 2020-03-19 2020-07-14 四川大学 基于遗传算法的卷积变积分自编码器网络结构搜索方法
CN111507215A (zh) * 2020-04-08 2020-08-07 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111523668A (zh) * 2020-05-06 2020-08-11 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111581916A (zh) * 2020-05-15 2020-08-25 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111598805A (zh) * 2020-05-13 2020-08-28 华中科技大学 一种基于vae-gan的对抗样本防御方法及系统
CN111899844A (zh) * 2020-09-28 2020-11-06 平安科技(深圳)有限公司 一种样本生成方法、装置、服务器及存储介质
CN111988277A (zh) * 2020-07-18 2020-11-24 郑州轻工业大学 一种基于双向生成对抗网络的攻击检测方法
CN112492313A (zh) * 2020-11-22 2021-03-12 复旦大学 一种基于生成对抗网络的图片传输系统
CN112597831A (zh) * 2021-02-22 2021-04-02 杭州安脉盛智能技术有限公司 一种基于变分自编码器和对抗网络的信号异常检测方法
CN112861759A (zh) * 2021-02-24 2021-05-28 北京瑞莱智慧科技有限公司 一种对抗样本生成方法及装置
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统
CN114598926A (zh) * 2022-01-20 2022-06-07 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN114900714A (zh) * 2022-04-12 2022-08-12 科大讯飞股份有限公司 一种基于神经网络的视频生成方法及相关装置
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
AU2018101528A4 (en) * 2018-10-14 2018-11-15 Li, Junjie Mr Camouflage image encryption based on variational auto-encoder(VAE) and discriminator
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109377452A (zh) * 2018-08-31 2019-02-22 西安电子科技大学 基于vae和生成式对抗网络的人脸图像修复方法
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
CN109948117A (zh) * 2019-03-13 2019-06-28 南京航空航天大学 一种对抗网络自编码器的卫星异常检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109377452A (zh) * 2018-08-31 2019-02-22 西安电子科技大学 基于vae和生成式对抗网络的人脸图像修复方法
AU2018101528A4 (en) * 2018-10-14 2018-11-15 Li, Junjie Mr Camouflage image encryption based on variational auto-encoder(VAE) and discriminator
CN109671125A (zh) * 2018-12-17 2019-04-23 电子科技大学 一种高度融合的gan网络模型及实现文本生成图像的方法
CN109948117A (zh) * 2019-03-13 2019-06-28 南京航空航天大学 一种对抗网络自编码器的卫星异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANG LI ET AL.: "A Method for Face Fusion Based on Variational Auto-Encoder", 《2018 15TH INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCESSING (ICCWAMTIP)》 *
杨韶晟: "基于VAE的条件生成式对抗网络模型研究", 《中国优秀硕士学位论文全文数据库信息科技辑,2019年第01期》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104997A (zh) * 2019-12-25 2020-05-05 深圳创新奇智科技有限公司 一种基于深度学习的商品二维码生成方法及系统
CN111415009A (zh) * 2020-03-19 2020-07-14 四川大学 基于遗传算法的卷积变积分自编码器网络结构搜索方法
CN111507215A (zh) * 2020-04-08 2020-08-07 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111507215B (zh) * 2020-04-08 2022-01-28 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111523668B (zh) * 2020-05-06 2021-08-20 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置
CN111523668A (zh) * 2020-05-06 2020-08-11 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置
CN111565318A (zh) * 2020-05-06 2020-08-21 中国科学院重庆绿色智能技术研究院 一种基于稀疏样本的视频压缩方法
CN111598805A (zh) * 2020-05-13 2020-08-28 华中科技大学 一种基于vae-gan的对抗样本防御方法及系统
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111581962B (zh) * 2020-05-14 2023-02-21 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111581916B (zh) * 2020-05-15 2022-03-01 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111581916A (zh) * 2020-05-15 2020-08-25 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111988277A (zh) * 2020-07-18 2020-11-24 郑州轻工业大学 一种基于双向生成对抗网络的攻击检测方法
WO2021159740A1 (zh) * 2020-09-28 2021-08-19 平安科技(深圳)有限公司 一种样本生成方法、装置、服务器及存储介质
CN111899844A (zh) * 2020-09-28 2020-11-06 平安科技(深圳)有限公司 一种样本生成方法、装置、服务器及存储介质
CN112492313B (zh) * 2020-11-22 2021-09-17 复旦大学 一种基于生成对抗网络的图片传输系统
CN112492313A (zh) * 2020-11-22 2021-03-12 复旦大学 一种基于生成对抗网络的图片传输系统
CN112597831A (zh) * 2021-02-22 2021-04-02 杭州安脉盛智能技术有限公司 一种基于变分自编码器和对抗网络的信号异常检测方法
CN112861759A (zh) * 2021-02-24 2021-05-28 北京瑞莱智慧科技有限公司 一种对抗样本生成方法及装置
CN113934890A (zh) * 2021-12-16 2022-01-14 之江实验室 一种自动文字生成场景视频的方法及系统
CN113934890B (zh) * 2021-12-16 2022-04-15 之江实验室 一种文字自动生成场景视频的方法及系统
CN114598926A (zh) * 2022-01-20 2022-06-07 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN114598926B (zh) * 2022-01-20 2023-01-03 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN114900714A (zh) * 2022-04-12 2022-08-12 科大讯飞股份有限公司 一种基于神经网络的视频生成方法及相关装置
CN114900714B (zh) * 2022-04-12 2023-11-21 科大讯飞股份有限公司 一种基于神经网络的视频生成方法及相关装置
CN116721176A (zh) * 2023-08-10 2023-09-08 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置
CN116721176B (zh) * 2023-08-10 2023-11-10 南强优视(厦门)科技有限公司 一种基于clip监督的文本到人脸图像生成方法及装置

Also Published As

Publication number Publication date
CN110572696B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN110572696B (zh) 一种变分自编码器与生成对抗网络结合的视频生成方法
Zha et al. A benchmark for sparse coding: When group sparsity meets rank minimization
Dong et al. Peco: Perceptual codebook for bert pre-training of vision transformers
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN110322416B (zh) 图像数据处理方法、装置以及计算机可读存储介质
CN110543846B (zh) 一种基于生成对抗网络的多姿态人脸图像正面化方法
Liu et al. A cross-modal adaptive gated fusion generative adversarial network for RGB-D salient object detection
CN107194371B (zh) 基于层次化卷积神经网络的用户专注度识别方法及系统
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
CN111652049A (zh) 人脸图像处理模型训练方法、装置、电子设备及存储介质
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
Jia et al. Stacked denoising tensor auto-encoder for action recognition with spatiotemporal corruptions
CN109360146A (zh) 基于深度卷积对抗生成网络dcgan的双光图像融合模型
CN110263865A (zh) 一种半监督多模态多类别的图像翻译方法
CN110889370A (zh) 基于条件生成对抗网络的端对端的侧面人脸合成正脸的系统及方法
CN109949217A (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN113947794A (zh) 基于头部姿态偏差校正的伪造换脸增强检测方法
CN115861614A (zh) 一种基于羽绒服图像的自动生成语义分割图的方法和装置
Sun et al. 3-D Facial Feature Reconstruction and Learning Network for Facial Expression Recognition in the Wild
CN110688966A (zh) 语义指导的行人重识别方法
CN110120009B (zh) 基于显著物体检测和深度估计算法的背景虚化实现方法
US20230262293A1 (en) Video synthesis via multimodal conditioning
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant