CN108596265B - 基于文本描述信息和生成对抗网络的视频生成模型 - Google Patents

基于文本描述信息和生成对抗网络的视频生成模型 Download PDF

Info

Publication number
CN108596265B
CN108596265B CN201810411742.1A CN201810411742A CN108596265B CN 108596265 B CN108596265 B CN 108596265B CN 201810411742 A CN201810411742 A CN 201810411742A CN 108596265 B CN108596265 B CN 108596265B
Authority
CN
China
Prior art keywords
video
image
generator
discriminator
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810411742.1A
Other languages
English (en)
Other versions
CN108596265A (zh
Inventor
吴贺俊
练紫莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810411742.1A priority Critical patent/CN108596265B/zh
Publication of CN108596265A publication Critical patent/CN108596265A/zh
Application granted granted Critical
Publication of CN108596265B publication Critical patent/CN108596265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于文本描述信息和生成对抗网络的视频生成模型,以带有文本描述信息的视频作为训练数据,应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练,剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练,从而训练出训练数据中文本描述信息的有效词向量,将<词向量,视频>输入到所提出的生成对抗网络模型中,以词向量作为限制条件,使得模型中生成器能够生成视频。

Description

基于文本描述信息和生成对抗网络的视频生成模型
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种基于文本描述信息和生成对抗网络的视频生成模型。
背景技术
图像生成和视频生成一直是计算机视觉中非常重要的一部分,近年来利用机器学习中生成模型实现图像生成的技术备受关注,自从2014年Ian Goodfellow提出了生成对抗网络(Generative Adversarial Network,GAN),为生成学习提供全新的思路和方法后,图像生成和视频生成技术都有了巨大的提高。
本发明主要涉及两个部分内容的设计,分别为文本信息的处理和生成对抗网络的设计。
首先是对于文本信息的处理,以得到具有泛化性且有效的词向量。为得到与视频有紧密联系的词向量,另外还希望词向量具有泛化性,则需要应用到已有的zero-shot学习方法,首先利用word2vectorde等方法将文本信息映射为词向量,再通过词向量和视频的匹配不断优化出有效的词向量。其中2015年,Xun Xu等人在论文Semantic embedding spacefor zero-shot action recognition中提出基于ZSL(Zero-Shot Learning),利用word2vector将标签名字映射为词向量,并应用非线性SVR(support vector regression)实现词向量和视频的匹配,由此提出了一个有效的动作识别模型。2017年,Xun Xu等人,在论文Transductive Zero-Shot Action Recognition by Word-Vector Embedding[J].International Journal of Computer Vision中对于词向量映射方法重新选择为神经网络(Mikolov等人提出,2013),并提出通过数据增强和流行正则化回归原理提高了词向量和视频匹配的准确率。2017年,Qian Wang等人则在论文Zero-Shot Visual Recognition viaBidirectional Latent Embedding中提出将训练分两个阶段,分别为自下而上和自上而下,其中自下而上阶段则通过有监督学习方法学习已有文本信息的视频对应的特征并将其映射到一个潜在空间,自上而下阶段则只输入语义描述,通过文本处理方法同样映射到该潜在空间,由此实现文本信息与视频以及文本信息与文本信息之间的联系。除此之外,2017年,Mihir Jain等人在论文Objects2action:Classifying and localizing actionswithout any video example中对于动作识别也提出有效模型objects2action,其不同于以往的zero-shot学习方法,用带有标签的图像数据集作为模型的训练集,再用带有标签信息的视频作为测集,通过找出视频于图像之间的关系以及二者标签信息之间的联系实现动作识别,其中在通过亲和度寻找二者标签信息的联系时训练得到有效的词向量。
其次是关于生成对抗网络的设计,自从2014年生成对抗网络首次问世,至今已经在图像以及视频生成处理方面的应用都有了很大的发展。
2014年,Ian Goodfellow在论文Generative Adversarial Nets中首次提出了生成对抗网络,该网络模型主要具有两大部分:生成器和判别器。其中二者为“竞争关系”,生成器类似于以往已知的解码器,输入短向量,生成图片、音频、视频等,而判别器则是进行二分类,辨别输入的是来自真实数据库还是生成器生成的数据。二者在互相竞争中不断优化,直到判别器不再能辨别输入的数据是来自哪一方。其目标函数如下所示:(G为生成器,D为判别器,pz(z)为随机设定的噪声变量,pdata(x)为真实数据集)
mGinmDaxV(D,G)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z))]
生成对抗网络自提出便备受关注,研究人员纷纷在其基础上进行改进和发展,大多数都应用于图像方面。2014年,Mehdi Mirza等人基于原始的GAN(GenerativeAdversarial Net,生成对抗网络)在论文Conditional Generative Adversarial Nets中提出了条件生成对抗网络,通过添加标签、文本信息等作为限制条件,改进了原始GAN训练不稳定的问题,使得生成器能够生成有意义的东西。另外一个GAN发展的里程碑当属DCGAN(Deep Convolutional GAN,深度卷积生成对抗网络)的提出。2016年,Alec Radford等人在论文Unsupervised representation learning with deep convolutional generativeadversarial networks中提出该模型,将GAN中的生成器和判别器都换成了卷积神经网络,其中此处的卷积神经网络和平时所用的卷积神经网络有所不同,分别为:(1)将传统卷积神经网络中的池化层都用卷积层替代,(2)在生成器和判别器上都使用batchnorm(批量标准化),(3)移除全连接层,作者表示经过实验这三处改变更加适应GAN模型,能够更好的提取图像特征,使其生成图像更加逼真。为了能够得到更加逼近真实世界的图像,研究者们开始输入相应的文本描述作为限制条件,使得GAN能够生成更好的图像。2016年,Scott Reed等人在论文Generative Adversarial Text to Image Synthesis中开始使用文本信息作为辅助条件,实现根据文本描述生成图像。2017年,Han Zhang等人在论文StackGAN:Text toPhoto-realiStic Image Synthesis with Stacked Generative Adversarial Networks中提出了stackGAN模型,通过叠加两层的GAN,根据文本描述能够得到非常逼真的图像,其细节大大提高,并实现了当前能够实现的最高分辨率为256x256。
GAN在图像方面的应用已经比较成熟,由此人们也开始关注GAN在视频生成方面的应用。2016年,M.Saito等人在论文Temporal generative adversarial nets中以及C.Vondrick等人在论文Generating videos with scene dynamics中开始将GAN拓展应用到视频生成中,但这两位作者的做法都是将视频映射到同一空间,只能够处理相同长度的视频,比较不灵活。2017年,Sergey Tulyakov等人在论文MoCoGAN:Decomposing Motionand Content for Video Generation中提出一个新的模型——MoCoGAN(motion andcontent decomposed GAN),其将视频拆分为动作和目标两个部分,使得GAN可以训练不同长度的视频,并且能够生成比较连贯的视频。
现有关于GAN的技术,主要还是应用于图像生成,在生成视频时虽然只是添加了时间这一维度,但是却导致GAN非常难训练,这是因为视频是关于时间和空间的记录,在训练时,模型不仅仅像在图像生成时一样只需学习物体的外观,更需要学习其运动的规律才能生成逼真的视频。另外加入时间这一维度,将会带来巨大的变化,比如同一个人用不同的速度做同一个动作将会被判定成不同的视频,MoCoGAN提出的训练机制一定程度上解决了这一问题,但是该模型只实现几种简单的关于人类活动的视频,缺乏泛化性。
发明内容
本发明提出的基于文本信息的生成对抗网络模型,参考了MoCoGAN模型的训练机制,将视频分为目标内容和动作两部分,使得模型能够生成有效视频;另外参照现有基于词向量和zero-shot学习方法的动作识别模型,学习得到具有泛化性且和视频密切相关的词向量作为GAN训练的额外限制条件,使得所提出的模型能够在大量带有文本描述信息的视频进行训练后,能够生成已有数据集以及部分不在数据集内的关于人类活动的视频。
为实现以上发明目的,采用的技术方案是:
基于文本描述信息和生成对抗网络的视频生成模型,以带有文本描述信息的视频作为训练数据,应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练,剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练,从而训练出训练数据中文本描述信息的有效词向量,将<词向量,视频>输入到所提出的生成对抗网络模型中,以词向量作为限制条件,使得模型中生成器能够生成视频。
优选地,所述的动作识别模型为基于词向量和zero-shot学习方法的动作识别模型。
与现有技术相比,本发明的有益效果是:
现有的通过生成对抗网络来实现视频生成的模型很少,做得最好的
MoCoGAN提出将视频目标(人物、背景等)和动作分离的思想为应用GAN实现视频生成提供了很好的思路,和MoCoGAN一样,已有的模型暂时都只能学习10个以内简单的关于人类动作的视频,而本发明提出的模型具有比较强的泛化能力,通过利用zero-shot学习的方法学习得到与视频密切相关的词向量,为视频生成提供了有效信息,并且能够根据标签信息之间的联系(相似度)可以推测出不在训练集中的标签信息的有效词向量,由此可以生成不在训练集中的视频,使得模型具有更好的泛化能力。
附图说明
图1基于文本描述信息的生成对抗模型框架
图2Objects2action模型框架
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本发明主要包含文本信息处理和生成对抗模型设计两部分,分别对应于图1中的(1)和(2)所指示的部分。
首先是对于文本信息的有效处理,主要目的是要得到和视频密切相关且具有泛化性的词向量。本发明参考Mihir Jain等人提出的objects2action模型如图2所示。模型利用带有文本信息(一般为标签信息,不是单个单词,通常在2~4个词,例如:brush hair、diving springboard 3m等)的图像数据集作为训练集,表示为D≡{x,y},其中x为图像,y为标签信息;以带有标签信息的视频作为测试集,表示为T≡{v,z},其中v为视频,z为视频标签信息。且y和z完全不相交。
如图2所示,首先该模型会利用word2vector的skip-gram模型对YFCC100M数据集中的元数据(标题、描述、标签等)进行无监督学习得到所有不重复的词的词向量,即图2中的Text corpus。
图2中的Object Encoding部分记为模型M,用于对视频进行编码,该模型为ImageNet中的深度卷积网络,先将带有标签信息的图片输入模型M进行训练后,得到关于数据集中各标签图像的分布,随后将测试集中的视频输入到M进行编码。已知n=|Y|,为图像标签的个数,然后每个视频随机抽取10帧图像,计算每张图像输入y1(图像标签1)的可能性,再求平均则得到该视频属于y1的概率,以此类推求出输入视频属于每个标签的概率p(yi|v),i=1,2,3...,n,由此得到编码后的视频形式为:
pv=[p(y1|v),p(y2|v),...,p(yn|n)]T
图2中的Semantic Embedding部分用于对词向量进行处理得到有效的句向量。该部分首先根据所输入的图像的标签信息和视频的标签信息(这两种信息都不是简单的一个单词,而是由2个词以上构成的简短的描述),在事先在Text corpus中得到的一堆词向量中查找对应的词向量,再使用Average Word Vectors(AWV)方法求出标签信息包含的词向量的和求平均所得到,由此可以得到训练集中图像标签信息的有效句向量sA(y)和测试集中视频标签信息的有效句向量sA(z)。
图2中的Sparse Translation部分通过计算视频标签信息与图像标签信息之间的联系,对视频标签信息进行编码。gyz=sA(y)TsA(z)表示视频标签信息z与图像标签信息y之间的相似程度,因此参照视频根据图像的编码形式可以将视频标签信息编码为gz=[sA(y1)...sA(yn)]TsA(z)。由于图像的标签信息不一定所有对视频标签信息描述有效,因此只对图像标签信息与视频标签信息相似程度前k个进行考虑,因此引入指示函数δ(y,kz),当y在k个最接近的模型kz中时就返回1,因此视频标签信息编码变为
Figure BDA0001648266120000051
有了以上的基础,最后要利用编码后的标签信息和视频进行分类。根据凸组合的定义,根据
Figure BDA0001648266120000052
可以得到使得该式子最大的z就是最接近所输入视频的描述信息,由此完成了动作识别分类。
而在这整个过程中得到了有效的词向量并进一步处理得到有效的句向量,可以用来描述视频的内容。在训练过程中,由于图像数据集中的标签信息完全不同于视频数据集中的标签信息,但是通过此模型一方面可以得到已知视频标签信息的有效句向量,另外还可以利用两种标签信息之间的联系方式推测出与已知视频标签信息不同的其他的标签信息的有效句向量,以此作为限制条件可以训练出泛化能力强的生成对抗网络。
关于生成对抗网络设计部分,结构图可见图1的(2)部分。该模型包括四个主要部分,分别为:图像生成器GI、图像判别器DI、视频生成器GV和视频判别器DV,分别如图1所示。为了能够得到逼真的视频,参考MoCoGAN模型的训练方法,将视频分为目标和动作两部分,分别学习两者的分布形似,这使得对视频的训练简单且稳定。其中图像生成器利用了DCGAN里面的卷积神经网络,用于生成视频中每一帧的图像;图像判别器也是用的卷积神经网络,是一个二分类器,用于判别输入的图像属于真实的视频还是图像生成器生成的图像;视频生成器实际上是一个递归神经网络模型,此处选用的是LSTM(Long Short-Term Memory,长短期记忆网络),用于学习视频在时序上的联系,也就是用于学习视频中人物的动作;判别器也是一个二分类器,其输入为从真实视频或者是生成的视频中随机抽取的16帧图像,其需辨别图像来源于真实数据集还是有生成器产生。因此此模型应用了两个GAN,其中一个用于生成图像,另一个用于学习动作生成逼真的视频。
如图1的(2)部分所示,因为本实验是要根据文本描述生成相应的关于人类活动的视频,首先输入视频描述信息(一般为2个词以上的短幅描述)到已经在objects2action模型里训练好的Semantic Embedding模块,得到与视频密切相关的有效句向量
Figure BDA0001648266120000061
然后从高斯分布中随机抽取32个短向量分别为[ε12,...,ε32],将其按顺序输入到Gv,即LSTM网络中学习得到关于视频中动作的编码向量序列为[vm1,vm2,...,vm32]。由于用于训练的视频是帧数不会超过69帧的短视频,且每次训练时是从视频中随机抽取16帧作为输入,因此视频中的主要(人物、背景等)在整个视频中一般不会有太大的变化,可以将视频中的主要目标假设不变,因此每帧图像的目标都统一为vz。在此设定每一帧图像的特征可表示为
Figure BDA0001648266120000071
由此得到的每一个向量为GI的输入,经过上采样的卷积神经网络后输出一张分辨率为64x64的图像
Figure BDA0001648266120000072
这32张图按时序拼接起来便是模型生成的视频。
在对图像判别器和视频判别器训练时需要将视频分别通过函数F1和FT,函数F1是从真实视频或者是生成器生成的视频中随机抽取出一张图像作为DI的输入,同理函数FT是从真实视频或者是生成器生成的视频中随机抽取出T张(实验中是16张)图像作为Dv的输入。抽取出的图像首先会经过下采样神经网络得到图像的特征,并和压缩转换后的句向量
Figure BDA0001648266120000073
拼接起来输入到二分类器中,最后DI和Dv都会输出1或0,其中1表示为真实数据集中的视频,0表示为生成器生成的视频。按照GAN最初是的原理,生成器和判别器是互相竞争中不断优化的,因此应该交替地同时优化GI和Gv以及DI和Dv,在训练到判别器无法辨别图像来自于真实数据集还是生成的数据时生成器和判别器都达到了最优。
此模型在UFC101数据集中应用了其中101个种类的1574个视频以及HMD51数据集中的1530个视频进行训练均可以生成比较好的关于人类动作的视频,并且能够生成一些标签信息不在数据集中的视频,说明模型的泛化能力有了很大的提高。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.基于文本描述信息和生成对抗网络的视频生成模型,其特征在于:以带有文本描述信息的视频作为训练数据,应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练,剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练,从而训练出训练数据中文本描述信息的有效词向量,将<词向量,视频>输入到所提出的生成对抗网络模型中,以词向量作为限制条件,使得模型中生成器能够生成视频;
所述生成对抗网络模型包括四个主要部分,分别为:图像生成器GI、图像判别器DI、视频生成器GV和视频判别器DV;为了能够得到逼真的视频,将视频分为目标和动作两部分,分别学习两者的分布形式,这使得对视频的训练简单且稳定;其中图像生成器GI利用了DCGAN里面的卷积神经网络,用于生成视频中每一帧的图像;图像判别器DI也是用的卷积神经网络,是一个二分类器,用于判别输入的图像属于真实的视频还是图像生成器生成的图像;视频生成器GV实际上是一个递归神经网络模型,此处选用的是LSTM,用于学习视频在时序上的联系,也就是用于学习视频中人物的动作;视频判别器DV也是一个二分类器,其输入为从真实视频或者是生成的视频中随机抽取的16帧图像,其需辨别图像来源于真实数据集还是由生成器产生;因此此模型应用了两个GAN,其中一个用于生成图像,另一个用于学习动作生成逼真的视频;
根据文本描述生成相应的关于人类活动的视频,首先输入视频描述信息到已经在objects2action模型里训练好的Semantic Embedding模块,得到与视频密切相关的有效句向量
Figure FDA0003406311970000011
然后从高斯分布中随机抽取32个短向量分别为[ε12,...,ε32],将其按顺序输入到视频生成器Gv,即LSTM网络中学习得到关于视频中动作的编码向量序列为[vm1,vm2,...,vm32],由于用于训练的视频是帧数不会超过69帧的短视频,且每次训练时是从视频中随机抽取16帧作为输入,因此视频中的主要人物背景在整个视频中不会有太大的变化,将视频中的主要目标假设不变,因此每帧图像的目标都统一为vz,在此设定每一帧图像的特征表示为
Figure FDA0003406311970000012
由此得到的每一个向量为图像生成器GI的输入,经过上采样的卷积神经网络后输出一张分辨率为64x64的图像
Figure FDA0003406311970000021
这32张图按时序拼接起来便是模型生成的视频;
在对图像判别器和视频判别器训练时需要将视频分别通过函数F1和FT,函数F1是从真实视频或者是生成器生成的视频中随机抽取出一张图像作为图像判别器DI的输入,同理函数FT是从真实视频或者是生成器生成的视频中随机抽取出T张图像作为视频判别器Dv的输入,抽取出的图像首先会经过下采样神经网络得到图像的特征,并和压缩转换后的句向量
Figure FDA0003406311970000022
拼接起来输入到二分类器中,最后图像判别器DI和视频判别器Dv都会输出1或0,其中1表示为真实数据集中的视频,0表示为生成器生成的视频,生成器和判别器是互相竞争中不断优化的,因此应该交替地同时优化图像生成器GI和视频生成器Gv以及图像判别器DI和视频判别器Dv,在训练到判别器无法辨别图像来自于真实数据集还是生成的数据时生成器和判别器都达到了最优。
2.根据权利要求1所述的基于文本描述信息和生成对抗网络的视频生成模型,其特征在于:所述的动作识别模型为基于词向量和zero-shot学习方法的动作识别模型。
CN201810411742.1A 2018-05-02 2018-05-02 基于文本描述信息和生成对抗网络的视频生成模型 Active CN108596265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810411742.1A CN108596265B (zh) 2018-05-02 2018-05-02 基于文本描述信息和生成对抗网络的视频生成模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810411742.1A CN108596265B (zh) 2018-05-02 2018-05-02 基于文本描述信息和生成对抗网络的视频生成模型

Publications (2)

Publication Number Publication Date
CN108596265A CN108596265A (zh) 2018-09-28
CN108596265B true CN108596265B (zh) 2022-04-08

Family

ID=63620679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810411742.1A Active CN108596265B (zh) 2018-05-02 2018-05-02 基于文本描述信息和生成对抗网络的视频生成模型

Country Status (1)

Country Link
CN (1) CN108596265B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN109360436B (zh) * 2018-11-02 2021-01-08 Oppo广东移动通信有限公司 一种视频生成方法、终端及存储介质
CN109522411B (zh) * 2018-11-12 2022-10-28 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CN109543159B (zh) * 2018-11-12 2023-03-24 南京德磐信息科技有限公司 一种文本生成图像方法及装置
CN109783798A (zh) * 2018-12-12 2019-05-21 平安科技(深圳)有限公司 文本信息添加图片的方法、装置、终端及存储介质
CN109671125B (zh) * 2018-12-17 2023-04-07 电子科技大学 一种高度融合的gan网络装置及实现文本生成图像的方法
CN109800399B (zh) * 2018-12-18 2023-05-26 北京奇艺世纪科技有限公司 模型生成方法、封面生成方法、装置及存储介质
CN109829495B (zh) * 2019-01-29 2023-04-07 南京信息工程大学 基于lstm和dcgan的时序性图像预测方法
CN109815927B (zh) * 2019-01-30 2021-04-23 杭州一知智能科技有限公司 利用对抗双向交互网络解决视频时间文本定位任务的方法
CN110070587B (zh) * 2019-03-05 2023-02-10 浙江工商大学 一种基于条件级联对抗生成网络的行人图像生成方法
CN109978021B (zh) * 2019-03-07 2022-09-16 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
KR102117654B1 (ko) * 2019-04-29 2020-06-01 연세대학교 산학협력단 자연어 기반의 비디오 생성 방법 및 장치
CN111127385B (zh) * 2019-06-06 2023-01-13 昆明理工大学 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
EP3754548A1 (en) * 2019-06-17 2020-12-23 Sap Se A method for recognizing an object in an image using features vectors of an encoding neural network
CN111046900B (zh) * 2019-10-25 2022-10-18 重庆邮电大学 基于局部流形正则化的半监督生成对抗网络图像分类方法
CN111242059B (zh) * 2020-01-16 2022-03-15 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
US11429996B2 (en) 2020-01-21 2022-08-30 International Business Machines Corporation System and method for generating preferred ameliorative actions using generative adversarial networks
CN111310464B (zh) * 2020-02-17 2024-02-02 北京明略软件系统有限公司 词向量获取模型生成方法、装置及词向量获取方法、装置
CN111639547B (zh) * 2020-05-11 2021-04-30 山东大学 基于生成对抗网络的视频描述方法及系统
CN115249062B (zh) * 2022-09-22 2023-02-03 武汉大学 一种文本生成视频的网络模型、方法及装置
US11908180B1 (en) * 2023-03-24 2024-02-20 Google Llc Generating videos using sequences of generative neural networks

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017174491A1 (en) * 2016-04-06 2017-10-12 Trinamix Gmbh Detector for an optical detection of at least one object
CN107609481A (zh) * 2017-08-14 2018-01-19 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
CN107944468A (zh) * 2017-11-02 2018-04-20 天津大学 基于隐空间编码的零样本学习分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108991B2 (en) * 2014-10-31 2018-10-23 Bank Of America Corporation Instant customer service feedback system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017174491A1 (en) * 2016-04-06 2017-10-12 Trinamix Gmbh Detector for an optical detection of at least one object
CN107609481A (zh) * 2017-08-14 2018-01-19 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
CN107944468A (zh) * 2017-11-02 2018-04-20 天津大学 基于隐空间编码的零样本学习分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MoCoGAN: Decomposing Motion and Content for Video Generation;Sergey Tulyakov et al.;《arXiv》;20171214;第1-13页 *
Objects2action: Classifying and localizing actions without any video example;Mihir Jain et al.;《2015 IEEE International Conference on Computer Vision (ICCV)》;20151231;第4588-4596页 *

Also Published As

Publication number Publication date
CN108596265A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108596265B (zh) 基于文本描述信息和生成对抗网络的视频生成模型
Wang et al. Disentangled representation learning
Wang et al. Deep visual domain adaptation: A survey
Agnese et al. A survey and taxonomy of adversarial neural networks for text‐to‐image synthesis
Khan et al. A realistic image generation of face from text description using the fully trained generative adversarial networks
Mao et al. Hierarchical Bayesian theme models for multipose facial expression recognition
CN112004111B (zh) 一种全域深度学习的新闻视频信息抽提方法
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN112668559B (zh) 一种多模态信息融合的短视频情感判定装置及方法
Bashbaghi et al. Deep learning architectures for face recognition in video surveillance
Hong et al. Understanding blooming human groups in social networks
Zhang et al. IL-GAN: Illumination-invariant representation learning for single sample face recognition
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
Gupta et al. CNN-LSTM hybrid real-time IoT-based cognitive approaches for ISLR with WebRTC: auditory impaired assistive technology
CN114201605A (zh) 一种基于联合属性建模的图像情感分析方法
Gajurel et al. A fine-grained visual attention approach for fingerspelling recognition in the wild
Passos et al. A gait energy image-based system for Brazilian sign language recognition
Gangadia et al. Indian sign language interpretation and sentence formation
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
Zhu et al. Multiscale temporal network for continuous sign language recognition
Esfahani et al. Image generation with gans-based techniques: A survey
Le et al. Multi visual and textual embedding on visual question answering for blind people
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
Boukdir et al. Character-level arabic text generation from sign language video using encoder–decoder model
Sumalakshmi et al. Fused deep learning based Facial Expression Recognition of students in online learning mode

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant