CN108596265A - 基于文本描述信息和生成对抗网络的视频生成模型 - Google Patents
基于文本描述信息和生成对抗网络的视频生成模型 Download PDFInfo
- Publication number
- CN108596265A CN108596265A CN201810411742.1A CN201810411742A CN108596265A CN 108596265 A CN108596265 A CN 108596265A CN 201810411742 A CN201810411742 A CN 201810411742A CN 108596265 A CN108596265 A CN 108596265A
- Authority
- CN
- China
- Prior art keywords
- video
- model
- description information
- text description
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 241001351225 Sergey Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于文本描述信息和生成对抗网络的视频生成模型,以带有文本描述信息的视频作为训练数据,应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练,剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练,从而训练出训练数据中文本描述信息的有效词向量,将<词向量,视频>输入到所提出的生成对抗网络模型中,以词向量作为限制条件,使得模型中生成器能够生成视频。
Description
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种基于文本描述信息和生成对抗网络的视频生成模型。
背景技术
图像生成和视频生成一直是计算机视觉中非常重要的一部分,近年来利用机器学习中生成模型实现图像生成的技术备受关注,自从2014年Ian Goodfellow提出了生成对抗网络(Generative Adversarial Network,GAN),为生成学习提供全新的思路和方法后,图像生成和视频生成技术都有了巨大的提高。
本发明主要涉及两个部分内容的设计,分别为文本信息的处理和生成对抗网络的设计。
首先是对于文本信息的处理,以得到具有泛化性且有效的词向量。为得到与视频有紧密联系的词向量,另外还希望词向量具有泛化性,则需要应用到已有的zero-shot学习方法,首先利用word2vectorde等方法将文本信息映射为词向量,再通过词向量和视频的匹配不断优化出有效的词向量。其中2015年,Xun Xu等人在论文Semantic embedding spacefor zero-shot action recognition中提出基于ZSL(Zero-Shot Learning),利用word2vector将标签名字映射为词向量,并应用非线性SVR(support vector regression)实现词向量和视频的匹配,由此提出了一个有效的动作识别模型。2017年,Xun Xu等人,在论文Transductive Zero-Shot Action Recognition by Word-Vector Embedding[J].International Journal of Computer Vision中对于词向量映射方法重新选择为神经网络(Mikolov等人提出,2013),并提出通过数据增强和流行正则化回归原理提高了词向量和视频匹配的准确率。2017年,Qian Wang等人则在论文Zero-Shot Visual Recognition viaBidirectional Latent Embedding中提出将训练分两个阶段,分别为自下而上和自上而下,其中自下而上阶段则通过有监督学习方法学习已有文本信息的视频对应的特征并将其映射到一个潜在空间,自上而下阶段则只输入语义描述,通过文本处理方法同样映射到该潜在空间,由此实现文本信息与视频以及文本信息与文本信息之间的联系。除此之外,2017年,Mihir Jain等人在论文Objects2action:Classifying and localizing actionswithout any video example中对于动作识别也提出有效模型objects2action,其不同于以往的zero-shot学习方法,用带有标签的图像数据集作为模型的训练集,再用带有标签信息的视频作为测集,通过找出视频于图像之间的关系以及二者标签信息之间的联系实现动作识别,其中在通过亲和度寻找二者标签信息的联系时训练得到有效的词向量。
其次是关于生成对抗网络的设计,自从2014年生成对抗网络首次问世,至今已经在图像以及视频生成处理方面的应用都有了很大的发展。
2014年,Ian Goodfellow在论文Generative Adversarial Nets中首次提出了生成对抗网络,该网络模型主要具有两大部分:生成器和判别器。其中二者为“竞争关系”,生成器类似于以往已知的解码器,输入短向量,生成图片、音频、视频等,而判别器则是进行二分类,辨别输入的是来自真实数据库还是生成器生成的数据。二者在互相竞争中不断优化,直到判别器不再能辨别输入的数据是来自哪一方。其目标函数如下所示:(G为生成器,D为判别器,pz(z)为随机设定的噪声变量,pdata(x)为真实数据集)
mGinmDaxV(D,G)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z))]
生成对抗网络自提出便备受关注,研究人员纷纷在其基础上进行改进和发展,大多数都应用于图像方面。2014年,Mehdi Mirza等人基于原始的GAN(GenerativeAdversarial Net,生成对抗网络)在论文Conditional Generative Adversarial Nets中提出了条件生成对抗网络,通过添加标签、文本信息等作为限制条件,改进了原始GAN训练不稳定的问题,使得生成器能够生成有意义的东西。另外一个GAN发展的里程碑当属DCGAN(Deep Convolutional GAN,深度卷积生成对抗网络)的提出。2016年,Alec Radford等人在论文Unsupervised representation learning with deep convolutional generativeadversarial networks中提出该模型,将GAN中的生成器和判别器都换成了卷积神经网络,其中此处的卷积神经网络和平时所用的卷积神经网络有所不同,分别为:(1)将传统卷积神经网络中的池化层都用卷积层替代,(2)在生成器和判别器上都使用batchnorm(批量标准化),(3)移除全连接层,作者表示经过实验这三处改变更加适应GAN模型,能够更好的提取图像特征,使其生成图像更加逼真。为了能够得到更加逼近真实世界的图像,研究者们开始输入相应的文本描述作为限制条件,使得GAN能够生成更好的图像。2016年,Scott Reed等人在论文Generative Adversarial Text to Image Synthesis中开始使用文本信息作为辅助条件,实现根据文本描述生成图像。2017年,Han Zhang等人在论文StackGAN:Text toPhoto-realiStic Image Synthesis with Stacked Generative Adversarial Networks中提出了stackGAN模型,通过叠加两层的GAN,根据文本描述能够得到非常逼真的图像,其细节大大提高,并实现了当前能够实现的最高分辨率为256x256。
GAN在图像方面的应用已经比较成熟,由此人们也开始关注GAN在视频生成方面的应用。2016年,M.Saito等人在论文Temporal generative adversarial nets中以及C.Vondrick等人在论文Generating videos with scene dynamics中开始将GAN拓展应用到视频生成中,但这两位作者的做法都是将视频映射到同一空间,只能够处理相同长度的视频,比较不灵活。2017年,Sergey Tulyakov等人在论文MoCoGAN:Decomposing Motionand Content for Video Generation中提出一个新的模型——MoCoGAN(motion andcontent decomposed GAN),其将视频拆分为动作和目标两个部分,使得GAN可以训练不同长度的视频,并且能够生成比较连贯的视频。
现有关于GAN的技术,主要还是应用于图像生成,在生成视频时虽然只是添加了时间这一维度,但是却导致GAN非常难训练,这是因为视频是关于时间和空间的记录,在训练时,模型不仅仅像在图像生成时一样只需学习物体的外观,更需要学习其运动的规律才能生成逼真的视频。另外加入时间这一维度,将会带来巨大的变化,比如同一个人用不同的速度做同一个动作将会被判定成不同的视频,MoCoGAN提出的训练机制一定程度上解决了这一问题,但是该模型只实现几种简单的关于人类活动的视频,缺乏泛化性。
发明内容
本发明提出的基于文本信息的生成对抗网络模型,参考了MoCoGAN模型的训练机制,将视频分为目标内容和动作两部分,使得模型能够生成有效视频;另外参照现有基于词向量和zero-shot学习方法的动作识别模型,学习得到具有泛化性且和视频密切相关的词向量作为GAN训练的额外限制条件,使得所提出的模型能够在大量带有文本描述信息的视频进行训练后,能够生成已有数据集以及部分不在数据集内的关于人类活动的视频。
为实现以上发明目的,采用的技术方案是:
基于文本描述信息和生成对抗网络的视频生成模型,以带有文本描述信息的视频作为训练数据,应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练,剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练,从而训练出训练数据中文本描述信息的有效词向量,将<词向量,视频>输入到所提出的生成对抗网络模型中,以词向量作为限制条件,使得模型中生成器能够生成视频。
优选地,所述的动作识别模型为基于词向量和zero-shot学习方法的动作识别模型。
与现有技术相比,本发明的有益效果是:
现有的通过生成对抗网络来实现视频生成的模型很少,做得最好的
MoCoGAN提出将视频目标(人物、背景等)和动作分离的思想为应用GAN实现视频生成提供了很好的思路,和MoCoGAN一样,已有的模型暂时都只能学习10个以内简单的关于人类动作的视频,而本发明提出的模型具有比较强的泛化能力,通过利用zero-shot学习的方法学习得到与视频密切相关的词向量,为视频生成提供了有效信息,并且能够根据标签信息之间的联系(相似度)可以推测出不在训练集中的标签信息的有效词向量,由此可以生成不在训练集中的视频,使得模型具有更好的泛化能力。
附图说明
图1基于文本描述信息的生成对抗模型框架
图2Objects2action模型框架
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本发明主要包含文本信息处理和生成对抗模型设计两部分,分别对应于图1中的(1)和(2)所指示的部分。
首先是对于文本信息的有效处理,主要目的是要得到和视频密切相关且具有泛化性的词向量。本发明参考Mihir Jain等人提出的objects2action模型如图2所示。模型利用带有文本信息(一般为标签信息,不是单个单词,通常在2~4个词,例如:brush hair、diving springboard 3m等)的图像数据集作为训练集,表示为D≡{x,y},其中x为图像,y为标签信息;以带有标签信息的视频作为测试集,表示为T≡{v,z},其中v为视频,z为视频标签信息。且y和z完全不相交。
如图2所示,首先该模型会利用word2vector的skip-gram模型对YFCC100M数据集中的元数据(标题、描述、标签等)进行无监督学习得到所有不重复的词的词向量,即图2中的Text corpus。
图2中的Object Encoding部分记为模型M,用于对视频进行编码,该模型为ImageNet中的深度卷积网络,先将带有标签信息的图片输入模型M进行训练后,得到关于数据集中各标签图像的分布,随后将测试集中的视频输入到M进行编码。已知n=|Y|,为图像标签的个数,然后每个视频随机抽取10帧图像,计算每张图像输入y1(图像标签1)的可能性,再求平均则得到该视频属于y1的概率,以此类推求出输入视频属于每个标签的概率p(yi|v),i=1,2,3...,n,由此得到编码后的视频形式为:
pv=[p(y1|v),p(y2|v),...,p(yn|n)]T
图2中的Semantic Embedding部分用于对词向量进行处理得到有效的句向量。该部分首先根据所输入的图像的标签信息和视频的标签信息(这两种信息都不是简单的一个单词,而是由2个词以上构成的简短的描述),在事先在Text corpus中得到的一堆词向量中查找对应的词向量,再使用Average Word Vectors(AWV)方法求出标签信息包含的词向量的和求平均所得到,由此可以得到训练集中图像标签信息的有效句向量sA(y)和测试集中视频标签信息的有效句向量sA(z)。
图2中的Sparse Translation部分通过计算视频标签信息与图像标签信息之间的联系,对视频标签信息进行编码。gyz=sA(y)TsA(z)表示视频标签信息z与图像标签信息y之间的相似程度,因此参照视频根据图像的编码形式可以将视频标签信息编码为gz=[sA(y1)...sA(yn)]TsA(z)。由于图像的标签信息不一定所有对视频标签信息描述有效,因此只对图像标签信息与视频标签信息相似程度前k个进行考虑,因此引入指示函数δ(y,kz),当y在k个最接近的模型kz中时就返回1,因此视频标签信息编码变为
有了以上的基础,最后要利用编码后的标签信息和视频进行分类。根据凸组合的定义,根据可以得到使得该式子最大的z就是最接近所输入视频的描述信息,由此完成了动作识别分类。
而在这整个过程中得到了有效的词向量并进一步处理得到有效的句向量,可以用来描述视频的内容。在训练过程中,由于图像数据集中的标签信息完全不同于视频数据集中的标签信息,但是通过此模型一方面可以得到已知视频标签信息的有效句向量,另外还可以利用两种标签信息之间的联系方式推测出与已知视频标签信息不同的其他的标签信息的有效句向量,以此作为限制条件可以训练出泛化能力强的生成对抗网络。
关于生成对抗网络设计部分,结构图可见图1的(2)部分。该模型包括四个主要部分,分别为:图像生成器GI、图像判别器DI、视频生成器GV和视频判别器DV,分别如图1所示。为了能够得到逼真的视频,参考MoCoGAN模型的训练方法,将视频分为目标和动作两部分,分别学习两者的分布形似,这使得对视频的训练简单且稳定。其中图像生成器利用了DCGAN里面的卷积神经网络,用于生成视频中每一帧的图像;图像判别器也是用的卷积神经网络,是一个二分类器,用于判别输入的图像属于真实的视频还是图像生成器生成的图像;视频生成器实际上是一个递归神经网络模型,此处选用的是LSTM(Long Short-Term Memory,长短期记忆网络),用于学习视频在时序上的联系,也就是用于学习视频中人物的动作;判别器也是一个二分类器,其输入为从真实视频或者是生成的视频中随机抽取的16帧图像,其需辨别图像来源于真实数据集还是有生成器产生。因此此模型应用了两个GAN,其中一个用于生成图像,另一个用于学习动作生成逼真的视频。
如图1的(2)部分所示,因为本实验是要根据文本描述生成相应的关于人类活动的视频,首先输入视频描述信息(一般为2个词以上的短幅描述)到已经在objects2action模型里训练好的Semantic Embedding模块,得到与视频密切相关的有效句向量然后从高斯分布中随机抽取32个短向量分别为[ε1,ε2,...,ε32],将其按顺序输入到Gv,即LSTM网络中学习得到关于视频中动作的编码向量序列为[vm1,vm2,...,vm32]。由于用于训练的视频是帧数不会超过69帧的短视频,且每次训练时是从视频中随机抽取16帧作为输入,因此视频中的主要(人物、背景等)在整个视频中一般不会有太大的变化,可以将视频中的主要目标假设不变,因此每帧图像的目标都统一为vz。在此设定每一帧图像的特征可表示为由此得到的每一个向量为GI的输入,经过上采样的卷积神经网络后输出一张分辨率为64x64的图像这32张图按时序拼接起来便是模型生成的视频。
在对图像判别器和视频判别器训练时需要将视频分别通过函数F1和FT,函数F1是从真实视频或者是生成器生成的视频中随机抽取出一张图像作为DI的输入,同理函数FT是从真实视频或者是生成器生成的视频中随机抽取出T张(实验中是16张)图像作为Dv的输入。抽取出的图像首先会经过下采样神经网络得到图像的特征,并和压缩转换后的句向量拼接起来输入到二分类器中,最后DI和Dv都会输出1或0,其中1表示为真实数据集中的视频,0表示为生成器生成的视频。按照GAN最初是的原理,生成器和判别器是互相竞争中不断优化的,因此应该交替地同时优化GI和Gv以及DI和Dv,在训练到判别器无法辨别图像来自于真实数据集还是生成的数据时生成器和判别器都达到了最优。
此模型在UFC101数据集中应用了其中101个种类的1574个视频以及HMD51数据集中的1530个视频进行训练均可以生成比较好的关于人类动作的视频,并且能够生成一些标签信息不在数据集中的视频,说明模型的泛化能力有了很大的提高。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (2)
1.基于文本描述信息和生成对抗网络的视频生成模型,其特征在于:以带有文本描述信息的视频作为训练数据,应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练,剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练,从而训练出训练数据中文本描述信息的有效词向量,将<词向量,视频>输入到所提出的生成对抗网络模型中,以词向量作为限制条件,使得模型中生成器能够生成视频。
2.根据权利要求1所述的基于文本描述信息和生成对抗网络的视频生成模型,其特征在于:所述的动作识别模型为基于词向量和zero-shot学习方法的动作识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810411742.1A CN108596265B (zh) | 2018-05-02 | 2018-05-02 | 基于文本描述信息和生成对抗网络的视频生成模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810411742.1A CN108596265B (zh) | 2018-05-02 | 2018-05-02 | 基于文本描述信息和生成对抗网络的视频生成模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596265A true CN108596265A (zh) | 2018-09-28 |
CN108596265B CN108596265B (zh) | 2022-04-08 |
Family
ID=63620679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810411742.1A Active CN108596265B (zh) | 2018-05-02 | 2018-05-02 | 基于文本描述信息和生成对抗网络的视频生成模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596265B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360436A (zh) * | 2018-11-02 | 2019-02-19 | Oppo广东移动通信有限公司 | 一种视频生成方法、终端及存储介质 |
CN109492764A (zh) * | 2018-10-24 | 2019-03-19 | 平安科技(深圳)有限公司 | 生成式对抗网络的训练方法、相关设备及介质 |
CN109522411A (zh) * | 2018-11-12 | 2019-03-26 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CN109543159A (zh) * | 2018-11-12 | 2019-03-29 | 南京德磐信息科技有限公司 | 一种文本生成图像方法及装置 |
CN109671125A (zh) * | 2018-12-17 | 2019-04-23 | 电子科技大学 | 一种高度融合的gan网络模型及实现文本生成图像的方法 |
CN109783798A (zh) * | 2018-12-12 | 2019-05-21 | 平安科技(深圳)有限公司 | 文本信息添加图片的方法、装置、终端及存储介质 |
CN109800399A (zh) * | 2018-12-18 | 2019-05-24 | 北京奇艺世纪科技有限公司 | 模型生成方法、封面生成方法、装置及存储介质 |
CN109815927A (zh) * | 2019-01-30 | 2019-05-28 | 杭州一知智能科技有限公司 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
CN109829495A (zh) * | 2019-01-29 | 2019-05-31 | 南京信息工程大学 | 基于lstm和dcgan的时序性图像预测方法 |
CN109978021A (zh) * | 2019-03-07 | 2019-07-05 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
CN110070587A (zh) * | 2019-03-05 | 2019-07-30 | 浙江工商大学 | 一种基于条件级联对抗生成网络的行人图像生成方法 |
CN111046900A (zh) * | 2019-10-25 | 2020-04-21 | 重庆邮电大学 | 基于局部流形正则化的半监督生成对抗网络图像分类方法 |
CN111127385A (zh) * | 2019-06-06 | 2020-05-08 | 昆明理工大学 | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 |
KR102117654B1 (ko) * | 2019-04-29 | 2020-06-01 | 연세대학교 산학협력단 | 자연어 기반의 비디오 생성 방법 및 장치 |
CN111242059A (zh) * | 2020-01-16 | 2020-06-05 | 合肥工业大学 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
CN111310464A (zh) * | 2020-02-17 | 2020-06-19 | 北京明略软件系统有限公司 | 词向量获取模型生成方法、装置及词向量获取方法、装置 |
CN111639547A (zh) * | 2020-05-11 | 2020-09-08 | 山东大学 | 基于生成对抗网络的视频描述方法及系统 |
EP3754548A1 (en) * | 2019-06-17 | 2020-12-23 | Sap Se | A method for recognizing an object in an image using features vectors of an encoding neural network |
CN113792537A (zh) * | 2021-08-12 | 2021-12-14 | 华为技术有限公司 | 一种动作生成方法以及装置 |
US11429996B2 (en) | 2020-01-21 | 2022-08-30 | International Business Machines Corporation | System and method for generating preferred ameliorative actions using generative adversarial networks |
CN115249062A (zh) * | 2022-09-22 | 2022-10-28 | 武汉大学 | 一种文本生成视频的网络模型、方法及装置 |
US11908180B1 (en) * | 2023-03-24 | 2024-02-20 | Google Llc | Generating videos using sequences of generative neural networks |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160125484A1 (en) * | 2014-10-31 | 2016-05-05 | Bank Of America Corporation | Instant customer service feedback system |
WO2017174491A1 (en) * | 2016-04-06 | 2017-10-12 | Trinamix Gmbh | Detector for an optical detection of at least one object |
CN107609481A (zh) * | 2017-08-14 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 为人脸识别生成训练数据的方法、装置和计算机存储介质 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
-
2018
- 2018-05-02 CN CN201810411742.1A patent/CN108596265B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160125484A1 (en) * | 2014-10-31 | 2016-05-05 | Bank Of America Corporation | Instant customer service feedback system |
WO2017174491A1 (en) * | 2016-04-06 | 2017-10-12 | Trinamix Gmbh | Detector for an optical detection of at least one object |
CN107609481A (zh) * | 2017-08-14 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 为人脸识别生成训练数据的方法、装置和计算机存储介质 |
CN107944468A (zh) * | 2017-11-02 | 2018-04-20 | 天津大学 | 基于隐空间编码的零样本学习分类方法 |
Non-Patent Citations (2)
Title |
---|
MIHIR JAIN ET AL.: "Objects2action: Classifying and localizing actions without any video example", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
SERGEY TULYAKOV ET AL.: "MoCoGAN: Decomposing Motion and Content for Video Generation", 《ARXIV》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492764A (zh) * | 2018-10-24 | 2019-03-19 | 平安科技(深圳)有限公司 | 生成式对抗网络的训练方法、相关设备及介质 |
CN109360436A (zh) * | 2018-11-02 | 2019-02-19 | Oppo广东移动通信有限公司 | 一种视频生成方法、终端及存储介质 |
CN109522411A (zh) * | 2018-11-12 | 2019-03-26 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CN109543159A (zh) * | 2018-11-12 | 2019-03-29 | 南京德磐信息科技有限公司 | 一种文本生成图像方法及装置 |
CN109522411B (zh) * | 2018-11-12 | 2022-10-28 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CN109543159B (zh) * | 2018-11-12 | 2023-03-24 | 南京德磐信息科技有限公司 | 一种文本生成图像方法及装置 |
CN109783798A (zh) * | 2018-12-12 | 2019-05-21 | 平安科技(深圳)有限公司 | 文本信息添加图片的方法、装置、终端及存储介质 |
CN109671125A (zh) * | 2018-12-17 | 2019-04-23 | 电子科技大学 | 一种高度融合的gan网络模型及实现文本生成图像的方法 |
CN109800399A (zh) * | 2018-12-18 | 2019-05-24 | 北京奇艺世纪科技有限公司 | 模型生成方法、封面生成方法、装置及存储介质 |
CN109829495A (zh) * | 2019-01-29 | 2019-05-31 | 南京信息工程大学 | 基于lstm和dcgan的时序性图像预测方法 |
CN109815927B (zh) * | 2019-01-30 | 2021-04-23 | 杭州一知智能科技有限公司 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
CN109815927A (zh) * | 2019-01-30 | 2019-05-28 | 杭州一知智能科技有限公司 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
CN110070587B (zh) * | 2019-03-05 | 2023-02-10 | 浙江工商大学 | 一种基于条件级联对抗生成网络的行人图像生成方法 |
CN110070587A (zh) * | 2019-03-05 | 2019-07-30 | 浙江工商大学 | 一种基于条件级联对抗生成网络的行人图像生成方法 |
CN109978021B (zh) * | 2019-03-07 | 2022-09-16 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
WO2020177214A1 (zh) * | 2019-03-07 | 2020-09-10 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
CN109978021A (zh) * | 2019-03-07 | 2019-07-05 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
KR102117654B1 (ko) * | 2019-04-29 | 2020-06-01 | 연세대학교 산학협력단 | 자연어 기반의 비디오 생성 방법 및 장치 |
CN111127385A (zh) * | 2019-06-06 | 2020-05-08 | 昆明理工大学 | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 |
EP3754548A1 (en) * | 2019-06-17 | 2020-12-23 | Sap Se | A method for recognizing an object in an image using features vectors of an encoding neural network |
CN111046900A (zh) * | 2019-10-25 | 2020-04-21 | 重庆邮电大学 | 基于局部流形正则化的半监督生成对抗网络图像分类方法 |
CN111046900B (zh) * | 2019-10-25 | 2022-10-18 | 重庆邮电大学 | 基于局部流形正则化的半监督生成对抗网络图像分类方法 |
CN111242059A (zh) * | 2020-01-16 | 2020-06-05 | 合肥工业大学 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
CN111242059B (zh) * | 2020-01-16 | 2022-03-15 | 合肥工业大学 | 基于递归记忆网络的无监督图像描述模型的生成方法 |
US11429996B2 (en) | 2020-01-21 | 2022-08-30 | International Business Machines Corporation | System and method for generating preferred ameliorative actions using generative adversarial networks |
CN111310464A (zh) * | 2020-02-17 | 2020-06-19 | 北京明略软件系统有限公司 | 词向量获取模型生成方法、装置及词向量获取方法、装置 |
CN111310464B (zh) * | 2020-02-17 | 2024-02-02 | 北京明略软件系统有限公司 | 词向量获取模型生成方法、装置及词向量获取方法、装置 |
CN111639547A (zh) * | 2020-05-11 | 2020-09-08 | 山东大学 | 基于生成对抗网络的视频描述方法及系统 |
CN113792537A (zh) * | 2021-08-12 | 2021-12-14 | 华为技术有限公司 | 一种动作生成方法以及装置 |
CN115249062A (zh) * | 2022-09-22 | 2022-10-28 | 武汉大学 | 一种文本生成视频的网络模型、方法及装置 |
US11908180B1 (en) * | 2023-03-24 | 2024-02-20 | Google Llc | Generating videos using sequences of generative neural networks |
Also Published As
Publication number | Publication date |
---|---|
CN108596265B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596265A (zh) | 基于文本描述信息和生成对抗网络的视频生成模型 | |
Zellers et al. | Neural motifs: Scene graph parsing with global context | |
Jin et al. | Generative adversarial network technologies and applications in computer vision | |
CN111325099A (zh) | 一种基于双流时空图卷积神经网络的手语识别方法及系统 | |
Roy et al. | Unsupervised universal attribute modeling for action recognition | |
Kong et al. | Close human interaction recognition using patch-aware models | |
CN113536922A (zh) | 一种加权融合多种图像任务的视频行为识别方法 | |
CN108647599B (zh) | 结合3d跃层连接和循环神经网络的人体行为识别方法 | |
Gao et al. | Human action recognition via multi-modality information | |
Ding et al. | Skeleton-based square grid for human action recognition with 3D convolutional neural network | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN110490055A (zh) | 一种基于三重编码的弱监督行为识别定位方法和装置 | |
Baraheem et al. | Image synthesis: a review of methods, datasets, evaluation metrics, and future outlook | |
CN116580278A (zh) | 一种基于多注意力机制的唇语识别方法、设备及存储介质 | |
Sheng et al. | Cross-modal self-supervised learning for lip reading: When contrastive learning meets adversarial training | |
Chen et al. | Object grounding via iterative context reasoning | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
Minu | A extensive survey on sign language recognition methods | |
Liu et al. | 4D facial analysis: A survey of datasets, algorithms and applications | |
CN117540007A (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
CN117475422A (zh) | 一种基于图池化推理网络的场景文本视觉问答方法 | |
Liu et al. | A3GAN: An attribute-aware attentive generative adversarial network for face aging | |
Laghari et al. | Dorsal hand vein identification using transfer learning from AlexNet | |
Torpey et al. | Human action recognition using local two-stream convolution neural network features and support vector machines | |
CN116310500A (zh) | 一种智能生成元宇宙空间的方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |