CN108596265A

CN108596265A - 基于文本描述信息和生成对抗网络的视频生成模型

Info

Publication number: CN108596265A
Application number: CN201810411742.1A
Authority: CN
Inventors: 吴贺俊; 练紫莹
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-09-28
Anticipated expiration: 2038-05-02
Also published as: CN108596265B

Abstract

本发明涉及一种基于文本描述信息和生成对抗网络的视频生成模型，以带有文本描述信息的视频作为训练数据，应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练，剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练，从而训练出训练数据中文本描述信息的有效词向量，将<词向量，视频>输入到所提出的生成对抗网络模型中，以词向量作为限制条件，使得模型中生成器能够生成视频。

Description

基于文本描述信息和生成对抗网络的视频生成模型

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种基于文本描述信息和生成对抗网络的视频生成模型。

背景技术

图像生成和视频生成一直是计算机视觉中非常重要的一部分，近年来利用机器学习中生成模型实现图像生成的技术备受关注，自从2014年Ian Goodfellow提出了生成对抗网络(Generative Adversarial Network,GAN)，为生成学习提供全新的思路和方法后，图像生成和视频生成技术都有了巨大的提高。

本发明主要涉及两个部分内容的设计，分别为文本信息的处理和生成对抗网络的设计。

首先是对于文本信息的处理，以得到具有泛化性且有效的词向量。为得到与视频有紧密联系的词向量，另外还希望词向量具有泛化性，则需要应用到已有的zero-shot学习方法，首先利用word2vectorde等方法将文本信息映射为词向量，再通过词向量和视频的匹配不断优化出有效的词向量。其中2015年，Xun Xu等人在论文Semantic embedding spacefor zero-shot action recognition中提出基于ZSL(Zero-Shot Learning)，利用word2vector将标签名字映射为词向量，并应用非线性SVR(support vector regression)实现词向量和视频的匹配，由此提出了一个有效的动作识别模型。2017年，Xun Xu等人，在论文Transductive Zero-Shot Action Recognition by Word-Vector Embedding[J].International Journal of Computer Vision中对于词向量映射方法重新选择为神经网络(Mikolov等人提出，2013)，并提出通过数据增强和流行正则化回归原理提高了词向量和视频匹配的准确率。2017年，Qian Wang等人则在论文Zero-Shot Visual Recognition viaBidirectional Latent Embedding中提出将训练分两个阶段，分别为自下而上和自上而下，其中自下而上阶段则通过有监督学习方法学习已有文本信息的视频对应的特征并将其映射到一个潜在空间，自上而下阶段则只输入语义描述，通过文本处理方法同样映射到该潜在空间，由此实现文本信息与视频以及文本信息与文本信息之间的联系。除此之外，2017年，Mihir Jain等人在论文Objects2action:Classifying and localizing actionswithout any video example中对于动作识别也提出有效模型objects2action，其不同于以往的zero-shot学习方法，用带有标签的图像数据集作为模型的训练集，再用带有标签信息的视频作为测集，通过找出视频于图像之间的关系以及二者标签信息之间的联系实现动作识别，其中在通过亲和度寻找二者标签信息的联系时训练得到有效的词向量。

其次是关于生成对抗网络的设计，自从2014年生成对抗网络首次问世，至今已经在图像以及视频生成处理方面的应用都有了很大的发展。

2014年，Ian Goodfellow在论文Generative Adversarial Nets中首次提出了生成对抗网络，该网络模型主要具有两大部分：生成器和判别器。其中二者为“竞争关系”，生成器类似于以往已知的解码器，输入短向量，生成图片、音频、视频等，而判别器则是进行二分类，辨别输入的是来自真实数据库还是生成器生成的数据。二者在互相竞争中不断优化，直到判别器不再能辨别输入的数据是来自哪一方。其目标函数如下所示：(G为生成器，D为判别器，p_z(z)为随机设定的噪声变量，p_data(x)为真实数据集)

m_Ginm_DaxV(D,G)＝E_x～pdata(x)[logD(x)]+E_z～pz(z)[log(1-D(G(z))]

生成对抗网络自提出便备受关注，研究人员纷纷在其基础上进行改进和发展，大多数都应用于图像方面。2014年，Mehdi Mirza等人基于原始的GAN(GenerativeAdversarial Net，生成对抗网络)在论文Conditional Generative Adversarial Nets中提出了条件生成对抗网络，通过添加标签、文本信息等作为限制条件，改进了原始GAN训练不稳定的问题，使得生成器能够生成有意义的东西。另外一个GAN发展的里程碑当属DCGAN(Deep Convolutional GAN，深度卷积生成对抗网络)的提出。2016年，Alec Radford等人在论文Unsupervised representation learning with deep convolutional generativeadversarial networks中提出该模型，将GAN中的生成器和判别器都换成了卷积神经网络，其中此处的卷积神经网络和平时所用的卷积神经网络有所不同，分别为：(1)将传统卷积神经网络中的池化层都用卷积层替代，(2)在生成器和判别器上都使用batchnorm(批量标准化)，(3)移除全连接层，作者表示经过实验这三处改变更加适应GAN模型，能够更好的提取图像特征，使其生成图像更加逼真。为了能够得到更加逼近真实世界的图像，研究者们开始输入相应的文本描述作为限制条件，使得GAN能够生成更好的图像。2016年，Scott Reed等人在论文Generative Adversarial Text to Image Synthesis中开始使用文本信息作为辅助条件，实现根据文本描述生成图像。2017年，Han Zhang等人在论文StackGAN:Text toPhoto-realiStic Image Synthesis with Stacked Generative Adversarial Networks中提出了stackGAN模型，通过叠加两层的GAN，根据文本描述能够得到非常逼真的图像，其细节大大提高，并实现了当前能够实现的最高分辨率为256x256。

GAN在图像方面的应用已经比较成熟，由此人们也开始关注GAN在视频生成方面的应用。2016年，M.Saito等人在论文Temporal generative adversarial nets中以及C.Vondrick等人在论文Generating videos with scene dynamics中开始将GAN拓展应用到视频生成中，但这两位作者的做法都是将视频映射到同一空间，只能够处理相同长度的视频，比较不灵活。2017年，Sergey Tulyakov等人在论文MoCoGAN:Decomposing Motionand Content for Video Generation中提出一个新的模型——MoCoGAN(motion andcontent decomposed GAN)，其将视频拆分为动作和目标两个部分，使得GAN可以训练不同长度的视频，并且能够生成比较连贯的视频。

现有关于GAN的技术，主要还是应用于图像生成，在生成视频时虽然只是添加了时间这一维度，但是却导致GAN非常难训练，这是因为视频是关于时间和空间的记录，在训练时，模型不仅仅像在图像生成时一样只需学习物体的外观，更需要学习其运动的规律才能生成逼真的视频。另外加入时间这一维度，将会带来巨大的变化，比如同一个人用不同的速度做同一个动作将会被判定成不同的视频，MoCoGAN提出的训练机制一定程度上解决了这一问题，但是该模型只实现几种简单的关于人类活动的视频，缺乏泛化性。

发明内容

本发明提出的基于文本信息的生成对抗网络模型，参考了MoCoGAN模型的训练机制，将视频分为目标内容和动作两部分，使得模型能够生成有效视频；另外参照现有基于词向量和zero-shot学习方法的动作识别模型，学习得到具有泛化性且和视频密切相关的词向量作为GAN训练的额外限制条件，使得所提出的模型能够在大量带有文本描述信息的视频进行训练后，能够生成已有数据集以及部分不在数据集内的关于人类活动的视频。

为实现以上发明目的，采用的技术方案是：

基于文本描述信息和生成对抗网络的视频生成模型，以带有文本描述信息的视频作为训练数据，应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练，剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练，从而训练出训练数据中文本描述信息的有效词向量，将<词向量，视频>输入到所提出的生成对抗网络模型中，以词向量作为限制条件，使得模型中生成器能够生成视频。

优选地，所述的动作识别模型为基于词向量和zero-shot学习方法的动作识别模型。

与现有技术相比，本发明的有益效果是：

现有的通过生成对抗网络来实现视频生成的模型很少，做得最好的

MoCoGAN提出将视频目标(人物、背景等)和动作分离的思想为应用GAN实现视频生成提供了很好的思路，和MoCoGAN一样，已有的模型暂时都只能学习10个以内简单的关于人类动作的视频，而本发明提出的模型具有比较强的泛化能力，通过利用zero-shot学习的方法学习得到与视频密切相关的词向量，为视频生成提供了有效信息，并且能够根据标签信息之间的联系(相似度)可以推测出不在训练集中的标签信息的有效词向量，由此可以生成不在训练集中的视频，使得模型具有更好的泛化能力。

附图说明

图1基于文本描述信息的生成对抗模型框架

图2Objects2action模型框架

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明主要包含文本信息处理和生成对抗模型设计两部分，分别对应于图1中的(1)和(2)所指示的部分。

首先是对于文本信息的有效处理，主要目的是要得到和视频密切相关且具有泛化性的词向量。本发明参考Mihir Jain等人提出的objects2action模型如图2所示。模型利用带有文本信息(一般为标签信息，不是单个单词，通常在2～4个词，例如：brush hair、diving springboard 3m等)的图像数据集作为训练集，表示为D≡{x,y}，其中x为图像，y为标签信息；以带有标签信息的视频作为测试集，表示为T≡{v,z}，其中v为视频，z为视频标签信息。且y和z完全不相交。

如图2所示，首先该模型会利用word2vector的skip-gram模型对YFCC100M数据集中的元数据(标题、描述、标签等)进行无监督学习得到所有不重复的词的词向量，即图2中的Text corpus。

图2中的Object Encoding部分记为模型M，用于对视频进行编码，该模型为ImageNet中的深度卷积网络，先将带有标签信息的图片输入模型M进行训练后，得到关于数据集中各标签图像的分布，随后将测试集中的视频输入到M进行编码。已知n＝|Y|，为图像标签的个数，然后每个视频随机抽取10帧图像，计算每张图像输入y₁(图像标签1)的可能性，再求平均则得到该视频属于y₁的概率，以此类推求出输入视频属于每个标签的概率p(y_i|v)，i＝1,2,3...,n，由此得到编码后的视频形式为：

pv＝[p(y1|v),p(y2|v),...,p(yn|n)]^T

图2中的Semantic Embedding部分用于对词向量进行处理得到有效的句向量。该部分首先根据所输入的图像的标签信息和视频的标签信息(这两种信息都不是简单的一个单词，而是由2个词以上构成的简短的描述)，在事先在Text corpus中得到的一堆词向量中查找对应的词向量，再使用Average Word Vectors(AWV)方法求出标签信息包含的词向量的和求平均所得到，由此可以得到训练集中图像标签信息的有效句向量s_A(y)和测试集中视频标签信息的有效句向量s_A(z)。

图2中的Sparse Translation部分通过计算视频标签信息与图像标签信息之间的联系，对视频标签信息进行编码。g_yz＝s_A(y)^Ts_A(z)表示视频标签信息z与图像标签信息y之间的相似程度，因此参照视频根据图像的编码形式可以将视频标签信息编码为g_z＝[s_A(y₁)...s_A(y_n)]^Ts_A(z)。由于图像的标签信息不一定所有对视频标签信息描述有效，因此只对图像标签信息与视频标签信息相似程度前k个进行考虑，因此引入指示函数δ(y,k_z)，当y在k个最接近的模型k_z中时就返回1，因此视频标签信息编码变为

有了以上的基础，最后要利用编码后的标签信息和视频进行分类。根据凸组合的定义，根据可以得到使得该式子最大的z就是最接近所输入视频的描述信息，由此完成了动作识别分类。

而在这整个过程中得到了有效的词向量并进一步处理得到有效的句向量，可以用来描述视频的内容。在训练过程中，由于图像数据集中的标签信息完全不同于视频数据集中的标签信息，但是通过此模型一方面可以得到已知视频标签信息的有效句向量，另外还可以利用两种标签信息之间的联系方式推测出与已知视频标签信息不同的其他的标签信息的有效句向量，以此作为限制条件可以训练出泛化能力强的生成对抗网络。

关于生成对抗网络设计部分，结构图可见图1的(2)部分。该模型包括四个主要部分，分别为：图像生成器G_I、图像判别器D_I、视频生成器G_V和视频判别器D_V，分别如图1所示。为了能够得到逼真的视频，参考MoCoGAN模型的训练方法，将视频分为目标和动作两部分，分别学习两者的分布形似，这使得对视频的训练简单且稳定。其中图像生成器利用了DCGAN里面的卷积神经网络，用于生成视频中每一帧的图像；图像判别器也是用的卷积神经网络，是一个二分类器，用于判别输入的图像属于真实的视频还是图像生成器生成的图像；视频生成器实际上是一个递归神经网络模型，此处选用的是LSTM(Long Short-Term Memory,长短期记忆网络)，用于学习视频在时序上的联系，也就是用于学习视频中人物的动作；判别器也是一个二分类器，其输入为从真实视频或者是生成的视频中随机抽取的16帧图像，其需辨别图像来源于真实数据集还是有生成器产生。因此此模型应用了两个GAN，其中一个用于生成图像，另一个用于学习动作生成逼真的视频。

如图1的(2)部分所示，因为本实验是要根据文本描述生成相应的关于人类活动的视频，首先输入视频描述信息(一般为2个词以上的短幅描述)到已经在objects2action模型里训练好的Semantic Embedding模块，得到与视频密切相关的有效句向量然后从高斯分布中随机抽取32个短向量分别为[ε₁,ε₂,...,ε₃₂]，将其按顺序输入到G_v，即LSTM网络中学习得到关于视频中动作的编码向量序列为[v_m1,v_m2,...,v_m32]。由于用于训练的视频是帧数不会超过69帧的短视频，且每次训练时是从视频中随机抽取16帧作为输入，因此视频中的主要(人物、背景等)在整个视频中一般不会有太大的变化，可以将视频中的主要目标假设不变，因此每帧图像的目标都统一为v_z。在此设定每一帧图像的特征可表示为由此得到的每一个向量为G_I的输入，经过上采样的卷积神经网络后输出一张分辨率为64x64的图像这32张图按时序拼接起来便是模型生成的视频。

在对图像判别器和视频判别器训练时需要将视频分别通过函数F₁和F_T，函数F₁是从真实视频或者是生成器生成的视频中随机抽取出一张图像作为D_I的输入，同理函数F_T是从真实视频或者是生成器生成的视频中随机抽取出T张(实验中是16张)图像作为D_v的输入。抽取出的图像首先会经过下采样神经网络得到图像的特征，并和压缩转换后的句向量拼接起来输入到二分类器中，最后D_I和D_v都会输出1或0，其中1表示为真实数据集中的视频，0表示为生成器生成的视频。按照GAN最初是的原理，生成器和判别器是互相竞争中不断优化的，因此应该交替地同时优化G_I和G_v以及D_I和D_v，在训练到判别器无法辨别图像来自于真实数据集还是生成的数据时生成器和判别器都达到了最优。

此模型在UFC101数据集中应用了其中101个种类的1574个视频以及HMD51数据集中的1530个视频进行训练均可以生成比较好的关于人类动作的视频，并且能够生成一些标签信息不在数据集中的视频，说明模型的泛化能力有了很大的提高。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于文本描述信息和生成对抗网络的视频生成模型，其特征在于：以带有文本描述信息的视频作为训练数据，应用自助抽样法抽取出训练数据中部分的视频和其相应的文本描述信息一同输入到动作识别模型中进行训练，剩下的训练数据去除文本描述信息后再输入动作识别模型中进行训练，从而训练出训练数据中文本描述信息的有效词向量，将<词向量，视频>输入到所提出的生成对抗网络模型中，以词向量作为限制条件，使得模型中生成器能够生成视频。

2.根据权利要求1所述的基于文本描述信息和生成对抗网络的视频生成模型，其特征在于：所述的动作识别模型为基于词向量和zero-shot学习方法的动作识别模型。