CN110572696A

CN110572696A - 一种变分自编码器与生成对抗网络结合的视频生成方法

Info

Publication number: CN110572696A
Application number: CN201910739833.2A
Authority: CN
Inventors: 吴萌; 李荣鹏; 赵志峰; 张宏纲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-12-13
Anticipated expiration: 2039-08-12
Also published as: CN110572696B

Abstract

本发明公开了一种变分自编码器与生成对抗网络结合的视频生成方法，属于视频生成技术领域，该方法包括：生成对抗网络的生成器不直接生成视频，而是生成系列相关联的隐变量，将这些隐变量经过已训练好的变分自编码器的解码器生成系列相关图像，生成对抗网络的判别器不对视频直接判别，而是将视频通过变分自编码器的编码器得到系列低维的隐变量，并对隐变量进行判别。该方法能够根据输入描述文本生成视频，克服生成视频中帧间连续性差的问题，同时提高了视频生成的帧间连续性，将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分，使训练更容易以及更稳定。

Description

一种变分自编码器与生成对抗网络结合的视频生成方法

技术领域

本发明属于视频生成技术领域，尤其涉及一种变分自编码器与生成对抗网络结合的视频生成方法。

背景技术

近年来，随着人工智能技术在各行业的广泛应用，各行各业的生产力得到了很大提升，如在电视节目制作中，视频生成技术可以极大程度的减轻人力工作。业内，NVIDIA等公司提出了基于生成对抗网络的视频生成技术，以应对多种情形下的视频生成需求。然而，现有的视频生成方法在输入信息不足时往往出现生成的视频中帧与帧之间的时间连续性不足，图像变形等问题，从而降低了视频生成的质量。

Diederik P Kingma等于2013年提出变分自编码器，通过将样本映射到一个特定的正态分布，再从该正态分布中采样一个点以恢复样本的方法构建了一个隐空间连续性好的生成学习模型。Ian Goodfellow等于2014年提出生成对抗网络，以生成器生成样本，以判别器区分生成器生成的样本与真样本，二者以对抗的方式进行学习，构成动态的博弈，当最终达到纳什均衡时，判别器不能区分生成样本与真样本，此时生成样本也就被认为与真样本无差别了。

发明内容

本发明的目的:提供一种变分自编码器与生成对抗网络结合的视频生成方法，利用变分自编码器对数据集中视频的每一帧进行学习，构建具有良好连续性的隐空间，隐空间中的每一点对应视频中的一帧。然后将噪声与文本输入生成对抗网络的生成器，生成器则生成潜变量空间中的多个相关联的点，然后将这些点通过变分自编码器的解码器生成多帧相关联连续图像，这些图像组成所要生成的视频。

为了实现上述目的，本发明的技术方案是：一种变分自编码器与生成对抗网络结合的视频生成方法，包括如下步骤：

(1)收集各种类的视频，并按照类别对每个视频做好文本描述；

(2)对步骤1收集的视频及文本描述做归一化处理，得到生成对抗网络训练过程中使用的“视频-文本”数据集；

(3)对步骤2归一化处理后的“视频-文本”数据集中的视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的文本描述，得到变分自编码器训练过程中使用的“图像-文本”数据集；

(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，其中编码器Encoder通过对输入的每一帧图像x计算均值mean_x和方差variance_x，将图像映射到专属于该图像的正态分布N(mean_x，variance_x)，再从该分布随机中采样一个D维的隐变量，将该隐变量输入解码器Decoder，Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mean_i附近，这个均值通过神经网络计算得到。

变分自编码器的损失函数：

其中，mean_x、variance_x分别是图像x经过编码器Encoder得到的正态分布的均值和方差，mean_i是该图像所属类别均值，x为变分自编码器输出的重建图像。训练过程以最小化损失函数L_VAE为目标，设置每经过一定次数的迭代对Decoder输出的解码图像进行人工检查，重复这一操作直到解码图像的质量达到要求，得到训练好的变分自编码器模型。

(5)从步骤2处理后的数据集中取出M个样本对，作为生成对抗网络训练中使用的真实样本对，取出所述M个样本对中的的描述文本，对这M个描述文本重新配上与描述不匹配的视频，得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本，以步骤4训练好的变分自编码器模型与生成对抗网络结合，使用M个真实样本对，M个不匹配样本对及M个输入描述文本，输入生成对抗网络进行训练。

生成对抗网络包括生成器G和判别器D，生成的视频为L帧，其中生成器生成的是L个D维的变量delta₁，delta₂，...delta_L，根据需要生成的视频类别加上对应类别的均值mean_i：

z_k＝mean_i+delta_k，(k＝1，2，...，L)

得到L个D维的变分自编码器的隐变量z_k：z₁，z₂，...z_L，将z₁，z₂，...z_L输入到步骤4中已经训练好的变分自编码器的解码器Decoder中得到长度为L帧的视频；

所述的生成器G的损失函数：

L_G＝-log(D(x_gen，s_gen))

其中，x_real是采样于真实视频数据分布的视频样本，s_real是对x_real的描述文本，(x_real，s_real)为所述真实样本对，(x_mis，s_mis)为所述的真实样本对，s_gen为输入生成器G的输入描述文本，x_gen为生成器G生成的视频样本。

所述的判别器D的损失函数：

L_D＝-log(D(z_real，s_real))-log(1-D(z_mis，s_mis)-log(1-D(z_fake，s_gen))

z_real，z_mis，z_fake分别是x_real，x_mis，x_gen经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。

生成对抗网络的训练过程分为生成器G的训练和判别器D的训练，生成器G的训练以最小化L_G为目标，判别器D的训练以最小化L_D为目标。训练过程中先训练判别器D，再训练生成器G，重复训练过程，对生成器生成的视频样本质量进行人工检查，直到生成的视频样本质量达到要求。

(6)将步骤5训练得到的网络中输入描述文本，生成视频。

进一步地，所述变分自编码器的编码器Encoder由多层卷积神经网络构成，解码器Decoder由多层反卷积神经网络构成。

进一步地，所述生成器G为生成变分自编码器隐变量的隐变量生成器。

进一步地，所述生成器G为循环神经网络：LSTM(long short-term memory)。

进一步地，所述判别器D对变分自编码器隐变量进行判别。

本发明的有益效果在于：该发明的视频生成方法能够根据输入描述文本生成视频，克服生成视频中帧间连续性差的问题，相比于单独使用生成对抗网络，变分自编码器与生成对抗网络结合的视频生成方法提高了视频生成的帧间连续性，将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分，使训练更容易以及更稳定。

附图说明

图1是所述变分自编码器结构示意图；

图2是本发明所述一种变分自编码器与生成对抗网络结合的视频生成方法结构示意图。

具体实施方式

以下结合附图1和附图2进一步说明本发明的实施例。

一种变分自编码器与生成对抗网络结合的视频生成方法，包括如下步骤：

(3)对步骤2预处理后的“视频-文本”数据集中的视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的文本描述，得到变分自编码器训练过程中使用的“图像-文本”数据集；

(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，所述变分自编码器的编码器Encoder由多层卷积神经网络构成，解码器Decoder由多层反卷积神经网络构成。其中编码器Encoder通过对输入的每一帧图像x计算均值mean_x和方差variance_x，将图像映射到专属于该图像的正态分布N(mean_x，variance_x)，再从该分布随机中采样一个D维的隐变量，将该隐变量输入解码器Decoder，Decoder输出解码图像。同一类别i的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mean_i附近，这个均值通过神经网络计算得到，通过这个操作，在后续步骤中生成视频时，对于每一帧，如果该帧属于类别j，则可以在隐空间中mean_i的附近寻找该帧对应的隐变量。

变分自编码器的损失函数：

其中，mean_x、variance_x分别是图像x经过编码器Encoder得到的正态分布的均值和方差，mean_i是该图像所属类别均值，x为变分自编码器输出的重建图像。训练过程以最小化L_VAE为目标，设置每经过一定次数的迭代对Decoder输出的解码图像进行人工检查，重复这一操作直到解码图像的质量达到要求，得到训练好的变分自编码器模型。

(5)从步骤2处理后的数据集中取出M个样本对，作为生成对抗网络训练中使用的真实样本对，取出所述M个样本对中的的描述文本，对这M个描述文本重新配上与描述不匹配的视频，得到M个不匹配样本对。再以这M个真实样本对中的描述文本作为输入描述文本，以步骤4训练好的变分自编码器与生成对抗网络结合，使用M个真实样本对，M个不匹配样本对及M个输入描述文本，输入生成对抗网络进行训练。

生成对抗网络包括生成器G和判别器D，生成的视频为L帧，所述生成器G为生成变分自编码器隐变量的隐变量生成器，该生成器G为循环神经网络：LSTM(long short-termmemory)。所述判别器D对变分自编码器隐变量进行判别，首先，输入描述文本s_gen通过LSTM组成的生成器生成的是L个相关联的D维的变量delta₁，delta₂，...delta_L，根据需要生成的视频类别加上对应类别的均值meani：

z_k＝mean_i+delta_k，(k＝1，2，...，L)

所述的生成器G的损失函数：

L_G＝-log(D(x_gen，s_gen))

所述的判别器D的损失函数：

L_D＝-log(D(z_real，s_real))-log(1-D(z_mis，s_mis)-log(1-D(z_fake，s_gen))

如图2所示，z_real，z_mis，z_fake分别是x_real，x_mis，x_gen经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。

生成对抗网络的训练过程分为生成器G的训练和判别器D的训练，生成器G的训练以最小化L_G为目标，判别器D的训练以最小化L_D为目标。训练过程中先训练判别器D，再训练生成器G，为一次迭代。训练过程中变分自编码器的编码器Encoder和解码器Decoder的参数不更新，只更新判别器D和生成器G的参数。设置每进行一定次数迭代，对生成器生成的视频样本质量进行人工检查，重复训练过程，直到生成的视频样本质量达到要求。

(6)将步骤5训练得到的网络中输入描述文本，生成视频。

实施例

步骤1，从MNIST数据集中取出手写数字图片，取出的手写数字图片种类如果是“0，1，4，6，9”则对该数字形成一个16帧的48×48像素的视频，该数字在第一帧中以任意位置作为起点，在16帧中进行上下移动；取出的手写数字图片种类如果是“2，3，5，7，8”则对该数字形成一个16帧的48×48像素的视频，该数字在第一帧中以任意位置作为起点，在16帧中进行左右移动；对每个手写数字的移动视频做文本描述，如“The digit 0is moving up anddown”、“The digit 2is moving left and right”，这样，得到10个类别的手写数字移动视频，每个类别的视频有相应的文本描述；

步骤2，对步骤1中得到的视频数据集及其文本描述进行预处理，得到生成对抗网络训练使用的“视频-文本”数据集；

步骤3，对步骤2中预处理后的视频数据集按帧分割，对分割得到的每一帧图像匹配一个其原所属视频的文本描述，共10个类别的手写数字图像，每个类别的手写数字图像有相应的文本描述，得到变分自编码器训练中使用的“图像-文本”数据集；

步骤4，从步骤3中得到的数据集中随机取出N个样本对输入图1所示的变分自编码器进行训练，变分自编码器中编码器输出的隐空间维度为D，根据需求，重复操作多次；

步骤5，从步骤2中处理后的数据集中取出M个“视频-文本”样本对，作为生成对抗网络训练中使用的真实样本对，取出这M个真实样本对中的的视频，对这M个视频重新配上与内容不匹配的描述文本，得到M个不匹配样本对，以这M个真实样本对中的描述文本作为输入描述文本。以生成对抗网络与步骤4训练后得到的变分自编码器结合，使用M个真实样本对，M个不匹配样本对及M个输入描述文本输入生成对抗网络进行训练。生成对抗网络与变分自编码器的结合方式如图2，其中，Text_gen是输入描述文本，latent variablegenerator是隐变量生成器，Text_gen与从正态分布中随机采样的一个噪声noise一同输入隐变量生成器，Encoder、Decoder分别是是在步骤4中已训练好的变分自编码器中的编码器和解码器，是生成对抗网络生成的L个D维变分自编码器隐变量，经过Decoder得到L帧图像即生成的视频，即不匹配样本对，即真实样本对，分别通过Encoder再次得到变分自编码器的隐空间的正态分布，并分别从正态分布中采样得到L个隐变量这三组隐变量分别输入判别器Discriminator并以Text_gen，Text_mis，Text_real为条件信息。分别计算生成器G和判别器D的损失函数，再根据梯度下降算法和梯度反向传播算法对latent variablegenerator和的Discriminator参数进行更新，其他网络参数不更新。

步骤6，对步骤5中训练得到的网络输入描述文本，得到生成视频。

结果表明，在24000个16帧48×48像素的手写数字移动视频数据集上设定batchsize大小为64，经500epoch的训练，网络能够针对输入文本生成接近训练数据集中的手写数字移动视频。

由上述实施例可知，该发明的视频生成方法能够根据输入描述文本生成视频，克服生成视频中帧间连续性差的问题，相比于单独使用生成对抗网络，变分自编码器与生成对抗网络结合的视频生成方法提高了视频生成的帧间连续性，将训练步骤分为训练变分自编码器和以训练好的变分自编码器为基础训练生成对抗网络两个部分，使训练更容易以及更稳定。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构变换，或直接或间接运用附属在其他相关产品的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种变分自编码器与生成对抗网络结合的视频生成方法，其特征在于：包括如下步骤：

(4)将步骤3得到的数据集中随机取出N个“图像-文本”样本输入变分自编码器进行训练。变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，其中编码器Encoder通过对输入的每一帧图像x计算均值mean_x和方差variance_x，将图像映射到专属于该图像的正态分布N(mean_x,variance_x)，再从该分布随机中采样一个D维的隐变量，将该隐变量输入解码器Decoder，Decoder输出解码图像。同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值mean_i附近，所述均值通过神经网络计算得到。

变分自编码器的损失函数L_VAE为：

其中，mean_x、variance_x分别是图像x经过编码器Encoder得到的正态分布的均值和方差，mean_i为所述图像所属类别均值，x为变分自编码器输出的重建图像，训练过程以最小化损失函数L_VAE为目标，Decoder输出的解码图像进行人工检查，重复操作直到解码图像的质量达到要求，得到训练好的变分自编码器模型。

生成对抗网络包括生成器G和判别器D，生成的视频为L帧，其中生成器生成的是L个D维的变量delta₁,delta₂,…delta_L,根据需要生成的视频类别加上对应类别的均值mean_i：

z_k＝mean_i+delta_k,(k＝1,2,…,L)

得到L个D维的变分自编码器的隐变量z_k：z₁,z₂,…z_L,将z₁,z₂,…z_L输入到步骤4中已经训练好的变分自编码器的解码器Decoder中得到长度为L帧的视频；

所述的生成器G的损失函数L_G为：

L_G＝-log(D(x_gen,s_gen))

其中，x_real是采样于真实视频数据分布的视频样本，s_real是对x_real的描述文本，(x_real,s_real)为所述真实样本对，(x_mis,s_mis)为所述的真实样本对，s_gen为输入生成器G的输入描述文本，x_gen为生成器G生成的视频样本。

所述判别器D的损失函数L_D为：

L_D＝-log(D(z_real,s_real))-log(1-D(z_mis,s_mis)-log(1-D(z_fake,s_gen))

(6)将步骤5训练得到的网络中输入描述文本，生成视频。

2.根据权利要求1所述视频生成方法，其特征在于：所述变分自编码器的编码器Encoder由多层卷积神经网络构成，解码器Decoder由多层反卷积神经网络构成。

3.根据权利要求1所述视频生成方法，其特征在于：所述生成器G为生成变分自编码器隐变量的隐变量生成器。

4.根据权利要求3所述视频生成方法，其特征在于：所述生成器G为循环神经网络：LSTM(long short-term memory)。

5.根据权利要求1所述视频生成方法，其特征在于：所述判别器D对变分自编码器隐变量进行判别。