CN115249062A

CN115249062A - 一种文本生成视频的网络模型、方法及装置

Info

Publication number: CN115249062A
Application number: CN202211154367.XA
Authority: CN
Inventors: 肖春霞; 李子青; 罗飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-10-28
Anticipated expiration: 2042-09-22
Also published as: CN115249062B

Abstract

本发明公开了一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型、方法及装置。首先公开了一种通过知识蒸馏从文本生成图像模型获取知识增强文本生成视频模型效果的方法。将文本生成图像模型作为教师网络，从中蒸馏文本到视觉内容映射的知识，这些知识作为生成视频中每一帧共享的抽象约束，从而提升生成每一帧的文本图像语意一致性。同时本发明公开了一种视觉循环单元，该模块迭代地根据输入文本和先前生成的帧预测下一帧，旨在改善视频的时序连贯性。

Description

一种文本生成视频的网络模型、方法及装置

技术领域

本发明涉及一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型、方法及装置，尤其是能够生成文本-视觉语义一致性更好、时序连贯性更佳的视频。本发明属于计算机视觉中的图文互译领域，尤其涉及生成对抗网络、循环神经网络和知识蒸馏策略。

背景技术

文本生成视频（text to video generation, T2V）是一项跨模态的转换任务，旨在从文本描述生成与输入文本语义一致且真实连贯的视频，目前常用条件生成对抗网络来实现基于输入文本的视频生成，该任务有两个关键问题：1）文本-视觉语义一致性和 2）视频帧之间的时序连贯性。

对于文本-视觉语义一致性问题现有方法采取添加额外损失约束的手段，但其效果有限。现有的文本生成图像模型能很好的捕捉文本-视觉映射信息，然而现有的T2V工作忽略了文本生成图像模型的参考价值。对于视频帧之间的时序连贯性问题，现有方法对生成器和判别器分别加以改进：对于生成器，TGANs-C和BoGAN采用三维反卷积层来捕获全局时间信息，TFGAN和IRCGAN融合了二维反卷积层和时序处理模块，以捕获潜在空间中的时间信息；对于判别器，现有方法采用了三个判别器，从视频、帧和运动的角度来判断结果真假以及是否与文本一致，从而提高生成对抗网络的判别能力。然而，这些方法没有依据T2V任务的序列生成序列本质来设计网络结构，故这些结构不能很好的捕捉序列节点之间的关联。

发明内容

本发明旨在针对现有技术的不足，提供了一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型、方法及装置，利用知识蒸馏（knowledge distillation，KD）得到文本生成图片模型中视觉-文本映射的知识，从而提升文本生成视频模型的生成能力，提高结果的视觉-文本语义一致性；为解决时序一致性问题，本发明针对图片序列生成的问题公开了一种新的视觉循环单元（visual recurrent unit, VRU）模块，该模块提供了一种新的循环神经网络和反卷积层之间的链接方式，使得网络的结构更合理，该模块能够在生成视频帧序列的同时能够保证帧与帧之间的时序连贯性。解决了文本-视觉语义一致性问题。

根据本发明的基于KD和VRU的文本生成视频网络，其包括初始输入文本，文本编码模块，视频帧生成模块，知识蒸馏模块和判别模块。初始输入文本负责提供生成视频所需要的文本描述，其紧连着文本编码系统。文本编码模块通过双向长短记忆循环神经网络将输入文本编码为单词特征向量和句子特征向量，再对句子特征向量通过条件增强模块采样得到连续的向量特征表示。条件增强模块即从独立的高斯分布中随机抽样潜空间向量特征表示，其中均值和协方差矩阵是句子特征向量的函数。在给定少量图像文本对的情况下，利用条件增强模块可以产生更多的训练对，其引入的随机性有利于对文本到图像的翻译建模，因为同一个句子通常对应于具有各种姿势和外观的对象，最终结果将更具有鲁棒性。

视频帧生成模块包括本专利提出的VRU，以及注意力模块和反卷积层。其中VRU模块由门控循环单元、全连接层和反卷积生成层组成，其创新点在于改进了门控循环单元和反卷积层间的连接方式，在时间步t，VRU将上一原始帧

和隐藏层

输入到门控循环单元，再依次通过全连接层和反卷积生成层生成新的原始视频帧

，

由门控循环单元更新以表示来自输入文本的时间信息和语义特征。同时，视频帧生成系统还通过注意力模块使每一原始视频帧获得上下文编码向量；最后，将添加了上下文信息的原始帧通过二维反卷积层生成最终视频帧。视频帧生成系统迭代重复以上步骤直到生成目标长度的视频。

知识蒸馏模块包括教师网络、中间特征蒸馏模块和感知损失蒸馏模块，该系统创新地将文本生成图片网络中的知识采用KD技术蒸馏到文本生成视频网络中，用以提升视频帧视觉质量。其中，教师网络是一个预训练的文本生成图像网络，使用和文本生成视频网络相同的数据集进行预训练，该网络的输入是文本，生成结果是文本对应的图像，其特征是生成的图像质量更真实更符合语意；中间特征蒸馏模块采用改进的中间特征蒸馏思想，提取文本生成图像网络中间层参数中包含的视觉-文本映射知识，并创新地以一对多的形式将该知识作为不同时间步连接的反卷积层的共享抽象特征，中间层参数中的知识采用核对齐损失和注意力图进行提取，通过改进这两个损失优化生成器帮助其更好的生成原始帧；利用改进的感知损失蒸馏模块提取高层语义信息，具体来说将教师网络的判别器作为感知损失提取器，计算教师网络生成的图片和每一帧视频图像的感知损失差，并对所有帧的感知损失取平均得到视频感知感知损失用来优化生成器。

判别模块采用TGANs-C提出的结构，由视频判别器、帧判别器和运动判别器组成，从三个维度来判别结果的真假以及是否与文本一致，从而得到对抗损失用来更新生成器。

基于同一发明构思，本发明还包含一种，基于基于知识蒸馏和视觉循环单元的文本生成视频方法，其包括以下步骤：

步骤S1：输入视频的文字描述，使用双向长短记忆循环神经网络将输入文本编码为单词特征矩阵和句子特征矩阵；

步骤S2：将得到的句子特征向量通过条件增强模块采样得到连续的向量特征表示，再串联一个从正态分布中采样的噪声向量，输入到VRU迭代生成原始视频帧；

步骤S3：对负责生成图像的VRU中反卷积层中间层参数进行改进的中间特征知识蒸馏。中间层参数包含视觉-文本映射知识，以一对多的形式对教师网络生成器中间层和本模型反卷积层中间层参数计算核对齐损失和注意力图损失，通过梯度下降优化损失

以提供不同时间步原始帧的共享抽象特征，进而增强模型的语义一致性能力；具体而言，

表示VRU在t时间步的中间层的损失函数，其中

表示被选中的中间层集合，p表示被选中的某一中间层，

和

分别表示教师生成器和VRU被选中中间层的参数，

和

分别表示教师生成器和VRU被选中中间层参数的注意力图，

和

为超参数，KA(·)表示核对齐损失，该损失前的负号表示通过梯度下降提升参数的核对齐相似性；最终总的中间特征损失为

，即所有时间步中间层所得损失的均值。

步骤S4：将每一原始视频帧通过注意力模块获得上下文编码向量，再将添加了上下文信息的原始帧通过二维反卷积层生成最终视频帧。

步骤S5：将生成的视频输入视频判别网络、帧判别网络和运动判别网络，从三个维度判别视频的真假以及是否与文本一致，将得到对抗损失用来更新生成器。

步骤S6：对生成的最终帧计算感知损失蒸馏，使用预训练的教师网络判别器

从高维度分别打分生成的视频帧及教师网络生成结果，通过梯度下降优化他们的差值增强本模型的语义一致性能力，即对t时间步生成的单个帧，该过程可表示为：

其中输入教师网络生成图片

得到

对教师生成器的打分，输入本模型生成帧

得到

对本生成器的打分，

为超参数，最终总的感知损失为

。

进一步地，步骤S3的具体过程为：

从二维高斯分布中随机取样初始原始帧

，并将句子编码和一个随机噪音拼在一起作为初始状态

；在时间步t，视觉循环单元根据上一原始帧和隐藏层信息生成新的原始帧。即

，

，

将上一原始帧

和隐藏层信息

作为输入，并生成该时间步新的原始视频帧

，隐藏层信息

由VRU中的门控循环单元更新以表示来自输入文本的时间信息和语义特征；

迭代生成直到生成需要的视频帧长度。

步骤S7中包含的帧鉴别器继承了教师网络中64x64分辨率图像鉴别器的架构和预训练的权重，同时我们在训练过程中微调帧鉴别器的权重。这样的方法避免了在训练早期随机初始化权重的不稳定性问题。

模型用到的超参λ _KA，λ _Attn和λ _perc根据用到的数据集选定，如使用SBMG数据集可分别选择0.7，60，0.0001。

通过本发明的知识蒸馏和视觉循环网络的文本生成视频的方法，可以生成视觉质量更高，且更加连贯的视频。

本发明的优点在于：

1）通过知识蒸馏技术借助了成熟的文本生成图像网络，增强了文本生成视频网络结果的语义一致性；

2）提出了一种新的视觉循环单元结构，该结构可以很好的捕捉序列节点之间的关联，使得前后帧时序连贯性更好。

附图说明

图1为本发明提出的基于知识蒸馏和视觉循环单元的文本生成视频网络示意图。

图2为本发明知识蒸馏模块的示意图。

图3为本发明提出的视觉循环单元内部结构示意图。

具体实施方式

下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了使本发明的目的、技术方案及优点更加清晰明了，更好地使本领域的技术人员理解本发明，并不对本发明作任何的限制。

术语解释：

知识蒸馏（knowledge distillation，KD）：知识蒸馏是指通过在繁琐的模型中提炼知识将笨拙的模型（教师）的学习行为转移到较小的模型（学生）的方法。

双向长短记忆循环神经网络（bi-directional Long Short-Term Memory NeuralNetwork, Bi-LSTM）：在单向的循环神经网络中，模型实际上只使用到了“上文”的信息，而没有考虑到“下文”的信息。在实际场景中，预测可能需要使用到整个输入序列的信息。双向长短记忆循环神经网络在LSTM的基础上，结合了输入序列在前向和后向两个方向上的信息。对于t时刻的输出，前向LSTM层具有输入序列中t时刻以及之前时刻的信息，而后向LSTM层中具有输入序列中t时刻以及之后时刻的信息。两个LSTM层输出的向量可以使用相加、平均值或连接等方式进行处理。

生成对抗网络（Generative Adversarial Network, GAN）：生成对抗网络主要包括两个部分，即生成器网络与判别器网络。生成器主要用来学习真实图像分布从而让自身生成的图像更加真实，以骗过判别器。判别器则需要对生成的图片进行真假判别。在整个过程中，生成器努力地让生成的图像更加真实，而判别器则努力地去识别出图像的真假，这个过程相当于一个二人博弈，随着时间的推移，生成器和判别器在不断地进行对抗，最终两个网络达到了一个动态均衡：生成器生成的图像接近于真实图像分布，而判别器识别不出真假图像。

门控循环单元（Gated Recurrent Unit, GRU）：门控循环单元是LSTM的一个变体，在保持了LSTM的效果同时又使结构更加简单，是一种非常流行循环神经网络。门控循环单元由更新门和重置门控制：更新门控制前一时刻的状态信息被带入到当前状态中的程度，值越大前一时刻的状态信息带入越多；重置门控制忽略前一时刻的状态信息的程度，值越小说明忽略得越多。

本发明提供的一种基于知识蒸馏和视觉循环单元的文本生成视频网络模型，其包括以下模块：

其包括初始输入文本，文本编码模块，视频帧生成模块，知识蒸馏模块和判别模块。初始输入文本负责提供生成视频所需要的文本描述，其紧连着文本编码系统。文本编码模块通过双向长短记忆循环神经网络将输入文本编码为单词特征向量和句子特征向量，再对句子特征向量通过条件增强模块采样得到连续的向量特征表示。条件增强模块即从独立的高斯分布中随机抽样潜空间向量特征表示，其中均值和协方差矩阵是句子特征向量的函数。在给定少量图像文本对的情况下，利用条件增强模块可以产生更多的训练对，其引入的随机性有利于对文本到图像的翻译建模，因为同一个句子通常对应于具有各种姿势和外观的对象，最终结果将更具有鲁棒性。

和隐藏层

，

优选地，中间特征蒸馏模块采用改进的中间特征蒸馏思想，提取文本生成图像网络中间层参数中包含的视觉-文本映射知识，并以一对多的形式将该知识作为不同时间步连接的反卷积层的共享抽象特征，在时间步t的损失函数为：

表示VRU在t时间步的中间层的损失函数，其中

表示被选中的中间层集合，p表示被选中的某一中间层，

和

分别表示教师生成器和VRU被选中中间层的参数，

和

分别表示教师生成器和VRU被选中中间层参数的注意力图，

和

，即所有时间步中间层所得损失的均值。

基于同一发明构思，本发明还设计了一种基于知识蒸馏和视觉循环单元的文本生成视频模型的方法，具体实施方式的一个实例如下：

步骤S1：输入描述视频的文字信息，将输入文字编码为单词特征向量和句子特征向量；

步骤S2：将句子特征向量通过条件增强模块采样得到连续的向量特征表示，再与从高斯分布中采样的随机噪音拼接输入生成网络；

步骤S3：通过VRU模块迭代生成16帧原始视频帧；

步骤S4：选择同一文本-视频数据集上预训练的AttnGAN作为教师网络。对每一原始视频帧计算核对齐和注意力图中间知识蒸馏损失，

以提取文本生成图像模型中的视觉-文本映射知识，利用这一知识辅助文本生成视频模型每一原始视频帧的生成；

步骤S5：通过注意力机制根据单词特征矩阵与视频帧区域特征向量计算帧图像区域上下文向量，增加其单词粒度的语义一致性，再输入到反卷积单元以生成最终视频帧；

步骤S6：将生成的十六帧最终视频帧输入到条件视频判别器、条件帧判别器和条件运动判别器中，得到对抗损失用来更新生成器。

步骤S7：通过教师判别器提取教师网络生成图片特征和十六帧最终帧特征来计算感知损失，从而从高维度约束生成结果达到文本生成图片教师网络结果的语义一致性水平。

基于同一发明构思，本申请还设计了一种基于知识蒸馏和视觉循环单元的文本生成视频装置，所述装置包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现基于知识蒸馏和视觉循环单元的文本生成视频方法所执行的操作。

基于同一发明构思，本申请还设计了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现基于知识蒸馏和视觉循环单元的文本生成视频方法所执行的操作。

应当理解的是，这里所讨论的实施方案及实例只是为了说明，对本领域技术人员来说，可以加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种文本生成视频的网络模型，其特征在于，包括以下模块：

文本编码模块，将输入文本编码为单词特征向量和句子特征向量，再对句子特征向量通过条件增强模块采样得到连续的向量特征表示；

视频帧生成模块，将文本编码模块的输出作为输入，生成视频帧，该模块包括视觉循环单元、注意力模块和反卷积层，其中视觉循环单元由门控循环单元、全连接层和反卷积生成层组成，其视觉循环单元在时间步t，将上一原始帧

和隐藏层

，

由门控循环单元更新以表示来自输入文本的时间信息和语义特征；同时，通过注意力模块使每一原始视频帧获得上下文编码向量；最后，将添加了上下文信息的原始帧通过二维反卷积层生成最终视频帧；

知识蒸馏模块，包括教师网络、中间特征蒸馏模块和感知损失蒸馏模块，教师网络输入是文本，生成结果是文本对应的图像；中间特征蒸馏模块提取文本生成图像网络中间层参数中包含的视觉-文本映射知识，中间层参数中的知识采用核对齐损失和注意力图进行提取；感知损失蒸馏模块将教师网络的判别器作为感知损失提取器，计算教师网络生成的图片和每一帧视频图像的感知损失差，并对所有帧的感知损失取平均得到视频感知感知损失用来优化生成器；

判别模块，由视频判别器、帧判别器和运动判别器组成，从三个维度来判别结果的真假以及是否与文本一致。

2.根据权利要求1所述的文本生成视频的网络模型，其特征在于：

文本编码模块中通过双向长短记忆循环神经网络将输入文本编码为单词特征向量和句子特征向量。

3.根据权利要求1所述的文本生成视频的网络模型，其特征在于：

所述条件增强模块从独立的高斯分布中随机抽样潜空间向量特征表示，其中均值和协方差矩阵是句子特征向量的函数。

4.根据权利要求1所述的文本生成视频的网络模型，其特征在于：

教师网络为AttnGAN网络，使用和文本生成视频网络相同的数据集进行预训练。

5.根据权利要求1所述的文本生成视频的网络模型，其特征在于：

中间特征蒸馏模块采用改进的中间特征蒸馏思想，提取文本生成图像网络中间层参数中包含的视觉-文本映射知识，并以一对多的形式将该知识作为不同时间步连接的反卷积层的共享抽象特征，在时间步t的损失函数为：