CN109978021A

CN109978021A - 一种基于文本不同特征空间的双流式视频生成方法

Info

Publication number: CN109978021A
Application number: CN201910172420.0A
Authority: CN
Inventors: 王文敏; 李炜棉; 黄钟毅
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-07-05
Anticipated expiration: 2039-03-07
Also published as: CN109978021B; WO2020177214A1

Abstract

本发明公布了一种基于文本不同特征空间的双流式视频生成方法，包括：文本特征提取过程、双流式视频生成过程和对抗性训练过程。本发明对解析了输入的文本内容，并利用关注机制得到的特征信息进行了分离，分别提取了外观特征空间与运动特征空间的信息；采用双流式视频生成方式，最大化地利用单一模型对指定特征的学习能力；使用对抗性训练过程，从每一帧的质量和整体运动的连贯性两方面来指导和训练模型，同时加入文本特征来强化训练过程，使得生成的视频可以符合输入文本描述，实现生成的准确性。本发明方法能够实现智能化生成，在素材积累和数据集自动生成方面具有广泛的市场需求和应用前景。

Description

一种基于文本不同特征空间的双流式视频生成方法

技术领域

本发明涉及模式识别、自然语言处理、计算机视觉等技术领域，尤其涉及一种基于文本不同特征空间的视频生成方法，根据文本中所描述的物体外观特征空间与其相应的运动特征空间，智能化生成符合文本内容的视频片段。

背景技术

近年来，随着计算机视觉领域的飞速发展和生成对抗网络的提出，图像生成的研究受到了越来越广泛的关注，其在素材积累，数据集自动生成方面有非常积极的意义。视频相比于图像它更加生动，生成难度也更大，因此对于视频生成方面的探索更加有研究意义。同时，如果与大多数的图像生成方法一样随机地生成视频并不具有太多实用价值，用户更多地会想要基于某种给定信息来生成，比如，用户输入“一个人在走路”，期望得到与所输入文本相匹配的视频片段，而不是一些随机的、无意义的视频。如此看来，传统的生成方法已经不能满足用户对于生成结果指向性的、匹配性的要求。基于文本的视频生成面临的挑战主要是如何有效地理解文本内容(“什么物体在进行着怎么样的运动”)，并且生成结果要保证其每一帧的生成质量和整个视频在时序上动作的连贯性。

现有的方法大多对整个文本进行统一地处理，对提取到的特征直接生成整个视频片段，但是，这样的处理高估了单一模型的学习能力，不仅需要学习空间特征(外观信息)，还要学习时序特征(运动信息)，使得模型对于两种特征都不能充分地理解，难以有效地进行高质量的生成。

发明内容

本发明提供了一种基于文本不同特征空间的双流式视频生成方法，根据文本中所描述的物体外观特征空间与其相应的运动特征空间，通过分离文本中所包含的空间特征和时序特征，并采用双流的方式分别对这些特征建模，利用对抗训练的方式来指导生成过程和优化生成结果，使其逐渐趋于真实，从而实现智能化生成符合文本内容的视频片段。本发明还通过在简单物体运动视频数据库中验证了本发明方法的有效性。

本发明的技术方案是：

一种基于文本不同特征空间的双流视频生成方法，通过分离文本中所包含的空间特征和时序特征，并采用双流的方式分别对这些特征建模，并利用对抗训练的方式进行训练，实现智能化生成符合文本内容的真实高的视频片段；包括：文本特征提取过程、双流式视频生成过程和对抗性训练过程。

1)文本特征提取过程；

本发明解析了输入的文本内容，对得到的特征信息进行了分离，分别提取了外观特征空间与运动特征空间的信息。

需要注意的是，为了确保输入后续视频生成过程的文本特征是有意义的，文本特征提取过程要经过提前训练，并在后续其他模块的训练过程中保持不变。

文本特征提取过程具体包括如下步骤：

11)提取得到文本的外观特征T_a和运动特征T_m；

对输入的文本，采用双向的长短期记忆网络(bidirectional long short-termmemory，LSTM)实现对文本特征的映射，同时引入了注意力关注机制(attentionmechanism)结构进行外观特征和运动特征的分离。

具体操作如下：

111)双向长短期记忆网络分为上下两层，分别对文本做一个正序和逆序的解析，可以得到更全面的理解。文本中的每一个词依次输入长短期记忆网络的每个时间节点(time step)，每个时间节点处的维度为256维，提取到的特征分别表示为正序文本特征T_x＝{t_x1,t_x2,…,t_xn}和逆序文本特征T_y＝{t_y1,t_y2,…,t_yn}，n表示文本的长度，然后通过取均值的方式得到需要的文本特征T＝{t₁,t₂,…,t_n}，表示为式1：

T＝(T_x+T_y)/2 (式1)

其中T_x+T_y采用的是向量加法。

112)在注意关注机制结构中，文本特征T经过两组并行的全连接网络(fully-connected)，全连接网络的最后一层使用softmax激活函数，得到两组权重w_a＝{w_a1,w_a2,…,w_an}和w_b＝{w_b1,w_b2,…,w_bn},并且满足和分别用于提取外观特征和运动特征。以外观特征的提取为例，其计算过程可以表示为式2：

权重中每个值w_ai代表了对文本中不同位置特征的关注程度，值越大代表其对于外观特征的描述更多，通过加权和的方式可得到“关注”后的特征。同理，文本特征中包含的运动特征T_m也可以采用这种方式来进行提取。

12)对提取的外观特征T_a和运动特征T_m，需要在数据集中选择正负样本，同时引入三元组损失(triplet loss)，实现文本特征准确的分离。

具体操作如下：

121)在训练提取外观特征过程中，定义三元组Φ^a＝(T_a,G⁺,G^-),其中T_a为参照用外观特征，G⁺为正样本，是包含符合文本描述的物体的视频帧，G^-为负样本，是包含文本描述不同的物体的视频帧。此时关注的是外观特征，只需要物体类型符合文本描述即可，使用的仅是视频中的一帧。对选取的视频帧，使用2D卷积神经网络(2D convolution neuralnetwork)来提取其空间特征(spatial feature)，并在最后利用一个单层全连接网络结构将其映射到T_a的同构空间，为后续的图文匹配做准备。使用L2范数计算的不同模态数据间距离，表示为式3:

其中表示同构空间内图像与文本之间的欧式距离。

以外观特征T_a为参照物，引入三元组约束(triplet constraint)调整文本分布，即拉近匹配的文本图像对(T_a,G⁺)的距离，同时增加不匹配的文本图像对(T_a,G^-)的距离，确保分离出的外观特征是准确的、有意义的。外观特征的三元组损失可以表示为式4：

其中α为超参数，表示文本特征与正负样本间距离之差的最大值。

122)相似地，在训练提取动作特征过程中，选取包含符合文本描述的运动的视频V⁺，此时关注的是运动特征，需要使用整个视频，但视频中包含的物体类型可以忽略。对选取的视频帧，使用3D卷积神经网络(3D convolution neural network)来提取其时序特征(temporal feature)，并在最后利用一个单层全连接网络结构将其映射到T_m的同构空间。

同样的，通过构建三元组Φ^m＝(T_m,V⁺,V^-)和采用式4所示的损失函数计算拉近匹配的文本视频对(T_m,V⁺)的距离，增加不匹配的文本视频对(T_m,V^-)的距离。

文本特征提取过程的目标函数L由外观特征的三元组损失与运动特征的三元组损失组成，可以表示为式5：

2)双流式视频生成器的构建过程

本发明引入双流式视频生成器来生成视频，先利用提取的外观特征T_a生成一张静态图(static image)，再将学习到的运动特征T_m作用于这张图上来衍生出后续的视频帧，即以一种“先静后动”的方式来生成视频。

执行如下操作：

21)对外观特征T_a，先利用一个单层全连接网络结构将其映射到4*4*1024维度，并维度重组为(4，4，1024)，再通过2D反卷积神经网络(2D deconvolution neural network)来生成静态图F。其中，2D反卷积神经网络由5层反卷积层组成，每层反卷积层的感受野大小为4*4，步长为2，最终输出的图像大小为64*64.同时为了对同样的文本生成更多样性的视频，引入一个随机变量Z，该随机变量从高斯分布采样，使得生成的静态图中的物体可以有略微不同的外观和不同的初始位置。

22)对运动特征T_m，采取的方式是利用其来学习仿射变换(affine transform)的参数，单一的仿射变换有六个参数,表示为矩阵其变换过程可以表示为式6：

其中(x_k,y_k)为变换前某一点的坐标，(x′_k,y′_k)为变换后对应的坐标。单一的仿射只能实现平移、缩放、旋转、翻转等操作，为了对复杂的运动建模，需要使用K组仿射变换参数分别作用于上述静态图F，来得到K张变换后的图F′＝{f₁′,f₂′,…,f_K′}，再通过将这K张变换图组合起来得到后续的一帧。假定需要生成长度为L的视频片段，则共需要L*K*6个仿射变换参数，本发明中将运动特征T_m通过一个双层的全连接网络映射为指定维度的参数。

在将K张变换后的图F′＝{f₁′,f₂′,…,f_K′}组合在一起的过程中，需要评估在每个坐标位置上每张变换图的置信度，置信度越高说明在该位置上该变换图越接近真实的视频帧，通过引入掩码(mask)来实现置信度的自动评估。掩码的生成需要结合外观特征T_a、运动特征T_m和随机变量Z，在有初始状态以及运动趋势等信息的指导下才能更好地生成掩码。在将这些特征信息拼接后，经过一个3D反卷积神经网络(3D deconvolution neuralnetwork)来生成掩码M＝{m₁,m₂,…,m_K}，网络的最后一层使用softmax激活函数对每一个坐标位置(i，j)上的置信度进行归一化,即满足变换图的结合过程可以表示为式7：

其中F_next为生成的下一帧图像。

通过上述过程构建得到双流式视频生成器。

3)对抗性训练过程，通过交替训练双流式视频生成器和辨别器进行优化，得到最优化的生成器，使得生成的视频内容趋于真实；

本发明使用对抗性训练过程，对抗性训练利用零和博弈的思想，通过交替训练生成器和辨别器的方式同时提高两者的性能，然后取用训练好的生成器来完成文本到视频的生成任务。本发明具体采用文献[2](Pan Y,Qiu Z,Yao T,et al.To Create What YouTell:Generating Videos from Captions[J].2018.)中记载的两个辨别器：帧辨别器和视频辨别器，分别从每一帧的质量和整体运动的连贯性两方面来指导和训练模型，同时加入文本特征来强化训练过程，使得生成的视频可以符合输入文本描述，实现生成的准确性。

执行操作如下：

31)使用帧辨别器(frame-level discriminator)的方法,帧辨别器是四层的2D卷积神经网络结构；对生成的视频中的每一帧和作为参照的真实的视频中的每一帧加入正负样本的文本外观特征与组成真实图文对不匹配图文对以及生成图文对传统的辨别器只能缩小真实数据分布与预测分布的误差，加入文本特征强化训练可以进一步拉近与预测的图像数据分布与真实且外观符合描述的图像数据分布之间的距离，实现生成的准确性，其损失函数表达式为式8：

其中，N是一次迭代中数据的数目，c_k为真实数据的类别，和为帧辨别器对不同图文对的类别预测。帧辨别器的目标函数整体可以表示为式9：

其中l为生成视频的长度。

与之相对的，上述双流式视频生成器的优化目标之一为在假定帧辨别器的预测类别为真实数据类别的前提下使得生成的图像数据分布与真实且外观匹配的图像数据分布尽可能相似，优化函数表达式为式10：

32)使用视频辨别器(video-level discriminator)的方法，辨别器是四层的3D卷积神经网络结构；相似地，对生成的视频V^g和作为参照的真实的视频V^r，加入正负样本的文本运动特征与组成真实视频文本对不匹配的视频文本对以及生成视频文本对其作用是拉近预测的视频数据分布与真实且运动符合描述的视频数据分布之间的距离，其损失函数表达式为式11：

其中D(R^V)、D(W^V))和D(G^V))为辨别器对不同视频文本对的类别预测，同样的，双流式视频生成器的另一个优化目标为在假定视频辨别器的预测类别为真实数据类别的前提下使得生成的视频数据分布与真实且运动匹配的视频数据分布尽可能相似，优化函数表达式为式12：

对抗训练中辨别器的目标函数由帧辨别器和视频辨别器的损失函数组成，可以表示为式13：

双流式视频生成器的目标函数同样也由两部分组成，可以表示为式14：

辨别器与生成器的目标函数交替训练，得到最优化的生成器，即可实现基于文本内容的视频生成。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于文本不同特征空间的双流式视频生成方法，根据文本中所描述的物体外观特征空间与其相应的运动特征空间，通过分离文本中所包含的空间特征和时序特征，并采用双流的方式分别对这些特征建模，利用对抗训练的方式来优化生成结果，使其逐渐趋于真实，从而实现智能化生成符合文本内容的视频片段。与现有技术相比，其技术优势体现在以下两方面：

(一)通过分离文本特征中的外观特征和动作特征，采用双流式的方式生成视频，避免了高估单一模型的能力，实现对文本特征的准确学习。

(二)通过对运动特征的单独建模，并采用一种“先静后动”的生成方式，模型自适应地可以保持时序一致性，即视频中物体运动的连贯性，而不需要如已有方法在对抗训练中添加额外的指导动作连贯性的辨别器。

附图说明

图1是本发明提供方法的流程框图。

图2是本发明实施例根据输入文本生成双流式视频的结果示例图；

其中，(a)-(j)的输入文本分别为：

(a)“The digit 0 is moving left and right.”；

(b)“The digit 1 is moving up and down.”；

(c)“The digit 2 is moving left and right.”；

(d)“The digit 3 is moving left and right.”；

(e)“The digit 4 is moving up and down.”；

(f)“The digit 5 is moving left and right.”；

(g)“The digit 6 is moving up and down.”；

(h)“The digit 7 is moving up and down.”；

(i)“The digit 8 is moving left and right.”；

(j)“The digit 9 is moving up and down.”。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了一种基于文本不同特征空间的双流视频生成方法，通过分离文本中所包含的空间特征和时序特征，并采用双流的方式分别对这些特征建模，最大化对指定特征的学习能力，并利用对抗训练的方式来优化生成结果。

本发明提供的方法包括：文本特征提取过程、双流式视频生成过程和对抗性训练过程；图1所示是本发明提供方法的流程，具体步骤如下：

1、进行文本特征提取和分离，参见步骤11)-13)

11)利用双向长短时记忆网络，针对输入的文本，提取正序文本特征T_x＝{t_x1,t_x2,…,t_xn}和逆序文本特征T_y＝{t_y1,t_y2,…,t_yn}，n表示文本的长度，然后通过取均值的方式T＝(T_x+T_y)/2得到需要的文本特征T＝{t₁,t₂,…,t_n}。

12)引入注意力关注机制，学习两组权重w_a＝{w_a1,w_a2,…,w_an}和w_b＝{w_b1,w_b2,…,w_bn},并且满足和分别用于提取外观特征T_a和运动特征T_m。以外观特征为例，权重的学习网络是两组并行的全连接网络，全连接网络的最后一层使用softmax激活函数。

权重中每个值w_ai代表了对文本中不同位置特征的关注程度，值越大代表其对于外观特征的描述更多，通过加权和的方式可得到“关注”后的特征。

同理，文本特征中包含的运动特征T_m也可以采用这种方式来进行提取。

13)文本特征提取和分离的训练过程，以外观特征的提取为例，通过引入三元组约束(triplet constraint)调整文本分布，并且通过计算文本特征与图像特征在同构空间的欧式距离，即拉近匹配的文本图像对(T_a,G⁺)的距离，同时增加不匹配的文本图像对(T_a,G^-)的距离，确保分离出的特征是准确的、有意义的。运动特征的提取过程与此相似，优化匹配的文本视频对(T_m,V⁺)的距离，增加不匹配的文本视频对(T_m,V^-)的距离。

2、双流式视频生成过程，参见步骤21-22)

21)对外观特征T_a，先利用一个单层全连接网络结构将其映射到4*4*1024维度，再通过2D反卷积神经网络(2D deconvolution neural network)来生成静态图F。2D反卷积神经网络由5层反卷积层组成，每层反卷积层的感受野大小为4*4，步长为2.

为了对同样的文本生成更多样性的视频，引入一个随机变量Z，该随机变量从高斯分布采样，使得生成的静态图中的物体可以有略微不同的外观和不同的初始位置。

22)对运动特征T_m，学习仿射变换(affine transform)的参数来对运动规律建模，通过将这些参数运用到静态图F上得到一组变换图，再与掩码结合来生成视频。掩码的生成需要结合外观特征T_a、运动特征T_m和随机变量Z，经过一个3D反卷积神经网络来生成掩码，网络的最后一层使用softmax激活函数。

3、对抗性训练过程，参见如下步骤：

使用帧辨别器和视频辨别器，对生成的视频帧质量和视频的运动进行指导，并通过分别加入外观特征T_a和运动特征T_m强化训练过程，使生成的视频可以符合文本描述。辨别器与生成器的目标函数交替训练，得到最优化的生成器。

本发明实施主要是在文献[1](Xue T,Wu J,Bouman K L,et al.VisualDynamics:Probabilistic Future Frame Synthesis via Cross ConvolutionalNetworks[J].2016.)提供的Moving MNIST数据集上进行，并且通过与文献[2](Pan Y,QiuZ,Yao T,et al.To Create What You Tell:Generating Videos from Captions[J].2018.)记载的方法进行比较，图2是本实施例进行视频生成的结果示例图，通过图2可以看出，本发明可以准确地生成出符合文本描述的视频片段，采用本发明模型能够自适应地生成时序一致的视频片段，不需要在对抗训练中使用额外的运动辨别器来对其指导，这也是本发明优于现有方法的技术优势。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于文本不同特征空间的双流式视频生成方法，通过分离文本中所包含的空间特征和时序特征，采用双流的方式进行特征建模，并利用对抗训练的方式进行训练，实现智能化生成符合文本内容的真实高的视频片段；包括：文本特征提取过程、双流式视频生成器构建过程和对抗性训练过程；

1)文本特征提取过程；执行如下操作：

11)提取得到文本的外观特征T_a和运动特征T_m；

12)对提取的外观特征T_a和运动特征T_m，在数据集中选择正负样本，同时引入三元组损失，准确分离文本特征；具体执行如下操作：

121)在训练提取外观特征过程中，定义三元组Φ^a＝(T_a，G⁺，G^-)，其中T_a为参照用外观特征；G⁺为正样本，是包含符合文本描述的物体的视频帧；G^-为负样本，是包含文本描述不同的物体的视频帧；外观特征只需物体类型符合文本描述；

使用视频中的一帧；对选取的视频帧，使用2D卷积神经网络提取视频空间特征，并利用一个单层全连接网络结构将视频空间特征映射到T_a的同构空间；使用L2范数计算不同模态数据间的距离，即同构空间内图像与文本之间的欧式距离

以外观特征T_a为参照物，引入外观特征的三元组损失调整文本分布，即拉近匹配的文本图像对(T_a，G⁺)的距离，同时增加不匹配的文本图像对(T_a，G^-)的距离，确保分离出的外观特征准确；

122)在训练提取动作特征过程中，选取包含符合文本描述的运动的视频V⁺；使用整个视频，可忽略视频中包含的物体类型；

对选取的视频帧，使用3D卷积神经网络提取视频时序特征，并利用一个单层全连接网络结构将视频时序特征映射到T_m的同构空间；

同样的，通过构建三元组Φ^m＝(T_m，V⁺，V^-)并采用损失函数计算运动特征的三元组损失拉近匹配的文本视频对(T_m，V⁺)的距离，增加不匹配的文本视频对(T_m，V^-)的距离；

文本特征提取过程的目标函数L由外观特征的三元组损失与运动特征的三元组损失组成；

2)双流式视频生成器的构建过程：执行如下操作：

21)利用提取的外观特征T_a，通过2D反卷积神经网络生成一张静态图；

22)利用运动特征T_m学习仿射变换的参数，作用于该静态图上，并通过掩码结合来衍生出后续的视频帧；

由此构建双流式视频生成器；

3)对抗性训练过程，通过交替训练双流式视频生成器和辨别器，通过分别加入外观特征T_a和运动特征T_m强化训练过程进行优化，得到最优化的生成器，使得生成的视频内容符合文本描述；

通过上述步骤，实现基于文本不同特征空间的双流式视频生成。

2.如权利要求1所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤11)具体执行如下操作：

111)对输入的文本，采用双向的长短期记忆网络实现对文本特征的映射，提取正序文本特征T_x＝{t_x1，t_x2，...，t_xn}和逆序文本特征T_y＝{t_y1，t_y2，...，t_yn}，n表示文本的长度；然后通过取均值的方式T＝(T_x+T_y)/2得到需要的文本特征T＝{t₁，t₂，...，t_n}；

112)引入关注机制对不同类型的文本特征进行分离，得到外观特征T_a和运动特征T_m：

文本特征T分别通过两组全连接网络，网络最后一层使用softmax激活函数，分别学习两组权重w_a＝{w_a1，w_a2，...，w_an}和w_b＝{w_b1，w_b2，...，w_bn}，并且满足和由此提取得到外观特征T_a和运动特征T_m。

3.如权利要求2所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤111)双向长短期记忆网络分为上下两层，分别对文本进行正序和逆序的解析；文本中的每一个词依次输入双向长短期记忆网络的每个时间节点，每个时间节点处的维度为256维，提取到正序文本特征和逆序文本特征。

4.如权利要求2所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤112)中，外观特征T_a具体通过式2计算提取得到：

其中，每个权重值w_ai代表对文本中不同位置特征的关注程度。

5.如权利要求1所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤121)使用L2范数计算不同模态数据间距离，通过式3计算得到同构空间内图像与文本之间的欧式距离

外观特征的三元组损失具体通过式4计算得到：

其中，α为超参数，表示文本特征与正负样本间距离之差的最大值；

运动特征的三元组损失也采用式4表示的损失函数计算得到；

文本特征提取过程的目标函数L表示为式5。

6.如权利要求1所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤21)具体执行如下操作：

211)利用一个单层全连接网络结构，将外观特征T_a映射到4*4*1024维度，将维度重组为(4，4，1024)；

212)再通过2D反卷积神经网络生成静态图；其中，2D反卷积神经网络由5层反卷积层组成，每层反卷积层的感受野大小为4*4，步长为2，输出的图像大小为64*64；

213)同时引入一个随机变量Z，该随机变量从高斯分布采样，使得生成的静态图中的物体可以有略微不同的外观和不同的初始位置，以使得对同样的文本生成更多样性的视频。

7.如权利要求1所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤22)利用运动特征T_m学习仿射变换的参数，具体执行如下操作：

221)单一的仿射变换包括六个参数,表示为矩阵变换过程表示为式6，用于实现平移、缩放、旋转、翻转操作：

其中，(x_k,y_k)为变换前某一点的坐标，(x′_k,y′_k)为变换后对应的坐标；

222)使用K组仿射变换参数分别作用于静态图，得到K张变换后的图F′＝{f₁′,f₂′,…,f′_K}，再通过将K张变换后的图组合起来，得到后续的一帧，以实现对复杂的运动建模。

8.如权利要求7所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤222)中，假定需要生成长度为L的视频片段，则共需要L*K*6个仿射变换参数，将运动特征T_m通过一个双层的全连接网络映射为指定维度的参数；在将K张变换后的图F′＝{f₁′,f₂′,…,f′_K}组合在一起的过程中，评估在每个坐标位置上每张变换图的置信度；置信度越高说明在该位置上该变换图越接近真实的视频帧；

具体通过外观特征T_a、运动特征T_m和随机变量Z，在有初始状态及运动趋势信息的指导下，经过一个3D反卷积神经网络生成掩码M＝{m₁,m₂,…,m_K}；再通过掩码实现置信度的自动评估；网络的最后一层使用softmax激活函数对每一个坐标位置(i，j)上的置信度进行归一化,即满足

变换图的过程表示为式7：

其中，F_next为生成的下一帧图像。

9.如权利要求1所述基于文本不同特征空间的双流式视频生成方法，其特征是，步骤3)中，辨别器包括帧辨别器和视频辨别器；对抗性训练过程具体执行如下操作：

31)帧辨别器采用四层的2D卷积神经网络结构；使用帧辨别器的方法,对生成的视频V^g＝中的每一帧和作为参照的真实的视频中的每一帧加入正负样本的文本外观特征与组成真实图文对不匹配图文对及生成图文对进行强化训练，由此拉近预测的图像数据分布与真实且外观符合描述的图像数据分布之间的距离，提高生成视频的准确性；损失函数表达式为式8：

其中，N是一次迭代中数据的数目；c_k为真实数据的类别；D(W_i ^v))和分别为帧辨别器对不同图文对的类别预测；

帧辨别器的目标函数表示为式9：

其中，l为生成视频的长度；

双流式视频生成器的优化目标之一为：在假定帧辨别器的预测类别为真实数据类别的前提下，使得生成的图像数据分布与真实且外观匹配的图像数据分布尽可能相似，优化函数表达式为式10：

32)视频辨别器采用四层的3D卷积神经网络结构；使用视频辨别器的方法，对生成的视频V^g和作为参照的真实的视频V^r，加入正负样本的文本运动特征与组成真实视频文本对不匹配的视频文本对及生成视频文本对进行训练，由此达到拉近预测的视频数据分布与真实且运动符合描述的视频数据分布之间的距离的效果；损失函数表达式为式11：

其中，D(R^V)、D(W^V))和D(G^V))为辨别器对不同视频文本对的类别预测；

双流式视频生成器的另一个优化目标为：在假定视频辨别器的预测类别为真实数据类别的前提下使得生成的视频数据分布与真实且运动匹配的视频数据分布尽可能相似，优化函数表达式为式12。

10.如权利要求9所述基于文本不同特征空间的双流式视频生成方法，其特征是，对抗训练中辨别器的目标函数由帧辨别器和视频辨别器的损失函数组成，表示为式13：

双流式视频生成器的目标函数也由两部分组成，表示为式14：

通过辨别器与生成器的目标函数进行交替训练，得到最优化的生成器，即可实现基于文本内容的视频生成。