CN111639547A

CN111639547A - 基于生成对抗网络的视频描述方法及系统

Info

Publication number: CN111639547A
Application number: CN202010392029.4A
Authority: CN
Inventors: 许信顺; 尹晓雅; 罗昕
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-08
Anticipated expiration: 2040-05-11
Also published as: CN111639547B

Abstract

本发明公开了基于生成对抗网络的视频描述方法及系统，包括：获取待描述视频；将待描述视频输入到训练好的生成对抗网络中，训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征，生成器的解码器对所述视觉特征进行解码，输出待描述视频的描述语句。所述训练好的生成对抗网络，具体训练步骤包括：对生成器单独进行训练，得到单独训练好的生成器；对判别器单独进行训练，得到单独训练好的判别器；将单独训练好的生成器和单独训练好的判别器进行连接，得到初始化生成对抗网络；对初始化生成对抗网络进行训练，得到训练好的生成对抗网络。

Description

基于生成对抗网络的视频描述方法及系统

技术领域

本公开涉及计算机视觉及自然语言处理技术领域，特别是涉及基于生成对抗网络的视频描述方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

对于大多数人来讲，即使三岁的孩子都可以出色的完成“看图说话”或者“看视频说话”任务。但是对于计算机来说，这显然不是一个简单的任务。随着深度学习的发展，计算机视觉与自然语言处理任务得到了极大的发展，视觉描述任务也因此受到了广泛的重视。视觉描述的生成可以应用于多种场景，如帮助人工智能体和视障人士理解当前场景，将海量监控视频转化为文字形式，便于留存以及检索，为视频快速添加字幕等实际场景。

根据视觉信息的不同表现形式，视觉描述任务可以分为图像描述任务以及视频描述任务。图像描述的生成已经被广泛认为是一项非常具有挑战性的任务，与之相比，视频描述的生成更为困难。在图像描述生成任务中，计算机只需要识别一张图片中的显著目标，以及目标间的关系，并将目标以及目标之间的关系用一段自然语言描述出来。而在视频描述任务中，视频中出现的显著目标数量更多，目标间关系更为复杂。除了成倍增加的视觉信息，视频的时序信息也是需要额外考虑的一点，正是因为时序信息使得组成视频的帧之间的信息串联在一起。

在过去的几年里，图像描述任务已经取得了一些的成果，视频描述任务由于其复杂性仍然具有进步空间。当前解决视频描述任务的方法受机器翻译任务启发，采用编码器-解码器框架，将视频序列翻译为文字序列。通常采用基于卷积神经网络的编码器编码视视频信息，得到全局视频特征表示向量。由于目标识别，图像分类等任务的效果不断提升，视频描述编码阶段的识别效果也大幅提高。采用基于循环神经网络的解码器解码全局视频特征表示向量，生成描述视频内容的正确语句。

基于传统的编码器-解码器框架以及交叉熵损失函数，目的只是得到可以正确描述视频内容的语句，但是，发明人发现现有技术中视频表述语句通常不是很自然或者不是很通顺，描述自然是判别描述语句的一个重要指标，语句的自然性直接影响到描述语句的可读性，理解性以及后续进一步分析的实用性。

发明内容

为了解决现有技术的不足，本公开提供了基于生成对抗网络的视频描述方法及系统；能够进一步提高描述语句的准确率以及描述的自然性，从而保障视频描述的实用性的基于生成对抗网络的视频描述方法。

第一方面，本公开提供了基于生成对抗网络的视频描述方法；

基于生成对抗网络的视频描述方法，包括：

获取待描述视频；

将待描述视频输入到训练好的生成对抗网络中，训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征，生成器的解码器对所述视觉特征进行解码，输出待描述视频的描述语句。

第二方面，本公开提供了基于生成对抗网络的视频描述系统；

基于生成对抗网络的视频描述系统，包括：

获取模块，其被配置为：获取待描述视频；

输出模块，其被配置为：将待描述视频输入到训练好的生成对抗网络中，训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征，生成器的解码器对所述视觉特征进行解码，输出待描述视频的描述语句。

第三方面，本公开还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本公开还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本公开的有益效果是：

(1)本发明基于生成对抗网络的视频描述方法，通过生成对抗思想，对抗交替训练，得到不仅语义正确而且表述自然的语句，提高了语句的可读性、理解性同时提高了方法的实用性；

(2)使用利用语句全局-局部信息的解码器以及重构器，充分利用视频信息以及语句信息，提高生成语句包含信息的完整度、丰富度；

(3)采用增强学习的损失以及蒙特卡洛采样，能够得到每个单词或文字的得分，除了考虑语句整体得分还考虑了语句中每个单词的得分倾向，有助于有针对性的区分不同单词的积极性以及消极性，提高描述的准确性以及自然性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的生成对抗网络示意图；

图3为第一个实施例的预训练时生成器；

图4为第一个实施例的预训练时判别器；

图5为第一个实施例的对抗训练时生成对抗网络示意图；

图6为第一个实施例的实际使用阶段的编码器和解码器。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了基于生成对抗网络的视频描述方法；

如图6所示，基于生成对抗网络的视频描述方法，包括：

S101：获取待描述视频；

S102：将待描述视频输入到训练好的生成对抗网络中，训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征，生成器的解码器对所述视觉特征进行解码，输出待描述视频的描述语句。

作为一个或多个实施例，如图2所示，所述生成对抗网络，包括：相互连接的生成器和判别器；

所述生成器，包括依次连接的编码器、解码器和重构器；

所述编码器包括串联的第一深度卷积神经网络和第一双向循环神经网络；第一双向循环神经网络的输出端与解码器连接；

所述解码器包括串联的第一循环神经网络和第二循环神经网络；第二循环神经网络的输出端与重构器连接。

所述判别器，包括并联的第一分支和第二分支，所述第一分支包括串联的第二深度卷积神经网络和第二双向循环神经网络，所述第二分支包括第三循环神经网络；

所述第二双向循环神经网络的输出端和第三循环神经网络的输出端均与内积单元的输入端连接；内积单元的输出端与二分类器的输入端连接，二分类器的输出端用于输出判别器的判别结果。

作为一个或多个实施例，如图1所示，所述训练好的生成对抗网络，具体训练步骤包括：

S1021：对生成器单独进行训练，得到单独训练好的生成器；

S1022：对判别器单独进行训练，得到单独训练好的判别器；

S1023：将单独训练好的生成器和单独训练好的判别器进行连接，得到初始化生成对抗网络；对初始化生成对抗网络进行训练，得到训练好的生成对抗网络。

作为一个或多个实施例，如图3所示，所述S1021中，对生成器单独进行训练，得到训练好的生成器；具体步骤包括：

S10211：构建训练集；所述训练集，包括：若干个训练视频，每个训练视频均设有已知的描述语句；

S10212：对训练视频进行采样，得到训练帧；将得到的训练帧，通过第一深度卷积神经网络进行空间特征提取，得到空间特征；

S10213：生成器的第一双向循环神经网络对空间特征进行特征提取，得到带有视频时序信息的第一视觉特征向量；

S10214：解码器的第一循环神经网络对已知的描述语句进行处理得到已知描述语句的特征，解码器的第二循环神经网络对已知描述语句的特征和第一视觉特征向量进行处理，得到生成的描述语句；

计算生成的描述语句与已知描述语句之间的第一最大似然估计值；

S10215：重构器对解码得到的描述语句进行重构，生成视频向量；

计算生成视频向量与第一视觉特征向量之间的第二最大似然估计值；

S10216：对第一最大似然估计值与第二最大似然估计值进行求和，当求和结果小于设定阈值时，停止训练，得到单独训练好的生成器；否则，返回S10212继续训练。

作为一个或多个实施例，如图4所示，所述S1022中，对判别器单独进行训练，得到训练好的判别器；具体步骤包括：

S10221：构建训练集；所述训练集，包括：两类数据集，第一类数据集是已知描述语句的训练视频，第一类数据集的标签为真；第二类数据集是将训练视频输入到单独训练好的生成器中，单独训练好的生成器生成描述语句，第二类数据集的标签为假；将第一类数据集与第二类数据集进行混合，混合后的数据集即为判别器训练集；

S10222：对判别器训练集中的视频进行随机采样，得到训练帧；将得到的训练帧，通过第二深度卷积神经网络进行空间特征提取，得到空间特征；

第二双向循环神经网络对空间特征进行特征提取，得到带有视频时序信息的第二视觉特征向量；

S10223：第三循环神经网络对判别器训练集的描述语句进行语句特征提取，获取第一语句特征向量；

S10224：将第二视觉特征向量与第一语句特征向量通过内积的形式进行融合，得到第一融合判别向量；

S10225：将第一融合判别向量输入到二分类器中，当二分类器的判断误差小于设定阈值时，停止训练，得到单独训练好的判别器。

作为一个或多个实施例，如图5所示，所述S1023中，将单独训练好的生成器和单独训练好的判别器进行连接，得到初始化生成对抗网络；对初始化生成对抗网络进行训练，得到训练好的生成对抗网络；具体步骤包括：

S10231：将单独训练好的生成器和单独训练好的判别器进行连接，连接时是将二分类器的输出端与解码器连接；

S10232：构建训练集；所述训练集，包括：若干个训练视频，每个训练视频均设有已知的描述语句；

S10233：将训练集输入到初始化生成对抗网络中，初始化生成对抗网络的编码器对训练视频进行视觉特征提取，输出第三视觉特征向量；初始化生成对抗网络的解码器对第三视觉特征向量进行解码，得到虚拟描述语句；

S10234：将虚拟描述语句与训练集已知的描述语句均输入到二分类器中，二分类器输出分类器结果，当二分类器的判别误差低于设定阈值时，停止训练，此时对应的初始化生成对抗网络即为训练好的生成对抗网络；否则，返回S10233，继续训练。

应理解的，对生成器单独进行训练，得到单独训练好的生成器，是提取采样得到的视频帧的特征，编码视频的语义信息和时序信息，用更抽象的高层特征向量表示视频；解码编码得到的视频向量，解码得到描述语句；根据解码得到的语句重构生成视频向量；

应理解的，对判别器单独进行训练，得到单独训练好的判别器，是判别一对视频-语句对是来自于标注数据集还是生成的数据，并给出评分；

应理解的，对初始化生成对抗网络进行训练，得到训练好的生成对抗网络，对抗训练，基于对抗思想，生成描述与判别视频-语句对真实性交替训练，得到语义正确以及表述自然的描述语句。

应理解的，对生成器单独进行训练，得到单独训练好的生成器，具体过程为：

步骤(1.1)：提取采样得到的视频帧的特征，编码视频的语义信息和时序信息，用更抽象的高层特征向量表示视频；

步骤(1.2)：解码步骤(1.1)编码得到的视频向量，解码得到描述语句，解码部分基于两层循环神经网络构成，充分利用描述语句的全局-局部信息；

步骤(1.3)：根据步骤(1.2)解码得到的语句重构生成视频向量，通过使重构生成的视频向量与原始的视频特征向量一致，迫使编码解码阶段可以包含更多信息。

所述步骤(1.1)的具体过程为：

步骤(1.1.1)：等间隔采样视频获得多帧视频图像，编码视频的语义信息和时序信息，用抽象的高层特征向量表示视频。在每段短视频中等间隔采样n帧，每帧图像调整为统一大小c像素*c像素。

采用深度卷积神经网络采样得到帧的特征，卷积神经网络模型可以选择InceptionV4网络，并将最后一层全局池化层特征作为帧的语义特征{v₁,v₂,…,v_n}，其中n表示采样得到的帧的数目；

步骤(1.1.2)：将步骤(1.1.1)中得到的帧特征按顺序送入双向循环神经网络中，使用双向循环网络同时捕获视频前序和后序的时间信息，得到带有视频时序信息的视觉特征{f₁,f₂,…,f_n}。

所述步骤(1.2)的具体过程为：

步骤(1.2.1)：设计充分利用描述语句全局和局部信息的解码器，结合视频信息，解码得到描述语句，提高生成描述语句的正确性。利用底层(第一层)循环神经网络提取描述语句中的局部信息，即包含的单个单词或文字的信息，同时将底层循环神经网络的输出单元

保存并传递到下一层循环神经网络进行利用：

其中，g₁为底层循环神经网络函数，y_t为t时刻输入单词或文字的分布式向量表示；

步骤(1.2.2)：将步骤(1.1)中编码得到的视频信息结合注意力机制传递到解码器中进行利用，根据注意力机制学习到的权重，在解码的每个时刻，加权平均当前视频的视频帧向量，得到针对当前时刻的视频上下文特征F_t：

其中，

为学习到的t时刻第i帧视频的权重；

步骤(1.2.3)：顶层(第二层)循环神经网络同时考虑文字的全局序列信息以及视频上下文特征。步骤(1.2.1)得到的底层循环神经网络的输出隐藏单元与步骤(1.2.2)得到的视频上下文特征级联，作为顶层循环神经网络的输入，输出单元记为

其中，g₂为顶层循环神经网络函数。顶层解码器每个时刻的输出紧跟着一个全连接层，结果作为映射到每个单词或者文字的概率，选择最大概率的单词或文字作为结果。

在训练时，标注的描述语句中的单词或文字作为每时刻的输入；在推测时，模型上一时刻生成的单词或者文字作为当前时刻的输入。

所述步骤(1.3)的具体过程为：

将根据视频解码生成的描述语句重构为视频特征。这一步骤可以视为简单的视频生成任务，以解码阶段的输出作为重构阶段的输入，重新生成视频向量，通过使重构生成的视频向量与原始的视频特征向量一致，即通过最大似然估计损失函数训练使得生成的视频向量与原始视频特征向量欧几里得距离尽量小，迫使编码解码阶段可以包含更多信息。为了减少计算量，可以使用一个简单的双层循环神经网络结合注意力机制完成重构。

应理解的，对判别器单独进行训练，得到单独训练好的判别器的具体过程为：

步骤(2.1)：从标注的数据以及方法生成的数据中采样一对视频-描述语句对。等间隔采样视频获得多帧视频图像，采用深度卷积神经网络提采样得到的帧的特征，卷积神经网络模型可以选择InceptionV4网络，并将最后一层全局池化层特征作为帧的语义特征。将得到的帧特征按顺序送入双向循环神经网络中，使用双向循环网络同时捕获视频前序和后序的时间信息，最后时刻的输出隐藏单元作为当前视频的特征表示

步骤(2.2)：采用循环神经网络将描述语句进行编码，同样采用最后时刻的输出隐藏单元作为当前描述语句的特征表示

得到与视频特征表示相同维度的描述语句特征表示；

步骤(2.3)：步骤(2.1)与步骤(2.2)得到的视频和描述语句的特征向量做内积得到视频和描述语句对的融合判别特征向量。实现一个二分类器，对融合判别特征向量采用全连接网络进行二分类，判断一对视频-描述语句对是来自标注的数据还是方法生成的数据，来自于标注的数据则视为真，由方法生成的数据则视为假，并为这对视频-语句对属于真的概率评分。训练目标为：

L_D＝log P(l|(V,·)) (4)

其中，l为标注标签，(V,·)为采样的视频-描述语句对。

其目的则是通过区分标注的数据还是方法生成的数据的视频-语句对来使得方法关注于自身所生成描述语句与标注的语句的差别之处。

应理解的，对初始化生成对抗网络进行训练，得到训练好的生成对抗网络，的具体过程为：

步骤(3.1)：根据视频生成描述语句部分，先以最大似然估计作为损失函数进行预训练，得到通顺的描述语句，在本发明中通过生成的描述语句的CIDEr得分超过设定的阈值视为达到目标；

步骤(3.2)：预训练判别部分，实现基本的判别能力，在本发明中通过判别的正确率超过设定的阈值视为具备基本判别能力；

步骤(3.3)：在本方法中采用增强学习的方法进行训练。生成部分视为“代理”，判别部分作为“环境”做出评分作为奖励值影响“代理”的“动作”。组成描述语句的每一个单词或文字都要经过判别阶段计算得到每个单词或文字的得分作为奖励值。由于判别阶段只能接受视频和完整的语句对，因此针对t时刻生成单词的奖励值，将t时刻前所生成的序列作为前缀，后序由蒙特卡洛采样补充完整为完整的描述语句，得到评分作为t时刻单词的奖励值；

步骤(3.4)：采用对抗思想，交替训练生成部分以及判别部分，生成部分的目标是总奖励值提高，训练目标即：

其中，Y_1:t-1为时间t之前生成的单词组成的部分句子，Q_t为t时刻单词的奖励值。判别部分的目标是判别准确率提高，通过两阶段对抗训练得到与真实分布无法区分的生成样本，达到生成语义正确以及表述自然的描述语句的目的。

本发明公开了一种基于生成对抗网络的视频描述方法及系统，包括以下步骤：步骤(1)：提取采样得到的视频帧的特征，编码视频的语义信息和时序信息，用更抽象的高层特征向量表示视频；解码编码得到的视频向量，解码得到描述语句，解码部分基于两层循环神经网络构成，充分利用描述语句的全局-局部信息；根据解码得到的语句重构生成视频向量，迫使编码解码阶段可以包含更多信息；步骤(2)：判别一对视频-语句对是来自于标注数据集还是由方法生成，并给出评分；步骤(3)：对抗训练，基于对抗思想，生成描述语句与判别视频-语句对真实性交替训练，得到语义正确以及表述自然的描述语句。本发明还涉及一种基于生成对抗网络的视频描述系统，包括生成器模块，判别器模块和对抗训练模块。本发明基于生成对抗网络的视频描述方法，通过生成对抗思想，对抗交替训练，得到不仅语义正确而且表述自然的语句，提高了语句的可读性、理解性同时提高了方法的实用性。

实施例二

本实施例提供了基于生成对抗网络的视频描述系统；

基于生成对抗网络的视频描述系统，包括：

获取模块，其被配置为：获取待描述视频；

此处需要说明的是，上述获取模块和输出模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于生成对抗网络的视频描述方法，其特征是，包括：

获取待描述视频；

2.如权利要求1所述的方法，其特征是，所述生成对抗网络，包括：相互连接的生成器和判别器；

所述生成器，包括依次连接的编码器、解码器和重构器；

3.如权利要求2所述的方法，其特征是，所述判别器，包括并联的第一分支和第二分支，所述第一分支包括串联的第二深度卷积神经网络和第二双向循环神经网络，所述第二分支包括第三循环神经网络；

4.如权利要求1所述的方法，其特征是，所述训练好的生成对抗网络，具体训练步骤包括：

对生成器单独进行训练，得到单独训练好的生成器；

对判别器单独进行训练，得到单独训练好的判别器；

将单独训练好的生成器和单独训练好的判别器进行连接，得到初始化生成对抗网络；对初始化生成对抗网络进行训练，得到训练好的生成对抗网络。

5.如权利要求4所述的方法，其特征是，对生成器单独进行训练，得到训练好的生成器；具体步骤包括：

构建训练集；所述训练集，包括：若干个训练视频，每个训练视频均设有已知的描述语句；

对训练视频进行采样，得到训练帧；将得到的训练帧，通过第一深度卷积神经网络进行空间特征提取，得到空间特征；

生成器的第一双向循环神经网络对空间特征进行特征提取，得到带有视频时序信息的第一视觉特征向量；

解码器的第一循环神经网络对已知的描述语句进行处理得到已知描述语句的特征，解码器的第二循环神经网络对已知描述语句的特征和第一视觉特征向量进行处理，得到生成的描述语句；

重构器对解码得到的描述语句进行重构，生成视频向量；

对第一最大似然估计值与第二最大似然估计值进行求和，当求和结果小于设定阈值时，停止训练，得到单独训练好的生成器；否则，继续训练。

6.如权利要求4所述的方法，其特征是，对判别器单独进行训练，得到训练好的判别器；具体步骤包括：

构建训练集；所述训练集，包括：两类数据集，第一类数据集是已知描述语句的训练视频，第一类数据集的标签为真；第二类数据集是将训练视频输入到单独训练好的生成器中，单独训练好的生成器生成描述语句，第二类数据集的标签为假；将第一类数据集与第二类数据集进行混合，混合后的数据集即为判别器训练集；

对判别器训练集中的视频进行随机采样，得到训练帧；将得到的训练帧，通过第二深度卷积神经网络进行空间特征提取，得到空间特征；

第三循环神经网络对判别器训练集的描述语句进行语句特征提取，获取第一语句特征向量；

将第二视觉特征向量与第一语句特征向量通过内积的形式进行融合，得到第一融合判别向量；

将第一融合判别向量输入到二分类器中，当二分类器的判断误差小于设定阈值时，停止训练，得到单独训练好的判别器。

7.如权利要求4所述的方法，其特征是，将单独训练好的生成器和单独训练好的判别器进行连接，得到初始化生成对抗网络；对初始化生成对抗网络进行训练，得到训练好的生成对抗网络；具体步骤包括：

将单独训练好的生成器和单独训练好的判别器进行连接，连接时是将二分类器的输出端与解码器连接；

将训练集输入到初始化生成对抗网络中，初始化生成对抗网络的编码器对训练视频进行视觉特征提取，输出第三视觉特征向量；初始化生成对抗网络的解码器对第三视觉特征向量进行解码，得到虚拟描述语句；

将虚拟描述语句与训练集已知的描述语句均输入到二分类器中，二分类器输出分类器结果，当二分类器的判别误差低于设定阈值时，停止训练，此时对应的初始化生成对抗网络即为训练好的生成对抗网络；否则，继续训练。

8.基于生成对抗网络的视频描述系统，其特征是，包括：

获取模块，其被配置为：获取待描述视频；

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述权利要求1-7任一项所述的方法。