CN111639547A - 基于生成对抗网络的视频描述方法及系统 - Google Patents

基于生成对抗网络的视频描述方法及系统 Download PDF

Info

Publication number
CN111639547A
CN111639547A CN202010392029.4A CN202010392029A CN111639547A CN 111639547 A CN111639547 A CN 111639547A CN 202010392029 A CN202010392029 A CN 202010392029A CN 111639547 A CN111639547 A CN 111639547A
Authority
CN
China
Prior art keywords
video
training
trained
neural network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010392029.4A
Other languages
English (en)
Other versions
CN111639547B (zh
Inventor
许信顺
尹晓雅
罗昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010392029.4A priority Critical patent/CN111639547B/zh
Publication of CN111639547A publication Critical patent/CN111639547A/zh
Application granted granted Critical
Publication of CN111639547B publication Critical patent/CN111639547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于生成对抗网络的视频描述方法及系统,包括:获取待描述视频;将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。所述训练好的生成对抗网络,具体训练步骤包括:对生成器单独进行训练,得到单独训练好的生成器;对判别器单独进行训练,得到单独训练好的判别器;将单独训练好的生成器和单独训练好的判别器进行连接,得到初始化生成对抗网络;对初始化生成对抗网络进行训练,得到训练好的生成对抗网络。

Description

基于生成对抗网络的视频描述方法及系统
技术领域
本公开涉及计算机视觉及自然语言处理技术领域,特别是涉及基于生成对抗网络的视频描述方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
对于大多数人来讲,即使三岁的孩子都可以出色的完成“看图说话”或者“看视频说话”任务。但是对于计算机来说,这显然不是一个简单的任务。随着深度学习的发展,计算机视觉与自然语言处理任务得到了极大的发展,视觉描述任务也因此受到了广泛的重视。视觉描述的生成可以应用于多种场景,如帮助人工智能体和视障人士理解当前场景,将海量监控视频转化为文字形式,便于留存以及检索,为视频快速添加字幕等实际场景。
根据视觉信息的不同表现形式,视觉描述任务可以分为图像描述任务以及视频描述任务。图像描述的生成已经被广泛认为是一项非常具有挑战性的任务,与之相比,视频描述的生成更为困难。在图像描述生成任务中,计算机只需要识别一张图片中的显著目标,以及目标间的关系,并将目标以及目标之间的关系用一段自然语言描述出来。而在视频描述任务中,视频中出现的显著目标数量更多,目标间关系更为复杂。除了成倍增加的视觉信息,视频的时序信息也是需要额外考虑的一点,正是因为时序信息使得组成视频的帧之间的信息串联在一起。
在过去的几年里,图像描述任务已经取得了一些的成果,视频描述任务由于其复杂性仍然具有进步空间。当前解决视频描述任务的方法受机器翻译任务启发,采用编码器-解码器框架,将视频序列翻译为文字序列。通常采用基于卷积神经网络的编码器编码视视频信息,得到全局视频特征表示向量。由于目标识别,图像分类等任务的效果不断提升,视频描述编码阶段的识别效果也大幅提高。采用基于循环神经网络的解码器解码全局视频特征表示向量,生成描述视频内容的正确语句。
基于传统的编码器-解码器框架以及交叉熵损失函数,目的只是得到可以正确描述视频内容的语句,但是,发明人发现现有技术中视频表述语句通常不是很自然或者不是很通顺,描述自然是判别描述语句的一个重要指标,语句的自然性直接影响到描述语句的可读性,理解性以及后续进一步分析的实用性。
发明内容
为了解决现有技术的不足,本公开提供了基于生成对抗网络的视频描述方法及系统;能够进一步提高描述语句的准确率以及描述的自然性,从而保障视频描述的实用性的基于生成对抗网络的视频描述方法。
第一方面,本公开提供了基于生成对抗网络的视频描述方法;
基于生成对抗网络的视频描述方法,包括:
获取待描述视频;
将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
第二方面,本公开提供了基于生成对抗网络的视频描述系统;
基于生成对抗网络的视频描述系统,包括:
获取模块,其被配置为:获取待描述视频;
输出模块,其被配置为:将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
第三方面,本公开还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本公开还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本公开的有益效果是:
(1)本发明基于生成对抗网络的视频描述方法,通过生成对抗思想,对抗交替训练,得到不仅语义正确而且表述自然的语句,提高了语句的可读性、理解性同时提高了方法的实用性;
(2)使用利用语句全局-局部信息的解码器以及重构器,充分利用视频信息以及语句信息,提高生成语句包含信息的完整度、丰富度;
(3)采用增强学习的损失以及蒙特卡洛采样,能够得到每个单词或文字的得分,除了考虑语句整体得分还考虑了语句中每个单词的得分倾向,有助于有针对性的区分不同单词的积极性以及消极性,提高描述的准确性以及自然性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的生成对抗网络示意图;
图3为第一个实施例的预训练时生成器;
图4为第一个实施例的预训练时判别器;
图5为第一个实施例的对抗训练时生成对抗网络示意图;
图6为第一个实施例的实际使用阶段的编码器和解码器。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了基于生成对抗网络的视频描述方法;
如图6所示,基于生成对抗网络的视频描述方法,包括:
S101:获取待描述视频;
S102:将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
作为一个或多个实施例,如图2所示,所述生成对抗网络,包括:相互连接的生成器和判别器;
所述生成器,包括依次连接的编码器、解码器和重构器;
所述编码器包括串联的第一深度卷积神经网络和第一双向循环神经网络;第一双向循环神经网络的输出端与解码器连接;
所述解码器包括串联的第一循环神经网络和第二循环神经网络;第二循环神经网络的输出端与重构器连接。
所述判别器,包括并联的第一分支和第二分支,所述第一分支包括串联的第二深度卷积神经网络和第二双向循环神经网络,所述第二分支包括第三循环神经网络;
所述第二双向循环神经网络的输出端和第三循环神经网络的输出端均与内积单元的输入端连接;内积单元的输出端与二分类器的输入端连接,二分类器的输出端用于输出判别器的判别结果。
作为一个或多个实施例,如图1所示,所述训练好的生成对抗网络,具体训练步骤包括:
S1021:对生成器单独进行训练,得到单独训练好的生成器;
S1022:对判别器单独进行训练,得到单独训练好的判别器;
S1023:将单独训练好的生成器和单独训练好的判别器进行连接,得到初始化生成对抗网络;对初始化生成对抗网络进行训练,得到训练好的生成对抗网络。
作为一个或多个实施例,如图3所示,所述S1021中,对生成器单独进行训练,得到训练好的生成器;具体步骤包括:
S10211:构建训练集;所述训练集,包括:若干个训练视频,每个训练视频均设有已知的描述语句;
S10212:对训练视频进行采样,得到训练帧;将得到的训练帧,通过第一深度卷积神经网络进行空间特征提取,得到空间特征;
S10213:生成器的第一双向循环神经网络对空间特征进行特征提取,得到带有视频时序信息的第一视觉特征向量;
S10214:解码器的第一循环神经网络对已知的描述语句进行处理得到已知描述语句的特征,解码器的第二循环神经网络对已知描述语句的特征和第一视觉特征向量进行处理,得到生成的描述语句;
计算生成的描述语句与已知描述语句之间的第一最大似然估计值;
S10215:重构器对解码得到的描述语句进行重构,生成视频向量;
计算生成视频向量与第一视觉特征向量之间的第二最大似然估计值;
S10216:对第一最大似然估计值与第二最大似然估计值进行求和,当求和结果小于设定阈值时,停止训练,得到单独训练好的生成器;否则,返回S10212继续训练。
作为一个或多个实施例,如图4所示,所述S1022中,对判别器单独进行训练,得到训练好的判别器;具体步骤包括:
S10221:构建训练集;所述训练集,包括:两类数据集,第一类数据集是已知描述语句的训练视频,第一类数据集的标签为真;第二类数据集是将训练视频输入到单独训练好的生成器中,单独训练好的生成器生成描述语句,第二类数据集的标签为假;将第一类数据集与第二类数据集进行混合,混合后的数据集即为判别器训练集;
S10222:对判别器训练集中的视频进行随机采样,得到训练帧;将得到的训练帧,通过第二深度卷积神经网络进行空间特征提取,得到空间特征;
第二双向循环神经网络对空间特征进行特征提取,得到带有视频时序信息的第二视觉特征向量;
S10223:第三循环神经网络对判别器训练集的描述语句进行语句特征提取,获取第一语句特征向量;
S10224:将第二视觉特征向量与第一语句特征向量通过内积的形式进行融合,得到第一融合判别向量;
S10225:将第一融合判别向量输入到二分类器中,当二分类器的判断误差小于设定阈值时,停止训练,得到单独训练好的判别器。
作为一个或多个实施例,如图5所示,所述S1023中,将单独训练好的生成器和单独训练好的判别器进行连接,得到初始化生成对抗网络;对初始化生成对抗网络进行训练,得到训练好的生成对抗网络;具体步骤包括:
S10231:将单独训练好的生成器和单独训练好的判别器进行连接,连接时是将二分类器的输出端与解码器连接;
S10232:构建训练集;所述训练集,包括:若干个训练视频,每个训练视频均设有已知的描述语句;
S10233:将训练集输入到初始化生成对抗网络中,初始化生成对抗网络的编码器对训练视频进行视觉特征提取,输出第三视觉特征向量;初始化生成对抗网络的解码器对第三视觉特征向量进行解码,得到虚拟描述语句;
S10234:将虚拟描述语句与训练集已知的描述语句均输入到二分类器中,二分类器输出分类器结果,当二分类器的判别误差低于设定阈值时,停止训练,此时对应的初始化生成对抗网络即为训练好的生成对抗网络;否则,返回S10233,继续训练。
应理解的,对生成器单独进行训练,得到单独训练好的生成器,是提取采样得到的视频帧的特征,编码视频的语义信息和时序信息,用更抽象的高层特征向量表示视频;解码编码得到的视频向量,解码得到描述语句;根据解码得到的语句重构生成视频向量;
应理解的,对判别器单独进行训练,得到单独训练好的判别器,是判别一对视频-语句对是来自于标注数据集还是生成的数据,并给出评分;
应理解的,对初始化生成对抗网络进行训练,得到训练好的生成对抗网络,对抗训练,基于对抗思想,生成描述与判别视频-语句对真实性交替训练,得到语义正确以及表述自然的描述语句。
应理解的,对生成器单独进行训练,得到单独训练好的生成器,具体过程为:
步骤(1.1):提取采样得到的视频帧的特征,编码视频的语义信息和时序信息,用更抽象的高层特征向量表示视频;
步骤(1.2):解码步骤(1.1)编码得到的视频向量,解码得到描述语句,解码部分基于两层循环神经网络构成,充分利用描述语句的全局-局部信息;
步骤(1.3):根据步骤(1.2)解码得到的语句重构生成视频向量,通过使重构生成的视频向量与原始的视频特征向量一致,迫使编码解码阶段可以包含更多信息。
所述步骤(1.1)的具体过程为:
步骤(1.1.1):等间隔采样视频获得多帧视频图像,编码视频的语义信息和时序信息,用抽象的高层特征向量表示视频。在每段短视频中等间隔采样n帧,每帧图像调整为统一大小c像素*c像素。
采用深度卷积神经网络采样得到帧的特征,卷积神经网络模型可以选择InceptionV4网络,并将最后一层全局池化层特征作为帧的语义特征{v1,v2,…,vn},其中n表示采样得到的帧的数目;
步骤(1.1.2):将步骤(1.1.1)中得到的帧特征按顺序送入双向循环神经网络中,使用双向循环网络同时捕获视频前序和后序的时间信息,得到带有视频时序信息的视觉特征{f1,f2,…,fn}。
所述步骤(1.2)的具体过程为:
步骤(1.2.1):设计充分利用描述语句全局和局部信息的解码器,结合视频信息,解码得到描述语句,提高生成描述语句的正确性。利用底层(第一层)循环神经网络提取描述语句中的局部信息,即包含的单个单词或文字的信息,同时将底层循环神经网络的输出单元
Figure BDA0002486156130000095
保存并传递到下一层循环神经网络进行利用:
Figure BDA0002486156130000091
其中,g1为底层循环神经网络函数,yt为t时刻输入单词或文字的分布式向量表示;
步骤(1.2.2):将步骤(1.1)中编码得到的视频信息结合注意力机制传递到解码器中进行利用,根据注意力机制学习到的权重,在解码的每个时刻,加权平均当前视频的视频帧向量,得到针对当前时刻的视频上下文特征Ft
Figure BDA0002486156130000092
其中,
Figure BDA0002486156130000093
为学习到的t时刻第i帧视频的权重;
步骤(1.2.3):顶层(第二层)循环神经网络同时考虑文字的全局序列信息以及视频上下文特征。步骤(1.2.1)得到的底层循环神经网络的输出隐藏单元与步骤(1.2.2)得到的视频上下文特征级联,作为顶层循环神经网络的输入,输出单元记为
Figure BDA0002486156130000094
Figure BDA0002486156130000101
其中,g2为顶层循环神经网络函数。顶层解码器每个时刻的输出紧跟着一个全连接层,结果作为映射到每个单词或者文字的概率,选择最大概率的单词或文字作为结果。
在训练时,标注的描述语句中的单词或文字作为每时刻的输入;在推测时,模型上一时刻生成的单词或者文字作为当前时刻的输入。
所述步骤(1.3)的具体过程为:
将根据视频解码生成的描述语句重构为视频特征。这一步骤可以视为简单的视频生成任务,以解码阶段的输出作为重构阶段的输入,重新生成视频向量,通过使重构生成的视频向量与原始的视频特征向量一致,即通过最大似然估计损失函数训练使得生成的视频向量与原始视频特征向量欧几里得距离尽量小,迫使编码解码阶段可以包含更多信息。为了减少计算量,可以使用一个简单的双层循环神经网络结合注意力机制完成重构。
应理解的,对判别器单独进行训练,得到单独训练好的判别器的具体过程为:
步骤(2.1):从标注的数据以及方法生成的数据中采样一对视频-描述语句对。等间隔采样视频获得多帧视频图像,采用深度卷积神经网络提采样得到的帧的特征,卷积神经网络模型可以选择InceptionV4网络,并将最后一层全局池化层特征作为帧的语义特征。将得到的帧特征按顺序送入双向循环神经网络中,使用双向循环网络同时捕获视频前序和后序的时间信息,最后时刻的输出隐藏单元作为当前视频的特征表示
Figure BDA0002486156130000102
步骤(2.2):采用循环神经网络将描述语句进行编码,同样采用最后时刻的输出隐藏单元作为当前描述语句的特征表示
Figure BDA0002486156130000103
得到与视频特征表示相同维度的描述语句特征表示;
步骤(2.3):步骤(2.1)与步骤(2.2)得到的视频和描述语句的特征向量做内积得到视频和描述语句对的融合判别特征向量。实现一个二分类器,对融合判别特征向量采用全连接网络进行二分类,判断一对视频-描述语句对是来自标注的数据还是方法生成的数据,来自于标注的数据则视为真,由方法生成的数据则视为假,并为这对视频-语句对属于真的概率评分。训练目标为:
LD=log P(l|(V,·)) (4)
其中,l为标注标签,(V,·)为采样的视频-描述语句对。
其目的则是通过区分标注的数据还是方法生成的数据的视频-语句对来使得方法关注于自身所生成描述语句与标注的语句的差别之处。
应理解的,对初始化生成对抗网络进行训练,得到训练好的生成对抗网络,的具体过程为:
步骤(3.1):根据视频生成描述语句部分,先以最大似然估计作为损失函数进行预训练,得到通顺的描述语句,在本发明中通过生成的描述语句的CIDEr得分超过设定的阈值视为达到目标;
步骤(3.2):预训练判别部分,实现基本的判别能力,在本发明中通过判别的正确率超过设定的阈值视为具备基本判别能力;
步骤(3.3):在本方法中采用增强学习的方法进行训练。生成部分视为“代理”,判别部分作为“环境”做出评分作为奖励值影响“代理”的“动作”。组成描述语句的每一个单词或文字都要经过判别阶段计算得到每个单词或文字的得分作为奖励值。由于判别阶段只能接受视频和完整的语句对,因此针对t时刻生成单词的奖励值,将t时刻前所生成的序列作为前缀,后序由蒙特卡洛采样补充完整为完整的描述语句,得到评分作为t时刻单词的奖励值;
步骤(3.4):采用对抗思想,交替训练生成部分以及判别部分,生成部分的目标是总奖励值提高,训练目标即:
Figure BDA0002486156130000111
其中,Y1:t-1为时间t之前生成的单词组成的部分句子,Qt为t时刻单词的奖励值。判别部分的目标是判别准确率提高,通过两阶段对抗训练得到与真实分布无法区分的生成样本,达到生成语义正确以及表述自然的描述语句的目的。
本发明公开了一种基于生成对抗网络的视频描述方法及系统,包括以下步骤:步骤(1):提取采样得到的视频帧的特征,编码视频的语义信息和时序信息,用更抽象的高层特征向量表示视频;解码编码得到的视频向量,解码得到描述语句,解码部分基于两层循环神经网络构成,充分利用描述语句的全局-局部信息;根据解码得到的语句重构生成视频向量,迫使编码解码阶段可以包含更多信息;步骤(2):判别一对视频-语句对是来自于标注数据集还是由方法生成,并给出评分;步骤(3):对抗训练,基于对抗思想,生成描述语句与判别视频-语句对真实性交替训练,得到语义正确以及表述自然的描述语句。本发明还涉及一种基于生成对抗网络的视频描述系统,包括生成器模块,判别器模块和对抗训练模块。本发明基于生成对抗网络的视频描述方法,通过生成对抗思想,对抗交替训练,得到不仅语义正确而且表述自然的语句,提高了语句的可读性、理解性同时提高了方法的实用性。
实施例二
本实施例提供了基于生成对抗网络的视频描述系统;
基于生成对抗网络的视频描述系统,包括:
获取模块,其被配置为:获取待描述视频;
输出模块,其被配置为:将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
此处需要说明的是,上述获取模块和输出模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.基于生成对抗网络的视频描述方法,其特征是,包括:
获取待描述视频;
将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
2.如权利要求1所述的方法,其特征是,所述生成对抗网络,包括:相互连接的生成器和判别器;
所述生成器,包括依次连接的编码器、解码器和重构器;
所述编码器包括串联的第一深度卷积神经网络和第一双向循环神经网络;第一双向循环神经网络的输出端与解码器连接;
所述解码器包括串联的第一循环神经网络和第二循环神经网络;第二循环神经网络的输出端与重构器连接。
3.如权利要求2所述的方法,其特征是,所述判别器,包括并联的第一分支和第二分支,所述第一分支包括串联的第二深度卷积神经网络和第二双向循环神经网络,所述第二分支包括第三循环神经网络;
所述第二双向循环神经网络的输出端和第三循环神经网络的输出端均与内积单元的输入端连接;内积单元的输出端与二分类器的输入端连接,二分类器的输出端用于输出判别器的判别结果。
4.如权利要求1所述的方法,其特征是,所述训练好的生成对抗网络,具体训练步骤包括:
对生成器单独进行训练,得到单独训练好的生成器;
对判别器单独进行训练,得到单独训练好的判别器;
将单独训练好的生成器和单独训练好的判别器进行连接,得到初始化生成对抗网络;对初始化生成对抗网络进行训练,得到训练好的生成对抗网络。
5.如权利要求4所述的方法,其特征是,对生成器单独进行训练,得到训练好的生成器;具体步骤包括:
构建训练集;所述训练集,包括:若干个训练视频,每个训练视频均设有已知的描述语句;
对训练视频进行采样,得到训练帧;将得到的训练帧,通过第一深度卷积神经网络进行空间特征提取,得到空间特征;
生成器的第一双向循环神经网络对空间特征进行特征提取,得到带有视频时序信息的第一视觉特征向量;
解码器的第一循环神经网络对已知的描述语句进行处理得到已知描述语句的特征,解码器的第二循环神经网络对已知描述语句的特征和第一视觉特征向量进行处理,得到生成的描述语句;
计算生成的描述语句与已知描述语句之间的第一最大似然估计值;
重构器对解码得到的描述语句进行重构,生成视频向量;
计算生成视频向量与第一视觉特征向量之间的第二最大似然估计值;
对第一最大似然估计值与第二最大似然估计值进行求和,当求和结果小于设定阈值时,停止训练,得到单独训练好的生成器;否则,继续训练。
6.如权利要求4所述的方法,其特征是,对判别器单独进行训练,得到训练好的判别器;具体步骤包括:
构建训练集;所述训练集,包括:两类数据集,第一类数据集是已知描述语句的训练视频,第一类数据集的标签为真;第二类数据集是将训练视频输入到单独训练好的生成器中,单独训练好的生成器生成描述语句,第二类数据集的标签为假;将第一类数据集与第二类数据集进行混合,混合后的数据集即为判别器训练集;
对判别器训练集中的视频进行随机采样,得到训练帧;将得到的训练帧,通过第二深度卷积神经网络进行空间特征提取,得到空间特征;
第二双向循环神经网络对空间特征进行特征提取,得到带有视频时序信息的第二视觉特征向量;
第三循环神经网络对判别器训练集的描述语句进行语句特征提取,获取第一语句特征向量;
将第二视觉特征向量与第一语句特征向量通过内积的形式进行融合,得到第一融合判别向量;
将第一融合判别向量输入到二分类器中,当二分类器的判断误差小于设定阈值时,停止训练,得到单独训练好的判别器。
7.如权利要求4所述的方法,其特征是,将单独训练好的生成器和单独训练好的判别器进行连接,得到初始化生成对抗网络;对初始化生成对抗网络进行训练,得到训练好的生成对抗网络;具体步骤包括:
将单独训练好的生成器和单独训练好的判别器进行连接,连接时是将二分类器的输出端与解码器连接;
构建训练集;所述训练集,包括:若干个训练视频,每个训练视频均设有已知的描述语句;
将训练集输入到初始化生成对抗网络中,初始化生成对抗网络的编码器对训练视频进行视觉特征提取,输出第三视觉特征向量;初始化生成对抗网络的解码器对第三视觉特征向量进行解码,得到虚拟描述语句;
将虚拟描述语句与训练集已知的描述语句均输入到二分类器中,二分类器输出分类器结果,当二分类器的判别误差低于设定阈值时,停止训练,此时对应的初始化生成对抗网络即为训练好的生成对抗网络;否则,继续训练。
8.基于生成对抗网络的视频描述系统,其特征是,包括:
获取模块,其被配置为:获取待描述视频;
输出模块,其被配置为:将待描述视频输入到训练好的生成对抗网络中,训练好的生成对抗网络生成器的编码器提取带有视频时序信息的视觉特征,生成器的解码器对所述视觉特征进行解码,输出待描述视频的描述语句。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述权利要求1-7任一项所述的方法。
CN202010392029.4A 2020-05-11 2020-05-11 基于生成对抗网络的视频描述方法及系统 Active CN111639547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010392029.4A CN111639547B (zh) 2020-05-11 2020-05-11 基于生成对抗网络的视频描述方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010392029.4A CN111639547B (zh) 2020-05-11 2020-05-11 基于生成对抗网络的视频描述方法及系统

Publications (2)

Publication Number Publication Date
CN111639547A true CN111639547A (zh) 2020-09-08
CN111639547B CN111639547B (zh) 2021-04-30

Family

ID=72331969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010392029.4A Active CN111639547B (zh) 2020-05-11 2020-05-11 基于生成对抗网络的视频描述方法及系统

Country Status (1)

Country Link
CN (1) CN111639547B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883222A (zh) * 2020-09-28 2020-11-03 平安科技(深圳)有限公司 文本数据的错误检测方法、装置、终端设备及存储介质
CN112560454A (zh) * 2020-12-22 2021-03-26 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备
CN113569068A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596265A (zh) * 2018-05-02 2018-09-28 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN109242090A (zh) * 2018-08-28 2019-01-18 电子科技大学 一种基于gan网络的视频描述及描述一致性判别方法
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN109871736A (zh) * 2018-11-23 2019-06-11 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
KR20190080415A (ko) * 2017-12-28 2019-07-08 주식회사 엔씨소프트 이미지 생성 시스템 및 방법
CN110135567A (zh) * 2019-05-27 2019-08-16 中国石油大学(华东) 基于多注意力生成对抗网络的图像字幕生成方法
US20200019642A1 (en) * 2018-07-12 2020-01-16 International Business Machines Corporation Question Answering Using Trained Generative Adversarial Network Based Modeling of Text
CN110717421A (zh) * 2019-09-25 2020-01-21 北京影谱科技股份有限公司 一种基于生成对抗网络的视频内容理解方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
KR20190080415A (ko) * 2017-12-28 2019-07-08 주식회사 엔씨소프트 이미지 생성 시스템 및 방법
CN108596265A (zh) * 2018-05-02 2018-09-28 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
US20200019642A1 (en) * 2018-07-12 2020-01-16 International Business Machines Corporation Question Answering Using Trained Generative Adversarial Network Based Modeling of Text
CN109242090A (zh) * 2018-08-28 2019-01-18 电子科技大学 一种基于gan网络的视频描述及描述一致性判别方法
CN109871736A (zh) * 2018-11-23 2019-06-11 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN110135567A (zh) * 2019-05-27 2019-08-16 中国石油大学(华东) 基于多注意力生成对抗网络的图像字幕生成方法
CN110717421A (zh) * 2019-09-25 2020-01-21 北京影谱科技股份有限公司 一种基于生成对抗网络的视频内容理解方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHIYANG YAN等: "Image Captioning using Adversarial Networks and Reinforcement Learning", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
SOHEYLA AMIRIAN等: "Image Captioning with Generative Adversarial Network", 《2019 INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELLIGENCE (CSCI)》 *
王柏瑞: "基于重构特征的视频语义描述生成方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王福伟: "基于生成对抗网络的图像描述生成模型", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883222A (zh) * 2020-09-28 2020-11-03 平安科技(深圳)有限公司 文本数据的错误检测方法、装置、终端设备及存储介质
CN111883222B (zh) * 2020-09-28 2020-12-22 平安科技(深圳)有限公司 文本数据的错误检测方法、装置、终端设备及存储介质
CN112560454A (zh) * 2020-12-22 2021-03-26 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备
CN112560454B (zh) * 2020-12-22 2023-06-13 广东工业大学 双语图像字幕生成方法、系统、储存介质及计算机设备
CN113569068A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN113569068B (zh) * 2021-01-19 2023-09-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置

Also Published As

Publication number Publication date
CN111639547B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
Guo et al. Dense Temporal Convolution Network for Sign Language Translation.
CN111639547B (zh) 基于生成对抗网络的视频描述方法及系统
Gafni et al. Make-a-scene: Scene-based text-to-image generation with human priors
Qiao et al. Mirrorgan: Learning text-to-image generation by redescription
US20220014807A1 (en) Method, apparatus, device and medium for generating captioning information of multimedia data
US10542270B2 (en) Dense video captioning
Dong et al. I2t2i: Learning text to image synthesis with textual data augmentation
Wang et al. Convolutional auto-encoding of sentence topics for image paragraph generation
CN112257437B (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN111428593A (zh) 一种文字识别方法、装置、电子设备及存储介质
CN109871736B (zh) 自然语言描述信息的生成方法及装置
CN113361489B (zh) 基于解耦表示的人脸正面化模型构建方法和训练方法
CN113987129A (zh) 基于变分自动编码器的数字媒体保护文本隐写方法
CN113392822A (zh) 基于特征分离表征学习的面部运动单元检测方法及系统
CN115908991A (zh) 基于特征融合的图像描述模型方法、系统、设备及介质
CN114398505A (zh) 目标词语的确定方法、模型的训练方法、装置及电子设备
CN110688949B (zh) 字体识别方法和装置
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN115661710A (zh) 一种视频描述生成方法、装置及存储介质
Zheng et al. Learning high-level prior with convolutional neural networks for semantic segmentation
CN114598926B (zh) 一种视频生成方法、装置、电子设备及存储介质
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
Vo et al. Paired-d gan for semantic image synthesis
CN114694065A (zh) 视频处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant