CN111368142B - 一种基于生成对抗网络的视频密集事件描述方法 - Google Patents

一种基于生成对抗网络的视频密集事件描述方法 Download PDF

Info

Publication number
CN111368142B
CN111368142B CN202010296654.9A CN202010296654A CN111368142B CN 111368142 B CN111368142 B CN 111368142B CN 202010296654 A CN202010296654 A CN 202010296654A CN 111368142 B CN111368142 B CN 111368142B
Authority
CN
China
Prior art keywords
video
time sequence
discriminator
natural
event description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010296654.9A
Other languages
English (en)
Other versions
CN111368142A (zh
Inventor
李玉华
朱志杰
李瑞轩
辜希武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010296654.9A priority Critical patent/CN111368142B/zh
Publication of CN111368142A publication Critical patent/CN111368142A/zh
Application granted granted Critical
Publication of CN111368142B publication Critical patent/CN111368142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于生成对抗网络的视频密集事件描述方法,属于深度学习和图像识别领域。包括:构建视频密集事件描述网络;该网络包括:视频特征提取模块,对视频帧进行特征提取,得到视频帧特征;时序动作特征提取模块,利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;自然语言编码器,利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;鉴别器,强化自然语句的准确性;利用训练好的视频密集事件描述模型进行视频密集事件描述。本发明充分考虑了视频双向传播的特点,同时学习自然语句生成时充分利用了视频特征及时序动作特征,并构建语法鉴别器与内容鉴别器,有效强化了自然语句准确性。

Description

一种基于生成对抗网络的视频密集事件描述方法
技术领域
本发明属于深度学习和图像识别领域,更具体地,涉及一种基于生成对抗网络的视频密集事件描述方法。
背景技术
近几年来,随着高清视频监控的逐步推广普及、短视频社交软件及直播软件等视频app的火爆发展,视频的数据爆炸式上升。而如何对这些海量的视频数据进行智能化分析,也成为视觉分析领域的一大热点。一般来说,视频密集事件描述算法是针对一个视频进行多个描述,包括三个部分,一是视频特征提取,二是视频时序动作检测,三是视频描述生成。
其中,视频描述生成任务是为视频生成相对应的自然语言描述,目前主流的方法有语言模板的描述生成和基于序列学习的描述生成两种方法。基于语言模板的描述生成需要提前设置好语言模板,通过得到关键字配合对应模板来生成句子序列。Rohrbach A.等人便使用了这种方法,首先通过two-steps来获得固定的主语、宾语、动词等关键字,在搭配设定好的语言模板来生成句子描述。基于序列学习的描述生成方法是Venugopalan S.等人先提出的,其使用卷积神经网络(Convolutional Neural Networks,CNN)来提取全部视频帧特征,之后平均池化后送入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中,生成自然语言描述。该方法直接平均所有视频帧特征,并未考虑到视频的时序等特征。鉴于上述缺点,视频序列转文字序列(Sequence to Squence:video to text,S2VT)算法则是将每一帧视频特征利用LSTM网络进行编码,之后再将时序特征送入到LSTM解码器中生成自然语言描述,使得句子的生成考虑到了视频的时序特征,从而提高了生成句子的效果。
但是,现有的视频描述生成任务大部分仅考虑了视频时序的特征,却忽略了时序动作检测所涵盖的特征;同时现有的视频描述生成模型中,对生成的句子并没有很好的模型来判断生成的句子是否符合语法以及贴切事件本身,因此需要设计一个好的网络模型来解决以上问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于生成对抗网络的视频密集事件描述方法,其目的在于提高视频密集事件描述的准确性。
为实现上述目的,本发明提供了一种基于生成对抗网络的视频密集事件描述方法,包括:
S1.构建视频密集事件描述网络;所述视频密集事件描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;
所述视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;所述时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;所述自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;
S2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视频密集事件描述模型;
S3.将待描述的视频输入训练好的视频密集事件描述模型,得到视频密集事件描述结果。
进一步地,所述视频特征提取模块由多个交替连接的三维卷积网络与池化层构成。
进一步地,所述时序动作特征提取模块采用时序分析模型。
进一步地,所述利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征,具体包括:
01.将视频帧特征输入至时序分析模型,得到正向时序特征EF={e1,e2…,en};其中,n表示视频帧特征数;
02.将视频帧特征逆向后,输入至时序分析模型,得到反向时序特征Eb={e′1,e′2…,e′n};
03.由Etotal=Ef+Eb得到视频整体的时序动作特征;
04.将视频整体的时序动作特征Etotal输入至全连接层,得到以时间节点t为终点的k个尺度的区间置信度{p1,p2…,pk};其中,k为以时间节点t为终点的时间区间的个数;
05.通过设定的阈值筛选出置信度高的区间,得到L个时序动作特征V={v1,v2,v3,…vL};其中,
Figure GDA0004196934950000031
j=1,…,L,i=1,…,k,/>
Figure GDA0004196934950000032
为设定的阈值,Z={z1,z2…,zL}表示L个时序动作特征对应的视频帧特征。
进一步地,所述利用注意力机制融合视频帧特征与时序动作特征,得到自然语句,具体包括,
采用以下公式融合视频帧特征与时序动作特征;
M=σ(WzZ+bz)+σ(WvV+bv)
其中,Wz与Wv是视频帧特征与时序动作特征的权重参数,σ(·)为非线性激活函数,M表示融合特征,bz与bv表示需要学习的偏置值;
将融合特征输入至自然语言解码器,得到对应时序动作的自然语句。
进一步地,所述鉴别器包括语法鉴别器和内容鉴别器;其中,语法鉴别器对自然语句进行评分,以鉴别生成的自然语句是否规范;内容鉴别器对自然语句进行评分,以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切;综合上述评分得到自然语句的准确度评分。
进一步地,上述自然语句的准确度评分方法具体为:
通过DV=p1s1+p2s2得到内容鉴别器的评分;其中,s1,s2分别表示视频帧特征与时序动作特征的评分;p1,p2分别表示视频帧特征与时序动作特征的评分的权值;
通过DL=σ(WLh+bL)得到语法鉴别器的评分;其中,WL,bL为要学习的参数,h为将自然语句特征送入循环神经网络中得到的最后的隐藏层信息;
通过SD=a1Dv+a2DL得到自然语句的最终评分;其中,a1、a2分别是语法鉴别器和内容鉴别器评分的权值,a1+a2=1,且a1,a2>0。
进一步地,对所述视频密集事件描述网络进行迭代训练,具体包括:
将自然语言输入至鉴别器得到对应的评分SD,通过梯度优化算法强化鉴别器的网络参数使得评分SD变低,再将真实的自然语句执行同样的步骤,但通过损失函数强化鉴别器的网络参数使得评分SD变高;
将自然语言输入至鉴别器得到对应的评分SD,并通过梯度优化算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分SD变高;
依次执行上述步骤作为一次迭代,重复该迭代至设定的次数,得到训练好的视频密集事件描述模型。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明所提供的基于生成对抗网络的视频密集事件描述方法,通过视频的前向传播与反向传播来得到事件的特征信息,相比传统的方法仅利用前向传播的特点来预测事件的结束时间,本发明中同时利用了视频的反向传播,进而能够更准确的捕捉事件的特征信息,为之后的自然语句生成提供便利。
(2)本发明所提供的基于生成对抗网络的视频密集事件描述方法,自然语句自动编码器不仅仅输入事件特征,而且结合了视频内容特征,通过注意力机制来得到每一个时间节点的所需要输入的数据,能够使每一个输出的字其不仅能够学习到事件的特征,同时能够学习到与这个事件相关的视频的特征,从而能够让自动编码器输出的结果更加的准确。
(3)本发明所提供的基于生成对抗网络的视频密集事件描述方法,利用了生成对抗网络算法的核心思想,建立了语法鉴别器与内容鉴别器来对自动编码器生成的自然语句进行评分,这两个鉴别器任务不同,其中,内容鉴别器是针对句子是否和视频内容、事件内容所匹配;语法鉴别器则是针对句子本身的语法是否正确。这样做能够更加有效的让生成的自然语句贴近真实的自然语句;且在训练过程中,依次训练鉴别器与生成器,使得两者进行对抗训练,最终能够让生成器达到最好的生成效果。
附图说明
图1为本发明实施例提供的视频密集事件描述方法流程示意图;
图2为本发明实施例提供的视频密集事件描述模型中时序动作特征提取模块的结构图
图3为本发明实施例提供的视频密集事件描述模型中自然语言编码器的结构图;
图4为本发明实施例提供的鉴别器的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为达到本发明的目的,本发明所采用的技术方案是:结合视频事件的特点和深度学习算法,设计一种能够描述视频密集事件的神经网络模型。利用三维卷积网络(Convolutional 3Dimension Networks,C3D)来提取视频内容本身的空间和时序特征,从而得到关于每一帧关于视频内容的特征。利用视频前向转播和反向传播的特点,通过LSTM时序模型来串联所提取的视频内容特征,得到多个事件候选集,并通过阈值筛选与非极大值抑制的方法得到高质量的候选集。同时通过自动解码器对事件特征进行解码,得到对应的自然语句。最后分别利用内容鉴别器和语法鉴别器来鉴别所生成的自然语句,从而提高生成模型的正确率。
如图1所示,本发明实施例提供了一种基于生成对抗网络的视频密集事件描述方法,包括:
S1.构建视频密集事件描述网络;视频密集事件描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;
具体地,本发明中视频特征提取模块由多个交替连接的三维卷积网络与池化层构成;时序动作特征提取模块采用LSTM时序模型,时序动作特征(也可称为事件特征)提取过程如图2所示,具体包括:
01.将视频帧特征输入至LSTM时序模型,得到正向时序特征Ef={e1,e2…,en};其中,n表示视频帧特征数;02.将视频帧特征逆向后,输入至LSTM时序模型,得到反向时序特征Eb={e′1,e′2…,e′n};03.由Etotal=Ef+Eb得到视频整体的时序动作特征;04.将视频整体的时序动作特征Etotal输入至全连接层,得到以时间节点t为终点的k个尺度的区间置信度{p1,p2…,pk};其中,k为以时间节点t为终点的时间区间的个数;05.通过设定的阈值筛选出置信度高的区间,得到L个时序动作特征V={v1,v2,v3,…vL};其中,
Figure GDA0004196934950000071
j=1,…,L,i=1,…,k,/>
Figure GDA0004196934950000072
为设定的阈值,根据视频的密集事件程度取值,本发明实施例取值0.65,Z={z1,z2…,zL}表示L个时序动作特征对应的视频帧特征。通过得到以每一个时间为事件的止点的k个区间,来保证真实的事件是包含于这些候选区间中;同时通过阈值筛选和非极大值抑制的方法来筛选出高质量的候选事件集。
本发明中自动解码器的输入不只是事件特征,同时还包括对应的视频帧特征,从而使得生成的自然语句与视频内容更加贴切,如图3所示,特征融合过程具体包括,
采用以下公式融合视频帧特征与时序动作特征;
M=σ(WzZ+bz)+σ(WvV+bv)
其中,Wz与Wv是视频帧特征与时序动作特征的权重参数,σ(·)为非线性激活函数,M表示融合特征,bz与bv表示需要学习的偏置值;
将融合特征输入至自然语言解码器LSTM,得到相对应每个时刻的隐藏层{h1,h2,……ht},通过全连接层Woneho=Dense(hi),得到每个单词的one-hot(一位有效)编码,即得到了对应时序动作的自然语句。
进一步地,本发明分别采用内容鉴别器与语法鉴别器来对生成的自然语句进行评分,这样做可以鉴别所输入的语句是否和视频内容、事件内容匹配,同时也可以保证句子本身是流畅,没有语法问题。具体地,如图4所示,鉴别器包括语法鉴别器和内容鉴别器;其中,语法鉴别器对自然语句进行评分,以鉴别生成的自然语句是否规范;内容鉴别器对自然语句进行评分,以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切;综合上述评分得到自然语句的准确度评分。具体地评分方法如下:
1)通过DV=p1s1+p2s1得到内容鉴别器的评分;
其中,s1,s2分别表示视频帧特征与时序动作特征的评分;
s1=σ(tanh(UTZ)⊙tanh(VTW))
s1=σ(tanh(UTV)⊙tanh(VTW))
其中,σ(),tanh()为非线性激活函数,⊙为哈达玛积,UT,VT是两个线性层,W为自然语句的特征。
p1,p2分别表示视频帧特征与时序动作特征的评分的权值;
Figure GDA0004196934950000081
其中,xi为要学习的参数;
2)通过DL=σ(WLh+bL)得到语法鉴别器的评分;其中,WL,bL为要学习的参数,h为将自然语句特征送入LSTM循环神经网络中得到的最后的隐藏层信息;
3)通过SD=a1Dv+a2DL得到自然语句的最终评分;其中,a1、a2分别是语法鉴别器和内容鉴别器评分的权值,a1+a1=1,且a1,a1>0。
S2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视频密集事件描述模型;
具体地,步骤S2包括:
将自然语言输入至鉴别器得到对应的评分SD,通过自适应矩估计(AMethod forStochastic Optimimzation,adam)梯度算法强化鉴别器的网络参数使得评分SD变低,再将真实的自然语句执行同样的步骤,但通过损失函数强化鉴别器的网络参数使得评分SD变高;
将自然语言输入至鉴别器得到对应的评分SD,并通过adam梯度算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分SD变高;
依次执行上述步骤作为一次迭代,重复该迭代至设定的次数,得到训练好的视频密集事件描述模型。
S3.将待描述的视频输入训练好的视频密集事件描述模型,得到视频密集事件描述结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于生成对抗网络的视频密集事件描述方法,其特征在于,包括:
S1.构建视频密集事件描述网络;所述视频密集事件描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;
所述视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;所述时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;所述自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;
S2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视频密集事件描述模型;
S3.将待描述的视频输入训练好的视频密集事件描述模型,得到视频密集事件描述结果;
其中,所述利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征,具体包括:
01.将视频帧特征输入至时序分析模型,得到正向时序特征Ef={e1,e2…,en};其中,n表示视频帧特征数;
02.将视频帧特征逆向后,输入至时序分析模型,得到反向时序特征Eb={e′1,e′2…,e′n};
03.由Etotal=Ef+Eb得到视频整体的时序动作特征;
04.将视频整体的时序动作特征Etotal输入至全连接层,得到以时间节点t为终点的k个尺度的区间置信度{p1,p2…,pk};其中,k为以时间节点t为终点的时间区间的个数;
05.通过设定的阈值筛选出置信度高的区间,得到L个时序动作特征V={v1,v2,v3,…vL};其中,
Figure FDA0004196934940000021
Figure FDA0004196934940000022
为设定的阈值,Z={z1,z2…,zL}表示L个时序动作特征对应的视频帧特征。
2.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述视频特征提取模块由多个交替连接的三维卷积网络与池化层构成。
3.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述时序动作特征提取模块采用时序分析模型。
4.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述利用注意力机制融合视频帧特征与时序动作特征,得到自然语句,具体包括,
采用以下公式融合视频帧特征与时序动作特征;
M=σ(WzZ+bz)+σ(WvV+bv)
其中,Wz与Wv是视频帧特征与时序动作特征的权重参数,σ(·)为非线性激活函数,M表示融合特征,bz与bv表示需要学习的偏置值;
将融合特征输入至自然语言解码器,得到对应时序动作的自然语句。
5.根据权利要求1-4任一项所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述鉴别器包括语法鉴别器和内容鉴别器;其中,语法鉴别器对自然语句进行评分,以鉴别生成的自然语句是否规范;内容鉴别器对自然语句进行评分,以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切;综合上述评分得到自然语句的准确度评分。
6.根据权利要求5所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,上述自然语句的准确度评分方法具体为:
通过DV=p1s1+p2s2得到内容鉴别器的评分;其中,s1,s2分别表示视频帧特征与时序动作特征的评分;p1,p2分别表示视频帧特征与时序动作特征的评分的权值;
通过DL=σ(WLh+bL)得到语法鉴别器的评分;其中,WL,bL为要学习的参数,h为将自然语句特征送入循环神经网络中得到的最后的隐藏层信息;
通过SD=a1Dv+a2DL得到自然语句的最终评分;其中,a1、a2分别是语法鉴别器和内容鉴别器评分的权值,a1+a2=1,且a1,a2>0。
7.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,对所述视频密集事件描述网络进行迭代训练,具体包括:
将自然语言输入至鉴别器得到对应的评分SD,通过梯度优化算法强化鉴别器的网络参数使得评分SD变低,再将真实的自然语句执行同样的步骤,但通过损失函数强化鉴别器的网络参数使得评分SD变高;
将自然语言输入至鉴别器得到对应的评分SD,并通过梯度优化算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分SD变高;
依次执行上述步骤作为一次迭代,重复该迭代至设定的次数,得到训练好的视频密集事件描述模型。
CN202010296654.9A 2020-04-15 2020-04-15 一种基于生成对抗网络的视频密集事件描述方法 Active CN111368142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010296654.9A CN111368142B (zh) 2020-04-15 2020-04-15 一种基于生成对抗网络的视频密集事件描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010296654.9A CN111368142B (zh) 2020-04-15 2020-04-15 一种基于生成对抗网络的视频密集事件描述方法

Publications (2)

Publication Number Publication Date
CN111368142A CN111368142A (zh) 2020-07-03
CN111368142B true CN111368142B (zh) 2023-06-06

Family

ID=71207151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010296654.9A Active CN111368142B (zh) 2020-04-15 2020-04-15 一种基于生成对抗网络的视频密集事件描述方法

Country Status (1)

Country Link
CN (1) CN111368142B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158735B (zh) * 2021-01-20 2024-08-23 北京工业大学 一种基于图神经网络的密集事件描述方法
CN113128431B (zh) * 2021-04-25 2022-08-05 北京亮亮视野科技有限公司 视频片段检索方法、装置、介质与电子设备
CN113312980B (zh) * 2021-05-06 2022-10-14 华南理工大学 一种视频密集描述方法、装置及介质
CN114463679A (zh) * 2022-01-27 2022-05-10 中国建设银行股份有限公司 视频的特征构造方法、装置及设备
CN114679388B (zh) * 2022-02-22 2023-09-05 同济大学 一种时间敏感网络数据流量预测方法、系统及存储介质
CN114627413B (zh) * 2022-03-11 2022-09-13 电子科技大学 视频密集事件内容理解方法
CN117789099B (zh) * 2024-02-26 2024-05-28 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法
CN110287799A (zh) * 2019-05-28 2019-09-27 东南大学 基于深度学习的视频ucl语义标引方法与装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
CN109409221A (zh) * 2018-09-20 2019-03-01 中国科学院计算技术研究所 基于帧选择的视频内容描述方法和系统
US11151334B2 (en) * 2018-09-26 2021-10-19 Huawei Technologies Co., Ltd. Systems and methods for multilingual text generation field
CN110022422B (zh) * 2019-04-19 2020-02-07 吉林大学 一种基于密集连接网络的视频帧序列生成方法
CN110210358A (zh) * 2019-05-24 2019-09-06 北京大学 一种基于双向时序图的视频描述生成方法和装置
CN110418210B (zh) * 2019-07-12 2021-09-10 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法
CN110287799A (zh) * 2019-05-28 2019-09-27 东南大学 基于深度学习的视频ucl语义标引方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Mingli Xu."EADP:An extended adaptive density peaks clustering for overlapping community detection in social networks".《Neurocomputing》.2019,全文. *

Also Published As

Publication number Publication date
CN111368142A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN107844469B (zh) 基于词向量查询模型的文本简化方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN107346340A (zh) 一种用户意图识别方法及系统
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN109242090B (zh) 一种基于gan网络的视频描述及描述一致性判别方法
Wu et al. Recall what you see continually using gridlstm in image captioning
CN110069612B (zh) 一种回复生成方法及装置
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN114428850B (zh) 一种文本检索匹配方法和系统
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成系统及方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN115062139A (zh) 一种对话文本摘要模型自动搜索方法
CN110826397B (zh) 一种基于高阶低秩多模态注意力机制的视频描述方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN117235261A (zh) 一种多模态方面级情感分析方法、装置、设备及存储介质
CN114386412B (zh) 一种基于不确定性感知的多模态命名实体识别方法
CN115168678A (zh) 一种时序感知的异质图神经谣言检测模型
CN111340329B (zh) 演员评估方法、装置及电子设备
Tiwari et al. Automatic caption generation via attention based deep neural network model
CN112287690A (zh) 基于条件句子生成和跨模态重排的手语翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant