CN111368142B - 一种基于生成对抗网络的视频密集事件描述方法 - Google Patents
一种基于生成对抗网络的视频密集事件描述方法 Download PDFInfo
- Publication number
- CN111368142B CN111368142B CN202010296654.9A CN202010296654A CN111368142B CN 111368142 B CN111368142 B CN 111368142B CN 202010296654 A CN202010296654 A CN 202010296654A CN 111368142 B CN111368142 B CN 111368142B
- Authority
- CN
- China
- Prior art keywords
- video
- time sequence
- discriminator
- natural
- event description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 230000003014 reinforcing effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012300 Sequence Analysis Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000013077 scoring method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000008485 antagonism Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000002457 bidirectional effect Effects 0.000 abstract 1
- 238000005728 strengthening Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于生成对抗网络的视频密集事件描述方法,属于深度学习和图像识别领域。包括:构建视频密集事件描述网络;该网络包括:视频特征提取模块,对视频帧进行特征提取,得到视频帧特征;时序动作特征提取模块,利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;自然语言编码器,利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;鉴别器,强化自然语句的准确性;利用训练好的视频密集事件描述模型进行视频密集事件描述。本发明充分考虑了视频双向传播的特点,同时学习自然语句生成时充分利用了视频特征及时序动作特征,并构建语法鉴别器与内容鉴别器,有效强化了自然语句准确性。
Description
技术领域
本发明属于深度学习和图像识别领域,更具体地,涉及一种基于生成对抗网络的视频密集事件描述方法。
背景技术
近几年来,随着高清视频监控的逐步推广普及、短视频社交软件及直播软件等视频app的火爆发展,视频的数据爆炸式上升。而如何对这些海量的视频数据进行智能化分析,也成为视觉分析领域的一大热点。一般来说,视频密集事件描述算法是针对一个视频进行多个描述,包括三个部分,一是视频特征提取,二是视频时序动作检测,三是视频描述生成。
其中,视频描述生成任务是为视频生成相对应的自然语言描述,目前主流的方法有语言模板的描述生成和基于序列学习的描述生成两种方法。基于语言模板的描述生成需要提前设置好语言模板,通过得到关键字配合对应模板来生成句子序列。Rohrbach A.等人便使用了这种方法,首先通过two-steps来获得固定的主语、宾语、动词等关键字,在搭配设定好的语言模板来生成句子描述。基于序列学习的描述生成方法是Venugopalan S.等人先提出的,其使用卷积神经网络(Convolutional Neural Networks,CNN)来提取全部视频帧特征,之后平均池化后送入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中,生成自然语言描述。该方法直接平均所有视频帧特征,并未考虑到视频的时序等特征。鉴于上述缺点,视频序列转文字序列(Sequence to Squence:video to text,S2VT)算法则是将每一帧视频特征利用LSTM网络进行编码,之后再将时序特征送入到LSTM解码器中生成自然语言描述,使得句子的生成考虑到了视频的时序特征,从而提高了生成句子的效果。
但是,现有的视频描述生成任务大部分仅考虑了视频时序的特征,却忽略了时序动作检测所涵盖的特征;同时现有的视频描述生成模型中,对生成的句子并没有很好的模型来判断生成的句子是否符合语法以及贴切事件本身,因此需要设计一个好的网络模型来解决以上问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于生成对抗网络的视频密集事件描述方法,其目的在于提高视频密集事件描述的准确性。
为实现上述目的,本发明提供了一种基于生成对抗网络的视频密集事件描述方法,包括:
S1.构建视频密集事件描述网络;所述视频密集事件描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;
所述视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;所述时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;所述自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;
S2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视频密集事件描述模型;
S3.将待描述的视频输入训练好的视频密集事件描述模型,得到视频密集事件描述结果。
进一步地,所述视频特征提取模块由多个交替连接的三维卷积网络与池化层构成。
进一步地,所述时序动作特征提取模块采用时序分析模型。
进一步地,所述利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征,具体包括:
01.将视频帧特征输入至时序分析模型,得到正向时序特征EF={e1,e2…,en};其中,n表示视频帧特征数;
02.将视频帧特征逆向后,输入至时序分析模型,得到反向时序特征Eb={e′1,e′2…,e′n};
03.由Etotal=Ef+Eb得到视频整体的时序动作特征;
04.将视频整体的时序动作特征Etotal输入至全连接层,得到以时间节点t为终点的k个尺度的区间置信度{p1,p2…,pk};其中,k为以时间节点t为终点的时间区间的个数;
05.通过设定的阈值筛选出置信度高的区间,得到L个时序动作特征V={v1,v2,v3,…vL};其中,j=1,…,L,i=1,…,k,/>为设定的阈值,Z={z1,z2…,zL}表示L个时序动作特征对应的视频帧特征。
进一步地,所述利用注意力机制融合视频帧特征与时序动作特征,得到自然语句,具体包括,
采用以下公式融合视频帧特征与时序动作特征;
M=σ(WzZ+bz)+σ(WvV+bv)
其中,Wz与Wv是视频帧特征与时序动作特征的权重参数,σ(·)为非线性激活函数,M表示融合特征,bz与bv表示需要学习的偏置值;
将融合特征输入至自然语言解码器,得到对应时序动作的自然语句。
进一步地,所述鉴别器包括语法鉴别器和内容鉴别器;其中,语法鉴别器对自然语句进行评分,以鉴别生成的自然语句是否规范;内容鉴别器对自然语句进行评分,以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切;综合上述评分得到自然语句的准确度评分。
进一步地,上述自然语句的准确度评分方法具体为:
通过DV=p1s1+p2s2得到内容鉴别器的评分;其中,s1,s2分别表示视频帧特征与时序动作特征的评分;p1,p2分别表示视频帧特征与时序动作特征的评分的权值;
通过DL=σ(WLh+bL)得到语法鉴别器的评分;其中,WL,bL为要学习的参数,h为将自然语句特征送入循环神经网络中得到的最后的隐藏层信息;
通过SD=a1Dv+a2DL得到自然语句的最终评分;其中,a1、a2分别是语法鉴别器和内容鉴别器评分的权值,a1+a2=1,且a1,a2>0。
进一步地,对所述视频密集事件描述网络进行迭代训练,具体包括:
将自然语言输入至鉴别器得到对应的评分SD,通过梯度优化算法强化鉴别器的网络参数使得评分SD变低,再将真实的自然语句执行同样的步骤,但通过损失函数强化鉴别器的网络参数使得评分SD变高;
将自然语言输入至鉴别器得到对应的评分SD,并通过梯度优化算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分SD变高;
依次执行上述步骤作为一次迭代,重复该迭代至设定的次数,得到训练好的视频密集事件描述模型。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明所提供的基于生成对抗网络的视频密集事件描述方法,通过视频的前向传播与反向传播来得到事件的特征信息,相比传统的方法仅利用前向传播的特点来预测事件的结束时间,本发明中同时利用了视频的反向传播,进而能够更准确的捕捉事件的特征信息,为之后的自然语句生成提供便利。
(2)本发明所提供的基于生成对抗网络的视频密集事件描述方法,自然语句自动编码器不仅仅输入事件特征,而且结合了视频内容特征,通过注意力机制来得到每一个时间节点的所需要输入的数据,能够使每一个输出的字其不仅能够学习到事件的特征,同时能够学习到与这个事件相关的视频的特征,从而能够让自动编码器输出的结果更加的准确。
(3)本发明所提供的基于生成对抗网络的视频密集事件描述方法,利用了生成对抗网络算法的核心思想,建立了语法鉴别器与内容鉴别器来对自动编码器生成的自然语句进行评分,这两个鉴别器任务不同,其中,内容鉴别器是针对句子是否和视频内容、事件内容所匹配;语法鉴别器则是针对句子本身的语法是否正确。这样做能够更加有效的让生成的自然语句贴近真实的自然语句;且在训练过程中,依次训练鉴别器与生成器,使得两者进行对抗训练,最终能够让生成器达到最好的生成效果。
附图说明
图1为本发明实施例提供的视频密集事件描述方法流程示意图;
图2为本发明实施例提供的视频密集事件描述模型中时序动作特征提取模块的结构图
图3为本发明实施例提供的视频密集事件描述模型中自然语言编码器的结构图;
图4为本发明实施例提供的鉴别器的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为达到本发明的目的,本发明所采用的技术方案是:结合视频事件的特点和深度学习算法,设计一种能够描述视频密集事件的神经网络模型。利用三维卷积网络(Convolutional 3Dimension Networks,C3D)来提取视频内容本身的空间和时序特征,从而得到关于每一帧关于视频内容的特征。利用视频前向转播和反向传播的特点,通过LSTM时序模型来串联所提取的视频内容特征,得到多个事件候选集,并通过阈值筛选与非极大值抑制的方法得到高质量的候选集。同时通过自动解码器对事件特征进行解码,得到对应的自然语句。最后分别利用内容鉴别器和语法鉴别器来鉴别所生成的自然语句,从而提高生成模型的正确率。
如图1所示,本发明实施例提供了一种基于生成对抗网络的视频密集事件描述方法,包括:
S1.构建视频密集事件描述网络;视频密集事件描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;
具体地,本发明中视频特征提取模块由多个交替连接的三维卷积网络与池化层构成;时序动作特征提取模块采用LSTM时序模型,时序动作特征(也可称为事件特征)提取过程如图2所示,具体包括:
01.将视频帧特征输入至LSTM时序模型,得到正向时序特征Ef={e1,e2…,en};其中,n表示视频帧特征数;02.将视频帧特征逆向后,输入至LSTM时序模型,得到反向时序特征Eb={e′1,e′2…,e′n};03.由Etotal=Ef+Eb得到视频整体的时序动作特征;04.将视频整体的时序动作特征Etotal输入至全连接层,得到以时间节点t为终点的k个尺度的区间置信度{p1,p2…,pk};其中,k为以时间节点t为终点的时间区间的个数;05.通过设定的阈值筛选出置信度高的区间,得到L个时序动作特征V={v1,v2,v3,…vL};其中,j=1,…,L,i=1,…,k,/>为设定的阈值,根据视频的密集事件程度取值,本发明实施例取值0.65,Z={z1,z2…,zL}表示L个时序动作特征对应的视频帧特征。通过得到以每一个时间为事件的止点的k个区间,来保证真实的事件是包含于这些候选区间中;同时通过阈值筛选和非极大值抑制的方法来筛选出高质量的候选事件集。
本发明中自动解码器的输入不只是事件特征,同时还包括对应的视频帧特征,从而使得生成的自然语句与视频内容更加贴切,如图3所示,特征融合过程具体包括,
采用以下公式融合视频帧特征与时序动作特征;
M=σ(WzZ+bz)+σ(WvV+bv)
其中,Wz与Wv是视频帧特征与时序动作特征的权重参数,σ(·)为非线性激活函数,M表示融合特征,bz与bv表示需要学习的偏置值;
将融合特征输入至自然语言解码器LSTM,得到相对应每个时刻的隐藏层{h1,h2,……ht},通过全连接层Woneho=Dense(hi),得到每个单词的one-hot(一位有效)编码,即得到了对应时序动作的自然语句。
进一步地,本发明分别采用内容鉴别器与语法鉴别器来对生成的自然语句进行评分,这样做可以鉴别所输入的语句是否和视频内容、事件内容匹配,同时也可以保证句子本身是流畅,没有语法问题。具体地,如图4所示,鉴别器包括语法鉴别器和内容鉴别器;其中,语法鉴别器对自然语句进行评分,以鉴别生成的自然语句是否规范;内容鉴别器对自然语句进行评分,以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切;综合上述评分得到自然语句的准确度评分。具体地评分方法如下:
1)通过DV=p1s1+p2s1得到内容鉴别器的评分;
其中,s1,s2分别表示视频帧特征与时序动作特征的评分;
s1=σ(tanh(UTZ)⊙tanh(VTW))
s1=σ(tanh(UTV)⊙tanh(VTW))
其中,σ(),tanh()为非线性激活函数,⊙为哈达玛积,UT,VT是两个线性层,W为自然语句的特征。
p1,p2分别表示视频帧特征与时序动作特征的评分的权值;
其中,xi为要学习的参数;
2)通过DL=σ(WLh+bL)得到语法鉴别器的评分;其中,WL,bL为要学习的参数,h为将自然语句特征送入LSTM循环神经网络中得到的最后的隐藏层信息;
3)通过SD=a1Dv+a2DL得到自然语句的最终评分;其中,a1、a2分别是语法鉴别器和内容鉴别器评分的权值,a1+a1=1,且a1,a1>0。
S2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视频密集事件描述模型;
具体地,步骤S2包括:
将自然语言输入至鉴别器得到对应的评分SD,通过自适应矩估计(AMethod forStochastic Optimimzation,adam)梯度算法强化鉴别器的网络参数使得评分SD变低,再将真实的自然语句执行同样的步骤,但通过损失函数强化鉴别器的网络参数使得评分SD变高;
将自然语言输入至鉴别器得到对应的评分SD,并通过adam梯度算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分SD变高;
依次执行上述步骤作为一次迭代,重复该迭代至设定的次数,得到训练好的视频密集事件描述模型。
S3.将待描述的视频输入训练好的视频密集事件描述模型,得到视频密集事件描述结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于生成对抗网络的视频密集事件描述方法,其特征在于,包括:
S1.构建视频密集事件描述网络;所述视频密集事件描述网络包括:视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器;
所述视频特征提取模块,用于对输入视频进行帧提取,并对提取到的视频帧进行特征提取,得到视频帧特征;所述时序动作特征提取模块,用于利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征;所述自然语言编码器,用于利用注意力机制融合视频帧特征与时序动作特征,得到自然语句;所述鉴别器,用于强化自然语句的准确性;
S2.对所述视频密集事件描述网络进行迭代训练,得到训练好的视频密集事件描述模型;
S3.将待描述的视频输入训练好的视频密集事件描述模型,得到视频密集事件描述结果;
其中,所述利用视频前向传播与反向传播的特点进行视频帧特征学习,得到各个时序动作特征,具体包括:
01.将视频帧特征输入至时序分析模型,得到正向时序特征Ef={e1,e2…,en};其中,n表示视频帧特征数;
02.将视频帧特征逆向后,输入至时序分析模型,得到反向时序特征Eb={e′1,e′2…,e′n};
03.由Etotal=Ef+Eb得到视频整体的时序动作特征;
04.将视频整体的时序动作特征Etotal输入至全连接层,得到以时间节点t为终点的k个尺度的区间置信度{p1,p2…,pk};其中,k为以时间节点t为终点的时间区间的个数;
2.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述视频特征提取模块由多个交替连接的三维卷积网络与池化层构成。
3.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述时序动作特征提取模块采用时序分析模型。
4.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述利用注意力机制融合视频帧特征与时序动作特征,得到自然语句,具体包括,
采用以下公式融合视频帧特征与时序动作特征;
M=σ(WzZ+bz)+σ(WvV+bv)
其中,Wz与Wv是视频帧特征与时序动作特征的权重参数,σ(·)为非线性激活函数,M表示融合特征,bz与bv表示需要学习的偏置值;
将融合特征输入至自然语言解码器,得到对应时序动作的自然语句。
5.根据权利要求1-4任一项所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,所述鉴别器包括语法鉴别器和内容鉴别器;其中,语法鉴别器对自然语句进行评分,以鉴别生成的自然语句是否规范;内容鉴别器对自然语句进行评分,以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切;综合上述评分得到自然语句的准确度评分。
6.根据权利要求5所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,上述自然语句的准确度评分方法具体为:
通过DV=p1s1+p2s2得到内容鉴别器的评分;其中,s1,s2分别表示视频帧特征与时序动作特征的评分;p1,p2分别表示视频帧特征与时序动作特征的评分的权值;
通过DL=σ(WLh+bL)得到语法鉴别器的评分;其中,WL,bL为要学习的参数,h为将自然语句特征送入循环神经网络中得到的最后的隐藏层信息;
通过SD=a1Dv+a2DL得到自然语句的最终评分;其中,a1、a2分别是语法鉴别器和内容鉴别器评分的权值,a1+a2=1,且a1,a2>0。
7.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法,其特征在于,对所述视频密集事件描述网络进行迭代训练,具体包括:
将自然语言输入至鉴别器得到对应的评分SD,通过梯度优化算法强化鉴别器的网络参数使得评分SD变低,再将真实的自然语句执行同样的步骤,但通过损失函数强化鉴别器的网络参数使得评分SD变高;
将自然语言输入至鉴别器得到对应的评分SD,并通过梯度优化算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分SD变高;
依次执行上述步骤作为一次迭代,重复该迭代至设定的次数,得到训练好的视频密集事件描述模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296654.9A CN111368142B (zh) | 2020-04-15 | 2020-04-15 | 一种基于生成对抗网络的视频密集事件描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296654.9A CN111368142B (zh) | 2020-04-15 | 2020-04-15 | 一种基于生成对抗网络的视频密集事件描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368142A CN111368142A (zh) | 2020-07-03 |
CN111368142B true CN111368142B (zh) | 2023-06-06 |
Family
ID=71207151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010296654.9A Active CN111368142B (zh) | 2020-04-15 | 2020-04-15 | 一种基于生成对抗网络的视频密集事件描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368142B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158735B (zh) * | 2021-01-20 | 2024-08-23 | 北京工业大学 | 一种基于图神经网络的密集事件描述方法 |
CN113128431B (zh) * | 2021-04-25 | 2022-08-05 | 北京亮亮视野科技有限公司 | 视频片段检索方法、装置、介质与电子设备 |
CN113312980B (zh) * | 2021-05-06 | 2022-10-14 | 华南理工大学 | 一种视频密集描述方法、装置及介质 |
CN114463679A (zh) * | 2022-01-27 | 2022-05-10 | 中国建设银行股份有限公司 | 视频的特征构造方法、装置及设备 |
CN114679388B (zh) * | 2022-02-22 | 2023-09-05 | 同济大学 | 一种时间敏感网络数据流量预测方法、系统及存储介质 |
CN114627413B (zh) * | 2022-03-11 | 2022-09-13 | 电子科技大学 | 视频密集事件内容理解方法 |
CN117789099B (zh) * | 2024-02-26 | 2024-05-28 | 北京搜狐新媒体信息技术有限公司 | 视频特征提取方法及装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960063A (zh) * | 2018-06-01 | 2018-12-07 | 清华大学深圳研究生院 | 一种面向事件关系编码的视频中多事件自然语言描述算法 |
CN110287799A (zh) * | 2019-05-28 | 2019-09-27 | 东南大学 | 基于深度学习的视频ucl语义标引方法与装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
US9807473B2 (en) * | 2015-11-20 | 2017-10-31 | Microsoft Technology Licensing, Llc | Jointly modeling embedding and translation to bridge video and language |
CN109409221A (zh) * | 2018-09-20 | 2019-03-01 | 中国科学院计算技术研究所 | 基于帧选择的视频内容描述方法和系统 |
US11151334B2 (en) * | 2018-09-26 | 2021-10-19 | Huawei Technologies Co., Ltd. | Systems and methods for multilingual text generation field |
CN110022422B (zh) * | 2019-04-19 | 2020-02-07 | 吉林大学 | 一种基于密集连接网络的视频帧序列生成方法 |
CN110210358A (zh) * | 2019-05-24 | 2019-09-06 | 北京大学 | 一种基于双向时序图的视频描述生成方法和装置 |
CN110418210B (zh) * | 2019-07-12 | 2021-09-10 | 东南大学 | 一种基于双向循环神经网络和深度输出的视频描述生成方法 |
-
2020
- 2020-04-15 CN CN202010296654.9A patent/CN111368142B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960063A (zh) * | 2018-06-01 | 2018-12-07 | 清华大学深圳研究生院 | 一种面向事件关系编码的视频中多事件自然语言描述算法 |
CN110287799A (zh) * | 2019-05-28 | 2019-09-27 | 东南大学 | 基于深度学习的视频ucl语义标引方法与装置 |
Non-Patent Citations (1)
Title |
---|
Mingli Xu."EADP:An extended adaptive density peaks clustering for overlapping community detection in social networks".《Neurocomputing》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111368142A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN107844469B (zh) | 基于词向量查询模型的文本简化方法 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN107346340A (zh) | 一种用户意图识别方法及系统 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN105631468A (zh) | 一种基于rnn的图片描述自动生成方法 | |
CN109242090B (zh) | 一种基于gan网络的视频描述及描述一致性判别方法 | |
Wu et al. | Recall what you see continually using gridlstm in image captioning | |
CN110069612B (zh) | 一种回复生成方法及装置 | |
CN111967272B (zh) | 基于语义对齐的视觉对话生成系统 | |
CN113673535B (zh) | 一种多模态特征融合网络的图像描述生成方法 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN114339450A (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN114281954A (zh) | 一种基于关系图注意力网络的多轮对话回复生成系统及方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN115062139A (zh) | 一种对话文本摘要模型自动搜索方法 | |
CN110826397B (zh) | 一种基于高阶低秩多模态注意力机制的视频描述方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN117235261A (zh) | 一种多模态方面级情感分析方法、装置、设备及存储介质 | |
CN114386412B (zh) | 一种基于不确定性感知的多模态命名实体识别方法 | |
CN115168678A (zh) | 一种时序感知的异质图神经谣言检测模型 | |
CN111340329B (zh) | 演员评估方法、装置及电子设备 | |
Tiwari et al. | Automatic caption generation via attention based deep neural network model | |
CN112287690A (zh) | 基于条件句子生成和跨模态重排的手语翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |