CN111488807A - 基于图卷积网络的视频描述生成系统 - Google Patents

基于图卷积网络的视频描述生成系统 Download PDF

Info

Publication number
CN111488807A
CN111488807A CN202010233049.7A CN202010233049A CN111488807A CN 111488807 A CN111488807 A CN 111488807A CN 202010233049 A CN202010233049 A CN 202010233049A CN 111488807 A CN111488807 A CN 111488807A
Authority
CN
China
Prior art keywords
network
video
frame
target
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010233049.7A
Other languages
English (en)
Other versions
CN111488807B (zh
Inventor
张玥杰
肖鑫龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010233049.7A priority Critical patent/CN111488807B/zh
Publication of CN111488807A publication Critical patent/CN111488807A/zh
Application granted granted Critical
Publication of CN111488807B publication Critical patent/CN111488807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于跨媒体生成技术领域,具体为基于图卷积网络的视频描述生成系统。本发明的视频描述生成系统包括:视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络;视频特征提取网络对视频进行采样处理,获取视频特征,输出至图卷积网络;图卷积网络对视频特征根据语义关系进行重构,并输入至句子描述生成循环神经网络;句子描述生成网络根据视频重构的特征进行句子生成。本发明采用图卷积对视频中帧级序列和目标级序列特征进行重构,在生成描述语句时充分利用视频内的时序信息和语义信息,使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义,能够提高模型对视频视觉信息的理解能力,具有广泛应用价值。

Description

基于图卷积网络的视频描述生成系统
技术领域
本发明属于跨媒体生成技术领域,具体涉及基于图卷积网络的视频描述生成系统。
背景技术
在各种多模态信息处理任务中,视频描述自动生成(Video Captioning)是一项非常重要的任务,其在视频分析领域是一项基础性的研究任务。其任务为给定一段视频,计算机自动分析视频的内容,生成描述视频主要内容的语句。该任务是在图像描述自动生成任务(Image Captioning)的基础上发展而来,但视频与图像存在显著性差异,视频可被看作为多幅图像的集合,并伴随着音频信息,其特征的多样性、内容场景的复杂性都远远超出图像,因此视频描述自动生成的技术难度及挑战性也远高于图像描述生成技术。该项任务设计到人工智能的两个研究领域,计算机视觉(Compute Vision,CV)和自然语言处理(Natural Language Processing,NLP),其在两个领域搭起桥梁将它们紧密联系起来。从计算机角度出发,其理解一段视频并不能和人类分析视频一样简单。目前,图像分析对于图像的表示一般采取将其处理成一维向量,依照这种方式视频便是一组序列向量的集合,如何改进图像描述生成技术,将其转换为视频描述生成技术,这都是早期的研究方向。此外,对于视频中的多种模态信息,如何将它们合理应用以加强语句描述生成的质量,这些都区别于图像描述生成技术。
描述生成技术(Captioning)一般采用编码-解码(Encoder-Decoder)框架,编码器常采用卷积神经网络CNN(Convolution Neural Network)提取视频帧特征,解码器采用循环神经网络RNN(Recurrent Neural Network)生成序列语句。CNN能将图像信息进行提炼,得到其高层次的语义表示,在图像分类,目标检测等领域具有很好的效果;RNN则由于其良好的序列生成能力而在自然语言处理领域中得到广泛应用,在描述生成方向也被广泛采用。CNN结合RNN,分别对应于计算机视觉与自然语言处理,是语句描述生成模型的基本骨架。
早期的研究工作通常借鉴图像描述生成技术,将图像的特征输入改为视频的特征输入,然后生成描述性语句。这类方法需要将序列特征转换为单一的、与图像表示一致的特征,较为简单的处理是采用池化层对序列进行均值处理,也有进行关键帧检测,只将关键帧输入至生成模型中。此类方法都在一定程度上造成信息损失,破坏视频的内容丰富度。之后,基于时序注意力机制的方法在每个时刻对帧序列特征进行采样加权,并赋予不同的权重,在生成文本描述时单词的关注信息不一样。这些方法都主要集中于视觉特征的处理上,即集中于编码阶段。随着自然语言处理的发展,生成模型也在不断进步,基于CNN、Transform的解码器也逐步应用于视频描述生成任务。
尽管现有的工作在视频自动描述任务上取得很大的进步,但对于视频本身的特性并未完全挖掘,视频的时序性、及不同帧内部的物体信息并未得到充分利用,对于生成模型,其输入一般为前一时刻的单词,对于之前时刻的其他单词信息也存在丢失现象。为解决上述问题,非常有必要引入当前相关领域的前沿工作,对于编码、解码两个过程进行重新的构建,更加全面地考虑视频内部的信息,生成更为精确的语义描述。本发明就是由此激发,设计包含四个部分的视频描述生成方法,采用图卷积对于视频内部信息进行重构,充分利用视频时序信息与目标物体信息,采用更为准确的预测模式,针对视频生成更好的描述性语句。
发明内容
本发明所解决的问题是针对视频描述任务,现有模型在处理视频有关时序信息和帧内物体信息的利用;为解决所述问题,本发明提供基于图卷积网络的视频描述生成系统。
本发明所提供基于图卷积网络的视频描述生成系统,包括:视频特征提取网络、图卷积网络、视觉注意力网络以及句子描述生成网络;所述视频特征提取网络获取视频的多种特征向量表示,并输入至图卷积网络中;所述图卷积网络对特征进行重构,再输入至视觉注意力网络中;所述视觉注意力网络根据所述语句描述生成网络的隐藏状态和重构后的特征获取上下文相关的视频特征表示,再输入至语句描述生成网络;所述语句描述生成网络根据所述视频特征表示输出描述所述视频的语句。
本发明中,所述视频特征提取网络,包含Inception-V3、Faster-RCNN、C3D深度卷积网络。对于视频进行帧的采样,采样按照等间隔进行,一个视频最终对应于16帧,每一帧通过Inception-V3网络映射成2,048维度的向量;每一帧也会输入到Faster-RCNN中获取4个候选框,此处采用极大值抑制算法筛选出面积最大的四个候选框,基于Inception-V3获取每个候选框的特征表示;并通过C3D网络获取视频的C3D特征。最终,对于一个视频,其特征包含时序特征16*2,048、目标序列特征64*2,048以及C3D特征1*2048。
本发明中,所述图卷积网络,根据视频时序上的联系、目标之间的联系对所述时序特征、目标序列特征进行重构。图网络的基本模型定义如下:
Figure BDA0002430006120000021
其中,G为所构建图的节点表示,即n*dim的矩阵,n表示节点数量,dim表示节点的表示维度,M为所构造图的邻接矩阵,W为全连接层,对维度进行转换。本发明所述图卷积网络结构与此保持一致,在帧级别采用6*16的矩阵对序列特征进行重构,在目标级别采用64*64的邻接矩阵,此外目标级别邻接矩阵的权重值为目标之间的相似度,其相似度计算公式为:
Figure BDA0002430006120000031
其中,W表示全连接层,
Figure BDA0002430006120000032
表示点积运算。目标级别的临界矩阵Mf定义如下:
Figure BDA0002430006120000033
Figure BDA0002430006120000034
Figure BDA0002430006120000035
其中,maskij表示目标i与j是否具有联系,即两个节点是否有边;若i,j属于同一帧Ft,则认为其具有语义上的关联;或者当i,j目标对应的框具有较高关联度,其关联度采用数值sij表示;sij前一项表示面积大小的比例关系,后一项表示重合部分占i,j所有部分的比例,sij为空间上的关联度量化,在此基础加上时间上的联系而最终确定邻边,邻边的权重则为i,j的相似度。由此,可以得到目标级别的邻接矩阵Mf,帧级别的邻接矩阵则为固定值Mv。整个重构过程定义如下:
Figure BDA0002430006120000036
Figure BDA0002430006120000037
其中,V和F分别为帧序列特征和目标序列特征;
Figure BDA0002430006120000038
Figure BDA0002430006120000039
分别为重构后的帧特征序列和目标特征序列。
本发明中,所述视觉注意力网络,包括帧级别和目标级别的注意力网络,所述帧级别视觉注意力网络输入包含两部分,即所述语句描述生成网络在时刻t的第一层隐藏状态
Figure BDA00024300061200000310
及所述图卷积网络的帧级别重构特征
Figure BDA00024300061200000311
其输出为
Figure BDA00024300061200000312
过程为:
Figure BDA00024300061200000313
Figure BDA00024300061200000314
Figure BDA00024300061200000315
其中,corr计算两个向量的相似度,采用余弦距离、欧式距离或点积方法,在此处选用点积表示两者之间的相似度,具体操作为将向量进行维度转换后再进行点积运算;
所述目标级别视觉注意力网络输入包括两部分,即所述语句描述生成网络在时刻t的第一层隐藏状态
Figure BDA00024300061200000316
及所述图卷积网络的帧级别重构特征
Figure BDA00024300061200000317
其输出为
Figure BDA00024300061200000318
计算过程与帧级别相同。
本发明中,所述语句描述生成网络,采用循环神经网络作为生成器,进行语句生成;采用两层GRU作为解码器,GRU0进行粗粒度解码,GRU1进行细粒度解码,最终采用GRU1的输出预测下一时刻的单词;第一层GRU0在t时刻的输入包含两部分,即前一时刻的隐藏状态
Figure BDA0002430006120000041
及之前时刻所生成的词St-1所对应的词向量;其输出为
Figure BDA0002430006120000042
定义如下所示:
Figure BDA0002430006120000043
Figure BDA0002430006120000044
其中,Wes表示训练集中词典对应的词向量矩阵,Ds对应词典集合,dim为词向量的维度,
Figure BDA0002430006120000045
用于指导所述视觉注意力网络生成的
Figure BDA0002430006120000046
Figure BDA0002430006120000047
第二层GRU1在t时刻输入包含五个部分,即前一时刻的隐藏状态
Figure BDA0002430006120000048
之前时刻所生成的词St-1,St-2,St-3所对应的词向量、帧级别视觉注意力特征
Figure BDA0002430006120000049
目标级别视觉注意力特征
Figure BDA00024300061200000410
及视频C3D特征C3,定义如下所示:
Figure BDA00024300061200000411
Figure BDA00024300061200000412
其在t时刻输出
Figure BDA00024300061200000413
Figure BDA00024300061200000414
通过softmax层后输出在词典上的概率分布p(St)。
本发明提供基于图卷积网络的视频描述生成系统,其工作流程为:
一、所述的视频特征提取网络,对视频进行帧采样,提取视频的帧级序列特征向量。对采样帧进行目标检测,获取视频中目标的坐标信息,裁剪后输入至深度卷积网络中获取视频目标级的特征表示。同时,获取视频的C3D特征表示;
二、所述的图卷积网络,对视频帧特征序列和视频的目标特征序列进行特征重构。其中本发明所提出方法主要构建两种图,一是以帧为节点的图,另一个是以视频帧内目标物体为节点的图;
三、所述的视觉注意力网络,对重构后的帧序列特征和目标序列特征与上一时刻生成器中的隐藏状态进行相似度计算,加权后得到视频的上下文特征表示;
四、所述的语句描述生成模型,即循环神经网络模块,根据输入的视觉特征和前面所采样生成的单词信息,进行下一时刻的单词预测。
较之已有的相关视频描述生成方法,本发明提出的方法具有三大优势,即充分利用视频的时序信息、充分利用视频内具体目标对象的信息、及采用更为准确的单词预测模式。第一,针对视频时序信息的利用体现在,本发明所提出方法的模型采用帧级别的图网络对视频时序特征序列进行重构,在重构过程中按照视频帧的顺序进行,已有方法则基本完全忽略帧的顺序,视这些帧为无关的表示。第二,针对视频内具体目标对象信息的利用体现在,本发明所提出方法采用目标级别的图网络对视频的目标序列信息进行重构,在重构过程中充分考虑每一帧内部的联系与帧之间目标的位置信息,并采用目标之间的相似度作为临界矩阵的权重值。第三,更为准确的单词预测模式体现在,本发明所提出方法提出在预测单词时采用双层GRU作为解码器,并采用粗细粒度的预测模式,在细粒度预测中采用前面时刻的多个单词与视觉信息综合预测下一时刻单词。
综上所述,本发明针对于视频描述生成任务中视频时序信息、视频目标信息、及单词预测模式提出相应的算法模型,即基于图卷积网络的视频描述生成方法,使得视频内的多模态信息得以利用,描述性语句生成更为精确。本发明所提出方法可应用于针对大规模视频的描述生成中,生成对应于视频内容的精确描述性语句,提高可用性和用户体验。
附图说明
图1为本发明系统图示。
图2为本发明中的模型框架示意图。
具体实施方式
由背景技术可知,现有的视频描述生成方法对于视频内部的序列信息和具体的目标物体信息存在利用不充分的情况。本发明针对所述问题进行研究,引入最新前沿技术即图卷积网络,对于视频内部的视觉信息进行重建,在重建过程中充分考虑到视频帧的顺序信息和目标物体之间的语义关联信息,并采用两层GRU作为解码器进行最终描述语句生成,在生成过程中采用粗细粒度的层次递进模式,使得视频描述生成更为精确。本发明所提出模型适用于所有基于编码-解码模式的视频描述生成技术,能显著提高生成语句的精度。
下文中,结合附图对本发明的具体细节做以阐述。
如图1所示,本发明所提出的基于图卷积网络的视频描述生成系统,包括视频特征提取网络、图卷积网络、视觉注意力网络、及语句描述生成网络。其工作流程为:
一:所述视觉特征提取网络,针对所获取视频进行帧采样,并利用深度卷积网络获取帧的视觉特征向量表示16*2,048,对采样帧进行目标检测,获取16*4个候选框,对候选框进行裁剪并输入至深度卷积网络中获取目标序列特征表示16*4*2,048。所述深度卷积网络可选用图像分类任务中的深度卷积模型,本发明采用Inception-V3网络。另为增强图像的视觉标识,提取视频的C3D特征1*4,096。此外,为缩减模型参数规模,加快模型处理能力,对特征均进行维度转换,均转换为512维度,即帧级特征16*512、目标级特征16*4*512、及C3D特征1*512。
在一中,对于视频特征提取进行两个层次的提取,一是帧的整体,另一是帧内部的目标信息,由于目前目标检测模型的目标定位能力较精确,目标分类能力并不泛化,在本发明中只采用视频内部帧的目标位置信息,目标分类结果由于精度较低并未采用。
二:所述图卷积网络对于获取的视觉特征进行重构。其重构具体流程如下所示:
(一)、构建帧级图,邻接矩阵为7*16的矩阵,将16*512帧级图特征表示转化为7*512。
(二)、构建目标级图,邻接矩阵为64*64,构建邻接矩阵时同一帧内目标具有边关系,不同帧之间位置信息接近的目标具有边关系,具有关系的边权重值为两两目标之间的相似度,不具有关系的权重值为0,邻接矩阵具体计算公式如下:
Figure BDA0002430006120000061
Figure BDA0002430006120000062
Figure BDA0002430006120000063
(三)、根据所述的邻接矩阵对目标级图进行重构,由16*4*512转换为16*4*512,在此过程中图的节点表示得到重构。
在二中,对于视频信息进行两个层次的处理,一是对帧序列特征进行重构,在重构过程中充分考虑帧间的相邻关系;另一是对于目标序列的重构,在重构过程中既考虑帧内目标的关系,也考虑帧间相似位置目标的关系。特征的重构过程采用图卷积网络,使得重构后的特征更适合视频的语句描述生成。
三:所述视觉注意力网络,对于视频帧级重构特征序列16*512,计算隐藏层状态与其之间的相似度,将相似度作为权值进行加权,得到帧级的视频特征表示1*512;对于目标级特征序列16*4*512,进行相同操作,得到目标级的视频特征表示1*512。其具体计算方式如下:
Figure BDA0002430006120000064
Figure BDA0002430006120000065
Figure BDA0002430006120000066
在三中,利用注意力网络将重构后的特征序列转换为单一向量,以便于之后解码器对视频特征表示进行分析,预测下一时刻的单词概率分布。
四:所述语句描述生成模型,采用两层GRU作为解码器。第一层作为粗粒度解码,输入包含第一层前一时刻的隐藏层
Figure BDA0002430006120000067
前一时刻生成的单词St-1、视频帧级特征序列的均值
Figure BDA0002430006120000071
视频目标级特征序列的均值
Figure BDA0002430006120000072
及视频C3D特征C3。第二层输入包含步骤三中帧级视频特征表示
Figure BDA0002430006120000073
目标级视频特征表示
Figure BDA0002430006120000074
第二层前一时刻的隐藏层
Figure BDA0002430006120000075
之前所生成的单词St -1,St-2,St-3、及视频的C3D特征C3。采用第二层的输出预测下一时刻单词概率分布p(St),其具体操作如下:
Figure BDA0002430006120000076
Figure BDA0002430006120000077
Figure BDA0002430006120000078
在步骤四中,相较于之前视频描述生成方法,有两点改进,一是采用粗细粒度的语言模型,
Figure BDA0002430006120000079
包含当前时刻预测单词的粗粒度信息,其用于指导步骤三生成更适合单词预测的视频特征表示,以进一步用于生成当前时刻单词的细粒度信息表示
Figure BDA00024300061200000710
另一是在第二层中采用多个之前预测单词的信息,有助于联系更多上文来加强当前时刻的单词预测。
具体流程可视化如图2所示,按照步骤一至四依次进行,即可得到视频描述语句。此外,在生成语句描述时,采用BeamSearch方法来筛选最优语句,有效避免单词的采样偏差。在本发明提出的方法中,将BeamSize的值设为3,以平衡精度与时间代价的关系。
本发明提出的方法实例选用数据集MSVD和MSR-VTT,MSVD包含1,970视频,MSVD包含10,000视频。两者均采用标准的数据集划分,在MSVD测试集上BLEU-4、Cider、Meteor、及Rouge分值分别为52.6、89.6、36.3、及72.7。在MSR-VTT上,添加辅助的音频信息和视频目录信息后,BLEU-4、Cider、Meteor、及Rouge分值分别为44.6、51.4、29.5、及62.5,性能相较于以往方法有着较大的提升。
本发明不但适用于所述的模型框架,也适用所有基于编码解码的视频描述生成方法,同时适用于不采用循环神经网络作为解码器的视频描述生成方法,具体实践为将本发明的特征重构过程加入编码阶段,将本发明的语句描述生成融入解码阶段。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (6)

1.基于图卷积网络的视频描述生成系统,其特征在于,包括:视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络;所述视频特征提取网络对视频进行采样,获取采样帧的特征向量序列,对采样帧进行目标检测,获取目标的特征向量序列,并输入至图卷积网络中进行特征重构;所述图卷积网络从帧和目标两个层级对特征进行重构,输入至视觉注意力网络;所述视觉注意力网络对特征序列进行融合,输入至句子描述生成网络;所述句子描述生成网络根据融合向量序列输出所述视频的描述语句。
2.根据权利要求1所述的基于图卷积网络的视频描述生成系统,其特征在于,所述视频特征提取网络包含Inception-V3、Faster-RCNN、C3D深度卷积网络;对于视频进行帧的采样,采样按照等间隔进行,一个视频最终对应于16帧,每一帧通过Inception-V3网络映射成2,048维度的向量;每一帧也输入到Faster-RCNN中获取4个候选框,此处采用极大值抑制算法筛选出面积最大的四个候选框,基于Inception-V3获取每个候选框的特征表示;并通过C3D网络获取视频的C3D特征;最终,对于一个视频,其特征包含时序特征16*2,048、目标序列特征64*2,048以及C3D特征1*2048。
3.根据权利要求1所述基于图卷积网络的视频描述生成系统,其特征在于,所述图卷积网络,根据视频时序上的联系、目标之间的联系对所述时序特征、目标序列特征进行重构;图网络的基本模型定义如下:
Figure FDA0002430006110000011
其中,G为所构建图的节点表示,即n*dim的矩阵,n表示节点数量,dim表示节点的表示维度,M为所构造图的邻接矩阵,W为全连接层,对维度进行转换;在帧级别采用6*16的矩阵对序列特征进行重构,在目标级别采用64*64的邻接矩阵;此外目标级别邻接矩阵的权重值为目标之间的相似度,其相似度计算公式为:
Figure FDA0002430006110000012
其中,W表示全连接层,
Figure FDA0002430006110000013
表示点积运算;目标级别的临界矩阵Mf定义如下:
Figure FDA0002430006110000014
Figure FDA0002430006110000015
Figure FDA0002430006110000016
其中,maskij表示目标i与j是否具有联系,即两个节点是否有边;若i,j属于同一帧Ft,则认为其具有语义上的关联;或者当i,j目标对应的框具有较高关联度,其关联度采用数值sij表示;sij前一项表示面积大小的比例关系,后一项表示重合部分占i,j所有部分的比例,sij为空间上的关联度量化,在此基础加上时间上的联系而最终确定邻边,邻边的权重则为i,j的相似度;由此,得到目标级别的邻接矩阵Mf,帧级别的邻接矩阵则为固定值Mv;整个重构过程定义如下:
Figure FDA0002430006110000021
Figure FDA0002430006110000022
其中,V和F分别为帧序列特征和目标序列特征;
Figure FDA0002430006110000023
Figure FDA0002430006110000024
分别为重构后的帧特征序列和目标特征序列。
4.根据权利要求1所述基于图卷积网络的视频描述生成系统,其特征在于,所述视觉注意力网络,包括帧级别和目标级别的注意力网络,所述帧级别视觉注意力网络输入包含两部分,即所述语句描述生成网络在时刻t的第一层隐藏状态
Figure FDA0002430006110000025
及所述图卷积网络的帧级别重构特征
Figure FDA0002430006110000026
其输出为
Figure FDA0002430006110000027
过程为:
Figure FDA0002430006110000028
Figure FDA0002430006110000029
Figure FDA00024300061100000210
其中,corr计算两个向量的相似度,采用余弦距离、欧式距离或点积方法;
所述目标级别视觉注意力网络输入包括两部分,即所述语句描述生成网络在时刻t的第一层隐藏状态
Figure FDA00024300061100000211
及所述图卷积网络的帧级别重构特征
Figure FDA00024300061100000212
其输出为
Figure FDA00024300061100000213
计算过程与帧级别相同。
5.根据权利要求1所述的基于图卷积网络的视频描述生成系统,其特征在于,所述描述语句生成网络,采用循环神经网络作为生成器,进行语句生成;采用两层GRU作为解码器,GRU0进行粗粒度解码,GRU1进行细粒度解码,最终采用GRU1的输出预测下一时刻的单词;第一层GRU0在t时刻的输入包含两部分,即前一时刻的隐藏状态
Figure FDA00024300061100000214
及之前时刻所生成的词St-1所对应的词向量;其输出为
Figure FDA00024300061100000215
定义如下所示:
Figure FDA00024300061100000216
Figure FDA00024300061100000217
其中,Wes表示训练集中词典对应的词向量矩阵,Ds对应词典集合,dim为词向量的维度,
Figure FDA00024300061100000218
用于指导所述视觉注意力网络生成的
Figure FDA00024300061100000219
Figure FDA00024300061100000220
第二层GRU1在t时刻输入包含五个部分,即前一时刻的隐藏状态
Figure FDA0002430006110000031
之前时刻所生成的词St-1,St-2,St-3所对应的词向量、帧级别视觉注意力特征
Figure FDA0002430006110000032
目标级别视觉注意力特征
Figure FDA0002430006110000033
及视频C3D特征C3,定义如下所示:
Figure FDA0002430006110000034
Figure FDA0002430006110000035
其在t时刻输出
Figure FDA0002430006110000036
Figure FDA0002430006110000037
通过softmax层后输出在词典上的概率分布p(St)。
6.根据权利要求1至5之一所述系统的基于图卷积网络的视频描述生成系统,其特征在于,工作流程为:
一、所述视频特征提取网络对视频进行帧采样,利用训练深度CNN模型对图像进行特征表示,提取出帧级别的视觉特征向量序列;利用目标检测模型提取出帧内物体的边框,进而利用深度CNN模型对目标进行特征表示,提取出目标级别的视觉特征向量序列;利用C3D网络获取视频时间维度上的全局特征表示;
二、所述图卷积网络以帧级别特征及目标级别特征序列为输入,根据帧之间的关系及物体目标之间的关系进行特征重构,将重构的特征输入视觉注意力网络;
三、所述视觉注意力网络以重构后的帧特征序列、目标特征序列以及语句描述生成网络隐藏层
Figure FDA0002430006110000038
为输入,在帧层次和目标层次对特征序列进行融合,得到帧特征和目标特征,输入至语句描述生成网络中;
四、所述语句描述生成网络根据帧特征向量和目标特征向量序列输出描述所述视频的语句。
CN202010233049.7A 2020-03-29 2020-03-29 基于图卷积网络的视频描述生成系统 Active CN111488807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010233049.7A CN111488807B (zh) 2020-03-29 2020-03-29 基于图卷积网络的视频描述生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010233049.7A CN111488807B (zh) 2020-03-29 2020-03-29 基于图卷积网络的视频描述生成系统

Publications (2)

Publication Number Publication Date
CN111488807A true CN111488807A (zh) 2020-08-04
CN111488807B CN111488807B (zh) 2023-10-10

Family

ID=71797606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010233049.7A Active CN111488807B (zh) 2020-03-29 2020-03-29 基于图卷积网络的视频描述生成系统

Country Status (1)

Country Link
CN (1) CN111488807B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901668A (zh) * 2020-09-07 2020-11-06 三星电子(中国)研发中心 视频播放方法和装置
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112015955A (zh) * 2020-09-01 2020-12-01 清华大学 一种多模态数据关联方法和装置
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN112733764A (zh) * 2021-01-15 2021-04-30 天津大学 一种基于多模态识别视频情感信息的方法
CN112801762A (zh) * 2021-04-13 2021-05-14 浙江大学 基于商品感知的多模态视频高光检测方法及其系统
CN112801017A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN112818846A (zh) * 2021-01-29 2021-05-18 湖南科技学院 视频帧的特征提取方法、装置及电子设备
CN112926452A (zh) * 2021-02-25 2021-06-08 东北林业大学 一种基于GCN和GRU增强U-Net特征的高光谱分类方法及系统
CN113205060A (zh) * 2020-12-28 2021-08-03 武汉纺织大学 采用循环神经网络依据骨骼形态判断的人体动作检测方法
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN114154016A (zh) * 2021-11-24 2022-03-08 杭州电子科技大学 基于目标空间语义对齐的视频描述方法
CN114511813A (zh) * 2022-04-20 2022-05-17 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置
WO2023050295A1 (zh) * 2021-09-30 2023-04-06 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN116246214A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180293777A1 (en) * 2017-04-08 2018-10-11 Intel Corporation Sub-graph in frequency domain and dynamic selection of convolution implementation on a gpu
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN110798752A (zh) * 2018-08-03 2020-02-14 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN110837578A (zh) * 2019-11-06 2020-02-25 合肥工业大学 一种基于图卷积网络的视频片段推荐方法
US20200082271A1 (en) * 2017-11-30 2020-03-12 Tencent Technology (Shenzhen) Company Limited Summary generation method, summary generation model training method, and computer device
CN110888798A (zh) * 2019-10-14 2020-03-17 西安理工大学 一种基于图卷积神经网络对软件缺陷预测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180293777A1 (en) * 2017-04-08 2018-10-11 Intel Corporation Sub-graph in frequency domain and dynamic selection of convolution implementation on a gpu
US20200082271A1 (en) * 2017-11-30 2020-03-12 Tencent Technology (Shenzhen) Company Limited Summary generation method, summary generation model training method, and computer device
CN110798752A (zh) * 2018-08-03 2020-02-14 北京京东尚科信息技术有限公司 用于生成视频摘要的方法和系统
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN110888798A (zh) * 2019-10-14 2020-03-17 西安理工大学 一种基于图卷积神经网络对软件缺陷预测方法
CN110781407A (zh) * 2019-10-21 2020-02-11 腾讯科技(深圳)有限公司 用户标签生成方法、装置及计算机可读存储介质
CN110837578A (zh) * 2019-11-06 2020-02-25 合肥工业大学 一种基于图卷积网络的视频片段推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
甘卓欣: "针对目标的视频文字描述", pages 40 - 41 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN112015955B (zh) * 2020-09-01 2021-07-30 清华大学 一种多模态数据关联方法和装置
CN112015955A (zh) * 2020-09-01 2020-12-01 清华大学 一种多模态数据关联方法和装置
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN111901668A (zh) * 2020-09-07 2020-11-06 三星电子(中国)研发中心 视频播放方法和装置
CN112738647A (zh) * 2020-12-28 2021-04-30 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN113205060A (zh) * 2020-12-28 2021-08-03 武汉纺织大学 采用循环神经网络依据骨骼形态判断的人体动作检测方法
CN112733764A (zh) * 2021-01-15 2021-04-30 天津大学 一种基于多模态识别视频情感信息的方法
CN112818846A (zh) * 2021-01-29 2021-05-18 湖南科技学院 视频帧的特征提取方法、装置及电子设备
CN112801017A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN112801017B (zh) * 2021-02-09 2023-08-04 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN112926452A (zh) * 2021-02-25 2021-06-08 东北林业大学 一种基于GCN和GRU增强U-Net特征的高光谱分类方法及系统
CN112801762A (zh) * 2021-04-13 2021-05-14 浙江大学 基于商品感知的多模态视频高光检测方法及其系统
CN112801762B (zh) * 2021-04-13 2021-08-03 浙江大学 基于商品感知的多模态视频高光检测方法及其系统
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113641854B (zh) * 2021-07-28 2023-09-26 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
WO2023050295A1 (zh) * 2021-09-30 2023-04-06 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN114154016B (zh) * 2021-11-24 2022-05-31 杭州电子科技大学 基于目标空间语义对齐的视频描述方法
CN114154016A (zh) * 2021-11-24 2022-03-08 杭州电子科技大学 基于目标空间语义对齐的视频描述方法
CN114511813A (zh) * 2022-04-20 2022-05-17 天津市城市规划设计研究总院有限公司 视频语义描述方法及装置
CN116246214A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质
CN116246214B (zh) * 2023-05-08 2023-08-11 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质

Also Published As

Publication number Publication date
CN111488807B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN111488807A (zh) 基于图卷积网络的视频描述生成系统
CN112668671B (zh) 预训练模型的获取方法和装置
Zheng et al. Unsupervised representation learning with long-term dynamics for skeleton based action recognition
US20210390700A1 (en) Referring image segmentation
KR101855597B1 (ko) 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법
CN110853670B (zh) 音乐驱动的舞蹈生成方法
CN113392717B (zh) 一种基于时序特征金字塔的视频密集描述生成方法
Tang et al. Real-time controllable motion transition for characters
Liu et al. Optimization-based key frame extraction for motion capture animation
CN110866510A (zh) 一种基于关键帧检测的视频描述系统和方法
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
CN112488055A (zh) 一种基于渐进图注意力网络的视频问答方法
CN113889179A (zh) 基于多视图深度学习的化合物-蛋白质相互作用预测方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN115731498A (zh) 一种联合强化学习和对比学习的视频摘要生成方法
CN113989943B (zh) 一种基于蒸馏损失的人体动作增量识别方法及装置
CN110826397B (zh) 一种基于高阶低秩多模态注意力机制的视频描述方法
CN112417890A (zh) 一种基于多样化语义注意力模型的细粒度实体分类方法
CN116939320A (zh) 一种生成式多模态互利增强视频语义通信方法
CN116385946A (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
CN115311598A (zh) 基于关系感知的视频描述生成系统
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN114677631A (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
Zhu Video captioning in compressed video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant