CN111488807A - 基于图卷积网络的视频描述生成系统 - Google Patents
基于图卷积网络的视频描述生成系统 Download PDFInfo
- Publication number
- CN111488807A CN111488807A CN202010233049.7A CN202010233049A CN111488807A CN 111488807 A CN111488807 A CN 111488807A CN 202010233049 A CN202010233049 A CN 202010233049A CN 111488807 A CN111488807 A CN 111488807A
- Authority
- CN
- China
- Prior art keywords
- network
- video
- frame
- target
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于跨媒体生成技术领域,具体为基于图卷积网络的视频描述生成系统。本发明的视频描述生成系统包括:视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络;视频特征提取网络对视频进行采样处理,获取视频特征,输出至图卷积网络;图卷积网络对视频特征根据语义关系进行重构,并输入至句子描述生成循环神经网络;句子描述生成网络根据视频重构的特征进行句子生成。本发明采用图卷积对视频中帧级序列和目标级序列特征进行重构,在生成描述语句时充分利用视频内的时序信息和语义信息,使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义,能够提高模型对视频视觉信息的理解能力,具有广泛应用价值。
Description
技术领域
本发明属于跨媒体生成技术领域,具体涉及基于图卷积网络的视频描述生成系统。
背景技术
在各种多模态信息处理任务中,视频描述自动生成(Video Captioning)是一项非常重要的任务,其在视频分析领域是一项基础性的研究任务。其任务为给定一段视频,计算机自动分析视频的内容,生成描述视频主要内容的语句。该任务是在图像描述自动生成任务(Image Captioning)的基础上发展而来,但视频与图像存在显著性差异,视频可被看作为多幅图像的集合,并伴随着音频信息,其特征的多样性、内容场景的复杂性都远远超出图像,因此视频描述自动生成的技术难度及挑战性也远高于图像描述生成技术。该项任务设计到人工智能的两个研究领域,计算机视觉(Compute Vision,CV)和自然语言处理(Natural Language Processing,NLP),其在两个领域搭起桥梁将它们紧密联系起来。从计算机角度出发,其理解一段视频并不能和人类分析视频一样简单。目前,图像分析对于图像的表示一般采取将其处理成一维向量,依照这种方式视频便是一组序列向量的集合,如何改进图像描述生成技术,将其转换为视频描述生成技术,这都是早期的研究方向。此外,对于视频中的多种模态信息,如何将它们合理应用以加强语句描述生成的质量,这些都区别于图像描述生成技术。
描述生成技术(Captioning)一般采用编码-解码(Encoder-Decoder)框架,编码器常采用卷积神经网络CNN(Convolution Neural Network)提取视频帧特征,解码器采用循环神经网络RNN(Recurrent Neural Network)生成序列语句。CNN能将图像信息进行提炼,得到其高层次的语义表示,在图像分类,目标检测等领域具有很好的效果;RNN则由于其良好的序列生成能力而在自然语言处理领域中得到广泛应用,在描述生成方向也被广泛采用。CNN结合RNN,分别对应于计算机视觉与自然语言处理,是语句描述生成模型的基本骨架。
早期的研究工作通常借鉴图像描述生成技术,将图像的特征输入改为视频的特征输入,然后生成描述性语句。这类方法需要将序列特征转换为单一的、与图像表示一致的特征,较为简单的处理是采用池化层对序列进行均值处理,也有进行关键帧检测,只将关键帧输入至生成模型中。此类方法都在一定程度上造成信息损失,破坏视频的内容丰富度。之后,基于时序注意力机制的方法在每个时刻对帧序列特征进行采样加权,并赋予不同的权重,在生成文本描述时单词的关注信息不一样。这些方法都主要集中于视觉特征的处理上,即集中于编码阶段。随着自然语言处理的发展,生成模型也在不断进步,基于CNN、Transform的解码器也逐步应用于视频描述生成任务。
尽管现有的工作在视频自动描述任务上取得很大的进步,但对于视频本身的特性并未完全挖掘,视频的时序性、及不同帧内部的物体信息并未得到充分利用,对于生成模型,其输入一般为前一时刻的单词,对于之前时刻的其他单词信息也存在丢失现象。为解决上述问题,非常有必要引入当前相关领域的前沿工作,对于编码、解码两个过程进行重新的构建,更加全面地考虑视频内部的信息,生成更为精确的语义描述。本发明就是由此激发,设计包含四个部分的视频描述生成方法,采用图卷积对于视频内部信息进行重构,充分利用视频时序信息与目标物体信息,采用更为准确的预测模式,针对视频生成更好的描述性语句。
发明内容
本发明所解决的问题是针对视频描述任务,现有模型在处理视频有关时序信息和帧内物体信息的利用;为解决所述问题,本发明提供基于图卷积网络的视频描述生成系统。
本发明所提供基于图卷积网络的视频描述生成系统,包括:视频特征提取网络、图卷积网络、视觉注意力网络以及句子描述生成网络;所述视频特征提取网络获取视频的多种特征向量表示,并输入至图卷积网络中;所述图卷积网络对特征进行重构,再输入至视觉注意力网络中;所述视觉注意力网络根据所述语句描述生成网络的隐藏状态和重构后的特征获取上下文相关的视频特征表示,再输入至语句描述生成网络;所述语句描述生成网络根据所述视频特征表示输出描述所述视频的语句。
本发明中,所述视频特征提取网络,包含Inception-V3、Faster-RCNN、C3D深度卷积网络。对于视频进行帧的采样,采样按照等间隔进行,一个视频最终对应于16帧,每一帧通过Inception-V3网络映射成2,048维度的向量;每一帧也会输入到Faster-RCNN中获取4个候选框,此处采用极大值抑制算法筛选出面积最大的四个候选框,基于Inception-V3获取每个候选框的特征表示;并通过C3D网络获取视频的C3D特征。最终,对于一个视频,其特征包含时序特征16*2,048、目标序列特征64*2,048以及C3D特征1*2048。
本发明中,所述图卷积网络,根据视频时序上的联系、目标之间的联系对所述时序特征、目标序列特征进行重构。图网络的基本模型定义如下:
其中,G为所构建图的节点表示,即n*dim的矩阵,n表示节点数量,dim表示节点的表示维度,M为所构造图的邻接矩阵,W为全连接层,对维度进行转换。本发明所述图卷积网络结构与此保持一致,在帧级别采用6*16的矩阵对序列特征进行重构,在目标级别采用64*64的邻接矩阵,此外目标级别邻接矩阵的权重值为目标之间的相似度,其相似度计算公式为:
其中,maskij表示目标i与j是否具有联系,即两个节点是否有边;若i,j属于同一帧Ft,则认为其具有语义上的关联;或者当i,j目标对应的框具有较高关联度,其关联度采用数值sij表示;sij前一项表示面积大小的比例关系,后一项表示重合部分占i,j所有部分的比例,sij为空间上的关联度量化,在此基础加上时间上的联系而最终确定邻边,邻边的权重则为i,j的相似度。由此,可以得到目标级别的邻接矩阵Mf,帧级别的邻接矩阵则为固定值Mv。整个重构过程定义如下:
其中,corr计算两个向量的相似度,采用余弦距离、欧式距离或点积方法,在此处选用点积表示两者之间的相似度,具体操作为将向量进行维度转换后再进行点积运算;
本发明中,所述语句描述生成网络,采用循环神经网络作为生成器,进行语句生成;采用两层GRU作为解码器,GRU0进行粗粒度解码,GRU1进行细粒度解码,最终采用GRU1的输出预测下一时刻的单词;第一层GRU0在t时刻的输入包含两部分,即前一时刻的隐藏状态及之前时刻所生成的词St-1所对应的词向量;其输出为定义如下所示:
其中,Wes表示训练集中词典对应的词向量矩阵,Ds对应词典集合,dim为词向量的维度,用于指导所述视觉注意力网络生成的与第二层GRU1在t时刻输入包含五个部分,即前一时刻的隐藏状态之前时刻所生成的词St-1,St-2,St-3所对应的词向量、帧级别视觉注意力特征目标级别视觉注意力特征及视频C3D特征C3,定义如下所示:
本发明提供基于图卷积网络的视频描述生成系统,其工作流程为:
一、所述的视频特征提取网络,对视频进行帧采样,提取视频的帧级序列特征向量。对采样帧进行目标检测,获取视频中目标的坐标信息,裁剪后输入至深度卷积网络中获取视频目标级的特征表示。同时,获取视频的C3D特征表示;
二、所述的图卷积网络,对视频帧特征序列和视频的目标特征序列进行特征重构。其中本发明所提出方法主要构建两种图,一是以帧为节点的图,另一个是以视频帧内目标物体为节点的图;
三、所述的视觉注意力网络,对重构后的帧序列特征和目标序列特征与上一时刻生成器中的隐藏状态进行相似度计算,加权后得到视频的上下文特征表示;
四、所述的语句描述生成模型,即循环神经网络模块,根据输入的视觉特征和前面所采样生成的单词信息,进行下一时刻的单词预测。
较之已有的相关视频描述生成方法,本发明提出的方法具有三大优势,即充分利用视频的时序信息、充分利用视频内具体目标对象的信息、及采用更为准确的单词预测模式。第一,针对视频时序信息的利用体现在,本发明所提出方法的模型采用帧级别的图网络对视频时序特征序列进行重构,在重构过程中按照视频帧的顺序进行,已有方法则基本完全忽略帧的顺序,视这些帧为无关的表示。第二,针对视频内具体目标对象信息的利用体现在,本发明所提出方法采用目标级别的图网络对视频的目标序列信息进行重构,在重构过程中充分考虑每一帧内部的联系与帧之间目标的位置信息,并采用目标之间的相似度作为临界矩阵的权重值。第三,更为准确的单词预测模式体现在,本发明所提出方法提出在预测单词时采用双层GRU作为解码器,并采用粗细粒度的预测模式,在细粒度预测中采用前面时刻的多个单词与视觉信息综合预测下一时刻单词。
综上所述,本发明针对于视频描述生成任务中视频时序信息、视频目标信息、及单词预测模式提出相应的算法模型,即基于图卷积网络的视频描述生成方法,使得视频内的多模态信息得以利用,描述性语句生成更为精确。本发明所提出方法可应用于针对大规模视频的描述生成中,生成对应于视频内容的精确描述性语句,提高可用性和用户体验。
附图说明
图1为本发明系统图示。
图2为本发明中的模型框架示意图。
具体实施方式
由背景技术可知,现有的视频描述生成方法对于视频内部的序列信息和具体的目标物体信息存在利用不充分的情况。本发明针对所述问题进行研究,引入最新前沿技术即图卷积网络,对于视频内部的视觉信息进行重建,在重建过程中充分考虑到视频帧的顺序信息和目标物体之间的语义关联信息,并采用两层GRU作为解码器进行最终描述语句生成,在生成过程中采用粗细粒度的层次递进模式,使得视频描述生成更为精确。本发明所提出模型适用于所有基于编码-解码模式的视频描述生成技术,能显著提高生成语句的精度。
下文中,结合附图对本发明的具体细节做以阐述。
如图1所示,本发明所提出的基于图卷积网络的视频描述生成系统,包括视频特征提取网络、图卷积网络、视觉注意力网络、及语句描述生成网络。其工作流程为:
一:所述视觉特征提取网络,针对所获取视频进行帧采样,并利用深度卷积网络获取帧的视觉特征向量表示16*2,048,对采样帧进行目标检测,获取16*4个候选框,对候选框进行裁剪并输入至深度卷积网络中获取目标序列特征表示16*4*2,048。所述深度卷积网络可选用图像分类任务中的深度卷积模型,本发明采用Inception-V3网络。另为增强图像的视觉标识,提取视频的C3D特征1*4,096。此外,为缩减模型参数规模,加快模型处理能力,对特征均进行维度转换,均转换为512维度,即帧级特征16*512、目标级特征16*4*512、及C3D特征1*512。
在一中,对于视频特征提取进行两个层次的提取,一是帧的整体,另一是帧内部的目标信息,由于目前目标检测模型的目标定位能力较精确,目标分类能力并不泛化,在本发明中只采用视频内部帧的目标位置信息,目标分类结果由于精度较低并未采用。
二:所述图卷积网络对于获取的视觉特征进行重构。其重构具体流程如下所示:
(一)、构建帧级图,邻接矩阵为7*16的矩阵,将16*512帧级图特征表示转化为7*512。
(二)、构建目标级图,邻接矩阵为64*64,构建邻接矩阵时同一帧内目标具有边关系,不同帧之间位置信息接近的目标具有边关系,具有关系的边权重值为两两目标之间的相似度,不具有关系的权重值为0,邻接矩阵具体计算公式如下:
(三)、根据所述的邻接矩阵对目标级图进行重构,由16*4*512转换为16*4*512,在此过程中图的节点表示得到重构。
在二中,对于视频信息进行两个层次的处理,一是对帧序列特征进行重构,在重构过程中充分考虑帧间的相邻关系;另一是对于目标序列的重构,在重构过程中既考虑帧内目标的关系,也考虑帧间相似位置目标的关系。特征的重构过程采用图卷积网络,使得重构后的特征更适合视频的语句描述生成。
三:所述视觉注意力网络,对于视频帧级重构特征序列16*512,计算隐藏层状态与其之间的相似度,将相似度作为权值进行加权,得到帧级的视频特征表示1*512;对于目标级特征序列16*4*512,进行相同操作,得到目标级的视频特征表示1*512。其具体计算方式如下:
在三中,利用注意力网络将重构后的特征序列转换为单一向量,以便于之后解码器对视频特征表示进行分析,预测下一时刻的单词概率分布。
四:所述语句描述生成模型,采用两层GRU作为解码器。第一层作为粗粒度解码,输入包含第一层前一时刻的隐藏层前一时刻生成的单词St-1、视频帧级特征序列的均值视频目标级特征序列的均值及视频C3D特征C3。第二层输入包含步骤三中帧级视频特征表示目标级视频特征表示第二层前一时刻的隐藏层之前所生成的单词St -1,St-2,St-3、及视频的C3D特征C3。采用第二层的输出预测下一时刻单词概率分布p(St),其具体操作如下:
在步骤四中,相较于之前视频描述生成方法,有两点改进,一是采用粗细粒度的语言模型,包含当前时刻预测单词的粗粒度信息,其用于指导步骤三生成更适合单词预测的视频特征表示,以进一步用于生成当前时刻单词的细粒度信息表示另一是在第二层中采用多个之前预测单词的信息,有助于联系更多上文来加强当前时刻的单词预测。
具体流程可视化如图2所示,按照步骤一至四依次进行,即可得到视频描述语句。此外,在生成语句描述时,采用BeamSearch方法来筛选最优语句,有效避免单词的采样偏差。在本发明提出的方法中,将BeamSize的值设为3,以平衡精度与时间代价的关系。
本发明提出的方法实例选用数据集MSVD和MSR-VTT,MSVD包含1,970视频,MSVD包含10,000视频。两者均采用标准的数据集划分,在MSVD测试集上BLEU-4、Cider、Meteor、及Rouge分值分别为52.6、89.6、36.3、及72.7。在MSR-VTT上,添加辅助的音频信息和视频目录信息后,BLEU-4、Cider、Meteor、及Rouge分值分别为44.6、51.4、29.5、及62.5,性能相较于以往方法有着较大的提升。
本发明不但适用于所述的模型框架,也适用所有基于编码解码的视频描述生成方法,同时适用于不采用循环神经网络作为解码器的视频描述生成方法,具体实践为将本发明的特征重构过程加入编码阶段,将本发明的语句描述生成融入解码阶段。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (6)
1.基于图卷积网络的视频描述生成系统,其特征在于,包括:视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络;所述视频特征提取网络对视频进行采样,获取采样帧的特征向量序列,对采样帧进行目标检测,获取目标的特征向量序列,并输入至图卷积网络中进行特征重构;所述图卷积网络从帧和目标两个层级对特征进行重构,输入至视觉注意力网络;所述视觉注意力网络对特征序列进行融合,输入至句子描述生成网络;所述句子描述生成网络根据融合向量序列输出所述视频的描述语句。
2.根据权利要求1所述的基于图卷积网络的视频描述生成系统,其特征在于,所述视频特征提取网络包含Inception-V3、Faster-RCNN、C3D深度卷积网络;对于视频进行帧的采样,采样按照等间隔进行,一个视频最终对应于16帧,每一帧通过Inception-V3网络映射成2,048维度的向量;每一帧也输入到Faster-RCNN中获取4个候选框,此处采用极大值抑制算法筛选出面积最大的四个候选框,基于Inception-V3获取每个候选框的特征表示;并通过C3D网络获取视频的C3D特征;最终,对于一个视频,其特征包含时序特征16*2,048、目标序列特征64*2,048以及C3D特征1*2048。
3.根据权利要求1所述基于图卷积网络的视频描述生成系统,其特征在于,所述图卷积网络,根据视频时序上的联系、目标之间的联系对所述时序特征、目标序列特征进行重构;图网络的基本模型定义如下:
其中,G为所构建图的节点表示,即n*dim的矩阵,n表示节点数量,dim表示节点的表示维度,M为所构造图的邻接矩阵,W为全连接层,对维度进行转换;在帧级别采用6*16的矩阵对序列特征进行重构,在目标级别采用64*64的邻接矩阵;此外目标级别邻接矩阵的权重值为目标之间的相似度,其相似度计算公式为:
其中,maskij表示目标i与j是否具有联系,即两个节点是否有边;若i,j属于同一帧Ft,则认为其具有语义上的关联;或者当i,j目标对应的框具有较高关联度,其关联度采用数值sij表示;sij前一项表示面积大小的比例关系,后一项表示重合部分占i,j所有部分的比例,sij为空间上的关联度量化,在此基础加上时间上的联系而最终确定邻边,邻边的权重则为i,j的相似度;由此,得到目标级别的邻接矩阵Mf,帧级别的邻接矩阵则为固定值Mv;整个重构过程定义如下:
5.根据权利要求1所述的基于图卷积网络的视频描述生成系统,其特征在于,所述描述语句生成网络,采用循环神经网络作为生成器,进行语句生成;采用两层GRU作为解码器,GRU0进行粗粒度解码,GRU1进行细粒度解码,最终采用GRU1的输出预测下一时刻的单词;第一层GRU0在t时刻的输入包含两部分,即前一时刻的隐藏状态及之前时刻所生成的词St-1所对应的词向量;其输出为定义如下所示:
其中,Wes表示训练集中词典对应的词向量矩阵,Ds对应词典集合,dim为词向量的维度,用于指导所述视觉注意力网络生成的与第二层GRU1在t时刻输入包含五个部分,即前一时刻的隐藏状态之前时刻所生成的词St-1,St-2,St-3所对应的词向量、帧级别视觉注意力特征目标级别视觉注意力特征及视频C3D特征C3,定义如下所示:
6.根据权利要求1至5之一所述系统的基于图卷积网络的视频描述生成系统,其特征在于,工作流程为:
一、所述视频特征提取网络对视频进行帧采样,利用训练深度CNN模型对图像进行特征表示,提取出帧级别的视觉特征向量序列;利用目标检测模型提取出帧内物体的边框,进而利用深度CNN模型对目标进行特征表示,提取出目标级别的视觉特征向量序列;利用C3D网络获取视频时间维度上的全局特征表示;
二、所述图卷积网络以帧级别特征及目标级别特征序列为输入,根据帧之间的关系及物体目标之间的关系进行特征重构,将重构的特征输入视觉注意力网络;
四、所述语句描述生成网络根据帧特征向量和目标特征向量序列输出描述所述视频的语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010233049.7A CN111488807B (zh) | 2020-03-29 | 2020-03-29 | 基于图卷积网络的视频描述生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010233049.7A CN111488807B (zh) | 2020-03-29 | 2020-03-29 | 基于图卷积网络的视频描述生成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488807A true CN111488807A (zh) | 2020-08-04 |
CN111488807B CN111488807B (zh) | 2023-10-10 |
Family
ID=71797606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010233049.7A Active CN111488807B (zh) | 2020-03-29 | 2020-03-29 | 基于图卷积网络的视频描述生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488807B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111901668A (zh) * | 2020-09-07 | 2020-11-06 | 三星电子(中国)研发中心 | 视频播放方法和装置 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112015955A (zh) * | 2020-09-01 | 2020-12-01 | 清华大学 | 一种多模态数据关联方法和装置 |
CN112069361A (zh) * | 2020-08-27 | 2020-12-11 | 新华智云科技有限公司 | 一种基于多模态融合的视频描述文本生成方法 |
CN112738647A (zh) * | 2020-12-28 | 2021-04-30 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及系统 |
CN112733764A (zh) * | 2021-01-15 | 2021-04-30 | 天津大学 | 一种基于多模态识别视频情感信息的方法 |
CN112801762A (zh) * | 2021-04-13 | 2021-05-14 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN112801017A (zh) * | 2021-02-09 | 2021-05-14 | 成都视海芯图微电子有限公司 | 一种视觉场景描述方法及系统 |
CN112818846A (zh) * | 2021-01-29 | 2021-05-18 | 湖南科技学院 | 视频帧的特征提取方法、装置及电子设备 |
CN112926452A (zh) * | 2021-02-25 | 2021-06-08 | 东北林业大学 | 一种基于GCN和GRU增强U-Net特征的高光谱分类方法及系统 |
CN113205060A (zh) * | 2020-12-28 | 2021-08-03 | 武汉纺织大学 | 采用循环神经网络依据骨骼形态判断的人体动作检测方法 |
CN113641854A (zh) * | 2021-07-28 | 2021-11-12 | 上海影谱科技有限公司 | 一种将文字转化为视频的方法及系统 |
CN114154016A (zh) * | 2021-11-24 | 2022-03-08 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114511813A (zh) * | 2022-04-20 | 2022-05-17 | 天津市城市规划设计研究总院有限公司 | 视频语义描述方法及装置 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
CN116246214A (zh) * | 2023-05-08 | 2023-06-09 | 浪潮电子信息产业股份有限公司 | 视听事件定位方法、模型训练方法、装置及设备和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
US20170357720A1 (en) * | 2016-06-10 | 2017-12-14 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US20180293777A1 (en) * | 2017-04-08 | 2018-10-11 | Intel Corporation | Sub-graph in frequency domain and dynamic selection of convolution implementation on a gpu |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN110798752A (zh) * | 2018-08-03 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
CN110837578A (zh) * | 2019-11-06 | 2020-02-25 | 合肥工业大学 | 一种基于图卷积网络的视频片段推荐方法 |
US20200082271A1 (en) * | 2017-11-30 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, summary generation model training method, and computer device |
CN110888798A (zh) * | 2019-10-14 | 2020-03-17 | 西安理工大学 | 一种基于图卷积神经网络对软件缺陷预测方法 |
-
2020
- 2020-03-29 CN CN202010233049.7A patent/CN111488807B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279495A (zh) * | 2015-10-23 | 2016-01-27 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
US20170357720A1 (en) * | 2016-06-10 | 2017-12-14 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US20180293777A1 (en) * | 2017-04-08 | 2018-10-11 | Intel Corporation | Sub-graph in frequency domain and dynamic selection of convolution implementation on a gpu |
US20200082271A1 (en) * | 2017-11-30 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, summary generation model training method, and computer device |
CN110798752A (zh) * | 2018-08-03 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 用于生成视频摘要的方法和系统 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN110888798A (zh) * | 2019-10-14 | 2020-03-17 | 西安理工大学 | 一种基于图卷积神经网络对软件缺陷预测方法 |
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN110837578A (zh) * | 2019-11-06 | 2020-02-25 | 合肥工业大学 | 一种基于图卷积网络的视频片段推荐方法 |
Non-Patent Citations (1)
Title |
---|
甘卓欣: "针对目标的视频文字描述", pages 40 - 41 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069361A (zh) * | 2020-08-27 | 2020-12-11 | 新华智云科技有限公司 | 一种基于多模态融合的视频描述文本生成方法 |
CN112015955B (zh) * | 2020-09-01 | 2021-07-30 | 清华大学 | 一种多模态数据关联方法和装置 |
CN112015955A (zh) * | 2020-09-01 | 2020-12-01 | 清华大学 | 一种多模态数据关联方法和装置 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN111901668A (zh) * | 2020-09-07 | 2020-11-06 | 三星电子(中国)研发中心 | 视频播放方法和装置 |
CN112738647A (zh) * | 2020-12-28 | 2021-04-30 | 中山大学 | 一种基于多层级编码-解码器的视频描述方法及系统 |
CN113205060A (zh) * | 2020-12-28 | 2021-08-03 | 武汉纺织大学 | 采用循环神经网络依据骨骼形态判断的人体动作检测方法 |
CN112733764A (zh) * | 2021-01-15 | 2021-04-30 | 天津大学 | 一种基于多模态识别视频情感信息的方法 |
CN112818846A (zh) * | 2021-01-29 | 2021-05-18 | 湖南科技学院 | 视频帧的特征提取方法、装置及电子设备 |
CN112801017A (zh) * | 2021-02-09 | 2021-05-14 | 成都视海芯图微电子有限公司 | 一种视觉场景描述方法及系统 |
CN112801017B (zh) * | 2021-02-09 | 2023-08-04 | 成都视海芯图微电子有限公司 | 一种视觉场景描述方法及系统 |
CN112926452A (zh) * | 2021-02-25 | 2021-06-08 | 东北林业大学 | 一种基于GCN和GRU增强U-Net特征的高光谱分类方法及系统 |
CN112801762A (zh) * | 2021-04-13 | 2021-05-14 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN112801762B (zh) * | 2021-04-13 | 2021-08-03 | 浙江大学 | 基于商品感知的多模态视频高光检测方法及其系统 |
CN113641854A (zh) * | 2021-07-28 | 2021-11-12 | 上海影谱科技有限公司 | 一种将文字转化为视频的方法及系统 |
CN113641854B (zh) * | 2021-07-28 | 2023-09-26 | 上海影谱科技有限公司 | 一种将文字转化为视频的方法及系统 |
WO2023050295A1 (zh) * | 2021-09-30 | 2023-04-06 | 中远海运科技股份有限公司 | 一种基于多模态异质特征融合的视频密集事件描述方法 |
CN114154016B (zh) * | 2021-11-24 | 2022-05-31 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114154016A (zh) * | 2021-11-24 | 2022-03-08 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114511813A (zh) * | 2022-04-20 | 2022-05-17 | 天津市城市规划设计研究总院有限公司 | 视频语义描述方法及装置 |
CN116246214A (zh) * | 2023-05-08 | 2023-06-09 | 浪潮电子信息产业股份有限公司 | 视听事件定位方法、模型训练方法、装置及设备和介质 |
CN116246214B (zh) * | 2023-05-08 | 2023-08-11 | 浪潮电子信息产业股份有限公司 | 视听事件定位方法、模型训练方法、装置及设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111488807B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488807A (zh) | 基于图卷积网络的视频描述生成系统 | |
CN112668671B (zh) | 预训练模型的获取方法和装置 | |
Zheng et al. | Unsupervised representation learning with long-term dynamics for skeleton based action recognition | |
US20210390700A1 (en) | Referring image segmentation | |
KR101855597B1 (ko) | 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법 | |
CN110853670B (zh) | 音乐驱动的舞蹈生成方法 | |
CN113392717B (zh) | 一种基于时序特征金字塔的视频密集描述生成方法 | |
Tang et al. | Real-time controllable motion transition for characters | |
Liu et al. | Optimization-based key frame extraction for motion capture animation | |
CN110866510A (zh) | 一种基于关键帧检测的视频描述系统和方法 | |
CN113423004B (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN112488055A (zh) | 一种基于渐进图注意力网络的视频问答方法 | |
CN113889179A (zh) | 基于多视图深度学习的化合物-蛋白质相互作用预测方法 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN115731498A (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
CN113989943B (zh) | 一种基于蒸馏损失的人体动作增量识别方法及装置 | |
CN110826397B (zh) | 一种基于高阶低秩多模态注意力机制的视频描述方法 | |
CN112417890A (zh) | 一种基于多样化语义注意力模型的细粒度实体分类方法 | |
CN116939320A (zh) | 一种生成式多模态互利增强视频语义通信方法 | |
CN116385946A (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN115311598A (zh) | 基于关系感知的视频描述生成系统 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
CN114677631A (zh) | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 | |
Zhu | Video captioning in compressed video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |