CN111488807A

CN111488807A - 基于图卷积网络的视频描述生成系统

Info

Publication number: CN111488807A
Application number: CN202010233049.7A
Authority: CN
Inventors: 张玥杰; 肖鑫龙
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-03-29
Filing date: 2020-03-29
Publication date: 2020-08-04
Anticipated expiration: 2040-03-29
Also published as: CN111488807B

Abstract

本发明属于跨媒体生成技术领域，具体为基于图卷积网络的视频描述生成系统。本发明的视频描述生成系统包括：视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络；视频特征提取网络对视频进行采样处理，获取视频特征，输出至图卷积网络；图卷积网络对视频特征根据语义关系进行重构，并输入至句子描述生成循环神经网络；句子描述生成网络根据视频重构的特征进行句子生成。本发明采用图卷积对视频中帧级序列和目标级序列特征进行重构，在生成描述语句时充分利用视频内的时序信息和语义信息，使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义，能够提高模型对视频视觉信息的理解能力，具有广泛应用价值。

Description

基于图卷积网络的视频描述生成系统

技术领域

本发明属于跨媒体生成技术领域，具体涉及基于图卷积网络的视频描述生成系统。

背景技术

在各种多模态信息处理任务中，视频描述自动生成(Video Captioning)是一项非常重要的任务，其在视频分析领域是一项基础性的研究任务。其任务为给定一段视频，计算机自动分析视频的内容，生成描述视频主要内容的语句。该任务是在图像描述自动生成任务(Image Captioning)的基础上发展而来，但视频与图像存在显著性差异，视频可被看作为多幅图像的集合，并伴随着音频信息，其特征的多样性、内容场景的复杂性都远远超出图像，因此视频描述自动生成的技术难度及挑战性也远高于图像描述生成技术。该项任务设计到人工智能的两个研究领域，计算机视觉(Compute Vision,CV)和自然语言处理(Natural Language Processing,NLP)，其在两个领域搭起桥梁将它们紧密联系起来。从计算机角度出发，其理解一段视频并不能和人类分析视频一样简单。目前，图像分析对于图像的表示一般采取将其处理成一维向量，依照这种方式视频便是一组序列向量的集合，如何改进图像描述生成技术，将其转换为视频描述生成技术，这都是早期的研究方向。此外，对于视频中的多种模态信息，如何将它们合理应用以加强语句描述生成的质量，这些都区别于图像描述生成技术。

描述生成技术(Captioning)一般采用编码-解码(Encoder-Decoder)框架，编码器常采用卷积神经网络CNN(Convolution Neural Network)提取视频帧特征，解码器采用循环神经网络RNN(Recurrent Neural Network)生成序列语句。CNN能将图像信息进行提炼，得到其高层次的语义表示，在图像分类，目标检测等领域具有很好的效果；RNN则由于其良好的序列生成能力而在自然语言处理领域中得到广泛应用，在描述生成方向也被广泛采用。CNN结合RNN，分别对应于计算机视觉与自然语言处理，是语句描述生成模型的基本骨架。

早期的研究工作通常借鉴图像描述生成技术，将图像的特征输入改为视频的特征输入，然后生成描述性语句。这类方法需要将序列特征转换为单一的、与图像表示一致的特征，较为简单的处理是采用池化层对序列进行均值处理，也有进行关键帧检测，只将关键帧输入至生成模型中。此类方法都在一定程度上造成信息损失，破坏视频的内容丰富度。之后，基于时序注意力机制的方法在每个时刻对帧序列特征进行采样加权，并赋予不同的权重，在生成文本描述时单词的关注信息不一样。这些方法都主要集中于视觉特征的处理上，即集中于编码阶段。随着自然语言处理的发展，生成模型也在不断进步，基于CNN、Transform的解码器也逐步应用于视频描述生成任务。

尽管现有的工作在视频自动描述任务上取得很大的进步，但对于视频本身的特性并未完全挖掘，视频的时序性、及不同帧内部的物体信息并未得到充分利用，对于生成模型，其输入一般为前一时刻的单词，对于之前时刻的其他单词信息也存在丢失现象。为解决上述问题，非常有必要引入当前相关领域的前沿工作，对于编码、解码两个过程进行重新的构建，更加全面地考虑视频内部的信息，生成更为精确的语义描述。本发明就是由此激发，设计包含四个部分的视频描述生成方法，采用图卷积对于视频内部信息进行重构，充分利用视频时序信息与目标物体信息，采用更为准确的预测模式，针对视频生成更好的描述性语句。

发明内容

本发明所解决的问题是针对视频描述任务，现有模型在处理视频有关时序信息和帧内物体信息的利用；为解决所述问题，本发明提供基于图卷积网络的视频描述生成系统。

本发明所提供基于图卷积网络的视频描述生成系统，包括：视频特征提取网络、图卷积网络、视觉注意力网络以及句子描述生成网络；所述视频特征提取网络获取视频的多种特征向量表示，并输入至图卷积网络中；所述图卷积网络对特征进行重构，再输入至视觉注意力网络中；所述视觉注意力网络根据所述语句描述生成网络的隐藏状态和重构后的特征获取上下文相关的视频特征表示，再输入至语句描述生成网络；所述语句描述生成网络根据所述视频特征表示输出描述所述视频的语句。

本发明中，所述视频特征提取网络，包含Inception-V3、Faster-RCNN、C3D深度卷积网络。对于视频进行帧的采样，采样按照等间隔进行，一个视频最终对应于16帧，每一帧通过Inception-V3网络映射成2,048维度的向量；每一帧也会输入到Faster-RCNN中获取4个候选框，此处采用极大值抑制算法筛选出面积最大的四个候选框，基于Inception-V3获取每个候选框的特征表示；并通过C3D网络获取视频的C3D特征。最终，对于一个视频，其特征包含时序特征16*2,048、目标序列特征64*2,048以及C3D特征1*2048。

本发明中，所述图卷积网络，根据视频时序上的联系、目标之间的联系对所述时序特征、目标序列特征进行重构。图网络的基本模型定义如下：

其中，G为所构建图的节点表示，即n*dim的矩阵，n表示节点数量，dim表示节点的表示维度，M为所构造图的邻接矩阵，W为全连接层，对维度进行转换。本发明所述图卷积网络结构与此保持一致，在帧级别采用6*16的矩阵对序列特征进行重构，在目标级别采用64*64的邻接矩阵，此外目标级别邻接矩阵的权重值为目标之间的相似度，其相似度计算公式为：

其中，W表示全连接层，

表示点积运算。目标级别的临界矩阵M_f定义如下：

其中，mask_ij表示目标i与j是否具有联系，即两个节点是否有边；若i,j属于同一帧F_t，则认为其具有语义上的关联；或者当i,j目标对应的框具有较高关联度，其关联度采用数值s_ij表示；s_ij前一项表示面积大小的比例关系，后一项表示重合部分占i,j所有部分的比例，s_ij为空间上的关联度量化，在此基础加上时间上的联系而最终确定邻边，邻边的权重则为i,j的相似度。由此，可以得到目标级别的邻接矩阵M_f，帧级别的邻接矩阵则为固定值M_v。整个重构过程定义如下：

其中，V和F分别为帧序列特征和目标序列特征；

和

分别为重构后的帧特征序列和目标特征序列。

本发明中，所述视觉注意力网络，包括帧级别和目标级别的注意力网络，所述帧级别视觉注意力网络输入包含两部分，即所述语句描述生成网络在时刻t的第一层隐藏状态

及所述图卷积网络的帧级别重构特征

其输出为

过程为：

其中，corr计算两个向量的相似度，采用余弦距离、欧式距离或点积方法，在此处选用点积表示两者之间的相似度，具体操作为将向量进行维度转换后再进行点积运算；

所述目标级别视觉注意力网络输入包括两部分，即所述语句描述生成网络在时刻t的第一层隐藏状态

及所述图卷积网络的帧级别重构特征

其输出为

计算过程与帧级别相同。

本发明中，所述语句描述生成网络，采用循环神经网络作为生成器，进行语句生成；采用两层GRU作为解码器，GRU₀进行粗粒度解码，GRU₁进行细粒度解码，最终采用GRU₁的输出预测下一时刻的单词；第一层GRU₀在t时刻的输入包含两部分，即前一时刻的隐藏状态

及之前时刻所生成的词S^t-1所对应的词向量；其输出为

定义如下所示：

其中，W_es表示训练集中词典对应的词向量矩阵，D_s对应词典集合,dim为词向量的维度，

用于指导所述视觉注意力网络生成的

与

第二层GRU₁在t时刻输入包含五个部分，即前一时刻的隐藏状态

之前时刻所生成的词S^t-1，S^t-2，S^t-3所对应的词向量、帧级别视觉注意力特征

目标级别视觉注意力特征

及视频C3D特征C₃，定义如下所示：

其在t时刻输出

通过softmax层后输出在词典上的概率分布p(S^t)。

本发明提供基于图卷积网络的视频描述生成系统，其工作流程为：

一、所述的视频特征提取网络，对视频进行帧采样，提取视频的帧级序列特征向量。对采样帧进行目标检测，获取视频中目标的坐标信息，裁剪后输入至深度卷积网络中获取视频目标级的特征表示。同时，获取视频的C3D特征表示；

二、所述的图卷积网络，对视频帧特征序列和视频的目标特征序列进行特征重构。其中本发明所提出方法主要构建两种图，一是以帧为节点的图，另一个是以视频帧内目标物体为节点的图；

三、所述的视觉注意力网络，对重构后的帧序列特征和目标序列特征与上一时刻生成器中的隐藏状态进行相似度计算，加权后得到视频的上下文特征表示；

四、所述的语句描述生成模型，即循环神经网络模块，根据输入的视觉特征和前面所采样生成的单词信息，进行下一时刻的单词预测。

较之已有的相关视频描述生成方法，本发明提出的方法具有三大优势，即充分利用视频的时序信息、充分利用视频内具体目标对象的信息、及采用更为准确的单词预测模式。第一，针对视频时序信息的利用体现在，本发明所提出方法的模型采用帧级别的图网络对视频时序特征序列进行重构，在重构过程中按照视频帧的顺序进行，已有方法则基本完全忽略帧的顺序，视这些帧为无关的表示。第二，针对视频内具体目标对象信息的利用体现在，本发明所提出方法采用目标级别的图网络对视频的目标序列信息进行重构，在重构过程中充分考虑每一帧内部的联系与帧之间目标的位置信息，并采用目标之间的相似度作为临界矩阵的权重值。第三，更为准确的单词预测模式体现在，本发明所提出方法提出在预测单词时采用双层GRU作为解码器，并采用粗细粒度的预测模式，在细粒度预测中采用前面时刻的多个单词与视觉信息综合预测下一时刻单词。

综上所述，本发明针对于视频描述生成任务中视频时序信息、视频目标信息、及单词预测模式提出相应的算法模型，即基于图卷积网络的视频描述生成方法，使得视频内的多模态信息得以利用，描述性语句生成更为精确。本发明所提出方法可应用于针对大规模视频的描述生成中，生成对应于视频内容的精确描述性语句，提高可用性和用户体验。

附图说明

图1为本发明系统图示。

图2为本发明中的模型框架示意图。

具体实施方式

由背景技术可知，现有的视频描述生成方法对于视频内部的序列信息和具体的目标物体信息存在利用不充分的情况。本发明针对所述问题进行研究，引入最新前沿技术即图卷积网络，对于视频内部的视觉信息进行重建，在重建过程中充分考虑到视频帧的顺序信息和目标物体之间的语义关联信息，并采用两层GRU作为解码器进行最终描述语句生成，在生成过程中采用粗细粒度的层次递进模式，使得视频描述生成更为精确。本发明所提出模型适用于所有基于编码-解码模式的视频描述生成技术，能显著提高生成语句的精度。

下文中，结合附图对本发明的具体细节做以阐述。

如图1所示，本发明所提出的基于图卷积网络的视频描述生成系统，包括视频特征提取网络、图卷积网络、视觉注意力网络、及语句描述生成网络。其工作流程为：

一：所述视觉特征提取网络，针对所获取视频进行帧采样，并利用深度卷积网络获取帧的视觉特征向量表示16*2,048，对采样帧进行目标检测，获取16*4个候选框，对候选框进行裁剪并输入至深度卷积网络中获取目标序列特征表示16*4*2,048。所述深度卷积网络可选用图像分类任务中的深度卷积模型，本发明采用Inception-V3网络。另为增强图像的视觉标识，提取视频的C3D特征1*4,096。此外，为缩减模型参数规模，加快模型处理能力，对特征均进行维度转换，均转换为512维度，即帧级特征16*512、目标级特征16*4*512、及C3D特征1*512。

在一中，对于视频特征提取进行两个层次的提取，一是帧的整体，另一是帧内部的目标信息，由于目前目标检测模型的目标定位能力较精确，目标分类能力并不泛化，在本发明中只采用视频内部帧的目标位置信息，目标分类结果由于精度较低并未采用。

二：所述图卷积网络对于获取的视觉特征进行重构。其重构具体流程如下所示：

(一)、构建帧级图，邻接矩阵为7*16的矩阵，将16*512帧级图特征表示转化为7*512。

(二)、构建目标级图，邻接矩阵为64*64，构建邻接矩阵时同一帧内目标具有边关系，不同帧之间位置信息接近的目标具有边关系，具有关系的边权重值为两两目标之间的相似度，不具有关系的权重值为0，邻接矩阵具体计算公式如下：

(三)、根据所述的邻接矩阵对目标级图进行重构，由16*4*512转换为16*4*512，在此过程中图的节点表示得到重构。

在二中，对于视频信息进行两个层次的处理，一是对帧序列特征进行重构，在重构过程中充分考虑帧间的相邻关系；另一是对于目标序列的重构，在重构过程中既考虑帧内目标的关系，也考虑帧间相似位置目标的关系。特征的重构过程采用图卷积网络，使得重构后的特征更适合视频的语句描述生成。

三：所述视觉注意力网络，对于视频帧级重构特征序列16*512，计算隐藏层状态与其之间的相似度，将相似度作为权值进行加权，得到帧级的视频特征表示1*512；对于目标级特征序列16*4*512，进行相同操作，得到目标级的视频特征表示1*512。其具体计算方式如下：

在三中，利用注意力网络将重构后的特征序列转换为单一向量，以便于之后解码器对视频特征表示进行分析，预测下一时刻的单词概率分布。

四：所述语句描述生成模型，采用两层GRU作为解码器。第一层作为粗粒度解码，输入包含第一层前一时刻的隐藏层

前一时刻生成的单词S^t-1、视频帧级特征序列的均值

视频目标级特征序列的均值

及视频C3D特征C₃。第二层输入包含步骤三中帧级视频特征表示

目标级视频特征表示

第二层前一时刻的隐藏层

之前所生成的单词S^t ^-1,S^t-2,S^t-3、及视频的C3D特征C₃。采用第二层的输出预测下一时刻单词概率分布p(S^t)，其具体操作如下：

在步骤四中，相较于之前视频描述生成方法，有两点改进，一是采用粗细粒度的语言模型，

包含当前时刻预测单词的粗粒度信息，其用于指导步骤三生成更适合单词预测的视频特征表示，以进一步用于生成当前时刻单词的细粒度信息表示

另一是在第二层中采用多个之前预测单词的信息，有助于联系更多上文来加强当前时刻的单词预测。

具体流程可视化如图2所示，按照步骤一至四依次进行，即可得到视频描述语句。此外，在生成语句描述时，采用BeamSearch方法来筛选最优语句，有效避免单词的采样偏差。在本发明提出的方法中，将BeamSize的值设为3，以平衡精度与时间代价的关系。

本发明提出的方法实例选用数据集MSVD和MSR-VTT，MSVD包含1,970视频，MSVD包含10,000视频。两者均采用标准的数据集划分，在MSVD测试集上BLEU-4、Cider、Meteor、及Rouge分值分别为52.6、89.6、36.3、及72.7。在MSR-VTT上，添加辅助的音频信息和视频目录信息后，BLEU-4、Cider、Meteor、及Rouge分值分别为44.6、51.4、29.5、及62.5，性能相较于以往方法有着较大的提升。

本发明不但适用于所述的模型框架，也适用所有基于编码解码的视频描述生成方法，同时适用于不采用循环神经网络作为解码器的视频描述生成方法，具体实践为将本发明的特征重构过程加入编码阶段，将本发明的语句描述生成融入解码阶段。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.基于图卷积网络的视频描述生成系统，其特征在于，包括：视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络；所述视频特征提取网络对视频进行采样，获取采样帧的特征向量序列，对采样帧进行目标检测，获取目标的特征向量序列，并输入至图卷积网络中进行特征重构；所述图卷积网络从帧和目标两个层级对特征进行重构，输入至视觉注意力网络；所述视觉注意力网络对特征序列进行融合，输入至句子描述生成网络；所述句子描述生成网络根据融合向量序列输出所述视频的描述语句。

2.根据权利要求1所述的基于图卷积网络的视频描述生成系统，其特征在于，所述视频特征提取网络包含Inception-V3、Faster-RCNN、C3D深度卷积网络；对于视频进行帧的采样，采样按照等间隔进行，一个视频最终对应于16帧，每一帧通过Inception-V3网络映射成2,048维度的向量；每一帧也输入到Faster-RCNN中获取4个候选框，此处采用极大值抑制算法筛选出面积最大的四个候选框，基于Inception-V3获取每个候选框的特征表示；并通过C3D网络获取视频的C3D特征；最终，对于一个视频，其特征包含时序特征16*2,048、目标序列特征64*2,048以及C3D特征1*2048。

3.根据权利要求1所述基于图卷积网络的视频描述生成系统，其特征在于，所述图卷积网络，根据视频时序上的联系、目标之间的联系对所述时序特征、目标序列特征进行重构；图网络的基本模型定义如下：

其中，G为所构建图的节点表示，即n*dim的矩阵，n表示节点数量，dim表示节点的表示维度，M为所构造图的邻接矩阵，W为全连接层，对维度进行转换；在帧级别采用6*16的矩阵对序列特征进行重构，在目标级别采用64*64的邻接矩阵；此外目标级别邻接矩阵的权重值为目标之间的相似度，其相似度计算公式为：

其中，W表示全连接层，

表示点积运算；目标级别的临界矩阵M_f定义如下：

其中，mask_ij表示目标i与j是否具有联系，即两个节点是否有边；若i,j属于同一帧F_t，则认为其具有语义上的关联；或者当i,j目标对应的框具有较高关联度，其关联度采用数值s_ij表示；s_ij前一项表示面积大小的比例关系，后一项表示重合部分占i,j所有部分的比例，s_ij为空间上的关联度量化，在此基础加上时间上的联系而最终确定邻边，邻边的权重则为i,j的相似度；由此，得到目标级别的邻接矩阵M_f，帧级别的邻接矩阵则为固定值M_v；整个重构过程定义如下：

其中，V和F分别为帧序列特征和目标序列特征；

和

分别为重构后的帧特征序列和目标特征序列。

4.根据权利要求1所述基于图卷积网络的视频描述生成系统，其特征在于，所述视觉注意力网络，包括帧级别和目标级别的注意力网络，所述帧级别视觉注意力网络输入包含两部分，即所述语句描述生成网络在时刻t的第一层隐藏状态

及所述图卷积网络的帧级别重构特征

其输出为

过程为：

其中，corr计算两个向量的相似度，采用余弦距离、欧式距离或点积方法；

及所述图卷积网络的帧级别重构特征

其输出为

计算过程与帧级别相同。

5.根据权利要求1所述的基于图卷积网络的视频描述生成系统，其特征在于，所述描述语句生成网络，采用循环神经网络作为生成器，进行语句生成；采用两层GRU作为解码器，GRU₀进行粗粒度解码，GRU₁进行细粒度解码，最终采用GRU₁的输出预测下一时刻的单词；第一层GRU₀在t时刻的输入包含两部分，即前一时刻的隐藏状态