CN115311598A

CN115311598A - 基于关系感知的视频描述生成系统

Info

Publication number: CN115311598A
Application number: CN202210911326.4A
Authority: CN
Inventors: 张玥杰; 郑逸; 陈晖�; 景和明
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-08

Abstract

本发明属于跨媒体生成技术领域，具体为基于关系感知的视频描述生成系统。本发明系统包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络。视频特征提取网络对视频进行帧采样，获取帧级别视觉语义特征与目标对象序列特征及相关信息；关系感知视觉特征编码网络对帧级别视觉语义进行融合，对视频中目标对象序列特征根据关系信息进行重构编码；语言解码网络采用注意力机制融合特征信息，生成最终的描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息，利用图卷积对视频中对象级序列特征进行重构，在生成描述语句时充分利用视频内对象间的空间语义与时序关系信息，使生成更精确，并提高模型对视频视觉信息的理解能力。

Description

基于关系感知的视频描述生成系统

技术领域

本发明属于跨媒体生成技术领域，具体涉及基于关系感知的视频描述生成系统。

背景技术

近年来，信息传递的效率随着科学技术的发展而提高，视频逐渐代替文字、语音等传统媒体成为人们主流的信息获取渠道。与此同时，移动互联网时代的来临进一步降低视频创作与传播的门槛，视频数据数量与日俱增。因此，如何让计算机自动化地理解视频，这一问题受到广泛关注。视频描述生成任务(Video Captioning)，旨在让计算机针对给定的输入视频生成一句或一段描述视频内容的自然语言，是能最为直观地展现计算机理解能力的任务之一。由于视频描述生成任务需要建立不同模态信息特征间的联系，必须寻找一种方式将不同模态的信息映射到相同的向量空间中，这对视频特征提取、特征建模提出更高的要求。随着视频信息的不断增加，该任务具有非常广阔的应用场景，如自动解说、导航辅助、智能人机环境开发等，同时在推动旅游、教育及计算机学科本身发展等方面意义巨大。

现有的视频描述生成方法通常可分为两类，即基于模板的描述生成方法和基于深度学习的描述生成方法。基于模板的方法为生成模型预先定义一些自然语言的特殊规则，例如主语、动词和宾语。使用这样的语法预定义模板，生成模型可直接预测句子每个部分的单词，为给定视频生成合理描述，但其输出往往相似且缺乏多样性。同时，由于基于模板的方法依赖于预定义的模板和语言规则，因此在训练之前需要进行精心的规则设计，也会造成生成的句子形式高度僵化。随着深度学习的不断进步，基于“编码器-解码器”框架的深度学习方法自机器翻译任务引入，被广泛用于视频描述生成任务。这类方法一般采用卷积神经网络(Convolutional Neural Network,CNN)模型从视频帧序列中提取视觉语义特征，编码融合成视频的特征表示；解码阶段则采用循环神经网络(Recurrent Neural Network,RNN)模型，根据编码器传递来的视觉信息生成最终的描述语句。在视觉信息编码阶段，除去常规的卷积特征提取，一些较先进的方法会采用目标检测技术先对视频中的对象进行预检测，并将检测出的对象信息融合进视觉信息的表示，以捕获更细粒度的视觉语义信息。

综合来看，现有的视频描述生成方法已颇见成效，可为视频生成较为合理的描述语句。然而，仍存在一些问题未得到很好的解决，诸如描述中常常出现主语错误、动作预测不够准确、及难以理解而存在多个对象的复杂场景等。出现这些情况的主要原因在于，虽然当下用于视频描述生成任务的先进方法针对视频中的对象特征进行建模，但并未更细粒度地显式建模视频中出现对象之间的关系，导致视频中的信息未被充分保留。一方面，由于传统的特征提取模型并未对关系信息进行显式建模，模型可能会丢失部分有效信息，导致所生成描述语句的主语或动词等关键部分出现错误。另一方面，由于数据集规模的有限性，涉及的场景信息往往存在长尾效应，部分复杂场景可能样本量较少，以至于模型往往忽略其全局复杂关系信息，仅提取数据集中常见的部分信息进行预测。本发明就是由此激发，设计包含三个部分的视频描述生成方法，显式建模视频中对象级别特征关系，采用图卷积对视频中的对象语义信息进行重构，针对视频生成更具质量的描述性语句。

发明内容

本发明的目的在于提出一种针对视频的基于关系感知的视频描述生成方法，以提升所生成语言描述的质量。

本发明所提供基于关系感知的视频描述生成系统，采用图卷积网络，包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络；其中，所述视频特征提取网络对视频进行采样，获取采样帧的特征向量序列，对采样帧进行场景图解析，获取显著目标的特征向量序列以及任意目标对之间的关系预测信息，并输入至关系感知视觉特征编码网络中进行特征重构；所述关系感知视觉特征编码网络从帧和目标两个层级对特征进行重构，融合，并输出整个视频的特征表示，输入至语言解码网络；所述语言解码网络采用注意力机制进一步融合特征信息，采样生成最终的视频描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息，利用图卷积对视频中对象级序列特征进行重构，在生成描述语句时充分利用视频内对象间的空间语义关系信息与时序关系信息，使得生成更为精确。

本发明中，所述视频特征提取网络，包含InceptionResnet-V2、I3D深度卷积网络以及场景图解析网络ReIDNs；对视频进行关键帧采样，采样按照等帧数采样，一个视频最终对应于26帧，每一帧通过在ImageNet上预训练的InceptionResnet-V2网络映射为1,536维度的2D特征；以26帧为中心抽取出26个片段集，通过I3D网络获取视频1,024维的3D特征；同时，通过ReIDNs网络对视频帧序列上的每个关键帧提取场景图特征。此处所指的场景图特征包括两个部分，即该帧内目标对象所提取的特征及两两对象之间的关系预测信息；最终，对于一个视频，其特征包含2D特征、3D特征以及场景图特征。

本发明中，所述关系感知视觉特征编码网络，包括帧级别的特征编码网络以及关系感知对象特征增强网络；帧级别的特征编码网络融合2D特征与3D特征，捕捉视频帧级别的视觉语义特征；关系感知对象特征增强网络根据场景图特征，构建视频对象序列空间与时序关系图，以图网络建模并增强对象序列特征；其中：

帧级别特征编码网络通过一个双向LSTM网络融合帧级别视觉语义信息，其基本模型定义如下：

V_a,m＝[V_a；V_m]， (1)

V_s＝BiLSTM(V_a,m)， (2)

其中，V_a为视频中提取的2D特征；V_m为3D特征；[；]表示拼接；V_s即为编码后的帧级别特征表示向量。

关系感知对象特征增强网络包括针对对象序列的空间关系感知和时序关系感知两个分支；首先，对于视频中提取出的每一个视频帧，用ReIDNs提取出前n置信度对象的对象特征及其相关信息(包括对象框、场景图等)。接着，用这些所提取的对象作为节点，可以构建一张存在n个节点的图结构，图中每个节点信息为对象的特征向量。对于图的边，用象征关系信息的邻接矩阵形式进行表示，即

如果第i个对象o_i存在指向第j个对象o_j的关系

那么有

这样，为所有采样帧构建一个关系感知的空间图，以表示对象之间的语义交互信息。

在空间关系图的基础上，空间关系感知分支对特征序列的更新过程定义如下：

其中，

表示具有d维特征的n个对象序列；V_o,i表示第i个对象的特征向量；

是变换矩阵；b是偏差；ρ表示激活函数(如ReLU、Tanh等)；N(V_o,i)表示第i个结点的邻居集合，即与该结点存在权值边的结点集合(也包括结点自身)；lab(V_o,i,V_o,j)表示基于第i个对象和第j个对象之间不同关系类型的偏差，有：

时序关系感知分支将对象序列的时序关系信息融合进对象特征。为了捕捉时序维度上的对象关系信息，对于第t帧中的对象

只需要建模其与相邻帧中对象之间的关系，即在相邻帧间建立关系连接。通过计算该对象的特征表示与其相邻的t±1帧中的对象特征表示

之间的欧几里德距离，能评估出该对象

与相邻帧内对象的相似性。如果

和

之间的欧式距离小于阈值λ，即可将这一对视频对象视为出现在两个相邻帧中的相同对象，在时序关系图中标记其存在边，并在这两个对象之间建立值为1的连接。关系评估过程可表述为：

由此，可以构建出一张无权值的无向图，即为时序关系图

在构建好的时序关系图的基础上，图卷积网络得以更新视频的对象特征向量，其过程如下：

其中，W_tem与b_tem为可学习参数；ρ表示激活函数；N(V_o,i)表示第i个结点的邻居集合。

之后，通过多层感知器(Multi-Layer Perceptron,MLP)层来融合两个分支更新后的对象特征序列，可表示为：

V′_o＝ρ(W_o[V_o,R；V_o,T]+b_o)， (8)

其中，V_o,R；V_o,T分别为更新后的空间关系对象特征序列与时序关系对象特征序列；

是可学习的线性变换矩阵；b_o是偏差信息；ρ为激活函数，一般为Tanh函数。至此，得到基于关系感知信息增强的视频对象特征表示V′_o。

本发明中，所述语言解码网络，采用循环神经网络作为生成器进行语句生成；采用带注意力机制的双层LSTM网络作为解码器，双层LSTM网络分别为注意力LSTM与语言解码LSTM；注意力LSTM融合当前时刻的全局信息，输入注意力模块生成注意力权重；语言解码LSTM进行细粒度解码，最终采用语言解码LSTM的输出预测下一个时刻的单词。

注意力LSTM的输入由四个部分组成，分别是上一时刻语言LSTM的隐藏状态

上个时刻预测单词的词向量w^t-1、视觉信息编码器输出的帧级别特征向量与对象特征序列向量，其输出为

定义如下：

其中，W_e为词向量的嵌入矩阵；

表示全局平均后的帧级别特征向量；

表示全局平均后的对象特征序列；[；]表示向量的拼接操作；

即为融合后的当前时刻全局信息，将与帧级别特征V_s和对象特征V′_o一同输入至语言解码器的注意力网络。注意力网络的计算过程如下：

其中，

表示在第t个时间步骤时，第i个帧特征的注意力权重；

表示在第t个时间步骤时，第i个对象特征的注意力权重；

W_s、W_o与U_h都是可学习参数。通过以上方式，针对帧级别特征与对象特征的注意力权重被计算出来，加权得到新的特征表示为：

其中，n和K分别是采样的帧数与每帧检测的对象数目；

是一个变换矩阵；b_att是偏差；得到注意力模块更新后的特征

和

后,如式(15)所示进行进一步融合，生成注意力网络的输出

语言LSTM输入为

输出为

其过程如下：

语言解码网络进一步采用一个两层的MLP网络作为信息融合机制来获得在词典上的条件概率分布，将其定义为：

本发明提供基于关系感知的视频描述生成系统，其工作流程为：

(一)所述视频特征提取网络对视频进行帧采样，利用预训练的深度CNN模型对图像进行特征表示，提取出帧级别的视觉特征向量序列；利用I3D网络获取视频时间维度上的运动特征表示；利用场景图解析模型提取出帧内对象的特征表示以及关系预测信息，得到目标级别的对象特征向量序列。

(二)所述关系感知视觉特征编码网络分为两个分支，为帧级别的全局特征编码分支以及目标级别的对象特征编码分支；帧级别的全局特征编码分支以帧级别的视觉特征向量序列与I3D网络提取的运动特征表示为输入，得到融合后的帧级别特征序列；目标级别的对象特征编码分支以对象特征向量序列以及预测的关系信息为输入，根据关系信息构建空间关系图结构，根据特征向量相似度构建时序关系图结构，采用图卷积网络进行特征重构，得到关系信息增强后的对象级别特征序列。

(三)所述语言解码网络以重构后的帧级别特征序列、对象级别特征序列以为输入，通过注意力机制加权融合两种特征，输出描述所述视频的语句。

较之已有的相关视频描述生成方法，本发明提出的方法具有两大优势，即充分利用视频内具体目标对象的空间关系、及充分利用视频内具体目标对象的时序关系。第一，针对视频内具体目标对象空间关系的利用体现在，本发明所提出方法的模型采用预训练的场景图解析模型预测目标对象之间的关系信息，进而构建有向带权的空间关系图，并用考虑到关系信息的图卷积网络进行重构，过往方法往往忽略这一部分信息或采取隐式建模的方式进行不充分建模。第二，针对视频内具体目标对象时序关系的利用体现在，本发明所提出方法采用对象之间的相似度作为依据构建时序关系邻接矩阵，通过图网络更新的方式充分对这一信息进行提取利用。

综上所述，本发明提出的针对视频的基于关系感知视频描述生成方法，使得视频内的视觉语义信息得到更充分利用，描述性语句生成更为精确。本发明可应用于针对大规模视频的描述生成中，生成对应于视频内容的精确描述性语句，提高可用性和用户体验。

附图说明

图1为本发明系统图示。

图2为本发明中的模型框架示意图。

具体实施方式

由背景技术可知，现有的视频描述生成方法对于视频内部目标对象的关系信息存在利用不充分的情况。本发明针对所述问题进行研究，引入场景图解析及图卷积网络技术，对于视频内部的视觉信息进行重建，在重建过程中充分考虑到视频内目标对象之间的语义关联信息，包括空间关系与时序关系信息，并采用两层LSTM作为解码器进行最终描述语句生成。本发明所提出模型适用于所有基于“编码器-解码器”模式的视频描述生成技术，显著提高生成语句的精度。

如图1所示，本发明所提出的基于关系感知的视频描述生成系统，包括视频特征提取网络、关系感知视觉特征编码网络、及语言解码网络。其流程为：

一：所述视觉特征提取网络，针对所获取视频进行帧采样，并利用深度卷积网络获取帧的视觉特征向量表示26*1,536。所述深度卷积网络可选用图像分类任务中的深度卷积模型，本发明采用InceptionResnet-V2网络。另为捕获帧序列中的动态信息，在Kinetics数据集上预训练的I3D模型提取视频1,024维3D特征。进一步，为获取视频中目标对象的细粒度信息，采用在Visual Genome数据集上预训练的场景图解析模型ReIDNs对视频帧序列进行特征提取。该模型会在帧上检测出所有可能的对象，即待定对象。通过计算每个待定对象间的联合交集(Intersection of Union,IoU)，一些冗余对象将被剔除。之后，根据置信度对剩余待定对象进行排序，从每一帧中取前20置信度值的对象即作为输入对象；同时，所选取20个对象之间的关系也会被预测得到。Visual Genome数据集中包含的关系数量是51种，包括动作词、位置关系词、未知或无关系等。本发明进一步添加一个特殊的标记self来表示自相关关系，即对象自身的关系，构建出一个包含52个元素的关系列表。即关系信息a^spa∈[0,52]。

在一中，对于视频特征提取进行两个层次的提取，一是帧的整体，另一是帧内部的目标对象信息。以上信息均被输入关系感知视觉特征编码网络中，进行进一步重构融合。

二：所述关系感知视觉特征编码网络对于获取的视觉特征进行重构，包括帧级别的特征编码网络以及关系感知对象特征增强网络。其重构具体流程如下所示：

(一)、帧级别的特征编码网络将2D、3D网络提取的特征拼接后，输入双向LSTM融合编码帧级别特征。

(二)、构建空间关系图与时序关系图。为每一个视频帧内的对象序列构建一个空间关系图，并使用其来更新对象特征。每个对象都被视为图中的一个结点。

表示具有d维特征的n个对象，

表示空间关系图对应的邻接矩阵，边则为一中ReIDNs所预测的关系信息。同时，为整个视频帧序列构建时序关系图，通过计算当前帧中对象与相邻帧中对象的相似度信息，从而得出图的权重，进而构造一个时序维度上的邻接矩阵

相似度评估过程如下：

(三)、对空间关系图与时序关系图进行重构，分别得到空间关系增强的对象特征序列和时序关系增强的对象特征序列，并通过多层感知器(Multi-Layer Perceptron,MLP)层融合两个特征。

在流程二中，对视频信息进行两个层次的处理，一是对帧序列特征进行融合，采用双向LSTM充分提取帧序列中的信息；另一是对于目标对象序列的重构，在重构过程中既考虑帧内目标的细粒度视觉语义关系，也考虑帧间相似位置目标的时序关系。特征的重构过程采用考虑关系信息的图卷积网络，使得重构后的特征更适合视频的语句描述生成。

三：所述语言解码网络，采用带注意力机制的两层LSTM作为解码器。第一层作为粗粒度解码，输入包含上一时刻语言LSTM的隐藏状态

注意力网络输入为

流程二中输出的帧级别特征序列V_s以及重构后的对象特征序列V_o ^′，其计算过程如下：

第二层LSTM输入包括第一层的输出

以及注意力网络的输出

采用第二层的输出预测下一时刻单词概率分布p，其具体操作如下：

具体流程可视化如图2所示，按照步骤一至三依次进行，即可得到视频描述语句。此外，在生成语句描述时，采用BeamSearch方法来筛选最优语句，有效避免单词的采样偏差。在本发明提出的方法中，将BeamSize的值设为3，以平衡精度与时间代价的关系。

本发明提出的方法实例选用数据集MSVD和MSR-VTT。MSVD包含1,970视频，MSVD包含10,000视频。两者均采用标准的数据集划分，在MSVD测试集上BLEU-4、CIDEr、METEOR、及ROUGE-L分值分别为55.2、100.1、36.5、及74.1。在MSR-VTT上BLEU-4、Cider、Meteor、及Rouge分值分别为42.5、51.4、28.5、及62.4，性能相较于以往方法有着较大提升。

本发明不但适用于所述的模型框架，也适用所有基于编码-解码的视频描述生成方法，同时适用于不采用循环神经网络作为解码器的视频描述生成方法，具体实践为将本发明的特征重构过程加入编码阶段，不改动解码器方案。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于关系感知的视频描述生成系统，其特征在于，采用图卷积网络，包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络；其中，所述视频特征提取网络对视频进行采样，获取采样帧的特征向量序列，对采样帧进行场景图解析，获取显著目标的特征向量序列以及任意目标对之间的关系预测信息，并输入至关系感知视觉特征编码网络中进行特征重构；所述关系感知视觉特征编码网络从帧和目标两个层级对特征进行重构，融合，并输出整个视频的特征表示，输入至语言解码网络；所述语言解码网络采用注意力机制进一步融合特征信息，采样生成最终的视频描述语句。

2.根据权利要求1所述的视频描述生成系统，其特征在于，所述视频特征提取网络，包含InceptionResnet-V2、I3D深度卷积网络以及场景图解析网络ReIDNs；对视频进行关键帧采样，采样按照等帧数采样，一个视频最终对应于26帧，每一帧通过在ImageNet上预训练的InceptionResnet-V2网络映射为1,536维度的2D特征；以26帧为中心抽取出26个片段集，通过I3D网络获取视频1,024维的3D特征；同时，通过ReIDNs网络对视频帧序列上的每个关键帧提取场景图特征，所述场景图特征包括该帧内目标对象所提取的特征及两两对象之间的关系预测信息；最终，对于一个视频，其特征包含2D特征、3D特征以及场景图特征。

3.根据权利要求2所述的视频描述生成系统，其特征在于，所述关系感知视觉特征编码网络，包括帧级别的特征编码网络以及关系感知对象特征增强网络；帧级别的特征编码网络融合2D特征与3D特征，捕捉视频帧级别的视觉语义特征；关系感知对象特征增强网络根据场景图特征，构建视频对象序列空间与时序关系图，以图网络建模并增强对象序列特征；其中：

V_a,m＝[V_a；V_m]， (1)

V_s＝BiLSTM(V_a,m)， (2)

其中，V_a为视频中提取的2D特征；V_m为3D特征；[；]表示拼接；V_s即为编码后的帧级别特征表示向量；

关系感知对象特征增强网络包括针对对象序列的空间关系感知和时序关系感知两个分支；首先，对于视频中提取出的每一个视频帧，用ReIDNs提取出前n置信度对象的对象特征及其相关信息；接着，用这些所提取的对象作为节点，构建一张存在n个节点的图结构，图中每个节点信息为对象的特征向量；对于图的边，用象征关系信息的邻接矩阵形式进行表示，即

如果第i个对象o_i存在指向第j个对象o_j的关系

那么有

这样，为所有采样帧构建一个关系感知的空间图，以表示对象之间的语义交互信息；

其中，

是变换矩阵；b是偏差；ρ表示激活函数；N(V_o,i)表示第i个结点的邻居集合，即与该结点存在权值边的结点集合；lab(V_o,i,V_o,j)表示基于第i个对象和第j个对象之间不同关系类型的偏差，有：

时序关系感知分支将对象序列的时序关系信息融合进对象特征；为了捕捉时序维度上的对象关系信息，对于第t帧中的对象

建模其与相邻帧中对象之间的关系，即在相邻帧间建立关系连接；通过计算该对象的特征表示与其相邻的t±1帧中的对象特征表示

之间的欧几里德距离，能评估出该对象

与相邻帧内对象的相似性；如果

和

之间的欧式距离小于阈值λ，即将这一对视频对象视为出现在两个相邻帧中的相同对象，在时序关系图中标记其存在边，并在这两个对象之间建立值为1的连接；关系评估过程表述为：

由此，构建出一张无权值的无向图，即为时序关系图

其中，W_tem与b_tem为可学习参数；ρ表示激活函数；N(V_o,i)表示第i个结点的邻居集合；

之后，通过多层感知器(MLP)层来融合两个分支更新后的对象特征序列，表示为：

V′_o＝ρ(W_o[V_o,R；V_o,T]+b_o)， (8)

是可学习的线性变换矩阵；b_o是偏差信息；ρ为激活函数；至此，得到基于关系感知信息增强的视频对象特征表示V′_o。

4.根据权利要求3所述的视频描述生成系统，其特征在于，所述语言解码网络，采用循环神经网络作为生成器进行语句生成；采用带注意力机制的双层LSTM网络作为解码器，双层LSTM网络分别为注意力LSTM与语言解码LSTM；注意力LSTM融合当前时刻的全局信息，输入注意力模块生成注意力权重；语言解码LSTM进行细粒度解码，最终采用语言解码LSTM的输出预测下一个时刻的单词；

定义如下：

其中，W_e为词向量的嵌入矩阵；

表示全局平均后的帧级别特征向量；

即为融合后的当前时刻全局信息，将与帧级别特征V_s和对象特征V′_o一同输入至语言解码器的注意力网络；注意力网络的计算过程如下：

其中，

表示在第t个时间步骤时，第i个帧特征的注意力权重；

表示在第t个时间步骤时，第i个对象特征的注意力权重；

W_s、W_o与U_h都是可学习参数；通过以上方式，计算针对帧级别特征与对象特征的注意力权重；加权得到新的特征表示为：

其中，n和K分别是采样的帧数与每帧检测的对象数目；

和

后,如式(15)所示进行进一步融合，生成注意力网络的输出

语言LSTM输入为

输出为

其过程如下：

语言解码网络采用一个两层的MLP网络作为信息融合机制来获得在词典上的条件概率分布，将其定义为：

5.根据权利要求4所述的视频描述生成系统，其特征在于，工作流程为：

(一)所述视频特征提取网络对视频进行帧采样，利用预训练的深度CNN模型对图像进行特征表示，提取出帧级别的视觉特征向量序列；利用I3D网络获取视频时间维度上的运动特征表示；利用场景图解析模型提取出帧内对象的特征表示以及关系预测信息，得到目标级别的对象特征向量序列；

(二)所述关系感知视觉特征编码网络分为两个分支，为帧级别的全局特征编码分支以及目标级别的对象特征编码分支；帧级别的全局特征编码分支以帧级别的视觉特征向量序列与I3D网络提取的运动特征表示为输入，得到融合后的帧级别特征序列；目标级别的对象特征编码分支以对象特征向量序列以及预测的关系信息为输入，根据关系信息构建空间关系图结构，根据特征向量相似度构建时序关系图结构，采用图卷积网络进行特征重构，得到关系信息增强后的对象级别特征序列；