CN113158735A

CN113158735A - 一种基于图神经网络的密集事件描述方法

Info

Publication number: CN113158735A
Application number: CN202110075596.1A
Authority: CN
Inventors: 任柯燕; 钱欣艳; 岳天一; 张淳; 张文济
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-07-23

Abstract

本发明公开了一种基于图神经网络的密集事件描述方法，能够根据视频生成包含全部事件的时间及对应文字描述。该方法包括以下步骤：利用光流法、3D卷积网络和2D卷积网络分别对视频数据提取特征；对2D卷积网络提取的特征建立空间图，通过图卷积网络迭代后生成的特征与光流法、3D卷积特征拼接为长特征；采用锚边框对不同时间段的特征进行检测，划分为不同密集事件时间区域；采用非极大值抑制策略来消除重叠区域过多及分数较低的候选时间区域；对每个候选区域特征构建时间图，通过GAT更新每节点特征；将每个候选区域特征通过LSTM解码成对应文字输出。本发明结合空间信息和时序信息生成更精确的事件发生时间和对应的描述语言。

Description

一种基于图神经网络的密集事件描述方法

技术领域

本发明涉及视频描述技术领域，具体为一种基于图神经网络的密集事件描述方法。

背景技术

视频描述是将视频中的信息内容用语言进行描述，主要针对视频中发生的一件事进行文字表述，而密集事件描述是在此基础上对视频中发生的多个事件进行划分并分别进行描述，该研究领域是将计算机视觉与自然语言处理相结合的一个研究方向，是具有现实意义和研究价值的研究方向，现有技术能够将视频用文字描述但无法确定其具体发生时间，也并未考虑视频时序上的问题，本发明则希望获取较为精确的事件发生时间以及准确的语言描述，可得到视频中不同事件发生的起始、终止时间及事件描述。

针对视频特征提取问题，与图像不同，视频具有时序意义，虽然已经出现3D卷积等提取带有时序信息的特征，但提取效果仍然不够好。针对密集事件描述的时间划分问题最常见的方法是动作概率分布曲线，将事件提案划分拆分为两个阶段，首先通过单帧图像分析得到当前时间点是否为动作的概率估计，应用在整个视频帧序列上则可得到横坐标对应视频时长方向的动作概率分布曲线，然后从高概率的区域产生候选时序动作区域提议，最后将候选提议特征送入动作分类器给出时序动作检测的结果，但该方法容易出现提案缺少的情况，视频中的事件无法全面识别。视频描述的研究主要包含基于语言模板的描述生成和基于序列学习的描述生成。基于语言模板的方法会将检测得到的关键词与预先定义好的语言模板结合生成句子序列，但该方法不够灵活，局限于模板的个数以及种类，无法形成多样性的句子，而基于序列学习的语言描述是利用卷积神经网络+循环神经网络的框架生成更加灵活多变的语言句子，但由于视频是带有时序信息的图片组成，因此时序信息对语言的描述是很重要的，很好的利用时序信息能够更好地完成于语言描述。

针对相关技术中的问题，目前尚未有有效的解决方案。

发明内容

本发明为了解决现有技术无法准确描述视频中出现多个事件的问题，技术方案采用光流法、3D卷积网络和2D卷积网络对视频提取特征，并通过对视频构建空间图和时间图更好地学习视频中时间维度和空间维度信息，以便更好地进行密集事件描述。本发明的目的在于将一段视频中所有的密集事件发生时间进行分割，依次用语言文字对每个事件进行描述。

发明点包括：通过光流法、3D卷积网络和2D卷积网络三种方式对视频提取特征，其中，光流法提取视频动作特征，3D卷积网络提取视频视觉特征，2D卷积网络提取视频对象，若其中任意一种方式缺失，则对视频的特征获取不完整。为获取对象间的关系，对2D卷积网络识别后的对象建立空间图，通过现有的图卷积神经网络技术更新对象特征，使其带有相邻对象特征。建立固定大小的锚边框并针对不同起始时间生成不同候选时间区域，通过非极大值抑制筛选IoU大于阈值的时间区域，输出时间区域对应的起始终止时间。为每一个时间区域建立时间图获取时间区域前后帧的信息，将时间区域中每组长特征作为图节点，使用现有的GAT网络对其节点更新。最后将特征通过LSTM解码成语言文字，并与之前的时间区域相对应输出。

一种基于图神经网络的密集事件描述方法，具体包括以下步骤：

(1)利用光流法、3D卷积网络和2D卷积网络分别对视频数据提取特征，其中，光流法提取视频动作特征，3D卷积网络提取视频视觉特征，2D卷积网络提取视频对象；

(2)为获取视频中对象间的关系，对步骤(1)每组中2D卷积网络提取的对象建立空间图，通过图卷积网络迭代生成的对象特征与光流法、3D卷积特征拼接为该组的长特征；

(3)为使各组长特征带有前后组的信息更好地划分事件区域，将步骤(2)得到的各组的长特征按时间顺序输入至LSTM网络，得到各组带有上下文信息的特征，并将所有组的特征按时间顺序拼接为视频特征；

(4)采用锚边框对视频特征进行检测，划分为不同事件的候选时间区域，其中，锚边框是事先固定好的不同大小的窗口，通过按不同起始时间滑动获取多个时间区域；

(5)提取每个候选时间区域视频特征，通过两层卷积层预测每个候选区域的分数，采用非极大值抑制筛选时间区域，将所有的候选时间区域按照分数从大到小的顺序进行排列，计算分数最高的候选时间区域与其余候选时间区域的交并比(IoU)，删除IoU大于阈值的时间区域，剩余时间区域即为该视频中发生事件的时间区域，每个区域的开始时间和结束时间即为密集事件描述中每个事件的起始终止时间；

(6)为了对每个剩余的时间区域更好地解码成文字描述，每组的长特征获取该时间区域其他组的特征信息。提取步骤(5)剩余的每个时间区域的视频特征，对每一个时间区域构建时间图，通过GAT更新节点特征得到密集事件特征；

(7)将步骤(6)中每组的密集事件特征通过LSTM解码成对应文字输出，该输出为最终的事件描述，每个描述与步骤(4)的起始时间终止时间相对应，该模型输出为事件的起始时间、终止时间和文字描述。

所述步骤(1)的3D卷积采用C3D模型，2D卷积采用目标检测模型，获取前20个对象类别及对象的特征作为密集事件描述关注对象，每16帧作为一组提取3D卷积特征和光流特征，并从中随机选出一帧作为关键帧提取对象类别和特征。

所述步骤(2)的空间图节点为关键帧的20个对象类别和对象的特征，不同对象间的联通度由物体类别词向量的余弦相似度计算，高于阈值则联通，反之不联通。

所述步骤(6)的构建时间图的节点为每个时间区域不同组的长特征。

所述步骤(6)的模型GAT使用的是2层的多头注意力机制的GAT，由于无法用公式计算每组特征的关系，使用GAT网络通过多个注意力矩阵，从多个角度建模联通关系。

有益效果

本发明提出的一种基于图神经网络的密集事件描述方法能够将视频特征尽可能提取完整，通过空间图的方式构造空间物体联系更有利于判断事件的是否发生。通过锚边框的方式提取完整的提案，保证不丢失视频中发生事件的提案。最后通过为候选区域建立时间图，得到事件时序信息使生成文字描述更加合理准确。

附图说明

图1为本发明的方法流程图

图2为本发明的方法模型图

图3为本发明的空间图构造模型

具体实施方式

以下结合附图对本发明的实施方式作进一步说明，但本发明的实施不限于此。

本发明流程图如图1所示，以下进一步展开说明。

如图2所示，一种基于图神经网络的密集事件描述方法，具体包括：

如图所示，视频在0至69秒为一个男人在演奏乐器，38秒至59秒为一个女人在发出笑声，输入的数据为视频帧序列V＝{v₁,v₂,…,v_L}，L为视频总帧数。

步骤(1)包括以下步骤：

(1-1)对视频采用光流法处理：将视频的16帧作为一组作为输入提取动作特征，本视频共有n＝L/16组，前后帧对比计算其x方向和y方向的变化梯度，输出通道为2的动作特征f_l＝{f_l1,f_l2,…,f_ln}，如图2(a)第一分支所示；

(1-2)对视频采用3D卷积处理：使用预训练好的C3D模型，将视频按每16帧为一组输入至模型中，输出视觉特征f_c＝{f_c1,f_c2,…,f_cn}，如图2(a)第二分支所示；

(1-3)对视频采用2D卷积处理：在每16帧中随机产生一帧作为关键帧，利用在其他数据集上预训练好的Faster R-CNN目标检测模型，将关键帧中对象类别及特征检测出来，对象类别检测分数由高到低排列，取前20个对象类别所对应的对象特征作为2D卷积网络提取的视频对象的特征f_o＝{f_o1,f_o2,…,f_on}。

步骤(2)包括以下步骤：

(2-1)针对(1-3)提取的目标特征f_o构建空间图G，如图3所示，G将20个对象类别和特征编码为20个图节点，通过预先定义好的词向量获取每个对象类别词向量，两两计算词向量余弦相似度，若余弦相似度高于60％，则说明两个节点连通，否则说明两个节点不连通，以此建立邻接矩阵A，令A＝A+I保证存在自连接，其中I为单位矩阵。通过现有的图卷积神经网络对节点更新得到更新后的对象特征f_g＝{f_g1,f_g2,…,f_gn}，即将特征矩阵输入图卷积神经网络，得到更新后的对象特征f_g，如图2(a)第三分支所示，其中，所述的图卷积神经网络的训练方式采用梯度下降对各层权重矩阵训练，每一层权重矩阵共享；

(2-2)每16帧产生一个动作特征f_l，视觉特征f_c，对象特征f_g，分别表示前后帧变化，当前段视觉特征，当前段物体联系，将每一组拼接为长特征f＝{f_l,f_c,f_g}；

步骤(3)包括以下步骤：

采用长短时记忆模型LSTM对步骤(2-2)得到的每组长特征向量再次进行编码，将所有组的长特征f＝{f_l,f_c,f_g}输入至LSTM，输出结果带有前后帧内容的视频特征F＝{f₁′,f₂′,...,f_n′}，其中，f_n′表示LSTM对第n组视频再次编码后的特征，用于更好地确定行为类型；

步骤(4)包括以下步骤：

对步骤(3)得到的视频特征F采用锚边框对不同时间段进行检测，如图2(b)所示，锚边框是事先固定好的不同大小的窗口，锚边框大小分别设置为2、4、8、16、32、64这6个尺度，尺度单位为组，将锚边框按不同起始时间滑动获取多个候选时间区域，图中第二行及以下的矩形为锚边框，是训练前预定义的多尺度窗口。

步骤(5)包括以下步骤：

(5-1)对候选时间区域采用全卷积的方式对候选时间区域进行分类和回归，即将候选时间区域的视频特征依次输入两层1×1×1的卷积层来预测每个候选时间区域包含密集事件的概率分数，以此判断是否有事件发生；其中，每个候选时间区域的视频特征是由该时间区域包含的所有组的长特征拼接而成。

(5-2)为消除步骤(4)中存在候选时间区域的重复现象，采用非极大值抑制策略来消除时间重叠区域过多及分数较低的候选时间区域，即将所有的候选时间区域按照概率分数从大到小的顺序进行排列，计算分数最高的候选时间区域与其余候选时间区域的交并比(IoU)，本实施例中将时间区域重复度高于80％的候选时间区域，以及概率分数低于0.8的候选时间区域删除，满分为1，保留的候选时间区域分数作为视频中发生事件的时间区域，表达式如下：

其中

分别为时间区域的开始和结束时间，N为该时间区域个数。

在本例中，N为2，P₁＝{0.0,69.19}，P₂＝{38.05,59.52}。

步骤(6)具体如下：

针对每个密集事件发生时间区域P，将其分组，提取每组的长特征f＝{f_l,f_c,f_g}，每个长特征为一个节点，将该时间区域内所有组的长特征输入现有的多头注意力机制的图神经网络GAT，得到更新后节点的长特征f′，即完成时间图节点的更新；如图2(c)所示，展示了为时间区域P构建一个时间图的过程。

步骤(7)针对步骤(6)中产生更新后的长特征f′，采用LSTM作为解码器，将一个时间区域的不同组的长特征f′依次输入至LSTM，解码成相应单词，在本例中，输出为”start:0.0 end:69.19 A man is playing the bagpipes in front of people.””start:38.05end:59.52 The people on the couch in front of him start laughing.”。

步骤(6-1)中，使用现有的多头注意力机制的图神经网络GAT更新时间图节点，注意力系数计算方法为：

其中，α_ij为节点j到节点i的注意力系数，N_i为节点i的相邻节点，f_i、f_j为节点i和j的特征向量，W为每一个节点的线性变换权重矩阵，a为权重向量，LeakyReLU为激活函数，||表示将两个向量拼接起来。

多头注意力机制通过k个独立的注意力机制计算隐藏状态，然后取其平均值作为与该节点相关联的节点特征h′_i，并将其与本节点特征相加作为更新后的长特征f′：

其中，

为第k个注意力头归一化的注意力系数，W^k为k个权重矩阵，h_j为除i节点以外其余节点的长特征。

综上所述，借助于上述技术方案，本发明提出的一种基于图神经网络的密集事件描述方法通过将视频进行特征提取、事件提案划分、语言文字描述等一系列操作，最后可将所有事件均以文字的形式描述出来，能够尽可能的找到所有视频中发生的事件，并依次进行较高准确率的文字描述，无需人工进行编辑，让查看者可清楚明了的知道其发生的所有内容，弥补了现有密集事件描述技术存在的缺陷。

Claims

1.一种基于图神经网络的密集事件描述方法，其特征在于，具体包括以下步骤：

（1）将待分析的视频分组，利用光流法、3D卷积网络和2D卷积网络分别对每组视频数据提取特征，其中，光流法提取视频动作特征，3D卷积网络提取视频视觉特征，2D卷积网络提取密集事件描述关注对象的特征及对象类别；

（2）为获取视频中对象间的关系，对每组视频数据中提取的视频对象建立空间图，空间图是用图的形式表示目标对象之间的关系，一组视频数据对应一个空间图，一个空间图由一个邻接矩阵和一个特征矩阵表示，邻接矩阵用于表示空间图中的任意两个对象之间是否存在关系，特征矩阵由空间图中所有节点的特征组成，节点即对象；利用图卷积网络对空间图上的所有节点更新，即将特征矩阵更新为包含相邻节点信息的新的特征矩阵；

其中，两个对象之间是否存在关系的判别方法是计算两个对象之间的余弦相似度，大于阈值时认为存在关系，否则不存在关系；

将更新后的对象特征与光流法、3D卷积得到的视频特征拼接为该组的视频数据的长特征；

（3）为使各组长特征带有前后组的信息以便更好地划分事件区域，将步骤（2）得到的各组的长特征按时间顺序输入至LSTM网络，得到各组带有上下文信息的特征，并将所有组的特征按时间顺序拼接为视频特征；

（4）采用锚边框对视频特征进行检测，划分为不同事件的候选时间区域，其中，锚边框是事先固定好的不同大小的窗口，将锚边框按不同起始时间滑动获取多个候选时间区域；

（5）提取每个候选时间区域视频特征，通过两层卷积层预测每个候选时间区域包含密集事件的分数，采用非极大值抑制筛选时间区域，将所有的候选时间区域按照分数从大到小的顺序进行排列，计算分数最高的候选时间区域与其余候选时间区域的交并比（IoU），删除IoU大于第一阈值，且概率分数小于第二阈值的时间区域，剩余的时间区域即为该视频中发生事件的时间区域，每个区域的开始时间和结束时间即为密集事件描述中每个事件的起始终止时间；

（6）为了对每个时间区域更好地解码成文字描述，提取步骤（5）得到的密集事件发生时间区域的视频特征，对每一个时间区域构建时间图，将时间区域内每一组的长特征作为时间图的节点，通过GAT完成时间图的更新，得到包含该密集事件发生时间区域内、其他节点特征信息的、每个节点的密集事件特征，使每个节点的长特征获取该时间区域其他节点的特征信息;

（7）将步骤（6）中每组的密集事件特征依次通过LSTM解码成对应文字输出，该输出为最终的事件描述，每个描述与步骤（4）的起始时间终止时间相对应，该模型输出为事件的起始时间、终止时间和文字描述。

2.根据权利要求1所述的一种基于图神经网络的密集事件描述方法，其特征在于，步骤（1）所述的视频分组指视频中每16帧作为一组；步骤（1）所述的3D卷积采用C3D模型，2D卷积采用目标检测模型。

3.根据权利要求2所述的一种基于图神经网络的密集事件描述方法，其特征在于，所述密集事件描述关注对象的提取过程指2D卷积网络在每16帧中随机产生一帧作为关键帧，将关键帧中对象类别及特征检测出来，对象类别检测分数由高到低排列，取前20个对象类别所对应的对象特征作为2D卷积网络提取的视频对象的特征，这前20个对象类别及对象的特征，即为密集事件描述关注对象。

4.根据权利要求1所述的一种基于图神经网络的密集事件描述方法，其特征在于，步骤（2）所述的空间图节点为关键帧的20个对象的类别和对象的特征，不同对象间的联通度由对象类别词向量的余弦相似度计算，高于阈值则联通，反之不联通。

5.根据权利要求1所述的一种基于图神经网络的密集事件描述方法，其特征在于，步骤（6）所述的模型GAT使用的是2层的多头注意力机制的GAT。