CN110532960B

CN110532960B - 一种基于图神经网络的目标辅助的动作识别方法

Info

Publication number: CN110532960B
Application number: CN201910817670.5A
Authority: CN
Inventors: 王乐; 翟长波; 谭浩亮
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-02-11
Anticipated expiration: 2039-08-30
Also published as: CN110532960A

Abstract

本发明公开了一种基于图神经网络的目标辅助的动作识别方法，包括：首先利用深度神经网络计算视频每一帧的深度特征，并且根据每一帧的深度特征来提取视频帧内每一个目标边界框对应目标的特征，这些目标之间具有交互关系或者在时间前后具有对应关系，利用这些目标的特征和它们之间的关系构建图模型；然后构建两个映射函数自动的计算任意两个节点之间的相似度，用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互，对图模型上节点的特征进行迭代更新；最后利用更新之后的目标特征和原视频的特征进行动作分类来实现视频的动作识别，可提升动作识别的准确性。

Description

一种基于图神经网络的目标辅助的动作识别方法

技术领域

本发明属于计算机视觉与模式识别技术领域，特别涉及一种基于图神经网络的目标辅助的动作识别方法。

背景技术

视频动作识别作为视频处理的关键步骤，对视频的分析和处理有很大影响，在理论和实际应用中具有重要的研究价值。目前现有的视频动作识别技术普遍存在以下几个问题：(1)大多数视频动作识别方法是基于深度神经网络提取视频的特征，然后对视频特征进行分类；现实中的动作都会有时间上的前后关联或者人物之间的交互，这种方法并没有考虑视频中目标之间和帧之间的关系，会导致分类鲁棒性较差。(2)通过对视频帧进行密集采样，利用帧之间时序相关性构造时间图来辅助动作定位；这种时间图模型仅仅利用了视频中目标之间的时间关系，没有利用目标和交互物体之间的关系。

人类的动作大多都和其他物体有交互，比如“看书”这个动作就和“书”有交互；利用目标与交互的物体之间的关系和目标前后时间之间的关系可以辅助动作识别，提高动作识别的准确率，但是目前还没有方法尝试利用这种关系。

综上，亟需一种新的基于图神经网络的目标辅助动作识别方法。

发明内容

本发明的目的在于提供一种基于图神经网络的目标辅助的动作识别方法，以解决上述存在的视频动作识别准确率较低的技术问题。本发明的方法，基于端对端的目标辅助的图模型，有效的利用了视频中目标前后帧之间的关系，以及目标与交互物体之间的关系，可提高视频动作识别的准确率。

为达到上述目的，本发明采用以下技术方案：

本发明的一种基于图神经网络的目标辅助的动作识别方法，包括以下步骤：

步骤1，对待动作识别的原视频进行降采样，采样获得的视频帧序列为V＝{v₁，v₂，...，v_i，...v_T}，其中v_i表示第i个视频帧，共采样出T帧；将视频帧序列输入给深度神经网络，获得每一帧的深度特征；

步骤2，根据视频帧序列中每一帧的深度特征以及其对应的帧内目标的边界框信息，提取获得每一帧内所有目标边界框的特征；通过所有目标边界框的特征对图模型的节点进行初始化，获得初始化后的图模型；

步骤3，构造两个映射函数，通过映射函数计算图模型中任意两个节点之间的相似性；

步骤4，根据步骤3中构建的映射函数，通过图更新的过程迭代更新图模型的节点特征信息，直到节点特征达到收敛；

步骤5，对更新之后的节点特征进行平均池化得到目标交互特征表示，对视频帧序列所有帧的深度特征进行平均池化得到全局视频特征表示；将池化得到的目标交互特征和全局视频特征拼接获得最终的视频特征表示，对最终的视频特征进行分类，完成动作识别。

本发明的进一步改进在于，步骤1中，将视频帧输入给深度神经网络，获得每一帧的深度特征的具体步骤包括：将每一帧的图像大小通过双线性插值调整为固定预设大小像素，然后将每一帧图像输入给一个深度神经网络得到每一帧的深度特征；

其中，深度神经网络的输出特征图大小为W×H，通道数位C。

本发明的进一步改进在于，步骤2具体包括：

图模型的节点用V中所有视频帧内的边界框对应的特征来初始化，对于视频中的第t帧v_t，t∈{1，2，...，T}，有N_t个目标边界框，将每个边界框对应位置的特征在特征图中提取出来并调整为固定大小7×7×C；然后对每个特征通道的特征进行最大池化得到尺度为1×1×C的该物体的特征表示；对于v_t，得到的所有目标边界框的特征为：

其中，X_t为第t帧上所有目标边界框对应的特征，

为第t帧上第N_t个边界框对应的特征，

视频帧序列V中所有帧的目标边界框的特征表示为：

其中，X表示整个视频所有帧的边界框的特征，

本发明的进一步改进在于，步骤3中，对于任意两个节点x_i，k和x_j，g，相似性分数计算过程如下：

其中，f(x_i，k，x_j，g)为节点x_i，k和x_j，g之间的相似度，i，j∈{1，2，...，T}，k∈{1，2，...，N_i}，g∈{1，2，...，N_g}，Θ、b_θ和Φ、

分别为两个映射函数的参数，

获得关系矩阵表达式为：

然后对矩阵进行归一化，使得矩阵每一行数值的和为1，表达式为：

其中，f_norm为归一化后的相似性，i∈{1，2，...，T}，k∈{1，2，...，N_i}。

本发明的进一步改进在于，步骤4中，通过图更新的过程迭代更新图模型的节点特征信息，直到节点特征达到收敛的过程中，第s次迭代时的更新过程为：

X^s＝X^s-1+F_norm(X^s-1)·X^s-1

其中，X^s是第s次迭代之后所有节点的特征，X⁰为步骤2中初始化的节点信息，s∈{1，2，...，S}，总的次数S可设置；最终的节点状态

本发明的进一步改进在于，步骤5中，

对所有节点更新之后的节点特征进行平均池化得到关系特征表示r_OAG，

对视频帧序列V中每一帧的深度特征进行平局池化得到平均池化得到全局视频特征表示r_Global，

将池化获得的两种特征拼接，得到最终的视频特征表示r＝[r_OAG，r_Global]，

最后对特征r进行分类，得到预测的动作类别，完成动作识别。

与现有技术相比，本发明具有以下有益效果：

本发明的方法，首先利用深度神经网络计算视频每一帧的深度特征，并且根据深度特征来提取视频帧内每一个目标边界框对应目标的特征，这些目标之间具有交互关系或者在时间前后具有对应关系，利用这些目标的特征和它们之间的关系构建图模型；然后构建映射函数自动计算任意两个节点之间的相似度，用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互；对图模型上节点的特征进行迭代更新；最后利用更新之后的目标特征和视频帧序列的特征进行动作分类来实现视频的动作识别，能够提升动作识别的准确性。综上，本发明的动作识别方法，通过一种端对端的目标辅助图模型，能够有效利用视频中目标前后帧之间的关系和目标与交互物体之间的关系，可以提高动作识别的准确率。

进一步地，通过构建两个简单的映射函数自动的计算任意两个节点之间的相似度，用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互。

进一步地，视频中的目标具有时间关系，而且人在做动作时会与其他物体有交互，这两种关系都可以用来辅助进行动作识别，本发明方法用图模型来建模这两种关系，进而可提高动作识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中，验证数据集(Object-Charades)动作的类别和步骤1中检测出来的目标边界框示意图；

图2是本发明实施例的一种基于图神经网络的目标辅助的动作识别方法的流程示意图；

图3是本发明实施例中，图神经网络模型框架示意图；其中，图3(a)为模型的输入示意图，输入包括采样的视频帧序列和对应的目标边界框；图3(b)为提取每一帧的深度特征的示意图，每一帧得到的特征图大小为W×H，通道数位C；图3(c)为初始化图模型和图模型更新的过程示意图；图3(d)为完成动作识别的示意图；

图4是本发明实施例中，在Object-Charades数据集上某些动作类别上相比于未采用目标辅助的基准模型的性能提升示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图2，本发明实施例的一种基于图神经网络的目标辅助的动作识别方法，包含以下步骤：

步骤1，输入待动作识别的原视频，对视频进行降采样以消除视频的冗余信息，采样出来的视频帧序列为V＝{v₁，v₂，...，v_T}，其中v_i表示第i个视频帧；所述视频中一共采样出T帧，将V输入到一个深度神经网络来提取每一帧的深度特征；

步骤2，根据每一帧的深度特征和对应的帧内目标的边界框信息，提取出每个目标边界框的特征，利用这些特征对图模型的节点进行初始化，构建获得初始化后的图模型；

步骤3，构造两个简单的映射函数来计算图模型中任意两个节点之间的相似性；其中，映射函数的参数可以通过网络的迭代过程自动更新学习；

步骤4，根据步骤3中的映射函数，通过图更新的过程迭代更新节点特征信息，直到节点特征达到收敛；

步骤5，对更新之后的节点特征进行平均池化得到目标交互特征表示，同时对视频帧序列所有帧的特征进行平均池化得到全局视频特征表示；把这两个池化之后的特征拼接起来得到最终的视频特征表示，然后对该特征进行分类就可以得到该视频的动作类别，完成动作识别。

综上所述，本发明公开了一种基于图卷积网络的目标辅助的动作识别方法，属于模式识别与计算机视觉领域，本发明针对一段包含某个动作实例的视频，主要思路是首先利用深度神经网络计算视频每一帧的深度特征，并且根据每一帧的深度特征来提取视频帧内每一个目标边界框对应目标的特征，这些目标之间具有交互关系或者在时间前后具有对应关系，利用这些目标的特征和它们之间的关系构建图模型；然后构建两个简单的映射函数自动的计算任意两个节点之间的相似度，用此相似度来控制图模型上节点特征信息的迭代更新过程中的信息交互；然后对图模型上节点的特征进行迭代更新。最后利用更新之后的目标特征和原视频的特征进行动作分类来实现视频的动作识别，提升动作识别的准确性。

实施例

请参阅图1，图1是验证本发明方法可行性的公开数据集Object-Charades：该数据集是一个大型的多标签的视频数据集，里面的动作都包含人物交互，视频的真值信息包含该视频的动作和视频中每一帧内的人和与之交互的物体的边界框，这些边界框是用一个预训练的目标检测器检测出来的。该数据集包含52类动作，超过7000段视频，平均每个视频的长度是30秒左右，其中的动作发生的场景都是在室内。如图1所示，每个图片代表一个视频，视频中包含人和交互物体的边界框，图片下面是该视频的动作标签。

请参阅图2，本发明实施例的一种基于图神经网络的目标辅助的动作识别方法，具体包括以下步骤：

步骤1：深度特征提取：

对一个视频进行降采样，采样出来的视频帧序列为V＝{v₁，v₂，...，v_T}，其中v_i表示第i个视频帧，该视频中一共采样出T帧；并把每一帧的图像大小通过双线性插值调整为224×224像素，然后把每一帧图像输入给一个深度神经网络得到每一帧的深度特征，如图3(b)所示，网络的输出特征图大小为W×H，通道数位C。

步骤2：构建图模型并初始化：

视频中的目标具有时间关系，而且人在做动作时会与其他物体有交互，这两种关系都可以用来辅助进行动作识别，本方法用图模型来建模这两种关系。图模型的节点用V中所有视频帧内的边界框对应的特征来初始化，对于视频中的第t帧v_t(t∈{1，2，...，T})，有N_t个目标边界框，将每个边界框对应位置的特征在特征图中提取出来并调整为固定大小7×7×C，然后对每个特征通道的特征进行最大池化得到尺度为1×1×C的该物体的特征表示，则对于v_t，得到的所有特征为：

其中，X_t为第t帧上所有边界框对应的特征，

为第t帧上第N_t个边界框对应的特征，

整个视频所有帧的边界框的特征表示为：

其中，X表示整个视频所有帧的边界框的特征，

如图3(c)所示，用所有的边界框特征来初始化图模型的节点。

步骤3：计算节点之间的相似度：

在图的迭代更新过程中，需要计算每对节点之间的相关性，并以此为基础计算每个节点更新时的传入信息。本发明利用了两个简单的映射函数来计算任意两个节点之间的相关性，对于节点x_i，k和x_j，g，相似性分数计算过程如下：

分别为两个映射函数的参数，

在后面图更新的过程中映射函数的参数也会自动学习更新。

最终可以得到一个关系矩阵：

然后对该矩阵进行归一化让矩阵每一行数值的和为1，即：

步骤4，图节点更新：

图的更新过程迭代进行，本发明根据步骤3来自动计算每次迭代时节点之间的相似度。在第s次迭代时的更新过程为：

X^s＝X^s-1+F_norm(X^s-1)·X^s-1

其中，X^s是第s次迭代之后所有节点的特征，X⁰为步骤2中初始化的节点信息，s∈{1，2，...，S}，总的次数S是可以设置的。最终的节点状态

步骤5：动作分类：

最终的视频特征表示由视频中所有帧的深度特征和图更新之后的节点特征拼接得到。如图3(d)所示，对所有节点更新之后的特征进行平均池化得到关系特征表示r_OAG，

然后对所有视频帧的特征进行平局池化得到平均池化得到全局视频特征表示r_Global，

对以上两种特征拼接得到最终的视频特征表示r＝[r_OAG，r_Global]，

最后对特征r进行分类得到预测的动作类别。

表1和表2是Obiect-Charades数据集上动作识别方法的实验结果，其中表1中的方法基准网络是2D网络，表2中的方法的基准网络是3D网络。

表1.2D基准网络在Object-Charades数据集上的实验结果

表2.3D基准网络在Object-Charades数据集上的实验结果

表1和表2分别是2D基准网络和3D基准网络(提取深度特征的网络模型)在Object-Charades数据集上的实验结果，实验结果的评价指标是平均准确率。从表1和表2中，加入本发明方法之后动作识别的性能相比于基准网络提高了两个百分点左右。图4是在2D网络的基础上，右侧和左侧分别是本发明方法相对于基准网络分类结果提升和下降的前10个类别，从图中可以看出本发明方法带来的性能收益远大于性能下降。综合表1、表2和图4中可以看出，本发明采用基于图卷积网络的目标辅助的动作识别方法，利用人和物体之间的交互辅助进行动作识别，有效的提高了动作识别的准确率。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于图神经网络的目标辅助的动作识别方法，其特征在于，包括以下步骤：

步骤1，对待动作识别的原视频进行降采样，采样获得的视频帧序列为V＝{v₁,v₂,…,v_i,…v_T}，其中v_i表示第i个视频帧，共采样出T帧；将视频帧序列输入给深度神经网络，获得每一帧的深度特征；

步骤5，对更新之后的节点特征进行平均池化得到关系特征表示，对视频帧序列所有帧的深度特征进行平均池化得到全局视频特征表示；将池化得到的关系特征和全局视频特征拼接获得最终的视频特征表示，对最终的视频特征进行分类，完成动作识别；

其中，步骤1中，将视频帧输入给深度神经网络，获得每一帧的深度特征的具体步骤包括：将每一帧的图像大小通过双线性插值调整为固定预设大小像素，然后将每一帧图像输入给一个深度神经网络得到每一帧的深度特征；其中，深度神经网络的输出特征图大小为W×H，通道数为C；

步骤2具体包括：图模型的节点用V中所有视频帧内的边界框对应的特征来初始化，对于视频中的第t帧v_t，t∈{1,2,…,T}，有N_t个目标边界框，将每个边界框对应位置的特征在特征图中提取出来并调整为固定大小7×7×C；然后对每个特征通道的特征进行最大池化得到尺度为1×1×C的该物体的特征表示；对于v_t，得到的所有目标边界框的特征为：