CN113297936B

CN113297936B - 一种基于局部图卷积网络的排球群体行为识别方法

Info

Publication number: CN113297936B
Application number: CN202110531225.XA
Authority: CN
Inventors: 毋立芳; 王�琦; 郎相龙; 相叶; 简萌; 石戈
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2024-05-28
Anticipated expiration: 2041-05-17
Also published as: CN113297936A

Abstract

一种基于局部图卷积网络的排球群体行为识别方法，涉及智能媒体计算和计算机视觉领域；首先对训练视频样本进行时域稀疏采样，对采样出的视频帧使用卷积神经网络提取全图特征图，并利用RoI Align根据图像中的个体候选框的位置提取个体视觉特征图；其次建立个体自连接图模型和个体间连接图模型，并以图卷积网络对图模型中的个体局部特征进行交互信息的传递得到关系特征图，并将其与个体视觉特征图进行融合；将训练样本进行预处理后传入网络中，利用损失函数和优化器对模型的参数进行迭代更新直至达到收敛，完成训练；最后将测试数据送入网络中，得到模型对测试数据的预测结果以及分类准确率。本发明有助于提升群体行为识别算法的性能。

Description

一种基于局部图卷积网络的排球群体行为识别方法

技术领域

本发明属于计算机视觉群体行为识别领域，具体涉及一种基于局部图卷积网络的排球群体行为识别方法。

背景技术

随着互联网技术的飞速发展，视频数据的数量迎来爆炸式增长。大部分视频的主体都是人，实际场景中的视频往往包括多人，群体行为识别任务是使计算机能够自动分析多人场景视频中发生的行为，不仅需要描述每个个体在场景中的个体行为，还需要推断他们的群体行为。群体行为识别在体育视频分析、监控视频分析、社交视频理解以及视频检索等方面有广泛的应用。因此，群体行为识别成为了最近的研究热点之一。

早期的群体行为识别方法主要利用方向直方图HOG、尺度不变特征变换SIFT等手工设计的描述子来对个体以及场景信息进行描述，但是这样的低级图像特征难以很好的表达个体特征以及挖掘出个体之间复杂的关系表示，因此并没有取得很好的行为识别效果。近年来，随着深度卷积网络在图像分类、语义分割和目标检测等计算机视觉领域获得了巨大的成功，很多研究者开始尝试使用深度网络来处理视频行为识别问题。2018年，Qi等人使用个体行为的词语标签和视觉信息建立语义图，利用Structural-RNN来融合个体时域上下文信息。Wang等人在2018年提出一种非局部神经网络，利用非局部操作来捕获长距离依赖关系，在行为识别领域取得了很好的效果。Wu等人在2019年提出一种基于图卷积网络的群体行为识别方法，将个体作为图的结点，利用视觉和位置关系进行边的构建，利用图卷积来推理个体间关系。2020年，Gavrilyuk等人使用Transformer模型来探究个体之间的交互关系信息，利用Self-Attention机制自适应地提取对于群体行为重要的信息，进一步提高了群体行为识别的准确率。

上述的一些研究成果激发了我们的灵感。最近的一些群体行为识别方法大体可以总结为三个步骤：1)根据目标跟踪得到的轨迹提取每个个体在全连接层输出的特征向量作为个体视觉特征；2)根据个体视觉特征探究个体间的交互信息，得到每个个体的关系特征表示；3)融合个体特征信息为最终的群体行为特征，并进行分类。这样的一个方案是切实有效的，但是它忽略了人体局部区域这一更细层级的特征信息。现有的方法都是通过全连接层得到人体全局特征向量，这种方式会损失掉人体的局部细节特征，然而局部细节特征对于关系的建模以及识别个体行为和群体行为是很重要的，这也导致了其模型具有局限性、性能提升有限。在此基础上，我们设计了一种基于局部图卷积网络的群体行为识别方法，提取特征时保留个体的局部细节特征和空间模式，利用图卷积模型探究了个体局部区域间的交互关系，充分挖掘个体的交互上下文信息，使得群体行为识别准确率得到提升。

发明内容

本发明的目的是设计一种基于局部图卷积网络的群体行为识别方法，其框架图如图1所示。

针对现有研究方法存在的问题，我们在提取特征时不使用全连接层提取个体全局视觉特征，而是提取个体的深度特征图，保留个体特征的空间模式和局部区域的细节特征。通过嵌入空间点乘的计算方式进行建图，为了探究每个个体内各局部区域的交互信息，建立了个体自连接图；为了探究个体间的各局部区域的交互信息，建立了个体间连接图，利用图卷积模型在两种图上推理局部区域间的关系特征，并与原始视觉外观特征相结合，挖掘出丰富的高级语义特征，提高了群体行为识别的准确率。

本发明的具体步骤如下：

步骤1，提取个体局部特征：使用Inception-v3深度卷积神经网络来提取视频帧的特征图，使用RoI Algin根据输入的个体候选框位置提取个体视觉外观特征图。特征图上每一个位置的特征作为一个局部区域的特征。

步骤2，建立个体自连接图：以所有个体的所有局部区域特征集合作为图的节点集合，使用嵌入空间点乘的方式计算各节点之间边的权重，对得到的邻接矩阵施加个体自连接约束，令每个个体内各局部区域间存在相连的边，个体间的局部区域间不存在相连的边，建立个体自连接图。

步骤3，建立个体间连接图：个体间连接图的节点集合和边的权重计算方式与步骤2中建立个体自连接图的方式相同，区别在于对于邻接矩阵施加个体间连接约束，令每个个体间各局部区域存在相连的边，个体内的局部区域间不存在相连的边，建立个体间连接图。

步骤4，提取交互关系特征：在步骤2和步骤3中建立的个体自连接图和个体间连接图上进行图卷积运算来推理节点间的关系特征，通过最大池化运算来融合两种图输出的结果，完成关系特征图的提取。

步骤5，建立分类层：将深度卷积神经网络模型Inception-v3输出的原始视觉外观特征图和步骤4中得到的关系特征图相加进行融合，输入到全连接层输出个体分类特征进行个体行为的分类，将所有个体的分类特征通过最大池化计算得到群体特征进行群体行为的分类。

步骤6，训练模型：采用时域稀疏采样策略，在训练的时候将视频分为K个片段，然后从K个片段中各采样1帧，将K帧图像经过缩放进行预处理后，输入到网络模型中，网络同时处理K帧图像并将K帧的结果进行融合。使用Adam梯度下降方法进行优化，利用交叉熵函数评价模型性能并对模型参数进行学习。

步骤7，预测群体行为和个体行为：在测试的时候采用与步骤5相同的预处理方式，将视频帧输入到步骤4训练好的模型中，对每个视频帧预测个体行为和群体行为类别的得分，将所有帧的得分进行均匀池化来构成整段视频的预测得分。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：

本发明提出了一种新型的基于局部图卷积网络的群体行为识别方法，针对现有方法无法建模更细粒度的局部区域间的关系特征，设计了个体自连接图和个体间连接图，分别探究个体内局部区域间的交互信息和个体间局部区域间的交互信息，在高级视觉特征的基础上增加了丰富的交互上下文特征，使得个体特征和群体特征表示更具判别力，获得更好的群体行为识别效果。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明：

图1为训练基于本方法的群体行为识别卷积神经网络的架构图。

图2为基于本方法进行群体行为识别的整体流程图。

具体实施方式

本发明提出了一种基于局部图卷积网络的群体行为识别方法。本发明的整体结构如图1所示。本发明在Windows10和PyCharm环境下进行仿真。本发明的具体实现流程如图2所示，具体实现步骤如下：

在所述步骤1中，设计了局部特征的提取方法：

本方法可以用于多人对抗类体育项目排球视频的群体行为识别，故在本实例中选取“Volleyball”公开数据集，该数据集收集于排球比赛的广播视频，具有数据规模大，个体间交互复杂的特点。

给出一帧图像和N个个体的候选框其中n表示个体的索引，b_n表示第n个个体候选框的坐标，使用Inception-v3卷积神经网络提取帧图像的特征图，并使用RoIAlign根据每个目标的候选框与特征图的对应关系，提取出每个个体大小为H×W，通道为D维的视觉外观特征图F_n，D是网络中最后一个卷积层的卷积核个数。将大小为H×W的特征图中的每一个位置作为一个局部区域，每个局部区域都是一个D维特征向量，这个局部区域可能包括人的特定部位、衣服或背景等。定义第n个个体的局部特征集合为其中/>表示第n个人的第m个局部区域的特征，M＝H*W是局部区域的总个数。

在这一步骤中，可能存在个别图像帧中的个体数目不一致的现象，为此设计了补齐的方法，即在个体数目少于N的图像中，使用已有目标按照位置坐标从左到右顺序依次复制补齐，在Volleyball数据集中N为12。提取个体的特征图大小H＝W＝3，此参数的确定是通过实验不同的参数设置取获得最好结果时的参数设置。每个个体一共有M＝9个局部区域，局部区域特征维度D＝732，最终实现了每张图片中(H*W*N)×D维度的局部特征提取。

在所述步骤2中，设计了建立个体自连接图模型的方法：

在个体自连接图中，节点为所有个体的所有局部特征的集合我们首先构建初始图/> 来表示局部特征间成对的关系，其中G_ij表示在图中的第j个局部特征对于第i个局部特征的重要性。我们使用如下公式来计算G_ij：

G_ij＝g_a(f_i,f_j)

其中f_i是图G中的第i个局部特征，g_a(f_i,f_j)表示两个局部特征间的视觉关系计算函数，其中θ(f_i)＝W_θf_i+b_θ和φ(f_j)＝W_φf_j+b_φ是两个不同的可学习的线性变换函数，和/>是权重矩阵，/>和/>是偏置向量，权重矩阵和偏置向量由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束。

为了探究每个个体内不同局部特征之间的交互，我们设计了个体自连接约束该约束是一个与邻接矩阵G大小相同的0-1二值掩膜，若局部区域i和局部区域j属于同一个体，则/>反之则/>之后对G加入约束S^self并利用softmax函数进行归一化，得到最终的个体自连接图，⊙表示Hadamard乘积：

G_self＝softmax(G⊙S^self)

在这一步骤中，个体数目N＝12，个体局部区域数目M＝9，d＝732表示每个局部区域的输入特征维度，d_k＝256表示经过线性变换函数后得到的嵌入特征维度。

在所述步骤3中，设计了建立个体间连接图模型的方法：

在这一步骤中，构建初始图G的方式与步骤2相同，为了探究个体间不同局部特征之间的交互，我们对初始图G施加个体间连接约束该约束同样是一个与邻接矩阵G大小相同的0-1二值掩膜，若局部区域i和局部区域j不属于同一个体，则反之则/>之后对G加入约束S^inter并利用softmax函数进行归一化，得到最终的个体间连接图，⊙表示Hadamard乘积：

G_inter＝softmax(G⊙S^inter)

在所述步骤4中，提取交互关系特征：

利用GCN模型提取关系特征。使用单层GCN结构，GCN的一层运算方式可以表达为如下公式，其中当前层k的输入特征X^(k-1)为前一层的输出：

X^(k)＝σ(GX^(k-1)W^(k))

其中G是图的邻接矩阵，X^(k-1)是第k-1层的节点特征表示，W^(k)是对应层的学习权重矩阵，由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束。σ(·)表示非线性激活函数ReLU函数，通过图卷积运算将邻域节点的特征进行聚合，更新当前节点特征。

这里对步骤2和步骤3建立的个体自连接图G_self和个体间连接图G_inter两种图结构分别经过GCN模型的计算，其输入X均为步骤1中得到的局部区域的原始视觉特征，并将两种图经过GCN运算的输出特征使用最大池化运算进行融合：

R_n＝maxpool(σ(G_selfXW_self),σ(G_interXW_inter))

最终在这一步骤中输出N个个体的关系特征图其中/>表示第n个人的第m个局部区域的关系特征，M是局部区域的个数，W_self和W_inter是两个权重矩阵，由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束。σ(·)表示非线性激活函数ReLU函数。M是局部区域的个数。其中个体数目N＝12，个体局部区域个数M＝9，特征维度D＝732。

在所述步骤5中，建立分类层：

将步骤4最终得到的个体关系特征图R_n与步骤1得到的原始的个体视觉特征图F_n相加融合得到每个个体用于分类的特征图，并经过一层全连接层得到每个个体的1024维的分类特征向量表示，用于个体行为的分类，个体行为分类器为1024*9的全连接层，对应9类个体行为。将场景中所有N＝12个个体的分类特征通过最大池化运算得到1024维的群体级特征向量，用于群体行为的分类，群体行为分类器为1024*8，对应8类群体行为。分类器输出每一类的分类得分，取最大得分所属位置的对应行为类别即为一帧图像输出的行为类别。

在所述步骤6中，通过数据预处理、数据输入、计算损失函数等操作实现模型的训练：

我们采用时域稀疏采样策略来融合时域上下文信息。在训练的时候我们将视频划分为K个片段，然后每个片段中均随机采样1帧，采样出的K帧作为一个训练样本，在本例中K＝3。针对每一帧图像，我们将其放缩到1280*720大小，按固定大小为一批次，输入到网络模型中，在本实例中固定批次的大小设置为4。通过最后的分类层，得到每帧图像的预测得分，将每个训练样本的K帧图像结果进行平均作为训练样本的预测结果，并将预测结果与输入的训练集标签进行自动比对，统计正确样本数量占整体训练样本的比例记为训练集在此轮的准确率。同时在得到预测得分时，利用下文所示损失函数可以计算得到当前模型的损失值，损失值将反馈给优化器处理后进行反向传播更新模型中各个参数。

整个模型能够以端到端的方式进行训练，使用标准的交叉熵损失函数，最终的损失函数表示如下：

其中和/>是标准的交叉熵损失函数，y_g和y_i是群体行为和个体行为的真实标签，/>和/>是群体行为和个体行为的模型预测结果。第一项对应群体行为分类的损失，第二项对应个体行为分类的损失，λ₁和λ₂是两个损失项的各自权重来平衡两个任务，在本实例中λ₁＝λ₂＝1。

出于对收敛速度和收敛效果的考虑，本方法中的优化器选取Adam梯度下降方法作为优化方法。优化器的参数设置主要有指数衰减率β₁、β₂，模糊因子∈以及初始学习率，其中指数衰减率和模糊因子本例中推荐选取Adam梯度下降法中的默认值，β₁＝0.9，β₂＝0.999，∈＝10^-8，初始学习率一般为0.1、0.01、0.0001、0.00001等值中视模型收敛情况选取，本实例推荐取0.0001，由于固定学习率的设置不利于深度网络在训练后半程中寻找更好的参数，本方法在训练过程中增加固定轮次降低学习率的策略。其中降低的轮次推荐在每50轮降低2倍，总训练轮数建议在150-200轮。在本实例中对优化器进行了每50轮降低学习率的设置，并对模型参数进行200轮训练学习以保证训练效果的有效收敛，设置轮数过少可能还未收敛，轮数过多则会增加训练时间但不会提高效果。

在每两轮训练样本训练完成后，固定模型的参数并采用Volleyball数据集中的验证集数据进行验证。将一个视频的T帧关键帧视作一个测试样本，将T帧图像经放缩传入到网络模型中，本实例中放缩参数设置为1280*720，网络输出T帧图像的预测得分并取平均得到测试视频的预测得分，在本实例中T＝10，将预测结果与样本的标签进行对比并统计正确样本所占比例即验证集准确率，如果当前轮数的验证集群体行为分类准确率比先前最高的验证集群体行为分类准确率要高就保存当前准确率为最高的验证集准确率，并保存当前轮数训练的模型。当所有轮次训练完毕后，最终保存的最高验证集准确率下的模型，即为训练好的最优模型。

在所述步骤7中，预测群体行为和个体行为类别：

将Volleyball数据集中的测试集数据或任意视频按同步骤6中验证集视频一样经稀疏采样以及固定大小放缩的预处理步骤后输入模型即可。本实例中固定大小放缩的参数设置为1280*720。经过模型处理，将个体行为分类器和群体行为分类器后的输出结果与样本的标签进行对比并统计正确样本所占比例即测试集的个体行为和群体行为准确率。输出结果得分最高的对应的行为类别即为该模型判断的行为类别。

在Volleyball数据集中的测试集经过本实例中的模型测试，准确率结果为92.7％，高于目前同样使用图卷积来进行关系建模的同类方法研究内容中的最好效果：发表在2019年计算机视觉领域顶级会议Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition上的Learning Actor Relation Graphs for Group Activity Recognition的92.5％，同时也高于2020年发表于高水平杂志IEEETRANSACTIONS ON MULTIMEDIA上的GAIM:Graph Attention Interaction Model for Collective Activity Recognition的92.1％。

Claims

1.基于局部图卷积网络的排球群体行为识别方法，其特征在于，包含如下步骤：

步骤1，提取个体局部特征：使用Inception-v3深度卷积神经网络来提取视频帧的特征图，使用RoI Algin根据输入的个体候选框位置提取个体视觉外观特征图；特征图上每一个位置的特征作为一个局部区域的特征；

步骤2，建立个体自连接图：以所有个体的所有局部区域特征集合作为图的节点集合，使用嵌入空间点乘的方式计算各节点之间边的权重，对得到的邻接矩阵施加个体自连接约束，令每个个体内各局部区域间存在相连的边，个体间的局部区域间不存在相连的边，建立个体自连接图；

步骤3，建立个体间连接图：个体间连接图的节点集合和边的权重计算方式与步骤2中建立个体自连接图的方式相同，区别在于对于邻接矩阵施加个体间连接约束，令每个个体间各局部区域存在相连的边，个体内的局部区域间不存在相连的边，建立个体间连接图；

步骤4，提取交互关系特征：在步骤2和步骤3中建立的个体自连接图和个体间连接图上进行图卷积运算来推理节点间的关系特征，通过最大池化运算来融合两种图输出的结果，完成关系特征图的提取；

步骤5，建立分类层：将深度卷积神经网络模型Inception-v3输出的原始视觉外观特征图和步骤4中得到的关系特征图相加进行融合，输入到全连接层输出个体分类特征进行个体行为的分类，将所有个体的分类特征通过最大池化计算得到群体特征进行群体行为的分类；

步骤6，训练模型：采用时域稀疏采样策略，在训练的时候将视频分为K个片段，然后从K个片段中各采样1帧，将K帧图像经过缩放进行预处理后，输入到网络模型中，网络同时处理K帧图像并将K帧的结果进行融合；使用Adam梯度下降方法进行优化，利用交叉熵函数评价模型性能并对模型参数进行学习；

2.根据权利要求1所述的方法，其特征在于：在所述步骤1中，给出一帧图像和N个个体的候选框其中n表示个体的索引，b_n表示第n个个体候选框的坐标，使用Inception-v3卷积神经网络提取帧图像的特征图，并使用RoIAlign根据每个目标的候选框与特征图的对应关系，提取出每个个体大小为H×W，通道为D维的视觉外观特征图F_n，D是网络中最后一个卷积层的卷积核个数；将大小为H×W的特征图中的每一个位置作为一个局部区域，每个局部区域都是一个D维特征向量，这个局部区域包括人的特定部位、衣服或背景；定义第n个个体的局部特征集合为/>其中/>表示第n个人的第m个局部区域的特征，M＝H*W是局部区域的总个数。

3.根据权利要求1所述的方法，其特征在于：在所述步骤2中，建立了个体自连接图模型；在个体自连接图中，节点为所有个体的所有局部特征的集合我们首先构建初始图/>来表示局部特征间成对的关系，其中G_ij表示在图中的第j个局部特征对于第i个局部特征的重要性；我们使用如下公式来计算G_ij：

G_ij＝g_a(f_i，f_j)

其中f_i是图G中的第i个局部特征，g_a(f_i，f_j)表示两个局部特征间的视觉关系计算函数，其中θ(f_i)＝W_θf_i+b_θ和φ(f_j)＝W_φf_j+b_φ是两个不同的可学习的线性变换函数，和/>是权重矩阵，/>和/>是偏置向量，权重矩阵和偏置向量由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束；

G_self＝softmax(G⊙S^self)。

4.根据权利要求1所述的方法，其特征在于：在所述步骤3中，建立个体间连接图模型；在这一步骤中，构建初始图G的方式与步骤2相同，为了探究个体间不同局部特征之间的交互，对初始图G施加个体间连接约束该约束同样是一个与邻接矩阵G大小相同的0-1二值掩膜，若局部区域i和局部区域j不属于同一个体，则/>反之则/>之后对G加入约束S^inter并利用softmax函数进行归一化，得到最终的个体间连接图，⊙表示Hadamard乘积：

G_inter＝softmax(G⊙S^inter)。

5.根据权利要求1所述的方法，其特征在于：在所述步骤4中，

利用GCN模型提取关系特征；使用单层GCN结构，GCN的一层运算方式表达为如下公式，其中当前层k的输入特征X(^k-1)为前一层的输出：

X^(k)＝σ(GX^(k-1)W^(k))

其中G是图的邻接矩阵，X^(k-1)是第k-1层的节点特征表示，W^(k)是对应层的学习权重矩阵，由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束；σ(·)表示非线性激活函数ReLU函数，通过图卷积运算将邻域节点的特征进行聚合，更新当前节点特征；

这里对步骤2和步骤3建立的个体自连接图G_self和个体间连接图G_inter两种图结构分别经过GCN模型的计算，其输入X均为步骤一中得到的局部区域的原始视觉特征，并将两种图经过GCN运算的输出特征使用最大池化运算进行融合：

R_n＝maxpool(σ(G_selfXW_self)，σ(G_interXW_inter))

最终在这一步骤中输出N个个体的关系特征图其中/>表示第n个人的第m个局部区域的关系特征，M是局部区域的个数，W_self和W_inter是两个权重矩阵，由随机初始化得到并在训练过程中根据损失函数进行训练、调整直到训练结束；σ(·)表示非线性激活函数ReLU函数。

6.根据权利要求1所述的方法，其特征在于：在所述步骤5中，建立分类层，进行最终的行为分类；将步骤4最终得到的个体关系特征图R_n与步骤1得到的原始的个体视觉特征图F_n相加融合得到每个个体最终的特征图，并经过一层全连接层得到每个个体的1024维的分类特征向量表示，用于个体行为的分类，个体行为分类器为1024*9的全连接层，对应9类个体行为；将场景中所有N＝12个个体的分类特征通过最大池化运算得到1024维的群体级特征向量，用于群体行为的分类，群体行为分类器为1024*8，对应8类群体行为；分类器输出每一类的分类得分，取最大得分所属位置的对应行为类别即为一帧图像输出的行为类别。

7.根据权利要求1所述的方法，其特征在于：在所述步骤6中，

采用时域稀疏采样策略来融合时域上下文信息；在训练的时候我们将视频划分为K个片段，然后每个片段中均随机采样1帧，采样出的K帧作为一个训练样本，在本例中K＝3；针对每一帧图像，我们将其放缩到1280*720大小，按固定大小为一批次，输入到网络模型中，在本实例中固定批次的大小设置为4；通过最后的分类层，得到每帧图像的预测得分，将每个训练样本的K帧图像结果进行平均作为训练样本的预测结果，并将预测结果与输入的训练集标签进行自动比对，统计正确样本数量占整体训练样本的比例记为训练集在此轮的准确率；同时在得到预测得分时，利用下文所示损失函数计算得到当前模型的损失值，损失值将反馈给优化器处理后进行反向传播更新模型中各个参数；

其中和/>是标准的交叉熵损失函数，y_g和y_i是群体行为和个体行为的真实标签，/>和/>是群体行为和个体行为的模型预测结果；第一项对应群体行为分类的损失，第二项对应个体行为分类的损失，λ₁和λ₂是平衡两个损失项的超参数，设置为λ₁＝λ₂＝1；

在训练过程中，以0.0001为初始学习率，学习率每50轮下降为当前学习率的二分之一，训练次数达到200以上后结束训练。