CN110378281A

CN110378281A - 基于伪3d卷积神经网络的组群行为识别方法

Info

Publication number: CN110378281A
Application number: CN201910645623.7A
Authority: CN
Inventors: 丰艳; 张甜甜; 王传旭; 闫春娟
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-25

Abstract

本发明公开一种基于伪3D卷积神经网络的组群行为识别方法，包括：(1)利用OpenPose姿态估计算法进行人体姿态估计与目标跟踪；(2)利用P3D ResNet(伪3D残差网络)提取每个人的时空特征，使用softmax分类器对时空特征进行分类，完成单人行为识别；(3)利用人体目标的位置信息和外观特征，构建人体目标交互图，并利用图卷积网络进行图推理和训练；(4)根据人体目标交互图进行组群行为识别。本方案基于P3D卷积网络提取特征，即减少了模型的参数又提高了识别精度，并结合人体目标的位置信息和外观特征，构建人体目标交互图以提高群组行为识别率，通过该技术，计算机可以实时判断公共区域中感兴趣人体目标的状态变化，进行自动人体行为识别，识别精度高，应用领域广。

Description

基于伪3D卷积神经网络的组群行为识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于伪3D卷积神经网络的组群行为识别方法。

背景技术

随着硬件技术的不断发展，监控摄像头已无处不在，如机场、超市、银行、医院和学校等各种公共场所；面对如此大规模的摄像监控网络，单纯依靠人力已无法胜任监控视频这一工作。群组行为识别是计算机视觉领域中的重要研究内容，其主要应用于智能监控系统、视频检索以及人机交互等领域；群组行为识别是指通过某种算法，从视频图像中自动识别出多个人共同完成的活动，群组行为识别方法分为基于图模型和无图模型两种方法。

现有技术中关于组群行为识别方案多种多样，比如申请公布号为【CN106991384A】的发明专利公开了一种“行人组群行为识别方法及装置”，通过获取带识别图像序列中行人的运动轨迹来获得行人的步态周期信息，进而构造与所述行人速度变化信息对应的特征向量，最后根据所述特征向量识别图像序列中的行人组群行为；2017年11月《计算机学报》第40卷第11期的论文“基于流密度的多重交互集体行为识别算法”，采用基于流密度的方法对复杂视频场景中的集体行为识别问题；申请公布号为【CN108764011A】的发明专利公开一种基于图形化交互关系建模的组群识别方法，该方案首先进行人体目标的识别与跟踪；然后通过多粒度信息融合模型构建人体目标低层特征基础模型；再基于基础模型进行深度学习，构建底层特征的深度学习模型；然后基于底层基础模型和底层特征深度学习模型构建人体目标交互关系；最后基于交互关系进行组群行为识别。

目前的组群行为识别方法由于各种各样的原因，比如，在单人行为分析方面分类效果显著，但是缺乏对组群行为中人与人之间的重要的交互关系的考虑，大都面临着识别精度差的问题，或者是没有子组群检测环节，即默认场景中只存在一种组群行为，而限定了其使用范围。比如，对于申请公布号为【CN108764011A】的发明专利来说，该方案就存在如下缺陷：

(1)第一步中采用基于可变形部件模型的粒子滤波快速行人检测与跟踪算法识别并跟踪视频图像中的人体目标，存在粒子退化问题和重采样所导致的粒子匮乏问题，往往会导致检测到的人体区域有较大误差，为后续人体行为识别埋下隐患，从而导致整体算法性能降低；

(2)第二步中获取人体目标底层特征基础模型，采用的是传统的基于HOG与HOF特征融合的方法，该方法对噪声较为敏感、光谱信息损失多且对文理特征的旋转不变性差，另外对于存在行人部分或全部遮挡的情况，特征提取效果不好；

(3)第三步中在传统方法提取底层特征的基础上，增加循环神经网络RNN进行地递推学习，获取目标底层特征的深度学习模型，无法提取视频底层信息之间的联系，容易丢失上下文信息。

发明内容

本发明提出一种基于伪3D卷积神经网络的组群行为识别方法，以解决视频监控中的群组行为识别精度差问题，为实时判断公共区域中感兴趣人体目标的状态变化、进行自动人体行为识别提供技术支持。

本发明是采用以下的技术方案实现的：一种基于伪3D卷积神经网络的组群行为识别方法，包括以下步骤：

步骤A、对待识别视频图像进行人体姿态估计与目标跟踪；

步骤B、基于P3D ResNet进行单人行为识别，具体包括：

步骤B1、根据步骤A中得到的人体目标跟踪结果，构建单人行为识别数据集；

步骤B2、构建P3D ResNet网络并对其进行训练；

其中，关于P3D ResNet网络的定义如下：

(1)输入层：根据步骤B1得到的单人行为识别数据集，以特定采样率生成训练样本；

(2)时空特征提取层：时空特征提取层包含多个时空特征提取模块，运行流程为：将输入层或时空特征提取层的输出经过一个1*1*1的卷积层调整特征维度，然后输入1*3*3的空间卷积层提取空间特征，进一步输入3*1*1的时间卷积层得到时空特征，最后使用1*1*1的卷积核进行特征融合得到时空特征表示；

(3)行为分类层：将时空特征提取层得到的表示时空特征的向量，经过softmax函数后得到每个人在不同行为上的概率值；

步骤B3、单人行为识别：

基于步骤B2的训练结果，获得单人行为特征N为步骤A中跟踪到的人体总数；

使用softmax分类器对单人行为特征进行分类，获得在每个行为上的概率值，将最大的概率值所对应的行为标签作为人体目标的预测标签，用变量T表示；

步骤C、基于步骤A得到的人体位置信息和步骤B得到的人体行为特征，构建人体目标交互图，并利用图卷积网络进行图推理和训练；

步骤D、根据人体目标交互图进行组群行为识别，并将场景中包含人数最多子组群的行为作为最终的组群行为。

进一步的，所述步骤C具体包括以下步骤：

步骤C1、构建人体目标交互图：

根据人体位置信息和人体行为特征构建人体目标交互图G＝(V,E)，V表示人体目标交互图中的节点，每个节点代表一个人的信息集合，包括人体的行为特征和人体目标的预测标签；E是人体目标交互图中的边，用来表示成对人的交互关系；

步骤C2、利用图卷积网络(GCN)对人体目标交互图进行图推理和训练：

经过图推理所得到新的交互图被分成多组交互子图，且每组交互子图对应一种行为类别；通过多层图卷积网络进行训练后得到目标子交互图G^‘＝G₁,G₂,…,G_M，M表示一个场景中所包含的子组群的数量；

最后，将经过图卷积网络后输出的目标子交互图G^′的每个子图用一个一维向量X^′进行表示，将X^′作为softmax分类器的输入，得到每个子组群的行为得分以及预测的子组群行为标签

步骤C3、基于图卷积网络模型进行训练：

模型训练时，所用的交叉熵损失函数为：

其中y^G表示群组活动的真实标签，通过与步骤C2中得到的子组群行为标签进行对比，以使模型训练时所用的交叉熵损失函数值最小。

进一步的，所述步骤A中对人体姿态估计与目标跟踪时基于OpenPose姿态估计算法实现，具体包括：

步骤A1、构建网络结构：

对输入的待识别图像进行人体特征提取，得到特征图F；并将得到的特征图F分成两个分支，分别进行人体关节点检测和关节点的亲和域检测，以对应的得到关节点置信图集合S和关节点亲和域集合L；

步骤A2、训练网络结构：

由于关节点置信图和亲和域存在本质区别，训练过程中需要分别进行；设定关节点位置和亲和域的损失函数分别如下：

其中，j表示关节点，c表示肢体，每个肢体对应两个关节点，为置信图的真实值，为亲和区域的真实值，W为掩膜函数，W(P)表示在位置P处的标注，整个网络的最终损失为每个阶段两个损失之和的累加：

步骤A3、多人姿态估计与跟踪。

进一步的，所述步骤A1中，对关节点置信图集合S进行预测时，采用以下方式：

对于多人姿态估计，用高斯核函数确定每个位置的置信度，首先对第K个人，生成他的所有置信图用x_j,k表示第k个人的第j个关节点所对应的实际位置，设P点的置信度被定义为：

其中，σ为标准差，目的是控制置信度的分布范围，对于多人的姿态估计，每个人特定关节点的实际置信图为高斯核范围内的最大值：

进一步的，所述步骤A1中，对关节点亲和域集合L进行预测时采用以下方式：

设x_j1,k和x_j2,k分别表示第k个人在肢体C上的两个关节点，如果点P在肢体C上，则的值为j1指向j2的单位向量，若不在则为零，即：

其中v＝(x_j2,k-x_j1,k)/||x_j2,k-x_j1,k||₂表示肢体方向的单位向量，在0≤V·(p-x_j1,k)≤l_c,k和|V_⊥·(P-x_j1,k)|≤σ_l范围内的点P被定义为在肢体C上，其中σ_l表示肢体的宽度，l_c,k＝||x_j2,k-x_j1,k||₂表示肢体的长度，V_⊥表示垂直于肢体的向量，点P处的部分亲和域真实值为所有人在此点上的部分亲和域矢量场的平均值：

其中n_c(p)表示位置P处不同人的亲和域在该处的叠加次数，即在该处将所有人的非零向量进行叠加；

在预测阶段，对于两个候选关节点位置d_j1和d_j2，在两关节点组成的线段上对亲和域L_c进行采样，则两关节点之间的关联置信度为在该线段上亲和域的积分：

其中p(μ)表示两个节点之间的位置，p(μ)＝(1-μ)d_j1+μd_j2，实际预测时对μ区间进行均匀间隔采样求和来求解近似的积分值。

进一步的，所述步骤A3中，对多人姿态估计与跟踪具体采用以下方式：

(1)根据预测置信图得到离散的候选关节点：其中N_j表示关节点j的个数，表示关节点j的第m个候选点的位置；

(2)定义变量用来表示两个候选关节点和之间是否有连接，关节点之间相互连接形成二分图，并对二分图进行最优化使连接权重最大化；

(3)考虑多个人的全身姿态估计，最优化的目标函数表示为：

将优化之后各个二分图中共同的关节点进行整合，最终得到多人的人体姿态估计；分别取人体i所有关节点中x和y的最大值和最小值，确定目标i的边界框，将边界框的中心坐标位置作为目标i的位置信息进行跟踪。

进一步的，所述步骤B2中，对P3D ResNet网络进行训练时，采用以下方式：

(B21)构建损失函数

根据所构建的P3D ResNet网络得到每个人不同行为的概率值，构建交叉熵损失函数，表达式如下：

其中，M表示行为类别的数量；y_c为指示变量，取值为0或1，如果该类别和样本的类别相同则为1，否则为0；p_c表示对于观测样本属于类别c的预测概率；

(B22)构建优化函数

采用Adam算法作为模型的优化函数，使步骤(B21)中构建的损失函数损失值最小，以实现对P3D ResNet网络的训练。

与现有技术相比，本发明的优点和积极效果在于：

(1)在进行单人行为识别时，本方案基于P3D卷积网络提取特征，即减少了模型的参数，又提高了识别精度：采用P3D的方法进行特征提取，即用(1×3×3)的空间卷积和(3×1×1)的时间卷积来近似代替(3×3×3)的3D卷积；即可以利用3D结构来提取视频的时空信息，又能够利用原来在其他数据集上预训练的参数做模型的初始化，保证人体行为识别精度更高；

(2)基于人体目标的位置信息和外观特征，构建人体目标交互图来提高群组行为识别率：在群组行为识别任务中，本方案不仅要考虑单人行为特征，还考虑了人与人之间的交互关系；基于图卷积网络来自动学习人体目标交互图的特征信息及结构信息，以提高组群行为识别率。可应用在智能监控系统、视频检索以及人机交互等领域中对群体异常行为的识别，以起到有效预警和主动防御等作用。

附图说明

图1为本发明实施例所构建的网络结构示意图；

图2为本发明实施例中肢体坐标示意图；

图3为本发明实施例人体i的关节点示意图；

图4为本发明实施例OpenPose姿态估计与跟踪结果示意图；

图5为本发明实施例单人行为识别数据集原理示意图；

图6为本发明实施例时空特征提取模块结构原理示意图；

图7为本发明实施例所述组群识别原理示意图；

图8为本发明实施例所述方案与C3D和RestNet两种方案的单人行为识别精度对比示意图；

图9为本发明实施例所述方案在组群行为识别精度与其他方法的识别精度对比示意图。

具体实施方式

为了能够更清楚的理解本发明的上述目的和优点，下面结合附图对本发明的具体实施方式做详细地描述：

实施例，一种基于伪3D卷积神经网络的组群行为识别方法，如图7所示，包括以下步骤：

第一步：基于OpenPose姿态估计算法进行人体姿态估计与目标跟踪；

第二步：利用P3D ResNet进行单人行为识别；

第三步：构建人体目标交互图，并利用图卷积网络进行图推理和训练；

第四步：根据人体目标交互图进行组群行为识别。

具体的：

第一步、基于OpenPose姿态估计算法进行人体姿态估计与目标跟踪；

1.1构建网络结构

如图1所示，整个网络结构分为七个阶段两个分支，上分支预测关节点的位置，下分支预测各关节点之间的亲和域。前一个阶段的预测结果与原始特征相结合一起作为下一个阶段的输入，经过多个阶段的卷积操作以提高关节点的预测精度。

输入一幅H×W×3的图像，经过VGG-19卷积神经网络提取人体特征，得到一组特征图F，然后分成两个分支，一个分支用来进行人体关节点检测，以得到预测关节点置信图集合S；另一个分支用来进行关节点的亲和域检测，以得到亲和域集合L。每个分支都是一个迭代预测结构，总共分为T个阶段。经过第一阶段后产生的置信图为S¹＝ρ¹(F)，亲和域向量为之后每一个阶段的输入都来自前一个阶段的输出S^t-1和L^t-1与特征F，用来得到更精确的预测，其中：

其中ρ^t和分别表示第t个阶段的卷积操作，先用7×7的卷积核进行五次卷积，然后用1×1的卷积核做两次卷积，最终得到第t个阶段的关节点置信图和亲和区域。

本实施例中，需要重点说明的是：

(1)对关节点置信图S进行预测时，采用如下方式：

关节点置信图由一系列二维点组成，目的是为了衡量关节点在图像中某个位置出现的置信度，而置信度最高的位置为关节点的最终位置。对于多人姿态估计，用高斯核函数确定每个位置的置信度，首先对第K个人，生成他的所有置信图用x_j,k表示第k个人的第j个关节点所对应的实际位置，设在P点的置信度被定义为：

(2)对关节点亲和区域L进行预测时采用如下方式：

关节点亲和域由一系列单位向量组成，每段肢体对应一个亲和域，肢体上的所有像素点用一个单位向量进行表示，其中包含位置信息和方向信息，所有肢体单位向量的集合构成人体的总亲和域。

如图2所示，x_j1,k和x_j2,k分别表示第k个人在肢体C上的两个关节点，如果点P在肢体C上，则的值为j1指向j2的单位向量，若不在则为零。

其中n_c(p)表示位置P处不同人的亲和域在该处的叠加次数，即在该处将所有人的非零向量进行叠加。

其中p(μ)表示两个节点之间的位置p(μ)＝(1-μ)d_j1+μd_j2，实际预测时对μ区间进行均匀间隔采样求和来求解近似的积分值。

1.2训练网络结构

由于关节点置信图和亲和域有本质的区别，因此在训练过程中需要分别进行。为了避免梯度消失问题，损失函数均采用L₂损失；另外，为了避免数据样本由于标注时出现的错误对损失函数造成影响，对损失函数在各个位置处进行掩模操作。因此，关节点位置和亲和域的损失函数分别如下：

训练结果保证损失值最小。

1.3多人姿态估计与跟踪

对预测的置信图进行非极大值抑制操作后可以得到一组离散的候选关节点。由于是多人检测，对于每一类型的关节点都会存在多个候选关节点。根据这些关节点可以定义一个肢体集合，通过step2的积分公式计算每个候选肢体的分数。

Step1.首选根据预测置信图得到离散的候选关节点：其中N_j表示关节点j的个数，表示关节点j的第m个候选点的位置。

Step2.本实施例中，匹配目标是要求候选关节点和同一个人的其他候选关节点建立连接，则定义变量用来表示两个候选关节点和之间是否有连接，关节点之间相互连接形成二分图，并对二分图进行最优化使连接权重最大化。

Step3.当考虑多个人的全身姿态估计时，最优化的目标函数表示成：

将优化之后各个二分图中共同的关节点进行整合，最终得到多人的人体姿态估计。每个人取14个关节点连成人体骨架，骨架信息如表1所示。

表1.每个人体骨架的14个关节点信息

头

脖子

左肩

右肩

左肘

右肘

左手腕

(x1,y1)

(x2,y2)

(x3,y3)

(x4,y4)

(x5,y5)

(x6,y6)

(x7,y7)

右手腕

左胯骨

右胯骨

左膝盖

右膝盖

左脚

右脚

(x8,y8)

(x9,y9)

(x10,y10)

(x11,y11)

(x12,y12)

(x13,y13)

(x14,y14)

例如人体i，人体i的关节点示意图如图3所示，分别取人体i所有关节点中x和y的最大值和最小值，确定目标i的边界框，将边界框的中心坐标位置作为目标i的位置信息进行跟踪，姿态估计及跟踪结果如图4所示。

第二步、利用P3D ResNet(伪3D残差网络)提取每个人的时空特征，使用softmax分类器对时空特征进行分类，完成单人行为识别；

2.1构建单人行为识别数据集；

根据步骤1.2中得到的人体跟踪结果将视频中的每个人进行单独切分，构建单人行为识别数据集，如图5所示。

2.2构建P3D ResNet网络

·输入层：使用步骤2.1生成的单人行为数据集，以16帧作为采样率生成训练样本，每帧图片的尺寸为100*200。

·时空特征提取层：该层共包含33个时空特征提取模块，模块结构如图6所示，运行流程为：将上一层的输出先经过一个1*1*1的卷积层调整特征维度，然后送入1*3*3的空间卷积层提取空间特征，进一步送入3*1*1的时间卷积层得到时空特征，最后使用1*1*1的卷积核进行特征融合得到时空特征表示。在经过33个时空特征提取模块后，使用平均池化和全联接层得到一个1000维的时空特征向量。

·行为分类层：将时空特征提取层得到的向量，经过softmax函数后得到每个人在不同行为上的概率值。

本方案中，首先在Kinetics-600视频分类数据集上进行预训练，然后再应用到CAD数据集中。Kinetics-600数据集包含600种运动视频，每段视频有10秒左右，共计约50万个视频片段。CAD数据集包含44个视频片段，由低分辨率手持相机拍摄。视频包含5种不同类型的单人行为标签：Crossing，Queuing，Walking，Talking和Waiting；5种群组活动标签：Crossing，Queuing，Walking，Talking和Waiting。所有视频序列，每10帧标注一次，标注的信息包括人体的边界框以及行为标签。本方案按照7:2:1的比例划分数据集，70％用来做训练集，20％用来做测试集，10％用来做验证集。

2.3训练P3D ResNet网络

Step1.构建损失函数

根据步骤2.2得到的每个人不同行为的概率值，构建交叉熵损失函数，表达式如下：

其中，M表示行为类别的数量；y_c为指示变量，取值为0或1，如果该类别和样本的类别相同则为1，否则为0；p_c表示对于观测样本属于类别c的预测概率。

Step2.构建优化函数

使用Adam算法作为模型的优化函数，使Step1中损失值最小，本实施例中，设置学习率为0.01，其他超参数使用PyTorch中的默认值。

比如，在PyTorch中，定义Adam优化函数可用如下代码实现：

Optim＝torch.optim.Adam(lr＝0.001)

2.4单人行为识别

从测试集中随机选择一个视频片段作为输入样本，送入步骤2.3中，通P3D ResNet获得单人行为特征N为步骤1.3中跟踪到的人体总数。然后使用softmax分类器对行为特征进行分类，获得在每个行为上的概率值，将最大的概率值所对应的行为标签作为人体目标的预测标签，用变量T示。

第三步、利用人体目标的位置信息和外观特征，构建人体目标交互图，并利用图卷积网络进行图推理和训练；

3.1根据步骤1.3得到的人体位置信息X_position和步骤2.4得到的单人行为特征X_object构建人体目标交互图G＝(V,E)；

其中，V是图中的节点，每个节点代表一个人的信息集合，包括人体的行为特征X_object和预测的行为标签T。E是图中的边，用来表示成对人的交互关系，本实施例中用一个关系值E_ij表示节点i与节点j之间关系的强弱；i,j∈N，N为1.2中检测到的人体目标总数；关系值计算表达式如下：

其中，表示目标i与j之间观测特征的关系；表示目标i与j之间的位置关系，F是一个复合函数，作用是将外观特征和位置信息进行融合。

Step1.计算特征之间的相似性

本实施例使用向量点积的方法计算两个目标之间的观测特征关系，因为外观特征点积的相似性可以被认为是观测值之间的简单表达形式，其计算公式如下：

Step2.计算人体目标之间的欧氏距离

本实施例采用欧式距离来计算人与人之间的位置关系。通常来说，在进行人体行为识别时，局部位置信号要比远距离信号更加重要，并且相比全局关系信息来说，局部范围的关系信息对群组行为的建模更加重要。基于这两种先验知识，本实施例通过设定阈值μ来判断目标之间的关系。将距离大于μ的两个目标之间的位置关系置为零，即两个目标之间没有连接线，μ的值通过网络自学得到，具体的位置计算公式如下：

Step3.计算两个人体目标之间的关系值E_ij

关系值具体计算公式如下：

3.2利用图卷积网络对人体目标交互图进行图推理得到一个新的交互图；

本实施例采用图卷积网络(Graph Convolutional Networks,GCN)进行图推理，将人体目标交互图G作为GCN的输入，通过判断两个节点之间的关系值E_ij是否为零来确定两个目标节点之间是否存在连接边。若两个节点之间的关系值E_ij＝0，则认为i和j是相互独立的，不属于同一种行为类别；相反，若E_ij>0，则认为i和j属于同一种行为类别，将一个交互图分成多个交互子图，每个子图包含一种行为，通过多层GCN后输出子目标交互图G^‘＝G₁,G₂,…,G_M，M表示一个场景中所包含的子组群的数量。

对于图中的一个目标节点i，根据相邻边权重的大小，将聚集所有相邻节点的特征。形式上，一层GCN结构可以用如下公式来表示：

Z^(l+1)＝σ(GZ^(l)W^(l)) (19)

其中，G∈R^N×N是图的矩阵表示；Z^(l)∈R^N×d是第i层节点的特征表示，且Z⁽⁰⁾＝X；W^(l)∈R^d×d是第l层可学习到的权重矩阵；σ(·)是一个激活函数，本实施例采用ReLU函数。分层传播结构可以堆叠多层GCN，为了简单起见，优选使用50层GCN结构。

最后，将经过GCN后输出的子交互图G′的每个子图用一个一维向量X′进行表示，将X′作为softmax分类器的输入，得到每个子组群的行为得分以及预测的子组群行为标签

3.3基于图卷积网络模型训练

该过程与步骤2.3原理相似，不同点在于交叉熵损失函数的公式不同，然后利用Adam优化器对网络进行训练，其中，交叉熵损失函数为：

其中y^G表示群组活动的真实标签。

第四步、根据人体目标交互图进行组群行为识别

利用成对交互关系图进行组群行为识别，根据步骤3.2所得到的G‘＝G₁,G₂,…,G_M判断每个子组群中所包含的人体个数，最后，将所有场景中包含人数最多子组群的行为作为最终的组群行为。

为了进一步验证本方案的有效性和优势，本实施例将P3D ResNet与C3D和ResNet两种网络结构在单人行为数据集上进行了对比，实验精度结果如图8所示。

在群组行为识别任务中，不仅要进行单人行为识别，还要考虑人与人之间的交互关系。因为，如果仅考虑单人行为，必将失去很多隐蔽而复杂的组群内部交互关系。然而大部分工作通常会忽略这一重要信息。因此本实施例选用图卷积网络来自动学习人体目标交互图的特征信息及结构信息，从而提高群组行为的识别率；并对比了有无人体目标交互关系图对最终群组行为识别的影响，以及在同样使用交互关系图时，P3D ResNet网络与普通CNN的区别，实验精度结果如图9所示。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.基于伪3D卷积神经网络的组群行为识别方法，其特征在于，包括以下步骤：

步骤A、对待识别视频图像进行人体姿态估计与目标跟踪；

步骤B、基于P3D ResNet进行单人行为识别，具体包括：

步骤B2、构建P3D ResNet网络并对其进行训练；

其中，关于P3D ResNet网络的定义如下：

步骤B3、单人行为识别：

2.根据权利要求1所述的基于伪3D卷积神经网络的组群行为识别方法，其特征在于：所述步骤C具体包括以下步骤：

步骤C1、构建人体目标交互图：

经过图推理所得到新的交互图被分成多组交互子图，且每组交互子图对应一种行为类别；通过多层图卷积网络进行训练后得到目标子交互图G‘＝G₁,G₂,…,G_M，M表示一个场景中所包含的子组群的数量；

最后，将经过图卷积网络后输出的目标子交互图G′的每个子图用一个一维向量X′进行表示，将X′作为softmax分类器的输入，得到每个子组群的行为得分以及预测的子组群行为标签

步骤C3、基于图卷积网络模型进行训练：

模型训练时，所用的交叉熵损失函数为：

3.根据权利要求1所述的基于伪3D卷积神经网络的组群行为识别方法，其特征在于：所述步骤A中对人体姿态估计与目标跟踪时基于OpenPose姿态估计算法实现，具体包括：

步骤A1、构建网络结构：

步骤A2、训练网络结构：

步骤A3、多人姿态估计与跟踪。

4.根据权利要求3所述的基于伪3D卷积神经网络的组群行为识别方法，其特征在于：所述步骤A1中，对关节点置信图集合S进行预测时，采用以下方式：

5.根据权利要求3所述的基于伪3D卷积神经网络的组群行为识别方法，其特征在于：所述步骤A1中，对关节点亲和域集合L进行预测时采用以下方式：

6.根据权利要求3所述的基于伪3D卷积神经网络的组群行为识别方法，其特征在于：所述步骤A3中，对多人姿态估计与跟踪具体采用以下方式：

(3)考虑多个人的全身姿态估计，最优化的目标函数表示为：

7.根据权利要求1所述的基于伪3D卷积神经网络的组群行为识别方法，其特征在于：所述步骤B2中，对P3D ResNet网络进行训练时，采用以下方式：

(B21)构建损失函数

(B22)构建优化函数