CN113420608A

CN113420608A - 一种基于密集时空图卷积网络的人体异常行为识别方法

Info

Publication number: CN113420608A
Application number: CN202110601253.4A
Authority: CN
Inventors: 雷静思; 洪曙光; 林焕凯; 陈利军; 周谦; 刘双广
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-21

Abstract

本发明属于视频监控技术领域，以业务场景中的人体异常行为识别为目标，设计一种基于密集图卷积网络的人体异常行为识别方法，以提高正常行为与打斗行为的识别能力，使其适用于业务场景的异常行为识别任务中，基于ST‑GCN网络的改进，利用dense连接是的深层特征充分利用浅层的特征，帮助网络学习到更多“知识”，提高识别率，针对业务场景视频数据采取的采样策略减少了信息的冗余，保证精度的同时提高模型效率。

Description

一种基于密集时空图卷积网络的人体异常行为识别方法

技术领域

本发明属于视频监控技术领域，具体涉及一种基于密集时空图卷积网络的人体异常行为识别方法。

背景技术

异常行为识别是视频监控领域的关键内容，检测场景中的人体是否存在异常行为，并及时进行预警以便于人员做出迅速处理。一个具有较高实时性和精确率的异常行为检测算法对于提高业务场景监控系统的识别精度和效率至关重要。近年来，随着计算机算力的提高和深度学习理论与方法的推广应用，涌现出一大批基于深度神经网络的行为识别模型，例如TSN、 C3D、RNN、LSTM、GCN等。其中TSN基于双流法的思想，解决two-stream 中长视频识别的问题，虽然其精度较高，但光流计算量较大，不能满足时间问题。C3D方法将传统的2D卷积扩展到3D，保留了行为识别时间上的特征，较TSN虽然速度更快但准确率下降较多。RNN都包含循环网络，允许信息的持久化，连接先前的信息到当前任务上。但是当时间间隔不断增大时，RNN会丧失学习到连接如此远的信息的能力。LSTM可用来弥补这一问题。但对于非欧几里德空间数据，传统的深度学习方法无法很好处理。且在行为识别中，视频数据常面临光照，复杂背景等问题。从视频中提取的人体骨架信息具有图的基本结构且对光线，背景等具有鲁棒性，可利用 GCN进行处理。现有技术方案如ST-GCN算法主要采用图卷积的思想，算法分为三部分：第一部分是对输入视频进行人体关键点检测；第二部分对人体关键点信息进行特征提取；第三部将提取到的特征全连接后进行识别预测。ST-GCN算法中使用10层时空图卷积单元st-gcn进行特征提取，网络结构如图1所示。

现有技术存在以下缺点：基于视频的行为识别中，提取视频的时间和空间特征能力较弱。例如ST-GCN，从低维特征到高维特征仅有信息的逐层传递，没有充分利用到提取到的低维信息。

发明内容

针对上述不足，本发明提供一种基于密集时空图卷积网络的人体异常行为识别方法。以ST-GCN网络为基础，借鉴DenseNet中DenseBlock的思想，对网络进行了改进，增强模型的特征表达能力。

本发明通过以下技术方案实现：

一种基于密集时空图卷积网络的人体异常行为识别方法，包括步骤：

S1，获取待识别的图像，所述图像中至少包含有一个人体；

S2，将所述图像送入预先建立的网络进行识别，输出特征信息；其中所述预先建立的网络是密集时空图卷积网络，其网络结构如下：在 ST-GCN中的结构加入密集连接结构，将ST-GCN中输入通道等于输出通道的单元作为一个denseblock，每个denseblock块内部的每层的输入是前面所有层concatnate结果；输入通道数不等于输出通道的单元作为transition层；

S3，将所述特征信息送入池化层和softmax层输出结果判断是否为异常行为。

进一步地，在所述步骤S2中，还包括，通过OpenPose工具提取图像中的人体骨架数据构成骨架拓扑图，并将所属骨架拓扑图送入所述预先建立的网络。

进一步地，OpenPose对图像进行关键点提取，获得的人体关键点信息由18个(X,Y,C)组成，其中(X,Y)为关键点在视频中的位置，C为该关键点的置信度。

进一步地，所述的人体骨架数据为2D数据。

进一步地，在步骤S2中，采用和ST-GCN相同的时空卷积函数。

一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现基于密集时空图卷积网络的人体异常行为识别方法的步骤。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现基于密集时空图卷积网络的人体异常行为识别方法的步骤。

本发明提出的一种基于密集时空图卷积网络的人体异常行为识别方法，与现有技术相比，具有下述的有益效果或优点：

1、基于ST-GCN网络的改进，利用dense连接是的深层特征充分利用浅层的特征，帮助网络学习到更多“知识”，提高识别率。

2、针对业务视频数据采取的采样策略减少了信息的冗余，保证精度的同时提高模型效率。

附图说明

以下将结合附图对本发明做进一步详细说明；

图1(a)和图1(b)分别为现有技术中ST-GCN的网络结构及ST-GCN 中的st-gcn单元；

图2是本发明改进的网络结构。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本提案以业务场景中的人体异常行为识别为目标，设计一种基于密集时空图卷积网络的人体异常行为识别方法，以提高正常行为与打斗行为的识别能力，使其适用于业务场景的异常行为识别任务中。该方法包括如下步骤：

S1，获取待识别的图像，所述图像中至少包含有一个人体；

当应用于具体实施例中，详细技术方案如下：

一、数据集准备

1、原始视频数据采集：业务场景中的异常行为识别任务主要分为打斗行为和正常行为识别，因此需要获取该场景下的正常行为视频及打斗行为视频。为了获取足够数量的视频，数据集由真实数据和部分真实场景下的模拟的数据组成，每段视频10s。分为训练集和测试集，训练集用于模型训练，测试集用于验证模型识别效果。

2、人体骨架数据提取：将原始视频resize到340*256，并通过OpenPose 工具提取视频人体2D骨骼数据。OpenPose的核心是对图片进行操作，因此对于输入的视频序列，本提案设置fps为30，对视频帧进行关键点提取。最后获得的关键点信息由18个(X,Y,C)组成，其中(X,Y)为关键点在视频中的位置，C为该关键点的置信度。

二、网络构建

1、人体骨架拓扑图

根据人体骨架连接特性，将OpenPose获取的18个关键点信息构成骨架拓扑图作为密集时空图卷积网络的输入数据。

2、时空图卷积

采用和ST-GCN相同的时空卷积函数。根据传统的2D卷积函数，空间上的卷积函数如式(1)所示：

其中：p(v_ti,v_tj)是图上的采样的函数p:B(v_ti)→V，B(v_ti)表示v_ti到v_tj的任何路径的最小长度的集合；w(v_ti,v_tj)是图上的权重函数，通过索引(c,K)维的张量或w(v_ti,v_tj)＝w′(l_ti(v_tj))来是实现，其中K是邻居集B(v_ti)划分的K个子集；归一化项|Z_ti(v_tj)＝{v_tk|l_ti(v_tk)＝l_ti(v_tj)}|等于相应子集的基数。

在时间上，序列的连续表达通过相邻帧的相同关节点的连接来构建，所以可以将空间图卷积网络扩展到时空域，使邻域信息包含关节点的时间信息。

时空模型采样函数：

其中Γ控制时间域的卷积核大小；权重函数：

3、密集连接

密集连接结构是网络当前层接受前面所有层传递的特征图作为本层的输入特征，公式如下：

x_l＝H_l([x₀,x₁,....x_l-1]) (2)

密集连接对特征的连接不同于残差操作，残差计算中特征通过加法操作进行合并，而密集连接通过对特征拼接使得浅层特征也能在深层网络中被使用。

基于上述特点，本提案在由10层st-gcn单元线性堆叠而成的ST-GCN 网络基础上，针对业务场景的异常行为识别做了相关的网络结构优化，改进的网络结构参数如表1所示。网络结构的改进如下：借鉴densenet的思想，在原有ST-GCN中的结构加入密集连接结构，优化后的网络结构如图2 所示。将原有网络中输入通道等于输出通道的单元做为一个denseblock，每个denseblock块内部的每层的输入是前面所有层concatnate结果；输入通道数不等于输出通道的单元作为transition层，来减少由于concatnate造成的通道数指数增加的问题。

表1本发明的算法网络结构

4、网络输出

密集时空图卷积网络部分完成特征提取后，通过后接池化层和softmax 层输出是否为异常行为的判断。

三、模型训练

1、训练参数设置

模型共训练100个epoch，初始学习率为0.001，学习率改变策略为每 20个epoch学习率下降0.1，并采用SGD做梯度优化器，batch_size设置为 32。

2、训练细节

网络的输入参数是视频的关键点信息，为了减少数据分布对模型的影响，本提案首先进行了数据归一化，将关键点坐标归一化到(0～1)。

网络输入数据维度为(N,T,C,V,M)，其中N表示输入网络的样本数量；T为输入的视频帧数，本提案每个视频样本时间为10s，提取骨架数据时设置的fps30，因此T为300；C为输入通道数，V为人体关键点数量，M为采样人数。数据输入到网络后，在每个密集块内部进行密集的信息流动，后层st-gcn单元对前面所有层传来的特征信息进行concatnate，以此作为本层的输入特征。密集块之间通过一个单一的st-gcn单元进行通道保持，避免密集连接操作带来的通道数大幅增加影响。

同时，ST-GCN利用了视频输入的每帧信息，但在运动过程中，相邻帧的运动改变可能会非常小，利用视频的全部信息可能造成冗余。因此本提案对视频信息进行隔帧取样，实验结果显示并未明显影响识别准确率。

四、模型测试

1、评价指标

针对业务场景异常行为识别任务，数据类型分为2类，即正常类和打斗类。为了评估密集时空图卷积网络的效果，本提案用于参考的评价指标是准确率，如式(3)。

准确率＝分类正确样本数/样本总数 (3)

2、测试方法

对于测试集，采用同于训练的前期数据准备。首先对测试集视频进行resize，然后利用openpose提取视频关键点信息并进行归一化处理和隔帧采样操作，以此作为模型的输入数据，最后接入池化层和softmax层对预测结果进行分类，获得模型识别准确率。

采用改进的用于业务场景的打斗行为识别算法，相比原本的ST-GCN 在自建业务场景数据集上，测试环境为GTX1080时的识别准确率有提升，本发明的识别结果如表2所示。

表2本发明的识别结果

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内，所做的任何修改、等同替换、改进等，同样属于本发明的保护范围之内。

Claims

1.一种基于密集时空图卷积网络的人体异常行为识别方法，其特征在于，包括步骤：

S1，获取待识别的图像，所述图像中至少包含有一个人体；

S2，将所述图像送入预先建立的网络进行识别，输出特征信息；其中所述预先建立的网络是密集时空图卷积网络，其网络结构如下：在ST-GCN中的结构加入密集连接结构，将ST-GCN中输入通道等于输出通道的单元作为一个denseblock，每个denseblock块内部的每层的输入是前面所有层concatnate结果；输入通道数不等于输出通道的单元作为transition层；

2.根据权利要求1所述的基于密集时空图卷积网络的人体异常行为识别方法，其特征在于，在所述步骤S2中，还包括，通过OpenPose工具提取图像中的人体骨架数据构成骨架拓扑图，并将所属骨架拓扑图送入所述预先建立的网络。

3.根据权利要求2所述的基于密集时空图卷积网络的人体异常行为识别方法，其特征在于，所述OpenPose对图像进行关键点提取，获得的人体关键点信息由18个(X,Y,C)组成，其中(X,Y)为关键点在视频中的位置，C为该关键点的置信度。

4.根据权利要求2所述的基于密集时空图卷积网络的人体异常行为识别方法，其特征在于，所述的人体骨架数据为2D数据。

5.根据权利要求1所述的基于密集时空图卷积网络的人体异常行为识别方法，其特征在于，在步骤S2中，采用和ST-GCN相同的时空卷积函数。

6.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-5任一所述的方法的步骤。

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现权利要求1-5任一所述的方法的步骤。