CN114220176A

CN114220176A - 一种基于深度学习的人体行为的识别方法

Info

Publication number: CN114220176A
Application number: CN202111576609.XA
Authority: CN
Inventors: 王计斌; 陈大龙
Original assignee: Nanjing Howso Technology Co ltd
Current assignee: Nanjing Howso Technology Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-22

Abstract

本发明涉及基于深度学习的人体行为的识别方法，包括步骤：S1收集数据：采集数据，形成数据集；S2数据集处理：输入数据集，并对数据集中的数据进行人员检测及跟踪，并通过人体姿态估计提取每个数据集的骨骼信息，并进行姿态估计，获得姿态估计结果；S3危险行为分析：使用数据集训练并构建ST‑GCN识别模型，再将姿态估计结果输入ST‑GCN识别模型进行危险行为分析和识别，获得识别结果并输出识别结果。利用目标检测的YOLO V4算法进行人体检测，再对人体进行目标跟踪，此处采用的是DeepSort跟踪算法，利用OpenPose进行骨骼关节点的提取，最终将骨骼序列利用ST‑GCN识别模型进行人体行为识别。

Description

一种基于深度学习的人体行为的识别方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于深度学习的人体行为的识别方法。

背景技术

社会安全、学校安全、道路交通、自然或人为灾害等方面引发的事件给人们带来的巨大的生命财产损失，事件的检测、报警以及处理变得尤为重要，如果只是依靠人力来完成这些工作，已经不能满足人们的需要，这就要求通过技术手段来协助人们完成事件的检测、报警等相关的工作，减轻人们的工作负担，同时提高事件处理的效率。与此同时，政府部门也对这类事件高度重视，要求采用“人防、物防和技防”的手段，来高效的处理甚至避免此类事件的发生。

安全监控对随着监控系统的发展，监控系统的应用也越来越多，当监控地点较多时，如果只是通过人工来进行分析，显然不现实，而且成本也较高，这就对监控系统的智能性提出了要求。如今随着计算机技术、存储容量、数字编解码技术的不断进步，视频监控已经逐步向智未2能化发展。

智能化的监控系统离不开计算机对视频内容的理解，视频行为识别是视频理解方向的重要内容，也是计算机视觉领域的重要组成部分，同时也是安全监控的重要范畴，在视频信息检索、日常生活安全、公共视频监控等领域都有广泛的应用前景和社会价值，需要投入进行大量的研究和探索。视频行为识别是视频理解方向一个很重要的问题，至今为止已经研究多年。目前，视频人体行为识别的方法按特征提取方式的不同分为两类，1)基于传统手工特征的行为识别，其首先利用专家设计的特征提取视频的底层行为特征，之后采取PCA(Principal Component Analysis)和白化(Whitening)对底层特征进行处理，之后再放入分类器中训练，最终得到较好的分类器，可以实现视频行为识别；2)基于深度学习的方法，其利用迭代学习自动从视频中提取深度学习的行为特征向量，再通过然后通过深度模型得到类别得分，并根据数据的标签，利用反向传播的方式调整网络模型参数，最终达到良好的分类效果。

基于手工特征的视频行为识别方法，其中最鲁邦、效果最好的方法是Wang等提出的iDT方法(improved Dense Trajectories),是在DT(Dense Trajectories)的基础上，对轨迹施加全局平滑约束，得到更鲁棒的与运动轨迹。DT算法的基本思路为利用光流场来获得视频序列中的一些轨迹，再沿着轨迹提取HOF，HOG，MBH，trajectory 4种特征。最后利用FV(Fisher Vector)方法对特征进行编码，再基于编码结果训练SVM分类器，从而实现行为识别。

基于深度学习的行为识别方法的网络结构主要有双流网络(Two-streamNetwork)，3D卷积网络(3D Convolutional Network)和骨骼序列网络三种。基于双流网络结构的行为识别方法是由Simon-yam在2014年提出的，双流网络结构分为时间流卷积神经网络和空间流卷积神经网络两个分支，且两个分支具有相同的网络结构。时间流卷积神经网络先对视频序列中相邻两帧计算光流图像，再多多帧堆叠的光流图像提取时序信息，空间流卷积神经网络则对视频RGB图像提取空间特征，最后将两个网络分别得到的得分融合，从何得到最终的分类结果，这种方法大幅度提高了视频行为识别的准确率。但它的一个弊端则是不能对长时间的视频进行建模，只能对连续几帧视频提取信息，基于此，Wang等提出了TSN网络(Temporal Segment Networks),其中有一个很有用的方法，是先将视频分成K个部分，然后从每个部分中随机的选出一个短的片段，然后对这个片段应用two-stream方法，最后对于多个片段上提取到的特征做一个融合，从而达到相对长时间视频的行为识别。

3D卷积网络是是一种端到端的训练方法，网络结构更加简洁，速度更快。基于3D卷积网络结构的行为识别方法有Ji等在2010年首次提出，利用3D卷积核进行3D卷积，对视频沿着空间和时间的维度直接提取时空特征。Tran等提出了C3D网络，通过系统化的研究找到了3D卷积最合适的时序卷积核长度，是的提取的特征通用，有效且紧凑。

另一种主流方法则是基于骨骼序列的深度学习网络，由于人体的骨骼和关节轨迹对光照变化和场景变化具有很强的鲁棒性。并且由于高度精确的深度传感器或姿态估计算法，数据很容易获得。因此，有一系列广泛的基于骨骼的行为识别方法。这些方法可以分为基于手工特征的方法和深度学习方法。Li等人所提出的平移尺度不变图像映射和多尺度深度CNN网络是一个比较有代表性的基于卷积神经网络的关节点行为识别方法。Yan等人在2018年提出了基于骨架的行为识别时空图卷积网络，这是第1篇用图卷积网络进行关节点行为识别的文章，同时也是非常有代表性的一个方法，主要介绍了如何利用人体关节点构造图以及在所构造的图上进行图卷积操作。

发明内容

本发明的目的在于解决针对传统设备识别方法存在模型动态更新困难、训练数据不足和运算存储开销大等问题；提供一种基于深度学习的人体行为的识别方法。

为解决上述问题，本发明采用的技术方案为：该基于深度学习的人体行为的识别方法，包括以下步骤：

S1收集数据：采集数据，形成数据集；

S2数据集处理：输入数据集，并对数据集中的数据进行人员检测及跟踪，提取每个数据集的骨骼信息，并进行姿态估计，获得姿态估计结果；

S3危险行为分析：使用数据集训练并构建ST-GCN识别模型，再将姿态估计结果输入ST-GCN识别模型进行危险行为分析和识别，获得识别结果并输出识别结果。

采用上述技术方案，首先利用目标检测的YOLO V4算法进行人体检测，再对人体进行目标跟踪，此处采用的是DeepSort跟踪算法，然后利用OpenPose进行骨骼关节点的提取，最终将骨骼序列利用ST-GCN算法进行人体行为识别。

作为本发明的优选技术方案，所述步骤S3将姿态估计结果输入ST-GCN识别模型前先对姿态估计结果进行增强处理，即加入随机扰动对获得的姿态估计结果进行骨骼关节点位置微调，从而实现数据增强，增强后的数据作为识别的骨骼序列。由于深度学习的网络训练需要大量的样本才能达到更高的准确率，因此在样本缺少的情况下，需要进行数据增强。数据增强的方法是对现有姿态估计结果进行骨骼关节点位置微调，即加入随机扰动，这样则能在保证姿态估计时间序列动作语义不变的情况下实现数据增强。

作为本发明的优选技术方案，所述步骤S2的具体步骤为：

S21：首先采用YOLO模型进行的人员检测，并判定是否存在漏检，若存在漏检，则手动框选检测框；若不在漏检，则转至步骤S22；

S22：采用优化的DeepSort算法进行人员跟踪；

S23：采用OpenPose人体姿态估计算法来获取骨骼信息，所述骨骼信息包含骨骼的x,y坐标信息和置信度；再根据所述骨骼信息进行姿态估计。

其中deepsort是一种多目标追踪的深度学习方法，主要来自于sort算法改进，sort是一种基于卡尔曼滤波和匈牙利算法核心追踪算法，其特点是简单高效，在当前目标追踪中是一种广泛采用的追踪技术，但是由于目标容易丢失等问题，sort算法团队又在此基础上提出了deepsort算法；该技术方案的优化的DeepSort算法的主要改进点为：

(1)采用了级联匹配算法：让每个检测有一个对应的一个跟踪器，且为跟踪器设定了time_since_update参数；

(2)增加了马氏距离和余弦距离计算方法；

(3)添加一个REID模块，这个是一个可以提取目标特征的深度学习网络deepsort算法流程如下：

1)预测：对目标检测得到的bbox参数送入deepsort网络，首先会利用卡尔曼滤波算法检测出当前目标所在的位置；

2)匹配：将已经存在的追踪目标信息化分为confirmed tracks和unconfirmnedtracks，然后将先前的confimed tracks与当前的检测结果作级联匹配

3)针对之前已经confimed tracks，将它们与当前的检测结果进行级联匹配。

然后计算出当前帧检测结果的特征和该层中每个track特征集之间的余弦距离矩阵。对于每个track，计算出其预测结果与检测结果的马氏距离，而后将相应的track的马氏距离大于阈值的值设置为无穷大。再经过匈牙利算法得到线性匹配结果；最后将unconfirmed tracks与没有匹配的tracke组成一个候选集，与和unmatched detections作IOU计算，最终得到match，unmatched_tracks,unmatched_detections。

其中OpenPose是一个主要用于骨骼检测的框架，其通过Part Affinity Fields(使用2d向量表征位置和方向信息)来学习身体的各部分及关联性，利用全局纹理信息，自下而上的方法，达到实时性和高精度检测。

作为本发明的优选技术方案，所述步骤S3中对姿态估计结果进行增强处理的具体包括以下步骤：

S31：获取所述步骤S2中骨骼信息中的关键节点的位置信息；

S32：获取各个关节点到脖子关节点的距离；

S33：根据关节点到人体重心的距离关系，按照ratio＝[0.01,0.99]计算关节点偏移范围；

S34：在各个关节点移动范围内，选择一个具体的偏移值，作为骨骼关节点位置微调的值。身体部位的运动可以被广泛地归类为同心运动和偏心运动。通常距离脖子关节点越近，运动幅度越小；离脖子关节点越远，运动幅度大。根据这一运动特性，在进行骨骼关节点微调的时候，对于较远的关节点给予较大的偏移范围，较近的关节点给予较小的偏移范围。

作为本发明的优选技术方案，所述步骤S22中采用优化的DeepSort算法进行人员跟踪的具体包括以下步骤：

S221：对上一帧检测结果进行卡尔曼滤波预测，获得预测结果；

S222：通过匈牙利算法进行当前帧检测，获得当前帧结果与所述步骤S221中获得的预测结果级联匹配；

S223：若存在漏检时，对未匹配的预测结果进行卡尔曼滤波预测，将结果缓存；

S224：当未匹配的目标再次被检测到时，对检测结果与缓存的结果进行级联匹配后，重新追踪。理想情况下，目标停在原地不动或移动缓慢且视频画面保持不变，该目标应该连续被跟踪到，但有时会出现漏检情况，导致跟踪ID丢失；采用优化的DeepSort算法，减少了目标漏检时，人员不被继续追踪的问题。

作为本发明的优选技术方案，所述步骤S33中计算关节点的偏移范围的公式为：

x_offset＝ratio[x_label]*distance (1)

x_offset则为偏移范围，

表示该关节点可以调整的比例，distance表示该关节点值脖子的距离。

作为本发明的优选技术方案，所述步骤S23的具体步骤为：

S231：首先通过卷积神经网络VGG19提取图像特征；

S232：再使用两个平行卷积层，进一步进行特征提取；

S233：再采用OpenPose继续细化每个分支的识别；采用置信度图，在各个关节点之间形成二分图；

S234：再通过PAF相关值作为边权，利用匈牙利算法得到最优的多人关节点联接结果，最终合并成一张图片中含有多个人的完整的骨骼信息。精简OpenPose的输出，来减少行为识别模型的输入，以此来精简模型，优化速度。

作为本发明的优选技术方案，所述步骤S3中训练并构建ST-GCN识别模型时，在原ST-GCN识别模型的结构中增加了一个输入，即将上一帧与当前帧的位置差作为另一个输入导入原ST-GCN识别模型中，两个输入分别进行时序卷积神经网络TCN与图卷积神经网络GCN的特征提取操作之后，再将两个输出结果进行拼接，再改变原ST-GCN识别模型中全连接层的输入参数和输出参数的维度，从而实现判断出人体行为的类别，完成ST-GCN识别模型的构建。针对固定摄像头视野下的行为识别，调整了ST-GCN识别模型的结构，以获得更好的识别效果。

作为本发明的优选技术方案，所述步骤S232具体步骤为：将步骤S231提取到的特征输入到两个平行的卷积层中，进行进一步的特征提取；其中第一个卷积分支用来预测置信度图，每个图代表人体骨骼的特定部分，共18个；这18个骨骼关节点分别为：鼻子，脖子，右肩，右肘，右腕，左肩，左肘，左腕，右髋，右膝，右踝，左髋，左膝，左踝，左眼，右眼，左耳，右耳；第二个卷积分支用来预测关节点之间的关联程度PAF。

作为本发明的优选技术方案，所述步骤S21中YOLO模型包括CBM、CBL、Resunit、CSPX、SPP五个组件。其中CBM：YOLOV4网络结构中的最小组件，由Conv+Bn+Mish激活函数三者组成；CBL：由Conv+Bn+Leaky_relu激活函数三者组成；Res unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深；CSPX：借鉴CSPNet网络结构，由卷积层和X个Res unint模块Concate组成；SPP：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。

作为本发明的优选技术方案，所述步骤S3中当某个被跟踪的人的连续骨骼序列大于等于30时，则取最近的30条骨骼时间序列进行基于优化的ST-GCN识别模型的行为分析，判断是否存在危险行为，最后将结果以视频或视频流的方式输出。

作为本发明的优选技术方案，所述步骤S1收集的数据包括奔跑，走路，坐，站立，摔倒5个动作，由若干视频片段构成数据集；数据集部分来源于NTU-RGB+D，部分来源于现场收集，部分来源于网络收集，共计200个视频片段；由视频片段(视频流)构成的数据集划分为训练集与测试集，训练集用于训练模型，测试集用于测试。对40段真实场景下的数据集进行测试，并将其与未采用本文改进方法的结果进行对比，测试集上的准确率显著提高。具体表现为，未使用优化的DeepSort算法、优化的ST-GCN算法的危险行为识别方法，在测试集上的准确率为82.5％；使用优化的DeepSort算法，优化的ST-GCN算法的危险行为识别方法，在测试集上的准确率为92.5％。

与现有技术相比，本发明技术方案具有的有益效果是：该基于深度学习的人体行为的识别方法通过优化了DeepSort算法减少了目标漏检时，人员不被继续追踪的问题；精简OpenPose的输出，来减少行为识别模型的输入，以此来精简模型，优化速度；同时针对固定摄像头视野下的行为识别，调整了模型结构，以获得更好的识别效果，使得识别的准确率提高为92.5％。

附图说明

下面结合附图进一步描述本发明的技术方案：

图1为本发明的基于深度学习的人体行为的识别方法的流程图；

图2为本发明的基于深度学习的人体行为的识别方法的步骤S1中的收集的数据集的示例图；

图3为本发明的基于深度学习的人体行为的识别方法的步骤S2中的流程图；

图4为本发明的基于深度学习的人体行为的识别方法的步骤S2中骨骼信息图；其中，1.鼻子，2.脖子，3.左肩，4.右肩，5.左肘，6.右肘，7.左腕，8.右腕，9.左髋，10.右髋，11.左膝，12.右膝，13.左踝，14.右踝；

图5为本发明的基于深度学习的人体行为的识别方法的步骤S3中数据增强处理的流程图；

图6为本发明的基于深度学习的人体行为的识别方法的步骤S3中数据增强前后的对比图，其中，a1、a2、a3为步骤S2中获得的姿态估计结果；b1、b2、b3为步骤S3中数据增强处理后的姿态估计结果；

图7为本发明的基于深度学习的人体行为的识别方法的步骤S3的具体流程图；

图8为本发明的基于深度学习的人体行为的识别方法的步骤S2中YOLOV4模型结构图；

其中，CBM：YOLOV4网络结构中的最小组件，由Conv+Bn+Mish激活函数三者组成；CBL：由Conv+Bn+Leaky_relu激活函数三者组成；Res unin：借鉴Resnet网络中的残差结构，让网络可以构建的更深；CSPX：借鉴CSPNet网络结构，由卷积层和X个Res unint模块Concate组成；SPP：采用采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合；CONv：卷积操作；

图9为本发明的基于深度学习的人体行为的识别方法的步骤S2中跟踪算法DeepSort优化前后的对比流程图；其中图9a为优化后的跟踪算法DeepSort流程图；图9b为优化前的跟踪算法DeepSort流程图；

图10为本发明的基于深度学习的人体行为的识别方法的步骤S2中人员跟踪时的三种连续状态示意图；

图11为图10中三种状态下检测追踪的结果图；

图12为本发明的基于深度学习的人体行为的识别方法的步骤S2中OpenPose模型结构图；其中VGG19为VGG神经网络；convs：卷积操作；paf为亲和场(Part AffinityFileds,PAF)，代表关节与关节之前的联系；Loss_paf为paf损失函数；pcm为关键点的热力图；Patr confidence map用于表征关键点的位置；loss_pcm为pcm损失函数；

图13为本发明的基于深度学习的人体行为的识别方法的步骤S2中OpenPose精简前后骨骼关节点输出对比图；其中图13a为精简前的骨骼关节点输出的骨骼信息图；图13b为精简后的骨骼关节点输出的骨骼信息图；

图14为本发明的基于深度学习的人体行为的识别方法中步骤S3中原ST-GCN识别模型结构图；

图15为本发明的基于深度学习的人体行为的识别方法中步骤S3中优化后的ST-GCN识别模型结构图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：该基于深度学习的人体行为的识别方法，包括以下步骤：

S1收集数据：采集数据，形成数据集；所述步骤S1收集的数据包括奔跑，走路，坐，站立，摔倒5个动作，由若干视频片段构成数据集；数据集部分来源于NTU-RGB+D，部分来源于现场收集，部分来源于网络收集，共计200个视频片段，如图2所示；由视频片段(视频流)构成的数据集划分为训练集与测试集，训练集用于训练模型，测试集用于测试；

S2数据集处理：输入数据集，并对数据集中的数据进行人员检测及跟踪，并通过人体姿态估计提取每个数据集的骨骼信息，并进行姿态估计，获得姿态估计结果，并采用数字对关节点进行标注，如图4的骨骼信息图：1.鼻子，2.脖子，3.左肩，4.右肩，5.左肘，6.右肘，7.左腕，8.右腕，9.左髋，10.右髋，11.左膝，12.右膝，13.左踝，14.右踝；

如图3所示，所述步骤S2的具体步骤为：

如图8所示，所述步骤S21中YOLO模型包括CBM、CBL、Resunit、CSPX、SPP五个组件；其中CBM：YOLOV4网络结构中的最小组件，由Conv+Bn+Mish激活函数三者组成；CBL：由Conv+Bn+Leaky_relu激活函数三者组成；Res unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深；CSPX：借鉴CSPNet网络结构，由卷积层和X个Res unint模块Concate组成；SPP：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合；CONv：卷积操作；

S22：采用优化的DeepSort算法进行人员跟踪；

deepsort是一种多目标追踪的深度学习方法，主要来自于sort算法改进，sort是一种基于卡尔曼滤波和匈牙利算法核心追踪算法，其特点是简单高效，在当前目标追踪中是一种广泛采用的追踪技术，但是由于目标容易丢失等问题，sort算法团队又在此基础上提出了deepsort算法；该技术方案中优化的DeepSort算法主要改进点如下：

(2)增加了马氏距离和余弦距离计算方法；

3)级联匹配：针对之前已经confimed tracks，将它们与当前的检测结果进行级联匹配；

然后计算出当前帧检测结果的特征和该层中每个track特征集之间的余弦距离矩阵；对于每个track，计算出其预测结果与检测结果的马氏距离，而后将相应的track的马氏距离大于阈值的值设置为无穷大；再经过匈牙利算法得到线性匹配结果。最后将unconfirmed tracks与没有匹配的tracke组成一个候选集,与和unmatched detections作IOU计算，最终得到match，unmatched_tracks,unmatched_detections。

如图9所示，所述步骤S22中采用优化的DeepSort算法进行人员跟踪的具体包括以下步骤：

S224：当未匹配的目标再次被检测到时，对检测结果与缓存的结果进行级联匹配后，重新追踪。理想情况下，目标停在原地不动或移动缓慢且视频画面保持不变，该目标应该连续被跟踪到，但有时会出现漏检情况，导致跟踪ID丢失；采用优化的DeepSort算法，减少了目标漏检时，人员不被继续追踪的问题；如图10所示，假设一段视频中存在a，b，c三个连续的状态，其中a状态为两个人都检测到了，b状态为有一个人没有被检测到，c状态为两个人都再次被检测到；人员1几乎保持静止，人员2向右上角移动；如图11所示，可以看到c状态下，右侧的人重新被跟踪到并且仍被分配为原来的id；

表1原算法与优化后的算法结果对比，其中D表示检测结果，T表示追踪结果，K表示卡尔曼滤波：

表1

状态	检测结果	原跟踪结果	优化后跟踪结果
				a	D_a1,D_a2	T_a1,T_a2	T_a1,T_a2
b	D_b1	T_b1,T_a2	T_b1,K(T_a2)
				c	D_c1,D_c2	T_c1,T_c2	T_c1,T_c2

原跟踪算法为：a状态下检测出两个人，并为这两人分配跟踪id1和id2，再对状态a的两个检测结果进行预测，得到T_a1,T_a2；之后进入b状态，b状态下只检测到一个人，通过匈牙利算法将T_a1,T_a2于D_b1进行级联匹配，此时D_b1被分配为跟踪id1,为被检测到的人没有被分配跟踪id,接下来再对状态b的一个检测结果进行预测，得到T_b1,由于T_a2没有匹配到合适的检测框，在b状态下只对T_a2进行缓存，不做任何处理；之后进入状态c，c状态下检测出两个人D_c1,D_c2,通过匈牙利算法对检测结果与上一帧的预测结果T_b1,T_a2进行匹配，获取跟踪id，以及预测结果。但是对于b状态持续时间较长的样本，人员2由于一直保持向右上角移动，当进入c状态的时候，人员2的检测框与T_a2相较太远，导致用匈牙利算法进行级联匹配的时候，由于IOU代价过高，最终被过滤掉；为解决该问题，对原有的算法进行优化，当进入b状态时，不再只对T_a2进行缓存，而是对T_a2进行卡尔曼滤波预测，保证该预测结果仍按照原有的运动状态运动，这样再次进入状态c的时候对T_a2进行卡尔曼滤波预测的结果与c状态下的检测结果距离不会太远，使得丢失的目标再次被成功跟踪上，原算法与优化后的算法结果对比表格如上面的表1所示；优化后的追踪算法，在abc三种状态下的检测追踪结果如图11所示；

S23：采用OpenPose人体姿态估计算法来获取骨骼信息，所述骨骼信息包含骨骼的x,y坐标信息和置信度；再根据所述骨骼信息进行姿态估计；

OpenPose是一个主要用于骨骼检测的框架，其通过Part Affinity Fields(使用2d向量表征位置和方向信息)来学习身体的各部分及关联性，利用全局纹理信息，自下而上的方法，达到实时性和高精度检测；

所述步骤S23的具体步骤为：

S231：首先通过卷积神经网络VGG19提取图像特征；采用OpenPose模型首先检测属于图像中每个人的部件(关键点)，然后将部件分配给不同的个体，如图12显示的是OpenPose模型的体系结构；图12中VGG19为VGG神经网络；convs：卷积操作；paf为亲和场(Part Affinity Fileds,PAF)，代表关节与关节之前的联系；Loss_paf为paf损失函数；pcm为关键点的热力图；Patr confidence map用于表征关键点的位置；loss_pcm为pcm损失函数；

S232：再使用两个平行卷积层，进一步进行特征提取；

所述步骤S232具体步骤为：将步骤S231提取到的特征输入到两个平行的卷积层中，进行进一步的特征提取；其中第一个卷积分支用来预测置信度图，每个图代表人体骨骼的特定部分，共18个；这18个骨骼关节点分别为：鼻子，脖子，右肩，右肘，右腕，左肩，左肘，左腕，右髋，右膝，右踝，左髋，左膝，左踝，左眼，右眼，左耳，右耳；第二个卷积分支用来预测关节点之间的关联程度PAF；

S234：再通过PAF相关值作为边权，利用匈牙利算法得到最优的多人关节点联接结果，最终合并成一张图片中含有多个人的完整的骨骼信息；精简OpenPose的输出，来减少行为识别模型的输入，以此来精简模型，优化速度；

在危险行为，如奔跑，摔倒的识别中，双眼与双耳这四个骨骼关节点信息对识别的贡献度较弱，因此将18个关节点简化为14个关节点，精简前后的关节点效果对比图如图13所示；

S3危险行为分析：如图7所示，使用数据集训练并构建ST-GCN识别模型，再将姿态估计结果输入ST-GCN识别模型进行危险行为分析和识别，获得识别结果并输出识别结果；当某个被跟踪的人的连续骨骼序列大于等于30时，则取最近的30条骨骼时间序列进行基于优化的ST-GCN识别模型的行为分析，判断是否存在危险行为，最后将结果以视频或视频流的方式输出；

所述步骤S3中训练并构建ST-GCN识别模型(模型结构如图15所示)时，在原ST-GCN识别模型(模型的结构如图14所示)的结构中增加了一个输入，即将上一帧与当前帧的位置差作为另一个输入导入原ST-GCN识别模型中，两个输入分别进行时序卷积神经网络TCN与图卷积神经网络GCN的特征提取操作之后，再将两个输出结果进行拼接，再改变原ST-GCN识别模型中全连接层的输入参数和输出参数的维度，从而实现判断出人体行为的类别，完成ST-GCN识别模型的构建。针对固定摄像头视野下的行为识别，调整了ST-GCN识别模型的结构，以获得更好的识别效果；在原模型中，对于每一个被连续追踪到的人员，可以用一个(3,T,V)的3维矩阵描述其在这一段时间内的行为：其中3代表骨骼关节点的坐标x,y和骨骼关节点的置信度，T代表时间序列的长度，在本文中，T取30，V代表骨骼关节点的数量，模型精简后为14个。由于危险行为检测的场景许多都是在固定摄像头视野下的，针对这种情况，对模型进行了优化，其优化的模型结构如图15所示；

所述步骤S3将姿态估计结果输入ST-GCN识别模型前先对姿态估计结果进行增强处理，即加入随机扰动对获得的姿态估计结果进行骨骼关节点位置微调，从而实现数据增强，增强后的数据作为识别的骨骼序列。由于深度学习的网络训练需要大量的样本才能达到更高的准确率，因此在样本缺少的情况下，需要进行数据增强。数据增强的方法是对现有姿态估计结果进行骨骼关节点位置微调，即加入随机扰动，这样则能在保证姿态估计时间序列动作语义不变的情况下实现数据增强；如图5所示，增强处理的具体包括以下步骤：

S31：获取所述步骤S2中骨骼信息中的关键节点(每个人的部件)的位置信息；

S32：获取各个关节点到脖子关节点的距离；

所述步骤S33中计算关节点的偏移范围的公式为：

x_offset＝ratio[x_label]*distance (1)

x_offset则为偏移范围，

表示该关节点可以调整的比例，distance表示该关节点值脖子的距离；

S34：在各个关节点移动范围内，选择一个具体的偏移值，作为骨骼关节点位置微调的值。身体部位的运动可以被广泛地归类为同心运动和偏心运动。通常距离脖子关节点越近，运动幅度越小；离脖子关节点越远，运动幅度大。根据这一运动特性，在进行骨骼关节点微调的时候，对于较远的关节点给予较大的偏移范围，较近的关节点给予较小的偏移范围；为保证动作的语义不变形，数据增强前后，骨骼关节点存在细微的位置，倾斜角度的变化，原姿态估计结果与数据增强后的姿态估计结果对比图如图6所示，从图6中可以看出，对于a1与b1，关节点5，6的距离发生了变化，b1关节点的距离较a1的距离远；对于a2与b2，关节点9，10的距离发生了变化，b2中关节点的距离较a2离远；对于a3与b3，关节点3与关节点5的偏移角度发生了变化，b3中，关节点5相较于关节点3的偏移角度比a3中小。

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于深度学习的人体行为的识别方法，其特征在于，包括以下步骤：

S1收集数据：采集数据，形成数据集；

2.根据权利要求1所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S3将姿态估计结果输入ST-GCN识别模型前先对姿态估计结果进行增强处理，即加入随机扰动对获得的姿态估计结果进行骨骼关节点位置微调，从而实现数据增强，增强后的数据作为识别的骨骼序列。

3.根据权利要求1所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S2的具体步骤为：

S22：采用优化的DeepSort算法进行人员跟踪；

4.根据权利要求2所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S3中对姿态估计结果进行增强处理的具体包括以下步骤：

S31：获取所述步骤S2中骨骼信息中的关键节点的位置信息；

S32：获取各个关节点到脖子关节点的距离；

S34：在各个关节点移动范围内，选择一个具体的偏移值，作为骨骼关节点位置微调的值。

5.根据权利要求3所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S22中采用优化的DeepSort算法进行人员跟踪的具体包括以下步骤：

S224：当未匹配的目标再次被检测到时，对检测结果与缓存的结果进行级联匹配后，重新追踪。

6.根据权利要求4所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S33中计算关节点的偏移范围的公式为：

x_offset＝ratio[x_label]*distance (1)

x_offset则为偏移范围，ratio[x_label]表示该关节点可以调整的比例，distance表示该关节点值脖子的距离。

7.根据权利要求5所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S23的具体步骤为：

S231：首先通过卷积神经网络VGG19提取图像特征；

S232：再使用两个平行卷积层，进一步进行特征提取；

S234：再通过PAF相关值作为边权，利用匈牙利算法得到最优的多人关节点联接结果，最终合并成一张图片中含有多个人的完整的骨骼信息。

8.根据权利要求4所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S3中训练并构建ST-GCN识别模型时，在原ST-GCN识别模型的结构中增加了一个输入，即将上一帧与当前帧的位置差作为另一个输入导入原ST-GCN识别模型中，两个输入分别进行时序卷积神经网络TCN与图卷积神经网络GCN的特征提取操作之后，再将两个输出结果进行拼接，再改变原ST-GCN识别模型中全连接层的输入参数和输出参数的维度，从而实现判断出人体行为的类别，完成ST-GCN识别模型的构建。

9.根据权利要求7所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S232具体步骤为：将步骤S231提取到的特征输入到两个平行的卷积层中，进行进一步的特征提取；其中第一个卷积分支用来预测置信度图，每个图代表人体骨骼的特定部分，第二个卷积分支用来预测关节点之间的关联程度PAF。

10.根据权利要求4所述的基于深度学习的人体行为的识别方法，其特征在于，所述步骤S3中当某个被跟踪的人的连续骨骼序列大于等于30时，则取最近的30条骨骼时间序列进行基于优化的ST-GCN识别模型的行为分析，判断是否存在危险行为，最后将结果以视频或视频流的方式输出。