CN113688797A

CN113688797A - 一种基于骨架提取的异常行为识别方法及系统

Info

Publication number: CN113688797A
Application number: CN202111138326.7A
Authority: CN
Inventors: 颜文旭; 吴晨; 樊启高
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-11-23

Abstract

本发明涉及一种基于骨架提取的异常行为识别方法及系统。本发明包括：获取具有人体图像的视频；对视频中的人体图像进行目标人员检测，并对检测到的目标人员进行跟踪；对跟踪到的目标人员提取人体关节置信度图和骨骼漂移场图，构建人体骨架；将视频的每帧图像中目标人员的人体骨架按时间顺序组合得到骨架序列，根据骨架序列构建时空图，对时空图采用时空图卷积操作进行行为特征提取，并对行为特征进行分类，识别目标人员是否存在异常行为。通过对视频进行目标人员检测及跟踪、进行骨架提取、运用时空图卷积网络识别目标人员是否存在异常行为，实现了对异常行为的准确检测，解决了现有技术中不能准确地对异常行为进行识别的问题。

Description

一种基于骨架提取的异常行为识别方法及系统

技术领域

本发明涉及图像处理及行为识别的技术领域，尤其涉及一种基于骨架提取的异常行为识别方法及系统。

背景技术

电力工程施工点多、面广、任务重，普遍存在高空交叉作业、野外施工环境恶劣、大件起重吊装、人员触电等高风险因素，且工程分包、转包形式多，企业施工能力、安全管理能力不足，发生人身事故的风险大。目前，随着电网规模的不断增大、设备的迅速增加和现代城市化进程的提速，电力基建、技改、迁改、大修等施工现场的规模数量也随之剧增，因此，电力施工现场安全管控的需求也越来越大。

而传统的安全管控基本依靠人工的现场监护和稽查，安全监督人员数量有限、管控效果高度依赖人员责任心，已远远无法满足全过程、立体式、智能化的安全管控要求。因此，迫切需要提出一种解决方案，在施工现场安全事故发生之前就发现施工过程的异常行为，并提供预警，从根本上遏制、减少事故发生的问题。

对施工人员的异常行为进行识别主要涉及3个方面的算法：人员检测、人员跟踪及行为识别。

常用的人员检测算法大致可以分为基于图像空间、基于特征空间两种，前者主要利用图像中目标的轮廓边缘、区域大小、灰度及形状与纹理等特征进行目标检测；后者则是将识别图像经过空间变换后，利用特征空间提取图像的特征来实现目标检测，但是这两种算法都容易受光照等因素干扰。

实现人员跟踪可以有许多算法，如均值漂移、卡尔曼滤波等。均值漂移本质是局部检测，在局部区域内寻找密度最大的点，计算简单，但当背景较为复杂或目标纹理较为丰富时，会有很大的噪声。卡尔曼滤波用于跟踪有一个很大的问题，即在跟踪的过程中只用到了位置信息，丰富色彩的信息没有被利用到，这是一种对信息的浪费。

行为识别大致可分为基于低级视觉物征和基于粒子流两个方面。基于低级视觉物征提取的方法先提取目标图像的低级特征，再利用分类器进行异常检测，能从数据上直观地反映目标的运动状态，但提取的信息单一，实时性和准确性不高；基于粒子流的方法假定目标受长期外作用力进行运动，再计算相互作用力，设定阈值来检测异常，其中的典型是社会力模型，但模型建立复杂，计算量大导致实时性差。

综上所述，亟需一种准确性高、抗干扰能力强的施工现场异常行为识别方法以及时避免安全事故的发生。

发明内容

鉴于上述分析，本发明旨在提供一种基于骨架提取的异常行为识别方法，用以解决现有技术不能准确地对施工现场作业人员的异常行为进行识别的问题。

为解决上述问题，本发明提供了一种基于骨架提取的异常行为识别方法，包括如下步骤：

步骤S1：获取具有人体图像的视频；

步骤S2：对视频中的人体图像进行目标人员检测，并对检测到的目标人员进行跟踪；

步骤S3：提取跟踪到的目标人员的人体关节置信度图和骨骼漂移场图，对人体关节置信度图采取非极大值抑制，得到一系列候选关节点，将候选关节点之间相互连接构成二分图，将骨骼漂移场图作为二分图中边的权值，并对二分图进行优化构建人体骨架；

步骤S4：将视频的每帧图像中目标人员的人体骨架按时间顺序组合得到骨架序列，根据骨架序列构建时空图，对时空图采用时空图卷积操作提取行为特征，并对行为特征进行分类，识别目标人员是否存在异常行为。

在本发明的一种实施方式中，步骤S2中，所述对视频中的人体图像进行目标人员检测的方法包括：

步骤S21：利用labelImg工具对视频的视频帧图像中的人头位置进行标注，获得标记边界框，利用YOLOv3网络对视频帧图像进行统一尺寸并划分栅格，获得栅格内的预测目标边界框；

步骤S22：根据标记边界框和预测目标边界框，得到预测目标边界框的分类置信分数；

步骤S23：若分类置信分数小于预设置信阈值，则将预测目标边界框删除，若分类置信分数大于等于预设置信阈值，则将预测目标边界框保留，将保留的预测目标边界框进行非最大抑制滤波，输出最终目标人员位置。

在本发明的一种实施方式中，所述分类置信分数为：

其中，如有目标落入栅格，则Pr(Object)＝1，否则为0；

为预测目标边界框与标记边界框的交互比，Detection为预测目标边界框，GroundTruth为标记边界框，

表示预测目标边界框与标记边界框一致。

在本发明的一种实施方式中，所述对检测到的目标人员进行跟踪的方法包括：

利用YOLOv3网络获取目标人员的YOLOv3网络边界框，利用RT-MDNet算法获取目标人员的RT-MDNet算法边界框；

计算YOLOv3网络边界框和RT-MDNet算法边界框的重叠度；

当重叠度大于或等于预设重叠度阈值时，选择RT-MDNet算法边界框作为下一帧跟踪器模型的更新输入；否则，选择YOLOv3网络边界框作为下一帧跟踪器模型的更新输入，所述下一帧跟踪器模型为：

其中，x^d为输入为d域的图片，R为边界框，K是训练数据集总数，φ^d为计算d域最后一层全连接层的前景和背景的二分类得分的函数。

在本发明的一种实施方式中，所述重叠度为：

其中

为YOLOv3网络边界框，x₁,y₁,ω₁,h₁分别为YOLOv3网络边界框中心在图像中的横坐标、纵坐标、边界框宽、边界框高，

为RT-MDNet算法边界框，x₂,y₂,ω₂,h₂分别为RT-MDNet算法边界框在图像中的横坐标、纵坐标、边界框宽、边界框高。

在本发明的一种实施方式中，步骤S3中，所述对人体关节置信度图采取非极大值抑制，得到一系列候选关节点的方法包括：

对于第k个人的骨骼c上关节j对应的真实像素点x_j,k，第k个人的个人置信图为

在p点

的值定义为

其中，σ控制着峰值的传播，P是个二维的坐标点，表示人体关节置信度图中的每一个点；

通过非极大值抑制获得候选关节点：

在本发明的一种实施方式中，步骤S3中，所述将候选关节点之间相互连接构成二分图，将骨骼漂移场图作为二分图中边的权值，并对二分图进行优化来构建完整的人体骨架的方法包括：

步骤S31：将候选关节点的集合用

表示，N_j为关节点j的个数，

表示关节点j第m个候选点的位置；

对候选两个检测部位d_j1和d_j2，沿着其连接线段来计算它们之间连接边的置信度：

其中，L_c表示沿着

和

的连接线段，p(u)表示

和

之间的像素点，

当图像中出现多人肢体重合时，L_c的groud truth计算如下：

其中，n_c(p)表示在p点处非零向量的个数，k为在p点处重叠的人的个数，

其中，

是骨骼方向的单位向量，判断点p在骨骼c上需要满足两个条件：

其中，

是两个关键点之间的长度，

和

是图像中第k个人的骨骼c上关节j₁和j₂对应的真实像素点，σ_l是以像素为单位的骨骼宽度，v_⊥是v的垂直分量；

步骤S32：在所有连接线段中选择一组边使得最终二分图的总权重最大，目标函数如下式：

其中，定义变量

来表示两个关节点

是否连接，E_c是骨骼c在图中所有的相关性置信度，Z_c是骨骼c连接集合z的子集，E_mn是两个关节点

的连接置信度，由步骤S31中的E计算得到。

在本发明的一种实施方式中，步骤S4中，所述将视频的每帧图像中目标人员的人体骨架按时间顺序组合得到骨架序列，根据骨架序列构建时空图的方法包括：

在一个T帧的有N个关节的骨架序列上构建时空图G＝(V,E)，节点集V＝{v_ti|t＝1,…,T,i＝1,…,N}包含了骨架序列中的所有关节，E由两个子集组成，空间边E_S＝{v_tiv_tj|(i,j)∈H}描述了每一帧的内部骨架连接，H是一组自然连接的人体关节，时间边E_F＝{v_tiv_(t+1)i}则在连续帧中连接相同的关节。

在本发明的一种实施方式中，步骤S4中，所述对时空图采用时空图卷积操作提取行为特征，并对行为特征进行分类，识别目标人员是否存在异常行为的方法包括：将所述节点集、空间边、时间边进行正则化后输入时空图卷积网络；所述时空图卷积网络包括九层时空图卷积，前三层输出64通道，中间三层输出128通道，最后三层输出256通道，一共有9个时间卷积核，在每一个时空图卷积层使用残差链接，第4、7层的时间卷积层设置为poling层；将256通道的输出进行全局pooling后得到256维特征向量，并由softmax进行分类，根据分类结果来识别目标人员是否存在异常行为。

本发明还提供一种基于骨架提取的异常行为识别系统，包括：

视频获取模块，用于获取具有人体图像的视频；

检测跟踪模块，用于对视频中的人体图像进行目标人员检测，并对检测到的目标人员进行跟踪；

人体骨架构建模块，用于提取跟踪到的目标人员的人体关节置信度图和骨骼漂移场图，对人体关节置信度图采取非极大值抑制，得到一系列候选关节点，将候选关节点之间相互连接构成二分图，将骨骼漂移场图作为二分图中边的权值，并对二分图进行优化构建人体骨架；

行为特征分类模块，用于将视频的每帧图像中目标人员的人体骨架按时间顺序组合得到骨架序列，根据骨架序列构建时空图，对时空图采用时空图卷积操作提取行为特征，并对行为特征进行分类，识别目标人员是否存在异常行为。

本发明有益效果如下：

本发明通过对视频进行目标人员检测及跟踪、利用OpenPose深度学习网络对检测到的目标人员进行骨架提取、运用时空图卷积网络识别目标人员是否存在异常行为，实现了对异常行为的准确检测，解决了现有技术中不能准确地对异常行为进行识别的问题。

附图说明

下面结合附图和具体实施方式对本发明作进一步描述：

图1为本发明实施例的一种基于骨架提取的异常行为识别方法的流程示意图。

具体实施方式

下面结合具体实施例来对本发明作进一步说明。

实施例1

本实施例提供一种基于骨架提取的异常行为识别方法，流程框图如图1所示，具体包括：

步骤S1：获取具有人体图像的视频；

采用分辨率为720P的广角摄像头以斜上方往下的角度拍摄施工区域，摄像头光轴与巡检机器人平行，拍摄角度覆盖整个工作现场，采集略带俯视角度的监控视频图像。

步骤S2：对视频中的人体图像进行目标人员检测和跟踪；

本实施例使用YOLOv3网络检测视频中的人体，YOLOv3网络采用多尺度融合进行目标检测，对目标尺度的变化具有良好的适应性；YOLOv3网络采用K-means算法对边界框的初始尺寸进行聚类，这种先验知识对算法的速度有一定提高。具体为：

步骤S21：利用开源标注工具labelImg对视频的视频帧图像中的人头位置进行标注，获得标记边界框，标注信息为(x,y,ω,h,c)，分别代表目标人头在图像中的相对横坐标、相对纵坐标、相对宽、相对高以及类别，由于只有一类，故c统一标注为0，然后将数据集按7：3的比例划分为用于训练的训练集和用于模型择优的验证集；

步骤S22：利用YOLOv3网络对视频帧图像进行统一尺寸并划分S×S的栅格，如果图像中目标的中心落在某个栅格内，则该栅格对目标进行预测；每个栅格预测多个边界框及其置信度(confidence)，置信度反映了栅格内是否含有物体以及包含物体情况下预测框的准确性。

其中，如有中心目标落入该栅格，则Pr(Object)＝1，否则为0；

为预测边界框与真实边界框的交互比，Detection为模型预测出来的边界框，GroundTruth为样本数据集中标记的边界框，

表示预测边界框与真实边界框一致。

Pr(class_i|Object)为栅格预测第i类目标的置信概率，本实施例中目标只有1类，即人体，每个预测框的分类置信分数为预测目标类别的置信概率和预测框预测置信度的乘积；

得到分类置信分数之后，设置阈值将得分低的预测框筛除掉，即可得到最终的检测结果。本发明中，阈值设为0.3，因为只有人被检测到，而人体的姿势变化很大。最后，对剩余的预测框进行非最大抑制滤波，输出最终的预测目标位置及其类别。

步骤S23：对检测到的目标人员进行跟踪

RT-MDNet将一个视频看做一个域，多个视频就形成多个域，其定义外观模型为f^d＝[φ¹(x^d；R),φ²(x^d；R),…,φ^K(x^d；R)]∈R^2×K，其中输入为d域的图片x^d和边界框R，K是训练数据集总数，φ^d函数计算d域最后一层全连接层的前景和背景的二分类得分，得分最高的前景即为当前帧目标边界框的预测值。

定义YOLOv3网络边界框为

x₁,y₁,ω₁,h₁分别为YOLOv3网络边界框中心在图像中的横坐标、纵坐标、边界框宽、边界框高，RT-MDNet算法边界框为

两个边界框的重叠度为

x₂,y₂,ω₂,h₂分别为RT-MDNet算法边界框在图像中的横坐标、纵坐标、边界框宽、边界框高。

目标跟踪算法整体流程具体包括：采用YOLOv3网络检测第一帧图像时初始化RT-MDNet算法，然后当IoU大于阈值T时，RT-MDNet算法跟踪结果被判定为可信度高，选择

作为模型f^d的更新输入；当IoU小于阈值T时，当前帧被判定为目标跟踪失败，为了再次找回目标，选择

作为下一帧跟踪器模型f^d的输入。本实施例中，阈值T设为0.4，中心误差最小。

步骤S3：提取骨架特征

相对于光流、外观和深度等信息，骨架能够更好地描述目标人员的行为信息，而利用OpenPose深度学习网络能够在光照不均匀、存在阴影的条件下准确、实时、稳定地提取其二维人体骨架。

目前的姿态估计方法可分为自底向上(bottom-up)与自顶到下(top-down)两种，前者采用在全局进行关键点检测，然后分别对关键点进行聚类，获得不同人物的整体姿态，该方法具有良好的实时性；后者首先在图像中检测到多个人物整体，然后单独对每个人物进行关节点定位，这类方法的时间消耗会随着个体的增加呈线性增长，并且对于距离较近的人物整体检测效果不佳。因此，本发明采取自底向上进行实时的姿态估计。

实际测试时，输入图像通过网络后可输出一系列人体关节置信度图和骨骼PAFs(骨骼漂移场)图，其中人体关节置信度图的数量与骨架关节数量一致、骨骼PAFs图的数量与骨架骨骼段数量一致。人体关节置信度反映了骨架关节出现在每个像素位置的可能性，骨骼PAFs反映了每一对人体部位探测的相关性，即它们是否属于同一个人。

本实施例利用OpenPose等网络提取人体关节置信度图和骨骼漂移场图，对人体关节置信度图采取非极大值抑制，得到一系列候选关节点，将候选关节点之间相互连接构成二分图，将骨骼漂移场图作为二分图中边的权值，并对二分图进行优化构建人体骨架。具体为：

步骤S31：对于第k个人的骨骼c上关节j对应的真实像素点x_j,k，第k个人的个人置信图为

在p点

的值定义为

其中，σ控制着峰值的传播，P是个二维的坐标点，表示人体关节置信度图中的每一个点；本发明中取置信度图的最大值以使接近峰值的精度保持明显，并通过非最大抑制获得身体部位候选。

步骤S32：将候选关节点的集合用

表示，N_j为关节点j的个数，

表示关节点j第m个候选点的位置；

对候选两个检测部位

和

沿着其连接线段来计算它们之间连接边的置信度：

其中，L_c表示沿着

和

的连接线段，p(u)表示

和

之间的像素点，

在实际应用中，通过抽样和求和等间距的u的值来近似积分。

当图像中出现多人肢体重合时，L_c的groud truth计算如下：

和

是图像中第k个人的骨骼c上关节j₁和j₂对应的真实像素点，如果点p在骨骼c上，那么在p点处置为向量v，否则为0。

其中，

其中，

是两个关键点之间的长度，σ_l是以像素为单位的骨骼宽度，v_⊥是v的垂直分量；

步骤S33：人体二维骨架包括14个人体关节和由其相连而成的13段人体骨骼，然后将人体两两关节的最优连接问题转化为最大权值二分图匹配问题，利用贪心算法和匈牙利匹配算法，将骨架关节作为二分图中的节点、将PAFs作为二分图中边的权值，确定人体各个关节的位置，使骨架关节和骨骼相连得到完整的人体骨架特征。

表示第j个关节集合中的第m个点，

定义变量

来表示两个候选检测对象

是否联通，目标是不让两条边共享一个节点，找到所有可能连接集的最优分配。在所有边中选择一组边使得最终二分图的总权重最大，目标函数如下式：

其中，定义变量

来表示两个关节点

的连接置信度。

采用匈牙利算法获取最好的匹配，选择最小数量的边来获得人体姿势的生成树骨架而不是使用完整图，并进一步将匹配问题分解为一组二分匹配子问题，独立地确定相邻树节点中的匹配。分别获得每种肢体类型的肢体连接候选后，通过所有肢体连接候选，将共享相同部位检测候选的连接组合成人体的全身姿势。

步骤S4：将视频的每帧图像中目标人员的人体骨架按时间顺序组合得到骨架序列，根据骨架序列构建时空图，对时空图采用时空图卷积操作行为特征，并对行为特征进行分类，识别目标人员是否存在异常行为。

早期基于骨架进行动作识别的方法只是在各个时间步骤使用关节坐标形成特征向量，并对其进行时序分析，但这些方法能力有限，因为它们没有明确利用人类关节的空间关系。而时空图卷积网络通过将图卷积网络扩展到时空图模型，设计了用于行为识别的骨架序列通用表示。图中存在两种类型的边，即符合关节自然连接的空间边(spatial edge)和在连续的时间步骤中连接相同关节的时间边(temporal edge)。在此基础上构建多层的时空图卷积，它允许信息沿着空间和时间两个维度进行整合。

给定核大小为K×K的卷积算子和通道数为c的输入特征映射f_in，在空间位置x处的单个通道的输出值为

其采样函数p(x,h,ω)＝x′+p′(h,ω)枚举了位置x的邻点，权函数w:Z²→R^c提供了c维空间中的权值向量，用于计算与c维采样输入特征向量的内积。

将上述公式拓展到空间域上，d(v_tj,v_ti)表示从v_tj到v_ti任意路径的最短长度，定义邻集B(v_ti)＝{v_tj|d(v_tj,v_ti)≤D}，本发明中令D＝1，在邻集上定义采样函数，则p(v_ti,v_tj)＝v_tj。将邻集B(v_ti)划分为固定数量的K个子集，其中每个子集都有一个数字标签，映射l_ti:B(v_ti)→{0,…,K-1}，则权函数w(v_ti,v_tj)＝w′(l_ti(v_tj))。

将空间域的模型拓展到时间域中，邻集为

标签映射为

q是对时间域的拓展，其中Γ是控制时间域的卷积核大小，l_ti(v_tj)是v_ti处单帧情况的标签映射。

将节点的1邻域划分为3个子集，第1个子集连接空间位置上比根节点更远离整个骨架的邻居节点，第2个子集连接更靠近中心的邻居节点，第3个子集为根节点本身，分别表示了离心运动、向心运动和静止的运动特征。

实际测试时，输入的骨架序列数据首先进行正则化。将所述节点集、空间边、时间边进行正则化后输入时空图卷积网络；所述时空图卷积网络包括九层时空图卷积，前三层输出64通道，中间三层输出128通道，最后三层输出256通道，一共有9个时间卷积核，在每一个时空图卷积层使用残差链接，使用dropout进行特征正则化处理，将一半的神经元进行dropout处理。第4、7层的时间卷积层设置为poling层；将256通道的输出进行全局pooling后得到256维特征向量，并由softmax进行分类，根据分类结果来识别目标人员是否存在异常行为。

综上所述，本实施例通过YOLOv3网络对目标进行检测，对检测到的人员，利用RT-MDNet算法进行跟踪；接着采用OpenPose深度学习网络实现人体骨架特征的提取；最后利用时空图卷积网络对骨架序列进行分类，从而实现异常行为的识别和报警。

实施例2

基于同一发明构思，本实施例提供了一种基于骨架提取的异常行为识别系统，其解决问题的原理与所述一种基于骨架提取的异常行为识别方法类似，重复之处不再赘述。

本实施例提供了一种基于骨架提取的异常行为识别系统，包括：

视频获取模块，用于获取具有人体图像的视频；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于骨架提取的异常行为识别方法，其特征在于，包括如下步骤：

步骤S1：获取具有人体图像的视频；

2.根据权利要求2所述的一种基于骨架提取的异常行为识别方法，其特征在于，步骤S2中，所述对视频中的人体图像进行目标人员检测的方法包括：

3.根据权利要求2所述的一种基于骨架提取的异常行为识别方法，其特征在于，所述分类置信分数为：

其中，如有目标落入栅格，则Pr(Object)＝1，否则为0；

表示预测目标边界框与标记边界框一致。

4.根据权利要求1所述的一种基于骨架提取的异常行为识别方法，其特征在于，所述对检测到的目标人员进行跟踪的方法包括：

计算YOLOv3网络边界框和RT-MDNet算法边界框的重叠度；

f^d＝[φ¹(x^d；R),φ²(x^d；R),...,φ^K(x^d；R)]∈R^2×K

5.根据权利要求4所述的一种基于骨架提取的异常行为识别方法，其特征在于，所述重叠度为：

其中

6.根据权利要求1所述的一种基于骨架提取的异常行为识别方法，其特征在于，步骤S3中，所述对人体关节置信度图采取非极大值抑制，得到一系列候选关节点的方法包括：

在p点

的值定义为

通过非极大值抑制获得候选关节点：

7.根据权利要求1所述的一种基于骨架提取的异常行为识别方法，其特征在于，步骤S3中，所述将候选关节点之间相互连接构成二分图，将骨骼漂移场图作为二分图中边的权值，并对二分图进行优化来构建完整的人体骨架的方法包括：

步骤S31：将候选关节点的集合用

表示，N_j为关节点j的个数，

表示关节点j第m个候选点的位置；

对候选两个检测部位

和

沿着其连接线段来计算它们之间连接边的置信度：

其中，L_c表示沿着

和

的连接线段，p(u)表示

和

之间的像素点，

当图像中出现多人肢体重合时，L_c的groud truth计算如下：

其中，

其中，

是两个关键点之间的长度，

和

其中，定义变量

来表示两个关节点

的连接置信度，由步骤S31中的E计算得到。

8.根据权利要求1所述的一种基于骨架提取的异常行为识别方法，其特征在于，步骤S4中，所述将视频的每帧图像中目标人员的人体骨架按时间顺序组合得到骨架序列，根据骨架序列构建时空图的方法包括：

在一个T帧的有N个关节的骨架序列上构建时空图G＝(V,E)，节点集V＝{v_ti|t＝1,...,T,i＝1,...,N}包含了骨架序列中的所有关节，E由两个子集组成，空间边E_S＝{v_tiv_tj|(i,j)∈H}描述了每一帧的内部骨架连接，H是一组自然连接的人体关节，时间边E_F＝{v_tiv_(t+1)i}则在连续帧中连接相同的关节。

9.根据权利要求8所述的一种基于骨架提取的异常行为识别方法，其特征在于，步骤S4中，所述对时空图采用时空图卷积操作提取行为特征，并对行为特征进行分类，识别目标人员是否存在异常行为的方法包括：将所述节点集、空间边、时间边进行正则化后输入时空图卷积网络；所述时空图卷积网络包括九层时空图卷积，前三层输出64通道，中间三层输出128通道，最后三层输出256通道，一共有9个时间卷积核，在每一个时空图卷积层使用残差链接，第4、7层的时间卷积层设置为poling层；将256通道的输出进行全局pooling后得到256维特征向量，并由softmax进行分类，根据分类结果来识别目标人员是否存在异常行为。

10.一种基于骨架提取的异常行为识别系统，其特征在于，包括：

视频获取模块，用于获取具有人体图像的视频；