CN114943873B

CN114943873B - 一种工地人员异常行为分类方法及装置

Info

Publication number: CN114943873B
Application number: CN202210582525.5A
Authority: CN
Inventors: 杨涛; 赵嵩
Original assignee: Shenzhen Keyong Software Co ltd
Current assignee: Shenzhen Keyong Software Co ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2023-10-17
Anticipated expiration: 2042-05-26
Also published as: CN114943873A

Abstract

本发明实施例提供了一种工地人员异常行为分类方法及装置，通过在本申请的实施例中，通过获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量；对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量；依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果。

Description

一种工地人员异常行为分类方法及装置

技术领域

本发明涉及视频识别领域，具体涉及一种工地人员异常行为分类方法及装置。

背景技术

据统计，2021年11月至12月短短两个月，我国发生生产安全事故58起，死亡167人，其中建筑、矿业等工地作业类事故占极大一部分，所以对工地作业的作业人员进行安全行为的监测刻不容缓，通过对作业人员在工地上的动作行为进行监测，配合一定的监管制度，能够在一定程度上降低安全事故的发生率，提高作业人员作业的安全系数。随着人工智能等技术快速更迭，将人工智能应用于工地的智慧工地越来越具有实际意义，在深度学习飞速的发展之下，逐渐成为了国内外学者研究的热门领域。

传统的工地缺乏智能化手段，对于工地存在的一些安全隐患，比如：作业人员因为在作业时不小心而导致的摔伤；

当作业人员发生意外昏迷倒地时，其他人员无法第一时间获知情况，组织施救等。并且在作业人员出现意外的情况下马上识别出异常状态成为了检测识别的难点，主要表现为三个明显的挑战：工地环境复杂、安全事故频发、监管难度大难等。

发明内容

鉴于所述问题，提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种工地人员异常行为分类方法及装置，包括：

一种工地人员异常行为分类方法，所述方法通过工地人员的工作视频对工地人员的异常行为进行分类，包括：获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成；

对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量；

对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量；

依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；

依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

优选地，所述确定所述工作视频数据中的每个工地人员相对应的运动区域的步骤，包括：

确定所述工作视频数据中的每个工地人员相对应的运动中心点；其中，所述运动中心点的数量与所述工作视频数据中的工地人员的数量相同；

依据所述运动中心点生成所述每个工地人员相对应的运动区域。

优选地，所述确定所述工作视频数据中的每个工地人员相对应的运动中心点的步骤，包括：

依据所述工作视频数据中像素的颜色分布生成所述每个工地人员相对应的主要运动区域；

依据所述主要运动区域进行二值化并计算所述每个工地人员相对应的运动中心点。

优选地，所述依据所述运动中心点生成所述每个工地人员相对应的运动区域的步骤，包括：

确定所述运动中心点在所述工作视频数据中每帧静态图像的位置，并依据所述位置生成所述每个工地人员相对应的运动区域。

优选地，所述对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量的步骤，包括：

对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块输入空间流3D卷积神经网络进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量。

优选地，所述对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量的步骤，包括：

对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块输入时间流3D卷积神经网络进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量。

优选地，所述依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果的步骤，包括：

依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量；

依据所述长时间序列化特征向量进行分类生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

优选地，所述依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量的步骤，包括：

依据所述融和特征向量输入简单循环单元生成相对应所述每个工地人员的长时间序列化特征向量。

为实现本申请还包括一种工地人员异常行为分类装置，所述装置通过工地人员的工作视频对工地人员的异常行为进行分类，包括：

运动区域模块，用于获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成；

表面特征向量模块，用于对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量；

光流的特征向量模块，用于对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量；

融和特征向量模块，用于依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；

异常行为结果模块，用于依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

为实现本申请还包括一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如所述的工地人员异常行为分类方法的步骤。

本申请具有以下优点：

在本申请的实施例中，通过获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成；对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量；对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量；依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。通过采集到的视频数据进行了充分的预处理，首先使用目标检测的方法检测出人体运动的关键区域，并剪切出这一区域，将其作为新的数据加入网络进行计算，这大大减少了网络模型运算的负担，减少了计算资源的占用从而提高了识别的速度，从而提高工地作业人员异常状态的识别的速度。本申请提出的基于3D双流卷积神经网络与SRU网络融合的模型，该模型结合了3D双流卷积神经网络和SRU网络，该模型对预处理过后的视频特征帧块运用3D双流卷积神经网络的空间流和时间流分别去提取连续的特征帧块中的时间和空间特征；然后采用求和融合的方式对时间和空间上的特征进行融合后输入到SRU网络学习视频的时序性特征。该模型充分利用了3D卷积神经网络提取图像特征的能力和SRU能够学习视频的时序性特征的特性，从而提高了工地作业人员异常状态的识别准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种工地人员异常行为分类方法的步骤流程图；

图2是本申请一实施例提供的一种工地人员异常行为分类方法的模块结构图；

图3是本申请一实施例提供的一种工地人员异常行为分类方法的卷积操作示意图；

图4是本申请一实施例提供的一种工地人员异常行为分类方法的发明内容流程图；

图5是本申请一实施例提供的一种工地人员异常行为分类方法的视频预处理步骤流程图；

图6是本申请一实施例提供的一种工地人员异常行为分类方法的光流信息图；

图7是本申请一实施例提供的一种工地人员异常行为分类方法的3D卷积神经网络结构图；

图8是本申请一实施例提供的一种工地人员异常行为分类方法的SRU单元结构图；

图9是本申请一实施例提供的一种工地人员异常行为分类方法的DT-SVM决策树结构图；

图10是本申请一实施例提供的一种工地人员异常行为分类装置的结构框图；

图11是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请一实施例提供的一种工地人员异常行为分类方法的步骤流程图，具体包括如下步骤：

S110、获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成；

S120、对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量；

S130、对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量；

S140、依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；

S150、依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

下面，将对本示例性实施例中的工地人员异常行为分类方法作进一步地说明。

以下内容中，除获取视频之外的部分均使用Python语言进行编程实现，发明内容流程图如图4所示。

如上述步骤S110所述，获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成。

在本发明一实施例中，可以结合下列描述进一步说明步骤S110所述“获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成”的具体过程。

在一具体实施例中，采集视频数据。采用CCD(charge coupled device，电荷耦合器件)摄像机对所监控的区域采集分辨率为320×240，fps(Frames Per Second，每秒传输帧数)为25的彩色视频数据，并将采集到的彩色视频数据传输到内部图像处理系统。

作为一种示例，获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域的主要目的是视频数据预处理并目标检测与区域分割，步骤如图5所示。该部分的目的在于首先使用目标检测的方法检测出人体运动的运动区域，并剪切出这一区域，将其作为新的数据视频特征帧块加入网络进行计算。

如下列步骤所述，确定所述工作视频数据中的每个工地人员相对应的运动中心点；其中，所述运动中心点的数量与所述工作视频数据中的工地人员的数量相同；依据所述运动中心点生成所述每个工地人员相对应的运动区域。

在本发明一实施例中，可以结合下列描述进一步说明步骤所述“确定所述工作视频数据中的每个工地人员相对应的运动中心”的具体过程。

如下列步骤所述，依据所述工作视频数据中像素的颜色分布生成所述每个工地人员相对应的主要运动区域；依据所述主要运动区域进行二值化并计算所述每个工地人员相对应的运动中心点。

作为一种示例，依据所述工作视频数据中像素的颜色分布输入混合高斯模型生成所述每个工地人员相对应的主要运动区域；具体地，混合高斯模型根据每个像素在时域上的分布情况用多个高斯模型构建各个像素的颜色分布模型。

在一具体实施例中，使用GMM(Gaussian Mixture Model，混合高斯模型)对采集到的分辨率为320×240的彩色视频帧序列检测并标记出目标的主要运动区域，如果视频中有多个工地人员，则在视频帧序列中标记出每一个工地人员的主要运动区域。目的在于减小图像在后续步骤中处理的面积，便于后续处理时计算量更少。

本步骤中所用混合高斯模型原理如下：GMM指根据每个像素在时域上的分布情况用多个高斯模型构建各个像素的颜色分布模型。在混合高斯模型中，对图像的每个像素点进行多个权值不同高斯分布的叠加建模，每种高斯分布对应于一个像素点可能呈现颜色的状态、权值和参数随时间推进而更新。在处理彩色图像时，假设图像像素点RGB三通道相互独立且方差相同，对于观测集(X₁,X₂,...,X_b)，X_b为b时刻的像素样本，该样本服从混合高斯分布概率密度函数：

公式中K为高斯分布的个数，K值一般为3到5个；ω_a,b为b时刻第a个高斯分布的权重，满足∑_a,b，μ_a,b分别为高斯分布的协方差和均值，其中/> 为高斯分布的方差，I为单位矩阵；η表示高斯概率密度函数为：

如下列步骤所述，依据所述主要运动区域进行二值化并计算所述每个工地人员相对应的运动中心点。

作为一种示例，对所述主要运动区域进行灰度化处理生成灰度主要运动区域；依据所述灰度主要运动区域中的像素灰度进行二值化生成所述每个工地人员相对应的运动中心点。

在一具体实施例中，视频预处理-二值化目标运动区域。先对已标记出主要运动区域的视频帧序列进行灰度化处理，然后再将灰度化后的视频帧序列根据计算出来的T值，将灰度图像像素点大于等于阈值T的像素灰度设为灰度极大值255，小于这个临界阈值T的像素灰度设为灰度极小值0；完成对目标运动区域的二值化处理，然后再计算二值化处理后的目标运动区域的中心点。

在一具体实施例中，本步骤中所用的二值化原理如下：图像二值化即：先将RGB图像进行灰度化处理，然后再将灰度化后的图像上像素点大于临界阈值T的像素灰度设为灰度极大值255，小于这个临界阈值T的像素灰度设为灰度极小值0，从而实现二值化，将整个图像呈现出明显的黑白效果的过程。

本文所用到的RGB图像的灰度化——平均值法，则是求出每个像素点的R、G、B三个分量的平均值，然后将这个平均值赋予给这个像素的三个分量，用公式表示为：

Gary(i,j)＝(R(i,j)+G(i,j)+B(i,j))/3

将图片灰度化后，计算阈值T，本发明计算阈值T的大致步骤如下：

①先初始化阈值T，将T设置为127(灰度值范围的一半)

②根据阈值T将灰度化图上的每个像素数据P(n,m)分为运动目标像素数据G1与背景像素数据G2。(n为行，m为列)

③计算出运动目标像素数据G1的平均值m1与背景像素数据G2的平均值m2

④根据m1,m2，计算出一个新的阈值T′＝(m1+m2)/2

⑤回到第②步，用新的阈值继续分像素数据为运动目标像素与背景像素数据，继续②～④步，直到计算出来的新阈值等于上一次的阈值

计算出阈值T后将灰度化图像上像素值大于等于T的像素值全部设为255，小于T的全部设为0，用公式表示为：

在本发明一实施例中，可以结合下列描述进一步说明步骤所述“依据所述运动中心点生成所述每个工地人员相对应的运动区域”的具体过程。

如下列步骤所述，确定所述运动中心点在所述工作视频数据中每帧静态图像的位置，并依据所述位置生成所述每个工地人员相对应的运动区域。

在一具体实施例中，视频预处理-获取原始视频帧序列中的运动区域，根据上述中计算出的中心点获得运动区域在原始视频帧序列中的位置。再将视频预处理-分割图像，使用112*112大小的包围框截取原始视频帧序列中运动区域。

本申请对网络模型的数据进行了充分的预处理。本申请将CCD摄像头采集到的视频数据首先使用目标检测的方法检测出人体运动的关键区域，并剪切出这一区域，将其作为新的数据加入网络进行计算。这样的操作不仅减少了网络模型运算的负担和计算资源的占用，而且还提高了识别的速度。

如上述步骤S120所述，对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量。

在本发明一实施例中，可以结合下列描述进一步说明步骤S120所述“对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量”的具体过程。

如下列步骤所述，对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块输入空间流3D(三维)卷积神经网络进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量。

如上述步骤S130所述，对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量。

在本发明一实施例中，可以结合下列描述进一步说明步骤S130所述“对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量”的具体过程。

如下列步骤所述，对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块输入时间流3D卷积神经网络进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量。

作为一种示例，对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块和运动区域中的光流图块输入双流3D卷积神经网络进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量和光流的特征向量。

在一具体实施例中，将预处理后截取到的视频特征帧块(即运动区域)输入到3D双流卷积神经网络里(双流指空间流和时间流)，输入的尺寸为112×112×25，空间流以连续的静态图片帧块作为输入提取视频的表面特征向量，时间流以连续的光流图块作为输入，光流信息如图6所示。提取光流的特征向量。

本步骤所涉及的模型原理如下：3D双流卷积神经网络的输入是视频的多个连续的特征帧块，取视频连续的25帧作为一块，先经过预处理模块进行预处理后输入3D双流卷积神经网络里，输入的尺寸为112×112×25，其中25为连续的图像帧序列的序列数；空间流以连续的静态图片帧块作为输入提取视频的表面特征，时间流以连续的光流图块作为输入，提取光流的特征。本专利中时间流和空间流均采用3D卷积神经网络，3D双流卷积神经网络结构示意图如图7所示。网络包含8个卷积层，5个池化层，2个全连接层和1个分类层；8个卷积层的卷积核个数分别为64、128、256、256、512、512，512、512所有层的3D卷积核的尺寸为3×3×3，步长为1；池化层第一层采用3维的尺寸为1×2×2，步长为1的池化操作，其余的均采用3维的尺寸为2×2×2，步长为2的池化操作。

需要说明的是，光流这种图像亮度模式的表观运动(apparent motion)就是光流。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。

本申请所采用的网络模型对视频的时间信息和空间信息都采用了3D卷积神经网络去提取特征信息。采用3D双流卷神经网络对去提取连续的特征帧块中的时间和空间特征，相比传统的单一提取视频帧的空间表面特征信息的基础上再采用一个3D卷积神经网络去提取视频帧与帧的之间的特征信息。这相比于传统的单一提取视频帧的空间表面特征信息大大的提高了网络识别的准确率。

如上述步骤S140所述，依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量。

在本发明一实施例中，可以结合下列描述进一步说明步骤S140所述“依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量”的具体过程。

如下列步骤所述，依据在相同空间位置的所述表面特征向量和所述光流的特征向量进行求和生成对应于所述运动区域中的所述工地人员的融和特征向量。

在一具体实施例中，将提取出的视频的表面特征向量f_space＝{x₁,x₂,L x_t}和光流的特征向量f_time＝{x₁,x₂,L x_t}在相同的空间位置i,j上值进行求和，得到新的融合特征向量f_fusion＝{x′₁,x′₂,L x′_t}。求和融和的原理如下：

求和融合方式即：将两张具有相同通道数d的特征图在相同的空间点

i,j上的像素值之和作为融合结果,用公式表示为：

公式中：为通道数均为d的两个特征图在相同空间位置i,j上的融合结果；表示通道数为d的第一张特征图在空间点i,j上的像素值；/>表表示通道数为d的第二张特征图在空间点i,j上的像素值。

如上述步骤S150所述，依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

在本发明一实施例中，可以结合下列描述进一步说明步骤S150所述“依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤”的具体过程。

如下列步骤所述，依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量；依据所述长时间序列化特征向量进行分类生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

在本发明一实施例中，可以结合下列描述进一步说明步骤所述“依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量”的具体过程。

如下列步骤所述，依据所述融和特征向量输入简单循环单元生成相对应所述每个工地人员的长时间序列化特征向量。

作为一种示例，依据所述融和特征向量输入到SRU(Simple Recurrent Unit，简单循环单元)生成相对应所述每个工地人员的长时间序列化特征向量；具体地，SRU包括四层GRU网络。

在一具体实施例中，将新的融合特征向量f_fusion＝{x′₁,x′₂,L x′_t}输入到SRU简单循环单元，先做简单的线性变换接下来计算f_t和c_t，最后把c_t传递给激活函数g来计算最终的输出h_t＝g(c_t)，提取出融合特征向量序列的长时间序列化特征向量。本步骤涉及的简单循环单元(SRU模型)原理如下：

SRU单元结构图如图8所示；SRU网络与RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆)最大的不同之处在于解决了RNN、LSTM无法实现并行化计算的问题，在RNN、LSTM网络中，要想计算h_t必须等到前一时刻h_t-1计算完成，这大大的限制了网络的并行化计算，而简单循环单元(SRU)解除了这种限制，h_t的计算不在依赖于前一时刻的h_t-1计算，这样就可以实现并行化处理，所以训练速度要比LSTM快，能够达到与CNN的一样的训练速度。

本文采用模型中采用了四层GRU(LSTM的变体)网络；在SRU网络单元中x_t代表t时刻的输入；w,b代表权重和偏置；f_t代表t时刻的遗忘门；r_t代表t时刻的重置门；C_t和h_t分别代表t时刻的状态和最终的输出；σ和g分别代表Sigmoid函数和激活函数tanh。SRU利用单元状态C_t在所有时间步上传递信息，最终输出隐藏状态h_t。在时间步t处，SRU结构涉及到的所有计算公式如下所示：

f_t＝σ(w_fx_t+b_f)

r_t＝σ(w_rx_t+b_r)

c_t＝f_t⊙c_t-1+(1-f_t)⊙～x_t

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t

公式中的b_r和b_f是训练期间要学习的参数向量；e代表矩阵对应元素间的操作。

本申请所采用的网络模型是是一个多网络融合的模型，本发明提出的网络模型融合了3D双流卷积神经网络和可以进行并行计算的SRU网络。该模型对视频特征帧块首先运用3D双流卷积神经网络的空间流和时间流分别去提取视频的时空特征；然后采用求和融合的方式对时间和空间上的特征进行融合后输入到SRU网络提取视频的时序性特征。该模型充分利用了3D卷积神经网络提取图像特征的能力和SRU能够学习视频的时序性特征的特性，从而提高了工地作业人员异常状态的识别准确率。

如下列步骤所述，依据所述长时间序列化特征向量进行分类生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

在一具体实施例中，将长时间序列化特征向量输入到训练好的DT-SVM分类器对检测目标工地人员异常状态进行分类，最后输出四种异常状态中的一种预测结果。

本步骤所用的基于决策树多类支持向量机(DT-SVM)分类器原理如下：基于决策树多类支持向量机采用了基于欧氏距离的决策树，首先将所有类别分为两个类别，再将子类进一步划分为两个次级子类，如此循环下去，直到所有的节点都只包含一个单独的类别为止，此节点也是二叉树树种的叶子。该分类将原有的分类问题同样分解成了一系列的两类分类问题，其中两个子类间的分类函数采用SVM(Support Vector Machine,支持向量机)，比较各个类别之间的欧氏距离来决定决策树的构建顺序，其具体构建步骤如图9所示。计算步骤如下：

1)依次计算一类样本X_i的中心与其他所有类别X_j的中心的欧氏距离d_ij；

2)对于类i，定义它与其他类的欧氏距离的最小值为i的距离l_i,d_i,j；将(i＝1，…，N)按从大到小的顺序排列，有最大的那一类将被首先分离，以此可以构建该类与剩下所有类的超平面；

3)如果遇到多个类的值是相等的，可以比较这些类第二最小距离的大小，然后按照2)中的方法处理，如果也出现相等的情况则按上述方法继续比较下去，直到所有类别都能分离出来；

4)最后，各类按顺序依次构建N-1个支持向量分类机，将所有类别分离出来。

本申请最后采用训练好的DT-SVM分类器进行分类。相比于传统的最后采用Softmax进行分类，采用DT-SVM分类器进行分类在识别的速度和准确性上有较大提升。

在一具体实施例中，(步骤1为CCD摄像机安装部分)

步骤1：在待监控的工地的墙面上安装CCD摄像头，摄像头的分辨率为320×240，fps为25，CCD摄像头的安装角度要满足可以拍摄到斜下方四十五度的视频。

(步骤2为视频数据采集部分)

步骤2：采集CCD摄像头拍摄到的视频数据，并将拍摄到的视频数据传输到内部图像处理系统。

(步骤3～6为视频数据预处理部分)

步骤3：CCD摄像头与部署有机器视觉库Opencv、基于Python语言的Pytorch深度学习框架的计算机相连接，将采集到的视频数据传输至计算机进行图像算法运算。

步骤4：计算机接收到彩色视频数据使用GMM检测并标记出目标的主要运动区域，确定运动发生的区域。

步骤5：对视频数据中已标记出目标的主要运动区域进行二值化处理，计算运动区域的中心点并根据计算出的中心点获得运动区域在原始视频帧序列中的位置。

步骤6：根据在原始图像中获取到的运动区域使用112*112大小的包围框截取运动区域，并剪切出这一区域，目的在于减小计算资源的使用。

(步骤7～8为视频数据特征提取部分)

步骤7：将预处理过后的多个连续的视频特征帧块输入到提前训练好的3D双流卷积神经网络中进行3维的卷积和池化运算，提取出时空特征向量。

步骤8：采用求和融合的方式对3D双流卷积神经网络中部提取到的时间和空间特征向量进行融合，目的将输入的时空特征合并成为更具有判别能力的特征。

步骤8：将视频时空融合特征向量输入到SRU中提取序列的长时间序列化特征向量。

(步骤9为根据提取到的长时间序列化特征向量来输出预测的工地人员异常状态的部分)

步骤9：将长时间序列化特征向量输入到训练好的DT-SVM分类器对检测目标工地人员异常状态进行分类，最后输出四种异常状态中的一种预测结果。同一个视频中有多人，每一个人作为一个独立检测目标，模型同时对每一个待检测目标的运动区域进行识别，对于每一个运动区域的检测，输出一种预测结果。如果检测到同一个视频中有一人或者多人同时受伤的状态，则立马触发告警。

本发明中将CCD摄像头采集到的视频数据进行充分的预处理，首先使用目标检测的方法检测出人体运动的关键区域，并剪切出这一区域，将其作为新的数据加入基于3D双流卷积神经网络和SRU融合的网络进行计算；基于3D双流卷积神经网络和SRU融合的网络模型，主要包含四个模块:时空特征提取、时空特征融合、SRU网络提取时空特征向量序列时序性特征、SVM分类器进行人体行为识别；模块结构图如图2所示。视频信息可以分为空间信息和时间信息.空间信息指的是帧画面的表面信息；时间信息指的是帧与帧的之间的联系，本文提出的模型在双流卷积神经网络的空间流和时间流上，分别通过3D卷积核去提取连续的特征帧块中的时间和空间特征，3D卷积操作如图3所示；然后采用求和融合的方式对时间和空间上的特征进行融合后输入到SRU网络学习视频的时序性特征，提取出视频时空融合特征向量序列的长时间序列化特征，最后利用训练好的DT-SVM分类器对检测目标工地人员异常状态进行分类，本专利将工地人员异常状态分为了昏倒、手臂受伤、腿部受伤、腰部受伤四类。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图10，示出了本申请一实施例提供的一种工地人员异常行为分类装置，具体包括如下模块，

运动区域模块101：用于获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成；

表面特征向量模块102：用于对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量；

光流的特征向量模块103：用于对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量；

融和特征向量模块104：用于依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；

异常行为结果模块105：用于依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

在本发明一实施例中，所述运动区域模块101包括：

中心点子模块：用于确定所述工作视频数据中的每个工地人员相对应的运动中心点；其中，所述运动中心点的数量与所述工作视频数据中的工地人员的数量相同；

运动区域子模块：用于依据所述运动中心点生成所述每个工地人员相对应的运动区域。

在本发明一实施例中，所述中心点子模块包括：

主要运动区域子模块：用于依据所述工作视频数据中像素的颜色分布生成所述每个工地人员相对应的主要运动区域；

运动中心点子模块：用于依据所述主要运动区域进行二值化并计算所述每个工地人员相对应的运动中心点。

在本发明一实施例中，所述运动区域子模块包括：

运动区域确定子模块：用于确定所述运动中心点在所述工作视频数据中每帧静态图像的位置，并依据所述位置生成所述每个工地人员相对应的运动区域。

在本发明一实施例中，所述表面特征向量模块102包括：

表面特征向量子模块：用于对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块输入空间流3D卷积神经网络进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量。

在本发明一实施例中，所述光流的特征向量模块103包括：

光流的特征向量子模块：用于对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块输入时间流3D卷积神经网络进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量。

在本发明一实施例中，所述异常行为结果模块105包括：

长时间序列化特征向量子模块：用于依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量；

异常行为结果子模块：用于依据所述长时间序列化特征向量进行分类生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤。

在本发明一实施例中，所述长时间序列化特征向量子模块包括：

简单循环单元子模块：用于依据所述融和特征向量输入简单循环单元生成相对应所述每个工地人员的长时间序列化特征向量。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

在本具体实施例与上述具体实施例中有重复的操作步骤，本具体实施例仅做简单描述，其余方案参考上述具体实施例描述即可。

参照图11，示出了本申请的一种工地人员异常行为分类方法的计算机设备，具体可以包括如下：

上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，内存28，连接不同系统组件(包括内存28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、音视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

内存28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过I/O接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN))，广域网(WAN)和/或公共网络(例如因特网)通信。如图11所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图11中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在内存28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例所提供的一种工地人员异常行为分类方法。

也即，上述处理单元16执行上述程序时实现：获取工作区域内工作人员视频数据，并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征；依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据；依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息；依据所述工作人员的骨骼信息生成工作人员的姿态特征；依据所述姿态特征生成所述工作人员的行为的安全结果；其中，所述安全结果包括安全和不安全。

在本申请实施例中，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的一种工地人员异常行为分类方法。

也即，给程序被处理器执行时实现：获取工作区域内工作人员视频数据，并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征；依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据；依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息；依据所述工作人员的骨骼信息生成工作人员的姿态特征；依据所述姿态特征生成所述工作人员的行为的安全结果；其中，所述安全结果包括安全和不安全。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种工地人员异常行为分类方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种工地人员异常行为分类方法，所述方法通过工地人员的工作视频对工地人员的异常行为进行分类，其特征在于，包括：

获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成；具体的，确定所述工作视频数据中的每个工地人员相对应的运动中心点，依据所述工作视频数据中像素的颜色分布生成所述每个工地人员相对应的主要运动区域；依据所述主要运动区域进行二值化并计算所述每个工地人员相对应的运动中心点，先对已标记出主要运动区域的视频帧序列进行灰度化处理，然后再将灰度化后的视频帧序列根据计算出来的T值，将灰度图像像素点大于等于阈值T的像素灰度设为灰度极大值255，小于这个临界阈值T的像素灰度设为灰度极小值0；完成对目标运动区域的二值化处理，然后再计算二值化处理后的目标运动区域的中心点；其中，所述运动中心点的数量与所述工作视频数据中的工地人员的数量相同；依据所述运动中心点生成所述每个工地人员相对应的运动区域；将图片灰度化后，计算阈值T的步骤如下：

①先初始化阈值T，将T设置为127；

②根据阈值T将灰度化图上的每个像素数据P(n,m)分为运动目标像素数据G1与背景像素数据G2，n为行，m为列；

③计算出运动目标像素数据G1的平均值m1与背景像素数据 G2的平均值m2；

④根据m1,m2，计算出一个新的阈值；

⑤回到第②步，用新的阈值继续分像素数据为运动目标像素与背景像素数据，继续②～④步，直到计算出来的新阈值等于上一次的阈值；

计算出阈值T后将灰度化图像上像素值大于等于T的像素值全部设为255，小于T的全部设为0；

依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；具体的，依据在相同空间位置的所述表面特征向量和所述光流的特征向量进行求和生成对应于所述运动区域中的所述工地人员的融和特征向量；

依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤；具体的，依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量；依据所述长时间序列化特征向量进行分类生成相对应所述每个工地人员的异常行为结果；所述长时间序列化特征向量通过SRU生成。

2.根据权利要求1所述的工地人员异常行为分类方法，其特征在于，所述依据所述运动中心点生成所述每个工地人员相对应的运动区域的步骤，包括：

3.根据权利要求1所述的工地人员异常行为分类方法，其特征在于，所述对所述工作视频数据中每帧静态图像数据的所述运动区域的图片帧块进行特征提取，确定在所述运动区域中的所述工地人员的表面特征向量的步骤，包括：

4.根据权利要求1所述的工地人员异常行为分类方法，其特征在于，所述对所述工作视频数据中每帧静态图像数据的所述运动区域的光流图块进行提取，确定在所述运动区域中的所述工地人员的光流的特征向量的步骤，包括：

5.根据权利要求1所述的工地人员异常行为分类方法，其特征在于，所述依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果的步骤，包括：

6.根据权利要求5所述的工地人员异常行为分类方法，其特征在于，所述依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量的步骤，包括：

7.一种工地人员异常行为分类装置，所述装置通过工地人员的工作视频对工地人员的异常行为进行分类，其特征在于，包括：

运动区域模块，用于获取目标工作区域中的工作视频数据，并确定所述工作视频数据中的每个工地人员相对应的运动区域；其中，所述工作视频数据由若干帧静态图像数据组成；具体的，确定所述工作视频数据中的每个工地人员相对应的运动中心点，依据所述工作视频数据中像素的颜色分布生成所述每个工地人员相对应的主要运动区域；依据所述主要运动区域进行二值化并计算所述每个工地人员相对应的运动中心点，先对已标记出主要运动区域的视频帧序列进行灰度化处理，然后再将灰度化后的视频帧序列根据计算出来的T值，将灰度图像像素点大于等于阈值T的像素灰度设为灰度极大值255，小于这个临界阈值T的像素灰度设为灰度极小值0；完成对目标运动区域的二值化处理，然后再计算二值化处理后的目标运动区域的中心点；其中，所述运动中心点的数量与所述工作视频数据中的工地人员的数量相同；依据所述运动中心点生成所述每个工地人员相对应的运动区域；将图片灰度化后，计算阈值T的步骤如下：

①先初始化阈值T，将T设置为127；

④根据m1,m2，计算出一个新的阈值；

融和特征向量模块，用于依据在相同空间位置的所述表面特征向量和所述光流的特征向量生成对应于所述运动区域中的所述工地人员的融和特征向量；具体的，依据在相同空间位置的所述表面特征向量和所述光流的特征向量进行求和生成对应于所述运动区域中的所述工地人员的融和特征向量；

异常行为结果模块，用于依据所述融和特征向量生成相对应所述每个工地人员的异常行为结果；其中，所述异常行为结果包括昏倒、手臂受伤、腿部受伤、腰部受伤；具体的，依据所述融和特征向量生成相对应所述每个工地人员的长时间序列化特征向量；依据所述长时间序列化特征向量进行分类生成相对应所述每个工地人员的异常行为结果；所述长时间序列化特征向量通过SRU生成。

8.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的工地人员异常行为分类方法的步骤。