CN116259002A

CN116259002A - 一种基于视频的人体危险行为分析方法

Info

Publication number: CN116259002A
Application number: CN202211738972.1A
Authority: CN
Inventors: 刘成菊; 陈启军; 吴勇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-13

Abstract

本发明涉及一种基于视频的人体危险行为分析方法，包括：读取视频流信息；利用改进的YOLOv5从中提取行人目标以及与危险行为有关的目标物体；以提取到的目标人员区域作为人体姿态检测的输入，利用AlphaPose提取出行人的骨架姿态；结合人员骨架姿态与目标小物体位置信息，判断视频中人员是否在与目标物体进行互动、以及是否存在设定的危险行为；使用ST‑GCN对目标人员行为进行判断，并结合空间信息确定人员是否出现跌倒行为或者闯入禁区；根据骨架信息提取出目标人员的肢体末端部位，结合色彩分析判断其是否存在工装穿戴不规范的行为；将判断得出的危险行为信息传输到前端进行显示以及警报。与现有技术相比，本发明能够高精度低延迟地进行多种危险行为的识别及预警。

Description

一种基于视频的人体危险行为分析方法

技术领域

本发明涉及自动化安全巡视技术领域，尤其是涉及一种基于视频的人体危险行为分析方法。

背景技术

随着工业生产的自动化程度进一步加深，工人在生产中难以避免会更多地面对机器，一些不安全的行为和状态很可能会导致较大的生产事故，因此，确保生产过程的安全高效将变得尤为重要。作为一种智能化生产巡视的方法，人体危险行为分析检测是视频理解与计算机视觉领域炙手可热的研究内容，备受国内外学者的关注，在智能监控、人机交互等多领域被广泛应用。

当前，工业生产和建设现场的危险行为预警通常是采用摄像头采集视频数据配合人工监管的方式，但人工巡视存在人力成本开销大、容易疲劳，人员情绪化等问题，导致漏检或误检，而且往往只能做到事后监控，无法进行及时预警。并且，常见的行为识别方法只能对人员的行为进行粗略判断，针对与环境相关度极大的危险行为，则无法进行针对性识别，导致无法正确进行危险行为识别及相应预警。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视频的人体危险行为分析方法，能够及时、准确地识别出与环境相关度极大的危险行为并进行预警。

本发明的目的可以通过以下技术方案来实现：一种基于视频的人体危险行为分析方法，包括以下步骤：

S1、读取网络高清摄像头获取的视频流信息，以作为系统输入；

S2、利用改进的YOLOv5，提取输入视频流中的行人目标以及与危险行为有关的目标物体；

S3、以提取到的目标人员区域作为人体姿态检测的输入，利用AlphaPose提取出视频流中行人的骨架姿态；

S4、结合AlphaPose提取到的人员骨架姿态与YOLOv5提取到的目标小物体位置信息，判断视频中人员是否在与目标物体进行互动、以及是否存在设定的危险行为；

S5、使用ST-GCN对目标人员行为进行判断，并结合空间信息确定人员是否出现跌倒行为或者闯入禁区；

S6、根据骨架信息提取出目标人员的肢体末端部位，结合色彩分析判断其是否存在工装穿戴不规范的行为；

S7、将判断得出的危险行为信息传输到前端进行显示以及警报。

进一步地，所述步骤S2中改进的YOLOv5具体为：

在输入上，使用检测得到的行人区域进行预裁剪作为输入；

在网络结构上，在标准YOLOv5框架上增加一组Anchor：[5x6,8x14,15x11]，对应增加一组输出head(152x152)，得到最小的感受野(4x4)，适应极小目标物体的检测；

在数据集上，采用交叉标注的三种小物体数据集进行训练。

进一步地，所述步骤S3的具体过程为：

首先对目标进行实时跟踪，对目标模型的状态建模形式如下：

其中，u为目标中心的水平像素坐标，v为目标中心的垂直像素坐标，s和r分别为追踪目标的边界框的面积比例与纵横比，且r通常为常数；

在检测到目标对象后，对目标对象进行模型估计，得出其运动模型并将检测框与目标之间相互关联，用新的检测框边界对目标对象进行状态更新，其中目标运动模型的速度分量通过卡尔曼滤波框架来进行迭代优化求解，以确保对目标的正确估计；而当系统未能检测到目标对象时，系统无法用新检测到的边界框来更新目标对象的状态，此时则使用线性速度模型来对目标对象的状态进行简单的预测，完成边界框预测后使用匈牙利指派算法来得到IoU的最大匹配结果用于数据关联；

之后以行人检测框的内容作为输入，利用AlphaPose进行姿态估计，首先使用空间变换网络(STN)进行一个2D仿射变换来修正输入的行人检测框：

其中，θ₁，θ₂和θ₃都是二维空间的向量，

和/>

分别表示转换之前的坐标和转换之后的坐标；

在SPPE结束之后，采用一个空间逆变换网络(SDTN)来将估计的人体姿态反映射回对应的原图坐标中，SDTN需要为逆变换和生成网格计算出一个γ：

SDTN与STN互为逆运算，γ可由θ₁，θ₂和θ₃推导得出，而θ₁，θ₂和θ₃则由模型迭代优化得出。

进一步地，所述步骤S3使用YOLOv5算法作为AlphaPose的行人推荐区域算法，并对得到的部分冗余姿态点进行裁剪，其中包括：左眼、右眼、左耳以及右耳姿态点。

进一步地，所述步骤S4中设定的危险行为包括但不限于未正确佩戴头盔、手机使用和吸烟。

进一步地，所述步骤S4中检测头盔的具体步骤为：首先检测是否存在工作人员，然后对每一位工作人员的头部和安全头盔的位置进行匹配，判断是否正确佩戴头盔，如果连续5帧均检测出未佩戴头盔，则进行警报；

检测手机使用的具体步骤为：对手机和人员姿态进行匹配，只有当存在设定两种情况之一时，则认为工作人员在使用手机，其中，两种情况中第一种情况认为工作人员正在浏览手机页面，第二种情况认为工作人员正在接听电话，如果连续5帧均检测出使用手机，则进行警报；

第一种情况具体为手机处在手的以人体宽度为半径的圆内且相应的手臂弯曲角度大于120°，第二种情况具体为手机处在头部的以人体宽度为半径的圆内且存在一只手的手臂弯曲角度小于120°；

检测吸烟的具体步骤为：在视频中存在工作人员的前提下，对工作人员的边界区域进行扩张和裁剪，然后进一步识别香烟的存在，如果成功识别到香烟，并且香烟处于目标工作人员的手部或者头部附近时，认为存在吸烟行为，如果连续5帧均检测出吸烟，则进行警报。

进一步地，所述步骤S5使用ST-GCN算法判断目标人员是否存在跌倒行为，所述步骤S5中，检测禁区闯入的具体步骤为：使用区域检测算法，通过鼠标选点的方式确定具体的危险区域多边形，然后检测视频流中是否存在目标工作人员，检测到目标工作人员后对其进行骨架检测，进而通过骨架信息中的脚部信息确定目标工作人员的空间位置，将其与设定的危险区域范围进行比对，判断目标工作人员是否处于危险区域内，如果发现目标工作人员在连续30帧视频中都被判断处于危险区域内，则判定出现了违法越界危险行为并做出警报；如果ST-GCN算法判断目标人员处于运动状态并在禁区边缘出入，则判定禁区闯入并进行警报。

进一步地，所述步骤S6中，判断工装是否正确穿戴的具体步骤为：首先检测工作人员的存在，如果存在目标工作人员，则对其骨架姿态进行分析估计，裁剪出手臂、躯干以及腿部等经常裸露皮肤的关节所在部分的框图区域，针对这些区域的框图内容进行颜色分析，判断是否存在裸露的皮肤，如果存在皮肤裸露的情况，且目标人员连续5帧图像中都处于皮肤裸露状态，则在相应的关节框图中标注未正确穿戴工装(No Work Clothes)。

进一步地，所述步骤S7中，后端与前端采用WebSocket进行通信，后端将标注危险行为的图像传送到前端显示，前端通过控制云台转向、选择预警目标危险行为、记录并显示危险行为日志、图像预警并标出危险行为、选取视频源操作，以修改后端检测内容。

进一步地，所述YOLOv5、4Heads YOLOv5、AlphaPose、ST-GCN模型均在Pytorch框架下进行训练，并使用Tensorrt框架进行深度学习推理优化，以降低系统的分析延时。

与现有技术相比，本发明具有以下优点：

(1)本发明提出了一种基于视频的人体危险行为分析方法，通过对常见的多种危险行为进行针对性设计和优化，有效解决了生产场景下的自动化安全巡视问题，大大降低生产中的安全隐患，极大程度上保证生产安全高效进行。。

(2)本发明通过改进YOLOv5算法，以提高在识别极小物体上的准确率，经过测试验证，在识别手机，香烟和头盔的准确率上比标准YOLOv5分别提高了10.2％，4％和2.3％。

(3)本发明针对常见的多种危险行为的特点，设计了基于小物体识别、基于时序动作和基于肢体色彩的三种危险行为分析方案以应对不同危险行为的特征。

(4)相较于传统深度学习模型部署方式，本发明使用Tensorrt框架对整个人体危险行为分析系统进行加速，以实现较高的识别精度和较快速度，检测帧率能够达到30fps，通过针对深度神经网络的特点进行相应的优化加速，得到了能够高精度低延时的进行危险行为预警效果。

附图说明

图1为本发明的方法流程示意图；

图2为本发明算法系统的流程图；

图3为改进后的4Heads YOLOv5网络结构；

图4a、4b、4c为4Heads YOLOv5和标准YOLOv5的检测效果对比示意图；

图5为目标实时追踪算法流程图；

图6为AlphaPose算法训练流程图；

图7a～7e为小物体检测以及六种危险行为检测的具体流程图；

图8为前端显示界面；

图9为Tensorrt张量融合示意图；

图10为实施例中系统检测准确率示意图；

图11为实施例中系统检测速度示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于视频的人体危险行为分析方法，包括以下步骤：

本实施例应用上述技术方案，用于对生产作业环境下的人员危险行为进行安全巡视和预警，该方法的框架示意图如图2所示，主要包括：

一、读取网络高清摄像头获取的视频流信息用于系统输入；

二、利用改进的YOLOv5提取输入视频流中的行人目标以及与危险行为有关的目标物体；

三、采用SORT算法进行实时行人追踪，并以提取到的目标人员区域作为人体姿态检测的输入，利用AlphaPose提取出视频流中行人的骨架姿态；

四、结合AlphaPose提取到的人员骨架姿态与YOLOv5提取到的目标小物体位置信息，判断视频中人员是否在与目标物体进行互动以及是否有未正确佩戴头盔、玩手机和吸烟等危险行为；

五、使用ST-GCN对目标人员行为进行判断，并结合空间信息确定人员是否出现跌倒行为或者闯入禁区；

六、根据骨架信息提取出目标人员的肢体末端部位，结合色彩分析判断其是否存在工装穿戴不规范的行为；

七、将判断得出的危险行为信息传输到前端进行显示以及警报。

八、系统所采用的YOLOv5、AlphaPose、ST-GCN网络均采用Tensorrt框架进行部署加速。

具体的，在步骤一，系统采用高清布控球获取生产现场的实时画面，并将获取视频通过服务器传输到后端。通过将高清布控球安装在云台上的方式，可以操控摄像头进行旋转，从而达到全方位安全巡视的效果。

在步骤二，图3展示了改进的4Heads YOLOv5的网络结构，通过在标准YOLOv5结构上增加一组Anchor：[5x6,8x14,15x11]，对应地增加一组输出Head(152x152)，得到最小的感受野(4x4)，以此来完成极小目标物体的检测。图4a、4b和4c是改进后的YOLOv5与标准YOLOv5在检测手机、香烟和头盔上的性能对比，准确率分别提高了10.2％，4％和2.3％。此外，图7a展示了小物体检测地具体流程：首先进行行人识别，将识别到的区域裁剪下来，输入到训练好的4Heads YOLOv5网络中，得出相应的小物体坐标，然后将其反变换回原图中进行标注。

在步骤三，以YOLOv5检测到的行人区域为基础，首先使用SORT算法进行行人实时跟踪，然后裁剪出初步的行人区域，作为AlphaPose算法的输入。在AlphaPose算法中，首先使用空间变换网络对初步的行人区域进行修正，得到较高质量的行人检测区域，然后送入SPPE网络进行姿态估计，将得到的姿态结果通过空间反变换网络重新映射回原图上进行结果显示。图5和图6显示了SORT算法的主要流程以及AlphaPose的主要网络训练过程。同时，得出的姿态估计结果通过参数化非最大值抑制方法进行处理，避免出现冗余姿态。

本实施例在步骤三中，首先对目标进行实时跟踪，对目标模型的状态建模形式如下：

其中，u为目标中心的水平像素坐标，v为目标中心的垂直像素坐标，s和r分别为追踪目标的边界框的面积比例与纵横比，且r通常为常数。

在检测到目标对象后，对目标对象进行模型估计，得出其运动模型并将检测框与目标之间相互关联，用新的检测框边界对目标对象进行状态更新，其中目标运动模型的速度分量通过卡尔曼滤波框架来进行迭代优化求解，以确保对目标的正确估计。而当系统未能检测到目标对象时，系统无法用新检测到的边界框来更新目标对象的状态，此时则使用线性速度模型来对目标对象的状态进行简单的预测。完成边界框预测后使用匈牙利指派算法来得到IoU的最大匹配结果用于数据关联。

之后以行人检测框的内容作为输入，利用AlphaPose进行姿态估计。首先使用空间变换网络(STN)进行一个2D仿射变换来修正输入的行人检测框：

其中θ₁，θ₂和θ₃都是二维空间的向量，

和/>

分别表示转换之前的坐标和转换之后的坐标。

在SPPE结束之后，采用一个空间逆变换网络(SDTN)来将估计的人体姿态反映射回对应的原图坐标中。SDTN需要为逆变换和生成网格计算出一个γ：

此外，本技术方案使用速度更快的YOLOv5算法作为AlphaPose的行人推荐区域算法，并对得到的部分冗余姿态点进行裁剪，其中包括：左眼，右眼，左耳，右耳姿态点。

在步骤四，图7b展示了基于小物体识别方案的三种危险行为的检测具体流程。其中，检测头盔的具体步骤为：首先检测是否存在工作人员，然后对每一位工作人员的头部和安全头盔的位置进行匹配，判断是否正确佩戴头盔，如果连续5帧均检测出未佩戴头盔，则进行警报。检测手机使用的具体步骤为：对手机和人员姿态进行匹配，只有当存在以下两种情况(手机处在手的以人体宽度为半径的圆内且相应的手臂弯曲角度大于120°，手机处在头部的以人体宽度为半径的圆内且存在一只手的手臂弯曲角度小于120°)之一时，认为工作人员在使用手机。两种情况中第一种情况认为工作人员正在浏览手机页面，第二种情况认为工作人员正在接听电话。如果连续5帧均检测出使用手机，则进行警报。检测吸烟的具体步骤为：在视频中存在工作人员的前提下，对工作人员的边界区域进行扩张和裁剪，然后进一步识别香烟的存在，如果成功识别到香烟，并且香烟处于目标工作人员的手部或者头部附近时，认为存在吸烟行为。如果连续5帧均检测出吸烟，则进行警报。

在步骤五，图7c、图7d展示了基于时序动作识别方案的两种危险行为的检测具体流程。其中，对于跌倒行为，直接将视频流送入ST-GCN网络中进行判断即可。检测禁区闯入的具体步骤为：使用区域检测算法，通过鼠标选点的方式确定具体的危险区域多边形，然后检测视频流中是否存在目标工作人员，检测到目标工作人员后对其进行骨架检测，进而通过骨架信息中的脚部信息确定目标工作人员的空间位置，将其与设定的危险区域范围进行比对，判断目标工作人员是否处于危险区域内，如果发现目标工作人员在连续30帧视频中都被判断处于危险区域内，则判定出现了违法越界危险行为并做出警报。如果ST-GCN算法判断目标人员处于运动状态并在禁区边缘出入，则判定禁区闯入并进行警报。

在步骤六，图7e展示了基于肢体色彩分析方案的工装穿戴不规范危险行为的检测具体流程：首先检测工作人员的存在，如果存在目标工作人员，则对其骨架姿态进行分析估计，裁剪出手臂、躯干以及腿部等经常裸露皮肤的关节所在部分的框图区域，针对这些区域的框图内容进行颜色分析，判断是否存在裸露的皮肤，如果存在皮肤裸露的情况，且目标人员连续5帧图像中都处于皮肤裸露状态，则在相应的关节框图中标注未正确穿戴工装(NoWork Clothes)。

在步骤七，图8展示了系统前端的设计效果，后端与前端采用WebSocket进行通信，后端将标注危险行为的图像传送到前端显示，前端可以通过控制云台转向、选择预警目标危险行为、选取视频源等操作修改后端检测内容。前端拥有记录并显示危险行为日志、显示图像预警并标出危险行为等功能。

在步骤八，针对系统所使用的深度网络模型，包括YOLOv5、4Heads YOLOv5、AlphaPose、ST-GCN模型在内，使用Tensorrt框架进行深度学习推理加速。在Tensorrt部署的环境上，本实施例采用cuda11.0+cudann8.2.0+Tensorrt8.0.0.3的版本配合。通过张量融合、精度剪枝等方法来提升模型的推理速度，图9展示了张量融合的具体过程。

综上可知，本发明提出了一种基于视频的人体危险行为分析系统，有效解决了生产场景下的自动化安全巡视问题。本技术方案针对小物体识别做出改进，使用改进的4HeadYOLOv5作为系统的小物体识别算法模块。基于改进后的目标识别算法，通过SORT算法实现了对于目标行人的跟踪，同时考虑到AlphaPose中SSTN结构的特点，通过将YOLOv5作为推荐区域生成器、裁剪姿态关节点和修改储存方式的方法，构建了更加快速的目标姿态估计模块。不仅如此，还针对常见的几种危险行为提出了不同的分析方法：针对未佩戴头盔、使用手机和吸烟这一类与小物体互动相关的危险行为设计了基于物体识别的危险行为分析方案；针对跌倒和违法越界这一类包括一系列时序动作的危险行为，设计了基于时序动作识别的危险行为分析方案；针对不正确工装穿戴这一类与色彩相关的危险行为，设计了基于色彩分析的危险行为识别方案，由此使得本技术方案能够涵盖更多场景下的不同危险情况，并针对不同的危险行为采用不同的分析策略进行分析，适应的环境更为广泛，本技术方案采用更快的一步检测算法，并在部署时使用Tensorrt对所有深度网络模型进行推理优化，保障了系统的低延时，同时采用适应检测框的AlphaPose进行姿态估计，达到了危险行为分析精度和速度的良好互补。图10、图11展示了完成部署的整个系统对于各种危险行为检测任务的准确率以及检测速度。可见，本技术方案在自动化巡视任务上本系统有着出色的性能。

Claims

1.一种基于视频的人体危险行为分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S2中改进的YOLOv5具体为：

在输入上，使用检测得到的行人区域进行预裁剪作为输入；

在数据集上，采用交叉标注的三种小物体数据集进行训练。

3.根据权利要求1所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S3的具体过程为：

之后以行人检测框的内容作为输入，利用AlphaPose进行姿态估计，首先使用空间变换网络进行一个2D仿射变换来修正输入的行人检测框：

其中，θ₁，θ₂和θ₃都是二维空间的向量，

和/>

分别表示转换之前的坐标和转换之后的坐标；

在SPPE结束之后，采用一个空间逆变换网络来将估计的人体姿态反映射回对应的原图坐标中，SDTN需要为逆变换和生成网格计算出一个γ：

4.根据权利要求3所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S3使用YOLOv5算法作为AlphaPose的行人推荐区域算法，并对得到的部分冗余姿态点进行裁剪，其中包括：左眼、右眼、左耳以及右耳姿态点。

5.根据权利要求1所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S4中设定的危险行为包括但不限于未正确佩戴头盔、手机使用和吸烟。

6.根据权利要求5所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S4中检测头盔的具体步骤为：首先检测是否存在工作人员，然后对每一位工作人员的头部和安全头盔的位置进行匹配，判断是否正确佩戴头盔，如果连续5帧均检测出未佩戴头盔，则进行警报；

7.根据权利要求1所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S5使用ST-GCN算法判断目标人员是否存在跌倒行为，所述步骤S5中，检测禁区闯入的具体步骤为：使用区域检测算法，通过鼠标选点的方式确定具体的危险区域多边形，然后检测视频流中是否存在目标工作人员，检测到目标工作人员后对其进行骨架检测，进而通过骨架信息中的脚部信息确定目标工作人员的空间位置，将其与设定的危险区域范围进行比对，判断目标工作人员是否处于危险区域内，如果发现目标工作人员在连续30帧视频中都被判断处于危险区域内，则判定出现了违法越界危险行为并做出警报；如果ST-GCN算法判断目标人员处于运动状态并在禁区边缘出入，则判定禁区闯入并进行警报。

8.根据权利要求1所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S6中，判断工装是否正确穿戴的具体步骤为：首先检测工作人员的存在，如果存在目标工作人员，则对其骨架姿态进行分析估计，裁剪出手臂、躯干以及腿部等经常裸露皮肤的关节所在部分的框图区域，针对这些区域的框图内容进行颜色分析，判断是否存在裸露的皮肤，如果存在皮肤裸露的情况，且目标人员连续5帧图像中都处于皮肤裸露状态，则在相应的关节框图中标注未正确穿戴工装。

9.根据权利要求1所述的一种基于视频的人体危险行为分析方法，其特征在于，所述步骤S7中，后端与前端采用WebSocket进行通信，后端将标注危险行为的图像传送到前端显示，前端通过控制云台转向、选择预警目标危险行为、记录并显示危险行为日志、图像预警并标出危险行为、选取视频源操作，以修改后端检测内容。

10.根据权利要求2所述的一种基于视频的人体危险行为分析方法，其特征在于，所述YOLOv5、4Heads YOLOv5、AlphaPose、ST-GCN模型均在Pytorch框架下进行训练，并使用Tensorrt框架进行深度学习推理优化，以降低系统的分析延时。