CN112580778A

CN112580778A - 基于YOLOv5和Pose-estimation的工地工人手机使用检测方法

Info

Publication number: CN112580778A
Application number: CN202011338005.7A
Authority: CN
Inventors: 仝淑贞; 田青; 张华�; 魏煊
Original assignee: Jiangsu Jicui Future City Application Technology Research Institute Co Ltd
Current assignee: Jiangsu Jicui Future City Application Technology Research Institute Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-30

Abstract

一种基于YOLOv5和Pose‑estimation的工地工人手机使用检测方法，步骤包括：1)获取摄像机视频信流，并截取单帧图片；2)对图片进行HSV增强；3)使用coco数据集训练YOLOv5网络；4)用步骤3)训练得到的YOLOv5神经网络用来检测人体，得到人体的检测框；5)用检测框对输入图像进行裁剪，得到图像中的人体部分；6)构建Pose‑estimation网络；8)将YOLOv5神经网络检测出的人体输入Pose‑estimation网络，输出人体的手部ROI；9)将手部ROI输入到ResNet‑50分类网络，预测手部区域中是否含有手机，得到结果。本方法大大降低人力成本并提高监督效果。

Description

基于YOLOv5和Pose-estimation的工地工人手机使用检测方法

技术领域

本发明涉及一种面向工地工人手机使用的检测方法，主要是基于人工智能技术领域中的深度学习技术。

背景技术

随着手机使用的普及，工地工人进行作业时使用手机，会增加安全事故发生的可能性。而依靠人员监督难以起到实时的监督作用，如果采用事后监控视频进行检查，也需要大量的人力和时间成本，而且对预防安全事故来说，其效果远不如即时发现、即时处理。

发明内容

如果把图像识别技术应用于施工现场的手机异常使用监督，则可大大降低人力成本以及提高监督效果。

本技术方案提出打手机智能识别算法解决此类问题，从而节约监督人员人力成本，提高监督效率，覆盖更广的监督范围，更能精确的监控到工地工人作业时使用手机行为，加强安全管控。本发明的手机使用检测方法是基于人工智能技术领域中的深度学习技术，结合大数据，使用大量的人员打手机图片数据采用监督学习的方式进行智能识别训练。

本方法采用深度卷积神经网络提取数据中关键特征，忽略图片数据中的不相关信息，并结合业务逻辑进行推理判断。将训练完成后的算法加载到摄像机控制端，对摄像机拍摄到的视频画面进行实时分析，按照场景规定要求对画面中是否有工地工人在禁止使用手机场景下使用手机的违章行为进行准确判断。

以本方法为核心软件应用于摄像机，这种摄像机可部署到多累不同场景，为高压室、动力机房等工业领域中禁止使用手机的环境提供安全保障。本方法具体为：

一种基于YOLOv5和Pose-estimation的工地工人手机使用检测方法，步骤包括：

1)获取摄像机视频信流，并截取单帧图片；

2)对图片进行HSV增强；

3)使用coco数据集训练YOLOv5网络；

设置参数：

为了在精度允许范围内降低网络的运算量，将网络的深度和宽度乘对应参数进行缩小，网络深度参数为0.67，网络宽度参数为0.75。并在0.1-10^-8间搜索精度和召回率最佳的学习率，最终选取最佳学习率learning_rate为0.01；

设yolov5的损失函数为：

L＝L_conf+L_cla+L_loc

其中，L_conf为目标置信度损失，L_cla为目标类别损失，L_loc为目标定位损失；

4)用步骤3)训练得到的YOLOv5神经网络用来检测人体：对输入的待测图像进行检测，得到人体的检测框；

5)用检测框对输入图像进行裁剪，得到图像中的人体部分；

6)构建Pose-estimation网络；

将待输入网络的RGB图像进行预处理为368×368×3的图像；把处理后的图形输入Pose-estimation网络；将图像分为8×8像素的格子，每个格子计算人体的上半身9个部件的响应，并输出最大响应部件作为该位置的人体部件；

7)使用MPII Human Pose数据集训练Pose-estimation网络，损失函数为：

其中，T代表网络的阶段，P代表图中的人，J代表检测格子，

代表第t个网络阶段的第p个人在第j个检测格子的预测值，

代表第t个网络阶段的第p个人在第j个检测格子的真实值；

8)将YOLOv5神经网络检测出的人体输入Pose-estimation网络，输出人体的手部ROI；

9)将手部ROI输入到ResNet-50分类网络，预测手部区域中是否含有手机，最终得到结果。

所述步骤2)中，为了增强图像对比度，对图像的HSV通道进行增强，其中H通道增强参数为0.014，S通道增强参数为0.68，V通道增强参数为0.36。

所述步骤6)中，将待输入网络的RGB图像进行预处理为368×368×3图像的方法为：先将图片以最长边与368的比值进行缩放，然后在短边方向补0像素。

步骤6)中：368×368×3的输入图片经过卷积被分割成46×46个格子，每个格子预测10个分数，其中9个分数对应人体上半身9个部件的响应分数，最后一个分数对应背景的响应分数，则网络输出为46×46×10；将该处理扩充为4个阶段，第2阶段直接对输入图片做卷积，输出46×46×10的结果，并将该结果与第1阶段的输出并接，再经过卷积模块输出第2阶段的46×46×10的结果；从第3阶段开始，直接用上一阶段的并接作为输入，经过卷积后与上一阶段的输出结果并接，再经过卷积模块输出该阶段的结果；最终选取4个阶段的网络结构生成Pose-estimation网络。

本方法把图像识别技术应用于施工现场的手机异常使用监督，可大大降低人力成本以及提高监督效果。

附图说明

图1是本方法的流程图；

图2是本方法的网络结构示意图；

图3是pose-estimation网络结构示意图；

图4是使用本方法的检测系统的架构图。

具体实施方式

下面结合附图与具体实施方式对本技术方案进一步说明：

针对现有的技术问题，本发明的目的在于实现工地上对于工人在施工时间违规使用手机的检测，本发明的实施例提供一种检测单帧图片中是否有人使用手机的检测方法，参考图1和2，本例的步骤包括：

1、通过opencv读取视频流，截取单帧图片。

2、对图像进行HSV增强，其中H通道增强参数为0.014，S通道增强参数为0.68，V通道增强参数为0.36。

3、使用coco数据集训练yolov5网络，设置参数：网络深度参数为0.67，网络宽度参数为0.75，学习率learning_rate为0.01，随机梯度下降动量参数momentum为0.937，权重衰减为0.0005。设置yolov5的损失函数公式为：

L＝L_conf+L_cla+L_loc

其中，L_conf为目标置信度损失，L_cla为目标类别损失，L_loc为目标定位损失。

4、设置训练好的yolov5神经网络检测人体，对输入图像进行检测，得到人体的检测框。

5、用检测框对输入图像进行裁剪，得到图像中的人体部分。

6、构建pose-estimation网络，将待输入网络的RGB图像进行预处理，处理为368×368×3的图像，先将图片以最长边与368的比值进行缩放，然后在短边方向补0像素，采取这种缩放方式不会改变图像的原比例。网络输入为368×368×3的RGB图像，将图像分为8×8像素的格子，每个格子计算人体的上半身9部件的响应，并输出最大响应部件作为该位置的人体部件。

7、使用MPII Human Pose数据集训练pose-estimation网络，损失函数为：

其中，T代表网络的阶段，P代表图中的人，J代表检测格子，b代表预测值，b_*代表真实值。

8、将yolo检测出的人体输入pose-estimation网络，输出人体的手部ROI(regionof interest)感兴趣区域。

9、将手部ROI输入到ResNet-50分类网络预测手部区域中是否含有手机。

对于pose-estimation网络，参考图3：368×368×3的输入图片经过卷积被分割成46×46个格子，每个格子预测10个分数，其中9个对应人体上半身9个部件的响应分数，另一个对应背景的响应分数，因此网络输出为46×46×10。为提升网络的精度，将上述处理扩充为4个阶段，阶段2直接对输入图片做卷积，输出46×46×10的结果，并将该结果与阶段1的输出并接，再经过卷积模块输出阶段2的46×46×10的结果。从阶段3开始，直接用上一阶段的并接作为输入，经过卷积后与上一阶段的输出结果并接，再经过卷积模块输出该阶段的结果。最终选取4个阶段的网络结构生成Pose-estimation网络。

在实施时候：

本方法主要包括基于yolov5和pose-estimation建立深度学习算法，设计网络框架。通过yolov5检测出摄像头拍摄照片中的工人，并以检测框为ROI，对框内的工人进行pose-estimation，得到工人的人体姿态。结合其姿态设定阈值，定位到工人的手部ROI，将其手部ROI区域输入残差神经网络可判断是否含有手机。

本发明的技术要点主要是使用yolov5定位工人，设计了pose-estimation网络定位工人的手部ROI，再对手部ROI进行是否含有手机的神经网络识别。

传统的手机检测方法通过目标检测算法直接定位手机，而工人拿手机时由于姿势不定，因此通过传统的手机检测方法检测工人的手机精度和鲁棒性较差，而本方法相对于普通的手机检测算法具有更高的精度和更强的鲁棒性。

如图4所示，本方法的工程应用于检测系统，本检测系统在工地上部署网络摄像头和AI网络摄像头，网络摄像头所拍摄的图片传入算法服务器进行检测，并将检测结果传入集中管控服务器，而AI网络摄像头直接将拍摄的图片在本地处理，再传入集中管控服务器。在监控客户端上可以得到实时的检测结果和违规的记录情况。

Claims

1.一种基于YOLOv5和Pose-estimation的工地工人手机使用检测方法，其特征是步骤包括：

1)获取摄像机视频信流，并截取单帧图片；

2)对图片进行HSV增强；

3)使用coco数据集训练YOLOv5网络；

设置参数：

设yolov5的损失函数为：

L＝L_conf+L_cla+L_loc

5)用检测框对输入图像进行裁剪，得到图像中的人体部分；

6)构建Pose-estimation网络；

其中，T代表网络的阶段，P代表图中的人，J代表检测格子，

代表第t个网络阶段的第p个人在第j个检测格子的预测值，

代表第t个网络阶段的第p个人在第j个检测格子的真实值；

2.根据权利要求1所述的检测方法，其特征是所述步骤2)中，为了增强图像对比度，对图像的HSV通道进行增强，其中H通道增强参数为0.014，S通道增强参数为0.68，V通道增强参数为0.36。

3.根据权利要求1所述的检测方法，其特征是所述步骤3)中，网络深度参数为0.67，网络宽度参数为0.75，学习率learning_rate为0.01。

4.根据权利要求1所述的检测方法，其特征是所述步骤6)中，将待输入网络的RGB图像进行预处理为368×368×3图像的方法为：先将图片以最长边与368的比值进行缩放，然后在短边方向补0像素。

5.根据权利要求1所述的检测方法，其特征是所述步骤6)中，368×368×3的输入图片经过卷积被分割成46×46个格子，每个格子预测10个分数，其中9个分数对应人体上半身9个部件的响应分数，最后一个分数对应背景的响应分数，则网络输出为46×46×10；将该处理扩充为4个阶段，第2阶段直接对输入图片做卷积，输出46×46×10的结果，并将该结果与第1阶段的输出并接，再经过卷积模块输出第2阶段的46×46×10的结果；

从第3阶段开始，直接用上一阶段的并接作为输入，经过卷积后与上一阶段的输出结果并接，再经过卷积模块输出该阶段的结果；

最终选取4个阶段的网络结构生成Pose-estimation网络。