CN115294661A

CN115294661A - 一种基于深度学习的行人危险行为识别方法

Info

Publication number: CN115294661A
Application number: CN202211230844.6A
Authority: CN
Inventors: 逄增辉; 周继磊; 赵文太; 黄家兴; 孙晓燕; 柳燕; 王夏青
Original assignee: QINGDAO HAOHAI NETWORK TECHNOLOGY CO LTD
Current assignee: QINGDAO HAOHAI NETWORK TECHNOLOGY CO LTD
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-11-04

Abstract

本发明公开了一种基于深度学习的行人危险行为识别方法，属于机器学习领域，结合yolov5s网络模型，采用垂直旋转数据增强方法对数据集进行扩展；采用通道注意力机制模块对卷积得到的特征图进行处理；在yolov5s算法中增加小目标检测层，提高目标检测效果；通过对监控视频图像的智能分析，实时监测不安全因素，从监控视频中识别出具有安全隐患的危险行为，并在事中实时告警、提醒管理人员，杜绝安全事件的发生，本发明危险行为识别方法同时可以应用到其他行业例如矿区和交通路口等需要进行目标检测的位置。

Description

一种基于深度学习的行人危险行为识别方法

技术领域

本发明涉及机器学习技术领域，尤其是一种基于深度学习的行人危险行为识别方法。

背景技术

加油站在我们日常生活中扮演了举足轻重的角色，但是总有一些不文明的人经常在加油站内做出危险行为例如抽烟和危险行为等。为了规范加油站内人行为，通过监控视频检测危险行为显得尤为重要。

近些年，随着图像识别技术的发展，能够利用机器自动提取图像中丰富的信息，配合展示界面能极大的提高用户的体验感。今计算机视觉已成为人工智能重要研究领域和发展方向，逐渐形成完整的产业链。在一些特定的危险场景和重复性的生产作业中替代人，以节省人力，并提升效率。在传统的图像学中，目标检测方法并不理想，容易受到其他目标的干扰；还容易导致定位不准确；计算量大，需要对每个滑动窗口的特征进行处理和分类判断，手工特征提取的方法和过程比较复杂，不具有通用性。传统的视频监控数据采集维度单一，监控数据海量堆叠存储，难以提取核心信息，缺乏智能化，灵活度需要依靠人力查看，存在不及时、非智能、易疏漏的问题，容易留下安全隐患。

发明内容

为了克服现有技术中存在的上述问题，本发明提出一种基于深度学习的行人危险行为识别方法。

本发明解决其技术问题所采用的技术方案是：一种基于深度学习的行人危险行为识别方法，包括如下步骤：

步骤1，采集行人图像及危险行为图像生成数据集，利用数据集生成行人检测模型和危险行为检测模型；

步骤2，将监控装置监控得到的视频数据按帧图像分解为图像矩阵数据；

步骤3，利用yolov5s模型主干网络对输入端输入数据进行数据增强；

步骤4，利用yolov5s模型主干网络Backbone对数据进行初步特征提取；

步骤5，对图像进行综合分析，当综合分析超过预设数值，则确定行人存在危险行为，将信息推送至报警平台发出警报；否则不做处理；

步骤4中特征提取具体包括：

步骤4.1，改进主干网络Backbone的整体结构，在yolov5s骨干网阶段设置SE-Net模块，提取高重点区域的权重值，降低不相关区域的权重值；

步骤4.2，改进颈部网络neck增加小目标检测层yolov5s-STD，在基于原始模型的三个初始锚点值之外，添加一组额外的锚点值，用于检测较小目标。

上述的一种基于深度学习的行人危险行为识别方法，所述步骤1具体包括：

步骤1.1，收集行人图像，对行人图像中行人对应的部分图像进行标记，获取第一标记信息，将行人图像和第一标记信息，构成第一数据集；

步骤1.2，收集危险行为图像，对用以指示行为危险行为的动作图像进行标记，获取第二标记信息，将有危险行为图像和第二标记信息构成第二数据集；

步骤1.3，利用第一数据集对第一目标检测模型进行训练，得到行人检测模型；

步骤1.4，利用第二数据集对第二目标检测模型进行训练，得到危险行为检测模型；

步骤1.5，利用所有训练样本和标注信息，基于深度学习的原理训练得到一个目标检测深度卷积神经网络。

上述的一种基于深度学习的行人危险行为识别方法，所述步骤3中数据增强具体为：yolov5s网络模型输入端使用马赛克数据增强，每次读取4张图片，分别进行大小缩放、色彩明度灰度的变化和增加90°垂直旋转变换，变换后的图像按照读取顺序摆放在1张大图像的左上角、左下角、右下角和右上角四个位置，然后进行图像和目标框匹配，超出的部分进行切割，利用Rectangular方法为了图像到达预定的输入尺寸进行黑边填充。

上述的一种基于深度学习的行人危险行为识别方法，所述步骤4中Backbone包括C3和SPP结构，所述C3结构将输入进来的的数据进行分割，一部分参与denseNet操作，另外一部分与上一步处理后得到的特征图像进行拼接，经过一次卷积得到输出结果；所述SPP结构中padding和步长，将3个并行的最大池化替换为串行，并且池化核全部修改为一样大小。

上述的一种基于深度学习的行人危险行为识别方法，所述步骤4.1中SE-Net模块包括挤压操作、激活操作。

上述的一种基于深度学习的行人危险行为识别方法，所述挤压操作具体为：给定一个输入U，U∈R^H*W*C通过挤压操作得到一个输出Z，Z∈R^1*1*C，挤压操作采用全局池化将每个通道上对应的空间信息压缩到对应通道中，其数值变为1个数值，此时1个像素表示一个通道，最终维度变成1*1*C，具体公式为：

其中，Z表示挤压操作输出的数据，H表示通道长，W表示通道宽，

表示特定输入值。

上述的一种基于深度学习的行人危险行为识别方法，所述激活操作具体为：将挤压操作输出的Z，Z∈R^1*1*C，经过两个全连接层，将两个全连接层增加非线性能力并实现跨通道之间的交互作用，由ReLU函数激活，再由全连接层生成原始特征维度，然后通过Sigmoid函数将其转换为从0到1的归一化权重，将加权后的特征图输入到下一层网络中，公式如下所示：

其中，s为激活操作输出的权重值，

是ReLU激活函数，

是Sigmoid激活函数，W₁表示全连接层1，Z为挤压操作输出的数据，W₂表示全连接层2，

表示非线性单元输入值。

上述的一种基于深度学习的行人危险行为识别方法，所述步骤4.2小目标检测层yolov5s-STD使用上下文特征融合结构，在颈部网络的第17层，对特征图进行上采样操作，使特征图继续扩展，在第20层，将颈部网络得到的特征图与主干网络提取的特征图进行融合，在第31层增加预测段的小目标监测层，对输出的特征图共使用了四个检测层。

本发明的有益效果是，本发明结合yolov5s网络模型，采用垂直旋转数据增强方法对数据集进行扩展；采用通道注意力机制模块对卷积得到的特征图进行处理；在yolov5s算法中增加小目标检测层，提高目标检测效果；通过对监控视频图像的智能分析，实时监测不安全因素，从监控视频中识别出具有安全隐患的危险行为，并在事中实时告警、提醒管理人员，杜绝安全事件的发生，本发明危险行为识别方法同时可以应用到其他行业例如矿区和交通路口等需要进行目标检测的位置。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明模块示意图；

图2为本发明识别方法流程图；

图3为本发明图像90°垂直旋转的数据增强处理图；

图4为本发明yolov5s模型中SE-Net模块的整体结构图；

图5为本发明增加小目标检测层yolov5s-STD结构图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。

本实施例公开了一种基于深度学习的行人危险行为识别方法，本实施例中，以加油站中行人打电话行为的识别方法为例，以深度学习算法框架为基础从加油站固定枪机（卡口）监控一体机获取实时视频流（即视频图像采集模块），将获取的视频流输入到yolov5s模型中，yolov5s模型主要包括视频处理模块、预处理模块、目标识别模块，根据配置信息进行目标监测，识别模型根据需求需要设定为危险行为监测，检测出存在危险行为后对外输出报警信息，第三方软件平台通过此接口进行报警信息获取，如图1所示。危险行为识别方法具体过程如图2所示，包括如下步骤：

1.收集行人图像，对行人图像中行人对应的部分图像进行标记，获取第一标记信息，将行人图像和第一标记信息，构成第一数据集；

2.收集危险行为图像，对用以指示行为危险行为的动作图像进行标记，获取第二标记信息，将有危险行为图像和第二标记信息构成第二数据集；

3.利用第一数据集对第一目标检测模型进行训练，得到行人检测模型；

4.利用第二数据集对第二目标检测模型进行训练，得到危险行为检测模型；

5.利用所有训练样本和标注信息，基于深度学习的原理训练得到一个目标检测深度卷积神经网络，在本实施例中是基于yolov5s网络模型进行训练得到的打电话行为识别模型；

6.在加油站安装监控一体机，通过http协议调用服务启停；

7.通过国标rtsp、rtmp等流媒体接入协议实时获取网络摄像机的视频数据；

8.视频处理模块把获取的视频流按帧图像分解为图像矩阵数据；

9.利用yolov5s模型主干网络对输入端输入的数据进行数据增强；

进一步的， yolov5s网络模型输入端使用马赛克数据增强，每次读取4张图片，分别进行大小缩放、色彩明度灰度的变化和增加90°垂直旋转变换（如图3所示）。变换后的图像按照读取顺序摆放在1张大图像的左上角、左下角、右下角和右上角四个位置。然后进行图像和目标框匹配，超出的部分进行切割。利用Rectangular方法为了图像到达预定的输入尺寸进行黑边填充。

10.利用yolov5s模型主干网络Backbone对数据进行初步特征提取。

进一步的，主干网络Backbone主要包含C3和SPP结构，C3将输入进来的数据进行分割，一部分参与denseNet操作，另外一部分与上一步处理后得到的特征图像进行拼接，经过一次卷积得到输出结果，SPP中padding和步长，将3个并行的最大池化替换为串行，并且池化核全部修改为一样大小。

进行特征提取主要包括两个部分：（1）改进主干网络Backbone的整体结构，在yolov5s骨干网阶段设置SE-Net模块，提取高重点区域的权重值，降低不相关区域的权重值。

SE-Net模块包含两个重要的操作：挤压操作（Sequeeze）和激活操作（Excitation），如图4所示，挤压操作(F_sq)给定一个输入U，U∈R^H*W*C通过挤压操作得到一个输出Z，Z∈R^1*1*C，该操作采用全局池化将每个通道上对应的空间信息（H×W）压缩到对应通道中，其数值变为1个数值，此时1个像素表示一个通道，最终维度变成1*1*C，公式如下所示：

表示特定输入值。

激活操作（Excitation）将挤压操作输出的Z，Z∈R^1*1*C，经过激活操作得到一个输出S，S∈R^1*1*C。该操作将上一步得到的Z经过两个全连接层（FC），将两个全连接层增加非线性能力并实现跨通道之间的交互作用。由ReLU函数激活，再由全连接层生成原始特征维度，然后通过Sigmoid函数将其转换为从0到1的归一化权重，将加权后的特征图输入到下一层网络中，公式如下所示：

其中，s为激活操作输出的权重值，

是ReLU激活函数，

表示非线性单元输入值。

（2）改进颈部网络neck增加小目标检测层yolov5s-STD，在基于原始模型的三个初始锚点值之外，添加一组额外的锚点值，作为检测较小目标的方法可以更好的监测手机，如图5所示；

小目标检测层yolov5s-STD使用上下文特征融合结构，在颈部网络的第17层，对特征图进行上采样操作，使特征图继续扩展；在第20层，将颈部网络得到的特征图与主干网络提取的特征图进行融合；在第31层增加预测段的小目标监测层，对输出的特征图共使用了四个检测层。

11．对图像进行综合分析，运用NMS（非极大值抑制），依靠检测器得到多个识别框，以及识别框置信度大小，根据识别框置信度做排序，选中置信度最高的识别框进行分析是否超过预设置信度数值，一旦超过预设置信度数值，则确定行人存在打电话行为，将信息推送至报警平台发出报警（以JSON数据格式发送报警），否则将不做任何处理。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于深度学习的行人危险行为识别方法，其特征在于：包括如下步骤：

步骤4中特征提取具体包括：

2.根据权利要求1所述的一种基于深度学习的行人危险行为识别方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述的一种基于深度学习的行人危险行为识别方法，其特征在于，所述步骤3中数据增强具体为：yolov5s网络模型输入端使用马赛克数据增强，每次读取4张图片，分别进行大小缩放、色彩明度灰度的变化和增加90°垂直旋转变换，变换后的图像按照读取顺序摆放在1张大图像的左上角、左下角、右下角和右上角四个位置，然后进行图像和目标框匹配，超出的部分进行切割，利用Rectangular方法为了图像到达预定的输入尺寸进行黑边填充。

4.根据权利要求1所述的一种基于深度学习的行人危险行为识别方法，其特征在于，所述步骤4中Backbone包括C3和SPP结构，所述C3结构将输入进来的的数据进行分割，一部分参与denseNet操作，另外一部分与上一步处理后得到的特征图像进行拼接，经过一次卷积得到输出结果；所述SPP结构中padding和步长，将3个并行的最大池化替换为串行，并且池化核全部修改为一样大小。

5.根据权利要求1所述的一种基于深度学习的行人危险行为识别方法，其特征在于，所述步骤4.1中SE-Net模块包括挤压操作、激活操作。

6.根据权利要求5所述的一种基于深度学习的行人危险行为识别方法，其特征在于，所述挤压操作具体为：给定一个输入U，U∈R^H*W*C通过挤压操作得到一个输出Z，Z∈R^1*1*C，挤压操作采用全局池化将每个通道上对应的空间信息压缩到对应通道中，其数值变为1个数值，此时1个像素表示一个通道，最终维度变成1*1*C，具体公式为：

表示特定输入值。

7.根据权利要求6所述的一种基于深度学习的行人危险行为识别方法，其特征在于，所述激活操作具体为：将挤压操作输出的Z，Z∈R^1*1*C，经过两个全连接层，将两个全连接层增加非线性能力并实现跨通道之间的交互作用，由ReLU函数激活，再由全连接层生成原始特征维度，然后通过Sigmoid函数将其转换为从0到1的归一化权重，将加权后的特征图输入到下一层网络中，公式如下所示：

其中，s为激活操作输出的权重值，

是ReLU激活函数，

表示非线性单元输入值。

8.根据权利要求1所述的一种基于深度学习的行人危险行为识别方法，其特征在于，所述步骤4.2小目标检测层yolov5s-STD使用上下文特征融合结构，在颈部网络的第17层，对特征图进行上采样操作，使特征图继续扩展，在第20层，将颈部网络得到的特征图与主干网络提取的特征图进行融合，在第31层增加预测段的小目标监测层，对输出的特征图共使用了四个检测层。