CN112084984A

CN112084984A - 一种基于改进的Mask RCNN的扶梯动作检测方法

Info

Publication number: CN112084984A
Application number: CN202010967639.2A
Authority: CN
Inventors: 刘猛; 高宏; 沈茂东; 焦洋; 陈剑飞; 宋晓东; 何成; 韩鹏; 付新阳; 刘成明; 朱坤双; 苏彪; 裴健
Original assignee: State Grid Shandong Electric Power Co Ltd; Shandong Luneng Software Technology Co Ltd
Current assignee: State Grid Shandong Electric Power Co Ltd; Shandong Luneng Software Technology Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-15

Abstract

本发明公开了一种基于改进的Mask RCNN的扶梯动作检测方法，包括：获取原始图像，对原始图像进行预处理，利用改进的Mask RCNN检测输出原始图像中单梯识别区域和人体关键点区域，改进的Mask RCNN包括把人体关键点检测的分支加入到原Mask RCNN中，既能实现原始图像中单梯识别的语义分割，又能对人体关键点进行检测；检测时以模型输出的人体关键点区域中心的像素坐标为圆心，以10个像素为半径，建立一个圆形区域，若语义分割后的单梯区域的像素值落在此圆的区域中，便可判定存在扶梯动作；否则，便可得出不存在扶梯动作。本发明将深度学习技术、机器学习技术和图片处理技术相结合，提高了扶梯动作识别的效果可大大提高检测效率的同时保证测量结果的准确可靠性。

Description

一种基于改进的Mask RCNN的扶梯动作检测方法

技术领域

本发明涉及图像识别与处理技术领域，具体为一种基于改进的Mask RCNN的扶梯动作检测方法。

背景技术

在电网的安全生产工作过程中，保证工人的人身安全显得尤为重要。当相关工作人员爬单梯时，另外的相关人员必须扶住单梯，确保在单梯上工作的人员的安全。但是，每年全国因为没有相关工作人员扶住单梯导致人员摔伤的事件时有发生，造成了不必要的损失。因此，及时准确地发现是否有扶梯动作，然后采取相应的提醒措施，具有十分重要的意义。

近年来，随着深度学习的兴起，利用它对目标进行检测和关键点的识别也越来越普及，基于深度学习的目标检测算法，减少了人的干预，它能够自动提取出目标的各种特征，有利于物体的识别与检测。利用深度神经网络进行相关物体的语义分割，增加了物体检测的准确性。SSD既采用了YOLO检测算法中回归边界框和分类概率的方法，又使用了FasterRCNN中的anchor来对物体进行检测，它虽然识别速度快，但是检测准确率较低。Mask RCNN是基于Faster RCNN架构提出的卷积神经网络，在Faster RCNN的基础上添加了mask分支，同时实现了物体检测、实例分割、关键点检测三个功能。它具有较高的检测精度，能够实现对像素的分类，在实际应用中具有广泛的应用价值。因此本发明对Mask RCNN神经网路进行改进，对输出结果进行后处理，最后判断出是否有扶梯动作的发生，确保工作人员的人身安全。

发明内容

本发明公开了一种一种基于改进的Mask RCNN的扶梯动作检测方法，它解决了现有技术中扶梯动作检测效果不理想的问题，在提高检测效率的同时可保证较高的检测精度，所采用的技术方案如下：

一种基于改进的Mask RCNN的扶梯动作检测方法，所述方法包括：

获取终端设备捕获到的原始图像；

对原始图像进行预处理，包括对原始图像进行随机旋转；随机改变图像对比度；对原始图像添加噪声；随机对图像进行剪切，使用图像像素均值填充其他像素，使图片扩到600x600,最后再对图像进行镜像翻转操作；

利用改进的Mask RCNN检测输出原始图像中单梯区域和人体关键点区域，优选的，人体关键点为人手部位，所述改进的Mask RCNN包括把人体关键点检测的分支加入到原Mask RCNN中，这样改进的Mask RCNN模型既能实现原始图像中单梯识别的语义分割，又能对人体关键点进行检测；

对单梯识别区域和人体关键点区域进行联合判断，并输出扶梯姿态识别结果，所述联合判断包括以模型输出的人体关键点检测中关键点区域中心的像素坐标为圆心，以多个像素单位为半径，优选的以10个像素单位为半径，建立一个圆形区域，若语义分割后的单梯区域的像素值落在此圆的区域中，便可判定工作人员存在扶梯动作；若语义分割后的单梯的像素值没有落在此圆的区域内，便可得出不存在扶梯动作。

在上述技术方案的基础之上，所述对原始图像进行预处理具体为：

对所有原始图像进行0-360度的随机旋转和改变对比度，对图像添加不同程度的高斯噪声和椒盐噪声。

在上述技术方案的基础之上，所述改进的Mask RCNN具体包括：

在RPN网络的后面，添加回归人体关键点检测的分支，与类别分类分支、边框回归分支和mask分支并列，改进的Mask RCNN可在一个神经网络中实现语义分割和关键点检测两项功能。

有益效果

本发明中涉及的扶梯动作检测方法将深度学习技术和图像处理技术相结合，采用改进的Mask RCNN可同时实现单梯区域检测和人体关键点区域检测，减少了模型个数，提高了算法的执行效率，其中模型显存占用和推理的时间减少了50％，提高了算法的执行效率，实现了端到端的推理过程。

本发明中通过分析单梯区域的像素点是否位于以人体关键点区域的像素中心点为圆心的圆形区域内，来判断是否有扶梯动作发生。相比于直接将有扶梯动作的图像和没有扶梯动作的图像分类对比，这种方法更具有鲁棒性和简洁性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一种实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1：本发明中基于改进的Mask RCNN的扶梯动作检测方法的总体流程图；

图2：本发明中改进的Mask RCNN的网格结构图；

具体实施方式

下面结合附图和实例对本发明作进一步说明：

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明涉及一种基于改进的Mask RCNN的扶梯动作检测方法，首先对其中涉及到的名词做解释说明：

MASK R-CNN深度神经网络模型：Mask R-CNN是实例分割的经典模型，Mask R-CNN是ICCV 2017的best paper，彰显了机器学习计算机视觉领域在2017年的最新成果。MaskR-CNN是一个非常灵活的框架，可以增加不同的分支完成不同的任务，例如，可以完成目标分类、目标检测、语义分割、实例分割、人体姿势识别等多种任务。Mask R-CNN算法步骤包括：首先，输入一幅你想处理的图片，然后进行对应的预处理操作，或者预处理后的图片；然后，将其输入到一个预训练好的神经网络中(ResNeXt等)获得对应的特征图(feature map)；接着，对这个特征图中的每一点设定预定个的感兴趣区域(ROI)，从而获得多个候选的感兴趣区域；接着，将这些候选的感兴趣区域送入RPN网络进行二值分类(前景或背景)和BB回归，过滤掉一部分候选的感兴趣区域；接着，对这些剩下的感兴趣区域进行ROIAlign操作(即先将原图和特征图的pixel对应起来，然后将特征图和固定的特征对应起来)；最后，对这些感兴趣区域进行分类(N类别分类)、BB回归和MASK生成(在每一个感兴趣区域里面进行FCN操作)。

语义分割：语义分割是一种典型的计算机视觉问题，其涉及将一些原始数据(例如，平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。许多人使用术语全像素语义分割(full-pixel semantic segmentation)，其中图像中的每个像素根据其所属的感兴趣对象被分配类别ID。早期的计算机视觉问题只发现边缘(线条和曲线)或渐变等元素，但它们从未完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起来解决这个问题从而扩展了其应用领域。

如图1所示，所述方法包括：

获取终端设备捕获到的原始图像；

对原始图像进行预处理，对所有原始图像进行0-360度的随机旋转和改变对比度，对图像添加不同程度的高斯噪声和椒盐噪声；随机对图像进行剪切，使用图像像素均值填充其他像素，使图片扩到600x600,最后再对图像进行镜像翻转操作；

改进后的Mask RCNN模型网络结构如图2所示，在RPN网络的后面，添加回归人体关键点检测的分支，其中人体关键点定义为人手部位，回归人体关键点检测的分支与类别分类分支、边框回归分支和mask分支并列，相比于原先需要两个神经网络才可以实现语义分割和关键点检测两项功能，改进的Mask RCNN可在一个神经网络中实现语义分割和关键点检测两项功能，且具有同样的检测效果。

即利用改进的Mask RCNN检测输出原始图像中单梯识别区域和人体关键点区域，所述改进的Mask RCNN包括把人体关键点检测的分支加入到原Mask RCNN中，这样改进的Mask RCNN模型既能实现原始图像中单梯识别的语义分割，又能对人体关键点进行检测；

之后对单梯识别区域和人体关键点区域进行联合判断，并输出扶梯姿态识别结果，所述联合判断包括以模型输出的人体关键点检测中关键点区域中心的像素坐标为圆心，以10个像素为半径，建立一个圆形区域，若语义分割后的单梯区域的像素值落在此圆的区域中，便可判定工作人员存在扶梯动作；若语义分割后的单梯的像素值没有落在此圆的区域内，便可得出不存在扶梯动作。

上面以举例方式对本发明进行了说明，但本发明不限于上述具体实施例，凡基于本发明所做的任何改动或变型均属于本发明要求保护的范围。

Claims

1.一种基于改进的Mask RCNN的扶梯动作检测方法，其特征在于，所述方法包括：

获取终端设备捕获到的原始图像；

利用改进的Mask RCNN检测输出原始图像中单梯识别区域和人体关键点区域，所述改进的Mask RCNN包括把人体关键点检测的分支加入到原Mask RCNN中，这样改进的MaskRCNN模型既能实现原始图像中单梯识别的语义分割，又能对人体关键点进行检测；

对单梯识别区域和人体关键点区域进行联合判断，并输出扶梯姿态识别结果，所述联合判断包括以模型输出的人体关键点检测中关键点区域中心的像素坐标为圆心，以多个像素单位为半径，建立一个圆形区域，若语义分割后的单梯区域的像素值落在此圆的区域中，便可判定工作人员存在扶梯动作；若语义分割后的单梯的像素值没有落在此圆的区域内，便可得出不存在扶梯动作。

2.根据权利要求1所述的基于改进的Mask RCNN的扶梯动作检测方法，其特征在于，所述对原始图像进行预处理具体为：

3.根据权利要求2所述的基于改进的Mask RCNN的扶梯动作检测方法，其特征在于，所述改进的Mask RCNN具体包括：

4.根据权利要1-3中任一所述的基于改进的Mask RCNN的扶梯动作检测方法，其特征在于，所述人体关键点为人手部位。

5.根据权利要求4所述的基于改进的Mask RCNN的扶梯动作检测方法，其特征在于，所述联合判断包括以模型输出的人体关键点检测中关键点区域中心的像素坐标为圆心，以10个像素单位为半径，建立一个圆形区域，若语义分割后的单梯区域的像素值落在此圆的区域中，便可判定工作人员存在扶梯动作；若语义分割后的单梯的像素值没有落在此圆的区域内，便可得出不存在扶梯动作。