CN112258426B

CN112258426B - 一种基于Mask RCNN的脚手架图像自动倾斜校正的方法

Info

Publication number: CN112258426B
Application number: CN202011360792.5A
Authority: CN
Inventors: 陈国栋; 黄宏安; 王翠瑜; 佘明磊; 蔡伟斌
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-05-24
Anticipated expiration: 2040-11-27
Also published as: CN112258426A

Abstract

本发明涉及一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，可以利用Mask RCNN网络定位到脚手架区域，提取出脚手架所在区域,剔除了绝大部分背景的干扰，要想得到用于透视变换所需要的4个脚手架角点信息,需要在Mask RCNN结果的基础上进一步处理，本发明通过二值化Mask RCNN所识别的掩膜图像部分，再通过SUSAN角点检测算子，识别出用于图像透视变换的4个角点坐标，最后将4个角点坐标进行透视变换得到校正过后的脚手架图像，实现脚手架图像的自动倾斜校正。本发明在自动检测手脚架的4个角点坐标的同时保证了很高的检测精度，避免了需要校正的图像数量过多时需要大量人工参与图像校正，大大降低了人工成本，提高了工作效率。

Description

一种基于Mask RCNN的脚手架图像自动倾斜校正的方法

技术领域

本发明涉及图像处理领域，特别是一种基于Mask RCNN的脚手架图像自动倾斜校正的方法。

背景技术

脚手架是进行建筑工程施工必不可少的装备和手段，如果不按标准进行搭设，就会留下安全隐患有可能还会造成事故。人工检查手脚架的搭设距离不仅耗时耗力，更是会对检查人员的生命安全造成威胁，因此通过相机所拍摄回来的脚手架图片来检查脚手架是否搭设规范是非常有必要的，但是通过照片对脚手架搭设规范进行检测对脚手架图像拍摄角度要求很高，现有的技术主要是先对图像进行预处理，例如二值化等，接着通过Hough等直线检测算法提取出脚手架，但是实验证明传统算法直接对脚手架进行提取容易将脚手架以外的也识别到，误识别率过高，同时这类方法对于一些光线较暗、雨天等复杂环境识别准确率较低，抗干扰能力差。

发明内容

有鉴于此，本发明的目的是提供一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，实现自动对脚手架图像进行倾斜校正，准确率高、抗干扰能力强。

本发明采用以下方案实现：一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，包括以下步骤：

步骤S1：拍摄工地脚手架图像；

步骤S2：对拍摄的工地脚手架图像进行数据增强；

步骤S3：对数据增强之后的图片进行统一标注得到训练数据集；

步骤S4：使用Mask RCNN模型预先在COCO数据集上训练出来的模型参数，模型的参数信息会被保存下来，即读取Mask RCNN在COCO数据集上训练后的模型参数，用COCO数据集训练的模型参数对Mask RCNN模型进行初始化，在此模型参数的基础上开始训练Mask RCNN模型；

步骤S5：判断模型精度是否达到要求即判断训练过程损失函数Loss的值是否小于0.2，若小于0.2说明模型达到精度要求则继续执行步骤S6，否则继续训练；

步骤S6：将待检测的脚手架图像输入训练好的Mask RCNN模型之中，输出的图像应包含模型所定位的脚手架定位框以及脚手架掩膜图像；

步骤S7：由于脚手架掩膜图像与背景有明显差异，因此对训练好的Mask RCNN 模型所提取的出的脚手架掩膜图像进行二值化处理，即采用基于传统的RGB颜色模型提取方法进行二值化处理；再通过SUSAN角点检测算法对二值化后的图像进行角点检测；

步骤S8：经SUSAN角点检测算子检测得到脚手架4个角点信息对应透视变换时输入的4个坐标点，将待检测的脚手架图像进行透视变换，得到校正后的脚手架图像。

进一步地，步骤S2中所述进行数据增强的具体内容为：通过随机调整图像的对比度以及亮度，所述图像的对比度以及亮度的取值范围均为-100-100，对比度和亮度的初始值为0，对将调整完亮度对比度的图像进行包括翻转、旋转、加入高斯噪声和随机裁剪的方式对图像进行处理，完成数据增强。

进一步地，步骤S3中对数据增强之后的图片采用Labelme标注工具标注出图像中脚手架的位置区域，标注信息包括脚手架定位框的位置信息、Mask分类信息，标注后保存为json文件。

进一步地，步骤S4中所述训练Mask RCNN模型的具体内容为：

采用ResNet作为Mask RCNN模型的特征提取网络，具体训练Mask RCNN模型的具体过程为：首先，输入图像；将整张图片输入卷积神经网络，进行特征提取；r然后，用特征金字塔生成建议窗口(proposals)，每张图片生成N个建议窗口；把建议窗口映射到卷积神经网络的最后一层卷积特征图上；通过RoI Align层使每个RoI生成固定尺寸的特征图；最后，利用全连接分类，边框，mask进行回归；

在模型训练过程中,经数据增强后一共有5428张脚手架数据集，将数据集按照8：1：1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用 Adam 算法进行网络优化,学习率设置为 0.0001。

进一步地，步骤S5中所述的训练过程损失函数Loss具体如下：

Mask RCNN的损失函数为：

其中，

其中

其中

表示预测为目标的概率,

用0和1表示是否为真实目标，

表示第 i预测结果的中心点坐标，为真实的中心点坐标

，

和

分别代表预测目标和真实目标的宽高，

为真实Mask大小，

为预测Mask大小。

进一步地，步骤S8中所述将待检测的脚手架图像进行透视变换的具体过程为：透视变换的变换公式为：

通过透视变换后得到的图片坐标x,y，其中

为透视变换矩阵

经过变换后x和y的表达式为：

其中u,v为原始图像坐标点，因为透视变换矩阵有8个参数，因此需要4个坐标对才能求解透视变换矩阵，若4个角点坐标分别为

、

、

、

与之对应变换后的四个点坐标分别为

、

、

、

；

根据上面公式和对应的四个点坐标得下面的方程式：

得到透视变换矩阵后，调用opencv库中的warpPerspective函数就实现对图像的透视变换，得到校正后的脚手架图像。

与现有技术相比，本发明具有以下有益效果：

图像校正是人为手动选取图像的4个角点进行透视变换达到图像校正的效果。传统的方法是通过对图像进行二值化以及Hough等直线检测算法提取出脚手架，此类方法无法准确定位到脚手架区域因此无法达到自动对脚手架图像进行倾斜校正的目的，本发明在自动检测手脚架的4个角点坐标的同时保证了很高的检测精度，避免了需要校正的图像数量过多时需要大量人工参与图像校正，大大降低了人工成本，提高了工作效率。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的脚手架识别检测模型框架。

图3为本发明实施例的Mask RCNN模型识别效果图。

图4为本发明实施例的对模型所识别的分割掩码图通过透视变换的效果图。

图5 为Mask RCNN 整体网络结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1、2所示，本实施例提供一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，包括以下步骤：

步骤S1：拍摄工地脚手架图像；

步骤S2：对拍摄的工地脚手架图像进行数据增强；

步骤S2中所述进行数据增强的具体内容为：通过随机调整图像的对比度以及亮度，所述图像的对比度以及亮度的取值范围均为-100-100，对比度和亮度的初始值为0，对将调整完亮度对比度的图像进行包括翻转、旋转、加入高斯噪声和随机裁剪的方式对图像进行处理，完成数据增强。

（对比度和亮度的初始值为0，可以在-100-100之间调整，对每一张图像的对比度与亮度选一个值进行调整即可，取的值可以从-100-100）

在本实施例中，步骤S3中对数据增强之后的图片采用Labelme标注工具标注出图像中脚手架的位置区域，标注信息包括脚手架定位框的位置信息、Mask分类信息，标注后保存为json文件。

在本实施例中，步骤S4中所述训练Mask RCNN模型的具体内容为：

在模型训练过程中,经数据增强后一共有5428张脚手架数据集，将数据集按照8：1：1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用 Adam 算法进行网络优化,学习率设置为 0.0001，计算Loss的值如果Loss的值已经低于0.2提前结束训练。

在本实施例中，步骤S5中所述的训练过程损失函数Loss具体如下：

Mask RCNN的损失函数为：

其中，

其中

其中

表示预测为目标的概率,

用0和1表示是否为真实目标，

表示第 i预测结果的中心点坐标，为真实的中心点坐标

，

和

分别代表预测目标和真实目标的宽高，

为真实Mask大小，

为预测Mask大小。

在本实施例中，步骤S8中所述将待检测的脚手架图像进行透视变换的具体过程为：透视变换的变换公式为：

通过透视变换后得到的图片坐标x,y，其中

为透视变换矩阵

经过变换后x和y的表达式为：

、

、

、

与之对应变换后的四个点坐标分别为

、

、

、

；

根据上面公式和对应的四个点坐标得下面的方程式：

较佳的，在本实施例中，步骤S4也可描述为采用基于模型参数的迁移，将一个通过COCO 数据集训练好的Mask RCNN 通用图像分类网络模型作为预训练模型；

具体含义如下：模型指的是Mask RCNN模型，模型参数的迁移的目的是为了减少训练的时间，Mask RCNN初始的模型参数是随机的，如果从头开始训练一个模型需要大量的时间，使用迁移学习的意思是使用之前Mask RCNN预先在COCO数据集上训练出来的模型参数，模型的参数信息会被保存下来，在继续训练Mask RCNN模型的话，只需读取之前保存的模型参数信息在这基础上继续训练；

COCO数据集是现有的公开数据集，正常从头开始训练Mask RCNN它的模型参数是随机的，训练模型就是不断调整模型参数的过程，本实施例对于模型参数的初始化是采用Mask RCNN 预先在COCO数据集训练的参数，Mask RCNN在COCO数据集已经学习了一部分特征，不会把背景也检测出来，本实施例训练的模型就是在COCO数据集训练出来的模型的基础上进一步训练对模型参数进行微调。

较佳的，在本实施例中，步骤S1中所拍摄的工地脚手架图像大小为1200x1200像素，步骤S3采用labelme标注工具标注出图像中脚手架的位置区域，标注信息包括脚手架定位框的位置信息、Mask分类信息，标注后保存为json文件，步骤S2是通过调整图像的对比度以及亮度，在将调整完亮度对比度的图像进行翻转、旋转、加入高斯噪声、随机裁剪等方式对图像进行处理，由于Mask R-CNN 网络的参数庞大，若需要针对脚手架识别训练获得较为理想的模型参数，则需要消耗大量的时间进行训练，时间成本巨大，步骤S4本发明采用迁移学习来帮助脚手架Mask RCNN模型进行训练，具体为读取Mask RCNN在COCO数据集上训练后的模型参数，用COCO数据集训练的模型参数对Mask RCNN模型进行初始化，在此模型参数的基础上继续训练调整模型参数，节约训练时间成本。步骤S8透视变换的基本原理为:成像时假设观察点和物体是固定的,通过对物体所在的成像面进行旋转,形成物体在成像面上的正视图;这样问题转化成一个平面上物体的像到另一个平面上物体的像的变换,变换前图像上任一像素坐标

，经过透视变换后得到新的像素坐标

二维图像经过透视变换成为另外一个平面图像，透视变换的通用变换公式为：

通过透视变换后得到的图片坐标x,y，其中

为透视变换矩阵

经过变换后x和y的表达式为

、

、

、

与之对应变换后的四个点坐标分别为

、

、

、

。

根据上面公式和对应的四个点坐标可得下面的方程式：

图1示出了根据本发明的实施例基于Mask RCNN的脚手架图像倾斜校正方法的流程示意图:该方法包括：

训练Mask RCNN模型，首先要确定Mask RCNN的主干架构，通常情况下主干架构会利用1种或多种常用的卷积神经网络对训练图像进行特征提取，选取主干网络是整个MaskRCNN的基础部分，常见的卷积神经网络有LeNet、AlexNet、VggNet、ResNet，不同的深度学习网络对不同的物体的特征提取效果不一，图5示出了Mask RCNN整体网络结构图，本发明采用ResNet作为Mask RCNN模型的特征提取网络，具体训练Mask RCNN模型的具体过程为：1）输入图像；2）将整张图片输入卷积神经网络，进行特征提取3）用特征金字塔生成建议窗口(proposals)，每张图片生成N个建议窗口；4）把建议窗口映射到卷积神经网络的最后一层卷积特征图上；5）通过RoI Align层使每个RoI生成固定尺寸的特征图；6）最后利用全连接分类，边框，mask进行回归。

在模型训练过程中,经数据增强后一共有5428张脚手架数据集，将数据集按照8：1：1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用 Adam 算法进行网络优化,学习率设置为 0.0001，如果Loss的值已经低于0.2提前结束训练。

为了定量的评价脚手架Mask RCNN模型的综合性能，本实施例分别采用平均查全率（mRecall）、平均查准率（mPrecision）、平均准确率（mAP）对测试集图像进行评价。其中k为随机选取的k组测试图像，P_ij为测试的准确率，P_ii为正确提取的准确率。

其中TP(True Positive)代表本实施例算法检测到手脚架和人工有标注到手脚架。FN(False Negative)代表本实施例算法未检测到脚手架而人工有标注脚手架。 FP(FalsePositive)代表本实施例算法算法能检测到脚手架而人工未标注脚手架。实验结果表明训练出来的Mask RCNN脚手架模型mAP值达到87.31%，mReacll值达到90.06%，mPrecision值91.25%。

通过Mask RCNN模型我们可以大致检测到脚手架在图像的所在区域，要想得到用于透视变换所需要的4个脚手架角点信息,还需要在Mask RCNN结果的基础上进一步处理，本实施例通过将脚手架掩膜图像进行二值化处理，因为掩膜区域被Mask RCNN标注为红色，因此可以通过二值化很容易的将该区域标注出来，最后在通过SUSAN角点检测算法对二值化后的图像进行角点检测，得到我们所需要的脚手架图片的4个角点坐标，最后将4个角点坐标进行透视变换得到校正过后的脚手架图像，实现脚手架图像的自动倾斜校正。

较佳的，本实施例提供的方法可以利用Mask RCNN网络定位到脚手架区域，大概提取出脚手架所在区域,剔除了绝大部分背景的干扰，要想得到用于透视变换所需要的4个脚手架角点信息,需要在Mask RCNN结果的基础上进一步处理，本发明通过二值化Mask RCNN所识别的掩膜图像部分，再通过SUSAN角点检测算子，识别出用于图像透视变换的4个角点坐标，最后将4个角点坐标进行透视变换得到校正过后的脚手架图像，实现脚手架图像的自动倾斜校正。现有技术虽然可以检测出角点坐标但是误识别率过高不适合用于图像自动倾斜校正，本发明在自动检测手脚架的4个角点坐标的同时保证了很高的检测精度，避免了需要校正的图像数量过多时需要大量人工参与图像校正，大大降低了人工成本，提高了工作效率。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，其特征在于：包括以下步骤：

步骤S1：拍摄工地脚手架图像；

步骤S2：对拍摄的工地脚手架图像进行数据增强；

2.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，其特征在于：步骤S2中所述进行数据增强的具体内容为：通过随机调整图像的对比度以及亮度，所述图像的对比度以及亮度的取值范围均为-100-100，对比度和亮度的初始值为0，对将调整完亮度对比度的图像进行包括翻转、旋转、加入高斯噪声和随机裁剪的方式对图像进行处理，完成数据增强。

3.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，其特征在于：步骤S3中对数据增强之后的图片采用Labelme标注工具标注出图像中脚手架的位置区域，标注信息包括脚手架定位框的位置信息、Mask分类信息，标注后保存为json文件。

4.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，其特征在于：步骤S4中所述训练Mask RCNN模型的具体内容为：

采用ResNet作为Mask RCNN模型的特征提取网络，具体训练Mask RCNN模型的具体过程为：首先，输入图像；将整张图片输入卷积神经网络，进行特征提取；r然后，用特征金字塔生成建议窗口，每张图片生成N个建议窗口；把建议窗口映射到卷积神经网络的最后一层卷积特征图上；通过RoI Align层使每个RoI生成固定尺寸的特征图；最后，利用全连接分类，边框，mask进行回归；

在模型训练过程中,经数据增强后一共有5428张脚手架数据集，将数据集按照8：1：1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用Adam 算法进行网络优化,学习率设置为 0.0001。

5.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法，其特征在于：步骤S5中所述的训练过程损失函数Loss具体如下：

Mask RCNN的损失函数为：