CN112258426B - 一种基于Mask RCNN的脚手架图像自动倾斜校正的方法 - Google Patents

一种基于Mask RCNN的脚手架图像自动倾斜校正的方法 Download PDF

Info

Publication number
CN112258426B
CN112258426B CN202011360792.5A CN202011360792A CN112258426B CN 112258426 B CN112258426 B CN 112258426B CN 202011360792 A CN202011360792 A CN 202011360792A CN 112258426 B CN112258426 B CN 112258426B
Authority
CN
China
Prior art keywords
scaffold
image
mask
model
mask rcnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011360792.5A
Other languages
English (en)
Other versions
CN112258426A (zh
Inventor
陈国栋
黄宏安
王翠瑜
佘明磊
蔡伟斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011360792.5A priority Critical patent/CN112258426B/zh
Publication of CN112258426A publication Critical patent/CN112258426A/zh
Application granted granted Critical
Publication of CN112258426B publication Critical patent/CN112258426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,可以利用Mask RCNN网络定位到脚手架区域,提取出脚手架所在区域,剔除了绝大部分背景的干扰,要想得到用于透视变换所需要的4个脚手架角点信息,需要在Mask RCNN结果的基础上进一步处理,本发明通过二值化Mask RCNN所识别的掩膜图像部分,再通过SUSAN角点检测算子,识别出用于图像透视变换的4个角点坐标,最后将4个角点坐标进行透视变换得到校正过后的脚手架图像,实现脚手架图像的自动倾斜校正。本发明在自动检测手脚架的4个角点坐标的同时保证了很高的检测精度,避免了需要校正的图像数量过多时需要大量人工参与图像校正,大大降低了人工成本,提高了工作效率。

Description

一种基于Mask RCNN的脚手架图像自动倾斜校正的方法
技术领域
本发明涉及图像处理领域,特别是一种基于Mask RCNN的脚手架图像自动倾斜校正的方法。
背景技术
脚手架是进行建筑工程施工必不可少的装备和手段,如果不按标准进行搭设,就会留下安全隐患有可能还会造成事故。人工检查手脚架的搭设距离不仅耗时耗力,更是会对检查人员的生命安全造成威胁,因此通过相机所拍摄回来的脚手架图片来检查脚手架是否搭设规范是非常有必要的,但是通过照片对脚手架搭设规范进行检测对脚手架图像拍摄角度要求很高,现有的技术主要是先对图像进行预处理,例如二值化等,接着通过Hough等直线检测算法提取出脚手架,但是实验证明传统算法直接对脚手架进行提取容易将脚手架以外的也识别到,误识别率过高,同时这类方法对于一些光线较暗、雨天等复杂环境识别准确率较低,抗干扰能力差。
发明内容
有鉴于此,本发明的目的是提供一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,实现自动对脚手架图像进行倾斜校正,准确率高、抗干扰能力强。
本发明采用以下方案实现:一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,包括以下步骤:
步骤S1:拍摄工地脚手架图像;
步骤S2:对拍摄的工地脚手架图像进行数据增强;
步骤S3:对数据增强之后的图片进行统一标注得到训练数据集;
步骤S4:使用Mask RCNN模型预先在COCO数据集上训练出来的模型参数,模型的参数信息会被保存下来,即读取Mask RCNN在COCO数据集上训练后的模型参数,用COCO数据集训练的模型参数对Mask RCNN模型进行初始化,在此模型参数的基础上开始训练Mask RCNN模型;
步骤S5:判断模型精度是否达到要求即判断训练过程损失函数Loss的值是否小于0.2,若小于0.2说明模型达到精度要求则继续执行步骤S6,否则继续训练;
步骤S6:将待检测的脚手架图像输入训练好的Mask RCNN模型之中,输出的图像应包含模型所定位的脚手架定位框以及脚手架掩膜图像;
步骤S7:由于脚手架掩膜图像与背景有明显差异,因此对训练好的Mask RCNN 模型所提取的出的脚手架掩膜图像进行二值化处理,即采用基于传统的RGB颜色模型提取方法进行二值化处理;再通过SUSAN角点检测算法对二值化后的图像进行角点检测;
步骤S8:经SUSAN角点检测算子检测得到脚手架4个角点信息对应透视变换时输入的4个坐标点,将待检测的脚手架图像进行透视变换,得到校正后的脚手架图像。
进一步地,步骤S2中所述进行数据增强的具体内容为:通过随机调整图像的对比度以及亮度,所述图像的对比度以及亮度的取值范围均为-100-100,对比度和亮度的初始值为0,对将调整完亮度对比度的图像进行包括翻转、旋转、加入高斯噪声和随机裁剪的方式对图像进行处理,完成数据增强。
进一步地,步骤S3中对数据增强之后的图片采用Labelme标注工具标注出图像中脚手架的位置区域,标注信息包括脚手架定位框的位置信息、Mask分类信息,标注后保存为json文件。
进一步地,步骤S4中所述训练Mask RCNN模型的具体内容为:
采用ResNet作为Mask RCNN模型的特征提取网络,具体训练Mask RCNN模型的具体过程为:首先,输入图像;将整张图片输入卷积神经网络,进行特征提取;r然后,用特征金字塔生成建议窗口(proposals),每张图片生成N个建议窗口;把建议窗口映射到卷积神经网络的最后一层卷积特征图上;通过RoI Align层使每个RoI生成固定尺寸的特征图;最后,利用全连接分类,边框,mask进行回归;
在模型训练过程中,经数据增强后一共有5428张脚手架数据集,将数据集按照8:1:1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用 Adam 算法进行网络优化,学习率设置为 0.0001。
进一步地,步骤S5中所述的训练过程损失函数Loss具体如下:
Mask RCNN的损失函数为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 100002_DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
Figure 100002_DEST_PATH_IMAGE004
其中
Figure 100002_DEST_PATH_IMAGE005
其中
Figure 100002_DEST_PATH_IMAGE006
表示预测为目标的概率,
Figure 100002_DEST_PATH_IMAGE007
用0和1表示是否为真实目标,
Figure 100002_DEST_PATH_IMAGE008
表示第 i预测结果的中心点坐标,为真实的中心点坐标
Figure 100002_DEST_PATH_IMAGE009
Figure 100002_DEST_PATH_IMAGE010
Figure 100002_DEST_PATH_IMAGE011
分别代表预 测目标和真实目标的宽高,
Figure 100002_DEST_PATH_IMAGE012
为真实Mask大小,
Figure 100002_DEST_PATH_IMAGE013
为预测Mask大小。
进一步地,步骤S8中所述将待检测的脚手架图像进行透视变换的具体过程为:透 视变换的变换公式为:
Figure 100002_DEST_PATH_IMAGE014
通过透视变换后得到的图片坐标x,y,其中
Figure 100002_DEST_PATH_IMAGE015
为透视变换矩阵
经过变换后x和y的表达式为:
Figure 100002_DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE017
其中u,v为原始图像坐标点,因为透视变换矩阵有8个参数,因此需要4个坐标对才 能求解透视变换矩阵,若4个角点坐标分别为
Figure 100002_DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE019
Figure 100002_DEST_PATH_IMAGE020
Figure 100002_DEST_PATH_IMAGE021
与之对 应变换后的四个点坐标分别为
Figure 100002_DEST_PATH_IMAGE022
Figure 100002_DEST_PATH_IMAGE023
Figure 100002_DEST_PATH_IMAGE024
Figure 100002_DEST_PATH_IMAGE025
根据上面公式和对应的四个点坐标得下面的方程式:
Figure 100002_DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE027
Figure 100002_DEST_PATH_IMAGE028
得到透视变换矩阵后,调用opencv库中的warpPerspective函数就实现对图像的透视变换,得到校正后的脚手架图像。
与现有技术相比,本发明具有以下有益效果:
图像校正是人为手动选取图像的4个角点进行透视变换达到图像校正的效果。传统的方法是通过对图像进行二值化以及Hough等直线检测算法提取出脚手架,此类方法无法准确定位到脚手架区域因此无法达到自动对脚手架图像进行倾斜校正的目的,本发明在自动检测手脚架的4个角点坐标的同时保证了很高的检测精度,避免了需要校正的图像数量过多时需要大量人工参与图像校正,大大降低了人工成本,提高了工作效率。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的脚手架识别检测模型框架。
图3为本发明实施例的Mask RCNN模型识别效果图。
图4为本发明实施例的对模型所识别的分割掩码图通过透视变换的效果图。
图5 为Mask RCNN 整体网络结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1、2所示,本实施例提供一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,包括以下步骤:
步骤S1:拍摄工地脚手架图像;
步骤S2:对拍摄的工地脚手架图像进行数据增强;
步骤S3:对数据增强之后的图片进行统一标注得到训练数据集;
步骤S4:使用Mask RCNN模型预先在COCO数据集上训练出来的模型参数,模型的参数信息会被保存下来,即读取Mask RCNN在COCO数据集上训练后的模型参数,用COCO数据集训练的模型参数对Mask RCNN模型进行初始化,在此模型参数的基础上开始训练Mask RCNN模型;
步骤S5:判断模型精度是否达到要求即判断训练过程损失函数Loss的值是否小于0.2,若小于0.2说明模型达到精度要求则继续执行步骤S6,否则继续训练;
步骤S6:将待检测的脚手架图像输入训练好的Mask RCNN模型之中,输出的图像应包含模型所定位的脚手架定位框以及脚手架掩膜图像;
步骤S7:由于脚手架掩膜图像与背景有明显差异,因此对训练好的Mask RCNN 模型所提取的出的脚手架掩膜图像进行二值化处理,即采用基于传统的RGB颜色模型提取方法进行二值化处理;再通过SUSAN角点检测算法对二值化后的图像进行角点检测;
步骤S8:经SUSAN角点检测算子检测得到脚手架4个角点信息对应透视变换时输入的4个坐标点,将待检测的脚手架图像进行透视变换,得到校正后的脚手架图像。
步骤S2中所述进行数据增强的具体内容为:通过随机调整图像的对比度以及亮度,所述图像的对比度以及亮度的取值范围均为-100-100,对比度和亮度的初始值为0,对将调整完亮度对比度的图像进行包括翻转、旋转、加入高斯噪声和随机裁剪的方式对图像进行处理,完成数据增强。
(对比度和亮度的初始值为0,可以在-100-100之间调整,对每一张图像的对比度与亮度选一个值进行调整即可,取的值可以从-100-100)
在本实施例中,步骤S3中对数据增强之后的图片采用Labelme标注工具标注出图像中脚手架的位置区域,标注信息包括脚手架定位框的位置信息、Mask分类信息,标注后保存为json文件。
在本实施例中,步骤S4中所述训练Mask RCNN模型的具体内容为:
采用ResNet作为Mask RCNN模型的特征提取网络,具体训练Mask RCNN模型的具体过程为:首先,输入图像;将整张图片输入卷积神经网络,进行特征提取;r然后,用特征金字塔生成建议窗口(proposals),每张图片生成N个建议窗口;把建议窗口映射到卷积神经网络的最后一层卷积特征图上;通过RoI Align层使每个RoI生成固定尺寸的特征图;最后,利用全连接分类,边框,mask进行回归;
在模型训练过程中,经数据增强后一共有5428张脚手架数据集,将数据集按照8:1:1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用 Adam 算法进行网络优化,学习率设置为 0.0001,计算Loss的值如果Loss的值已经低于0.2提前结束训练。
在本实施例中,步骤S5中所述的训练过程损失函数Loss具体如下:
Mask RCNN的损失函数为:
Figure 83004DEST_PATH_IMAGE001
其中,
Figure 531303DEST_PATH_IMAGE002
Figure 717565DEST_PATH_IMAGE003
Figure 847195DEST_PATH_IMAGE004
其中
Figure 458305DEST_PATH_IMAGE005
其中
Figure 15188DEST_PATH_IMAGE006
表示预测为目标的概率,
Figure 954325DEST_PATH_IMAGE007
用0和1表示是否为真实目标,
Figure 887646DEST_PATH_IMAGE008
表示第 i预测结果的中心点坐标,为真实的中心点坐标
Figure 87683DEST_PATH_IMAGE009
Figure 753151DEST_PATH_IMAGE010
Figure 241901DEST_PATH_IMAGE011
分别代表预 测目标和真实目标的宽高,
Figure 775651DEST_PATH_IMAGE012
为真实Mask大小,
Figure 33457DEST_PATH_IMAGE013
为预测Mask大小。
在本实施例中,步骤S8中所述将待检测的脚手架图像进行透视变换的具体过程 为:透视变换的变换公式为:
Figure 135405DEST_PATH_IMAGE014
通过透视变换后得到的图片坐标x,y,其中
Figure 111451DEST_PATH_IMAGE015
为透视变换矩阵
经过变换后x和y的表达式为:
Figure 183312DEST_PATH_IMAGE016
Figure 233308DEST_PATH_IMAGE017
其中u,v为原始图像坐标点,因为透视变换矩阵有8个参数,因此需要4个坐标对才 能求解透视变换矩阵,若4个角点坐标分别为
Figure 302895DEST_PATH_IMAGE018
Figure 828554DEST_PATH_IMAGE019
Figure 641790DEST_PATH_IMAGE020
Figure 820660DEST_PATH_IMAGE021
与之对 应变换后的四个点坐标分别为
Figure 326728DEST_PATH_IMAGE022
Figure 808525DEST_PATH_IMAGE023
Figure 894292DEST_PATH_IMAGE024
Figure 653301DEST_PATH_IMAGE025
根据上面公式和对应的四个点坐标得下面的方程式:
Figure 330270DEST_PATH_IMAGE026
Figure 299363DEST_PATH_IMAGE027
Figure 392084DEST_PATH_IMAGE028
得到透视变换矩阵后,调用opencv库中的warpPerspective函数就实现对图像的透视变换,得到校正后的脚手架图像。
较佳的,在本实施例中,步骤S4也可描述为采用基于模型参数的迁移,将一个通过COCO 数据集训练好的Mask RCNN 通用图像分类网络模型作为预训练模型;
具体含义如下:模型指的是Mask RCNN模型,模型参数的迁移的目的是为了减少训练的时间,Mask RCNN初始的模型参数是随机的,如果从头开始训练一个模型需要大量的时间,使用迁移学习的意思是使用之前Mask RCNN预先在COCO数据集上训练出来的模型参数,模型的参数信息会被保存下来,在继续训练Mask RCNN模型的话,只需读取之前保存的模型参数信息在这基础上继续训练;
COCO数据集是现有的公开数据集,正常从头开始训练Mask RCNN它的模型参数是随机的,训练模型就是不断调整模型参数的过程,本实施例对于模型参数的初始化是采用Mask RCNN 预先在COCO数据集训练的参数,Mask RCNN在COCO数据集已经学习了一部分特征,不会把背景也检测出来,本实施例训练的模型就是在COCO数据集训练出来的模型的基础上进一步训练对模型参数进行微调。
较佳的,在本实施例中,步骤S1中所拍摄的工地脚手架图像大小为1200x1200像 素,步骤S3采用labelme标注工具标注出图像中脚手架的位置区域,标注信息包括脚手架定 位框的位置信息、Mask分类信息,标注后保存为json文件,步骤S2是通过调整图像的对比度 以及亮度,在将调整完亮度对比度的图像进行翻转、旋转、加入高斯噪声、随机裁剪等方式 对图像进行处理,由于Mask R-CNN 网络的参数庞大,若需要针对脚手架识别训练获得较为 理想的模型参数,则需要消耗大量的时间进行训练,时间成本巨大,步骤S4本发明采用迁移 学习来帮助脚手架Mask RCNN模型进行训练,具体为读取Mask RCNN在COCO数据集上训练后 的模型参数,用COCO数据集训练的模型参数对Mask RCNN模型进行初始化,在此模型参数的 基础上继续训练调整模型参数,节约训练时间成本。步骤S8透视变换的基本原理为:成像时 假设观察点和物体是固定的,通过对物体所在的成像面进行旋转,形成物体在成像面上的 正视图;这样问题转化成一个平面上物体的像到另一个平面上物体的像的变换,变换前图 像上任一像素坐标
Figure DEST_PATH_IMAGE029
,经过透视变换后得到新的像素坐标
Figure DEST_PATH_IMAGE030
二维图像经过透视变 换成为另外一个平面图像,透视变换的通用变换公式为:
Figure DEST_PATH_IMAGE031
通过透视变换后得到的图片坐标x,y,其中
Figure DEST_PATH_IMAGE032
为透视变换矩阵
经过变换后x和y的表达式为
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE034
其中u,v为原始图像坐标点,因为透视变换矩阵有8个参数,因此需要4个坐标对才 能求解透视变换矩阵,若4个角点坐标分别为
Figure 677703DEST_PATH_IMAGE018
Figure 525573DEST_PATH_IMAGE019
Figure 654066DEST_PATH_IMAGE020
Figure 612795DEST_PATH_IMAGE021
与之对 应变换后的四个点坐标分别为
Figure 205450DEST_PATH_IMAGE022
Figure 158975DEST_PATH_IMAGE023
Figure 236083DEST_PATH_IMAGE024
Figure 670607DEST_PATH_IMAGE025
根据上面公式和对应的四个点坐标可得下面的方程式:
Figure 586610DEST_PATH_IMAGE026
Figure 307442DEST_PATH_IMAGE027
Figure 610859DEST_PATH_IMAGE028
图1示出了根据本发明的实施例基于Mask RCNN的脚手架图像倾斜校正方法的流程示意图:该方法包括:
训练Mask RCNN模型,首先要确定Mask RCNN的主干架构,通常情况下主干架构会利用1种或多种常用的卷积神经网络对训练图像进行特征提取,选取主干网络是整个MaskRCNN的基础部分,常见的卷积神经网络有LeNet、AlexNet、VggNet、ResNet,不同的深度学习网络对不同的物体的特征提取效果不一,图5示出了Mask RCNN整体网络结构图,本发明采用ResNet作为Mask RCNN模型的特征提取网络,具体训练Mask RCNN模型的具体过程为:1)输入图像;2)将整张图片输入卷积神经网络,进行特征提取3)用特征金字塔生成建议窗口(proposals),每张图片生成N个建议窗口;4)把建议窗口映射到卷积神经网络的最后一层卷积特征图上;5)通过RoI Align层使每个RoI生成固定尺寸的特征图;6)最后利用全连接分类,边框,mask进行回归。
在模型训练过程中,经数据增强后一共有5428张脚手架数据集,将数据集按照8:1:1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用 Adam 算法进行网络优化,学习率设置为 0.0001,如果Loss的值已经低于0.2提前结束训练。
为了定量的评价脚手架Mask RCNN模型的综合性能,本实施例分别采用平均查全率(mRecall)、平均查准率(mPrecision)、平均准确率(mAP)对测试集图像进行评价。其中k为随机选取的k组测试图像,Pij为测试的准确率,Pii为正确提取的准确率。
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
其中TP(True Positive)代表本实施例算法检测到手脚架和人工有标注到手脚架。FN(False Negative)代表本实施例算法未检测到脚手架而人工有标注脚手架。 FP(FalsePositive)代表本实施例算法算法能检测到脚手架而人工未标注脚手架。实验结果表明训练出来的Mask RCNN脚手架模型mAP值达到87.31%,mReacll值达到90.06%,mPrecision值91.25%。
通过Mask RCNN模型我们可以大致检测到脚手架在图像的所在区域,要想得到用于透视变换所需要的4个脚手架角点信息,还需要在Mask RCNN结果的基础上进一步处理,本实施例通过将脚手架掩膜图像进行二值化处理,因为掩膜区域被Mask RCNN标注为红色,因此可以通过二值化很容易的将该区域标注出来,最后在通过SUSAN角点检测算法对二值化后的图像进行角点检测,得到我们所需要的脚手架图片的4个角点坐标,最后将4个角点坐标进行透视变换得到校正过后的脚手架图像,实现脚手架图像的自动倾斜校正。
较佳的,本实施例提供的方法可以利用Mask RCNN网络定位到脚手架区域,大概提取出脚手架所在区域,剔除了绝大部分背景的干扰,要想得到用于透视变换所需要的4个脚手架角点信息,需要在Mask RCNN结果的基础上进一步处理,本发明通过二值化Mask RCNN所识别的掩膜图像部分,再通过SUSAN角点检测算子,识别出用于图像透视变换的4个角点坐标,最后将4个角点坐标进行透视变换得到校正过后的脚手架图像,实现脚手架图像的自动倾斜校正。现有技术虽然可以检测出角点坐标但是误识别率过高不适合用于图像自动倾斜校正,本发明在自动检测手脚架的4个角点坐标的同时保证了很高的检测精度,避免了需要校正的图像数量过多时需要大量人工参与图像校正,大大降低了人工成本,提高了工作效率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (6)

1.一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,其特征在于:包括以下步骤:
步骤S1:拍摄工地脚手架图像;
步骤S2:对拍摄的工地脚手架图像进行数据增强;
步骤S3:对数据增强之后的图片进行统一标注得到训练数据集;
步骤S4:使用Mask RCNN模型预先在COCO数据集上训练出来的模型参数,模型的参数信息会被保存下来,即读取Mask RCNN在COCO数据集上训练后的模型参数,用COCO数据集训练的模型参数对Mask RCNN模型进行初始化,在此模型参数的基础上开始训练Mask RCNN模型;
步骤S5:判断模型精度是否达到要求即判断训练过程损失函数Loss的值是否小于0.2,若小于0.2说明模型达到精度要求则继续执行步骤S6,否则继续训练;
步骤S6:将待检测的脚手架图像输入训练好的Mask RCNN模型之中,输出的图像应包含模型所定位的脚手架定位框以及脚手架掩膜图像;
步骤S7:由于脚手架掩膜图像与背景有明显差异,因此对训练好的Mask RCNN 模型所提取的出的脚手架掩膜图像进行二值化处理,即采用基于传统的RGB颜色模型提取方法进行二值化处理;再通过SUSAN角点检测算法对二值化后的图像进行角点检测;
步骤S8:经SUSAN角点检测算子检测得到脚手架4个角点信息对应透视变换时输入的4个坐标点,将待检测的脚手架图像进行透视变换,得到校正后的脚手架图像。
2.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,其特征在于:步骤S2中所述进行数据增强的具体内容为:通过随机调整图像的对比度以及亮度,所述图像的对比度以及亮度的取值范围均为-100-100,对比度和亮度的初始值为0,对将调整完亮度对比度的图像进行包括翻转、旋转、加入高斯噪声和随机裁剪的方式对图像进行处理,完成数据增强。
3.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,其特征在于:步骤S3中对数据增强之后的图片采用Labelme标注工具标注出图像中脚手架的位置区域,标注信息包括脚手架定位框的位置信息、Mask分类信息,标注后保存为json文件。
4.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,其特征在于:步骤S4中所述训练Mask RCNN模型的具体内容为:
采用ResNet作为Mask RCNN模型的特征提取网络,具体训练Mask RCNN模型的具体过程为:首先,输入图像;将整张图片输入卷积神经网络,进行特征提取;r然后,用特征金字塔生成建议窗口,每张图片生成N个建议窗口;把建议窗口映射到卷积神经网络的最后一层卷积特征图上;通过RoI Align层使每个RoI生成固定尺寸的特征图;最后,利用全连接分类,边框,mask进行回归;
在模型训练过程中,经数据增强后一共有5428张脚手架数据集,将数据集按照8:1:1的比例划分训练测试集、验证集和测试集, batch size值设置为8,训练100个epoch,利用Adam 算法进行网络优化,学习率设置为 0.0001。
5.根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,其特征在于:步骤S5中所述的训练过程损失函数Loss具体如下:
Mask RCNN的损失函数为:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE005
其中
Figure DEST_PATH_IMAGE006
表示预测为目标的概率,
Figure DEST_PATH_IMAGE007
用0和1表示是否为真实目标,
Figure DEST_PATH_IMAGE008
表示第i预测结果的中心点坐标,为真实的中心点坐标
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
分别代表预测目标和真实目标的宽高,
Figure DEST_PATH_IMAGE012
为真实Mask大小,
Figure DEST_PATH_IMAGE013
为预测Mask大小。
6. 根据权利要求1所述的一种基于Mask RCNN的脚手架图像自动倾斜校正的方法,其特征在于:步骤S8中所述将待检测的脚手架图像进行透视变换的具体过程为:透视变换的变换公式为:
Figure DEST_PATH_IMAGE014
通过透视变换后得到的图片坐标x,y,其中
Figure DEST_PATH_IMAGE015
为透视变换矩阵
经过变换后x和y的表达式为:
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
其中u,v为原始图像坐标点,因为透视变换矩阵有8个参数,因此需要4个坐标对才能求解透视变换矩阵,若4个角点坐标分别为
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
与之对应变换后的四个点坐标分别为
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
根据上面公式和对应的四个点坐标得下面的方程式:
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
得到透视变换矩阵后,调用opencv库中的warpPerspective函数就实现对图像的透视变换,得到校正后的脚手架图像。
CN202011360792.5A 2020-11-27 2020-11-27 一种基于Mask RCNN的脚手架图像自动倾斜校正的方法 Active CN112258426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011360792.5A CN112258426B (zh) 2020-11-27 2020-11-27 一种基于Mask RCNN的脚手架图像自动倾斜校正的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011360792.5A CN112258426B (zh) 2020-11-27 2020-11-27 一种基于Mask RCNN的脚手架图像自动倾斜校正的方法

Publications (2)

Publication Number Publication Date
CN112258426A CN112258426A (zh) 2021-01-22
CN112258426B true CN112258426B (zh) 2022-05-24

Family

ID=74225743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011360792.5A Active CN112258426B (zh) 2020-11-27 2020-11-27 一种基于Mask RCNN的脚手架图像自动倾斜校正的方法

Country Status (1)

Country Link
CN (1) CN112258426B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096068A (zh) * 2021-03-04 2021-07-09 国电常州发电有限公司 一种基于视觉识别的脚手架搭建缺陷识别系统
CN113347330B (zh) * 2021-04-29 2023-05-23 华设设计集团股份有限公司 一种便携式钢桥螺栓脱落损伤识别设备及方法
CN113298767A (zh) * 2021-05-19 2021-08-24 南京大学 一种能克服反光现象的围棋图谱可靠识别方法
CN114723737A (zh) * 2022-05-06 2022-07-08 福州大学 一种基于计算机视觉的工地脚手架间距检测方法
CN115359065B (zh) * 2022-10-24 2023-04-07 广州市玄武无线科技股份有限公司 一种排面图像的倾斜检测方法和装置
CN115482538B (zh) * 2022-11-15 2023-04-18 上海安维尔信息科技股份有限公司 一种基于Mask R-CNN的物料标号提取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705291A (zh) * 2017-09-07 2018-02-16 江苏大学 一种基于图像识别的外脚手架安全性自动检查方法
CN108388873A (zh) * 2018-03-01 2018-08-10 路志宏 一种机器视觉的监管系统、方法及客户机、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10818028B2 (en) * 2018-12-17 2020-10-27 Microsoft Technology Licensing, Llc Detecting objects in crowds using geometric context

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705291A (zh) * 2017-09-07 2018-02-16 江苏大学 一种基于图像识别的外脚手架安全性自动检查方法
CN108388873A (zh) * 2018-03-01 2018-08-10 路志宏 一种机器视觉的监管系统、方法及客户机、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
复杂背景下桥梁路面裂缝检测与分割算法研究;孙瑞赟;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20200615;第C034-516页 *
畸变图像自适应校正及质量增强算法研究与实现;陈忠辉 等;《计算机应用》;20200710;第180-184页 *

Also Published As

Publication number Publication date
CN112258426A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN112258426B (zh) 一种基于Mask RCNN的脚手架图像自动倾斜校正的方法
CN110544251B (zh) 基于多迁移学习模型融合的大坝裂缝检测方法
CN110378950B (zh) 一种基于灰度和梯度融合的隧道结构裂缝识别方法
CN111474184B (zh) 基于工业机器视觉的aoi字符缺陷检测方法和装置
CN107543828B (zh) 一种工件表面缺陷检测方法及系统
CN113658132B (zh) 基于计算机视觉的结构件焊缝检测方法
CN107066933B (zh) 一种道路标牌识别方法及系统
CN112598672A (zh) 一种基于深度学习的路面病害图像分割方法和系统
CN108133216B (zh) 基于机器视觉的可实现小数点读取的数码管读数识别方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
CN112258490A (zh) 基于光学和红外图像融合的低发射率涂层智能探损方法
CN111242026A (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN116862910B (zh) 基于自动化裁切生产的视觉检测方法
CN112884782A (zh) 生物对象分割方法、装置、计算机设备和存储介质
CN111178405A (zh) 一种融合多种神经网络的相似物体识别方法
CN111444916A (zh) 面向无约束条件下的车牌定位及识别方法、系统
CN115049689A (zh) 一种基于轮廓检测技术的乒乓球识别方法
CN113177947B (zh) 基于多模块卷积神经网络的复杂环境目标分割方法及装置
CN104408430B (zh) 一种车牌定位方法及装置
CN114758139B (zh) 基坑积水检测方法
CN115690770A (zh) 基于空间注意力特征的非受限场景下的车牌识别方法
CN114943738A (zh) 一种基于视觉识别的传感器封装固化胶缺陷识别方法
CN112801013B (zh) 一种基于关键点识别校验的人脸识别方法、系统及装置
CN111583341B (zh) 云台像机移位检测方法
CN105184244B (zh) 视频人脸检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant