CN115457412A - 一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法 - Google Patents

一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法 Download PDF

Info

Publication number
CN115457412A
CN115457412A CN202211063469.0A CN202211063469A CN115457412A CN 115457412 A CN115457412 A CN 115457412A CN 202211063469 A CN202211063469 A CN 202211063469A CN 115457412 A CN115457412 A CN 115457412A
Authority
CN
China
Prior art keywords
layer
crack
anchor
network
faster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211063469.0A
Other languages
English (en)
Inventor
曹茂森
付荣华
王捷
苏玛拉·德拉戈斯拉夫
朱凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Jiangsu Dongjiao Intelligent Control Technology Group Co ltd
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Dongjiao Intelligent Control Technology Group Co ltd, Hohai University HHU filed Critical Jiangsu Dongjiao Intelligent Control Technology Group Co ltd
Priority to CN202211063469.0A priority Critical patent/CN115457412A/zh
Publication of CN115457412A publication Critical patent/CN115457412A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于Faster‑rIR7‑EC的混凝土裂缝快速识别方法,涉及混凝土损伤检测技术领域。该方法改进传统倒残差结构,提出倒残差结构与ECA注意力机制相结合的InvertedResidual‑ECA结构,再通过7个InvertedResidual‑ECA结构和CBAM等机器视觉算法构建Faster‑rcnn特征提取层,完成Faster‑rIR7‑EC裂缝识别网络搭建,输出混凝土裂缝在图像中的位置和类型。Faster‑rIR7‑EC网络模型自动、快速、精准识别图像中混凝土裂缝。同计算机视觉通用Faster‑rcnn网络相比,本发明避免了通用网络的参数冗余、长训练时间、硬件内存占用高等的弊端,具有网络模型参数量量小,训练收敛速度快,识别混凝土裂缝准确率高等特色和优势,构成从混凝土图像大数据中智能高效裂缝提供了一种专用模型,具有显著的工程应用潜力。

Description

一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法
技术领域
本发明涉及混凝土视觉损伤识别技术领域,具体涉及一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法。
背景技术
混凝土作为最常用的建筑材料被广泛应用于房屋、桥梁等基础设施建设,然而在基础设施运营期间会产生裂缝,影响其安全性,为了避免裂缝扩展带来的结构坍塌风险,混凝土裂缝损伤检测是十分必要的。
随着无人机技术和无线传输技术的发展,使大体积混凝土的海量数据高效获取成为了可能,为发展智能识别提供了基础。与传统的结构损伤检测方法相比,采用机器视觉技术的裂缝检测避免了人工检测耗时费力而无法频繁检测,具有主观性的问题。但是通用网络为了满足各领域的识别需求,往往具有庞大的体量。在深度学习网络进行混凝土裂缝识别时,裂缝类型仅十余种,通用网络体量大、训练时间长,硬件需求高。有必要发展轻量化网络,搭建收敛速度快,识别mAP(平均精度)高的混凝土裂缝专用深度学习目标识别算法。
发明内容
为解决上述问题,本发明提供一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法。
为实现上述目的,本发明提供了如下的技术方案。
一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,包括以下步骤:
搭建Faster-rIR7-EC网络模型;所述Faster-rIR7-EC网络模型包括依次连接的IR7-EC特征提取层、区域生成网络RPN、ROI Head和后处理层;
其中,所述IR7-EC特征提取层包括依次连接的卷积层、7个Inverted Residual-ECA结构、CBAM注意力机制;所述Inverted Residual-ECA结构为倒残差结构与ECA注意力机制相连接构成;所述ROI Head包括ROI pooling、全连接层和postprocess detections;
采集待识别的裂缝图像,通过IR7-EC特征提取层,对裂缝图像在通道和空间层面进行特征提取,获得蕴含裂缝信息的特征提取图;
将特征提取图输入区域生成网络RPN中,在特征提取图上生成候选框,并确定候选框内包含的裂缝和背景;将RPN生成的候选框投影到IR7-EC输出的特征图上获得相应的特征矩阵;
将每个特征矩阵通过ROI Head,输出混凝土裂缝在特征图中的位置和类型;
通过后处理层将混凝土裂缝在特征图中的位置和类型投影回实际裂缝图像,获得实际混凝土裂缝位置和类型。
优选地,还包括:对所述Faster-rIR7-EC网络模型进行训练,包括以下步骤:
采集裂缝图像,建立裂缝类型识别图像数据集,其中,裂缝图像数据集包括裂缝识别图像训练集和验证集;
对裂缝图像数据集进行归一化处理:遍历所有裂缝图像,找到高度与宽度最大的图像,以最大宽高为模板,其他所有图像左上角与模板对齐,右侧与下侧大小不足的位置补0直至与模板等大,使得输入图像分辨率统一与模板一致;
将归一化处理后的图像数据集输入到Faster-rIR7-EC网络模型中获得识别结果;
将识别结果与训练集的真实结果对比,将损失带入优化函数,更新网络参数,直到网络拟合;其中,损失包括RPN损失和ROI Head损失。
优选地,所述IR7-EC特征提取层的搭建,具体包括以下步骤:
建立依次连接的10层网络框架;
第1层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长2,输入通道3,输出通道数16;
第2层到第8层为Inverted Residual-ECA结构,包括三部分:
第一部分包括卷积核1×1大小的卷积层、Batch normalization归一化层和ReLU6激活函数,第二部分包括卷积核3×3大小的卷积层、Batch normalization归一化层和ReLU6激活函数,第三部分为ECA注意力机制,结构包括平均池化层、卷积核1×1大小卷积层和Sigmoid函数,第四部分结构包括卷积核1×1大小的卷积层、Batch normalization归一化层和线性激活函数;
第9层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长1,输入通道96,输出通道数96;
第10层为CBAM注意力机制,包括两部分:
第一部分为通道注意力机制,包括平均池化层、最大池化层、全连接层1、ReLU6激活函数、全连接层2和Sigmoid函数,第二部分为空间注意力机制,包括平均池化层、最大池化层、卷积核7×7大小的卷积层和Sigmoid函数。
优选地,所述IR7-EC特征提取层的特征提取过程,包括以下步骤:
对归一化处理后的图像样本数据输入第1层,先后通过卷积层、Batchnormalization归一化层和Hardswish激活函数,对图像样本数据进行初步提取特征、数据归一化和非线性变换;
将通过第1层初步提取的特征输入到第2层到第8层,依次通过7个InvertedResidual-ECA结构,输入数据通过Inverted Residual-ECA结构中第一部分处理后使得输入数据通道维数扩增,将通道维数扩增后的数据输入第二部分用于深层特征提取,将深层特征提取后的数据输入第三部分,通过ECA注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,将增强的混凝土裂缝特征提取图输入第四部分用于降低数据通道维数,按照相似的操作依次将数据通过所有InvertedResidual-ECA结构;
将通过第2层到第8层后所得到的数据输入第9层进行特征提取;
将通过第9层特征提取后的数据输入第10层CBAM注意力机制,对数据进行通道和空间层面的进行更进一步的特征提取,得到蕴含裂缝信息更多的特征图。
优选地,所述Batch normalization归一化层的归一化处理,如下式所示:
Figure BDA0003827221790000041
Figure BDA0003827221790000042
Figure BDA0003827221790000043
Figure BDA0003827221790000044
式中,xi为输入Batch normalization的特征图,yi为输出Batch normalization后的特征图,m为当前训练批次中输入该层的特征图数量,γ和β为随网络梯度更新而变动的变量;
搭建IR7-EC特征提取层时,利用下式对各层中通过ReLU6激活函数的数据进行非线性处理:
f(xi)=min(max(xi,0),6)
式中,xi为输入ReLU6激活函数前的特征图,f(xi)为输出ReLU6激活函数的特征图;
搭建IR7-EC特征提取层时,利用下式各层中通过Hardswish激活函数的数据进行非线性处理:
Figure BDA0003827221790000051
式中,x为输入Hardswish激活函数前的特征图,f(x)为输出Hardswish激活函数的特征图;
搭建IR7-EC特征提取层时,利用下式各层中通过ECA注意力机制的数据进行跨通道交互,得到增强的混凝土裂缝特征提取图:
Figure BDA0003827221790000052
Es(F)=σ(fk*k[AvgPool(F)])
式中,|t|odd表示最近的奇数t;C代表输入ECA注意力机制的数据的通道数量,γ与b为两个超参数;Es(F)为ECA注意力机制,σ为sigmoid操作,fk*k[·]表示进行k*k的卷积操作,F为输入的特征图,AvgPool()为平均池化;
搭建IR7-EC特征提取层时,利用下式平均池化和最大池化来聚合特征映射的空间信息,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
式中,Mc表示通道注意力,MLP()由全连接层1+ReLU6激活函数+全连接层2组成,σ为sigmoid操作,F为输入的特征图,AvgPool()为平均池化,MaxPool()为最大池化,Ms表示空间注意力机制,σ为sigmoid操作;
搭建IR7-EC特征提取层时,利用下式采用平均池化和最大池化方法在空间注意力模块对输如特征图进行压缩处理,得到蕴含裂缝信息更多的特征提取图:
Ms(F)=σ(f7*7[AvgPool(F),MaxPool(F)])
式中,Ms表示空间注意力机制,σ为sigmoid操作,f7*7[·]表示进行7*7的卷积操作,F为输入的特征图,AvgPool()为平均池化,MaxPool()为最大池化。
优选地,所述RPN包括Anchor generator和RPNhead。
优选地,还包括:
通过所述Anchor generator生成锚框,包括以下步骤:
基于IR7-EC特征提取层输出的42×42分辨率的特征图,通过Anchor generator生成1764组不同比例的锚框,将特征图上的每一个像素点投影到输入网络前的原始裂缝图像上,在原始图像上的1764个特征图投影位置都会分配一组Anchor generator生成的锚框;
基于Anchor generator生成的锚框划分裂缝图像正负样本的规则如下,其中,裂缝为Positive,无裂缝为背景Negative:
在一张裂缝图像中包括一系列真实值边界框GT Box和锚框Anchor;其中,锚框被判定为Positive规则为:与GT Box的IOU≥0.7的锚框;当所有与GT Box相交锚框的IOU都小于0.7时,与GT Box最大IOU的锚框被直接判定为Positive;
Negative判别规则为:与GT Box的IOU<0.3的锚框;
随机挑选256个正负样本作为标签真实值,用于计算RPNhead中目标损失,其中IOU计算公式如下:
Figure BDA0003827221790000061
其中,area(A)为anchor即锚框的面积,area(G)为GT Box框的面积。
优选地,所述RPNhead包括3×3的卷积层、两个并联的1×1卷积层和ReLU激活函数;
所述RPNhead的训练步骤包括:
将IR7-EC输出的42×42分辨率的特征图通过一个3×3的卷积层,再分别通过两个并联的1×1卷积层和ReLU激活函数,输出特征图所有像素点对应所有锚框的目标分数和边界框回归参数如下:
cls=[裂缝概率]
ti=[tx,ty,tw,th]
其中,cls为RPNhead预测的裂缝概率,ti表示RPNhead预测的第i个锚框的边界框回归参数;
通过边界框回归参数对锚框进行调整,得到候选框proposals,公式如下;
x=watx+xa
y=haty+ya
w=waexp(tw)
h=haexp(th)
其中,x,y,w,h为proposals的中心坐标(x,y)以及边界框宽度高度,xa,ya,wa,ha为锚框的中心坐标以及宽高,tx,ty,tw,th为RPNhead预测的边界框回归参数;
对proposals进行筛选:
根据裂缝图像中每个proposals目标分数,筛选出裂缝概率最大的前2000个proposals,删除不满足条件者,然后删除面积较小的proposals;
找到所有proposals中坐标最大的数值所对应的proposal,将其他proposals与之做交并比计算,利用非极大值抑制算法对所有proposals进行筛选,最后将proposals投影到IR7-EC输出的特征图上获得相应的特征矩阵;
所述RPNhead损失计算方法如下:
Figure BDA0003827221790000071
Figure BDA0003827221790000072
Figure BDA0003827221790000073
Figure BDA0003827221790000074
Figure BDA0003827221790000075
Figure BDA0003827221790000081
Figure BDA0003827221790000082
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=ln(w/wa),th=ln(h/ha)
其中,Loss({pi},{ti})为RPN的损失,包括分类损失和边界框回归损失,pi表示第i个anchor预测为目标的概率,当anchor为正样本时
Figure BDA0003827221790000083
为1,负样本时
Figure BDA0003827221790000084
为0,ti表示预测的第i个anchor的边界框回归参数,
Figure BDA0003827221790000085
表示第i个anchor对应的GT Box的边界框回归参数,Ncls表示一个mini-batch中所有样本数量,Nreg表示样本位置个数,ti表示RPNhead预测的第i个锚框的边界框回归参数,x*,y*,w*,h*为GT Box的中心坐标(x,y)以及边界框宽度高度,λ用于平衡分类损失与边界框回归损失。
优选地,还包括:
通过ROI pooling将所有proposals通过池化操作特征提取,所有proposals尺寸均转化为7×7大小特征图;
所述ROI Head的全连接层结构为两个串联的全连接层(FC1,FC2),将特征图展平后通过两个全连接层后传入两个并行的全连接层(FC3,FC4),用于预测每一个proposal的裂缝类别分数和边界框回归参数,利用FC4输出的边界框回归参数调整proposals,通过与RPN相似的步骤计算全连接层损失如下:
Loss(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
Lcls(p,u)=-log pu
Figure BDA0003827221790000086
其中,Loss(p,u,tu,v)为ROI Head的损失函数,包括分类损失和边界框回归损失,p是分类器预测的softmax概率分布p=(po,......pk),k为裂缝类别数量加1,u对应目标真实类别标签,tu对应边界框回归器FC4预测的对应类别u的边界框回归参数,v对应真实目标GT Box边界框回归参数vx,vy,vw,vh
通过所述postprocess detections对网络的预测数据进行后处理,包括:
根据proposals以及FC4预测的回归参数计算出最终边界框bbox坐标;
对预测类别结果进行softmax处理得到裂缝概率;
移除所有背景信息;
移除低概率目标与小尺寸目标;
通过hms方法对ROI Head中预测结果进行筛选;
最终bbox坐标计算公式如下:
Figure BDA0003827221790000091
Figure BDA0003827221790000092
Figure BDA0003827221790000093
Figure BDA0003827221790000094
其中,x,y,w,h为RPN输出的proposals的中心坐标(x,y)以及边界框宽度高度,
Figure BDA0003827221790000095
为全连接层FC4预测的边界框回归参数,xp,yp,wp,hp为ROI Head预测的裂缝位置框中心坐标以及宽高;
优选地,所述更新网络参数,如下式所示:
f(θ)=Loss
Figure BDA0003827221790000096
mt=β1·mt-1+(1-β1)·gt
Figure BDA0003827221790000097
Figure BDA0003827221790000098
Figure BDA0003827221790000099
Figure BDA00038272217900000910
其中,Loss是网络RPN或ROI Head的损失函数,θ是模型中待更新的参数,gt是损失函数f(θ)对θ求导所得的梯度,β1是一阶矩衰减系数,β2是二阶矩衰减系数,mt是梯度gt的期望,vt
Figure BDA00038272217900000911
的期望,
Figure BDA00038272217900000912
是mt的偏置校正,
Figure BDA00038272217900000913
是vt的偏置矫正,θt-1是网络更新前的参数,θt是网络更新后的参数,α是学习率。
本发明提出一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,包括以下有益效果:
本发明提出的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,与目前基于Faster-rcnn的计算机视觉目标识别网络相比,Faster-rIR7-EC网络模型参数量更小,训练时间更短,同时维持了较高的混凝土裂缝识别准确率。
附图说明
图1为本发明实施例利用Faster-rIR7-EC网络辨识混凝土裂缝的流程图;
图2为本发明实施例的七种混凝土裂缝图像以及拼接后图像的示意图;
图3为本发明实施例的Faster-rIR7-EC结构图;
图4为本发明实施例的Faster-rIR7-EC中的特征提取层IR7-EC结构图;
图5为本发明实施例利用Faster-rIR7-EC网络识别裂缝结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本发明的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,如图1-5所示,表1为本专利实现的计算机平台及环境配置。
表1计算机平台及环境配置
Figure BDA0003827221790000101
Figure BDA0003827221790000111
参阅图1,本发明提供了一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,具体包括以下步骤:
步骤1,采集裂缝图像,建立裂缝类型识别图像数据集,其中裂缝图像数据集包括裂缝识别图像训练集和验证集。
步骤2,对数据集进行预处理。
步骤3,将预处理后的裂缝图像数据输入IR7-EC特征提取层提取特征。
步骤4,将IR7-EC输出的特征图输入RPN(Region Proposal Network)中生成候选框并确定候选框包含内容(裂缝,背景),将RPN生成的候选框投影到IR7-EC输出的特征图上获得相应的特征矩阵(训练阶段计算RPN损失)。
步骤5,将每个特征矩阵通过ROI Head(包括ROI pooling、全连接层和postprocess detections)输出混凝土裂缝在特征图中的位置和类型(训练阶段计算ROIHead损失)。
步骤6,通过后处理将混凝土裂缝在特征图中的位置和类型投影回实际裂缝图像获得实际混凝土裂缝位置和类型。
步骤7,训练阶段将损失带入优化函数,更新网络参数,直至网络收敛。
步骤8,将待检测的混凝土裂缝图像输入训练好的Faster-rIR7-EC网络得到混凝土裂缝图像中裂缝位置和类型。
具体的,步骤1中采集裂缝图像后,将混凝土裂缝图像训练集与验证集进行手动标注,包括:横横向裂缝(TransverseCrack)、纵向裂缝(VerticalCrack)、倾斜裂缝(ObliqueCrack)、网状裂缝(MeshCrack)、不规则裂缝(IrregularCrack)、孔洞(Hole)和背景(Background)图像,训练集和验证集包含了上述七种类型图像与图像类型对应的模式标签,将上述7类图像随机拼接成九宫形式,如图2所示,共674张图像,图像分辨率681×681,训练集500张图像,验证集174张图像。
具体的,步骤2中的预处理操作包括图像归一化处理:遍历所有裂缝图像,找到高度与宽度最大的图像,以最大宽高为模板,其他所有图像左上角与模板对齐,右侧与下侧大小不足的位置补0直至与模板等大,实现输入图像分辨率统一与模板一致。
具体的,步骤3中搭建的IR7-EC特征提取层步骤包括:
建立依次连接的10层网络框架,具体参数见表2,示意图见图4;
第1层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长2,输入通道3,输出通道数16;
第2层——第8层为Inverted Residual-ECA结构,该结构具体包括三部分,第一部分包括卷积核1×1大小的卷积层、Batch normalization归一化层和ReLU6激活函数,第二部分包括卷积核3×3大小的卷积层、Batchnormalization归一化层和ReLU6激活函数,第三部分为ECA注意力机制,结构包括平均池化层、卷积核1×1大小卷积层和Sigmoid函数,第四部分结构包括卷积核1×1大小的卷积层、Batch normalization归一化层和线性激活函数;
第9层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长1,输入通道96,输出通道数96;
第10层为CBAM注意力机制,分为两部分,第一部分为通道注意力机制,包括平均池化层、最大池化层、全连接层1、ReLU6激活函数、全连接层2和Sigmoid函数,第二部分为空间注意力机制,包括平均池化层、最大池化层、卷积核7×7大小的卷积层和Sigmoid函数。
表2 IR7-EC特征提取层结构及内部具体参数
Figure BDA0003827221790000121
Figure BDA0003827221790000131
具体的,所述将图像样本数据输入IR7-EC特征提取层进行训练的步骤包括:
将前处理后的图像样本数据输入第1层,先后通过卷积层、Batch normalization归一化层和Hardswish激活函数,对图像样本数据进行初步提取特征、数据归一化和非线性变换;
将通过第1层初步提取的特征输入到第2层——第8层,依次通过7个InvertedResidual-ECA结构,输入数据通过Inverted Residual-ECA结构中第一部分处理后使得输入数据通道维数扩增,将通道维数扩增后的数据输入第二部分用于深层特征提取,将深层特征提取后的数据输入第三部分,通过ECA注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,将增强的混凝土裂缝特征提取图输入第四部分用于降低数据通道维数,按照相似的操作依次将数据通过所有InvertedResidual-ECA结构;
将通过第第2层——第8层的后所得到的数据输入第9层进行特征提取;
将通过第9层特征提取后的数据输入第10层CBAM注意力机制,对数据进行通道和空间层面的进行更进一步的特征提取,得到蕴含裂缝信息更多的特征图。
具体的,搭建IR7-EC特征提取层时为了防止网络梯度消失,利用下式对各层中通过Batch normalization归一化层的数据进行归一化处理:
Figure BDA0003827221790000141
Figure BDA0003827221790000142
Figure BDA0003827221790000143
Figure BDA0003827221790000144
式中,xi为输入Batch normalization的特征图,yi为输出Batch normalization后的特征图,m为当前训练批次中输入该层的特征图数量,γ和β为随网络梯度更新而变动的变量。
具体的,搭建IR7-EC特征提取层时,利用下式对各层中通过ReLU6激活函数的数据进行非线性处理:
f(xi)=min(max(xi,0),6)
式中,xi为输入ReLU6激活函数前的特征图,f(xi)为输出ReLU6激活函数的特征图。
具体的,搭建IR7-EC特征提取层时,利用下式各层中通过Hardswish激活函数的数据进行非线性处理:
Figure BDA0003827221790000145
式中,x为输入Hardswish激活函数前的特征图,f(x)为输出Hardswish激活函数的特征图。
具体的,搭建IR7-EC特征提取层时,利用下式各层中通过ECA注意力机制的数据进行跨通道交互,得到增强的混凝土裂缝特征提取图:
Figure BDA0003827221790000146
Es(F)=σ(fk*k[AvgPool(F)])
式中,|t|odd表示最近的奇数t。C代表输入ECA注意力机制的数据的通道数量,γ与b为两个超参数,本专利中将γ设置为2,b设置为1,Es(F)为ECA注意力机制,σ为sigmoid操作,fk*k[·]表示进行k*k的卷积操作,F为输入的特征图,AvgPool()为平均池化。
具体的,搭建IR7-EC特征提取层时,利用下式平均池化和最大池化来聚合特征映射的空间信息,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
式中,Mc表示通道注意力,MLP()由全连接层1+ReLU6激活函数+全连接层2组成,σ为sigmoid操作,F为输入的特征图,AvgPool()为平均池化,MaxPool()为最大池化,Ms表示空间注意力机制,σ为sigmoid操作。
具体的,搭建IR7-EC特征提取层时,利用下式采用平均池化和最大池化方法在空间注意力模块对输如特征图进行压缩处理,得到蕴含裂缝信息更多的特征提取图:
Ms(F)=σ(f7*7[AvgPool(F),MaxPool(F)])
式中,Ms表示空间注意力机制,σ为sigmoid操作,f7*7[·]表示进行7*7的卷积操作,F为输入的特征图,AvgPool()为平均池化,MaxPool()为最大池化。
具体的,步骤4中所述RPN(Region Proposal Network)结构包括Anchorgenerator和RPNhead。
具体的,基于IR7-EC输出的42×42分辨率的特征图,通过Anchor generator生成1764(42×42)组不同比例的锚框,将特征图上的每一个像素点(每一个通道都有1764个)投影到输入网络前的原始裂缝图像上,在原始图像上的1764个特征图投影位置都会分配一组Anchor generator生成的锚框(Anchor)。
具体的,基于Anchor generator生成的锚框划分裂缝图像正负样本(裂缝为Positive,无裂缝为背景Negative)规则如下:
在一张裂缝图像中包括一系列真实值边界框(GroundTruth box,GT Box)和锚框,其中锚框被判定为Positive规则为:①与GT Box的IOU≥0.7的锚框,②当所有与GT Box相交锚框的IOU都小于0.7时,与GT Box最大IOU的锚框被直接判定为Positive;
Negative判别规则:与GT Box的IOU<0.3的锚框;
随机挑选256个正负样本作为标签真实值,用于计算RPNhead中目标损失,其中IOU计算公式如下:
Figure BDA0003827221790000161
其中area(A)为anchor即锚框的面积,area(G)为GT Box框的面积。
具体的,其特征在于RPNhead结构包括一个3×3的卷积层和两个并联的1×1卷积层和ReLU激活函数。
具体的,其特征在于,RPNhead结构训练步骤包括:将IR7-EC输出的42×42分辨率的特征图通过一个3×3的卷积层,再分别通过两个并联的1×1卷积层和ReLU激活函数,输出特征图所有像素点对应所有锚框的目标分数和边界框回归参数如下:
cls=[裂缝概率]
ti==[tx,ty,tw,th]
其中,cls为RPNhead预测的裂缝概率,ti表示RPNhead预测的第i个锚框的边界框回归参数。
具体的,其特征在于,通过边界框回归参数对得到的锚框进行调整,得到候选框(proposals),公式如下;
x=watx+xa
y=haty+ya
w=waexp(tw)
h=haexp(th)
其中,x,y,w,h为proposals的中心坐标(x,y)以及边界框宽度高度,xa,ya,wa,ha为锚框的中心坐标以及宽高,tx,ty,tw,th为RPNhead预测的边界框回归参数。
具体的,对proposals进行筛选,首先根据裂缝图像中每个proposals目标分数,筛选出裂缝概率最大的前2000个proposals,删除不满足条件者,然后删除面积较小的proposals,最后找到所有proposals中坐标最大的数值所对应的proposal,将其他proposals与之做交并比计算(IOU),利用非极大值抑制算法(NMS)对所有proposals进行筛选,最后将proposals投影到IR7-EC输出的特征图上获得相应的特征矩阵。
具体的,RPNhead结构损失计算方法如下:
Figure BDA0003827221790000171
Figure BDA0003827221790000172
Figure BDA0003827221790000173
Figure BDA0003827221790000174
Figure BDA0003827221790000175
Figure BDA0003827221790000176
Figure BDA0003827221790000177
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=ln(w/wa),th=ln(h/ha)
其中,Loss({pi},{ti})为RPN的损失,包括分类损失和边界框回归损失,pi表示第i个anchor预测为目标的概率,当anchor为正样本时
Figure BDA0003827221790000178
为1,负样本时
Figure BDA0003827221790000179
为0,ti表示预测的第i个anchor的边界框回归参数,
Figure BDA00038272217900001710
表示第i个anchor对应的GT Box的边界框回归参数,Ncls表示一个mini-batch中所有样本数量,本专利中取96,Nreg表示样本位置个数,ti表示RPNhead预测的第i个锚框的边界框回归参数,x*y*,w*,h*为GT Box的中心坐标(x,y)以及边界框宽度高度,λ用于平衡分类损失与边界框回归损失,本专利中取10。
具体的,步骤5中ROI pooling将得到的所有proposals通过池化操作特征提取,所有proposals尺寸均转化为7×7大小特征图。
具体的,步骤5中全连接层结构为两个串联的全连接层(FC1,FC2),将特征图展平后通过两个全连接层后传入两个并行的全连接层(FC3,FC4),用于预测每一个proposal的裂缝类别分数和边界框回归参数,利用FC4输出的边界框回归参数调整proposals,通过与RPN相似的步骤计算全连接层损失如下:
Loss(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
Lcls(p,u)=-log pu
Figure BDA0003827221790000181
其中,Loss(p,u,tu,v)为ROI Head的损失函数,包括分类损失和边界框回归损失,p是分类器预测的softmax概率分布p=(po,......pk),k为裂缝类别数量加1,u对应目标真实类别标签,tu对应边界框回归器(FC4)预测的对应类别u的边界框回归参数,v对应真实目标GT Box边界框回归参数vx,vy,vw,vh,计算方法参考RPN损失计算。
具体的,通过步骤5中postprocess detections对网络的预测数据进行后处理,包括(1)根据proposals以及FC4预测的回归参数计算出最终边界框(bbox)坐标,(2)对预测类别结果进行softmax处理得到裂缝概率,(3)移除所有背景信息,(4)移除低概率目标与小尺寸目标,(5)参照RPNhead中的nms方法对ROI Head中预测结果进行筛选。
具体的,最终bbox坐标计算公式如下:
Figure BDA0003827221790000182
Figure BDA0003827221790000183
Figure BDA0003827221790000184
Figure BDA0003827221790000185
其中,x,y,w,h为RPN输出的proposals的中心坐标(x,y)以及边界框宽度高度,
Figure BDA0003827221790000186
为全连接层FC4预测的边界框回归参数,xp,yp,wp,hp为roihead预测的裂缝位置框中心坐标以及宽高。
具体的,步骤7中利用下式Adam算法对网络内部参数进行优化:
f(θ)=Loss
Figure BDA0003827221790000191
mt=β1·mt-1+(1-β1)·gt
Figure BDA0003827221790000192
Figure BDA0003827221790000193
Figure BDA0003827221790000194
Figure BDA0003827221790000195
其中,Loss是网络RPN或ROI Head的损失函数,θ是模型中待更新的参数,gt是损失函数f(θ)对θ求导所得的梯度,β1是一阶矩衰减系数,β2是二阶矩衰减系数,mt是梯度gt的期望,vt
Figure BDA0003827221790000196
的期望,
Figure BDA0003827221790000197
是mt的偏置校正,
Figure BDA0003827221790000198
是vt的偏置矫正,θt-1是网络更新前的参数,θt是网络更新后的参数,α是学习率。
将实拍混凝土图像作为测试集输入训练好的Faster-rIR-7EC混凝土裂缝识别算法中,算法结构见图3,最后输出混凝土裂缝图像识别结果,如图5为利用Faster-rIR-7EC混凝土裂缝识别算法得到的裂缝识别结果图。
参照图1,在本实施例中,分别对本专利中提出的Faster-rIR-7EC算法和目前通用神经网络作为Faster-rcnn特征提取层,包括vgg16、resnet34和同样包含大量倒残差结构的Mobilenet_v3_large进行训练,并在训练20个周期结束后通过上述网络对混凝土裂缝图像测试集进行裂缝识别,各模型的模型大小、训练时长、mAP(mean Average Precision)、mAR(mean Average Recall)和FPS(每秒钟处理图像数量)见表3。
表3各模型的模型大小、训练时长、mAP、mAR和FPS
Figure BDA0003827221790000199
其中查准率(Precision)为预测所有正样本中判断正确的比例,Precision越高,表示网络误报的可能性越低。mAP为所有类别的样本的Precision的平均值。Precision计算公式如下:
Figure BDA0003827221790000201
查全率(Recall,True Positive Rate)为预测正确的所有正样本占实际所有正样本的比例,Recall越高,意味着网络漏报的可能性越低。mAR为所有类别样本的Recall的平均值。Recall计算公式如下:
Figure BDA0003827221790000202
其中,TP、FP和FN解释如下:TP:IOU>0.5的检测框数量;FP:IOU≤0.5的检测框数量;FN:没有检测到GT(ground truth)的数量。
由表3可知,提出的Faster-rIR7-EC混凝土裂缝识别算法与通用网络VGG16_bn、resnet34和mobilenet_large作为Faster-rcnn特征提取层相比,拥有更小的模型大小,更短的模型训练时间,更高的FPS。与此同时,在预测边界框与GTbox交并比大于0.5(IOU=0.5)、0.75(IOU=0.75)的条件下依然拥有不逊色于占用内存高,训练耗时长的通用网络mAP与mAR。为了更进一步证明模型的普适性,在交并比大于0.5,0.55,0.6,0.65,0.7,0.75,0.8,0.85,0.9,0.95的条件下分别求出相应的mAP,再求平均,得到IoU=0.50:0.05:0.95条件下的mAP为65.8%,仅次于mobilenet_large模型下的66%,高于其他通用网络,但提出的Faster-rIR7-EC在训练时间上是VGG_bn的1/9,是mobilenet_large的1/3,FPS同样远远超过表3中的所有通用网络,证明了所提出的Faster-rIR7-EC在混凝土裂缝识别问题上的快速与精准。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,包括以下步骤:
搭建Faster-rIR7-EC网络模型;所述Faster-rIR7-EC网络模型包括依次连接的IR7-EC特征提取层、区域生成网络RPN、ROI Head和后处理层;
其中,所述IR7-EC特征提取层包括依次连接的卷积层、7个Inverted Residual-ECA结构、CBAM注意力机制;所述Inverted Residual-ECA结构为倒残差结构与ECA注意力机制相连接构成;所述ROI Head包括ROI pooling、全连接层和postprocess detections;
采集待识别的裂缝图像,通过IR7-EC特征提取层,对裂缝图像在通道和空间层面进行特征提取,获得蕴含裂缝信息的特征提取图;
将特征提取图输入区域生成网络RPN中,在特征提取图上生成候选框,并确定候选框内包含的裂缝和背景;将RPN生成的候选框投影到IR7-EC输出的特征图上获得相应的特征矩阵;
将每个特征矩阵通过ROI Head,输出混凝土裂缝在特征图中的位置和类型;
通过后处理层将混凝土裂缝在特征图中的位置和类型投影回实际裂缝图像,获得实际混凝土裂缝位置和类型。
2.根据权利要求1所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,还包括:对所述Faster-rIR7-EC网络模型进行训练,包括以下步骤:
采集裂缝图像,建立裂缝类型识别图像数据集,其中,裂缝图像数据集包括裂缝识别图像训练集和验证集;
对裂缝图像数据集进行归一化处理:遍历所有裂缝图像,找到高度与宽度最大的图像,以最大宽高为模板,其他所有图像左上角与模板对齐,右侧与下侧大小不足的位置补0直至与模板等大,使得输入图像分辨率统一与模板一致;
将归一化处理后的图像数据集输入到Faster-rIR7-EC网络模型中获得识别结果;
将识别结果与训练集的真实结果对比,将损失带入优化函数,更新网络参数,直到网络拟合;其中,损失包括RPN损失和ROI Head损失。
3.根据权利要求1所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,所述IR7-EC特征提取层的搭建,具体包括以下步骤:
建立依次连接的10层网络框架;
第1层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长2,输入通道3,输出通道数16;
第2层到第8层为Inverted Residual-ECA结构,包括三部分:
第一部分包括卷积核1×1大小的卷积层、Batch normalization归一化层和ReLU6激活函数,第二部分包括卷积核3×3大小的卷积层、Batch normalization归一化层和ReLU6激活函数,第三部分为ECA注意力机制,结构包括平均池化层、卷积核1×1大小卷积层和Sigmoid函数,第四部分结构包括卷积核1×1大小的卷积层、Batch normalization归一化层和线性激活函数;
第9层包括卷积核3×3大小的卷积层、Batch normalization归一化层和Hardswish激活函数,步长1,输入通道96,输出通道数96;
第10层为CBAM注意力机制,包括两部分:
第一部分为通道注意力机制,包括平均池化层、最大池化层、全连接层1、ReLU6激活函数、全连接层2和Sigmoid函数,第二部分为空间注意力机制,包括平均池化层、最大池化层、卷积核7×7大小的卷积层和Sigmoid函数。
4.根据权利要求3所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,所述IR7-EC特征提取层的特征提取过程,包括以下步骤:
对归一化处理后的图像样本数据输入第1层,先后通过卷积层、Batch normalization归一化层和Hardswish激活函数,对图像样本数据进行初步提取特征、数据归一化和非线性变换;
将通过第1层初步提取的特征输入到第2层到第8层,依次通过7个Inverted Residual-ECA结构,输入数据通过Inverted Residual-ECA结构中第一部分处理后使得输入数据通道维数扩增,将通道维数扩增后的数据输入第二部分用于深层特征提取,将深层特征提取后的数据输入第三部分,通过ECA注意力机制对网络通道加权突出对网络准确率提升较高的部分通道,得到增强的混凝土裂缝特征提取图,将增强的混凝土裂缝特征提取图输入第四部分用于降低数据通道维数,按照相似的操作依次将数据通过所有Inverted Residual-ECA结构;
将通过第2层到第8层后所得到的数据输入第9层进行特征提取;
将通过第9层特征提取后的数据输入第10层CBAM注意力机制,对数据进行通道和空间层面的进行更进一步的特征提取,得到蕴含裂缝信息更多的特征图。
5.根据权利要求4所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,所述Batch normalization归一化层的归一化处理,如下式所示:
Figure FDA0003827221780000041
Figure FDA0003827221780000042
Figure FDA0003827221780000043
Figure FDA0003827221780000044
式中,xi为输入Batch normalization的特征图,yi为输出Batch normalization后的特征图,m为当前训练批次中输入该层的特征图数量,γ和β为随网络梯度更新而变动的变量;
搭建IR7-EC特征提取层时,利用下式对各层中通过ReLU6激活函数的数据进行非线性处理:
f(xi)=min(max(xi,0),6)
式中,xi为输入ReLU6激活函数前的特征图,f(xi)为输出ReLU6激活函数的特征图;
搭建IR7-EC特征提取层时,利用下式各层中通过Hardswish激活函数的数据进行非线性处理:
Figure FDA0003827221780000045
式中,x为输入Hardswish激活函数前的特征图,f(x)为输出Hardswish激活函数的特征图;
搭建IR7-EC特征提取层时,利用下式各层中通过ECA注意力机制的数据进行跨通道交互,得到增强的混凝土裂缝特征提取图:
Figure FDA0003827221780000046
Es(F)=σ(fk*k[AvgPool(F)])
式中,|t|odd表示最近的奇数t;C代表输入ECA注意力机制的数据的通道数量,γ与b为两个超参数;Es(F)为ECA注意力机制,σ为sigmoid操作,fk*k[·]表示进行k*k的卷积操作,F为输入的特征图,AvgPool()为平均池化;
搭建IR7-EC特征提取层时,利用下式平均池化和最大池化来聚合特征映射的空间信息,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图:
Mc(F)=σ(MLP[AvgPool(F)])+MLP(MaxPool(F)))
式中,Mc表示通道注意力,MLP()由全连接层1+ReLU6激活函数+全连接层2组成,σ为sigmoid操作,F为输入的特征图,AvgPool()为平均池化,MaxPool()为最大池化,Ms表示空间注意力机制,σ为sigmoid操作;
搭建IR7-EC特征提取层时,利用下式采用平均池化和最大池化方法在空间注意力模块对输如特征图进行压缩处理,得到蕴含裂缝信息更多的特征提取图:
Ms(F)=σ(f7*7[AvgPool(F),MaxPool(F)])
式中,Ms表示空间注意力机制,σ为sigmoid操作,f7*7[·]表示进行7*7的卷积操作,F为输入的特征图,AvgPool()为平均池化,MaxPool()为最大池化。
6.根据权利要求1所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,所述RPN包括Anchor generator和RPNhead。
7.根据权利要求6所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,还包括:
通过所述Anchor generator生成锚框,包括以下步骤:
基于IR7-EC特征提取层输出的42×42分辨率的特征图,通过Anchor generator生成1764组不同比例的锚框,将特征图上的每一个像素点投影到输入网络前的原始裂缝图像上,在原始图像上的1764个特征图投影位置都会分配一组Anchor generator生成的锚框;
基于Anchor generator生成的锚框划分裂缝图像正负样本的规则如下,其中,裂缝为Positive,无裂缝为背景Negative:
在一张裂缝图像中包括一系列真实值边界框GT Box和锚框Anchor;其中,锚框被判定为Positive规则为:与GT Box的IOU≥0.7的锚框;当所有与GT Box相交锚框的IOU都小于0.7时,与GT Box最大IOU的锚框被直接判定为Positive;
Negative判别规则为:与GT Box的IOU<0.3的锚框;
随机挑选256个正负样本作为标签真实值,用于计算RPNhead中目标损失,其中IOU计算公式如下:
Figure FDA0003827221780000061
其中,area(A)为anchor即锚框的面积,area(G)为GT Box框的面积。
8.根据权利要求7所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,所述RPNhead包括3×3的卷积层、两个并联的1×1卷积层和ReLU激活函数;
所述RPNhead的训练步骤包括:
将IR7-EC输出的42×42分辨率的特征图通过一个3×3的卷积层,再分别通过两个并联的1×1卷积层和ReLU激活函数,输出特征图所有像素点对应所有锚框的目标分数和边界框回归参数如下:
cls=[裂缝概率]
ti=[tx,ty,tw,th]
其中,cls为RPNhead预测的裂缝概率,ti表示RPNhead预测的第i个锚框的边界框回归参数;
通过边界框回归参数对锚框进行调整,得到候选框proposals,公式如下;
x=watx+xa
y=haty+ya
w=waexp(tw)
h=haexp(th)
其中,x,y,w,h为proposals的中心坐标(x,y)以及边界框宽度高度,xa,ya,wa,ha为锚框的中心坐标以及宽高,tx,ty,tw,th为RPNhead预测的边界框回归参数;
对proposals进行筛选:
根据裂缝图像中每个proposals目标分数,筛选出裂缝概率最大的前2000个proposals,删除不满足条件者,然后删除面积较小的proposals;
找到所有proposals中坐标最大的数值所对应的proposal,将其他proposals与之做交并比计算,利用非极大值抑制算法对所有proposals进行筛选,最后将proposals投影到IR7-EC输出的特征图上获得相应的特征矩阵;
所述RPNhead损失计算方法如下:
Figure FDA0003827221780000071
Figure FDA0003827221780000072
Figure FDA0003827221780000073
Figure FDA0003827221780000074
Figure FDA0003827221780000075
ti=[tx,ty,tw,th]
Figure FDA0003827221780000076
Figure FDA0003827221780000077
tx=(x-xa)/wa,ty=(y-ya)/ha
tw=ln(w/wa),th=ln(h/ha)
其中,Loss({pi},{ti})为RPN的损失,包括分类损失和边界框回归损失,pi表示第i个anchor预测为目标的概率,当anchor为正样本时
Figure FDA0003827221780000078
为1,负样本时
Figure FDA0003827221780000081
为0,ti表示预测的第i个anchor的边界框回归参数,
Figure FDA0003827221780000082
表示第i个anchor对应的GT Box的边界框回归参数,Ncls表示一个mini-batch中所有样本数量,Nreg表示样本位置个数,ti表示RPNhead预测的第i个锚框的边界框回归参数,x*,y*,w*,h*为GT Box的中心坐标(x,y)以及边界框宽度高度,λ用于平衡分类损失与边界框回归损失。
9.根据权利要求8所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,还包括:
通过ROI pooling将所有proposals通过池化操作特征提取,所有proposals尺寸均转化为7×7大小特征图;
所述ROI Head的全连接层结构为两个串联的全连接层(FC1,FC2),将特征图展平后通过两个全连接层后传入两个并行的全连接层(FC3,FC4),用于预测每一个proposal的裂缝类别分数和边界框回归参数,利用FC4输出的边界框回归参数调整proposals,通过与RPN相似的步骤计算全连接层损失如下:
Loss(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
Lcls(p,u)=-log pu
Figure FDA0003827221780000083
其中,Loss(p,u,tu,v)为ROI Head的损失函数,包括分类损失和边界框回归损失,p是分类器预测的softmax概率分布p=(po,……pk),k为裂缝类别数量加1,u对应目标真实类别标签,tu对应边界框回归器FC4预测的对应类别u的边界框回归参数,v对应真实目标GT Box边界框回归参数vx,vy,vw,vh
通过所述postprocess detections对网络的预测数据进行后处理,包括:
根据proposals以及FC4预测的回归参数计算出最终边界框bbox坐标;
对预测类别结果进行softmax处理得到裂缝概率;
移除所有背景信息;
移除低概率目标与小尺寸目标;
通过nms方法对ROI Head中预测结果进行筛选;
最终bbox坐标计算公式如下:
Figure FDA0003827221780000091
Figure FDA0003827221780000092
Figure FDA0003827221780000093
Figure FDA0003827221780000094
其中,x,y,w,h为RPN输出的proposals的中心坐标(x,y)以及边界框宽度高度,
Figure FDA0003827221780000095
为全连接层FC4预测的边界框回归参数,xp,yp,wp,hp为ROI Head预测的裂缝位置框中心坐标以及宽高。
10.根据权利要求2所述的一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法,其特征在于,所述更新网络参数,如下式所示:
f(θ)=Loss
Figure FDA0003827221780000096
mt=β1mt-1+(1-β1)·gt
Figure FDA0003827221780000097
Figure FDA0003827221780000098
Figure FDA0003827221780000099
Figure FDA00038272217800000910
其中,Loss是网络RPN或ROIHead的损失函数,θ是模型中待更新的参数,gt是损失函数f(θ)对θ求导所得的梯度,β1是一阶矩衰减系数,β2是二阶矩衰减系数,mt是梯度gt的期望,vt
Figure FDA00038272217800000911
的期望,
Figure FDA00038272217800000912
是mt的偏置校正,
Figure FDA00038272217800000913
是vt的偏置矫正,θt-1是网络更新前的参数,θt是网络更新后的参数,α是学习率。
CN202211063469.0A 2022-08-31 2022-08-31 一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法 Pending CN115457412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211063469.0A CN115457412A (zh) 2022-08-31 2022-08-31 一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211063469.0A CN115457412A (zh) 2022-08-31 2022-08-31 一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法

Publications (1)

Publication Number Publication Date
CN115457412A true CN115457412A (zh) 2022-12-09

Family

ID=84301307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211063469.0A Pending CN115457412A (zh) 2022-08-31 2022-08-31 一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法

Country Status (1)

Country Link
CN (1) CN115457412A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859186A (zh) * 2023-02-17 2023-03-28 齐鲁工业大学(山东省科学院) 基于格拉米角场的分布式光纤传感事件识别方法及系统
CN117952977A (zh) * 2024-03-27 2024-04-30 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859186A (zh) * 2023-02-17 2023-03-28 齐鲁工业大学(山东省科学院) 基于格拉米角场的分布式光纤传感事件识别方法及系统
CN117952977A (zh) * 2024-03-27 2024-04-30 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质
CN117952977B (zh) * 2024-03-27 2024-06-04 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质

Similar Documents

Publication Publication Date Title
CN115457412A (zh) 一种基于Faster-rIR7-EC的混凝土裂缝快速识别方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN113177560A (zh) 一种普适性轻量级深度学习车辆检测方法
CN111178206A (zh) 一种基于改进yolo的建筑预埋件检测方法及系统
CN115115924A (zh) 基于ir7-ec网络的混凝土图像裂缝类型迅捷智能识别方法
Li et al. Automatic bridge crack identification from concrete surface using ResNeXt with postprocessing
CN112200045A (zh) 基于上下文增强的遥感图像目标检测模型建立方法及应用
CN110969171A (zh) 基于改进卷积神经网络的图像分类模型、方法及应用
CN111414807A (zh) 一种基于yolo技术的潮水识别与危机预警方法
CN115620180A (zh) 一种基于改进YOLOv5的航拍图像目标检测方法
CN112528904A (zh) 一种用于砂石颗粒物粒径检测系统的图像分割方法
CN117437201A (zh) 一种基于改进YOLOv7的道路裂缝检测方法
CN111242066A (zh) 大尺寸图像目标检测方法、装置及计算机可读存储介质
CN111223087A (zh) 一种基于生成对抗网络的桥梁裂缝自动检测方法
CN114972759A (zh) 基于分级轮廓代价函数的遥感图像语义分割方法
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN117765480B (zh) 一种道路沿线野生动物迁徙预警方法及系统
CN115171183A (zh) 一种基于改进yolov5的口罩人脸检测方法
US20240233371A1 (en) Depth-stage dependent and hyperparameter-adaptive lightweight convolutional neural network-based model for rapid road crack detection
CN113627302A (zh) 一种登高施工合规性检测方法及系统
CN117437615A (zh) 雾天交通标志检测方法、装置、存储介质和电子设备
CN114898304A (zh) 一种车辆追踪方法、装置、路侧设备及网络侧设备
CN113887455A (zh) 一种基于改进fcos的人脸口罩检测系统及方法
CN112348062A (zh) 气象图像预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cao Maosen

Inventor after: Fu Ronghua

Inventor after: Sumara Dragoslav

Inventor after: Zhu Kai

Inventor before: Cao Maosen

Inventor before: Fu Ronghua

Inventor before: Wang Jie

Inventor before: Sumara Dragoslav

Inventor before: Zhu Kai

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240226

Address after: Xikang Road, Gulou District of Nanjing city of Jiangsu Province, No. 1 210098

Applicant after: HOHAI University

Country or region after: China

Address before: 210000 No. 1 Xikang Road, Gulou District, Nanjing City, Jiangsu Province

Applicant before: HOHAI University

Country or region before: China

Applicant before: Jiangsu Dongjiao Intelligent Control Technology Group Co.,Ltd.