CN116777895A - 基于可解释深度学习的混凝土桥梁表观病害智能检测方法 - Google Patents
基于可解释深度学习的混凝土桥梁表观病害智能检测方法 Download PDFInfo
- Publication number
- CN116777895A CN116777895A CN202310821628.7A CN202310821628A CN116777895A CN 116777895 A CN116777895 A CN 116777895A CN 202310821628 A CN202310821628 A CN 202310821628A CN 116777895 A CN116777895 A CN 116777895A
- Authority
- CN
- China
- Prior art keywords
- module
- image set
- model
- disease
- type image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 112
- 201000010099 disease Diseases 0.000 title claims abstract description 111
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000013135 deep learning Methods 0.000 title claims abstract description 11
- 238000010586 diagram Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 abstract description 5
- 241000264877 Hippospongia communis Species 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 238000013526 transfer learning Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000035515 penetration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 101100465000 Mus musculus Prag1 gene Proteins 0.000 description 1
- 101100099821 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cbs-1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30132—Masonry; Concrete
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于可解释深度学习的混凝土桥梁表观病害智能检测方法。方法包括:将拍摄混凝土桥梁的外表得到的待测图像,输入预先建立的经过训练测试的识别模型,识别模型的主干网络中设置有用于输出热力图的热力图模块,识别模型的颈部网络设置有注意力机制模块;通过识别模型,对待测图像进行表观病害检测,得到检测结果。在得到的检测结果中,包括热力图以及存在表观病害时的病害种类或不存在病害的结果,便于用户通过可视化的热力图直观地了解识别模型从待测图像数据中所学到的知识。另外,以输出热力图的方式,可以对识别模型做出最终决策进行可视化的解释。
Description
技术领域
本发明涉及混凝土桥梁检测技术领域,具体而言,涉及一种基于可解释深度学习的混凝土桥梁表观病害智能检测方法。
背景技术
随着社会发展,公路混凝土桥梁运营时间、运营里程、行车密度和客货运量的大幅提升,作为公路运输主要载体的混凝土桥梁结构承受了循环、高速、重载的荷载状态,以及受恶劣天气、施工缺陷、材料自老化等因素影响,混凝土桥梁运营状态逐渐恶化,表现为表观病害出现,这些病害主要包括蜂窝、麻面、裂缝、孔洞等。这些外观病害直接或间接地影响着结构受力状态变化,结构耐久性甚至安全性可能存在一定程度的降低,因此对混凝土桥梁表观病害的检测至关重要。
目前,在混凝土桥梁表观病害检测方面,传统以人工检测为主,也有一些采用辅助机械伸展臂搭载摄像头采集图像进行人机交互分析的尝试。这些传统检测方式受限于结构高度、跨度的发展,存在着难以抵达性、工作量庞大、安全性差、人力时间成本高昂以及检测结果易受主观影响的特性。近年来,无人机和光学相机硬件的普及,以及计算机视觉、深度学习的快速发展使得图像的获取、处理、识别趋于自动化和智能化。
深度神经网络在计算机视觉、语义分割等众多领域得到了广泛的应用,并且表现出很好的性能。目前,在混凝土桥梁表观病害检测过程中,人们通常无法探知深度学习模型究竟从数据中学到了哪些知识,如何进行最终决策,即,受限于目前的检测方式,所检测得到的结果信息单一。
发明内容
有鉴于此,本申请实施例的目的在于提供一种基于可解释深度学习的混凝土桥梁表观病害智能检测方法,能够改善在对混凝土桥梁表观病害检测时,所得到的检测结果的内容单一的问题。
为实现上述技术目的,本申请采用的技术方案如下:
本申请实施例提供了一种基于可解释深度学习的混凝土桥梁表观病害智能检测方法,所述方法包括:
获取拍摄混凝土桥梁的外表得到的待测图像;
将所述待测图像输入预先建立的经过训练测试的识别模型,所述识别模型包括改进的Yolov5s模型,所述改进的Yolov5s模型包括输入层、Backbone主干网络、Neck颈部网络及检测头,所述Backbone主干网络中设置有用于输出热力图的热力图模块,所述Neck颈部网络设置有注意力机制模块;
通过所述识别模型,对所述待测图像进行表观病害检测,得到检测结果,所述检测结果包括表征所述待测图像对应的所述混凝土桥梁不存在表观病害的结果,或者存在表观病害的结果以及在存在表观病害时的病害种类与热力图。
在一些可选的实施方式中,在获取拍摄混凝土桥梁的外表得到的待测图像之前,所述方法还包括:
获取拍摄混凝土桥梁存在表观病害得到的第一类图像集,以及拍摄混凝土桥梁不存在表观病害得到的第二类图像集;
对所述第一类图像集与所述第二类图像集进行数据增强,得到经过数据增强后的第一类图像集和第二类图像集;
通过标注工具,对所述经过数据增强后的第一类图像集进行病害类别的标注,得到用于模型训练测试的数据集;
将所述数据集按照预设比例划分为训练集、验证集与测试集,以及将所述经过数据增强后的第二类图像集合并至所述训练集;
通过合并后的所述训练集,对预先创建的所述改进的Yolov5s模型进行训练,以及通过所述验证集对训练后的所述改进的Yolov5s模型进行验证,以及通过所述测试集对验证后的所述改进的Yolov5s模型进行测试,直至所述改进的Yolov5s模型收敛,并将经过测试的所述改进的Yolov5s模型作为所述识别模型。
在一些可选的实施方式中,对所述第一类图像集与所述第二类图像集进行数据增强,得到经过数据增强后的第一类图像集和第二类图像集,包括:
对所述第一类图像集与所述第二类图像集中的至少部分图像进行缩放、裁剪、旋转、镜像翻转、色域调节中的至少一项操作,得到对应的第一类中间图像集和第二类中间图像集;
对所述第一类中间图像集进行Mosaic数据增强,以及进行Mixup数据增强,得到所述经过数据增强后的第一类图像集;
对所述第二类中间图像集进行Mosaic数据增强,以及进行Mixup数据增强,得到所述经过数据增强后的第二类图像集。
在一些可选的实施方式中,所述病害类别包括裂缝、空洞、蜂窝、麻面、剥落、渗水及露筋。
在一些可选的实施方式中,所述改进的Yolov5s模型的损失函数Lloos包括定位损失函数Lbbox、置信度损失函数Lobj和分类损失函数Lcls;
Lloos=λ1Lbbox+λ2Lobj+λ3Lcls (1)
其中,λ1、λ2和λ3指预设的权重系数;IOU指交并比;ρ为所述第一类图像集和第二类图像集中的标注框中心点和预测框中心点间的欧式距离;b为预测框;bgt为标注框;c为包含标注框和预测框的最小外接矩形的对角线长度;α为预设权重参数;v为长宽比的相似性;wgt为标注框的宽度;hgt为标注框的长度;w为预测框的宽度;h为预测框的长度;
其中,λcls为置信度损失的权重系数;s2为特征图被分割成的网格数量;B为每个网格分配到先验框的目标个数;为第i个网格中的第j个预测框含有病害的正样本;λc为类乘法器;Ci为预测框和标注框的IOU值;Ci’为预测的置信度值;/>为第i个网格中的第j个预测框不含有病害的负样本;
其中,ε指所有病害类别中的指定类别的病害;class为所有病害的类别;pi(c)为第i个网格是指定类别病害的实际概率;p’i(c)为第i个网格是指定类别病害的预测概率。
在一些可选的实施方式中,在获取拍摄混凝土桥梁的外表得到的待测图像之前,所述方法还包括:
创建所述Backbone主干网络,所述Backbone主干网络包括相互串接的第一CBS模块、第二CBS模块、第一C3模块、第三CBS模块、第二C3模块、第四CBS模块、第三C3模块、第五CBS模块、第四C3模块、热力图模块及SPPF模块;
创建所述Neck颈部网络,所述Neck颈部网络包括相互串接的第六CBS模块、第一上采样模块、第一Concat模块、第五C3模块、第七CBS模块、第二上采样模块、第二Concat模块、第一注意力机制模块、第六C3模块、第八CBS模块、第三Concat模块、第二注意力机制模块、第七C3模块、第九CBS模块、第四Concat模块、第三注意力机制模块及第八C3模块;
基于预设的输入层、所述Backbone主干网络、所述Neck颈部网络及预设的检测头,创建得到所述改进的Yolov5s模型,其中,所述第一Concat模块的输入端与所述第三C3模块的输出端连接,所述第二Concat模块的输入端与所述第二C3模块的输出端连接,所述第三Concat模块的输入端与所述第七CBS模块的输出端连接,所述第四Concat模块的输入端与所述第六CBS模块的输出端连接,所述第六C3模块、所述第七C3模块及所述第八C3模块的输出端分别与所述检测头中的卷积模块连接。
在一些可选的实施方式中,所述第一注意力机制模块用于确定所述第二Concat模块输出特征图的线性投影、区域到区域路由和token到token注意;
其中,确定线性投影包括:
将第二Concat模块输出的二维特征映射X∈RH×W×C,分为S×S个非重叠区域,使得每个区域包含个特征向量;
基于二维特征映射X∈RH×W×C,通过线性映射得到Q、K、V张量,以作为线性投影,表示为:
Q=XrWq (8)
K=XrWk (9)
V=XrWv (10)
其中,Q为query向量;K为key向量;V为value向量;Xr为重塑后的特征图;Wq为Q的权重系数;Wk为K的权重系数;Wv为V的权重系数;
确定区域到区域路由,包括:
基于S×S个非重叠区域,通过分别在Q和K上应用每个区域平均值来导出区域级
通过Qr和转置Kr之间的矩阵乘法推导出区域到区域亲和度图的邻接矩阵
Ar=Qr(Kr)T (11)
其中,邻接矩阵Ar用于衡量两个区域在语义上的相关性;
通过为每个区域保留前k个关系最密切的区域,建立路由索引矩阵其中,/>为具有S2行和k列的矩阵,具有逐行topk算子:
Ir=topkIndex(Ar) (12)
其中,第i行Ir包含第i个区域的k个最相关区域的索引,以作为区域到区域路由;
确定token到token注意,包括:
基于S×S个非重叠区域和路由索引矩阵Ir,对于区域i中的每个Q,以为索引的k个最关注的路由区域,并gather所述k个最关注的路由区域中所有K和V;
收集K、V张量:
Kg=gather(K,Ir) (13)
Vg=gather(V,Ir) (14)
其中Kg,
将注意力应用于收集到的Kg,Vg:
O=Attention(Q,Kg,Vg)+LCE(V) (15)
其中,LCE(V)指预设的局部上下文增强项,函数LCE(V)通过使用深度卷积进行参数化,O指对区域的关注度系数。
在一些可选的实施方式中,所述热力图模块用于:
获取所述第四C3模块输出的特征图和网络对病害类别c的预测值yc;
对所述预测值yc进行反向传播,得到反传回特征层A的梯度信息A′,其中,梯度信息A′即为yc对A求得的偏导;
确定对应特征图通道的权重值:
其中,yc代表网络针对病害类别c预测的分数,且没有通过softmax激活;代表特征层A在通道k中,坐标为(i,j)位置处的数据;Z等于特征层的宽度W乘以高度H;
对特征图进行加权和,再通过ReLU得到Grad-CAM热力图;
其中,A指所述第四C3模块输出的特征层;k指特征层A中第k个通道;c指病害类别;Ak指特征层A中通道k的数据;代表针对Ak的权重;
将得到的Grad-CAM热力图进行缩放:
其中,x为缩放后得到的与待测图像的尺寸相同的热力图。
采用上述技术方案的发明,具有如下优点:
在本申请提供的技术方案中,通过将拍摄混凝土桥梁的外表得到的待测图像,输入经过训练测试的识别模型,由识别模型对待测图像进行表观病害检测。由于识别模型的Backbone主干网络中设置有用于输出热力图的热力图模块,Neck颈部网络设置有注意力机制模块,在得到的检测结果中,可以包括热力图以及存在表观病害时的病害种类,便于用户通过可视化的热力图直观了解识别模型究竟从待测图像数据中学到了哪些知识。另外,以输出热力图的方式,可以对识别模型做出最终决策进行可视化的解释,从而改善现有的检测结果的内容单一的问题,提升用户的体验感。
附图说明
本申请可以通过附图给出的非限定性实施例进一步说明。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的基于可解释深度学习的混凝土桥梁表观病害智能检测方法的流程示意图。
图2为本申请实施例提供的识别模型的网络结构示意图。
图3A为本申请实施例提供的待测图像经过病害识别后得到的结果示意图。
图3B为图3A中针对蜂窝的热力图的示意图。
图3C为图3A中针对空洞的热力图的示意图。
图标:10-识别模型;11-输入层;12-Backbone主干网络;13-Neck颈部网络;14-检测头。
具体实施方式
以下将结合附图和具体实施例对本申请进行详细说明,需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,本申请实施例提供一种基于可解释深度学习的混凝土桥梁表观病害智能检测方法,下文简称为检测方法。该检测方法可以应用于电子设备,由电子设备执行或实现方法的各步骤。其中,电子设备可以是但不限于个人电脑、服务器等设备。
在本实施例中,检测方法可以包括如下步骤:
步骤110,获取拍摄混凝土桥梁的外表得到的待测图像;
步骤120,将所述待测图像输入预先建立的经过训练测试的识别模型10,所述识别模型10包括改进的Yolov5s模型,所述改进的Yolov5s模型包括输入层11、Backbone主干网络12、Neck颈部网络13及检测头14,所述Backbone主干网络12中设置有用于输出热力图的热力图模块,所述Neck颈部网络13设置有注意力机制模块;
步骤130,通过所述识别模型10,对所述待测图像进行表观病害检测,得到检测结果,所述检测结果包括表征所述待测图像对应的所述混凝土桥梁不存在表观病害的结果,或者存在表观病害的结果以及在存在表观病害时的病害种类与热力图。
下面将对检测方法的各步骤进行详细阐述,如下:
在步骤110之前,方法还可以包括识别模型的训练与创建的步骤。例如,在步骤110之前,方法还可以包括:
获取拍摄混凝土桥梁存在表观病害得到的第一类图像集,以及拍摄混凝土桥梁不存在表观病害得到的第二类图像集;
对所述第一类图像集与所述第二类图像集进行数据增强,得到经过数据增强后的第一类图像集和第二类图像集;
通过标注工具,对所述经过数据增强后的第一类图像集进行病害类别的标注,得到用于模型训练测试的数据集;
将所述数据集按照预设比例划分为训练集、验证集与测试集,以及将所述经过数据增强后的第二类图像集合并至所述训练集;
通过合并后的所述训练集,对预先创建的所述改进的Yolov5s模型进行训练,以及通过所述验证集对训练后的所述改进的Yolov5s模型进行验证,以及通过所述测试集对验证后的所述改进的Yolov5s模型进行测试,直至所述改进的Yolov5s模型收敛,并将经过测试的所述改进的Yolov5s模型作为所述识别模型。
在本实施例中,第一类图像集可以包括拍摄凝土桥梁存在各种病害类别的图像。病害类别可以包括,但不限于裂缝、空洞、蜂窝、麻面、剥落、渗水及露筋。第二类图像集包括拍摄凝土桥梁不存在任何表观病害的大量图像。其中,图像的拍摄,可以通过无人机或其他方式拍摄得到。用户预先准备好第一类图像集和第二图像集后,可以供电子设备进行获取。
在本实施例中,数据增强的方式可以根据实际情况灵活确定。例如,对所述第一类图像集与所述第二类图像集进行数据增强,得到经过数据增强后的第一类图像集和第二类图像集,包括:
对所述第一类图像集与所述第二类图像集中的至少部分图像进行缩放、裁剪、旋转、镜像翻转、色域调节中的至少一项操作,得到对应的第一类中间图像集和第二类中间图像集;
对所述第一类中间图像集进行Mosaic数据增强,以及进行Mixup数据增强,得到所述经过数据增强后的第一类图像集;
对所述第二类中间图像集进行Mosaic数据增强,以及进行Mixup数据增强,得到所述经过数据增强后的第二类图像集。
可理解地,电子设备对原始图像进行缩放、裁剪、角度旋转、平面镜像翻转和色域变化五种图像几何扩增,增加模型鲁棒性和泛化能力,防止过拟合。
示例性地,图像缩放时,缩放系数可以取为+/-0.5,图像随机裁剪系数可以取为+/-0.5,图像旋转角度可以取为60°,平面镜像翻转角度可以为+/-180°,色域调节的亮度系数可以取为0.015,饱和度系数可以取为0.7,色调系数取为0.4。
在本实施例中,引入图像mosaic和Mixup两种图像增强,增加模型鲁棒性和泛化能力,防止过拟合。
其中,Mosaic数据增强是从图像集(指第一类图像集与第二类图像集)每个batch中随机选取四张图片,对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之后就获得一张新的图片,同时也获得这张图片对应的框。将这样一张新的图片传入到神经网络当中去学习,就相当于一次传入四张图片进行学习。
Mixup数据增强是从图像集每个batch中随机选择两张图像,并以一定比例混合生成一张新的图像。
在本实施例中,标注工具可以为Labelimg工具,用户可以通过Labelimg工具,对第一类图像集中的病害类别及位置区域进行方框、文本标注。即,对裂缝、空洞、蜂窝、麻面、剥落、渗水、露筋等7种病害进行标注,其中,前述病害类别的标注,可以遵循以下原则:
1)标记框采用矩形框;
2)尽量使所有标注框的大小、长宽比例差异减小;
3)尽量使任务所关注的目标在标记框内的像素占比最大,使非目标区域尽量达到最小;
4)图像中不存在病害漏标注。
按照上述原则,以及各类病害的形态特征,进行合理的标记,各类病害的标注策略如下:
1)裂缝:对于一张图像来说,裂缝在图像中的像素占比最少,其形态呈现细长形,宽度小,且裂缝走向无规律。因此,在进行裂缝病害标记时,一条裂缝常分为多段标注。
2)剥落:剥落常于结构棱角处出现小片病害,于结构面上出现大片病害。对于小片剥落,采用单一标注框进行标注,对于大片剥落,则采用多个标注框进行标注,保证每一个标注框内包含有剥落病害的边缘。
3)露筋:露筋整体呈现细长形态,因此标注特点与裂缝类似,当露筋走向横平竖直时,采用单个标注框,标注框可尽量包含较长的露筋段,当露筋走向呈斜向时,采用多个标注框,单个标注框适当减小,使得露筋目标两端位于标注框对角点处。同时,标注框也尽量包含露筋与混凝土的结合处。
4)蜂窝和麻面:此两种病害呈现大面积分布,尤其是麻面。麻点密度不一,并且从图像上看,与结构表面上散落的点状砂浆具有计算机视觉上的相似性。而蜂窝分布较为集中,呈现一整片连续状态。当二者在图像中分布较广时,采用多个标注框标注,当蜂窝和麻面分布较为集中时,采用单个标注框标注。
5)空洞:整体轮廓呈外凸形,内部因光线照射不到,颜色较深,甚至呈黑色,外部为灰色调的混凝土表面,因此,空洞具有明确的轮廓边缘,采用单标注框标注。
6)渗水:渗水常常是裂缝逐渐发展而来的。与裂缝相比,渗水在裂缝周边形成水流痕迹,因此图像目标较裂缝更大,但整体来看仍呈长条形,因此标注策略与裂缝类似,根据实际病害目标状况分段标注。
在本实施例中,不带病害的图像为图像中不包含任何混凝土桥梁表观病害,背景图像中既含有正常光照背景图像也包含低光度背景图像,不带病害的图像数量可以为正常光照带病害图像和低光照带病害图像总和的10%。其中,正常光照与低光照的区分为常规方式,这里不作具体限定。
在按预设比例划分得到训练集、验证集与测试集时,预设比例可以根据实际情况灵活设置,例如,为8:1:1。另外,经过数据增强的第二类图像集,可以合并至训练集中。
在识别模型的训练测试期间,改进的Yolov5s模型的损失函数Lloos包括定位损失函数Lbbox、置信度损失函数Lobj和分类损失函数Lcls。
Lloos=λ1Lbbox+λ2Lobj+λ3Lcls (1)
其中,λ1、λ2和λ3指预设的权重系数,例如,可以分别为0.05、0.5和1.0;IOU指交并比,用于恒量预测锚框和标注锚框的重合度,来判断预测框的定位是否准确;ρ为所述第一类图像集和第二类图像集中的标注框中心点和预测框中心点间的欧式距离;b为预测框;bgt为标注框;c为包含标注框和预测框的最小外接矩形的对角线长度;α为预设权重参数;v为长宽比的相似性;wgt为标注框的宽度;hgt为标注框的长度;w为预测框的宽度;h为预测框的长度;
其中,λcls为置信度损失的权重系数;s2为特征图被分割成的网格数量;B为每个网格分配到先验框的目标个数,例如,B可以取值为9个;为第i个网格中的第j个预测框含有病害的正样本;λc为类乘法器;Ci为预测框和标注框的IOU值;Ci’为预测的置信度值;为第i个网格中的第j个预测框不含有病害的负样本;
其中,ε指所有病害类别中的指定类别的病害,可以根据实际情况灵活确定;class为所有病害的类别,比如,本实施例class可以取值为7,指上述的裂缝、空洞、蜂窝、麻面、剥落、渗水及露筋共7种病害类别;pi(c)为第i个网格是指定类别病害的实际概率;p’i(c)为第i个网格是指定类别病害的预测概率。
在本实施例中,改进的Yolov5s模型的检测性能指标包括速度指标和准确度指标。速度指标通常用每秒推断图像的帧数FPS来恒量,但此指标受硬件影响比较大,因此,本发明主要关注准确度指标。
准确度指标包括mAP@0.5和mAP@0.5:0.95。其中,mAP@0.5为IOUthresh取0.5时,各类别AP(AveragePrecision,平均正确率)的平均值。mAP@0.5:0.95为IOUthresh取0.5、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95的10个数时,各类别AP的平均值。
请参照图2,在步骤110之前,方法还可以包括:
创建所述Backbone主干网络,所述Backbone主干网络包括相互串接的第一CBS模块、第二CBS模块、第一C3模块、第三CBS模块、第二C3模块、第四CBS模块、第三C3模块、第五CBS模块、第四C3模块、热力图模块及SPPF模块;
创建所述Neck颈部网络,所述Neck颈部网络包括相互串接的第六CBS模块、第一上采样模块、第一Concat模块、第五C3模块、第七CBS模块、第二上采样模块、第二Concat模块、第一注意力机制模块、第六C3模块、第八CBS模块、第三Concat模块、第二注意力机制模块、第七C3模块、第九CBS模块、第四Concat模块、第三注意力机制模块及第八C3模块;
基于预设的输入层、所述Backbone主干网络、所述Neck颈部网络及预设的检测头,创建得到所述改进的Yolov5s模型,其中,所述第一Concat模块的输入端与所述第三C3模块的输出端连接,所述第二Concat模块的输入端与所述第二C3模块的输出端连接,所述第三Concat模块的输入端与所述第七CBS模块的输出端连接,所述第四Concat模块的输入端与所述第六CBS模块的输出端连接,所述第六C3模块、所述第七C3模块及所述第八C3模块的输出端分别与所述检测头中的卷积模块连接。
可理解地,第m个CBS模块,对应图2中的CBS_m,m可以取1至9中的任意整数,如,第一CBS模块对应为图2中的CBS_1。类似地,第n个C3模块,对应图2中的C3_n,n可以取1至8中的任意整数,如,第一C3模块对应为图2中的C3_1,这里不再赘述。
在本实施例中,改进的Yolov5s模型体现在:在Backbone主干网络引入Grad-CAM热力图模块。另外,在Neck颈部PANet网络中加入BRA(Bi-LevelRoutingAttention,注意力机制)模块。
注意力机制的计算包括三个部分:线性投影、区域到区域路由和token到token注意。所计算的三部分,用于对待测图像中某一区域(如病害区域)进行突显。
在本实施例中,输入层作为待测图像的输入端。Backbone主干网络用于对待测图像提取图像特征。Neck颈部网络用于融合各个尺度特征,生成特征金字塔。Head检测头用于输出预测框的类别和位置。
在本实施例中,各CBS模块(如第一CBS模块、第二CBS模块)用于执行Conv卷积-BN批量归一化-SiLu激活函数序列操作。各C3模块(如第一C3模块、第二C3模块)指跨阶段局部网络。SPPF模块用于执行空间金字塔池化操作。Concat模块用于执行沿通道方向堆叠数据操作。卷积模块Conv用于执行1×1卷积操作。
改进的Yolov5s模型使用C3模块和SPPF模块作为Backbone主干网络,C3模块可以解决大型Backbone主干网络优化时梯度信息重复问题,将梯度变化集成在特征图中,减少了模型的参数量、向前推理计算量和内存占用,加快推理速度。其中,C3模块分别用于Backbone主干网络和Neck颈部网络。
在本实施例中,使用FPN(FeaturePyramidNetworks,特征金字塔网络)和PAN作为Neck颈部网络,生成特征金字塔。把不同尺度的特征融合汇总,增强模型对不同尺度目标的识别能力。可理解地,FPN为自上向下的特征金字塔,可以把高层的强语义特征传递下来,对整个金字塔进行增强,提升不同尺度,特别是小尺寸目标的检测效果,而PAN在FPN特征金字塔的基础上进一步增加自底向上的特征金字塔。底层卷积神经网络主要提取边缘、轮廓、颜色等底层视觉特征,而这些特征往往与目标边缘和轮廓密切相关。因此PAN自底向上的特征增强可以让顶层特征图也可充分共享网络底层提取的特征,提升大目标的检测效果。
改进的Yolov5s模型包含3组Anchor,每组有3个尺度,分别检测不同长宽比和大小的目标。对训练集使用Kmeans聚类计算Anchor大小和比例,采用跨网格匹配规则,增加正样本数量,提高不同长宽比目标的识别准确率。
在本实施例中,Head检测头通过1x1卷积运算,输出三组特征图,每组特征图包含了对应尺度提取出的预测框类别、置信度、像素坐标信息。三组特征图的张量数据尺寸可以分别为:batch_size×36×80×80、batch_size×36×40×40、batch_size×36×20×20。其中,batch_size为批样本数。其中,36=[na×(nc+1+4)],具体参数含义如下:
na(numberofAnchor)为每组anchor的尺度数量,可以取值为3;
nc(numberofclass)为病害类别数量,类别总数可以取值为7;
参数1为预测框在对应标注类别上的置信度;
参数4为预测框坐标,包含中心点横纵坐标和宽高。
对改进后的Yolov5s模型进行预训练。既可以在保留预训练模型结构和权重的基础上进行微调迁移学习,将模型泛化到混凝土桥梁表观病害数据集,也可仅保留模型结构,重新初始化权重,在混凝土桥梁表观病害数据集上从头训练模型。发明人采用MSCOCO2017数据集进行预训练,Yolov5s模型前向计算运算量小(10880bflops),权重少(7.3M),便于迁移学习,且推断速度快(GPU上FPS达到100以上),便于实时检测和终端部署,本发明可以选取在保留预训练模型结构和权重的基础上进行微调迁移学习训练改进后的模型。
在对混凝土桥梁表观病害目标检测改进的Yolov5s预训练模型进行迁移学习训练过程中,对于参数的训练,则可以有:
训练轮数Epochs取值为1200,每一次读取图像的大小batch-size取值为16,输入图像大小采用640×640像素。
在对混凝土桥梁表观病害目标检测改进的Yolov5s预训练模型进行迁移学习训练过程中,对于超参数的训练,则有:
对原始图像进行缩放、裁剪、角度旋转、平面镜像翻转和色域变化五种图像几何扩增,增加模型鲁棒性和泛化能力,防止过拟合。
经过训练后,可以通过上述公式(1)损失函数判断是否过拟合,是否满足训练标准,满足训练标准则直接输出Yolov5s-BRA混凝土桥梁表观病害的识别模型。
若不满足则对改进的Yolov5s模型进行迁移学习训练过程中的超参数调优,并且再次训练,得到满足标准的混凝土桥梁表观病害检测模型。
对改进的Yolov5s模型进行迁移学习训练过程中,对于超参数的调优,有:
对边缘明显的剥落、蜂窝、孔洞目标,过滤掉置信度小于0.3的预测框,对大片存在的麻面、渗水、露筋、裂纹目标,过滤掉置信度小于0.1的预测框;
采用非极大值抑制过滤掉IOU超过设定阈值的低置信度同类预测框,防止多个预测框重复识别同一个目标,对于剥落、蜂窝和孔洞,IOU阈值设置为0.25,防止重复识别,对于麻面、渗水、露筋、裂纹大片存在的类别,IOU阈值设置为0.7。
在步骤110中,获取待测图像的方式可以根据实际情况灵活确定。例如,电子设备可以从无人机获取由无人机拍摄混凝土桥梁的外表得到待测图像。或者,用户预先将待测图像上传至电子设备的本地,电子设备可以从本地的相应文件夹,获取到待测图像。
在步骤120中,识别模型即为改进的Yolov5s模型。通过将待测图像输入至识别模型后,便可以由识别模型自动对待测图像进行表观病害的检测。
在步骤130中,待测图像输入至识别模型后,可以通过Backbone主干网络、Neck颈部网络及检测头,对待测图像进行相应的特征提取,最后得到检测结果。其中,Backbone主干网络、Neck颈部网络中CBS模块、C3模块、SPPF模块、Concat模块的功能作用前文已描述,这里不再赘述。
在本实施例中,第一注意力机制模块用于确定所述第二Concat模块输出特征图的线性投影、区域到区域路由和token到token注意。
其中,确定线性投影,包括:
将第二Concat模块输出的二维特征映射X∈RH×W×C,分为S×S个非重叠区域,使得每个区域包含个特征向量,其中,X指输出的二维特征,H、W、C分别指图像的高、宽及通道数,RH×W×C为深度学习中的常规参数,这里不再赘述;
基于二维特征映射X∈RH×W×C,通过reshapeX变为然后通过线性映射得到Q、K、V张量,以作为线性投影,表示为:
Q=XrWq (8)
K=XrWk (9)
V=XrWv (10)
其中,Q为query向量;K为key向量;V为value向量;Xr为重塑后的特征图;Wq为Q的权重系数;Wk为K的权重系数;Wv为V的权重系数,其中,各权重系数可以根据实际情况灵活确定。
确定区域到区域路由时,通过构建有向图来找到区域到区域的注意力关系(即,应该为每个给定区域定位所关注的区域)。示例性地,区域到区域路由具体实现过程可以如下:
基于S×S个非重叠区域,通过分别在Q和K上应用每个区域平均值来导出区域级
通过Qr和转置Kr之间的矩阵乘法推导出区域到区域亲和度图的邻接矩阵
Ar=Qr(Kr)T (11)
其中,邻接矩阵Ar用于衡量两个区域在语义上的相关性;
通过为每个区域保留前k个关系最密切的区域,建立路由索引矩阵前式中,/>为具有S2行和k列的矩阵,具有逐行topk算子:
Ir=topkIndex(Ar) (12)
其中,第i行Ir包含第i个区域的k个最相关区域的索引,以作为区域到区域路由。
有了区域到区域路由索引矩阵Ir,在粗粒度过滤了最不相关的token,就可以应用细粒度的token到token关注。在本实施例中,token到token注意具体实现过程如下:
基于S×S个非重叠区域和路由索引矩阵Ir,对于区域i中的每个Q,以为索引的k个最关注的路由区域,并gather所述k个最关注的路由区域中所有K和V;
收集K、V张量:
Kg=gather(K,Ir) (13)
Vg=gather(V,Ir) (14)
其中Kg,
将注意力应用于收集到的Kg,Vg:
O=Attention(Q,Kg,Vg)+LCE(V) (15)
其中,LCE(V)指预设的局部上下文增强项,函数LCE(V)通过使用深度卷积进行参数化,O指对区域的关注度系数。
第二注意力机制模块、第三注意力机制模块的功能作用与第一注意机制模块的功能作用相类似,可以参照前文对第一注意力模块的描述,这里不再赘述。
在对待测图像进行识别检测过程中,热力图模块用于:
获取所述第四C3模块输出的特征图和网络对病害类别c的预测值yc;
对所述预测值yc进行反向传播,得到反传回特征层A的梯度信息A′,其中,梯度信息A′即为yc对A求得的偏导;
确定对应特征图通道的权重值:
其中,yc代表网络针对病害类别c预测的分数(score),且没有通过softmax激活;代表特征层A在通道k中,坐标为(i,j)位置处的数据;Z等于特征层的W×H,即,宽度W乘以高度H;
对特征图进行加权和,再通过ReLU得到Grad-CAM热力图;
其中,A指所述第四C3模块输出的特征层;k指特征层A中第k个通道;c指病害类别;Ak指特征层A中通道k的数据;代表针对Ak的权重;
将得到的Grad-CAM热力图进行缩放:
其中,x为缩放后得到的与待测图像的尺寸相同的热力图。
在得到热力图后,可以和待测图像的原图进行叠加得到最后的可视化结果。示例性地,请结合参照图3A、图3B和图3C。图3A可理解为识别模型对待测图像经过病害识别后,得到的结果示意图,图中通过检测框标出了蜂窝病害的检测框、空洞病害的检测框,对应的置信度分别为0.83和0.78。图3B可理解为热力图模块针对蜂窝病害的周边区域生成的热力图,图3C可理解为热力图模块针对空洞病害的周边区域生成的热力图。
基于上述设计,以传统Yolov5s模型作为基础模型,先在Neck颈部PANet网络中加入Bi-LevelRoutingAttention注意力机制模块,然后,在Yolov5s-BRA模型的主干网络特征提取阶段引入Grad-CAM热力图模块,可以实现混凝土桥梁表观病害自动化、智能化图像识别以及热力图的可视化,使得人们通过可视化的热力图的方式探知了深度学习模型究竟从数据中学到了哪些知识,以及识别模型做出最终决策的依据。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于可解释深度学习的混凝土桥梁表观病害智能检测方法,其特征在于,所述方法包括:
获取拍摄混凝土桥梁的外表得到的待测图像;
将所述待测图像输入预先建立的经过训练测试的识别模型,所述识别模型包括改进的Yolov5s模型,所述改进的Yolov5s模型包括输入层、Backbone主干网络、Neck颈部网络及检测头,所述Backbone主干网络中设置有用于输出热力图的热力图模块,所述Neck颈部网络设置有注意力机制模块;
通过所述识别模型,对所述待测图像进行表观病害检测,得到检测结果,所述检测结果包括表征所述待测图像对应的所述混凝土桥梁不存在表观病害的结果,或者存在表观病害的结果以及在存在表观病害时的病害种类与热力图。
2.根据权利要求1所述的方法,其特征在于,在获取拍摄混凝土桥梁的外表得到的待测图像之前,所述方法还包括:
获取拍摄混凝土桥梁存在表观病害得到的第一类图像集,以及拍摄混凝土桥梁不存在表观病害得到的第二类图像集;
对所述第一类图像集与所述第二类图像集进行数据增强,得到经过数据增强后的第一类图像集和第二类图像集;
通过标注工具,对所述经过数据增强后的第一类图像集进行病害类别的标注,得到用于模型训练测试的数据集;
将所述数据集按照预设比例划分为训练集、验证集与测试集,以及将所述经过数据增强后的第二类图像集合并至所述训练集;
通过合并后的所述训练集,对预先创建的所述改进的Yolov5s模型进行训练,以及通过所述验证集对训练后的所述改进的Yolov5s模型进行验证,以及通过所述测试集对验证后的所述改进的Yolov5s模型进行测试,直至所述改进的Yolov5s模型收敛,并将经过测试的所述改进的Yolov5s模型作为所述识别模型。
3.根据权利要求2所述的方法,其特征在于,对所述第一类图像集与所述第二类图像集进行数据增强,得到经过数据增强后的第一类图像集和第二类图像集,包括:
对所述第一类图像集与所述第二类图像集中的至少部分图像进行缩放、裁剪、旋转、镜像翻转、色域调节中的至少一项操作,得到对应的第一类中间图像集和第二类中间图像集;
对所述第一类中间图像集进行Mosaic数据增强,以及进行Mixup数据增强,得到所述经过数据增强后的第一类图像集;
对所述第二类中间图像集进行Mosaic数据增强,以及进行Mixup数据增强,得到所述经过数据增强后的第二类图像集。
4.根据权利要求2所述的方法,其特征在于,所述病害类别包括裂缝、空洞、蜂窝、麻面、剥落、渗水及露筋。
5.根据权利要求2所述的方法,其特征在于,所述改进的Yolov5s模型的损失函数Lloos包括定位损失函数Lbbox、置信度损失函数Lobj和分类损失函数Lcls;
Lloos=λ1Lbbox+λ2Lobj+λ3Lcls (1)
其中,λ1、λ2和λ3指预设的权重系数;IOU指交并比;ρ为所述第一类图像集和第二类图像集中的标注框中心点和预测框中心点间的欧式距离;b为预测框;bgt为标注框;c为包含标注框和预测框的最小外接矩形的对角线长度;α为预设权重参数;v为长宽比的相似性;wgt为标注框的宽度;hgt为标注框的长度;w为预测框的宽度;h为预测框的长度;
其中,λcls为置信度损失的权重系数;s2为特征图被分割成的网格数量;B为每个网格分配到先验框的目标个数;为第i个网格中的第j个预测框含有病害的正样本;λc为类乘法器;Ci为预测框和标注框的IOU值;Ci’为预测的置信度值;/>为第i个网格中的第j个预测框不含有病害的负样本;
其中,ε指所有病害类别中的指定类别的病害;class为所有病害的类别;pi(c)为第i个网格是指定类别病害的实际概率;p’i(c)为第i个网格是指定类别病害的预测概率。
6.根据权利要求1所述的方法,其特征在于,在获取拍摄混凝土桥梁的外表得到的待测图像之前,所述方法还包括:
创建所述Backbone主干网络,所述Backbone主干网络包括相互串接的第一CBS模块、第二CBS模块、第一C3模块、第三CBS模块、第二C3模块、第四CBS模块、第三C3模块、第五CBS模块、第四C3模块、热力图模块及SPPF模块;
创建所述Neck颈部网络,所述Neck颈部网络包括相互串接的第六CBS模块、第一上采样模块、第一Concat模块、第五C3模块、第七CBS模块、第二上采样模块、第二Concat模块、第一注意力机制模块、第六C3模块、第八CBS模块、第三Concat模块、第二注意力机制模块、第七C3模块、第九CBS模块、第四Concat模块、第三注意力机制模块及第八C3模块;
基于预设的输入层、所述Backbone主干网络、所述Neck颈部网络及预设的检测头,创建得到所述改进的Yolov5s模型,其中,所述第一Concat模块的输入端与所述第三C3模块的输出端连接,所述第二Concat模块的输入端与所述第二C3模块的输出端连接,所述第三Concat模块的输入端与所述第七CBS模块的输出端连接,所述第四Concat模块的输入端与所述第六CBS模块的输出端连接,所述第六C3模块、所述第七C3模块及所述第八C3模块的输出端分别与所述检测头中的卷积模块连接。
7.根据权利要求6所述的方法,其特征在于,所述第一注意力机制模块用于确定所述第二Concat模块输出特征图的线性投影、区域到区域路由和token到token注意;
其中,确定线性投影包括:
将第二Concat模块输出的二维特征映射X∈RH×W×C,分为S×S个非重叠区域,使得每个区域包含个特征向量;
基于二维特征映射X∈RH×W×C,通过线性映射得到Q、K、V张量,以作为线性投影,表示为:
Q=XrWq (8)
K=XrWk (9)
V=XrWv (10)
其中,Q为query向量;K为key向量;V为value向量;Xr为重塑后的特征图;Wq为Q的权重系数;Wk为K的权重系数;Wv为V的权重系数;
确定区域到区域路由,包括:
基于S×S个非重叠区域,通过分别在Q和K上应用每个区域平均值来导出区域级
通过Qr和转置Kr之间的矩阵乘法推导出区域到区域亲和度图的邻接矩阵
Ar=Qr(Kr)T (11)
其中,邻接矩阵Ar用于衡量两个区域在语义上的相关性;
通过为每个区域保留前k个关系最密切的区域,建立路由索引矩阵其中,为具有S2行和k列的矩阵,具有逐行topk算子:
Ir=topkIndex(Ar) (12)
其中,第i行Ir包含第i个区域的k个最相关区域的索引,以作为区域到区域路由;
确定token到token注意,包括:
基于S×S个非重叠区域和路由索引矩阵Ir,对于区域i中的每个Q,以为索引的k个最关注的路由区域,并gather所述k个最关注的路由区域中所有K和V;
收集K、V张量:
Kg=gather(K,Ir) (13)
Vg=gather(V,Ir) (14)
其中
将注意力应用于收集到的Kg,Vg:
O=Attention(Q,Kg,Vg)+LCE(V) (15)
其中,LCE(V)指预设的局部上下文增强项,函数LCE(V)通过使用深度卷积进行参数化,O指对区域的关注度系数。
8.根据权利要求6所述的方法,其特征在于,所述热力图模块用于:
获取所述第四C3模块输出的特征图和网络对病害类别c的预测值yc;
对所述预测值yc进行反向传播,得到反传回特征层A的梯度信息A′,其中,梯度信息A′即为yc对A求得的偏导;
确定对应特征图通道的权重值:
其中,yc代表网络针对病害类别c预测的分数,且没有通过softmax激活;代表特征层A在通道k中,坐标为(i,j)位置处的数据;Z等于特征层的宽度W乘以高度H;
对特征图进行加权和,再通过ReLU得到Grad-CAM热力图;
其中,A指所述第四C3模块输出的特征层;k指特征层A中第k个通道;c指病害类别;Ak指特征层A中通道k的数据;代表针对Ak的权重;
将得到的Grad-CAM热力图进行缩放:
其中,x为缩放后得到的与待测图像的尺寸相同的热力图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310821628.7A CN116777895B (zh) | 2023-07-05 | 2023-07-05 | 基于可解释深度学习的混凝土桥梁表观病害智能检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310821628.7A CN116777895B (zh) | 2023-07-05 | 2023-07-05 | 基于可解释深度学习的混凝土桥梁表观病害智能检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116777895A true CN116777895A (zh) | 2023-09-19 |
CN116777895B CN116777895B (zh) | 2024-05-31 |
Family
ID=88006296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310821628.7A Active CN116777895B (zh) | 2023-07-05 | 2023-07-05 | 基于可解释深度学习的混凝土桥梁表观病害智能检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116777895B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700444A (zh) * | 2021-02-19 | 2021-04-23 | 中国铁道科学研究院集团有限公司铁道建筑研究所 | 基于自注意力与中心点回归模型的桥梁螺栓检测方法 |
CN112884760A (zh) * | 2021-03-17 | 2021-06-01 | 东南大学 | 近水桥梁多类型病害智能检测方法与无人船设备 |
WO2021203505A1 (zh) * | 2020-04-09 | 2021-10-14 | 丰疆智能软件科技(南京)有限公司 | 害虫检测模型构建方法 |
WO2022095612A1 (zh) * | 2020-11-05 | 2022-05-12 | 西安交通大学 | 一种核磁共振图像中颈动脉血管中心线的提取方法及系统 |
WO2023036346A1 (zh) * | 2021-09-13 | 2023-03-16 | 中国民航大学 | 基于YOLOv5的航空发动机运维中叶片裂纹实时检测方法及装置 |
CN115995056A (zh) * | 2023-03-22 | 2023-04-21 | 南京航空航天大学 | 一种基于深度学习的桥梁病害自动识别方法 |
CN116309370A (zh) * | 2023-02-22 | 2023-06-23 | 大连理工大学 | 一种混凝土坝表观病害实时检测方法及系统 |
-
2023
- 2023-07-05 CN CN202310821628.7A patent/CN116777895B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021203505A1 (zh) * | 2020-04-09 | 2021-10-14 | 丰疆智能软件科技(南京)有限公司 | 害虫检测模型构建方法 |
WO2022095612A1 (zh) * | 2020-11-05 | 2022-05-12 | 西安交通大学 | 一种核磁共振图像中颈动脉血管中心线的提取方法及系统 |
CN112700444A (zh) * | 2021-02-19 | 2021-04-23 | 中国铁道科学研究院集团有限公司铁道建筑研究所 | 基于自注意力与中心点回归模型的桥梁螺栓检测方法 |
CN112884760A (zh) * | 2021-03-17 | 2021-06-01 | 东南大学 | 近水桥梁多类型病害智能检测方法与无人船设备 |
WO2023036346A1 (zh) * | 2021-09-13 | 2023-03-16 | 中国民航大学 | 基于YOLOv5的航空发动机运维中叶片裂纹实时检测方法及装置 |
CN116309370A (zh) * | 2023-02-22 | 2023-06-23 | 大连理工大学 | 一种混凝土坝表观病害实时检测方法及系统 |
CN115995056A (zh) * | 2023-03-22 | 2023-04-21 | 南京航空航天大学 | 一种基于深度学习的桥梁病害自动识别方法 |
Non-Patent Citations (2)
Title |
---|
金耀;徐阳;韩飞杨;何少阳;王俊博;: "基于深度学习语义分割的桥梁病害图像像素级识别方法", 公路交通科技(应用技术版), no. 01, 15 January 2020 (2020-01-15) * |
韩晓健;赵志成;沈泽江;: "卷积神经网络在桥梁结构表面病害检测中的应用研究", 结构工程师, no. 02, 28 April 2019 (2019-04-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN116777895B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310862B (zh) | 复杂环境下基于图像增强的深度神经网络车牌定位方法 | |
CN106960195B (zh) | 一种基于深度学习的人群计数方法及装置 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN111583229A (zh) | 一种基于卷积神经网络路面故障检测方法 | |
CN111046880A (zh) | 一种红外目标图像分割方法、系统、电子设备及存储介质 | |
CN110246141B (zh) | 一种基于联合角点池化的复杂交通场景下车辆图像分割方法 | |
CN112330593A (zh) | 基于深度学习网络的建筑物表面裂缝检测方法 | |
CN112560675B (zh) | Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法 | |
CN114663346A (zh) | 一种基于改进YOLOv5网络的带钢表面缺陷检测方法 | |
CN114743119B (zh) | 基于无人机的高铁接触网吊弦螺母缺陷检测方法 | |
CN108710893A (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN114359245A (zh) | 一种工业场景下产品表面缺陷检测方法 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
CN111540203B (zh) | 基于Faster-RCNN调节绿灯通行时间的方法 | |
CN111274964B (zh) | 一种基于无人机视觉显著性分析水面污染物的检测方法 | |
CN117437201A (zh) | 一种基于改进YOLOv7的道路裂缝检测方法 | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
CN112132839B (zh) | 一种基于深度卷积级联网络的多尺度快速人脸分割方法 | |
CN115690668A (zh) | 基于图像语义分割算法的损伤识别技术 | |
CN116052110B (zh) | 一种路面标线缺损智能定位方法及系统 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN116777895B (zh) | 基于可解释深度学习的混凝土桥梁表观病害智能检测方法 | |
CN112686105B (zh) | 一种基于视频图像多特征融合的雾浓度等级识别方法 | |
CN114821370A (zh) | 基于无人机影像与U-Net的单木树冠检测与分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |