CN115482491A - 一种基于transformer的桥梁缺陷识别方法与系统 - Google Patents
一种基于transformer的桥梁缺陷识别方法与系统 Download PDFInfo
- Publication number
- CN115482491A CN115482491A CN202211161939.7A CN202211161939A CN115482491A CN 115482491 A CN115482491 A CN 115482491A CN 202211161939 A CN202211161939 A CN 202211161939A CN 115482491 A CN115482491 A CN 115482491A
- Authority
- CN
- China
- Prior art keywords
- bridge defect
- bridge
- feature
- picture
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于transformer的桥梁缺陷识别方法,包括:获取桥梁的视频,按照固定时间长度对该桥梁的视频进行视频帧提取,获取的所有视频帧构成视频帧集合,对视频帧集合进行灰度化处理,以获取灰度化处理后的视频帧集合,将经过预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中,以提取桥梁缺陷的目标位置和桥梁缺陷的类别,将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。本发明能够解决现有基于人工实现的桥梁缺陷识别方法检测效率低下、以及对检测工作人员而言存在很大的人身安全隐患的技术问题。
Description
技术领域
本发明属于人工智能中的深度学习和图像处理技术领域,更具体地,涉及一种基于transformer的桥梁缺陷识别方法与系统。
背景技术
我国公共交通基础设施在过去十年飞速发展,桥梁里程逐年增加;近年来,随着桥梁的持续使用,我国的许多大型桥梁、公路的承重量远超其原本的设计水平再加上极端天气的影响,桥梁结构频繁出现不同程度的病害,这难免导致这些基础设施的老化甚至破损,从而时不时引发重大的交通安全事故,这些隐患对人们的生命财产安全带来了巨大的威胁,因此,桥梁缺陷识别在桥梁的修养与维护中起着重大作用。
目前传统的桥梁缺陷识别主要有两种,一种是采用人工检查来实现桥梁缺陷识别,这种识别方式需要工作人员手持测量仪器通过爬梯子或者架子的方式接近桥墩;另一种是基于神经网络模型的桥梁缺陷识别方法,目前这种方式使用的基本都是基于卷积神经网络训练出来的模型,在识别精度上很不理想。
然而,上述两种现有的缺陷识别方法存在一些不可忽略的缺陷:第一、对于基于人工实现的桥梁缺陷识别方法而言,由于该人工方法的局限性,往往会有许多地方无法检测到,检测效率低下,对于检测工作人员来说也存在很大的人身安全隐患;第二、针对基于神经网络模型的桥梁缺陷识别方法而言,在用于训练的数据不足时,容易导致神经网络模型在训练过程中出现过拟合的情况,并进而影响桥梁缺陷识别精度;同时现有方法在制作新的数据样本所需的开销巨大,在图片数据拍摄与标注标签方面都需要付出相当大的人力、物力和时间的技术问题;第三、针对基于神经网络模型的桥梁缺陷识别方法而言,其用于桥梁缺陷识别的数据集中桥梁缺陷的种类绝大部分为桥梁裂缝,其他种类的桥梁缺陷图片非常少,用这些数据集训练出来的神经网络模型只能有效检测桥梁裂缝这一种缺陷,导致该方法的应用领域狭窄;第四、现有的神经网络模型训练过程中是对输入的整张图片计算注意力的值,这就导致计算复杂度会随着输入图片大小呈指数级增长,在实际桥梁缺陷识别任务中很难达到较好的实时性;第五、现有的神经网络模型在特征提取过程中会造成许多特征损失,导致训练出来的模型在目标检测的边缘有很多的信息损失,对于桥梁裂缝这种本来就小的目标识别效果很差。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于transformer的桥梁缺陷识别方法和系统,其目的在于,解决现有基于人工实现的桥梁缺陷识别方法检测效率低下、以及对检测工作人员而言存在很大的人身安全隐患的技术问题,以及现有基于神经网络模型的桥梁缺陷识别方法在训练的数据不足时,容易导致神经网络模型在训练过程中出现过拟合的情况,并进而影响桥梁缺陷识别精度的技术问题,以及在制作新的数据样本所需的开销巨大,在图片数据拍摄与标注标签方面都需要付出相当大的人力、物力和时间的技术问题,以及神经网络模型只能有效检测桥梁裂缝这一种缺陷,导致该方法的应用领域狭窄的技术问题,以及计算复杂度会随着输入图片大小呈指数级增长,在实际桥梁缺陷识别任务中很难达到较好的实时性的技术问题,以及由于在特征提取过程中会出现许多特征损失,导致训练出来的模型在目标检测的边缘有很多的信息损失,并最终导致对桥梁裂缝这种小目标识别效果很差的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于transformer的桥梁缺陷识别方法,包括以下步骤:
(1)获取桥梁的视频,按照固定时间长度对该桥梁的视频进行视频帧提取,获取的所有视频帧构成视频帧集合;
(2)对步骤(1)获取的视频帧集合进行灰度化处理,以获取灰度化处理后的视频帧集合;
(3)将经过步骤(2)预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中,以提取桥梁缺陷的目标位置和桥梁缺陷的类别,将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。
优选地,桥梁缺陷识别模型包含依次连接的特征提取主干网络、信息损失区域提取网络、区域推荐网络RPN、节点编码器、序列编码器以及像素解码器网络六个部分;
第一层是特征提取主干网络,特征提取主干网络包含一个区域分割模块、一个线性嵌入模块、三个顺次连接的区域合并模块、以及四个transformer单元;
第二层是信息损失区域提取网络,其输入为特征提取主干网络中最后一个区域合并模块输出的特征张量,经过特征图金字塔网络FPN上采样阶段的每一层获取一个特征图,所有特征图构成特征图集合{,,,…,},其中num表示FPN中上采样阶段的总层数,根据最后一层获取的特征图获取桥梁缺陷目标掩膜,然后对经过FPN的下采样阶段的最后一层后获取另一个桥梁缺陷目标掩膜,对和求差值,获取信息损失区域,将桥梁缺陷目标掩膜和信息损失区域输入到一个全卷积网络中,最终输出目标边缘损失信息感兴趣区域RoI,其为四叉树结构;
第三层是区域推荐网络。其输入为第二层信息损失区域提取网络获取的特征图集合,遍历其中的所有特征图,对每个特征图上的每个像素点都生成锚框,然后针对每个锚框而言,将其分为正样本和负样本,正样本为锚框和该特征图上人工标注的掩膜之间的交并比IoU大于0.7的锚框,负样本为锚框与掩膜的交并比小于0.3的锚框,然后对于每个正样本而言,进一步寻找该特征图上所有标注的掩膜中与其相交最大的掩膜,将这个最大的掩膜的桥梁缺陷的类别赋予这个正样本,然后对该正样本而言,利用前向传播方法计算偏移量,并根据偏移量对该正样本的位置进行调整,最终输出与该正样本对应的桥梁缺陷分类识别框;
第四层是节点编码器,其输入为第二层输出的四叉树结构的目标边缘损失信息RoI,根据该目标边缘损失信息RoI获取四叉树中每个节点的位置信息,将四叉树中每个节点的位置信息、FPN中对应位置的特征信息、以及桥梁缺陷目标掩膜的语义信息三者进行融合后,输出特征融合后的四叉特征树;
第五层是序列编码器,其输入为第四层输出的特征融合后的四叉特征树,使用多头自注意力模块和全连接前馈网络对该四叉特征树进行特征融合和更新,输出为序列编码后的特征张量;
第六层是像素解码器,其输入为第五层输出的序列编码后的特征张量,使用多层感知机MLP对其进行解码,输出为预测的实例标签。
优选地,特征提取主干网络的具体结构为:
区域分割模块,其将输入的桥梁缺陷图片平均分割成16个区域,并在每个区域内部分别计算注意力;
对于第一个区域合并模块而言,其输入为transformer 单元的输出的大小的特征张量,输出为的特征张量,对于第二个区域合并模块而言,其输入为第一个区域合并模块输出的的特征张量,输出为的特征张量;对于第三个区域合并模块而言,其输入为第二个区域合并模块输出的的特征张量,最终输出大小的特征张量。
优选地,桥梁缺陷识别模型是通过以下步骤训练获取的:
(3-1)获取多张桥梁缺陷图片组成的桥梁缺陷数据集,对该桥梁缺陷数据集进行预处理,对预处理后获取的桥梁缺陷数据集进行数据增强操作,对数据增强后的桥梁缺陷数据集进行标注,并将标注后的桥梁缺陷数据集按照3:1:1的比例随机划分为训练集、验证集和测试集;其中标注过程是使用标注工具对数据增强后的桥梁缺陷数据集进行缺陷类别标注,即用掩膜的形式将桥梁缺陷标注为裂缝、锈蚀、或剥落;
(3-2)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将其输入特征提取主干网络,使用48个大小的卷积核,将桥梁缺陷图片划分成16个 大小的区域,并将这16个区域嵌入成一个维度为大小的特征张量I;
(3-3)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将步骤(3-2)获取的该张桥梁缺陷图片对应的特征张量I输入transformer 单元中,在该桥梁缺陷图片的16个区域内并行进行注意力的计算,并将注意力计算后的所有区域进行合并,以获取该桥梁缺陷图片对应的特征图;其中在注意力计算过程中每个区域对应特征张量I的一个大小的向量范围;
(3-5)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将步骤(3-4)获取的该桥梁缺陷图片对应的特征图输入FPN网络中,以获取对应的RoI金字塔,根据RoI金字塔预测桥梁缺陷粗略掩码,同时在RoI金字塔的每一层获取一个特征图,根据获取的所有num个特征图获取目标边缘损失信息RoI特征,并根据目标边缘损失信息RoI特征构建与该桥梁缺陷图片对应的、多层次的RoI四叉树,RoI四叉树的各个节点中存储了每个像素点特征和节点之间的相对位置编码,其中i∈[1,num],num表示RoI金字塔中的层数;
(3-6)使用步骤(3-5)中RoI金字塔的所有层获取的特征图对RPN网络进行训练,根据训练好的RPN网络为步骤(3-1)获取的训练集中每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框;
(3-7)针对步骤(3-5)中获取的每个桥梁缺陷图片而言,从其对应的RoI四叉树中的所有节点的3×3 邻域中提取领域特征,再经全连接层将提取的领域特征压缩为1×1特征维度的局部特征,将步骤(3-5)中从 FPN 金字塔的每一层获取的特征图中的所有像素点特征、步骤(3-5)中预测到的桥梁缺陷粗略掩码、步骤(3-5)获取的RoI四叉树中所有节点之间的相对位置编码,以及本步骤压缩后的局部特征相加,获取该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树;
(3-8)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将(3-7)获取的该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树输入序列编码器中,由其中的多头注意力模块对该缺陷目标边缘损失信息四叉特征树中的每个节点进行特征融合及更新,从而最终获取该桥梁缺陷图片对应的、序列编码后的特征向量;
(3-9)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将经过步骤(3-8)获取的该桥梁缺陷图片对应的、序列编码后的特征向量输入像素解码器中,以对特征向量每个维度的输出查询进行解码,从而获取该桥梁缺陷图片中所有n个像素点中每个像素点对应的最终预测缺陷实例标签,并根据该最终预测缺陷实例标签和该像素点对应的实际标签获取交叉熵损失函数;
(3-10)根据步骤(3-9)获取的交叉熵损失损失函数、并利用反向传播方法对桥梁缺陷识别模型进行迭代训练,直到该桥梁缺陷识别模型收敛为止,从而获取初步训练好的桥梁缺陷识别模型;
(3-11)使用步骤(3-1)获取的测试集对步骤(3-10)初步训练好的桥梁缺陷识别模型进行验证,直到获取的检测精度达到最优为止,从而获取训练好的桥梁缺陷识别模型。
优选地,步骤(3-3)具体为,先将输入的特征张量I进行层归一化,然后将特征张量I对应的特征图切分成多个窗口,计算每个窗口之间的注意力值,随后将所有窗口合并,以形成整张桥梁缺陷图片的特征图,并将特征图和注意力值进行加权处理,以获取附加有注意力的特征图,最后再通过transformer 单元中的归一化操作和全连接层处理,输出该桥梁缺陷图片对应的特征图。
优选地,步骤(3-6)包括以下子步骤:
(3-6-1)设置计数器cnt=1;
(3-6-2)判断cnt1是否大于步骤(3-5)中RoI金字塔中的层数num,如果是则进入步骤(3-6-8),否则进入步骤(3-6-3);
(3-6-3)设置计数器cnt2=1;
(3-6-5)对金字塔第cnt1层获取的特征图中的第cnt2个像素点生成锚点框,计算锚点框和其标记的掩膜之间的IoU值,并判断IoU是否大于等于0.7,如果是则标记该锚点框为前景锚点框,并记录与该前景锚点框之间IoU值最大的掩膜的类别标签(其中j∈[1,3],第1个类别表示裂缝,第2个类别表示锈蚀,第3个类别表示剥落),然后转入步骤(3-6-6);如果是处于0.3到0.7之间,则视为无效锚框,过程结束;如果IoU小于等于0.3,则标记该锚点框为背景锚点框,然后转入步骤(3-6-6);
(3-6-6)设置cnt2 = cnt2 + 1,并返回步骤(3-6-4);
(3-6-7)设置cnt1 = cnt1 + 1,并返回步骤(3-6-2);
(3-6-8)获取所有前景锚点框和背景锚点框的个数,如果前景锚点框个数大于128,则只取IoU值最高的128个前景锚点框,其余舍弃,如果背景锚点框个数大于128,则只取IoU值最低的128个背景锚点框,其余舍弃,然后转入步骤(3-6-9);
(3-6-11)根据训练好的RPN网络为步骤(3-1)获取的训练集中的每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框,该目标分类带有该桥梁缺陷图片中桥梁缺陷的种类。
优选地,步骤(3-9)中使用的交叉熵损失函数为:
其中n=50176。
优选地,步骤(3-6-9)中使用的Softmax函数为:
;
步骤(3-6-10)中使用的交叉熵损失函数为:
按照本发明的另一方面,提供了一种基于transformer的桥梁缺陷识别系统,包括:
第一模块,用于获取桥梁的视频,按照固定时间长度对该桥梁的视频进行视频帧提取,获取的所有视频帧构成视频帧集合;
第二模块,用于对第一模块获取的视频帧集合进行灰度化处理,以获取灰度化处理后的视频帧集合;
第三模块,用于将经过第二模块预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中,以提取桥梁缺陷的目标位置和桥梁缺陷的类别,将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明由于采用了步骤(1),其可以通过道路巡检车、边缘摄像头设备、无人机载摄像头和用户手机摄像头拍摄桥梁、桥墩、桥梁拉索的表层视频来提取桥梁缺陷数据,因此能够解决现有基于人工的桥梁缺陷识别方法由于自身的局限性导致许多位置无法检测到、检测效率低下、对于检测工作人员存在很大人身安全隐患的技术问题。
2、本发明由于在桥梁缺陷识别模型训练过程中采用了步骤(3-1),其通过翻转、旋转、裁剪数据的方式增强了现有的数据集,因此,能够解决现有基于神经网络模型的桥梁缺陷识别方法其在数据不足时,容易导致模型在训练过程中出现过拟合的情况,并最终降低桥梁缺陷识别精度的技术问题以及现有基于神经网络模型的桥梁缺陷识别方法在制作新的数据样本所需的开销巨大,在图片数据拍摄与标注标签方面都需要付出相当大的人力、物力和时间的技术问题;
3、本发明由于在训练过程中采用了步骤(3-1),其使用了自己采集、处理和标注过的桥梁缺陷数据集进行桥梁缺陷识别模型的训练,扩展了桥梁缺陷的种类,训练出的桥梁缺陷识别模型能够对桥梁裂缝、锈蚀和剥落三种桥梁缺陷进行有效的识别。随着模型使用过程中数据量的增加,模型将能学习到更多的桥梁缺陷的特征,从而对更多的桥梁缺陷进行有效识别。因此能够解决用于桥梁缺陷识别的数据集中桥梁缺陷的种类绝大部分为桥梁裂缝,其他种类的桥梁缺陷图片非常少,用这些数据集训练出来的神经网络模型只能有效检测桥梁裂缝这一种缺陷,导致该方法的应用领域狭窄的技术问题。
4、本发明由于在桥梁缺陷的特征提取的过程中采用了步骤(3-2)到(3-4),其通过将输入图片数据划分成一个个区域并在每个区域内单独计算注意力的方式,从而使计算量不受图片大小的影响,能够有效的提高计算效率,因此能够解决现有的深度神经网络模型训练过程中是对输入的整张图片计算注意力的值,这就导致计算复杂度会随着输入图片大小呈指数级增长,在实际桥梁缺陷识别任务中很难达到较好的实时性的技术问题。
5、本发明由于采用了步骤(3-5)到(3-7),其提取了特征信息损失区域,在桥梁缺陷目标的边缘上加了一层特征信息,因此能够解决现有的卷积神经网络模型在特征提取过程中会造成许多特征损失,导致训练出来的模型在目标检测的边缘有很多的信息损失,对于桥梁裂缝这种本来就小的目标识别效果很差的技术问题。
6、本发明由于在步骤(3-3)和步骤(3-8)中加入了基于transformer结构的模块,因此能够避开图片数据上有较多类似桥梁缺陷的干扰项如阳光照射的阴影、桥梁积水等,虽然其特征类似桥梁缺陷的特征,但是模型不会将其识别出来。
附图说明
图1是本发明基于transformer的桥梁缺陷识别方法中使用的桥梁缺陷识别模型的示意图;
图2是本发明桥梁缺陷识别模型中特征提取主干网络中transformer单元的结构示意图;
图3是本发明基于transformer的桥梁缺陷识别方法的流程示意图;
图4是本发明将输入的桥梁缺陷图片划分成多个区域的示意图;
图5是本发明对于桥梁缺陷中剥落(sp)和锈蚀(rt)情况的识别结果示例;
图6是本发明对于桥梁缺陷中裂缝(ck)情况的识别结果示例;
图7是使用传统卷积神经网络训练出来的模型对于桥梁缺陷中裂缝况的识别结果示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明通过对桥梁缺陷的数据集观察分析发现,桥梁的几种缺陷——裂缝、剥落、锈蚀都有一个特征,即目标太小。过去的一些经典数据集如ImageNet、COCO和PASCAL VOC等,包含的种类都是诸如人类、动物、交通工具和家具用品等这种大的物品。本发明使用传统的语义分割算法在这种小目标的任务上会出现许多的问题——首先,受限于人力标注数据准确度有限,人们在直接标注语义分割数据集时往往很难准确的描绘出物体的边缘,但是将图片进行放大后再标注又会浪费很多的时间。当本发明将直接标注好的数据放大后进行查看,会发现在物体的边缘标注基本都不准确。其次,在目标物体比较小的时候,本发明的训练数据和测试数据对于模型的检测结果就有很大的影响。比如说整个目标物体原本应该占比100%,但是由于本发明标注不精确,这个比例就会降低,目标越大,这种不精确带来的误差就越小,举例来说对于一只小狗,本发明的标注如果边缘稍微多出一点,那么在检测出来时,这多出的一部分只占整个检测区域的很小一部分比例,但是对于一只蝴蝶,检测出来的误差区域就会变得更大。前面提到过桥梁缺陷的目标往往都非常小,所以最后这种边缘不精确会带来很大的误差。
对于图片的特征提取,传统卷积神经网络是使用一个卷积核对整个图像进行扫描。一个卷积核所能关注到的区域仅为m*n的大小。如图4所示,利用transformer结构,本发明可以将一个图片划分为一个一个的区域(patch,然后再对每个区域计算相互之间的一个自注意(self-attention),这样一来本发明就可以计算每一个像素点和其他像素点之间的一个关联性,从而能够关注到图片更多的细节,进而提高密集型的任务如桥梁缺陷识别的准确率。
针对桥梁缺陷识别领域存在的由于细小不足问题,本发明提出了一种基于transformer结构的,对样本进行特征提取、注意力计算和信息损失区域提取的方法。先对现有的数据进行扩充增强,扩充的数据能填补原始样本在样本空间的间隙,提升模型对整个样本空间的泛化能力。然后通过对信息损失区域的特征提取和利用transformer结构进行特征融合,进而提升桥梁缺陷识别模型识别的准确率。
如图3所示,本发明提供了一种基于transformer的桥梁缺陷识别方法,包括以下步骤:
(1)获取桥梁的视频,按照固定时间长度对该桥梁的视频进行视频帧提取,获取的所有视频帧构成视频帧集合;
具体而言,本步骤是通过诸如桥梁监测车辆、道路巡检车、边缘摄像头设备、无人机等工具获取桥梁、桥墩、桥梁拉索的表层视频,所有这些表层视频构成桥梁的视频;
本步骤中对视频提取视频帧的时间长度是20到80帧,优选为40帧。
本步骤的优点在于,可以筛选掉大部分的冗余数据,提升训练效率。由于相同的一个桥梁缺陷可能会在视频中连续的一些帧中重复出现,这些数据都提取出来的话对于模型的训练无法带来实际的提升,只会降低训练效率。
(2)对步骤(1)获取的视频帧集合进行灰度化处理,以获取灰度化处理后的视频帧集合;
本步骤的优点在于,通过减少噪声像素,保留特征像素,简化特征矩阵从而提高计算效率。
(3)将经过步骤(2)预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中,以提取桥梁缺陷的目标位置和桥梁缺陷的类别,将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。
如图1所示,本发明的桥梁缺陷识别模型包含依次连接的特征提取主干网络(其是基于transformer优化实现)、信息损失区域提取网络、区域推荐网络(Region ProposalNetwork,简称RPN)、节点编码器、序列编码器(基于transformer优化实现)以及像素解码器网络六个部分。
第一层是特征提取主干网络,特征提取主干网络包含一个区域分割(Patchpartition)模块、一个线性嵌入模块、三个顺次连接的区域合并(Patch merging)模块、以及四个如图2所示的transformer单元(Block),其具体结构为:
区域分割模块,将输入的桥梁缺陷图片(其为RGB图像,宽度W为224,高度H为224,通道数为3)平均分割成16个区域(如图4所示),并在每个区域内部分别计算注意力。
对于第一个区域合并模块而言,其输入为transformer 单元的输出的大小的特征张量,输出为的特征张量,对于第二个区域合并模块而言,其输入为第一个区域合并模块输出的的特征张量,输出为的特征张量;对于第三个区域合并模块而言,其输入为第二个区域合并模块输出的的特征张量,最终输出大小的特征张量。
第二层是信息损失区域提取网络,其输入为第一层中最后一个区域合并模块输出的特征张量,经过特征图金字塔网络(Feature Pyramid Networks,简称FPN)上采样阶段的每一层获取一个特征图,所有特征图构成特征图集合{,,,…,},其中num表示FPN中上采样阶段的总层数,根据最后一层获取的特征图获取桥梁缺陷目标掩膜,然后对经过FPN的下采样阶段的最后一层后获取另一个桥梁缺陷目标掩膜,对和求差值,获取信息损失区域,将桥梁缺陷目标掩膜和信息损失区域输入到一个全卷积网络中,最终输出目标边缘损失信息感兴趣区域(Region of interest,简称RoI),其为四叉树结构。
第三层是区域推荐网络。其输入为第二层信息损失区域提取网络获取的特征图集合,遍历其中的所有特征图,对每个特征图上的每个像素点都生成锚框,然后针对每个锚框而言,将其分为正样本和负样本,正样本为锚框和该特征图上人工标注的掩膜(标注方式见下面步骤(3-1))之间的交并比(intersection overunion,简称IoU)大于0.7的锚框,负样本为锚框与掩膜的交并比小于0.3的锚框,然后对于每个正样本而言,进一步寻找该特征图上所有标注的掩膜中与其相交最大的掩膜,将这个最大的掩膜的桥梁缺陷的类别(裂缝、锈蚀、剥落)赋予这个正样本,然后对该正样本而言,利用前向传播方法计算偏移量,并根据偏移量对该正样本的位置进行调整,最终输出与该正样本对应的、准确的桥梁缺陷分类识别框。
第四层是节点编码器,其输入为第二层输出的四叉树结构的目标边缘损失信息RoI,根据该目标边缘损失信息RoI获取四叉树中每个节点的位置信息,将四叉树中每个节点的位置信息、FPN中对应位置的特征信息、以及桥梁缺陷目标掩膜的语义信息三者进行融合后,输出特征融合后的四叉特征树。
本步骤的优点在于,使用了四种不同的信息对节点进行编码,有助于物体边缘检测的优化。
第五层是序列编码器,其输入为第四层输出的特征融合后的四叉特征树,使用多头自注意力模块和全连接前馈网络对该四叉特征树进行特征融合和更新,输出为序列编码后的特征张量。
第六层是像素解码器,其输入为第五层输出的序列编码后的特征张量,使用多层感知机(Multilayer Perceptron,简称MLP)对其进行解码,输出为预测的实例标签。
具体而言,本发明的桥梁缺陷识别模型是通过以下步骤训练获取的:
(3-1)获取多张桥梁缺陷图片(在本实例中是3021张,每张桥梁缺陷图片宽W为224,高H为224,通道数为3)组成的桥梁缺陷数据集,对该桥梁缺陷数据集进行预处理,对预处理后获取的桥梁缺陷数据集进行数据增强操作,对数据增强后的桥梁缺陷数据集进行标注,并将标注后的桥梁缺陷数据集按照3:1:1的比例随机划分为训练集、验证集和测试集。
需要注意的是,本步骤中对图片进行预处理的过程和上述步骤(2)完全相同,在此不再赘述。
此外,针对桥梁缺陷数据集的数据量比较小的情况,在深度学习中,用于训练的数据量少将导致卷积神经网络学习到的特征更片面,所得模型泛化能力差,易发生过拟合。为了避免路面图像的特征和形态发生变化,本发明通过数据增强对数据集进行扩充,具体而言,本发明采用简单的图形变换技术,以获取的桥梁缺陷数据集为基准,创建一些数据的多个副本来增加样本集的多样性,这样能有效降低模型的泛化误差,增加模型的鲁棒性。
进而言之,本发明对桥梁缺陷数据集进行翻转(包括水平翻转和垂直翻转)、平移和旋转处理,神经网络对即便放在不同方向上物体也能进行稳健的分类,网络对物体的平移、旋转以及不同视角等保持高度不变性。利用图片空间上的特性,对数据集进行扩增,通过这种方法,本发明可以将原图片经过数据增强后可获取5个图像副本,这样原来的3021张桥梁缺陷图片增加到18126张。
更进而言之,本步骤中的标注过程具体为,使用标注工具labelme对数据增强后的桥梁缺陷数据集进行缺陷类别标注(即用掩膜的形式将桥梁缺陷标注出来):裂缝(ck)、锈蚀(rt)、以及剥落(sp)。
再进而言之,本发明中的训练集用于调整桥梁缺陷识别模型中可训练权重和偏置等参数,验证集则被用来调整桥梁缺陷识别模型的学习率等超参数,测试集不参与模型的训练,用于统计测试桥梁缺陷识别模型最后的预测效果。
本步骤优点在于,扩展了桥梁缺陷种类,使得训练出来的桥梁缺陷识别模型不再只能针对裂缝一种缺陷有效,增强了模型的适用性。
(3-2)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将其输入特征提取主干网络,使用48个大小的卷积核,将桥梁缺陷图片划分成16个 大小的区域,并将这16个区域嵌入成一个维度为大小的特征张量I;
(3-3)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将步骤(3-2)获取的该张桥梁缺陷图片对应的特征张量I输入transformer 单元当中,在该桥梁缺陷图片的16个区域内并行进行注意力的计算(每个区域对应特征张量I的一个大小的向量范围),并将注意力计算后的所有区域进行合并,以获取该桥梁缺陷图片对应的特征图(该特征图附加了注意力);
具体而言,先将输入的特征张量I进行层归一化,然后将特征张量I对应的特征图切分成一个个窗口,计算每个窗口之间的注意力值,计算完注意力之后,将各个窗口合并回来,形成整张桥梁缺陷图片的特征图,将特征图和注意力值进行加权处理,以获取对每个像素点都计算过注意力的特征图,最后再通过transformer 单元中的归一化操作和全连接层处理,输出该桥梁缺陷图片对应的特征图。
上述步骤(3-2)到步骤(3-3)的优点在于,第一:通过引入transformer结构进行特征提取,建立了桥梁缺陷图片中所有像素点之间的关系网络,有利于提高生成掩膜的准确度;第二:将注意力计算限制在大小的区域内,进行并行的计算,节省总时间,提高运行效率。
(3-4)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将步骤(3-3)获取的该桥梁缺陷图片对应的特征图输入区域合并模块进行降采样(其用于缩小分辨率,调整通道数),以获取该桥梁缺陷图片对应的、降采样后的特征图。
具体而言,本步骤一共进行三次降采样,每次降采样在行方向和列方向上,间隔2选取元素,然后拼接在一起作为一整个特征张量,最后展开,此时通道维度会变成原先的4倍(因为高度H和宽度W各缩小2倍),此时再通过一个全连接层再调整通道维度为原来的两倍,从而节省一定的运算量,提高计算效率。
(3-5)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将步骤(3-4)获取的该桥梁缺陷图片对应的特征图输入FPN网络中,以获取对应的RoI金字塔,根据RoI金字塔预测桥梁缺陷粗略掩码,同时在RoI金字塔的每一层获取一个特征图(其中i∈[1,num],num表示RoI金字塔中的层数),根据获取的所有num个特征图获取目标边缘损失信息RoI特征,并根据目标边缘损失信息RoI特征构建与该桥梁缺陷图片对应的、多层次的RoI四叉树,RoI四叉树的各个节点中存储了每个像素点特征和节点之间的相对位置编码。
更为具体地,为了检测RoI金字塔上的不同层级上信息损失节点,信息损失区域提取网络先将特征图经过FPN网络构建的RoI金字塔上最低层的RoI特征(28x28)和预测的桥梁缺陷粗略掩码作为输入,然后采用一个全卷积网络(四个3×3 卷积)预测四叉树的根节点,每个根结点会对应到临近更高RoI层的4个子节点,对于高层的RoI特征,信息损失区域提取网络对上一层损失区域检测的掩膜做上采样后与RoI特征拼接,并使用单个1×1卷积层预测更精细的信息损失节点,以保持检测模块的轻量化。
上述步骤(3-4)到步骤(3-5)的优点在于,提取了目标边缘的损失信息,使得我们在生成目标掩膜的过程中,可以特别注意损失信息区域特征,提高掩膜生成的准确度。
(3-6)使用步骤(3-5)中RoI金字塔的所有层获取的特征图对RPN网络进行训练,根据训练好的RPN网络为步骤(3-1)获取的训练集中每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框。
本步骤包括以下子步骤:
(3-6-1)设置计数器cnt=1;
(3-6-2)判断cnt1是否大于步骤(3-5)中RoI金字塔中的层数num,如果是则进入步骤(3-6-8),否则进入步骤(3-6-3);
(3-6-3)设置计数器cnt2=1;
(3-6-5)对金字塔第cnt1层获取的特征图中的第cnt2个像素点生成锚点框,计算锚点框和其标记的掩膜之间的IoU值,并判断IoU是否大于等于0.7,如果是则标记该锚点框为前景锚点框,并记录与该前景锚点框之间IoU值最大的掩膜的类别标签(其中j∈[1,3],第1个类别表示裂缝,第2个类别表示锈蚀,第3个类别表示剥落),然后转入步骤(3-6-6);如果是处于0.3到0.7之间,则视为无效锚框,过程结束;如果IoU小于等于0.3,则标记该锚点框为背景锚点框,然后转入步骤(3-6-6);
(3-6-6)设置cnt2 = cnt2 + 1,并返回步骤(3-6-4);
(3-6-7)设置cnt1 = cnt1 + 1,并返回步骤(3-6-2);
(3-6-8)获取所有前景锚点框和背景锚点框的个数,如果前景锚点框个数大于128,则只取IoU值最高的128个前景锚点框,其余舍弃,如果背景锚点框个数大于128,则只取IoU值最低的128个背景锚点框,其余舍弃,然后转入步骤(3-6-9);
Softmax函数如下所示:
交叉熵损失函数如下:
(3-6-11)根据训练好的RPN网络为步骤(3-1)获取的训练集中的每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框,该目标分类带有该桥梁缺陷图片中桥梁缺陷的种类(裂缝、锈蚀或剥落中的一种)。
上述步骤(3-6-1)到步骤(3-6-11)的优点在于,为模型增加了一个标注框网络,使得模型可以将桥梁缺陷的位置利用锚点框标记出来,能在结果展示时更为直观。
(3-7)针对步骤(3-5)中获取的每个桥梁缺陷图片而言,从其对应的RoI四叉树中的所有节点的3×3 邻域中提取领域特征,再经全连接层将提取的领域特征压缩为1×1特征维度的局部特征,将步骤(3-5)中从 FPN 金字塔的每一层获取的特征图中的所有像素点特征、步骤(3-5)中预测到的桥梁缺陷粗略掩码、步骤(3-5)获取的RoI四叉树中所有节点之间的相对位置编码,以及本步骤压缩后的局部特征相加,获取该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树。
本步骤优点在于,融合了四种特征对RoI四叉树进行编码,丰富了桥梁缺陷的语义信息,提高桥梁缺陷掩膜生成的精度。
(3-8)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将(3-7)获取的该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树输入序列编码器中,由其中的多头注意力(Multi-head Self- attention)模块对该缺陷目标边缘损失信息四叉特征树中的每个节点进行特征融合及更新,从而最终获取该桥梁缺陷图片对应的、序列编码后的特征向量。
具体而言,序列编码器的每一层都由多头自注意力模块和全连接的前馈网络组成。为了给输入序列补充足够的前景和背景信息,本发明还将RoI金字塔中最低层大小为14x14的196个特征点输入。
(3-9)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将经过步骤(3-8)获取的该桥梁缺陷图片对应的、序列编码后的特征向量输入像素解码器中(该像素解码器由两层 MLP组成),以对特征向量每个维度的输出查询进行解码,从而获取该桥梁缺陷图片中所有n个像素点(其中n=50176)中每个像素点对应的最终预测缺陷实例标签,并根据该最终预测缺陷实例标签和该像素点对应的实际标签获取以下交叉熵损失函数。
(3-10)根据步骤(3-9)获取的交叉熵损失损失函数、并利用反向传播方法对桥梁缺陷识别模型进行迭代训练,直到该桥梁缺陷识别模型收敛为止,从而获取初步训练好的桥梁缺陷识别模型。
(3-11)使用步骤(3-1)获取的测试集对步骤(3-10)初步训练好的桥梁缺陷识别模型进行验证,直到获取的检测精度达到最优为止,从而获取训练好的桥梁缺陷识别模型。
实验结果
为了说明本发明方法的有效性以及对于分类效果的提升,在桥梁缺陷的数据集上与几个主流的网络模型展开了对比实验。Mask-RCNN和U-net网络是采用传统卷积神经网络方法来获取裂缝特征,再使用FPN,区域推荐的网络,全连接神经网络分类输出的一种裂缝检测算法。而本发明构建的算法由于在主干网络和预测网络不分都加上了多头自注意力,所以在识别的准确度上有较为明显的提高,在输出的分割图像上也更为精细。
从下面的实验结果分析表中可以看出,本发明提出的方法相对于传统方法,在每个桥梁缺陷种类的识别平均精度(Average Precision,简称AP)结果上,都有15%~40%的提升。
如图3所示,用户可以从小程序或无人机载摄像头拍摄桥梁表征图片,上传图片后会发送至本发明的云端服务器将图片数据输入至事先训练好的算法模型中,实时输出缺陷的语义分割图片,如图5、图6所示,从图5中可以看出,图中虽然有非常一小块桥梁剥落(sp)区域,但是模型能准确的将其标注出来,并且掩膜的覆盖度很高;同时,对于多个缺陷重叠的情况,如图中锈蚀和剥落的区域重叠了,模型也能准确的将二者区分开来;从图6中可以看出,对于这种细小的裂缝,模型也能精确的标注出裂缝的掩膜,不会出现传统神经网络训练出来的如图7所示的掩膜断裂的情况。并对缺陷的分类数据统计,最后展示给用户可视化的分析结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于transformer的桥梁缺陷识别方法,其特征在于,包括以下步骤:
(1)获取桥梁的视频,按照固定时间长度对该桥梁的视频进行视频帧提取,获取的所有视频帧构成视频帧集合;
(2)对步骤(1)获取的视频帧集合进行灰度化处理,以获取灰度化处理后的视频帧集合;
(3)将经过步骤(2)预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中,以提取桥梁缺陷的目标位置和桥梁缺陷的类别,将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。
2.根据权利要求1所述的基于transformer的桥梁缺陷识别方法,其特征在于,
桥梁缺陷识别模型包含依次连接的特征提取主干网络、信息损失区域提取网络、区域推荐网络RPN、节点编码器、序列编码器以及像素解码器网络六个部分;
第一层是特征提取主干网络,特征提取主干网络包含一个区域分割模块、一个线性嵌入模块、三个顺次连接的区域合并模块、以及四个transformer单元;
第二层是信息损失区域提取网络,其输入为特征提取主干网络中最后一个区域合并模块输出的特征张量,经过特征图金字塔网络FPN上采样阶段的每一层获取一个特征图,所有特征图构成特征图集合{,,,…,},其中num表示FPN中上采样阶段的总层数,根据最后一层获取的特征图获取桥梁缺陷目标掩膜,然后对经过FPN的下采样阶段的最后一层后获取另一个桥梁缺陷目标掩膜,对和求差值,获取信息损失区域,将桥梁缺陷目标掩膜和信息损失区域输入到一个全卷积网络中,最终输出目标边缘损失信息感兴趣区域RoI,其为四叉树结构;
第三层是区域推荐网络,其输入为第二层信息损失区域提取网络获取的特征图集合,遍历其中的所有特征图,对每个特征图上的每个像素点都生成锚框,然后针对每个锚框而言,将其分为正样本和负样本,正样本为锚框和该特征图上人工标注的掩膜之间的交并比IoU大于0.7的锚框,负样本为锚框与掩膜的交并比小于0.3的锚框,然后对于每个正样本而言,进一步寻找该特征图上所有标注的掩膜中与其相交最大的掩膜,将这个最大的掩膜的桥梁缺陷的类别赋予这个正样本,然后对该正样本而言,利用前向传播方法计算偏移量,并根据偏移量对该正样本的位置进行调整,最终输出与该正样本对应的桥梁缺陷分类识别框;
第四层是节点编码器,其输入为第二层输出的四叉树结构的目标边缘损失信息RoI,根据该目标边缘损失信息RoI获取四叉树中每个节点的位置信息,将四叉树中每个节点的位置信息、FPN中对应位置的特征信息、以及桥梁缺陷目标掩膜的语义信息三者进行融合后,输出特征融合后的四叉特征树;
第五层是序列编码器,其输入为第四层输出的特征融合后的四叉特征树,使用多头自注意力模块和全连接前馈网络对该四叉特征树进行特征融合和更新,输出为序列编码后的特征张量;
第六层是像素解码器,其输入为第五层输出的序列编码后的特征张量,使用多层感知机MLP对其进行解码,输出为预测的实例标签。
3.根据权利要求2所述的基于transformer的桥梁缺陷识别方法,其特征在于,特征提取主干网络的具体结构为:
区域分割模块,其将输入的桥梁缺陷图片平均分割成16个区域,并在每个区域内部分别计算注意力;
4.根据权利要求3所述的基于transformer的桥梁缺陷识别方法,其特征在于,桥梁缺陷识别模型是通过以下步骤训练获取的:
(3-1)获取多张桥梁缺陷图片组成的桥梁缺陷数据集,对该桥梁缺陷数据集进行预处理,对预处理后获取的桥梁缺陷数据集进行数据增强操作,对数据增强后的桥梁缺陷数据集进行标注,并将标注后的桥梁缺陷数据集按照3:1:1的比例随机划分为训练集、验证集和测试集;其中标注过程是使用标注工具对数据增强后的桥梁缺陷数据集进行缺陷类别标注,即用掩膜的形式将桥梁缺陷标注为裂缝、锈蚀、或剥落;
(3-2)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将其输入特征提取主干网络,使用48个大小的卷积核,将桥梁缺陷图片划分成16个 大小的区域,并将这16个区域嵌入成一个维度为大小的特征张量I;
(3-3)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将步骤(3-2)获取的该张桥梁缺陷图片对应的特征张量I输入transformer 单元中,在该桥梁缺陷图片的16个区域内并行进行注意力的计算,并将注意力计算后的所有区域进行合并,以获取该桥梁缺陷图片对应的特征图;其中在注意力计算过程中每个区域对应特征张量I的一个大小的向量范围;
(3-5)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将步骤(3-4)获取的该桥梁缺陷图片对应的特征图输入FPN网络中,以获取对应的RoI金字塔,根据RoI金字塔预测桥梁缺陷粗略掩码,同时在RoI金字塔的每一层获取一个特征图,根据获取的所有num个特征图获取目标边缘损失信息RoI特征,并根据目标边缘损失信息RoI特征构建与该桥梁缺陷图片对应的、多层次的RoI四叉树,RoI四叉树的各个节点中存储了每个像素点特征和节点之间的相对位置编码,其中i∈[1,num],num表示RoI金字塔中的层数;
(3-6)使用步骤(3-5)中RoI金字塔的所有层获取的特征图对RPN网络进行训练,根据训练好的RPN网络为步骤(3-1)获取的训练集中每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框;
(3-7)针对步骤(3-5)中获取的每个桥梁缺陷图片而言,从其对应的RoI四叉树中的所有节点的3×3 邻域中提取领域特征,再经全连接层将提取的领域特征压缩为1×1特征维度的局部特征,将步骤(3-5)中从 FPN 金字塔的每一层获取的特征图中的所有像素点特征、步骤(3-5)中预测到的桥梁缺陷粗略掩码、步骤(3-5)获取的RoI四叉树中所有节点之间的相对位置编码,以及本步骤压缩后的局部特征相加,获取该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树;
(3-8)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将(3-7)获取的该桥梁缺陷图片对应的缺陷目标边缘损失信息四叉特征树输入序列编码器中,由其中的多头注意力模块对该缺陷目标边缘损失信息四叉特征树中的每个节点进行特征融合及更新,从而最终获取该桥梁缺陷图片对应的、序列编码后的特征向量;
(3-9)针对步骤(3-1)获取的训练集中的每张桥梁缺陷图片而言,将经过步骤(3-8)获取的该桥梁缺陷图片对应的、序列编码后的特征向量输入像素解码器中,以对特征向量每个维度的输出查询进行解码,从而获取该桥梁缺陷图片中所有n个像素点中每个像素点对应的最终预测缺陷实例标签,并根据该最终预测缺陷实例标签和该像素点对应的实际标签获取交叉熵损失函数;
(3-10)根据步骤(3-9)获取的交叉熵损失损失函数、并利用反向传播方法对桥梁缺陷识别模型进行迭代训练,直到该桥梁缺陷识别模型收敛为止,从而获取初步训练好的桥梁缺陷识别模型;
(3-11)使用步骤(3-1)获取的测试集对步骤(3-10)初步训练好的桥梁缺陷识别模型进行验证,直到获取的检测精度达到最优为止,从而获取训练好的桥梁缺陷识别模型。
5.根据权利要求4所述的基于transformer的桥梁缺陷识别方法,其特征在于,步骤(3-3)具体为,先将输入的特征张量I进行层归一化,然后将特征张量I对应的特征图切分成多个窗口,计算每个窗口之间的注意力值,随后将所有窗口合并,以形成整张桥梁缺陷图片的特征图,并将特征图和注意力值进行加权处理,以获取附加有注意力的特征图,最后再通过transformer 单元中的归一化操作和全连接层处理,输出该桥梁缺陷图片对应的特征图。
6.根据权利要求5所述的基于transformer的桥梁缺陷识别方法,其特征在于,步骤(3-6)包括以下子步骤:
(3-6-1)设置计数器cnt=1;
(3-6-2)判断cnt1是否大于步骤(3-5)中RoI金字塔中的层数num,如果是则进入步骤(3-6-8),否则进入步骤(3-6-3);
(3-6-3)设置计数器cnt2=1;
(3-6-5)对金字塔第cnt1层获取的特征图中的第cnt2个像素点生成锚点框,计算锚点框和其标记的掩膜之间的IoU值,并判断IoU是否大于等于0.7,如果是则标记该锚点框为前景锚点框,并记录与该前景锚点框之间IoU值最大的掩膜的类别标签(其中j∈[1,3],第1个类别表示裂缝,第2个类别表示锈蚀,第3个类别表示剥落),然后转入步骤(3-6-6);如果是处于0.3到0.7之间,则视为无效锚框,过程结束;如果IoU小于等于0.3,则标记该锚点框为背景锚点框,然后转入步骤(3-6-6);
(3-6-6)设置cnt2 = cnt2 + 1,并返回步骤(3-6-4);
(3-6-7)设置cnt1 = cnt1 + 1,并返回步骤(3-6-2);
(3-6-8)获取所有前景锚点框和背景锚点框的个数,如果前景锚点框个数大于128,则只取IoU值最高的128个前景锚点框,其余舍弃,如果背景锚点框个数大于128,则只取IoU值最低的128个背景锚点框,其余舍弃,然后转入步骤(3-6-9);
(3-6-11)根据训练好的RPN网络为步骤(3-1)获取的训练集中的每张桥梁缺陷图片生成对应的桥梁缺陷目标分类框,该目标分类带有该桥梁缺陷图片中桥梁缺陷的种类。
9.一种基于transformer的桥梁缺陷识别系统,其特征在于,包括:
第一模块,用于获取桥梁的视频,按照固定时间长度对该桥梁的视频进行视频帧提取,获取的所有视频帧构成视频帧集合;
第二模块,用于对第一模块获取的视频帧集合进行灰度化处理,以获取灰度化处理后的视频帧集合;
第三模块,用于将经过第二模块预处理获取的视频帧集合输入训练好的桥梁缺陷识别模型中,以提取桥梁缺陷的目标位置和桥梁缺陷的类别,将桥梁缺陷的目标位置和桥梁缺陷的类别作为最终的桥梁缺陷识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211161939.7A CN115482491B (zh) | 2022-09-23 | 2022-09-23 | 一种基于transformer的桥梁缺陷识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211161939.7A CN115482491B (zh) | 2022-09-23 | 2022-09-23 | 一种基于transformer的桥梁缺陷识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115482491A true CN115482491A (zh) | 2022-12-16 |
CN115482491B CN115482491B (zh) | 2023-05-23 |
Family
ID=84393615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211161939.7A Active CN115482491B (zh) | 2022-09-23 | 2022-09-23 | 一种基于transformer的桥梁缺陷识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115482491B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953405A (zh) * | 2023-03-14 | 2023-04-11 | 中国科学院计算机网络信息中心 | 一种面向增强现实设备的桥梁裂缝识别方法及装置 |
CN116228608A (zh) * | 2023-05-10 | 2023-06-06 | 耕宇牧星(北京)空间科技有限公司 | 一种用于遥感图像去雾的处理网络及遥感图像去雾方法 |
CN116485729A (zh) * | 2023-04-03 | 2023-07-25 | 兰州大学 | 基于transformer的多级桥梁缺陷检测方法 |
CN116664846A (zh) * | 2023-07-31 | 2023-08-29 | 华东交通大学 | 基于语义分割实现3d打印桥面施工质量监测方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108293125A (zh) * | 2014-11-14 | 2018-07-17 | 华为技术有限公司 | 一种数字图像处理系统和方法 |
CN109712118A (zh) * | 2018-12-11 | 2019-05-03 | 武汉三江中电科技有限责任公司 | 一种基于Mask RCNN的变电站隔离开关检测识别方法 |
CN110555842A (zh) * | 2019-09-10 | 2019-12-10 | 太原科技大学 | 一种基于锚点集优化的硅片图像缺陷检测方法 |
US20200175352A1 (en) * | 2017-03-14 | 2020-06-04 | University Of Manitoba | Structure defect detection using machine learning algorithms |
CN112101138A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度学习的桥梁拉索表面缺陷实时识别系统及方法 |
CN113378812A (zh) * | 2021-05-21 | 2021-09-10 | 郑州大学 | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 |
CN113435216A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 神经网络机器翻译模型训练方法、机器翻译方法和装置 |
CN113870263A (zh) * | 2021-12-02 | 2021-12-31 | 湖南大学 | 一种路面缺陷损伤实时监测方法及系统 |
WO2022022368A1 (zh) * | 2020-07-28 | 2022-02-03 | 宁波环视信息科技有限公司 | 基于深度学习的监所行为规范检测装置及方法 |
CN114494164A (zh) * | 2022-01-13 | 2022-05-13 | 大连嘉济自动化机电科技有限公司 | 一种钢材表面缺陷检测方法、装置及计算机存储介质 |
CN114972213A (zh) * | 2022-05-09 | 2022-08-30 | 浙江科技学院 | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 |
-
2022
- 2022-09-23 CN CN202211161939.7A patent/CN115482491B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108293125A (zh) * | 2014-11-14 | 2018-07-17 | 华为技术有限公司 | 一种数字图像处理系统和方法 |
US20200175352A1 (en) * | 2017-03-14 | 2020-06-04 | University Of Manitoba | Structure defect detection using machine learning algorithms |
CN109712118A (zh) * | 2018-12-11 | 2019-05-03 | 武汉三江中电科技有限责任公司 | 一种基于Mask RCNN的变电站隔离开关检测识别方法 |
CN110555842A (zh) * | 2019-09-10 | 2019-12-10 | 太原科技大学 | 一种基于锚点集优化的硅片图像缺陷检测方法 |
WO2022022368A1 (zh) * | 2020-07-28 | 2022-02-03 | 宁波环视信息科技有限公司 | 基于深度学习的监所行为规范检测装置及方法 |
CN112101138A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度学习的桥梁拉索表面缺陷实时识别系统及方法 |
CN113378812A (zh) * | 2021-05-21 | 2021-09-10 | 郑州大学 | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 |
CN113435216A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 神经网络机器翻译模型训练方法、机器翻译方法和装置 |
CN113870263A (zh) * | 2021-12-02 | 2021-12-31 | 湖南大学 | 一种路面缺陷损伤实时监测方法及系统 |
CN114494164A (zh) * | 2022-01-13 | 2022-05-13 | 大连嘉济自动化机电科技有限公司 | 一种钢材表面缺陷检测方法、装置及计算机存储介质 |
CN114972213A (zh) * | 2022-05-09 | 2022-08-30 | 浙江科技学院 | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 |
Non-Patent Citations (3)
Title |
---|
LEI KE 等: "Mask Transfiner for High-Quality Instance Segmentation", 《ARXIV:2111.13673V1》 * |
WENJUN WANG 等: "Automatic Classification of Reinforced Concrete Bridge Defects Using the Hybrid Network", 《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》 * |
晏班夫 等: "基于Faster R-CNN与形态法的路面病害识别", 《中国公路学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953405A (zh) * | 2023-03-14 | 2023-04-11 | 中国科学院计算机网络信息中心 | 一种面向增强现实设备的桥梁裂缝识别方法及装置 |
CN115953405B (zh) * | 2023-03-14 | 2023-05-26 | 中国科学院计算机网络信息中心 | 一种面向增强现实设备的桥梁裂缝识别方法及装置 |
CN116485729A (zh) * | 2023-04-03 | 2023-07-25 | 兰州大学 | 基于transformer的多级桥梁缺陷检测方法 |
CN116485729B (zh) * | 2023-04-03 | 2024-01-12 | 兰州大学 | 基于transformer的多级桥梁缺陷检测方法 |
CN116228608A (zh) * | 2023-05-10 | 2023-06-06 | 耕宇牧星(北京)空间科技有限公司 | 一种用于遥感图像去雾的处理网络及遥感图像去雾方法 |
CN116664846A (zh) * | 2023-07-31 | 2023-08-29 | 华东交通大学 | 基于语义分割实现3d打印桥面施工质量监测方法及系统 |
CN116664846B (zh) * | 2023-07-31 | 2023-10-13 | 华东交通大学 | 基于语义分割实现3d打印桥面施工质量监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115482491B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sony et al. | A systematic review of convolutional neural network-based structural condition assessment techniques | |
CN115482491B (zh) | 一种基于transformer的桥梁缺陷识别方法与系统 | |
CN111259809B (zh) | 基于DANet的无人机海岸线漂浮垃圾巡检系统 | |
US20210370993A1 (en) | Computer vision based real-time pixel-level railroad track components detection system | |
CN113705478B (zh) | 一种基于改进YOLOv5的红树林单木目标检测方法 | |
CN111091555B (zh) | 闸瓦折断目标检测方法 | |
CN108549893A (zh) | 一种任意形状的场景文本端到端识别方法 | |
Zhang et al. | Review of artificial intelligence-based bridge damage detection | |
CN116468730B (zh) | 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法 | |
CN112308826B (zh) | 一种基于卷积神经网络的桥梁结构表面缺陷检测方法 | |
CN110189304A (zh) | 基于人工智能的光学遥感图像目标在线快速检测方法 | |
CN116485717B (zh) | 一种基于像素级深度学习的混凝土坝表面裂缝检测方法 | |
CN114049538A (zh) | 基于udwgan++网络的机场裂缝图像对抗生成方法 | |
CN116309536A (zh) | 一种路面裂缝检测方法及存储介质 | |
CN112149612A (zh) | 一种基于深度神经网络的海洋生物识别系统及识别方法 | |
CN115546742A (zh) | 一种基于单目热红外摄像头的铁轨异物识别方法及系统 | |
CN115995056A (zh) | 一种基于深度学习的桥梁病害自动识别方法 | |
CN116229292A (zh) | 一种基于无人机路面巡检病害的巡检系统及方法 | |
CN114612803A (zh) | 一种改进CenterNet的输电线路绝缘子缺陷检测方法 | |
CN114373162A (zh) | 用于变电站视频监控的危险区域人员入侵检测方法及系统 | |
Meng et al. | A modified fully convolutional network for crack damage identification compared with conventional methods | |
CN116740495A (zh) | 路桥隧道的病害检测模型的训练方法和病害检测方法 | |
CN114429578A (zh) | 古建筑脊兽装饰件巡检方法 | |
Yang et al. | Multi visual feature fusion based fog visibility estimation for expressway surveillance using deep learning network | |
Sookpong et al. | Comparison of Corrosion Segmentation Techniques on Oil and Gas Offshore Critical Assets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |