CN115147375B - 基于多尺度注意力的混凝土表面缺陷特征检测方法 - Google Patents
基于多尺度注意力的混凝土表面缺陷特征检测方法 Download PDFInfo
- Publication number
- CN115147375B CN115147375B CN202210786339.3A CN202210786339A CN115147375B CN 115147375 B CN115147375 B CN 115147375B CN 202210786339 A CN202210786339 A CN 202210786339A CN 115147375 B CN115147375 B CN 115147375B
- Authority
- CN
- China
- Prior art keywords
- attention
- image
- layer
- module
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 70
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 50
- 230000002776 aggregation Effects 0.000 claims abstract description 41
- 238000004220 aggregation Methods 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000004931 aggregating effect Effects 0.000 claims abstract description 6
- 238000000638 solvent extraction Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 230000008878 coupling Effects 0.000 abstract description 4
- 238000010168 coupling process Methods 0.000 abstract description 4
- 238000005859 coupling reaction Methods 0.000 abstract description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 11
- 238000007689 inspection Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001556 precipitation Methods 0.000 description 3
- 230000008602 contraction Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 101710185027 5'-methylthioadenosine/S-adenosylhomocysteine nucleosidase Proteins 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101710081557 Aminodeoxyfutalosine nucleosidase Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004643 material aging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Multimedia (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Biodiversity & Conservation Biology (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多尺度注意力的混凝土表面缺陷特征检测方法,包括以下步骤:构建围绕分层结构思想的多尺度图像注意力网络结构,网络将特征提取分为四个层级,分别处理不同尺度的特征图像;构建基于维度裁剪的多头注意力模块,对多头注意力机制嵌入维度裁剪计算,通过消减输入的特征向量维度降低高分辨率特征图像计算冗余;构建注意力聚合结构,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合,以聚焦图像细节,提高图像特征精度。本发明有效收缩各层级缺陷图像尺寸大小,可减少模型的计算冗余并提高计算速率,同时通过构建注意力聚合模块能够促进图像全局信息耦合,聚焦缺陷图像特征精度。
Description
技术领域
本发明属于混凝土表面缺陷图像特征检测领域,特别涉及一种基于多尺度注意力机制的混凝土坝表面缺陷图像特征检测方法。
背景技术
建筑工程领域将工程施工质量中不符合规定要求的检验项或检验点定义为缺陷,随着水电站混凝土大坝的长期运行,材料老化、环境影响等原因导致了不同程度缺陷的形成。当缺陷程度较轻时,尚可采取相应的措施对缺陷进行及时地处理,达到结构的承载要求,一旦缺陷没有得到及时地处理与补救,将对安全运行造成重大威胁。电监安全[2005]24号《水电站大坝安全定期检查办法》明确指出应当委派专员定期对水电站混凝土坝面进行检查与安全评价,并出具必要的专项检查报告和总结报告,以维护大坝安全运行。
对于混凝土表面缺陷特征而言,通常具有信噪比低、光照分布极度不均匀等特征,分类算法的识别率较低。同时混凝土表面缺陷特征具有大小不一,变化较大的问题,如“渗水点”这类特征几何形状较稳定且细小,而“裂缝”与“渗水面”这类特征几何分布范围更大、区域更加明显。现有特征提取方法在处理这类缺陷图像时,划分精度较低,使得到的图像特征粗糙,难以应用于后续的缺陷目标检测任务。同时现有基于全局的图像注意力机制结构的缺陷特征检测方法,其计算复杂度与输入图像的尺寸呈正指数相关,计算成本极高。
发明内容
发明目的:定期巡检是维护大坝工程安全的重要措施,现有的巡检方法主要为人工巡检与记录。随着大坝混凝土建龄的增加和不断叠加的环境变化影响,混凝土表面缺陷逐渐增多且更加复杂,导致人工巡检的工作量与难度逐渐增大。为了工程监测中更好地识别缺陷图像,克服现有技术对于捕捉缺陷特征的难题,本发明提供一种基于多尺度注意力的混凝土表面缺陷特征检测方法,准确且轻量地对表面缺陷图像进行分类与检测,降低人工识别的复杂度。
技术方案:一种基于多尺度注意力的混凝土表面缺陷特征检测方法,发明将混凝土缺陷作为关键词,使用注意力模型提取缺陷关键词对应的缺陷特征。在缺陷图像特征提取任务中,多尺度的图像处理与分析能够更加准确地捕捉到特征变化大的特征。同时,为了有效地控制多尺度图像注意力模型带来的额外计算冗余,在模型的编码器中需要添加对图像特征向量的维度消减机制,在准确捕捉混凝土缺陷的同时减少计算量。方法包括如下内容:
(1)构建多层级注意力网络,多层级注意力网络是将分层思想引入图像注意力网络,多层级注意力网络包括四层注意力网络,对混凝土表面缺陷图像进行特征提取,每一层注意力网络分别处理不同划分尺度的图像块,通过注意力计算与特征聚合,最终得到多尺度图像特征;
(2)在每层注意力网络中构建基于维度裁剪的多头注意力模块,对多头注意力机制嵌入维度裁剪计算,通过消减输入的特征向量维度降低混凝土表面缺陷图像的计算冗余,最终将得到的注意力特征输出到注意力聚合模块;
(3)在每层网络结构中构建注意力聚合模块,通过卷积和汇集等空间操作将多头注意力模块计算得到的各层注意力特征按照划分策略进行聚合,以聚焦混凝土表面缺陷图像细节,提高图像特征精度。
所述构建多层级注意力网络中,多层级注意力网络包括四层注意力网络结构,四层注意力网络依次连接,每一层注意力网络依次包含图像嵌入模块,多头注意力模块和注意力聚合模块;第一层注意力网络的输入是混凝土表面缺陷图像,输出是特征图像,后面每一层注意力网络接收到上一层输出的特征图像后,送入图像嵌入模块线性投影与多头注意力模块的计算得到不同尺度的图像特征,之后将该图像特征通过注意力聚合模块聚合为新的特征图像输出给下一层。多层级注意力网络对混凝土表面缺陷图像特征提取的具体步骤如下:
(1.1)将输入的混凝土表面缺陷图像划分为份图像块,划分时记录各图像块所处整体混凝土表面缺陷图像的位置信息,采用三角函数形式表示为位置嵌入向量。H,W分别代表输入的混凝土表面缺陷图像的高度与宽度。其中每一份图像块的尺寸大小为4×4×3像素;
(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影;
第一层注意力网络将(1.1)中划分的份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影,得到大小为/>的嵌入式向量,其中C1为常量,代表第一层嵌入向量的序列维度。对于第i层注意力网络,i=2,3,4;定义第i层输入的图像块收缩尺度为Pi,各层的收缩尺度Pi随着层级依次增加而增大。第i层注意力网络首先将上一层输出的特征图像Fi-1均匀划分为/>个图像块,其中Hi-1,Wi-1为上一层输出的特征图像的高度与宽度。此时每个图像块的序列维度为/>将当前层划分的每个图像块重塑,并线性投影为Ci维度的嵌入向量,此时相比输入的特征图像Fi-1,每个嵌入向量的尺寸为/>可以看作进行了Pi倍的收缩。
(1.3)将(1.2)收缩后的图像嵌入向量同位置嵌入向量进行线性组合,输入多头注意力模块,计算各图像块局部注意力;
(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块,按照划分区块进行注意力聚合,最终得到第i层输出特征图像Fi。采用类似的方式,使用前一层输出的特征图作为下一层的特征输入,各层网络依次得到特征图像F1,F2,F3,F4。上述四层的不同尺度特征提取与计算最终形成多层级注意力网络。
所述构建基于维度裁剪的多头注意力模块,该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算,具体步骤如下:
(2.1)将图像嵌入模块输出的每个图像块嵌入向量映射为Q,K两个矩阵向量。其中Q(query)向量代表图像块(如A)的注意力权重;K(key)为注意力索引,通过用其它图像块的注意力索引K(key)与当前图像块A的注意力权重(Query)相乘,就可以得到其它图像块对当前图像块A的注意力加权。除此之外,引入混凝土表面缺陷图像训练样本集训练下的矩阵向量V(value),可以理解为在原有Q,K向量的基础上,利用混凝土表面缺陷图像训练样本集进行强化训练后得到的图像向量。
(2.2)构建对图像输入特征的空间尺度下采样公式,目的是减少向量K,V序列维度:
DT(x)=Norm(Shrink(x,Ti)WS)
其中x表示各层注意力网络划分后的图像块输入序列,Norm(·)为归一化处理,目的主要是为了让多层级注意力网络模型的收敛速度更快。Ti表示第i层注意力网络中多头注意力模块的缩减率,Shrink(·)是将输入序列x收缩为大小为的输出序列。WS为线性投影参数,目的是将输入序列的维度线性投影为Ci。
(2.3)计算单头注意力,再将计算结果进行级联合并。单头注意力计算公式如下:
其中为Q,K,V向量的线性投影参数,DT(·)为空间尺度下采样操作。Attention(·)为注意力机制计算公式,其中/>为缩放因子,目的是使训练过程中Softmax(·)函数的梯度值保持稳定:
(2.4)计算多头的维度裁剪注意力,(2.3)单头注意力计算完成后得到的值,将多个单头注意力计算进行串联,得到基于维度裁剪的多头注意力,公式如下:
其中Concat(·)是对多头注意力的级联操作;Ni为第i层注意力网络的注意力层头数,WO为线性投影参数。
所述构建注意力聚合模块,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合的具体步骤如下:
通过图像嵌入模块将第i层注意力网络的特征图像输入Fi-1分解为若干互不重叠的图像块,并由多头注意力模块进行了各图像块的局部注意力计算。注意力聚合模块将各图像块的特征进行聚合,最终构成图像Ai。对Ai应用空间图像操作(卷积和池化),生成下采样特征图Ai′,再封装为特征图Fi作为多层级注意力网络第i层网络的输出,聚合过程中序列长度不变。在混凝土缺陷图像中类似“裂缝”这类狭长的缺陷特征,往往占据了多个相邻图像块,通过将这些图像块聚合起来获得整体的图像信息,有助于对缺陷类别更好地检测。本技术方案采取的类金字塔结构使得注意力聚合模块在前期的层级可以得到“渗水点”这类几何形状较稳定且细小的特征,而随着网络层级的不断深入,可以更有效地得到“裂缝”与“渗水面”这类几何分布范围大、区域明显的特征。同时注意力聚合过程对提取“渗水点”与“渗水面”这类存在一定关联程度的图像特征具有增益的效果。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于多尺度注意力的混凝土表面缺陷特征检测方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于多尺度注意力的混凝土表面缺陷特征检测方法的计算机程序。
有益效果:本发明与现有技术相比具有以下优点:
1)采取的多层注意力网络对大坝缺陷图像进行多阶段的注意力特征提取与注意力聚合,在前期的细节层级可以得到“渗水点”这类几何形状较稳定且细小的特征,而随着后期网络层级的不断深入,可以更有效地得到“裂缝”与“渗水面”这类几何分布范围大、区域明显的特征。
2)构建注意力聚合结构,对图像局部注意力聚合,实现相邻图像块之间信息耦合与通信,对提取“渗水点”与“渗水面”这类存在一定关联程度的图像特征有独有的效果。
3)整体网络结构采用的逐层图像收缩策略,控制各层特征图像的尺寸,避免了整幅缺陷图像的全局注意力计算,从而缩短了每幅图像的检测时间。
附图说明
图1为具体实施例中多尺度注意力网络总体框架图;
图2为具体实施例中逐层图像收缩机制示意图;
图3为具体实施例中基于维度裁剪的注意力机制示意图;
图4为具体实施例中层级注意力聚合结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
已知有某混凝土表面缺陷图像数据集,采用某电站拱坝日常工作巡检过程中拍摄的缺陷图像,作为缺陷目标识别与分类实验数据。该大坝图像数据集包含了5种类别,分别是正常图像,渗漏点(seepage point)图像,渗水面(seepage surface)图像,裂缝(crack)图像和碱性物析出(alkaline precipitation)图像。采用labelme数据标注软件对大坝表观缺陷图像按照变形趋势编辑标准闭合框,从中心位置向外衍射分割成224×224像素的图像,用来建立训练样本集和验证样本集。
图1给出了本发明提供的一种基于多尺度注意力的混凝土表面缺陷特征检测方法的总体工作流程,具体实施如下:
(1)构建多层级注意力网络,将图像注意力网络分为四层结构,每一层网络依次包含图像嵌入模块,多头注意力模块和注意力聚合模块。多层级注意力网络对缺陷图像特征提取的具体步骤如下:
(1.1)将输入的混凝土表面缺陷图像划分为份图像块,划分时记录各图像块所处整体图像的位置信息,采用三角函数形式表示为位置嵌入向量。H,W分别代表输入图像的高度与宽度。其中每一份图像块的尺寸大小为4×4×3像素;
(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影,第一层注意力网络将(1.1)中划分的份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影,得到大小为/>的嵌入式向量,其中C1为常量,代表第一层嵌入向量的序列维度。对于第i层网络,i=2,3,4;定义第i层输入的图像块收缩尺度为Pi,各层的收缩尺度Pi随着层级依次增加而增大。首先将上一层输出的特征图像Fi-1均匀划分为个图像块,其中Hi-1,Wi-1为上一层输出的特征图像的高度与宽度。此时每个图像块的序列维度为/>通过图像嵌入模块,将当前层划分的每个图像块重塑,并线性投影为Ci维度的嵌入向量,此时相比输入的特征图像Fi-1,每个嵌入向量的尺寸为可以看作进行了Pi倍的收缩。
(1.3)将收缩后的图像嵌入向量同位置嵌入向量进行线性组合,输入多头注意力模块,计算各图像块局部注意力;
(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块,按照划分区块进行注意力聚合,最终得到第i层输出特征图像Fi。采用类似的方式,使用前一层输出的特征图作为下一层的特征输入,各层网络依次得到特征图像F1,F2,F3,F4。上述四层的不同尺度特征提取与计算最终形成多层级注意力网络。
(2)构建基于维度裁剪的多头注意力模块,该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算,如图3所示。具体步骤如下:
(2.1)将图像嵌入模块输出的每个图像块特征映射为Q,K两个矩阵向量。其中Q(query)向量代表图像块(如A)的注意力权重;K(key)为注意力索引,通过用其它图像块的注意力索引K(key)与当前图像块A的注意力权重(Query)相乘,就可以得到其它图像块对A的注意力加权。除此之外,引入图像数据集训练下的矩阵向量V(value),可以理解为在原有Q,K向量的基础上,利用图像训练集进行强化训练后得到的图像向量。
(2.2)构建对图像输入特征的空间尺度下采样公式,目的是减少向量K,V序列维度:
DT(x)=Norm(Shrink(x,Ti)WS)
其中x表示划分后的图像块输入序列,Norm(·)为归一化处理,目的主要是为了让多层级注意力网络模型的收敛速度更快。Ti表示第i层中多头注意力模块的缩减率,Shrink(·)是将输入序列x收缩为大小为的输出序列。WS为线性投影参数,目的是将输入序列的维度线性投影为Ci。
(2.3)计算单头注意力,再将计算结果进行级联合并。单头注意力计算公式如下:
其中为Q,K,V向量的线性投影参数,DT(·)为空间尺度下采样操作。Attention(·)为注意力机制计算公式,其中/>为缩放因子,目的是使训练过程中Softmax(·)函数的梯度值保持稳定:
(2.4)计算多头的维度裁剪注意力,(2.2)单头注意力计算完成后得到的值,将多个单头注意力计算进行串联,得到基于维度裁剪的多头注意力,公式如下:
其中Concat(·)是对多头注意力的级联操作;Ni为第i层的注意力层头数,WO为线性投影参数。多头注意力模块对单头注意力的级联可以实现同时进行多个查询,平行计算图像输入的多个信息。例如“渗漏点”,“碱性物析出”这类数量较多且形状细小的缺陷特征,多头注意力模块可以同时聚焦图像中多个细节部分,提高缺陷目标识别的效率。
(3)构建注意力聚合模块,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合,以聚焦图像细节,提高图像特征精度。
通过图像嵌入模块将第i层的图像输入Fi-1分解为若干互不重叠的图像块,在经过注意力聚合块时,填满图像平面Ai。对Ai按照不同的划分策略,应用空间图像操作(卷积和池化),生成下采样特征图Ai′,再封装为特征图Fi作为第i层的输出,聚合过程中序列长度不变。
以图4为例,将整张图像用数字1表示。注意力聚合模块将经过多头注意力模块计算后的特征图像按照层级结构,依次分为四块(2,3,4,5),16块(如块2分为6,7,8,9),64块(如块6分为10,11,12,13),256块(如块10分为14,15,16,17)。各层的注意力聚合模块对图像块的聚合操作如下:首先第一层将14,15,16,17聚合为10,该层其它小图像块以此类推。第二层将10,11,12,13聚合为6,第三层将6,7,8,9聚合为2,最后一层将2,3,4,5聚合为1。整体聚合流程形成一个类金字塔结构。这种类金字塔结构使得注意力聚合模块在前期的层级可以得到“渗漏点”这类几何形状较稳定且细小的特征,而随着网络层级的不断深入,可以更有效地得到“裂缝”与“渗漏面”这类几何分布范围大、区域明显的特征。同时注意力聚合过程实现了相邻图像块之间的信息耦合与通信,对提取“渗漏点”与“渗水面”这类存在一定关联程度的图像特征具有增益的效果。
(1)中描述的多层级注意力网络是一个整体的网络结构,这个网络结构负责逐步处理输入的原始混凝土表面缺陷图像,最终计算出不同尺度图像特征的输出。(1)中描述的整体网络结构如图1所示,它包含了四层,其中每一层包括多头注意力模块和注意力聚合模块。
参数的设置和实验评价标准如下:
A实验设置:
实验选择目标检测作为基于多尺度注意力的混凝土表面缺陷特征检测方法的下游任务,并采用典型的目标检测框架Faster R-CNN验证本发明方法的有效性。模型的参数变量取值如下:实验基于PyTorch框架并用Adam梯度优化算法进行梯度更新。输入的图像尺寸为320,图像块切割大小为16×16,各层MTANs Encoder模块中重复堆叠编码器的次数设置为12。设置参数D表示通过第一层图像嵌入模块后每个向量的长度为768。多层感知层全连接的节点个数为3072。多头注意力采用的注意力头数为12。最终将完整的数据集在神经网络中进行10次迭代传递。
B评价指标:
所涉及的评价指标为现有方法统一使用的指标组合,包括:平均精度(AveragePrecision,AP),平均精度均值(mean Average Precision,mAP),每幅图像的识别时间(Time,单位:ms),以及每秒所执行的浮点运算次数(Giga Floating-point OperationsPer Second,GFLOPS)。
根据以上实施例可知,本发明得益于基于多尺度注意力的图像特征信息,可实现更深层次的视觉理解,并基于全局语义进行合理推测;本发明利用注意力聚合结构通过卷积和汇集的空间操作,将通过每一层编码器模块的注意力特征按照划分策略进行聚合,实现图像全局信息的耦合与通信,提高模型提取特征精度:在平均精度以及IoU阈值分别取值0.5和0.75的指标上均达到了最佳效果,较现有图像特征提取模型ViT(VisionTransformer)分别提高3.22%,6.45%,3.64%,较表现最优的卷积神经网络模型ResNeXt分别提高4.57%,7.27%,5.14%。本发明通过基于逐层的图像收缩策略,有效收缩各层级图像尺寸大小,可减少模型的计算冗余。本发明采用的基于维度裁剪的注意力模块可补充图像收缩策略带来的注意力裁剪计算,提高模型计算速率:随着输入图像尺寸的增长,本发明的运算次数稳定在150GFLOPS,远低于ViT的700GFLOPS。
上述的本发明实施例的基于多尺度注意力的混凝土表面缺陷特征检测方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (3)
1.一种基于多尺度注意力的混凝土表面缺陷特征检测方法,其特征在于,方法包括如下内容:
(1)构建多层级注意力网络,多层级注意力网络包括四层注意力网络,对混凝土表面缺陷图像进行特征提取,每一层注意力网络分别处理不同划分尺度的图像块,通过注意力计算与特征聚合,最终得到多尺度图像特征;
(2)在每层注意力网络中构建基于维度裁剪的多头注意力模块,将得到的注意力特征输出到注意力聚合模块;
(3)在每层网络结构中构建注意力聚合模块,将多头注意力模块计算得到的各层注意力特征按照划分策略进行聚合;
所述构建多层级注意力网络中,多层级注意力网络包括四层注意力网络结构,四层注意力网络依次连接,每一层注意力网络依次包含图像嵌入模块,多头注意力模块和注意力聚合模块;第一层注意力网络的输入是混凝土表面缺陷图像,输出是特征图像,后面每一层注意力网络接收到上一层输出的特征图像后,送入图像嵌入模块线性投影与多头注意力模块的计算得到不同尺度的图像特征,之后将该图像特征通过注意力聚合模块聚合为新的特征图像输出给下一层;
多层级注意力网络对混凝土表面缺陷图像特征提取的具体步骤如下:
(1.1)将输入的混凝土表面缺陷图像划分为份图像块,划分时记录各图像块所处整体混凝土表面缺陷图像的位置信息,采用三角函数形式表示为位置嵌入向量;H,W分别代表输入的混凝土表面缺陷图像的高度与宽度;其中每一份图像块的尺寸大小为4×4×3像素;
(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影;
第一层注意力网络将(1.1)中划分的份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影,得到大小为/>的嵌入式向量,其中C1为常量,代表第一层嵌入向量的序列维度;对于第i层注意力网络,i=2,3,4;定义第i层输入的图像块收缩尺度为Pi,各层的收缩尺度Pi随着层级依次增加而增大;第i层注意力网络首先将上一层输出的特征图像Fi-1均匀划分为/>个图像块,其中Hi-1,Wi-1为上一层输出的特征图像的高度与宽度;此时每个图像块的序列维度为/>将当前层划分的每个图像块重塑,并线性投影为Ci维度的嵌入向量,此时相比输入的特征图像Fi-1,每个嵌入向量的尺寸为
(1.3)将(1.2)收缩后的图像嵌入向量同位置嵌入向量进行线性组合,输入多头注意力模块,计算各图像块局部注意力;
(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块,按照划分区块进行注意力聚合,最终得到第i层输出特征图像Fi;采用类似的方式,使用前一层输出的特征图作为下一层的特征输入,各层网络依次得到特征图像F1,F2,F3,F4;四层的不同尺度特征提取与计算最终形成多层级注意力网络;
所述构建基于维度裁剪的多头注意力模块,该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算,具体步骤如下:
(2.1)将图像嵌入模块输出的每个图像块嵌入向量映射为Q,K两个矩阵向量;其中Q向量代表图像块的注意力权重;K为注意力索引,通过用其它图像块的注意力索引K与当前图像块的注意力权重相乘,得到其它图像块对当前图像块的注意力加权;除此之外,引入混凝土表面缺陷图像训练样本集训练下的矩阵向量V,在原有Q,K向量的基础上,利用混凝土表面缺陷图像训练样本集进行强化训练后得到的图像向量;
(2.2)构建对图像输入特征的空间尺度下采样公式,目的是减少向量K,V序列维度:
DT(x)=Norm(Shrink(x,Ti)WS)
其中x表示各层注意力网络划分后的图像块输入序列,Norm(·)为归一化处理,目的主要是为了让多层级注意力网络模型的收敛速度更快;Ti表示第i层注意力网络中多头注意力模块的缩减率,Shrink(·)是将输入序列x收缩为大小为的输出序列;WS为线性投影参数,目的是将输入序列的维度线性投影为Ci;Hi,Wi为i层输出的特征图像的高度与宽度;
(2.3)计算单头注意力,再将计算结果进行级联合并;单头注意力计算公式如下:
其中为Q,K,V向量的线性投影参数,DT(·)为空间尺度下采样操作;Attention(·)为注意力机制计算公式,其中/>为缩放因子,目的是使训练过程中Softmax(·)函数的梯度值保持稳定:
(2.4)计算多头的维度裁剪注意力,(2.3)单头注意力计算完成后得到的值,将多个单头注意力计算进行串联,得到基于维度裁剪的多头注意力,公式如下:
其中Concat(·)是对多头注意力的级联操作;Ni为第i层注意力网络的注意力层头数,WO为线性投影参数;
所述构建注意力聚合模块,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合的具体步骤如下:
通过图像嵌入模块将第i层注意力网络的特征图像输入Fi-1分解为若干互不重叠的图像块,并由多头注意力模块进行了各图像块的局部注意力计算;注意力聚合模块将各图像块的特征进行聚合,最终构成图像Ai;对图像Ai应用空间图像操作,生成下采样特征图A′i,再封装为特征图Fi作为多层级注意力网络第i层网络的输出,聚合过程中序列长度不变。
2.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法。
3.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210786339.3A CN115147375B (zh) | 2022-07-04 | 2022-07-04 | 基于多尺度注意力的混凝土表面缺陷特征检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210786339.3A CN115147375B (zh) | 2022-07-04 | 2022-07-04 | 基于多尺度注意力的混凝土表面缺陷特征检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115147375A CN115147375A (zh) | 2022-10-04 |
CN115147375B true CN115147375B (zh) | 2023-07-25 |
Family
ID=83412225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210786339.3A Active CN115147375B (zh) | 2022-07-04 | 2022-07-04 | 基于多尺度注意力的混凝土表面缺陷特征检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115147375B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN114581560A (zh) * | 2022-03-01 | 2022-06-03 | 西安交通大学 | 基于注意力机制的多尺度神经网络红外图像彩色化方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647794B (zh) * | 2019-07-12 | 2023-01-03 | 五邑大学 | 基于注意力机制的多尺度sar图像识别方法及装置 |
CN110866907A (zh) * | 2019-11-12 | 2020-03-06 | 中原工学院 | 基于注意力机制的全卷积网络织物疵点检测方法 |
US11270447B2 (en) * | 2020-02-10 | 2022-03-08 | Hong Kong Applied Science And Technology Institute Company Limited | Method for image segmentation using CNN |
CN112232391B (zh) * | 2020-09-29 | 2022-04-08 | 河海大学 | 一种基于U-net网络和SC-SAM注意力机制的大坝裂缝检测方法 |
US11380112B2 (en) * | 2020-11-20 | 2022-07-05 | Shenzhen Deeproute.Ai Co., Ltd | Methods for encoding point cloud feature |
CN112465790A (zh) * | 2020-12-03 | 2021-03-09 | 天津大学 | 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法 |
CN113033321A (zh) * | 2021-03-02 | 2021-06-25 | 深圳市安软科技股份有限公司 | 目标行人属性识别模型的训练方法及行人属性识别方法 |
CN113112456B (zh) * | 2021-03-25 | 2022-05-13 | 湖南工业大学 | 一种基于目标检测算法的浓稠食品灌装成品缺陷检测方法 |
CN112949771A (zh) * | 2021-04-08 | 2021-06-11 | 河海大学 | 一种基于多深度多尺度层级注意力融合机制的高光谱遥感影像分类方法 |
CN113129288A (zh) * | 2021-04-22 | 2021-07-16 | 安徽大学 | 一种基于深度学习图像语义分割的药片表面缺陷检测方法及其自动化处理装置 |
CN113284107B (zh) * | 2021-05-25 | 2022-10-11 | 重庆邮电大学 | 一种引入注意力机制改进型U-net的混凝土裂缝实时检测方法 |
CN113393439A (zh) * | 2021-06-11 | 2021-09-14 | 重庆理工大学 | 一种基于深度学习的锻件缺陷检测方法 |
CN113658176B (zh) * | 2021-09-07 | 2023-11-07 | 重庆科技学院 | 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法 |
CN113781466B (zh) * | 2021-09-22 | 2024-01-19 | 河北工业大学 | 基于多尺度注意力密集网络的太阳能电池板缺陷识别方法 |
CN113822885B (zh) * | 2021-11-23 | 2022-02-11 | 常州微亿智造科技有限公司 | 融合多注意力机制的工件缺陷检测方法和装置 |
CN114332302A (zh) * | 2021-12-02 | 2022-04-12 | 广东工业大学 | 一种基于多尺度自注意力网络的点云补全系统及方法 |
CN114494164A (zh) * | 2022-01-13 | 2022-05-13 | 大连嘉济自动化机电科技有限公司 | 一种钢材表面缺陷检测方法、装置及计算机存储介质 |
CN114419014A (zh) * | 2022-01-19 | 2022-04-29 | 河北工业大学 | 基于特征重构的表面缺陷检测方法 |
CN114445366A (zh) * | 2022-01-26 | 2022-05-06 | 沈阳派得林科技有限责任公司 | 基于自注意力网络的长输管道射线影像缺陷智能识别方法 |
CN114663346A (zh) * | 2022-01-30 | 2022-06-24 | 河北工业大学 | 一种基于改进YOLOv5网络的带钢表面缺陷检测方法 |
CN114693615A (zh) * | 2022-03-17 | 2022-07-01 | 常州工学院 | 一种基于域适应的深度学习混凝土桥梁裂缝实时检测方法 |
-
2022
- 2022-07-04 CN CN202210786339.3A patent/CN115147375B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN114581560A (zh) * | 2022-03-01 | 2022-06-03 | 西安交通大学 | 基于注意力机制的多尺度神经网络红外图像彩色化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115147375A (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN116152254B (zh) | 工业泄露目标气体检测模型训练方法、检测方法、电子设备 | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN115331102A (zh) | 一种基于深度学习的遥感影像河湖岸线智能监测方法 | |
CN104751485A (zh) | 一种基于gpu自适应的前景提取方法 | |
CN115841625B (zh) | 一种基于改进U-Net模型的遥感建筑物影像提取方法 | |
Shi et al. | A lightweight YOLOv5 transmission line defect detection method based on coordinate attention | |
CN114821328A (zh) | 一种基于完全学习的电力图像处理方法及装置 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
Wang et al. | Global aligned structured sparsity learning for efficient image super-resolution | |
CN115147375B (zh) | 基于多尺度注意力的混凝土表面缺陷特征检测方法 | |
CN107256554B (zh) | 一种用于图像分割的单层脉冲神经网络结构 | |
CN117152823A (zh) | 一种基于动态空洞卷积金字塔注意力的多任务年龄估计方法 | |
CN117372853A (zh) | 一种基于图像增强和注意力机制的水下目标检测算法 | |
CN117495935A (zh) | 一种基于交叉特征提取窗口与动态特征融合窗口的深度补全方法 | |
CN114841895B (zh) | 一种基于双向映射网络的图像阴影去除方法 | |
CN116506210A (zh) | 基于流量特征融合的网络入侵检测方法及系统 | |
Dong et al. | Lightweight and edge-preserving speckle matching network for precise single-shot 3D shape measurement | |
CN116644782A (zh) | 一种交叉过滤transformer的结构、图像语义分割模型及方法 | |
Huang et al. | DeeptransMap: a considerably deep transmission estimation network for single image dehazing | |
CN114332989A (zh) | 一种多任务级联卷积神经网络的人脸检测方法及系统 | |
CN114463614A (zh) | 使用生成式参数的层次性显著建模的显著性目标检测方法 | |
Chu et al. | Similarity based filter pruning for efficient super-resolution models | |
Zhou et al. | A Rapid Crack Detection Technique Based on Attention for Intelligent M&O of Cross-Sea Bridge | |
Chen et al. | Cascaded Denoising Convolutional Auto-Encoders for Automatic Recovery of Missing Time Series Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |