CN115147375A - 基于多尺度注意力的混凝土表面缺陷特征检测方法 - Google Patents

基于多尺度注意力的混凝土表面缺陷特征检测方法 Download PDF

Info

Publication number
CN115147375A
CN115147375A CN202210786339.3A CN202210786339A CN115147375A CN 115147375 A CN115147375 A CN 115147375A CN 202210786339 A CN202210786339 A CN 202210786339A CN 115147375 A CN115147375 A CN 115147375A
Authority
CN
China
Prior art keywords
attention
image
layer
module
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210786339.3A
Other languages
English (en)
Other versions
CN115147375B (zh
Inventor
王哲源
易魁
陈有勤
毛莺池
万旭
曹学兴
聂兵兵
谭彬
刘海波
彭欣欣
王海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Group Technology Innovation Center Co Ltd, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202210786339.3A priority Critical patent/CN115147375B/zh
Publication of CN115147375A publication Critical patent/CN115147375A/zh
Application granted granted Critical
Publication of CN115147375B publication Critical patent/CN115147375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Multimedia (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多尺度注意力的混凝土表面缺陷特征检测方法,包括以下步骤:构建围绕分层结构思想的多尺度图像注意力网络结构,网络将特征提取分为四个层级,分别处理不同尺度的特征图像;构建基于维度裁剪的多头注意力模块,对多头注意力机制嵌入维度裁剪计算,通过消减输入的特征向量维度降低高分辨率特征图像计算冗余;构建注意力聚合结构,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合,以聚焦图像细节,提高图像特征精度。本发明有效收缩各层级缺陷图像尺寸大小,可减少模型的计算冗余并提高计算速率,同时通过构建注意力聚合模块能够促进图像全局信息耦合,聚焦缺陷图像特征精度。

Description

基于多尺度注意力的混凝土表面缺陷特征检测方法
技术领域
本发明属于混凝土表面缺陷图像特征检测领域,特别涉及一种基于多尺度注意力机制的混凝土坝表面缺陷图像特征检测方法。
背景技术
建筑工程领域将工程施工质量中不符合规定要求的检验项或检验点定义为缺陷,随着水电站混凝土大坝的长期运行,材料老化、环境影响等原因导致了不同程度缺陷的形成。当缺陷程度较轻时,尚可采取相应的措施对缺陷进行及时地处理,达到结构的承载要求,一旦缺陷没有得到及时地处理与补救,将对安全运行造成重大威胁。电监安全[2005]24号《水电站大坝安全定期检查办法》明确指出应当委派专员定期对水电站混凝土坝面进行检查与安全评价,并出具必要的专项检查报告和总结报告,以维护大坝安全运行。
对于混凝土表面缺陷特征而言,通常具有信噪比低、光照分布极度不均匀等特征,分类算法的识别率较低。同时混凝土表面缺陷特征具有大小不一,变化较大的问题,如“渗水点”这类特征几何形状较稳定且细小,而“裂缝”与“渗水面”这类特征几何分布范围更大、区域更加明显。现有特征提取方法在处理这类缺陷图像时,划分精度较低,使得到的图像特征粗糙,难以应用于后续的缺陷目标检测任务。同时现有基于全局的图像注意力机制结构的缺陷特征检测方法,其计算复杂度与输入图像的尺寸呈正指数相关,计算成本极高。
发明内容
发明目的:定期巡检是维护大坝工程安全的重要措施,现有的巡检方法主要为人工巡检与记录。随着大坝混凝土建龄的增加和不断叠加的环境变化影响,混凝土表面缺陷逐渐增多且更加复杂,导致人工巡检的工作量与难度逐渐增大。为了工程监测中更好地识别缺陷图像,克服现有技术对于捕捉缺陷特征的难题,本发明提供一种基于多尺度注意力的混凝土表面缺陷特征检测方法,准确且轻量地对表面缺陷图像进行分类与检测,降低人工识别的复杂度。
技术方案:一种基于多尺度注意力的混凝土表面缺陷特征检测方法,发明将混凝土缺陷作为关键词,使用注意力模型提取缺陷关键词对应的缺陷特征。在缺陷图像特征提取任务中,多尺度的图像处理与分析能够更加准确地捕捉到特征变化大的特征。同时,为了有效地控制多尺度图像注意力模型带来的额外计算冗余,在模型的编码器中需要添加对图像特征向量的维度消减机制,在准确捕捉混凝土缺陷的同时减少计算量。方法包括如下内容:
(1)构建多层级注意力网络,多层级注意力网络是将分层思想引入图像注意力网络,多层级注意力网络包括四层注意力网络,对混凝土表面缺陷图像进行特征提取,每一层注意力网络分别处理不同划分尺度的图像块,通过注意力计算与特征聚合,最终得到多尺度图像特征;
(2)在每层注意力网络中构建基于维度裁剪的多头注意力模块,对多头注意力机制嵌入维度裁剪计算,通过消减输入的特征向量维度降低混凝土表面缺陷图像的计算冗余,最终将得到的注意力特征输出到注意力聚合模块;
(3)在每层网络结构中构建注意力聚合模块,通过卷积和汇集等空间操作将多头注意力模块计算得到的各层注意力特征按照划分策略进行聚合,以聚焦混凝土表面缺陷图像细节,提高图像特征精度。
所述构建多层级注意力网络中,多层级注意力网络包括四层注意力网络结构,四层注意力网络依次连接,每一层注意力网络依次包含图像嵌入模块,多头注意力模块和注意力聚合模块;第一层注意力网络的输入是混凝土表面缺陷图像,输出是特征图像,后面每一层注意力网络接收到上一层输出的特征图像后,送入图像嵌入模块线性投影与多头注意力模块的计算得到不同尺度的图像特征,之后将该图像特征通过注意力聚合模块聚合为新的特征图像输出给下一层。多层级注意力网络对混凝土表面缺陷图像特征提取的具体步骤如下:
(1.1)将输入的混凝土表面缺陷图像划分为
Figure BDA0003728830880000021
份图像块,划分时记录各图像块所处整体混凝土表面缺陷图像的位置信息,采用三角函数形式表示为位置嵌入向量。H,W分别代表输入的混凝土表面缺陷图像的高度与宽度。其中每一份图像块的尺寸大小为4×4×3像素;
(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影;
第一层注意力网络将(1.1)中划分的
Figure BDA0003728830880000022
份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影,得到大小为
Figure BDA0003728830880000023
的嵌入式向量,其中C1为常量,代表第一层嵌入向量的序列维度。对于第i层注意力网络,i=2,3,4;定义第i层输入的图像块收缩尺度为Pi,各层的收缩尺度Pi随着层级依次增加而增大。第i层注意力网络首先将上一层输出的特征图像Fi-1均匀划分为
Figure BDA0003728830880000024
个图像块,其中Hi-1,Wi-1为上一层输出的特征图像的高度与宽度。此时每个图像块的序列维度为
Figure BDA0003728830880000025
将当前层划分的每个图像块重塑,并线性投影为Ci维度的嵌入向量,此时相比输入的特征图像Fi-1,每个嵌入向量的尺寸为
Figure BDA0003728830880000031
可以看作进行了Pi倍的收缩。
(1.3)将(1.2)收缩后的图像嵌入向量同位置嵌入向量进行线性组合,输入多头注意力模块,计算各图像块局部注意力;
(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块,按照划分区块进行注意力聚合,最终得到第i层输出特征图像Fi。采用类似的方式,使用前一层输出的特征图作为下一层的特征输入,各层网络依次得到特征图像F1,F2,F3,F4。上述四层的不同尺度特征提取与计算最终形成多层级注意力网络。
所述构建基于维度裁剪的多头注意力模块,该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算,具体步骤如下:
(2.1)将图像嵌入模块输出的每个图像块嵌入向量映射为Q,K两个矩阵向量。其中Q(query)向量代表图像块(如A)的注意力权重;K(key)为注意力索引,通过用其它图像块的注意力索引K(key)与当前图像块A的注意力权重(Query)相乘,就可以得到其它图像块对当前图像块A的注意力加权。除此之外,引入混凝土表面缺陷图像训练样本集训练下的矩阵向量V(value),可以理解为在原有Q,K向量的基础上,利用混凝土表面缺陷图像训练样本集进行强化训练后得到的图像向量。
(2.2)构建对图像输入特征的空间尺度下采样公式,目的是减少向量K,V序列维度:
DT(x)=Norm(Shrink(x,Ti)WS)
其中x表示各层注意力网络划分后的图像块输入序列,Norm(·)为归一化处理,目的主要是为了让多层级注意力网络模型的收敛速度更快。Ti表示第i层注意力网络中多头注意力模块的缩减率,Shrink(·)是将输入序列x收缩为大小为
Figure BDA0003728830880000032
的输出序列。WS为线性投影参数,目的是将输入序列的维度线性投影为Ci
(2.3)计算单头注意力,再将计算结果进行级联合并。单头注意力计算公式如下:
Figure BDA0003728830880000033
其中
Figure BDA0003728830880000034
为Q,K,V向量的线性投影参数,DT(·)为空间尺度下采样操作。Attention(·)为注意力机制计算公式,其中
Figure BDA0003728830880000035
为缩放因子,目的是使训练过程中Softmax(·)函数的梯度值保持稳定:
Figure BDA0003728830880000041
(2.4)计算多头的维度裁剪注意力,(2.3)单头注意力计算完成后得到
Figure BDA0003728830880000042
的值,将多个单头注意力计算进行串联,得到基于维度裁剪的多头注意力,公式如下:
Figure BDA0003728830880000043
其中Concat(·)是对多头注意力的级联操作;Ni为第i层注意力网络的注意力层头数,WO为线性投影参数。
所述构建注意力聚合模块,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合的具体步骤如下:
通过图像嵌入模块将第i层注意力网络的特征图像输入Fi-1分解为若干互不重叠的图像块,并由多头注意力模块进行了各图像块的局部注意力计算。注意力聚合模块将各图像块的特征进行聚合,最终构成图像Ai。对Ai应用空间图像操作(卷积和池化),生成下采样特征图Ai′,再封装为特征图Fi作为多层级注意力网络第i层网络的输出,聚合过程中序列长度不变。在混凝土缺陷图像中类似“裂缝”这类狭长的缺陷特征,往往占据了多个相邻图像块,通过将这些图像块聚合起来获得整体的图像信息,有助于对缺陷类别更好地检测。本技术方案采取的类金字塔结构使得注意力聚合模块在前期的层级可以得到“渗水点”这类几何形状较稳定且细小的特征,而随着网络层级的不断深入,可以更有效地得到“裂缝”与“渗水面”这类几何分布范围大、区域明显的特征。同时注意力聚合过程对提取“渗水点”与“渗水面”这类存在一定关联程度的图像特征具有增益的效果。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于多尺度注意力的混凝土表面缺陷特征检测方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于多尺度注意力的混凝土表面缺陷特征检测方法的计算机程序。
有益效果:本发明与现有技术相比具有以下优点:
1)采取的多层注意力网络对大坝缺陷图像进行多阶段的注意力特征提取与注意力聚合,在前期的细节层级可以得到“渗水点”这类几何形状较稳定且细小的特征,而随着后期网络层级的不断深入,可以更有效地得到“裂缝”与“渗水面”这类几何分布范围大、区域明显的特征。
2)构建注意力聚合结构,对图像局部注意力聚合,实现相邻图像块之间信息耦合与通信,对提取“渗水点”与“渗水面”这类存在一定关联程度的图像特征有独有的效果。
3)整体网络结构采用的逐层图像收缩策略,控制各层特征图像的尺寸,避免了整幅缺陷图像的全局注意力计算,从而缩短了每幅图像的检测时间。
附图说明
图1为具体实施例中多尺度注意力网络总体框架图;
图2为具体实施例中逐层图像收缩机制示意图;
图3为具体实施例中基于维度裁剪的注意力机制示意图;
图4为具体实施例中层级注意力聚合结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
已知有某混凝土表面缺陷图像数据集,采用某电站拱坝日常工作巡检过程中拍摄的缺陷图像,作为缺陷目标识别与分类实验数据。该大坝图像数据集包含了5种类别,分别是正常图像,渗漏点(seepage point)图像,渗水面(seepage surface)图像,裂缝(crack)图像和碱性物析出(alkaline precipitation)图像。采用labelme数据标注软件对大坝表观缺陷图像按照变形趋势编辑标准闭合框,从中心位置向外衍射分割成224×224像素的图像,用来建立训练样本集和验证样本集。
图1给出了本发明提供的一种基于多尺度注意力的混凝土表面缺陷特征检测方法的总体工作流程,具体实施如下:
(1)构建多层级注意力网络,将图像注意力网络分为四层结构,每一层网络依次包含图像嵌入模块,多头注意力模块和注意力聚合模块。多层级注意力网络对缺陷图像特征提取的具体步骤如下:
(1.1)将输入的混凝土表面缺陷图像划分为
Figure BDA0003728830880000051
份图像块,划分时记录各图像块所处整体图像的位置信息,采用三角函数形式表示为位置嵌入向量。H,W分别代表输入图像的高度与宽度。其中每一份图像块的尺寸大小为4×4×3像素;
(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影,第一层注意力网络将(1.1)中划分的
Figure BDA0003728830880000052
份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影,得到大小为
Figure BDA0003728830880000061
的嵌入式向量,其中C1为常量,代表第一层嵌入向量的序列维度。对于第i层网络,i=2,3,4;定义第i层输入的图像块收缩尺度为Pi,各层的收缩尺度Pi随着层级依次增加而增大。首先将上一层输出的特征图像Fi-1均匀划分为
Figure BDA0003728830880000062
个图像块,其中Hi-1,Wi-1为上一层输出的特征图像的高度与宽度。此时每个图像块的序列维度为
Figure BDA0003728830880000063
通过图像嵌入模块,将当前层划分的每个图像块重塑,并线性投影为Ci维度的嵌入向量,此时相比输入的特征图像Fi-1,每个嵌入向量的尺寸为
Figure BDA0003728830880000064
可以看作进行了Pi倍的收缩。
(1.3)将收缩后的图像嵌入向量同位置嵌入向量进行线性组合,输入多头注意力模块,计算各图像块局部注意力;
(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块,按照划分区块进行注意力聚合,最终得到第i层输出特征图像Fi。采用类似的方式,使用前一层输出的特征图作为下一层的特征输入,各层网络依次得到特征图像F1,F2,F3,F4。上述四层的不同尺度特征提取与计算最终形成多层级注意力网络。
(2)构建基于维度裁剪的多头注意力模块,该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算,如图3所示。具体步骤如下:
(2.1)将图像嵌入模块输出的每个图像块特征映射为Q,K两个矩阵向量。其中Q(query)向量代表图像块(如A)的注意力权重;K(key)为注意力索引,通过用其它图像块的注意力索引K(key)与当前图像块A的注意力权重(Query)相乘,就可以得到其它图像块对A的注意力加权。除此之外,引入图像数据集训练下的矩阵向量V(value),可以理解为在原有Q,K向量的基础上,利用图像训练集进行强化训练后得到的图像向量。
(2.2)构建对图像输入特征的空间尺度下采样公式,目的是减少向量K,V序列维度:
DT(x)=Norm(Shrink(x,Ti)WS)
其中x表示划分后的图像块输入序列,Norm(·)为归一化处理,目的主要是为了让多层级注意力网络模型的收敛速度更快。Ti表示第i层中多头注意力模块的缩减率,Shrink(·)是将输入序列x收缩为大小为
Figure BDA0003728830880000065
的输出序列。WS为线性投影参数,目的是将输入序列的维度线性投影为Ci
(2.3)计算单头注意力,再将计算结果进行级联合并。单头注意力计算公式如下:
Figure BDA0003728830880000071
其中
Figure BDA0003728830880000072
为Q,K,V向量的线性投影参数,DT(·)为空间尺度下采样操作。Attention(·)为注意力机制计算公式,其中
Figure BDA0003728830880000073
为缩放因子,目的是使训练过程中Softmax(·)函数的梯度值保持稳定:
Figure BDA0003728830880000074
(2.4)计算多头的维度裁剪注意力,(2.2)单头注意力计算完成后得到
Figure BDA0003728830880000075
的值,将多个单头注意力计算进行串联,得到基于维度裁剪的多头注意力,公式如下:
Figure BDA0003728830880000076
其中Concat(·)是对多头注意力的级联操作;Ni为第i层的注意力层头数,WO为线性投影参数。多头注意力模块对单头注意力的级联可以实现同时进行多个查询,平行计算图像输入的多个信息。例如“渗漏点”,“碱性物析出”这类数量较多且形状细小的缺陷特征,多头注意力模块可以同时聚焦图像中多个细节部分,提高缺陷目标识别的效率。
(3)构建注意力聚合模块,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合,以聚焦图像细节,提高图像特征精度。
通过图像嵌入模块将第i层的图像输入Fi-1分解为若干互不重叠的图像块,在经过注意力聚合块时,填满图像平面Ai。对Ai按照不同的划分策略,应用空间图像操作(卷积和池化),生成下采样特征图Ai′,再封装为特征图Fi作为第i层的输出,聚合过程中序列长度不变。
以图4为例,将整张图像用数字1表示。注意力聚合模块将经过多头注意力模块计算后的特征图像按照层级结构,依次分为四块(2,3,4,5),16块(如块2分为6,7,8,9),64块(如块6分为10,11,12,13),256块(如块10分为14,15,16,17)。各层的注意力聚合模块对图像块的聚合操作如下:首先第一层将14,15,16,17聚合为10,该层其它小图像块以此类推。第二层将10,11,12,13聚合为6,第三层将6,7,8,9聚合为2,最后一层将2,3,4,5聚合为1。整体聚合流程形成一个类金字塔结构。这种类金字塔结构使得注意力聚合模块在前期的层级可以得到“渗漏点”这类几何形状较稳定且细小的特征,而随着网络层级的不断深入,可以更有效地得到“裂缝”与“渗漏面”这类几何分布范围大、区域明显的特征。同时注意力聚合过程实现了相邻图像块之间的信息耦合与通信,对提取“渗漏点”与“渗水面”这类存在一定关联程度的图像特征具有增益的效果。
(1)中描述的多层级注意力网络是一个整体的网络结构,这个网络结构负责逐步处理输入的原始混凝土表面缺陷图像,最终计算出不同尺度图像特征的输出。(1)中描述的整体网络结构如图1所示,它包含了四层,其中每一层包括多头注意力模块和注意力聚合模块。
参数的设置和实验评价标准如下:
A实验设置:
实验选择目标检测作为基于多尺度注意力的混凝土表面缺陷特征检测方法的下游任务,并采用典型的目标检测框架Faster R-CNN验证本发明方法的有效性。模型的参数变量取值如下:实验基于PyTorch框架并用Adam梯度优化算法进行梯度更新。输入的图像尺寸为320,图像块切割大小为16×16,各层MTANs Encoder模块中重复堆叠编码器的次数设置为12。设置参数D表示通过第一层图像嵌入模块后每个向量的长度为768。多层感知层全连接的节点个数为3072。多头注意力采用的注意力头数为12。最终将完整的数据集在神经网络中进行10次迭代传递。
B评价指标:
所涉及的评价指标为现有方法统一使用的指标组合,包括:平均精度(AveragePrecision,AP),平均精度均值(mean Average Precision,mAP),每幅图像的识别时间(Time,单位:ms),以及每秒所执行的浮点运算次数(Giga Floating-point OperationsPer Second,GFLOPS)。
根据以上实施例可知,本发明得益于基于多尺度注意力的图像特征信息,可实现更深层次的视觉理解,并基于全局语义进行合理推测;本发明利用注意力聚合结构通过卷积和汇集的空间操作,将通过每一层编码器模块的注意力特征按照划分策略进行聚合,实现图像全局信息的耦合与通信,提高模型提取特征精度:在平均精度以及IoU阈值分别取值0.5和0.75的指标上均达到了最佳效果,较现有图像特征提取模型ViT(VisionTransformer)分别提高3.22%,6.45%,3.64%,较表现最优的卷积神经网络模型ResNeXt分别提高4.57%,7.27%,5.14%。本发明通过基于逐层的图像收缩策略,有效收缩各层级图像尺寸大小,可减少模型的计算冗余。本发明采用的基于维度裁剪的注意力模块可补充图像收缩策略带来的注意力裁剪计算,提高模型计算速率:随着输入图像尺寸的增长,本发明的运算次数稳定在150GFLOPS,远低于ViT的700GFLOPS。
上述的本发明实施例的基于多尺度注意力的混凝土表面缺陷特征检测方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (7)

1.一种基于多尺度注意力的混凝土表面缺陷特征检测方法,其特征在于,方法包括如下内容:
(1)构建多层级注意力网络,多层级注意力网络包括四层注意力网络,对混凝土表面缺陷图像进行特征提取,每一层注意力网络分别处理不同划分尺度的图像块,通过注意力计算与特征聚合,最终得到多尺度图像特征;
(2)在每层注意力网络中构建基于维度裁剪的多头注意力模块,将得到的注意力特征输出到注意力聚合模块;
(3)在每层网络结构中构建注意力聚合模块,将多头注意力模块计算得到的各层注意力特征按照划分策略进行聚合。
2.根据权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法,其特征在于,所述构建多层级注意力网络中,多层级注意力网络包括四层注意力网络结构,四层注意力网络依次连接,每一层注意力网络依次包含图像嵌入模块,多头注意力模块和注意力聚合模块;第一层注意力网络的输入是混凝土表面缺陷图像,输出是特征图像,后面每一层注意力网络接收到上一层输出的特征图像后,送入图像嵌入模块线性投影与多头注意力模块的计算得到不同尺度的图像特征,之后将该图像特征通过注意力聚合模块聚合为新的特征图像输出给下一层。
3.根据权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法,其特征在于,多层级注意力网络对混凝土表面缺陷图像特征提取的具体步骤如下:
(1.1)将输入的混凝土表面缺陷图像划分为
Figure FDA0003728830870000011
份图像块,划分时记录各图像块所处整体混凝土表面缺陷图像的位置信息,采用三角函数形式表示为位置嵌入向量;H,W分别代表输入的混凝土表面缺陷图像的高度与宽度;其中每一份图像块的尺寸大小为4×4×3像素;
(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影;
第一层注意力网络将(1.1)中划分的
Figure FDA0003728830870000012
份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影,得到大小为
Figure FDA0003728830870000013
的嵌入式向量,其中C1为常量,代表第一层嵌入向量的序列维度。对于第i层注意力网络,i=2,3,4;定义第i层输入的图像块收缩尺度为Pi,各层的收缩尺度Pi随着层级依次增加而增大;第i层注意力网络首先将上一层输出的特征图像Fi-1均匀划分为
Figure FDA0003728830870000014
个图像块,其中Hi-1,Wi-1为上一层输出的特征图像的高度与宽度;此时每个图像块的序列维度为
Figure FDA0003728830870000021
将当前层划分的每个图像块重塑,并线性投影为Ci维度的嵌入向量,此时相比输入的特征图像Fi-1,每个嵌入向量的尺寸为
Figure FDA0003728830870000022
(1.3)将(1.2)收缩后的图像嵌入向量同位置嵌入向量进行线性组合,输入多头注意力模块,计算各图像块局部注意力;
(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块,按照划分区块进行注意力聚合,最终得到第i层输出特征图像Fi;采用类似的方式,使用前一层输出的特征图作为下一层的特征输入,各层网络依次得到特征图像F1,F2,F3,F4;四层的不同尺度特征提取与计算最终形成多层级注意力网络。
4.根据权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法,其特征在于,所述构建基于维度裁剪的多头注意力模块,该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算,具体步骤如下:
(2.1)将图像嵌入模块输出的每个图像块嵌入向量映射为Q,K两个矩阵向量;其中Q向量代表图像块的注意力权重;K为注意力索引,通过用其它图像块的注意力索引K与当前图像块的注意力权重相乘,得到其它图像块对当前图像块的注意力加权;除此之外,引入混凝土表面缺陷图像训练样本集训练下的矩阵向量V,在原有Q,K向量的基础上,利用混凝土表面缺陷图像训练样本集进行强化训练后得到的图像向量。
(2.2)构建对图像输入特征的空间尺度下采样公式,目的是减少向量K,V序列维度:
DT(x)=Norm(Shrink(x,Ti)WS)
其中x表示各层注意力网络划分后的图像块输入序列,Norm(·)为归一化处理,目的主要是为了让多层级注意力网络模型的收敛速度更快;Ti表示第i层注意力网络中多头注意力模块的缩减率,Shrink(·)是将输入序列x收缩为大小为
Figure FDA0003728830870000023
的输出序列;WS为线性投影参数,目的是将输入序列的维度线性投影为Ci
(2.3)计算单头注意力,再将计算结果进行级联合并;单头注意力计算公式如下:
Figure FDA0003728830870000024
其中
Figure FDA0003728830870000025
为Q,K,V向量的线性投影参数,DT(·)为空间尺度下采样操作。Attention(·)为注意力机制计算公式,其中
Figure FDA0003728830870000031
为缩放因子,目的是使训练过程中Softmax(·)函数的梯度值保持稳定:
Figure FDA0003728830870000032
(2.4)计算多头的维度裁剪注意力,(2.3)单头注意力计算完成后得到
Figure FDA0003728830870000033
的值,将多个单头注意力计算进行串联,得到基于维度裁剪的多头注意力,公式如下:
Figure FDA0003728830870000034
其中Concat(·)是对多头注意力的级联操作;Ni为第i层注意力网络的注意力层头数,WO为线性投影参数。
5.根据权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法,其特征在于,所述构建注意力聚合模块,通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合的具体步骤如下:
通过图像嵌入模块将第i层注意力网络的特征图像输入Fi-1分解为若干互不重叠的图像块,并由多头注意力模块进行了各图像块的局部注意力计算;注意力聚合模块将各图像块的特征进行聚合,最终构成图像Ai;对图像Ai应用空间图像操作,生成下采样特征图A′i,再封装为特征图Fi作为多层级注意力网络第i层网络的输出,聚合过程中序列长度不变。
6.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-5中任一项所述的基于多尺度注意力的混凝土表面缺陷特征检测方法。
7.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-5中任一项所述的基于多尺度注意力的混凝土表面缺陷特征检测方法的计算机程序。
CN202210786339.3A 2022-07-04 2022-07-04 基于多尺度注意力的混凝土表面缺陷特征检测方法 Active CN115147375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210786339.3A CN115147375B (zh) 2022-07-04 2022-07-04 基于多尺度注意力的混凝土表面缺陷特征检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210786339.3A CN115147375B (zh) 2022-07-04 2022-07-04 基于多尺度注意力的混凝土表面缺陷特征检测方法

Publications (2)

Publication Number Publication Date
CN115147375A true CN115147375A (zh) 2022-10-04
CN115147375B CN115147375B (zh) 2023-07-25

Family

ID=83412225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210786339.3A Active CN115147375B (zh) 2022-07-04 2022-07-04 基于多尺度注意力的混凝土表面缺陷特征检测方法

Country Status (1)

Country Link
CN (1) CN115147375B (zh)

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866907A (zh) * 2019-11-12 2020-03-06 中原工学院 基于注意力机制的全卷积网络织物疵点检测方法
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
US20210012146A1 (en) * 2019-07-12 2021-01-14 Wuyi University Method and apparatus for multi-scale sar image recognition based on attention mechanism
CN112232391A (zh) * 2020-09-29 2021-01-15 河海大学 一种基于U-net网络和SC-SAM注意力机制的大坝裂缝检测方法
CN112465790A (zh) * 2020-12-03 2021-03-09 天津大学 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
CN112949771A (zh) * 2021-04-08 2021-06-11 河海大学 一种基于多深度多尺度层级注意力融合机制的高光谱遥感影像分类方法
CN113033321A (zh) * 2021-03-02 2021-06-25 深圳市安软科技股份有限公司 目标行人属性识别模型的训练方法及行人属性识别方法
CN113112456A (zh) * 2021-03-25 2021-07-13 湖南工业大学 一种基于目标检测算法的浓稠食品灌装成品缺陷检测方法
CN113129288A (zh) * 2021-04-22 2021-07-16 安徽大学 一种基于深度学习图像语义分割的药片表面缺陷检测方法及其自动化处理装置
US20210248761A1 (en) * 2020-02-10 2021-08-12 Hong Kong Applied Science and Technology Research Institute Company Limited Method for image segmentation using cnn
CN113284107A (zh) * 2021-05-25 2021-08-20 重庆邮电大学 一种引入注意力机制改进型U-net的混凝土裂缝实时检测方法
CN113393439A (zh) * 2021-06-11 2021-09-14 重庆理工大学 一种基于深度学习的锻件缺陷检测方法
CN113658176A (zh) * 2021-09-07 2021-11-16 重庆科技学院 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法
CN113781466A (zh) * 2021-09-22 2021-12-10 河北工业大学 基于多尺度注意力密集网络的太阳能电池板缺陷识别方法
CN113822885A (zh) * 2021-11-23 2021-12-21 常州微亿智造科技有限公司 融合多注意力机制的工件缺陷检测方法和装置
CN114332302A (zh) * 2021-12-02 2022-04-12 广东工业大学 一种基于多尺度自注意力网络的点云补全系统及方法
CN114419014A (zh) * 2022-01-19 2022-04-29 河北工业大学 基于特征重构的表面缺陷检测方法
CN114445366A (zh) * 2022-01-26 2022-05-06 沈阳派得林科技有限责任公司 基于自注意力网络的长输管道射线影像缺陷智能识别方法
CN114494164A (zh) * 2022-01-13 2022-05-13 大连嘉济自动化机电科技有限公司 一种钢材表面缺陷检测方法、装置及计算机存储介质
US20220164566A1 (en) * 2020-11-20 2022-05-26 Shenzhen Deeproute.Ai Co., Ltd Methods for encoding point cloud feature
CN114581560A (zh) * 2022-03-01 2022-06-03 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN114663346A (zh) * 2022-01-30 2022-06-24 河北工业大学 一种基于改进YOLOv5网络的带钢表面缺陷检测方法
CN114693615A (zh) * 2022-03-17 2022-07-01 常州工学院 一种基于域适应的深度学习混凝土桥梁裂缝实时检测方法

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012146A1 (en) * 2019-07-12 2021-01-14 Wuyi University Method and apparatus for multi-scale sar image recognition based on attention mechanism
CN110866907A (zh) * 2019-11-12 2020-03-06 中原工学院 基于注意力机制的全卷积网络织物疵点检测方法
US20210248761A1 (en) * 2020-02-10 2021-08-12 Hong Kong Applied Science and Technology Research Institute Company Limited Method for image segmentation using cnn
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
CN112232391A (zh) * 2020-09-29 2021-01-15 河海大学 一种基于U-net网络和SC-SAM注意力机制的大坝裂缝检测方法
US20220164566A1 (en) * 2020-11-20 2022-05-26 Shenzhen Deeproute.Ai Co., Ltd Methods for encoding point cloud feature
CN112465790A (zh) * 2020-12-03 2021-03-09 天津大学 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法
CN113033321A (zh) * 2021-03-02 2021-06-25 深圳市安软科技股份有限公司 目标行人属性识别模型的训练方法及行人属性识别方法
CN113112456A (zh) * 2021-03-25 2021-07-13 湖南工业大学 一种基于目标检测算法的浓稠食品灌装成品缺陷检测方法
CN112949771A (zh) * 2021-04-08 2021-06-11 河海大学 一种基于多深度多尺度层级注意力融合机制的高光谱遥感影像分类方法
CN113129288A (zh) * 2021-04-22 2021-07-16 安徽大学 一种基于深度学习图像语义分割的药片表面缺陷检测方法及其自动化处理装置
CN113284107A (zh) * 2021-05-25 2021-08-20 重庆邮电大学 一种引入注意力机制改进型U-net的混凝土裂缝实时检测方法
CN113393439A (zh) * 2021-06-11 2021-09-14 重庆理工大学 一种基于深度学习的锻件缺陷检测方法
CN113658176A (zh) * 2021-09-07 2021-11-16 重庆科技学院 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法
CN113781466A (zh) * 2021-09-22 2021-12-10 河北工业大学 基于多尺度注意力密集网络的太阳能电池板缺陷识别方法
CN113822885A (zh) * 2021-11-23 2021-12-21 常州微亿智造科技有限公司 融合多注意力机制的工件缺陷检测方法和装置
CN114332302A (zh) * 2021-12-02 2022-04-12 广东工业大学 一种基于多尺度自注意力网络的点云补全系统及方法
CN114494164A (zh) * 2022-01-13 2022-05-13 大连嘉济自动化机电科技有限公司 一种钢材表面缺陷检测方法、装置及计算机存储介质
CN114419014A (zh) * 2022-01-19 2022-04-29 河北工业大学 基于特征重构的表面缺陷检测方法
CN114445366A (zh) * 2022-01-26 2022-05-06 沈阳派得林科技有限责任公司 基于自注意力网络的长输管道射线影像缺陷智能识别方法
CN114663346A (zh) * 2022-01-30 2022-06-24 河北工业大学 一种基于改进YOLOv5网络的带钢表面缺陷检测方法
CN114581560A (zh) * 2022-03-01 2022-06-03 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN114693615A (zh) * 2022-03-17 2022-07-01 常州工学院 一种基于域适应的深度学习混凝土桥梁裂缝实时检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIAOHU DONG等: "Multiscale Deformable Attention and Multilevel Features Aggregation for Remote Sensing Object Detection", IEEE GEOSCIENCE AND REMOTE SENSING LETTERS, vol. 19, pages 1 - 5, XP011910462, DOI: 10.1109/LGRS.2022.3178479 *
XIN WANG等: "Multi-Scale Context Aggregation Network with Attention-Guided for Crowd Counting", 2020 15TH IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP), pages 240 - 245 *
李智熙: "基于深度学习的稀土磁性材料表面缺陷检测算法研究", 中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑, vol. 2022, no. 2, pages 022 - 94 *
郭倩: "嵌入多尺度模块和注意力机制的图像语义分割", 中国优秀硕士学位论文全文数据库 信息科技辑, vol. 2021, no. 12, pages 138 - 426 *

Also Published As

Publication number Publication date
CN115147375B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN114897779B (zh) 基于融合注意力的宫颈细胞学图像异常区域定位方法及装置
CN111209921A (zh) 基于改进的YOLOv3网络的车牌检测模型及构建方法
CN113569667B (zh) 基于轻量级神经网络模型的内河船舶目标识别方法及系统
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN116152254B (zh) 工业泄露目标气体检测模型训练方法、检测方法、电子设备
CN110726898A (zh) 一种配电网故障类型识别方法
CN114186234A (zh) 基于轻量级网络ESPNet的恶意代码检测算法
CN114972794A (zh) 基于多视图Pooling Transformer的三维对象识别方法
CN116091764A (zh) 一种基于融合变换网络的云图像分割方法
CN115019147A (zh) 一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型
CN114821328A (zh) 一种基于完全学习的电力图像处理方法及装置
CN116503398B (zh) 绝缘子污闪检测方法、装置、电子设备及存储介质
CN117435992A (zh) 一种用于盾构机液压推进系统的故障预测方法及系统
CN117173449A (zh) 基于多尺度detr的航空发动机叶片缺陷检测方法
CN115147375A (zh) 基于多尺度注意力的混凝土表面缺陷特征检测方法
CN111026741A (zh) 基于时间序列相似性的数据清洗方法及装置
CN116403042A (zh) 一种轻量化卫生用品缺陷检测的方法及装置
CN113192018B (zh) 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法
CN112529157B (zh) 一种基于卷积神经网络的稀疏张量存储格式自动选择方法
Cao et al. Improved YOLOv3 model based on ResNeXt for target detection
CN111382761A (zh) 一种基于cnn的检测器、图像检测方法及终端
Chen et al. Image distillation based screening for x-ray crystallography diffraction images
CN115965571B (zh) 增量自主学习的多源信息融合检测、模型训练方法和介质
CN113255581B (zh) 弱监督深度学习水体提取方法、装置、计算机设备和介质
Zhou et al. A Rapid Crack Detection Technique Based on Attention for Intelligent M&O of Cross-Sea Bridge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant