CN115147375B

CN115147375B - 基于多尺度注意力的混凝土表面缺陷特征检测方法

Info

Publication number: CN115147375B
Application number: CN202210786339.3A
Authority: CN
Inventors: 王哲源; 易魁; 陈有勤; 毛莺池; 万旭; 曹学兴; 聂兵兵; 谭彬; 刘海波; 彭欣欣; 王海燕
Original assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2023-07-25
Anticipated expiration: 2042-07-04
Also published as: CN115147375A

Abstract

本发明公开了一种基于多尺度注意力的混凝土表面缺陷特征检测方法，包括以下步骤：构建围绕分层结构思想的多尺度图像注意力网络结构，网络将特征提取分为四个层级，分别处理不同尺度的特征图像；构建基于维度裁剪的多头注意力模块，对多头注意力机制嵌入维度裁剪计算，通过消减输入的特征向量维度降低高分辨率特征图像计算冗余；构建注意力聚合结构，通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合，以聚焦图像细节，提高图像特征精度。本发明有效收缩各层级缺陷图像尺寸大小，可减少模型的计算冗余并提高计算速率，同时通过构建注意力聚合模块能够促进图像全局信息耦合，聚焦缺陷图像特征精度。

Description

基于多尺度注意力的混凝土表面缺陷特征检测方法

技术领域

本发明属于混凝土表面缺陷图像特征检测领域，特别涉及一种基于多尺度注意力机制的混凝土坝表面缺陷图像特征检测方法。

背景技术

建筑工程领域将工程施工质量中不符合规定要求的检验项或检验点定义为缺陷，随着水电站混凝土大坝的长期运行，材料老化、环境影响等原因导致了不同程度缺陷的形成。当缺陷程度较轻时，尚可采取相应的措施对缺陷进行及时地处理，达到结构的承载要求，一旦缺陷没有得到及时地处理与补救，将对安全运行造成重大威胁。电监安全[2005]24号《水电站大坝安全定期检查办法》明确指出应当委派专员定期对水电站混凝土坝面进行检查与安全评价，并出具必要的专项检查报告和总结报告，以维护大坝安全运行。

对于混凝土表面缺陷特征而言，通常具有信噪比低、光照分布极度不均匀等特征，分类算法的识别率较低。同时混凝土表面缺陷特征具有大小不一，变化较大的问题，如“渗水点”这类特征几何形状较稳定且细小，而“裂缝”与“渗水面”这类特征几何分布范围更大、区域更加明显。现有特征提取方法在处理这类缺陷图像时，划分精度较低，使得到的图像特征粗糙，难以应用于后续的缺陷目标检测任务。同时现有基于全局的图像注意力机制结构的缺陷特征检测方法，其计算复杂度与输入图像的尺寸呈正指数相关，计算成本极高。

发明内容

发明目的：定期巡检是维护大坝工程安全的重要措施，现有的巡检方法主要为人工巡检与记录。随着大坝混凝土建龄的增加和不断叠加的环境变化影响，混凝土表面缺陷逐渐增多且更加复杂，导致人工巡检的工作量与难度逐渐增大。为了工程监测中更好地识别缺陷图像，克服现有技术对于捕捉缺陷特征的难题，本发明提供一种基于多尺度注意力的混凝土表面缺陷特征检测方法，准确且轻量地对表面缺陷图像进行分类与检测，降低人工识别的复杂度。

技术方案：一种基于多尺度注意力的混凝土表面缺陷特征检测方法，发明将混凝土缺陷作为关键词，使用注意力模型提取缺陷关键词对应的缺陷特征。在缺陷图像特征提取任务中，多尺度的图像处理与分析能够更加准确地捕捉到特征变化大的特征。同时，为了有效地控制多尺度图像注意力模型带来的额外计算冗余，在模型的编码器中需要添加对图像特征向量的维度消减机制，在准确捕捉混凝土缺陷的同时减少计算量。方法包括如下内容：

(1)构建多层级注意力网络，多层级注意力网络是将分层思想引入图像注意力网络，多层级注意力网络包括四层注意力网络，对混凝土表面缺陷图像进行特征提取，每一层注意力网络分别处理不同划分尺度的图像块，通过注意力计算与特征聚合，最终得到多尺度图像特征；

(2)在每层注意力网络中构建基于维度裁剪的多头注意力模块，对多头注意力机制嵌入维度裁剪计算，通过消减输入的特征向量维度降低混凝土表面缺陷图像的计算冗余，最终将得到的注意力特征输出到注意力聚合模块；

(3)在每层网络结构中构建注意力聚合模块，通过卷积和汇集等空间操作将多头注意力模块计算得到的各层注意力特征按照划分策略进行聚合，以聚焦混凝土表面缺陷图像细节，提高图像特征精度。

所述构建多层级注意力网络中，多层级注意力网络包括四层注意力网络结构，四层注意力网络依次连接，每一层注意力网络依次包含图像嵌入模块，多头注意力模块和注意力聚合模块；第一层注意力网络的输入是混凝土表面缺陷图像，输出是特征图像，后面每一层注意力网络接收到上一层输出的特征图像后，送入图像嵌入模块线性投影与多头注意力模块的计算得到不同尺度的图像特征，之后将该图像特征通过注意力聚合模块聚合为新的特征图像输出给下一层。多层级注意力网络对混凝土表面缺陷图像特征提取的具体步骤如下：

(1.1)将输入的混凝土表面缺陷图像划分为份图像块，划分时记录各图像块所处整体混凝土表面缺陷图像的位置信息，采用三角函数形式表示为位置嵌入向量。H,W分别代表输入的混凝土表面缺陷图像的高度与宽度。其中每一份图像块的尺寸大小为4×4×3像素；

(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影；

第一层注意力网络将(1.1)中划分的份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影，得到大小为/>的嵌入式向量，其中C₁为常量，代表第一层嵌入向量的序列维度。对于第i层注意力网络，i＝2,3,4；定义第i层输入的图像块收缩尺度为P_i，各层的收缩尺度P_i随着层级依次增加而增大。第i层注意力网络首先将上一层输出的特征图像F_i-1均匀划分为/>个图像块，其中H_i-1,W_i-1为上一层输出的特征图像的高度与宽度。此时每个图像块的序列维度为/>将当前层划分的每个图像块重塑，并线性投影为C_i维度的嵌入向量，此时相比输入的特征图像F_i-1，每个嵌入向量的尺寸为/>可以看作进行了P_i倍的收缩。

(1.3)将(1.2)收缩后的图像嵌入向量同位置嵌入向量进行线性组合，输入多头注意力模块，计算各图像块局部注意力；

(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块，按照划分区块进行注意力聚合，最终得到第i层输出特征图像F_i。采用类似的方式，使用前一层输出的特征图作为下一层的特征输入，各层网络依次得到特征图像F₁,F₂,F₃,F₄。上述四层的不同尺度特征提取与计算最终形成多层级注意力网络。

所述构建基于维度裁剪的多头注意力模块，该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算，具体步骤如下：

(2.1)将图像嵌入模块输出的每个图像块嵌入向量映射为Q,K两个矩阵向量。其中Q(query)向量代表图像块(如A)的注意力权重；K(key)为注意力索引，通过用其它图像块的注意力索引K(key)与当前图像块A的注意力权重(Query)相乘，就可以得到其它图像块对当前图像块A的注意力加权。除此之外，引入混凝土表面缺陷图像训练样本集训练下的矩阵向量V(value)，可以理解为在原有Q,K向量的基础上，利用混凝土表面缺陷图像训练样本集进行强化训练后得到的图像向量。

(2.2)构建对图像输入特征的空间尺度下采样公式，目的是减少向量K,V序列维度：

DT(x)＝Norm(Shrink(x,T_i)W^S)

其中x表示各层注意力网络划分后的图像块输入序列，Norm(·)为归一化处理，目的主要是为了让多层级注意力网络模型的收敛速度更快。T_i表示第i层注意力网络中多头注意力模块的缩减率，Shrink(·)是将输入序列x收缩为大小为的输出序列。W^S为线性投影参数，目的是将输入序列的维度线性投影为C_i。

(2.3)计算单头注意力，再将计算结果进行级联合并。单头注意力计算公式如下：

其中为Q，K，V向量的线性投影参数，DT(·)为空间尺度下采样操作。Attention(·)为注意力机制计算公式，其中/>为缩放因子，目的是使训练过程中Softmax(·)函数的梯度值保持稳定：

(2.4)计算多头的维度裁剪注意力，(2.3)单头注意力计算完成后得到的值，将多个单头注意力计算进行串联，得到基于维度裁剪的多头注意力，公式如下：

其中Concat(·)是对多头注意力的级联操作；N_i为第i层注意力网络的注意力层头数，W^O为线性投影参数。

所述构建注意力聚合模块，通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合的具体步骤如下：

通过图像嵌入模块将第i层注意力网络的特征图像输入F_i-1分解为若干互不重叠的图像块，并由多头注意力模块进行了各图像块的局部注意力计算。注意力聚合模块将各图像块的特征进行聚合，最终构成图像A_i。对A_i应用空间图像操作(卷积和池化)，生成下采样特征图A_i′，再封装为特征图F_i作为多层级注意力网络第i层网络的输出，聚合过程中序列长度不变。在混凝土缺陷图像中类似“裂缝”这类狭长的缺陷特征，往往占据了多个相邻图像块，通过将这些图像块聚合起来获得整体的图像信息，有助于对缺陷类别更好地检测。本技术方案采取的类金字塔结构使得注意力聚合模块在前期的层级可以得到“渗水点”这类几何形状较稳定且细小的特征，而随着网络层级的不断深入，可以更有效地得到“裂缝”与“渗水面”这类几何分布范围大、区域明显的特征。同时注意力聚合过程对提取“渗水点”与“渗水面”这类存在一定关联程度的图像特征具有增益的效果。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于多尺度注意力的混凝土表面缺陷特征检测方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于多尺度注意力的混凝土表面缺陷特征检测方法的计算机程序。

有益效果：本发明与现有技术相比具有以下优点：

1)采取的多层注意力网络对大坝缺陷图像进行多阶段的注意力特征提取与注意力聚合，在前期的细节层级可以得到“渗水点”这类几何形状较稳定且细小的特征，而随着后期网络层级的不断深入，可以更有效地得到“裂缝”与“渗水面”这类几何分布范围大、区域明显的特征。

2)构建注意力聚合结构，对图像局部注意力聚合，实现相邻图像块之间信息耦合与通信，对提取“渗水点”与“渗水面”这类存在一定关联程度的图像特征有独有的效果。

3)整体网络结构采用的逐层图像收缩策略，控制各层特征图像的尺寸，避免了整幅缺陷图像的全局注意力计算，从而缩短了每幅图像的检测时间。

附图说明

图1为具体实施例中多尺度注意力网络总体框架图；

图2为具体实施例中逐层图像收缩机制示意图；

图3为具体实施例中基于维度裁剪的注意力机制示意图；

图4为具体实施例中层级注意力聚合结构图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

已知有某混凝土表面缺陷图像数据集，采用某电站拱坝日常工作巡检过程中拍摄的缺陷图像，作为缺陷目标识别与分类实验数据。该大坝图像数据集包含了5种类别，分别是正常图像，渗漏点(seepage point)图像，渗水面(seepage surface)图像，裂缝(crack)图像和碱性物析出(alkaline precipitation)图像。采用labelme数据标注软件对大坝表观缺陷图像按照变形趋势编辑标准闭合框，从中心位置向外衍射分割成224×224像素的图像，用来建立训练样本集和验证样本集。

图1给出了本发明提供的一种基于多尺度注意力的混凝土表面缺陷特征检测方法的总体工作流程，具体实施如下：

(1)构建多层级注意力网络，将图像注意力网络分为四层结构，每一层网络依次包含图像嵌入模块，多头注意力模块和注意力聚合模块。多层级注意力网络对缺陷图像特征提取的具体步骤如下：

(1.1)将输入的混凝土表面缺陷图像划分为份图像块，划分时记录各图像块所处整体图像的位置信息，采用三角函数形式表示为位置嵌入向量。H,W分别代表输入图像的高度与宽度。其中每一份图像块的尺寸大小为4×4×3像素；

(1.2)将划分后互不重叠的图像块借助图像嵌入模块进行线性投影，第一层注意力网络将(1.1)中划分的份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影，得到大小为/>的嵌入式向量，其中C₁为常量，代表第一层嵌入向量的序列维度。对于第i层网络，i＝2,3,4；定义第i层输入的图像块收缩尺度为P_i，各层的收缩尺度P_i随着层级依次增加而增大。首先将上一层输出的特征图像F_i-1均匀划分为个图像块，其中H_i-1,W_i-1为上一层输出的特征图像的高度与宽度。此时每个图像块的序列维度为/>通过图像嵌入模块，将当前层划分的每个图像块重塑，并线性投影为C_i维度的嵌入向量，此时相比输入的特征图像F_i-1，每个嵌入向量的尺寸为可以看作进行了P_i倍的收缩。

(1.3)将收缩后的图像嵌入向量同位置嵌入向量进行线性组合，输入多头注意力模块，计算各图像块局部注意力；

(2)构建基于维度裁剪的多头注意力模块，该模块基于传统注意力模块对多头注意力机制嵌入维度裁剪计算，如图3所示。具体步骤如下：

(2.1)将图像嵌入模块输出的每个图像块特征映射为Q,K两个矩阵向量。其中Q(query)向量代表图像块(如A)的注意力权重；K(key)为注意力索引，通过用其它图像块的注意力索引K(key)与当前图像块A的注意力权重(Query)相乘，就可以得到其它图像块对A的注意力加权。除此之外，引入图像数据集训练下的矩阵向量V(value)，可以理解为在原有Q,K向量的基础上，利用图像训练集进行强化训练后得到的图像向量。

DT(x)＝Norm(Shrink(x,T_i)W^S)

其中x表示划分后的图像块输入序列，Norm(·)为归一化处理，目的主要是为了让多层级注意力网络模型的收敛速度更快。Ti表示第i层中多头注意力模块的缩减率，Shrink(·)是将输入序列x收缩为大小为的输出序列。W^S为线性投影参数，目的是将输入序列的维度线性投影为C_i。

(2.4)计算多头的维度裁剪注意力，(2.2)单头注意力计算完成后得到的值，将多个单头注意力计算进行串联，得到基于维度裁剪的多头注意力，公式如下：

其中Concat(·)是对多头注意力的级联操作；N_i为第i层的注意力层头数，W^O为线性投影参数。多头注意力模块对单头注意力的级联可以实现同时进行多个查询，平行计算图像输入的多个信息。例如“渗漏点”，“碱性物析出”这类数量较多且形状细小的缺陷特征，多头注意力模块可以同时聚焦图像中多个细节部分，提高缺陷目标识别的效率。

(3)构建注意力聚合模块，通过卷积和汇集等空间操作将各层注意力特征按照划分策略进行聚合，以聚焦图像细节，提高图像特征精度。

通过图像嵌入模块将第i层的图像输入F_i-1分解为若干互不重叠的图像块，在经过注意力聚合块时，填满图像平面A_i。对A_i按照不同的划分策略，应用空间图像操作(卷积和池化)，生成下采样特征图A_i′，再封装为特征图F_i作为第i层的输出，聚合过程中序列长度不变。

以图4为例，将整张图像用数字1表示。注意力聚合模块将经过多头注意力模块计算后的特征图像按照层级结构，依次分为四块(2，3，4，5)，16块(如块2分为6，7，8，9)，64块(如块6分为10，11，12，13)，256块(如块10分为14，15，16，17)。各层的注意力聚合模块对图像块的聚合操作如下：首先第一层将14，15，16，17聚合为10，该层其它小图像块以此类推。第二层将10，11，12，13聚合为6，第三层将6，7，8，9聚合为2，最后一层将2，3，4，5聚合为1。整体聚合流程形成一个类金字塔结构。这种类金字塔结构使得注意力聚合模块在前期的层级可以得到“渗漏点”这类几何形状较稳定且细小的特征，而随着网络层级的不断深入，可以更有效地得到“裂缝”与“渗漏面”这类几何分布范围大、区域明显的特征。同时注意力聚合过程实现了相邻图像块之间的信息耦合与通信，对提取“渗漏点”与“渗水面”这类存在一定关联程度的图像特征具有增益的效果。

(1)中描述的多层级注意力网络是一个整体的网络结构，这个网络结构负责逐步处理输入的原始混凝土表面缺陷图像，最终计算出不同尺度图像特征的输出。(1)中描述的整体网络结构如图1所示，它包含了四层，其中每一层包括多头注意力模块和注意力聚合模块。

参数的设置和实验评价标准如下：

A实验设置：

实验选择目标检测作为基于多尺度注意力的混凝土表面缺陷特征检测方法的下游任务，并采用典型的目标检测框架Faster R-CNN验证本发明方法的有效性。模型的参数变量取值如下：实验基于PyTorch框架并用Adam梯度优化算法进行梯度更新。输入的图像尺寸为320，图像块切割大小为16×16，各层MTANs Encoder模块中重复堆叠编码器的次数设置为12。设置参数D表示通过第一层图像嵌入模块后每个向量的长度为768。多层感知层全连接的节点个数为3072。多头注意力采用的注意力头数为12。最终将完整的数据集在神经网络中进行10次迭代传递。

B评价指标：

所涉及的评价指标为现有方法统一使用的指标组合，包括：平均精度(AveragePrecision，AP)，平均精度均值(mean Average Precision，mAP)，每幅图像的识别时间(Time，单位:ms)，以及每秒所执行的浮点运算次数(Giga Floating-point OperationsPer Second，GFLOPS)。

根据以上实施例可知，本发明得益于基于多尺度注意力的图像特征信息，可实现更深层次的视觉理解，并基于全局语义进行合理推测；本发明利用注意力聚合结构通过卷积和汇集的空间操作，将通过每一层编码器模块的注意力特征按照划分策略进行聚合，实现图像全局信息的耦合与通信，提高模型提取特征精度：在平均精度以及IoU阈值分别取值0.5和0.75的指标上均达到了最佳效果，较现有图像特征提取模型ViT(VisionTransformer)分别提高3.22％，6.45％，3.64％，较表现最优的卷积神经网络模型ResNeXt分别提高4.57％，7.27％，5.14％。本发明通过基于逐层的图像收缩策略，有效收缩各层级图像尺寸大小，可减少模型的计算冗余。本发明采用的基于维度裁剪的注意力模块可补充图像收缩策略带来的注意力裁剪计算，提高模型计算速率：随着输入图像尺寸的增长，本发明的运算次数稳定在150GFLOPS，远低于ViT的700GFLOPS。

上述的本发明实施例的基于多尺度注意力的混凝土表面缺陷特征检测方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于多尺度注意力的混凝土表面缺陷特征检测方法，其特征在于，方法包括如下内容：

(1)构建多层级注意力网络，多层级注意力网络包括四层注意力网络，对混凝土表面缺陷图像进行特征提取，每一层注意力网络分别处理不同划分尺度的图像块，通过注意力计算与特征聚合，最终得到多尺度图像特征；

(2)在每层注意力网络中构建基于维度裁剪的多头注意力模块，将得到的注意力特征输出到注意力聚合模块；

(3)在每层网络结构中构建注意力聚合模块，将多头注意力模块计算得到的各层注意力特征按照划分策略进行聚合；

所述构建多层级注意力网络中，多层级注意力网络包括四层注意力网络结构，四层注意力网络依次连接，每一层注意力网络依次包含图像嵌入模块，多头注意力模块和注意力聚合模块；第一层注意力网络的输入是混凝土表面缺陷图像，输出是特征图像，后面每一层注意力网络接收到上一层输出的特征图像后，送入图像嵌入模块线性投影与多头注意力模块的计算得到不同尺度的图像特征，之后将该图像特征通过注意力聚合模块聚合为新的特征图像输出给下一层；

多层级注意力网络对混凝土表面缺陷图像特征提取的具体步骤如下：

(1.1)将输入的混凝土表面缺陷图像划分为份图像块，划分时记录各图像块所处整体混凝土表面缺陷图像的位置信息，采用三角函数形式表示为位置嵌入向量；H,W分别代表输入的混凝土表面缺陷图像的高度与宽度；其中每一份图像块的尺寸大小为4×4×3像素；

第一层注意力网络将(1.1)中划分的份互不重叠的图像块送入第一层注意力网络中的图像嵌入模块进行线性投影，得到大小为/>的嵌入式向量，其中C₁为常量，代表第一层嵌入向量的序列维度；对于第i层注意力网络，i＝2,3,4；定义第i层输入的图像块收缩尺度为P_i，各层的收缩尺度P_i随着层级依次增加而增大；第i层注意力网络首先将上一层输出的特征图像F_i-1均匀划分为/>个图像块，其中H_i-1,W_i-1为上一层输出的特征图像的高度与宽度；此时每个图像块的序列维度为/>将当前层划分的每个图像块重塑，并线性投影为C_i维度的嵌入向量，此时相比输入的特征图像F_i-1，每个嵌入向量的尺寸为

(1.4)将多头注意力模块计算得到的各图像块局部注意力输入注意力聚合模块，按照划分区块进行注意力聚合，最终得到第i层输出特征图像F_i；采用类似的方式，使用前一层输出的特征图作为下一层的特征输入，各层网络依次得到特征图像F₁,F₂,F₃,F₄；四层的不同尺度特征提取与计算最终形成多层级注意力网络；

(2.1)将图像嵌入模块输出的每个图像块嵌入向量映射为Q,K两个矩阵向量；其中Q向量代表图像块的注意力权重；K为注意力索引，通过用其它图像块的注意力索引K与当前图像块的注意力权重相乘，得到其它图像块对当前图像块的注意力加权；除此之外，引入混凝土表面缺陷图像训练样本集训练下的矩阵向量V，在原有Q,K向量的基础上，利用混凝土表面缺陷图像训练样本集进行强化训练后得到的图像向量；

DT(x)＝Norm(Shrink(x,T_i)W^S)

其中x表示各层注意力网络划分后的图像块输入序列，Norm(·)为归一化处理，目的主要是为了让多层级注意力网络模型的收敛速度更快；T_i表示第i层注意力网络中多头注意力模块的缩减率，Shrink(·)是将输入序列x收缩为大小为的输出序列；W^S为线性投影参数，目的是将输入序列的维度线性投影为C_i；H_i,W_i为i层输出的特征图像的高度与宽度；

(2.3)计算单头注意力，再将计算结果进行级联合并；单头注意力计算公式如下：

其中为Q，K，V向量的线性投影参数，DT(·)为空间尺度下采样操作；Attention(·)为注意力机制计算公式，其中/>为缩放因子，目的是使训练过程中Softmax(·)函数的梯度值保持稳定：

其中Concat(·)是对多头注意力的级联操作；N_i为第i层注意力网络的注意力层头数，W^O为线性投影参数；

通过图像嵌入模块将第i层注意力网络的特征图像输入F_i-1分解为若干互不重叠的图像块，并由多头注意力模块进行了各图像块的局部注意力计算；注意力聚合模块将各图像块的特征进行聚合，最终构成图像A_i；对图像A_i应用空间图像操作，生成下采样特征图A′_i，再封装为特征图F_i作为多层级注意力网络第i层网络的输出，聚合过程中序列长度不变。

2.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法。

3.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1所述的基于多尺度注意力的混凝土表面缺陷特征检测方法的计算机程序。