CN114022770A

CN114022770A - 基于改进自注意力机制与迁移学习的山体裂缝检测方法

Info

Publication number: CN114022770A
Application number: CN202111335474.8A
Authority: CN
Inventors: 吴贺俊; 李可
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-08

Abstract

本发明提供基于改进自注意力机制与迁移学习的山体裂缝检测方法，该方法对裂缝检测网络的数据集进行预处理得到训练集和验证集；利用得到的训练集对裂缝检测网络进行训练；利用得到的验证集选择训练裂缝检测网络得到的表现最好的模型；在不同道路裂缝数据集上测试模型的性能，泛化性；利用迁移学习方法将处理后的模型应用于山体裂缝检测。本发明面向高精度山体裂缝检测应用场景，研究图片不同尺度特征的提取方式，提出了一种新型的裂缝检测网络结构，并从结构层面和公式层面对新网络进行了详细的阐述。本发明利用不同的数据实验说明了网络如何应用于具体的检测场景，并通过与代表性方法进行性能对比，展现了新型算法的优势所在。

Description

基于改进自注意力机制与迁移学习的山体裂缝检测方法

技术领域

本发明涉及深度学习领域与计算机视觉领域，更具体地，涉及一种基于改进自注意力机制与迁移学习的山体裂缝检测方法。

背景技术

山体裂缝是一种常见的自然隐患，未及时预警的山体裂缝常演化为山体滑坡等自然灾害，造成巨大的财产损失、人员伤亡，因此及时检测山体裂缝十分必要。传统的山体裂缝检测方法大都采用仪器监测加人工识别的方法，这些方法虽然具有一定的检测效果，但易受到场境限制，并且自动化程度低，需要消耗大量人力物力。

基于深度学习的裂缝检测方法因其自动化程度高有很好的发展前景，但仍存在许多的问题导致其许多场景下因准确率不够而不能实用。具体看，当前主流的基于深度学习的检测方法主要包括基于上、下采样的方法、基于编码器-解码器结构的方法以及基于自注意力机制的方法三类。其中，第一类方法的网络提取的信息不够丰富且没有考虑到不同尺度特征的独特性，检测精度较低。第二类方法由于卷积神经网络难以关注到像素的全局依赖关系，在细粒度上的分割效果仍待提高。第三类方法在网络中加入了自注意力机制以提取像素的全局依赖关系，一定程度地提升了网络的检测精度，但这类方法自注意力权重的计算复杂度过高，导致训练低效，精度提升有限，一般不能满足要求。同时，山体裂缝图片还存在数据缺乏，影响网络训练的问题。

发明内容

本发明提供一种基于改进自注意力机制与迁移学习的山体裂缝检测方法来高效地检测、预警山体裂缝。

为了达到上述技术效果，本发明的技术方案如下：

一种基于改进自注意力机制与迁移学习的山体裂缝检测方法，包括以下步骤：

S1：对裂缝检测网络的数据集进行预处理得到训练集和验证集；

S2：利用步骤S1得到的训练集对裂缝检测网络进行训练；

S3：利用步骤S1得到的验证集选择训练裂缝检测网络得到的表现最好的模型；

S4：在不同道路裂缝数据集上测试模型的性能，泛化性；

S5：利用迁移学习方法将步骤S4处理后的模型应用于山体裂缝检测。

进一步地，所述步骤S1的过程是：

将所有的训练样本与标签样本重新尺寸化以利于计算损失，并且去除数据集中噪声过多的样本，之后，将剩余合格样本划分为训练集与验证集，其中训练集用于训练网络，而验证集用于选择性能最佳模型。

进一步地，所述步骤S2的过程是：

S21：使用ImageNet-1k预训练裂缝检测网络的Swin-Transformer主干网络部分；

S22：使用训练集训练整个网络。

进一步地，步骤S21中的Swin-Transformer主干网络包含两种基本网络模块：Swin-Transformer模块和Patch-merging模块：

1)、Swin-Transformer模块：

Swin-Transformer是一种包含改进的自注意力机制的模块，它提取图片的全局依赖关系，同时改进一般自注意力模块训练缓慢的问题，Swin-Transformer中包含若干连续Swin-Transformer block对，输入在第一个block中首先经过线性归一化层与基于滑动窗口的多头自注意力层计算并加上残差，之后经过线性归一化层和多层感知机层再加上残差，得到的输出交给下一个block，依旧进行上述过程计算，唯一不同之处在于基于窗口的多头自注意力层变换成了移动的基于窗口的多头自注意力层，设输入为z^l-1，公式化上述过程可得：

W-MSA将图片划分成较小的patch，之后用窗口将图片划分，每个patch只和同一窗口内的patch做自注意力计算：

其中，Q，K，V是由图片中每个patch经过卷积神经网络embedding之后再乘上转换矩阵得到的向量，设每张图片可划分为H×W个patch，每个patch得到的Q,K,V向量长度为C，而每个窗口范围内包含M×M个patch，则自注意力机制MSA与W-MSA的计算时间复杂度分别为：

Ω(MSA)＝4HWC²+2(HW)²C

Ω(W-MSA)＝4HWC²+2M²HWC

前者的计算复杂度为图片的长宽之积HW的平方，而后者的复杂度则在M²＜＜HW时与HW成线性关系，因此当图片尺寸大时，W-MSA可以显著的加速自注意力权重的计算从而加快网络的训练过程；

虽然W-MSA相比MSA的计算复杂度显著减小，但其限定了自注意力在每个窗口内计算，因此无法提取不同窗口内patch的依赖关系，需通过SW-MSA解决这个问题，通过将窗口整体的滑动得到新的窗口划分方式，从而计算原来在不同窗口的patch之间的注意力权重；

2)、Patch-merging模块：

Patch-merging旨在通过对特征图的patch向量进行合并，以对特征图进行近似下采样，从而提取图片的多尺度信息；

Patch-merging模块通过对特征图的patch向量进行合并的具体操作为：

将相邻的2×2范围内长度为c的向量进行连接操作得到长度为4c的向量，再将其输入全连接层得到最终长度为2C的向量，设输入的特征图尺寸为h×w×c，其中h和w为图像的宽和高，c为图像的通道数，则经历Patch-merging将得到

的特征图；

Swin-Transformer模块中，为解决SW-MSA与W-MSA窗口划分方式不一致带来的问题，SW-MSA通过往窗口滑动相反方向滑动图片的方式实现窗口滑动的近似，再利用掩码计算每个窗口的W-MSA。

进一步地，所述步骤S22的具体过程是：

输入图片首先经过一层Ublock提取特征，再经过patch embbeding之后输入到Swin-Transformer主干网络，Swin-Transformer捕获图像的全局依赖关系，并利用patch-merging输出不同尺度的特征，这些特征经过上采样与上层特征融合再经过若干Ublock，最终输出尺寸相同的预测结果；

其中，Ublock是一种由残差块和上下采样层交替组成的微型编码器-解码器结构，若输入的特征图尺寸为h×w×c，图像输入Ublock后经过三次残差块间隔两次下采样的组合后，尺寸变为

之后，特征图经过两次上采样和残差块的组合还原为原本尺寸；

网络最终输出四个尺寸相同的预测图，并且利用深监督机制将每一个预测都加入损失的计算回传梯度，深监督采用Focal-Loss损失函数，其在交叉熵损失函数的基础上加入了权重参数，通过调整权重参数可以增大网络对于裂缝像素的关注度，同时削弱背景像素对于模型的影响，设y为像素的实际类型，

为模型的预测结果，则Focal-Loss的公式为：

其中，α为样本平衡因子，用于平衡正负样本本身的比例不均，γ使得易分样本的损失相对难分样本小许多。

进一步地，步骤S22中，当γ＝0时，Focal-Loss将退化为交叉熵损失函数。

进一步地，所述步骤S3的过程是：

S31：输入验证集中采样的道路裂缝图片到网络中，结果输出4张尺寸为H_OUT×W_OUT×C_OUT的预测图，其中C_OUT＝2，表示每张预测图通道数2，第一个通道表示像素为背景像素的概率，第二个通道表示像素为裂缝像素的概率；

S32：选择最后一层的预测结果作为最终输出，根据标签像素的值选择通道得到模型的预测结果

S33：计算以下评价指标的平均值：

其中TP表示预测结果为正样本并且标签亦为正样本的像素个数，TN表示预测结果为负样本并且标签亦为负样本的像素个数，FP表示预测结果为正样本但标签为负样本的像素个数，FN表示预测结果为负样本但标签为正样本的像素个数，各个指标中，P表示精度，R表示召回率，F₁表示F1分数，A表示准确率，IoU表示交并比；

S34：综合各个指标选取在验证集上表现最好的模型；

步骤S31中，标签像素值为0选择第一通道，标签像素为1选择第二通道。

与现有技术相比，本发明技术方案的有益效果是：

本发明对裂缝检测网络的数据集进行预处理得到训练集和验证集；利用得到的训练集对裂缝检测网络进行训练；利用得到的验证集选择训练裂缝检测网络得到的表现最好的模型；在不同道路裂缝数据集上测试模型的性能，泛化性；利用迁移学习方法将处理后的模型应用于山体裂缝检测。本发明面向高精度山体裂缝检测应用场景，研究图片不同尺度特征的提取方式，提出了一种新型的裂缝检测网络结构，并从结构层面和公式层面对新网络进行了详细的阐述。本发明利用不同的数据实验说明了网络如何应用于具体的检测场景，并通过与代表性方法进行性能对比，展现了新型算法的优势所在。

附图说明

图1为裂缝检测网络结构图；

图2为W-MSA与SW-MSA计算示意图；

图3为无人机拍摄道路裂缝检测结果图；

图4为山体裂缝检测结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

本发明提供了一种基于改进自注意力机制与迁移学习的山体裂缝检测方法，主要包括网络训练阶段和模型测试阶段，具体地：

网络训练阶段：

S1：首先对数据集进行预处理。具体地，将所有的训练样本与标签样本重新尺寸化以利于计算损失，并且去除数据集中噪声过多的样本。之后，将剩余合格样本划分为训练集与验证集，其中训练集用于训练网络，而验证集用于选择性能最佳模型；

S2：对裂缝检测网络进行训练，网络结构如附图1所示：

所述步骤S2的具体过程是：

S21：使用ImageNet-1k预训练网络的Swin-Transformer主干网络部分。

S22：使用训练集训练整个网络。

步骤S21中的Swin-Transformer主要包含两种基本网络模块：Swin-Transformerblock、Patch-merging模块，以下对这两种模块进行说明：

1)、Swin-Transformer

Swin-Transformer是一种包含改进的自注意力机制的模块，它可以提取图片的全局依赖关系，同时改进一般自注意力模块训练缓慢的问题，Swin-Transformer中包含若干连续Swin-Transformer block对，输入在第一个block中首先经过线性归一化层(LinearNormalization)与基于滑动窗口的多头自注意力层(Window-based Muti-Head Self-attention，W-MSA)计算并加上残差，之后经过线性归一化层和多层感知机层再加上残差，得到的输出交给下一个block，依旧进行上述过程计算，唯一不同之处在于基于窗口的多头自注意力层变换成了移动的基于窗口的多头自注意力层(Shifted Window-based Muti-Head Self-attention，SW-MSA)。设输入为z^l-1，公式化上述过程可得：

其中，Q，K，V是由图片中每个patch经过卷积神经网络embedding之后再乘上转换矩阵得到的向量。设每张图片可划分为H×W个patch，每个patch得到的Q,K,V向量长度为C，而每个窗口范围内包含M×M个patch，则一般的自注意力机制(MSA)与W-MSA的计算时间复杂度分别为：

Ω(MSA)＝4HWC²+2(HW)²C

Ω(W-MSA)＝4HWC²+2M²HWC

前者的计算复杂度为图片的长宽之积HW的平方，而后者的复杂度则在M²＜＜HW时与HW成线性关系，因此当图片尺寸大时，W-MSA可以显著的加速自注意力权重的计算从而加快网络的训练过程。

虽然W-MSA相比MSA的计算复杂度显著减小，但其限定了自注意力在每个窗口内计算，因此无法提取不同窗口内patch的依赖关系，为了解决这个问题，SW-MSA应运而生，通过将窗口整体的滑动(例如附图2中向左上滑动)可以得到新的窗口划分方式，从而计算原来在不同窗口的patch之间的注意力权重。进一步地，为了解决SW-MSA与W-MSA窗口划分方式不一致带来的代码编写困难，SW-MSA改进了窗口的滑动方式，通过往窗口滑动相反方向滑动图片的方式实现窗口滑动的近似，再利用掩码计算每个窗口的W-MSA；

2)、Patch-merging

Patch-merging旨在通过对特征图的patch向量进行合并，以对特征图进行近似下采样，从而提取图片的多尺度信息。具体操作为将相邻的2×2范围内长度为c的向量进行连接操作得到长度为4c的向量，再将其输入全连接层得到最终长度为2C的向量。设输入的特征图尺寸为h×w×c，其中h和w为图像的宽和高，c为图像的通道数，则经历Patch-merging将得到

的特征图；

步骤S22具体过程为：输入图片首先经过一层Ublock提取特征，再经过patchembbeding之后输入到Swin-Transformer主干网络，Swin-Transformer捕获图像的全局依赖关系，并利用patch-merging输出不同尺度的特征，这些特征经过上采样与上层特征融合再经过若干Ublock，最终输出尺寸相同的预测结果。

其中，Ublock是一种由残差块和上下采样层交替组成的微型编码器-解码器结构。若输入的特征图尺寸为h×w×c，图像输入Ublock后经过三次残差块间隔两次下采样的组合后，尺寸变为

之后，特征图经过两次上采样和残差块的组合还原为原本尺寸。

网络最终输出四个尺寸相同的预测图，并且利用深监督机制将每一个预测都加入损失的计算回传梯度。深监督采用Focal-Loss损失函数，其在交叉熵损失函数的基础上加入了权重参数，通过调整权重参数可以增大网络对于裂缝像素的关注度，同时削弱背景像素对于模型的影响，设y为像素的实际类型，

为模型的预测结果，则Focal-Loss的公式为：

其中，α为样本平衡因子，用于平衡正负样本本身的比例不均，γ使得易分样本的损失相对难分样本小许多，当γ＝0时，Focal-Loss将退化为交叉熵损失函数。

模型测试阶段：

S3：利用数据验证集选择训练网络得到的表现最好的模型；

S4：在不同道路裂缝数据集上测试模型的性能，泛化性；

S5：利用迁移学习方法将裂缝检测模型应用于山体裂缝检测；

步骤S3的具体过程为：

S32：选择最后一层的预测结果作为最终输出，根据标签像素的值选择通道(标签像素值为0选择第一通道，标签像素为1选择第二通道)得到模型的预测结果

S33：计算以下评价指标的平均值：

其中TP(True Positive)表示预测结果为正样本并且标签亦为正样本的像素个数，TN(True Negative)表示预测结果为负样本并且标签亦为负样本的像素个数，FP(FalsePositive)表示预测结果为正样本但标签为负样本的像素个数，FN(False Negative)表示预测结果为负样本但标签为正样本的像素个数。各个指标中，P表示精度(Precision)，R表示召回率(Recall)，F₁表示F1分数(F1-Score)，A表示准确率(Accuracy)，IoU表示交并比(Intersection over Union)；

S34：综合各个指标选取在验证集上表现最好的模型。

实施方式与性能对比

本发明使用Crack500道路裂缝公开数据集作为训练数据集训练裂缝检测网络，对于数据集的处理，首先将所有的训练样本与标签样本重新尺寸化为512×512大小，并且去除噪声过多的样本。之后，将剩余合格样本划分为包含1840张图片的训练集与1124张图片的验证集(包括对应标签)。在测试阶段本发明使用Crack500验证数据集测试模型性能并选择性能最佳的模型。

关于性能对比，本发明设计实施了模型在无人机拍摄的道路裂缝以及上的检测实验以检验模型的泛化性，结果如附图3所示，模型可以很好地克服阴影、背景干扰以及复杂形状等因素的影响，具有相当的泛化性，之后本发明利用迁移学习方法将模型应用于山体裂缝检测上，其结果如附图4所示。在性能对比中，本发明设计了在Crack500测试集数据上的对比实验，选取了FPHBN、SegNet以及CrackUnet三种方法作为基准，其中FPHBN属于基于上、下采样的方法，而SegNet和CrackUnet属于基于编码器解码器的语义分割方法。实验结果如表1所示，可知本发明所采用的基于改进自注意力机制与迁移学习的裂缝检测方法有效地提升了裂缝地检测精度，极大的节约了山体裂缝预警的人力物力。本发明主要涉及的技术为无线充电、多智能体协同、博弈论、多智能体强化学习算法等。

表1在Crack500测试集上的结果

	IoU	F1-Score	Precision	Recall	Accuracy
						FPHBN	0.492	0.687	0.614	0.675	0.908
SegNet	0.507	0.662	0.670	0.728	0.926
						CrackUnet	0.541	0.688	0.6963	0.719	0.967
本发明	0.569	0.712	0.680	0.787	0.968

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。