CN114022770A - 基于改进自注意力机制与迁移学习的山体裂缝检测方法 - Google Patents

基于改进自注意力机制与迁移学习的山体裂缝检测方法 Download PDF

Info

Publication number
CN114022770A
CN114022770A CN202111335474.8A CN202111335474A CN114022770A CN 114022770 A CN114022770 A CN 114022770A CN 202111335474 A CN202111335474 A CN 202111335474A CN 114022770 A CN114022770 A CN 114022770A
Authority
CN
China
Prior art keywords
network
msa
crack detection
attention
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111335474.8A
Other languages
English (en)
Inventor
吴贺俊
李可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111335474.8A priority Critical patent/CN114022770A/zh
Publication of CN114022770A publication Critical patent/CN114022770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供基于改进自注意力机制与迁移学习的山体裂缝检测方法,该方法对裂缝检测网络的数据集进行预处理得到训练集和验证集;利用得到的训练集对裂缝检测网络进行训练;利用得到的验证集选择训练裂缝检测网络得到的表现最好的模型;在不同道路裂缝数据集上测试模型的性能,泛化性;利用迁移学习方法将处理后的模型应用于山体裂缝检测。本发明面向高精度山体裂缝检测应用场景,研究图片不同尺度特征的提取方式,提出了一种新型的裂缝检测网络结构,并从结构层面和公式层面对新网络进行了详细的阐述。本发明利用不同的数据实验说明了网络如何应用于具体的检测场景,并通过与代表性方法进行性能对比,展现了新型算法的优势所在。

Description

基于改进自注意力机制与迁移学习的山体裂缝检测方法
技术领域
本发明涉及深度学习领域与计算机视觉领域,更具体地,涉及一种基于改进自注意力机制与迁移学习的山体裂缝检测方法。
背景技术
山体裂缝是一种常见的自然隐患,未及时预警的山体裂缝常演化为山体滑坡等自然灾害,造成巨大的财产损失、人员伤亡,因此及时检测山体裂缝十分必要。传统的山体裂缝检测方法大都采用仪器监测加人工识别的方法,这些方法虽然具有一定的检测效果,但易受到场境限制,并且自动化程度低,需要消耗大量人力物力。
基于深度学习的裂缝检测方法因其自动化程度高有很好的发展前景,但仍存在许多的问题导致其许多场景下因准确率不够而不能实用。具体看,当前主流的基于深度学习的检测方法主要包括基于上、下采样的方法、基于编码器-解码器结构的方法以及基于自注意力机制的方法三类。其中,第一类方法的网络提取的信息不够丰富且没有考虑到不同尺度特征的独特性,检测精度较低。第二类方法由于卷积神经网络难以关注到像素的全局依赖关系,在细粒度上的分割效果仍待提高。第三类方法在网络中加入了自注意力机制以提取像素的全局依赖关系,一定程度地提升了网络的检测精度,但这类方法自注意力权重的计算复杂度过高,导致训练低效,精度提升有限,一般不能满足要求。同时,山体裂缝图片还存在数据缺乏,影响网络训练的问题。
发明内容
本发明提供一种基于改进自注意力机制与迁移学习的山体裂缝检测方法来高效地检测、预警山体裂缝。
为了达到上述技术效果,本发明的技术方案如下:
一种基于改进自注意力机制与迁移学习的山体裂缝检测方法,包括以下步骤:
S1:对裂缝检测网络的数据集进行预处理得到训练集和验证集;
S2:利用步骤S1得到的训练集对裂缝检测网络进行训练;
S3:利用步骤S1得到的验证集选择训练裂缝检测网络得到的表现最好的模型;
S4:在不同道路裂缝数据集上测试模型的性能,泛化性;
S5:利用迁移学习方法将步骤S4处理后的模型应用于山体裂缝检测。
进一步地,所述步骤S1的过程是:
将所有的训练样本与标签样本重新尺寸化以利于计算损失,并且去除数据集中噪声过多的样本,之后,将剩余合格样本划分为训练集与验证集,其中训练集用于训练网络,而验证集用于选择性能最佳模型。
进一步地,所述步骤S2的过程是:
S21:使用ImageNet-1k预训练裂缝检测网络的Swin-Transformer主干网络部分;
S22:使用训练集训练整个网络。
进一步地,步骤S21中的Swin-Transformer主干网络包含两种基本网络模块:Swin-Transformer模块和Patch-merging模块:
1)、Swin-Transformer模块:
Swin-Transformer是一种包含改进的自注意力机制的模块,它提取图片的全局依赖关系,同时改进一般自注意力模块训练缓慢的问题,Swin-Transformer中包含若干连续Swin-Transformer block对,输入在第一个block中首先经过线性归一化层与基于滑动窗口的多头自注意力层计算并加上残差,之后经过线性归一化层和多层感知机层再加上残差,得到的输出交给下一个block,依旧进行上述过程计算,唯一不同之处在于基于窗口的多头自注意力层变换成了移动的基于窗口的多头自注意力层,设输入为zl-1,公式化上述过程可得:
Figure BDA0003350343070000021
Figure BDA0003350343070000022
Figure BDA0003350343070000023
Figure BDA0003350343070000024
W-MSA将图片划分成较小的patch,之后用窗口将图片划分,每个patch只和同一窗口内的patch做自注意力计算:
Figure BDA0003350343070000025
其中,Q,K,V是由图片中每个patch经过卷积神经网络embedding之后再乘上转换矩阵得到的向量,设每张图片可划分为H×W个patch,每个patch得到的Q,K,V向量长度为C,而每个窗口范围内包含M×M个patch,则自注意力机制MSA与W-MSA的计算时间复杂度分别为:
Ω(MSA)=4HWC2+2(HW)2C
Ω(W-MSA)=4HWC2+2M2HWC
前者的计算复杂度为图片的长宽之积HW的平方,而后者的复杂度则在M2<<HW时与HW成线性关系,因此当图片尺寸大时,W-MSA可以显著的加速自注意力权重的计算从而加快网络的训练过程;
虽然W-MSA相比MSA的计算复杂度显著减小,但其限定了自注意力在每个窗口内计算,因此无法提取不同窗口内patch的依赖关系,需通过SW-MSA解决这个问题,通过将窗口整体的滑动得到新的窗口划分方式,从而计算原来在不同窗口的patch之间的注意力权重;
2)、Patch-merging模块:
Patch-merging旨在通过对特征图的patch向量进行合并,以对特征图进行近似下采样,从而提取图片的多尺度信息;
Patch-merging模块通过对特征图的patch向量进行合并的具体操作为:
将相邻的2×2范围内长度为c的向量进行连接操作得到长度为4c的向量,再将其输入全连接层得到最终长度为2C的向量,设输入的特征图尺寸为h×w×c,其中h和w为图像的宽和高,c为图像的通道数,则经历Patch-merging将得到
Figure BDA0003350343070000031
的特征图;
Swin-Transformer模块中,为解决SW-MSA与W-MSA窗口划分方式不一致带来的问题,SW-MSA通过往窗口滑动相反方向滑动图片的方式实现窗口滑动的近似,再利用掩码计算每个窗口的W-MSA。
进一步地,所述步骤S22的具体过程是:
输入图片首先经过一层Ublock提取特征,再经过patch embbeding之后输入到Swin-Transformer主干网络,Swin-Transformer捕获图像的全局依赖关系,并利用patch-merging输出不同尺度的特征,这些特征经过上采样与上层特征融合再经过若干Ublock,最终输出尺寸相同的预测结果;
其中,Ublock是一种由残差块和上下采样层交替组成的微型编码器-解码器结构,若输入的特征图尺寸为h×w×c,图像输入Ublock后经过三次残差块间隔两次下采样的组合后,尺寸变为
Figure BDA0003350343070000041
之后,特征图经过两次上采样和残差块的组合还原为原本尺寸;
网络最终输出四个尺寸相同的预测图,并且利用深监督机制将每一个预测都加入损失的计算回传梯度,深监督采用Focal-Loss损失函数,其在交叉熵损失函数的基础上加入了权重参数,通过调整权重参数可以增大网络对于裂缝像素的关注度,同时削弱背景像素对于模型的影响,设y为像素的实际类型,
Figure BDA0003350343070000042
为模型的预测结果,则Focal-Loss的公式为:
Figure BDA0003350343070000043
其中,α为样本平衡因子,用于平衡正负样本本身的比例不均,γ使得易分样本的损失相对难分样本小许多。
进一步地,步骤S22中,当γ=0时,Focal-Loss将退化为交叉熵损失函数。
进一步地,所述步骤S3的过程是:
S31:输入验证集中采样的道路裂缝图片到网络中,结果输出4张尺寸为HOUT×WOUT×COUT的预测图,其中COUT=2,表示每张预测图通道数2,第一个通道表示像素为背景像素的概率,第二个通道表示像素为裂缝像素的概率;
S32:选择最后一层的预测结果作为最终输出,根据标签像素的值选择通道得到模型的预测结果
Figure BDA0003350343070000044
S33:计算以下评价指标的平均值:
Figure BDA0003350343070000045
Figure BDA0003350343070000046
Figure BDA0003350343070000047
Figure BDA0003350343070000048
Figure BDA0003350343070000051
其中TP表示预测结果为正样本并且标签亦为正样本的像素个数,TN表示预测结果为负样本并且标签亦为负样本的像素个数,FP表示预测结果为正样本但标签为负样本的像素个数,FN表示预测结果为负样本但标签为正样本的像素个数,各个指标中,P表示精度,R表示召回率,F1表示F1分数,A表示准确率,IoU表示交并比;
S34:综合各个指标选取在验证集上表现最好的模型;
步骤S31中,标签像素值为0选择第一通道,标签像素为1选择第二通道。
与现有技术相比,本发明技术方案的有益效果是:
本发明对裂缝检测网络的数据集进行预处理得到训练集和验证集;利用得到的训练集对裂缝检测网络进行训练;利用得到的验证集选择训练裂缝检测网络得到的表现最好的模型;在不同道路裂缝数据集上测试模型的性能,泛化性;利用迁移学习方法将处理后的模型应用于山体裂缝检测。本发明面向高精度山体裂缝检测应用场景,研究图片不同尺度特征的提取方式,提出了一种新型的裂缝检测网络结构,并从结构层面和公式层面对新网络进行了详细的阐述。本发明利用不同的数据实验说明了网络如何应用于具体的检测场景,并通过与代表性方法进行性能对比,展现了新型算法的优势所在。
附图说明
图1为裂缝检测网络结构图;
图2为W-MSA与SW-MSA计算示意图;
图3为无人机拍摄道路裂缝检测结果图;
图4为山体裂缝检测结果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
本发明提供了一种基于改进自注意力机制与迁移学习的山体裂缝检测方法,主要包括网络训练阶段和模型测试阶段,具体地:
网络训练阶段:
S1:首先对数据集进行预处理。具体地,将所有的训练样本与标签样本重新尺寸化以利于计算损失,并且去除数据集中噪声过多的样本。之后,将剩余合格样本划分为训练集与验证集,其中训练集用于训练网络,而验证集用于选择性能最佳模型;
S2:对裂缝检测网络进行训练,网络结构如附图1所示:
所述步骤S2的具体过程是:
S21:使用ImageNet-1k预训练网络的Swin-Transformer主干网络部分。
S22:使用训练集训练整个网络。
步骤S21中的Swin-Transformer主要包含两种基本网络模块:Swin-Transformerblock、Patch-merging模块,以下对这两种模块进行说明:
1)、Swin-Transformer
Swin-Transformer是一种包含改进的自注意力机制的模块,它可以提取图片的全局依赖关系,同时改进一般自注意力模块训练缓慢的问题,Swin-Transformer中包含若干连续Swin-Transformer block对,输入在第一个block中首先经过线性归一化层(LinearNormalization)与基于滑动窗口的多头自注意力层(Window-based Muti-Head Self-attention,W-MSA)计算并加上残差,之后经过线性归一化层和多层感知机层再加上残差,得到的输出交给下一个block,依旧进行上述过程计算,唯一不同之处在于基于窗口的多头自注意力层变换成了移动的基于窗口的多头自注意力层(Shifted Window-based Muti-Head Self-attention,SW-MSA)。设输入为zl-1,公式化上述过程可得:
Figure BDA0003350343070000061
Figure BDA0003350343070000062
Figure BDA0003350343070000063
Figure BDA0003350343070000064
W-MSA将图片划分成较小的patch,之后用窗口将图片划分,每个patch只和同一窗口内的patch做自注意力计算:
Figure BDA0003350343070000071
其中,Q,K,V是由图片中每个patch经过卷积神经网络embedding之后再乘上转换矩阵得到的向量。设每张图片可划分为H×W个patch,每个patch得到的Q,K,V向量长度为C,而每个窗口范围内包含M×M个patch,则一般的自注意力机制(MSA)与W-MSA的计算时间复杂度分别为:
Ω(MSA)=4HWC2+2(HW)2C
Ω(W-MSA)=4HWC2+2M2HWC
前者的计算复杂度为图片的长宽之积HW的平方,而后者的复杂度则在M2<<HW时与HW成线性关系,因此当图片尺寸大时,W-MSA可以显著的加速自注意力权重的计算从而加快网络的训练过程。
虽然W-MSA相比MSA的计算复杂度显著减小,但其限定了自注意力在每个窗口内计算,因此无法提取不同窗口内patch的依赖关系,为了解决这个问题,SW-MSA应运而生,通过将窗口整体的滑动(例如附图2中向左上滑动)可以得到新的窗口划分方式,从而计算原来在不同窗口的patch之间的注意力权重。进一步地,为了解决SW-MSA与W-MSA窗口划分方式不一致带来的代码编写困难,SW-MSA改进了窗口的滑动方式,通过往窗口滑动相反方向滑动图片的方式实现窗口滑动的近似,再利用掩码计算每个窗口的W-MSA;
2)、Patch-merging
Patch-merging旨在通过对特征图的patch向量进行合并,以对特征图进行近似下采样,从而提取图片的多尺度信息。具体操作为将相邻的2×2范围内长度为c的向量进行连接操作得到长度为4c的向量,再将其输入全连接层得到最终长度为2C的向量。设输入的特征图尺寸为h×w×c,其中h和w为图像的宽和高,c为图像的通道数,则经历Patch-merging将得到
Figure BDA0003350343070000072
的特征图;
步骤S22具体过程为:输入图片首先经过一层Ublock提取特征,再经过patchembbeding之后输入到Swin-Transformer主干网络,Swin-Transformer捕获图像的全局依赖关系,并利用patch-merging输出不同尺度的特征,这些特征经过上采样与上层特征融合再经过若干Ublock,最终输出尺寸相同的预测结果。
其中,Ublock是一种由残差块和上下采样层交替组成的微型编码器-解码器结构。若输入的特征图尺寸为h×w×c,图像输入Ublock后经过三次残差块间隔两次下采样的组合后,尺寸变为
Figure BDA0003350343070000081
之后,特征图经过两次上采样和残差块的组合还原为原本尺寸。
网络最终输出四个尺寸相同的预测图,并且利用深监督机制将每一个预测都加入损失的计算回传梯度。深监督采用Focal-Loss损失函数,其在交叉熵损失函数的基础上加入了权重参数,通过调整权重参数可以增大网络对于裂缝像素的关注度,同时削弱背景像素对于模型的影响,设y为像素的实际类型,
Figure BDA0003350343070000082
为模型的预测结果,则Focal-Loss的公式为:
Figure BDA0003350343070000083
其中,α为样本平衡因子,用于平衡正负样本本身的比例不均,γ使得易分样本的损失相对难分样本小许多,当γ=0时,Focal-Loss将退化为交叉熵损失函数。
模型测试阶段:
S3:利用数据验证集选择训练网络得到的表现最好的模型;
S4:在不同道路裂缝数据集上测试模型的性能,泛化性;
S5:利用迁移学习方法将裂缝检测模型应用于山体裂缝检测;
步骤S3的具体过程为:
S31:输入验证集中采样的道路裂缝图片到网络中,结果输出4张尺寸为HOUT×WOUT×COUT的预测图,其中COUT=2,表示每张预测图通道数2,第一个通道表示像素为背景像素的概率,第二个通道表示像素为裂缝像素的概率;
S32:选择最后一层的预测结果作为最终输出,根据标签像素的值选择通道(标签像素值为0选择第一通道,标签像素为1选择第二通道)得到模型的预测结果
Figure BDA0003350343070000084
S33:计算以下评价指标的平均值:
Figure BDA0003350343070000085
Figure BDA0003350343070000086
Figure BDA0003350343070000091
Figure BDA0003350343070000092
Figure BDA0003350343070000093
其中TP(True Positive)表示预测结果为正样本并且标签亦为正样本的像素个数,TN(True Negative)表示预测结果为负样本并且标签亦为负样本的像素个数,FP(FalsePositive)表示预测结果为正样本但标签为负样本的像素个数,FN(False Negative)表示预测结果为负样本但标签为正样本的像素个数。各个指标中,P表示精度(Precision),R表示召回率(Recall),F1表示F1分数(F1-Score),A表示准确率(Accuracy),IoU表示交并比(Intersection over Union);
S34:综合各个指标选取在验证集上表现最好的模型。
实施方式与性能对比
本发明使用Crack500道路裂缝公开数据集作为训练数据集训练裂缝检测网络,对于数据集的处理,首先将所有的训练样本与标签样本重新尺寸化为512×512大小,并且去除噪声过多的样本。之后,将剩余合格样本划分为包含1840张图片的训练集与1124张图片的验证集(包括对应标签)。在测试阶段本发明使用Crack500验证数据集测试模型性能并选择性能最佳的模型。
关于性能对比,本发明设计实施了模型在无人机拍摄的道路裂缝以及上的检测实验以检验模型的泛化性,结果如附图3所示,模型可以很好地克服阴影、背景干扰以及复杂形状等因素的影响,具有相当的泛化性,之后本发明利用迁移学习方法将模型应用于山体裂缝检测上,其结果如附图4所示。在性能对比中,本发明设计了在Crack500测试集数据上的对比实验,选取了FPHBN、SegNet以及CrackUnet三种方法作为基准,其中FPHBN属于基于上、下采样的方法,而SegNet和CrackUnet属于基于编码器解码器的语义分割方法。实验结果如表1所示,可知本发明所采用的基于改进自注意力机制与迁移学习的裂缝检测方法有效地提升了裂缝地检测精度,极大的节约了山体裂缝预警的人力物力。本发明主要涉及的技术为无线充电、多智能体协同、博弈论、多智能体强化学习算法等。
表1在Crack500测试集上的结果
IoU F1-Score Precision Recall Accuracy
FPHBN 0.492 0.687 0.614 0.675 0.908
SegNet 0.507 0.662 0.670 0.728 0.926
CrackUnet 0.541 0.688 0.6963 0.719 0.967
本发明 0.569 0.712 0.680 0.787 0.968
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,包括以下步骤:
S1:对裂缝检测网络的数据集进行预处理得到训练集和验证集;
S2:利用步骤S1得到的训练集对裂缝检测网络进行训练;
S3:利用步骤S1得到的验证集选择训练裂缝检测网络得到的表现最好的模型;
S4:在不同道路裂缝数据集上测试模型的性能,泛化性;
S5:利用迁移学习方法将步骤S4处理后的模型应用于山体裂缝检测。
2.根据权利要求1所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,所述步骤S1的过程是:
将所有的训练样本与标签样本重新尺寸化以利于计算损失,并且去除数据集中噪声过多的样本,之后,将剩余合格样本划分为训练集与验证集,其中训练集用于训练网络,而验证集用于选择性能最佳模型。
3.根据权利要求2所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,所述步骤S2的过程是:
S21:使用ImageNet-1k预训练裂缝检测网络的Swin-Transformer主干网络部分;
S22:使用训练集训练整个网络。
4.根据权利要求3所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,步骤S21中的Swin-Transformer主干网络包含两种基本网络模块:Swin-Transformer模块和Patch-merging模块:
1)、Swin-Transformer模块:
Swin-Transformer是一种包含改进的自注意力机制的模块,它提取图片的全局依赖关系,同时改进一般自注意力模块训练缓慢的问题,Swin-Transformer中包含若干连续Swin-Transformer block对,输入在第一个block中首先经过线性归一化层与基于滑动窗口的多头自注意力层计算并加上残差,之后经过线性归一化层和多层感知机层再加上残差,得到的输出交给下一个block,依旧进行上述过程计算,唯一不同之处在于基于窗口的多头自注意力层变换成了移动的基于窗口的多头自注意力层,设输入为zl-1,公式化上述过程可得:
Figure FDA0003350343060000021
Figure FDA0003350343060000022
Figure FDA0003350343060000023
Figure FDA0003350343060000024
W-MSA将图片划分成较小的patch,之后用窗口将图片划分,每个patch只和同一窗口内的patch做自注意力计算:
Figure FDA0003350343060000025
其中,Q,K,V是由图片中每个patch经过卷积神经网络embedding之后再乘上转换矩阵得到的向量,设每张图片可划分为H×W个patch,每个patch得到的Q,K,V向量长度为C,而每个窗口范围内包含M×M个patch,则自注意力机制MSA与W-MSA的计算时间复杂度分别为:
Ω(MSA)=4HWC2+2(HW)2C
Ω(W-MSA)=4HWC2+2M2HWC
前者的计算复杂度为图片的长宽之积HW的平方,而后者的复杂度则在M2<<HW时与HW成线性关系,因此当图片尺寸大时,W-MSA可以显著的加速自注意力权重的计算从而加快网络的训练过程;
虽然W-MSA相比MSA的计算复杂度显著减小,但其限定了自注意力在每个窗口内计算,因此无法提取不同窗口内patch的依赖关系,需通过SW-MSA解决这个问题,通过将窗口整体的滑动得到新的窗口划分方式,从而计算原来在不同窗口的patch之间的注意力权重;
2)、Patch-merging模块:
Patch-merging旨在通过对特征图的patch向量进行合并,以对特征图进行近似下采样,从而提取图片的多尺度信息。
5.根据权利要求4所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,Patch-merging模块通过对特征图的patch向量进行合并的具体操作为:
将相邻的2×2范围内长度为c的向量进行连接操作得到长度为4c的向量,再将其输入全连接层得到最终长度为2C的向量,设输入的特征图尺寸为h×w×c,其中h和w为图像的宽和高,c为图像的通道数,则经历Patch-merging将得到
Figure FDA0003350343060000031
的特征图。
6.根据权利要求5所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,Swin-Transformer模块中,为解决SW-MSA与W-MSA窗口划分方式不一致带来的问题,SW-MSA通过往窗口滑动相反方向滑动图片的方式实现窗口滑动的近似,再利用掩码计算每个窗口的W-MSA。
7.根据权利要求6所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,所述步骤S22的具体过程是:
输入图片首先经过一层Ublock提取特征,再经过patch embbeding之后输入到Swin-Transformer主干网络,Swin-Transformer捕获图像的全局依赖关系,并利用patch-merging输出不同尺度的特征,这些特征经过上采样与上层特征融合再经过若干Ublock,最终输出尺寸相同的预测结果;
其中,Ublock是一种由残差块和上下采样层交替组成的微型编码器-解码器结构,若输入的特征图尺寸为h×w×c,图像输入Ublock后经过三次残差块间隔两次下采样的组合后,尺寸变为
Figure FDA0003350343060000032
之后,特征图经过两次上采样和残差块的组合还原为原本尺寸;
网络最终输出四个尺寸相同的预测图,并且利用深监督机制将每一个预测都加入损失的计算回传梯度,深监督采用Focal-Loss损失函数,其在交叉熵损失函数的基础上加入了权重参数,通过调整权重参数可以增大网络对于裂缝像素的关注度,同时削弱背景像素对于模型的影响,设y为像素的实际类型,
Figure FDA0003350343060000033
为模型的预测结果,则Focal-Loss的公式为:
Figure FDA0003350343060000034
其中,α为样本平衡因子,用于平衡正负样本本身的比例不均,γ使得易分样本的损失相对难分样本小许多。
8.根据权利要求7所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,步骤S22中,当γ=0时,Focal-Loss将退化为交叉熵损失函数。
9.根据权利要求8所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,所述步骤S3的过程是:
S31:输入验证集中采样的道路裂缝图片到网络中,结果输出4张尺寸为HOUT×WOUT×COUT的预测图,其中COUT=2,表示每张预测图通道数2,第一个通道表示像素为背景像素的概率,第二个通道表示像素为裂缝像素的概率;
S32:选择最后一层的预测结果作为最终输出,根据标签像素的值选择通道得到模型的预测结果
Figure FDA0003350343060000041
S33:计算以下评价指标的平均值:
Figure FDA0003350343060000042
Figure FDA0003350343060000043
Figure FDA0003350343060000044
Figure FDA0003350343060000045
Figure FDA0003350343060000046
其中TP表示预测结果为正样本并且标签亦为正样本的像素个数,TN表示预测结果为负样本并且标签亦为负样本的像素个数,FP表示预测结果为正样本但标签为负样本的像素个数,FN表示预测结果为负样本但标签为正样本的像素个数,各个指标中,P表示精度,R表示召回率,F1表示F1分数,A表示准确率,IoU表示交并比;
S34:综合各个指标选取在验证集上表现最好的模型。
10.根据权利要求9所述的基于改进自注意力机制与迁移学习的山体裂缝检测方法,其特征在于,步骤S31中,标签像素值为0选择第一通道,标签像素为1选择第二通道。
CN202111335474.8A 2021-11-11 2021-11-11 基于改进自注意力机制与迁移学习的山体裂缝检测方法 Pending CN114022770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111335474.8A CN114022770A (zh) 2021-11-11 2021-11-11 基于改进自注意力机制与迁移学习的山体裂缝检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111335474.8A CN114022770A (zh) 2021-11-11 2021-11-11 基于改进自注意力机制与迁移学习的山体裂缝检测方法

Publications (1)

Publication Number Publication Date
CN114022770A true CN114022770A (zh) 2022-02-08

Family

ID=80063828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111335474.8A Pending CN114022770A (zh) 2021-11-11 2021-11-11 基于改进自注意力机制与迁移学习的山体裂缝检测方法

Country Status (1)

Country Link
CN (1) CN114022770A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627292A (zh) * 2022-03-08 2022-06-14 浙江工商大学 工业遮挡目标检测方法
CN114882047A (zh) * 2022-04-19 2022-08-09 厦门大学 一种基于半监督与Transformers的医学图像分割方法及系统
CN114937021A (zh) * 2022-05-31 2022-08-23 哈尔滨工业大学 一种基于Swin-Transformer的农作物病害细粒度分类方法
CN115909079A (zh) * 2023-01-09 2023-04-04 深圳大学 结合深度特征和自注意力模型的裂缝检测方法及相关设备
CN115983140A (zh) * 2023-03-16 2023-04-18 河北工业大学 一种基于大数据深度学习的电磁场数值预测方法
CN116645592A (zh) * 2023-07-25 2023-08-25 苏州大学 一种基于图像处理的裂缝检测方法和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627292A (zh) * 2022-03-08 2022-06-14 浙江工商大学 工业遮挡目标检测方法
CN114627292B (zh) * 2022-03-08 2024-05-14 浙江工商大学 工业遮挡目标检测方法
CN114882047A (zh) * 2022-04-19 2022-08-09 厦门大学 一种基于半监督与Transformers的医学图像分割方法及系统
CN114937021A (zh) * 2022-05-31 2022-08-23 哈尔滨工业大学 一种基于Swin-Transformer的农作物病害细粒度分类方法
CN115909079A (zh) * 2023-01-09 2023-04-04 深圳大学 结合深度特征和自注意力模型的裂缝检测方法及相关设备
CN115983140A (zh) * 2023-03-16 2023-04-18 河北工业大学 一种基于大数据深度学习的电磁场数值预测方法
CN115983140B (zh) * 2023-03-16 2023-06-09 河北工业大学 一种基于大数据深度学习的电磁场数值预测方法
CN116645592A (zh) * 2023-07-25 2023-08-25 苏州大学 一种基于图像处理的裂缝检测方法和存储介质
CN116645592B (zh) * 2023-07-25 2023-09-29 苏州大学 一种基于图像处理的裂缝检测方法和存储介质

Similar Documents

Publication Publication Date Title
CN114022770A (zh) 基于改进自注意力机制与迁移学习的山体裂缝检测方法
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN112991354B (zh) 一种基于深度学习的高分辨率遥感影像语义分割方法
CN110929607B (zh) 一种城市建筑物施工进度的遥感识别方法和系统
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN112668494A (zh) 基于多尺度特征提取的小样本变化检测方法
CN110008854B (zh) 基于预训练dcnn的无人机影像公路地质灾害识别方法
CN109165660A (zh) 一种基于卷积神经网络的显著物体检测方法
CN114495029B (zh) 一种基于改进YOLOv4的交通目标检测方法及系统
CN113034444A (zh) 一种基于MobileNet-PSPNet神经网络模型的路面裂缝检测方法
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及系统
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN113052106B (zh) 一种基于PSPNet网络的飞机起降跑道识别方法
CN114049356B (zh) 一种结构表观裂缝检测方法、装置及系统
CN113256649B (zh) 一种基于深度学习的遥感图像选站选线语义分割方法
CN112489023A (zh) 一种基于多尺度和多层次的路面裂缝检测方法
CN112766283B (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN108460400A (zh) 一种结合多种特征信息的高光谱图像分类方法
CN114863348A (zh) 基于自监督的视频目标分割方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN116597326A (zh) 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN110728186A (zh) 一种基于多网融合的火灾检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN116823664B (zh) 一种遥感图像云去除方法及系统
CN115830514B (zh) 一种适用于带弯曲河道的全河段表面流速计算方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination