CN115830054A - 基于多窗口高低频视觉变换器的裂缝图像分割方法 - Google Patents
基于多窗口高低频视觉变换器的裂缝图像分割方法 Download PDFInfo
- Publication number
- CN115830054A CN115830054A CN202211609395.6A CN202211609395A CN115830054A CN 115830054 A CN115830054 A CN 115830054A CN 202211609395 A CN202211609395 A CN 202211609395A CN 115830054 A CN115830054 A CN 115830054A
- Authority
- CN
- China
- Prior art keywords
- low frequency
- convolution
- frequency
- crack
- depth separable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000000007 visual effect Effects 0.000 title claims abstract description 39
- 238000003709 image segmentation Methods 0.000 title claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000000137 annealing Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 3
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 20
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000012549 training Methods 0.000 abstract description 7
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多窗口高低频视觉变换器的裂缝图像分割方法,通过使用语义分割的方式对裂缝进行像素级的检测,改进了一种由编码器和解码器组成的端到端的网络结构,经过网络推理后直接输出一张裂缝掩码,训练和推理效率高。在编码器阶段采用了视觉变换器去并行提取高低频特征,视觉变换器拥有卷积不具备的诸多优点,如输入自适应,长距离和高阶的空间交互能力。且同时捕获高频和低频,能够对细小裂缝特征更好的进行捕捉。而多窗口的机制则能捕捉不同尺度裂缝的信息,保证模型的鲁棒性。且提高本发明的检测精度。本发明的方法能提高裂缝检测精度的同时提高整体的计算效率。
Description
技术领域
本发明属于图像处理领域,更具体地说,涉及一种基于多窗口高低频视觉变换器的裂缝图像分割方法。
背景技术
对于城镇基础设施而言,裂缝是最常见的一种结构性损伤。而目前大部分国家和地区,仍然采取人工检测的方式检测墙体或者路面等裂缝。这无疑费时又费力,并且有很多结构死角,人往往难以到达,则很容易产生漏检。随着数字图像处理技术的发展,有很多人提出了许多优秀的裂缝检测算法。而随着目前深度学习的火热,越来越多的人使用深度神经网络去进行裂缝检测。实现裂缝的检测自动化,可以节约大量的人力物力,且精度也比人工检测更高。
目前裂缝检测大致可以分为两类方法,一类是使用传统的数字图像处理技术,另一类则是使用目前新兴的深度学习相关知识。传统方法提出了许多优秀的算法。例如边缘检测算法:快速哈尔变换、Canny算子、快速傅里叶变换和Sobel算子。这些都被应用于裂缝的检测。另外,基于Gabor滤波器的裂缝检测模型也在当时取得了极大的成功。而基于深度学习方法,需要搭建一个深度神经网络对裂缝进行检测,是目前的主流做法。可以使用基于锚框的目标检测算法去定位图像中裂缝的区域。也可以对裂缝图像进行分类,找出有裂缝的图像。还可以对裂缝图像进行分割,进行像素级的检测。目前更多的人愿意使用分割方法去检测裂缝。如DeepCrack则是一个专门检测裂缝的分割网络模型,它会在每一层都输出一个预测结果,进行多尺度的预测。Cracklab则是在DeepLabv3+上面进行了改动,得到一个用于裂缝分割的网络,使用了深度可分离卷积和空洞卷积去减少参数量,并扩大感受野。并且通过修剪相关性弱的卷积层,提高效率。现有技术中的深度可分离卷积如图1所示,空洞卷积如图2所示。
尽管以上提出了许多性能优异的裂缝分割算法,但仍然存在许多不足之处。当使用传统方法检测裂缝,受到环境因素影响巨大,如噪声和光照等,其鲁棒性差,检测的精度和召回率低。而一般使用检测算法去定位裂缝区域,由于裂缝的特点,则将会产生许多小的且易重叠的冗余框,这无疑增大了计算量,并且也不能做到精确的定位,只能获得一个裂缝的区域。而分割算法是目前比较适合裂缝检测的方法,也存在许多分割算法被提出。虽然目前通用的分割算法很多,但是针对裂缝的分割算法不多,例如DeepCrack分割算法,在每一层都进行预测,在训练和推理阶段的计算时间花费巨大,效率不高,而如Cracklab算法虽然为了提高效率去减少了卷积层的数量,但是精度也因此降低。并且单纯堆叠卷积层,会无限扩大感受野(Receptive Field),而对检测一些小裂缝而言,这无疑是不利的。
基于此,需要设计一种提高裂缝检测精度和计算效率的新的裂缝图像分割方法。
发明内容
(一)技术问题
针对现存裂缝检测算法存在的计算效率低且精度不够高等问题,本发明提供了一种基于多窗口高低频视觉变换器的裂缝图像分割方法,该方法通过改进后新的视觉变换器,实现了图像的直接输入,可以更好的保留图像的空间位置信息,然后将图像划分为高频和低频两部分并行处理,且在高频部分采取多窗口去计算自注意力,最后得到高频和低频两部分的融合特征,配合使用替代全连接层的深度可分离卷积和深度可分离空洞金字塔池模块,从而在提高裂缝检测精度的同时提高参数的计算效率。
(二)技术方案
本发明提供了一种基于多窗口高低频视觉变换器的裂缝图像分割方法,该方法包括如下步骤:
步骤1:采用两个串联的深度可分离卷积块对输入的裂缝图像特征进行初步学习和提取,然后将得到的特征图X输入到四层串联的特征提取主干中处理,每层的特征提取主干包括下采样和多窗口高低频自注意视觉变换器;
步骤2:将输入的特征图X在通道方向上按照比例α进行划分,高频分支将得到(1-α)Nh,低频分支将得到αNh,Nh为通道数量;
步骤3:在高频分支内,将特征图在通道方向上按照不同的比例β1,β2,β3进一步划分,得到X11,X12,X13三个不同部分的特征图,每一部分特征图都会生成一组查询K、键Q和值V的矩阵,
K1i=fki(X1i),Q1i=fqi(X1i),V1i=fvi(X1i)
函数fxi()表示深度可分离卷积操作,代替常规线性层获取三个矩阵,以大幅度降低参数量和计算量;并按照不同的窗口大小γ1,γ2,γ3分割特征图,然后分窗口分别计算规模点乘自注意力,计算公式如下:
其中,Dhi为隐藏层的维度,Softmax为归一化指数函数,i取值为1~3的整数,通过计算会得到SA11,SA12和SA13,然后在通道方向上连接SA11,SA12和SA13三个值,通过投影线性层和批归一化,得到高频特征;
步骤4:在低频分支内,对输入特征进行下采样的池化操作,通过投影线性层和批归一化得到低频分量中的低频特征;
步骤5:在通道方向上连接步骤3的高频特征和步骤4的低频特征,得到融合特征图,然后送往下一层的特征提取主干;
步骤6:基于空洞金字塔池ASPP设计一个深度可分离空洞金字塔池作为特征增强模块,将特征提网络的最后一层输出作为输入,通过五条并行的分支,分别包括一个逐点卷积和四个不同采样率的深度可分离卷积块,并将不同尺度的五部分结果在通道维度进行连接,使用倒置的深度可分离卷积块进行加权求和,得到多尺度特征;
步骤7:解码器层数与编码器中特征提取主干的层数相对应,在解码器的每层采取跳跃连接的策略与编码器对应的特征提取主干连接,解码器的每层包括进行上采样的转置卷积和恢复图像的卷积块,并经过两个深度可分离卷积块进行处理,最后通过一个由深度可分离卷积块充当的分割头得到裂缝掩码。
进一步的,所述深度可分离卷积块包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。
进一步的,四层多窗口高低频自注意视觉变换器的比例α依次取值为0.4,0.5,0.3,0.2,窗口大小每一层都设置为2,4,8;β1,β2,β3每一层都设置为0.3,0.3,0.4。
进一步的,步骤6中深度可分离空洞金字塔池的采样率设置为:1,3,5,7。
进一步的,步骤4中获取所述低频分量的方法为全局最大池化。
进一步的,所述多窗口高低频自注意视觉变换器中的前馈网络具体包括依次串联的1×1卷积、HardWish激活函数、3×3深度可分离卷积单元、HardWish激活函数和1×1卷积。
进一步的,所述恢复图像的卷积块具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2。
进一步的,所述裂缝图像分割方法还包括以下步骤8:
使用BCEWithLogits损失和Dice损失优化网络,得到的一个每点的概率图,BCEWithLogits损失是用于二分类的损失函数,计算公式如下:
BCE Loss(x,y)=-(1-y)log(1-x)-ylog(x)
x表示预测值,y表示真实值;为了更好的挖掘前景信息,突出裂缝区域,加上Dice损失:
x表示预测值,y表示真实值;并且使用带有热重启的余弦退火策略动态调整学习率,初始学习率被设置为0.001。
在另外一个方面,本发明还公开了一种基于多窗口高低频视觉变换器的裂缝图像分割系统,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。
在另外一个方面,本发明还公开了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。
(三)有益效果
(1)首先,本发明设计了一种新的多窗口高低频注意力机制替代多头自注意力机制(Multi-headed Self-attention),并借此设计了一种新的视觉变换器。首先本发明的视觉变换器实现了图像的直接输入,可以更好的保留图像的空间位置信息。然后将图像划分为高频和低频两部分并行处理,且在高频部分本发明采取多窗口去计算自注意力。最后会得到高频和低频两部分的融合特征。且本发明使用深度可分离卷积代替了原有的所有全连接层,可以大幅度降低参数和计算量。
(2)其次,本发明设计了一种深度可分离空洞金字塔池模块,用于编码器的末端,得到多尺度特征图,起到进一步增强特征的作用。该模块由5条并行的分支组成,分别为1个逐点卷积和4个不同采样率的深度可分离空洞卷积,最后将不同尺度的5部分结果在通道维度进行连接,使用翻转的深度可分离卷积进行加权求和,得到多尺度特征。
(3)此外,本发明设计了一个端到端的裂缝分割模型。编码器逐步提取图像特征,再经过解码器恢复图像,最后得到图像掩码。编码器则主要由两个深度可分离卷积、本发明设计的视觉变换器和本发明设计的深度可分离空洞金字塔池模块组成。解码器则由一系列带有残差结构的深度可分离卷积块构成。并且本发明加入了跳跃连接,将编码器对应层的特征图引入解码器,更好的还原图像。
(4)本发明设计的网络模型可以实现端到端的优化,在训练整个分割网络时,本发明采用了Dice损失加上BCEWithLogits损失。可以更好的挖掘前景裂缝信息,提高分割表现。且采取带有热重启的余弦退火策略,动态调整学习率,缓解局部极小值问题,让训练得到的网络更加鲁棒。
附图说明
图1是现有技术中的深度可分离卷积过程图。
图2为现有技术中的空洞卷积的示意图。
图3为本发明提出的方法的整体流程图。
图4中的(a)图为深度可分离卷积块组成图,(b)图为本发明提出的恢复图像的卷积块组成图。
图5为现有技术中的视觉变换器的示意图。
图6为本发明改进设计的多窗口高低频自注意视觉变换器的示意图。
图7为本发明改进设计的多窗口高低频注意力机制结构示意图。
图8中的(a)图为空洞金字塔池(ASPP)的示意图,(b)图8为本发明设计的深度可分离空洞金字塔池示意图。
图9为高低频的比例α的参数选择性能对比图;
图10为深度可分离空洞金字塔池的采样率配比的参数选择性能对比图;
图11为本发明解码过程中全局平均池化和最大池化的性能对比图;
图12为本发明的方法与其它方法在CrackForest上的性能比较图。
图13为本发明的方法与其它方法在DeepCrack上的性能比较图。
图14为本发明的方法与其它方法在Crack500上的性能比较图。
图15为本发明的分割效果图,每列从左至右,依次为原图,预测效果图和真实标签。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
现有技术中,如图1中的深度可分离卷积实现了将普通卷积在通道和空间上完全解耦,先通过逐通道卷积(DW)再进行逐点卷积(PW)。而倒置的深度可分离卷积则是先进行PW再进行DW。图2的空洞卷积的红色框表示感受野区域,感受野内部只有蓝色方格会参与计算,白色方格位置赋值为0,D则为采样率的大小。
本发明根据现有技术对图3所示的编码器和解码器两部分进行了改进:
编码器部分:如图3所示,在编码器部分,本发明使用金字塔结构的特征提取网络渐进的提取图像特征,可以得到裂缝分割后不同尺度的特征图。由于初始输入图像过大,直接使用视觉变换器提取图像特征,会导致大量的计算量和参数量。所以本发明使用两个串联的深度可分离卷积块(Separable Conv)对图像特征进行初步学习和提取,降低图像尺寸,且不会过多丢失图像信息,深度可分离卷积块的结构具体可如图4的(a)图所示,深度可分离卷积块包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。然后经过由下采样和本发明设计的视觉变换器组成的特征提取主干,总共可优选有四层,每一层包括下采样和视觉变换器。在每一层,通过视觉变换器分别提取到高频特征和低频特征,然后融合两部分特征,送入下一层。并且本发明设计的视觉变换器实现了图像的直接输入,空间位置信息得到了极大的保留,这对于图像相关的任务而言是有利的。同时使用深度可分离卷积代替了所有的全连接层,大大的降低了参数量。在最后一层的末尾,本发明受空洞金字塔池(ASPP,Atrous spatial pyramid pooling)的启发,还设计了一个深度可分离空洞金字塔池结构做特征增强,得到一个多尺度的特征图。
解码器部分:根据编码器中最后得到的多尺度的特征图,将其输入解码器中,逐步恢复图像信息,最后得到裂缝的掩码。解码器层数与编码器层数相对应,层数可以优选为为四层。如图3所示,在解码器的每层,本发明还采取了跳跃连接的策略,在解码器每一层输入之前会合并编码器段对应层的输出,尽可能的保留图像的信息。每一层包括进行上采样的转置卷积和恢复图像的卷积块。如图4中的(b)图所示,恢复图像的卷积块可由带有残差结构的若干深度可分离卷积组成,具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2,从而对图像信息进行解码。最后本发明通过一个由深度可分离卷积充当的分割头(head),得到掩码。
为了提高裂缝检测精度和计算效率,在上述编码器和解码器的基础上,本发明具体提出了一种基于多窗口高低频视觉变换器的裂缝图像分割方法,具体包括如下步骤:
一.深度可分离卷积预处理
步骤1:采用两个串联的深度可分离卷积块对输入的裂缝图像特征进行初步学习和提取,然后将得到的特征图X输入到四层串联的特征提取主干中处理,每层的特征提取主干包括下采样和多窗口高低频自注意视觉变换器。
由于初始输入图像一般尺寸过大,直接使用视觉变换器提取特征,计算量和参数量非常巨大。因此本发明在输入图像后,本发明首先需要对图像的尺寸进行压缩。而经过深度可分离卷积块的处理,则可以对图像的局部特征进行提取,尽可能的缓解压缩带来的信息丢失。
对于多窗口高低频自注意视觉变换器,可参见下述步骤2-5的具体描述和图6,其属于对现有技术中图5中的视觉变换器的改进,主要是对视觉变换器中多头自注意力机制(Multi-headed Self-attention)的改进,此外还对前馈网络进行了改进设计。
进一步的,深度可分离卷积块(Separable Conv)包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。
二.多窗口高低频注意力计算
步骤2:将输入的特征图X在通道方向上按照比例α进行划分,高频分支将得到(1-α)Nh,低频分支将得到αNh,Nh为通道数量。
值得一提的是,如图7所示,0<α<1,且低频分支数αNh可向下取整,高频分支数(1-α)Nh可向上取整,每层多窗口高低频自注意视觉变换器的比例α可取不同的值。
步骤3:在高频分支内,将特征图在通道方向上按照不同的比例β1,β2,β3进一步划分,得到X11,X12,X13三个不同部分的特征图,每一部分特征图都会生成一组查询K、键Q和值V的矩阵,
K1i=fki(X1i),Q1i=fqi(X1i),V1i=fvi(X1i)
函数fxi()表示深度可分离卷积操作,代替常规线性层获取三个矩阵,以大幅度降低参数量和计算量;并按照不同的窗口大小γ1,γ2,γ3分割特征图,然后分窗口分别计算规模点乘自注意力,计算公式如下:
其中,Dhi为隐藏层的维度,Softmax为归一化指数函数,i取值为1~3,本发明通过计算会得到SA11,SA12和SA13,然后在通道方向上连接SA11,SA12和SA13这三个值,通过投影线性层和批归一化,得到高频特征。
步骤4:在低频分支内,对输入特征进行下采样的池化操作,通过投影线性层和批归一化得到低频分量中的低频特征。
进一步的,本发明比较了最大池化和平均池化两种方式,由于本发明认为平均池化会模糊图像的边缘细节信息,效果会不如最大池化,且后续的实施例也验证了本发明的猜想。本发明在最大池化后的特征图上获得键K和值V的矩阵,查询矩阵Q任然需要从原始输入获得。因为通过规模点乘自注意力计算之后,本发明不能改变特征图的大小。计算之后的结果也会通过投影线性层和批归一化,得到低频特征。
步骤5:在通道方向上连接步骤3的高频特征和步骤4的低频特征,得到融合特征图,然后送往下一层的特征提取主干。
进一步的,本发明还改进了视觉变换器中的前馈网络,如图6所示,前馈网络具体包括依次串联的1×1卷积(即逐点卷积)、HardWish激活函数、3×3深度可分离卷积单元、HardWish激活函数和1×1卷积,以提高数据处理速度。
三、深度可分离空洞金字塔池
步骤6:基于空洞金字塔池ASPP设计了一个深度可分离空洞金字塔池作为特征增强模块,将特征提网络的最后一层输出作为输入,通过五条并行的分支,分别包括一个逐点卷积和四个不同采样率的深度可分离卷积块,并将不同尺度的五部分结果在通道维度进行连接,使用倒置的深度可分离卷积块进行加权求和,得到多尺度特征。
进一步的,如图8所示,原始的ASPP只有一条全局平均池化分支,但是本发明认为这会模糊掉裂缝的边缘细节,对于裂缝分割极其不利。所以本发明舍弃了这一部分。并且本发明使用的深度可分离卷积比普通卷积参数量和计算量更小,执行速度更快。然后将5部分结果本发明连接在一起,通过倒置的深度可分离卷积,降低通道数。
四、解码器端恢复图像信息
步骤7:解码器层数与编码器中特征提取主干的层数相对应,在解码器的每层采取跳跃连接的策略与编码器对应的特征提取主干连接,解码器的每层包括进行上采样的转置卷积和恢复图像的卷积块,并经过两个深度可分离卷积块进行处理,最后通过一个由深度可分离卷积块充当的分割头得到裂缝掩码。
进一步的,如图4中的(b)图所示,恢复图像的卷积块可由带有残差结构的若干深度可分离卷积组成,具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2,从而对图像信息进行快速解码。在解码器的每层中使用带有残差结构的两个深度可分离卷积和两个倒置深度可分离卷积对图像进行恢复,在上一层输入到来时会连接来自解码器端对应层的输出,最后通过分割头得到裂缝掩码。
五、裂缝类别概率计算
步骤8:使用BCEWithLogits损失和Dice损失优化网络,得到的一个每点的概率图,BCEWithLogits损失是用于二分类的损失函数,计算公式如下:
BCE Loss(x,y)=-(1-y)log(1-x)-ylog(x)
x表示预测值,y表示真实值;为了更好的挖掘前景信息,突出裂缝区域,加上Dice损失:
x表示预测值,y表示真实值;并且使用带有热重启的余弦退火策略动态调整学习率,初始学习率被设置为0.001。
需要指出的是,步骤8并非该编码器和解码器中的必要步骤,其只是为了让训练得到的网络的鲁棒性更强。
由上述步骤1-8可知,本发明使用语义分割的方式对裂缝进行像素级的检测,改进了一种由编码器和解码器组成的端到端的网络结构,经过网络推理后直接输出一张裂缝掩码,训练和推理效率高。在编码器阶段,本发明采用了视觉变换器去并行提取高低频特征,视觉变换器拥有卷积不具备的诸多优点,如输入自适应,长距离和高阶的空间交互能力。且同时捕获高频和低频,能够对细小裂缝特征更好的进行捕捉。而多窗口的机制则能捕捉不同尺度裂缝的信息,保证模型的鲁棒性。从而提高本发明的检测精度,原始的视觉变换器参见图5,本发明的视觉变换器参见图6。
为说明本发明方法的有益效果,下面还结合基于图9-15的试验效果图和实施例1对本发明方法及其优点进行详细的描述:
实施例1
实施例1全程使用pytorch框架进行开发,相关配置说明如下:操作系统Ubuntu20.04,CPU采用Intel(R)Xeon(R)Platinum 8350C,GPU采用一张RTX3090,RAM为43G,python版本为3.8.0,pytorch版本为1.10.0,cuda版本为11.3。
整个训练采取小批次(mini-batch)训练策略,每次训练3张图片,总共训练50次。整个网络训练好后,会保存网络模型各部分参数。测试阶段会导入训练好的参数,使用测试集图像进行测试。
相关评价指标:
本次实验评估模型的性能指标所采用的为精确度(Precision)、查全率(Recall)、F1分数和平均交并比(mIOU)。精确度为类别像素预测正确的概率,本文的精确度仅为裂缝类别,其计算公式为:
查全率为某类别像素被预测正确的概率,本文查全率仅为裂缝类别,其计算公式为:
F1分数为平衡精确度和查全率二者的性能指标,其计算公式为:
交并比为像素的真实值与预测值的交集与像素的真实值和预测值的并集之比,而平均交并比则为分别对每个类计算IOU,然后再对所有类别的IOU求均值,其计算公式为:
其中,k表示图像数量,计算所有图片的mIOU值,再取平均值。TP为正样本被预测为正样本的数量,TN为负样本被预测为负样本的数量,FP为负样本被预测为正样本的数量,FN为正样本被预测为负样本的数量。
然后测试了多窗口注意力的时间:本发明采用深度可分离卷积代替所有的线性层(即使用线性函数去获取变量),从而使得整体计算效率提升约25%。
参见图9-11可知,本发明还进行了对比实验,以寻找最好的参数配置,所有参数对比实验均在DeepCrack数据集上进行。
1.第一方面,寻找在编码器阶段,从上至下每一层划分高低频的比例α。发明人认为,由于层数越低,则图像压缩越多,因此不应该分配给低频更多的特征图,这样会倒置图像信息丢失严重,因此本发明选择在上层分配给低频分支较多。具体实验验证了发明人的猜想,具体参见图9所示。
2.第二方面,本发明还比较了深度可分离空洞金字塔池的采样率配比,具体实验如图10所示。
3.第三方面,本发明还比较了在低频分支内部,采用不同方法去获得低频分量的效果。由于发明人认为全局平均池化的方法会模糊裂缝边缘细节,这是对分割不利的,具体实验如图11所示。
最终实验采取的比例α为:0.4,0.5,0.3,0.2;窗口大小每一层都设置为2,4,8;β1,β2,β3每一层都设置为0.3,0.3,0.4;深度可分离空洞金字塔池的采样率设置为:1,3,5,7;最终采取获取低频分量的方法为全局最大池化。
另外,参见图12-14可知,本发明提出的方法在CrackForest,DeepCrack和Crack500三个权威性的公开数据集上进行了验证,图12展示了本发明的方法与其他方法在CrackForest上的性能比较,图13展示了本发明的方法与其他方法在DeepCrack数据集上性能的比较,图14展示了本发明的方法与其他方法在Crack500上的性能比较。本发明提出方法所应用的裂缝分割能够端到端的进行优化,在CrackForest、DeepCrack和Crack500数据集上本发明都能有较好的效果,特别的,在DeepCrack数据集上,本发明获得了最好的表现,这证明了本发明提出的方法在裂缝检测方面的优越性能。此外,图15展示了应用本发明方法的优良分割结果。
由此可知,本发明的图像分割方法与现有技术相比,本发明提出基于多窗口高低频视觉变换器的裂缝图像分割方法,改进了视觉变换器,使其更适合于裂缝分割,通过将图像划分为高频和低频并行处理的两部分,去获得丰富的纹理特征和全局的上下文语义特征,然后融合两部分特征。这样大大提高了分割细小裂缝的精度和召回率。同时运用深度可分离金字塔池对特征进行增强。通过并行的5部分卷积操作得到多尺度特征。且在编码器阶段通过跳跃连接去更好的恢复图像。本发明的损失函数使用Dice损失加上BCEWithLogits损失,可以更好的挖掘前景对象。
值得一提的是,上述本发明的分割方法可以转换为软件程序指令,既可以使用包括处理器和存储器的软件分析系统来运行实现,或者也可以通过非暂态计算机可读存储介质中存储的计算机指令来实现。
最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多窗口高低频视觉变换器的裂缝图像分割方法,其特征在于,该裂缝图像分割方法包括如下步骤:
步骤1:采用两个串联的深度可分离卷积块对输入的裂缝图像特征进行初步学习和提取,然后将得到的特征图X输入到四层串联的特征提取主干中处理,每层的特征提取主干包括下采样和多窗口高低频自注意视觉变换器;
步骤2:将输入的特征图X在通道方向上按照比例α进行划分,高频分支将得到(1-α)Nh,低频分支将得到αNh,Nh为通道数量;
步骤3:在高频分支内,将特征图在通道方向上按照不同的比例β1,β2,β3进一步划分,得到X11,X12,X13三个不同部分的特征图,每一部分特征图都会生成一组查询K、键Q和值V的矩阵,
K1i=fki(X1i),Q1i=fqi(X1i),V1i=fvi(X1i)
函数fxi()表示深度可分离卷积操作,代替常规线性层获取三个矩阵,以大幅度降低参数量和计算量;并按照不同的窗口大小γ1,γ2,γ3分割特征图,然后分窗口分别计算规模点乘自注意力,计算公式如下:
其中,Dhi为隐藏层的维度,Softmax为归一化指数函数,i取值为1~3的整数,通过计算会得到SA11,SA12和SA13,然后在通道方向上连接SA11,SA12和SA13三个值,通过投影线性层和批归一化,得到高频特征;
步骤4:在低频分支内,对输入特征进行下采样的池化操作,通过投影线性层和批归一化得到低频分量中的低频特征;
步骤5:在通道方向上连接步骤3的高频特征和步骤4的低频特征,得到融合特征图,然后送往下一层的特征提取主干;
步骤6:基于空洞金字塔池ASPP设计一个深度可分离空洞金字塔池作为特征增强模块,将特征提网络的最后一层输出作为输入,通过五条并行的分支,分别包括一个逐点卷积和四个不同采样率的深度可分离卷积块,并将不同尺度的五部分结果在通道维度进行连接,使用倒置的深度可分离卷积块进行加权求和,得到多尺度特征;
步骤7:解码器层数与编码器中特征提取主干的层数相对应,在解码器的每层采取跳跃连接的策略与编码器对应的特征提取主干连接,解码器的每层包括进行上采样的转置卷积和恢复图像的卷积块,并经过两个深度可分离卷积块进行处理,最后通过一个由深度可分离卷积块充当的分割头得到裂缝掩码。
2.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法,其特征在于,所述深度可分离卷积块包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。
3.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法,其特征在于,四层多窗口高低频自注意视觉变换器的比例α依次取值为0.4,0.5,0.3,0.2,窗口大小每一层都设置为2,4,8;β1,β2,β3每一层都设置为0.3,0.3,0.4。
4.根据权利要求3所述的基于多窗口高低频视觉变换器的裂缝图像分割方法,其特征在于,步骤6中深度可分离空洞金字塔池的采样率设置为:1,3,5,7。
5.根据权利要求4所述的基于多窗口高低频视觉变换器的裂缝图像分割方法,其特征在于,步骤4中获取所述低频分量的方法为全局最大池化。
6.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法,其特征在于,所述多窗口高低频自注意视觉变换器中的前馈网络具体包括依次串联的1×1卷积、HardWish激活函数、3×3深度可分离卷积单元、HardWish激活函数和1×1卷积。
7.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法,其特征在于,所述恢复图像的卷积块具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2。
9.一种基于多窗口高低频视觉变换器的裂缝图像分割系统,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-8中任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-8中任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211609395.6A CN115830054A (zh) | 2022-12-14 | 2022-12-14 | 基于多窗口高低频视觉变换器的裂缝图像分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211609395.6A CN115830054A (zh) | 2022-12-14 | 2022-12-14 | 基于多窗口高低频视觉变换器的裂缝图像分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115830054A true CN115830054A (zh) | 2023-03-21 |
Family
ID=85545703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211609395.6A Pending CN115830054A (zh) | 2022-12-14 | 2022-12-14 | 基于多窗口高低频视觉变换器的裂缝图像分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115830054A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253035A (zh) * | 2023-08-18 | 2023-12-19 | 湘潭大学 | 一种基于极坐标下注意力的单目标医学图像分割方法 |
CN118552547A (zh) * | 2024-07-30 | 2024-08-27 | 浙江省交通运输科学研究院 | 一种基于特征金字塔网络的裂缝图像训练检测方法 |
-
2022
- 2022-12-14 CN CN202211609395.6A patent/CN115830054A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253035A (zh) * | 2023-08-18 | 2023-12-19 | 湘潭大学 | 一种基于极坐标下注意力的单目标医学图像分割方法 |
CN117253035B (zh) * | 2023-08-18 | 2024-07-19 | 湘潭大学 | 一种基于极坐标下注意力的单目标医学图像分割方法 |
CN118552547A (zh) * | 2024-07-30 | 2024-08-27 | 浙江省交通运输科学研究院 | 一种基于特征金字塔网络的裂缝图像训练检测方法 |
CN118552547B (zh) * | 2024-07-30 | 2024-09-27 | 浙江省交通运输科学研究院 | 一种基于特征金字塔网络的裂缝图像训练检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115830054A (zh) | 基于多窗口高低频视觉变换器的裂缝图像分割方法 | |
CN111460936A (zh) | 基于U-Net网络的遥感影像建筑物提取方法、系统、电子设备 | |
CN110580704A (zh) | 基于卷积神经网络的et细胞图像自动分割方法及系统 | |
CN114782391A (zh) | 少样本工业图像缺陷检测模型构建方法、系统及装置 | |
CN113569724B (zh) | 基于注意力机制和扩张卷积的道路提取方法及系统 | |
CN114821342B (zh) | 一种遥感影像道路提取方法及系统 | |
CN114187520B (zh) | 一种建筑物提取模型的构建及应用方法 | |
CN115880557B (zh) | 基于深度学习的路面裂缝提取方法和装置 | |
CN117496384A (zh) | 一种无人机图像物体检测方法 | |
CN116228792A (zh) | 一种医学图像分割方法、系统及电子装置 | |
CN115311194A (zh) | 一种基于transformer和SE块的CT自动肝脏图像分割方法 | |
CN111462090A (zh) | 一种多尺度图像目标检测方法 | |
CN114359102A (zh) | 一种基于注意力机制与边缘引导的图像深度修复取证方法 | |
CN114596503A (zh) | 一种基于遥感卫星影像的道路提取方法 | |
CN113269702A (zh) | 基于跨尺度特征融合的低曝光静脉图像增强方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN112818818B (zh) | 一种基于affpn的新型超高清遥感图像变化检测方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN117911437A (zh) | 一种改进YOLOv5x的荞麦籽粒粘连分割方法 | |
CN117853862A (zh) | 基于rgb通道信息融合的深度学习图像操作链取证方法 | |
CN113284563A (zh) | 一种蛋白质质谱定量分析结果的筛选方法及系统 | |
CN115641445A (zh) | 一种非对称内卷积与Transformer相融合的遥感图像阴影检测方法 | |
CN116977242A (zh) | 一种针对野外露头数据的裂缝识别方法 | |
CN115035377A (zh) | 基于双流编码和交互解码的显著性检测网络系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |