CN115830054A

CN115830054A - 基于多窗口高低频视觉变换器的裂缝图像分割方法

Info

Publication number: CN115830054A
Application number: CN202211609395.6A
Authority: CN
Inventors: 王进; 曾志高; 张建明; 黄凤翔
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-21

Abstract

本发明公开了一种基于多窗口高低频视觉变换器的裂缝图像分割方法，通过使用语义分割的方式对裂缝进行像素级的检测，改进了一种由编码器和解码器组成的端到端的网络结构，经过网络推理后直接输出一张裂缝掩码，训练和推理效率高。在编码器阶段采用了视觉变换器去并行提取高低频特征，视觉变换器拥有卷积不具备的诸多优点，如输入自适应，长距离和高阶的空间交互能力。且同时捕获高频和低频，能够对细小裂缝特征更好的进行捕捉。而多窗口的机制则能捕捉不同尺度裂缝的信息，保证模型的鲁棒性。且提高本发明的检测精度。本发明的方法能提高裂缝检测精度的同时提高整体的计算效率。

Description

基于多窗口高低频视觉变换器的裂缝图像分割方法

技术领域

本发明属于图像处理领域，更具体地说，涉及一种基于多窗口高低频视觉变换器的裂缝图像分割方法。

背景技术

对于城镇基础设施而言，裂缝是最常见的一种结构性损伤。而目前大部分国家和地区，仍然采取人工检测的方式检测墙体或者路面等裂缝。这无疑费时又费力，并且有很多结构死角，人往往难以到达，则很容易产生漏检。随着数字图像处理技术的发展，有很多人提出了许多优秀的裂缝检测算法。而随着目前深度学习的火热，越来越多的人使用深度神经网络去进行裂缝检测。实现裂缝的检测自动化，可以节约大量的人力物力，且精度也比人工检测更高。

目前裂缝检测大致可以分为两类方法，一类是使用传统的数字图像处理技术，另一类则是使用目前新兴的深度学习相关知识。传统方法提出了许多优秀的算法。例如边缘检测算法：快速哈尔变换、Canny算子、快速傅里叶变换和Sobel算子。这些都被应用于裂缝的检测。另外，基于Gabor滤波器的裂缝检测模型也在当时取得了极大的成功。而基于深度学习方法，需要搭建一个深度神经网络对裂缝进行检测，是目前的主流做法。可以使用基于锚框的目标检测算法去定位图像中裂缝的区域。也可以对裂缝图像进行分类，找出有裂缝的图像。还可以对裂缝图像进行分割，进行像素级的检测。目前更多的人愿意使用分割方法去检测裂缝。如DeepCrack则是一个专门检测裂缝的分割网络模型，它会在每一层都输出一个预测结果，进行多尺度的预测。Cracklab则是在DeepLabv3+上面进行了改动，得到一个用于裂缝分割的网络，使用了深度可分离卷积和空洞卷积去减少参数量，并扩大感受野。并且通过修剪相关性弱的卷积层，提高效率。现有技术中的深度可分离卷积如图1所示，空洞卷积如图2所示。

尽管以上提出了许多性能优异的裂缝分割算法，但仍然存在许多不足之处。当使用传统方法检测裂缝，受到环境因素影响巨大，如噪声和光照等，其鲁棒性差，检测的精度和召回率低。而一般使用检测算法去定位裂缝区域，由于裂缝的特点，则将会产生许多小的且易重叠的冗余框，这无疑增大了计算量，并且也不能做到精确的定位，只能获得一个裂缝的区域。而分割算法是目前比较适合裂缝检测的方法，也存在许多分割算法被提出。虽然目前通用的分割算法很多，但是针对裂缝的分割算法不多，例如DeepCrack分割算法，在每一层都进行预测，在训练和推理阶段的计算时间花费巨大，效率不高，而如Cracklab算法虽然为了提高效率去减少了卷积层的数量，但是精度也因此降低。并且单纯堆叠卷积层，会无限扩大感受野(Receptive Field)，而对检测一些小裂缝而言，这无疑是不利的。

基于此，需要设计一种提高裂缝检测精度和计算效率的新的裂缝图像分割方法。

发明内容

(一)技术问题

针对现存裂缝检测算法存在的计算效率低且精度不够高等问题，本发明提供了一种基于多窗口高低频视觉变换器的裂缝图像分割方法，该方法通过改进后新的视觉变换器，实现了图像的直接输入，可以更好的保留图像的空间位置信息，然后将图像划分为高频和低频两部分并行处理，且在高频部分采取多窗口去计算自注意力，最后得到高频和低频两部分的融合特征，配合使用替代全连接层的深度可分离卷积和深度可分离空洞金字塔池模块，从而在提高裂缝检测精度的同时提高参数的计算效率。

(二)技术方案

本发明提供了一种基于多窗口高低频视觉变换器的裂缝图像分割方法，该方法包括如下步骤：

步骤1：采用两个串联的深度可分离卷积块对输入的裂缝图像特征进行初步学习和提取，然后将得到的特征图X输入到四层串联的特征提取主干中处理，每层的特征提取主干包括下采样和多窗口高低频自注意视觉变换器；

步骤2：将输入的特征图X在通道方向上按照比例α进行划分，高频分支将得到(1-α)N_h，低频分支将得到αN_h，N_h为通道数量；

步骤3：在高频分支内，将特征图在通道方向上按照不同的比例β1，β2，β3进一步划分，得到X11，X12，X13三个不同部分的特征图，每一部分特征图都会生成一组查询K、键Q和值V的矩阵，

K1i＝f_ki(X1i)，Q1i＝f_qi(X1i)，V1i＝f_vi(X1i)

函数f_xi()表示深度可分离卷积操作，代替常规线性层获取三个矩阵，以大幅度降低参数量和计算量；并按照不同的窗口大小γ1，γ2，γ3分割特征图，然后分窗口分别计算规模点乘自注意力，计算公式如下：

其中，Dhi为隐藏层的维度，Softmax为归一化指数函数，i取值为1～3的整数，通过计算会得到SA11,SA12和SA13，然后在通道方向上连接SA11,SA12和SA13三个值，通过投影线性层和批归一化，得到高频特征；

步骤4：在低频分支内，对输入特征进行下采样的池化操作，通过投影线性层和批归一化得到低频分量中的低频特征；

步骤5：在通道方向上连接步骤3的高频特征和步骤4的低频特征，得到融合特征图，然后送往下一层的特征提取主干；

步骤6：基于空洞金字塔池ASPP设计一个深度可分离空洞金字塔池作为特征增强模块，将特征提网络的最后一层输出作为输入，通过五条并行的分支，分别包括一个逐点卷积和四个不同采样率的深度可分离卷积块，并将不同尺度的五部分结果在通道维度进行连接，使用倒置的深度可分离卷积块进行加权求和，得到多尺度特征；

步骤7：解码器层数与编码器中特征提取主干的层数相对应，在解码器的每层采取跳跃连接的策略与编码器对应的特征提取主干连接，解码器的每层包括进行上采样的转置卷积和恢复图像的卷积块，并经过两个深度可分离卷积块进行处理，最后通过一个由深度可分离卷积块充当的分割头得到裂缝掩码。

进一步的，所述深度可分离卷积块包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。

进一步的，四层多窗口高低频自注意视觉变换器的比例α依次取值为0.4，0.5，0.3，0.2，窗口大小每一层都设置为2，4，8；β1，β2，β3每一层都设置为0.3，0.3，0.4。

进一步的，步骤6中深度可分离空洞金字塔池的采样率设置为：1，3，5，7。

进一步的，步骤4中获取所述低频分量的方法为全局最大池化。

进一步的，所述多窗口高低频自注意视觉变换器中的前馈网络具体包括依次串联的1×1卷积、HardWish激活函数、3×3深度可分离卷积单元、HardWish激活函数和1×1卷积。

进一步的，所述恢复图像的卷积块具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2。

进一步的，所述裂缝图像分割方法还包括以下步骤8：

使用BCEWithLogits损失和Dice损失优化网络，得到的一个每点的概率图，BCEWithLogits损失是用于二分类的损失函数，计算公式如下：

BCE Loss(x,y)＝-(1-y)log(1-x)-ylog(x)

x表示预测值，y表示真实值；为了更好的挖掘前景信息，突出裂缝区域，加上Dice损失：

x表示预测值，y表示真实值；并且使用带有热重启的余弦退火策略动态调整学习率，初始学习率被设置为0.001。

在另外一个方面，本发明还公开了一种基于多窗口高低频视觉变换器的裂缝图像分割系统，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上述任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。

在另外一个方面，本发明还公开了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上述任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。

(三)有益效果

(1)首先，本发明设计了一种新的多窗口高低频注意力机制替代多头自注意力机制(Multi-headed Self-attention)，并借此设计了一种新的视觉变换器。首先本发明的视觉变换器实现了图像的直接输入，可以更好的保留图像的空间位置信息。然后将图像划分为高频和低频两部分并行处理，且在高频部分本发明采取多窗口去计算自注意力。最后会得到高频和低频两部分的融合特征。且本发明使用深度可分离卷积代替了原有的所有全连接层，可以大幅度降低参数和计算量。

(2)其次，本发明设计了一种深度可分离空洞金字塔池模块，用于编码器的末端，得到多尺度特征图，起到进一步增强特征的作用。该模块由5条并行的分支组成，分别为1个逐点卷积和4个不同采样率的深度可分离空洞卷积，最后将不同尺度的5部分结果在通道维度进行连接，使用翻转的深度可分离卷积进行加权求和，得到多尺度特征。

(3)此外，本发明设计了一个端到端的裂缝分割模型。编码器逐步提取图像特征，再经过解码器恢复图像，最后得到图像掩码。编码器则主要由两个深度可分离卷积、本发明设计的视觉变换器和本发明设计的深度可分离空洞金字塔池模块组成。解码器则由一系列带有残差结构的深度可分离卷积块构成。并且本发明加入了跳跃连接，将编码器对应层的特征图引入解码器，更好的还原图像。

(4)本发明设计的网络模型可以实现端到端的优化，在训练整个分割网络时，本发明采用了Dice损失加上BCEWithLogits损失。可以更好的挖掘前景裂缝信息，提高分割表现。且采取带有热重启的余弦退火策略，动态调整学习率，缓解局部极小值问题，让训练得到的网络更加鲁棒。

附图说明

图1是现有技术中的深度可分离卷积过程图。

图2为现有技术中的空洞卷积的示意图。

图3为本发明提出的方法的整体流程图。

图4中的(a)图为深度可分离卷积块组成图，(b)图为本发明提出的恢复图像的卷积块组成图。

图5为现有技术中的视觉变换器的示意图。

图6为本发明改进设计的多窗口高低频自注意视觉变换器的示意图。

图7为本发明改进设计的多窗口高低频注意力机制结构示意图。

图8中的(a)图为空洞金字塔池(ASPP)的示意图，(b)图8为本发明设计的深度可分离空洞金字塔池示意图。

图9为高低频的比例α的参数选择性能对比图；

图10为深度可分离空洞金字塔池的采样率配比的参数选择性能对比图；

图11为本发明解码过程中全局平均池化和最大池化的性能对比图；

图12为本发明的方法与其它方法在CrackForest上的性能比较图。

图13为本发明的方法与其它方法在DeepCrack上的性能比较图。

图14为本发明的方法与其它方法在Crack500上的性能比较图。

图15为本发明的分割效果图，每列从左至右，依次为原图，预测效果图和真实标签。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

现有技术中，如图1中的深度可分离卷积实现了将普通卷积在通道和空间上完全解耦，先通过逐通道卷积(DW)再进行逐点卷积(PW)。而倒置的深度可分离卷积则是先进行PW再进行DW。图2的空洞卷积的红色框表示感受野区域，感受野内部只有蓝色方格会参与计算，白色方格位置赋值为0，D则为采样率的大小。

本发明根据现有技术对图3所示的编码器和解码器两部分进行了改进：

编码器部分：如图3所示，在编码器部分，本发明使用金字塔结构的特征提取网络渐进的提取图像特征，可以得到裂缝分割后不同尺度的特征图。由于初始输入图像过大，直接使用视觉变换器提取图像特征，会导致大量的计算量和参数量。所以本发明使用两个串联的深度可分离卷积块(Separable Conv)对图像特征进行初步学习和提取，降低图像尺寸，且不会过多丢失图像信息，深度可分离卷积块的结构具体可如图4的(a)图所示，深度可分离卷积块包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。然后经过由下采样和本发明设计的视觉变换器组成的特征提取主干，总共可优选有四层，每一层包括下采样和视觉变换器。在每一层，通过视觉变换器分别提取到高频特征和低频特征，然后融合两部分特征，送入下一层。并且本发明设计的视觉变换器实现了图像的直接输入，空间位置信息得到了极大的保留，这对于图像相关的任务而言是有利的。同时使用深度可分离卷积代替了所有的全连接层，大大的降低了参数量。在最后一层的末尾，本发明受空洞金字塔池(ASPP，Atrous spatial pyramid pooling)的启发，还设计了一个深度可分离空洞金字塔池结构做特征增强，得到一个多尺度的特征图。

解码器部分：根据编码器中最后得到的多尺度的特征图，将其输入解码器中，逐步恢复图像信息，最后得到裂缝的掩码。解码器层数与编码器层数相对应，层数可以优选为为四层。如图3所示，在解码器的每层，本发明还采取了跳跃连接的策略，在解码器每一层输入之前会合并编码器段对应层的输出，尽可能的保留图像的信息。每一层包括进行上采样的转置卷积和恢复图像的卷积块。如图4中的(b)图所示，恢复图像的卷积块可由带有残差结构的若干深度可分离卷积组成，具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2，从而对图像信息进行解码。最后本发明通过一个由深度可分离卷积充当的分割头(head)，得到掩码。

为了提高裂缝检测精度和计算效率，在上述编码器和解码器的基础上，本发明具体提出了一种基于多窗口高低频视觉变换器的裂缝图像分割方法，具体包括如下步骤：

一.深度可分离卷积预处理

步骤1：采用两个串联的深度可分离卷积块对输入的裂缝图像特征进行初步学习和提取，然后将得到的特征图X输入到四层串联的特征提取主干中处理，每层的特征提取主干包括下采样和多窗口高低频自注意视觉变换器。

由于初始输入图像一般尺寸过大，直接使用视觉变换器提取特征，计算量和参数量非常巨大。因此本发明在输入图像后，本发明首先需要对图像的尺寸进行压缩。而经过深度可分离卷积块的处理，则可以对图像的局部特征进行提取，尽可能的缓解压缩带来的信息丢失。

对于多窗口高低频自注意视觉变换器，可参见下述步骤2-5的具体描述和图6，其属于对现有技术中图5中的视觉变换器的改进，主要是对视觉变换器中多头自注意力机制(Multi-headed Self-attention)的改进，此外还对前馈网络进行了改进设计。

进一步的，深度可分离卷积块(Separable Conv)包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。

二.多窗口高低频注意力计算

步骤2：将输入的特征图X在通道方向上按照比例α进行划分，高频分支将得到(1-α)N_h，低频分支将得到αN_h，N_h为通道数量。

值得一提的是，如图7所示，0＜α＜1，且低频分支数αN_h可向下取整，高频分支数(1-α)N_h可向上取整，每层多窗口高低频自注意视觉变换器的比例α可取不同的值。

K1i＝f_ki(X1i)，Q1i＝f_qi(X1i)，V1i＝f_vi(X1i)

其中，Dhi为隐藏层的维度，Softmax为归一化指数函数，i取值为1～3，本发明通过计算会得到SA11,SA12和SA13，然后在通道方向上连接SA11,SA12和SA13这三个值，通过投影线性层和批归一化，得到高频特征。

步骤4：在低频分支内，对输入特征进行下采样的池化操作，通过投影线性层和批归一化得到低频分量中的低频特征。

进一步的，本发明比较了最大池化和平均池化两种方式，由于本发明认为平均池化会模糊图像的边缘细节信息，效果会不如最大池化，且后续的实施例也验证了本发明的猜想。本发明在最大池化后的特征图上获得键K和值V的矩阵，查询矩阵Q任然需要从原始输入获得。因为通过规模点乘自注意力计算之后，本发明不能改变特征图的大小。计算之后的结果也会通过投影线性层和批归一化，得到低频特征。

步骤5：在通道方向上连接步骤3的高频特征和步骤4的低频特征，得到融合特征图，然后送往下一层的特征提取主干。

进一步的，本发明还改进了视觉变换器中的前馈网络，如图6所示，前馈网络具体包括依次串联的1×1卷积(即逐点卷积)、HardWish激活函数、3×3深度可分离卷积单元、HardWish激活函数和1×1卷积，以提高数据处理速度。

三、深度可分离空洞金字塔池

步骤6：基于空洞金字塔池ASPP设计了一个深度可分离空洞金字塔池作为特征增强模块，将特征提网络的最后一层输出作为输入，通过五条并行的分支，分别包括一个逐点卷积和四个不同采样率的深度可分离卷积块，并将不同尺度的五部分结果在通道维度进行连接，使用倒置的深度可分离卷积块进行加权求和，得到多尺度特征。

进一步的，如图8所示，原始的ASPP只有一条全局平均池化分支，但是本发明认为这会模糊掉裂缝的边缘细节，对于裂缝分割极其不利。所以本发明舍弃了这一部分。并且本发明使用的深度可分离卷积比普通卷积参数量和计算量更小，执行速度更快。然后将5部分结果本发明连接在一起，通过倒置的深度可分离卷积，降低通道数。

四、解码器端恢复图像信息

进一步的，如图4中的(b)图所示，恢复图像的卷积块可由带有残差结构的若干深度可分离卷积组成，具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2，从而对图像信息进行快速解码。在解码器的每层中使用带有残差结构的两个深度可分离卷积和两个倒置深度可分离卷积对图像进行恢复，在上一层输入到来时会连接来自解码器端对应层的输出，最后通过分割头得到裂缝掩码。

五、裂缝类别概率计算

步骤8：使用BCEWithLogits损失和Dice损失优化网络，得到的一个每点的概率图，BCEWithLogits损失是用于二分类的损失函数，计算公式如下：

BCE Loss(x,y)＝-(1-y)log(1-x)-ylog(x)

需要指出的是，步骤8并非该编码器和解码器中的必要步骤，其只是为了让训练得到的网络的鲁棒性更强。

由上述步骤1-8可知，本发明使用语义分割的方式对裂缝进行像素级的检测，改进了一种由编码器和解码器组成的端到端的网络结构，经过网络推理后直接输出一张裂缝掩码，训练和推理效率高。在编码器阶段，本发明采用了视觉变换器去并行提取高低频特征，视觉变换器拥有卷积不具备的诸多优点，如输入自适应，长距离和高阶的空间交互能力。且同时捕获高频和低频，能够对细小裂缝特征更好的进行捕捉。而多窗口的机制则能捕捉不同尺度裂缝的信息，保证模型的鲁棒性。从而提高本发明的检测精度，原始的视觉变换器参见图5，本发明的视觉变换器参见图6。

为说明本发明方法的有益效果，下面还结合基于图9-15的试验效果图和实施例1对本发明方法及其优点进行详细的描述：

实施例1

实施例1全程使用pytorch框架进行开发，相关配置说明如下：操作系统Ubuntu20.04，CPU采用Intel(R)Xeon(R)Platinum 8350C，GPU采用一张RTX3090，RAM为43G，python版本为3.8.0，pytorch版本为1.10.0，cuda版本为11.3。

整个训练采取小批次(mini-batch)训练策略，每次训练3张图片，总共训练50次。整个网络训练好后，会保存网络模型各部分参数。测试阶段会导入训练好的参数，使用测试集图像进行测试。

Claims

1.一种基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，该裂缝图像分割方法包括如下步骤：

K1i＝f_ki(X1i)，Q1i＝f_qi(X1i)，V1i＝f_vi(X1i)

2.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，所述深度可分离卷积块包括依次串联的3×3深度可分离卷积单元、批归一化处理和HardWish激活函数。

3.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，四层多窗口高低频自注意视觉变换器的比例α依次取值为0.4，0.5，0.3，0.2，窗口大小每一层都设置为2，4，8；β1，β2，β3每一层都设置为0.3，0.3，0.4。

4.根据权利要求3所述的基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，步骤6中深度可分离空洞金字塔池的采样率设置为：1，3，5，7。

5.根据权利要求4所述的基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，步骤4中获取所述低频分量的方法为全局最大池化。

6.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，所述多窗口高低频自注意视觉变换器中的前馈网络具体包括依次串联的1×1卷积、HardWish激活函数、3×3深度可分离卷积单元、HardWish激活函数和1×1卷积。

7.根据权利要求1所述的基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，所述恢复图像的卷积块具体包括依次串联的倒置深度可分离卷积块1、深度可分离卷积块1、深度可分离卷积块2和倒置深度可分离卷积块2。

8.根据权利要求1～7中任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法，其特征在于，所述裂缝图像分割方法还包括以下步骤：

BCE Loss(x,y)＝-(1-y)log(1-x)-ylog(x)

9.一种基于多窗口高低频视觉变换器的裂缝图像分割系统，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-8中任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1-8中任一项所述的基于多窗口高低频视觉变换器的裂缝图像分割方法。