CN116542991A

CN116542991A - 一种用于裂缝图像分割的网络架构及其训练方法和分割方法

Info

Publication number: CN116542991A
Application number: CN202310485486.1A
Authority: CN
Inventors: 樊亚文; 胡正开; 黄谌子谊; 孙阳; 陈天煜
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-04

Abstract

本发明公开了一种用于裂缝图像分割的网络架构及其训练方法和分割方法，属于图像分割技术领域；包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型；分割网络模型包括编码器、瓶颈层和解码器，编码器包括多个第一卷积块和下采样模块；瓶颈层包括transformer模块、条形池化模块和第二卷积块；解码器包括上采样模块、注意力模块和第三卷积块，上采样模块对图像进行上采样，将图像逐步恢复到原始尺寸；损失函数模型采用Dice和权重交叉熵混合损失函数。本发明通过设置动态权重来增强分割网络模型对裂缝区域像素点的敏感程度，分割网络模型趋于饱和时，对权重进行自适应动态调整，促进模型快速收敛，保证鲁棒性的情况下提高模型分割精度。

Description

一种用于裂缝图像分割的网络架构及其训练方法和分割方法

技术领域

本发明属于图像分割技术领域，具体涉及一种用于裂缝图像分割的网络架构及其训练方法和分割方法。

背景技术

图像分割是计算机视觉领域的三大基本任务之一，它在医学、生物识别等领域有着广泛应用。图像分割旨在检测感兴趣的物体，并对每一个像素点分配相应的语义标签。近年来，随着卷积神经网络的不断发展，其性能不断提高，但是网络模型的架构也越来越庞大，层次不断加深，对算力、训练用的数据集要求也在不断拔高，在实际应用场景中，这显然是不可接受的，效率、成本永远是第一要素。

近年来，卷积神经网络架构已经成为了裂缝图像分割的主流架构，得益于卷积神经网络强大的特征提取能力和高维数据的表征能力，基于深度学习的方法可以学习到人工难以获取的特征，不仅节省了手工提取特征所需的成本，还大幅度的提升了检测精度。在深度学习发展之初，使用简单的卷积提取特征，如DeepCrack网络使用多个卷积块对待测样本进行特征提取，并将不同的尺度的特征图融合实现分割。但由于裂缝的无规则性，其形状和尺寸变化较大，简单的卷积已经无法满足需求，如FCN全卷积网络首先使用了端到端的分割方法，UNet则构建了完整的编码器-解码器的U形结构，并采用跳跃连接来补足细节特征，在本领域中，研究者往往基于这些基础的网络结构进行改良，如SegNet也基于编码器-解码器架构，在其编码器内进行池化时，会记录下最大池化的索引，在上采样时，调用相应编码器的最大池化索引来完成上采样，还有EffificientNet提出了一个缩放因子来控制网络深度、宽度和分辨率之间的平衡等。

尽管上述方法取得了显著进步，但仍受限于以下的缺点：(1)裂缝广泛存在各种生活场景中，这也导致了裂缝图像的复杂背景，在复杂背景中难以精准的定位裂缝；(2)受限于传统标准卷积，其局部特征往往局限在方形区域之中，然后裂缝通常展现出狭长的特性，故此标准卷积提取到的特征必然会夹杂其他干扰信息；(3)在现有的公共数据集中，存在严重的类别不均衡状态，导致了分类结果偏向大类，而在裂缝这种二分类问题中，直接造成了模型的学习能力大打折扣。故此，如何解决类别不均衡仍是亟待解决的难题。

发明内容

本发明的目的在于提供一种用于裂缝图像分割的网络架构及其训练方法和分割方法，以解决上述背景技术中提出的问题和达到的效果。

本发明目的是这样实现的：一种用于裂缝图像分割的网络架构，其特征在于：该网络架构包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型；

所述分割网络模型包括编码器、瓶颈层和解码器，编码器包括多个第一卷积块和下采样模块，下采样模块获取不同分辨率的局部细节特征图和低分辨率的局部高层语义特征图；

所述瓶颈层包括transformer模块、条形池化模块和第二卷积块，transformer模块进行自注意力的计算，获取全局语义信息，完成局部和全局特征的互补；

所述解码器包括上采样模块、注意力模块和第三卷积块，上采样模块对图像进行上采样，补足损失的细节特征，将图像逐步恢复到原始尺寸；

所述损失函数模型采用Dice和权重交叉熵混合损失函数，以增强对裂缝区域像素点的敏感程度。

优选的，所述transformer模块具体操作如下：

transformer模块接受一维的Token序列，为了能够处理2D特征，重塑输入特征图为一系列扁平化切片/>每个切片的尺寸为P×P，其中，N代表特征图的切片数，/> 为输入特征图；C代表特征图的通道数，H和W分别表示输入特征图的高和宽；/>为/>重塑之后的切片；

为了保留切片的空间信息，选定可学习的位置编码E_pos嵌入到线性化映射到D维的切片中，如下所示：

其中，表示可训练的线性映射部分，/>表示可学习的位置编码。

优选的，所述下采样模块包括一个最大池化和3×3步长为1、填充为1的第一卷积块，第一卷积块数量为两个。

优选的，所述上采样模块具体操作如下：

给定输入特征图经过并行的上采样，得到/> 再将两个特征图进行融合，获得最终输出：

其中，C代表特征图的通道数，H和W分别表示输入特征图的高和宽；表示逐点相加操作。

优选的，所述注意力模块具体操作如下：

给定两个输入特征图，一个来自编码器的跳跃连接一个来自解码器上采样模块/>两个特征图经过1×1卷积将通道下降为1/2，大小保持不变，分别为/>和/>再通过逐点相加操作得到/>在此之后，X_add依次经过ReLU激活函数、1×1卷积块和Sigmoid激活函数，生成空间注意力图

其中，σ_r表示ReLU激活函数，注意力值在0-1之间，用W_sp来对编码器跳跃连接特征图进行加权，得到/>

优选的，所述第二卷积块采用1×1步长为1、填充为1的卷积，第三卷积块采用3×3步长为1、填充为1的卷积。

优选的，一种分割网络模型的训练方法，其特征在于：所述训练方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构；该方法包括以下步骤：

步骤(1):建立损失函数模型，损失函数模型采用Dice损失和交叉熵损失CE混合形式，设定损失函数模型必备参数和分割模型的必备参数；损失函数模型表示为：

L＝Dice+w·CE

其中，w表示交叉熵损失的权重；

步骤(2):计算权重，调整损失函数模型迭代间隔N_gap；

其中，N_epoch表示训练中Epoch总数，N_max表示训练中最大迭代次数；

步骤(3):训练开始迭代，按照输入的特征图计算当前迭代周期的损失函数值L_n；

步骤(4):设定迭代次数为n，计算迭代次数中迭代的平均损失L_mean：

其中，n表示当前迭代次数；

步骤(5):判断饱和期迭代，并对获得分割结果的分割模型进行反向传播，调整分割模型中各个模块的参数值；当迭代次数大于迭代轮次，表示分割网络模型训练趋于饱和状态，则进行步骤(6)；当迭代次数小于迭代轮次，则重复步骤(3)；

步骤(6):判读当前损失函数值L_n与平均损失L_mean的大小，当L_n＞L_mean，则M_down＝M_down+1；其中，M_down表示一个间隔期内L_n＜L_mean的次数；

当L_n＜L_mean，则M_up＝M_up+1，M_up表示一个间隔期内L_n＞L_mean的次数；

步骤(7):判断M_up-M_down的大小，当M_up-M_down＜0，则将M_up和M_down归零，w初始值按经验取；

当M_up-M_down＞0，判断(M_up-M_down)与Thr的大小；当(M_up-M_down)＞Thr，则判定为模型正向收敛，同时对损失函数模型的交叉熵权重w进行更新：

其中，Thr为(M_up-M_down)差值的均值；

当(M_up-M_down)＜Thr则判定为模型负向收敛，则

步骤(8):重复步骤(4)至步骤(7)，直到达到迭代次数n的最大迭代次数N_max。

一种用于裂缝图像的分割方法，其特征在于：所述分割方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构；该方法包括以下步骤：

步骤S1：输入原始图像进入编码器，通过编码器中的卷积块获取原始图像分辨率尺寸，通道数为64的第一特征图；

步骤S2：使用下采样模块对原始图像进行特征提取，对第一特征图进行特征提取，获得为原始图像分辨率1/2，通道数为128的第二特征图；

步骤S3：使用下采样模块对，第二特征图进行下采样，获得为原始图像分辨率1/4，通道数为256的第三特征图；

步骤S4：使用下采样模块，对第三特征图进行下采样，获得为原始图像分辨率1/8，通道数为512的第四特征图；

步骤S5：使用下采样模块，对第四特征图进行下采样，获得为原始图像分辨率1/16，通道数为1024的第五特征图；

步骤S6：对第五特征图进行卷积操作，得到为原始图像分辨率1/16通道数为768的特征图，对齐进行序列化获取特征序列，特征序列经过连续的自注意力模块，得到原始分辨率1/16，通道数为768的第六特征图；

步骤S7：将第六特征图卷积降维到512通道，使用条形池化模块进行竖直和水平两个并行池化支路，得到池化后的特征图，对特征图进行卷积，对池化后的特征图在水平和竖直方向扩展至原始分辨率1/16，将两个特征图进行逐点相加融合,最终获得原始分辨率1/16，通道为512的第七特征图；

步骤S8：第七特征图经过混合上采样，获得为原始图像分辨率1/8，通道数为512的第八特征图；

步骤S9：第四特征图经过跳跃连接与第八特征图一起经过注意力模块，生成原始图像分辨率1/8，通道数为512的第九特征图；

步骤S10：将第九特征图送入两个连续的3×3步长为1、填充为1的卷积，获得原始图像分辨率1/8，通道数为256的第十特征图；

步骤S11：第十特征图经过混合上采样，获得为原始图像分辨率1/4，通道数为256的第十一特征图；

步骤S12：第三特征图经过跳跃连接与第十一特征图一起经过注意力模块，生成原始图像分辨率1/4，通道数为256的第十二特征图；

步骤S13：将第十二特征图送入两个连续的3×3步长为1、填充为1的卷积，获原始图像分辨率1/4，通道数为128的第十三特征图；

步骤S14：第十三特征图经过混合上采样，获得为原始图像分辨率1/2，通道数为128的第十四特征图；

步骤S15：第二特征图经过跳跃连接与第十四特征图一起经过注意力模块，生成原始图像分辨率1/2，通道数为128的第十五特征图；

步骤S16：将第十五特征图送入两个连续的3×3步长为1、填充为1的卷积，获得为原始分辨率1/2，通道数为64第十六特征图；

步骤S17：第十六特征图经过混合上采样，获得为原始图像分辨率，通道数为64的第十七特征图；

步骤S18：第一特征图经过跳跃连接与第十七特征图一起经过注意力模块，得为原始分辨率，通道数为64第十八特征图；

步骤S19：将第十八特征图送入三个连续的3×3步长为1、填充为1的卷积，得到裂缝图像分割结果。

与现有技术相比，本发明具有如下改进及优点：1、通过设置transformer模块，进行自注意力的计算，获取全局语义信息，完成局部和全局特征的互补，并经过条形池化模块增强狭长裂缝表达能力，同时改善分割网络模型狭长特性的表征能力，处理类别不平衡问题。

2、通过设置动态权重来增强分割网络模型对裂缝区域像素点的敏感程度，当分割网络模型趋于饱和时，对权重进行自适应动态调整，以促进模型快速收敛，在保证鲁棒性的情况下提高模型分割精度。

附图说明

图1为本发明整体网络架构图。

图2为本发明分割网络模型架构图。

图3为本发明网络架构中transformer模块示意图。

图4为本发明网络架构中条形池化模块示意图。

图5为本发明网络架构中解码端混合上采样模块示意图。

图6为本发明网络架构中解码端注意力模块示意图。

图7为本发明中损失函数的计算流程图。

图8为本发明网络架构在公共数据集DeepCrack上的分割结果图。

具体实施方式

以下结合附图对本发明做进一步概述。

参阅图1-5，一种用于裂缝图像分割的网络架构，该网络架构包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型；

分割网络模型包括编码器、瓶颈层和解码器，编码器包括多个第一卷积块和下采样模块，下采样模块获取不同分辨率的局部细节特征图和低分辨率的局部高层语义特征图；

瓶颈层包括transformer模块、条形池化模块和第二卷积块，transformer模块进行自注意力的计算，获取全局语义信息，完成局部和全局特征的互补；

解码器包括上采样模块、注意力模块和第三卷积块，上采样模块对图像进行上采样，补足损失的细节特征，将图像逐步恢复到原始尺寸；

损失函数模型采用Dice和权重交叉熵混合损失函数，以增强对裂缝区域像素点的敏感程度。

进一步，transformer模块具体操作如下：

如图3所示，transformer模块接受一维的Token序列，为了能够处理2D特征，重塑输入特征图为一系列扁平化切片/>每个切片的尺寸为P×P，其中，N代表特征图的切片数，/> 为输入特征图；C代表特征图的通道数，H和W分别表示输入特征图的高和宽；/>为/>重塑之后的切片；

进一步，下采样模块包括一个最大池化和3×3步长为1、填充为1的第一卷积块，第一卷积块数量为两个。

进一步，上采样模块具体操作如下：

注意力模块具体操作如下：

如图7所示，一种分割网络模型的训练方法，该方法包括以下步骤：

L＝Dice+w·CE

其中，w表示交叉熵损失的权重；

步骤(2):计算权重，调整损失函数模型迭代间隔N_gap；

其中，n表示当前迭代次数；

其中，Thr为(M_up-M_down)差值的均值；

当(M_up-M_down)＜Thr则判定为模型负向收敛，则

本发明通过自适应的调整权重参数，让其尽可能的靠近最优值，且不断变化的权重值使得模型具有更强的泛化能力。

如图2所示，一种用于裂缝图像的分割方法，该方法包括以下步骤：

本发明的网络框架能够高效得提取图像的全局语义信息和局部细节信息，更有效得表征复杂背景下狭长裂缝的特征，并能够处理类别不平衡问题。与最近的主流网络相比，所设计的网络架构取得了较高的裂缝分割精度。

为了验证本发明设计网络的准确性和实施效率，在广泛使用的DeepCrack数据集上对模型进行了训练和验证。DeepCrack共有537张取自不同场景表面的裂缝图像以及对应的像素级标签,图像分辨率为544×384px，其中300张用作训练，剩余237张图像用作测试集，训练后选择了UNet和Swin-UNet、TransUNet以及DeepCrack网络作为对比模型。

表1为各个模型的对比表

模型	F1	IoU	Pr	Re	Acc
						DeepCrack	0.7473	0.6132	0.6342	0.9604	0.9737
U-Net	0.7887	0.6832	0.8852	0.7504	0.9837
						Swin-UNet	0.7789	0.6513	0.8691	0.7328	0.9819
TransUNet	0.8338	0.7243	0.9034	0.7902	0.9865
						CrackNet	0.8425	0.7406	0.8690	0.8424	0.9872

本发明设计的网络取得了84.25％的F1和84.24％的Re，均优于其他网络。从表1中可以看出，本分割网络模型和UNet相比较，在F1上有5.38％、Re上有9.2％的精度提升，并且与纯transformer的模型Swin-UNet相比，虽然处理速度与将计算复杂度由指数级降低到线性的Swin-UNet相比稍差一点，但在精度方面有不可忽视的提升。

从实验结果来看，无论是从哪个角度来看，都充分说明了本发明所提出的网络模型在裂缝图像分割任务中的优越性。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种用于裂缝图像分割的网络架构，其特征在于：该网络架构包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型；

2.根据权利要求1所述的一种用于裂缝图像分割的网络架构，其特征在于：所述transformer模块具体操作如下：

3.根据权利要求1所述的一种用于裂缝图像分割的网络架构，其特征在于：所述下采样模块包括一个最大池化和3×3步长为1、填充为1的第一卷积块，第一卷积块数量为两个。

4.根据权利要求1所述的一种用于裂缝图像分割的网络架构，其特征在于：所述上采样模块具体操作如下：

给定输入特征图经过并行的上采样，得到/>再将两个特征图进行融合，获得最终输出：

5.根据权利要求1所述的一种用于裂缝图像分割的网络架构，其特征在于：所述注意力模块具体操作如下：

给定两个输入特征图，一个来自编码器的跳跃连接一个来自解码器上采样模块/>两个特征图经过1×1卷积将通道下降为1/2，大小保持不变，分别为和/>再通过逐点相加操作得到/>在此之后，X_add依次经过ReLU激活函数、1×1卷积块和Sigmoid激活函数，生成空间注意力图/>

6.根据权利要求1所述的一种用于裂缝图像分割的网络架构，其特征在于：所述第二卷积块采用1×1步长为1、填充为1的卷积，第三卷积块采用3×3步长为1、填充为1的卷积。

7.一种分割网络模型的训练方法，其特征在于：所述训练方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构；该方法包括以下步骤：

L＝Dice+w·CE

其中，w表示交叉熵损失的权重；

步骤(2):计算权重，调整损失函数模型迭代间隔N_gap；

其中，n表示当前迭代次数；

步骤(6):判读当前损失函数值L_n与平均损失L_mean的大小，当L_n＞L_mea，则其中，M_down表示一个间隔期内L_n＜L_mean的次数；

其中，Thr为(M_up-M_down)差值的均值；

当(M_up-M_down)＜Thr则判定为模型负向收敛，则

8.一种用于裂缝图像的分割方法，其特征在于：所述分割方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构；该方法包括以下步骤：