CN116542991A - 一种用于裂缝图像分割的网络架构及其训练方法和分割方法 - Google Patents
一种用于裂缝图像分割的网络架构及其训练方法和分割方法 Download PDFInfo
- Publication number
- CN116542991A CN116542991A CN202310485486.1A CN202310485486A CN116542991A CN 116542991 A CN116542991 A CN 116542991A CN 202310485486 A CN202310485486 A CN 202310485486A CN 116542991 A CN116542991 A CN 116542991A
- Authority
- CN
- China
- Prior art keywords
- feature map
- segmentation
- module
- channel number
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 title claims abstract description 28
- 238000003709 image segmentation Methods 0.000 title claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 5
- 229920006395 saturated elastomer Polymers 0.000 claims abstract description 5
- 230000035945 sensitivity Effects 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 44
- 230000004913 activation Effects 0.000 claims description 7
- 239000004973 liquid crystal related substance Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000012633 leachable Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000007634 remodeling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 29
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于裂缝图像分割的网络架构及其训练方法和分割方法,属于图像分割技术领域;包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型;分割网络模型包括编码器、瓶颈层和解码器,编码器包括多个第一卷积块和下采样模块;瓶颈层包括transformer模块、条形池化模块和第二卷积块;解码器包括上采样模块、注意力模块和第三卷积块,上采样模块对图像进行上采样,将图像逐步恢复到原始尺寸;损失函数模型采用Dice和权重交叉熵混合损失函数。本发明通过设置动态权重来增强分割网络模型对裂缝区域像素点的敏感程度,分割网络模型趋于饱和时,对权重进行自适应动态调整,促进模型快速收敛,保证鲁棒性的情况下提高模型分割精度。
Description
技术领域
本发明属于图像分割技术领域,具体涉及一种用于裂缝图像分割的网络架构及其训练方法和分割方法。
背景技术
图像分割是计算机视觉领域的三大基本任务之一,它在医学、生物识别等领域有着广泛应用。图像分割旨在检测感兴趣的物体,并对每一个像素点分配相应的语义标签。近年来,随着卷积神经网络的不断发展,其性能不断提高,但是网络模型的架构也越来越庞大,层次不断加深,对算力、训练用的数据集要求也在不断拔高,在实际应用场景中,这显然是不可接受的,效率、成本永远是第一要素。
近年来,卷积神经网络架构已经成为了裂缝图像分割的主流架构,得益于卷积神经网络强大的特征提取能力和高维数据的表征能力,基于深度学习的方法可以学习到人工难以获取的特征,不仅节省了手工提取特征所需的成本,还大幅度的提升了检测精度。在深度学习发展之初,使用简单的卷积提取特征,如DeepCrack网络使用多个卷积块对待测样本进行特征提取,并将不同的尺度的特征图融合实现分割。但由于裂缝的无规则性,其形状和尺寸变化较大,简单的卷积已经无法满足需求,如FCN全卷积网络首先使用了端到端的分割方法,UNet则构建了完整的编码器-解码器的U形结构,并采用跳跃连接来补足细节特征,在本领域中,研究者往往基于这些基础的网络结构进行改良,如SegNet也基于编码器-解码器架构,在其编码器内进行池化时,会记录下最大池化的索引,在上采样时,调用相应编码器的最大池化索引来完成上采样,还有EffificientNet提出了一个缩放因子来控制网络深度、宽度和分辨率之间的平衡等。
尽管上述方法取得了显著进步,但仍受限于以下的缺点:(1)裂缝广泛存在各种生活场景中,这也导致了裂缝图像的复杂背景,在复杂背景中难以精准的定位裂缝;(2)受限于传统标准卷积,其局部特征往往局限在方形区域之中,然后裂缝通常展现出狭长的特性,故此标准卷积提取到的特征必然会夹杂其他干扰信息;(3)在现有的公共数据集中,存在严重的类别不均衡状态,导致了分类结果偏向大类,而在裂缝这种二分类问题中,直接造成了模型的学习能力大打折扣。故此,如何解决类别不均衡仍是亟待解决的难题。
发明内容
本发明的目的在于提供一种用于裂缝图像分割的网络架构及其训练方法和分割方法,以解决上述背景技术中提出的问题和达到的效果。
本发明目的是这样实现的:一种用于裂缝图像分割的网络架构,其特征在于:该网络架构包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型;
所述分割网络模型包括编码器、瓶颈层和解码器,编码器包括多个第一卷积块和下采样模块,下采样模块获取不同分辨率的局部细节特征图和低分辨率的局部高层语义特征图;
所述瓶颈层包括transformer模块、条形池化模块和第二卷积块,transformer模块进行自注意力的计算,获取全局语义信息,完成局部和全局特征的互补;
所述解码器包括上采样模块、注意力模块和第三卷积块,上采样模块对图像进行上采样,补足损失的细节特征,将图像逐步恢复到原始尺寸;
所述损失函数模型采用Dice和权重交叉熵混合损失函数,以增强对裂缝区域像素点的敏感程度。
优选的,所述transformer模块具体操作如下:
transformer模块接受一维的Token序列,为了能够处理2D特征,重塑输入特征图为一系列扁平化切片/>每个切片的尺寸为P×P,其中,N代表特征图的切片数,/> 为输入特征图;C代表特征图的通道数,H和W分别表示输入特征图的高和宽;/>为/>重塑之后的切片;
为了保留切片的空间信息,选定可学习的位置编码Epos嵌入到线性化映射到D维的切片中,如下所示:
其中,表示可训练的线性映射部分,/>表示可学习的位置编码。
优选的,所述下采样模块包括一个最大池化和3×3步长为1、填充为1的第一卷积块,第一卷积块数量为两个。
优选的,所述上采样模块具体操作如下:
给定输入特征图经过并行的上采样,得到/> 再将两个特征图进行融合,获得最终输出:
其中,C代表特征图的通道数,H和W分别表示输入特征图的高和宽;表示逐点相加操作。
优选的,所述注意力模块具体操作如下:
给定两个输入特征图,一个来自编码器的跳跃连接一个来自解码器上采样模块/>两个特征图经过1×1卷积将通道下降为1/2,大小保持不变,分别为/>和/>再通过逐点相加操作得到/>在此之后,Xadd依次经过ReLU激活函数、1×1卷积块和Sigmoid激活函数,生成空间注意力图
其中,σr表示ReLU激活函数,注意力值在0-1之间,用Wsp来对编码器跳跃连接特征图进行加权,得到/>
优选的,所述第二卷积块采用1×1步长为1、填充为1的卷积,第三卷积块采用3×3步长为1、填充为1的卷积。
优选的,一种分割网络模型的训练方法,其特征在于:所述训练方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构;该方法包括以下步骤:
步骤(1):建立损失函数模型,损失函数模型采用Dice损失和交叉熵损失CE混合形式,设定损失函数模型必备参数和分割模型的必备参数;损失函数模型表示为:
L=Dice+w·CE
其中,w表示交叉熵损失的权重;
步骤(2):计算权重,调整损失函数模型迭代间隔Ngap;
其中,Nepoch表示训练中Epoch总数,Nmax表示训练中最大迭代次数;
步骤(3):训练开始迭代,按照输入的特征图计算当前迭代周期的损失函数值Ln;
步骤(4):设定迭代次数为n,计算迭代次数中迭代的平均损失Lmean:
其中,n表示当前迭代次数;
步骤(5):判断饱和期迭代,并对获得分割结果的分割模型进行反向传播,调整分割模型中各个模块的参数值;当迭代次数大于迭代轮次,表示分割网络模型训练趋于饱和状态,则进行步骤(6);当迭代次数小于迭代轮次,则重复步骤(3);
步骤(6):判读当前损失函数值Ln与平均损失Lmean的大小,当Ln>Lmean,则Mdown=Mdown+1;其中,Mdown表示一个间隔期内Ln<Lmean的次数;
当Ln<Lmean,则Mup=Mup+1,Mup表示一个间隔期内Ln>Lmean的次数;
步骤(7):判断Mup-Mdown的大小,当Mup-Mdown<0,则将Mup和Mdown归零,w初始值按经验取;
当Mup-Mdown>0,判断(Mup-Mdown)与Thr的大小;当(Mup-Mdown)>Thr,则判定为模型正向收敛,同时对损失函数模型的交叉熵权重w进行更新:
其中,Thr为(Mup-Mdown)差值的均值;
当(Mup-Mdown)<Thr则判定为模型负向收敛,则
步骤(8):重复步骤(4)至步骤(7),直到达到迭代次数n的最大迭代次数Nmax。
一种用于裂缝图像的分割方法,其特征在于:所述分割方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构;该方法包括以下步骤:
步骤S1:输入原始图像进入编码器,通过编码器中的卷积块获取原始图像分辨率尺寸,通道数为64的第一特征图;
步骤S2:使用下采样模块对原始图像进行特征提取,对第一特征图进行特征提取,获得为原始图像分辨率1/2,通道数为128的第二特征图;
步骤S3:使用下采样模块对,第二特征图进行下采样,获得为原始图像分辨率1/4,通道数为256的第三特征图;
步骤S4:使用下采样模块,对第三特征图进行下采样,获得为原始图像分辨率1/8,通道数为512的第四特征图;
步骤S5:使用下采样模块,对第四特征图进行下采样,获得为原始图像分辨率1/16,通道数为1024的第五特征图;
步骤S6:对第五特征图进行卷积操作,得到为原始图像分辨率1/16通道数为768的特征图,对齐进行序列化获取特征序列,特征序列经过连续的自注意力模块,得到原始分辨率1/16,通道数为768的第六特征图;
步骤S7:将第六特征图卷积降维到512通道,使用条形池化模块进行竖直和水平两个并行池化支路,得到池化后的特征图,对特征图进行卷积,对池化后的特征图在水平和竖直方向扩展至原始分辨率1/16,将两个特征图进行逐点相加融合,最终获得原始分辨率1/16,通道为512的第七特征图;
步骤S8:第七特征图经过混合上采样,获得为原始图像分辨率1/8,通道数为512的第八特征图;
步骤S9:第四特征图经过跳跃连接与第八特征图一起经过注意力模块,生成原始图像分辨率1/8,通道数为512的第九特征图;
步骤S10:将第九特征图送入两个连续的3×3步长为1、填充为1的卷积,获得原始图像分辨率1/8,通道数为256的第十特征图;
步骤S11:第十特征图经过混合上采样,获得为原始图像分辨率1/4,通道数为256的第十一特征图;
步骤S12:第三特征图经过跳跃连接与第十一特征图一起经过注意力模块,生成原始图像分辨率1/4,通道数为256的第十二特征图;
步骤S13:将第十二特征图送入两个连续的3×3步长为1、填充为1的卷积,获原始图像分辨率1/4,通道数为128的第十三特征图;
步骤S14:第十三特征图经过混合上采样,获得为原始图像分辨率1/2,通道数为128的第十四特征图;
步骤S15:第二特征图经过跳跃连接与第十四特征图一起经过注意力模块,生成原始图像分辨率1/2,通道数为128的第十五特征图;
步骤S16:将第十五特征图送入两个连续的3×3步长为1、填充为1的卷积,获得为原始分辨率1/2,通道数为64第十六特征图;
步骤S17:第十六特征图经过混合上采样,获得为原始图像分辨率,通道数为64的第十七特征图;
步骤S18:第一特征图经过跳跃连接与第十七特征图一起经过注意力模块,得为原始分辨率,通道数为64第十八特征图;
步骤S19:将第十八特征图送入三个连续的3×3步长为1、填充为1的卷积,得到裂缝图像分割结果。
与现有技术相比,本发明具有如下改进及优点:1、通过设置transformer模块,进行自注意力的计算,获取全局语义信息,完成局部和全局特征的互补,并经过条形池化模块增强狭长裂缝表达能力,同时改善分割网络模型狭长特性的表征能力,处理类别不平衡问题。
2、通过设置动态权重来增强分割网络模型对裂缝区域像素点的敏感程度,当分割网络模型趋于饱和时,对权重进行自适应动态调整,以促进模型快速收敛,在保证鲁棒性的情况下提高模型分割精度。
附图说明
图1为本发明整体网络架构图。
图2为本发明分割网络模型架构图。
图3为本发明网络架构中transformer模块示意图。
图4为本发明网络架构中条形池化模块示意图。
图5为本发明网络架构中解码端混合上采样模块示意图。
图6为本发明网络架构中解码端注意力模块示意图。
图7为本发明中损失函数的计算流程图。
图8为本发明网络架构在公共数据集DeepCrack上的分割结果图。
具体实施方式
以下结合附图对本发明做进一步概述。
参阅图1-5,一种用于裂缝图像分割的网络架构,该网络架构包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型;
分割网络模型包括编码器、瓶颈层和解码器,编码器包括多个第一卷积块和下采样模块,下采样模块获取不同分辨率的局部细节特征图和低分辨率的局部高层语义特征图;
瓶颈层包括transformer模块、条形池化模块和第二卷积块,transformer模块进行自注意力的计算,获取全局语义信息,完成局部和全局特征的互补;
解码器包括上采样模块、注意力模块和第三卷积块,上采样模块对图像进行上采样,补足损失的细节特征,将图像逐步恢复到原始尺寸;
损失函数模型采用Dice和权重交叉熵混合损失函数,以增强对裂缝区域像素点的敏感程度。
进一步,transformer模块具体操作如下:
如图3所示,transformer模块接受一维的Token序列,为了能够处理2D特征,重塑输入特征图为一系列扁平化切片/>每个切片的尺寸为P×P,其中,N代表特征图的切片数,/> 为输入特征图;C代表特征图的通道数,H和W分别表示输入特征图的高和宽;/>为/>重塑之后的切片;
为了保留切片的空间信息,选定可学习的位置编码Epos嵌入到线性化映射到D维的切片中,如下所示:
其中,表示可训练的线性映射部分,/>表示可学习的位置编码。
进一步,下采样模块包括一个最大池化和3×3步长为1、填充为1的第一卷积块,第一卷积块数量为两个。
进一步,上采样模块具体操作如下:
给定输入特征图经过并行的上采样,得到/> 再将两个特征图进行融合,获得最终输出:
其中,C代表特征图的通道数,H和W分别表示输入特征图的高和宽;表示逐点相加操作。
注意力模块具体操作如下:
给定两个输入特征图,一个来自编码器的跳跃连接一个来自解码器上采样模块/>两个特征图经过1×1卷积将通道下降为1/2,大小保持不变,分别为/>和/>再通过逐点相加操作得到/>在此之后,Xadd依次经过ReLU激活函数、1×1卷积块和Sigmoid激活函数,生成空间注意力图
其中,σr表示ReLU激活函数,注意力值在0-1之间,用Wsp来对编码器跳跃连接特征图进行加权,得到/>
如图7所示,一种分割网络模型的训练方法,该方法包括以下步骤:
步骤(1):建立损失函数模型,损失函数模型采用Dice损失和交叉熵损失CE混合形式,设定损失函数模型必备参数和分割模型的必备参数;损失函数模型表示为:
L=Dice+w·CE
其中,w表示交叉熵损失的权重;
步骤(2):计算权重,调整损失函数模型迭代间隔Ngap;
其中,Nepoch表示训练中Epoch总数,Nmax表示训练中最大迭代次数;
步骤(3):训练开始迭代,按照输入的特征图计算当前迭代周期的损失函数值Ln;
步骤(4):设定迭代次数为n,计算迭代次数中迭代的平均损失Lmean:
其中,n表示当前迭代次数;
步骤(5):判断饱和期迭代,并对获得分割结果的分割模型进行反向传播,调整分割模型中各个模块的参数值;当迭代次数大于迭代轮次,表示分割网络模型训练趋于饱和状态,则进行步骤(6);当迭代次数小于迭代轮次,则重复步骤(3);
步骤(6):判读当前损失函数值Ln与平均损失Lmean的大小,当Ln>Lmean,则Mdown=Mdown+1;其中,Mdown表示一个间隔期内Ln<Lmean的次数;
当Ln<Lmean,则Mup=Mup+1,Mup表示一个间隔期内Ln>Lmean的次数;
步骤(7):判断Mup-Mdown的大小,当Mup-Mdown<0,则将Mup和Mdown归零,w初始值按经验取;
当Mup-Mdown>0,判断(Mup-Mdown)与Thr的大小;当(Mup-Mdown)>Thr,则判定为模型正向收敛,同时对损失函数模型的交叉熵权重w进行更新:
其中,Thr为(Mup-Mdown)差值的均值;
当(Mup-Mdown)<Thr则判定为模型负向收敛,则
步骤(8):重复步骤(4)至步骤(7),直到达到迭代次数n的最大迭代次数Nmax。
本发明通过自适应的调整权重参数,让其尽可能的靠近最优值,且不断变化的权重值使得模型具有更强的泛化能力。
如图2所示,一种用于裂缝图像的分割方法,该方法包括以下步骤:
步骤S1:输入原始图像进入编码器,通过编码器中的卷积块获取原始图像分辨率尺寸,通道数为64的第一特征图;
步骤S2:使用下采样模块对原始图像进行特征提取,对第一特征图进行特征提取,获得为原始图像分辨率1/2,通道数为128的第二特征图;
步骤S3:使用下采样模块对,第二特征图进行下采样,获得为原始图像分辨率1/4,通道数为256的第三特征图;
步骤S4:使用下采样模块,对第三特征图进行下采样,获得为原始图像分辨率1/8,通道数为512的第四特征图;
步骤S5:使用下采样模块,对第四特征图进行下采样,获得为原始图像分辨率1/16,通道数为1024的第五特征图;
步骤S6:对第五特征图进行卷积操作,得到为原始图像分辨率1/16通道数为768的特征图,对齐进行序列化获取特征序列,特征序列经过连续的自注意力模块,得到原始分辨率1/16,通道数为768的第六特征图;
步骤S7:将第六特征图卷积降维到512通道,使用条形池化模块进行竖直和水平两个并行池化支路,得到池化后的特征图,对特征图进行卷积,对池化后的特征图在水平和竖直方向扩展至原始分辨率1/16,将两个特征图进行逐点相加融合,最终获得原始分辨率1/16,通道为512的第七特征图;
步骤S8:第七特征图经过混合上采样,获得为原始图像分辨率1/8,通道数为512的第八特征图;
步骤S9:第四特征图经过跳跃连接与第八特征图一起经过注意力模块,生成原始图像分辨率1/8,通道数为512的第九特征图;
步骤S10:将第九特征图送入两个连续的3×3步长为1、填充为1的卷积,获得原始图像分辨率1/8,通道数为256的第十特征图;
步骤S11:第十特征图经过混合上采样,获得为原始图像分辨率1/4,通道数为256的第十一特征图;
步骤S12:第三特征图经过跳跃连接与第十一特征图一起经过注意力模块,生成原始图像分辨率1/4,通道数为256的第十二特征图;
步骤S13:将第十二特征图送入两个连续的3×3步长为1、填充为1的卷积,获原始图像分辨率1/4,通道数为128的第十三特征图;
步骤S14:第十三特征图经过混合上采样,获得为原始图像分辨率1/2,通道数为128的第十四特征图;
步骤S15:第二特征图经过跳跃连接与第十四特征图一起经过注意力模块,生成原始图像分辨率1/2,通道数为128的第十五特征图;
步骤S16:将第十五特征图送入两个连续的3×3步长为1、填充为1的卷积,获得为原始分辨率1/2,通道数为64第十六特征图;
步骤S17:第十六特征图经过混合上采样,获得为原始图像分辨率,通道数为64的第十七特征图;
步骤S18:第一特征图经过跳跃连接与第十七特征图一起经过注意力模块,得为原始分辨率,通道数为64第十八特征图;
步骤S19:将第十八特征图送入三个连续的3×3步长为1、填充为1的卷积,得到裂缝图像分割结果。
本发明的网络框架能够高效得提取图像的全局语义信息和局部细节信息,更有效得表征复杂背景下狭长裂缝的特征,并能够处理类别不平衡问题。与最近的主流网络相比,所设计的网络架构取得了较高的裂缝分割精度。
为了验证本发明设计网络的准确性和实施效率,在广泛使用的DeepCrack数据集上对模型进行了训练和验证。DeepCrack共有537张取自不同场景表面的裂缝图像以及对应的像素级标签,图像分辨率为544×384px,其中300张用作训练,剩余237张图像用作测试集,训练后选择了UNet和Swin-UNet、TransUNet以及DeepCrack网络作为对比模型。
表1为各个模型的对比表
模型 | F1 | IoU | Pr | Re | Acc |
DeepCrack | 0.7473 | 0.6132 | 0.6342 | 0.9604 | 0.9737 |
U-Net | 0.7887 | 0.6832 | 0.8852 | 0.7504 | 0.9837 |
Swin-UNet | 0.7789 | 0.6513 | 0.8691 | 0.7328 | 0.9819 |
TransUNet | 0.8338 | 0.7243 | 0.9034 | 0.7902 | 0.9865 |
CrackNet | 0.8425 | 0.7406 | 0.8690 | 0.8424 | 0.9872 |
本发明设计的网络取得了84.25%的F1和84.24%的Re,均优于其他网络。从表1中可以看出,本分割网络模型和UNet相比较,在F1上有5.38%、Re上有9.2%的精度提升,并且与纯transformer的模型Swin-UNet相比,虽然处理速度与将计算复杂度由指数级降低到线性的Swin-UNet相比稍差一点,但在精度方面有不可忽视的提升。
从实验结果来看,无论是从哪个角度来看,都充分说明了本发明所提出的网络模型在裂缝图像分割任务中的优越性。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (8)
1.一种用于裂缝图像分割的网络架构,其特征在于:该网络架构包括用于处理图像的分割网络模型以及对分割网络模型进行训练的损失函数模型;
所述分割网络模型包括编码器、瓶颈层和解码器,编码器包括多个第一卷积块和下采样模块,下采样模块获取不同分辨率的局部细节特征图和低分辨率的局部高层语义特征图;
所述瓶颈层包括transformer模块、条形池化模块和第二卷积块,transformer模块进行自注意力的计算,获取全局语义信息,完成局部和全局特征的互补;
所述解码器包括上采样模块、注意力模块和第三卷积块,上采样模块对图像进行上采样,补足损失的细节特征,将图像逐步恢复到原始尺寸;
所述损失函数模型采用Dice和权重交叉熵混合损失函数,以增强对裂缝区域像素点的敏感程度。
2.根据权利要求1所述的一种用于裂缝图像分割的网络架构,其特征在于:所述transformer模块具体操作如下:
transformer模块接受一维的Token序列,为了能够处理2D特征,重塑输入特征图为一系列扁平化切片/>每个切片的尺寸为P×P,其中,N代表特征图的切片数,/> 为输入特征图;C代表特征图的通道数,H和W分别表示输入特征图的高和宽;/>为/>重塑之后的切片;
为了保留切片的空间信息,选定可学习的位置编码Epos嵌入到线性化映射到D维的切片中,如下所示:
其中,表示可训练的线性映射部分,/>表示可学习的位置编码。
3.根据权利要求1所述的一种用于裂缝图像分割的网络架构,其特征在于:所述下采样模块包括一个最大池化和3×3步长为1、填充为1的第一卷积块,第一卷积块数量为两个。
4.根据权利要求1所述的一种用于裂缝图像分割的网络架构,其特征在于:所述上采样模块具体操作如下:
给定输入特征图经过并行的上采样,得到/>再将两个特征图进行融合,获得最终输出:
其中,C代表特征图的通道数,H和W分别表示输入特征图的高和宽;表示逐点相加操作。
5.根据权利要求1所述的一种用于裂缝图像分割的网络架构,其特征在于:所述注意力模块具体操作如下:
给定两个输入特征图,一个来自编码器的跳跃连接一个来自解码器上采样模块/>两个特征图经过1×1卷积将通道下降为1/2,大小保持不变,分别为和/>再通过逐点相加操作得到/>在此之后,Xadd依次经过ReLU激活函数、1×1卷积块和Sigmoid激活函数,生成空间注意力图/>
其中,σr表示ReLU激活函数,注意力值在0-1之间,用Wsp来对编码器跳跃连接特征图进行加权,得到/>
6.根据权利要求1所述的一种用于裂缝图像分割的网络架构,其特征在于:所述第二卷积块采用1×1步长为1、填充为1的卷积,第三卷积块采用3×3步长为1、填充为1的卷积。
7.一种分割网络模型的训练方法,其特征在于:所述训练方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构;该方法包括以下步骤:
步骤(1):建立损失函数模型,损失函数模型采用Dice损失和交叉熵损失CE混合形式,设定损失函数模型必备参数和分割模型的必备参数;损失函数模型表示为:
L=Dice+w·CE
其中,w表示交叉熵损失的权重;
步骤(2):计算权重,调整损失函数模型迭代间隔Ngap;
其中,Nepoch表示训练中Epoch总数,Nmax表示训练中最大迭代次数;
步骤(3):训练开始迭代,按照输入的特征图计算当前迭代周期的损失函数值Ln;
步骤(4):设定迭代次数为n,计算迭代次数中迭代的平均损失Lmean:
其中,n表示当前迭代次数;
步骤(5):判断饱和期迭代,并对获得分割结果的分割模型进行反向传播,调整分割模型中各个模块的参数值;当迭代次数大于迭代轮次,表示分割网络模型训练趋于饱和状态,则进行步骤(6);当迭代次数小于迭代轮次,则重复步骤(3);
步骤(6):判读当前损失函数值Ln与平均损失Lmean的大小,当Ln>Lmea,则其中,Mdown表示一个间隔期内Ln<Lmean的次数;
当Ln<Lmean,则Mup=Mup+1,Mup表示一个间隔期内Ln>Lmean的次数;
步骤(7):判断Mup-Mdown的大小,当Mup-Mdown<0,则将Mup和Mdown归零,w初始值按经验取;
当Mup-Mdown>0,判断(Mup-Mdown)与Thr的大小;当(Mup-Mdown)>Thr,则判定为模型正向收敛,同时对损失函数模型的交叉熵权重w进行更新:
其中,Thr为(Mup-Mdown)差值的均值;
当(Mup-Mdown)<Thr则判定为模型负向收敛,则
步骤(8):重复步骤(4)至步骤(7),直到达到迭代次数n的最大迭代次数Nmax。
8.一种用于裂缝图像的分割方法,其特征在于:所述分割方法包括权利要求1-6任意一项一种用于裂缝图像分割的网络架构;该方法包括以下步骤:
步骤S1:输入原始图像进入编码器,通过编码器中的卷积块获取原始图像分辨率尺寸,通道数为64的第一特征图;
步骤S2:使用下采样模块对原始图像进行特征提取,对第一特征图进行特征提取,获得为原始图像分辨率1/2,通道数为128的第二特征图;
步骤S3:使用下采样模块对,第二特征图进行下采样,获得为原始图像分辨率1/4,通道数为256的第三特征图;
步骤S4:使用下采样模块,对第三特征图进行下采样,获得为原始图像分辨率1/8,通道数为512的第四特征图;
步骤S5:使用下采样模块,对第四特征图进行下采样,获得为原始图像分辨率1/16,通道数为1024的第五特征图;
步骤S6:对第五特征图进行卷积操作,得到为原始图像分辨率1/16通道数为768的特征图,对齐进行序列化获取特征序列,特征序列经过连续的自注意力模块,得到原始分辨率1/16,通道数为768的第六特征图;
步骤S7:将第六特征图卷积降维到512通道,使用条形池化模块进行竖直和水平两个并行池化支路,得到池化后的特征图,对特征图进行卷积,对池化后的特征图在水平和竖直方向扩展至原始分辨率1/16,将两个特征图进行逐点相加融合,最终获得原始分辨率1/16,通道为512的第七特征图;
步骤S8:第七特征图经过混合上采样,获得为原始图像分辨率1/8,通道数为512的第八特征图;
步骤S9:第四特征图经过跳跃连接与第八特征图一起经过注意力模块,生成原始图像分辨率1/8,通道数为512的第九特征图;
步骤S10:将第九特征图送入两个连续的3×3步长为1、填充为1的卷积,获得原始图像分辨率1/8,通道数为256的第十特征图;
步骤S11:第十特征图经过混合上采样,获得为原始图像分辨率1/4,通道数为256的第十一特征图;
步骤S12:第三特征图经过跳跃连接与第十一特征图一起经过注意力模块,生成原始图像分辨率1/4,通道数为256的第十二特征图;
步骤S13:将第十二特征图送入两个连续的3×3步长为1、填充为1的卷积,获原始图像分辨率1/4,通道数为128的第十三特征图;
步骤S14:第十三特征图经过混合上采样,获得为原始图像分辨率1/2,通道数为128的第十四特征图;
步骤S15:第二特征图经过跳跃连接与第十四特征图一起经过注意力模块,生成原始图像分辨率1/2,通道数为128的第十五特征图;
步骤S16:将第十五特征图送入两个连续的3×3步长为1、填充为1的卷积,获得为原始分辨率1/2,通道数为64第十六特征图;
步骤S17:第十六特征图经过混合上采样,获得为原始图像分辨率,通道数为64的第十七特征图;
步骤S18:第一特征图经过跳跃连接与第十七特征图一起经过注意力模块,得为原始分辨率,通道数为64第十八特征图;
步骤S19:将第十八特征图送入三个连续的3×3步长为1、填充为1的卷积,得到裂缝图像分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485486.1A CN116542991A (zh) | 2023-04-28 | 2023-04-28 | 一种用于裂缝图像分割的网络架构及其训练方法和分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310485486.1A CN116542991A (zh) | 2023-04-28 | 2023-04-28 | 一种用于裂缝图像分割的网络架构及其训练方法和分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116542991A true CN116542991A (zh) | 2023-08-04 |
Family
ID=87449937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310485486.1A Pending CN116542991A (zh) | 2023-04-28 | 2023-04-28 | 一种用于裂缝图像分割的网络架构及其训练方法和分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542991A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116934780A (zh) * | 2023-09-13 | 2023-10-24 | 西南石油大学 | 一种基于深度学习的电成像测井图像裂缝分割方法及系统 |
CN117809016A (zh) * | 2024-03-01 | 2024-04-02 | 中北大学 | 一种基于深度学习的云层去除偏振定向方法 |
CN117975004A (zh) * | 2024-01-25 | 2024-05-03 | 扬州大学 | 一种基于编码器-解码器架构结合带状池化和aspp的田埂分割方法 |
-
2023
- 2023-04-28 CN CN202310485486.1A patent/CN116542991A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116934780A (zh) * | 2023-09-13 | 2023-10-24 | 西南石油大学 | 一种基于深度学习的电成像测井图像裂缝分割方法及系统 |
CN116934780B (zh) * | 2023-09-13 | 2023-11-24 | 西南石油大学 | 一种基于深度学习的电成像测井图像裂缝分割方法及系统 |
CN117975004A (zh) * | 2024-01-25 | 2024-05-03 | 扬州大学 | 一种基于编码器-解码器架构结合带状池化和aspp的田埂分割方法 |
CN117809016A (zh) * | 2024-03-01 | 2024-04-02 | 中北大学 | 一种基于深度学习的云层去除偏振定向方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN116542991A (zh) | 一种用于裂缝图像分割的网络架构及其训练方法和分割方法 | |
CN113240691B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN113780296A (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111597920B (zh) | 一种自然场景下的全卷积单阶段的人体实例分割方法 | |
CN113139543A (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN111062432B (zh) | 一种语义上多模态图像生成的方法 | |
CN110991444A (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN112733693B (zh) | 一种全局感知高分辨率遥感影像多尺度残差道路提取方法 | |
CN114332133A (zh) | 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN113160265A (zh) | 一种用于胼胝体状态评估的脑部胼胝体分割预测图像的构建方法 | |
CN111815526B (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
CN114998756A (zh) | 一种基于yolov5的遥感图像检测方法、装置及存储介质 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN113313162A (zh) | 一种多尺度特征融合目标检测的方法及系统 | |
CN113971732A (zh) | 小目标检测方法、装置、可读存储介质及电子设备 | |
CN117830835A (zh) | 一种基于深度学习的卫星遥感图像分割方法 | |
CN110472732B (zh) | 基于优化特征提取装置的图像特征提取系统 | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN111626298A (zh) | 一种实时图像语义分割装置及分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |