CN115601542A

CN115601542A - 基于全尺度密集连接的图像语义分割方法、系统及设备

Info

Publication number: CN115601542A
Application number: CN202211229781.2A
Authority: CN
Inventors: 熊炜; 田紫欣; 陈奕博; 强观臣; 郑大定; 汪锋; 邹勤; 王松; 李利荣; 宋海娜; 李婕; 涂静敏
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-13
Anticipated expiration: 2042-10-08
Also published as: CN115601542B

Abstract

本发明公开了一种基于全尺度密集连接的图像语义分割方法、系统及设备，首先对待分割图像进行预处理，将其切割或填充为预设大小；然后使用图像语义分割网络实现对待分割图像的语义分割；本发明的图像语义分割网络(UNet4+)通过全尺度和密集的跳跃连接，编码器中的每个节点从不同尺度的编码器接收中间聚合特征图，而解码器中的每个节点不仅从不同尺度的编码器和解码器接收中间聚合特征图，而且还从相同尺度的编码器接收中间聚合特征图。因此，解码器中的聚合层可以学习使用节点上的所有收集的特征图。本发明的UNet4+缓解了梯度消失的问题，这也使得网络中的信息流最大化；同时加强了网络中的特征传播；具备更紧凑的模型和极端的特征重用性。

Description

基于全尺度密集连接的图像语义分割方法、系统及设备

技术领域

本发明属于人工智能、深度学习及图像处理技术领域，涉及一种图像语义分割方法、系统及设备，特别是涉及一种基于全尺度密集连接语义分割网络的图像语义分割方法、系统及设备。

背景技术

图像语义分割(Semantic Segmentation)是图像处理和机器视觉技术中关于图像理解的重要一环，也是AI领域中一个重要的分支。语义分割是对图像中每一个像素点进行分类，确定每个点的类别(如属于背景、人或车等)，从而进行区域划分。目前，语义分割已经被广泛应用于自动驾驶、无人机落点判定等场景中。

目前解决图像语义分割问题，采用较多的是UNet架构、UNet^e、UNet+、UNet++、UNet3+等网络。

UNet架构(O.Ronneberger,P.Fischer,and T.Brox,“U-net:Convolutionalnetworks for biomedical image segmentation,”in 18th International Conferenceon Medical Image Computing and Computer-Assisted Intervention(MICCAI 2015),Munich,GERMANY,2015,Conference Proceedings,pp.234–241.)已经成为各种图像分割任务的事实上的标准，并取得了巨大的成功。它是一个典型的编码器-解码器级联架构，其中编码器(收缩路径)执行特征提取，而解码器(扩展路径)执行分辨率恢复。UNet架构最引人注目的地方是它的长跳跃连接，这使得相同尺度的信息可以直接从编码器流向解码器，从而使模型能够做出更好的预测。

然而，这样一个相对固定的结构使得模型很难在感受野大小和边界分割准确性之间取得平衡。现在人们普遍认为，更深的网络具有更好的非线性表征，它可以学习更复杂的变换，适应更复杂的特征。但更深的网络引入了所谓的梯度消失问题，并降低了浅层的学习能力。当网络深度达到一定程度时，分割性能不会提高，反而可能下降。

为了确定UNet架构的最佳深度，Zhou等人(Z.Zhou,M.M.R.Siddiquee,N.Tajbakhsh,and J.Liang,“Unet++:Redesigning skip connections to exploitmultiscale features in image segmentation,”IEEE Transactions onMedicalImaging,vol.39,no.6,pp.1856–1867,2020.)提出了一个集成架构UNet^e，它将不同深度的UNet组合成一个统一的架构。集成架构得益于知识共享，UNet^e架构内的所有UNet部分共享编码器，但有各自的解码器。由于该架构中的解码器是断开的，较深的UNet不能向较浅的对应方提供监督信号。因此，在组合中需要明确的深度监督。

另一个克服上述限制的方案是将UNet^e结构中的所有跳跃连接去掉，用一个短的跳跃连接来连接集合中的每个相邻节点，从而形成一个被称为UNet+的嵌套结构，这样梯度反传播将从较深的解码器传递到较浅的对应节点。这个想法几乎同时被Yu等人(F.Yu,D.Wang,E.Shelhamer,and T.Darrell,“Deep layer aggregation,”in 31st Meeting ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR2018),Salt Lake City,UT,USA,2018,Conference Proceedings,pp.2403–2412.)和Zhou等人(Z.Zhou,M.M.R.Siddiquee,N.Tajbakhsh,and J.Liang,“Unet++:A nested u-netarchitecture for medical image segmentation,”in 4th International Workshop onDeep Learning in Medical Image Analysis(DLMIA 2018)Held in Conjunction withMICCAI 2018,Granada,SPAIN,2018,Conference Proceedings,pp.3–11.)分别提出。

值得注意的是，UNet+架构中的每个节点从水平角度结合其相邻的前辈在同一尺度上的特征图，从垂直角度整合其相邻的前辈在不同尺度上的特征图。为了确保UNet+架构内所有不同深度的UNet之间的最大信息流，Zhou等人还提出了一个具有密集跳跃连接的嵌套UNet架构，称为UNet++，其解码器从水平角度看在同一维度上密集连接。重新设计的同尺度跳跃连接使密集特征传播更加灵活，将所有前面的特征图直接连接在一起。

虽然作为一种自然的设计令人信服，但并没有坚实的理论来保证同一尺度的特征图是特征融合的最佳匹配。为了在图像分割中利用全尺度的特征，Huang等人(H.Huang,L.Lin,R.Tong,H.Hu,Q.Zhang,Y.Iwamoto,X.Han,Y.-W.Chen,and J.Wu,“Unet 3+:A full-scale connected unet for medical image segmentation,”in 45th IEEEInternational Conference on Acoustics,Speech,and Signal Processing(ICASSP2020),Barcelona,SPAIN,2020,Conference Proceedings,pp.1055–1059.)提出了UNet3+，它将细粒度的低级详细特征图与不同尺度的粗粒度高级语义特征图相结合。然而，UNet3+只是部分地重新设计了编码器和解码器之间的长跳跃连接以及解码器内的短跳跃连接。

尽管在UNet3+架构的解码器中使用不同比例的特征图比使用UNet、UNet+和UNet++架构的编码器中相同比例的特征图的限制要小得多，但仍有改进的空间。

发明内容

为了解决上述技术问题，本发明采用的图像语义分割网络在编码器和解码器内部以及两者之间使用所有的全尺度和密集的跳跃连接，从而形成本发明的图像语义分割网络(UNet4+架构)。

本发明的方法所采用的技术方案是：一种基于全尺度密集连接的图像语义分割方法，包括以下步骤：

步骤1：对待分割图像进行预处理，将其切割或填充为预设大小；

步骤2：使用图像语义分割网络实现对待分割图像的语义分割；

所述图像语义分割网络，包括编码器、解码器、全尺度密集跳跃连接和全尺度深监督；所述编码器由5个编码卷积块组成，第1-4个编码卷积块各包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层和1个下采样层MaxPooling，第5个编码卷积块仅包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层；每个编码卷积块的输出通道数分别为C、2C、4C、8C、16C，卷积核大小均为3×3，最大池化核大小及池化步长均为2×2；所述解码器由4个解码卷积块组成，每个解码卷积块包含1个上采样层UpsamplingBilinear、1个通过全尺度密集跳跃连接将所有位于该解码块之前的编码器特征图或解码器特征图级联到一起的融合层Concatenate和2个卷积层，每个解码卷积块的侧边输出由1个1×1卷积层进行通道数对齐，从而实现后续的全尺度深监督。

本发明的系统所采用的技术方案是：一种基于全尺度密集连接的图像语义分割系统，包括以下模块：

模块1，用于对待分割图像进行预处理，将其切割或填充为预设大小；

模块2，用于使用图像语义分割网络实现对待分割图像的语义分割；

本发明的设备所采用的技术方案是：一种基于全尺度密集连接的图像语义分割设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于全尺度密集连接的图像语义分割方法。

本发明提出的图像语义分割网络(UNet4+)网络具有以下优势：

①UNet4+通过任何两个卷积块之间的直接跳跃连接，从而缓解了梯度消失的问题，这也使得网络中的信息流最大化。

②UNet4+广泛使用了特征级联，从而加强了网络中的特征传播。

③UNet4+通过在网络后端卷积块中聚合大量的特征图，从而导致了更紧凑的模型和极端的特征重用性。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的图像语义分割网络(UNet4+)结构示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于全尺度密集连接的图像语义分割方法，包括以下步骤：

本实施例中，读取待分割的图像，灰度或彩色图像均可，其中灰度图像通道数为1、彩色图像通道数为3。输入图像分辨率可以是任意尺寸，并将其裁切为512×512大小的图像块。裁切图像时，建议相邻图像块的重叠区域不少于5％，以避免位于图像块边缘处的微小目标无法被完整地检测出来。如果输入图像分辨率小于512×512，则采用镜像填充图像块边界。

请见图2，本实施例的图像语义分割网络，包括编码器、解码器、全尺度密集跳跃连接和全尺度深监督；其中，编码器由5个卷积块组成，第1-4个卷积块各包含2个卷积层(Conv→InstanceNorm→LeakyReLU)和1个下采样层(MaxPooling)，第5个卷积块仅包含2个卷积层。每个卷积块的输出通道数分别为C、2C、4C、8C、16C，卷积核大小均为3×3，最大池化核大小及池化步长均为2×2。解码器由4个卷积块组成，每个卷积块包含1个上采样层(UpsamplingBilinear)、1个通过全尺度密集跳跃连接将所有位于该解码块之前的编/解码器特征图(必要时须进行下采样或上采样，以确保特征图维度一致)级联到一起的融合层(Concatenate)和2个卷积层，每个解码卷积块的侧边输出由1个1×1卷积层进行通道数对齐，从而实现后续的全尺度深监督。

本实施例的图像语义分割网络(UNet4+架构)中重新设计了全尺度密集跳跃连接。令节点Xⁱ的输出特征图用xⁱ表示，其中，上标i沿着编码器的下采样层进行索引，N表示网络层的深度。编码器端和解码器端的特征图分别用

和

表示，可表述为：

和

其中，

表示卷积层，

表示由多个连续的

卷积层组成的卷积块，

和

分别表示下采样层和上采样层，节点的输出通道数在每个采样层之后由

卷积层调整，符号[·]表示级联操作。

如图2所示，只有一个输入通过编码器节点

进入本实施例提出的UNet4+架构，而位于第i>1层的其他编码器节点

仅能从编码器的所有上层节点接收i-1个下采样输入。位于第i<N层的解码器节点

则从解码端接收N-i-1个上采样输入以及从编码端接收N个输入(其中i-1个下采样、1个同尺度、N-i个上采样输入)。设计将所有先前的特征图累积起来并级联到当前节点的主要原因是，本实施例在编码器和解码器之间及其内部都利用了密集的跳跃连接。

本实施例在UNet4+架构中引入了两种截然不同的全尺度深度监督机制。

机制1：与UNet^e、UNet+和UNet++对中间同尺度特征图进行的深度监督不同，提议的UNet4+在每个解码卷积块处产生一个侧边输出，这与UNet3+类似，但有几处微妙而重要的区别。本实施例在解码器节点

和

的侧边输出端都附加1个双线性插值的上采样层，使得这些节点的输出特征图具有与节点

相同的空间分辨率。然后，这4个侧边输出在通道维度上进行级联操作或进行逐像素的加法运算，再通过1个3×3卷积层(Conv→Sigmoid)输出预测图像(由Sigmoid激活函数将其输入映射为[0,1]之间)。

机制2：解码器节点

的侧边输出通过1个双线性插值的上采样层和1个1×1的卷积层，使其输出特征图具有与节点

相同的空间分辨率和通道维度，然后进行逐像素的乘法或加法运算；融合后的特征图通过1个双线性插值的上采样层和1个1×1的卷积层，使其输出具有与节点

相同的空间分辨率和通道维度，然后进行逐像素的乘法或加法运算；融合后的特征图再通过1个双线性插值的上采样层和1个1×1的卷积层，使其输出具有与节点

相同的空间分辨率和通道维度，然后进行逐像素的乘法或加法运算。最后，通过1个3×3卷积层(Conv→Sigmoid)输出预测图像。

本实施例图像语义分割网络，是训练好的图像语义分割网络；本实施例定义了一个混合分割损失函数，它被优化为二元交叉熵(BCE)损失、骰子相似度系数(DSC)损失以及在不同IoU阈值下图像平均精度损失的加权平均值。

本实施例的二元交叉熵损失定义为：

其中，y和

分别是GT二元标签和模型对应的预测分割概率图。

本实施例的骰子相似度系数损失定义为：

其中，y和

分别是GT二元标签和模型对应的预测分割概率图。

本实施例还采用不同IoU阈值t的图像平均精度值进行评估，阈值范围从0.5到0.95，步长为0.05(即0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95)。例如在0.5的阈值下，如果一个预测的标签与GT标签的IoU大于0.5，就被认为是命中。因此，本实施例的图像平均精度损失定义为：

其中，t为不同的IoU阈值，

表示

在阈值t下的预测结果，|thresholds|为不同IoU阈值的总数。

最后，通过结合所有三个损失项，本实施例使用的混合分割损失定义为：

在所有实验中，加权系数α_BCE、α_DSC和α_mAP分别设定为0.4、0.2和0.4。

本发明提出在编码器和解码器内部以及两者之间使用所有的全尺度和密集的跳跃连接，从而形成本实施例最终的UNet4+架构。通过全尺度和密集的跳跃连接，编码器中的每个节点从不同尺度的编码器接收中间聚合特征图，而解码器中的每个节点不仅从不同尺度的编码器和解码器接收中间聚合特征图，而且还从相同尺度的编码器接收中间聚合特征图。因此，解码器中的聚合层可以学习使用节点上的所有收集的特征图。与UNet^e相比，UNet+、UNet++、UNet3+和提出的UNet4+架构都不需要明确的深度监督。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。