CN115601542A - 基于全尺度密集连接的图像语义分割方法、系统及设备 - Google Patents

基于全尺度密集连接的图像语义分割方法、系统及设备 Download PDF

Info

Publication number
CN115601542A
CN115601542A CN202211229781.2A CN202211229781A CN115601542A CN 115601542 A CN115601542 A CN 115601542A CN 202211229781 A CN202211229781 A CN 202211229781A CN 115601542 A CN115601542 A CN 115601542A
Authority
CN
China
Prior art keywords
image
semantic segmentation
full
convolution
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211229781.2A
Other languages
English (en)
Other versions
CN115601542B (zh
Inventor
熊炜
田紫欣
陈奕博
强观臣
郑大定
汪锋
邹勤
王松
李利荣
宋海娜
李婕
涂静敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202211229781.2A priority Critical patent/CN115601542B/zh
Publication of CN115601542A publication Critical patent/CN115601542A/zh
Application granted granted Critical
Publication of CN115601542B publication Critical patent/CN115601542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全尺度密集连接的图像语义分割方法、系统及设备,首先对待分割图像进行预处理,将其切割或填充为预设大小;然后使用图像语义分割网络实现对待分割图像的语义分割;本发明的图像语义分割网络(UNet4+)通过全尺度和密集的跳跃连接,编码器中的每个节点从不同尺度的编码器接收中间聚合特征图,而解码器中的每个节点不仅从不同尺度的编码器和解码器接收中间聚合特征图,而且还从相同尺度的编码器接收中间聚合特征图。因此,解码器中的聚合层可以学习使用节点上的所有收集的特征图。本发明的UNet4+缓解了梯度消失的问题,这也使得网络中的信息流最大化;同时加强了网络中的特征传播;具备更紧凑的模型和极端的特征重用性。

Description

基于全尺度密集连接的图像语义分割方法、系统及设备
技术领域
本发明属于人工智能、深度学习及图像处理技术领域,涉及一种图像语义分割方法、系统及设备,特别是涉及一种基于全尺度密集连接语义分割网络的图像语义分割方法、系统及设备。
背景技术
图像语义分割(Semantic Segmentation)是图像处理和机器视觉技术中关于图像理解的重要一环,也是AI领域中一个重要的分支。语义分割是对图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分。目前,语义分割已经被广泛应用于自动驾驶、无人机落点判定等场景中。
目前解决图像语义分割问题,采用较多的是UNet架构、UNete、UNet+、UNet++、UNet3+等网络。
UNet架构(O.Ronneberger,P.Fischer,and T.Brox,“U-net:Convolutionalnetworks for biomedical image segmentation,”in 18th International Conferenceon Medical Image Computing and Computer-Assisted Intervention(MICCAI 2015),Munich,GERMANY,2015,Conference Proceedings,pp.234–241.)已经成为各种图像分割任务的事实上的标准,并取得了巨大的成功。它是一个典型的编码器-解码器级联架构,其中编码器(收缩路径)执行特征提取,而解码器(扩展路径)执行分辨率恢复。UNet架构最引人注目的地方是它的长跳跃连接,这使得相同尺度的信息可以直接从编码器流向解码器,从而使模型能够做出更好的预测。
然而,这样一个相对固定的结构使得模型很难在感受野大小和边界分割准确性之间取得平衡。现在人们普遍认为,更深的网络具有更好的非线性表征,它可以学习更复杂的变换,适应更复杂的特征。但更深的网络引入了所谓的梯度消失问题,并降低了浅层的学习能力。当网络深度达到一定程度时,分割性能不会提高,反而可能下降。
为了确定UNet架构的最佳深度,Zhou等人(Z.Zhou,M.M.R.Siddiquee,N.Tajbakhsh,and J.Liang,“Unet++:Redesigning skip connections to exploitmultiscale features in image segmentation,”IEEE Transactions onMedicalImaging,vol.39,no.6,pp.1856–1867,2020.)提出了一个集成架构UNete,它将不同深度的UNet组合成一个统一的架构。集成架构得益于知识共享,UNete架构内的所有UNet部分共享编码器,但有各自的解码器。由于该架构中的解码器是断开的,较深的UNet不能向较浅的对应方提供监督信号。因此,在组合中需要明确的深度监督。
另一个克服上述限制的方案是将UNete结构中的所有跳跃连接去掉,用一个短的跳跃连接来连接集合中的每个相邻节点,从而形成一个被称为UNet+的嵌套结构,这样梯度反传播将从较深的解码器传递到较浅的对应节点。这个想法几乎同时被Yu等人(F.Yu,D.Wang,E.Shelhamer,and T.Darrell,“Deep layer aggregation,”in 31st Meeting ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR2018),Salt Lake City,UT,USA,2018,Conference Proceedings,pp.2403–2412.)和Zhou等人(Z.Zhou,M.M.R.Siddiquee,N.Tajbakhsh,and J.Liang,“Unet++:A nested u-netarchitecture for medical image segmentation,”in 4th International Workshop onDeep Learning in Medical Image Analysis(DLMIA 2018)Held in Conjunction withMICCAI 2018,Granada,SPAIN,2018,Conference Proceedings,pp.3–11.)分别提出。
值得注意的是,UNet+架构中的每个节点从水平角度结合其相邻的前辈在同一尺度上的特征图,从垂直角度整合其相邻的前辈在不同尺度上的特征图。为了确保UNet+架构内所有不同深度的UNet之间的最大信息流,Zhou等人还提出了一个具有密集跳跃连接的嵌套UNet架构,称为UNet++,其解码器从水平角度看在同一维度上密集连接。重新设计的同尺度跳跃连接使密集特征传播更加灵活,将所有前面的特征图直接连接在一起。
虽然作为一种自然的设计令人信服,但并没有坚实的理论来保证同一尺度的特征图是特征融合的最佳匹配。为了在图像分割中利用全尺度的特征,Huang等人(H.Huang,L.Lin,R.Tong,H.Hu,Q.Zhang,Y.Iwamoto,X.Han,Y.-W.Chen,and J.Wu,“Unet 3+:A full-scale connected unet for medical image segmentation,”in 45th IEEEInternational Conference on Acoustics,Speech,and Signal Processing(ICASSP2020),Barcelona,SPAIN,2020,Conference Proceedings,pp.1055–1059.)提出了UNet3+,它将细粒度的低级详细特征图与不同尺度的粗粒度高级语义特征图相结合。然而,UNet3+只是部分地重新设计了编码器和解码器之间的长跳跃连接以及解码器内的短跳跃连接。
尽管在UNet3+架构的解码器中使用不同比例的特征图比使用UNet、UNet+和UNet++架构的编码器中相同比例的特征图的限制要小得多,但仍有改进的空间。
发明内容
为了解决上述技术问题,本发明采用的图像语义分割网络在编码器和解码器内部以及两者之间使用所有的全尺度和密集的跳跃连接,从而形成本发明的图像语义分割网络(UNet4+架构)。
本发明的方法所采用的技术方案是:一种基于全尺度密集连接的图像语义分割方法,包括以下步骤:
步骤1:对待分割图像进行预处理,将其切割或填充为预设大小;
步骤2:使用图像语义分割网络实现对待分割图像的语义分割;
所述图像语义分割网络,包括编码器、解码器、全尺度密集跳跃连接和全尺度深监督;所述编码器由5个编码卷积块组成,第1-4个编码卷积块各包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层和1个下采样层MaxPooling,第5个编码卷积块仅包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层;每个编码卷积块的输出通道数分别为C、2C、4C、8C、16C,卷积核大小均为3×3,最大池化核大小及池化步长均为2×2;所述解码器由4个解码卷积块组成,每个解码卷积块包含1个上采样层UpsamplingBilinear、1个通过全尺度密集跳跃连接将所有位于该解码块之前的编码器特征图或解码器特征图级联到一起的融合层Concatenate和2个卷积层,每个解码卷积块的侧边输出由1个1×1卷积层进行通道数对齐,从而实现后续的全尺度深监督。
本发明的系统所采用的技术方案是:一种基于全尺度密集连接的图像语义分割系统,包括以下模块:
模块1,用于对待分割图像进行预处理,将其切割或填充为预设大小;
模块2,用于使用图像语义分割网络实现对待分割图像的语义分割;
所述图像语义分割网络,包括编码器、解码器、全尺度密集跳跃连接和全尺度深监督;所述编码器由5个编码卷积块组成,第1-4个编码卷积块各包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层和1个下采样层MaxPooling,第5个编码卷积块仅包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层;每个编码卷积块的输出通道数分别为C、2C、4C、8C、16C,卷积核大小均为3×3,最大池化核大小及池化步长均为2×2;所述解码器由4个解码卷积块组成,每个解码卷积块包含1个上采样层UpsamplingBilinear、1个通过全尺度密集跳跃连接将所有位于该解码块之前的编码器特征图或解码器特征图级联到一起的融合层Concatenate和2个卷积层,每个解码卷积块的侧边输出由1个1×1卷积层进行通道数对齐,从而实现后续的全尺度深监督。
本发明的设备所采用的技术方案是:一种基于全尺度密集连接的图像语义分割设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于全尺度密集连接的图像语义分割方法。
本发明提出的图像语义分割网络(UNet4+)网络具有以下优势:
①UNet4+通过任何两个卷积块之间的直接跳跃连接,从而缓解了梯度消失的问题,这也使得网络中的信息流最大化。
②UNet4+广泛使用了特征级联,从而加强了网络中的特征传播。
③UNet4+通过在网络后端卷积块中聚合大量的特征图,从而导致了更紧凑的模型和极端的特征重用性。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的图像语义分割网络(UNet4+)结构示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于全尺度密集连接的图像语义分割方法,包括以下步骤:
步骤1:对待分割图像进行预处理,将其切割或填充为预设大小;
本实施例中,读取待分割的图像,灰度或彩色图像均可,其中灰度图像通道数为1、彩色图像通道数为3。输入图像分辨率可以是任意尺寸,并将其裁切为512×512大小的图像块。裁切图像时,建议相邻图像块的重叠区域不少于5%,以避免位于图像块边缘处的微小目标无法被完整地检测出来。如果输入图像分辨率小于512×512,则采用镜像填充图像块边界。
步骤2:使用图像语义分割网络实现对待分割图像的语义分割;
请见图2,本实施例的图像语义分割网络,包括编码器、解码器、全尺度密集跳跃连接和全尺度深监督;其中,编码器由5个卷积块组成,第1-4个卷积块各包含2个卷积层(Conv→InstanceNorm→LeakyReLU)和1个下采样层(MaxPooling),第5个卷积块仅包含2个卷积层。每个卷积块的输出通道数分别为C、2C、4C、8C、16C,卷积核大小均为3×3,最大池化核大小及池化步长均为2×2。解码器由4个卷积块组成,每个卷积块包含1个上采样层(UpsamplingBilinear)、1个通过全尺度密集跳跃连接将所有位于该解码块之前的编/解码器特征图(必要时须进行下采样或上采样,以确保特征图维度一致)级联到一起的融合层(Concatenate)和2个卷积层,每个解码卷积块的侧边输出由1个1×1卷积层进行通道数对齐,从而实现后续的全尺度深监督。
本实施例的图像语义分割网络(UNet4+架构)中重新设计了全尺度密集跳跃连接。令节点Xi的输出特征图用xi表示,其中,上标i沿着编码器的下采样层进行索引,N表示网络层的深度。编码器端和解码器端的特征图分别用
Figure BDA0003881025930000051
Figure BDA0003881025930000052
表示,可表述为:
Figure BDA0003881025930000053
Figure BDA0003881025930000054
其中,
Figure BDA0003881025930000055
表示卷积层,
Figure BDA0003881025930000056
表示由多个连续的
Figure BDA0003881025930000057
卷积层组成的卷积块,
Figure BDA0003881025930000058
Figure BDA0003881025930000059
分别表示下采样层和上采样层,节点的输出通道数在每个采样层之后由
Figure BDA00038810259300000510
卷积层调整,符号[·]表示级联操作。
如图2所示,只有一个输入通过编码器节点
Figure BDA00038810259300000511
进入本实施例提出的UNet4+架构,而位于第i>1层的其他编码器节点
Figure BDA00038810259300000512
仅能从编码器的所有上层节点接收i-1个下采样输入。位于第i<N层的解码器节点
Figure BDA00038810259300000513
则从解码端接收N-i-1个上采样输入以及从编码端接收N个输入(其中i-1个下采样、1个同尺度、N-i个上采样输入)。设计将所有先前的特征图累积起来并级联到当前节点的主要原因是,本实施例在编码器和解码器之间及其内部都利用了密集的跳跃连接。
本实施例在UNet4+架构中引入了两种截然不同的全尺度深度监督机制。
机制1:与UNete、UNet+和UNet++对中间同尺度特征图进行的深度监督不同,提议的UNet4+在每个解码卷积块处产生一个侧边输出,这与UNet3+类似,但有几处微妙而重要的区别。本实施例在解码器节点
Figure BDA00038810259300000514
Figure BDA00038810259300000515
的侧边输出端都附加1个双线性插值的上采样层,使得这些节点的输出特征图具有与节点
Figure BDA00038810259300000516
相同的空间分辨率。然后,这4个侧边输出在通道维度上进行级联操作或进行逐像素的加法运算,再通过1个3×3卷积层(Conv→Sigmoid)输出预测图像(由Sigmoid激活函数将其输入映射为[0,1]之间)。
机制2:解码器节点
Figure BDA00038810259300000517
的侧边输出通过1个双线性插值的上采样层和1个1×1的卷积层,使其输出特征图具有与节点
Figure BDA00038810259300000518
相同的空间分辨率和通道维度,然后进行逐像素的乘法或加法运算;融合后的特征图通过1个双线性插值的上采样层和1个1×1的卷积层,使其输出具有与节点
Figure BDA0003881025930000061
相同的空间分辨率和通道维度,然后进行逐像素的乘法或加法运算;融合后的特征图再通过1个双线性插值的上采样层和1个1×1的卷积层,使其输出具有与节点
Figure BDA0003881025930000062
相同的空间分辨率和通道维度,然后进行逐像素的乘法或加法运算。最后,通过1个3×3卷积层(Conv→Sigmoid)输出预测图像。
本实施例图像语义分割网络,是训练好的图像语义分割网络;本实施例定义了一个混合分割损失函数,它被优化为二元交叉熵(BCE)损失、骰子相似度系数(DSC)损失以及在不同IoU阈值下图像平均精度损失的加权平均值。
本实施例的二元交叉熵损失定义为:
Figure BDA0003881025930000063
其中,y和
Figure BDA0003881025930000064
分别是GT二元标签和模型对应的预测分割概率图。
本实施例的骰子相似度系数损失定义为:
Figure BDA0003881025930000065
其中,y和
Figure BDA0003881025930000066
分别是GT二元标签和模型对应的预测分割概率图。
本实施例还采用不同IoU阈值t的图像平均精度值进行评估,阈值范围从0.5到0.95,步长为0.05(即0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.95)。例如在0.5的阈值下,如果一个预测的标签与GT标签的IoU大于0.5,就被认为是命中。因此,本实施例的图像平均精度损失定义为:
Figure BDA0003881025930000067
其中,t为不同的IoU阈值,
Figure BDA0003881025930000068
表示
Figure BDA0003881025930000069
在阈值t下的预测结果,|thresholds|为不同IoU阈值的总数。
最后,通过结合所有三个损失项,本实施例使用的混合分割损失定义为:
Figure BDA00038810259300000610
在所有实验中,加权系数αBCE、αDSC和αmAP分别设定为0.4、0.2和0.4。
本发明提出在编码器和解码器内部以及两者之间使用所有的全尺度和密集的跳跃连接,从而形成本实施例最终的UNet4+架构。通过全尺度和密集的跳跃连接,编码器中的每个节点从不同尺度的编码器接收中间聚合特征图,而解码器中的每个节点不仅从不同尺度的编码器和解码器接收中间聚合特征图,而且还从相同尺度的编码器接收中间聚合特征图。因此,解码器中的聚合层可以学习使用节点上的所有收集的特征图。与UNete相比,UNet+、UNet++、UNet3+和提出的UNet4+架构都不需要明确的深度监督。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于全尺度密集连接的图像语义分割方法,其特征在于,包括以下步骤:
步骤1:对待分割图像进行预处理,将其切割或填充为预设大小;
步骤2:使用图像语义分割网络实现对待分割图像的语义分割;
所述图像语义分割网络,包括编码器、解码器、全尺度密集跳跃连接和全尺度深监督;所述编码器由5个编码卷积块组成,第1-4个编码卷积块各包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层和1个下采样层MaxPooling,第5个编码卷积块仅包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层;每个编码卷积块的输出通道数分别为C、2C、4C、8C、16C,卷积核大小均为3×3,最大池化核大小及池化步长均为2×2;所述解码器由4个解码卷积块组成,每个解码卷积块包含1个上采样层UpsamplingBilinear、1个通过全尺度密集跳跃连接将所有位于该解码块之前的编码器特征图或解码器特征图级联到一起的融合层Concatenate和2个卷积层,每个解码卷积块的侧边输出由1个1×1卷积层进行通道数对齐,从而实现后续的全尺度深监督。
2.根据权利要求1所述的基于全尺度密集连接的图像语义分割方法,其特征在于:步骤1中,待分割图像如果分辨率大于预设大小,则将其切割为预设大小的图像块;如果待分割图像分辨率小于预设大小,则采用镜像填充图像块边界,将其填充为预设大小的图像。
3.根据权利要求1所述的基于全尺度密集连接的图像语义分割方法,其特征在于:步骤2中,所述图像语义分割网络的编码器端和解码器端的特征图分别用
Figure FDA0003881025920000011
Figure FDA0003881025920000012
表示,输入通过编码器节点
Figure FDA0003881025920000013
进入所述图像语义分割网络,而位于第i>1层的其他编码器节点
Figure FDA0003881025920000014
仅能从编码器的所有上层节点接收i-1个下采样输入;位于第i<N层的解码器节点
Figure FDA0003881025920000015
则从解码端接收N-i-1个上采样输入以及从编码端接收N个输入;其中,上标i沿着编码器的下采样层进行索引,N表示网络层的深度;
所述全尺度深监督,是在解码器节点
Figure FDA0003881025920000016
Figure FDA0003881025920000017
的侧边输出端都附加1个双线性插值的上采样层,使得这些节点的输出特征图具有与节点
Figure FDA0003881025920000018
相同的空间分辨率;然后,这4个侧边输出在通道维度上进行级联操作或进行逐像素的加法运算,再通过1个由Conv和Sigmoid组成的3×3卷积层输出预测图像。
4.根据权利要求1所述的基于全尺度密集连接的图像语义分割方法,其特征在于:步骤2中,所述图像语义分割网络的编码器端和解码器端的特征图分别用
Figure FDA0003881025920000019
Figure FDA00038810259200000110
表示,输入通过编码器节点
Figure FDA00038810259200000111
进入所述图像语义分割网络,而位于第i>1层的其他编码器节点
Figure FDA00038810259200000112
仅能从编码器的所有上层节点接收i-1个下采样输入;位于第i<N层的解码器节点
Figure FDA0003881025920000021
则从解码端接收N-i-1个上采样输入以及从编码端接收N个输入;其中,上标i沿着编码器的下采样层进行索引,N表示网络层的深度;
所述全尺度深监督,是在解码器节点
Figure FDA0003881025920000022
的侧边输出通过1个双线性插值的上采样层和1个1×1的卷积层,使其输出特征图具有与节点
Figure FDA0003881025920000023
相同的空间分辨率和通道维度,然后进行逐像素的乘法或加法运算;融合后的特征图通过1个双线性插值的上采样层和1个1×1的卷积层,使其输出具有与节点
Figure FDA0003881025920000024
相同的空间分辨率和通道维度,然后进行逐像素的乘法或加法运算;融合后的特征图再通过1个双线性插值的上采样层和1个1×1的卷积层,使其输出具有与节点
Figure FDA0003881025920000025
相同的空间分辨率和通道维度,然后进行逐像素的乘法或加法运算;最后,通过1个由Conv和Sigmoid组成的3×3卷积层输出预测图像。
5.根据权利要求1-4任意一项所述的基于全尺度密集连接的图像语义分割方法,其特征在于:所述图像语义分割网络,是训练好的图像语义分割网络;训练中采用的损失函数是混合分割损失函数,为二元交叉熵BCE损失、骰子相似度系数DSC损失以及在不同IoU阈值下图像平均精度损失的加权平均值;
所述二元交叉熵BCE损失定义为:
Figure FDA0003881025920000026
其中,y和
Figure FDA0003881025920000027
分别是GT二元标签和所述图像语义分割网络对应的预测分割概率图;
所述骰子相似度系数DSC损失定义为:
Figure FDA0003881025920000028
所述不同IoU阈值下的图像平均精度损失定义为:
Figure FDA0003881025920000029
其中,t为不同的IoU阈值,阈值范围从0.5到0.95,步长为0.05;
Figure FDA00038810259200000210
表示
Figure FDA00038810259200000211
在阈值t下的预测结果,|thresholds|为不同IoU阈值的总数;
最后,通过结合所有三个损失项,获得混合分割损失为:
Figure FDA00038810259200000212
其中,αBCE、αDSC和αmAP分别为加权系数。
6.一种基于全尺度密集连接的图像语义分割系统,其特征在于,包括以下模块:
模块1,用于对待分割图像进行预处理,将其切割或填充为预设大小;
模块2,用于使用图像语义分割网络实现对待分割图像的语义分割;
所述图像语义分割网络,包括编码器、解码器、全尺度密集跳跃连接和全尺度深监督;所述编码器由5个编码卷积块组成,第1-4个编码卷积块各包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层和1个下采样层MaxPooling,第5个编码卷积块仅包含2个由顺序连接的Conv、InstanceNorm、LeakyReLU组成的卷积层;每个编码卷积块的输出通道数分别为C、2C、4C、8C、16C,卷积核大小均为3×3,最大池化核大小及池化步长均为2×2;所述解码器由4个解码卷积块组成,每个解码卷积块包含1个上采样层UpsamplingBilinear、1个通过全尺度密集跳跃连接将所有位于该解码块之前的编码器特征图或解码器特征图级联到一起的融合层Concatenate和2个卷积层,每个解码卷积块的侧边输出由1个1×1卷积层进行通道数对齐,从而实现后续的全尺度深监督。
7.一种基于全尺度密集连接的图像语义分割设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的基于全尺度密集连接的图像语义分割方法。
CN202211229781.2A 2022-10-08 2022-10-08 基于全尺度密集连接的图像语义分割方法、系统及设备 Active CN115601542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211229781.2A CN115601542B (zh) 2022-10-08 2022-10-08 基于全尺度密集连接的图像语义分割方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211229781.2A CN115601542B (zh) 2022-10-08 2022-10-08 基于全尺度密集连接的图像语义分割方法、系统及设备

Publications (2)

Publication Number Publication Date
CN115601542A true CN115601542A (zh) 2023-01-13
CN115601542B CN115601542B (zh) 2023-07-21

Family

ID=84846535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211229781.2A Active CN115601542B (zh) 2022-10-08 2022-10-08 基于全尺度密集连接的图像语义分割方法、系统及设备

Country Status (1)

Country Link
CN (1) CN115601542B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909001A (zh) * 2023-03-09 2023-04-04 和普威视光电股份有限公司 一种融合密集嵌套跳跃连接的目标检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490884A (zh) * 2019-08-23 2019-11-22 北京工业大学 一种基于对抗的轻量级网络语义分割方法
US20190385021A1 (en) * 2018-06-18 2019-12-19 Drvision Technologies Llc Optimal and efficient machine learning method for deep semantic segmentation
US20200380695A1 (en) * 2019-05-28 2020-12-03 Zongwei Zhou Methods, systems, and media for segmenting images
CN113807355A (zh) * 2021-07-29 2021-12-17 北京工商大学 一种基于编解码结构的图像语义分割方法
CN114220098A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进的多尺度全卷积网络语义分割方法
CN114283164A (zh) * 2022-03-02 2022-04-05 华南理工大学 基于UNet3+的乳腺癌病理切片图像分割预测系统
CN114332117A (zh) * 2021-12-23 2022-04-12 杭州电子科技大学 基于unet3+与全连接条件随机场融合的震后地貌分割方法
CN114677671A (zh) * 2022-02-18 2022-06-28 深圳大学 一种基于多光谱图像和深度学习的榨菜老筋自动识别方法
CN114863274A (zh) * 2022-04-26 2022-08-05 北京市测绘设计研究院 基于深度学习的地表绿网苫盖提取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190385021A1 (en) * 2018-06-18 2019-12-19 Drvision Technologies Llc Optimal and efficient machine learning method for deep semantic segmentation
US20200380695A1 (en) * 2019-05-28 2020-12-03 Zongwei Zhou Methods, systems, and media for segmenting images
CN110490884A (zh) * 2019-08-23 2019-11-22 北京工业大学 一种基于对抗的轻量级网络语义分割方法
CN113807355A (zh) * 2021-07-29 2021-12-17 北京工商大学 一种基于编解码结构的图像语义分割方法
CN114220098A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进的多尺度全卷积网络语义分割方法
CN114332117A (zh) * 2021-12-23 2022-04-12 杭州电子科技大学 基于unet3+与全连接条件随机场融合的震后地貌分割方法
CN114677671A (zh) * 2022-02-18 2022-06-28 深圳大学 一种基于多光谱图像和深度学习的榨菜老筋自动识别方法
CN114283164A (zh) * 2022-03-02 2022-04-05 华南理工大学 基于UNet3+的乳腺癌病理切片图像分割预测系统
CN114863274A (zh) * 2022-04-26 2022-08-05 北京市测绘设计研究院 基于深度学习的地表绿网苫盖提取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HUANG等: "Unet 3+:A full-scale connected unet for medical image segmentation", 《ICASSP 2020》 *
JUAN WANG等: "Image Semantic Segmentation Algorithm Based on Self-learning Super-Pixel Feature Extraction", 《EIDWT 2018》 *
李万琦;李克俭;陈少波;: "多模态融合的高分遥感图像语义分割方法", 中南民族大学学报(自然科学版), no. 04 *
田启川;孟颖;: "卷积神经网络图像语义分割技术", 小型微型计算机系统, no. 06 *
郑凯;李建胜;: "基于深度神经网络的图像语义分割综述", 测绘与空间地理信息, no. 10 *
马震环;高洪举;雷涛;: "基于增强特征融合解码器的语义分割算法", 计算机工程, no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909001A (zh) * 2023-03-09 2023-04-04 和普威视光电股份有限公司 一种融合密集嵌套跳跃连接的目标检测方法及系统

Also Published As

Publication number Publication date
CN115601542B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN111179167B (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN110084234B (zh) 一种基于实例分割的声呐图像目标识别方法
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN114283164B (zh) 基于UNet3+的乳腺癌病理切片图像分割预测系统
CN114549439A (zh) 一种基于多模态特征融合的rgb-d图像语义分割方法
CN115457498A (zh) 一种基于双注意力和密集连接的城市道路语义分割方法
CN112700460B (zh) 图像分割方法及系统
CN112883887B (zh) 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN111914654A (zh) 一种文本版面分析方法、装置、设备和介质
CN115601723A (zh) 基于改进ResNet的夜间热红外图像语义分割增强方法
CN115601542B (zh) 基于全尺度密集连接的图像语义分割方法、系统及设备
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN116630704A (zh) 一种基于注意力增强和密集多尺度的地物分类网络模型
CN115082928A (zh) 面向复杂场景的不对称双分支实时语义分割网络的方法
CN112418229A (zh) 一种基于深度学习的无人船海上场景图像实时分割方法
CN116542988A (zh) 结节分割方法、装置、电子设备及存储介质
CN116363361A (zh) 基于实时语义分割网络的自动驾驶方法
CN112488115B (zh) 一种基于two-stream架构的语义分割方法
CN112164078B (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant