CN115995002B - 一种网络构建方法及城市场景实时语义分割方法 - Google Patents

一种网络构建方法及城市场景实时语义分割方法 Download PDF

Info

Publication number
CN115995002B
CN115995002B CN202310293401.XA CN202310293401A CN115995002B CN 115995002 B CN115995002 B CN 115995002B CN 202310293401 A CN202310293401 A CN 202310293401A CN 115995002 B CN115995002 B CN 115995002B
Authority
CN
China
Prior art keywords
feature
module
cgm
input
output end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310293401.XA
Other languages
English (en)
Other versions
CN115995002A (zh
Inventor
李振生
刘茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202310293401.XA priority Critical patent/CN115995002B/zh
Publication of CN115995002A publication Critical patent/CN115995002A/zh
Application granted granted Critical
Publication of CN115995002B publication Critical patent/CN115995002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种网络构建方法,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块;利用6个上下文指导模块CGM,构建解码器模块;将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型;利用样本数据训练初始语义分割模型,得到目标语义分割模型。本发明利用目标语义分割模型实现了对城市场景常见物体的语义分割,充分利用多尺度的全局以及局部信息和大感受野中更多的远程上下文信息,有效提高语义分割的精度。

Description

一种网络构建方法及城市场景实时语义分割方法
技术领域
本发明涉及图像语义分割领域,特别涉及一种网络构建方法及城市场景实时语义分割方法。
背景技术
随着计算机视觉技术的发展,图像语义分割在无人驾驶、医学影像诊断和机器人等领域的应用也越来越深入和广泛。图像语义分割是一项基本的视觉任务,旨在正确分类图片中的每个像素。在语义分割领域发展的进程中,每年都会出现很多表现优秀的模型达到更高的精度。近几年语义分割模型在精度的提高方面越来越缓慢,并且高精度模型往往伴随巨大的计算开销,进而严重影响模型的推理速度。在一些需要实时分割的场景中,例如无人驾驶汽车领域,受限于算力因素而难以在实际应用中部署现有的高精度模型,语义分割模型的应用受到相当程度的限制,实时性成为语义分割领域新的需求。
要减少语义分割模型的计算开销实现模型的实时性,目前常见的方案有以下两种:(1)减小输入图片尺寸:通过随机缩放和裁剪等方式减小输入图片尺寸,这可以从根本上降低模型计算量,但是图片尺寸减小太多会严重破坏图片中的空间细节信息,尤其是各类物体的边界信息,导致分割的精度大大降低。(2)降低分割模型的复杂度:通过更换或者重新设计骨干网络来减少模型各个阶段中特征的通道数、使用到的卷积核数目和大小等方式降低整体模型的复杂度,进而达到减少计算开销的目的,但是这个方式会降低骨干网络的特征提取能力、丢失一部分空间信息并且减小感受野,间接影响最终精度。
用于语义分割的现有网络存在以下缺陷:网络DFANet利用轻量级骨干网络来加速其网络,并通过跨层特征聚合来提高精度,但是跨层特征直接聚合会将噪声引入模型,导致模型精度降低;DeepLab系列、DenseASPP和PSPNet通过使用膨胀卷积证明了大感受野中的上下文信息对于语义分割非常重要,但是膨胀卷积会加大计算开销,进而降低推理速度;网络SFNet使用主流的编码器-解码器结构,解码器中接收来自PPM的特征并使用光流对齐模块直接和同阶段特征进行上采样融合,但是PPM获得的上下文信息少、上采样时不引入其他阶段的信息,严重影响最终的分割精度。
发明内容
发明目的:针对以上问题,本发明目的是提供一种网络构建方法及城市场景实时语义分割方法,将城市场景图进行实时语义分割。
技术方案:本发明的第一方面公开一种网络构建方法,所述方法包括:
利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块;
利用6个上下文指导模块CGM,构建解码器模块;
将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型;
利用样本数据训练初始语义分割模型,得到目标语义分割模型。
进一步,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块,包括:
骨干网络包括四个阶段,第一阶段输出端与第一门控融合模块GFM1的输入端连接,第二阶段输出端与第二门控融合模块GFM2的输入端连接,第三阶段输出端与第三门控融合模块GFM3的输入端连接,第四阶段输出端与SPSEM的输入端连接。
进一步,利用6个上下文指导模块CGM,构建解码器模块,包括:
第一上下文指导模块CGM1的输入端分别连接SPSEM的输出端和GFM3的输出端,第二上下文指导模块CGM2的输入端分别连接CGM1的输出端和GFM2的输出端,第三上下文指导模块CGM3的输入端分别连接CGM2的输出端和GFM1的输出端,第四上下文指导模块CGM4的输入端分别连接CGM2的输出端和CGM3的输出端,第五上下文指导模块CGM5的输入端分别连接CGM1的输出端和CGM3的输出端,第六上下文指导模块CGM6的输入端分别连接CGM3的输出端和SPSEM的输出端。
进一步,将解码器模块的输出端与拼接运算层的输入端连接,包括:
将CGM3的输出端、CGM4的输出端、CGM5的输出端以及CGM6的输出端分别连接拼接运算层的输入端。
进一步,条形池化语义增强模块SPSEM包含五个并行分支,第一分支由
Figure SMS_2
卷积构成,第二分支由/>
Figure SMS_4
卷积和/>
Figure SMS_6
膨胀卷积构成,第三分支由/>
Figure SMS_1
卷积和/>
Figure SMS_5
膨胀卷积构成,第四分支由/>
Figure SMS_7
卷积和/>
Figure SMS_8
膨胀卷积构成,第五分支由条形池化层构成,将五个并行分支的输出端分别连接第一拼接层的输入端,第一拼接层的输出端连接/>
Figure SMS_3
的卷积层输入端;
门控融合模块GFM由信息发送端和信息接收端构成,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,将信息发送端的输出端连接信息接收端的输入端;
上下文指导模块CGM包含两个并行分支,第一分支由
Figure SMS_9
卷积和/>
Figure SMS_10
卷积构成,第二分支由/>
Figure SMS_11
卷积和上采样UP构成,将两个并行分支的输出端分别连接融合运算的输入端。
进一步,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,包括:
第一特征连接第一门控模块Gate1的输入端,第一门控模块Gate1的输出端和第一特征分别连接第一乘法运算的输入端,第二特征连接第二门控模块Gate2的输入端,第二门控模块Gate2的输出端和第二特征分别连接第二乘法运算的输入端,第三特征连接第三门控模块Gate3的输入端,第三门控模块Gate3的输出端和第三特征分别连接第三乘法运算的输入端,第一乘法运算的输出端、第二乘法运算的输出端及第三乘法运算的输出端分别连接第一融合运算的输入端,第一融入运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层,Sigmoid函数层的输出端和第一融合运算的输出端分别连接第四乘法运算的输入端;
信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,包括:
第四特征连接第四门控模块Gate4的输入端,第四门控模块Gate4的输出端和第四特征分别连接第五乘法运算的输入端,第四门控模块Gate4的输出端连接取反模块的输入端,取反模块的输出端和第四乘法运算的输出端分别连接第六乘法运算的输入端,第五乘法运算的输出端、第六乘法运算的输出端以及第四特征分别连接第二融合运算的输入端,第二融合运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层,Sigmoid函数层的输出端和第二融合运算的输出端分别连接第七乘法运算的输入端;其中取反模块用于将第四门控模块Gate4的输出I进行1-I运算。
本发明的第二方面提供一种城市场景实时语义分割方法,应用于本发明第一方面公开的网络构建方法所构建的目标语义分割模型,所述城市场景实时语义分割方法包括:
获取城市场景数据集并进行数据预处理,将预处理后的图像数据输入至目标语义分割模型,获取目标语义分割模型的输出,得到城市场景语义分割结果。
进一步,将城市场景数据集进行数据预处理,包括:
将数据集中的图片以及其对应标签进行缩放、左右反转、随机裁剪和随机旋转,得到第一图像。
进一步,将预处理后的图像数据输入至目标语义分割模型,包括:
将第一图像输入至骨干网络,利用骨干网络的第一阶段得到特征X1,利用骨干网络的第二阶段得到特征X2,利用骨干网络的第三阶段得到特征X3,利用骨干网络的第四阶段得到特征X4
将特征X2、X3和X4输入至GFM1的信息发送端,得到特征F1,再将特征X1和特征F1输入至GFM1的信息接收端,得到特征F5
将特征X1、X3和X4输入至GFM2的信息发送端,得到特征F 1,再将特征X2和特征F 1输入至GFM2的信息接收端,得到特征F 5
将特征X1、X2和X4输入至GFM3的信息发送端,得到特征F’’ 1,再将特征X3和特征F’’ 1输入至GFM3的信息接收端,得到特征F’’ 5
将特征X4输入至SPSEM,得到特征S。
进一步,将预处理后的图像数据输入至目标语义分割模型,还包括:
利用CGM1对特征S和特征F’’ 5进行整合上采样,得到特征C1
利用CGM2对特征C1和特征F 5进行整合上采样,得到特征C2
利用CGM3对特征C2和特征F5进行整合上采样,得到特征C3
利用CGM4对特征C2和特征C3进行整合上采样,得到特征C4
利用CGM5对特征C1和特征C3进行整合上采样,得到特征C5
利用CGM6对特征C3和特征S进行整合上采样,得到特征C6
将特征C3、特征C4、特征C5和特征C6进行拼接,得到特征C7
利用卷积层将特征C7的通道数处理成分割类别数,再利用双线性插值上采样至原始输入图像的尺寸大小,得到最终的语义分割结果。
有益效果:本发明与现有技术相比,其显著优点是:
1、本发明提出条形池化语义增强模块SPSEM,使用先卷积再膨胀卷积的方式结合条形池化,有效避免卷积神经网络难以获得大感受野中更多远程上下文信息的缺陷,同时使用卷积核分解策略减少了计算成本;
2、提出门控融合模块GFM,使用门控的思想去除噪声,将骨干网络中各阶段的强语义和更细节信息传输到当前阶段特征,实现多尺度选择性特征融合,进而使各类物体轮廓更明确;
3、提出上下文指导模块CGM,以简易的方式整合门控融合模块GFM、条形池化语义增强模块SPSEM输出特征的局部以及远程上下文信息进行上采样逐步恢复图像尺寸,有效提高了模型对远处小物体的分割效果,进而提高整体分割精度;
4、本发明提出的目标语义分割网络在预测精度和推理速度两方面取得了良好的权衡,在提高模型分割精度的同时,减少整个分割过程耗费的时间。
附图说明
图1为实施例一网络构建方法流程图;
图2为目标语义分割模型结构示意图;
图3为骨干网络结构示意图;
图4为条形池化语义增强模块SPSEM结构示意图;
图5为门控融合模块GFM结构示意图;
图6为门控模块Gate示意图;
图7为上下文指导模块CGM示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。
实施例一
现有技术中SFNet是目前实时语义分割中精度和速度权衡较好的模型之一,其使用主流的编码器-解码器结构,在编码器中,使用ResNet18作为模型的骨干网络,将输入图片下采样到原始尺寸的1/32,相比以往采用ResNet101作为骨干网络,将输入图片下采样到原来尺寸1/8的绝大部分模型,大大降低了整体模型的复杂度减少了计算开销。而解码器中接收来自PPM的特征并使用光流对齐模块直接和同阶段特征进行上采样融合获得更快的速度,但是PPM获得的上下文信息少、上采样时不引入其他阶段的信息,严重影响最终的分割精度。
如图1所示为本实施例所述的一种网络构建方法流程图,本实施例中在SFNet模型的基础上对其进行改进,通过对ResNet18进行改进作为骨干网络,通过条形池化语义增强模块(SPSEM)避免卷积神经网络难以获得大感受野中更多远程上下文信息的缺陷,同时使用卷积核分解策略减少了计算成本;利用门控融合模块(GFM),通过门控的方式去除噪声并融合多尺度特征中的有效信息;使用上下文指导模块(CGM)提高了模型对远处小物体的分割效果;在提高模型分割精度的同时,减少整个分割过程耗费的时间。本实施例中所述的网络构建方法包括以下步骤:
步骤1,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块。
上述骨干网络以ResNet18为基础,结构如图3所示,将原本ResNet18尾部的全局平均池化层和全连接层去除后,使用剩余部分Conv1~5作为骨干网络,对输入图片进行低级特征和高级特征的提取。
具体地,本实施例的骨干网络中,Conv1包含一个
Figure SMS_15
卷积,通道数为64,步长为2;Conv2包含一个/>
Figure SMS_14
最大池化和两个残差模块,/>
Figure SMS_25
最大池化的步长为2,每个残差模块包含两个/>
Figure SMS_16
卷积和一个跳跃连接,残差模块中每个/>
Figure SMS_27
卷积的通道数为64,步长为1;Conv3包含两个残差模块,每个残差模块包含两个/>
Figure SMS_17
卷积和一个跳跃连接,残差模块中每个/>
Figure SMS_21
卷积的通道数为128,第一个/>
Figure SMS_23
卷积步长为2,其他/>
Figure SMS_28
卷积步长为1;Conv4包含两个残差模块,每个残差模块包含两个/>
Figure SMS_13
卷积和一个跳跃连接,残差模块中每个/>
Figure SMS_24
卷积的通道数为256,第一个/>
Figure SMS_18
卷积步长为2,其他/>
Figure SMS_26
卷积步长为1;Conv5包含两个残差模块,每个残差模块包含两个/>
Figure SMS_19
卷积和一个跳跃连接,残差模块中每个
Figure SMS_20
卷积的通道数为512,第一个/>
Figure SMS_12
卷积步长为2,其他/>
Figure SMS_22
卷积步长为1。
可以理解的是,本示例中的低级特征是指分辨率低于第一预设分辨率的图像,高级特征是指分辨率高于第一预设分辨率的图像,具体对于低级特征和高级特征的定义,在此不做具体限定。输入图像输入至骨干网络后,Conv2~5将输出四个阶段特征,依据特征尺寸大小,依次为原输入图像的1/4,1/8,1/16以及1/32。骨干网络前三个阶段输出特征为低级特征,第四阶段输出为高级特征。
骨干网络提取高级特征后,采用条形池化语义增强模块SPSEM(Strip PoolingSemantic Enhancement Module)对骨干网络输出的高级特征进一步语义增强,进而获取大感受野中更多的远程上下文信息。
采用门控融合模块GFM(Gated Fusion Module)对骨干网络的四个阶段特征信息进行选择性的融合。具体而言,每个阶段的特征都会获得从更高级和更低级的特征中的强语义和更细节的信息,通过门控的方式来去除噪声。
具体地,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块,包括:
骨干网络包括四个阶段,第一阶段输出端与第一门控融合模块GFM1的输入端连接,第二阶段输出端与第二门控融合模块GFM2的输入端连接,第三阶段输出端与第三门控融合模块GFM3的输入端连接,第四阶段输出端与SPSEM的输入端连接。
在本实施例中使用三个结构相同的门控融合模块,分别为第一门控融合模块GFM1、第二门控融合模块GFM2以及第三门控融合模块GFM3
如图5所示,门控融合模块GFM由信息发送端和信息接收端构成,其中图5中的(a)为信息发送端,图5中的(b)为信息发送端,信息发送端的输出特征作为信息接收端的输入特征。其中信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层。信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,将信息发送端的输出端连接信息接收端的输入端。
具体地,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,包括:
第一特征连接第一门控模块Gate1的输入端,第一门控模块Gate1的输出端和第一特征分别连接第一乘法运算的输入端,第二特征连接第二门控模块Gate2的输入端,第二门控模块Gate2的输出端和第二特征分别连接第二乘法运算的输入端,第三特征连接第三门控模块Gate3的输入端,第三门控模块Gate3的输出端和第三特征分别连接第三乘法运算的输入端,第一乘法运算的输出端、第二乘法运算的输出端及第三乘法运算的输出端分别连接第一融合运算的输入端,第一融入运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层,Sigmoid函数层的输出端和第一融合运算的输出端分别连接第四乘法运算的输入端。
信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,包括:
第四特征连接第四门控模块Gate4的输入端,第四门控模块Gate4的输出端和第四特征分别连接第五乘法运算的输入端,第四门控模块Gate4的输出端连接取反模块的输入端,取反模块的输出端和第四乘法运算的输出端分别连接第六乘法运算的输入端,第五乘法运算的输出端、第六乘法运算的输出端以及第四特征分别连接第二融合运算的输入端,第二融合运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层,Sigmoid函数层的输出端和第二融合运算的输出端分别连接第七乘法运算的输入端;其中取反模块用于将第四门控模块Gate4的输出I进行1-I运算。
上述第一特征、第二特征、第三特征以及第四特征是指骨干网络四个阶段输出特征,将骨干网络在第一阶段输出特征记为X1,第二阶段输出特征记为X2,第三阶段输出特征记为X3,第四阶段输出特征记为X4。在每一个GFM中都包括四个特征作为输入特征,其中三个特征作为信息发送端的输入特征,另外一个特征作为信息接收端的输入特征,具体地,GFM1中信息发送端中输入特征Xi、Xj、Xk分别为X2、X3、X4,信息接收端中输入特征X l 为X1;GFM2中信息发送端中输入特征Xi、Xj、Xk分别为X1、X3、X4,信息接收端中输入特征X l 为X2;GFM3中信息发送端中输入特征Xi、Xj、Xk分别为X1、X2、X4,信息接收端中输入特征X l 为X3
上述信息发送端和信息接收端中均包含门控模块Gate,结构如图6所示,包括
Figure SMS_29
卷积和sigmoid函数。上述信息发送端中使用3个结构相同的门控模块,分别为第一门控模块Gate1、第二门控模块Gate2以及第三门控模块Gate3,信息接收端中使用结构相同的门控模块,记为第四门控模块Gate4
具体地,如图4所示,条形池化语义增强模块SPSEM包含五个并行分支,第一分支由
Figure SMS_31
卷积构成,用来跨通道的信息交互;第二分支由/>
Figure SMS_35
卷积和/>
Figure SMS_37
膨胀卷积构成,第三分支由/>
Figure SMS_32
卷积和/>
Figure SMS_34
膨胀卷积构成,第四分支由/>
Figure SMS_36
卷积和/>
Figure SMS_38
膨胀卷积构成,第二三四分支中均使用卷积分解策略,以此获得大感受野的上下文信息;第五分支由条形池化(Strip Pooling)层构成,分别从宽、高两个方向进行池化获取远程的上下文信息;将五个并行分支的输出端分别连接第一拼接层C的输入端,第一拼接层的输出端连接/>
Figure SMS_30
的卷积层输入端,将/>
Figure SMS_33
的卷积层输出端作为语义增强模块的输出端。在一个具体示例中,上述第二、三、四分支中膨胀卷积的膨胀率分别设置为2、3、5。
骨干网络前三个阶段输出特征为低级特征,故GFM1、GFM2、GFM3输出特征均为低级特征,骨干网络的第四阶段输出特征为高级特征,故条形池化语义增强模块SPSEM输出特征为高级特征。
步骤2,利用6个上下文指导模块CGM,构建解码器模块。
将对应阶段的门控融合模块输出特征与条形池化语义增强模块的输出特征输入至上下文指导模块CGM(Context Guide Module)中,通过上采样逐渐恢复空间信息来捕获更清晰的对象边界。通过3个相同结构的上下文指导模块,将第一阶段的特征图上采样到原始输入图像尺寸的1/4。再利用其它三个相同结构的上下文指导模块,将第二、三、四阶段的特征,上采用至原始输入图像尺寸的1/4。
具体地,利用6个上下文指导模块CGM,构建解码器模块,包括:
第一上下文指导模块CGM1的输入端分别连接SPSEM的输出端和GFM3的输出端,第二上下文指导模块CGM2的输入端分别连接CGM1的输出端和GFM2的输出端,第三上下文指导模块CGM3的输入端分别连接CGM2的输出端和GFM1的输出端,第四上下文指导模块CGM4的输入端分别连接CGM2的输出端和CGM3的输出端,第五上下文指导模块CGM5的输入端分别连接CGM1的输出端和CGM3的输出端,第六上下文指导模块CGM6的输入端分别连接CGM3的输出端和SPSEM的输出端。
如图7所示为上下文指导模块CGM结构示意图,上下文指导模块CGM包含两个并行分支,第一分支由
Figure SMS_39
卷积和/>
Figure SMS_40
卷积构成,第二分支由/>
Figure SMS_41
卷积和上采样UP构成,将两个并行分支的输出端分别连接融合运算的输入端。第一分支的输入端为低级特征,第二分支的输入端为高级特征,将融合运算的输出端作为CGM的输出端。具体地,CGM1的第一分支输入端连接GFM3的输出端,第二分支输入端连接SPSEM的输出端;CGM2的第一分支输入端连接GFM2的输出端,第二分支输入端连接CGM1的输出端;CGM3的第一分支输入端连接GFM1的输出端,第二分支输入端连接CGM2的输出端;CGM4的第一分支输入端连接GFM3的输出端,第二分支输入端连接CGM2的输出端;CGM5的第一分支输入端连接GFM3的输出端,第二分支输入端连接CGM1的输出端;CGM6的第一分支输入端连接GFM3的输出端,第二分支输入端连接SPSEM的输出端。
步骤3,将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型。
进一步,将解码器模块的输出端与拼接运算层的输入端连接,包括:
将CGM3的输出端、CGM4的输出端、CGM5的输出端以及CGM6的输出端分别连接拼接运算层的输入端,将上采样层的输出端作为初始语义分割模型的输出端。
步骤4,利用样本数据训练初始语义分割模型,得到目标语义分割模型,结构如图2所示。
进一步,上述样本数据集可以是从Cityscapes官网下载Cityscapes的数据集。Cityscapes数据集是由不同的城市道路场景的图片组成,包含5000张精细标注的标签以及20000张粗标签,本实施例仅使用5000张精细标注的图片和19个分割类别,5000张精细标注图片包含2975张训练集图片、500张验证集图片、1525张测试集图片。利用训练集图片、验证集图片及其对应的分割类别对初始语义分割模型进行训练,得到目标语义分割模型。
可选的,训练过程包括以下步骤:
步骤S4.1:设定训练模型初始参数如下:
初始学习率(learning rate):0.01;
优化器(optimization):SGD优化器;
学习率衰减(learning rate decay):poly策略;
权重衰减(weight decay):0.0005;
动量(momentum):0.9;
批大小(batch size):16;
训练轮数(epoch):300;
步骤S4.2:在训练过程中使用Dropout进行正则化,采用交叉熵损失函数(CrossEntropy loss)计算loss,计算公式如下:
Figure SMS_42
式中,
Figure SMS_44
表示真实值,/>
Figure SMS_46
表示预测值,当/>
Figure SMS_49
=1时,/>
Figure SMS_45
,此时/>
Figure SMS_48
越接近1,损失值越小,/>
Figure SMS_51
越接近0,损失值越大。当/>
Figure SMS_52
为0时,/>
Figure SMS_43
,此时/>
Figure SMS_47
越接近1,损失值越大,/>
Figure SMS_50
越接近0,损失值越小;
步骤S4.3:根据将步骤S4.2得到的损失函数计算梯度,采用SGD优化器更新神经网络权重以及偏置;
步骤S4.4:采用poly策略进行学习率衰减,衰减公式如下:
Figure SMS_53
式中,
Figure SMS_54
表示初始学习率,/>
Figure SMS_55
表示当前训练轮数,
Figure SMS_56
表示设置总训练轮数,power表示多项式的幂值;
步骤S4.5:使用平均交并比mIoU(mean Intersection over Union)对模型进行评估,mIoU表示网络模型分割的精度,mIoU值越高则表示图像分割效果越好;计算方法如下:
Figure SMS_57
式中,TP(True Positive)表示真正例,即模型预测与实际均为正例;FP(FalsePositive)表示假正例,即模型预测该类别为正例,但真实标签中该类别为反例;FN(FalseNegative)表示真负例,即模型预测该类别为反例,真实标签中该类别为正例;N代表类别数,
Figure SMS_58
代表第/>
Figure SMS_59
类;
步骤S4.6:重复步骤S4.2至S4.5训练过程,每训练完一轮使用验证数据集对网络模型进行评估,按照最优mIoU值保存模型参数,直至训练轮数300轮全部完成;
步骤S4.7:将测试集数据输入到步骤S4.6得到目标语义分割网络,得到城市道路场景图像语义分割结果:
导入步骤S4.6中获得的最优模型参数,读入测试集图片以及标签,计算mIoU评分,保存测试结果。
实施例二
与上述本发明实施例提供的一种网络构建方法相对应,本发明实施例提供的一种城市场景实时语义分割方法,该城市场景实时语义分割方法应用于上述网络构建方法所构建的目标语义分割模型,该城市场景实时语义分割方法包括:
获取城市场景数据集并进行数据预处理,将预处理后的图像数据输入至目标语义分割模型,获取目标语义分割模型的输出,得到城市场景语义分割结果。
进一步,将城市场景数据集进行数据预处理,包括:
将数据集中的图片以及其对应标签进行缩放、左右反转、随机裁剪和随机旋转,得到第一图像。
进一步,将预处理后的图像数据输入至目标语义分割模型,包括:
将第一图像输入至骨干网络,利用骨干网络的第一阶段得到特征X1,利用骨干网络的第二阶段得到特征X2,利用骨干网络的第三阶段得到特征X3,利用骨干网络的第四阶段得到特征X4
将特征X2、X3和X4输入至GFM1的信息发送端,得到特征F1,再将特征X1和特征F1输入至GFM1的信息接收端,得到特征F5
将特征X1、X3和X4输入至GFM2的信息发送端,得到特征F 1,再将特征X2和特征F 1输入至GFM2的信息接收端,得到特征F 5
将特征X1、X2和X4输入至GFM3的信息发送端,得到特征F’’ 1,再将特征X3和特征F’’ 1输入至GFM3的信息接收端,得到特征F’’ 5
将特征X4输入至SPSEM,得到特征S。
在本实施例中共使用3个结构相同的GFM模块,本示例中以第三门控融合模块GFM3为例进行说明其内部运算过程,具体为:将特征X1、X2和X4输入至GFM3的信息发送端,特征X1、X2和X4分别输入至Gate模块输出后与原特征X1、X2、X4相乘后融合,再通过全局平均池化GAP层、Sigmoid函数层与融合后特征相乘动态调整各通道信息的重要性,得到输出特征F1。将信息发送端的输出特征F1作为信息接收端的输入特征输入至第三乘法运算中。信息接收端分三个部分,第一部分使用特征X3输入至门控模块Gate4得到空间信息权重
Figure SMS_60
后与原特征X3相乘得到特征F2;第二部分通过/>
Figure SMS_61
获得当前特征所缺空间信息的权重后与信息发送端输出特征F1相乘得到特征/>
Figure SMS_62
后,将特征X3、特征F3和特征F2进行融合得到特征F4;第四部分通过全局平均池化GAP、Sigmoid函数与融合后特征F4相乘动态调整各通道信息的重要性,输出门控融合模块特征F5
进一步,将预处理后的图像数据输入至目标语义分割模型,还包括:
利用CGM1对特征S和特征F’’ 5进行整合上采样,得到特征C1
利用CGM2对特征C1和特征F 5进行整合上采样,得到特征C2
利用CGM3对特征C2和特征F5进行整合上采样,得到特征C3
利用CGM4对特征C2和特征C3进行整合上采样,得到特征C4
利用CGM5对特征C1和特征C3进行整合上采样,得到特征C5
利用CGM6对特征C3和特征S进行整合上采样,得到特征C6
将特征C3、特征C4、特征C5和特征C6进行拼接,得到特征C7
利用卷积层将特征C7的通道数处理成分割类别数,再利用双线性插值上采样至原始输入图像的尺寸大小,得到最终的语义分割结果。
具体地,利用CGM1对特征S和特征F’’ 5进行整合上采样,其中特征F’’ 5作为低级特征输入至CGM1的第一分支,特征S作为高级特征输入至CGM1的第二分支,将第一分支的输出和第二分支的输出进行融合,得到特征C1,将特征C1作为CGM1的输出特征。
利用CGM2对特征C1和特征F 5进行整合上采样,其中特征F 5作为低级特征输入至CGM2的第一分支,特征C1作为高级特征输入至CGM2的第二分支,将第一分支的输出和第二分支的输出进行融合,得到特征C2,将特征C2作为CGM2的输出特征。
利用CGM3对特征C2和特征F5进行整合上采样,其中特征F5作为低级特征输入至CGM3的第一分支,特征C2作为高级特征输入至CGM3的第二分支,将第一分支的输出和第二分支的输出进行融合,得到特征C3,将特征C3作为CGM3的输出特征。
利用CGM4对特征C2和特征C3进行整合上采样,其中特征C3作为低级特征输入至CGM4的第一分支,特征C2作为高级特征输入至CGM4的第二分支,将第一分支的输出和第二分支的输出进行融合,得到特征C4,将特征C4作为CGM4的输出特征。
利用CGM5对特征C1和特征C3进行整合上采样,其中特征C3作为低级特征输入至CGM5的第一分支,特征C1作为高级特征输入至CGM5的第二分支,将第一分支的输出和第二分支的输出进行融合,得到特征C5,将特征C5作为CGM5的输出特征。
利用CGM6对特征C3和特征S进行整合上采样,其中特征C3作为低级特征输入至CGM6的第一分支,特征S作为高级特征输入至CGM6的第二分支,将第一分支的输出和第二分支的输出进行融合,得到特征C6,将特征C6作为CGM6的输出特征。
将特征C3、特征C4、特征C5和特征C6进行拼接,得到特征C7

Claims (6)

1.一种城市场景实时语义分割方法,其特征在于,应用于目标语义分割模型,所述城市场景实时语义分割方法包括:
获取城市场景数据集并进行数据预处理,将预处理后的图像数据输入至目标语义分割模型,获取目标语义分割模型的输出,得到城市场景语义分割结果;
目标语义分割模型建立过程包括:
利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块;
利用6个上下文指导模块CGM,构建解码器模块;
将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型;
利用样本数据训练初始语义分割模型,得到目标语义分割模型;
其中,利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM,构建编码器模块,包括:
骨干网络包括四个阶段,第一阶段输出端与第一门控融合模块GFM1的输入端连接,第二阶段输出端与第二门控融合模块GFM2的输入端连接,第三阶段输出端与第三门控融合模块GFM3的输入端连接,第四阶段输出端与SPSEM的输入端连接;
利用6个上下文指导模块CGM,构建解码器模块,包括:
第一上下文指导模块CGM1的输入端分别连接SPSEM的输出端和GFM3的输出端,第二上下文指导模块CGM2的输入端分别连接CGM1的输出端和GFM2的输出端,第三上下文指导模块CGM3的输入端分别连接CGM2的输出端和GFM1的输出端,第四上下文指导模块CGM4的输入端分别连接CGM2的输出端和CGM3的输出端,第五上下文指导模块CGM5的输入端分别连接CGM1的输出端和CGM3的输出端,第六上下文指导模块CGM6的输入端分别连接CGM3的输出端和SPSEM的输出端;
将解码器模块的输出端与拼接运算层的输入端连接,包括:
将CGM3的输出端、CGM4的输出端、CGM5的输出端以及CGM6的输出端分别连接拼接运算层的输入端。
2.根据权利要求1所述的城市场景实时语义分割方法,其特征在于,条形池化语义增强模块SPSEM包含五个并行分支,第一分支由1×1卷积构成,第二分支由3×3卷积和3×3膨胀卷积构成,第三分支由3×3卷积和3×3膨胀卷积构成,第四分支由3×3卷积和3×3膨胀卷积构成,第五分支由条形池化层构成,将五个并行分支的输出端分别连接第一拼接层的输入端,第一拼接层的输出端连接1×1的卷积层输入端;
门控融合模块GFM由信息发送端和信息接收端构成,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,将信息发送端的输出端连接信息接收端的输入端;
上下文指导模块CGM包含两个并行分支,第一分支由1×1卷积和3×3卷积构成,第二分支由1×1卷积和上采样UP构成,将两个并行分支的输出端分别连接融合运算的输入端。
3.根据权利要求2所述的城市场景实时语义分割方法,其特征在于,信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层,具体包括:
第一特征连接第一门控模块Gate1的输入端,第一门控模块Gate1的输出端和第一特征分别连接第一乘法运算的输入端,第二特征连接第二门控模块Gate2的输入端,第二门控模块Gate2的输出端和第二特征分别连接第二乘法运算的输入端,第三特征连接第三门控模块Gate3的输入端,第三门控模块Gate3的输出端和第三特征分别连接第三乘法运算的输入端,第一乘法运算的输出端、第二乘法运算的输出端及第三乘法运算的输出端分别连接第一融合运算的输入端,第一融入运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层,Sigmoid函数层的输出端和第一融合运算的输出端分别连接第四乘法运算的输入端;
信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层,具体包括:
第四特征连接第四门控模块Gate4的输入端,第四门控模块Gate4的输出端和第四特征分别连接第五乘法运算的输入端,第四门控模块Gate4的输出端连接取反模块的输入端,取反模块的输出端和第四乘法运算的输出端分别连接第六乘法运算的输入端,第五乘法运算的输出端、第六乘法运算的输出端以及第四特征分别连接第二融合运算的输入端,第二融合运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层,Sigmoid函数层的输出端和第二融合运算的输出端分别连接第七乘法运算的输入端;其中取反模块用于将第四门控模块Gate4的输出I进行1-I运算。
4.根据权利要求1所述的城市场景实时语义分割方法,其特征在于,将城市场景数据集进行数据预处理,包括:
将数据集中的图片以及其对应标签进行缩放、左右反转、随机裁剪和随机旋转,得到第一图像。
5.根据权利要求4所述的城市场景实时语义分割方法,其特征在于,将预处理后的图像数据输入至目标语义分割模型,包括:
将第一图像输入至骨干网络,利用骨干网络的第一阶段得到特征X1,利用骨干网络的第二阶段得到特征X2,利用骨干网络的第三阶段得到特征X3,利用骨干网络的第四阶段得到特征X4
将特征X2、X3和X4输入至GFM1的信息发送端,得到特征F1,再将特征X1和特征F1输入至GFM1的信息接收端,得到特征F5
将特征X1、X3和X4输入至GFM2的信息发送端,得到特征F 1,再将特征X2和特征F 1输入至GFM2的信息接收端,得到特征F 5
将特征X1、X2和X4输入至GFM3的信息发送端,得到特征F”1,再将特征X3和特征F”1输入至GFM3的信息接收端,得到特征F”5
将特征X4输入至SPSEM,得到特征S。
6.根据权利要求5所述的城市场景实时语义分割方法,其特征在于,将预处理后的图像数据输入至目标语义分割模型,还包括:
利用CGM1对特征S和特征F”5进行整合上采样,得到特征C1
利用CGM2对特征C1和特征F 5进行整合上采样,得到特征C2
利用CGM3对特征C2和特征F5进行整合上采样,得到特征C3
利用CGM4对特征C2和特征C3进行整合上采样,得到特征C4
利用CGM5对特征C1和特征C3进行整合上采样,得到特征C5
利用CGM6对特征C3和特征S进行整合上采样,得到特征C6
将特征C3、特征C4、特征C5和特征C6进行拼接,得到特征C7
利用卷积层将特征C7的通道数处理成分割类别数,再利用双线性插值上采样至原始输入图像的尺寸大小,得到最终的语义分割结果。
CN202310293401.XA 2023-03-24 2023-03-24 一种网络构建方法及城市场景实时语义分割方法 Active CN115995002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310293401.XA CN115995002B (zh) 2023-03-24 2023-03-24 一种网络构建方法及城市场景实时语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310293401.XA CN115995002B (zh) 2023-03-24 2023-03-24 一种网络构建方法及城市场景实时语义分割方法

Publications (2)

Publication Number Publication Date
CN115995002A CN115995002A (zh) 2023-04-21
CN115995002B true CN115995002B (zh) 2023-06-16

Family

ID=85995297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310293401.XA Active CN115995002B (zh) 2023-03-24 2023-03-24 一种网络构建方法及城市场景实时语义分割方法

Country Status (1)

Country Link
CN (1) CN115995002B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740362B (zh) * 2023-08-14 2023-11-21 南京信息工程大学 一种基于注意力的轻量化非对称场景语义分割方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313721A (zh) * 2021-07-30 2021-08-27 南京理工大学 基于多尺度结构的实时语义分割方法
CN113689434A (zh) * 2021-07-14 2021-11-23 淮阴工学院 一种基于条带池化的图像语义分割方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018076212A1 (zh) * 2016-10-26 2018-05-03 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN107564017B (zh) * 2017-08-29 2020-01-10 南京信息工程大学 一种城市高分遥感影像阴影检测及分割方法
CN111126127B (zh) * 2019-10-23 2022-02-01 武汉大学 一种多级空间上下文特征指导的高分辨率遥感影像分类方法
AU2020100274A4 (en) * 2020-02-25 2020-03-26 Huang, Shuying DR A Multi-Scale Feature Fusion Network based on GANs for Haze Removal
CN112150470B (zh) * 2020-09-22 2023-10-03 平安科技(深圳)有限公司 图像分割方法、装置、介质及电子设备
CN112287931B (zh) * 2020-12-30 2021-03-19 浙江万里学院 一种场景文本检测方法及系统
CN115424261A (zh) * 2021-05-13 2022-12-02 顺丰科技有限公司 仓库点云语义分割方法、装置、计算机设备和存储介质
CN113902925A (zh) * 2021-10-26 2022-01-07 上海师范大学 一种基于深度卷积神经网络的语义分割方法及系统
CN115035298A (zh) * 2022-06-17 2022-09-09 杭州电子科技大学 基于多维注意力机制的城市街景语义分割增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689434A (zh) * 2021-07-14 2021-11-23 淮阴工学院 一种基于条带池化的图像语义分割方法
CN113313721A (zh) * 2021-07-30 2021-08-27 南京理工大学 基于多尺度结构的实时语义分割方法

Also Published As

Publication number Publication date
CN115995002A (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN109241972B (zh) 基于深度学习的图像语义分割方法
CN111275711B (zh) 基于轻量级卷积神经网络模型的实时图像语义分割方法
CN111062395B (zh) 一种实时的视频语义分割方法
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN111353505B (zh) 基于可联合实现语义分割和景深估计的网络模型的装置
CN114943963A (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113658200B (zh) 基于自适应特征融合的边缘感知图像语义分割方法
CN116189180A (zh) 一种城市街景广告图像分割方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN115995002B (zh) 一种网络构建方法及城市场景实时语义分割方法
CN114913493A (zh) 一种基于深度学习的车道线检测方法
CN114565770A (zh) 基于边缘辅助计算和掩模注意力的图像分割方法及系统
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN111401247A (zh) 一种基于级联卷积神经网络的人像分割方法
CN116310339A (zh) 基于矩阵分解增强全局特征的遥感图像分割方法
CN114996495A (zh) 一种基于多原型和迭代增强的单样本图像分割方法及装置
CN116486080A (zh) 一种基于深度学习的轻量化图像语义分割方法
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
Dong et al. Refinement Co‐supervision network for real‐time semantic segmentation
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN116977712B (zh) 基于知识蒸馏的道路场景分割方法、系统、设备及介质
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant