CN113781504A - 一种基于边界引导的道路场景语义分割方法 - Google Patents
一种基于边界引导的道路场景语义分割方法 Download PDFInfo
- Publication number
- CN113781504A CN113781504A CN202111082517.6A CN202111082517A CN113781504A CN 113781504 A CN113781504 A CN 113781504A CN 202111082517 A CN202111082517 A CN 202111082517A CN 113781504 A CN113781504 A CN 113781504A
- Authority
- CN
- China
- Prior art keywords
- feature map
- module
- convolution
- image
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims description 46
- 238000010586 diagram Methods 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 17
- 239000011800 void material Substances 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 abstract description 37
- 238000013135 deep learning Methods 0.000 abstract description 8
- 239000010410 layer Substances 0.000 description 274
- 238000010606 normalization Methods 0.000 description 91
- 230000004913 activation Effects 0.000 description 63
- 238000002156 mixing Methods 0.000 description 22
- 238000012360 testing method Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于边界引导的道路场景语义分割方法,涉及深度学习领域,具体步骤为:获取训练集,训练集包括原始道路场景RGB图像、Thermal热红外图像、预处理后的边界图像;构建卷积神经网络;将训练集输入到卷积神经网络中进行训练,得到对应的语义分割预测图;语义分割预测图构成第一集合,真实语义分割图像处理成的独热编码图像构成第二集合,计算第一集合与第二集合之间的损失函数,得到卷积神经网络分类训练模型的最优权值矢量和偏置项,卷积神经网络分类训练模型训练完成;将待语义分割的道路场景图像输入卷积神经网络分类训练模型中,得到预测语义分割图像,优点是提高了RGB‑T道路图像的语义分割效率和准确度。
Description
技术领域
本发明涉及深度学习技术领域,更具体的说是涉及一种基于边界引导的道路场景语义分割方法。
背景技术
智能交通行业的兴起,使得语义分割在智能交通系统的应用越来越广泛,从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前,传统语义分割,主要主要依靠图像纹理、颜色以及其他一些简易的表层特征和外部结构特征进行图像分割,以此方式得到的分割结果相对粗陋,精度较低,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的道路场景语义分割方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,分割精度低。因此,对本领域技术人员来说,如何在保证分割效率的同时提高分割精度是亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于边界引导的道路场景语义分割方法,基于边界引导进行道路场景语义分割,其分割效率高,且分割准确度高。
为了实现上述目的,本发明采用如下技术方案:一方面,提供一种基于边界引导的道路场景语义分割方法,包括训练阶段和测试阶段,其特征在于,具体步骤为:
获取训练集,所述训练集包括原始道路场景RGB图像、Thermal热红外图像、预处理后的边界图像;
构建卷积神经网络;
将所述训练集输入到所述卷积神经网络中进行训练,得到对应的语义分割预测图;
所述语义分割预测图构成第一集合,真实语义分割图像处理成的独热编码图像构成第二集合,计算所述第一集合与第二集合之间的损失函数,得到卷积神经网络分类训练模型的最优权值矢量和偏置项,所述卷积神经网络分类训练模型训练完成;
将待语义分割的道路场景图像输入所述卷积神经网络分类训练模型中,得到预测语义分割图像。
可选的,所述卷积神经网络包括10个编码模块、5个融合模块、1个高级语义模块、1个高级信息模块、4个解码融合模块;所述卷积神经网络中分为两支结构相同的编码流,RGB编码流包含5个编码模块,分别为依次连接的第一个编码模块、第二个编码模块、第三个编码模块、第四个编码模块、第五个编码模块、Thermal编码流包含5个编码模块,分别为依次连接的第六个编码模块、第七个编码模块、第八个编码模块、第九个编码模块、第十个编码模块;融合模块与编码模块相连,高级语义模块分别与第五个融合模块、第四个融合模块相连,高级信息模块与第五个融合模块相连,高级信息模块还与解码融合模块相连。
可选的,所述融合模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第一交融模块、空洞金字塔模块;第一特征图输入到所述第一卷积模块中得到第三特征图,第二特征图输入到所述第一卷积模块中得到第四特征图,将所述第三特征图和所述第四特征图进行相加操作,得到第五特征图,将所述第五特征图与所述第三特征图进行点乘操作得到第六特征图,将所述第五特征图与所述第四特征图进行点乘操作得到第七特征图,将所述第六特征图与所述第七特征图进行拼接操作得到第八特征图,将所述第八特征图输入到所述第二卷积模块中得到第九特征图,所述第九特征图输入到所述第一交融模块得到第十特征图,所述第十特征图输入到所述空洞金字塔模块得到第十一特征图,所述第十一特征图输入到所述第三卷积模块得到第十二特征图,所述第十二特征图输入到所述第四卷积模块得到第十三特征图。
可选的,所述高级语义模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块;输入图像经过32倍上采样得到第一特征图A,输入图像A经过16倍上采样得到第二特征图A,将第一特征图A与第二特征图A进行拼接操作得到第三特征图A,将第三特征图A输入到第一卷积模块得到第四特征图A,将第一特征图A、第二特征图A、第四特征图A进行求和操作得到第五特征图A,将第五特征图A输入到第二卷积模块中得到第六特征图A,将第一特征图A与第六特征图A进行点乘操作得到第七特征图A,将第七特征图A输入到第三卷积模块中得到第八特征图A,将网络的输入e输入到第四卷积模块中得到eout,将第八特征图A与eout进行点乘操作得到第九特征图A,将第八特征图A与第九特征图A进行求和操作得到输出Sem1。
可选的,所述高级信息模块包括7个卷积模块;将特征图分别输入到第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块得到第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B,将第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B进行拼接操作得到第六特征图B,将第六特征图B输入到第六卷积模块得到第七特征图B,将第七特征图B与特征图进行求和得到第八特征图B,将第八特征图B输入到第七卷积模块中得到第九特征图B。
可选的,所述解码融合模块包括第一注意力模块、第一卷积模块、第二注意力模块、第二卷积模块、第三卷积模块、第四卷积模块;将图像分别输入到第一卷积模块和第二注意力模块,得到第一特征图C1、第一特征图C2,将第二图像输入到第一注意力模块,得到第一特征图C3,第一特征图C1与第一特征图C3进行点乘操作得到第二特征图C,第一特征图C1与第一特征图C2进行点乘操作得到第三特征图C,将第一特征图C1、第二特征图C、第三特征图C分别输入到第二卷积模块后进行求和操作,得到第四特征图C,将第四特征图C输入到第三卷积模块中得到第五特征图C,将第五特征图C输入到第四卷积模块得到第六特征图C并进行上采样操作。
可选的,将所述原始道路场景RGB图像、Thermal热红外图像分别使用sobel算法进行预处理,得到所述预处理后的边界图像。
另一方面,提供一种基于边界引导的道路场景语义分割系统,包括数据采集模块、神经网络构建模块、损失函数计算模块、预测模块;其中,
所述数据采集模块,用于采集数据样本,所述数据样本分为训练集与测试集;
所述神经网络构建模块,用于构建卷积神经网络模型,并将所述训练集输入到所述卷积神经网络中进行训练,得到对应的语义分割预测图;
所述损失函数计算模块,用于计算所述语义分割预测图构成的集合与真实语义分割图像处理成的独热编码图像集合之间的损失函数,得到卷积神经网络分类训练模型的最优权值矢量和偏置项;
所述预测模块,用于将所述测试集输入到所述卷积神经网络分类训练模型中,得到预测语义分割图像。
可选的,所述数据样本包括原始道路场景RGB图像和Thermal热红外图像;对所述数据样本通过sobel算法进行数据预处理,得到预处理后的边界图像。
最后,提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现基于边界引导的道路场景语义分割方法的步骤。
经由上述的技术方案可知,本发明公开提供了一种基于边界引导的道路场景语义分割方法,与现有技术相比,具有以下有益的技术效果:
1)本发明方法构建卷积神经网络,使用训练集中的道路场景RGBT图像和预处理之后的边界图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,预测得到道路场景图像对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时使用了新的融合方法,使网络可以更好的学习RGB,T信息和上一级的输出信息,充分利用了特征的信息,因此能够比较准确地描述道路场景中各种分类目标,从而有效地提高了道路场景图像的语义分割精确度。
2)本发明方法采用了边界引导的方式,对原始的RGBT数据集进行预处理得到边界图像,再将处理好的边界图像和RGBT信息一同输入到神经网络中,增加了边界细节信息,有效的提高了语义分割精度。
3)本发明方法设计了高级语义信息模块,利用了高级语义进行监督,进而在训练集和测试集上都获得了很好的分割效果。
4)本发明方法充分利用了边界细节信息,对输出的分割图像进行边界监督,使分割结果更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明方法的总体实现框图;
图2为融合模块FM的实现框图;
图3为高级语义模块SEM的实现框图;
图4为高级信息模块HL的实现框图;
图5为解码融合模块MF的实现框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1公开了一种基于边界引导的道路场景语义分割方法,本发明方法的实现框图如图1所示,
包括训练阶段和测试阶段,训练阶段的具体步骤为:
获取训练集,训练集包括原始道路场景RGB图像、Thermal热红外图像、预处理后的边界图像;
构建卷积神经网络;
将训练集输入到卷积神经网络中进行训练,得到对应的语义分割预测图;
语义分割预测图构成第一集合,真实语义分割图像处理成的独热编码图像构成第二集合,计算第一集合与第二集合之间的损失函数,得到卷积神经网络分类训练模型的最优权值矢量和偏置项,卷积神经网络分类训练模型训练完成;
测试阶段的具体步骤为:
将待语义分割的道路场景图像输入卷积神经网络分类训练模型中,得到预测语义分割图像。
具体的,训练阶段过程的具体步骤为:
步骤1-0:将数据集中的RGB图像和Thermal热红外图像分别使用sobel算法进行数据预处理;将上述处理好的Numpy数组对应相加得到既包含RGB信息又包含Thermal信息的Numpy数组;利用PIL自带的numpy to image方法,将上面生成的Numpy数组转换成图片格式并且保留作为边界数据集。
步骤1-1:选取784幅原始的道路场景RGB图像、Thermal热红外图像、对应生成的边界数据集图像、以及对应的真实语义分割图像、真实的边界图像,构成训练集,将其中的原始图像集合记为{J(i,j)},将与其原始图像对应的真实语义分割图像记为{Jtrue(i,j)},然后采用现有的独热编码技术(one-hot)将将{Jtrue(i,j)}处理成9幅独热编码图像构成的集合记为Jtrue。其中原始图像的高为480,宽为640,1≤i≤640,1≤j≤480,J(i,j)表示{J(i,j)}中坐标位置为(i,j)的像素点的像素值,Jtrue(i,j)表示{Jtrue(i,j)}中坐标位置为(i,j)的像素点的像素值。
步骤1-2:构建卷积神经网络:卷积神经网络包括编码层和解码层两部分,分别对图像进行特征提取操作和上采样操作;
在编码阶段,因包含RGB(R,G,B三通道分量的彩色图像)和Thermal(单通道的热红外图像)两种不同模态的输入,网络分为两支结构相同的编码流,分别对输入的RGB和Thermal进行编码,主干网络都使用了ResNet-152。RGB编码流包含5个卷积块,分别为第1个编码模块,第2个编码模块,第3个编码模块,第4个编码模块,第5个编码模块。同样Thermal编码流也包含5个卷积块,分别为第6个编码模块,第7个编码模块,第8个编码模块,第9个编码模块,第10个编码模块。此外设计了用于生成高级信息的HL模块;用于融合RGB信息和Thermal信息的融合模块FM(包括五个FM模块,分别为FM1,FM2,FM3,FM4,FM5);用于融合FM输出信息,HL输出信息和上一级输出信息的解码融合模块MF(包括四个MF模块,分别为MF1,MF2,MF3,MF4);用于语义监督的高级语义模块SEM。
对于第1个编码模块,其由依次设置的第一卷积层(Convolution,Conv),第一批量归一化层(BatchNorm),第一激活层(Activation,Act)组成。其中第一卷积层采用卷积核(kernel_size)大小为7,步长(stride)为2,边缘填充(padding)为3,卷积核个数为64。第1个编码模块的输入端接收原始输入图像的RGB三通道分量,要求输入端接收的原始输入图像的宽度为W、高度为H。经过第一批量归一化层的归一化操作之后再经过第一激活层(激活方式为Relu)输出64幅输出特征图,将64副特征图构成的集合记为N1;其中每幅特征图的宽度为高度为
对于第2个编码模块,依次由1个下采样层和3个残差单元组成。其中,第1个下采样层所采用的是最大池化下采样,卷积核大小为3×3,步长为2,填充系数为1。对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为1;一层归一化层组成,输出通道数为256。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第2个编码模块的输入端接收N1中的所有特征图,输出端输出256副特征图,将256副特征图构成的集合记为N2,其中每幅特征图的宽度为高度为
对于第3个编码模块,依次由8个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为512。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第3个编码模块的输入端接收N2中的所有特征图,输出端输出512副特征图,将512副特征图构成的集合记为N3,其中每幅特征图的宽度为高度为
对于第4个编码模块,依次由36个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为1024。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第4个编码模块的输入端接收N3中的所有特征图,输出端输出1024副特征图,将1024副特征图构成的集合记为N4,其中每幅特征图的宽度为高度为
对于第5个编码模块,依次由3个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为2048。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第5个编码模块的输入端接收N4中的所有特征图,输出端输出2048副特征图,将2048副特征图构成的集合记为N5,其中每幅特征图的宽度为高度为
对于第6个编码模块,其由依次设置的第一卷积层(Convolution,Conv),第一批量归一化层(BatchNorm),第一激活层(Activation,Act)组成。其中第一卷积层采用卷积核(kernel_size)大小为7,步长(stride)为2,边缘填充(padding)为3,卷积核个数为64。第6个编码模块的输入端接收原始输入图像的Thermal单通道分量,要求输入端接收的原始输入图像的宽度为W、高度为H。经过第一批量归一化层的归一化操作之后再经过第一激活层(激活方式为Relu)输出64幅输出特征图,将64副特征图构成的集合记为N6;其中每幅特征图的宽度为高度为
对于第7个编码模块,依次由1个下采样层和3个残差单元组成。其中,第1个下采样层所采用的是最大池化下采样,卷积核大小为3×3,步长为2,填充系数为1。对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为1;一层归一化层组成,输出通道数为256。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为256。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第7个编码模块的输入端接收N6中的所有特征图,输出端输出256副特征图,将256副特征图构成的集合记为N7,其中每幅特征图的宽度为高度为
对于第8个编码模块,依次由8个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为512。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为512。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第8个编码模块的输入端接收N7中的所有特征图,输出端输出512副特征图,将512副特征图构成的集合记为N8,其中每幅特征图的宽度为高度为
对于第9个编码模块,依次由36个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为1024。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为1024。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第9个编码模块的输入端接收N8中的所有特征图,输出端输出1024副特征图,将1024副特征图构成的集合记为N9,其中每幅特征图的宽度为高度为
对于第10个编码模块,依次由3个残差单元组成。其中,对于第一个残差单元的主分支依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为2;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。对于其捷径分支,则依次由一层卷积,卷积核大小为1,步长为2;一层归一化层组成,输出通道数为2048。对于其他残差单元,依次由第一卷积层,卷积核为1,步长为1;第一归一化层;第二卷积层,卷积核为3,步长为1;第二归一化层;第三卷积层,卷积核为1,步长为1;第三归一化层和第一激活层组成,输出通道数为2048。其捷径分支无其他操作,只是单纯的输入数据的流动。每个残差单元最后的操作都是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出。第10个编码模块的输入端接收N9中的所有特征图,输出端输出2048副特征图,将2048副特征图构成的集合记为N10,其中每幅特征图的宽度为高度为
融合模块FM的实现框图如图2所示,对于第一个融合模块FM1,将第1个编码模块的RGB输出记为R1,将第6个编码模块的Thermal输出记为T1。将R1和T1分别依次输入到卷积核大小为1,步长为1,卷积核个数为64的第一卷积模块中,输出分别为和T1 out;将生成的和T1 out进行元素相加操作,得到输出f1 out1;接着将f1 out1和进行点乘操作得到f1 out2,将f1 out1和T1 out进行点乘操作得到f1 out3;之后将f1 out2和f1 out3进行拼接操作得到f1 out4;然后将f1 out4输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块中得到f1 out5;接着将f1 out5输入到第一交融模块中得到f1 out6,其中第一交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的f1 out6输入到空洞金字塔模块中得到f1 out7,其中空洞金字塔模块由四个不同空洞率的空洞卷积块组成,第一空洞卷积块的卷积核大小为3,步长为1,边缘填充为1,空洞率为1,卷积核个数为64,第二空洞卷积块的卷积核大小为3,步长为1,边缘填充为2,空洞率为2,卷积核个数为64,第三空洞卷积块的卷积核大小为3,步长为1,边缘填充为3,空洞率为3,卷积核个数为64,第四空洞卷积块的卷积核大小为3,步长为1,边缘填充为4,空洞率为4,卷积核个数为64,将上述f1 out6经过四个不同空洞率的空洞卷积块得到的四个输出与f1 out6进行拼接操作得到f1 out7;接着将上述生成的f1 out7输入到卷积核大小为3,步长为1,卷积核个数为64的第三卷积模块中得到输出f1;将f1 out7输入到第四卷积模块中得到输出b1,其中第四卷积模块由卷积核大小为3,步长为1,卷积核个数为2的卷积层,归一化层和激活层组成。
将第一个融合模块FM1的输出b1依次经过2倍双线性插值上采样,卷积核大小为1,步长为1,卷积核个数为2的第一卷积模块得到输出b1 1;将b1 1和网络的输入e进行点乘操作得到B1。
对于第二个融合模块FM2,将第2个编码模块的RGB输出记为R2,将第7个编码模块的Thermal输出记为T2。将R2和T2分别依次输入到卷积核大小为1,步长为1,卷积核个数为64的第一卷积模块中,输出分别为和将生成的和进行元素相加操作,得到输出接着将和进行点乘操作得到将和进行点乘操作得到之后将和进行拼接操作得到然后将输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块中得到接着将输入到第一交融模块中得到其中第一交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的输入到空洞金字塔模块中得到其中空洞金字塔模块由四个不同空洞率的空洞卷积块组成,第一空洞卷积块的卷积核大小为3,步长为1,边缘填充为1,空洞率为1,卷积核个数为64,第二空洞卷积块的卷积核大小为3,步长为1,边缘填充为2,空洞率为2,卷积核个数为64,第三空洞卷积块的卷积核大小为3,步长为1,边缘填充为3,空洞率为3,卷积核个数为64,第四空洞卷积块的卷积核大小为3,步长为1,边缘填充为4,空洞率为4,卷积核个数为64,将上述经过四个不同空洞率的空洞卷积块得到的四个输出与进行拼接操作得到接着将上述生成的输入到卷积核大小为3,步长为1,卷积核个数为64的第三卷积模块中得到输出f2;将输入到第四卷积模块中得到输出b2,其中第四卷积模块由卷积核大小为3,步长为1,卷积核个数为2的卷积,归一化层和激活层组成。
将第二个融合模块FM2的输出b2依次经过4倍双线性插值上采样,卷积核大小为1,步长为1,卷积核个数为2的第一卷积模块得到输出b2 1;将b2 1和网络的输入e进行点乘操作得到B2。
对于第三个融合模块FM3,将第3个编码模块的RGB输出记为R3,将第8个编码模块的Thermal输出记为T3。将R3和T3分别依次输入到卷积核大小为1,步长为1,卷积核个数为64的第一卷积模块中,输出分别为和将生成的和进行元素相加操作,得到输出接着将和进行点乘操作得到将和进行点乘操作得到之后将和进行拼接操作得到然后将输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块中得到接着将输入到第一交融模块中得到其中第一交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的输入到空洞金字塔模块中得到其中空洞金字塔模块由四个不同空洞率的空洞卷积块组成,第一空洞卷积块的卷积核大小为3,步长为1,边缘填充为1,空洞率为1,卷积核个数为64,第二空洞卷积块的卷积核大小为3,步长为1,边缘填充为2,空洞率为2,卷积核个数为64,第三空洞卷积块的卷积核大小为3,步长为1,边缘填充为3,空洞率为3,卷积核个数为64,第四空洞卷积块的卷积核大小为3,步长为1,边缘填充为4,空洞率为4,卷积核个数为64,将上述经过四个不同空洞率的空洞卷积块得到的四个输出与进行拼接操作得到接着将上述生成的输入到卷积核大小为3,步长为1,卷积核个数为64的第三卷积模块中得到输出f3;将输入到第四卷积模块中得到输出b3,其中第四卷积模块由卷积核大小为3,步长为1,卷积核个数为2的卷积,归一化层和激活层组成。
将第三个融合模块FM3的输出b3依次经过8倍双线性插值上采样,卷积核大小为1,步长为1,卷积核个数为2的第一卷积模块得到输出b3 1;将b3 1和网络的输入e进行点乘操作得到B3。
对于第四个融合模块FM4,将第4个编码模块的RGB输出记为R4,将第9个编码模块的Thermal输出记为T4。将R4和T4分别依次输入到卷积核大小为1,步长为1,卷积核个数为64的第一卷积模块中,输出分别为和将生成的和进行元素相加操作,得到输出接着将和进行点乘操作得到将和进行点乘操作得到之后将和进行拼接操作得到然后将输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块中得到接着将输入到第一交融模块中得到其中第一交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的输入到空洞金字塔模块中得到其中空洞金字塔模块由四个不同空洞率的空洞卷积块组成,第一空洞卷积块的卷积核大小为3,步长为1,边缘填充为1,空洞率为1,卷积核个数为64,第二空洞卷积块的卷积核大小为3,步长为1,边缘填充为2,空洞率为2,卷积核个数为64,第三空洞卷积块的卷积核大小为3,步长为1,边缘填充为3,空洞率为3,卷积核个数为64,第四空洞卷积块的卷积核大小为3,步长为1,边缘填充为4,空洞率为4,卷积核个数为64,将上述经过四个不同空洞率的空洞卷积块得到的四个输出与进行拼接操作得到接着将上述生成的输入到卷积核大小为3,步长为1,卷积核个数为64的第三卷积模块中得到输出f4;将输入到第四卷积模块中得到输出s1,其中第四卷积模块由卷积核大小为3,步长为1,卷积核个数为9的卷积,归一化层和激活层组成。
对于第五个融合模块FM5,将第5个编码模块的RGB输出记为R5,将第10个编码模块的Thermal输出记为T5。将R5和T5分别依次输入到卷积核大小为1,步长为1,卷积核个数为64的第一卷积模块中,输出分别为和将生成的和进行元素相加操作,得到输出接着将和进行点乘操作得到将和进行点乘操作得到之后将和进行拼接操作得到然后将输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块中得到接着将输入到第一交融模块中得到其中第一交融模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,再经过Relu激活函数,得到最后输出;接着将上述生成的输入到空洞金字塔模块中得到其中空洞金字塔模块由四个不同空洞率的空洞卷积块组成,第一空洞卷积块的卷积核大小为3,步长为1,边缘填充为1,空洞率为1,卷积核个数为64,第二空洞卷积块的卷积核大小为3,步长为1,边缘填充为2,空洞率为2,卷积核个数为64,第三空洞卷积块的卷积核大小为3,步长为1,边缘填充为3,空洞率为3,卷积核个数为64,第四空洞卷积块的卷积核大小为3,步长为1,边缘填充为4,空洞率为4,卷积核个数为64,将上述经过四个不同空洞率的空洞卷积块得到的四个输出与进行拼接操作得到接着将上述生成的输入到卷积核大小为3,步长为1,卷积核个数为64的第三卷积模块中得到输出f5;将输入到第四卷积模块中得到输出s2,其中第四卷积模块由卷积核大小为3,步长为1,卷积核个数为9的卷积,归一化层和激活层组成。
高级语义模块SEM的实现框图如图3所示,对于高级语义模块SEM,将上述第五个融合模块FM5的输出s2经过32倍双线性插值上采样得到输出Sem1,将上述第四个融合模块FM4的输出s1经过16倍双线性插值上采样得到输出Sem2,然后将上述Sem1,Sem2进行拼接操作得到输出Sem3;然后将Sem3输入到卷积核大小为1,步长为1,卷积核个数为9的第一卷积模块,得到输出Sem4;将上述Sem1,Sem2,Sem4进行求和操作,得到输出Sem5;将上述Sem5输入到第二卷积模块中得到输出Sem6,其中第二卷积模块依次由卷积核大小为3,步长为1,填充系数为1,卷积核个数为9的卷积层,归一化层和激活层组成;然后将Sem6,Sem1进行点乘操作,得到输出Sem7;然后将Sem7输入到卷积核大小为1,步长为1,卷积核个数为9的第三卷积模块,得到输出Sem8;然后将网络的输入e输入到卷积核大小为1,步长为1,卷积核个数为9的第四卷积模块,得到输出eout;然后将Sem8,eout进行点乘操作,得到输出Sem9;然后将Sem8和Sem9进行求和操作,得到输出Sem1。
高级信息模块HL的实现框图如图4所示,对于高级信息模块HL,将上述第五个融合模块FM5的输出f5分别输入到卷积核大小为1,步长为1,卷积核个数为64的第一卷积模块;卷积核大小为3,步长为1,填充系数为1,空洞率为1,卷积核个数为64的第二卷积模块;卷积核大小为3,步长为1,填充系数为2,空洞率为2,卷积核个数为64的第三卷积模块;卷积核大小为3,步长为1,填充系数为3,空洞率为3,卷积核个数为64的第四卷积模块;卷积核大小为3,步长为1,填充系数为4,空洞率为4,卷积核个数为64的第五卷积模块对应得到五个输出a1,a2,a3,a4,a5;将上述五个输出a1,a2,a3,a4,a5进行拼接操作得到输出a6;将上述a6输入到卷积核大小为1,步长为1,卷积核个数为64的第六卷积模块得到输出a7;将a7和f5进行求和操作,得到输出a8;将a8输入到第七卷积模块得到输出a9,其中第七卷积模块依次由卷积核大小为3,步长为1,填充系数为1,卷积核个数为64的卷积层,归一化层和激活层组成。然后将上述输出a9经过2倍双线性插值上采样得到输出fhigh,此时输出端输出64副特征图,特征图的大小变为原来的2倍,每幅特征图的宽度为高度为
解码融合模块MF的实现框图如图5所示,对于第四个解码融合模块MF4,将高级信息模块HL的输出fhigh输入到第一卷积模块得到输出out4 1,其中第一卷积模块依次由卷积核大小为3,步长为1,填充系数为1,卷积核个数为64的卷积层,归一化层和激活层组成;将上述第四个融合模块FM4的输出f4输入到第一注意力模块得到输出out4 2,其中第一注意力模块依次由全局最大池化层,第一个全连接层,第一个激活函数,第二个全连接层,第二个激活函数,第三个全连接层,Sigmoid函数和卷积核大小为1,步长为1的卷积组成;将高级信息模块HL的输出fhigh输入到第二注意力模块得到输出out4 3,其中第二注意力模块与第一注意力模块完全相同;将上述out4 1和out4 2进行点乘操作,得到输出out4 4;将上述out4 1和out4 3进行点乘操作,得到输出out4 5;将out4 1,out4 4,out4 5分别输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块,分别得到输出out4 6,out4 7,out4 8;将上述out4 6,out4 7,out4 8进行求和操作,得到输出out4 9;将上述输出out4 9输入到第三卷积模块得到输出out4 10,其中第三卷积模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,得到最后输出;将上述输出out4 10输入到卷积核大小为1,步长为1,卷积核个数为64的第四卷积模块得到最终的输出out4 11。然后将上述输出out4 11经过2倍双线性插值上采样得到输出out4,此时输出端输出64副特征图,特征图的大小变为原来的2倍,每幅特征图的宽度为高度为
对于第三个解码融合模块MF3,将上述第四个解码融合模块MF4的输出out4输入到第一卷积模块得到输出out3 1,其中第一卷积模块依次由卷积核大小为3,步长为1,填充系数为1,卷积核个数为64的卷积层,归一化层和激活层组成;将上述第三个融合模块FM3的输出f3输入到第一注意力模块得到输出out3 2,其中第一注意力模块依次由全局最大池化层,第一个全连接层,第一个激活函数,第二个全连接层,第二个激活函数,第三个全连接层,Sigmoid函数和卷积核大小为1,步长为1的卷积组成;将高级信息模块HL的输出fhigh经过2倍双线性插值上采样得到输出fhigh3,此时输出端输出64副特征图,特征图的大小变为原来的2倍,每幅特征图的宽度为高度为将fhigh3输入到第二注意力模块得到输出out3 3,其中第二注意力模块与第一注意力模块完全相同;将上述out3 1和out3 2进行点乘操作,得到输出out3 4;将上述out3 1和out3 3进行点乘操作,得到输出out3 5;将out3 1,out3 4,out3 5分别输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块,分别得到输出out3 6,out3 7,out3 8;将上述out3 6,out3 7,out3 8进行求和操作,得到输出out3 9;将上述输出out3 9输入到第三卷积模块得到输出out3 10,其中第三卷积模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,得到最后输出;将上述输出out3 10输入到卷积核大小为1,步长为1,卷积核个数为64的第四卷积模块得到最终的输出out3 11。然后将上述输出out3 11经过2倍双线性插值上采样得到输出out3,此时输出端输出64副特征图,特征图的大小变为原来的2倍,每幅特征图的宽度为高度为
对于第二个解码融合模块MF2,将上述第三个解码融合模块MF3的输出out3输入到第一卷积模块得到输出out2 1,其中第一卷积模块依次由卷积核大小为3,步长为1,填充系数为1,卷积核个数为64的卷积层,归一化层和激活层组成;将上述第三个融合模块FM2的输出f2输入到第一注意力模块得到输出out2 2,其中第一注意力模块依次由全局最大池化层,第一个全连接层,第一个激活函数,第二个全连接层,第二个激活函数,第三个全连接层,Sigmoid函数和卷积核大小为1,步长为1的卷积组成;将高级信息模块HL的输出fhigh经过4倍双线性插值上采样得到输出fhigh2,此时输出端输出64副特征图,特征图的大小变为原来的4倍,每幅特征图的宽度为高度为将fhigh2输入到第二注意力模块得到输出out2 3,其中第二注意力模块与第一注意力模块完全相同;将上述out2 1和out2 2进行点乘操作,得到输出out2 4;将上述out2 1和out2 3进行点乘操作,得到输出out2 5;将out2 1,out2 4,out2 5分别输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块,分别得到输出out2 6,out2 7,out2 8;将上述out2 6,out2 7,out2 8进行求和操作,得到输出out2 9;将上述输出out2 9输入到第三卷积模块得到输出out2 10,其中第三卷积模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,得到最后输出;将上述输出out2 10输入到卷积核大小为1,步长为1,卷积核个数为64的第四卷积模块得到最终的输出out2 11。然后将上述输出out2 11经过2倍双线性插值上采样得到输出out2,此时输出端输出64副特征图,特征图的大小变为原来的2倍,每幅特征图的宽度为高度为
对于第一个解码融合模块MF1,将上述第二个解码融合模块MF2的输出out2输入到第一卷积模块得到输出out1 1,其中第一卷积模块依次由卷积核大小为3,步长为1,填充系数为1,卷积核个数为64的卷积层,归一化层和激活层组成;将上述第三个融合模块FM1的输出f1输入到第一注意力模块得到输出out1 2,其中第一注意力模块依次由全局最大池化层,第一个全连接层,第一个激活函数,第二个全连接层,第二个激活函数,第三个全连接层,Sigmoid函数和卷积核大小为1,步长为1的卷积组成;将高级信息模块HL的输出fhigh经过8倍双线性插值上采样得到输出fhigh1,此时输出端输出64副特征图,特征图的大小变为原来的8倍,每幅特征图的宽度为高度为将fhigh1输入到第二注意力模块得到输出out1 3,其中第二注意力模块与第一注意力模块完全相同;将上述out1 1和out1 2进行点乘操作,得到输出out1 4;将上述out1 1和out1 3进行点乘操作,得到输出out1 5;将out1 1,out1 4,out1 5分别输入到卷积核大小为1,步长为1,卷积核个数为64的第二卷积模块,分别得到输出out1 6,out1 7,out1 8;将上述out1 6,out1 7,out1 8进行求和操作,得到输出out1 9;将上述输出out1 9输入到第三卷积模块得到输出out1 10,其中第三卷积模块的主分支依次由第一卷积层,第一归一化层,第一激活层,第二卷积层,第二归一化层组成,其中第一卷积层、第二卷积层卷积核大小为3,步长为1,第一个交融模块的捷径分支无其他操作,只是单纯的输入数据的流动,最后的操作是主分支与捷径分支进行Add操作,得到最后输出;将上述输出out1 10输入到卷积核大小为1,步长为1,卷积核个数为64的第四卷积模块得到输出out1 11。然后将上述输出out1 11经过2倍双线性插值上采样得到输出out1,此时输出端输出64副特征图,特征图的大小变为原来的2倍,每幅特征图的宽度为W、高度为H。
将第一个解码融合模块MF1的输出out1输入到卷积核大小为1,步长为1,卷积核个数为9的第一卷积模块得到输出Sem2 1;将网络的输入e输入到卷积核大小为1,步长为1,卷积核个数为9的第二卷积模块得到输出e2 1;将Sem2 1和e2 1进行点乘操作,得到输出Sem2 2;将Sem2 1和Sem2 2进行求和操作,得到最终的输出Sem2。
步骤1_3:将训练集中的每幅原始的RGB彩色图像和Thermal热红外图像通过裁剪,明亮度方式进行数据增强之后作为初始输入图像,批次大小为4。输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图Sem2,其集合记为Jpre1;此外,为了辅助训练,将网络的输出的对应原始大小的9幅高级语义预测图Sem1,对应原始大小的9幅边界预测图B1,对应原始大小的9幅边界预测图B2,对应原始大小的9幅边界预测图B3,将其构成的集合依次记为Jpre2,Jpre3,Jpre4,Jpre5。
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将Jprei与Jtrue之间的损失函数值记为Lossi(Jprei,Jtrue),其中i=1,2,3,4,5。Lossi(Jprei,Jtrue)采用交叉熵(CrossEntropyLoss)获得,最后对这五个预测图集合的损失函数值之和作为最终损失值。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,直到神经网络收敛达到饱和,即训练损失值波动很难下降,验证损失也几乎降至最小,此时得到卷积神经网络分类训练模型,接着将此时得到的网络权值矢量和偏置作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项;在本实施例中,选取V=300。
测试阶段过程的具体步骤为:
步骤2_1:取393幅原始的RGB彩色图像和Thermal热红外图像以及相应的边界数据集图像,真实语义分割图像,真实的边界图像作为测试集。令表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将的R通道分量、G通道分量和B通道分量及其对应的热红外图像输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行了实验。
使用基于Python的深度学习库Pytorch搭建卷积神经网络架构。采用道路场景图像数据库MFNET RGB-T Dataset的测试集来分析利用本发明方法预测得到的道路场景图像(取393幅道路场景图像)的分割效果。利用评估语义分割方法的4个常用客观参量作为评价指标,即类别精确度(Class Acurracy,Acc)、平均类别准确率(Mean Class Acurracy,mAcc)、每个类别分割图像与标签图像交集与并集的比值(Intersection over Union,IoU),分割图像与标签图像交集与并集的平均比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库MFNET RGB-T Dataset的测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法语义分割效果的类别精确度Acc、平均类别准确率mAcc、每个类别分割图像与标签图像交集与并集的比值IoU、分割图像与标签图像交集与并集的平均比值MIoU如表1所列。
表1
从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。
本发明实施例2提供一种基于边界引导的道路场景语义分割系统,包括数据采集模块、神经网络构建模块、损失函数计算模块、预测模块;其中,
数据采集模块,用于采集数据样本,数据样本分为训练集与测试集;
神经网络构建模块,用于构建卷积神经网络模型,并将训练集输入到卷积神经网络中进行训练,得到对应的语义分割预测图;
损失函数计算模块,用于计算语义分割预测图构成的集合与真实语义分割图像处理成的独热编码图像集合之间的损失函数,得到卷积神经网络分类训练模型的最优权值矢量和偏置项;
预测模块,用于将测试集输入到卷积神经网络分类训练模型中,得到预测语义分割图像。
数据样本包括原始道路场景RGB图像和Thermal热红外图像、对数据样本通过sobel算法进行数据预处理,得到预处理后的边界图像。
最后,还提供一种计算机存储介质,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时实现基于边界引导的道路场景语义分割方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于边界引导的道路场景语义分割方法,其特征在于,具体步骤包括如下:
获取训练集,所述训练集包括原始道路场景RGB图像、Thermal热红外图像、预处理后的边界图像;
构建卷积神经网络;
将所述训练集输入到所述卷积神经网络中进行训练,得到对应的语义分割预测图;
所述语义分割预测图构成第一集合,真实语义分割图像处理成的独热编码图像构成第二集合,计算所述第一集合与第二集合之间的损失函数,得到卷积神经网络分类训练模型的最优权值矢量和偏置项,所述卷积神经网络分类训练模型训练完成;
将待语义分割的道路场景图像输入所述卷积神经网络分类训练模型中,得到预测语义分割图像。
2.根据权利要求1所述的一种基于边界引导的道路场景语义分割方法,其特征在于,所述卷积神经网络包括10个编码模块、5个融合模块、1个高级语义模块、1个高级信息模块、4个解码融合模块;所述卷积神经网络中分为两支结构相同的编码流,RGB编码流包含5个编码模块,分别为依次连接的第一个编码模块、第二个编码模块、第三个编码模块、第四个编码模块、第五个编码模块、Thermal编码流包含5个编码模块,分别为依次连接的第六个编码模块、第七个编码模块、第八个编码模块、第九个编码模块、第十个编码模块;融合模块与编码模块相连,高级语义模块分别与第五个融合模块、第四个融合模块相连,高级信息模块与第五个融合模块相连,高级信息模块还与解码融合模块相连。
3.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法,其特征在于,所述融合模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第一交融模块、空洞金字塔模块;第一特征图输入到所述第一卷积模块中得到第三特征图,第二特征图输入到所述第一卷积模块中得到第四特征图,将所述第三特征图和所述第四特征图进行相加操作,得到第五特征图,将所述第五特征图与所述第三特征图进行点乘操作得到第六特征图,将所述第五特征图与所述第四特征图进行点乘操作得到第七特征图,将所述第六特征图与所述第七特征图进行拼接操作得到第八特征图,将所述第八特征图输入到所述第二卷积模块中得到第九特征图,所述第九特征图输入到所述第一交融模块得到第十特征图,所述第十特征图输入到所述空洞金字塔模块得到第十一特征图,所述第十一特征图输入到所述第三卷积模块得到第十二特征图,所述第十二特征图输入到所述第四卷积模块得到第十三特征图。
4.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法,其特征在于,所述高级语义模块包括第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块;输入图像经过32倍上采样得到第一特征图A,输入图像A经过16倍上采样得到第二特征图A,将第一特征图A与第二特征图A进行拼接操作得到第三特征图A,将第三特征图A输入到第一卷积模块得到第四特征图A,将第一特征图A、第二特征图A、第四特征图A进行求和操作得到第五特征图A,将第五特征图A输入到第二卷积模块中得到第六特征图A,将第一特征图A与第六特征图A进行点乘操作得到第七特征图A,将第七特征图A输入到第三卷积模块中得到第八特征图A,将网络的输入e输入到第四卷积模块中得到eout,将第八特征图A与eout进行点乘操作得到第九特征图A,将第八特征图A与第九特征图A进行求和操作得到输出Sem1。
5.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法,其特征在于,所述高级信息模块包括7个卷积模块;将特征图分别输入到第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块得到第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B,将第一特征图B、第二特征图B、第三特征图B、第四特征图B、第五特征图B进行拼接操作得到第六特征图B,将第六特征图B输入到第六卷积模块得到第七特征图B,将第七特征图B与特征图进行求和得到第八特征图B,将第八特征图B输入到第七卷积模块中得到第九特征图B。
6.根据权利要求2所述的一种基于边界引导的道路场景语义分割方法,其特征在于,所述解码融合模块包括第一注意力模块、第一卷积模块、第二注意力模块、第二卷积模块、第三卷积模块、第四卷积模块;将图像分别输入到第一卷积模块和第二注意力模块,得到第一特征图C1、第一特征图C2,将第二图像输入到第一注意力模块,得到第一特征图C3,第一特征图C1与第一特征图C3进行点乘操作得到第二特征图C,第一特征图C1与第一特征图C2进行点乘操作得到第三特征图C,将第一特征图C1、第二特征图C、第三特征图C分别输入到第二卷积模块后进行求和操作,得到第四特征图C,将第四特征图C输入到第三卷积模块中得到第五特征图C,将第五特征图C输入到第四卷积模块得到第六特征图C并进行上采样操作。
7.根据权利要求1所述的一种基于边界引导的道路场景语义分割方法,其特征在于,将所述原始道路场景RGB图像、Thermal热红外图像分别使用sobel算法进行预处理,得到所述预处理后的边界图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111082517.6A CN113781504A (zh) | 2021-09-15 | 2021-09-15 | 一种基于边界引导的道路场景语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111082517.6A CN113781504A (zh) | 2021-09-15 | 2021-09-15 | 一种基于边界引导的道路场景语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113781504A true CN113781504A (zh) | 2021-12-10 |
Family
ID=78844280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111082517.6A Pending CN113781504A (zh) | 2021-09-15 | 2021-09-15 | 一种基于边界引导的道路场景语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113781504A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782949A (zh) * | 2022-04-29 | 2022-07-22 | 中南大学 | 一种边界引导上下文聚合的交通场景语义分割方法 |
-
2021
- 2021-09-15 CN CN202111082517.6A patent/CN113781504A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782949A (zh) * | 2022-04-29 | 2022-07-22 | 中南大学 | 一种边界引导上下文聚合的交通场景语义分割方法 |
CN114782949B (zh) * | 2022-04-29 | 2024-04-16 | 中南大学 | 一种边界引导上下文聚合的交通场景语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469094B (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN113780296B (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN109635662B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN111898439B (zh) | 基于深度学习的交通场景联合目标检测和语义分割方法 | |
CN110490205B (zh) | 基于全残差空洞卷积神经网络的道路场景语义分割方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN113192073A (zh) | 基于交叉融合网络的服装语义分割方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN116051549B (zh) | 一种太阳能电池片缺陷分割方法、系统、介质及设备 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN116229452B (zh) | 一种基于改进的多尺度特征融合的点云三维目标检测方法 | |
CN112861619A (zh) | 模型的训练方法、车道线检测方法、设备及装置 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN115601236A (zh) | 一种基于特征信息蒸馏网络的遥感图像超分辨重建方法 | |
CN115393718A (zh) | 基于自适应融合NestedUNet的光学遥感图像变化检测方法 | |
CN113781504A (zh) | 一种基于边界引导的道路场景语义分割方法 | |
CN109446933B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN111627055A (zh) | 一种联合语义分割的场景深度补全方法 | |
CN114998373A (zh) | 基于多尺度损失函数的改进型U-Net云图分割方法 | |
CN109508639B (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |