CN112991364A - 基于卷积神经网络跨模态融合的道路场景语义分割方法 - Google Patents

基于卷积神经网络跨模态融合的道路场景语义分割方法 Download PDF

Info

Publication number
CN112991364A
CN112991364A CN202110308057.8A CN202110308057A CN112991364A CN 112991364 A CN112991364 A CN 112991364A CN 202110308057 A CN202110308057 A CN 202110308057A CN 112991364 A CN112991364 A CN 112991364A
Authority
CN
China
Prior art keywords
neural network
output
layer
block
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110308057.8A
Other languages
English (en)
Inventor
周武杰
刘劲夫
叶宁
雷景生
万健
钱小鸿
甘兴利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202110308057.8A priority Critical patent/CN112991364A/zh
Publication of CN112991364A publication Critical patent/CN112991364A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种基于卷积神经网络跨模态融合的道路场景语义分割方法,涉及深度学习的技术领域。本发明在训练阶段,构建卷积神经网络,其隐层包括两个初始神经网络块、八个残差神经网络块、两个融合块、三个解码块;使用原始的道路场景图像输入到卷积神经网络中进行训练,得到对应的三组预测图,分别为9幅语义分割预测图、两幅前景背景预测图、两幅边界预原测图;再分别计算这三组预测图构成的集合与对应的语义分割标签图集之间的损失函数值,将三个损失函数值相加得到最终的损失函数,通过训练获得卷积神经网络分类训练模型的最优权值矢量和偏置项。本发明提高了道路场景图像的语义分割效率,并且提升了准确度。

Description

基于卷积神经网络跨模态融合的道路场景语义分割方法
技术领域
本发明涉及深度学习领域,更具体的说是涉及一种基于卷积神经网络跨模态融合的道路场景语义分割方法。
背景技术
智能交通行业的兴起,使得语义分割在智能交通系统中有着越来越多的应用,从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的道路场景语义分割方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,分割精度低。
发明内容
有鉴于此,本发明提供了提供一种基于卷积神经网络的道路场景语义分割方法,其分割效率高,且分割准确度高。
为了实现上述目的,本发明采用如下技术方案:
一种基于卷积神经网络跨模态融合的道路场景语义分割方法,包含以下步骤:
选取多幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,由所述多幅原始的道路场景图像和所述每幅原始的道路场景图像对应的标签图构成训练集;
构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络;
将所述训练集输入到所述卷积神经网络中进行训练,得到所述训练集中的每幅原始的道路场景图对应的预测图;
获取所述预测图的加和损失函数值;
多次对神经网络进行训练得到卷积神经网络分类训练模型。
优选的,所述标签图包括热力图、彩色热力图像、语义分割标签图、前景标签图和边界标签图。
优选的,所述预测图包括语义分割预测图、前景背景预测图和边界预测图。
优选的,所述加和损失函数值的获取如下:
利用Lovász-Softmax损失函数计算分割标签图的损失函数值,利用分类交叉熵计算前景背景标签图的损失函数值和边界标签图的损失函数值,分割标签图的损失函数值,前景背景标签图的损失函数值和边界标签图的损失函数值相加获得加和损失函数值。
优选的,构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络的具体过程如下:
第一输入层、第一初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块和第四神经网络块依次连接,第二输入层、第二初始神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块和第八残差神经网络块依次连接,第一初始神经网络块与第二初始神经网络块的输出共同作为第一融合块的输入,第一融合块的输出记为第一侧边输出,第一残差神经网络块与第五残差神经网络块的输出作为第二融合块的输入,第二融合块的输出记为第二侧边输出,将第二残差神经网络块和第六残差神经网络块的输出做元素的加和,记为第三侧边输出,将第三残差神经网络块输出与第七残差神经网络块输出的加和记为第四侧边输出,将第四残差神经网络块输出与第八残差神经网络块输出的加和记为第五侧边输出;
将经过第三过渡层的所述第五侧边输出作为第一解码块的输入,所述第一解码块的输出与经过第二过渡层的所述第四侧边输出的元素加和作为第二解码块的输入,所述第二解码块的输出与经过第一过渡层的所述第三侧边输出的元素加和作为第三解码块的输入,将所述第三解码块的输出记为指导特征,将所述指导特征进行二倍双线性插值作为第一输出层的输入;
将经过第一过渡层的所述第三侧边输出进行双线性插值,分辨率变为两倍后与所述第二侧边输出元素相加,将所得加和与所述指导特征进行元素相乘,将所得乘积经过二倍双线性插值,将经过插值后的特征作为第二输出层的输入;
将所述第一侧边输出与经过二倍双线性插值处理过的所述指导特征进行元素相乘,将所得乘积作为第三输出层的输入;
所述第一输入层中输入训练集中的原始的道路场景图像,所述第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量,第二输入层中输入原始的道路场景图像对应的热力图,第二输入层输出原始的道路场景图像对应的热力图像。
优选的,跨模态融合和注意力机制优化通过融合块实现,所述融合块具体连接关系如下:
第一输入端后依次连接最大值选择层和第一卷积层,记输出为A,第二输入端与A进行像素加和,记输出为a,第二输入端与a做像素乘积,记输出为B,A与B做像素加和得到C,C输入第二卷积层得到D,所述第二卷积层后依次连接最大值池化层和第三卷积层,所述第三卷积层的输出与D做像素乘积得到输出。
优选的,恢复分辨率和增强语义信息通过解码块实现,所述解码块的具有连接关系如下:
输入像素经过三个卷积层后与所述输入像素做像素加和并输入到上采样层中,得到输出。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于卷积神经网络跨模态融合的道路场景语义分割方法,具有以下有益效果:
1)发明方法构建了卷积神经网络,采用了彩色图,热力图双流输入的结构,利用了热力图在极端光照条件下对彩色图的补充,增强了提取特征的鲁棒性。同时本发明方法采用优化策略,利用具有丰富语义信息的高级特征来优化指导低级特征。双流的编码结构和优化策略显著提高了语义分割的准确率。
2)本发明方法采用合理设计的融合模块,充分利用了RGB彩色信息与热力信息的优势互补性,不仅充分地融合了跨模态的特征,而且通过注意力机制优化和增强了融合特征。
3)本发明方法设计简单有效的解码块,在恢复分辨率的同时,保留并增强了高级语义信息。
4)本发明方法采用语义分割、前景背景分割、边界分割三种标签同时监督和优化我们所提出的神经网络,进而在训练集与测试集上都能得到较好效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的整体结构示意图;
图2附图为本发明的融合块结构示意图;
图3附图为本发明的解码块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的步骤1_1具体为:
选取Q幅最初的道路场景图像以及每幅原始的道路场景图像对应的真实语义分割图像,其中第q幅最初的道路场景图像记为
Figure BDA0002988660730000061
将第q幅原始的道路场景图像对应的真实语义分割图像记为
Figure BDA0002988660730000062
最初的道路场景图像对应的热力图通过HHA编码方式处理成三通道记为
Figure BDA0002988660730000063
将第q幅原始的道路场景图像对应的真实语义分割图像
Figure BDA0002988660730000064
处理成9幅类标签图像,将真实语义分割图像处理成的9幅类标签图像构成的集合作为语义分割标签图记为
Figure BDA0002988660730000065
Figure BDA0002988660730000066
中非背景类别设置为1,背景类别设置为0,以此生成区分前景背景的两幅前景标签图,记为
Figure BDA0002988660730000067
Figure BDA0002988660730000068
上使用5×5大小的滑动窗口,对区域类别进行判断,如果滑动窗口区域内语义类别不同,则判断窗口中心位置为边界,标签设为1,否则为非边界,标签设为0,以此方法得到两幅边界标签图,记为
Figure BDA0002988660730000069
重复以上三个操作Q次,由Q幅原始的道路场景图像、相对应的热力图、语义分割标签、前景标签、边界标签构成训练集;其中,如取Q=784,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示原始的道路场景图象的宽度,H表示原始的道路场景图象的高度,其中取值W=480、H=640,i、j分别表示坐标位置为(i,j)的像素点的横纵坐标,
Figure BDA00029886607300000610
表示第q幅原始的道路场景图像中坐标位置为(i,j)的像素点的像素值,
Figure BDA00029886607300000611
表示第q幅热力图中坐标位置为(i,j)的像素点的像素值,
Figure BDA00029886607300000612
表示真实语义分割图像中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002988660730000071
表示真实前景背景图像中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002988660730000072
表示真实边界图像中坐标位置为(i,j)的像素点的像素值。具体实施中,原始的道路场景图像直接选用道路场景图像数据InfRecR500训练集中的784幅图像。
步骤1_2:构建卷积神经网络:
卷积神经网络包括两个输入层、隐层和三个输出层;隐层包括第一初始神经网络块、第二初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块、第四残差神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块、第八残差神经网络块、第一融合块、第二融合块、第一过渡块、第二过渡块、第三过渡块、第一解码块、第二解码块、第三解码块;第一输入层、第一初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块和第四神经网络块依次连接,第二输入层、第二初始神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块和第八残差神经网络块依次连接,第一初始神经网络块与第二初始神经网络块的输出共同作为第一融合块的输入,第一融合块的输出记为第一侧边输出,第一残差神经网络块与第五残差神经网络块的输出作为第二融合块的输入,第二融合块的输出记为第二侧边输出,将第二残差神经网络块和第六残差神经网络块的输出做元素的加和,记为第三侧边输出,将第三残差神经网络块输出与第七残差神经网络块输出的加和记为第四侧边输出,将第四残差神经网络块输出与第八残差神经网络块输出的加和记为第五侧边输出;
将经过第三过渡层的所述第五侧边输出作为第一解码块的输入,所述第一解码块的输出与经过第二过渡层的所述第四侧边输出的元素加和作为第二解码块的输入,所述第二解码块的输出与经过第一过渡层的所述第三侧边输出的元素加和作为第三解码块的输入,将所述第三解码块的输出记为指导特征,将所述指导特征进行二倍双线性插值作为第一输出层的输入;
将经过第一过渡层的所述第三侧边输出进行双线性插值,分辨率变为两倍后与所述第二侧边输出元素相加,将所得加和与所述指导特征进行元素相乘,将所得乘积经过二倍双线性插值,将经过插值后的特征作为第二输出层的输入;
将所述第一侧边输出与经过二倍双线性插值处理过的所述指导特征进行元素相乘,将所得乘积作为第三输出层的输入;
所述第一输入层中输入训练集中的原始的道路场景图像,所述第一输出层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量,第二输入层中输入原始的道路场景图像对应的热力图。
第一输入层中输入训练集中的原始的道路场景图像,第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量,第二输入层中输入原始的道路场景图像对应的热力图,第二输入层输出原始的道路场景图像对应的热力图像。其中要求输入层的输入端接收的原始的道路场景图像的宽度为W、高度为H。
对于隐层,第一初始神经网络块主要由第一卷积层(Convolution,Conv)和第一激活层(Activation,Act)相连接构成;第一初始神经网络块的输入端接收R通道、G通道、B通道三个通道分量,第一初始神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为I1。其中,第一卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数为3,第一激活层激活方式均为“Relu”,I1中的每幅特征图的宽度为
Figure BDA0002988660730000081
高度为
Figure BDA0002988660730000082
对于第一残差神经网络块,其主要由第一最大池化层(Maxpooling,Pool)、ResNet50第一残差层相连接组成;第一残差神经网络块的输入端接收I1中的所有特征图,第一残差神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为R1;其中,第一最大池化层的池化尺寸(pool_size)为2,经过第一最大池化层,输出64幅特征图,将这64幅特征图的集合记为P1;ResNet50第一残差层结构与已经公开的常用神经网络架构ResNet50中的层1(Layer1)结构相同,其输入为P1中所有特征图,ResNet50第一残差层输出端输出256幅特征图,它们的集合即为R1;R1中每幅特征图的宽度为
Figure BDA0002988660730000091
高度为
Figure BDA0002988660730000092
对于第二残差神经网络块,其主要由ResNet50第二残差层组成;第二残差神经网络块的输入端接收R1中的所有特征图,第二残差神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为R2;其中,ResNet50第二残差层结构与已经公开的常用神经网络架构ResNet50中的层2(Layer2)结构相同,其输入为R1中所有特征图,ResNet50第二残差层输出端输出512幅特征图,它们的集合即为R2。R2中的每幅特征图的宽度为
Figure BDA0002988660730000093
高度为
Figure BDA0002988660730000094
对于第三残差神经网络块,其主要由ResNet50第三残差层组成;第三残差神经网络块的输入端接收R2中的所有特征图,第三残差神经网络块的输出端输出1024幅特征图,将1024幅特征图构成的集合记为R3;其中,ResNet50第三残差层结构与已经公开的常用神经网络架构ResNet50中的层3(Layer3)结构相同,其输入为R2中所有特征图,ResNet50第三残差层输出端输出1024幅特征图,它们的集合即为R3。R3中的每幅特征图的宽度为
Figure BDA0002988660730000095
高度为
Figure BDA0002988660730000096
对于第四残差神经网络块,其主要由ResNet50第四残差层组成;第四残差神经网络块的输入端接收R3中的所有特征图,第四残差神经网络块的输出端输出2048幅特征图,将2048幅特征图构成的集合记为R4;其中,ResNet50第四残差层结构与已经公开的常用神经网络架构ResNet50中的层4(Layer4)结构相同,其输入为R3中所有特征图,ResNet50第四残差层输出端输出2048幅特征图,它们的集合即为R4。R4中的每幅特征图的宽度为
Figure BDA0002988660730000101
高度为
Figure BDA0002988660730000106
对于第二初始神经网络块,其主要由第二卷积层(Convolution,Conv)和第二激活层(Activation,Act)相连接构成;第二初始神经网络块的输入端接收三通道热力图(Thermal),第二初始神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为I2。其中,第二卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数为3,第二激活层激活方式均为“Relu”,I2中的每幅特征图的宽度为
Figure BDA0002988660730000102
高度为
Figure BDA0002988660730000103
对于第五残差神经网络块,其主要由第二最大池化层(Maxpooling,Pool)、ResNet50第一残差层相连接组成;第五残差神经网络块的输入端接收I2中的所有特征图,第五残差神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为T1;其中,第二最大池化层的池化尺寸(pool_size)为2,经过第二最大池化层,输出64幅特征图,将这64幅特征图的集合记为P2;ResNet50第一残差层结构与已经公开的常用神经网络架构ResNet50中的层1(Layer1)结构相同,其输入为P2中所有特征图,ResNet50第一残差层输出端输出256幅特征图,它们的集合即为T1;T1中每幅特征图的宽度为
Figure BDA0002988660730000104
高度为
Figure BDA0002988660730000105
对于第六残差神经网络块,其主要由ResNet50第二残差层组成;第六残差神经网络块的输入端接收T1中的所有特征图,第六残差神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为T2;其中,ResNet50第二残差层结构与已经公开的常用神经网络架构ResNet50中的层2(Layer2)结构相同,其输入为T1中所有特征图,ResNet50第二残差层输出端输出512幅特征图,它们的集合即为T2。T2中的每幅特征图的宽度为
Figure BDA0002988660730000111
高度为
Figure BDA0002988660730000112
对于第七残差神经网络块,其主要由ResNet50第三残差层组成;第七残差神经网络块的输入端接收T2中的所有特征图,第七残差神经网络块的输出端输出1024幅特征图,将1024幅特征图构成的集合记为T3;其中,ResNet50第三残差层结构与已经公开的常用神经网络架构ResNet50中的层3(Layer3)结构相同,其输入为T2中所有特征图,ResNet50第三残差层输出端输出1024幅特征图,它们的集合即为T3。T3中的每幅特征图的宽度为
Figure BDA0002988660730000113
高度为
Figure BDA0002988660730000114
对于第八残差神经网络块,其主要由ResNet50第四残差层组成;第八残差神经网络块的输入端接收T3中的所有特征图,第四残差神经网络块的输出端输出2048幅特征图,将2048幅特征图构成的集合记为T4;其中,ResNet50第四残差层结构与已经公开的常用神经网络架构ResNet50中的层4(Layer4)结构相同,其输入为T3中所有特征图,ResNet50第四残差层输出端输出2048幅特征图,它们的集合即为T4。T4中的每幅特征图的宽度为
Figure BDA0002988660730000115
高度为
Figure BDA0002988660730000116
对于第一融合块,其由第一最大值选择层、第三卷积层、第四卷积层、第一自适应最大池化层、第五卷积层按照图2所示结构连接起来组成。第一融合块的输入分别为第一初始神经网络块的输出I1、第二初始神经网络块的输出I2、第一融合块输出64幅特征图,记为第一侧边输出S1。其中,第一最大值选择层,对于每个位置沿通道方向选择像素最大值,生成单通道映射图M1。第一自适应最大池化层参数为1,输出为64幅特征图,宽度为1,高度为1;第三卷积层卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为1、补零(padding)参数为3;第四卷积层、第五卷积层卷积核大小(kernel_size)均为为1×1、卷积核个数(filters)均为64、步长均(stride)为1、补零(padding)参数均为0;具体地说,先将第二初始神经网络块的输出I2中的每幅特征图输入到第一最大选择层,输出1幅映射图M1,将M1输入第三卷积层,输出64幅特征图,记为A1。将I1与A1中每幅特征图相加,再经过Sigmoid激活函数,得到64幅特征图,记为a1。将I1中的每幅特征图与a1中每幅特征图进行元素相乘得到64幅特征图,记为B1。将A1、B1中每幅特征图相加得到64幅特征图,记为C1。将C1中每幅特征图输入第四卷积层,输出64幅特征图,记为D1。将D1中的每幅特征图依次通过第一自适应最大池化层、第五卷积层、Sigmoid激活函数,得到64个通道权重,将它们的集合记为Wc1。将D1中的64幅特征图分别与64个对应通道权重相乘,得到通道加权的64幅特征图,记为S1。S1中的每幅特征图的宽度为
Figure BDA0002988660730000121
高度为
Figure BDA0002988660730000122
对于第二融合块,其结构与第一融合块相似。由第二最大值选择层、第六卷积层、第七卷积层、第二自适应最大池化层、第八卷积层按照图2所示结构连接起来组成。第二融合块的输入分别为第一残差神经网络块的输出R1、第五残差神经网络块的输出T1、第二融合块输出64幅特征图,记为第二侧边输出S2。其中,第二最大值选择层,对于每个位置沿通道方向选择像素最大值,生成单通道映射图M2。第二自适应最大池化层参数为1,输出为64幅特征图,宽度为1,高度为1;第六卷积层卷积核大小(kernel_size)为7×7、卷积核个数(filters)为256、步长(stride)为1、补零(padding)参数为3;第七卷积层、第八卷积层卷积核大小(kernel_size)均为为1×1、卷积核个数(filters)均为64、步长均(stride)为1、补零(padding)参数均为0;具体地说,先将第五残差神经网络块的输出T1中的每幅特征图输入到第二最大选择层,输出1幅映射图M2,将M2输入第六卷积层,输出64幅特征图,记为A2。将R1与A2中每幅特征图相加,再经过Sigmoid激活函数,得到64幅特征图,记为a2。将R1中的每幅特征图与a2中每幅特征图进行元素相乘得到64幅特征图,记为B2。将A2、B2中每幅特征图相加得到64幅特征图,记为C2。将C2中每幅特征图输入第七卷积层,输出64幅特征图,记为D2。将D2中的每幅特征图依次通过第二自适应最大池化层、第八卷积层、Sigmoid激活函数,得到64个通道权重,将它们的集合记为Wc2。将D2中的64幅特征图分别与64个对应通道权重相乘,得到通道加权的64幅特征图,记为S2。S2中的每幅特征图的宽度为
Figure BDA0002988660730000131
高度为
Figure BDA0002988660730000132
对于第一过渡块,其由第九卷积层组成。第一过渡块接收第二残差神经网络块与第六残差神经网络块的输出元素的加和,输出为64幅特征图,将它们的集合记为第三侧边输出S3。第九卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”。S3中每幅特征图的宽度为
Figure BDA0002988660730000133
高度为
Figure BDA0002988660730000134
对于第二过渡块,其由第十卷积层组成。第二过渡块接收第三残差神经网络块与第七残差神经网络块的输出元素的加和,输出为64幅特征图,将它们的集合记为第四侧边输出S4。第十卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”。S4中每幅特征图的宽度为
Figure BDA0002988660730000141
高度为
Figure BDA0002988660730000142
对于第三过渡块,其由第十一卷积层组成。第三过渡块接收第四残差神经网络块与第八残差神经网络块的输出元素的加和,输出为64幅特征图,将它们的集合记为第五侧边输出S5。第十一卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”。S5中每幅特征图的宽度为
Figure BDA0002988660730000143
高度为
Figure BDA0002988660730000144
对于第一解码块,如图3所示,其主要由第十二卷积层、第三激活层、第十三卷积层、第四激活层、第十四卷积层、第五激活层依次连接组成,其输入端接收第五侧边输出S5中的每幅特征图,其输出端输出64幅特征图,记为D1。其中第十二卷积层、第十三卷积层、第十四卷积层的结构相同,它们的卷积核大小均为3×3,卷积核个数均为64、步长均为1,补零参数均为“same”;第三激活层、第四激活层、第五激活层的激活方式均为“Relu”。第一解码块的输入与解码块中第十四卷积层的输出做元素的加和,将加和通过双线性插值扩大分辨率至二倍,所得64幅特征图的集合作为第一解码块的输出D1。D1中每幅特征图的宽度为
Figure BDA0002988660730000145
高度为
Figure BDA0002988660730000146
对于第二解码块,如图3所示其主要由第十五卷积层、第六激活层、第十六卷积层、第七激活层、第十七卷积层、第八激活层依次连接组成,其输入端接收第四侧边输出S4中的每幅特征图与第一解码块输出D1中每幅特征图的元素加和,其输出端输出64幅特征图,记为D2。其中第十五卷积层、第十六卷积层、第十七卷积层的结构相同,它们的卷积核大小均为3×3,卷积核个数均为64、步长均为1,补零参数均为“same”;第六激活层、第七激活层、第八激活层的激活方式均为“Relu”。第二解码块的输入与解码块中第十七卷积层的输出做元素的加和,将加和通过双线性插值扩大分辨率至二倍,所得64幅特征图的集合作为第二解码块的输出D2。D2中每幅特征图的宽度为
Figure BDA0002988660730000151
高度为
Figure BDA0002988660730000152
对于第三解码块,如图3所示,其主要由第十八卷积层、第九激活层、第十九卷积层、第十激活层、第二十卷积层、第十一激活层依次连接组成,其输入端接收第三侧边输出S3中的每幅特征图,其输出端输出64幅特征图,记为D3。其中第十八卷积层、第十九卷积层、第二十卷积层的结构相同,它们的卷积核大小均为3×3,卷积核个数均为64、步长均为1,补零参数均为“same”;第九激活层、第十激活层、第十一激活层的激活方式均为“Relu”。第三解码块的输入与解码块中第二十卷积层的输出做元素的加和,将加和通过双线性插值扩大分辨率至二倍,所得64幅特征图的集合作为第三解码块的输出D3。D3中每幅特征图的宽度为
Figure BDA0002988660730000153
高度为
Figure BDA0002988660730000154
将D3中的每幅特征图经过双线性插值,分辨率扩大为原来的二倍,将放大后的64幅特征图的集合记为X1,X1中每幅特征图的宽度为
Figure BDA0002988660730000155
高度为
Figure BDA0002988660730000156
对于第一输出层,输入端接收X1中的每幅特征图,经过输出层的处理,输出9幅与原始输入图像对应的语义分割预测图。第一输出层由第二十一卷积层和一个二倍上采样层组成。其中,第二十一卷积层输出层的卷积核大小为1×1、卷积核个数为9、步长为1,补零参数为“same”;二倍上采样层采用双线性插值方法输出与原始图相同尺寸特征图。
将第三侧边输出S3,经过过双线性插值,分辨率扩大为原来的二倍,将放大后的64幅特征图的集合记为S3up,S3up中每幅特征图的宽度为
Figure BDA0002988660730000161
高度为
Figure BDA0002988660730000162
将S3up中的每幅特征图与第二侧边输出S2中的每幅特征图元素相加,得到64幅特征图,它们的集合记为J,将J中的每幅特征图与第三解码块的输出D3中的每幅特征图元素相乘,得到64幅特征图,它们的集合记为Jm,将Jm中每幅特征图经过过双线性插值,分辨率扩大为原来的二倍,放大后的64幅特征图的集合记为X2,X2中每幅特征图的宽度为
Figure BDA0002988660730000163
高度为
Figure BDA0002988660730000164
对于第二输出层,输入端接收X2中的每幅特征图,经过输出层的处理,输出2幅与原始输入图像对应的前景背景预测图。第二输出层由第二十二卷积层和一个二倍上采样层组成。其中,第二十二卷积层输出层的卷积核大小为1×1、卷积核个数为2、步长为1,补零参数为“same”;二倍上采样层采用双线性插值方法输出与原始图相同尺寸特征图。
将第三解码块的输出D3中的每幅特征图经过双线性插值,分辨率扩大为原来的二倍,将放大后的64幅特征图的集合记为D3up,D3up中每幅特征图的宽度为
Figure BDA0002988660730000165
高度为
Figure BDA0002988660730000166
将第一侧边输出S2中的每幅特征图与D3up中的每幅特征图做元素相乘,得到64幅特征图,将它们的集合记为X3,X3中每幅特征图的宽度为
Figure BDA0002988660730000167
高度为
Figure BDA0002988660730000168
对于第三输出层,输入端接收X3中的每幅特征图,经过输出层的处理,输出2幅与原始输入图像对应的边界预测图。第三输出层由第二十三卷积层和一个二倍上采样层组成。其中,第二十三卷积层输出层的卷积核大小为1×1、卷积核个数为2、步长为1,补零参数为“same”;二倍上采样层采用双线性插值方法输出与原始图相同尺寸特征图。
步骤1_3:将训练集中原始的道路场景图像和对应的热力图输入到卷积神经网络的输入层中进行训练:由第一输出层得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图,将与原始的道路场景图像对应的9幅语义分割预测图构成的语义分割预测图集合记为
Figure BDA0002988660730000171
由第二输出层得到训练集中的每幅原始的道路场景图像对应的2幅前景背景预测图,将与原始的道路场景图像对应的2幅前景背景预测图构成的前景背景预测图集合记为
Figure BDA0002988660730000172
由第三输出层得到训练集中的每幅原始的道路场景图像对应的2幅边界预测图,将与原始的道路场景图像对应的2幅边界预测图构成的边界预测图集合记为
Figure BDA0002988660730000173
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图构成的集合
Figure BDA0002988660730000174
与对应的语义分割标签图集
Figure BDA0002988660730000175
之间的损失函数值,将
Figure BDA0002988660730000176
Figure BDA0002988660730000177
之间的损失函数值记为
Figure BDA0002988660730000178
Figure BDA0002988660730000179
采用Lovász-Softmax损失函数获得;计算训练集中的每幅原始的道路场景图像对应的2幅前景背景预测图构成的集合
Figure BDA00029886607300001710
与对应的语义分割标签图集
Figure BDA00029886607300001711
之间的损失函数值,将
Figure BDA00029886607300001712
Figure BDA00029886607300001713
之间的损失函数值记为
Figure BDA00029886607300001714
采用分类交叉熵(categoricalcrossentropy)获得。计算训练集中的每幅原始的道路场景图像对应的2幅边界预测图构成的集合
Figure BDA00029886607300001715
与对应的语义分割标签图集
Figure BDA00029886607300001716
之间的损失函数值,将
Figure BDA00029886607300001717
Figure BDA00029886607300001718
之间的损失函数值记为
Figure BDA00029886607300001719
采用分类交叉熵(categorical crossentropy)获得;将第q幅图在训练中获得的损失函数记为Lossq
Figure BDA00029886607300001720
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=500。
所述的测试阶段过程的具体步骤为:
步骤2_1:待语义分割的道路场景图像记为
Figure BDA0002988660730000181
其中,1≤i'≤W',1≤j'≤H',W'表示待语义分割的道路场景图像的宽度,H'表示待语义分割的道路场景图像的高度,i'、j'分别表示坐标位置为(i',j')的像素点的横纵坐标,
Figure BDA0002988660730000182
表示待语义分割的道路场景图像中坐标位置为(i',j')的像素点的像素值;将待语义分割的道路场景图像对应的待语义分割热力图记为
Figure BDA0002988660730000183
Figure BDA0002988660730000184
表示待语义分割热力图中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将待语义分割的道路场景图像和待语义分割热力图分别输入到卷积神经网络训练模型的第一输入层和第二输入层中,并利用最优权值矢量和最优偏置项进行预测,通过第一输出层得到待语义分割的道路场景图像对应的语义分割预测图像,记为
Figure BDA0002988660730000185
其中,
Figure BDA0002988660730000186
表示语义分割预测图像中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Pytorch搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库InfRec500测试集来分析利用本发明方法预测得到的道路场景图像(取393幅道路场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法使用的是Ha Qishen等人在MFNet中发布的公共数据集。由InfReCR500相机拍摄的图像分辨率为480×640,可以同时提供RGB和热成像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
Figure BDA0002988660730000191
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其特征在于,包含以下步骤:
选取多幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,由所述多幅原始的道路场景图像和所述每幅原始的道路场景图像对应的标签图构成训练集;
构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络;
将所述训练集输入到所述卷积神经网络中进行训练,得到所述训练集中的每幅原始的道路场景图对应的预测图;
获取所述预测图的加和损失函数值;
多次对神经网络进行训练得到卷积神经网络分类训练模型。
2.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其特征在于,所述标签图包括热力图、彩色热力图像、语义分割标签图、前景标签图和边界标签图。
3.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其特征在于,所述预测图包括语义分割预测图、前景背景预测图和边界预测图。
4.根据权利要求3所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其特征在于,所述加和损失函数值的获取如下:
利用Lovász-Softmax损失函数计算分割标签图的损失函数值,利用分类交叉熵计算前景背景标签图的损失函数值和边界标签图的损失函数值,分割标签图的损失函数值,前景背景标签图的损失函数值和边界标签图的损失函数值相加获得加和损失函数值。
5.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其特征在于,构建带有跨模态融合和注意力机制优化、恢复分辨率和增强语义信息的卷积神经网络具体过程如下:
第一输入层、第一初始神经网络块、第一残差神经网络块、第二残差神经网络块、第三残差神经网络块和第四神经网络块依次连接,第二输入层、第二初始神经网络块、第五残差神经网络块、第六残差神经网络块、第七残差神经网络块和第八残差神经网络块依次连接,第一初始神经网络块与第二初始神经网络块的输出共同作为第一融合块的输入,第一融合块的输出记为第一侧边输出,第一残差神经网络块与第五残差神经网络块的输出作为第二融合块的输入,第二融合块的输出记为第二侧边输出,将第二残差神经网络块和第六残差神经网络块的输出做元素的加和,记为第三侧边输出,将第三残差神经网络块输出与第七残差神经网络块输出的加和记为第四侧边输出,将第四残差神经网络块输出与第八残差神经网络块输出的加和记为第五侧边输出;
将经过第三过渡层的所述第五侧边输出作为第一解码块的输入,所述第一解码块的输出与经过第二过渡层的所述第四侧边输出的元素加和作为第二解码块的输入,所述第二解码块的输出与经过第一过渡层的所述第三侧边输出的元素加和作为第三解码块的输入,将所述第三解码块的输出记为指导特征,将所述指导特征进行二倍双线性插值作为第一输出层的输入;
将经过第一过渡层的所述第三侧边输出进行双线性插值,分辨率变为两倍后与所述第二侧边输出元素相加,将所得加和与所述指导特征进行元素相乘,将所得乘积经过二倍双线性插值,将经过插值后的特征作为第二输出层的输入;
将所述第一侧边输出与经过二倍双线性插值处理过的所述指导特征进行元素相乘,将所得乘积作为第三输出层的输入;
所述第一输入层中输入训练集中的原始的道路场景图像,所述第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量,第二输入层中输入原始的道路场景图像对应的热力图,所述第二输入层输出原始的道路场景图像对应的热力图像。
6.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其特征在于,跨模态融合和注意力机制优化通过融合块实现,所述融合块具体连接关系如下:
第一输入端后依次连接最大值选择层和第一卷积层,记输出为A,第二输入端与A进行像素加和,记输出为a,第二输入端与a做像素乘积,记输出为B,A与B做像素加和得到C,C输入第二卷积层得到D,所述第二卷积层后依次连接最大值池化层和第三卷积层,所述第三卷积层的输出与D做像素乘积得到输出。
7.根据权利要求1所述的一种基于卷积神经网络跨模态融合的道路场景语义分割方法,其特征在于,恢复分辨率和增强语义信息通过解码块实现,所述解码块的具有连接关系如下:
输入像素经过三个卷积层后与所述输入像素做像素加和并输入到上采样层中,得到输出。
CN202110308057.8A 2021-03-23 2021-03-23 基于卷积神经网络跨模态融合的道路场景语义分割方法 Pending CN112991364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110308057.8A CN112991364A (zh) 2021-03-23 2021-03-23 基于卷积神经网络跨模态融合的道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110308057.8A CN112991364A (zh) 2021-03-23 2021-03-23 基于卷积神经网络跨模态融合的道路场景语义分割方法

Publications (1)

Publication Number Publication Date
CN112991364A true CN112991364A (zh) 2021-06-18

Family

ID=76333098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308057.8A Pending CN112991364A (zh) 2021-03-23 2021-03-23 基于卷积神经网络跨模态融合的道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN112991364A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362349A (zh) * 2021-07-21 2021-09-07 浙江科技学院 一种基于多监督网络的道路场景图像语义分割方法
CN113408462A (zh) * 2021-06-29 2021-09-17 西南交通大学 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法
CN113627241A (zh) * 2021-06-29 2021-11-09 厦门市美亚柏科信息股份有限公司 一种用于行人重识别的背景抑制方法与系统
CN114154427A (zh) * 2022-02-08 2022-03-08 中国石油大学(华东) 基于深度学习的体积压裂裂缝扩展预测方法和系统
CN114267003A (zh) * 2022-03-02 2022-04-01 城云科技(中国)有限公司 道路破损检测方法、装置及应用

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408462A (zh) * 2021-06-29 2021-09-17 西南交通大学 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法
CN113627241A (zh) * 2021-06-29 2021-11-09 厦门市美亚柏科信息股份有限公司 一种用于行人重识别的背景抑制方法与系统
CN113408462B (zh) * 2021-06-29 2023-05-02 西南交通大学 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法
CN113362349A (zh) * 2021-07-21 2021-09-07 浙江科技学院 一种基于多监督网络的道路场景图像语义分割方法
CN114154427A (zh) * 2022-02-08 2022-03-08 中国石油大学(华东) 基于深度学习的体积压裂裂缝扩展预测方法和系统
CN114267003A (zh) * 2022-03-02 2022-04-01 城云科技(中国)有限公司 道路破损检测方法、装置及应用

Similar Documents

Publication Publication Date Title
CN109711481B (zh) 用于画作多标签识别的神经网络、相关方法、介质和设备
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN110490205B (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN110853057B (zh) 基于全局和多尺度全卷积网络的航拍图像分割方法
CN113269787A (zh) 一种基于门控融合的遥感图像语义分割方法
CN109711409A (zh) 一种结合U-net和ResNet的手写乐谱谱线删除方法
CN112488025B (zh) 基于多模态特征融合的双时相遥感影像语义变化检测方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN116309536A (zh) 一种路面裂缝检测方法及存储介质
CN111860411A (zh) 一种基于注意力残差学习的道路场景语义分割方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN113313077A (zh) 基于多策略和交叉特征融合的显著物体检测方法
CN116778346B (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN113763364A (zh) 一种基于卷积神经网络的图像缺陷检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination