CN112508956A - 一种基于卷积神经网络的道路场景语义分割方法 - Google Patents

一种基于卷积神经网络的道路场景语义分割方法 Download PDF

Info

Publication number
CN112508956A
CN112508956A CN202011224151.7A CN202011224151A CN112508956A CN 112508956 A CN112508956 A CN 112508956A CN 202011224151 A CN202011224151 A CN 202011224151A CN 112508956 A CN112508956 A CN 112508956A
Authority
CN
China
Prior art keywords
layer
convolution
neural network
block
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011224151.7A
Other languages
English (en)
Inventor
周武杰
刘劲夫
钱小鸿
雷景生
万健
杨胜英
强芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202011224151.7A priority Critical patent/CN112508956A/zh
Publication of CN112508956A publication Critical patent/CN112508956A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30256Lane; Road marking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于卷积神经网络的道路场景语义分割方法。本发明在训练阶段,构建卷积神经网络,其隐层包括十个神经网络块、三个卷积块、两个联合金字塔上采样模块、可分离上采样块;使用原始的道路场景图像输入到卷积神经网络中进行训练,得到对应的9幅语义分割预测图;再通过计算原始的道路场景图像对应的9幅语义分割预测图构成的集合与对应的语义分割标签图集之间的损失函数值,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,得到预测语义分割图像;本发明提高了道路场景图像的语义分割效率,并且提升了准确度。

Description

一种基于卷积神经网络的道路场景语义分割方法
技术领域
本发明涉及了一种深度学习的语义分割方法,尤其是涉及了一种基于卷积神经网络的道路场景语义分割方法。
背景技术
智能交通行业的兴起,使得语义分割在智能交通系统中有着越来越多的应用,从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的道路场景语义分割方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,分割精度低。
发明内容
本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法,其分割效率高,且分割准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
本发明包括训练阶段和测试阶段两个过程;
所述的训练阶段的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像(RGB)对应的热力图(Thermat)和真实语义分割图像,利用HHA编码方式将热力图处理成三通道并与原始的道路场景图像(RGB)叠加形成彩色热力图像(RT),利用独热编码方法将真实语义分割图像转换为9幅独热编码图像,将9幅独热编码图像构成的集合作为语义分割标签图集,Q幅原始的道路场景图像(RGB)与对应的热力图(Thermat)、彩色热力图像(RT)、语义分割标签图构成训练集,其中,Q为正整数,Q≥200;
所述的原始的道路场景图像为256位的彩色图像。
所述的步骤1_1具体为:
选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,选择第q幅原始的道路场景图像记为
Figure BDA0002763085800000021
原始的道路场景图像对应的热力图记为
Figure BDA0002763085800000022
利用HHA编码方式将热力图处理成三通道并与原始的道路场景图像叠加形成彩色热力图像记为
Figure BDA0002763085800000023
将第q幅原始的道路场景图像对应的真实语义分割图像记为
Figure BDA0002763085800000024
然后利用独热编码方法(one-hot)将第q幅原始的道路场景图像对应的真实语义分割图像处理成9幅独热编码图像,将真实语义分割图像处理成的9幅独热编码图像构成的集合作为语义分割标签图记为
Figure BDA0002763085800000025
重复操作Q次,由Q幅原始的道路场景图像和对应的热力图、彩色热力图像、语义分割标签图构成训练集;
其中,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示原始的道路场景图象的宽度,H表示原始的道路场景图象的高度,i、j分别表示坐标位置为(i,j)的像素点的横纵坐标,
Figure BDA0002763085800000026
表示第q幅原始的道路场景图像中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002763085800000027
表示第q幅热力图中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002763085800000028
表示第q幅彩色热力图像中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002763085800000029
表示真实语义分割图像中坐标位置为(i,j)的像素点的像素值。
步骤1_2:构建卷积神经网络:
卷积神经网络包括三个输入层、隐层和输出层;隐层包括第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块、第十神经网络块、第一卷积块、第二卷积块、第三卷积块、可分离上采样块(SUB)、第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2);第一输入层、第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块和第五神经网络块依次连接,第三神经网络块、第四神经网络块和第五神经网络块的输出输入到第一联合金字塔上采样模块(JPU1),第一联合金字塔上采样模块(JPU1)的输出输入到第五双线性插值层,第二输入层、第一卷积块和第二卷积块依次连接,第三输入层、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块和第十神经网络块依次连接,第八神经网络块、第九神经网络块和第十神经网络块的输出输入到第二联合金字塔上采样模块(JPU2),第二联合金字塔上采样模块(JPU2)的输出输入到第六双线性插值层,第五双线性插值层和第五双线性插值层的输出先进行像素的加和后再与第二卷积块、第一神经网络块、第六神经网络块的输出进行通道的叠加后输入第三卷积块,第三卷积块依次连接可分离上采样块(SUB)和输出层;
第一输入层中输入训练集中的原始的道路场景图像,第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量,第三输入层中输入原始的道路场景图像对应的热力图,第三输入层输出原始的道路场景图像对应的热力图,第二输入层中输入原始的道路场景图像对应彩色热力图像,第二输入层输出原始的道路场景图像对应彩色热力图像。
所述的第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2)结构相同,均包括上采样层、金字塔卷积层、JPU输出层;上采样层、金字塔卷积层和JPU输出层依次连接,上采样层包括第一百零四卷积层、第一百零四激活层、第一百零五卷积层、第一百零五激活层、第一百零六卷积层、第一百零六激活层、第一双线性插值层和第二双线性插值层,第一百零四卷积层、第一百零四激活层和第一双线性插值层依次连接,第一百零五卷积层、第一百零五激活层和第二双线性插值层依次连接,第一百零六卷积层和第一百零六激活层依次连接,第三神经网络块的输出或者第八神经网络块的输出输入到第一百零六卷积层,第四神经网络块的输出或者第九神经网络块的输出输入到第一百零五卷积层,第五神经网络块的输出或者第十神经网络块的输出输入到第一百零四卷积层,第一百零六激活层、第一双线性插值层和第二双线性插值层的输出进行通道的叠加后输出到金字塔卷积层;金字塔卷积层包括四个金字塔子卷积层,四个金字塔子卷积层并联设置,上采样层的输出分别输入到各个金字塔子卷积层,各个金字塔子卷积层的输出进行通道的叠加后输出到JPU输出层,JPU输出层主要由第一百一十一卷积层和第一百一十一激活层依次连接构成,第一百一十一激活层的输出作为联合金字塔上采样模块的输出。
所述的可分离上采样块(SUB)和输出层结构相同,均包括第一上采样块和第二上采样块;第一上采样块的输入作为可分离上采样块(SUB)的输入,第一上采样块和第二上采样块级联,第一上采样块主要由第一百二十卷积层、第一百二十激活层、第一百二十一卷积层、第一百二十一激活层和第一百二十二卷积层依次连接构成,第三卷积块的输出输入第一百二十卷积层,第一百二十二卷积层的输出与第三卷积块的输出先进行像素的加和再输入到第一百二十二激活层;第二上采样块主要由第一百二十三卷积层、第一百二十三激活层、第一百二十四卷积层、第一百二十四激活层和第一反卷积层依次连接构成,第一上采样块的输出输入到第二反卷积层,第二反卷积层与第一反卷积层的输出先进行像素的加和再输入到第一百二十五激活层,第一百二十五激活层的输出作为可分离上采样块(SUB)的输出。
步骤1_3:将训练集中原始的道路场景图像和对应的热力图、彩色热力图像输入到卷积神经网络的输入层中进行训练,训练得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图,将与原始的道路场景图像对应的9幅语义分割预测图构成的语义分割预测图集合记为
Figure BDA0002763085800000041
步骤1_4:利用分类交叉熵计算9幅语义分割预测图构成的集合与对应的语义分割标签图的损失函数值,每幅原始的道路场景图像获得一个损失函数值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,其中,V>1,得到卷积神经网络分类训练模型,并总共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出最小的损失函数值,将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest
所述的测试阶段的具体步骤为:
步骤2_1:待语义分割的道路场景图像记为
Figure BDA0002763085800000042
其中,1≤i'≤W',1≤j'≤H',W'表示待语义分割的道路场景图像的宽度,H'表示待语义分割的道路场景图像的高度,i'、j'分别表示坐标位置为(i',j')的像素点的横纵坐标,
Figure BDA0002763085800000051
表示待语义分割的道路场景图像中坐标位置为(i',j')的像素点的像素值;将待语义分割的道路场景图像对应的待语义分割热力图记为
Figure BDA0002763085800000052
Figure BDA0002763085800000053
表示待语义分割热力图中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将待语义分割的道路场景图像和待语义分割热力图分别输入到卷积神经网络训练模型的第一输入层和第三输入层中,并利用最优权值矢量和最优偏置项进行预测,得到待语义分割的道路场景图像对应的语义分割预测图像,记为
Figure BDA0002763085800000054
其中,
Figure BDA0002763085800000055
表示语义分割预测图像中坐标位置为(i',j')的像素点的像素值。
与现有技术相比,本发明的优点在于:
1)本发明方法构建卷积神经网络,使用训练集中的道路场景图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,预测得到道路场景图像对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时采用了彩色图,热力图双分支结构,充分利用了热力图对彩色图细节纹理和边缘特征的补充性,因此能够比较准确地描述道路场景中各种分类目标,从而有效地提高了道路场景图像的语义分割精确度。
2)本发明方法将彩色图和热力图的叠合作为第三流输入,通过简单的卷积层组合,提取了浅层特征,减少了细节特征和物体边缘特征的丢失。
3)本发明方法采用联合上采样模块,充分利用了多层多尺度特征,与此同时保持所提取的特征图分辨率以及感知域,并且减少训练参数量。
4)本发明方法使用可分离的上采样块逐步恢复分辨率,即把上采样操作分解成两部分卷积层完成,进而在训练集与测试集上都能得到较好效果。
附图说明
图1为本发明方法的总体实现框图;
图2为联合金字塔上采样模块(JPU)结构图;
图3为可分离上采样块(SUB)结构图;
图4a为第1幅原始的道路场景图像;
图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图5a为第2幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图6a为第3幅原始的道路场景图像;
图6b为利用本发明方法对图6a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图7a为第4幅原始的道路场景图像;
图7b为利用本发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的步骤1_1具体为:
选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,选择第q幅原始的道路场景图像记为
Figure BDA0002763085800000061
原始的道路场景图像对应的热力图记为
Figure BDA0002763085800000062
利用HHA编码方式将热力图处理成三通道并与原始的道路场景图像叠加形成彩色热力图像记为
Figure BDA0002763085800000063
将第q幅原始的道路场景图像对应的真实语义分割图像记为
Figure BDA0002763085800000064
然后利用独热编码方法(one-hot)将第q幅原始的道路场景图像对应的真实语义分割图像处理成9幅独热编码图像,将真实语义分割图像处理成的9幅独热编码图像构成的集合作为语义分割标签图记为
Figure BDA0002763085800000065
重复操作Q次,由Q幅原始的道路场景图像和对应的热力图、彩色热力图像、语义分割标签图构成训练集;其中,如取Q=784,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示原始的道路场景图象的宽度,H表示原始的道路场景图象的高度,如取W=480、H=640,i、j分别表示坐标位置为(i,j)的像素点的横纵坐标,
Figure BDA0002763085800000066
表示第q幅原始的道路场景图像中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002763085800000067
表示第q幅热力图中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002763085800000068
表示第q幅彩色热力图像中坐标位置为(i,j)的像素点的像素值,
Figure BDA0002763085800000069
表示真实语义分割图像中坐标位置为(i,j)的像素点的像素值,具体实施中,原始的道路场景图像直接选用道路场景图像数据InfRecR500训练集中的784幅图像。
步骤1_2:构建卷积神经网络:
卷积神经网络包括三个输入层、隐层和输出层;隐层包括第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块、第十神经网络块、第一卷积块、第二卷积块、第三卷积块、可分离上采样块(SUB)、第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2);第一输入层、第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块和第五神经网络块依次连接,第三神经网络块、第四神经网络块和第五神经网络块的输出输入到第一联合金字塔上采样模块(JPU1),第二输入层、第一卷积块和第二卷积块依次连接,第三输入层、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块和第十神经网络块依次连接,第八神经网络块、第九神经网络块和第十神经网络块的输出输入到第二联合金字塔上采样模块(JPU2),第一联合金字塔上采样模块(JPU1)的输出输入到第五双线性插值层,第二联合金字塔上采样模块(JPU2)的输出输入到第六双线性插值层,第五双线性插值层和第五双线性插值层的输出先进行像素的加和后再与第二卷积块、第一神经网络块、第六神经网络块的输出进行通道的叠加后输入第三卷积块,第三卷积块依次连接可分离上采样块(SUB)和输出层;
第一输入层中输入训练集中的原始的道路场景图像,第一输入层输出原始的道路场景图像的R通道分量、G通道分量和B通道分量,第三输入层中输入原始的道路场景图像对应的热力图,第三输入层输出原始的道路场景图像对应的热力图,第二输入层中输入原始的道路场景图像对应彩色热力图像,第二输入层输出原始的道路场景图像对应彩色热力图像,其中要求输入层的输入端接收的原始的道路场景图像的宽度为W、高度为H。
对于隐层,第一神经网络块主要由第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)和第一最大池化层(Maxpooling,Pool)依次连接构成;第一神经网络块的输入端接收R通道、G通道、B通道三个通道分量,第一神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为R1。其中,第一卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数均3,第一激活层激活方式均为“Relu”,第一最大池化层的池化尺寸(pool_size)为2,R1中的每幅特征图的宽度为
Figure BDA0002763085800000071
高度为
Figure BDA0002763085800000081
对于第二神经网络块,其主要由依次设置的第一残差网络块、第二残差网络块和第三残差网络块组成;第二神经网络块的输入端接收R1中的所有特征图,第二神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为R2;其中,第一残差网络块包括左、右两分支以及汇总激活,左分支主要由第二卷积层、第二激活层、第三卷积层、第三激活层和第四卷积层依次连接组成,右分支包括第一跳层下采样卷积,汇总激活包括第四激活层,第一残差网络块的输入分别输入左分支和右分支,第四卷积层和第一跳层下采样卷积的输出先进行像素的加和后输入第四激活层,第四激活层的输出为第一残差网络块的输出。第一残差网络块的输入是R1中的64幅特征图,分别经过左分支和右分支后进行像素的加和,再经过第四激活层,第四激活层的输出为256幅特征图,将这256幅特征图构成的集合记为S1。第二卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”;第三卷积层的卷积核大小为3×3、卷积核个数为64、步长为1,补零参数为“same”;第四卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”;第二激活层,第三激活层和第四激活层的激活方式均为“Relu”;第一跳层下采样卷积的卷积核为1×1,卷积核的个数256,步长为1,补零参数为“same”;第二残差网络块主要由第五卷积层、第五激活层、第六卷积层、第六激活层和第七卷积层依次连接组成,第二残差网络块的输入同时与第七卷积层的输出进行像素的加和后输入到第七激活层,第七激活层的输出作为第二残差网络块的输出。第二残差网络块的输入是S1中的256幅特征图,经第二残差网络块处理后输出256幅特征图,将这256幅特征图构成的集合记为S2。第五卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”,第六卷积层的卷积核大小为3×3、卷积核个数为64、步长为1,补零参数为“same”,第七卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”,第五激活层,第六激活层和第七激活层的激活方式均为“Relu”。第三残差网络块由第八卷积层、第八激活层、第九卷积层、第九激活层和第十卷积层依次连接组成,第三残差网络块的输入同时与第十卷积层的输出进行像素的加和后输入到第十激活层,第十激活层的输出作为第二神经网络块的输出。第三残差网络块的输入是S2中的256幅特征图,经第三残差网络块处理后输出256幅特征图,将这256幅特征图构成的集合记为S3,同时作为第二神经网络块的输出记为R2。第八卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”,第九卷积层的卷积核大小为3×3、卷积核个数为64、步长为1,补零参数为“same”,第十卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”,第八激活层、第九激活层和第十激活层的激活方式均为“Relu”。R2中的每幅特征图的宽度为
Figure BDA0002763085800000091
高度为
Figure BDA0002763085800000092
对于第三神经网络块,其主要由依次设置的第四残差网络块、第五残差网络块、第六残差网络块和第七残差网络块组成;第三神经网络块的输入端接收R2中的所有特征图,第三神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为R3;其中,第四残差块包括左、右两分支以及汇总激活,左分支主要由第十一卷积层、第十一激活层、第十二卷积层、第十二激活层和第十三卷积层依次连接组成,右分支包括第二跳层下采样卷积,汇总激活包括第十三激活层,第四残差网络块的输入分别输入左分支和右分支,第十三卷积层和第二跳层下采样卷积的输出先进行像素的加和后输入第十三激活层,第十三激活层的输出为第四残差网络块的输出。第四残差网络块的输入是R2中的256幅特征图,分别经过左右两个分支,再做它们的像素加和,经过汇总激活输出为512幅特征图,将这512幅特征图构成的集合记为S4,第十一卷积层的卷积核大小为1×1、卷积核个数为128、步长为2,补零参数为“same”,第十二卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第十三卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第十一激活层、第十二激活层和第十三激活层的激活方式均为“Relu”,第二跳层下采样卷积的卷积核为1×1,卷积核的个数512,步长为2,补零参数为“same”;第五残差网络块主要由第十四卷积层、第十四激活层、第十五卷积层、第十五激活层和第十六卷积层依次连接组成,第五残差网络块的输入同时与第十六卷积层的输出进行像素的加和后输入到第十六激活层,第十六激活层的输出作为第五残差网络块的输出。第五残差网络块的输入是S4中的512幅特征图,经第五残差网络块处理后输出512幅特征图,将这512幅特征图构成的集合记为S5。第十四卷积层的卷积核大小为1×1、卷积核个数为128、步长为1,补零参数为“same”,第十五卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第十六卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第十四激活层,第十五激活层和第十六激活层的激活方式均为“Relu”;第六残差网络块主要由第十七卷积层、第十七激活层、第十八卷积层、第十八激活层和第十九卷积层依次连接组成,第六残差网络块的输入同时与第十九卷积层的输出进行像素的加和后输入到第十九激活层,第十九激活层的输出作为第六残差网络块的输出。第六残差网络块的输入是S5中的512幅特征图,经第六残差网络块处理后输出512幅特征图,将这512幅特征图构成的集合记为S6。第十七卷积层的卷积核大小为1×1、卷积核个数为128、步长为1,补零参数为“same”,第十八卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第十九卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第十七激活层,第十八激活层和第十九激活层的激活方式均为“Relu”;第七残差网络块主要由第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层和第二十二卷积层依次连接组成,第七残差网络块的输入同时与第二十二卷积层的输出进行像素的加和后输入到第二十二激活层,第二十二激活层的输出作为第三神经网络块的输出。第七残差网络块的输入是S6中的512幅特征图,经第七残差网络块处理后输出512幅特征图,将这512幅特征图构成的集合记为S7,同时作为第3神经网络块的输出记为R3。第二十卷积层的卷积核大小为1×1、卷积核个数为128、步长为1,补零参数为“same”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第二十激活层、第二十一激活层和第二十二激活层的激活方式均为“Relu”。R3中的每幅特征图的宽度为
Figure BDA0002763085800000111
高度为
Figure BDA0002763085800000112
对于第四神经网络块,其主要由依次设置的第八残差网络块、第九残差网络块、第十残差网络块、第十一残差网络块、第十二残差网络块和第十三残差网络块组成;第四神经网络块的输入端接收R3中的所有特征图,第四神经网络块的输出端输出1024幅特征图,将1024幅特征图构成的集合记为R4;其中,第八残差网络块包括左、右两分支以及汇总激活,左分支主要由第二十三卷积层、第二十三激活层、第二十四卷积层、第二十四激活层、第二十五卷积层依次连接组成,右分支包括第三跳层下采样卷积,汇总激活包括第二十五激活层,第八残差网络块的输入分别输入左分支和右分支,第二十五卷积层和第三跳层下采样卷积的输出先进行像素的加和后共同输入第二十五激活层,第二十五激活层的输出为第八残差网络块的输出。第八残差网络块的输入是R3中的512幅特征图,分别经过左右两个分支,做它们的像素加和,再经过汇总激活输出为1024幅特征图,将这1024幅特征图构成的集合记为S8,第二十三卷积层的卷积核大小为1×1、卷积核个数为256、步长为2,补零参数为“same”,第二十四卷积层的卷积核大小为3×3、卷积核个数为256、步长为1,补零参数为“same”,第二十五卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1,补零参数为“same”,第二十三激活层,第二十四激活层和第二十五激活层的激活方式均为“Relu”,第三跳层下采样卷积的卷积核为1×1,卷积核的个数1024,步长为2,补零参数为“same”。第九、十、十一、十二、十三残差网络块的结构相同,以第九残差网络块为例,第九残差块将S8中的1024幅特征图作为输入,分别经过左右两分支,左右两分支的输出进行像素加和后再经过汇总激活的输出为1024幅特征图,将这1024幅特征图构成的集合记为S9。第九残差网络块的左分支主要由第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层和第二十八卷积层依次连接组成,第九残差网络块的输入同时与第二十八卷积层的输出进行像素的加和后输入到第二十八激活层,第二十八激活层的输出作为第九残差网络块的输出。第二十六卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”,第二十七卷积层的卷积核大小为3×3、卷积核个数为256、步长为1,补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1,补零参数为“same”,第二十六激活层,第二十七激活层和第二十八激活层的激活方式均为“Relu”。以此类推,第十、十一、十二、十三残差块的输出分别为S10、S11、S12、S13,其中S13又作为第四神经网络块的输出,记为R4。R4中的每幅特征图的宽度为
Figure BDA0002763085800000131
高度为
Figure BDA0002763085800000132
对于第五神经网络块,其主要由依次设置的第十四残差网络块、第十五残差网络块和第十六残差网络块组成;第五神经网络块的输入端接收R4中的所有特征图,第五神经网络块的输出端输出2048幅特征图,将2048幅特征图构成的集合记为R5;其中,第十四残差块包括左、右两分支以及汇总激活,左分支主要由第四十一卷积层、第四十一激活层、第四十二卷积层、第四十二激活层和第四十三卷积层依次连接组成;右分支包括第四跳层下采样卷积;汇总激活包括第四十三激活层,第十四残差网络块的输入分别输入左分支和右分支,第四十三卷积层和第四跳层下采样卷积的输出先进行像素的加和后共同输入第四十三激活层,第四十三激活层的输出为第十四残差网络块的输出。第十四残差网络块的输入是R4中的1024幅特征图,分别经过左右两个分支,再做它们的像素加和,经过汇总激活输出为2048幅特征图,将这2048幅特征图构成的集合记为S14,第四十一卷积层的卷积核大小为1×1、卷积核个数为512、步长为2,补零参数为“same”,第四十二卷积层的卷积核大小为3×3、卷积核个数为512、步长为1,补零参数为“same”,第四十三卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1,补零参数为“same”,第四十一激活层,第四十二激活层和第四十三激活层的激活方式均为“Relu”,第四跳层下采样卷积的卷积核为1×1,卷积核的个数2048,步长为2,补零参数为“same”;第十五残差网络块主要由第四十四卷积层、第四十四激活层、第四十五卷积层、第四十五激活层和第四十六卷积层依次连接组成,第十五残差网络块的输入同时与第四十六卷积层的输出进行像素的加和后输入到第四十六激活层,第四十六激活层的输出作为第十五残差网络块的输出。第十五残差网络块的输入是S14中的2048幅特征图,经第十五残差网络块处理后输出2048幅特征图,将这2048幅特征图构成的集合记为S15,第四十四卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第四十五卷积层的卷积核大小为3×3、卷积核个数为512、步长为1,补零参数为“same”,第是四十六卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1,补零参数为“same”,第四十四激活层,第四十五激活层和第四十六激活层的激活方式均为“Relu”;第十六残差块由第四十七卷积层、第四十七激活层、第四十八卷积层、第四十八激活层、和第四十九卷积层、第四十九激活层组成。第十六残差网络块的结构与第十五残差网络块的结构相同。第十六残差网络块的输入是S15中的2048幅特征图,经第十六残差网络块处理后输出2048幅特征图,将这2048幅特征图构成的集合记为S16,同时作为第5神经网络块的输出记为R5。第四十七卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第四十八卷积层的卷积核大小为3×3、卷积核个数为512、步长为1,补零参数为“same”,第四十九卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1,补零参数为“same”,第四十七激活层,第四十八激活层和第四十九激活层的激活方式均为“Relu”。R5中的每幅特征图的宽度为
Figure BDA0002763085800000141
高度为
Figure BDA0002763085800000142
对于第六神经网络块,其主要由依次设置的第五十卷积层(Convolution,Conv)、第五十激活层(Activation,Act)、第二最大池化层(Maxpooling,Pool)组成;第六神经网络块的输入端接收单通道热力图(Thermal)单通道,第六神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为T1。其中,第五十卷积层的卷积核大小(kernel_size)为7×7、卷积核个数(filters)为64、步长(stride)为2、补零(padding)参数均3,第五十激活层激活方式均为“Relu”,第二最大池化层的池化尺寸(pool_size)为2,T1中的每幅特征图的宽度为
Figure BDA0002763085800000151
高度为
Figure BDA0002763085800000152
对于第七神经网络块,其主要由依次设置的第十七残差网络块、第十八残差网络块和第十九残差网络块组成;第七神经网络块的输入端接收T1中的所有特征图,第七神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为T2;其中,第十七残差网络块包括左、右两分支以及汇总激活,左分支主要由第五十一卷积层、第五十一激活层、第五十二卷积层、第五十二激活层和第五十三卷积层依次连接组成,右分支包括第五跳层下采样卷积,汇总激活包括第五十三激活层,第十七残差网络块的输入分别输入左分支和右分支,第五十三卷积层和第五跳层下采样卷积的输出先进行像素的加和后共同输入第五十三激活层,第五十三激活层的输出为第十七残差网络块的输出。第十七残差网络块的输入是T1中的64幅特征图,分别经过左右两个分支,做它们的像素加和,再经过汇总激活输出为256幅特征图,将这256幅特征图构成的集合记为L1,第五十一卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”,第五十二卷积层的卷积核大小为3×3、卷积核个数为64、步长为1,补零参数为“same”,第五十三卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”,第五十一激活层,第五十二激活层和第五十三激活层的激活方式均为“Relu”,第五跳层下采样卷积的卷积核为1×1,卷积核的个数256,步长为1,补零参数为“same”;第十八残差块主要由第五十四卷积层、第五十四激活层、第五十五卷积层、第五十五激活层和第五十六卷积层依次连接组成,第十八残差网络块的输入同时与第五十六卷积层的输出进行像素的加和后输入到第五十六激活层,第五十六激活层的输出作为第十八残差网络块的输出。第十八残差网络块的输入是L1中的256幅特征图,经第十八残差网络块处理后输出256幅特征图,将这256幅特征图构成的集合记为L2,第五十四卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”,第五十五卷积层的卷积核大小为3×3、卷积核个数为64、步长为1,补零参数为“same”,第五十六卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”,第五十四激活层,第五十五激活层和第五十六激活层的激活方式均为“Relu”;第十九残差块主要由第五十七卷积层、第五十七激活层、第五十八卷积层、第五十八激活层和第五十九卷积层依次连接组成,第十九残差网络块的输入同时与第五十九卷积层的输出进行像素的加和后输入到第五十九激活层,第五十九激活层的输出作为第十九残差网络块的输出。第十九残差网络块的输入是L2中的256幅特征图,经第十九残差网络块处理后输出256幅特征图,将这256幅特征图构成的集合记为L3,同时作为第7神经网络块的输出记为T2。第五十七卷积层的卷积核大小为1×1、卷积核个数为64、步长为1,补零参数为“same”,第五十八卷积层的卷积核大小为3×3、卷积核个数为64、步长为1,补零参数为“same”,第五十九卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”,第五十七激活层,第五十八激活层和第五十九激活层的激活方式均为“Relu”。T2中的每幅特征图的宽度为
Figure BDA0002763085800000161
高度为
Figure BDA0002763085800000162
对于第八神经网络块,其主要由依次设置的第二十残差网络块、第二十一残差网络块、第二十二残差网络块和第二十三残差网络块组成;第八神经网络块的输入端接收T2中的所有特征图,第八神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为T3;其中,第二十残差块主要由左、右两分支以及汇总激活组成,左分支主要由第六十卷积层、第六十激活层、第六十一卷积层、第六十一激活层和第六十二卷积层依次连接组成,右分支包括第六跳层下采样卷积,汇总激活包括第六十二激活层,第二十残差网络块的输入分别输入左分支和右分支,第六十二卷积层和第六跳层下采样卷积的输出先进行像素的加和后共同输入第六十二激活层,第六十二激活层的输出为第二十残差网络块的输出。第二十残差网络块的输入是T2中的256幅特征图,分别经过左右两个分支,做它们的像素加和,再经过汇总激活输出为512幅特征图,将这512幅特征图构成的集合记为L4,第六十卷积层的卷积核大小为1×1、卷积核个数为128、步长为2,补零参数为“same”,第六十一卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第六十二卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第六十激活层,第六十一激活层和第六十二激活层的激活方式均为“Relu”,第六跳层下采样卷积的卷积核为1×1,卷积核的个数512,步长为2,补零参数为“same”。第二十一残差块主要由第六十三卷积层、第六十三激活层、第六十四卷积层、第六十四激活层和第六十五卷积层依次连接组成,第二十一残差网络块的输入同时与第六十五卷积层的输出进行像素的加和后输入到第六十五激活层,第六十五激活层的输出作为第二十一残差网络块的输出。第二十一残差网络块的输入是L4中的512幅特征图,经第二十一残差网络块处理后输出512幅特征图,将这512幅特征图构成的集合记为L5。第六十三卷积层的卷积核大小为1×1、卷积核个数为128、步长为1,补零参数为“same”,第六十四卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第六十五卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第六十三激活层,第六十四激活层和第六十五激活层的激活方式均为“Relu”;第二十二残差网络块包括第六十六卷积层、第六十六激活层、第六十七卷积层、第六十七激活层、第六十八卷积层和第六十八激活层。第二十二残差网络块的输入是L5中的512幅特征图,经第六残差网络块处理后输出512幅特征图,将这512幅特征图构成的集合记为L6。第六十六卷积层的卷积核大小为1×1、卷积核个数为128、步长为1,补零参数为“same”,第六十七卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第六十八卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第六十六激活层,第六十七激活层和第六十八激活层的激活方式均为“Relu”;第二十三残差块包括第六十九卷积层、第六十九激活层、第七十卷积层、第七十激活层、第七十一卷积层、第七十一激活层。第二十三残差网络块的输入是L6中的512幅特征图,经第二十三残差网络块处理后输出512幅特征图,将这512幅特征图构成的集合记为L7,同时作为第八神经网络块的输出记为T3。第六十九卷积层的卷积核大小为1×1、卷积核个数为128、步长为1,补零参数为“same”,第七十卷积层的卷积核大小为3×3、卷积核个数为128、步长为1,补零参数为“same”,第七十一卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第六十九激活层,第七十激活层和第七十一激活层的激活方式均为“Relu”。T3中的每幅特征图的宽度为
Figure BDA0002763085800000181
高度为
Figure BDA0002763085800000182
对于第九神经网络块,其主要由依次设置的第二十四残差网络块、第二十五残差网络块、第二十六残差网络块、第二十七残差网络块、第二十八残差网络块和第二十九残差网络块组成;第九神经网络块的输入端接收T3中的所有特征图,第九神经网络块的输出端输出1024幅特征图,将1024幅特征图构成的集合记为T4;其中,第二十四残差网络块包括左、右两分支以及汇总激活,左分支主要由第七十二卷积层、第七十二激活层、第七十三卷积层、第七十三激活层和第七十四卷积层组成,右分支包括第七跳层下采样卷积,汇总激活包括第七十四激活层,第二十四残差网络块的输入分别输入左分支和右分支,第七十四卷积层和第七跳层下采样卷积的输出先进行像素的加和后共同输入第七十四激活层,第七十四激活层的输出为第二十四残差网络块的输出。第二十四残差网络块的输入是T3中的512幅特征图,分别经过左右两个分支,做它们的像素加和,再经过汇总激活输出为1024幅特征图,将这1024幅特征图构成的集合记为L8,第七十二卷积层的卷积核大小为1×1、卷积核个数为256、步长为2,补零参数为“same”,第七十三卷积层的卷积核大小为3×3、卷积核个数为256、步长为1,补零参数为“same”,第七十四卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1,补零参数为“same”,第七十二激活层,第七十三激活层和第七十四激活层的激活方式均为“Relu”,第七跳层下采样卷积的卷积核为1×1,卷积核的个数1024,步长为2,补零参数为“same”;第二十五、二十六、二十七、二十八、二十九残差网络块的结构相同,以第二十五残差网络块为例,第二十五残差块将L8中的1024幅特征图作为输入,最后输出为1024幅特征图,将这1024幅特征图构成的集合记为L9。第二十五残差网络块主要由第七十五卷积层、第七十五激活层、第七十六卷积层、第七十六激活层和第七十七卷积层依次连接构成,第二十五残差网络块的输入同时与第七十七卷积层的输出进行像素的加和后输入到第七十七激活层,第七十七激活层的输出作为第二十五残差网络块的输出。第七十五卷积层的卷积核大小为1×1、卷积核个数为256、步长为1,补零参数为“same”,第七十六卷积层的卷积核大小为3×3、卷积核个数为256、步长为1,补零参数为“same”,第七十七卷积层的卷积核大小为1×1、卷积核个数为1024、步长为1,补零参数为“same”,第七十五激活层,第七十六激活层和第七十七激活层的激活方式均为“Relu”。以此类推,第二十六、二十七、二十八、二十九残差块的输出分别为L10、L11、L12、L13,其中L13又作为第九神经网络块的输出,记为T4。T4中的每幅特征图的宽度为
Figure BDA0002763085800000201
高度为
Figure BDA0002763085800000202
对于第十神经网络块,其主要由依次设置的第三十残差网络块、第三十一残差网络块和第三十二残差网络块组成;第十神经网络块的输入端接收T4中的所有特征图,第十神经网络块的输出端输出2048幅特征图,将2048幅特征图构成的集合记为T5;其中,第三十残差网络块包括左、右两分支以及汇总激活,左分支主要由第九十卷积层、第九十激活层、第九十一卷积层、第九十一激活层和第九十二卷积层依次连接组成,右分支包括第八跳层下采样卷积,汇总激活包括第九十二激活层,第三十残差网络块的输入分别输入左分支和右分支,第九十二卷积层和第一跳层下采样卷积的输出先进行像素的加和后共同输入第九十二激活层,第九十二激活层的输出为第三十残差网络块的输出。第三十残差网络块的输入是T4中的1024幅特征图,分别经过左右两个分支,做它们的像素和,再经过汇总激活输出为2048幅特征图,将这2048幅特征图构成的集合记为L14,第九十卷积层的卷积核大小为1×1、卷积核个数为512、步长为2,补零参数为“same”,第九十一卷积层的卷积核大小为3×3、卷积核个数为512、步长为1,补零参数为“same”,第九十二卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1,补零参数为“same”,第九十激活层,第九十一激活层和第九十二激活层的激活方式均为“Relu”,第八跳层下采样卷积的卷积核为1×1,卷积核的个数2048,步长为2,补零参数为“same”;第三十一残差块主要由第九十三卷积层、第九十三激活层、第九十四卷积层、第九十四激活层和第九十五卷积层依次连接构成,第三十一残差网络块的输入同时与第九十五卷积层的输出进行像素的加和后输入到第九十五激活层,第九十五激活层的输出作为第三十一残差网络块的输出。第三十一残差网络块的输入是L14中的2048幅特征图,经第十五残差网络块处理后输出2048幅特征图,将这2048幅特征图构成的集合记为L15,第九十三卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第九十四卷积层的卷积核大小为3×3、卷积核个数为512、步长为1,补零参数为“same”,第九十五卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1,补零参数为“same”,第九十三激活层,第九十四激活层和第九十五激活层的激活方式均为“Relu”;第三十二残差块主要由第九十六卷积层、第九十六激活层、第九十七卷积层、第九十七激活层和第九十八卷积层依次连接构成,第三十二残差网络块的输入同时与第九十八卷积层的输出进行像素的加和后输入到第九十八激活层,第九十八激活层的输出作为第三十二残差网络块的输出。第三十二残差网络块的输入是L15中的2048幅特征图,经第三十二残差网络块处理后输出2048幅特征图,将这2048幅特征图构成的集合记为L16,同时作为第十神经网络块的输出记为T5。第九十六卷积层的卷积核大小为1×1、卷积核个数为512、步长为1,补零参数为“same”,第九十七卷积层的卷积核大小为3×3、卷积核个数为512、步长为1,补零参数为“same”,第九十八卷积层的卷积核大小为1×1、卷积核个数为2048、步长为1,补零参数为“same”,第九十六激活层,第九十七激活层和第九十八激活层的激活方式均为“Relu”。T5中的每幅特征图的宽度为
Figure BDA0002763085800000211
高度为
Figure BDA0002763085800000212
对于第一卷积块,主要由依次设置的第九十九卷积层、第九十九激活层、第三最大池化层组成。将单通道的热力图(Thermal)通过HHA编码方式处理成三通道并与原始的道路场景图像(RGB)三通道叠加,形成的六通道的彩色热力图像(RT)作为第一卷积块的输入,输出为64幅特征图,记为RT1。第九十九卷积层的卷积核大小为7×7、卷积核的个数为64、步长为2、补零参数为“same”;第九十九激活层的激活方式为“Relu”。第三最大池化层的池化尺寸为2。RT1中每幅特征图的宽度为
Figure BDA0002763085800000221
高度为
Figure BDA0002763085800000222
对于第二卷积块,主要由依次设置的第一百卷积层、第一百激活层、第一百零一卷积层、第一百零一激活层、第一百零二卷积层、第一百零二激活层、第一百零三卷积层、第一百零三激活层依次连接组成。第二卷积块的输入端接受RT1中的64幅特征图,经过第二卷积块处理,输出64幅特征图,记为RT2。第一百卷积层、第一百零一卷积层、第一百零二卷积层、第一百零三卷积层的卷积核大小均为3×3、卷积核的个数均为64、步长均为1、补零参数均为“same”;第一百激活层、第一百零一激活层、第一百零二激活层、第一百零三激活层的激活方式均为“Relu”。RT2中每幅特征图的宽度为
Figure BDA0002763085800000223
高度为
Figure BDA0002763085800000224
对于第一联合金字塔上采样模块JPU1(Joint Pyramid Upsampling),将第三神经网络块的输出R3、第四个神经网络块的输出R4、第五神经网络块的输出R5作为第一联合金字塔上采样模块JPU1的输入,经过第一联合金字塔上采样模块JPU1,输出512幅特征图,将它们的集合记为JPU1。第一联合金字塔上采样模块JPU1包括第一上采样层、第一金字塔卷积层、第一JPU输出层,第一上采样层、第一金字塔卷积层和第一JPU输出层依次连接,结构如图2所示。其中,第一上采样层的输入分别为R5中的2048幅特征图,R4中的1028幅特征图、R3中的512幅特征图,输出为1536(512+512+512)幅特征图,记为J1u。第一上采样层包括第一百零四卷积层、第一百零四激活层、第一百零五卷积层、第一百零五激活层、第一百零六卷积层、第一百零六激活层、第一双线性插值层和第二双线性插值层,第一百零四卷积层、第一百零四激活层和第一双线性插值层依次连接,第一百零五卷积层、第一百零五激活层和第二双线性插值层依次连接,第一百零六卷积层和第一百零六激活层依次连接,第三神经网络块的输出输入到第一百零六卷积层,第四神经网络块的输出输入到第一百零五卷积层,第五神经网络块的输出输入到第一百零四卷积层,第一百零六激活层、第一双线性插值层和第二双线性插值层的输出进行通道的叠加后输出到第一金字塔卷积层;第一百零四、第一百零五、第一百零六卷积层的卷积核的个数均为512,卷积核的大小均为3×3,步长均为1,补零参数均为“same”;第一百零四、第一百零五、第一百零六激活层的激活方式均为“Relu”;第一双线性插值的插值参数为4,第二双线性插值的差值参数为2。J1u中每幅特征图的宽为
Figure BDA0002763085800000231
高为
Figure BDA0002763085800000232
第一金字塔卷积层以J1u作为输入,输出2048(512+512+512+512)幅特征图,记为J1p。第一金字塔卷积层包括四个金字塔子卷积层,四个金字塔子卷积层并联设置,四个金字塔子卷积层分别为第一百零七卷积层与第一百零七激活层、第一百零八卷积层与第一百零八激活层、第一百零九卷积层与第一百零九激活层、第一百一十卷积层与第一百一十激活层依次连接,第一上采样层的输出分别输入到各个金字塔子卷积层,各个金字塔子卷积层的输出进行通道的叠加后输出到第一JPU输出层。第一百六七、第一百零八、第一百零九、第一百一十卷积层的卷积核的大小均为3×3,卷积核的个数均为512个,步长均为1,补零参数均为“same”,不同的是它们的膨胀因子(dilation,默认为1)分别为1、2、4、8。第一百六七、第一百零八、第一百零九、第一百一十激活层的激活方式为“Relu”。第一JPU输出层的输入为J1p中的2048幅特征图,输出为512幅特征图,记为JPU1。第一JPU输出层主要由第一百一十一卷积层和第一百一十一激活层依次连接构成,第一百一十一激活层的输出作为第一联合金字塔上采样模块JPU1的输出。第一百一十一卷积层的卷积核的大小均为3×3,卷积核的个数均为512个,步长均为1,补零参数均为“same”。第一百一十一激活层的激活方式为“Relu”。JPU1中每幅特征图的宽为
Figure BDA0002763085800000241
高为
Figure BDA0002763085800000242
对于第二联合金字塔上采样模块JPU2(Joint Pyramid Upsampling),将第八神经网络块的输出T3、第九神经网络块的输出T4、第十神经网络块的输出T5作为第二联合金字塔上采样模块JPU2的输入,第二联合金字塔上采样模块JPU2输出512幅特征图,将512幅特征图的集合记为JPU2。第二联合金字塔上采样模块JPU2主要由第二上采样层、第二金字塔卷积层、第二JPU输出层依次连接构成,结构如图2所示。其中,第二上采样层的输入分别为T5中的2048幅特征图,T4中的1028幅特征图、T3中的512幅特征图,输出为1536(512+512+512)幅特征图,记为J2u。第二上采样层包括第一百一十二卷积层、第一百一十二激活层、第一百一十三卷积层、第一百一十三激活层、第一百一十四卷积层、第一百一十四激活层、第三双线性插值层和第四双线性插值层,第一百一十二卷积层、第一百一十二激活层和第三双线性插值层依次连接,第一百一十三卷积层、第一百一十三激活层和第四双线性插值层依次连接,第一百一十四卷积层和第一百一十四激活层依次连接,第八神经网络块的输出输入到第一百一十四卷积层,第九神经网络块的输出输入到第一百一十三卷积层,第十神经网络块的输出输入到第一百一十二卷积层,第一百一十二激活层、第三双线性插值层和第四双线性插值层的输出进行通道的叠加后输出到第二金字塔卷积层。第一百一十二、第一百一十三、第一百一十四卷积层的卷积核的个数均为512,卷积核的大小均为3×3,步长均为1,补零参数均为“same”;第一百一十二、第一百一十三、第一百一十四激活层的激活方式均为“Relu”;第三双线性插值的插值参数为4,第四双线性插值的差值参数为2。J2u中每幅特征图的宽为
Figure BDA0002763085800000251
高为
Figure BDA0002763085800000252
第二金字塔卷积层以J2u作为输入,输出2048(512+512+512+512)幅特征图,记为J2p。第二金字塔卷积层包括四个金字塔子卷积层,四个金字塔子卷积层并联设置,四个金字塔子卷积层分别为第一百一十五卷积层与第一百一十五激活层、第一百一十六卷积层与第一百一十六激活层、第一百一十七卷积层与第一百一十七激活层、第一百一十八卷积层与第一百一十八激活层依次连接,第二上采样层的输出分别输入到各个金字塔子卷积层,各个金字塔子卷积层的输出进行通道的叠加后输出到第二JPU输出层。第一百一十五、第一百一十六、第一百一十七、第一百一十八卷积层的卷积核的大小均为3×3,卷积核的个数均为512个,步长均为1,补零参数均为“same”,不同的是它们的膨胀因子(dilation,默认为1)分别为1、2、4、8。第一百一十五、第一百一十六、第一百一十七、第一百一十八激活层的激活方式为“Relu”。JPU输出层的输入为J2p中的2048幅特征图,输出为512幅特征图,记为JPU2。第二JPU输出层主要由第一百一十九卷积层和第一百一十九激活层依次连接组成,第一百一十九激活层的输出作为第二联合金字塔上采样模块JPU2的输出。第一百一十九卷积层的卷积核的大小均为3×3,卷积核的个数均为512个,步长均为1,补零参数均为“same”。第一百一十九激活层的激活方式为“Relu”。JPU2中每幅特征图的宽为
Figure BDA0002763085800000253
高为
Figure BDA0002763085800000254
将JPU1中的512幅特征图经过第五双线性插值层,插值参数为2,输出512幅特征图,记为JPUr,将JPU2中的512幅特征图经过第六双线性插值层,插值参数为2,输出512幅特征图,记为JPUt。将JPUr、JPUt做像素加和,记为JPU。将JPU、第一神经网络块的输出R1(64幅特征图)、第六神经网络块的输出T1(64幅特征图)、第二卷积块的输出RT2(64幅特征图)进行通道的叠加操作后输出704(512+64+64+64)幅特征图,记为F。JPUr、JPUt、JPU、R1、T1、RT2、F中每幅特征图的宽度均为
Figure BDA0002763085800000261
高度均为
Figure BDA0002763085800000262
对于第三卷积块,主要由第一百一十九卷积层和第一百一十九激活层依次连接组成。第一百一十九卷积层的卷积核大小为3×3,卷积核个数为352个,步长为1,补零参数为“same”,扩张因子(dilation)为2。第一百一十九激活层的激活方式为“Relu”。第三卷积块的输入为F,经过第三卷积块输出352幅特征图,记为F0。F0中每幅特征图的宽度为
Figure BDA0002763085800000263
高度为
Figure BDA0002763085800000264
对于可分离上采样块SUB(Separable Upsampling Block)。其输入为F0中的每幅特征图,经过可分离上采样块SUB的处理,输出176幅特征图,记为F1。可分离上采样块SUB包括第一上采样块和第二上采样块;第一上采样块的输入作为可分离上采样块SUB的输入,第一上采样块和第二上采样块级联,第一上采样块的输出作为第二上采样块的输入,结构如图3所示。第一上采样块主要由第一百二十卷积层、第一百二十激活层、第一百二十一卷积层、第一百二十一激活层和第一百二十二卷积层依次连接构成,第三卷积块的输出输入第一百二十卷积层,第一百二十二卷积层的输出与第三卷积块的输出先进行像素的加和再输入到第一百二十二激活层。第一上采样块的输入为F0中的每幅特征图,输出为352幅特征图,记为Fa,Fa中每幅特征图的宽度为
Figure BDA0002763085800000265
高度为
Figure BDA0002763085800000266
第一百二十卷积的卷积核大小为1×1,卷积核的个数为352,步长为1,补零参数为“same”;第一百二十一,第一百二十二卷积层的卷积核大小均为3×33×3,卷积核的个数均为352,步长均为1,补零参数均为“same”;第一百二十、第一百二十一,第一百二十二激活层的激活方式均为“ReLu”;第二上采样块主要由第一百二十三卷积层、第一百二十三激活层、第一百二十四卷积层、第一百二十四激活层和第一反卷积层依次连接构成,第一上采样块的输出输入到第二反卷积层,第二反卷积层与第一反卷积层的输出先进行像素的加和再输入到第一百二十五激活层,第一百二十五激活层的输出作为可分离上采样块SUB的输出。第二上采样块的输入为Fa中的每幅特征图,输出为176幅特征图,记为F1。第一百二十三卷积层的卷积核大小为1×1,卷积核的个数为176,步长为1,补零参数为“same”;第一百二十四卷积层的卷积核大小为3×3,卷积核的个数为176,步长为1,补零参数为“same”;第一反卷积层、第二反卷积层的卷积核大小均为2×2,卷积核的个数均为176个,步长均为2,补零参数均为0(经过反卷积层尺寸扩大二倍);第一百二十三,第一百二十四,第一百二十五激活层的激活方式均为“Relu”;第二上采样块的输出F1中每幅特征图的宽度为
Figure BDA0002763085800000271
高度为
Figure BDA0002763085800000272
对于输出层,输入为F1中的每幅特征图,经过输出层的处理,输出9幅与原始输入图像对应的语义分割预测图。输出层的结构与可分离上采样块SUB的结构相同,包括第三上采样块和第四上采样块;第三上采样块的输入作为输出层的输入,第三上采样块和第四上采样块级联,第三上采样块的输出作为第四上采样块的输入,结构如图3所示。第三上采样块主要由第一百二十五卷积层、第一百二十六激活层、第一百二十六卷积层、第一百二十七激活层和第一百二十七卷积层依次组成,可分离上采样块SUB的输出输入第一百二十五卷积层,第一百二十七卷积层的输出与可分离上采样块SUB的输出先进行像素的加和再输入到第一百二十八激活层。第一百二十五卷积的卷积核大小为1×1,卷积核的个数为176,步长为1,补零参数为“same”;第一百二十六,第一百二十七卷积层的卷积核大小均为3×3,卷积核的个数均为176,步长均为1,补零参数均为“same”;第一百二十六、第一百二十七,第一百二十八激活层的激活方式均为“ReLu”;第四上采样块主要由第一百二十八卷积层、第一百二十九激活层、第一百二十九卷积层、第一百三十激活层和第三反卷积层依次连接组成,第四上采样块的输出输入到第四反卷积层,第三反卷积层与第四反卷积层的输出先进行像素的加和再输入到第一百三十一激活层,第一百三十一激活层的输出作为输出层的输出。与可分离上采样块SUB不同的是,输出层输出为9幅与原始输入图像对应的语义分割预测图,即经过左右两分支,做左右两分支输出的像素加和操作后,再经过汇总激活层,汇总激活层输出为9幅特征图。第一百二十八卷积层的卷积核大小为1×1,卷积核的个数为9个,步长为1,补零参数为“same”;第一百二十九卷积层的卷积核大小为3×3,卷积核的个数为9个,步长为1,补零参数为“same”;第三反卷积层、第四反卷积层的卷积核大小均为2×2,卷积核的个数均为9个,步长均为2,补零参数均为0(经过反卷积层尺寸扩大二倍);第一百二十九,第一百三十,第一百三十一激活层的激活方式均为“ReLu”;输出层输出与原始图相同尺寸特征图。
步骤1_3:将训练集中原始的道路场景图像和对应的热力图、彩色热力图像输入到卷积神经网络的输入层中进行训练,训练得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图,将与原始的道路场景图像对应的9幅语义分割预测图构成的语义分割预测图集合记为
Figure BDA0002763085800000281
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图构成的集合
Figure BDA0002763085800000282
与对应的语义分割标签图集
Figure BDA0002763085800000283
之间的损失函数值,将
Figure BDA0002763085800000284
Figure BDA0002763085800000285
之间的损失函数值记为
Figure BDA0002763085800000286
采用分类交叉熵(categoricalcrossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=500。
所述的测试阶段过程的具体步骤为:
步骤2_1:待语义分割的道路场景图像记为
Figure BDA0002763085800000287
其中,1≤i'≤W',1≤j'≤H',W'表示待语义分割的道路场景图像的宽度,H'表示待语义分割的道路场景图像的高度,i'、j'分别表示坐标位置为(i',j')的像素点的横纵坐标,
Figure BDA0002763085800000288
表示待语义分割的道路场景图像中坐标位置为(i',j')的像素点的像素值;将待语义分割的道路场景图像对应的待语义分割热力图记为
Figure BDA0002763085800000291
Figure BDA0002763085800000292
表示待语义分割热力图中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将待语义分割的道路场景图像和待语义分割热力图分别输入到卷积神经网络训练模型的第一输入层和第三输入层中,并利用最优权值矢量和最优偏置项进行预测,得到待语义分割的道路场景图像对应的语义分割预测图像,记为
Figure BDA0002763085800000293
其中,
Figure BDA0002763085800000294
表示语义分割预测图像中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Pytorch搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库InfRec500测试集来分析利用本发明方法预测得到的道路场景图像(取393幅道路场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法使用的是Ha Qishen等人在MFNet中发布的公共数据集。由InfReCR500相机拍摄的图像分辨率为480×640,可以同时提供RGB和热成像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1 利用本发明方法在测试集上的评测结果
Figure BDA0002763085800000295
Figure BDA0002763085800000301
图4a给出了第1幅原始的道路场景图像;图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图5a给出了第2幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图6a给出了第3幅原始的道路场景图像;图6b给出了利用本发明方法对图6a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图7a给出了第4幅原始的道路场景图像;图7b给出了利用本发明方法对图7a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。对比图4a和图4b,对比图5a和图5b,对比图6a和图6b,对比图7a和图7b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (5)

1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于:包括训练阶段和测试阶段两个过程;
所述的训练阶段的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像(RGB)对应的热力图(Thermat)和真实语义分割图像,利用HHA编码方式将热力图处理成三通道并与原始的道路场景图像(RGB)叠加形成彩色热力图像(RT),利用独热编码方法将真实语义分割图像转换为9幅独热编码图像,将9幅独热编码图像构成的集合作为语义分割标签图集,Q幅原始的道路场景图像(RGB)与对应的热力图(Thermat)、彩色热力图像(RT)、语义分割标签图构成训练集,其中,Q为正整数,Q≥200;
步骤1_2:构建卷积神经网络:
卷积神经网络包括三个输入层、隐层和输出层;隐层包括第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块、第十神经网络块、第一卷积块、第二卷积块、第三卷积块、可分离上采样块(SUB)、第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2);第一输入层、第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块和第五神经网络块依次连接,第三神经网络块、第四神经网络块和第五神经网络块的输出输入到第一联合金字塔上采样模块(JPU1),第一联合金字塔上采样模块(JPU1)的输出输入到第五双线性插值层,第二输入层、第一卷积块和第二卷积块依次连接,第三输入层、第六神经网络块、第七神经网络块、第八神经网络块、第九神经网络块和第十神经网络块依次连接,第八神经网络块、第九神经网络块和第十神经网络块的输出输入到第二联合金字塔上采样模块(JPU2),第二联合金字塔上采样模块(JPU2)的输出输入到第六双线性插值层,第五双线性插值层和第五双线性插值层的输出先进行像素的加和后再与第二卷积块、第一神经网络块、第六神经网络块的输出进行通道的叠加后输入第三卷积块,第三卷积块依次连接可分离上采样块(SUB)和输出层;
步骤1_3:将训练集中原始的道路场景图像和对应的热力图、彩色热力图像输入到卷积神经网络的输入层中进行训练,训练得到训练集中的每幅原始的道路场景图像对应的9幅语义分割预测图;
步骤1_4:利用分类交叉熵计算9幅语义分割预测图构成的集合与对应的语义分割标签图的损失函数值,每幅原始的道路场景图像获得一个损失函数值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,其中,V>1,得到卷积神经网络分类训练模型,并总共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出最小的损失函数值,将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项;
所述的测试阶段的具体步骤为:
步骤2_1:待语义分割的道路场景图像记为
Figure FDA0002763085790000021
其中,1≤i'≤W',1≤j'≤H',W'表示待语义分割的道路场景图像的宽度,H'表示待语义分割的道路场景图像的高度,i'、j'分别表示坐标位置为(i',j')的像素点的横纵坐标,
Figure FDA0002763085790000022
表示待语义分割的道路场景图像中坐标位置为(i',j')的像素点的像素值;将待语义分割的道路场景图像对应的待语义分割热力图记为
Figure FDA0002763085790000023
Figure FDA0002763085790000024
表示待语义分割热力图中坐标位置为(i',j')的像素点的像素值;
步骤2_2:将待语义分割的道路场景图像和待语义分割热力图分别输入到卷积神经网络训练模型的第一输入层和第三输入层中,并利用最优权值矢量和最优偏置项进行预测,得到待语义分割的道路场景图像对应的语义分割预测图像,记为
Figure FDA0002763085790000025
其中,
Figure FDA0002763085790000026
表示语义分割预测图像中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法,其特征在于:所述的步骤1_1具体为:
选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,选择第q幅原始的道路场景图像记为
Figure FDA0002763085790000027
原始的道路场景图像对应的热力图记为
Figure FDA0002763085790000028
利用HHA编码方式将热力图处理成三通道并与原始的道路场景图像叠加形成彩色热力图像记为
Figure FDA0002763085790000029
将第q幅原始的道路场景图像对应的真实语义分割图像记为
Figure FDA00027630857900000210
然后利用独热编码方法(one-hot)将第q幅原始的道路场景图像对应的真实语义分割图像处理成9幅独热编码图像,将真实语义分割图像处理成的9幅独热编码图像构成的集合作为语义分割标签图记为
Figure FDA00027630857900000211
重复操作Q次,由Q幅原始的道路场景图像和对应的热力图、彩色热力图像、语义分割标签图构成训练集;
其中,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示原始的道路场景图象的宽度,H表示原始的道路场景图象的高度,i、j分别表示坐标位置为(i,j)的像素点的横纵坐标,
Figure FDA0002763085790000031
表示第q幅原始的道路场景图像中坐标位置为(i,j)的像素点的像素值,
Figure FDA0002763085790000032
表示第q幅热力图中坐标位置为(i,j)的像素点的像素值,
Figure FDA0002763085790000033
表示第q幅彩色热力图像中坐标位置为(i,j)的像素点的像素值,
Figure FDA0002763085790000034
表示真实语义分割图像中坐标位置为(i,j)的像素点的像素值。
3.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法,其特征在于:所述的第一联合金字塔上采样模块(JPU1)和第二联合金字塔上采样模块(JPU2)结构相同,均包括上采样层、金字塔卷积层、JPU输出层;上采样层、金字塔卷积层和JPU输出层依次连接,上采样层包括第一百零四卷积层、第一百零四激活层、第一百零五卷积层、第一百零五激活层、第一百零六卷积层、第一百零六激活层、第一双线性插值层和第二双线性插值层,第一百零四卷积层、第一百零四激活层和第一双线性插值层依次连接,第一百零五卷积层、第一百零五激活层和第二双线性插值层依次连接,第一百零六卷积层和第一百零六激活层依次连接,第三神经网络块的输出或者第八神经网络块的输出输入到第一百零六卷积层,第四神经网络块的输出或者第九神经网络块的输出输入到第一百零五卷积层,第五神经网络块的输出或者第十神经网络块的输出输入到第一百零四卷积层,第一百零六激活层、第一双线性插值层和第二双线性插值层的输出进行通道的叠加后输出到金字塔卷积层;金字塔卷积层包括四个金字塔子卷积层,四个金字塔子卷积层并联设置,上采样层的输出分别输入到各个金字塔子卷积层,各个金字塔子卷积层的输出进行通道的叠加后输出到JPU输出层,JPU输出层主要由第一百一十一卷积层和第一百一十一激活层依次连接构成,第一百一十一激活层的输出作为联合金字塔上采样模块的输出。
4.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法,其特征在于:所述的可分离上采样块(SUB)和输出层结构相同,均包括第一上采样块和第二上采样块;第一上采样块的输入作为可分离上采样块(SUB)的输入,第一上采样块和第二上采样块级联,第一上采样块主要由第一百二十卷积层、第一百二十激活层、第一百二十一卷积层、第一百二十一激活层和第一百二十二卷积层依次连接构成,第三卷积块的输出输入第一百二十卷积层,第一百二十二卷积层的输出与第三卷积块的输出先进行像素的加和再输入到第一百二十二激活层;第二上采样块主要由第一百二十三卷积层、第一百二十三激活层、第一百二十四卷积层、第一百二十四激活层和第一反卷积层依次连接构成,第一上采样块的输出输入到第二反卷积层,第二反卷积层与第一反卷积层的输出先进行像素的加和再输入到第一百二十五激活层,第一百二十五激活层的输出作为可分离上采样块(SUB)的输出。
5.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法,其特征在于:第一输入层中输入训练集中的原始的道路场景图像,第三输入层中输入对应的热力图,第二输入层中输入对应的彩色热力图像。
CN202011224151.7A 2020-11-05 2020-11-05 一种基于卷积神经网络的道路场景语义分割方法 Withdrawn CN112508956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011224151.7A CN112508956A (zh) 2020-11-05 2020-11-05 一种基于卷积神经网络的道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011224151.7A CN112508956A (zh) 2020-11-05 2020-11-05 一种基于卷积神经网络的道路场景语义分割方法

Publications (1)

Publication Number Publication Date
CN112508956A true CN112508956A (zh) 2021-03-16

Family

ID=74955268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011224151.7A Withdrawn CN112508956A (zh) 2020-11-05 2020-11-05 一种基于卷积神经网络的道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN112508956A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113240583A (zh) * 2021-04-13 2021-08-10 浙江大学 一种基于卷积核预测的图像超分辨方法
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113408462A (zh) * 2021-06-29 2021-09-17 西南交通大学 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113240583A (zh) * 2021-04-13 2021-08-10 浙江大学 一种基于卷积核预测的图像超分辨方法
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113269197B (zh) * 2021-04-25 2024-03-08 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113408462A (zh) * 2021-06-29 2021-09-17 西南交通大学 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法
CN113408462B (zh) * 2021-06-29 2023-05-02 西南交通大学 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法

Similar Documents

Publication Publication Date Title
CN112508956A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110084124B (zh) 基于特征金字塔网络的特征增强目标检测方法
CN110728682B (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN111091555B (zh) 闸瓦折断目标检测方法
CN111709947B (zh) 一种双流沟通和全局信息引导的显著物体图像检测方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110942624B (zh) 一种基于sae-gan-sad的路网交通数据修复方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN111429466A (zh) 一种基于多尺度信息融合网络的空基人群计数与密度估计方法
CN112258526A (zh) 一种基于对偶注意力机制的ct肾脏区域级联分割方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN111428602A (zh) 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN112232411B (zh) HarDNet-Lite在嵌入式平台的优化方法
CN114842351A (zh) 一种基于孪生Transformers的遥感图像语义变化检测方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN112257509A (zh) 基于联合信息编码的立体图像单流视觉显著性检测方法
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN115482491A (zh) 一种基于transformer的桥梁缺陷识别方法与系统
CN112529862A (zh) 一种交互循环特征重塑的显著性图像检测方法
CN112699889A (zh) 基于多任务监督的无人驾驶实时道路场景语义分割方法
CN116703885A (zh) 一种基于Swin Transformer的表面缺陷检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210316

WW01 Invention patent application withdrawn after publication