CN112149496A - 一种基于卷积神经网络的实时道路场景分割方法 - Google Patents

一种基于卷积神经网络的实时道路场景分割方法 Download PDF

Info

Publication number
CN112149496A
CN112149496A CN202010793917.7A CN202010793917A CN112149496A CN 112149496 A CN112149496 A CN 112149496A CN 202010793917 A CN202010793917 A CN 202010793917A CN 112149496 A CN112149496 A CN 112149496A
Authority
CN
China
Prior art keywords
layer
feature
image
height
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010793917.7A
Other languages
English (en)
Inventor
周武杰
林鑫杨
潘思佳
强芳芳
雷景生
周扬
邱微微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010793917.7A priority Critical patent/CN112149496A/zh
Publication of CN112149496A publication Critical patent/CN112149496A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的实时道路场景分割方法,其构建卷积神经网络,包括彩色图像输入层、热力图像输入层、深层次特征提取模块、浅层次特征提取模块、第一上采样层、空间注意力机制模块、空间分辨率恢复模块、输出层;将原始的道路场景彩色图像的R、G和B通道分量及经纬度扩充后形成的三通道热力图像输入到卷积神经网络中进行训练,得到9幅语义分割预测图,通过计算真实语义分割图像处理成的9幅独热编码图像与对应的9幅语义分割预测图之间的损失函数值,得到卷积神经网络训练模型的最优权值矢量和最优偏置项;测试时利用卷积神经网络训练模型对待语义分割的道路场景彩色图像进行预测;优点是分割准确度高,且能达到实时性要求。

Description

一种基于卷积神经网络的实时道路场景分割方法
技术领域
本发明涉及一种深度学习的道路场景语义分割技术,尤其是涉及一种基于卷积神经网络的实时道路场景分割方法。
背景技术
随着自动驾驶技术、计算机视觉和自然语言处理技术的不断发展,无人驾驶汽车将会广泛地出现在人们的生活当中。无人驾驶汽车在行驶过程中需要实时精确地理解周围的场景并对突发事件快速地做出决策,避免交通事故。因此,高效精确的道路场景语义分割正成为计算机视觉领域研究的热点之一。
语义分割任务是图像理解的一个基础任务,也是计算机视觉领域中有待解决的一个重要任务。在过去的几年里,深度学习技术,尤其是卷积神经网络,在语义分割任务上显示出了巨大的潜力。对于夜间道路场景,不良的光照条件给夜间道路场景理解带来了巨大的挑战,热力图可以很好地进行信息的补充,作为输入信息。通常,语义分割任务使用的全卷积神经网络架构可以分为两类:编码器-解码器结构和膨胀卷积结构。编码器-解码器结构首先使用编码器提取图像特征,然后使用解码器对空间分辨率进行恢复;膨胀卷积结构为了减少编码部分空间信息的丢失,使用扩张卷积来增加全局的感受野,使得模型能够兼顾全局语义信息。
尽管膨胀卷积结构具有保持空间信息的优点,但是如果一直使用较高的空间分辨率不进行下采样,则会使得消耗内存较大,并且会对模型的推理速度有较大影响,无法达到实时性的要求。此外,由于卷积神经网络会随着层数的加深学到更丰富的特征,因此高内存消耗使得卷积神经网络难以有较深层次的结构。
发明内容
本发明所要解决的技术问题是提供一种基于卷积神经网络的实时道路场景分割方法,其分割准确度高,且能够达到实时性的要求。
本发明解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的实时道路场景分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为
Figure BDA0002624822440000021
将训练集中的第q幅原始的道路场景热力图像记为
Figure BDA0002624822440000022
Figure BDA0002624822440000023
对应的真实语义分割图像记为
Figure BDA0002624822440000024
然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将
Figure BDA0002624822440000025
处理成的9幅独热编码图像构成的集合记为
Figure BDA0002624822440000026
其中,Q为正整数,Q≥500,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示
Figure BDA0002624822440000027
的宽度,H表示
Figure BDA0002624822440000028
Figure BDA0002624822440000029
的高度,
Figure BDA00026248224400000210
Figure BDA00026248224400000211
为从同一道路场景获取,
Figure BDA00026248224400000212
表示
Figure BDA00026248224400000213
中坐标位置为(i,j)的像素点的像素值,
Figure BDA00026248224400000214
表示
Figure BDA00026248224400000215
中坐标位置为(i,j)的像素点的像素值,
Figure BDA00026248224400000216
表示
Figure BDA00026248224400000217
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成;
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H;
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H;
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为
Figure BDA0002624822440000031
高度为
Figure BDA0002624822440000032
第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为
Figure BDA0002624822440000033
高度为
Figure BDA0002624822440000034
对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为
Figure BDA0002624822440000035
高度为
Figure BDA0002624822440000036
第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为
Figure BDA0002624822440000037
高度为
Figure BDA0002624822440000038
第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为
Figure BDA0002624822440000039
高度为
Figure BDA00026248224400000310
对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为
Figure BDA00026248224400000311
高度为
Figure BDA00026248224400000312
第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为
Figure BDA00026248224400000313
高度为
Figure BDA00026248224400000314
第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为
Figure BDA0002624822440000041
高度为
Figure BDA0002624822440000042
对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为
Figure BDA0002624822440000043
高度为
Figure BDA0002624822440000044
第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为
Figure BDA0002624822440000045
高度为
Figure BDA0002624822440000046
对于浅层次特征提取模块,其仅包括一个浅层结构块,浅层结构块的输入端接收DAdd,1中的所有特征图,其输出端输出160幅特征图,将这160幅特征图构成的集合记为S,S中的每幅特征图的宽度为
Figure BDA0002624822440000047
高度为
Figure BDA0002624822440000048
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为
Figure BDA0002624822440000049
高度为
Figure BDA00026248224400000410
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为
Figure BDA00026248224400000411
高度为
Figure BDA00026248224400000412
对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为
Figure BDA00026248224400000413
高度为
Figure BDA00026248224400000414
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作,共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为
Figure BDA00026248224400000415
高度为
Figure BDA00026248224400000416
对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为
Figure BDA00026248224400000417
高度为
Figure BDA00026248224400000418
第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为
Figure BDA0002624822440000051
高度为
Figure BDA0002624822440000052
第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为
Figure BDA0002624822440000053
高度为
Figure BDA0002624822440000054
第二上采样层的输入端接收H3中的所有特征图,第二上采样层对H3中的每幅特征图执行两倍上采样操作,第二上采样层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H4,H4中的每幅特征图的宽度为
Figure BDA0002624822440000055
高度为
Figure BDA0002624822440000056
Dropout层的输入端接收H4中的所有特征图,Dropout层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H5,H5中的每幅特征图的宽度为
Figure BDA0002624822440000057
高度为
Figure BDA0002624822440000058
第二卷积层的输入端接收H5中的所有特征图,第二卷积层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H6,H6中的每幅特征图的宽度为
Figure BDA0002624822440000059
高度为
Figure BDA00026248224400000510
第三上采样层的输入端接收H6中的所有特征图,第三上采样层对H6中的每幅特征图执行两倍上采样操作,第三上采样层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H7,H7中的每幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收H7中的所有特征图,其输出端输出9幅特征图作为语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像,并将训练集中的每幅原始的道路场景热力图像作为原始热力图像,将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中,使用Adam优化方法进行训练,得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图,将
Figure BDA00026248224400000511
对应的9幅语义分割预测图构成的集合记为
Figure BDA00026248224400000512
步骤1_4:计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA00026248224400000513
Figure BDA00026248224400000514
之间的损失函数值记为
Figure BDA00026248224400000515
采用分类交叉熵获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002624822440000061
表示待语义分割的道路场景彩色图像,令
Figure BDA0002624822440000062
表示待语义分割的道路场景热力图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002624822440000063
Figure BDA0002624822440000064
的宽度,H'表示
Figure BDA0002624822440000065
的高度,
Figure BDA0002624822440000066
表示
Figure BDA0002624822440000067
中坐标位置为(i',j')的像素点的像素值,
Figure BDA0002624822440000068
表示
Figure BDA0002624822440000069
中坐标位置为(i',j')的像素点的像素值,
Figure BDA00026248224400000610
Figure BDA00026248224400000611
为从同一道路场景获取;
步骤2_2:将
Figure BDA00026248224400000612
的R通道分量、G通道分量和B通道分量及
Figure BDA00026248224400000613
经纬度扩充后形成的三通道热力图像输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到
Figure BDA00026248224400000614
对应的预测语义分割图像。
所述的步骤1_2中,深层次特征提取模块采用两个MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,在保持MobileNetV2网络结构中各层之间的连接关系的前提下,第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块,第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块,第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块,第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块,第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块,第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块,第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块;其中,卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1,第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
所述的步骤1_2中,浅层次特征提取模块采用MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块,并修改该bottleneck层的参数,使其输入端输入的特征图的宽度为
Figure BDA0002624822440000071
高度为
Figure BDA0002624822440000072
输入通道数为24,其输出端输出的特征图的宽度为
Figure BDA0002624822440000073
高度为
Figure BDA0002624822440000074
输出通道数为160,其下采样的倍数为1。
所述的步骤1_2中,空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层,第二激活层的激活函数为“ReLU”,第三激活层的激活函数为“Sigmoid”,第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图,第三卷积层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为
Figure BDA0002624822440000075
高度为
Figure BDA0002624822440000076
第二批量归一化层的输入端接收Z1中的所有特征图,第二批量归一化层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为
Figure BDA0002624822440000077
高度为
Figure BDA0002624822440000078
第二激活层的输入端接收Z2中的所有特征图,第二激活层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为
Figure BDA0002624822440000079
高度为
Figure BDA00026248224400000710
第四卷积层的输入端接收Z3中的所有特征图,第四卷积层的输出端输出1幅特征图,这幅特征图的宽度为
Figure BDA00026248224400000711
高度为
Figure BDA00026248224400000712
第三激活层的输入端接收第四卷积层的输出端输出的特征图,第三激活层的输出端输出1幅特征图,这幅特征图的宽度为
Figure BDA00026248224400000713
高度为
Figure BDA00026248224400000714
与现有技术相比,本发明的优点在于:
1)本发明方法构建卷积神经网络,使用训练集中的道路场景彩色图像和热力图像输入到卷积神经网络中进行训练,得到卷积神经网络训练模型;再将待语义分割的道路场景彩色图像和热力图像输入到卷积神经网络训练模型中,得到对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时结合了浅层次和深层次的特征信息,因此能够比较准确地分割道路场景中各种不同大小的目标,从而有效地提高了道路场景图像的语义分割准确度。
2)本发明方法使用MobileNetV2轻量级网络结构的部分结构用于特征提取,使得训练好的卷积神经网络训练模型能够达到实时性要求。
3)本发明方法将热力图像信息作为彩色图像信息的补充,将热力图像特征与彩色图像特征进行融合,能够准确预测黑夜情况下的物体。
附图说明
图1为本发明方法中构建的卷积神经网络的组成结构示意图;
图2a为第1幅原始的道路场景彩色图像;
图2b为与图2a同一场景的原始的道路场景热力图像;
图2c为利用本发明方法对图2a和图2b进行处理,预测得到的预测语义分割图像;
图3a为第2幅原始的道路场景彩色图像;
图3b为与图3a同一场景的原始的道路场景热力图像;
图3c为利用本发明方法对图3a和图3b进行处理,预测得到的预测语义分割图像;
图4a为第3幅原始的道路场景彩色图像;
图4b为与图4a同一场景的原始的道路场景热力图像;
图4c为利用本发明方法对图4a和图4b进行处理,预测得到的预测语义分割图像;
图5a为第4幅原始的道路场景彩色图像;
图5b为与图5a同一场景的原始的道路场景热力图像;
图5c为利用本发明方法对图5a和图5b进行处理,预测得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的实时道路场景分割方法,其包括训练阶段和测试阶段两个过程。
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为
Figure BDA0002624822440000091
将训练集中的第q幅原始的道路场景热力图像记为
Figure BDA0002624822440000092
Figure BDA0002624822440000093
对应的真实语义分割图像记为
Figure BDA0002624822440000094
然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将
Figure BDA0002624822440000095
处理成的9幅独热编码图像构成的集合记为
Figure BDA0002624822440000096
其中,Q为正整数,Q≥500,在本实施例中取Q=785,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示
Figure BDA0002624822440000097
的宽度,H表示
Figure BDA0002624822440000098
的高度,在本实施例中取W=640、H=480,
Figure BDA0002624822440000099
Figure BDA00026248224400000910
为从同一道路场景获取,
Figure BDA00026248224400000911
表示
Figure BDA00026248224400000912
中坐标位置为(i,j)的像素点的像素值,
Figure BDA00026248224400000913
表示
Figure BDA00026248224400000914
中坐标位置为(i,j)的像素点的像素值,
Figure BDA00026248224400000915
表示
Figure BDA00026248224400000916
中坐标位置为(i,j)的像素点的像素值。
在此,原始的道路场景彩色图像和原始的道路场景热力图像直接从MFNet中报告的道路场景图像数据库中选取。
步骤1_2:构建卷积神经网络:如图1所示,该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层使用MobileNetV2网络结构的部分结构,且由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成。
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H。
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H。
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为
Figure BDA0002624822440000101
高度为
Figure BDA0002624822440000102
第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为
Figure BDA0002624822440000103
高度为
Figure BDA0002624822440000104
对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为
Figure BDA0002624822440000105
高度为
Figure BDA0002624822440000106
第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为
Figure BDA0002624822440000107
高度为
Figure BDA0002624822440000108
第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为
Figure BDA0002624822440000109
高度为
Figure BDA00026248224400001010
对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为
Figure BDA00026248224400001011
高度为
Figure BDA00026248224400001012
第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为
Figure BDA00026248224400001013
高度为
Figure BDA00026248224400001014
第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为
Figure BDA00026248224400001015
高度为
Figure BDA0002624822440000111
对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为
Figure BDA0002624822440000112
高度为
Figure BDA0002624822440000113
第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为
Figure BDA0002624822440000114
高度为
Figure BDA0002624822440000115
对于浅层次特征提取模块,其仅包括一个浅层结构块,浅层结构块的输入端接收DAdd,1中的所有特征图,其输出端输出160幅特征图,将这160幅特征图构成的集合记为S,S中的每幅特征图的宽度为
Figure BDA0002624822440000116
高度为
Figure BDA0002624822440000117
对于特征融合层,首先对接收的深层次的特征图进行四倍的上采样,使得与低层次的特征图具有相同的空间分辨率;然后对深层次的特征图与低层次的特征图进行拼接;接着使用空间注意力机制模块,学习空间位置权重并对拼接得到的特征图进行加权得到全局的特征图;再将全局的特征图输入到空间分辨率恢复模块。
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为
Figure BDA0002624822440000118
高度为
Figure BDA0002624822440000119
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为
Figure BDA00026248224400001110
高度为
Figure BDA00026248224400001111
对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为
Figure BDA00026248224400001112
高度为
Figure BDA00026248224400001113
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作(即:使空间位置加权图像中的每个像素点的像素值与C中的每幅特征图中对应的像素点的像素值相乘实现加权),共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为
Figure BDA00026248224400001114
高度为
Figure BDA00026248224400001115
对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层(即丢弃层)、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为
Figure BDA0002624822440000121
高度为
Figure BDA0002624822440000122
第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为
Figure BDA0002624822440000123
高度为
Figure BDA0002624822440000124
第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为
Figure BDA0002624822440000125
高度为
Figure BDA0002624822440000126
第二上采样层的输入端接收H3中的所有特征图,第二上采样层对H3中的每幅特征图执行两倍上采样操作,第二上采样层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H4,H4中的每幅特征图的宽度为
Figure BDA0002624822440000127
高度为
Figure BDA0002624822440000128
Dropout层的输入端接收H4中的所有特征图,Dropout层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H5,H5中的每幅特征图的宽度为
Figure BDA0002624822440000129
高度为
Figure BDA00026248224400001210
第二卷积层的输入端接收H5中的所有特征图,第二卷积层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H6,H6中的每幅特征图的宽度为
Figure BDA00026248224400001211
高度为
Figure BDA00026248224400001212
第三上采样层的输入端接收H6中的所有特征图,第三上采样层对H6中的每幅特征图执行两倍上采样操作,第三上采样层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H7,H7中的每幅特征图的宽度为W、高度为H。
对于输出层,其输入端接收H7中的所有特征图,其输出端输出9幅特征图作为语义分割预测图。
在本实施例中,步骤1_2中,深层次特征提取模块采用现有的两个MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,在保持MobileNetV2网络结构中各层之间的连接关系的前提下,第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块,第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块,第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块,第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块,第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块,第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块,第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块;其中,卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1,第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
表1给出了MobileNetV2网络结构中的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的参数配置及与第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块的关系。
表1MobileNetV2网络结构中的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的参数配置及划分
Figure BDA0002624822440000131
Figure BDA0002624822440000141
为了防止过多的下采样造成空间分辨率下降,本发明在第四彩色结构块中不进行下采样;为了提高模型的感受野,将第四彩色结构块中的第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
在本实施例中,步骤1_2中,浅层次特征提取模块采用现有的MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块,并修改该bottleneck层的参数,使其输入端输入的特征图的宽度为
Figure BDA0002624822440000142
高度为
Figure BDA0002624822440000143
输入通道数为24,其输出端输出的特征图的宽度为
Figure BDA0002624822440000144
高度为
Figure BDA0002624822440000145
输出通道数为160,其下采样的倍数为1。
表2给出了作为浅层结构块的bottleneck层的参数配置。
表2作为浅层结构块的bottleneck层的参数配置
Figure BDA0002624822440000146
表1和表2中,t为bottleneck层的内部参数、c为输出通道大小、n为模块重复次数、s为下采样倍数。
在本实施例中,步骤1_2中,空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层,第二激活层的激活函数为“ReLU”,第三激活层的激活函数为“Sigmoid”,第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图,第三卷积层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为
Figure BDA0002624822440000151
高度为
Figure BDA0002624822440000152
第二批量归一化层的输入端接收Z1中的所有特征图,第二批量归一化层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为
Figure BDA0002624822440000153
高度为
Figure BDA0002624822440000154
第二激活层的输入端接收Z2中的所有特征图,第二激活层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为
Figure BDA0002624822440000155
高度为
Figure BDA0002624822440000156
第四卷积层的输入端接收Z3中的所有特征图,第四卷积层的输出端输出1幅特征图,这幅特征图的宽度为
Figure BDA0002624822440000157
高度为
Figure BDA0002624822440000158
第三激活层的输入端接收第四卷积层的输出端输出的特征图,第三激活层的输出端输出1幅特征图,这幅特征图的宽度为
Figure BDA0002624822440000159
高度为
Figure BDA00026248224400001510
步骤1_3:将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像,并将训练集中的每幅原始的道路场景热力图像作为原始热力图像,将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中,使用Adam优化方法进行训练,得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图,将
Figure BDA00026248224400001511
对应的9幅语义分割预测图构成的集合记为
Figure BDA00026248224400001512
步骤1_4:计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA00026248224400001513
Figure BDA00026248224400001514
之间的损失函数值记为
Figure BDA00026248224400001515
采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1,在本实施例中取V=300。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002624822440000161
表示待语义分割的道路场景彩色图像,令
Figure BDA0002624822440000162
表示待语义分割的道路场景热力图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002624822440000163
Figure BDA0002624822440000164
的宽度,H'表示
Figure BDA0002624822440000165
的高度,
Figure BDA0002624822440000166
表示
Figure BDA0002624822440000167
中坐标位置为(i',j')的像素点的像素值,
Figure BDA0002624822440000168
表示
Figure BDA0002624822440000169
中坐标位置为(i',j')的像素点的像素值,
Figure BDA00026248224400001610
Figure BDA00026248224400001611
为从同一道路场景获取。
步骤2_2:将
Figure BDA00026248224400001612
的R通道分量、G通道分量和B通道分量及
Figure BDA00026248224400001613
经纬度扩充后形成的三通道热力图像输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到
Figure BDA00026248224400001614
对应的预测语义分割图像。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库pytorch搭建卷积神经网络的架构。采用MFNet中报告的道路场景图像数据库的测试集来分析利用本发明方法预测得到的道路场景彩色图像(取MFNet中报告的道路场景图像数据库的测试集中的393幅道路场景图像)的语义分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即像素精确度(Pixel Acurracy,PA)、平均类别准确率(Class Acurracy,CA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,mIoU)来评价预测语义分割图像的分割性能。此外,用每秒预测图像的张数(FPS)来评价模型的速度。
利用本发明方法对测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的像素精确度PA、平均类别准确率CA、分割图像与标签图像交集与并集的比值mIoU、每秒预测图像的张数FPS如表3所列。从表3所列的数据可知,按本发明方法得到的道路场景图像的语义分割结果是较好的,并且预测速度较快,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行且有效的。
表3利用本发明方法在测试集上的评测结果
PA 98.0%
CA 62.5%
mIoU 54.5%
FPS 113
图2a给出了第1幅原始的道路场景彩色图像,图2b给出了与图2a同一场景的原始的道路场景热力图像,图2c给出了利用本发明方法对图2a和图2b进行处理,预测得到的预测语义分割图像;图3a给出了第2幅原始的道路场景彩色图像,图3b给出了与图3a同一场景的原始的道路场景热力图像,图3c给出了利用本发明方法对图3a和图3b进行处理,预测得到的预测语义分割图像;图4a给出了第3幅原始的道路场景彩色图像,图4b给出了与图4a同一场景的原始的道路场景热力图像,图4c给出了利用本发明方法对图4a和图4b进行处理,预测得到的预测语义分割图像;图5a给出了第4幅原始的道路场景彩色图像,图5b给出了与图5a同一场景的原始的道路场景热力图像,图5c给出了利用本发明方法对图5a和图5b进行处理,预测得到的预测语义分割图像。从图2c、图3c、图4c和图5c中可以看出,利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (4)

1.一种基于卷积神经网络的实时道路场景分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景彩色图像和Q幅原始的道路场景热力图像及每幅原始的道路场景彩色图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景彩色图像记为
Figure FDA0002624822430000011
将训练集中的第q幅原始的道路场景热力图像记为
Figure FDA0002624822430000012
Figure FDA0002624822430000013
对应的真实语义分割图像记为
Figure FDA0002624822430000014
然后采用独热编码技术将训练集中的每幅原始的道路场景彩色图像对应的真实语义分割图像处理成9幅独热编码图像,将
Figure FDA0002624822430000015
处理成的9幅独热编码图像构成的集合记为
Figure FDA0002624822430000016
其中,Q为正整数,Q≥500,原始的道路场景彩色图像为RGB图像,原始的道路场景热力图像为灰度图像,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示
Figure FDA0002624822430000017
的宽度,H表示
Figure FDA0002624822430000018
Figure FDA0002624822430000019
的高度,
Figure FDA00026248224300000110
Figure FDA00026248224300000111
为从同一道路场景获取,
Figure FDA00026248224300000112
表示
Figure FDA00026248224300000113
中坐标位置为(i,j)的像素点的像素值,
Figure FDA00026248224300000114
表示
Figure FDA00026248224300000115
中坐标位置为(i,j)的像素点的像素值,
Figure FDA00026248224300000116
表示
Figure FDA00026248224300000117
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包括输入层、特征提取层、特征融合层和输出层,输入层由彩色图像输入层和热力图像输入层两部分构成,特征提取层由深层次特征提取模块和浅层次特征提取模块两部分构成,特征融合层由第一上采样层、空间注意力机制模块和空间分辨率恢复模块组成;
对于彩色图像输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给深层次特征提取模块;其中,原始RGB图像的宽度为W、高度为H;
对于热力图像输入层,其输入端接收一幅原始热力图像经纬度扩充后形成的三通道热力图像,其输出端输出三通道热力图像给深层次特征提取模块;其中,原始热力图像的宽度为W、高度为H;
对于深层次特征提取模块,其包括第一彩色结构块、第二彩色结构块、第三彩色结构块、第四彩色结构块、第一热力图结构块、第二热力图结构块、第三热力图结构块,第一彩色结构块的输入端作为深层次特征提取模块的第一输入端接收彩色图像输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dcolour,1,Dcolour,1中的每幅特征图的宽度为
Figure FDA0002624822430000021
高度为
Figure FDA0002624822430000022
第一热力图结构块的输入端作为深层次特征提取模块的第二输入端接收热力图像输入层的输出端输出的三通道热力图像,其输出端输出24幅特征图,将这24幅特征图构成的集合记为Dthermal,1,Dthermal,1中的每幅特征图的宽度为
Figure FDA0002624822430000023
高度为
Figure FDA0002624822430000024
对Dcolour,1中的每幅特征图与Dthermal,1中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到24幅特征图,将这24幅特征图构成的集合记为DAdd,1,DAdd,1中的每幅特征图的宽度为
Figure FDA0002624822430000025
高度为
Figure FDA0002624822430000026
第二彩色结构块的输入端接收DAdd,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dcolour,2,Dcolour,2中的每幅特征图的宽度为
Figure FDA0002624822430000027
高度为
Figure FDA0002624822430000028
第二热力图结构块的输入端接收Dthermal,1中的所有特征图,其输出端输出32幅特征图,将这32幅特征图构成的集合记为Dthermal,2,Dthermal,2中的每幅特征图的宽度为
Figure FDA0002624822430000029
高度为
Figure FDA00026248224300000210
对Dcolour,2中的每幅特征图与Dthermal,2中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到32幅特征图,将这32幅特征图构成的集合记为DAdd,2,DAdd,2中的每幅特征图的宽度为
Figure FDA00026248224300000211
高度为
Figure FDA00026248224300000212
第三彩色结构块的输入端接收DAdd,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dcolour,3,Dcolour,3中的每幅特征图的宽度为
Figure FDA00026248224300000213
高度为
Figure FDA00026248224300000214
第三热力图结构块的输入端接收Dthermal,2中的所有特征图,其输出端输出64幅特征图,将这64幅特征图构成的集合记为Dthermal,3,Dthermal,3中的每幅特征图的宽度为
Figure FDA00026248224300000215
高度为
Figure FDA0002624822430000031
对Dcolour,3中的每幅特征图与Dthermal,3中对应的特征图执行对应像素点的像素值相加融合操作,共融合得到64幅特征图,将这64幅特征图构成的集合记为DAdd,3,DAdd,3中的每幅特征图的宽度为
Figure FDA0002624822430000032
高度为
Figure FDA0002624822430000033
第四彩色结构块的输入端接收DAdd,3中的所有特征图,其输出端作为深层次特征提取模块的输出端输出160幅特征图,将这160幅特征图构成的集合记为Dcolour,4,Dcolour,4中的每幅特征图的宽度为
Figure FDA0002624822430000034
高度为
Figure FDA0002624822430000035
对于浅层次特征提取模块,其仅包括一个浅层结构块,浅层结构块的输入端接收DAdd,1中的所有特征图,其输出端输出160幅特征图,将这160幅特征图构成的集合记为S,S中的每幅特征图的宽度为
Figure FDA0002624822430000036
高度为
Figure FDA0002624822430000037
对于第一上采样层,其输入端接收Dcolour,4中的所有特征图,其对Dcolour,4中的每幅特征图执行四倍上采样操作,其输出端输出160幅特征图,将这160幅特征图构成的集合记为Y,Y中的每幅特征图的宽度为
Figure FDA0002624822430000038
高度为
Figure FDA0002624822430000039
对Y中的所有特征图和S中的所有特征图执行拼接操作,得到320幅特征图,将这320幅特征图构成的集合记为C,C中的每幅特征图的宽度为
Figure FDA00026248224300000310
高度为
Figure FDA00026248224300000311
对于空间注意力机制模块,其输入端接收C中的所有特征图,其输出端输出1幅特征图,这幅特征图的宽度为
Figure FDA00026248224300000312
高度为
Figure FDA00026248224300000313
将空间注意力机制模块的输出端输出的特征图作为空间位置加权图像,利用空间位置加权图像对C中的每幅特征图执行对应像素点的像素值加权操作,共得到320幅特征图,将这320幅特征图构成的集合记为F,F中的每幅特征图的宽度为
Figure FDA00026248224300000314
高度为
Figure FDA00026248224300000315
对于空间分辨率恢复模块,其包括依次连接的第一卷积层、第一批量归一化层、第一激活层、第二上采样层、Dropout层、第二卷积层、第三上采样层,第一激活层的激活函数为“ReLU”,第一卷积层的输入端作为空间分辨率恢复模块的输入端接收F中的所有特征图,第一卷积层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H1,H1中的每幅特征图的宽度为
Figure FDA00026248224300000316
高度为
Figure FDA00026248224300000317
第一批量归一化层的输入端接收H1中的所有特征图,第一批量归一化层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H2,H2中的每幅特征图的宽度为
Figure FDA0002624822430000041
高度为
Figure FDA0002624822430000042
第一激活层的输入端接收H2中的所有特征图,第一激活层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H3,H3中的每幅特征图的宽度为
Figure FDA0002624822430000043
高度为
Figure FDA0002624822430000044
第二上采样层的输入端接收H3中的所有特征图,第二上采样层对H3中的每幅特征图执行两倍上采样操作,第二上采样层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H4,H4中的每幅特征图的宽度为
Figure FDA0002624822430000045
高度为
Figure FDA0002624822430000046
Dropout层的输入端接收H4中的所有特征图,Dropout层的输出端输出160幅特征图,将这160幅特征图构成的集合记为H5,H5中的每幅特征图的宽度为
Figure FDA0002624822430000047
高度为
Figure FDA0002624822430000048
第二卷积层的输入端接收H5中的所有特征图,第二卷积层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H6,H6中的每幅特征图的宽度为
Figure FDA0002624822430000049
高度为
Figure FDA00026248224300000410
第三上采样层的输入端接收H6中的所有特征图,第三上采样层对H6中的每幅特征图执行两倍上采样操作,第三上采样层的输出端输出9幅特征图,将这9幅特征图构成的集合记为H7,H7中的每幅特征图的宽度为W、高度为H;
对于输出层,其输入端接收H7中的所有特征图,其输出端输出9幅特征图作为语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景彩色图像作为原始RGB图像,并将训练集中的每幅原始的道路场景热力图像作为原始热力图像,将原始RGB图像的R通道分量、G通道分量和B通道分量及相应的原始热力图像经纬度扩充后形成的三通道热力图像输入到卷积神经网络中,使用Adam优化方法进行训练,得到训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图,将
Figure FDA00026248224300000411
对应的9幅语义分割预测图构成的集合记为
Figure FDA00026248224300000412
步骤1_4:计算训练集中的每幅原始的道路场景彩色图像对应的9幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的9幅独热编码图像构成的集合之间的损失函数值,将
Figure FDA00026248224300000413
Figure FDA00026248224300000414
之间的损失函数值记为
Figure FDA00026248224300000415
采用分类交叉熵获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后将最后一次训练获得的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure FDA0002624822430000051
表示待语义分割的道路场景彩色图像,令
Figure FDA0002624822430000052
表示待语义分割的道路场景热力图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure FDA0002624822430000053
Figure FDA0002624822430000054
的宽度,H'表示
Figure FDA0002624822430000055
的高度,
Figure FDA0002624822430000056
表示
Figure FDA0002624822430000057
中坐标位置为(i',j')的像素点的像素值,
Figure FDA0002624822430000058
表示
Figure FDA0002624822430000059
中坐标位置为(i',j')的像素点的像素值,
Figure FDA00026248224300000510
Figure FDA00026248224300000511
为从同一道路场景获取;
步骤2_2:将
Figure FDA00026248224300000512
的R通道分量、G通道分量和B通道分量及
Figure FDA00026248224300000513
经纬度扩充后形成的三通道热力图像输入到训练好的卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到
Figure FDA00026248224300000514
对应的预测语义分割图像。
2.根据权利要求1所述的一种基于卷积神经网络的实时道路场景分割方法,其特征在于所述的步骤1_2中,深层次特征提取模块采用两个MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,在保持MobileNetV2网络结构中各层之间的连接关系的前提下,第1个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一彩色结构块,第1个MobileNetV2网络结构中的第3个bottleneck层构成第二彩色结构块,第1个MobileNetV2网络结构中的第4个bottleneck层构成第三彩色结构块,第1个MobileNetV2网络结构中依次连接的第5个bottleneck层、第6个bottleneck层构成第四彩色结构块,第2个MobileNetV2网络结构中依次连接的卷积层、第1个bottleneck层、第2个bottleneck层构成第一热力图结构块,第2个MobileNetV2网络结构中的第3个bottleneck层构成第二热力图结构块,第2个MobileNetV2网络结构中的第4个bottleneck层构成第三热力图结构块;其中,卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层的下采样倍数对应为2、1、2、2、2、1、1,第5个bottleneck层和第6个bottleneck层的卷积操作膨胀系数对应设为2和4。
3.根据权利要求1或2所述的一种基于卷积神经网络的实时道路场景分割方法,其特征在于所述的步骤1_2中,浅层次特征提取模块采用MobileNetV2网络结构的部分结构,MobileNetV2网络结构包括依次连接的卷积层、第1个bottleneck层、第2个bottleneck层、第3个bottleneck层、第4个bottleneck层、第5个bottleneck层、第6个bottleneck层,将MobileNetV2网络结构中的第1个至第4个bottleneck层中的任一个bottleneck层作为浅层结构块,并修改该bottleneck层的参数,使其输入端输入的特征图的宽度为
Figure FDA0002624822430000061
高度为
Figure FDA0002624822430000062
输入通道数为24,其输出端输出的特征图的宽度为
Figure FDA0002624822430000063
高度为
Figure FDA0002624822430000064
输出通道数为160,其下采样的倍数为1。
4.根据权利要求3所述的一种基于卷积神经网络的实时道路场景分割方法,其特征在于所述的步骤1_2中,空间注意力机制模块包括依次连接的第三卷积层、第二批量归一化层、第二激活层、第四卷积层、第三激活层,第二激活层的激活函数为“ReLU”,第三激活层的激活函数为“Sigmoid”,第三卷积层的输入端作为空间注意力机制模块的输入端接收C中的所有特征图,第三卷积层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为
Figure FDA0002624822430000065
高度为
Figure FDA0002624822430000066
第二批量归一化层的输入端接收Z1中的所有特征图,第二批量归一化层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为
Figure FDA0002624822430000067
高度为
Figure FDA0002624822430000068
第二激活层的输入端接收Z2中的所有特征图,第二激活层的输出端输出80幅特征图,将这80幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为
Figure FDA0002624822430000069
高度为
Figure FDA00026248224300000610
第四卷积层的输入端接收Z3中的所有特征图,第四卷积层的输出端输出1幅特征图,这幅特征图的宽度为
Figure FDA00026248224300000611
高度为
Figure FDA00026248224300000612
第三激活层的输入端接收第四卷积层的输出端输出的特征图,第三激活层的输出端输出1幅特征图,这幅特征图的宽度为
Figure FDA00026248224300000613
高度为
Figure FDA00026248224300000614
CN202010793917.7A 2020-08-10 2020-08-10 一种基于卷积神经网络的实时道路场景分割方法 Withdrawn CN112149496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010793917.7A CN112149496A (zh) 2020-08-10 2020-08-10 一种基于卷积神经网络的实时道路场景分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010793917.7A CN112149496A (zh) 2020-08-10 2020-08-10 一种基于卷积神经网络的实时道路场景分割方法

Publications (1)

Publication Number Publication Date
CN112149496A true CN112149496A (zh) 2020-12-29

Family

ID=73887826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010793917.7A Withdrawn CN112149496A (zh) 2020-08-10 2020-08-10 一种基于卷积神经网络的实时道路场景分割方法

Country Status (1)

Country Link
CN (1) CN112149496A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733934A (zh) * 2021-01-08 2021-04-30 浙江科技学院 复杂环境下的多模态特征融合道路场景语义分割方法
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733934A (zh) * 2021-01-08 2021-04-30 浙江科技学院 复杂环境下的多模态特征融合道路场景语义分割方法
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法
CN113269197B (zh) * 2021-04-25 2024-03-08 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归系统和识别方法

Similar Documents

Publication Publication Date Title
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN112634276A (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN111062395B (zh) 一种实时的视频语义分割方法
CN113780211A (zh) 一种基于改进型Yolov4-tiny的轻量级飞机检测方法
CN113688836A (zh) 一种基于深度学习的实时性道路图像语义分割方法及系统
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN110781850A (zh) 道路识别的语义分割系统和方法、计算机存储介质
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113255837A (zh) 工业环境下基于改进的CenterNet网络目标检测方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN113436210B (zh) 一种融合上下文逐级采样的道路图像分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN112699889A (zh) 基于多任务监督的无人驾驶实时道路场景语义分割方法
CN112149496A (zh) 一种基于卷积神经网络的实时道路场景分割方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
US20230186436A1 (en) Method for fine-grained detection of driver distraction based on unsupervised learning
CN115471754A (zh) 一种基于多维多尺度U-net网络的遥感图像道路提取方法
CN111079543B (zh) 一种基于深度学习的高效车辆颜色识别方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN112785610B (zh) 一种融合低层特征的车道线语义分割方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201229

WW01 Invention patent application withdrawn after publication