CN109446933B - 一种基于卷积神经网络的道路场景语义分割方法 - Google Patents
一种基于卷积神经网络的道路场景语义分割方法 Download PDFInfo
- Publication number
- CN109446933B CN109446933B CN201811186863.7A CN201811186863A CN109446933B CN 109446933 B CN109446933 B CN 109446933B CN 201811186863 A CN201811186863 A CN 201811186863A CN 109446933 B CN109446933 B CN 109446933B
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- twenty
- activation
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 77
- 230000007704 transition Effects 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims description 233
- 238000011176 pooling Methods 0.000 claims description 48
- 238000010586 diagram Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 241000287196 Asthenes Species 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Error Detection And Correction (AREA)
Abstract
本发明公开了一种基于卷积神经网络的道路场景语义分割方法,其在训练阶段,构建卷积神经网络,其隐层包括5个神经网络块、5个过渡用卷积层、5个跳跃反卷积块、4个级联层;使用原始的道路场景图像输入到卷积神经网络中进行训练,得到对应的12幅语义分割预测图;再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,得到预测语义分割图像;优点是提高了道路场景图像的语义分割效率和准确度。
Description
技术领域
本发明涉及一种深度学习的语义分割方法,尤其是涉及一种基于卷积神经网络的道路场景语义分割方法。
背景技术
智能交通行业的兴起,使得语义分割在智能交通系统中有着越来越多的应用,从交通场景理解和多目标障碍检测到视觉导航都可借由语义分割技术实现。目前,最常用的语义分割方法包括支持向量机、随机森林等算法。这些算法主要集中在二分类任务上,用于检测和识别特定物体,如道路表面、车辆和行人。这些传统的机器学习方法往往需要通过高复杂度的特征来实现,而使用深度学习来对交通场景进行语义分割简单方便,更重要的是,深度学习的应用极大地提高了图像像素级分类任务的精度。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的道路场景语义分割方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯利用池化操作与卷积操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,分割精度低。
发明内容
本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法,其分割效率高,且分割准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,其由依次设置的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸为2,P1中的每幅特征图的宽度为高度为
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为高度为
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为高度为
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为高度为
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为高度为
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P5中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为高度为
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P4中的所有特征图,第2个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为高度为
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为高度为
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P2中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为高度为
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P1中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为高度为
对于第1个跳跃反卷积块,其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成;第1个跳跃反卷积块的输入端接收Q1中的所有特征图,Q1中的所有特征图输入第一反卷积层,第一反卷积层的输出连接第十九激活层的输入,第十九激活层的输出连接第十九卷积层的输入,第十九卷积层的输出连接第二十激活层的输入,第二十激活层的输出连接第二十卷积层的输入,第二十卷积层的输出与第一反卷积层的输出作相加操作后的输出连接第二十一激活层的输入,第二十一激活层的输出作为最终输出结果,第1个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”,第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T1中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收Q2中的所有特征图和T1中的所有特征图,第1个级联层通过Concatence方式连接Q2和T1得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256,U1中的每幅特征图的宽度为高度为
对于第2个跳跃反卷积块,其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成;第2个跳跃反卷积块的输入端接收U1中的所有特征图,U1中的所有特征图输入第二反卷积层,第二反卷积层的输出连接第二十二激活层的输入,第二十二激活层的输出连接第二十一卷积层的输入,第二十一卷积层的输出连接第二十三激活层的输入,第二十三激活层的输出连接第二十二卷积层的输入,第二十二卷积层的输出与第二反卷积层的输出作相加操作后的输出连接第二十四激活层的输入,第二十四激活层的输出作为最终输出结果,第2个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T2中的每幅特征图的宽度为高度为
对于第2个级联层,第2个级联层的输入端接收Q3中的所有特征图和T2中的所有特征图,第2个级联层通过Concatence方式连接Q3和T2得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256,U2中的每幅特征图的宽度为高度为
对于第3个跳跃反卷积块,其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成;第3个跳跃反卷积块的输入端接收U2中的所有特征图,U2中的所有特征图输入第三反卷积层,第三反卷积层的输出连接第二十五激活层的输入,第二十五激活层的输出连接第二十三卷积层的输入,第二十三卷积层的输出连接第二十六激活层的输入,第二十六激活层的输出连接第二十四卷积层的输入,第二十四卷积层的输出与第三反卷积层的输出作相加操作的输出连接第二十七激活层的输入,第二十七激活层的输出作为最终输出结果,第3个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”,第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T3中的每幅特征图的宽度为高度为
对于第3个级联层,第3个级联层的输入端接收Q4中的所有特征图和T3中的所有特征图,第3个级联层通过Concatence方式连接Q4和T3得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为256,U3中的每幅特征图的宽度为高度为
对于第4个跳跃反卷积块,其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成;第4个跳跃反卷积块的输入端接收U3中的所有特征图,U3中的所有特征图输入第四反卷积层,第四反卷积层的输出连接第二十八激活层的输入,第二十八激活层的输出连接第二十五卷积层的输入,第二十五卷积层的输出连接第二十九激活层的输入,第二十九激活层的输出连接第二十六卷积层的输入,第二十六卷积层的输出与第四反卷积层的输出作相加操作后的输出连接第三十激活层的输入,第三十激活层的输出作为最终输出结果,第4个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”,第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T4中的每幅特征图的宽度为高度为
对于第4个级联层,第4个级联层的输入端接收Q5中的所有特征图和T4中的所有特征图,第4个级联层通过Concatence方式连接Q5和T4得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256,U4中的每幅特征图的宽度为高度为
对于第5个跳跃反卷积块,其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成;第5个跳跃反卷积块的输入端接收U4中的所有特征图,U4中的所有特征图输入第五反卷积层,第五反卷积层的输出连接第三十一激活层的输入,第三十一激活层的输出连接第二十七卷积层的输入,第二十七卷积层的输出连接第三十二激活层的输入,第三十二激活层的输出连接第二十八卷积层的输入,第二十八卷积层的输出与第五反卷积层的输出作相加操作后输出连接第三十三激活层的输入,第三十三激活层的输出作为最终输出结果,第5个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”,第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T5中的每幅特征图的宽度为W、高度为H;
对于输出层,其由第二十九卷积层组成,其中,第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式为“softmax”;输出层的输入端接收T5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
与现有技术相比,本发明的优点在于:
1)本发明方法构建卷积神经网络,使用训练集中的道路场景图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中,预测得到道路场景图像对应的预测语义分割图像,由于本发明方法在构建卷积神经网络时结合了过渡用卷积层和跳跃反卷积块的特点,因此能够比较准确地描述道路场景中各种分类目标,从而有效地提高了道路场景图像的语义分割精确度。
2)本发明方法采用过渡用卷积层,减少训练参数量;采用跳跃反卷积块,使得卷积神经网络能反复利用低层特征,减少了细节特征丢失,物体边缘能更好还原。
3)本发明方法在搭建卷积神经网络中的较深的卷积层中使用级联层(concatenation),重复利用低层特征,进而在训练集与测试集上都能得到较好效果。
附图说明
图1为本发明方法的总体实现框图;
图2a为第1幅原始的道路场景图像;
图2b为利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图3a为第2幅原始的道路场景图像;
图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图4a为第3幅原始的道路场景图像;
图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图5a为第4幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=480、H=360,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块。
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个神经网络块,其由依次设置的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层、第一最大池化层(Maxpooling,Pool)组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)均为64、补零(padding)参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸(pool_size)为2,P1中的每幅特征图的宽度为高度为
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为高度为
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为高度为
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为高度为
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为高度为
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P5中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为高度为
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P4中的所有特征图,第2个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为高度为
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为高度为
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P2中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为高度为
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P1中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为高度为
对于第1个跳跃反卷积块,其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成;第1个跳跃反卷积块的输入端接收Q1中的所有特征图,Q1中的所有特征图输入第一反卷积层,第一反卷积层的输出连接第十九激活层的输入,第十九激活层的输出连接第十九卷积层的输入,第十九卷积层的输出连接第二十激活层的输入,第二十激活层的输出连接第二十卷积层的输入,第二十卷积层的输出与第一反卷积层的输出作相加(add)操作后的输出连接第二十一激活层的输入,第二十一激活层的输出作为最终输出结果,第1个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长(strides)为2,第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”,第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T1中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收Q2中的所有特征图和T1中的所有特征图,第1个级联层通过现有的Concatence方式连接Q2和T1得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256(128+128=256),U1中的每幅特征图的宽度为高度为
对于第2个跳跃反卷积块,其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成;第2个跳跃反卷积块的输入端接收U1中的所有特征图,U1中的所有特征图输入第二反卷积层,第二反卷积层的输出连接第二十二激活层的输入,第二十二激活层的输出连接第二十一卷积层的输入,第二十一卷积层的输出连接第二十三激活层的输入,第二十三激活层的输出连接第二十二卷积层的输入,第二十二卷积层的输出与第二反卷积层的输出作相加(add)操作后的输出连接第二十四激活层的输入,第二十四激活层的输出作为最终输出结果,第2个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T2中的每幅特征图的宽度为高度为
对于第2个级联层,第2个级联层的输入端接收Q3中的所有特征图和T2中的所有特征图,第2个级联层通过现有的Concatence方式连接Q3和T2得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256(128+128=256),U2中的每幅特征图的宽度为高度为
对于第3个跳跃反卷积块,其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成;第3个跳跃反卷积块的输入端接收U2中的所有特征图,U2中的所有特征图输入第三反卷积层,第三反卷积层的输出连接第二十五激活层的输入,第二十五激活层的输出连接第二十三卷积层的输入,第二十三卷积层的输出连接第二十六激活层的输入,第二十六激活层的输出连接第二十四卷积层的输入,第二十四卷积层的输出与第三反卷积层的输出作相加(add)操作的输出连接第二十七激活层的输入,第二十七激活层的输出作为最终输出结果,第3个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”,第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T3中的每幅特征图的宽度为高度为
对于第3个级联层,第3个级联层的输入端接收Q4中的所有特征图和T3中的所有特征图,第3个级联层通过现有的Concatence方式连接Q4和T3得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为256(128+128=256),U3中的每幅特征图的宽度为高度为
对于第4个跳跃反卷积块,其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成;第4个跳跃反卷积块的输入端接收U3中的所有特征图,U3中的所有特征图输入第四反卷积层,第四反卷积层的输出连接第二十八激活层的输入,第二十八激活层的输出连接第二十五卷积层的输入,第二十五卷积层的输出连接第二十九激活层的输入,第二十九激活层的输出连接第二十六卷积层的输入,第二十六卷积层的输出与第四反卷积层的输出作相加(add)操作后的输出连接第三十激活层的输入,第三十激活层的输出作为最终输出结果,第4个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”,第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T4中的每幅特征图的宽度为高度为
对于第4个级联层,第4个级联层的输入端接收Q5中的所有特征图和T4中的所有特征图,第4个级联层通过现有的Concatence方式连接Q5和T4得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256(128+128=256),U4中的每幅特征图的宽度为高度为
对于第5个跳跃反卷积块,其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成;第5个跳跃反卷积块的输入端接收U4中的所有特征图,U4中的所有特征图输入第五反卷积层,第五反卷积层的输出连接第三十一激活层的输入,第三十一激活层的输出连接第二十七卷积层的输入,第二十七卷积层的输出连接第三十二激活层的输入,第三十二激活层的输出连接第二十八卷积层的输入,第二十八卷积层的输出与第五反卷积层的输出作相加(add)操作后输出连接第三十三激活层的输入,第三十三激活层的输出作为最终输出结果,第5个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”,第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T5中的每幅特征图的宽度为W、高度为H。
对于输出层,其由第二十九卷积层组成,其中,第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式(activation)为“softmax”;输出层的输入端接收T5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图。
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为 采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=300。
所述的测试阶段过程的具体步骤为:
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Keras2.1.5搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测得到的道路场景图像(取233幅道路场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
图2a给出了第1幅原始的道路场景图像;图2b给出了利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图3a给出了第2幅原始的道路场景图像;图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图4a给出了第3幅原始的道路场景图像;图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图5a给出了第4幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。对比图2a和图2b,对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。
Claims (2)
1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个过渡用卷积层、第2个过渡用卷积层、第3个过渡用卷积层、第4个过渡用卷积层、第5个过渡用卷积层、第1个跳跃反卷积块、第1个级联层、第2个跳跃反卷积块、第2个级联层、第3个跳跃反卷积块、第3个级联层、第4个跳跃反卷积块、第4个级联层、第5个跳跃反卷积块;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,其由依次设置的第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为“same”,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸为2,P1中的每幅特征图的宽度为高度为
对于第2个神经网络块,其由依次设置的第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为“same”,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,P2中的每幅特征图的宽度为高度为
对于第3个神经网络块,其由依次设置的第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为“same”,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为2,P3中的每幅特征图的宽度为高度为
对于第4个神经网络块,其由依次设置的第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,P4中的每幅特征图的宽度为高度为
对于第5个神经网络块,其由依次设置的第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为“same”,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,P5中的每幅特征图的宽度为高度为
对于第1个过渡用卷积层,其由依次设置的第十四卷积层、第十四激活层组成;第1个过渡用卷积层的输入端接收P5中的所有特征图,第1个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q1;其中,第十四卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十四激活层的激活方式均为“Relu”,Q1中的每幅特征图的宽度为高度为
对于第2个过渡用卷积层,其由依次设置的第十五卷积层、第十五激活层组成;第2个过渡用卷积层的输入端接收P4中的所有特征图,第2个过渡用卷积层的输出端输出 128幅特征图,将128幅特征图构成的集合记为Q2;其中,第十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十五激活层的激活方式均为“Relu”,Q2中的每幅特征图的宽度为高度为
对于第3个过渡用卷积层,其由依次设置的第十六卷积层、第十六激活层组成;第3个过渡用卷积层的输入端接收P3中的所有特征图,第3个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q3;其中,第十六卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十六激活层的激活方式均为“Relu”,Q3中的每幅特征图的宽度为高度为
对于第4个过渡用卷积层,其由依次设置的第十七卷积层、第十七激活层组成;第4个过渡用卷积层的输入端接收P2中的所有特征图,第4个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q4;其中,第十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十七激活层的激活方式均为“Relu”,Q4中的每幅特征图的宽度为高度为
对于第5个过渡用卷积层,其由依次设置的第十八卷积层、第十八激活层组成;第5个过渡用卷积层的输入端接收P1中的所有特征图,第5个过渡用卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为Q5;其中,第十八卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第十八激活层的激活方式均为“Relu”,Q5中的每幅特征图的宽度为高度为
对于第1个跳跃反卷积块,其由依次设置的第一反卷积层、第十九激活层、第十九卷积层、第二十激活层、第二十卷积层、第二十一激活层组成;第1个跳跃反卷积块的输入端接收Q1中的所有特征图,Q1中的所有特征图输入第一反卷积层,第一反卷积层的输出连接第十九激活层的输入,第十九激活层的输出连接第十九卷积层的输入,第十九卷积层的输出连接第二十激活层的输入,第二十激活层的输出连接第二十卷积层的输入,第二十卷积层的输出与第一反卷积层的输出作相加操作后的输出连接第二十一激活层的输入,第二十一激活层的输出作为最终输出结果,第1个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T1;其中,第一反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第十九激活层、第二十激活层和第二十一激活层的激活方式均为“Relu”,第十九卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T1中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收Q2中的所有特征图和T1中的所有特征图,第1个级联层通过Concatence方式连接Q2和T1得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为256,U1中的每幅特征图的宽度为高度为
对于第2个跳跃反卷积块,其由依次设置的第二反卷积层、第二十二激活层、第二十一卷积层、第二十三激活层、第二十二卷积层、第二十四激活层组成;第2个跳跃反卷积块的输入端接收U1中的所有特征图,U1中的所有特征图输入第二反卷积层,第二反卷积层的输出连接第二十二激活层的输入,第二十二激活层的输出连接第二十一卷积层的输入,第二十一卷积层的输出连接第二十三激活层的输入,第二十三激活层的输出连接第二十二卷积层的输入,第二十二卷积层的输出与第二反卷积层的输出作相加操作后的输出连接第二十四激活层的输入,第二十四激活层的输出作为最终输出结果,第2个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T2;其中,第二反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十二激活层和第二十三激活层、第二十四激活层的激活方式均为“Relu”,第二十一卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十二卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T2中的每幅特征图的宽度为高度为
对于第2个级联层,第2个级联层的输入端接收Q3中的所有特征图和T2中的所有特征图,第2个级联层通过Concatence方式连接Q3和T2得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为256,U2中的每幅特征图的宽度为高度为
对于第3个跳跃反卷积块,其由依次设置的第三反卷积层、第二十五激活层、第二十三卷积层、第二十六激活层、第二十四卷积层、第二十七激活层组成;第3个跳跃反卷积块的输入端接收U2中的所有特征图,U2中的所有特征图输入第三反卷积层,第三反卷积层的输出连接第二十五激活层的输入,第二十五激活层的输出连接第二十三卷积层的输入,第二十三卷积层的输出连接第二十六激活层的输入,第二十六激活层的输出连接第二十四卷积层的输入,第二十四卷积层的输出与第三反卷积层的输出作相加操作的输出连接第二十七激活层的输入,第二十七激活层的输出作为最终输出结果,第3个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T3;其中,第三反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十五激活层、第二十六激活层、第二十七激活层的激活方式均为“Relu”,第二十三卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十四卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T3中的每幅特征图的宽度为高度为
对于第3个级联层,第3个级联层的输入端接收Q4中的所有特征图和T3中的所有特征图,第3个级联层通过Concatence方式连接Q4和T3得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为256,U3中的每幅特征图的宽度为高度为
对于第4个跳跃反卷积块,其由依次设置的第四反卷积层、第二十八激活层、第二十五卷积层、第二十九激活层、第二十六卷积层、第三十激活层组成;第4个跳跃反卷积块的输入端接收U3中的所有特征图,U3中的所有特征图输入第四反卷积层,第四反卷积层的输出连接第二十八激活层的输入,第二十八激活层的输出连接第二十五卷积层的输入,第二十五卷积层的输出连接第二十九激活层的输入,第二十九激活层的输出连接第二十六卷积层的输入,第二十六卷积层的输出与第四反卷积层的输出作相加操作后的输出连接第三十激活层的输入,第三十激活层的输出作为最终输出结果,第4个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T4;其中,第四反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第二十八激活层、第二十九激活层、第三十激活层的激活方式均为“Relu”,第二十五卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十六卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T4中的每幅特征图的宽度为高度为
对于第4个级联层,第4个级联层的输入端接收Q5中的所有特征图和T4中的所有特征图,第4个级联层通过Concatence方式连接Q5和T4得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为256,U4中的每幅特征图的宽度为高度为
对于第5个跳跃反卷积块,其由依次设置的第五反卷积层、第三十一激活层、第二十七卷积层、第三十二激活层、第二十八卷积层、第三十三激活层组成;第5个跳跃反卷积块的输入端接收U4中的所有特征图,U4中的所有特征图输入第五反卷积层,第五反卷积层的输出连接第三十一激活层的输入,第三十一激活层的输出连接第二十七卷积层的输入,第二十七卷积层的输出连接第三十二激活层的输入,第三十二激活层的输出连接第二十八卷积层的输入,第二十八卷积层的输出与第五反卷积层的输出作相加操作后输出连接第三十三激活层的输入,第三十三激活层的输出作为最终输出结果,第5个跳跃反卷积块的输出端输出128幅特征图,将128幅特征图构成的集合记为T5;其中,第五反卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”、步长为2,第三十一激活层、第三十二激活层、第三十三激活层的激活方式均为“Relu”,第二十七卷积层的卷积核大小为3×3、卷积核个数为128、补零参数为“same”,第二十八卷积层的卷积核大小为1×1、卷积核个数为128、补零参数为“same”,T5中的每幅特征图的宽度为W、高度为H;
对于输出层,其由第二十九卷积层组成,其中,第二十九卷积层的卷积核大小为1×1、卷积核个数为12、补零参数为“valid”、激活方式为“softmax”;输出层的输入端接收T5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811186863.7A CN109446933B (zh) | 2018-10-12 | 2018-10-12 | 一种基于卷积神经网络的道路场景语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811186863.7A CN109446933B (zh) | 2018-10-12 | 2018-10-12 | 一种基于卷积神经网络的道路场景语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446933A CN109446933A (zh) | 2019-03-08 |
CN109446933B true CN109446933B (zh) | 2021-10-12 |
Family
ID=65546478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811186863.7A Active CN109446933B (zh) | 2018-10-12 | 2018-10-12 | 一种基于卷积神经网络的道路场景语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446933B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009700B (zh) * | 2019-03-13 | 2020-10-20 | 浙江科技学院 | 基于rgb图和梯度图的卷积神经网络视觉深度估计方法 |
CN110930383A (zh) * | 2019-11-20 | 2020-03-27 | 佛山市南海区广工大数控装备协同创新研究院 | 基于深度学习语义分割和图像分类的注射器缺陷检测方法 |
CN111275711B (zh) * | 2020-01-08 | 2023-04-07 | 西安电子科技大学 | 基于轻量级卷积神经网络模型的实时图像语义分割方法 |
CN112733934B (zh) * | 2021-01-08 | 2024-07-05 | 浙江科技学院 | 复杂环境下的多模态特征融合道路场景语义分割方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108550259A (zh) * | 2018-04-19 | 2018-09-18 | 何澜 | 道路拥堵判断方法、终端设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10424064B2 (en) * | 2016-10-18 | 2019-09-24 | Adobe Inc. | Instance-level semantic segmentation system |
-
2018
- 2018-10-12 CN CN201811186863.7A patent/CN109446933B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108550259A (zh) * | 2018-04-19 | 2018-09-18 | 何澜 | 道路拥堵判断方法、终端设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109446933A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446933B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN110490205B (zh) | 基于全残差空洞卷积神经网络的道路场景语义分割方法 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN109635662B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN110728682B (zh) | 一种基于残差金字塔池化神经网络的语义分割方法 | |
CN108765506B (zh) | 基于逐层网络二值化的压缩方法 | |
US10339421B2 (en) | RGB-D scene labeling with multimodal recurrent neural networks | |
CN109635642A (zh) | 一种基于残差网络和扩张卷积的道路场景分割方法 | |
CN105930402A (zh) | 基于卷积神经网络的视频检索方法及系统 | |
CN113269787A (zh) | 一种基于门控融合的遥感图像语义分割方法 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN111401436B (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN110490082A (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN110929736A (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN113192073A (zh) | 基于交叉融合网络的服装语义分割方法 | |
CN114638836B (zh) | 基于高度有效驱动与多层级特征融合的城市街景分割方法 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN110751195A (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN112508956A (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN109508639B (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 | |
CN110782458A (zh) | 一种非对称编码网络的物体图像3d语义预测分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |