CN109635662B - 一种基于卷积神经网络的道路场景语义分割方法 - Google Patents
一种基于卷积神经网络的道路场景语义分割方法 Download PDFInfo
- Publication number
- CN109635662B CN109635662B CN201811350718.8A CN201811350718A CN109635662B CN 109635662 B CN109635662 B CN 109635662B CN 201811350718 A CN201811350718 A CN 201811350718A CN 109635662 B CN109635662 B CN 109635662B
- Authority
- CN
- China
- Prior art keywords
- layer
- feature maps
- convolutional layer
- output end
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000010586 diagram Methods 0.000 claims description 66
- 238000011176 pooling Methods 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 4
- 241000287196 Asthenes Species 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000013135 deep learning Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/38—Outdoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于卷积神经网络的道路场景语义分割方法,其先构建卷积神经网络,包括输入层、隐层和输出层,隐层由13个神经网络块、7个上采样层、8个级联层组成;然后将训练集中的每幅原始的道路场景图像输入到卷积神经网络中进行训练,得到每幅原始的道路场景图像对应的12幅语义分割预测图;接着通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,得到卷积神经网络分类训练模型的最优权值矢量和最优偏置项;将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中进行预测,得到对应的预测语义分割图像;优点是语义分割精度高。
Description
技术领域
本发明涉及一种道路场景语义分割技术,尤其是涉及一种基于卷积神经网络的道路场景语义分割方法。
背景技术
近年来,具有执行计算密集型任务能力的机器的进步使得研究人员能够更深入地挖掘神经网络。卷积神经网络在图像的分类、定位以及场景理解等方面取得了最近的成功。目前,由于增强现实和自动驾驶车辆等任务的激增,因此许多研究人员将注意力转移到场景理解上,其中一个主要步骤就是语义分割,即对所给定的图像中的每一个像素点做分类。语义分割在移动和机器人相关应用中具有重要意义。
当然,目标检测方法可以帮助绘制出某些确定实体的边框,但人类对场景理解能以像素级的精细程度对每一个实体进行检测并标记精确的边界。现在已经开始发展自动驾驶汽车和智能机器人,这些都需要深入理解周围环境,因此精确分割实体变得越来越重要。
深度学习在语义分割、计算机视觉、语音识别、跟踪方面都有极广泛的应用,其极强的高效性也使得它在实时应用等各方面具有巨大的潜力。现如今获取特征的方法主要可以分为两类:使用手动特征的传统方法和针对问题自动学习的深度学习方法,前者通常为了适应新的数据集需要专家相关经验和时间对特征进行调整;后者在物体检测和图像分类等方面的成功鼓舞着研究人员探索此类网络对像素级标记,如语义分割方面的能力。因此,深度学习语义分割方法的研究更高效实用。
经典的语义分割方法有全连接网络(Full Connected Network,FCN),其能够做到端到端,像素点对像素点的连接,而且相比于传统的基于CNN(卷积神经网络)做分割的网络更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题,其是最先进的语义分割方法之一。但它存在很多缺点,首先是训练比较麻烦,需要训练三次才能够得到FCN-8s;其次是对图像的细节不够敏感,这是因为在解码过程,也就是恢复原图像大小的过程中,输入上采样层的label map(标签图片)太稀疏,而且上采样过程就是一个简单的deconvolution(反卷积),因此得到的分割结果还是不精细。
发明内容
本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法,其语义分割精度高。
本发明解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为高度为
对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为高度为Z2中的每幅特征图的宽度为高度为
对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有特征图,第三最大池化层的输出端输出256幅特征图,将256幅特征图构成的集合记为Z3;第十二卷积层的输入端接收C11中的所有特征图,第十二卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C12;第十三卷积层的输入端接收C11中的所有特征图,第十三卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C13;其中,C9、C10、C11、C12、C13各自中的每幅特征图的宽度为高度为Z3中的每幅特征图的宽度为高度为
对于第4个神经网络块,第十四卷积层的输入端接收Z3中的所有特征图,第十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C14;第十五卷积层的输入端接收C14中的所有特征图,第十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C15;第十六卷积层的输入端接收C15中的所有特征图,第十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C16;第四最大池化层的输入端接收C16中的所有特征图,第四最大池化层的输出端输出512幅特征图,将512幅特征图构成的集合记为Z4;第十七卷积层的输入端接收C16中的所有特征图,第十七卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C17;其中,C14、C15、C16、C17各自中的每幅特征图的宽度为高度为Z4中的每幅特征图的宽度为高度为
对于第5个神经网络块,第十八卷积层的输入端接收Z4中的所有特征图,第十八卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C18;第十九卷积层的输入端接收C18中的所有特征图,第十九卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C19;第二十卷积层的输入端接收C19中的所有特征图,第二十卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C20;第二十一卷积层的输入端接收C20中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C21;第二十二卷积层的输入端接收C21中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C22;第二十三卷积层的输入端接收C22中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C23;其中,C18、C19、C20、C21、C22、C23各自中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收Y1中的所有特征图和C17中的所有特征图,第1个级联层的输出端输出1024幅特征图,将1024幅特征图构成的集合记为L1;其中,L1中的每幅特征图的宽度为高度为
对于第6个神经网络块,第二十四卷积层的输入端接收L1中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C24;第二十五卷积层的输入端接收C24中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C25;第二十六卷积层的输入端接收C25中的所有特征图,第二十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C26;其中,C24、C25、C26各自中的每幅特征图的宽度为高度为
对于第7个神经网络块,第二十七卷积层的输入端接收L2中的所有特征图,第二十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C27;第二十八卷积层的输入端接收C27中的所有特征图,第二十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C28;第二十九卷积层的输入端接收C28中的所有特征图,第二十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C29;其中,C27、C28、C29各自中的每幅特征图的宽度为高度为
对于第8个神经网络块,第三十卷积层的输入端接收L3中的所有特征图,第三十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C30;第三十一卷积层的输入端接收C30中的所有特征图,第三十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C31;其中,C30、C31各自中的每幅特征图的宽度为高度为
对于第4个上采样层,第4个上采样层的输入端接收C31中的所有特征图,第4个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y4;其中,Y4中的每幅特征图的宽度为W、高度为H;
对于第4个级联层,第4个级联层的输入端接收Y4中的所有特征图和C3中的所有特征图,第4个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L4;其中,L4中的每幅特征图的宽度为W、高度为H;
对于第9个神经网络块,第三十二卷积层的输入端接收L4中的所有特征图,第三十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C32;第三十三卷积层的输入端接收C32中的所有特征图,第三十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C33;其中,C32、C33各自中的每幅特征图的宽度为W、高度为H;
对于第10个神经网络块,第三十四卷积层的输入端接收C16中的所有特征图,第三十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C34;第三十五卷积层的输入端接收C34中的所有特征图,第三十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C35;第三十六卷积层的输入端接收C35中的所有特征图,第三十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C36;其中,C34、C35、C36各自中的每幅特征图的宽度为高度为
对于第11个神经网络块,第三十七卷积层的输入端接收L5中的所有特征图,第三十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C37;第三十八卷积层的输入端接收C37中的所有特征图,第三十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C38;第三十九卷积层的输入端接收C38中的所有特征图,第三十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C39;其中,C37、C38、C39各自中的每幅特征图的宽度为高度为
对于第12个神经网络块,第四十卷积层的输入端接收L6中的所有特征图,第四十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C40;第四十一卷积层的输入端接收C40中的所有特征图,第四十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C41;其中,C40、C41各自中的每幅特征图的宽度为高度为
对于第7个上采样层,第7个上采样层的输入端接收C41中的所有特征图,第7个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y7;其中,Y7中的每幅特征图的宽度为W、高度为H;
对于第7个级联层,第7个级联层的输入端接收Y7中的所有特征图和C4中的所有特征图,第7个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L7;其中,L7中的每幅特征图的宽度为W、高度为H;
对于第13个神经网络块,第四十二卷积层的输入端接收L7中的所有特征图,第四十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C42;第四十三卷积层的输入端接收C42中的所有特征图,第四十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C43;其中,C42、C43各自中的每幅特征图的宽度为W、高度为H;
对于第8个级联层,第8个级联层的输入端接收C33中的所有特征图和C43中的所有特征图,第8个级联层的输出端输出128幅特征图,将128幅特征图构成的集合记为L8;其中,L8中的每幅特征图的宽度为W、高度为H;
对于输出层,第四十四卷积层的输入端接收L8中的所有特征图,第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
与现有技术相比,本发明的优点在于:
1)本发明方法将第1个至第9个神经网络块、第1个至第4个上采样层、第1个至第4个级联层构成一个尺度模型,将第10个至第13个神经网络块、第5个至第7个上采样层、第5个至第7个级联层构成另一个尺度模型,采用两个尺度模型学习将来自不同层的多层信息与不同的接受域大小相结合,两个尺度模型的设置减少了冗余性,在数据量上相比现有的FCN等其他模型而言较少的情况下同样能够做到端到端,像素点对像素点的连接,因此相比于传统的基于CNN(卷积神经网络)做分割的网络更加高效,极大增强了创建的卷积神经网络的学习能力,从而能够有效地提升语义分割精度。
2)本发明方法利用了VGG-16网络模型(即设置的13个神经网络块)为基础架构,充分吸收VGG-16网络模型小卷积核及高效性优点,使得每个上采样层输出的特征图即labelmap(标签图片)较为密集,从而使得训练集和测试集的结果均稳定提升,有极强的鲁棒性,因此提高了语义分割精度。
3)本发明方法创建的卷积神经网络中的第1个至第5个神经网络块构成了编码部分,第1个至第7个上采样层、第1个至第8个级联层、第6个至第13个神经网络块构成了解码部分,编码部分和解码部分组成了编解码神经网络体系结构,本发明方法同时考虑了编解码神经网络体系结构和跳跃再融合结构,打破了传统一步到位的模型,同时卷积核在编码部分逐步增加,在解码部分逐渐减少,优化了创建的卷积神经网络的结构对称性,同时跳跃融合域的特征信息增加了deconvolution(反卷积)数据量,防止了创建的卷积神经网络的过拟合,提升了创建的卷积神经网络的效率;同时,与FCN相比,本发明方法在结构上比较大的改动在上采样阶段,打破了其一步到位的上采样模式,本发明方法的上采样层包含了很多层的特征,减少了由于一步到位的上采样模型导致的信息损失,提升了分割结果的精确度;此外,本发明方法只需要一次训练,而FCN需要三次训练。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明方法创建的卷积神经网络的组成结构示意图;
图3a为选取的一幅待语义分割的道路场景图像;
图3b为图3a所示的待语义分割的道路场景图像对应的真实语义分割图像;
图3c为利用本发明方法对图3a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像;
图4a为选取的另一幅待语义分割的道路场景图像;
图4b为图4a所示的待语义分割的道路场景图像对应的真实语义分割图像;
图4c为利用本发明方法对图4a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,如取Q=100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=352、H=480,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的100幅图像。
步骤1_2:构建卷积神经网络:如图2所示,卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2,每个上采样层使输出的特征图的尺寸为输入的特征图的尺寸的2倍。
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为高度为
对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为高度为Z2中的每幅特征图的宽度为高度为
对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有特征图,第三最大池化层的输出端输出256幅特征图,将256幅特征图构成的集合记为Z3;第十二卷积层的输入端接收C11中的所有特征图,第十二卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C12;第十三卷积层的输入端接收C11中的所有特征图,第十三卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C13;其中,C9、C10、C11、C12、C13各自中的每幅特征图的宽度为高度为Z3中的每幅特征图的宽度为高度为
对于第4个神经网络块,第十四卷积层的输入端接收Z3中的所有特征图,第十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C14;第十五卷积层的输入端接收C14中的所有特征图,第十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C15;第十六卷积层的输入端接收C15中的所有特征图,第十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C16;第四最大池化层的输入端接收C16中的所有特征图,第四最大池化层的输出端输出512幅特征图,将512幅特征图构成的集合记为Z4;第十七卷积层的输入端接收C16中的所有特征图,第十七卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C17;其中,C14、C15、C16、C17各自中的每幅特征图的宽度为高度为Z4中的每幅特征图的宽度为高度为
对于第5个神经网络块,第十八卷积层的输入端接收Z4中的所有特征图,第十八卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C18;第十九卷积层的输入端接收C18中的所有特征图,第十九卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C19;第二十卷积层的输入端接收C19中的所有特征图,第二十卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C20;第二十一卷积层的输入端接收C20中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C21;第二十二卷积层的输入端接收C21中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C22;第二十三卷积层的输入端接收C22中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C23;其中,C18、C19、C20、C21、C22、C23各自中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收Y1中的所有特征图和C17中的所有特征图,第1个级联层的输出端输出1024幅特征图,将1024幅特征图构成的集合记为L1;其中,L1中的每幅特征图的宽度为高度为
对于第6个神经网络块,第二十四卷积层的输入端接收L1中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C24;第二十五卷积层的输入端接收C24中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C25;第二十六卷积层的输入端接收C25中的所有特征图,第二十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C26;其中,C24、C25、C26各自中的每幅特征图的宽度为高度为
对于第7个神经网络块,第二十七卷积层的输入端接收L2中的所有特征图,第二十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C27;第二十八卷积层的输入端接收C27中的所有特征图,第二十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C28;第二十九卷积层的输入端接收C28中的所有特征图,第二十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C29;其中,C27、C28、C29各自中的每幅特征图的宽度为高度为
对于第8个神经网络块,第三十卷积层的输入端接收L3中的所有特征图,第三十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C30;第三十一卷积层的输入端接收C30中的所有特征图,第三十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C31;其中,C30、C31各自中的每幅特征图的宽度为高度为
对于第4个上采样层,第4个上采样层的输入端接收C31中的所有特征图,第4个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y4;其中,Y4中的每幅特征图的宽度为W、高度为H。
对于第4个级联层,第4个级联层的输入端接收Y4中的所有特征图和C3中的所有特征图,第4个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L4;其中,L4中的每幅特征图的宽度为W、高度为H。
对于第9个神经网络块,第三十二卷积层的输入端接收L4中的所有特征图,第三十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C32;第三十三卷积层的输入端接收C32中的所有特征图,第三十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C33;其中,C32、C33各自中的每幅特征图的宽度为W、高度为H。
对于第10个神经网络块,第三十四卷积层的输入端接收C16中的所有特征图,第三十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C34;第三十五卷积层的输入端接收C34中的所有特征图,第三十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C35;第三十六卷积层的输入端接收C35中的所有特征图,第三十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C36;其中,C34、C35、C36各自中的每幅特征图的宽度为高度为
对于第11个神经网络块,第三十七卷积层的输入端接收L5中的所有特征图,第三十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C37;第三十八卷积层的输入端接收C37中的所有特征图,第三十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C38;第三十九卷积层的输入端接收C38中的所有特征图,第三十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C39;其中,C37、C38、C39各自中的每幅特征图的宽度为高度为
对于第12个神经网络块,第四十卷积层的输入端接收L6中的所有特征图,第四十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C40;第四十一卷积层的输入端接收C40中的所有特征图,第四十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C41;其中,C40、C41各自中的每幅特征图的宽度为高度为
对于第7个上采样层,第7个上采样层的输入端接收C41中的所有特征图,第7个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y7;其中,Y7中的每幅特征图的宽度为W、高度为H。
对于第7个级联层,第7个级联层的输入端接收Y7中的所有特征图和C4中的所有特征图,第7个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L7;其中,L7中的每幅特征图的宽度为W、高度为H。
对于第13个神经网络块,第四十二卷积层的输入端接收L7中的所有特征图,第四十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C42;第四十三卷积层的输入端接收C42中的所有特征图,第四十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C43;其中,C42、C43各自中的每幅特征图的宽度为W、高度为H。
对于第8个级联层,第8个级联层的输入端接收C33中的所有特征图和C43中的所有特征图,第8个级联层的输出端输出128幅特征图,将128幅特征图构成的集合记为L8;其中,L8中的每幅特征图的宽度为W、高度为H。
对于输出层,第四十四卷积层的输入端接收L8中的所有特征图,第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H。
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为 采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=300。
所述的测试阶段过程的具体步骤为:
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Keras2.1.5搭建卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测得到的道路场景图像的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即像素精度(PixelAccuracy,PA)、均像素精度(Mean Pixel Accuracy,MPA)、均交并比(Mean Intersectionover Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的像素精度PA、均像素精度MPA、均交并比MIoU如表1所列,像素精度PA、均像素精度MPA、均交并比MIoU的值越高,说明有效性和预测准确率越高。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
图3a给出了选取的一幅待语义分割的道路场景图像;图3b给出了图3a所示的待语义分割的道路场景图像对应的真实语义分割图像;图3c给出了利用本发明方法对图3a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像;图4a给出了选取的另一幅待语义分割的道路场景图像;图4b给出了图4a所示的待语义分割的道路场景图像对应的真实语义分割图像;图4c给出了利用本发明方法对图4a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像。对比图3b和图3c,对比图4b和图4c,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高,接近真实语义分割图像。
Claims (2)
1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成,第1个至第5个神经网络块构成编码部分,第1个至第7个上采样层、第1个至第8个级联层、第6个至第13个神经网络块构成解码部分,编码部分和解码部分组成编解码神经网络体系结构;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为高度为
对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为高度为Z2中的每幅特征图的宽度为高度为
对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有特征图,第三最大池化层的输出端输出256幅特征图,将256幅特征图构成的集合记为Z3;第十二卷积层的输入端接收C11中的所有特征图,第十二卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C12;第十三卷积层的输入端接收C11中的所有特征图,第十三卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C13;其中,C9、C10、C11、C12、C13各自中的每幅特征图的宽度为高度为Z3中的每幅特征图的宽度为高度为
对于第4个神经网络块,第十四卷积层的输入端接收Z3中的所有特征图,第十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C14;第十五卷积层的输入端接收C14中的所有特征图,第十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C15;第十六卷积层的输入端接收C15中的所有特征图,第十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C16;第四最大池化层的输入端接收C16中的所有特征图,第四最大池化层的输出端输出512幅特征图,将512幅特征图构成的集合记为Z4;第十七卷积层的输入端接收C16中的所有特征图,第十七卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C17;其中,C14、C15、C16、C17各自中的每幅特征图的宽度为高度为Z4中的每幅特征图的宽度为高度为
对于第5个神经网络块,第十八卷积层的输入端接收Z4中的所有特征图,第十八卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C18;第十九卷积层的输入端接收C18中的所有特征图,第十九卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C19;第二十卷积层的输入端接收C19中的所有特征图,第二十卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C20;第二十一卷积层的输入端接收C20中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C21;第二十二卷积层的输入端接收C21中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C22;第二十三卷积层的输入端接收C22中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C23;其中,C18、C19、C20、C21、C22、C23各自中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收Y1中的所有特征图和C17中的所有特征图,第1个级联层的输出端输出1024幅特征图,将1024幅特征图构成的集合记为L1;其中,L1中的每幅特征图的宽度为高度为
对于第6个神经网络块,第二十四卷积层的输入端接收L1中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C24;第二十五卷积层的输入端接收C24中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C25;第二十六卷积层的输入端接收C25中的所有特征图,第二十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C26;其中,C24、C25、C26各自中的每幅特征图的宽度为高度为
对于第7个神经网络块,第二十七卷积层的输入端接收L2中的所有特征图,第二十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C27;第二十八卷积层的输入端接收C27中的所有特征图,第二十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C28;第二十九卷积层的输入端接收C28中的所有特征图,第二十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C29;其中,C27、C28、C29各自中的每幅特征图的宽度为高度为
对于第8个神经网络块,第三十卷积层的输入端接收L3中的所有特征图,第三十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C30;第三十一卷积层的输入端接收C30中的所有特征图,第三十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C31;其中,C30、C31各自中的每幅特征图的宽度为高度为
对于第4个上采样层,第4个上采样层的输入端接收C31中的所有特征图,第4个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y4;其中,Y4中的每幅特征图的宽度为W、高度为H;
对于第4个级联层,第4个级联层的输入端接收Y4中的所有特征图和C3中的所有特征图,第4个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L4;其中,L4中的每幅特征图的宽度为W、高度为H;
对于第9个神经网络块,第三十二卷积层的输入端接收L4中的所有特征图,第三十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C32;第三十三卷积层的输入端接收C32中的所有特征图,第三十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C33;其中,C32、C33各自中的每幅特征图的宽度为W、高度为H;
对于第10个神经网络块,第三十四卷积层的输入端接收C16中的所有特征图,第三十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C34;第三十五卷积层的输入端接收C34中的所有特征图,第三十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C35;第三十六卷积层的输入端接收C35中的所有特征图,第三十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C36;其中,C34、C35、C36各自中的每幅特征图的宽度为高度为
对于第11个神经网络块,第三十七卷积层的输入端接收L5中的所有特征图,第三十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C37;第三十八卷积层的输入端接收C37中的所有特征图,第三十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C38;第三十九卷积层的输入端接收C38中的所有特征图,第三十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C39;其中,C37、C38、C39各自中的每幅特征图的宽度为高度为
对于第12个神经网络块,第四十卷积层的输入端接收L6中的所有特征图,第四十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C40;第四十一卷积层的输入端接收C40中的所有特征图,第四十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C41;其中,C40、C41各自中的每幅特征图的宽度为高度为
对于第7个上采样层,第7个上采样层的输入端接收C41中的所有特征图,第7个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y7;其中,Y7中的每幅特征图的宽度为W、高度为H;
对于第7个级联层,第7个级联层的输入端接收Y7中的所有特征图和C4中的所有特征图,第7个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L7;其中,L7中的每幅特征图的宽度为W、高度为H;
对于第13个神经网络块,第四十二卷积层的输入端接收L7中的所有特征图,第四十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C42;第四十三卷积层的输入端接收C42中的所有特征图,第四十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C43;其中,C42、C43各自中的每幅特征图的宽度为W、高度为H;
对于第8个级联层,第8个级联层的输入端接收C33中的所有特征图和C43中的所有特征图,第8个级联层的输出端输出128幅特征图,将128幅特征图构成的集合记为L8;其中,L8中的每幅特征图的宽度为W、高度为H;
对于输出层,第四十四卷积层的输入端接收L8中的所有特征图,第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811350718.8A CN109635662B (zh) | 2018-11-14 | 2018-11-14 | 一种基于卷积神经网络的道路场景语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811350718.8A CN109635662B (zh) | 2018-11-14 | 2018-11-14 | 一种基于卷积神经网络的道路场景语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635662A CN109635662A (zh) | 2019-04-16 |
CN109635662B true CN109635662B (zh) | 2022-06-21 |
Family
ID=66067851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811350718.8A Active CN109635662B (zh) | 2018-11-14 | 2018-11-14 | 一种基于卷积神经网络的道路场景语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635662B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112150337B (zh) * | 2019-06-28 | 2024-02-23 | 北京地平线机器人技术研发有限公司 | 图像处理方法、装置以及电子设备 |
CN110728682B (zh) * | 2019-09-09 | 2022-03-29 | 浙江科技学院 | 一种基于残差金字塔池化神经网络的语义分割方法 |
CN110782458B (zh) * | 2019-10-23 | 2022-05-31 | 浙江科技学院 | 一种非对称编码网络的物体图像3d语义预测分割方法 |
CN110782462B (zh) * | 2019-10-30 | 2022-08-09 | 浙江科技学院 | 一种基于双流特征融合的语义分割方法 |
CN111210435B (zh) * | 2019-12-24 | 2022-10-18 | 重庆邮电大学 | 一种基于局部和全局特征增强模块的图像语义分割方法 |
CN111556316B (zh) * | 2020-04-08 | 2022-06-03 | 北京航空航天大学杭州创新研究院 | 一种基于深度神经网络加速的快速块分割编码方法和装置 |
CN111563507B (zh) * | 2020-04-14 | 2024-01-12 | 浙江科技学院 | 一种基于卷积神经网络的室内场景语义分割方法 |
CN114494081B (zh) * | 2022-04-01 | 2022-07-05 | 武汉大学 | 一种无人机遥感测绘图像增强方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN108319972A (zh) * | 2018-01-18 | 2018-07-24 | 南京师范大学 | 一种针对图像语义分割的端到端差异网络学习方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10303979B2 (en) * | 2016-11-16 | 2019-05-28 | Phenomic Ai Inc. | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
US10147193B2 (en) * | 2017-03-10 | 2018-12-04 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (HDC) |
-
2018
- 2018-11-14 CN CN201811350718.8A patent/CN109635662B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956532A (zh) * | 2016-04-25 | 2016-09-21 | 大连理工大学 | 一种基于多尺度卷积神经网络的交通场景分类方法 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN108319972A (zh) * | 2018-01-18 | 2018-07-24 | 南京师范大学 | 一种针对图像语义分割的端到端差异网络学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109635662A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635662B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN111915592B (zh) | 基于深度学习的遥感图像云检测方法 | |
CN112070779A (zh) | 一种基于卷积神经网络弱监督学习的遥感影像道路分割方法 | |
CN105930402A (zh) | 基于卷积神经网络的视频检索方法及系统 | |
CN110490205B (zh) | 基于全残差空洞卷积神经网络的道路场景语义分割方法 | |
CN109635642A (zh) | 一种基于残差网络和扩张卷积的道路场景分割方法 | |
CN110728682A (zh) | 一种基于残差金字塔池化神经网络的语义分割方法 | |
CN107564009B (zh) | 基于深度卷积神经网络的室外场景多目标分割方法 | |
CN109446933B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN109635822B (zh) | 基于深度学习编码译码网络的立体图像视觉显著提取方法 | |
CN111860233B (zh) | 基于选择注意力网络的sar图像复杂建筑物提取方法及系统 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN109508639B (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 | |
CN111898439A (zh) | 基于深度学习的交通场景联合目标检测和语义分割方法 | |
CN110059728A (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN109461177B (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN110782458B (zh) | 一种非对称编码网络的物体图像3d语义预测分割方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN114332094A (zh) | 基于轻量级多尺度信息融合网络的语义分割方法及装置 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |