CN109635662B - 一种基于卷积神经网络的道路场景语义分割方法 - Google Patents

一种基于卷积神经网络的道路场景语义分割方法 Download PDF

Info

Publication number
CN109635662B
CN109635662B CN201811350718.8A CN201811350718A CN109635662B CN 109635662 B CN109635662 B CN 109635662B CN 201811350718 A CN201811350718 A CN 201811350718A CN 109635662 B CN109635662 B CN 109635662B
Authority
CN
China
Prior art keywords
layer
feature maps
convolutional layer
output end
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811350718.8A
Other languages
English (en)
Other versions
CN109635662A (zh
Inventor
周武杰
吕思嘉
袁建中
向坚
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201811350718.8A priority Critical patent/CN109635662B/zh
Publication of CN109635662A publication Critical patent/CN109635662A/zh
Application granted granted Critical
Publication of CN109635662B publication Critical patent/CN109635662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于卷积神经网络的道路场景语义分割方法,其先构建卷积神经网络,包括输入层、隐层和输出层,隐层由13个神经网络块、7个上采样层、8个级联层组成;然后将训练集中的每幅原始的道路场景图像输入到卷积神经网络中进行训练,得到每幅原始的道路场景图像对应的12幅语义分割预测图;接着通过计算每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,得到卷积神经网络分类训练模型的最优权值矢量和最优偏置项;将待语义分割的道路场景图像输入到卷积神经网络分类训练模型中进行预测,得到对应的预测语义分割图像;优点是语义分割精度高。

Description

一种基于卷积神经网络的道路场景语义分割方法
技术领域
本发明涉及一种道路场景语义分割技术,尤其是涉及一种基于卷积神经网络的道路场景语义分割方法。
背景技术
近年来,具有执行计算密集型任务能力的机器的进步使得研究人员能够更深入地挖掘神经网络。卷积神经网络在图像的分类、定位以及场景理解等方面取得了最近的成功。目前,由于增强现实和自动驾驶车辆等任务的激增,因此许多研究人员将注意力转移到场景理解上,其中一个主要步骤就是语义分割,即对所给定的图像中的每一个像素点做分类。语义分割在移动和机器人相关应用中具有重要意义。
当然,目标检测方法可以帮助绘制出某些确定实体的边框,但人类对场景理解能以像素级的精细程度对每一个实体进行检测并标记精确的边界。现在已经开始发展自动驾驶汽车和智能机器人,这些都需要深入理解周围环境,因此精确分割实体变得越来越重要。
深度学习在语义分割、计算机视觉、语音识别、跟踪方面都有极广泛的应用,其极强的高效性也使得它在实时应用等各方面具有巨大的潜力。现如今获取特征的方法主要可以分为两类:使用手动特征的传统方法和针对问题自动学习的深度学习方法,前者通常为了适应新的数据集需要专家相关经验和时间对特征进行调整;后者在物体检测和图像分类等方面的成功鼓舞着研究人员探索此类网络对像素级标记,如语义分割方面的能力。因此,深度学习语义分割方法的研究更高效实用。
经典的语义分割方法有全连接网络(Full Connected Network,FCN),其能够做到端到端,像素点对像素点的连接,而且相比于传统的基于CNN(卷积神经网络)做分割的网络更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题,其是最先进的语义分割方法之一。但它存在很多缺点,首先是训练比较麻烦,需要训练三次才能够得到FCN-8s;其次是对图像的细节不够敏感,这是因为在解码过程,也就是恢复原图像大小的过程中,输入上采样层的label map(标签图片)太稀疏,而且上采样过程就是一个简单的deconvolution(反卷积),因此得到的分割结果还是不精细。
发明内容
本发明所要解决的技术问题是提供一种基于卷积神经网络的道路场景语义分割方法,其语义分割精度高。
本发明解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0001864799220000021
然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure BDA0001864799220000022
处理成的12幅独热编码图像构成的集合记为
Figure BDA0001864799220000023
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0001864799220000031
表示
Figure BDA0001864799220000032
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为
Figure BDA0001864799220000041
高度为
Figure BDA0001864799220000042
对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为
Figure BDA0001864799220000051
高度为
Figure BDA0001864799220000052
Z2中的每幅特征图的宽度为
Figure BDA0001864799220000053
高度为
Figure BDA0001864799220000054
对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有特征图,第三最大池化层的输出端输出256幅特征图,将256幅特征图构成的集合记为Z3;第十二卷积层的输入端接收C11中的所有特征图,第十二卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C12;第十三卷积层的输入端接收C11中的所有特征图,第十三卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C13;其中,C9、C10、C11、C12、C13各自中的每幅特征图的宽度为
Figure BDA0001864799220000055
高度为
Figure BDA0001864799220000056
Z3中的每幅特征图的宽度为
Figure BDA0001864799220000057
高度为
Figure BDA0001864799220000058
对于第4个神经网络块,第十四卷积层的输入端接收Z3中的所有特征图,第十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C14;第十五卷积层的输入端接收C14中的所有特征图,第十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C15;第十六卷积层的输入端接收C15中的所有特征图,第十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C16;第四最大池化层的输入端接收C16中的所有特征图,第四最大池化层的输出端输出512幅特征图,将512幅特征图构成的集合记为Z4;第十七卷积层的输入端接收C16中的所有特征图,第十七卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C17;其中,C14、C15、C16、C17各自中的每幅特征图的宽度为
Figure BDA0001864799220000059
高度为
Figure BDA00018647992200000510
Z4中的每幅特征图的宽度为
Figure BDA0001864799220000061
高度为
Figure BDA0001864799220000062
对于第5个神经网络块,第十八卷积层的输入端接收Z4中的所有特征图,第十八卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C18;第十九卷积层的输入端接收C18中的所有特征图,第十九卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C19;第二十卷积层的输入端接收C19中的所有特征图,第二十卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C20;第二十一卷积层的输入端接收C20中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C21;第二十二卷积层的输入端接收C21中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C22;第二十三卷积层的输入端接收C22中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C23;其中,C18、C19、C20、C21、C22、C23各自中的每幅特征图的宽度为
Figure BDA0001864799220000063
高度为
Figure BDA0001864799220000064
对于第1个上采样层,第1个上采样层的输入端接收C23中的所有特征图,第1个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y1;其中,Y1中的每幅特征图的宽度为
Figure BDA0001864799220000065
高度为
Figure BDA0001864799220000066
对于第1个级联层,第1个级联层的输入端接收Y1中的所有特征图和C17中的所有特征图,第1个级联层的输出端输出1024幅特征图,将1024幅特征图构成的集合记为L1;其中,L1中的每幅特征图的宽度为
Figure BDA0001864799220000067
高度为
Figure BDA0001864799220000068
对于第6个神经网络块,第二十四卷积层的输入端接收L1中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C24;第二十五卷积层的输入端接收C24中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C25;第二十六卷积层的输入端接收C25中的所有特征图,第二十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C26;其中,C24、C25、C26各自中的每幅特征图的宽度为
Figure BDA0001864799220000071
高度为
Figure BDA0001864799220000072
对于第2个上采样层,第2个上采样层的输入端接收C26中的所有特征图,第2个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y2;其中,Y2中的每幅特征图的宽度为
Figure BDA0001864799220000073
高度为
Figure BDA0001864799220000074
对于第2个级联层,第2个级联层的输入端接收Y2中的所有特征图和C12中的所有特征图,第2个级联层的输出端输出768幅特征图,将768幅特征图构成的集合记为L2;其中,L2中的每幅特征图的宽度为
Figure BDA0001864799220000075
高度为
Figure BDA0001864799220000076
对于第7个神经网络块,第二十七卷积层的输入端接收L2中的所有特征图,第二十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C27;第二十八卷积层的输入端接收C27中的所有特征图,第二十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C28;第二十九卷积层的输入端接收C28中的所有特征图,第二十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C29;其中,C27、C28、C29各自中的每幅特征图的宽度为
Figure BDA0001864799220000077
高度为
Figure BDA0001864799220000078
对于第3个上采样层,第3个上采样层的输入端接收C29中的所有特征图,第3个上采样层的输出端输出256幅特征图,将256幅特征图构成的集合记为Y3;其中,Y3中的每幅特征图的宽度为
Figure BDA0001864799220000079
高度为
Figure BDA00018647992200000710
对于第3个级联层,第3个级联层的输入端接收Y3中的所有特征图和C7中的所有特征图,第3个级联层的输出端输出384幅特征图,将384幅特征图构成的集合记为L3;其中,L3中的每幅特征图的宽度为
Figure BDA00018647992200000711
高度为
Figure BDA00018647992200000712
对于第8个神经网络块,第三十卷积层的输入端接收L3中的所有特征图,第三十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C30;第三十一卷积层的输入端接收C30中的所有特征图,第三十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C31;其中,C30、C31各自中的每幅特征图的宽度为
Figure BDA0001864799220000081
高度为
Figure BDA0001864799220000082
对于第4个上采样层,第4个上采样层的输入端接收C31中的所有特征图,第4个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y4;其中,Y4中的每幅特征图的宽度为W、高度为H;
对于第4个级联层,第4个级联层的输入端接收Y4中的所有特征图和C3中的所有特征图,第4个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L4;其中,L4中的每幅特征图的宽度为W、高度为H;
对于第9个神经网络块,第三十二卷积层的输入端接收L4中的所有特征图,第三十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C32;第三十三卷积层的输入端接收C32中的所有特征图,第三十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C33;其中,C32、C33各自中的每幅特征图的宽度为W、高度为H;
对于第10个神经网络块,第三十四卷积层的输入端接收C16中的所有特征图,第三十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C34;第三十五卷积层的输入端接收C34中的所有特征图,第三十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C35;第三十六卷积层的输入端接收C35中的所有特征图,第三十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C36;其中,C34、C35、C36各自中的每幅特征图的宽度为
Figure BDA0001864799220000091
高度为
Figure BDA0001864799220000092
对于第5个上采样层,第5个上采样层的输入端接收C36中的所有特征图,第5个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y5;其中,Y5中的每幅特征图的宽度为
Figure BDA0001864799220000093
高度为
Figure BDA0001864799220000094
对于第5个级联层,第5个级联层的输入端接收Y5中的所有特征图和C13中的所有特征图,第5个级联层的输出端输出768幅特征图,将768幅特征图构成的集合记为L5;其中,L5中的每幅特征图的宽度为
Figure BDA0001864799220000095
高度为
Figure BDA0001864799220000096
对于第11个神经网络块,第三十七卷积层的输入端接收L5中的所有特征图,第三十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C37;第三十八卷积层的输入端接收C37中的所有特征图,第三十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C38;第三十九卷积层的输入端接收C38中的所有特征图,第三十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C39;其中,C37、C38、C39各自中的每幅特征图的宽度为
Figure BDA0001864799220000097
高度为
Figure BDA0001864799220000098
对于第6个上采样层,第6个上采样层的输入端接收C39中的所有特征图,第6个上采样层的输出端输出256幅特征图,将256幅特征图构成的集合记为Y6;其中,Y6中的每幅特征图的宽度为
Figure BDA0001864799220000099
高度为
Figure BDA00018647992200000910
对于第6个级联层,第6个级联层的输入端接收Y6中的所有特征图和C8中的所有特征图,第6个级联层的输出端输出384幅特征图,将384幅特征图构成的集合记为L6;其中,L6中的每幅特征图的宽度为
Figure BDA00018647992200000911
高度为
Figure BDA00018647992200000912
对于第12个神经网络块,第四十卷积层的输入端接收L6中的所有特征图,第四十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C40;第四十一卷积层的输入端接收C40中的所有特征图,第四十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C41;其中,C40、C41各自中的每幅特征图的宽度为
Figure BDA0001864799220000101
高度为
Figure BDA0001864799220000102
对于第7个上采样层,第7个上采样层的输入端接收C41中的所有特征图,第7个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y7;其中,Y7中的每幅特征图的宽度为W、高度为H;
对于第7个级联层,第7个级联层的输入端接收Y7中的所有特征图和C4中的所有特征图,第7个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L7;其中,L7中的每幅特征图的宽度为W、高度为H;
对于第13个神经网络块,第四十二卷积层的输入端接收L7中的所有特征图,第四十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C42;第四十三卷积层的输入端接收C42中的所有特征图,第四十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C43;其中,C42、C43各自中的每幅特征图的宽度为W、高度为H;
对于第8个级联层,第8个级联层的输入端接收C33中的所有特征图和C43中的所有特征图,第8个级联层的输出端输出128幅特征图,将128幅特征图构成的集合记为L8;其中,L8中的每幅特征图的宽度为W、高度为H;
对于输出层,第四十四卷积层的输入端接收L8中的所有特征图,第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure BDA0001864799220000111
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0001864799220000112
Figure BDA0001864799220000113
之间的损失函数值记为
Figure BDA0001864799220000114
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0001864799220000115
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0001864799220000116
的宽度,H'表示
Figure BDA0001864799220000117
的高度,
Figure BDA0001864799220000118
表示
Figure BDA0001864799220000119
中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将
Figure BDA00018647992200001110
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00018647992200001111
对应的预测语义分割图像,记为
Figure BDA00018647992200001112
其中,
Figure BDA00018647992200001113
表示
Figure BDA00018647992200001114
中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_4中,
Figure BDA00018647992200001115
采用分类交叉熵获得。
与现有技术相比,本发明的优点在于:
1)本发明方法将第1个至第9个神经网络块、第1个至第4个上采样层、第1个至第4个级联层构成一个尺度模型,将第10个至第13个神经网络块、第5个至第7个上采样层、第5个至第7个级联层构成另一个尺度模型,采用两个尺度模型学习将来自不同层的多层信息与不同的接受域大小相结合,两个尺度模型的设置减少了冗余性,在数据量上相比现有的FCN等其他模型而言较少的情况下同样能够做到端到端,像素点对像素点的连接,因此相比于传统的基于CNN(卷积神经网络)做分割的网络更加高效,极大增强了创建的卷积神经网络的学习能力,从而能够有效地提升语义分割精度。
2)本发明方法利用了VGG-16网络模型(即设置的13个神经网络块)为基础架构,充分吸收VGG-16网络模型小卷积核及高效性优点,使得每个上采样层输出的特征图即labelmap(标签图片)较为密集,从而使得训练集和测试集的结果均稳定提升,有极强的鲁棒性,因此提高了语义分割精度。
3)本发明方法创建的卷积神经网络中的第1个至第5个神经网络块构成了编码部分,第1个至第7个上采样层、第1个至第8个级联层、第6个至第13个神经网络块构成了解码部分,编码部分和解码部分组成了编解码神经网络体系结构,本发明方法同时考虑了编解码神经网络体系结构和跳跃再融合结构,打破了传统一步到位的模型,同时卷积核在编码部分逐步增加,在解码部分逐渐减少,优化了创建的卷积神经网络的结构对称性,同时跳跃融合域的特征信息增加了deconvolution(反卷积)数据量,防止了创建的卷积神经网络的过拟合,提升了创建的卷积神经网络的效率;同时,与FCN相比,本发明方法在结构上比较大的改动在上采样阶段,打破了其一步到位的上采样模式,本发明方法的上采样层包含了很多层的特征,减少了由于一步到位的上采样模型导致的信息损失,提升了分割结果的精确度;此外,本发明方法只需要一次训练,而FCN需要三次训练。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明方法创建的卷积神经网络的组成结构示意图;
图3a为选取的一幅待语义分割的道路场景图像;
图3b为图3a所示的待语义分割的道路场景图像对应的真实语义分割图像;
图3c为利用本发明方法对图3a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像;
图4a为选取的另一幅待语义分割的道路场景图像;
图4b为图4a所示的待语义分割的道路场景图像对应的真实语义分割图像;
图4c为利用本发明方法对图4a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure BDA0001864799220000131
然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure BDA0001864799220000141
处理成的12幅独热编码图像构成的集合记为
Figure BDA0001864799220000142
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,如取Q=100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=352、H=480,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0001864799220000143
表示
Figure BDA0001864799220000144
中坐标位置为(i,j)的像素点的像素值;在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的100幅图像。
步骤1_2:构建卷积神经网络:如图2所示,卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2,每个上采样层使输出的特征图的尺寸为输入的特征图的尺寸的2倍。
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为
Figure BDA0001864799220000151
高度为
Figure BDA0001864799220000152
对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为
Figure BDA0001864799220000161
高度为
Figure BDA0001864799220000162
Z2中的每幅特征图的宽度为
Figure BDA0001864799220000163
高度为
Figure BDA0001864799220000164
对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有特征图,第三最大池化层的输出端输出256幅特征图,将256幅特征图构成的集合记为Z3;第十二卷积层的输入端接收C11中的所有特征图,第十二卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C12;第十三卷积层的输入端接收C11中的所有特征图,第十三卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C13;其中,C9、C10、C11、C12、C13各自中的每幅特征图的宽度为
Figure BDA0001864799220000165
高度为
Figure BDA0001864799220000166
Z3中的每幅特征图的宽度为
Figure BDA0001864799220000167
高度为
Figure BDA0001864799220000168
对于第4个神经网络块,第十四卷积层的输入端接收Z3中的所有特征图,第十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C14;第十五卷积层的输入端接收C14中的所有特征图,第十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C15;第十六卷积层的输入端接收C15中的所有特征图,第十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C16;第四最大池化层的输入端接收C16中的所有特征图,第四最大池化层的输出端输出512幅特征图,将512幅特征图构成的集合记为Z4;第十七卷积层的输入端接收C16中的所有特征图,第十七卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C17;其中,C14、C15、C16、C17各自中的每幅特征图的宽度为
Figure BDA0001864799220000171
高度为
Figure BDA0001864799220000172
Z4中的每幅特征图的宽度为
Figure BDA0001864799220000173
高度为
Figure BDA0001864799220000174
对于第5个神经网络块,第十八卷积层的输入端接收Z4中的所有特征图,第十八卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C18;第十九卷积层的输入端接收C18中的所有特征图,第十九卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C19;第二十卷积层的输入端接收C19中的所有特征图,第二十卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C20;第二十一卷积层的输入端接收C20中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C21;第二十二卷积层的输入端接收C21中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C22;第二十三卷积层的输入端接收C22中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C23;其中,C18、C19、C20、C21、C22、C23各自中的每幅特征图的宽度为
Figure BDA0001864799220000175
高度为
Figure BDA0001864799220000176
对于第1个上采样层,第1个上采样层的输入端接收C23中的所有特征图,第1个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y1;其中,Y1中的每幅特征图的宽度为
Figure BDA0001864799220000177
高度为
Figure BDA0001864799220000178
对于第1个级联层,第1个级联层的输入端接收Y1中的所有特征图和C17中的所有特征图,第1个级联层的输出端输出1024幅特征图,将1024幅特征图构成的集合记为L1;其中,L1中的每幅特征图的宽度为
Figure BDA0001864799220000179
高度为
Figure BDA00018647992200001710
对于第6个神经网络块,第二十四卷积层的输入端接收L1中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C24;第二十五卷积层的输入端接收C24中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C25;第二十六卷积层的输入端接收C25中的所有特征图,第二十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C26;其中,C24、C25、C26各自中的每幅特征图的宽度为
Figure BDA0001864799220000181
高度为
Figure BDA0001864799220000182
对于第2个上采样层,第2个上采样层的输入端接收C26中的所有特征图,第2个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y2;其中,Y2中的每幅特征图的宽度为
Figure BDA0001864799220000183
高度为
Figure BDA0001864799220000184
对于第2个级联层,第2个级联层的输入端接收Y2中的所有特征图和C12中的所有特征图,第2个级联层的输出端输出768幅特征图,将768幅特征图构成的集合记为L2;其中,L2中的每幅特征图的宽度为
Figure BDA0001864799220000185
高度为
Figure BDA0001864799220000186
对于第7个神经网络块,第二十七卷积层的输入端接收L2中的所有特征图,第二十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C27;第二十八卷积层的输入端接收C27中的所有特征图,第二十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C28;第二十九卷积层的输入端接收C28中的所有特征图,第二十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C29;其中,C27、C28、C29各自中的每幅特征图的宽度为
Figure BDA0001864799220000187
高度为
Figure BDA0001864799220000188
对于第3个上采样层,第3个上采样层的输入端接收C29中的所有特征图,第3个上采样层的输出端输出256幅特征图,将256幅特征图构成的集合记为Y3;其中,Y3中的每幅特征图的宽度为
Figure BDA0001864799220000189
高度为
Figure BDA00018647992200001810
对于第3个级联层,第3个级联层的输入端接收Y3中的所有特征图和C7中的所有特征图,第3个级联层的输出端输出384幅特征图,将384幅特征图构成的集合记为L3;其中,L3中的每幅特征图的宽度为
Figure BDA0001864799220000191
高度为
Figure BDA0001864799220000192
对于第8个神经网络块,第三十卷积层的输入端接收L3中的所有特征图,第三十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C30;第三十一卷积层的输入端接收C30中的所有特征图,第三十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C31;其中,C30、C31各自中的每幅特征图的宽度为
Figure BDA0001864799220000193
高度为
Figure BDA0001864799220000194
对于第4个上采样层,第4个上采样层的输入端接收C31中的所有特征图,第4个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y4;其中,Y4中的每幅特征图的宽度为W、高度为H。
对于第4个级联层,第4个级联层的输入端接收Y4中的所有特征图和C3中的所有特征图,第4个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L4;其中,L4中的每幅特征图的宽度为W、高度为H。
对于第9个神经网络块,第三十二卷积层的输入端接收L4中的所有特征图,第三十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C32;第三十三卷积层的输入端接收C32中的所有特征图,第三十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C33;其中,C32、C33各自中的每幅特征图的宽度为W、高度为H。
对于第10个神经网络块,第三十四卷积层的输入端接收C16中的所有特征图,第三十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C34;第三十五卷积层的输入端接收C34中的所有特征图,第三十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C35;第三十六卷积层的输入端接收C35中的所有特征图,第三十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C36;其中,C34、C35、C36各自中的每幅特征图的宽度为
Figure BDA0001864799220000201
高度为
Figure BDA0001864799220000202
对于第5个上采样层,第5个上采样层的输入端接收C36中的所有特征图,第5个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y5;其中,Y5中的每幅特征图的宽度为
Figure BDA0001864799220000203
高度为
Figure BDA0001864799220000204
对于第5个级联层,第5个级联层的输入端接收Y5中的所有特征图和C13中的所有特征图,第5个级联层的输出端输出768幅特征图,将768幅特征图构成的集合记为L5;其中,L5中的每幅特征图的宽度为
Figure BDA0001864799220000205
高度为
Figure BDA0001864799220000206
对于第11个神经网络块,第三十七卷积层的输入端接收L5中的所有特征图,第三十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C37;第三十八卷积层的输入端接收C37中的所有特征图,第三十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C38;第三十九卷积层的输入端接收C38中的所有特征图,第三十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C39;其中,C37、C38、C39各自中的每幅特征图的宽度为
Figure BDA0001864799220000207
高度为
Figure BDA0001864799220000208
对于第6个上采样层,第6个上采样层的输入端接收C39中的所有特征图,第6个上采样层的输出端输出256幅特征图,将256幅特征图构成的集合记为Y6;其中,Y6中的每幅特征图的宽度为
Figure BDA0001864799220000209
高度为
Figure BDA00018647992200002010
对于第6个级联层,第6个级联层的输入端接收Y6中的所有特征图和C8中的所有特征图,第6个级联层的输出端输出384幅特征图,将384幅特征图构成的集合记为L6;其中,L6中的每幅特征图的宽度为
Figure BDA0001864799220000211
高度为
Figure BDA0001864799220000212
对于第12个神经网络块,第四十卷积层的输入端接收L6中的所有特征图,第四十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C40;第四十一卷积层的输入端接收C40中的所有特征图,第四十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C41;其中,C40、C41各自中的每幅特征图的宽度为
Figure BDA0001864799220000213
高度为
Figure BDA0001864799220000214
对于第7个上采样层,第7个上采样层的输入端接收C41中的所有特征图,第7个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y7;其中,Y7中的每幅特征图的宽度为W、高度为H。
对于第7个级联层,第7个级联层的输入端接收Y7中的所有特征图和C4中的所有特征图,第7个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L7;其中,L7中的每幅特征图的宽度为W、高度为H。
对于第13个神经网络块,第四十二卷积层的输入端接收L7中的所有特征图,第四十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C42;第四十三卷积层的输入端接收C42中的所有特征图,第四十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C43;其中,C42、C43各自中的每幅特征图的宽度为W、高度为H。
对于第8个级联层,第8个级联层的输入端接收C33中的所有特征图和C43中的所有特征图,第8个级联层的输出端输出128幅特征图,将128幅特征图构成的集合记为L8;其中,L8中的每幅特征图的宽度为W、高度为H。
对于输出层,第四十四卷积层的输入端接收L8中的所有特征图,第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H。
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure BDA0001864799220000221
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0001864799220000222
Figure BDA0001864799220000223
之间的损失函数值记为
Figure BDA0001864799220000224
Figure BDA0001864799220000225
采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=300。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0001864799220000226
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0001864799220000227
的宽度,H'表示
Figure BDA0001864799220000228
的高度,
Figure BDA0001864799220000229
表示
Figure BDA00018647992200002210
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA00018647992200002211
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00018647992200002212
对应的预测语义分割图像,记为
Figure BDA00018647992200002213
其中,
Figure BDA00018647992200002214
表示
Figure BDA00018647992200002215
中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Keras2.1.5搭建卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测得到的道路场景图像的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即像素精度(PixelAccuracy,PA)、均像素精度(Mean Pixel Accuracy,MPA)、均交并比(Mean Intersectionover Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的像素精度PA、均像素精度MPA、均交并比MIoU如表1所列,像素精度PA、均像素精度MPA、均交并比MIoU的值越高,说明有效性和预测准确率越高。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
Figure BDA0001864799220000241
图3a给出了选取的一幅待语义分割的道路场景图像;图3b给出了图3a所示的待语义分割的道路场景图像对应的真实语义分割图像;图3c给出了利用本发明方法对图3a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像;图4a给出了选取的另一幅待语义分割的道路场景图像;图4b给出了图4a所示的待语义分割的道路场景图像对应的真实语义分割图像;图4c给出了利用本发明方法对图4a所示的待语义分割的道路场景图像进行预测,得到的预测语义分割图像。对比图3b和图3c,对比图4b和图4c,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高,接近真实语义分割图像。

Claims (2)

1.一种基于卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为
Figure FDA0003504604590000011
然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将
Figure FDA0003504604590000012
处理成的12幅独热编码图像构成的集合记为
Figure FDA0003504604590000013
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥100,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure FDA0003504604590000014
表示
Figure FDA0003504604590000015
中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层由13个神经网络块、7个上采样层、8个级联层组成,第1个至第5个神经网络块构成编码部分,第1个至第7个上采样层、第1个至第8个级联层、第6个至第13个神经网络块构成解码部分,编码部分和解码部分组成编解码神经网络体系结构;第1个神经网络块由第一卷积层、第二卷积层、第一最大池化层、第三卷积层、第四卷积层组成,第2个神经网络块由第五卷积层、第六卷积层、第二最大池化层、第七卷积层、第八卷积层组成,第3个神经网络块由第九卷积层、第十卷积层、第十一卷积层、第三最大池化层、第十二卷积层、第十三卷积层组成,第4个神经网络块由第十四卷积层、第十五卷积层、第十六卷积层、第四最大池化层、第十七卷积层组成,第5个神经网络块由第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层组成,第6个神经网络块由第二十四卷积层、第二十五卷积层、第二十六卷积层组成,第7个神经网络块由第二十七卷积层、第二十八卷积层、第二十九卷积层组成,第8个神经网络块由第三十卷积层、第三十一卷积层组成,第9个神经网络块由第三十二卷积层、第三十三卷积层组成,第10个神经网络块由第三十四卷积层、第三十五卷积层、第三十六卷积层组成,第11个神经网络块由第三十七卷积层、第三十八卷积层、第三十九卷积层组成,第12个神经网络块由第四十卷积层、第四十一卷积层组成,第13个神经网络块由第四十二卷积层、第四十三卷积层组成;输出层由第四十四卷积层组成;其中,第一卷积层至第四十四卷积层各自的卷积核大小为3×3,第一最大池化层至第四最大池化层各自的池化步长为2,7个上采样层各自的上采样步长为2;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,第一卷积层的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第一卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C1;第二卷积层的输入端接收C1中的所有特征图,第二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C2;第一最大池化层的输入端接收C2中的所有特征图,第一最大池化层的输出端输出64幅特征图,将64幅特征图构成的集合记为Z1;第三卷积层的输入端接收C2中的所有特征图,第三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C3;第四卷积层的输入端接收C2中的所有特征图,第四卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C4;其中,C1、C2、C3、C4各自中的每幅特征图的宽度为W、高度为H,Z1中的每幅特征图的宽度为
Figure FDA0003504604590000031
高度为
Figure FDA0003504604590000032
对于第2个神经网络块,第五卷积层的输入端接收Z1中的所有特征图,第五卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C5;第六卷积层的输入端接收C5中的所有特征图,第六卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;第二最大池化层的输入端接收C6中的所有特征图,第二最大池化层的输出端输出128幅特征图,将128幅特征图构成的集合记为Z2;第七卷积层的输入端接收C6中的所有特征图,第七卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C7;第八卷积层的输入端接收C6中的所有特征图,第八卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C8;其中,C5、C6、C7、C8各自中的每幅特征图的宽度为
Figure FDA0003504604590000033
高度为
Figure FDA0003504604590000034
Z2中的每幅特征图的宽度为
Figure FDA0003504604590000035
高度为
Figure FDA0003504604590000036
对于第3个神经网络块,第九卷积层的输入端接收Z2中的所有特征图,第九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C9;第十卷积层的输入端接收C9中的所有特征图,第十卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C10;第十一卷积层的输入端接收C10中的所有特征图,第十一卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C11;第三最大池化层的输入端接收C11中的所有特征图,第三最大池化层的输出端输出256幅特征图,将256幅特征图构成的集合记为Z3;第十二卷积层的输入端接收C11中的所有特征图,第十二卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C12;第十三卷积层的输入端接收C11中的所有特征图,第十三卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C13;其中,C9、C10、C11、C12、C13各自中的每幅特征图的宽度为
Figure FDA0003504604590000041
高度为
Figure FDA0003504604590000042
Z3中的每幅特征图的宽度为
Figure FDA0003504604590000043
高度为
Figure FDA0003504604590000044
对于第4个神经网络块,第十四卷积层的输入端接收Z3中的所有特征图,第十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C14;第十五卷积层的输入端接收C14中的所有特征图,第十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C15;第十六卷积层的输入端接收C15中的所有特征图,第十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C16;第四最大池化层的输入端接收C16中的所有特征图,第四最大池化层的输出端输出512幅特征图,将512幅特征图构成的集合记为Z4;第十七卷积层的输入端接收C16中的所有特征图,第十七卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C17;其中,C14、C15、C16、C17各自中的每幅特征图的宽度为
Figure FDA0003504604590000045
高度为
Figure FDA0003504604590000046
Z4中的每幅特征图的宽度为
Figure FDA0003504604590000047
高度为
Figure FDA0003504604590000048
对于第5个神经网络块,第十八卷积层的输入端接收Z4中的所有特征图,第十八卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C18;第十九卷积层的输入端接收C18中的所有特征图,第十九卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C19;第二十卷积层的输入端接收C19中的所有特征图,第二十卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C20;第二十一卷积层的输入端接收C20中的所有特征图,第二十一卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C21;第二十二卷积层的输入端接收C21中的所有特征图,第二十二卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C22;第二十三卷积层的输入端接收C22中的所有特征图,第二十三卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C23;其中,C18、C19、C20、C21、C22、C23各自中的每幅特征图的宽度为
Figure FDA0003504604590000051
高度为
Figure FDA0003504604590000052
对于第1个上采样层,第1个上采样层的输入端接收C23中的所有特征图,第1个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y1;其中,Y1中的每幅特征图的宽度为
Figure FDA0003504604590000053
高度为
Figure FDA0003504604590000054
对于第1个级联层,第1个级联层的输入端接收Y1中的所有特征图和C17中的所有特征图,第1个级联层的输出端输出1024幅特征图,将1024幅特征图构成的集合记为L1;其中,L1中的每幅特征图的宽度为
Figure FDA0003504604590000055
高度为
Figure FDA0003504604590000056
对于第6个神经网络块,第二十四卷积层的输入端接收L1中的所有特征图,第二十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C24;第二十五卷积层的输入端接收C24中的所有特征图,第二十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C25;第二十六卷积层的输入端接收C25中的所有特征图,第二十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C26;其中,C24、C25、C26各自中的每幅特征图的宽度为
Figure FDA0003504604590000057
高度为
Figure FDA0003504604590000058
对于第2个上采样层,第2个上采样层的输入端接收C26中的所有特征图,第2个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y2;其中,Y2中的每幅特征图的宽度为
Figure FDA0003504604590000059
高度为
Figure FDA00035046045900000510
对于第2个级联层,第2个级联层的输入端接收Y2中的所有特征图和C12中的所有特征图,第2个级联层的输出端输出768幅特征图,将768幅特征图构成的集合记为L2;其中,L2中的每幅特征图的宽度为
Figure FDA00035046045900000511
高度为
Figure FDA00035046045900000512
对于第7个神经网络块,第二十七卷积层的输入端接收L2中的所有特征图,第二十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C27;第二十八卷积层的输入端接收C27中的所有特征图,第二十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C28;第二十九卷积层的输入端接收C28中的所有特征图,第二十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C29;其中,C27、C28、C29各自中的每幅特征图的宽度为
Figure FDA0003504604590000061
高度为
Figure FDA0003504604590000062
对于第3个上采样层,第3个上采样层的输入端接收C29中的所有特征图,第3个上采样层的输出端输出256幅特征图,将256幅特征图构成的集合记为Y3;其中,Y3中的每幅特征图的宽度为
Figure FDA0003504604590000063
高度为
Figure FDA0003504604590000064
对于第3个级联层,第3个级联层的输入端接收Y3中的所有特征图和C7中的所有特征图,第3个级联层的输出端输出384幅特征图,将384幅特征图构成的集合记为L3;其中,L3中的每幅特征图的宽度为
Figure FDA0003504604590000065
高度为
Figure FDA0003504604590000066
对于第8个神经网络块,第三十卷积层的输入端接收L3中的所有特征图,第三十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C30;第三十一卷积层的输入端接收C30中的所有特征图,第三十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C31;其中,C30、C31各自中的每幅特征图的宽度为
Figure FDA0003504604590000067
高度为
Figure FDA0003504604590000068
对于第4个上采样层,第4个上采样层的输入端接收C31中的所有特征图,第4个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y4;其中,Y4中的每幅特征图的宽度为W、高度为H;
对于第4个级联层,第4个级联层的输入端接收Y4中的所有特征图和C3中的所有特征图,第4个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L4;其中,L4中的每幅特征图的宽度为W、高度为H;
对于第9个神经网络块,第三十二卷积层的输入端接收L4中的所有特征图,第三十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C32;第三十三卷积层的输入端接收C32中的所有特征图,第三十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C33;其中,C32、C33各自中的每幅特征图的宽度为W、高度为H;
对于第10个神经网络块,第三十四卷积层的输入端接收C16中的所有特征图,第三十四卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C34;第三十五卷积层的输入端接收C34中的所有特征图,第三十五卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C35;第三十六卷积层的输入端接收C35中的所有特征图,第三十六卷积层的输出端输出512幅特征图,将512幅特征图构成的集合记为C36;其中,C34、C35、C36各自中的每幅特征图的宽度为
Figure FDA0003504604590000071
高度为
Figure FDA0003504604590000072
对于第5个上采样层,第5个上采样层的输入端接收C36中的所有特征图,第5个上采样层的输出端输出512幅特征图,将512幅特征图构成的集合记为Y5;其中,Y5中的每幅特征图的宽度为
Figure FDA0003504604590000073
高度为
Figure FDA0003504604590000074
对于第5个级联层,第5个级联层的输入端接收Y5中的所有特征图和C13中的所有特征图,第5个级联层的输出端输出768幅特征图,将768幅特征图构成的集合记为L5;其中,L5中的每幅特征图的宽度为
Figure FDA0003504604590000075
高度为
Figure FDA0003504604590000076
对于第11个神经网络块,第三十七卷积层的输入端接收L5中的所有特征图,第三十七卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C37;第三十八卷积层的输入端接收C37中的所有特征图,第三十八卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C38;第三十九卷积层的输入端接收C38中的所有特征图,第三十九卷积层的输出端输出256幅特征图,将256幅特征图构成的集合记为C39;其中,C37、C38、C39各自中的每幅特征图的宽度为
Figure FDA0003504604590000081
高度为
Figure FDA0003504604590000082
对于第6个上采样层,第6个上采样层的输入端接收C39中的所有特征图,第6个上采样层的输出端输出256幅特征图,将256幅特征图构成的集合记为Y6;其中,Y6中的每幅特征图的宽度为
Figure FDA0003504604590000083
高度为
Figure FDA0003504604590000084
对于第6个级联层,第6个级联层的输入端接收Y6中的所有特征图和C8中的所有特征图,第6个级联层的输出端输出384幅特征图,将384幅特征图构成的集合记为L6;其中,L6中的每幅特征图的宽度为
Figure FDA0003504604590000085
高度为
Figure FDA0003504604590000086
对于第12个神经网络块,第四十卷积层的输入端接收L6中的所有特征图,第四十卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C40;第四十一卷积层的输入端接收C40中的所有特征图,第四十一卷积层的输出端输出128幅特征图,将128幅特征图构成的集合记为C41;其中,C40、C41各自中的每幅特征图的宽度为
Figure FDA0003504604590000087
高度为
Figure FDA0003504604590000088
对于第7个上采样层,第7个上采样层的输入端接收C41中的所有特征图,第7个上采样层的输出端输出128幅特征图,将128幅特征图构成的集合记为Y7;其中,Y7中的每幅特征图的宽度为W、高度为H;
对于第7个级联层,第7个级联层的输入端接收Y7中的所有特征图和C4中的所有特征图,第7个级联层的输出端输出192幅特征图,将192幅特征图构成的集合记为L7;其中,L7中的每幅特征图的宽度为W、高度为H;
对于第13个神经网络块,第四十二卷积层的输入端接收L7中的所有特征图,第四十二卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C42;第四十三卷积层的输入端接收C42中的所有特征图,第四十三卷积层的输出端输出64幅特征图,将64幅特征图构成的集合记为C43;其中,C42、C43各自中的每幅特征图的宽度为W、高度为H;
对于第8个级联层,第8个级联层的输入端接收C33中的所有特征图和C43中的所有特征图,第8个级联层的输出端输出128幅特征图,将128幅特征图构成的集合记为L8;其中,L8中的每幅特征图的宽度为W、高度为H;
对于输出层,第四十四卷积层的输入端接收L8中的所有特征图,第四十四卷积层的输出端输出12幅与原始输入图像对应的语义分割预测图;其中,每幅语义分割预测图的宽度为W、高度为H;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
Figure FDA0003504604590000091
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将
Figure FDA0003504604590000092
Figure FDA0003504604590000093
之间的损失函数值记为
Figure FDA0003504604590000094
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure FDA0003504604590000101
表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure FDA0003504604590000102
的宽度,H'表示
Figure FDA0003504604590000103
的高度,
Figure FDA0003504604590000104
表示
Figure FDA0003504604590000105
中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将
Figure FDA0003504604590000106
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure FDA0003504604590000107
对应的预测语义分割图像,记为
Figure FDA0003504604590000108
其中,
Figure FDA0003504604590000109
表示
Figure FDA00035046045900001010
中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的一种基于卷积神经网络的道路场景语义分割方法,其特征在于所述的步骤1_4中,
Figure FDA00035046045900001011
采用分类交叉熵获得。
CN201811350718.8A 2018-11-14 2018-11-14 一种基于卷积神经网络的道路场景语义分割方法 Active CN109635662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811350718.8A CN109635662B (zh) 2018-11-14 2018-11-14 一种基于卷积神经网络的道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811350718.8A CN109635662B (zh) 2018-11-14 2018-11-14 一种基于卷积神经网络的道路场景语义分割方法

Publications (2)

Publication Number Publication Date
CN109635662A CN109635662A (zh) 2019-04-16
CN109635662B true CN109635662B (zh) 2022-06-21

Family

ID=66067851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811350718.8A Active CN109635662B (zh) 2018-11-14 2018-11-14 一种基于卷积神经网络的道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN109635662B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150337B (zh) * 2019-06-28 2024-02-23 北京地平线机器人技术研发有限公司 图像处理方法、装置以及电子设备
CN110728682B (zh) * 2019-09-09 2022-03-29 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110782458B (zh) * 2019-10-23 2022-05-31 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462B (zh) * 2019-10-30 2022-08-09 浙江科技学院 一种基于双流特征融合的语义分割方法
CN111210435B (zh) * 2019-12-24 2022-10-18 重庆邮电大学 一种基于局部和全局特征增强模块的图像语义分割方法
CN111556316B (zh) * 2020-04-08 2022-06-03 北京航空航天大学杭州创新研究院 一种基于深度神经网络加速的快速块分割编码方法和装置
CN111563507B (zh) * 2020-04-14 2024-01-12 浙江科技学院 一种基于卷积神经网络的室内场景语义分割方法
CN114494081B (zh) * 2022-04-01 2022-07-05 武汉大学 一种无人机遥感测绘图像增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN108319972A (zh) * 2018-01-18 2018-07-24 南京师范大学 一种针对图像语义分割的端到端差异网络学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303979B2 (en) * 2016-11-16 2019-05-28 Phenomic Ai Inc. System and method for classifying and segmenting microscopy images with deep multiple instance learning
US10147193B2 (en) * 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956532A (zh) * 2016-04-25 2016-09-21 大连理工大学 一种基于多尺度卷积神经网络的交通场景分类方法
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN108319972A (zh) * 2018-01-18 2018-07-24 南京师范大学 一种针对图像语义分割的端到端差异网络学习方法

Also Published As

Publication number Publication date
CN109635662A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN111915592B (zh) 基于深度学习的遥感图像云检测方法
CN112070779A (zh) 一种基于卷积神经网络弱监督学习的遥感影像道路分割方法
CN105930402A (zh) 基于卷积神经网络的视频检索方法及系统
CN110490205B (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN109635642A (zh) 一种基于残差网络和扩张卷积的道路场景分割方法
CN110728682A (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN107564009B (zh) 基于深度卷积神经网络的室外场景多目标分割方法
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN114943963A (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN109635822B (zh) 基于深度学习编码译码网络的立体图像视觉显著提取方法
CN111860233B (zh) 基于选择注意力网络的sar图像复杂建筑物提取方法及系统
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN111898439A (zh) 基于深度学习的交通场景联合目标检测和语义分割方法
CN110059728A (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN114332094A (zh) 基于轻量级多尺度信息融合网络的语义分割方法及装置
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant