CN109508639A - 基于多尺度带孔卷积神经网络的道路场景语义分割方法 - Google Patents

基于多尺度带孔卷积神经网络的道路场景语义分割方法 Download PDF

Info

Publication number
CN109508639A
CN109508639A CN201811186784.6A CN201811186784A CN109508639A CN 109508639 A CN109508639 A CN 109508639A CN 201811186784 A CN201811186784 A CN 201811186784A CN 109508639 A CN109508639 A CN 109508639A
Authority
CN
China
Prior art keywords
width
layer
neural network
characteristic patterns
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811186784.6A
Other languages
English (en)
Other versions
CN109508639B (zh
Inventor
周武杰
顾鹏笠
潘婷
吕思嘉
钱亚冠
向坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201811186784.6A priority Critical patent/CN109508639B/zh
Publication of CN109508639A publication Critical patent/CN109508639A/zh
Application granted granted Critical
Publication of CN109508639B publication Critical patent/CN109508639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其在训练阶段,构建多尺度带孔卷积神经网络,其隐层包括9个神经网络块、5个级联层、6个上采样块;使用原始的道路场景图像输入到多尺度带孔卷积神经网络中进行训练,得到对应的12幅语义分割预测图;再通过计算原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,获得多尺度带孔卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待分割的道路场景图像输入到多尺度带孔卷积神经网络分类训练模型中,得到预测语义分割图像;优点是提高了道路场景图像的语义分割效率和准确度。

Description

基于多尺度带孔卷积神经网络的道路场景语义分割方法
技术领域
本发明涉及一种深度学习的语义分割方法,尤其是涉及一种基于多尺度带孔卷积神经网络的道路场景语义分割方法。
背景技术
随着智能交通行业的快速发展,道路场景理解在辅助驾驶和无人驾驶系统的智能交通中得到了越来越广泛的应用。自动驾驶中最具挑战的任务之一是道路场景理解,包括计算机视觉任务下的车道检测和语义分割。车道检测帮助指导车辆,语义分割提供更多关于周围环境目标的细节位置。语义分割是计算机视觉的一个重要方向,其本质是对图像进行像素级别的分类,应用在道路场景理解中就是将图像中包括道路、汽车、行人等等类别的目标分割出来。
目前,语义分割的方法分为两种,一种是以传统机器学习方式进行的,以归一化分割(Normalized cut,N-cut)为代表,其核心思想是根据像素间的权重关系给出阈值将图像划分;另一种是以深度学习方式进行的,以全卷积神经网络为代表,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集中得到相较于传统机器学习方式更好的分割效果。得益于强大的学习表示能力,卷积神经网络使语义分割研究方向有了新进展,但依然很难处理外形较复杂物体的分割。传统的卷积神经网络,任意层接收上层的数据作输入,再作卷积并加激活传给下一层,是以单一直线型流程执行的。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些部分具体的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好,有利于提高分割效果。
现有的道路场景语义分割方法大多采用深度学习的方法,其利用卷积层与池化层相结合的方式,然而池化层通过缩小分辨率来获取较大的感知域,损失分辨率从而会导致得到的图像的特征信息减少,最终导致还原的边缘信息比较粗糙,分割精度低。
发明内容
本发明所要解决的技术问题是提供一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其能够充分考虑到道路场景图像多种特征对场景理解的影响,利用多尺度与带孔卷积相结合的方式,以扩大感知域,得到更多图像的特征信息,从而提高了道路场景图像的语义分割效率和准确度。
本发明解决上述技术问题所采用的技术方案为:一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建多尺度带孔卷积神经网络:多尺度带孔卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个级联层、第6个神经网络块、第1个上采样块、第2个级联层、第7个神经网络块、第2个上采样块、第3个级联层、第8个神经网络块、第3个上采样块、第4个级联层、第9个神经网络块、第4个上采样块、第5个上采样块、第6个上采样块、第5个级联层;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,其由依次设置的卷积层、批规范化层、激活层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P1中的每幅特征图的宽度为W、高度为H;
对于第2个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P2中的每幅特征图的宽度为高度为
对于第3个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P3中的每幅特征图的宽度为高度为
对于第4个神经网络块,其由依次设置的最大池化层、丢弃层、卷积层、批规范化层、激活层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,P4中的每幅特征图的宽度为高度为
对于第5个神经网络块,其由依次设置的最大池化层、丢弃层、上采样层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,上采样层的尺寸为2,P5中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收P4中的所有特征图和P5中的所有特征图,第1个级联层通过Concatence方式连接P4和P5得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为1024,U1中的每幅特征图的宽度为高度为
对于第6个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第6个神经网络块的输入端接收U1中的所有特征图,第6个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P6;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P6中的每幅特征图的宽度为高度为
对于第1个上采样块,其由上采样层组成;第1个上采样块的输入端接收P6中的所有特征图,第1个上采样块的输出端输出512幅特征图,将512幅特征图构成的集合记为C1;其中,上采样层的尺寸为2,C1中的每幅特征图的宽度为高度为
对于第2个级联层,第2个级联层的输入端接收P3中的所有特征图和C1中的所有特征图,第2个级联层通过Concatence方式连接P3和C1得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为768,U2中的每幅特征图的宽度为高度为
对于第7个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第7个神经网络块的输入端接收U2中的所有特征图,第7个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P7;其中,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P7中的每幅特征图的宽度为高度为
对于第2个上采样块,其由上采样层组成;第2个上采样块的输入端接收P7中的所有特征图,第2个上采样块的输出端输出256幅特征图,将256幅特征图构成的集合记为C2;其中,上采样层的尺寸为2,C2中的每幅特征图的宽度为高度为
对于第3个级联层,第3个级联层的输入端接收P2中的所有特征图和C2中的所有特征图,第3个级联层通过Concatence方式连接P2和C2得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为384,U3中的每幅特征图的宽度为高度为
对于第8个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第8个神经网络块的输入端接收U3中的所有特征图,第8个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P8;其中,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P8中的每幅特征图的宽度为高度为
对于第3个上采样块,其由上采样层组成;第3个上采样块的输入端接收P8中的所有特征图,第3个上采样块的输出端输出128幅特征图,将128幅特征图构成的集合记为C3;其中,上采样层的尺寸为2,C3中的每幅特征图的宽度为W、高度为H;
对于第4个级联层,第4个级联层的输入端接收P1中的所有特征图和C3中的所有特征图,第4个级联层通过Concatence方式连接P1和C3得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为192,U4中的每幅特征图的宽度为W、高度为H;
对于第9个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第9个神经网络块的输入端接收U4中的所有特征图,第9个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P9;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P9中的每幅特征图的宽度为W、高度为H;
对于第4个上采样块,其由上采样层组成;第4个上采样块的输入端接收P6中的所有特征图,第4个上采样块的输出端输出512幅特征图,将512幅特征图构成的集合记为C4;其中,上采样层的尺寸为8,C4中的每幅特征图的宽度为W、高度为H;
对于第5个上采样块,其由上采样层组成;第5个上采样块的输入端接收P7中的所有特征图,第5个上采样块的输出端输出256幅特征图,将256幅特征图构成的集合记为C5;其中,上采样层的尺寸为4,C5中的每幅特征图的宽度为W、高度为H;
对于第6个上采样块,其由上采样层组成;第6个上采样块的输入端接收P8中的所有特征图,第6个上采样块的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;其中,上采样层的尺寸为2,C6中的每幅特征图的宽度为W、高度为H;
对于第5个级联层,第5个级联层的输入端接收P9中的所有特征图、C4中的所有特征图、C5中的所有特征图和C6中的所有特征图,第5个级联层通过Concatence方式连接P9、C4、C5和C6得到集合U5,第5个级联层的输出端输出U5;其中,U5中包含的特征图的总幅数为960,U5中的每幅特征图的宽度为W、高度为H;
对于输出层,其包括卷积层,其中,卷积层的卷积核大小为1×1、卷积核个数为12,卷积层的补零参数为“valid”,卷积层的激活方式为“softmax”;输出层的输入端接收U5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到多尺度带孔卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到多尺度带孔卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为多尺度带孔卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到多尺度带孔卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
所述的步骤1_4中,采用分类交叉熵获得。
与现有技术相比,本发明的优点在于:
1)本发明方法对构建的多尺度带孔卷积神经网络,用训练集中的道路场景图像输入到多尺度带孔卷积神经网络中进行训练,得到多尺度带孔卷积神经网络分类训练模型;再将待语义分割的道路场景图像输入到多尺度带孔卷积神经网络分类训练模型中,预测得到道路场景图像对应的预测语义分割图像,由于本发明方法结合了道路场景图像的多尺度与带孔卷积特征,而这些特征能够比较准确地描述道路中各种分类目标,因此能够有效地提高道路场景图像的语义分割精确度,且由于带孔卷积能扩大感知域,因此可得到更多图像的特征信息,从而能提高道路场景图像的语义分割效率和准确度。
2)本发明方法采用批规范化层,使得多尺度带孔卷积神经网络能加速收敛,减少多尺度带孔卷积神经网络训练对初始化的依赖。
3)本发明方法在搭建多尺度带孔卷积神经网络中的较深的卷积层中使用丢弃层,防止了多尺度带孔卷积神经网络过拟合,进而在训练集与测试集上都能得到较好的效果。
附图说明
图1为本发明方法的总体实现框图;
图2a为第1幅原始的道路场景图像;
图2b为利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图3a为第2幅原始的道路场景图像;
图3b为利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图4a为第3幅原始的道路场景图像;
图4b为利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;
图5a为第4幅原始的道路场景图像;
图5b为利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,如取Q=367,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=480、H=360,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;在此,原始的道路场景图像直接选用道路场景图像数据库CamVid训练集中的367幅图像。
步骤1_2:构建多尺度带孔卷积神经网络:多尺度带孔卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个级联层、第6个神经网络块、第1个上采样块、第2个级联层、第7个神经网络块、第2个上采样块、第3个级联层、第8个神经网络块、第3个上采样块、第4个级联层、第9个神经网络块、第4个上采样块、第5个上采样块、第6个上采样块、第5个级联层。
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
对于第1个神经网络块,其由依次设置的卷积层(Convolution,Conv)、批规范化层(Batch Normalization,BN)、激活层(Activation,Act)组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,卷积层的卷积核大小(kernel_size)为3×3、卷积核个数(filters)为64,卷积层的补零(padding)参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P1中的每幅特征图的宽度为W、高度为H。
对于第2个神经网络块,其由依次设置的最大池化层(Maxpooling,Pool)、卷积层、批规范化层、激活层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,最大池化层的池化尺寸(pool_size)为2,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P2中的每幅特征图的宽度为高度为
对于第3个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P3中的每幅特征图的宽度为高度为
对于第4个神经网络块,其由依次设置的最大池化层、丢弃层(Dropout,Drop)、卷积层、批规范化层、激活层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率(rate)为0.5,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数(dilation_rate)为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,P4中的每幅特征图的宽度为高度为
对于第5个神经网络块,其由依次设置的最大池化层、丢弃层、上采样层(Upsampling,Up)组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率(rate)为0.5,上采样层的尺寸(size)为2,P5中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收P4中的所有特征图和P5中的所有特征图,第1个级联层通过现有的Concatence方式连接P4和P5得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为1024(512+512=1024),U1中的每幅特征图的宽度为高度为
对于第6个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第6个神经网络块的输入端接收U1中的所有特征图,第6个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P6;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P6中的每幅特征图的宽度为高度为
对于第1个上采样块,其由上采样层组成;第1个上采样块的输入端接收P6中的所有特征图,第1个上采样块的输出端输出512幅特征图,将512幅特征图构成的集合记为C1;其中,上采样层的尺寸为2,C1中的每幅特征图的宽度为高度为
对于第2个级联层,第2个级联层的输入端接收P3中的所有特征图和C1中的所有特征图,第2个级联层通过现有的Concatence方式连接P3和C1得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为768(256+512=768),U2中的每幅特征图的宽度为高度为
对于第7个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第7个神经网络块的输入端接收U2中的所有特征图,第7个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P7;其中,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P7中的每幅特征图的宽度为高度为
对于第2个上采样块,其由上采样层组成;第2个上采样块的输入端接收P7中的所有特征图,第2个上采样块的输出端输出256幅特征图,将256幅特征图构成的集合记为C2;其中,上采样层的尺寸为2,C2中的每幅特征图的宽度为高度为
对于第3个级联层,第3个级联层的输入端接收P2中的所有特征图和C2中的所有特征图,第3个级联层通过现有的Concatence方式连接P2和C2得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为384(128+256=384),U3中的每幅特征图的宽度为高度为
对于第8个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第8个神经网络块的输入端接收U3中的所有特征图,第8个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P8;其中,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P8中的每幅特征图的宽度为高度为
对于第3个上采样块,其由上采样层组成;第3个上采样块的输入端接收P8中的所有特征图,第3个上采样块的输出端输出128幅特征图,将128幅特征图构成的集合记为C3;其中,上采样层的尺寸为2,C3中的每幅特征图的宽度为W、高度为H。
对于第4个级联层,第4个级联层的输入端接收P1中的所有特征图和C3中的所有特征图,第4个级联层通过现有的Concatence方式连接P1和C3得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为192(64+128=192),U4中的每幅特征图的宽度为W、高度为H。
对于第9个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第9个神经网络块的输入端接收U4中的所有特征图,第9个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P9;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P9中的每幅特征图的宽度为W、高度为H。
对于第4个上采样块,其由上采样层组成;第4个上采样块的输入端接收P6中的所有特征图,第4个上采样块的输出端输出512幅特征图,将512幅特征图构成的集合记为C4;其中,上采样层的尺寸为8,C4中的每幅特征图的宽度为W、高度为H。
对于第5个上采样块,其由上采样层组成;第5个上采样块的输入端接收P7中的所有特征图,第5个上采样块的输出端输出256幅特征图,将256幅特征图构成的集合记为C5;其中,上采样层的尺寸为4,C5中的每幅特征图的宽度为W、高度为H。
对于第6个上采样块,其由上采样层组成;第6个上采样块的输入端接收P8中的所有特征图,第6个上采样块的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;其中,上采样层的尺寸为2,C6中的每幅特征图的宽度为W、高度为H。
对于第5个级联层,第5个级联层的输入端接收P9中的所有特征图、C4中的所有特征图、C5中的所有特征图和C6中的所有特征图,第5个级联层通过现有的Concatence方式连接P9、C4、C5和C6得到集合U5,第5个级联层的输出端输出U5;其中,U5中包含的特征图的总幅数为960(64+512+256+128=960),U5中的每幅特征图的宽度为W、高度为H。
对于输出层,其包括卷积层,其中,卷积层的卷积核大小为1×1、卷积核个数为12,卷积层的补零参数为“valid”,卷积层的激活方式(activation)为“softmax”;输出层的输入端接收U5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图。
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到多尺度带孔卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将之间的损失函数值记为采用分类交叉熵(categorical crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到多尺度带孔卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为多尺度带孔卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=200。
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到多尺度带孔卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Keras2.1.5搭建多尺度带孔卷积神经网络的架构。采用道路场景图像数据库CamVid测试集来分析利用本发明方法预测得到的道路场景图像(取233幅道路场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean Pixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection over Union,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对道路场景图像数据库CamVid测试集中的每幅道路场景图像进行预测,得到每幅道路场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的道路场景图像的分割结果是较好的,表明利用本发明方法来获取道路场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
图2a给出了第1幅原始的道路场景图像;图2b给出了利用本发明方法对图2a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图3a给出了第2幅原始的道路场景图像;图3b给出了利用本发明方法对图3a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图4a给出了第3幅原始的道路场景图像;图4b给出了利用本发明方法对图4a所示的原始的道路场景图像进行预测,得到的预测语义分割图像;图5a给出了第4幅原始的道路场景图像;图5b给出了利用本发明方法对图5a所示的原始的道路场景图像进行预测,得到的预测语义分割图像。对比图2a和图2b,对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (2)

1.一种基于多尺度带孔卷积神经网络的道路场景语义分割方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的道路场景图像及每幅原始的道路场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q幅原始的道路场景图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实语义分割图像记为然后采用独热编码技术将训练集中的每幅原始的道路场景图像对应的真实语义分割图像处理成12幅独热编码图像,将处理成的12幅独热编码图像构成的集合记为其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;
步骤1_2:构建多尺度带孔卷积神经网络:多尺度带孔卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个级联层、第6个神经网络块、第1个上采样块、第2个级联层、第7个神经网络块、第2个上采样块、第3个级联层、第8个神经网络块、第3个上采样块、第4个级联层、第9个神经网络块、第4个上采样块、第5个上采样块、第6个上采样块、第5个级联层;
对于输入层,输入层的输入端接收一幅原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;
对于第1个神经网络块,其由依次设置的卷积层、批规范化层、激活层组成;第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P1;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P1中的每幅特征图的宽度为W、高度为H;
对于第2个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第2个神经网络块的输入端接收P1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P2;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P2中的每幅特征图的宽度为高度为
对于第3个神经网络块,其由依次设置的最大池化层、卷积层、批规范化层、激活层组成;第3个神经网络块的输入端接收P2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P3;其中,最大池化层的池化尺寸为2,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,批规范化层采用默认参数,激活层的激活方式为“Relu”,P3中的每幅特征图的宽度为高度为
对于第4个神经网络块,其由依次设置的最大池化层、丢弃层、卷积层、批规范化层、激活层组成;第4个神经网络块的输入端接收P3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P4;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,P4中的每幅特征图的宽度为高度为
对于第5个神经网络块,其由依次设置的最大池化层、丢弃层、上采样层组成;第5个神经网络块的输入端接收P4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P5;其中,最大池化层的池化尺寸为2,丢弃层的丢弃率为0.5,上采样层的尺寸为2,P5中的每幅特征图的宽度为高度为
对于第1个级联层,第1个级联层的输入端接收P4中的所有特征图和P5中的所有特征图,第1个级联层通过Concatence方式连接P4和P5得到集合U1,第1个级联层的输出端输出U1;其中,U1中包含的特征图的总幅数为1024,U1中的每幅特征图的宽度为高度为
对于第6个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第6个神经网络块的输入端接收U1中的所有特征图,第6个神经网络块的输出端输出512幅特征图,将512幅特征图构成的集合记为P6;其中,卷积层的卷积核大小为3×3、卷积核个数为512,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P6中的每幅特征图的宽度为高度为
对于第1个上采样块,其由上采样层组成;第1个上采样块的输入端接收P6中的所有特征图,第1个上采样块的输出端输出512幅特征图,将512幅特征图构成的集合记为C1;其中,上采样层的尺寸为2,C1中的每幅特征图的宽度为高度为
对于第2个级联层,第2个级联层的输入端接收P3中的所有特征图和C1中的所有特征图,第2个级联层通过Concatence方式连接P3和C1得到集合U2,第2个级联层的输出端输出U2;其中,U2中包含的特征图的总幅数为768,U2中的每幅特征图的宽度为高度为
对于第7个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第7个神经网络块的输入端接收U2中的所有特征图,第7个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为P7;其中,卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P7中的每幅特征图的宽度为高度为
对于第2个上采样块,其由上采样层组成;第2个上采样块的输入端接收P7中的所有特征图,第2个上采样块的输出端输出256幅特征图,将256幅特征图构成的集合记为C2;其中,上采样层的尺寸为2,C2中的每幅特征图的宽度为高度为
对于第3个级联层,第3个级联层的输入端接收P2中的所有特征图和C2中的所有特征图,第3个级联层通过Concatence方式连接P2和C2得到集合U3,第3个级联层的输出端输出U3;其中,U3中包含的特征图的总幅数为384,U3中的每幅特征图的宽度为高度为
对于第8个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第8个神经网络块的输入端接收U3中的所有特征图,第8个神经网络块的输出端输出128幅特征图,将128幅特征图构成的集合记为P8;其中,卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P8中的每幅特征图的宽度为高度为
对于第3个上采样块,其由上采样层组成;第3个上采样块的输入端接收P8中的所有特征图,第3个上采样块的输出端输出128幅特征图,将128幅特征图构成的集合记为C3;其中,上采样层的尺寸为2,C3中的每幅特征图的宽度为W、高度为H;
对于第4个级联层,第4个级联层的输入端接收P1中的所有特征图和C3中的所有特征图,第4个级联层通过Concatence方式连接P1和C3得到集合U4,第4个级联层的输出端输出U4;其中,U4中包含的特征图的总幅数为192,U4中的每幅特征图的宽度为W、高度为H;
对于第9个神经网络块,其由依次设置的卷积层、批规范化层、激活层、丢弃层组成;第9个神经网络块的输入端接收U4中的所有特征图,第9个神经网络块的输出端输出64幅特征图,将64幅特征图构成的集合记为P9;其中,卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的补零参数为“same”,卷积层的带孔指数为3×3,批规范化层采用默认参数,激活层的激活方式为“Relu”,丢弃层的丢弃率为0.5,P9中的每幅特征图的宽度为W、高度为H;
对于第4个上采样块,其由上采样层组成;第4个上采样块的输入端接收P6中的所有特征图,第4个上采样块的输出端输出512幅特征图,将512幅特征图构成的集合记为C4;其中,上采样层的尺寸为8,C4中的每幅特征图的宽度为W、高度为H;
对于第5个上采样块,其由上采样层组成;第5个上采样块的输入端接收P7中的所有特征图,第5个上采样块的输出端输出256幅特征图,将256幅特征图构成的集合记为C5;其中,上采样层的尺寸为4,C5中的每幅特征图的宽度为W、高度为H;
对于第6个上采样块,其由上采样层组成;第6个上采样块的输入端接收P8中的所有特征图,第6个上采样块的输出端输出128幅特征图,将128幅特征图构成的集合记为C6;其中,上采样层的尺寸为2,C6中的每幅特征图的宽度为W、高度为H;
对于第5个级联层,第5个级联层的输入端接收P9中的所有特征图、C4中的所有特征图、C5中的所有特征图和C6中的所有特征图,第5个级联层通过Concatence方式连接P9、C4、C5和C6得到集合U5,第5个级联层的输出端输出U5;其中,U5中包含的特征图的总幅数为960,U5中的每幅特征图的宽度为W、高度为H;
对于输出层,其包括卷积层,其中,卷积层的卷积核大小为1×1、卷积核个数为12,卷积层的补零参数为“valid”,卷积层的激活方式为“softmax”;输出层的输入端接收U5中的所有特征图,输出层的输出端输出12幅与原始输入图像对应的语义分割预测图;
步骤1_3:将训练集中的每幅原始的道路场景图像作为原始输入图像,输入到多尺度带孔卷积神经网络中进行训练,得到训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图,将{Iq(i,j)}对应的12幅语义分割预测图构成的集合记为
步骤1_4:计算训练集中的每幅原始的道路场景图像对应的12幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的12幅独热编码图像构成的集合之间的损失函数值,将之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到多尺度带孔卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为多尺度带孔卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待语义分割的道路场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示的宽度,H'表示的高度,表示中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到多尺度带孔卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。
2.根据权利要求1所述的基于多尺度带孔卷积神经网络的道路场景语义分割方法,其特征在于所述的步骤1_4中,采用分类交叉熵获得。
CN201811186784.6A 2018-10-12 2018-10-12 基于多尺度带孔卷积神经网络的道路场景语义分割方法 Active CN109508639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811186784.6A CN109508639B (zh) 2018-10-12 2018-10-12 基于多尺度带孔卷积神经网络的道路场景语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811186784.6A CN109508639B (zh) 2018-10-12 2018-10-12 基于多尺度带孔卷积神经网络的道路场景语义分割方法

Publications (2)

Publication Number Publication Date
CN109508639A true CN109508639A (zh) 2019-03-22
CN109508639B CN109508639B (zh) 2021-04-16

Family

ID=65746535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811186784.6A Active CN109508639B (zh) 2018-10-12 2018-10-12 基于多尺度带孔卷积神经网络的道路场景语义分割方法

Country Status (1)

Country Link
CN (1) CN109508639B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070047816A1 (en) * 2005-08-23 2007-03-01 Jamey Graham User Interface for Mixed Media Reality
CN107092870A (zh) * 2017-04-05 2017-08-25 武汉大学 一种高分辨率影像语意信息提取方法及系统
CN107704866A (zh) * 2017-06-15 2018-02-16 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用
CN107798381A (zh) * 2017-11-13 2018-03-13 河海大学 一种基于卷积神经网络的图像识别方法
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
US20180260956A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for semantic segmentation using hybrid dilated convolution (hdc)
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070047816A1 (en) * 2005-08-23 2007-03-01 Jamey Graham User Interface for Mixed Media Reality
US20180260956A1 (en) * 2017-03-10 2018-09-13 TuSimple System and method for semantic segmentation using hybrid dilated convolution (hdc)
CN107092870A (zh) * 2017-04-05 2017-08-25 武汉大学 一种高分辨率影像语意信息提取方法及系统
CN107704866A (zh) * 2017-06-15 2018-02-16 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN107798381A (zh) * 2017-11-13 2018-03-13 河海大学 一种基于卷积神经网络的图像识别方法
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NICOLAS AUDEBERT 等: "Semantic Segmentation of Earth Observation Data Using Multimodal and Multi-scale Deep Networks", 《ARXIV:1609.06846V1》 *
SHU LIU 等: "Path Aggregation Network for Instance Segmentation", 《ARXIV:1803.01534V4》 *
代具亭 等: "基于深度学习的语义分割网络", 《红外》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647839A (zh) * 2019-09-18 2020-01-03 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110647839B (zh) * 2019-09-18 2022-08-12 深圳信息职业技术学院 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782458B (zh) * 2019-10-23 2022-05-31 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110782462B (zh) * 2019-10-30 2022-08-09 浙江科技学院 一种基于双流特征融合的语义分割方法

Also Published As

Publication number Publication date
CN109508639B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
CN108171701B (zh) 基于u网络和对抗学习的显著性检测方法
CN109635744A (zh) 一种基于深度分割网络的车道线检测方法
CN110689544A (zh) 一种遥感图像细弱目标分割方法
CN110490082A (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN110490205A (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN109635642A (zh) 一种基于残差网络和扩张卷积的道路场景分割方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN109508639A (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN109657582A (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
CN109740451A (zh) 基于重要性加权的道路场景图像语义分割方法
CN109741341A (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN110807485B (zh) 基于高分遥感影像二分类语义分割图融合成多分类语义图的方法
CN112016569A (zh) 基于注意力机制的目标检测方法、网络、设备和存储介质
CN113822951A (zh) 图像处理方法、装置、电子设备及存储介质
CN116703947A (zh) 一种基于注意力机制和知识蒸馏的图像语义分割方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN109446933A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN117372853A (zh) 一种基于图像增强和注意力机制的水下目标检测算法
CN109284752A (zh) 一种车辆的快速检测方法
CN117409358A (zh) 一种融合BiFPN的轻量化火焰检测方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN117058386A (zh) 基于改进DeepLabv3+网络的沥青道路裂缝检测方法
CN116091918A (zh) 一种基于数据增强的土地利用分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant