CN110188817A - 一种基于深度学习的实时高性能街景图像语义分割方法 - Google Patents

一种基于深度学习的实时高性能街景图像语义分割方法 Download PDF

Info

Publication number
CN110188817A
CN110188817A CN201910452356.1A CN201910452356A CN110188817A CN 110188817 A CN110188817 A CN 110188817A CN 201910452356 A CN201910452356 A CN 201910452356A CN 110188817 A CN110188817 A CN 110188817A
Authority
CN
China
Prior art keywords
network
semantic segmentation
image
street view
view image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910452356.1A
Other languages
English (en)
Other versions
CN110188817B (zh
Inventor
严严
董根顺
王菡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910452356.1A priority Critical patent/CN110188817B/zh
Publication of CN110188817A publication Critical patent/CN110188817A/zh
Application granted granted Critical
Publication of CN110188817B publication Critical patent/CN110188817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于深度学习的实时高性能街景图像语义分割方法。准备街景图像训练、验证和测试数据集;对数据集图像进行下采样,减小图像的分辨率;对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;在基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;将若干个卷积层堆叠,形成浅层的空间信息保存网络;使用特征融合网络将得到的特征图进行融合形成预测结果;将输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;将待测试的街景图像输入实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。

Description

一种基于深度学习的实时高性能街景图像语义分割方法
技术领域
本发明涉及计算机视觉技术,尤其是涉及一种基于深度学习的实时高性能街景图像语义分割方法。
背景技术
语义分割属于场景理解的任务之一,它提供详细的像素级别分类,是计算机视觉领域一个非常基础但是又非常具有挑战性的任务。语义分割可以被广泛的应用在各种现实场景中,比如无人驾驶、机器人或者增强现实等,这些应用对语义分割算法有着强烈的需求。
早期的语义分割使用的是基于手工特征的方法,比如随机森林等,但是这些方法的效果并不理想。近年来,随着深度学习技术的不断发展,深度卷积神经网络被广泛的用于各种计算机视觉任务中,比如图像分类、目标跟踪等,并且取得了非常好的效果。在FCN方法(J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semanticsegmentation,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,3431–3440.)(它将深度卷积神经网络的全连接层全部用卷积层来代替)第一次将深度学习引入到语义分割之后,深度卷积神经网络开始成为解决语义分割问题的首选方法。得益于深度学习技术,语义分割在最近几年取得了非常巨大的进步,它在各大数据集上都达到了非常好的分割效果,比如著名的Deeplabv3+(L.-C.Chen,Y.Zhu,G.Papandreou,F.Schroff,and H.Adam,“Encoder-decoder with atrous separable convolution for semanticimage segmentation,”in Proc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.833–851.)和PSPNet(H.Zhao,J.Shi,X.Qi,X.Wang,and J.Jia,“Pyramid scene parsing network,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2017,2881–2890.)在街景图像理解数据集Cityscapes上分别达到了82+%和81+%的mIoU。但是这些高性能的语义分割算法是建立在大量的操作、计算量和内存消耗基础上,他们严重依赖于复杂的网络模型,比如VGG(K.Simonyan and A.Zisserman,“Very deep convolutional networks forlarge-scale image recognition,”in Proc.Int.Conf.Learn.Representations,May.2015.)或者Resnet(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning forimage recognition,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,770–778)等网络。这些网络往往会产生大量的参数和消耗非常多的运行时间,只考虑分割精度而不考虑时间消耗的做法导致他们缺乏良好的实用性。而许多现实中的实际应用对时间很敏感,他们要求语义分割算法拥有实时的处理速度和快速的交互、响应,对这些应用来说速度和精度是同样重要的,特别是对于计算资源有限的平台或者是像街景这样复杂的应用场景。与单纯追求高精度的语义分割相反,研究怎么样使语义分割运行得更快的同时还不会牺牲太多的精度仍然还很滞后。目前改进计算有效性的工作主要聚焦在图像分类和目标跟踪两个方面,针对快速语义分割的研究还比较少。实时高性能语义分割算法对能否将语义分割真正落地到实际应用上起到了至关重要的作用。
发明内容
本发明的目的在于提供不仅拥有实时的处理速度,还具有比较高的精度,在街景图像语义分割的速度和精度之间达到很好平衡的一种基于深度学习的实时高性能街景图像语义分割方法。
本发明包括以下步骤:
1)准备街景图像训练、验证和测试数据集;
2)对步骤1)中的数据集图像进行下采样,减小图像的分辨率;
3)对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;
4)在步骤3)中得到的基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;
5)将若干个卷积层堆叠,形成一个浅层的空间信息保存网络;
6)使用专门设计的特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果;
7)将步骤6)的输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;
8)将待测试的街景图像输入步骤7)的实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。
在步骤1)中,所述数据集可为著名的公开数据集Cityscapes,所述数据集Cityscapes是一个带有逐像素语义标注的大型街景图像理解数据集,标注包含30个语义类;数据集Cityscapes由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成,每张图像的分辨率为1024×2048,这些图像来自于50个不同的城市,是在不同的季节和变化的场景下拍摄的,使用5000张带有精细标注的街景图像,这部分数据集被划分成训练、验证和测试集三个部分,分别带有2975、500和1525张图片,而且只使用19个常见的语义类作为分割对象,包括road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。
在步骤2)中,所述对步骤1)中的数据集图像进行下采样的具体方法可为:Cityscapes数据集的图像分辨率为1024×2048,由于处理大分辨率的图像将严重影响语义分割网络的运行速度,因此首先对输入图像进行下采样来缩小图像的分辨率,从而加速网络的运行速度;但是,图像的分辨率也不能太小,太小的图像会丢失许多细节信息影响语义分割的精度,具体来说,对于训练和验证过程将图像的分辨率缩小到448×896,对于测试过程将图像的分辨率缩小到400×800。
在步骤3)中,所述现有的轻量级分类网络可采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象,具有速度快、模型小、精度高等特点,MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成,其中conv2d表示标准的卷积操作,而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块,avgpool表示平均池化操作;因为MobilenetV2是一个图像分类网络,不断地减小特征图的分辨率,最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一,网络的最终输出将是一个概率向量;语义分割是一个图像到图像的过程,需要保证网络的最终输出是一个预测图,所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络;首先将最后一个bottleneck块后面的所有卷积层和池化层去掉,得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2。经过上一步修改后的MobilenetV2可以输出原始输入图像32分之一大小的特征图,为了能够获得更大分辨率的输出特征图,将孔洞卷积和MobilenetV2结合在一起,孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率,利用孔洞卷积可以获得更大的感受野面积和得到更加稠密的特征图;尽管孔洞卷积需要比较多的运行时间,但是MobilenetV2是一个极其快速的网络,通过将二者结合在一起可以很好的做到速度与精度的平衡;所述MobilenetV2和孔洞卷积的结合方式是:简化版MobilenetV2前面部分的网络配置保持不变,当特征图分辨率下降到原始输入图像的8分之一大小后(也就是第6个bottleneck块之后),在后面的每个bottleneck块(也就是从第7个bottleneck块到最后一个bottleneck块)的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积,同时将逐深度可分离卷积层的stride大小设置为1,通过这种结合方式将特征图的分辨率维持在原始输入图像的8分之一大小上。在第7个到第10个、第11个到第13个、第14个到第16个和第17个bottleneck块中分别使用2,4,8和16的孔洞率;经过上述改造后的MobilenetV2最后几层的特征图分辨率都是原始输入图像的8分之一大小;为了进一步提高网络的精度,还利用密集跳层连接将这些网络层的输出特征图按通道连接在一起得到输出特征图;这里使用密集跳层连接有两个好处,一是将多个网络层的通道连接在一起可以使网络学习到更多的信息,二是它可以有效的缓解语义分割的棋盘问题。
在步骤4)中,所述鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题的具体方法可为:在每一个孔洞卷积核前面添加一个不同尺寸的平均池化层;在原来的1×1标准卷积分支中添加另外1个3×3标准卷积来提高该分支的特征提取能力;图像级全局平均池化分支保持不变;鉴别性孔洞空间金字塔池化由下面5个分支组成:1个1×1和1个3×3的标准卷积;三个池化率为3、5和7的池化层,其后分别跟着孔洞率为12、24和36的3×3孔洞卷积;一个图像级全局平均池化;每个分支前还使用一个Batch Normalization层加速网络的训练,同时每个分支均带有256个通道;然后每个分支的输出按通道拼接在一起得到一个1280维的特征图,再经过1个1×1的卷积层来减少特征图的通道数降低计算量;除此之外,还使用一个shortcut连接将上述得到的特征图与孔洞空间金字塔池化的输入特征图按照逐点相加的方式连接在一起,shortcut连接有助于信息的流动和重用。
在步骤5)中,所述将若干个卷积层堆叠,形成一个浅层的空间信息保存网络的具体方法可为:经过步骤3)和步骤4)的基础特征提取网络和鉴别性孔洞空间金字塔池化后得到的特征图中包含丰富的语义信息,但是它含有的空间信息比较少,所以设计一个很浅的空间信息保存网络,这个网络仅仅由三个简单的卷积层堆叠而成,同时在每个卷积层的后面还连接了一个ReLu层和Batch Normalization层,这个简单的空间细节保存网络可以在只消耗很少计算量的情况下编码丰富的空间细节信息。
在步骤6)中,所述使用专门设计的特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果的具体方法可为:由于步骤3)和步骤4)中的网络结构是串联关系,而步骤5)中的网络结构与步骤3)和4)是并行关系,因此将步骤4)和步骤5)的输出特征图进行融合,因为这两个特征图是属于不同层级的特征,来自步骤4)的特征图中主要编码了丰富的高级语义信息,而来自步骤5)的特征图中主要提供充足的低级空间信息,为了能够更有效的融合这两个特征,提出一个简单有效的特征融合网络,由于步骤4和5)的两个特征图的分辨率是一样的,因此首先将步骤4和5)的两个特征图按通道连接在一起得到一个特征图,接着,使用一个Batch Normalization层平衡特征之间的尺度和拉近特征之间的距离;然后,利用一个包含孔洞率为2的3×3孔洞卷积层将每个点与周围的一圈信息结合在一起,提高特征融合的鲁棒性;最后,在孔洞卷积层后面连接1个1×1的映射卷积层,将特征图的通道数降低下来(等于语义类别数),并且使用一个双线性插值将图像的分辨率扩大到原始输入图像的尺寸大小,即得到最终的预测结果。
在步骤7)中,在训练过程中对于数据预处理,只使用随机翻转、随机缩放(0.5~0.8)和随机裁剪(448×896)三个常用的数据增强方法,网络以微调后的ImageNet预训练参数作为初始化开始训练,使用bootstrapping策略作为损失函数,以随机梯度下降作为优化器,其中,初始学习率为0.006,权重衰退参数为0.0005,动量为0.9;对于学习率更新策略,采用流行的“poly”策略,即对于每次迭代lr=baselr*(1-iter/max_iter)^power,其中,baselr为初始学习率,iter为当前的迭代次数,max_iter为总迭代次数,power为多项式的幂(一般设置为0.9);每次迭代的mini-batch设置为4,整个网络训练200个周期。
在步骤8)中,输入图像的分辨率下采样到400×800大小,送入到训练好的语义分割网络中,最后对输出预测结果利用双线性插值进行上采样得到最终的语义分割结果。
本发明是在已有的实时图像分类网络和高精度语义分割网络的基础上,提出更加高效和鲁棒的实时高性能语义分割算法,在保持比较高的精度的同时最大化分割的速度。本发明首先将孔洞卷积和密集跳层连接添加到已有的实时轻量级分类网络中,将轻量级分类网络改造为的基础特征提取网络;接着,在得到的基础特征提取网络的后面连接一个改进的孔洞空间金字塔池化来更有效的解决语义分割的多尺度问题;然后,设计一个空间信息保存网络来编码充足的空间细节信息,它平行于上面的两个网络分支;最后,利用一个专门设计的特征融合网络连接以上两个属于不同级别的特征。本发明提出的实时高性能街景图像语义分割方法在当前主流的街景图像理解数据集上取得了具有竞争力的结果。
附图说明
图1为本发明实施例的整个实现流程图。
图2为本发明实施例的整个网络结构图。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程。
参见图1,本发明实施例包括以下步骤:
A.准备街景图像训练、验证和测试数据集。
使用的数据集为著名的公开数据集Cityscapes,该数据集是一个带有逐像素语义标注的大型街景图像理解数据集,它的标注包含30个语义类。该数据集由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成,每张图像的分辨率为1024×2048,这些图像来自于50个不同的城市,是在不同的季节和变化的场景下拍摄的。在本发明中只使用5000张带有精细标注的街景图像,这部分数据集被划分成训练、验证和测试集三个部分,分别带有2975、500和1525张图片。而且只使用19个常见的语义类作为分割对象,包括road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。
B.对步骤A中的数据集图像进行下采样,减小图像的分辨率。
Cityscapes数据集的图像分辨率为1024×2048,处理这么大分辨率的图像将严重影响语义分割网络的运行速度,所以在本发明中首先对输入图像进行下采样来缩小图像的分辨率,从而加速网络的运行速度。但是,图像的分辨率也不能太小,太小的图像会丢失许多细节信息影响语义分割的精度。具体来说,对于训练和验证过程将图像的分辨率缩小到448×896,对于测试过程将图像的分辨率缩小到400×800。
C.对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络。
本发明采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象,它具有速度快、模型小、精度高等特点。MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成,其中conv2d表示标准的卷积操作,而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块,avgpool表示平均池化操作。因为MobilenetV2是一个图像分类网络,它会不断的减小特征图的分辨率,最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一,网络的最终输出将是一个概率向量。然而,语义分割是一个图像到图像的过程,需要保证网络的最终输出是一个预测图,所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络。
首先将最后一个bottleneck块后面的所有卷积层和池化层去掉,得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2。经过上一步修改后的MobilenetV2可以输出原始输入图像32分之一大小的特征图,为了能够获得更大分辨率的输出特征图,将孔洞卷积和MobilenetV2结合在一起,孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率,利用孔洞卷积可以获得更大的感受野面积和得到更加稠密的特征图。尽管孔洞卷积需要比较多的运行时间,但是MobilenetV2是一个极其快速的网络,通过将二者结合在一起可以很好的做到速度与精度的平衡。在本发明中MobilenetV2和孔洞卷积的结合方式是:简化版MobilenetV2前面部分的网络配置保持不变,当特征图分辨率下降到原始输入图像的8分之一大小后(也就是第6个bottleneck块之后),在后面的每个bottleneck块(也就是从第7个bottleneck块到最后一个bottleneck块)的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积,同时将逐深度可分离卷积层的stride大小设置为1的stride大小都改为1,通过这种结合方式将特征图的分辨率维持在原始输入图像的8分之一大小上。在第7个到第10个、第11个到第13个、第14个到第16个和第17个bottleneck块中分别使用2,4,8和16的孔洞率。经过上面改造后的MobilenetV2最后几层的特征图分辨率都是原始输入图像的8分之一大小。为了进一步提高网络的精度,还利用密集跳层连接将这些网络层的输出特征图按通道连接在一起得到输出特征图。这里使用密集跳层连接有两个好处,一是将多个网络层的通道连接在一起可以使网络学习到更多的信息,二是它可以有效的缓解语义分割的棋盘问题。
D.在步骤C中得到的基础特征提取网络后面串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题。
利用鉴别性孔洞空间金字塔池化来更有效的解决语义分割的多尺度问题。具体如下:在每一个孔洞卷积核前面添加一个不同尺寸的平均池化层;在原来的1×1标准卷积分支中添加另外1个3×3标准卷积来提高该分支的特征提取能力;图像级全局平均池化分支保持不变。所以,鉴别性孔洞空间金字塔池化由下面5个分支组成:1个1×1和1个3×3的标准卷积;三个池化率为3、5和7的池化层,其后分别跟着孔洞率为12、24和36的3×3孔洞卷积;一个图像级全局平均池化。这里需要注意每个分支前还使用了一个BatchNormalization层来加速网络的训练,同时每个分支都带有256个通道。然后每个分支的输出按通道拼接在一起得到一个1280维的特征图,再经过1个1×1的卷积层来减少特征图的通道数降低计算量。除此之外,还使用了一个shortcut连接将上面得到的特征图与孔洞空间金字塔池化的输入特征图按照逐点相加的方式连接在一起,shortcut连接有助于信息的流动和重用。
E.将若干个卷积层堆叠在一起形成一个浅层的空间信息保存网络。
经过步骤C)和步骤D)的基础特征提取网络和鉴别性孔洞空间金字塔池化后得到的特征图,但是它含有的空间信息比较少,所以设计了一个很浅的空间信息保存网络,这个网络仅仅由三个简单的卷积层堆叠而成,同时在每个卷积层的后面还连接了一个ReLu层和Batch Normalization层,这个简单的空间细节保存网络可以在只消耗很少计算量的情况下编码丰富的空间细节信息。
F.使用专门设计的特征融合网络将步骤D和步骤E中得到的特征图进行融合形成预测结果。
步骤C和步骤D中的网络结构是串联关系,而步骤E中的网络结构和前面两个网络是并行关系,所以这里需要将步骤D和步骤E的输出特征图进行融合。因为这两个特征图是属于不同层级的特征,来自步骤D的特征图中主要编码了丰富的高级语义信息,而来自步骤E的特征图中主要提供了充足的低级空间信息,为了能够更有效的融合这两个特征,本发明提出了一个简单有效的特征融合网络。因为这两个特征图的分辨率是一样的,所以首先将他们按通道连接在一起得到一个特征图。接着,使用一个Batch Normalization层来平衡特征之间的尺度和拉近特征之间的距离。然后,利用一个包含孔洞率为2的3×3孔洞卷积层来将每个点与周围的一圈信息结合在一起,提高了特征融合的鲁棒性。最后,在孔洞卷积层后面连接1个1×1的映射卷积层,它负责将特征图的通道数降低下来(等于语义类别数),并且使用一个双线性插值将图像的分辨率扩大到原始输入图像的尺寸大小,即得到最终的预测结果。
G.将步骤F的输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练得到实时高性能街景图像语义分割网络模型。
在训练过程中对于数据预处理,只使用随机翻转、随机缩放(0.5~0.8)和随机裁剪(448×896)三个常用的数据增强方法。网络以微调后的ImageNet预训练参数作为初始化开始训练,使用bootstrapping策略作为损失函数,以随机梯度下降作为优化器,其中初始学习率为0.006,权重衰退参数为0.0005,动量为0.9。对于学习率更新策略,采用流行的“poly”策略,即对于每次迭代lr=baselr*(1-iter/max_iter)^power,其中baselr为初始学习率,iter为当前的迭代次数,max_iter为总迭代次数,power为多项式的幂(一般设置为0.9)。每次迭代的mini-batch设置为4,整个网络训练200个周期。
H.将待测试的街景图像输入至该实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。
输入图像的分辨率下采样到400×800大小,送入到训练好的语义分割网络中,最后对输出预测结果利用双线性插值进行上采样得到最终的语义分割结果。
图2给出本发明实施例的整个网络结构图,在图2中,在(a)基础特征提取网络中B0~B7分别表示3×3的卷积操作、第1个bottleneck操作、第2到第3个bottleneck操作、第4到第6个bottleneck操作、第7到第10个bottleneck操作、第11到第13个bottleneck操作、第14到第16个bottleneck操作和第17个bottleneck操作;在(b)鉴别性孔洞空间金字塔池化中Image Pooling表示图像级平均池化操作,1×1和3×3Conv分别表示1×1和3×3的卷积操作,3×3、5×5和7×7Pooling分别表示3×3、5×5和7×7的平均池化操作,3×3Conv rate=12、rate=24和rate=36分别表示孔洞率为12、24和36的3×3孔洞卷积操作,Concat表示按通道连接,Bn表示Batch Normalization操作;在(c)空间信息保存网络中Conv+Bn+ReLu表示依次相连的卷积操作、Batch Normalization操作和激活函数;在(d)特征融合网络中Upsample表示上采样,Bn表示Batch Normalization操作,Atrous Conv 3×3rate=2表示孔洞率为2的3×3孔洞卷积操作,Project Conv表示1×1的卷积操作。
表1为本发明与其它几个实时语义分割方法在Cityscapes测试数据集上的性能和速度对比。
表1
方法 精度(mIoU) 时间(ms) 速度(fps)
SegNet 57.0 60 16.7
ENet 58.3 13 76.9
SQNet 59.8 60 16.7
CRF-RNN 62.5 700 1.4
DeepLabv1 63.1 4000 0.25
FCN-8S 65.3 500 2.0
Adelaide 66.4 35000 0.03
Dilation10 67.1 4000 0.25
ICNet 69.5 33 30.3
GUNet 70.4 30 33.3
DeepLabv2-CRF 70.4 n/a n/a
本发明提出的方法 70.6 28.4 35.2
在表1中,SegNet对应V.Badrinarayanan等人提出的方法(V.Badrinarayanan,A.Kendall,and R.Cipolla,“Segnet:A deep convolutional encoder-decoderarchitecture for image segmentation,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.39,no.12,pp.2481–2495,2017.);
ENet对应A.Paszke等人提出的方法(A.Paszke,A.Chaurasia,S.Kim,andE.Culurciello.(Jun.2016).“ENet:A deep neural network architecture for real-time semantic segmentation.”[Online].Available:https://arxiv.org/abs/1606.02147);
SQNet对应M.Treml等人提出的方法(M.Treml et al.,“Speeding up semanticsegmentation for autonomous driving,”in Proc.MLITS,NIPS Workshop,2016,pp.1–7.);
CRF-RNN对应S.Zheng等人提出的方法(S.Zheng et al.,“Conditional randomfields as recurrent neural networks,”in Proc.IEEE Int.Conf.Comput.Vis.(ICCV),Dec.2015,pp.1529–1537.);
Deeplabv1对应L.-C.Chen等人提出的方法(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille,“Semantic image segmentation with deepconvolutional nets and fully connected CRFs,”in Proc.Int.Conf.Learn.Representations,May.2015.);
FCN-8S对应J.Long等人提出的方法(J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,pp.3431–3440.);
Adelaide对应G.Lin等人提出的方法(G.Lin,C.Shen,A.Hengel,and I.Reid,“Efficient piecewise training of deep structured models for semanticsegmentation,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2016,pp.3194–3203.);
Dilation10对应F.Yu等人提出的方法(F.Yu and V.Koltun,”Multi-scalecontext aggregation by dilated convolutions,”in Proc.Int.Conf.Learn.Representations,May.2016.);
ICNet对应H.Zhao等人提出的方法(H.Zhao,X.Qi,X.Shen,J.Shi,and J.Jia,“ICNet for real-time semantic segmentation on high-resolution images,”inProc.Eur.Conf.Comput.Vis.(ECCV),Sep.2018,pp.418–434.);
GUNet对应D.Mazzini等人提出的方法(D.Mazzini,“Guided upsampling networkfor real-time semantic segmentation,”in British Machine Vision Conference,Sep.2018,pp.117.);
DeepLabv2-CRF对应L.-C.Chen等人提出的方法(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille,“Deeplab:Semantic image segmentation withdeep convolutional nets,atrous convolution,and fully connected crfs,”IEEETrans.Pattern Anal.Mach.Intell.,vol.40,no.4,pp.834–848,2018)。

Claims (10)

1.一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于包括以下步骤:
1)准备街景图像训练、验证和测试数据集;
2)对步骤1)中的数据集图像进行下采样,减小图像的分辨率;
3)对现有的轻量级分类网络进行改造作为语义分割的基础特征提取网络;
4)在步骤3)中得到的基础特征提取网络后串联一个鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题;
5)将若干个卷积层堆叠,形成一个浅层的空间信息保存网络;
6)使用特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果;
7)将步骤6)的输出图像与数据集中的语义标注图像进行对比,利用反向传播算法进行端到端的训练,得到实时高性能街景图像语义分割网络模型;
8)将待测试的街景图像输入步骤7)的实时高性能街景图像语义分割网络模型中得到街景图像的语义分割结果。
2.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤1)中,所述数据集为公开数据集Cityscapes,所述数据集Cityscapes是一个带有逐像素语义标注的大型街景图像理解数据集,标注包含30个语义类;数据集Cityscapes由5000张带有精细标注和20000张带有粗糙标注的高分辨率街景图像组成,每张图像的分辨率为1024×2048,这些图像来自于50个不同的城市,是在不同的季节和变化的场景下拍摄的,使用5000张带有精细标注的街景图像,这部分数据集被划分成训练、验证和测试集三个部分,分别带有2975、500和1525张图片,而且只使用19个常见的语义类作为分割对象,包括road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle和bicycle。
3.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤2)中,所述对步骤1)中的数据集图像进行下采样的具体方法为:Cityscapes数据集的图像分辨率为1024×2048,由于处理大分辨率的图像将严重影响语义分割网络的运行速度,因此首先对输入图像进行下采样来缩小图像的分辨率,从而加速网络的运行速度;图像的分辨率也不能太小,太小的图像会丢失许多细节信息影响语义分割的精度;对于训练和验证过程将图像的分辨率缩小到448×896,对于测试过程将图像的分辨率缩小到400×800。
4.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤3)中,所述现有的轻量级分类网络采用谷歌最新发布的MobilenetV2轻量级分类网络作为改造对象,具有速度快、模型小、精度高特点,MobilenetV2依次由1个3×3的conv2d操作、17个bottleneck操作、1个1×1的conv2d操作、1个7×7的avgpool操作和1个1×1的conv2d操作组成,其中conv2d表示标准的卷积操作,而bottleneck表示由1个1×1的卷积层、一个3×3的逐深度可分离卷积层和一个1×1的卷积层组成的模块,avgpool表示平均池化操作;因为MobilenetV2是一个图像分类网络,不断地减小特征图的分辨率,最后一个bottleneck块输出的特征图尺寸只有原始输入图像的32分之一,网络的最终输出将是一个概率向量;语义分割是一个图像到图像的过程,需要保证网络的最终输出是一个预测图,所以需要对MobilenetV2的网络结构进行修改才能作为的基础特征提取网络;首先将最后一个bottleneck块后面的所有卷积层和池化层去掉,得到只剩下1个3×3的conv2d和17个bottleneck的简化版MobilenetV2;经过上一步修改后的MobilenetV2可以输出原始输入图像32分之一大小的特征图,为了能够获得更大分辨率的输出特征图,将孔洞卷积和MobilenetV2结合在一起,孔洞卷积的作用就是在加大网络深度的同时不会改变特征图的分辨率,利用孔洞卷积可以获得更大的感受野面积和得到更加稠密的特征图;尽管孔洞卷积需要比较多的运行时间,但是MobilenetV2是一个极其快速的网络,通过将二者结合在一起可以很好的做到速度与精度的平衡;所述MobilenetV2和孔洞卷积的结合方式是:简化版MobilenetV2前面部分的网络配置保持不变,当特征图分辨率下降到原始输入图像的8分之一大小后,也就是第6个bottleneck块之后,在后面的每个bottleneck块的逐深度可分离卷积层中加入带有不同孔洞率的孔洞卷积,同时将逐深度可分离卷积层的stride大小设置为1,通过这种结合方式将特征图的分辨率维持在原始输入图像的8分之一大小上;在第7个到第10个、第11个到第13个、第14个到第16个和第17个bottleneck块中分别使用2,4,8和16的孔洞率;经过上述改造后的MobilenetV2最后几层的特征图分辨率都是原始输入图像的8分之一大小;为了进一步提高网络的精度,还利用密集跳层连接将这些网络层的输出特征图按通道连接在一起得到输出特征图。
5.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤4)中,所述鉴别性孔洞空间金字塔池化用于解决语义分割的多尺度问题的具体方法为:在每一个孔洞卷积核前面添加一个不同尺寸的平均池化层;在原来的1×1标准卷积分支中添加另外1个3×3标准卷积来提高该分支的特征提取能力;图像级全局平均池化分支保持不变;鉴别性孔洞空间金字塔池化由下面5个分支组成:1个1×1和1个3×3的标准卷积;三个池化率为3、5和7的池化层,其后分别跟着孔洞率为12、24和36的3×3孔洞卷积;一个图像级全局平均池化;每个分支前还使用一个Batch Normalization层加速网络的训练,同时每个分支均带有256个通道;然后每个分支的输出按通道拼接在一起得到一个1280维的特征图,再经过1个1×1的卷积层来减少特征图的通道数降低计算量;还使用一个shortcut连接将上述得到的特征图与孔洞空间金字塔池化的输入特征图按照逐点相加的方式连接在一起,shortcut连接有助于信息的流动和重用。
6.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤5)中,所述将若干个卷积层堆叠,形成一个浅层的空间信息保存网络的具体方法为:经过步骤3)和步骤4)的基础特征提取网络和鉴别性孔洞空间金字塔池化后得到的特征图中包含丰富的语义信息,由于含有的空间信息比较少,因此设计一个很浅的空间信息保存网络,网络由三个简单的卷积层堆叠而成,同时在每个卷积层的后面还连接一个ReLu层和Batch Normalization层,这个简单的空间细节保存网络在只消耗很少计算量的情况下编码丰富的空间细节信息。
7.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤6)中,所述使用特征融合网络将步骤4)和步骤5)中得到的特征图进行融合形成预测结果的具体方法可为:由于步骤3)和步骤4)中的网络结构是串联关系,而步骤5)中的网络结构与步骤3)和4)是并行关系,因此将步骤4)和步骤5)的输出特征图进行融合,因为这两个特征图是属于不同层级的特征,来自步骤4)的特征图中主要编码了丰富的高级语义信息,而来自步骤5)的特征图中主要提供充足的低级空间信息,为了能够更有效的融合这两个特征,提出一个简单有效的特征融合网络,由于步骤4和5)的两个特征图的分辨率是一样的,因此首先将步骤4和5)的两个特征图按通道连接在一起得到一个特征图,接着,使用一个Batch Normalization层平衡特征之间的尺度和拉近特征之间的距离;然后,利用一个包含孔洞率为2的3×3孔洞卷积层将每个点与周围的一圈信息结合在一起,提高特征融合的鲁棒性;最后,在孔洞卷积层后面连接1个1×1的映射卷积层,将特征图的通道数降低下来,并且使用一个双线性插值将图像的分辨率扩大到原始输入图像的尺寸大小,即得到最终的预测结果。
8.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤7)中,在训练过程中对于数据预处理,只使用随机翻转、随机缩放和随机裁剪三个常用的数据增强方法,网络以微调后的ImageNet预训练参数作为初始化开始训练,使用bootstrapping策略作为损失函数,以随机梯度下降作为优化器,其中,初始学习率为0.006,权重衰退参数为0.0005,动量为0.9;对于学习率更新策略,采用流行的“poly”策略,即对于每次迭代lr=baselr*(1-iter/max_iter)^power,其中,baselr为初始学习率,iter为当前的迭代次数,max_iter为总迭代次数,power为多项式的幂;每次迭代的mini-batch设置为4,整个网络训练200个周期。
9.如权利要求8所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于所述随机缩放为0.5~0.8;所述随机裁剪为448×896。
10.如权利要求1所述一种基于深度学习的实时高性能街景图像语义分割方法,其特征在于在步骤8)中,输入图像的分辨率下采样到400×800大小,送入到训练好的语义分割网络中,最后对输出预测结果利用双线性插值进行上采样得到最终的语义分割结果。
CN201910452356.1A 2019-05-28 2019-05-28 一种基于深度学习的实时高性能街景图像语义分割方法 Active CN110188817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910452356.1A CN110188817B (zh) 2019-05-28 2019-05-28 一种基于深度学习的实时高性能街景图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910452356.1A CN110188817B (zh) 2019-05-28 2019-05-28 一种基于深度学习的实时高性能街景图像语义分割方法

Publications (2)

Publication Number Publication Date
CN110188817A true CN110188817A (zh) 2019-08-30
CN110188817B CN110188817B (zh) 2021-02-26

Family

ID=67718209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910452356.1A Active CN110188817B (zh) 2019-05-28 2019-05-28 一种基于深度学习的实时高性能街景图像语义分割方法

Country Status (1)

Country Link
CN (1) CN110188817B (zh)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717921A (zh) * 2019-09-26 2020-01-21 哈尔滨工程大学 改进型编码解码结构的全卷积神经网络语义分割方法
CN110853039A (zh) * 2019-10-16 2020-02-28 深圳信息职业技术学院 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN110889859A (zh) * 2019-11-11 2020-03-17 珠海上工医信科技有限公司 一种用于眼底图像血管分割的u型网络
CN111008979A (zh) * 2019-12-09 2020-04-14 杭州凌像科技有限公司 一种鲁棒的夜晚图像语义分割方法
CN111160109A (zh) * 2019-12-06 2020-05-15 北京联合大学 一种基于深度神经网络的道路分割方法及系统
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111368846A (zh) * 2020-03-19 2020-07-03 中国人民解放军国防科技大学 一种基于边界语义分割的道路积水识别方法
CN111415358A (zh) * 2020-03-20 2020-07-14 Oppo广东移动通信有限公司 图像分割方法、装置、电子设备及存储介质
CN111429473A (zh) * 2020-02-27 2020-07-17 西北大学 基于多尺度特征融合的胸片肺野分割模型建立及分割方法
CN111462121A (zh) * 2020-03-23 2020-07-28 上海携程商务有限公司 基于图像语义理解的图像裁切方法、系统、设备和介质
CN111461125A (zh) * 2020-03-19 2020-07-28 杭州凌像科技有限公司 一种全景图像的连续性分割方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111626918A (zh) * 2020-04-29 2020-09-04 杭州火烧云科技有限公司 一种基于语义分割网络技术对数字图像进行风格变化的方法及系统
CN111652231A (zh) * 2020-05-29 2020-09-11 沈阳铸造研究所有限公司 一种基于特征自适应选择的铸件缺陷语义分割方法
CN111666948A (zh) * 2020-05-27 2020-09-15 厦门大学 一种基于多路聚合的实时高性能语义分割方法和装置
CN111899169A (zh) * 2020-07-02 2020-11-06 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的人脸图像的分割网络的方法
CN112070049A (zh) * 2020-09-16 2020-12-11 福州大学 基于BiSeNet的自动驾驶场景下的语义分割方法
CN112163449A (zh) * 2020-08-21 2021-01-01 同济大学 一种轻量化的多分支特征跨层融合图像语义分割方法
CN112164065A (zh) * 2020-09-27 2021-01-01 华南理工大学 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN112233129A (zh) * 2020-10-20 2021-01-15 湘潭大学 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112329603A (zh) * 2020-11-03 2021-02-05 西南科技大学 一种基于图像级联的坝面裂纹缺陷定位方法
CN112330681A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法
CN112365514A (zh) * 2020-12-09 2021-02-12 辽宁科技大学 基于改进PSPNet的语义分割方法
CN112418674A (zh) * 2020-11-24 2021-02-26 中国地质大学(武汉) 基于城市多源数据的街道空间品质测度评价方法和系统
CN112508977A (zh) * 2020-12-29 2021-03-16 天津科技大学 一种面向自动驾驶场景的基于深度学习的语义分割方法
CN112508960A (zh) * 2020-12-21 2021-03-16 华南理工大学 一种基于改进注意力机制的低精度图像语义分割方法
CN112529904A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 图像语义分割方法、装置、计算机可读存储介质和芯片
CN112766056A (zh) * 2020-12-30 2021-05-07 厦门大学 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN112785568A (zh) * 2021-01-18 2021-05-11 厦门大学嘉庚学院 一种基于深度学习的磁瓦缺陷分割方法
CN112801104A (zh) * 2021-01-20 2021-05-14 吉林大学 基于语义分割的图像像素级伪标签确定方法及系统
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN113011336A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于深度多分支聚合的实时街景图像语义分割方法
CN113011429A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于阶段性特征语义对齐的实时街景图像语义分割方法
CN113033570A (zh) * 2021-03-29 2021-06-25 同济大学 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN113052311A (zh) * 2021-03-16 2021-06-29 西北工业大学 具有跳层结构的特征提取网络及特征和描述子生成的方法
CN113077418A (zh) * 2021-03-18 2021-07-06 心医国际数字医疗系统(大连)有限公司 基于卷积神经网络的ct影像骨骼分割方法及装置
CN113076904A (zh) * 2021-04-15 2021-07-06 华南理工大学 一种基于深度学习的室外停车场空余车位检测方法
CN113139444A (zh) * 2021-04-06 2021-07-20 上海工程技术大学 基于MobileNetV2的时空注意力口罩佩戴实时检测方法
CN113229767A (zh) * 2021-04-12 2021-08-10 佛山市顺德区美的洗涤电器制造有限公司 用于处理图像的方法、处理器、控制装置及家用电器
CN113688702A (zh) * 2021-08-12 2021-11-23 武汉工程大学 基于融合多特征的街景图像处理方法及系统
CN113822287A (zh) * 2021-11-19 2021-12-21 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质
CN114638836A (zh) * 2022-02-18 2022-06-17 湖北工业大学 基于高度有效驱动与多层级特征融合的城市街景分割方法
CN114648668A (zh) * 2022-05-18 2022-06-21 浙江大华技术股份有限公司 目标对象的属性分类方法、设备及计算机可读存储介质
CN114972748A (zh) * 2022-04-28 2022-08-30 北京航空航天大学 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN115063446A (zh) * 2022-05-12 2022-09-16 福州大学 一种辅助驾驶系统的城市街景实例分割方法
CN116563553A (zh) * 2023-07-10 2023-08-08 武汉纺织大学 一种基于深度学习的无人机图像分割方法和系统
US11893503B2 (en) 2019-10-07 2024-02-06 Accenture Global Solutions Limited Machine learning based semantic structural hole identification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253622A1 (en) * 2017-03-06 2018-09-06 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US20190050667A1 (en) * 2017-03-10 2019-02-14 TuSimple System and method for occluding contour detection
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180253622A1 (en) * 2017-03-06 2018-09-06 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US20190050667A1 (en) * 2017-03-10 2019-02-14 TuSimple System and method for occluding contour detection
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIANG-CHIEH CHEN等: "《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》", 《COMPUTER VISION–ECCV 2018》 *
MAOKE YANG等: "《DenseASPP for Semantic Segmentation in Street Scenes》", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
田萱: "《基于深度学习的图像语义分割方法综述》", 《软件学报》 *

Cited By (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529904A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 图像语义分割方法、装置、计算机可读存储介质和芯片
CN110717921A (zh) * 2019-09-26 2020-01-21 哈尔滨工程大学 改进型编码解码结构的全卷积神经网络语义分割方法
CN110717921B (zh) * 2019-09-26 2022-11-15 哈尔滨工程大学 改进型编码解码结构的全卷积神经网络语义分割方法
US11893503B2 (en) 2019-10-07 2024-02-06 Accenture Global Solutions Limited Machine learning based semantic structural hole identification
CN110853039A (zh) * 2019-10-16 2020-02-28 深圳信息职业技术学院 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN110853039B (zh) * 2019-10-16 2023-06-02 深圳信息职业技术学院 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN110889859A (zh) * 2019-11-11 2020-03-17 珠海上工医信科技有限公司 一种用于眼底图像血管分割的u型网络
CN111160109A (zh) * 2019-12-06 2020-05-15 北京联合大学 一种基于深度神经网络的道路分割方法及系统
CN111160109B (zh) * 2019-12-06 2023-08-18 北京联合大学 一种基于深度神经网络的道路分割方法及系统
CN111008979A (zh) * 2019-12-09 2020-04-14 杭州凌像科技有限公司 一种鲁棒的夜晚图像语义分割方法
CN111160311A (zh) * 2020-01-02 2020-05-15 西北工业大学 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
CN111429473A (zh) * 2020-02-27 2020-07-17 西北大学 基于多尺度特征融合的胸片肺野分割模型建立及分割方法
CN111429473B (zh) * 2020-02-27 2023-04-07 西北大学 基于多尺度特征融合的胸片肺野分割模型建立及分割方法
CN111368846B (zh) * 2020-03-19 2022-09-09 中国人民解放军国防科技大学 一种基于边界语义分割的道路积水识别方法
CN111461125A (zh) * 2020-03-19 2020-07-28 杭州凌像科技有限公司 一种全景图像的连续性分割方法
CN111461125B (zh) * 2020-03-19 2022-09-20 杭州凌像科技有限公司 一种全景图像的连续性分割方法
CN111368846A (zh) * 2020-03-19 2020-07-03 中国人民解放军国防科技大学 一种基于边界语义分割的道路积水识别方法
CN111415358B (zh) * 2020-03-20 2024-03-12 Oppo广东移动通信有限公司 图像分割方法、装置、电子设备及存储介质
CN111415358A (zh) * 2020-03-20 2020-07-14 Oppo广东移动通信有限公司 图像分割方法、装置、电子设备及存储介质
CN111462121A (zh) * 2020-03-23 2020-07-28 上海携程商务有限公司 基于图像语义理解的图像裁切方法、系统、设备和介质
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111563508B (zh) * 2020-04-20 2023-05-23 华南理工大学 一种基于空间信息融合的语义分割方法
CN111626918B (zh) * 2020-04-29 2023-05-09 杭州火烧云科技有限公司 一种基于语义分割网络技术对数字图像进行风格变化的方法及系统
CN111626918A (zh) * 2020-04-29 2020-09-04 杭州火烧云科技有限公司 一种基于语义分割网络技术对数字图像进行风格变化的方法及系统
CN111666948A (zh) * 2020-05-27 2020-09-15 厦门大学 一种基于多路聚合的实时高性能语义分割方法和装置
CN111666948B (zh) * 2020-05-27 2023-05-30 厦门大学 一种基于多路聚合的实时高性能语义分割方法和装置
CN111652231B (zh) * 2020-05-29 2023-05-30 沈阳铸造研究所有限公司 一种基于特征自适应选择的铸件缺陷语义分割方法
CN111652231A (zh) * 2020-05-29 2020-09-11 沈阳铸造研究所有限公司 一种基于特征自适应选择的铸件缺陷语义分割方法
CN111899169B (zh) * 2020-07-02 2024-01-26 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的人脸图像的分割网络的方法
CN111899169A (zh) * 2020-07-02 2020-11-06 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的人脸图像的分割网络的方法
CN112163449A (zh) * 2020-08-21 2021-01-01 同济大学 一种轻量化的多分支特征跨层融合图像语义分割方法
CN112070049A (zh) * 2020-09-16 2020-12-11 福州大学 基于BiSeNet的自动驾驶场景下的语义分割方法
CN112164065B (zh) * 2020-09-27 2023-10-13 华南理工大学 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN112164065A (zh) * 2020-09-27 2021-01-01 华南理工大学 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN112233129A (zh) * 2020-10-20 2021-01-15 湘潭大学 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN112287940B (zh) * 2020-10-30 2024-07-02 深圳市守卫者智能科技有限公司 一种基于深度学习的注意力机制的语义分割的方法
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN112329603A (zh) * 2020-11-03 2021-02-05 西南科技大学 一种基于图像级联的坝面裂纹缺陷定位方法
CN112330681B (zh) * 2020-11-06 2024-05-28 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法
CN112330681A (zh) * 2020-11-06 2021-02-05 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法
CN112418674A (zh) * 2020-11-24 2021-02-26 中国地质大学(武汉) 基于城市多源数据的街道空间品质测度评价方法和系统
CN112365514A (zh) * 2020-12-09 2021-02-12 辽宁科技大学 基于改进PSPNet的语义分割方法
CN112508960A (zh) * 2020-12-21 2021-03-16 华南理工大学 一种基于改进注意力机制的低精度图像语义分割方法
CN112508977A (zh) * 2020-12-29 2021-03-16 天津科技大学 一种面向自动驾驶场景的基于深度学习的语义分割方法
CN112766056B (zh) * 2020-12-30 2023-10-27 厦门大学 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN112766056A (zh) * 2020-12-30 2021-05-07 厦门大学 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN112785568A (zh) * 2021-01-18 2021-05-11 厦门大学嘉庚学院 一种基于深度学习的磁瓦缺陷分割方法
CN112801104A (zh) * 2021-01-20 2021-05-14 吉林大学 基于语义分割的图像像素级伪标签确定方法及系统
CN112801104B (zh) * 2021-01-20 2022-01-07 吉林大学 基于语义分割的图像像素级伪标签确定方法及系统
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN112950477B (zh) * 2021-03-15 2023-08-22 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN113052311A (zh) * 2021-03-16 2021-06-29 西北工业大学 具有跳层结构的特征提取网络及特征和描述子生成的方法
CN113052311B (zh) * 2021-03-16 2024-01-19 西北工业大学 具有跳层结构的特征提取网络及特征和描述子生成的方法
CN113077418A (zh) * 2021-03-18 2021-07-06 心医国际数字医疗系统(大连)有限公司 基于卷积神经网络的ct影像骨骼分割方法及装置
CN113011429B (zh) * 2021-03-19 2023-07-25 厦门大学 基于阶段性特征语义对齐的实时街景图像语义分割方法
CN113011429A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于阶段性特征语义对齐的实时街景图像语义分割方法
CN113011336A (zh) * 2021-03-19 2021-06-22 厦门大学 一种基于深度多分支聚合的实时街景图像语义分割方法
CN113011336B (zh) * 2021-03-19 2022-05-27 厦门大学 一种基于深度多分支聚合的实时街景图像语义分割方法
CN113033570A (zh) * 2021-03-29 2021-06-25 同济大学 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN113139444A (zh) * 2021-04-06 2021-07-20 上海工程技术大学 基于MobileNetV2的时空注意力口罩佩戴实时检测方法
CN113229767A (zh) * 2021-04-12 2021-08-10 佛山市顺德区美的洗涤电器制造有限公司 用于处理图像的方法、处理器、控制装置及家用电器
CN113229767B (zh) * 2021-04-12 2022-08-19 佛山市顺德区美的洗涤电器制造有限公司 用于处理图像的方法、处理器、控制装置及家用电器
CN113076904B (zh) * 2021-04-15 2022-11-29 华南理工大学 一种基于深度学习的室外停车场空余车位检测方法
CN113076904A (zh) * 2021-04-15 2021-07-06 华南理工大学 一种基于深度学习的室外停车场空余车位检测方法
CN113688702A (zh) * 2021-08-12 2021-11-23 武汉工程大学 基于融合多特征的街景图像处理方法及系统
CN113688702B (zh) * 2021-08-12 2024-04-26 武汉工程大学 基于融合多特征的街景图像处理方法及系统
CN113822287A (zh) * 2021-11-19 2021-12-21 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质
CN113822287B (zh) * 2021-11-19 2022-02-22 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质
CN114638836B (zh) * 2022-02-18 2024-04-30 湖北工业大学 基于高度有效驱动与多层级特征融合的城市街景分割方法
CN114638836A (zh) * 2022-02-18 2022-06-17 湖北工业大学 基于高度有效驱动与多层级特征融合的城市街景分割方法
CN114972748A (zh) * 2022-04-28 2022-08-30 北京航空航天大学 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN114972748B (zh) * 2022-04-28 2024-05-28 北京航空航天大学 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN115063446A (zh) * 2022-05-12 2022-09-16 福州大学 一种辅助驾驶系统的城市街景实例分割方法
CN114648668A (zh) * 2022-05-18 2022-06-21 浙江大华技术股份有限公司 目标对象的属性分类方法、设备及计算机可读存储介质
CN116563553A (zh) * 2023-07-10 2023-08-08 武汉纺织大学 一种基于深度学习的无人机图像分割方法和系统
CN116563553B (zh) * 2023-07-10 2023-09-29 武汉纺织大学 一种基于深度学习的无人机图像分割方法和系统

Also Published As

Publication number Publication date
CN110188817B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN110188817A (zh) 一种基于深度学习的实时高性能街景图像语义分割方法
Baheti et al. Semantic scene segmentation in unstructured environment with modified DeepLabV3+
WO2022083784A1 (zh) 一种基于车联网的道路检测方法
CN105701508B (zh) 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法
CN104850845B (zh) 一种基于非对称卷积神经网络的交通标志识别方法
CN108510012A (zh) 一种基于多尺度特征图的目标快速检测方法
CN111598030A (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN109543502A (zh) 一种基于深度多尺度神经网络的语义分割方法
CN111046917B (zh) 基于深度神经网络的对象性增强目标检测方法
CN113177560A (zh) 一种普适性轻量级深度学习车辆检测方法
CN111666948B (zh) 一种基于多路聚合的实时高性能语义分割方法和装置
CN111898439A (zh) 基于深度学习的交通场景联合目标检测和语义分割方法
Tang et al. Integrated feature pyramid network with feature aggregation for traffic sign detection
CN113011336B (zh) 一种基于深度多分支聚合的实时街景图像语义分割方法
CN112489050A (zh) 一种基于特征迁移的半监督实例分割算法
US20220156528A1 (en) Distance-based boundary aware semantic segmentation
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN111476133A (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
Zhang et al. Few-shot structured domain adaptation for virtual-to-real scene parsing
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN113034506A (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN110598746A (zh) 一种基于ode求解器自适应的场景分类方法
CN115797629A (zh) 基于检测增强和多阶段边界框特征细化的实例分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant