CN111666948B - 一种基于多路聚合的实时高性能语义分割方法和装置 - Google Patents
一种基于多路聚合的实时高性能语义分割方法和装置 Download PDFInfo
- Publication number
- CN111666948B CN111666948B CN202010458635.1A CN202010458635A CN111666948B CN 111666948 B CN111666948 B CN 111666948B CN 202010458635 A CN202010458635 A CN 202010458635A CN 111666948 B CN111666948 B CN 111666948B
- Authority
- CN
- China
- Prior art keywords
- network
- semantic segmentation
- performance
- feature
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于多路聚合的实时高性能语义分割方法和装置,所述方法包括:准备语义分割图像训练集和测试数据集;对数据集图像进行下采样;将现有的轻量级分类网络改造为语义分割的基础特征提取网络;将基础特征提取网络所提取的特征图按大小分为4个尺度,取较小的三个尺度的特征图输入到不同分支路径中进行处理以构成多路网络;并用全局上下文模块处理最小尺度的特征图;利用特征变换模块对特征图进行变换,并按尺度的从低至高逐级聚合前两个步骤中得到的特征图形成预测结果;将预测结果与训练集提供的像素级标注图像进行对比,并使用反向传播算法进行训练以得到实时高性能语义分割网络模型;把测试数据集的图像输入至训练好的模型中得到分割结果。
Description
技术领域
本发明涉及计算机视觉技术,具体涉及一种基于多路聚合的实时高性能语义分割方法和装置。
背景技术
语义分割是计算机视觉中的基础任务,实现对图片中所有像素点的分类,对后续的计算机视觉任务具有至关重要的作用。在深度学习应用到图像语义分割之前,有最简单的像素级别的阈值法、基于像素聚类的分割法和图划分的分割法等多种方法。虽然这些方法的计算复杂度较低,但并没有提供令人满意的精确度。
语义分割广泛运用于许多实际场景,如机器视觉、自动驾驶和移动计算。因此,准确理解周围场景对实际应用的决策至关重要。运行时间是评估语义分割系统应用的重要因素。近年来,随着深度学习技术的不断发展,深度卷积神经网络被广泛的用于各种计算机视觉任务中,比如图像分类、目标跟踪等,并且取得了非常好的效果。目前,深度卷积神经网络的发展在语义分割上取得了显著进步,但大多数相关研究都集中在提高分割精度而不是模型的计算效率上,这些网络的有效性在很大程度上是取决于复杂的深度和宽度模型的设计,这需要涉及很多浮点计算操作和网络参数。但现实中的许多应用需要系统拥有实时的处理速度和快速的交互、响应,只考虑分割精度而不考虑时间消耗的做法导致他们缺乏良好的实用性。
发明内容
本发明的目的在于提供了一种在保持实时性的同时极大地提高了分割精度的基于多路聚合的实时图像语义分割方法,包括以下方案:
一种基于多路聚合的实时高性能语义分割方法,其特征在于包括以下步骤:
步骤A、准备语义分割图像训练集和测试数据集;
步骤B、对步骤A中的所有数据集图像进行下采样,减小输入图像的分辨率;
步骤C、以一轻量级分类网络为基础,删除其中一部分网络,改造为适用于语义分割的轻量高性能基础特征提取网络;
步骤D、将从步骤C中得到的轻量高性能基础特征提取网络依据所提取的特征图大小分为4个阶段,每个阶段的特征图大小分别为原始输入图像分辨率的1/4,1/8,1/16和1/32;并取其中的1/8,1/16和1/32三个尺度的特征图输入到不同的分支路径中进行处理构成多路网络;
步骤E、在每个分支路径上使用不同的多残差块来促进网络信息流动,以提高待融合的特征图的表现力;
步骤F、把轻量高性能基础特征提取网络得到的1/32尺度的特征图额外输入至全局上下文模块以得到富含语义信息的特征图;
步骤G、利用特征变换模块对特征图进行变换,并按尺度的从低至高逐级聚合步骤E和步骤F得到的特征图形成预测结果;
步骤H、将步骤G得到的预测结果与数据集提供的像素级标注图像进行对比,并使用反向传播算法进行训练以得到实时高性能语义分割网络模型,把测试数据集中的图像输入至训练好的模型中得到对应的语义分割预测结果。
进一步的,所述步骤B中,所述对步骤A中的数据集图像进行下采样的具体方法为:在网络训练阶段,将输入图像从第一分辨率下采样至第二分辨率,在测试阶段,将输入图像的分辨率下采样至第三分辨率,其中第一分辨率大于第二分辨率,第二分辨率大于第三分辨率。
进一步的,所述步骤C中,所述轻量级分类网络为ResNet-18,将ResNet-18最后一个残差模块后面的所有网络部分去掉,形成轻量高性能基础特征提取网络,所述轻量高性能基础特征提取网络包括一个7×7的标准卷积、一个3×3的最大池化和八个3×3的残差模块。
进一步的,所述步骤D中,根据轻量高性能基础特征提取网络所提取的特征图大小将下采样过程分为4个阶段,这些阶段对应的输出特征图分别为原始输入图像大小的1/4、1/8、1/16和1/32;并将轻量高性能基础特征提取网络中1/8、1/16和1/32尺度的特征图输入到三个单独的分支路径中进行特征提取,在每个分支路径的开头处都包含有一个3×3的卷积层和BN层来对轻量高性能基础特征提取网络的特征图进行降维。
进一步的,所述步骤E中,所述多残差块由多个网络层构成,包括两个3×3的卷积层、两个BN层和一个ReLU激活函数,每个卷积层的后面跟着一个BN层操作,且所有网络层通过串联方式连接,最后再将输出与输入特征图相加后用ReLU函数激活。
进一步的,所述多残差块包括位于第一分支路径的第一残差块,第二分支路径的第二残差块,第三分支路径的第三残差块,所述第三分支路径和所述全局上下文模块连接;
在第三分支路径中,所述第三残差块为孔洞率为2和4、组数为256的3×3组卷积;在第二分支路径中,所述第二残差块为孔洞率为1、组数为128的3×3组卷积;在第一分支路径中,所述第一残差块为3×3标准卷积。
进一步的,所述步骤F中,所述全局上下文模块包括一个全局平均池化、3×3的卷积层和BN层,所述步骤F具体包括:首先使用一个全局平均池化对轻量高性能基础特征提取网络的输出进行处理,得到一个1×1大小的特征图;然后,经过一个3×3的卷积层和BN层并利用上采样操作将该特征图放大回原来的尺寸;最后,将其与第三分支路径的输出特征图融合在一起。
进一步的,所述步骤G中,所述特征变换模块包括串联的:3×3的卷积层、全局平均池化层、1×1的卷积层、BN层、ReLU层、Linear层和Sigmoid激活函数。
进一步的,所述步骤H中,在训练阶段的数据预处理过程中首先对输入图像进行归一化和正则化处理,然后,依次使用水平翻转、随机缩放和随机裁剪三种增强策略来扩大数据。
本发明同时还提供一种计算装置,所述存储器存储有一段计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于多路聚合的实时高性能语义分割方法。
技术效果:
本发明的提供了一种基于多路聚合的实时图像语义分割方法,可在保持实时性的同时极大地提高了图像语义分割精度,从而使实时图像语义分割应用成为了可能。
附图说明
图1为本发明实施例的整个实现流程图;
图2为本发明实施例的整个网络结构图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
参见图1,本实施例提供一种基于多路聚合的实时图像语义分割方法,包括以下步骤:
步骤A、准备语义分割图像训练集和测试数据集;
步骤B、对步骤A中的所有数据集图像进行下采样,减小输入图像的分辨率;
步骤C、以现有的轻量级分类网络为基础,改造为适用于语义分割的轻量高性能基础特征提取网络;
步骤D、将从步骤C中得到的轻量高性能基础特征提取网络依据所提取的特征图大小分为4个阶段,每个阶段的特征图大小分别为原始输入图像分辨率的1/4,1/8,1/16和1/32;并取其中的1/8,1/16和1/32三个尺度的特征图输入到不同的分支路径中进行处理构成多路网络;
步骤E、在每个分支路径上使用不同的多残差块来促进网络信息流动,以提高待融合的特征图的表现力;
步骤F、把轻量高性能基础特征提取网络得到的1/32尺度的特征图额外输入至专门设计的全局上下文模块以得到富含语义信息的特征图;
步骤G、利用特征变换模块对特征图进行变换,并按尺度的从低至高逐级聚合步骤E和步骤F得到的特征图形成预测结果;
步骤H、将步骤G得到的预测结果与数据集提供的像素级标注图像进行对比,并使用反向传播算法进行训练以得到实时高性能语义分割网络模型。把测试数据集中的图像输入至训练好的模型中得到对应的语义分割预测结果。
各步骤具体说明如下。
步骤A、准备语义分割图像训练集和测试数据集;
所述数据集为公开数据集Cityscapes,Cityscapes数据集是语义分割领域最具挑战性的大型公开数据集之一。Cityscapes数据集主要聚焦于街景理解任务,其中包含了5000张带有精细逐像素语义标注的高分辨率图像(高达1024×2048)。该数据集通过安装在汽车上的摄像机拍摄而来,图像中的场景主要来自五十多个不同的城市、不同的季节以及变化的背景。除了上述的5000张图像外,Cityscapes数据集还提供了额外的20000张带有粗糙语义标注的高分辨率图像。这些额外的数据可以被用于网络的预训练过程,以提高模型的分割精度。根据场景内容,Cityscapes数据集通常被标注为30个语义类别。我们的实验只使用了其中的19个常见语义类别,包括道路、人行道、建筑、墙壁、栅栏、柱子、红绿灯、交通标志、植被、地形、天空、人、骑手、汽车、卡车、公共汽车、火车、摩托车和自行车。
步骤B、对步骤A中的数据集中的所有图像进行下采样,减小图像的分辨率;
对步骤A中的数据集图像进行下采样的具体方法为:对于Cityscapes数据集,我们将输入图像下采样到一个合适的大小,从1024×2048下采样至1024×1024后用于网络训练,而测试阶段我们选择将输入图像的分辨率下采样至992×992大小。一般来说,输入图像的分辨率越高,模型的分割精度越高,但是消耗的时间也会相应地成倍数增长。因此,限制输入图像的分辨率可以降低我们方法的复杂度,并提高预测速度。
步骤C、以现有的轻量级分类网络为基础,改造为适用于语义分割的轻量高性能基础特征提取网络;
我们发现,轻量化网络语义分割任务中展现了十分优秀的结果,能在不牺牲准确率的同时还能提升速度。实时高性能语义分割算法使得语义分割走入实际应用成为了可能。不管是语义分割还是其他的计算机视觉任务经常会使用到现有的轻量级分类网络ResNet。本实施例中,为了保证预训练参数可以继续使用,遵循全卷积神经网络的思路将ResNet-18最后一个残差模块后面的所有网络部分去掉。因此,轻量高性能基础特征提取网络主要由一个7×7的标准卷积、一个3×3的最大池化和十六个3×3的残差模块组成。因为在网络的开头处已经使用了一个最大池化对输入图像进行下采样,而且网络的层数也比较少,所以轻量高性能基础特征提取网络具有速度快、资源消耗少等特点。而在轻量高性能基础特征提取网络中残差模块又占据了网络层数的90%左右,这就保证了网络具有较好的特征提取能力。
步骤D、将从步骤C中得到的轻量高性能基础特征提取网络依据所提取的特征图大小分为4个阶段,每个阶段的特征图大小分别为原始输入图像分辨率的1/4,1/8,1/16和1/32;并取其中的1/8,1/16和1/32三个尺度的特征图输入到不同的分支路径中进行处理构成多路网络;
不再使用单独的解决多尺度问题的模块,而是通过多分支路径的网络结构将特征图逐级融合在一起来捕获多尺度目标。根据轻量高性能基础特征提取网络所提取的特征图大小将下采样过程分为4个阶段,这些阶段对应的输出特征图分别为原始输入图像大小的1/4、1/8、1/16和1/32。将轻量高性能基础特征提取网络中1/8、1/16和1/32尺度的特征图输入到三个单独的分支路径中进行特征提取。在每个分支路径的开头处都包含有一个3×3的卷积层和BN层来对轻量高性能基础特征提取网络的特征图进行降维。
步骤E、在每个分支路径上使用不同的多残差块来促进网络信息流动,以提高待融合的特征图的表现力;
多残差块由多个网络层构成,主要包括两个3×3的卷积层、两个BN层和一个ReLU激活函数。每个卷积层的后面跟着一个BN操作,且所有网络层通过串联方式连接,最后再将输出与输入特征图相加后用ReLU函数激活。因为每个分支路径的输入特征图大小和维度不同,为了降低计算复杂度和时间消耗,每个路径所使用的多残差块是有差别的。
所述多残差块包括位于第一分支路径的第一残差块,位于第二分支路径的第二残差块,位于第三分支路径的第三残差块,所述第三分支路径和所述全局上下文模块连接;在第三分支路径中,在第三分支路径中,特征图的维度比较高,我们选用孔洞率为2和4、组数为256的3×3组卷积来降低消耗和增加网络的语义信息。在位于中间的第二分支路径中,特征图的维度和尺寸都比较大,我们选用孔洞率为1、组数为128的3×3组卷积来控制复杂度和消耗。在第一分支路径中,特征图的维度比较小,我们选用3×3标准卷积来提高网络的特征提取能力。与ResNet的残差模块相比,多残差块具有更好的特征提取能力和包含更多的语义信息,同时能够较好地控制时间和资源消耗。
步骤F、把轻量高性能基础特征提取网络得到的1/32尺度的特征图额外输入至专门设计的全局上下文模块以得到富含语义信息的特征图:
在轻量高性能基础特征提取网络的末尾处加入全局上下文模块来辅助系统判断。具体来说,首先使用一个全局平均池对轻量高性能基础特征提取网络的输出进行处理,得到一个1×1大小的特征图。该特征图具有最大的感受野面积,它包含了丰富的全局上下文信息。然后,经过一个3×3的卷积层和BN层并利用上采样操作将该特征图放大回原来的尺寸。最后,将其与第三个分支路径的输出特征图融合在一起。全局上下文模块能够有效地获取到图像的全局上下文,为网络补充更多的语义信息。
步骤G、利用特征变换模块对特征图进行变换,并按尺度的从低至高逐级聚合步骤E和步骤F得到的特征图形成预测结果:
在特征进行聚合前使用特征变换模块对特征图进行变换。注意力机制其实就是一种参数加权,根据任务对原有特征置予不同的重要性,即表现为权重大小不同。特征变换模块主要由3×3的卷积层、全局平均池化层、1×1的卷积层、BN层、ReLU层、Linear层和Sigmoid激活函数串联构成。特征变换模块的结构可以在网络训练的过程中找到一组合适的权重参数来强调或者抑制不同的信息,对特征进行融合前的变换。
步骤H、将步骤G得到的预测结果与数据集提供的像素级标注图像进行对比,并使用反向传播算法进行训练以得到实时高性能语义分割网络模型。把测试数据集中的图像输入至训练好的模型中得到对应的语义分割预测结果:
在训练阶段的数据预处理过程中,我们先对输入图像进行归一化和正则化处理,屏蔽量纲影响。然后,依次使用水平翻转、随机缩放(系数为0.75、1.0、1.25、1.5、1.75和2.0)和随机裁剪三种普通的增强策略来扩大数据。而测试阶段则是选择将输入图像的分辨率下采样至992×992大小。
图2给出本发明实施例的整个网络结构图。在图2中,ELBN表示为轻量高性能基础特征提取网络,其中sub-network1~4分别表示四个不同的下采样阶段;MBA表示为多路网络,其中CB表示一个3x3的卷积层和BN操作,MRB1~3表示了最后一个分支路径至第一个分支路径所使用的多残差块,FTM表示特征变换模块,“+”和“UP”则分别表示特征聚合和上采样操作,AuxLoss表示辅助损失;最后GCM表示网络的全局上下文模块。
表1为发明与其他流行的语义分割方法在Cityscapes测试数据集上的比较结果。
表1
在表1中,DeepLabv2对应L.-C.Chen等人提出的方法(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,A.L.Yuille.Deeplab:Semantic image segmentation with deepconvolutional nets,atrous convolution,and fully connected crfs[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2017,40(4):834–848);
PSPNet对应H.Zhao等人提出的方法(H.Zhao,J.Shi,X.Qi,X.Wang,J.Jia.Pyramidscene parsing network[C].Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2017,2881–2890);
SegNet对应V.Badrinarayanan等人提出的方法(V.Badrinarayanan,A.Kendall,R.Cipolla.Segnet:A deep convolutional encoder-decoder architecture for imagesegmentation[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2017,39(12):2481–2495);
ENet对应A.Paszke等人提出的方法(A.Paszke,A.Chaurasia,S.Kim,E.Culurciello.Enet:A deep neural network architecture for real-time semanticsegmentation[J].arXiv preprint arXiv:1606.02147,2016);
SQNet对应M.Treml等人提出的方法(M.Treml,J.Arjona-Medina,T.Unterthiner,R.Durgesh,F.Friedmann,P.Schuberth,A.Mayr,M.Heusel,M.Hofmarcher,M.Widrich,etal.Speeding up semantic segmentation for autonomous driving[C].Proceedingsof the International Conference on Neural Information Processing SystemsWorkshop,2016,volume2,7);
CRF-RNN对应S.Zheng等人提出的方法(S.Zheng,S.Jayasumana,B.Romera-Paredes,V.Vineet,Z.Su,D.Du,C.Huang,P.H.Torr.Conditional random fields asrecurrent neural networks[C].Proceedings of the IEEE International Conferenceon Computer Vision,2015,1529–1537);
FCN-8S对应J.Long等人提出的方法(J.Long,E.Shelhamer,T.Darrell.Fullyconvolutional networks for semantic segmentation[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2015,3431–3440);
FRRN对应T.Pohlen等人提出的方法(T.Pohlen,A.Hermans,M.Mathias,B.Leibe.Full-resolution residual networks for semantic segmentation in streetscenes[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2017,4151–4160);
ERFNet对应E.Romera等人提出的方法(E.Romera,J.M.Alvarez,L.M.Bergasa,R.Arroyo.Erfnet:Efficient residual factorized convnet for real-time semanticsegmentation[J].IEEE Transactions on Intelligent Transportation Systems,2017,19(1):263–272);
ICNet对应H.Zhao等人提出的方法(H.Zhao,X.Qi,X.Shen,J.Shi,J.Jia.Icnetfor real-time semantic segmentation on high-resolution images[C].Proceedingsof the European Conference on Computer Vision,2018,405–420);
TwoColumn对应Z.Wu等人提出的方法(Z.Wu,C.Shen,A.v.d.Hengel.Real-timesemantic image segmentation via spatial sparsity[J].arXiv preprint arXiv:1712.00213,2017);
SwiftNetRN对应M.Orsic等人提出的方法(M.Orsic,I.Kreso,P.Bevandic,S.Segvic.In defense of pre-trained imagenet architectures for real-timesemantic segmentation of road-driving images[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2019,12607–12616.);
LEDNet对应Y.Wang等人提出的方法(Y.Wang,Q.Zhou,J.Liu,J.Xiong,G.Gao,X.Wu,L.J.Latecki.Lednet:A lightweight encoder-decoder network for real-timesemantic segmentation[C].Proceedings of the IEEE International Conference onImage Processing,2019,1860–1864);
BiSeNet1对应C.Yu等人提出的方法(C.Yu,J.Wang,C.Peng,C.Gao,G.Yu,N.Sang.Bisenet:Bilateral segmentation network for real-time semanticsegmentation[C].Proceedings of the European Conference on Computer Vision,2018,325–341);
BiSeNet2对应C.Yu等人提出的方法(C.Yu,J.Wang,C.Peng,C.Gao,G.Yu,N.Sang.Bisenet:Bilateral segmentation network for real-time semanticsegmentation[C].Proceedings of the European Conference on Computer Vision,2018,325–341.);
DFANet对应H.Li等人提出的方法(H.Li,P.Xiong,H.Fan,J.Sun.Dfanet:Deepfeature aggregation for real-time semantic segmentation[C].Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2019,9522–9531)。
实施例二
基于与前述实施例一中的一种基于多路聚合的实时图像语义分割方法同样的发明构思,本发明还提供一种计算装置,包括一个或多个存储器处理器、存储器,所述存储器存储有计算机程序,该程序被处理器执行时实现前文所述一种基于多路聚合的实时图像语义分割方法的任一方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (9)
1.一种基于多路聚合的实时高性能语义分割方法,其特征在于包括以下步骤:
步骤A、准备语义分割图像训练集和测试数据集;
步骤B、对步骤A中的所有数据集图像进行下采样,减小输入图像的分辨率;
步骤C、以一轻量级分类网络为基础,删除其中一部分网络,改造为适用于语义分割的轻量高性能基础特征提取网络;
步骤D、将从步骤C中得到的轻量高性能基础特征提取网络依据所提取的特征图大小分为4个阶段,每个阶段的特征图大小分别为原始输入图像分辨率的1/4,1/8,1/16和1/32;并取其中的1/8,1/16和1/32三个尺度的特征图输入到不同的分支路径中进行处理构成多路网络;
步骤E、在每个分支路径上使用不同的多残差块来促进网络信息流动,以提高待融合的特征图的表现力;所述步骤E中,所述多残差块由多个网络层构成,包括两个3×3的卷积层、两个BN层和一个ReLU激活函数,每个卷积层的后面跟着一个BN层操作,且所有网络层通过串联方式连接,最后再将输出与输入特征图相加后用ReLU函数激活;
步骤F、把轻量高性能基础特征提取网络得到的1/32尺度的特征图额外输入至全局上下文模块以得到富含语义信息的特征图;
步骤G、利用特征变换模块对特征图进行变换,并按尺度的从低至高逐级聚合步骤E和步骤F得到的特征图形成预测结果;
步骤H、将步骤G得到的预测结果与数据集提供的像素级标注图像进行对比,并使用反向传播算法进行训练以得到实时高性能语义分割网络模型,把测试数据集中的图像输入至训练好的模型中得到对应的语义分割预测结果。
2.根据权利要求1所述的基于多路聚合的实时高性能语义分割方法,其特征在于:所述步骤B中,所述对步骤A中的数据集图像进行下采样的具体方法为:在网络训练阶段,将输入图像从第一分辨率下采样至第二分辨率,在测试阶段,将输入图像的分辨率下采样至第三分辨率,其中第一分辨率大于第二分辨率,第二分辨率大于第三分辨率。
3.根据权利要求1所述的基于多路聚合的实时高性能语义分割方法,其特征在于:所述步骤C中,所述轻量级分类网络为ResNet-18,将ResNet-18最后一个残差模块后面的所有网络部分去掉,形成轻量高性能基础特征提取网络,所述轻量高性能基础特征提取网络包括一个7×7的标准卷积、一个3×3的最大池化和八个3×3的残差模块。
4.根据权利要求1所述的基于多路聚合的实时高性能语义分割方法,其特征在于:所述步骤D中,根据轻量高性能基础特征提取网络所提取的特征图大小将下采样过程分为4个阶段,这些阶段对应的输出特征图分别为原始输入图像大小的1/4、1/8、1/16和1/32;将轻量高性能基础特征提取网络中1/8、1/16和1/32尺度的特征图输入到三个单独的分支路径中进行特征提取,在每个分支路径的开头处都包含有一个3×3的卷积层和BN层来对轻量高性能基础特征提取网络的特征图进行降维。
5.根据权利要求1所述的基于多路聚合的实时高性能语义分割方法,其特征在于:所述多残差块包括位于第一分支路径的第一残差块,第二分支路径的第二残差块,第三分支路径的第三残差块,所述第三分支路径和所述全局上下文模块连接;
在第三分支路径中,所述第三残差块为孔洞率为2和4、组数为256的3×3组卷积;在第二分支路径中,所述第二残差块为孔洞率为1、组数为128的3×3组卷积;在第一分支路径中,所述第一残差块为3×3标准卷积。
6.根据权利要求1所述的基于多路聚合的实时高性能语义分割方法,其特征在于:所述步骤F中,所述全局上下文模块包括一个全局平均池化、3×3的卷积层和BN层,所述步骤F具体包括:首先使用一个全局平均池化对轻量高性能基础特征提取网络的输出进行处理,得到一个1×1大小的特征图;然后,经过一个3×3的卷积层和BN层并利用上采样操作将该特征图放大回原来的尺寸;最后,将其与第三分支路径的输出特征图融合在一起。
7.根据权利要求1所述的基于多路聚合的实时高性能语义分割方法,其特征在于:所述步骤G中,所述特征变换模块包括串联的:3×3的卷积层、全局平均池化层、1×1的卷积层、BN层、ReLU层、Linear层和Sigmoid激活函数。
8.根据权利要求1所述的基于多路聚合的实时高性能语义分割方法,其特征在于:所述步骤H中,在训练阶段的数据预处理过程中首先对输入图像进行归一化和正则化处理,然后,依次使用水平翻转、随机缩放和随机裁剪三种增强策略来扩大数据。
9.一种计算装置,包括一个或多个处理器、存储器,其特征在于,所述存储器存储有一段计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于多路聚合的实时高性能语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010458635.1A CN111666948B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多路聚合的实时高性能语义分割方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010458635.1A CN111666948B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多路聚合的实时高性能语义分割方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666948A CN111666948A (zh) | 2020-09-15 |
CN111666948B true CN111666948B (zh) | 2023-05-30 |
Family
ID=72384573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010458635.1A Active CN111666948B (zh) | 2020-05-27 | 2020-05-27 | 一种基于多路聚合的实时高性能语义分割方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666948B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011336B (zh) * | 2021-03-19 | 2022-05-27 | 厦门大学 | 一种基于深度多分支聚合的实时街景图像语义分割方法 |
CN113255675B (zh) * | 2021-04-13 | 2023-10-10 | 西安邮电大学 | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 |
CN113450311B (zh) * | 2021-06-01 | 2023-01-13 | 国网河南省电力公司漯河供电公司 | 基于语义分割和空间关系的带销螺丝缺陷检测方法及系统 |
CN113658189B (zh) * | 2021-09-01 | 2022-03-11 | 北京航空航天大学 | 一种跨尺度特征融合的实时语义分割方法和系统 |
CN114092815B (zh) * | 2021-11-29 | 2022-04-15 | 自然资源部国土卫星遥感应用中心 | 一种大范围光伏发电设施遥感智能提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320505A (zh) * | 2008-07-04 | 2008-12-10 | 浙江大学 | 基于多路网络视频流并行处理的分区视频监控方法 |
CN109190626A (zh) * | 2018-07-27 | 2019-01-11 | 国家新闻出版广电总局广播科学研究院 | 一种基于深度学习的多路径特征融合的语义分割方法 |
CN110188768A (zh) * | 2019-05-09 | 2019-08-30 | 南京邮电大学 | 实时图像语义分割方法及系统 |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875752B (zh) * | 2018-03-21 | 2022-06-07 | 北京迈格威科技有限公司 | 图像处理方法和装置、计算机可读存储介质 |
-
2020
- 2020-05-27 CN CN202010458635.1A patent/CN111666948B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320505A (zh) * | 2008-07-04 | 2008-12-10 | 浙江大学 | 基于多路网络视频流并行处理的分区视频监控方法 |
CN109190626A (zh) * | 2018-07-27 | 2019-01-11 | 国家新闻出版广电总局广播科学研究院 | 一种基于深度学习的多路径特征融合的语义分割方法 |
CN110188768A (zh) * | 2019-05-09 | 2019-08-30 | 南京邮电大学 | 实时图像语义分割方法及系统 |
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111666948A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666948B (zh) | 一种基于多路聚合的实时高性能语义分割方法和装置 | |
CN110188817B (zh) | 一种基于深度学习的实时高性能街景图像语义分割方法 | |
Dong et al. | Real-time high-performance semantic image segmentation of urban street scenes | |
Ha et al. | MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes | |
Baheti et al. | Semantic scene segmentation in unstructured environment with modified DeepLabV3+ | |
Treml et al. | Speeding up semantic segmentation for autonomous driving | |
Chen et al. | Fast vehicle detection algorithm in traffic scene based on improved SSD | |
Sun et al. | Multi-feature fusion network for road scene semantic segmentation | |
Zhang et al. | Lightweight and efficient asymmetric network design for real-time semantic segmentation | |
CN110956126A (zh) | 一种联合超分辨率重建的小目标检测方法 | |
Zhai et al. | Optical flow estimation using channel attention mechanism and dilated convolutional neural networks | |
CN113011336B (zh) | 一种基于深度多分支聚合的实时街景图像语义分割方法 | |
Hu et al. | Efficient fast semantic segmentation using continuous shuffle dilated convolutions | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
Lu et al. | Mfnet: Multi-feature fusion network for real-time semantic segmentation in road scenes | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
Mazhar et al. | Block attention network: a lightweight deep network for real-time semantic segmentation of road scenes in resource-constrained devices | |
CN114359554A (zh) | 一种基于多感受野上下文语义信息的图像语义分割方法 | |
Hu et al. | LDPNet: A lightweight densely connected pyramid network for real-time semantic segmentation | |
Li et al. | MCANet: multi-scale contextual feature fusion network based on Atrous convolution | |
Elhassan et al. | PPANet: Point-Wise Pyramid Attention Network for Semantic Segmentation | |
Zhang et al. | Real-time semantic segmentation for road scene | |
Zhang et al. | A lightweight multi-dimension dynamic convolutional network for real-time semantic segmentation | |
Singha et al. | Urban street scene analysis using lightweight multi-level multi-path feature aggregation network | |
Ma et al. | Rtsnet: Real-time semantic segmentation network for outdoor scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |