CN112634276A - 一种基于多尺度视觉特征提取的轻量级语义分割方法 - Google Patents
一种基于多尺度视觉特征提取的轻量级语义分割方法 Download PDFInfo
- Publication number
- CN112634276A CN112634276A CN202011424180.8A CN202011424180A CN112634276A CN 112634276 A CN112634276 A CN 112634276A CN 202011424180 A CN202011424180 A CN 202011424180A CN 112634276 A CN112634276 A CN 112634276A
- Authority
- CN
- China
- Prior art keywords
- network
- training
- convolution
- feature extraction
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 title claims abstract description 48
- 230000000007 visual effect Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004040 coloring Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 abstract description 2
- 230000010354 integration Effects 0.000 abstract description 2
- 239000011800 void material Substances 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度视觉特征提取的轻量级语义分割方法,包括以下步骤:网络建立:首先构建基于多尺度特征提取的轻量级卷积神经网络LitNet,通过特征提取器提取图像特征,将特征传入融合空洞卷积的空间金字塔模块提取图像多尺度特征,最后通过简单上采样模块完成特征整合,恢复图像分辨率;网络训练:使用Tensorflow框架搭建网络结构,使用交叉熵函数作为损失函数,使用Adam算法优化训练参数,并在训练过程中采用早停策略防止网络训练过拟合,以达到最优训练效果;网络测试:将测试图像输入网络,得到语义分割结果,并计算mIoU与FPS,对网络性能进行评估,经过测试,本发明在CamVid数据集上模型大小为10M,mIoU为70.24%,可以达到34FPS,可以满足实时分割要求。
Description
技术领域
本发明属于图像分割技术领域,涉及一种基于多尺度视觉特征提取的轻量级语义分割方法。
背景技术
在无人机,无人驾驶等高机动性的自主决策终端系统中,如何实现准确的环境感知是系统运行的重要基础,可通过对设备采集图片进行知识推断,完成设备的场景理解。图像语义分割是AI领域的一个重要分支,是机器视觉技术中关于图像理解的重要一环。语义分割(semantic segmentation)是从粗推理到精推理的过程,即通过查找图像像素所属类别,识别图中存在的内容以及位置,最终完成图像中各物体对象的整体标注,形成图像掩膜或输出每个像素所属类别。近年来随着深度学习的普及,许多语义分割问题正在采用深层次的结构来解决,最常见的是卷积神经网络(CNN),在精度及效率上超过其他方法。然而,此类方法使用了复杂的网络结构,计算资源和运算时间要求较高,在资源受限的嵌入式环境中受到极大的应用限制。
目前各应用语义分割任务的领域多属于移动端系统或高机动性系统,语义分割网络模型大且推理速度慢,现有方法进行语义分割时为实现轻量化一般的做法有两种:减小图片大小和降低模型复杂度。减小图片大小可以最直接地减少运算量,但是图像会丢失掉大量的空间细节从而影响精度,不易完成小尺度物体的分割。降低模型复杂度则会导致模型的特征提取能力减弱,严重影响分割精度。因此需要一种高精度且能够快速标注多尺度物体的语义分割方法。
发明内容
本发明的目的是提供一种基于多尺度视觉特征提取的轻量级语义分割方法,解决了现有各应用语义分割任务的领域中存在的语义分割网络模型大且推理速度慢的问题。
本发明所采用的技术方案是,设计一种基于多尺度视觉特征提取的轻量级网络模型LitNet的语义分割方法,具体按以下步骤实施:
步骤1,构建基于多尺度特征提取的轻量级卷积神经网络LitNet;
步骤2,将经步骤1建立的神经网络进行训练;
步骤3,将经步骤2训练好的网络进行测试。
本发明的特点还在于:
其中步骤1的具体实施过程包括:所述多尺度特征提取的轻量级卷积神经网络结构包括特征提取模块、多尺度融合模块和上采样模块三部分,具体按以下步骤实施:
步骤1.1,图像输入网络后,首先通过特征提取模块进行下采样提取特征;
步骤1.2,再经过多尺度融合模块融合上下文信息,提取图像多尺度特征;
步骤1.3,最后通过上采样模块恢复图像尺寸,提高图像分辨率,输出分割结果;
其中特征提取模块具体按以下步骤实施:
步骤1.1.1,输入图像,设置设置width multiplerα为1;
步骤1.1.2,对输入图像进行一次普通卷积操作,压缩1次h*w,将通道数调整为32*α通道,并进行BatchNormalization与relu激活;
步骤1.1.3,将步骤1.1.2中所得特征图传入反残差卷积块进1次反残差卷积,得到通道数为16的特征图;
步骤1.1.4,对步骤1.1.3所得特征图进行16次反残差卷积操作,输出320通道的特征图;
其中反残差卷积构造步骤为:
首先通过1*1卷积进行通道扩张,并进行BatchNormalization与relu激活;然后通过3*3可分离卷积,并引入空洞卷积进行处理;进而通过1*1卷积调整通道,并进行BatchNormalization与relu激活;最后引入残差网络结构,将输入与最终卷积输出进行融合;
其中多尺度融合模块具体按以下步骤实施:
步骤1.2.1,将特征提取模块所得特征图传入多尺度融合模块,构造平均全局池化层、膨胀率分别为1,6,12,18的空洞卷积模块;
步骤1.2.2,获取整体特征然后进行1x1卷积调整通道数,并恢复分辨率;,
步骤1.2.3,通过1*1卷积获取整体特征,改变通道数;
步骤1.2.4,分别使用膨胀率为6,12,18的空洞卷积提取到不同尺度下的特征;
步骤1.2.5,将步骤1.2.2~1.2.4中获取的特征进行合并,此时特征图的通道数为1280;
步骤1.2.6,通过构造1x1卷积调整通道数,得到融合后的256维特征图;
其中上采样模块具体按以下步骤实施:
步骤1.3.1,多尺度融合模块中得到256维特征图,构造上采样模块;
步骤1.3.2,对特征图进行三次双线性插值,得到上采样后的特征图;
步骤1.3.3,利用1*1卷积将通道数调整为分割类别数;
步骤1.3.4,构造reshape用于将特征图恢复为原始输入图片大小;
其中步骤2中网络训练为使用CamVid数据集对网络进行训练,具体按以下步骤实施:
步骤2.1,获取预训练权重;
步骤2.2,将数据集数据打乱,将90%的图像用于训练,10%的图像用于估计;
步骤2.3,采用交叉熵损失函数,每个epoch之后输出训练损失与训练准确率以及验证损失与验证准确率;
步骤2.4,初始学习率定为1e-3,训练采用学习率自动下降的方式;
步骤2.5,val_loss2次不下降就将学习率降为之前的1/2继续训练;
步骤2.6,val_loss6次不下降时即认为训练完成,停止训练并保存模型;其中步骤2.2的具体操作过程包括:
首先将训练集按照预先设定的batch输入进网络,然后随机random数据集为每张图片在[0.7,1.3]范围内任意选择一种尺寸比例进行缩放,再然后按照0.5的概率大小对全部图片做左右变换的翻转处理,再将图片调整色彩,最后将训练图片的大小统一裁剪为设定大小;
其中步骤3中网络测试的具体过程为将测试图像输入网络,得到语义分割结果,并计算mIoU与FPS,对网络性能进行评估:
步骤3.1,获取数据集中分割类别的RGB颜色;
步骤3.2,设定分类数及输入图像大小;
步骤3.3,加载模型并读取数据集;
步骤3.4,将数据集图像每一帧传入分割模型,对像素点进行分类;
步骤3.5,通过像素点分类标签,对分割图像上色,并调整为原图像大小。
本发明的有益效果是
本发明的一种基于多尺度视觉特征提取的轻量级语义分割方法,针对于计算资源受限设备,采用轻量化设计,模型大小仅有10M,完全可以满足各种移动设备或其他嵌入式设备的语义分割要求,还采用了多尺度特征提取设计,使得图像中各种尺度的物体均可进行分割,以满足各种情况下的作业要求。
附图说明
图1是本发明的一种基于多尺度视觉特征提取的轻量级语义分割方法中语义分割网络结构示意图;
图2是本发明的一种基于多尺度视觉特征提取的轻量级语义分割方法中改进MobileNetV2网络结构图;
图3是本发明的一种基于多尺度视觉特征提取的轻量级语义分割方法中多尺度融合模块结构图;
图4是本发明的一种基于多尺度视觉特征提取的轻量级语义分割方法中后阶段网络训练loss曲线;
图5是本发明的一种基于多尺度视觉特征提取的轻量级语义分割方法中网络分割结果。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了一种基于多尺度视觉特征提取的轻量级语义分割方法,如图1所示,具体按以下步骤实施:
步骤1,构建基于多尺度特征提取的轻量级卷积神经网络LitNet,通过特征提取器提取图像特征,将特征传入融合空洞卷积的空间金字塔模块提取图像多尺度特征,最后通过简单上采样模块完成特征整合,恢复图像分辨率;
其网络结构共分为3个模块:1)特征提取模块;2)多尺度融合模块;3)上采样模块;
图像输入网络后,首先通过特征提取模块进行下采样提取特征,再经过多尺度融合模块融合上下文信息,提取图像多尺度特征,最后通过上采样模块恢复图像尺寸,提高图像分辨率,输出分割结果;
步骤2,网络训练:本发明使用Tensorflow框架搭建网络结构,使用交叉熵函数作为损失函数,使用Adam算法优化训练参数,并在训练过程中采用早停策略防止网络训练过拟合,以达到最优训练效果,;
步骤3,网络测试:将测试图像输入网络,得到语义分割结果,并计算mIoU与FPS,对网络性能进行评估。
1)特征提取模块;对于语义分割任务来说,最为重要的是特征提取模块,此模块用于提取图像从低维的线性特征到高维抽象特征,分割网络的大部分参数以及计算量来自于这个模块,如图2所示,本发明为保证精度的同时寻求更快的分割速度,通过引进并改进了一种适用于移动设备的轻量化网络MobileNetV2,用于模型轻量化,该网络可以大大减小计算量从而使运行速度显著提升;
MobileNetV2在深度卷积前增添了点卷积,之所以这么做,由于DW卷积的输出通道数只由输入通道数决定,自身无法更改通道数,这就面临的一个问题是假若上层输出的输入道数过少,则深度卷积仅仅可以对空间中维度较低的特征进行提取并且激活函数不可以有效地发挥在高维空间进行非线性变换提取多样特征,输出效果必然不会令人满意,所以为了处理这个现象,MobileNetV2先构建一个升维系数是6的PW特意用来期望提升通道维度在高维提取特征,后面再结合一个DW卷积,经历了这样的阶段,无论输入通道数多大,深度卷积都可以通过逐点卷积在更高的维度工作来提取特征;由于MobileNetV2从高维向低维转换使网络丢失空间信息,本发明引入空洞卷积增大感受野,增加图像空间信息,对于卷积神经网络,浅层网络用于提取低级特征(点,线),深层网络用于提取高级特征(物体),高级特征往往与上下文信息有关,因此我们将网络6-16层融合不同膨胀率的空洞卷积;
由于使用轻量级网络作为特征提取器,分割精度不可避免地会下降,因此考虑到防止精度下降过于严重,为使模型的综合性能达到最佳,更好地平衡模型的分割精度和速度,在MobileNetV2中又引入了一种新的非线性激活函数Swish,Swish的定义如下:
swish(x)=xgσ(βx) (1)
其中,
非线性激活函数对于深层神经网络的训练能否成功起着关键的作用,由于网络层数越来越深,会使输入特征图的分辨率逐渐减小,考虑到要减弱应用非线性激活函数的成本,因此在MobileNetV2网络的深层部分将ReLU激活函数用Swish替换,Swish在网络深层部分表现比较明显,虽然会带来一点延迟,但可以弥补只用ReLU激活函数的MobileNetV2产生的潜在精度损失;
本发明的特征提取模块具体按以下步骤实施:
步骤1.1.1,输入图像,设置设置width multiplerα为1;
步骤1.1.2,对输入图像进行一次普通卷积操作,压缩1次h*w,将通道数调整为32*α通道,并进行BatchNormalization与relu激活;
步骤1.1.3,将步骤1.1.2中所得特征图传入反残差卷积块进1次反残差卷积,得到通道数为16的特征图;反残差卷积构造步骤为:
首先通过1*1卷积进行通道扩张,并进行BatchNormalization与relu激活;然后通过3*3可分离卷积,并引入空洞卷积进行处理;进而通过1*1卷积调整通道,并进行BatchNormalization与relu激活;最后引入残差网络结构,将输入与最终卷积输出进行融合;
步骤1.1.4,对步骤1.1.3所得特征图进行16次反残差卷积操作,输出320通道的特征图。
2)多尺度融合模块
如图3所示,多尺度融合模块是一种带空洞卷积的空间金字塔,是一种能够获取多尺度上下文的架构,特征提取模块中的下采样过程是为了扩大感受野,使得每个卷积输出都包含较大范围的信息,对于提取抽象化信息有很大帮助,但在这个过程中,图像的分辨率不断下降,包含的信息越来越抽象,而图像的局部信息与细节信息会逐渐丢失,虽然现在也有通过线性插值上采样来恢复分辨率的手段存在,但在这个过程,还是不可避免的会造成信息的损失,而引入空洞卷积可以在不进行下采样情况下扩大感受野;
输出于顶端的feature map,将其平行输出到五个模块中,第一个模块经过了平均池化,1x 1的卷积层进行通道数变换,最后通过双线性插值恢复分辨率,第二到第五个模块都是空洞卷积,只是dilation rate不同,分别取了1,6,12,18;之后将这五个模块的输出concat到一起,通过一个1x1的卷积层,降低通道数到需要的数值,然后输出;
本发明的多尺度融合模块具体按以下步骤实施:
步骤1.2.1,将特征提取模块所得特征图传入多尺度融合模块,构造平均全局池化层、膨胀率分别为1,6,12,18的空洞卷积模块;
步骤1.2.2,获取整体特征然后进行1x1卷积调整通道数,并恢复分辨率;,
步骤1.2.3,通过1*1卷积获取整体特征,改变通道数;
步骤1.2.4,分别使用膨胀率为6,12,18的空洞卷积提取到不同尺度下的特征;
步骤1.2.5,将步骤1.2.2~1.2.4中获取的特征进行合并,此时特征图的通道数为1280;
步骤1.2.6,通过构造1x1卷积调整通道数,得到融合后的256维特征图。
3)上采样模块
在下采样的过程中,将图片的特征提取出来,实际上是把图片的关键部分提取出来的,降低了图片的分辨率,图片尺寸缩小;通过上采样模块,要恢复图片的大小,提高图片的分辨率。综合图像的分割精度以及速度,本发明采用3次上采样,每次上采样恢复特征图的1/2,最后得到与输入同等大小的图像;
本发明的上采样模块具体按以下步骤实施:
步骤1.3.1,多尺度融合模块中得到256维特征图,构造上采样模块;
步骤1.3.2,对特征图进行三次双线性插值,得到上采样后的特征图;
步骤1.3.3,利用1*1卷积将通道数调整为分割类别数;
步骤1.3.4,构造reshape用于将特征图恢复为原始输入图片大小。
本发明步骤2中网络训练为使用CamVid数据集对网络进行训练,本发明的模型训练主要基于Tensorflow框架,进行训练时可将训练集按照预先设定的batch输入进网络,输入图像大小也可根据硬件不同进行调整,具体按以下步骤实施:
步骤2.1,获取预训练权重;
步骤2.2,将数据集数据打乱,将90%的图像用于训练,10%的图像用于估计;首先将训练集按照预先设定的batch输入进网络,然后随机random数据集为每张图片在[0.7,1.3]范围内任意选择一种尺寸比例进行缩放,再然后按照0.5的概率大小对全部图片做左右变换的翻转处理,再将图片调整色彩,最后将训练图片的大小统一裁剪为设定大小;这样使得训练样本的图像尺寸和形状更丰富,更加具有随机性,从而避免过拟合;
步骤2.3,采用交叉熵损失函数,每个epoch之后输出训练损失与训练准确率以及验证损失与验证准确率;
步骤2.4,初始学习率定为1e-3,训练采用学习率自动下降的方式;
步骤2.5,val_loss2次不下降就将学习率降为之前的1/2继续训练;
步骤2.6,val_loss6次不下降时即认为训练完成,停止训练并保存模型;
一般地,当val_loss一直不下降时意味着模型基本训练完毕,本发明采用加入早停函数的方式,当val_loss6次不下降时即认为训练完成,停止训练并保存模型,可以有效防止过拟合;本发明经过在Camvid数据集进行1200次迭代训练,最终得到收敛的模型,图4为采用预训练方式,最后40epoch的训练loss曲线。
本发明步骤3中网络测试的具体过程为将测试图像输入网络,得到语义分割结果,并计算mIoU与FPS,对网络性能进行评估:
步骤3.1,获取数据集中分割类别的RGB颜色;
步骤3.2,设定分类数及输入图像大小;
步骤3.3,加载模型并读取数据集;
步骤3.4,将数据集图像每一帧传入分割模型,对像素点进行分类;
步骤3.5,通过像素点分类标签,对分割图像上色,并调整为原图像大小;
具体的利用训练得到的模型做性能测试来说明本发明的效果:
在CamVid数据集上,模型参数量为257W,模型大小为10M,在尺寸为480x360的输入上,单帧预测时间为29ms,可达到34FPS的帧率,可以满足实时性要求。在预测精度上,本发明的mIoU(Mean Intersection over Union)达到了70.24%;本发明兼顾精度与速度,可以达到高精度实时分割,与其他经典语义分割网络对比如表1。
表1网络性能对比
本发明提出的一种基于多尺度视觉特征提取的轻量级语义分割方法,在保证图像分割精度的同时实现快速推理,满足实时性要求,首先在底层特征提取模块采用MobileNetV2融合空洞卷积,在保证分割速度的同时利用空洞卷积增大感受野保留图像空间信息;利用融合空洞卷积空间金字塔结构获取多尺度上下文,对上层提取的特征图利用多尺度提取获得确定大小的特征向量;为保留图像细节与边缘信息,分割网络加入3次融合上采样过程,更精确的恢复图像的多尺度特征,经过实验分析,如图5所示,本发明LitNet与经典分割网络DeepLab、PSPNet、ICNet进行比较,计算参数量大幅下降,在CamVid数据集上分割精度与分割速度得到明显提升。
Claims (9)
1.一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,具体按以下步骤实施:
步骤1,构建基于多尺度特征提取的轻量级卷积神经网络LitNet;
步骤2,将经步骤1建立的神经网络进行训练;
步骤3,将经步骤2训练好的网络进行测试。
2.根据权利要求1所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述步骤1的具体实施过程包括:所述多尺度特征提取的轻量级卷积神经网络结构包括特征提取模块、多尺度融合模块和上采样模块三部分,具体按以下步骤实施:
步骤1.1,图像输入网络后,首先通过特征提取模块进行下采样提取特征;
步骤1.2,再经过多尺度融合模块融合上下文信息,提取图像多尺度特征;
步骤1.3,最后通过上采样模块恢复图像尺寸,提高图像分辨率,输出分割结果。
3.根据权利要求2所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述特征提取模块具体按以下步骤实施:
步骤1.1.1,输入图像,设置width multiplerα为1;
步骤1.1.2,对输入图像进行一次普通卷积操作,压缩1次h*w,将通道数调整为32*α通道,并进行BatchNormalization与relu激活;
步骤1.1.3,将步骤1.1.2中所得特征图传入反残差卷积块进1次反残差卷积,得到通道数为16的特征图;
步骤1.1.4,对步骤1.1.3所得特征图进行16次反残差卷积操作,输出320通道的特征图。
4.根据权利要求3所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述反残差卷积构造步骤为:
首先通过1*1卷积进行通道扩张,并进行BatchNormalization与relu激活;然后通过3*3可分离卷积,并引入空洞卷积进行处理;进而通过1*1卷积调整通道,并进行BatchNormalization与relu激活;最后引入残差网络结构,将输入与最终卷积输出进行融合。
5.根据权利要求2所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述多尺度融合模块具体按以下步骤实施:
步骤1.2.1,将特征提取模块所得特征图传入多尺度融合模块,构造平均全局池化层、膨胀率分别为1,6,12,18的空洞卷积模块;
步骤1.2.2,获取整体特征然后进行1x1卷积调整通道数,并恢复分辨率;,
步骤1.2.3,通过1*1卷积获取整体特征,改变通道数;
步骤1.2.4,分别使用膨胀率为6,12,18的空洞卷积提取到不同尺度下的特征;
步骤1.2.5,将步骤1.2.2~1.2.4中获取的特征进行合并,此时特征图的通道数为1280;
步骤1.2.6,通过构造1x1卷积调整通道数,得到融合后的256维特征图。
6.根据权利要求2所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述上采样模块具体按以下步骤实施:
步骤1.3.1,多尺度融合模块中得到256维特征图,构造上采样模块;
步骤1.3.2,对特征图进行三次双线性插值,得到上采样后的特征图;
步骤1.3.3,利用1*1卷积将通道数调整为分割类别数;
步骤1.3.4,构造reshape用于将特征图恢复为原始输入图片大小。
7.根据权利要求1所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述步骤2中网络训练为使用CamVid数据集对网络进行训练,具体按以下步骤实施:
步骤2.1,获取预训练权重;
步骤2.2,将数据集数据打乱,将90%的图像用于训练,10%的图像用于估计;
步骤2.3,采用交叉熵损失函数,每个epoch之后输出训练损失与训练准确率以及验证损失与验证准确率;
步骤2.4,初始学习率定为1e-3,训练采用学习率自动下降的方式;
步骤2.5,val_loss2次不下降就将学习率降为之前的1/2继续训练;
步骤2.6,val_loss6次不下降时即认为训练完成,停止训练并保存模型。
8.根据权利要求1所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述步骤2.2的具体操作过程包括:
首先将训练集按照预先设定的batch输入进网络,然后随机random数据集为每张图片在[0.7,1.3]范围内任意选择一种尺寸比例进行缩放,再然后按照0.5的概率大小对全部图片做左右变换的翻转处理,再将图片调整色彩,最后将训练图片的大小统一裁剪为设定大小。
9.根据权利要求1所述的一种基于多尺度视觉特征提取的轻量级语义分割方法,其特征在于,所述步骤3中网络测试的具体过程为将测试图像输入网络,得到语义分割结果,并计算mIoU与FPS,对网络性能进行评估:
步骤3.1,获取数据集中分割类别的RGB颜色;
步骤3.2,设定分类数及输入图像大小;
步骤3.3,加载模型并读取数据集;
步骤3.4,将数据集图像每一帧传入分割模型,对像素点进行分类;
步骤3.5,通过像素点分类标签,对分割图像上色,并调整为原图像大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424180.8A CN112634276B (zh) | 2020-12-08 | 2020-12-08 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424180.8A CN112634276B (zh) | 2020-12-08 | 2020-12-08 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634276A true CN112634276A (zh) | 2021-04-09 |
CN112634276B CN112634276B (zh) | 2023-04-07 |
Family
ID=75308665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424180.8A Active CN112634276B (zh) | 2020-12-08 | 2020-12-08 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634276B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076904A (zh) * | 2021-04-15 | 2021-07-06 | 华南理工大学 | 一种基于深度学习的室外停车场空余车位检测方法 |
CN113111848A (zh) * | 2021-04-29 | 2021-07-13 | 东南大学 | 一种基于多尺度特征的人体图像解析方法 |
CN113143230A (zh) * | 2021-05-11 | 2021-07-23 | 重庆理工大学 | 一种外周动脉血压波形重构系统 |
CN113344911A (zh) * | 2021-07-06 | 2021-09-03 | 北京大都正隆医疗科技有限公司 | 一种结石尺寸的测量方法以及测量装置 |
CN113361373A (zh) * | 2021-06-02 | 2021-09-07 | 武汉理工大学 | 一种农业场景下的航拍图像实时语义分割方法 |
CN113362343A (zh) * | 2021-06-22 | 2021-09-07 | 北京邮电大学 | 一种适合运行在Android端的轻量化的图像语义分割算法 |
CN113420643A (zh) * | 2021-06-21 | 2021-09-21 | 西北工业大学 | 基于深度可分离空洞卷积的轻量级水下目标检测方法 |
CN113450366A (zh) * | 2021-07-16 | 2021-09-28 | 桂林电子科技大学 | 基于AdaptGAN的低照度语义分割方法 |
CN113486856A (zh) * | 2021-07-30 | 2021-10-08 | 大连海事大学 | 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法 |
CN113506300A (zh) * | 2021-06-25 | 2021-10-15 | 江苏大学 | 一种基于雨天复杂道路场景下的图片语义分割方法及系统 |
CN113935369A (zh) * | 2021-10-20 | 2022-01-14 | 华南农业大学 | 一种山地果茶园道路识别语义分割模型构建方法 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
CN114025198A (zh) * | 2021-11-08 | 2022-02-08 | 深圳万兴软件有限公司 | 基于注意力机制的视频卡通化方法、装置、设备及介质 |
CN114092815A (zh) * | 2021-11-29 | 2022-02-25 | 自然资源部国土卫星遥感应用中心 | 一种大范围光伏发电设施遥感智能提取方法 |
CN114155294A (zh) * | 2021-10-25 | 2022-03-08 | 东北大学 | 一种基于深度学习的工程机械工作装置位姿估计方法 |
CN114299184A (zh) * | 2021-12-30 | 2022-04-08 | 青海师范大学 | 基于语义匹配的藏式建筑彩绘线稿图上色方法及装置 |
CN114359069A (zh) * | 2021-12-08 | 2022-04-15 | 华南理工大学 | 一种图像恢复方法、系统、装置和存储介质 |
CN114463542A (zh) * | 2022-01-22 | 2022-05-10 | 仲恺农业工程学院 | 一种基于轻量化语义分割算法的果园复杂道路分割方法 |
CN114663774A (zh) * | 2022-05-24 | 2022-06-24 | 之江实验室 | 一种轻量级的显著性物体检测系统及方法 |
CN114677380A (zh) * | 2022-03-25 | 2022-06-28 | 西安交通大学 | 一种基于多样化交互的视频对象分割方法及系统 |
CN114863241A (zh) * | 2022-04-22 | 2022-08-05 | 厦门大学 | 一种基于空间布局与深度学习的影视动画评估方法 |
CN115661694A (zh) * | 2022-11-08 | 2023-01-31 | 国网湖北省电力有限公司经济技术研究院 | 一种聚焦关键特征的轻量型主变压器智能检测方法、系统、存储介质及电子设备 |
CN117152542A (zh) * | 2023-10-30 | 2023-12-01 | 武昌理工学院 | 一种基于轻量化网络的图像分类方法和系统 |
CN117351354A (zh) * | 2023-10-18 | 2024-01-05 | 耕宇牧星(北京)空间科技有限公司 | 基于改进MobileViT的轻量级遥感图像目标检测方法 |
CN117392392A (zh) * | 2023-12-13 | 2024-01-12 | 河南科技学院 | 一种割胶线识别与生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137406A1 (en) * | 2016-11-15 | 2018-05-17 | Google Inc. | Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs |
CN110110692A (zh) * | 2019-05-17 | 2019-08-09 | 南京大学 | 一种基于轻量级全卷积神经网络的实时图像语义分割方法 |
CN110941995A (zh) * | 2019-11-01 | 2020-03-31 | 中山大学 | 基于轻量级网络的实时目标检测与语义分割的多任务学习方法 |
-
2020
- 2020-12-08 CN CN202011424180.8A patent/CN112634276B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137406A1 (en) * | 2016-11-15 | 2018-05-17 | Google Inc. | Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs |
CN110110692A (zh) * | 2019-05-17 | 2019-08-09 | 南京大学 | 一种基于轻量级全卷积神经网络的实时图像语义分割方法 |
CN110941995A (zh) * | 2019-11-01 | 2020-03-31 | 中山大学 | 基于轻量级网络的实时目标检测与语义分割的多任务学习方法 |
Non-Patent Citations (1)
Title |
---|
XIAOGANG SONG 等: "A Multimode Visual-Inertial Navigation Method for Fixed-wing Aircraft Approach and Landing in GPS-denied and Low Visibility Environments", 《2019 IEEE/AIAA 38TH DIGITAL AVIONICS SYSTEMS CONFERENCE (DASC)》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076904B (zh) * | 2021-04-15 | 2022-11-29 | 华南理工大学 | 一种基于深度学习的室外停车场空余车位检测方法 |
CN113076904A (zh) * | 2021-04-15 | 2021-07-06 | 华南理工大学 | 一种基于深度学习的室外停车场空余车位检测方法 |
CN113111848B (zh) * | 2021-04-29 | 2024-07-02 | 东南大学 | 一种基于多尺度特征的人体图像解析方法 |
CN113111848A (zh) * | 2021-04-29 | 2021-07-13 | 东南大学 | 一种基于多尺度特征的人体图像解析方法 |
CN113143230A (zh) * | 2021-05-11 | 2021-07-23 | 重庆理工大学 | 一种外周动脉血压波形重构系统 |
CN113361373A (zh) * | 2021-06-02 | 2021-09-07 | 武汉理工大学 | 一种农业场景下的航拍图像实时语义分割方法 |
CN113420643A (zh) * | 2021-06-21 | 2021-09-21 | 西北工业大学 | 基于深度可分离空洞卷积的轻量级水下目标检测方法 |
CN113420643B (zh) * | 2021-06-21 | 2023-02-10 | 西北工业大学 | 基于深度可分离空洞卷积的轻量级水下目标检测方法 |
CN113362343A (zh) * | 2021-06-22 | 2021-09-07 | 北京邮电大学 | 一种适合运行在Android端的轻量化的图像语义分割算法 |
CN113506300A (zh) * | 2021-06-25 | 2021-10-15 | 江苏大学 | 一种基于雨天复杂道路场景下的图片语义分割方法及系统 |
CN113506300B (zh) * | 2021-06-25 | 2024-06-07 | 江苏大学 | 一种基于雨天复杂道路场景下的图片语义分割方法及系统 |
CN113344911A (zh) * | 2021-07-06 | 2021-09-03 | 北京大都正隆医疗科技有限公司 | 一种结石尺寸的测量方法以及测量装置 |
CN113450366B (zh) * | 2021-07-16 | 2022-08-30 | 桂林电子科技大学 | 基于AdaptGAN的低照度语义分割方法 |
CN113450366A (zh) * | 2021-07-16 | 2021-09-28 | 桂林电子科技大学 | 基于AdaptGAN的低照度语义分割方法 |
CN113486856A (zh) * | 2021-07-30 | 2021-10-08 | 大连海事大学 | 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法 |
CN113486856B (zh) * | 2021-07-30 | 2024-01-02 | 大连海事大学 | 一种驾驶员不规范行为检测方法 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
CN113935369A (zh) * | 2021-10-20 | 2022-01-14 | 华南农业大学 | 一种山地果茶园道路识别语义分割模型构建方法 |
CN114155294A (zh) * | 2021-10-25 | 2022-03-08 | 东北大学 | 一种基于深度学习的工程机械工作装置位姿估计方法 |
CN114025198B (zh) * | 2021-11-08 | 2023-06-27 | 深圳万兴软件有限公司 | 基于注意力机制的视频卡通化方法、装置、设备及介质 |
CN114025198A (zh) * | 2021-11-08 | 2022-02-08 | 深圳万兴软件有限公司 | 基于注意力机制的视频卡通化方法、装置、设备及介质 |
CN114092815A (zh) * | 2021-11-29 | 2022-02-25 | 自然资源部国土卫星遥感应用中心 | 一种大范围光伏发电设施遥感智能提取方法 |
CN114092815B (zh) * | 2021-11-29 | 2022-04-15 | 自然资源部国土卫星遥感应用中心 | 一种大范围光伏发电设施遥感智能提取方法 |
CN114359069A (zh) * | 2021-12-08 | 2022-04-15 | 华南理工大学 | 一种图像恢复方法、系统、装置和存储介质 |
CN114299184A (zh) * | 2021-12-30 | 2022-04-08 | 青海师范大学 | 基于语义匹配的藏式建筑彩绘线稿图上色方法及装置 |
CN114463542A (zh) * | 2022-01-22 | 2022-05-10 | 仲恺农业工程学院 | 一种基于轻量化语义分割算法的果园复杂道路分割方法 |
CN114677380A (zh) * | 2022-03-25 | 2022-06-28 | 西安交通大学 | 一种基于多样化交互的视频对象分割方法及系统 |
CN114863241B (zh) * | 2022-04-22 | 2024-09-13 | 厦门大学 | 一种基于空间布局与深度学习的影视动画评估方法 |
CN114863241A (zh) * | 2022-04-22 | 2022-08-05 | 厦门大学 | 一种基于空间布局与深度学习的影视动画评估方法 |
CN114663774B (zh) * | 2022-05-24 | 2022-12-02 | 之江实验室 | 一种轻量级的显著性物体检测系统及方法 |
CN114663774A (zh) * | 2022-05-24 | 2022-06-24 | 之江实验室 | 一种轻量级的显著性物体检测系统及方法 |
CN115661694A (zh) * | 2022-11-08 | 2023-01-31 | 国网湖北省电力有限公司经济技术研究院 | 一种聚焦关键特征的轻量型主变压器智能检测方法、系统、存储介质及电子设备 |
CN115661694B (zh) * | 2022-11-08 | 2024-05-28 | 国网湖北省电力有限公司经济技术研究院 | 一种聚焦关键特征的轻量型主变压器智能检测方法、系统、存储介质及电子设备 |
CN117351354A (zh) * | 2023-10-18 | 2024-01-05 | 耕宇牧星(北京)空间科技有限公司 | 基于改进MobileViT的轻量级遥感图像目标检测方法 |
CN117351354B (zh) * | 2023-10-18 | 2024-04-16 | 耕宇牧星(北京)空间科技有限公司 | 基于改进MobileViT的轻量级遥感图像目标检测方法 |
CN117152542A (zh) * | 2023-10-30 | 2023-12-01 | 武昌理工学院 | 一种基于轻量化网络的图像分类方法和系统 |
CN117152542B (zh) * | 2023-10-30 | 2024-01-30 | 武昌理工学院 | 一种基于轻量化网络的图像分类方法和系统 |
CN117392392B (zh) * | 2023-12-13 | 2024-02-13 | 河南科技学院 | 一种割胶线识别与生成方法 |
CN117392392A (zh) * | 2023-12-13 | 2024-01-12 | 河南科技学院 | 一种割胶线识别与生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112634276B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112634276B (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN112651973B (zh) | 基于特征金字塔注意力和混合注意力级联的语义分割方法 | |
CN112330681B (zh) | 一种基于注意力机制的轻量级网络实时语义分割方法 | |
CN112163449B (zh) | 一种轻量化的多分支特征跨层融合图像语义分割方法 | |
CN111563508A (zh) | 一种基于空间信息融合的语义分割方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN112801027B (zh) | 基于事件相机的车辆目标检测方法 | |
CN115457498A (zh) | 一种基于双注意力和密集连接的城市道路语义分割方法 | |
CN110569851B (zh) | 门控多层融合的实时语义分割方法 | |
CN111832453B (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN113422952B (zh) | 基于时空传播层次编解码器的视频预测方法 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN114913493A (zh) | 一种基于深度学习的车道线检测方法 | |
CN112149496A (zh) | 一种基于卷积神经网络的实时道路场景分割方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN116977631A (zh) | 一种基于DeepLabV3+的街景语义分割方法 | |
CN113223006B (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
CN111191674B (zh) | 基于密集连接带孔卷积网络的初级特征提取器及提取方法 | |
CN112464733A (zh) | 基于双向特征融合的高分辨率光学遥感图像地物分类方法 | |
CN113627073B (zh) | 一种基于改进的Unet++网络的水下航行器流场结果预测方法 | |
CN112329738B (zh) | 基于显著片段采样的长视频动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |