CN113223006A - 一种基于深度学习的轻量级目标语义分割方法 - Google Patents
一种基于深度学习的轻量级目标语义分割方法 Download PDFInfo
- Publication number
- CN113223006A CN113223006A CN202110545310.1A CN202110545310A CN113223006A CN 113223006 A CN113223006 A CN 113223006A CN 202110545310 A CN202110545310 A CN 202110545310A CN 113223006 A CN113223006 A CN 113223006A
- Authority
- CN
- China
- Prior art keywords
- network
- target
- segmentation
- edge
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于深度学习的轻量级目标语义分割方法。该方法的关键在于构建二维语义分割网络结构,在满足轻量化的基础上提高分割精度,并能解决多尺度目标分割问题。选取轻量化网络MobileNet v2模型的骨干网络,提出边界约束网络提高对边界分割的处理能力,从而可以同时满足分割的实时性与准确性。设计具有多尺度性质的金字塔池化模块,利用多次金字塔池化融合不同尺度的特征信息,可保证分割网络对多尺度目标分割的适用性。本发明针对目标的分割问题,研究对MobileNet v2模型的骨干网络的下采样特征图尺寸进行扩大,补全MobileNet v2模型丢失的图像的部分特征,提高了基于MobileNet v2模型对目标的分割精度。
Description
技术领域
本发明属于计算机视觉、深度学习领域,具体涉及一种基于深度学习的轻量级目标语义分割方法
背景技术
图像语义分割在图像理解中占有重要的地位,是计算机视觉中重要的研究热点之一。图像语义分割、图像识别以及目标检测之间存在着很大的共性,但又拥有许多的不同。图像识别与目标检测都是在一定范围中进行归类操作,将相同类别的像素点给定同一标签,完成对某一类别的识别,两者的不同之处在于图像识别只需得到图像中存在什么目标,但是目标检测不仅需要给定图像中拥有什么目标,而且需要给定目标在图像中的大概位置。图像语义分割在图像识别与目标检测的基础之上,需要对每一个像素进行处理,然后给每一个像素指定相应的标签,最后得到一个与原图大小相同的语义标签图。图像语义分割不但需要得到图像中拥有什么目标及其大概位置,而且需要准确给定目标边界轮廓,整个过程就像在图像识别与目标检测之上加入了目标边界检测操作,得到了更为精确的目标位置。
利用深度卷积神经网络来进行语义分割任务,是在传统图像分割技术上发展而来的一种技术,能对图像中的各区域进行深层次的理解。一些以全卷积网络(fullyconvolutional networks,FCN)为基础架构的早期语义分割网络,在分割准确率和效率上远超传统方法。但这些模型采用逐点相加的方式融合深层的语义类别特征和浅层的像素定位特征,会丢失许多位置信息,导致像素还原不精确,分割结果图边缘模糊,同时这类型的语义分割网络还存在实时性较差等缺点。在实际应用中,存在许多对实时性有需要的场景,一些轻量级语义分割网络被提出。如BiSeNet利用双通道结构解决大感受野和多空间像素的矛盾,并采用轻量级网络模型,使得运行速度得到大幅提升,但自身精度却不是太高。
综上所述,针对以上研究的不足,提出了一种基于深度学习的轻量级语义分割方法。
发明内容
鉴于上述问题,本发明的目的在于提供一种基于深度学习的轻量级目标语义分割方法。
一种基于深度学习的轻量级目标语义分割方法,包括以下步骤:
步骤一:数据集的采集与制作;
步骤二:基于紧凑型神经网络的设计思想,设计二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny SegmentationNetwork Based on Edge Constraints,MPPTSNet-EC);
步骤三:构建合适的损失函数,加速整个网络的收敛,达到网络最优状态;
步骤四:加入边缘约束网络,提高编码器对制造目标图像边缘信息的提取能力。
与现有技术相比,本发明具有以下有益效果:
1.相比于现有语义分割技术在兼顾实时性的同时也保证了分割的准确性,具备不错的像素级别的分割能力。
2.具备较高的实时性,可应用于对实时性有需求的场景。
附图说明
图1是车间目标语义分割数据集的标注过程
图2是车间目标边缘数据集效果图
图3是二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny Segmentation Network Based on Edge Constraints,MPPTSNet-EC)
图4是解码器采用具有多尺度性的多金字塔池化模块(Multi Pyramid PoolingModule,MPPM)
图5是边缘约束网络结构图
图6是车间目标语义分割测试效果
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
一种基于深度学习的轻量级目标语义分割方法,以数字化车间为例,具体包括以下步骤:
步骤一:建立数据集
步骤11:车间目标语义分割数据集,数字车间语义分割数据集的数量将在很大程度上提高分割网络的精度,现如今面向智能车间目标语义分割的数据集尚不存在,需要建立智能车间目标语义分割数据集,将数据集分为人、机器、移动机器人三类,在建立部分数字车间语义分割数据集后,利用了数据增强的手段来扩充数据集,将原始数据集经过旋转、缩放、平移等操作,完成数字车间语义分割数据集的扩充,如附图1所示;
步骤12:车间边缘数据集,为了对边缘约束网络进行训练,需要构建车间目标边缘标签图。不同于常规的边缘检测算法,边缘约束网络所需要的标签图只是分割目标的边界,并不包含分割目标的内部的边缘。本发明利用边缘检测算法Canny,对车间目标分割数据集中的目标分割标签图进行处理,得到对应的车间目标边缘标签图,效果如附图2所示。
步骤二:设计如附图3所示的二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny Segmentation Network Based onEdge Constraints,MPPTSNet-EC)
步骤21:为了平衡语义分割的精度与实时性,改进MobileNet v2骨干特征提取网络,改变第5次下采样的特征图尺寸,将其尺寸扩大为原MobileNet v2骨干特征提取网络第5次采样时的2倍(见附图3中的编码过程),并保持其特征图的通道数不变,这样既不损失MPPTSNet-EC网络推理的实时性,又能兼顾网络对目标特征提取的精度;
步骤22:解码器采用具有多尺度性的多金字塔池化模块(Multi Pyramid PoolingModule,MPPM),如附图4所示。
步骤三:边缘约束网络,步骤二改进MobileNet v2骨干特征提取网络总共进行了5次采样操作,得到了不同尺度的目标特征信息。为了获得数字化车间目标分割图像更为准确的边缘信息,在步骤二的基础上构建边缘约束网络,提升MPPTSNet-EC中编码器对目标边缘信息的准确提取,如附图5,具体研究思路为:
步骤31:将步骤二中改进MobileNet v2骨干特征提取网络中不同尺度的特征图作为边缘约束网络的输入;
步骤32:利用不同的1×1卷积对不同尺度的特征图进行处理,再将处理后的结果上采样至目标原图尺寸大小并进行融合;
步骤33:对1×1卷积处理融合后的特征图经过Sigmoid函数处理,得到最后的目标边缘预测图。
整个网络结构完整描述如下:
步骤1:将整个网络的输入大小设定为473×473×3;
步骤2:经过编码器第4次下采样后的特征图大小为30×30×96;
步骤3:经过改进MolileNet v2骨干特征提取网络的第5次下采样的特征图大小为30×30×320;
步骤4:进行第1次金字塔池化操作;
步骤5:提出多金字塔池化网络,采用上下文信息融合方式,将第4次下采样尺寸为30×30×96的特征图与第1次金字塔池化操作后的结果相叠加,获得更加丰富的目标特征;
步骤6:经过第2次金字塔池化操作,最后再利用Conv Module构建一个分类器,完成最终的图像分割预测,如附图6所示。
Claims (1)
1.一种基于深度学习的轻量级目标语义分割方法,其特征在于,包括如下步骤:
步骤1:数据集的采集与制作;
首先,建立目标语义分割数据集,根据功能需求将数据集分为不同的类别,利用数据增强的方法扩充数据集;随后,建立目标边缘数据集,利用目标边缘检测算法,对目标语义分割数据集中的目标分割标签图进行处理,得到相应的目标边缘标签图;
步骤2:设计二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny Segmentation Network Based on Edge Constraints,MPPTSNet-EC);
首先,改进MobileNet v2网络将待分割目标图像进行通道扩张、减小尺寸,获得不同尺度的特征图;其次,构建多金字塔池化模块,作为解码器,将第五次下采样的结果与第四次下采样的结果作为多金字塔池化模块的输入,进行不同尺度的特征信息融合;最后,利用分类器将多金字塔池化处理后的结果转为目标分割预测图;
步骤3:构建合适的损失函数,加速整个网络的收敛,达到网络最优状态;
首先,构建交叉熵损失函数L1:
式中,M代表样本中的类别数量,pc表示预测图像属于类别c的概率,yc表示为一个独热(one-hot)向量,由0与1两种元素构成,当预测值等于样本值为1,反之为0;
而当样本中前景所占比例较小时,交叉熵损失函数会使得整个网络趋于背景,严重影响网络精度。由此引出DiceLoss损失函数L2:
式中,X代表了样本标签,Y代表了预测结果,|X∩Y|表示了这两者之间的公共元素,|X|、|Y|分别代表了两者中元素的个数;
对目标边缘构建一个分类的损失函数L3,其中,y表示边缘点,p(y)为该样本属于边界类的概率:
L3=-(ylog(p(y))+(1-y)log(1-p(y))),
综上所述,构建损失函数L:
L=L1+L2+L3,
利用损失函数L共同来进行MPPSNet-EC网络的训练;
步骤4:加入边缘约束网络,提高编码器对目标图像边缘信息的提取能力;
首先将改进MobileNet v2骨干特征提取网络中不同尺度的特征图作为边缘约束网络的输入;随后利用不同的1×1卷积对不同尺度的特征图进行处理,再将处理后的结果上采样至目标原图尺寸大小并进行融合;最后,对1×1卷积处理融合后的特征图经过Sigmoid函数处理,得到最后的目标边缘预测图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545310.1A CN113223006B (zh) | 2021-05-19 | 2021-05-19 | 一种基于深度学习的轻量级目标语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545310.1A CN113223006B (zh) | 2021-05-19 | 2021-05-19 | 一种基于深度学习的轻量级目标语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223006A true CN113223006A (zh) | 2021-08-06 |
CN113223006B CN113223006B (zh) | 2022-04-15 |
Family
ID=77093021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110545310.1A Active CN113223006B (zh) | 2021-05-19 | 2021-05-19 | 一种基于深度学习的轻量级目标语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223006B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494703A (zh) * | 2022-04-18 | 2022-05-13 | 成都理工大学 | 一种智能车间场景目标轻量级语义分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211137A (zh) * | 2019-06-08 | 2019-09-06 | 西安电子科技大学 | 基于残差网络和U-Net分割网络的卫星图像分割方法 |
CN111259983A (zh) * | 2020-02-13 | 2020-06-09 | 电子科技大学 | 基于深度学习的图像语义分割方法及存储介质 |
CN112163572A (zh) * | 2020-10-30 | 2021-01-01 | 国网北京市电力公司 | 识别对象的方法和装置 |
CN112686304A (zh) * | 2020-12-29 | 2021-04-20 | 山东大学 | 一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质 |
-
2021
- 2021-05-19 CN CN202110545310.1A patent/CN113223006B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211137A (zh) * | 2019-06-08 | 2019-09-06 | 西安电子科技大学 | 基于残差网络和U-Net分割网络的卫星图像分割方法 |
CN111259983A (zh) * | 2020-02-13 | 2020-06-09 | 电子科技大学 | 基于深度学习的图像语义分割方法及存储介质 |
CN112163572A (zh) * | 2020-10-30 | 2021-01-01 | 国网北京市电力公司 | 识别对象的方法和装置 |
CN112686304A (zh) * | 2020-12-29 | 2021-04-20 | 山东大学 | 一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
兰天翔; 向子彧; 刘名果; 陈凯: "融合U-Net及MobileNet-V2的快速语义分割网络", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494703A (zh) * | 2022-04-18 | 2022-05-13 | 成都理工大学 | 一种智能车间场景目标轻量级语义分割方法 |
CN114494703B (zh) * | 2022-04-18 | 2022-06-28 | 成都理工大学 | 一种智能车间场景目标轻量级语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113223006B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN112634276B (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN111178316B (zh) | 一种高分辨率遥感影像土地覆盖分类方法 | |
CN110781776B (zh) | 一种基于预测和残差细化网络的道路提取方法 | |
CN111047551A (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN111460936A (zh) | 基于U-Net网络的遥感影像建筑物提取方法、系统、电子设备 | |
CN115457498A (zh) | 一种基于双注意力和密集连接的城市道路语义分割方法 | |
CN111832453B (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN108596240B (zh) | 一种基于判别特征网络的图像语义分割方法 | |
CN110569851A (zh) | 门控多层融合的实时语义分割方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN109657538B (zh) | 基于上下文信息指导的场景分割方法和系统 | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
US12056950B2 (en) | Transformer-based multi-scale pedestrian re-identification method | |
CN115424017B (zh) | 一种建筑物内外轮廓分割方法、装置及存储介质 | |
CN113762039A (zh) | 一种交通标志牌的信息匹配方法及相关装置 | |
CN113033454A (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN117557779A (zh) | 一种基于yolo的多尺度目标检测方法 | |
CN115713546A (zh) | 移动终端设备用的轻量化目标跟踪算法 | |
CN114463340B (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN116363358A (zh) | 基于改进U-Net的道路场景图像实时语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |