CN114494703B - 一种智能车间场景目标轻量级语义分割方法 - Google Patents
一种智能车间场景目标轻量级语义分割方法 Download PDFInfo
- Publication number
- CN114494703B CN114494703B CN202210402442.3A CN202210402442A CN114494703B CN 114494703 B CN114494703 B CN 114494703B CN 202210402442 A CN202210402442 A CN 202210402442A CN 114494703 B CN114494703 B CN 114494703B
- Authority
- CN
- China
- Prior art keywords
- scale
- average pooling
- feature
- semantic segmentation
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种智能车间场景目标轻量级语义分割方法。该方法针对车间目标语义识别精度与实时性平衡问题,提出一种融合双路平均池化与三分支注意力机制的轻量级语义分割网络。该网络的编码器以轻量级MobileNet v2网络为基准,以实现分割的高实时性;在解码器中构建双路平均池化模块,通过融合上下文信息的方法,准确修复编码器中丢失的特征信息,提取更丰富的语义信息和更精确的目标位置信息,以实现高精度的语义分割;在解码器中构建三分支注意力机制模块,利用不同尺度的信息对原始的特征进行像素级别的相乘,并对不同尺度的特征用向量的形式进行表示,高效地解决语义分割的多尺度问题。
Description
技术领域
本发明属于计算机视觉、深度学习领域,具体涉及一种智能车间场景目标轻量级语义分割方法。
背景技术
智能车间是智能工厂最核心的执行单元,推进智能车间的建设是实现智能制造关键一步。对车间场景目标进行语义级别地感知识别,是实现车间智能化的基础,如车间智能安防、移动机器人智能导航任务都首先需要对车间场景目标进行语义级别地感知与识别,即识别出目标的种类、形状、以及位姿,然后基于识别结果进行推理决策。由于智能车间场景及目标的复杂性,对智能车间目标的语义级别地识别面临以下两个方面的难题:
1.目标语义识别精度与实时性的平衡
提高目标的识别精度是目标识别的最基本要求,同时在车间的生产过程中,为了满足生产的连续化,必须同时考虑目标识别的实时性;
2.目标的多尺度性
车间场景包括众多加工设备、输送设备、以及操作人员等目标,各个目标形状与体积差异大,即呈现目标的多尺度问题。
作为目标识别的重要方向,图像语义分割能够精确捕获每一帧图像,并对图像中的每个目标进行像素级别分类来提取一些重要信息,如目标的类别、位置、形状等,已广泛应用于自动驾驶、人脸识别、医学诊断等领域。
与传统图像分割方法相比,基于深度学习的图像语义分割方法具有预测准确性高、获取信息更丰富等特点,是目前图像语义分割领域中采用的主要方法。一些以全卷积网络(fully convolutional networks,FCN)为基础的早期语义分割网络,主要通过复杂的网络结构和众多的参数保证分割精度,在分割实时性方面有所欠缺。BiseNet等轻量级网络的出现提高了语义分割的实时性,但网络结构以及参数量的减少从一定程度上降低了分割精度。
综上所述,针对以上研究的不足,提出了一种智能车间场景目标轻量级语义分割方法。
发明内容
鉴于上述问题,本发明的目的在于提供一种智能车间场景目标轻量级语义分割方法。
一种智能车间场景目标轻量级语义分割方法,包括以下步骤:
步骤一:车间数据集的采集与制作;
步骤二:设计基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络(integrating double average pooling and three branch attention mechanismnetwork,IPANet),采用编码器-解码器结构,以轻量级卷积神经网络作为整个网络的编码器,解码器包括双路平均池化模块(double average pooling,DAP)和三分支注意力机制模块(three branch attention mechanism,TBAM),提取多尺度目标的语义信息和实现高精度的语义分割;
步骤三:选取三种不同的轻量级卷积神经网络,ShuffleNet v2、SqueezeNet、MobileNet v2与解码器进行结合,通过针对智能车间场景目标语义分割数据集的目标语义分割对比实验,确定MobileNet v2作为编码器的骨干网络;
步骤四:采用交叉熵函数和DiceLoss函数作为整个网络的损失函数;
步骤五:采用数据增强来扩充车间目标样本,同时采用迁移学习进行小样本的学习。
与现有技术相比,本发明具有以下有益效果:
1.相比于现有语义分割技术在兼顾实时性的同时也保证了分割的准确性,具备不错的像素级别的分割能力;
2.具备较高的实时性,可应用于对实时性要求较高的智能车间场景。
附图说明
图1是车间目标语义分割数据集原图;
图2是车间目标语义分割数据集语义标签图;
图3是基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络(integrating double average pooling and three branch attention mechanismnetwork,IPANet)整体框架图;
图4是双路平均池化模块(double average pooling,DAP)框架图;
图5是三分支注意力机制模块(three branch attention mechanism,TBAM)框架图;
图6是多尺度特征权重向量示意图;
图7是智能车间场景目标小样本学习框架图;
图8是IPANet模型框架图;
图9是IPANet模型的分割效果。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
一种基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络,具体包括以下步骤:
步骤一:建立车间数据集
步骤11:车间目标语义分割数据集,面向车间目标语义分割的数据集尚不存在,需要建立生产车间场景目标数据集(Scene Objects for Production workshop dataset,SOP),SOP数据集标签种类包括人、机床踏板、普通机床、数控车床、数控铣床、移动机器人等6类。使用语义分割标注软件Labelme对原始图像进行标注,如附图1所示为车间目标语义分割数据集原图,如附图2所示为车间目标语义分割数据集语义标签图;
步骤12:扩充车间数据集,数据集的数量将在很大程度上提高分割网络的精度,由于SOP数据集中目标样本数量较少,仅有220张,通过网上下载30张,然后利用了数据增强的方式来扩充SOP数据集,将原始数据集经过旋转、缩放、平移等数据增强,对SOP数据集进行扩充,最终获得扩充SOP数据集。扩充SOP数据集的数量共500张,将其划分为训练集450张,测试集50张,数据集中的目标图像不重复,共包括6类分割目标和1类背景图像,其中包含人的图像有111张、包含机床踏板的图像有316张、普通机床的图像有113张包含、包含数控车床的图像有197张、包含数控铣床的图像有90张、包含移动机器人的图像有78张。
步骤二:设计如附图3所示的编码器-解码器结构的轻量级语义分割网络
步骤21:轻量级语义分割网络的编码器以轻量级卷积神经网络为基准,以实现分割的高实时性;同时为提高车间目标语义分割精度,在解码器中构建双路平均池化模块(Double Average Pooling,DAP),通过融合上下文信息的方法,准确修复编码器中丢失的特征信息,提取更丰富的语义信息和更精确的目标位置信息,以实现高精度的语义分割,如附图4所示,其中,AvgPool表示全局平均池化操作,CBR由二维卷积、批量归一化、线性整流激活函数组成,Concat表示通道数拼接操作;
首先,采用轻量级骨干网络MobileNet v2作为编码器,以保证整个网络的实时性;
然后,设计双路平均池化模块,应用全局平均池化操作整合编码器由不同下采样阶段所获取的深层特征和浅层特征所呈现的多尺度信息,双路平均池化模块的具体操作步骤分为全局平均池化操作、多尺度特征提取操作、特征融合操作、提取融合特征操作:
1.全局平均池化操作:
步骤22:在解码器中构建三分支注意力机制模块(Three Branch AttentionMechanism,TBAM),利用不同尺度的信息对原始的特征进行像素级相乘,并对不同尺度的特征用向量的形式进行表示,高效地解决语义分割的多尺度问题,如附图5所示,三分支注意力机制模块的具体操作步骤分为注意力机制提取多尺度特征操作、全局平均池化操作、多尺度特征提取操作、特征融合操作:
5.注意力机制提取多尺度特征操作:
其中,表示双路平均池化模块输出的特征F通过1X1卷积后的特征向量;表示利用三种尺度的卷积操作输出的特征向量,表示步长为1的卷积操作,表示步长为2的卷积操作,其中卷积核大小,对应的填充大小;表示不同尺度的权重向量和;表示对特征图进行外积,整个外积操作的输入为与,输出为新的特征;
6.全局平均池化操作:此外设计两个并行的全局平均池化模块,对双路平均池化模块中提取融合特征操作的输出特征F进行全局平均池化操作,具体操作式为:
最后,利用分类器将解码器处理后的结果转为目标分割预测图;
步骤三:将解码器与不同的轻量级卷积神经网络进行结合,并训练得出最优网络模型,具体研究思路为:
步骤31:将步骤二中构建的双路平均池化模块和三分支注意力机制模块分别与ShuffleNet v2、SqueezeNet和MobileNet v2进行结合;
步骤32:采用交叉熵函数和DiceLoss函数作为整个网络的损失函数;
整个网络模型的训练采用交叉熵函数和DiceLoss函数作为整个网络的损失函数L:
利用损失函数L共同来进行整个网络的训练;
步骤33:采用迁移学习进行小样本的学习,如附图7,首先获取ShuffleNet v2、SqueezeNet和MobileNet v2在ImageNet数据集的预训练权重;然后将预训练权重迁移到编码器中,并进行冻结,使用智能车间目标数据集SOP对IPANet进行第一阶段训练,得到IPANet的初始网络权重;最后解冻IPANet编码器的网络预训练权重,进行第二阶段训练,获得最优网络模型;
步骤34:选择MobileNet v2作为编码器时输出的预测结果明显比SqueezeNet作为编码器时的预测结果好,并且在边界细节的处理上比ShuffleNet v2作为编码器时的预测结果更精确,最终选择将MobileNet v2网络作为整个网络的编码器,整个网络结构如附图8所示。
整个网络结构完整描述如下:
步骤2:将MobileNet v2网络作为整个网络的编码器;
步骤3:在解码器中构建一种双路平均池化融合模块(DAP),来融合编码器所获得的低层次特征图,以消除高层次特征图和低层次特征图之间的语义信息和结构细节差异;
步骤4:在双路平均池化模块(DAP)提取到多尺度融合特征之后,设计一个三分支注意力机制模块(TBAM), 三分支注意力机制模块(TBAM)实际上是利用多尺度特征注意力机制来实现像素级别的稠密估计,将输入特征处理为不同尺度的特征并赋予相同权重的特征信息,如附图6所示,使得图中较小的细节特征能够在较大的尺度上被有效地分割,较大的特征能够在较小的尺度上被有效地分割;
步骤5:经过解码器操作之后,最后再利用二维卷积操作构建一个分类器,完成最终的图像分割预测,如附图9所示。
Claims (1)
1.一种智能车间场景目标轻量级语义分割方法,其特征在于,包括如下步骤:
步骤1.车间数据集的采集与制作:
采集原始生产车间场景目标数据集,对数据集进行标注;将原始生产车间场景目标数据集通过旋转、缩放、平移的数据增强方式,对原始生产车间场景目标数据集进行扩充,获得扩充生产车间场景目标数据集;
步骤2.设计基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络:
首先,采用MobileNet v2作为基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络的编码器;
然后,设计双路平均池化模块,应用全局平均池化操作整合编码器由不同下采样阶段所获取的深层特征和浅层特征所呈现的多尺度信息;双路平均池化模块的具体操作步骤分为全局平均池化操作、多尺度特征提取操作、特征融合操作、提取融合特征操作:
全局平均池化操作:
其次,设计三分支注意力机制模块,将双路平均池化模块输出的特征图利用、、三种不同大小的卷积核进行特征提取;三分支注意力机制模块的具体操作步骤分为注意力机制提取多尺度特征操作、全局平均池化操作、多尺度特征提取操作、特征融合操作:
注意力机制提取多尺度特征操作:
其中,表示双路平均池化模块输出的特征F通过1X1卷积后的特征向量;表示利用三种尺度的卷积操作输出的特征向量,表示步长为1的卷积操作,表示步长为2的卷积操作,其中卷积核大小,对应的填充大小;表示不同尺度的权重向量和;表示对特征图进行外积,整个外积操作的输入为与,输出为新的特征;
全局平均池化操作:此外设计两个并行的全局平均池化模块,对双路平均池化模块中提取融合特征操作的输出特征F进行全局平均池化操作,具体操作式为:
步骤3.采用交叉熵函数和DiceLoss函数作为训练基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络的损失函数L:
步骤4.采用迁移学习进行小样本的学习:
首先,获取MobileNet v2在ImageNet数据集的预训练权重;然后将预训练权重迁移到基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络的编码器,并进行冻结,使用扩充生产车间场景目标数据集对基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络进行第一阶段训练;最后解冻基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络编码器的网络预训练权重,进行第二阶段训练,获取基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210402442.3A CN114494703B (zh) | 2022-04-18 | 2022-04-18 | 一种智能车间场景目标轻量级语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210402442.3A CN114494703B (zh) | 2022-04-18 | 2022-04-18 | 一种智能车间场景目标轻量级语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494703A CN114494703A (zh) | 2022-05-13 |
CN114494703B true CN114494703B (zh) | 2022-06-28 |
Family
ID=81489643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210402442.3A Active CN114494703B (zh) | 2022-04-18 | 2022-04-18 | 一种智能车间场景目标轻量级语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494703B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863245B (zh) * | 2022-05-26 | 2024-06-04 | 中国平安人寿保险股份有限公司 | 图像处理模型的训练方法和装置、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598108A (zh) * | 2020-04-22 | 2020-08-28 | 南开大学 | 基于立体注意力控制的多尺度神经网络的快速显著性物体检测方法 |
CN112330681A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于注意力机制的轻量级网络实时语义分割方法 |
CN113223006A (zh) * | 2021-05-19 | 2021-08-06 | 成都理工大学 | 一种基于深度学习的轻量级目标语义分割方法 |
CN114332094A (zh) * | 2021-12-07 | 2022-04-12 | 海南大学 | 基于轻量级多尺度信息融合网络的语义分割方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10929665B2 (en) * | 2018-12-21 | 2021-02-23 | Samsung Electronics Co., Ltd. | System and method for providing dominant scene classification by semantic segmentation |
US11461998B2 (en) * | 2019-09-25 | 2022-10-04 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
-
2022
- 2022-04-18 CN CN202210402442.3A patent/CN114494703B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598108A (zh) * | 2020-04-22 | 2020-08-28 | 南开大学 | 基于立体注意力控制的多尺度神经网络的快速显著性物体检测方法 |
CN112330681A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于注意力机制的轻量级网络实时语义分割方法 |
CN113223006A (zh) * | 2021-05-19 | 2021-08-06 | 成都理工大学 | 一种基于深度学习的轻量级目标语义分割方法 |
CN114332094A (zh) * | 2021-12-07 | 2022-04-12 | 海南大学 | 基于轻量级多尺度信息融合网络的语义分割方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114494703A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190752B (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN113807355B (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN113850824B (zh) | 一种基于多尺度特征融合的遥感图像路网提取方法 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN112990310A (zh) | 服务于电力机器人的人工智能系统及方法 | |
CN113378792B (zh) | 融合全局和局部信息的弱监督宫颈细胞图像分析方法 | |
CN111860683B (zh) | 一种基于特征融合的目标检测方法 | |
Cepni et al. | Vehicle detection using different deep learning algorithms from image sequence | |
Choi et al. | Attention-based multimodal image feature fusion module for transmission line detection | |
CN115439458A (zh) | 基于深度图注意力的工业图像缺陷目标检测算法 | |
CN113034506B (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
Farag | A lightweight vehicle detection and tracking technique for advanced driving assistance systems | |
CN117252904B (zh) | 基于长程空间感知与通道增强的目标跟踪方法与系统 | |
CN114494703B (zh) | 一种智能车间场景目标轻量级语义分割方法 | |
CN113870160A (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN117252928B (zh) | 用于电子产品模块化智能组装的视觉图像定位系统 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN112967271B (zh) | 一种基于改进DeepLabv3+网络模型的铸件表面缺陷识别方法 | |
CN114187653A (zh) | 一种基于多流融合图卷积网络的行为识别方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN113223006B (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
CN116205927A (zh) | 一种基于边界增强的图像分割方法 | |
CN112132816B (zh) | 一种基于多任务与感兴趣区域分割引导的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |