CN114494703B

CN114494703B - 一种智能车间场景目标轻量级语义分割方法

Info

Publication number: CN114494703B
Application number: CN202210402442.3A
Authority: CN
Inventors: 陈光柱; 严成良; 易佳
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-06-28
Anticipated expiration: 2042-04-18
Also published as: CN114494703A

Abstract

本发明提出了一种智能车间场景目标轻量级语义分割方法。该方法针对车间目标语义识别精度与实时性平衡问题，提出一种融合双路平均池化与三分支注意力机制的轻量级语义分割网络。该网络的编码器以轻量级MobileNet v2网络为基准，以实现分割的高实时性；在解码器中构建双路平均池化模块，通过融合上下文信息的方法，准确修复编码器中丢失的特征信息，提取更丰富的语义信息和更精确的目标位置信息，以实现高精度的语义分割；在解码器中构建三分支注意力机制模块，利用不同尺度的信息对原始的特征进行像素级别的相乘，并对不同尺度的特征用向量的形式进行表示，高效地解决语义分割的多尺度问题。

Description

一种智能车间场景目标轻量级语义分割方法

技术领域

本发明属于计算机视觉、深度学习领域，具体涉及一种智能车间场景目标轻量级语义分割方法。

背景技术

智能车间是智能工厂最核心的执行单元，推进智能车间的建设是实现智能制造关键一步。对车间场景目标进行语义级别地感知识别，是实现车间智能化的基础，如车间智能安防、移动机器人智能导航任务都首先需要对车间场景目标进行语义级别地感知与识别，即识别出目标的种类、形状、以及位姿，然后基于识别结果进行推理决策。由于智能车间场景及目标的复杂性，对智能车间目标的语义级别地识别面临以下两个方面的难题：

1.目标语义识别精度与实时性的平衡

提高目标的识别精度是目标识别的最基本要求，同时在车间的生产过程中，为了满足生产的连续化，必须同时考虑目标识别的实时性；

2.目标的多尺度性

车间场景包括众多加工设备、输送设备、以及操作人员等目标，各个目标形状与体积差异大，即呈现目标的多尺度问题。

作为目标识别的重要方向，图像语义分割能够精确捕获每一帧图像，并对图像中的每个目标进行像素级别分类来提取一些重要信息，如目标的类别、位置、形状等，已广泛应用于自动驾驶、人脸识别、医学诊断等领域。

与传统图像分割方法相比，基于深度学习的图像语义分割方法具有预测准确性高、获取信息更丰富等特点，是目前图像语义分割领域中采用的主要方法。一些以全卷积网络(fully convolutional networks，FCN)为基础的早期语义分割网络，主要通过复杂的网络结构和众多的参数保证分割精度，在分割实时性方面有所欠缺。BiseNet等轻量级网络的出现提高了语义分割的实时性，但网络结构以及参数量的减少从一定程度上降低了分割精度。

综上所述，针对以上研究的不足，提出了一种智能车间场景目标轻量级语义分割方法。

发明内容

鉴于上述问题，本发明的目的在于提供一种智能车间场景目标轻量级语义分割方法。

一种智能车间场景目标轻量级语义分割方法，包括以下步骤：

步骤一：车间数据集的采集与制作；

步骤二：设计基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络(integrating double average pooling and three branch attention mechanismnetwork，IPANet)，采用编码器-解码器结构，以轻量级卷积神经网络作为整个网络的编码器，解码器包括双路平均池化模块(double average pooling，DAP)和三分支注意力机制模块(three branch attention mechanism，TBAM)，提取多尺度目标的语义信息和实现高精度的语义分割；

步骤三：选取三种不同的轻量级卷积神经网络，ShuffleNet v2、SqueezeNet、MobileNet v2与解码器进行结合，通过针对智能车间场景目标语义分割数据集的目标语义分割对比实验，确定MobileNet v2作为编码器的骨干网络；

步骤四：采用交叉熵函数和DiceLoss函数作为整个网络的损失函数；

步骤五：采用数据增强来扩充车间目标样本，同时采用迁移学习进行小样本的学习。

与现有技术相比，本发明具有以下有益效果：

1.相比于现有语义分割技术在兼顾实时性的同时也保证了分割的准确性，具备不错的像素级别的分割能力；

2.具备较高的实时性，可应用于对实时性要求较高的智能车间场景。

附图说明

图1是车间目标语义分割数据集原图；

图2是车间目标语义分割数据集语义标签图；

图3是基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络(integrating double average pooling and three branch attention mechanismnetwork，IPANet)整体框架图；

图4是双路平均池化模块(double average pooling，DAP)框架图；

图5是三分支注意力机制模块(three branch attention mechanism，TBAM)框架图；

图6是多尺度特征权重向量示意图；

图7是智能车间场景目标小样本学习框架图；

图8是IPANet模型框架图；

图9是IPANet模型的分割效果。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

一种基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络，具体包括以下步骤：

步骤一：建立车间数据集

步骤11：车间目标语义分割数据集，面向车间目标语义分割的数据集尚不存在，需要建立生产车间场景目标数据集(Scene Objects for Production workshop dataset，SOP)，SOP数据集标签种类包括人、机床踏板、普通机床、数控车床、数控铣床、移动机器人等6类。使用语义分割标注软件Labelme对原始图像进行标注，如附图1所示为车间目标语义分割数据集原图，如附图2所示为车间目标语义分割数据集语义标签图；

步骤12：扩充车间数据集，数据集的数量将在很大程度上提高分割网络的精度，由于SOP数据集中目标样本数量较少，仅有220张，通过网上下载30张，然后利用了数据增强的方式来扩充SOP数据集，将原始数据集经过旋转、缩放、平移等数据增强，对SOP数据集进行扩充，最终获得扩充SOP数据集。扩充SOP数据集的数量共500张，将其划分为训练集450张，测试集50张，数据集中的目标图像不重复，共包括6类分割目标和1类背景图像，其中包含人的图像有111张、包含机床踏板的图像有316张、普通机床的图像有113张包含、包含数控车床的图像有197张、包含数控铣床的图像有90张、包含移动机器人的图像有78张。

步骤二：设计如附图3所示的编码器-解码器结构的轻量级语义分割网络

步骤21：轻量级语义分割网络的编码器以轻量级卷积神经网络为基准，以实现分割的高实时性；同时为提高车间目标语义分割精度，在解码器中构建双路平均池化模块(Double Average Pooling，DAP)，通过融合上下文信息的方法，准确修复编码器中丢失的特征信息，提取更丰富的语义信息和更精确的目标位置信息，以实现高精度的语义分割，如附图4所示，其中，AvgPool表示全局平均池化操作，CBR由二维卷积、批量归一化、线性整流激活函数组成，Concat表示通道数拼接操作；

首先，采用轻量级骨干网络MobileNet v2作为编码器，以保证整个网络的实时性；

然后，设计双路平均池化模块，应用全局平均池化操作整合编码器由不同下采样阶段所获取的深层特征和浅层特征所呈现的多尺度信息，双路平均池化模块的具体操作步骤分为全局平均池化操作、多尺度特征提取操作、特征融合操作、提取融合特征操作：

1.全局平均池化操作：

其中，

表示为全局平均池化操作的输出，

表示全局平均池化操作，

表示池化因子，

；

表示编码器第

层的特征，作为双路平均池化模块的输入，

，w、h、c分别表示特征图的宽度、高度和通道数，

表示编码器网络层数；

2.多尺度特征提取操作：使用1X1的卷积核对全局平均池化操作输出的多尺度特征图进行卷积，得到相应的卷积结果

：

其中，

表示线性整流激活函数，

表示批量标准化操作，

表示1X1卷积核的卷积操作；

3.特征融合操作：将多尺度特征提取操作输出的特征图

串连，获得特征图中目标的多尺度融合特征

：

其中，

表示拼接通道维数的操作；

4.提取融合特征操作：使用卷积核为1X1和步长为1的卷积操作对特征融合操作输出的融合特征

，得到特征

：

步骤22：在解码器中构建三分支注意力机制模块(Three Branch AttentionMechanism，TBAM)，利用不同尺度的信息对原始的特征进行像素级相乘，并对不同尺度的特征用向量的形式进行表示，高效地解决语义分割的多尺度问题，如附图5所示，三分支注意力机制模块的具体操作步骤分为注意力机制提取多尺度特征操作、全局平均池化操作、多尺度特征提取操作、特征融合操作：

5.注意力机制提取多尺度特征操作：

其中，

表示双路平均池化模块输出的特征F通过1X1卷积后的特征向量；

表示利用三种尺度的卷积操作输出的特征向量，

表示步长为1的卷积操作，

表示步长为2的卷积操作，其中卷积核大小

，对应的填充大小

；

表示不同尺度的权重向量和；

表示对特征图进行外积，整个外积操作的输入为

与

，输出为新的特征

；

6.全局平均池化操作：此外设计两个并行的全局平均池化模块，对双路平均池化模块中提取融合特征操作的输出特征F进行全局平均池化操作，具体操作式为：

其中，

表示全局平均池化操作，

表示池化因子，

；

7.多尺度特征提取操作：使用1X1的卷积核对全局平均池化操作中输出的特征

进行卷积，得到相应的卷积结果

：

8.特征融合操作：融合注意力机制提取多尺度特征操作输出的特征

和多尺度特征提取操作输出的特征

，获得图像中的多尺度特征信息：

最后，利用分类器将解码器处理后的结果转为目标分割预测图；

步骤三：将解码器与不同的轻量级卷积神经网络进行结合，并训练得出最优网络模型，具体研究思路为：

步骤31：将步骤二中构建的双路平均池化模块和三分支注意力机制模块分别与ShuffleNet v2、SqueezeNet和MobileNet v2进行结合；

步骤32：采用交叉熵函数和DiceLoss函数作为整个网络的损失函数；

整个网络模型的训练采用交叉熵函数和DiceLoss函数作为整个网络的损失函数L：

其中，M表示数据集中类别数量，

表示预测图是类别a的概率，

表示由0和1组成的独热向量，

和

分别表示数据集标签和预测结果的元素个数，

表示数据集标签和预测结果之间共同元素个数；

利用损失函数L共同来进行整个网络的训练；

步骤33：采用迁移学习进行小样本的学习，如附图7，首先获取ShuffleNet v2、SqueezeNet和MobileNet v2在ImageNet数据集的预训练权重；然后将预训练权重迁移到编码器中，并进行冻结，使用智能车间目标数据集SOP对IPANet进行第一阶段训练，得到IPANet的初始网络权重；最后解冻IPANet编码器的网络预训练权重，进行第二阶段训练，获得最优网络模型；

步骤34：选择MobileNet v2作为编码器时输出的预测结果明显比SqueezeNet作为编码器时的预测结果好，并且在边界细节的处理上比ShuffleNet v2作为编码器时的预测结果更精确，最终选择将MobileNet v2网络作为整个网络的编码器，整个网络结构如附图8所示。

整个网络结构完整描述如下：

步骤1：将整个网络的输入大小设定为

；

步骤2：将MobileNet v2网络作为整个网络的编码器；

步骤3：在解码器中构建一种双路平均池化融合模块(DAP)，来融合编码器所获得的低层次特征图，以消除高层次特征图和低层次特征图之间的语义信息和结构细节差异；

步骤4：在双路平均池化模块(DAP)提取到多尺度融合特征之后，设计一个三分支注意力机制模块(TBAM)，三分支注意力机制模块(TBAM)实际上是利用多尺度特征注意力机制来实现像素级别的稠密估计，将输入特征处理为不同尺度的特征并赋予相同权重的特征信息，如附图6所示，使得图中较小的细节特征能够在较大的尺度上被有效地分割，较大的特征能够在较小的尺度上被有效地分割；

步骤5：经过解码器操作之后，最后再利用二维卷积操作构建一个分类器，完成最终的图像分割预测，如附图9所示。

Claims

1.一种智能车间场景目标轻量级语义分割方法，其特征在于，包括如下步骤：

步骤1.车间数据集的采集与制作：

采集原始生产车间场景目标数据集，对数据集进行标注；将原始生产车间场景目标数据集通过旋转、缩放、平移的数据增强方式，对原始生产车间场景目标数据集进行扩充，获得扩充生产车间场景目标数据集；

步骤2.设计基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络：

首先，采用MobileNet v2作为基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络的编码器；

然后，设计双路平均池化模块，应用全局平均池化操作整合编码器由不同下采样阶段所获取的深层特征和浅层特征所呈现的多尺度信息；双路平均池化模块的具体操作步骤分为全局平均池化操作、多尺度特征提取操作、特征融合操作、提取融合特征操作：

全局平均池化操作：

其中，

表示为全局平均池化操作的输出，

表示全局平均池化操作，

表示池化因子，

；

表示编码器第

层的特征，作为双路平均池化模块的输入，

，w、h、c分别表示特征图的宽度、高度和通道数，

表示编码器网络层数；

多尺度特征提取操作：使用1X1的卷积核对全局平均池化操作输出的多尺度特征图进行卷积，得到相应的卷积结果

：

其中，

表示线性整流激活函数，

表示批量标准化操作，

表示1X1卷积核的卷积操作；

特征融合操作：将多尺度特征提取操作输出的特征图

串连，获得特征图中目标的多尺度融合特征

：

其中，

表示拼接通道维数的操作；

提取融合特征操作：使用卷积核为1X1和步长为1的卷积操作对特征融合操作输出的融合特征

，得到特征

：

其次，设计三分支注意力机制模块，将双路平均池化模块输出的特征图

利用

、

、

三种不同大小的卷积核进行特征提取；三分支注意力机制模块的具体操作步骤分为注意力机制提取多尺度特征操作、全局平均池化操作、多尺度特征提取操作、特征融合操作：

注意力机制提取多尺度特征操作：

其中，

表示利用三种尺度的卷积操作输出的特征向量，

表示步长为1的卷积操作，

表示步长为2的卷积操作，其中卷积核大小

，对应的填充大小

；

表示不同尺度的权重向量和；

表示对特征图进行外积，整个外积操作的输入为

与

，输出为新的特征

；

全局平均池化操作：此外设计两个并行的全局平均池化模块，对双路平均池化模块中提取融合特征操作的输出特征F进行全局平均池化操作，具体操作式为：

其中，

表示全局平均池化操作，

表示池化因子，

；

多尺度特征提取操作：使用1X1的卷积核对全局平均池化操作中输出的特征

进行卷积，得到相应的卷积结果

：

特征融合操作：融合注意力机制提取多尺度特征操作输出的特征

和多尺度特征提取操作输出的特征

，获得图像中的多尺度特征信息：

最后，利用分类器将特征融合操作输出的特征图

转为目标分割预测图；

步骤3.采用交叉熵函数和DiceLoss函数作为训练基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络的损失函数L：

其中，M表示数据集中类别数量，

表示预测图是类别a的概率，

表示由0和1组成的独热向量，

和

分别表示数据集标签和预测结果的元素个数，

表示数据集标签和预测结果之间共同元素个数；

步骤4.采用迁移学习进行小样本的学习：

首先，获取MobileNet v2在ImageNet数据集的预训练权重；然后将预训练权重迁移到基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络的编码器，并进行冻结，使用扩充生产车间场景目标数据集对基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络进行第一阶段训练；最后解冻基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络编码器的网络预训练权重，进行第二阶段训练，获取基于多尺度与注意力机制的智能车间场景目标轻量级语义分割网络模型。