CN114187481A

CN114187481A - 基于改进的U-net语义分割网络的补强胶定位方法

Info

Publication number: CN114187481A
Application number: CN202210133130.7A
Authority: CN
Inventors: 周飞; 曲东升; 陈辉; 李长峰; 潘志伟
Original assignee: Changzhou Mingseal Robotic Technology Co Ltd
Current assignee: Changzhou Mingseal Robotic Technology Co Ltd
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-03-15
Anticipated expiration: 2042-02-14
Also published as: CN114187481B

Abstract

本发明公开了一种基于改进的U‑net语义分割网络的补强胶定位方法，采集大量补强胶图片，制作成训练样本；输入训练图像首先经过第一编码器得第一特征图；第一特征图经最大池化层后大小减小一半，经过第二编码器、注意力模块和金字塔池化模块得第二特征图；第二特征图经最大池化层后大小减小一半，经第三编码器得到第三特征图；将第三特征图使用解码器模块与第二特征图相融合后将特征图大小上采样两倍得第一融合特征图，第一融合特征图经卷积层后使用解码器模块与第一特征图相融合后再将特征图大小上采样两倍得第二融合特征图，第二融合特征图经卷积层得到分割结果。该方法具有提高机器视觉算法应用在补强胶定位中普适性的优点。

Description

基于改进的U-net语义分割网络的补强胶定位方法

技术领域

本发明涉及深度学习语义分割网络实现补强胶定位的技术领域，尤其是一种基于改进的U-net语义分割网络的补强胶定位方法。

背景技术

在手机零部件生成过程中，为了增强零件与软体连接处的强度，需要在连接处涂上一层补强胶，然而在涂胶过程中不可避免出现少胶、断胶、气泡等涂胶缺陷，因此补强胶缺陷检测对于手机零部件生产质量的把控尤为重要，补强胶缺陷检测的首要环节是准确在图像中定位出补强胶区域。

传统补强胶定位方法一般使用模板匹配等传统图像处理方法，这种定位方法需要在不同产品、不同打光环境下重新设计，并且需要仔细调整定位参数，不利于实际生产作业。

深度学习语义分割对输入图片进行像素级密集预测，求取每一个像素预测的最大概率即可得到图像中每一个像素预测对应的类别，因此可以使用深度学习语义分割网络实现补强胶定位，然而当前没有一种深度学习语义分割网络专门设计用于补强胶定位，并且目前普适性的深度学习语义分割网络大多存在速度和精度不均衡问题，精度高的语义分割网络速度慢，速度快的网络精度低。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明提出一种基于改进的U-net语义分割网络的补强胶定位方法，具有提高机器视觉算法应用在补强胶定位中普适性的优点。

根据本发明实施例的基于改进的U-net语义分割网络的补强胶定位方法，具有以下步骤：第一步骤、制作训练数据集：采集大量不同产品和不同打光环境下的补强胶图片，经过仔细标注，制作成训练样本；第二步骤、输入训练图像，首先经过第一编码器得到第一特征图；第三步骤、第二步骤得到的第一特征图经过一个最大池化层，使得第一特征图的大小减小一半，然后经过第二编码器、注意力模块和金字塔池化模块得到第二特征图；所述注意力模块包括通道注意力模块和空间注意力模块；第四步骤、第三步骤得到的第二特征图经过一个最大池化层，使得第二特征图的大小减小一半，再经过第三编码器得到第三特征图；第五步骤、将第四步骤得到的第三特征图使用解码器模块与第三步骤得到的第二特征图相融合后再将特征图大小上采样两倍得到第一融合特征图，然后第一融合特征图经过两个卷积层后再使用解码器模块与第二步骤得到的第一特征图相融合后再将特征图大小上采样两倍得到第二融合特征图，最后第二融合特征图经过一个卷积层得到分割结果。

本发明的有益效果是，本发明利用注意力模块中的通道注意力模块得到通道注意力特征图，使得通道卷积特征细化，空间注意力模块在特征图中找出最具代表特征信息的空间部分，通道注意力模块和空间注意力模块相结合能够在显著减小U-net网络参数的同时提升分割细节；本发明的第二编码器将输入底层特征图与经过4个SE卷积模块和一个最大池化层输出的高层特征图相融合，增加输出特征图的感受野和定位精度，从而提升U-net网络的分割精度；本发明与原始U-net网络相比具有更高的精度和速度，尤其对于补强胶定位场景中能够分割出细粒度更高的补强胶区域。

根据本发明一个实施例，在所述第三步骤中，所述第一特征图经过一个池化核为2*2、步长数为2的最大池化层，使得第一特征图的大小减小一半。

根据本发明一个实施例，在所述第四步骤中，所述第二特征图经过一个池化核为2*2、步长数为2的最大池化层，使得第二特征图的大小减小一半。

根据本发明一个实施例，在所述第五步骤中，所述第二融合特征图经过一个输入通道为32、输出通道为分割类别N、卷积核大小为1*1的卷积层得到分割结果，其中的N是大于1的正整数。

根据本发明一个实施例，所述第一编码器由两个SE卷积模块级联而成，所述SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。

根据本发明一个实施例，所述第二编码器由5个SE卷积模块和一个池化核为2*2、步长数为2的最大池化层组成，所述SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。

根据本发明一个实施例，所述第一特征图经过两路输出，其中一路经过一个SE卷积模块，另一路依次经过两个SE卷积模块、一个池化核大小为2*2、步长数为2的最大池化层、两个SE卷积模块，两路输出相融合得到第二编码器输出特征图；所述SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。

根据本发明一个实施例，所述第三编码器由一个池化核大小为2*2、步长数为2的最大池化层、一个卷积核大小为3*3、步长数为1、填充值为1的卷积层和一个SELU激活层组成。

根据本发明一个实施例，所述注意力模块输出分割结果分为四路输入到金字塔池化模块中，再将四路输出融合得到第二特征图。

根据本发明一个实施例，所述金字塔池化模块由一个自适应平均池化层、一个卷积核大小为3*3且输入输出通道均为64的卷积层和一个上采样层组成。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明整体网络的结构图；

图2是本发明SE卷积模块的结构图；

图3是本发明第二编码器的结构图；

图4是本发明通道注意力模块的结构图；

图5是本发明空间注意力模块的结构图；

图6是本发明金字塔池化模块的结构图；

图7是本发明第三编码器的结构图；

图8是本发明解码器的结构图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

由于基于传统图像处理的补强胶定位算法需要对不同产品、不同打光环境下精心设计定位参数，使得其普适性不高，不利于实际工程作业调试，而当前基于深度学习语义分割网络存在分割速度和精度不均衡问题，本发明提出一种基于改进的U-net语义分割网络的补强胶定位方法，旨在解决在补强胶定位中传统图像处理算法普适性低、深度学习语义分割网络分割速度和精度不均衡问题。

本发明的基于改进的U-net语义分割网络的补强胶定位方法，具有以下步骤：

第一步骤、制作训练数据集：采集大量不同产品和不同打光环境下的补强胶图片，经过仔细标注，制作成训练样本。

第二步骤、输入训练图像，首先经过第一编码器（EncodeOne）得到第一特征图；其中，第一编码器由两个SE卷积（SE Conv2d）模块级联而成，SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。

第三步骤、第二步骤得到的第一特征图经过一个池化核为2*2、步长数为2的最大池化层，使得第一特征图的大小减小一半，然后经过第二编码器（EncodeTwo）、注意力模块(Convolutional-Block-Attention-Module，CBAM)和金字塔池化模块(Pyramid-Pooling-Module，PPM)得到第二特征图；注意力模块包括通道注意力模块（Channel-Attention-Modul，CAM）和空间注意力模块（Spartial-Attention-Module，SAM）；其中，第二编码器由5个SE卷积模块和一个池化核为2*2、步长数为2的最大池化层组成，SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。具体地，第一特征图经过两路输出，其中一路经过一个SE卷积模块，另一路依次经过两个SE卷积模块、一个池化核大小为2*2、步长数为2的最大池化层、两个SE卷积模块，两路输出相融合得到第二编码器输出特征图；SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。其中，注意力模块输出分割结果分为四路输入到金字塔池化模块中，再将四路输出融合得到第二特征图。金字塔池化模块由一个自适应平均池化层、一个卷积核大小为3*3且输入输出通道均为64的卷积层和一个上采样层组成。

第四步骤、第三步骤得到的第二特征图经过一个池化核为2*2、步长数为2的最大池化层，使得第二特征图的大小减小一半，再经过第三编码器（EncodeThree）得到第三特征图；其中，第三编码器由一个池化核大小为2*2、步长数为2的最大池化层、一个卷积核大小为3*3、步长数为1、填充值为1的卷积层和一个SELU激活层组成。

第五步骤、将第四步骤得到的第三特征图使用解码器（Deocde_block）模块与第三步骤得到的第二特征图相融合后再将特征图大小上采样两倍得到第一融合特征图，然后第一融合特征图经过两个卷积层后再使用解码器模块与第二步骤得到的第一特征图相融合后再将特征图大小上采样两倍得到第二融合特征图，最后第二融合特征图经过一个输入通道为32、输出通道为分割类别N、卷积核大小为1*1的卷积层得到分割结果，其中的N是用户定义的需要分割的点胶类别，且N是大于1的正整数。

需要说明的是，第五步骤中提及到的两处解码器模块，除输入输出通道数外，其余结构一样。

第一编码器中的SELU激活函数、第二编码器中的SELU激活函数和第三编码器中的SELU激活函数相同，SELU激活函数的表达式如下：

其中，

和

表示权重经验值；

代表输入参数；

表示数学中的自然常数。

在图1～图8中，每一个模块所使用的的卷积输入(in_channels)输出(out_channels)层数、核大小(kernel_size)、步长(stride)和填充值(padding)均已标识出，这些附图均为简化的示意图。

根据本发明一个实施例：

见图1，基于改进的U-net语义分割网络的补强胶定位方法，具有以下步骤：

第1步骤、制作训练数据集：采集不同产品和不同打光环境下的补强胶图片，并标注出每张图片中的补强胶区域，将输入网络的训练图像大小优选为512*512。

第2步骤、开始训练，图片首先输入到第一编码器（EncodeOne）中，提取卷积特征得到第一特征图，如图2所示，SE卷积（SE Conv2d）模块由一个输入通道为3、输出通道为32、卷积核大小为3*3、步长数为1、填充值为1的卷积层和一个SELU激活函数组成，其中SELU激活函数的表达式如下：

其中，

和

表示权重经验值；

代表输入参数；

表示数学中的自然常数。

第一编码器由两个级联的SE卷积模块组成，优选地，训练图像通过输出通道为32、卷积核大小为3*3的SE卷积模块，则输出第一特征图大小为512*512*32。

第3步骤、将第2步骤得到的第一特征图经过一个池化核大小为2*2、步长数为2的最大池化层将第一特征图大小减小一半，然后输入到如图3所示的第二编码器（EncodeTwo）中，将池化后的第一特征图输入到两路，一路经过一个SE卷积模块（输入通道为16，输出通道为32），另一路经过四个SE卷积模块和一个步长为2的最大池化层（第一个SE卷积模块的输入通道为16，输出通道为16；第二个SE卷积模块的输入通道为16，输出通道为16；第三个SE卷积模块的输入通道为16，输出通道为32；第四个SE卷积模块的输入通道为32，输出通道为32；该最大池化层位于第二个SE卷积模块与第三个SE卷积模块之间；即另一路依次经过第一个SE卷积模块、第二个SE卷积模块、最大池化层、第三个SE卷积模块和第四个SE卷积模块），两路输出特征图相融合后得到第二编码器的输出，通过将包含更精确位置信息的底层特征图与包含更多语义信息的高层特征图像融合，从而提高输出特征图的分割精度。第一特征图经过第二编码器后大小为128*128*64。

第4步骤、将第3步骤得到的特征图输入到如图4所示的注意力模块(Convolutional-Block-Attention-Module，CBAM)，其中，注意力模块由通道注意力模块（CAM）和空间注意力模块（SAM）组成，通道注意力模块的结构如图4所示，将第二编码器的输出输入到三路。第一路依次经过一个池化核大小为1*1的自适应全局平均池化层、一个输入通道为64、输出通道为2、卷积核大小为1*1的卷积层、一个ReLU激活层和一个输入通道为2、输出通道为64、卷积核大小为1*1的卷积层。第二路依次经过一个池化核大小为1*1的自适应最大池化层、一个输入通道为64、输出通道为2、卷积核大小为1*1的卷积层、一个ReLU激活层和一个输入通道为2、输出通道为64、卷积核大小为1*1的卷积层。然后将第一路与第二路输出相加的结果与第二编码器的输出相乘，得到通道注意力模块的输出特征图。

通道注意力模块可以得到通道注意力特征图，主要原理是利用输入特征图通道间的关系，为了聚合空间信息，可以使用平均池化，需要压缩输入特征图的空间维度，这样可以计算得到通道注意力。为了得到独特的语义线索，可以使用最大池化，这样可以细化通道注意力，使得通道上特征细化，因此通道注意力模块同时使用了平均池化和最大池化。优选地，第一特征图经过通道注意力模块后大小为128*128*64。

空间注意力模块的结构如图5所示，通道注意力模块输出的特征图分为两路，一路对特征图列求取平均值（卷积层均值），另一路对特征图列求取最大值（卷积层最大值），然后再将两路输出融合后输入到一个输入通道为2、输出通道为1、卷积核大小为3*3的卷积层中，即可得到空间注意力模块的输出特征图。空间注意力模块沿着通道轴采用平均池化和全局池化，然后生成一个特征描述符，从而对通道注意力模块得到的特征图进行补充，找出最具代表特征信息的空间部分。优选地，空间注意力模块输出的特征图大小为128*128*64。

第5步骤、将第4步骤得到的注意力模块特征图输入到如图6所示的金字塔池化模块(Pyramid-Pooling-Module，PPM)中，注意力模块输出分割结果分为四路输入到金字塔池化模块（Pooling block）中，再将四路输出融合得到第二特征图，其中金字塔池化模块由一个自适应平均池化层、一个卷积核大小为3*3且输入输出通道均为64的卷积层和一个上采样层组成，具体地，其中第一路金字塔池化模块中自适应平均池化层的池化核大小为1*1，第二路金字塔池化模块中自适应平均池化层的池化核大小为2*2，第三路金字塔池化模块中自适应平均池化层的池化核大小为3*3，第四路金字塔池化模块中自适应平均池化层的池化核大小为6*6。金字塔池化模块能够充分利用卷积特征图的全局信息，并且能够保留特征图的上下文语义信息，多尺度池化与单一池化相比能够获得更加丰富的上下文语义信息，加入金字塔池化模块后能够解决在补强胶定位中输出类别混淆问题，从而提高定位精度。优选地，第二特征图大小为128*128*64。

第6步骤、将第5步骤得到的第二特征图进行步长数为2的最大池化，将第二特征图的大小减小一半，然后输入到如图7所示的第三编码器（EncodeThree）中得到第三特征图，第三编码器依次包含一个池化大小为2*2且步长数为2的最大池化层、一个输入通道为64、输出通道为128、卷积核大小为3*3的卷积层和一个SELU激活层。优选地,第三特征图大小为32*32*128。

第7步骤、将第二特征图和第三特征图使用如图8所示的解码器（Deocde_block）模块进行融合，将特征图上采样，其中解码器依次包含一个上采样层、一个输入通道为128、输出通道为64、卷积核大小为3*3的卷积层、一个卷积核大小为3*3且输入输出通道均为64的卷积层和一个上采样层。两个上采样层将特征图大小增大两倍。优选地，经过第一个解码器后特征图大小为128*128*128。

第8步骤、将第7步骤得到的特征图经过一个输入通道为128、输出通道为128、卷积核大小为3*3的卷积层和一个输入通道为128、输出通道为64、卷积核大小为3*3的卷积层，然后再输入到第二个解码器中与第一特征图融合，第二编码器依次包含一个上采样层、一个输入通道为64、输出通道为32、卷积核大小为3*3的卷积层、一个卷积核大小为3*3且输入输出通道均为32的卷积层和一个上采样层。最后使用输入通道为32、输出通道为分割类别数N、卷积核大小为1*1的卷积层进行卷积操作，最终得到的特征图大小为512*512*N，求取每一个像素预测概率值的最大值对应的类别，即可实现在输入点胶图像中分割出补强胶区域。

本发明提出的基于改进的U-net语义分割网络的补强胶定位方法，利用深度学习语义分割网络强大的特征学习能力，在训练阶段采集多种不同产品和打光环境下的补强胶图片，并进行仔细标注，制作成训练样本对网络进行训练至收敛，在推理分割阶段即可在点胶图像中精确的定位出各种产品和打光环境中的补强胶区域，从而提高机器视觉算法应用在补强胶定位中的普适性。对于原始的U-net语义分割网络应用在补强胶定位中时存在检测阶段速度慢、网络参数庞大的问题，本发明提出的基于改进的U-net语义分割网络的补强胶定位方法可以加快深度学习语义分割网络在补强胶定位中的实际部署。

本发明将U-net自身特有的编码解码结构与级联特征融合的设计原理相结合，并将注意力模块(Convolutional-Block-Attention-Module，CBAM)和金字塔池化模块(Pyramid-Pooling-Module，PPM)融合进U-net语义分割网络中，从而提高网络的分割细粒度，该网络与原始U-net相比，在保持分割精度的同时拥有更少的参数，解决U-net语义分割网络在补强胶定位中分割精度低速度慢的问题。

本发明改进U-net语义分割网络的编码解码设计结构，经过三个不同结构的编码模块得到三种不同分辨率的特征图，然后使用两个解码器模块将编码模块输出特征图相融合并进行上采样操作，使输出特征图与输入分割图像大小相同，实现补强胶定位。

本发明将注意力模块和金字塔池化模块融合进U-net语义分割网络中，特征图通过注意力模块和金字塔池化模块后其大小和数量均不改变；第一编码器和第三编码器分别经包含两个和一个卷积操作，第二编码器中将输入特征图与卷积后的特征图相融合，提高U-net网络中层特征图的感受野和定位精度，以上设计方法使得在显著减小U-net网络的参数同时也提高了网络的分割精度。

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于改进的U-net语义分割网络的补强胶定位方法，其特征在于，具有以下步骤：

第一步骤、制作训练数据集：采集大量不同产品和不同打光环境下的补强胶图片，经过仔细标注，制作成训练样本；

第二步骤、输入训练图像，首先经过第一编码器得到第一特征图；

第三步骤、第二步骤得到的第一特征图经过一个最大池化层，使得第一特征图的大小减小一半，然后经过第二编码器、注意力模块和金字塔池化模块得到第二特征图；所述注意力模块包括通道注意力模块和空间注意力模块；

第四步骤、第三步骤得到的第二特征图经过一个最大池化层，使得第二特征图的大小减小一半，再经过第三编码器得到第三特征图；

第五步骤、将第四步骤得到的第三特征图使用解码器模块与第三步骤得到的第二特征图相融合后再将特征图大小上采样两倍得到第一融合特征图，然后第一融合特征图经过两个卷积层后再使用解码器模块与第二步骤得到的第一特征图相融合后再将特征图大小上采样两倍得到第二融合特征图，最后第二融合特征图经过一个卷积层得到分割结果。

2.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：在所述第三步骤中，所述第一特征图经过一个池化核为2*2、步长数为2的最大池化层，使得第一特征图的大小减小一半。

3.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：在所述第四步骤中，所述第二特征图经过一个池化核为2*2、步长数为2的最大池化层，使得第二特征图的大小减小一半。

4.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：在所述第五步骤中，所述第二融合特征图经过一个输入通道为32、输出通道为分割类别N、卷积核大小为1*1的卷积层得到分割结果，其中的N是大于1的正整数。

5.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：所述第一编码器由两个SE卷积模块级联而成，所述SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。

6.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：所述第二编码器由5个SE卷积模块和一个池化核为2*2、步长数为2的最大池化层组成，所述SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。

7.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：所述第一特征图经过两路输出，其中一路经过一个SE卷积模块，另一路依次经过两个SE卷积模块、一个池化核大小为2*2、步长数为2的最大池化层、两个SE卷积模块，两路输出相融合得到第二编码器输出特征图；所述SE卷积模块由一个卷积核大小为3*3、步长数为1的卷积层和一个SELU激活函数组成。

8.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：所述第三编码器由一个池化核大小为2*2、步长数为2的最大池化层、一个卷积核大小为3*3、步长数为1、填充值为1的卷积层和一个SELU激活层组成。

9.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：所述注意力模块输出分割结果分为四路输入到金字塔池化模块中，再将四路输出融合得到第二特征图。

10.根据权利要求1所述的基于改进的U-net语义分割网络的补强胶定位方法，其特征在于：所述金字塔池化模块由一个自适应平均池化层、一个卷积核大小为3*3且输入输出通道均为64的卷积层和一个上采样层组成。