CN116152807B

CN116152807B - 一种基于U-Net网络的工业缺陷语义分割方法及存储介质

Info

Publication number: CN116152807B
Application number: CN202310399476.6A
Authority: CN
Inventors: 吴宗泽; 李墨; 陈志豪; 任志刚
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-09-05
Anticipated expiration: 2043-04-14
Also published as: CN116152807A

Abstract

本发明公开了一种基于U‑Net网络的工业缺陷语义分割方法及存储介质，涉及计算机视觉技术领域。所述方法包括：获取目标图像集；对分割图像进行分类，划分为无缺陷类图像或有缺陷类图像；将无缺陷类图像转化为不带有缺陷信息的第一掩模图；将有缺陷类图像输入语义分割网络，得到带有缺陷信息的第二掩模图；其中，所述语义分割网络基于U‑Net网络构建，并引入PPM模块；合并第一掩模图和第二掩模图，得到关于工业产品的完整掩模图。相较于现有技术，本发明通过在U‑Net网络中引入PPM模块，可有效聚合不同区域上下文信息，避免了语义分割中误判、未判和错判等问题，特别适用于工业产品表面缺陷检测领域。

Description

一种基于U-Net网络的工业缺陷语义分割方法及存储介质

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种基于U-Net网络的工业缺陷语义分割方法及存储介质。

背景技术

语义分割(Semantic Segmentation)，也称为像素级分类问题，其涉及将一些原始数据作为输入并将它们转换为具有突出显示的感兴趣区域的掩模，且输出和输入分辨率相同。因此语义分割具有两大需求，即高分辨率和高层语义。

传统方案中，工业产品表面缺陷（如玻璃面板缺陷、钢板缺陷等）的检测与识别有赖于人工完成，基于机器视觉和深度学习算法的检测方法被提出以替代传统的人工检验方法，不再需要人工选取特征，如采用U-Net网络解决磁瓦划痕缺陷检测的小目标分割问题，U-Net网络结构如图 1所示。

但是上述采用U-Net网络的方法，学习模型参数多，训练难度大，在多变场景时由于获取全局信息不充分，造成语义分割时出现不匹配关系、混淆类别和不显著类别缺陷的误判、未判或错判问题，不能很好的满足相关领域的需求。

发明内容

本发明为克服上述现有技术所述的获取全局信息不充分的缺陷，提供一种基于U-Net网络的工业缺陷语义分割方法及存储介质。

为解决上述技术问题，本发明的技术方案如下：

第一方面，一种基于U-Net网络的工业缺陷语义分割方法，包括：

获取目标图像集；其中，所述目标图像集中包括对同一工业产品成像的若干张分割图像；

对分割图像进行分类，划分为无缺陷类图像或有缺陷类图像；

将无缺陷类图像直接转化为不带有缺陷信息的第一掩模图；

将有缺陷类图像输入语义分割网络，得到带有缺陷信息的第二掩模图；其中，所述语义分割网络基于U-Net网络构建，并引入PPM模块；

合并第一掩模图和第二掩模图，得到关于工业产品的完整掩模图。

第二方面，一种计算机存储介质，所述计算机存储介质上存储有计算机指令，所述指令在计算机上执行时，使得所述计算机执行第一方面所述的方法。

与现有技术相比，本发明技术方案的有益效果是：

相较于现有技术，本发明通过对分割图像进行分类，减少了无目标训练图像造成的资源浪费，降低后续图像语义分割的计算复杂度并放大缺陷语义特征，从而提高整体效率及准确率，同时缓解了由于网络加深造成的梯度消失和梯度爆炸问题；通过在U-Net网络中引入PPM模块，可有效聚合不同区域的上下文信息，扩大感受野，提高了获取全局信息的能力，达到兼顾全局语义信息与局部细节信息的目的，避免了语义分割中误判、未判和错判等问题，特别适用于工业产品的表面缺陷检测领域，如玻璃面板缺陷检测、钢板缺陷检测。

附图说明

图1为U-Net网络结构示意图；

图2为实施例1中工业缺陷语义分割方法流程示意图；

图3为实施例1中超像素分割处理效果示例图；

图4为实施例1中ResNet结构示意图；

图5为实施例1中普通残差单元两层结构示意图；

图6为实施例1中瓶颈残差单元结构示意图；

图7为实施例1中U-P-Net网络结构示意图；

图8为实施例1中PPM模块结构示意图；

图9为实施例2中手机玻璃面板缺陷检测流程示意图；

图10为实施例2中ResNet50结构示意图；

图11为实施例2中气泡缺陷示例图；

图12为实施例2中划痕缺陷示例图；

图13为实施例2中锡灰缺陷示例图；

图14为实施例2中第一掩模图示例图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

为便于更好的理解和实施本专利，对本申请实施例中涉及的一些术语和技术进行说明：

（1）SLIC

SLIC（Simple Linear Iterative Clustering，超像素算法），是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图片特征。其中，超像素是一个5维特征向量，它将彩色图像转换为CIELAB颜色空间和XY坐标。通过对5维特征向量构建距离测量准则，进而实现对图像像素的局部聚类。

（2）ResNet

ResNet（残差分类网络），参考了VGG19网络，在其基础上进行了修改，并利用残差学习思想引入跳跃连接（Shortcut connection，也叫短路连接），使得非线性层拟合残差映射，通过Shortcut将输入跨层传递，然后与经过卷积后的输出相加，经过堆叠可以构成深层次网络。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种基于U-Net网络的工业缺陷语义分割方法，参阅图 2，包括：

将无缺陷类图像直接转化为不带有缺陷信息的第一掩模图；

本实施例在U-Net网络中引入PPM（Pyramid Pooling Module，金字塔池化）模块，构成U-P-Net，用于扩大感受野，集合不同区域的上下文信息，提高了U-Net网络获取全局信息的能力，从而达到兼顾全局语义信息与局部细节信息的目的，避免了语义分割中误判、未判和错判等问题。

在一优选实施例中，对目标图像集中的分割图像进行分类前，对目标数据集进行数据增强和/或数据扩充。在一些示例中，所述数据增强包括亮度调整、图像模糊和/或图片旋转，所述数据扩充包括增加噪声。

需要说明的是，通过数据增强和/或数据扩充，可解决目标数据集中样本（即分割图像）分辨率过高以及样本不均衡所导致的分割效果较差和后续网络模型泛化能力低的问题。

在一优选实施例中，对目标图像集中分割图像进行分类之前，对分割图像进行超像素分割处理。

需要说明的是，该优选实施例采用超像素分割处理，解决了图像特征信息复杂多变的问题，使邻域特征的表示更加容易，有效地降低了原始图像的复杂度，还可以捕获冗余信息，消除像素异常，使图像中的缺陷特征更加明显。

在一可选实施例中，采用SLIC方法对图像进行超像素分割处理，包括：

根据预设的超像素数量，在分割图像内均匀分配若干个初始的种子点；

根据预设的领域范围大小对图像进行划分，对初始种子点所在领域内的所有像素点计算梯度值，将种子点重设为领域内梯度最小的像素点；

对每个种子点对应领域内的像素点分配类别标签，即归属的聚类中心；

迭代计算每个像素点与其周围种子点间的距离，并将距离值最小的种子点作为对应像素点的聚类中心，直至每个像素点的聚类中心不再变化，确定超像素分割结果，得到超像素分割后的超像素分割图像。其处理效果参阅图 3。

需要说明的是，所述类别标签具体是将像素点分配至的超像素的标识符或类别标签。

进一步地，所述计算每个像素点与其周围种子点间的距离，其表达式为：

式中，、/>、/>表示坐标为/>的像素点j的特征向量；/>、/>、/>表示坐标为的像素点/>的特征向量；/>表示颜色距离；/>表示空间距离；/>表示类内最大空间距离；/>表示最大颜色距离。

在一些示例中，对于有个像素点的分割图像，预分割为/>个相同尺寸的超像素，则每个超像素的大小为/>，相邻种子点的距离（步长）近似为/>），类内最大空间距离/>）；由于最大颜色距离/>随着图像和集群的变化而变化，采用预设数值m表示最大颜色距离/>，则有：

需要说明的是，上述预设值m取值可以是任意的，由本领域技术人员根据实际情况自行设定。在一具体实施过程中，预设数值m为10；在另一具体实施过程中，预设数值m为区间[1,40]中的任意值。

进一步地，当超像素分割图像中存在异常的超像素时，重新生成超像素分割图像，包括：

创建与异常的超像素相对应的标记表，初始化表内元素值；其中，所述异常的超像素包括超像素多连通、超像素尺寸小于第一预设值，和/或单个超像素被切割成若干个不连续超像素；

按照“Z”型走向将不连续的超像素和/或尺寸过小超像素，重新分配给邻近的超像素，遍历过的像素点分配给相应的标签，直到所有点遍历完毕为止；

重新生成超像素分割后的超像素分割图像。

需要说明的是，在超像素分割处理中，标记表用于记录每个超像素所属的聚类，上述用于表内元素值初始化的值可以是任意的，可以由本领域技术人员根据实际情况自行设定。

在一些示例中，将所有正常像素点所在的超像素对应的标记表元素值初始化为预设值0或1，异常像素点所在的超像素对应的标记表元素值初始化为预设值-1。

可以理解，这些正常像素点所在的超像素与异常像素点所在的超像素都是被分割出来的，但是它们被归到了不同的聚类中，因此在标记表中的值也不同。

可以理解，所述超像素尺寸小于第一预设值表示对应超像素尺寸过小，第一预设值由本领域技术人员根据实际情况自行设定。

需要说明的是，所述“Z”型走向即为从左到右、从上到下顺序的走向。通过遍历不连续的超像素和/或尺寸过小超像素内的像素点，将其聚类中心更换为被重新分配的超像素内的种子点。

在一优选实施例中，采用ResNet对分割图像进行分类。

需要说明的是，该优选实施例采用ResNet作为分类网络将分割图像分为有缺陷和无缺陷两类，减少无目标训练图像造成的资源浪费，降低U-P-Net中的计算复杂度，放大缺陷语义特征，提高检测效率及准确率。

在一可选实施例中，参阅图 4，所述ResNet包括至少17层卷积层和1层全连接层。

在一些示例中，所述ResNet包括17层卷积层和1层全连接层，即ResNet18，其残差单元进行的是两层间的残差学习。

在一些示例中，所述ResNet包括49层卷积层和1层全连接层，即ResNet50，相较于浅层网络（如ResNet18、ResNet34），其残差单元进行的则是三层间的残差学习。

在另一些示例中，所述ResNet包括100层卷积层和1层全连接层，即ResNet101，其进行的也是三层间的残差学习。

需要说明的是，对于本领域技术人员而言，所述ResNet还可以包括更多或更少的卷积层，如ResNet34、ResNet152，本公开并不以此为限。此外，ResNet中的残差单元可以是普通残差单元，也可以是瓶颈残差单元，由本领域技术人员根据实际自行设定，参阅图 5、图 6。

此外，对于ResNet中的Shortcut，当输入与输出的维度相一致时，可以直接将输入加到输出上；当输入与输出不一致时，则可采用的策略包括以下任一种：

（1）采用zero-padding（零填充）增加维度：先做一个downsampling（下采样），可以采用stride=2的pooling，这样不会增加参数；

（2）采用新的映射：projection shortcut（投影映射），一般采用1x1的卷积核。

在一优选实施例中，参阅图 7，所述U-Net网络包括骨干特征提取网络和增强特征提取网络，所述骨干特征提取网络与增强特征提取网络之间连接有PPM模块；

所述将有缺陷类图像输入语义分割网络，得到带有缺陷信息的第二掩模图，包括：

将有缺陷类图像输入骨干特征提取网络，对有缺陷类图像进行若干次下采样，完成特征提取得到若干个初步有效特征层，最后一次下采样得到第一特征图；

将所述第一特征图输入PPM模块，得到金字塔池化全局特征图；

将所述金字塔池化全局特征图输入增强特征提取网络，对金字塔池化全局特征图进行若干次上采样并与初步有效特征层进行特征融合后，经降维处理得到融合了所有特征的第二掩模图。

在一可选实施例中，参阅图 8，所述PPM模块包括若干个不同粗细尺度的池化层、卷积核、上采样层、拼接层和输出层；

其中，最粗尺度的池化层用于对第一特征图进行全局平均池化，其余加细尺度的池化层用于对第一特征图分别进行对应尺度池化，不同粗细尺度的池化层输出不同大小的第二特征图；

所述卷积核的数量与所述池化层的数量相适应，用于分别对第二特征图降通道，得到若干个第三特征图；

所述上采样层用于分别对第三特征图进行上采样，得到与第一特征图相同大小的若干个第四特征图；

所述拼接层用于将若干个第四特征图和第一特征图进行通道拼接，得到第五特征图；

所述输出层用于对第五特征图降通道，输出与第一特征图通道数一致的金字塔池化全局特征图。

该可选实施例中，采用不同粗细尺度的的池化层对第一特征图进行池化，得到多个不同尺寸的第二特征图；对第三特征图进行上采样获得相同大小的的第四特征图；后续在通道维度上对第四特征图和第一特征图进行拼接，最终得到的金字塔池化全局特征图是糅合了多种尺度的复合特征图。该实例中利用了多样化的池化尺寸，提取到的特征更具多样性，能够有效的聚合不同区域的上下文信息，提高获取全局信息的能力，避免关系错误匹配、类别混淆以及细小对象的类别被忽略问题。

需要说明的是，骨干特征提取网络是一个收缩网络，通过下采样使图像尺寸减小，在不断下采样的过程中，骨干特征提取网络提取到的是浅层信息，且图像通道数翻倍。

在一些示例中，对于大小为572*572的输入图像，单次下采样实施过程如下：

输入图像先经过2个带有ReLU（Rectified Linear Unit，整流线性函数）的3*3卷积层，使得输入图像大小经历572-570-568的变化；随后经过1个2*2的Maxpool层使输入图像尺寸变为284*284。

在一些示例中，所述骨干特征提取网络包括4个下采样模块，每个下采样模块包括顺序连接的2个3*3卷积层（带有ReLU）和1个2*2的Maxpool层。在另一些示例中，所述骨干特征提取网络还可以包括更多或更少的下采样模块，本公开不以此为限。

在一些示例中，所述PPM模块包括4个不同粗细尺度的池化层。在另一些示例中，所述PPM模块包括5个不同粗细尺度的池化层。需要说明的是，对于本领域技术人员而言，应当清楚所述PPM模块还可以包括更多或更少的池化层。

需要说明的是，所述PPM模块中的卷积核大小为1*1。

在一具体实施过程中，对于通道数为N的4个第二特征图，采用1*1的卷积核降通道，分别得到1*1、2*2、4*4、6*6，且通道数为1/N的第三特征图。

在一些示例中，在PPM模块的上采样层中采用线性插值法进行上采样，包括但不限于最近邻算法、双线性插值算法和/或双三次插值算法。在另一些示例中，还可以采用深度学习方法进行上采样，包括但不限于转置卷积、PixelShuffle、DUpsampling、Meta-Upscale和/或CAPAFE。

需要说明的是，本领域技术人员应当清楚，所述PPM模块中拼接层输出的第五特征图相较于第四特征图，其通道数将增加。在一些示例中，第五特征图的通道数相较于第四特征图增加1倍。

在一些示例中，所述PPM模块输出层中采用1*1卷积核对第五特征图降通道。

还需要说明的是，增强特征提取网络是一个扩张网络，通过上采样使得输入图像尺寸变大，在不断上采样的过程中，增强特征提取网络提取到的是图像的深层信息，且图像通道数减半。此外，在上采样的过程中，还采用拼接操作将深层信息与骨干特征提取网络提取到的浅层信息（即初步有效特征层）融合起来，本领域技术人员应当清楚，拼接过程中拼接的图像尺寸一致，特征的维度（即图像的通道数）也是一致的。

在一些示例中，所述增强特征提取网络中，对于输入图像（即金字塔池化全局特征图），单次上采样实施过程为令输入图像经过1个反卷积层、特征拼接层（concat）和2个3x3的卷积层（带有ReLU），使得输入图像尺寸变为指定大小、图像通道数减半。

在一些示例中，所述增强特征提取网络中，包括4个上采样模块，每个上采样模块包括顺序连接的1个反卷积层、1个特征拼接层和2个3*3的卷积层（带有ReLU）。在另一些示例中，所述增强特征提取网络还可以包括更多或更少的上采样模块。

在一些示例中，所述增强特征提取网络中，通过1个1*1卷积核进行降维处理，即将通道数降至指定数量，以得到第二掩模图。

实施例2

本实施例以对手机玻璃面板缺陷检测对实施例1提出的方法进行了验证，参阅图9，步骤如下：

获取原始数据集（分辨率为6400×6400）进行图像分割，得到多块分辨率为640×640的分割图像并构建目标图像集，并对其进行数据增强和数据扩充；

对目标图像集采用SLIC方法对图像进行超像素分割处理，将原分割图像转化为由紧凑、整洁超像素块组成的新分割图像；

参阅图 9，采用ResNet50对经过超像素分割处理后的图像进行分类，划分为无缺陷类图像或有缺陷类图像；其中，图 10所示的ResNet50结构中，第二至五阶段中的IDBLOCK x2代表的是两个不改变维度的残差单元，CONV BLOCK代表的是添加维度的残差单元，每个残差块包含3个卷积层；所述有缺陷类图像具体可能为气泡缺陷类图像、划痕缺陷类图像或锡灰缺陷类图像，参阅图 11-图 13；

将无缺陷类图像直接转化为黑色的第一掩模图，参阅图 14；

将有缺陷类图像输入语义分割网络，即U-P-Net网络，进行语义分割，得到背景为黑色的带有缺陷信息的第二掩模图；

将第一掩模图和第二掩模图进行排序合并，生成完整的手机玻璃面板缺陷语义分割掩模图。

需要说明的是，所述将第一掩模图和第二掩模图进行排序合并，即根据第一掩膜图和对应掩膜图对应区域在完整手机玻璃面板中的相对位置进行拼接。

可以理解，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

验证结果显示，本实施例提出的方法相较于现有技术，即使在缺乏充足数据集的情况下依然表现出良好的性能，在分割效率、分割精度及应对复杂缺陷等方面，均表现出更好的预测效果。

实施例3

本实施例提出一种计算机存储介质，所述存储介质上存储有计算机指令，所述指令在计算机上执行时，使得所述计算机执行实施例1中的方法。

示范性地，所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

示范性地，所述计算机指令可采用Java、Python、C++、R、或Golang等编程语言实现。

示范性地，所述计算机包括但不限于智能手机、个人计算机、服务器、网络设备等，用于执行实施例1所述方法的全部或部分步骤。

本实施例还提供一种包括语义分割指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述实施例1描述的方法中的步骤。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，包括：

将无缺陷类图像直接转化为不带有缺陷信息的第一掩模图；

将有缺陷类图像输入语义分割网络，得到带有缺陷信息的第二掩模图，具体包括：

将所述金字塔池化全局特征图输入增强特征提取网络，对金字塔池化全局特征图进行若干次上采样并与初步有效特征层进行特征融合后，经降维处理得到融合了所有特征的第二掩模图；

其中，所述语义分割网络基于U-Net网络构建；所述U-Net网络包括骨干特征提取网络和增强特征提取网络，所述骨干特征提取网络与增强特征提取网络之间连接有PPM模块；所述PPM模块包括若干个不同粗细尺度的池化层、卷积核、上采样层、拼接层和输出层；

2.根据权利要求1所述的一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，对目标图像集中分割图像进行分类之前，对分割图像进行超像素分割处理。

3.根据权利要求2所述的一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，采用SLIC方法对图像进行超像素分割处理，包括：

迭代计算每个像素点与其周围种子点间的距离，并将距离值最小的种子点作为对应像素点的聚类中心，直至每个像素点的聚类中心不再变化，确定超像素分割结果，得到超像素分割后的超像素分割图像。

4.根据权利要求3所述的一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，所述计算每个像素点与其周围种子点间的距离，其表达式为：

式中，、/>、/>表示坐标为/>的像素点j的特征向量；/>、/>、/>表示坐标为/>的像素点/>的特征向量；/>表示颜色距离；/>表示空间距离；/>表示类内最大空间距离；/>表示最大颜色距离。

5.根据权利要求3所述的一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，当超像素分割图像中存在异常的超像素时，重新生成超像素分割图像，包括：

重新生成超像素分割后的超像素分割图像。

6.根据权利要求1所述的一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，采用ResNet对分割图像进行分类。

7.根据权利要求6所述的一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，所述ResNet包括至少17层卷积层和1层全连接层。

8.根据权利要求1-7任一项所述的一种基于U-Net网络的工业缺陷语义分割方法，其特征在于，所述PPM模块中，最粗尺度的池化层用于对第一特征图进行全局平均池化，其余加细尺度的池化层用于对第一特征图分别进行对应尺度池化，不同粗细尺度的池化层输出不同大小的第二特征图；

9.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1-8中任一项所述的方法。