CN115564778B

CN115564778B - 缺陷的检测方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN115564778B
Application number: CN202211557509.7A
Authority: CN
Inventors: 顾闻; 王远; 刘枢; 吕江波; 沈小勇
Original assignee: Shenzhen Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-14
Anticipated expiration: 2042-12-06
Also published as: CN115564778A

Abstract

本申请实施例提供了一种缺陷的检测方法、装置、电子设备及计算机可读存储介质。该方法包括：获取待检测脏污图像；通过基于变换器的语义分割模型对待检测脏污图像进行处理，以得到图像分割结果，该图像分割结果包括利用变换器算法确定的待检测脏污图像的第一特征；根据图像分割结果，确定待检测脏污图像对应的脏污缺陷类型。采用本申请，通过基于变换器的语义分割模型能够提高对脏污图像的分割能力，从而提升脏污检测的准确率。

Description

缺陷的检测方法、装置、电子设备及计算机可读存储介质

技术领域

本申请实施例涉及图像分割技术领域，并且更具体地，涉及一种缺陷的检测方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能技术的不断发展且日益成熟，使得越来越多的工业厂商使用视觉非接触式的自动化工业检测来代替繁琐的人工检测。以视觉算法为基础的工业自动检测技术能够以高精度、高效率的自动化检测方式来辅助或替代工业产线人工检测。在工业产品的缺陷检测中，例如道路养护检测、3C产品检测、PCB产品检测，脏污类型的缺陷是最为常见的缺陷类型。

然而，许多工业产品都受困于脏污缺陷难以检测的问题。检测脏污缺陷的难点主要在于：一、脏污缺陷的颜色通常和背景较为接近，并且两者间没有明显的分界线，因此利用图像分割技术提取图像中脏污缺陷的边缘特征比较困难；二、脏污的面积通常是常见缺陷的数倍，这就导致了传统的人工智能图像分割算法不能对其进行完整且精细的分割，进而检测到脏污缺陷。因此，如何对边界不清晰的脏污缺陷进行准确检测成为脏污缺陷检测领域的关键所在。传统的基于深度学习的2D图像分割算法（例如：全卷积神经网络等）对图像能够进行像素级别的分类，可以用于脏污缺陷的检测，但是其未考虑像素与像素之间的关系，导致将传统算法用于脏污图像检测时准确率低。

发明内容

本申请实施例提供了一种缺陷的检测方法、装置、电子设备及计算机可读存储介质，在脏污图像检测中，利用基于变换器的语义分割模型来对脏污图像进行分割，其在分割过程中考虑了像素与像素间的关系，能够提升脏污检测的准确率。

值得说明的是，变换器指Transformer网络结构。

Transformer网络结构相比卷积神经网络，对于特征的建模能力更强。Transformer网络结构包含自注意力（Self-Attention，SA）模块以及前馈神经网络（FeedForward Networks，FFN）模块，SA模块的作用是做全局的关联权重，最后得到输入的加权和，它能够更好地建模相距较远的特征之间的特征关系。FFN模块引入了非线性和变换了特征空间的维度，进一步地增加了模型的表征能力。

第一方面，提供了一种缺陷的检测方法，包括：

获取待检测脏污图像；

通过基于变换器的语义分割模型对待检测脏污图像进行处理，以得到图像分割结果，该图像分割结果包括利用变换器算法确定的待检测脏污图像的第一特征；

根据图像分割结果，确定待检测脏污图像对应的脏污缺陷类型。

在本申请的技术方案中，通过基于变换器算法的语义分割模型能够对待检测脏污图像中的每一个像素进行分类，并且考虑了像素与像素之间的联系，可以更好地提取脏污缺陷的边缘特征，从而提升对于脏污图像的分割能力，进而提升脏污缺陷检测的准确度。

结合第一方面，在第一方面的第一种可能的实现方式中，通过基于变换器的语义分割模型对待检测脏污图像进行处理，以得到图像分割结果，包括：

利用细处理模块对第一特征进行处理，以得到第二特征；其中，细处理模块包括至少一个特征提取子模块，特征提取子模块包括变换器单元、反向注意力RA单元、计算单元，变换器单元的输出连接于RA单元的输入，RA单元的输出连接于计算单元的输入，优化模块的输出分别连接于RA单元以及计算单元的输入，计算单元的输出连接于确定模块的输入；

利用空洞空间金字塔池化（Atrous Spatial Pyramid Pooling，ASPP）算法扩大第二特征的感受野，以得到第三特征。

在本申请的实现方式中，通过综合使用变换器单元和RA单元，能更好地构建相距较远的特征之间的联系以及待检测脏污图像上缺陷区域与缺陷边界之间的关系，通过ASPP算法可以在不增加参数数量的同时有效扩大感受野，从而保留了待检测脏污图像完整的边缘信息，从而针对边界特征不明显的脏污图像的特征具备更强的建模能力，进而提升对于脏污图像的分割能力，提升脏污缺陷检测的准确度。

结合第一方面，在第一方面的第二种可能的实现方式中，至少一个特征提取子模块包括第一特征提取子模块和第二特征提取子模块，第一特征提取子模块与第二特征提取子模块级联；

第二特征提取子模块中的计算单元的输出分别连接于第一特征提取子模块中的RA单元以及计算单元的输入，优化模块的输出分别连接于第二特征提取子模块中的RA单元以及计算单元的输入。

在本申请的实现方式中，通过级联的特征提取子模块，使得语义分割模型能够融合每一级的输出，从而将模型的注意力聚焦在没有检测出来的部分，进而提升对于脏污图像的分割能力，提升脏污缺陷检测的准确度。

结合第一方面，在第一方面的第三种可能的实现方式中，第一特征提取子模块中的RA单元与第二特征提取子模块中的RA单元共享参数的权重。

在本申请的实现方式中，通过让两个RA单元共用同一反向注意力权重，显著降低该模型的参数数量，从而提升了该模型的运行效率，进而提升脏污缺陷的检测效率。

结合第一方面，在第一方面的第四种可能的实现方式中，每个变换器单元包含自注意力SA子单元和前馈神经网络FFN子单元；其中，SA子单元中的三个参数向量K、V和Q是经过降维处理的。

在本申请的实现方式中，通过对变换器单元中的参数向量K、V和Q进行降维处理，减少了变换器单元的运算时间，从而增加了该模型的运行效率，进而提升脏污缺陷的检测效率。

结合第一方面，在第一方面的第五种可能的实现方式中，基于变换器的语义分割模型是按照如下方式训练得到的：

获取第一训练图像；

通过第一训练图像，利用综合损失函数训练处理模块，得到基于变换器的语义分割模型，该综合损失函数是由交叉熵损失函数和Dice损失函数组成的；

综合损失函数

，

其中，

,

表示Dice损失函数，

表示交叉熵损失函数。

在本申请的实现方式中，通过结合Dice损失函数和交叉熵损失函数作为模型训练的损失函数，克服了仅用交叉熵损失函数作为模型训练的损失函数会导致忽略较少类的问题，从而实现精确分割待检测脏污图像的目的，进而提升脏污缺陷检测的准确度。

结合第一方面，第一方面的第六种可能的实现方式中，获取待检测脏污图像包括：

获取待检测脏污原始图像；

对待检测脏污原始图像进行预处理操作，以得到待检测脏污图像；其中，预处理操作包括以下至少一项：图像归一化、随机裁切、随机翻转、图像缩放以及颜色扰动。

在本申请的实现方式中，通过对待检测脏污原始图像进行图像归一化、随机裁切、随机翻转、图像缩放以及颜色扰动等数据增强手段，扩大了数据集，从而提高了模型的泛化能力，进而提升利用该模型进行脏污缺陷检测的准确度。

第二方面，提供了一种缺陷的检测装置，包括：

获取模块，用于获取待检测脏污图像；

处理模块，用于通过基于变换器的语义分割模型对待检测脏污图像进行处理，以得到图像分割结果，该图像分割结果包括利用变换器算法确定的待检测脏污图像的第一特征；

确定模块，用于根据图像分割结果，确定待检测脏污图像对应的脏污缺陷类型。

结合第二方面，在第二方面的第一种可能的实现方式中，处理模块还包括：细处理模块，用于对第一特征进行处理，以得到第二特征；其中，细处理模块包括至少一个特征提取子模块，特征提取子模块包括变换器单元、反向注意力RA单元、计算单元，变换器单元的输出连接于RA单元的输入，RA单元的输出连接于计算单元的输入，优化模块的输出分别连接于RA单元以及计算单元的输入，计算单元的输出连接于确定模块的输入；优化模块，用于利用空洞空间金字塔池化ASPP算法扩大第二特征的感受野，以得到第三特征。

结合第二方面，在第二方面的第二种可能的实现方式中，至少一个特征提取子模块包括第一特征提取子模块和第二特征提取子模块，第一特征提取子模块与第二特征提取子模块级联；

第二特征提取子模块中的计算单元的输出分别连接于第一特征提取子模块中的RA单元以及计算单元的输入；

优化模块的输出分别连接于第二特征提取子模块中的RA单元以及计算单元的输入。

结合第二方面，在第二方面的第三种可能的实现方式中，第一特征提取子模块中的RA单元与第二特征提取子模块中的RA单元共享参数的权重。

结合第二方面，在第二方面的第四种可能的实现方式中，每个变换器单元包含自注意力SA子单元和前馈神经网络FFN子单元；其中，SA子单元中的三个参数向量K、V和Q是经过降维处理的。

结合第二方面，在第二方面的第五种可能的实现方式中，处理模块是按照如下方式训练得到的：

获取第一训练图像；

综合损失函数

，

其中，

,

表示Dice损失函数，

表示交叉熵损失函数。

在本申请的实现方式中，通过结合Dice损失函数和交叉熵损失函数作为训练模型的损失函数，克服了仅用交叉熵损失函数作为模型训练的损失函数会导致忽略较少类的问题，从而实现精确分割待检测脏污图像的目的，进而提升脏污缺陷检测的准确度。

结合第二方面，第二方面的第六种可能的实现方式中，处理模块还包括：预处理模块，用于获取待检测脏污原始图像；对待检测脏污原始图像进行预处理操作，以得到待检测脏污图像；其中，预处理操作包括以下至少一项：图像归一化、随机裁切、随机翻转、图像缩放以及颜色扰动。

在本申请的实现方式中，通过添加预处理模块对待检测脏污原始图像进行图像归一化、随机裁切、随机翻转、图像缩放以及颜色扰动等数据增强手段，扩大了数据集，从而提高了模型的泛化能力，进而提升利用该模型进行脏污缺陷检测的准确度。

第三方面，提供了一种语义分割模型的训练装置，包括：输入模块，用于获取第二训练图像及真实脏污类型标签，真实脏污类型标签用于表示第二训练图像真实的脏污类型；处理模块，用于通过基于变换器的语义分割模型获取第二训练图像的预测脏污类型标签，预测脏污类型标签用于表示第二训练图像预测的脏污类型；处理模块还用于利用真实脏污类型标签与预测脏污类型标签之间的偏差量，训练语义分割模型；其中，处理模块包括：粗处理模块，用于利用变换器算法获取待检测脏污图像的第一特征。

结合第三方面，在第三方面的第一种可能的实现方式中，处理模块还包括：细处理模块，用于对第一特征进行处理，以得到第二特征；其中，细处理模块包括至少一个特征提取子模块，特征提取子模块包括变换器单元、反向注意力RA单元、计算单元，变换器单元的输出连接于RA单元的输入，RA单元的输出连接于计算单元的输入，计算单元的输出连接于确定模块的输入；优化模块，用于利用ASPP算法扩大第二特征的感受野，以得到第三特征；其中，优化模块包括ASPP单元以及预测单元，预测单元用于计算真实脏污类型标签与预测脏污类型标签之间的偏差量并反向传输以更新处理模块的参数，ASPP单元的输出连接于预测单元的输入，ASPP单元的输出分别连接于特征提取子模块中的RA单元以及计算单元的输入。

结合第三方面，在第三方面的第二种可能的实现方式中，至少一个特征提取子模块包括第一特征提取子模块和第二特征提取子模块，第一特征提取子模块与第二特征子模块级联；

第二特征提取子模块中的计算单元的输出分别连接于第一特征提取子模块中RA单元以及计算单元的输入，

结合第三方面，在第三方面的第三种可能的实现方式中，第一特征提取子模块中的RA单元与第二特征提取子模块中的RA单元共享参数的权重。

结合第三方面，在第三方面的第四种可能的实现方式中，每个变换器单元包含自注意力SA子单元和前馈神经网络FFN子单元；其中，SA子单元中的三个参数向量K、V和Q是经过降维处理的。

结合第三方面，在第三方面的第五种可能的实现方式中，偏差量由Dice损失函数和交叉熵损失函数综合确定：

，其中，

,

表示Dice损失函数，

表示交叉熵损失函数。

结合第三方面，在第三方面的第六种可能的实现方式中，处理模块还包括：预处理模块，用于获取待检测脏污原始图像；对待检测脏污原始图像进行预处理操作，以得到待检测脏污图像；其中，预处理操作包括以下至少一项：图像归一化、随机裁切、随机翻转、图像缩放以及颜色扰动。

第四方面，提供了一种语义分割模型的训练方法，包括：

获取第二训练图像及真实脏污类型标签，真实脏污类型标签用于表示第二训练图像真实的脏污类型；

通过基于变换器的语义分割模型获取第二训练图像的预测脏污类型标签，包括：利用变换器算法获取待检测脏污图像的第一特征，预测脏污类型标签用于表示第二训练图像预测的脏污类型；

利用真实脏污类型标签与预测脏污类型标签之间的偏差量，训练语义分割模型。

结合第四方面，在第四方面的第一种可能的实现方式中，通过语义分割模型获取第二训练图像的预测脏污类型标签，还包括：

利用细处理模块对第一特征进行处理以获取第二特征；其中，细处理模块包括至少一个特征提取子模块，特征提取子模块包括变换器单元、反向注意力RA单元、计算单元，变换器单元的输出连接于RA单元的输入，RA单元的输出连接于计算单元的输入，计算单元的输出连接于确定模块的输入；利用优化模块扩大第二特征的感受野以获取第三特征；其中，优化模块包括ASPP单元以及预测单元，预测单元用于计算真实脏污类型标签与预测脏污类型标签之间的偏差量并反向传输以更新处理模块的参数，ASPP单元的输出连接于预测单元的输入，ASPP单元的输出分别连接于特征提取子模块中的RA单元的输入以及计算单元的输入。

结合第四方面，在第四方面的第二种可能的实现方式中，至少一个特征提取子模块包括第一特征提取子模块和第二特征提取子模块，第一特征提取子模块与第二特征子模块级联；

结合第四方面，在第四方面的第三种可能的实现方式中，第一特征提取子模块中的RA单元与第二特征提取子模块中的RA单元共享参数的权重。

结合第四方面，在第四方面的第四种可能的实现方式中，每个变换器单元包含自注意力SA子单元和前馈神经网络FFN子单元；其中，SA子单元中的三个参数向量K、V和Q是经过降维处理的。

结合第四方面，在第四方面的第五种可能的实现方式中，偏差量由Dice损失函数和交叉熵损失函数综合确定：

，其中，

,

表示Dice损失函数，

表示交叉熵损失函数。

结合第四方面，在第四方面的第六种可能的实现方式中，真实脏污类型标签用于表示第二训练图像真实的脏污类型，还包括：

第五方面，提供了一种电子设备，该电子设备包括处理器和存储器，存储器用于存储计算机程序，处理器执行计算机程序时实现如上述第一方面或者第一方面的任一可能的实施方式中的缺陷的检测方法。

第六方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面或者第一方面的任一可能的实施方式中的缺陷的检测方法。

第七方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现如上述第一方面或者第一方面的任一可能的实现方式中的缺陷的检测方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据附图获得其他的附图。

图1是本申请提供的系统架构的结构示意图；

图2是本申请一实施例公开的一缺陷的检测方法的示意性流程图；

图3是本申请一实施例公开的第一种缺陷的检测装置的示意性结构框图；

图4是本申请一实施例公开的第二种缺陷的检测装置的示意性结构框图；

图5是本申请一实施例公开的第三种缺陷的检测装置的示意性结构框图；

图6是本申请一实施例公开的第四种缺陷的检测装置的示意性结构框图；

图7是本申请一实施例公开的一种电子设备的硬件结构示意图；

图8是本申请一实施例公开的一种计算机可读存储介质的示意性框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。以下实施例的详细描述和附图用于示例性地说明本申请的原理，但不能用来限制本申请的范围，即本申请不限于所描述的实施例。

本申请实施例可适用于图像处理系统，包括但不限于基于红外成像的产品。该缺陷检测系统可以应用于具有缺陷检测装置的各种电子设备，该电子设备可以为个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、媒体消费设备、可穿戴设备、机顶盒、游戏机、增强现实（augmented reality，AR）AR/虚拟现实（virtual reality，VR）设备，车载终端等，本申请公开的实施例对此不做限定。

应理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例，而非限制本申请实施例的范围。

还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施例对此并不限定。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。本申请所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。

为了更好地理解本申请实施例的方案，下面先结合图1对本申请实施例可能的应用场景进行简单的介绍。

如图1所示，本申请实施例提供了一种系统架构100。在图1中，数据采集设备160用于采集已知脏污缺陷样本的图像。针对本申请实施例的缺陷检测的方法来说，已知缺陷样本图像中的脏污缺陷类型已知。

在采集到已知脏污缺陷样本的图像之后，数据采集设备160将这些已知脏污缺陷样本的图像存入数据库130，训练设备120基于数据库130中维护的已知脏污缺陷样本的图像训练得到目标模型/规则101。

上述目标模型/规则101能够用于实现本申请实施例的缺陷检测的方法。本申请实施例中的目标模型/规则101具体可以为语义分割模型。需要说明的是，在实际的应用中，数据库130中维护的已知脏污缺陷样本的图像不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的已知脏污缺陷样本的图像进行目标模型/规则101的训练，也有可能从云端或其他地方获取已知脏污缺陷样本的图像进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑等，还可以是服务器或者云端等。在图1中，执行设备110配置输入/输出（input/output，I/O）接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，输入数据在本申请实施例中可以包括：客户设备140输入的待检测脏污图像。

在一些实施方式中，该客户设备140可以与上述执行设备110为同一设备，例如，客户设备140可以与上述执行设备110均为终端设备。

在另一些实施方式中，该客户设备140可以与上述执行设备110为不同设备，例如，客户设备140为终端设备，而执行设备110为云端、服务器等设备，客户设备140可以通过任何通信机制/通信标准的通信网络与执行设备110进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

执行设备110的计算模块111用于根据I/O接口112接收到的输入数据（如待检测脏污图像）进行处理。在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如上述得到的脏污缺陷的分类结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“该”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。在本申请实施例中，“当……时”、“在……的情况下”、“若”以及“如果”等描述均指在某种客观情况下设备会做出相应的处理，并非是限定时间，且也不要求设备在实现时一定要有判断的动作，也不意味着存在其它限定。

在本申请的描述中，需要说明的是，除非另有说明，“多个”的含义是两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。“垂直”并不是严格意义上的垂直，而是在误差允许范围之内。“平行”并不是严格意义上的平行，而是在误差允许范围之内。

下述描述中出现的方位词均为图中示出的方向，并不是对本申请的具体结构进行限定。在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可视具体情况理解上述术语在本申请中的具体含义。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。下文各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在本申请实施例中，“101”、“202”等字样仅为了描述方便作出的标识，并不是对执行步骤的次序进行限定。

本申请实施例提供的脏污的缺陷的检测方法、装置、电子设备及计算机可读存储介质可以但不限于针对脏污的检测，还可用于任何缺陷边界不清晰的缺陷类型的检测。下面结合图2对本申请实施例的脏污检测方法的主要过程进行介绍。

图2示出了本申请实施例的缺陷的检测方法200的流程示意图。该缺陷的检测方法200包括以下步骤。

210，电子设备获取待检测脏污图像。

具体地，在步骤210中，待检测脏污图像可以是任何相机拍摄的图片，本申请对此不作限定。在工业领域的零件或产品的缺陷检测中，一般包括多个检测程序，且部分检测程序是基于待检测零件或者待检测产品的局部或全部图像进行的，因此可以在这些检测程序前（包括本申请的脏污缺陷检测程序）利用相机拍摄待检测零件或者产品的待检测面，以获取待检测脏污图像。

通过基于变换器的语义分割模型对待检测脏污图像进行处理，以得到图像分割结果，图像分割结果包括利用变换器算法确定的待检测脏污图像的第一特征。

具体地，待检测脏污图像输入语义分割模型后，Transformer算法能够更好地建模相距较远的特征之间的联系能够提取待检测脏污图像的粗糙特征，形成分辨率低于待检测脏污图像的粗糙特征图。基于此，Transformer结构相比卷积神经网络对于特征的建模能力更强。

在本申请实施例中，在步骤220中电子设备通过基于变换器的语义分割模型对待检测脏污图像进行处理，以得到图像分割结果可以包括：利用细处理模块对第一特征进行处理，以得到第二特征；其中，该细处理模块包括至少一个特征提取子模块，该特征提取子模块包括变换器单元、反向注意力RA单元、计算单元，变换器单元的输出连接于RA单元的输入，RA单元的输出连接于计算单元的输入，优化模块的输出分别连接于RA单元以及计算单元的输入，计算单元的输出连接于该确定模块的输入；利用空洞空间金字塔池化ASPP算法扩大第二特征的感受野，以得到第三特征。

具体地，通过步骤220中的Transformer算法已经获取了待检测脏污图像的粗糙特征图，接下来将此粗糙特征图输入细处理模块，该细处理模块中的变换器单元会进一步提取前述粗糙特征图的特征，以获取分辨率低于粗糙特征图的浅层特征图。值得注意的是，脏污缺陷区域的颜色通常和缺陷周围的背景色较为接近，且两者之间没有明显的分界线，变换器单元可以很好地提取缺陷区域的特征，但是提取缺陷区域的边界特征比较困难。因此，在变换器单元输出浅层特征图后，该浅层特征会输入优化模块。该优化模块利用ASPP算法可以在不降低深层特征图分辨率的基础上，增大卷积核的感受野，更有效地提取多尺度特征，以获得优化特征图。该优化特征图会输入RA单元，RA单元将根据优化特征图和Transformer模型输出的浅层特征图，构建缺陷区域与缺陷边界之间的关系，以获得缺陷的边界特征图。接着，计算单元将融合RA单元输出的边界特征图和优化模块输出的优化特征图，输出最后的全局特征图，以获得待检测脏污图像的分割结果图。

在本申请实施例中，上述至少一个特征提取子模块可以包括第一特征提取子模块和第二特征提取子模块，第一特征提取子模块与第二特征提取子模块级联；

具体地，与上述实施例有所不同的是，第一特征提取子模块中的Transformer模块输出的浅层特征图输入第二特征提取子模块中的Transformer模块进一步提取特征，以获得第二浅层特征图，第一特征提取子单元中的RA单元接收第二特征提取子单元中计算模块输出的特征图以及同级Transformer模块输出的浅层特征图，以获得边缘特征图，此边缘特征图是经过了优化模块的反馈和第二特征提取子模块所得到的，这种级联的方式可以使该边缘特征图更接近待检测脏污图像，从而能够提高分割待检测脏污图像中脏污区域的准确度。

在本申请实施例中，第一特征子单元中的RA单元与第二特征提取子单元中的RA单元共享参数的权重。

具体地，RA单元通过变换器单元输出的特征图与反向注意力权重相乘来获得反向注意力特征的输出

：

反向注意力权重

可以表示为：

其中，

表示上采样操作，

表示Sigmoid函数，

表示减去输入矩阵的一个反向运算操作。两个特征提取子单元中的的RA单元使用同一反向注意力权重，可以降低该语义分割模型的参数量，从而增加该模型的运行效率。

可选地，每个变换器单元中的三个参数向量K、V和Q是经过降维处理的。

具体地，每个变换器单元都包含有自注意力SA子单元以及前馈神经网络FFN子单元；其中，SA子单元的作用是做全局的关联权重，最后得到输入的加权和，它能够更好地建模，从而建立起相距较远的特征之间的特征关系。为了减少变换器单元的计算量，可以将SA子单元中的三个参数向量K、V和Q进行降维处理，牺牲了一点检测准确度，但是能很大程度上加快检测效率，更适用于工业检测应用场景，能够提升整个自动检测流水产线的产能。

在本申请实施例中，在步骤220中的语义分割模型是按照如下方式训练得到的：

获取第一训练图像；

综合损失函数

，

其中，

,

表示Dice损失函数，

表示交叉熵损失函数。

具体地，交叉熵损失函数是图像语义分割领域最常用的损失函数，该损失会逐个检查图像中的每个像素，对每个像素类别的预测结果与真实标签进行比较，然后对所有像素的损失进行平均，交叉熵损失函数的值越小，真实标签与预测结果越接近。可以看出，交叉熵损失函数更加关注像素级的相似度，由于交叉熵损失函数同等对待图像中的每一个像素点，没有考虑分类建不平衡的问题，因此仅用交叉熵损失函数作为模型训练的损失函数会导致忽略较少类的问题。Dice损失函数是一种几何相似度度量函数，通常用于计算两个样本整体上的相似度，Dice损失函数的值越大，预测结果与真实标签越接近。基于此，本申请实施例提出结合Dice损失函数和交叉熵损失函数的综合损失函数作为模型训练的损失函数，该损失函数既可以利用Dice损失函数从整体上评价预测结果与真实标签之间的距离，又可以利用交叉熵损失函数精确分类每一个像素点，最终达到精确分割缺陷的目的。

在本申请实施例中，在步骤210中的检测方法可以包括：

获取待检测脏污图像原始图像；

具体地，数据归一化将待检测脏污图像转化到[0,1]的大小范围内，以此使模型在训练过程中加快收敛；随机裁切、随机翻转、图像缩放和颜色扰动属于数据增强方法，可以让有限的数据产生更多的数据，即扩大数据集，从而使得模型不容易过拟合，进而提高模型的泛化能力，即提高模型对不同样本的适应能力，从而提高检测精度。

230，电子设备根据图像分割结果，确定待检测脏污图像对应的脏污缺陷类型。

具体地，待检测脏污图像的脏污缺陷类型可以通过标签的形式呈现。例如，标签“0”表示无任何脏污缺陷，标签“1”表示待检测脏污图像有1号脏污缺陷，标签“2”表示待检测脏污图像有2号脏污缺陷等。

上文详细地描述了本申请实施例的方法实施例，下面描述本申请实施例的装置实施例，装置实施例与方法实施例相互对应，因此未详细描述的部分可参见前面方法实施例，装置可以实现上述方法中任意可能实现的方式。

图3示出了本申请一个实施例的缺陷检测的装置300的示意性框图。该装置300可以执行上述本申请实施例的脏污的缺陷的检测方法，例如，该装置300可以为前述执行设备110。

如图3所示，该装置包括：

获取模块310，用于获取待检测脏污图像；

处理模块320，用于通过基于变换器的语义分割模型对待检测脏污图像进行处理，以得到图像分割结果，图像分割结果包括利用变换器算法确定的待检测脏污图像的第一特征；

确定模块330，用于根据图像分割结果，确定待检测脏污图像对应的脏污缺陷类型。

在一些实施例中，如图4所示，处理模块还可以包括：

细处理模块，用于对第一特征进行处理，以得到第二特征；其中，细处理模块包括至少一个特征提取子模块，特征提取子模块包括变换器单元、RA单元、计算单元，变换器单元的输出连接于RA单元的输入，RA单元的输出连接于计算单元的输入，优化模块的输出分别连接于RA单元以及计算单元的输入，计算单元的输出连接于确定模块的输入；优化模块，用于利用ASPP算法扩大第二特征的感受野，以得到第三特征。

在一些实施例中，如图5所示，细处理模块可以包括两个特征提取子模块，以形成级联的特征提取模块。

可选地，细处理模块也可以包括两个以上的特征提取子模块。

在一些实施例中，细处理模块中的两个或两个以上的特征提取子模块中的RA单元共享参数的的权重，例如，该权重可以是反向注意力权重。

在一些实施例中，如图6所示，每个变换器单元都包含SA子单元和FFN子单元；其中，SA子单元中的三个参数向量K、V和Q是经过降维处理的。

在一些实施例中，处理模块所使用的语义分割模型是训练得到的：

获取第一训练图像；

通过第一训练图像，利用综合损失函数训练处理模块，得到基于变换器的语义分割模型，综合损失函数是由交叉熵损失函数和Dice损失函数组成的；

综合损失函数

，

其中，

,

表示Dice损失函数，

表示交叉熵损失函数。

在一些实施例中，处理模块在粗处理模块和细处理模块之前，还包括预处理模块，用于：获取待检测脏污原始图像；对待检测脏污原始图像进行预处理操作，以得到待检测脏污图像；其中，预处理操作包括以下至少一项：图像归一化、随机裁切、随机翻转、图像缩放以及颜色扰动。

图7是本申请一实施例公开的一种电子设备的硬件结构示意图。图7所示的电子设备700包括存储器710、处理器720、通信接口730以及总线740。其中，存储器710、处理器720和通信接口730通过总线740实现彼此之间的通信连接。

存储器710可以是只读存储器（read-only memory，ROM），静态存储器和随机存取存储器（random access memory，RAM）。存储器710可以存储程序，当存储器710中存储的程序被处理器720执行时，处理器720和通信接口730用于执行本申请实施例的缺陷的检测方法的各个步骤。

处理器720可以采用通用的中央处理器（central processing unit，CPU），微处理器，专用集成电路（application specific integrated circuit，ASIC），图像处理器（graphics processing unit，GPU）或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的电子设备中的单元所需执行的功能，或者执行本申请实施例的缺陷的检测方法的各个步骤。

处理器720还可以是一种集成电路芯片，具有信号处理的能力。在实现过程中，本申请实施例的缺陷的检测方法的各个步骤可以通过处理器720中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器720还可以是通用处理器、数字信号处理器（digital signalprocessing，DSP）、ASIC、现场可编辑逻辑门阵列（field programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程只读存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器710，处理器720读取存储器710中的信息，结合其硬件完成本申请实施例的电子设备中包括的单元所需执行的功能，或者执行本申请实施例的缺陷的检测方法。

通信接口730使用例如但不限于收发器一类的收发装置，来实现电子设备700与其他设备或通信网络之间的通信。例如，可以通过通信接口730获取未知设备的流量数据。

总线740可包括在电子设备700各个部件（例如，存储器710、处理器720、通信接口730）之间传送信息的通路。

应注意，尽管上述电子设备700仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，电子设备700还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，电子设备700还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，电子设备700也可仅仅包括实现本申请实施例所必须的器件，而不必包括图7中所示的全部器件。

图8是本申请一实施例公开的一种计算机可读存储介质的示意性框图，该计算机可读存储介质800存储有计算机程序810。该计算机程序810被处理器执行时实现如上述所有实施例中的方法。

在一些可能的实施例中，计算机可读存储介质800可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现如上述缺陷的检测方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”和“该”旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

所描述的实施例中的各方面、实施方式、实现或特征能够单独使用或以任意组合的方式使用。所描述的实施例中的各方面可由软件、硬件或软硬件的结合实现。所描述的实施例也可以由存储有计算机可读代码的计算机可读介质体现，该计算机可读代码包括可由至少一个计算装置执行的指令。该计算机可读介质可与任何能够存储数据的数据存储装置相关联，该数据可由计算机系统读取。用于举例的计算机可读介质可以包括只读存储器、随机存取存储器、紧凑型光盘只读储存器（Compact Disc Read-Only Memory，CD-ROM）、硬盘驱动器（Hard Disk Drive，HDD）、数字视频光盘（Digital Video Disc，DVD）、磁带以及光数据存储装置等。该计算机可读介质还可以分布于通过网络联接的计算机系统中，这样计算机可读代码就可以分布式存储并执行。

上述技术描述可参照附图，这些附图像成了本申请的一部分，并且通过描述在附图中示出了依照所描述的实施例的实施方式。虽然这些实施例描述的足够详细以使本领域技术人员能够实现这些实施例，但这些实施例是非限制性的；这样就可以使用其它的实施例，并且在不脱离所描述的实施例的范围的情况下还可以做出变化。比如，流程图中所描述的操作顺序是非限制性的，因此在流程图中阐释并且根据流程图描述的两个或两个以上操作的顺序可以根据若干实施例进行改变。作为另一个例子，在若干实施例中，在流程图中阐释并且根据流程图描述的一个或一个以上操作是可选的，或是可删除的。另外，某些步骤或功能可以添加到所公开的实施例中，或两个以上的步骤顺序被置换。所有这些变化被认为包含在所公开的实施例以及权利要求中。

另外，上述技术描述中使用术语以提供所描述的实施例的透彻理解。然而，并不需要过于详细的细节以实现所描述的实施例。因此，实施例的上述描述是为了阐释和描述而呈现的。上述描述中所呈现的实施例以及根据这些实施例所公开的例子是单独提供的，以添加上下文并有助于理解所描述的实施例。上述说明书不用于做到无遗漏或将所描述的实施例限制到本申请的精确形式。根据上述教导，若干修改、选择适用以及变化是可行的。在某些情况下，没有详细描述为人所熟知的处理步骤以避免不必要地影响所描述的实施例。虽然已经参考优选实施例对本申请进行了描述，但在不脱离本申请的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本申请并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种缺陷的检测方法，其特征在于，包括：

获取待检测脏污图像；

通过基于变换器的语义分割模型对所述待检测脏污图像进行处理，以得到图像分割结果，所述图像分割结果包括利用变换器算法确定的所述待检测脏污图像的第一特征；

根据所述图像分割结果，确定所述待检测脏污图像对应的脏污缺陷类型；

所述通过基于变换器的语义分割模型对所述待检测脏污图像进行处理，以得到图像分割结果，包括：

利用细处理模块对所述第一特征进行处理，以得到第二特征；其中，所述细处理模块包括至少一个特征提取子模块，所述特征提取子模块包括变换器单元、反向注意力RA单元、计算单元，所述变换器单元的输出连接于所述RA单元的输入，所述RA单元的输出连接于所述计算单元的输入，优化模块的输出分别连接于所述RA单元以及所述计算单元的输入，所述计算单元的输出连接于确定模块的输入，所述至少一个特征提取子模块包括第一特征提取子模块和第二特征提取子模块，所述第一特征提取子模块与所述第二特征提取子模块级联，所述第一特征提取子模块中的RA单元与所述第二特征提取子模块中的RA单元共享参数的权重；

利用空洞空间金字塔池化ASPP算法扩大所述第二特征的感受野，以得到第三特征。

2.根据权利要求1所述的方法，其特征在于，所述第二特征提取子模块中的计算单元的输出分别连接于所述第一特征提取子模块中的RA单元以及计算单元的输入；

所述优化模块的输出分别连接于所述第二特征提取子模块中的RA单元以及计算单元的输入。

3.根据权利要求1或2所述的方法，其特征在于，每个变换器单元包含自注意力SA子单元和前馈神经网络FFN子单元；其中，所述SA子单元中的三个参数向量K、V和Q是经过降维处理的。

4.根据权利要求1或2所述的方法，其特征在于，所述基于变换器的语义分割模型是按照如下方式训练得到的：

获取第一训练图像；

通过所述第一训练图像，利用综合损失函数训练处理模块，得到所述基于变换器的语义分割模型，所述综合损失函数是由交叉熵损失函数和Dice损失函数组成的；

所述综合损失函数

，

其中，

,

表示所述Dice损失函数，

表示所述交叉熵损失函数。

5.根据权利要求1或2所述的方法，其特征在于，所述获取待检测脏污图像，包括：

获取待检测脏污原始图像；

对所述待检测脏污原始图像进行预处理操作，以得到所述待检测脏污图像；其中，所述预处理操作包括以下至少一项：图像归一化、随机裁切、随机翻转、图像缩放以及颜色扰动。

6.一种缺陷的检测装置，其特征在于，包括：

获取模块，用于获取待检测脏污图像；

处理模块，用于通过基于变换器的语义分割模型对所述待检测脏污图像进行处理，以得到图像分割结果，所述图像分割结果包括利用变换器算法确定的所述待检测脏污图像的第一特征；

所述通过基于变换器的语义分割模型对所述待检测脏污图像进行处理，包括：

利用空洞空间金字塔池化ASPP算法扩大所述第二特征的感受野，以得到第三特征；

确定模块，用于根据所述图像分割结果，确定所述待检测脏污图像对应的脏污缺陷类型。

7.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的缺陷的检测方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的缺陷的检测方法。