CN114359300A

CN114359300A - 一种图像分割模型的优化方法、装置、系统及存储介质

Info

Publication number: CN114359300A
Application number: CN202210266768.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: No 59 Research Institute of China Ordnance Industry; Chengdu Shuzhilian Technology Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-04-15
Anticipated expiration: 2042-03-18
Also published as: CN114359300B

Abstract

本发明提供一种图像分割模型的优化方法、装置、系统及存储介质。其中，所述方法充分利用边界点抑制方法、动态类别加权方法和截断交叉熵损失函数，计算平衡损失函数，并利用平衡损失函数的值优化图像分割模型；三种算法相结合共同组成的平衡损失函数解决了工业产品表面缺陷图像分割模型训练中损失函数值不平衡的问题，并最终能够显著提高模型训练稳定性、识别准确率，并且更进一步提高了模型在不同任务和场景下的通用性，为对产品表面缺陷的图像识别工作提供了方便。

Description

一种图像分割模型的优化方法、装置、系统及存储介质

技术领域

本发明涉及表面缺陷检测识别技术领域，尤其涉及的是表面缺陷图像分割技术的模型优化，更具体地说，涉及一种图像分割模型的优化方法、装置、系统及存储介质。

背景技术

作为生产制造过程中必不可少的一步，表面缺陷检测广泛应用于各工业领域，包括3C、半导体及电子、汽车、化工、医药、轻工、军工等行业。自20世纪开始，表面缺陷检测大致经历了三个阶段，分别是人工目视法检测、单一机电或光学技术检测以及机器视觉检测。人工目视法起源最早，应用最广，但具有劳动强度大、检测稳定性及一致性差、自动化程度低、生产效率低、难以形成精益化生产、招工难、用工难、培训难、成本高等问题。

表面检测系统为采用机器视觉检测技术的表面检测手段，是一种目前广泛应用的先进工具，可供操作员完全确保高速生产线上的产品无缺陷。基于深度学习方法的工业产品表面缺陷图像分割技术，需要使用一种损失函数作为训练的优化目标。当损失函数不可微分时，应当定义一个近似的梯度计算方式。分割模型训练的优化目标就是通过更新模型的参数，来降低训练数据上产生的损失函数值。大多数优化算法基于梯度下降，因此损失函数需要有明确的梯度计算方式。

当前，常用的图像分割损失函数，如交叉熵损失函数、Focal损失函数、IoU损失函数等，存在模型训练不稳定、识别精度差、通用性不强等问题。而分割损失函数值不平衡，正是造成这几项问题的主要原因之一。此外，优化模型对这部分区域的预测往往是非常困难的，常常会导致模型训练难以稳定收敛。并且，由于模型训练被局部区域的损失函数值主导，模型对其他区域的识别准确率难以得到提升。常见的交叉熵等损失函数都不同程度地存在损失函数值不平衡问题。

总之，基于深度学习方法的工业产品表面缺陷图像分割技术中，现有的用于训练的图像分割损失函数所优化的图像分割模型，由于分割损失函数值不平衡，导致存在图像分割模型训练不稳定、识别精度差、通用性不强等问题，给对于产品缺陷检测工作带来了极大的不便，造成了产品工业化生产整体成本的升高。

发明内容

有鉴于此，本发明提供一种图像分割模型的优化方法，应用于对产品表面缺陷图像的识别，包括：

获取针对于所述产品表面缺陷图像的标注信息，以及图像分割模型的图像分割预测数据；

使用边界点抑制方法，针对所述标注信息计算得到抑制权重；

基于动态类别加权方法对所述标注信息计算得出类别权重；

计算所述图像分割预测数据对所述标注信息的截断交叉熵损失函数；

根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数，并根据所述平衡损失函数的值优化所述图像分割模型。

优选地，所述使用边界点抑制方法，针对所述标注信息计算得到抑制权重包括：

获取所述标注信息的标注坐标对应的窗口框的边长值；其中，所述窗口框为以所述标注坐标为中心，以所述边长值为边长的正方形的窗口框；

基于所述边长值，计算所述标注信息的标注坐标在所述窗口框内分布的熵，作为边界密集程度值；

利用所述边界密集程度值计算得到所述抑制权重。

优选地，所述标注信息的标注坐标在所述窗口框内分布的熵的计算方法为：

；

其中，

为标注信息的集合A中标注坐标为i,j所标注的缺陷类型；d为所述边长值；h

为集合A中所有标注坐标在所述窗口框内分布的熵；

代表第k类缺陷的像素值在所述窗口框中的数量；C为缺陷类型的数量；

所述抑制权重

的计算方法为：

。

优选地，所述基于动态类别加权方法对所述标注信息计算得出类别权重包括：

对所述产品表面缺陷图像中缺陷的像素所对应的缺陷类型计算缺陷权重；

将所得到的每个像素对应的缺陷类型的缺陷权重，赋值给所述类别权重。

优选地，所述缺陷权重的计算方法为：

；

其中，

代表第k类缺陷的所述缺陷权重；β为系数；

为所述产品表面缺陷图像中第k类缺陷的像素总数；

所述类别权重

的赋值计算方法为：

；

其中，

为缺陷类型

的缺陷权重。

优选地，所述计算所述图像分割预测数据对所述标注信息的截断交叉熵损失函数包括：

获取所述图像分割模型的图像分割预测数据的分数向量，并根据所述分数向量计算得出所述图像分割模型的图像分割预测数据对应的绝对误差；

根据所述绝对误差，计算所述绝对误差对应的截断交叉熵损失函数。

优选地，所述根据所述绝对误差，计算所述绝对误差对应的截断交叉熵损失函数包括：

利用预设的截断点，根据所述绝对误差计算所述截断交叉熵损失函数。

优选地，所述截断点包括上界截断点和下界截断点；

所述绝对误差

计算方法为：

；

其中，e为自然常数；

为缺陷类型

对应标注坐标处的分数向量x的第a个元素，a为缺陷类型

的简写；C为缺陷类型数量；

为所述分数向量x中的第k个元素；

所述绝对误差

的截断交叉熵损失函数

的计算方法为：

；

式中，

；

；

其中，

所述上界截断点；

所述下界截断点。

优选地，在计算所述绝对误差

的截断交叉熵损失函数

之后，还包括：

设置所述截断交叉熵损失函数的截断点梯度值，定义所述截断交叉熵损失函数的近似一阶导数；

所述近似一阶导数的定义方法为：

；

其中，

和

中的d为微分运算符。

优选地，所述根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数，并根据所述平衡损失函数的值优化所述图像分割模型包括：

根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数；

计算所述平衡损失函数对应的所述图像分割模型的模型输出和模型参数的梯度值，并根据所述梯度值对所述图像分割模型进行梯度下降优化。

优选地，所述梯度值包括第一梯度值和第二梯度值；

所述计算所述平衡损失函数对应的所述图像分割模型的模型输出和模型参数的梯度值，并根据所述梯度值对所述图像分割模型进行梯度下降优化，包括：

采用所述平衡损失函数的梯度计算公式，计算所述图像分割模型的所述模型输出的所述第一梯度值，并根据所述图像分割模型的结构由所述模型输出的所述第一梯度值计算所述模型参数的所述第二梯度值；

将所述第一梯度值和所述第二梯度值对所述图像分割模型回传；

用深度学习优化器根据所回传的所述第一梯度值和所述第二梯度值更新所述图像分割模型的参数。

优选地，所述平衡损失函数

的计算方法为：

；

其中，

为所述抑制权重；

为所述类别权重；W和H分别为所述标注信息的集合A的矩阵的宽度值和高度值；

为所述模型输出的张量X在标注坐标

处的第k个元素；

为所述模型输出的张量X在标注坐标

处的

对应的元素；

为所述截断交叉熵损失函数；C为缺陷类型的数量；

所述图像分割模型的所述模型输出的所述第一梯度值的计算方法为：

；

其中，

和

中的d为微分运算符；

为绝对误差，

；

为所述模型输出的张量X在标注坐标

处的分数向量。

此外，为解决上述问题，本发明还提供一种图像分割模型的优化装置，应用于对产品表面缺陷图像的识别，包括：

获取模块，用于获取针对于所述产品表面缺陷图像的标注信息，以及图像分割模型的图像分割预测数据；

计算模块，用于使用边界点抑制方法，针对所述标注信息计算得到抑制权重；

所述计算模块，还用于基于动态类别加权方法对所述标注信息计算得出类别权重；

所述计算模块，还用于计算所述图像分割预测数据对所述标注信息的截断交叉熵损失函数；

所述计算模块，还用于根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数，并根据所述平衡损失函数的值优化所述图像分割模型。

此外，为解决上述问题，本发明还提供一种图像分割模型的优化系统，包括存储器以及处理器，所述存储器用于存储图像分割模型的优化程序，所述处理器运行所述图像分割模型的优化程序以使所述图像分割模型的优化系统执行如上述所述图像分割模型的优化方法。

此外，为解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像分割模型的优化程序，所述图像分割模型的优化程序被处理器执行时实现如上述所述图像分割模型的优化方法。

本申请提供的图像分割模型的优化方法、装置、系统及计算机可读存储介质。其中所述方法充分利用边界点抑制方法、动态类别加权方法和截断交叉熵损失函数，计算平衡损失函数，并利用平衡损失函数的值优化图像分割模型；边界点抑制方法通过抑制边界点的损失函数值权重，解决了边界点造成的图像分割损失函数值不平衡问题；动态类别加权方法通过对不同类别缺陷类型进行加权，解决了不同缺陷类型间面积不平衡造成的损失函数值不平衡问题；截断交叉熵损失函数解决了难易样本造成的损失函数值不平衡问题。三种算法相结合共同组成的平衡损失函数解决了工业产品表面缺陷图像分割模型训练中损失函数值不平衡的问题，并最终能够显著提高模型训练稳定性、识别准确率，并且更进一步提高了模型在不同任务和场景下的通用性，为对产品表面缺陷的图像识别工作提供了方便。

附图说明

图1为本发明图像分割模型的优化方法实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明图像分割模型的优化方法第一实施例的流程示意图；

图3-1为金属涂层表面腐蚀缺陷中的起泡区域原图；

图3-2为金属涂层表面腐蚀缺陷中的起泡区域表面缺陷图像分割结果图；

图3-3为金属涂层表面腐蚀缺陷中的开裂区域原图；

图3-4为金属涂层表面腐蚀缺陷中的开裂区域表面缺陷图像分割结果图；

图3-5为金属涂层表面腐蚀缺陷中的脱落区域原图；

图3-6为金属涂层表面腐蚀缺陷中的脱落区域表面缺陷图像分割结果图；

图3-7为金属涂层表面腐蚀缺陷中的生锈区域原图；

图3-8为金属涂层表面腐蚀缺陷中的生锈区域表面缺陷图像分割结果图；

图4为本发明图像分割模型的优化方法第二实施例的流程示意图；

图5为本发明图像分割模型的优化方法第三实施例的流程示意图；

图6为本发明图像分割模型的优化方法第四实施例的流程示意图；

图7为本发明图像分割模型的优化方法第五实施例的流程示意图；

图8为本发明图像分割模型的优化方法第六实施例（具体应用例）的平衡损失函数进行分割模型训练的算法整体流程图；

图9为本发明图像分割模型的优化方法第六实施例的第1行算法中举例说明示意图；

图10为本发明的图像分割模型的优化装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本发明的实施例，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。

本发明实施例图像分割模型的优化系统，可以为PC，也可以是智能手机、平板电脑或者便携计算机等可移动式终端设备等。如图1所示，该图像分割模型的优化系统中可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地，图像分割模型的优化系统还可以包括RF（RadioFrequency，射频）电路、音频电路、WiFi模块等等。此外，该图像分割模型的优化系统还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的图像分割模型的优化系统并不构成对其的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及图像分割模型的优化程序。

本发明提供的图像分割模型的优化方法、装置、系统及计算机可读存储介质。其中，所述方法是一种针对图像分割模型的优化方法，针对的是模型训练过程中的损失函数值不平衡问题，能够以此提高模型的训练稳定性、识别准确率和通用性。

实施例1：

参照图2，本发明第一实施例提供一种图像分割模型的优化方法，应用于对产品表面缺陷图像的识别，包括：

步骤S100，获取针对于所述产品表面缺陷图像的标注信息，以及图像分割模型的图像分割预测数据；

需要说明的是，随着计算机视觉技术与深度学习技术的不断发展，工业产品表面缺陷自动识别技术取得了较大的进步。通过大量表面缺陷图像及其标注数据的训练，深度学习模型能够自动对各类工业产品表面缺陷进行自动识别。其中，基于深度学习图像分割模型的表面缺陷图像分割技术，能够对图像中工业产品表面缺陷的类型、严重程度、位置进行像素级的精细识别，有助于开展细粒度的缺陷监控与分析评估工作。

例如参考文件1，Ma等（Automated image segmentation using improved PCNNmodel based on cross-entropy[C]// Proceedings of 2004 International Symposiumon Intelligent Multimedia, Video and Speech Processing, 2004. IEEE, 2005）基于交叉熵损失函数改进的加权交叉熵损失函数。图像分割模型训练中常存在正负样本不平衡问题，导致正样本或负样本所占权重过高，导致损失函数值不平衡。此技术通过对正样本进行加权，来静态地调节损失值的平衡。

加权交叉熵损失函数对分割预测中某一点的损失函数值计算方式为：

。

公式中，

为某点被预测为第k类的分数，

为此点的标签。

为类型

的权重。各个类别的权重

均需要根据经验手动设置。一般当某类别

的样本较多时，

；样本较少时，

在训练时，

会调节放大或缩小各类别样本产生的损失函数值的比例并影响模型参数的梯度，进而影响模型优化过程。首先，此方案中主要的条件参数

是常量，无法自动适应动态的模型训练过程。譬如，当训练数据中类别k的样本量较小时，一般会设置较大的

；但如果训练若干次循环后，类别k样本的损失值开始变得比较高，再保持较大的

是不合理的。其次，该方案中

的改进依赖于人工试错，使得训练的效率较低。最后，该方案只对正负样本不均衡造成的损失函数值不平衡有所改善，没有应对更普遍的损失函数值不平衡问题。

例如参考文件2，Lin等（Focal Loss for Dense Object Detection[J]. IEEETransactions on Pattern Analysis & Machine Intelligence, 2017, PP(99):2999-3007）公开了采用Focal Loss的方法，其为一种依据样本难易程度进行加权的损失函数，可以在训练过程中动态地降低简单样本的损失函数值。Focal Loss也是通过在交叉熵损失函数基础上进行加权来调节损失函数值平衡的：

；

其中：

。

其中

是用于调节简单样本权重的系数。当样本越简单，即预测值的误差

越小，

会使得简单样本产生的损失函数值更低。

Focal Loss的核心思路是通过动态加权来降低简单样本所占损失函数权重，从而使模型参数优化方向更多地倾向于难样本。同时，此方法也在一定程度上减轻了过拟合。通过减小简单样本的损失值权重，模型训练过程中，模型将不再过度拟合已经能被正确预测的样本。另外，此方法也沿袭了参考文件1中的正样本加权方法，也可以为正样本损失值设置权重系数

。

此方法无法应对难样本造成的损失函数值不平衡，而且很可能加重此问题。当少量难样本产生过高的损失值时，此方法不仅无法降低难样本的损失值比重，而且会因为降低了简单样本的权重而加剧不平衡问题。另外，Focal Loss也无法自适应地调节类别权重

。

例如参考文件3，Sudre等（Generalised Dice overlap as a deep learningloss function for highly unbalanced segmentations[C]// Deep Learning inMedical Image Analysis and Multimodal Learning for Clinical Decision Support.2017, PP. 240-248）采用的方案中，Dice Loss不再使用对数函数来缩放的分割预测的误差值，而使用误差的倒数来计算损失值：

；其中，

表示Sigmoid函数：

；

为第k类的one-hot编码，仅当

时

，否则

。

是为了避免除零错误所设置的常数，通常可以取一个较小的值如

。

Dice Loss的特点是损失函数值及其梯度的范围，与基于对数函数的损失函数不同。Dice Loss所计算的损失函数值大于0，且小于一个上界

。这使得难样本的损失值具有一个上限，不会无限度地增加损失值不平衡。另一方面，当预测误差逼近0时，DiceLoss的损失函数的梯度逼近

。考虑到

取值往往接近0，此极限值也接近于0。与此不同的是，基于梯度的损失函数，在误差逼近0时梯度仍为1。这一特性使得简单样本的损失函数对训练的影响也会随着误差的缩小而逼近0，从而抑制了简单样本造成的损失函数值不平衡。

此技术虽然给难样本的损失函数值设置了上限，但接近上限时难样本的损失值梯度逼近

。考虑到

的取值接近0，此梯度值上限仍然不能保证难样本造成损失函数的梯度不平衡。其次，此技术也没有对类别不均衡造成的损失函数不平衡问题提出一个动态的、自适应的解决方案。

例如参考文件4，CN202110504018.5中，公开了一种表面缺陷图像的语义分割方法，该技术方案中主要技术特点为，使用空间路径模型、上下文路径模型和语义图路径模型共同组成一个三路并行的语义分割模型，并进行三次分割预测，最终将预测结果融合进行训练或推断。模型训练的流程包括：将表面缺陷图像及其标注数据输入到空间路径模型，获得模型预测值

，并用交叉熵损失函数计算损失函数值

；将表面缺陷图像及其标注数据输入到上下文路径模型，获得模型预测值

，并用交叉熵损失函数计算损失函数值

；将表面缺陷图像及其标注数据输入到语义图路径模型，获得模型预测值

，并用交叉熵损失函数计算损失函数值

；使用人工设定的权重，求加权和

；使用

进行梯度回传并用随机梯度下降优化器更新参数。

首先，此方法中模型的总损失值是三个模型的损失值的加权和，但其中某一模型出现损失函数值不平衡现象时，此损失函数并不能提供帮助。例如，如果空间路径模型出现了损失函数值不平衡现象，导致

较大且难以下降，其模型参数

的梯度为

，与其他模型的训练没有关联。另外，该技术需要凭经验手动设置各个模型的损失函数的权重。而在缺乏模型训练经验的情况下，使用者很难对三个模型的权重进行取舍。最后，该方法没有对工业产品表面缺陷进行适应性的改进，很难保证技术在各类场景上的通用性。

工业产品表面缺陷图像分割问题是指对工业产品表面拍摄的图像中每一个像素点是否属于缺陷、属于哪种缺陷类型的自动识别问题。例如图3-1至图3-8均为针对表面缺陷实物识别的示例，分别为四种缺陷类型（起泡、开裂、脱落、生锈）的原图和对应的缺陷图像分割结果图：其中，图3-1为起泡区域原图，相对应的图3-2为起泡区域表面缺陷图像分割结果图；图3-3为开裂区域的原图，与其对应的，图3-4为开裂区域表面缺陷图像分割结果图；图3-5为脱落区域原图，图3-6为与图3-5相对应的脱落区域表面缺陷图像分割结果图；图3-7为生锈区域原图，图3-8即为生锈区域表面缺陷图像分割结果图与图3-7相对应。起泡、开裂、脱落、生锈四种缺陷类型，由图3-1至图3-8中，不同缺陷类型的原图和分割结果图可直观观察到原图在图像分割前后的样态。

基于深度学习方法的工业产品表面缺陷图像分割技术，需要使用一种损失函数作为训练的优化目标。一个分割模型的损失函数可记为

。其中，对图像的人工表面缺陷标注可视为一个矩阵

，

和

分别代表图像的宽度和长度，而

中的元素代表所处位置像素点的缺陷类型标注（取值范围为

，其中0代表无缺陷，其他代表某一缺陷类型，共C类）。深度学习分割模型的输出为张量

，其中元素

代表模型将坐标

处的像素分类为第

类缺陷的分数。而分割模型的损失函数为一个映射

，即损失函数的输入为

和

，输出为一个正实数

。

当损失函数不可微分时，应当定义一个近似的梯度计算方式。分割模型训练的优化目标就是通过更新模型的参数，来降低训练数据上产生的损失函数值。大多数优化算法基于梯度下降，因此损失函数需要有明确的梯度计算方式。

常用的图像分割损失函数，如交叉熵损失函数、Focal损失函数、IoU损失函数等，常存在模型训练不稳定、识别精度差、通用性不强等问题。其中，模型训练的稳定性是指损失函数值能快速地、符合预期地下降并收敛；识别准确率是指模型的图像分割预测结果与人工（具有专业知识的人员）的缺陷标注结果的一致性；通用性是指技术在不同的工业产品类型、缺陷类型、拍摄场景下都能保持良好效果的特点。

分割损失函数值不平衡，是造成这几项问题的主要原因之一。分割损失函数值不平衡问题是指，训练图像中一部分区域产生了过高的损失函数值，导致模型的优化方向被这部分区域所主导。优化模型对这部分区域的预测往往是非常困难的，常常会导致模型训练难以稳定收敛。并且，由于模型训练被局部区域的损失函数值主导，模型对其他区域的识别准确率难以得到提升。常见的交叉熵等损失函数都不同程度地存在损失函数值不平衡问题。

本实施例中，提供了一种图像分割模型的优化方法，应用于对产品表面缺陷图像的识别。产品表面缺陷图像的标注信息，可以为人工标注，或者为其他方式标注的信息。本实施例中，标注信息可以定义为A。

上述，在步骤S100中，获取针对于所述产品表面缺陷图像的标注信息，以及图像分割模型的图像分割预测数据。其中，获取标注信息和图像分割预测数据，可以预设任一先后顺序，也可以同时进行，在此并不做限定。

步骤S200，使用边界点抑制方法，针对所述标注信息计算得到抑制权重；

步骤S300，基于动态类别加权方法对所述标注信息计算得出类别权重；

步骤S400，计算所述图像分割预测数据对所述标注信息的截断交叉熵损失函数；

上述，步骤S200、S300、S400分别对应抑制权重、类别权重和截断交叉熵损失函数的计算和函数的得出，除非在公式中具有运算上的先后顺序，上述的公式和函数在其运算的先后顺序中既可以由任意一个运算前置进行，也可以三个运算同时进行，在此针对3个步骤中的运算顺序可以不做限定。

步骤500，根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数，并根据所述平衡损失函数的值优化所述图像分割模型。

需要说明的是，在针对表面缺陷的图像分割模型的训练中，边界点会产生较高的损失值，导致训练的损失值不平衡问题。边界点是指人工标注的表面缺陷图像中，处于缺陷与非缺陷区域、或不同类缺陷区域边界上的像素点。而边界点抑制方法是一种抑制边界点损失值不平衡的方法。

上述，在图像中，各类型缺陷和无缺陷区域的像素数量（可以为图像中的面积）往往分布不均衡。大多数任务中，标注为缺陷的像素数量远小于非缺陷像素数量。不同缺陷类型的像素数量也存在差异。这导致分割模型的训练面临较为严重的类别不平衡问题，常常会导致模型陷入过拟合，对面积较小的缺陷类型的识别准确率较低。为了增加面积较小缺陷类型在损失函数中的权重，本实施例使用动态类别加权方法对每张图片中各类别缺陷的权重进行调整。

上述，在深度学习图像分割模型训练中，“难、易样本”也往往会造成损失函数值不平衡问题。“难样本”损失函数值不平衡是指图像少部分像素的损失值

过高，导致模型训练被这些少量像素主导，无法进行全局的优化；“易样本”损失函数值不平衡是指图片中大部分像素的损失值

比较小，但由于易样本数量庞大，因此占总体损失函数值比例过高，导致模型训练无法优化尚未拟合的非易样本。

针对这一问题，本实施例方案提供了一种截断交叉熵损失函数来替代现有的图像分割损失函数。此方法抑制了难易样本的损失值，从而缓解难易样本损失函数值不平衡问题。

上述，本实施例方案中，将边界点抑制方法、动态类别加权方法和截断交叉熵损失函数相结合，形成了一种适用于深度学习图像分割模型的损失函数，称为平衡损失函数。并进一步通过平衡损失函数优化图像分割模型。

上述，本实施例针对的是工业生产中的产品表面缺陷图像的识别，此外也可以应用于针对其他物体表面特征的识别的图像模型的训练。

本实施例提供的一种图像分割模型的优化方法，充分利用边界点抑制方法、动态类别加权方法和截断交叉熵损失函数，计算平衡损失函数，并利用平衡损失函数的值优化图像分割模型。其中，边界点抑制方法通过抑制边界点的损失函数值权重，解决了边界点造成的图像分割损失函数值不平衡问题；动态类别加权方法通过对不同类别缺陷类型进行加权，解决了不同缺陷类型间面积不平衡造成的损失函数值不平衡问题；截断交叉熵损失函数解决了难易样本造成的损失函数值不平衡问题。三种算法相结合，共同组成的平衡损失函数解决了工业产品表面缺陷图像分割模型训练中损失函数值不平衡的问题，并最终能够显著提高模型训练稳定性、识别准确率，并且更进一步提高了模型在不同任务和场景下的通用性，为对产品表面缺陷的图像识别工作提供了方便。

实施例2：

参照图4，本发明第二实施例提供一种图像分割模型的优化方法，基于上述实施例1。所述步骤S200，使用边界点抑制方法，针对所述标注信息计算得到抑制权重包括：

步骤S210，获取所述标注信息的标注坐标对应的窗口框的边长值；其中，所述窗口框为以所述标注坐标为中心，以所述边长值为边长的正方形的窗口框；

上述，标注信息A中的每个位置

设有邻近窗口。窗口框是指以坐标

为中心的边长值为

的正方形区域。

上述，边长值

根据缺陷的尺度和图像精细程度选取，缺陷尺度越大或图像精细程度越高，则边长值

则应越大。一般可以取5-31之间的奇数。

步骤S220，基于所述边长值，计算所述标注信息的标注坐标在所述窗口框内分布的熵，作为边界密集程度值；

上述，标注信息的位置，即为标注坐标

。本实施例中使用窗口框内分布的熵

来衡量此处是否位于边界点、边界密集程度。

进一步的，在所述步骤S220中，所述标注信息的标注坐标在所述窗口框内分布的熵的计算方法为：

（6）；

其中，

为集合A中所有标注坐标在所述窗口框内分布的熵；

需要说明的是，A代表标注信息的集合，为宽W高H的矩阵，A中的元素取值范围需要满足

的范围内的整数的条件，i,j为A的矩阵中的一组标注坐标，

代表标注坐标i,j位置在图像ij上的点的像素被标注的缺陷类型。例如，在实际操作中，可以为相当于标注人员操作与画图程序相类似的程序，用标记工具（例如画笔、电容笔）在图像上可见的有缺陷的区域涂覆上颜色，以便于能够表明该位置或区域有某种类型的缺陷。

上述，熵

越高，则标注信息A对应的标注坐标i,j所处位置离边界越近、附近的边界越密集。

上述，熵所针对的即为每个标注坐标的点，每个点计算出一个值，熵计算的即为窗口框内局部的标注的混杂程度。熵并不对应某一个缺陷类型，而是对所有的类型计算得出的数值，相当于反应的是区域整体的状态。需要说明的是，计算得出的熵，也是二维的W-H矩阵。

步骤230，利用所述边界密集程度值计算得到所述抑制权重。

上述，边界密集程度值即为熵值，用于衡量标注信息是否位于边界点、边界密集程度。

进一步的，所述步骤230中所述抑制权重

的计算方法为：

（7）。

进一步的，抑制权重

（上述公式中为标注坐标i,j对应的

），需符合

，

为数域。其中元素的取值范围为

，即当标注坐标

越靠近边界或附近边界越密集，则

越接近0；反之越接近1。

本实施例中，基于在表面缺陷分割模型训练中，边界点会产生较高的损失值，导致训练的损失值不平衡等缺陷。采用边界点抑制方法，抑制边界点损失值不平衡，从而达到提高训练效率，解决训练损失值高、不平衡等问题的效果。

实施例3：

参照图5，本实施例提供一种图像分割模型的优化方法，基于上述实施例1，所述步骤S300，基于动态类别加权方法对所述标注信息计算得出类别权重包括：

步骤S310，对所述产品表面缺陷图像中缺陷的像素所对应的缺陷类型计算缺陷权重。

上述，为了增加面积较小缺陷类型在损失函数中的权重，本实施例中使用动态类别加权方法对每张图片中各类型（类别）缺陷的权重进行调整。

进一步的，所述步骤310中缺陷权重的计算方法为：

（8）；

其中，

代表第k类缺陷的所述缺陷权重；β为系数；

为所述产品表面缺陷图像中第k类缺陷的像素总数；

上述，

为循环变量，也表示为每个缺陷类型对应的整数值，符合

的数值范围；

代表第k类缺陷的所述缺陷权重；也即为所述缺陷类型的整数值为k时的所述缺陷权重（在此以小写字母w表示）；β为系数，且需满足0＜β＜1的数值范围。

其中，系数

取值范围为[0,1]，通常可以取0.9、0.99、0.999等值。

上述，

为A中所述标注坐标i,j所标注的缺陷类型，k即代表[0-C]范围内的具体的整数值，C即可代表为缺陷类型的数量；例如，0即为无缺陷，[1-C]范围内的数值即代表为某种缺陷类型。再例如，标注坐标i,j位置像素点的缺陷类型的标注为

=3，则i,j该点在计算缺陷权重

时，k=3。

步骤S320，将所得到的每个像素对应的缺陷类型的缺陷权重，赋值给所述类别权重。

进一步的，所述步骤S320，所述类别权重的赋值计算方法为：

（9）。

上述公式中，

为类别权重；

为在缺陷类型的整数值k为

时的缺陷权重。

类别权重

（上述公式中为标注坐标i,j对应的

），符合

，

为数域，其中元素的取值范围为

。当标注坐标

处的缺陷类型越稀少，其类别权重

越高。

在识别针对的图像中，各类型缺陷和无缺陷区域的像素数量（即图像中的面积）往往分布不均衡。大多数任务中，标注为缺陷的像素数量远小于非缺陷像素数量。不同缺陷类型的像素数量也存在差异。这导致分割模型的训练面临较为严重的类别不平衡问题，常常会导致模型陷入过拟合，对面积较小的缺陷类型的识别准确率较低。

本实施例中，为了增加面积较小缺陷类型在损失函数中的权重，本实施例使用动态类别加权方法对每张图片中各类别缺陷的权重进行调整，解决分割模型的训练面临较为严重的类别不平衡问题、模型陷入过拟合、对面积较小的缺陷类型的识别准确率较低等缺陷，从而进一步提高识别准确率。

实施例4：

参照图6，本实施例提供一种图像分割模型的优化方法，基于上述实施例1，所述步骤S400，计算所述图像分割预测数据对所述标注信息的截断交叉熵损失函数，包括：

步骤S410，获取所述图像分割模型的图像分割预测数据的分数向量，并根据所述分数向量计算得出所述图像分割模型的图像分割预测数据对应的绝对误差；

需要说明的是，在深度学习图像分割模型训练中，“难样本”和“易样本”也往往会造成损失函数值不平衡问题。“难样本”的损失函数值不平衡是指图像少部分像素的损失值

过高，导致模型训练被这些少量像素主导，无法进行全局的优化；“易样本”的损失函数值不平衡是指图片中大部分像素的损失值

针对这一问题，本实施例方案提供了一种截断交叉熵损失函数来替代现有的图像分割损失函数。此方法抑制了难易样本的损失值，从而缓解难易样本损失函数值不平衡问题。截断交叉熵损失函数的计算方式如实施例中算法所示。

进一步的，所述步骤S410中绝对误差计算方法为：

（10）。

其中，e为自然常数；

为缺陷类型

对应标注坐标处的分数向量x的第a个元素，a为缺陷类型

的简写；C为缺陷类型数量；

为所述分数向量x中的第k个元素。

上述，

为绝对误差（在此无下标的符号

代表含义为绝对误差，区别于下述有下标的截断点

和

）；

为循环变量，满足

的取值范围；x为所述图像分割模型在i,j点输出的分数向量，其中分数向量x符合

，

为数域；

为常量，a=

。

步骤S420，根据所述绝对误差，计算所述绝对误差对应的截断交叉熵损失函数。

进一步的，所述步骤S420，根据所述绝对误差，计算所述绝对误差对应的截断交叉熵损失函数包括：

步骤S421，利用预设的截断点，根据所述绝对误差计算所述截断交叉熵损失函数。

上述，截断点，即为不可导点，为预先设定的量，其设定顺序和设定时机在此不做限定。

进一步的，所述截断点包括上界截断点和下界截断点（在此，上界截断点和下界截断点由有下标的符号

和

表示，区别于上述公式中的无下标的

所代表的绝对误差）；并且，在所述步骤S421中，所述绝对误差

的截断交叉熵损失函数

的计算方法为：

（11）；

式中，

（12）；

（13）；

其中，

所述上界截断点；

所述下界截断点。

其中，

为所述绝对误差

的所述截断交叉熵损失函数；所述上界截断点和所述下界截断点满足：

的数值范围。

上述，

和

为两个常量，该常量在计算上分别为

和

。

上述，上界截断点

和下界截断点

可以是人为设置的截断点，满足

范围，例如可以取值

=0.2和

=0.8。

进一步的，在计算所述绝对误差

的截断交叉熵损失函数

之后，还包括：

进一步的，所述近似一阶导数的定义方法为：

（14）。

其中，

和

中的d为微分运算符。

上述，截断交叉熵损失函数包含有2个截断点，分别为上界截断点和下界截断点，分别对应的是

和

，由于在计算过程中需要计算梯度，而当

的取值正好在截断点

和

时，无法直接计算梯度，因此需要为这两个截断点设置近似梯度值，即为近似一阶导数。为了使基于梯度的优化算法能够使用此损失函数，本实施例中有针对性的设置截断点的梯度值，定义其近似的一阶导数如上述算法。其中，定义近似一阶导数，即相当于设置截断交叉熵损失函数的截断点梯度值的步骤；定义方法，也即为截断交叉熵损失函数的截断点梯度值的具体设置方法。

本实施例中，有针对性的采用截断交叉熵损失函数来替代现有的图像分割损失函数。采用截断交叉熵损失函数的方法抑制了难易样本的损失值，从而缓解难易样本损失函数值不平衡问题。

实施例5：

参照图7 ，本实施例提供一种图像分割模型的优化方法，基于上述实施例1，所述步骤S500，根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数，并根据所述平衡损失函数的值优化所述图像分割模型，包括：

步骤S510，根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数；

上述，本实施例方案中，将边界点抑制方法、动态类别加权方法和截断交叉熵损失函数相结合，形成了一种适用于深度学习图像分割模型的损失函数，称为平衡损失函数。本步骤中，综合利用抑制权重、类别权重和截断交叉熵损失函数，计算得出平衡损失函数值。

进一步的，所述平衡损失函数的计算方法为：

（15）。

其中，

为所述抑制权重；

为所述模型输出的张量X在标注坐标

处的第k个元素；

为所述模型输出的张量X在标注坐标

处的

对应的元素；

为所述截断交叉熵损失函数；C为缺陷类型的数量。

其中，

为平衡损失函数；A为所述标注信息的集合；i,j为A的矩阵中的一组标注坐标；X（该公式中的X均为大写字母）为所述图像分割模型的所述模型输出；e为自然常数。

上述，

和

是由前述公式计算得出的抑制权重（

在本公式中具体为

）和类别权重（

在本公式中具体为

）。

步骤S520，计算所述平衡损失函数对应的所述图像分割模型的模型输出和模型参数的梯度值，并根据所述梯度值对所述图像分割模型进行梯度下降优化。

上述，梯度值为模型输出和模型参数的梯度值。而平衡损失函数对应的是一种定义的计算方式。

本实施例中，利用三种算法相结合，共同组成的平衡损失函数解决了针对于工业产品表面缺陷图像的图像分割模型在训练中损失函数值不平衡的问题。实现了显著提高模型训练稳定性、识别准确率的效果。

进一步的，上述梯度值包括第一梯度值和第二梯度值；并且，所述步骤520，计算所述平衡损失函数对应的所述图像分割模型的模型输出和模型参数的梯度值，并根据所述梯度值对所述图像分割模型进行梯度下降优化，包括：

步骤S521，采用所述平衡损失函数的梯度计算公式，计算所述图像分割模型的所述模型输出的所述第一梯度值，并根据所述图像分割模型的结构由所述模型输出的所述第一梯度值计算所述模型参数的所述第二梯度值；

上述，第一梯度值和第二梯度值为不同的梯度值，“第一和第二”用以在名称上对不同梯度值进行区分。其中，第一梯度值为，图像分割模型的模型输出的梯度值；而第二梯度值为，由模型输出的第一梯度值计算得出的模型参数的梯度值。其中，图像分割模型的模型输出即为下述公式中的X。

上述，模型参数的第二梯度值，是以模型输出的第一梯度值为输入的，计算方法由图像分割模型本身结构所决定，针对于图像分割模型本身的结构在此不进行限定和赘述。

上述，深度学习模型训练往往基于梯度下降的优化方法。

（16）；

其中，

和

中的d为微分运算符；

为绝对误差，

；

为所述模型输出的张量X在标注坐标

处的分数向量。式中X为大写字母，代表所述图像分割模型的所述模型输出。

步骤S522，将所述第一梯度值和所述第二梯度值对所述图像分割模型回传。

步骤S523，用深度学习优化器根据所回传的所述第一梯度值和所述第二梯度值更新所述图像分割模型的参数。

上述，在采用上述公式计算得到平衡损失函数对应的第一梯度值和第二梯度值之后，需要向模型进行针对于第一梯度值和第二梯度值的回传。

上述，图像分割模型可以为U-Net模型；本实施例中，采用的是Severstal数据集。

上述，深度学习优化器可以为能够对于图像分割模型进行梯度值优化的优化器，可以包括但不限于Adam优化器。本实施例中，在针对于梯度值向图像分割模型的数据回传后，采用Adam优化器更新该模型参数θ。

总之，本实施例提供的一种图像分割模型的优化方法。本方法充分综合利用边界点抑制方法、动态类别加权方法和截断交叉熵损失函数，获得平衡损失函数；其中，边界点抑制方法通过抑制边界点的损失函数值权重，解决了边界点造成的图像分割损失函数值不平衡问题；动态类别加权方法通过对不同类别缺陷类型进行加权，解决了不同缺陷类型间面积不平衡造成的损失函数值不平衡问题；截断交叉熵损失函数解决了难易样本造成的损失函数值不平衡问题。上述三种算法相结合，共同组成的平衡损失函数解决了针对于工业产品表面缺陷图像的图像分割模型在训练中损失函数值不平衡的问题，最终能够实现显著提高模型训练稳定性、识别准确率的效果，并且更进一步提高了模型在不同任务和场景下的通用性，为对产品表面缺陷的图像识别工作提供了方便。

实施例6：

参照图8中的算法整体流程，本实施例中基于上述实施例1-5，针对该图像分割模型的优化方法提供如下具体应用例。在本具体应用例中，采用Severstal数据集（Kaggle.Severstal: Steel Defect Detection [EB/OL]. (2019-06-17) [2021-11-01].）应用到钢材表面缺陷分割问题中，该数据集包含了多于12538张高分辨率钢材表面缺陷图像，包括4种缺陷类别。其中随机抽取的8727张图像作为训练集，其余3811张图像作为测试集。本具体应用例中的预测准确率的评估使用IoU（Intersection-over-Union）指标。

本具体应用例使用了平衡损失函数训练U-Net模型（Ronneberger O, Fischer P,Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]//Springer, Cham. Springer, Cham, 2015.）进行图像分割。训练流程（算法整体流程）如表1所述。

表1、算法整体流程表*

*表中公式编号同前述实施例1-5中的公式编号

算法中（表1）第7行，平衡损失函数的计算（公式15）依赖于模型预测结果

、标注信息

（本具体应用例中，标注信息为人工标注）、抑制权重

、类别权重

。为了避免重复计算，抑制权重和类别权重在训练开始前已经计算完成（第1、2行）。

算法（表1）中，属于平衡损失函数的关键步骤，表1的第1、2、7、9行，算例如下：

第1行中，需要为每张图像中每一个点计算一个抑制权重值。例如，参考图9中示例，某缺陷图像中的标注坐标

的窗口框（为突出显示，在图中以深色虚线部分代表该窗口框的区域，该区域即为以标注坐标点i,j为中心，以边长值7为边长的正方形）如图所示，图中数字为该位置像素的缺陷类型标签，中间斜体加粗的缺陷类型标签0所在位置的坐标即为标注坐标

。本实施例中，窗口框的边长

缺陷类型的数量

。则标注坐标

的抑制权重值为：

表1第2行中，每张图片中每个点都可以计算得到一个类别权重值。例如，某张长宽均为200像素的图片，共含有4万个像素。其中不包含缺陷（k=0）的像素数量为2万个，包含缺陷类型k=0的像素1.5万个，包含缺陷类型k=2的像素5000个。本实施例中

。则任一标注坐标

的类别权重，根据所属缺陷类型的不同，计算为：

在表1第7行中，每个像素点的预测都可以计算一个损失函数值。在本实施例中，截断交叉熵损失函数的下界截断点

，上界截断点

。本具体应用例中，举三个例子说明截断交叉熵损失函数在不同条件下[公式（11）中3种条件]的计算方式。

例1：当某标注坐标

的预测向量为

，而缺陷类型标注

，则绝对误差值为：

代入截断交叉熵损失函数公式（11），可求得损失值为0；代入截断交叉熵损失函数梯度公式（12），可求得截断交叉熵损失函数的梯度为0。

例2：当某标注坐标

的预测向量为

，而缺陷类型标注

，则误差值为：

代入截断交叉熵损失函数公式（11），可求得损失值为：

代入截断交叉熵损失函数梯度公式（12），可求得截断交叉熵损失函数的梯度为：

例3：当某标注坐标

的预测向量为

，而缺陷类型标注

，则误差值为：

代入截断交叉熵损失函数公式（11），可求得损失值为：

代入截断交叉熵损失函数梯度公式（12），可求得截断交叉熵损失函数的梯度值为：

此外，U-Net模型训练使用Adam优化器（Kingma D, Ba J. Adam: A Method forStochastic Optimization [J]. Computer Science, 2014.），学习率为

，L2正则化项系数为

。模型训练的batch size为32，迭代次数共计25000次。同时使用了随机翻转、随机旋转、随机颜色扰动等数据增强方法。

横向对比实验：

本具体应用例中，利用如下常见的图像分割损失函数：（1）交叉熵损失函数、（2）加权交叉熵损失函数、（3）Focal损失函数、（4）Dice损失函数，获得了其（上述常见图像分割损失函数1-4）在U-Net和Severstal任务上的IoU指标，来作为平衡损失函数的对比，进行横向对比实验。

需要说明的是，Severstal数据集中包括4种表面缺陷的类别，即为下述表2中的类别1-4，4种缺陷类别加上背景，因此本具体应用例中C=4+1。例如，表2中的类别1即为，存在Severstal数据集的第1类缺陷的图片，图像分割模型的识别IoU指标。表2中的“全体”即为指整个Severstal数据集的IoU指标。

表 2、平衡损失函数与其他常用损失函数训练的U-Net模型在Severstal数据集的分割结果IoU指标

方法	类别1	类别2	类别3	类别4	全体
						交叉熵	72%	42%	76%	69%	65%
加权交叉熵	60%	44%	75%	59%	59%
						Focal	68%	61%	82%	69%	70%
Dice	67%	59%	82%	67%	69%
						平衡损失函数	82%	76%	95%	89%	87%

实验结果：实验数据如表2所示。

由表2可以得出如下结论：

平衡损失函数的方法训练的U-Net模型在Severstal数据集的分割结果IoU指标分别为，类别1：82%；类别2：76%；类别3：95%；类别4：89%；全体：87%。因此，由表2中实验数据可以直观得出：平衡损失函数的方法相比于其他方法能在各缺陷类型上得到更高的识别准确率。

总之，本实施例（具体应用例）中采用的图像分割模型的优化方法，综合利用边界点抑制方法、动态类别加权方法和截断交叉熵损失函数，获得平衡损失函数，三种算法相结合，共同组成的平衡损失函数解决了针对于工业产品表面缺陷图像的图像分割模型在训练中损失函数值不平衡的问题，最终能够实现显著提高模型训练稳定性、识别准确率的效果，并且更进一步提高了模型在不同任务和场景下的通用性，为对产品表面缺陷的图像识别工作提供了方便。

此外，参考图10，本实施例还提供一种图像分割模型的优化装置，应用于对产品表面缺陷图像的识别，包括：

获取模块10，用于获取针对于所述产品表面缺陷图像的标注信息，以及图像分割模型的图像分割预测数据；

计算模块20，用于使用边界点抑制方法，针对所述标注信息计算得到抑制权重；

所述计算模块20，还用于基于动态类别加权方法对所述标注信息计算得出类别权重；

所述计算模块20，还用于计算所述图像分割预测数据对所述标注信息的截断交叉熵损失函数；

所述计算模块20，还用于根据所述抑制权重、所述类别权重和所述截断交叉熵损失函数计算平衡损失函数，并根据所述平衡损失函数的值优化所述图像分割模型。

此外，本申请还提供一种图像分割模型的优化系统，包括存储器以及处理器，所述存储器用于存储图像分割模型的优化程序，所述处理器运行所述图像分割模型的优化程序以使所述图像分割模型的优化系统执行如上述所述图像分割模型的优化方法。

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像分割模型的优化程序，所述图像分割模型的优化程序被处理器执行时实现如上述所述图像分割模型的优化方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。