CN113160204A

CN113160204A - 基于目标检测信息生成缺陷区域的语义分割网络训练方法

Info

Publication number: CN113160204A
Application number: CN202110484687.0A
Authority: CN
Inventors: 杨俊杰; 郑军
Original assignee: Matrixtime Robotics Shanghai Co ltd
Current assignee: Matrixtime Robotics Shanghai Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-23

Abstract

本发明属于图像处理领域，具体涉及一种基于目标检测信息生成缺陷区域的语义分割网络训练方法，包括：读入图片样本以及其对应的目标检测框和目标检测框对应的语义类别；将图片样本传入语义分割网络，前向推断计算获得Logit；利用目标检测框信息及Logit计算损失值；使用所得损失值计算梯度并更新网络权重；判断该网络模型是否达到训练迭代次数上限。本发明的方法利用对缺陷图片的先验认知与目标检测框标注的尺度信息引导语义分割网络模型在训练时能较快收敛，且能较为准确地推断出缺陷信息；能有效地避开现有像素级别标注困难的问题，改用目标检测框标注信息实现语义分割网络训练。

Description

基于目标检测信息生成缺陷区域的语义分割网络训练方法

技术领域

本发明属于图像处理领域，具体涉及一种基于目标检测信息生成缺陷区域的语义分割网络训练方法。

背景技术

在所有需要对复杂环境中，对目标信息进行提取时，通常会使用强监督深度学习方法来训练模型。现有的强监督深度学习方法在训练过程中，标注内容必须使用与预测目标相同的标注类型。其中，语义分割与实例分割通常需要使用像素级别的标注进行训练。人工生成这类标注时，需要花费大量的时间与精力。此外，物体的边缘通常较为模糊难以界定，因此标注的精度一般难以保证。

在缺陷检测领域，对于实例分割来说，还存在缺陷标注合并与拆分的问题，例如两条划痕存在像素相交的时候，很难界定其为一个缺陷还是两个缺陷。而使用语义分割则可避免该问题的出现。此外，在该领域的标注中，缺陷通常会作为检测的前景目标，有存在颜色与背景基本一致或缓慢变换的情况。在这种情况下，人的肉眼通常无法确定该类目标与背景的边界，常规使用多边形轮廓线的方式定义缺陷进行像素级标注的方法存在着极大的困难。

上述难以标注的问题通常有三种解决方法：①剔除这类图片，改用含有更为明显缺陷的图片进行标注与训练网络；②放弃标注这类缺陷；③凭借标注者对图像的经验来估计这类标注区域。对于含有缺陷图片本就稀少的缺陷检测领域，剔除这类图片或是放弃标注其中的这类标注极有可能降低算法模型对这类缺陷的泛化认知，从而增加缺陷的漏检率，导致算法模型无法满足实际需求。而凭借标注者经验来估计这类标注区域时，需要标注者对这类缺陷有非常准确的认知，否则算法模型可能因为标注的不准确而导致增加漏检率与误检率。而在某些极端情况下，专业的标注者自身都难以界定较为精确的标注区域。这极大地增加了实施像素级缺陷检测的难度。

因此，为了训练更为有效的模型，必须尽量合理使用这些人工标注困难的图片，以保证算法模型的训练效果，从而在维持缺陷误检率的情况下降低其漏检率。

参考文献：

CN109145713A-一种结合目标检测的小目标语义分割方法；

CN109255790A-一种弱监督语义分割的自动图像标注方法。

发明内容

本发明的目的在于提供一种基于目标检测信息生成缺陷区域的语义分割网络训练方法，该方法利用对缺陷图片的先验认知与目标检测框标注的尺度信息引导语义分割网络模型在训练时能较快收敛，且能较为准确地推断出缺陷信息；能有效地避开现有像素级别标注困难的问题，改用目标检测框标注信息实现语义分割网络训练。

为实现上述目的，本发明提供如下技术方案：

一种基于目标检测信息生成缺陷区域的语义分割网络训练方法，其特征在于：对图片样本中的缺陷标注矩形的目标检测框，并给出目标检测框对应的语义类别；在语义分割网络训练中，输入图片样本以及其对应的目标检测框和目标检测框对应的语义类别进行训练。

进一步地，所述语义分割网络训练包括：

S100、读入图片样本以及其对应的目标检测框和目标检测框对应的语义类别；

S200、将图片样本传入语义分割网络，前向推断计算获得Logit；

S300、利用目标检测框信息及Logit计算损失值；

S400、使用所得损失值计算梯度并更新网络权重；

S500、判断该网络模型是否达到训练迭代次数上限，若达到上限则终止训练，否则执行步骤S100。

进一步地，所述Logit的获得包括：获得语义分割网络的最终分割Logit输出与其对应的Score，分别提取各框内区域的Logit及所有框外区域的Logit。

进一步地，所述损失值计算包括：

计算各框内区域的损失值：

上式对框内区域的Logit与1做交叉熵求出各像素损失值，取其损失值最小的k₁个值的均值作为该框的Loss，c为Logit，H为交叉熵函数；

计算框外区域的损失值：

上式对框外区域的Logit与0做交叉熵求出各像素损失值，取其损失值最大的k₂个值，截取该k₂个损失值的m个最大值后取其k₂-m个值的均值作为该图像背景Loss，c为Logit，H为交叉熵函数；

计算总体损失值：

式中，c₁为前景系数，c₂为背景系数，n为框的个数。

进一步地，所述c₁取值0.75，c₂取值0.25。

与现有技术相比，本发明的有益效果如下：

(1)本发明的方法利用对缺陷图片的先验认知与目标检测框标注的尺度信息引导语义分割网络模型在训练时能较快收敛，且能较为准确地推断出缺陷信息；能有效地避开现有像素级别标注困难的问题，改用目标检测框标注信息实现语义分割网络训练。

(2)本发明实现逻辑简单，无需其他额外信息。

(3)本发明可以内嵌于UNet、DeepLabV3等多类主流全卷积网络框架，适用性广。

(4)本发明可以省去标注复杂Mask的人力成本。

(5)本发明不增加任何原有网络的推理成本。

附图说明

图1为本发明训练方法的流程图。

具体实施方式

下面将结合具体实施例对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于目标检测信息生成缺陷区域的语义分割网络训练方法，对图片样本中的缺陷标注矩形的目标检测框，并给出目标检测框对应的语义类别；在语义分割网络训练中，输入图片样本以及其对应的目标检测框和目标检测框对应的语义类别进行训练。具体训练如下。

如图1所示，所述语义分割网络训练包括：

S100、读入图片样本以及其对应的目标检测框和目标检测框对应的语义类别。

S200、将图片样本传入语义分割网络，前向推断计算获得Logit。先获得语义分割网络的最终分割Logit输出与其对应的Score，再分别提取各框内区域的Logit及所有框外区域的Logit。

S300、利用目标检测框信息及Logit计算损失值。

(1)计算各框内区域的损失值：

假定各框内推理出的像素必然存在对应类别的前景像素，其他均为相对该类别而言的背景像素。那么其中各像素值位置上前景像素的损失值均应很小，而背景像素的损失值均应很大。因此取框内所有损失值最小的k1个值的均值作为该框对应的损失值。

上式对框内区域的Logit与1做交叉熵求出各像素损失值，取其损失值最小的k₁个值的均值作为该框的Loss(k₁的大小与框的大小成正比)，c为Logit，H为交叉熵函数。

(2)计算框外区域的损失值：

假设所有框外部分的所有像素应当都是背景，不应当被分类到任何前景类别，所有像素被分为背景的损失值应当向0靠近。但实际情况中，由于存在部分不明显小缺陷漏标的情况，因此，对该部分损失值进行降序排列后，需忽略其m个最大值。另外，由于大部分像素的损失值均非常小，会造成背景Loss太小难以训练的情况，因此需对降序排列第m到k₂个损失值部分取均值，作为背景Loss。

上式对框外区域的Logit与0做交叉熵求出各像素损失值，取其损失值最大的k₂个值(k₂建议值为100)，截取该k₂个损失值的m个最大值后取其k₂-m个值的均值作为该图像背景Loss，c为Logit，H为交叉熵函数。

计算总体损失值：

上式中，c₁为前景系数(优选取值0.75)，c₂为背景系数(优选取值0.25)，n为框的个数。

S400、使用所得损失值计算梯度并更新网络权重。

所述损失值计算包括：

本方案可内嵌于UNet、DeepLabV3等多类全卷积网络结构框架。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于目标检测信息生成缺陷区域的语义分割网络训练方法，其特征在于：对图片样本中的缺陷标注矩形的目标检测框，并给出目标检测框对应的语义类别；在语义分割网络训练中，输入图片样本以及其对应的目标检测框和目标检测框对应的语义类别进行训练。

2.根据权利要求1所述的基于目标检测信息生成缺陷区域的语义分割网络训练方法，其特征在于：所述语义分割网络训练包括：

S300、利用目标检测框信息及Logit计算损失值；

S400、使用所得损失值计算梯度并更新网络权重；

3.根据权利要求2所述的基于目标检测信息生成缺陷区域的语义分割网络训练方法，其特征在于：所述Logit的获得包括：获得语义分割网络的最终分割Logit输出与其对应的Score，分别提取各框内区域的Logit及所有框外区域的Logit。

4.根据权利要求3所述的基于目标检测信息生成缺陷区域的语义分割网络训练方法，其特征在于：所述损失值计算包括：

计算各框内区域的损失值：

计算框外区域的损失值：

计算总体损失值：

式中，c₁为前景系数，c₂为背景系数，n为框的个数。

5.根据权利要求4所述的基于目标检测信息生成缺陷区域的语义分割网络训练方法，其特征在于：所述c₁取值0.75，c₂取值0.25。