CN110060247B

CN110060247B - 应对样本标注错误的鲁棒深度神经网络学习方法

Info

Publication number: CN110060247B
Application number: CN201910312780.6A
Authority: CN
Inventors: 何志权; 许琦; 何志海
Original assignee: Shenzhen Deepvision Creative Technology Ltd
Current assignee: Shenzhen Deepvision Creative Technology Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2022-11-25
Anticipated expiration: 2039-04-18
Also published as: CN110060247A

Abstract

本发明提供了一种应对样本标注错误的鲁棒深度神经网络学习方法，包括：步骤1，基于图像分析对标注进行清洗；步骤2，利用清洗后的图片标注训练模型，在训练模型的过程中，每多个轮次输出一个模型，利用这些模型分别预测所述图片标注，根据这些模型预测的结果，判断出标注是否有错误，发生错误的标注将不参与下一轮的模型训练；步骤3，通过比较前后两轮得到的模型之间的差异，判断是否继续迭代，如果是则继续迭代，否则退出循环。本发明能自动的识别互相冲突的数据标注，并在模型训练过程中规避这些标注，提升了模型训练的鲁棒性。

Description

应对样本标注错误的鲁棒深度神经网络学习方法

技术领域

本发明涉及缺陷检测技术领域，特别涉及一种应对样本标注错误的鲁棒深度神经网络学习方法。

背景技术

当前，深度学习在学术界和工业界得到了日益广泛的应用。但是，深度学习模型的训练需要大量的标注数据。而人为的数据标注容易受到人的主观性的影响，不同的人标注的数据，互相不一致，甚至存在严重的相互冲突。这种人为引入的数据标注干扰，积累到一定的数量，就会严重影响模型的训练效果。数据标注的质量对模型的训练非常关键。人为的检查清洗这些标注数据因为数据量太大而变得不可能。当前的深度学习模型训练方法中，尚没有一种有效的方法能够智能的识别这些相互冲突的标注。本发明旨在解决工业表面缺陷检测中存在的这个问题，提出了能应对样本标注错误的鲁棒深度神经网络学习方法。

发明内容

本发明提供了一种应对样本标注错误的鲁棒深度神经网络学习方法，以解决至少一个上述技术问题。

为解决上述问题，作为本发明的一个方面，提供了一种应对样本标注错误的鲁棒深度神经网络学习方法，包括：步骤1，基于图像分析对标注进行清洗；步骤2，利用清洗后的图片标注训练模型，在训练模型的过程中，每多个轮次输出一个模型，利用这些模型分别预测所述图片标注，根据这些模型预测的结果，判断出标注是否有错误，发生错误的标注将不参与下一轮的模型训练；步骤3，通过比较前后两轮得到的模型之间的差异，判断是否继续迭代，如果是则继续迭代，否则退出循环。

优选地，步骤1包括：对每一个标注的像素点利用其周围4x4领域内像素计算其图像特征，f＝ω₁δ+ω₂d+ω₃LBP，其中三项分别为领域内像素灰度值的方差δ、梯度d、LBP特征、ω为加权系数；设定一个阈值T，当f＞T₁时，表明该像素可以标注为缺陷。

优选地，根据这些模型预测的结果，判断出标注是否有错误包括：对某个缺陷标注d_i,N个模型分别有N个结果，模型给出的结果分别为f_i1，f_i2，...，f_iN，利用这N个得分，计算其方差V_i＝std(f_i1，f_i2，...，f_iN)，当v_i＞T₂时，表明该标注可能有错误，其中T₂是预设的阈值。

本发明能自动的识别互相冲突的数据标注，并在模型训练过程中规避这些标注，提升了模型训练的鲁棒性。

附图说明

图1示意性地示出了本发明的流程图；

图2示意性地示出了缺陷标注示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

本发明的目的是为了解决标注数据过程中由于不同人标注数据之间的差异而引入的噪声对模型训练的影响。本方案的基本思路有两点：1)分析原始图像，试图通过图像分析找到缺陷存在的证据。如果图像上没有特征，而被标注了，则说明标注可能有问题。2)通过模型的训练过程来检查标注的正确性。利用训练过程中的多个模型对标注部分进行评估。如果多个模型对某个标注的评估是一致的，那么说明该标注是正确的。基于这两点，我们能识别标注可能存在错误的地方，从而在训练过程中规避这些样本，达到提高训练效果的目的。

本发明的重点是识别标注数据中互相冲突的部分，基本的思想包括两个部分：1)通过分析原始的图像找到缺陷存在的证据。如果图像上没有任何特征，那么就不应该有标注。这种方法可以过滤到一些明显的标注错误。2)针对随机性的标注错误，表现为对同一类型的不同缺陷，标注各不一样，我们利用训练过程中产生的多个模型来评估这些标注。基于的假设是标注的不一致会导致模型训练的不稳定。因此，我们的方法如图1所示(其中a为原始图片，b为标注后的图片)，包含有如下的步骤：

步骤1：基于图像分析的标注清洗。如图2所示，对每一个标注的像素点(红色的点)，我们利用其周围4x4领域内像素计算其图像特征，f＝ω_1δ+ω_2d+ω_3LBP，其中三项分别为领域内像素灰度值的方差，梯度，LBP(local binary pattern)特征，ω为加权系数。设定一个阈值T，当f>T_1时，表明该像素可以标注为缺陷。

步骤2：模型训练和评估标注。利用清洗后的图片标注，假设该集合为S，我们就可以开始训练模型。在模型训练过程中，每5个轮次(epoch)输出一个模型。假设一次训练过程中，我们得到N个模型M_{_1},M_{_(2,..,)}M_{_N}，用这N个模型分别去预测S中所有的图片。对某个缺陷标注d_i,N个模型分别有N个结果。模型给出的结果分别为f_{_i1},f_{_i2},..,f_{_iN}，利用这N个得分，计算其方差v_{_i}＝std(f_{_i1},f_{_i2},..,f_{_iN})，当v_{_i}>T_{_2}时，表明该标注可能有错误，其中T_{_2}是预设的阈值。有错误的标注将不参与下一轮的模型训练。

步骤3：评估模型是否稳定。图1中的模型训练和评估标注不断的重复，这一轮得到的模型和上一轮得到的模型是否存在明显的差异。如果是，则继续迭代，否则，退出循环。

上述的方法，能自动的识别互相冲突的数据标注，并在模型训练过程中规避这些标注，提升了模型训练的鲁棒性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种应对样本标注错误的鲁棒深度神经网络学习方法，其特征在于，包括：

步骤1，基于图像分析对标注进行清洗；对每一个标注的像素点利用其周围4x4领域内像素计算其图像特征，f＝ω₁δ+ω₂d+ω₃LBP，其中三项分别为领域内像素灰度值的方差δ、梯度d、LBP特征、ω为加权系数；设定一个阈值T，当f＞T₁时，表明该像素可以标注为缺陷；

步骤2，利用清洗后的图片标注训练模型，在训练模型的过程中，每多个轮次输出一个模型，利用这些模型分别预测所述图片标注，根据这些模型预测的结果，判断出标注是否有错误，发生错误的标注将不参与下一轮的模型训练；

步骤3，通过比较前后两轮得到的模型之间的差异，判断是否继续迭代，如果是则继续迭代，否则退出循环；

其中，根据这些模型预测的结果，判断出标注是否有错误包括：

对某个缺陷标注d_i，N个模型分别有N个结果，模型给出的结果分别为f_i1，f_i2，..，f_iN，利用这N个得分，计算其方差v_i＝std(f_i1，f_i2，..，f_iN)，当v_i＞T₂时，表明该标注有错误，其中T₂是预设的阈值。