CN110060247B - 应对样本标注错误的鲁棒深度神经网络学习方法 - Google Patents

应对样本标注错误的鲁棒深度神经网络学习方法 Download PDF

Info

Publication number
CN110060247B
CN110060247B CN201910312780.6A CN201910312780A CN110060247B CN 110060247 B CN110060247 B CN 110060247B CN 201910312780 A CN201910312780 A CN 201910312780A CN 110060247 B CN110060247 B CN 110060247B
Authority
CN
China
Prior art keywords
models
training
model
marking
errors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910312780.6A
Other languages
English (en)
Other versions
CN110060247A (zh
Inventor
何志权
许琦
何志海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deepvision Creative Technology Ltd
Original Assignee
Shenzhen Deepvision Creative Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deepvision Creative Technology Ltd filed Critical Shenzhen Deepvision Creative Technology Ltd
Priority to CN201910312780.6A priority Critical patent/CN110060247B/zh
Publication of CN110060247A publication Critical patent/CN110060247A/zh
Application granted granted Critical
Publication of CN110060247B publication Critical patent/CN110060247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种应对样本标注错误的鲁棒深度神经网络学习方法,包括:步骤1,基于图像分析对标注进行清洗;步骤2,利用清洗后的图片标注训练模型,在训练模型的过程中,每多个轮次输出一个模型,利用这些模型分别预测所述图片标注,根据这些模型预测的结果,判断出标注是否有错误,发生错误的标注将不参与下一轮的模型训练;步骤3,通过比较前后两轮得到的模型之间的差异,判断是否继续迭代,如果是则继续迭代,否则退出循环。本发明能自动的识别互相冲突的数据标注,并在模型训练过程中规避这些标注,提升了模型训练的鲁棒性。

Description

应对样本标注错误的鲁棒深度神经网络学习方法
技术领域
本发明涉及缺陷检测技术领域,特别涉及一种应对样本标注错误的鲁棒深度神经网络学习方法。
背景技术
当前,深度学习在学术界和工业界得到了日益广泛的应用。但是,深度学习模型的训练需要大量的标注数据。而人为的数据标注容易受到人的主观性的影响,不同的人标注的数据,互相不一致,甚至存在严重的相互冲突。这种人为引入的数据标注干扰,积累到一定的数量,就会严重影响模型的训练效果。数据标注的质量对模型的训练非常关键。人为的检查清洗这些标注数据因为数据量太大而变得不可能。当前的深度学习模型训练方法中,尚没有一种有效的方法能够智能的识别这些相互冲突的标注。本发明旨在解决工业表面缺陷检测中存在的这个问题,提出了能应对样本标注错误的鲁棒深度神经网络学习方法。
发明内容
本发明提供了一种应对样本标注错误的鲁棒深度神经网络学习方法,以解决至少一个上述技术问题。
为解决上述问题,作为本发明的一个方面,提供了一种应对样本标注错误的鲁棒深度神经网络学习方法,包括:步骤1,基于图像分析对标注进行清洗;步骤2,利用清洗后的图片标注训练模型,在训练模型的过程中,每多个轮次输出一个模型,利用这些模型分别预测所述图片标注,根据这些模型预测的结果,判断出标注是否有错误,发生错误的标注将不参与下一轮的模型训练;步骤3,通过比较前后两轮得到的模型之间的差异,判断是否继续迭代,如果是则继续迭代,否则退出循环。
优选地,步骤1包括:对每一个标注的像素点利用其周围4x4领域内像素计算其图像特征,f=ω1δ+ω2d+ω3LBP,其中三项分别为领域内像素灰度值的方差δ、梯度d、LBP特征、ω为加权系数;设定一个阈值T,当f>T1时,表明该像素可以标注为缺陷。
优选地,根据这些模型预测的结果,判断出标注是否有错误包括:对某个缺陷标注di,N个模型分别有N个结果,模型给出的结果分别为fi1,fi2,...,fiN,利用这N个得分,计算其方差Vi=std(fi1,fi2,...,fiN),当vi>T2时,表明该标注可能有错误,其中T2是预设的阈值。
本发明能自动的识别互相冲突的数据标注,并在模型训练过程中规避这些标注,提升了模型训练的鲁棒性。
附图说明
图1示意性地示出了本发明的流程图;
图2示意性地示出了缺陷标注示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明的目的是为了解决标注数据过程中由于不同人标注数据之间的差异而引入的噪声对模型训练的影响。本方案的基本思路有两点:1)分析原始图像,试图通过图像分析找到缺陷存在的证据。如果图像上没有特征,而被标注了,则说明标注可能有问题。2)通过模型的训练过程来检查标注的正确性。利用训练过程中的多个模型对标注部分进行评估。如果多个模型对某个标注的评估是一致的,那么说明该标注是正确的。基于这两点,我们能识别标注可能存在错误的地方,从而在训练过程中规避这些样本,达到提高训练效果的目的。
本发明的重点是识别标注数据中互相冲突的部分,基本的思想包括两个部分:1)通过分析原始的图像找到缺陷存在的证据。如果图像上没有任何特征,那么就不应该有标注。这种方法可以过滤到一些明显的标注错误。2)针对随机性的标注错误,表现为对同一类型的不同缺陷,标注各不一样,我们利用训练过程中产生的多个模型来评估这些标注。基于的假设是标注的不一致会导致模型训练的不稳定。因此,我们的方法如图1所示(其中a为原始图片,b为标注后的图片),包含有如下的步骤:
步骤1:基于图像分析的标注清洗。如图2所示,对每一个标注的像素点(红色的点),我们利用其周围4x4领域内像素计算其图像特征,f=ω_1δ+ω_2d+ω_3LBP,其中三项分别为领域内像素灰度值的方差,梯度,LBP(local binary pattern)特征,ω为加权系数。设定一个阈值T,当f>T_1时,表明该像素可以标注为缺陷。
步骤2:模型训练和评估标注。利用清洗后的图片标注,假设该集合为S,我们就可以开始训练模型。在模型训练过程中,每5个轮次(epoch)输出一个模型。假设一次训练过程中,我们得到N个模型M_1,M_(2,..,)M_N,用这N个模型分别去预测S中所有的图片。对某个缺陷标注d_i,N个模型分别有N个结果。模型给出的结果分别为f_i1,f_i2,..,f_iN,利用这N个得分,计算其方差v_i=std(f_i1,f_i2,..,f_iN),当v_i>T_2时,表明该标注可能有错误,其中T_2是预设的阈值。有错误的标注将不参与下一轮的模型训练。
步骤3:评估模型是否稳定。图1中的模型训练和评估标注不断的重复,这一轮得到的模型和上一轮得到的模型是否存在明显的差异。如果是,则继续迭代,否则,退出循环。
上述的方法,能自动的识别互相冲突的数据标注,并在模型训练过程中规避这些标注,提升了模型训练的鲁棒性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种应对样本标注错误的鲁棒深度神经网络学习方法,其特征在于,包括:
步骤1,基于图像分析对标注进行清洗;对每一个标注的像素点利用其周围4x4领域内像素计算其图像特征,f=ω1δ+ω2d+ω3LBP,其中三项分别为领域内像素灰度值的方差δ、梯度d、LBP特征、ω为加权系数;设定一个阈值T,当f>T1时,表明该像素可以标注为缺陷;
步骤2,利用清洗后的图片标注训练模型,在训练模型的过程中,每多个轮次输出一个模型,利用这些模型分别预测所述图片标注,根据这些模型预测的结果,判断出标注是否有错误,发生错误的标注将不参与下一轮的模型训练;
步骤3,通过比较前后两轮得到的模型之间的差异,判断是否继续迭代,如果是则继续迭代,否则退出循环;
其中,根据这些模型预测的结果,判断出标注是否有错误包括:
对某个缺陷标注di,N个模型分别有N个结果,模型给出的结果分别为fi1,fi2,..,fiN,利用这N个得分,计算其方差vi=std(fi1,fi2,..,fiN),当vi>T2时,表明该标注有错误,其中T2是预设的阈值。
CN201910312780.6A 2019-04-18 2019-04-18 应对样本标注错误的鲁棒深度神经网络学习方法 Active CN110060247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910312780.6A CN110060247B (zh) 2019-04-18 2019-04-18 应对样本标注错误的鲁棒深度神经网络学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910312780.6A CN110060247B (zh) 2019-04-18 2019-04-18 应对样本标注错误的鲁棒深度神经网络学习方法

Publications (2)

Publication Number Publication Date
CN110060247A CN110060247A (zh) 2019-07-26
CN110060247B true CN110060247B (zh) 2022-11-25

Family

ID=67319385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312780.6A Active CN110060247B (zh) 2019-04-18 2019-04-18 应对样本标注错误的鲁棒深度神经网络学习方法

Country Status (1)

Country Link
CN (1) CN110060247B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457304A (zh) * 2019-08-08 2019-11-15 北京百度网讯科技有限公司 数据清洗方法、装置、电子设备及可读存储介质
CN113470031B (zh) * 2021-09-03 2021-12-03 北京字节跳动网络技术有限公司 息肉分型方法、模型训练方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008052226A2 (en) * 2006-10-20 2008-05-02 Microsoft Corporation Progressive cut: interactive object segmentation
CN103971415A (zh) * 2014-05-23 2014-08-06 南京大学 一种三维模型构件的在线标注方法
CN105277567A (zh) * 2015-05-21 2016-01-27 南通大学 一种织物瑕疵检测方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296018B2 (en) * 2004-01-02 2007-11-13 International Business Machines Corporation Resource-light method and apparatus for outlier detection
JP2006285627A (ja) * 2005-03-31 2006-10-19 Hokkaido Univ 3次元モデルの類似検索装置及び方法
JP4603512B2 (ja) * 2006-06-16 2010-12-22 独立行政法人産業技術総合研究所 異常領域検出装置および異常領域検出方法
US8527445B2 (en) * 2010-12-02 2013-09-03 Pukoa Scientific, Llc Apparatus, system, and method for object detection and identification
CN103593852A (zh) * 2013-11-29 2014-02-19 中国科学院光电研究院 基于同质图斑的高光谱影像异常探测方法
CN104574353B (zh) * 2014-09-12 2017-08-01 苏州大学 基于视觉显著性的表面缺陷判定方法
CN104616031B (zh) * 2015-01-22 2018-06-12 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
CN104866862B (zh) * 2015-04-27 2017-12-22 中南大学 一种带钢表面面积型缺陷识别分类的方法
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法
CN106485528A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 检测数据的方法和装置
CN105260738B (zh) * 2015-09-15 2019-03-19 武汉大学 基于主动学习的高分辨率遥感影像变化检测方法及系统
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN106056103A (zh) * 2016-07-05 2016-10-26 长春工业大学 一种基于鲁棒的正则化编码表情识别方法及数据监测系统
CN108629358B (zh) * 2017-03-23 2020-12-25 北京嘀嘀无限科技发展有限公司 对象类别的预测方法及装置
CN107123114A (zh) * 2017-04-21 2017-09-01 佛山市南海区广工大数控装备协同创新研究院 一种基于机器学习的布匹缺陷检测方法及装置
CN108171335A (zh) * 2017-12-06 2018-06-15 东软集团股份有限公司 建模数据的选取方法、装置、存储介质及电子设备
CN107966454A (zh) * 2017-12-25 2018-04-27 陕西科技大学 一种基于fpga的端塞缺陷检测装置及检测方法
US10915631B2 (en) * 2017-12-28 2021-02-09 Intel Corporation Deep learning on execution trace data for exploit detection
CN108280452A (zh) * 2018-01-26 2018-07-13 深圳市唯特视科技有限公司 一种基于并行网络构架的图像语义标签纠错方法
CN108464297B (zh) * 2018-03-26 2021-05-25 江苏美的清洁电器股份有限公司 一种织物除螨方法和除螨仪
CN108805188B (zh) * 2018-05-29 2020-08-21 徐州工程学院 一种基于特征重标定生成对抗网络的图像分类方法
CN108959534A (zh) * 2018-06-29 2018-12-07 北京市商汤科技开发有限公司 基于模型共识的无标注数据应用方法和装置、设备、介质
CN109145918B (zh) * 2018-08-17 2021-09-10 上海非夕机器人科技有限公司 图像分割标注方法及设备
CN109543713B (zh) * 2018-10-16 2021-03-26 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109583325B (zh) * 2018-11-12 2023-06-27 平安科技(深圳)有限公司 人脸样本图片标注方法、装置、计算机设备及存储介质
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008052226A2 (en) * 2006-10-20 2008-05-02 Microsoft Corporation Progressive cut: interactive object segmentation
CN103971415A (zh) * 2014-05-23 2014-08-06 南京大学 一种三维模型构件的在线标注方法
CN105277567A (zh) * 2015-05-21 2016-01-27 南通大学 一种织物瑕疵检测方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Effective Label Noise Model for DNN Text Classification;Ishan Jindal et al;《arXiv》;20190318;1-10页 *
Ensemble Methods for Label Noise Detection Under the Noisy at Random Model;Kecia G. de Moura et al;《2018 7th Brazilian Conference on Intelligent Systems (BRACIS)》;20181216;474-479页 *
互补学习:一种面向图像应用和噪声标注的深度神经网络训练方法;王锐等;《计算机研究与发展》;20180126;第54卷(第12期);2649-2659页 *
文本分类中基于概率主题模型的噪声处理方法;林洋港等;《计算机工程与科学》;20100831;第32卷(第7期);89-92页 *

Also Published As

Publication number Publication date
CN110060247A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110648305B (zh) 工业图像检测方法、系统与计算机可读记录介质
KR20190075707A (ko) 딥러닝을 이용한 양품 선별 방법
CN110060247B (zh) 应对样本标注错误的鲁棒深度神经网络学习方法
JP2006162583A (ja) ひび割れ検出方法
CN111353983A (zh) 缺陷检测识别方法、装置、计算机可读介质及电子设备
JP6811217B2 (ja) コンクリート表面上のひび割れ特定方法、ひび割れ特定装置、ひび割れ特定システム及びプログラム
CN110458791B (zh) 质量缺陷检测方法和检测设备
CN114945938A (zh) 缺陷实际面积的检测方法、显示面板的检测方法及装置
CN114266743A (zh) 基于hsv和cnn的fpc缺陷检测方法、系统及存储介质
CN117152119A (zh) 一种基于图像处理的型材瑕疵视觉检测方法
JP2008267943A (ja) ひび割れ検出方法
CN116109812A (zh) 一种基于非极大值抑制阈值优化的目标检测方法
CN113469293B (zh) 面板阵列短路检测方法、装置、电子设备及存储介质
CN115082444A (zh) 一种基于图像处理的铜管焊缝缺陷检测方法及系统
CN110751170A (zh) 面板质量检测方法、系统、终端设备及计算机可读介质
CN110852318A (zh) 一种排水管道缺陷精准定位方法及系统
CN108062821B (zh) 边缘检测方法及验钞设备
CN116542963A (zh) 一种基于机器学习的浮法玻璃缺陷检测系统及检测方法
JP7415286B2 (ja) カラーフィルタ検査装置、検査装置、カラーフィルタ検査方法および検査方法
CN111415326A (zh) 一种用于铁路接触网螺栓异常状态的检测方法及系统
CN111860500A (zh) 一种鞋印磨损区域检测与描边方法
JP2021165909A (ja) 情報処理装置、情報処理装置の情報処理方法およびプログラム
CN116778269A (zh) 一种基于自编码器重构产品表面缺陷检测模型构建方法
CN116665174A (zh) 面向视觉感知算法的危险测试用例生成方法及相关设备
CN115546108A (zh) 基于边云协同和ar的汽车轮胎外观质量智能检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant