CN111382785A - 一种gan网络模型及实现样本自动清洗、辅助标记的方法 - Google Patents
一种gan网络模型及实现样本自动清洗、辅助标记的方法 Download PDFInfo
- Publication number
- CN111382785A CN111382785A CN202010141915.XA CN202010141915A CN111382785A CN 111382785 A CN111382785 A CN 111382785A CN 202010141915 A CN202010141915 A CN 202010141915A CN 111382785 A CN111382785 A CN 111382785A
- Authority
- CN
- China
- Prior art keywords
- sample
- network model
- samples
- gan
- gan network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于面板自动光学检测技术领域,公开了一种GAN网络模型及实现样本自动清洗、辅助标记的方法,提供的GAN网络模型包括依次连接的通过训练获得的生成器网络和判别器网络,生成器网络能根据输入样本图片得到重构样本图片以及残差图,判别器网络能够根据重构样本图片获得输入样本图片的异常评分。利用GAN网络模型,针对分类样本输出异常评分,针对检测样本或分割样本,根据残差图输出异常区域轮廓列表,实现样本的自动清洗;针对负样本,根据残差图输出异常区域边界框列表或异常区域轮廓列表,对负样本进行辅助标记。本发明解决了现有技术中人工标记面板样本的成本较高、容易出现漏标或误标、处理时间较长的问题。
Description
技术领域
本发明涉及面板自动光学检测技术领域,尤其涉及一种GAN网络模型及实现样本自动清洗、辅助标记的方法。
背景技术
自动光学检查系统(Automated Optical Inspection,AOI)系统在工业中应用十分广泛,它可以代替人来完成一系列具有高度重复性和有一定风险的工作,具有速度快,精度高,可靠性好,无接触无损,性价比高和功能容易扩充等特点,大大提高了生成效率。
在显示面板制造流水线中的AOI系统中有一个面板缺陷检测系统,其检测精准度对厂商制造的面板质量有着极为重要的保证。缺陷检测算法作为面板缺陷检测系统的核心,其检测效果直接决定了客户的满意度。
近年来基于深度学习的检测算法逐渐被应用在面板的缺陷检测上并且取得了较传统计算机视觉算法更加准确、更加鲁棒、可调参数更少、自动化程度更高的效果。然而,目前基于深度学习的算法的一个最基本的先决条件就是数据。对于一般的缺陷检测网络,例如利用常见分类网络进行面板缺陷分类(Google Inception系列、Resnet系列、Densenet、mobilenet、NASnet等),或者检测网络进行更精细的缺陷检测(常见的RCNN系列、YOLO系列等),或者更精确地分割网络(例如DeepLab系列)等,它们都是基于大量标记的样本进行监督式学习,其对样本需求的数量较大,且对样本标记质量要求较高,尤其是对于检测和分割类网络的标记样本。
现有的技术方案一般是基于人工手动标记上述分类检测分割类网络所需要的训练数据。但是,人工标记具有以下弊端:(1)需要耗费大量的人力成本,让数据的成本进一步上升;(2)人工标记免不了会出现各种漏标和误标,且人长时间重复作业会出现各种疲劳,进一步增加了错误发生的概率;(3)若是模型的训练方式为sequential training(即先训练一批次样本,然后等到一批新样本后再次继续在新样本训练,依次按序列方式持续训练。采取此训练方式的原因是实际中不可能一次将所有样本集齐,新的样本会在后续不断产生),若新加入的样本仍然为人工标记,对于此模型的迭代周期而言,人工标记无疑会成为最大的瓶颈,不利于其快速迭代;(4)由于在显示面板业界,面板的良品率是非常高的,即大量样本都是正常样本,缺陷样本占的比例并不大。进行训练样本准备首先还得从这些大量混杂样本中挑出一些缺陷样本,其采样时间进一步加大,且同样容易出现各种人为错误。
由上述四个人工标记的弊端可知,对于显示面板工业样本的标记,急需一种更高效率的批量自动标记方式。
发明内容
本申请实施例通过提供一种GAN网络模型及实现样本自动清洗、辅助标记的方法,解决了现有技术中人工标记面板样本的成本较高、容易出现漏标或误标、处理时间较长的问题。
本申请实施例提供一种GAN网络模型,所述GAN网络模型包括依次连接的通过训练获得的生成器网络和通过训练获得的判别器网络;
所述生成器网络采用Unet结构;所述生成器网络用于根据输入样本图片得到重构样本图片以及残差图;
所述判别器网络用于根据重构样本图片获得输入样本图片的异常评分;
其中,所述异常评分由所述生成器网络的特征损失和残差损失构成。
优选的,所述生成器网络的输入图像经过N层(N>=1)下采样、N层(N>=1)上采样处理后得到重构图像;所述下采样包括三个子处理过程,依次为LeakyRelu层、卷积层、批归一化层;所述上采样包括三个子处理过程,依次为Relu层、转置卷积层、批归一化层。
优选的,所述判别器网络的输入图像经过N层(N>=1)下采样、特征提取、卷积处理后得到输出得分、输出特征;所述下采样、所述特征提取均包括三个子处理过程,依次为LeakyRelu层、卷积层、批归一化层;所述卷积处理包括两个子处理过程,依次为卷积层、sigmoid层。
优选的,在训练生成器网络和判别器网络时,当所述GAN网络模型用于分类数据集的自动清洗,则选择与需要清洗的分类数据大小相同的样本作为训练样本去训练生成器网络和判别器网络。
优选的,在训练生成器网络和判别器网络时,当所述GAN网络模型用于检测数据集或分割数据的自动清洗,或者,用于检测数据集或分割数据的辅助标记,则选择与对检测数据或分割数据进行分割之后的子区域大小相同的样本作为训练样本去训练生成器网络和判别器网络。
优选的,所述残差损失为所述重构样本图片和所述输入样本图像的像素值之差的平均值,所述特征损失由真实特征向量和虚假特征向量得到。
本申请实施例提供一种利用上述GAN网络模型实现样本自动清洗的方法,包括以下步骤:
步骤1、将待清洗的分类数据集输入至所述GAN网络模型中;所述分类数据集包括正样本、负样本混杂的原始分类样本;
步骤2、所述GAN网络模型针对每一个样本输出一个异常评分;
步骤3、针对每一个样本,若所述异常评分小于预设的分类阈值,则判定样本为正样本;否则,判定为负样本。
本申请实施例提供一种利用上述GAN网络模型实现样本自动清洗的方法,包括以下步骤:
步骤1、针对待清洗的检测数据集或分割数据集中的每一个样本,将样本划分为多个子区域,所有子区域作为一个批处理同时输入至与所述子区域大小匹配的所述GAN网络模型中;所述检测数据集包括正样本、负样本混杂的原始检测样本,所述分割数据集包括正样本、负样本混杂的原始分割样本;
步骤2、针对每一个样本,所述GAN网络模型根据残差图输出一个异常区域轮廓列表;
步骤3、针对每一个样本,若所述异常区域轮廓列表为空,则判定样本为正样本;否则,判定为负样本。
本申请实施例提供一种利用上述GAN网络模型实现样本辅助标记的方法,包括以下步骤:
步骤1、针对待标记的负样本,将负样本划分为多个子区域,所有子区域作为一个批处理同时输入至与所述子区域大小匹配的所述GAN网络模型中;
步骤2、针对所述负样本,所述GAN网络模型根据残差图输出异常区域边界框列表或异常区域轮廓列表;
步骤3、根据所述异常区域边界框列表或所述异常区域轮廓列表对所述负样本进行辅助标记。
优选的,所述GAN网络模型根据残差图输出异常区域边界框列表或异常区域轮廓列表包括:
所述GAN网络模型对所述负样本对应的残差图进行闭运算、异常区域轮廓提取、轮廓过滤处理后,获得所述异常区域边界框列表或异常区域轮廓列表。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本申请实施例中,提供的GAN网络模型包括依次连接的通过训练获得的生成器网络和通过训练获得的判别器网络,生成器网络能根据输入样本图片得到重构样本图片以及残差图,判别器网络能够根据重构样本图片获得输入样本图片的异常评分。利用GAN网络模型针对每一个分类样本输出一个异常评分,根据异常评分可以判定分类样本属于正样本还是负样本,实现样本的自动清洗。利用GAN网络模型针对每一个检测样本或分割样本,根据残差图输出一个异常区域轮廓列表,根据异常区域轮廓列表是否为空,判断检测样本或分割样本属于正样本还是负样本,实现样本的自动清洗。利用GAN网络模型针对每一个负样本,根据残差图输出一个异常区域边界框列表或异常区域轮廓列表,根据异常区域边界框列表或异常区域轮廓列表对负样本进行辅助标记。即利用本发明提供的GAN网络模型还可以对样本进行自动清洗、辅助标记,能够极大地降低在显示面板数据集进行手工标记投入的人力和时间,降低了数据的成本,极大提高了数据清洗和标记的效率。
附图说明
为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种GAN网络模型中生成器网络的示意图;
图2为本发明实施例提供的一种GAN网络模型中判别器网络的示意图;
图3为本发明实施例提供的一种GAN网络模型对抗性训练的框架示意图;
图4为本发明实施例提供的一种GAN网络模型的框架示意图;
图5为利用本发明实施例提供的一种GAN网络模型对分类数据集进行自动清洗的流程示意图;
图6为利用本发明实施例提供的一种GAN网络模型对检测数据集或分割数据集进行自动清洗、辅助标记的流程示意图;
图7为分类阈值的确定曲线图;
图8为利用本发明实施例提供的一种GAN网络模型对分类数据集进行清洗时将分类数据集中的样本判定为负样本的示意图;
图9为利用本发明实施例提供的一种GAN网络模型进行辅助标记时针对检测数据集中的负样本自动标记出缺陷区域的示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
本实施例提供了一种GAN网络模型,包括:依次连接的通过训练获得的生成器网络和通过训练获得的判别器网络;所述生成器网络用于根据输入样本图片得到重构样本图片以及残差图;所述判别器网络用于根据重构样本图片获得输入样本图片的异常评分,所述异常评分由所述生成器网络的特征损失和残差损失构成。
其中,所述生成器网络采用Unet结构,输入图像经过N层(N>=1)下采样、N层(N>=1)上采样处理后得到重构图像;所述下采样包括三个子处理过程,依次为LeakyRelu层、卷积层、批归一化层;所述上采样包括三个子处理过程,依次为Relu层、转置卷积层、批归一化层。
所述判别器网络的输入图像经过N层(N>=1)下采样、特征提取、卷积处理后得到输出得分、输出特征;所述下采样、所述特征提取均包括三个子处理过程,依次为LeakyRelu层、卷积层、批归一化层;所述卷积处理包括两个子处理过程,依次为卷积层、sigmoid层。
其中,在训练生成器网络和判别器网络时,当所述GAN网络模型用于分类数据集的自动清洗,则选择与需要清洗的分类数据大小相同的样本作为训练样本去训练生成器网络和判别器网络。
在训练生成器网络和判别器网络时,当所述GAN网络模型用于检测数据集或分割数据的自动清洗,或者,用于检测数据集或分割数据的辅助标记,则选择与对检测数据或分割数据进行分割之后的子区域大小相同的样本作为训练样本去训练生成器网络和判别器网络。
所述残差损失为所述重构样本图片和所述输入样本图像的像素值之差的平均值,所述特征损失由真实特征向量和虚假特征向量得到。
实施例2:
实施例2为利用实施例1提供的GAN网络模型实现样本自动清洗一种方法,针对分类数据集,分类数据集包括正样本、负样本混杂的原始分类样本;分类样本指用于训练分类网络的样本,样本的自动清洗包括以下步骤:
步骤1、将待清洗的分类数据集输入至所述GAN网络模型中;所述分类数据集包括正样本、负样本混杂的原始分类样本。
步骤2、所述GAN网络模型针对每一个样本输出一个异常评分。
具体的,所述异常评分满足以下公式:
PatchScore=weightres_score·GLossres+weightfeat_score·GLossfeat
其中,PatchScore表示异常评分,GLossres表示生成器的残差损失,GLossfeat表示生成器的特征损失,weightres_score表示残差损失在异常得分中的比重,weightfeat_score表示特征损失在异常得分中的比重。
步骤3、针对每一个样本,若所述异常评分小于预设的分类阈值,则判定样本为正样本;否则,判定为负样本。
实施例3:
实施例3为利用实施例1提供的GAN网络模型实现样本自动清洗的一种方法,针对检测数据集或分割数据集,检测数据集包括正样本、负样本混杂的原始检测样本,所述分割数据集包括正样本、负样本混杂的原始分割样本;检测样本指用于训练检测网络的样本,分割样本指用于训练分割网络的样本,检测样本或分割样本的自动清洗包括以下步骤:
步骤1、针对待清洗的检测数据集或分割数据集中的每一个样本,将样本划分为多个子区域,所有子区域作为一个批处理同时输入至与所述子区域大小匹配的所述GAN网络模型中;所述检测数据集包括正样本、负样本混杂的原始检测样本,所述分割数据集包括正样本、负样本混杂的原始分割样本。
步骤2、针对每一个样本,所述GAN网络模型根据残差图输出一个异常区域轮廓列表。
步骤3、针对每一个样本,若所述异常区域轮廓列表为空,则判定样本为正样本;否则,判定为负样本。
实施例4:
实施例4为利用实施例1提供的GAN网络模型实现样本辅助标记的方法,针对检测数据集。
具体的,针对经过实施例3的自动清洗后得到的检测负样本,或者其他途径得到的检测负样本,检测负样本的辅助标记方法包括以下步骤:
步骤1、针对待标记的检测负样本,将检测负样本划分为多个子区域,所有子区域作为一个批处理同时输入至与所述子区域大小匹配的所述GAN网络模型中。
步骤2、针对所述检测负样本,所述GAN网络模型根据残差图输出异常区域边界框列表。
步骤3、根据所述异常区域边界框列表对所述检测负样本进行辅助标记。
实施例5:
实施例5为利用实施例1提供的GAN网络模型实现样本辅助标记的方法,针对分割数据集。
具体的,针对经过实施例3的自动清洗后得到的分割负样本,或者其他途径得到的分割负样本,分割负样本的辅助标记方法包括以下步骤:
步骤1、针对待标记的分割负样本,将分割负样本划分为多个子区域,所有子区域作为一个批处理同时输入至与所述子区域大小匹配的所述GAN网络模型中。
步骤2、针对所述分割负样本,所述GAN网络模型根据残差图输出异常区域轮廓列表。
步骤3、根据所述异常区域轮廓列表对所述分割负样本进行辅助标记。
从上述实施例可以看出,本发明可应用于三种数据集的自动处理,包括:分类数据集、检测数据集、分割数据集。
其中,分类数据集的要求最低,只需要清洗,无需标注。检测数据集的要求中等,对于清洗后筛出的负样本,异常区域用矩形边界框画出。分割数据集的要求最高,对于清洗后筛出的负样本,异常区域用不规则多边形精确勾勒出。
下面对本发明做进一步的说明。
基于人工标记重复繁杂和显示面板业界样本高良品率的具体情境,本发明提出了一种自动数据清洗+自动辅助标记的算法,此算法基于数据清洗GAN网络在正样本上面进行无监督式训练,可以对分类检测分割数据集进行数据清洗并对检测和分割数据集进行一定程度的自动辅助标记。
本发明提出的数据清洗GAN网络,不是一种基于监督式学习的网络,而是完完全全只利用正样本进行无监督式学习的网络,不需要标记数据;本网络数据全部标记为正样本(就是所有训练样本都是正样本,都只有一个正样本标签,不像当前监督式学习那样需要正样本标签和各种负样本标签),而在良品率高的显示面板业界,正样本的获取成本较之负样本低得多。
本发明只是在验证模型的效果时利用了少量负样本,且负样本只简单标记了为负,除此之外并无更多人工标记工作。
本发明利用近年来兴起的GAN,只在工业显示面板正样本上面进行无监督式的对抗学习,利用学习得到的GAN的生成器和判别器对对样本进行数据清洗/辅助标记,其对应的生成器网络如图1所示,判别器网络如图2所示。
图1、图2的说明如下:
第一、生成器网络形状像U字型,被称为Unet。通过修改产生Unet网络结构的脚本,可以使得Unet网络层数随着正样本尺寸动态调整,适应了多个不同的数据清洗和辅助标记任务。具体而言,输入图像尺寸越大,网络下采样层数越多,相应上采样层数也越多。图1展示了当输入图像尺寸为512时Unet的深度为8层。
第二、下采样每层中有三个子处理过程,依次为LeakyRelu层、卷积层、批归一化层(BatchNorm),输入按照顺序依次进入这三个子层,其输出继而作为下一层输入继续进行前向传播。
第三、上采样也有三个子处理过程,依次为Relu层、转置卷积层、批归一化层(BatchNorm),输入按照顺序依次进入这三个子层,其输出继而作为下一层输入继续进行前向传播。
第四、不论是输入还是输出,其形式为一个四维张量(除开判别器最后的得分输出,这个为一个2维张量),以生成器输入图像进行说明:其第一维度表示一个批次处理的图片数量,图1为16,也即一次处理的图片数量为16;其第二维度表示每一张图片的通道数,例图为3,表示每张图片的通道数为3;其第三第四表示每张图片的高度和宽度尺寸,例图为512和512,表示每张图宽高都为512。其余图上标示的四维张量同理。
第五、对于生成器,其输出的张量为对输入图像的重构,称为重构图或伪造图;对于判别器,其输出的张量和其它不同,只有两个维度,第一维度仍然表示批处理图片的数量,例图为16;而第二个维度表示输入图像为正常的概率。
图1、图2只分别展示了生成器和判别器各自的网络结构,而图3展示了将两者以一定连接关系级联起来以便进行对抗性训练的整个网络系统结构图。
图3的说明如下:
(1)图3展示了一批次16张3通道512x512的图像进行前向传播过程,真实图片(图上的Real Image)首先经过生成器生成虚假图片(Fake Image,或者叫重构图片),然后此虚假图像作为判别器的输入,进行第二次前向传播,并输出假图片对应的虚假特征向量(FakeFeature)和虚假得分(FakeScore)。
(2)真实图片(Real Image)不仅要走上述的前向传播路径生成虚假图片的得分和特征,其同时还跳过生成器直接作为判别器的另一个输入得到真实图片的特征向量(RealFeature)和真实得分(Real Score)。至此整个网络的前向传播完毕。
(3)此网络采用的待最小化的损失函数(Loss Function)为Real Image、FakeImage、Real Score、Fake Score、Real Feature、Fake Feature的函数,其表达式如下所示,其中abs表示张量中每个元素取绝对值,cross_entropy表示求取交叉熵,mean表示求取每个元素平均值。
对于判别器需要使得DLosstotal尽量小,相关表达式如下:
DLossadv_real=mean(cross_entropy(RealScore,ScoreOnes)) (1)
DLossadv_fake=mean(cross_entropy(FakeScore,ScoreZeros)) (2)
DLosstotal=wadv·DLossadv_real+wadv·DLossadv_fake (3)对于生成器需要最小化GLosstotal,相关表达式如下:
GLossres=mean(abs(RealImage-FakeImagea)) (4)
GLossadv_fake=mean(cross_entropy(FakeScore,ScoreOnes)) (5)
GLossfest=mean((FakeFeature-RealFeature)^2) (6)
GLosstotal=wres·GLossres+wadv·GLossadv_fake+wfeat·GLossfeat (7)其中,参数wadv=wfeat=1,wres=50。
对于上述各项公式说明如下:
(1)G代表生成器(Generator),D代表判别器(Discriminator)
(2)生成器总损失函数由三部分构成,分别为残差损失(Residual Loss),对抗损失(Adversarial Loss)和特征损失(Feature Loss),每个损失有自己相应的权重系数。其中,残差损失为重构图像和真实图像像素值之差的平均值,对于只学习正样本的GAN,要最小化残差损失使得模型参数可以学习正常样本的特征和高维流形;对抗损失中的ScoreOnes表示元素全为1的向量,对抗损失的含义为生成器生产的重构图要让判别器觉得是真实的图片,也就是生成器要设法骗过判别器,因此必须要最小化相应的对抗损失;特征损失为判别器从真实图和重构图提取出的特征的L2 loss。同样,为了要骗过判别器,必须要最小化特征损失。
(3)判别器的总损失函数的构成其一为真实图对抗损失,其二为重构图对抗损失。判别器为了和生成器进行对抗,需要保证真实图被判定为真实,而由生成器产生的重构图被判定为虚假图片,因此要最小化两者的对抗损失。
当利用前向传播的结果计算出了生成器和判别器各自的损失后,下一步就利用损失进行反向传播,其反向传播有两个阶段:1、首先是要从判别器DLosstotal开始,利用函数优化方法(例如mini-batch SGD、Adam等),其中梯度是通过反向传播得出,同时在判别器训练其参数的过程中要保证生成器的模型参数始终处于冻结状态;判别器训练完了一个批次后,冻结判别器的模型参数,然后进行生成器总损失函数的优化,同样利用函数优化方法,对GLosstotal。至此完成一个轮次的训练。
在模型训练过程中,需要间隔一定训练次数让模型在validation set上进行一次验证,这只是一个前向传播的过程而不涉及反向传播。验证集合包含工业显示面板中的正样本、负样本(缺陷样本)。模型对每一个样本都有一个评分,该评分表明了样本的异常得分,其值越大样本和正常样本差距就越大,该得分数学表达式如下所示:
PatchScore=weightres_score·GLossres+weightfeat_score·GLossfeat (8)其中,weightfeat_score和weightres_score和分别表示特征损失和残差损失在总异常得分中的比重,具体的,可取weightres_score=0.9和weightfeat_score=0.1。
由此可知,若是PatchScore越高,对应的样本异常度越高,可以以此为依据,设定一个阈值,当PatchScore超过这个阈值threshold后,判定此样本为负样本,因此可以进行自动数据清洗。
在对模型进行验证过程中,利用当前的模型对验证集的正常和异常样本进行评分,并且求出这些得分对应的ROC(Receiver Operating Characteristic)曲线并求AUC(Area Under Curve,ROC曲线下与坐标轴围成的面积)值,作为此模型在这个训练节点的样本清洗表现,其AUC值越大说明其区分正样本和负样本的能力越强。最后需要选出AUC值最高的作为最终进行部署的模型。
图3的训练模块和图4的GAN网络模型为同一个网络在两个阶段不同表现形式。图3为训练阶段,这个网络要进行前向和反向传播。图4为推理阶段,这个网络参数被固定,只进行前向传播,固定的参数就是图3训练后得到的最终参数。上述说明了此GAN进行数据清洗的原理,此外,本发明提出的数据清洗GAN同时还可以利用残差图(原始图像和重构图像之差)像素值分布大致情况,并配合形态学操作和边缘检测算法,对缺陷区域进行大致地定位,即可以实现自动辅助标记功能,下面进行详细说明。
由上述原理叙述可知,本发明提出的基于无监督式学习的GAN可用于数据清洗和自动辅助标记,基于此模型具有的两个功能,本发明提出了两种不同的流程,其一为数据清洗流程,参见图5、图6;其二为数据自动辅助标记流程,参见图6,此两个流程基于核心的GAN网络模块,参见图4。
图5、图6的说明如下:
(1)图5、图6表明了本发明训练的的数据清洗GAN可用于清洗分类数据集、检测数据集和分割数据集。对于分类数据集(对应流程为图5),其可以将混杂的原始数据分为正样本和负样本两类,就这一子任务就可以大大提高自动分类的效率。值得注意的是,待清洗的样本的尺寸和训练GAN用的正样本尺寸一定要保持一致,例如若原始待清洗分类样本为512x512,那么训练GAN的样本也应该为512x512,且全部都应该为正样本。值得注意的是图中的阈值确定需要进行实验。
(2)对于检测数据集或分割数据集的清洗(对应流程为图6),本发明将检测样本或分割样本按照一定的尺寸进行了划分,例如若原始待清洗的检测样本或分类样本大小为512x512,而训练GAN的样本大小为128x128,那么待清洗的样本被分割为4x4=16个子区域,将所有子区域作为一个批处理同时送入GAN网络模块,进行如图4的形态学处理过程,输出一个包含异常区域轮廓的列表,若此列表为空,则将样本(检测样本或分割样本)划分为正样本,否则说明至少有一处有异常,则划分为负样本。
对于图6,其输入为经过数据清洗后被归入负样本的检测数据集或分割数据集(对于分类数据集,只需要标签,而不需要进行检测框或者像素级的标记,因此图6所示的辅助标记只针对检测数据集或分割数据集的自动辅助标记)。原始样本经过核心的GAN网络模块后,输出如图4所示的三类结构体,分别为每个子区域是否是异常、异常区域轮廓列表、边界框列表。其中第二个输出可以将异常区域的轮廓大致勾勒出来,可用于对分割数据集(即分割负样本)的辅助标记;第三个输出可以定位异常区域的边界框,可用于对检测数据集(即检测负样本)的辅助标记。
即图6中的两个GAN网络模块是相同的,仅仅是形态学变换和阈值变换的配置参数不同,用于清洗的配置的参数保证低漏检率,用于标记的配置参数保证高精度。如上所述的数据清洗和辅助标记流程,均已经实现并在多个现场实际数据集上面进行了实验,如图7、8展现了对分类数据集进行清洗的过程。
如图7所示的阈值确定曲线,取折中值threshold=0.004(此时过漏检都不高,约5%。如图8所示,分类数据集中某张负样本被划分成了abnormal,结果正确。
图7、图8的说明如下:
(1)图7的阈值是在测试集上面的正负样本选择出来的,是一个折中值,其值用于分类数据集的正负样本清洗。
(2)图8展示了某一个待清洗样本按照图7确定的阈值被正确划分成了负样本,并保存到对应的负样本文件夹中。
图9展示了某个检测数据集样本经过了数据清洗后被划分为负样本,然后被自动标记出可能的缺陷区域。对于图9,首先边界框列表元素(即异常轮廓列表)有5个,不为空,因此被分为了负样本,然后所有经本方法检测的边界框都被标记在了标记区域,以此实现自动标记。
综上,本发明提出了利用工业正样本无监督式地训练可以进行数据清洗和辅助标记的GAN网络,同时给出了整个清洗和辅助标记流程框架。
具体而言,本发明提出了只利用工业上的低成本正样本去训练GAN网络进行分类检测分割数据集的自动数据清洗算法。本发明提出了利用训练的GAN结合重构图和真实图的残差得到缺陷区域分割信息并利用形态学变换得出最终缺陷的可能位置,由此可以进行检测和分割数据集的自动辅助标记算法。
本发明实施例提供的一种GAN网络模型及实现样本自动清洗、辅助标记的方法至少包括如下技术效果:
本发明用来训练数据清洗和辅助标记GAN的数据只是工业上非常容易获取的大量正样本,而训练出来的GAN可以同时进行数据清洗和辅助标记任务,极大地降低了在显示面板数据集进行手工标记投入的人力和时间,降低了数据的成本,极大提高了数据清洗和标记的效率,可集成在标记清洗软件中作为一个核心模块。
本发明只利用了工业上低成本的中等规模正样本以及极少量的负样本作为验证模型效果的手段,训练了数据清洗GAN网络,实现了大量杂乱数据的自动清洗和自动辅助标记,极大地降低了人力成本,部分实现了标注自动化。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种GAN网络模型,其特征在于,所述GAN网络模型包括依次连接的通过训练获得的生成器网络和通过训练获得的判别器网络;
所述生成器网络采用Unet结构;所述生成器网络用于根据输入样本图片得到重构样本图片以及残差图;
所述判别器网络用于根据重构样本图片获得输入样本图片的异常评分;
其中,所述异常评分由所述生成器网络的特征损失和残差损失构成。
2.根据权利要求1所述的GAN网络模型,其特征在于,所述生成器网络的输入图像经过N层(N>=1)下采样、N层(N>=1)上采样处理后得到重构图像;所述下采样包括三个子处理过程,依次为LeakyRelu层、卷积层、批归一化层;所述上采样包括三个子处理过程,依次为Relu层、转置卷积层、批归一化层。
3.根据权利要求1或2所述的GAN网络模型,其特征在于,所述判别器网络的输入图像经过N层(N>=1)下采样、特征提取、卷积处理后得到输出得分、输出特征;所述下采样、所述特征提取均包括三个子处理过程,依次为LeakyRelu层、卷积层、批归一化层;所述卷积处理包括两个子处理过程,依次为卷积层、sigmoid层。
4.根据权利要求1所述的GAN网络模型,其特征在于,在训练生成器网络和判别器网络时,当所述GAN网络模型用于所述分类数据集的自动清洗,则选择与需要清洗的分类数据大小相同的样本作为训练样本去训练生成器网络和判别器网络。
5.根据权利要求1所述的GAN网络模型,其特征在于,在训练生成器网络和判别器网络时,当所述GAN网络模型用于检测数据集或分割数据的自动清洗,或者,用于检测数据集或分割数据的辅助标记,则选择与对检测数据或分割数据进行分割之后的子区域大小相同的样本作为训练样本去训练生成器网络和判别器网络。
6.根据权利要求1所述的GAN网络模型,其特征在于,所述残差损失为所述重构样本图片和所述输入样本图像的像素值之差的平均值,所述特征损失由真实特征向量和虚假特征向量得到。
7.一种利用权利要求1-4、6中任一所述的GAN网络模型实现样本自动清洗的方法,其特征在于,包括以下步骤:
步骤1、将待清洗的分类数据集输入至所述GAN网络模型中;所述分类数据集包括正样本、负样本混杂的原始分类样本;
步骤2、所述GAN网络模型针对每一个样本输出一个异常评分;
步骤3、针对每一个样本,若所述异常评分小于预设的分类阈值,则判定样本为正样本;否则,判定为负样本。
8.一种利用权利要求1-3、5-6中任一所述的GAN网络模型实现样本自动清洗的方法,其特征在于,包括以下步骤:
步骤1、针对待清洗的检测数据集或分割数据集中的每一个样本,将样本划分为多个子区域,所有子区域作为一个批处理同时输入至与所述子区域大小匹配的所述GAN网络模型中;所述检测数据集包括正样本、负样本混杂的原始检测样本,所述分割数据集包括正样本、负样本混杂的原始分割样本;
步骤2、针对每一个样本,所述GAN网络模型根据残差图输出一个异常区域轮廓列表;
步骤3、针对每一个样本,若所述异常区域轮廓列表为空,则判定样本为正样本;否则,判定为负样本。
9.一种利用权利要求1-3、5-6中任一所述的GAN网络模型实现样本辅助标记的方法,其特征在于,包括以下步骤:
步骤1、针对待标记的负样本,将负样本划分为多个子区域,所有子区域作为一个批处理同时输入至与所述子区域大小匹配的所述GAN网络模型中;
步骤2、针对所述负样本,所述GAN网络模型根据残差图输出异常区域边界框列表或异常区域轮廓列表;
步骤3、根据所述异常区域边界框列表或所述异常区域轮廓列表对所述负样本进行辅助标记。
10.根据权利要求9所述的利用GAN网络模型实现样本辅助标记的方法,其特征在于,所述GAN网络模型根据残差图输出异常区域边界框列表或异常区域轮廓列表包括:
所述GAN网络模型对所述负样本对应的残差图进行闭运算、异常区域轮廓提取、轮廓过滤处理后,获得所述异常区域边界框列表或异常区域轮廓列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141915.XA CN111382785B (zh) | 2020-03-04 | 2020-03-04 | 一种gan网络模型及实现样本自动清洗、辅助标记的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141915.XA CN111382785B (zh) | 2020-03-04 | 2020-03-04 | 一种gan网络模型及实现样本自动清洗、辅助标记的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382785A true CN111382785A (zh) | 2020-07-07 |
CN111382785B CN111382785B (zh) | 2023-09-01 |
Family
ID=71217053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010141915.XA Active CN111382785B (zh) | 2020-03-04 | 2020-03-04 | 一种gan网络模型及实现样本自动清洗、辅助标记的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382785B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112312169A (zh) * | 2020-11-20 | 2021-02-02 | 广州欢网科技有限责任公司 | 检验节目评分有效性的方法及设备 |
CN112528827A (zh) * | 2020-12-03 | 2021-03-19 | 和远智能科技股份有限公司 | 一种高铁接触网供电设备裂损自动检测方法 |
CN112907589A (zh) * | 2021-04-02 | 2021-06-04 | 联通(上海)产业互联网有限公司 | 一种检测异常并且分割图像中异常区域的深度学习算法 |
CN113420866A (zh) * | 2021-06-23 | 2021-09-21 | 新疆大学 | 基于双重生成对抗网络的评分预测方法 |
CN113628159A (zh) * | 2021-06-16 | 2021-11-09 | 维库(厦门)信息技术有限公司 | 一种基于深度学习网络全自动训练方法、装置及存储介质 |
CN113688844A (zh) * | 2021-08-13 | 2021-11-23 | 上海商汤智能科技有限公司 | 神经网络训练方法、装置、电子设备及存储介质 |
CN114419035A (zh) * | 2022-03-25 | 2022-04-29 | 北京百度网讯科技有限公司 | 产品识别方法、模型训练方法、装置和电子设备 |
WO2022242001A1 (en) * | 2021-05-20 | 2022-11-24 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for subject detection |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
US20180336471A1 (en) * | 2017-05-19 | 2018-11-22 | Mehdi Rezagholizadeh | Semi-supervised regression with generative adversarial networks |
CN108960409A (zh) * | 2018-06-13 | 2018-12-07 | 南昌黑鲨科技有限公司 | 标注数据生成方法、设备及计算机可读存储介质 |
CN109410179A (zh) * | 2018-09-28 | 2019-03-01 | 合肥工业大学 | 一种基于生成对抗网络的图像异常检测方法 |
CN109447263A (zh) * | 2018-11-07 | 2019-03-08 | 任元 | 一种基于生成对抗网络的航天异常事件检测方法 |
CN109584221A (zh) * | 2018-11-16 | 2019-04-05 | 聚时科技(上海)有限公司 | 一种基于监督式生成对抗网络的异常图像检测方法 |
WO2019102043A1 (en) * | 2017-11-27 | 2019-05-31 | Deciphex | Automated screening of histopathology tissue samples via analysis of a normal model |
CN110097559A (zh) * | 2019-04-29 | 2019-08-06 | 南京星程智能科技有限公司 | 基于深度学习的眼底图像病灶区域标注方法 |
CN110110745A (zh) * | 2019-03-29 | 2019-08-09 | 上海海事大学 | 基于生成对抗网络的半监督x光图像自动标注 |
CN110211114A (zh) * | 2019-06-03 | 2019-09-06 | 浙江大学 | 一种基于深度学习的装箱缺条视觉检测方法 |
CN110232383A (zh) * | 2019-06-18 | 2019-09-13 | 湖南省华芯医疗器械有限公司 | 一种基于深度学习模型的病灶图像识别方法及病灶图像识别系统 |
CN110555474A (zh) * | 2019-08-28 | 2019-12-10 | 上海电力大学 | 一种基于半监督学习的光伏面板故障检测方法 |
CN110751630A (zh) * | 2019-09-30 | 2020-02-04 | 山东信通电子股份有限公司 | 基于深度学习的输电线路异物检测方法、装置及介质 |
CN110807762A (zh) * | 2019-09-19 | 2020-02-18 | 温州大学 | 一种基于gan的视网膜血管图像智能分割方法 |
-
2020
- 2020-03-04 CN CN202010141915.XA patent/CN111382785B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
US20180336471A1 (en) * | 2017-05-19 | 2018-11-22 | Mehdi Rezagholizadeh | Semi-supervised regression with generative adversarial networks |
WO2019102043A1 (en) * | 2017-11-27 | 2019-05-31 | Deciphex | Automated screening of histopathology tissue samples via analysis of a normal model |
CN108960409A (zh) * | 2018-06-13 | 2018-12-07 | 南昌黑鲨科技有限公司 | 标注数据生成方法、设备及计算机可读存储介质 |
CN109410179A (zh) * | 2018-09-28 | 2019-03-01 | 合肥工业大学 | 一种基于生成对抗网络的图像异常检测方法 |
CN109447263A (zh) * | 2018-11-07 | 2019-03-08 | 任元 | 一种基于生成对抗网络的航天异常事件检测方法 |
CN109584221A (zh) * | 2018-11-16 | 2019-04-05 | 聚时科技(上海)有限公司 | 一种基于监督式生成对抗网络的异常图像检测方法 |
CN110110745A (zh) * | 2019-03-29 | 2019-08-09 | 上海海事大学 | 基于生成对抗网络的半监督x光图像自动标注 |
CN110097559A (zh) * | 2019-04-29 | 2019-08-06 | 南京星程智能科技有限公司 | 基于深度学习的眼底图像病灶区域标注方法 |
CN110211114A (zh) * | 2019-06-03 | 2019-09-06 | 浙江大学 | 一种基于深度学习的装箱缺条视觉检测方法 |
CN110232383A (zh) * | 2019-06-18 | 2019-09-13 | 湖南省华芯医疗器械有限公司 | 一种基于深度学习模型的病灶图像识别方法及病灶图像识别系统 |
CN110555474A (zh) * | 2019-08-28 | 2019-12-10 | 上海电力大学 | 一种基于半监督学习的光伏面板故障检测方法 |
CN110807762A (zh) * | 2019-09-19 | 2020-02-18 | 温州大学 | 一种基于gan的视网膜血管图像智能分割方法 |
CN110751630A (zh) * | 2019-09-30 | 2020-02-04 | 山东信通电子股份有限公司 | 基于深度学习的输电线路异物检测方法、装置及介质 |
Non-Patent Citations (3)
Title |
---|
SAMET AKÇAY 等: "Skip-GANomaly: Skip Connected and Adversarially Trained Encoder-Decoder Anomaly Detection", pages 1 - 8 * |
THOMAS SCHLEGL 等: "f-AnoGAN: Fast unsupervised anomaly detection with generative adversarial networks", vol. 54, pages 30 - 44, XP055785711, DOI: 10.1016/j.media.2019.01.010 * |
王星;杜伟;陈吉;陈海涛;: "基于深度残差生成式对抗网络的样本生成方法", 控制与决策, pages 1 - 8 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112312169A (zh) * | 2020-11-20 | 2021-02-02 | 广州欢网科技有限责任公司 | 检验节目评分有效性的方法及设备 |
CN112312169B (zh) * | 2020-11-20 | 2022-09-30 | 广州欢网科技有限责任公司 | 检验节目评分有效性的方法及设备 |
CN112528827A (zh) * | 2020-12-03 | 2021-03-19 | 和远智能科技股份有限公司 | 一种高铁接触网供电设备裂损自动检测方法 |
CN112907589A (zh) * | 2021-04-02 | 2021-06-04 | 联通(上海)产业互联网有限公司 | 一种检测异常并且分割图像中异常区域的深度学习算法 |
WO2022242001A1 (en) * | 2021-05-20 | 2022-11-24 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for subject detection |
CN113628159A (zh) * | 2021-06-16 | 2021-11-09 | 维库(厦门)信息技术有限公司 | 一种基于深度学习网络全自动训练方法、装置及存储介质 |
CN113420866A (zh) * | 2021-06-23 | 2021-09-21 | 新疆大学 | 基于双重生成对抗网络的评分预测方法 |
CN113420866B (zh) * | 2021-06-23 | 2022-10-11 | 新疆大学 | 基于双重生成对抗网络的评分预测方法 |
CN113688844A (zh) * | 2021-08-13 | 2021-11-23 | 上海商汤智能科技有限公司 | 神经网络训练方法、装置、电子设备及存储介质 |
CN114419035A (zh) * | 2022-03-25 | 2022-04-29 | 北京百度网讯科技有限公司 | 产品识别方法、模型训练方法、装置和电子设备 |
CN114419035B (zh) * | 2022-03-25 | 2022-06-17 | 北京百度网讯科技有限公司 | 产品识别方法、模型训练方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111382785B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382785A (zh) | 一种gan网络模型及实现样本自动清洗、辅助标记的方法 | |
CN109829914B (zh) | 检测产品缺陷的方法和装置 | |
CN108562589B (zh) | 一种对磁路材料表面缺陷进行检测的方法 | |
CN111223093A (zh) | 一种aoi缺陷检测方法 | |
CN112967243A (zh) | 一种基于yolo的深度学习芯片封装裂纹缺陷检测方法 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
CN110060237A (zh) | 一种故障检测方法、装置、设备及系统 | |
CN112102229A (zh) | 一种基于深度学习的工业ct检测缺陷的智能识别方法 | |
CN108492291B (zh) | 一种基于cnn分割的太阳能光伏硅片瑕疵检测系统及方法 | |
CN111582294A (zh) | 一种构建用于表面缺陷检测的卷积神经网络模型的方法及其利用 | |
CN110992349A (zh) | 一种基于深度学习的地下管道异常自动化定位与识别方法 | |
CN115496746A (zh) | 基于图像和点云数据融合的板材表面缺陷检测方法和系统 | |
CN116935092A (zh) | 自动化缺陷分类和检测 | |
CN113643268A (zh) | 基于深度学习的工业制品缺陷质检方法、装置及存储介质 | |
CN110349167A (zh) | 一种图像实例分割方法及装置 | |
CN113469950A (zh) | 一种基于深度学习的复合绝缘子异常发热缺陷的诊断方法 | |
CN109859199B (zh) | 一种sd-oct图像的淡水无核珍珠质量检测的方法 | |
CN116205876A (zh) | 基于多尺度标准化流的无监督笔记本外观缺陷检测方法 | |
CN117576079A (zh) | 一种工业产品表面异常检测方法、装置及系统 | |
CN115294033A (zh) | 一种基于语义分割网络的轮胎带束层差级和错边缺陷检测方法 | |
CN112396580B (zh) | 一种圆形零件缺陷检测方法 | |
CN114078106B (zh) | 基于改进Faster R-CNN的疵点检测方法 | |
CN108537266A (zh) | 一种深度卷积网络的织物纹理疵点分类方法 | |
CN117274355A (zh) | 一种基于加速引导区域卷积神经网络和并行多尺度统一网络的排水管道流量智能测量方法 | |
CN110033443B (zh) | 一种显示面板缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |