CN114972273A - 流水化产品数据集增强方法、系统、设备及存储介质 - Google Patents

流水化产品数据集增强方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114972273A
CN114972273A CN202210617706.7A CN202210617706A CN114972273A CN 114972273 A CN114972273 A CN 114972273A CN 202210617706 A CN202210617706 A CN 202210617706A CN 114972273 A CN114972273 A CN 114972273A
Authority
CN
China
Prior art keywords
data set
model
training
industrial
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210617706.7A
Other languages
English (en)
Inventor
董浩杰
卫星
沈奥
陈逸康
康旭
何煦
赵冲
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210617706.7A priority Critical patent/CN114972273A/zh
Publication of CN114972273A publication Critical patent/CN114972273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提供一种流水化产品数据集增强方法、系统、设备及存储介质,属于产品缺陷检测技术领域。流水化产品数据集增强方法包括:获取多张待训练的工业产品图像,制作工业产品图像数据集;基于工业产品图像数据集训练预设的检测模型,得到工业检测模型;根据工业检测模型构建并训练生成对抗网络模型,获得生成对抗网络模型的生成器模型和判别器模型;使用生成器模型构建预备数据集,并基于预备数据集和工业产品图像数据集训练判别器模型,若判别器模型符合数据增强条件,在工业产品图像数据集中加入预备数据集。解决了当前部分工业产品检测训练集过少、难以获取、质量不高的问题。

Description

流水化产品数据集增强方法、系统、设备及存储介质
技术领域
本发明涉及产品缺陷检测技术领域,具体涉及一种流水化产品数据集增强方法、系统、设备及存储介质。
背景技术
随着工业化水平的不断提高与生产需求的不断增长,部分工业产品的生产规模与业务量不断扩大,在流水线生产中不可避免的产生大量存在缺陷的工业产品,如何快速准确的识别工业产品成为当下的首要问题。对此,部分企业采用了机器学习技术来训练工业检测模型,不仅能够控制成本、节省人力,还能够实现高效的工业缺陷检测,从而有效提高生产效率与产品质量。
当前工业检测模型训练仍面临着诸多问题,如用于训练的图像数据难以大量收集。此问题在中小型企业中尤为突出,想要确保模型的准确率,需要耗费大量的人力去搜集数据,导致成本投入较大,成本高。另一方面,由于搜集人员的疏忽,可能会得到部分质量较差的数据集,导致企业无法准确确认图像数据的优劣性,反而不利于提升当前的工业检测模型的准确率,从而导致当前企业的工业检测模型准确率不高,不能确保企业生产的安全性,影响企业的生产效率。因此,需要提供一种流水化产品数据集增强方法、系统、设备及存储介质。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种流水化产品数据集增强方法、系统、设备及存储介质,以改善现有技术中,工业产品检测训练集过少、难以获取、质量不高的问题。
为实现上述目的及其它相关目的,本发明提一种流水化产品数据集增强方法,包括以下过程:
获取多张待训练的工业产品图像,制作工业产品图像数据集;
基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型;
根据所述工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型;
使用所述生成器模型构建预备数据集,并基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集。
在本发明一实施例中,所述基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型,包括以下过程:
对所述工业产品图像数据集进行划分,获得训练集和测试集;
对所述训练集进行分组,获得多组训练图像;
将每组训练图像分别输入至所述检测模型中进行迭代训练,获得初步训练的工业检测模型;
将所述测试集输入至所述初步训练的工业检测模型进行测试,若测试结果符合预设阈值,得到工业检测模型。
在本发明一实施例中,所述基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型,包括以下过程:
对所述工业产品图像数据集进行划分,获得训练集和测试集;
对所述训练集进行分组,获得多组训练图像;
将每组训练图像分别输入至所述检测模型中进行迭代训练,获得初步训练的工业检测模型;
将所述测试集输入至所述初步训练的工业检测模型进行测试,若测试结果符合预设阈值,得到工业检测模型。
在本发明一实施例中,所述根据所述工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型,包括以下过程:
将反卷积模型作为生成对抗网络的生成器,将所述工业检测模型作为所述生成对抗网络的判别器,构建生成对抗网络模型;
通过所述生成器生成产品图像,将所述产品图像和真实产品图像混合,构建混合样本;
将所述混合样本输入至所述判别器,对所述生成对抗网络模型进行训练,直至所述判别器的识别效果达到预设阈值,获得生成对抗网络模型的生成器模型和判别器模型。
在本发明一实施例中,所述所述将所述混合样本输入至所述判别器,对所述生成对抗网络进行训练,直至所述判别器模型的识别效果达到预设阈值,获得生成对抗网络模型的生成器模型和判别器模型,包括以下过程:
S331、固定所述生成器的参数,将所述混合样本中的一组混合样本数据输入至所述判别器中进行多次迭代训练,对判别器的参数进行更新;
S332、所述判别器完成多次迭代训练后,固定所述判别器的参数,对所述生成器的参数进行更新,得到新的生成器;
S333、选择所述混合样本中另一组混合样本数据,重复执行步骤S331和S332,直至判别器的识别效果达到预设阈值。
在本发明一实施例中,所述基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集,包括以下过程:
将所述预备数据集和所述工业产品数据集进行混合,得到混合图像数据集;
对所述混合图像数据集进行分层抽样后,进行卡方校验,将通过卡方校验的混合图像数据集中的数据作为测试集;
进行假设实验,将所述测试集分别输入当前的判别器模型和旧模型,获得判别器模型的测试结果和旧模型的测试结果,构成总体测试结果,所述旧模型为前一次训练的判别器模型;
对所述总体测试结果进行统计推理,若所述统计推理的结果小于预设的抽样阈值,将所述预备数据集加入所述工业产品数据集中。
在本发明一实施例中,所述对所述混合图像数据集进行分层抽样后,进行卡方校验,将通过卡方校验的混合图像数据集中的数据作为测试集,包括以下过程:
对所述混合图像数据集进行分层抽样后,获得每个类别的观察值;
确定显著性水平为a,使用卡方分布公式:
Figure BDA0003673913470000041
进行计算,其中,vi为第i个类别的观察值,pi为第i个类别的理论频次,n为样本量,χ2为卡方分布的计算结果;
Figure BDA0003673913470000042
与χ2进行数值比较,若
Figure BDA0003673913470000043
大于χ2,则样本符合总体分布,通过卡方校验,其中,
Figure BDA0003673913470000044
为理论上的卡方值。
在本发明一实施例中,还提供一种流水化产品数据集增强系统,所述系统包括:
数据集获取模块,用于获取多张待训练的工业产品图像,制作工业产品图像数据集;
工业检测模型训练模块,用于基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型;
生成对抗网络模型训练模块,用于根据所述初步训练的工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型;
数据集增强模块,用于使用所述生成器模型构建预备数据集,并基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集。
在本发明一实施例中,还提供一种流水化产品数据集增强设备,包括处理器,所述处理器与存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现上述任一项所述的方法。
在本发明一实施例中,还提供一种计算机可读存储介质,包括程序,当所述程序在计算机上运行时,使得计算机执行上述中任一项所述的方法。
综上所述,本发明中,需要判断工业产品是否合规时,将制作的工业产品图像数据集输入至预设的检测模型中,对检测模型进行训练,得到工业检测模型。然后根据工业检测模型构建生成对抗网络模型,并基于工业产品图像数据集和生成器生成的图像不断训练生成对抗网络模型,得到训练好的生成器模型和判别器模型。然后将生成器模型生成的数据作为预备数据集,与工业产品图像数据集一同输入至判别器模型进行训练,最终当判别器模型满足数据增强条件时,即可将预备数据集加入工业产品图像数据集中,实现数据集增强。解决了当前部分工业产品检测训练集过少、难以获取、质量不高的问题。通过使用因果分析的A/B实验来进行测试,通过合理科学的统计分析,确保数据集增强的有效性,进一步提高了本产品的可信服度。能够以低成本制作足够的数据集图像,从而保证工业检测模型的准确率,进一步提高工业产品生产效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明一实施例中流水化产品数据集增强方法的流程示意图;
图2显示为本发明一实施例中步骤S2的流程示意图;
图3显示为本发明一实施例中步骤S3的流程示意图;
图4显示为本发明一实施例中步骤S33的流程示意图;
图5显示为本发明一实施例中步骤S4的流程示意图;
图6显示为本发明一实施例中流水化产品数据集增强系统的原理结构示意图。
元件标号说明:
10、流水化产品数据集增强系统;11、数据集获取模块;12、工业检测模型训练模块;13、生成对抗网络模型训练模块;14、数据集增强模块。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法,通常按照常规条件,或者按照各制造商所建议的条件。
请参阅图1至图6。须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明中使用的所有技术和科学术语与本技术领域的技术人员对现有技术的掌握及本发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
请参阅图1,图1显示为本发明一实施例中流水化产品数据集增强方法的流程示意图。本发明提供一种流水化产品数据集增强方法。需要判断工业产品是否合规时,将制作的工业产品图像数据集输入至预设的检测模型中,对检测模型进行训练,得到工业检测模型。然后根据工业检测模型构建生成对抗网络模型,并基于工业产品图像数据集和生成器生成的图像不断训练生成对抗网络模型,得到训练好的生成器模型和判别器模型。然后将生成器模型生成的数据作为预备数据集,与工业产品图像数据集一同输入至判别器模型进行训练,最终当判别器模型满足数据增强条件时,即可将预备数据集加入工业产品图像数据集中,实现数据集增强。解决了当前部分工业产品检测训练集过少、难以获取、质量不高的问题。通过使用因果分析的A/B实验来进行测试,通过合理科学的统计分析,确保数据集增强的有效性,进一步提高了本产品的可信服度。能够以低成本制作足够的数据集图像,从而保证工业检测模型的准确率,进一步提高工业产品生产效率。
请参阅图1,在本发明一实施例中,提供一种流水化产品数据集增强方法,包括以下过程:
S1、获取多张待训练的工业产品图像,制作工业产品图像数据集。
本实施例中,工业产品图像可以是由安装在终端设备上的摄像头采集获得。其中终端设备包括但不限于各种个人计算机、笔记本电脑、照相机、智能手机、平板电脑和便携式可穿戴设备等装备。其中,工业产品图像是指在流水线生产过程中的工业产品。由于流水线中工业产品的种类不同,针对于特定的工业产品,获取该工业产品的产品图像,采用本发明的方法即可进行数据增强。可以理解的是,工业产品图像还可通过现有的开源数据获取,在此不做限定。
S2、基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型。
请参阅图2,图2显示为本发明一实施例中步骤S2的流程示意图,S2包括以下过程:
S21、对所述工业产品图像数据集进行划分,获得训练集和测试集;
S22、对所述训练集进行分组,获得多组训练图像;
S23、将每组训练图像分别输入至预设的检测模型中,对所述检测模型进行迭代训练,获得工业检测模型;
S24、将测试集输入至所述工业检测模型进行测试,若测试结果符合预设阈值,得到工业检测模型。
本实施例中,将工业产品数据集的数据按照一定比例划分为训练集和测试集,其中,训练集在训练阶段使用,用来训练模型内的各项参数。测试集用来评价模型的泛化能力。将训练集进行随机分组后得到多组训练图像,把每组训练图像输入到检测模型中不断进行迭代训练,使用梯度下降法不断更新检测模型的参数,最终获得工业检测模型。为了测试工业检测模型的精度,将测试集输入至工业检测模型中,工业检测模型对测试集的数据进行识别,若最终识别率高于预期值,则可将工业检测模型作为旧模型。在本发明一实施例中,若测试结果不符合预设阈值,选择新的工业产品图像,重新制作工业产品图像数据集,再次进行训练,直至测试结果符合预设阈值。
考虑到训练集太小时,神经网络容易出现欠拟合的现象,导致模型不能很好的拟合数据特征,使得最终预测精度偏小。训练集太大时,神经网络容易出现过拟合的现象,导致模型泛化能力不高。在本发明一实施例中,所述样本数据集中训练集和测试集的比例为8:2。这样既可对模型进行有效训练,同时又可以改善训练样本过多导致过拟合的现象。当然,训练集和测试集的样本比例不做固定限制,本领域技术人员可根据实际需要适应性改变。
S3、根据所述初步训练的工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型。
请参阅图3,图3显示为本发明一实施例中步骤S3的流程示意图。S3包括以下过程:
S31、将反卷积模型作为生成对抗网络的生成器,将所述工业检测模型作为生成对抗网络的判别器,构建生成对抗网络模型;
S32、通过所述生成器生成图像,将所述图像和真实产品图像混合,构建混合样本;
S33、将所述混合样本输入至所述判别器,对所述生成对抗网络进行训练,直至所述判别器模型的识别效果达到预设阈值,获得训练好的生成器模型和判别器模型。
生成对抗网络(generative adversarial network,GAN)是通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布。在生成对抗网络中,有两个网络进行对抗训练。一个是判别网络,目标是尽量准确地判断一个样本是来自于真实数据还是生成网络产生的;另一个是生成网络,目标是尽量生成判别网络无法区分来源的样本。这两个目标相反的网络不断地进行交替训练。当最后收敛时,如果判别网络再也无法判断出一个样本的来源,那么也就等价于生成网络可以生成符合真实数据分布的样本。本实施中,将反卷积模型作为生成对抗网络的生成器,用来生成与工业生产图像相似的假图像。将工业检测模型作为生成对抗网络的判别器,用来判别生成器生成图像的真假。具体地,可通过生成器不断生成图像,并将图像和真实产品图像混合,形成混合样本。其中,混合样本包括从工业产品图像数据集中采样的部分样本,从先验分布噪声中采样的部分样本以及生成器生成的批量样本。将混合样本输入至判别器中,判别器对输入的混合样本进行分辨,并输出最终的识别结果。其中,识别结果可以是判断当前样本是否为需要检测的工业产品的概率,也可以是判断当前样本是否为具有缺陷的工业产品等各种情况,在此不做赘述。当判别器的识别效果达到预设阈值时,即可认为此时的判别器和生成器符合要求,作为训练好的生成器模型和训练好的判别器模型。
请参阅图4,图4显示为本发明一实施例中步骤S33的流程示意图,步骤S33包括以下过程:
S331、固定所述生成器的参数,将所述混合样本中的一组混合样本数据输入至所述判别器中进行多次迭代训练,对判别器的参数进行更新,其中,所述更新的次数与迭代训练的次数相同;
S332、对所述判别器多次迭代训练完成后,固定所述判别器的参数,对所述生成器的参数进行更新,得到新的生成器;
S333、选择所述混合样本中另一组混合样本数据,重复执行步骤S331和S332,直至判别器达到预设效果。
本实施例中,为了得到具有良好鲁棒性的生成器和判别器,首先将生成器固定,也即在此训练过程中,生成器的各项权重和参数保持不变。将混合样本分批次输入至判别器中进行多次迭代训练,使用梯度下降法对判别器的各项参数和权重进行更新。从而训练判别器尽可能好地准确判断真实样本和生成样本,尽可能大地区分正确样本和错误样本。多次迭代完成后,固定判别器的参数和权重,为了防止模型震荡,使用较小的学习率更新一次生成器内各项权重和参数,例如0.001,更新参数和权重。从而使得生成器能够根据判别器的判断结果生成更真实的产品图像。重复多次更新判别器和生成器的参数后,若判别器达到预设效果,则认为该生成对抗网络训练完成。其中,预设效果是指判别器对于混合样本的判别率为50%。
S4、使用所述生成器模型构建预备数据集,并基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集。
请参阅图5,图5显示为本发明一实施例中步骤S4的流程示意图。S4包括以下过程:
S41、将所述预备数据集和所述工业产品数据集进行混合,得到混合图像数据集;
S42、对所述混合图像数据集进行分层抽样后,进行卡方校验,将通过卡方校验的混合图像数据集中的数据作为测试集;
S43、进行假设实验,将所述测试集分别输入当前的判别器模型和所述旧模型,获得判别器模型的测试结果和旧模型的测试结果,构成总体测试结果;
S44、对所述总体测试结果进行统计推理,若所述统计推理的结果小于预设的抽样阈值,将所述预备数据集加入所述工业产品数据集中。
本实施例中,将训练好的生成器模型生成的数据作为预备数据集,将预备数据集和原有的工业产品数据集进行混合,得到混合图像数据集。对混合图像数据集进行分层抽样,以便能够不忽略每种个体特征,使得抽样后的样本数据代表性较好,具有较小的抽样误差。其中,分层抽样是指抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。对分层抽样后的样本数据进行卡方校验,以便对样本数据的偏离程度有直观的了解。其中,卡方校验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。然后进行假设实验,即假设旧模型效果不比新模型的效果差,通过对测试集检测的准确率作为指标对新模型和旧模型进行量化评估。本实施例中,通过对新模型和旧模型进行A/B实验,进一步确认预备数据集是否能加入工业产品图像数据集中,实现数据集增强。若新模型和旧模型不满足A/B实验的结果,则需要进一步训练生成对抗网络。其中,新模型是指当前训练完成的判别器模型,旧模型是指前一次训练的判别器模型,特别地,第一次训练时,旧模型是指工业检测模型。具体地,将通过卡方检验的混合图像数据集中的数据作为测试集,分别输入至判别器模型和旧模型中,获得判别器模型的检测准确率和旧模型的检测准确率。并将判别器模型的检测准确率和旧模型的检测准确率进行量化评估,比较两者的差异。若差异明显,则说明新模型比旧模型的识别效果好,可以将预备数据集加入工业产品数据集中,进行数据集增强。
进一步地,S42包括以下过程:
S421、对所述混合图像数据集进行分层抽样后,获得每个类别的观察值;
S422、确定显著性水平为a,使用卡方分布公式:
Figure BDA0003673913470000121
进行计算,其中,vi为第i个类别的观察值,pi为第i个类别的理论频次,n为样本量,χ2为卡方分布的计算结果;
S423、将
Figure BDA0003673913470000122
与χ2进行数值比较,若
Figure BDA0003673913470000123
大于χ2,则样本符合总体分布,通过卡方校验,其中,
Figure BDA0003673913470000124
为理论上的卡方值。
本实施例中,对混合图像数据集分层抽样后,每一层记为一个类别,使用卡方分布公式计算后,得到卡方分布的计算结果χ2。本实施例中,a的取值为0.05,本领域技术人员可根据模型精度需要适应性选择a的值,在此不做限定。将χ2与查表获得的
Figure BDA0003673913470000125
进行比较,判断
Figure BDA0003673913470000126
是否大于S422中算出的结果χ2。若大于,说明样本符合总体分布,防止了因抽样误差而影响测试结果的情况。若小于,则需要重新抽样,直至抽样后的结果χ2小于
Figure BDA0003673913470000127
说明抽样样本通过卡方校验。
具体地,步骤S44包括以下过程:
S441、确定显著性水平为b,对总体测试结果进行t检验,所述t检验的公式为:
Figure BDA0003673913470000128
其中X为总体测试结果的平均值,S为总体测试结果的标准偏差,n为总体测试结果的数量,μ=μ0时为真的条件下服从自由度为n的t分布,最终得到p值,用来显示结果的差异程度;
S442、若p值小于显著性水平b,将所述预备数据集加入所述工业产品数据集中。
本实施例中,显著性水平b为0.05,本领域技术人员可根据模型精度需要适应性选择b的值,在此不做限定。由于总体测试结果具有新旧模型识别、判断结果识别和图像真伪识别三种不同的属性。其中,新旧模型识别指测试结果是由新模型识别获得还是旧模型识别获得的,判断结果识别是指测试结果是认为当前样本图像为正常的工业产品图像还是有缺陷的工业产品图像,图像真伪识别是指得到该测试结果的样本图像是真实产品图像还是生成的虚假图像。对于每一个属性,都赋予量化值予以区分。例如,可将新模型识别获得赋予量化值1,将旧模型识别获得赋予量化值0。将含有量化值的测试结果进行t检验后,以便确定新模型和旧模型的差异是否显著。得到p值后,比较p值是否小于0.05。若小于,则说明新模型与旧模型检测结果有差异,而且非常显著,即说明新模型效果提升明显,可以实现数据集增强。否则,说明新模型的效果提升不明显,不能实现数据增强。通过这种方法,可以将由于过拟合导致准确率高的模型去除,防止仅根据准确率判断模型鲁棒性导致的判断失误现象。其中,p值是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。
上面方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本发明的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该发明的保护范围内。
请参阅图6,图6显示为本发明一实施例中流水化产品数据集增强系统的原理结构示意图。该流水化产品数据集增强方法系统10包括数据集获取模块11、工业检测模型训练模块12、生成对抗网络模型训练模块13和数据集增强模块14。其中,数据集获取模块11用于获取多张待训练的工业产品图像,制作工业产品图像数据集。工业检测模型训练模块12用于基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型。生成对抗网络模型训练模块13用于根据所述工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型。数据集增强模块14用于使用所述生成器模型构建预备数据集,并基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集。
需要说明的是,为了突出本发明的创新部分,本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的模块引入,但这并不表明本实施例中不存在其它的模块。
此外,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本发明所提供的实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本实施例还提出了一种流水化产品数据集增强方法设备,该设备包括处理器和存储器,处理器和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执行时实现上述任务管理方法。处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件;所述存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。所述存储器可以为随机存取存储器(Random Access Memory,RAM)类型的内部存储器,所述处理器、存储器可以集成为一个或多个独立的电路或硬件,如:专用集成电路(Application SpecificIntegrated Circuit,ASIC)。需要说明的是,上述的存储器中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
本实施例还提出一种计算机可读的存储介质,所述存储介质存储有计算机指令,所述计算机指令用于使计算机执行上述的任务管理方法。存储介质可以是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。
综上所述,需要判断工业产品是否合规时,将制作的工业产品图像数据集输入至预设的检测模型中,对检测模型进行训练,得到工业检测模型。然后根据工业检测模型构建生成对抗网络模型,并基于工业产品图像数据集和生成器生成的图像不断训练生成对抗网络模型,得到训练好的生成器模型和判别器模型。然后将生成器模型生成的数据作为预备数据集,与工业产品图像数据集一同输入至判别器模型进行训练,最终当判别器模型满足数据增强条件时,即可将预备数据集加入工业产品图像数据集中,实现数据集增强。解决了当前部分工业产品检测训练集过少、难以获取、质量不高的问题。将对抗网络和因果分析的方法用于流水线工业检测模型训练中,不仅提高了检测模型的准确率,而且实现以低成本制作图像数据,降低了人力搜集的成本。运用因果分析的理论,通过使用因果分析的A/B实验来进行测试,对检测模型做出科学分析,确保了模型检测的准确性。从而有效提高工业检测模型的准确率,进一步提高工业产品生产效率。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种流水化产品数据集增强方法,其特征在于,包括以下过程:
获取多张待训练的工业产品图像,制作工业产品图像数据集;
基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型;
根据所述工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型;
使用所述生成器模型构建预备数据集,并基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集。
2.根据权利要求1所述的流水化产品数据集增强方法,其特征在于,所述基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型,包括以下过程:
对所述工业产品图像数据集进行划分,获得训练集和测试集;
对所述训练集进行分组,获得多组训练图像;
将每组训练图像分别输入至所述检测模型中进行迭代训练,获得初步训练的工业检测模型;
将所述测试集输入至所述初步训练的工业检测模型进行测试,若测试结果符合预设阈值,得到工业检测模型。
3.根据权利要求2所述的流水化产品数据集增强方法,其特征在于,所述将所述测试集输入至所述初步训练的工业检测模型进行测试之后,还包括:若测试结果不符合预设阈值,选择新的工业产品图像,重新制作工业产品图像数据集,再次进行训练。
4.根据权利要求1所述的流水化产品数据集增强方法,其特征在于,所述根据所述工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型,包括以下过程:
将反卷积模型作为生成对抗网络的生成器,将所述工业检测模型作为所述生成对抗网络的判别器,构建生成对抗网络模型;
通过所述生成器生成产品图像,将所述产品图像和真实产品图像混合,构建混合样本;
将所述混合样本输入至所述判别器,对所述生成对抗网络模型进行训练,直至所述判别器的识别效果达到预设阈值,获得生成对抗网络模型的生成器模型和判别器模型。
5.根据权利要求4所述的流水化产品数据集增强方法,其特征在于,所述将所述混合样本输入至所述判别器,对所述生成对抗网络进行训练,直至所述判别器模型的识别效果达到预设阈值,获得生成对抗网络模型的生成器模型和判别器模型,包括以下过程:
S331、固定所述生成器的参数,将所述混合样本中的一组混合样本数据输入至所述判别器中进行多次迭代训练,对判别器的参数进行更新;
S332、所述判别器完成多次迭代训练后,固定所述判别器的参数,对所述生成器的参数进行更新,得到新的生成器;
S333、选择所述混合样本中另一组混合样本数据,重复执行步骤S331和S332,直至判别器的识别效果达到预设阈值。
6.根据权利要求1所述的流水化产品数据集增强方法,其特征在于,所述基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集,包括以下过程:
将所述预备数据集和所述工业产品数据集进行混合,得到混合图像数据集;
对所述混合图像数据集进行分层抽样后,进行卡方校验,将通过卡方校验的混合图像数据集中的数据作为测试集;
进行假设实验,将所述测试集分别输入当前的判别器模型和旧模型,获得判别器模型的测试结果和旧模型的测试结果,构成总体测试结果,所述旧模型为前一次训练的判别器模型;
对所述总体测试结果进行统计推理,若所述统计推理的结果小于预设的抽样阈值,将所述预备数据集加入所述工业产品数据集中。
7.根据权利要求6所述的流水化产品数据集增强方法,其特征在于,所述对所述混合图像数据集进行分层抽样后,进行卡方校验,将通过卡方校验的混合图像数据集中的数据作为测试集,包括以下过程:
对所述混合图像数据集进行分层抽样后,获得每个类别的观察值;
确定显著性水平为a,使用卡方分布公式:
Figure FDA0003673913460000031
进行计算,其中,vi为第i个类别的观察值,pi为第i个类别的理论频次,n为样本量,χ2为卡方分布的计算结果;
Figure FDA0003673913460000032
与χ2进行数值比较,若
Figure FDA0003673913460000033
大于χ2,则样本符合总体分布,通过卡方校验,其中,
Figure FDA0003673913460000034
为理论上的卡方值。
8.一种流水化产品数据集增强系统,其特征在于,所述系统包括:
数据集获取模块,用于获取多张待训练的工业产品图像,制作工业产品图像数据集;
工业检测模型训练模块,用于基于所述工业产品图像数据集训练预设的检测模型,得到工业检测模型;
生成对抗网络模型训练模块,用于根据所述工业检测模型构建并训练生成对抗网络模型,获得所述生成对抗网络模型的生成器模型和判别器模型;
数据集增强模块,用于使用所述生成器模型构建预备数据集,并基于所述预备数据集和所述工业产品图像数据集训练所述判别器模型,若所述判别器模型符合数据增强条件,在所述工业产品图像数据集中加入所述预备数据集。
9.一种流水化产品数据集增强设备,其特征在于:包括处理器,所述处理器与存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:包括程序,当所述程序在计算机上运行时,执行如权利要求1至7中任一项所述的方法。
CN202210617706.7A 2022-06-01 2022-06-01 流水化产品数据集增强方法、系统、设备及存储介质 Pending CN114972273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210617706.7A CN114972273A (zh) 2022-06-01 2022-06-01 流水化产品数据集增强方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210617706.7A CN114972273A (zh) 2022-06-01 2022-06-01 流水化产品数据集增强方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114972273A true CN114972273A (zh) 2022-08-30

Family

ID=82959049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210617706.7A Pending CN114972273A (zh) 2022-06-01 2022-06-01 流水化产品数据集增强方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114972273A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563674A (zh) * 2023-07-12 2023-08-08 菲特(天津)检测技术有限公司 样本图像增强方法、系统、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563674A (zh) * 2023-07-12 2023-08-08 菲特(天津)检测技术有限公司 样本图像增强方法、系统、电子设备及可读存储介质
CN116563674B (zh) * 2023-07-12 2023-10-20 菲特(天津)检测技术有限公司 样本图像增强方法、系统、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN107168995B (zh) 一种数据处理方法及服务器
CN111177134B (zh) 适用于海量数据的数据质量分析方法、装置、终端及介质
CN113092981B (zh) 晶圆数据检测方法及系统、存储介质及测试参数调整方法
EP4120653A1 (en) Communication network performance and fault analysis using learning models with model interpretation
CN114372564A (zh) 用于对象分级的模型训练方法、对象分级方法及装置
CN116414815A (zh) 数据质量检测方法、装置、计算机设备和存储介质
CN115699209A (zh) 用于人工智能(ai)模型选择的方法
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN114972273A (zh) 流水化产品数据集增强方法、系统、设备及存储介质
CN116012131A (zh) 一种用于评估用户信贷风险的方法、系统、装置以及介质
CN115391561A (zh) 图网络数据集的处理方法、装置、电子设备、程序及介质
CN111767192A (zh) 基于人工智能的业务数据检测方法、装置、设备和介质
CN114169460A (zh) 样本筛选方法、装置、计算机设备和存储介质
CN111261298B (zh) 一种医疗数据质量预判方法、装置、可读介质及电子设备
CN111863135A (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN113392086B (zh) 基于物联网的医疗数据库构建方法、装置及设备
CN115098740A (zh) 一种基于多源异构数据源的数据质量检测方法及装置
CN114519520A (zh) 模型评估方法、装置及存储介质
CN112505337B (zh) 一种辅助分析样品的数据处理方法
CN114387089A (zh) 客户信用风险评估方法、装置、设备及存储介质
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN113994378A (zh) 检查装置、检查方法及检查程序、以及学习装置、学习方法及学习程序
KR20200123891A (ko) 애플리케이션의 품질 정보 제공 방법 및 장치
CN114611473B (zh) 一种检验执行文件的生成方法及电子设备
CN117708569B (zh) 一种病原微生物信息的识别方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination