CN109583474B - 一种用于工业大数据处理的训练样本生成方法 - Google Patents

一种用于工业大数据处理的训练样本生成方法 Download PDF

Info

Publication number
CN109583474B
CN109583474B CN201811297153.1A CN201811297153A CN109583474B CN 109583474 B CN109583474 B CN 109583474B CN 201811297153 A CN201811297153 A CN 201811297153A CN 109583474 B CN109583474 B CN 109583474B
Authority
CN
China
Prior art keywords
image
sample image
small sample
generated
industrial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811297153.1A
Other languages
English (en)
Other versions
CN109583474A (zh
Inventor
李斌
牛拴龙
唐立新
林惠
邱园红
李言洲
牛通之
王博
郝雪桐
李西凯
魏富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811297153.1A priority Critical patent/CN109583474B/zh
Publication of CN109583474A publication Critical patent/CN109583474A/zh
Application granted granted Critical
Publication of CN109583474B publication Critical patent/CN109583474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理领域,并具体公开了一种用于工业大数据处理的训练样本生成方法,包括:构建各类工业图像数据集,并根据各类工业图像数据集中的数据量划分出大样本数据集与小样本数据集;构建工业图像生成对抗网络及优化目标函数,基于优化目标函数对工业图像生成对抗网络进行迭代训练获得小样本生成参数模型;将大样本数据集中的大样本图像输入训练获得的小样本生成参数模型中以生成小样本图像,以此完成训练样本的生成。本发明无需对工业图像进行复杂的数字图像处理操作,也无需对原始工业图像进行各种变换,可以避免过多的人工干预,减少操作人员专业素养造成的工业图像生成的误差。

Description

一种用于工业大数据处理的训练样本生成方法
技术领域
本发明属于图像处理领域,更具体地,涉及一种用于工业大数据处理的训练样本生成方法。
背景技术
随着智能制造的提出,工业大数据技术成为未来提高制造业生产力、竞争力、创新力的关键因素,但作为驱动工业大数据技术的原始动力,工业数据尤其是工业图像数据仍然存在众多问题:1)样本不平衡问题,即工业图像数据各类之间存在数据量差距过大;2)可获取工业图像数据多样性不足,不能覆盖工业数据现有的数据特征。这使得使用工业数据训练的模型泛化能力低且鲁棒性很差。以上缺点严重制约工业大数据模型的性能提升。因此,需要一种工业图像训练样本的生成方法以提高数据的数量与多样性。
目前已有的工业图像生成方法主要为两种思路:1)对原始图像数据进行翻转、旋转、随机裁剪、局部变形等变换以扩充原始数据,该方法只能增加图像数据的数量,不能增加图像数据特征的多样性;2)利用数字图像处理技术以及CAD技术模拟工业图像数据,该方法只能对形态较为简单的工业图像进行建模并且生成的工业图像与真实缺陷图像存在一定的差异。因此,传统的工业图像生成方法已经不能满足需求,研究设计一种新的工业图像生成方法成为本领域中亟待解决的问题。
发明内容
针对使用工业大数据技术时,工业图像数据存在样本不均衡、多样性差等问题,本发明提供了一种用于工业大数据处理的训练样本生成方法,其基于工业图像数据不同类别之间的共有特点,利用对抗学习实现工业图像不同类别之间的相互生成,以生成以假乱真的工业图像数据集,其无需对工业图像进行建模,也无需在原始数据上进行变换,生成的工业图像数据集具有图像质量高、多样性好等优点。
为实现上述目的,本发明提出了一种用于工业大数据处理的训练样本生成方法,其特征在于,包括如下步骤:
1)构建各类工业图像数据集,并根据各类工业图像数据集中的数据量划分出大样本数据集与小样本数据集;
2)构建工业图像生成对抗网络cycleD2GAN,包括两个工业图像生成器和四个工业图像鉴别器,分别为小样本图像生成器G、大样本图像生成器F、小样本图像鉴别器D1s、小样本图像鉴别器D2s、大样本图像鉴别器D1b和大样本图像鉴别器D2b
3)构建工业图像生成对抗网络的优化目标函数,并基于优化目标函数分别对两个图像生成器和四个图像鉴别器进行迭代训练,以训练获得小样本生成参数模型,其中小样本图像生成器G的训练与小样本图像鉴别器D1s和D2s的训练为一组对抗过程,大样本图像生成器F的训练与大样本图像鉴别器D1b和D2b的训练为一组对抗过程;
4)将步骤1)中大样本数据集中的大样本图像输入训练获得的小样本生成参数模型中以生成小样本图像,以此完成训练样本的生成。
作为进一步优选的,步骤2)构建工业图像生成对抗网络cycleD2GAN,具体包括以下子步骤:
2.1)构建小样本图像生成器G,其网络结构包括输入层、学习层和输出层,其中学习层包括多个卷积+降采样层、若干个转换层、以及若干个卷积+上采样层,其输入为大样本图像,输出为生成的小样本图像;
2.2)构建大样本图像生成器F,其网络结构与小样本图像生成器G的网络结构相同,其输入为小样本图像,输出为生成的大样本图像;
2.3)构建小样本图像鉴别器D1s,其用于鉴别输入的小样本图像是生成的小样本图像还是真实的小样本图像,其网络结构包括输入层、学习层和输出层,其中学习层包括若干个卷积+降采样层、以及若干个全连接层,当输入为真实的小样本图像时输出为1,当输入为生成的小样本图像时输出为0;
2.4)构建小样本图像鉴别器D2s,其作用及网络结构与小样本图像鉴别器D1b相同,当输入为真实的小样本图像时输出为0,当输入为生成的小样本图像时输出为1;
2.5)构建大样本图像鉴别器D1b,其用于鉴别输入的大样本图像为生成的大样本图像还是真实的大样本图像,其网络结构与小样本图像鉴别器D1b相同,当输入为真实的大样本图像时输出为1,当输入为生成的大样本图像时输出为0;
2.6)构建大样本图像鉴别器D2b,其作用及网络结构与大样本图像鉴别器D1b相同,当输入为真实的大样本图像时输出为0,当输入为生成的大样本图像时输出为1。
作为进一步优选的,步骤3)中构建的工业图像生成对抗网络的优化目标函数包括生成器G与鉴别器D1s和D2s的对抗损失Lgan(G;D1s;D2s;b;s)、生成器F与鉴别器D1b和D2b的对抗损失Lgan(F;D1b;D2b;s;b)和循环一致损失Lcyc(G,F)。
作为进一步优选的,步骤3)中基于优化目标函数分别对两个图像生成器和四个图像鉴别器进行迭代训练以训练获得小样本生成参数模型,具体包括如下子步骤:
4.1)训练小样本图像生成器G:
固定F、D1s与D2s的参数,将真实的大样本图像b输入至G,利用反向传播更新G参数,使得Lgan(G;D1s;D2s;b;s)趋于更小,并将生成的小样本图像数据G(b)输入至F中,使得Lcyc(G,F)趋于更小;
4.2)训练大样本图像生成器F:
固定G、D1b与D2b的参数,将真实的小样本图像s输入至F,利用反向传播更新F参数,使得Lgan(F;D1b;D2b;s;b)趋于更小,并将生成的大样本图像数据F(s)输入至G中,使得Lcyc(G,F)趋于更小;
4.3)训练小样本图像鉴别器D1s和D2s
固定G的参数,将G生成的小样本数据G(b)与真实小样本图像s输入到鉴别器D1s与D2s中,利用反向传播更新D1s、D2s参数,使得Lgan(G;D1s;D2s;b;s)趋于更大;
4.4)训练大样本图像鉴别器D1b和D2b
固定F的参数,将F生成的大样本数据F(s)与真实大样本图像b输入到鉴别器D1b与D2b中,利用反向传播更新D1b,D2b参数,使得Lgan(F;D1b;D2b;s;b)趋于更大;
4.5)重复步骤4.1)至4.4)以不断循环迭代进行训练,直至达到所需的迭代次数,迭代完毕后得到小样本生成参数模型。
作为进一步优选的,所述方法还步骤如下步骤:5)对生成的小样本图像进行质量评价,包括相似度评价。
作为进一步优选的,所述相似度评价包括如下子步骤:
5.1)利用步骤4)中生成的小样本图像构建生成的小样本图像数据集,采集工业实际的图像数据以构建真实的小样本数据集;
5.2)统计生成的小样本图像数据集中的图像在各个灰度上的像素平均数:
Figure BDA0001851457100000041
其中,
Figure BDA0001851457100000042
为图片n中灰度级为i的像素数,N代表生成的小样本图像数量,Gi代表灰度级为i的像素平均数;
5.3)统计真实的小样本数据集中的图像在各个灰度上的像素平均数:
Figure BDA0001851457100000051
其中,
Figure BDA0001851457100000052
为图片n中灰度级为i的像素数,N代表真实的小样本图像数量,Ri代表灰度级为i的像素平均数;
5.4)比较相同灰度级之间生成图像与真实图像之间的差异:
Figure BDA0001851457100000053
其中,MSEg值越小,生成图像与真实图像灰度分布上越相似。
作为进一步优选的,所述相似度评价还包括如下子步骤:
6.5)计算真实小样本图像数据集与生成小样本图像数据集中图像的纹理特征GLCM分布;
6.6)计算真实小样本图像数据集与生成小样本图像数据集的纹理分布的KL距离:
Figure BDA0001851457100000054
其中,c表示某种GLCM参数:对比度、能量或同质性,Pc(x)表示参数c在真实小样本数据集的分布,Qc(x)表示参数c在生成小样本数据集的分布,Dkl(Pc(x)||Qc(x))表示参数c在真实小样本数据集分布与生成小样本数据集分布的KL距离,x为c的取值范围。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:
1.本发明在进行工业图像生成时,无需对工业图像进行复杂的数字图像处理操作,也无需对原始工业图像进行各种变换,可以避免过多的人工干预,减少操作人员专业素养造成的工业图像生成的误差。
2.本发明对于不同工业图像数据,无需制定不同工业图像生成方案,只需要对新的工业图像的数据集进行微调训练即可。
3.利用本发明方法生成的工业图像与真实图像质量更类似,灰度与纹理的分布与真实图像一致,并且本发明方法生成的工业图像数据集的多样性更高,对工业图像数据集的覆盖性更高,即本发明的方法生成的工业图像数据集在相似性与多样性上达到了更好的平衡。
4.本发明针对大数据处理时遇到的图像数据样本不均衡、多样性不足等问题,设计的工业样本生成网络cycleD2GAN,使用大样本数据生成小样本数据,扩充工业小样本数据,扩充后的小样本工业图像数据在多样性与相似性之间达到平衡,并可提高工业大数据模型的性能。
附图说明
图1为本发明提供的工业图像训练样本生成方法的流程图;
图2为本方法构建的工业图像生成网络的结构示意图;
图3(a)-(e)为本发明实施例构建的某零件柱面小样本图像数据集的部分缺陷示意图;
图4(a)-(t)为本发明实施例生成的部分某零件柱面缺陷图像示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
下面以某零件柱面缺陷生成为例对本发明进行详细描述,但本发明的应用对象并不限于此,该零件在生产过程中柱面会产生很多缺陷,存在缺陷种类多,每种缺陷的数量少,缺陷形态负载的特点,传统的数据生成方法无法有效地生成质量很好的缺陷,而本发明可以很好的生成缺陷,柱面缺陷生成包括以下步骤:
(1)构建柱面数据集
首先收集柱面缺陷数据并对其进行分类,其中缺陷种类包括:刷损、螺纹、留锡、打伤四种缺陷,按照不同的缺陷种类利用收集的缺陷数据构建不同缺陷图像的数据集,同时收集工业现场大量的无缺陷数据并构建无缺陷图像数据集,并对所有的数据进行大小归一化处理,以归一化为分辨率大小为256×256,部分柱面缺陷示意图见图3,柱面缺陷数据分布见表1,根据数据集的数量,将数量最多的无缺陷数据集作为训练样本生成方法的大样本数据集,其他各类缺陷数据作为小样本数据集,目的在于通过无缺陷数据生成各类与真实缺陷数据接近的缺陷数据,即所需生成的训练样本即缺陷数据。
表1缺陷生成数据集各缺陷数据分布
缺陷类型 无缺陷 螺纹 刷损 留锡 打伤
数量 600 80 80 80 80
(2)构建柱面缺陷生成对抗网络
缺陷图像对抗生成网络cycleD2GAN总共由6个网络构成,网络结构见图2,包括两个工业图像生成器和四个工业图像鉴别器的,分别为小样本图像生成器G、大样本图像生成器F、小样本图像鉴别器D1s、小样本图像鉴别器D2s、大样本图像鉴别器D1b和大样本图像鉴别器D2b,构建过程如下:
(2-1)构建缺陷图像生成器G,其网络结构包括输入层、学习层与输出层,其中学习层包括3个卷积+降采样层(即卷积+降采样层、卷积+降采样层、卷积+降采样层)、3个转换层(resnet block层)、以及3个卷积+上采样层,其输入为无缺陷图像(即大样本图像),输出为生成的缺陷图像(即生成的小样本图像);
(2-2)构建无缺陷图像生成器F,其网络结构与缺陷图像生成器G相同,其输入为缺陷图像(即小样本图像),输出为生成的无缺陷图像(即生成的大样本图像);
(2-3)构建缺陷图像鉴别器D1s,其作用为鉴别输入缺陷图像是生成图像还是真实图像,其网络结构为输入层、学习层和输出层,其中学习层包括5个卷积+降采样层、3个全连接层,当输入为真实缺陷图像(即真实的小样本图像),输出为1,输入为生成的缺陷图像,输出为0;
(2-4)构建缺陷图像鉴别器D2s,其作用及网络结构与D1s相同,当输入为真实缺陷数据,输出为0,当输入为生成缺陷数据,输出为1;
(2-5)构建无缺陷图像鉴别器D1b,其作用为鉴别输入无缺陷图像为生成图像还是真实图像,其网络结构与D1s相同,当输入为真实无缺陷数据(即真实的大样本图像),输出为1,输入为生成的无缺陷图像时,输出为0;
(2-6)构建无缺陷图像鉴别器D1b,其作用和网络结构与D1g相同,当输入为真实无缺陷数据,输出为0,当输入为生成的无缺陷图像时,输出为1;
(3)设计柱面缺陷生成网络优化函数
(3-1)生成器G与鉴别器D1s,D2s为一组对抗网络,通过比较真实缺陷图像s与生成缺陷图像G(b)输入到鉴别器D1s,D2s中的输出(即D1s(s)、D1s(G(b))、D2s(s)和D2s(G(b)))计算对抗损失Lgan(G;D1s;D2s;b;s),计算公式如下:
Lgan(G;D1s;D2s;b;s)
=Es~pdata(s)[logD1s(s)]+Eb~pdata(b)[log(1-D1s(G(b)))]
+Eb~pdata(b)[logD2s(G(b))]+Es~pdata(s)[log(1-D2s(s))]
其中,Es~pdata(s)指在小样本图像s分布pdata(s)下的期望(即平均数),Eb~pdata(b)指在大样本图像b分布pdata(b)下的期望(即平均数);
(3-2)生成器F与鉴别器D1b,D2b为一组对抗网络,通过比较真实无缺陷图像b与生成的无缺陷图像F(s)输入到鉴别器D1b,D2b中的输出(即D1b(b)、D1b(F(s))、D2b(b)和D2b(F(s)))计算对抗损失Lgan(F;D1b;D2b;s;b),计算公式如下:
Lgan(F;D1b;D2b;s;b)
=Eb~pdata(b)[logD1b(b)]+Es~pdata(s)[log(1-D1b(F(s)))]
+Es~pdata(s)[logD2b(F(s))]+Eb~pdata(b)[log(1-D2b(b))]
(3-3)G(b)输入到F的输出为F(G(b)),F(s)输入到G的输出为G(F(s)),通过比较真实无缺陷图像b与F(G(b)),真实缺陷图像s与G(F(s))的差异得到循环一致损失Lcyc(G,F),计算公式如下:
Lcyc(G,F)=Eb~pdata(b)[‖F(G(b))-b‖1]+Es~pdata(s)[‖G(F(s))-s‖1]
整体网络的优化函数即为:
L(G,F;G;D1s;D2s;D1b;D2b;s;b)
=Lgan(G;D1s;D2s;b;s)+Lgan(F;D1b;D2b;s;b)+Lcyc(G,F)
(4)训练柱面缺陷生成对抗网络
下列子步骤(4-1)到(4-4)不断往复迭代,直到生成满足需求的缺陷图像或达到相同的一定的迭代次数才停止:
(4-1)训练缺陷图像生成器G:
固定F、D1s与D2s的参数,将无缺陷图像b输入至G,利用反向传播更新G参数,使得Lgan(G;D1s;D2s;b;s)趋于更小(即D1s(G(b))趋于1,D2s(G(b))趋于0),也就是使D1s、D2s认为生成的缺陷图像数据G(b)为真实数据,并将生成的缺陷图像数据G(b)输入至F中,使得Lcyc(G,F)趋于更小,也就是使输出的无缺陷图像F(G(b))与真实无缺陷图像b不断接近。即利用反向传播更新G参数,直至满足如下条件停止更新G参数:D1s与D2s认为生成的缺陷数据G(b)为真实数据,F(G(b))与真实无缺陷图像b不断接近,最终在训练结束时使得真实图像与生成图像的像素平均差值小于5即可(即将真实图像与生成图像相同位置的像素值相减,再将每个像素位置相减之后的值相加除以像素位置的数目得到平均值),此时对应的参数即为G所求的参数,以此完成G的训练;
(4-2)训练无缺陷图像生成器F:
固定G、D1b与D2b的参数,将缺陷图像s输入至F,利用反向传播更新F参数,以使得Lgan(F;D1b;D2b;s;b)趋于更小(即D1b(F(s))趋于1,D2b(F(s))趋于0),也就是使D1b,D2b认为生成的无缺陷数据F(s)为真实数据,并将生成的数据F(s)输入至G中,使得Lcyc(G,F)趋于更小,也就是使G(F(s))与真实缺陷图像s不断接近,即利用反向传播更新F参数,直至满足如下条件停止更新F参数:D1b,D2b认为生成的无缺陷数据F(s)为真实数据,G(F(s))与真实缺陷图像s不断接近,最终在训练结束时使得真实图像与生成图像的像素平均差值小于5即可(即将真实图像与生成图像相同位置的像素值相减,再将每个像素位置相减之后的值相加除以像素位置的数目得到平均值),此时对应的参数即为F所求的参数,以此完成F的训练;
(4-3)训练缺陷图像鉴别器D1s,D2s
固定G的参数,将G生成的缺陷数据G(b)与缺陷图像s输入到鉴别器D1s与D2s中,利用反向传播更新D1s与D2s参数,使得Lgan(G;D1s;D2s;b;s)趋于更大,也就是使D1s与D2s能区分输入的数据为真实数据或者生成数据,具体来说,对D1s,输入为真实缺陷数据,输出为1,输入为生成缺陷数据,输出为0;对D2s来说,输入为真实缺陷数据,输出为0,输入为生成缺陷数据,输出为1;
(4-4)训练无缺陷图像鉴别器D1b,D2b
固定F的参数,将F生成的无缺陷数据F(s)与无缺陷图像b输入到鉴别器D1b与D2b中,利用反向传播更新D1b与D2b参数,以使得Lgan(F;D1b;D2b;s;b)趋于更大,也就是使D1b与D2b能区分输入的数据为真实数据或者生成数据,具体来说,对D1b,输入为无真实缺陷数据,输出为1,输入为生成无缺陷数据,输出为0;对D2b来说,输入为真实无缺陷数据,输出为0,输入为生成无缺陷数据,输出为1;
以上训练过程中,步骤(4-1)与(4-3)是一组对抗过程,使用零和博弈的思想相互竞争,最终使得鉴别器无法判断输入图像为生成图像还是真实图像,也就是生成图像可以以假乱真,同理步骤(4-2)与(4-4)也是一组对抗过程。
以上步骤(4-1)到(4-4)不断循环迭代进行训练,本实施例中设计迭代周期为600epoch,迭代完毕之后可得到缺陷生成参数模型(即训练获得带参数的缺陷图像生成器G),将步骤(1)中的无缺陷图像输入该模型中生成柱面缺陷图像,生成的柱面缺陷部分示意图见图4;
(5)生成柱面缺陷图像质量评价
质量评价主要包括多样性评价与相似度评价,其中多样性评价主要是统计生成柱面缺陷图像数据集中丢失的缺陷模式,其采用现有评价方法进行评价即可,在此不赘述。根据多样性评价结果,相较于现有其他先进的缺陷图像生成方法,本发明方法生成的缺陷数据集具有最好的多样性。相似度评价主要是从灰度与纹理两方面统计生成缺陷图像的特征,并与真实缺陷对应的特征进行比较,并以此评价生成缺陷图像与真实图像的相似程度。
相似度评价包括以下步骤:
(5-1)利用缺陷生成参数模型生成的缺陷图像数据构建缺陷图像数据集,采集实际工业缺陷图像数据构建真实缺陷数据集;
(5-2)统计生成缺陷数据集中的图像在各个灰度上的像素平均数:
Figure BDA0001851457100000111
其中,
Figure BDA0001851457100000112
为图片n中灰度级为i的像素数,N代表缺陷图像数量,Gi代表灰度级为i的像素平均数;
(5-3)统计真实缺陷数据集中的图像在各个灰度上的像素平均数:
Figure BDA0001851457100000121
其中,
Figure BDA0001851457100000122
为图片n中灰度级为i的像素数,N代表缺陷图像数量,Ri代表灰度级为i的像素平均数;
(5-4)比较相同灰度级之间生成缺陷图像与真实缺陷图像之间的差异:
Figure BDA0001851457100000123
其中,MSEg值越小,生成图像与真实图像灰度分布上越相似。
表2为评价结果,在生成的4种缺陷里,除了打伤排在第二,本发明方法生成其他三种缺陷生成图像的MSEg都是最小的,证明本发明方法生成的缺陷图像在灰度上与真实缺陷图像最类似。
表2不同方法生成缺陷的MSEg
螺纹 刷损 留锡 打伤
WGAN 8356.22 19808.75 11543.64 4217.42
D2GAN 13419.70 31037.57 19837.30 16261.88
CycleGAN 8436.92 18013.55 7672.33 12277.86
CycleD2GAN 4028.26 7474.10 3144.32 7239.66
相似度评价还包括以下步骤:
(5-5)计算真实缺陷数据集与生成缺陷数据集的图像的纹理特征GLCM(灰度共生矩阵)分布:
利用已有的GLCM计算方法计算每张真实缺陷图像的GLCM参数:对比度,能量,同质性等,形成每个参数在真实数据集的分布,同理,计算每张生成缺陷图像的GLCM参数:对比度,能量,同质性等,形成每个参数在生成数据集的分布;
(5-6)计算真实缺陷数据集与生成缺陷数据集的纹理分布的KL距离:
Figure BDA0001851457100000131
其中,c表示某种GLCM参数:对比度,能量,同质性,Pc(x)表示参数c在真实缺陷数据集的分布,Qc(x)表示参数c在生成缺陷数据集的分布,Dkl(Pc(x)||Qc(x))表示参数c在真实缺陷数据集分布与生成缺陷数据集分布的KL距离,x为c的取值范围,根据实际需要限定,其中,KL距离越小,生成缺陷在纹理上与真实数据越一致。
表3为评价结果,实验结果表明,本发明方法生成的缺陷纹理特征与真实缺陷的纹理特征最一致。
表3不同方法生成缺陷与真实缺陷的GLCM特征值的KL散度
Figure BDA0001851457100000132
综上,本发明主要包括缺陷数据集构建、缺陷生成网络设计、缺陷生成模型训练,缺陷生成网络采用对抗生成思想,通过生成器与鉴别器相互竞争以学习少量缺陷图像数据的特征而生成大量高质量的缺陷图像,本发明方法生成缺陷图像不需要对缺陷进行建模且适用于不同类型缺陷生成,生成的缺陷图像数据集具有单张缺陷图像与真实图像质量相似,数据集多样性好的特点,本发明的生成缺陷图像可用于缺陷数据集扩充以提高缺陷检测模型的准确度与鲁棒性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种用于工业大数据处理的训练样本生成方法,其特征在于,包括如下步骤:
1)构建各类工业图像数据集,并根据各类工业图像数据集中的数据量划分出大样本数据集与小样本数据集;
2)构建工业图像生成对抗网络cycleD2GAN,包括两个工业图像生成器和四个工业图像鉴别器,分别为小样本图像生成器G、大样本图像生成器F、小样本图像鉴别器D1s、小样本图像鉴别器D2s、大样本图像鉴别器D1b和大样本图像鉴别器D2b
3)构建工业图像生成对抗网络的优化目标函数,并基于优化目标函数分别对两个图像生成器和四个图像鉴别器进行迭代训练,以训练获得小样本生成参数模型,其中小样本图像生成器G的训练与小样本图像鉴别器D1s和D2s的训练为一组对抗过程,大样本图像生成器F的训练与大样本图像鉴别器D1b和D2b的训练为一组对抗过程;
4)将步骤1)中大样本数据集中的大样本图像输入训练获得的小样本生成参数模型中以生成小样本图像,以此完成训练样本的生成;
步骤2)构建工业图像生成对抗网络cycleD2GAN,具体包括以下子步骤:
2.1)构建小样本图像生成器G,其网络结构包括输入层、学习层和输出层,其中学习层包括多个卷积+降采样层、若干个转换层、以及若干个卷积+上采样层,其输入为大样本图像,输出为生成的小样本图像;
2.2)构建大样本图像生成器F,其网络结构与小样本图像生成器G的网络结构相同,其输入为小样本图像,输出为生成的大样本图像;
2.3)构建小样本图像鉴别器D1s,其用于鉴别输入的小样本图像是生成的小样本图像还是真实的小样本图像,其网络结构包括输入层、学习层和输出层,其中学习层包括若干个卷积+降采样层、以及若干个全连接层,当输入为真实的小样本图像时输出为1,当输入为生成的小样本图像时输出为0;
2.4)构建小样本图像鉴别器D2s,其作用及网络结构与小样本图像鉴别器D1b相同,当输入为真实的小样本图像时输出为0,当输入为生成的小样本图像时输出为1;
2.5)构建大样本图像鉴别器D1b,其用于鉴别输入的大样本图像为生成的大样本图像还是真实的大样本图像,其网络结构与小样本图像鉴别器D1b相同,当输入为真实的大样本图像时输出为1,当输入为生成的大样本图像时输出为0;
2.6)构建大样本图像鉴别器D2b,其作用及网络结构与大样本图像鉴别器D1b相同,当输入为真实的大样本图像时输出为0,当输入为生成的大样本图像时输出为1;
步骤3)中构建的工业图像生成对抗网络的优化目标函数包括生成器G与鉴别器D1s和D2s的对抗损失Lgan(G;D1s;D2s;b;s)、生成器F与鉴别器D1b和D2b的对抗损失Lgan(F;D1b;D2b;s;b)、以及循环一致损失Lcyc(G,F)。
2.如权利要求1所述的用于工业大数据处理的训练样本生成方法,其特征在于,步骤3)中基于优化目标函数分别对两个图像生成器和四个图像鉴别器进行迭代训练以训练获得小样本生成参数模型,具体包括如下子步骤:
4.1)训练小样本图像生成器G:
固定F、D1s与D2s的参数,将真实的大样本图像b输入至G,利用反向传播更新G参数,使得Lgan(G;D1s;D2s;b;s)趋于更小,并将生成的小样本图像数据G(b)输入至F中,使得Lcyc(G,F)趋于更小;
4.2)训练大样本图像生成器F:
固定G、D1b与D2b的参数,将真实的小样本图像s输入至F,利用反向传播更新F参数,使得Lgan(F;D1b;D2b;s;b)趋于更小,并将生成的大样本图像数据F(s)输入至G中,使得Lcyc(G,F)趋于更小;
4.3)训练小样本图像鉴别器D1s和D2s
固定G的参数,将G生成的小样本数据G(b)与真实小样本图像s输入到鉴别器D1s与D2s中,利用反向传播更新D1s、D2s参数,使得Lgan(G;D1s;D2s;b;s)趋于更大;
4.4)训练大样本图像鉴别器D1b和D2b
固定F的参数,将F生成的大样本数据F(s)与真实大样本图像b输入到鉴别器D1b与D2b中,利用反向传播更新D1b,D2b参数,使得Lgan(F;D1b;D2b;s;b)趋于更大;
4.5)重复步骤4.1)至4.4)以不断循环迭代进行训练,直至达到所需的迭代次数,迭代完毕后得到小样本生成参数模型。
3.如权利要求1所述的用于工业大数据处理的训练样本生成方法,其特征在于,所述方法还包括如下步骤:
5)对生成的小样本图像进行质量评价,包括相似度评价。
4.如权利要求3所述的用于工业大数据处理的训练样本生成方法,其特征在于,所述相似度评价包括如下子步骤:
5.1)利用步骤4)中生成的小样本图像构建生成的小样本图像数据集,采集实际的工业图像数据以构建真实的小样本数据集;
5.2)统计生成的小样本图像数据集中的图像在各个灰度上的像素平均数:
Figure FDA0003643631830000031
其中,
Figure FDA0003643631830000032
为图片n中灰度级为i的像素数,N代表生成的小样本图像数量,Gi代表灰度级为i的像素平均数;
5.3)统计真实的小样本数据集中的图像在各个灰度上的像素平均数:
Figure FDA0003643631830000041
其中,
Figure FDA0003643631830000042
为图片n中灰度级为i的像素数,N代表真实的小样本图像数量,Ri代表灰度级为i的像素平均数;
5.4)比较相同灰度级之间生成图像与真实图像之间的差异:
Figure FDA0003643631830000043
其中,MSEg值越小,生成图像与真实图像灰度分布上越相似。
5.如权利要求4所述的用于工业大数据处理的训练样本生成方法,其特征在于,所述相似度评价还包括如下子步骤:
6.5)计算真实小样本图像数据集与生成小样本图像数据集中图像的纹理特征GLCM分布;
6.6)计算真实小样本图像数据集与生成小样本图像数据集的纹理分布的KL距离:
Figure FDA0003643631830000044
其中,c表示某种GLCM参数:对比度、能量或同质性,Pc(x)表示参数c在真实小样本数据集的分布,Qc(x)表示参数c在生成小样本数据集的分布,Dkl(Pc(x)||Qc(x))表示参数c在真实小样本数据集分布与生成小样本数据集分布的KL距离,x为c的取值范围。
CN201811297153.1A 2018-11-01 2018-11-01 一种用于工业大数据处理的训练样本生成方法 Active CN109583474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811297153.1A CN109583474B (zh) 2018-11-01 2018-11-01 一种用于工业大数据处理的训练样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811297153.1A CN109583474B (zh) 2018-11-01 2018-11-01 一种用于工业大数据处理的训练样本生成方法

Publications (2)

Publication Number Publication Date
CN109583474A CN109583474A (zh) 2019-04-05
CN109583474B true CN109583474B (zh) 2022-07-05

Family

ID=65921186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811297153.1A Active CN109583474B (zh) 2018-11-01 2018-11-01 一种用于工业大数据处理的训练样本生成方法

Country Status (1)

Country Link
CN (1) CN109583474B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287311B (zh) * 2019-05-10 2023-05-26 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110222728B (zh) * 2019-05-15 2021-03-12 图灵深视(南京)科技有限公司 物品鉴别模型的训练方法、系统及物品鉴别方法、设备
KR102225099B1 (ko) * 2019-05-17 2021-03-09 라온피플 주식회사 불량 이미지 생성 장치 및 방법
CN110443293B (zh) * 2019-07-25 2023-04-07 天津大学 基于双判别生成对抗网络文本重构的零样本图像分类方法
CN111145116B (zh) * 2019-12-23 2022-05-20 哈尔滨工程大学 一种基于生成对抗网络的海面雨天图像样本增广方法
CN111445484B (zh) * 2020-04-01 2022-08-02 华中科技大学 一种基于图像级标注的工业图像异常区域像素级分割方法
CN112307343B (zh) * 2020-11-05 2023-04-07 重庆邮电大学 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法
CN112950561B (zh) * 2021-02-22 2022-07-26 中国地质大学(武汉) 光纤端面缺陷检测方法、设备及存储介质
CN113240087B (zh) * 2021-05-14 2023-10-17 平安科技(深圳)有限公司 图像生成模型构建方法、装置、介质及设备
CN117649635B (zh) * 2024-01-30 2024-06-11 湖北经济学院 狭窄水道场景影消点检测方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577985A (zh) * 2017-07-18 2018-01-12 南京邮电大学 基于循环生成对抗网络的人脸头像卡通化的实现方法
CN108009628A (zh) * 2017-10-30 2018-05-08 杭州电子科技大学 一种基于生成对抗网络的异常检测方法
CN108460717A (zh) * 2018-03-14 2018-08-28 儒安科技有限公司 一种基于双判别器的生成对抗网络的图像生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10636141B2 (en) * 2017-02-09 2020-04-28 Siemens Healthcare Gmbh Adversarial and dual inverse deep learning networks for medical image analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577985A (zh) * 2017-07-18 2018-01-12 南京邮电大学 基于循环生成对抗网络的人脸头像卡通化的实现方法
CN108009628A (zh) * 2017-10-30 2018-05-08 杭州电子科技大学 一种基于生成对抗网络的异常检测方法
CN108460717A (zh) * 2018-03-14 2018-08-28 儒安科技有限公司 一种基于双判别器的生成对抗网络的图像生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dual Discriminator Generative Adversarial Nets;Tu Dinh Nguyen;《arXiv》;20170912;第1-11页 *
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks;Jun-Yan Zhu等;《IEEE》;20171225;第1-10页 *

Also Published As

Publication number Publication date
CN109583474A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109583474B (zh) 一种用于工业大数据处理的训练样本生成方法
CN110097543B (zh) 基于生成式对抗网络的热轧带钢表面缺陷检测方法
CN110992354A (zh) 基于引入自动记忆机制对抗自编码器的异常区域检测方法
CN101271572B (zh) 基于免疫克隆选择聚类的图像分割方法
CN111862093A (zh) 一种基于图像识别的腐蚀等级信息处理方法及系统
CN111145116A (zh) 一种基于生成对抗网络的海面雨天图像样本增广方法
CN113869208B (zh) 基于sa-acwgan-gp的滚动轴承故障诊断方法
CN110728656A (zh) 基于元学习的无参考图像质量数据处理方法、智能终端
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN116091455A (zh) 基于机器视觉的钢网表面缺陷判定方法
CN116012337A (zh) 一种基于改进YOLOv4的热轧带钢表面缺陷检测方法
CN112489168A (zh) 一种图像数据集生成制作方法、装置、设备及存储介质
CN116051382A (zh) 一种基于深度强化学习生成式对抗神经网络和超分辨率重建的数据增强方法
CN115564749A (zh) 基于终身学习的多类别纹理表面缺陷检测模型的构建方法
CN116071352A (zh) 一种电力安全工器具表面缺陷图像的生成方法
CN111652264A (zh) 基于最大均值差异的负迁移样本筛选方法
CN114792126A (zh) 一种基于遗传算法的卷积神经网络设计方法
CN112686822B (zh) 一种基于堆叠生成对抗网络的图像补全方法
CN117389734A (zh) 一种基于梯度差异的联邦学习节点选择方法
CN110717960B (zh) 一种建筑垃圾遥感图像样本的生成方法
CN116993639A (zh) 基于结构重参数化的可见光与红外图像融合方法
CN111222529A (zh) 一种基于GoogLeNet-SVM的污水曝气池泡沫识别方法
CN116543414A (zh) 多模型融合的舌质颜色分类及舌质红度和紫度量化方法
CN112508958B (zh) 一种轻量多尺度的生物医学图像分割方法
CN113538484B (zh) 一种深度细化的多重信息嵌套边缘检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant