CN116740526A - 一种不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质 - Google Patents
一种不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质 Download PDFInfo
- Publication number
- CN116740526A CN116740526A CN202310309148.2A CN202310309148A CN116740526A CN 116740526 A CN116740526 A CN 116740526A CN 202310309148 A CN202310309148 A CN 202310309148A CN 116740526 A CN116740526 A CN 116740526A
- Authority
- CN
- China
- Prior art keywords
- base
- unbalanced
- sample
- module
- ship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000000576 coating method Methods 0.000 title claims abstract description 55
- 239000011248 coating agent Substances 0.000 title claims abstract description 53
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000010276 construction Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 238000010422 painting Methods 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000002922 simulated annealing Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 13
- 230000035772 mutation Effects 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 7
- 210000000349 chromosome Anatomy 0.000 claims description 6
- 230000002068 genetic effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000004880 explosion Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 4
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000137 annealing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000005336 cracking Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000005187 foaming Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007591 painting process Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000007665 sagging Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003746 surface roughness Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质,方法包括构建不平衡的小样本船舶涂装缺陷数据集;对不平衡的小样本船舶涂装缺陷数据集进行数据预处理;将预处理后的不平衡的小样本船舶涂装缺陷数据集划分为K个不同的训练样本子集;得到初始基判别器集;得到最优的基判别器子集;利用有效的IGASEN‑EMWGAN模型,得到平衡的船舶涂装缺陷数据集;系统包括样本数据采集模块,数据预处理模块,第一构建模块,第二构建模块,模型训练模块以及数据生成模块;可读存储介质中有多条指令。本发明有效地解决了选择性集成学习中基判别器的判别精度和多样性之间难以平衡、组合爆炸、计算复杂度较大、容易陷入局部最优等问题。
Description
技术领域
本发明涉及船舶涂装缺陷图像生成技术领域,尤其涉及一种基于IGASEN
-EMWGAN的不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质。
背景技术
大多数船厂的涂装缺陷检测是在涂装作业完成后,由工作人员在特定时间内对涂层质量进行检测判断并记录产生缺陷的种类及等级。这种涂装缺陷识别方式是通过人的肉眼看的,这增加了人的工作强度和压力的同时,也大大增加了时间成本,降低了船舶涂装作业的效率,因而在船舶涂装行业中,智能识别涂装缺陷并反馈涂装过程的信息如涂装缺陷类型、尺寸、形状和每种缺陷的位置等至关重要。
由于标记成本过高、自然图像噪声严重、数据安全和隐私保护等种种原因,目前并没有专门的、大量标注的船舶涂装缺陷数据集用于深度学习模型的训练和众多参数的调整,极易出现模型过拟合、判别精度低、陷入局部最优解等小样本问题,由于所采集到涂装缺陷图像类别数目差异较大,导致船舶涂装缺陷数据集呈现类别不平衡的特点,极易使传统的深度生成模型(如生成对抗网络)中的单判别器模型判别性能欠佳导致判别误差大,无法在准确性和差异性之间寻找好的平衡,导致模式崩溃、训练稳定性差等问题。
在机器学习领域,虽然现有的不平衡学习方法,包括过采样、欠采样、混合采样和K-means聚类技术,可以在一定程度上减轻不平衡数据的影响,但是采样方法具有高度的不稳定性,容易导致信息丢失。通过查阅相关文献发现,集成学习技术恰好可以解决类别不平衡问题和泛化能力不足等问题,并在小样本、类别不平衡、高维复杂数据结构上取得了良好的效果,但是目前选择性集成学习方法仍存在判别精度高和多样性难以平衡、多样性评价指标不定,全局寻优能力不足,容易陷入局部最优解的问题。
发明内容
发明目的:本发明的目的是提供一种基于IGASEN-EMWGAN的不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质。
技术方案:本发明包括如下步骤:
(1)通过涂装工艺数据库搜集船舶涂装缺陷图像,构建不平衡的小样本船舶涂装缺陷数据集;
(2)对不平衡的小样本船舶涂装缺陷数据集进行数据预处理,从而得到预处理后的不平衡的小样本船舶涂装缺陷数据集;
(3)利用Bootstrap采样算法将预处理后的不平衡的小样本船舶涂装缺陷数据集划分为K个不同的训练样本子集subi(i=1,2,...,K),每个训练样本子集中的样本个数为M个,其中候选基判别器H={h1,h2,…,hi}(i=1,2,...,K);
(4)使用训练样本数量扰动方法和算法参数扰动方法独立训练一批不同的候选基判别器,并对候选基判别器的网络参数通过并行优化策略进行优化,得到初始基判别器集;
(5)通过基于模拟退火算法改进的遗传算法搜索最优的基判别器子集,使用Metropolis准则保留判别性能欠佳的基判别器子集,使用F1分数、G-mean值和改进的非成对评估者间一致性度量κ′值逐步剔除冗余基判别器,保留一些判别精度较高和差异性较大的基判别器子集,得到最优的基判别器子集;
(6)通过加权集成策略将入围的基判别器子集进行组合,得到有效的组合模型,即IGASEN-EMWGAN模型,并将少数类样本输入到已训练好的IGASEN-EMWGAN模型,生成新的船舶涂装缺陷图像,得到平衡的船舶涂装缺陷数据集。
进一步地,所述步骤(2)包括:
(21)数据集划分,将预处理后的船舶涂装缺陷数据集按0.64:0.16:0.2的比例划分为训练集、测试集和验证集;
(22)按比例调整图像大小,将所有图像的大小调整为128*128*3;
(23)数据平滑,对图像进行平滑处理,即采用高斯滤波方法来去除图像噪声,改善图像的质量;
(24)数据归一化处理,将像素从[0,255]重新调整到[0,1],对每个图像进行归一化处理,使每个特征在同一维度。
进一步地,所述步骤(3)中的训练样本子集要对少数类样本权重和多数类样本权重进行初始化,少数类样本权重定义为:多数类样本权重定义为:/>其中|S|代表训练集的样本总数,|S-|和|S+|分别表示训练集中少数类样本和多数类的样本个数。
进一步地,所述步骤(4)中的候选基判别器是同质且独立训练的,训练样本数量扰动方法为五折交叉验证方法,参数扰动方法采用参数网格划分方法。
进一步地,所述步骤(5)中模拟退火算法的Metropolis准则、准确性评价指标即F1分数和G-mean值的加权值、多样性评价指标分别为:
其中,p表示接受新的基判别器的概率,E(n+1)和E(n)分别表示修改网络参数的基判别器AD值和之前的基判别器AD值,TP为真正例,TN为真反例,FP为假正例,FN为假反例,表示训练集/>中K个基判别器的平均判别精度,/>和ls∈{0,1}分别表示具有n维特征的训练集样本及其类别标签,0表示生成样本,1表示真实样本;w0和w1分别表示少数类样本权重和多数类样本权重,Nij xy表示基判别器模型hi对某一验证集实例判别为x,而基判别器hj判别为y的样本集个数,Nij 0和Nij 1分别表示验证集实例为生成样本、真实样本的总数。
进一步地,所述步骤(6)中的入围的基判别器子集包含使用Metropolis准则保留的判别性能欠佳的基判别器子集和使用准确性-多样性评价指标保留的一些判别精度较高和差异性较大的基判别器子集。
进一步地,所述步骤(6)中IGASEN模型的具体步骤包括:
(61)染色体二进制编码,将候选的基判别器集进行编码操作,入围的基判别器记为1,未入围的候选基判别器记为0;
(62)初始化算法参数种群,即使用算法参数扰动方法得到随机的不同超参数的候选基判别器集;
(63)对初始化的种群进行突变变异、交叉变异、评估、选择等操作;
(64)得到目前最优的候选基判别器,并将其作为初始解,计算其对应的AD值;
(65)对初始解施加扰动,产生新解,计算其对应的AD值,若新解的AD值大于等于初始解的AD值,则接受新解作为当前解,否则使用模拟退火算法的Metropolis准则按一定概率保留新解,即保留判别性能欠佳的基判别器;
(66)将入围的基判别器集对应的染色体进行解码操作,并通过加权集成策略将入围的基判别器集进行组合,得到有效的组合模型。
进一步地,所述步骤(64)中的AD为:
AD=β×Value(F1-score)+γ×Value(G-mean)+(1-β-γ)×κ′,0≤β≤1,0≤γ≤1
其中,AD即目标函数,β和γ用来调整基判别器模型的准确性评价指标和多样性评价指标κ′之间的权重参数。
进一步地,样本数据采集模块,数据预处理模块,第一构建模块,第二构建模块,模型训练模块以及数据生成模块,其中所述第一构建模块包括参数设置子模块,二进制编码子模块,初始化种群子模块,选择和变异子模块以及模拟退火子模块。
进一步地,所述计算机可读存储介质中有多条指令,所述指令适于处理器进行加载并执行,以实现权利要求1至8任一项所述的不平衡船舶涂装缺陷图像生成方法中。
有益效果:本发明与现有技术相比,具有如下显著优点:通过基于准确性-多样性目标函数逐步剔除冗余基判别器,保留一些判别精度较高和差异性较大的基判别器,得到最优基判别器子集,并结合模拟退火算法的概率突跳特性,随机寻找最优解,从而有效地解决了选择性集成学习中基判别器的判别精度和多样性之间难以平衡、组合爆炸、计算复杂度较大、容易陷入局部最优解和进化生成对抗网络的单判别器无法保证生成样本的质量和多样性,导致模式崩溃、训练稳定性差等问题;为智能船舶涂装缺陷识别检测问题提供有效的理论和技术支持,具有较高的工程研究价值和应用前景。
附图说明
图1为本发明的流程图;
图2为基于IGASEN的集成裁剪方法的流程图;
图3为不同数量的基判别器下FID值和运行时间对比图;
图4为两点交叉算子在不同迭代次数下的消融对比图;
图5为本发明的系统结构示意图;
图6为可读存储介质的结构示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明包括以下实施步骤:
(1)通过涂装日志、施工账本和船厂的涂装工艺数据库搜集船舶涂装缺陷图像,构建不平衡的小样本船舶涂装缺陷数据集。其中,不平衡的小样本船舶涂装缺陷数据集总共有1215张,即N=1215,其中漏涂3张,流挂86张,橘皮759张,开裂77张,渗出71张,起皱73张,表面粗糙8张,起泡108张,针孔26张,分层4张。
(2)对不平衡的小样本船舶涂装缺陷数据集进行数据预处理,从而得到预处理后的不平衡的小样本船舶涂装缺陷数据集:
(21)数据集划分:将预处理后的船舶涂装缺陷数据集按0.64∶0.16∶0.2的比例划分为训练集、测试集和验证集;
(22)按比例调整图像大小:由于所采集到的原始船舶涂装缺陷图像大小比例各异,因此将所有图像的大小调整为128*128*3;
(23)数据平滑:由于所采集到的船舶涂装缺陷图像存在拍摄环境不明亮、亮度不均匀,极易出现高斯噪声的问题,因此需要对图像进行平滑处理,即采用高斯滤波方法来去除图像噪声,改善图像的质量。
(24)数据归一化处理:由于数值差异较大,容易导致网络收敛缓慢,神经元输出饱和,因此将像素从[0,255]重新调整到[0,1],对每个图像进行归一化处理。进而保证每个特征在同一个维度,大大提高神经网络的性能。
(3)利用Bootstrap采样算法将预处理后的不平衡的小样本船舶涂装缺陷数据集划分为K个不同的训练样本子集subi(i=1,2,...,K),每个训练样本子集中的样本个数为M个。其中K为候选基判别器H={h1,h2,…,hi}(i=1,2,...,K)的个数,
所述步骤(3)中训练样本子集需要对少数类样本权重和多数类样本权重进行权重初始化,这样可以减少初始不平衡数据的影响,使初始基判别器具有更好的判别能力,保证了基判别器的多样性。少数类样本权重和多数类样本权重分别定义为:
式中,|S|代表训练集的样本总数,|s-|和|s+|分别表示训练集中少数类样本和多数类的样本个数。
(4)使用训练样本数量扰动方法和算法参数扰动方法独立训练一批不同的候选的同质基判别器,且各基判别器网络参数之间通过并行优化策略优化,得到不同的候选的初始基判别器集;所述的训练样本数量扰动方法是五折交叉验证方法。所述的算法参数扰动方法是参数网格划分方法,即设置不同的网络超参数(如隐层神经元数、层数量和初始连接权值等)来构建差异性较大的候选基判别器集,从而得到不同的候选的初始基判别器集。
(5)通过基于模拟退火算法改进的遗传算法搜索最优的基判别器子集,其中使用Metropolis准则保留判别性能欠佳的基判别器子集,防止陷入局部最优解等问题。由于对于不平衡数据集来说,F1分数和G-mean值可以更有效地进行评价模型效果的好坏,因此使用F1分数、G-mean值和改进的非成对评估者间一致性度量值逐步剔除冗余基判别器,保留一些判别精度较高和差异性较大的基判别器子集,得到最优的基判别器子集;所述模拟退火算法的Metropolis准则、准确性评价指标(F1分数和G-mean值的加权值)和多样性评价指标(改进的非成对评估者间一致性度量κ′)分别定义如下:
p表示接受新的基判别器的概率,E(n+1)和E(n)分别表示修改网络参数的基判别器AD值和之前的基判别器AD值,TP为真正例,TN为真反例,FP为假正例,FN为假反例,表示训练集/>中K个基判别器的平均判别精度,/>和ls∈{0,1}分别表示具有n维特征的训练集样本及其类别标签,0表示生成样本,1表示真实样本;w0和w1分别表示少数类样本权重和多数类样本权重,Nij xy表示基判别器模型hi对某一验证集实例判别为x,而基判别器hj判别为y的样本集个数,Nij 0和Nij 1分别表示验证集实例为生成样本、真实样本的总数。
则目标函数AD,即准确性-多样性评价指标为:
AD=β×Value(F1-score)+γ×Value(G-mean)+(1-β-γ)×κ′,0≤β≤1,0≤γ≤1
其中,AD即目标函数;β和γ用来调整基判别器模型的准确性评价指标(F1-score值和G-mean值的加权值)和多样性评价指标κ′之间的权重参数。
(6)通过加权集成策略将入围的基判别器子集进行组合,得到有效的组合模型,即IGASEN-EMWGAN模型,并将少数类样本输入到已训练好的IGASEN-EMWGAN模型,生成新的船舶涂装缺陷图像,得到平衡的船舶涂装缺陷数据集,如图2所示,
(61)染色体二进制编码。将候选的基判别器集进行编码操作,入围的基判别器记为1,未入围的候选基判别器记为0;
(62)初始化算法参数种群。即使用算法参数扰动方法得到随机的不同超参数的候选基判别器集;
(63)对初始化的种群进行突变变异、交叉变异、评估、选择等操作。其中,突变变异操作采用minimax变异和least-squares变异,交叉变异操作采用两点交叉方法;
(64)得到目前最优的候选基判别器,并将其作为初始解,计算其对应的AD值;
(65)对初始解施加扰动,产生新解,计算其对应的AD值,若新解的AD值大于等于初始解的AD值,则接受新解作为当前解,否则使用模拟退火算法的Metropolis准则按一定概率保留新解,即保留判别性能欠佳的基判别器;
(66)将入围的基判别器集对应的染色体进行解码操作,并通过加权集成策略将入围的基判别器集进行组合,得到有效的组合模型。
以下结合一个具体的少数类船舶涂装缺陷图像为例来说明基于IGASEN-EMWGAN的不平衡船舶涂装缺陷图像生成方法的有效性。
将EGAN作为基模型,并在提出的IGANSEN-EMWGAN模型中加入两点交叉算子(TP),以进一步验证各个模块在提出的方法中的重要作用。如图3所示,本发明提出的具有两点交叉算子的IGASEN-EMWGAN的FID平均值略低于没有两点交叉算子的IGASEN-EMWGAN。提出的具有两点交叉算子的IGASEN-EMWGAN产生的FID值最低。
基鉴别器的数量对所提出的IGASEN-EMWGAN模型的最终泛化性能有很大的影响。如果基鉴别器数量不理想,进化的基鉴别器将陷入局部最优解,鉴别器提供的梯度信息不足导致基判别器不能完美地拒绝生成样本。此外,基数鉴别器的数量过多往往会增加系统的时间计算成本,导致判别性能下降。为此,考虑到计算开销和识别性能之间的权衡,FID值与基判别器数量之间的关系如图4所示。随着基判别器数量τ的增加,FID值减小,这意味着IGASEN-EMWGAN的生成性能更好。但是,随着基判别器数量越来越多,系统的计算代价就越大。当基鉴别器个数为8时,FID值达到最小值。随着基鉴别器的不断增加,FID值反而增大。为此,为了在计算开销和生成性能的改进之间进行权衡,本发明将τ的值设置为8。此时FID平均值为25.413,运行时间为64.2±0.8s。
参照表1,为了证明本发明方法的优越性,研究了存活亲本数量与生成性能之间的关系。如表1所示,使用Inception Score和FID Score的指标来评估生成器的生成性能。由于E-GAN与本发明方法相似,我们以E-GAN为基准,与IGASEN-EMWGAN模型进行比较。在表1中,我们对E-GAN取多个生成器个数μ={1,2,4,8},并对IGASEN-EMWGAN取判别器个数τ={1,2,4,8}。迭代150k次。结果表明,本发明提出的IGASEN-EMWGAN模型在船舶不平衡涂层缺陷数据库上的性能优于E-GAN模型。表1船舶涂装缺陷数据集上各种GANs的IS和FID评分比较。(其中:↑表示越高越好,↓表示越低越好)。
表1
如图5所示,本发明提供了一种基于IGASEN-EMWGAN的不平衡船舶涂装缺陷图像生成系统600,该系统600可以包括:样本数据采集模块610、数据预处理模块620、第一构建模块630、第二构建模块640、训练模块650和图像生成模块660。其中:所述样本数据采集模块610,用于从涂装日志、施工账本和船厂的涂装工艺数据库获取船舶涂装缺陷图像,并根据其构建第一数据集;所述涂装缺陷图像至少包含漏涂,流挂,橘皮,开裂,渗出,起皱,表面粗糙,起泡,针孔,分层等缺陷;所述数据预处理模块620,用于对所述第一数据集进行预处理工作,具体包含数据集划分子模块621,按比例调整图像大小子模块622,数据平滑子模块623和数据归一化处理子模块624等步骤,得到第二数据集;数据集划分子模块621,用于将预处理后的船舶涂装缺陷数据集按0.64:0.16:0.2的比例划分为训练集、测试集和验证集;按比例调整图像大小子模块622:由于所采集到的原始船舶涂装缺陷图像大小比例各异,因此将所有图像的大小调整为128*128*3;数据平滑子模块623:由于所采集到的船舶涂装缺陷图像存在拍摄环境不明亮、亮度不均匀,极易出现高斯噪声的问题,因此需要对图像进行平滑处理,即采用高斯滤波方法来去除图像噪声,改善图像的质量。数据归一化处理子模块624,用于将像素从[0,255]重新调整到[0,1],保证每个特征在同一个维度,大大提高神经网络的性能;
第一构建模块630,用于利用模拟退火算法、遗传算法和选择性集成学习方法构建基于混合进化算法的集成剪枝方法;参数设置子模块631,用于设置遗传算法参数,包括确定生成器突变个数M、判别器的突变个数N、突变变异次数nm、交叉变异次数nc、变异率和基判别器集的适应度函数中的超参数β、γ;设置模拟退火算法参数,包括确定初始退火温度T0和退火系数α;设置进化生成对抗网络参数,包括生成器网络参数Gθ、判别器网络参数Dφ、每次迭代中判别器更新次数nD、随机噪声变量z的空间维数dz、训练迭代次数T、生成器父代个数μ和候选的基判别器个数τ;二进制编码子模块632,用于将同质的候选基判别器集Dφ l(i=1,2,…,τ)进行二进制编码操作。即入围的基判别器记为1,未入围的候选基判别器记为0;初始化种群子模块633,用于生成初始的候选基判别器集,即使用算法参数扰动方法得到随机的的不同超参数的候选基判别器集;选择和变异子模块634,用于解码初始种群并计算个体适应度AD值,并基于计算得到的适应度值依次执行遗传算法的选择操作和变异操作生成新一代种群,计算新一代种群最优个体目标函数AD(Dφ);模拟退火子模块635,用于提高局部搜索能力,避免搜索过程陷入局部最优解。即通过Metropolis准则保留判别性能欠佳的基判别器子集。第二构建模块640,用于利用基于混合进化算法的集成剪枝方法改进进化多判别器生成对抗网络模型,构建IGASEN-EMWGAN模型;模型训练模块650,用于选择k个基判别器,即采用基于IGASEN的加权集成策略和五折交叉验证方式让每个基判别器对所述训练集的样本子集进行训练,得到最优的基判别器子集。数据生成模块660,用于利用所述IGASEN-EMWGAN模型生成少数类的船舶涂装缺陷图像,得到一个平衡的数据集。该方法、系统和可读存储介质不仅适用于船舶涂装缺陷图像生成,其他类别不平衡的船舶建造工艺(加工、焊接)缺陷图像生成均适用。
如图6所示,本发明提供了一种计算机电子设备700,该计算机电子设备700可以包括:终端或服务器,比如计算机设备可以作为图像生成终端,该终端可以为手机、平板电脑等等;又比如计算机设备可以为服务器,如图像生成服务器等。
该计算机电子设备700可以包括一个或多个处理核心的处理器701、网络接口702、一个或多个计算机可读存储介质的存储器703,此外,上述计算机设备还可以包括:用户接口704、电源705、输入单元706、输出单元707和至少一个通信总线708等部件。
其中,所述处理器701是该计算机电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过读取、加载、调用和执行存储器703内的软件程序、数据和模块,实现如权利要求1至11任一项所述的基于IGASEN-EMWGAN的不平衡船舶涂装缺陷图像生成方法中的步骤,可以包括中央处理器、图形处理器等。
所述存储器703与所述处理器701相连,所述存储器用于存储一个或多个计算机应用程序和数据,可以包括远离前述处理器的高速RAM存储器和非不稳定的存储器(如磁盘存储器)、操作系统、网络通信模块以及用户接口模块。其中,网络通信模块可以允许计算机电子设备与其他设备进行无线或有线通信以交换数据。该计算机软件程序代码段可以通过网络通信模块从网络上被下载和安装。此外,存储器还可以包括设备控制应用程序,以提供处理器对存储器的访问。
所述网络接口702用于网络层的IP数据报变成独立的网络信息传输单元,负责帧在物理线路上的发送与接收。
所述用户接口704用于提供网络通讯功能,方便用户输入,可以包括液晶显示器(Display)、键盘(keyboard)和标准的有线或无线接口(如WiFi接口)。
所述电源705用于给各个部件供电,可以通过电源管理系统与处理器逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或多个直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
所述输入单元706用于接收输入的数字或字符信息(如用户身份信息、样本数据、训练集等),以及产生与用户设置以及功能控制有关的触摸屏、键盘、鼠标、麦克风、摄像头、陀螺仪、操作杆、光学或者轨迹球信号输入。
所述输出单元707用于输出结果,可以包括液晶显示屏(LCD)、扬声器、振动器等显示设备。
所述通信总线708用于实现各组件之间(处理器、存储器、输入/输出单元等)的连接通信,保证计算机电子设备与其他设备可以进行无线/有线通信以交换数据。
该计算机软件产品程序和数据可以存储在计算机可读存储介质中,如具有一个或多个导线的电连接、计算机的电子电路、半导体存储器设备、软盘、射频(RF)、硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存器件(FLASH)、光纤介质、磁碟或光盘或者上述任意组件的组合等,相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。其包括若干指令用以使得计算机电子设备(可以是手机、个人计算机,服务器,或者网络设备等执行本发明实施例所述的方法。
该计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者上述两者任意两者的任意组合。其中,计算机可读信号介质可以包含在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码段。这种传输的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或者上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质意外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其组合使用的程序。计算机可读介质包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、射频(RF)等,或者上述任意组件的组合。其中,计算机可读存储介质包含但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述任意组件的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其组合使用。
可以以一种或多种计算机程序设计语言或者组合来编写用于执行本公开实例的操作的计算机程序代码。其中,计算机程序设计语言包含Python、C语言、Java语言等。这些程序代码以一种独立的程序包格式在用户计算机、远程计算机或者服务器上执行。其中,远程计算机可以通过互联网、企业内部网、移动通信网、局域网(LAN)、广域网(WAN)或者上述网络的组合连接到用户计算机上。
Claims (10)
1.一种不平衡船舶涂装缺陷图像生成方法,其特征在于,包括如下步骤:
(1)通过涂装工艺数据库搜集船舶涂装缺陷图像,构建不平衡的小样本船舶涂装缺陷数据集;
(2)对不平衡的小样本船舶涂装缺陷数据集进行数据预处理,从而得到预处理后的不平衡的小样本船舶涂装缺陷数据集;
(3)利用Bootstrap采样算法将预处理后的不平衡的小样本船舶涂装缺陷数据集划分为K个不同的训练样本子集subi(i=1,2,...,K),每个训练样本子集中的样本个数为M个,其中候选基判别器H={h1,h2,…,hi}(i=1,2,...,K);
(4)使用训练样本数量扰动方法和算法参数扰动方法独立训练一批不同的候选基判别器,并对候选基判别器的网络参数通过并行优化策略进行优化,得到初始基判别器集;
(5)通过基于模拟退火算法改进的遗传算法搜索最优的基判别器子集,使用Metropolis准则保留判别性能欠佳的基判别器子集,使用F1分数、G-mean值和改进的非成对评估者间一致性度量κ′值逐步剔除冗余基判别器,保留一些判别精度较高和差异性较大的基判别器子集,得到最优的基判别器子集;
(6)通过加权集成策略将入围的基判别器子集进行组合,得到有效的组合模型,即IGASEN-EMWGAN模型,并将少数类样本输入到已训练好的IGASEN-EMWGAN模型,生成新的船舶涂装缺陷图像,得到平衡的船舶涂装缺陷数据集。
2.根据权利要求1所述的不平衡船舶涂装缺陷图像生成方法,其特征在于,所述步骤(2)包括:
(21)数据集划分,将预处理后的船舶涂装缺陷数据集按0.64:0.16:0.2的比例划分为训练集、测试集和验证集;
(22)按比例调整图像大小,将所有图像的大小调整为128*128*3;
(23)数据平滑,对图像进行平滑处理,即采用高斯滤波方法来去除图像噪声,改善图像的质量;
(24)数据归一化处理,将像素从[0,255]重新调整到[0,1],对每个图像进行归一化处理,使每个特征在同一维度。
3.根据权利要求1所述的不平衡船舶涂装缺陷图像生成方法,其特征在于,所述步骤(3)中的训练样本子集要对少数类样本权重和多数类样本权重进行初始化,少数类样本权重定义为:多数类样本权重定义为:/>其中|S|代表训练集的样本总数,|S-|和|S+|分别表示训练集中少数类样本和多数类的样本个数。
4.根据权利要求1所述的不平衡船舶涂装缺陷图像生成方法,其特征在于,所述步骤(4)中的候选基判别器是同质且独立训练的,训练样本数量扰动方法为五折交叉验证方法,参数扰动方法采用参数网格划分方法。
5.根据权利要求1所述的不平衡船舶涂装缺陷图像生成方法,其特征在于,所述步骤(5)中模拟退火算法的Metropolis准则、准确性评价指标即F1分数和G-mean值的加权值、多样性评价指标分别为:
其中,p表示接受新的基判别器的概率,E(n+1)和E(n)分别表示修改网络参数的基判别器AD值和之前的基判别器AD值,TP为真正例,TN为真反例,FP为假正例,FN为假反例,表示训练集/>中K个基判别器的平均判别精度,/>和ls∈{0,1}分别表示具有n维特征的训练集样本及其类别标签,0表示生成样本,1表示真实样本;w0和w1分别表示少数类样本权重和多数类样本权重,Nij xy表示基判别器模型hi对某一验证集实例判别为x,而基判别器hj判别为y的样本集个数,Nij 0和Nij 1分别表示验证集实例为生成样本、真实样本的总数。
6.根据权利要求1所述的不平衡船舶涂装缺陷图像生成方法,其特征在于,所述步骤(6)中的入围的基判别器子集包含使用Metropolis准则保留的判别性能欠佳的基判别器子集和使用准确性-多样性评价指标保留的一些判别精度较高和差异性较大的基判别器子集。
7.根据权利要求1所述的不平衡船舶涂装缺陷图像生成方法,其特征在于,所述步骤(6)中IGASEN模型的具体步骤包括:
(61)染色体二进制编码,将候选的基判别器集进行编码操作,入围的基判别器记为1,未入围的候选基判别器记为0;
(62)初始化算法参数种群,即使用算法参数扰动方法得到随机的不同超参数的候选基判别器集;
(63)对初始化的种群进行突变变异、交叉变异、评估、选择等操作;
(64)得到目前最优的候选基判别器,并将其作为初始解,计算其对应的AD值;
(65)对初始解施加扰动,产生新解,计算其对应的AD值,若新解的AD值大于等于初始解的AD值,则接受新解作为当前解,否则使用模拟退火算法的Metropolis准则按一定概率保留新解,即保留判别性能欠佳的基判别器;
(66)将入围的基判别器集对应的染色体进行解码操作,并通过加权集成策略将入围的基判别器集进行组合,得到有效的组合模型。
8.根据权利要求7所述的不平衡船舶涂装缺陷图像生成方法,其特征在于,所述步骤(64)中的AD为:
AD=β×Value(F1-score)+γ×Value(G-mean)+(1-β-γ)×κ′,0≤β≤1,0≤γ≤1
其中,AD即目标函数,β和γ用来调整基判别器模型的准确性评价指标和多样性评价指标κ′之间的权重参数。
9.一种不平衡船舶涂装缺陷图像系统,其特征在于,所述系统包括:样本数据采集模块,数据预处理模块,第一构建模块,第二构建模块,模型训练模块以及数据生成模块,其中所述第一构建模块包括参数设置子模块,二进制编码子模块,初始化种群子模块,选择和变异子模块以及模拟退火子模块。
10.一种不平衡船舶涂装缺陷图像可读存储介质,其特征在于,所述计算机可读存储介质中有多条指令,所述指令适于处理器进行加载并执行,以实现权利要求1至8任一项所述的不平衡船舶涂装缺陷图像生成方法中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309148.2A CN116740526A (zh) | 2023-03-27 | 2023-03-27 | 一种不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309148.2A CN116740526A (zh) | 2023-03-27 | 2023-03-27 | 一种不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740526A true CN116740526A (zh) | 2023-09-12 |
Family
ID=87908629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310309148.2A Pending CN116740526A (zh) | 2023-03-27 | 2023-03-27 | 一种不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740526A (zh) |
-
2023
- 2023-03-27 CN CN202310309148.2A patent/CN116740526A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | Accelerating minibatch stochastic gradient descent using typicality sampling | |
EP3542319B1 (en) | Training neural networks using a clustering loss | |
CN111582136B (zh) | 表情识别方法及装置、电子设备、存储介质 | |
CN109034206A (zh) | 图像分类识别方法、装置、电子设备及计算机可读介质 | |
CN104933428A (zh) | 一种基于张量描述的人脸识别方法及装置 | |
CN113947336A (zh) | 评估投标企业风险的方法、装置、存储介质及计算机设备 | |
CN110390107A (zh) | 基于人工智能的下文关系检测方法、装置及计算机设备 | |
CN110543895A (zh) | 一种基于VGGNet和ResNet的图像分类方法 | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN115759748A (zh) | 风险检测模型生成方法和装置、风险个体识别方法和装置 | |
CN113409898B (zh) | 分子结构获取方法、装置、电子设备及存储介质 | |
CN110348516A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN114169439A (zh) | 异常通信号码的识别方法、装置、电子设备和可读介质 | |
CN113673465A (zh) | 图像检测方法、装置、设备及可读存储介质 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN115620147B (zh) | 深度卷积神经网络的可微架构搜索方法及装置 | |
CN116740526A (zh) | 一种不平衡船舶涂装缺陷图像生成方法、系统及可读存储介质 | |
CN116611911A (zh) | 基于支持向量机的信用风险预测方法及装置 | |
CN115587616A (zh) | 网络模型训练方法、装置、存储介质及计算机设备 | |
CN115630979A (zh) | 日前电价的预测方法、装置、存储介质及计算机设备 | |
CN114064898A (zh) | 一种基于文本分类和匹配融合模型的意图识别方法及装置 | |
Wang et al. | An enhanced software defect prediction model with multiple metrics and learners | |
CN116303559B (zh) | 表格问答的控制方法、系统及存储介质 | |
CN113608063B (zh) | 电力线路故障识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |