CN115393231B - 一种缺陷图像的生成方法、装置、电子设备和存储介质 - Google Patents

一种缺陷图像的生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115393231B
CN115393231B CN202211352935.7A CN202211352935A CN115393231B CN 115393231 B CN115393231 B CN 115393231B CN 202211352935 A CN202211352935 A CN 202211352935A CN 115393231 B CN115393231 B CN 115393231B
Authority
CN
China
Prior art keywords
feature
attention
module
generate
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211352935.7A
Other languages
English (en)
Other versions
CN115393231A (zh
Inventor
乐康
张耀
曹保桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Seichitech Technology Co ltd
Original Assignee
Shenzhen Seichitech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Seichitech Technology Co ltd filed Critical Shenzhen Seichitech Technology Co ltd
Priority to CN202211352935.7A priority Critical patent/CN115393231B/zh
Publication of CN115393231A publication Critical patent/CN115393231A/zh
Application granted granted Critical
Publication of CN115393231B publication Critical patent/CN115393231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种缺陷图像的生成方法、装置、电子设备和存储介质,用于提高图像的获取效率和图像质量。本申请生成方法包括:获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像;获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器;将原始图像输入卷积神经网络模型中,通过编码器获取原始图像的缺陷标签特征;将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布;通过重参数化技术对隐空间参数进行采样,生成正态分布数据,正态分布数据遵循缺陷图像的条件概率分布;将正态分布数据和类型标签输入解码器,通过解码器生成目标图像。

Description

一种缺陷图像的生成方法、装置、电子设备和存储介质
技术领域
本申请实施例涉及图像数据处理领域,尤其涉及一种缺陷图像的生成方法、装置、电子设备和存储介质。
背景技术
近年来,随着计算机的不断发展,使得卷积神经网络模型的应用范围快速扩大,涉及制造业、日常生活等。分析图像的类型是卷积神经网络模型的主要功能之一,可以应用在识别物品的缺陷,例如:制造显示屏过程中显示屏上存在的mura缺陷。利用了卷积神经网络模型可以对某一缺陷图像进行学习训练的能力,提高卷积神经网络模型对该缺陷图像存在的特征的识别能力。
以上述显示屏mura缺陷为例,显示屏可能存在的mura缺陷是有很多种的,要使得卷积神经网络模型对某一类mura缺陷达到一定的识别能力,就需要大量采集显示屏出现该类mura缺陷时的图像(mura缺陷图像),供卷积神经网络模型进行学习训练。以前针对mura缺陷图像的来源上主要通过实物屏拍照,即使用真实存在mura缺陷的显示屏,然后通过高分辨率相机拍照,这种方法得到的mura缺陷图像最真实,但同一显示屏仅能获取到少量mura缺陷图像。并且,制作出来的显示屏上存在mura缺陷的情况并不多,导致这种方法效率极低。
针对上述问题,人们又通过数据集增强技术来生成mura缺陷图像,数据集增强技术是通过对原图进行各种图像操作比如随机旋转、随机裁剪、随机缩放、灰度变换等,得到一些和原图看起来不同的图片,但这些图片和原图从计算机数据分布的角度看采样点相同,基本没有差异,因此效果也不好。
目前,人们通过伪缺陷图像生成,生成mura缺陷图像。即通过软件编码模拟mura缺陷图像的像素特征,计算机控制每个像素的值来生成假的mura缺陷图像。
但是这种生成方式只是模仿mura缺陷图像表象特征,人为地生成一些看起来像的mura缺陷图像,从图像数据统计分布角度看,与真实的mura缺陷图像差距巨大,那个达到训练图像质量的mura缺陷图像仅有少数。
综上所述,目前mura缺陷图像的获取方式中,图像获取效率和图像质量无法兼顾。
发明内容
本申请公开了一种缺陷图像的生成方法、装置、电子设备和存储介质,用于提高图像的获取效率和图像质量。
本申请第一方面提供了一种缺陷图像的生成方法,包括:
获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像;
获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器;
将原始图像输入卷积神经网络模型中,通过编码器提取原始图像的缺陷标签特征;
将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布;
通过重参数化技术对隐空间参数进行采样,生成正态分布数据,正态分布数据遵循缺陷图像的条件概率分布;
将正态分布数据和类型标签输入解码器,通过解码器生成目标图像。
可选的,在将正态分布数据和类型标签输入解码器,通过解码器生成目标图像之后,生成方法还包括:
根据目标图像和原始图像进行重组损失的计算;
根据隐空间参数进行KL散度损失的计算;
根据重组损失和KL散度损失生成总损失值并记录到总损失值变化数据中;
判断总损失值变化数据是否满足训练条件;
若总损失值变化数据满足训练条件,则确定卷积神经网络模型完成训练;
若总损失值变化数据不满足训练条件,则判断原始图像训练次数是否达标;
若达标,则根据小批量随机梯度下降法更新卷积神经网络模型的权重,合成新的原始图像输入卷积神经网络模型;
若未达标,则根据小批量随机梯度下降法更新卷积神经网络模型的权重,将原始图像重新输入卷积神经网络模型。
可选的,编码器包括至少一组Encoder模块,Encoder模块包括区域像素注意力模块、至少一个特征压缩模块、至少一个多重注意力卷积模块、至少一个第一注意力Dropout模块和至少一个注意力通道池化模块;
通过编码器提取原始图像的缺陷标签特征,包括:
通过区域像素注意力模块对原始图像进行区域像素值权重生成处理,生成第一特征;
通过区域像素注意力模块将原始图像和第一特征按通道对应相乘,生成第二特征;
通过多重注意力卷积模块中不同大小感受野的卷积核对第二特征的不同大小区域分配注意力,并通过分配注意力对第二特征不同特征通道进行筛选,生成第三特征;
通过第一注意力Dropout模块给第三特征对应的每个神经元分配注意力,并将注意力小于第一预设阈值的神经元进行置零,生成第四特征;
通过注意力通道池化模块给第四特征的每个通道分配注意力,舍弃注意力排序较后的通道,生成第五特征;
通过特征压缩模块对第五特征进行特征信息的提取,生成缺陷标签特征。
可选的,通过多重注意力卷积模块中不同大小感受野的卷积核对第二特征的不同大小区域分配注意力,并通过分配注意力对第二特征不同特征通道进行筛选,生成第三特征,包括:
通过多重注意力卷积模块中不同大小感受野的卷积核分别对第二特征进行特征提取,生成感受野特征集合;
通过多重注意力卷积模块将感受野特征集合进行通道叠加处理和特征调整处理,生成中间特征;
通过多重注意力卷积模块为中间特征的通道分配注意力,并根据分配注意力将中间特征和感受野特征集合按通道对应相乘,得到的数据再按通道对应相加,然后与第二特征相加,生成第三特征。
可选的,隐空间参数包括均值集合和方差集合;
通过重参数化技术对隐空间参数进行采样,生成正态分布数据,包括:
生成一组符合正态分布的变量集合;
根据均值集合、方差集合和变量集合进行采样计算,生成正态分布数据。
可选的,解码器包括卷积神经输出模块和至少一组Decoder模块,Decoder模块包括区域像素注意力模块、反卷积模块、通道加和池化模块、通道注意力模块、第二注意力Dropout模块和一个卷积神经输出模块;
通过解码器生成目标图像,包括:
将正态分布数据和类型标签进行通道拼接,生成第六特征;
通过区域像素注意力模块对第六特征进行区域像素值权重生成处理,生成第七特征;
通过区域像素注意力模块将第六特征和第七特征按通道对应相乘,生成第八特征;
通过反卷积模块将第八特征和类别标签重构,生成第九特征;
通过通道加和池化模块对第九特征按通道进行分组,并将每组特征按通道相加,生成第十特征;
通过通道注意力模块为第十特征生成通道向量;
通过通道注意力模块结合通道向量输出一个维度与第十特征通道数相同的归一化一维向量;
通过通道注意力模块根据归一化一维向量将第十特征按通道对应相乘,生成第十一特征;
通过第二注意力Dropout模块给第十一特征对应的每个神经元分配注意力,并将注意力小于第二预设阈值的神经元进行置零,生成第十二特征;
通过卷积神经输出模块将第十二特征进行图像还原,生成目标图像。
可选的,当解码器包括至少两组Decoder模块时,将其中一组Decoder模块的通道加和池化模块删去,生成Decoder前置模块,Decoder前置模块包括区域像素注意力模块、反卷积模块、通道注意力模块和第二注意力Dropout模块。
本申请第一方面提供了一种缺陷图像的生成装置,包括:
第一获取单元,用于获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像;
第二获取单元,用于获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器;
提取单元,将原始图像输入卷积神经网络模型中,通过编码器提取原始图像的缺陷标签特征;
第一生成单元,用于将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布;
第二生成单元,用于通过重参数化技术对隐空间参数进行采样,生成正态分布数据,正态分布数据遵循缺陷图像的条件概率分布;
第三生成单元,用于将正态分布数据和类型标签输入解码器,通过解码器生成目标图像。
可选的,生成装置还包括:
第一计算单元,用于根据目标图像和原始图像进行重组损失的计算;
第二计算单元,用于根据隐空间参数进行KL散度损失的计算;
记录单元,用于根据重组损失和KL散度损失生成总损失值并记录到总损失值变化数据中;
第一判断单元,用于判断总损失值变化数据是否满足训练条件;
确定单元,用于当第一判断单元确定总损失值变化数据满足训练条件时,确定卷积神经网络模型完成训练;
第二判断单元,用于当第一判断单元确定总损失值变化数据不满足训练条件时,判断原始图像训练次数是否达标;
第一更新单元,用于当第二判断单元确定原始图像训练次数达标时,根据小批量随机梯度下降法更新卷积神经网络模型的权重,合成新的原始图像输入卷积神经网络模型;
第二更新单元,用于当第二判断单元确定原始图像训练次数未达标时,根据小批量随机梯度下降法更新卷积神经网络模型的权重,将原始图像重新输入卷积神经网络模型。
可选的,编码器包括至少一组Encoder模块,Encoder模块包括区域像素注意力模块、至少一个特征压缩模块、至少一个多重注意力卷积模块、至少一个第一注意力Dropout模块和至少一个注意力通道池化模块;
提取单元,包括:
第一生成模块,用于通过区域像素注意力模块对原始图像进行区域像素值权重生成处理,生成第一特征;
第二生成模块,用于通过区域像素注意力模块将原始图像和第一特征按通道对应相乘,生成第二特征;
第三生成模块,用于通过多重注意力卷积模块中不同大小感受野的卷积核对第二特征的不同大小区域分配注意力,并通过分配注意力对第二特征不同特征通道进行筛选,生成第三特征;
第四生成模块,用于通过第一注意力Dropout模块给第三特征对应的每个神经元分配注意力,并将注意力小于第一预设阈值的神经元进行置零,生成第四特征;
第五生成模块,用于通过注意力通道池化模块给第四特征的每个通道分配注意力,舍弃注意力排序较后的通道,生成第五特征;
第六生成模块,用于通过特征压缩模块对第五特征进行特征信息的提取,生成缺陷标签特征。
可选的,第三生成模块,包括:
通过多重注意力卷积模块中不同大小感受野的卷积核分别对第二特征进行特征提取,生成感受野特征集合;
通过多重注意力卷积模块将感受野特征集合进行通道叠加处理和特征调整处理,生成中间特征;
通过多重注意力卷积模块为中间特征的通道分配注意力,并根据分配注意力将中间特征和感受野特征集合按通道对应相乘,得到的数据再按通道对应相加,然后与第二特征相加,生成第三特征。
可选的,隐空间参数包括均值集合和方差集合;
第二生成单元,包括:
生成一组符合正态分布的变量集合;
根据均值集合、方差集合和变量集合进行采样计算,生成正态分布数据。
可选的,解码器包括卷积神经输出模块和至少一组Decoder模块,Decoder模块包括区域像素注意力模块、反卷积模块、通道加和池化模块、通道注意力模块和第二注意力Dropout模块;
第三生成单元,包括:
将正态分布数据和类型标签进行通道拼接,生成第六特征;
通过区域像素注意力模块对第六特征进行区域像素值权重生成处理,生成第七特征;
通过区域像素注意力模块将第六特征和第七特征按通道对应相乘,生成第八特征;
通过反卷积模块将第八特征和类别标签重构,生成第九特征;
通过通道加和池化模块对第九特征按通道进行分组,并将每组特征按通道相加,生成第十特征;
通过通道注意力模块为第十特征生成通道向量;
通过通道注意力模块结合通道向量输出一个维度与第十特征通道数相同的归一化一维向量;
通过通道注意力模块根据归一化一维向量将第十特征按通道对应相乘,生成第十一特征;
通过第二注意力Dropout模块给第十一特征对应的每个神经元分配注意力,并将注意力小于第二预设阈值的神经元进行置零,生成第十二特征;
通过卷积神经输出模块将第十二特征进行图像还原,生成目标图像。
可选的,当解码器包括至少两组Decoder模块时,将其中一组Decoder模块的通道加和池化模块删去,生成Decoder前置模块,Decoder前置模块包括区域像素注意力模块、反卷积模块、通道注意力模块和第二注意力Dropout模块。
本申请第三方面提供了一种电子设备,包括:
处理器、存储器、输入输出单元以及总线;
处理器与存储器、输入输出单元以及总线相连;
存储器保存有程序,处理器调用程序以执行如第一方面以及第一方面的任意可选的生成方法。
本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如第一方面以及第一方面的任意可选的生成方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,首先获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像,使得原始图像中具备对应的类型参数。获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器,接着将原始图像输入卷积神经网络模型中,通过编码器提取原始图像的缺陷标签特征。再将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布。通过重参数化技术对隐空间参数进行采样,生成正态分布数据,正态分布数据遵循缺陷图像的条件概率分布。将正态分布数据和类型标签输入解码器,通过解码器生成目标图像。通过将缺陷图像和对应的类型标签进行通道融合生成原始图像,使得原始图像中具备对应的类型参数,再通过通过编码器和隐空间为缺陷标签特征生成隐空间参数,该隐空间参数当前并不具备可导性,但是通过重参数化技术对隐空间参数进行正态分布采样,即对隐空间参数进行平滑处理,生成符合正态分布的正态分布数据,这时的正态分布数据依旧会遵循缺陷图像的条件概率分布。最后,将正态分布数据和类型标签输入解码器,通过解码器生成目标图像,这时生成的目标图像会遵循缺陷图像的条件概率分布,和缺陷图像属于同一类型标签,提高图像的获取效率和图像质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请缺陷图像的生成方法的一个实施例示意图;
图2-1为本申请缺陷图像的生成方法的第一阶段的一个实施例示意图;
图2-2为本申请缺陷图像的生成方法的第二阶段的一个实施例示意图;
图2-3为本申请缺陷图像的生成方法的第三阶段的一个实施例示意图;
图2-4为本申请缺陷图像的生成方法的第四阶段的一个实施例示意图;
图2-5为本申请缺陷图像的生成方法的第五阶段的一个实施例示意图;
图3为本申请实施例中卷积神经网络模型网络层的一个实施例流程示意图;
图4为本申请实施例中卷积神经网络模型网络层的另一个实施例结构示意图;
图5为本申请实施例中卷积神经网络模型网络层的另一个实施例结构示意图;
图6为本申请缺陷图像的生成装置的另一个实施例示意图;
图7为本申请电子设备的一个实施例示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在现有技术中,实物屏拍照获取mura缺陷图像真实但是效率极低。数据集增强技术生成的mura缺陷图像从计算机数据分布的角度看采样点相同,基本没有差异,无法作为新的mura缺陷图像使用。伪缺陷图像生成技术生成的mura缺陷图像与真实的mura缺陷图像差距巨大,那个达到训练图像质量的mura缺陷图像仅有少数。
基于此,本申请公开了一种缺陷图像的生成方法、装置、电子设备和存储介质,用于提高图像的获取效率和图像质量。
下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的方法可以应用于服务器、设备、终端或者其它具备逻辑处理能力的设备,对此,本申请不作限定。为方便描述,下面以执行主体为终端为例进行描述。
请参阅图1,本申请提供了一种缺陷图像的生成方法的一个实施例,包括:
101、获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像;
缺陷图像是指含有目标特征的图像,例如显示屏在点亮后出现一种mura缺陷,这时通过高分辨率相机拍摄该点亮的显示屏,得到一张照片,该照片存在的目标特征可以理解为就是这一mura缺陷。再例如:一款玻璃在制作完成后出现了一种由于制造环境引起的变形的缺陷,这时通过高分辨率相机拍摄该玻璃,得到一张照片,该照片存在的目标特征可以理解为就是这一变形的缺陷。除了上述两种缺陷图像,还可以是多种存在可视化缺陷的产品所拍摄的图像,目标特征即为对应的缺陷在图像中所展示出来的特定状态。
类型标签是指目标特征所属于的缺陷类型,例如:当通过非点屏拍照的方式拍摄有缺陷的显示屏时,可以获得划痕、贝壳和崩边这三种常见外观缺陷图片,对三种缺陷进行手动设置类型标签,划痕为1,贝壳为2,崩边为3。类型标签能够表征该缺陷图像的条件概率分布,后续生成的新图像由于利用了类型标签,该图像也符合缺陷图像的条件概率分布,属于与缺陷图像同一缺陷类型的新图像,可用于另一个识别缺陷的卷积神经网络的训练。
本发明还通过抠图的方式将这三种缺陷划痕、贝壳、崩边的小图从整个显示屏图像上截取出来,避免大量无用像素的干扰以及节约内存减少训练时间。
终端通过高分辨率相机实物拍摄显示屏,以此获取真实的缺陷图像,并且确定缺陷图像对应的类型标签,然后将缺陷图像进行通道划分,将类别标签作为一条新的通道与缺陷图像的通道相拼接,得到原始图像,此时原始图像会具备类型标签,在后续的训练中,不仅会利用缺陷图像的特征,也会利用到类型标签。
102、获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器;
终端获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器,编码器将原始图像中的特征进行分析,通过隐空间进行采样得到新的特征,再通过解码器对新的特征进行还原。
103、将原始图像输入卷积神经网络模型中,通过编码器提取原始图像的缺陷标签特征;
终端将原始图像输入卷积神经网络模型中,通过编码器提取原始图像的缺陷标签特征,由于该原始图像具备缺陷的类型标签,使得缺陷标签特征中也具备该缺陷的类型标签特征。
104、将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布;
终端将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布。该隐空间参数是均值集合和方差集合,但是后续需要利用到均值集合和方差集合所计算出来的正态分布,但是该正态分布并不是平滑的,导致该正态分布不可导。
105、通过重参数化技术对隐空间参数进行采样,生成正态分布数据,正态分布数据遵循缺陷图像的条件概率分布;
由于均值集合和方差集合所计算出来的正态分布并不是平滑的,不可导,所以通过重参数化技术对隐空间参数进行采样,采样出符合正态分布的正态分布数据,该正态分布数据由于是在原隐空间参数的基础上采样生成,也具备对应缺陷的类型标签,故遵循缺陷图像的条件概率分布。
106、将正态分布数据和类型标签输入解码器,通过解码器生成目标图像。
终端将正态分布数据和类型标签输入解码器,再通过解码器生成目标图像,即通过采样的数据和类型标签重组目标图像,目标图像也会融合类型标签的特征,遵循缺陷图像的条件概率分布,该目标图像能够运用到另一个由于识别该缺陷的卷积神经网络中。
本申请中,首先获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像,使得原始图像中具备对应的类型参数。获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器,接着将原始图像输入卷积神经网络模型中,通过编码器提取原始图像的缺陷标签特征。再将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布。通过重参数化技术对隐空间参数进行采样,生成正态分布数据,正态分布数据遵循缺陷图像的条件概率分布。将正态分布数据和类型标签输入解码器,通过解码器生成目标图像。通过将缺陷图像和对应的类型标签进行通道融合生成原始图像,使得原始图像中具备对应的类型参数,再通过通过编码器和隐空间为缺陷标签特征生成隐空间参数,该隐空间参数当前并不具备可导性,但是通过重参数化技术对隐空间参数进行正态分布采样,即对隐空间参数进行平滑处理,生成符合正态分布的正态分布数据,这时的正态分布数据依旧会遵循缺陷图像的条件概率分布。最后,将正态分布数据和类型标签输入解码器,通过解码器生成目标图像,这时生成的目标图像会遵循缺陷图像的条件概率分布,和缺陷图像属于同一类型标签,提高图像的获取效率和图像质量。
请参阅图2-1、图2-2、图2-3、图2-4和图2-5,本申请提供了一种缺陷图像的生成方法的一个实施例,包括:
201、获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像;
202、获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器;
203、将原始图像输入卷积神经网络模型中;
本实施例中的步骤201至203与前述实施例中步骤101至103类似,此处不再赘述。
204、通过区域像素注意力模块对原始图像进行区域像素值权重生成处理,生成第一特征;
205、通过区域像素注意力模块将原始图像和第一特征按通道对应相乘,生成第二特征;
区域像素注意力模块(RPA),包含一个BatchNorm-DefConv-ReLU、一个BatchNorm-DefConv、一个SigMoid函数模块和一个双线性插值模块。BatchNorm-DefConv-ReLU、BatchNorm-DefConv、SigMoid函数模块和双线性插值模块依次串联。这里的BatchNorm-DefConv-ReLU层和BatchNorm-DefConv层都属于卷积神经网络中常用的特征处理层,SigMoid函数为已知函数,双线性插值运算方法也是已知算法,均为现有技术。
区域像素注意力模块RPA作为第一重注意力机制,由于给原始图像的每块区域像素分配一个权重,使得神经网络对于原始图像特征明显的区域更加关注。
具体的,假设输入的原始图像的张数为B,通道数量为C,分辨率为W*H,则原始图像记为(B,C,H,W),(B,C,H,W)需要先经过区域像素注意力模块RPA的BatchNorm-DefConv-ReLU层进行通道压缩为(B,C*r,H/2,W/2),其中r<1。再经过一个BatchNorm-DefConv层还原成(B,C,H/4,W/4),再通过SigMoid函数模块生成每个像素值的权重,最后使用双线性插值还原成新的(B,C,H,W),和原始图像的(B,C,H,W)一对一相乘。
206、通过多重注意力卷积模块中不同大小感受野的卷积核分别对第二特征进行特征提取,生成感受野特征集合;
207、通过多重注意力卷积模块将感受野特征集合进行通道叠加处理和特征调整处理,生成中间特征;
208、通过多重注意力卷积模块为中间特征的通道分配注意力,并根据分配注意力将中间特征和感受野特征集合按通道对应相乘,得到的数据再按通道对应相加,然后与第二特征相加,生成第三特征;
多重注意力卷积模块用于处理特征的卷积核感受野注意力和特征通道注意力,步骤是通过不同感受野的卷积核对特征的不同大小区域分配注意力,通过通道注意力对不同通道进行筛选,进一步提高卷积神经网络对输入特征(第三特征)的编码效果,并且加入了Resnet结构,增强前后层特征的流通,防止梯度消失和梯度爆炸。
多重注意力卷积模块包括至少两个不同大小感受野的可变形卷积核、第一特征叠加模块、特征全局平均池化模块、通道还原模块、至少两个Sofamax模块、第二特征叠加模块。
例如:对第二特征使用3种不同大小感受野的可变形卷积核分别进行特征提取,将得到的3个特征(感受野特征集合)。再通过第一特征叠加模块按通道叠加的方式处理感受野特征集合形成一个特征(B,3*C,H,W)。接下来通过特征全局平均池化模块把这个特征(B,3*C,H,W)进行压缩和全局平均池化形成特征(B,3C’,1,1),再通过通道还原模块把特征(B,3C’,1,1)再恢复成中间特征(B,3C,1,1),然后经过Sofamax模块为中间特征的通道整体分配注意力,共分成三份,这三份通道注意力分别与之前的3个可变形卷积核对应,通道注意力和之前的3个可变形卷积核输出的感受野特征集合按通道对应相乘,再通过第二特征叠加模块按通道对应元素相加,再和第二特征按通道叠加。
可变形卷积是指卷积核在每一个元素上额外增加了一个参数方向参数,这样卷积核就能在训练过程中扩展到很大的范围。传统卷积对于未知的变化适应性差,泛化能力不强。可变形卷积改变了传统卷积固定的矩形卷积框,能更好的适应一些形状不是很规整的特征,比如显示屏外观缺陷,使得卷积的位置能集中在缺陷所在像素处。
209、通过第一注意力Dropout模块给第三特征对应的每个神经元分配注意力,并将注意力小于第一预设阈值的神经元进行置零,生成第四特征;
第一注意力Dropout模块包括BatchNorm-2*2DefConv-ReLU和BatchNorm-2*2DefConv-SigMiod。
基于注意力的Dropout方法,不同于一般Dropout使用的随机方式,本发明中利用注意力保留更重要的特征信息,使得卷积神经网络模型的性能和泛化性更好。
将输入的第三特征放到BatchNorm-2*2DefConv-ReLU中处理,再将其输出输入BatchNorm-2*2DefConv-SigMiod中,生成和原特征形同尺寸的注意力矩阵,根据注意力矩阵的值,将注意力小于第一预设阈值的原特征矩阵对应位置神经元置零,输出第四特征。
210、通过注意力通道池化模块给第四特征的每个通道分配注意力,舍弃注意力排序较后的通道,生成第五特征;
注意力通道池化模块包括一个全局平均池化层、1*1Conv+ReLU和一个1*1Conv+SigMoid。
第四特征经过全局平均池化,1*1Conv+ReLU,1*1Conv+SigMoid生成各个通道的注意力,再将特征通道按注意力排序,把注意力排名靠后的通道舍弃,以此生成第五特征。
211、通过特征压缩模块对第五特征进行特征信息的提取,生成缺陷标签特征;
特征压缩模块也叫Feature Squeeze模块,遮挡使用卷积对上一层输出的第五特征提取特征信息,并压缩长宽即可生成缺陷标签特征。
需要说明的是,编码器包括至少一组Encoder模块,Encoder模块包括区域像素注意力模块、至少一个特征压缩模块、至少一个多重注意力卷积模块、至少一个第一注意力Dropout模块和至少一个注意力通道池化模块。一组Encoder模块的连接方式为区域像素注意力模块+n*(多重注意力卷积模块+第一注意力Dropout模块+注意力通道池化模块)+特征压缩模块,n为大于0的整数。
212、将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布;
本实施例中的步骤212与前述实施例中步骤104类似,此处不再赘述。
213、生成一组符合正态分布的变量集合;
214、根据均值集合、方差集合和变量集合进行采样计算,生成正态分布数据;
均值集合为低维均值设为A,方差集合设为B,利用随机采样的结果,本来需要从均值和方差的分布中随机采样,但现在生成一组符合正态分布的变量集合N(0,I)。
生成的正态分布数据Z,相当于从符合正态分布的变量集合N(0,I)中采样一个ε,从A中采样一个µ,从B中采样一个σ,然后让Z=µ+σ*ε。这样随机采样就不用参与梯度下降了,只需要更新采样的结果。
隐空间中采样均值和方差,使用重参数化生成隐向量Z(正态分布数据),和类型标签一起送入解码器分支。具体是通过Conv_up模块使用反卷积模块将隐向量Z重构,增加特征长宽,在和类型标签一起送入解码器分支。
215、将正态分布数据和类型标签输入解码器;
本实施例中的步骤215与前述实施例中步骤106类似,此处不再赘述。
216、将正态分布数据和类型标签进行通道拼接,生成第六特征;
终端将正态分布数据划分通道,并且将类型标签作为一组新的通道与之相连接。
217、通过区域像素注意力模块对第六特征进行区域像素值权重生成处理,生成第七特征;
218、通过区域像素注意力模块将第六特征和第七特征按通道对应相乘,生成第八特征;
终端通过区域像素注意力模块对第六特征进行区域像素值权重生成处理,生成第七特征,并且通过区域像素注意力模块将第六特征和第七特征按通道对应相乘,生成第八特征,其详细过程与步骤204和步骤205相似,此处不做赘述。
219、通过反卷积模块将第八特征和类别标签重构,生成第九特征;
反卷积模块也叫Conv_t层,使用反卷积模块将第八特征和类别标签重构,增加特征长宽。
220、通过通道加和池化模块对第九特征按通道进行分组,并将每组特征按通道相加,生成第十特征;
通道加和池化模块也叫CAP模块,通道加和池化模块将第九特征按通道分组,每组特征按通道相加,融合各个通道特征信息并减少特征通道数,以此生成第十特征。
221、通过通道注意力模块为第十特征生成通道向量;
222、通过通道注意力模块结合通道向量输出一个维度与第十特征通道数相同的归一化一维向量;
223、通过通道注意力模块根据归一化一维向量将第十特征按通道对应相乘,生成第十一特征;
通道注意力模块的注意力机制主要是通过对不同特征通道分配归一化的权重,增强某些通道而抑制其他的通道,达到选择特征信息(缺陷特征)的效果。
通道注意力模块包括一个全局平均池化层、一个1*1Conv-ReLU和一个Conv-Sigmoid,下面详细描述通道注意力模块的运行原理。
具体的,第十特征先经过全局平均池化层(Global Pooling) 生成通道向量,再经过1×1卷积核、ReLU激活函数进行通道压缩,再经过1×1卷积核以及Sigmoid激活函数,输出一个维度等于输入特征通道数的归一化一维向量,这就是各个特征通道的注意力权重,将其输入特征各个通道相乘,生成第十一特征。
224、通过第二注意力Dropout模块给第十一特征对应的每个神经元分配注意力,并将注意力小于第二预设阈值的神经元进行置零,生成第十二特征;
终端通过第二注意力Dropout模块给第十一特征对应的每个神经元分配注意力,并将注意力小于第二预设阈值的神经元进行置零,生成第十二特征,其详细过程与步骤209类似,此处不做赘述。
225、通过卷积神经输出模块将第十二特征进行图像还原,生成目标图像;
终端通过卷积神经输出模块(Conv_out)将第十二特征进行图像还原,生成目标图像,具体是使用一个3×3卷积将第十二特征还原成原图尺寸的3通道图像。
需要说明的是,本实施例中,解码器包括至少一组Decoder模块。并且当解码器包括至少两组Decoder模块时,第一组Decoder模块的通道加和池化模块删去,形成的Decoder前置模块包括区域像素注意力模块+反卷积模块+通道注意力模块+第二注意力Dropout模块。
226、根据目标图像和原始图像进行重组损失的计算;
227、根据隐空间参数进行KL散度损失的计算;
228、根据重组损失和KL散度损失生成总损失值并记录到总损失值变化数据中;
当卷积神经网络还未训练完成时,生成目标图像的性能可以通过evidence lowerbound(ELBO) loss来评估,该损失由Reconstruction loss 和Kullback–Leibler loss(KLloss)组成。Reconstruction loss 用于计算生成的数据与原始数据的相似程度,而KLloss作为一个额外的loss,用于测量一般正态分布与标准正态分布的差异,也就是均值μ和方差σ2之间的差异。
具体的,均方误差(MSE)是最常用的回归损失函数。MSE是目标变量与预测值之间距离平方之和,本发明使用经过LVAE卷积神经网络模型恢复重构后的目标图像和缺陷图像对应像素进行MSE,得到误差值,再进行反向梯度计算,更新卷积神经网络模型的权重值。
Figure 679695DEST_PATH_IMAGE001
其中,n为输入的原始图像数量,i表示输入的n张原始图像中的第i张,
Figure 296621DEST_PATH_IMAGE002
为第i张缺陷图像,/>
Figure 383526DEST_PATH_IMAGE003
为第i张原始图像对应的目标图像。/>
在给定的隐变量空间维度为n的条件(即n张缺陷图像)下,已知均值μ和方差σ2,KLloss定义为:
Figure 60495DEST_PATH_IMAGE004
最终,ELBO loss由上述两个损失函数组成,设置系数值α和β:
Figure 232850DEST_PATH_IMAGE005
计算本次的总损失值之后,记录到总损失值变化数据中,总损失值变化数据中记录了所有的损失值数据。
229、判断总损失值变化数据是否满足训练条件;
终端判断总损失值变化数据是否满足训练条件,可以是从所述总损失值变化数据判断最近1万次迭代计算出的总损失值是否均小于预设值,或者是最近1万次迭代计算出的总损失值处于收敛状态等,此处不作限定。
本实施例中,当总损失值变化数据在预设区间内,所有的总损失值的大小以及趋势都呈现稳定不再上升时,则可以确定卷积神经网络模型训练完成,则可以将卷积神经网络模型投入使用。
下面进行损失值变化数据举例说明:当损失值变化数据中,最新的10000次训练这个区间内,产生的所有损失值都小于0.001,并且每一个损失值都比前一个损失值的绝对值的数值小,即表现为不再上升,可以确定卷积神经网络模型训练完成。
230、若总损失值变化数据满足训练条件,则确定卷积神经网络模型完成训练;
若总损失值变化数据满足训练条件,则确定卷积神经网络模型完成训练,该卷积神经网络模型即可为该缺陷特征生成可供训练的训练样本。
231、若总损失值变化数据不满足训练条件,则判断原始图像训练次数是否达标;
原始图像的训练次数是固定的,防止单张图像由于自身原因另卷积神经网络模型反复训练无法跳出迭代。
232、若达标,则根据小批量随机梯度下降法更新卷积神经网络模型的权重,合成新的原始图像输入卷积神经网络模型;
233、若未达标,则根据小批量随机梯度下降法更新卷积神经网络模型的权重,将原始图像重新输入卷积神经网络模型。
对卷积神经网络模型的权重更新可以是多种方式,本实施例中,以小批量随机梯度下降法更新卷积神经网络模型为例,其中批训练的梯度更新方式的公式为:
Figure 122308DEST_PATH_IMAGE006
n是批量大小(batchsize),
Figure 329299DEST_PATH_IMAGE008
是学习率(learning rate)。
使用反向梯度求导,请参考图3,图3为一个卷积神经网络模型网络层示意图。
左侧为第一层,也是输入层,输入层包含两个神经元a和b。中间为第二层,也是隐含层,隐含层包含两个神经元c和d。右侧为第三层,也是输出层,输出层包含e和f,每条线上标的
Figure 426437DEST_PATH_IMAGE009
是层与层之间连接的权重。/>
Figure 86088DEST_PATH_IMAGE009
代表第l层第j个神经元,与上一层(l-1)第k个神经元输出相对应的权重。
Figure 44817DEST_PATH_IMAGE010
代表第l层第j个神经元输出。
Figure 840735DEST_PATH_IMAGE011
代表第l层第j个神经元输入。
Figure 859506DEST_PATH_IMAGE012
代表第l层第j个神经元偏置。
W代表权重矩阵,Z代表输入矩阵,A代表输出矩阵,Y代表标准答案。
L代表卷积神经网络模型的层数。
Figure 6454DEST_PATH_IMAGE013
向前传播的方法,即将输入层的信号传输至隐藏层,以隐藏层节点c为例,站在节点c上往后看(输入层的方向),可以看到有两个箭头指向节点c,因此a,b节点的信息将传递给c,同时每个箭头有一定的权重,因此对于c节点来说,输入信号为:
Figure 768873DEST_PATH_IMAGE014
同理,节点d的输入信号为:
Figure 684877DEST_PATH_IMAGE015
由于终端善于做带有循环的任务,因此可以用矩阵相乘来表示:
Figure 356773DEST_PATH_IMAGE016
所以,隐藏层节点经过非线性变换后的输出表示如下:
Figure 725438DEST_PATH_IMAGE017
同理,输出层的输入信号表示为权重矩阵乘以上一层的输出:
Figure 25969DEST_PATH_IMAGE018
同样,输出层节点经过非线性映射后的最终输出表示为:
Figure 62058DEST_PATH_IMAGE019
输入信号在权重矩阵们的帮助下,得到每一层的输出,最终到达输出层。可见,权重矩阵在前向传播信号的过程中扮演着运输兵的作用,起到承上启下的功能。
请参考图4,图4为一个卷积神经网络模型网络层示意图。向后传播的方法,既然梯度下降需要每一层都有明确的误差才能更新参数,所以接下来的重点是如何将输出层的误差反向传播给隐藏层。
其中输出层、隐藏层节点的误差如图所示,输出层误差已知,接下来对隐藏层第一个节点c作误差分析。还是站在节点c上,不同的是这次是往前看(输出层的方向),可以看到指向c节点的两个蓝色粗箭头是从节点e和节点f开始的,因此对于节点c的误差肯定是和输出层的节点e和f有关。输出层的节点e有箭头分别指向了隐藏层的节点c和d,因此对于隐藏节点e的误差不能被隐藏节点c霸为己有,而是要服从按劳分配的原则(按权重分配),同理节点f的误差也需服从这样的原则,因此对于隐藏层节点c的误差为:
Figure 157053DEST_PATH_IMAGE020
其中,
Figure 278593DEST_PATH_IMAGE021
和/>
Figure 382815DEST_PATH_IMAGE022
为输出层反向传播系数,同理,对于隐藏层节点d的误差为:
Figure 257099DEST_PATH_IMAGE023
其中,
Figure 522995DEST_PATH_IMAGE024
和/>
Figure 866252DEST_PATH_IMAGE025
为隐藏层反向传播系数,为了减少工作量,可写成矩阵相乘的形式:
Figure 774165DEST_PATH_IMAGE026
该矩阵比较繁琐,可简化到前向传播的形式,不破坏它们的比例,因此我们可以忽略掉分母部分,所以重新成矩阵形式为:
Figure 519267DEST_PATH_IMAGE027
该权重矩阵,其实是前向传播时权重矩阵w的转置,因此简写形式如下:
Figure 221644DEST_PATH_IMAGE028
输出层误差在转置权重矩阵的帮助下,传递到了隐藏层,这样我们就可以利用间接误差来更新与隐藏层相连的权重矩阵。可见,权重矩阵在反向传播的过程中同样扮演着运输兵的作用,只不过这次是搬运的输出误差,而不是输入信号。
请参考图5,图5为一个卷积神经网络模型网络层示意图。接下来需要进行链式求导,上面介绍了输入信息的前向传播与输出误差的后向传播,接下来就根据求得的误差来更新参数。
首先对隐藏层的w11进行参数更新,更新之前让我们从后往前推导,直到预见w11为止,计算方式如下:
Figure 52197DEST_PATH_IMAGE029
Figure 248954DEST_PATH_IMAGE030
Figure 848563DEST_PATH_IMAGE031
因此误差对w11求偏导如下:
Figure 721841DEST_PATH_IMAGE032
求导得如下公式(所有值已知):
Figure 39690DEST_PATH_IMAGE033
同理,误差对于w12的偏导如下:
Figure 23826DEST_PATH_IMAGE034
同样,求导得w12的求值公式:
Figure 743520DEST_PATH_IMAGE035
同理,误差对于偏置求偏导如下:
Figure 787700DEST_PATH_IMAGE036
同理,误差对于偏置求偏导如下:
Figure 592845DEST_PATH_IMAGE037
接着对输入层的w11进行参数更新,更新之前我们依然从后往前推导,直到预见第一层的w11为止:
Figure 629940DEST_PATH_IMAGE038
Figure 204141DEST_PATH_IMAGE039
因此误差对输入层的w11求偏导如下:
Figure 419221DEST_PATH_IMAGE040
求导得如下公式:
Figure 446083DEST_PATH_IMAGE041
同理,输入层的其他三个参数按照同样的方法即可求出各自的偏导,此处不做赘述。在每个参数偏导数明确的情况下,带入梯度下降公式即可:
Figure 37601DEST_PATH_IMAGE042
至此,利用链式法则来对每层参数进行更新的任务已经完成。
在更新了卷积神经网络模型的权重之后,保留一份卷积神经网络模型,以使得在后续训练过程中出现泛化、过拟合等问题时,还可以使用原先保存下来的卷积神经网络模型。
当卷积神经网络模型更新完成后,可以选择原始样本重新输入卷积神经网络模型训练,也可以是从重新合成新的原始样本输入卷积神经网络模型训练。
本申请中,首先获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像,使得原始图像中具备对应的类型参数。获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器,接着将原始图像输入卷积神经网络模型中,
通过区域像素注意力模块对原始图像进行区域像素值权重生成处理,生成第一特征,通过区域像素注意力模块将原始图像和第一特征按通道对应相乘,生成第二特征。
通过多重注意力卷积模块中不同大小感受野的卷积核分别对第二特征进行特征提取,生成感受野特征集合,通过多重注意力卷积模块将感受野特征集合进行通道叠加处理和特征调整处理,生成中间特征,通过多重注意力卷积模块为中间特征的通道分配注意力,并根据分配注意力将中间特征和感受野特征集合按通道对应相乘,得到的数据再按通道对应相加,然后与第二特征相加,生成第三特征。通过第一注意力Dropout模块给第三特征对应的每个神经元分配注意力,并将注意力小于第一预设阈值的神经元进行置零,生成第四特征。通过注意力通道池化模块给第四特征的每个通道分配注意力,舍弃注意力排序较后的通道,生成第五特征。通过特征压缩模块对第五特征进行特征信息的提取,生成缺陷标签特征。再将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布。
生成一组符合正态分布的变量集合,根据均值集合、方差集合和变量集合进行采样计算,生成正态分布数据。将正态分布数据和类型标签输入解码器,将正态分布数据和类型标签进行通道拼接,生成第六特征,通过区域像素注意力模块对第六特征进行区域像素值权重生成处理,生成第七特征,通过区域像素注意力模块将第六特征和第七特征按通道对应相乘,生成第八特征,通过反卷积模块将第八特征和类别标签重构,生成第九特征,通过通道加和池化模块对第九特征按通道进行分组,并将每组特征按通道相加,生成第十特征,通过通道注意力模块为第十特征生成通道向量,通过通道注意力模块结合通道向量输出一个维度与第十特征通道数相同的归一化一维向量,通过通道注意力模块根据归一化一维向量将第十特征按通道对应相乘,生成第十一特征。通过第二注意力Dropout模块给第十一特征对应的每个神经元分配注意力,并将注意力小于第二预设阈值的神经元进行置零,生成第十二特征,通过卷积神经输出模块将第十二特征进行图像还原,生成目标图像。
根据目标图像和原始图像进行重组损失的计算,根据隐空间参数进行KL散度损失的计算,根据重组损失和KL散度损失生成总损失值并记录到总损失值变化数据中。判断总损失值变化数据是否满足训练条件,若总损失值变化数据满足训练条件,则确定卷积神经网络模型完成训练,若总损失值变化数据不满足训练条件,则判断原始图像训练次数是否达标,若达标,则根据小批量随机梯度下降法更新卷积神经网络模型的权重,合成新的原始图像输入卷积神经网络模型,若未达标,则根据小批量随机梯度下降法更新卷积神经网络模型的权重,将原始图像重新输入卷积神经网络模型。
本实施例,通过将缺陷图像和对应的类型标签进行通道融合生成原始图像,使得原始图像中具备对应的类型参数,再通过通过编码器和隐空间为缺陷标签特征生成隐空间参数,该隐空间参数当前并不具备可导性,但是通过重参数化技术对隐空间参数进行正态分布采样,即对隐空间参数进行平滑处理,生成符合正态分布的正态分布数据,这时的正态分布数据依旧会遵循缺陷图像的条件概率分布。最后,将正态分布数据和类型标签输入解码器,通过解码器生成目标图像,这时生成的目标图像会遵循缺陷图像的条件概率分布,和缺陷图像属于同一类型标签,提高图像的获取效率和图像质量。
其次,通过增加了L2正则化用于防止卷积神经网络模型过拟合;增加了Resnet技术增加前后特征层的数据交互,最大限度保留浅层的特征,消除梯度消失现象。加入数据并行(DP)模式用于减少显存消耗和提升训练速度。针对显示屏外观缺陷形状不规整的特性,本发明卷积神经网络层中的卷积核大部分使用可变形卷积,用于匹配外观缺陷的形状,可以更好地提取特征。
请参阅图6,本申请提供了一种缺陷图像的生成装置的一个实施例,包括:
第一获取单元601,用于获取缺陷图像与缺陷图像对应的类型标签,根据缺陷图像和类型标签生成原始图像;
第二获取单元602,用于获取卷积神经网络模型,卷积神经网络模型包含编码器、隐空间和解码器;
提取单元603,将原始图像输入卷积神经网络模型中,通过编码器提取原始图像的缺陷标签特征;
可选的,编码器包括至少一组Encoder模块,Encoder模块包括区域像素注意力模块、至少一个特征压缩模块、至少一个多重注意力卷积模块、至少一个第一注意力Dropout模块和至少一个注意力通道池化模块;
提取单元603,包括:
第一生成模块6031,用于通过区域像素注意力模块对原始图像进行区域像素值权重生成处理,生成第一特征;
第二生成模块6032,用于通过区域像素注意力模块将原始图像和第一特征按通道对应相乘,生成第二特征;
第三生成模块6033,用于通过多重注意力卷积模块中不同大小感受野的卷积核对第二特征的不同大小区域分配注意力,并通过分配注意力对第二特征不同特征通道进行筛选,生成第三特征;
可选的,第三生成模块6033,包括:
通过多重注意力卷积模块中不同大小感受野的卷积核分别对第二特征进行特征提取,生成感受野特征集合;
通过多重注意力卷积模块将感受野特征集合进行通道叠加处理和特征调整处理,生成中间特征;
通过多重注意力卷积模块为中间特征的通道分配注意力,并根据分配注意力将中间特征和感受野特征集合按通道对应相乘,得到的数据再按通道对应相加,然后与第二特征相加,生成第三特征。
第四生成模块6034,用于通过第一注意力Dropout模块给第三特征对应的每个神经元分配注意力,并将注意力小于第一预设阈值的神经元进行置零,生成第四特征;
第五生成模块6035,用于通过注意力通道池化模块给第四特征的每个通道分配注意力,舍弃注意力排序较后的通道,生成第五特征;
第六生成模块6036,用于通过特征压缩模块对第五特征进行特征信息的提取,生成缺陷标签特征。
第一生成单元604,用于将缺陷标签特征输入隐空间,通过隐空间为缺陷标签特征生成隐空间参数,隐空间参数为缺陷图像的条件概率分布;
第二生成单元605,用于通过重参数化技术对隐空间参数进行采样,生成正态分布数据,正态分布数据遵循缺陷图像的条件概率分布;
可选的,隐空间参数包括均值集合和方差集合;
第二生成单元605,包括:
生成一组符合正态分布的变量集合;
根据均值集合、方差集合和变量集合进行采样计算,生成正态分布数据。
第三生成单元606,用于将正态分布数据和类型标签输入解码器,通过解码器生成目标图像;
可选的,解码器包括卷积神经输出模块和至少一组Decoder模块,Decoder模块包括区域像素注意力模块、反卷积模块、通道加和池化模块、通道注意力模块和第二注意力Dropout模块;
第三生成单元,包括:
将正态分布数据和类型标签进行通道拼接,生成第六特征;
通过区域像素注意力模块对第六特征进行区域像素值权重生成处理,生成第七特征;
通过区域像素注意力模块将第六特征和第七特征按通道对应相乘,生成第八特征;
通过反卷积模块将第八特征和类别标签重构,生成第九特征;
通过通道加和池化模块对第九特征按通道进行分组,并将每组特征按通道相加,生成第十特征;
通过通道注意力模块为第十特征生成通道向量;
通过通道注意力模块结合通道向量输出一个维度与第十特征通道数相同的归一化一维向量;
通过通道注意力模块根据归一化一维向量将第十特征按通道对应相乘,生成第十一特征;
通过第二注意力Dropout模块给第十一特征对应的每个神经元分配注意力,并将注意力小于第二预设阈值的神经元进行置零,生成第十二特征;
通过卷积神经输出模块将第十二特征进行图像还原,生成目标图像。
可选的,当解码器包括至少两组Decoder模块时,将其中一组Decoder模块的通道加和池化模块删去,生成Decoder前置模块,Decoder前置模块包括区域像素注意力模块、反卷积模块、通道注意力模块和第二注意力Dropout模块。
第一计算单元607,用于根据目标图像和原始图像进行重组损失的计算;
第二计算单元608,用于根据隐空间参数进行KL散度损失的计算;
记录单元609,用于根据重组损失和KL散度损失生成总损失值并记录到总损失值变化数据中;
第一判断单元610,用于判断总损失值变化数据是否满足训练条件;
确定单元611,用于当第一判断单元确定总损失值变化数据满足训练条件时,确定卷积神经网络模型完成训练;
第二判断单元612,用于当第一判断单元确定总损失值变化数据不满足训练条件时,判断原始图像训练次数是否达标;
第一更新单元613,用于当第二判断单元确定原始图像训练次数达标时,根据小批量随机梯度下降法更新卷积神经网络模型的权重,合成新的原始图像输入卷积神经网络模型;
第二更新单元614,用于当第二判断单元确定原始图像训练次数未达标时,根据小批量随机梯度下降法更新卷积神经网络模型的权重,将原始图像重新输入卷积神经网络模型。
请参阅图7,本申请提供了一种电子设备,包括:
处理器701、存储器703、输入输出单元702以及总线704。
处理器701与存储器703、输入输出单元702以及总线704相连。
存储器703保存有程序,处理器701调用程序以执行如图1、图2-1、图2-2、图2-3、图2-4和图2-5中的生成方法。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如图1、图2-1、图2-2、图2-3、图2-4和图2-5中的生成方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (9)

1.一种缺陷图像的生成方法,其特征在于,包括:
获取缺陷图像与所述缺陷图像对应的类型标签,根据所述缺陷图像和所述类型标签生成原始图像;
获取卷积神经网络模型,所述卷积神经网络模型包含编码器、隐空间和解码器,所述编码器包括至少一组Encoder模块,所述Encoder模块包括区域像素注意力模块、至少一个特征压缩模块、至少一个多重注意力卷积模块、至少一个第一注意力Dropout模块和至少一个注意力通道池化模块;
将所述原始图像输入卷积神经网络模型中,通过所述区域像素注意力模块对所述原始图像进行区域像素值权重生成处理,生成第一特征;
通过所述区域像素注意力模块将所述原始图像和所述第一特征按通道对应相乘,生成第二特征;
通过所述多重注意力卷积模块中不同大小感受野的卷积核对所述第二特征的不同大小区域分配注意力,并通过所述分配注意力对所述第二特征不同特征通道进行筛选,生成第三特征;
通过所述第一注意力Dropout模块给所述第三特征对应的每个神经元分配注意力,并将注意力小于第一预设阈值的神经元进行置零,生成第四特征;
通过所述注意力通道池化模块给所述第四特征的每个通道分配注意力,舍弃注意力排序较后的通道,生成第五特征;
通过所述特征压缩模块对所述第五特征进行特征信息的提取,生成缺陷标签特征;
将所述缺陷标签特征输入所述隐空间,通过所述隐空间为所述缺陷标签特征生成隐空间参数,所述隐空间参数为所述缺陷图像的条件概率分布;
通过重参数化技术对所述隐空间参数进行采样,生成正态分布数据,所述正态分布数据遵循所述缺陷图像的条件概率分布;
将所述正态分布数据和所述类型标签输入所述解码器,通过所述解码器生成目标图像。
2.根据权利要求1所述的生成方法,其特征在于,在将所述正态分布数据和所述类型标签输入所述解码器,通过解码器生成目标图像之后,所述生成方法还包括:
根据所述目标图像和所述原始图像进行重组损失的计算;
根据所述隐空间参数进行KL散度损失的计算;
根据重组损失和所述KL散度损失生成总损失值并记录到总损失值变化数据中;
判断所述总损失值变化数据是否满足训练条件;
若所述总损失值变化数据满足训练条件,则确定所述卷积神经网络模型完成训练;
若所述总损失值变化数据不满足训练条件,则判断所述原始图像训练次数是否达标;
若达标,则根据小批量随机梯度下降法更新所述卷积神经网络模型的权重,合成新的原始图像输入所述卷积神经网络模型;
若未达标,则根据小批量随机梯度下降法更新所述卷积神经网络模型的权重,将所述原始图像重新输入所述卷积神经网络模型。
3.根据权利要求1所述的生成方法,其特征在于,所述通过所述多重注意力卷积模块中不同大小感受野的卷积核对所述第二特征的不同大小区域分配注意力,并通过所述分配注意力对所述第二特征不同特征通道进行筛选,生成第三特征,包括:
通过所述多重注意力卷积模块中不同大小感受野的卷积核分别对所述第二特征进行特征提取,生成感受野特征集合;
通过所述多重注意力卷积模块将所述感受野特征集合进行通道叠加处理和特征调整处理,生成中间特征;
通过所述多重注意力卷积模块为所述中间特征的通道分配注意力,并根据所述分配注意力将所述中间特征和所述感受野特征集合按通道对应相乘,得到的数据再按通道对应相加,然后与所述第二特征相加,生成第三特征。
4.根据权利要求1所述的生成方法,其特征在于,所述隐空间参数包括均值集合和方差集合;
所述通过重参数化技术对所述隐空间参数进行采样,生成正态分布数据,包括:
生成一组符合正态分布的变量集合;
根据所述均值集合、所述方差集合和所述变量集合进行采样计算,生成正态分布数据。
5.根据权利要求1所述的生成方法,其特征在于,所述解码器包括卷积神经输出模块和至少一组Decoder模块,所述Decoder模块包括区域像素注意力模块、反卷积模块、通道加和池化模块、通道注意力模块和第二注意力Dropout模块;
通过解码器生成目标图像,包括:
将所述正态分布数据和所述类型标签进行通道拼接,生成第六特征;
通过所述区域像素注意力模块对所述第六特征进行区域像素值权重生成处理,生成第七特征;
通过所述区域像素注意力模块将所述第六特征和所述第七特征按通道对应相乘,生成第八特征;
通过所述反卷积模块将所述第八特征和类别标签重构,生成第九特征;
通过所述通道加和池化模块对所述第九特征按通道进行分组,并将每组特征按通道相加,生成第十特征;
通过所述通道注意力模块为所述第十特征生成通道向量;
通过所述通道注意力模块结合所述通道向量输出一个维度与所述第十特征通道数相同的归一化一维向量;
通过所述通道注意力模块根据所述归一化一维向量将所述第十特征按通道对应相乘,生成第十一特征;
通过所述第二注意力Dropout模块给所述第十一特征对应的每个神经元分配注意力,并将注意力小于第二预设阈值的神经元进行置零,生成第十二特征;
通过所述卷积神经输出模块将所述第十二特征进行图像还原,生成目标图像。
6.根据权利要求5所述的生成方法,其特征在于,当所述解码器包括至少两组Decoder模块时,将其中一组Decoder模块的通道加和池化模块删去,生成Decoder前置模块,所述Decoder前置模块包括区域像素注意力模块、反卷积模块、通道注意力模块和第二注意力Dropout模块。
7.一种缺陷图像的生成装置,其特征在于,包括:
第一获取单元,用于获取缺陷图像与所述缺陷图像对应的类型标签,根据所述缺陷图像和所述类型标签生成原始图像;
第二获取单元,用于获取卷积神经网络模型,所述卷积神经网络模型包含编码器、隐空间和解码器,编码器包括至少一组Encoder模块,Encoder模块包括区域像素注意力模块、至少一个特征压缩模块、至少一个多重注意力卷积模块、至少一个第一注意力Dropout模块和至少一个注意力通道池化模块;
提取单元,将所述原始图像输入卷积神经网络模型中,通过所述编码器提取所述原始图像的缺陷标签特征;
提取单元,包括:
第一生成模块,用于通过区域像素注意力模块对原始图像进行区域像素值权重生成处理,生成第一特征;
第二生成模块,用于通过区域像素注意力模块将原始图像和第一特征按通道对应相乘,生成第二特征;
第三生成模块,用于通过多重注意力卷积模块中不同大小感受野的卷积核对第二特征的不同大小区域分配注意力,并通过分配注意力对第二特征不同特征通道进行筛选,生成第三特征;
第四生成模块,用于通过第一注意力Dropout模块给第三特征对应的每个神经元分配注意力,并将注意力小于第一预设阈值的神经元进行置零,生成第四特征;
第五生成模块,用于通过注意力通道池化模块给第四特征的每个通道分配注意力,舍弃注意力排序较后的通道,生成第五特征;
第六生成模块,用于通过特征压缩模块对第五特征进行特征信息的提取,生成缺陷标签特征;
第一生成单元,用于将所述缺陷标签特征输入所述隐空间,通过所述隐空间为所述缺陷标签特征生成隐空间参数,所述隐空间参数为所述缺陷图像的条件概率分布;
第二生成单元,用于通过重参数化技术对所述隐空间参数进行采样,生成正态分布数据,所述正态分布数据遵循所述缺陷图像的条件概率分布;
第三生成单元,用于将所述正态分布数据和所述类型标签输入所述解码器,通过所述解码器生成目标图像。
8.一种电子设备,其特征在于,包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至6任意一项所述的生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至6中任一项所述的生成方法。
CN202211352935.7A 2022-11-01 2022-11-01 一种缺陷图像的生成方法、装置、电子设备和存储介质 Active CN115393231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211352935.7A CN115393231B (zh) 2022-11-01 2022-11-01 一种缺陷图像的生成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211352935.7A CN115393231B (zh) 2022-11-01 2022-11-01 一种缺陷图像的生成方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115393231A CN115393231A (zh) 2022-11-25
CN115393231B true CN115393231B (zh) 2023-03-24

Family

ID=84115053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211352935.7A Active CN115393231B (zh) 2022-11-01 2022-11-01 一种缺陷图像的生成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115393231B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115526891B (zh) * 2022-11-28 2023-04-07 深圳精智达技术股份有限公司 一种缺陷数据集的生成模型的训练方法及相关装置
CN115909013B (zh) * 2023-01-10 2023-07-25 深圳精智达技术股份有限公司 一种图像的卷积方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769766B1 (en) * 2018-05-31 2020-09-08 Amazon Technologies, Inc. Regularized multi-label classification from partially labeled training data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961219B2 (en) * 2020-02-27 2024-04-16 KLA Corp. Generative adversarial networks (GANs) for simulating specimen images
CN113657498B (zh) * 2021-08-17 2023-02-10 展讯通信(上海)有限公司 生物特征提取方法、训练方法、认证方法、装置和设备
CN114399471A (zh) * 2021-12-28 2022-04-26 昆明能讯科技有限责任公司 一种电力缺陷小样本生成方法及存储介质
CN114842284A (zh) * 2022-03-17 2022-08-02 兰州交通大学 一种基于注意力机制和dcgan的钢轨表面缺陷图像扩充方法
CN115100502A (zh) * 2022-06-24 2022-09-23 温州大学 一种基于标签推理的多标签图像识别算法研究

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769766B1 (en) * 2018-05-31 2020-09-08 Amazon Technologies, Inc. Regularized multi-label classification from partially labeled training data

Also Published As

Publication number Publication date
CN115393231A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN112233038B (zh) 基于多尺度融合及边缘增强的真实图像去噪方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111882002B (zh) 一种基于msf-am的低照度目标检测方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN115393231B (zh) 一种缺陷图像的生成方法、装置、电子设备和存储介质
Zhao et al. Tensor completion via complementary global, local, and nonlocal priors
CN112767468A (zh) 基于协同分割与数据增强的自监督三维重建方法及系统
CN115526891B (zh) 一种缺陷数据集的生成模型的训练方法及相关装置
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
Jiang et al. Learning a referenceless stereopair quality engine with deep nonnegativity constrained sparse autoencoder
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
Jiang et al. A new nonlocal means based framework for mixed noise removal
CN112200752B (zh) 一种基于er网络多帧图像去模糊系统及其方法
Huang et al. Underwater image enhancement via LBP‐based attention residual network
CN113628143A (zh) 一种基于多尺度卷积的加权融合图像去雾方法及装置
CN115346091B (zh) 一种Mura缺陷图像数据集的生成方法和生成装置
Yang et al. Detail-aware near infrared and visible fusion with multi-order hyper-Laplacian priors
CN110136164B (zh) 基于在线透射变换、低秩稀疏矩阵分解去除动态背景的方法
CN116645305A (zh) 基于多注意力机制与Retinex的低光照图像增强方法
Zhang et al. A cross-scale framework for low-light image enhancement using spatial–spectral information
Xu et al. Attention‐based multi‐channel feature fusion enhancement network to process low‐light images
CN109002802A (zh) 基于自适应鲁棒主成分分析的视频前景分离方法和系统
Zou et al. DiffCR: A Fast Conditional Diffusion Framework for Cloud Removal From Optical Satellite Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant