CN116524299A - 一种图像样本生成方法、装置、设备及存储介质 - Google Patents
一种图像样本生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116524299A CN116524299A CN202310489526.XA CN202310489526A CN116524299A CN 116524299 A CN116524299 A CN 116524299A CN 202310489526 A CN202310489526 A CN 202310489526A CN 116524299 A CN116524299 A CN 116524299A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- generation
- network
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 230000007547 defect Effects 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000009792 diffusion process Methods 0.000 claims description 45
- 230000006978 adaptation Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 13
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001010 compromised effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种图像样本生成方法、装置、设备及存储介质,克服了机器视觉图像样本采集困难的问题,使用该方法可以仅采集极少量的正样本,即可生成大量的正样本图像,并根据数据集中学习的各种缺陷类型生成可用的负样本。同时,克服了现有图像样本生成方法稳定性差的问题,该方法使用的网络和训练方法可以准确保留产品样本的特征,生成近乎真实的样本图像。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于受控扩散模型的机器视觉图像样本生成方法、装置、设备及存储介质。
背景技术
机器视觉,是指在工业领域,通过拍摄设备、产品的图像用于测量、检测、识别等应用场景的技术。深度学习,是指通过构建深度神经网络,学习数据集中的样本特征并使用这些特征完成各种下游任务的算法技术。由于深度学习具有良好的范用性,被广泛使用于机器视觉的检测、识别任务中。
目标,使用深度学习方法的机器视觉技术在工业产品识别、检测等领域中被广泛应用。在细分的基于机器视觉的异常检测领域,只需要采集足够多的正样本(正常样本)和负样本(异常样本、缺陷样本),选取合适的深度学习网络,训练之后就可以得到一个效果良好的检测模型。
由于深度学习方法依赖于采集的大量数据,在数据量小和数据质量不高的时候其效果将大打折扣。而在机器视觉的异常检测等工业场景中,很多时候由于设备和产品批量小,无法采集大量正常样品;又因为会使产品产生破坏性的损伤,或是设备难以进行人工干扰和破坏,更无法采集大量的缺陷样品。从而使得这些场景下难以应用基于深度学习的机器视觉方法。
对于上述问题,现有的解决方案大致有两类。其一是利用图像编辑技术,对已有样本使用旋转、镜像、调整图像色彩、添加噪声等方式,得到新的正样本;对样本进行人工修改纹理、嵌入其他缺陷图像等方式,得到新的负样本。其二是利用基于神经网络的图像生成技术,如使用生成对抗网络(GAN),将通用图像数据集中训练的模型迁移到工业场景下,输入已有样本图片或文本描述,生成相近的图像数据。
这两种方法中,图像编辑技术操作空间有限,无法生成大量样本;且生成的样本和已有样本相似度高,影响后续深度学习训练的准确性;另外,依赖人工操作,效率低下,耗时太长。
而图像生成技术则迁移困难,使用迁移的模型生成的图像容易带有原数据集的特征;迁移的模型需要大量的参数调节实践,且生成的图像不可控,很容易出现各种特征混杂的图像,很难得到高质量、接近真实的可用图像。
发明内容
鉴于上述问题,本发明提供用于克服上述问题或者至少部分地解决上述问题的一种图像样本生成方法、装置、设备及存储介质。通过采集大量的多品类工业图像数据,形成通用工业图像数据集,构建稳定扩散模型用于正样本的生成,并构建改进的控制网络进行负样本的生成,从而得到了通用的工业图像数据生成网络,实现了从极少正样本生成可用的工业机器视觉异常检测数据集。
本发明提供了如下方案:
一种图像样本生成方法,包括:
获取若干张工业图像,并制作获得预训练数据集;所述预训练数据集包括每张所述工业图像的一份原始图像样本、每张所述工业图像的图像描述文本以及每张所述工业图像对应的一张样本缺陷蒙版掩模图像;
构建基于稳定扩散模型的图像生成网络;所述稳定扩散模型包括图像编码器以及图像解码器;
结合所述预训练数据集中的原始图像样本以及图像描述文本利用低秩适应方法训练所述图像编码器以及所述图像解码器获得正样本生成模型;
构建受控图像生成网络,所述受控图像生成网络包括所述图像生成网络以及与所述图像生成网络结合的控制网络;所述控制网络用于引入缺陷掩膜图像和条件相似度参数控制所述图像解码器的解码过程;
将所述预训练数据集中的原始图像样本作为图片输入、图像描述文本作为文本输入、缺陷蒙版掩模图像作为条件输入,利用所述低秩适应方法训练所述图像编码器以及所述图像解码器获得负样本生成模型;
获取样本图像并确定所述样本图像的样本描述词,所述样本图像为正常产品图像;将所述样本图像以及所述样本描述词输入所述正样本生成模型获得正样本图像;
确定所述正样本图像的缺陷描述词以及缺陷掩模图像;将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型获得负样本图像。
优选地:所述工业图像采用收集的各种类型工业产品图像构建和/或采用Mvtec-AD数据集。
优选地:所述图像编码器包括编码扩散块,所述编码扩散块用于将输入图像编码到8×8的中间扩散块;所述图像解码器包括解码扩散块,所述解码扩散块用于将所述中间扩散块重新编码成图像。
优选地:所述稳定扩散模型还包括文本编码器以及图像信息创建器;所述文本编码器用于采用语言图像对比模型中的文本编码器部分对所述图像生成网络的文本输入进行编码;所述图像信息创建器由若干个Unet编解码器结构连接组成。
优选地:根据受条件输入控制的程度要求确定所述条件相似度参数的值。
优选地:将所述样本图像以及所述样本描述词输入所述正样本生成模型,并设置网络参数后获得正样本图像;
将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型,并设置所述网络参数后获得负样本图像;
所述网络参数包括迭代步数、随机种子、采样方法、原图一致性。
优选地:采用手动绘制或随机生成的方式确定所述正样本缺陷掩码图像。
一种图像样本生成装置,包括:
预训练数据集获取单元,用于获取若干张工业图像,并制作获得预训练数据集;所述预训练数据集包括每张所述工业图像的一份原始图像样本、每张所述工业图像的图像描述文本以及每张所述工业图像对应的一张样本缺陷蒙版掩模图像;
图像生成网络构建单元,用于构建基于稳定扩散模型的图像生成网络;所述稳定扩散模型包括图像编码器以及图像解码器;
正样本生成模型获取单元,用于结合所述预训练数据集中的原始图像样本以及图像描述文本利用低秩适应方法训练所述图像编码器以及所述图像解码器获得正样本生成模型;
受控图像生成网络构建单元,用于构建受控图像生成网络,所述受控图像生成网络包括所述图像生成网络以及与所述图像生成网络结合的控制网络;所述控制网络用于引入缺陷掩膜和条件相似度参数控制所述图像解码器的解码过程;
负样本生成模型获取单元,用于将所述预训练数据集中的原始图像样本作为图片输入、图像描述文本作为文本输入、缺陷蒙版掩模图像作为条件输入,利用所述低秩适应方法训练所述图像编码器以及所述图像解码器获得负样本生成模型;
正样本图像生成单元,用于获取样本图像并确定所述样本图像的样本描述词,所述样本图像为正常产品图像;将所述样本图像以及所述样本描述词输入所述正样本生成模型获得正样本图像;
负样本图像生成单元,用于确定所述正样本图像的缺陷描述词以及缺陷掩模图像;将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型获得负样本图像。
一种图像样本生成设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的图像样本生成方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的图像样本生成方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本申请实施例提供的一种图像样本生成方法、装置、设备及存储介质,克服了机器视觉图像样本采集困难的问题,使用该方法可以仅采集极少量的正样本,即可生成大量的正样本图像,并根据数据集中学习的各种缺陷类型生成可用的负样本。
同时,克服了现有图像样本生成方法稳定性差的问题,该方法使用的网络和训练方法可以准确保留产品样本的特征,生成近乎真实的样本图像。
另外,克服了现有图像样本生成方法不可控的问题,该方法构建的改进受控图像生成网络可以很好地接收和处理掩模输入,使得生成的负样本具有用户控制的形态和特征。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像样本生成方法的流程图;
图2是本发明实施例提供的一种图像样本生成方法的步骤框架图;
图3是本发明实施例提供的训练数据集结构图;
图4是本发明实施例提供的稳定扩散网络结构示意图;
图5是本发明实施例提供的低秩适应训练方法示意图;
图6是本发明实施例提供的生成正样本步骤示意图;
图7是本发明实施例提供的受控图像生成网络示意图;
图8是本发明实施例提供的控制解码器与生成网络图像解码器耦合示意图;
图9是本发明实施例提供的生成负样本步骤示意图;
图10是本发明实施例提供的一种图像样本生成装置的示意图;
图11是本发明实施例提供的一种图像样本生成设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种图像样本生成方法,如图1所示,该方法可以包括:
S101:获取若干张工业图像,并制作获得预训练数据集;所述预训练数据集包括每张所述工业图像的一份原始图像样本、每张所述工业图像的图像描述文本以及每张所述工业图像对应的一张样本缺陷蒙版掩模图像;其中,工业图像可以包含尽可能多数量的各种类工业图像,例如,所述工业图像采用收集的各种类型工业产品图像构建和/或采用Mvtec-AD数据集。Mvtec-AD数据集,即通用工业图像数据集,通常包含5354张不同目标和纹理类型的高分辨彩色图像。它包含用于训练的正常(即不包含缺陷)的图像,以及用于测试的异常图像。异常有70种不同类型的缺陷,例如划痕、凹痕、污染和不同结构变化。
S102:构建基于稳定扩散模型的图像生成网络;所述稳定扩散模型包括图像编码器以及图像解码器;具体的,所述图像编码器包括编码扩散块,所述编码扩散块用于将输入图像编码到8×8的中间扩散块;所述图像解码器包括解码扩散块,所述解码扩散块用于将所述中间扩散块重新编码成图像。
进一步的,所述稳定扩散模型还包括文本编码器以及图像信息创建器;所述文本编码器用于采用语言图像对比模型中的文本编码器部分对所述图像生成网络的文本输入进行编码;所述图像信息创建器由若干个Unet编解码器结构连接组成。
S103:结合所述预训练数据集中的原始图像样本以及图像描述文本利用低秩适应方法训练所述图像编码器以及所述图像解码器获得正样本生成模型;
S104:构建受控图像生成网络,所述受控图像生成网络包括所述图像生成网络以及与所述图像生成网络结合的控制网络;所述控制网络用于引入缺陷掩模图像和条件相似度参数控制所述图像解码器的解码过程;具体的,根据受条件输入控制的程度要求确定所述条件相似度参数的值。控制网络主要作用是引入缺陷掩模图像,同时加入相似度参数可以让生成图像可控地保持一定原图特征。
S105:将所述预训练数据集中的原始图像样本作为图片输入、图像描述文本作为文本输入、缺陷蒙版掩模图像作为条件输入,利用所述低秩适应方法训练所述图像编码器以及所述图像解码器获得负样本生成模型;
S106:获取样本图像并确定所述样本图像的样本描述词,所述样本图像为正常产品图像;将所述样本图像以及所述样本描述词输入所述正样本生成模型获得正样本图像;
S107:确定所述正样本图像的缺陷描述词以及缺陷掩模图像;将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型获得负样本图像。
具体实现时,将所述样本图像以及所述样本描述词输入所述正样本生成模型,并设置网络参数后获得正样本图像;
将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型,并设置所述网络参数后获得负样本图像;
所述网络参数包括迭代步数、随机种子、采样方法、原图一致性。
本申请实施例提供的图像样本生成方法,通过采集大量的多品类工业图像数据,形成通用工业图像数据集,构建稳定扩散模型用于正样本的生成,并构建改进的控制网络进行负样本的生成,从而得到了通用的工业图像数据生成网络,实现了从极少正样本生成可用的工业机器视觉异常检测数据集。
采用低秩适应方法将图像生成网络模型迁移到工业图像数据集上训练的方法,该方法大大提高了图像生成网络的稳定性和可控性,使得图像生成网络可以生成与目标产品特征一致的正样本图像。
改进的控制网络并将其结合到稳定扩散模型。该方法向控制网络中添加了条件相似度参数,使得控制网络可以得到不同缺陷程度的负样本图像,大大扩展了掩模图像的用途。
使用改进受控图像生成网络生成产品负样本图像的方法。该方法具有很高的稳定性、可控性和灵活度,在保证样本特征的同时,可以准确生成想要的各种类型的产品负样本图像。
下面对本申请实施例提供的图像样本生成方法进行详细介绍。
该方法制作了工业产品图像数据集,构建了基于稳定扩散(Stable Diffusion)模型的图像生成网络,并使用低秩适应(Low-Rank Adaption)方法从构建的工业图像数据集训练了正样本生成模型,该模型即可用于正样本的生成;构建了基于控制网络(ControlNet)改进的生成控制网络(负样本生成模型),将正样本生成模型重新训练为受控生成模型,该模型即可用于负样本的生成。具体步骤框架如图2所示。
具体实施步骤如下:
(1)采集和选取工业图像数据,并制作成预训练数据集。图像数据应当包含尽可能多数量的各种类工业图像,可以有缺陷也可以是正常样本。数据集可以采用用户收集的大量产品图像构建,如果用户不易收集到产品图像,或者收集的产品图像较少时,还可以选用Mvtec-AD数据集,该Mvtec-AD数据集可以单独使用,还可以与收集到的图像组合使用。之后对于每张图像,保留一份原始图像样本,描述并保存一段图像描述文本,制作并保存一张样本缺陷蒙版掩模图像,最终得到的数据集具有如图3所示的结构。
(2)构建基于稳定扩散模型的图像生成网络。稳定扩散模型由文本编码器,图像信息创建器,图像编码器,图像解码器组成,其结构如图4所示。
如图4所示,其中的文本编码器采用语言图像对比预训练模型(CLIP,ContrastiveLanguage-Image Pretraining)框架中的文本编码器(Text Transformer)部分。图像信息创建器组由N个Unet编解码器结构连接组成,N最大设置为50,后续使用中可修改。图像编码器由编码扩散块组成,将输入图像编码到8×8的中间扩散块。图像解码块由解码扩散块组成,将中间扩散块重新编码成图像。
(3)使用低秩适应(Low-Rank Adaption)方法训练图像生成网络。其中数据集为步骤(1)中得到的数据集的原始样本和描述文本部分。低秩适应方法如图5所示。
低秩适应方法作用于密集层上,保持了预训练的权重冻结,转而训练图中A和B所示的秩分解矩阵参数,使得训练模型保留了冻结权重的同时,又得到了高效的训练矩阵用于微调模型以适应新的数据集。
该方法中使用低秩适应方法训练步骤(2)中所示稳定扩散模型的图像编码器和图像解码器部分。将稳定扩散模型的预训练模型迁移到(1)中得到的工业图像预训练数据集中,训练得到适应于工业图像的正样本生成模型。
(4)使用正样本生成模型生成目标产品的正样本。如图6所示,首先采集一张正常产品的图像作为样本,将样本图像输入正样本生成模型,同时输入特定的描述词,如“黄铜色的,齿轮”;之后设置网络参数,如迭代步数、随机种子、采样方法、原图一致性等;设置完参数后运行模型即可得到生成正样本图像。
(5)构建基于改进控制网络的受控图像生成网络。给图像生成网络添加控制网络,组合后的受控图像生成网络结构如图7所示,引入新的条件输入来控制图像生成网络中的图像编解码过程。
其中,如图8所示为受控网络的条件编码器结构示意图,控制网络基本块的结构示意图,以及修改后的图像解码器结构示意图;其中改进的图像解码器中添加参数M作为条件相似度参数,网络中第M步之前使用控制网络解码器结构,第M步之后使用生成网络图像解码器结构,M的值可在模型使用时修改,用来控制生成图片受条件输入控制的程度。
(6)使用改进受控图像生成网络训练负样本生成模型。使用步骤(1)中得到的数据集,将数据集中的原始样本作为图片输入,描述文本作为文本输入,掩模图像作为条件输入,使用和步骤(3)相同的低秩适应方法训练改进受控图像生成网络,得到负样本生成模型。
(7)使用负样本生成模型生成目标产品的负样本。如图9所示,与步骤(4)类似地,使用步骤(4)中正样本图像作为输入图像,添加描述词,并手动绘制或随机生成缺陷掩模图像作为条件输入,设置完参数后即可运行得到输出的负样本图像。
总之,本申请提供的图像样本生成方法,克服了机器视觉图像样本采集困难的问题,使用该方法可以仅采集极少量的正样本,即可生成大量的正样本图像,并根据数据集中学习的各中缺陷类型生成可用的负样本。
同时,克服了现有图像样本生成方法稳定性差的问题,该方法使用的网络和训练方法可以准确保留产品样本的特征,生成近乎真实的样本图像。
另外,克服了现有图像样本生成方法不可控的问题,该方法构建的改进受控图像生成网络可以很好地接收和处理掩模输入,使得生成的负样本具有用户控制的形态和特征。
参见图10,本申请实施例还可以提供一种图像样本生成装置,如图10所示,该装置可以包括:
预训练数据集获取单元1001,用于获取若干张工业图像,并制作获得预训练数据集;所述预训练数据集包括每张所述工业图像的一份原始图像样本、每张所述工业图像的图像描述文本以及每张所述工业图像对应的一张样本缺陷蒙版掩模图像;
图像生成网络构建单元1002,用于构建基于稳定扩散模型的图像生成网络;所述稳定扩散模型包括图像编码器以及图像解码器;
正样本生成模型获取单元1003,用于结合所述预训练数据集中的原始图像样本以及图像描述文本利用低秩适应方法训练所述图像编码器以及所述图像解码器获得正样本生成模型;
受控图像生成网络构建单元1004,用于构建受控图像生成网络,所述受控图像生成网络包括所述图像生成网络以及与所述图像生成网络结合的控制网络;所述控制网络用于引入缺陷掩模和条件相似度参数控制所述图像解码器的解码过程;
负样本生成模型获取单元1005,用于将所述预训练数据集中的原始图像样本作为图片输入、图像描述文本作为文本输入、缺陷蒙版掩模图像作为条件输入,利用所述低秩适应方法训练所述图像编码器以及所述图像解码器获得负样本生成模型;
正样本图像生成单元1006,用于获取样本图像并确定所述样本图像的样本描述词,所述样本图像为正常产品图像;将所述样本图像以及所述样本描述词输入所述正样本生成模型获得正样本图像;
负样本图像生成单元1007,用于确定所述正样本图像的缺陷描述词以及缺陷掩模图像;将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型获得负样本图像。
如图11所示,本申请实施例提供的一种图像样本生成设备,可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行图像样本生成方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
获取若干张工业图像,并制作获得预训练数据集;所述预训练数据集包括每张所述工业图像的一份原始图像样本、每张所述工业图像的图像描述文本以及每张所述工业图像对应的一张样本缺陷蒙版掩模图像;
构建基于稳定扩散模型的图像生成网络;所述稳定扩散模型包括图像编码器以及图像解码器;
结合所述预训练数据集中的原始图像样本以及图像描述文本利用低秩适应方法训练所述图像编码器以及所述图像解码器获得正样本生成模型;
构建受控图像生成网络,所述受控图像生成网络包括所述图像生成网络以及与所述图像生成网络结合的控制网络;所述控制网络用于引入缺陷掩模和条件相似度参数控制所述图像解码器的解码过程;
将所述预训练数据集中的原始图像样本作为图片输入、图像描述文本作为文本输入、缺陷蒙版掩模图像作为条件输入,利用所述低秩适应方法训练所述图像编码器以及所述图像解码器获得负样本生成模型;
获取样本图像并确定所述样本图像的样本描述词,所述样本图像为正常产品图像;将所述样本图像以及所述样本描述词输入所述正样本生成模型获得正样本图像;
确定所述正样本图像的缺陷描述词以及缺陷掩模图像;将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型获得负样本图像。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如初始化数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图11所示的结构并不构成对本申请实施例中图像样本生成设备的限定,在实际应用中图像样本生成设备可以包括比图11所示的更多或更少的部件,或者组合某些部件。
本申请实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的图像样本生成方法的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种图像样本生成方法,其特征在于,包括:
获取若干张工业图像,并制作获得预训练数据集;所述预训练数据集包括每张所述工业图像的一份原始图像样本、每张所述工业图像的图像描述文本以及每张所述工业图像对应的一张样本缺陷蒙版掩模图像;
构建基于稳定扩散模型的图像生成网络;所述稳定扩散模型包括图像编码器以及图像解码器;
结合所述预训练数据集中的原始图像样本以及图像描述文本利用低秩适应方法训练所述图像编码器以及所述图像解码器获得正样本生成模型;
构建受控图像生成网络,所述受控图像生成网络包括所述图像生成网络以及与所述图像生成网络结合的控制网络;所述控制网络用于引入缺陷掩膜图像和条件相似度参数控制所述图像解码器的解码过程;
将所述预训练数据集中的原始图像样本作为图片输入、图像描述文本作为文本输入、缺陷蒙版掩模图像作为条件输入,利用所述低秩适应方法训练所述图像编码器以及所述图像解码器获得负样本生成模型;
获取样本图像并确定所述样本图像的样本描述词,所述样本图像为正常产品图像;将所述样本图像以及所述样本描述词输入所述正样本生成模型获得正样本图像;
确定所述正样本图像的缺陷描述词以及缺陷掩模图像;将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型获得负样本图像。
2.根据权利要求1所述的图像样本生成方法,其特征在于,所述工业图像采用收集的各种类型工业产品图像构建和/或采用Mvtec-AD数据集。
3.根据权利要求1所述的图像样本生成方法,其特征在于,所述图像编码器包括编码扩散块,所述编码扩散块用于将输入图像编码到8×8的中间扩散块;所述图像解码器包括解码扩散块,所述解码扩散块用于将所述中间扩散块重新编码成图像。
4.根据权利要求1所述的图像样本生成方法,其特征在于,所述稳定扩散模型还包括文本编码器以及图像信息创建器;所述文本编码器用于采用语言图像对比模型中的文本编码器部分对所述图像生成网络的文本输入进行编码;所述图像信息创建器由若干个Unet编解码器结构连接组成。
5.根据权利要求1所述的图像样本生成方法,其特征在于,根据受条件输入控制的程度要求确定所述条件相似度参数的值。
6.根据权利要求1所述的图像样本生成方法,其特征在于,将所述样本图像以及所述样本描述词输入所述正样本生成模型,并设置网络参数后获得正样本图像;
将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型,并设置所述网络参数后获得负样本图像;
所述网络参数包括迭代步数、随机种子、采样方法、原图一致性。
7.根据权利要求1所述的图像样本生成方法,其特征在于,采用手动绘制或随机生成的方式确定所述正样本缺陷掩码图像。
8.一种图像样本生成装置,其特征在于,包括:
预训练数据集获取单元,用于获取若干张工业图像,并制作获得预训练数据集;所述预训练数据集包括每张所述工业图像的一份原始图像样本、每张所述工业图像的图像描述文本以及每张所述工业图像对应的一张样本缺陷蒙版掩模图像;
图像生成网络构建单元,用于构建基于稳定扩散模型的图像生成网络;所述稳定扩散模型包括图像编码器以及图像解码器;
正样本生成模型获取单元,用于结合所述预训练数据集中的原始图像样本以及图像描述文本利用低秩适应方法训练所述图像编码器以及所述图像解码器获得正样本生成模型;
受控图像生成网络构建单元,用于构建受控图像生成网络,所述受控图像生成网络包括所述图像生成网络以及与所述图像生成网络结合的控制网络;所述控制网络用于引入缺陷掩膜和条件相似度参数控制所述图像解码器的解码过程;
负样本生成模型获取单元,用于将所述预训练数据集中的原始图像样本作为图片输入、图像描述文本作为文本输入、缺陷蒙版掩模图像作为条件输入,利用所述低秩适应方法训练所述图像编码器以及所述图像解码器获得负样本生成模型;
正样本图像生成单元,用于获取样本图像并确定所述样本图像的样本描述词,所述样本图像为正常产品图像;将所述样本图像以及所述样本描述词输入所述正样本生成模型获得正样本图像;
负样本图像生成单元,用于确定所述正样本图像的缺陷描述词以及缺陷掩模图像;将所述正样本图像、所述缺陷描述词以及所述缺陷掩模图像输入所述负样本生成模型获得负样本图像。
9.一种图像样本生成设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的图像样本生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的图像样本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310489526.XA CN116524299A (zh) | 2023-05-04 | 2023-05-04 | 一种图像样本生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310489526.XA CN116524299A (zh) | 2023-05-04 | 2023-05-04 | 一种图像样本生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524299A true CN116524299A (zh) | 2023-08-01 |
Family
ID=87407779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310489526.XA Pending CN116524299A (zh) | 2023-05-04 | 2023-05-04 | 一种图像样本生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524299A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975344A (zh) * | 2023-08-09 | 2023-10-31 | 浙江大学 | 一种基于Stable Diffusion的中文字库生成方法及装置 |
CN117058490A (zh) * | 2023-10-12 | 2023-11-14 | 成都数智创新精益科技有限公司 | 模型训练方法、缺陷图像生成方法及相关装置 |
CN117315417A (zh) * | 2023-09-04 | 2023-12-29 | 浙江大学 | 一种基于扩散模型的服装样式融合方法和系统 |
CN117496003A (zh) * | 2023-11-01 | 2024-02-02 | 合肥高斯智能科技有限公司 | 一种工业元件的缺陷图像生成方法 |
CN117649351A (zh) * | 2024-01-30 | 2024-03-05 | 武汉大学 | 一种基于扩散模型的工业缺陷图像仿真方法及装置 |
CN117808933A (zh) * | 2024-02-29 | 2024-04-02 | 成都索贝数码科技股份有限公司 | 一种图像要素分解与重构方法及装置 |
-
2023
- 2023-05-04 CN CN202310489526.XA patent/CN116524299A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975344A (zh) * | 2023-08-09 | 2023-10-31 | 浙江大学 | 一种基于Stable Diffusion的中文字库生成方法及装置 |
CN116975344B (zh) * | 2023-08-09 | 2024-01-23 | 浙江大学 | 一种基于Stable Diffusion的中文字库生成方法及装置 |
CN117315417A (zh) * | 2023-09-04 | 2023-12-29 | 浙江大学 | 一种基于扩散模型的服装样式融合方法和系统 |
CN117315417B (zh) * | 2023-09-04 | 2024-05-14 | 浙江大学 | 一种基于扩散模型的服装样式融合方法和系统 |
CN117058490A (zh) * | 2023-10-12 | 2023-11-14 | 成都数智创新精益科技有限公司 | 模型训练方法、缺陷图像生成方法及相关装置 |
CN117496003A (zh) * | 2023-11-01 | 2024-02-02 | 合肥高斯智能科技有限公司 | 一种工业元件的缺陷图像生成方法 |
CN117496003B (zh) * | 2023-11-01 | 2024-05-14 | 合肥高斯智能科技有限公司 | 一种工业元件的缺陷图像生成方法 |
CN117649351A (zh) * | 2024-01-30 | 2024-03-05 | 武汉大学 | 一种基于扩散模型的工业缺陷图像仿真方法及装置 |
CN117649351B (zh) * | 2024-01-30 | 2024-04-19 | 武汉大学 | 一种基于扩散模型的工业缺陷图像仿真方法及装置 |
CN117808933A (zh) * | 2024-02-29 | 2024-04-02 | 成都索贝数码科技股份有限公司 | 一种图像要素分解与重构方法及装置 |
CN117808933B (zh) * | 2024-02-29 | 2024-05-24 | 成都索贝数码科技股份有限公司 | 一种图像要素分解与重构方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116524299A (zh) | 一种图像样本生成方法、装置、设备及存储介质 | |
KR101967089B1 (ko) | 컨볼루션 신경망 기반의 완전 기준 이미지 품질 평가 | |
WO2021088101A1 (zh) | 基于改进的条件生成对抗网络的绝缘子分割方法 | |
CN114663335A (zh) | 图像瑕疵检测方法、装置、电子设备及介质 | |
CN114266945B (zh) | 一种目标检测模型的训练方法、目标检测方法及相关装置 | |
US20220414838A1 (en) | Image dehazing method and system based on cyclegan | |
CN112700432B (zh) | 一种基于异常合成与分解的纹理表面缺陷检测方法与系统 | |
CN112232485B (zh) | 漫画风格图像转换模型的训练方法、图像生成方法及装置 | |
CN114862811A (zh) | 一种基于变分自动编码器的缺陷检测方法 | |
CN111915626A (zh) | 心脏超声图像的心室区域自动分割方法、装置及存储介质 | |
CN113516153B (zh) | 学习多个随机变量之间的随机推断模型的方法和装置 | |
CN116958712B (zh) | 基于先验概率分布的图像生成方法、系统、介质及设备 | |
CN114116995A (zh) | 基于增强图神经网络的会话推荐方法、系统及介质 | |
CN113052257A (zh) | 一种基于视觉转换器的深度强化学习方法及装置 | |
CN115934484B (zh) | 基于扩散模型数据增强的异常检测方法、存储介质及设备 | |
CN116579409A (zh) | 基于重参数化的智能相机模型剪枝加速方法及加速系统 | |
CN116597263A (zh) | 图像合成模型的训练方法及相关装置 | |
US9336498B2 (en) | Method and apparatus for improving resilience in customized program learning network computational environments | |
CN115759482A (zh) | 一种社交媒体内容传播预测方法和装置 | |
CN112837236B (zh) | 用于图像补全的修复神经网络训练方法、装置、计算机设备和存储介质 | |
Daems et al. | Variational inference for sdes driven by fractional noise | |
JP7446697B2 (ja) | 教師データ作成方法及び作成装置 | |
US20230019733A1 (en) | Motion artifact correction using artificial neural networks | |
CN115409694B (zh) | 语义引导的缺陷图像生成方法、装置、设备及存储介质 | |
CN116452600B (zh) | 实例分割方法、系统、模型训练方法、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |