CN114677346B - 基于记忆信息的端到端的半监督图像表面缺陷的检测方法 - Google Patents
基于记忆信息的端到端的半监督图像表面缺陷的检测方法 Download PDFInfo
- Publication number
- CN114677346B CN114677346B CN202210275353.7A CN202210275353A CN114677346B CN 114677346 B CN114677346 B CN 114677346B CN 202210275353 A CN202210275353 A CN 202210275353A CN 114677346 B CN114677346 B CN 114677346B
- Authority
- CN
- China
- Prior art keywords
- image
- information
- abnormal
- feature
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims description 28
- 230000002159 abnormal effect Effects 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000005856 abnormality Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000008014 freezing Effects 0.000 claims abstract description 5
- 238000007710 freezing Methods 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims description 32
- 230000011218 segmentation Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 claims 1
- 238000005728 strengthening Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像表面缺陷的检测方法技术领域,公开了基于记忆信息的端到端的半监督图像表面缺陷的检测方法,其技术方案要点包括如下步骤:包括如下步骤(一)模拟异常样本、(二)冻结编码器、(三)提取记忆信息、(四)融合多尺度特征、(五)做出空间注意力图、(六)导入解码器、(七)得到输入图像的异常区域;本发明解决了监督学习框架下异常样本获取困难的问题,只需要采集正常样本即可完成模型训练;同时本发明解决了现有的检测方法在推理阶段需要较高计算成本的缺点,更能满足工业场景缺陷检测的实时性需求;同时解决了基于重构的模型泛化能力过强的缺点,实现了较高的异常检测精度。
Description
技术领域
本发明涉及图像表面缺陷的检测方法技术领域,尤其是基于记忆信息的端到端的半监督图像表面缺陷的检测方法。
背景技术
制造业智能化发展对工业产品的质量检测提出了更高的要求,而产品的表面缺陷检测是产品质量检测中的关键一环。表面缺陷检测是对图像异常区域的定位问题,但在实际应用中,由于异常样本出现的概率低,异常区域占比小,数据标注成本高,所以通过传统的监督学习进行异常检测和定位存在较大困难。因此,基于半监督技术进行表面缺陷检测的方法在实际应用中具有较大优势,它在训练阶段只需要正常样本,并在推理过程中通过比较输入样本与正常样本之间的特征差异来定位异常。
基于半监督技术,借助自动编码器(AE)和生成对抗网络(GAN)来建立重构模型进行异常检测的方法得到广泛探索,该类模型虽然取得了一定的异常检测效果,但并没有显式地应用正常模式与异常模式的差异信息,不利于模型学习到一个稳健的分类超平面。同时,卷积神经网络在视觉领域的出色性能证明了其强大的学习能力和泛化能力,所以重构模型在推理阶段会存在正确重构异常区域的情况,此时基于重构差异的判别会存在失效的可能。此外,一些网络尝试在训练阶段引入人为模拟的异常样本,以便在训练阶段就能对正常样本和异常样本有效的区分,但这些模型只侧重于纹理或者只侧重于结构进行异常的模拟,难以覆盖复杂的异常情况。
最近,利用ImageNet的预训练模型提取原始图像的高级特征表示,并在推理阶段比较测试样本与正常样本高级特征的差异,以实现异常定位的方法在半监督表面异常检测数据集上取得了良好的性能。虽然这类模型在训练阶段几乎不需要时间消耗,但在推理阶段需要执行复杂程度很高的特征匹配的操作,给推理阶段造成了昂贵的时间成本。同时,由于这类模型不针对特定的数据集进行训练,直接利用预训练的参数进行特征提取,并将提取的特征直接进行异常定位,所以提取的特征对异常检测任务的适应性也不足。
发明内容
针对背景技术中提到的问题,本发明的目的是提供基于记忆信息的端到端的半监督图像表面缺陷的检测方法,用以解决上述中的问题。
本发明的上述技术目的是通过以下技术方案得以实现的:
基于记忆信息的端到端的半监督图像表面缺陷的检测方法,包括如下步骤:
(一)模拟异常样本
(1)生成一个二维柏林噪声P,然后使用阈值T将P进行二值化,得到柏林噪声生成的掩膜MP。柏林噪声随机地存在若干个峰值,由其产生的MP有助于提取图像中的连续区域块。同时,考虑到图像采集中某些工业元件的主体占图像的比例较小,如果不加处理直接进行数据增强,容易在图像背景部分产生噪声,增大了模拟异常样本与真实异常样本的分布差异,不利于模型学习到有效的鉴别信息,所以对这类图像采用前景增强策略。即,对于输入的图像I,将其二值化后,使用开操作或者闭操作去除二值化过程中产生的噪声,得到目标前景生成的掩膜MI,之后对得到的两种掩膜图像执行元素相乘,得到最终的掩膜图像M。
(2)掩模图像M与噪声图像In执行元素相乘,在噪声图像In中提取由M定义的兴趣区域(ROI)。同时,本发明在此过程中引入透明系数δ,平衡原始图像与噪声图像的融合,使模拟的异常更接近真实异常,因此,噪声前景图像I′n的生成遵从下式:
I′n=(1-δ)(M⊙In)+δ(M⊙I)#(1)
其中δ∈[0,0.85]。
(3)对掩模图像M取反得到与原始图像I执行元素相乘得到图像I′,并根据
得到数据增强后的图像IA,即模拟的异常图像。IA以原始输入图像I为背景,以掩模图像M提取的噪声图像In中的ROI为前景。
(二)冻结编码器
MemSeg使用基于ImageNet预训练的ResNet18作为编码器,为了保证记忆信息与输入图像高级特征的统一,在模型的训练和推理阶段都始终冻结ResNet中block 1、block 2和block 3的模型参数。
(三)提取记忆信息
在面对复杂多样的异常检测时,人类的本能反应之一是利用对比的方式去发现图像中的异常区域。受到基于特征表示模型的启发,本发明将少量的正常样本作为记忆样本,利用预训练的编码器(Resnet18)提取记忆样本的高级特征作为记忆信息,并在U-Net的跳跃连接上充分地使用这些记忆信息。
为了获得记忆信息,本发明首先从正常样本中随机选取N张正常的图像,输入到ResNet网络后分别从block 1、block 2和block 3得到维度为N×64×64×64、N×128×32×32和N×256×16×16的特征,这些不同分辨率的特征共同组成记忆信息MI。
当网络在训练或推理阶段有新的图像输入时,输入图像同样经过编码器进行特征提取,得到维度为64×64×64、128×32×32和256×16×16的特征,这些不同分辨率的特征共同组成输入图像的高级特征II;之后,计算输入图像信息II与所有记忆信息MI的L2距离,得到输入图像与记忆样本之间的N个差异信息DI,即
其中,N为记忆样本的数量。对于N个差异信息,以每个差异信息中所有元素的最小平方和为标准,获得II与MI的最佳差异信息DI*,即
其中,i∈[1,N]。最佳差异信息DI*包含了输入样本与最相似记忆样本的差异,某个位置的差异值越大,则该位置对应的输入图像区域存在异常的概率就越大。最后,最佳差异信息DI*与输入图像的高级特征II完成通道维度的拼接操作,得到维度为128×64×64、256×32×32和512×16×16的拼接信息CI1、CI2、CI3。随后,三个不同维度的拼接信息将经过多尺度特征融合模块进行特征融合,融合后的特征通过U-Net的跳跃连接流向解码器。
(四)融合多尺度特征
通过记忆模块得到了由输入图像信息II与最佳差异信息DI*组成的拼接信息CI,直接使用CI一方面存在特征冗余的问题,另一方面增大了模型的计算规模,造成推理速度下降。考虑到最佳差异信息DI*依托于输入图像信息II生成,并且相同位置的元素是对应的,同时,鉴于多尺度特征融合在目标检测和语义分割中的成功,一个直觉的思路是借助注意力机制和多尺度策略充分融合拼接信息CI中的视觉信息和语义信息。
(五)做出空间注意力图
通过具体的观察和实验可知,最佳差异信息DI*对异常区域的定位有着重要影响。为了充分利用差异信息,本发明利用DI*提取了一个空间注意力图,用于强化最佳差异信息对图像中异常区域的猜测。对于DI*中三个不同维度的特征,分别在通道维度求均值,得到16×16,32×32和64×64的三个特征图。16×16的特征图将直接作为空间注意力图M3,其上采样后与32×32的特征图执行元素相乘得到M2,M2上采样后与64×64的特征图执行元素相乘得到M1。空间注意力图M1、M2和M3分别加权CI1、CI2和CI3经过融合模块的处理后得到的信息。数学上,求解M1、M2、M3的计算公式如下:
其中,C3表示的通道数量,/>表示/>中第i个通道的特征图,/>与/>分别表示将M3和M2上采样之后得到的特征图。
(六)导入解码器
对应于图1,解码器的Upsampling Layer包含双线性插值层以及一个由卷积层、Batch-normalization、ReLU激活函数构成的基本卷积块;Conv Layer包含两个堆叠的基本卷积块;仅最后一个Conv Layer包含一个基本卷积块以及一个2通道的卷积层。
(七)得到输入图像异常区域
为了保证异常分割网络的预测值接近其真实值,本发明使用L1损失和焦点损失保证图像中所有像素的相似度。相比L2损失,在L1损失约束下预测的分割图像保留了更多的边缘信息。同时,焦点损失缓解了图像中异常区域与正常区域面积不平衡问题,使模型更关注困难样本的分割,提高异常分割的准确性。具体地,本发明分别以式(8)和式(9)最小化图像异常区域的真实值S与模型的预测值之间的L1损失Ll1和焦点损失Lf.
Lf=-αt(1-pt)γlog(pt)#(9)
其中,当S中对应像素的真实值为1时,pt与该像素类别的预测概率p相等,当S中像素的真实值为0时,pt=1-p,αt和γ是超参数。
最后,将所有损失函数组合成下述目标函数:
Lall=λl1Ll1+λfLf#(10)
在训练的过程中,本发明的优化目标是最小化式(10)定义的目标函数。
训练结束后,本发明以端到端的方式直接给出输入图像的异常区域。
进一步的,步骤(六)中的所述多尺度特征为:不同尺度的拼接信息CIn(n∈[1,2,3])首先通过一个保持通道数量的3×3的卷积块进行初步地信息融合。考虑到CIn是两种信息在通道维度的简单拼接,所以使用Coordinate Attention(CA)捕捉CIn中通道间的信息关系。然后,对于通道注意力图与初步融合的特征执行元素相乘之后得到的信息,继续进行卷积操作,得到通道数减少到一半的特征图。受FPN的启发,在三个不同分辨率的特征图之间,本发明设计了一个多尺度信息融合结构:不同维度的特征图首先通过上采样在分辨率上保持一致,然后通过卷积在通道数量上保持一致,最后执行像素相加操作实现多尺度的特征融合。
进一步的,步骤(1)中所述的噪声图像In来源于两部分,一部分来自DTD纹理数据集,旨在模拟纹理异常;另外一部分来自输入图像本身,旨在模拟结构异常。对于结构异常的模拟,首先对输入图像I执行随机镜像对称、随机角度旋转以及亮度、饱和度以及色调的随机调整,然后将初步增强的图像均匀划分成4×8的网格,并随机排列得到乱序的图像In。
综上所述,本发明主要具有以下有益效果:
1、本发明提出了一种图像表面异常的模拟方法,该方法以图像中的目标前景为中心,兼顾纹理异常和结构异常的模拟,使模拟的异常样本与真实存在的异常样本的数据分布更一致,增强了模型的泛化能力;
2、本发明使用部分正常样本作为记忆样本,记录记忆样本的一般模式,并通过最小距离匹配生成差异信息,在U-Net的跳跃连接上使用差异信息,辅助解码器对图像中异常区域的定位;
3、本发明借助异常模拟方法和记忆信息,将半监督图像表面异常检测任务看作一个语义分割问题,相比传统的基于特征表示的模型和基于图像重建的模型具有一定优势。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单的介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,在附图中:
图1是本发明的流程示意图。
具体实施方式
实施例1,参照附图1,对本发明的步骤做进一步的详细描述。
(一)模拟异常样本
本发明提出的异常样本模拟策略主要分为三个步骤:
(1)生成一个二维柏林噪声P,然后使用阈值T将P进行二值化,得到柏林噪声生成的掩膜MP。柏林噪声随机地存在若干个峰值,由其产生的MP有助于提取图像中的连续区域块。同时,考虑到图像采集中某些工业元件的主体占图像的比例较小,如果不加处理直接进行数据增强,容易在图像背景部分产生噪声,增大了模拟异常样本与真实异常样本的分布差异,不利于模型学习到有效的鉴别信息,所以对这类图像采用前景增强策略。即,对于输入的图像I,将其二值化后,使用开操作或者闭操作去除二值化过程中产生的噪声,得到目标前景生成的掩膜MI,之后对得到的两种掩膜图像执行元素相乘,得到最终的掩膜图像M。
(2)掩模图像M与噪声图像In执行元素相乘,在噪声图像In中提取由M定义的兴趣区域(ROI)。同时,本发明在此过程中引入透明系数δ,平衡原始图像与噪声图像的融合,使模拟的异常更接近真实异常,因此,噪声前景图像I′n的生成遵从下式:
I′n=(1-δ)(M⊙In)+δ(M⊙I)#(1)
其中δ∈[0,0.85]。
(3)对掩模图像M取反得到与原始图像I执行元素相乘得到图像I′,并根据
得到数据增强后的图像IA,即模拟的异常图像。IA以原始输入图像I为背景,以掩模图像M提取的噪声图像In中的ROI为前景。
其中,噪声图像In来源于两部分,一部分来自DTD纹理数据集,旨在模拟纹理异常;另外一部分来自输入图像本身,旨在模拟结构异常。对于结构异常的模拟,首先对输入图像I执行随机镜像对称、随机角度旋转以及亮度、饱和度以及色调的随机调整,然后将初步增强的图像均匀划分成4×8的网格,并随机排列得到乱序的图像In。
通过以上的异常模拟方法,本发明从纹理和结构两个角度得到了异常样本,并且异常区域大部分都产生在目标前景上,最大程度上保证了模拟的异常样本与真实的异常样本的数据分布的相似度,这有利于将训练好的模型推广到真实的异常样本集。
(二)冻结编码器
MemSeg使用基于ImageNet预训练的ResNet18作为编码器,为了保证记忆信息与输入图像高级特征的统一,在模型的训练和推理阶段都始终冻结ResNet中block 1、block 2和block 3的模型参数。
(三)提取记忆信息
在面对复杂多样的异常检测时,人类的本能反应之一是利用对比的方式去发现图像中的异常区域。受到基于特征表示模型的启发,本发明将少量的正常样本作为记忆样本,利用预训练的编码器(Resnet18)提取记忆样本的高级特征作为记忆信息,并在U-Net的跳跃连接上充分地使用这些记忆信息。
为了获得记忆信息,本发明首先从正常样本中随机选取N张正常的图像,输入到ResNet网络后分别从block 1、block 2和block 3得到维度为N×64×64×64、N×128×32×32和N×256×16×16的特征,这些不同分辨率的特征共同组成记忆信息MI。
当网络在训练或推理阶段有新的图像输入时,输入图像同样经过编码器进行特征提取,得到维度为64×64×64、128×32×32和256×16×16的特征,这些不同分辨率的特征共同组成输入图像的高级特征II;之后,计算输入图像信息II与所有记忆信息MI的L2距离,得到输入图像与记忆样本之间的N个差异信息DI,即
其中,N为记忆样本的数量。对于N个差异信息,以每个差异信息中所有元素的最小平方和为标准,获得II与MI的最佳差异信息DI*,即
其中,i∈[1,N]。最佳差异信息DI*包含了输入样本与最相似记忆样本的差异,某个位置的差异值越大,则该位置对应的输入图像区域存在异常的概率就越大。最后,最佳差异信息DI*与输入图像的高级特征II完成通道维度的拼接操作,得到维度为128×64×64、256×32×32和512×16×16的拼接信息CI1、CI2、CI3。随后,三个不同维度的拼接信息将经过多尺度特征融合模块进行特征融合,融合后的特征通过U-Net的跳跃连接流向解码器。
(四)融合多尺度特征
通过记忆模块得到了由输入图像信息II与最佳差异信息DI*组成的拼接信息CI,直接使用CI一方面存在特征冗余的问题,另一方面增大了模型的计算规模,造成推理速度下降。考虑到最佳差异信息DI*依托于输入图像信息II生成,并且相同位置的元素是对应的,同时,鉴于多尺度特征融合在目标检测和语义分割中的成功,一个直觉的思路是借助注意力机制和多尺度策略充分融合拼接信息CI中的视觉信息和语义信息。
本发明使用的多尺度特征融合模块为:不同尺度的拼接信息CIn(n∈[1,2,3])首先通过一个保持通道数量的3×3的卷积块进行初步地信息融合。考虑到CIn是两种信息在通道维度的简单拼接,所以使用Coordinate Attention(CA)捕捉CIn中通道间的信息关系。然后,对于通道注意力图与初步融合的特征执行元素相乘之后得到的信息,继续进行卷积操作,得到通道数减少到一半的特征图。受FPN的启发,在三个不同分辨率的特征图之间,本发明设计了一个多尺度信息融合结构:不同维度的特征图首先通过上采样在分辨率上保持一致,然后通过卷积在通道数量上保持一致,最后执行像素相加操作实现多尺度的特征融合。
(五)做出空间注意力图
通过具体的观察和实验可知,最佳差异信息DI*对异常区域的定位有着重要影响。为了充分利用差异信息,本发明利用DI*提取了一个空间注意力图,用于强化最佳差异信息对图像中异常区域的猜测。对于DI*中三个不同维度的特征,分别在通道维度求均值,得到16×16,32×32和64×64的三个特征图。16×16的特征图将直接作为空间注意力图M3,其上采样后与32×32的特征图执行元素相乘得到M2,M2上采样后与64×64的特征图执行元素相乘得到M1。空间注意力图M1、M2和M3分别加权CI1、CI2和CI3经过融合模块的处理后得到的信息。数学上,求解M1、M2、M3的计算公式如下:
其中,C3表示的通道数量,/>表示/>中第i个通道的特征图,/>与/>分别表示将M3和M2上采样之后得到的特征图。
(六)导入解码器
对应于图1,解码器的Upsampling Layer包含双线性插值层以及一个由卷积层、Batch-normalization、ReLU激活函数构成的基本卷积块;Conv Layer包含两个堆叠的基本卷积块;仅最后一个Conv Layer包含一个基本卷积块以及一个2通道的卷积层。
(七)得到输入图像的异常区域
为了保证异常分割网络的预测值接近其真实值,本发明使用L1损失和焦点损失保证图像中所有像素的相似度。相比L2损失,在L1损失约束下预测的分割图像保留了更多的边缘信息。同时,焦点损失缓解了图像中异常区域与正常区域面积不平衡问题,使模型更关注困难样本的分割,提高异常分割的准确性。具体地,本发明分别以式(8)和式(9)最小化图像异常区域的真实值S与模型的预测值之间的L1损失Ll1和焦点损失Lf.
Lf=-αt(1-pt)γlog(pt)#(9)
其中,当S中对应像素的真实值为1时,pt与该像素类别的预测概率p相等,当S中像素的真实值为0时,pt=1-p,αt和γ是超参数。
最后,将所有损失函数组合成下述目标函数:
Lall=λl1Ll1+λfLf#(10)
在训练的过程中,本发明的优化目标是最小化式(10)定义的目标函数。
训练结束后,本发明以端到端的方式直接给出输入图像的异常区域。
考虑到同一生产线上产品的类内变异较小,本发明从差异和共性两个角度出发,通过引入精心设计的模拟异常策略和记忆信息,将半监督图像表面缺陷检测简化为一个简单直观的语义分割任务,进而提出了一个以U-Net作为网络框架的端到端记忆分割网络(MemSeg);在训练阶段,该网络以正常样本和人为模拟的异常样本作为输入,以输入样本异常区域的真实标签作为学习目标;在推理阶段,网络直接对输入的图像进行异常区域的判断。无论是在模型的训练还是推理阶段,都不需要额外地重构输入图像。同时,为了提高模拟出有效异常样本的概率,减小模拟异常与真实异常的差异,本发明提出了一种以前景目标为中心,综合纹理异常和结构异常进行异常模拟的方法,使模拟的异常更接近真实的异常,增强了模型的泛化能力。此外,本发明在网络中引入了一个记忆池来记录正常样本的一般模式,在模型的训练和推理阶段比较输入样本与记忆池中正常样本的异同,得到差异信息,并将此差异信息和获得的输入图像高级特征进行多尺度的信息融合。融合后的信息通过一个注意力增强网络,并最终通过U-Net的跳跃连接指导解码器对异常区域的定位。
通过上述实施例,本发明提出了一种以图像中目标前景为中心,兼顾纹理异常和结构异常的异常模拟方法,克服了之前异常模拟方法的单一性;图像表面缺陷检测方法仍然以自编码器为基础,但避免了重建输入图像这一传统的方法,简单直接的将图像表面异常检测问题看作一个语义分割问题,端到端的实现缺陷定位,克服了重建模型对异常区域也能良好重建的不足;本发明基于半监督方法进行训练,训练过程中不需要提供真实场景中的异常样本,克服了异常样本获取和标注的困难;本发明引入了一个基于正常样本生成的记忆池,通过对比匹配的方式将记忆信息作为解码器的辅助信息,实现了更精确的异常定位。当使用MVTec AD异常检测数据集进行实验时,记忆信息的加入使图像级和像素级的AUROC分数分别提高了2%和2.2%。
Claims (3)
1.基于记忆信息的端到端的半监督图像表面缺陷的检测方法,其特征在于:包括如下步骤(一)模拟异常样本、(二)冻结编码器、(三)提取记忆信息、(四)融合多尺度特征、(五)做出空间注意力图、(六)导入解码器、(七)得到输入图像的异常区域,具体如下:
(一)模拟异常样本
(1)生成一个二维柏林噪声P,然后使用阈值T将P进行二值化,得到柏林噪声生成的掩膜MP;柏林噪声随机地存在若干个峰值,由其产生的MP有助于提取图像中的连续区域块;同时,考虑到图像采集中某些工业元件的主体占图像的比例较小,如果不加处理直接进行数据增强,容易在图像背景部分产生噪声,增大了模拟异常样本与真实异常样本的分布差异,不利于模型学习到有效的鉴别信息,所以对这类图像采用前景增强策略;即,对于输入的图像I,将其二值化后,使用开操作或者闭操作去除二值化过程中产生的噪声,得到目标前景生成的掩膜MI,之后对得到的两种掩膜图像执行元素相乘,得到最终的掩膜图像M;
(2)掩模图像M与噪声图像In执行元素相乘,在噪声图像In中提取由M定义的兴趣区域(ROI);同时,本发明在此过程中引入透明系数δ,平衡原始图像与噪声图像的融合,使模拟的异常更接近真实异常,因此,噪声前景图像I′n的生成遵从下式:
I′n=(1-δ)(M⊙In)+δ(M⊙I)#(1)
其中δ∈[0,0.85];
(3)对掩模图像M取反得到 与原始图像I执行元素相乘得到图像I′,并根据
得到数据增强后的图像IA,即模拟的异常图像;IA以原始输入图像I为背景,以掩模图像M提取的噪声图像In中的ROI为前景;
(二)冻结编码器
MemSeg使用基于ImageNet预训练的ResNet18作为编码器,为了保证记忆信息与输入图像高级特征的统一,在模型的训练和推理阶段都始终冻结ResNet中block 1、block 2和block 3的模型参数;
(三)提取记忆信息
在面对复杂多样的异常检测时,人类的本能反应之一是利用对比的方式去发现图像中的异常区域;受到基于特征表示模型的启发,本发明将少量的正常样本作为记忆样本,利用预训练的编码器(Resnet18)提取记忆样本的高级特征作为记忆信息,并在U-Net的跳跃连接上充分地使用这些记忆信息;
为了获得记忆信息,本发明首先从正常样本中随机选取N张正常的图像,输入到ResNet网络后分别从block 1、block 2和block 3得到维度为N×64×64×64、N×128×32×32和N×256×16×16的特征,这些不同分辨率的特征共同组成记忆信息MI;
当网络在训练或推理阶段有新的图像输入时,输入图像同样经过编码器进行特征提取,得到维度为64×64×64、128×32×32和256×16×16的特征,这些不同分辨率的特征共同组成输入图像的高级特征II;之后,计算输入图像信息II与所有记忆信息MI的L2距离,得到输入图像与记忆样本之间的N个差异信息DI,即
其中,N为记忆样本的数量;对于N个差异信息,以每个差异信息中所有元素的最小平方和为标准,获得II与MI的最佳差异信息DI*,即
其中,i∈[1,N];最佳差异信息DI*包含了输入样本与最相似记忆样本的差异,某个位置的差异值越大,则该位置对应的输入图像区域存在异常的概率就越大;最后,最佳差异信息DI*与输入图像的高级特征II完成通道维度的拼接操作,得到维度为128×64×64、256×32×32和512×16×16的拼接信息CI1、CI2、CI3;随后,三个不同维度的拼接信息将经过多尺度特征融合模块进行特征融合,融合后的特征通过U-Net的跳跃连接流向解码器;
(四)融合多尺度特征
通过记忆模块得到了由输入图像信息II与最佳差异信息DI*组成的拼接信息CI,直接使用CI一方面存在特征冗余的问题,另一方面增大了模型的计算规模,造成推理速度下降;考虑到最佳差异信息DI*依托于输入图像信息II生成,并且相同位置的元素是对应的,同时,鉴于多尺度特征融合在目标检测和语义分割中的成功,一个直觉的思路是借助注意力机制和多尺度策略充分融合拼接信息CI中的视觉信息和语义信息;
(五)做出空间注意力图
通过具体的观察和实验可知,最佳差异信息DI*对异常区域的定位有着重要影响;为了充分利用差异信息,本发明利用DI*提取了一个空间注意力图,用于强化最佳差异信息对图像中异常区域的猜测;对于DI*中三个不同维度的特征,分别在通道维度求均值,得到16×16,32×32和64×64的三个特征图;16×16的特征图将直接作为空间注意力图M3,其上采样后与32×32的特征图执行元素相乘得到M2,M2上采样后与64×64的特征图执行元素相乘得到M1;空间注意力图M1、M2和M3分别加权CI1、CI2和CI3经过融合模块的处理后得到的信息;数学上,求解M1、M2、M3的计算公式如下:
其中,C3表示的通道数量,/>表示/>中第i个通道的特征图,/>与/>分别表示将M3和M2上采样之后得到的特征图;
(六)导入解码器
对应于图1,解码器的Upsampling Layer包含双线性插值层以及一个由卷积层、Batch-normalization、ReLU激活函数构成的基本卷积块;Conv Layer包含两个堆叠的基本卷积块;仅最后一个Conv Layer包含一个基本卷积块以及一个2通道的卷积层;
(七)得到输入图像的异常区域
为了保证异常分割网络的预测值接近其真实值,本发明使用L1损失和焦点损失保证图像中所有像素的相似度;相比L2损失,在L1损失约束下预测的分割图像保留了更多的边缘信息;同时,焦点损失缓解了图像中异常区域与正常区域面积不平衡问题,使模型更关注困难样本的分割,提高异常分割的准确性;具体地,本发明分别以式(8)和式(9)最小化图像异常区域的真实值S与模型的预测值之间的L1损失Ll1和焦点损失Lf;
Lf=-αt(1-pt)γlog(pt)#(9)
其中,当S中对应像素的真实值为1时,pt与该像素类别的预测概率p相等,当S中像素的真实值为0时,pt=1-p,αt和γ是超参数;
最后,将所有损失函数组合成下述目标函数:
Lall=λl1Ll1+λfLf#(10)
在训练的过程中,本发明的优化目标是最小化式(10)定义的目标函数;
训练结束后,本发明以端到端的方式直接给出输入图像的异常区域。
2.根据权利要求1所述的基于记忆信息的端到端的半监督图像表面缺陷的检测方法,其特征在于:步骤(六)中的所述多尺度特征为:不同尺度的拼接信息CIn(n∈[1,2,3])首先通过一个保持通道数量的3×3的卷积块进行初步地信息融合;考虑到CIn是两种信息在通道维度的简单拼接,所以使用Coordinate Attention(CA)捕捉CIn中通道间的信息关系;然后,对于通道注意力图与初步融合的特征执行元素相乘之后得到的信息,继续进行卷积操作,得到通道数减少到一半的特征图;受FPN的启发,在三个不同分辨率的特征图之间,本发明设计了一个多尺度信息融合结构:不同维度的特征图首先通过上采样在分辨率上保持一致,然后通过卷积在通道数量上保持一致,最后执行像素相加操作实现多尺度的特征融合。
3.根据权利要求1所述的基于记忆信息的端到端的半监督图像表面缺陷的检测方法,其特征在于:步骤(1)中所述的噪声图像In来源于两部分,一部分来自DTD纹理数据集,旨在模拟纹理异常;另外一部分来自输入图像本身,旨在模拟结构异常;对于结构异常的模拟,首先对输入图像I执行随机镜像对称、随机角度旋转以及亮度、饱和度以及色调的随机调整,然后将初步增强的图像均匀划分成4×8的网格,并随机排列得到乱序的图像In。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275353.7A CN114677346B (zh) | 2022-03-21 | 2022-03-21 | 基于记忆信息的端到端的半监督图像表面缺陷的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275353.7A CN114677346B (zh) | 2022-03-21 | 2022-03-21 | 基于记忆信息的端到端的半监督图像表面缺陷的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114677346A CN114677346A (zh) | 2022-06-28 |
CN114677346B true CN114677346B (zh) | 2024-04-05 |
Family
ID=82075035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210275353.7A Active CN114677346B (zh) | 2022-03-21 | 2022-03-21 | 基于记忆信息的端到端的半监督图像表面缺陷的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114677346B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115619784B (zh) * | 2022-12-16 | 2023-06-02 | 福建帝视科技集团有限公司 | 一种基于深度特征记忆库的无监督缺陷检测方法及终端 |
CN116934687B (zh) * | 2023-06-12 | 2024-02-09 | 浙江大学 | 基于半监督学习语义分割的注塑制品表面缺陷检测方法 |
CN116645369B (zh) * | 2023-07-27 | 2023-11-07 | 山东锋士信息技术有限公司 | 基于孪生自编码器和双向信息深度监督的异常检测方法 |
CN117392283B (zh) * | 2023-12-05 | 2024-04-05 | 北京交通大学 | 异常轨道图像合成方法、装置、设备及可读介质 |
CN117437227B (zh) * | 2023-12-20 | 2024-02-27 | 成都数之联科技股份有限公司 | 一种图像生成及缺陷检测方法、装置、介质、设备及产品 |
CN117874528B (zh) * | 2024-03-12 | 2024-05-24 | 合肥喆塔科技有限公司 | 基于边界校准的半导体加工无监督异常检测方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019233812A1 (en) * | 2018-06-07 | 2019-12-12 | Agfa Healthcare Nv | Sequential segmentation of anatomical structures in 3d scans |
CN113436169A (zh) * | 2021-06-25 | 2021-09-24 | 东北大学 | 一种基于半监督语义分割的工业设备表面裂纹检测方法及系统 |
CN113936217A (zh) * | 2021-10-25 | 2022-01-14 | 华中师范大学 | 先验语义知识引导的高分辨率遥感影像弱监督建筑物变化检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111739078B (zh) * | 2020-06-15 | 2022-11-18 | 大连理工大学 | 一种基于上下文注意力机制的单目无监督深度估计方法 |
-
2022
- 2022-03-21 CN CN202210275353.7A patent/CN114677346B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019233812A1 (en) * | 2018-06-07 | 2019-12-12 | Agfa Healthcare Nv | Sequential segmentation of anatomical structures in 3d scans |
CN113436169A (zh) * | 2021-06-25 | 2021-09-24 | 东北大学 | 一种基于半监督语义分割的工业设备表面裂纹检测方法及系统 |
CN113936217A (zh) * | 2021-10-25 | 2022-01-14 | 华中师范大学 | 先验语义知识引导的高分辨率遥感影像弱监督建筑物变化检测方法 |
Non-Patent Citations (2)
Title |
---|
基于卷积去噪自编码器的芯片表面弱缺陷检测方法;罗月童;卞景帅;张蒙;饶永明;闫峰;;计算机科学;20201231(第02期);全文 * |
基于视觉的车辆异常行为检测综述;黄超;胡志军;徐勇;王耀威;;模式识别与人工智能;20200315(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114677346A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114677346B (zh) | 基于记忆信息的端到端的半监督图像表面缺陷的检测方法 | |
CN111311563B (zh) | 一种基于多域特征融合的图像篡改检测方法 | |
CN112966684B (zh) | 一种注意力机制下的协同学习文字识别方法 | |
Yang et al. | MemSeg: A semi-supervised method for image surface defect detection using differences and commonalities | |
CN113610822B (zh) | 一种基于多尺度信息融合的表面缺陷检测方法 | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
Liu et al. | A night pavement crack detection method based on image‐to‐image translation | |
CN115439442A (zh) | 基于共性和差异的工业品表面缺陷检测与定位方法及系统 | |
Wang et al. | Defect transformer: An efficient hybrid transformer architecture for surface defect detection | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN117409192B (zh) | 一种基于数据增强的红外小目标检测方法及装置 | |
Branikas et al. | A novel data augmentation method for improved visual crack detection using generative adversarial networks | |
Xu et al. | AMCA: Attention-guided multi-scale context aggregation network for remote sensing image change detection | |
CN114565594A (zh) | 基于软掩膜对比损失的图像异常检测方法 | |
Prunella et al. | Deep learning for automatic vision-based recognition of industrial surface defects: a survey | |
CN115731400A (zh) | 基于自监督学习的x光图像异物检测方法 | |
CN115546171A (zh) | 一种基于关注阴影边界和特征校正的阴影检测方法及设备 | |
CN116934725A (zh) | 一种基于无监督学习的铝箔封口密封性的检测方法 | |
CN116363489A (zh) | 一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质 | |
Jiang et al. | Joint attention-guided feature fusion network for saliency detection of surface defects | |
Zhang et al. | Dense haze removal based on dynamic collaborative inference learning for remote sensing images | |
Shao et al. | Generative image inpainting with salient prior and relative total variation | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
Ma et al. | A hierarchical attention detector for bearing surface defect detection | |
Zhang et al. | Multi-scale aggregation networks with flexible receptive fields for melanoma segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |