CN113362320A - 基于深度注意力网络的晶圆表面缺陷模式检测方法 - Google Patents
基于深度注意力网络的晶圆表面缺陷模式检测方法 Download PDFInfo
- Publication number
- CN113362320A CN113362320A CN202110771085.3A CN202110771085A CN113362320A CN 113362320 A CN113362320 A CN 113362320A CN 202110771085 A CN202110771085 A CN 202110771085A CN 113362320 A CN113362320 A CN 113362320A
- Authority
- CN
- China
- Prior art keywords
- wafer
- attention
- layer
- network
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007547 defect Effects 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 208000006096 Attention Deficit Disorder with Hyperactivity Diseases 0.000 claims description 3
- 208000036864 Attention deficit/hyperactivity disease Diseases 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 208000015802 attention deficit-hyperactivity disease Diseases 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 238000009826 distribution Methods 0.000 abstract description 6
- 238000009776 industrial production Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000003062 neural network model Methods 0.000 abstract 1
- 235000012431 wafers Nutrition 0.000 description 65
- 238000001914 filtration Methods 0.000 description 15
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000002950 deficient Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 235000012489 doughnuts Nutrition 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 238000007517 polishing process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30148—Semiconductor; IC; Wafer
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Testing Or Measuring Of Semiconductors Or The Like (AREA)
- Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于深度注意力网络的晶圆表面缺陷模式检测方法,针对晶圆表面缺陷模式分布的特殊性以及卷积神经网络模型可解释性,设计了一种改进的卷积注意力机制,以此来提高晶圆缺陷模式分类的精度。本发明属于工业生产过程中的晶圆表面缺陷检测领域,旨在解决当前缺陷检测中存在的检测效率低的问题。具体流程包括:基于WM811K晶圆数据集,对晶圆图进行图像预处理;选取经典的ResNet‑18作为主干神经网络进行训练;对视觉注意力机制中的CBAM算法进行改进,提出一种特征图定向映射网络代替CBAM中的空间注意力模块,并将改进后的CBAM集成在ResNet‑18网络上进行训练,提高晶圆表面缺陷模式检测的准确率。
Description
技术领域
本发明属于工业生产过程中的晶圆表面缺陷检测领域。特别涉及一种基于深度注意力网络的结构来提升卷积神经网络中的特征表示能力,以此来提高晶圆缺陷模式分类精度。
背景技术
集成电路是国家信息技术的重要支撑,其技术水平和发展规模已成为衡量一个国家产业竞争力和综合国力的重要标志之一。晶圆作为集成电路的重要载体,它的生产过程复杂且精度要求非常的高,其表面的任何缺陷都将是影响集成电路生产的重要因素。晶圆图中蕴含了制造过程中的关键信息,通过检测晶圆表面的缺陷,我们不仅要发现有缺陷的晶粒,还要能根据缺陷模式的分布来判断工艺流程中存在的问题,便于今后的工艺改良和性能提升。目前,晶圆缺陷检测主要分为两类:探针检测和人工目检。这两种检测生成晶圆缺陷模式图后均需要技术人员来进一步判断缺陷模式成因。人工目检的效率低、劳动成本高。
传统机器学习的方法如最近邻、支持向量机、BP神经网络等在晶圆缺陷模式的检测中取得了一定的研究进展,但是存在的问题也很显著。一方面特征的表示过多的依赖于人工选择,特征的表达能力严重影响模型精度;另一方面众多分类器的选择以及参数的调优都较为复杂,集成学习方案大大的增加了模型的复杂度。近年来,有大量的研究采用深度卷积神经网络对晶圆缺陷模式图进行检测,并取得了空前的进展。虽然深度学习方案提升了整体的准确率,但是由于卷积神经网络模型的可解释性差,我们往往无法知道网络到底提取了哪些有用的特征,因此对某些难辨别的模式识别准确率低,并且难以有针对性的改进。
在实际的制造过程中,当生成工艺出现故障时,缺陷晶粒会在晶圆上聚集成一定的分布模式,晶圆缺陷模式分类的特征不仅仅是缺陷簇的几何特征还取决于相对位置的关系,而现有的卷积神经网络由于卷积核提取的特征具有平移不变性,因此模型的优化目标通常是关注于缺陷簇的几何特征,忽略了空间位置的关系,容易受到噪声的影响。计算机视觉中卷积注意力机制(Convolutional Block Attention Module简称CBAM)是一种集成了空间和通道的注意力模块,它具有强大的平移、旋转、缩放不变性,可将原空间信息转换到新空间中并保留关键的特征信息。然而注意力机制CBAM的空间注意力模块对晶圆缺陷簇位置特征的表达能力不够出色,我们需要研究如何利用注意力机制放大缺陷簇位置信息,并提出一种特征图定向映射模块。
发明内容
本发明主要针对晶圆表面缺陷模式分布的特殊性以及卷积神经网络模型可解释性,提出了一种基于深度注意力机制的卷积神经网络。该方法能够应用到晶圆生产制造过程中,通过挖掘晶圆图缺陷模型的关键特征来提升深度卷积神经网络的特征表示能力,注意力机制能够放大图像关键特征对模型的影响,在卷积神经网络中融合注意力机制,能使得模型的性能得到显著提升,增强了模型的可解释性。本发明旨在解决以下问题:
1.晶圆表面缺陷检测主要依赖于人工检测,效率低、速度慢、劳动强度大;
2.现有的晶圆缺陷模式检测算法可以实现缺陷的模式分类,但传统的深度卷积神经网络模型的可解释性差,对难以辨认的模式识别准确率不高;
3.晶圆缺陷模式的分布具有改良工艺的重要作用,在深度学习中特征学习受冗余信息的影响,难以针对性的优化模型,不能很好的改良生产工艺。
为了解决以上问题,本发明提出一种基于深度注意力机制的晶圆表面缺陷模式检测方法,采用目前公开的最大的晶圆数据集WM811K,将晶圆缺陷矩阵图转化为晶圆缺陷模式,对常见的晶圆缺陷模型Center,Donut,Edge-Loc,Edge-Ring,Loc,Scratch,Random,Near-Full and None进行降噪处理,滤除随机缺陷晶粒,为后续的训练与测试做准备;然后选择卷积神经网络中的ResNet-18网络作为骨干网络,在ResNet网络的不同位置上增加注意力机制CBAM,由于CBAM是由通道注意力模块和空间注意力模块组成,我们主要对空间注意力模块进行改进,增强位置信息对模型决策的贡献,重点研究如何利用注意力机制放大缺陷簇位置信息的作用,并提出了一种基于特征图特定方向映射的空间注意力机制模块。本发明具体包括以下步骤:
1)图像处理
晶圆图噪声是指散落在晶圆上、没有构成特定缺陷簇的缺陷晶粒,属于随机缺陷,在检测前需要对晶圆进行降噪处理。在图像处理中,我们采用改进的超限均值滤波。改进的超限均值滤波器采用3×3滤波窗口对晶圆图进行扫描,它是对滤波窗口内的像素求均值,再对所求得的均值结果进行判断,设定阈值与均值进行比较。在阈值设定为1.25时,Edge-Ring和Scratch模式上实验可以得到较好的滤噪效果。
2)选取神经网络
在神经网络的选择上我们选取ResNet-18作为主干网络。在深度学习中,深层次的网络能够提升模型的表达能力,但容易造成梯度消失或梯度爆炸。而晶圆图具有很少的语义信息,其纹理信息重要,浅层的特征容易在深层的结构中丢失。ResNet网络可以有效缓解这些问题,它的核心内容是残差学习。定义输入向量为x,输出为y,F(x)为残差函数,则残差单元的输出可以表示为:
y=F(x)+x
残差单元的重点在于残差函数F(x)的学习,当F(x)=0时,网络输出为恒等映射。但在实际的学习过程中,这种情况是不存在的,因此,模型的残差函数会学习到新特征,拥有更好的性能。由于晶圆图较为简单,我们选择层次较浅的ResNet-18作为骨干网络。具体的网络结构及参数如下表:
训练前,将图像作随机旋转和随机裁剪,并对输入图像进行标准化和归一化,标准化即将图像尺寸限制为224×224,归一化将三个通道的像素限制在(0,1)之间。输入晶圆图尺寸为224×224,第一层卷积层由112通道的7×7卷积核构成,全0填充且步长为2,后接一层最大池化层max_pooling进行下采样,输出晶圆图尺寸为56×56。残差学习单元由2个3×3的卷积层构成,分布在模块conv_2到conv_5中,每个卷积模块包含了两个残差单元,经过残差模块计算后输出的晶圆图尺寸为7×7。最终采用全局平均池化层(GAP)进行下采样,并连接一层9个神经元的全连接层,对输出层进行softmax操作。为了加快模型收敛并防止梯度弥散,在每个卷积层后加入批归一化操作,采用Relu作为激活函数。
3)改进的注意力机制模块
CBAM是一种混合域注意力机制,它能为神经网络提供通道域和空间域的注意力信息。网络模型的可解释性一直是深度学习的难点,在卷积神经网络中我们更关注于模型提取到的有用特征,CBAM注意力机制能够放大图像关键特征对模型的影响,这对于晶圆缺陷模型的检测具有很大的吸引力。
我们采用原始模型中的通道注意力模块定义输入特征图为Fc,分别进行全局平均池化和全局最大池化操作,获取每个通道的全局信息。然后输入到共享的多层感知机(Multi-layer Perceptron简称MLP)中,增强全局特征的非线性表达能力。多层感知机由一个隐藏层构成,且只有中间层的输出采用Relu函数进行激活。对输出进行元素相加,构成1×1×c的特征向量,然后通过Sigmoid函数映射至(0,1)区间。最后,将映射向量与输入特征图相乘。通道注意力的数学描述如下所示
F′c=δ(MLP(MaxPool(Fc))+MLP(AvgPool(Fc)))·Fc
其中δ表示Sigmoid激活函数,MLP为多层感知机,Max/AvgPool分别为全局最大/平均池化,F′c为注意力机制作用结果。
特征图模拟视觉通路特性,每个通道的特征图包含了输入图片不同角度的特征描述,不可避免的存在冗余信息。因此,通道注意力放大了有用特征的贡献,抑制了无用通道特征图的影响。
通道注意力旨在提取目标的位置信息,这对于晶圆图检测来说至关重要。因为Edge-Local与Local模式的区别仅在于分布位置不同,而Scratch和Edge-ring模式也存在此问题。由于卷积神经网络获取的特征具有平移不变性,所以位置信息对图像分类任务的贡献不大。因此,在原始的CBAM中,空间注意力模块设置了额外的卷积层,通过对最大池化和平均池化后的特征图进行的卷积操作提取位置信息。而卷积神经网络本身具有编码位置信息的能力,且深层次的卷积层提取的位置信息更准确。因此,单独设置提取位置特征的卷积层不仅会增加权重参数,也会降低原网络对位置信息编码的能力,在此我们提出一种基于特征图特定方向映射的空间注意力机制。
定义输入特征图为Fs,针对每个通道的特征图分别在横向和纵向取平均值,采用Sigmoid函数激活。特征图上关键特征对应的平均值较高,因此两个方向的平均值映射可以捕获关键特征的位置。分别将映射后的特征与原输入特征都点乘并叠加,即可放大缺陷簇位置信息的贡献。空间注意力模块的数学描述如下所示,
通道注意力模块和空间注意力模块共同构成了注意力机制,我们采用两种模块串联的结构,最终的注意力输出为:
F=F′s(f′c)
为了验证本发明的有效性,我们采用了Precision,Recall,F1-Score对模型进行评估并基于Gradient-weighted Class Activation Mapping(Grad-CAM)算法对结果进行了可视化。
本发明的特点:
本方法通过在CNN中融合注意力机制,提出了一种深度注意力神经网络用于晶圆缺陷模式图的分类。具体来讲,采用CBAM中的通道注意力模块获取缺陷簇几何特征,通过对每个通道的特征图在横向和纵向取平均值的方法来捕获关键特征的位置,再将映射后的特征与原输入特征都点乘并叠加,放大缺陷簇位置信息。本发明主要证明了注意力机制能够提升深度学习方法的特征表示,针对晶圆缺陷模式图,提出了一种基于特征图特定方向映射的空间注意力机制,并在ResNet网络上进行了实施。
附图说明:
图1 WM811K晶圆数据集中晶圆缺陷模式图;
图2 WM811K晶圆缺陷模式训练集与测试集的划分图;
图3采用改进的超限均值滤波生成的晶圆缺陷模式图;
图4 ResNet残差学习模块示意图;
图5 CBAM注意力机制在通道和空间注意力模块的结构图;
图6在ResNet网络的不同位置放置改进的CBAM模块示意图;
具体实施方式:
下面结合附图与实例,针对本方法做详细说明。
本发明采用WM811K晶圆数据集进行训练和测试。在WM811K晶圆数据集可以生成9种常见的晶圆缺陷模式图:Center,Donut,Edge-Loc,Edge-Ring,Loc,Scratch,Random,Near-Full and None,每种模式都反映特定的工艺故障信息。如Center模式意味着机械剖光存在不均匀问题,或者液体的流动、压力存在异常,Edge-Ring模式有可能时退火过程的温度控制异常;Scratch模式说明运料或剖光过程异常。在研究晶圆的常见缺陷中,我们发现影响缺陷模式分类的特征不仅仅是缺陷簇的几何形态,还取决于相对位置关系。例如,Center和Donut的主要区别是中央是否有空缺;Near-Full模式的全局信息很重要,而没有局部缺陷簇特征。故我们以此为入手点,结合计算机视觉中的CBAM算法进行模型分类精度的提升。
具体步骤如下:
1.晶圆数据集划分样本
WM811K晶圆数据集是迄今为止最大的公开数据集。该数据集共有样本数量为811457,9种缺陷模式。图1所示为该数据集中晶圆缺陷模式示例,其中包含8种有缺陷模式的晶圆和一种无缺陷模式的晶圆(None)。
我们按照4:1划分标记样本为训练集和验证集,采用5折交叉验证评估模型性能,如图2所示。由于None模式样本较多,因此只选择3000个样本。模型的训练与测试是在DellT7920工作站进行的,主要硬件配置为2块2080TI显卡,64G内存。软件环境为Ubuntu 18.04。下文所述的模型在训练时对每个Batch的数据进行随机翻转,随机调整亮度、对比度及饱和度,以提升模型鲁棒性。初始学习率设置为0.001,当迭代次数达到一半时降低0.1倍。
2.晶圆图图像预处理
第一步,采用公开的晶圆WM811K数据集,获取晶圆缺陷模式图。WM811K晶圆数据集是来源于实际生产过程,其生成的晶圆图的原始数据为二维的10×10矩阵,因此由于晶圆数据矩阵大小的不同,数据集中的晶圆图维度不一。在采用超限均值滤波之后得到常见的9种晶圆缺陷模式。
第二步,对图像进行预处理。超限均值滤波器是均值滤波器的进一步扩展,其可以表示为
其中f(x,y)为原始像素,g′(x,y)为均值滤波,g(x,y)为最终的滤波结果,t为设定的阈值,当均值滤波窗口的计算结果与原始像素的差超过一定阈值时,最终的滤波结果为均值滤波,否则像素不变。但该方法在晶圆降噪时,其均值结果将会带来新的像素值,破坏晶圆图的可变性,故选用一种改进的超限均值滤波方法。
改进的超限均值滤波器仅对有缺陷的晶粒进行平滑,对正常晶粒和背景不进行处理。具体采用3×3滤波窗口对晶圆图进行扫描,当遇到有缺陷晶粒时,对滤波窗口内的像素求均值,且对于判断结果进一步进行判断,设定阈值与均值进行比较。通过在Edge-Ring和Scratch模式上实验,设定阈值为1.25的值时可取的最佳效果。用改进的超限均值滤波处理过的样本模式图为图3。
3.ResNet网络与CBAM模块
(1)ResNet网络
残差网络是深度卷积网络的一种,其核心思想是引入残差学习模块。它将原网络中的几个卷积层改造成一个残差学习块。通过残差学习块可以显著改善梯度消失的问题。残差学习模块的结构如图4所示。之所以选择ResNet-18网络是因为晶圆图较为简单,不需要太深的网络层次。
模型基于Tensorflow框架搭建,在输入层输入224×224的晶圆图,第一层卷积层由112通道步长为2的7×7卷积核构成,然后再接一个步长为2的3×3最大池化,输出晶圆图尺寸为56×56。残差学习单元由2个3×3的卷积层构成,分布在模块conv_2到conv_5中,每个卷积模块包含了两个残差单元,经过残差模块计算后输出的晶圆图尺寸为7×7。。最终采用全局平均池化层(GAP)进行下采样,并连接一层9个神经元的全连接层,对输出层进行Softmax操作。为了加快模型收敛并防止梯度弥散,在每个卷积层后加入批归一化操作,采用Relu作为激活函数。
(2)CBAM模块
CBAM由通道注意力模块和空间注意力模块组成。我们采用原始模型中的通道注意力模块定义输入特征图为Fc,分别进行全局平均池化和全局最大池化操作,获取每个通道的全局信息。然后输入到共享的多层感知机中,增强全局特征的非线性表达能力。多层感知机由一个隐藏层构成,且只有中间层的输出采用relu进行激活。对输出进行元素相加,构成1×1×c的特征向量,然后通过sigmoid函数映射至(0,1)区间。最后,将映射向量与输入特征图相乘。通道注意力的结构图如图5(a),它的数学描述如下所示
F′c=δ(MLP(MaxPool(Fc))+MLP(AvgPool(Fc)))·Fc
其中δ表示Sigmoid激活函数,Fc表示输入特征图,MLP为多层感知机,Max/AvgPool分别为全局最大/平均池化,Fc′表示注意力机制作用结果。
在原始的CBAM中,空间注意力模块设置了额外的卷积层,通过对最大池化和平均池化后的特征图进行的卷积操作提取位置信息。而卷积神经网络本身具有编码位置信息的能力,且深层次的卷积层提取的位置信息更准确。因此,单独设置提取位置特征的卷积层不仅会增加权重参数,也会降低原网络对位置信息编码的能力,在此我们提出一种基于特征图特定方向映射的空间注意力机制。
(3)改进的CBAM模块
定义输入特征图为Fs,针对每个通道的特征图分别在横向和纵向取平均值,采用sigmoid函数激活。特征图上关键特征对应的平均值较高,因此两个方向的平均值映射可以捕获关键特征的位置。分别将映射后的特征与原输入特征都点乘并叠加,即可放大缺陷簇位置信息的贡献。空间注意力模块的结构图如图5(b)所示,它的数学描述如下所示,
通道注意力模块和空间注意力模块共同构成了注意力机制,我们采用两种模块串联的结构,最终的注意力输出为:
F=F′s(F′c)
提出的改进CBAM注意力机制是一种模块化的结构,可以被灵活的放置在网络中的任意位置。我们将注意力模块放置在ResNet的每个残差单元中,图6为不同安装位置的示意图。Residual Block为残差单元的两个卷积层(由两个卷积核为3×3的卷积层构成)。我们探索了注意力机制在不同位置的作用,发现注意力模块位置对模型性能的影响是微小的,而图6(a)所示的结构拟合速度更快。
Claims (2)
1.一种基于深度注意力网络的晶圆表面缺陷模式检测方法,其特征在于所述方法包括如下几个步骤:
步骤1,基于晶圆数据集,对晶圆缺陷模式图进行图像预处理;
步骤2,选取经典神经网络ResNet-18作为主干网络;
步骤3,引入卷积注意力机制,提出一种基于特征图特定方向映射的空间注意力模块:
步骤4,将深度注意力模块放置在ResNet-18神经网络中,验证基于深度注意力机制的晶圆表面缺陷模式检测的性能;
在神经网络的选择上选取ResNet-18作为主干网络;训练前,将图像作随机旋转和裁剪,并对输入图像进行标准化和归一化,标准化即将图像尺寸限制为224×224,归一化将三个通道的像素限制在(0,1)之间;输入晶圆图尺寸为224×224,第一层卷积层由112通道的7×7卷积核构成,全0填充且步长为2,后接一层最大池化层max_pooling进行下采样,第一层卷积后的输出晶圆图尺寸为56×56;残差学习单元由2个3×3的卷积层构成,分布在模块conv_2到conv_5中,每个卷积模块包含了两个残差单元,经过残差模块计算后输出的晶圆图尺寸为7×7;最终采用全局平均池化层(GAP)进行下采样,并连接一层9个神经元的全连接层,对输出层进行Softmax操作;在每个卷积层后加入批归一化操作,采用Relu作为激活函数。
2.如权利要求1所述的一种基于深度注意力机制的晶圆表面缺陷模式检测方法,其特征在于,步骤3具体如下:
采用原始模型中的通道注意力模块定义输入特征图为Fc,分别进行全局平均池化和全局最大池化操作,获取每个通道的全局信息,然后输入到共享的多层感知机(Multi-layerPerceptron简称MLP)中;多层感知机由一个隐藏层构成,且只有中间层的输出采用Relu函数进行激活;MLP可以增强全局特征的非线性表达能力,得到提取后的特征图;再对输出进行元素相加,构成1×1×c的特征向量,然后通过Sigmoid函数映射至(0,1)区间;最后,将映射向量与原输入特征图相乘;通道注意力的数学描述如下所示
F′c=δ(MLP(MaxPool(Fc))+MLP(AvgPool(Fc)))·Fc
其中δ表示Sigmoid激活函数,MLP为多层感知机,Max/AvgPool分别为最大/平均池化,F′c为注意力机制作用结果;
在卷积注意力机制中,空间注意力模块设置了额外的卷积层,而卷积神经网络本身具有编码位置信息的能力,因此单独设置位置特征的卷积层不仅会增加权重信息也可能会影响原来网络对位置信息编码的能力;在此提出一种深度注意力机制神经网络,引入并改进了CBAM方法;采用原始的通道注意力模块提取缺陷簇几何特征,改进空间注意力模块,提出一种基于特征图特定方向映射的空间注意力机制;
定义输入特征图为Fs,针对每个通道的特征图分别在横向和纵向取平均值,采用Sigmoid函数激活;特征图上关键特征对应的平均值较高,因此两个方向的平均值映射可以捕获关键特征的位置;分别将映射后的特征与原输入特征都点乘并叠加,即可放大缺陷簇位置信息的贡献;空间注意力模块的数学描述如下所示,
通道注意力模块F′c和空间注意力模块F′s共同构成了注意力机制,采用两种模块串联的结构,最终的注意力输出为:
F=F′s(F′c)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110771085.3A CN113362320B (zh) | 2021-07-07 | 2021-07-07 | 基于深度注意力网络的晶圆表面缺陷模式检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110771085.3A CN113362320B (zh) | 2021-07-07 | 2021-07-07 | 基于深度注意力网络的晶圆表面缺陷模式检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362320A true CN113362320A (zh) | 2021-09-07 |
CN113362320B CN113362320B (zh) | 2024-05-28 |
Family
ID=77538884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110771085.3A Active CN113362320B (zh) | 2021-07-07 | 2021-07-07 | 基于深度注意力网络的晶圆表面缺陷模式检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362320B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820444A (zh) * | 2022-03-21 | 2022-07-29 | 东华大学 | 基于多注意力宽度神经网络模型的混合缺陷识别方法 |
CN114926845A (zh) * | 2022-06-07 | 2022-08-19 | 哈尔滨理工大学 | 一种基于深度学习的汉字书法风格识别方法 |
CN114972952A (zh) * | 2022-05-29 | 2022-08-30 | 重庆科技学院 | 一种基于模型轻量化的工业零部件缺陷识别方法 |
CN114998324A (zh) * | 2022-07-19 | 2022-09-02 | 深圳新视智科技术有限公司 | 半导体晶圆缺陷检测模型的训练方法及装置 |
CN115496740A (zh) * | 2022-10-10 | 2022-12-20 | 湖北华鑫光电有限公司 | 基于卷积神经网络的镜片缺陷检测方法及其系统 |
CN115578565A (zh) * | 2022-11-09 | 2023-01-06 | 北京矩视智能科技有限公司 | 注意力尺度感知引导的轻量化U-net方法、装置及存储介质 |
CN116228749A (zh) * | 2023-05-04 | 2023-06-06 | 昆山润石智能科技有限公司 | 一种基于反事实解释的晶圆缺陷检测方法及系统 |
CN117250208A (zh) * | 2023-11-20 | 2023-12-19 | 青岛天仁微纳科技有限责任公司 | 基于机器视觉的纳米压印晶圆缺陷精准检测系统及方法 |
CN117710378A (zh) * | 2024-02-06 | 2024-03-15 | 常熟理工学院 | 基于深度学习的晶圆表面缺陷检测方法、系统及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977808A (zh) * | 2019-03-11 | 2019-07-05 | 北京工业大学 | 一种晶圆表面缺陷模式检测与分析方法 |
CN110826588A (zh) * | 2019-08-29 | 2020-02-21 | 天津大学 | 一种基于注意力机制的排水管道缺陷检测方法 |
US20200175352A1 (en) * | 2017-03-14 | 2020-06-04 | University Of Manitoba | Structure defect detection using machine learning algorithms |
CN111489334A (zh) * | 2020-04-02 | 2020-08-04 | 暖屋信息科技(苏州)有限公司 | 一种基于卷积注意力神经网络的缺陷工件图像识别方法 |
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
CN111899224A (zh) * | 2020-06-30 | 2020-11-06 | 烟台市计量所 | 基于深度学习注意力机制的核电管道缺陷检测系统 |
CN112837295A (zh) * | 2021-02-01 | 2021-05-25 | 北京工业大学 | 一种基于生成对抗网络的橡胶手套缺陷检测方法 |
-
2021
- 2021-07-07 CN CN202110771085.3A patent/CN113362320B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200175352A1 (en) * | 2017-03-14 | 2020-06-04 | University Of Manitoba | Structure defect detection using machine learning algorithms |
CN109977808A (zh) * | 2019-03-11 | 2019-07-05 | 北京工业大学 | 一种晶圆表面缺陷模式检测与分析方法 |
CN110826588A (zh) * | 2019-08-29 | 2020-02-21 | 天津大学 | 一种基于注意力机制的排水管道缺陷检测方法 |
CN111489334A (zh) * | 2020-04-02 | 2020-08-04 | 暖屋信息科技(苏州)有限公司 | 一种基于卷积注意力神经网络的缺陷工件图像识别方法 |
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
CN111899224A (zh) * | 2020-06-30 | 2020-11-06 | 烟台市计量所 | 基于深度学习注意力机制的核电管道缺陷检测系统 |
CN112837295A (zh) * | 2021-02-01 | 2021-05-25 | 北京工业大学 | 一种基于生成对抗网络的橡胶手套缺陷检测方法 |
Non-Patent Citations (2)
Title |
---|
吴华运;任德均;付磊;郜明;吕义昭;邱吕;: "基于改进型SSD算法的空瓶表面缺陷检测", 计算机与现代化, no. 04, 15 April 2020 (2020-04-15) * |
杜超;刘桂华;: "改进的VGG网络的二极管玻壳图像缺陷检测", 图学学报, no. 06, 15 December 2019 (2019-12-15) * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820444A (zh) * | 2022-03-21 | 2022-07-29 | 东华大学 | 基于多注意力宽度神经网络模型的混合缺陷识别方法 |
CN114972952A (zh) * | 2022-05-29 | 2022-08-30 | 重庆科技学院 | 一种基于模型轻量化的工业零部件缺陷识别方法 |
CN114972952B (zh) * | 2022-05-29 | 2024-03-22 | 重庆科技学院 | 一种基于模型轻量化的工业零部件缺陷识别方法 |
CN114926845A (zh) * | 2022-06-07 | 2022-08-19 | 哈尔滨理工大学 | 一种基于深度学习的汉字书法风格识别方法 |
CN114998324A (zh) * | 2022-07-19 | 2022-09-02 | 深圳新视智科技术有限公司 | 半导体晶圆缺陷检测模型的训练方法及装置 |
CN115496740B (zh) * | 2022-10-10 | 2023-05-16 | 湖北华鑫光电有限公司 | 基于卷积神经网络的镜片缺陷检测方法及其系统 |
CN115496740A (zh) * | 2022-10-10 | 2022-12-20 | 湖北华鑫光电有限公司 | 基于卷积神经网络的镜片缺陷检测方法及其系统 |
CN115578565A (zh) * | 2022-11-09 | 2023-01-06 | 北京矩视智能科技有限公司 | 注意力尺度感知引导的轻量化U-net方法、装置及存储介质 |
CN116228749A (zh) * | 2023-05-04 | 2023-06-06 | 昆山润石智能科技有限公司 | 一种基于反事实解释的晶圆缺陷检测方法及系统 |
CN116228749B (zh) * | 2023-05-04 | 2023-10-27 | 昆山润石智能科技有限公司 | 一种基于反事实解释的晶圆缺陷检测方法及系统 |
CN117250208A (zh) * | 2023-11-20 | 2023-12-19 | 青岛天仁微纳科技有限责任公司 | 基于机器视觉的纳米压印晶圆缺陷精准检测系统及方法 |
CN117250208B (zh) * | 2023-11-20 | 2024-02-06 | 青岛天仁微纳科技有限责任公司 | 基于机器视觉的纳米压印晶圆缺陷精准检测系统及方法 |
CN117710378A (zh) * | 2024-02-06 | 2024-03-15 | 常熟理工学院 | 基于深度学习的晶圆表面缺陷检测方法、系统及存储介质 |
CN117710378B (zh) * | 2024-02-06 | 2024-04-30 | 常熟理工学院 | 基于深度学习的晶圆表面缺陷检测方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113362320B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113362320A (zh) | 基于深度注意力网络的晶圆表面缺陷模式检测方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111383209B (zh) | 一种基于全卷积自编码器网络的无监督瑕疵检测方法 | |
CN110619618A (zh) | 一种表面缺陷检测方法、装置及电子设备 | |
Xu et al. | Efficient surface defect detection using self-supervised learning strategy and segmentation network | |
CN111709883B (zh) | 一种图像检测方法、装置及设备 | |
CN112036513B (zh) | 基于内存增强潜在空间自回归的图像异常检测方法 | |
CN112132196B (zh) | 一种结合深度学习和图像处理的烟盒缺陷识别方法 | |
CN111242026B (zh) | 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法 | |
Tayeh et al. | Distance-based anomaly detection for industrial surfaces using triplet networks | |
CN101140216A (zh) | 基于数字图像处理技术的气液两相流流型识别方法 | |
CN111652853A (zh) | 一种基于深度卷积神经网络的磁粉探伤检测方法 | |
CN115115921A (zh) | 基于残差网路的晶圆缺陷模式识别方法 | |
CN117173187B (zh) | 一种阀门故障智能检测系统 | |
CN114332008A (zh) | 一种基于多层次特征重构的无监督缺陷检测与定位方法 | |
CN114972216A (zh) | 一种纹理表面缺陷检测模型的构建方法及其应用 | |
CN110619146A (zh) | 基于结构相似性度量的多晶硅电池片裂纹缺陷检测方法 | |
CN112837294A (zh) | 基于卷积自编码器图像扩增的热成像缺陷检测方法 | |
CN115082477A (zh) | 一种基于去反光效果的半导体晶圆加工质量检测方法 | |
CN113838040A (zh) | 一种针对彩色纹理织物缺陷区域的检测方法 | |
CN110930423B (zh) | 一种物体边缘特征识别提取方法 | |
CN110503157B (zh) | 基于细粒度图像的多任务卷积神经网络的图像隐写分析方法 | |
CN116563250A (zh) | 一种复原式自监督疵点检测方法、装置及存储介质 | |
CN115829942A (zh) | 基于非负性约束稀疏自编码器的电子电路缺陷检测方法 | |
CN115797314A (zh) | 零件表面缺陷检测方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |