CN113362320A

CN113362320A - 基于深度注意力网络的晶圆表面缺陷模式检测方法

Info

Publication number: CN113362320A
Application number: CN202110771085.3A
Authority: CN
Inventors: 于乃功; 李欣
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-09-07
Anticipated expiration: 2041-07-07
Also published as: CN113362320B

Abstract

本发明提出一种基于深度注意力网络的晶圆表面缺陷模式检测方法，针对晶圆表面缺陷模式分布的特殊性以及卷积神经网络模型可解释性，设计了一种改进的卷积注意力机制，以此来提高晶圆缺陷模式分类的精度。本发明属于工业生产过程中的晶圆表面缺陷检测领域，旨在解决当前缺陷检测中存在的检测效率低的问题。具体流程包括：基于WM811K晶圆数据集，对晶圆图进行图像预处理；选取经典的ResNet‑18作为主干神经网络进行训练；对视觉注意力机制中的CBAM算法进行改进，提出一种特征图定向映射网络代替CBAM中的空间注意力模块，并将改进后的CBAM集成在ResNet‑18网络上进行训练，提高晶圆表面缺陷模式检测的准确率。

Description

基于深度注意力网络的晶圆表面缺陷模式检测方法

技术领域

本发明属于工业生产过程中的晶圆表面缺陷检测领域。特别涉及一种基于深度注意力网络的结构来提升卷积神经网络中的特征表示能力，以此来提高晶圆缺陷模式分类精度。

背景技术

集成电路是国家信息技术的重要支撑，其技术水平和发展规模已成为衡量一个国家产业竞争力和综合国力的重要标志之一。晶圆作为集成电路的重要载体，它的生产过程复杂且精度要求非常的高，其表面的任何缺陷都将是影响集成电路生产的重要因素。晶圆图中蕴含了制造过程中的关键信息，通过检测晶圆表面的缺陷，我们不仅要发现有缺陷的晶粒，还要能根据缺陷模式的分布来判断工艺流程中存在的问题，便于今后的工艺改良和性能提升。目前，晶圆缺陷检测主要分为两类：探针检测和人工目检。这两种检测生成晶圆缺陷模式图后均需要技术人员来进一步判断缺陷模式成因。人工目检的效率低、劳动成本高。

传统机器学习的方法如最近邻、支持向量机、BP神经网络等在晶圆缺陷模式的检测中取得了一定的研究进展，但是存在的问题也很显著。一方面特征的表示过多的依赖于人工选择，特征的表达能力严重影响模型精度；另一方面众多分类器的选择以及参数的调优都较为复杂，集成学习方案大大的增加了模型的复杂度。近年来，有大量的研究采用深度卷积神经网络对晶圆缺陷模式图进行检测，并取得了空前的进展。虽然深度学习方案提升了整体的准确率，但是由于卷积神经网络模型的可解释性差，我们往往无法知道网络到底提取了哪些有用的特征，因此对某些难辨别的模式识别准确率低，并且难以有针对性的改进。

在实际的制造过程中，当生成工艺出现故障时，缺陷晶粒会在晶圆上聚集成一定的分布模式，晶圆缺陷模式分类的特征不仅仅是缺陷簇的几何特征还取决于相对位置的关系，而现有的卷积神经网络由于卷积核提取的特征具有平移不变性，因此模型的优化目标通常是关注于缺陷簇的几何特征，忽略了空间位置的关系，容易受到噪声的影响。计算机视觉中卷积注意力机制(Convolutional Block Attention Module简称CBAM)是一种集成了空间和通道的注意力模块，它具有强大的平移、旋转、缩放不变性，可将原空间信息转换到新空间中并保留关键的特征信息。然而注意力机制CBAM的空间注意力模块对晶圆缺陷簇位置特征的表达能力不够出色，我们需要研究如何利用注意力机制放大缺陷簇位置信息，并提出一种特征图定向映射模块。

发明内容

本发明主要针对晶圆表面缺陷模式分布的特殊性以及卷积神经网络模型可解释性，提出了一种基于深度注意力机制的卷积神经网络。该方法能够应用到晶圆生产制造过程中，通过挖掘晶圆图缺陷模型的关键特征来提升深度卷积神经网络的特征表示能力，注意力机制能够放大图像关键特征对模型的影响，在卷积神经网络中融合注意力机制，能使得模型的性能得到显著提升，增强了模型的可解释性。本发明旨在解决以下问题：

1.晶圆表面缺陷检测主要依赖于人工检测，效率低、速度慢、劳动强度大；

2.现有的晶圆缺陷模式检测算法可以实现缺陷的模式分类，但传统的深度卷积神经网络模型的可解释性差，对难以辨认的模式识别准确率不高；

3.晶圆缺陷模式的分布具有改良工艺的重要作用，在深度学习中特征学习受冗余信息的影响，难以针对性的优化模型，不能很好的改良生产工艺。

为了解决以上问题，本发明提出一种基于深度注意力机制的晶圆表面缺陷模式检测方法，采用目前公开的最大的晶圆数据集WM811K，将晶圆缺陷矩阵图转化为晶圆缺陷模式，对常见的晶圆缺陷模型Center,Donut，Edge-Loc,Edge-Ring,Loc,Scratch,Random,Near-Full and None进行降噪处理，滤除随机缺陷晶粒，为后续的训练与测试做准备；然后选择卷积神经网络中的ResNet-18网络作为骨干网络，在ResNet网络的不同位置上增加注意力机制CBAM，由于CBAM是由通道注意力模块和空间注意力模块组成，我们主要对空间注意力模块进行改进，增强位置信息对模型决策的贡献，重点研究如何利用注意力机制放大缺陷簇位置信息的作用，并提出了一种基于特征图特定方向映射的空间注意力机制模块。本发明具体包括以下步骤：

1)图像处理

晶圆图噪声是指散落在晶圆上、没有构成特定缺陷簇的缺陷晶粒，属于随机缺陷，在检测前需要对晶圆进行降噪处理。在图像处理中，我们采用改进的超限均值滤波。改进的超限均值滤波器采用3×3滤波窗口对晶圆图进行扫描，它是对滤波窗口内的像素求均值，再对所求得的均值结果进行判断，设定阈值与均值进行比较。在阈值设定为1.25时，Edge-Ring和Scratch模式上实验可以得到较好的滤噪效果。

2)选取神经网络

在神经网络的选择上我们选取ResNet-18作为主干网络。在深度学习中，深层次的网络能够提升模型的表达能力，但容易造成梯度消失或梯度爆炸。而晶圆图具有很少的语义信息，其纹理信息重要，浅层的特征容易在深层的结构中丢失。ResNet网络可以有效缓解这些问题，它的核心内容是残差学习。定义输入向量为x，输出为y，F(x)为残差函数，则残差单元的输出可以表示为：

y＝F(x)+x

残差单元的重点在于残差函数F(x)的学习，当F(x)＝0时，网络输出为恒等映射。但在实际的学习过程中，这种情况是不存在的，因此，模型的残差函数会学习到新特征，拥有更好的性能。由于晶圆图较为简单，我们选择层次较浅的ResNet-18作为骨干网络。具体的网络结构及参数如下表：

训练前，将图像作随机旋转和随机裁剪，并对输入图像进行标准化和归一化，标准化即将图像尺寸限制为224×224，归一化将三个通道的像素限制在(0，1)之间。输入晶圆图尺寸为224×224，第一层卷积层由112通道的7×7卷积核构成，全0填充且步长为2，后接一层最大池化层max_pooling进行下采样，输出晶圆图尺寸为56×56。残差学习单元由2个3×3的卷积层构成，分布在模块conv_2到conv_5中，每个卷积模块包含了两个残差单元，经过残差模块计算后输出的晶圆图尺寸为7×7。最终采用全局平均池化层(GAP)进行下采样，并连接一层9个神经元的全连接层，对输出层进行softmax操作。为了加快模型收敛并防止梯度弥散，在每个卷积层后加入批归一化操作，采用Relu作为激活函数。

3)改进的注意力机制模块

CBAM是一种混合域注意力机制，它能为神经网络提供通道域和空间域的注意力信息。网络模型的可解释性一直是深度学习的难点，在卷积神经网络中我们更关注于模型提取到的有用特征，CBAM注意力机制能够放大图像关键特征对模型的影响，这对于晶圆缺陷模型的检测具有很大的吸引力。

我们采用原始模型中的通道注意力模块定义输入特征图为F_c，分别进行全局平均池化和全局最大池化操作，获取每个通道的全局信息。然后输入到共享的多层感知机(Multi-layer Perceptron简称MLP)中，增强全局特征的非线性表达能力。多层感知机由一个隐藏层构成，且只有中间层的输出采用Relu函数进行激活。对输出进行元素相加，构成1×1×c的特征向量，然后通过Sigmoid函数映射至(0，1)区间。最后，将映射向量与输入特征图相乘。通道注意力的数学描述如下所示

F′_c＝δ(MLP(MaxPool(F_c))+MLP(AvgPool(F_c)))·F_c

其中δ表示Sigmoid激活函数，MLP为多层感知机，Max/AvgPool分别为全局最大/平均池化，F′_c为注意力机制作用结果。

特征图模拟视觉通路特性，每个通道的特征图包含了输入图片不同角度的特征描述，不可避免的存在冗余信息。因此，通道注意力放大了有用特征的贡献，抑制了无用通道特征图的影响。

通道注意力旨在提取目标的位置信息，这对于晶圆图检测来说至关重要。因为Edge-Local与Local模式的区别仅在于分布位置不同，而Scratch和Edge-ring模式也存在此问题。由于卷积神经网络获取的特征具有平移不变性，所以位置信息对图像分类任务的贡献不大。因此，在原始的CBAM中，空间注意力模块设置了额外的卷积层，通过对最大池化和平均池化后的特征图进行的卷积操作提取位置信息。而卷积神经网络本身具有编码位置信息的能力，且深层次的卷积层提取的位置信息更准确。因此，单独设置提取位置特征的卷积层不仅会增加权重参数，也会降低原网络对位置信息编码的能力，在此我们提出一种基于特征图特定方向映射的空间注意力机制。

定义输入特征图为F_s，针对每个通道的特征图分别在横向和纵向取平均值，采用Sigmoid函数激活。特征图上关键特征对应的平均值较高，因此两个方向的平均值映射可以捕获关键特征的位置。分别将映射后的特征与原输入特征都点乘并叠加，即可放大缺陷簇位置信息的贡献。空间注意力模块的数学描述如下所示，

δ为Sigmoid激活函数，w为特征图的宽，h为特征图的高，F_s为输入特征图，

为第i个通道的输入特征图，F_s′为通道注意力作用结果。

通道注意力模块和空间注意力模块共同构成了注意力机制，我们采用两种模块串联的结构，最终的注意力输出为：

F＝F′_s(f′_c)

为了验证本发明的有效性，我们采用了Precision，Recall，F1-Score对模型进行评估并基于Gradient-weighted Class Activation Mapping(Grad-CAM)算法对结果进行了可视化。

本发明的特点：

本方法通过在CNN中融合注意力机制，提出了一种深度注意力神经网络用于晶圆缺陷模式图的分类。具体来讲，采用CBAM中的通道注意力模块获取缺陷簇几何特征，通过对每个通道的特征图在横向和纵向取平均值的方法来捕获关键特征的位置，再将映射后的特征与原输入特征都点乘并叠加，放大缺陷簇位置信息。本发明主要证明了注意力机制能够提升深度学习方法的特征表示，针对晶圆缺陷模式图，提出了一种基于特征图特定方向映射的空间注意力机制，并在ResNet网络上进行了实施。

附图说明：

图1 WM811K晶圆数据集中晶圆缺陷模式图；

图2 WM811K晶圆缺陷模式训练集与测试集的划分图；

图3采用改进的超限均值滤波生成的晶圆缺陷模式图；

图4 ResNet残差学习模块示意图；

图5 CBAM注意力机制在通道和空间注意力模块的结构图；

图6在ResNet网络的不同位置放置改进的CBAM模块示意图；

具体实施方式：

下面结合附图与实例，针对本方法做详细说明。

本发明采用WM811K晶圆数据集进行训练和测试。在WM811K晶圆数据集可以生成9种常见的晶圆缺陷模式图：Center,Donut，Edge-Loc,Edge-Ring,Loc,Scratch,Random,Near-Full and None，每种模式都反映特定的工艺故障信息。如Center模式意味着机械剖光存在不均匀问题，或者液体的流动、压力存在异常，Edge-Ring模式有可能时退火过程的温度控制异常；Scratch模式说明运料或剖光过程异常。在研究晶圆的常见缺陷中，我们发现影响缺陷模式分类的特征不仅仅是缺陷簇的几何形态，还取决于相对位置关系。例如，Center和Donut的主要区别是中央是否有空缺；Near-Full模式的全局信息很重要，而没有局部缺陷簇特征。故我们以此为入手点，结合计算机视觉中的CBAM算法进行模型分类精度的提升。

具体步骤如下：

1.晶圆数据集划分样本

WM811K晶圆数据集是迄今为止最大的公开数据集。该数据集共有样本数量为811457，9种缺陷模式。图1所示为该数据集中晶圆缺陷模式示例，其中包含8种有缺陷模式的晶圆和一种无缺陷模式的晶圆(None)。

我们按照4：1划分标记样本为训练集和验证集，采用5折交叉验证评估模型性能，如图2所示。由于None模式样本较多，因此只选择3000个样本。模型的训练与测试是在DellT7920工作站进行的，主要硬件配置为2块2080TI显卡，64G内存。软件环境为Ubuntu 18.04。下文所述的模型在训练时对每个Batch的数据进行随机翻转，随机调整亮度、对比度及饱和度，以提升模型鲁棒性。初始学习率设置为0.001，当迭代次数达到一半时降低0.1倍。

2.晶圆图图像预处理

第一步，采用公开的晶圆WM811K数据集，获取晶圆缺陷模式图。WM811K晶圆数据集是来源于实际生产过程，其生成的晶圆图的原始数据为二维的10×10矩阵，因此由于晶圆数据矩阵大小的不同，数据集中的晶圆图维度不一。在采用超限均值滤波之后得到常见的9种晶圆缺陷模式。

第二步，对图像进行预处理。超限均值滤波器是均值滤波器的进一步扩展，其可以表示为

其中f(x,y)为原始像素，g′(x,y)为均值滤波，g(x,y)为最终的滤波结果，t为设定的阈值，当均值滤波窗口的计算结果与原始像素的差超过一定阈值时，最终的滤波结果为均值滤波，否则像素不变。但该方法在晶圆降噪时，其均值结果将会带来新的像素值，破坏晶圆图的可变性，故选用一种改进的超限均值滤波方法。

改进的超限均值滤波器仅对有缺陷的晶粒进行平滑，对正常晶粒和背景不进行处理。具体采用3×3滤波窗口对晶圆图进行扫描，当遇到有缺陷晶粒时，对滤波窗口内的像素求均值，且对于判断结果进一步进行判断，设定阈值与均值进行比较。通过在Edge-Ring和Scratch模式上实验，设定阈值为1.25的值时可取的最佳效果。用改进的超限均值滤波处理过的样本模式图为图3。

3.ResNet网络与CBAM模块

(1)ResNet网络

残差网络是深度卷积网络的一种，其核心思想是引入残差学习模块。它将原网络中的几个卷积层改造成一个残差学习块。通过残差学习块可以显著改善梯度消失的问题。残差学习模块的结构如图4所示。之所以选择ResNet-18网络是因为晶圆图较为简单，不需要太深的网络层次。

模型基于Tensorflow框架搭建，在输入层输入224×224的晶圆图，第一层卷积层由112通道步长为2的7×7卷积核构成，然后再接一个步长为2的3×3最大池化，输出晶圆图尺寸为56×56。残差学习单元由2个3×3的卷积层构成，分布在模块conv_2到conv_5中，每个卷积模块包含了两个残差单元，经过残差模块计算后输出的晶圆图尺寸为7×7。。最终采用全局平均池化层(GAP)进行下采样，并连接一层9个神经元的全连接层，对输出层进行Softmax操作。为了加快模型收敛并防止梯度弥散，在每个卷积层后加入批归一化操作，采用Relu作为激活函数。

(2)CBAM模块

CBAM由通道注意力模块和空间注意力模块组成。我们采用原始模型中的通道注意力模块定义输入特征图为F_c，分别进行全局平均池化和全局最大池化操作，获取每个通道的全局信息。然后输入到共享的多层感知机中，增强全局特征的非线性表达能力。多层感知机由一个隐藏层构成，且只有中间层的输出采用relu进行激活。对输出进行元素相加，构成1×1×c的特征向量，然后通过sigmoid函数映射至(0，1)区间。最后，将映射向量与输入特征图相乘。通道注意力的结构图如图5(a),它的数学描述如下所示

F′_c＝δ(MLP(MaxPool(F_c))+MLP(AvgPool(F_c)))·F_c

其中δ表示Sigmoid激活函数，F_c表示输入特征图，MLP为多层感知机，Max/AvgPool分别为全局最大/平均池化，F_c′表示注意力机制作用结果。

在原始的CBAM中，空间注意力模块设置了额外的卷积层，通过对最大池化和平均池化后的特征图进行的卷积操作提取位置信息。而卷积神经网络本身具有编码位置信息的能力，且深层次的卷积层提取的位置信息更准确。因此，单独设置提取位置特征的卷积层不仅会增加权重参数，也会降低原网络对位置信息编码的能力，在此我们提出一种基于特征图特定方向映射的空间注意力机制。

(3)改进的CBAM模块

定义输入特征图为F_s，针对每个通道的特征图分别在横向和纵向取平均值，采用sigmoid函数激活。特征图上关键特征对应的平均值较高，因此两个方向的平均值映射可以捕获关键特征的位置。分别将映射后的特征与原输入特征都点乘并叠加，即可放大缺陷簇位置信息的贡献。空间注意力模块的结构图如图5(b)所示，它的数学描述如下所示，

为第i个通道的输入特征图，F_s′为通道注意力作用结果。

F＝F′_s(F′_c)

提出的改进CBAM注意力机制是一种模块化的结构，可以被灵活的放置在网络中的任意位置。我们将注意力模块放置在ResNet的每个残差单元中，图6为不同安装位置的示意图。Residual Block为残差单元的两个卷积层(由两个卷积核为3×3的卷积层构成)。我们探索了注意力机制在不同位置的作用，发现注意力模块位置对模型性能的影响是微小的，而图6(a)所示的结构拟合速度更快。

Claims

1.一种基于深度注意力网络的晶圆表面缺陷模式检测方法，其特征在于所述方法包括如下几个步骤：

步骤1，基于晶圆数据集，对晶圆缺陷模式图进行图像预处理；

步骤2，选取经典神经网络ResNet-18作为主干网络；

步骤3，引入卷积注意力机制，提出一种基于特征图特定方向映射的空间注意力模块：

步骤4，将深度注意力模块放置在ResNet-18神经网络中，验证基于深度注意力机制的晶圆表面缺陷模式检测的性能；

在神经网络的选择上选取ResNet-18作为主干网络；训练前，将图像作随机旋转和裁剪，并对输入图像进行标准化和归一化，标准化即将图像尺寸限制为224×224，归一化将三个通道的像素限制在(0，1)之间；输入晶圆图尺寸为224×224，第一层卷积层由112通道的7×7卷积核构成，全0填充且步长为2，后接一层最大池化层max_pooling进行下采样，第一层卷积后的输出晶圆图尺寸为56×56；残差学习单元由2个3×3的卷积层构成，分布在模块conv_2到conv_5中，每个卷积模块包含了两个残差单元，经过残差模块计算后输出的晶圆图尺寸为7×7；最终采用全局平均池化层(GAP)进行下采样，并连接一层9个神经元的全连接层，对输出层进行Softmax操作；在每个卷积层后加入批归一化操作，采用Relu作为激活函数。

2.如权利要求1所述的一种基于深度注意力机制的晶圆表面缺陷模式检测方法，其特征在于，步骤3具体如下：

采用原始模型中的通道注意力模块定义输入特征图为F_c，分别进行全局平均池化和全局最大池化操作，获取每个通道的全局信息，然后输入到共享的多层感知机(Multi-layerPerceptron简称MLP)中；多层感知机由一个隐藏层构成，且只有中间层的输出采用Relu函数进行激活；MLP可以增强全局特征的非线性表达能力，得到提取后的特征图；再对输出进行元素相加，构成1×1×c的特征向量，然后通过Sigmoid函数映射至(0，1)区间；最后，将映射向量与原输入特征图相乘；通道注意力的数学描述如下所示

F′_c＝δ(MLP(MaxPool(F_c))+MLP(AvgPool(F_c)))·F_c

其中δ表示Sigmoid激活函数，MLP为多层感知机，Max/AvgPool分别为最大/平均池化，F′_c为注意力机制作用结果；

在卷积注意力机制中，空间注意力模块设置了额外的卷积层，而卷积神经网络本身具有编码位置信息的能力，因此单独设置位置特征的卷积层不仅会增加权重信息也可能会影响原来网络对位置信息编码的能力；在此提出一种深度注意力机制神经网络，引入并改进了CBAM方法；采用原始的通道注意力模块提取缺陷簇几何特征，改进空间注意力模块，提出一种基于特征图特定方向映射的空间注意力机制；

定义输入特征图为F_s，针对每个通道的特征图分别在横向和纵向取平均值，采用Sigmoid函数激活；特征图上关键特征对应的平均值较高，因此两个方向的平均值映射可以捕获关键特征的位置；分别将映射后的特征与原输入特征都点乘并叠加，即可放大缺陷簇位置信息的贡献；空间注意力模块的数学描述如下所示，

其中δ为Sigmoid激活函数，w为特征图的宽，h为特征图的高，F_s为输入特征图，

为第i个通道的输入特征图，F′_s为通道注意力作用结果；

通道注意力模块F′_c和空间注意力模块F′_s共同构成了注意力机制，采用两种模块串联的结构，最终的注意力输出为：

F＝F′_s(F′_c)。