CN116778235A

CN116778235A - 一种基于深度学习网络的晶圆表面缺陷分类方法

Info

Publication number: CN116778235A
Application number: CN202310691109.3A
Authority: CN
Inventors: 周建军; 陈森柳; 邱权; 董然; 黄少坡; 韦家成; 邵阳
Original assignee: Beijing Institute of Petrochemical Technology
Current assignee: Beijing Institute of Petrochemical Technology
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-19

Abstract

本发明提出一种基于深度学习网络的晶圆表面缺陷分类方法，该方法可以快速准确的判断出晶圆表面缺陷模式，定位其缺陷模式成因。该方法旨在解决晶圆缺陷检测方法中人工强度大，检测效率低等问题。具体流程包括：根据WM‑811K数据集，构建并训练晶圆缺陷检测及分类模型，缺陷检测模型属于二分类，用于判断晶圆图是否存在缺陷，分类模型属于多分类，用于判断具体的缺陷模式类别；将待测样本输入训练好的晶圆缺陷检测及分类模型，判断其缺陷模式；最后通过分析已知样本的缺陷模式成因，推断待测样本的缺陷模式成因，不断优化其工艺流程，提高晶圆产品良率。

Description

一种基于深度学习网络的晶圆表面缺陷分类方法

技术领域

本发明涉及工业生产过程中的晶圆表面缺陷检测分类技术领域，具体为一种基于深度学习网络的晶圆表面缺陷分类方法。

背景技术

半导体行业是信息技术时代的核心产业，也是支持现今的科技革命，加快相关高科技产业变革的重要支柱产业，具有基础性、先导性的特点。对制造业而言，产量与质量的同步发展情况是决定制造企业在市场竞争中能否成功生存、有多少竞争力的主要因素。产品良率在很大程度上影响着制造的成本、利润和竞争力，良率越高则生产所需的单位成本越低，企业的市场竞争力越强。高良率是半导体制造业在激烈的市场竞争环境中始终追求的重要目标之一。

晶圆制造具有上百道工序，是个非常精密的过程，其中任何一个步骤出现问题，都会造成晶圆缺陷，具有缺陷的晶圆芯片会被淘汰，不会进入下一个制程，以免徒增制造成本。同时，晶圆产生的缺陷会在晶圆图中呈现特定的空间图案，这些空间图案包含了晶圆在制造层面发生的异常信息，如薄膜沉积问题、蚀刻问题、清洗不均匀、紫外线曝光不均匀、晶圆物料运输过程被刮坏或晶圆处理不当等问题。传统的晶圆检测分类依靠人工检测，人工检测方法主观性强，效率低，速度慢，基于深度学习的晶圆缺陷分类代替人工分类更加的快速准确，避免错误分类，可以节省大量的劳动力。

发明内容

本发明旨在提出一种基于深度学习网络的晶圆表面缺陷分类方法，该方法能够应用到晶圆生产制造过程中。传统的晶圆检测分类依靠人工检测，人工检测方法主观性强，效率低，速度慢，基于深度学习的晶圆缺陷分类方法代替人工分类更加的快速准确，避免错误分类，可以节省大量的劳动力。

一种基于深度学习网络的晶圆表面缺陷分类方法，本发明具体工作流程如下：

步骤1，基于晶圆数据集，将数据集中的晶圆特征矩阵转化为晶圆图；根据晶圆数据集(例如WM-811K数据集)，构建并训练晶圆缺陷检测及分类模型。缺陷检测模型基于LeNet-5经典网络进行改进，损失函数设置为交叉熵函数，无缺陷晶圆图标记为0，有缺陷晶圆图标记为1，判断数据集样本是否存在缺陷模式。缺陷分类模型基于ResNet网络的残差块进行网络模型设计，判断晶圆缺陷模式，引入可分离卷积，减少模型参数，加快网络训练速度；引入注意力机制，提高模型准确度。

步骤2，预处理与数据增强模型，对数据集样本进行数据扩充和标准化，归一化处理；基于步骤1中的WM-811K数据集，对数据集进行标准化和归一化处理，同时对数据集进行扩增，提高分类精度，解决类不平衡问题。

步骤3，构建晶圆缺陷检测模型并进行训练，利用该模型判断晶圆图是否存在缺陷，无缺陷晶圆图标记为0，有缺陷晶圆图标记为1。缺陷检测模型是基于LeNet-5经典网络改进而成，网络结构包含输入层，卷积层，池化层，全连接层以及Sigmoid分类输出层，损失函数设置为交叉熵函数，激活函数采用ReLU函数。

步骤4，构建晶圆缺陷分类模型并进行训练，将步骤三中所有标记为1的晶圆图输入晶圆缺陷分类模型中进行训练，利用该模型判断晶圆缺陷模式类别。在模型构建时，采用N-triplet损失函数代替交叉熵损失函数，解决交叉熵损失函数一定的局限性问题。同时引入CBAM注意力机制，使得网络模型更多的关注感兴趣区域，忽略无用信息，提高模型准确度；

所述的缺陷分类模型是基于ResNet网络的残差块设计得到，网络结构包含卷积层(Conv Layer)，卷积块层(Conv Block)，残差块层(Residual Block)，全局平均池化层(Global Average Pooling)和全连接层(Dense Layer)，损失函数设置为N-triplet函数，引入CBAM注意力机制，激活函数采用ReLU函数。

步骤5，基于步骤四训练好的网络模型，将待测样本输入网络模型，通过分析已知缺陷样本的缺陷成因，判断待测样本的缺陷成因。

基于步骤3和步骤4构建的晶圆缺陷检测与分类模型，提取输出层的晶圆图缺陷特征，将待测样本的缺陷模式与已知样本的缺陷模式进行对比，通过对已知样本缺陷模式的分析，判断其缺陷成因，从而判断待测样本缺陷成因，不断优化工艺流程，提高下一批次的晶圆产品良率。

步骤2中，要对数据集进行预处理操作，将数据集中的晶圆特征矩阵转化为晶圆缺陷模式图。将数据集进行扩增处理，再进行标准化和归一化处理。该发明采用卷积自编码器(CAE,Convolutional Autoencoder)技术，根据公式(1)进行图像扩增，解决数据集类不平衡问题。最后进行图像标准化和归一化，将选定的晶圆图图像尺寸统一缩放到256×256，图像像素限制在(0，1)之间。

公式(1)中，m为数据集样本扩充个数，M为原始晶圆数据集样本总数，N为数据集样本类别数，p为原始数据集中各类样本所占比例。

卷积自编码器由编码器和解码器组成，编码器由一个卷积层和一个池化层组成，解码器只包括一个反卷积层。预处理与数据增强模型基于PyTorch框架搭建，具体模型结构如下表所示：

步骤3中，晶圆缺陷检测模型包含三个卷积层和两个全连接层，卷积层的卷积核大小为3×3，步长为1×1，激活函数为ReLU，每个卷积层后采用最大池化层进行下采样，大小为3×3，步长为1×1，第二层全连接层采用Sigmoid激活函数激活输出，为防止过拟合，全连接层后进行Dropout操作，Dropout概率设置为0.5。缺陷检测模型基于PyTorch框架搭建，具体模型结构如下表所示：

Layer	Parameters
		Conv2d_1	conv_kernel_size＝3×3,stride＝1×1,ReLU,max_pool_size＝3×3,stride＝1×1
Conv2d_2	conv_kernel_size＝3×3,stride＝1×1,ReLU,max_pool_size＝3×3,stride＝1×1
		Conv2d_3	conv_kernel_size＝3×3,stride＝1×1,ReLU,max_pool_size＝3×3,stride＝1×1
Dense_1	Dropout
		Dense_2	Sigmoid

步骤4中，晶圆缺陷分类模型包含两个卷积层，两个卷积块层，两个残差块层和两个全连接层。其中卷积块层由卷积层、最大池化层(Max Pooling)、BN层(BatchNormalization)、ReLU激活函数和Dropout层组成；残差块层由可分离卷积层(SeparableConv Layer)、最大池化层和BN层组成。在残差块层与全连接层之间采用全局平均池化层，由于其没有可学习的参数，可以避免过度拟合，同时增加全局平均池化层可以增加空间信息，使网络对空间平移更加稳健。卷积块层和第一层全连接层中的Dropout概率设置为0.5，第二层全连接层采用Softmax激活函数激活输出，卷积层的卷积核大小为3×3，步长为1×1，最大池化下采样层大小为3×3，步长为1×1，在卷积块层和残差块层中引入注意力机制(Attention Mechanism)，获取更多与目标有关的细节信息，忽略其他无关信息，提高模型准确度。缺陷分类模型基于PyTorch框架搭建，具体模型结构如下表所示：

步骤4中损失函数为N-triplet函数，在监督学习中，通常使用交叉熵损失函数，但是交叉熵损失函数具有一定的局限性，比如嘈杂的标签会导致缺乏鲁棒性等。本发明中用N-triplet函数代替交叉熵损失函数，该函数用于训练输入图像的向量嵌入，以便同一类类别中的图像表示比不同类中的表示更相似。在模型训练时，N-triplet函数优于交叉熵函数的监督训练，使用N-triplet损失有助于样本图像在维度中更好地嵌入表示，提高整个网络的准确度，使用N-triplet损失训练模型可以减少相似嵌入之间的距离，实现更好的特征学习，有助于网络模型的分类，公式表示如下：

公式(2)中，代表N个不同类别的N对样本，m为设定阈值，/>代表正样本，/>j≠i代表负样本。

步骤4中引入即插即用的CBAM注意力机制，CBAM是一种轻量级注意力机制，可以在空间维度和通道维度上进行Attention操作。

在通道上，将输入的feature map经过两个并行的MaxPool层和AvgPool层，将特征图从C×H×W变为C×1×1的大小，然后经过Share MLP模块，在该模块中，它先将通道数压缩为原来的1/r(Reduction，减少率)，再扩张到原通道数，经过ReLU激活函数得到两个激活后的结果。将这两个输出结果进行逐元素相加，再通过一个sigmoid激活函数得到ChannelAttention的输出结果，再将这个输出结果乘原图，变回C×H×W的大小，公式表达如下：

在空间上，将ChannelAttention的输出结果通过最大池化和平均池化得到两个1×H×W的特征图，然后经过Concat操作对两个特征图进行拼接，通过7*7卷积变为1通道的特征图，再经过一个sigmoid得到Spatial Attention的特征图，最后将输出结果乘原图，变回C×H×W大小，公式表达如下：

在模型训练时，选取样本图像的80％作为训练集，10％作为验证集，10％作为测试集，学习率为0.0001，样本batch_size为128，迭代次数epoch为150，损失函数采用Adam优化器进行优化。

本发明具有如下优点：

本方法采用基于深度学习技术的方法，构建晶圆缺陷检测与分类模型，采用残差块的思想，引入可分离卷积和CBAM注意力机制模块，具有分类速度快，效率高的特点，能够应用到晶圆制造加工过程中的缺陷检测分类领域，代替人工操作，节省劳动力。

附图说明

图1为晶圆缺陷模式示例图；

图2为本发明中卷积自编码器的流程图；

图3为本发明晶圆缺陷检测与分类的总体分析流程结构图；

图4为本发明的缺陷检测网络模型图；

图5为本发明的缺陷分类网络模型图；

具体实施方式

下面结合附图与实例，对本发明的技术方案进行清楚、完整地描述。

图1为WM-811K晶圆数据集中晶圆缺陷模式示例图，从图中可以看到该数据集共包含8种经典缺陷模式类型和1种无模式类型(Nonpattern，标签“None”)。该数据集中8种经典缺陷模式类型分别为：中心类型(标签“Center”)、圆环类型(标签“Donut”)、局部类型(标签“Loc”)、边缘局部类型(标签“Edge-loc”)、边缘环形类型(标签“Edge-Ring”)、近乎全部缺陷类型(标签“Near-full”)、随机类型(标签“Random”)和划痕类型(标签“Scratch”)。该数据集由811457张晶圆图图像组成，有172950张图像被标记，被标记图像中仅有3.1％具有缺陷模式，其他为无模式类型。有缺陷模式的晶圆图中，近乎全部缺陷类型(标签“Near-full”)仅有149张，边缘环形类型(标签“Edge-Ring”)有9680张，数据集中各种缺陷模式类型的数量差距过于悬殊，图像尺寸大小不一，不利于深度卷积神经网络的训练，影响构建的模型性能，所以首先要对原始数据集进行数据增强，标准化和归一化处理，再进行网络训练，具体步骤如下：

1、数据集预处理

数据集扩增有很多种方法，包括旋转、翻转、缩放、裁剪等传统方法，也有利用自编码器和GAN(Generative adversarial network)神经网络的图像生成方法。使用卷积自编码器(CAE,Convolutional Autoencoder)进行图像扩增。卷积自编码器由编码器(encoder)和解码器(decoder)两部分组成。编码器部分可以是卷积层、池化层、全连接层等组成的一个神经网络(为了缩小维度，卷积采用下采样，或将其中矩阵转成一维张量，再进行全连接，全连接层神经元节点个数逐层减少)，并且输出维度与输入相比会小很多；解码器部分可以是反卷积层、全连接层等的组合(为了增加维度，卷积通常采取上采样，或者全连接层神经元个数逐渐相加)，解码器部分将编码器部分的输出作为输入，最终的输出与输入维度完全一致，卷积自编码器结构图如图2所示，基于卷积自编码器技术，根据公式(1)进行图像扩增。

晶圆图的尺寸由晶圆大小和晶圆上芯片的数量决定。实际生产过程中，由于工艺水平的不一样和晶圆上制造芯片产品的不同，存在多种尺寸的晶圆和大小对应的晶圆图。在模型训练和批量处理晶圆图时，需要统一输入晶圆图的尺寸，将不同尺寸的晶圆图缩放至统一合适的大小。本发明中，使用双线性插值算法将扩增后的图像样本统一缩放到256×256大小，最后利用公式(5)将图像像素限制在(0，1)之间。

公式(5)中，I(x，y，z)代表输入图像的三通道像素值。

2、网络模型构建与训练

(1)晶圆缺陷检测模型

模型基于PyTorch框架搭建，包含三个卷积层和两个全连接层，卷积层的卷积核大小为3×3，步长为1×1，激活函数为ReLU，如公式(6)所示，每个卷积层后采用最大池化层进行下采样，大小为3×3，步长为1×1，第二层全连接层采用Sigmoid激活函数激活输出，如公式(7)所示，损失函数采用交叉熵损失函数，为防止过拟合，全连接层后进行Dropout操作，Dropout概率设置为0.5。

公式(6)中，x为卷积网络中卷积层神经元节点的值。

公式(7)中，z为卷积网络中卷积层神经元节点的值。

(2)晶圆缺陷分类模型

模型基于PyTorch框架搭建，包含两个卷积层，两个卷积块层，两个残差块层和两个全连接层。其中卷积块层由卷积层、最大池化层(Max Pooling)、BN层(BatchNormalization)、ReLU激活函数和Dropout层组成；残差块层由可分离卷积层(SeparableConv Layer)、最大池化层和BN层组成。在残差块层与全连接层之间采用全局平均池化层(公式(8))，大大降低计算的参数量。卷积块层和第一层全连接层中的Dropout概率设置为0.5，第二层全连接层采用Softmax激活函数(公式(9))激活输出，卷积层的卷积核大小为3×3，步长为1×1，最大池化下采样层大小为3×3，步长为1×1，在卷积块层和残差块层中引入CBAM注意力机制，获取更多与目标有关的细节信息，忽略其他无关信息，提高模型准确度,损失函数采用N-triplet函数。

公式(8)中没有需要学习的参数，可以很好的避免过拟合，同时增加全局平均池化层可以增加空间信息，使网络对空间平移更加稳健。

在模型训练时，选取样本图像的80％作为训练集，10％作为验证集，10％作为测试集，学习率设置为η＝0.0001，样本batch_size设置为128，迭代次数为epoch＝150，损失函数采用Adam优化器进行优化。首先样本图像经过晶圆缺陷检测模型，筛选出标记为1的含有缺陷晶圆图像，将标记为1的含有缺陷晶圆图像输入晶圆缺陷分类模型，对晶圆缺陷检测与分类模型进行训练，最后将待测样本输入训练好的网络模型进行缺陷分类，通过分析已知缺陷样本的缺陷成因，判断待测样本的缺陷成因。训练后的缺陷检测模型在缺陷样本检测中，检出率为97％；缺陷样本分类模型能够快速准确的判别9种缺陷模式，分别为：None、Center、Donut、Loc、Edge-loc、Edge-Ring、Near-full、Random、Scratch，测试时准确度分别为：93.4、99％、90％、84.9％、91.7％、98.1％、99.9％、96％、98.7，本发明具有分类速度快，效率高的特点，能够应用到晶圆制造加工过程中的缺陷检测分类领域，代替人工操作，节省大量劳动力。

Claims

1.一种基于深度学习网络的晶圆表面缺陷分类方法，其特征在于，所述方法包括如下几个步骤：

步骤一，基于晶圆数据集，将数据集中的晶圆特征矩阵转化为晶圆图；

步骤二，构建预处理与数据增强模型，对数据集样本进行数据扩充和标准化，归一化处理；

步骤三，构建晶圆缺陷检测模型并进行训练，利用该模型判断晶圆图是否存在缺陷，无缺陷晶圆图标记为0，有缺陷晶圆图标记为1；

步骤四，构建晶圆缺陷分类模型并进行训练，将步骤三中所有标记为1的晶圆图输入晶圆缺陷分类模型中进行训练，利用该模型判断晶圆缺陷模式类别；在模型构建时，采用N-triplet损失函数代替交叉熵损失函数，解决交叉熵损失函数一定的局限性问题；同时引入CBAM注意力机制，使得网络模型更多的关注感兴趣区域，忽略无用信息；

步骤五，基于步骤四训练好的网络模型，将待测样本输入网络模型，通过分析已知缺陷样本的缺陷成因，判断待测样本的缺陷成因。

2.如权利要求1所述的一种晶圆表面缺陷模式检测与分析方法，其特征在于，步骤二具体如下：

采用卷积自编码器(CAE)技术，根据公式1进行图像扩增；卷积自编码器由编码器和解码器组成，编码器由一个卷积层和一个池化层组成，解码器只包括一个反卷积层；模型基于PyTorch框架搭建；

3.如权利要求1所述的一种晶圆表面缺陷模式检测与分析方法，其特征在于，步骤三具体如下：

模型基于PyTorch框架搭建，晶圆缺陷检测模型包含三个卷积层和两个全连接层，卷积层的卷积核大小为3×3，步长为1×1，激活函数为ReLU，损失函数为交叉熵函数，每个卷积层后采用最大池化层进行下采样，大小为3×3，步长为1×1，第二层全连接层采用Sigmoid激活函数激活输出，为防止过拟合，全连接层后进行Dropout操作，Dropout概率设置为0.5，训练时损失函数用Adam算法优化，学习率设置为0.0001。

4.如权利要求1所述的一种晶圆表面缺陷模式检测与分析方法，其特征在于，步骤四具体如下：

模型基于PyTorch框架搭建，晶圆缺陷分类模型包含两个卷积层，两个卷积块层，两个残差块层和两个全连接层；其中卷积块层由卷积层、最大池化层、BN层、ReLU激活函数和Dropout层组成；残差块层由可分离卷积层、最大池化层和BN层组成；在残差块层与全连接层之间采用全局平均池化层，由于其没有可学习的参数，可以避免过度拟合，同时增加全局平均池化层可以增加空间信息，使网络对空间平移更加稳健；卷积块层和第一层全连接层中的Dropout概率设置为0.5，第二层全连接层采用Softmax激活函数激活输出，卷积层的卷积核大小为3×3，步长为1×1，最大池化下采样层大小为3×3，步长为1×1，损失函数为N-triplet函数，如公式(2)，在卷积块层和残差块层中引入CBAM注意力机制，获取更多与目标有关的细节信息，忽略其他无关信息，训练时损失函数用Adam算法优化，学习率设置为0.0001；