CN117036333A

CN117036333A - 一种精度高、适应不同密度变化的晶圆缺陷检测方法

Info

Publication number: CN117036333A
Application number: CN202311088688.9A
Authority: CN
Inventors: 魏启宇; 曾锃
Original assignee: SHANGHAI UNIVERSITY
Current assignee: SHANGHAI UNIVERSITY
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-10

Abstract

本发明公开了一种精度高、适应不同密度变化的晶圆缺陷检测方法，基于变分自编码器(VAE)和教师‑学生模型的半监督学习方法来自动检测晶圆的缺陷。发明使用了基于变分自编码器(VAE)和教师‑学生模型的半监督学习方法来自动检测晶圆的缺陷，这种方法可以有效地利用有限的标记数据，同时还能从大量的未标记数据中学习有用的信息，从而提高模型的性能。

Description

一种精度高、适应不同密度变化的晶圆缺陷检测方法

技术领域

本发明涉及半导体制造技术领域，具体地说，涉及一种精度高、适应不同密度变化的晶圆缺陷检测方法。

背景技术

半导体制造技术是一种涉及到物理、化学、材料科学、电子工程等多个学科的复杂工艺，其主要目标是在硅或其他半导体材料上制造集成电路或微电子设备。这个过程包括多个步骤，如晶体生长、晶圆制备、光刻、蚀刻、掺杂、热处理、金属化、封装等，集成电路是现代电子设备中的核心组件，包括计算机处理器、微控制器和存储芯片(如NAND闪存和DRAM)等。半导体设备的制造是一个多步骤的光刻和物理化学过程，其中电子电路逐渐在晶圆上形成，这些晶圆通常由纯单晶半导体材料制成。在半导体制造过程中，晶圆缺陷检测是一个关键步骤。先进的集成电路制造工艺一般都包含几百步的工序，任何环节的微小错误都将导致整个芯片的失效，特别是随着电路关键尺寸的不断缩小，其对工艺控制的要求就越严格。因此，在生产过程中为能及时地发现和解决问题，都配置有光学和电子的缺陷检测设备对产品进行在线的检测。

目前，已经存在多种晶圆缺陷检测技术，这些技术主要可以分为两大类：光学检测技术和电子束检测技术。光学及电子的缺陷检测，其工作的基本原理都是通过设备采集到几个芯片的信号，将芯片上的物理图像转换成为可由不同亮暗灰阶表示的数据图像。现有技术中一种检测晶圆上缺陷的方法为，通过对3个芯片(芯片A、B和C)的图像数据进行同时采集，假定芯片B上有一缺陷，然后通过B芯片和A芯片的比较得出有信号差异的位置，再通过B芯片和C芯片的比较得出有信号差异的位置，那么这两个对比结果中相对应的、差异互补的位置就是在B芯片上检测到的缺陷位置。

然而，随着晶圆制备工艺的发展，晶圆尺寸不断变大，从200毫米转向如今的300毫米甚至到450毫米，晶圆上各芯片区的薄膜厚度、电路尺寸等工艺参数也会有较大差异。这就导致了一个问题，由于各芯片区膜厚的不同，相同的物理结构在同一个检测光源下表现为不同的灰度特征，而目前的缺陷检测方法通常采用无法自适应的检测参数，从而可能会在缺陷检测时产生非常多的噪声信号，甚至将非缺陷区域检测为缺陷区域，不仅降低缺陷检测的精度，更可能导致增加不必要的工艺步骤、从而降低了工艺效率。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明的目的在于提供一种精度高、适应不同密度变化的晶圆缺陷检测方法。

(二)技术方案

本为实现上述目的，本发明提供如下技术方案，一种精度高、适应不同密度变化的晶圆缺陷检测方法，基于变分自编码器(VAE)和教师-学生模型的半监督学习方法来自动检测晶圆的缺陷,包括以下步骤：

S1、训练VAE模型：使用语义分割算法找出图像的缺陷区域，将其作为附加信息加入训练的过程，接着使用晶圆数据集预训练一个VAE模型；

S2、标记和评分：在构建教师模型后，我们对未标记的图像进行标记和评分，这个过程通常使用教师模型的输出作为参考，为未标记的图像生成伪标签；

S3、构件训练数据集；从伪标记的图像中选择置信度最高的前K个图像，并将它们与原始的标记数据结合，创建一个新的训练数据集；

S4、学生模型训练：学生模型使用这些伪标签进行训练，对未标记数据进行采样，将VAE中提取的代表图像特征分布的中间层作为补充信息，结合到教师-学生架构中，训练学生模型，在该模型有限量的标记数据上进行训练，以此来学习教师模型的知识，以获得足够的性能，初步指导学生模型；

S5、数据预处理：在训练学生模型后，使用语义分割模型找出图片中的故障区域，作为附加信息一起训练。

作为优选方案，所述教师模型是一个已经训练好的模型，或者是一个集成的模型，它可以对未标注的半导体数据进行预测，生成伪标签。

作为优选方案，所述教师模型和学生模型，其中学生网络通过教师网络生成的伪标签进行优化，教师网络通过从持续学习的学生网络转移权重进行更新，教师-学生网络的交互过程中，两个模型可以相互增强，持续提高检测精度。

作为优选方案，将所述教师网络和学生网络分开，为了提高精度，只有在从教师网络获取伪标签后，学生网络的可学习权重才能通过反向传播进行更新。

作为优选方案，为探索晶圆图中的故障分布，使用语义分割算法找出图片的故障区域作为附加信息，使用变分自编码器(VAE)从数据集中获取故障数据分布信息。

作为优选方案，其中图像预处理包括采用WM-811K晶圆图数据集，它包含来自46,294个批次的811,457张硅片地图图像，其中172,950张带有手动标签，每张图像代表一个半导体晶圆，并包含晶圆上的芯片或设备的信息，以及它们是否通过了质量控制测试。

作为优选方案，针对晶圆图像数据集采用基于热力图的预处理方法，热图是一种图形显示，它显示从图像中获得的特征值，呈现在特定的颜色范围内。

作为优选方案，晶圆图图像本质上是二维数组，其中每个元素表示位于晶圆上的一个芯片，其对应的测试结果用数值0、1或2表示；其中，0表示边缘，1表示测试通过，2表示测试失败；构成晶圆图图像的这些小正方形中的每一个都代表位于晶圆上的单个芯片；热图是一种图形显示，它显示从图像中获得的特征值，呈现在特定的颜色范围内。

(三)有益效果

与现有技术相比，本发明提供了一种精度高、适应不同密度变化的晶圆缺陷检测方法，具备以下有益效果：

一、本发明使用了基于变分自编码器(VAE)和教师-学生模型的半监督学习方法来自动检测晶圆的缺陷，这种方法可以有效地利用有限的标记数据，同时还能从大量的未标记数据中学习有用的信息，从而提高模型的性能；

二、本发明采用的半监督学习是一种机器学习范式，它使用大量的未标注数据和少量的标注数据进行模型训练，在许多实际应用中，获取未标注数据相对容易和便宜，而获取标注数据则需要专业知识和大量的人力，因此半监督学习在处理这类问题时具有很大的优势，这种方法可以有效地利用大量的未标注数据，提高模型的泛化能力，从而提高半导体缺陷检测的准确性。

附图说明

图1为本发明模型框架图；

图2为本发明热力图。

具体实施方式

下面结合具体实施例和说明书附图对本发明做进一步阐述和说明:

请参阅图1-2，本发明：一种精度高、适应不同密度变化的晶圆缺陷检测方法基于变分自编码器(VAE)和教师-学生模型的半监督学习方法来自动检测晶圆的缺陷,包括以下步骤：

具体的，本发明采用了基于变分自编码器(VAE)和教师-学生模型的半监督学习方法来自动检测晶圆的缺陷，这种方法可以有效地利用有限的标记数据，同时还能从大量的未标记数据中学习有用的信息，从而提高模型的性能。半监督学习是一种机器学习范式，它使用大量的未标注数据和少量的标注数据进行模型训练，在半监督学习中，一种常见的方法是教师-学生网络；

更加具体的，在这种网络中，教师模型是一个已经训练好的模型，或者是一个集成的模型，它可以对未标注的半导体数据进行预测，生成伪标签，它可以对未标注的数据进行预测，生成伪标签。然后，学生模型使用这些伪标签进行训练，以此来学习教师模型的知识，这种方法的优点是可以利用大量的未标注数据，提高模型的泛化能力。在这之中学生网络通过教师网络生成的伪标签进行优化，教师网络通过从持续学习的学生网络转移权重进行更新，教师-学生网络的交互过程中，两个模型可以相互增强，持续提高检测精，而教师网络和学生网络是分开的，为了提高精度，只有在从教师网络获取伪标签后，学生网络的可学习权重才能通过反向传播进行更新。

更进一步的，半监督学习算法及传统教师-学生网络会存在一些缺陷和技术问题，其中：

半监督学习算法存在的一些缺陷和技术问题包括：

1.标签噪声：在半监督学习中，标签数据可能包含噪声，即某些数据可能被错误地标记。这可能会导致半监督学习算法学习到错误的模式。

2.数据分布的变化：半监督学习假设标签数据和未标记数据来自同一分布。然而，在许多实际应用中，这个假设可能不成立，因为数据的分布可能会随着时间的推移而改变。

传统教师-学生网络存在的一些缺陷和技术问题包括：

1.教师模型的准确性：教师模型的预测准确性对学生模型的学习效果有很大影响。如果教师模型的预测不准确，那么学生模型可能会学习到错误的模式。

2.知识传递的有效性：在教师-学生网络中，教师模型需要将其知识有效地传递给学生模型。然而，这个过程可能会受到许多因素的影响，例如教师模型和学生模型的结构差异，以及训练数据的质量和数量。

为了克服这些问题，本发明采用一种新的方法来探索晶圆图中的故障分布，使用语义分割算法找出图片的故障区域作为附加信息，使用变分自编码器(VAE)从数据集中获取故障数据分布信息，在半导体数据集上利用半监督教师-学生网络，有效地利用了大量的未标记数据，从而提高了数据利用率和识别性能。

在本发明中，结合VAE模型和基于最小数据注释的半监督方法对半导体缺陷进行检测，利用教师-学生架构和VAE模型,利用标记数据,同时训练教师和VAE模型；获得教师模型后，我们对未标记数据进行采样，将VAE中提取的代表图像特征分布的中间层作为补充信息，结合到教师-学生架构中，训练学生模型。在数据预处理部分，使用语义分割模型找出图片中的故障区域，作为附加信息一起训练。

为探索晶圆图中的故障分布，使用语义分割算法找出图片的故障区域作为附加信息，使用变分自编码器(VAE)从数据集中获取故障数据分布信息，其中图像预处理为：

本发明使用的数据集WM-811K晶圆图数据集是一个公开可用的数据集，广泛用于半导体制造研究。它包含来自46,294个批次的811,457张硅片地图图像，但只有172,950张带有手动标签，每张图像代表一个半导体晶圆，并包含晶圆上的芯片或设备的信息，以及它们是否通过了质量控制测试。

本发明针对晶圆图像数据集设计了一种基于热力图的预处理方法，其中：晶圆图图像本质上是二维数组，其中每个元素表示位于晶圆上的一个芯片，其对应的测试结果用数值0、1或2表示。其中，0表示边缘，1表示测试通过，2表示测试失败；

构成晶圆图图像的这些小正方形中的每一个都代表位于晶圆上的单个芯片，通过对晶圆上故障芯片的空间分布模式进行彻底的检查和仔细检查，可以有效地找出制造过程中故障的根本原因，并继续制定有针对性的策略来改善和预防这些问题。最终，这些努力可以显著提高晶圆制造的产品良率；

为了为了实现本发明的目标，本发明提出了一种开创性的方法来生成动态适应的热图。热图是一种图形显示，它显示从图像中获得的特征值，呈现在特定的颜色范围内。由于热图的有效性，热图被广泛应用于生物医学成像、生物系统或地形分析等各个领域。利用从图像中提取的二维值组成的特征矩阵生成热图。这些值决定了特征矩阵中的颜色范围，其中较深的颜色表示较大的值，较浅的颜色表示较小的值；

最终本发明建立了一个大小为K的感受野，并计算图像中以自身为中心的每个点$X_i$的相邻失败芯片的数量，并将获得的值分配给该点。遍历图像中的所有点后，我们对结果值进行排序，形成序列$R_i$，选择排序序列$R_i$的$3/5$位置处的值作为阈值$Q$。最后，我们根据阈值Q对所有点$X_i$进行过滤，得出点$Y_i$的最终序列。然后根据这个序列生成热图。Q值是动态调整，以适应不同的场景在每个地图；

采用动态阈值可以消除被其他故障芯片稀疏包围的故障芯片。转换如图所示。从晶圆图像到热图的转换导致每个点的信息密度更高，因为它将有关该点及其周围点的信息聚集到0到255之间的单个值中。这导致了一个更有信息量的图像表示，其中每个点携带更多的信息。此外，由于无意义点的数量减少，生成的热图不那么混乱。每种断层类型的特征也变得更加明显，因为热图中有不同的模式表示它们。总的来说，热图变换有助于提高后续模式识别任务的有效性。

具体的，对于全局特征提取通过预训练的VAE

神经网络通常被理解为我们想要模型的函数的近似。然而，它们也可以被看作是存储信息的数据结构。假设我们有一个由几个反卷积层组成的神经网络。我们将输入设置为单位向量，并训练网络以最小化它和目标图像之间的均方误差。这样，图像的"数据"就包含在神经网络的当前参数中，这是自编码器(AE)网络的基本思想。在自编码器中，我们引入一个组件，自动将原始图像编码成一个向量。前面提到的反卷积层可以将这些向量"解码"回原始图像。然而，我们的目标是建立一个生成模型，而不仅仅是一个"记忆"图像数据的模糊结构。除了像前面描述的那样从现有图像中编码潜在向量，我们不知道如何创建这些向量，因此我们无法从头开始生成任何图像。这里有一个简单的解决方案：我们对编码网络添加一个约束，强制它生成的潜在向量大致遵循单位高斯分布。这个约束使变分自编码器(VAE)与标准自编码器有所区别。编码潜在向量被替换为连续变量Z，这个分布可以表示为：

P(x)＝∫z P(z)P(x|z)dz,

其中z～N(0,1)，x|z～N(μ(z),σ(z))

现在，生成新图像变得很容易：我们只需从单位高斯分布中采样一个潜在向量，然后将其传递给解码器。VAE中遵循单位高斯分布的潜在向量是我们需要的晶圆图像的全局特征表示。要实现这个功能，我们只需要在现有的图像数据集上预训练一个VAE网络。之后，每个输入图像都会产生一个表示晶圆图像全局特征的潜在向量。

进一步的，对于教师学生网络

为了充分利用无监督数据，本发明采用了教师-学生交互学习方案，其中学生网络通过教师网络生成的伪标签进行优化，教师网络通过从持续学习的学生网络转移权重进行更新。在教师-学生网络的交互过程中，两个模型可以相互增强，持续提高检测精度。检测精度的提高意味着教师网络可以生成更准确、更稳定的伪标签，我们发现这对于显著提高算法性能至关重要。另一方面，我们也将教师网络视为不同时间阶段的学生模型的集合，这与我们的观察一致，即教师网络的精度始终超过学生网络。为了解决无监督数据缺乏标签的问题，我们采用伪标签法，使用无监督数据训练学生网络；

伪标签法和一致性正则化法的区别在于，一致性正则化通常依赖于大量数据的一致性约束，而伪标签法依赖于高信心的伪标签，这些标签可以作为标记数据添加到训练数据集中。这符合当前成功的半监督学习图像分类任务的原则。类似于基于分类的方法，为了避免噪声伪标签的持续干扰，我们首先为预测的分类结果设置一个信心阈值，以过滤出低信心的标签；

此外，噪声伪标签可能会影响生成伪标签的模型(教师网络)。因此，我们将教师网络和学生网络分开。为了提高精度，只有在从教师网络获取伪标签后，学生网络的可学习权重才能通过反向传播进行更新。

进一步的，本发明中的网络架构

在这项研究中，我们提出了一种基于VAE的潜在特征提取方法来检测故障区域，并采用教师-学生网络处理未标记的数据，以提高分类模型的性能，整个架构可以在图1中看到。我们采取的关键步骤如下：首先，我们使用语义分割算法找出图像的缺陷区域，将其作为附加信息加入训练的过程，接着我们使用晶圆数据集预训练一个VAE模型。这个模型可以自动学习和识别图像中的故障分布特征，而不依赖于手动注释的数据，其中间层的潜在向量就是我们需要的特征数据。接下来，我们构建初始的教师模型，该模型在有限量的标记数据上进行训练，以获得足够的性能，初步指导学生模型；

在构建教师模型后，我们对未标记的图像进行标记和评分。这个过程通常使用教师模型的输出作为参考，为未标记的图像生成伪标签。然后，我们从伪标记的图像中选择置信度最高的前K个图像，并将它们与原始的标记数据结合，创建一个新的训练数据集。利用这个新的训练数据集，以及通过VAE处理数据集后获得的潜在向量，我们训练学生模型。在这个过程中，学生模型通过观察教师模型的行为进行学习。

分类网络方法框架

本发明提出了一种基于大规模卷积神经网络的半监督学习方法，利用教师-学生架构和VAE模型。利用标记数据，我们同时训练教师和VAE模型；获得教师模型后，我们对未标记数据进行采样，将VAE中提取的代表图像特征分布的中间层作为补充信息，结合到教师-学生架构中，训练学生模型。在数据预处理部分，我们使用语义分割模型找出图片中的故障区域，作为附加信息一起训练；

热力图实现方法

算法描述：img2hot函数

目的：将输入的二值图像转换为热力图，其中颜色的强度表示像素在其局部窗口中的累积值

输入：img：一个二值图像，其中像素值为0或非0

输出：heat_img：一个热力图

其中步骤包括：

初始化参数：设置窗口大小k为15，设置参数para为1。

图像预处理：

创建一个新的图像img_r，其内容与img相同，将img_r中所有非零的像素值替换为para。

初始化变量；创建一个与img_r形状相同的全零数组Img_R，初始化一个空字典ret，用于存储像素值的频率，获取所有像素值为para的坐标，并存储在index数组中，计算index的长度，得到node_nums，表示所有像素值为para的像素数量。

计算局部窗口的和：

遍历img_r中所有值为para的像素,对于每个像素，计算其周围的窗口(大小为k)中所有像素的和,将这个和存储在Img_R的相应位置,在ret字典中更新这个和的频率。

计算阈值：将ret字典中的项按键排序，计算像素和的累积频率，直到达到node_nums的60％，此时的键被设置为阈值Q。

图像处理：

将Img_R中所有小于Q的值设置为0，计算Img_R的最大值和最小值，根据Img_R的最大值和最小值计算距离dist，使用dist调整Img_R的值，使其范围在0到255之间，将Img_R转换为8位无符号整数类型。

应用颜色映射：

使用OpenCV的applyColorMap函数，将img_R转换为热力图，使用cv2.COLORMAP_JET作为颜色映射。

返回结果：返回生成的热力图heat_img.

结束。

最后，训练学生模型后，我们对其进行微调。这一步可以进一步提高模型的性能，使其更适合实际任务。总的来说，通过采用我们提出的基于无监督语义分割的方法，构建教师模型，标记，训练学生模型和微调，我们成功地提高了模型处理未标记数据时的性能。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种精度高、适应不同密度变化的晶圆缺陷检测方法，基于变分自编码器(VAE)和教师-学生模型的半监督学习方法来自动检测晶圆的缺陷,其特征在于,包括以下步骤：

2.根据权利要求1所述的一种精度高、适应不同密度变化的晶圆缺陷检测方法，其特征在于：所述教师模型是一个已经训练好的模型，或者是一个集成的模型，它可以对未标注的半导体数据进行预测，生成伪标签。

3.根据权利要求2所述的一种精度高、适应不同密度变化的晶圆缺陷检测方法，其特征在于：所述教师模型和学生模型，其中学生网络通过教师网络生成的伪标签进行优化，教师网络通过从持续学习的学生网络转移权重进行更新，教师-学生网络的交互过程中，两个模型可以相互增强，持续提高检测精度。

4.根据权利要求3所述的一种精度高、适应不同密度变化的晶圆缺陷检测方法，其特征在于：将所述教师网络和学生网络分开，为了提高精度，只有在从教师网络获取伪标签后，学生网络的可学习权重才能通过反向传播进行更新。

5.根据权利要求1所述的一种精度高、适应不同密度变化的晶圆缺陷检测方法，其特征在于：为探索晶圆图中的故障分布，使用语义分割算法找出图片的故障区域作为附加信息，使用变分自编码器(VAE)从数据集中获取故障数据分布信息。

6.根据权利要求5所述的一种精度高、适应不同密度变化的晶圆缺陷检测方法，其特征在于：其中图像预处理包括采用WM-811K晶圆图数据集，它包含来自46,294个批次的811,457张硅片地图图像，其中172,950张带有手动标签，每张图像代表一个半导体晶圆，并包含晶圆上的芯片或设备的信息，以及它们是否通过了质量控制测试。

7.根据权利要求6所述的一种精度高、适应不同密度变化的晶圆缺陷检测方法，其特征在于：针对晶圆图像数据集采用基于热力图的预处理方法，热图是一种图形显示，它显示从图像中获得的特征值，呈现在特定的颜色范围内。

8.根据权利要求7所述的一种精度高、适应不同密度变化的晶圆缺陷检测方法，其特征在于：晶圆图图像本质上是二维数组，其中每个元素表示位于晶圆上的一个芯片，其对应的测试结果用数值0、1或2表示；其中，0表示边缘，1表示测试通过，2表示测试失败；构成晶圆图图像的这些小正方形中的每一个都代表位于晶圆上的单个芯片；热图是一种图形显示，它显示从图像中获得的特征值，呈现在特定的颜色范围内。