CN117853876A

CN117853876A - 一种晶圆缺陷检测模型的训练方法以及系统

Info

Publication number: CN117853876A
Application number: CN202410263821.8A
Authority: CN
Inventors: 张潇; 徐东东; 胡周; 陈健
Original assignee: Nexchip Semiconductor Corp
Current assignee: Nexchip Semiconductor Corp
Priority date: 2024-03-08
Filing date: 2024-03-08
Publication date: 2024-04-09
Anticipated expiration: 2044-03-08
Also published as: CN117853876B

Abstract

本发明提供一种晶圆缺陷检测模型的训练方法，包括：获取有标签缺陷数据集和无标签缺陷数据集；对初始残差网络模型进行初始化处理，生成学生网络模型和教师网络模型；将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集；对所述有标签缺陷数据集和所述无标签缺陷数据集依次进行多任务有监督损失处理和多任务一致性损失处理，以分别生成有监督损失权重和一致性损失权重，以及根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。通过本发明公开的一种晶圆缺陷检测模型的训练方法以及系统，能够提升模型训练效率。

Description

一种晶圆缺陷检测模型的训练方法以及系统

技术领域

本发明涉及深度学习技术领域，特别是涉及一种晶圆缺陷检测模型的训练方法以及系统。

背景技术

晶圆缺陷检测是半导体制程中的关键一步，且随着深度学习技术的不断发展，利用深度学习模型对晶圆缺陷进行检测也逐渐成为大趋势。

然而，现有的晶圆缺陷检测模型在使用之前，需要对其输入大量有标注的晶圆缺陷数据，以完成对晶圆缺陷检测模型的训练，导致训练前的工作量大，降低了晶圆缺陷检测模型的训练效率，且当训练样本数量不够时，会降低晶圆缺陷检测模型的缺陷检测精度。因此，存在待改进之处。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种晶圆缺陷检测模型的训练方法以及系统，改善了晶圆缺陷检测模型训练效率低的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明提供一种晶圆缺陷检测模型的训练方法以及系统，包括：

获取训练样本集，所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集；

对初始残差网络模型进行初始化处理，生成多任务检测网络模型，其中，所述多任务检测网络模型包括学生网络模型和教师网络模型；

将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集；

对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理，生成有监督损失权重；

将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理，生成一致性损失权重；以及

根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。

在本发明一实施例中，所述获取训练样本集，所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集的步骤包括：

获取无标签缺陷数据集；以及

对所述无标签缺陷数据集进行部分标签标注处理，生成有标签缺陷数据集，所述有标签缺陷数据集和所述无标签缺陷数据集构成训练样本集。

在本发明一实施例中，所述将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集的步骤包括：

将所述有标签缺陷数据集输入所述学生网络模型中进行特征提取处理，生成初始缺陷特征数据集，所述初始缺陷特征数据集包括浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集；

对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理，生成轮廓预测特征数据集；

对所述高层缺陷特征数据集进行像素距离预测处理，生成距离预测特征数据集；

将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中，生成分割预测特征数据集；以及

对所述轮廓预测特征数据集、所述距离预测特征数据集和所述分割预测特征数据集进行融合取均值处理，生成第一预测特征数据集。

在本发明一实施例中，所述对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理，生成轮廓预测特征数据集的步骤包括：

对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行采样处理，生成第一融合特征数据集；

对所述第一融合特征数据集进行单通道卷积处理，生成多个单通道特征数据；以及

对多个所述单通道特征数据进行激活函数处理，生成轮廓预测特征数据集。

在本发明一实施例中，所述将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中，生成分割预测特征数据集的步骤包括：

根据所述中层缺陷特征数据集对所述高层缺陷特征数据集进行多次上采样处理，生成第二融合特征数据集；

对所述第二融合特征数据集进行多通道卷积处理，生成多个多通道特征数据；以及

对多个所述多通道特征数据进行激活函数处理，生成分割预测特征数据集。

在本发明一实施例中，对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理，生成有监督损失权重的步骤包括：

对所述有标签缺陷数据集进行真值检测处理，生成有标签缺陷真值数据集，所述有标签缺陷真值数据集包括多个缺陷分割真值、多个缺陷轮廓真值和多个缺陷距离真值；以及

对所述有标签缺陷真值数据集和对应的所述第一预测特征数据集进行二值交叉损失函数处理，生成有监督损失权重。

在本发明一实施例中，所述对所述有标签缺陷数据集进行真值检测处理，生成有标签缺陷真值数据集的步骤包括：

对所述有标签缺陷数据集进行掩膜分割处理，生成分割掩膜数据集，并将分割掩膜数据定义为缺陷分割真值；

对所述分割掩膜数据集进行边缘检测处理，生成多个缺陷轮廓真值；以及

对所述分割掩膜数据集进行像素距离检测处理，生成多个缺陷距离真值。

在本发明一实施例中，所述将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理，生成一致性损失权重的步骤包括：

将所述无标签缺陷数据集输入所述教师网络模型中进行真值检测处理，生成无标签缺陷真值数据集；

将所述无标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理，生成第二预测特征数据集；以及

对所述无标签缺陷真值数据集和对应的所述第二预测特征数据集进行均方差处理，生成一致性损失权重。

在本发明一实施例中，所述根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型的步骤包括：

对所述有监督损失权重和所述一致性损失权重进行高斯优化处理，生成网络总损失权重；以及

根据所述网络总损失权重对所述学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。

本发明还提供一种晶圆缺陷检测模型的训练系统，所述系统包括：

数据获取模块，用以获取训练样本集，所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集；

模型初始化模块，用以对初始残差网络模型进行初始化处理，生成多任务检测网络模型，其中，所述多任务检测网络模型包括学生网络模型和教师网络模型；

特征预测模块，用以将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集；

有监督损失处理模块，用以对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理，生成有监督损失权重；

一致性损失处理模块，用以将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理，生成一致性损失权重；以及

迭代优化模块，用以根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。

如上所述，本发明提供一种晶圆缺陷检测模型的训练方法以及系统，意想不到的技术效果是，能够实现使用少量有标签缺陷数据，完成对晶圆缺陷检测模型的高精度训练，进而提升模型训练效率，提高晶圆缺陷检测精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1显示为本发明的一种晶圆缺陷检测模型的训练方法的流程示意图；

图2显示为图1中步骤S210的流程示意图；

图3显示为图1中步骤S230的流程示意图；

图4显示为图3中步骤S232的流程示意图；

图5显示为图3中步骤S234的流程示意图；

图6显示为图1中步骤S240的流程示意图；

图7显示为图6中步骤S241的流程示意图；

图8显示为图1中步骤S250的流程示意图；

图9显示为图1中步骤S260的流程示意图；

图10显示为图1中部分流程示意图；

图11显示为本发明的一种晶圆缺陷检测模型的训练系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

首先需要说明的是，随着大数据时代的发展，深度学习技术的突飞猛进，越来越多的深度学习技术被应用于图像分割、目标检测、故障诊断等诸多领域。深度学习(DeepLearning，DL)是机器学习(Machine Learning，ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(Artificial Intelligence，AI)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。其中，缺陷检测模型已经被广泛应用，然而其在半导体的缺陷检测领域还很缺乏，且现有的晶圆缺陷检测模型仅仅通过通过仿真结果和实际系统输出之间的残差来实现缺陷检测，导致对全局特征的表达能力有限，不能具有较好的自适应性和鲁棒性。在其它的应用场景中，针对对象的晶圆缺陷检测模型的训练方法可以应用于晶圆缺陷检测，然不限于此，也可以根据实际情况进行设置，本申请的实施例不对此进行限制。

请参阅图1，图1是本申请的一示例性实施例示出的晶圆缺陷检测模型的训练方法的流程示意图，应理解的是，该方法也可以适用于其他的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

如图1所示，在一示例性的实施例中，晶圆缺陷检测模型的训练方法至少包括步骤S210至步骤S260，详细介绍如下。

步骤S210、获取训练样本集，训练样本集包括有标签缺陷数据集和无标签缺陷数据集。

步骤S220、对初始残差网络模型进行初始化处理，生成多任务检测网络模型，其中，多任务检测网络模型包括学生网络模型和教师网络模型。

步骤S230、将有标签缺陷数据集输入学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集。

步骤S240、对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理，生成有监督损失权重。

步骤S250、将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理，生成一致性损失权重。

步骤S260、根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。

如图2所示，在一示例性的实施例中，当执行步骤S210时，即获取训练样本集，训练样本集包括有标签缺陷数据集和无标签缺陷数据集。具体的，步骤S210可以包括步骤S211至步骤S212，详细介绍如下。

步骤S211、获取无标签缺陷数据集。

步骤S212、对无标签缺陷数据集进行部分标签标注处理，生成有标签缺陷数据集，有标签缺陷数据集和无标签缺陷数据集构成训练样本集。

在一示例性的实施例中，当执行步骤S210时，具体的，无标签缺陷数据集可以包括大量的晶圆缺陷数据信息。例如，无标签缺陷数据集可以包括但不限于5000组晶圆缺陷数据。对无标签缺陷数据集进行部分标签标注处理指的是对无标签缺陷数据集中的部分缺陷数据集进行标签标注处理，以获得部分带有标签的有标签缺陷数据集。其中，可以使用数据标注工具（Label Studio）对无标签缺陷数据集进行标签标注。然不限于此，也可以使用其他标注工具对无标签缺陷数据集进行标注，只要能够获得部分带有标签的有标签缺陷数据集即可。此外，有标签缺陷数据集和无标签缺陷数据集的比例可以为1:2，也可以为1:3，还可以为1:4。然不限于此，也可以为其他比例。例如，标签缺陷数据集和无标签缺陷数据集的比例可以为1:3。训练样本集中的样本数据大小可以为3×480×480像素，也可以为其他像素。

如图1所示，在一示例性的实施例中，当执行步骤S220时，即对初始残差网络模型进行初始化处理，生成多任务检测网络模型，其中，多任务检测网络模型包括学生网络模型和教师网络模型。具体的，初始残差网络模型可以为ResNet-101，然不限于此，初始残差网络模型也可以为其他卷积神经网络。教师网络模型通常是一个大型的、经过预训练的深度学习模型，它被用来作为学生网络的指导者和评估者。教师网络模型具有更复杂的结构和更丰富的特征提取能力，可以更好地捕捉输入数据的内在特征和规律。学生网络模型是一个相对较小、更轻量级的多任务检测网络模型，它的目标是在减少计算资源需求和提高推理速度的同时，尽可能地接近教师网络的性能。学生网络模型被训练来模仿教师网络的行为或预测，从而在相似的输入下产生相似的输出。在训练过程中，学生网络模型会不断地调整自己的参数，以最小化与教师网络模型在相同输入下的预测误差。通过这种方式，学生网络模型可以逐渐提高自己的性能，并逐渐接近教师网络模型的性能，且教师网络模型中的权重参数可以通过学生网络模型中的权重参数进行加权平均处理获取。

如图3所示，在一示例性的实施例中，当执行步骤S230时，即将有标签缺陷数据集输入学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集。具体的，步骤S230可以包括步骤S231至步骤S235，详细介绍如下。

步骤S231、将有标签缺陷数据集输入学生网络模型中进行特征提取处理，生成初始缺陷特征数据集，初始缺陷特征数据集包括浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集。

步骤S232、对浅层缺陷特征数据集和高层缺陷特征数据集进行特征融合处理，生成轮廓预测特征数据集。

步骤S233、对高层缺陷特征数据集进行像素距离预测处理，生成距离预测特征数据集。

步骤S234、将高层缺陷特征数据集融合进入对应的中层缺陷特征数据集中，生成分割预测特征数据集。

步骤S235、对轮廓预测特征数据集、距离预测特征数据集和分割预测特征数据集进行融合取均值处理，生成第一预测特征数据集。

在一示例性的实施例中，可以通过学生网络模型对有标签缺陷数据集进行特征提取处理，以获得初始缺陷特征数据集。初始缺陷特征数据集包含晶圆的缺陷特征信息。其中，初始缺陷特征数据集可以包括但不限于浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集。浅层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息，中层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息和部分语义信息，高层缺陷特征数据集包含了晶圆缺陷区域中的全面的语义数据信息。浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例可以为1：3：1，也可以为1：4：1，然不限于此，也可以为其他数据比例。例如，在本实施例中，初始缺陷特征数据集中可以包括一组浅层缺陷特征数据集、三组中层缺陷特征数据集以及一组高层缺陷特征数据集。当浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例为1：3：1时，浅层缺陷特征数据集中的浅层缺陷特征可以定义为Res-1，中层缺陷特征数据集中的三组中层缺陷特征可以分别定义为Res-2、Res-3、Res-4，高层缺陷特征数据集中的高层缺陷特征可以定义为Res-5。进一步地，Res-1的尺寸可以为32×240×240像素，且浅层缺陷特征可以用于缺陷轮廓检测。Res-2的尺寸可以为64×120×120像素，Res-3的尺寸可以为64×60×60像素，Res-4的尺寸可以为64×60×60像素，且Res-2、Res-3、Res-4等中层缺陷特征可以用于缺陷分割检测。高层缺陷特征Res-5的尺寸可以为64×15×15像素，以用于缺陷距离检测。

如图4所示，在一示例性的实施例中，当执行步骤S232时，即对浅层缺陷特征数据集和高层缺陷特征数据集进行特征融合处理，生成轮廓预测特征数据集。具体的，步骤S232可以包括步骤S331至步骤S333，详细介绍如下。

步骤S331、对浅层缺陷特征数据集和高层缺陷特征数据集进行采样处理，生成第一融合特征数据集。

步骤S332、对第一融合特征数据集进行单通道卷积处理，生成多个单通道特征数据。

步骤S333、对多个单通道特征数据进行激活函数处理，生成轮廓预测特征数据集。

在一示例性的实施例中，当执行步骤S331时，对浅层缺陷特征数据集和高层缺陷特征数据集进行采样处理指的是使用上采样操作将高层缺陷特征数据集的特征图恢复到浅层缺陷特征数据集相同的大小，以获得中间高层缺陷特征数据集。然后将中间高层缺陷特征数据集与浅层缺陷特征数据集的特征图进行逐元素相加，以生成第一融合特征数据集。

在一示例性的实施例中，当执行步骤S332时，对第一融合特征数据集进行单通道卷积处理，生成多个单通道特征数据是指将第一融合特征数据集输入到一个1x1卷积层中，以获得一个与初始缺陷特征数据集中的缺陷特征数据大小相同的特征图。然后, 1x1的卷积层将输出通道数降到1，以获得单通道特征数据。

在一示例性的实施例中，当执行步骤S333时，对多个单通道特征数据进行激活函数处理，生成轮廓预测特征数据集是指使用激活函数（sigmoid）将单通道特征图的像素值映射到[0,1]的范围内，以获得轮廓信息的预测值。其中，可以将sigmoid函数在[0,1]之间的输出值，定义为轮廓信息的概率值。再判断轮廓信息的概率值是否大于或等于预设阈值，若概率值大于或等于预设阈值，则该轮廓信息为轮廓预测特征数据，且可以将轮廓预测特征数据定义为F1，若概率值小于预设阈值，则舍弃该轮廓信息。具体的，轮廓预测特征数据F1可以满足如下公式，

，

其中，F1可以表示为轮廓预测特征数据，Res-1可以表示为浅层缺陷特征， Res-5可以表示为高层缺陷特征，up表示为上采样操作，Conv1×1可以表示为1×1卷积层。

如图3所示，在一示例性的实施例中，当执行步骤S233时，即对高层缺陷特征数据集进行像素距离预测处理，生成距离预测特征数据集。具体的，为了简化网络设计，第五层的高层缺陷特征数据可以直接用于预测像素距离信息。例如，使用一个1x1的卷积层来将高层缺陷特征数据集中的特征图降维到单通道，然后使用上采样操作将其尺寸恢复到与高层缺陷特征数据的尺寸相同，以生成距离预测特征数据集。

如图5所示，在一示例性的实施例中，当执行步骤S234时，即将高层缺陷特征数据集融合进入对应的中层缺陷特征数据集中，生成分割预测特征数据集。具体的，步骤S234可以包括步骤S341至步骤S343，详细介绍如下。

步骤S341、根据中层缺陷特征数据集对高层缺陷特征数据集进行多次上采样处理，生成第二融合特征数据集。

步骤S342、对第二融合特征数据集进行多通道卷积处理，生成多个多通道特征数据。

步骤S343、对多个多通道特征数据进行激活函数处理，生成分割预测特征数据集。

在一示例性的实施例中，当执行步骤S341时，根据中层缺陷特征数据集对高层缺陷特征数据集进行多次上采样处理，生成第二融合特征数据集是指使用上采样操作将高层缺陷特征数据集的特征图恢复到与中层缺陷特征数据Res-4中的特征图相同的大小。然后将其与Res-4的特征图进行逐元素相加，得到融合后的第一特征数据，且可以将融合后的第一特征数据定义为F2。随后，再使用上采样操作将F2恢复到与中层缺陷特征数据Res-3相同的大小，然后将其与Res-3进行逐元素相加，得到融合后的第二特征数据，且可以将第二特征数据定义为F3。再然后，可以继续使用上采样操作将F3恢复到与中层缺陷特征数据Res-2相同的大小，然后将其与中层缺陷特征数据Res-2进行逐元素相加，得到融合后的第三特征数据，且可以将第三特征数据定义为F4。至此，就得到了一个包含Res-2、Res-3和Res-4的特征的第三特征数据F4，且可以将第三特征数据F4定义为第二融合特征数据集，用于缺陷区域的分割。

在一示例性的实施例中，当执行步骤S342时，对第二融合特征数据集进行多通道卷积处理，生成多个多通道特征数据。具体的，可以将第二融合特征数据集中的特征图输入到一个卷积层中，以获得一个与第二融合特征数据大小相同的特征图。再使用三个3x3的卷积层和一个1x1的卷积层对该特征图进行处理，以获得多个多通道特征数据。其中，第一个通道可以表示缺陷区域的概率值，第二个通道可以表示非缺陷区域的概率值。

在一示例性的实施例中，当执行步骤S343时，对多通道特征数据进行激活函数处理，生成分割预测特征数据集。具体的，可以使用激活函数（sigmoid）将多通道特征数据的像素值映射到[0,1]的范围内，以获得缺陷区域的概率数据，且可以将激活函数在[0,1]之间的输出值定义为缺陷区域的概率值。随后再基于概率值与预设阈值的比较结果，以生成分割预测特征数据。其中，若概率值大于或等于预设阈值，则将该缺陷区域中的像素设置为1，其余像素设置为0，以获得分割预测特征数据，且可以将分割预测特征数据定义为SFj，多个分割预测特征数据可以组成分割预测特征数据集。进一步地，当使用激活函数（sigmoid）将多通道特征数据的像素值映射到[0,1]的范围内时，可以满足如下公式，

sigmoid(x) = 1 / (1 + exp(-x))，

其中，x可以表示为输入的多通道特征数据的像素值。

如图6所示，在一示例性的实施例中，当执行步骤S240时，即对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理，生成有监督损失权重。具体的，步骤S240可以包括步骤S241至步骤S242，详细介绍如下。

步骤S241、对有标签缺陷数据集进行真值检测处理，生成有标签缺陷真值数据集，有标签缺陷真值数据集包括多个缺陷分割真值、多个缺陷轮廓真值和多个缺陷距离真值。

步骤S242、对有标签缺陷真值数据集和对应的第一预测特征数据集进行二值交叉损失函数处理，生成有监督损失权重。

如图7所示，在一示例性的实施例中，当执行步骤S241时，具体的，步骤S241可以包括步骤S351至步骤S353，详细介绍如下。

步骤S351、对有标签缺陷数据集进行掩膜分割处理，生成分割掩膜数据集，并将分割掩膜数据定义为缺陷分割真值。

步骤S352、对分割掩膜数据集进行边缘检测处理，生成多个缺陷轮廓真值。

步骤S353、对分割掩膜数据集进行像素距离检测处理，生成多个缺陷距离真值。

如图1和图7所示，在一示例性的实施例中，具体的，可以将缺陷分割真值定义为Gs，将缺陷轮廓真值定义为Gc。此外，还可以通过对分割掩膜中的每个像素点与该像素点最近的背景像素点进行像素距离检测，以生成缺陷距离真值，且可以将缺陷距离真值定义为Gd。

如图1和图6所示，在一示例性的实施例中，当执行步骤S242时，对有标签缺陷真值数据集和对应的第一预测特征数据集进行二值交叉损失函数处理，生成有监督损失权重。具体的，可以通过对缺陷分割真值和分割预测特征数据进行二值交叉损失函数处理，生成第一缺陷分割损失权重。通过对缺陷轮廓真值和轮廓预测特征数据进行二值交叉损失函数处理，生成第一缺陷轮廓损失权重。通过对缺陷距离真值和距离预测特征数据进行二值交叉损失函数处理，生成第一缺陷距离损失权重。再根据权重系数对第一缺陷分割损失权重、第一缺陷轮廓损失权重以及第一缺陷距离损失权重进行优化求和处理，生成有监督损失权重。第一缺陷分割损失权重、第一缺陷轮廓损失权重以及第一缺陷距离损失权重分别满足如下公式，

，

其中，可以表示为第i个分割预测特征数据，Gs可以表示为缺陷分割真值，可以表示为二值交叉损失函数，/>可以表示为第一缺陷分割损失权重，Pc可以表示为轮廓预测特征数据，Gc可以表示为缺陷轮廓真值，/>可以表示为第一缺陷轮廓损失权重，Pd可以表示为距离预测特征数据，Gd可以表示为缺陷距离真值，/>可以表示为第一缺陷距离损失权重。

此外，根据权重系数对第一缺陷分割损失权重、第一缺陷轮廓损失权重以及第一缺陷距离损失权重进行优化求和处理，生成有监督损失权重可以满足如下公式，

，

其中，可以表示为第一缺陷分割损失权重，/>可以表示为第一缺陷轮廓损失权重，/>可以表示为第一缺陷距离损失权重，/>可以表示为有监督损失权重，α可以表示为轮廓损失权重系数，且α=10，β可以表示为距离损失权重系数，且β=10。

如图8所示，在一示例性的实施例中，当执行步骤S250时，即将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理，生成一致性损失权重。具体的，步骤S250可以包括步骤S251至步骤S253，详细介绍如下。

步骤S251、将无标签缺陷数据集输入教师网络模型中进行真值检测处理，生成无标签缺陷真值数据集。

步骤S252、将无标签缺陷数据集输入学生网络模型中进行多任务特征预测处理，生成第二预测特征数据集。

步骤S253、对无标签缺陷真值数据集和对应的第二预测特征数据集进行均方差处理，生成一致性损失权重。

在一示例性的实施例中，无标签缺陷真值数据集可以包括但不限于无标签缺陷分割真值、无标签缺陷轮廓真值以及无标签缺陷距离真值，且可以分别定义无标签缺陷分割真值为Ts，无标签缺陷轮廓真值为Tc，无标签缺陷距离真值为Td。第二预测特征数据集可以包括但不限于无标签缺陷分割预测特征数据集、无标签缺陷轮廓预测特征数据集以及无标签缺陷距离预测特征数据集。其中，可以将无标签缺陷分割预测特征数据定义为Ss，可以将无标签缺陷轮廓预测特征数据定义为Sc，可以将无标签缺陷距离预测特征数据定义为Sd。此外，可以通过对无标签缺陷分割真值和无标签缺陷分割预测特征数据进行均方差处理，生成第二缺陷分割损失权重。可以通过对无标签缺陷轮廓真值和无标签缺陷轮廓预测特征数据进行均方差处理，生成第二缺陷轮廓损失权重。可以通过对无标签缺陷距离真值和无标签缺陷距离预测特征数据进行均方差处理，生成第二缺陷距离损失权重。第二缺陷分割损失权重、第二缺陷轮廓损失权重以及第二缺陷距离损失权重可以满足如下公式，

，

其中，可以表示为第j个无标签缺陷分割预测特征数据，/>可以表示为第j个无标签缺陷分割真值，/>可以表示为均方差函数，/>可以表示为第二缺陷分割损失权重，Sc可以表示为无标签缺陷轮廓预测特征数据，Tc可以表示为无标签缺陷轮廓真值，可以表示为第二缺陷轮廓损失权重，Sd可以表示为无标签缺陷距离预测特征数据，Td可以表示为无标签缺陷距离真值，/>可以表示为第二缺陷距离损失权重。

进一步地，还可以对第二缺陷分割损失权重、第二缺陷轮廓损失权重以及第二缺陷距离损失权重进行优化求和处理，以生成一致性损失权重。优化求和处理满足如下公式，

，

其中，可以表示为第二缺陷分割损失权重，/>可以表示为第二缺陷轮廓损失权重，/>可以表示为第二缺陷距离损失权重，β可以表示为距离损失权重系数，且β=10，L_c（y）可以表示为一致性损失权重。

如图9所示，在一示例性的实施例中，当执行步骤S260时，即根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。具体的，步骤S260可以包括步骤S261至步骤S262，详细介绍如下。

步骤S261、对有监督损失权重和一致性损失权重进行高斯优化处理，生成网络总损失权重。

步骤S262、根据网络总损失权重对学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。

在一示例性的实施例中，对有监督损失权重和一致性损失权重进行高斯优化处理可以满足如下公式，

，

其中，可以表示为第i个有标签缺陷数据的有监督损失权重，/>可以表示为第i个无标签缺陷数据的一致性损失权重，M可以表示为训练样本集中有标签缺陷数据的数量，N可以表示为训练样本集中无标签缺陷数据的数量，/>可以表示为权重优化系数，用以平衡有监督损失权重和一致性损失权重，且/>最大值为10，/>可以表示为网络总损失权重。

此外，可以满足如下公式，

，

其中，t可以表示为当前的训练迭代次数，t_max可以表示为最大训练迭代次数，可以表示为/>的最大值。

图10是本申请的一示例性实施例示出的晶圆缺陷检测模型的训练系统的示意图。该系统可以适用于其它的示例性实施环境，并具体配置在其它设备中，本实施例不对该系统所适用的实施环境进行限制。

晶圆缺陷检测模型的训练系统可以包括但不限于数据获取模块410、模型初始化模块420、特征预测模块430、有监督损失处理模块440、一致性损失处理模块450以及迭代优化模块460。

在一示例性的实施例中，数据获取模块410可用以获取训练样本集，训练样本集包括有标签缺陷数据集和无标签缺陷数据集。其中，无标签缺陷数据集可以包括大量的晶圆缺陷数据信息。例如，无标签缺陷数据集可以包括但不限于5000组晶圆缺陷数据。对无标签缺陷数据集进行部分标签标注处理指的是对无标签缺陷数据集中的部分缺陷数据集进行标签标注处理，以获得部分带有标签的有标签缺陷数据集。其中，可以使用数据标注工具（Label Studio）对无标签缺陷数据集进行标签标注，然不限于此，也可以使用其他标注工具对无标签缺陷数据集进行标注，只要能够获得部分带有标签的有标签缺陷数据集即可。此外，有标签缺陷数据集和无标签缺陷数据集的比例可以为1:2，也可以为1:3，还可以为1:4，然不限于此，也可以为其他比例。例如，标签缺陷数据集和无标签缺陷数据集的比例可以为1:3。

在一示例性的实施例中，模型初始化模块420可用以对初始残差网络模型进行初始化处理，生成多任务检测网络模型，其中，多任务检测网络模型包括学生网络模型和教师网络模型。具体的，初始残差网络模型可以为ResNet-101，然不限于此，初始残差网络模型也可以为其他卷积神经网络。教师网络模型通常是一个大型的、经过预训练的深度学习模型，它被用来作为学生网络的指导者和评估者。教师网络模型具有更复杂的结构和更丰富的特征提取能力，可以更好地捕捉输入数据的内在特征和规律。学生网络模型是一个相对较小、更轻量级的多任务检测网络模型，它的目标是在减少计算资源需求和提高推理速度的同时，尽可能地接近教师网络的性能。学生网络模型被训练来模仿教师网络的行为或预测，从而在相似的输入下产生相似的输出。在训练过程中，学生网络模型会不断地调整自己的参数，以最小化与教师网络模型在相同输入下的预测误差。通过这种方式，学生网络模型可以逐渐提高自己的性能，并逐渐接近教师网络模型的性能。

在一示例性的实施例中，特征预测模块430可用以将有标签缺陷数据集输入学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集。具体的，可以通过学生网络模型对有标签缺陷数据集进行特征提取处理，以获得初始缺陷特征数据集。初始缺陷特征数据集包含晶圆的缺陷特征信息。其中，初始缺陷特征数据集可以包括但不限于浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集。浅层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息，中层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息和部分语义信息，高层缺陷特征数据集包含了晶圆缺陷区域中的全面的语义数据信息。浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例可以为1：3：1，也可以为1：4：1，然不限于此，也可以为其他数据比例。例如，在本实施例中，初始缺陷特征数据集中可以包括一组浅层缺陷特征数据集、三组中层缺陷特征数据集以及一组高层缺陷特征数据集。当浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例为1：3：1时，浅层缺陷特征数据集中的浅层缺陷特征可以定义为Res-1，中层缺陷特征数据集中的三组中层缺陷特征可以分别定义为Res-2、Res-3、Res-4，高层缺陷特征数据集中的高层缺陷特征可以定义为Res-5。进一步地，浅层缺陷特征可以用于缺陷轮廓检测，中层缺陷特征可以用于缺陷分割检测，高层缺陷特征可以用于缺陷距离检测。

在一示例性的实施例中，有监督损失处理模块440可用以对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理，生成有监督损失权重。具体的，对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理可以包括对有标签缺陷数据集进行真值检测处理，生成有标签缺陷真值数据集。有标签缺陷真值数据集包括多个缺陷分割真值、多个缺陷轮廓真值和多个缺陷距离真值。还包括对有标签缺陷真值数据集和对应的第一预测特征数据集进行二值交叉损失函数处理，生成有监督损失权重。其中，对有标签缺陷数据集进行真值检测处理，生成有标签缺陷真值数据集可以包括对有标签缺陷数据集进行掩膜分割处理，生成分割掩膜数据集，并将分割掩膜数据定义为缺陷分割真值。还包括对分割掩膜数据集进行边缘检测处理，生成多个缺陷轮廓真值，对分割掩膜数据集进行像素距离检测处理，生成多个缺陷距离真值。此外，可以将缺陷分割真值定义为Gs，将缺陷轮廓真值定义为Gc。还可以通过对分割掩膜中的每个像素点与该像素点最近的背景像素点进行像素距离检测，以生成缺陷距离真值，且可以将缺陷距离真值定义为Gd。

在一示例性的实施例中，一致性损失处理模块450可用以将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理，生成一致性损失权重。具体的，将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理可以包括将无标签缺陷数据集输入教师网络模型中进行真值检测处理，生成无标签缺陷真值数据集。还包括将无标签缺陷数据集输入学生网络模型中进行多任务特征预测处理，生成第二预测特征数据集，对无标签缺陷真值数据集和对应的第二预测特征数据集进行均方差处理，生成一致性损失权重。其中，无标签缺陷真值数据集可以包括但不限于无标签缺陷分割真值、无标签缺陷轮廓真值以及无标签缺陷距离真值，且可以分别定义无标签缺陷分割真值为Ts，无标签缺陷轮廓真值为Tc，无标签缺陷距离真值为Td。第二预测特征数据集可以包括但不限于无标签缺陷分割预测特征数据集、无标签缺陷轮廓预测特征数据集以及无标签缺陷距离预测特征数据集。此外，可以将无标签缺陷分割预测特征数据定义为Ss，可以将无标签缺陷轮廓预测特征数据定义为Sc，可以将无标签缺陷距离预测特征数据定义为Sd。此外，可以通过对无标签缺陷分割真值和无标签缺陷分割预测特征数据进行均方差处理，生成第二缺陷分割损失权重。可以通过对无标签缺陷轮廓真值和无标签缺陷轮廓预测特征数据进行均方差处理，生成第二缺陷轮廓损失权重。可以通过对无标签缺陷距离真值和无标签缺陷距离预测特征数据进行均方差处理，生成第二缺陷距离损失权重。

在一示例性的实施例中，迭代优化模块460可用以根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。具体的，根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理可以包括对有监督损失权重和一致性损失权重进行高斯优化处理，生成网络总损失权重，还包括根据网络总损失权重对学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型。

需要说明的是，上述实施例所提供的晶圆缺陷检测模型的训练系统与上述实施例所提供的晶圆缺陷检测模型的训练方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的晶圆缺陷检测模型的训练系统在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

综上所述，通过本发明提供的一种晶圆缺陷检测模型的训练方法以及系统，意想不到的技术效果是，可以通过设置学生网络模型，并将训练样本集分别输入学生网络模型中进行训练，以获得有监督损失权重和一致性损失权重，并利用有监督损失权重和一致性损失权重对学生网络模型进行迭代优化，以获得目标晶圆缺陷检测模型，从而实现使用少量有标签缺陷数据，完成对高精度的晶圆缺陷检测模型的训练，进而提升模型训练效率，提高晶圆缺陷检测精度。所以，本发明因有效克服了现有技术中的种种缺点而具高度产业利用价值。

在本说明书的描述中，参考术语“本实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明实施例只是用于帮助阐述本发明。实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种晶圆缺陷检测模型的训练方法，其特征在于，所述训练方法包括：

2.根据权利要求1所述的晶圆缺陷检测模型的训练方法，其特征在于，所述获取训练样本集，所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集的步骤包括：

获取无标签缺陷数据集；以及

3.根据权利要求1所述的晶圆缺陷检测模型的训练方法，其特征在于，所述将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理，生成第一预测特征数据集的步骤包括：

4.根据权利要求3所述的晶圆缺陷检测模型的训练方法，其特征在于，所述对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理，生成轮廓预测特征数据集的步骤包括：

5.根据权利要求3所述的晶圆缺陷检测模型的训练方法，其特征在于，所述将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中，生成分割预测特征数据集的步骤包括：

6.根据权利要求1所述的晶圆缺陷检测模型的训练方法，其特征在于，对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理，生成有监督损失权重的步骤包括：

7.根据权利要求6所述的晶圆缺陷检测模型的训练方法，其特征在于，所述对所述有标签缺陷数据集进行真值检测处理，生成有标签缺陷真值数据集的步骤包括：

8.根据权利要求1所述的晶圆缺陷检测模型的训练方法，其特征在于，所述将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理，生成一致性损失权重的步骤包括：

9.根据权利要求1所述的晶圆缺陷检测模型的训练方法，其特征在于，所述根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理，生成目标晶圆缺陷检测模型的步骤包括：

10.一种晶圆缺陷检测模型的训练系统，其特征在于，所述系统包括：