CN114998324A

CN114998324A - 半导体晶圆缺陷检测模型的训练方法及装置

Info

Publication number: CN114998324A
Application number: CN202210844615.7A
Authority: CN
Inventors: 乔乔
Original assignee: Shenzhen Xinshizhi Technology Co ltd
Current assignee: Shenzhen Xinshizhi Technology Co ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-09-02

Abstract

本发明实施例公开了一种半导体晶圆缺陷检测模型的训练方法和装置，其中，所述方法包括：获取训练样本集，所述训练样本集包括一个或多个训练样本，所述训练样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练，其中，所述半导体晶圆缺陷检测模型包括网络特征提取模块、特征加强模块和输出预测模块。采用本发明，可以提高半导体晶圆缺陷检测模型训练的有效性，提高半导体晶圆的缺陷检测的准确度。

Description

半导体晶圆缺陷检测模型的训练方法及装置

技术领域

本发明涉及工业机器视觉自动检测技术领域，尤其涉及一种半导体晶圆缺陷检测模型的训练方法、装置、计算机设备及计算机可读介质。

背景技术

为了提高芯片的良品率，在半导体晶圆的生产过程中可以使用相应设备对半导体晶圆全图进行扫描，并分析扫描图像上异常的图形来定位晶圆上可能造成无法正常工作的缺陷位置。击退的，在芯片制造过程中，会设置多个检测工序以便及时识别晶圆表面的缺陷。其中，对晶圆表面的缺陷的检测可以通过人工或者机器视觉的方式来实现。其中，类似的人工检测方式中检测时间过长，检测效率低下，并且得到的缺陷标注也会由于一些主观性而出现错检和漏检。而基于机器视觉的缺陷检测方法中，存在调试难度大，可能需要在检测的同时反复调参，且对于比较复杂的缺陷图片误检较多，兼容性差的问题；而基于机器学习算法的机器视觉的缺陷检测方案中，需要大量的训练样本对模型进行训练，且当缺陷种类较多时，不同种类样本数量的不均衡也会对训练结果产生极大影响，从而导致对缺陷的检测精度不高。

发明内容

基于此，有必要针对上述问题，提出了一种半导体晶圆缺陷检测模型的训练方法、装置、计算机设备及计算机可读介质。

在本发明的第一部分，提供了一种半导体晶圆缺陷检测模型的训练方法，所述方法包括：

获取训练样本集，所述训练样本集包括一个或多个训练样本，所述训练样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；

以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练，其中，所述半导体晶圆缺陷检测模型包括网络特征提取模块、特征加强模块和输出预测模块。

可选的，所述方法还包括：获取包含缺陷的半导体晶圆的图像，对图像中包含的缺陷进行标注，获取标注的缺陷对应的图像区域的最小外接矩形作为所述半导体晶圆的缺陷图像。

可选的，所述半导体晶圆缺陷检测模型还包括数据输入处理模块，其中，所述数据输入处理模块用于对输入所述半导体晶圆缺陷检测模型的缺陷图像进行预处理，所述预处理包括随机缩放、随机剪裁、随机排布和拼接中的一个或多个。

可选的，所述以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练的步骤，还包括：将所述训练样本的缺陷图像输入所述半导体晶圆缺陷检测模型进行特征提取和缺陷预测，并基于与所述训练样本对应的缺陷标注结果对所述半导体晶圆缺陷检测模型进行训练，其中，对所述半导体晶圆缺陷检测模型的训练包括对所述半导体晶圆缺陷检测模型的参数进行调整，在达到预设的模型训练终止条件时终止对所述半导体晶圆缺陷检测模型的训练。

可选的，所述网络特征提取模块包括Focus模块、至少1个深度可分离卷积模块（DWConv）、至少1个CSP1模块、至少1个注意力机制模块、至少1个SPP模块、至少1个CSP2模块；所述特征加强模块包括：CSP2模块与上采样组成的PAN与FPN模块、和自适应特征融合模块；所述输出预测模块包括分支解耦结构（Decoupled head)，所述分支解耦结构包括激活函数层和卷积层。

可选的，所述将所述训练样本的缺陷图像输入所述半导体晶圆缺陷检测模型进行特征提取和缺陷预测的步骤，还包括：将训练样本的缺陷图像输入所述Focus模块进行切片操作；将切片操作之后的结果输入所述CSP1模块和所述深度可分离卷积模块堆叠进行特征提取，其中，所述将切片操作之后的结果输入所述CSP1模块和所述深度可分离卷积模块堆叠进行特征提取的步骤中，通过注意力机制模块对特征提取进行加强；将提取到的特征输入所述SPP模块进行融合处理，以获取所述网络特征提取模块输出的特征；将所述网络特征提取模块输出的特征输入所述PAN与FPN模块进行处理，然后将处理之后的特征输入所述自适应特征融合模块对特征进行自适应融合处理，以获取所述特征加强模块输出的特征；将所述特征加强模块输出的特征输入所述分支解耦结构，通过所述激活函数对所述特征加强模块输出的特征进行激活处理，并通过卷积层进行卷积操作，以得到所述输出预测模块输出的预测结果，其中，所述预测结果包括与所述缺陷图像对应的预测框。

可选的，所述以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练的步骤，还包括：根据预设的CIOU损失函数，计算预测框与标注框之间的损失值，其中，所述预测框为根据所述半导体晶圆缺陷检测模块获取的缺陷图像中的预测的图像区域，所述标注框为所述缺陷图像中包含的缺陷对应的图像区域的最小外接矩形；根据计算得到的损失值对所述半导体晶圆缺陷检测模型的模型参数进行调整。

可选的，所述方法还包括：获取验证样本集，所述验证样本集包括一个或多个验证样本，所述验证样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；通过所述验证样本集对所述半导体晶圆缺陷检测模型进行测试，获取模型测试结果，在所述模型测试结果满足预设条件的情况下，判定完成对所述半导体晶圆缺陷检测模型的训练；其中，所述预设条件包括精确率满足预设的精确率阈值、召回率满足预设的召回率阈值、平均精度满足预设的第一精度阈值和所有缺陷分类的平均精度满足预设的第二精度阈值中的一个或多个组合。

可选的，所述方法还包括：获取待检测半导体晶圆的待检测图像；将所述待检测图像输入所述半导体晶圆缺陷检测模型以进行特征提取和缺陷检测，获取所述半导体晶圆缺陷检测模型的输出结果，根据所述输出结果确定待检测图像对应的缺陷检测结果。

在本发明的第二部分，提供了一种半导体晶圆缺陷检测模型的训练装置，所述装置包括：

训练样本获取单元，用于获取训练样本集，所述训练样本集包括一个或多个训练样本，所述训练样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；

模型训练单元，用于以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练，其中，所述半导体晶圆缺陷检测模型包括网络特征提取模块、特征加强模块和输出预测模块。

可选的，所述装置还包括：

检测图像获取单元，用于获取待检测半导体晶圆的待检测图像；

缺陷检测单元，用于将所述待检测图像输入所述半导体晶圆缺陷检测模型以进行特征提取和缺陷检测，获取所述半导体晶圆缺陷检测模型的输出结果，根据所述输出结果确定待检测图像对应的缺陷检测结果。

在本发明的第三部分，提供了一种计算机设备，所述计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序；所述处理器用于根据所述计算机程序执行如上述第一方面所述的半导体晶圆缺陷检测模型的训练方法的步骤。

在本发明的第四部分，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行如上述第一方面所述的半导体晶圆缺陷检测模型的训练方法的步骤。

采用本发明实施例，具有如下有益效果：

采用了上述半导体晶圆缺陷检测模型的训练方法、装置、计算机设备及计算机可读介质之后，在对半导体晶圆进行缺陷检测的模型训练过程中，获取训练样本集，所述训练样本集包括一个或多个训练样本，所述训练样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练，其中，所述半导体晶圆缺陷检测模型包括网络特征提取模块、特征加强模块和输出预测模块。在本发明实施例中国，通过卷积网络的前向传播与反向传播运算对半导体晶圆缺陷检测模型进行不断的迭代优化，有效的对模型进行训练，提高模型预测的置信度，提高基于该半导体晶圆缺陷检测模型的缺陷检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种半导体晶圆缺陷检测模型的训练方法的流程示意图；

图2为一个实施例中半导体晶圆缺陷检测模型的结构示意图；

图3为一个实施例中一种根据训练样本对半导体晶圆缺陷检测模型进行训练的流程示意图；

图4为一个实施例中一种基于上述半导体晶圆缺陷检测模型的训练方法的流程示意图；

图5为一个实施例中一种半导体晶圆缺陷检测模型的训练装置的结构示意图；

图6为一个实施例中一种半导体晶圆的缺陷检测装置的结构示意图；

图7为一个实施例中运行上述半导体晶圆缺陷检测模型的训练方法的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本实施例中，提供了一种半导体晶圆缺陷检测模型的训练方法，可以提供对半导体晶圆的表面缺陷进行准确识别的缺陷检测模型，并且使得基于该半导体晶圆缺陷检测模型的缺陷检测精度有明显的提高，从而提高半导体晶圆的良品率。

具体的，请参见图1，给出了上述半导体晶圆缺陷检测模型的训练方法的流程示意图，其中，所述半导体晶圆缺陷检测模型的训练方法包括如图1所示的步骤S101-S102：

步骤S101：获取训练样本集，所述训练样本集包括一个或多个训练样本，所述训练样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像。

在本实施例中，获取多个半导体晶圆对应的图像，其中，这些半导体晶圆上包含有缺陷，因此，这些图像是包含有缺陷的半导体晶圆的图像。进一步的，需要通过例如人工标注的方式，对这些图像进行缺陷标注，并且，在缺陷标注的过程中，可以通过圆圈来标注缺陷所在的图像区域，这里需要获取缺陷所在的图像区域对应的最小外接矩形对应的外接标注框对应的图像区域，并获取对应的图像区域对应的矩形坐标，然后将外接标注框对应的图像区域作为半导体晶圆的缺陷图像。也就是说，这里仅将缺陷所在的最小外接矩形对应的图像区域来作为训练样本，并不是整张图像，可以降低对图像处理的计算量，可以在后续过程中仅考虑小尺寸特征的提取。也就是说，在本实施例中，获取多个包含缺陷的半导体晶圆的图像，然后通过人工标注的方式，获取缺陷所在图像区域的最小外接矩形对应的图像区域以及对应的人工标注的缺陷标注结果作为训练样本。也就是说，在本步骤中，获取包含缺陷的半导体晶圆的图像，对图像中包含的缺陷进行标注，获取标注的缺陷对应的图像区域的最小外接矩形作为所述半导体晶圆的缺陷图像。

需要说明的是，在本实施例中，在后面对模型进行验证的过程中，也可以是通过上述方式获取对应的验证样本对应的验证样本集以对半导体晶圆缺陷检测模型的训练结果进行验证。

在本实施例中，对于获取到的训练样本，其包含了对应的图像区域（半导体晶圆的缺陷图像）以及对应的缺陷标注结果，其中，半导体晶圆的缺陷图像是缺陷所在的图像区域对应的最小外接矩形对应图像区域对应的图像，并且，还可以进一步的对图像进行格式转换、图像预处理操作。

进一步的，对于半导体晶圆的图像中通过标注得到的缺陷所在的图像区域，进行标签转换得到人工标注的最小外接矩形的坐标，并通过Labelme（深度学习图像标注工具）进行标注的检查与补充，获取包含缺陷位置及标签种类的json文件，并将标注后的数据集作为训练样本集。

其中，基于半导体晶圆的图像中，缺陷多为小目标且部分图片中缺陷比较密集，通过仅采用缺陷所在的图像区域而不是整个半导体晶圆的图像作为训练样本，这里进一步的考虑对小尺度特征信息的提取，避免由于模型结构中的下采样和卷积计算等操作降低检测精度。

进一步的，在一个实施例中，如图2所示，半导体晶圆缺陷检测模型200包括数据输入处理模块201，其中，所述数据输入处理模块用于对输入所述半导体晶圆缺陷检测模型的缺陷图像进行预处理，所述预处理包括随机缩放、随机剪裁、随机排布和拼接中的一个或多个。也就是说，通过对图像进行旋转、裁剪，随机排布的方式及对比度增强以及使用Mosaic、Mixup两种数据增强方法对训练样本集进行扩充，标注位置及类别信息。

步骤S102：以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练。

其中，如图3所示，上述步骤S102进一步包含步骤S1021-S1022：

步骤S1021：将所述训练样本的缺陷图像输入所述半导体晶圆缺陷检测模型进行特征提取和缺陷预测；

步骤S1022：基于与所述训练样本对应的缺陷标注结果对所述半导体晶圆缺陷检测模型进行训练，其中，对所述半导体晶圆缺陷检测模型的训练包括对所述半导体晶圆缺陷检测模型的参数进行调整，在达到预设的模型训练终止条件时终止对所述半导体晶圆缺陷检测模型的训练。

在一个具体的实施例中，半导体晶圆缺陷检测模型200包括网络特征提取模块202、特征加强模块203和输出预测模块204。

下面对半导体晶圆缺陷检测模型的具体结构进行详细的阐述，从而对如何通过半导体缺陷检测模型对缺陷图像进行特征提取和缺陷预测进行说明。

数据输入处理模块201用于对输入所述半导体晶圆缺陷检测模型的缺陷图像进行预处理。

网络特征提取模块202包括Focus模块、深度可分离卷积模块（DWConv）、CSP1模块、SPP模块以及注意力机制模块（CBAM）等组成。并且网络特征提取模块202具体依次包括：Focus模块2021、深度可分离卷积模块（DWConv）2022、CSP1模块2023、深度可分离卷积模块（DWConv）2024、CSP1模块2025、注意力机制模块2026、深度可分离卷积模块（DWConv)2027、CSP1模块2028、注意力机制模块2029、深度可分离卷积模块（DWConv）20210、SPP模块20211、CSP2模块20212、注意力机制模块20213。

其中，Focus模块2021对图像进行切片操作，可以看作是一个特殊的下采样操作；

深度可分离卷积模块2022、2024、2027、20210可作下采样，改变卷积方式减少卷积次数从而减少模型计算的参数量；

注意力机制模块（CBAM）2026、2029、20213是一种结合了空间和通道的注意力机制模块，会通过两个独立的维度（通道和空间）依次推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化；

CSP1模块2023、2025、2028将输入分为两个分支，一个分支先通过CBL，再经过多个残差结构（Bottleneck*N），再进行一次卷积；另一个分支直接进行卷积；然后两个分支进行concat，再经过BN（正态分布），再来一次激活（SiLU），最后进行一个CBL，可以提取特征提升模型的语义信息；

SPP模块20211使用固定分块的池化操作，可以对不同尺寸的输入实现相同大小的输出，此外，SPP中不同大小特征的融合，有利于待检测图像中目标大小差异较大的情况。

在网络特征提取模块202中，加入注意力机制模块，沿着通道和空间两个单独的维度依次生成注意力映射，然后将注意图乘到输入特征图中进行自适应特征细化。注意力机制模块作为一个轻量级的通用模块，可以集成到任何神经网络架构中，并且与常见神经网络架构一起进行端到端训练。

注意力机制模块分为通道注意力模块以及空间注意力机制模块，通道注意力模块公式以及空间注意力模块公式如下：

,

其中，

代表sigmoid激活函数，MLP( )表示多层感知机，AvgPool( )表示平均池化函数，MaxPool( )表示最大池化函数，

表示两个卷积操作，

分别表示平均池化和最大池化，

表示卷积核大小为7×7的卷积操作。

特征加强模块203包括CSP2模块2031与上采样模块2032组成的PANet与FPN模块2033和自适应特征融合模块（ASFF）2034，通过CSP2模块2031与上采样模块2032组成的PANet与FPN模块2033和自适应特征融合模块（ASFF）2034对模型提取到的特征信息进行融合，其中CSP2模块包括两个支路，一个支路对输入进来的特征层进行CBL处理，另一条支路对输入的特征层进行两个CBL与DWConv的处理，最后将两个支路相连；PA（PathAggregation）的策略使得不同层次的特征在传递时需要“穿越”的网络层次数量大大减少。

网络特征提取模块202与特征加强模块203中的部分卷积改为深度可分离卷积(depthwise separable convolution)，显著减少了训练计算的参数量，通过PAN与FPN结构对网络特征提取模块202提取到的特征层进行多尺度的融合，提高模型最终的检测精度。PAN结构是自底向上的特征提取，FPN结构是自顶向下的特征提取，之后加入自适应特征融合模块从而充分利用不同尺度的特征。

输出预测模块204包括分支解耦结构（Decoupled head)，其中，将特征加强模块203提取的特征层输入到分支解耦结构（Decoupled head)中进行激活函数运算以及卷积运算，通过激活函数Sigmoid函数预测目标的类别并且进行训练得到最后的预测框。

在本实施例中，在模型构建完成之后，即可对其进行训练，其中，对模型进行训练的实验是在ubuntu系统基于Pytorch深度学习框架下实现，显卡是RTX 2080 Ti。

具体的，在将半导体缺陷检测模型对缺陷图像输入到半导体晶圆缺陷检测模型之后，需要通过步骤S1021进行特征提取和缺陷预测，其具体的操作包括如下步骤S201-S206：

步骤S201：通过数据输入处理模块对缺陷图像进行预处理。

步骤S2021：将步骤S201进行预处理之后的缺陷图像输入到网络特征提取模块202，通过Focus模块2021进行切片操作，将缺陷图像分别将缺陷图像分别从第一行第一列、第一行第二列、第二行第一列、第二行第列开始，每隔一个像素取出一个像素组成一个新的图片，就会得到四个长宽缩小一半的图像，再将其堆叠在一起，使得通道数变为原来的4倍，即12，实现了下采样的操作并且避免了信息的丢失。

步骤S2022：切片后通过CSP1模块2023、2025、2028（由残差网络Bottleneck堆叠而成，其中Bottleneck主干部分由一个1*1的卷积和一个3*3的卷积组成，残差边部分不做任何处理，最后将两者相加）以及深度可分离卷积模块2022、2024、2027、20210堆叠实现特征的提取并有效的减少了训练参数量，在堆叠过程中经过注意力机制模块（CBAM）2026、2029、20213使模型加强对有效特征提取从而提升模型性能，并且通过SPP模块20211融合不同大小特征。

步骤S203：将网络特征提取模块202提取后的特征层输入到特征加强模块203，具体输入到PAN与FPN模块2033以及与自适应特征融合模块2034结合的特征加强模块203中。

首先对网络特征提取模块202提取出的最后一个特征层即第一特征层上采样与网络特征提取模块202中的第三个CSP1模块2025得到的特征图进行融合得到第二特征层，将第二特征层经过CSP2模块2031及第1个CBAM模块2026进行特征提取得到第三特征层，再与主干网络第二个CSP1模块得到的特征图进行融合得到第四特征层。其次将第四特征层经过CSP2模块得到第五特征层，在经过第2个CBAM模块2029以及深度可分离卷积模块后与第三特征层融合获得第六特征层。最后将第六特征层经过CSP2 20212得到第七特征层，经过第3个CBAM模块20213以及深度可分离卷积模块2022、2024、2027、20210进行特征提取后与第一特征层融合得到第八特征层。最后将第五特征层、第七特征层与第八特征层输入到Decouple Head部分；在第五特征层、第七特征层以及第八特征层之后通过自适应特征融合模块（ASFF）2034，即对输出的每个特征层加一次权重自适应，使得正样本和负样本的权重比例不同，通过参数去控制，降低干扰。

步骤S204：将步骤S203中得到的1/8，1/16，1/32特征图经过分支解耦结构进行分支解耦操作，将特征平行分成两路卷积特征，同时为了降低参数量提前进行了降维处理，由于检测的过程中分类需要的特征和回归所需要的特征不同，所以在分支解耦结构中进行解耦处理后学习的过程会变得更加简单，可以显著改善模型收敛速度。每一个特征层包括对目标的类别预测的cls、判断目标框是前景还是背景的obj及预测目标框信息(x，y，w，h)的reg三个分支，其中(x，y)为预测目标框的中心点坐标，w与h分别是预测目标框的宽与高。cls与obj均通过BCEWithLog_Loss损失函数进行处理。而reg主要是坐标信息通过CIOU损失函数进行训练。

步骤S205：将三个特征层分别对应的三个分支进行融合获得20×20×8、40×40×8及80×80×8。再进行Reshape操作整体Concat获得最终的输出预测模块204输出的特征向量是85×8400，其中8400为候选框的数量，8为每个候选框的信息即S33中的x、y、w、h、obj及包含三个类别数的cls；最后8400个预测框中，其中有400个框，所对应锚框的大小，为32×32，中间的分支，最后有1600个预测框，所对应锚框的大小，为16×16，最下面的分支，最后有6400个预测框，所对应锚框的大小，为8×8。

步骤S206：在8400个候选框中通过中心点及目标框进行初步筛选，将初步筛选出来的候选框通过正样本信息提取、cost成本计算及SimOTA求解三部分进行精细化筛选确定出最后的候选框。

其中，对正样本信息的提取，根据正样本锚点框（anchor）位置，可以将网络预测的候选框位置bboxes_preds、前景背景目标分数obj_preds、类别分数cls_preds等信息，提取出来。

然后计算对应的cost成本函数。将reg_loss和cls_loss进行加权相加计算cost成本函数：

。

SimOTA的求解过程如下：

（1）确定正样本的候选区域（使用中心先验），在中心尺度上，先选定每一个重心的区域作为候选区域）；

（2）计算每个样本对每个GT的Reg + Cls loss(loss aware)，计算候选区域的样本和GT之间的loss，作为loss aware的计算过程，得到Reg + Cls loss的结果；

（3）使用每个GT的预测样本确定它需要分配到的正样本数（Dynamic_k）中的k值等于多少，其中：获取于当前GT的IOU前10的样本；将这top10的样本的IOU求和取整，为当前GT的danamic_k，danamic_k，最小保证为1。

（4）舍去全局优化求解过程，只为每个GT取loss最小的前danamic_k个样本作为正样本；

（5）人工去掉同一个样本被分配到多个GT的正样本的情况（全局信息）。

在本实施例中，通过分支解耦结构对三个特征层进行分支解耦操作，增加模型收敛速度，通过Anchor Free的方式减少检测器的参数量。根据中心点、目标框初筛正样本信息提取，再进行cost成本计算及SimOTA求解对初步筛选出的候选框进行精细化筛选，筛选出和目标框所对应的候选框，对最后筛选出的候选框通过损失函数计算进行训练。

缺陷图像经过Focus模块进行切片操作后，通过一系列的卷积和注意力机制模块提升了模型的性能。随后通过SPP结构，将特征层变为同一大小并卷积后输送到PANet +FPN+ ASFF组合的结构中，通过上下文不同尺度特征的提取融合，注重更有效的特征。最后将得到的三个特征层通过分支解耦结构对精筛选出来的候选框通过损失函数进行训练，并且采用Anchor free的方式对检测结果进行预测。

在步骤S1022中，基于与所述训练样本对应的缺陷标注结果对所述半导体晶圆缺陷检测模型进行训练，其中，对所述半导体晶圆缺陷检测模型的训练包括对所述半导体晶圆缺陷检测模型的参数进行调整，在达到预设的模型训练终止条件时终止对所述半导体晶圆缺陷检测模型的训练。其中，基于前述训练样本对半导体晶圆缺陷检测模型进行训练，其中，加入了注意力机制模块、自适应特征融合模块以及加入注意力机制模块和自适应特征融合模块的网络，在模型训练的过程中，在训练达到预先设定的epoch时停止训练，完成对半导体晶圆缺陷检测模型的训练。在一个具体的实施例中，总训练的epoch设置为300，输入图像大小为640×640。

具体的，在半导体晶圆缺陷检测模型的训练的整个过程采用余弦退火(Cosine-annealing)的方法对模型学习率进行调整，使得前几个周期内的学习率较小，在较小的学习率的预热下模型将逐步趋于稳定，当模型较为稳定后便使用预先设置的学习率进行训练，这有利于加快模型的收敛速度，模型效果更佳。

进一步的，将训练后的权重放入模型中对验证机进行测试，并且评估模型的检测性能。具体的，获取验证样本集，所述验证样本集包括一个或多个验证样本，所述验证样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；通过所述验证样本集对所述半导体晶圆缺陷检测模型进行测试，获取模型测试结果，在所述模型测试结果满足预设条件的情况下，判定完成对所述半导体晶圆缺陷检测模型的训练；其中，所述预设条件包括精确率满足预设的精确率阈值、召回率满足预设的召回率阈值、平均精度满足预设的第一精度阈值和所有缺陷分类的平均精度满足预设的第二精度阈值中的一个或多个组合。

也就是说，将验证样本放入半导体晶圆缺陷检测模型中进行验证测试，通过精确率(Precision)、召回率(Recall)、平均精度AP、所有类型缺陷的平均精度mAP及权重大小等评判指标对半导体晶圆缺陷检测模型进行评估，在评估结果达到要求的情况下，判定完成对半导体晶圆缺陷检测模型的训练。

在一个具体的实施例中，对模型进行性能评估的评判指标的的计算公式可以如下：

其中，由于目前缺陷种类只考虑了一种，故不区分AP、mAP。TP表示正确检测出该缺陷数量，FP表示被错误检测出是缺陷的数量，FN表示是没有检测出是缺陷的数量，AP为平均精度，mAP为所有缺陷类型的平均精度。

在一个具体的实施例中，上述半导体晶圆缺陷检测模型的训练方法得到的模型的评判指标，相对于其他模型（例如YOLOX_s模型）有明显的性能提升，其中，上述半导体晶圆缺陷检测模型的训练方法得到的模型为YOLOX_s + CBAM + ASFF模型。具体结果比较请参见表1，其中，可以看到的是，相对于其他模型，述半导体晶圆缺陷检测模型的训练方法得到的模型YOLOX_s + CBAM + ASFF的精确率(Precision)、召回率(Recall)等均有明显的提升。

表1

在对半导体晶圆缺陷检测模型进行训练的过程中，需要计算训练样本的预测框与训练样本对应的标注框之间的损失值，在一个具体的实施例中，可以是根据预设的CIOU损失函数，计算预测框与标注框之间的损失值，其中，所述预测框为根据所述半导体晶圆缺陷检测模型获取的缺陷图像中的预测的图像区域，所述标注框为所述缺陷图像中包含的缺陷对应的图像区域的最小外接矩形，

具体计算公式如下：

其中，IoU表示联合边界框的交集，ρ (·)代表欧式距离，c表示两个边界框形成的最小矩形的对角线距离；α是权重函数，v是用于衡量长宽比的相似性，w、h和

分别表示预测框的高宽和真实框的高宽。

进一步的，请参见图4，给出了基于上述半导体晶圆缺陷检测模型的训练方法得到的半导体晶圆缺陷检测模型对半导体晶圆进行缺陷检测的半导体晶圆的缺陷检测方法。具体的，请参见图4，所述半导体晶圆的缺陷检测方法包括如图4所示的S301-S302：

步骤S301：获取待检测半导体晶圆的待检测图像；

步骤S302：将所述待检测图像输入所述半导体晶圆缺陷检测模型以进行特征提取和缺陷检测，获取所述半导体晶圆缺陷检测模型的输出结果，根据所述输出结果确定待检测图像对应的缺陷检测结果。

在通过上述半导体晶圆缺陷检测模型的训练方法完成对半导体晶圆缺陷检测模型的模型训练之后，即可进一步的基于该半导体晶圆缺陷检测模型完成对半导体晶圆的缺陷检测。其中，半导体晶圆的缺陷检测方法的实现可以是基于半导体晶圆的生产线，在半导体晶圆生产的各个工序以及检测工序中，可以对生产的半导体晶圆是否存在缺陷进行检测，以确定是否将当前工序的半导体晶圆输入到下一个工序中继续进行生产。

具体的，通过设置在生产线的相应的工序中的摄像装置，采集需要进行检测的待检测半导体晶圆的图像，这里即为对应的待检测图像。

然后将该待检测图像输入到上述已经完成模型训练的半导体晶圆缺陷检测模型，以对该待检测图像进行特征提取和缺陷检测，以获取半导体晶圆缺陷检测模型的输出结果，该输出结果即为通过该半导体晶圆缺陷检测模型对待检测半导体晶圆进行缺陷检测的缺陷检测结果。

在上述半导体晶圆缺陷检测模型的训练方法以及基于该方法训练得到的半导体晶圆缺陷检测模型对半导体晶圆进行缺陷检测的缺陷检测方法中，可以实现对半导体晶圆表面缺陷进行实时检测，通过卷积网络的前向传播与反向传播运算对优化型YOLOX模型的预测权重进行不断的迭代优化，使得模型的各个性能评价指标都达到了更好的效果，并且模型也可以实时检测出缺陷对应的类别及置信度等预测信息。

在另一个实施例中，如图5所示，给出了一种半导体晶圆缺陷检测模型的训练装置，包括：

训练样本获取单元101，用于获取训练样本集，所述训练样本集包括一个或多个训练样本，所述训练样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；

模型训练单元102，用于以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练，其中，所述半导体晶圆缺陷检测模型包括网络特征提取模块、特征加强模块和输出预测模块。

在一个可选的实施例中，训练样本获取单元101还用于获取包含缺陷的半导体晶圆的图像，对图像中包含的缺陷进行标注，获取标注的缺陷对应的图像区域的最小外接矩形作为所述半导体晶圆的缺陷图像。

在一个可选的实施例中，所述半导体晶圆缺陷检测模型还包括数据输入处理模块，其中，所述数据输入处理模块用于对输入所述半导体晶圆缺陷检测模型的缺陷图像进行预处理，所述预处理包括随机缩放、随机剪裁、随机排布和拼接中的一个或多个。

在一个可选的实施例中，模型训练单元102还用于将所述训练样本的缺陷图像输入所述半导体晶圆缺陷检测模型进行特征提取和缺陷预测，并基于与所述训练样本对应的缺陷标注结果对所述半导体晶圆缺陷检测模型进行训练，其中，对所述半导体晶圆缺陷检测模型的训练包括对所述半导体晶圆缺陷检测模型的参数进行调整，在达到预设的模型训练终止条件时终止对所述半导体晶圆缺陷检测模型的训练。

在一个可选的实施例中，所述网络特征提取模块包括Focus模块、至少1个深度可分离卷积模块（DWConv）、至少1个CSP1模块、至少1个注意力机制模块、至少1个SPP模块、至少1个CSP2模块；所述特征加强模块包括：CSP2模块与上采样组成的PAN与FPN模块、和自适应特征融合模块；所述输出预测模块包括分支解耦结构（Decoupled head)，所述分支解耦结构包括激活函数层和卷积层。

在一个可选的实施例中，模型训练单元102还用于将训练样本的缺陷图像输入所述Focus模块进行切片操作；将切片操作之后的结果输入所述CSP1模块和所述深度可分离卷积模块堆叠进行特征提取，其中，所述将切片操作之后的结果输入所述CSP1模块和所述深度可分离卷积模块堆叠进行特征提取的步骤中，通过注意力机制模块对特征提取进行加强；将提取到的特征输入所述SPP模块进行融合处理，以获取所述网络特征提取模块输出的特征；将所述网络特征提取模块输出的特征输入所述PAN与FPN模块进行处理，然后将处理之后的特征输入所述自适应特征融合模块对特征进行自适应融合处理，以获取所述特征加强模块输出的特征；将所述特征加强模块输出的特征输入所述分支解耦结构，通过所述激活函数对所述特征加强模块输出的特征进行激活处理，并通过卷积层进行卷积操作，以得到所述输出预测模块输出的预测结果，其中，所述预测结果包括与所述缺陷图像对应的预测框。

在一个可选的实施例中，模型训练单元102还用于根据预设的CIOU损失函数，计算预测框与标注框之间的损失值，其中，所述预测框为根据所述半导体晶圆缺陷检测模块获取的缺陷图像中的预测的图像区域，所述标注框为所述缺陷图像中包含的缺陷对应的图像区域的最小外接矩形；根据计算得到的损失值对所述半导体晶圆缺陷检测模型的模型参数进行调整。

在一个可选的实施例中，模型训练单元102还用于获取验证样本集，所述验证样本集包括一个或多个验证样本，所述验证样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；通过所述验证样本集对所述半导体晶圆缺陷检测模型进行测试，获取模型测试结果，在所述模型测试结果满足预设条件的情况下，判定完成对所述半导体晶圆缺陷检测模型的训练；其中，所述预设条件包括精确率满足预设的精确率阈值、召回率满足预设的召回率阈值、平均精度满足预设的第一精度阈值和所有缺陷分类的平均精度满足预设的第二精度阈值中的一个或多个组合。

进一步的，请参见图6，给出了基于上述半导体晶圆缺陷检测模型的训练装置得到的半导体晶圆缺陷检测模型对半导体晶圆进行缺陷检测的半导体晶圆的缺陷检测装置。具体的，请参见图6，所述半导体晶圆的缺陷检测装置包括：

检测图像获取单元103，用于获取待检测半导体晶圆的待检测图像；

缺陷检测单元104，用于将所述待检测图像输入所述半导体晶圆缺陷检测模型以进行特征提取和缺陷检测，获取所述半导体晶圆缺陷检测模型的输出结果，根据所述输出结果确定待检测图像对应的缺陷检测结果。

图7示出了一个实施例中实现上述半导体晶圆缺陷检测模型的训练方法的计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述方法。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种半导体晶圆缺陷检测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述方法还包括：

获取包含缺陷的半导体晶圆的图像，对图像中包含的缺陷进行标注，获取标注的缺陷对应的图像区域的最小外接矩形作为所述半导体晶圆的缺陷图像。

3.根据权利要求1所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述半导体晶圆缺陷检测模型还包括数据输入处理模块，其中，所述数据输入处理模块用于对输入所述半导体晶圆缺陷检测模型的缺陷图像进行预处理，所述预处理包括随机缩放、随机剪裁、随机排布和拼接中的一个或多个。

4.根据权利要求1所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练的步骤，还包括：

将所述训练样本的缺陷图像输入所述半导体晶圆缺陷检测模型进行特征提取和缺陷预测，并基于与所述训练样本对应的缺陷标注结果对所述半导体晶圆缺陷检测模型进行训练，其中，对所述半导体晶圆缺陷检测模型的训练包括对所述半导体晶圆缺陷检测模型的参数进行调整，在达到预设的模型训练终止条件时终止对所述半导体晶圆缺陷检测模型的训练。

5.根据权利要求4所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述网络特征提取模块包括Focus模块、至少1个深度可分离卷积模块（DWConv）、至少1个CSP1模块、至少1个注意力机制模块、至少1个SPP模块、至少1个CSP2模块；

所述特征加强模块包括：CSP2模块与上采样组成的PAN与FPN模块、和自适应特征融合模块；

所述输出预测模块包括分支解耦结构（Decoupled head)，所述分支解耦结构包括激活函数层和卷积层。

6.根据权利要求5所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述将所述训练样本的缺陷图像输入所述半导体晶圆缺陷检测模型进行特征提取和缺陷预测的步骤，还包括：

将训练样本的缺陷图像输入所述Focus模块进行切片操作；

将切片操作之后的结果输入所述CSP1模块和所述深度可分离卷积模块堆叠进行特征提取，其中，所述将切片操作之后的结果输入所述CSP1模块和所述深度可分离卷积模块堆叠进行特征提取的步骤中，通过注意力机制模块对特征提取进行加强；

将提取到的特征输入所述SPP模块进行融合处理，以获取所述网络特征提取模块输出的特征；

将所述网络特征提取模块输出的特征输入所述PAN与FPN模块进行处理，然后将处理之后的特征输入所述自适应特征融合模块对特征进行自适应融合处理，以获取所述特征加强模块输出的特征；

将所述特征加强模块输出的特征输入所述分支解耦结构，通过所述激活函数对所述特征加强模块输出的特征进行激活处理，并通过卷积层进行卷积操作，以得到所述输出预测模块输出的预测结果，其中，所述预测结果包括与所述缺陷图像对应的预测框。

7.根据权利要求6所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练的步骤，还包括：

根据预设的CIOU损失函数，计算预测框与标注框之间的损失值，其中，所述预测框为根据所述半导体晶圆缺陷检测模块获取的缺陷图像中的预测的图像区域，所述标注框为所述缺陷图像中包含的缺陷对应的图像区域的最小外接矩形；

根据计算得到的损失值对所述半导体晶圆缺陷检测模型的模型参数进行调整。

8.根据权利要求1所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述方法还包括：

获取验证样本集，所述验证样本集包括一个或多个验证样本，所述验证样本包括半导体晶圆的缺陷图像以及对应的缺陷标注结果，所述半导体晶圆的缺陷图像为包含缺陷的矩形图像；

通过所述验证样本集对所述半导体晶圆缺陷检测模型进行测试，获取模型测试结果，在所述模型测试结果满足预设条件的情况下，判定完成对所述半导体晶圆缺陷检测模型的训练；

其中，所述预设条件包括精确率满足预设的精确率阈值、召回率满足预设的召回率阈值、平均精度满足预设的第一精度阈值和所有缺陷分类的平均精度满足预设的第二精度阈值中的一个或多个组合。

9.根据权利要求1所述的半导体晶圆缺陷检测模型的训练方法，其特征在于，所述方法还包括：

获取待检测半导体晶圆的待检测图像；

将所述待检测图像输入所述半导体晶圆缺陷检测模型以进行特征提取和缺陷检测，获取所述半导体晶圆缺陷检测模型的输出结果，根据所述输出结果确定待检测图像对应的缺陷检测结果。

10.一种半导体晶圆缺陷检测模型的训练装置，其特征在于，所述装置包括：

模型训练单元，用于以所述训练样本的缺陷图像为输入，对应的缺陷标注结果为输出，对预设的半导体晶圆缺陷检测模型进行训练，其中，所述半导体晶圆缺陷检测模型包括网络特征提取模块、特征加强模块和输出预测模块；