CN117853876B - 一种晶圆缺陷检测模型的训练方法以及系统 - Google Patents
一种晶圆缺陷检测模型的训练方法以及系统 Download PDFInfo
- Publication number
- CN117853876B CN117853876B CN202410263821.8A CN202410263821A CN117853876B CN 117853876 B CN117853876 B CN 117853876B CN 202410263821 A CN202410263821 A CN 202410263821A CN 117853876 B CN117853876 B CN 117853876B
- Authority
- CN
- China
- Prior art keywords
- defect
- data set
- generate
- processing
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 474
- 238000001514 detection method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 120
- 238000005457 optimization Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims description 82
- 230000008569 process Effects 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000003708 edge detection Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 22
- 238000013135 deep learning Methods 0.000 description 7
- 230000002950 deficient Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/469—Contour-based spatial representations, e.g. vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30148—Semiconductor; IC; Wafer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Biodiversity & Conservation Biology (AREA)
- Testing Or Measuring Of Semiconductors Or The Like (AREA)
- Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
Abstract
本发明提供一种晶圆缺陷检测模型的训练方法,包括:获取有标签缺陷数据集和无标签缺陷数据集;对初始残差网络模型进行初始化处理,生成学生网络模型和教师网络模型;将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理,生成第一预测特征数据集;对所述有标签缺陷数据集和所述无标签缺陷数据集依次进行多任务有监督损失处理和多任务一致性损失处理,以分别生成有监督损失权重和一致性损失权重,以及根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。通过本发明公开的一种晶圆缺陷检测模型的训练方法以及系统,能够提升模型训练效率。
Description
技术领域
本发明涉及深度学习技术领域,特别是涉及一种晶圆缺陷检测模型的训练方法以及系统。
背景技术
晶圆缺陷检测是半导体制程中的关键一步,且随着深度学习技术的不断发展,利用深度学习模型对晶圆缺陷进行检测也逐渐成为大趋势。
然而,现有的晶圆缺陷检测模型在使用之前,需要对其输入大量有标注的晶圆缺陷数据,以完成对晶圆缺陷检测模型的训练,导致训练前的工作量大,降低了晶圆缺陷检测模型的训练效率,且当训练样本数量不够时,会降低晶圆缺陷检测模型的缺陷检测精度。因此,存在待改进之处。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种晶圆缺陷检测模型的训练方法以及系统,改善了晶圆缺陷检测模型训练效率低的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供一种晶圆缺陷检测模型的训练方法以及系统,包括:
获取训练样本集,所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集;
对初始残差网络模型进行初始化处理,生成多任务检测网络模型,其中,所述多任务检测网络模型包括学生网络模型和教师网络模型;
将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理,生成第一预测特征数据集;
对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重;
将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理,生成一致性损失权重;以及
根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
在本发明一实施例中,所述获取训练样本集,所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集的步骤包括:
获取无标签缺陷数据集;以及
对所述无标签缺陷数据集进行部分标签标注处理,生成有标签缺陷数据集,所述有标签缺陷数据集和所述无标签缺陷数据集构成训练样本集。
在本发明一实施例中,所述将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理,生成第一预测特征数据集的步骤包括:
将所述有标签缺陷数据集输入所述学生网络模型中进行特征提取处理,生成初始缺陷特征数据集,所述初始缺陷特征数据集包括浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集;
对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理,生成轮廓预测特征数据集;
对所述高层缺陷特征数据集进行像素距离预测处理,生成距离预测特征数据集;
将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中,生成分割预测特征数据集;以及
对所述轮廓预测特征数据集、所述距离预测特征数据集和所述分割预测特征数据集进行融合取均值处理,生成第一预测特征数据集。
在本发明一实施例中,所述对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理,生成轮廓预测特征数据集的步骤包括:
对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行采样处理,生成第一融合特征数据集;
对所述第一融合特征数据集进行单通道卷积处理,生成多个单通道特征数据;以及
对多个所述单通道特征数据进行激活函数处理,生成轮廓预测特征数据集。
在本发明一实施例中,所述将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中,生成分割预测特征数据集的步骤包括:
根据所述中层缺陷特征数据集对所述高层缺陷特征数据集进行多次上采样处理,生成第二融合特征数据集;
对所述第二融合特征数据集进行多通道卷积处理,生成多个多通道特征数据;以及
对多个所述多通道特征数据进行激活函数处理,生成分割预测特征数据集。
在本发明一实施例中,对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重的步骤包括:
对所述有标签缺陷数据集进行真值检测处理,生成有标签缺陷真值数据集,所述有标签缺陷真值数据集包括多个缺陷分割真值、多个缺陷轮廓真值和多个缺陷距离真值;以及
对所述有标签缺陷真值数据集和对应的所述第一预测特征数据集进行二值交叉损失函数处理,生成有监督损失权重。
在本发明一实施例中,所述对所述有标签缺陷数据集进行真值检测处理,生成有标签缺陷真值数据集的步骤包括:
对所述有标签缺陷数据集进行掩膜分割处理,生成分割掩膜数据集,并将分割掩膜数据定义为缺陷分割真值;
对所述分割掩膜数据集进行边缘检测处理,生成多个缺陷轮廓真值;以及
对所述分割掩膜数据集进行像素距离检测处理,生成多个缺陷距离真值。
在本发明一实施例中,所述将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理,生成一致性损失权重的步骤包括:
将所述无标签缺陷数据集输入所述教师网络模型中进行真值检测处理,生成无标签缺陷真值数据集;
将所述无标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理,生成第二预测特征数据集;以及
对所述无标签缺陷真值数据集和对应的所述第二预测特征数据集进行均方差处理,生成一致性损失权重。
在本发明一实施例中,所述根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型的步骤包括:
对所述有监督损失权重和所述一致性损失权重进行高斯优化处理,生成网络总损失权重;以及
根据所述网络总损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
本发明还提供一种晶圆缺陷检测模型的训练系统,所述系统包括:
数据获取模块,用以获取训练样本集,所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集;
模型初始化模块,用以对初始残差网络模型进行初始化处理,生成多任务检测网络模型,其中,所述多任务检测网络模型包括学生网络模型和教师网络模型;
特征预测模块,用以将所述有标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理,生成第一预测特征数据集;
有监督损失处理模块,用以对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重;
一致性损失处理模块,用以将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理,生成一致性损失权重;以及
迭代优化模块,用以根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
如上所述,本发明提供一种晶圆缺陷检测模型的训练方法以及系统,意想不到的技术效果是,能够实现使用少量有标签缺陷数据,完成对晶圆缺陷检测模型的高精度训练,进而提升模型训练效率,提高晶圆缺陷检测精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明的一种晶圆缺陷检测模型的训练方法的流程示意图;
图2显示为图1中步骤S210的流程示意图;
图3显示为图1中步骤S230的流程示意图;
图4显示为图3中步骤S232的流程示意图;
图5显示为图3中步骤S234的流程示意图;
图6显示为图1中步骤S240的流程示意图;
图7显示为图6中步骤S241的流程示意图;
图8显示为图1中步骤S250的流程示意图;
图9显示为图1中步骤S260的流程示意图;
图10显示为图1中部分流程示意图;
图11显示为本发明的一种晶圆缺陷检测模型的训练系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
首先需要说明的是,随着大数据时代的发展,深度学习技术的突飞猛进,越来越多的深度学习技术被应用于图像分割、目标检测、故障诊断等诸多领域。深度学习(DeepLearning,DL)是机器学习(Machine Learning,ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(Artificial Intelligence,AI)。 深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。其中,缺陷检测模型已经被广泛应用,然而其在半导体的缺陷检测领域还很缺乏,且现有的晶圆缺陷检测模型仅仅通过通过仿真结果和实际系统输出之间的残差来实现缺陷检测,导致对全局特征的表达能力有限,不能具有较好的自适应性和鲁棒性。在其它的应用场景中,针对对象的晶圆缺陷检测模型的训练方法可以应用于晶圆缺陷检测,然不限于此,也可以根据实际情况进行设置,本申请的实施例不对此进行限制。
请参阅图1,图1是本申请的一示例性实施例示出的晶圆缺陷检测模型的训练方法的流程示意图,应理解的是,该方法也可以适用于其他的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
如图1所示,在一示例性的实施例中,晶圆缺陷检测模型的训练方法至少包括步骤S210至步骤S260,详细介绍如下。
步骤S210、获取训练样本集,训练样本集包括有标签缺陷数据集和无标签缺陷数据集。
步骤S220、对初始残差网络模型进行初始化处理,生成多任务检测网络模型,其中,多任务检测网络模型包括学生网络模型和教师网络模型。
步骤S230、将有标签缺陷数据集输入学生网络模型中进行多任务特征预测处理,生成第一预测特征数据集。
步骤S240、对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重。
步骤S250、将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理,生成一致性损失权重。
步骤S260、根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
如图2所示,在一示例性的实施例中,当执行步骤S210时,即获取训练样本集,训练样本集包括有标签缺陷数据集和无标签缺陷数据集。具体的,步骤S210可以包括步骤S211至步骤S212,详细介绍如下。
步骤S211、获取无标签缺陷数据集。
步骤S212、对无标签缺陷数据集进行部分标签标注处理,生成有标签缺陷数据集,有标签缺陷数据集和无标签缺陷数据集构成训练样本集。
在一示例性的实施例中,当执行步骤S210时,具体的,无标签缺陷数据集可以包括大量的晶圆缺陷数据信息。例如,无标签缺陷数据集可以包括但不限于5000组晶圆缺陷数据。对无标签缺陷数据集进行部分标签标注处理指的是对无标签缺陷数据集中的部分缺陷数据集进行标签标注处理,以获得部分带有标签的有标签缺陷数据集。其中,可以使用数据标注工具(Label Studio)对无标签缺陷数据集进行标签标注。然不限于此,也可以使用其他标注工具对无标签缺陷数据集进行标注,只要能够获得部分带有标签的有标签缺陷数据集即可。此外,有标签缺陷数据集和无标签缺陷数据集的比例可以为1:2,也可以为1:3,还可以为1:4。然不限于此,也可以为其他比例。例如,标签缺陷数据集和无标签缺陷数据集的比例可以为1:3。训练样本集中的样本数据大小可以为3×480×480像素,也可以为其他像素。
如图1所示,在一示例性的实施例中,当执行步骤S220时,即对初始残差网络模型进行初始化处理,生成多任务检测网络模型,其中,多任务检测网络模型包括学生网络模型和教师网络模型。具体的,初始残差网络模型可以为ResNet-101,然不限于此,初始残差网络模型也可以为其他卷积神经网络。教师网络模型通常是一个大型的、经过预训练的深度学习模型,它被用来作为学生网络的指导者和评估者。教师网络模型具有更复杂的结构和更丰富的特征提取能力,可以更好地捕捉输入数据的内在特征和规律。学生网络模型是一个相对较小、更轻量级的多任务检测网络模型,它的目标是在减少计算资源需求和提高推理速度的同时,尽可能地接近教师网络的性能。学生网络模型被训练来模仿教师网络的行为或预测,从而在相似的输入下产生相似的输出。在训练过程中,学生网络模型会不断地调整自己的参数,以最小化与教师网络模型在相同输入下的预测误差。通过这种方式,学生网络模型可以逐渐提高自己的性能,并逐渐接近教师网络模型的性能,且教师网络模型中的权重参数可以通过学生网络模型中的权重参数进行加权平均处理获取。
如图3所示,在一示例性的实施例中,当执行步骤S230时,即将有标签缺陷数据集输入学生网络模型中进行多任务特征预测处理,生成第一预测特征数据集。具体的,步骤S230可以包括步骤S231至步骤S235,详细介绍如下。
步骤S231、将有标签缺陷数据集输入学生网络模型中进行特征提取处理,生成初始缺陷特征数据集,初始缺陷特征数据集包括浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集。
步骤S232、对浅层缺陷特征数据集和高层缺陷特征数据集进行特征融合处理,生成轮廓预测特征数据集。
步骤S233、对高层缺陷特征数据集进行像素距离预测处理,生成距离预测特征数据集。
步骤S234、将高层缺陷特征数据集融合进入对应的中层缺陷特征数据集中,生成分割预测特征数据集。
步骤S235、对轮廓预测特征数据集、距离预测特征数据集和分割预测特征数据集进行融合取均值处理,生成第一预测特征数据集。
在一示例性的实施例中,可以通过学生网络模型对有标签缺陷数据集进行特征提取处理,以获得初始缺陷特征数据集。初始缺陷特征数据集包含晶圆的缺陷特征信息。其中,初始缺陷特征数据集可以包括但不限于浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集。浅层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息,中层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息和部分语义信息,高层缺陷特征数据集包含了晶圆缺陷区域中的全面的语义数据信息。浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例可以为1:3:1,也可以为1:4:1,然不限于此,也可以为其他数据比例。例如,在本实施例中,初始缺陷特征数据集中可以包括一组浅层缺陷特征数据集、三组中层缺陷特征数据集以及一组高层缺陷特征数据集。当浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例为1:3:1时,浅层缺陷特征数据集中的浅层缺陷特征可以定义为Res-1,中层缺陷特征数据集中的三组中层缺陷特征可以分别定义为Res-2、Res-3、Res-4,高层缺陷特征数据集中的高层缺陷特征可以定义为Res-5。进一步地,Res-1的尺寸可以为32×240×240像素,且浅层缺陷特征可以用于缺陷轮廓检测。Res-2的尺寸可以为64×120×120像素,Res-3的尺寸可以为64×60×60像素,Res-4的尺寸可以为64×60×60像素,且Res-2、Res-3、Res-4等中层缺陷特征可以用于缺陷分割检测。高层缺陷特征Res-5的尺寸可以为64×15×15像素,以用于缺陷距离检测。
如图4所示,在一示例性的实施例中,当执行步骤S232时,即对浅层缺陷特征数据集和高层缺陷特征数据集进行特征融合处理,生成轮廓预测特征数据集。具体的,步骤S232可以包括步骤S331至步骤S333,详细介绍如下。
步骤S331、对浅层缺陷特征数据集和高层缺陷特征数据集进行采样处理,生成第一融合特征数据集。
步骤S332、对第一融合特征数据集进行单通道卷积处理,生成多个单通道特征数据。
步骤S333、对多个单通道特征数据进行激活函数处理,生成轮廓预测特征数据集。
在一示例性的实施例中,当执行步骤S331时,对浅层缺陷特征数据集和高层缺陷特征数据集进行采样处理指的是使用上采样操作将高层缺陷特征数据集的特征图恢复到浅层缺陷特征数据集相同的大小,以获得中间高层缺陷特征数据集。然后将中间高层缺陷特征数据集与浅层缺陷特征数据集的特征图进行逐元素相加,以生成第一融合特征数据集。
在一示例性的实施例中,当执行步骤S332时,对第一融合特征数据集进行单通道卷积处理,生成多个单通道特征数据是指将第一融合特征数据集输入到一个1x1卷积层中,以获得一个与初始缺陷特征数据集中的缺陷特征数据大小相同的特征图。然后, 1x1的卷积层将输出通道数降到1,以获得单通道特征数据。
在一示例性的实施例中,当执行步骤S333时,对多个单通道特征数据进行激活函数处理,生成轮廓预测特征数据集是指使用激活函数(sigmoid)将单通道特征图的像素值映射到[0,1]的范围内,以获得轮廓信息的预测值。其中,可以将sigmoid函数在[0,1]之间的输出值,定义为轮廓信息的概率值。再判断轮廓信息的概率值是否大于或等于预设阈值,若概率值大于或等于预设阈值,则该轮廓信息为轮廓预测特征数据,且可以将轮廓预测特征数据定义为F1,若概率值小于预设阈值,则舍弃该轮廓信息。具体的,轮廓预测特征数据F1可以满足如下公式,
,
其中,F1可以表示为轮廓预测特征数据,Res-1可以表示为浅层缺陷特征, Res-5可以表示为高层缺陷特征,up表示为上采样操作,Conv1×1可以表示为1×1卷积层。
如图3所示,在一示例性的实施例中,当执行步骤S233时,即对高层缺陷特征数据集进行像素距离预测处理,生成距离预测特征数据集。具体的,为了简化网络设计,第五层的高层缺陷特征数据可以直接用于预测像素距离信息。例如,使用一个1x1的卷积层来将高层缺陷特征数据集中的特征图降维到单通道,然后使用上采样操作将其尺寸恢复到与高层缺陷特征数据的尺寸相同,以生成距离预测特征数据集。
如图5所示,在一示例性的实施例中,当执行步骤S234时,即将高层缺陷特征数据集融合进入对应的中层缺陷特征数据集中,生成分割预测特征数据集。具体的,步骤S234可以包括步骤S341至步骤S343,详细介绍如下。
步骤S341、根据中层缺陷特征数据集对高层缺陷特征数据集进行多次上采样处理,生成第二融合特征数据集。
步骤S342、对第二融合特征数据集进行多通道卷积处理,生成多个多通道特征数据。
步骤S343、对多个多通道特征数据进行激活函数处理,生成分割预测特征数据集。
在一示例性的实施例中,当执行步骤S341时,根据中层缺陷特征数据集对高层缺陷特征数据集进行多次上采样处理,生成第二融合特征数据集是指使用上采样操作将高层缺陷特征数据集的特征图恢复到与中层缺陷特征数据Res-4中的特征图相同的大小。然后将其与Res-4的特征图进行逐元素相加,得到融合后的第一特征数据,且可以将融合后的第一特征数据定义为F2。随后,再使用上采样操作将F2恢复到与中层缺陷特征数据Res-3相同的大小,然后将其与Res-3进行逐元素相加,得到融合后的第二特征数据,且可以将第二特征数据定义为F3。再然后,可以继续使用上采样操作将F3恢复到与中层缺陷特征数据Res-2相同的大小,然后将其与中层缺陷特征数据Res-2进行逐元素相加,得到融合后的第三特征数据,且可以将第三特征数据定义为F4。至此,就得到了一个包含Res-2、Res-3和Res-4的特征的第三特征数据F4,且可以将第三特征数据F4定义为第二融合特征数据集,用于缺陷区域的分割。
在一示例性的实施例中,当执行步骤S342时,对第二融合特征数据集进行多通道卷积处理,生成多个多通道特征数据。具体的,可以将第二融合特征数据集中的特征图输入到一个卷积层中,以获得一个与第二融合特征数据大小相同的特征图。再使用三个3x3的卷积层和一个1x1的卷积层对该特征图进行处理,以获得多个多通道特征数据。其中,第一个通道可以表示缺陷区域的概率值,第二个通道可以表示非缺陷区域的概率值。
在一示例性的实施例中,当执行步骤S343时,对多通道特征数据进行激活函数处理,生成分割预测特征数据集。具体的,可以使用激活函数(sigmoid)将多通道特征数据的像素值映射到[0,1]的范围内,以获得缺陷区域的概率数据,且可以将激活函数在[0,1]之间的输出值定义为缺陷区域的概率值。随后再基于概率值与预设阈值的比较结果,以生成分割预测特征数据。其中,若概率值大于或等于预设阈值,则将该缺陷区域中的像素设置为1,其余像素设置为0,以获得分割预测特征数据,且可以将分割预测特征数据定义为SFj,多个分割预测特征数据可以组成分割预测特征数据集。进一步地,当使用激活函数(sigmoid)将多通道特征数据的像素值映射到[0,1]的范围内时,可以满足如下公式,
sigmoid(x) = 1 / (1 + exp(-x)),
其中,x可以表示为输入的多通道特征数据的像素值。
如图6所示,在一示例性的实施例中,当执行步骤S240时,即对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重。具体的,步骤S240可以包括步骤S241至步骤S242,详细介绍如下。
步骤S241、对有标签缺陷数据集进行真值检测处理,生成有标签缺陷真值数据集,有标签缺陷真值数据集包括多个缺陷分割真值、多个缺陷轮廓真值和多个缺陷距离真值。
步骤S242、对有标签缺陷真值数据集和对应的第一预测特征数据集进行二值交叉损失函数处理,生成有监督损失权重。
如图7所示,在一示例性的实施例中,当执行步骤S241时,具体的,步骤S241可以包括步骤S351至步骤S353,详细介绍如下。
步骤S351、对有标签缺陷数据集进行掩膜分割处理,生成分割掩膜数据集,并将分割掩膜数据定义为缺陷分割真值。
步骤S352、对分割掩膜数据集进行边缘检测处理,生成多个缺陷轮廓真值。
步骤S353、对分割掩膜数据集进行像素距离检测处理,生成多个缺陷距离真值。
如图1和图7所示,在一示例性的实施例中,具体的,可以将缺陷分割真值定义为Gs,将缺陷轮廓真值定义为Gc。此外,还可以通过对分割掩膜中的每个像素点与该像素点最近的背景像素点进行像素距离检测,以生成缺陷距离真值,且可以将缺陷距离真值定义为Gd。
如图1和图6所示,在一示例性的实施例中,当执行步骤S242时,对有标签缺陷真值数据集和对应的第一预测特征数据集进行二值交叉损失函数处理,生成有监督损失权重。具体的,可以通过对缺陷分割真值和分割预测特征数据进行二值交叉损失函数处理,生成第一缺陷分割损失权重。通过对缺陷轮廓真值和轮廓预测特征数据进行二值交叉损失函数处理,生成第一缺陷轮廓损失权重。通过对缺陷距离真值和距离预测特征数据进行二值交叉损失函数处理,生成第一缺陷距离损失权重。再根据权重系数对第一缺陷分割损失权重、第一缺陷轮廓损失权重以及第一缺陷距离损失权重进行优化求和处理,生成有监督损失权重。第一缺陷分割损失权重、第一缺陷轮廓损失权重以及第一缺陷距离损失权重分别满足如下公式,
,
其中,可以表示为第i个分割预测特征数据,Gs可以表示为缺陷分割真值,可以表示为二值交叉损失函数,/>可以表示为第一缺陷分割损失权重,Pc可以表示为轮廓预测特征数据,Gc可以表示为缺陷轮廓真值,/>可以表示为第一缺陷轮廓损失权重,Pd可以表示为距离预测特征数据,Gd可以表示为缺陷距离真值,/>可以表示为第一缺陷距离损失权重。
此外,根据权重系数对第一缺陷分割损失权重、第一缺陷轮廓损失权重以及第一缺陷距离损失权重进行优化求和处理,生成有监督损失权重可以满足如下公式,
,
其中,可以表示为第一缺陷分割损失权重,/>可以表示为第一缺陷轮廓损失权重,/>可以表示为第一缺陷距离损失权重,/>可以表示为有监督损失权重,α可以表示为轮廓损失权重系数,且α=10,β可以表示为距离损失权重系数,且β=10。
如图8所示,在一示例性的实施例中,当执行步骤S250时,即将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理,生成一致性损失权重。具体的,步骤S250可以包括步骤S251至步骤S253,详细介绍如下。
步骤S251、将无标签缺陷数据集输入教师网络模型中进行真值检测处理,生成无标签缺陷真值数据集。
步骤S252、将无标签缺陷数据集输入学生网络模型中进行多任务特征预测处理,生成第二预测特征数据集。
步骤S253、对无标签缺陷真值数据集和对应的第二预测特征数据集进行均方差处理,生成一致性损失权重。
在一示例性的实施例中,无标签缺陷真值数据集可以包括但不限于无标签缺陷分割真值、无标签缺陷轮廓真值以及无标签缺陷距离真值,且可以分别定义无标签缺陷分割真值为Ts,无标签缺陷轮廓真值为Tc,无标签缺陷距离真值为Td。第二预测特征数据集可以包括但不限于无标签缺陷分割预测特征数据集、无标签缺陷轮廓预测特征数据集以及无标签缺陷距离预测特征数据集。其中,可以将无标签缺陷分割预测特征数据定义为Ss,可以将无标签缺陷轮廓预测特征数据定义为Sc,可以将无标签缺陷距离预测特征数据定义为Sd。此外,可以通过对无标签缺陷分割真值和无标签缺陷分割预测特征数据进行均方差处理,生成第二缺陷分割损失权重。可以通过对无标签缺陷轮廓真值和无标签缺陷轮廓预测特征数据进行均方差处理,生成第二缺陷轮廓损失权重。可以通过对无标签缺陷距离真值和无标签缺陷距离预测特征数据进行均方差处理,生成第二缺陷距离损失权重。第二缺陷分割损失权重、第二缺陷轮廓损失权重以及第二缺陷距离损失权重可以满足如下公式,
,
其中,可以表示为第j个无标签缺陷分割预测特征数据,/>可以表示为第j个无标签缺陷分割真值,/>可以表示为均方差函数,/>可以表示为第二缺陷分割损失权重,Sc可以表示为无标签缺陷轮廓预测特征数据,Tc可以表示为无标签缺陷轮廓真值,/>可以表示为第二缺陷轮廓损失权重,Sd可以表示为无标签缺陷距离预测特征数据,Td可以表示为无标签缺陷距离真值,/>可以表示为第二缺陷距离损失权重。
进一步地,还可以对第二缺陷分割损失权重、第二缺陷轮廓损失权重以及第二缺陷距离损失权重进行优化求和处理,以生成一致性损失权重。优化求和处理满足如下公式,
,
其中,可以表示为第二缺陷分割损失权重,/>可以表示为第二缺陷轮廓损失权重,/>可以表示为第二缺陷距离损失权重,β可以表示为距离损失权重系数,且β=10,Lc(y)可以表示为一致性损失权重。
如图9所示,在一示例性的实施例中,当执行步骤S260时,即根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。具体的,步骤S260可以包括步骤S261至步骤S262,详细介绍如下。
步骤S261、对有监督损失权重和一致性损失权重进行高斯优化处理,生成网络总损失权重。
步骤S262、根据网络总损失权重对学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
在一示例性的实施例中,对有监督损失权重和一致性损失权重进行高斯优化处理可以满足如下公式,
,
其中,可以表示为第i个有标签缺陷数据的有监督损失权重,/>可以表示为第i个无标签缺陷数据的一致性损失权重,M可以表示为训练样本集中有标签缺陷数据的数量,N可以表示为训练样本集中无标签缺陷数据的数量,/>可以表示为权重优化系数,用以平衡有监督损失权重和一致性损失权重,且/>最大值为10,/>可以表示为网络总损失权重。
此外,可以满足如下公式,
,
其中,t可以表示为当前的训练迭代次数,tmax可以表示为最大训练迭代次数,可以表示为/>的最大值。
图10是本申请的一示例性实施例示出的晶圆缺陷检测模型的训练系统的示意图。该系统可以适用于其它的示例性实施环境,并具体配置在其它设备中,本实施例不对该系统所适用的实施环境进行限制。
晶圆缺陷检测模型的训练系统可以包括但不限于数据获取模块410、模型初始化模块420、特征预测模块430、有监督损失处理模块440、一致性损失处理模块450以及迭代优化模块460。
在一示例性的实施例中,数据获取模块410可用以获取训练样本集,训练样本集包括有标签缺陷数据集和无标签缺陷数据集。其中,无标签缺陷数据集可以包括大量的晶圆缺陷数据信息。例如,无标签缺陷数据集可以包括但不限于5000组晶圆缺陷数据。对无标签缺陷数据集进行部分标签标注处理指的是对无标签缺陷数据集中的部分缺陷数据集进行标签标注处理,以获得部分带有标签的有标签缺陷数据集。其中,可以使用数据标注工具(Label Studio)对无标签缺陷数据集进行标签标注,然不限于此,也可以使用其他标注工具对无标签缺陷数据集进行标注,只要能够获得部分带有标签的有标签缺陷数据集即可。此外,有标签缺陷数据集和无标签缺陷数据集的比例可以为1:2,也可以为1:3,还可以为1:4,然不限于此,也可以为其他比例。例如,标签缺陷数据集和无标签缺陷数据集的比例可以为1:3。
在一示例性的实施例中,模型初始化模块420可用以对初始残差网络模型进行初始化处理,生成多任务检测网络模型,其中,多任务检测网络模型包括学生网络模型和教师网络模型。具体的,初始残差网络模型可以为ResNet-101,然不限于此,初始残差网络模型也可以为其他卷积神经网络。教师网络模型通常是一个大型的、经过预训练的深度学习模型,它被用来作为学生网络的指导者和评估者。教师网络模型具有更复杂的结构和更丰富的特征提取能力,可以更好地捕捉输入数据的内在特征和规律。学生网络模型是一个相对较小、更轻量级的多任务检测网络模型,它的目标是在减少计算资源需求和提高推理速度的同时,尽可能地接近教师网络的性能。学生网络模型被训练来模仿教师网络的行为或预测,从而在相似的输入下产生相似的输出。在训练过程中,学生网络模型会不断地调整自己的参数,以最小化与教师网络模型在相同输入下的预测误差。通过这种方式,学生网络模型可以逐渐提高自己的性能,并逐渐接近教师网络模型的性能。
在一示例性的实施例中,特征预测模块430可用以将有标签缺陷数据集输入学生网络模型中进行多任务特征预测处理,生成第一预测特征数据集。具体的,可以通过学生网络模型对有标签缺陷数据集进行特征提取处理,以获得初始缺陷特征数据集。初始缺陷特征数据集包含晶圆的缺陷特征信息。其中,初始缺陷特征数据集可以包括但不限于浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集。浅层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息,中层缺陷特征数据集包含了晶圆缺陷区域中的轮廓数据信息和部分语义信息,高层缺陷特征数据集包含了晶圆缺陷区域中的全面的语义数据信息。浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例可以为1:3:1,也可以为1:4:1,然不限于此,也可以为其他数据比例。例如,在本实施例中,初始缺陷特征数据集中可以包括一组浅层缺陷特征数据集、三组中层缺陷特征数据集以及一组高层缺陷特征数据集。当浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集的比例为1:3:1时,浅层缺陷特征数据集中的浅层缺陷特征可以定义为Res-1,中层缺陷特征数据集中的三组中层缺陷特征可以分别定义为Res-2、Res-3、Res-4,高层缺陷特征数据集中的高层缺陷特征可以定义为Res-5。进一步地,浅层缺陷特征可以用于缺陷轮廓检测,中层缺陷特征可以用于缺陷分割检测,高层缺陷特征可以用于缺陷距离检测。
在一示例性的实施例中,有监督损失处理模块440可用以对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重。具体的,对有标签缺陷数据集和第一预测特征数据集进行多任务有监督损失处理可以包括对有标签缺陷数据集进行真值检测处理,生成有标签缺陷真值数据集。有标签缺陷真值数据集包括多个缺陷分割真值、多个缺陷轮廓真值和多个缺陷距离真值。还包括对有标签缺陷真值数据集和对应的第一预测特征数据集进行二值交叉损失函数处理,生成有监督损失权重。其中,对有标签缺陷数据集进行真值检测处理,生成有标签缺陷真值数据集可以包括对有标签缺陷数据集进行掩膜分割处理,生成分割掩膜数据集,并将分割掩膜数据定义为缺陷分割真值。还包括对分割掩膜数据集进行边缘检测处理,生成多个缺陷轮廓真值,对分割掩膜数据集进行像素距离检测处理,生成多个缺陷距离真值。此外,可以将缺陷分割真值定义为Gs,将缺陷轮廓真值定义为Gc。还可以通过对分割掩膜中的每个像素点与该像素点最近的背景像素点进行像素距离检测,以生成缺陷距离真值,且可以将缺陷距离真值定义为Gd。
在一示例性的实施例中,一致性损失处理模块450可用以将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理,生成一致性损失权重。具体的,将无标签缺陷数据集分别输入教师网络模型和学生网络模型中进行多任务一致性损失处理可以包括将无标签缺陷数据集输入教师网络模型中进行真值检测处理,生成无标签缺陷真值数据集。还包括将无标签缺陷数据集输入学生网络模型中进行多任务特征预测处理,生成第二预测特征数据集,对无标签缺陷真值数据集和对应的第二预测特征数据集进行均方差处理,生成一致性损失权重。其中,无标签缺陷真值数据集可以包括但不限于无标签缺陷分割真值、无标签缺陷轮廓真值以及无标签缺陷距离真值,且可以分别定义无标签缺陷分割真值为Ts,无标签缺陷轮廓真值为Tc,无标签缺陷距离真值为Td。第二预测特征数据集可以包括但不限于无标签缺陷分割预测特征数据集、无标签缺陷轮廓预测特征数据集以及无标签缺陷距离预测特征数据集。此外,可以将无标签缺陷分割预测特征数据定义为Ss,可以将无标签缺陷轮廓预测特征数据定义为Sc,可以将无标签缺陷距离预测特征数据定义为Sd。此外,可以通过对无标签缺陷分割真值和无标签缺陷分割预测特征数据进行均方差处理,生成第二缺陷分割损失权重。可以通过对无标签缺陷轮廓真值和无标签缺陷轮廓预测特征数据进行均方差处理,生成第二缺陷轮廓损失权重。可以通过对无标签缺陷距离真值和无标签缺陷距离预测特征数据进行均方差处理,生成第二缺陷距离损失权重。
在一示例性的实施例中,迭代优化模块460可用以根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。具体的,根据有监督损失权重和一致性损失权重对学生网络模型进行迭代优化处理可以包括对有监督损失权重和一致性损失权重进行高斯优化处理,生成网络总损失权重,还包括根据网络总损失权重对学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
需要说明的是,上述实施例所提供的晶圆缺陷检测模型的训练系统与上述实施例所提供的晶圆缺陷检测模型的训练方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的晶圆缺陷检测模型的训练系统在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
综上所述,通过本发明提供的一种晶圆缺陷检测模型的训练方法以及系统,意想不到的技术效果是,可以通过设置学生网络模型,并将训练样本集分别输入学生网络模型中进行训练,以获得有监督损失权重和一致性损失权重,并利用有监督损失权重和一致性损失权重对学生网络模型进行迭代优化,以获得目标晶圆缺陷检测模型,从而实现使用少量有标签缺陷数据,完成对高精度的晶圆缺陷检测模型的训练,进而提升模型训练效率,提高晶圆缺陷检测精度。所以,本发明因有效克服了现有技术中的种种缺点而具高度产业利用价值。
在本说明书的描述中,参考术语“本实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明实施例只是用于帮助阐述本发明。实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (9)
1.一种晶圆缺陷检测模型的训练方法,其特征在于,所述训练方法包括:
获取训练样本集,所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集;
对初始残差网络模型进行初始化处理,生成多任务检测网络模型,其中,所述多任务检测网络模型包括学生网络模型和教师网络模型;
将所述有标签缺陷数据集输入所述学生网络模型中进行特征提取处理,生成初始缺陷特征数据集,所述初始缺陷特征数据集包括浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集;
对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理,生成轮廓预测特征数据集;
对所述高层缺陷特征数据集进行像素距离预测处理,生成距离预测特征数据集;
将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中,生成分割预测特征数据集;
对所述轮廓预测特征数据集、所述距离预测特征数据集和所述分割预测特征数据集进行融合取均值处理,生成第一预测特征数据集;
对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重;
将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理,生成一致性损失权重;以及
根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
2.根据权利要求1所述的晶圆缺陷检测模型的训练方法,其特征在于,所述获取训练样本集,所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集的步骤包括:
获取无标签缺陷数据集;以及
对所述无标签缺陷数据集进行部分标签标注处理,生成有标签缺陷数据集,所述有标签缺陷数据集和所述无标签缺陷数据集构成训练样本集。
3.根据权利要求1所述的晶圆缺陷检测模型的训练方法,其特征在于,所述对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理,生成轮廓预测特征数据集的步骤包括:
对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行采样处理,生成第一融合特征数据集;
对所述第一融合特征数据集进行单通道卷积处理,生成多个单通道特征数据;以及
对多个所述单通道特征数据进行激活函数处理,生成轮廓预测特征数据集。
4.根据权利要求1所述的晶圆缺陷检测模型的训练方法,其特征在于,所述将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中,生成分割预测特征数据集的步骤包括:
根据所述中层缺陷特征数据集对所述高层缺陷特征数据集进行多次上采样处理,生成第二融合特征数据集;
对所述第二融合特征数据集进行多通道卷积处理,生成多个多通道特征数据;以及
对多个所述多通道特征数据进行激活函数处理,生成分割预测特征数据集。
5.根据权利要求1所述的晶圆缺陷检测模型的训练方法,其特征在于,对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重的步骤包括:
对所述有标签缺陷数据集进行真值检测处理,生成有标签缺陷真值数据集,所述有标签缺陷真值数据集包括多个缺陷分割真值、多个缺陷轮廓真值和多个缺陷距离真值;以及
对所述有标签缺陷真值数据集和对应的所述第一预测特征数据集进行二值交叉损失函数处理,生成有监督损失权重。
6.根据权利要求5所述的晶圆缺陷检测模型的训练方法,其特征在于,所述对所述有标签缺陷数据集进行真值检测处理,生成有标签缺陷真值数据集的步骤包括:
对所述有标签缺陷数据集进行掩膜分割处理,生成分割掩膜数据集,并将分割掩膜数据定义为缺陷分割真值;
对所述分割掩膜数据集进行边缘检测处理,生成多个缺陷轮廓真值;以及
对所述分割掩膜数据集进行像素距离检测处理,生成多个缺陷距离真值。
7.根据权利要求1所述的晶圆缺陷检测模型的训练方法,其特征在于,所述将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理,生成一致性损失权重的步骤包括:
将所述无标签缺陷数据集输入所述教师网络模型中进行真值检测处理,生成无标签缺陷真值数据集;
将所述无标签缺陷数据集输入所述学生网络模型中进行多任务特征预测处理,生成第二预测特征数据集;以及
对所述无标签缺陷真值数据集和对应的所述第二预测特征数据集进行均方差处理,生成一致性损失权重。
8.根据权利要求1所述的晶圆缺陷检测模型的训练方法,其特征在于,所述根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型的步骤包括:
对所述有监督损失权重和所述一致性损失权重进行高斯优化处理,生成网络总损失权重;以及
根据所述网络总损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
9.一种晶圆缺陷检测模型的训练系统,其特征在于,所述系统包括:
数据获取模块,用以获取训练样本集,所述训练样本集包括有标签缺陷数据集和无标签缺陷数据集;
模型初始化模块,用以对初始残差网络模型进行初始化处理,生成多任务检测网络模型,其中,所述多任务检测网络模型包括学生网络模型和教师网络模型;
特征预测模块,用以将所述有标签缺陷数据集输入所述学生网络模型中进行特征提取处理,生成初始缺陷特征数据集,所述初始缺陷特征数据集包括浅层缺陷特征数据集、中层缺陷特征数据集和高层缺陷特征数据集,用以对所述浅层缺陷特征数据集和所述高层缺陷特征数据集进行特征融合处理,生成轮廓预测特征数据集,用以对所述高层缺陷特征数据集进行像素距离预测处理,生成距离预测特征数据集,用以将所述高层缺陷特征数据集融合进入对应的所述中层缺陷特征数据集中,生成分割预测特征数据集,用以对所述轮廓预测特征数据集、所述距离预测特征数据集和所述分割预测特征数据集进行融合取均值处理,生成第一预测特征数据集;
有监督损失处理模块,用以对所述有标签缺陷数据集和所述第一预测特征数据集进行多任务有监督损失处理,生成有监督损失权重;
一致性损失处理模块,用以将所述无标签缺陷数据集分别输入所述教师网络模型和所述学生网络模型中进行多任务一致性损失处理,生成一致性损失权重;以及
迭代优化模块,用以根据所述有监督损失权重和所述一致性损失权重对所述学生网络模型进行迭代优化处理,生成目标晶圆缺陷检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410263821.8A CN117853876B (zh) | 2024-03-08 | 2024-03-08 | 一种晶圆缺陷检测模型的训练方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410263821.8A CN117853876B (zh) | 2024-03-08 | 2024-03-08 | 一种晶圆缺陷检测模型的训练方法以及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117853876A CN117853876A (zh) | 2024-04-09 |
CN117853876B true CN117853876B (zh) | 2024-06-11 |
Family
ID=90536584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410263821.8A Active CN117853876B (zh) | 2024-03-08 | 2024-03-08 | 一种晶圆缺陷检测模型的训练方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117853876B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920096A (zh) * | 2021-10-14 | 2022-01-11 | 广东工业大学 | 一种集成电路金属封装缺陷检测方法 |
DE102020123979A1 (de) * | 2020-09-15 | 2022-03-17 | Carl Zeiss Smt Gmbh | Defekterkennung für Halbleiterstrukturen auf einem Wafer |
CN114299034A (zh) * | 2021-12-30 | 2022-04-08 | 杭州海康威视数字技术股份有限公司 | 一种缺陷检测模型的训练方法、缺陷检测方法及装置 |
CN114820580A (zh) * | 2022-05-26 | 2022-07-29 | 扬州大学 | 基于并行注意力补偿机制的fpn晶圆表面缺陷检测方法 |
CN115239638A (zh) * | 2022-06-28 | 2022-10-25 | 厦门微图软件科技有限公司 | 一种工业缺陷检测方法、装置、设备及可读存储介质 |
CN115360116A (zh) * | 2022-10-21 | 2022-11-18 | 合肥晶合集成电路股份有限公司 | 一种晶圆的缺陷检测方法及系统 |
CN115423796A (zh) * | 2022-09-22 | 2022-12-02 | 重庆邮电大学 | 一种基于TensorRT加速推理的芯片缺陷检测方法及系统 |
CN115631178A (zh) * | 2022-11-03 | 2023-01-20 | 昆山润石智能科技有限公司 | 自动晶圆缺陷检测方法、系统、设备及存储介质 |
CN116228637A (zh) * | 2022-12-13 | 2023-06-06 | 厦门大学 | 基于多任务多尺寸网络的电子元器件缺陷识别方法及装置 |
CN116363447A (zh) * | 2022-12-29 | 2023-06-30 | 上海精测半导体技术有限公司 | 晶圆缺陷检测方法、缺陷检测模型训练方法及装置 |
CN116579985A (zh) * | 2023-04-10 | 2023-08-11 | 常州大学 | 一种基于RefineDet模型的晶圆缺陷检测方法 |
CN116863274A (zh) * | 2023-07-17 | 2023-10-10 | 燕山大学 | 一种基于半监督学习的钢板表面缺陷检测方法及系统 |
CN117036333A (zh) * | 2023-08-28 | 2023-11-10 | 上海大学 | 一种精度高、适应不同密度变化的晶圆缺陷检测方法 |
CN117333473A (zh) * | 2023-10-23 | 2024-01-02 | 杭州电子科技大学 | 一种基于图像块和缺陷过滤的缺陷检测方法及系统 |
WO2024000420A1 (zh) * | 2022-06-30 | 2024-01-04 | 宁德时代新能源科技股份有限公司 | 缺陷检测方法和装置 |
CN117523363A (zh) * | 2023-11-24 | 2024-02-06 | 桂林电子科技大学 | 基于特征金字塔融合的晶圆图缺陷模式识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7512501B2 (en) * | 2006-08-22 | 2009-03-31 | Kabushiki Kaisha Toshiba | Defect inspecting apparatus for semiconductor wafer |
US10628935B2 (en) * | 2017-01-30 | 2020-04-21 | Zhongke Jingyuan Electron Limited | Method and system for identifying defects of integrated circuits |
US20230244924A1 (en) * | 2022-01-31 | 2023-08-03 | Robert Bosch Gmbh | System and method for robust pseudo-label generation for semi-supervised object detection |
EP4266246A1 (en) * | 2022-04-22 | 2023-10-25 | Imec VZW | Automated defect classification and detection |
CN115456167B (zh) * | 2022-08-30 | 2024-03-12 | 北京百度网讯科技有限公司 | 轻量级模型训练方法、图像处理方法、装置及电子设备 |
CN117670889A (zh) * | 2024-02-02 | 2024-03-08 | 长春理工大学 | 一种基于半监督学习的混合集成电路组件缺陷检测方法 |
-
2024
- 2024-03-08 CN CN202410263821.8A patent/CN117853876B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102020123979A1 (de) * | 2020-09-15 | 2022-03-17 | Carl Zeiss Smt Gmbh | Defekterkennung für Halbleiterstrukturen auf einem Wafer |
CN113920096A (zh) * | 2021-10-14 | 2022-01-11 | 广东工业大学 | 一种集成电路金属封装缺陷检测方法 |
CN114299034A (zh) * | 2021-12-30 | 2022-04-08 | 杭州海康威视数字技术股份有限公司 | 一种缺陷检测模型的训练方法、缺陷检测方法及装置 |
CN114820580A (zh) * | 2022-05-26 | 2022-07-29 | 扬州大学 | 基于并行注意力补偿机制的fpn晶圆表面缺陷检测方法 |
CN115239638A (zh) * | 2022-06-28 | 2022-10-25 | 厦门微图软件科技有限公司 | 一种工业缺陷检测方法、装置、设备及可读存储介质 |
WO2024000420A1 (zh) * | 2022-06-30 | 2024-01-04 | 宁德时代新能源科技股份有限公司 | 缺陷检测方法和装置 |
CN115423796A (zh) * | 2022-09-22 | 2022-12-02 | 重庆邮电大学 | 一种基于TensorRT加速推理的芯片缺陷检测方法及系统 |
CN115360116A (zh) * | 2022-10-21 | 2022-11-18 | 合肥晶合集成电路股份有限公司 | 一种晶圆的缺陷检测方法及系统 |
CN115631178A (zh) * | 2022-11-03 | 2023-01-20 | 昆山润石智能科技有限公司 | 自动晶圆缺陷检测方法、系统、设备及存储介质 |
CN116228637A (zh) * | 2022-12-13 | 2023-06-06 | 厦门大学 | 基于多任务多尺寸网络的电子元器件缺陷识别方法及装置 |
CN116363447A (zh) * | 2022-12-29 | 2023-06-30 | 上海精测半导体技术有限公司 | 晶圆缺陷检测方法、缺陷检测模型训练方法及装置 |
CN116579985A (zh) * | 2023-04-10 | 2023-08-11 | 常州大学 | 一种基于RefineDet模型的晶圆缺陷检测方法 |
CN116863274A (zh) * | 2023-07-17 | 2023-10-10 | 燕山大学 | 一种基于半监督学习的钢板表面缺陷检测方法及系统 |
CN117036333A (zh) * | 2023-08-28 | 2023-11-10 | 上海大学 | 一种精度高、适应不同密度变化的晶圆缺陷检测方法 |
CN117333473A (zh) * | 2023-10-23 | 2024-01-02 | 杭州电子科技大学 | 一种基于图像块和缺陷过滤的缺陷检测方法及系统 |
CN117523363A (zh) * | 2023-11-24 | 2024-02-06 | 桂林电子科技大学 | 基于特征金字塔融合的晶圆图缺陷模式识别方法 |
Non-Patent Citations (2)
Title |
---|
《基于可分离卷积和注意力机制的晶圆缺陷检测》;付强;《计算机系统应用》;20230213;第32卷(第05期);20-27 * |
基于改进Inception-ResNet-v2的PCB缺陷检测;孙灿;邓小颖;李扬;朱金荣;;信息技术;20200923(09);41-44 * |
Also Published As
Publication number | Publication date |
---|---|
CN117853876A (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ayachi et al. | Traffic signs detection for real-world application of an advanced driving assisting system using deep learning | |
CN110781924B (zh) | 一种基于全卷积神经网络的侧扫声纳图像特征提取方法 | |
US20220230048A1 (en) | Neural Architecture Scaling For Hardware Accelerators | |
CN109816032A (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN113592825A (zh) | 一种基于yolo算法的煤矸实时检测方法 | |
Cen et al. | Open-world semantic segmentation for lidar point clouds | |
CN112115744B (zh) | 点云数据的处理方法及装置、计算机存储介质、电子设备 | |
CN115471670A (zh) | 一种基于改进yolox网络模型的空间目标检测方法 | |
CN112508099A (zh) | 一种实时目标检测的方法和装置 | |
CN117132890A (zh) | 一种基于Kubernetes边缘计算集群的遥感图像目标检测方法和系统 | |
CN114611617A (zh) | 基于原型网络的深度领域自适应图像分类方法 | |
Kundu et al. | Vehicle pollution detection from images using deep learning | |
CN116844032A (zh) | 一种海洋环境下目标检测识别方法、装置、设备及介质 | |
CN117036706A (zh) | 一种基于多模态对话语言模型的图像分割方法和系统 | |
Yang et al. | Dwta-unet: Concrete crack segmentation based on discrete wavelet transform and unet | |
CN115035334A (zh) | 多尺度融合双时相遥感图像的多分类变化检测方法及系统 | |
Liu et al. | Image semantic segmentation based on improved DeepLabv3+ network and superpixel edge optimization | |
Ansari et al. | A survey of recent trends in two-stage object detection methods | |
EP4217928A1 (en) | Neural architecture scaling for hardware accelerators | |
CN117853876B (zh) | 一种晶圆缺陷检测模型的训练方法以及系统 | |
CN116486193A (zh) | 基于内容感知及自蒸馏结构的自监督算法训练方法和装置 | |
CN116975578A (zh) | 逻辑规则网络模型训练方法、装置、设备、程序及介质 | |
CN114973168A (zh) | 一种跨场景交通目标检测方法和系统 | |
Katarki et al. | Estimating change detection of forest area using satellite imagery | |
KR20230156911A (ko) | 비디오 프로세싱을 위한 효율적인 셀프-어텐션 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |