CN114092379A

CN114092379A - 晶圆缺陷数据的聚类方法及装置

Info

Publication number: CN114092379A
Application number: CN202010772001.3A
Authority: CN
Inventors: 金成浩
Original assignee: Ennew Digital Technology Co Ltd
Current assignee: Ennew Digital Technology Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2022-02-25

Abstract

本发明公开了一种晶圆缺陷数据的聚类方法、装置、计算机可读存储介质及电子设备，方法包括：提取获取的待检测晶圆图中的晶圆缺陷对应的缺陷数据点；在不指定聚类个数的前提下，对多个缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，聚类簇由若干个第一数据点或者由若干个第一数据点和若干个第二数据点形成，第一数据点为圆心所形成的圆形区域内的数据点个数不小于2，第二数据点为圆心所形成的圆形区域内的数据点个数为1，聚类簇中任意两个相邻数据点之间的距离不大于圆形区域的半径。本发明的技术方案，可检测离群数据点以及任意形式的缺陷模式，同时得到的聚类簇以及离群数据点不受数据布置顺序改变以及晶圆图旋转的影响。

Description

晶圆缺陷数据的聚类方法及装置

技术领域

本发明涉及半导体技术领域，尤其涉及晶圆缺陷数据的聚类方法及装置。

背景技术

半导体制造过程包含薄膜沉积、蚀刻、抛光等多项复杂的制作步骤，制造过程中工序的异常会导致晶圆缺陷的产生。制作完成后，对晶圆切割下的每颗芯片做测试来确认其是否能正常运作即可得到晶圆图(Wafer Bin Map)。对晶圆图的缺陷模式进行识别分析，可有效辅助识别制造过程中的缺陷根源,从而提升晶圆制造的产品质量。给定一个晶圆图，它的缺陷模式是不会变的。所以无论算法运行多少次，所得到的结果是一致的。随着计芯片序列方法的不同，芯片坐标数据的布置顺序也会不同，芯片坐标数据布置的顺序又对算法的结果起到很重要的结果。因为晶圆图是圆形的，所以很多的时候都旋转晶圆图来分析问题。但是，目前的聚类算法的聚类结果随着数据布置顺序以及晶圆图旋转而改变。

发明内容

本发明提供了一种晶圆缺陷数据的聚类方法、装置、计算机可读存储介质及电子设备，在无需指定聚类个数的前提下，可检测离群数据点以及任意形式的缺陷模式，同时得到的聚类簇以及离群数据点不受数据布置顺序改变以及晶圆图旋转的影响。

第一方面，本发明提供了一种晶圆缺陷数据的聚类方法，包括：

提取获取的待检测晶圆图中的晶圆缺陷对应的缺陷数据点；

在不指定聚类个数的前提下，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，所述聚类簇由至少一个第一数据点或者由至少一个第一数据点和至少一个第二数据点形成，所述第一数据点为圆心所形成的圆形区域内的数据点个数不小于2，所述第二数据点为圆心所形成的圆形区域内的数据点个数为1，所述第一数据点为圆心所形成的圆形区域和所述第二数据点为圆心所形成的圆形区域的半径相同，所述聚类簇中任意两个相邻数据点之间的距离不大于所述圆形区域的半径。

第二方面，本发明提供了一种晶圆缺陷数据的聚类装置，包括：

提取模块，用于提取获取的待检测晶圆图中的晶圆缺陷对应的缺陷数据点；

聚类模块，用于在不指定聚类个数的前提下，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，所述聚类簇由至少一个第一数据点或者由至少一个第一数据点和至少一个第二数据点形成，所述第一数据点为圆心所形成的圆形区域内的数据点个数不小于2，所述第二数据点为圆心所形成的圆形区域内的数据点个数为1，所述第一数据点为圆心所形成的圆形区域和所述第二数据点为圆心所形成的圆形区域的半径相同，所述聚类簇中任意两个相邻数据点之间的距离不大于所述圆形区域的半径。

第三方面，本发明提供了一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

第四方面，本发明提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

本发明提供了一种晶圆缺陷数据的聚类方法、装置、计算机可读存储介质及电子设备，该方法通过提取获取的待检测晶圆图中的多个晶圆缺陷分别对应的缺陷数据点，然后，在不指定聚类个数的前提下，对多个缺陷数据点进行聚类，以确定若干个聚类簇以及若干个离群数据，针对每个聚类簇，聚类簇由多个第一数据点或者多个第一数据点和多个第二数据点形成，第一数据点为圆心所形成的圆形区域内的数据点个数不小于2，第二数据点为圆心所形成的圆形区域内的数据点个数为1，第一数据点为圆心所形成的圆形区域和第二数据点为圆心所形成的圆形区域的半径相同，聚类簇中任意两个相邻数据点之间的距离不大于圆形区域的半径，确保得到的聚类簇和离群数据点不受数据布置顺序改变以及晶原图旋转的影响，且能检测离群数据点和任意形状的缺陷模式。综上所述，本发明的技术方案，在无需指定聚类个数的前提下，可检测离群数据点以及任意形式的缺陷模式，同时得到的聚类簇以及离群数据点不受数据布置顺序改变以及晶圆图旋转的影响，从而降低数据分析的难度，后续基于若干个聚类簇以及离群数据点进行缺陷模式识别时，可较为准确的识别出晶圆图的缺陷模式。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种晶圆缺陷数据的聚类方法的流程示意图；

图2为本发明一实施例提供的树状图的结构示意图；

图3为本发明一实施例提供的一种晶圆缺陷数据的聚类装置的结构示意图；

图4为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实现中，本发明实施例所描述的晶圆缺陷数据的聚类方法，可由手机、电脑等具有图像处理功能的电子设备实现，此处不做具体限制，对本发明实施例以终端设备为执行主体进行描述。

如图1所述，本发明实施例提供了一种晶圆缺陷数据的聚类方法，包括如下各个步骤：

步骤101、提取获取的待检测晶圆图中的晶圆缺陷对应的缺陷数据点。

具体地，电子设备可通过有线或无线方式获取待检测晶圆图，也可以通过与其相连的外部存储设备中获取待检测晶圆图。其中，外部存储设备可包括软盘、移动硬盘、U盘等，此处不做限定。

具体地，缺陷数据点指示了其对应的晶圆缺陷在待检测晶圆图中的二维坐标。其中，二维坐标可以是笛卡尔坐标。

具体地，待检测晶圆图为二维图像，方便计算机进行后续步骤的检测。其中，待检测晶圆图可以是扫描得到的图像、也可以是黑白图，具体需要结合实际情况确定。

具体地，在待检测晶圆图中以晶圆中心为原点，建立xy坐标平面，通过计算机读取待检测晶圆图中缺陷的位置坐标，得到若干个缺陷数据点，从而能够更为精确地识别缺陷的位置，使得以下步骤中对缺陷数据点进行处理时更加便利和准确。

步骤102、在不指定聚类个数的前提下，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，所述聚类簇由至少一个第一数据点或者由至少一个第一数据点和至少一个第二数据点形成，所述第一数据点为圆心所形成的圆形区域内的数据点个数不小于2，所述第二数据点为圆心所形成的圆形区域内的数据点个数为1，所述第一数据点为圆心所形成的圆形区域和所述第二数据点为圆心所形成的圆形区域的半径相同，所述聚类簇中任意两个相邻数据点之间的距离不大于所述圆形区域的半径。

需要说明的是，第一数据点一定为边界点，第二数据点可能为边界点。聚类簇由多个第一数据点形成，或者由多个第一数据点和多个第二数据点形成。

在本发明实施例中，可选地，具体通过如下方法确定聚类簇以及离群数据点：

基于密度阈值为2的密度聚类算法，对多个缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点。

具体地，密度聚类算法为DBSCAN算法、HDBSCAN算法、OPTICS算法以及AnyDBC算法中的任意一种。

为方便描述，缺陷数据点的邻域数据集采用N_ε(*)表示，N_ε(*)表示以缺陷数据点*为圆心，邻域距离阈值ε为半径所形成的圆形区域内的所有缺陷数据点的集合，邻域数据集中圆心对应的缺陷数据点之外的其他缺陷数据点均为邻居点。

当密度聚类算法为DBSCAN算法时，设置邻域距离阈值ε和密度阈值MinPts，其中，邻域距离阈值ε大于0，密度阈值MinPts为2，然后基于邻域距离阈值ε和密度阈值MinPts，运行DBSCAN算法，实现对多个缺陷数据点的聚类，得到若干个聚类簇和若干个离群数据点。假设缺陷数据点集为D＝(x₁、x₂、...、x_m)，D中的每个数据点均表示缺陷数据点，则DBSCAN算法运行的具体步骤如下：

1、初始化核心对象集合

初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D，簇划分

2、对于j＝1、2、...、m，按下面的步骤找出所有的核心对象：

a、通过距离度量方式，找到缺陷数据点x_j的邻域数据集N_ε(x_j)；

b、如果邻域数据集N_ε(x_j)中的数据点个数不小于2，将缺陷数据点x_j加入核心对象集合：Ω＝Ω∪{x_j}。

3、如果核心对象集合

则算法结束，否则转入步骤4。

4、在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o}，更新未访问样本集合Γ＝Γ-{o}。

5、如果当前簇核心对象队列

则当前聚类簇C_k生成完毕，更新簇划分C＝C₁、C₂、...、C_k，更新核心对象集合Ω＝Ω-C_k，执行步骤3，否则更新核心对象集合Ω＝Ω-C_k。

6、在当前簇核心对象队列Ωcur中取出一个核心对象o’，确定核心对象o’的邻域数据集N_ε(o’)，令Δ＝N_ε(o’)∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-o’，执行步骤5。

7、输出结果为：簇划分C＝C₁、C₂、...、C_k。

DBSCAN发现簇的具体过程如下：

首先将缺陷数据点集D中的所有缺陷数据点标记为未处理状态，随机选择一个未访问的缺陷数据点x_j，标记x_j为已访问对象，并检查x_j的邻域数据集N_ε(x_j)是否包括至少有2个数据点，如果不是，标记x_j为噪声点，否则为x_j创建一个新簇C，将x_j加入C中，将N_ε(x_j)加入候选集合N中，对于N中每个未访问的边界点x’_j，如果x’_j未访问，则标记x’_j为已访问，如果x’_j的邻域数据集N_ε(x’_j)至少有2个数据点，把这些数据点加入到候选集合N中，如果x’_j不是任何簇的成员，把x’_j加入C中，直到没有标记为未访问的数据点，输出C。

综上，DBSCAN通过任意选择一个缺陷数据点x_j，计算它的邻域数据集N_ε(x_j)，判断x_j是否为核心点。如果是，在该x_j点周围建立一个类，把和x_j直接密度可达的缺陷数据点加入到对应的类中，接着把和x_j密度可达的缺陷数据点也加到对应的类中，如果标记为噪声的缺陷数据点被加进来，修改状态为边界点，遍历其他缺陷数据点，直到建立一个聚类簇，重复上述过程，遍历所有点，建立一个或多个聚类簇，每个聚类簇由多个第一数据点或者由多个第一数据点和多个第二数据点形成，第二数据点一定为边界点，第一数据点可能为边界点。

当密度聚类算法为OPTICS算法时，设置邻域距离阈值ε和密度阈值MinPts，其中，邻域距离阈值ε大于0，密度阈值MinPts为2，然后基于邻域距离阈值ε和密度阈值MinPts，运行OPTICS算法，输出簇次序和可达距离的二维图，然后，根据二维图，得到若干个聚类簇和若干个离群数据点。假设缺陷数据点集为D＝(x₁、x₂、...、x_m)，OPTICS算法运行的具体步骤如下：

1、创建两个队列，有序队列和结果队列。(有序队列用来存储核心对象及其该核心对象的直接密度可达对象，并按可达距离升序排列；结果队列用来存储样本点的输出次序)。

2、如果缺陷数据点集D中所有数据点都处理完毕，则算法结束。否则，从缺陷数据点集D中选择一个未处理且为核心对象的缺陷数据点，找到该缺陷数据点所有直接密度可达的缺陷数据点，如该缺陷数据点不存在于结果队列中，则将其放入有序队列中，并按可达距离排序。

3、如果有序队列为空，则跳至步骤2。否则，从有序队列中取出可达距离最小的缺陷数据点，并将取出的缺陷数据点保存至结果队列中(如果它不存在结果队列当中的话)，然后进行如下处理：

3.1、判断该缺陷数据点是否为核心对象，如果不是，回到步骤3，如果该缺陷数据点是核心对象，则找到该缺陷数据点所有直接密度直可达的缺陷数据点；

3.2、判断找到的直接密度可达的缺陷数据点是否已经存在结果队列，是则不处理，否则执行3.3；

3.3、如果有序队列中已经存在该直接密度可达的缺陷数据点，且新的可达距离小于旧的可达距离，则用新可达距离取代旧可达距离，有序队列重新排序；

3.4.如果有序队列中不存在该直接密度可达的缺陷数据点，则插入该点，并对有序队列重新排序；

4、迭代步骤2、3。

5、输出结果队列中的有序样本点。

判断离群数据点的过程如下：

根据邻域距离阈值ε和密度阈值MinPts确定给定可达距离，从结果队列中按顺序取出数据点，如果该数据点的可达距离不大于给定可达距离，则该数据点属于当前类别；如果该数据点的可达距离大于给定可达距离，则该点为离群数据点。

当密度聚类算法为HDBSCAN算法时，可选地，具体可通过如下方法确定至少一个聚类簇以及至少一个离群数据点：

基于密度阈值为2的HDBSCAN算法，对多个缺陷数据点进行聚类，以确定聚类树，聚类树基于对多个缺陷数据点对应的最小生成树的层次结构进行压缩形成；在聚类树画出第一预设阈值对应的第一水平线，确定和第一水平线相交的边所连接的若干个缺陷数据点形成的第一数据点集；当第一数据点集中的缺陷数据点只有一个时，将第一数据点集中的缺陷数据点确定为离群数据点，否则，将第一数据点集确定为聚类簇。

具体地，设置密度阈值MinPts，其中，密度阈值MinPts为2，然后基于密度阈值MinPts，运行HDBSCAN算法，对多个缺陷数据点进行空间变换，确定任意两个缺陷数据点之间的互达距离，基于任意两个缺陷数据点之间的互达距离以及Prim算法，构建最小生成树，将最小生成树转换为图分裂的层次结构，然后对图分裂的层次结构进行压缩，得到聚类树，在聚类树上画出第一预设阈值对应的第一水平线，实现对聚类树的分割，确定和第一水平线相交的若干条边，针对每条边，确定和该边连接的所有缺陷数据点，通过这些缺陷数据点形成第一数据点集，当第一数据点集中的缺陷数据点只有一个时，将第一数据点集中的缺陷数据点确定为离群数据点，否则，将第一数据点集确定为聚类簇。其中，HDBSCAN算法为现有技术，这里不对其原理做过多赘述。

需要说明的是，当第一预设阈值不同时，则和第一预设阈值相交的若干条边可能不同，使得聚类簇和离群数据点可能不同。第一预设阈值的倒数和第一数据点为圆心所形成的圆形区域的半径相同。

还需要说明的是，在一种可能的实现方式中，无需对HDBSCAN算法进行改进，直接运行HDBSCAN算法，对多个缺陷数据点进行聚类，以确定若干个聚类簇以及若干个离群数据点。HDBSCAN算法运行的具体步骤如下：

1、设置密度阈值MinPts，其中，密度阈值MinPts为2，然后基于密度阈值MinPts，运行HDBSCAN算法，对多个缺陷数据点进行空间变换，确定任意两个缺陷数据点之间的互达距离。

2、基于任意两个缺陷数据点之间的互达距离以及Prim算法，构建最小生成树。

3、将最小生成树转换为图分裂的层次结构。

4、然后对图分裂的层次结构进行压缩，得到聚类树。

5、提取聚类树的簇，从而确定若干个聚类簇以及若干个离群点。

当密度聚类算法为AnyDBC算法时，具体可通过如下方法确定至少一个聚类簇以及至少一个离群数据点：

A1、设置密度阈值以及邻域距离阈值，从多个缺陷数据点中随机确定第一待处理数据点，密度阈值为2，邻域距离阈值大于0；

A2、根据密度阈值以及邻域距离阈值，对第一待处理数据点执行范围查询，确定至少一个群集以及群集对应的至少一个未处理数据点，群集包括密度连接的缺陷数据点分别对应的邻域数据集，群集中的每个缺陷数据点分别携带处理属性标签，处理属性标签用于指示其对应的缺陷数据点的处理状态以及对象属性；

A3、确定每个群集分别对应的参考数据点，以各个参考数据点分别为节点构建聚类图，聚类图中包括至少一个边，针对每个边，边连接两个节点，并携带一个连接状态标签，连接状态标签基于边连接的两个群集中的缺陷数据点携带的处理属性标签确定；

A4、根据各个边分别携带的连接状态标签，对各个群集进行组合，以确定至少一个候选聚类簇，根据各个候选聚类簇更新群集以及未处理数据点，从而更新聚类图中的节点、边以及边携带的连接状态标签；

A5、当聚类图中所有的边分别携带的连接状态标签满足预设条件时，执行A7，否则，执行A6；

A6、根据确定的每个群集分别对应的度数，确定各个未处理数据点分别对应的分数，并根据各个未处理数据点分别对应的分数，从各个未处理数据点中选择第二待处理数据点，对第二待处理数据点执行范围查询，以更新群集及未处理数据点，从而更新聚类图中的节点、边以及边携带的连接状态标签，执行A4；

A7、将各个候选聚类簇分别确定为聚类簇；

A8、根据处理属性标签，确定噪声数据点集，对噪声数据点集中的噪声数据点进行判断，以确定至少一个离群数据点。

具体地，当密度聚类算法为AnyDBC算法时，设置邻域距离阈值ε和密度阈值MinPts，其中，邻域距离阈值ε大于0，密度阈值MinPts为2，然后基于邻域距离阈值ε和密度阈值MinPts，运行AnyDBC算法，对晶圆缺陷数据的聚类，得到若干个聚类簇和若干个离群数据。假设缺陷数据点为D＝(x₁、x₂、...、x_m)，则AnyDBC算法运行的具体步骤如下：

A1、设置密度阈值MinPts为2以及邻域距离阈值ε，从多个缺陷数据点中随机确定多个第一待处理数据点，邻域距离阈值ε大于0。

A2、根据密度阈值MinPts以及邻域距离阈值ε，对每个第一待处理数据点执行范围查询，确定若干个群集以及每个群集分别对应的若干个未处理数据点，群集包括密度连接的缺陷数据点分别对应的邻域数据集，群集中的每个缺陷数据点携带分别携带处理属性标签。

具体地，群集包括密度连接的若干个缺陷数据点分别对应的邻域数据集，邻域数据集包括以缺陷数据点为圆心、邻域距离阈值ε为半径所形成的圆形区域内的所有缺陷数据点。群集中的每个缺陷数据点分别携带有处理属性标签，处理属性标签用于指示数据点的处理状态以及对象属性，对象属性具体指的是数据点是核心点、边界点及噪声点中的哪一个，处理属性标签的表达含义相同，表达方式可以有多种，此处不做具体限制。为方便描述，处理属性标签为已处理核心、未处理核心、未处理边界、已处理边界或已处理噪声。需要说明的是，群集中的数据点均为缺陷数据点。

举例来说，对第一待处理数据点x_j进行范围查询；如果第一待处理数据点x_j的邻域数据集N_ε(x_j)中的数据点个数小于2，则x_j的处理属性标签为已处理噪声，并将x_j的邻域数据集N_ε(x_j)中的所有缺陷数据点放入到噪声数据点集中；如果x_j的邻域数据集N_ε(x_j)中的数据点个数不小于2，则说明x_j为核心对象，则x_j的处理属性标签为已处理核心，将邻域数据集N_ε(x_j)中的所有邻居点x’_j的处理属性标签均标记为未处理边界，

如果x’_j的处理属性标签为已处理噪声，则其更改为未处理边界，如果x’_j的处理属性标签为已处理核心或未处理核心，则其保持不变；如果邻居点x’_j的邻域数据集N_ε(x’_j)中的数据点个数大于2，则它肯定是核心对象，而与其他范围查询无关，因此其处理属性标签标记为未处理核心；重复整个过程，直到没有剩余的第一待处理数据点。

需要说明的是，在第一次迭代的过程中，群集通常为缺陷数据点对应的邻域数据集，在后续迭代过程中，通过合并群集从而实现对群集的更新。

为了后续的第二待处理数据点的选择过程，对于每个群集，群集对应有一个或多个未处理数据点，未处理数据点具体指的是群集中没有执行范围查询的缺陷数据点，而且在更新群集的过程中，也需要不断更新群集对应的未处理数据点。

A3、确定每个群集分别对应的参考数据点，以各个参考数据点分别为节点构建聚类图，聚类图中包括至少一个边，针对每个边，边连接两个节点，并携带一个连接状态标签，连接状态标签基于边连接的两个群集中的缺陷数据点携带的处理属性标签确定。

具体地，聚类图用来捕获原始聚类之间的关系并表示当前的聚类结构，包括若干个节点，每个节点对应一个群集，不同节点对应不同群集，节点为群集中的某一个核心对象或者任意一个数据点，且任意两个节点之间的连线所形成的边携带连接状态标签，从而指示两个群集之间的连接状态，连接状态标签的含义不变，描述表示可以有多种，此处不做具体限定。为方便描述，以下通过连接状态标签为是、否、弱、未知，用于指示两个节点之间的连接强度，其中，“是”表示连接，“否”表示不连接，“弱”表示连接强度小，“未知”表示不知道是否连接，此处不做具体限定。需要说明的是，节点是指代群集，优选地，随机从群集中选择一个核心对象作为节点即可。

具体地，当两个节点不是密度连接的，则两个节点之间不连接，或者，两个节点之间的边的连接状态标签为否，这里，两个节点不是密度连接的判断方法如下：两个节点分别对应的群集的交集为空即可判断两个节点不是密度连接的；当两个节点分别是密度连接的，两个节点之间的边的连接状态标签为是，这里，两个节点为密度连接的判断方法如下：两个节点分别对应的群集的交集中存在至少一个核心对象；在不知道两个节点对应的群集的交集中是否存在核心对象的情况下，当两个节点分别对应的群集之间的交集不是空集的话，两个节点之间的边的连接状态标签为弱；其他情况，两个节点之间的边的状态为未知。

A4、根据所有的边分别携带的连接状态标签，对各个群集进行组合，以确定至少一个候选聚类簇，更新群集以及未处理数据点，从而更新聚类图中的节点、边以及边携带的连接状态标签。

具体地，确定连接状态标签均为“是”的边，然后，确定连接在一起的边分别对应的多个节点，将多个节点分别对应的群集合并以形成一个候选聚类簇，候选聚类簇中的任意两个数据点均是密度连接的。针对剩下的每个节点，将该节点对应的群集确定为候选聚类簇即可。

需要说明的是，更新群集具体指的是将各个候选聚类簇分别确定为群集，从而更新聚类图中的节点、边以及边携带的连接状态标签，从而确保聚类图中的节点的个数和群集的个数一致，使得更新后的聚类图能够反映出更新后的群集之间的连接关系，换言之，即候选聚类簇之间的连接关系。

A5、当聚类图中所有的边携带的连接状态标签满足预设条件时，执行A7，否则，执行A6。

聚类图中所有边的连接状态标签相同时，比如都为“是”或“否”时，则算法停止，换言之，聚类图中不存在弱或未知的边时，算法停止，否则继续。

A6、根据确定的每个群集的度数，确定各个未处理数据点分别对应的分数，并根据各个未处理数据点分别对应的分数，从各个未处理数据点中选择第二待处理数据点，对第二待处理数据点执行范围查询，以更新群集及未处理数据点，从而更新聚类图中的节点、边以及边携带的连接状态标签，执行A4。

聚类图反映出了当前的群集也就是候选聚类簇之间的结构，让算法迭代并主动从聚类图中学习当前的聚类结构，并选择对更新聚类结构最有效的数据点，以显着减少用于构建最终聚类结果的范围查询的次数。

具体地，确定每个群集分别对应的度值，针对每个未处理数据点，根据所有包含有该未处理数据点的群集的度数以及未处理数据点对应的邻域数据集中邻居点的个数，确定未处理数据点的评分，确定评分最高的未处理数据点为第二待处理数据点，对第二待处理数据点执行范围查询，假设第二待处理数据点不是核心对象，则第二待处理数据点的处理属性标签为已处理边界，因为它已经在群集中，否则，第二待处理数据点的处理属性标签为已处理核心，第二待处理数据的邻居点的处理属性标签根据上述第一待处理数据点的标记方式确定，并且，将第二待处理数据的邻域数据集与包含有该第二待处理数据点的所有群集进行合并，从而对群集进行更新，从而更新聚类图中的节点、边以及边携带的连接状态标签。

具体地，定义群集对应的未处理数据点的个数以及群集中缺陷数据点的个数之和为统计值，针对每个群集，确定和该群集连接的连接状态标签指示含义为不确定的所有群集分别对应的统计值之和，将其确定为该群集的度数，举例来说，指示含义为不确定的表达为弱及未知，则确定和该群集连接的连接状态标签为弱的所有群集分别对应的统计值之和a，以及和该群集连接的连接状态标签为未知的所有群集分别对应的统计值之和b，将a和b之和确定为该群集的度数。针对每个未处理数据点，确定包含有该未处理数据点的所有群集分别对应的度数之和为A，未处理数据点对应的邻域数据集中的邻居点的个数的倒数值为B，将A和B之和确定为未处理数据点的评分。将评分最高的未处理数据点作为第二待处理数据点。需要说明的是，群集的度数基于不确定是否连接的边对应的群集确定，因此，当边的连接状态标签的表达方式发生变化后，不确定是否连接的边的表达方式可能不限于弱、未知等表达，此时，应当按照上述确定群集的度数的方法，考虑所有不确定是否连接的边。

更新聚类图具体指的是更新聚类图中的节点、边以及边携带的连接状态标签，从而了解更新后的群集之间的连接状态。

A7、将各个候选聚类簇分别确定为聚类簇。

确定所有处理属性标签为已处理噪声对应的噪声数据点，通过这些噪声数据点分别对应的邻域数据集得到噪声数据点集。此处的目的主要是确定噪声数据点是一个真正的离群数据点还是一个簇的边界数据点，如果噪声数据点对应的邻域数据集中的邻居点的处理属性标签为未处理核心，则噪声数据点为一个簇的边界数据点。否则，对噪声数据点对应的邻域数据集中的邻居点依次执行范围查询，以寻找核心对象，如果找到核心对象，则噪声数据点为一个簇的边界数据点。否则，噪声数据点是一个离群数据点。

需要说明的是，AnyDBC算法无需对多个缺陷数据点中的每个缺陷数据点进行范围查询，从而能够提高聚类速度，减少计算时间。

还需要说明的是，本发明实施例未对DBSCAN算法、OPTICS算法以及AnyDBC算法中的邻域距离阈值ε进行具体限定，邻域距离阈值ε大于0即可，换言之，无需考虑邻域距离阈值ε的取值大小，通过本发明实施例提供的方法，在无需指定聚类个数的前提下，可检测离群数据点以及任意形式的缺陷模式，同时得到的聚类簇以及离群数据点不受数据布置顺序改变以及晶圆图旋转的影响。

本发明实施例中，可选地，具体通过如下方法确定聚类簇以及离群数据：

基于单连接聚类算法对多个缺陷数据点进行聚类，以确定多个缺陷数据点对应的树状图；在树状图画出第二预设阈值对应的第二水平线，确定和第二水平线相交的边所连接的至少一个缺陷数据点形成的第二数据点集，第二预设阈值和第一数据点为圆心所形成的圆形区域的半径相同；当第二数据点集中的缺陷数据点只有一个时，将第二数据点集中的缺陷数据点确定为离群数据点，否则，将第二数据点集确定为聚类簇。

这里，基于单连接聚类算法对多个缺陷数据点进行聚类，以确定多个缺陷数据点对应的树状图，然后在树状图上画出第二预设阈值对应的第二水平线，确定和第二水平线相交的若干个边，针对每个边，确定该边所连接的所有缺陷数据点，并由这些缺陷数据点形成第二数据点集，当第二数据点集中的缺陷数据点只有一个时，将第二数据点集中的缺陷数据点确定为离群数据点，否则确定为聚类簇，从而确定聚类簇和离群数据点。其中，第二数据点集包括一个或多个缺陷数据点，当缺陷数据点有多个时，每个缺陷数据点分别连接一条边，这些边相互连接，最终连接在一条与第二预设阈值形成的水平线相交的边上，该边和水平线的夹角为90度；当缺陷数据点为一个时，缺陷数据点连接一条边，该边和与第二预设阈值形成的水平线相交，夹角为90度。

需要说明的是，对树状图提取聚类簇和离群数据点的方法和对聚类树提取聚类簇和离群点的方法是相似的。

举例来说，请参考图2，x表示缺陷数据点的编号，y表示高度，假设y1的值为第二预设阈值，则在树状图上画出和y1对应的水平线L，确定和水平线L相交3条边x1、x2、x3，确定每条边对应的数据点集，x1对应的数据点集X1包括1、2、3、4，x2对应的数据点集X2包括7，x3对应的数据点集X3包括5、6、8、9、10，对数据点集中的数据点个数进行检测，从而确定出2个聚类簇X1和X3，一个离群数据点8。

需要说明的是，在密度阈值MinPts为2的时候，基于密度的聚类算法和单连接聚类算法的结果具有很高的相关性。具体地，密度阈值为2，当DBSCAN算法、OPTICS算法以及AnyDBC算法设置的邻域距离阈值以及单连接算法设置的第二预设阈值相同时，DBSCAN算法、OPTICS算法、AnyDBC算法以及单连接算法运行后所得到的若干个聚类簇以及若干个离群数据点是一致的，相应的，聚类簇中的第一数据点为圆心所形成的圆形区域的半径为邻域距离阈值ε或第二预设阈值。需要说明的是，在选择HDBSCAN算法对多个缺陷数据点进行聚类时，可以设置第一预设阈值为邻域距离阈值ε的倒数。

通过以上技术方案可知，本实施例存在的有益效果是：在无需指定聚类个数的前提下，可检测离群数据点以及任意形式的缺陷模式，同时得到的聚类簇以及离群数据点不受数据布置顺序改变以及晶圆图旋转的影响，从而降低数据分析的难度，后续基于若干个聚类簇以及离群数据点进行缺陷模式识别时，可较为准确的识别出晶圆图的缺陷模式。

基于与本发明方法实施例相同的构思，请参考图3，本发明实施例还提供了一种晶圆缺陷数据的聚类装置，包括：

提取模块301，用于提取获取的待检测晶圆图中的晶圆缺陷对应的缺陷数据点；

聚类模块302，用于在不指定聚类个数的前提下，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，所述聚类簇由至少一个第一数据点或者由至少一个第一数据点和至少一个第二数据点形成，所述第一数据点为圆心所形成的圆形区域内的数据点个数不小于2，所述第二数据点为圆心所形成的圆形区域内的数据点个数为1，所述第一数据点为圆心所形成的圆形区域和所述第二数据点为圆心所形成的圆形区域的半径相同，所述聚类簇中任意两个相邻数据点之间的距离不大于所述圆形区域的半径。

本发明一个实施例中，所述聚类模块302，用于基于密度阈值为2的密度聚类算法，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点。

本发明一个实施例中，所述密度聚类算法包括DBSCAN算法、HDBSCAN算法、OPTICS算法以及AnyDBC算法中的任意一种。

本发明一个实施例中，所述密度聚类算法包括HDBSCAN算法时，所述聚类模块302，包括：第一聚类单元、第一数据集确定单元及第一离群数据点确定单元；其中，

所述第一聚类单元，用于基于密度阈值为2的HDBSCAN算法，对多个所述缺陷数据点进行聚类，以确定聚类树，所述聚类树基于对多个所述缺陷数据点对应的最小生成树的层次结构进行压缩形成；

所述第一数据集确定单元，用于在所述聚类树画出第一预设阈值对应的第一水平线，确定和所述第一水平线相交的边所连接的至少一个缺陷数据点形成的第一数据点集；

所述第一离群点确定单元，用于当所述第一数据点集中的缺陷数据点只有一个时，将所述第一数据点集中的缺陷数据点确定为离群数据点，否则，将所述第一数据点集确定为聚类簇。

本发明一个实施例中，所述邻域距离阈值大于0，所述第一数据点为圆心所形成的圆形区域的半径等于所述邻域距离阈值。

本发明一个实施例中，所述密度聚类算法包括AnyDBC算法时，所述聚类模块302，包括：设置单元、查询单元、构图单元、组合单元、检测单元、选择单元、输出单元以及离群数据点确定单元；其中，

所述设置单元，用于设置密度阈值以及邻域距离阈值，从多个所述缺陷数据点中随机确定待处理数据点，所述密度阈值为2，所述邻域距离阈值大于0；

所述查询单元，用于根据所述密度阈值以及邻域距离阈值，对各个所述第一待处理数据点执行范围查询，确定至少一个群集以及所述群集对应的至少一个未处理数据点，所述群集包括密度连接的缺陷数据点分别对应的邻域数据集，所述群集中的每个缺陷数据点分别携带处理属性标签，所述处理属性标签用于指示其对应的缺陷数据点的处理状态以及对象属性；

所述构图单元，用于确定每个所述群集分别对应的参考数据点，以各个所述参考数据点分别为节点构建聚类图，所述聚类图中包括至少一个边，针对每个所述边，所述边连接两个节点，并携带一个连接状态标签，所述连接状态标签基于所述边连接的两个节点分别对应的群集中的缺陷数据点携带的处理属性标签确定；

所述组合单元，用于根据各个所述边分别携带的连接状态标签，对各个所述群集进行组合，以确定至少一个候选聚类簇，根据各个所述候选聚类簇更新所述群集以及未处理数据点，从而更新所述聚类图中的节点、边以及边携带的连接状态标签；

所述检测单元，用于当所述聚类图中的所有的边分别携带的连接状态标签满足预设条件时，触发所述输出单元，否则触发所述选择单元；

所述选择单元，用于根据确定的每个所述群集分别对应的度数，确定各个所述未处理数据点分别对应的分数，并根据各个所述未处理数据点分别对应的分数，从各个所述未处理数据点中选择第二待处理数据点，对所述第二待处理数据点执行范围查询，以更新所述群集及未处理数据点，从而更新所述聚类图中的节点、边以及边携带的连接状态标签，触发所述组合单元；

所述输出单元，用于将各个所述候选聚类簇分别确定为聚类簇；

所述离群数据点确定单元，用于根据所述处理属性标签，确定噪声数据点集，对所述噪声数据点集中的噪声数据点进行判断，以确定至少一个离群数据点。

本发明一个实施例中，所述聚类模块302，包括：第二聚类单元、第二数据集确定单元及第二离群数据点确定单元；其中，

所述第二聚类单元，用于基于单连接聚类算法对多个所述缺陷数据点进行聚类，以确定多个所述缺陷数据点对应的树状图；

所述第二数据集确定单元，用于在所述树状图画出第二预设阈值对应的第二水平线，确定和所述第二水平线相交的边所连接的至少一个缺陷数据点形成的第二数据点集，所述第二预设阈值和所述第一数据点为圆心所形成的圆形区域的半径相同；

所述第二离群数据点确定单元，用于当所述第二数据点集中的缺陷数据点只有一个时，将所述第二数据点集中的缺陷数据点确定为离群数据点，否则，将所述第二数据点集确定为聚类簇。

图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器401以及存储有执行指令的存储器402，可选地还包括内部总线403及网络接口404。其中，存储器402可能包含内存4021，例如高速随机存取存储器(Random-AccessMemory，RAM)，也可能还包括非易失性存储器4022(non-volatile memory)，例如至少1个磁盘存储器等；处理器401、网络接口404和存储器402可以通过内部总线403相互连接，该内部总线403可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等；内部总线403可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。当然，该电子设备还可能包括其他业务所需要的硬件。当处理器401执行存储器402存储的执行指令时，处理器401执行本发明任意一个实施例中的方法，并至少用于执行如图1所示的方法。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成一种晶圆缺陷数据的聚类装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本发明任一实施例中提供的一种晶圆缺陷数据的聚类方法。

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明实施例还提供了一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行执行指令时，所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图4所示的电子设备；执行指令是一种晶圆缺陷数据的聚类装置所对应计算机程序。

本邻域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种晶圆缺陷数据的聚类方法，其特征在于，包括：

提取获取的待检测晶圆图中的晶圆缺陷对应的缺陷数据点；

2.根据权利要求1所述的方法，其特征在于，所述对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，包括：

基于密度阈值为2的密度聚类算法，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点。

3.根据权利要求2所述的方法，其特征在于，所述密度聚类算法包括DBSCAN算法、HDBSCAN算法、OPTICS算法以及AnyDBC算法中的任意一种。

4.根据权利要求3所述的方法，其特征在于，所述DBSCAN算法、OPTICS算法或AnyDBC算法中的邻域距离阈值大于0，所述第一数据点为圆心所形成的圆形区域的半径等于所述邻域距离阈值。

5.根据权利要求3所述的方法，其特征在于，所述密度聚类算法包括HDBSCAN算法时，所述基于密度阈值为2的密度聚类算法，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，包括：

基于密度阈值为2的HDBSCAN算法，对多个所述缺陷数据点进行聚类，以确定聚类树，所述聚类树基于对多个所述缺陷数据点对应的最小生成树的层次结构进行压缩形成；

在所述聚类树画出第一预设阈值对应的第一水平线，确定和所述第一水平线相交的边所连接的至少一个缺陷数据点形成的第一数据点集；

当所述第一数据点集中的缺陷数据点只有一个时，将所述第一数据点集中的缺陷数据点确定为离群数据点，否则，将所述第一数据点集确定为聚类簇。

6.根据权利要求3所述的方法，其特征在于，所述密度聚类算法包括AnyDBC算法时，所述基于密度阈值为2的密度聚类算法，对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，包括：

A1、设置密度阈值以及邻域距离阈值，从多个所述缺陷数据点中随机确定至少一个第一待处理数据点，所述密度阈值为2，所述邻域距离阈值大于0；

A2、根据所述密度阈值以及邻域距离阈值，对各个所述第一待处理数据点执行范围查询，确定至少一个群集以及所述群集对应的至少一个未处理数据点，所述群集包括密度连接的缺陷数据点分别对应的邻域数据集，所述群集中的每个缺陷数据点分别携带处理属性标签，所述处理属性标签用于指示其对应的缺陷数据点的处理状态以及对象属性；

A3、确定每个所述群集分别对应的参考数据点，以各个所述参考数据点分别为节点构建聚类图，所述聚类图中包括至少一个边，针对每个所述边，所述边连接两个节点，并携带一个连接状态标签，所述连接状态标签基于所述边连接的两个节点分别对应的群集中的缺陷数据点携带的处理属性标签确定；

A4、根据各个所述边分别携带的连接状态标签，对各个所述群集进行组合，以确定至少一个候选聚类簇，根据各个所述候选聚类簇更新所述群集以及未处理数据点，从而更新所述聚类图中的节点、边以及边携带的连接状态标签；

A5、当所述聚类图中所有的边分别携带的连接状态标签满足预设条件时，执行A7，否则，执行A6；

A6、根据确定的每个所述群集分别对应的度数，确定各个所述未处理数据点分别对应的分数，并根据各个所述未处理数据点分别对应的分数，从各个所述未处理数据点中选择第二待处理数据点，对所述第二待处理数据点执行范围查询，以更新所述群集及未处理数据点，从而更新所述聚类图中的节点、边以及边携带的连接状态标签，执行A4；

A7、将各个所述候选聚类簇分别确定为聚类簇；

A8、根据所述处理属性标签，确定噪声数据点集，对所述噪声数据点集中的噪声数据点进行判断，以确定至少一个离群数据点。

7.根据权利要求1所述的方法，其特征在于，所述对多个所述缺陷数据点进行聚类，以确定至少一个聚类簇以及至少一个离群数据点，包括：

基于单连接聚类算法对多个所述缺陷数据点进行聚类，以确定多个所述缺陷数据点对应的树状图；

在所述树状图画出第二预设阈值对应的第二水平线，确定和所述第二水平线相交的边所连接的至少一个缺陷数据点形成的第二数据点集，所述第二预设阈值和所述第一数据点为圆心所形成的圆形区域的半径相同；

当所述第二数据点集中的缺陷数据点只有一个时，将所述第二数据点集中的缺陷数据点确定为离群数据点，否则，将所述第二数据点集确定为聚类簇。

8.一种晶圆缺陷数据的聚类装置，其特征在于，包括：

9.一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述处理器执行如权利要求1至7中任一所述的方法。

10.一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如权利要求1至7中任一所述的方法。