CN114820444A

CN114820444A - 基于多注意力宽度神经网络模型的混合缺陷识别方法

Info

Publication number: CN114820444A
Application number: CN202210276221.6A
Authority: CN
Inventors: 汪俊亮; 高鹏捷; 张洁; 郑小虎; 徐楚桥; 杨振良
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-29
Anticipated expiration: 2042-03-21
Also published as: CN114820444B

Abstract

本发明涉及一种基于多注意力宽度神经网络模型的混合缺陷识别方法，该方法通过知识融入的多通道注意力宽度神经网络对多种模式混合的缺陷进行识别。本发明以混合模式晶圆图缺陷为例，针对混合模式缺陷特征空间复杂的特点，该方法利用八种基本缺陷特征的先验知识，预训练注意力机制引导的选择性采样算子，使其准确提取混合模式缺陷中的单一缺陷特征；针对缺陷混合模式组合复杂的特点，该方法构建通道激活知识来指导选择性采样算子的激活，准确判别缺陷混合模式中包含的基本类型缺陷。与现有方法相比，所提模型具有更高的缺陷采样率和更高的混合模式晶圆图缺陷识别精度。

Description

基于多注意力宽度神经网络模型的混合缺陷识别方法

技术领域

本发明涉及一种基于知识融入的多通道注意力宽度神经网络对多种模式混合的缺陷进行识别，属于混合模式的表面缺陷检测领域。

背景技术

产品的质量检测通常是车间的最终检测，以确保售出产品的质量。特别是在云制造领域，如何实现质量检测的标准化和自动化是控制产业链中在制品质量的关键问题。此外，及时的缺陷检测有助于制造商诊断根本原因，根据缺陷的特点(如方向和大小)及时改进工艺。在质量检测任务中，基于视觉的质量检测(vision-based quality detection,VQD)问题受到了相当大的关注，它通常被建模为一个模式识别任务。本发明以混合模式缺陷晶圆图为例，说明当前基于视觉的检测技术存在的问题。在半导体生产制造的晶圆生产阶段，单晶硅片需要经过薄膜、光刻、刻蚀等复杂的重入工艺，以实现精细的立体集成电路的制备。在晶圆片针测阶段会对每个晶粒进行基本电气测试，一块晶圆片上的每个晶粒(晶圆片的基本电气单元)都会由探测针测试并将测试结果保存在晶圆图中以区分正常与失效晶粒。晶圆缺陷的产生往往是由于制造过程中的工艺或机器异常导致的，如在薄膜沉积阶段机器异常通常会导致中心(Center)缺陷，在刻蚀阶段工艺异常会导致边缘环(EdgeRing)缺陷产生，机器异常则会引起划痕(Scratch)缺陷产生。对晶圆图上的缺陷模式进行准确识别，有助于快速辅助诊断缺陷产生原因，确定异常根源，实现产线快速调整，进而提高晶圆产品的良率。

但与普通的模式识别任务相比，由于复杂的图形特征和不同缺陷模式混合形式多样，混合模式晶圆图缺陷的检测仍然很困难。在晶圆制造过程中，分层电路是在重入过程中建立的。不同层的电路被连接在一起，形成立体集成电路。在不同的分层电路中形成的基本的单一类型缺陷叠加起来就是混合模式缺陷。从图形的角度来看，混合模式缺陷是由单一类型的晶圆缺陷以不同的几何位置和角度重叠在一起形成，而生产和工艺异常存在多样性与随机性，这将导致同一个混合模式缺陷的存在多种混合方式。

2018年，陈俊龙教授团队提出了宽度学习系统(broad learning system，BLS)，因其在复杂机器学习问题上的出色表现，成为目前主流的深度学习网络之一。BLS可以分析并将输入样本映射到不同的网络模块中以实现更好的数据表示，这启发我们宽广的结构有助于网络实现对混合模式缺陷更好的数据表示。在混合模式缺陷检测问题中，BLS可以提供一种分解机制，通过宽广的并行多通道网络结构来识别复杂重入工艺中形成的混合模式缺陷。

发明内容

本发明的目的是：实现多种模式混合的表面缺陷检测。

为了达到上述目的，本发明的技术方案是提供了一种基于多注意力宽度神经网络模型的混合缺陷识别方法，其特征在于，包括以下步骤：

步骤1、准备待识别物的混合模式缺陷数据。

在待识别物测试过程中生成统一尺寸的混合模式缺陷矩阵，混合模式缺陷矩阵中不同位置的元素值表示待识别物的相应位置是否存在缺陷，待识别物的不同位置是否存在缺陷对应待识别物的不同的单一缺陷模式，则混合模式缺陷矩阵至少对应两种单一缺陷模式，设共有C种单一缺陷模式，C≥2；

将混合模式缺陷矩阵定义为混合模式缺陷数据图；

步骤2、采用步骤1所记载的方法获得已知缺陷模式的待识别物的混合模式缺陷数据图，并根据相应的缺陷模式为每个混合模式缺陷数据图加上标签，通过标签标识组成当前混合模式缺陷数据图所对应的缺陷模式的所有单一缺陷模式，从而组成混合模式缺陷图数据集；

步骤3、建立识别模型，识别模型采用基于知识融入的多注意力宽度神经网络，利用步骤2得到的混合模式缺陷图数据集对识别模型进行训练，其中，所述识别模型包括：

输入模块，按批次输入多张混合模式缺陷数据图；

注意力引导的选择性采样模块，包括C个利用基本缺陷数据集进行预训练后优化的选择性采样算子，C个选择性采样算子位于不同的通道，对不同选择性采样算子采用具有不同单一缺陷模式的基本缺陷数据集进行预训练优化，基本缺陷数据中的特征分布知识指导每个选择性采样算子准确提取混合模式缺陷数据图中的单一缺陷模式，这种指导训练的缺陷特征分布知识是所述识别模型所采用的第一种知识；

每个选择性采样算子包括可变形卷积层、基本卷积层、批归一化层、注意力层和激活层组成，其中：

混合模式缺陷数据图依次经过可变形卷积层、基本卷积层以及批归一化层后输出特征图；

注意力层包括通道注意力和空间注意力；通道注意力用于处理输入的整个特征图，具有两个分支，一个分支采取全局平均池化来计算所输入的特征图的一般特征，另一个分支采取全局最大池化来计算所输入的特征图的突出特征；通道注意力两个分支运算后得到的输出输入连续逐点卷积，完成了池化后的向量维度的缩放，得到通道注意力权重向量

空间注意力用于处理输入的特征图上的每一个像素，具有两个分支，一个分支采取全局平均池化来计算所输入的特征图上的每一个像素的一般特征，另一个分支采取全局最大池化来计算所输入的特征图上的每一个像素的突出特征；空间注意力的两个分支运算后得到两个权重矩阵，再经过拼接和卷积，被合并为一个一维的空间注意力权重矩阵

采用下式嵌入两种注意力：

式中：X_n代表输入的特征图；⊙代表通道注意力权重向量

中每个通道的权重与对应特征图逐张相乘；

代表嵌入通道注意力的特征图；

代表空间注意力权重矩阵

中每个像素的权重与每张特征图上的像素逐点相乘；

代表嵌入通道和空间注意力的特征图；

知识模块：由一个激活决策函数组成，根据选择性采样模块的预采样结果判断混合模式缺陷数据图中是否包含对应的第c种单一缺陷模式，c＝1,2,…,C，若包含，则激活第c个通道的选择性采样算子，保留第c个通道获得的特征图；利用知识模块选择性激活通道，由此建立与输入混合模式缺陷数据图的一一对应关系，是识别模型的第二种知识；

缺陷识别模块，用于组合由知识模块激活的多个通道输出的特征图，获得多通道特征图，并进一步识别多通道特征图中的所有单一缺陷模式输出预测结果；

步骤4、将通过步骤1实时获得的混合模式缺陷数据图输入训练后的识别模型，由识别模型对混合模式缺陷数据图是否存在缺陷进行判断，若判断为存在，则输出该混合模式缺陷数据图中存在的一种或几种单一缺陷模式。

优选地，步骤2中，对所述标签进行独热编码，编码时，给予每种单一缺陷模式一个输出维度，因此每张所述混合模式缺陷数据图的标签维度和所述识别模型的输出维度为C。

优选地，独热编码时，根据每张所述混合模式缺陷数据图所述包含的单一缺陷模式将对应维度的标签置1。

优选地，步骤3中，对所述识别模型进行训练时，所述输入模块随机选择批数据输入所述识别模型进行训练。

优选地，步骤3中，可变形卷积层采用如下式所示的可变形卷积运算：

式中：y^p,q代表经可变形卷积运算后得到的特征图；l代表卷积核高度和宽度的大小；w^i,j代表可变形卷积的权重卷积核位于(i,j)处的权重；

和

分别代表可变形卷积的偏置距离核W_o,x和W_o,y位于(i,j)处的偏移参数。与基本卷积的不同之处在于，可变形卷积的采样位置会在宽、高方向上偏移，偏移距离由偏置距离核W_o,x和W_o,y中的参数决定。

优选地，步骤3中，基本卷积层采用如下式所示的基本卷积运算：

式中：y^p,q代表经卷积运算后得到的特征图；l代表卷积核高度和宽度的大小；w^i,j代表卷积核位于(i,j)处的权重；x^p,q代表卷积运算的输入特征图；b代表卷积运算的偏置。

优选地，步骤3中，所述知识模块的激活决策函数如下式所示：

式中：

代表第c个通道的激活值；sum(·)代表逐点求和函数；

代表修正后的选择性采样算子，其中的可变形卷积的权重卷积核中的权重均为1，但偏置距离核中的偏移参数仍为预训练调优后的参数；

代表第c个通道的激活决策值，当

大于激活阈值t时，

保留该通道的特征图，当s_c小于激活阈值t时，t_c＝0，代表不激活该通道，不保留该通道的特征图；

经激活决策函数运算后得到通道控制向量

优选地，步骤3中，所述缺陷识别模块所采用的识别函数如下式所示：

式中，

代表经全连接层计算后第c个通道的概率值；f_prm(·)代表缺陷识别模块进行的运算操作；Y_ct代表被激活的通道特征图拼接后的张量；

所述缺陷识别模块利用识别函数获得的C个通道的概率值组成概率向量，通过argmax(·)函数求得对应通道的标签值是否为1，若为1则代表输入识别模型的混合模式缺陷数据图中包含第c种单一缺陷模式。

本发明提出了基于知识融入的多注意力宽度神经网络，利用基本缺陷晶圆图中的缺陷分布知识预训练注意力引导的选择性采样算子，再根据选择性采样算子预采样得到的特征图进行激活判断，构建通道激活知识，选择性激活不同的通道，保留对应通道的特征图，再利用缺陷识别模块处理激活通道特征图的组合特征图，得到混合模式缺陷图像中包含的基本缺陷类型。

本发明通过多通道宽度神经网络分别提取图像上不同的基本类型缺陷特征，从而识别混合模式缺陷，与最新方法相比，本发明能够更准确地识别混合模式缺陷。

附图说明

图1示意了混合模式缺陷识别思路；

图2示意了知识融入的多注意力宽度神经网络结构；

图3示意了注意力引导的可变形采样算子的训练方法；

图4示意了检测模型的训练方法；

图5示意了检测模型的参数正交优化实验结果。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于多注意力宽度神经网络模型的混合缺陷识别方法，运用的识别思路如图1所示，具体包括以下步骤：

步骤1、混合模式缺陷数据准备。以混合模式缺陷晶圆图数据集为例，每片晶圆片在生产过程中均经需经过针测阶段，该测试会对晶圆片上的每个晶粒进行电化学测试，通过测试的即为正常晶粒，无法通过测试的则为失效晶粒。晶圆上失效区域的外观不同，晶圆缺陷模式不同。测试结果将保存在一张M×N的晶圆图(Wafer Map)中，即为M行N列的矩阵。经过专业处理，晶圆图被统一为尺寸为52×52的矩阵

D_n代表第n张晶圆图，x^r,s表示晶圆图中(r,s)处的晶粒测试结果，r,s＝1,…,52，x^r,s的取值为0、1或2，0代表该位置没有晶粒，1代表该位置的晶粒为正常晶粒，2则代表该位置的晶粒为失效晶粒。该晶圆图数据将作为基于知识融入的多注意力宽度神经网络的输入，后续的宽度神经网络将对其进行特征提取和缺陷识别。

由带有标签的多个晶圆图组成混合模式缺陷晶圆图数据集。晶圆图缺陷共有37种，其中单一类型缺陷8种，两类缺陷混合类型13种，三类缺陷混合类型12种，四类缺陷混合类型4种。8种单一类型晶圆图缺陷模式可分为全局随机缺陷和局部系统缺陷两种类型的缺陷。局部系统缺陷包括Center、Donut、Scratch、Loc、Edge-ring和Edge-loc六种缺陷模式，局部系统缺陷与制造过程中的工艺相关，主要是因制造过程中设备故障和工艺异常造成，其分布通常在晶圆的局部区域呈现出固定的图形规律。全局随机缺陷包括Near-full和Random两种缺陷模式，与制造过程中的生产环境相关，主要是由制造环境中的悬浮颗粒和气体玷污等原因造成，其通常呈现出一种全局性的随机分布状态。但在晶圆制造过程中，由于制造工艺越发复杂，晶圆图上会出现多个缺陷混合的情况，产生混合模式缺陷，即一张晶圆图上不单单只出现一种缺陷模式，而是多个缺陷模式同时出现，定义为混合模式缺陷晶圆图。由于晶圆图的混合缺陷模式种类较多，故对每张混合模式缺陷晶圆图的标签进行独热(one-hot)编码，从而降低识别模型解空间的复杂度。因晶圆图基本类型缺陷模式有8种，对标签进行编码时给予每种缺陷模式一个输出维度，因此每张混合模式缺陷晶圆图的标签维度和识别模型的输出维度为8。独热编码时，根据每张混合模式缺陷晶圆图上包含的缺陷将对应维度的标签置1。

步骤2、建立基于知识融入的多注意力宽度神经网络作为识别模型，利用上一步得到的混合模式缺陷晶圆图训练数据集对识别模型进行训练。

识别模型由输入模块、注意力引导的选择性采样模块、知识模块和缺陷识别模块组成，如图2所示。

输入模块：是尺寸为bs×52×52的三维张量，其中bs代表批大小，即每个批次的输入数据包含bs张晶圆图，输入模块将随机选择批数据输入网络进行训练。

注意力引导的选择性采样模块：包括八个利用基本缺陷数据集进行预训练后优化的选择性采样算子(可变形卷积块)。基本缺陷数据集仅包含九种类型数据，即一种正常模式晶圆图和八种基本缺陷模式晶圆图。基本缺陷数据中的特征分布知识将指导每个选择性采样算子准确提取混合模式缺陷晶圆图中单一的基本缺陷，这种指导训练的缺陷特征分布知识是第一种知识。

每个选择性采样算子由一个可变形卷积层、一个基本卷积层、一个批归一化层、一个注意力层和一个激活层组成。注意力引导的选择性采样模块通过上述网络结构对晶圆图进行预采样。

其中，可变形卷积层采用如下式(1)所示的可变形卷积运算：

式(1)中：y^p,q代表经可变形卷积运算后得到的特征图；l代表卷积核高度和宽度的大小；w^i,j代表可变形卷积的权重卷积核位于(i,j)处的权重；

和

基本卷积层采用如下式(2)所示的基本卷积运算：

式(2)中：y^p,q代表经卷积运算后得到的特征图；l代表卷积核高度和宽度的大小；w^i,j代表卷积核位于(i,j)处的权重；x^p,q代表卷积运算的输入特征图；b代表卷积运算的偏置。

注意力层包括通道注意力和空间注意力。通道注意力中，一个分支采取全局平均池化(Global Average Pooling，GAP)来计算所输入的特征图的一般特征，另一个分支采取全局最大池化(Global Maximum Pooling，GMP)来计算所输入的特征图的突出特征。两个分支运算后得到的输出输入连续逐点卷积(P-Conv)，连续逐点卷积(P-Conv)由两个正常的P-Conv层与一个1/8长度的P-Conv层组成，完成了池化后的向量维度的缩放，得到通道注意力权重向量

空间注意力中，与通道注意力类似，一个分支采取GAP来计算所输入的特征图的一般特征，另一个分支采取GMP来计算所输入的特征图的突出特征。但不同的是，空间注意力是处理特征图上的每一个像素，而不是整个特征图。这些过程被命名为空间GAP(SpatialGAP)和空间GMP(Spatial GMP)。两个分支运算后得到两个权重矩阵。经过拼接和卷积，它们被合并为一个一维的空间注意力权重矩阵

接着采用下式(3)、(4)嵌入两种注意力：

式(3)、(4)中：X_n代表可变形卷积层采样到的特征图；⊙代表通道注意力权重向量

中每个通道的权重与对应特征图逐张相乘；

代表嵌入通道注意力的特征图；

代表空间注意力权重矩阵

中每个像素的权重与每张特征图上的像素逐点相乘；

代表嵌入通道和空间注意力的特征图。

知识模块：主要由一个激活决策函数组成，其根据预采样的结果判断晶圆图中是否包含对应的缺陷，若包含则激活对应通道的选择性采样算子，保留该通道的特征图。

知识模块的激活决策函数如下式(5)、(6)所示：

式(5)、(6)中：

代表第c个通道的激活值；sum(·)代表逐点求和函数；

代表第c个通道的激活决策值，当

大于激活阈值t时，

保留该通道的特征图，当s_c小于激活阈值t时，t_c＝0，代表不激活该通道，不保留该通道的特征图。

经激活决策函数运算后得到通道控制向量

将选择性激活通道，由此建立与输入晶圆图的一一对应关系，是第二种知识。

缺陷识别模块：包括一个基本卷积块、两个可变形卷积块和一个全连接层组成。缺陷识别模块将组合多通道特征图，并识别多通道特征图中的缺陷输出预测结果。

缺陷识别模块所采用的识别函数如下式(7)所示：

式(7)中，

代表经全连接层计算后第c个通道的概率值；f_prm(·)代表缺陷识别模块进行的运算操作；Y_ct代表被激活的通道特征图拼接后的张量。

缺陷识别模块利用识别函数获得的八个通道的概率值组成概率向量，通过argmax(·)函数求得对应通道的标签值是否为1，若为1则代表输入识别模型的晶圆图中包含第c个基本类型缺陷。

步骤3、将通过步骤1实时获得的晶圆图数据输入训练后的识别模型，由识别模型对晶圆图是否存在缺陷进行判断，若判断为存在，则输出该晶圆图中存在的一种或几种缺陷模式。