CN117474863A

CN117474863A - 一种压缩多头自注意力神经网络的芯片表面缺陷检测方法

Info

Publication number: CN117474863A
Application number: CN202311432873.5A
Authority: CN
Inventors: 褚洁; 田心如; 蔡觉平; 温凯林; 张呈恺; 李天红; 孔亮
Original assignee: Suzhou Honghu Qiji Electronic Technology Co ltd
Current assignee: Suzhou Honghu Qiji Electronic Technology Co ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-30

Abstract

本发明属于缺陷检测以及图像处理领域，一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，利用可见光成像设备拍照采集芯片表面的图像，对每张图像中的正常芯片和缺陷芯片进行标注，构建目标检测数据集；构建卷积神经网络初始模型；训练初始模型；构建的所述数据集中的测试集图像输入基于压缩多头自注意力机制卷积神经网络最终模型中，完成芯片表面缺陷检测。本发明解决了现有技术在检测具有表面缺陷的芯片时，芯片表面图像中存在的小尺寸、高密度缺陷目标的检测效果差、计算效率低的技术问题。

Description

一种压缩多头自注意力神经网络的芯片表面缺陷检测方法

技术领域

本发明属于缺陷检测以及图像处理领域，具体涉及一种压缩多头自注意力神经网络的芯片表面缺陷检测方法。

背景技术

芯片表面缺陷检测对控制芯片的性能发挥着重要作用，可以有效保障芯片质量，降低不必要的经济损失。因此，芯片表面缺陷识别具有十分重要的应用价值和应用前景。

目前的芯片表面缺陷检测方法主要包括三种，第一种是传统的人工检测，此方法需要消耗大量的人力物力，检测精度低；第二种是基于传统机器学习的目标检测方法，通过人工提取特征模型，这种检测方法提取的特征模型具有局限性，无法达到检测要求；第三种是基于卷积神经网络方法对芯片表面光学图像进行目标检测，基于卷积神经网络可以减少人力物力消耗，检测效率提高，然而卷积神经网络模型进行检测时经过多次卷积池化操作到达网络深层，芯片表面缺陷小目标、多尺寸信息会逐渐丢失，导致检测平均准确率降低。结合自注意力机制的卷积神经网络可以对输入数据进行全局观察，提高卷积神经网络获取全局上下文信息的能力，从而提高模型对小目标信息的敏感度，但自注意力机制计算复杂，导致计算效率下降。

由上述内容可知，现有的芯片表面缺陷检测方法没有解决对芯片中小目标、多尺寸缺陷检测精度低、计算效率低的问题，具有识别率不稳定，人工成本较高，检测效率低等不足。

发明内容

为了克服上述技术问题，本发明提出一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，具有对小尺寸、高密度芯片表面缺陷的检测效果好、计算效率高等优点，可在芯片生产过程中具有表面缺陷的芯片。

本发明所采用的技术方案是：一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，包括以下步骤：

S1.构建数据集：利用可见光成像设备拍照采集芯片表面的图像，对每张图像中的正常芯片和缺陷芯片进行标注，所述缺陷芯片指本身具有表面缺陷的Mini LED芯片，构建目标检测数据集，并划分为测试集与训练集；

S2.构建卷积神经网络初始模型：所述神经网络初始模型包括输入端、特征提取网络、基于压缩多头自注意力机制特征融合网络、检测头和输出端，输入端对训练的数据进行预处理获得预处理后的图像，预处理包括对图像尺寸进行调整，并采用马赛克增强、混合增强、空间扰动以及颜色扰动中的一种或者多种方式进行处理，得到数据增强后的图像，特征提取网络对预处理后的图像进行特征提取从而提取浅层和深层的特征信息，获得不同尺度的特征图，基于压缩多头自注意力机制特征融合网络对不同尺度的特征图进行特征融合，然后将不同尺度的特征图通过检测头预测目标的分类和回归，最后将预测结果输出；

S3.训练初始模型：将训练集的图像随机分为多批，分批次输入到所述神经网络初始模型中进行迭代训练，构建网络损失函数，以损失函数为优化目标进行训练，使用损失函数计算预测值和真实值的误差，利用反向传播机制，进行权值更新，所有批次更新完毕，进行下一次迭代，迭代完毕得到卷积神经网络最终模型；

S4.芯片表面缺陷检测：测试集图像输入卷积神经网络最终模型中，经过输入端、特征提取网络、基于压缩多头自注意力机制特征融合网络、检测头，由输出端输出检测结果，完成芯片表面缺陷检测。

S2中所述基于压缩多头自注意力机制特征融合网络，其采用1x1的卷积层调整特征数据通道数；通过卷积或是下采样减小浅层数据的宽高；用上采样放大深层数据的宽高；对调整过后的特征数据进行通道上的拼接，最后采用基于压缩多头自注意力CSP结构对拼接后的特征数据完成特征融合。

S2中将不同尺度的特征图通过检测头预测目标的分类和回归，检测头分为两个分支，分别提取类别特征和位置特征，最后采用1x1卷积调整分类头和回归头的通道数，完成分类和回归任务。

S3中构建网络损失函数，以损失函数为优化目标进行训练，其中包括分类和回归两个分支，分类损失采用VFL损失函数，回归损失为CIOU损失函数结合DFL损失函数的形式。

正样本时q>0，q值等于预测框和真实框的交并比，负样本时q＝0，γ为调制因子，用于聚焦难分样本；p的取值范围为0～1，是模型预测属于正样本的概率；α是权重因子，用于调节正负样本损失之间的比例；

DFL损失函数让网络快速聚焦到标签附近的数值，使标签处的概率密度尽量大，使用交叉熵函数，来优化标签y附近左右两个位置的概率，S_i是网络的sigmod输出，y是标签，边界框坐标值一般不会落在具体的网格角点上,标签为整数，y_i和y_i+1是y左右距离最近两个位置的整数数值，S_i和S_i+1为标签y附近的两个预测值y_i和y_i+1对应的概率；

DFL(S_i+S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i)log(S_i+1))

CIoU损失函数考虑了边界框的重叠区域、中心点距离以及边框高宽比的一致性；

其中，b和b^GT表示预测框和真实框的中心点，ρ表示预测框和真实框之间的欧氏距离，c表示预测框和真实框的闭包区域的对角线的距离，IoU表示模型对生成的预测框和真实框的交并比值:

其中，B表示预测框，B^GT表示真实框；

ν用来衡量预测框和真实框相对比例的一致性，α是ν的权重系数；

其中，w、h、w^GT、h^GT分别表示预测框和真实框的宽和高。

基于压缩多头自注意力CSP结构包含3个标准卷积层以及一个压缩多头自注意力模块，并采用残差结构，一支通过卷积层和压缩多头自注意力模块，一支仅通过标准卷积层，最后将两支进行拼接操作。

CSP结构中的压缩多头自注意力模块，采用Transformer的结构，其中的多头注意力机制将输入数据I与W^Q,W^K,W^V三个矩阵相乘分别得到Q,K,V，再对K值进行下采样压缩K的维度，K和Q进行向量点积时运算量大大下降，再将向量点积的运算结果进行缩放标准化得到注意力权重，将权重与V值加权得到注意力汇聚，公式如下：

其中，d_Q为Q矩阵的列数，即向量维度，h为指定的常数；

多头自注意力机制包含多个自注意力层，形成多个子空间，可以让模型去关注不同方面的信息，首先将输入向量分别传递到h组不同的自注意力层中，计算得到h组注意力汇聚，最后将h组注意力汇聚的输出拼接在一起，并通过线性投影进行变化得到最终输出，多头自注意力模块可以描述为：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O

其中head_i为：

head_i＝Attention(QW_i ^H,KW_i ^K,VW_i ^V)

其中，W_i ^Q为Q的权重矩阵，W_i ^K为K的权重矩阵，W_i ^V为V的权重矩阵，W^O为线性投影的权重矩阵。

本发明的有益效果是：本发明解决了芯片表面缺陷检测效率低的问题且识别率稳定。

附图说明

图1为本发明实施例所述的一种压缩多头自注意力神经网络的芯片表面缺陷检测方法流程图；

图2为本发明实施例中Mini LED数据集的芯片表面图像，(a)是其中一张芯片表面图像，(b)是部分正常芯片类别的表面图像，(c)是部分缺陷芯片类别的表面图像；

图3为本发明实施例中Mini LED数据集的芯片表面图像的检测结果；

图4为本发明实施例所述的一种压缩多头自注意力神经网络的芯片表面缺陷检测方法的网络结构图；

图5本发明实施例所述的一种压缩多头自注意力神经网络的芯片表面缺陷检测方法采用的压缩多头自注意力CSP结构图；

图6本发明实施例所述的一种压缩多头自注意力神经网络的芯片表面缺陷检测方法采用的缩多头自注意力CSP中的压缩多头自注意力模块结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合附图和实例对本发明进行进一步阐述，此处实施例仅用于解释本发明的技术方案，而不能以此来限制本发明的保护范围。

下面结合附图以及Mini LED芯片表面缺陷的实施例解释本发明所提供的一种压缩多头自注意力神经网络的芯片表面缺陷检测方法的具体方案。

如图1所示，本发明实施例提供的一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，具体步骤如下：

S1.构建数据集：利用可见光成像设备拍照采集芯片表面的图像共三千张，对每张图像中的目标进行标注，分为正常芯片和缺陷芯片，该缺陷芯片指本身具有表面缺陷的Mini LED芯片，构建Mini LED目标检测数据集，将数据集划分为训练集和测试集；芯片图像格式为JPG，芯片图像为单通道灰度图像，每张芯片图像进行大小归一化为同一像素尺寸640×640。以4：1的比例从原数据集中随机选取图像组成训练集和测试集，其中正常芯片的训练集图像数量为2020张，测试集图像数量为505张，缺陷芯片训练集图像数目为380张，测试集图像数目为95张。

S2.构建卷积神经网络模型：本实例所提供的一种压缩多头自注意力神经网络的芯片表面缺陷检测方法的结构图如图2所示，包括输入端、特征提取网络、基于压缩多头自注意力机制特征融合网络、检测头和输出端。与现有技术的卷积神经网路相比，基于压缩多头自注意力卷积神经网络在特征融合网络中添加了以自注意力机制为基础的Transformer结构，并对自注意力机制进行压缩操作，Transformer模型能够更好提取全局特征信息，自注意力机制具有与全连接层相同的最大路径长度，非常适用于远距离依赖的建模，小目标的特征信息进行交互时的移动距离较短，细节信息不容易丢失，提高了模型对小目标信息的敏感度。Transformer模型直接学习全局信息使得模型参数量较大，对key值进行下采样压缩K的维度，从而减少整个模型的参数量。改进后的卷积神经网路模型对小尺寸、高密度目标的检测能力提升。

输入端对训练的数据进行预处理，包括对输入的图片进行自适应图片缩放处理，根据参数配置选择不同的缩放填充模式，对图像尺寸进行调整，并采用马赛克增强、混合增强、空间扰动以及颜色扰动的处理，得到数据增强后的图像。

将预处理好的图像输入到特征提取网络进行特征提取从而提取浅层和深层的特征信息，获得不同尺度的特征图。该实例采用CSPDarknet作为主干网络，包括卷积模块(CBS)，残差模块(C2f)和SPPF模块，卷积模块是由卷积计算、批量规范化和SiLU激活函数三个部分组成，残差模块主要是由两个标准卷积模块和若干个Bottleneck结构构成，SPPF模块由三个最大值池化操作和两个标准卷积模块组成。

将不同尺度的特征层输入到结合压缩多头自注意力机制特征提取网络进行特征融合，采用1x1的卷积层调整特征数据通道数；通过卷积或是下采样减小浅层数据的宽高；用上采样放大深层数据的宽高；对调整过后的特征数据进行通道上的拼接，最后采用压缩多头自注意力CSP结构对拼接后的特征数据完成特征融合。

其中采用的压缩多头自注意力CSP结构结构如图3所示，包含3个标准卷积层以及一个压缩多头自注意力模块，并采用残差结构，一支通过卷积层和压缩多头自注意力模块，一支仅通过标准卷积层，最后将两支进行拼接操作。

进一步的，压缩多头自注意力CSP结构中的压缩多头自注意力模块结构如图4所示，采用Transformer的结构，其中的多头注意力机制将输入数据I与W^Q,W^K,W^V三个矩阵相乘分别得到Q,K,V，再对K值进行下采样压缩K的维度，K和Q进行向量点积时运算量大大下降，再将向量点积的运算结果进行缩放标准化得到注意力权重，将权重与V值加权得到注意力汇聚，公式如下：

其中，d_Q为Q矩阵的列数，即向量维度，h为指定的常数。

多头自注意力机制包含多个自注意力层，形成多个子空间，可以让模型去关注不同方面的信息。首先将输入向量分别传递到h组不同的自注意力层中，计算得到h组注意力汇聚，最后将h组注意力汇聚的输出拼接在一起，并通过线性投影进行变化得到最终输出。多头自注意力模块可以描述为：

MultiHead(Q,K,V)＝Concat(head1,head2,…,head)W^O

其中head_i为：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

最后不同尺度的特征图通过检测头进行预测目标的分类回归，检测头分为两个分支，分别提取类别特征和位置特征，最后采用1x1卷积调整分类头和回归头的通道数，完成分类和回归任务。

S3.训练初始模型：在Pytorch环境中构建模型，将训练集中图像随机排序进行平均分配，每批大小为60，训练集分为40批。将训练图像分批依次输入模型中，初始化模型参数，将预处理后的图像输入特征提取网络中进行特征提取从而提取深层特征信息，从而获取了160×160，80×80，40×40，20×20四个特征层进行下一步网络的构建。

将不同尺度的特征图输入到基于多头自注意力机制的特征融合网络中进行特征融合获得不同尺度的张量数据；Feat4＝(20,20,1024)的特征层进行上采样后与feat3＝(40,40,512)特征层进行结合，然后使用C2f进行特征提取获得特征层P5_upsample＝(40,40,512)。P5_upsampl特征层进行上采样后与feat2＝(80,80,256)特征层进行结合，然后使用C2f进行特征提取,获得特征层P6_upsamble＝(80,80,256)。P6_upsample特征层进行上采样后与feat1＝(160,160,128)特征层进行结合，然后使用压缩多头自注意力CSP结构进行特征提取,得到特征层P2_out。P2_out＝(160,160,128)的特征层进行一次3x3卷积，下采样后与P6_upsample进行堆叠，然后使用压缩多头自注意力CSP结构进行特征提取P3_out，此时获得的特征层为(80,80,256)。P3_out＝(80,80,256)的特征层进行一次3x3卷积进行下采样，下采样后与P5_upsample堆叠，再使用压缩多头自注意力CSP结构进行特征提取P4_out，此时获得的特征层为(40,40,512)。P4_out＝(40,40,512)的特征层进行一次3x3卷积下采样，下采样后与Feat4堆叠，然后使用压缩多头自注意力CSP结构进行特征提取P5_out，此时获得的特征层为(20,20,1024)，然后将特征层通过检测头预测目标的分类和回归，最后通过输出端输出。

不同批次输入基于压缩多头自注意力卷积神经网络初始模型中进行迭代训练，构建网络损失函数，一批样本计算完毕后以损失函数为优化目标进行训练，使用损失函数计算预测值和真实值的误差，损失函数包括分类和回归两个分支，分类损失采用VFL损失函数，回归损失为CIOU损失函数结合DFL损失函数的形式。

正样本时q>0，q值等于预测框和真实框的交并比，负样本时q＝0，γ为调制因子，用于聚焦难分样本；p的取值范围为0～1，是模型预测属于正样本的概率；α是权重因子，用于调节正负样本损失之间的比例。

DFL损失函数可以让网络快速聚焦到标签附近的数值，使标签处的概率密度尽量大。使用交叉熵函数，来优化标签y附近左右两个位置的概率。如下公式，S_i是网络的sigmod输出，y是标签，边界框坐标值一般不会落在具体的网格角点上,但是标签为整数，因此y_i和y_i+1是y左右距离最近两个位置的整数数值，S_i和S_i+1为标签y附近的两个预测值y_i和y_i+1对应的概率。

DFL(S_i+S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i)log(S_i+1))

CIoU损失函数考虑了边界框的重叠区域、中心点距离以及边框高宽比的一致性。

其中，b和b^GT表示预测框和真实框的中心点，ρ表示预测框和真实框之间的欧氏距离，c表示预测框和真实框的闭包区域的对角线的距离，IoU表示模型对生成的预测框和真实框的交并比:

其中，B表示预测框，B^GT表示真实框；

v用来衡量预测框和真实框相对比例的一致性，α是v的权重系数:

其中，w、h、w^GT、h^GT分别表示预测框和真实框的宽和高。

利用反向传播机制，进行权值更新，所有批次更新完毕，进行下一次迭代，迭代完毕得到带参网络模型，基于压缩多头自注意力卷积神经网络模型精度均值与卷积神经网络模型精度均值对比如表1所示。

表1模型精度均值

精度均值	基于压缩多头自注意力卷积神经网络模型	卷积神经网络模型
			mAP_0.5	0.994	0.962
mAP_0.5:0.95	0.966	0.839

S4.芯片表面缺陷检测：将Mini LED数据集中的测试集图像输入基于压缩多头自注意力机制卷积神经网络最终模型中，对待检测芯片进行缺陷检测，最后由输出层输出结果，得到检测结果，检测结果如图3所示，完成芯片表面缺陷检测，结果列于表2。

表2模型检测效果

	正常芯片	缺陷芯片	总计
				数量	750	50	800
检测数量	749	48	797
				误检测率	0.13％	4.0％	0.38％

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，其特征在于：S2中所述基于压缩多头自注意力机制特征融合网络，其采用1x1的卷积层调整特征数据通道数；通过卷积或是下采样减小浅层数据的宽高；用上采样放大深层数据的宽高；对调整过后的特征数据进行通道上的拼接，最后采用基于压缩多头自注意力CSP结构对拼接后的特征数据完成特征融合。

3.根据权利要求1所述一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，其特征在于：S2中将不同尺度的特征图通过检测头预测目标的分类和回归，检测头分为两个分支，分别提取类别特征和位置特征，最后采用1x1卷积调整分类头和回归头的通道数，完成分类和回归任务。

4.根据权利要求1所述一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，其特征在于：S3中构建网络损失函数，以损失函数为优化目标进行训练，其中包括分类和回归两个分支，分类损失采用VFL损失函数，回归损失为CIOU损失函数结合DFL损失函数的形式；

DFI(S_i+S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i)log(S_i+1))

其中，B表示预测框，B^GT表示真实框；

v用来衡量预测框和真实框相对比例的一致性，α是v的权重系数；

其中，w、h、w^GT、h^GT分别表示预测框和真实框的宽和高。

5.根据权利要求2所述一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，其特征在于：基于压缩多头自注意力CSP结构包含3个标准卷积层以及一个压缩多头自注意力模块，并采用残差结构，一支通过卷积层和压缩多头自注意力模块，一支仅通过标准卷积层，最后将两支进行拼接操作。

6.根据权利要求5所述一种压缩多头自注意力神经网络的芯片表面缺陷检测方法，其特征在于：CSP结构中的压缩多头自注意力模块，采用Transformer的结构，其中的多头注意力机制将输入数据I与W^Q,W^K,W^V三个矩阵相乘分别得到Q,K,V，再对K值进行下采样压缩K的维度，K和Q进行向量点积时运算量大大下降，再将向量点积的运算结果进行缩放标准化得到注意力权重，将权重与V值加权得到注意力汇聚，公式如下：

其中，d₂为Q矩阵的列数，即向量维度，h为指定的常数；

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O

其中head_i为：

head_i＝Attention(QWi_i ^Q,KW_i ^K,VW_i ^V)