CN116309451A

CN116309451A - 基于token融合的贴片电感表面缺陷检测方法及系统

Info

Publication number: CN116309451A
Application number: CN202310267842.2A
Authority: CN
Inventors: 乔健; 陈建春; 杨景卫; 伍言龙; 程晓琦; 卢清华
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23

Abstract

本发明公开了基于token融合的贴片电感表面缺陷检测方法及系统，该方法包括：获取贴片电感缺陷数据集；基于VisionTransformer网络模型，引入token融合模块对其进行优化处理，得到优化后的VisionTransformer网络模型；基于优化后的VisionTransformer网络模型对贴片电感缺陷数据集进行表面缺陷检测处理，得到贴片电感表面缺陷检测结果。该系统包括：获取模块、优化模块和评价模块。通过使用本发明，通过引入token融合模块实现贴片电感表面缺陷快速、精准的检测模块。本发明作为基于token融合的贴片电感表面缺陷检测方法及系统，可广泛应用于图像识别技术领域。

Description

基于token融合的贴片电感表面缺陷检测方法及系统

技术领域

本发明涉及图像识别技术领域，尤其涉及基于token融合的贴片电感表面缺陷检测方法及系统。

背景技术

贴片电感具有低阻抗、高功率、高饱和电流、小型化等特性，广泛应用于数码产品、汽车电子、安防产品、小型通信设备等行业，在贴片电感的生产加工过程中，会出现少胶、端子偏位、爪子浮、夹线不良和崩缺等缺陷，为提高贴片电感的良品率，需要对其进行质量检测；当使用传统图像处理技术对贴片电感表面缺陷检测时，需要对每一类缺陷都要进行特征分析，然后利用图像处理算法多次试验、调整参数，才能得到较好的检测效果，此类方法普适性差，对工程师有较高的经验和技术要求，并且不能保证检测的准确率，当使用卷积神经网络(CNN)对贴片电感表面缺陷检测时，由于贴片电感缺陷目标为毫米级别，CNN采用的是局部感受野来对缺陷目标进行特征提取，不能建立全局信息长距离的依赖映射关系，导致贴片电感表面缺陷检测的准确率不高，与CNN相比Vision Transformer(ViT)具有矩阵乘法操作的注意力模块和多层感知器机模块构成，可以加速模型的训练及推理速度，在小目标检测任务中具有卓越的表现，但是在计算资源受限的移动应用平台，由于ViT的模型较大，对贴片电感进行表面缺陷检测时有较大的延时，不符合贴片电感实时检测的生产要求。常用的提高ViT检测速度的方法是对token进行剪枝处理；token表示将输入图片进行切片操作，得到多个图片块(patch)，接着对图片块进行线性映射和添加位置编码，token剪枝操作虽然可以提高模型的检测精度，但存在以下缺点：需要对模型进行额外的训练，增加模型计算量；token剪枝处理导致信息损失限制了的token数量；当输入改变时token的数量也会跟着变化，模型无法进行批处理。

发明内容

为了解决上述技术问题，本发明的目的是提供基于token融合的贴片电感表面缺陷检测方法及系统，通过引入token融合模块实现贴片电感表面缺陷快速、精准的检测需求。

本发明所采用的第一技术方案是：基于token融合的贴片电感表面缺陷检测方法，包括以下步骤：

获取贴片电感缺陷数据集；

基于Vision Transformer网络模型，引入token融合模块对其进行优化处理，得到优化后的Vision Transformer网络模型；

基于优化后的Vision Transformer网络模型对贴片电感缺陷数据集进行表面缺陷检测处理，得到贴片电感表面缺陷检测结果。

进一步，所述获取贴片电感缺陷数据集这一步骤，其具体包括：

对生产线上的贴片电感进行图像采集处理，得到贴片电感原始数据集；

对贴片电感原始数据集进行数据增强处理，得到增强后的贴片电感数据集；

通过图像标注软件对增强后的贴片电感数据集中带有表面缺陷的贴片电感进行标记标签，得到贴片电感缺陷数据集。

进一步，所述基于Vision Transformer网络模型，引入token融合模块对其进行优化处理，得到优化后的Vision Transformer网络模型这一步骤，其具体包括：

引入token融合模块，判断tokens之间的相似性，得到第一tokens相似性判断结果和第二tokens相似性判断结果；

根据第一tokens相似性判断结果和第二tokens相似性判断结果对tokens进行融合处理；

根据tokens之间的相似性融合结果，通过二分软匹配算法对tokens之间的相似性进行匹配；

根据tokens之间的相似性匹配结果调节Vision Transformer网络模型自注意力权重并更新至Vision Transformer网络模型中，得到优化后的Vision Transformer网络模型。

进一步，所述引入token融合模块，判断tokens之间的相似性，得到第一tokens相似性判断结果和第二tokens相似性判断结果这一步骤，其具体包括：

引入token融合模块，引入后的Vision Transformer网络模型包括自注意力模块、token融合模块和多层感知机模块；

基于Vision Transformer网络模型的自注意力模块中的键值向量Key对token融合模块中的特征信息进行提取处理，得到token融合模块中的特征信息；

通过点积相似度对token融合模块中的特征信息进行分析，判断tokens之间的相似性，得到第一tokens相似性判断结果；

基于Vision Transformer网络模型的多层感知机模块，通过余弦距离度量tokens之间的相似性，得到第二tokens相似性判断结果。

进一步，所述根据tokens之间的相似性融合结果，通过二分软匹配算法对tokens之间的相似性进行匹配这一步骤，其具体包括：

将输入至token融合模块的所有tokens进行对等划分处理，得到第一划分集合和第二划分集合；

计算Vision Transformer网络模型的自注意力模块的输出特征与VisionTransformer网络模型的多层感知机模块的输出特征之间余弦距离，得到余弦距离值；

根据余弦距离值，将第一划分集合和第二划分集合中的token进行一一比较，得到比较结果；

选取比较结果中超过预设相似阈值的token并进行标记画边处理；

将具有标记画边的token进行融合处理，并对其特征信息取均值与拼接匹配处理，得到tokens之间的相似性匹配结果。

进一步，所述根据tokens之间的相似性匹配结果调节Vision Transformer网络模型自注意力权重并更新至Vision Transformer网络模型中，得到优化后的VisionTransformer网络模型这一步骤，其具体包括：

定义一个行向量，所述行向量包含每一个token大小；

根据tokens之间的相似性匹配结果，将行向量添加至Vision Transformer网络模型的自注意力模块，调节Vision Transformer网络模型自注意力权重；

将调整后的自注意力模块更新至Vision Transformer网络模型，得到优化后的Vision Transformer网络模型。

进一步，所述调节Vision Transformer网络的注意力权重的过程的表达式为：

上式中，d表示缩放因子，Q表示Query，K表示Key，s表示行向量，T表示矩阵的转置。

进一步，所述基于优化后的Vision Transformer网络模型对贴片电感缺陷数据集进行表面缺陷检测处理，得到贴片电感表面缺陷检测结果这一步骤，其具体包括：

将贴片电感缺陷数据集输入至优化后的Vision Transformer网络模型，所述优化后的Vision Transformer网络模型包括patch层、线性映射层、嵌入层、第一LN层、自注意力层、token融合层、多层感知机层、第二LN层和分类层；

基于patch层对贴片电感缺陷数据集进行分割处理，得到分割结果；

基于线性映射层对分割结果进行线性映射处理，得到降低维度后的结果；

基于嵌入层对降低维度后的结果进行位置编码处理，得到编码结果；

基于第一LN层对编码结果进行方差和均值计算处理，得到第一计算结果；

基于自注意力层将编码结果映射到Q值、K值和V值上，并按注意力头的个数进行分组，得到分组结果；

对第一计算结果与分组结果进行相加处理并输入至token融合层进行取均值操作，即通过二分软匹配算法对tokens进行相似性匹配，得到匹配结果；

基于多层感知机层对匹配结果进行缩放处理，得到缩放后的匹配结果；

将匹配结果与缩放后的匹配结果进行相加处理并输入至第二LN层进行方差和均值计算处理，得到第二计算结果；

根据第二计算结果，通过分类层进行图像分类处理，得到分类结果，所述分类结果包括贴片电感的正面崩缺、侧面崩缺、少胶、夹线不良、段子偏位和爪子浮。

进一步，还包括通过贴片电感缺陷数据集中的测试集对优化后的VisionTransformer网络模型进行测试，并将F1-Score、Recall和precision作为优化后的VisionTransformer网络模型的评价指标，判断优化后的Vision Transformer网络模型是否达到最优，直至优化后的Vision Transformer网络模型的损失函数收敛则为最优。

本发明所采用的第二技术方案是：基于token融合的贴片电感表面缺陷检测系统，包括：

获取模块，用于获取贴片电感缺陷数据集；

优化模块，基于Vision Transformer网络模型，引入token融合模块对其进行优化处理，得到优化后的Vision Transformer网络模型；

检测模块，基于优化后的Vision Transformer网络模型对贴片电感缺陷数据集进行表面缺陷检测处理，得到贴片电感表面缺陷检测结果。

本发明方法及系统的有益效果是：本发明设计一种不需要训练的token融合(token merging)方法且兼顾模型性能，在Vision Transformer的注意力模块和多层感知机模块之间引入一个token融合模块对模型进行优化，进而融合冗余的tokens，提高模型的吞吐量，提高模型的训练速度，缩短模型的总训练时间，使模型能够移植到计算资源受限的移动平台，实现贴片电感表面缺陷快速、精准的检测需求。

附图说明

图1是本发明基于token融合的贴片电感表面缺陷检测方法的步骤流程图；

图2是本发明基于token融合的贴片电感表面缺陷检测系统的结构框图；

图3是本发明Transformer块中引入token融合策略示意图；

图4是本发明tokens相似性匹配流程的示意图；

图5是本发明引入token融合模块的Vision Transformer网络结构图；

图6是本发明具体实施例贴片电感表面缺陷检测结果图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明提供了基于token融合的贴片电感表面缺陷检测方法，该方法包括以下步骤：

S1、获取贴片电感缺陷数据集；

具体地，制作贴片电感缺陷数据集，将在贴片电感生产线上采集到的贴片电感原始数据使用数据增强算法对数据集进行扩增，丰富数据集样本的多样性。使用的数据增强算法有：旋转、平移、翻转、镜像、亮度变化、添加噪音等，然后使用图像标注软件制作标签，将贴片电感的正面崩缺、侧面崩缺、少胶、夹线不良、段子偏位和爪子浮等缺陷的标签标签分别标记为：collapase、Vcollapse、noglue、VBadclamp、offset和Pfloat。按8：1：1的比例将贴片电感表面缺陷数据集随机划分为训练集、验证集和测试集。

S2、基于Vision Transformer网络模型，引入token融合模块对其进行优化处理，得到优化后的Vision Transformer网络模型；

S21、定义tokens之间的相似性；

具体地，首先定义tokens之间的相似性。判断tokens是否相似，一种比较简单直接的方法是距离相近的tokens是相似的，但是这种方法不是最优解；

本方案通过使用transformer中自带的QKV(query、Key、Value)自注意力中的键(K)来判断tokens的相似性，如图3所示，在模型的特征提取阶段，注意力(Attention)模块中的Key已经提取并且总结了每个token中包含特征信息，token融合模块利用点积相似度来对注意力模块输入特征信息进行分析处理，判断tokens是否相似，所述tokens即为token融合模块的输入信息，同时在多层感知机模块(MLP)中使用余弦距离来度量token之间的相似度，最后将token融合模块道德输出与多层感知机模块的输出进行融合，将相似度高的tokens进行融合，设置n＝8，计算模型的Key值和点积相似度，相似度大于或等于98％，对token进行融合，使模型在检测精度和检测速度上获得较好的平衡。

S22、根据注意力模块输出的特征信息，使用二分软匹配算法对tokens的相似性进行匹配；

具体地，根据注意力模块输出的特征信息，使用二分软匹配算法对tokens的相似性进行匹配，其流程图如图4所示，第一步，把输入到token融合模块的所有tokens分为大小相等的两个集合，分别为集合A和集合B；第二步根据注意力模块输出的特征和多层感知机模块输出的余弦距离，将集合A中的每一个token与集合B中的token进行一一比较，找出相似的token，并且将相似的token画一条边；第三步，根据tokens的相似度，留下最相似的n条边，删除其余边；第四步，融合第三步得到的最相似的边，并且对特征信息取其均值；第五步，把经过匹配的两个集合拼接在一起，最终得到经过token融合模块处理后的融合结果。创建二分软匹配图中集合A的每一个token仅有一条边，在第四步中融合相似的token计算量是微不足道的；

二分软匹配算法可以实现精准地匹配n对相似的tokens，并且把他们融合在一起，这样就可以在每一层中精确地减少n个tokens，当模型有L层时，最终可以减少nL个tokens，极大地减少了tokens的冗余量，提高模型的吞吐量和减少模型运行时所需要的计算资源。当n值越大，减少的tokens数量越多，但对模型的检测精度影响不大，值得注意的是，无论输入的贴片电感缺陷图片有多少个tokens，经过token融合模块处理后，最终都会减少nL个tokens，使得模型在对tokens进行批处理时，极大地提高了运算效率，实现加速训练和推理的目的。

S23、调节注意力权重。

具体地，在transformer块中的token经过融合模块后会融合n个token，所以此时的token代表的不是一个图片块而是n个，在ViT算法模型中，一个token代表贴片电感输入图片的一个分割块，当输入的贴片电感图片被分割成N个图片块时，就会有N个token。注意力矩阵的维度也是N×N的，它表示N个图片块之间的对应关系。本方案融合了n个token之后，注意力矩阵的维度应该变为(N-n)×(N-n)的，使用token融合模块处理后，被融合的图片块的Key所对应的注意力权值也会变大，因为它融合了多个token的特征信息。一旦token被融合后，它们就不能再代表一个输入图片块，这时需要更新softmax注意力的值。我们通过一个简单的改进来解决这个问题，在此定义了一个行向量s，s∈R^1×N，s表示包含每一个token大小的行向量，注意力公式为：

上式中，d表示缩放因子，Q表示Query，K表示Key，s表示行向量，T表示矩阵的转置；

通过上式直接将行向量s直接加到注意力矩阵上，相当于给被融合的token的Key值更新了注意力权值，并且这些key值是完成了融合的Key值。

S3、基于优化后的Vision Transformer网络模型对贴片电感缺陷数据集进行表面缺陷检测处理，得到贴片电感表面缺陷检测结果。

具体地，将划分好的数据集训练引入token融合模块的ViT网络模型，epoch＝200，每训练10次保存一次网络参数。使用测试集测试模型效果，将F1-Score、Recall和precision作为网络的评价指标，判断网络模型是否最优；

构建引入token融合模块的Vision Transformer模型，经过上述处理后可以直接向已经训练好的ViT算法模型中添加token融合模块，如图5所示，引入token融合模块的Vision Transformer的算法模型，首先对输入大小为416×416的贴片电感表面缺陷图片进行分割处理，分割后的图像块大小为16×16，则经过Patch模块后每张输入图片会切分为416×416/16×16＝676个patch，每个patch的维度是768，接着通过线性映射层处理后，维度变为676×768，即token的数量为676，token的维度为768，并且添加一个cls字符，然后进行位置编码操作，此时token维度为677×768，将处理后token输入到(LayerNorm，LN)计算每一个图片块的方差和均值，LN层处理后特征维度仍然是677×768。在注意力模块中，对输入的token映射到Q、K、V上，按注意力头的个数进行分组，本方案注意力头有12个，分组后QKV的维度变为677×64。接着对注意力模块的输出和LN层的输出进行相加操作，将相加操作的结果输入到token融合模块，通过二分软匹配算法对tokens进行相似性匹配，融合相似性高的tokens，减少tokens的冗余量，并且将结果输入到多层感知机模块进行缩放处理，处理后的维度仍为677×768，然后将MLP层的输出结果与token融合模块的输出结果进行相加操作，紧接着再进行LN处理，算法循环L次后，完成对贴片电感表面缺陷特征提取与学习，最后对输入图片进行图像，实现贴片电感表面缺陷检测。在在训练阶段使用token融合模块不是必须的，因为token融合模块可以不需要训练直接引入到算法模型中，但是在训练阶段添加token融合模块可以减少模型检测准确率的下降，同时可以加快训练速度。Token融合模块实质上是对token进行取均值操作，可以视为是一种池化操作。因此，本发明可以采用平均池化操作的方式来进行反向传播，构建一个无需训练的算法模型

综上所述，本发明对引入token融合模块的Vision Transformer网络模型的参数进行微调。当在训练过程中损失函数收敛，且使用贴片电感测试集对算法模型进行评估时所有缺陷类型的评价指标均优异，则不需对参数进行微调；否则，重复上述过程。最后保存最优权值文件。在贴片电感检测阶段，通过加载最优权值文件，即可对贴片电感表面缺陷进行预测，实现贴片电感缺陷目标的识别以及缺陷目标的定位，最后输出并显示预测结果，如图5所示。当输入待测图片时，利用多次迭代训练得到最优的改进Vision Transformer模型对输入的待测图片进行预测，即可实现缺陷目标的识别及缺陷目标的定位。图6为贴片电感表面缺陷检测结果图，识别的贴片电感表面缺陷的类型，该检测结果图中识别及定位的缺陷类型分别为少胶、正面崩缺和侧面崩缺，检测准确率均能达到96％以上，其中少胶和侧面崩缺识别准确率达到99％，能够满足贴片电感快速、精准的生产需求；

因此，本方案设计了一种无需训练并且兼顾检测速度和检测精度的token融合模型，具有以下优点：融合冗余的tokens，不需要训练，减少计算资源的花销，提高模型的训练和推理速度，提高模型的吞吐量，使大模型能够移植到计算资源受限的嵌入式平台。Token融合模型的基本思想是在Vision Transformer模型的注意力模块和多层感知机模块之间引入一个token融合模块，首先对tokens的相似性进行定义，利用注意力模块的特征信息和多层感知机模块的余弦距离来度量tokens的相似性。根据tokens的相似性，使用二分软匹配算法进行匹配，并融合相似度高的tokens，最终减少nL个tokens。对融合后的tokens，定义一个行向量s代表每一个token的大小，对新的token的Key值更新注意力权值。得到无需训练且兼顾检测精度和速度的模型。

参照图2，基于token融合的贴片电感表面缺陷检测系统，包括：

获取模块，用于获取贴片电感缺陷数据集；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于token融合的贴片电感表面缺陷检测方法，其特征在于，包括以下步骤：

获取贴片电感缺陷数据集；

2.根据权利要求1所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，所述获取贴片电感缺陷数据集这一步骤，其具体包括：

3.根据权利要求2所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，所述基于Vision Transformer网络模型，引入token融合模块对其进行优化处理，得到优化后的Vision Transformer网络模型这一步骤，其具体包括：

4.根据权利要求3所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，所述引入token融合模块，判断tokens之间的相似性，得到第一tokens相似性判断结果和第二tokens相似性判断结果这一步骤，其具体包括：

5.根据权利要求4所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，所述根据tokens之间的相似性融合结果，通过二分软匹配算法对tokens之间的相似性进行匹配这一步骤，其具体包括：

6.根据权利要求5所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，所述根据tokens之间的相似性匹配结果调节Vision Transformer网络模型自注意力权重并更新至Vision Transformer网络模型中，得到优化后的Vision Transformer网络模型这一步骤，其具体包括：

定义一个行向量，所述行向量包含每一个token大小；

将调整后的自注意力模块更新至Vision Transformer网络模型，得到优化后的VisionTransformer网络模型。

7.根据权利要求6所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，所述调节Vision Transformer网络的注意力权重的过程的表达式为：

8.根据权利要求7所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，所述基于优化后的Vision Transformer网络模型对贴片电感缺陷数据集进行表面缺陷检测处理，得到贴片电感表面缺陷检测结果这一步骤，其具体包括：

9.根据权利要求8所述基于token融合的贴片电感表面缺陷检测方法，其特征在于，还包括通过贴片电感缺陷数据集中的测试集对优化后的Vision Transformer网络模型进行测试，并将F1-Score、Recall和precision作为优化后的Vision Transformer网络模型的评价指标，判断优化后的Vision Transformer网络模型是否达到最优。

10.基于token融合的贴片电感表面缺陷检测系统，其特征在于，包括以下模块：

获取模块，用于获取贴片电感缺陷数据集；