CN116452556A

CN116452556A - 基于交叉特征融合的金属膜片表面缺陷检测方法

Info

Publication number: CN116452556A
Application number: CN202310438276.7A
Authority: CN
Inventors: 王慧青; 徐铭麒; 余厚云
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-18

Abstract

本发明公开了一种基于交叉特征融合的金属膜片表面缺陷检测方法。包括：建立金属膜片表面缺陷数据集；训练金属膜片表面缺陷检测模型，在训练集上，将图片组同时输入缺陷检测网络，通过视觉转换器主干网络提取其特征，使用改进的交叉特征金字塔模块对特征进行融合，融合特征通过区域生成网络模块得到检测候选框，感兴趣区域检测头模块对候选框中的缺陷目标进行定位分类，迭代优化模型参数，形成针对金属膜片表面缺陷的检测模型；多个摄像头对实际生产中的金属膜片进行连续拍摄，将拍摄到的相关图像组输入缺陷检测模型，对图像中的缺陷进行检测。本发明使用视觉转换器及改进的交叉特征金字塔模块，高效准确实现金属膜片表面缺陷检测任务。

Description

基于交叉特征融合的金属膜片表面缺陷检测方法

技术领域

本发明属于电子信息技术领域，具体涉及一种基于交叉特征融合的金属膜片表面缺陷检测方法。

背景技术

飞行器推进系统贮箱中的金属膜片零件，其能够在姿态调整、机动飞行变轨过程中抑制贮箱内推进剂的晃动，是飞行器推进系统贮箱中的关键部件之一。其表面质量直接影响金属膜片的抗疲劳强度及工作时的变形、翻转等运动性能。因此，金属膜片的材料、构型、几何参数及制造工艺等都具有非常高的标准。以膜片表面为例，技术要求为不允许有裂纹、分层、裂缝、锈蚀、斑点及原材料残留等肉眼可见的缺陷，也不允许有深度大于4μm的划伤或压痕。这不仅对制造的工艺有极高的要求，同时也对产品的质量检测带来了很大的挑战。且金属膜片表面具有较高的反射率，普通光照及图像采集系统无法采集到高对比度的缺陷图像。所以针对金属膜片表面的缺陷检测对于提升金属膜片生产质量有着重要意义。

传统的基于机器视觉的缺陷检测算法包括匹配差分，阈值分割，支持向量机等等。传统的图像处理方法对于特定环境下的缺陷图像可以较好地进行检测处理，但在图片拍摄条件变化或背景较为复杂的情况下，对噪声较为敏感，很难实现高精度的缺陷检测。

发明内容

为解决上述问题，本发明公开了基于交叉特征融合的金属膜片表面缺陷检测方法，将视觉转化器网络应用于缺陷检测算法模型中，以提升模型缺陷特征提取能力；针对实际金属膜片表面缺陷的缺陷特点，针对性改进特征融合网络，提出交叉特征融合网络，以提升检测模型对于缺陷特征的融合能力；结合多光照图像通道融合检测策略，高效、准确、可靠的对金属膜片表面缺陷进行检测。

为达到上述目的，本发明的技术方案如下：

基于交叉特征融合的金属膜片表面缺陷检测方法，包括如下步骤：

S1，使用多个摄像头及不同光源搭配分别采集金属膜片表面图像，记录金属膜片同一区域中采集到的多张图像为一组，建立对应关系，人工标注采集图像中金属膜片表面缺陷的位置和类型，形成金属膜片表面缺陷数据集，划分训练集及验证集；

S2，将训练集中的训练样本输入金属膜片表面缺陷检测特征提取网络；所述步骤S2进一步包括：

S21，将训练集中的图片及相对应的多张图片按不同通道同时作为输入，并对不同通道中输入图片的标注信息在通道空间中进行非极大值抑制处理，以剔除高度重复的标注信息。剔除不同图像通道间高度重合的标记信息，将处理后的图像组输入至视觉转换器主干网络；

S22，基于步骤S21处理后的图像组将按通道输入视觉转换器主干网络进一步提取特征，以得到缺陷图像的特征图。所述视觉转换器主干网络，包含多个不同阶段，不同阶段会生成不同的特征图，其特征图长度与宽度逐级减半，在空间上形成逐级递减的层级结构。不同阶段的特征图信息可以进一步输入特征金字塔模块，视觉转换器主干网络将图像区分为多个窗口区域进行序列化操作，相邻窗口之间相互重叠，以保留图像的局部连续性，其中序列化操作将原始的二维图像转化为一维向量，当输入图像高为H，宽为W，通道数为C时，序列化操作将输入图像序列化为N个图像块，图像块大小为：

P×P×C

其中P为图像块的高和宽，通过序列化操作将二维图像展开为一维向量，其中一维向量的范数为：

N×P²C

一维向量将输入转换器编码器模块，视觉转换器主干网络通过图像块参数P的渐进变化策略以控制主干网络特征图的输出尺寸，其中定义第i个阶段的图像块尺寸为P_i，对于第i阶段的输入特征图F_i-1，可分解为多个图像块，其数量为:

(H_i-1×W_i-1)/P_i ²

然后将每个图像块转化为一维向量后投影到C_i维，即第i阶段的输出特征图尺寸维度为:

(H_i-1/P_i)×(W_i-1/P_i)×C_i

通过灵活改变图像块尺寸P，即可实现不同尺度特征图的输出；

视觉转换器主干网络相较普通主干网络具有更好的跨尺度特征表示能力，通过控制图像块尺寸以获得不同尺度特征图。使用不同层次的特征图获取不同尺度的特征信息，使网络能够更好地处理图像中的细节和全局信息。相较于普通主干网络需要大量的卷积和池化层提取特征，视觉转换器主干网络使用了转换器，并利用其自注意力机制来学习特征之间的依赖关系，通过计算不同图像块之间的相似度，进而学习不同图像块之间的依赖关系，这也使得视觉转换器主干网络始终具有全局感受野，不同于普通主干网络逐层增加的局部感受野。可以理解的是视觉转换器主干网络较普通主干网络可以更好的提取出图像中存在的缺陷特征，并进一步输出到后续的特征金字塔模块中。

S3，基于步骤S2处理后的多尺度特征信息，进一步输入交叉特征金字塔模块：

基于步骤S2处理后的不同尺度特征图将进一步输入改进的交叉特征金字塔模块对特征图进行特征融合。所述改进的交叉特征金字塔模块包括自底向上通路、自顶向下通路、横向连接通路和交叉融合通路，改进的交叉特征金字塔模块对不同分辨率特征图分别进行特征降维处理，及特征升维处理，将对应分辨率的特征图进行合并后生成合并特征图。原始输入图片，经过步骤S2后生成的不同尺度特征图，将其视为改进后的交叉特征金字塔模块中的自底向上通路，在自底向上通路中选取部分特征图作为改进的交叉特征金字塔模块的整体输入，特征图分别通过横向连接通路和交叉融合通路进行初步特征融合得到一级中间特征图，其中横向连接通路使用1×1卷积层进行连接，在横向连接的同时完成输出维度的转化，交叉融合通路使用改进的上采样模块，在使用最近邻插值法的同时融合使用1×1卷积层，使得上采样模块可以更好的实现不同尺度特征图维度之间的平衡。

在完成初步特征融合得到一级中间特征图后，继续通过横向连接通路和交叉融合通路对缺陷图像的特征图进行进一步的特征融合，得到二级中间特征图，其中交叉融合通路使用F×F卷积层，其步长参数为S，填充参数为P，以实现一级中间特征图的整体下采样，其中整体下采样后特征图大小的计算公式如下：

N＝(W-F+2×P)/S+1

其中N表示输出特征图尺寸，W表示输入特征图尺寸，F表示卷积核尺寸，P表示填充参数，S表示步长参数。

经过下采样操作后，特征图内的特征值可以通过以下公式计算：

x＝i+s_h(m-1)-p_h

y＝j+s_w(n-1)-p_w

其中，O(i,j)表示输出特征图中位置(i,j)的特征值，I(x,y)表示输入特征图中位置(x,y)的特征值，K(m,n)表示卷积核中位置(m,n)的权重。s_h和s_w分别表示卷积核在行和列方向上的步长，p_h和p_w分别表示在输入特征图的高度和宽度方向上添加的零填充数。

在二级中间特征图的基础上分别进行横向连接，并逐级进行上采样及特征融合操作，获得输出特征图，最终，输出特征图分别通过输出卷积层，实现最终输出；

改进的交叉特征金字塔模块较普通特征金字塔模块，在相邻特征图间增加了交叉融合通路，使得特征图信息不再局限于当前特征层，通过相邻特征层之间的交叉融合使得模型可以提取到更多相临特征层的语义信息，使模型可以更多的关注于临近特征层之间的相互关系，而临近特征层之间的融合使得模型有更大的概率在融合后的特征图中发现有用的缺陷特征信息，这也是由于多数缺陷存在局部不变性，即截取一个较大缺陷的一部分时，这一部分缺陷仍可视为一个独立的缺陷主体而并不仅仅是原始缺陷的一部分，所以改进后的特征金字塔模块更加注重相邻特征层之间的特征融合，这可以更好的实现准确的缺陷判断，在进行交叉融合通路的特征融合后，通过自顶向下的连接通路，进一步结合多尺度特征图信息，最终实现缺陷特征的高度融合；

S4，基于步骤S3处理后的融合特征信息，进一步输入区域生成网络模块及感兴趣区域检测头模块，所述步骤S4进一步包括：

S41，基于步骤S3获得的融合特征将通过区域生成网络模块得到检测候选框。所述区域生成网络模块，检测特征图中可能存在检测对象的区域，形成候选框，在实际操作时使用一个滑动卷积窗口对整体特征图进行滑动遍历，并针对每一个窗口位置使用不同大小及比例的锚框，计算锚框内存在缺陷的可能性，并计算其边界框回归参数，即可生成大量缺陷目标候选框，经过非极大值抑制处理，剔除大量重叠的候选框后，将这些候选框输入感兴趣区域检测头模块；

S42，基于步骤S3获得的候选框将输入感兴趣区域检测头模块中对候选框中的缺陷目标进行进一步定位分类，根据模型检测结果与人工标记结果进行对比，计算模型损失函数，根据损失值不断迭代优化检测模型参数，最终形成针对金属膜片表面缺陷的目标检测模型。其中区域生成网络模块和感兴趣区域检测头模块共享由步骤S3获得的融合特征；

S5，对实际生产中的金属膜片工件进行连续拍摄，将多个摄像头拍摄的同一区域图像按通道输入S2～S4训练生成的金属膜片表面缺陷检测模型中，对多通道图像中的缺陷进行检测并使用矩形框标记图像中出现的金属膜片表面缺陷位置及类型；

本发明的有益效果：

1.改进了金属膜片表面缺陷检测方法，通过多个不同的光照下的图片组，以解决金属膜片表面缺陷检测中针对单一光照下图像中缺陷难以凸显的问题。

2.通过视觉转换器主干网络加强缺陷检测网络针对缺陷特征的特征提取能力，以解决缺陷种类多样化、缺陷尺度多样化造成的缺陷特征提取不足，导致无法实现对金属膜片表面缺陷高效准确检测等问题。通过将多张缺陷图像按通道同时输入缺陷检测网络在图像输入层面实现特征融合，将传统针对单一图片的缺陷检测策略扩展为针对多幅图像的融合检测策略，提高实际缺陷检测准确率。

3.改进特征金字塔模块，在相邻特征图间增加交叉融合通路，使得模型对于缺陷的特征图信息不再局限于当前特征层，通过相邻特征层之间特征信息的交叉融合使得模型可以更加关注自身及临近特征层的语义信息，以实现更为准确的缺陷判断，在进行交叉融合通路的特征融合后，通过自顶向下的连接通路，实现融合特征的最终输出，使得检测模型可以更好的融合视觉转换器主干网络提取到的多尺度特征，提升模型特征融合率，进一步提升实际缺陷检测准确率。

附图说明

图1为根据本申请具体实施例的基于交叉特征融合的金属膜片表面缺陷检测方法的流程图；

图2为根据本申请实施例的整体缺陷检测网络的结构示意图；

图3为根据本申请实施例的视觉转换器主干网络中转换器编码器模块的结构示意图；

图4为根据本申请实施例的改进特征金字塔模块的结构示意图；

图5为使用多光源系统采集金属膜片表面图像的系统结构示意图；

图6为使用多光源系统采集得到的金属膜片表面图。

图7为使用多光源系统采集得到的金属膜片表面常见缺陷示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

针对金属膜片表面检测时图像中缺陷难以凸显，以及缺陷种类多样化、缺陷尺度多样化造成的缺陷特征提取不足，导致无法实现对金属膜片表面缺陷高效准确检测等问题，本申请提供了一种基于交叉特征融合的金属膜片表面缺陷检测方法，在该方法中，通过视觉转换器主干网络、特征金字塔模块、区域生成网络模块、感兴趣区域检测头模块通过训练得到金属膜片缺陷检测模型进行金属膜片表面缺陷的准确检测，通过视觉转换器主干网络提升网络对缺陷特征的提取能力，通过多图像按通道同时输入检测网络中，提升检测网络针对多光照条件下金属膜片表面缺陷的检测能力，从而避免单一图像特征信息缺少导致的缺陷检测准确率不足等问题，提升实际缺陷检测准确率。

具体而言，图1为根据本申请具体实施例所提供的一种基于交叉特征融合的金属膜片表面缺陷检测方法的流程图，其具体步骤如下：

S1，使用多个摄像头及不同光源搭配分别采集金属膜片表面图像，记录金属膜片同一区域中采集到的多张图像为一组，建立对应关系，人工标注采集图像中金属膜片表面缺陷的位置和类型，形成金属膜片表面缺陷数据集，划分训练集及验证集。

S2，将训练集中的训练样本输入金属膜片表面缺陷检测模型，图2展示了缺陷检测模型的整体流程；所述步骤S2进一步包括：

S21，将训练集中的图片及相应的多张图片按不同通道同时作为输入，并对不同通道中输入图片的标注信息在通道空间中进行非极大值抑制处理，以剔除高度重复的标注信息。具体的，将同一组中的三张图片中的人工标签，分别输入缺陷检测网络的第一、二、三图像通道，即在通道层面针对不同图像间标签进行非极大值抑制处理，针对不同图像间高度重合的标记信息进行剔除，而对同一图像通道中的图像标签信息不进行比较处理，在进行非极大值抑制操作时需要计算两两同类型缺陷标注框的交并比(IOU)，其计算公式为：

IOU＝Area(A∩B)/Area(A∪B)

其中A，B分别表示两个不同的标注区域，设A标注矩形区域的左上角坐标和右下角坐标分别为(X₁₁,Y₁₁)、(X₁₂,Y₁₂)，B标注矩形区域的左上角坐标和右下角坐标分别为(X₂₁,Y₂₁)、(X₂₂,Y₂₂)；

则重合面积：

Area(A∩B)＝abs(X₁₂-X₂₁)×abs(Y₁₂-Y₂₁)

并集面积：

Area(A∪B)＝abs(X₁₁-X₁₂)×abs(Y₁₁-Y₁₂)+abs(X₂₁-X₂₂)×abs(Y₂₁-Y₂₂)-abs(X₁₂-X₂₁)×abs(Y₁₂-Y₂₁)其中abs表示进行取绝对值运算，在实际操作中首先以第一图像通道输入的图像标注信息为基准标注矩形框，遍历第二、三图像通道输入的图像标注信息为标注矩形框，当标注矩形框与基准标注矩形框的IOU大于一定阈值时将其剔除，接着以第二图像通道输入的图像标注信息为基准标注矩形框，遍历第三图像通道输入的图像标注信息为标注矩形框，重复上述操作。将处理后的图像组输入至视觉转换器主干网络；

S22，基于步骤S21处理后的图像组将按通道同时输入视觉转换器主干网络进一步提取特征，以得到缺陷图像的特征图，包含4个不同阶段，不同阶段会生成不同的特征图，4个阶段得到的特征图相比原图大小分别为1/4，1/8，1/16和1/32，在空间上形成了逐级递减的层级结构。这使得不同阶段的特征图信息可以进一步输入特征金字塔模块，进行进一步特征融合，视觉转换器主干网络将图像区分为多个窗口区域进行序列化操作，相邻窗口之间相互重叠，以保留图像的局部连续性，其中序列化操作将原始的二维图像转化为一维向量，假设输入图像维度为：

H×W×C

其中H，W，C，分别表示图像的高，宽和通道数。

序列化操作将输入图像变形为N个图像块，图像块大小为：

P×P×C

其中P为图像块的高和宽。

将二维图像展开一维向量，其中一维向量的范数为：

N×P²C

为保留图像的局部位置信息，在采样时不同图像块之间应存在一定的信息冗余，即应保证相邻采样图像块之间存在一定的重叠部分，将获得的一维向量输入转换器编码器模块，视觉转换器主干网络通过图像块参数P的渐进变化策略以控制主干网络特征图的输出尺寸，其中定义第i个阶段的图像块尺寸为P_i，对于第i阶段的输入特征图F_i-1，可分解为多个图像块，其数量为:

(H_i-1×W_i-1)/P_i ²

(H_i-1/P_i)×(W_i-1/P_i)×C_i

可以理解的是在当H×W大小的图片输入主干网络后，首先将其划分为多个图像块，其数量为：

H×W/(4×4)

每一块图像块的大小为4×4，将所有图像经过线性投影并加入位置编码后生成特征图其大小为：

H/4×W/4

通道为C₁的特征图，重复上述操作，依次生成大小为

H/8×W/8

H/16×W/16

H/32×W/32

的特征图。可以理解的是，本申请实施例通过视觉转换器主干网络来进行图像特征的提取，其中视觉转换器主干网络使用转换器编码器模块组成，可以更好的提取金属膜片表面缺陷特征。具体而言转换器编码器模块结构如图3所示。序列化后的序列向量输入转换器编码器模块中，经过正则化处理后进入多头注意力模块，多头注意力模块通过独立学习得到多组不同的线性投影来变换查询值、键值和值。将这多组变换后的查询值、键值和值将并行地进行注意力池化。最后，将这多个注意力池化的输出拼接在一起，并且通过另一个可以学习的线性投影进行变换，以产生最终输出，将输出结果与原始输入相加后进行正则化处理，输入多层感知机，多层感知机在输入层和输出层之间引入了多个隐藏层是一种全连接网络，其也被称为深度前馈网络，将其输出与其未正则化的输入相加后输入下一层，将上述步骤重复多次，构成了视觉转换器主干网络中的转换器编码器模块。

S3，基于步骤S2处理后的不同尺度特征图将进一步输入改进的交叉特征金字塔模块对特征图进行特征融合。所述改进的交叉特征金字塔模块包括自底向上通路、自顶向下通路、横向连接通路和交叉融合通路。

其整体模块架构图如图4所示，图中I₁表示原始输入图片，I₂～I₅分别表示经过视觉转换器主干网络4个不同阶段后生成的不同尺度特征图，其特征图大小分别为原图的1/4，1/8，1/16和1/32，将其视为改进的交叉特征金字塔模块中的自底向上通路，选取I₃～I₅作为改进特征金字塔模块的整体输入，如图4所示I₃～I₅分别通过横向连接通路和交叉融合通路进行初步特征融合得到一级中间特征图M_3-1～M_5-1，其中横向连接通路使用1×1卷积层进行连接，在横向连接的同时完成输出维度的转化，I₃～I₅到M_3-1～M_5-1的交叉融合通路使用改进的上采样模块，在使用最近邻插值进行上采样的基础上，增加了1×1卷积层，使得上采样模块可以更好的实现不同尺度特征图维度之间的平衡，其中最近邻插值的坐标变换公式如下：

srcX＝dstX×(srcW/dstW)

srcY＝dstY×(srcH/dstH)

在公式中dsrX和dsrY为目标图像中某一个像素的横纵坐标，dstW和dstH为目标图像的长和宽，srcW和srcH为原始图像的宽和高。(srcX,srcY)则为目标图像点(dstX,dstY)所对应的原图像坐标。

在完成初步特征融合得到一级中间特征图M_3-1～M_5-1后，继续通过横向连接通路和交叉融合通路对缺陷图像的特征图进行进一步的特征融合，如图4所示M_3-1～M_5-1通过横向连接通路和交叉融合通路分别得到二级中间特征图M_3-2～M_5-2，其中交叉融合通路使用3×3卷积层，其步长参数为2，填充参数为1，以实现一级中间特征图的整体下采样，其中整体下采样后特征图大小的计算公式如下：

N＝(W-F+2×P)/S+1

x＝i+s_h(m-1)-p_h

y＝j+s_w(n-1)-p_w

在二级中间特征图M_3-2～M_5-2的基础上分别进行横向连接，并逐级进行上采样及特征融合操作，获得输出特征图P₃～P₅，最终，输出特征图P₃～P₅分别通过卷积核大小3×3，步长参数为1，填充参数为1的输出卷积层，实现最终输出Output1～Output3。

改进的交叉特征金字塔模块较普通特征金字塔模块，在相邻特征图间增加了交叉融合通路，使得特征图信息不再局限于当前特征层，通过相邻特征层之间的交叉融合使得模型可以提取到更多相临特征层的语义信息，使模型可以更多的关注于临近特征层之间的相互关系，而临近特征层之间的融合使得模型有更大的概率在融合后的特征图中发现有用的缺陷特征信息，这也是由于多数缺陷存在局部不变性，即截取一个较大缺陷的一部分时，这一部分缺陷仍可视为一个独立的缺陷主体而并不仅仅是原始缺陷的一部分，所以改进后的特征金字塔模块更加注重相邻特征层之间的特征融合，这可以更好的实现准确的缺陷判断，在进行交叉融合通路的特征融合后，通过自顶向下的连接通路，进一步结合多尺度特征图信息，最终实现缺陷特征的高度融合。

S41，基于步骤S3获得的融合特征将通过区域生成网络模块得到检测候选框。所述区域生成网络模块，检测特征图中可能存在检测对象的区域，形成候选框，在实际操作时使用一个滑动卷积窗口对整体特征图进行滑动遍历，并针对每一个窗口位置使用不同大小及比例的锚框，计算锚框内存在缺陷的可能性，并计算其边界框回归参数，即可生成大量缺陷目标候选框，再经过非极大值抑制处理，剔除大量重叠的候选框后，将这些候选框输入感兴趣区域检测头模块，所述区域生成网络模块训练时的损失函数如下：

公式中p_i表示第i个锚框预测为真实缺陷的概率，当为正样本时为1，负样本时为0，λ为一个常数，t_i表示预测第i个锚框的边界框回归参数，/>表示第i个锚框对应的标记区域参数，N_cls表示一个小批量中所有样本的数量，N_reg表示特征图中锚框位置的数量，ln表示取自然对数，/>表示使用Smooth L1作为回归损失函数；

S42，基于步骤S3获得的候选框将输入感兴趣区域检测头模块中对候选框中的缺陷目标进行进一步定位分类，根据模型检测结果与人工标记结果进行对比，计算模型损失函数，根据损失值不断迭代优化检测模型参数，最终形成针对金属膜片表面缺陷的目标检测模型。其中区域生成网络模块和感兴趣区域检测头模块共享由步骤S31获得的融合特征。

S5，对实际生产的金属膜片工件进行连续拍摄，图5展示了一个使用多个摄像头搭配多个光源拍摄金属膜片工件的实施例；将多个摄像头拍摄的同一区域图像，如图6所示，按通道输入S2～S4训练生成的金属膜片表面缺陷检测模型中，对多通道图像中的缺陷进行检测并使用矩形框标记图像中出现的金属膜片表面缺陷位置及类型；金属膜片表面的常见缺陷类型如图7所示。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.基于交叉特征融合的金属膜片表面缺陷检测方法，其特征在于，包括以下步骤：

S2，将训练集中的训练样本输入金属膜片表面缺陷检测特征提取网络；

S3，基于步骤S2处理后的多尺度特征信息，进一步输入交叉特征金字塔模块；

S4，基于步骤S3处理后的融合特征信息，进一步输入区域生成网络模块及感兴趣区域检测头模块；

S5，对实际生产中的金属膜片工件进行连续拍摄，将多个摄像头拍摄的同一区域图像按通道输入S2～S4训练生成的金属膜片表面缺陷检测模型中，对多通道图像中的缺陷进行检测并使用矩形框标记图像中出现的金属膜片表面缺陷位置及类型。

2.根据权利要求1所述的基于交叉特征融合的金属膜片表面缺陷检测方法，其特征在于，所述步骤S2进一步包括：

S21，将训练集中的图片及相应的多张图片按不同通道同时作为输入，并对不同通道中输入图片的标注信息在通道空间中进行非极大值抑制处理，以剔除高度重复的标注信息；具体的，将同一组中的三张图片中的人工标签，分别输入缺陷检测网络的第一、二、三图像通道，即在通道层面针对不同图像间标签进行非极大值抑制处理，针对不同图像间高度重合的标记信息进行剔除，而对同一图像通道中的图像标签信息不进行比较处理，在进行非极大值抑制操作时需要计算两两同类型缺陷标注框的IOU，其计算公式为：

IOU＝Area(A∩B)/Area(A∪B)

其中A，B分别表示两个不同的标注区域，设A标注矩形区域的左上角坐标和右下角坐标分别为(X₁₁，Y₁₁)、(X₁₂，Y₁₂)，B标注矩形区域的左上角坐标和右下角坐标分别为(X₂₁，Y₂₁)、(X₂₂，Y₂₂)；

则重合面积：

Area(A∩B)＝abs(X₁₂-X₂₁)×abs(Y₁₂-Y₂₁)

并集面积：

Area(A∪B)＝abs(X₁₁-X₁₂)×abs(Y₁₁-Y1₂)+abs(X₂₁-X₂₂)×abs(Y₂₁-Y₂₂)-abs(X₁₂-X₂₁)×abs(Y₁₂-Y₂₁)其中abs表示进行取绝对值运算，在实际操作中首先以第一图像通道输入的图像标注信息为基准标注矩形框，遍历第二、三图像通道输入的图像标注信息为标注矩形框，当标注矩形框与基准标注矩形框的IOU大于一定阈值时将其剔除，接着以第二图像通道输入的图像标注信息为基准标注矩形框，遍历第三图像通道输入的图像标注信息为标注矩形框，重复上述操作；将处理后的图像组输入至视觉转换器主干网络；

S22，基于步骤S21处理后的图像组将按通道输入视觉转换器主干网络进一步提取特征，以得到缺陷图像的特征图；所述视觉转换器主干网络，包含多个不同阶段，不同阶段会生成不同的特征图，其特征图长度与宽度逐级减半，在空间上形成逐级递减的层级结构；不同阶段的特征图信息将输入特征金字塔模块，视觉转换器主干网络将图像区分为多个窗口区域进行序列化操作，相邻窗口之间相互重叠，以保留图像的局部连续性，其中序列化操作将原始的二维图像转化为一维向量，当输入图像高为H，宽为W，通道数为C时，序列化操作将输入图像序列化为N个图像块，图像块大小为：

P×P×C

N×P²C

一维向量将输入转换器编码器模块，视觉转换器主干网络通过图像块参数P的渐进变化策略以控制主干网络特征图的输出尺寸，其中定义第i个阶段的图像块尺寸为P_i，对于第i阶段的输入特征图F_i-1，可分解为多个图像块，其数量为：

(H_i-1×W_i-1)/P_i ²

然后将每个图像块转化为一维向量后投影到C_i维，即第i阶段的输出特征图尺寸维度为：

(H_i-1/P_i)×(W_i-1/P_i)×C_i

通过灵活改变图像块尺寸P，即可实现不同尺度特征图的输出。

3.根据权利要求1所述的基于交叉特征融合的金属膜片表面缺陷检测方法，其特征在于，步骤S3中，基于步骤S2处理后的不同尺度特征图将进一步输入改进的交叉特征金字塔模块对特征图进行特征融合；所述改进的交叉特征金字塔模块包括自底向上通路、自顶向下通路、横向连接通路和交叉融合通路，改进的交叉特征金字塔模块对不同分辨率特征图分别进行特征降维及特征升维处理，将对应分辨率的特征图进行合并后生成合并特征图；原始输入图片，经过步骤S2后生成的不同尺度特征图，将其视为改进后的交叉特征金字塔模块中的自底向上通路，在自底向上通路中选取部分特征图作为改进的交叉特征金字塔模块的整体输入，特征图分别通过横向连接通路和交叉融合通路进行初步特征融合得到一级中间特征图，其中横向连接通路使用1×1卷积层进行连接，在横向连接的同时完成输出维度的转化，交叉融合通路使用改进的上采样模块，在使用最近邻插值法的同时融合使用1×1卷积层，使得上采样模块更好的实现不同尺度特征图维度之间的平衡；其中最近邻插值的坐标变换公式如下：

srcX＝dstX×(srcW/dstW)

srcY＝dstY×(srcH/dstH)

dstX和dstY为目标图像中某一个像素的横纵坐标，dstW和dstH为目标图像的长和宽，srcW和srcH为原始图像的宽和高；(srcX，srcY)则为目标图像点(dstX，dstY)所对应的原图像坐标；

N＝(W-F+2×P)/S+1

经过下采样操作后，特征图内的特征值由以下公式计算：

x＝i+s_h(m-1)-p_h

y＝j+s_w(n-1)-p_w

其中，O(i，j)表示输出特征图中位置(i，j)的特征值，I(x，y)表示输入特征图中位置(x，y)的特征值，K(m，n)表示卷积核中位置(m，n)的权重，s_h和s_w分别表示卷积核在行和列方向上的步长，p_h和p_w分别表示在输入特征图的高度和宽度方向上添加的零填充数。

在二级中间特征图的基础上分别进行横向连接，并逐级进行上采样及特征融合操作，获得输出特征图，最终，输出特征图分别通过输出卷积层，实现最终输出。

4.根据权利要求1所述的基于交叉特征融合的金属膜片表面缺陷检测方法，其特征在于，所述步骤S4进一步包括：

S41，基于步骤S3获得的融合特征将通过区域生成网络模块得到检测候选框；所述区域生成网络模块，检测特征图中可能存在检测对象的区域，形成候选框，在实际操作时使用一个滑动卷积窗口对整体特征图进行滑动遍历，并针对每一个窗口位置使用不同大小及比例的锚框，计算锚框内存在缺陷的可能性，并计算其边界框回归参数，即可生成大量缺陷目标候选框，再经过非极大值抑制处理，剔除大量重叠的候选框后，将这些候选框输入感兴趣区域检测头模块，所述区域生成网络模块训练时的损失函数如下：

公式中p_i表示第i个锚框预测为真实缺陷的概率，当为正样本时为1，负样本时为0，λ为一个常数，t_i表示预测第i个锚框的边界框回归参数，/>表示第i个锚框对应的标记区域参数，N_cls表示一个小批量中所有样本的数量，N_reg表示特征图中锚框位置的数量，ln表示取自然对数，/>表示使用Smooth L1作为回归损失函数。

S42，基于步骤S3获得的候选框将输入感兴趣区域检测头模块中对候选框中的缺陷目标进行进一步定位分类，根据模型检测结果与人工标记结果进行对比，计算模型损失函数，根据损失值不断迭代优化检测模型参数，最终形成针对金属膜片表面缺陷的目标检测模型；其中区域生成网络模块和感兴趣区域检测头模块共享由步骤S3获得的融合特征。