CN109829893B

CN109829893B - 一种基于注意力机制的缺陷目标检测方法

Info

Publication number: CN109829893B
Application number: CN201910005485.6A
Authority: CN
Inventors: 张胜森; 林宏志; 郑增强; 白翔; 刘荣华; 沈亚非
Original assignee: Huazhong University of Science and Technology; Wuhan Jingce Electronic Group Co Ltd
Current assignee: Huazhong University of Science and Technology; Wuhan Jingce Electronic Group Co Ltd
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2021-05-25
Anticipated expiration: 2039-01-03
Also published as: CN109829893A

Abstract

本发明属于缺陷检测技术领域，公开了一种基于注意力机制的缺陷目标检测方法，对原始数据集中所有图片的各类缺陷进行标注，得到带标注的标准训练数据集；根据该标准训练数据集得到训练标签、确定损失函数，得到网络模型并利用反向传导方法训练，得到对缺陷部位权重增强的基于注意力机制的缺陷回归检测网络模型；利用上述的缺陷回归检测网络模型对待检测图片进行分类预测和回归预测；并对预测的缺陷包围框进行非极大值抑制处理进行过滤，得到输出结果；本发明提供的这种方法通过注意力机制提高缺陷区域的权重，由此提高缺陷检测的精度；本方法对工业产品表面缺陷进行分类与回归的检测可以应用到其他类型的表面缺陷检测框架中提高检测精度，通用性强。

Description

一种基于注意力机制的缺陷目标检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于注意力机制的缺陷目标检测方法。

背景技术

物体检测包含物体类别预测(即分类)和物体包围框回归2个任务，这2个任务共享卷积神经网络提取到候选框的特征，在自然场景物体检测中取得了较好的结果。而将其应用在工业检测任务中，对产品表面缺陷进行检测这一技术还没有得到广泛应用。相对于一般物体检测，工业产品表面缺陷检测往往不像自然场景物体检测那样，有很多的类别以及复杂的背景，虽然使用常规检测方法可以学习到缺陷的特征，但缺陷相对于原始图片占比非常小，且出现的方向任意、长宽比变化范围大、尺度变化范围大，标注起来也不那么精确。另一方面，由于产品生产时缺陷出现的概率比较低，因而数据集很难收集；而且对于工业产品的而言，对漏检率具有很高的要求，这使得工业产品表面缺陷检测具有较大的挑战性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于注意力机制的缺陷目标检测方法，其目的在于通过注意力机制加大缺陷部位的权重来提高缺陷检测精度。

为实现上述目的，按照本发明的一个方面，提供了一种基于注意力机制的缺陷目标检测方法，包括如下步骤：

(1)对原始数据集中所有图片的各类缺陷进行标注，得到带标注的标准训练数据集；根据该标准训练数据集得到训练标签、确定损失函数，得到网络模型并利用反向传导方法训练，得到对缺陷部位权重增强的基于注意力机制的缺陷回归检测网络模型；

(2)利用上述的缺陷回归检测网络模型对待检测图片进行分类预测和回归预测；并对预测的缺陷包围框进行非极大值抑制处理进行过滤，得到输出结果。

优选地，上述基于注意力机制的缺陷目标检测方法，得到缺陷回归检测网络模型的方法，包括如下子步骤：

(1.1)构建包括特征提取模块、注意力机制模块、回归分支和分类分支的基于注意力机制的检测网络模型；

(1.2)根据特征图在选自原始数据集的原图上形成水平初始包围框，获取包括位置偏移量和类别的训练标签，形成带标注的标准训练数据集；

(1.3)以上述标准训练数据集作为检测网络模型的输入，利用特征提取模块提取缺陷敏感特征；

(1.4)将缺陷敏感特征输入分类分支，通过池化操作得到缺陷不变特征，利用缺陷不变特征预测初始包围的分类得分，根据分类得分得到预测类别；

(1.5)将缺陷敏感特征输入回归分支，利用缺陷敏感特征预测初始包围框的位置偏移量，作为预测位置；

(1.6)针对构建的检测网络模型，以包含位置偏移量和类别的训练标签作为期望输出、以包含预测位置和预测类别的预测标签作为预测输出，获取期望输出与预测输出之间的目标损失函数。

优选地，上述基于注意力机制的缺陷目标检测方法，所构建的检测网络模型中，

其特征提取模块采用方向响应卷积网络，该方向响应卷积网络以FPN为基本网络，卷积层使用ResNet101为骨架，包括五个特征提取层Layer0、Layer1、Layer2、Layer3、Layer4，用于提取多层特征；通过上采样的方式将不同尺寸的特征图融合得到既考虑低层网络大量的图片特征信息、又融入高层网络充足感受野的特征图；

通过注意力机制模块对特征图进行处理以加强缺陷部分权重，注意力机制模块包括，注意力机制模块包括第一、第二和第三支路；其中，第一支路用来传输原始特征图，第二支路通过全局池化层、1×1卷积层、正则化(Batch Normalization，BN)、sigmoid函数之后，得到特征信息的权重向量；所述第一、第二支路的输出结果加权后得到考虑了各个通道的新特征，再通过第三支路构建一个残差结构来得到增强缺陷权重的特征，将原先缺陷部位的特征变得更加明显。

优选地，上述基于注意力机制的缺陷目标检测方法，步骤(1.2)获得训练标签的方法为：

(1.2.1)对于标准训练数据集Itr的第k张图片Itr_k上任一标注的缺陷形成四边形标注包围框G_q＝(x，y，w，h)；

其中x、y为四边形中心点顶点的横、纵坐标，w、h为四边形的宽、高；

(1.2.2)将五个特征提取层Layer0、Layer1、Layer2、Layer3、Layer4的输出经过上采样、融合操作后得到四个不同尺寸的特征图Ftr＝[Ftr₁，Ftr₂，Ftr₃，Ftr₄]；

(1.2.3)以每张特征图上的每个像素按照不同大小及长宽比对应到原图，产生多个初始包围框Q₀；

(1.2.4)计算每个初始包围框Q₀相对于四边形标注包围框G_q的位置偏移量和类别，当所有的标注包围框G_q与初始包围框Q₀的Jaccard系数均小于预设阈值0.5，将对应的初始包围框Q₀标记为负类非缺陷，类别标签c取值为0；

若至少存在一个标注包围框G_q与Q₀的Jaccard系数不小于预设阈值0.5，将对应的Q₀标记为正类缺陷，类别标签c取值为1；

并相对于Jaccard系数最大的标注盒来计算位置偏移量，得到最终的训练标签gt＝(Δx，Δy，Δw，Δh，c)；其中Δx、Δy为初始包围框中心点坐标偏移量，Δw、Δh为初始包围框长、宽的偏移量，c指示初始包围框内图片是否为缺陷。初始包围框通过RPN网络进行筛选和预测偏移后，得到新的框为候选框。

优选地，上述基于注意力机制的缺陷目标检测方法，通过特征提取模块来提取候选框的缺陷特征，根据候选框的位置信息和注意力缺陷的特征图得到不同尺寸的候选框的特征图，并将候选框特征图通过RoI池化操作，得到统一尺寸的特征图，再经过两个全连接层得到所有候选框的特征向量。

优选地，上述基于注意力机制的缺陷目标检测方法，步骤(1.4)包括：将候选框的特征向量通过全连接层来压缩通道，将通道数压缩为缺陷类别数，得到每个候选框的类别分数，最大类别分数对应的类别即为预测的缺陷类别；对类别分数进行softmax操作得到每个缺陷类别的预测概率。

优选地，上述基于注意力机制的缺陷目标检测方法，步骤(1.5)包括：

对标准训练数据集Itr的第k张图片Itr_k通过五个特征提取层的输出再经过上采样、融合操作得到的四个不同尺寸的特征图[Ftr₁，Ftr₂，Ftr₃，Ftr₄]，以每张特征图上的每个像素按照不同大小及长宽比对应到原图，再经过筛选、偏移得到符合标准的初始候选框，将候选框的特征向量再经过全连接层，将通道压缩为候选框的4个坐标偏移信息

作为初始候选框Q被预测为正类缺陷框时中心点坐标和长宽值相对于标注包围框G_q位置的预测位置偏移量；

该预测位置偏移量与步骤(1.4)中的类别分数构成预测标签

优选地，上述基于注意力机制的缺陷目标检测方法，目标损失函数包括分类分支的分类损失函数和回归分支的回归损失函数，目标损失函数表达式如下：

其中L、L_cls、L_reg分别表示目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数；x为训练图片Itr_k上初始包围框和标注包围框之间的匹配矩阵，x＝1表明初始包围框初始包围框和标注包围框相交且匹配成功，x＝0表明它们之间不匹配；N为训练图片Itr_k上初始包围框与标注包围框相交且匹配的数目；L_cls为预测的初始包围框分类得分C和初始包围框类别的归一化指数函数(softmax)损失；L_reg为预测的正类包围框位置偏移量与正类包围框期望偏移量标签之间的平滑L₁回归损失；α是回归损失的权重系数；

根据整体目标损失函数，利用反向传播算法对网络模型进行迭代训练，最小化分类损失和回归损失组成的整体目标损失函数，实现最优网络模型。

优选的，上述基于注意力机制的缺陷目标检测方法，待检测图片进行分类预测和回归预测的方法包括：

对于待检测图片集I_tst里的第k张图片I_tstk，将其输入到训练好的缺陷回归检测网络模型，将五个特征层的输出经过上采样、融合操作后得到的四个不同尺寸的特征图[Ftst₁，Ftst₂，Ftst₃，Ftst₄]，在四个特征图上的每个像素点(x_l，y_l)处，坐标对应了输入图像I_tstk上以(x_a，y_a)为中心点的不同大小和长宽比的初始包围框Q₀；

对每个初始包围框Q₀，分类分支输出分类得分预测值c作为初始包围框Q₀被预测为正类缺陷的得分；回归分支输出由4个小数组成的预测回归偏移量

作为初始包围框Q₀被预测为正类缺陷框时四个位置坐标相对于标注包围框G_q四个位置坐标的位置偏移量，根据位置偏移量预测得到四边形缺陷包围框位置。

优选的，上述基于注意力机制的缺陷目标检测方法，对预测的缺陷包围框进行非极大值抑制处理进行过滤的方法具体为：

检测网络模型对缺陷敏感特征图Ftst_p上每个预测为正类缺陷的初始包围框回归出四边形缺陷包围框的位置，对同一张测试图片Itst_k上4个特征图上回归出的正类缺陷包围框出现的彼此重叠的情况，对所有正类缺陷包围框位置做非极大值抑制操作，包括如下子步骤：

对预测得到缺陷包围框位置，当且仅当缺陷分类得分c≥0.5时，该缺陷包围框才被保留；

对保留的缺陷包围框按照Jaccard系数0.2进行非极大值抑制操作，得到正类缺陷包围框。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的基于注意力机制的缺陷目标检测方法，针对任务特性区分进行特征设计，使用注意力机制处理缺陷特征图，使用对缺陷敏感的特征处理包围框回归任务，能更精确地回归出包含缺陷部位的长条形物体坐标；譬如对于工业检测表面缺陷这一任务中常包含的细长缺陷，现有技术中标注的方框会包含大量背景，不利于检测；而本发明提供的这种方法通过注意力机制提高缺陷区域的权重，从而提高检测精度；另一方面，本发明提供的缺陷目标检测方法，对工业产品表面缺陷进行分类与回归的检测可以应用到其他类型的表面缺陷检测框架中提高检测精度，适用范围广；又一方面，由于生成的初始包围框包含了多个尺寸和比例，覆盖了整张图片，且在特征中增强了缺陷部分的权重，因此本发明提供的这种缺陷目标检测方法可以克服缺陷尺度和角度的变化。

附图说明

图1是本发明实施例提供的基于注意力机制的缺陷目标检测方法的流程示意图；

图2为实施例中注意力机制模块的网络模型示意图；

图3为实施例中对提取的多层特征通过注意力机制加大缺陷部位的权重并对新特征进行融合操作的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先就本发明的技术术语进行解释和说明：

ResNet101：2015年ILSVRC的冠军是ResNet，其解决了神经网络深度增加导致更多训练误差的问题；其网络结构由多个残差块组成，每个残差块可以将前一层的输出与当前层的输出相加，来逐步逼近目标函数。

FPN：FPN网络是CVPR2017年的文章所提出的网络模型，其采用特征金字塔做目标检测，通过自下而上的网络来提取不同网络层的特征图，得到特征金字塔，再通过自上而下的网络将不同层的特征图融合到一起；融合了低层网络中具有大量图像信息的特征，以及高层网络中具有充足感受野的特征。

非极大值抑制(NMS)：非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法，它按照设定的阈值，通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤，去掉冗余的检测框，得到最终的检测结果。

参照图1，实施例提供的基于注意力机制的缺陷目标检测方法包括以下步骤：

(1)训练基于注意力机制的检测网络模型，包括如下子步骤：

(1.1)对原始数据集中所有图片的各类缺陷进行标注得到带标注的标准训练数据集；缺陷包围框为四边形，标签为沿缺陷包围框的顶点顺时针标注的四个顶点坐标；

(1.2)定义基于注意力机制的检测网络模型，根据带标注的标准训练数据集计算训练标签、设计损失函数，利用反向传导方法训练，得到缺陷回归检测网络模型；本步骤包括如下子步骤：

(1.2.1)构建基于注意力机制的检测网络模型：

实施例所构建的检测网络模型参照图2～图3，包括特征提取模块、注意力机制模块、回归分支和分类分支；特征提取模块包括方向响应卷积网络，它以FPN为基本网络，其中，前面的卷积层以ResNet101为骨架，包括：Layer0、Layer1、Layer2、Layer3、Layer4，用于提取多层特征；后半部分通过上采样的方式将不同尺寸的特征图融合得到既考虑低层网络大量图片特征信息、又融入了高层网络充足感受野的特征图；待提取特征层之后通过注意力机制模块来对特征图进行优化，主要是加强对缺陷部分的注意力程度。

实施例中，注意力机制模块包括三条支路，一条支路用来传输原始特征图，另一条支路通过全局池化层、1×1卷积层、正则化(Batch Normalization)BN、sigmoid函数之后，得到特征信息的权重向量；这两条支路的输出结果加权后，可以得到考虑了各个通道的新特征，再通过第三条支路构成一个残差结构来得到更好的特征，以增强缺陷部分权重；这里的注意力机制体现在权重向量会将原图上的缺陷部位特征变得更加明显。

(1.2.2)根据特征图在原图上形成水平初始包围框，计算训练标签，包括位置偏移量和类别：

对于标准训练数据集Itr的第k张图片Itr_k上任一标注的缺陷四边形包围框G_q＝(x，y，w，h)，其中x，y为四边形中心点顶点的横、纵坐标，w，h为四边形的宽和高；五个特征提取层Layer0、Layer1、Layer2、Layer3、Layer4的输出经过上采样、融合操作后，得到四个不同尺寸的特征图Ftr＝[Ftr₁，Ftr₂，Ftr₃，Ftr₄]。以每张特征图上的每个像素按照不同大小及长宽比对应到原图，产生多个初始包围框Q。

计算每个初始包围框Q₀相对于新的四边形标注包围框G_q的位置偏移量和类别，当所有的标注包围框G_q与初始包围框Q₀的Jaccard系数均小于0.5，那么，初始包围框Q₀被标记为负类非缺陷，类别标签c取值为0；否则，即至少存在一个标注包围框G_q与Q₀的Jaccard系数不小于0.5，Q₀被标记为正类缺陷，类别标签c取值为1，并相对于Jaccard系数最大的标注盒来计算位置偏移量，得到gt＝(Δx，Δy，Δw，Δh，c)构成最终的训练标签，其中Δx，Δy为初始包围框中心点坐标偏移量，Δw，Δh为初始包围框长和宽的偏移量，c表示初始包围框内图片是否为缺陷。初始包围框通过RPN网络进行筛选和预测偏移后得到新的框为候选框。

(1.2.3)以带标注的标准训练数据集作为检测网络模型的输入，利用特征提取模块提取缺陷敏感特征：根据候选框的位置信息和注意了缺陷的特征图得到不同尺寸的各候选框的特征图，并将候选框特征图通过RoI池化操作得到统一尺寸的特征图，再经过两个全连接层得到所有候选框的长度均为1024的特征向量；

(1.2.4)将缺陷敏感特征输入分类分支，通过池化操作得到缺陷不变特征，利用缺陷不变特征预测初始包围框的分类得分：具体地，将候选框的特征向量通过全连接层来压缩通道，通道数压缩为缺陷类别数，可以得到对每个框的类别分数，而最大分数对应的类别则为预测的缺陷类别；对类别分数进行softmax操作可以得到每个类别的预测概率；

(1.2.5)将缺陷敏感特征输入回归分支，利用缺陷敏感特征预测初始包围框的位置偏移量：对于图片Itr_k通过五个特征提取层Layer0、Layer1、Layer2、Layer3、Layer4的输出再经过上采样、融合操作得到的四个不同尺寸的特征图[Ftr₁，Ftr₂，Ftr₃，Ftr₄]，以每张特征图上的每个像素按照不同大小及长宽比对应到原图，再经过筛选、偏移得到符合标准的初始候选框，将初始候选框的特征向量再经过全连接层，将通道压缩为候选框的4个坐标偏移信息

作为初始候选框Q被预测为正类缺陷框时中心点坐标和长宽值相对于标注包围框G_q位置信息的预测位置偏移量，与步骤(1.2.4)中的前景背景分类得分构成预测标签

(1.2.6)以训练标签gt为网络期望输出，以预测标签

为网络预测输出，针对构建的检测网络模型，设计期望输出和预测输出之间的目标损失函数：具体地，

以步骤(1.2.2)中从标注信息得到的训练标签gt为网络期望输出，以步骤(1.2.4)、(1.2.5)中的预测标签

为网络预测输出，针对步骤(1.2.1)构建的检测网络模型，设计期望输出和预测输出之间的目标损失函数，整体目标损失函数由分类分支的分类损失函数和回归分支的回归损失函数组成，整体目标损失函数表达式如下：

其中L、L_cls、L_reg分别表示整体目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数。x为训练图片Itr_k上初始包围框和标注包围框之间的匹配矩阵，当x＝1时，表明初始包围框和标注包围框相交且匹配成功，当x＝0时，表明它们之间不匹配；N为训练图片Itr_k上初始包围框与标注包围框相交且匹配的数目；L_cls为预测的初始包围框分类得分C和初始包围框类别的softmax损失。L_reg为网络预测的正类包围框位置偏移量和正类包围框期望偏移量标签之间的平滑L₁回归损失；α是回归损失的权重系数,实际中设置为1。

根据设计的整体目标损失函数，利用反向传播算法对检测网络模型进行迭代训练，最小化分类损失和回归损失组成的整体目标损失函数，实现最优网络模型。

针对工业产品表面缺陷检测任务，在训练过程中首先使用ImageNet数据集上的预训练模型，然后采用真实数据集进行训练，调整网络参数。

(2)利用上述训练好的检测网络模型对待检测工业产品表面图片进行检测，包括如下子步骤：

(2.1)对待检测工业产品表面图片进行分类预测和回归预测：对于待检测数据集I_tst里的第k张图片Itst_k，将其输入到步骤(1.2)训练好的检测网络模型中，在五个特征层Layer0、Layer1、Layer2、Layer3、Layer4的输出经过上采样、融合操作后得到的四个不同尺寸的特征图[Ftst₁，Ftst₂，Ftst₃，Ftst₄]，在四个特征图上的每个像素点(x_l，y_l)处，坐标对应了输入图像Itst_k上以(x_a，y_a)为中心点的不同大小和长宽比的初始包围框Q₀；对每个初始包围框Q₀，分类分支会输出由分类得分预测值c，作为初始包围框Q₀被预测为正类缺陷的得分；回归分支会输出由4个小数组成的预测回归偏移量

作为Q₀被预测为正类缺陷框时四个位置坐标相对于标注包围框G_q四个位置坐标的位置偏移量，根据位置偏移量得到网络预测的四边形缺陷包围框位置。

(2.2)对预测的缺陷包围框进行非极大值抑制操作进行过滤，得到输出结果：在步骤(2.1)中，检测网络模型对缺陷敏感特征图Ftst_p上每个预测为正类缺陷的初始包围框都会回归出四边形位置，同一张测试图片Itst_k上4个特征图上回归出的正类缺陷四边形通常会出现彼此重叠的情况，这时就要对所有正类缺陷四边形位置做非极大值抑制操作，具体步骤包括：

(2.1.1)对(2.1)预测到的缺陷包围框，当且仅当缺陷分类得分c≥0.5时，该检测缺陷框才被保留；

(2.1.2)对上一步保留的缺陷框，按照Jaccard系数0.2进行非极大值抑制操作，得到最后保留的正类缺陷四边形包围框。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的缺陷目标检测方法，其特征在于，包括如下步骤：

(1)对原始数据集中所有图片的各类缺陷进行标注，得到带标注的标准训练数据集；根据标准训练数据集得到训练标签、确定损失函数，得到网络模型并利用反向传导方法训练得到对缺陷部位权重增强的基于注意力机制的缺陷回归检测网络模型；

所述缺陷回归检测网络模型中包括特征提取模块、注意力机制模块和RPN网络；所述注意力机制模块用以对特征提取模块提取的特征图进行处理以加强缺陷部分权重；

所述注意力机制模块包括第一、第二和第三支路；其中，第一支路用来传输原始特征图，第二支路包括依次连接的全局池化层、1×1卷积层、正则化处理层和激活层，所述原始特征图经第二支路处理后得到特征信息的权重向量；所述第一、第二支路的输出结果加权后得到新特征，再通过第三支路构建一个残差结构来得到增强缺陷权重的特征；

所述RPN网络对根据特征图在原始数据集中的原图上形成的初始包围框进行筛选和预测偏移，得到候选框；通过特征提取模块提取所述候选框的缺陷敏感特征，利用所述缺陷敏感特征确定损失函数；

(2)利用所述的缺陷回归检测网络模型对待检测图片进行分类预测和回归预测；并对预测的缺陷包围框进行非极大值抑制处理进行过滤，得到检测结果。

2.如权利要求1所述的的缺陷目标检测方法，其特征在于，得到缺陷回归检测网络模型的方法包括如下子步骤：

(1.3)以标准训练数据集作为检测网络模型的输入，利用特征提取模块提取缺陷敏感特征；

3.如权利要求1或2所述的缺陷目标检测方法，其特征在于，所构建的检测网络模型中，特征提取模块采用具有多个特征提取层的方向响应卷积网络，通过上采样的方式将提取的不同尺寸的特征图融合。

4.如权利要求2所述的缺陷目标检测方法，其特征在于，步骤(1.2)获得训练标签的方法为：

(1.2.2)将五个特征提取层的输出经过上采样、融合操作后得到四个不同尺寸的特征图Ftr＝[Ftr₁，Ftr₂，Ftr₃，Ftr₄]；

(1.2.4)计算每个初始包围框Q₀相对于四边形标注包围框G_q的位置偏移量和类别，当所有的标注包围框G_q与初始包围框Q₀的Jaccard系数均小于预设阈值，将对应的初始包围框Q₀标记为负类非缺陷，类别标签c取值为0；

若至少存在一个标注包围框G_q与Q₀的Jaccard系数不小于预设阈值，将对应的Q₀标记为正类缺陷，类别标签c取值为1；

并相对于Jaccard系数最大的标注盒来计算位置偏移量，得到最终的训练标签gt＝(Δx，Δy，Δw，Δh，c)；其中Δx、Δy为初始包围框中心点坐标偏移量，Δw、Δh为初始包围框长、宽的偏移量，c指示初始包围框内图片是否为缺陷。

5.如权利要求4所述的缺陷目标检测方法，其特征在于，通过特征提取模块来提取候选框的缺陷特征，根据候选框的位置信息和注意力缺陷的特征图得到不同尺寸的候选框的特征图，并将候选框特征图通过RoI池化操作，得到统一尺寸的特征图，再经过两个全连接层得到所有候选框的特征向量。

6.如权利要求2或4所述的缺陷目标检测方法，其特征在于，步骤(1.4)包括：将候选框的特征向量通过全连接层来压缩通道，将通道数压缩为缺陷类别数，得到每个候选框的类别分数，最大类别分数对应的类别即为预测的缺陷类别；对类别分数通过归一化指数函数处理得到每个缺陷类别的预测概率。

7.如权利要求2或4所述的缺陷目标检测方法，其特征在于，步骤(1.5)包括：

对标准训练数据集Itr的第k张图片Itr_k通过五个特征提取层的输出再经过上采样、融合操作得到的四个不同尺寸的特征图[Ftr₁，Ftr₂，Ftr₃，Ftr₄]，以每张特征图上的每个像素按照不同大小及长宽比对应到原图，再经过筛选、偏移后得到符合标准的初始候选框，将候选框的特征向量再经过全连接层，将通道压缩为候选框的4个坐标偏移信息

作为初始候选框Q被预测为正类缺陷框时中心点坐标和长宽值相对于标注包围框G_q位置的预测位置偏移量。

8.如权利要求1或2所述的缺陷目标检测方法，其特征在于，检测网络模型的目标损失函数包括分类分支的分类损失函数和回归分支的回归损失函数，目标损失函数表达式如下：

其中L、L_cls、L_reg分别表示目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数；x为训练图片Itr_k上初始包围框和标注包围框之间的匹配矩阵，x＝1表明初始包围框初始包围框和标注包围框相交且匹配成功，x＝0表明它们之间不匹配；N为训练图片Itr_k上初始包围框与标注包围框相交且匹配的数目；L_cls为预测的初始包围框分类得分C和初始包围框类别的softmax损失；L_reg为预测的正类包围框位置偏移量与正类包围框期望偏移量标签之间的平滑L₁回归损失；α是回归损失的权重系数。

9.如权利要求1或2所述的缺陷目标检测方法，其特征在于，待检测图片进行分类预测和回归预测的方法包括：

对于待检测图片集I_tst里的第k张图片I_tstk，将其输入到训练好的缺陷回归检测网络模型，将五个特征层的输出经过上采样、融合操作后得到的四个不同尺寸的特征图[Ftr₁ ，Ftr₂ ，Ftr₃ ，Ftr₄ ]，在四个特征图上的每个像素点(x_l，y_l)处，坐标对应了输入图像I_tstk上以(x_a，y_a)为中心点的不同大小和长宽比的初始包围框Q₀；

10.如权利要求1或2所述的缺陷目标检测方法，其特征在于，对预测的缺陷包围框进行非极大值抑制处理进行过滤的方法具体为：

检测网络模型对缺陷敏感特征图Ftst_p上每个预测为正类缺陷的初始包围框回归出四边形缺陷包围框的位置；

对同一张测试图片Itst_k上4个特征图上回归出的正类缺陷包围框出现重叠的情况，对所有正类缺陷包围框位置做非极大值抑制操作：