CN114792300B

CN114792300B - 一种基于多尺度注意力x光断针检测方法

Info

Publication number: CN114792300B
Application number: CN202210098820.3A
Authority: CN
Inventors: 庞子龙; 何欣; 张晨龙; 武戈; 李�赫
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2024-02-20
Anticipated expiration: 2042-01-27
Also published as: CN114792300A

Abstract

本发明公开一种基于多尺度注意力X光断针检测方法，本发明根据工业应用的特点，将多尺度注意力X光异物检测算法应用于X光异物检测，优化了残差神经网络的结构，这些改进使模型在工业级应用上检测速度和精度符合工业标准，确保模型的泛化能力强；相较传统的X光金属异物检测系统，基于深度学习的多尺度注意力X光异物检测算法可以检测本身含有金属的产品异物，经过重新训练后也可以根据用户需求识别其他异物，并可以快速部署在X光检针机上，实现了快速、全自动化、可保存数据、及时反馈的断针识别检测。

Description

一种基于多尺度注意力X光断针检测方法

技术领域

本发明属于X光断针检测技术领域，尤其涉及一种基于多尺度注意力X光断针检测方法，具体涉及纺织鞋服箱包等生产车间金属断针的异物检测工序。

背景技术

X光成像在医疗，安检设备上应用广泛，目前类似X光安检机的检针设备在其他厂家也有较少应用，但核心问题是无法做到类似金属检针机的自动检测与异物自动报警，需要额外的人工监看，漏检率高且无法匹配流水线的生产速率，因而只能作为产品的离线抽查检验设备。传统的检针机利用电磁感应，当铁磁性物体进入检测通道时，上下探头通过强磁场感应产生信号并把信号发送到信号接收处理集成块，然后有光电仪扫描感应、强电集成块、灵敏度控制集成块、信号接收集成块和信号输出集成块和执行元件来完成检测工作。但是如果产品本身存在金属，则会出现误检的情况。

随着深度学习在X光图像处理领域的研究热潮，近年来出现了基于深度卷积神经网络来单独检测某一类危险品、违禁品的应用，检出了90％以上的SMTs，误报率低于6％，相较于传统的方法提升了一个数量级，并展现了超出人工检测的能力。如果能解决X光图像中异物的自动识别，将给包括箱包、玩具、药品、食品等领域带来自动检测技术的提升，从而实现生产流水线的在线、实时检测。因此，研究基于深度学习的X光图像自动分析技术，实现金属断针的自动识别与检测，利用深度神经网络来自动学习特征是当下的研究热点。

发明内容

本发明针对现有工业应用中的X光检测无法做到类似金属检针机的自动检测与异物自动报警，需要额外的人工监看，漏检率高且无法匹配流水线的生产速率，因而只能作为产品的离线抽查检验设备的问题，提出一种基于多尺度注意力X光断针检测方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于多尺度注意力X光断针检测方法，包括：

步骤1，数据采集：使用X光图像采集卡，采集用于训练神经网络的X光异物图像数据集，并进行数据标注，标注内容包括异物的类别标签和位置信息，进行数据清洗；然后通过探索性数据分析将数据集根据异物尺寸、异物类别、图像尺寸、对比度进行归类并对异常或难样本采取数据清洗，去除缺失值和噪声数据，得到图像中异物标注框的四维向量信息，并将数据集按比例划分为训练集和测试集；

步骤2，训练X光断针检测模型：

步骤21，将步骤1得的数据集图像进行图像混合、标签平滑化、随机几何变换：随机裁剪、随机扩展、随机水平翻转、随机拉伸以及随机角度旋转；随机色彩变换：对比度、亮度、饱和度、色度的随机变换；

步骤22，构建Cascade R-CNN神经网络模型，使用公开ImageNet对Cascade R-CNN预训练权重进行迁移，得到神经网络的初始权重；

步骤23，将经过预处理的数据集进行差值图三通道处理：将待检测的图片作为第一通道；将预先采集的没有异物的模板图片作为第二通道；将第一通道和第二通道进行带权差值运算，运算结果作为第三通道；

步骤24，将差值图输入Cascade R-CNN中修改的ResNest50+FPN的骨干网络，提取待检测图像的特征；

步骤25，使用候选区域网络生成anchor box，对其进行裁剪过滤后通过Softmax分类器判断是否为异物，同时，使用边框回归算法修正anchor box，形成候选框窗口；把候选框窗口映射到CNN的最后一层卷积特征图上，并通过非最大值抑制算法剔除掉重叠的框，进一步筛选候选框；通过RoI池化层，使每个RoI生成固定尺寸的特征图；利用Softmax Loss和Smooth L1 Loss对分类概率和边框回归联合训练；最终计算与实际框的交并比IoU，与初设阈值对比，进行筛选，得到符合条件的异物检测框的四维信息；

步骤26，设置每次输出的IoU阈值逐步提升，最终得到符合条件的检测框，此时输出值为异物检测框的四维信息和IoU值；

步骤27，重复上述步骤进行迭代和反向传播，不断优化训练神经网络的权重，得到优化的Cascade R-CNN神经网络，并输入测试集，当测试集的并交比达到最终目标阈值时认为Cascade R-CNN神经网络训练完成；

步骤3，将步骤2得到的Cascade R-CNN神经网络模型应用于工业X光检针工序：将图像输入到Cascade R-CNN神经网络模型中，进行检测，将输出的检测框输入到ImageNet的分类器中，得到异物的类别，同Cascade R-CNN中得到的异物检测框的四维信息一起输出，最终完成检测；

步骤4，将四维信息所表示的异物检测框呈现在原图上，作为输出并进行存档。

进一步地，通过OHEM算法进行难样本挖掘。

进一步地，按照如下方式进行图像混合：

img_mixup＝lam*img_org+(1-lam)*img_mix

其中lam为超参数，通过随机数生成；img_org表示原图；img_mix表示混合图；img_mixup表示混合后图像、即合成图。

进一步地，按照如下方式进行标签平滑化：

q′(k|x)＝(1-∈)δ_k，y+∈u(k)

其中∈为超参数；u(k)表示类别分之一。

进一步地，按照如下方式构建Cascade R-CNN的骨干网络：

将ResNest50网络中Cardinal候选的卷积attention模块由两个变为三个，图片在输入网络后，依次经过一系列conv和relu得到的特征图，将多个由FPN生成的特征图逐个输入到候选区域网络，额外添加一个conv+relu层。

进一步地，所述Cascade R-CNN神经网络模型的损失函数为：

其中，对于每个anchor，N_cls为类别数目，在二分类任务中其值为2；L_cls是一个二分类的softmax Loss；表示是异物的概率；p_i表示不是异物的概率；t_i代表该anchor的4个坐标位置，i表示第i个anchor，当anchor是正样本时/>是负样本则为0；/>表示一个与正样本anchor相关的ground truth box坐标，则每组t均包含四维向量x,y,w,h，分别表示box的中心坐标和宽高；N_reg是经过边框回归算法得到的回归框数目；其中L_reg是Smooth L1Loss：

进一步地，所述候选框窗口按照如下方式生成：

将特征点映射回原图的感受野的中心点当成一个基准点，然后围绕这个基准点选取k个不同规模、长宽比的anchor；对于每一个anchor，通过卷积神经网络对其进行Softmax回归及进行二分类，判断其为正样本或者负样本。

进一步地，按照如下方式进行正负样本的判断：

对于训练集中的每张图像的所有anchor，对每个标定的ground truth box区域，与其重叠比例最大的anchor记为正样本；剩余的anchor，如果其与一标定的ground truthbox区域重叠比例大于0.7，记为正样本；如果其与任意一个标定的ground truth box区域重叠比例都小于0.3，则记为负样本。

与现有技术相比，本发明具有的有益效果：

本发明根据工业应用的特点，将多尺度注意力X光异物检测算法应用于X光异物检测，优化了残差神经网络的结构，这些改进使模型在工业级应用上检测速度和精度符合工业标准，确保模型的泛化能力强；相较传统的X光金属异物检测系统，基于深度学习的多尺度注意力X光异物检测算法可以检测本身含有金属的产品异物，经过重新训练后也可以根据用户需求识别其他异物，并可以快速部署在X光检针机上，实现了快速、全自动化、可保存数据、及时反馈的断针识别检测。

附图说明

图1为本发明实施例的一种基于多尺度注意力X光断针检测方法基本流程图；

图2为本发明实施例一种基于多尺度注意力X光断针检测方法的网络结构图；

图3为本发明实施例改进的ResNest50网络结构图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于多尺度注意力X光断针检测方法，包括：

步骤S101，数据采集。

使用X光图像采集卡，采集用于训练神经网络的X光异物图像数据集，并进行数据标注，标注内容包括异物的类别标签和位置信息，人工进行数据清洗。然后通过探索性数据分析(Exploratory Data Analysis)将数据集根据异物尺寸、异物类别、图像尺寸、对比度等大致归类并对异常或难样本(具体通过OHEM算法进行难样本挖掘)采取数据清洗，去除缺失值和噪声数据，得到图像中异物标注框的四维向量信息(x,y,w,h)，将数据集按照4：1的比例划分为训练集和测试集。

由X光图像采集卡采集待检测物体的X光图像作为训练集，使用labelimg对多批次采集的物体进行标注，其标注信息包括边缘框Bounding Box(x,y,w,h)和每个边缘框的类别标签。

检查数据集，对缺失值和噪声数据进行人工数据清洗，最后将数据集按照4：1划分训练集和测试集。

具体地，在步骤S101之前，还包括：搭建算法运行环境和硬件环境，在ubuntu系统上安装CUDA 11.1、Python 3.7、配置GPU版本的Pytorch 1.8.0。

步骤S102，训练X光断针检测模型。

步骤S102.1：将步骤S101得到的数据集图像进行图像混合(Mix-up)、标签平滑化(Label Smoothing)、随机几何变换(均设置范围和几率)：随机裁剪、随机扩展、随机水平翻转、随机拉伸(随机差值)以及随机角度旋转；随机色彩变换：对比度、亮度、饱和度、色度的随机变换。

对训练集进行数据预处理，其中包括图像混合(Mix-Up)，具体方法为记原图为img_org，混合图为img_mix，混合后图像为img_mixup，对于原图(img_org)和混合图(img_mix)的每一像素，对于每个通道，对二者进行固定比例的线性变换(逐像素相加)，公式为：

img_mixup＝lam*img_org+(1-lam)*img_mix

lam为超参数，通过随机数生成，lam符合参数为(alpha,alpha)的beta分布，默认取alpha＝1。则对于合成图，其损失函数变换为：

loss_mixup＝lam*loss_org+(1-lam)*loss_mix

其中，Loss_org和loss_mix分别为原始图片和混合图片的分类损失，其均为交叉熵损失函数，公式为：

其中y为图片的真实值，为图片在模型中输出的预测值，N为分类数。

将合成图进行标签平滑化(Label Smoothing)，对于分类标签y_i，有：

y′_i＝(1-∈)y_i+∈u(k)

将原本Dirac分布的标签变量替换为(1-∈)的Dirac函数,以概率∈，在u(k)中分布的随机变量(u(k)是类别分之一)；∈为超参数，需要多次实验来得到其取值，经实验取值为0.1，用更新的标签向量来替换传统编码的0，1标签向量；标签平滑化作为一个正则项，可以有效防止过拟合，使得模型对于难样本更加适应。

然后进行其他的数据增强：随机裁剪、随机扩展、随机水平翻转、随机拉伸(随机差值)、以及随机角度旋转。进行完上述操作后，统一将图像变换为(256,256)大小的图像，完成数据增强。

步骤S102.2：构建Cascade R-CNN神经网络模型，使用公开ImageNet对Cascade R-CNN预训练权重进行迁移，得到神经网络的初始权重。

具体地，可以采用公开数据集ImageNet的X光图像进行迁移学习，通过预训练模型作为检查点开始训练生成神经网络模型实现对新任务的支持，或者直接加载其他CascadeR-CNN神经网络模型的参数，在其基础上进行参数迁移，并进行特征微调。

步骤S102.3：将经过预处理的数据集进行差值图三通道处理，其中，差值图三通道使用如下方法构成：

将待检测的图片作为第一通道；将预先采集的没有异物的模板图片作为第二通道；将第一通道和第二通道进行带权差值运算，运算结果作为第三通道，其中差值运算的权重由实验获得。需要说明的是，本发明中用于提取特征的卷积神经网络采用开源的X光图像数据集(即公开ImageNet)进行与训练权重，已初步具备较好的特征提取能力。由于输入层调整为差值图三通道，因此在进行特征提取前对其使用差值图的数据集进行特征微调。

步骤S102.4：将差值图输入Cascade R-CNN中修改的ResNest50+FPN的骨干网络，提取待检测图像的特征。

骨干网络为ResNest50+特征金字塔网络(Feature Pyramid Network)，并针对ResNest对于工业应用的特点，对其网络进行修改，将Cardinal候选的卷积模块由两个变为三个，图片在输入网络后，依次经过一系列conv和relu得到的特征图，将多个由FPN生成的feature map逐个输入到候选区域网络，额外添加一个conv+relu层，输出51*39*256维特征。准备后续用来选取proposal，并且此时坐标依然可以映射回原图。

将差值图输入到Cascade R-CNN神经网络模型中经过修改的ResNest50+FPN的骨干神经网络中，经过多次卷积池化提取特征，得到特征图，对每一层的残差块，计算公式为：

x_l+1＝x_l+F(x_l,W_l)

在基于对ResNeSt网络的修改，加入分散注意力机制：

S(x)＝F₁(x_l,W_l)+F₂(x_l,W_l)

针对工业级的小异物，本发明将分散注意力的卷积attention的模块由两个增加为三个，将特征分割为多个低维嵌入，并聚合得到S_c(x)，能较好地获得深层语义特征：

S_c(x)＝F₁(x_l,W_l)+F₂(x_l,W_l)+F₃(x_l,W_l)

其中F1、F2、F3分别为卷积神经网络卷积块，对于每个低维嵌入进行卷积操作得到特征图，于是对于输出x_L，其最终计算公式为：

对于FPN网络，设每一层特征金字塔自下而上的层数缩放比例

scale(f1,f2,f3,f4)＝(1/4,1/8,1/16,1/32)

最终输出特征图的特征为51*39*256，并由记录向量spatial_scale记录缩放的倍数，以便后续映射回原尺寸。

步骤S102.5：使用候选区域网络(Region Proposal Network,简称RPN)生成anchor box，对其进行裁剪过滤后通过Softmax分类器判断是否为异物，同时，使用边框回归(Bounding Box Regression)算法修正anchor box，形成较精确的候选框窗口。把候选框窗口映射到CNN的最后一层卷积feature map上，并通过非最大值抑制(Non-MaximumSuppression,简称NMS)算法剔除掉重叠的框，进一步筛选候选框；通过RoI池化层(RoIPooling),使每个RoI生成固定尺寸的特征图；利用Softmax Loss(探测分类概率)和SmoothL1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练。最终计算与实际框的IoU(交并比)，与初设阈值对比，进行筛选，得到符合条件的异物检测框的四维信息。

Cascade R-CNN神经网络模型的损失函数为：

其中，对于每个anchor，N_cls为类别数目，在二分类任务中其值为2，L_cls是一个二分类的softmax，有2个score输出用以表示其是异物的概率与不是异物的概率(p_i)，然后再接上一个bounding box的regressor输出，代表这个anchor的4个坐标位置(t_i)，i表示第i个anchor，当anchor是正样本时/>是负样本则为0。/>表示一个与正样本anchor相关的ground truth box坐标，则每组t均包含四维向量x,y,w,h，分别表示box的中心坐标和宽高。其中N_reg是经过边框回归算法得到的回归框数目，L_reg是：

Cascade R-CNN神经网络结构，其梯度下降算法的优化器为Adam，使用余弦退火学习率(Cosine Annealing)：

其中和/>代表学习率变化的范围；T_cur代表上次重启后，经过了多少个epoch；T_i代表第i次重启，一共需要训练多少个epoch。

进一步地，步骤S102.5包括：

步骤S102.5.1：根据提取到的特征，将特征图输入至候选区域网络，计算初步得到提取候选框。

其中，候选区域网络算法实施的具体流程为:

对于输入的特征图，将其放缩为800*600的尺寸，通过第五层卷积层后对于图像的每个点上设置k个anchor(默认k＝9),特征点映射回原图的感受野的中心点当成一个基准点，然后围绕这个基准点选取k个不同scale(规模)、aspect ratio(长宽比)的anchor，每个anchor分为positive和negative，每个anchor都有(x,y,w,h)对应4个偏移量分别对应检测框的左上和右下角点坐标9个矩形共有3种形状，长宽比大约为{1:1,1:2,2:1}三种。对于每一个anchor，通过卷积神经网络对其Softmax回归及进行二分类，判断其为positive(正样本)或者negative(负样本)。

候选区域网络，对于正负样本的划分：考察训练集中的每张图像(含有人工标定的ground truth box)的所有anchor(N*M*k)，对每个标定的ground truth box区域，与其重叠比例最大的anchor记为正样本(保证每个ground true至少对应一个正样本anchor)；剩余的anchor，如果其与某个标定区域重叠比例大于0.7，记为正样本(每个ground truthbox可能会对应多个正样本anchor。但每个正样本anchor只可能对应一个grand truebox)；如果其与任意一个标定的重叠比例都小于0.3，记为负样本。

对于生成的多个Positive Anchor，为了进行进一步的筛选，采取Bounding BoxRegression(边缘框回归)算法，具体流程为：

对于窗口一般使用四维向量{x,y,w,h}表示，分别表示窗口的中心点坐标和宽高。给定候选锚点anchor A和标记锚点GT：

A＝(A_x,A_y,A_w,A_h),GT＝[G_x,G_y,G_w,G_h]

给定A到GT的映射：

G′_x＝A_w*d_x(A)+A_x

G′_y＝A_h*d_y(A)+A_y

用线性回归来建模对窗口进行微调，对给定的输入的四个特征向量,学习一组参数W_*设置Loss函数为：

其中表示真实值；

优化目标：

使得X经过线性回归后的值跟真实值GT接近，最终得到其平移和缩放的特征向量，从而达到针对Positive Anchor的回归参数，使其近似GT。需要说明，只有在GT与需要回归框位置比较接近时，近似认为上述线性变换成立。

步骤S102.5.2：将步骤S102.4中进行Bounding Box Regression回归后的anchors按照置信度进行排序，限定超出图像边界的positive anchors为图像边界，防止后续ROIPooling时proposal超出图像边界，剔除尺寸非常小的positive anchors并利用NMS算法去除冗余的预测对象，并对预测对象proposals进行输出。其中NMS算法的IoU阈值经实验设置为0.45，Loss函数为：

L_nms＝-log_pu

即真实类别u对应的log损失，p是C个类别的预测概率。实际相当于增加分类误差。

步骤S102.5.3：使用RoI Pooling层，收集proposal，使用spatial_scale参数将其映射回(M/16)x(N/16)大小的feature map尺度；再将每个proposal对应的feature map区域水平分为[pooled_w*pooled_h]的网格；对网格的每一份都进行max pooling处理。并计算出proposal feature maps，送入后续网络。

步骤S102.5.4：利用已经获得的proposal feature maps，通过全连接层与softmax计算每个proposal具体属于的类别(在实验中，将异物分为九个类别)，输出分类后的概率向量；同时再次利用bounding box regression获得每个proposal的位置偏移量，用于回归更加精确的目标检测框。最后输出生成检测框的位置信息、置信度以及异物的类别。

步骤S102.6：设置步骤S102.5.4的输出值作为输入值，再次重复步骤S102.5.4之前的步骤，并设置每次输出的IoU阈值逐步提升，分别为0.5，0.6，0.7，最终得到符合条件的检测框，此时输出值为异物检测框的四维信息和IoU值。

步骤S102.7：重复上述步骤进行迭代和反向传播，不断优化训练神经网络的权重，迭代多轮，得到权重良好的Cascade R-CNN神经网络，并输入测试集，当测试集的并交比达到最终目标阈值时认为Cascade R-CNN神经网络训练完成。在多次实验获得迭代240轮的网络参数具备工业应用的要求。

步骤S103：将Cascade R-CNN神经网络模型用于检测。

将步骤S102得到的Cascade R-CNN训练参数良好的神经网络模型应用于工业X光检针工序：将图像输入步骤S102得到的Cascade R-CNN神经网络模型中，进行检测，将输出的检测框输入到ImageNet的分类器中，得到异物的类别，同Cascade R-CNN中得到的异物检测框的四维信息一起输出，最终完成检测。

步骤S103的分类器，其只针对生成候选框中的异物进行分类，其分类损失函数为：

如图1为整个X光图像的检针流程，首先将待检测物体放入X光机，采集待检测的X光图像，并将其输入至图像分析系统，统一对图像进行预处理，随后输入到训练好的Cacscade R-CNN神经网络模型中，得到异物标记框的四维向量和标签向量，并呈现在显示系统上，检测完成。

步骤S104：将四维信息所表示的异物检测框呈现在原图上，作为输出并进行存档。

进一步的说明如下：

步骤S102.4利用卷积神经网络作为特征提取器，对加载的图像不断地进行卷积和下采样，完成前向传播，提取该输入图像在不同尺寸下原始特征，得到特征图；卷积神经网络具有容错性高，自学能力强等优点，同时还具有权值共享，自动提取特征等优势。其在图像识别和目标检测领域展现了较大的优势。

在步骤S102.4中，如图2、图3，采用修改的ResNest50网络，采用分散注意力机制对神经网络进行训练，在BottleNeck基础上，将卷积层根据感受野的不同分成几个不同子模块，从而形成切片的注意力监督机制，来增加特征的上下文信息，用于增强特征表达。

步骤S102.4中引入了特征金字塔网络结构，其原理是，在单一图片视图下通过多尺度变化，对每一种尺度(本发明采用三种不同尺度)的图像进行特征提取，产生多尺度的特征表示，将采样的结果进行连接并融合，得到融合特征，从而对该图片生成对其的多维度特征表达，低层的特征语义信息较少，但可以提供准确的目标位置，为高层的丰富特征语义信息提供精准定位，生成出表达能力更强的特征图像，为了消除上采样的混叠效应，在融合之后对每个融合结果进行卷积(卷积核大小为3*3)，最终达到预测的效果。

在步骤S102.5中，生成预测框的方式为：

首先在原图尺度上，对于每个确定提取特征下采样不同深度的特征图，根据采样深度设置不同数量的候选锚框集合，每个集合上设置九个不同尺寸的候选框，每一个锚框都具有四维的特征向量。

对于每个锚框的特征向量进行分类和边框回归，并进行汇总，从而实现初步筛除和初步偏移，经过归一化得到每一类候选框的置信度值，并同初设交并比阈值进行对比，将高于阈值的锚框作为候选框进行保存，低于阈值的锚框直接删除，从而达到筛选候选框的目的,进一步计算出该对象所处的位置，最终得到一组边界框列表。

值得说明的是：

对于输入图像进行差值图三通道处理，并通过预训练参数后的Cascade R-CNN神经网络模型，使得异物的特征更加明显，而特征金字塔对多层特征进行融合，也起到加深异物特征的效果，经过反向传播进行学习.

其中，置信度阈值可以根据用户的需求自行设置，对于检测精度要求较低的项目，则选择低阈值，来提升检测速度；检测精度要求高的项目，提高阈值，来提升检测精度，灵活方便。

在上述方案中，对X光图像进行差值图处理，先通过处理获得待检测图的灰度处理，将处理后模板图与待检测图进行差值运算得到差值图，将得到的差值图与灰度处理的模板图、待检测图组成三通道输入进神经网络，它的优势在于突出图像的差值信息，使得异物部分特征更加明显，检测精度提高。

在上述方案中，使用Cascade R-CNN作为目标检测模型，其蕴含多种网络结构，使用起来十分灵活，可以根据不同的项目需求，取长补短，发挥不同检测网络的优势，其基于Pytorch框架，更易于移植。在保持非常轻量级的模型大小的同时在准确度方面又与Cascade R-CNN基准相当。

综上，本发明根据工业应用的特点，将多尺度注意力X光异物检测算法应用于X光异物检测，优化了残差神经网络的结构，这些改进使模型在工业级应用上检测速度和精度符合工业标准，确保模型的泛化能力强；相较传统的X光金属异物检测系统，基于深度学习的多尺度注意力X光异物检测算法可以检测本身含有金属的产品异物，经过重新训练后也可以根据用户需求识别其他异物，并可以快速部署在X光检针机上，实现了快速、全自动化、可保存数据、及时反馈的断针识别检测。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多尺度注意力X光断针检测方法，其特征在于，包括：

步骤2，训练X光断针检测模型：

2.根据权利要求1所述的一种基于多尺度注意力X光断针检测方法，其特征在于，所述步骤1中，通过OHEM算法进行难样本挖掘。

3.根据权利要求1所述的一种基于多尺度注意力X光断针检测方法，其特征在于，按照如下方式进行图像混合：

img_mixup＝lam*img_org+(1-lam)*img_mix

4.根据权利要求1所述的一种基于多尺度注意力X光断针检测方法，其特征在于，按照如下方式进行标签平滑化：

q′(k|x)＝(1-∈)δ_k，y+∈u(k)

其中∈为超参数；u(k)表示类别分之一。

5.根据权利要求1所述的一种基于多尺度注意力X光断针检测方法，其特征在于，按照如下方式构建Cascade R-CNN的骨干网络：

6.根据权利要求1所述的一种基于多尺度注意力X光断针检测方法，其特征在于，所述Cascade R-CNN神经网络模型的损失函数为：

其中，对于每个anchor，N_cls为类别数目，在二分类任务中其值为2；L_cls是一个二分类的softmax Loss；表示是异物的概率；p_i表示不是异物的概率；t_i代表该anchor的4个坐标位置，i表示第i个anchor，当anchor是正样本时/>是负样本则为0；/>表示一个与正样本anchor相关的ground truth box坐标，则每组t均包含四维向量x,y,w,h，分别表示box的中心坐标和宽高；N_reg是经过边框回归算法得到的回归框数目；其中L_reg是Smooth L1 Loss：

7.根据权利要求1所述的一种基于多尺度注意力X光断针检测方法，其特征在于，所述候选框窗口按照如下方式生成：

8.根据权利要求7所述的一种基于多尺度注意力X光断针检测方法，其特征在于，按照如下方式进行正负样本的判断：

对于训练集中的每张图像的所有anchor，对每个标定的ground truth box区域，与其重叠比例最大的anchor记为正样本；剩余的anchor，如果其与一标定的ground truth box区域重叠比例大于0.7，记为正样本；如果其与任意一个标定的ground truth box区域重叠比例都小于0.3，则记为负样本。