CN113822265A

CN113822265A - 一种基于深度学习的x光安检图像中非金属打火机检测方法

Info

Publication number: CN113822265A
Application number: CN202110958470.9A
Authority: CN
Inventors: 黄志清; 张煜森
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-21

Abstract

本发明公开了一种基于深度学习的X光安检图像中非金属打火机检测方法，该方法的数据增强与多尺度训练使用3种不同的数据增强方法并以mix‑up的方式融合数据增强数据，提升对于非金属打火机的定位能力。应用X光安检图像非金属打火机识别模型，将真实场景下的X光安检图像输入的模型，模型的直接输出非金属打火机检出结果。三种数据增强方式以及多尺度训练提升了模型对于真实场景下X光安检图像非金属打火机检出的泛化能力。在特征提取网络种引入改进型通道注意力，提升模型对于非金属打火机有效特征的提取，在特征融合阶段设计了DO‑PAN网络结构，加强浅层特征与深层特征的融合，提高模型对于非金属打火机的识别能力，使用Focalloss损失函数代替交叉熵损失函数。

Description

一种基于深度学习的X光安检图像中非金属打火机检测方法

技术领域

本发明属于目标检测领域，是一种基于深度学习的X光安检图像中非金属打火机检出方法，可应用于智能X光安检系统，协助安检人员检出非金属打火机这类违禁物品。

背景技术

X光行李安全检查对于维护公共安全有着重要意义。X射线对不同材质的物品的穿透程度不同使得不同物品其成像颜色不同，从而发现包裹中的违禁物品。目前行李安全检查还是依靠安检人员根据X光安检图像肉眼判断包裹中是否含有违禁物品，但是随着公共交通的不断发展，出行游客人数激增，使得安检人员常年处于高压状态。实现智能行李安全检查将极大有利于提高安检效率，降低安检人员工作强度。目前基于深度学习的目标检测技术取得了巨大的突破，相比于传统目标检测算法准确率，泛化性大幅提升。但是目前还没有针对X光安检图像非金属打火机的检出方法。

X光安检图像中非金属打火机识别难点如下：1.非金属打火机体积极小，而安检图像普遍分辨率极高，并且非金属打火机尺寸不一，即使同一种非金属打火机在不同图像中相对大小变化也不相同。2.由于X光安检成像仅与物品厚度密度相关，非金属打火机在X光安检图像中成黄色，与大多数非违禁物品如塑料，食品颜色相似，导致真实场景下非金属打火机背景复杂混乱。3.由于真实场景下，行李中多种物品重叠遮挡现象严重，即使肉眼也很难分辨出其中的非金属打火机。

发明内容

本发明的目的在于针对X光安检图像非金属打火机检出任务提出基于深度学习的端到端非金属打火机检出模型，如图1所示，输入任意大小的X光安检图像，模型直接输出非金属打火机位置信息。

为实现上述目的以及鉴于安检系统对于实时性的要求与准确率的要求，本发明采用的技术方案为基于深度学习的基于深度学习的X光安检图像非金属打火机检出方法，该方法分为两步：

(1)数据增强与多尺度训练：模型训练所用数据，来自机场安检口、地铁安检口真实场景下采集的X光安检图像，共计896张图像，并且对该896张图像组成的数据集进行数据增强，使用3种不同的数据增强方法，并且以mix-up的方式融合数据增强数据，提升对于非金属打火机的定位能力。为提升模型对于任意尺度的X光安检图像具有较好的识别能力，在训练时使用多尺度训练方式，每10次迭代将图像输入大小调整为320至608之间的任意的32的倍数大小。

(2)端到端模型：应用X光安检图像非金属打火机识别模型，将真实场景下的X光安检图像输入的模型，模型的直接输出非金属打火机检出结果。

进一步地，所述的数据集包括单包裹图像以及复杂的多包裹图像，使用Labelimg对该数据集图像按照PASCAL VOC格式进行标注，为扩充数据集提升模型泛化性能，使用随机裁剪、随机旋转、随机仿射变换三种数据增强方式，将这些数据以Mix-Up方式进行融合，有效扩充数据集使增强模型对于非金属打火机定位。

进一步地，非金属打火机识别模型的流程为：将任意大小的X光安检图像输入卷积神经网络，经过一系列卷积操作，提取非金属打火机特征，之后对特征向量进行回归与分类，输出非金属打火机坐标以及类别信息。

进一步地，非金属打火机识别模型分为2个部分，非金属打火机特征提取网络部分，以及多尺度特征融合与模型检测部分。非金属打火机特征提取网络部分，使用YOLOv4中的CSPdarknet53网络，其网络结构，特征提取网络含有五个跨阶段局部网络，每个局部网络中分别还有1，2，8，8，4个残差模块。多尺度特征融合与模型检测部分采用改进型通道注意力模块加强特征提取网络，对于非金属打火机有效特征的提取，使用全局最大池化与全局平均池化共同反应通道的响应情况。

M_c(F)^*＝σ(MLP(δ(MLP(MaxPool(AvgPool(F))))))

进一步地，在特征提取网络中对特征图进行五次下采样，设计Do-PAN特征融合模块，使用Do-Conv替换普通卷积，将浅层特征与深层特征融合，进一步提升模型对于非金属打火机这类小目标的识别准确率。

进一步地，模型的三种输出特征图上，每个像素点预测一个3*(4+1+1)维的向量，其中3表示如果目标中心位于该像素点，该像素点将预测3种边界框，4表示坐标向量，1表示置信度向量和类别概率向量。

附图说明

图1是端到端识别模型图。

图2是本发明模型的X光安检图像非金属打火机检出结果图。

图3是真实场景下X光安检图像。

图4是数据增强及数据融合结果。

图5是非金属打火机特征提取网络。

图6是不同注意力机制可视化结果对比图。

图7是Do-PAN模块结构图。

图8是不同模型简单包裹识别结果图。

图9是不同模型复杂包裹识别结果图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

(1)数据增强：本发明使用随机裁剪(b)，随机旋转(c),随机仿射变换(d)三种数据增强方式，将数据集总量扩张了三倍，并使用Mix-Up方式将数据进行融合。

(2)数据输入到神经网络模型之后，使用单块Tesla V100 GPU进行训练,设置批大小为4,使用SGD优化器，本模型设置初始学习率为0.0001，权重衰减率设置为0.0005,动量设置为0.9，使用学习率余弦衰减的方式，在训练最初的两个epoch里,采用学习率热身的方式将学习率从0平滑的增加到初始学习率。模型训练40个epoch后开始收敛，训练时长约8个小时。

(3)训练好神经网络模型之后，输入一张任意大小的X光安检图像，模型能够输出非金属打火机检出结果。

基于深度学习的基于深度学习的X光安检图像非金属打火机检出方法，该方法一共分为两步：

(3)数据增强与多尺度训练：本发明模型训练所用数据，来自机场安检口，地铁安检口等真实场景下采集的X光安检图像，共计896张，并且对该数据集进行数据增强，使用3种不同的数据增强方法，并且以mix-up的方式融合数据增强数据，提升模型对于非金属打火机的定位能力。为提升模型对于任意尺度的X光安检图像具有较好的识别能力，本发明在训练时使用多尺度训练方式，每10次迭代将图像输入大小调整为320至608之间的任意的32的倍数大小。

(4)端到端模型：图2展示了应用本发明的X光安检图像非金属打火机识别模型，将真实场景下的X光安检图像输入的模型，模型的直接输出非金属打火机检出结果。

本发明核心算法

1.数据预处理

本发明数据集采集自机场安检口，地铁安检口等真实场景下的高分辨率X光安检图像，如图3所示，本发明数据集包括简单的单包裹图像,以及复杂的多包裹图像，共计896张，随后由专业人员使用Labelimg对该数据集图像按照PASCAL VOC格式进行标注，为扩充数据集提升模型泛化性能，如图4所示，本发明使用随机裁剪(b)、随机旋转(c)、随机仿射变换(d)三种数据增强方式,然后将这些数据以Mix-Up方式进行融合(d),不仅有效扩充数据集还能增强模型的对于非金属打火机这类极小违禁品的定位能力。

2.端到端X光非金属打火机识别模型

非金属打火机识别模型的流程为：将任意大小的X光安检图像输入卷积神经网络，经过一系列卷积操作，提取非金属打火机特征，之后对特征向量进行回归与分类，输出非金属打火机坐标以及类别信息。

本发明模型分为2个部分，非金属打火机特征提取网络部分，以及多尺度特征融合与模型检测部分。特征提取网络部分，本发明使用YOLOv4中的CSPdarknet53网络，其网络结构如图5所示，特征提取网络含有五个跨阶段局部网络，每个局部网络中分别还有1，2，8，8，4个残差模块。此外，X光安检机通过X光透射成像，其成像颜色与物品的材质相关，非金属打火机与衣物，饮料瓶等多种安全物品颜色接近，再加之实际安检物品随机摆放，导致图像背景与非金属打火机重叠难以区分，识别难度极高。注意力机制常被应用于计算机视觉领域，使得网络关注重点信息，忽略无关冗余特征。非金属打火机识别任务中，非金属打火机与背景物品特征接近，本发明认为使用全局平均池化的通道注意力并不能准确反应该通道对于检测目标的响应情况。并且非金属打火机体积较小且位置与图像结构无关，空间注意力机制的引入将破坏特征的真实分布，不利于模型提取有效特征。因此如下式，本发明提出一种改进型通道注意力模块加强特征提取网络对于非金属打火机有效特征的提取，改模块使用全局最大池化与全局平均池化共同反应通道的响应情况。如图6所示，本发明设计的改进型通道注意力模块性能更优。

M_c(F)^*＝σ(MLP(δ(MLP(MaxPool(AvgPool(F))))))

在特征提取网络中对特征图进行五次下采样,而对于非金属打火机来说，下采样操作可能导致非金属打火机特征丢失,为提高非金属打火机识别准确率，如图7所示，本发明设计了Do-PAN特征融合模块，使用Do-Conv(depth-wise over parameterizedconvolutional layer)替换普通卷积，将浅层特征与深层特征融合，进一步提升模型对于非金属打火机这类小目标的识别准确率。

如图7所示，本发明模型3种输出特征图上，每个像素点预测一个3*(4+1+1)维的向量，其中3表示如果目标中心位于该像素点，该像素点将预测3种边界框，4表示坐标向量，1表示置信度向量和类别概率向量。

本发明对不同模型使用相同数据集训练100个epoch，实验结果如下表所示。相比于SSD，Retina-Net，YOLOv 4本发明所提模型的非金属打火机识别准确率分别提升27％，15％，9％。推理时间相比于SSD，YOLOv 4增加了约11毫秒，相比于Retina-Net减少了10毫秒。实验结果表明，本发明设计的非金属打火机识别模型，在轻微降低实时性的情况下，达到了最优的识别结果。

表1识别结果对比表

本专利的核心技术包括：

(1)引入随机裁剪，随机仿射变化，随机旋转等三种数据增强方式以及多尺度训练提升了模型对于真实场景下X光安检图像非金属打火机检出的泛化能力。

(2)设计了端到端X光安检图像非金属打火机识别模型，在特征提取网络种引入改进型通道注意力，提升模型对于非金属打火机有效特征的提取，在特征融合阶段设计了DO-PAN网络结构，加强了浅层特征与深层特征的融合，提高模型对于非金属打火机这类小目标的识别能力，并且使用Focal loss损失函数代替交叉熵损失函数。

Claims

1.一种基于深度学习的X光安检图像中非金属打火机检测方法，其特征在于：该方法分为两步，

(1)数据增强与多尺度训练：模型训练所用数据，来自机场安检口、地铁安检口真实场景下采集的X光安检图像，共计896张图像，并且对该896张图像组成的数据集进行数据增强，使用3种不同的数据增强方法，并且以mix-up的方式融合数据增强数据，提升对于非金属打火机的定位能力；为提升模型对于任意尺度的X光安检图像具有较好的识别能力，在训练时使用多尺度训练方式，每10次迭代将图像输入大小调整为320至608之间的任意的32的倍数大小；

2.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法，其特征在于：所述的数据集包括单包裹图像以及复杂的多包裹图像，使用Labelimg对该数据集图像按照PASCALVOC格式进行标注，为扩充数据集提升模型泛化性能，使用随机裁剪、随机旋转、随机仿射变换三种数据增强方式，将这些数据以Mix-Up方式进行融合，有效扩充数据集使增强模型对于非金属打火机定位。

3.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法，其特征在于：非金属打火机识别模型的流程为：将任意大小的X光安检图像输入卷积神经网络，经过一系列卷积操作，提取非金属打火机特征，之后对特征向量进行回归与分类，输出非金属打火机坐标以及类别信息。

4.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法，其特征在于：非金属打火机识别模型分为2个部分，非金属打火机特征提取网络部分，以及多尺度特征融合与模型检测部分；非金属打火机特征提取网络部分，使用YOLOv4中的CSPdarknet53网络，其网络结构，特征提取网络含有五个跨阶段局部网络，每个局部网络中分别还有1，2，8，8，4个残差模块；多尺度特征融合与模型检测部分采用改进型通道注意力模块加强特征提取网络，对于非金属打火机有效特征的提取，使用全局最大池化与全局平均池化共同反应通道的响应情况。

5.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法，其特征在于：在特征提取网络中对特征图进行五次下采样，设计Do-PAN特征融合模块，使用Do-Conv替换普通卷积，将浅层特征与深层特征融合，进一步提升模型对于非金属打火机小目标的识别准确率。

6.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法，其特征在于：模型的三种输出特征图上，每个像素点预测一个3*(4+1+1)维的向量，其中3表示如果目标中心位于该像素点，该像素点将预测3种边界框，4表示坐标向量，1表示置信度向量和类别概率向量。