CN113822265A - 一种基于深度学习的x光安检图像中非金属打火机检测方法 - Google Patents
一种基于深度学习的x光安检图像中非金属打火机检测方法 Download PDFInfo
- Publication number
- CN113822265A CN113822265A CN202110958470.9A CN202110958470A CN113822265A CN 113822265 A CN113822265 A CN 113822265A CN 202110958470 A CN202110958470 A CN 202110958470A CN 113822265 A CN113822265 A CN 113822265A
- Authority
- CN
- China
- Prior art keywords
- model
- lighter
- security inspection
- metal lighter
- inspection image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910052755 nonmetal Inorganic materials 0.000 title claims abstract description 82
- 238000007689 inspection Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 235000013361 beverage Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
Abstract
本发明公开了一种基于深度学习的X光安检图像中非金属打火机检测方法,该方法的数据增强与多尺度训练使用3种不同的数据增强方法并以mix‑up的方式融合数据增强数据,提升对于非金属打火机的定位能力。应用X光安检图像非金属打火机识别模型,将真实场景下的X光安检图像输入的模型,模型的直接输出非金属打火机检出结果。三种数据增强方式以及多尺度训练提升了模型对于真实场景下X光安检图像非金属打火机检出的泛化能力。在特征提取网络种引入改进型通道注意力,提升模型对于非金属打火机有效特征的提取,在特征融合阶段设计了DO‑PAN网络结构,加强浅层特征与深层特征的融合,提高模型对于非金属打火机的识别能力,使用Focalloss损失函数代替交叉熵损失函数。
Description
技术领域
本发明属于目标检测领域,是一种基于深度学习的X光安检图像中非金属打火机检出方法,可应用于智能X光安检系统,协助安检人员检出非金属打火机这类违禁物品。
背景技术
X光行李安全检查对于维护公共安全有着重要意义。X射线对不同材质的物品的穿透程度不同使得不同物品其成像颜色不同,从而发现包裹中的违禁物品。目前行李安全检查还是依靠安检人员根据X光安检图像肉眼判断包裹中是否含有违禁物品,但是随着公共交通的不断发展,出行游客人数激增,使得安检人员常年处于高压状态。实现智能行李安全检查将极大有利于提高安检效率,降低安检人员工作强度。目前基于深度学习的目标检测技术取得了巨大的突破,相比于传统目标检测算法准确率,泛化性大幅提升。但是目前还没有针对X光安检图像非金属打火机的检出方法。
X光安检图像中非金属打火机识别难点如下:1.非金属打火机体积极小,而安检图像普遍分辨率极高,并且非金属打火机尺寸不一,即使同一种非金属打火机在不同图像中相对大小变化也不相同。2.由于X光安检成像仅与物品厚度密度相关,非金属打火机在X光安检图像中成黄色,与大多数非违禁物品如塑料,食品颜色相似,导致真实场景下非金属打火机背景复杂混乱。3.由于真实场景下,行李中多种物品重叠遮挡现象严重,即使肉眼也很难分辨出其中的非金属打火机。
发明内容
本发明的目的在于针对X光安检图像非金属打火机检出任务提出基于深度学习的端到端非金属打火机检出模型,如图1所示,输入任意大小的X光安检图像,模型直接输出非金属打火机位置信息。
为实现上述目的以及鉴于安检系统对于实时性的要求与准确率的要求,本发明采用的技术方案为基于深度学习的基于深度学习的X光安检图像非金属打火机检出方法,该方法分为两步:
(1)数据增强与多尺度训练:模型训练所用数据,来自机场安检口、地铁安检口真实场景下采集的X光安检图像,共计896张图像,并且对该896张图像组成的数据集进行数据增强,使用3种不同的数据增强方法,并且以mix-up的方式融合数据增强数据,提升对于非金属打火机的定位能力。为提升模型对于任意尺度的X光安检图像具有较好的识别能力,在训练时使用多尺度训练方式,每10次迭代将图像输入大小调整为320至608之间的任意的32的倍数大小。
(2)端到端模型:应用X光安检图像非金属打火机识别模型,将真实场景下的X光安检图像输入的模型,模型的直接输出非金属打火机检出结果。
进一步地,所述的数据集包括单包裹图像以及复杂的多包裹图像,使用Labelimg对该数据集图像按照PASCAL VOC格式进行标注,为扩充数据集提升模型泛化性能,使用随机裁剪、随机旋转、随机仿射变换三种数据增强方式,将这些数据以Mix-Up方式进行融合,有效扩充数据集使增强模型对于非金属打火机定位。
进一步地,非金属打火机识别模型的流程为:将任意大小的X光安检图像输入卷积神经网络,经过一系列卷积操作,提取非金属打火机特征,之后对特征向量进行回归与分类,输出非金属打火机坐标以及类别信息。
进一步地,非金属打火机识别模型分为2个部分,非金属打火机特征提取网络部分,以及多尺度特征融合与模型检测部分。非金属打火机特征提取网络部分,使用YOLOv4中的CSPdarknet53网络,其网络结构,特征提取网络含有五个跨阶段局部网络,每个局部网络中分别还有1,2,8,8,4个残差模块。多尺度特征融合与模型检测部分采用改进型通道注意力模块加强特征提取网络,对于非金属打火机有效特征的提取,使用全局最大池化与全局平均池化共同反应通道的响应情况。
Mc(F)*=σ(MLP(δ(MLP(MaxPool(AvgPool(F))))))
进一步地,在特征提取网络中对特征图进行五次下采样,设计Do-PAN特征融合模块,使用Do-Conv替换普通卷积,将浅层特征与深层特征融合,进一步提升模型对于非金属打火机这类小目标的识别准确率。
进一步地,模型的三种输出特征图上,每个像素点预测一个3*(4+1+1)维的向量,其中3表示如果目标中心位于该像素点,该像素点将预测3种边界框,4表示坐标向量,1表示置信度向量和类别概率向量。
附图说明
图1是端到端识别模型图。
图2是本发明模型的X光安检图像非金属打火机检出结果图。
图3是真实场景下X光安检图像。
图4是数据增强及数据融合结果。
图5是非金属打火机特征提取网络。
图6是不同注意力机制可视化结果对比图。
图7是Do-PAN模块结构图。
图8是不同模型简单包裹识别结果图。
图9是不同模型复杂包裹识别结果图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
(1)数据增强:本发明使用随机裁剪(b),随机旋转(c),随机仿射变换(d)三种数据增强方式,将数据集总量扩张了三倍,并使用Mix-Up方式将数据进行融合。
(2)数据输入到神经网络模型之后,使用单块Tesla V100 GPU进行训练,设置批大小为4,使用SGD优化器,本模型设置初始学习率为0.0001,权重衰减率设置为0.0005,动量设置为0.9,使用学习率余弦衰减的方式,在训练最初的两个epoch里,采用学习率热身的方式将学习率从0平滑的增加到初始学习率。模型训练40个epoch后开始收敛,训练时长约8个小时。
(3)训练好神经网络模型之后,输入一张任意大小的X光安检图像,模型能够输出非金属打火机检出结果。
基于深度学习的基于深度学习的X光安检图像非金属打火机检出方法,该方法一共分为两步:
(3)数据增强与多尺度训练:本发明模型训练所用数据,来自机场安检口,地铁安检口等真实场景下采集的X光安检图像,共计896张,并且对该数据集进行数据增强,使用3种不同的数据增强方法,并且以mix-up的方式融合数据增强数据,提升模型对于非金属打火机的定位能力。为提升模型对于任意尺度的X光安检图像具有较好的识别能力,本发明在训练时使用多尺度训练方式,每10次迭代将图像输入大小调整为320至608之间的任意的32的倍数大小。
(4)端到端模型:图2展示了应用本发明的X光安检图像非金属打火机识别模型,将真实场景下的X光安检图像输入的模型,模型的直接输出非金属打火机检出结果。
本发明核心算法
1.数据预处理
本发明数据集采集自机场安检口,地铁安检口等真实场景下的高分辨率X光安检图像,如图3所示,本发明数据集包括简单的单包裹图像,以及复杂的多包裹图像,共计896张,随后由专业人员使用Labelimg对该数据集图像按照PASCAL VOC格式进行标注,为扩充数据集提升模型泛化性能,如图4所示,本发明使用随机裁剪(b)、随机旋转(c)、随机仿射变换(d)三种数据增强方式,然后将这些数据以Mix-Up方式进行融合(d),不仅有效扩充数据集还能增强模型的对于非金属打火机这类极小违禁品的定位能力。
2.端到端X光非金属打火机识别模型
非金属打火机识别模型的流程为:将任意大小的X光安检图像输入卷积神经网络,经过一系列卷积操作,提取非金属打火机特征,之后对特征向量进行回归与分类,输出非金属打火机坐标以及类别信息。
本发明模型分为2个部分,非金属打火机特征提取网络部分,以及多尺度特征融合与模型检测部分。特征提取网络部分,本发明使用YOLOv4中的CSPdarknet53网络,其网络结构如图5所示,特征提取网络含有五个跨阶段局部网络,每个局部网络中分别还有1,2,8,8,4个残差模块。此外,X光安检机通过X光透射成像,其成像颜色与物品的材质相关,非金属打火机与衣物,饮料瓶等多种安全物品颜色接近,再加之实际安检物品随机摆放,导致图像背景与非金属打火机重叠难以区分,识别难度极高。注意力机制常被应用于计算机视觉领域,使得网络关注重点信息,忽略无关冗余特征。非金属打火机识别任务中,非金属打火机与背景物品特征接近,本发明认为使用全局平均池化的通道注意力并不能准确反应该通道对于检测目标的响应情况。并且非金属打火机体积较小且位置与图像结构无关,空间注意力机制的引入将破坏特征的真实分布,不利于模型提取有效特征。因此如下式,本发明提出一种改进型通道注意力模块加强特征提取网络对于非金属打火机有效特征的提取,改模块使用全局最大池化与全局平均池化共同反应通道的响应情况。如图6所示,本发明设计的改进型通道注意力模块性能更优。
Mc(F)*=σ(MLP(δ(MLP(MaxPool(AvgPool(F))))))
在特征提取网络中对特征图进行五次下采样,而对于非金属打火机来说,下采样操作可能导致非金属打火机特征丢失,为提高非金属打火机识别准确率,如图7所示,本发明设计了Do-PAN特征融合模块,使用Do-Conv(depth-wise over parameterizedconvolutional layer)替换普通卷积,将浅层特征与深层特征融合,进一步提升模型对于非金属打火机这类小目标的识别准确率。
如图7所示,本发明模型3种输出特征图上,每个像素点预测一个3*(4+1+1)维的向量,其中3表示如果目标中心位于该像素点,该像素点将预测3种边界框,4表示坐标向量,1表示置信度向量和类别概率向量。
本发明对不同模型使用相同数据集训练100个epoch,实验结果如下表所示。相比于SSD,Retina-Net,YOLOv 4本发明所提模型的非金属打火机识别准确率分别提升27%,15%,9%。推理时间相比于SSD,YOLOv 4增加了约11毫秒,相比于Retina-Net减少了10毫秒。实验结果表明,本发明设计的非金属打火机识别模型,在轻微降低实时性的情况下,达到了最优的识别结果。
表1识别结果对比表
本专利的核心技术包括:
(1)引入随机裁剪,随机仿射变化,随机旋转等三种数据增强方式以及多尺度训练提升了模型对于真实场景下X光安检图像非金属打火机检出的泛化能力。
(2)设计了端到端X光安检图像非金属打火机识别模型,在特征提取网络种引入改进型通道注意力,提升模型对于非金属打火机有效特征的提取,在特征融合阶段设计了DO-PAN网络结构,加强了浅层特征与深层特征的融合,提高模型对于非金属打火机这类小目标的识别能力,并且使用Focal loss损失函数代替交叉熵损失函数。
Claims (6)
1.一种基于深度学习的X光安检图像中非金属打火机检测方法,其特征在于:该方法分为两步,
(1)数据增强与多尺度训练:模型训练所用数据,来自机场安检口、地铁安检口真实场景下采集的X光安检图像,共计896张图像,并且对该896张图像组成的数据集进行数据增强,使用3种不同的数据增强方法,并且以mix-up的方式融合数据增强数据,提升对于非金属打火机的定位能力;为提升模型对于任意尺度的X光安检图像具有较好的识别能力,在训练时使用多尺度训练方式,每10次迭代将图像输入大小调整为320至608之间的任意的32的倍数大小;
(2)端到端模型:应用X光安检图像非金属打火机识别模型,将真实场景下的X光安检图像输入的模型,模型的直接输出非金属打火机检出结果。
2.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法,其特征在于:所述的数据集包括单包裹图像以及复杂的多包裹图像,使用Labelimg对该数据集图像按照PASCALVOC格式进行标注,为扩充数据集提升模型泛化性能,使用随机裁剪、随机旋转、随机仿射变换三种数据增强方式,将这些数据以Mix-Up方式进行融合,有效扩充数据集使增强模型对于非金属打火机定位。
3.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法,其特征在于:非金属打火机识别模型的流程为:将任意大小的X光安检图像输入卷积神经网络,经过一系列卷积操作,提取非金属打火机特征,之后对特征向量进行回归与分类,输出非金属打火机坐标以及类别信息。
4.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法,其特征在于:非金属打火机识别模型分为2个部分,非金属打火机特征提取网络部分,以及多尺度特征融合与模型检测部分;非金属打火机特征提取网络部分,使用YOLOv4中的CSPdarknet53网络,其网络结构,特征提取网络含有五个跨阶段局部网络,每个局部网络中分别还有1,2,8,8,4个残差模块;多尺度特征融合与模型检测部分采用改进型通道注意力模块加强特征提取网络,对于非金属打火机有效特征的提取,使用全局最大池化与全局平均池化共同反应通道的响应情况。
5.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法,其特征在于:在特征提取网络中对特征图进行五次下采样,设计Do-PAN特征融合模块,使用Do-Conv替换普通卷积,将浅层特征与深层特征融合,进一步提升模型对于非金属打火机小目标的识别准确率。
6.根据权利要求1所述的一种基于深度学习的X光安检图像中非金属打火机检测方法,其特征在于:模型的三种输出特征图上,每个像素点预测一个3*(4+1+1)维的向量,其中3表示如果目标中心位于该像素点,该像素点将预测3种边界框,4表示坐标向量,1表示置信度向量和类别概率向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110958470.9A CN113822265A (zh) | 2021-08-20 | 2021-08-20 | 一种基于深度学习的x光安检图像中非金属打火机检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110958470.9A CN113822265A (zh) | 2021-08-20 | 2021-08-20 | 一种基于深度学习的x光安检图像中非金属打火机检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822265A true CN113822265A (zh) | 2021-12-21 |
Family
ID=78923060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110958470.9A Pending CN113822265A (zh) | 2021-08-20 | 2021-08-20 | 一种基于深度学习的x光安检图像中非金属打火机检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822265A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875595A (zh) * | 2018-05-29 | 2018-11-23 | 重庆大学 | 一种基于深度学习和多层特征融合的驾驶场景目标检测方法 |
CN112446388A (zh) * | 2020-12-05 | 2021-03-05 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统 |
CN113128558A (zh) * | 2021-03-11 | 2021-07-16 | 重庆邮电大学 | 基于浅层空间特征融合与自适应通道筛选的目标检测方法 |
-
2021
- 2021-08-20 CN CN202110958470.9A patent/CN113822265A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875595A (zh) * | 2018-05-29 | 2018-11-23 | 重庆大学 | 一种基于深度学习和多层特征融合的驾驶场景目标检测方法 |
CN112446388A (zh) * | 2020-12-05 | 2021-03-05 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统 |
CN113128558A (zh) * | 2021-03-11 | 2021-07-16 | 重庆邮电大学 | 基于浅层空间特征融合与自适应通道筛选的目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akcay et al. | Towards automatic threat detection: A survey of advances of deep learning within X-ray security imaging | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
Zhang et al. | MFR-CNN: Incorporating multi-scale features and global information for traffic object detection | |
CN110020615B (zh) | 对图片进行文字提取及内容识别的方法和系统 | |
Fu et al. | Let there be light: Improved traffic surveillance via detail preserving night-to-day transfer | |
Zou et al. | Dangerous objects detection of X-ray images using convolution neural network | |
Habeeb et al. | Deep-learning-based approach for Iraqi and Malaysian vehicle license plate recognition | |
Kaur et al. | A systematic review of object detection from images using deep learning | |
Zhou et al. | A novel object detection method in city aerial image based on deformable convolutional networks | |
Ajitha et al. | Vehicle model classification using deep learning | |
Xu et al. | Scale-aware squeeze-and-excitation for lightweight object detection | |
Wang et al. | MashFormer: A novel multiscale aware hybrid detector for remote sensing object detection | |
Seyfi et al. | A literature review on deep learning algorithms for analysis of X-ray images | |
Wang et al. | CDFF: a fast and highly accurate method for recognizing traffic signs | |
Liu et al. | Study on improvement of YOLOv3 algorithm | |
Zhao et al. | 3d detection for occluded vehicles from point clouds | |
Watanabe et al. | Distance to center of mass encoding for instance segmentation | |
CN113822265A (zh) | 一种基于深度学习的x光安检图像中非金属打火机检测方法 | |
Li et al. | Segmentation and attention network for complicated X-ray images | |
Abdulghani et al. | Multiple Data Augmentation Strategy for Enhancing the Performance of YOLOv7 Object Detection Algorithm. | |
Dong et al. | SiameseDenseU‐Net‐based Semantic Segmentation of Urban Remote Sensing Images | |
CN111950475A (zh) | 一种基于yoloV3的calhe直方图增强型目标识别算法 | |
Sima et al. | Multi‐Scale Feature Attention‐DEtection TRansformer: Multi‐Scale Feature Attention for security check object detection | |
Hou et al. | Multi-level and multi-modal feature fusion for accurate 3D object detection in connected and automated vehicles | |
Chowdhury et al. | Towards Tabular Data Extraction From Richly-Structured Documents Using Supervised and Weakly-Supervised Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |