CN110298226B

CN110298226B - 一种毫米波图像人体携带物的级联检测方法

Info

Publication number: CN110298226B
Application number: CN201910264672.6A
Authority: CN
Inventors: 张铂; 王斌; 吴晓峰; 张立明
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2023-01-06
Anticipated expiration: 2039-04-03
Also published as: CN110298226A

Abstract

本发明属图像处理技术领域，具体为一种毫米波图像人体携带物的级联检测方法。为了解决毫米波图像中人体携带物较小的问题，本发明采用自顶而下(Top‑down)结构来获取到毫米波图像的上下文信息，通过上下文关系来完成对小目标的定位与识别；为了解决毫米波图像中正样本稀疏的问题，本发明采用级联模型的方式，利用第一个阶段的级联模型过滤负样本，与此同时，调整模型初始化候选框的坐标位置，给第二个阶段的级联模型提供有效的候选框信息；基于正负样本比例均衡、坐标位置准确的候选框，第二个阶段的级联模型进一步提升了模型的检出率，降低了模型的误报率。

Description

一种毫米波图像人体携带物的级联检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种人体携带物检测方法。

背景技术

毫米波(MMW)传感技术的发展已经使其成为安防、安检领域的一个重要组成部分，其不同于传统的金属探测技术，并且可以穿透人体衣物，不会对人体造成伤害。最近几年，中科院上海微系统所研制的毫米波全息成像系统[1]可以获得较高分辨率的毫米波图像，使自动化识别毫米波图像中的人体携带违禁物成为了可能。

毫米波成像系统[2]可以分为被动毫米波成像(PMMW)和主动毫米波成像(AMMW)。由于不同的目标的热辐射会获得不同的散射强度，因此被动毫米波成像系统不需要光源照射就可以获得目标成像图。而主动毫米波成像系统需要发射毫米波信号，并且接收与目标作用的回波信号来重构目标的空间散射强度。对比被动与主动毫米波成像系统，主动毫米波图像的成像质量更加清晰，便于识别图像中出现的人体违禁物体。

近几年，基于主动式毫米波成像系统的人体违禁物检测算法已被广泛研究。[3]通过卷积来获得毫米波图像的概率累计图，利用概率累计图来定位潜在的违禁物体；可以实现对刀、枪等违禁物体的定位。[4]是采用2017年美国国家安全局主办的“PassengerScreening Algorithm Challenge”比赛中的AMMW人体成像结果作为数据集，将违禁物检测问题看成是图像分割与分类问题，首先利用计算机视觉技术将图像分割成17个区域，之后利用图像处理技术将每个人体区域进行归类，归为存在违禁物体类和不存在违禁物体类。[5]采用自然图像中的目标检测器，利用迁移学习，将Faster-RCNN检测器与AMMW图像相结合，在[1]数据集中可以有效地检测出潜在的违禁物体，但是由于Faster-RCNN中RPN[7]操作只考虑窗口内的图像，缺少人体上下文等全局信息，因此往往会在实际应用的时候具有较高的误报率。

AMMW成像系统中的违禁物体检测任务与常规的自然图像目标检测任务有所不同。1)较小的前景目标。实际应用中，人体携带的违禁物体一般较小，因此在图像中所占的面积比例较低，如图1所示；2)较少的前景目标。相比常规自然图像的目标检测算法，由于携带危险物体的人仅仅是极少数情况，因此违禁物体检测任务的前景目标的数目较少，如图2所示。

较小的前景目标会导致使用现有的检测器过度采样毫米波图像，如Faster-RCNN[7]、SSD[9]等都会造成有效前景信息的丢失；另外一个方面，较少的前景目标会进一步导致数据集中正负样本比例失调，从而导致模型收敛缓慢、泛化性能差。这也是当[5]在迁移Faster-RCNN检测器到违禁物检测任务后，出现了虚警率较高的现象的原因。

针对上文中提到的违禁物体检测任务的特点，可以有以下几种思路来解决这些问题：

1)较小的前景目标。为了使较小的前景目标不在采样过程中消失，可以降低卷积神经网络(CNNs)在下采样过程的采样步长，从而提高特征图的像素值，进一步提高前景目标在特征图中的分辨率。但是由于降低采样步长，一些与前景目标相似的噪声也不能够得到有效地抑制，因此这种方法往往会提高模型的误报率。为了进一步的识别较小的前景目标，[6][16]等人采用上下文关系来定位小目标的位置，通过构建小目标与其周围的背景信息的空间关系、外貌关系，从而提升模型对小目标的检出率，并且降低了模型的误报率；

2)较少的前景目标。基于深度学习的检测器，如Faster-RCNN，SSD[7]，DSSD[12]都会利用OHEM进行困难负样本挖掘，其本质是为了解决由于候选框匹配策略而导致的正负样本不均衡的问题。但是相比自然图像的目标检测任务，违禁物体检测任务的正样本数更少，这也给负样本的选择带来了困难。

基于以上的分析，本发明认为针对毫米波成像人体携带物检测任务，需要：1)利用人体上下文关系来有效检出违禁物；2)利用级联的方式有效过滤负样本，降低模型误报率。

下面介绍一些有关毫米波违禁物体检测的方法:

1、传统违禁物体检测算法

1.1、概率累计图

[3]采用概率累计图的方式来识别毫米波图像中的违禁人体携带物。采用卷积层提取特征，池化层进行下采样操作。输出是尺度为28×28的一个特征图。将每个通道进行全局池化操作，从而得到概率累计图。对概率累计图通过阈值分割的方法获得潜在违禁物体的位置信息。

[3]利用八联通域合并的方式将概率过小的连通域去除，可以在一定程度降低误报率。但是由于[3]中采用的方式较为简单，没有考虑违禁物体的上下文线索，没有抽象级的特征表达。因此当采用大规模数据集训练后，效果并不理想。

1.2、Faster-RCNN检测器结合迁移学习

Faster-RCNN[7]在传统光学图像中的目标检测任务中取得了较好的结果。其采用RPN[7]网络来获取候选框，即潜在的前景目标，利用Fast RCNN网络来进一步微调经过RPN网路产生的候选框。[5]将Faster-RCNN与毫米波违禁物体检测任务相结合，进一步提升了SIMIT[1]数据集的违禁物体检出率，如图3所示。图3展示了在违禁物体检测任务中的Faster-RCNN架构的设计图，其中第一行是RPN网络，其目的是为了获取原图的候选框；FastRCNN网络是第二行，其将RPN的结果作为输入，进一步对违禁物体进行正负样本分类与正样本位置信息回归。RPN网络和Fast RCNN网络的具体细节参照文献[7]和文献[17]。

[5]采用Faster-RCNN在PASCAL VOC数据集中的模型作为在毫米波违禁物检测任务中的预训练模型。这种做法是基于PASCAL VOC数据集也是目标检测任务下的公共数据集，与毫米波违禁物检测任务具有相同的低级特征，如纹理、人体边缘等。因此基于PASCALVOC数据集的迁移学习可以有效提升模型的收敛速度，使收敛更加稳定，提升模型在违禁物检测数据集中的泛化性能。

虽然Faster-RCNN结合迁移学习的思路可以有效提升模型的检出率，但是由于其本质是结合Faster-RCNN模型，即先进行RPN操作来选择候选框，后基于候选框区域内的特征再进行类别判定与位置回归，完全没有考虑候选框附近区域的上下文信息。经上文的分析，上下文信息可以一定程度地解决物体目标较小导致过采样的问题。但是[5]没有充分利用这种上下文关系，并且选择降低采样步长从而引入了较多噪声，最终导致模型的误报率提升。

据此，本发明引入自顶而下(Top-down)架构来获取人体上下文关系，来提升模型的检出率；并采用级联的方式在训练阶段过滤大多数负样本，从提降低模型的误报率。

下面介绍在自然图像中获取上下文关系的方法和常见的级联方法。

2、基于级联模型的检测算法

2.1、上下文关系

由于过小的前景目标在CNNs的下采样过程中会逐渐消失，那么仅仅依靠小目标本身的外貌特征很难准确地识别和定位小目标。[6][16][18]等分别利用Top-down，R*CNN，Skip-Connection，结构来获取小目标附近区域的上下文线索。

本发明提出的用于毫米波图像人体携带物的级联检测方法，通过Top-down结构来获取上下文线索。Top-down获取上下文线索的优势在于，可以构建端到端(end-to-end)网络模型，便于优化。

2.2、模型级联

[21]采用传统特征获取方法和级联模型来完成人脸检测任务，提出使用积分图来获取人脸细节特征，采用Boosting的方式级联每一个弱分类器。[19]通过级联的方式过滤前期阶段的大量负样本，从而解决正负样本分布不均衡的问题；并利用级联模型来微调下一个阶段的模型预测位置。[20]提出联合训练每个级联模型，从而提高级联模型的训练效率。

发明内容

本发明的目的是针对毫米波图像，提出一种人体携带物的级联检测方法，以提升检测准确率，降低误报率。

本发明提出的人体携带物的级联检测方法，采用两阶段级联的方式，级联的方式可以有效地抑制负样本并且提升检测模型初始化候选框的准确率，从而降低模型的误报率。具体包括以下几个方面：

(1)由于毫米波图像中的违禁物体属于小目标范畴，如图1所示，因此每个级联子模型都采用Top-down结构来获取图像上下文关系，利用上下文线索来判断其周围可能存在的违禁物体；

(2)通过级联的方式抑制第一个级联阶段的大多数负样本，并且合理地进行候选框位置修正，使第二个级联阶段的候选框更加准确。对于第二个级联阶段，可以提取到更加准确的违禁物体特征；

(3)利用第一个级联阶段的多层特征输出作为第二个级联阶段的输入，避免重复下采样过程的计算代价，并且提供了有效的多尺度特性。

本发明提出的毫米波图像人体携带物的级联检测方法，包括构建网络结构的方法，级联模型的方法，预测人体携带物的方法；具体步骤如下：

步骤1、级联阶段一：下采样原始毫米波图像，Top-down结构获取上下文信息。

1.1：下采样原始毫米波图像。本发明第一个级联阶段的提取特征的主干网络采用VGG[10]模型。其中，卷积神经网络一共有13个卷积层，用于提取特征；这13个卷积层分为是：Conv1_1，Conv1_2，Conv2_1，Conv2_2，Conv3_1，Conv3_2，Conv3_3，Conv4_1，Conv4_2,Conv5_1,Conv5_2,Conv6_1,Conv6_2；其中卷积核大小设置为3×3，卷积核移动步长大小为1，卷积边界处补0处理。如图5.A所示，图中绘制出的特征图立方体分别是Conv4_2，Conv5_2，Conv6_2的卷积核提取到的特征。由Conv4_2，Conv5_2，Conv6_2的卷积核提取到的特征图，仍记为Conv4_2，Conv5_2，Conv6_2。

池化操作：Conv1_2,Conv2_2,Conv3_3,Conv4_2,Conv5_2卷积核之后都采用最大池化操作来实现降采样操作，每个最大池化操作降采样图像大小两倍。

之后，选择conv4_2，conv5_2，conv6_2三个特征图作为top-down结构的输入。conv4_2，conv5_2，conv6_2这三个特征图分别对原始毫米波图像下采样8倍，16倍，32倍。

1.2：Top-down结构。步骤1.1得到三个尺度的特征图，分别是conv6_2，conv5_2，conv4_2。如图5.A，分别对这三个尺度的特征图进行上采样操作，在上采样操作中，通过显著性模块(Attention Module)将细节特征与人体上下文信息融合。

在步骤1.1过程中，conv4_2，conv5_2，conv6_2可以提取到前景特征。基于conv4_2，conv5_2，conv6_2所提取的前景特征，显著性融合模块的目的是从这些有效前景特征中选择一部分更加具有代表性的前景特征与人体上下文信息融合，对自下而上过程中的特征进行筛选(将注意力集中到一部分特征中)。本发明采用S-E架构[11]实现显著性融合。

将conv4_2，conv5_2，conv6_2通过显著性模块后得到P6、P5、P4三个不同尺度的特征图。这三个特征图对分别是原始毫米波图像的1/32，1/16，1/8倍。

步骤2、级联阶段一：初始化候选框。

2.1：聚类前景目标的面积分布。对数据集中的人体违禁物体进行统计，得出前景目标的区域面积的分布范围，如图1中的右图所示。由于步骤1.2中采用三个不同尺度的特征图进行预测，因此本步骤采用K-means算法[23]，其中K-means算法的聚类种类K＝3，来获得初始化候选框的规模因子s_k，如公式(1)所示。

2.2：依照特征图来初始化候选框。基于步骤1.2选出的P6，P5，P4这三个不同尺度的特征图分别在原图中的对应位置初始化候选框。按照下述公式，以P6为例，P6特征图中的第i个特征点，在原始图像中初始化第i个候选框

cx是中心点坐标横坐标，cy是中心点纵坐标，w是候选框的宽，h是候选框的高。候选框的初始化方法按照公式(1)-公式(3)。

其中，s_k∈{P6，P5，P4}，表示的含义是P6，P5，P4所产生的候选框的比例因子，n表示不同尺度的特征图的个数，由于本发明选用P6，P5，P4这三层参与预测，因此n＝3；r_j代表不同宽高比的集合。W代表毫米波图像的宽度，H代表毫米波图像的高度。s_min表示全局最小比例值；s_max表示全局最大比例值，一般地，s_min和s_max是经过统计前景目标的面积分布从而得出的。本发明实施例中，s_min设置为0.1，s_max设置为0.4。

2.3：针对步骤2.2产生的大量候选框，如图6.B所示。从候选框中进一步挑选出可供训练的正负样本。按照候选框与Ground Truth的重合度挑选正负样本。若重合度大于阈值θ，则为正样本候选框，若重合度小于阈值θ，则为负样本候选框。本发明实施例中取阈值θ＝0.2。此时由于稀疏的Ground Truth，则导致按照此策略挑选出的大部分是负样本候选框，因此通过OHEM[15]算法进一步从负样本候选框中挑选出难以学习的负样本候选框，保持正负样本为1:3的训练比例。

步骤3、级联阶段一：训练级联阶段一的检测器。

3.1：步骤2.3已经从大量的候选框中选择出了正负样本，P6，P5，P4特征图中的每一个特征向量都被标记为正样本，或负样本，或不参与训练三个情况之一。此时利用SSD[9]提出的多任务训练的方式，同时训练每个候选框的类别概率和位置回归值。

3.2：步骤3.1已经训练完成了第一个级联分类器，其本质是弱分类器，目的是：1)为第二个级联阶段抑制大量的负样本候选框；2)为第二个级联阶段提供更准确的候选框位置信息。

步骤4、级联阶段二：采用残差网络提取特征，Top-down结构获取上下文信息。

4.1：输入与结构。

网络的输入。步骤1.2已经获得了第一个级联阶段的不同尺度的特征图P6，P5，P4，为了避免对原始毫米波图像的重复采样和利用第一个级联阶段的多尺度特征线索，第二个级联阶段的网络输入不是原始毫米波图像，而是第一个级联阶段的特征图P6，P5，P4。这样可以为网络提供更多的多尺度信息，如图5.B所示。

网络结构。由于第二阶段的级联分类器要求更具判别力，因此本发明采用残差网路(ResNet)[22]来提取特征。首先，如图5.B所示，所述残差网路是卷积神经网络，一共有6个卷积层，用于提取特征；这6个卷积层分为是：Res_Conv4_1，Res_Conv4_2，Res_Conv5_1，Res_Conv5_2，Res_Conv6_1，Res_Conv6_2；其中，Res_Conv4_x，Res_Conv5_x，Res_Conv6_x分别表示三个不同分辨率的特征图，其分别是原始毫米波图像的1/8，1/16，1/32倍。其中每一个分辨率特征图模块的采用两个残差单元得到，如图7所示。

下采样操作：模块之间的下采样操作也是利用残差单元来完成，通过控制残差单元中卷积的步长就可以实现下采样。

4.2：Top-down结构。步骤4.1得到Res_Conv4_2，Res_Conv5_2，Res_Conv6_2这三个不同尺度的特征图，如同步骤1.2，分别对这三个尺度的特征图进行上采样操作，在上采样操作中，通过显著性模块(Attention Module)将步骤4.1获得到的细节特征与Top-down结构的上下文信息进行融合，分别得到特征图Stage2_P6，Stage2_P5，Stage2_P4，使用这三个层级特征图进行最终的人体违禁物预测。

步骤5、级联阶段二：利用第一个阶段的级联模型抑制负样本、初始化候选框。

5.1：抑制负样本。

由于毫米波图像中的前景目标较稀疏，导致初始化的候选框中会含有大量的负样本，因此通常会采用OHEM[15]等负样本挖掘的方式来保持合理的正负样本比例，使正样本可以得到有效地学习。

本发明采用级联的方式来抑制负样本。在第一个级联阶段结束后，选择一个过滤阈值β，本发明实施例中选择过滤阈值＝0.1，这是经验取值，一般规则是在保证模型性能的条件下，尽可能使用较大阈值来保证过滤大多数负样本。即第一个级联阶段预测置信度小于阈值的候选框不会进入到第二个级联阶段。第二个级联阶段只对置信度高于过滤阈值β的样本进行进一步判别。

5.2：初始化候选框。

步骤5.1过滤了大绝大多数较容易区分的负样本。不同于第一个级联阶段，对于正样本，本发明通过公式(4)-公式(5)，来初始化候选框，如图6.D所示。

这里，

是在第一个级联阶段对第i个候选框的位置回归预测；

是公式(1)-公式(3)初始化候选框的结果，其中m∈{cx,cy,w,h}。

5.3：针对步骤5.2产生的候选框，挑选可供训练的正负样本。

步骤5.2产生的候选框可以有效地与Ground Truth重合，较大程度的恢复违禁物体的外貌特征。此时由于负样本已经被步骤5.1过滤，因此不采用OHEM挑选难学习负样本，而是将步骤5.2的全部候选框送入到步骤6进行训练。其中，根据重合度阈值θ选取的正样本和负样。本发明实施例中，选取的正样本重合度阈值θ为0.4，负样本重合度阈值θ为0.2。

步骤6、级联阶段二：训练级联阶段二的检测器。

6.1：步骤4.2表明参与预测人体违禁物体的特征图是Stage2_P6、Stage2_P5、Stage2_P4这三个层级特征图。将步骤5处理后的正负样本，以及融合了多尺度信息的Stage2_P6、Stage2_P5、Stage2_P4这三个层级特征图送入到SSD Loss[9]中进行多任务学习。

采用公式(6)来学习第二级联阶段的第i个候选框回归项

其中，cx表示候选框中心点的横坐标，cy表示候选框中心点的纵坐标，w表示候选框的宽，h表示候选框的高。

采用公式(7)在第二个级联阶段来正确判别正负样本。

上述公式中，

和

分别表示第i个候选框和第j个Ground Truth的中心点坐标，

和

分别表示第i个候选框和第j个Ground Truth的宽和高。

是候选框发生的相对偏移。

是对第i个候选框发生偏移的回归预测。I是示性项，

当且仅当第i个候选框和第j个Ground Truth匹配时，I＝1。

本发明针对毫米波图像数据集，提出利用级联检测的方法提升模型的检出率与准确率。首先，对于级联第一阶段，通过自顶而下(Top-down)结构来获取毫米波图像的人体上下文线索，通过人体上下文线索有效提高模型的检出率。其次，为了解决毫米波图像中正样本稀疏的问题，本发明利用级联第一个级联阶段的预测结果，设置过滤阈值来过滤大多数简易负样本，从而解决正负样本不均衡的问题；与此同时，利用第一个级联阶段的候选框坐标位置预测结果，来有效地初始化第二个级联阶段的候选框，提升了模型的准确率。

附图说明

图1是自然图像中前景目标的面积大小与毫米波图像中前景目标的面积大小对比图。其中，图左是自然图像的统计结果，图右是毫米波图像的统计结果。横坐标GT area表示前景目标的面积大小，纵坐标Number表示前景目标的数目。图1说明了毫米波图像中的前景目标远远小于自然图像中的前景目标。

图2是毫米波图像中前景标记框的个数与自然图像中前景标记框的个数的对比图。其中，图左是毫米波图像展示，图右是自然图像中展示。可以看到由于实际的应用场景不同，毫米波图像中前景目标的个数是稀疏的，这进一步加剧了毫米波数据集中正负样本分布不均衡的现象。

图3是Faster-RCNN目标检测模型在毫米波图像中的一次应用。其中，第一行代表RPN阶段，第二行代表Fast RCNN阶段。

图4是两种利用CNNs来获取上下文线索的方式。其中，第一行是采用Skip-Connection的方式来融合上下文信息；第二行是在Faster-RCNN模型中采用Top-down的方式来获取上下文信息。

图5是本发明两个级联阶段的网络结构图。级联阶段一和级联阶段二分别都带有Top-down结构来获取毫米波图像中的人体上下文信息。其中A.Stage one表示第一个级联阶段的网络结构图；B.Stage two表示第二个级联阶段的网络结构图。

图6是本发明的流程图。图中的带圆点矩形表示地面真实(Ground Truth)，而普通矩形则表示初始化的候选框或模型的预测结果。具体地，1)A表示原始毫米波图像及其Ground Truth，经过第一个级联阶段的初始化候选框的方式(见步骤2)，得到B，B中的省略号表示没有画出来的初始化候选框；2)B中的每个矩形框都是候选框，此时第一个级联阶段的网络就会预测出每一个候选框是违禁物体的概率(见步骤3)，得到C；3)C中，只显示出了违禁物置信度大于0.1并且经过位置回归的候选框，利用这些经过负样本抑制和正样本位置矫正的候选框来初始化第二个级联阶段的候选框(见步骤5)，得D；4)D中，仅仅展示了初始化的候选框中重合度最大的候选框；5)经过第二个级联阶段的网络预测，得到图E。

图7是第二个级联模型的下采样阶段的结构设计图。图7仅绘制了Res_Conv4_x阶段的网络结果。输入特征图的通道数是512，每一个单元表示一个卷积核张量，尺度为R^N ^×C×K×K。其中N表示卷积核的个数，C表示每个卷积核的通道数，K表示卷积核的空间大小。

具体实施方式

下面，在毫米波数据集中来说明本发明的具体实施方式。

数据集说明：本发明采用的数据集来自于SIMIT[1]，其中包含15万张带有违禁物体的训练集图像，6454张带有违禁物体的验证集图像，5个标准测试集。

1、实验设置与测试集说明：

训练实验设置：

本发明在上述训练数据集中的15万张图片中进行训练，代码采用caffe[14]编写，在具体实施方式中所有实验都按照本节的实验设置进行：

初始化学习率：0.001；

训练周期：约20次遍历训练集，又叫做epochs数；

训练迭代次数：45000次，每次抓取的batch size的个数：64；

优化算法，带冲量SGD，momentum设置为0.9；

正则项：采用L2，其中惩罚因子(weight decay)设置为0.0005；

预训练模型：加载SSD[9]模型在VOC0712数据集上的训练的最优结果作为初始化参数。

测试实验设置：

测试在5个标准测试集中完成。

测试集构建：测试集是来自于不同采集时间、不同身高和体型的人、以不同姿态进行采集的结果。测试集中包含50％张含有危险物体的图像与50％张完全不含有危险物体的图像。

测试过程中，以下所有实验设置正样本阈值为0.5(即网络预测置信度高于0.5才被认为是正样本)，设置检出重合度为0.1(即网络的预测结果与Ground Truth的重合度大于0.1即判断为检出)。

2、Top-down结构的效果：

上小节介绍了对比实验的实验设置。本节主要研究Top-down结构对于模型性能的影响。我们采用SSD[9]模型作为基准比较模型，其具体的实现细节参考文献[9]。SSD模型在SIMIT[1]数据集中测试集的结果如表1所示，由于过度采样，导致了人体携带物细节信息的丢失。

因此针对第一级联阶段的检测模型，我们采用Top-down结构来恢复人体上下文信息，从而提升模型对于小目标的检出率。如表1中Baseline_Con所示。可以看出，结合上下文信息的网络大幅度提升了模型在SIMIT数据集中的检出率。但是可以从表1中看出，第一阶段的检测模型Baseline_Con虽然实现了较高的检出率，但是由于在训练阶段极不均衡的正负样本比例，因此导致模型在训练过程中学习到了较多负样本噪声，降低了模型的准确率。基于此，我们提出级联模型结构，来利用Baseline_Con抑制负样本。在下一个小节中将介绍级联模型的实验结果。

表1.第一阶段级联模型的Top-down结构的效果对比(AVG表示五个测试集的平均值，F1表示f1分数)

3、级联模型的效果：

由于SIMIT[1]数据集的特点——具有较稀疏的前景目标，因此普通的目标检测器都会产生非常不均衡的正负样本比例，OHEM算法基本不能对抗这种不均衡的正负样本比例。这也是导致文献[5]在SIMIT数据集中误报率较高的原因。本发明提出级联模型的方式，利用第一阶段的模型过滤大多数负样本，后一个阶段的模型可以得到有效的正负样本比例。从而降低模型的误报率。

DSSD[12]是通过反卷积的方式获取图像的上下文关系，从而进一步提升对小目标的检出率。我们对比SSD，DSSD模型，其中*DSSD模型表示采用步骤2.1中的K-means聚类前景目标的面积，之后按照聚类结果重新设置比例因子s_k来初始化候选框的方式。对比DSSD与*DSSD结果，说明K-means聚类来是设置s_k可以有效提升在SIMIT数据集中的结果。

Baseline_Con_Cas是采用Baseline_Con模型来修正候选框坐标位置，并且过滤负样本后的第二阶段级联模型，如图5.B所示，具体实现细节参考步骤4、5。对比Baseline_Con与Baseline_Con_Cas，可以看出采用级联的方式可以有效抑制负样本，进一步提升模型的准确率。

表2.级联模型的效果(AVG表示五个个测试集的平均值，F1表示f1分数，time表示模型的推理时间，单位毫秒)

综上所述，一种用于毫米波图像人体携带物的级联检测方法，分为两个级联阶段，每个阶段都采用Top-down结构来融合毫米波图像上下文关系；针对第一个级联阶段的预测结果，本发明通过阈值过滤的原则将大多数简单负样本过滤，并且利用第一个级联阶段对候选框坐标位置的回归预测重新初始化第二个级联阶段的候选框。与地面真实重合度较高的候选框可以有效地获得目标的外貌特征，降低噪声干扰。最终的实验结果表明基于级联模型的检测算法在保证高检出率的条件下，实现高准确率，提高了实际安检、安防过程的受检人员的体验。

为了说明本发明的内容及实施方法，本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

参考文献

[1]Zhu Y Z Y,Yang M Y M,Wu L W L,et al.Practical millimeter-waveholographic imaging system with good robustness[J].Chinese Optics Letters,2016,14(10):101101-101105.

[2]Huguenin G R,Goldsmith P F,Deo N C,et al.Contraband detectionsystem.U.S.Patent 5073782,Dec.17,1991.

[3]姚家雄,杨明辉,朱玉琨,et al.利用卷积神经网络进行毫米波图像违禁物体定位[J].红外与毫米波学报,2017,36(3).

[4]Guimaraes A A R.Detecting zones and threat on 3D body in securityairports using deep learning machine[J].arXiv:1802.00565,2018.

[5]Liu C,Yang M H,Sun X W.TOWARDS ROBUST HUMAN MILLIMETER WAVEIMAGING INSPECTION SYSTEM IN REAL TIME WITH DEEP LEARNING[J].Progress InElectromagnetics Research,2018,161:87-100.

[6]Shrivastava A,Sukthankar R,Malik J,et al.Beyond Skip Connections:Top-Down Modulation for Object Detection[J].In,arXiv:1612.06851.

[7]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time ObjectDetection with Region Proposal Networks[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2015,39(6):1137-1149.

[8]Lin T Y,Dollár,Piotr,Girshick R,et al.Feature Pyramid Networks forObject Detection[C].In CVPR,2017.

[9]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[C].In ECCV,2016.

[10]K.Simonyan and A.Zisserman.Very deep convolutional networks forlarge-scale image recognition.In ICLR,2015.

[11]Hu J,Shen L,Albanie S,et al.Squeeze-and-Excitation Networks[J].InCVPR,2017.

[12]Fu C Y,Liu W,Ranga A,et al.DSSD:Deconvolutional Single ShotDetector[J].In CVPR,2017.

[13]Shen Z,Liu Z,Li J,et al.DSOD:Learning Deeply Supervised ObjectDetectors from Scratch[J].In ICCV,2017.

[14]Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,Long,J.,Girshick,R.,Guadarrama,S.,Darrell,T.:Caffe:Convolutional architecture for fast featureembedding.In:MM.(2014)

[15]Shrivastava A,Gupta A,Girshick R.Training Region-based ObjectDetectors with Online Hard Example Mining[C].In CVPR,2016.

[16]Gkioxari G,Girshick R,Malik J.Contextual Action Recognition withR*CNN[J].International Journal of Cancer Journal International Du Cancer,2015,40(1):1080-1088.

[17]Girshick R.Fast R-CNN[C].In IEEE International Conference onComputer Vision,2015.

[18]Long J,Shelhamer E,Darrell T.Fully Convolutional Networks forSemantic Segmentation[J].IEEE Transactions on Pattern Analysis&MachineIntelligence,2014,39(4):640-651.

[19]Li H,Lin Z,Shen X,et al.A convolutional neural network cascadefor face detection[C].InCVPR,2015.

[20]Qin H,Yan J,Li X,et al.Joint Training of Cascaded CNN for FaceDetection[C].In CVPR,2016.

[21]Viola P,Jones M J.Robust Real-Time Face Detection[J].International Journal of Computer Vision,2004,57(2):137-154.

[22]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[C].In CVPR,2016.

[23]Hartigan J A,Wong M A.Algorithm AS 136:A K-Means ClusteringAlgorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.。

Claims

1.一种毫米波图像人体携带物的级联检测方法，其特征在于，采用Top-down结构获取毫米波图像的上下文关系，从而建模前景目标与周围背景像素的空间关系；并且采用级联模型方式来过滤大量的负样本，利用级联关系合理地修正初始化候选框的坐标位置信息、置信度信息，具体步骤如下：

步骤1、级联阶段一：下采样原始毫米波图像，Top-down结构获取上下文信息；

1.1：下采样原始毫米波图像：第一个级联阶段的提取特征的主干网络采用VGG模型；其中，卷积神经网络一共有13个卷积层，用于提取特征；这13个卷积层分为是：Conv1_1，Conv1_2，Conv2_1，Conv2_2，Conv3_1，Conv3_2，Conv3_3，Conv4_1，Conv4_2,Conv5_1,Conv5_2,Conv6_1,Conv6_2；其中卷积核大小设置为3×3，卷积核移动步长大小为1，卷积边界处补0处理；由Conv4_2、Conv5_2、Conv6_2的卷积核提取特征图，这些特征图仍分别记为Conv4_2、Conv5_2、Conv6_2；

Conv1_2,Conv2_2,Conv3_3,Conv4_2,Conv5_2卷积核之后都采用最大池化操作来实现降采样操作，每个最大池化操作降采样图像大小两倍；

之后，选择conv4_2、conv5_2、conv6_2三个特征图作为top-down结构的输入，conv4_2、conv5_2、conv6_2这三个特征图分别对原始毫米波图像下采样8倍、16倍、32倍；

1.2：Top-down结构：分别对步骤1.1得到三个尺度的特征图：conv6_2、conv5_2、conv4_2进行上采样操作，在上采样操作中，通过显著性模块将细节特征与人体上下文信息融合；

显著性融合模块的作用是将步骤1.1中conv4_2、conv5_2、conv6_2提取到的前景特征中选择一部分更加具有代表性的前景特征与人体上下文信息融合，对自下而上过程中的特征进行筛选；显著性融合模块采用S-E架构；

通过显著性模块后得到P6、P5、P4三个不同尺度的特征图；这三个特征图分别是原始毫米波图像的1/32，1/16，1/8倍；

步骤2、级联阶段一：初始化候选框；

2.1：聚类前景目标的面积分布：对数据集中的人体违禁物体进行统计，得出前景目标的区域面积的分布范围，由于步骤1.2中采用三个不同尺度的特征图进行预测，因此本步骤采用K-means算法来获得初始化候选框的规模因子s_k，如公式(1)所示；其中K-means算法的聚类种类K＝3；

2.2：依照特征图来初始化候选框：基于步骤1.2选出的P6，P5，P4这三个不同尺度的特征图分别在原图中的对应位置初始化候选框；设特征图中的第i个特征点，在原始图像中初始化第i个候选框

cx是中心点坐标横坐标，cy是中心点纵坐标，w是候选框的宽，h是候选框的高；候选框的初始化方法按照公式(1)-公式(3)：

其中，s_k∈{P6，P5，P4}，表示的含义是P6，P5，P4所产生的候选框的比例因子，n表示不同尺度的特征图的个数，由于选用P6，P5，P4这三层参与预测，因此n＝3；r_j代表不同宽高比的集合；W代表毫米波图像的宽度，H代表毫米波图像的高度；s_min表示全局最小比例值；s_max表示全局最大比例值；

2.3：从步骤2.2产生的大量候选框中进一步挑选出可供训练的正负样本：按照候选框与Ground Truth的重合度挑选正负样本：若重合度大于阈值θ，则为正样本候选框，若重合度小于阈值θ，则为负样本候选框；

步骤3、级联阶段一：训练级联阶段一的检测器；

3.1：步骤2.3已经从大量的候选框中选择出了正负样本，P6，P5，P4特征图中的每一个特征向量都被标记为正样本，或负样本，或不参与训练三个情况之一；此时利用SSD提出的多任务训练的方式，同时训练每个候选框的类别概率和位置回归值；

步骤3.1已经训练完成第一个级联分类器，其本质是弱分类器，目的是：1)为第二个级联阶段抑制大量的负样本候选框；2)为第二个级联阶段提供更准确的候选框位置信息；

步骤4、级联阶段二：采用残差网络提取特征，Top-down结构获取上下文信息；

4.1：输入与结构；

网络的输入:第一个级联阶段获得的不同尺度的特征图P6，P5，P4；

网络的结构：采用残差网路来提取特征；所述残差网路是卷积神经网络，一共有6个卷积层，用于提取特征；这6个卷积层分为是：Res_Conv4_1，Res_Conv4_2，Res_Conv5_1，Res_Conv5_2，Res_Conv6_1，Res_Conv6_2；其中，Res_Conv4_x，Res_Conv5_x，Res_Conv6_x分别表示三个不同分辨率的特征图，其分别是原始毫米波图像的1/8，1/16，1/32倍；其中每一个分辨率特征图模块采用两个残差单元得到；

下采样操作：模块之间的下采样操作也利用残差单元来完成，通过控制残差单元中卷积的步长实现下采样；

4.2：Top-down结构：对于步骤4.1得到Res_Conv4_2，Res_Conv5_2，Res_Conv6_2这三个不同尺度的特征图，如同步骤1.2，分别进行上采样操作，在上采样操作中，通过显著性模块将步骤4.1获得到的细节特征与Top-down结构的上下文信息进行融合，分别得到特征图Stage2_P6，Stage2_P5，Stage2_P4，使用这三个层级特征图进行最终的人体违禁物预测；

步骤5、级联阶段二：利用第一个阶段的级联模型抑制负样本、初始化候选框；

5.1：抑制负样本

由于毫米波图像中的前景目标较稀疏，导致初始化的候选框中会含有大量的负样本，因此采用OHEM负样本挖掘的方式来保持合理的正负样本比例，使正样本得到有效地学习；

采用级联的方式来抑制负样本，即在第一个级联阶段结束后，选择一个过滤阈值β，保证模型性能的条件下，尽可能使用较大阈值来保证过滤大多数负样本，即第一个级联阶段预测置信度小于阈值的候选框不会进入到第二个级联阶段；第二个级联阶段只对置信度高于过滤阈值β的样本进行进一步判别；

5.2：初始化候选框

对于正样本，通过公式(4)-公式(5)，来初始化候选框：