CN109544563B

CN109544563B - 一种面向违禁物安检的被动毫米波图像人体目标分割方法

Info

Publication number: CN109544563B
Application number: CN201811339422.6A
Authority: CN
Inventors: 苗俊刚; 秦世引; 胡岸勇; 赵国
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2021-08-17
Anticipated expiration: 2038-11-12
Also published as: CN109544563A

Abstract

本发明涉及一种面向违禁物安检的被动毫米波图像人体目标分割方法，利用被动毫米波成像仪采集人体目标的被动毫米波图像，借助端到端的深度语义卷积神经网络，直接获取人体目标区域的分割结果。由于整个DNN网络采用端到端的设计思路，无需对图像进行预、后处理，因此使用过程非常简便。而在分割精度的改进上，借鉴了U‑Net基础网络结构，在网络的编码段和解码端分别采用了对称的深度残差神经网络Resnet50，由于Resnet50相比VGG16主干网络具有更好的特征提取能力，因此相比经典的U‑Net网络，本发明设计的DNN网络模型的分割精度获得到了进一步提升。

Description

一种面向违禁物安检的被动毫米波图像人体目标分割方法

技术领域

本发明涉及一种面向违禁物安检的，基于深度卷积神经网络的被动毫米波图像人体目标分割方法，属于安防技术领域。

背景技术

近年来，全球范围的恐怖袭击和暴力犯罪活动不断变化升级，给社会公共安全造成了极大威胁。另外，特大城市不可避免的巨大的交通客运压力也给安保工作施加了巨大的压力。因此，研究大型场馆以及交通枢纽公共安检口岸人体隐匿危禁物品探测技术具有十分重要的意义。

目前，在公共场所广泛采用的安防设备主要包括：金属探测门，手持式金属探测仪，X光安检仪这三类。目前公共安全口岸常用的金属探测器只能对近距离小范围的金属目标进行检测，而手持设备需要安保人员对过往人员逐一进行扫描检测，不仅工作量大，同时检测效率与检测精度也很难得到保障。传统的安检手段，如X射线人体成像，会使人体收到高能粒子辐射，具有累积效应，存在健康安全隐患，使用场合受限。由于其电离作用和较强的穿透性，对人员存在潜在的辐射伤害，依然不容易被公众接受。而红外成像技术是依靠物品表面温度成像，其在有织物遮挡的情况下无法清晰成像。

在过去的二十年中，毫米波探测技术得到众多学者和研究机构的重视，提出了很多此类系统，形式多样但主要可以归为两类：被动式和主动式毫米波成像系统。主动式毫米波成像系统一般是指毫米波雷达成像系统，主动发射毫米波，通过分析接收的回波来识别目标。被动式毫米波成像系统不发射毫米波，依靠大气传播窗口(35、94、140、220Ghz)，接收物体自身辐射的毫米波能量，最终形成图像。毫米波图像能够反映出景物各部分温差和辐射能力的差异。被动毫米波成像系统中接收毫米波能量的装置是一个高度灵敏的接收机，本质上是毫米波辐射计，所以被动毫米波图像又称为毫米波辐射图像。被动毫米波成像技术不仅可以检测出隐藏在织物下的金属物体，还可以检测出塑料手枪，炸药等危险品，具有快速、安全、可靠、隐私保护等优势，是目前人体安检前沿的技术手段，且可以远距离操作，防止危禁品爆炸对安检人员造成伤害。

在人体违禁物安检中，由于违禁品是携带在人体身上的，所以对人体目标区域实施高效精准分割，可以有效减少违禁品的搜索范围，提高检测效率的同时，降低虚警发生的概率。经典的人体目标分割算法可以分为静态法和动态法两类。

对于静态法来说，其核心就是首先采集纯净的背景区域，然后将包含人体目标的图像减去背景图像。这种方法原理简单，但在实际运用中会遇到很多困难。首先，人体目标的走动会影响检测场景中光照方向和强度的变化，因此背景区域的灰度值会发生相应的变化，导致背景消除不干净，同时产生大量的噪点信息。另外，人体目标在安检过程中会遮挡部分光源，导致阴影的产生，而阴影无法通过背景相减进行消除，导致人体目标区域分割的精度下降。

对于动态法来说，其核心是对检测场景中的运动的人体目标区域进行分割和提取，目前主流的算法包括混合高斯模型(GMM)，码本(CodeBook)以及视觉背景提取(Vibe)。这种方法主要考虑到人体目标在接受安检过程中处于行走的状态中，而背景是相对不动的，所以可以对运动的人体目标进行分割和提取。然而，动态法在实际应用中也会遇到很多困难。首先，人体目标在运动过程中，会引起周围光照环境的快速变化，而光照的变化会产生大量的虚警目标。另外，人体目标在接受安检时虽然处于运动状态下，但在面向或背离安检仪时，其躯干部位基本保持不动，所以利用动态法会造成大量漏检情况的发生。随着深度学习技术的快速发展，深度卷积神经网络快速的超越了经典的目标分割算法。特别是在图像语义分割领域，最具代表性也是当前最为主流的三种深度语义分割网络是全卷积神经网络(FCN)，深度编码解码网络(SegNet)以及深度U型网络(U-Net)。

FCN是一种端到端的深度神经网络，由Shelhamer E，Long J，Darrell T.发表在“Shelhamer E，Long J，Darrell T.Fully Convolutional Networks for SemanticSegmentation[J].IEEE Transactions on Pattern Analysis&Machine Intelligence，2017，39(4):640-651.”。FCN将原始图像输入至网络中即可得到对应的目标分割结果，因此效率很高。FCN采用了全卷积的结构设计，用1×1的卷积层代替全连接层，因此网络的参数量大大降低，提高了网络的计算效率。同时，由于采用了全卷积的结构设计，使得FCN可以处理任意大小的图像，而不像之前的网络结构只能处理固定大小的输入图像。但FCN利用双线性插值进行特征图分辨率恢复破坏了原始像素点之间的空间位置关系。

为了克服这一问题，深度编码解码网络SegNet借助两个完全对称的全卷积神经网络进行目标的精确分割。SegNet发表在“Badrinarayanan V，Kendall A，CipollaR.SegNet:A Deep Convolutional Encoder-Decoder Architecture for SceneSegmentation[J].IEEE Transactions on Pattern Analysis&Machine Intelligence，2015，PP(99):1-11.”。在编码阶段，SegNet采用与FCN相同的网络结构，而在解码阶段，则采用转置卷积进行图像分辨率的提升。由于转置卷积采用的是非线性分辨率提升，因此在图像细节恢复的效果上要显著优于FCN。但随着网络深度的不断加深，SegNet比较容易陷入过拟合，导致网络性能下降。

为了进一步克服这个问题，U-Net(发表在“Ronneberger O，Fischer P，Brox T.U-Net:Convolutional Networks for Biomedical Image Segmentation[J].2015，9351:234-241.”)在网络中加入了全新的跳接网络模块，将浅层特征信息直接引入到深层网络中，一方面，浅层特征图具有较小的感受野，能够更好的提取图像的细节信息，另一方面，跳接网络模块能将浅层的梯度信息直接传递到深层网络中，因而能够大幅缓解过拟合现象的发生。

FCN的局限性在于其进行卷积特征图分辨率恢复的过程中采用的是简单的双线性插值上采样，这种通过线性插值恢复图像分辨率的方式破坏了原始像素之间的空间位置关系，因此导致图像分割的细节信息丢失。本发明相比FCN采用了编码解码型网络结构设计，解码端采用转置卷积对特征图分辨率进行非线性提升，相比FCN特征图分辨率线性提升的方式，能够更加精确的保留像素点之间的空间位置关系，因此能够得到更加精确的分割结果。

SegNet的局限性主要体现在随着网络深度的不断加深，梯度信息很难向深层网络传递，导致网络非常容易陷入过拟合状态。本发明相比SegNet增加了侧边跳接网络，侧边跳接网络能够实现浅层特征和深层特征的相互融合，从而更有利于网络的训练。

U-Net的缺陷在于其编码解码段网络采用的主架构是VGG16全卷积神经网络，因此特征提取能力较为有限。本发明相比U-Net，在编码段采用了特征提取能力更强的预训练的Resnet50，因此在特征提取能力上得到了进一步的提高。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于深度卷积神经网络的被动毫米波人体目标区域分割方法，大大提高了被动毫米波人体目标分割的准确性。

本发明技术解决方案：一种面向违禁物安检的被动毫米波图像人体目标分割方法，其特征在于包括以下步骤：

第一步，利用被动毫米波成像设备，获取人体目标的被动毫米波图像；

第二步，建立离线训练集和测试集，利用标注工具，对所述被动毫米波图像中的人体目标区域进行手工标注，得到手工标注的离线训练集和测试集；

第三步，根据被动毫米波图像的尺寸，构建面向违禁物安检的被动毫米波图像人体目标区域分割深度卷积神经网络；

第四步，在离线训练阶段，利用手工标注的离线训练集，对面向违禁物安检的被动毫米波图像人体目标区域分割深度卷积神经网络进行离线训练；

第五步，在测试阶段，将被动毫米波成像设备获取的获取人体目标的被动毫米波图像输入到已经训练完毕的所述面向违禁物安检的被动毫米波图像人体目标区域分割深度卷积神经网络中，直接获取最终的人体目标区域分割结果。

所述第二步，具体实现如下：

(1)在实际使用中，考虑精度和数据集制作成本，建议离线训练集图像总量为5000-20000幅，测试集图像总量为500-2000幅；

(2)分割离线训练集的正样本区域均为人工判定，借助标注工具对人体目标的轮廓进行逐点标记，最终形成闭合区域；轮廓标记以内的区域为人体目标区域，轮廓标记以外的区域为背景区域；

(3)为了避免单一人员标注的同质化现象，标注人只对自己负责的部分图像进行标注，每位标注人的标注图像数量控制在200-300幅之间图像，最终将所有手工标注的深度神经网络离线训练样本集随机打乱顺序进行混合，获得离线训练集与测试集。

所述第三步，构建的面向违禁物安检的被动毫米波图像人体目标区域分割深度卷积神经网络包括两个部分，主干网络部分和侧边跳接网络部分：

所述主干网络部分实现为：采用的是编码-解码型网络结构，在编码段，采用带有ImageNet预训练权重的Resnet50网络结构，在解码段则采用对称的没有经过预训练的，随机权重初始化Resnet50网络结构，解码段发挥的作用是对编码段得到的特征图进行非线性分辨率提升；主干网络的性能优势一方面在于，利用Resnet50代替了传统的VGG16网络结构，Resnet50的残差模块可以帮助梯度信息更好的向深层网络传递，因此相比现有的人体目标分割深度神经网络，本发明提出的网络具有更深的网络结构，因此能够更加精确的提取被动毫米波人体目标特征。主干网络的另一个优势在于其采用了迁移强化学习的思路，将图像分类中得到预训练权重迁移到目标分割任务中来。一方面，在图像分类和图像分割两个任务中，目标的特征具有共通性，可以采用迁移强化学习的思想，将图像分类任务中得到的网络权重移植到图像分割中。另一方面，图像分类任务具有非常丰富的数据集资源，而图像分割的数据集资源由于是手工建立的，所以在数据规模和数据种类的多样性上，后者与前者有明显的差距。为了弥补这个差距，在本发明中，先在图像分类数据集上对深度卷积神经网络进行预训练，然后在此基础上，去除网络模型中的分类模块，增加新的图像分割模块，而二者的共享模块保持不变。进而，利用手工建立的被动毫米波人体目标分割数据集对其进行进一步的训练和强化，使其能够满足被动毫米波人体目标高精度分割的任务需要；

所述侧边跳接网络部分实现为：由于神经网络的浅层特征图感受野小，包含了大量的边缘、纹理等图像细节，而神经网络的深层特征图具有较大的感受野，能够对目标的宏观表现进行很好的描述。为了综合利用图像的宏观与细节信息，将浅层特征图利用跳接网络直接输送到网络深层中，与深层网络特征进行融合，从而获得更加精确的人体目标分割结果。本说明提出的方法相比现有方法的优势一方面在于，侧边跳接的思想可以融合多个不同尺度的特征图信息，多层多尺度的图像信息相比传统单一尺度的图像信息具有更好的性能优势。另一方面，侧边跳接网络借助非线性变换进行图像分辨率的提升，相比传统双线性变换线性提高图像分辨率的方法，能够更加准确的恢复图像像素点之间的空间位置信息，从而在分割精度上得到进一步的提升。

所述第三步，构建的面向违禁物安检的被动毫米波图像人体目标区域分割深度卷积神经网络包括两个部分，即主干网络和侧边跳接网络；所述主干网络作为网络的主体结构，完成两个任务，一个是从原始图像中进行特征图的提取，另一个对提取到的特征图进行分辨率提升，从而获得最终的图像分割结果；所述侧边跳接网络是主干网络的辅助结构，侧边跳接网络将主干网络提取的浅层特征图直接通过跳接的方式与深层特征图进行连接，达到多个尺度特征的相互融合目的，相比单纯的主干网络，由于加入了多尺度特征的相互融合，从而在目标分割的精度上相比单纯的主干网络有显著提升。

所述主干网络采用编码-解码型网络结构设计，即主干网络包括编码段和解码段两个对称的部分，在编码段，采用带有ImageNet预训练的Resnet50网络结构，在解码段则采用没有经过预训练的，随机权重初始化的Resnet50网络结构；主干网络包括：输入层模块(Input Layer)，残差模块1(Residual Block1)，残差模块2(Residual Block2)，残差模块3(Residual Block3)，残差模块4(Residual Block4)，残差模块5(Residual Block5))，残差模块6(Residual Block6)，残差模块7(Residual Block7)，残差模块8(Residual Block8)以及输出层模块(Output Layer)十个部分；其中，输入层模块(Input Layer)的网络结构包括一个卷积层，一个批归一化层，以及一个非线性激活层，输入层输入特征图的大小为224×224×3，输出特征图的大小为112×112×64；残差模块1(Residual Block1)的网络结构包括一个最大池化层，以及三个残差卷积层，残差模块1的输入特征图的大小为112×112×64，输出特征图的大小为56×56×256；残差模块2(Residual Block2)的网络结构设计包括一个非线性激活层，以及4个残差卷积层，残差模块2的输入特征图的大小为56×56×256，输出特征图的大小为28×28×512；残差模块3(Residual Block3)的网络结构包括一个非线性激活层，以及6个残差卷积层，残差模块3的输入特征图的大小为28×28×512，输出特征图的大小为14×14×1024；残差模块4(Residual Block4)的网络结构包括一个非线性激活层，以及3个残差卷积层，残差模块4的输入特征图的大小为14×14×1024，输出特征图的大小为7×7×2048；残差模块5(Residual Block5)的网络结构包括一个非线性激活层，以及3个残差卷积层，残差模块5的输入特征图的大小为7×7×2048，输出特征图的大小为14×14×1024；残差模块6(Residual Block6)的网络结构包括一个非线性激活层，以及6个残差卷积层，残差模块6的输入特征图的大小为14×14×1024，输出特征图的大小为28×28×512；残差模块7(Residual Block7)的网络结构包括一个非线性激活层，以及4个残差卷积层，残差模块7的输入特征图的大小为28×28×512，输出特征图的大小为56×56×256，残差模块8(Residual Block8)的网络结构包括一个非线性激活层，以及3个残差卷积层，残差模块8的输入特征图的大小为56×56×256，输出特征图的大小为112×112×128，输出层(Output Layer)的网络结构包括一个卷积层，一个非线性激活层，一个转置卷积层，一个非线性激活层以及一个特征整形层，输出层模块的输入特征图的大小为112×112×128，输出特征图的大小为224×224。

所述侧边跳接网络的结构为：连接残差模块1(Residual Block1)与残差模块8(Residual Block8)，连接残差模块2(Residual Block2)与残差模块7(Residual Block7)，连接残差模块3(Residual Block3)与残差模块6(Residual Block6)，以及连接残差模块4(Residual Block4)与残差模块5(Residual Block5)的4条网络，侧边跳接网络结构将输入层(Input Layer)的激活层即Actication_1层输出直接引向输出层(Output Layer)的卷积层即Conv2d_1层输出并将二者进行相加融合)。输入层(Input Layer)的激活层即Actication_1层的输出特征图大小为112×112×64，输出层(Output Layer)的卷积层即Conv2d_1层的输出特征图大小为112×112×64，将二者进行相加融合，融合后的特征图大小为112×112×64。侧边跳接网络结构将残差模块2(Residual Block2)的加和层即Add_3层输出直接引向残差模块7(Residual Block7)的残差网络层即Res8a_branch2a层输出并将二者进行相加融合)；残差模块2(Residual Block2)的加和层即Add_3层输出特征图大小为56×56×256，残差模块7(Residual Block7)的残差网络层即Res8a_branch2a层输出特征图大小为56×56×256，将二者进行相加融合，融合后的特征图大小为56×56×256。侧边跳接网络结构将残差模块3(Residual Block3)的加和层即Add_7层输出直接引向残差模块6(Residual Block6)的残差网络层即Res7a_branch2a层输出并将二者进行相加融合)；残差模块3(Residual Block3)的加和层即Add_7层输出特征图大小为28×28×512，残差模块6(Residual Block6)的残差网络层即Res7a_branch2a层输出特征图大小为28×28×512，进行相加融合，融合后的特征图大小为28×28×512，侧边跳接网络结构将残差模块4(Residual Block4)的加和层即Add_13层输出直接引向残差模块5(Residual Block5)的残差网络层即Res6a_branch2a层输出并将二者进行相加融合)。残差模块4(ResidualBlock4)的加和层即Add_13层输出特征图大小为14×14×1024，残差模块5(ResidualBlock5)的残差网络层即Res6a_branch2a层输出特征图大小为14×14×1024，进行相加融合，融合后的特征图大小为14×14×1024。

本发明与现有技术相比的优点在于：本发明主要体现在人体目标分割的精度相比经典算法以及现有其他DNN神经网络模型有显著提高。该项优势主要来源于侧边跳接网络，将浅层与深层图像特征进行融合，从而可以更好的体现人体目标的整体和细节信息。同时，由于采用了端到端的结构设计，输入原始图像即可生成对应的人体目标分割结果，在实际应用非常易于操作，适合在人流密集的安检场景中使用。

总之，本发明在人体目标区域的分割精度上作出了显著改进，大幅提高了被动毫米波人体目标区域分割的准确性。由于违禁品通常隐蔽在人体范围内，因此高精度的人体目标分割能够帮助对违禁品可能出现的区域进行更加精确的定位，从而有助于安检设备获得更加精确的违禁品检测结果。

本发明在人体目标的分割精度上相比现有的DNN网络(如FCN，SegNet以及U-Net)有明显提升。FCN的缺点在于其进行卷积特征图分辨率恢复的过程中采用的是简单的双线性插值上采样，这种通过线性插值恢复图像分辨率的方式破坏了原始像素之间的空间位置关系，因此导致图像分割的细节信息丢失。SegNet的缺点在于随着网络深度的不断加深，梯度信息很难向深层网络传递，导致网络非常容易陷入过拟合状态。U-Net的缺点在于其编码解码段网络采用的主架构是VGG16全卷积神经网络，因此特征提取能力较为有限。本发明所提出的网络结构的优势在于：首先，本发明采用了编码解码型网络结构设计，该网络结构对特征图进行非线性分辨率提升，相比FCN特征图线性分辨率提升在精度上有明显改进。其次，本发明的侧边跳接网络结构，相比SegNet能够完成浅层特征和深层特征的相互融合，从而使得分割结果能够兼顾目标的整体和细节信息，从而进一步提高分割精度。最后，本发明利用ImageNet预训练的Resnet50对主干网络进行了升级，相比U-Net具有更好的特征提取能力，因此在分割精度上实现再次提高。因此，本发明在分割精度上具有明显优势。

附图说明

图1为本发明中被动毫米波人体目标区域分割DNN网络的离线训练；

图2为本发明中被动毫米波人体目标区域分割DNN网络结构示意图；

图3为本发明中被动毫米波人体目标区域分割离线训练集制作；其中a)列展示的是原始的被动毫米波图像；b)列展示的是借助标注工具；c)列展示的是经过人体轮廓标注后；d)列展示的是人体目标区域对应的被动毫米波图像；

图4为本发明中被动毫米波人体目标区域分割深度神经网络；

图5为本发明中输入层模块示意图；

图6为本发明中Residual Block1残差网络模块示意图；

图7为本发明中Residual Block2残差网络模块示意图；

图8为本发明中Residual Block3残差网络模块示意图；

图9为本发明中Residual Block4残差网络模块示意图；

图10为本发明中Residual Block5残差网络模块示意图；

图11为本发明中Residual Block6残差网络模块示意图；

图12为本发明中Residual Block7残差网络模块示意图；

图13为本发明中Residual Block8残差网络模块示意图；

图14为本发明中Output Layers输出层模块示意图；

图15为本发明中离线监督训练的性能强化曲线，其中a)图显示的是本发明的被动毫米波人体目标分割网络的性能进化曲线，而b)图显示的是加入/未加入BatchNormalization层的性能对比；

图16为本发明中被动毫米波人体目标区域分割结果。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

图1展示的是本发明所提出的深度神经网络的离线监督训练过程。原始被动毫米波图像经过本发明网络结构的处理后生成人体目标区域的分割结果。同时，经过手工标注，可以得到人体目标区域的样本标签。这时，生成的人体目标分割结果与人体目标区域的真实标签之间存在误差损失。借助交叉熵，对该损失进行度量，并将损失误差进行反馈，激励深度神经网络的连接权重进行调整。通过大量样本的训练，最终使网络权重的变化趋于收敛，至此网络的离线监督训练完成。

图2展示的是本发明所提出的深度神经网络的网络结构，以及输入输出样例。首先在图2的上部，展示的是网络的离线监督训练过程，当离线监督训练完成后，网络模型权重便固定下来，当原始被动毫米波图像通过该网络模型处理后，即可得到对应的人体目标区域分割结果。从图2的网络结构模型上可以看到，本发明提出的网络分为主干网络和侧边跳接网络两个部分。在主干网络部分，也就是网络的编码段，采用的ImageNet预训练的Resnet50，而在网络的解码段，采用的是随机初始化的Resnet50，编码段和解码段的网络结构相互对称。而侧边跳接网络共有4段，分辨将编码段和解码段的网络特征图进行融合，从而借助深浅特征图的相互融合，进一步提高网络进行人体目标区域分割的精度。

本发明提供一种被动毫米波人体目标区域分割深度卷积神经网络，包括以下步骤：

1、离线训练集的制作

(1)借助被动毫米波成像设备，得到一批包含人体目标的被动毫米波图像，根据现有的成像设备，得到图像的分辨率大小为160×80；

(2)建议离线训练集图像总量为5000-20000幅，测试集图像总量为500-2000幅；

(3)保存离线训练集及测试集，用于深度神经网络的训练和测试，如图3所示。

在图3中，a)列展示的是原始的被动毫米波图像，分辨率大小为160×80。b)列展示的是借助标注工具，手工对人体目标的轮廓进行标注，其中绿色的轮廓线即为手工标记的人体目标区域和背景区域的分界线。c)列展示的是经过人体轮廓标注后，轮廓以内的紫色部分即为人体目标区域，黑色部分即为背景区域。d)列展示的是人体目标区域对应的被动毫米波图像，借助人体目标区域分割，背景区域的无关检测区域被排除，进而只对人体目标区域内部进行违禁品的检测，因此能够大幅降低搜索范围，同时避免无关检测区域的虚警干扰。

2、被动毫米波人体目标区域分割深度神经网络结构设计

本发明给出的被动毫米波人体目标区域分割深度神经网络结构采用U型编码-解码网络结构设计，网络的总体架构概览如图4所示：

从图4中可以看到，本发明被动毫米波人体目标区域分割深度神经网络分为编码端和解码端两个对称的部分，采用的是对称的ResNet50网络结构，编码端采用ImageNet预训练的网络权重系数，而解码端采用的是随机初始化的网络权重系数。下面分模块介绍各个网络结构的具体结构和参数设置。

如图5所示，Input Layer输入层模块。

Input Layer输入层模块包括4个子模块，分别是输入层Input_1，卷积层Conv1，批归一化层Bn_conv1以及激活层Activation_1.其中，输入层Input_1的输入的图像大小是224×224×3，输出是224×224×3，作用是完成图像的输入。卷积层Conv1的输入是224×224×3，输出是112×112×64，作用是对原始图像进行卷积，提取图像特征。批归一化层Bn_conv1的输入是112×112×64，输出是112×112×64，作用是对特征图进行批归一化。激活层Activation_1的输入是112×112×64，输出是112×112×64，作用是利用修正的线性激活函数Relu函数对批归一化层Bn_conv1的输出进行非线性激活。

如图6所示，Residual Block1残差网络模块。

Residual Block1残差网络模块包括最大池化层Max_pool_1，残差网络层Res2a_branch2a，残差网络层Res2b_branch2a，残差网络层Res2c_branch2a四个模块。其中，最大池化层Max_pool_1的输入的图像大小是112×112×64，输出是56×56×64，作用是减少特征图大小。残差网络层Res2a_branch2a的输入是56×56×64，输出是56×56×256，作用是特征提取。残差网络层Res2b_branch2a的输入是56×56×256，输出是56×56×256，作用是特征提取。残差网络层Res2c_branch2a的输入是56×56×256，输出是56×56×256，作用是特征提取。

如图7所示，Residual Block2残差网络模块。

Residual Block2残差网络模块包括激活层Activation_3，残差网络层Res3a_branch2a，残差网络层Res3b_branch2a，残差网络层Res3c_branch2a，残差网络层Res3d_branch2a五个子模块。其中，激活层Activation_3的输入是56×56×256，输出是56×56×256，作用是利用修正的线性激活函数Relu函数对残差网络层Res2c_branch2a的输出进行非线性激活；残差网络层Res3a_branch2a的输入是56×56×256，输出是28×28×512，作用是特征提取；残差网络层Res3b_branch2a的输入是28×28×512，输出是28×28×512，作用是特征提取；残差网络层Res3c_branch2a的输入是28×28×512，输出是28×28×512，作用是特征提取；残差网络层Res3d_branch2a的输入是28×28×512，输出是28×28×512，作用是特征提取。

如图8所示，Residual Block3残差网络模块。

Residual Block3残差网络模块包括激活层Activation_7，残差网络层Res4a_branch2a，残差网络层Res4b_branch2a，残差网络层Res4c_branch2a，残差网络层Res4d_branch2a，残差网络层Res4e_branch2a，残差网络层Res4f_branch2a七个子模块。其中，激活层Activation_7的输入是28×28×512，输出是28×28×512，作用是利用修正的线性激活函数Relu函数对残差网络层Res3d_branch2a的输出进行非线性激活；残差网络层Res4a_branch2a的输入是28×28×512，输出是14×14×1024作用是特征提取；残差网络层Res4b_branch2a的输入是14×14×1024，输出是14×14×1024作用是特征提取；残差网络层Res4c_branch2a的输入是14×14×1024，输出是14×14×1024作用是特征提取；残差网络层Res4d_branch2a的输入是14×14×1024，输出是14×14×1024作用是特征提取；残差网络层Res4e_branch2a的输入是14×14×1024，输出是14×14×1024作用是特征提取；残差网络层Res4f_branch2a的输入是14×14×1024，输出是14×14×1024作用是特征提取。

如图9所示，Residual Block4残差网络模块。

Residual Block4残差网络模块包括激活层Actication_13，残差网络层Res5a_branch2a，残差网络层Res5b_branch2a，残差网络层Res5c_branch2a四个子模块。其中，激活层Actication_13的输入是14×14×1024，输出是14×14×1024，作用是利用修正的线性激活函数Relu函数对残差网络层Res4f_branch2a的输出进行非线性激活；残差网络层Res5a_branch2a的输入是14×14×1024，输出是7×7×2048，作用是特征提取；残差网络层Res5b_branch2a的输入是7×7×2048，输出是7×7×2048，作用是特征提取；残差网络层Res5c_branch2a的输入是7×7×2048输出是7×7×2048，作用是特征提取。

如图10所示，Residual Block5残差网络模块。

Residual Block5残差网络模块包括激活层Activation_16，残差网络层Res6c_branch2a，残差网络层Res6b_branch2a，残差网络层Res6a_branch2a四个子模块。其中，激活层Activation_16的输入是7×7×2048输出是7×7×2048，作用是利用修正的线性激活函数Relu函数对残差网络层Res5c_branch2a的输出进行非线性激活；残差网络层Res6c_branch2a的输入是7×7×2048输出是7×7×2048，作用是特征提取；残差网络层Res6b_branch2a的输入是7×7×2048输出是7×7×2048，作用是特征提取；残差网络层Res6a_branch2a的输入是7×7×2048输出是14×14×1024，作用是特征图分辨率提升。

如图11所示，Residual Block6残差网络模块。

Residual Block6残差网络模块包括激活层Activation_20，残差网络层Res7f_branch2a，残差网络层Res7e_branch2a，残差网络层Res7d_branch2a，残差网络层Res7c_branch2a，残差网络层Res7b_branch2a，残差网络层Res7a_branch2a七个子模块。其中，激活层Activation_20输入是14×14×1024输出是14×14×1024，作用是利用修正的线性激活函数Relu函数对残差网络层Res6a_branch2a的输出进行非线性激活；残差网络层Res7f_branch2a的输入是14×14×1024输出是14×14×1024，作用是特征提取；残差网络层Res7e_branch2a的输入是14×14×1024输出是14×14×1024，作用是特征提取；残差网络层Res7d_branch2a的输入是14×14×1024输出是14×14×1024，作用是特征提取；残差网络层Res7c_branch2a的输入是14×14×1024输出是14×14×1024，作用是特征提取；残差网络层Res7b_branch2a的输入是14×14×1024输出是14×14×1024，作用是特征提取；残差网络层Res7a_branch2a的输入是14×14×1024输出是28×28×512，作用是特征图分辨率提升。

如图12所示，Residual Block7残差网络模块。

Residual Block7残差网络模块包括激活层Activation_27，残差网络层Res8d_branch2a，残差网络层Res8c_branch2a，残差网络层Res8b_branch2a，残差网络层Res8a_branch2a五个子模块。其中，激活层Activation_27输入是28×28×512输出是28×28×512，作用是利用修正的线性激活函数Relu函数对残差网络层Res7a_branch2a的输出进行非线性激活；残差网络层Res8d_branch2a的输入是28×28×512输出是28×28×512，作用是特征提取；残差网络层Res8c_branch2a的输入是28×28×512输出是28×28×512，作用是特征提取；残差网络层Res8b_branch2a的输入是28×28×512输出是28×28×512，作用是特征提取；残差网络层Res8a_branch2a的输入是28×28×512输出是56×56×256，作用是特征图分辨率提升。

如图13所示，Residual Block8残差网络模块。

Residual Block8残差网络模块包括激活层Activation_32，残差网络层Res9c_branch2a，残差网络层Res9b_branch2a，残差网络层Res9a_branch2a四个子模块。其中，激活层Activation_32的输入是56×56×256输出是56×56×256，作用是利用修正的线性激活函数Relu函数对残差网络层Res8a_branch2a的输出进行非线性激活；残差网络层Res9c_branch2a的输入是56×56×256输出是56×56×256，作用是特征提取；残差网络层Res9b_branch2a的输入是56×56×256输出是56×56×256，作用是特征提取；残差网络层Res9a_branch2a的输入是56×56×256输出是112×112×128，作用是特征图分辨率提升。

如图所14所示，Output Layers输出层模块。

Output Layers输出层模块包括卷积层Conv2d_1，激活层Activation_36，转置卷积层Convtrans，卷积层Conv2d_2，卷积层Conv2d_3，激活层Activation_37，调整层Reshape七个子模块。其中，卷积层Conv2d_1的输入是112×112×128，输出是112×112×64，作用是特征降维；激活层Activation_36的输入是112×112×64，输出是112×112×64，作用是利用修正的线性激活函数Relu函数对卷积层Conv2d_1的输出进行非线性激活；转置卷积层Convtrans的输入是112×112×64，输出是224×224×32，作用是特征图分辨率提升；卷积层Conv2d_2的输入是224×224×32，输出是224×224×1，作用是特征降维；激活层Activation_37的输入是224×224×1，输出是224×224×1，作用是利用修正的线性激活函数Relu函数对卷积层Conv2d_2的输出进行非线性激活；调整层Reshape的输入是224×224×1，输出是224×224，作用是生成最终的分割结果。

3、侧边跳接网络

从图3被动毫米波人体目标区域分割深度神经网络结构示意图上可以看到，本发明的深度网络模型包括4条侧边跳接网络，用于将浅层目标特征传入到深层网络中。其中①的起始位置为Input Layer模块的激活层activation_1，传入位置为Output Layer模块的加和层add_36，②的起始位置为Residual Block2残差网络模块的激活层activation_3，传入位置为Residual Block8残差网络模块的加和层add_32，③的起始位置为ResidualBlock3残差网络模块的激活层activation_7，传入位置为Residual Block7残差网络模块的加和层add_27，④的起始位置为Residual Block4残差网络模块的激活层activation_13，传入位置为Residual Block6残差网络模块的加和层add_20。

激活函数

在本发明的被动毫米波人体目标区域分割深度神经网络中，Output Layer中的activation_99为sigmoid激活函数，其他激活函数选择Relu。Sigmoid函数和Relu函数如下所示：

a.Sigmoid函数

其中，f(·)代表输出结果，x代表输入的特征，e代表指数幂。

b.Relu函数

其中，f(·)代表输出结果，x代表输入的特征。

4、被动毫米波人体目标区域分割深度神经网络的离线监督训练

在构造了被动毫米波人体目标区域分割深度神经网络以后，借助本发明中手工构建的离线监督训练集，对深度神经网络进行离线监督训练。在训练过程中，训练次数epoch＝200，批训练图像数batch_size＝28，优化器选择自适应矩估计算法Adam，学习率为0.001。在硬件平台上采用的是Nvidia Tesla M60，在深度学习框架上采用的是基于Tensorflow1.2的Keras2.0.9。离线监督训练的性能强化曲线如图15所示。图15中，a)描述的是离线监督训练过程中，训练集误差，测试集误差，训练集精度，测试集精度的进化过程，b)描述的是离线监督训练过程中，网络结构中加入批归一化层以及没有批归一化层的收敛速度差异。可以看到加入BN层以后，神经网络更快的趋于收敛，有助于网络性能的提升。

5、被动毫米波人体目标区域分割深度神经网络的性能评估

对本发明提出的被动毫米波人体目标区域分割深度神经网络的性能进行了全面的性能评估，首先给出被动毫米波人体目标区域分割结果。如图16所示。(a)为原图，(b)为人体区域真值，(c)为本发明的结果，(d)为FCN-8，(e)为FCN-16

在图16中，(a)第一列为原始被动毫米波图像，(b)第二列为手工标注的人体目标区域正样本，(c)第三列是本发明提出的深度神经网络得到的分割结果，(d)第四列为FCN-8得到的人体目标区域分割结果，(e)第五列为FCN-16得到的人体目标区域分割结果。从分割结果可以看到，本发明出的深度神经网络在图像细节描述能力上相比现有的其他深度语义分割网络有显著的提升。

为了对被动毫米波人体目标区域分割结果进行定量的分析，本发明引用了交并比系数IoU对不同网络的分割结果进行分析和比较，IoU的测算如下所示：

其中，RoI_T为深度神经网络得到的人体目标分割结果，RoI_G为对应的人体目标手工标注区域，对比的实验结果如表1所示。

表1不同DNN网络分割结果对比

DNN网络	IoU得分
		FCN-8	64.78％
FCN-16	42.89％
		SegNet	70.86％
U-Net	75.92％
		本发明	82.85％

实验结果表明，本发明提出的被动毫米波人体目标区域分割深度神经网络相比其他神经网络的分割精度有明显提高，能够帮助获取更加精确的人体目标区域，从而为违禁品的精确检测和定位提供有效的帮助。

Claims

1.一种面向违禁物安检的被动毫米波图像人体目标分割方法，其特征在于，包括以下步骤：

第五步，在测试阶段，将被动毫米波成像设备获取的人体目标的被动毫米波图像输入到已经训练完毕的所述面向违禁物安检的被动毫米波图像人体目标区域分割深度卷积神经网络中，直接获取最终的人体目标区域分割结果；

所述第三步，构建的面向违禁物安检的被动毫米波图像人体目标区域分割深度卷积神经网络包括两个部分，即主干网络和侧边跳接网络；所述主干网络作为网络的主体结构，完成两个任务，一个是从原始图像中进行特征图的提取，另一个对提取到的特征图进行分辨率提升，从而获得最终的图像分割结果；所述侧边跳接网络是主干网络的辅助结构，侧边跳接网络将主干网络提取的浅层特征图直接通过跳接的方式与深层特征图进行连接，达到多个尺度特征的相互融合目的，相比单纯的主干网络，由于加入了多尺度特征的相互融合，从而在目标分割的精度上相比单纯的主干网络有显著提升；

所述主干网络采用编码-解码型网络结构设计，即主干网络包括编码段和解码段两个对称的部分，在编码段，采用带有ImageNet预训练的Resnet50网络结构，在解码段则采用没有经过预训练的，随机权重初始化的Resnet50网络结构；所述主干网络包括：输入层模块，残差模块1，残差模块2，残差模块3，残差模块4，残差模块5，残差模块6，残差模块7，残差模块8以及输出层模块；其中，输入层模块的网络结构包括一个卷积层，一个批归一化层，以及一个非线性激活层，输入层输入图像的大小为224×224×3，输出特征图的大小为112×112×64；残差模块1的网络结构包括一个最大池化层，以及三个残差卷积层，残差模块1的输入特征图的大小为112×112×64，输出特征图的大小为56×56×256；残差模块2的网络结构设计包括一个非线性激活层，以及4个残差卷积层，残差模块2的输入特征图的大小为56×56×256，输出特征图的大小为28×28×512；残差模块3的网络结构包括一个非线性激活层，以及6个残差卷积层，残差模块3的输入特征图的大小为28×28×512，输出特征图的大小为14×14×1024；残差模块4的网络结构包括一个非线性激活层，以及3个残差卷积层，残差模块4的输入特征图的大小为14×14×1024，输出特征图的大小为7×7×2048；残差模块5的网络结构包括一个非线性激活层，以及3个残差卷积层，残差模块5的输入特征图的大小为7×7×2048，输出特征图的大小为14×14×1024；残差模块6的网络结构包括一个非线性激活层，以及6个残差卷积层，残差模块6的输入特征图的大小为14×14×1024，输出特征图的大小为28×28×512；残差模块7的网络结构包括一个非线性激活层，以及4个残差卷积层，残差模块7的输入特征图的大小为28×28×512，输出特征图的大小为56×56×256，残差模块8的网络结构包括一个非线性激活层，以及3个残差卷积层，残差模块8的输入特征图的大小为56×56×256，输出特征图的大小为112×112×128，输出层的网络结构包括一个卷积层，一个非线性激活层，一个转置卷积层，一个非线性激活层以及一个特征整形层，输出层模块的输入特征图的大小为112×112×128，输出图像的大小为224×224；

所述侧边跳接网络的结构为：连接残差模块1与残差模块8，连接残差模块2与残差模块7，连接残差模块3与残差模块6，以及连接残差模块4与残差模块5的4条网络，侧边跳接网络结构将输入层模块中的激活层即Actication_1层的输出直接引向输出层模块中的卷积层即Conv2d_1层的输出并将二者进行相加融合；输入层模块中的激活层即Actication_1层的输出特征图大小为112×112×64，输出层模块中的卷积层即Conv2d_1层的输出特征图大小为112×112×64，将输入层模块中的激活层即Actication_1层的输出特征图与输出层模块中的卷积层即Conv2d_1层的输出特征图进行相加融合，融合后的特征图大小为112×112×64；侧边跳接网络结构将残差模块2的加和层即Add_3层的输出直接引向残差模块7的残差网络层即Res8a_branch2a层，并将残差模块2的加和层即Add_3层输出与残差模块7的残差网络层即Res8a_branch2a层的输出进行相加融合；残差模块2的加和层即Add_3层输出特征图大小为56×56×256，残差模块7的残差网络层即Res8a_branch2a层的输出特征图大小为56×56×256，融合后的特征图大小为56×56×256；侧边跳接网络结构将残差模块3的Add_7层输出直接引向残差模块6的残差网络层即Res7a_branch2a层，并将残差模块3的加和层即Add_7层的输出与残差模块6的残差网络层即Res7a_branch2a层输出进行相加融合；残差模块3的加和层即Add_7层的输出特征图大小为28×28×512，残差模块6的残差网络层即Res7a_branch2a层输出特征图大小为28×28×512，融合后的特征图大小为28×28×512，侧边跳接网络结构将残差模块4的加和层即Add_13层输出直接引向残差模块5的残差网络层即Res6a_branch2a层输出并将残差模块4的加和层即Add_13层输出与残差模块5的残差网络层即Res6a_branch2a层输出进行相加融合；残差模块4的加和层即Add_13层输出特征图大小为14×14×1024，残差模块5的残差网络层即Res6a_branch2a层输出特征图大小为14×14×1024，将残差模块4的加和层即Add_13层输出与残差模块5的残差网络层即Res6a_branch2a层输出进行相加融合，融合后的特征图大小为14×14×1024。

2.根据权利要求1所述的面向违禁物安检的被动毫米波图像人体目标分割方法，其特征在于：所述第二步，具体实现如下：

(1)建立的离线训练集和测试集；

(3)为了避免同一标注员标注样本，造成标注质量的下降或是标注同质化现象的产生，每位标注人的标注图像数量控制在200-300幅之间，最终将所有手工标注的深度神经网络离线训练样本集随机打乱顺序进行混合，获得离线训练集与测试集。

3.根据权利要求2所述的面向违禁物安检的被动毫米波图像人体目标分割方法，其特征在于：所述离线训练集的图像总量为5000-20000幅，测试集的图像总量为500-2000幅。