CN114067273A

CN114067273A - 一种夜间机场航站楼热成像显著人体分割检测方法

Info

Publication number: CN114067273A
Application number: CN202111391643.XA
Authority: CN
Inventors: 於跃成; 刘畅; 汪川; 史金龙; 华伟
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-18
Anticipated expiration: 2041-11-23
Also published as: CN114067273B

Abstract

本发明公开了一种适用于夜间机场航站楼的热成像显著人体分割检测方法。具体步骤为：(1)、递进地从热成像图像中提取5种不同尺度的编码器特征图；(2)、利用嵌入模块改变步骤(1)得到的编码器特征图的通道数，获得新的输出特征图；(3)、将步骤(2)得到的输出特征图与上一层原始解码器特征图叠加后得到相同尺度的原始解码器特征图；(4)、在步骤(3)中得到的特征图上分别提取热特征分支和显著特征分支；(5)、利用融合模块，将步骤(4)中得到的两个特征分支加以融合，以得到显著解码器特征图；(6)、将步骤(5)中得到的5个显著解码器特征图全部上采样到输入图像的原始尺度后，通过叠加融合操作获得最终输出特征图。

Description

一种夜间机场航站楼热成像显著人体分割检测方法

技术领域

本发明涉及一种显著人体分割检测方法，具体的讲是一种夜间机场航站楼热成像显著人体分割检测方法，旨在利用热成像技术得到的夜间机场航站楼环境下的热成像图，以从中检测出包含多姿态、多尺度及存在部分遮挡的显著人体目标。

背景技术

随着民航事业的蓬勃发展，航站楼安全巡检逐渐成为保障机场安全的重要工作内容之一。现有的航站楼安全巡检方式主要是人工巡检，并辅之以巡检人员定位和中控室视频监控等信息技术手段。在这样的巡检方式下，机场管理者必须面对工作人员劳动强度大和劳动力成本逐年攀升的难题。此外，由于航站楼的巡检主要由人来执行，员工的责任心成为影响巡检效果的关键因素，员工在巡检过程中的分心极易造成航站楼的安全隐患。近年来，巡检机器人开始广泛应用于电力行业、矿山开采、机房巡检和库房安防等多个领域。为此，使用机器人开展巡检工作已成为航站楼智能安防技术发展的必然趋势。

为了应对航站楼夜间巡检的需要，巡检机器人应该具备在弱光甚至无光的环境里准确识别人体的能力。为此，选用热成像摄像头作为巡检机器人的监控摄像头成为必然选择。本质上，机器人巡检的核心是对摄像头采集的图像进人体体检测的过程。传统的人体检测算法大多依赖于手工特征，例如方向梯度直方图、积分通道特征和可变形的组件特征等。在可见光场景下运用这类方法可以取得一定的效果，但是若将其直接运用于热成像环境，往往难以取得良好的效果。但究其原因，与可见光图像相比，热成像图像有着多种不利因素，包括纹理特征缺失，视觉效果模糊，分辨率和信噪比低等。

传统的热成像场景下的人体检测方法往往是可见光场景下显著性检测方法直接扩展应用。然而，这些方法只是利用了图像的浅层特征。为了完成检测任务，这类传统方法需要针对特定场景下的一类目标设计特征，而且这些特征需要以手工方式从图像中提取。虽然以手工方式能够从图像中快速提取特征，但是这些特征往往无法应对夜间机场航站楼场景下人体姿态变化和遮挡等其它因素引起的错误识别。2013年，Yan等提出的Hsaliency方法(Yan Q,Li X,Shi J,et al.Hierarchical Saliency Detection[C]//ComputerVision and Pattern Recognition(CVPR),2013IEEE Conference on.IEEE,2013.)作为一种传统的显著性方法，当其应用于目标与背景之间具有较强对比度的场景时具有一定的作用，但是在夜间机场航站楼场景下时便无法满足机器人巡检的实际需要。

深度神经网络通过多层神经网络进行端到端的学习，可以直接利用训练样本深层次地挖掘数据的潜在特征。为此，夜间机场航站楼场景下不同状态人体的特征表示可以利用深度模型以自主学习的方式获取，从而有效避免了传统的手动设计特征所带来的不足。然而，在利用图像分割方法对红外图像中的开展人体检测时，尚需考虑在航站楼中实际存在的一些影响目标识别客观因素。首先，航站楼中的人体有站立、行走、静坐、蹲卧等多种姿态，同时航站楼中的座椅、梁柱等固定物也会对人体目标形成局部遮挡。其次，在利用红外摄像头获取目标图像时，航站楼里的光源、显示屏等热源也会在红外图像中成像。再者，当巡检机器人以水平视角检测周围环境时，由于距离摄像头远近的差异，人体目标会在图像中呈现出不同的尺度。此外，为了适应机场巡检机器人平台计算资源的有限性，夜间机场航站楼场景下的人体检测方法必须能够利用有限的计算资源实现人体目标的精准检测。

Amulet(Zhang P,D Wang,Lu H,et al.Amulet:Aggregating Multi-levelConvolutional Features for Salient Object Detection[C]//IEEE ComputerSociety,2017.)、BASNet(Qin X,Zhang Z,Huang C,et al.BASNet:Boundary-AwareSalient Object Detection[C]//2019IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2019.)、CPD(Cascaded Partial Decoder for Fastand Accurate Salient Object Detection[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,2019.)和SRM(Wang T,Borji A,Zhang L,et al.A Stagewise Refinement Model for Detecting SalientObjects in Images[C]//2017IEEE International Conference on Computer Vision(ICCV).IEEE,2017.)是近年来提出的4种经典的基于深度模型的红外图像人体检测方法。从这4种方法在机场实际采集的数据集上的运行结果来看，总体来说，SRM方法在检测精度和检测速度方面都没有特别的优势；Amulet方法具有较高的检测精度和较好的鲁棒性，但是Amulet方法对算力有着较高要求，难以满足巡检机器人实时检测的要求；CPD方法虽然在检测速度上具有一定的优势，但是其整体检测精度却是这些深度模型中最差的一个。BASNet方法由于在注意轻量化的同时更加关注目标边缘像素点的分割效果，所以该模型兼具了较好的鲁棒性和较快的运行速度。但是BASNet模型在处理远处小尺度目标时，往往会出现漏检的情况。

相对于容易出现漏检的行为，对计算资源的要求较高目标检测类模型，目标分割类模型，如U-Net神经网络模型(Ronneberger O,Fischer P,Brox T.U-Net:ConvolutionalNetworks for Biomedical Image Segmentation[J].Springer,Cham,2015.)，更加适合于对安全性和实时性有更高要求的航站楼夜间巡检任务。为此，为了应对多姿态、多尺度、局部遮挡和热源干扰等不利因素，减少漏检情况的发生，本发明公开了一种夜间机场航站楼热成像显著人体分割检测方法。本发明方法基于U-Net神经网络模型，改进了U-net网络的解码器结构，提高了方法对图像中高温区域的敏感性，降低了夜间机场航站楼场景下各种干扰因素对人体检测性能的不利影响，提高了在实际应用场景中的检测精度。此外，本发明方法对深度网络结构进行了一系列轻量化改进，提高了模型检测人体目标的检测效果，降低了该方法对计算资源的需求，以适应于巡检机器人有限计算资源的实际状况。

发明内容

本发明的目的在于针对现有技术存在的缺陷，提出一种夜间机场航站楼热成像显著人体分割检测方法，该方法将热成像图像中热特征融入符合编码器-解码器结构的深度神经网络方法当中，使方法能够在计算资源有限的机器人平台上进行实时检测，并且能够更加精确地检测出航站楼复杂情况的高热量显著人体，降低漏检情况的发生。

为了达到上述目的，本发明采用的技术方案如下：

一种夜间机场航站楼热成像显著人体分割检测方法，包括如下步骤:

a、基于编码器-解码器结构，进行模型轻量化改进，输入原始热成像图I，利用VGG神经网络递进地从热成像图像中提取5种不同尺度的编码器模块特征图E_i；

b、将步骤a中的编码器模块特征图E_i经过轻量化嵌入模块，得到嵌入模块输出相应的特征图A_i；

c、将步骤b中得到的嵌入模块输出特征图A_i与已经过上采样的上一层原始解码器特征图D_i+1叠加结合，获得相同尺度的原始解码器特征图D_i；

d、利用步骤c中得到的5种不同尺度的原始解码器特征图D_i，学习其中包含的热度特征信息和显著特征信息，分别提取每个特征图D_i所对应的热特征分支H⁽ⁱ⁾和显著特征分支S⁽ⁱ⁾；

e、在融合模块中将步骤d中得到的每个尺度的两种特征分支H⁽ⁱ⁾和S⁽ⁱ⁾均执行通道数改变操作，与已经过上采样的上一尺度特征图S_i+1加以融合，得到显著解码器特征图S_i；

f、将步骤e中得到的5种显著解码器特征图S_i都上采样到输入图像的尺度并加以结合，得到最终输出特征图S₀；

上述中的i＝1,2,3,4,5。

进一步描述，对模型的轻量化改进方法，包括如下步骤：

(1)、舍弃掉VGG网络中最后的全连接层部分，仅使用VGG神经网络的前5层来提取不同尺度的编码器特征图；

(2)、将不同尺度的输入图像全部调整为320×320尺度，降低运算参数的数量并保证方法对各种尺度的输入图像都有良好的效果；

(3)、步骤b中的轻量化嵌入模块，为了实现通道数的改变，嵌入模块通过聚集每一组通道的最大值来实现，其具体生成过程采用计算公式：

其中A_i表示特征图E_i经嵌入模块操作后对应的特征图，相比于E_i，A_i的通道数发生了改变，i作为编码器特征图的索引值，其取值范围为[1,5]，

项表示编码器特征图E_i的第

个通道，其中j，k皆为整数，n和m分别表示输入和输出的通道数，其中每一组原有的通道数为n/m；

(4)、将解码器模块中通道数为256或者128的特征图降为64通道数的特征图，从而减少方法参数；

(5)、解码器模块中的上采样方法选用双线性插值法，在计算最终输出特征图S₀的过程中，当输出尺度达到80×80时，上采样方法则选用更加快速的最邻值法。

进一步描述，所述步骤c中原始解码器特征图D_i的生成需要通过有监督学习方法，并执行叠加操作和上采样操作，其具体生成过程采用计算公式：

其中T表示监督学习，由一系列卷积层和激活函数组成，其下标表示对应的模块，cat表示叠加操作，up表示上采样操作,特别注意，当i等于5时，上式中的D_i+1等于A₅，且不再进行上采样操作。

进一步描述，所述步骤d中的热特征分支H⁽ⁱ⁾和显著图分支S⁽ⁱ⁾分别利用热度图与显著图，并通过监督学习的方式得到，其具体生成过程采用计算公式：

其中T表示监督学习，由一系列卷积层和激活函数组成，其下标表示对应的模块，显著图通过手工标注方式得到，而热度图来源于热成像图像中的高灰度区域，采用阈值分割的方法生成，分割时的灰度阈值θ_TA由输入图像I的标准差σ_I和平均值

计算得到，其具体计算过程采用计算公式：

进一步描述，所述步骤e中的显著解码器特征图S_i的生成需要通过有监督学习方法，并执行叠加操作和上采样操作，其具体生成过程采用计算公式：

其中cp表示与嵌入模块相同的改变通道数操作，cat表示叠加操作，up表示上采样操作，特别注意，当i等于5时，上式中的S_i+1等于D₅，且不再进行上采样操作。

进一步描述，所述步骤f中的最终输出特征图S₀，首先需要利用手工标注的显著图进行监督学习，再执行叠加操作和上采样操作，其具体生成过程采用计算公式：

其中T表示监督学习，由一系列卷积层和激活函数组成，其下标表示对应的模块，cat表示叠加操作，up表示上采样操作。

进一步描述，该方法对预测图生成过程和模型损失函数的设计，具体方法如下：

(h-1)、将热度图分支H⁽ⁱ⁾的特征图、显著图分支S⁽ⁱ⁾的特征图及最终输出特征图S₀的通道数全部修改为1，以计算相对应的预测图，对应的预测图P_i ^H、

及

的具体生成过程采用计算公式：

P_i ^H＝cp(H⁽ⁱ⁾)

其中cp表示与嵌入模块相同的改变通道数方法；

(h-2)、通过计算热度图分支H⁽ⁱ⁾和显著图分支S⁽ⁱ⁾在每个尺度上的分支预测图与真实图像之间的差异性，分别设计这两个分支上的损失函数

和

其具体计算方式采用以下公式：

其中L表示该条分支的损失值，L上标表示分支名称，S⁽ⁱ⁾表示显著分支，H⁽ⁱ⁾表示热度分支，n表示像素点的总个数，m表示像素点的索引值，符号G表示真实的图像，G上标表示对应分支上的图像名称，下标则表示当前像素点所在位置，符号P表示预测图像，H上标表示对应分支上的预测图名称，下标则表示当前像素点所在位置，需要说明的是，

和

的取值均为0或1，而

和

的取值为区间[0,1]；

(h-3)、设计输出特征图S₀的损失函数

时，仅计算特征图S₀的预测图与显著分支中第一个分支的真实图像

之间的差异性，并通过在损失函数

中加入了

项来提高处于热度图高温区域的像素点权重，其具体计算方式采用以下公式：

其中，n表示像素点的总个数，m表示像素点的索引值；

(h-4)、通过

及

三类损失加权和的方式来计算模型的总体损失L，其具体计算方式采用以下公式：

其中，

为

的权重，设置为1.5，w_i为这两个分支上总体损失的权重，依据图像尺度越大权重越大的原则，将w_i(i＝1,2…,5)依次设置为0.2,0.4,0.6,0.8,1。

有益效果：本发明的一种夜间机场航站楼热成像显著人体分割检测方法与现有的技术相比，具有如下优点：

本发明通过分割方法执行热成像场景下的人检测任务，能够有效检测出机场复杂环境下站立、行走、静坐、蹲卧等多种姿态的人体目标，并能够高效处置多尺度和部分遮挡情形下的显著人体目标分割，极大地改善了现有方法经常漏检的情况，高效地实现了夜间航站楼不同场景中的人体识别任务。此外，本发明通过一系列模型轻量化设计，降低了模型对机器人平台计算资源的需求，并使得本发明方法能够以40FPS以上的速度得到检测结果，满足了巡检机器人实时检测的需求。

附图说明

图1为本发明夜间机场航站楼热成像显著人体分割检测的流程图；

图2为本发明夜间机场航站楼热成像显著人体分割检测的详细结构图；

图3为输入的原始热成像图像；

图4为从原始热成像图像得到的热度图；

图5为手工标记显著图；

图6为融合模块的流程图；

图7为显著人体检测结果图；

图8为可视化对比图；

其中实线箭头表示数据流，虚线箭头表示监督学习。

具体实施方式

下面结合说明书附图对本发明的实施例作进一步详细说明。

本发明进行的仿真实验是在GPU型号为RTX 2080Ti，内存为16G的PC测试平台上编程实现。

如图1所示，一种夜间机场航站楼热成像显著人体分割检测方法具体步骤如下：

(1)、基于编码器-解码器结构，如图2所示，输入原始热成像图I，如图3所示，利用VGG神经网络递进地从热成像图像中提取5种不同尺度的编码器模块特征图E_i；

(2)、将步骤(1)中的编码器模块特征图E_i经过轻量化嵌入模块，得到嵌入模块输出相应的特征图A_i；

(3)、将步骤(2)中得到的嵌入模块输出特征图A_i与已经过上采样的上一层原始解码器特征图D_i+1叠加结合，然后获得相同尺度的原始解码器特征图D_i；

(4)、利用步骤(3)中得到的5种不同尺度的原始解码器特征图D_i，学习其中包含的热度特征信息和显著特征信息，分别提取每个特征图D_i所对应的热特征分支H⁽ⁱ⁾和显著特征分支S⁽ⁱ⁾；

(5)、在融合模块中将步骤(4)中得到的每个尺度的两种特征分支H⁽ⁱ⁾和S⁽ⁱ⁾均执行通道数改变操作，与已经过上采样的上一尺度特征图S_i+1加以融合，得到显著解码器特征图S_i；

(6)、将步骤(5)中得到的5种显著解码器特征图S_i都上采样到输入图像的尺度，并将其加以结合，得到最终输出特征图S₀；

其中，所述的i＝1,2,3,4,5。

对模型的轻量化改进方法，包括如下步骤：

(3)、如图2所示的嵌入模块，为了实现通道数的改变，嵌入模块通过聚集每一组通道的最大值来实现，其具体生成过程采用计算公式：

项表示编码器特征图E_i的第

所述原始解码器特征图D_i的生成需要通过有监督学习方法，并执行叠加操作和上采样操作，其具体生成过程采用计算公式：

所述热特征分支H⁽ⁱ⁾和显著图分支S⁽ⁱ⁾分别利用热度图与显著图，如图4，图5所示，并通过监督学习的方式得到，其具体生成过程采用计算公式：

计算得到，其具体计算过程采用计算公式：

所述显著解码器特征图S_i的生成需要通过有监督学习方法，并执行叠加操作和上采样操作，如图6所示，其具体生成过程采用计算公式：

所述最终输出特征图S₀，首先需要利用手工标注的显著图进行监督学习，再执行叠加操作和上采样操作，其具体生成过程采用计算公式：

该方法对预测图生成过程和模型损失函数的设计，具体方法如下：

(1)、将热度图分支H⁽ⁱ⁾的特征图、显著图分支S⁽ⁱ⁾的特征图及最终输出特征图S₀的通道数全部修改为1，以计算相对应的预测图，对应的预测图_P ^H、

及

的具体生成过程采用计算公式：

其中cp表示与嵌入模块相同的改变通道数方法；

(2)、通过计算热度图分支H⁽ⁱ⁾和显著图分支S⁽ⁱ⁾在每个尺度上的分支预测图与真实图像之间的差异性，分别设计这两个分支上的损失函数

和

其具体计算方式采用以下公式：

和

的取值均为0或1，而

和

的取值为区间[0,1]；

(3)、设计输出特征图S₀的损失函数

之间的差异性，并通过在损失函数

中加入了

其中，n表示像素点的总个数，m表示像素点的索引值；

(4)、通过

及

其中，w_s0为

最终将最终输出预测图乘以255，并将其还原成输入图像尺度大小得到可视化输出结果，如图7所示。

为了验证模型的效率和有效性，我们在ATH、OSU、KAIST和FLIR4个数据集上进行了实验，其中OSU、KAIST和FLIR为公开数据集，ATH数据集为在机场候机楼采集的实际数据集。ATH数据集包括近4000张机场实际场景下采集得到的图像数据，其中包括了多姿态，多尺度，被遮挡等多种复杂人体样本。

我们在OSU、KAIST、FLIR和ATH等4个数据集上，将本发明方法与包括Hsaliency、Amulet、BASNet、CPD和SRM在内的另外5个显著性方法的性能进行了实验比较。其中，OSU、KAIST、FLIR为3个公开的数据集，而ATH为机场候机楼实际采集的数据集。

从F-measure值和mIOU值来看，本发明方法除了在3个公开数据集上总体性能优良，并且在机场实际数据集ATH数据集上有着最优的性能。总体上，Amulet方法虽然与本发明方法在4个数据集上的性能比较接近，二者都具有较高的精度和鲁棒性，但是Amulet方法对算力有着较高要求，其FPS值仅为17，难以满足巡检机器人实时检测的要求。此外，CPD方法虽然在检测速度上与本发明方法较为接近，二者的FPS值均在40以上，但是其整体检测精度却远低于本发明方法。由此可见，本发明方法检测速度和检测精度方面有着总体均衡的优势，尤其是在候机楼实际数据集ATH上有着明显的性能优势。

图8展示了6种实验方法在4个数据集上的一些可视化的例子。BASNet方法由于在注意轻量化的同时更加关注目标边缘像素点的分割效果，所以模型兼具了较好的鲁棒性和较快的运行速度。但是BASNet模型在处理远处小尺度目标时，往往会出现漏检的情况。相比较而言，本发明方法由于能够更加关注高温区域的像素点，从而保证了模型即使在面对小尺度目标时仍然具备较好的效果。此外，由于本发明对方法进行了轻量化设计，从而使得我们的模型可以使用更少的参数和算力来完成模型的运算。为此，本发明方法能够以40FPS以上的速度检测出结果，完全能够满足热成像摄像机下的实时检测任务。