CN111209810B

CN111209810B - 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构

Info

Publication number: CN111209810B
Application number: CN201911364779.4A
Authority: CN
Inventors: 曹彦鹏; 罗星; 官大衍; 曹衍龙; 杨将新
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-12-26
Filing date: 2019-12-26
Publication date: 2023-05-26
Anticipated expiration: 2039-12-26
Also published as: CN111209810A

Abstract

本发明公开了一种面向可见光与红外图像准确实时行人检测方法，包括以下步骤：构建深度学习卷积网络初始框架模型；将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练，利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式监督，获得行人检测识别模型；获取待识别图像，输入行人检测识别模型；行人检测识别模型进行双通道特征提取并进行特征融合，获取双通道融合后的特征图；根据融合后的特征图输出行人检测识别模型预测的行人检测热图，得到行人位置结果。本发明通过融合可见光和红外图像中提取的特征以实现准确实时行人检测的边界框分割监督深度学习框架。

Description

向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构

技术领域

本发明属于目标检测技术领域，具体涉及一种面向可见光与红外图像准确实时行人检测方法。

背景技术

在过去的几十年中，行人检测算法一直是机器人和计算机视觉领域的热门研究课题。而给定在各种现实世界情况下采集得到的图像，行人检测算法应尽可能准确地去定位图中出现的行人实例，它也是促进面向人类开发的应用，如自动驾驶，视频监控和城市监控等技术发展的重要基础。

近些年来行人检测技术不断发展，但为实际应用配套研发一个鲁棒性好的行人检测算法仍然是一项艰巨的任务。现有大部分行人检测算法都仅使用可见光图像进行检测，使得检测效果明显地受制于光照条件、天气以及遮挡情况改变等因素的影响。当然，现在越来越多的研究人员也逐渐把目光聚焦于开发基于可见光与红外信息的行人检测方法，来开发实现鲁棒性好的行人目标检测实时应用。普遍看法认为可见光与红外图像提供了感兴趣目标的互补信息，而且有效融合这两种数据也能提升检测的准确性与鲁棒性。

需要指出的是，大多数现行的基于可见光与红外信息的行人检测方法都是建立于边框监督的，例如区域候选网络(Region Proposal Network，RPN)或者Faster R-CNN(Faster Region-Convolutional Neural Networks)，它们利用边框来定位图中每一个行人目标。在测试阶段，为了与真实行人目标产生足够的覆盖区域，需要产生大量的候选边框，这种做法将会导致正负训练样本之间数量的严重不平衡问题并且显著地降低算法训练过程的计算速度。此外，即便是时下最先进的行人检测算法也存在一个仅在输入图像分辨率高，细节丰富时检测效果才可观的问题，即它们无法在低分辨率图像中产生足够多的正确候选边框，从而导致准确性显著降低。针对以上问题的现有典型解决措施就是用上采样方法增加输入图像乃至图中行人的分辨率，随之而来将加重计算负担，但诸如实时的自动驾驶等应用则无法容忍其计算速率慢的问题。

发明内容

鉴于以上存在的技术问题，本发明用于提供一种面向可见光与红外图像准确实时行人检测方法，通过融合可见光和红外图像中提取的特征以实现准确实时行人检测的边界框分割监督深度学习框架。

为解决上述技术问题，本发明采用如下的技术方案：

一种面向可见光与红外图像准确实时行人检测方法，包括以下步骤：

构建深度学习卷积网络初始框架模型；

将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练，利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式监督，获得行人检测识别模型；

获取待识别图像，输入行人检测识别模型；

行人检测识别模型进行双通道特征提取并进行特征融合，获取双通道融合后的特征图；

根据融合后的特征图输出行人检测识别模型预测的行人检测热图，得到行人位置结果。

优选地，构建深度学习卷积网络初始框架模型中：

所述卷积网络初始架构模型包括依次设置的双路卷积神经网络、级联层、卷积层和Softmax层，其中双路卷积神经网络包括数据层、卷积层和池化层，由数据层出发，卷积层和池化层均设置多个，且交替分布，双路卷积神经网络分别处理可见光图像与红外图像，提取双通道特征经由级联层进行融合，再卷积层学习，借助Softmax层量化更新过程或输出结果。

优选地，训练时可见光图像与红外图像特征提取通道中的卷积层参数均使用提前在ImageNet大规模图像识别数据集上预训练过的VGG-16模型的权重与偏置初始化，而所有其他卷积层则使用高斯正态分布初始化。

优选地，所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，所用数据集为KAIST可见光与红外行人检测数据集。

优选地，利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式输入具体为：采用双线性插值法将可见光图像与红外图像中易于获得的边框标注转换为分割监督信息作为掩膜标签输入。

优选地，所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，生成小批量数据使用的是基于图像的训练和测试策略，批尺寸大小为1。

优选地，所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，至少进行两个时期的训练，训练时行人检测识别模型中的卷积层参数均是通过随机梯度下降法在前两个时期中进行调整，其中，两个时期中的学习率大小不同，并且采取梯度裁剪方法进行调整，所述卷积层参数为权重和偏置。

优选地，所述行人检测识别模型进行双通道特征提取并进行特征融合时，利用跳跃连接将中层特征与高层特征相关联。

优选地，所述根据融合后的特征图输出行人检测识别模型预测的行人检测热图为行人检测识别模型在红外热通道展示预测出的以置信分数区分行人目标与背景区域的行人检测热图。

采用本发明具有如下的有益效果：

(1)本发明技术方案采用的边界框分割监督深度学习框架避免了现有基于边界框监督的检测算法中不可避免的复杂超参数设置问题，例如边框大小、长宽比、步长和IOU阈值等。

(2)在训练用于区分背景与人(特别是小尺寸行人目标)的双路神经网络时，基于边界框的近似分割监督掩膜信息比传统的边界框信息提供了更有效的监督信息，能够准确地检测出其他算法处理效果不佳的低分辨率图像中的行人目标。

(3)网络架构具有更高的有效性，不仅能够提取信息丰富的多尺度特征图以达到更为精确的行人检测结果，并且对场景条件变化更具鲁棒性。

(4)网络架构可以通过融合在中层特征中提取的图像细节来更好地识别图像中的中等和远距离行人目标，此外，在不同的包含遮挡行人的图像数据集上，观察到当行人目标被部分或严重遮挡时，网络架构仍具有准确的检测结果。

(5)本发明技术方案不仅检测效果更好，而且在一张NVIDIA GeForce Titan XGPU上能够达到每秒超过30帧的检测速度，可以满足诸如在自动驾驶等实时性要求较强等应用的开发需求。

附图说明

图1为本发明实施例的面向可见光与红外图像准确实时行人检测方法的步骤流程图；

图2为本发明实施例的面向可见光与红外图像准确实时行人检测方法采用的实现行人检测分割的卷积神经网络整体结构示意图；

图3为本发明实施例的面向可见光与红外图像准确实时行人检测方法中将易于获得的边框标注转换为分割监督信息作为掩膜输入标签的示意图；

图4为本发明实施例的面向可见光与红外图像准确实时行人检测方法中可见光与红外图像关键特征在网络中的提取和应用示意图；

图5a为本发明实施例的面向可见光与红外图像准确实时行人检测方法中标准行人检测结果(可见光通道展示)；

图5b为本发明实施例的面向可见光与红外图像准确实时行人检测方法中输入640X512分辨率图像后进行的边框检测结果(红外通道展示)；

图5c为本发明实施例的面向可见光与红外图像准确实时行人检测方法中输入320X256分辨率图像后进行的边框检测结果(红外通道展示)；

图5d为本发明实施例的面向可见光与红外图像准确实时行人检测方法中输入320X256分辨率图像后的检测效果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，所示为本发明实施例的面向可见光与红外图像准确实时行人检测方法的具体实施方式流程图，包括以下步骤：

S11，构建深度学习卷积网络初始框架模型。

其中卷积网络初始框架模型结构参见图2，卷积网络初始架构模型包括依次设置的双路卷积神经网络、级联层、卷积层和Softmax层，其中双路卷积神经网络包括数据层、卷积层和池化层，由数据层出发，卷积层和池化层均设置多个，且交替分布，双路卷积神经网络分别处理可见光图像与红外图像，提取双通道特征经由级联层进行融合，再卷积层学习，借助Softmax层量化更新过程或输出结果。即可见光与红外图像数据输入层开始，数据层包含多层卷积层(ConvX-N)和多层池化层(PoolX-N)，卷积层和池化层交替分布，卷积层由ReLU函数作为激活函数。图2中每层中标示后的X代表第几层，X＝1，2，3，4，5，…，N分别有V和I两种，其中V表示Visible代表可见光图像通道，I表示Infrared代表红外图像通道。

卷积层的目的是提取输入的不同特征，第一层卷积层可能只提取一些低级的特征，如边缘、线条和角等。层级更多层的网路能从低级特征中迭代提取更复杂的特征。如本图示实施例中，采用5层卷积层能够不断提取图像中更有效的信息。池化层的目的在于保留主要特征，同时减小下一层的参数与计算量，防止过度拟合。

双路卷积神经网络(Conv1-Conv5)通道分别处理可见光图像与红外图像，提取出的双通道特征经由级联层(Concatenation)进行融合。目的是将两个图像中的特征进行综合。在对两个图像特征提取的过程中，某个图像中的一些特征没有提取到(如夜晚环境中拍摄的可见光图像行人可见度低，导致行人特征少)，但另一个图像恰好提取到对应的特征(红外图像中人的温度明显高于环境温度故而在红外图像中比较明显)，通过学习融合后的图像双通道语义特征，将两个图像中的特征进行综合，提取到相对更加完善的特征。

融合过程如图2架构中转折箭头所示，利用跳跃连接将中层特征(Conv4x-V/Conv4x-I层输出)与高层特征(Conv5-V/Conv5-I层输出)相关联，需要说明的是，Conv4x-V/Conv4x-I层分别表示可见光通道的Conv4x-V层和红外通道的Conv4x-I层。而反卷积层(Deconv5-V/Deconv5-I)的作用是用来增加高层特征的空间分辨率。之后，经过上采样的高层特征与中层特征(经过1x1卷积层Conv4x-V/I来降低维度)按元素相加融合。由于在深度卷积网络中，深层输出经过编码的高层语义信息而浅层捕捉丰富的低层次空间特征，将不同层特征混合的网络架构能够提取出饱含丰富信息的多尺度特征图，能获得更准确的检测结果。

之后再通过1x1的卷积层(Conv-Mul)学习双通道语义分割特征，并降低特征图维数，最终借助Softmax层(Det-Mul)量化更新过程或输出结果。

S12，将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练，利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式监督，获得行人检测识别模型。

可见光图像一般从光线较强或白天的场景拍摄获得，图像清晰。红外图像一般由红外相机拍摄，适用于光线较暗或夜晚的场所拍摄，能够获得比较清晰的红外图像。同时学习可见光图像与红外图像中的人体相关特征，能够实现白天和夜晚多环境条件下的检测分割。获取配准的一对可见光图像和红外图像，以图像中针对行人目标区域的标准结果作为分割监督信息，分别对可见光图像和红外图像中行人相关特征进行提取。

现在利用可见光与红外信息的行人检测算法/网络框架都利用一些公开数据集进行性能评估，本发明实施例中选用的可见光与红外图像数据集为KAIST可见光与红外行人检测数据集，一具体应用实例中，其由50172对良好对齐的在全天交通场景中采集得到的可见光与红外热图像对(分辨率640x512)组成，包含13853个行人标注。与其他多光谱行人检测算法一样，每2帧采样训练图像；KAIST测试数据集中包含有1356个行人注释的2252个图像对。由于原始KAIST测试数据集包含许多有问题的标注(例如，不准确的边框和遗漏的行人目标)，因此利用改进标注后的数据集进行定量和定性评价。具体而言，考虑了所有合理的，不同规模的以及含有遮挡效应的KAIST测试数据集中的图像。

值得注意的是，CVC-14是另一个新公开发布的包含可见光和红外热图像对的行人检测数据集，也能成为本发明的一个实施例，但该数据集在建立过程中使用立体视觉系统获取该多模态数据，其中可见光和红外热图像并未完全正确配准对齐。此外，CVC-14的注释是在红外热通道和可见光通道中单独生成，导致某些行人注释仅在一个通道中生成，但在另一个通道中丢失。相比之下，KAIST数据集中包含大规模经过精确手动标注且良好对齐过的可见光和红外热图像对。因此最优选用KAIST数据集进行实施例介绍。

将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，包括但不局限于以下具体操作：

(1)生成小批量数据使用的是基于图像的训练和测试策略，而不使用图像金字塔策略，将批尺寸大小设置为1。

(2)训练时可见光图像与红外图像特征提取通道中的卷积层参数均使用提前在ImageNet大规模图像识别数据集上预训练过的VGG-16模型的权重与偏置初始化，而所有其他卷积层则使用高斯正态分布初始化。即每一路特征提取通道(Conv1-Conv5)都使用提前在ImageNet数据集上预训练过的VGG-16的权重与偏置初始化，而所有其他卷积层则使用正态初始化。利用Caffe深度学习架构来训练和测试融合可见光和红外图像特征分割监督网络。

(3)所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，至少进行两个时期的训练，训练时行人检测识别模型中的卷积层参数均是通过随机梯度下降法在前两个时期中进行调整，其中，两个时期中的学习率大小不同，并且采取梯度裁剪方法进行调整，所述卷积层参数为权重和偏置。网络中的参数都是通过随机梯度下降法在前两个时期中进行精调，第一时期中学习率设为0.001，第二时期的学习率设为0.0001，针对梯度爆炸问题也采取了相应可调整的梯度裁剪方法进行处理。

(4)现有的基于边界框的行人检测算法都包含生成大量具有各种尺寸和长宽比的潜在的检测候选框的步骤，如图3中左边图形中虚线框所示。然而，生成这些边界框不可避免复杂的超参数设置问题(例如，边框尺寸，长宽比，步长和IOU阈值)，并且容易引起正和负训练样本之间的数量严重不平衡，也难以利用离散分布的边框(使用大步长)来为小尺寸行人目标生成正样本。相比之下，本发明将易于获得的边界框标注作为输入生成一个明确的语义分割掩膜，用于训练双路深度神经网络以学习行人相关的特征，如图3中右边图形所示。值得一提的是，因为难以获得完美配准同步的可见光与红外图像数据，所以获得可见光和红外图像对的像素级精确标注也是一项艰巨的任务。因此，使用容易获得的边界框标注作为分割监督信息，训练用于行人检测的分割监督深度卷积神经网络。具体是通过令数据集标准结果方框中所有像素值为1，方框外的背景元素像素值为0，从像素层面上生成监督信息。

(5)由于输入图像经过多层卷积输出特征图相对于初始大小已发生明显变化，为利用作为监督信息的语义分割掩膜，使用双线性插值方法对所获得的基于边界框的分割监督信息进行缩小以匹配最终特征(全连接级联层的输出)的大小。

其它未详细列举的操作为本领域普通技术人员常用处理方法，如归一化、尺度缩放、随机裁剪等数据预处理操作，不作详细讲解。

对于网络模型中卷积层的权重、偏置等参数更新过程，假设{(X，Y)}表示训练图像X＝{x_i,i＝1,K,M}(M个像素)及其标签Y＝{y_i,i＝1,K,M}，其中y_i＝1表示前景像素，而y_i＝0表示背景像素。多光谱行人检测算法的参数θ通过最小化交叉熵损失进行更新，计算式如下所示：

其中Y₊和Y_-分别表示前景和背景像素，Pr(y_i|X；θ)∈[0,1]是测量像素属于行人目标的概率的预测结果的置信分数。置信分数使用Softmax函数计算得出，如下所示：

其中S₀和S₁是通过我们的双通道特征图计算得出值。最优参数θ^*是通过随机梯度下降算法由下式最小化损失函数L(θ)得到的：

以上方法最终输出与输入同大小的行人目标区域产生置信分数，而背景区域产生低分数预测用的热图。这种感知信息对于许多自动驾驶应用例如路径规划或障碍检测都是有极大裨益的。相比之下，现存的使用多个边界框来识别拥挤城市场景中的各个行人的算法则显得有些不切实际。

S13，获取待识别图像，输入行人检测识别模型。

训练时测试所使用的待测图像对为KAIST数据集中Set06～Set11子集中随机抽取的部分图像，使用数据集本身提供的评价工具进行客观性评价。该作法符合该领域通用评价标准，实际应用时利用可见光相机与红外相机获取实际图像，配准后输入训练好的网络模型测试乃至训练，仍能达到大致相当的和优越的检测结果与检测速度。

S14，行人检测识别模型进行双通道特征提取并进行特征融合，获取双通道融合后的特征图。

参见图2和图4，利用跳跃连接将中层特征与高层特征相关联。输入网络的可见光图像和红外图像分别经由网络进行特征提取后在后面经过级联层进行融合，由于测试时，网络中各卷积层权重、偏置等参数已确定，所以根据输入的图像提取出的特征层层卷积池化交替处理提取后，最后由Softmax层输出结果。

S15，根据融合后的特征图输出行人检测识别模型预测的行人检测热图，得到行人位置结果。

根据融合后的特征图输出行人检测识别模型预测的行人检测热图为行人检测识别模型在红外热通道展示预测出的以置信分数区分行人目标与背景区域的行人检测热图。最终网络计算出检测结果图像，通过红外通道展示。之所以在红外通道中展示图像，是因为能够获得人眼直观比较明显的行人区域，传统的形式是通过标准方框结构表示行人区域，而这种形式不可避免地也会覆盖到其他无关的区域。

本网络架构可以通过融合在中层特征(Conv4-V/Conv4-I)中提取的图像细节来更好地识别图像中的中等和远距离行人目标，此外，在不同的包含遮挡行人的图像情况下，对观察到当行人目标被部分或严重遮挡时，架构具有准确的检测结果。之所以会有这种现象，是因为在中层特征(Conv4-V/Conv4-I)中提取的低级特征提供了行人身体各部分的有用信息及其在处理艰巨的目标遮挡问题时所需的身体各部分之间的联系。

应用本发明实施例所提供的技术方案，利用可见光与红外相机采集得到的互补环境信息，可以实现在全天候进行鲁棒的行人检测，框架采用已配准的可见光和红外图像对，通过将易于获得的边框标注转换为分割监督信息作为输入来对深度神经网络进行训练，随后利用训练好的模型对待识别图像中的行人目标进行快速检测定位与分割。检测模型的训练过程中，避免了现有的边界框监督行人检测算法相在训练阶段出现的复杂超参数设置问题，特别是对于图像中的小尺寸和被遮挡的行人，仅需输入小尺寸图像便能生成准确的检测结果，以便提高实时自动驾驶应用的计算效率及其开发推广。如图5a至5d结果显示，本发明架构具有更高的有效性，不仅能够提取信息丰富的多尺度特征图以达到更为精确的行人检测结果，并且由于充分利用了可见光图像与红外图像数据信息的互补作用，对场景条件变化更具鲁棒性，实际使用中检测速度也相当快，能取得在单个NVIDIA GeForce Titan XGPU上处理每秒超过30个图像的实时处理速度，使得本发明实施例的算法可以推广应用到其他实时性要求较高的物体检测任务中(例如，自动驾驶、路径规划、躲避障碍和目标跟踪)。

应当理解，本文所述的示例性实施例是说明性的而非限制性的。尽管结合附图描述了本发明的一个或多个实施例，本领域普通技术人员应当理解，在不脱离通过所附权利要求所限定的本发明的精神和范围的情况下，可以做出各种形式和细节的改变。

Claims

1.一种面向可见光与红外图像准确实时行人检测方法，其特征在于，包括以下步骤：

构建深度学习卷积网络初始框架模型；

获取待识别图像，输入行人检测识别模型；

根据融合后的特征图输出行人检测识别模型预测的行人检测热图，得到行人位置结果；

构建深度学习卷积网络初始框架模型中：

所述卷积网络初始架构模型包括依次设置的双路卷积神经网络、级联层、卷积层和Softmax层，其中双路卷积神经网络包括数据层、卷积层和池化层，由数据层出发，卷积层和池化层均设置多个，且交替分布，双路卷积神经网络分别处理可见光图像与红外图像，提取双通道特征经由级联层进行融合，再卷积层学习，借助Softmax层量化更新过程或输出结果；

所述行人检测识别模型进行双通道特征提取并进行特征融合时，利用跳跃连接将中层特征与高层特征相关联。

2.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法，其特征在于，训练时可见光图像与红外图像特征提取通道中的卷积层参数均使用提前在ImageNet大规模图像识别数据集上预训练过的VGG-16模型的权重与偏置初始化，而所有其他卷积层则使用高斯正态分布初始化。

3.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法，其特征在于，所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，所用数据集为KAIST可见光与红外行人检测数据集。

4.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法，其特征在于，利用KAIST数据集自带检测标签作为分割监督信息以掩膜形式输入具体为：采用双线性插值法将可见光图像与红外图像中易于获得的边框标注转换为分割监督信息作为掩膜标签输入。

5.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法，其特征在于，所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，生成小批量数据使用的是基于图像的训练和测试策略，批尺寸大小为1。

6.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法，其特征在于，所述将可见光图像与红外图像数据集中的训练数据输入到卷积网络初始框架模型中进行训练时，至少进行两个时期的训练，训练时行人检测识别模型中的卷积层参数均是通过随机梯度下降法在前两个时期中进行调整，其中，两个时期中的学习率大小不同，并且采取梯度裁剪方法进行调整，所述卷积层参数为权重和偏置。

7.如权利要求1所述的面向可见光与红外图像准确实时行人检测方法，其特征在于，所述根据融合后的特征图输出行人检测识别模型预测的行人检测热图为行人检测识别模型在红外热通道展示预测出的以置信分数区分行人目标与背景区域的行人检测热图。