CN111476089B

CN111476089B - 一种图像中多模态信息融合的行人检测方法、系统及终端

Info

Publication number: CN111476089B
Application number: CN202010143425.3A
Authority: CN
Inventors: 张重阳; 罗艳
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2023-06-23
Anticipated expiration: 2040-03-04
Also published as: CN111476089A

Abstract

本发明公开了一种图像中多模态信息融合的行人检测方法、系统及终端，根据原始的平视图得到对应的俯视图；对俯视图上的每个点预测行人目标概率以及行人目标框宽度；通过平视图得到对应的深度图，基于深度估计行人目标框高度；将行人目标框宽度和行人目标框高度整合为目标候选框，并通过编码器统一编码到语义空间，得到平视图下的行人目标概率；对平视图以及俯视图的行人目标概率加权平均，得到最终的行人目标预测结果。本发明有效避免了平视图视角下的行人遮挡问题，有效去除复杂的背景干扰，适用于现实应用环境中多变的情况，增强检测鲁棒性，降低误检和漏检概率，有效提高视频图像中行人目标的检测能力。

Description

一种图像中多模态信息融合的行人检测方法、系统及终端

技术领域

本发明涉及图像中目标检测领域，具体地说，涉及的是一种图像中多模态信息融合的行人检测方法、系统及终端。

背景技术

大数据时代的到来，推动着计算机技术的不断更新和发展，行人检测技术作为计算机视觉领域的研究热点在智能视频监控、智能交通等领域表现出了重要的应用价值。现有的行人检测方法，因为尚存如下困难和挑战，检测结果还有待提升：由于拍摄距离原因，图片较大但目标行人尺寸较小，通过深度学习卷积神经网络降缩之后目标区域的特征很少，难以进行有效的检测识别；由于拍摄角度的固定性，行人的身体会出现部分遮挡问题，在检测过程中有用的信息相对减少，从而导致漏检的发生。

目前，较为成熟的行人检测方法基本可以分为两类：(1)基于背景建模。该方法主要用于视频中检测运动目标：即将输入的静态图像进行场景分割，利用混合高斯模型(GMM)或运动检测等方法，分割出其前景与背景，再在前景中提取特定运动目标。这类方法需要连续的图像序列来实现建模，不适合于单幅图像中的目标检测。(2)基于统计学习。即将所有已知属于行人目标的图像收集起来形成训练集，基于一个人工设计的方法(如HOG、Harr等)对训练集图像提取特征。提取的特征一般为目标的灰度、纹理、梯度直方图、边缘等信息。继而根据大量的训练样本的特征库来构建行人检测分类器。分类器一般可用SVM，Adaboost及神经网络等模型。

综合而言近年来基于统计学习的目标检测方法表现较优，基于统计学习的目标检测方法可以分为传统人工特征目标检测方法以及深度特征机器学习目标检测方法。传统人工特征目标检测方法主要是指其利用人工设计的特征，来进行目标检测的建模。近年来表现优秀的人工设计的特征方法主要包括：2010年Pedro F.Felzenszwalb等提出的DPM(Deformable Part Model)方法(Object detection with discriminatively trainedpart-based models)。Piotr Dollár等2009年提出的ICF(Integral Channel Features)、2014年提出的ACF方法(Fast Feature Pyramids for Object Detection)。2014年Shanshan Zhang等提出的Informed Harr方法(Informed Haar-like Features ImprovePedestrian Detection)，致力于提取更加具有表征信息的Harr特征来进行训练。这些人工设计的特征虽然取得了一定的效果，但因为人工特征表征能力不足，仍存在检测精度不高问题。由于深度卷积神经网络模型所具有的更强大的特征学习与表达能力，在行人检测方面得到越来越广泛和成功的应用。基础的行人检测算子是R-CNN(Region-ConvolutionalNeural Network)模型。2014年，Girshick等人提出RCNN用于通用目标的检测，之后又是提出了Fast RCNN和Faster RCNN,提高了基于深度学习目标检测方法的精度和速度.2016年提出的Yolo和SSD等方法，则通过Anchor等思想实现单一阶段的快速目标检测。这些基于深度学习技术的目标检测，大都是使用从整个候选框提取的特征进行分类回归，仍然存在深度特征提取不充分的问题，尤其是针对行人中的遮挡目标以及小尺寸目标，一方面由于遮挡目标身体部分部位的不可见性，视觉特征有限；另一方面是因为深度卷积神经网络层层的尺寸降缩，特征尺寸更小；这两方面的因素导致行人目标的检测精度不高、漏检率需要进一步降低。

2018年，Shanshan Zhang等提出的part attention方法(Occluded PedestrianDetection Through Guided Attention in CNNs)，致力于提取更加具有表征信息的身体部位特征来进行训练。但是仍然存在一些问题，一方面是这种方法依然使用的是整个目标候选框的特征，没有充分提取身体部位特征，此外，过于注重身体部位特征或过于注重整个候选框的特征，导致网络在全局与局部之间的失衡，所以检测器没有很好的泛化性能；另一方面，利用一个部位检测器来提取身体部位特征，会引入额外标注的身体部位信息，造成成本的增加。

发明内容

针对现有技术存在的上述不足，本发明的目的是提出一种图像中多模态信息融合行人检测方法及系统。

根据本发明的一个方面，提供了一种图像中多模态融合的行人检测方法，包括：

以水平视角采集到的平视图作为原始图像，生成对应的俯视图；

对所述俯视图上的每个点进行预测，得到所述俯视图的行人目标概率以及行人目标框宽度；

对所述平视图进行处理，得到对应的深度图，对所述深度图进行估计得到行人目标框高度；

将得到的所述行人目标框宽度和所述行人目标框高度整合为目标候选框，统一编码到语义空间，得到平视图目标候选框特征；

将所述平视图目标候选框特征通过分类回归进行目标检测与定位，得到平视图行人目标候选框概率及坐标；对所述平视图以及所述俯视图的行人目标概率加权平均，作为目标候选框的行人概率，得到最终的行人目标概率值；所述最终的行人目标概率值和平视图行人目标候选框的坐标即为图像中需要检出的行人目标结果。

可选地，所述以水平视角采集到的平视图作为原始图像，生成对应的俯视图，包括：

真实场景下由与行人目标相近高度部署的摄像头，以水平视角采集到的平视图作为原始图像；

采用两个生成对抗网络，将所述平视图作为输入图像送入第一个生成对抗网络得到虚拟场景图像；将虚拟场景图像送入第二个生成对抗网络得到对应的俯视图像。

可选地，得到所述俯视图的行人目标概率以及行人目标框宽度，包括：

将俯视图像送入CNN网络提取特征图；

将提取的特征图通过检测网络检测，得到俯视图像的每个像素点的行人目标概率以及行人目标框宽度。

可选地，对所述深度图进行估计得到行人目标框高度，其中：根据深度、行人真实高度与图像中行人尺寸的数学关系，计算得出不同深度下行人目标框高度。

具体的，所述深度图中的行人高度Δh为图像中行人头部顶点与脚部中心点的距离，即：

Δh＝||d₁-d₂||

其中，d₁＝[u₁,v₁]^T以及d₂＝[u₂,v₂]^T分别表示图像中行人头部顶点以及脚部中心点的坐标；

根据所述深度图中的行人高度Δh、相机内参常量矩阵C、图像像素点深度信息Z以及行人真实身高ΔH，即可得其对应关系，具体为：

CΔH＝ZΔh；

所述图像像素点深度信息Z，由深度图预测网络VNL预测，其中，预测网络的输入为真实场景下的平视图，即原始图像Domain_A；

所述行人真实身高ΔH按概率采样自数据采集地区居民身高统计数值。

可选地，将得到的所述行人目标框宽度和所述行人目标框高度整合为目标候选框，是指：根据平视图与俯视图的对应关系，结合所述行人目标框宽度和所述行人目标框高度，得到平视图上的目标候选框。其中，所述平视图与俯视图的对应关系包括：

以真实场景平视摄像头为原点，摄像头拍摄方向为Z轴，建立真实场景平视坐标系；设该坐标系下行人坐标为(X,Y,Z)，对应平视图行人坐标(u,v)；以真实场景俯视摄像头(垂直离地高度H，俯角θ)为原点，摄像头拍摄方向为Z轴，建立真实场景俯视坐标系；设该俯视坐标系下行人坐标为(X′,Y′,Z′)，对应俯视图行人坐标为(u′,v′)，相机内参常量矩阵C，图像像素点深度信息Z，则其平视图与俯视图对应关系具体为：

[X，Y，Z]^T＝zC^-1[u，v，l]^T

[u′,v′,1]^T＝(Z′)^-1C[X′,Y′,Z′]^T。

可选地，所述统一编码到语义空间，得到所述平视图的行人目标概率，是指：利用语义信息对候选框特征进行变分编码，在隐变量空间进行视觉与语义特征对齐，通过分类回归网络即得到所述平视图目标候选框特征，所述平视图目标候选框特征包括平视图的行人目标概率以及行人目标框。

可选地，所述利用语义信息，是指利用行人的部位结构特征，即头部Head，手臂Arm，身体Body，腿部Leg组成语义词向量，具体为：

y＝(Head，Arm，Body，Leg)

可选地，所述变分编码，是指：采用一个变分编码器VAE，分别对所述目标候选框的视觉特征和语义词向量进行变分编码，将行人目标部位结构特征的词向量y映射到隐变量空间中进行对齐。

可选地，所述在隐变量空间进行视觉与语义特征对齐，是指：通过隐变量空间约束损失L_DE，对视觉特征和语义特征进行相似性度量和约束，L_DE定义为：

其中，N为目标候选框的总个数，E(·)为视觉特征编码函数，

语义特征编码函数，x_i是指第i个目标候选框的特征，y是指行人目标部位结构特征的词向量。

本发明上述方法还可以包括构造一个能够端到端训练的检测网络模型，即：利用俯视图信息、深度图信息和语义信息构造一个能够端到端训练的检测网络模型，并利用整体损失之和对整个所述检测网络模型进行训练。

具体的，所述整体损失之和包括：俯视图预测网络的损失L_bird，俯视图宽度预测损失L_width，隐变量空间约束损失L_DE以及最终的分类回归的损失L_cls、L_reg进行加权求和，作为整个检测网络的总损失，得到一个端到端的检测网络模型，具体为：

其中ε_i为平视图与俯视图对应关系的不确定度；L是指整体损失之和，L_cls,i是指第i个目标候选框的分类损失，L_reg,i是指第i个目标候选框的回归损失；参数λ₁、λ₂、λ₃以及λ₄根据实验选取。

根据本发明地第二个方面，提供了一种图像中多模态信息融合的行人检测系统，包括：

俯视图生成预测模块，该模块以水平视角采集到的平视图作为原始图像，生成对应的俯视图，对所述俯视图上的每个点进行预测，得到所述俯视图的行人目标概率以及行人目标框宽度；

行人尺寸预测模块，该模块对所述平视图进行处理，得到对应的深度图，对所述深度图进行估计得到行人目标框高度；

语义信息映射模块，该模块将得到的所述行人目标框宽度和所述行人目标框高度整合为目标候选框，将所述目标候选框统一编码到语义空间，得到平视图的行人目标候选框特征；

分类回归模块，对所述平视图目标候选框特征检测与定位，得到平视图下行人目标候选框概率及坐标；对所述平视图以及所述俯视图的行人目标概率加权平均，作为目标候选框的行人概率，得到最终的行人目标概率值；所述最终的行人目标概率值和平视图行人目标候选框的坐标即为图像中需要检出的行人目标结果。

可选地，所述系统还可以包括检测网络模型模块，所述检测网络模型模块利用所述俯视图生成预测模块、所述语义信息映射模块和所述分类回归模块的损失之和构造一个能够端到端训练的检测网络模型，并利用该损失之和对整个检测网络模型进行训练。

根据本发明的第三方面，提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的图像中多模态信息融合的行人检测方法。

与现有技术相比，本发明具有如下有益效果：

本发明提供的一种图像中多模态信息融合的行人检测方法、系统和终端，既可实现多模态信息(俯视图信息、深度图信息以及语义信息)的充分挖掘利用，有效降低现有检测方法因信息不足、细节特征丢失带来的遮挡目标、小目标漏检等问题，也可以有效避免由于单一特征导致的误检问题，从而提高检测器在复杂场景下的鲁棒性。

本发明提供的一种图像中多模态信息融合的行人检测方法、系统和终端，通过平视图生成对应的深度图，有效避免了平视图视角下的行人遮挡问题，有效去除复杂的背景干扰，适用于现实应用环境中多变的情况，增强检测鲁棒性，降低误检和漏检概率，有效提高视频图像中行人目标的检测能力。

本发明提供的一种图像中多模态信息融合的行人检测方法、系统和终端，同时使用每个行人的目标框和整体目标候选框，同时利用语义信息充分提取身体部位特征，不会引入额外标注的身体部位信息，降低成本。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中行人检测方法的流程图；

图2为本发明一较优实施例中行人检测方法的框架原理图；

图3为本发明一较优实施例中俯视图生成以及行人精准定位流程图；

图4为本发明一较优实施例中语义信息对齐流程图；

图5为本发明一较应用实例的行人检测过程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明针对行人检测任务等应用，设计了一种图像中多模态信息融合地行人检测方法和系统。现有的行人检测方法对于某些尺寸较大或者遮挡不是很严重的行人目标可以很好地识别，但是由于现实应用场景比较复杂，尺寸较大的目标，以及毫无遮挡或较少遮挡的只占很小的一部分，对于距离较远的小尺寸目标，物体遮挡\自遮挡目标，检测结果并不是很好。复杂场景下的行人检测有以下特点：

特点一、简单场景中各类目标位置相对稀疏，各目标之间很少相互影响，可独立检测。在实际应用场景中，目标之间的在空间位置上交叉重叠是非常常见的，例如街道上行人、道路上车辆等，最终造成在2D图像中无法展现整体目标，但确实存在视觉上可识别的目标。由于遮挡会发生在目标的不同局部区域，例如街道上的行人，其遮挡部分可能是下半身，也可能是左半身或者有变身，如何预测可能发生的遮挡或利用目标之间的上下文信息补偿遮挡区域带来的损失，最终使得整体检测的可信度不因遮挡而降低是当前研究的难点。

特点二、非刚体目标的非刚性形变造成检测困难。这类目标可基于关节进行局部部件旋转等运动，虽然局部变化可线性表达，但是目标整体却呈现非线性形变的特点。例如人处在走路和站立两种姿态时，人体四肢是由于局部运动使得图像的这个区域外观特征变化很大，但头部和躯干基本特征不变。相应地，检测这类目标既要考虑目标各局部部件地外观特征，还需要考虑各部件空间位置，这也增加了检测模型地复杂度。很多研究人员将此问题归结为多姿态问题，特定的部件局部变化的组合构成一种可识别的姿态。多姿态目标检测和姿态识别在分析理解运动人体相关应用领域受到极大关注。

特点三、除了非刚性形变，在呈现过程中，目标自身还存在拍摄视角不同引起的外观变化，也可解释为目标在3D场景中旋转引起的有差别2D投影。如果建立了目标的3D模型，则可基于3D模型和旋转变换对不同视角的2D投影建立检测模型，但通常情况下3D模型不可得，同时建立3D模型也很困难的。基于2D图像的多视角目标检测既要考虑同类目标的共性，也需要考虑由于立体旋转所带来的差别，这给检测此类目标带来极大挑战。针对上述存在的问题，本发明以下实施例提供了图像中多模态信息融合行人检测技术。

图1为本发明一实施例中图像中多模态信息融合行人检测框架流程图。参照图1所示，图像中多模态信息融合地行人检测方法可以包括如下步骤：

S100，以水平视角采集到的平视图作为原始图像，生成对应的俯视图；

S200，对俯视图上的每个点进行预测，得到俯视图的行人目标概率以及行人目标框宽度；

S300，对平视图进行处理，得到对应的深度图，对深度图进行估计得到行人目标框高度；

S400，将得到的行人目标框宽度和行人目标框高度整合为目标候选框，统一编码到语义空间，得到平视图的行人目标候选框特征；

S500，将平视图目标候选框特征通过分类回归进行行人目标检测与定位，得到平视图下行人目标候选框概率及坐标；对所述平视图以及所述俯视图的行人目标概率加权平均，作为目标候选框的行人概率，得到最终的行人目标概率值；这里得到的平视图下行人目标候选框的坐标和最终的行人目标概率值，即为图像中需要检出的行人目标结果，该结果包括了概率值以及位置信息。

本发明上述实施例通过生成俯视图，可以检测得到行人目标的精准定位信息；通过预测深度图，可以估计得到行人尺寸信息；再通过变分编码，在隐变量空间进行视觉与语义特征对齐，从而利用俯视图信息、深度信息和语义信息，实现了多模态信息融合地行人检测。

本发明上述实施例针对现实中存在的上述行人检测困难，基于图像中对于行人进行基于多模态信息融合，提出了将原始图像(平视图)送入两个CycleGAN得到对应的俯视图像；对俯视图像上的每个点预测行人目标概率以及行人目标框宽度；通过平视图得到对应的深度图像，基于深度估计行人目标框高度；将行人目标框宽度和行人目标框高度整合为目标候选框，并通过编码器统一编码到语义空间，得到平视图下行人目标候选框特征；利用分类回归网络对行人目标候选框进行分类与定位，得到平视图下行人目标候选框概率及坐标；对所述平视图以及所述俯视图的行人目标概率加权平均，得到最终的行人目标预测结果。整体网络从遮挡问题产生的原因出发(2D单视角)，极大地提高了遮挡样本的检测性能。同时，通过利用深度信息预测行人尺寸，利用语义信息统一行人特征，在保证检测性能、速度的同时，提高了整体模型的鲁棒性。本发明上述实施例提出的多模态信息融合的行人检测方法，从上述问题出发，通过融合俯视视角信息、深度信息以及语义信息，各模态信息相辅相成，能较好地解决目标在遮挡场景、形变场景以及多视角场景下地检测难题，提供精准、高效的检测。

图2为本发明一较优实施例中行人检测方法的框架原理图。参照图2所示，该实施例中，将原始图像(平视图)送入两个CycleGAN得到对应的俯视图像；对俯视图像上的每个点预测行人目标概率以及行人目标框宽度；通过平视图得到对应的深度图像，基于深度估计行人目标框高度；将行人目标框宽度和行人目标框高度整合为目标候选框，并通过编码器统一编码到语义空间，得到平视图下的行人目标概率；对平视图以及俯视图的行人目标概率加权平均，得到最终的行人目标预测结果。

图3为本发明一较优实施例中俯视图生成以及行人精准定位流程图。参照图3所示，在该实施例中，以前面的俯视图信息得到行人精准的定位信息，对应于上述S100、S200。

具体的，真实场景下由与行人目标相近高度部署的摄像头，以水平视角采集到的原始图像，称为平视图(下同)，作为输入图像Domain_A送入第一个CycleGAN得到虚拟场景图Domain_B像，将虚拟场景图像送入第二个CycleGAN得到对应的俯视图像Domain_C：首先将真实场景中以平视视角采集的图像，利用一个CycleGAN模型进行视角不变的图像风格转换，将其转化为一个游戏中的虚拟场景图像；再将该虚拟场景图像Domain_B，通过第二个CycleGAN模型进行视角转换，即由平视视角图像转换为俯视视角图像；通过上述两次转换，实现一幅真实场景下平视视角图像到虚拟场景下俯视视角图像的转换。两次转换所需的两个CycleGAN模型训练所需的虚拟场景图像Domain_B和Domain_C，采集自包含但不限于游戏侠盗猎车5(GTA5)等游戏场景。再通过一个检测网络得到俯视图的每个像素点的行人目标概率以及行人目标框宽度。

另外的优选实施例，对于S300中，利用深度(距离)信息估计行人尺寸。具体的，S300中原始图像Domain_A送入深度图预测网络，得到对应的深度图。然后根据深度、行人真实高度与图像中行人尺寸的数学关系，计算得出不同深度下行人目标框高度。具体的，上述根据深度、行人真实高度与图像中行人尺寸的数学关系，计算得出不同深度下行人目标框高度，其中，图像中的行人高度Δh为图像中行人头部顶点与脚部中心点的距离，即：

Ah＝||d₁-d₂||

其中，d₁＝[u₁,v₁]^T以及d₂＝[μ₂,v₂]^T分别表示图像中行人头部顶点以及脚部中心点的坐标。根据图像中的行人高度Δh、相机内参常量矩阵C、图像像素点深度信息Z以及行人真实身高ΔH，即可得其对应关系。具体为：

CAH＝zΔh

图像像素点深度信息Z，由深度图预测网络VNL预测，其中，预测网络的输入为真实场景下的平视图图像，即原始图像Domain_A。

行人真实身高ΔH按概率采样自数据采集地区居民身高统计数值，比如以欧洲为例，具体为：

男性以及女性身高分别服从高斯分布

H_male～N(μ_i,σ²),H_femaleN(μ_z,σ²)

其中，μ₁＝178cm为男性身高统计值，μ₂＝165cm为女性身高统计值，σ＝7cm。此外，行人真实身高ΔH按概率采样，具体为：

利用不确定度ε度量采样的准确性，以男性为例，

其中，

为从男性身高样本中随机采样出的身高值，Φ(·)为标准正态分布函数。

再根据平视图与俯视图的对应关系，结合行人目标框宽度及高度，得到平视图上的目标候选框。具体的，平视图与俯视图的对应关系包括：

[X，Y，Z]^T＝zC^-1[u，v，l]^T

[u′,v′,1]^T＝(Z′)^-1C[X′,Y′,Z′]^T

另外的优选实施例，对于S400中，利用语义信息编码行人特征，如图4所示。其中，利用得到的目标候选框，将其平视图下的特征编码到统一的语义空间，并预测该目标候选框的行人目标概率。在该优选实施例中，利用语义信息对目标候选框特征进行变分编码，在隐变量空间进行视觉与语义特征对齐。具体的，利用行人的部位结构特征，即头部Head，手臂Arm，身体Body，腿部Leg组成语义词向量y＝(Head,Arm,Body,Leg)。然后采用一个变分编码器VAE，分别对候选框的视觉特征和语义词向量进行变分编码，将行人目标部位结构特征的词向量映射到隐变量空间中进行对齐。

在一实施例中，所述变分编码包括视觉特征编码与语义特征编码。其中，视觉特征编码为将目标候选框通过PoI pooling得到维度为256×7×7的特征，再通过两层全连接层得到1024维特征。语义特征编码为将目标部位结构特征的词向量通过两层全连接层以及ReLU函数得到1024维特征。传统的变分编码器其隐变量空间为随机噪声，本实施例中将其隐变量空间限制为行人的结构信息。

在上述各个优选实施例的基础上，还可以进一步利用各个步骤损失之和构造端到端检测网络，即利用俯视图信息、深度图信息和语义信息构造一个能够端到端训练的检测网络模型，并利用整体损失之和对整个所述检测网络模型进行训练。其中：俯视图预测网络的损失，俯视图宽度预测损失，隐变量空间约束损失以及最终的分类回归模块的损失、进行加权求和，作为整个检测网络的总损失，并利用该损失之和对整个检测网络模型进行训练，得到完整的行人检测网络模型，该模型用于实现上述图像中多模态信息融合的行人检测，可有效避免单一平视图场景下行人遮挡问题，并且通过语义信息引入行人结构特征，进一步约束了目标候选框的特征空间，有效降低误检率。

在一具体实施例中，行人检测网络模型可以如下：

其中L是指整体损失之和，ε_i为平视图与俯视图对应关系的不确定度；L_cls,i是指第i个目标候选框的分类损失，L_reg,i是指第i个目标候选框的回归损失；俯视图预测网络的损失L_bird，俯视图宽度预测损失L_width，隐变量空间约束损失L_DE以及最终的分类回归模块的损失L_cls、L_reg，其中前置参数用于平衡各个损失，在上述实施例中，前置参数λ₁、λ₂、λ₃以及λ₄分别被设定为0.01、0.1、0.1以及1。当然，在其他实施例中，也可以根据实际应用情况对上述的参数λ₁、λ₂、λ₃以及λ₄进行调整，以上取值只是本发明实施例的一组数值，比如根据实验情况，取实验性能最好时的值。

在另一实施例中，本发明还提供一种图像中多模态信息融合的行人检测系统，该系统基于CNN网络构造，更好地，选择ResNet50网络构造。

具体的，上述系统包括：俯视图生成预测模块、行人尺寸预测模块、语义信息映射模块和分类回归模块，其中：俯视图生成预测模块以水平视角采集到的平视图作为原始图像，生成对应的俯视图，对俯视图上的每个点进行预测，得到俯视图的行人目标概率以及行人目标框宽度；行人尺寸预测模块对平视图进行处理，得到对应的深度图，对深度图进行估计得到行人目标框高度；语义信息映射模块将得到的行人目标框宽度和行人目标框高度整合为目标候选框，将目标候选框统一编码到语义空间，得到平视图的行人目标候选框特征；分类回归模块对平视图目标候选框特征检测与定位，得到平视图下行人目标候选框概率及坐标；对平视图以及俯视图的行人目标概率加权平均，作为目标候选框的行人概率，得到最终的行人目标概率值，这里得到的平视图下行人目标候选框的坐标和最终的行人目标概率值，即为图像中需要检出的行人目标结果。

在另一较优实施例中，检测系统还可以还包括检测网络模型模块，检测网络模型模块利用俯视图生成预测模块、语义信息映射模块和分类回归模块的损失之和构造一个能够端到端训练的检测网络，并利用该损失之和对整个检测网络进行训练。现在行人检测的难点在于遮挡场景下漏检率高，复杂场景下误检率高。该模型通过引入俯视图，可有效避免单一平视图场景下行人遮挡问题，有效降低漏检；并且通过语义信息引入行人结构特征，进一步约束了目标候选框的特征空间，有效降低误检率。

在另一实施例中，本发明还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的图像中多模态信息融合的行人检测方法。

以上实施例中各较佳特征，可以在任一实施例中单独使用，在互不冲突的前提下，也可以任一组合使用。另外，实施例中没有详细说明的部分可以采用现有技术实现。

以下基于上述的说明，提供一个具体应用实例，当然此实例只是为了更好说明本发明的方法实施，并不是用于限定本发明的应用，在其他实施例中，可以采用其他的优选参数或操作。

图5为本发明一较应用实例的行人检测过程图。参照图5所示，该应用实例中行人检测方法，整个检测过程包括：

一、待检测图片送入第一个CycleGAN得到虚拟场景图片，将虚拟场景图片送入第二个CycleGAN得到俯视图。将俯视图送入CNN网络进行多层卷积运算产生不同层次的特征，对特征图进行一层3×3卷积运算以及两层1×1的卷积运算得到行人目标在俯视图上的预测结果。

二、原始图像Domain_A送入深度图预测网络VNL(Vertical Normal)，得到对应的深度图；根据深度、行人真实高度与图像中行人尺寸的数学关系，计算得出不同深度下行人目标框高度；根据平视图与俯视图的对应关系，结合行人目标框宽度及高度，得到平视图上的目标候选框。具体操作如图2所示。在训练时，本实例将经过缩放的图片(原图：640×480，缩放后：1280×960)送入CNN网络，提取深度图信息；利用统计信息(欧洲人身高的高斯分布)采样行人真实身高，并根据不确定度重新度量采样的准确性。这种方法对于提升检测性能并且保证检测速度非常重要。

三、利用得到的行人目标框宽度和行人目标框高度整合为目标候选框，将其平视图下的特征编码到统一的语义空间，并预测得到平视图目标候选框特征。使用每个行人的目标框和整体目标候选框，同时利用语义信息充分提取身体部位特征，不会引入额外标注的身体部位信息，降低成本。

四、将平视图目标候选框特征送入分类回归网络进行目标检测与定位，得到平视图行人目标候选框概率及坐标；对平视图以及俯视图的行人目标概率加权平均，作为目标候选框的行人概率，得到最终的行人目标概率值。这里得到的平视图下行人目标候选框的坐标和最终的行人目标概率值，即为图像中需要检出的行人目标结果，该结果包括了概率值以及位置信息。

即为图像中需要检出的行人目标。如图2所示。

上述实例得到的行人检测结果可以分为以下几种可能的情况：

1、检测结果为大目标：大目标是指行人目标的像素高度大于50pixel；

2、检测结果为小目标：小目标是指行人目标的像素高度小于等于50pixel；

3、检测结果为部分遮挡行人：部分遮挡行人是指行人可见身体部分高度与完整行人目标高度的比值在(0.65,1)之间；

4、检测结果为严重遮挡行人：严重遮挡行人是指行人可见身体部分高度与完整行人目标高度的比值在(0.20,0.65)之间。

本发明上述实例，构造一个端到端的多模态信息融合的检测方法，先通过两个CycleGAN生成对应的俯视图，利用俯视图充分提取遮挡行人的有用特征，有效去除复杂的背景干扰；再通过深度信息，即距离信息预测不同距离下的行人尺寸，从而有效保证整体行人检测无论在检测性能还是检测速度上，都有卓越的表现。

本发明上述实施例有效避免了平视图视角下的行人遮挡问题，有效去除复杂的背景干扰，适用于现实应用环境中多变的情况，增强检测鲁棒性，降低误检和漏检概率，有效提高视频图像中行人目标的检测能力。

应当理解的，系统中各模块可以采用图像中多模态信息融合的行人检测方法中对应步骤的具体实现技术来实现，没有特别说明的内容，可以采用现有技术实现。在此不再赘述。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种图像中多模态信息融合的行人检测方法，其特征在于，包括：

2.根据权利要求1所述的图像中多模态信息融合的行人检测方法，其特征在于，所述以水平视角采集到的平视图作为原始图像，生成对应的俯视图，包括：

3.根据权利要求2所述的图像中多模态信息融合的行人检测方法，其特征在于，得到所述俯视图的行人目标概率以及行人目标框宽度，包括：

将俯视图像送入CNN网络提取特征图；

4.根据权利要求1所述的图像中多模态信息融合的行人检测方法，其特征在于，对所述深度图进行估计得到行人目标框高度，其中：根据深度、行人真实高度与图像中行人尺寸的数学关系，计算得出不同深度下行人目标框高度；具体为：

所述深度图中的行人高度Δh为图像中行人头部顶点与脚部中心点的距离，即：

Δh＝||d₁-d₂||

CΔH＝ZΔh；

所述图像像素点深度信息Z，由深度图预测网络VNL预测，其中，预测网络的输入为真实场景下的平视图，即原始图像；

5.根据权利要求1所述的图像中多模态信息融合的行人检测方法，其特征在于，将得到的所述行人目标框宽度和所述行人目标框高度整合为目标候选框，是指：根据平视图与俯视图的对应关系，结合所述行人目标框宽度和所述行人目标框高度，得到平视图上的目标候选框，其中，所述平视图与俯视图的对应关系包括：

以真实场景平视摄像头为原点，摄像头拍摄方向为Z轴，建立真实场景平视坐标系；设该坐标系下行人坐标为(X,Y,Z)，对应平视图行人坐标(u,v)；以真实场景俯视摄像头为原点，俯视摄像头的垂直离地高度H，俯角θ，摄像头拍摄方向为Z轴，建立真实场景俯视坐标系；设该俯视坐标系下行人坐标为(X′,Y′,Z′)，对应俯视图行人坐标为(u′,v′)，相机内参常量矩阵C，图像像素点深度信息Z，则其平视图与俯视图对应关系具体为：

[X，Y，Z]^T＝ZC^-1[u，v，1]^T

[u',v',1]^T＝(Z')^-1C[X′，Y′，Z′]^T。

6.根据权利要求1-5任一项所述的图像中多模态信息融合的行人检测方法，其特征在于，所述统一编码到语义空间，是指：利用语义信息对候选框特征进行变分编码，在隐变量空间进行视觉与语义特征对齐，通过分类回归网络即得到所述平视图目标候选框特征，所述平视图目标候选框特征包括平视图的行人目标概率以及行人目标框。

7.根据权利要求6所述的图像中多模态信息融合的行人检测方法，其特征在于，所述利用语义信息，是指利用行人的部位结构特征，即头部Head，手臂Arm，身体Body，腿部Leg组成语义词向量，具体为：

y＝(Head，Arm，Body，Leg)；

所述变分编码，是指：采用一个变分编码器VAE，分别对所述目标候选框的视觉特征和语义词向量y进行变分编码，将行人目标部位结构特征的词向量映射到隐变量空间中进行对齐；

所述在隐变量空间进行视觉与语义特征对齐，是指：通过隐变量空间约束损失L_DE，对视觉特征和语义特征进行相似性度量和约束，L_DE定义为：

其中，N为目标候选框的总个数，E(·)为视觉特征编码函数，

8.根据权利要求7所述的图像中多模态信息融合的行人检测方法，其特征在于，还包括：利用俯视图信息、深度图信息和语义信息构造一个能够端到端训练的检测网络模型，并利用整体损失之和对整个所述检测网络模型进行训练；

所述整体损失之和包括：俯视图预测网络的损失L_bird，俯视图宽度预测损失L_width，隐变量空间约束损失L_DE以及最终的分类回归的损失L_cls、L_reg进行加权求和，作为整个检测网络的总损失，得到一个端到端的检测网络模型，具体为：

其中ε_i为平视图与俯视图对应关系的不确定度；L是指整体损失之和，L_cls,i是指第i个目标候选框的分类损失，L_reg,i是指第i个目标候选框的回归损失；前置参数λ₁、λ₂、λ₃以及λ₄用于平衡各个损失，根据实验选取。

9.一种图像中多模态信息融合的行人检测系统，其特征在于，包括：

分类回归模块，该模块对所述平视图目标候选框特征检测与定位，得到平视图下行人目标候选框概率及坐标；对所述平视图以及所述俯视图的行人目标概率加权平均，作为目标候选框的行人概率，得到最终的行人目标概率值；所述最终的行人目标概率值和平视图行人目标候选框的坐标即为图像中需要检出的行人目标结果。

10.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-8任一所述的方法。