CN112329678B

CN112329678B - 一种基于信息融合的单目行人3d定位的方法

Info

Publication number: CN112329678B
Application number: CN202011263046.4A
Authority: CN
Inventors: 孙建德; 陈浩; 薛凡福; 李静
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2023-03-24
Anticipated expiration: 2040-11-12
Also published as: CN112329678A

Abstract

本发明提出了一种基于信息融合的单目行人3D定位方法。本方法提出将复杂的行人定位问题进行分解，得到三部分，即模糊定位、深度信息重构和基于信息融合的定位优化。具体来说，首先，在模糊定位阶段，从原始图像中获取人体骨骼关键点，根据三角相似定理得到行人模糊位置；其次，在深度信息重构阶段，原始图像在一个并行网络中通过深度估计和语义分割得到带有深度信息的鸟瞰图；最后，通过基于信息融合的定位优化方法进行精准定位。这种方法可以得到行人精确的位置。在KITTI数据集上的实验结果也表明此方法的优越性。

Description

一种基于信息融合的单目行人3D定位的方法

技术领域

本发明涉及定位技术领域，更具体地说，涉及一种单目行人定位方法。

背景技术

3D目标定位是计算机视觉领域一项重要研究，其主要任务包括目标识别与定位。这一技术在自动驾驶和机器人感知领域中存在广泛应用。自动驾驶通常采用激光雷达传感器实现目标检测，其生成的点云具有较高的精度。但是激光雷达成本高且生成的点云过于稀疏，目前多是使用多传感器信息融合的方式进行检测，单目摄像头和激光雷达传感器相结合是可行的方式。虽然单目摄像头无法直接提供深度信息，但相比于激光雷达，单目摄像头具有易装配、成本低，且可以通过形成的深度图转化出密集的伪雷达点云信息，在自动驾驶领域具有良好的应用前景。

单目3D定位技术在近年来取得了许多进展，尤其是在自动驾驶领域。但是在单目3D行人目标定位方面存在两方面困难：一是单目图像难以直接获取深度信息；二是行人是非刚性目标，体态不一，相比于刚性的汽车目标来说定位更加困难。

常用的做法是将单目图像输入到深度估计网络中得到单目深度图，然后，使用单目深度图像和原始图像根据相机固定矩阵得到伪雷达点云，最后将伪雷达点云输入到基于LiDAR的检测方法中进行3D目标检测，这类方法在车辆定位上具有较好的结果，但是并未针对行人目标进行研究。同样有研究者通过基于拉普拉斯分布的损失函数来预测行人的模糊位置和不确定性置信区间，虽然将模糊问题进行量化，但是没有进一步对行人进行精准定位。

总而言之，目前针对行人目标的定位研究较少，针对行人目标定位的研究并未讨论进一步的精准定位。

发明内容

为了解决现有技术的不足，本发明提供了一种基于信息融合的单目行人3D定位的方法。

本发明的具体技术方案如下：

一种基于信息融合的单目行人3D定位的方法，将行人模糊位置信息与行人深度信息进行融合，得到精确的行人定位，包括以下步骤：

步骤一：输入原始图像，从原始图像中获取人体骨骼关键点，选取关键点通过三角相似定理得到行人模糊位置；

步骤二：并行输入原始图像，分别进行语义分割和深度估计，得到原始图像的深度图和标有行人信息的语义分割图；将得到的深度图和语义分割图通过相机内参矩阵得到伪雷达点云，最后将伪雷达点云进行鸟瞰映射得到带有行人深度信息的鸟瞰图；

步骤三：将步骤一得到的行人模糊位置和步骤二得到的鸟瞰图进行融合定位，即先通过基于基尼指数的图像卷积进行初步细化定位，然后通过聚类方法得到精确的行人位置。

优选地，步骤一具体包括以下步骤：

假设行人均直立站立，且相机参数已知，通过人体骨骼关键点方法得到人体骨骼关键点坐标后提取肩-臀像素数，使用人类平均肩-臀长度再根据相机小孔成像模型得到行人与镜头相对距离，相对距离结合相机内参即可得到行人的模糊定位(x,z)，其中x为距离摄像头左右距离，z为距离摄像头前后距离；

根据行人的模糊定位(x,z)计算行人与相机位置的相对角度θ：

优选地，步骤二具体包括以下步骤：

步骤(a)：通过单目深度估计网络得到原始图像的深度图；

步骤(b)：通过语义分割方法将行人目标在原图中标记出来，得到带有行人信息的语义分割图；

步骤(c)：通过深度图和相机的固定矩阵计算出每个像素点i对应的像素坐标[u_i,v_i]在相机坐标中的3D位置(X_i,Y_i,Z_i)。

其中Z_i是单目深度估计中对应点的深度，c_x,c_y是相机中心对应的像素位置，f_x,f_y是相机在x轴和y轴上对应的焦距，再根据相机的外接矩阵就可以得到图像中像素对应的世界坐标(X_i,Y_i,Z_i)；

优选地，步骤三具体包括以下步骤：

步骤(d)：步骤一得到的行人模糊位置信息和步骤二得到的鸟瞰图进行融合转化至单幅图像信息，通过行人模糊位置得到初步感兴趣区域，再通过图像卷积的方式进一步细化感兴趣区域，其中卷积核的尺寸基于基尼指数来自适应选取，基尼指数可以判断尺寸选择的是否合适；

基尼指数定义如下所示：

其中Y＝255,k表示灰度级，P_k表示取值为k的像素点占总像素数的比例；

步骤(e)：对细化定位图像采用聚类方法进行校正定位，得到行人的精确位置；

本发明相比现有技术的优点为：

本发明输入单张图像分别得到行人模糊定位信息和带有行人深度信息的鸟瞰图，然后进行信息融合最终得到行人精确的定位。

附图说明

图1为本发明方法流程图；

图2为行人深度估计图；

图3为信息融合结果图；

图4为定位校正图；

图5为多人定位结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例对本发明进行进一步详细说明。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

如图1所示，本发明的一个实施例提供了一种单目行人3D定位的方法，包括步骤：

步骤一，输入原始图像，从原始图像中获取人体骨骼关键点，选取关键点通过三角相似定理得到行人模糊位置：

假设行人均直立站立，且相机参数已知，通过人体骨骼点方法得到人体关节点坐标提取肩-臀像素数，使用人类平均肩-臀长度49.3cm，再根据相机小孔成像模型得到行人与镜头相对距离，相对距离结合相机内参即可得到行人的模糊定位(x,z)，其中x为距离摄像头左右距离，z为距离摄像头前后距离；

根据行人的模糊定位(x,z)计算行人与相机位置的相对角度θ：

在步骤一中，得到行人的模糊位置、行人和摄像机位置的相对角度，以行人模糊位置为中心设置一个行人可能存在的区域，为了确保真实行人位置在检测区域内，设置模糊位置为中心横纵为1米、2米的椭圆区域。

步骤二：在并行网络中输入原始图像，分别进行语义分割和深度估计，得到原始图像的深度图，如图2所示，和标有行人信息的语义分割图；

通过深度图和相机的固定矩阵计算出每个像素点i对应的像素坐标[u_i,v_i]在相机坐标中的3D位置(X_i,Y_i,Z_i)；

通过深度估计图、行人分割图像和相机固定矩阵计算得到伪雷达点云；

选取伪雷达点云的投影范围为：

-20m≤X≤20m

-3m≤Y≤1m

0m≤Z≤50m

最后，将选区范围内的点云进行鸟瞰投影，得到带有行人深度信息的鸟瞰图。

步骤三：通过步骤一得到行人的模糊位置、行人和摄像机位置的相对角度，以及划定的行人可能存在区域，通过步骤二得到带有行人深度信息的鸟瞰图，如图3所示，将两步骤的信息进行融合，得到信息融合图像，其中实心的小圈表示真实位置，非实心的小圈表示模糊定位的位置，大圈表示划定的行人可能存在区域；

自动驾驶常用的激光雷达设备一般为64线扫描，扫描得到的雷达点云比较稀疏。我们通过深度估计图像和相机内参矩阵得到的伪雷达点云带有颜色信息且是密集的，投影到鸟瞰图中，遮挡目标位置的投影点会更加聚集；

选取行人可能存在的区域为感性兴趣区域，对感兴趣区域进行图像卷积处理进一步得到细化位置；

细化的图像再通过Mean-Shift聚类的方法进行校正定位；

本发明使用图像卷积的方法对感兴趣区域进行初步细化，在图像卷积过程中，卷积核尺寸的选取我们采用基尼指数来判断选取的是否合适，在卷积核选取中，我们设置选取尺寸为127和63的尺寸；

基尼指数可以反映数据集的纯度，其数值越小则数据纯度越高。基尼指数定义如下所示：

其中Y＝255,k表示灰度级，P_k表示取值为k的像素点占总像素数的比例。设置基尼指数的阈值为0.475。

如图4所示，对细化图像的像素进行Mean-Shift聚类计算得到最终精确的位置，其中实心的小圈表示真实位置，非实心的小圈表示模糊定位的位置，大圈表示划定的行人可能存在区域，三角形表示使用信息融合方法得到的校正位置；如图5所示，展示了多人定位的结果图，其中实心的小圈表示真实位置，非实心的小圈表示模糊定位的位置，大圈表示划定的行人可能存在区域，三角形表示使用信息融合方法得到的校正位置；

我们使用汽车评估方法来评估3D行人定位，分别是平均定位精度(ALP)和平均定位误差(ALE)，如果预测距离和真实位置之间的误差小于阈值，则ALP认为预测正确；

本实验环境为ubuntu16.04，采用

Core^TM i7-4790K CPU@4.00GHz，32GBDDR4 RAM和NVIDIA GeForce GTX 1080Ti GPU；

本发明在KITTI数据集上进行实验，KITTI数据集在自动驾驶领域的实验中广泛应用，它包含7481张训练图像以及相机校准文件。该数据集是通过快速运动车辆上的摄像头采集到的大尺度真实环境，环境中包含运动的车辆和行人等动态物体，广泛应用于目标检测方法的评估，可以很好地对本发明进行评估；

实验对比了当前比较流行的其他3种方法(Mono3D,3DOP,MonoLoco)，表1展示本发明方法在KITTI数据集中的实验结果，其中本方法的平均定位精度均高于其他方法，平均定位误差在Easy类型的数据集中得到更好的效果，在Moderate类型的数据集中效果也有所提升，在Hard类型的的数据中平均定位误差相比于MonoLoco方法有所下降，但也优于Mono3D和3DOP方法。经过分析Hard类型数据平均定位误差下降的原因可能是由于深度估计网络不准和计算交并比匹配不准导致的，将深度估计网络定义为离线模块在后续可进行替换。

表1不同方法的平均定位精度ALP和平均定位误差ALE的实验比较表。

/>

Claims

1.一种基于信息融合的单目行人3D定位的方法，其特征在于，将行人模糊位置信息与行人深度信息进行融合，得到精确的行人定位，所述方法包括如下步骤：

步骤一：输入原始图像，从原始图像中获取人体骨骼关键点，选取关键点通过三角相似定理得到行人模糊位置、行人与摄像机位置的相对角度，以行人模糊位置为中心设置一个行人可能存在的区域；

步骤三：将步骤一得到的行人模糊位置、行人与摄像机位置的相对角度以及划定的行人可能存在区域，与步骤二得到的带有行人深度信息的鸟瞰图进行融合定位，得到融合信息图像，然后通过基于基尼指数的图像卷积进行初步细化定位，再通过聚类方法得到精确的行人位置。

2.根据权利要求1所述的基于信息融合的单目行人3D定位的方法，其特征在于：步骤一中，假设行人均直立站立，且相机参数已知，通过人体骨骼关键点方法得到人体骨骼关键点坐标后提取肩-臀像素数，使用人类平均肩-臀长度再根据相机小孔成像模型得到行人与镜头相对距离，相对距离结合相机内参即可得到行人的模糊定位(x,z)，其中x为距离摄像头左右距离，z为距离摄像头前后距离；

根据行人的模糊定位(x,z)计算行人与相机位置的相对角度θ：

3.根据权利要求1所述的基于信息融合的单目行人3D定位的方法，其特征在于：步骤二中伪雷达点云的生成包括如下三个步骤:

步骤(a)：通过单目深度估计网络得到原始图像的深度图；

4.根据权利要求1所述的基于信息融合的单目行人3D定位的方法，其特征在于：步骤三中包括如下两个步骤：

步骤(d)：将步骤一得到的行人模糊位置、行人与摄像机位置的相对角度以及划定的行人可能存在区域，与步骤二得到的带有行人深度信息的鸟瞰图进行融合，得到融合信息图像，再通过图像卷积的方式进一步细化行人可能存在区域，其中卷积核的尺寸基于基尼指数来自适应选取，基尼指数可以判断尺寸选择的是否合适；

基尼指数定义如下所示：

步骤(e)：对细化定位图像采用聚类方法进行校正定位，得到行人的精确位置。