CN112329678B - 一种基于信息融合的单目行人3d定位的方法 - Google Patents
一种基于信息融合的单目行人3d定位的方法 Download PDFInfo
- Publication number
- CN112329678B CN112329678B CN202011263046.4A CN202011263046A CN112329678B CN 112329678 B CN112329678 B CN 112329678B CN 202011263046 A CN202011263046 A CN 202011263046A CN 112329678 B CN112329678 B CN 112329678B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- camera
- positioning
- information
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种基于信息融合的单目行人3D定位方法。本方法提出将复杂的行人定位问题进行分解,得到三部分,即模糊定位、深度信息重构和基于信息融合的定位优化。具体来说,首先,在模糊定位阶段,从原始图像中获取人体骨骼关键点,根据三角相似定理得到行人模糊位置;其次,在深度信息重构阶段,原始图像在一个并行网络中通过深度估计和语义分割得到带有深度信息的鸟瞰图;最后,通过基于信息融合的定位优化方法进行精准定位。这种方法可以得到行人精确的位置。在KITTI数据集上的实验结果也表明此方法的优越性。
Description
技术领域
本发明涉及定位技术领域,更具体地说,涉及一种单目行人定位方法。
背景技术
3D目标定位是计算机视觉领域一项重要研究,其主要任务包括目标识别与定位。这一技术在自动驾驶和机器人感知领域中存在广泛应用。自动驾驶通常采用激光雷达传感器实现目标检测,其生成的点云具有较高的精度。但是激光雷达成本高且生成的点云过于稀疏,目前多是使用多传感器信息融合的方式进行检测,单目摄像头和激光雷达传感器相结合是可行的方式。虽然单目摄像头无法直接提供深度信息,但相比于激光雷达,单目摄像头具有易装配、成本低,且可以通过形成的深度图转化出密集的伪雷达点云信息,在自动驾驶领域具有良好的应用前景。
单目3D定位技术在近年来取得了许多进展,尤其是在自动驾驶领域。但是在单目3D行人目标定位方面存在两方面困难:一是单目图像难以直接获取深度信息;二是行人是非刚性目标,体态不一,相比于刚性的汽车目标来说定位更加困难。
常用的做法是将单目图像输入到深度估计网络中得到单目深度图,然后,使用单目深度图像和原始图像根据相机固定矩阵得到伪雷达点云,最后将伪雷达点云输入到基于LiDAR的检测方法中进行3D目标检测,这类方法在车辆定位上具有较好的结果,但是并未针对行人目标进行研究。同样有研究者通过基于拉普拉斯分布的损失函数来预测行人的模糊位置和不确定性置信区间,虽然将模糊问题进行量化,但是没有进一步对行人进行精准定位。
总而言之,目前针对行人目标的定位研究较少,针对行人目标定位的研究并未讨论进一步的精准定位。
发明内容
为了解决现有技术的不足,本发明提供了一种基于信息融合的单目行人3D定位的方法。
本发明的具体技术方案如下:
一种基于信息融合的单目行人3D定位的方法,将行人模糊位置信息与行人深度信息进行融合,得到精确的行人定位,包括以下步骤:
步骤一:输入原始图像,从原始图像中获取人体骨骼关键点,选取关键点通过三角相似定理得到行人模糊位置;
步骤二:并行输入原始图像,分别进行语义分割和深度估计,得到原始图像的深度图和标有行人信息的语义分割图;将得到的深度图和语义分割图通过相机内参矩阵得到伪雷达点云,最后将伪雷达点云进行鸟瞰映射得到带有行人深度信息的鸟瞰图;
步骤三:将步骤一得到的行人模糊位置和步骤二得到的鸟瞰图进行融合定位,即先通过基于基尼指数的图像卷积进行初步细化定位,然后通过聚类方法得到精确的行人位置。
优选地,步骤一具体包括以下步骤:
假设行人均直立站立,且相机参数已知,通过人体骨骼关键点方法得到人体骨骼关键点坐标后提取肩-臀像素数,使用人类平均肩-臀长度再根据相机小孔成像模型得到行人与镜头相对距离,相对距离结合相机内参即可得到行人的模糊定位(x,z),其中x为距离摄像头左右距离,z为距离摄像头前后距离;
根据行人的模糊定位(x,z)计算行人与相机位置的相对角度θ:
优选地,步骤二具体包括以下步骤:
步骤(a):通过单目深度估计网络得到原始图像的深度图;
步骤(b):通过语义分割方法将行人目标在原图中标记出来,得到带有行人信息的语义分割图;
步骤(c):通过深度图和相机的固定矩阵计算出每个像素点i对应的像素坐标[ui,vi]在相机坐标中的3D位置(Xi,Yi,Zi)。
其中Zi是单目深度估计中对应点的深度,cx,cy是相机中心对应的像素位置,fx,fy是相机在x轴和y轴上对应的焦距,再根据相机的外接矩阵就可以得到图像中像素对应的世界坐标(Xi,Yi,Zi);
优选地,步骤三具体包括以下步骤:
步骤(d):步骤一得到的行人模糊位置信息和步骤二得到的鸟瞰图进行融合转化至单幅图像信息,通过行人模糊位置得到初步感兴趣区域,再通过图像卷积的方式进一步细化感兴趣区域,其中卷积核的尺寸基于基尼指数来自适应选取,基尼指数可以判断尺寸选择的是否合适;
基尼指数定义如下所示:
其中Y=255,k表示灰度级,Pk表示取值为k的像素点占总像素数的比例;
步骤(e):对细化定位图像采用聚类方法进行校正定位,得到行人的精确位置;
本发明相比现有技术的优点为:
本发明输入单张图像分别得到行人模糊定位信息和带有行人深度信息的鸟瞰图,然后进行信息融合最终得到行人精确的定位。
附图说明
图1为本发明方法流程图;
图2为行人深度估计图;
图3为信息融合结果图;
图4为定位校正图;
图5为多人定位结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例对本发明进行进一步详细说明。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
如图1所示,本发明的一个实施例提供了一种单目行人3D定位的方法,包括步骤:
步骤一,输入原始图像,从原始图像中获取人体骨骼关键点,选取关键点通过三角相似定理得到行人模糊位置:
假设行人均直立站立,且相机参数已知,通过人体骨骼点方法得到人体关节点坐标提取肩-臀像素数,使用人类平均肩-臀长度49.3cm,再根据相机小孔成像模型得到行人与镜头相对距离,相对距离结合相机内参即可得到行人的模糊定位(x,z),其中x为距离摄像头左右距离,z为距离摄像头前后距离;
根据行人的模糊定位(x,z)计算行人与相机位置的相对角度θ:
在步骤一中,得到行人的模糊位置、行人和摄像机位置的相对角度,以行人模糊位置为中心设置一个行人可能存在的区域,为了确保真实行人位置在检测区域内,设置模糊位置为中心横纵为1米、2米的椭圆区域。
步骤二:在并行网络中输入原始图像,分别进行语义分割和深度估计,得到原始图像的深度图,如图2所示,和标有行人信息的语义分割图;
通过深度图和相机的固定矩阵计算出每个像素点i对应的像素坐标[ui,vi]在相机坐标中的3D位置(Xi,Yi,Zi);
其中Zi是单目深度估计中对应点的深度,cx,cy是相机中心对应的像素位置,fx,fy是相机在x轴和y轴上对应的焦距,再根据相机的外接矩阵就可以得到图像中像素对应的世界坐标(Xi,Yi,Zi);
通过深度估计图、行人分割图像和相机固定矩阵计算得到伪雷达点云;
选取伪雷达点云的投影范围为:
-20m≤X≤20m
-3m≤Y≤1m
0m≤Z≤50m
最后,将选区范围内的点云进行鸟瞰投影,得到带有行人深度信息的鸟瞰图。
步骤三:通过步骤一得到行人的模糊位置、行人和摄像机位置的相对角度,以及划定的行人可能存在区域,通过步骤二得到带有行人深度信息的鸟瞰图,如图3所示,将两步骤的信息进行融合,得到信息融合图像,其中实心的小圈表示真实位置,非实心的小圈表示模糊定位的位置,大圈表示划定的行人可能存在区域;
自动驾驶常用的激光雷达设备一般为64线扫描,扫描得到的雷达点云比较稀疏。我们通过深度估计图像和相机内参矩阵得到的伪雷达点云带有颜色信息且是密集的,投影到鸟瞰图中,遮挡目标位置的投影点会更加聚集;
选取行人可能存在的区域为感性兴趣区域,对感兴趣区域进行图像卷积处理进一步得到细化位置;
细化的图像再通过Mean-Shift聚类的方法进行校正定位;
本发明使用图像卷积的方法对感兴趣区域进行初步细化,在图像卷积过程中,卷积核尺寸的选取我们采用基尼指数来判断选取的是否合适,在卷积核选取中,我们设置选取尺寸为127和63的尺寸;
其中Y=255,k表示灰度级,Pk表示取值为k的像素点占总像素数的比例。设置基尼指数的阈值为0.475。
如图4所示,对细化图像的像素进行Mean-Shift聚类计算得到最终精确的位置,其中实心的小圈表示真实位置,非实心的小圈表示模糊定位的位置,大圈表示划定的行人可能存在区域,三角形表示使用信息融合方法得到的校正位置;如图5所示,展示了多人定位的结果图,其中实心的小圈表示真实位置,非实心的小圈表示模糊定位的位置,大圈表示划定的行人可能存在区域,三角形表示使用信息融合方法得到的校正位置;
我们使用汽车评估方法来评估3D行人定位,分别是平均定位精度(ALP)和平均定位误差(ALE),如果预测距离和真实位置之间的误差小于阈值,则ALP认为预测正确;
本发明在KITTI数据集上进行实验,KITTI数据集在自动驾驶领域的实验中广泛应用,它包含7481张训练图像以及相机校准文件。该数据集是通过快速运动车辆上的摄像头采集到的大尺度真实环境,环境中包含运动的车辆和行人等动态物体,广泛应用于目标检测方法的评估,可以很好地对本发明进行评估;
实验对比了当前比较流行的其他3种方法(Mono3D,3DOP,MonoLoco),表1展示本发明方法在KITTI数据集中的实验结果,其中本方法的平均定位精度均高于其他方法,平均定位误差在Easy类型的数据集中得到更好的效果,在Moderate类型的数据集中效果也有所提升,在Hard类型的的数据中平均定位误差相比于MonoLoco方法有所下降,但也优于Mono3D和3DOP方法。经过分析Hard类型数据平均定位误差下降的原因可能是由于深度估计网络不准和计算交并比匹配不准导致的,将深度估计网络定义为离线模块在后续可进行替换。
表1不同方法的平均定位精度ALP和平均定位误差ALE的实验比较表。
Claims (4)
1.一种基于信息融合的单目行人3D定位的方法,其特征在于,将行人模糊位置信息与行人深度信息进行融合,得到精确的行人定位,所述方法包括如下步骤:
步骤一:输入原始图像,从原始图像中获取人体骨骼关键点,选取关键点通过三角相似定理得到行人模糊位置、行人与摄像机位置的相对角度,以行人模糊位置为中心设置一个行人可能存在的区域;
步骤二:并行输入原始图像,分别进行语义分割和深度估计,得到原始图像的深度图和标有行人信息的语义分割图;将得到的深度图和语义分割图通过相机内参矩阵得到伪雷达点云,最后将伪雷达点云进行鸟瞰映射得到带有行人深度信息的鸟瞰图;
步骤三:将步骤一得到的行人模糊位置、行人与摄像机位置的相对角度以及划定的行人可能存在区域,与步骤二得到的带有行人深度信息的鸟瞰图进行融合定位,得到融合信息图像,然后通过基于基尼指数的图像卷积进行初步细化定位,再通过聚类方法得到精确的行人位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011263046.4A CN112329678B (zh) | 2020-11-12 | 2020-11-12 | 一种基于信息融合的单目行人3d定位的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011263046.4A CN112329678B (zh) | 2020-11-12 | 2020-11-12 | 一种基于信息融合的单目行人3d定位的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329678A CN112329678A (zh) | 2021-02-05 |
CN112329678B true CN112329678B (zh) | 2023-03-24 |
Family
ID=74318134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011263046.4A Active CN112329678B (zh) | 2020-11-12 | 2020-11-12 | 一种基于信息融合的单目行人3d定位的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329678B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807520A (zh) * | 2020-01-08 | 2020-02-18 | 成都四方伟业软件股份有限公司 | 一种卷积神经网络的神经节点的影响因子分析方法及装置 |
CN110892408A (zh) * | 2017-02-07 | 2020-03-17 | 迈恩德玛泽控股股份有限公司 | 用于立体视觉和跟踪的系统、方法和装置 |
CN111559314A (zh) * | 2020-04-27 | 2020-08-21 | 长沙立中汽车设计开发股份有限公司 | 深度与图像信息融合的3d增强全景环视系统及实现方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017193271A1 (zh) * | 2016-05-10 | 2017-11-16 | 华为技术有限公司 | 检测网络攻击的方法及设备 |
CN110929692B (zh) * | 2019-12-11 | 2022-05-24 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
CN111199564B (zh) * | 2019-12-23 | 2024-01-05 | 中国科学院光电研究院 | 智能移动终端的室内定位方法、装置与电子设备 |
CN111079685B (zh) * | 2019-12-25 | 2022-07-26 | 电子科技大学 | 一种3d目标检测方法 |
CN111160214B (zh) * | 2019-12-25 | 2022-03-15 | 电子科技大学 | 一种基于数据融合的3d目标检测方法 |
-
2020
- 2020-11-12 CN CN202011263046.4A patent/CN112329678B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110892408A (zh) * | 2017-02-07 | 2020-03-17 | 迈恩德玛泽控股股份有限公司 | 用于立体视觉和跟踪的系统、方法和装置 |
CN110807520A (zh) * | 2020-01-08 | 2020-02-18 | 成都四方伟业软件股份有限公司 | 一种卷积神经网络的神经节点的影响因子分析方法及装置 |
CN111559314A (zh) * | 2020-04-27 | 2020-08-21 | 长沙立中汽车设计开发股份有限公司 | 深度与图像信息融合的3d增强全景环视系统及实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112329678A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jörgensen et al. | Monocular 3d object detection and box fitting trained end-to-end using intersection-over-union loss | |
CN110163930B (zh) | 车道线生成方法、装置、设备、系统及可读存储介质 | |
Zhe et al. | Inter-vehicle distance estimation method based on monocular vision using 3D detection | |
WO2021012254A1 (zh) | 目标检测方法、系统及可移动平台 | |
CN110738121A (zh) | 一种前方车辆检测方法及检测系统 | |
CN110969064B (zh) | 一种基于单目视觉的图像检测方法、装置及存储设备 | |
CN115082924A (zh) | 一种基于单目视觉和雷达伪图像融合的三维目标检测方法 | |
CN111369617B (zh) | 一种基于卷积神经网络的单目视图的3d目标检测方法 | |
WO2022151664A1 (zh) | 一种基于单目摄像头的3d物体检测方法 | |
CN113781562B (zh) | 一种基于道路模型的车道线虚实配准和自车定位方法 | |
CN111209840B (zh) | 一种基于多传感器数据融合的3d目标检测方法 | |
CN114495064A (zh) | 一种基于单目深度估计的车辆周围障碍物预警方法 | |
CN114913506A (zh) | 一种基于多视角融合的3d目标检测方法及装置 | |
CN107688174A (zh) | 一种图像测距方法、系统、存储介质和车载视觉感知设备 | |
CN116468786B (zh) | 一种面向动态环境的基于点线联合的语义slam方法 | |
CN115876198A (zh) | 基于数据融合的目标检测及预警方法、设备、系统和介质 | |
CN113537047A (zh) | 障碍物检测方法、装置、交通工具及存储介质 | |
JP2023505891A (ja) | 環境のトポグラフィを測定するための方法 | |
CN107220632B (zh) | 一种基于法向特征的路面图像分割方法 | |
CN111951339A (zh) | 利用异构双目相机进行视差计算的图像处理方法 | |
US10991155B2 (en) | Landmark location reconstruction in autonomous machine applications | |
CN114255443A (zh) | 一种交通车辆单目定位方法、装置、设备及存储介质 | |
CN110197104B (zh) | 基于车辆的测距方法及装置 | |
CN114298151A (zh) | 一种基于点云数据与图像数据融合的3d目标检测方法 | |
CN112329678B (zh) | 一种基于信息融合的单目行人3d定位的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |