CN116259001A - 一种多视角融合的三维行人姿态估计与追踪方法 - Google Patents

一种多视角融合的三维行人姿态估计与追踪方法 Download PDF

Info

Publication number
CN116259001A
CN116259001A CN202211700904.6A CN202211700904A CN116259001A CN 116259001 A CN116259001 A CN 116259001A CN 202211700904 A CN202211700904 A CN 202211700904A CN 116259001 A CN116259001 A CN 116259001A
Authority
CN
China
Prior art keywords
dimensional
pedestrian
pedestrians
space
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211700904.6A
Other languages
English (en)
Inventor
刘泰廷
吴佳昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Meijisen Information Technology Co ltd
Original Assignee
Nanjing Meijisen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Meijisen Information Technology Co ltd filed Critical Nanjing Meijisen Information Technology Co ltd
Priority to CN202211700904.6A priority Critical patent/CN116259001A/zh
Publication of CN116259001A publication Critical patent/CN116259001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种多视角融合的三维行人姿态估计与追踪方法,用于路口人行横道场景中的行人监控,利用二维图像在三维空间中估计并追踪行人的姿态,获取行人物理的位置、速度等信息。本发明通过人行横道实际中的位置与其在二维图像中投影的映射关系去构建路口三维模型,并通过对图像流进行高维特征提取估计行人的三维姿态,最后结合多路口传感器的信息融合并追踪行人,得到行人的运动信息。本发明在三维空间进行追踪和运动分析,相比于二维空间的分析更能准确的获取行人的位置和运动状态;提取具有时空信息的高维特征张量,避免了传感器单视角下行人的遮挡问题;利用多传感器下行人的信息,实现多角度全面的行人姿态融合。

Description

一种多视角融合的三维行人姿态估计与追踪方法
技术领域
本发明涉及一种多视角融合的三维行人姿态估计与追踪方法,属于行人姿态估计与追踪领域。
背景技术
行人追踪技术是一种计算机视觉技术,可以使用摄像头和相关的软件程序来自动追踪行人的动态信息,例如他们的位置、方向和速度。这种技术在许多领域都有应用,包括安全监控、智能交通系统、运动分析和人群管理等。
目前行人追踪通常是在二维图像上进行的,这些图像通常来自摄像机或其他类似的视频设备。行人追踪系统的目的是识别图像中的行人,并且能够跟踪行人在图像中的运动。这样可以帮助系统跟踪人群动态,有助于改善交通流量管理、安全监控和人群控制等方面的工作。
在二维图像中,行人可能会被其他物体遮挡,这可能会导致追踪算法无法准确地追踪行人。同时,行人所处的环境可能会发生变化,例如光照变化或背景变化,这也会对追踪算法造成挑战。
三维空间中的行人追踪相比二维图像上的行人追踪有一些优点。首先,三维空间中的行人追踪更容易识别行人的三维姿态,这对于识别行人的动作和姿态来说非常重要。其次,三维空间中的行人追踪更容易处理遮挡问题,因为它可以利用行人在空间中的深度信息来解决遮挡问题。此外,三维空间中的行人追踪可以更准确地识别行人的特征,这有助于提高识别的准确率。
发明内容
由于在三维空间上进行行人追踪相较二维图像上进行追踪有着种种优点,本发明公开了一种多视角融合的三维行人姿态估计与追踪方法,方法相比于二维空间的分析更能准确的获取行人的位置和运动状态,避免了传感器单视角下行人的遮挡问题,并且利用多传感器下行人的信息,实现多角度全面的行人姿态融合。
为了实现上述目的,本发明公开了一种多视角融合的三维行人姿态估计与追踪方法,步骤包括:
步骤S10:空间三维模型构建,利用场景中人行横道的二维语义信息和三维位置信息获取二维空间和三维空间的射影变换矩阵。
步骤S101:构建空间模型。以路口的中心为三维空间原点,以东方为x轴正方向,北方为y轴正方向,上方为z轴正方向,构建路口三维空间坐标系。测量各个传感器在路口三维空间坐标系的位置,并测量人行横道在真实世界中的长宽、人行横道中点在路口三维空间坐标系的位置,确定人行横道每一根斑马线的位置。
步骤S102:检测斑马线位置信息。利用传感器采集到的图像,提取像素纹理、形状、梯度等语义信息,并回归出每根斑马线的图像位置及其概率。
步骤S103:获取射影变换矩阵。利用每根斑马线的图像位置即其在路口三维空间坐标系中的位置,根据相机投影模型确定二维图像空间和路口三维空间的射影变换矩阵组,并根据每根斑马线的回归概率对射影变换矩阵组进行加权求积,得到最终的射影变换矩阵。
步骤S20:行人三维姿态估计,结合传感器采集图像流的时空信息获取每个行人的三维姿态。
步骤S201:检测行人的二维空间位置。首先对图像流进行特征提取,得到具有时空信息的高维特征张量,接着将特征张量分割成若干长宽一致的矩形特征块,然后用不同大小的特征框对矩形特征块进行分类预测,得到场景中行人的位置和置信度,最终采用非极大值抑制算法筛选出可靠的目标。
步骤S202:检测行人的二维姿态。使用步骤S201的特征张量和目标检测位置,获取每个行人的高维特征,并构建特征金字塔,从不同尺度下的特征中提取并聚合出行人人头、臀部、双脚关节点的位置热图,最终输出行人的二维姿态。
步骤S203:恢复行人的三维姿态。使用步骤S103的射影变换矩阵和步骤S101传感器的三维位置,利用三角关系恢复出各个二维位置点的高度,并对最终输出行人的三维姿态。
步骤S30:多传感器信息融合和追踪,结合路口多个传感器提取到的行人的三维姿态进行融合,并根据行人姿态的空间位置和特征差异对目标进行匹配和追踪。
步骤S301:行人目标匹配。将不同传感器中行人的三维姿态的空间位置和语义特征的差异归一化为代价,并在时空上构建行人之间的代价矩阵,随后采用贪心算法将不同传感器中和前后帧最相似的行人进行匹配。
步骤S302:行人目标追踪。采用Kalman滤波方法对匹配目标进行追踪,得到目标的轨迹,并根据目标三维姿态和S201中目标的置信度对轨迹进行更新。
步骤S303:运动特征提取。根据轨迹历史的位置,计算目标的速度,输出目标轨迹的运动特征。
与现有技术相比,本发明提出了一种多视角融合的三维行人姿态估计与追踪方法,存在诸多优势:
1. 在三维空间进行追踪和运动分析,相比于二维空间的分析更能准确的获取行人的位置和运动状态。
2. 通过提取具有时空信息的高维特征张量,避免了传感器单视角下行人的遮挡问题。
3. 通过利用多传感器下行人的信息,可以在多角度检测行人的姿态。
4. 通过利用多角度的行人姿态信息,对光照变化具有鲁棒性。
附图说明
图1为本发明一种多视角融合的三维行人姿态估计与追踪方法的流程图示意图;
图2为本发明实施例的使用场景示意图;
图3为本发明行人高度的计算示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种多视角融合的三维行人姿态估计与追踪方法的流程图示意图。图2为本发明实施例的使用场景示意图。该方法包括:
步骤S10:空间三维模型构建,利用场景中人行横道的二维语义信息和三维位置信息获取二维空间和三维空间的射影变换矩阵。
步骤S101:构建空间模型。以路口的中心为三维空间原点,以东方为x轴正方向,北方为y轴正方向,上方为z轴正方向,构建路口三维空间坐标系。测量各个传感器在路口三维空间坐标系的位置,并测量人行横道在真实世界中的长宽、人行横道中点在路口三维空间坐标系的位置,确定人行横道每一根斑马线的位置。
步骤S102:检测斑马线位置信息。利用传感器采集到的图像,提取像素纹理、形状、梯度等语义信息,并回归出每根斑马线的图像位置及其概率。
步骤S103:获取射影变换矩阵。利用每根斑马线的图像位置即其在路口三维空间坐标系中的位置,根据相机投影模型确定二维图像空间和路口三维空间的射影变换矩阵组,并根据每根斑马线的回归概率对射影变换矩阵组进行加权求积,得到最终的射影变换矩阵,实现方法如下:
Figure 210356DEST_PATH_IMAGE002
(1)
其中,
Figure 763566DEST_PATH_IMAGE004
代表仿射变换参数,
Figure 136559DEST_PATH_IMAGE006
代表平移变换参数,
Figure 91615DEST_PATH_IMAGE008
表示一种“变换 后边缘交点”关系,s是一个缩放因子,
Figure 3945DEST_PATH_IMAGE010
Figure 354769DEST_PATH_IMAGE012
为二维图像上的坐标,
Figure 682851DEST_PATH_IMAGE014
Figure 148205DEST_PATH_IMAGE016
为三维空间 坐标。
进一步简化,
Figure 378241DEST_PATH_IMAGE018
(2)
一般地,令
Figure 312568DEST_PATH_IMAGE020
,故,每条人行横道线通过4对8个点都可求出透视变换矩阵
Figure 178762DEST_PATH_IMAGE022
进一步地,求出加权求积后的透视变换矩阵,如下:
Figure 514934DEST_PATH_IMAGE024
(3)
其中,
Figure 447030DEST_PATH_IMAGE026
为加权求积后的透视变换矩阵,n为人行横道线的条数,
Figure 790025DEST_PATH_IMAGE028
为人行横道 线的概率权重。
步骤S20:行人三维姿态估计,结合传感器采集图像流的时空信息获取每个行人的三维姿态。
步骤S201:检测行人的二维空间位置。首先对图像流进行特征提取,得到具有时空信息的高维特征张量,接着将特征张量分割成若干长宽一致的矩形特征块,然后用不同大小的特征框对矩形特征块进行分类预测,得到场景中行人的位置和置信度,最终采用非极大值抑制算法筛选出可靠的目标。
步骤S202:检测行人的二维姿态。使用步骤S201的特征张量和目标检测位置,获取每个行人的高维特征,并构建特征金字塔,从不同尺度下的特征中提取并聚合出行人人头、臀部、双脚关节点的位置热图,最终输出行人的二维姿态。
步骤S203:恢复行人的三维姿态。使用步骤S103的射影变换矩阵和步骤S101传感器的三维位置,利用三角关系恢复出各个二维位置点的高度,并对最终输出行人的三维姿态。具体实现方法如下:
首先,通过S103中加权求积后的透视变换矩阵求出二维图像到三维世界的变换公式,如下:
Figure 777353DEST_PATH_IMAGE030
(4)
Figure 827086DEST_PATH_IMAGE032
(5)
其中,
Figure 48858DEST_PATH_IMAGE034
Figure 642866DEST_PATH_IMAGE036
为二维图像上的坐标,
Figure 241076DEST_PATH_IMAGE038
Figure 942053DEST_PATH_IMAGE040
为三维空间坐标。
然后,计算三维空间中传感器到的行人的头部、双脚的距离
Figure 606165DEST_PATH_IMAGE042
Figure 658172DEST_PATH_IMAGE044
,在通过三角 关系恢复出各个二维点的高度,具体示意如图3所示,
Figure 331511DEST_PATH_IMAGE046
(6)
Figure 886995DEST_PATH_IMAGE048
(7)
其中,
Figure 450569DEST_PATH_IMAGE050
Figure 12044DEST_PATH_IMAGE052
代表在三维空间中传感器到的行人的头部、双脚的距离,h代表传感 器的高度,
Figure 14372DEST_PATH_IMAGE054
代表行人的高度。
步骤S30:多传感器信息融合和追踪,结合路口多个传感器提取到的行人的三维姿态进行融合,并根据行人姿态的空间位置和特征差异对目标进行匹配和追踪。
步骤S301:行人目标匹配。将不同传感器中行人的三维姿态的空间位置和语义特征的差异归一化为代价,并在时空上构建行人之间的代价矩阵,随后采用贪心算法将不同传感器中和前后帧最相似的行人进行匹配。
步骤S302:行人目标追踪。采用Kalman滤波方法对匹配目标进行追踪,得到目标的轨迹,并根据目标三维姿态和S201中目标的置信度对轨迹进行更新。
步骤S303:运动特征提取。根据轨迹历史的位置,计算目标的速度,输出目标轨迹的运动特征。

Claims (2)

1.一种多视角融合的三维行人姿态估计与追踪方法,包括空间三维模型构建步骤S10,行人三维姿态估计步骤S20,多传感器信息融合和追踪步骤S30,其特征在于:
空间三维模型构建步骤S10,利用场景中人行横道的二维语义信息和三维位置信息获取二维空间和三维空间的射影变换矩阵,进一步包括:
步骤S101:构建空间模型;以路口的中心为三维空间原点,以东方为x轴正方向,北方为y轴正方向,上方为z轴正方向,构建路口三维空间坐标系;测量各个传感器在路口三维空间坐标系的位置,并测量人行横道在真实世界中的长宽、人行横道中点在路口三维空间坐标系的位置,确定人行横道每一根斑马线的位置;
步骤S102:检测斑马线位置信息;利用传感器采集到的图像,提取像素纹理、形状、梯度等语义信息,并回归出每根斑马线的图像位置及其概率;
步骤S103:获取射影变换矩阵;利用每根斑马线的图像位置即其在路口三维空间坐标系中的位置,根据相机投影模型确定二维图像空间和路口三维空间的射影变换矩阵组,并根据每根斑马线的回归概率对射影变换矩阵组进行加权求积,得到最终的射影变换矩阵;
行人三维姿态估计步骤S20,结合传感器采集图像流的时空信息获取每个行人的三维姿态,进一步包括:
步骤S201:检测行人的二维空间位置;首先对图像流进行特征提取,得到具有时空信息的高维特征张量,接着将特征张量分割成若干长宽一致的矩形特征块,然后用不同大小的特征框对矩形特征块进行分类预测,得到场景中行人的位置和置信度,最终采用非极大值抑制算法筛选出可靠的目标;
步骤S202:检测行人的二维姿态;使用步骤S201的特征张量和目标检测位置,获取每个行人的高维特征,并构建特征金字塔,从不同尺度下的特征中提取并聚合出行人人头、臀部、双脚关节点的位置热图,最终输出行人的二维姿态;
步骤S203:恢复行人的三维姿态;使用步骤S103的射影变换矩阵和步骤S101传感器的三维位置,利用三角关系恢复出各个二维位置点的高度,并对最终输出行人的三维姿态;
多传感器信息融合步骤S30,结合路口多个传感器提取到的行人的三维姿态进行融合,并根据行人姿态的空间位置和特征差异对目标进行匹配和追踪,进一步包括:
步骤S301:行人目标匹配;将不同传感器中行人的三维姿态的空间位置和语义特征的差异归一化为代价,并在时空上构建行人之间的代价矩阵,随后采用贪心算法将不同传感器中和前后帧最相似的行人进行匹配;
步骤S302:行人目标追踪;采用Kalman滤波方法对匹配目标进行追踪,得到目标的轨迹,并根据目标三维姿态和S201中目标的置信度对轨迹进行更新;
步骤S303:运动特征提取;根据轨迹历史的位置,计算目标的速度,输出目标轨迹的运动特征。
2.根据权利要求项1所述的一种多视角融合的三维行人姿态估计与追踪方法,其特征在于,所述的传感器为鱼眼彩色相机。
CN202211700904.6A 2022-12-27 2022-12-27 一种多视角融合的三维行人姿态估计与追踪方法 Pending CN116259001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211700904.6A CN116259001A (zh) 2022-12-27 2022-12-27 一种多视角融合的三维行人姿态估计与追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211700904.6A CN116259001A (zh) 2022-12-27 2022-12-27 一种多视角融合的三维行人姿态估计与追踪方法

Publications (1)

Publication Number Publication Date
CN116259001A true CN116259001A (zh) 2023-06-13

Family

ID=86678433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211700904.6A Pending CN116259001A (zh) 2022-12-27 2022-12-27 一种多视角融合的三维行人姿态估计与追踪方法

Country Status (1)

Country Link
CN (1) CN116259001A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690123A (zh) * 2024-02-04 2024-03-12 南京航空航天大学 多目视觉下基于融合特征的行人3d姿态点跟踪方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690123A (zh) * 2024-02-04 2024-03-12 南京航空航天大学 多目视觉下基于融合特征的行人3d姿态点跟踪方法

Similar Documents

Publication Publication Date Title
CN111462200B (zh) 一种跨视频行人定位追踪方法、系统及设备
US10598489B2 (en) Visual odometry and pairwise alignment for high definition map creation
US11030525B2 (en) Systems and methods for deep localization and segmentation with a 3D semantic map
Gurghian et al. Deeplanes: End-to-end lane position estimation using deep neural networksa
Sidla et al. Pedestrian detection and tracking for counting applications in crowded situations
US7321386B2 (en) Robust stereo-driven video-based surveillance
CN107665506B (zh) 实现增强现实的方法及系统
JP2018522348A (ja) センサーの3次元姿勢を推定する方法及びシステム
CN107665505B (zh) 基于平面检测实现增强现实的方法及装置
CN208323361U (zh) 一种基于深度视觉的定位装置及机器人
Józsa et al. Towards 4D virtual city reconstruction from Lidar point cloud sequences
WO2020156923A2 (en) Map and method for creating a map
Herghelegiu et al. Robust ground plane detection and tracking in stereo sequences using camera orientation
Jung et al. Object detection and tracking-based camera calibration for normalized human height estimation
Laflamme et al. Driving datasets literature review
Geiger et al. Object flow: A descriptor for classifying traffic motion
CN116259001A (zh) 一种多视角融合的三维行人姿态估计与追踪方法
Dornaika et al. A new framework for stereo sensor pose through road segmentation and registration
Rahim et al. An adapted point based tracking for vehicle speed estimation in linear spacing
Li et al. A hybrid pose tracking approach for handheld augmented reality
CN115131407B (zh) 面向数字仿真环境的机器人目标跟踪方法、装置和设备
Börcs et al. Dynamic 3D environment perception and reconstruction using a mobile rotating multi-beam Lidar scanner
US11595568B2 (en) System for generating a three-dimensional scene of a physical environment
CN112818866A (zh) 车辆定位的方法、装置及电子设备
CN114766039A (zh) 对象检测方法、对象检测设备、终端设备、以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination