CN112329723A - 一种基于双目相机的多人人体3d骨骼关键点定位方法 - Google Patents
一种基于双目相机的多人人体3d骨骼关键点定位方法 Download PDFInfo
- Publication number
- CN112329723A CN112329723A CN202011353130.5A CN202011353130A CN112329723A CN 112329723 A CN112329723 A CN 112329723A CN 202011353130 A CN202011353130 A CN 202011353130A CN 112329723 A CN112329723 A CN 112329723A
- Authority
- CN
- China
- Prior art keywords
- key point
- human body
- binocular camera
- human
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于双目相机的多人人体3D骨骼关键点定位方法,该方法主要由双目相机图像极线矫正,多人人体2D骨骼关键点检测,人体头部区域特征描述及匹配,使用双目测距的方法对匹配的2D人体骨骼关键点对进行3D定位等几个步骤构成。本发明采用双目相机来进行多人人体骨骼关键点的3D定位,有效地降低了多人人体3D骨骼关键点定位系统的复杂度。根据双目立体匹配的原理,使用卷积神经网络设计了一个像素邻域特征映射匹配算法,有效地降低了人体特征描述算法的复杂度且保证了双目相机下人体匹配的鲁棒性,使得多人人体3D骨骼关键点定位更加精准高效。
Description
技术领域
本发明涉及智能安防领域,特别涉及一种基于双目相机的多人人体3D骨骼关键点定位方法。
背景技术
人体骨骼关键点检测一直是计算机视觉、人工智能和模式识别等热门研究方向,在人机交互,人体动作行为分析,虚拟现实,安防监控等领域有着十分广泛的应用。基于计算机视觉的人体骨骼关键点检测技术可以分为2D人体骨骼关键点检测和3D人体骨骼关键点定位,其中3D的骨骼关键点定位一直是计算机视觉领域的难点。现有的基于计算机视觉3D骨骼关键点定位技术主要分为基于可分为多视角和基于单目预测的方法。基于多视角的3D骨骼关键点定位方法由于其检测系统复杂,搭建成本较高,不适用于广泛的商业应用;基于单目预测的3D骨骼关键点定位方法精度较差且由于缺少尺度信息,无法很好地泛化到新的场景中。
随着双目相机行业的发展,双目相机成本越来越低,且通过双目相机可以得到场景中较精准的3D信息。针对现有多视角的3D人体关键点定位系统搭建复杂,成本较高的问题,本文提出了一种基于双目相机的人体骨骼关键点定位的方法,可以在不使用深度图的情况下低成本地获取相机视野内鲁棒的多人人体3D关键点信息,为后续人体跟踪,人体动作识别打好基础,有良好的商业前景。
发明内容
本发明的目的是提供一种基于双目相机的多人人体3D骨骼关键点定位方法,通过双目相机采集场景的左右目图像,通过2D多人人体骨骼关键点检测技术检测出场景内的人体的2D关键点,并通过自主设计的关键点匹配算法对人体进行匹配,得到左右目图像中各个人体关键点的匹配点对,最后通过双目测距的方式定位场景内所有人体骨骼关键点的3D信息,实现多人人体3D骨骼关键点定位功能
为了达到上述目的,一种基于双目相机的多人人体3D骨骼关键点定位方法,包含步骤:
步骤S1、使用双目相机获取符合平行极线假设的双目RGB左右图像;
步骤S2、使用2D多人人体骨骼关键点检测算法检测出双目相机左右图中的2D人体骨骼关键点;
步骤S3、将人体特征定义为人体头部关键点区域的邻域特征,使用像素邻域特征映射算法将检测到的人体头部区域进行特征映射;
步骤S4、度量双目相机左右图像中每个人的人头区域特征的相似度并进行人体匹配;
步骤S5、根据匹配到的人体2D关键点对,使用双目测距的方法定位人体骨骼关键点3D坐标。
步骤S1中通过使用双目相机获取双目图像,根据双目相机的相机内外参数对双目图像进行平行极线矫正,使其符合平行极线假设,最终获取符合平行极线假设的双目图像。
步骤S2具体过程为:使用基于CenterNet多人人体2D骨骼关键点检测框架和HR-Net多分辨特征提取网络的融合算法对双目相机左右目图像进行2D人体骨骼关键点检测,得到左右图像中每个人的人体关键点在图像中的坐标[ui,vi]。
步骤S3中具体包含:
S31、根据步骤S2中检测到的每个人的2D骨骼关键点,选取头部关键点区域作为人体特征的描述区域,保证人体特征的唯一性;根据每个人的2D人体骨骼关键点的分布范围,构造出粗略的人体包围框,根据左右图中人体包围框的宽度均值W作为头部关键点特征区域大小。
S32、基于卷积神经网络,训练一个像素邻域特征映射及特征匹配的算法。该算法的训练流程为:
S321、训练数据选择KITTI-Stereo数据集作为训练源数据,还需要选择特征相似度度量方法,定义正负样本对选取方式及正负样本对相似度标签的定义。
选用以点积为表现形式的相关性距离作为特征的相似度度量方法:
a·b=|a||b|cosθ
正负样本及相似度标签定义的方法如下:
以左图中某点为源像素块,在右图中根据KITTI数据集的Groundtruth视差值定义目标像素块与源像素块是否为正样本,具体的定义方法为:将在源像素块视差真值的3像素误差内的目标像素块定义为正样本,其他的定义为负样本,根据点积距离的特性,特征越相似,值越趋近于1,特征越不相似,值越趋近于0,故将正样本标签定义为1,负样本标签定义为0。
S322、特征提取网络部分,选择关键点25*25的邻域和13*13的邻域作为输入,通过多分辨率输入提高像素点邻域的特征丰富度,13*13的像素邻域分支使用6层无padding的3*3卷积,最终得到1*64维的特征;25*25邻域分支使用6层膨胀度为2的无padding的3*3膨胀卷积,最终得到1*64维的特征,对两个分支得到的特征进行相加,得到最终的特征。
S33、最后将每个人体头部关键点周围W*W的邻域像素块resize到25*25,将头部关键点W/2大小的邻域resize到13*13送入特征映射网络,得到双目相机左右图中每个人头部关键点区域的特征映射。
步骤S4中具体包括:
经过步骤S3后,得到双目相机左右图中所有人体头部区域特征映射。将左图中检测到的k个人的头部关键点区域的特征和右图中检测到的k个人的头部关键点使用点积距离计算公式进行相似度度量,最后使用二分匹配的方法求得k对匹配的人体,根据头部关键点相关联的人体骨骼关键点坐标,可以求得k对人体骨骼关键点匹配点对。
步骤S5具体包括:
经过步骤S4后,得到双目相机左右图中k对人体骨骼关键点对,以第i个关键点为例,计算对应关键点对的视差值di,根据双目相机的基线
b和相机内参中的焦距f,可根据下式计算出左图中某关键点对应的深度值Zi:
最终可得到相机视野内检测到的所有人的2D人体关键点在像素坐标系下每个关键点对应的坐标[ui,vi,Zi],完成多人人体3D骨骼关键点的定位。
本发明的优点有:
本发明采用双目相机对多人人体骨骼关键点进行3D定位,相较于单目预测的方案的场景泛化能力不足,使用双目相机能稳定的获得不同场景下的3D信息,所得的3D人体骨骼关键点精度更高。相较于多视角的方案,本方案在定位精度一致的情况下,定位系统搭建复杂度大大降低,在商用场景下成本更低。使用本发明可以以较低的成本在不同场景下获得准确的多人人体3D骨骼关键点,在安防,人机交互,虚拟现实领域有极大的应用价值。
附图说明
为了更清楚地说明本发明技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为本发明的基于双目相机的多人人体3D骨骼关键点定位方法流程示意图;
图2为本发明的实施例中中对双目相机中左右目图像进行平行极线矫正的效果对比图;
图3为本发明的实施例中,通过多人人体2D骨骼关键点检测算法从输入图片中检测出的2D人体骨骼关键点及骨骼关键点连接示意图;
图4为像素点邻域特征映射及像素点匹配示意图;
图5为本发明的实施例中,通过完成匹配的2D骨骼关键点检测结果得到的3D人体骨骼关键点及关键点连接可视化样例。
具体实施方式
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
根据本发明的具体实施步骤,具体实施如下:
步骤S1、首先使用双目极线平行矫正算法对从双目相机中获取的左右目图像进行双目极线矫正,使其符合平行极线假设,矫正前后对比效果如图2所示,图2上半部分为矫正前的双目图像,下半部分为矫正后的双目图像。
步骤S2、使用基于CenterNet多人人体2D骨骼关键点检测框架和HR-Net多分辨特征提取网络的融合算法对双目相机左右目图像进行2D人体骨骼关键点检测,得到左右图像中每个人的人体关键点在图像中的坐标[ui,vi],该步骤效果展示样例如图3所示。
步骤S3、将人体特征定义为人体头部关键点区域的邻域特征,使用像素邻域特征映射算法将检测到的人体头部区域进行特征映射;
步骤S4、度量双目相机左右图像中每个人的人头区域特征的相似度并进行人体匹配,相似度计算示意图如图4所示;
步骤S5、根据匹配到的人体2D关键点对,使用双目测距的方法定位人体骨骼关键点3D坐标,最终的效果展示样例如图5所示。
Claims (6)
1.一种基于双目相机的多人人体3D骨骼关键点定位方法,其特征在于,具体按照以下步骤实施:
步骤S1、使用双目相机获取符合平行极线假设的双目RGB左右图像;
步骤S2、使用多人人体2D骨骼关键点检测算法检测出双目相机左右图中的多人2D人体骨骼关键点;
步骤S3、将人体特征定义为人体头部关键点区域的邻域特征,使用像素邻域特征映射算法将检测到的人体头部区域进行特征映射;
步骤S4、度量双目相机左右图像中每个人的人头区域特征的相似度并进行人体匹配;
步骤S5、根据匹配到的人体2D关键点对,使用双目测距的方法定位人体骨骼关键点3D坐标。
2.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法,其特征在于,所述步骤S1具体过程为:使用双目相机获取双目RGB图像,根据双目相机的相机内外参数对双目RGB图像进行平行极线矫正,使其符合平行极线假设。
3.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法,其特征在于,所述步骤S2具体过程为:基于CenterNet多人人体2D骨骼关键点检测框架和HR-Net多分辨特征提取网络的融合算法对双目相机左右目图像进行2D人体骨骼关键点检测,得到左右图像中每个人的人体关键点在图像中的坐标。
4.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法,其特征在于,所述步骤S3具体过程为:
S31、根据步骤S2中检测到的每个人的2D骨骼关键点,选取头部关键点区域作为人体特征的描述区域,保证人体特征的唯一性;根据每个人的2D人体骨骼关键点的分布范围,构造出粗略的人体包围框,根据左右图中人体包围框的宽度均值W作为头部关键点特征区域大小。
S32、基于卷积神经网络,训练一个以像素匹配为目的的像素邻域特征映射网络模型。该网络模型的训练流程为:
S321、训练数据选择KITTI-Stereo数据集作为训练源数据,还需要选择特征相似度度量方法,定义正负样本对选取方式及正负样本对相似度标签的定义。
选用以点积为表现形式的相关性距离作为特征的相似度度量方法:
a·b=|a||b|cosθ
正负样本及相似度标签定义的方法如下:
以左图中某点为源像素块,在右图中根据KITTI数据集的Groundtruth视差值定义目标像素块与源像素块是否为正样本,具体的定义方法为:将在源像素块视差真值的3像素误差内的目标像素块定义为正样本,其他的定义为负样本,根据点积距离的特性,特征越相似,值越趋近于1,特征越不相似,值越趋近于0,故将正样本标签定义为1,负样本标签定义为0。
S322、特征提取网络部分,选择关键点25*25的邻域和13*13的邻域作为输入,通过多分辨率输入提高像素点邻域的特征丰富度,13*13的像素邻域分支使用6层无padding的3*3卷积,最终得到1*64维的特征;25*25邻域分支使用6层膨胀度为2的无padding的3*3膨胀卷积,最终得到1*64维的特征,对两个分支得到的特征进行相加,得到最终的特征。
S33、最后将每个人体头部关键点周围W*W的邻域像素块resize到25*25,将头部关键点W/2大小的邻域resize到13*13送入特征映射网络,得到双目相机左右图中每个人头部关键点区域的特征映射。
5.如权利要求1所述的一种基于双目相机的多人人体3D骨骼关键点定位方法,其特征在于,所述步骤S4具体过程为:经过步骤S3后,得到双目相机左右图中所有人体头部区域特征映射。将左图中检测到的k个人的头部关键点区域的特征和右图中检测到的k个人的头部关键点使用点积距离计算公式进行相似度度量,最后使用二分匹配的方法求得k对匹配的人体,根据头部关键点相关联的人体骨骼关键点坐标,可以求得k对人体骨骼关键点匹配点对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353130.5A CN112329723A (zh) | 2020-11-27 | 2020-11-27 | 一种基于双目相机的多人人体3d骨骼关键点定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353130.5A CN112329723A (zh) | 2020-11-27 | 2020-11-27 | 一种基于双目相机的多人人体3d骨骼关键点定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329723A true CN112329723A (zh) | 2021-02-05 |
Family
ID=74309063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011353130.5A Pending CN112329723A (zh) | 2020-11-27 | 2020-11-27 | 一种基于双目相机的多人人体3d骨骼关键点定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329723A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610969A (zh) * | 2021-08-24 | 2021-11-05 | 国网浙江省电力有限公司双创中心 | 一种三维人体模型生成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101789125A (zh) * | 2010-01-26 | 2010-07-28 | 北京航空航天大学 | 一种无标记单目视频人体骨架运动跟踪方法 |
CN107273846A (zh) * | 2017-06-12 | 2017-10-20 | 江西服装学院 | 一种人体体型参数确定方法及装置 |
CN109840500A (zh) * | 2019-01-31 | 2019-06-04 | 深圳市商汤科技有限公司 | 一种三维人体姿态信息检测方法及装置 |
US20190301861A1 (en) * | 2018-03-02 | 2019-10-03 | TuSimple | Method and apparatus for binocular ranging |
CN110544301A (zh) * | 2019-09-06 | 2019-12-06 | 广东工业大学 | 一种三维人体动作重建系统、方法和动作训练系统 |
-
2020
- 2020-11-27 CN CN202011353130.5A patent/CN112329723A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101789125A (zh) * | 2010-01-26 | 2010-07-28 | 北京航空航天大学 | 一种无标记单目视频人体骨架运动跟踪方法 |
CN107273846A (zh) * | 2017-06-12 | 2017-10-20 | 江西服装学院 | 一种人体体型参数确定方法及装置 |
US20190301861A1 (en) * | 2018-03-02 | 2019-10-03 | TuSimple | Method and apparatus for binocular ranging |
CN109840500A (zh) * | 2019-01-31 | 2019-06-04 | 深圳市商汤科技有限公司 | 一种三维人体姿态信息检测方法及装置 |
CN110544301A (zh) * | 2019-09-06 | 2019-12-06 | 广东工业大学 | 一种三维人体动作重建系统、方法和动作训练系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610969A (zh) * | 2021-08-24 | 2021-11-05 | 国网浙江省电力有限公司双创中心 | 一种三维人体模型生成方法、装置、电子设备及存储介质 |
CN113610969B (zh) * | 2021-08-24 | 2024-03-08 | 国网浙江省电力有限公司双创中心 | 一种三维人体模型生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107392964B (zh) | 基于室内特征点和结构线结合的室内slam方法 | |
CN102880866B (zh) | 一种人脸特征提取方法 | |
WO2017099097A1 (en) | Method and system for detecting and localizing object and slam method | |
WO2018019272A1 (zh) | 基于平面检测实现增强现实的方法及装置 | |
CN110555412A (zh) | 基于rgb和点云相结合的端到端人体姿态识别方法 | |
CN114627491A (zh) | 一种基于极线汇聚的单人三维姿态估计方法 | |
CN111508030A (zh) | 一种计算机视觉的立体匹配方法 | |
CN113393524B (zh) | 一种结合深度学习和轮廓点云重建的目标位姿估计方法 | |
CN107374638A (zh) | 一种基于双目视觉模块的身高测量系统及方法 | |
CN115376034A (zh) | 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置 | |
CN111105451B (zh) | 一种克服遮挡效应的驾驶场景双目深度估计方法 | |
Hung et al. | Multipass hierarchical stereo matching for generation of digital terrain models from aerial images | |
CN112329723A (zh) | 一种基于双目相机的多人人体3d骨骼关键点定位方法 | |
CN111429571B (zh) | 一种基于时空图像信息联合相关的快速立体匹配方法 | |
CN111197976A (zh) | 一种顾及弱纹理区域多阶段匹配传播的三维重建方法 | |
Kim et al. | Fast stereo matching of feature links | |
Zhao et al. | Geometrical-analysis-based algorithm for stereo matching of single-lens binocular and multi-ocular stereovision system | |
Park et al. | A tensor voting approach for multi-view 3D scene flow estimation and refinement | |
CN113487726B (zh) | 动作捕捉系统和方法 | |
Chen et al. | End-to-end multi-view structure-from-motion with hypercorrelation volume | |
Liu et al. | Improved template matching based stereo vision sparse 3D reconstruction algorithm | |
Fan et al. | Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation in Outdoor Scenes | |
CN112836544A (zh) | 一种新型的坐姿检测方法 | |
CN113449681B (zh) | 一种联合注意力机制的3d人体姿态识别双分支网络模型 | |
CN113379663B (zh) | 一种空间定位方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210205 |