CN109377513A - 一种针对两视图的全局三维人体姿态可信估计方法 - Google Patents

一种针对两视图的全局三维人体姿态可信估计方法 Download PDF

Info

Publication number
CN109377513A
CN109377513A CN201811101723.5A CN201811101723A CN109377513A CN 109377513 A CN109377513 A CN 109377513A CN 201811101723 A CN201811101723 A CN 201811101723A CN 109377513 A CN109377513 A CN 109377513A
Authority
CN
China
Prior art keywords
artis
bone
estimation
long
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811101723.5A
Other languages
English (en)
Other versions
CN109377513B (zh
Inventor
刘新国
李妙鹏
周子孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Phase Core Technology Co Ltd
Zhejiang University ZJU
Original Assignee
Hangzhou Phase Core Technology Co Ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Phase Core Technology Co Ltd, Zhejiang University ZJU filed Critical Hangzhou Phase Core Technology Co Ltd
Priority to CN201811101723.5A priority Critical patent/CN109377513B/zh
Publication of CN109377513A publication Critical patent/CN109377513A/zh
Application granted granted Critical
Publication of CN109377513B publication Critical patent/CN109377513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于两视图的全局三维人体姿态可信估计方法,可用于无标记人体动作捕捉。本发明的核心创新点如下:首先,本发明提出基于两视图对极几何约束和人体骨长约束进行不可靠关节点检测。其次,本发明提出基于网络估计出的关节点置信度图,对极线约束,骨长约束进行不可靠关节的矫正。最后,本发明提出了简单,高效的相机外参自动标定技术和骨长计算方法。本发明在不利用人体模型或假设任何人体先验知识的情况下,可以实现对不同体形的任何人进行稳定可信地二维和全局三维人体姿态估计。本发明生成的姿态满足两视图对极几何约束和人体骨长约束,实现了在严重遮挡,对称歧义,运动模糊等极具挑战的场景下鲁棒可信的人体姿态估计。

Description

一种针对两视图的全局三维人体姿态可信估计方法
技术领域
给定两幅以人为主体的视图,本发明旨在估计满足对极几何约束约束和骨长约束的可信三维人体姿态。首先,本发明提出利用两视图对极几何约束和人体骨长约束检测不可靠关节点估计的方法。其次,本发明提出对极线约束和骨长约束进行不可靠关节的矫正方法。最后,本发明提出自动的相机外参标定和骨长计算方法。对于人体姿态估计中严重遮挡,对称歧义,运动模糊等挑战,本发明实现了鲁棒可信的姿态估计。本发明在不利用人体模型或假设任何人体先验知识的情况下,可以实现对不同骨架尺寸,比例的任何人进行稳定,可信的二维和全局三维人体姿态估计。
背景技术
现有的三维人体姿态估计方法根据输入数据不同可以分为:基于单目RGB图像(序列);基于深度图像(序列);和基于多视图图像(序列)。基于单目RGB图像(序列)进行三维人体姿态估计是一个严重约束不足的问题,系统的观测输入为复杂自然图像,状态输出为高维人体姿态,由观测输入到状态输出过程是高度非线性的。3D姿态训练数据集的不足、不同人体尺寸和比例的差异、以及三维姿态空间的高维度,都使得三维姿态重建的可信性成为亟待解决的关键问题。基于深度图像(序列)的三维人体姿态估计方法有效缓解了基于单目图像方法的深度歧义问题。现有的基于深度的人体姿态估计方法所采用的深度图通常来自ToF相机或Kinect传感器。然而,Kinect和ToF都是主动传感器,因此仅限于没有红外线干扰的室内场景,并且只能在有限的范围内工作。基于多视图图像(序列)的方法可以有效克服单目三维姿态估计中的困难,并构建一个更真实适用的姿态估计系统。但现有的多视图方法通常都是独立地估计二维姿态和三维姿态,因此不能充分利用多视图三维几何信息。这些的方法的结果可能不满足多视图几何约束。
目前为止的三维姿态估计方法在获取关节点深度信息方面都依赖于骨架模型和训练数据。骨架模型提供关节点之间几何约束,训练数据则提供了二维姿态与深度之间的统计关系。然而,三维姿态数据集获取困难、规模小;同时三维姿态的状态参数维度高、个体身材比例和大小的差异大。这导致三维姿态估计结果的可信度无法保证。
发明内容
本发明的目的是针对现有技术的不足,提供一种可信的三维人体姿态估计方法。
本发明是通过以下技术方案实现的:一种针对两视图的三维人体姿态可信估计方法,包括以下步骤:一种针对两视图的可信三维人体姿态估计方法,包括以下步骤:
(1)从左右两个相机中分别获取N帧图像;利用N组一一对应的左右两个视图,分别进行二维人体姿态的初步估计,得到N组关节点的初始二维位置;
每一组关节点中包含人体的14个关节点。各个关节点名称如下:<Head,Neck,Shoulder.L,Elbow.L,Wrist.L,Shoulder.R,Elbow.R,Wrist.R,Hip.L,Knee.L,Ankle.L,Hip.R,Knee.R,Ankle.R>,关节点对应编号依次为<1,2,3,4,5,6,7,8,9,10,11,12,13,14>,各关节点对应的父关节点编号依次为<#,1,2,3,4,2,6,7,2,9,10,2,12,13>。其中#表示无父节点,关节点9(Hip.L)和关节点13(Hip.R)与父关节点(Neck)之间不形成固定骨长,其余关节点与父关节点之间均形成具有固定骨长的骨头,共11段骨头,标记为<b1,...,b11>;
所述二维人体姿态初步估计,以一张RGB图像作为输入,采用级联的全卷积神经网络模型回归14个关节点的置信度图Sj,j∈{1,2,...,14},关节点j的初始二维坐标通过选取置信度图中置信度最大值所对应的像素点获得,即关节点j的坐标xj为:
Sj(x)为置信图中像素点x的置信度;
(2)根据步骤1获得的N组关节点的初始二维位置;即N*14个来自左右两个视图的关节点对,利用这些匹配关节点对的初始二维位置,以及两个相机内参K1,K2(已知或预先标定),估计左右两视图对应的本征矩阵E,对本征矩阵E分解得到相机外参M1,M2。由相机内参K1,K2和外参M1,M2进一步得到左右两视图各自的相机投影矩阵P1=K1M1,P2=K2M2
(3)根据步骤1获得的N组关节点的初始二维位置,以及步骤2获得的相机投影矩阵,采用线性三角化技术得到这N组关节点的初始三维位置。利用每段骨头对应的两个关节点的三维位置,分别获得骨长信息,总共得到N组骨长信息;每一组骨长信息中,包含人体的11个骨长数据;针对每一个骨头bi,取N组骨长信息中对应位置的骨长数据的中位数作为该位置的骨长的可靠估计,记为
(4)检测和矫正不可靠关节点
(4.1)利用对极几何准则和骨长准则检测不可靠关节点:
所述对极几何准则来源于两视图对极几何约束,该准则定义如下:
对于关节点j,计算xj,1和xj,2到相应对极线lj,1和lj,2的最大距离,
UE(j)=max{d(xj,1,lj,1),d(xj,2,lj,2)}
其中,xj,1和xj,2分别为关节点j在左右视图中的位置,
lj,1=FTxj,2,lj,2=Fxj,1是左右两视图对应的基础矩阵。d(x,l)计算图像上点x到直线l的垂直距离。
若:
UE(j)>η1
η1=12(像素),则<xj,1,xj,2>不满足放松的对极几何约束条件,是不可靠估计。
若该关节点的父关节点不是可靠的且矫正之后任然不可靠,则仅以对极几何准则判断该关节点的可靠性,否则进一步利用骨长准则检测关节点j的可靠性。所述骨长准则如下:
不失一般性,假定关节点j与其父关节点k之间形成骨头bi,对应骨长的可靠估计为
定义关节点j的二维初始坐标<xj,1,xj,2>经过三角化得到三维初始坐标为Xj,父关节点的三维位置为Xk,骨长准则计算与骨长之间的差异,表示Xj,Xk之间的欧氏距离,即:
对于关节点j,若
η2=0.1,即<xj,1,xj,2>不满足放松的骨长约束,是不可靠估计。
(4.2)矫正不可靠关节点:
对于一对不可靠估计<xj,1,xj,2>,比较xj,1和xj,2的置信度大小,以置信度大的作为正确估计,另一个为错误估计。不失一般性,假定视图1提供正确估计,视图2为错误估计,即xj,1为正确估计,xj,2为错误估计。
若该关节点j的父关节点可靠,或经校准后可靠,则以骨长矫正方法进行矫正。假定关节点j的父关节点为k,两者之间形成骨头bi,对应骨长为骨长矫正方法如下:
将寻找最优二维估计xj,2的问题转化为在世界坐标系中寻找一个三维点Xj满足相机投影模型及骨长约束的优化问题,即
s.t.P1Xj=xj,1
P1是视图1对应的投影矩阵。
该优化问题的几何形式如下:在由图像点xj,1经过P1反投影的三维射线上寻找一个点Xj满足或者距离Xk最近。可通过投影得到的三维射线与以Xk为球心,为半径的球的交点或者距离球心最近的点求解。区分两者情况:射线与球没有交点或有交点。对于第一种情况(没有交点),最优点Xj选取射线上距离Xk最近的点。对于第二种情况下(有交点),设两个交点分别为A,B,将这两个交点均重投影到视图2(不可靠视图)得到P2A,P2B,这里,P2是视图2对应的投影矩阵。比较这两个二维点的置信度Sj,2(P2A)和Sj,2(P2B),选取对应置信度高的点作为最优估计Xj。得到最优三维估计Xj之后,将该三维坐标Xj投影到视图2(不可靠视图)得到最优二维估计P2Xj,对xj,2进行更新,即:
xj,2←P2Xj
否则采用对极几何方法进行校正,矫正过程如下:
计算正确估计xj,1在不可靠视图上的对极线lj,2=Fxj,1,选取该对极线上置信度最高的像素点作为最优二维估计,对xj,2进行更新,即:
s.t.xT1j,2=0
Sj,2(x)表示视图2中关节点j的置信图中像素点x的置信度;
所述父节点的可靠性通过以下方法评估:
利用对极几何准则和骨长准则进行评估,若
UE(j)<η1
且Sj,1(xj,1)+Sj,2(xj,2)>η3
这里,η3=0.2,则称关节点j是可靠的,可以为其子节点的可靠性检测和矫正提供依据。
(6)三维人体姿态恢复。经过步骤4得到左右两视图可靠的二维姿态估计之后,结合步骤2估计的相机投影矩阵,采用线性三角化技术实现从两视图的可靠二维姿态到三维姿态的恢复。
本发明的有益效果在于:能够实现严重遮挡,对称歧义,运动模糊等复杂场景下三维人体姿态的鲁邦估计;可以实现对不同骨架尺寸,比例的人进行自动的二维和全局三维人体姿态的可信估计估计;可以实现对快速运动场景下的稳定鲁邦的姿态跟踪。
附图说明
图1:本发明的方法流程图。主要包括基于卷积神经网络(CNN)的初始二维人体估计,姿态矫正及三维姿态恢复两个核心环节。
图2:二维人体姿态估计网络结构图。本发明采用多阶段级联的卷积神经网络回归关节点的置信度图。每个阶段均输出置信度图,预测结果经过下采样后与特征图进行拼接作为下一阶段的输入。
图3:人体骨架模型示意图。本发明考虑由14个关节点和11根骨头构成的人体骨架。
图4:骨长直方图分布图。其中,箭头所指的为中位数位置;
图5:二维人体姿态估计网络在严重遮挡(a),对称歧义(b),运动模糊(c)等情况下预测的关节点置信度图;
图6:不可靠关节点对示意图。
图7:基于对极几何约束不可靠关节点检测方法失败案例
图8:基于骨长的不可靠关节矫正方法示意图。
图9:a~c为Human3.6M数据集上的部分实验结果图,d~f为HumanEva-I上的实验结果,g~i为KTH Multiview Football II上的实验结果
图10:本发明在使用姿态矫正前后的二维和三维姿态估计结果对比。可以看出,针对初始二维姿态估计在严重遮挡(a),对称歧义(b),运动模糊(c)等情况下的错误估计,本发明可以有效的检测并进行矫正。
图11:本发明实现的无标记动作捕捉系统示意图及部分室内,室外动作捕捉结果。
具体实施方式
一种针对两视图的三维人体姿态可信估计方法,包括以下步骤:
(1)从左右两个相机中分别获取N帧图像(N≥100);利用N组一一对应的左右两个视图,分别进行二维人体姿态的初步估计,得到N组关节点的初始二维位置;
每一组关节点中包含人体的14个关节点。根据现有的记载,各个关节点名称如下:<Head,Neck,Shoulder.L,Elbow.L,Wrist.L,Shoulder.R,Elbow.R,Wrist.R,Hip.L,Knee.L,Ankle.L,Hip.R,Knee.R,Ankle.R>,如图3所示。关节点对应编号依次为<1,2,3,4,5,6,7,8,9,10,11,12,13,14>,各关节点对应的父关节点编号依次为<#,1,2,3,4,2,6,7,2,9,10,2,12,13>。其中#表示无父节点,关节点9(Hip.L)和关节点13(Hip.R)与父关节点(Neck)之间不形成固定骨长,其余关节点与父关节点之间均形成具有固定骨长的骨头,共得到如图3所示的11段骨头,标记为<b1,...,b11>;
所述二维人体姿态初步估计,以一张RGB图像作为输入,采用全卷积神经网络模型回归14个关节点的置信度图Sj,j∈{1,...,14}。网络结构如图2所示,采用VGG网络对输入图像进行特征提取,得到特征图,再采用多阶段级联的卷积神经网络回归关节点的置信度图。每个阶段均预测置14个关节点的置信度图,预测结果经过下采样后与特征图进行拼接作为下一阶段的输入。
关节点j的初始二维坐标通过选取置信度图中置信度最大值所对应的像素点获得,即关节点j的坐标xj为:
Sj(x)为置信图中像素点x的置信度;
(2)根据步骤1获得的N组关节点的初始二维位置;即N*14个来自左右两个视图的关节点对,利用这些匹配关节点对的初始二维位置,以及两个相机内参K1,K2(已知或预先标定),估计左右两视图对应的本征矩阵E,对本征矩阵E分解得到相机外参M1,M2。由相机内参K1,K2和外参M1,M2进一步得到左右两视图各自的相机投影矩阵P1=K1M1,P2=K2M2;此过程通过调用python opencv函数:cv2.undistortPoints,cv2.findEssentialMat和cv2.recoverPose实现。
(3)根据步骤1获得的N组关节点的初始二维位置,以及步骤2获得的相机投影矩阵,采用线性三角化技术得到这N组关节点的初始三维位置。利用每段骨头对应的两个关节点的三维位置,分别获得骨长信息,总共得到N组骨长信息;每一组骨长信息中,包含人体的11个骨长数据。以骨头bi为例,得到的N组骨长信息形成一个骨长集合集合中每个每个元素提供了对bi的一个骨长估计。由于步骤1获得的初始二维位置中存在不可靠估计,所以该集合中包含噪点,如图4所示。因此,选取该集合的中位数作为该骨头bi的可靠骨长估计结果,记为
(4)检测和矫正不可靠关节点
如图5所示,当输入图像中存在严重遮挡(a),对称歧义(b),运动模糊(c)等情况时,步骤1所述的神经网络无法给出关节点置信度图的可靠估计。因此,无法得到关节点的可靠二维初始位置,全节点不可靠的二维估计经过三角化后导致错误的三维位置,如图6所示。
(4.1)利用对极几何准则和骨长准则检测不可靠关节点:
所述对极几何准则来源于两视图对极几何约束,该准则定义如下:
对于关节点j,计算xj,1和xj,2到相应对极线lj,1和lj,2的最大距离,
UE(j)=max{d(xj,1,lj,1),d(xj,2,lj,2)}
其中,xj,1和xj,2分别为关节点j在左右视图中的位置,lj,1=FTxj,2,lj,2=Fxj,1是左右两视图对应的基础矩阵。d(x,l)计算图像上点x到直线l的垂直距离。
若:
UE(j)>η1
η1=12(像素),则<xj,1,xj,2>不满足放松的对极几何约束条件,是不可靠估计。
该准则可用于检测大部分不可靠估计,特殊情况如图7所示,即当错误估计点恰好在对极线上或距对极线非常近的时候,对极约束准则失效。本发明提出如下骨长准则作为补充。
若该关节点的父关节点不是可靠的且矫正之后仍然不可靠,则仅以对极几何准则判断该关节点的可靠性,否则进一步利用骨长准则检测关节点j的可靠性。所述骨长准则如下:
不失一般性,假定关节点j与其父关节点k之间形成骨头bi,对应骨长的可靠估计为
定义关节点j的二维初始坐标<xj,1,xj,2>经过三角化得到三维初始坐标为Xj,父关节点的三维位置为Xk,骨长准则计算||Xj-Xk||2与骨长之间的差异,表示Xj,Xk之间的欧氏距离,即:
对于关节点j,若
η2=0.1,即<xj,1,xj,2>不满足放松的骨长约束,是不可靠估计。
(4.2)矫正不可靠关节点:
对于一对不可靠估计<xj,1,xj,2>,本发明假定至少有一个视图提供了正确的二维初始估计(因为两视图的视角差异足够大,关节点通常在至少一个视图中可见,在这种情况下,步骤(1)通常可以提供非常可靠的初始估计)。本发明首先利用各自关节点对应的置信度区分出正确估计和错误估计。具体方法为:比较xj,1和xj,2的置信度大小,以置信度大的作为正确估计,另一个为错误估计。不失一般性,假定视图1提供正确估计,视图2为错误估计,即xj,1为正确估计,xj,2为错误估计。
若该关节点j的父关节点可靠,或经校准后可靠,则以骨长矫正方法进行矫正。假定关节点j的父关节点为k,两者之间形成骨头bi,对应骨长为骨长矫正方法如下:
将寻找最优二维估计xj,2的问题转化为在世界坐标系中寻找一个三维点Xj满足相机投影模型及骨长约束的优化问题,即
s.t.P1Xj=xj,1
这里,P1是视图1对应的投影矩阵。
该优化问题的几何形式如下:在由图像点xj,1经过P1反投影的三维射线上寻找一个点Xj满足或者距离Xk最近。如图8所示,可通过投影得到的三维射线与以Xk为球心,为半径的球的交点或者距离球心最近的点求解。区分两者情况:射线与球没有交点或有交点:
(a)对于第一种情况(没有交点),最优点Xj选取射线上距离Xk最近的点。
(b)对于第二种情况下(有交点),设两个交点分别为A,B,将这两个交点均重投影到视图2(不可靠视图)得到P2A,P2B,这里,P2是视图2对应的投影矩阵。比较这两个二维点的置信度Sj,2(P2A)和Sj,2(P2B),选取对应置信度高的点作为最优估计Xj
得到最优三维估计Xj之后,将该三维坐标Xj投影到视图2(不可靠视图)得到最优二维估计P2Xj,对xj,2进行更新,即:
xj,2←P2Xj
否则,关节点j的父关节点不可靠,且经校准后仍然不可靠,采用对极几何方法进行校正,矫正过程如下:
计算正确估计xj,1在不可靠视图上的对极线lj,2=Fxj,1,选取该对极线上置信度最高的像素点作为最优二维估计,对xj,2进行更新,即:
s.t.xTlj,2=0
Sj,2(x)表示视图2中关节点j的置信图在像素点x的置信度;
所述父节点的可靠性通过以下方法评估:
利用对极几何准则和骨长准则进行评估,若
UE(j)<η1
且Sj,1(xj,1)+Sj,2(xj,2)>η3
这里,η3=0.2,则称关节点j是可靠的,可以为其子节点的可靠性检测和矫正提供依据。
(6)三维人体姿态恢复。经过步骤4得到左右两视图可靠的二维姿态估计之后,结合步骤2估计的相机投影矩阵,采用线性三角化技术实现从两视图的可靠二维姿态到三维姿态的恢复。得到最终的三维姿态如图1(e)所示。
表1给出了本发明在Human3.6M数据集上的定量评价结果。表中数据采用平均关节点误差MPJPE(Mean Per Joint Position Error)作为评价指标。从实验结果可以看出,本发明提出的方法远远超过了现有的基于单目图像,单目视频,以及多视图的方法。图9给出了本发明在Human3.6M,HumanEva-I及KTH Multiview Football II数据集上的部分实验结果图。可以看出无论是针对室内场景还是室外场景,本发明均可进行有效地姿态估计。
表1
为了进一步说明本发明所提出的不可靠关节点检测以及矫正方法的有效性,图10给出了部分在使用姿态矫正前和矫正后的二维姿态和三维姿态估计结果对比。可以看出,针对初始二维姿态估计在严重遮挡(a),对称歧义(b),运动模糊(c)等情况下的错误估计,本发明可以有效地检测并进行矫正。
图11给出了系统示意图及部分室内,室外动作捕捉结果,本发明不依赖任何人体先验知识,可用于任何场景下不同人的动作捕捉,实现了一个实时,无标记,自动的动作捕捉系统。

Claims (1)

1.一种针对两视图的可信三维人体姿态估计方法,其特征在于,包括以下步骤:
(1)从左右两个相机中分别获取N帧图像;利用N组一一对应的左右两个视图,分别进行二维人体姿态的初步估计,得到N组关节点的初始二维位置;
每一组关节点中包含人体的14个关节点。各个关节点名称如下:<Head,Neck,Shoulder.L,Elbow.L,Wrist.L,Shoulder.R,Elbow.R,Wrist.R,Hip.L,Knee.L,Ankle.L,Hip.R,Knee.R,Ankle.R>,关节点对应编号依次为<1,2,3,4,5,6,7,8,9,10,11,12,13,14>,各关节点对应的父关节点编号依次为<#,1,2,3,4,2,6,7,2,9,10,2,12,13>。其中#表示无父节点,关节点9(Hip.L)和关节点13(Hip.R)与父关节点(Neck)之间不形成固定骨长,其余关节点与父关节点之间均形成具有固定骨长的骨头,共11段骨头,标记为<b1,...,b11>;
所述二维人体姿态初步估计,以一张RGB图像作为输入,采用级联的全卷积神经网络模型回归14个关节点的置信度图Sj,j∈{1,2,...,14},关节点j的初始二维坐标通过选取置信度图中置信度最大值所对应的像素点获得,即关节点j的坐标xj为:
Sj(x)为置信图中像素点x的置信度;
(2)根据步骤1获得的N组关节点的初始二维位置;即N*14个来自左右两个视图的关节点对,利用这些匹配关节点对的初始二维位置,以及两个相机内参K1,K2(已知或预先标定),估计左右两视图对应的本征矩阵E,对本征矩阵E分解得到相机外参M1,M2。由相机内参K1,K2和外参M1,M2进一步得到左右两视图各自的相机投影矩阵P1=K1M1,P2=K2M2
(3)根据步骤1获得的N组关节点的初始二维位置,以及步骤2获得的相机投影矩阵,采用线性三角化技术得到这N组关节点的初始三维位置。利用每段骨头对应的两个关节点的三维位置,分别获得骨长信息,总共得到N组骨长信息;每一组骨长信息中,包含人体的11个骨长数据;针对每一个骨头bi,取N组骨长信息中对应位置的骨长数据的中位数作为该位置的骨长的可靠估计,记为
(4)检测和矫正不可靠关节点
(4.1)利用对极几何准则和骨长准则检测不可靠关节点:
所述对极几何准则来源于两视图对极几何约束,该准则定义如下:
对于关节点j,计算xj,1和xj,2到相应对极线lj,1和lj,2的最大距离,
UE(j)=max{d(xj,1,lj,1),d(xj,2,lj,2)}
其中,xj,1和xj,2分别为关节点j在左右视图中的位置,lj,1=FTxj,2,lj,2=Fxj,1是左右两视图对应的基础矩阵。d(x,l)计算图像上点x到直线l的垂直距离。
若:
UE(j)>η1
η1=12(像素),则<xj,1,xj,2>不满足放松的对极几何约束条件,是不可靠估计。
若该关节点的父关节点不是可靠的且矫正之后任然不可靠,则仅以对极几何准则判断该关节点的可靠性,否则进一步利用骨长准则检测关节点j的可靠性。所述骨长准则如下:
不失一般性,假定关节点j与其父关节点k之间形成骨头bi,对应骨长的可靠估计为
定义关节点j的二维初始坐标<xj,1,xj,2>经过三角化得到三维初始坐标为Xj,父关节点的三维位置为Xk,骨长准则计算||Xj-Xk||2与骨长之间的差异,||Xj-Xk||2表示Xj,Xk之间的欧氏距离,即:
对于关节点j,若
η2=0.1,即<xj,1,xj,2>不满足放松的骨长约束,是不可靠估计。
(4.2)矫正不可靠关节点:
对于一对不可靠估计<xj,1,xj,2>,比较xj,1和xj,2的置信度大小,以置信度大的作为正确估计,另一个为错误估计。不失一般性,假定视图1提供正确估计,视图2为错误估计,即xj,1为正确估计,xj,2为错误估计。
若该关节点j的父关节点可靠,或经校准后可靠,则以骨长矫正方法进行矫正。假定关节点j的父关节点为k,两者之间形成骨头bi,对应骨长为骨长矫正方法如下:
将寻找最优二维估计xj,2的问题转化为在世界坐标系中寻找一个三维点Xj满足相机投影模型及骨长约束的优化问题,即
s.t.P1Xj=xj,1
P1是视图1对应的投影矩阵。
该优化问题的几何形式如下:在由图像点xj,1经过P1反投影的三维射线上寻找一个点Xj满足或者距离Xk最近。可通过投影得到的三维射线与以Xk为球心,为半径的球的交点或者距离球心最近的点求解。区分两者情况:射线与球没有交点或有交点。对于第一种情况(没有交点),最优点Xj选取射线上距离Xk最近的点。对于第二种情况下(有交点),设两个交点分别为A,B,将这两个交点均重投影到视图2(不可靠视图)得到P2A,P2B,这里,P2是视图2对应的投影矩阵。比较这两个二维点的置信度Sj,2(P2A)和Sj,2(P2B),选取对应置信度高的点作为最优估计Xj。得到最优三维估计Xj之后,将该三维坐标Xj投影到视图2(不可靠视图)得到最优二维估计P2Xj,对xj,2进行更新,即:
xj,2←P2Xj
否则采用对极几何方法进行校正,矫正过程如下:
计算正确估计xj,1在不可靠视图上的对极线lj,2=Fxj,1,选取该对极线上置信度最高的像素点作为最优二维估计,对xj,2进行更新,即:
s.t. xTlj,2=0
Sj,2(x)表示视图2中关节点j的置信图中像素点x的置信度;
所述父节点的可靠性通过以下方法评估:
利用对极几何准则和骨长准则进行评估,若
UE(j)<η1
且Sj,1(xj,1)+Sj,2(xj,2)>η3
这里,η3=0.2,则称关节点j是可靠的,可以为其子节点的可靠性检测和矫正提供依据。
(6)三维人体姿态恢复。经过步骤4得到左右两视图可靠的二维姿态估计之后,结合步骤2估计的相机投影矩阵,采用线性三角化技术实现从两视图的可靠二维姿态到三维姿态的恢复。
CN201811101723.5A 2018-09-20 2018-09-20 一种针对两视图的全局三维人体姿态可信估计方法 Active CN109377513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811101723.5A CN109377513B (zh) 2018-09-20 2018-09-20 一种针对两视图的全局三维人体姿态可信估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811101723.5A CN109377513B (zh) 2018-09-20 2018-09-20 一种针对两视图的全局三维人体姿态可信估计方法

Publications (2)

Publication Number Publication Date
CN109377513A true CN109377513A (zh) 2019-02-22
CN109377513B CN109377513B (zh) 2021-04-27

Family

ID=65405688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811101723.5A Active CN109377513B (zh) 2018-09-20 2018-09-20 一种针对两视图的全局三维人体姿态可信估计方法

Country Status (1)

Country Link
CN (1) CN109377513B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977827A (zh) * 2019-03-17 2019-07-05 浙江大学 一种使用多视图匹配方法的多人三维姿态估计方法
CN110020611A (zh) * 2019-03-17 2019-07-16 浙江大学 一种基于三维假设空间聚类的多人动作捕捉方法
CN110458940A (zh) * 2019-07-24 2019-11-15 兰州未来新影文化科技集团有限责任公司 动作捕捉的处理方法和处理装置
CN111476828A (zh) * 2020-03-27 2020-07-31 清华大学 多视点动物群体跟踪方法及装置
CN111932630A (zh) * 2020-07-21 2020-11-13 清华大学 基于图像识别的面向人员送风的调控方法及装置
CN112232106A (zh) * 2020-08-12 2021-01-15 北京工业大学 一种二维到三维人体姿态估计方法
CN112233222A (zh) * 2020-09-29 2021-01-15 深圳市易尚展示股份有限公司 基于神经网络关节点估计的人体参数化三维模型变形方法
CN112416133A (zh) * 2020-11-30 2021-02-26 魔珐(上海)信息科技有限公司 手部动作捕捉方法、装置、电子设备及存储介质
CN113066169A (zh) * 2021-04-14 2021-07-02 湘潭大学 一种基于骨骼长度约束的人体三维姿态重建方法及系统
CN113192186A (zh) * 2021-05-19 2021-07-30 华中科技大学 基于单帧图像的3d人体姿态估计模型建立方法及其应用
JPWO2022180706A1 (zh) * 2021-02-25 2022-09-01
CN111932630B (zh) * 2020-07-21 2024-08-02 清华大学 基于图像识别的面向人员送风的调控方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194105A (zh) * 2010-03-19 2011-09-21 微软公司 用于人体跟踪的代表训练数据
KR20140114741A (ko) * 2013-03-19 2014-09-29 삼성전자주식회사 인체 포즈 추정 장치 및 방법
US20180247429A1 (en) * 2012-09-17 2018-08-30 Nec Laboratories America, Inc. Real-time monocular structure from motion
CN108604380A (zh) * 2016-05-03 2018-09-28 谷歌有限责任公司 用于在移动设备上获得成对极线约束和解决全景姿态的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194105A (zh) * 2010-03-19 2011-09-21 微软公司 用于人体跟踪的代表训练数据
US20180247429A1 (en) * 2012-09-17 2018-08-30 Nec Laboratories America, Inc. Real-time monocular structure from motion
KR20140114741A (ko) * 2013-03-19 2014-09-29 삼성전자주식회사 인체 포즈 추정 장치 및 방법
CN108604380A (zh) * 2016-05-03 2018-09-28 谷歌有限责任公司 用于在移动设备上获得成对极线约束和解决全景姿态的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DYLAN DROVER ET AL.: "Can 3D Pose be Learned from 2D Projections Alone?", 《EUROPEAN CONFERENCE ON COMPUTER VISION,2018》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020611B (zh) * 2019-03-17 2020-12-08 浙江大学 一种基于三维假设空间聚类的多人动作捕捉方法
CN110020611A (zh) * 2019-03-17 2019-07-16 浙江大学 一种基于三维假设空间聚类的多人动作捕捉方法
CN109977827A (zh) * 2019-03-17 2019-07-05 浙江大学 一种使用多视图匹配方法的多人三维姿态估计方法
CN109977827B (zh) * 2019-03-17 2020-11-13 浙江大学 一种使用多视图匹配方法的多人三维姿态估计方法
CN110458940A (zh) * 2019-07-24 2019-11-15 兰州未来新影文化科技集团有限责任公司 动作捕捉的处理方法和处理装置
CN110458940B (zh) * 2019-07-24 2023-02-28 兰州未来新影文化科技集团有限责任公司 动作捕捉的处理方法和处理装置
CN111476828A (zh) * 2020-03-27 2020-07-31 清华大学 多视点动物群体跟踪方法及装置
CN111476828B (zh) * 2020-03-27 2023-01-10 清华大学 多视点动物群体跟踪方法及装置
CN111932630B (zh) * 2020-07-21 2024-08-02 清华大学 基于图像识别的面向人员送风的调控方法及装置
CN111932630A (zh) * 2020-07-21 2020-11-13 清华大学 基于图像识别的面向人员送风的调控方法及装置
CN112232106A (zh) * 2020-08-12 2021-01-15 北京工业大学 一种二维到三维人体姿态估计方法
CN112232106B (zh) * 2020-08-12 2024-07-05 北京工业大学 一种二维到三维人体姿态估计方法
CN112233222A (zh) * 2020-09-29 2021-01-15 深圳市易尚展示股份有限公司 基于神经网络关节点估计的人体参数化三维模型变形方法
CN112416133A (zh) * 2020-11-30 2021-02-26 魔珐(上海)信息科技有限公司 手部动作捕捉方法、装置、电子设备及存储介质
CN112416133B (zh) * 2020-11-30 2021-10-15 魔珐(上海)信息科技有限公司 手部动作捕捉方法、装置、电子设备及存储介质
WO2022180706A1 (ja) * 2021-02-25 2022-09-01 三菱電機株式会社 体格判定装置および体格判定方法
JPWO2022180706A1 (zh) * 2021-02-25 2022-09-01
JP7374373B2 (ja) 2021-02-25 2023-11-06 三菱電機株式会社 体格判定装置および体格判定方法
CN113066169B (zh) * 2021-04-14 2022-06-07 湘潭大学 一种基于骨骼长度约束的人体三维姿态重建方法及系统
CN113066169A (zh) * 2021-04-14 2021-07-02 湘潭大学 一种基于骨骼长度约束的人体三维姿态重建方法及系统
CN113192186A (zh) * 2021-05-19 2021-07-30 华中科技大学 基于单帧图像的3d人体姿态估计模型建立方法及其应用

Also Published As

Publication number Publication date
CN109377513B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN109377513A (zh) 一种针对两视图的全局三维人体姿态可信估计方法
WO2021233029A1 (en) Simultaneous localization and mapping method, device, system and storage medium
CN111462200B (zh) 一种跨视频行人定位追踪方法、系统及设备
CN109658449B (zh) 一种基于rgb-d图像的室内场景三维重建方法
CN107025668B (zh) 一种基于深度相机的视觉里程计的设计方法
EP2707834B1 (en) Silhouette-based pose estimation
KR100513055B1 (ko) 변이지도 및 깊이지도의 융합을 통한 3차원 장면 모델생성 장치 및 그 방법
CN110310320A (zh) 一种双目视觉匹配代价聚合优化方法
CN103337094A (zh) 一种应用双目摄像机实现运动三维重建的方法
US11727637B2 (en) Method for generating 3D skeleton using joint-based calibration acquired from multi-view camera
CN104021538A (zh) 物体定位方法和装置
CN109086795A (zh) 一种图像误匹配精确剔除方法
CN108537844A (zh) 一种融合几何信息的视觉slam回环检测方法
US11062521B2 (en) Virtuality-reality overlapping method and system
CN107560592A (zh) 一种用于光电跟踪仪联动目标的精确测距方法
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
Islam et al. Stereo vision-based 3D positioning and tracking
CN111915651B (zh) 基于数字影像地图与特征点跟踪的视觉位姿实时估计方法
CN116468786B (zh) 一种面向动态环境的基于点线联合的语义slam方法
CN114627491A (zh) 一种基于极线汇聚的单人三维姿态估计方法
Zhao et al. Double propagation stereo matching for urban 3-d reconstruction from satellite imagery
CN115100744A (zh) 一种羽毛球比赛人体姿态估计和球路追踪方法
CN116128966A (zh) 一种基于环境物体的语义定位方法
CN115359130A (zh) 雷达和相机的联合标定方法、装置、电子设备及存储介质
Germann et al. Space-time body pose estimation in uncontrolled environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant