CN109977827B

CN109977827B - 一种使用多视图匹配方法的多人三维姿态估计方法

Info

Publication number: CN109977827B
Application number: CN201910200726.2A
Authority: CN
Inventors: 刘新国; 周子孟; 李妙鹏
Original assignee: Hangzhou Faceunity Technology Co ltd; Zhejiang University ZJU
Current assignee: Hangzhou Faceunity Technology Co ltd; Zhejiang University ZJU
Priority date: 2019-03-17
Filing date: 2019-03-17
Publication date: 2020-11-13
Anticipated expiration: 2039-03-17
Also published as: CN109977827A

Abstract

本发明提出了一种使用多视图匹配方法的多人三维姿态估计方法，主要过程如下：首先使用神经网络获取多视图图片中关节点的二维坐标；其次，设计了一种多图像匹配算法，对多视图中的关节点进行匹配，并使用二维坐标得到三维坐标；最后使用了一种简单的贪心算法，在三维空间进行姿态解析。

Description

一种使用多视图匹配方法的多人三维姿态估计方法

技术领域

本发明在多视图图片上应用了现有的二维多人姿态估计技术，使用一种创新的多视图匹配方法恢复三维关节点，其次提出了一种在三维空间内进行的姿态解析算法，以得到最终的多人三维估计结果。

背景技术

二维和三维的多人人体姿态估计是计算机视觉领域的一项非常有挑战的工作。多人姿势估计旨在找出图像中所有人的骨骼关键点。由于身体姿态的高度灵活性、自我以及外部的遮挡、不同的衣服、罕见的姿势等原因，户外多人的姿势估计是非常具有挑战性的。

由于深度卷积神经网络的出现，二维多人姿态估计的准确性得到了很大的提升，现有的方法大致可分为两类：自底向上的方法和自顶向下的方法。自顶向下的方法首先通过人体检测器获取候选人，然后执行单人姿势估计。自底向上的方法直接预测关键点，然后将它们组成所有人的完整姿势。但是两种方法都有着各自的缺点：自顶向下的方法对人体检测器的准确度有着很高的要求，而且时间复杂度随着图片中的人数线性增长；自底向上的方法在严重遮挡的情况下无法得到理想的结果。

尽管二维的多人姿态估计得到了很大的进步，但是三维的多人姿态估计还存在很多问题需要解决，一些方法通过神经网络直接获得三维的人体姿态，但是这种方法对于复杂的多人场景不能很好的工作，而且得到的是局部坐标；一些方法先是获得二维的估计结果，然后在通过一些算法计算三维结果，这种方法受限于二维姿态估计方法的准确性，也很难得到在世界坐标系下的关节点坐标。

发明内容

本发明的目的是针对现有技术的不足，提供一种使用多视图匹配方法的多人三维姿态估计方法。

本发明是通过以下技术方案实现的：一种使用多视图匹配方法的多人三维姿态估计方法，包括以下步骤：

(1)二维关节点检测：使用场景中设置的V个相机，获得V个图像，对于每个图像使用卷积神经网络，获取对应的14个关节的置信图S_p和13个亲和力场L_c，p＝1,2,…,14；c＝1,2,…,13。

对于第v个图像，提取出其置信图S_p中

个置信度极大值的坐标x_i，组成坐标集合

(2)关节点关联：

从V个图像中任意选取两个图像v和w构成一组，针对关节点p，根据这一组图像获得一组距离值{d_ij}，因此，一共可获得

组距离值；将

组距离值中的所有距离值从小到大排序，依次进行关联处理，得到关节点p的若干组关联好的二维坐标点，其中，不同组的关节点分别对应于不同的人。

其中，对于图像v和w，根据步骤1获得的关节点p对应的坐标集合

计算集合

中任意一个坐标x_i与

中任意一个坐标x_j之间的距离d_ij，从而构成一组距离值{d_ij}。

其中X是使用相机参数和x_i,x_j进行三角化而得到的三维点。

代表把三维点投影回到图像v得到二维空间坐标的运算，u是图像v,w之外的其他图像，x_k为集合

中的一个二维坐标。

关联处理的方法分成以下四种情况：

①x_i和x_j都尚未关联到任何一个人身上：那么新建一个人，x_i和x_j都属于这个人。

②x_i被关联到了一个人身上，x_j没有关联到任何一个人身上：将x_j关联到x_i所属的这个人上。

③x_j被关联到了一个人身上，x_i没有关联到任何一个人身上：将x_i关联到x_j所属的这个人上。

④x_i和x_j分别被关联到两个不同的人身上：忽略这一对坐标。

对于其他的关节点按照上述关联处理方法完成关联，每个关节点得到若干组关联好的二维坐标点。

(3)求解关节点三维坐标：对于每个关节点，利用步骤2获得的若干组关联好的二维坐标点分别求解得到若干个三维坐标，每一组关联好的二维坐标点均使用三角化算法获得一个三维坐标；

(4)三维姿态解析：

对于任意两个相邻的关节点p和q，获得一组权重值

因此，一共可获得13组权重值；将13组权重值中的所有权重值从小到大排序，依次进行解析处理，得到若干个人体姿态。

其中，每一组权重值中的权重通过以下方法得到：

分别从关节点p和q的三维坐标中各取出一个三维坐标

计算他们之间的权重：

α和β是两个阈值，分别设为0.2和0.8。

为关节点p和q的预设骨长。

该权值衡量在二维图像上的合理性，通过计算置信度(s)大于阈值θ的视图数量占视图总数的比例获得。其中函数1(·)判断括号中的表达式是否为真，若为真该函数值为1，否则为0。置信度通过下式计算：

在关节点p和q之间的连接c上均匀采样，获得G个采样点g，组成集合Q，

代表把三维点

投影回到图像v得到的二维空间坐标；d是

和

之间的方向向量，被定义为

L_c(g)表示采样点g的网络输出的亲和力场。

解析处理的过程如下：对于c的两个关节点p,q中，如果任意一个之前的遍历过程中已经遇到过，则跳过这个连接；如果p不属于任何一个人的姿态，那么新建一个姿态，并把p,q加入这个姿态中；如果p已经属于某个人的姿态，那么把q也加入这个人的姿态，从而完成多人的三维姿态估计。

进一步地，所述步骤1中使用了OpenPose中的卷积神经网络作为二维关节点检测。

本发明的有益效果在于：使用RGB图片以及多视图之间的信息，结合亲和力场和人体骨长的约束，对复杂场景进行多人姿态估计，并能获得鲁棒且准确的结果。

附图说明

图1：三个不同的视角的二维关节点检测结果。

图2：多人的三维关节点示意图。

图3：三维姿态解析的最终结果。

图4：在Panostic和Shelf数据集上的结果。

具体实施方式

使用多视图匹配方法的三维多人姿态估计方法，具体包括以下步骤：

对于第v个图像，提取出其置信图S_p中

个置信度极大值的坐标x_i，组成坐标集合

图1为三个视角的二维关节点检测结果。

(2)关节点关联：在每个摄像机视图中获取关节的二维坐标之后，所有检测到的位置应该与场景中的人相关联。我们把这个问题看作一个寻找两个图像之间对应关系的多图像关节点匹配问题。对于每一个关节点p，我们使用一个贪心算法来解决这个问题：

组距离值；将

计算集合

中任意一个坐标x_i与

其中X是使用相机参数和x_i,x_j两个二维点三角化而得到的三维点。

中的一个二维坐标。

关联处理的方法分成以下四种情况：

图2展示了所得到的三维点在世界坐标系中的结果，坐标轴单位为厘米

(4)三维姿态解析：最后一步将孤立的三维关节点解析成人体姿态，得到最终结果。

对于任意两个相邻的关节点p和q，获得一组权重值

其中，每一组权重值中的权重通过以下方法得到：

分别从关节点p和q的三维坐标中各取出一个三维坐标

计算他们之间的权重：

α和β是两个阈值，我们分别设为0.2和0.8。

为关节点p和q的预设骨长。

该权值衡量在二维图像上的合理性，通过计算置信度(s)大于阈值θ的视图数量占视图总数的比例获得。其中函数1(·)判断括号中的表达式是否为真，若为真该函数值为1，否则为0。置信度通过下式计算

代表把三维点

投影回到图像v得到的二维空间坐标；d是

和

之间的方向向量，被定义为

L_c(g)表示采样点g的网络输出的亲和力场。

解析处理的过程如下：对于c的两个关节点p,q中，如果任意一个之前的遍历过程中已经遇到过，则跳过这个连接；如果p不属于任何一个人的姿态，那么新建一个姿态，并把p,q加入这个姿态中；如果p已经属于某个人的姿态，那么把q也加入这个人的姿态。

图3展示了在进行姿态解析之后的结果

经过以上流程，就可以得到最终的多人姿态估计结果，图4展示了我们在Panostic和Shelf数据集上的结果。表1和表2展示了我们的方法在数据集Panostic和Shelf上的准确率的。在Shelf数据集上可以看出准确度相比其他方法都有着不同程度的提升。

表1 Panostic数据集的准确率

表2 Shelf数据集的准确率对比

Claims

1.一种使用多视图匹配方法的多人三维姿态估计方法，其特征在于，包括以下步骤：

(1)二维关节点检测：使用场景中设置的V个相机，获得V个图像，对于每个图像使用卷积神经网络，获取对应的14个关节的置信图S_p和13个亲和力场L_c，p＝1，2，...，14；c＝1，2，...，13；

对于第v个图像，提取出其置信图S_p中

个置信度极大值的坐标x_i，组成坐标集合

(2)关节点关联：

组距离值；将

组距离值中的所有距离值从小到大排序，依次进行关联处理，得到关节点p的若干组关联好的二维坐标点，其中，不同组的关节点分别对应于不同的人；

计算集合

中任意一个坐标x_i与

中任意一个坐标x_j之间的距离d_ij，从而构成一组距离值{d_ij}；

其中X是使用相机参数和x_i，x_j进行三角化而得到的三维点；

代表把三维点投影回到图像v得到二维空间坐标的运算，u是图像v，w之外的其他图像，x_k为集合

中的一个二维坐标；

关联处理的方法分成以下四种情况：

①x_i和x_j都尚未关联到任何一个人身上：那么新建一个人，x_i和x_j都属于这个人；

②x_i被关联到了一个人身上，x_j没有关联到任何一个人身上：将x_j关联到x_i所属的这个人上；

③x_j被关联到了一个人身上，x_i没有关联到任何一个人身上：将x_i关联到x_j所属的这个人上；

④x_i和x_j分别被关联到两个不同的人身上：忽略这一对坐标；

对于其他的关节点按照上述关联处理方法完成关联，每个关节点得到若干组关联好的二维坐标点；

(4)三维姿态解析：

对于任意两个相邻的关节点p和q，获得一组权重值

因此，一共可获得13组权重值；将13组权重值中的所有权重值从小到大排序，依次进行解析处理，得到若干个人体姿态；

其中，每一组权重值中的权重通过以下方法得到：

分别从关节点p和q的三维坐标中各取出一个三维坐标

计算他们之间的权重：

α和β是两个阈值，分别设为0.2和0.8；

为关节点p和q的预设骨长；

权值衡量在二维图像上的合理性，通过计算置信度s_v大于阈值θ的视图数量占视图总数的比例获得；其中函数1(·)判断括号中的表达式是否为真，若为真该函数值为1，否则为0；置信度s_v通过下式计算：

代表把三维点

投影回到图像v得到的二维空间坐标；d是

和

之间的方向向量，被定义为

L_c(g)表示采样点g的网络输出的亲和力场；

解析处理的过程如下：对于c的两个关节点p，q中，如果任意一个之前的遍历过程中已经遇到过，则跳过这个连接；如果p不属于任何一个人的姿态，那么新建一个姿态，并把p，q加入这个姿态中；如果p已经属于某个人的姿态，那么把q也加入这个人的姿态，从而完成多人的三维姿态估计。

2.根据权利要求1所述的方法，其特征在于，所述步骤1中使用了OpenPose中的卷积神经网络作为二维关节点检测。