CN114627491A

CN114627491A - 一种基于极线汇聚的单人三维姿态估计方法

Info

Publication number: CN114627491A
Application number: CN202111624443.4A
Authority: CN
Inventors: 杨文武; 李跃
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-06-14

Abstract

本发明公开了一种基于极线汇聚的单人三维姿态估计方法，包括以下步骤：对一组相机进行相机参数标定，然后通过这组相机的同步拍摄，获得每一时刻的多视角图像，并对其进行预处理；构建2D人体关键点检测网络，并检测出每个视角图像中的2D人体关键点；对每个视角图像中的每个2D人体关键点，进行极线汇聚，得到该2D关键点的更新位置；根据多视角下的的2D人体关键点位置，重建出对应的3D人体姿态，通过更新后的2D人体关键点位置，关键点预置信度以及相机参数信息，使用三角测量重建出对应的3D人体姿态；提高了重构结果的鲁棒性和人体姿态估计的准确性。

Description

一种基于极线汇聚的单人三维姿态估计方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于极线汇聚的单人三维姿态估计方法。

背景技术

三维人体姿态估计一直是计算机视觉、人工智能和模式识别等热门研究方向，在人机交互，人体动作行为分析，虚拟现实，安防监控等领域有着十分广泛的应用。有资料显示，近年来，深度卷积网络在视觉中发挥着越来越重要的作用，加之出现了大量的二维姿态数据集，二维人体姿态估计取得了较快的发展，已经达到了较高的准确性。而三维姿态估计仍然面临诸多挑战，相较于二维姿态估计而言，其主要有两点不同：首先，三维坐标系下，其拥有更大的姿态空间，具有歧义性；同时，由于受到光照、遮挡等的影响，姿态估计效果往往不太理想。

多目立体视觉测量中，立体匹配(对应点的匹配)是一项关键技术，极线几何在其中起着重要作用。双目立体视觉系统中，有两个摄像机在不同角度拍摄物理空间中的一实体点，在两副图像上分别成有有两个成像点。立体匹配就是已知其中的一个成像点，在另一副图像上找出该成像点的对应点。极线几何约束是一种常用的匹配约束技术。

极线约束是一种点对直线的约束，而不是点与点的约束，尽管如此，极线约束给出了对应点重要的约束条件，它将对应点匹配从整幅图像寻找压缩到在一条直线上寻找对应点。

人体关键点检测对人体姿态估计效果的好坏起到决定性的作用。基于计算机视觉的人体关键点检测技术可以分为2D人体关键点检测和3D人体关键点定位,其中3D人体关键点定位一直是计算机视觉领域的难点。现有的基于计算机视觉3D人体关键点定位技术主要分为基于可分为多视角和基于单目预测的方法。基于单目预测的3D人体关键点定位方法精度较差且由于缺少尺度信息,无法很好地泛化到新的场景中。

例如，中国专利申请号：CN202110118997.0，公开了一种三维人体姿态估计方法及计算机可读存储介质，方法包括：采用人体检测网络从原始图像中获取单人图像并做标准化处理；使用二维姿态估计方法从单人图像中预测关键点的二维坐标；将二维坐标生成三维坐标，包括：使用三维姿态生成器预测关键点的第一三维坐标；根据人体关节的对称结构将所述二维坐标作对称处理，再使用三维姿态生成器预测关键点的第二三维坐标；第一三维坐标和第二三维坐标分别与对应的标签计算差值，结果求和用于反向传播，得到三维人体姿态估计；该发明严重依赖2D人体关键点估计的结果，如果在2D人体关键点估计时不利用任何辅助信息是无法解决遮挡等问题的。

发明内容

本发明主要解决了现有技术中因为无法解决遮挡造成的单人三维姿态估计不准确的问题，提供了一种通过对不同视角预测到的关键点进行极线汇聚，从而将人体关键点更正到更准确的位置来实现对人体进行更加稳定和准确的三维关键点的定位的单人三维姿态估计方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供了一种基于极线汇聚的单人三维姿态估计方法，包括以下步骤：

S1：对一组相机进行相机参数标定，然后通过这组相机的同步拍摄，获得每一时刻的多视角图像，并对其进行预处理；首先在固定好多个相机的位置后通过张正友标定算法获得相机的内、外参数，通过人体检测器对每个视角图像进行人体检测，再对检测到目标进行裁剪获得其中的人体图像作为步骤S2中的2D人体关键节点检测网络的输入；其中相机标定就是将现实世界中的三维物体与相机图像对应的二维物体映射起来。

S2：构建2D人体关键点检测网络，并检测出每个视角图像中的2D人体关键点；

S3：对每个视角图像中的每个2D人体关键点，进行极线汇聚，得到该2D关键点的更新位置；

S4：根据多视角下的的2D人体关键点位置，重建出对应的3D人体姿态，通过步骤S3更新后的2D人体关键点位置，关键点预置信度以及相机参数信息，使用三角测量重建出对应的3D人体姿态。

作为优选，所述步骤S2还包括构建2D人体关键点检测网络；

初始化以HRNet深度卷积网络为主干的全卷积2D人体关键点检测网络；利用大型二维姿态估计数据集对2D人体关键点检测网络进行训练，得到2D人体关键点检测网络模型。本发明通过使用一种极线汇聚更新关键点位置的方式来对预测的关键点进行更新，再通过更新后的关键点进行3D人体姿态的重构，提高了重构结果的鲁棒性；利用基于更新关键点的准确性，提供了一种全新的单人三维姿态估计方法，提高了人体姿态估计的准确性。

作为优选，所述步骤S2还包括通过2D人体关键点检测网络获取图像特征并回归出关键点热图以及关键点的置信度信息；通过步骤S1的图像预处理部分将多个视角输入的同一时刻的图像裁剪出其中的人体图像；将得到的图像送入训练好的2D人体关键点检测网络，获得不同视角下的人体关键点信息。

作为优选，所述步骤S3还包括通过步骤S2得到的左手腕关键点置信度信息筛选出其他视图中高于当前视角下左手腕关键点置信度的所有关键点作为高置信关键点。

作为优选，所述步骤S3还包括对筛选后的高置信关键点及其周围像素进行极线汇聚；将得到的一个高置信关键点中心，将尺寸小于10*10且置信度大于当前视角下左手腕关键点置信度的像素点作为极线候选点。

作为优选，所述步骤S3还包括对极线候选点通过极几何中的极限约束法得到每个候选点所对应的极线束；将极线束中的每条极线投影到当前关键点的视角，得到一系列的二维极线束；分别对每个高置信关键点都进行上述步骤得到不同视角下的二维极线束；对不同视角下的二维极线束，两两求交，交点与当前视图中的左手腕关键点k₀作为关键点候选点K＝{k₀，k₁···，k_n}，其中n为交点个数，每个候选点的置信度为两极线在极线候选点中所对应点的置信度的加权平均。极线约束就是指多目立体视觉测量中，立体匹配(对应点的匹配)是一项关键技术，极线几何在其中起着重要作用。双目立体视觉系统中，有两个摄像机在不同角度拍摄物理空间中的一实体点，在两副图像上分别成有有两个成像点。立体匹配就是已知其中的一个成像点，在另一副图像上找出该成像点的对应点。极线几何约束是一种常用的匹配约束技术。极线约束是一种点对直线的约束，而不是点与点的约束，尽管如此，极线约束给出了对应点重要的约束条件，它将对应点匹配从整幅图像寻找压缩到在一条直线上寻找对应点。

作为优选，所述步骤S3还包括将通过极线汇聚得到的候选点K通过Soft-Center函数求得更新后的关键点，Soft-Center函数为

其中C为更新后左手腕关键点位置，n为候选点个数，w_i为第i个候选点所占的权重。

作为优选，所述步骤S3还包括分别对每个视角图像中的每个2D人体关键点进行极限汇聚得到每个2D人体关键点的更新位置。

作为优选，所述步骤S4还包括根据多视角下的的2D人体关键点位置，重建出对应的3D人体姿态，通过步骤S3更新后的2D人体关键点位置，关键点预置信度以及相机参数信息，使用三角测量重建出对应的3D人体姿态。三角测量是视觉定位中，已知多个相机位置和空间中一点的投影点，进一步求该点3D位置的方法。

本发明的优点是：通过使用一种极线汇聚更新关键点位置的方式来对预测的关键点进行更新，再通过更新后的关键点进行3D人体姿态的重构，提高了重构结果的鲁棒性；利用基于更新关键点的准确性，提供了一种全新的单人三维姿态估计方法，提高了人体姿态估计的准确性。

附图说明

图1是本发明方法流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步的说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不限定本发明。

实施例：本发明提供了一种基于极线汇聚的单人三维姿态估计方法，如图一所示包括以下步骤：

首先，对一组相机进行相机参数标定，然后通过这组相机的同步拍摄，获得每一时刻的多视角图像，并对其进行预处理；

然后，构建2D人体关键点检测网络，并检测出每个视角图像中的2D人体关键点；还包括构建2D人体关键点检测网络；初始化以HRNet深度卷积网络为主干的全卷积2D人体关键点检测网络；利用大型二维姿态估计数据集对2D人体关键点检测网络进行训练，得到2D人体关键点检测网络模型；还包括通过2D人体关键点检测网络获取图像特征并回归出关键点热图以及关键点的置信度信息；通过步骤S1的图像预处理部分将多个视角输入的同一时刻的图像裁剪出其中的人体图像；将得到的图像送入训练好的2D人体关键点检测网络，获得不同视角下的人体关键点信息。

其次，对每个视角图像中的每个2D人体关键点，进行极线汇聚，得到该2D关键点的更新位置；步骤S3还包括通过步骤S2得到的左手腕关键点置信度信息筛选出其他视图中高于当前视角下左手腕关键点置信度的所有关键点作为高置信关键点；还包括对筛选后的高置信关键点及其周围像素进行极线汇聚；将得到的一个高置信关键点中心，将尺寸小于10*10且置信度大于当前视角下左手腕关键点置信度的像素点作为极线候选点；还包括对极线候选点通过极几何中的极限约束法得到每个候选点所对应的极线束；将极线束中的每条极线投影到当前关键点的视角，得到一系列的二维极线束；分别对每个高置信关键点都进行上述步骤得到不同视角下的二维极线束；对不同视角下的二维极线束，两两求交，交点与当前视图中的左手腕关键点k₀作为关键点候选点K＝{k₀，k₁···，k_n}，其中n为交点个数，每个候选点的置信度为两极线在极线候选点中所对应点的置信度的加权平均；还包括将通过极线汇聚得到的候选点K通过Soft-Center函数求得更新后的关键点，Soft-Center函数为

其中C为更新后左手腕关键点位置，n为候选点个数，w_i为第i个候选点所占的权重；还包括分别对每个视角图像中的每个2D人体关键点进行极限汇聚得到每个2D人体关键点的更新位置。

最后，根据多视角下的的2D人体关键点位置，重建出对应的3D人体姿态，通过步骤S3更新后的2D人体关键点位置，关键点预置信度以及相机参数信息，使用三角测量重建出对应的3D人体姿态；还包括根据多视角下的的2D人体关键点位置，重建出对应的3D人体姿态，通过步骤S3更新后的2D人体关键点位置，关键点预置信度以及相机参数信息，使用三角测量重建出对应的3D人体姿态。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本技术领域的人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于极线汇聚的单人三维姿态估计方法，其特征在于包括以下步骤：

S1：对一组相机进行相机参数标定，然后通过这组相机的同步拍摄，获得每一时刻的多视角图像，并对其进行预处理；

2.根据权利要求1所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S2还包括构建2D人体关键点检测网络；初始化以HRNet深度卷积网络为主干的全卷积2D人体关键点检测网络；利用大型二维姿态估计数据集对2D人体关键点检测网络进行训练，得到2D人体关键点检测网络模型。

3.根据权利要求1或2所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S2还包括通过2D人体关键点检测网络获取图像特征并回归出关键点热图以及关键点的置信度信息；通过步骤S1的图像预处理部分将多个视角输入的同一时刻的图像裁剪出其中的人体图像；将得到的图像送入训练好的2D人体关键点检测网络，获得不同视角下的人体关键点信息。

4.根据权利要求1所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S3还包括通过步骤S2得到的左手腕关键点置信度信息筛选出其他视图中高于当前视角下左手腕关键点置信度的所有关键点作为高置信关键点。

5.根据权利要求1或4所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S3还包括对筛选后的高置信关键点及其周围像素进行极线汇聚；将得到的一个高置信关键点中心，将尺寸小于10*10且置信度大于当前视角下左手腕关键点置信度的像素点作为极线候选点。

6.根据权利要求5所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S3还包括对极线候选点通过极几何中的极限约束法得到每个候选点所对应的极线束；将极线束中的每条极线投影到当前关键点的视角，得到一系列的二维极线束；分别对每个高置信关键点都进行上述步骤得到不同视角下的二维极线束；对不同视角下的二维极线束，两两求交，交点与当前视图中的左手腕关键点k₀作为关键点候选点K＝{k₀,k₁···,k_n},其中n为交点个数，每个候选点的置信度为两极线在极线候选点中所对应点的置信度的加权平均。

7.根据权利要求1所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S3还包括将通过极线汇聚得到的候选点K通过Soft-Center函数求得更新后的关键点，Soft-Center函数为

8.根据权利要求1所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S3还包括分别对每个视角图像中的每个2D人体关键点进行极限汇聚得到每个2D人体关键点的更新位置。

9.根据权利要求1所述的一种基于极线汇聚的单人三维姿态估计方法，其特征在于所述步骤S4还包括根据多视角下的的2D人体关键点位置，重建出对应的3D人体姿态，通过步骤S3更新后的2D人体关键点位置，关键点预置信度以及相机参数信息，使用三角测量重建出对应的3D人体姿态。