CN113239892A

CN113239892A - 一种基于数据增强架构的单目人体三维姿态估计方法

Info

Publication number: CN113239892A
Application number: CN202110648495.9A
Authority: CN
Inventors: 纪刚; 周亚敏; 周萌萌; 周粉粉; 杨春霞
Original assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Current assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-10

Abstract

本发明属于计算机图形学技术领域，涉及一种三维人体姿态估计方法，仅通过单张图像获得的二维姿态就可以精准回归得到三维姿态，摆脱需要依赖成本高的硬件才能获取精确三维姿态的技术约束，使得如人机交互、增强现实、虚拟现实等依赖于人体三维姿态的应用大大降低成本，同时由于大大扩展了对非常见动作的三维姿态捕获精度，可以使更为复杂的动作出现在人机交互等的应用中，并大大增加应用的趣味和实用性；其原理科学可靠，在现有数据集基础上扩展数据的多样性，提升模型泛化能力，在更加丰富的真实场景中，依靠单目相机采集的图像数据获得逼真、自然的三维人体姿态，可以显著提高对非常见动作的三维姿态估计的精度，能够适用更为多样的场景。

Description

一种基于数据增强架构的单目人体三维姿态估计方法

技术领域：

本发明属于计算机图形学技术领域，涉及一种三维人体姿态估计方法，具体是一种基于数据增强架构的单目三维人体姿态估计方法。

背景技术：

随着人体姿态估计研究和应用的不断深入开展，基于单目图像的二维人体姿态估计已经取得了显著的效果，在三维世界中，三维人体姿态能够提供更加真实、立体的感官效果，三维人体姿态需要借助专业的深度相机或者人体穿戴传感器获取，应用门槛过高。

借助单目相机采集的二维图像，通过神经网络回归生成三维姿态，能够大大提高应用的便捷性，拓展出更多的应用可能，实现广阔的商用价值。然而，由于二维图像中缺失深度信息，从二维图像映射到三维人体姿态存在固有的深度模糊性，同时一个二维图像可以对应多种三维人体姿态，所以映射也存在不确定性。

现有技术中，基于单目相机的三维人体姿态估计研究需要通过包含精确三维姿态和对应二维图像的数据集作为输入来进行监督或弱监督训练，然而，数据集为了保障数据的准确性，需要在装配专业相机和传感器的实验室中采集，通过十几个人模拟多个特定场景完成，基于这些数据集进行训练的神经网络模型，在面对真实的室外应用场景时，会出现泛化性不足的问题，同时对一些非常见动作(摔倒和空翻等)等情况，效果不理想。

因此，需要研发设计一种能够有效解决数据多样性不足、模型泛化能力差的基于单目视觉的三维人体姿态估计方法。

发明内容：

本发明的目的在于克服现有技术存在的缺点，寻求设计一种基于数据增强架构的单目人体三维姿态估计方法，在现有数据集基础上扩展数据的多样性，提升模型泛化能力，在更加丰富的真实场景中，依靠单目相机采集的图像数据获得逼真、自然的三维人体姿态。

为了实现上述目的，本发明涉及的基于数据增强架构的单目人体三维姿态估计方法的工艺过程为：

S1、人体姿态数据增强

人体姿态数据增强的输入为姿态估计数据集H3.6M中任一三维人体姿态P，P∈R³ ^*k，输出为新的三维骨骼矩阵B’，B’∈R^3*(k-1)；

S1.1三维人体姿态增强

三维人体姿态增强基于三维人体姿态增强器(Augmentor)实施，通过改变骨骼长度、改变骨骼向量或改变整个人体的比例和旋转角的方式对三维人体姿态进行改变，整合改变过程，使用神经网络代替改变过程的矩阵操作，得到新的三维人体姿态P’；

S1.2三维-二维人体姿态投影(3D-2D Projection)

将新的三维人体姿态P’与相机内参数和相机外参数结合，通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′：首先通过计算获得关节点i在相机坐标系下的坐标，然后通过计算获得关节点i在二维平面上的坐标，依次完成全部关节点的二维平面投影，获得新的二维人体姿态p′；

S2、三维人体姿态判别

三维人体姿态判别基于三维人体姿态判别器(3D Discriminator)实施，其输入为三维人体姿态，输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过步骤S1.1生成的新的人体三维姿态P’，将输入转换成三维骨骼矩阵B’后，分为两条支流处理：

支流一：首先将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I，然后将矩阵I拉伸成一维向量，并输入FC全连接层；

支流二：直接将三维骨骼矩阵B’拉伸成一维向量，并输入FC全连接层；

通过Concat(特征连接)操作将支流一和支流二的输出连接，生成一个1*200的向量；

输出为包含一个神经元的FC全连接层，输出结果作为判别得分δ′_3d；

S3、二维人体姿态判别

二维人体姿态判别基于二维人体姿态判别器(2D Discriminator)实施，其输入为二维人体姿态，输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’，将输入转换成二维骨骼矩阵b’后，分为两条支流处理：

支流一：首先将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I，然后将矩阵I拉伸成一维向量，并输入FC全连接层；

支流二：直接将二维骨骼矩阵b’拉伸成一维向量，并输入FC全连接层；

通过Concat操作将支流一和支流二的输出连接，生成一个1*200的向量；

输出为包含一个神经元的FC全连接层，输出结果作为判别得分δ′_2d；

S4、三维人体姿态估计

三维人体姿态估计基于三维人体姿态估计器(3D Estimator)实施，其输入为二维人体姿态，输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’，连接三个相同结构的Residual Block(残差块)，输出为k＝17个关节点的三维坐标；

S5、构造损失函数

S5.1构造姿态判别器损失函数

通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数；

S5.2构造姿态估计器损失函数

通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数；

S5.3构造姿态增强器损失函数

采用姿态估计器损失函数作为姿态增强器损失函数；

S6模型训练

以姿态估计数据集H3.6M为源数据，将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据，以每64个姿态对作为一次训练的输入数据量，根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数，直至损失值逐步收敛并稳定，获得人体姿态判别器、人体姿态估计器和人体姿态增强器的模型参数；

S7模型测试

选取任意包含人体动作的图片，通过OpenPose(美国卡耐基梅隆大学提出的OpenPose人体姿态识别模型)模型生成人体二维姿态，通过步骤S6训练好的人体姿态估计器生成三维姿态。

本发明与现有技术相比，仅通过单张图像获得的二维姿态就可以精准回归得到三维姿态，摆脱需要依赖成本高的硬件才能获取精确三维姿态的技术约束，使得如人机交互、增强现实、虚拟现实等依赖于人体三维姿态的应用大大降低成本，同时由于大大扩展了对非常见动作的三维姿态捕获精度，可以使更为复杂的动作出现在人机交互等的应用中，并大大增加应用的趣味和实用性；其原理科学可靠，可以显著提高对非常见动作的三维姿态估计的精度，能够帮助依赖于三维姿态的应用实现适用于更为多样的场景，包括户外活动、极限运动、体操比赛、舞蹈表演等。

附图说明：

图1为本发明涉及的人体姿态数据增强的过程示意图。

图2为本发明涉及的人体关节点结构示意图。

图3为本发明涉及的人体关节点树状结构示意图。

图4为本发明涉及的三维人体姿态判别的过程示意图。

图5为本发明涉及的二维人体姿态判别的过程示意图。

图6为本发明涉及的三维人体姿态估计的过程示意图。

图7为本发明涉及的Residual Block的结构示意图。

图8为本发明涉及的模型结构示意图。

具体实施方式：

下面通过实施实例并结合附图对本发明做进一步描述。

实施例1：

本实施例涉及的基于数据增强架构的单目人体三维姿态估计方法的工艺过程为：

S1、人体姿态数据增强

人体姿态数据增强的过程如图1所示：

输入为姿态估计数据集H3.6M中任一三维人体姿态P，P∈R^3*k，

xi，yi，zi分别表示第i个关节点在世界坐标系下x、y、z方向上的数值，k＝17为关节点的数量；

3D Transfer(三维姿态-骨骼变换)是将三维人体姿态P转换成三维骨骼向量B，即B＝HP，H为关节点邻接矩阵；

Augmentor是三维人体姿态数据增强器，包含两个FC全连接层，每个全连接层包含1024个神经元，输出层神经元个数为67，激活函数使用tanH；

输出为新的三维骨骼矩阵B’，B’∈R^3*(k-1)；

3D InvTransfer(三维姿态-骨骼逆变换)是将三维骨骼矩阵B’转换成新的三维人体姿态P’，即P‘＝H^-1B′，P‘∈R^3*k，

x′_i，y′_i，z′_i分别表示第i个关节点在世界坐标系下x、y、z方向上的数值；

3D-2D Projection是三维世界坐标系向二维平面的投影变换矩阵，输出为投影后的二维人体姿态p′，p′∈R^2*k，

u_i，v_i分别表示第i个关节点在二维平面坐标系下x、y方向上的数值。

上述步骤具体分解为如下：

S1.1三维人体姿态增强

三维人体姿态增强基于三维人体姿态增强器(Augmentor)实施，人体关节点是具有从属关系的树状结构，姿态估计数据集H3.6M中人体关节点和人体关节点树状结构分别如图2和3所示：

在三维人体姿态P中，选取第j个骨骼，该骨骼的起点为第r个关节点，终点为第t个关节点，转换为向量表示为：

其中，b_j表示第n个三维人体姿态中第j个骨骼的空间向量，h_i＝(0，…，0，1，0，…，0，-1，0，…，0)，表示第j个骨骼的关节邻接向量，h_j∈R¹⁷，第r个位置上的值为1，第t个位置上的值为-1；

整个人体骨架的关节点邻接矩阵由每个骨骼的关节点邻接向量构成，即

则人体的三维骨骼向量表示为：

关节点的空间位置与骨骼长度、骨骼向量和人体整体比例相关，同时也与人体位置和人体整体旋转角相关，基于此，通过以下三种方式能够实现对三维人体姿态的改变：

a、改变骨骼长度(左右对称的骨骼长度一致)：B’＝LB，其中，L为骨骼长度变换系数矩阵；

b、改变骨骼向量：B’＝B’+A，其中，A为骨骼变化向量；

c、改变整个人体的比例和旋转角：B’^T＝μR(β)B’^T+D^T，其中，

β＝(β_x，β_y，β_z)分别表示围绕x、y、z坐标轴的旋转角，μ为整体缩放比例，D＝(d_x，d_y，d_z)分别表示世界坐标系下的x、y、z坐标轴的偏移量；

整合上述改变过程，表示为：B’＝μR(β)((LB)^T+A)+D^T，则新的三维人体姿态表示为：P’＝μR(β)((LPH)^T+A)+D^T＝μR(β)LPH+μR(β)A+D^T，其中，H为固定矩阵，保持不变，μ、β、L、A和D均为随机变量，它们的改变影响新姿态的生成结果；

使用神经网络代替上述矩阵操作，神经网络的结构包括：输入层，输入为B，数据维度为3*(k-1)；两个神经元个数为1024的全连接层；输出层，激活函数采用tanH，保障输出数值范围为[-1，1]，输出为B’，数据维度为3*(k-1)。

S1.2三维-二维人体姿态投影(3D-2D Projection)

将新的三维人体姿态P’与相机内参数(f_x，f_y，c_x，c_y)和相机外参数结合，其中，相机外参数包括相机三维空间旋转角β_cam＝(β_{cam_x}，β_{cam_y}，β_{cam_z})和相机三维坐标T_cam＝(t_{cam_x}，t_{cam_y}，t_{cam_z})，通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′：

首先通过计算获得关节点i在相机坐标系下的坐标：(x_{i_cam}，y_{i_cam}，z_{i_cam})^T＝[R(β_cam)，(T_cam)^T](x_i，y_i，z_i，1)^T；然后通过计算获得关节点i在二维平面上的坐标(u_i，v_i)：

依次完成全部关节点的二维平面投影，获得新的二维人体姿态

S2、三维人体姿态判别器(3D Discriminator)

三维人体姿态判别基于三维人体姿态判别器(3D Discriminator)实施，过程如图4所示：

输入为三维人体姿态，输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过S1.1生成的新的人体三维姿态P’，以输入P’为例介绍之后的步骤；

3D Transfer表示将三维人体姿态P’转换成三维骨骼矩阵B’，即B’＝HP’；

3D Transfer操作后，分为两条支流进行处理：

支流一：首先进行3D KCS(三维运动链空间变换)操作，将三维骨骼矩阵B’转换成包含三维骨骼夹角和三维骨骼长度的矩阵I，即I＝B’^TB’，I∈R^(k-1)*(k-1)，矩阵I的对角线元素为三维骨骼长度的平方，其余元素为三维骨骼向量之间的夹角，然后将矩阵I拉伸成一维向量，并输入包含100个神经元的FC全连接层；

支流二：直接将三维骨骼矩阵B’拉伸成一维向量，并输入包含100个神经元的FC全连接层；

输出为包含一个神经元的FC全连接层，输出结果作为判别得分δ’_3d。

S3、二维人体姿态判别

二维人体姿态判别基于二维人体姿态判别器(2D Discriminator)实施，过程如图5所示：

输入为二维人体姿态，输入来源包括姿态估计数据集H3.6M中的人体二维姿态p和通过S1.2生成的新的人体二维姿态p’，以输入p’为例介绍之后的步骤：

2D Transfer(二维姿态-骨骼变换)是将二维人体姿态p’转换成二维骨骼矩阵b’，即b’＝Hp’；

2D Transfer操作后，分为两条支流进行处理：

支流一：首先进行2D KCS操作，将二维骨骼矩阵b’转换成包含二维骨骼夹角和二维骨骼长度的矩阵I，即I＝b’^Tb’，I∈R^(k-1)*(k-1)，矩阵I的对角线元素为二维骨骼长度的平方，其余元素为二维骨骼向量之间的夹角，然后将矩阵I拉伸成一维向量，并输入包含100个神经元的FC全连接层；

支流二：直接将二维骨骼矩阵b’拉伸成一维向量，并输入包含100个神经元的FC全连接层；

输出为包含一个神经元的FC全连接层，输出结果即为判别得分δ’_2d。

S4、三维人体姿态估计

三维人体姿态估计基于三维人体姿态估计器(3D Estimator)实施，过程如图6所示：

输入为人体二维姿态，输入来源包括姿态估计数据集H3.6M中的人体二维姿态和通过步骤S1.2生成的新的人体二维姿态p′；

FC 1024表示包含1024个神经元的FC全连接层；

之后连接三个相同结构的Residual Block，Residual Block的结构如图7所示：其中，FC 1024表示包含1024个神经元的FC全连接层；Batch Norm(批归一化)是对当前输入的一个/多个人体二维姿态进行归一化处理；ReLU是ReLU激活函数；

是将第一个FC全连接层输出与最后一个ReLU激活函数的输出求和；

FC 51是包含51个神经元的FC全连接层，输出为k＝17个关节点的三维坐标，即17*3＝51。

S5、构造损失函数

S5.1构造姿态判别器损失函数

通过三维姿态判别器损失函数和二维姿态判别器损失函数构造姿态判别器损失函数：

三维姿态判别器损失函数

其中，m＝64，为当前次训练输入的姿态估计数据集H3.6M人体三维姿态总数，

表示姿态估计数据集H3.6M中的人体三维姿态输入三维人体姿态判别器后的得分，i表示第i个人体三维姿态，

表示第i个人体三维姿态通过人体三维姿态增强器后生成的人体三维姿态输入三维人体姿态判别器后的得分；

二维姿态判别器损失函数

其中，

表示姿态估计数据集H3.6M中的与上式人体三维姿态对应的人体二维姿态输入二维人体姿态判别器后的得分，i表示第i个人体二维姿态，

表示通过人体三维姿态增强器生成并投影后得到的人体二维姿态输入二维人体姿态判别器后的得分；

姿态判别器损失函数：L_C＝L_{C_2d}+L_{C_3d}；

S5.2构造姿态估计器损失函数

通过数据源为姿态估计数据集H3.6M的姿态估计器损失函数和三维姿态增强器生成的人体三维姿态的姿态估计器损失函数构造姿态估计器损失函数：

数据源为姿态估计数据集H3.6M的姿态估计器损失函数为：

其中，x_{i_j}表示本次训练中数据来源为姿态估计数据集H3.6M的第i个人体三维姿态的第j个关节点x轴坐标，

表示数据来源为三维姿态估计器预测的第i个人体三维姿态的第j个关节点x轴坐标，y_{i_j}和y′_{i_j}、z_{i_j}和z′_{i_j}表示对应y和z轴的坐标；

三维姿态增强器生成的人体三维姿态的姿态估计器损失函数为：

其中，x_{i_j}‘表示本次训练中通过三维姿态增强器生成的第i个人体三维姿态的第j个关节点x轴坐标，

表示三维姿态估计器预测的第i个人体三维姿态的第j个关节点x轴坐标，y_{i_j}‘和

z_{i_j}‘和

表示对应y和z轴的坐标；

姿态估计器损失函数为：

其中，σ为控制系数，初始值设置为1.1，每完成一次全部姿态估计数据集H3.6M的训练，σ增大0.1倍，用以生成更为不常见但合理的姿态。

S5.3构造姿态增强器损失函数

由于姿态增强器能够生成多种多样不常见的姿态，帮助姿态估计器最大限度的增强泛化能力，同时将姿态估计器损失回馈到姿态增强器，以防止姿态增强器生成不合理的姿态，因此，采用姿态估计器损失函数作为姿态增强器损失函数：L_A＝L_E。

S6模型训练

以姿态估计数据集H3.6M为源数据，将人体三维姿态-人体二维姿态-相机参数构建的姿态对作为一个训练数据，以每64个姿态对作为一次训练的输入数据量，根据步骤S5构造的损失函数调整人体姿态判别器、人体姿态估计器和人体姿态增强器参数，直至损失值逐步收敛并稳定，获得如图8所示的人体姿态判别器、人体姿态估计器和人体姿态增强器模型参数，其中，人体姿态增强器生成复杂多样的姿态，人体姿态判别器判别人体姿态增强器生成复杂多样的姿态是否合理，目的都是为了帮助人体姿态估计器能够适应多样的动作，增强其泛化能力；

S7模型测试

选取任意包含人体动作的图片，通过OpenPose模型生成人体二维姿态，通过步骤S6训练好的人体姿态估计器生成三维姿态。

Claims

1.一种基于数据增强架构的单目人体三维姿态估计方法，其特征在于，工艺过程包括以下步骤：

S1、人体姿态数据增强

人体姿态数据增强的输入为姿态估计数据集H3.6M中任一三维人体姿态P，P∈R^3*k，输出为新的三维骨骼矩阵B’，B’∈R^3*(k-1)；

S1.1三维人体姿态增强

三维人体姿态增强基于三维人体姿态增强器实施，通过改变骨骼长度、改变骨骼向量或改变整个人体的比例和旋转角的方式对三维人体姿态进行改变，整合改变过程，使用神经网络代替改变过程的矩阵操作，得到新的三维人体姿态P’；

S1.2三维-二维人体姿态投影

将新的三维人体姿态P’与相机内参数和相机外参数结合，通过投影转换公式计算获得投影到二维平面上的二维人体姿态p′；

S2、三维人体姿态判别

三维人体姿态判别基于三维人体姿态判别器实施，输入为三维人体姿态将输入转换成三维骨骼矩阵B’后，分为两条支流处理：

输出为包含一个神经元的FC全连接层，输出结果作为判别得分δ’_3d；

S3、二维人体姿态判别

二维人体姿态判别基于二维人体姿态判别器实施，输入为二维人体姿态，将输入转换成二维骨骼矩阵b’后，分为两条支流处理：

输出为包含一个神经元的FC全连接层，输出结果作为判别得分δ’_2d；

S4、三维人体姿态估计

三维人体姿态估计基于三维人体姿态估计器实施，输入为二维人体姿态，连接三个相同结构的Residual Block，输出为k＝17个关节点的三维坐标；

S5、构造损失函数

S5.1构造姿态判别器损失函数

S5.2构造姿态估计器损失函数

S5.3构造姿态增强器损失函数

采用姿态估计器损失函数作为姿态增强器损失函数；

S6模型训练

S7模型测试

首先选取任意包含人体动作的图片，然后通过OpenPose模型生成人体二维姿态，最后通过步骤S6训练好的人体姿态估计器生成三维姿态。

2.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，步骤S1.1涉及的神经网络的结构包括输入层、两个神经元个数为1024的全连接层和输出层。

3.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，步骤S1.2涉及的相机内参数包括f_x,f_y,c_x,c_y；相机外参数包括相机三维空间旋转角β_cam＝(β_{cam_x},β_{cam_y},β_{cam_z})和相机三维坐标T_cam＝(t_{cam_x},t_{cam_y},t_{cam_z})。

4.根据权利要求1或3所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，步骤S1.2的具体工艺过程是：首先通过计算获得关节点i在相机坐标系下的坐标，然后通过计算获得关节点i在二维平面上的坐标，依次完成全部关节点的二维平面投影，获得新的二维人体姿态p′。

5.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，步骤S2的输入来源包括姿态估计数据集H3.6M中的人体三维姿态P和通过步骤S1.1生成的新的人体三维姿态P’。

6.根据权利要求1所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，步骤S3和S4的输入来源相同，均包括姿态估计数据集H3.6M中的人体二维姿态p和通过步骤S1.2生成的新的人体二维姿态p’，。

7.根据权利要求1或6所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，步骤S4涉及的Residual Block包括FC 1024、Batch Norm、ReLU和⊕。

8.根据权利要求2所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，输入层的输入为B，数据维度为3*(k-1)；输出层的激活函数采用tanH，保障输出数值范围为[-1,1]，输出为B’，数据维度为3*(k-1)。

9.根据权利要求7所述的基于数据增强架构的单目人体三维姿态估计方法，其特征在于，FC 1024表示包含1024个神经元的FC全连接层；Batch Norm是对当前输入的一个/多个人体二维姿态进行归一化处理；ReLU是ReLU激活函数；⊕是将第一个FC全连接层输出与最后一个ReLU激活函数的输出求和。