CN112836824A

CN112836824A - 单目三维人体位姿无监督学习方法、系统及介质

Info

Publication number: CN112836824A
Application number: CN202110240172.6A
Authority: CN
Inventors: 王贺升; 王子良; 曾泓豪; 王光明; 宋昊临
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-05-25
Anticipated expiration: 2041-03-04
Also published as: CN112836824B

Abstract

本发明提供了一种单目三维人体位姿无监督学习方法、系统及介质，包括：步骤A：运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量，对每一个目标关节，给出一组由根关节到此关节的骨骼路径，沿路径将骨骼向量相加得到一组粗糙关节坐标；步骤B：通过注意力网络得到每条路径的注意力，对每组粗糙关节坐标加权得到最终关节坐标；步骤C：在单帧3D到2D的投影位置误差的基础上，添加基于投影一致的位移误差损失，训练骨长、方向估计网络和注意力网络。本发明提出基于投影一致的单目相机三维人体位姿无监督学习方法，提高了对关节预测的准确性，有利于实际利用。

Description

单目三维人体位姿无监督学习方法、系统及介质

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种单目三维人体位姿无监督学习方法、系统及介质。尤其地，涉及一种基于单目相机的三维人体位姿估计中关节位置的无监督损失计算方法和关节位置的获得方法。

背景技术

人体位姿估计是计算机视觉中的一个基础问题，是对人体的姿态(如头、胸、脚等人体关键点)的位置估计，目前主要是用人体关节点表示人体位姿。

对于人体关节点的预测目前主要有两种方法，一种为直接对关节点进行回归的方法，另一种为对人体骨骼进行位置估计，再由骨骼得到关节点的方法。在第二种方法中，有两种骨骼预测方法，一种为直接预测整根骨骼的向量的方法，另一种为分别预测骨骼长度和骨骼方向的方法。

对于神经网络的训练主要分成有监督和无监督两类方法，其中有监督方法需要大量的3D真值数据，难以取得。

专利文献CN111340867A(申请号：CN202010121139.7)公开了一种图像帧的深度估计方法、装置、电子设备及存储介质，通过使用经过无监督训练得到的光流预测网络提取像素关系来代替传统手工设置的图像特征SIFT等做匹配，像素之间关系的确定变得更加准确，同时引入置信度采样进一步提高鲁棒性；并通过使用建立像素关系再解算相机位姿关系，代替了端到端的相机位姿相对变化估计。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种单目三维人体位姿无监督学习方法、系统及介质。

根据本发明提供的单目三维人体位姿无监督学习方法，包括：

步骤A：运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量，对每一个目标关节，给出一组由根关节到此关节的骨骼路径，沿路径将骨骼向量相加得到一组粗糙关节坐标；

步骤B：通过注意力网络得到每条路径的注意力，对每组粗糙关节坐标加权得到最终关节坐标；

步骤C：在单帧3D到2D的投影位置误差的基础上，添加基于投影一致的位移误差损失，训练骨长、方向估计网络和注意力网络。

优选的，所述步骤A包括如下步骤：

步骤A1：对于骨骼B_i→j的预测分为预测骨长l_i→j和骨骼的单位方向B_d,i→j，同时对相邻关节的真骨骼B_i→j和非相邻关节的假骨骼B'_i→j进行预测，将预测骨长l_i→j和骨骼的单位方向B_d,i→j，相乘得到骨骼向量，表达式为：

B_d,i→j＝(x_o,i→j,y_o,i→j,z_o，i→j)

B_i→j＝l_i→jB_d，i→j＝(l_i→jx_o,i→j,l_i→jy_o,i→j,l_i→jz_o,i→j)＝(x_i→j,y_i→j,z_i→j)

其中，B_i→j表示从关节J_i到关节J_j的骨骼；x₀、y₀、z₀分别表示骨骼的单位方向向量；x_i→j表示骨骼向量x轴方向分量；y_i→j表示骨骼向量y轴方向分量；z_i→j表示骨骼向量z轴方向分量；

步骤A2：将骨盆位置的关节点设为根关节J_root，基于根关节将人体关节分为三组：上半身S_upbody、左腿S_leftleg、右腿S_rightleg，根关节到每组中的关节有唯一的由真骨骼组成的路径，对于任意的人体非根关节J_t∈S_i(i＝upbody,leftleg,rightleg)，取与该关节不同组的一个关节J_k∈S_k(k＝upbody,leftleg,rightleg,S_k≠S_i)，由根关节J_roo_t到关节J_k的真骨骼路径

和一条由关节J_k到关节J_t的假骨骼B'_k→t组成一条由根关节J_root到目标关节J_t的骨骼路径

表达式为：

其中，

表示真骨骼路径经过的关节；B_r→k1表示真骨骼路径第一条骨骼，即根关节J_root到关节

的骨骼向量；B_kn→k表示真骨骼路径最后一条骨骼，即关节

到关节J_k的骨骼向量；

步骤A3：在网络预测得到的骨骼中，由得到的骨骼路径

将对应的骨骼沿路径相加，得到一个对应关节的粗糙坐标

其中，m为当前的关节数。

优选的，所述步骤B包括如下步骤：

步骤B1：在步骤A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标，为衡量每条路径的重要性，设置注意力网络，将所有关节的粗糙关节坐标作为输入，输出得到每条路径对应的注意力W，表达式为：

W＝(W₁,W₂,…,W_n)

步骤B2：将得到的注意力结合粗糙关节坐标，得到最终预测的关节坐标位置，表达式为：

其中，n为关节数，n_t为第t个关节的路径数。

优选的，所述步骤C包括如下步骤：

步骤C1：对于由连续两帧2D关节位置图像预测得到的关节3D位置，使用相机参数矩阵，将每个关节的3D位置投影回2D平面，得到关节位置的2D投影，表达式为：

其中，f为相机焦距，d_x为相机x轴方向一个像素的宽度，d_y为相机沿y轴方向一个像素的宽度，(u₀,v₀)为光心对应图像像素坐标系的坐标，

是相机空间坐标系中模型预测出的三维坐标点

对应的图像像素坐标系二维坐标；

步骤C2：对于每个关节预测三维坐标点的二维投影，计算它在两帧之间的平面位移，即关节2D位置的估计位移，表达式为：

其中，

为关节i在第t帧的图像像素坐标；

步骤C3：计算在输入的2D关节位置图像上每个关节点的位移，即关节2D位置的实际位移，表达式为：

步骤C4：将关节点2D位置的估计位移与对应的实际位移作差，将所有关节点位移误差的平均值作为损失函数，与单帧3D到2D的投影位置误差ε_i,t联合使用，表达式为：

其中，

表示第t帧中第i个关节预测3D坐标投影得到的2D估计位置与实际2D位置的误差。

根据本发明提供的单目三维人体位姿无监督学习系统，包括：

模块A：运用骨骼长度估计网络和骨骼方向估计网络输出骨骼向量，对每一个目标关节，给出一组由根关节到此关节的骨骼路径，沿路径将骨骼向量相加得到一组粗糙关节坐标；

模块B：通过注意力网络得到每条路径的注意力，对每组粗糙关节坐标加权得到最终关节坐标；

模块C：在单帧3D到2D的投影位置误差的基础上，添加基于投影一致的位移误差损失，训练骨长、方向估计网络和注意力网络。

优选的，所述模块A包括：

模块A1：对于骨骼B_i→j的预测分为预测骨长l_i→j和骨骼的单位方向B_d,i→j，同时对相邻关节的真骨骼B_i→j和非相邻关节的假骨骼B'_i→j进行预测，将预测骨长l_i→j和骨骼的单位方向B_d,i→j，相乘得到骨骼向量，表达式为：

B_d,i→j＝(x_o,i→j,y_o,i→j,z_o,i→j)

B_i→j＝l_i→jB_d,i→j＝(l_i→jx_o,i→j,l_i→jy_o,i→j,l_i→jz_o,i→j)＝(x_i→j,y_i→j,z_i→j)

模块A2：将骨盆位置的关节点设为根关节J_root，基于根关节将人体关节分为三组：上半身S_upbody、左腿S_leftleg、右腿S_rightleg，根关节到每组中的关节有唯一的由真骨骼组成的路径，对于任意的人体非根关节J_t∈S_i(i＝upbody,leftleg,rightleg)，取与该关节不同组的一个关节J_k∈S_k(k＝upbody,leftleg,rightleg,S_k≠S_i)，由根关节J_root到关节J_k的真骨骼路径

表达式为：

其中，

的骨骼向量；B_kn→k表示真骨骼路径最后一条骨骼，即关节

到关节J_k的骨骼向量；

模块A3：在网络预测得到的骨骼中，由得到的骨骼路径

将对应的骨骼沿路径相加，得到一个对应关节的粗糙坐标

其中，m为当前的关节数。

优选的，所述模块B包括：

模块B1：在模块A中得到每个关节基于一组骨骼路径的一组粗糙关节坐标，为衡量每条路径的重要性，设置注意力网络，将所有关节的粗糙关节坐标作为输入，输出得到每条路径对应的注意力W，表达式为：

W＝(W₁,W₂,…,W_n)

模块B2：将得到的注意力结合粗糙关节坐标，得到最终预测的关节坐标位置，表达式为：

其中，n为关节数，n_t为第t个关节的路径数。

优选的，所述模块C包括：

模块C1：对于由连续两帧2D关节位置图像预测得到的关节3D位置，使用相机参数矩阵，将每个关节的3D位置投影回2D平面，得到关节位置的2D投影，表达式为：

是相机空间坐标系中模型预测出的三维坐标点

对应的图像像素坐标系二维坐标；

模块C2：对于每个关节预测三维坐标点的二维投影，计算它在两帧之间的平面位移，即关节2D位置的估计位移，表达式为：

其中，

为关节i在第t帧的图像像素坐标；

模块C3：计算在输入的2D关节位置图像上每个关节点的位移，即关节2D位置的实际位移，表达式为：

模块C4：将关节点2D位置的估计位移与对应的实际位移作差，将所有关节点位移误差的平均值作为损失函数，与单帧3D到2D的投影位置误差ε_i,t联合使用，表达式为：

其中，

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明保证了关节位置估计在相邻帧的连续性，可以减少在连续视频中关节位置估计结果的波动；

(2)本发明提出了一种由骨骼路径结合注意力机制获得关节坐标的方法：对网络预测的真假骨骼，根据给定的骨骼路径得到每个关节点的多个粗糙的预测坐标，由粗糙的预测坐标结合注意力机制加权得到最终的关节坐标，在此基础上，设计了基于投影位移误差的无监督损失函数用于训练骨长和骨骼方向预测网络，注意力网络，由多条骨骼路径加权得到关节点，一定程度上提高了准确性；

(3)本发明采用无监督方法，需要获取的数据量较少，减少了获取数据的成本。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明的一种基于多路径加权和投影一致的单目三维人体位姿无监督学习方法的结构框图；

图2是骨骼长度估计网络、骨骼方向估计网络与注意力网络的流程图；

图3是基本人体骨架模型示意图；

图4是引入的部分假骨骼示意图；

图5是一条骨骼路径示意图；

图6是基于投影一致的无监督损失的流程图；

图7是关节投影位移误差示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

如图1，本发明提供一种基于多路径加权和投影一致的单目三维人体位姿无监督学习方法，包括：步骤A：粗糙关节坐标获取；步骤B：注意力机制引入；步骤C：损失计算。

如图2，所述步骤A包括如下步骤：

步骤A1：对于骨骼B_i→j(表示从关节J_i到关节J_j的骨骼)的预测可以分为预测骨长l_i→j和骨骼的单位方向B_d，i→j，这种预测网络相关文献已有详细介绍，其网络只预测真骨骼(相邻关节)的长度和方向。例如，图3为以17个关节表示的人体骨骼框架图，其中包括了头、肩、肘、腕等17个人体关键关节，相邻关节之间的骨骼向量为真骨骼向量。

我们的网络同时对真骨骼B_i→j和假骨骼B'_i→j(非相邻关节)进行预测。例如，图4中用虚线箭头表示了右肘到胸、左肩到左臀、左腕到左踝的骨骼向量，由于向量两端的关节不相邻，因此这些向量表示假骨骼向量。

将预测骨长l_i→j和骨骼的单位方向B_d,i→j，相乘得到骨骼向量B_i→j：

B_d,i→j＝(x_o,i→j,y_o,i→j,z_o,i→j)

B_i→j＝l_i→jB_d,i→j＝(l_i→jx_o，i→j，l_i→jy_o，i→j，l_i→jz_o，i→j)＝(x_i→j，y_i→j,z_i→j)

其中，x₀，y₀，z₀表示骨骼的单位方向向量；x_i→j表示骨骼向量x轴方向分量；y_i→j表示骨骼向量y轴方向分量；z_i→j表示骨骼向量z轴方向分量。

步骤A2：将骨盆位置的关节点设为根关节J_root，基于根关节将人体关节分为三组，上半身S_upbody、左腿S_leftleg、右腿S_rightleg，根关节到每组中的关节有唯一的由真骨骼组成的路径。对于任意的人体非根关节J_t∈S_i(i＝upbody，leftleg，rightleg)，取与该关节不同组的一个关节J_k∈S_k(k＝upbody,leftleg，rightleg，S_k≠S_i)，由根关节J_root到关节J_k的真骨骼路径

其中，

的骨骼向量；B_kn→k表示真骨骼路径最后一条骨骼，即关节

到关节J_k的骨骼向量。

如图5，取目标关节为左膝关节，用黑粗线表示了一条骨骼路径，骨盆→脊柱→胸→脖→左肩→左肘→左膝。其中，骨盆→脊柱，脊柱→胸，胸→脖，脖→左肩，左肩→左肘，这五条骨骼为真骨骼，左肘→左膝的骨骼为假骨骼。

步骤A3：在网络预测得到的骨骼中,由得到的骨骼路径

将对应的骨骼沿路径相加，得到一个对应关节的粗糙坐标

所述步骤B包括如下步骤：

步骤B1：在步骤A中得到了每个关节基于一组骨骼路径的一组粗糙关节坐标，为了衡量每条路径的重要性，设置注意力网络，将所有关节的粗糙关节坐标作为输入，输出得到每条路径对应的注意力W：

W＝(W₁，W₂，…，W_n)

其中，n为关节数，n_t为第t个关节的路径数。

步骤B2：将得到的注意力结合粗糙关节坐标，得到最终预测的关节坐标位置：

如图6，所述步骤C包括如下步骤：

步骤C1：对于由连续两帧2D关节位置图像预测得到的关节3D位置，使用相机参数矩阵，将每个关节的3D位置投影回2D平面，得到关节位置的2D投影。

其中，f为相机焦距，d_x为相机x轴方向一个像素的宽度，d_y为相机沿y轴方向一个像素的宽度。(u₀，v₀)为光心对应图像像素坐标系的坐标，

是相机空间坐标系中，模型预测出的坐标点

对应的图像像素坐标系坐标。

对任意关节点i，在第t帧预测的该关节的3D位置(相机坐标系)

可由公式计算其2D估计位置的坐标

步骤C2：对于每个关节点的投影，计算它在两帧之间的平面位移；

步骤C3：计算每个关节点在输入的2D关节位置图像上的位移，即关节2D位置的实际位移；

如图7，点

为关节i在第t-1帧的2D估计位置，其坐标为

点

为关节i在第t帧的2D估计位置，其坐标为

点P_i，t-1为输入图像中关节i在第t-1帧的2D实际位置，坐标为(u_i,t-1,v_i,t-1)^T，点P_i,t为输入图像中关节i在第t帧的2D实际位置，坐标为(u_i,t,v_i，t)^T。图中向量

即

图中向量

即Δ_i，t。

步骤C4：将投影的平面位移与对应关节点的实际位移作差(如图7)，将所有关节点位移误差的平均值作为损失函数，与常用的单帧投影位置误差联合使用。

其中

表示第t帧中第i个关节预测位置的投影与实际位置的误差。如图7，图中向量

即ε_i，t。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种单目三维人体位姿无监督学习方法，其特征在于，包括：

2.根据权利要求1所述的单目三维人体位姿无监督学习方法，其特征在于，所述步骤A包括如下步骤：

B_d,i→j＝(x_o,i→j,y_o,i→j,z_o,i→j)

B_i→j＝l_i→jB_d,i→j＝(l_i→jx_o,i→j,l_i→jy_o,i→j，l_i→jz_o，i→j)＝(x_i→j,y_i→j,z_i→j)

步骤A2：将骨盆位置的关节点设为根关节J_root，基于根关节将人体关节分为三组：上半身S_upbody、左腿S_leftleg、右腿S_rightleg，根关节到每组中的关节有唯一的由真骨骼组成的路径，对于任意的人体非根关节J_t∈S_i(i＝upbody,leftleg,rightleg)，取与该关节不同组的一个关节J_k∈S_k(k＝upbody，leftleg,rightleg,S_k≠S_i)，由根关节J_root到关节J_k的真骨骼路径