CN116152439A

CN116152439A - 一种基于多视角人体图像的人体三维姿态重建方法及系统

Info

Publication number: CN116152439A
Application number: CN202310191078.5A
Authority: CN
Inventors: 周余; 刘学贵; 于耀
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-23

Abstract

本发明提供一种基于多视角人体图像的人体三维姿态重建方法及系统，属于计算机视觉领域，方法包括：通过多个相机采集多个视角的人体图像；根据多个视角的人体图像、最小深度值、最大深度值、各相机的内参矩阵及外参矩阵，采用预先训练好的编解码网络，确定各人体表面点的深度值；根据各人体表面点的深度值、各相机的内参矩阵及外参矩阵，确定人体点云数据；基于人体点云数据，采用预先训练好的特征提取网络，确定有向包围盒坐标系下的人体三维关键点坐标；将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下，得到相机坐标系下的人体三维关键点坐标，以确定人体三维姿态。本发明提高了人体三维姿态重建的准确性及泛化性。

Description

一种基于多视角人体图像的人体三维姿态重建方法及系统

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于多视角人体图像的人体三维姿态重建方法及系统。

背景技术

人体三维姿态估计旨在从图像或者视频中估计出人体骨架关键点的三维坐标，并按照一定的顺序将关键点连接成骨架整体，是计算机视觉领域中的一个经典问题。人体三维姿态估计可以应用在动捕仿真、行人识别、人机交互等领域。与三维姿态估计比较接近的是二维姿态估计，同样是估计人体骨架关键点坐标，区别在于待估计坐标是在二维空间还是三维空间。近几年随着深度学习的应用越来越广泛，人体姿态估计方向也出现许多基于深度学习的方法，二维姿态估计由于数据集更容易制作，使用基于监督的方法往往能取得不错的效果。但是三维姿态估计由于数据集标注较为困难，加上图片本身缺乏足够的三维空间信息，此前人体三维姿态估计方法往往都是直接从图片提取特征预测出二维或者三维关键点，如果有3D标注，使用3D姿态进行监督训练，如果没有则使用2D姿态进行弱监督训练。这种直接从图片提取特征回归预测关键点的方法容易因为遮挡或者缺乏足够的空间信息影响预测结果，因此，现有的方法无法同时在三维姿态的准确性和不同场景数据之间的泛化性取得理想的结果。

发明内容

本发明的目的是提供一种基于多视角人体图像的人体三维姿态重建方法及系统，可提高人体三维姿态重建的准确性及泛化性。

为实现上述目的，本发明提供了如下方案：

一种基于多视角人体图像的人体三维姿态重建方法，包括：

通过多个相机采集多个视角的人体图像，并确定各相机的内参矩阵、外参矩阵、人体位置距离相机的最小深度值和最大深度值；

根据多个视角的人体图像、所述最小深度值、所述最大深度值、各相机的内参矩阵及外参矩阵，采用预先训练好的编解码网络，确定各人体表面点的深度值；

根据各人体表面点的深度值、各相机的内参矩阵及外参矩阵，确定人体点云数据；所述人体点云数据包括各人体表面点在相机坐标系下的三维坐标；

基于所述人体点云数据，采用预先训练好的特征提取网络，确定有向包围盒坐标系下的人体三维关键点坐标；

将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下，得到相机坐标系下的人体三维关键点坐标，以确定人体三维姿态。

可选地，根据多个视角的人体图像、所述最小深度值、所述最大深度值、各相机的内参矩阵及外参矩阵，采用预先训练好的编解码网络，确定各人体表面点的深度值，具体包括：

采用卷积神经网络提取各人体图像的特征，得到各视角对应的特征图，并确定各特征图中各像素的特征向量；

针对待估计视角的特征图中的任一待估计像素，根据所述最小深度值及所述最大深度值，确定所述待估计像素的多个初始深度值；所述待估计视角为多个视角中的任一视角，所述待估计像素为所述待估计视角的特征图中的任一像素；

针对所述待估计像素的任一初始深度值，根据所述初始深度值、各相机的内参矩阵、各相机的外参矩阵及所述待估计像素在所述待估计视角的特征图中的坐标，确定各目标视角的特征图中目标像素的坐标；所述目标视角为除所述待估计视角外的任一视角；所述目标像素为所述待估计像素的深度为所述初始深度值时目标视角的特征图中对应的像素；

针对任一目标视角，根据所述目标视角的特征图及所述目标视角的特征图中各目标像素的坐标，确定各目标像素的特征向量；

根据所述目标视角的特征图中各目标像素的特征向量，确定所述目标视角的key向量；

基于所述目标视角的key向量及所述待估计像素的特征向量，确定所述目标视角的注意力权值及代价体；

基于所述待估计像素的特征向量、各目标视角的注意力权值及代价体，采用预先训练好的编解码网络，确定所述待估计视角中人体表面点的深度值。

可选地，采用以下公式，确定待估计像素的初始深度值：

d_j＝d_min+(d_max-d_min)/D*j，0≤j≤D-1；

其中，d_j为待估计像素的第j个初始深度值，d_min为最小深度值，d_max为最大深度值，D为预先设定的初始深度值的数量。

可选地，采用以下公式确定待估计像素的深度为第j个初始深度值时目标视角i的特征图中对应的像素的坐标：

其中，(u_i,j,v_i,j)为待估计像素的深度为第j个初始深度值时目标视角i的特征图中对应的像素的坐标，K_i为目标视角i对应的相机的内参矩阵，R_i为目标视角i对应的相机的外参矩阵，K₀为待估计视角对应的相机的内参矩阵，R₀为待估计视角对应的相机的外参矩阵，(u₀,v₀)为待估计像素在待估计视角的特征图中的坐标，d_j为待估计像素的第j个初始深度值。

可选地，基于所述目标视角的key向量及所述待估计像素的特征向量，确定所述目标视角的注意力权值及代价体，具体包括：

根据所述目标视角的key向量及所述待估计像素的特征向量，采用以下公式确定目标视角i的注意力权值：

其中，w_i为目标视角i的注意力权值，v_i为目标视角i的key向量，f_r为待估计像素的特征向量，t_e为温度系数，C为特征图的通道数；

对所述目标视角的key向量与所述待估计像素的特征向量求内积，得到所述目标视角的代价体。

可选地，基于所述人体点云数据，采用预先训练好的特征提取网络，确定有向包围盒坐标系下的人体三维关键点坐标，具体包括：

对所述人体点云数据进行降采样，确定多个参考点；

对各参考点的三维坐标进行主成分分析，计算协方差矩阵；

基于所述协方差矩阵确定有向包围盒的三个坐标轴向量，以建立有向包围盒；

基于所述有向包围盒，将各参考点的三维坐标转换至有向包围盒坐标系下，并归一化，得到归一化点云数据；

根据所述归一化点云数据，采用预先训练好的特征提取网络，确定低维特征向量；

根据所述低维特征向量确定有向包围盒坐标系下的人体三维关键点坐标。

可选地，根据所述归一化点云数据，采用预先训练好的特征提取网络，确定低维特征向量，具体包括：

提取所述归一化点云数据的特征，得到点云特征；

对所述点云特征进行最大池化操作，得到全局特征；

对所述全局特征进行降维，得到低维特征向量。

可选地，采用以下公式确定有向包围盒坐标系下的人体三维关键点坐标：

其中，

为有向包围盒坐标系下的人体三维关键点坐标，F()为训练好的特征提取网络，P^nor为低维特征向量，w为特征提取网络的网络参数，I为预先设定的人体三维关键点主成分，u为预先设定的经验平均值。

可选地，采用以下公式将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下：

其中，

为相机坐标系下的人体三维关键点坐标，/>

为有向包围盒坐标系相对相机坐标系的旋转矩阵，L_obb为有向包围盒的最长轴长度，/>

为有向包围盒坐标系下的人体三维关键点坐标，/>

为有向包围盒坐标系下的点云中心点坐标。

为实现上述目的，本发明还提供了如下方案：

一种基于多视角人体图像的人体三维姿态重建系统，包括：

图像采集单元，用于通过多个相机采集多个视角的人体图像，并确定各相机的内参矩阵、外参矩阵、人体位置距离相机的最小深度值和最大深度值；

深度确定单元，与所述图像采集单元连接，用于根据多个视角的人体图像、所述最小深度值、所述最大深度值、各相机的内参矩阵及外参矩阵，采用预先训练好的编解码网络，确定各人体表面点的深度值；

点云确定单元，与所述深度确定单元连接，用于根据各人体表面点的深度值、各相机的内参矩阵及外参矩阵，确定人体点云数据；所述人体点云数据包括各人体表面点在相机坐标系下的三维坐标；

关键点确定单元，与所述点云确定单元连接，用于基于所述人体点云数据，采用预先训练好的特征提取网络，确定有向包围盒坐标系下的人体三维关键点坐标；

姿态确定单元，与所述关键点确定单元连接，用于将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下，得到相机坐标系下的人体三维关键点坐标，以确定人体三维姿态。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明先从多视角人体图像中估计人体点云数据，再根据人体点云数据中估计人体三维姿态，多视角图像弥补了单视角图像本身深度信息缺失的问题，提高了姿态重建的准确性，并且先确定人体表面点的深度，得到人体表面点云，最大程度地保留了人体三维姿态的空间信息，提高了姿态重建的泛化性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明人体三维姿态重建方法的流程图；

图2为人体表面点的深度值确定方法的流程图；

图3为人体三维关键点坐标确定方法的流程图；

图4为人体三维姿态重建的原理图；

图5为本发明基于多视角人体图像的人体三维姿态重建系统的示意图。

符号说明：

图像采集单元-1，深度确定单元-2，点云确定单元-3，关键点确定单元-4，姿态确定单元-5。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于多视角人体图像的人体三维姿态重建方法及系统，不需要三维姿态标签进行监督训练，在保证三维姿态重建准确性的同时提升泛化性，以解决带有真实人体三维姿态标签数据集数量较少，导致人体姿态估计网络训练效果不理想的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本实施例提供一种基于多视角人体图像的人体三维姿态重建方法，包括：

S1：通过多个相机采集多个视角的人体图像，并确定各相机的内参矩阵、外参矩阵、人体位置距离相机的最小深度值和最大深度值。

在本实施例中，采用多台KinectV2采集多视角下的人体rgbd图像，并使用张正友相机标定法标定多个相机的内参和外参。

具体地，将三个深度相机放置在不同的位置，由于KinectV2通过红外摄像头投射红外线形成反射光，根据光线飞行时间计算物体表面深度，三个相机同时获取深度会存在干扰，在实际拍摄时，采用中间正对人体的相机采集深度和rgb图像，其余两个相机的红外摄像头采用黑色塑料片遮挡，只采集rgb图像。三个相机采用程序控制顺序触发，虽然各相机不是通过硬件同步，但是由于三个相机采集传输一帧图像的时间比较短，因此可以认为三个相机采集图像的过程中人的姿态并未发生变化。

图像采集的过程中，保持三个相机位置不动，让被拍摄者在场景中央做动作，中间相机连续拍摄rgb图像和深度图像，左右相机连续拍摄rgb图像。从拍摄得到的视频中，每隔5帧选取一帧作为数据集，使用2D关键点检测网络检测得到人体关键点J，根据关键点进行裁剪，使得人体位于图像中间位置，将图片分辨率调整成1024*1024。

S2：根据多个视角的人体图像、所述最小深度值、所述最大深度值、各相机的内参矩阵及外参矩阵，采用预先训练好的编解码网络，确定各人体表面点的深度值。

本发明使用基于深度搜索寻找不同视角像素匹配点并引入注意力机制来提升准确度的方式估计人体表面点深度，再使用相机内参计算出人体表面点云坐标。具体地，本发明不需要额外的预处理过程，而是根据场景中人的活动范围确定最小深度和最大深度，将本来在极线搜索像素匹配点的过程转换成在最小深度和最大深度之间采样深度，再根据采样深度在其他视角特征图进行特征采样。

进一步地，如图2所示，S2具体包括：

S21：采用卷积神经网络提取各人体图像的特征，得到各视角对应的特征图

并确定各特征图中各像素的特征向量。其中，f_i为视角i的特征图。

S22：针对待估计视角的特征图中的任一待估计像素，根据所述最小深度值及所述最大深度值，确定所述待估计像素的多个初始深度值。其中，所述待估计视角为多个视角中的任一视角，所述待估计像素为所述待估计视角的特征图中的任一像素。

具体地，采用以下公式，确定待估计像素的初始深度值：

d_j＝d_min+(d_max-d_min)/D*j，0≤j≤D-1；

根据每一个初始深度值都可以计算出其在其他视角的特征图上对应的像素坐标，初始深度值的数量与其他任一视角的特征图像素的数量相等。

S23：针对所述待估计像素的任一初始深度值，根据所述初始深度值、各相机的内参矩阵、各相机的外参矩阵及所述待估计像素在所述待估计视角的特征图中的坐标，确定各目标视角的特征图中目标像素的坐标。

其中，所述目标视角为除所述待估计视角外的任一视角。所述目标像素为所述待估计像素的深度为所述初始深度值时目标视角的特征图中对应的像素。

具体地，基于上述假设的初始深度值d_j，通过相机内外参可以计算得到待估计视角的特征图中位置为(u₀,v₀)的像素深度为d_j时，视角i的特征图中对应的像素坐标(u_i,j,v_i,j)：

其中，(u_i,j,v_i,j)为待估计像素的深度为第j个初始深度值时目标视角i的特征图中对应的像素的坐标，K_i为目标视角i对应的相机的内参矩阵，R_i为目标视角i对应的相机的外参矩阵，K₀为待估计视角对应的相机的内参矩阵，R₀为待估计视角对应的相机的外参矩阵，

为待估计视角对应的相机的内参逆矩阵，/>

为待估计视角对应的相机的外参逆矩阵，(u₀,v₀)为待估计像素在待估计视角的特征图中的坐标，d_j为待估计像素的第j个初始深度值。

S24：针对任一目标视角，根据所述目标视角的特征图及所述目标视角的特征图中各目标像素的坐标，确定各目标像素的特征向量。

具体地，基于上述计算得到的目标像素的坐标(u_i,j,v_i,j)，采用双线性插值得到在采样深度值为d_j时，目标视角i的特征图f_i上坐标为(u_i,j,v_i,，j)的目标像素的特征向量

其中，BL()表示双线性插值操作。

S25：根据所述目标视角的特征图中各目标像素的特征向量，确定所述目标视角的key向量。

具体地，D个初始深度值对应D个特征向量

将D个特征向量合并成一个新的张量/>

其形状大小为[C,D]，/>

对张量沿深度所在维度进行softmax操作，得到目标视角在注意力机制中的key向量v_i：

S26：基于所述目标视角的key向量及所述待估计像素的特征向量，确定所述目标视角的注意力权值及代价体。

具体地，将待估计像素的特征向量f_r作为注意力机制中的query向量，采用以下公式确定目标视角i的注意力权值：

其中，w_i为目标视角i的注意力权值，v_i为目标视角i的key向量，f_r为待估计像素的特征向量，f_r的形状大小为[C]，t_e为温度系数，C为特征图的通道数。

对所述目标视角的key向量与所述待估计像素的特征向量求内积，得到所述目标视角的代价体s_i：s_i＝(v_i,f_r)，(,)表示求内积操作。代价体用于衡量待估计视角特征和其他视角特征的匹配程度。

S27：基于所述待估计像素的特征向量、各目标视角的注意力权值及代价体，采用预先训练好的编解码网络，确定所述待估计视角中人体表面点的深度值。

具体地，基于各目标视角的注意力权值及代价体，计算编解码网络的输入数据

其中，N为目标视角的数量。基于输入数据c和待估计像素的特征向量f_r，使用编解码网络预测输出待估计视角中人体表面点的深度值/>

在编解码网络的训练过程中，基于估计的深度值

和相机采集得到的人体表面点深度真值d构建深度监督损失函数：/>

其中，l为深度监督损失函数值。通过梯度下降最小化损失函数，使用Adam优化算法迭代训练集中样本求解网络的最优参数，即可得到训练好的编解码网络。

本发明在融合待估计视角和其他视角特征相关结果时，引入注意力机制，待估计视角特征f_r作为注意力机制中的query向量，而其他视角特征向量

沿深度维度进行concat和softmax操作，得到注意力机制中的key向量v_i，计算得到对于不同视角特征的注意力权值w_i，在没有引入新的网络参数的同时利用三维空间的信息进行代价聚合。

S3：根据各人体表面点的深度值、各相机的内参矩阵及外参矩阵，确定人体点云数据。所述人体点云数据包括各人体表面点在相机坐标系下的三维坐标：

其中，(u,v)为人体表面点坐标，/>

为人体表面点(u,v)的深度值，P^cam为人体表面点(u,v)在相机坐标系下的三维坐标，K为相机内参矩阵。

S4：基于所述人体点云数据，采用预先训练好的特征提取网络，确定有向包围盒坐标系下的人体三维关键点坐标。

具体地，先对人体点云数据进行OBB(Oriented Bounding Box，有向包围盒)坐标系下的归一化，再通过特征提取网络提取可表征人体三维姿态的特征向量，并借助主成分分析的方法建立特征向量和三维关键点坐标的映射关系，构建监督和自监督约束，以对特征提取网络进行训练。

进一步地，如图3所示，S4具体包括：

S41：对所述人体点云数据进行降采样，确定M个参考点。

S42：为了求解得到紧贴M个参考点的OBB包围盒，对M个参考点的三维坐标(x_1a,x_2a,x_3a)，a＝1,2...M进行主成分分析，计算协方差矩阵A:

S43：基于所述协方差矩阵确定有向包围盒的三个坐标轴向量，以建立有向包围盒。

具体地，基于协方差矩阵A，根据线性代数求解满足方程|A-λE|＝0的λ值，即协方差矩阵A的特征值λ，其中，E为3*3的单位矩阵。取最大的三个特征值，分别代入方程(A-λE)x＝0中，求解x，得到3个三维的特征向量，分别作为OBB的三个坐标轴向量。

S44：基于所述有向包围盒，将各参考点的三维坐标转换至有向包围盒坐标系下，并归一化，得到归一化点云数据。

具体地，为了使特征提取网络可以处理任意朝向任意点云数量的人体点云，先对原始点云数据进行降采样到固定个数，再将相机坐标系下的三维坐标P^cam转换到紧贴点云的OBB坐标系下并进行归一化处理。采用公式

将参考点的三维坐标转换至有向包围盒坐标系下，采用公式/>

对参考点在有向包围盒坐标系下的坐标归一化，其中，P^obb为参考点在有向包围盒坐标系下的坐标，/>

为包围盒坐标系相对相机坐标系的旋转矩阵，/>

为有向包围盒坐标系下的点云中心点坐标，L_obb为有向包围盒的最长轴长度。

S45：根据所述归一化点云数据，采用预先训练好的特征提取网络，确定低维特征向量。

具体地，首先采用多层感知机提取所述归一化点云数据的特征，得到M*C维点云特征。然后对M*C维点云特征进行最大池化操作，得到全局特征。最后采用多层感知机对全局特征进行降维，得到低维特征向量。

本发明使用多层感知机和最大池化层构建特征提取网络，提取人体点云特征向量，通过对训练数据集真实三维关键点坐标进行主成分分析得到数据集人体姿态的主成分，建立特征向量和三维关键点坐标的映射。

S46：根据所述低维特征向量确定有向包围盒坐标系下的人体三维关键点坐标。如图4所示为人体三维姿态重建的原理图。

具体地，采用以下公式确定有向包围盒坐标系下的人体三维关键点坐标：

其中，

为有向包围盒坐标系下的人体三维关键点坐标，F()为训练好的特征提取网络，P^nor为低维特征向量，w为特征提取网络的网络参数，I为预先设定的人体三维关键点主成分，u为经验平均值。

S5：将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下，得到相机坐标系下的人体三维关键点坐标，以确定人体三维姿态。

具体地，采用以下公式将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下：

其中，

为相机坐标系下的人体三维关键点坐标，/>

为有向包围盒坐标系下的人体三维关键点坐标，/>

为有向包围盒坐标系下的点云中心点坐标。

在对特征提取网络的训练过程中，基于低维特征向量构建监督约束项：

其中，L_fs为监督约束值，θ为正则化项系数，/>

为真实三维关键点的F维投影向量，通过对训练集真实三维关键点坐标进行主成分分析得到：/>

X^nor为归一化后的真实人体三维关键点坐标。

设训练集中存在H张图像，每张图像上人体三维关键点的数量为G，每个人体三维关键点包括三个坐标值，可以得到数据集中所有图像的关键点坐标矩阵B，B的维度为[3*G,H]，即3*G行，H列数据，每一列代表一张图片的3*G个坐标值。对矩阵B的每一行求均值可得到3*G个值，作为人体关键点的经验平均值u。再将矩阵B每一行元素减去该行所经验平均值。计算协方差矩阵

根据线性代数求解满足方程|Q-λE|＝0的λ′值，即矩阵Q的特征值λ′，其中E为单位矩阵，取最大的S个λ′值，分别代入方程(Q-λ′E)x＝0，求解x，得到S个特征向量作为人体三维关键点主成分I。

基于相机坐标系下的三维人体关键点，根据相机内参K将其投影到图像坐标系，得到预测二维人体关键点

使用OpenPose检测得到人体图像中的实际二维人体关键点J。

基于实际二维人体关键点及预测二维人体关键点构建弱监督约束项：

其中，L_ws为弱监督约束值。

基于监督约束项L_fs和弱监督约束项L_ws，构建人体点云特征提取网络训练阶段的总约束项：

通过梯度下降最小化总约束项，使用Adam优化算法迭代训练集中样本求解网络参数w，以得到训练好的特征提取网络。

本发明结合使用监督和自监督两种方式，监督约束的是人体三维姿态对应的特征向量，自监督约束的是三维姿态特征向量映射的三维坐标投影到图像上的二维关键点坐标。即使在缺乏真实三维标签的数据集上也能进行训练并且测试效果较好，一定程度上缓解了3D姿态难以标注的状况，提升了姿态重建的泛化性。

综上，本发明使用多台KinectV2采集多视角人体rgbd图片；利用Kinect V2 rgbd数据集训练出从多视角人体图片估计人体表面点深度的网络模型，包括采用基于深度搜索的方式确定不同视角之间匹配点，使用注意力机制区分不同采样深度下其他视角特征的重要性；基于深度重建出来的人体点云数据估计人体三维关键点位置，包括使用特征提取网络提取人体点云特征，使用主成分分析方法建立人体点云特征向量到三维关键点的映射关系，可应用于人机交互、行人识别、虚拟现实等领域。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种基于多视角人体图像的人体三维姿态重建系统。

如图5所示，本实施例提供的基于多视角人体图像的人体三维姿态重建系统包括：图像采集单元1、深度确定单元2、点云确定单元3、关键点确定单元4及姿态确定单元5。

其中，图像采集单元1用于通过多个相机采集多个视角的人体图像，并确定各相机的内参矩阵、外参矩阵、人体位置距离相机的最小深度值和最大深度值。

深度确定单元2与所述图像采集单元1连接，深度确定单元2用于根据多个视角的人体图像、所述最小深度值、所述最大深度值、各相机的内参矩阵及外参矩阵，采用预先训练好的编解码网络，确定各人体表面点的深度值。

点云确定单元3与所述深度确定单元2连接，点云确定单元3用于根据各人体表面点的深度值、各相机的内参矩阵及外参矩阵，确定人体点云数据。所述人体点云数据包括各人体表面点在相机坐标系下的三维坐标。

关键点确定单元4与所述点云确定单元3连接，关键点确定单元4用于基于所述人体点云数据，采用预先训练好的特征提取网络，确定有向包围盒坐标系下的人体三维关键点坐标。

姿态确定单元5与所述关键点确定单元4连接，姿态确定单元5用于将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下，得到相机坐标系下的人体三维关键点坐标，以确定人体三维姿态。

相对于现有技术，本实施例提供的基于多视角人体图像的人体三维姿态重建系统与实施例一提供的基于多视角人体图像的人体三维姿态重建方法的有益效果相同，在此不再赘述。

实施例三

本实施例提供一种电子设备，包括存储器及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行实施例一的基于多视角人体图像的人体三维姿态重建方法。

可选地，上述电子设备可以是服务器。

另外，本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例一的基于多视角人体图像的人体三维姿态重建方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多视角人体图像的人体三维姿态重建方法，其特征在于，所述基于多视角人体图像的人体三维姿态重建方法包括：

2.根据权利要求1所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，根据多个视角的人体图像、所述最小深度值、所述最大深度值、各相机的内参矩阵及外参矩阵，采用预先训练好的编解码网络，确定各人体表面点的深度值，具体包括：

3.根据权利要求2所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，采用以下公式，确定待估计像素的初始深度值：

d_j＝d_min+(d_max-d_min)/D*j，0≤j≤D-1；

4.根据权利要求2所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，采用以下公式确定待估计像素的深度为第j个初始深度值时目标视角i的特征图中对应的像素的坐标：

其中，(u_i,j,v_,j)为待估计像素的深度为第j个初始深度值时目标视角i的特征图中对应的像素的坐标，K_i为目标视角i对应的相机的内参矩阵，R_i为目标视角i对应的相机的外参矩阵，K₀为待估计视角对应的相机的内参矩阵，R₀为待估计视角对应的相机的外参矩阵，(u₀,v₀)为待估计像素在待估计视角的特征图中的坐标，d_j为待估计像素的第j个初始深度值。

5.根据权利要求2所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，基于所述目标视角的key向量及所述待估计像素的特征向量，确定所述目标视角的注意力权值及代价体，具体包括：

6.根据权利要求1所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，基于所述人体点云数据，采用预先训练好的特征提取网络，确定有向包围盒坐标系下的人体三维关键点坐标，具体包括：

对所述人体点云数据进行降采样，确定多个参考点；

对各参考点的三维坐标进行主成分分析，计算协方差矩阵；

7.根据权利要求6所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，根据所述归一化点云数据，采用预先训练好的特征提取网络，确定低维特征向量，具体包括：

提取所述归一化点云数据的特征，得到点云特征；

对所述点云特征进行最大池化操作，得到全局特征；

对所述全局特征进行降维，得到低维特征向量。

8.根据权利要求6所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，采用以下公式确定有向包围盒坐标系下的人体三维关键点坐标：

其中，

为有向包围盒坐标系下的人体三维关键点坐标，F()为训练好的特征提取网络，P^nor为低维特征向量，w为特征提取网络的网络参数，I为预先设定的人体三维关键点主成分，u为预先设定的经验平均值。/>

9.根据权利要求1所述的基于多视角人体图像的人体三维姿态重建方法，其特征在于，采用以下公式将有向包围盒坐标系下的人体关键点坐标转换到相机坐标系下：

其中，

为相机坐标系下的人体三维关键点坐标，/>

为有向包围盒坐标系下的人体三维关键点坐标，/>

为有向包围盒坐标系下的点云中心点坐标。

10.一种基于多视角人体图像的人体三维姿态重建系统，其特征在于，所述基于多视角人体图像的人体三维姿态重建系统包括：