CN110751039A

CN110751039A - 多视图3d人体姿态估计方法及相关装置

Info

Publication number: CN110751039A
Application number: CN201910880173.XA
Authority: CN
Inventors: 王义文; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-02-04
Anticipated expiration: 2039-09-18
Also published as: CN110751039B; WO2021051526A1

Abstract

本发明实施例提供了一种多视图3D人体姿态估计方法及相关装置，包括：获取连续时间段中第一时刻的3D人体姿态，直至获取所述连续时间段中所有时刻的3D人体姿态，所述连续时间段包括多个时刻，所述第一时刻为所述连续时间段中任意一个时刻；将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态；通过该方法可提高预估的3D人体姿态的精确性。

Description

多视图3D人体姿态估计方法及相关装置

技术领域

本申请涉及人体姿态估计领域，特别涉及一种多视图3D人体姿态估计方法及相关装置。

背景技术

3D姿态重建是一个非常活跃的研究和开发领域。精确的系统可以从给定的人体中提取3D信息，提取他们的关节和肢体。然而与视觉解决方案相比，这些系统通常非常昂贵，易受干扰并且需要重要的硬件和人力资源，市场需求不大。

随着深度学习的发展，3D人体姿态估计比较流行的做法是使用单个二维图像进行提取，因为从单一视图的信息提取深度信息具有很大的灵活性。但是3D姿态估计本身具有开放性并且由于外部因素影响，如人的外表，衣服或自我遮挡的变化之类的其他因素，从单张二维图像进行姿态估计的准确性较低。

发明内容

本申请实施例提供了一种多视图3D人体姿态估计方法及相关装置可提高预估的3D人体姿态的精确性。

第一方面，本申请实施例提供一种多视图3D人体姿态估计方法，所述方法包括：

获取连续时间段中第一时刻的3D人体姿态，直至获取所述连续时间段中所有时刻的3D人体姿态，所述连续时间段包括多个时刻，所述第一时刻为所述连续时间段中任意一个时刻；

将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态；

其中，所述获取连续时间段中第一时刻的3D人体姿态包括：

获取连续时间段中第一时刻的不同视角的N张2D视图，N为正整数；

通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段，其中，置信度图为2D视图中各个像素点为关键点的概率矩阵，部分亲和字段为2D矢量字段组，用于对体段的位置和方向进行编码；

将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态。

第二方面，本申请实施例提供一种多视图3D人体姿态估计装置，所述多视图3D人体姿态估计装置包括：

获取单元，用于获取连续时间段中第一时刻的3D人体姿态，直至获取所述连续时间段中所有时刻的3D人体姿态，所述连续时间段包括多个时刻，所述第一时刻为所述连续时间段中任意一个时刻；所述获取连续时间段中第一时刻的3D人体姿态包括：获取连续时间段中第一时刻的不同视角的N张2D视图，N为正整数，以及通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段，其中，置信度图为2D视图中各个像素点为关键点的概率矩阵，部分亲和字段为2D矢量字段组，用于对体段的位置和方向进行编码，以及将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态；

预估单元，用于将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口，以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本发明实施例中获取连续时间段中第一时刻的3D人体姿态，直至获取所述连续时间段中所有时刻的3D人体姿态，所述连续时间段包括多个时刻，所述第一时刻为所述连续时间段中任意一个时刻；将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态；本申请实施例可提高预估的3D人体姿态的精确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多视图3D人体姿态估计方法的流程示意图；

图2是本申请实施例提供的获取第一时刻的3D人体姿态的流程示意图；

图3是本申请实施例提供的获取第一时刻的3D人体姿态的流程示意图；

图4为本申请实施例提供的一种电子设备的结构示意图；

图5为本申请实施例提供了一种多视图3D人体姿态估计装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的终端可以包括各种具有无线通信功能的手持设备、车载设备、无线耳机、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminal device)等等，终端例如可以为智能手机、平板电脑、耳机盒等等。为方便描述，上面提到的设备统称为终端。

参阅图1，图1为本申请实施例提供的一种多视图3D人体姿态估计方法的流程示意图，所述方法包括：

101、服务器获取连续时间段中第一时刻的3D人体姿态，直至获取所述连续时间段中所有时刻的3D人体姿态，所述连续时间段包括多个时刻，所述第一时刻为所述连续时间段中任意一个时刻。

其中，本申请实施例中的多视图3D人体姿态估计方法应用于服务器，所述连续时间段可以为1s，2s，5s，10s等，因为时间较短，所以在所述连续时间段中所得到的3D人体姿态是平滑且连续变化的。

其中，所述获取连续时间段中第一时刻的3D人体姿态包括：

A1、获取连续时间段中第一时刻的不同视角的N张2D视图，N为正整数。

其中，所述连续时间段中每个时刻都通过N个放置于不同角度的摄像机获取人体的N张2D视图。

A2、通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段，其中，置信度图为2D视图中各个像素点为关键点的概率矩阵，部分亲和字段为2D矢量字段组，用于对体段的位置和方向进行编码。

其中，置信度图是与原始图像具有相同大小的矩阵，其中每个元素存储视图中各像素点为关键点的概率，根据置信度图可以从视图中确定为关键点的像素点。部分亲和字段是一组2D矢量字段，用于对图像域上的体段的位置和方向进行编码，对于属于特定体段区域中的每个像素，2D矢量字段的方向为从体段的一部分指向另一部分，在确认肢体各关键点后，可根据部分亲和字段将人体的肢体分段分部分的连接起来，最终得到人体的整体骨架。

A3、将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态。

其中，在已知摄像机的内参数和外参数的前提下，可根据所述N个置信度图和所述N个部分亲和字段得到人体关键点的3D优化坐标，进一步根据3D优化坐标得到所述3D人体姿态。

102、所述服务器将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态。

其中，所述目标LSTM网络模型预先经过训练，可以实现根据输入的连续时间段内的所述3D人体姿态预估连续时间段之后下一时刻的3D人体姿态，其训练方法如下：

建立初始LSTM网络模型；

数据集中选取训练样本；

通过所述训练样本对所述初始LSTM网络模型进行训练，得到所述目标LSTM网络模型。

其中，Human3.6M数据集有360万个3D人体姿势和相应的图像，共有11个实验者，17个动作场景，该数据由4个数字摄像机，1个时间传感器，10个运动摄像机捕获，因此可从中选取同一人在连续时间段中不同时刻的3D人体姿势图像作为训练样本。每次迭代训练的帧数量为2048，时期数量(单位时间内帧数量)为200，对训练集应用随机操作进行训练，以避免在每批训练过程中关闭非常相似的序列。在训练过程中，选取均方误差作为损失函数，选择Adam优化算法对数据集进行优化训练，从而加快收敛速度，减少超参数变化范围。

其中，连续时间步骤中的姿态密切相关，且姿态变化很小，当帧速率为每秒50帧时，人体肢体和关节执行的轨迹应视为平滑，通过整合空间和时间信息可以改进3D姿态估计结果，一方面，系统性能受错过的检测的影响较小，另一方面，系统可以根据过程历史的平滑性来改善不精确的3D估计。据此可以根据在时间步长t-D到t-1的3D姿态来估计在时间t的姿态，其中D为时间窗口，用于估计的先前帧的数量。LSTM神经网络中的很多窗口是视频序列上的滑动窗口，具有1帧的步幅。LSTM神经网络的结构特点如下：

(i)大小为D×N3×3的输入数据；

(ii)具有256个隐藏单元的隐藏层的LSTM；

(iii)具有N3×3隐藏单元的完全连接网络ReLU作为激活函数；

(iv)大小为N3×3的输出层。

其中，N3是关键点的个数，在本申请实施例中，N3为14。

可见，通过这种方法估计3D人体姿态估计受漏检关键点的影响较小，3D人体姿态估计可以基于过程历史来消除漏检关键点的影响，此外，系统也可以根据过程历史的平滑性来改善不精确的3D估计。

参阅图2，图2为本申请实施例提供的获取第一时刻的3D人体姿态的流程示意图，包括：

201、获取连续时间段中第一时刻的不同视角的N张2D视图，N为正整数。

202、通过2D姿态检测网络模型获取N张2D视图的N个置信度图，所述N个置信度图与所述N张2D视图一一对应。

203、根据所述N个置信度图确定所述N张2D视图中每张2D视图的M个关键点，M为正整数。

204、确定所述N张2D视图中每张2D视图的所述M个关键点的位置和方向，得到所述N张2D视图的N个部分亲和字段。

205、将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态。

其中，所述2D姿态检测网络为双分支多级CNN神经网络，它由连续的卷积层组成，分为两个分支，两个分支分别用于确定置信度图和部分亲和字段，所述2D姿态检测网络预先通过Microsoft COCO数据集和Human3.6M数据集中的数据对所述2D姿态检测网络进行训练，Microsoft COCO数据集是一个图像识别分割和字幕的数据集，它使用18个关键点组成的全身模型来表示人体姿态，Human3.6M数据集是3D数据集，该数据集考虑了32个关键点的全身模型，但它使用17个关键点来表示人体姿态，综合考虑，选择两个数据集中共有的14个关键点作为本申请中人体的关键点。下表1为COCO数据集的关键点和Human3.6M数据集的关键点之间的对应关系，根据表1可确定两种模型中关键点之间的对应关系，表1中的序号为各关键点在各自的数据集中的编号顺序。训练后的所述2D姿态检测网络对输入的所述N张2D视图中的一张视图进行分析，得到该图像的特征图F，然后根据该特征图F生成一组检测置信图S1＝ρ1(F)，通过贪狼算法对检测置信图S1进行迭代预测，直至损失函数最小为止，得到该视图的所述置信度图，因为所述置信度图中存有该视图各个像素点为关键点的概率，因此可根据所述置信度图得到M个关键点，然后根据M个关键点和人体各段的位置和方向得到所述部分亲和字段。

表1 COCO数据集的关键点和Human3.6M数据集的关键点之间的对应关系

描述对象	COCO关键点	Human3.6M关键点
			鼻子	0	14
颈部	1	13
			右肩	2	25
右肘	3	26
			右手腕	4	27
左肩	5	17
			左肘	6	18
左手腕	7	19
			右髋	8	1
右膝	9	2
			右脚踝	10	3
左髋	11	6
			左膝	12	7
左脚踝	13	8

可见，通过所述2D姿态检测网络可以获取目标视图的所述部分亲和字段，且精确度高，结果输出快。

参阅图3，图3为本申请实施例提供的获取第一时刻的3D人体姿态的流程示意图，包括：

301、获取连续时间段中第一时刻的不同视角的N张2D视图，N为正整数。

302、通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段，其中，置信度图为2D视图中各个像素点为关键点的概率矩阵，部分亲和字段为2D矢量字段组，用于对体段的位置和方向进行编码。

303、将所述第一时刻的所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中。

304、根据所述N个置信度图获取所述N张2D视图的N个整体置信度，所述N个整体置信度与所述N张2D视图一一对应。

其中，步骤304包括：

B1、根据所述第r个置信度图确定所述第r张2D视图的M个关键点以及所述M个关键点的M个置信度，所述M个关键点与所述M个置信度一一对应；

B2、赋予所述M个关键点M个权重，所述M个关键点与所述M个权重一一对应；

B3、根据所述M个置信度和所述M个权重计算所述第r张2D视图的整体置信度；

B4、重复执行B1-B3，直至得到所述N张2D视图的N个整体置信度。

其中，不同的关键点重要程度不同，根据其重要程度赋予不同的权重，例如颈部因为同时连接头部和身体，并且性质稳定不易改变，所以在获取图像以及图像处理的过程中，常使用颈部来定位和实现精确检测，相应的，赋予颈部的权重较其他关键点更大，显然，若一张2D视图中重要的关键点的置信度较高，则计算出来的该2D视图的整体置信度也较高。

可见，通过确定2D视图的整体置信度可以筛选出整体置信度更高的视图，也可以找出整体置信度较低的视图，从而可根据整体置信度更高的视图得到更精确的3D人体姿态。

305、根据所述N个整体置信度从所述N张2D视图中选取整体置信度最高的第一视图和第二视图，并从所述N张2D视图中去除所述整体置信度低于阈值的2D视图。

其中，将所述N张2D视图按照所述N个整体置信度从高到低排序，可以筛选出所述整体置信度低于阈值的2D视图以及所述整体置信度低于阈值的2D视图，所述第一视图的所述整体置信度在所述N张2D视图中最高，所述第二视图的所述整体置信度在所述N张2D视图中第二高。

306、根据所述第一视图中的所述部分亲和字段和所述第二视图中的所述部分亲和字段获取所述M个关键点中每个关键点的3D初始坐标。

其中，步骤306包括：

C1、所述第一视图中的所述部分亲和字段获取所述第一视图中的所述M个关键点的M个第一平面坐标，根据所述第二视图中的所述部分亲和字段获取所述第二视图中的所述M个关键点的M个第二平面坐标；

C2、获取所述第一视图对应的摄像机的第一内参数矩阵，获取所述第二视图对应的摄像机的第二内参数矩阵；

C3、根据所述第一内参数矩阵、所述第二内参数矩阵、所述M个第一平面坐标和所述M个第二平面坐标建立方程组；

C4、解所述方程组，得到所述M个关键点中每个关键点的所述3D初始坐标。

307、将所述M个关键点中每个关键点的所述3D初始坐标投影到其他视图中，得到所述M个关键点中每个关键点的所述3D初始坐标在所述其他视图中的投影坐标，所述其他视图为所述N张2D视图中除所述第一视图和所述第二视图以及所述整体置信度低于阈值的所述2D视图以外的视图。

308、根据所述M个关键点中每个关键点在所述其他视图中每个视图的原始平面坐标和所述投影坐标计算所述M个关键点中每个关键点在所述其他视图中每个视图的再投影误差。

其中，第i个关键点为所述M个关键点中任意一个关键点，i为不大于M的正整数，通过以下公式得到第i个关键点的再投影误差：

其中，所述第i个关键点在所述第r张2D视图中的所述原始平面坐标为

所述第i个关键点在所述第r张2D视图中的所述投影坐标为

所述第i个关键点在所述第r张2D视图中的再投影误差为RPE((x,y,z)_i,t,r)。所述第r张2D视图可为所述N张2D视图中任意一张2D视图，在该实施例中，因为是所述第一时刻，所以，t＝1，上述公式中所述再投影误差由所述原始平面坐标和所述投影坐标的平方差得到，其中，E表示为原始平面坐标，P表示为投影坐标。

309、计算所述M个关键点中每个关键点在所述其他视图中每个视图的所述再投影误差的加权和，得到所述M个关键点的M个再投影误差和，所述M个再投影误差和与所述M个关键点一一对应。

其中，所述加权和是根据所述其他视图中每个视图的所述整体置信度分别赋予不同的权重后，再计算所述M个关键点中每个关键点在所述其他视图中每个视图的所述再投影误差，将某个关键点在每个视图中的所述再投影误差与其对应视图的权重相乘后相加，即得到该关键点的再投影误差和，通过上述方法获得所述M个关键点的M个再投影误差和，所述第i个关键点的所述再投影误差和如下：

其中，r_P,s(t，r，i)表示在时间t(第一时刻)和所述第r张2D视图处对所述第i个关键点的骨架姿态(P，S)的检测置信度，即权重，T是检测置信度高于阈值的一组2D视图，可见，关键点的所述再投影误差和越大，则该关键点的3D坐标与实际偏差越大，越不精确，因此需要最小化每个关键点的所述再投影误差和。

310、最小化所述M个再投影误差和中每个再投影误差和，得到M个3D优化坐标，根据所述M个3D优化坐标得到所述第一时刻的3D人体姿态，所述M个3D优化坐标与所述M个关键点一一对应。

其中，所述最小化所述M个再投影误差和中每个再投影误差和，得到M个3D优化坐标包括：

S1、赋值i＝1；

S2、以位于所述第i个关键点的所述3D初始坐标处的点为第一节点，根据所述第一节点的3D初始坐标计算所述第i个关键点的目标再投影误差和，所述目标再投影误差和为所述第一节点在所述其他视图中每个视图的所述再投影误差的和，执行S3；

S3、在所述第一节点领域内选取参考节点，确定所述参考节点的3D坐标，根据所述参考节点的3D坐标计算参考再投影误差和，执行S4；

S4、比较所述目标再投影误差和与所述参考再投影误差和的大小，选取所述目标再投影误差和与所述参考再投影误差和中较小者作为新目标再投影误差和，用所述新目标再投影误差和替代所述目标再投影误差和，执行S5；

S5、重复执行S3和S4，直至满足预设条件，得到所述第i个关键点的所述3D优化坐标，将所述第i个关键点的所述3D优化坐标加入第一集合；

S6、i＝i+1，判断i是否小于M，若i小于等于M，返回S2，若i大于M，输出i＝M时的所述第一集合，根据i＝M时的所述第一集合得到所述M个3D优化坐标。

其中，所述参考节点为所述第i个关键点在空间中实际对应的点，通过在所述第一节点领域内随机选取得到，可根据实际情况定义所述第一节点领域的范围，上述获取再投影误差和的方法实际上通过Levenberg-Marquardt最小二乘法实现，在Levenberg-Marquardt最小二乘法中，可舍弃置信度低于阈值的关键点，从而可保证每个视图中的再投影误差和最小化，以所述第i个关键点的所述3D初始坐标处的点为第一节点即初始点，根据该初始点在其领域范围内在有限次迭代计算过程中寻求一个最优值，如果在一次迭代中所述第i个关键点的再投影误差和下降，则用新的再投影误差和取代上一个再投影误差和，继续迭代，否则舍弃在这次迭代中所得到的再投影误差和，重新选点计算再投影误差和，在本实施例中，迭代次数最多15次，本申请对迭代次数不做限定，当达到预设条件即迭代了15次时，可得到所述第i个关键点的最小再投影误差和，同时也得到最小再投影误差和对应的3D坐标。重复执行获取所述第i个关键点的3D优化坐标的方法，可得到所述M个3D优化坐标，根据所述M个3D优化坐标以及所述M个关键点的方向可以得到所述第一时刻的3D人体姿态。

此外，本实施例中将漏检的关键点视为距离关键点“颈部”非常远的关键点，即距离颈部2米以上的关键点认为是漏检关键点，不作处理。

可见，通过所述3D姿态重建网络模型可以得到所述第一时刻的精确的3D人体姿态，且时间段，效率高。

请参阅图4，图4为本申请实施例提供的一种电子设备的结构示意图，如图所示，包括处理器、存储器、通信接口，以及一个或多个程序，所述程序被存储在所述存储器中，并且被配置由所述处理器执行。所述程序包括用于执行以下步骤的指令：

将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态。

在一个可能的示例中，在所述获取连续时间段中第一时刻的3D人体姿态方面，所述程序包括用于执行以下步骤的指令：

在一个可能的示例中，在所述通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段方面，所述程序包括用于执行以下步骤的指令：

通过所述2D姿态检测网络模型获取所述N张2D视图的所述N个置信度图，所述N个置信度图与所述N张2D视图一一对应；

根据所述N个置信度图确定所述N张2D视图中每张2D视图的M个关键点，M为正整数；

确定所述N张2D视图中每张2D视图的所述M个关键点的位置和方向，得到所述N张2D视图的所述N个部分亲和字段。

在一个可能的示例中，在所述将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态方面，所述程序包括用于执行以下步骤的指令：

将所述第一时刻的所述N个置信度图和所述N个部分亲和字段输入所述3D姿态重建网络模型中；

根据所述N个置信度图获取所述N张2D视图的N个整体置信度，所述N个整体置信度与所述N张2D视图一一对应；

根据所述N个整体置信度从所述N张2D视图中选取整体置信度最高的第一视图和第二视图，并从所述N张2D视图中去除所述整体置信度低于阈值的2D视图；

根据所述第一视图中的所述部分亲和字段和所述第二视图中的所述部分亲和字段获取所述M个关键点中每个关键点的3D初始坐标；

将所述M个关键点中每个关键点的所述3D初始坐标投影到其他视图中，得到所述M个关键点中每个关键点的所述3D初始坐标在所述其他视图中的投影坐标，所述其他视图为所述N张2D视图中除所述第一视图和所述第二视图以及所述整体置信度低于阈值的所述2D视图以外的视图；

根据所述M个关键点中每个关键点在所述其他视图中每个视图的原始平面坐标和所述投影坐标计算所述M个关键点中每个关键点在所述其他视图中每个视图的再投影误差；

计算所述M个关键点中每个关键点在所述其他视图中每个视图的所述再投影误差的加权和，得到所述M个关键点的M个再投影误差和，所述M个再投影误差和与所述M个关键点一一对应；

最小化所述M个再投影误差和中每个再投影误差和，得到M个3D优化坐标，根据所述M个3D优化坐标得到所述第一时刻的3D人体姿态，所述M个3D优化坐标与所述M个关键点一一对应。

在一个可能的示例中，所述N个置信度图包括第r张2D视图的第r个置信度图，r为不大于N的正整数，在所述根据所述N个置信度图获取所述N张2D视图的N个整体置信度方面，所述程序包括用于执行以下步骤的指令：

在一个可能的示例中，所述M个关键点包括第i个关键点，i为不大于M的正整数，在所述最小化所述M个再投影误差和中每个再投影误差和，得到M个3D优化坐标方面，所述程序包括用于执行以下步骤的指令：

S1、赋值i＝1；

在一可能的示例中，在所述将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态之前，所述程序还包括用于执行以下步骤的指令：

建立初始LSTM网络模型；

从Human3.6M数据集中选取训练样本；

上述主要从方法执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

与上述一致的，请参阅图5，图5为本申请实施例提供了一种多视图3D人体姿态估计装置500的结构示意图，所述多视图3D人体姿态估计装置应用于电子设备，所述多视图3D人体姿态估计装置包括：

获取单元501，用于获取连续时间段中第一时刻的3D人体姿态，直至获取所述连续时间段中所有时刻的3D人体姿态，所述连续时间段包括多个时刻，所述第一时刻为所述连续时间段中任意一个时刻；所述获取连续时间段中第一时刻的3D人体姿态包括：获取连续时间段中第一时刻的不同视角的N张2D视图，N为正整数，以及通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段，其中，置信度图为2D视图中各个像素点为关键点的概率矩阵，部分亲和字段为2D矢量字段组，用于对体段的位置和方向进行编码，以及将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态；

预估单元502，用于将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态。

在一可能的示例中，在所述通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段方面，所述获取单元501具体用于：

在一可能的示例中，在所述将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态方面，所述获取单元501具体用于：

根据所述N个置信度图获取所述N张2D视图的N个整体置信度；

将所述M个关键点中每个关键点的所述3D初始坐标投影到其他视图中，得到所述M个关键点中每个关键点的所述3D初始坐标在所述其他视图中的投影坐标；

计算所述M个关键点中每个关键点在所述其他视图中每个视图的所述再投影误差的加权和，得到所述M个关键点的M个再投影误差和；

最小化所述M个再投影误差和中每个再投影误差和，得到M个3D优化坐标，根据所述M个3D优化坐标得到所述第一时刻的3D人体姿态。

在一可能的示例中，所述N个置信度图包括第r张2D视图的第r个置信度图，r为不大于N的正整数，在所述根据所述N个置信度图获取所述N张2D视图的N个整体置信度方面，所述获取单元501具体用于：

在一个可能的示例中，所述M个关键点包括第i个关键点，i为不大于M的正整数，在所述最小化所述M个再投影误差和中每个再投影误差和，得到M个3D优化坐标方面，所述获取单元501具体用于：

S1：赋值i＝1；

S2：以位于所述第i个关键点的所述3D初始坐标处的点为第一节点，根据所述第一节点的3D初始坐标计算所述第i个关键点的目标再投影误差和，所述目标再投影误差和为所述第一节点在所述其他视图中每个视图的所述再投影误差的和，执行S3；

S3：在所述第一节点领域内选取参考节点，确定所述参考节点的3D坐标，根据所述参考节点的3D坐标计算参考再投影误差和，执行S4；

S4：比较所述目标再投影误差和与所述参考再投影误差和的大小，选取所述目标再投影误差和与所述参考再投影误差和中较小者作为新目标再投影误差和，用所述新目标再投影误差和替代所述目标再投影误差和，执行S5；

S5：重复执行S3和S4，直至满足预设条件，得到所述第i个关键点的所述3D优化坐标，将所述第i个关键点的所述3D优化坐标加入第一集合；

S6：i＝i+1，判断i是否小于M，若i小于等于M，返回S2，若i大于M，输出i＝M时的所述第一集合，根据i＝M时的所述第一集合得到所述M个3D优化坐标。

在一可能的示例中，所述多视图3D人体姿态估计装置还包括训练单元303，在所述将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态之前，所述训练单元303用于：

建立初始LSTM网络模型；

从Human3.6M数据集中选取训练样本；

本申请实施例还提供一种计算机可读存储介质，存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种多视图3D人体姿态估计方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种多视图3D人体姿态估计方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种多视图3D人体姿态估计方法，其特征在于，所述方法包括：

其中，所述获取连续时间段中第一时刻的3D人体姿态包括：

2.根据权利要求1所述的方法，其特征在于，所述通过2D姿态检测网络模型获取所述N张2D视图的N个置信度图和N个部分亲和字段，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述N个置信度图和所述N个部分亲和字段输入3D姿态重建网络模型中，得到所述第一时刻的3D人体姿态，包括：

4.权利要求3所述的方法，其特征在于，所述N个置信度图包括第r张2D视图的第r个置信度图，r为不大于N的正整数，所述根据所述N个置信度图获取所述N张2D视图的N个整体置信度，包括：

5.权利要求4所述的方法，其特征在于，所述M个关键点包括第i个关键点，i为不大于M的正整数，所述根据所述M个关键点中每个关键点在所述其他视图中每个视图的原始平面坐标和所述投影坐标计算所述M个关键点中每个关键点在所述其他视图中每个视图的再投影误差，由以下公式得到：

其中，所述第i个关键点在所述第r张2D视图中的所述原始平面坐标为所述第i个关键点在所述第r张2D视图中的所述投影坐标为

所述第i个关键点在所述第r张2D视图中的再投影误差为RPE(x,y,z)_i,t,r)。

6.根据权利要求5所述的方法，其特征在于，所述最小化所述M个再投影误差和中每个再投影误差和，得到M个3D优化坐标，包括：

S1、赋值i＝1；

7.根据权利要求1中所述的方法，其特征在于，在所述将所述连续时间段中所有时刻的所述3D人体姿态输入目标LSTM网络模型中，得到所述连续时间段的下一时刻的预估3D人体姿态之前，所述方法还包括：

建立初始LSTM网络模型；

从Human3.6M数据集中选取训练样本；

8.一种多视图3D人体姿态估计装置，其特征在于，所述多视图3D人体姿态估计装置包括：

9.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。