CN113449565A

CN113449565A - 三维姿态估计方法、智能设备及存储介质

Info

Publication number: CN113449565A
Application number: CN202010228946.9A
Authority: CN
Inventors: 张玉; 矫佩佩; 高雪松
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2021-09-28

Abstract

本申请公开了一种三维姿态估计方法、智能设备及存储介质，根据包含人体的彩色图像数据流和深度图像数据流，获取到空间坐标系下人体骨骼点的标准三维坐标；搭建初始三维姿态估计器，利用所述初始三维姿态估计器获取所述人体骨骼点的估计三维坐标；根据所述估计三维坐标和所述标准三维坐标，计算估计标准误差；利用所述估计标准误差，迭代训练所述初始三维姿态估计器，获得标准三维姿态估计器；利用所述标准三维姿态估计器进行三维姿态数据估计。本申请根据估计三维坐标和标准三维坐标，设置了损失函数，不断迭代优化初始三维姿态估计器，得到较为精准的标准三维姿态估计器，大大地提高三维姿态数据估计的准确率。

Description

三维姿态估计方法、智能设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种三维姿态估计方法、智能设备及存储介质。

背景技术

姿态估计是为了确定某一三维目标物体的方位指向，广泛应用于动作识别、机器人视觉、运动追踪和单照相机定标等领域。人体姿态估计是指通过图像或视频，检测出人体的关键骨骼点。通常利用三维姿态估计为人体姿态的检测与估计提供更丰富的空间特征。

目前，三维姿态估计通常是基于大量的图像训练样本训练出卷积神经网络模型，将图像帧输入到卷积神经网络模型中进行动作识别，通过特征提取，确定出每个骨骼点，获取到三维姿态数据。但是，通过上述卷积神经网络模型获得的三维姿态数据的准确性较低，由于越来越多的应用场景需要更加精准的三维姿态数据，所以，亟需设计一种能够提高三维姿态数据准确性的姿态估计方式。

发明内容

本申请提供了一种三维姿态估计方法、智能设备及存储介质，以解决现有技术中三维姿态数据估计准确率低的技术问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

第一方面，本申请实施例公开了一种三维姿态估计方法，包括：

根据包含人体的彩色图像数据流和深度图像数据流，获取到空间坐标系下人体骨骼点的标准三维坐标；

搭建初始三维姿态估计器，利用所述初始三维姿态估计器获取所述人体骨骼点的估计三维坐标；

根据所述估计三维坐标和所述标准三维坐标，计算估计标准误差；

利用所述估计标准误差，迭代训练所述初始三维姿态估计器，获得标准三维姿态估计器；

利用所述标准三维姿态估计器进行三维姿态数据估计。

第二方面，本申请实施例公开了一种智能设备，包括：

处理器，所述处理器被配置为：

根据包含人体的彩色图像数据流和深度图像数据流，获取到空间坐标系下的标准三维坐标；搭建初始三维姿态估计器，利用所述初始三维姿态估计器获取估计三维坐标；根据所述估计三维坐标和所述标准三维坐标，计算估计标准误差；利用所述估计标准误差，迭代训练所述初始三维姿态估计器，获得标准三维姿态估计器；利用所述标准三维姿态估计器进行三维姿态数据估计；

显示器，与所述处理器连接，用于显示经所述标准三维姿态估计器估计的所述三维姿态数据。

第三方面，本申请实施例公开了一种计算机存储介质，所述计算机存储介质可存储有计算机程序，所述计算机程序执行时实现上述任一所述三维姿态估计方法。

与现有技术相比，本申请的有益效果为：

本申请提供了一种三维姿态估计方法、智能设备及存储介质，基于拍摄所得到的人体的彩色图像数据流和深度图像数据流两种模态数据，获取到空间坐标系下人体骨骼点的标准三维坐标，该标准三维坐标用于校准搭建出的初始三维姿态估计器。即向该初始三维姿态估计器输入人体骨骼点的二维坐标数据，通过该初始三维姿态估计器能够输出人体骨骼点的估计三维坐标，利用估计三维坐标和标准三维坐标进行比较，计算出两者之间的估计标准误差，该估计标准误差可视为损失函数所得，并基于估计标准误差，迭代训练初始三维姿态估计器，获得标准三维姿态估计器。该标准三维姿态估计器在不断迭代优化之后，准确率大大提升，利用标准三维姿态估计器能够获得更为精准的三维姿态数据。由此可见，本申请根据估计三维坐标和标准三维坐标，设置了损失函数，不断迭代优化初始三维姿态估计器，大大地提高三维姿态数据估计的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种三维姿态估计方法的流程示意图；

图2为图1中获取人体骨骼点的标准三维坐标的方法流程示意图；

图3为图2中标准二维坐标转换为标准三维坐标的流程示意图；

图4为图1中搭建初始三维姿态估计器的流程示意图；

图5为本发明实施例提供的标准二维坐标卷积生成估计三维坐标的卷积示意图；

图6为图1中迭代训练初始三维姿态估计器的流程示意图；

图7为标准三维姿态估计器的结构示意图；

图8为为本发明实施例提供的初始三维姿态估计器的另一迭代训练的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

目前，越来越多的应用场景中需要更加精准的三维姿态数据。例如，智能穿衣镜中的衣服购买或定制功能，需要为用户“量体裁衣”，因此就需要精准的三维姿态数据以提供准确的身体尺寸。在儿童靠近危险品报警的场景中，需要获得儿童空间坐标系下的骨骼点三维坐标位置，进而进行计算。在行为识别中，三维姿态数据能够解决遮挡等问题，为行为提供更为准确的输入数据。

为了保证三维姿态数据的准确性，本申请实施例提供了一种三维姿态估计方法。参见图1，为本发明实施例提供的一种三维姿态估计方法的流程示意图。结合图1所示，上述三维姿态估计方法包括以下步骤：

S10：根据包含人体的彩色图像数据流和深度图像数据流，获取到空间坐标系下人体骨骼点的标准三维坐标。

人体的彩色图像数据流是指通过相机等摄像设备获取到的具有人体的图像或视频等，人体的深度图像数据流具有深度信息的彩色图像数据流，例如，通过RGB-D相机获得的深度图像等。在获得人体骨骼点的标准三维坐标之前，需要先通过彩色图像数据流获取人体骨骼点的标准二维坐标，在结合深度图像数据流将标准二维坐标转换为标准三维坐标。

下面结合附图对标准三维坐标的获取过程进行说明。

参见图2，为图1中获取人体骨骼点的标准三维坐标的方法流程示意图。结合图2，该标准三维坐标的获取方法包括以下步骤：

S101：根据所述彩色图像数据流，利用OpenPose算法进行二维姿态估计，获得所述人体骨骼点的标准二维坐标。

二维姿态估计的计算方法都有多种，以下仅以一种方式为例对二维姿态估计的计算过程进行说明。

openpose算法，是卡内基梅隆大学研发的基于卷积神经网络和监督学习的姿态估计开源框架，可以实现单人和多人的人体动作姿态估计。该算法能从彩色图像数据流中提取人体骨架，在像素坐标系下给出18个关键骨骼点的坐标位置和置信度。

OpenPose算法首先使用VGG-19模型从图像中提取特征，然后，将提取到的体征传给两个平行的卷积层分支。其中，第一个卷积层分支用来预测18个置信图，每个图代表人体骨架中的一个关节。然后通过非极大值抑制算法获取峰值，确定每个关键骨骼点的位置以及置信度，即(x,y,score)。第二个分支预测一个集合，该集合中包含38个关节仿射场，描述各关键骨骼点之间的连接程度，将同一个人的骨骼点连接起来。

OpenPose算法的算法过程可描述如下：

首先将彩色图像数据流中的图像帧输入至网络模型中，然后预测出人体骨骼点的坐标位置和置信图，随后预测人体骨骼点关联的邻近亲和域，即人体骨骼点之间的邻接关系，其中，若是图像帧中包括多人，则多人解析过程通过二分图匹配的方式将不同人的骨骼点区分开，最后将图像帧中每个人的全部骨骼部位都连接起来。至此，即可得到场景中每个人18个关键人体骨骼点的坐标位置和置信度，通过每一关键人体骨骼点坐标位置的置信度选取出最终人体骨骼点的标准二维坐标。

S102：根据所述深度图像数据流，将所述标准二维坐标转换为所述标准三维坐标。

彩色图像数据流包含图像的颜色、纹理、边缘等视觉特征，深度图像数据流则记录场景中的空间信息。本发明结合彩色图像数据流和深度图像数据流来校正视觉特征和空间特征的识别结果，共同获取到最终的标准三维坐标。

下面结合附图解释一下标准二维坐标转换为所述标准三维坐标的过程。

参见图3，为图2中标准二维坐标转换为标准三维坐标的流程示意图。如图3所示，该方法包括一下步骤：

S1021：将所述标准二维坐标映射到所述深度图像数据流中，获得像素坐标系下的像素坐标。

将标准二维坐标从彩色图像数据流映射到深度图像数据流，使得标准二维坐标具有深度信息，得到每个人体骨骼点在图像中，即像素坐标系下的像素坐标[u，v，d]，其中，d代表深度数据。

S1022：将所述像素坐标映射至相机坐标系下，获得相机坐标。

相机坐标系中的相机即为拍摄人体彩色图像数据流和深度图像数据流的相机。将像素坐标[u，v，d]映射到相机坐标系的相机坐标[x，y，z]，其对应关系如下：

式中，f_x，f_y代表相机在x，y两个轴上的焦距，C_x，C_y指相机的光圈中心，s指深度图的缩放因子。通过上述公式能够计算出场景中任何一点在相机坐标系下的相机坐标，本申请将S101中获得的18个人体骨骼点的标准二维坐标都进行该计算。

S1023：将所述相机坐标映射至空间坐标系下，获得所述标准三维坐标。

当完成相机坐标系下的人体骨骼点位置转换后，也就是完成人体骨骼点像素坐标到相机坐标的转换后，进而往空间坐标系下转换。转换方式在给定相机内参后，每个人体骨骼点在空间坐标系下的标准三维坐标[x′，y′，z′]与相机坐标[x，y，z]之间就可以用矩阵模型来描述：

式中，R和t是相机的姿态，其中，R代表旋转矩阵，t代表位移矢量。

以上，即完成了结合人体的彩色图像数据流和深度图像数据流，获取到空间坐标系下人体骨骼点的标准三维坐标的步骤描述。

S20：搭建初始三维姿态估计器，利用所述初始三维姿态估计器获取所述人体骨骼点的估计三维坐标。

初始三维姿态估计器的搭建方法都有多种，以下仅以一种方式为例对初始三维姿态估计器的搭建过程进行说明。

参见图4，为图1中搭建初始三维姿态估计器的流程示意图。由图4所示，初始三维姿态估计器的搭建步骤如下：

S201：分别获取连续多幅图像帧中的所述标准二维坐标。

图像帧是组成视频的最小单位，获取连续多幅图像帧，对于多幅图像帧中的人体骨骼点的位置信息，可基于步骤S101获得的人体骨骼点的标准二维坐标。

S202：对所述标准二维坐标进行时间卷积操作，生成所述初始三维姿态估计器。

对于多幅图像帧中的人体骨骼点标准二维坐标进行时间卷积操作，生成三维姿态数据，该三维姿态数据成为估计三维坐标，该卷积结构称为初始三维姿态估计器，其为全卷积网络模型。

参见图5，为本发明实施例提供的标准二维坐标卷积生成估计三维坐标的卷积示意图。图5中最底层即为连续多幅图像帧中人体的运动轨迹，每三帧为一个单元，提取连续三帧的特征后进行卷积，得到倒数第二层卷积结构，然后依次进行卷积，得到最顶层的人体骨骼的估计三维坐标。

由于该初始三维姿态估计器的准确性还有待提高，故本申请通过借助损失函数来迭代优化该初始三维姿态估计器，以下即为优化初始三维姿态估计器的过程。

S30：根据所述估计三维坐标和所述标准三维坐标，计算估计标准误差。

向搭建好的初始三维姿态估计器输入标准二维坐标数据，利用初始三维姿态估计器输出估计三维坐标。另外，本申请基于步骤S10获得了空间坐标系下人体骨骼点的标准三维坐标[x′，y′，z′]。结合估计三维坐标和标准三维坐标，计算两个三维坐标之间的误差值，该误差值即为估计标准误差，此处计算得到的估计标准误差作为损失函数所得。

S40：利用所述估计标准误差，迭代训练所述初始三维姿态估计器，获得标准三维姿态估计器。

迭代训练初始三维姿态估计器方法都有多种，以下仅以一种方式为例对初始三维姿态估计器的迭代训练过程进行说明。

参见图6，为图1中迭代训练初始三维姿态估计器的流程示意图。结合图6，该迭代过程包括以下步骤：

S401：将所述标准二维坐标输入至所述初始三维姿态估计器，并通过所述初始三维姿态估计器输出所述估计三维坐标。

利用搭建的初始三维姿态估计器获得其输出结果值，即向初始三维姿态估计器输入标准二维坐标数据，利用初始三维姿态估计器输出估计三维坐标。

S402：反向传播所述估计三维坐标，利用所述估计标准误差更新所述初始三维姿态估计器中的权重参数。

在初始三维姿态估计器中，有一些重要的权重值。初始三维姿态估计器中的这些权重值并不不是最优值，导致初始三维姿态估计器的准确率和性能较低，需要利用损失函数中的估计标准误差进行迭代训练。训练方式主要采用反向传播算法实现的，该算法主要是：前向传递输入信号直至输出产生误差，反向传播估计三维坐标更新权重矩阵。

反向传播(BP，Backpropagation)是“误差反向传播”的简称，是一种与最优化方法(如梯度下降法)结合使用方法。该方法对初始三维姿态估计器中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。

损失函数越小，则说明估计标准误差越小，进一步说明利用初始三维姿态估计器获得的估计三维坐标与标准三维坐标之间的误差值越小，也就是说，估计三维坐标越来越趋近于标准三维坐标，则初始三维姿态估计器的准确性不断提高。同时，初始三维姿态估计器的迭代训练过程中，以平均骨骼长度作为软约束匹配实现三维姿态估计，能够进一步保证初始三维姿态估计器的准确性。

以上，通过估计标准误差的迭代训练，即可将初始三维姿态估计器提升为标准三维姿态估计器。

S50：利用所述标准三维姿态估计器进行三维姿态数据估计。

参见图7，为标准三维姿态估计器的结构示意图，结合图7，向标准三维姿态估计器输入连续图像帧中人体骨骼点的标准二维坐标71，经过三层卷积层72的卷积之后，暂时保留其卷积结果，人后继续进行三层卷积，将前三层的卷积结果与第六层的卷积结果进行融合，依次类推，进行卷积过程，得到最终的收敛之后的标准三维姿态估计器73。

经过多次反向传播训练初始三维姿态估计器，使其不断优化，准确率不断提高，在初始三维姿态估计器收敛之后获得人体三维姿态估计的标准三维姿态估计器。向标准三维姿态估计器输入标准二维坐标，即可获得准确性较高的三维姿态数据。

由此可见，本申请根据估计三维坐标和标准三维坐标，设置了损失函数，不断迭代优化初始三维姿态估计器，大大地提高三维姿态数据估计的准确率。

本发明还提供了另一实施例，用来进一步提高标准三维姿态估计器的准确性。

本发明在对初始三维姿态估计器进行迭代训练之间，可先基于上述步骤S10和S20的计算，获得人体骨骼点的标准二维坐标、标准三维坐标以及估计三维坐标。具体过程参见上文描述，此处不再赘述。

下面结合附图对本发明另一实施例进行说明。

参见图8，为本发明实施例提供的初始三维姿态估计器的另一迭代训练的流程示意图。由图8所示，初始三维姿态估计器的另一迭代训练过程包括以下步骤：

S81：将所述估计三维坐标映射至二维空间，得到所述人体骨骼点的估计二维坐标。

将通过初始三维姿态估计器获得的估计三维坐标，通过矩阵运算进行坐标映射，映射至二维空间，得到人体骨骼点相应的估计二维坐标。

S82：根据所述估计二维坐标和所述标准二维坐标，计算平均位置误差。

由于是将标准二维坐标输入至初始三维姿态估计器，经由三维姿态估计器的计算输出估计二维坐标，因此，初始三维姿态估计器的准确性越高，估计二维坐标就越接近于标准二维坐标。

本申请中初步搭建出的初始三维姿态估计器的准确性还有待提高，因此，估计二维坐标与标准二维坐标之间还有一定差异，计算出两者之间的位置的偏移差，得到平均位置误差。此处计算得到的平均位置误差也可视为损失函数所得。

S83：利用所述平均位置误差，迭代训练所述初始三维姿态估计器。

此处，可借鉴上述步骤S401至S402的描述，不同的是，将S402中的估计标准误差替换为S82中计算得到的平均位置误差，即利用平均位置误差更新初始三维姿态估计器中的权重参数，以此来提高初始三维姿态估计器的估计准确性。

在一种实现方式中，本申请可先通过平均位置误差迭代训练初始三维姿态估计器，提高初始三维姿态估计器的准确性，再通过估计标准误差迭代训练初始三维姿态估计器，进一步提高初始三维姿态估计器的准确性，得到更加精准的标准三维姿态估计器。

至此，本申请中描述到了两种损失函数，其一为通过估计三维坐标和标准三维坐标对比计算出的估计标准误差，另一个为通过估计二维坐标和标准二维坐标对比计算出的平均位置误差。

本申请中可以利用平均位置误差和估计标准误差，依次迭代优化初始三维姿态估计器，也可将估计标准误差和平均位置误差以各自50％的比例组合，共同组成该初始三维姿态估计器的损失函数，以组合后的损失函数共同迭代训练所述初始三维姿态估计器。

本申请实施例还提供了一种智能设备，包括互相连接的处理器和显示器。

该处理器被配置为：先根据包含人体的彩色图像数据流和深度图像数据流两种数据流来校正视觉特征和空间特征的识别结果，共同获取到最终的标准三维坐标。然后，搭建初始三维姿态估计器，利用初始三维姿态估计器获取估计三维坐标。随后，根据估计三维坐标和标准三维坐标，计算估计标准误差，该估计标准误差可视为损失函数所得，并基于估计标准误差，迭代训练初始三维姿态估计器，获得标准三维姿态估计器。最终，利用所述标准三维姿态估计器进行三维姿态数据估计。

显示器用于显示经标准三维姿态估计器估计的三维姿态数据。

进一步，处理器还被配置为：根据彩色图像数据流，利用OpenPose算法进行二维姿态估计，获得标准二维坐标，并根据深度图像数据流，将标准二维坐标转换为标准三维坐标。

处理器在利用上述估计标准误差迭代训练初始三维姿态估计器之前，还可以将估计三维坐标映射至二维空间，得到估计二维坐标，根据估计二维坐标和标准二维坐标，计算平均位置误差，利用平均位置误差，迭代训练初始三维姿态估计器。

本申请中，处理器能够利用平均位置误差和估计标准误差，依次迭代优化初始三维姿态估计器，也可将估计标准误差和平均位置误差以各自50％的比例组合，共同组成该初始三维姿态估计器的损失函数，以组合后的损失函数共同迭代训练所述初始三维姿态估计器。

基于与上述三维姿态估计方法、智能设备同样的发明构思，本实施例还提供了一种计算机存储介质，该计算机存储介质可存储有程序，所述程序执行时可实现上述任一实施提供的三维姿态估计方法。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的电路结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种三维姿态估计方法，其特征在于，包括：

利用所述标准三维姿态估计器进行三维姿态数据估计。

2.根据权利要求1所述的三维姿态估计方法，其特征在于，所述根据包含人体的彩色图像数据流和深度图像数据流，获取到空间坐标系下人体骨骼点的标准三维坐标，包括：

根据所述彩色图像数据流，利用OpenPose算法进行二维姿态估计，获得所述人体骨骼点的标准二维坐标；

根据所述深度图像数据流，将所述标准二维坐标转换为所述标准三维坐标。

3.根据权利要求2所述的三维姿态估计方法，其特征在于，所述根据所述深度图像数据流，将所述标准二维坐标转换为所述标准三维坐标，包括：

将所述标准二维坐标映射到所述深度图像数据流中，获得像素坐标系下的像素坐标；

将所述像素坐标映射至相机坐标系下，获得相机坐标，其中，所述相机坐标系中的相机为拍摄所述彩色图像数据流和深度图像数据流的相机；

将所述相机坐标映射至空间坐标系下，获得所述标准三维坐标。

4.根据权利要求2所述的三维姿态估计方法，其特征在于，在所述根据所述估计三维坐标和所述标准三维坐标，计算估计标准误差之前，所述方法还包括：

将所述估计三维坐标映射至二维空间，得到所述人体骨骼点的估计二维坐标；

根据所述估计二维坐标和所述标准二维坐标，计算平均位置误差；

利用所述平均位置误差，迭代训练所述初始三维姿态估计器。

5.根据权利要求2所述的三维姿态估计方法，其特征在于，所述搭建初始三维姿态估计器，包括：

分别获取连续多幅图像帧中的所述标准二维坐标；

对所述标准二维坐标进行时间卷积操作，生成所述初始三维姿态估计器。

6.根据权利要求2所述的三维姿态估计方法，其特征在于，所述利用所述估计标准误差，迭代训练所述初始三维姿态估计器，获得标准三维姿态估计器，包括：

将所述标准二维坐标输入至所述初始三维姿态估计器，并通过所述初始三维姿态估计器输出所述估计三维坐标；

反向传播所述估计三维坐标，利用所述估计标准误差更新所述初始三维姿态估计器中的权重参数。

7.一种智能设备，其特征在于，包括：

处理器，所述处理器被配置为：

8.根据权利要求7所述的智能设备，其特征在于，所述处理器还被配置为：

根据所述彩色图像数据流，利用OpenPose算法进行二维姿态估计，获得标准二维坐标；

9.根据权利要求7所述的智能设备，其特征在于，所述处理器还被配置为：

将所述估计三维坐标映射至二维空间，得到估计二维坐标；

10.一种计算机存储介质，其特征在于，所述计算机存储介质可存储有计算机程序，所述计算机程序执行时可实现权利要求1-6任一所述三维姿态估计方法。