CN110909580A

CN110909580A - 数据处理方法及装置、电子设备及存储介质

Info

Publication number: CN110909580A
Application number: CN201811089872.4A
Authority: CN
Inventors: 汪旻; 邹壮; 刘文韬; 钱晨; 马利庄
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2020-03-24
Anticipated expiration: 2038-09-18
Also published as: JP2021513175A; WO2020057121A1; US11238273B2; US20210240971A1; SG11202010510XA; CN110909580B; JP6985532B2

Abstract

本发明实施例提供了一种数据处理方法及装置、电子设备及存储介质。所述数据处理方法包括：根据参考深度值及图像中目标的关键点的实际深度值，将所述关键点的第一2D坐标的转换为第二2D坐标，其中，所述第二2D坐标和所述参考深度值，构成了所述关键点的第一3D特征；基于所述第一3D特征，获得所述目标的3D姿态。

Description

数据处理方法及装置、电子设备及存储介质

技术领域

本发明涉及信息技术领域，尤其涉及一种数据处理方法及装置、电子设备及存储介质。

背景技术

在体感游戏等体感场景中，一般都需由人体佩戴体感设备，体感设备采集人体的3D姿态传输给受控设备，进行受控设备的控制。但是这种受控设备的控制，一方面需要使用到体感设备，硬件成本高及且用于一定需要佩戴对应的设备，对于用户的体验感受差。

发明内容

有鉴于此，本发明实施例期望提供一种数据处理方法及装置、电子设备及存储介质。

本发明的技术方案是这样实现的：一种数据处理方法，包括：

根据参考深度值及图像中目标的关键点的实际深度值，将所述关键点的第一2D坐标的转换为第二2D坐标，其中，所述第二2D坐标和所述参考深度值，构成了所述关键点的第一3D特征；

基于所述第一3D特征，获得所述目标的3D姿态。

基于上述方案，所述根据参考深度值及图像中目标的关键点的实际深度值，将所述关键点的第一2D坐标的转换为第二2D坐标，包括：

根据所述实际深度值与所述参考深度值的比值，及所述第一2D坐标，得到所述第二2D坐标。

基于上述方案，所述根据所述实际深度值与所述参考深度值的比值与所述第一2D坐标，得到所述第二2D坐标，包括：

利用如下函数关系确定所述第二2D坐标；

X2＝(X1*d)/D，

Y2＝(Y1*d)/D，

其中，X2为所述第二2D坐标在第一方向上的坐标值；X1为所述第一2D坐标在所述第一方向上的坐标值；

Y2为第二2D坐标在第二方向上的坐标值，Y1为所述第一2D坐标在所述第二方向上的坐标值；其中，所述第二方向垂直于所述第一方向；

d为所述实际深度值；D为所述参考深度值。

基于上述方案，所述方法还包括：

根据所述关键点的第二3D特征及所述图像对应的光心位置，得到所述第一2D坐标；其中，所述第二3D特征包括：基于2D图像得到的第三2D坐标及基于深度图像得到的实际深度值。

基于上述方案，所述根据所述关键点的第二3D特征及所述图像对应的光心位置，得到所述第一2D坐标，包括：

移动所述关键点的第二3D特征，使得

所述关键点中基准点的3D特征平移到所述光心位置，并得到各所述关键点的第三3D特征；

将所述第三3D特征投影到2D成像平面，得到所述第一2D坐标。

基于上述方案，若所述目标为人体骨骼，所述基准点的第一3D特征是基于所述关键点中的两个胯部关键点的第二3D特征确定的。

基于上述方案，所述基于所述第一3D特征，获得所述目标的3D姿态，包括：对所述关键点的第二2D坐标对应的深度值减去所述基准点的深度值，得到第四2D坐标及所述第四2D坐标对应的深度值；

对所述第四2D坐标及所述第四2D坐标对应的深度值进行归一化处理，得到归一化后的所述第四2D坐标及归一化后的所述第四2D坐标对应的深度值；

利用深度学习模型对归一化后的所述第四2D坐标及归一化后的所述第四2D坐标对应的深度值进行处理，得到所述目标的3D姿态。

基于上述方案，所述对所述第四2D坐标及所述第四2D坐标对应的深度值进行归一化处理，得到归一化后的所述第四2D坐标及归一化后的所述第四2D坐标对应的深度值，包括：

基于第四2D坐标及所述第四2D坐标对应的深度值，得到所述关键点的坐标均值及方差；

根据所述坐标均值及方差及所述第四2D坐标及所述第四2D坐标对应的深度值，得到归一化后的第四2D坐标。

基于上述方案，所述方法还包括：

基于所述实际深度值，进行将所述3D姿态投影到二维平面内的迭代运算，以得到与所述第三2D坐标之间距离最小的第五2D坐标；

根据所述第五2D坐标及所述第一3D特征，获得所述目标的转动参数和平移参数。

一种数据处理装置，包括：

第一转换模块，用于根据参考深度值及图像中目标的关键点的实际深度值，将所述关键点的第一2D坐标的转换为第二2D坐标，其中，所述第二2D坐标和所述参考深度值，构成了所述关键点的第一3D特征；

第一获得模块，用于基于所述第一3D特征，获得所述目标的3D姿态。

基于上述方案，所述第一转换模块，具体用于根据所述实际深度值与所述参考深度值的比值，及所述第一2D坐标，得到所述第二2D坐标。

基于上述方案，所述第一转换模块，具体用于利用如下函数关系确定所述第二2D坐标；

X2＝(X1*d)/D，

Y2＝(Y1*d)/D，

d为所述实际深度值；D为所述参考深度值。

基于上述方案，所述装置还包括：

第二转换模块，用于根据所述关键点的第二3D特征及所述图像对应的光心位置，得到所述第一2D坐标；其中，所述第二3D特征包括：基于2D图像得到的第三2D坐标及基于深度图像得到的实际深度值。

基于上述方案，所述第二转换模块，用于

移动所述关键点的第二3D特征，使得

将所述第三3D特征投影到2D成像平面，得到所述第一2D坐标。

基于上述方案，所述第一获得模块，用于对所述关键点的第二2D坐标对应的深度值减去所述基准点的深度值，得到第四2D坐标及所述第四2D坐标对应的深度值；

基于上述方案，所述第一获得模块，用于基于第四2D坐标及所述第四2D坐标对应的深度值，得到所述关键点的坐标均值及方差；根据所述坐标均值及方差及所述第四2D坐标及所述第四2D坐标对应的深度值，得到归一化后的第四2D坐标。

基于上述方案，所述装置还包括：

迭代模块，用于基于所述实际深度值，进行将所述3D姿态投影到二维平面内的迭代运算，以得到与所述第三2D坐标之间距离最小的第五2D坐标；

第二获得模块，用于根据所述第五2D坐标及所述第一3D特征，获得所述目标的转动参数和平移参数。

一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现一个或多个技术方案提供的数据处理方法。

一种电子设备，其特征在于，包括：

存储器，用于存储信息；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现一个或多个技术方案提供的数据处理方法。

本发明实施例提供的技术方案，可以对目标采集3D图像。该3D图像包括2D图像和深度图像组成，深度图像提供标识目标与相机之间距离的深度值；3D图像提供RGB或YUV等目标在2D成像平面内的姿势。如此，3D图像可以用于目标的三维姿态获取。例如，通过神经网络等深度学习模块对3D图像的处理，可以提取出目标在三维空间内的三维姿态。但是在图像采集的过程中，目标相对于相机是前后移动的；如此，使得相机采集的深度图像中的深度值发生变化。若深度学习模块能够识别不同远近目标的三维姿态，一方面需要利用特定远近的训练样本进行训练，训练难度大，且训练周期长；另一方面，即便利用各种远近的训练样本进行了训练之后，深度学习模块的训练效果未必足够好，故对于某些样本比较少的远近的3D图像的三维姿态提取精度依然会不够。在本申请实施例中，在将3D图像目标关键点的第一3D特征输入到深度模型之前，通过2D成像平面内目标的平移，实际深度值向参考深度值的转换，可以获得目标在参考深度值时的第一3D特征，将该第一3D特征输入到深度学习模块中进行处理，由于采用的参考深度值是深度学习模块的训练时使用的深度值，从而可以精准的提取出目标的3D姿态；同时减少了深度学习模块训练所需的样本和时间。

附图说明

图1A为本发明实施例提供的一种数据处理方法的流程示意图；

图1B为本发明实施例提供的一种数据处理方法的流程示意图；

图2为本发明实施例提供的一种第一2D坐标转换为第二2D坐标的转换示意图；

图3为本发明实施例提供的一种关键点的示意图；

图4为本发明实施例提供的一种2D图像中目标平移的效果示意图；

图5为本发明实施例提供的得到关键点的第一2D坐标的示意图；

图6A为本发明实施例提供的一种关键点和基准点的示意图；

图6B为本发明实施例提供的另一种关键点的示意图；

图7为本发明实施例提供的一种数据处理装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图；

图9为本发明实施例提供的一种神经网络的网络示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1A所示，本实施例提供一种数据处理方法，包括：

步骤S110：根据参考深度值及图像中目标的关键点的实际深度值，将所述关键点的第一2D坐标的转换为第二2D坐标，其中，所述第二2D坐标和所述参考深度值，构成了所述关键点的第一3D特征；

步骤S120：基于所述第一3D特征，获得所述目标的3D姿态。

本实施例中提供基于数据处理方法，该基于数据处理方法可以应用于一台或多台电子设备中。所述电子设备可包括：处理器，该处理器通过计算机程序等可执行指令的执行，可以实现基于数据处理方法中一个或多个步骤的执行。在一些实施例中，可以单一电子设备进行集中式的数据处理，也可以运用多台电子设备进行分布式的数据处理。

所述图像可为三维图像；所述三维图像包括：2D图像和深度图像。所述2D图像可为RGB图像或YUV图像等。所述深度图像可为利用深度采集模组采集的深度信息。所述深度信息的像素值为深度值。所述深度值可为：图像采集模组距离目标之间的距离。此处，本发明实施例中所述实际深度值就来自深度图像

通过第一2D坐标到第二2D坐标的转换，就得到了将目标的实际深度值转换为参考深度值之后，在相机坐标系上目标的关键点的2D坐标。

在步骤S110中，就相当于得到了可供深度学习模块能够精准提取出目标的3D姿态的第一3D特征。深度学习模块输入所述第一3D特征，可以通过一些列的内部处理将得到目标的3D姿态；所述3D姿态可用于位于三维空间坐标系内的第一3D特征之间的相对位置表示。

此处的所述第一3D特征可包括：图像坐标系内的坐标和参考深度值构成。

例如，基于所述关键点得到了目标的基准点的2D坐标；所述3D姿态可为表征采集对象在三维空间内的姿势体态的信息。具体而言，所述3D姿态可由：各个关键点与所述基准点之间的相对位置表示。假设，在3D空间内，若所述基准点的2D坐标为：(0，0，0)，且目标为人体，则可以通过表征人体骨骼的多个关键点相对于(0，0，0)的相对位置或相对坐标。

所述基准点可为：人体髋部两端之间的中心点。例如，所述关键点可为：表示头、颈、肘、腕、髋、膝及踝的坐标点。如此，根据这些关键点相对于基准点的相对位置，就知道当前人体前、后、左、右的平移距离，还可以根据人脸的关键点与基准点之间的相对位置，知道人脸朝向，从而知道人体头部的转动量和/或转动方向等转动参数；根据躯干的关键点与基准点之间的相对位置，可以知道躯干的转动量和/或转动方向等转动参数。所述人脸的关键点可取位于鼻子上的一个点，例如，鼻尖的坐标点。所述躯干的关键点可取胸部中心点坐标。当然以上仅是关键点举例，具体实现不局限于此。

进一步地，若所述目标为人体，则在步骤S110中可以根据N个关键点的坐标，得到N+M个第二2D坐标。其中增加的M个第二2D坐标，可为根据N个关键点的第一2D坐标生成的。例如，所述M可为1，增加的1个第二2D坐标可对应于人体的基准点的2D坐标。所述N可为14。

在步骤S120中可以根据N+1个关键点的第二2D坐标和参考深度值输入到深度学习模块中，可能会得到N+S个关键点的三维(3D)坐标，作为所述3D姿态输出。其中，N+S个关键点中的N个关键点与第一2D坐标的N个关键点一一对应；S个关键点是基于N个关键点生成的。

例如，以人体为例，N个第一2D坐标可为：14个关键点；S可等于3；即最终会得到17个关键点的第一3D特征。在一些实施例中，17个关键点中有一个为基准点。该基准点可为人体髋部两个端点(对应于两个关键点)的中心点。另外两个关键点可为人脸的鼻头坐标及胸部的中心点坐标；当然此处仅是举例，具体实现不局限于此。

图6A可为相对于图3所示的14个关键点增加了关键点0的示意图；图6B可为一种基于图3所示的14个关键点生成的17个关键点的示意图。图6B中17个关键点，相当于图3所示的关键点，增加了关键点0、关键点15及关键点16；其中，关键点16的2D坐标可基于关键点1及关键点2的2D坐标的初步确定；关键点15的2D坐标可根据关键点2的2D坐标及关键点0的2D坐标的确定的。关键点0可为本发明实施例提供的基准点。

在本发明实施例中，一方面，神经网络等深度学习模块在训练过程中，若为了能够直接检测不同实际深度的目标的3D姿态，则需要将利用不同实际深度值的训练样本训练神经网络；若这样，训练所需训练样本多，训练样本多则神经网络等深度学习模块的收敛速度慢，导致训练周期长。若采用本实施例中的方法，神经网络等深度学习模块可以仅采用为同一个深度值的训练样本进行训练，从而训练样本的数据量小；神经网络等深度学习模块的收敛速度快，训练周期短等；如此，可以简化神经网络等深度学习模块。

另一方面，若采用单一深度值(即参考深度值)，可以使得神经网络等深度学习模块不会因为需要顾及到不同深度值牺牲掉单一深度值所对应的3D坐标的3D姿态提取的精准度；从而具有3D姿态提取的精准度高的特点。

第一3D特征深度学习模块第一3D特征深度学习模块深度学习模块深度学习模块在一些实施例中，所述步骤S110可包括：根据所述实际深度值与所述参考深度值的比值，及所述第一2D坐标，得到所述第二2D坐标。

进一步地，例如，所述步骤S110可包括：利用如下函数关系确定所述第二2D坐标；

X2＝(X1*d)/D，

Y2＝(Y1*d)/D，

d为所述实际深度值；D为所述参考深度值。

所述D可为空间距离，单位可为：毫米、厘米或分米等。

参考如图2所示，of为图像采集的焦距(可简写成f)，是可以通过查询相机参数知道的，通过三角函数变换可以得到第二2D坐标和参考深度值。第二2D坐标和参考深度值，构成了所述第一3D特征，将标准的深度值的第一3D特征输入到深度学习模块，能够实现目标3D姿态的精准提取。故在一些实施例中od表示的距离为所述实际深度值，可简写成d；oD表示的距离为参考深度值。根据三角函数关系可以指y0/y1＝f/d；y2/y1＝f/D；y0表示的第一2D坐标，y2表示的第二2D坐标。如此，y2＝(d*y0)/D。

在本实施例中，根据图像关键点在采集的图像中的2D坐标，在本实施例中实际采集得到的图像的2D坐标称之为第三2D坐标。如图1B所示，所述方法还包括：

步骤S100：光心位置根据所述关键点的第二3D特征及所述图像对应的光心位置，得到所述第一2D坐标。

实际采集的2D图像上目标人体的关键点。例如，人体骨骼上的关键点。

所述关键点的个数可为多个。例如，若目标为人体，则所述关键点可包括：14个2D关键点。此处，可以利用2D图像的深度学习模块，通过对2D图像的处理，获得所述第三2D坐标。

如图3所示为一种人体骨骼的关键点的2D坐标。在图3中用14个黑色圆点表示14个关键点。

在一些实施例中，可以利用深度学习模块对所述2D图像进行处理，从而获得所述第三2D坐标。该第三3D坐标和从深度图像中提取的实际深度值，可以组成第二3D特征。

利用深度学习模块基于目标的第一3D特征进行目标的3D姿态估计时，当前目标距离图像采集模组之间的距离可近可远，若深度学习模块之前缺少对应的训练样本，则会导致无法精确的预估目标3D姿态。而一个深度学习模块需要尽可能对不同远近的3D图像中目标3D姿态的精准提取，则需要引入更多的训练样本对深度学习模块进行处理；如此，深度学习模块的训练难度大且训练周期长。所述深度学习模块可为：各种神经网络，例如，可包括：全连接网络及残差网络的残差模块等具有3D姿态识别的网络。故在本实施例中，为了提升目标3D姿态的精准度，会将目标的关键点的第一3D特征中深度值转换为参考深度值。

为了实现成功将所述关键点的第一3D特征中的深度值转换为参考深度值，首先需要将第三2D坐标转换为第一2D坐标，使得转换后的2D坐标位于所述图像的光轴上。

图4为一个2D图像，拍摄的人物原本位于照片的非中间位置，通过基于光心位置之间的坐标平移，可以将图4中实线表示的人物从第三2D坐标所在的位置，移动到虚线表示的第一2D坐标所在的位置上。通过将关键点中的基准点在相机平面上的平移，使得基准点移动到相机平面的光轴上；相对于直接向深度学习模块输入第三2D坐标可以减少干扰，从而提升3D姿态的精准度，同时减少3D姿态提取的深度学习模块训练所需的数据和/或时长，再次简化深度学习模块的训练及提升训练的速率。

第三2D坐标到第一2D坐标的转换方式有多种，以下提供一种可选方式：

如图5所示，所述步骤S100可包括：

步骤S101：移动所述关键点的第二3D特征，使得所述关键点中基准点的3D特征平移到所述光心位置，并得到各所述关键点的第三3D特征；

步骤S102：将所述第三3D特征投影到2D成像平面，得到所述第一2D坐标。

在本实施例中，若神经网络等深度学习模型从3D图像中的关键点的第二3D特征不包括基准点的第二3D特征时，可以根据其他关键点的第三2D坐标，得到基准点的2D坐标，然后基于基准点的2D坐标查找深度图像得到基准点对应位置的实际深度值；从而获得基准点的第二3D特征。然后在步骤100中整体移动所有关键点，在移动的过程中，使得基准点的第一3D特征移动到光心位置上。例如，光心位置(0，0，0)；可以根据基准点的第二3D特征移动到光心位置的移动向量，求解出其他关键点的第二3D特征与基准点采用同样移动向量移动之后的第三3D特征。

在得到所有关键点的第三3D特征之后，可以将第三3D特征投影到2D成像平面就得到了前述的第一2D坐标。

通过第二3D坐标的移动，至少使得目标的基准点移动到了图像的相机坐标系的光轴上。神经网络等深度学习模块对位于光轴上的目标的3D姿态的提取精准度是更高的；减少因为目标的基准点位于非光轴位置上引入了误差的现象，提升3D姿态的精准度。在还有一些实施例中，若所述目标为人体骨骼，所述基准点的第一3D特征是基于所述关键点中的两个胯部关键点的第二3D特征确定的。

如图6B所示的关键点9及关键点10的第三2D坐标，可以计算这两个关键点的基准点的2D坐标。而该点的坐标即为所述基准点的2D坐标。

在一些实施例中，所述基准点的2D坐标可以称之为根节点的2D坐标。

在一些实施例中，所述基准点可为目标的基准点或者靠近中心的位置的一个点。在本实施例中针对人体而言，采用的两个跨部关键点的基准点作为基准点的2D坐标，是与人体的具体结构相适合的。

在一些实施例中，所述方法还包括：所述基于所述第一3D特征，获得所述目标的3D姿态，包括：对所述关键点的第二2D坐标对应的深度值减去所述基准点的深度值，得到第四2D坐标及所述第四2D坐标对应的深度值；

例如，将归一化后的第四2D坐标及其对应的深度值，分别输入神经网络；神经网络可直接输出所述3D姿态；或者，神经网络可以输出一个能够求解出所述3D姿态的第四3D特征；基于第四3D特征的转换可以得到所述3D姿态。

在本实施例中，通过归一化处理，可以消除不同相机参数的相机采集导致的差异，从而消除神经网络等深度学习模型因为不同相机参数导致的3D姿态提取的精度低的问题，从而可以进一步提升目标的3D姿态提取精确度。

在一些实施例中，所述对所述第四2D坐标及所述第四2D坐标对应的深度值进行归一化处理，得到归一化后的所述第四2D坐标及归一化后的所述第四2D坐标对应的深度值，包括：

具体地，所述均值利用Mean表示，方差利用Std表示；则所述第四2D坐标可可以用于如下函数关系计算：

X4’＝(X4-Mean)/Stdx；

Y4’＝(Y4-Mean)/Stdy。

X4为第四2D坐标在第一方向上的坐标值；Y4为第四2D坐标在第二方向上的坐标值；X4’为归一化后的第四2D坐标在第一方向上的坐标值；Y4’为归一化后的第四2D坐标在第二方向上的坐标值；Stdx为第一方向上的坐标值的方差。Stdy为第一方向上的坐标值的方差。

在一些实施例中，所述方法还包括：

在本实施例中，将3D姿态投影到二维平面内，可包括：将表征3D姿态的第一3D特征投影到2D成像平面内，从而获得2D成像平面内的2D投影图像。

投影的方式有多种，以下提供两种可选方式：

可选方式一：根据所述3D姿势及投影矩阵，得到投影到2D成像平面内的2D坐标；例如，将3D姿势左乘投影矩阵，得到所述投影到2D成像平面内的坐标。此处的投影矩阵可以为根据相机参数和/或者投影的经验值确定的。

可选方式二：利用可以将3D姿势投影到2D成像平面内的投影模型，例如，投影神经网络，以所述3D姿势为输入，以投影到2D成像平面内的2D坐标为输出。

得到投影到2D成像平面内的输出2D坐标(即所述第五2D坐标)就可以计算与第三2D坐标之前的距离，选择距离最小的一组，计算所述转动参数及所述平移参数。总之在投影的过程中，相当于将深度值去除，仅保留2D成像平面内的2D坐标。但是在本实施例中，实质上3D姿势是基于参考深度值计算的，如此，可能利用图2所示的三角函数关系，将3D姿势平移回到实际深度值的位置上。但是考虑到深度学习模块的处理误差及相机的处理误差等，故可以基于实际深度值及其近似值，进行3D姿势向2D成像平面内的投影。投影的过程中，需要使得投影到二维平面内的2D坐标，与实际的第三2D坐标距离最小。例如，可用如下函数表示第五2D坐标与第三2D坐标的最小化值为：min{(X5-X3)²+(Y5-Y3)²}；

(X5,Y5)为所述第五2D坐标；(X3,Y3)为所述第三2D坐标。

接着利用如下函数关系，可以求解出所述转动参数R和平移参数T，

S₃表示关键点的第一3D特征；S₂表示关键点的2D坐标。

由于实际深度值给出了迭代计算的深度范围。例如，根据实际深度值加上一个偏移量得到所述深度范围的最大值；实际深度值减去一个偏移量得到了所述深度范围的最小值。在进行所述3D姿态向2D成像平面内的投影时，可以在该深度范围内选择实际深度值。之所以基于实际深度值选择深度范围，一方面是考虑了深度摄像头采集深度图像的有偏差，另一方面是考虑了网络的误差，基于上述两个方面的考虑通过深度范围来进行容错处理，从而实现3D姿态向2D成像平面内投影，以获得最优的第五2D坐标，从而估计出转动参数和/或平动参数。

所述平动参数可表征了目标平移状况，所述转动参数表征了目标的转动状况。所述平动参数可包括：在各个方向上平动位移量；所述转动参数可包括：在各个方向上的转动位移量。

在本发明实施例中，由于迭代的过程中，是预先知道了实际深度值，可以以所述实际深度值为参考深度值，在包含有所述实际深度值的深度范围内，进行所述3D姿态到二维平面内的投影；相对于没有实际深度值提供深度范围的情况下迭代计算，大大的减少了迭代次数，节省了计算量及提升了计算速率。

如图7所示，本实施例提供一种数据处理装置，包括：

第一转换模块110，用于根据参考深度值及图像中目标的关键点的实际深度值，将所述关键点的第一2D坐标的转换为第二2D坐标，其中，所述第二2D坐标和所述参考深度值，构成了所述关键点的第一3D特征；

第一获得模块120，用于基于所述第一3D特征，获得所述目标的3D姿态。

在一些实施例中，所述第一转换模块110及第一获得模块120可为程序模块，该程序模块被处理器执行之后，能够实现第一2D坐标向第二2D坐标的转换，及3D姿态的获得。

在另一些实施例中，所述第一转换模块110及第一获得模块120还可为硬件模块及程序模块的组合，例如，复杂可编程阵列或者现场可编程阵列。

在还有一些实施例中，所述第一转换模块110及第一获得模块120可对应于硬件模块，例如，所述第一转换模块110及第一获得模块120可为专用集成电路。

在一些实施例中，所述第一转换模块110，具体用于根据所述实际深度值与所述参考深度值的比值，及所述第一2D坐标，得到所述第二2D坐标。

在一些实施例中，所述第一转换模块110，具体用于利用如下函数关系确定所述第二2D坐标；

X2＝(X1*d)/D，

Y2＝(Y1*d)/D，

d为所述实际深度值；D为所述参考深度值。

在一些实施例中，所述装置还包括：

第二转换模块，用于光心位置根据所述关键点的第二3D特征及所述图像对应的光心位置，得到所述第一2D坐标；其中，所述第二3D特征包括：基于2D图像得到的第三2D坐标及基于深度图像得到的实际深度值。

在一些实施例中，所述第二转换模块，用于移动所述关键点的第二3D特征，使得所述关键点中基准点的3D特征平移到所述光心位置，并得到各所述关键点的第三3D特征；将所述第三3D特征投影到2D成像平面，得到所述第一2D坐标光心位置。

在一些实施例中，若所述目标为人体骨骼，所述基准点的第一3D特征是基于所述关键点中的两个胯部关键点的第二3D特征确定的。

在一些实施例中，所述第一获得模块，用于对所述关键点的第二2D坐标对应的深度值减去所述基准点的深度值，得到第四2D坐标及所述第四2D坐标对应的深度值；对所述第四2D坐标及所述第四2D坐标对应的深度值进行归一化处理，得到归一化后的所述第四2D坐标及归一化后的所述第四2D坐标对应的深度值；利用深度学习模型对归一化后的所述第四2D坐标及归一化后的所述第四2D坐标对应的深度值进行处理，得到所述目标的3D姿态。

在一些实施例中，所述第一获得模块120，用于基于第四2D坐标及所述第四2D坐标对应的深度值，得到所述关键点的坐标均值及方差；根据所述坐标均值及方差及所述第四2D坐标及所述第四2D坐标对应的深度值，得到归一化后的第四2D坐标。

在一些实施例中，所述装置还包括：

如图8所示，本申请实施例提供了一种电子设备，包括：

存储器，用于存储信息；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现前述一个或多个技术方案提供的数据处理方法，例如，如图1A、图1B及图5所示的方法中的一个或多个。

该存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储，例如，存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令，例如，目标程序指令和/或源程序指令等。

所述处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。

所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。

在一些实施例中，所述终端设备还可包括：通信接口，该通信接口可包括：网络接口、例如，局域网接口、收发天线等。所述通信接口同样与所述处理器连接，能够用于信息收发。

在一些实施例中，所述终端设备还包括人机交互接口，例如，所述人机交互接口可包括各种输入输出设备，例如，键盘、触摸屏等。

本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现前述一个或多个技术方案提供的数据处理方法，例如，例如，图1A、图1B及图5所示的方法中的一个或多个。

所述存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。所述存储介质可为非瞬间存储介质。

本申请实施例提供一种计算机程序产品，所述程序产品包括计算机可执行指令；所述计算机可执行指令被执行后，能够实现前述任意实施提供的数据处理方法，例如，图1A、图1B及图5所示的方法中的一个或多个。

以下结合上述实施例提供几个具体示例：

示例1：

本示例使用深度神经网络预测人体的二维和三维的关键点，再利用三维视觉算法计算人体的三维姿态；具体可包括：

使用2D人体的关键点估计工具预测14个人体的关键点在2D图像中的2D位置；

提取出2D图像对应的深度图像中与14个人体的关键点的实际深度值；

通过三角函数等方式，将对应于实际深度值的2D坐标转换与参考深度值对应的2D坐标；

使用相机内参对所有关键点转换后的2D坐标进行内参归一化操作；

统计归一化后各关键点的均值与标准差，用于更进一步的坐标归一化操作；得到归一化后的2D坐标及参考深度值；

将归一化后的2D坐标及参考深度值，输入深度神经网络，由神经网络进行2D关键点到3D关键点的第一3D特征。基于该第一3D特征可以得到三维视觉算法等，得到3D姿态。例如，基于透视n点定位(PnP)优化基于所述第一3D特征得到3D姿态。

图9所示可为得到本示例提供的3D姿态的一种神经网络，包括：

全连接层(Fc)、批处理+ReLu层及Dropout层；

其中，全连接层获得14个关键点的第一3D特征；输出的是3D姿态。该神经网络可以用于提取出所述3D姿态。

示例2：

本示例提供一种数据处理方法，包括：

利用深度神经网络获取输入2D图像的若干人体的2D关键点(对应于2D坐标)；

将二维人体关键点进行相机内参归一化后输入到第二个深度神经网络得到相对于人体某一关键点(一般为骨盆处)的相对三维关键点；

最后将所得二维关键点和三维关键点的点序对齐，使用PnP算法，求出三维人体空间位姿。

示例3：对于每一帧3D图像，使用人体的二维关键点检测工具，得到图像上14点的关键点的坐标；

以第一步中得到的二维关键点坐标作为输入，3D关键点的提取网络，获得得到对于的三维人体骨架(17个关键点，其中骨盆处关键点位置固定为0)。

将得到的两个人体关键点模型进行对齐操作，使得每个关键点在物理意义上一致。

已知当前设备的内参K，计算目标人体在相机坐标系下的外参R和T。

其中，

f_x，f_y，c_x，c_y可由张正友标定法标定当前设备而来。不妨设对齐后的二维人体骨架S₂和三维人体骨架S₃，那么最优化下列公式即可

由于使用了一段连续的视频作为输入，所以前一帧的R和T可以用来作为后一帧的初始值。在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

基于所述第一3D特征，获得所述目标的3D姿态。

2.根据权利要求1所述的方法，其特征在于，

所述根据参考深度值及图像中目标的关键点的实际深度值，将所述关键点的第一2D坐标的转换为第二2D坐标，包括：

3.根据权利要求2所述的方法，其特征在于，

所述根据所述实际深度值与所述参考深度值的比值与所述第一2D坐标，得到所述第二2D坐标，包括：

利用如下函数关系确定所述第二2D坐标；

X2＝(X1*d)/D，

Y2＝(Y1*d)/D，

d为所述实际深度值；D为所述参考深度值。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

光心位置根据所述关键点的第二3D特征及所述图像对应的光心位置，得到所述第一2D坐标；其中，所述第二3D特征包括：基于2D图像得到的第三2D坐标及基于深度图像得到的实际深度值。

5.根据权利要求4所述的方法，其特征在于，

所述根据所述关键点的第二3D特征及所述图像对应的光心位置，得到所述第一2D坐标，包括：

移动所述关键点的第二3D特征，使得

将所述第三3D特征投影到2D成像平面，得到所述第一2D坐标。

6.根据权利要求5所述的方法，其特征在于，

若所述目标为人体骨骼，所述基准点的第一3D特征是基于所述关键点中的两个胯部关键点的第二3D特征确定的。

7.根据权利要求4至6任一项所述的方法，其特征在于，

所述方法还包括：

8.一种数据处理装置，其特征在于，包括：

9.一种计算机存储介质，所述计算机存储介质存储有计算机可执行代码；所述计算机可执行代码被执行后，能够实现权利要求1至7任一项提供的方法。

10.一种电子设备，其特征在于，包括：

存储器，用于存储信息；

处理器，与所述存储器连接，用于通过执行存储在所述存储器上的计算机可执行指令，能够实现权利要求1至7任一项提供的方法。