CN109448105B

CN109448105B - 基于多深度图像传感器的三维人体骨架生成方法及系统

Info

Publication number: CN109448105B
Application number: CN201811197532.3A
Authority: CN
Inventors: 周元峰; 宋震; 贾金公
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2020-06-26
Anticipated expiration: 2038-10-15
Also published as: CN109448105A

Abstract

本申请实施例公开了基于多深度图像传感器的三维人体骨架生成方法及系统，包括：获取三个深度图像传感器在各自视角的场景深度图，对场景深度图进行处理获得对应点云数据，根据点云数据得到地面法向以及地面法向与世界坐标系中Y轴的夹角；记录三个深度图像传感器获取的骨架信息，通过所得到的地面法向与世界坐标系中Y轴的夹角对人体骨架数据进行修正；选取一个深度图像传感器的坐标系作为基准坐标系；利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准坐标系融合，得到三维人体骨架数据。解决单深度图像传感器在获取人体关节信息存在的遮挡问题和关节点抖动问题以及多深度图像传感器摄像头倾斜时导致的骨架倾斜问题。

Description

基于多深度图像传感器的三维人体骨架生成方法及系统

技术领域

本申请实施例涉及多深度图像传感器数据增强技术领域，特别是涉及基于多深度图像传感器的三维人体骨架生成方法及系统。

背景技术

人体运动捕捉是描述人体运动的基本方法，作为一种应用非常广泛的人机交互中间键，同时也是虚拟现实和增强现实技术的重要组成部分。捕捉的人体动作可以将体验者在真实环境中的运动转换同步到虚拟场景中，有助于提高用户的沉浸感和临场感。人体运动捕捉一般有两种方法：基于标记的动作捕捉和无标记的动作捕捉。

基于标记的动作捕捉要求被捕捉对象必须穿一套带有传感器或标记物的套装，然后通过算法对标记的人体参数进行实时获取。但此方法只能在绿布背景下进行使用，在复杂背景下就失去了优势，同时也增加了实验的成本和复杂性。

无标记的运动捕捉是一种避免使用标记(基准标记)的运动追踪方法。因此不需要专门准备好标记的环境，这种方法更加灵活、有效。应用成本的下降，使无标记追踪方法越来越成为有吸引力的选择。然而，它仍存在一些问题，比如在缺乏精确深度信息的情况下同样是具有挑战性的。

随着深度图像传感器获取设备以及混合现实显示器的快速发展，关于增强现实的研究获得越来越多的关注。利用RGB-D图像获取设备可以获取现实场景中的更多的空间信息，利用这些信息，借助计算机视觉技术和人工智能技术对这些信息进行融合、提取等加工处理，然后利用混合现实显示器实时显示，使得人们可以突破屏幕，实现虚实融合，自然交互。深度图像传感器能够提供人体骨架及其关节点的实时检测，并且提供了比较精确的深度信息，弥补了无标记动作捕捉的短板，同时基于深度信息可以把人体提取出来，使得在复杂背景下进行人体动作捕捉变的可行。

大多数研究者在使用单个深度图像传感器设备来获取人体骨架信息时，往往会出现由于单一角度提供的信息的局限性，表现在单目视图通常会受到自我遮挡、障碍物遮挡、关节点抖动、人与镜头距离等问题的困扰，从而导致获取的人体骨架三维信息不准确的问题。而且多目摄像头的研究也未能解决各个摄像头倾斜时会对骨架信息造成偏差，使骨架倾斜，从而导致融合骨架信息不准确。

发明内容

本发明旨在解决单深度图像传感器设备在获取人体关节信息存在的遮挡问题和关节点抖动问题以及多深度图像传感器摄像头倾斜时导致的骨架倾斜问题。为此，本发明的目的在于提出一种基于三个深度图像传感器设备共同搭建形成深度摄像机网来获取增强人体三维骨架数据信息的算法。采用分布式网络把三个深度图像传感器构成局域网；然后三个深度图像传感器设备分别获取各自的原始关节数据以及场景深度图；首先对骨架数据进行预处理，然后选取其中一台设备作为基准骨架，将另外两台设备采集的原始关节数据与之融合产生精确度高并且关节点信息完整关节信息。

第一方面，本申请实施例提供了基于多深度图像传感器的三维人体骨架生成方法；

基于多深度图像传感器的三维人体骨架生成方法，包括：

获取三个深度图像传感器在各自视角的场景深度图，对场景深度图进行处理获得对应点云数据，根据点云数据得到地面法向以及地面法向与世界坐标系中Y轴的夹角；

记录三个深度图像传感器获取的骨架信息，所述骨架信息，包括：人体关节坐标和追踪状态，通过所得到的地面法向与世界坐标系中Y轴的夹角对人体骨架数据进行修正；

选取一个深度图像传感器的坐标系作为基准坐标系；利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准坐标系融合，得到三维人体骨架数据。

因此，在申请实施例中，预先将三个深度图像传感器布设在距离人体设定距离的三个位置上，其解决单深度图像传感器设备在获取人体关节信息存在的遮挡问题和关节点抖动问题以及多深度图像传感器摄像头倾斜时导致的骨架倾斜问题。

可选的，在一些可能的实现方式中，在融合后，得到三维人体骨架数据之前，还需要对三维人体骨架数据进行消除抖动处理。

可选的，在一些可能的实现方式中，所述获取三个深度图像传感器在各自视角的场景深度图，对场景深度图进行处理获得对应点云数据，根据点云数据得到地面法向以及地面法向与世界坐标系中Y轴的夹角包括：

步骤(1.1)：三个深度图像传感器每两台之间成120°夹角摆放，三个深度图像传感器处在一个同心圆上，待拍摄对象设于同心圆的圆心，将三个深度图像传感器获取的场景深度图转化为点云数据；

步骤(1.2)：将点云数据中每个点与所邻接的两个点构成一个面片，即三个点构成一个面片，计算与当前点连接的所有面片的法向量，然后将与当前点连接的所有面片的法向量的平均值作为当前点的法向量；同理，计算出所有点的法向量；然后对所有点的法向量进行聚类，产生三个主法向量；然后从三个主法向量中选取与世界坐标系Y轴的法向量夹角最小的主法向量作为地面法向量；

步骤(1.3)：计算地面法向量与世界坐标系Y轴向量之间的旋转轴，计算地面法向与世界坐标系中Y轴的旋转角。

可选的，在一些可能的实现方式中，所述记录三个深度图像传感器获取的骨架信息，所述骨架信息，包括：人体关节坐标和追踪状态，通过所得到的地面法向与世界坐标系中Y轴的夹角把人体骨架数据进行修正，包括：

步骤(2.1)：深度图像传感器对人体关节点追踪分为三个状态：未获取关节点、预测到关节点、获取到关节点；所述未获取关节点用数字0表示，所述预测到关节点用数字1表示，所述获取到关节点用数字2表示；追踪到每个关节点的三维坐标；

步骤(2.2)：记录三个深度图像传感器采集的原始骨架信息，包括追踪状态以及每个关节点的三维坐标；

步骤(2.3)：为解决骨架倾斜问题，将每个关节点的三维坐标按照步骤(1.3)中得到的旋转角和旋转轴重新计算新的三维坐标。

可选的，在一些可能的实现方式中，所述选取一个深度图像传感器的坐标系作为基准坐标系包括：

利用三个深度图像传感器拍摄的人体的三张深度图像，通过对人脸识别来将三张深度图像区分为正面、侧面和背面，将人脸面积最大的视为正面，将人脸面积最小的视为背面，将人脸面积处于中间值的视为侧面；将正面深度图像所对应的深度图像传感器作为基准深度图像传感器，将基准深度图像传感器所处的坐标系视为基准坐标系。

可选的，在一些可能的实现方式中，所述利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准融合，得到三维人体骨架数据包括：

步骤(4.1)：将基准深度图像传感器追踪到的骨架记为a，其他两个深度图像传感器追踪到的骨架分别记为b和c；

步骤(4.2)：取a、b和c三副骨架中对应的关节点作为对应点集，利用3D刚性变换分别求取a与b的变换矩阵和a与c的变换矩阵；变换矩阵包括：旋转矩阵和平移矩阵；

步骤(4.3)：为解决关节点抖动的情况，对每一个关节点检查前4帧，如果前4帧中有超过1次追踪状态值为1或0时，则将该点的状态设为3；当左踝关节AnkleLeft状态为1或3时，将左膝关节KneeLeft与左脚FootLeft的状态设为3；同理，当右踝关节AnkleRight状态为1或3时，将右膝关节KneeRight与右脚FootRight的状态设为3；

步骤(4.4)：利用步骤(4.2)得到的a与b的旋转矩阵R和平移矩阵T将b骨架上的各个点进行旋转变换；根据a与c的旋转矩阵R和平移矩阵T对骨架c上各个点进行旋转变换；

步骤(4.5)：利用加权平均的算法计算融合后点的位置；

步骤(4.6)：取下一帧，继续选取一个深度图像传感器的坐标系作为基准坐标系；利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准坐标系融合，得到三维人体骨架数据，最后达到实时骨架增强。

可选的，在一些可能的实现方式中，所述步骤(4.5)的步骤为：

(x,y,z)＝w₁(x_a,y_a,z_a)+w₂(x_b,y_b,z_b)+w₃(x_c,y_c,z_c)

权重w₁，w₂，w₃设置情况：

a)若同一个关节点骨架a、骨架b和骨架c中追踪状态均为2，则权重w₁，w₂，w₃设为1/3，1/3，1/3；

b)若同一个关节点骨架a、骨架b和骨架c中有一个点的状态为1或3，则权重w₁，w₂，w₃设为1/6，2.5/6，2.5/6；

c)若同一个关节点骨架a、骨架b和骨架c中有两个点的状态为1或3，则权重w₁，w₂，w₃设为1.5/6，1.5/6，1/2。

可选的，在一些可能的实现方式中，利用3D刚性变换求取骨架a与b的变换矩阵计算过程如下：

(4.21)计算骨架a所取点集的中心点u_a，骨架b所取点集的中心点u_b；

(4.22)将骨架a与b所取的点集重新中心化；

(4.23)计算点集重新中心化后的协方差矩阵H；

(4.24)通过SVD方法对协方差矩阵H进行分解得到旋转矩阵R，进一步得到转移矩阵T。

a与c的变换矩阵的计算过程跟a与b的变换矩阵的计算过程类似。

可选的，在一些可能的实现方式中，所述步骤(1.1)的步骤为：

其中，z_c为深度图中像素的深度值，u是场景深度图的某个像素点的横坐标，v是场景深度图的某个像素点的纵坐标，

为相机内参矩阵，

为相机外参矩阵，[x_w,y_w,z_c]^T为深度图像素对应的点云三维坐标；f为焦距，dx和dy为中心点像素尺寸，u₀为深度图像的中心点的横坐标，v₀为深度图像的中心点的纵坐标，x_w、y_w和z_c为深度图像中的点对应到世界坐标系下的三维坐标点；

通过公式(1)计算得到深度图像点[u,v]^T到世界坐标点[x_w,y_w,z_c]^T的变换公式：

其中，z_c为相机的z轴值，也就是目标到相机的深度；z_w为世界坐标系的三维坐标点z值。

第二方面，本申请实施例还提供了基于多深度图像传感器的三维人体骨架生成系统；

基于多深度图像传感器的三维人体骨架生成系统，包括：三个深度图像传感器和处理器；

所述三个深度图像传感器每两台之间成120°夹角摆放，三个深度图像传感器处在一个同心圆上，待拍摄对象设于同心圆的圆心；

所述处理器，获取三个深度图像传感器在各自视角的场景深度图，对场景深度图进行处理获得对应点云数据，根据点云数据得到地面法向以及地面法向与世界坐标系中Y轴的夹角；

记录三个深度图像传感器获取的骨架信息，所述骨架信息，包括：人体关节坐标和追踪状态，通过所得到的地面法向与世界坐标系中Y轴的夹角把人体骨架数据进行修正；

选取一个深度图像传感器的坐标系作为基准坐标系；利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准融合，得到三维人体骨架数据。

因此，在申请实施例中，其解决单深度图像传感器设备在获取人体关节信息存在的遮挡问题和关节点抖动问题以及多深度图像传感器摄像头倾斜时导致的骨架倾斜问题。

第三方面，本申请实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中的任一方法的步骤。

与现有技术相比，本申请实施例的有益效果是：

本发明提出了一种多深度图像传感器对人体骨架多角度融合的算法，提高了人体骨架数据的精确度。

本发明提出了基于深度图对每个骨架做出调整的计算方法，通过把找出场景地面法向来对原始骨架数据进行校正，避免了因不同摄像头倾斜角度不同对骨架数据追踪所产生的误差。

本发明提出了基于“三维刚体变换”以及加权平均的融合方法对骨架数据进行增强，避免了关节点跳动的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本申请实施例的深度图像传感器追踪到的人体骨架；

图2为本申请实施例的深度图像传感器摆放与人体站位；

图3为本申请实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释部分：

深度图像传感器，指能获取深度信息的设备，例如微软的Kinect，英特尔的realsense。

场景深度图是指从深度图像传感器到场景中各点的距离(深度)作为像素值的图像。

SVD:singular value decomposition，奇异值分解。

第一个实施例，如图3所示，本申请实施例提供了基于多深度图像传感器的三维人体骨架生成方法；图1为本申请实施例的深度图像传感器追踪到的人体骨架。

基于多深度图像传感器的三维人体骨架生成方法，包括：

步骤(1.1)：如图2所示，三个深度图像传感器每两台之间成120°夹角摆放，三个深度图像传感器处在一个同心圆上，待拍摄对象设于同心圆的圆心，将三个深度图像传感器获取的场景深度图转化为点云数据：

为相机内参矩阵，

其中，z_c为相机的z轴值，也就是目标到相机的深度；z_w为世界坐标系的三维坐标点z值；

步骤(1.2)：将点云数据中每个点与所邻接的两个点构成一个面片，即三个点构成一个面片，计算与当前点连接的所有面片的法向量，然后将与当前点连接的所有面片的法向量的平均值作为当前点的法向量；同理，计算出所有点的法向量；

然后对所有点的法向量进行聚类，产生三个主法向量；然后然后从三个主法向量中选取与世界坐标系Y轴的法向量夹角最小的主法向量作为地面法向量，记为G＝[x,y,z]^T；

步骤(1.3)：记世界坐标系Y轴向量为Y＝[0,1,0]^T，计算旋转轴R＝G×Y，计算地面法向与世界坐标系中Y轴的旋转角θ＝cos^-1(G·Y/||G||||Y||)。

进一步地，所述记录三个深度图像传感器获取的骨架信息，所述骨架信息，包括：人体关节坐标和追踪状态，通过所得到的地面法向与世界坐标系中Y轴的夹角把人体骨架数据进行修正，包括：

进一步地，所述选取一个深度图像传感器的坐标系作为基准坐标系包括：

进一步地，所述利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准融合，得到三维人体骨架数据包括：

步骤(4.5)：利用加权平均的算法计算融合后点的位置：

(x,y,z)＝w₁(x_a,y_a,z_a)+w₂(x_b,y_b,z_b)+w₃(x_c,y_c,z_c)；

权重w₁，w₂，w₃设置情况：

利用3D刚性变换求取a与b的变换矩阵计算过程如下：

(4.21)计算a所取点集的中心点u_a，b所取点集的中心点u_b；

其中P_a,P_b代表a与b所取的点集，P＝[X,Y,Z]；

(4.22)将a与b所取的点集重新中心化：

(4.23)计算点集重新中心化后的协方差矩阵H：

[U,S,V]＝SVD(H)；

R＝VU^T；

T＝u_B-u_AR。

第二个实施例，本申请实施例还提供了基于多深度图像传感器的三维人体骨架生成系统；

本申请实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

应理解，在本申请实施例中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过起塔的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于多深度图像传感器的三维人体骨架生成方法，其特征是，包括：

选取一个深度图像传感器的坐标系作为基准坐标系；利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准坐标系融合，得到三维人体骨架数据；

所述获取三个深度图像传感器在各自视角的场景深度图，对场景深度图进行处理获得对应点云数据，根据点云数据得到地面法向以及地面法向与世界坐标系中Y轴的夹角包括：

2.如权利要求1所述基于多深度图像传感器的三维人体骨架生成方法，其特征是，在融合后，得到三维人体骨架数据之前，还需要对三维人体骨架数据进行消除抖动处理。

3.如权利要求1所述基于多深度图像传感器的三维人体骨架生成方法，其特征是，所述记录三个深度图像传感器获取的骨架信息，所述骨架信息，包括：人体关节坐标和追踪状态，通过所得到的地面法向与世界坐标系中Y轴的夹角对人体骨架数据进行修正，包括：

4.如权利要求1所述基于多深度图像传感器的三维人体骨架生成方法，其特征是，所述选取一个深度图像传感器的坐标系作为基准坐标系包括：

5.如权利要求4所述基于多深度图像传感器的三维人体骨架生成方法，其特征是，所述利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准坐标系融合，得到三维人体骨架数据包括：

步骤(4.3)：为解决关节点抖动的情况，对每一个关节点检查前4帧，如果前4帧中有超过1次追踪状态值为1或0时，则将该点的状态设为3；当左踝关节Ankle Left状态为1或3时，将左膝关节Knee Left与左脚Foot Left的状态设为3；同理，当右踝关节Ankle Right状态为1或3时，将右膝关节Knee Right与右脚Foot Right的状态设为3；

步骤(4.5)：利用加权平均的算法计算融合后点的位置；

6.如权利要求5所述基于多深度图像传感器的三维人体骨架生成方法，其特征是，利用3D刚性变换求取骨架a与b的变换矩阵计算过程如下：

(4.22)将骨架a与b所取的点集重新中心化；

(4.23)计算点集重新中心化后的协方差矩阵H；

7.基于多深度图像传感器的三维人体骨架生成系统，其特征是，包括：三个深度图像传感器和处理器；

选取一个深度图像传感器的坐标系作为基准坐标系；利用3D刚性变换把另外两个深度图像传感器获得的关节点信息向基准融合，得到三维人体骨架数据；

三个深度图像传感器每两台之间成120°夹角摆放，三个深度图像传感器处在一个同心圆上，待拍摄对象设于同心圆的圆心，将三个深度图像传感器获取的场景深度图转化为点云数据；

将点云数据中每个点与所邻接的两个点构成一个面片，即三个点构成一个面片，计算与当前点连接的所有面片的法向量，然后将与当前点连接的所有面片的法向量的平均值作为当前点的法向量；同理，计算出所有点的法向量；然后对所有点的法向量进行聚类，产生三个主法向量；然后从三个主法向量中选取与世界坐标系Y轴的法向量夹角最小的主法向量作为地面法向量；

计算地面法向量与世界坐标系Y轴向量之间的旋转轴，计算地面法向与世界坐标系中Y轴的旋转角。

8.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-6任一项方法所述的步骤。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项方法所述的步骤。