CN108564618B

CN108564618B - 基于多体素块的手几何运动重建方法及装置

Info

Publication number: CN108564618B
Application number: CN201810320747.3A
Authority: CN
Inventors: 徐枫; 张�浩; 刘烨斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2020-12-01
Anticipated expiration: 2038-04-11
Also published as: CN108564618A

Abstract

本发明公开了一种基于多体素块的手几何运动重建方法及装置，其中，方法包括以下步骤：根据首帧的深度数据获取人手骨架，并对多体素块进行初始化；通过多体素块中已重建好的手模型对手进行运动估计，以得到新的深度数据；将新的深度数据融合到多体素块中，更新手的几何模型，以同时重建手的运动和几何模型。该方法能够同时重建人手的几何模型和运动信息，避免了传统人手运动重建过程中对参数化模型的依赖，增强了人手重建技术的鲁棒性并拓展人手重建技术的应用范围，推动人手重建技术的发展。

Description

基于多体素块的手几何运动重建方法及装置

技术领域

本发明涉及计算机视觉及图形学技术领域，特别涉及一种基于多体素块的手几何运动重建方法及装置。

背景技术

手的重建是计算机图形学领域中一个重要且基础的问题，在虚拟/增强现实、人机交互和人工智能领域内有着广泛的应用。例如，在虚拟现实领域中，通过重建人手的几何和运动，实现人手与虚拟物体之间的交互，增强人在虚拟环境中的真实感；在人机交互领域，近年来兴起的手势识别技术通过跟踪手的运动，将手特定的运动映射到指令集，可以代替传统的键盘和鼠标进行指令的下达，实现便携，智能的人机交互；在人工智能领域，通过实时采集和重建手的运动，并结合机器学习的方法可以实现手语的自动翻译。正是由于手的重建技术具有非常广泛的应用前景，因此具有极高的科研和应用价值。

然而，现有技术仍然存在缺陷，无法在重建手运动的同时重建真实且个性化的人手几何模型，限制了人手重建技术的应用范围。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于多体素块的手几何运动重建方法，能够增强人手重建技术的鲁棒性并拓展人手重建技术的应用范围。

本发明的另一个目的在于提出一种基于多体素块的手几何运动重建装置。

为达到上述目的，本发明一方面实施例提出了一种基于多体素块的手几何运动重建方法，包括以下步骤：根据首帧的深度数据获取人手骨架，并对多体素块进行初始化；通过所述多体素块中已重建好的手模型对手进行运动估计，以得到新的深度数据；以及将所述新的深度数据融合到所述多体素块中，更新手的几何模型，以同时重建手的运动和所述几何模型。

本发明实施例的基于多体素块的手几何运动重建方法，通过设置首帧的深度数据，从而对多体素块进行初始化，并得到新的深度数据，将新的深度数据融合到多体素块中，重建手的运动和所述几何模型，避免了传统人手运动重建过程中对参数化模型的依赖，增强了手重建技术的鲁棒性并拓展人手重建技术的应用范围，推动人手重建技术的发展。

另外，根据本发明上述实施例的基于多体素块的手几何运动重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据首帧深度数据获取人手骨架，并对多体素块进行初始化，进一步包括：使用所述多个体素块分别对人手的手掌和手指进行重建；利用所述首帧获得的人手骨架获取预设姿态下的骨架，并得到首帧人手骨架相对于所述预设姿态骨架的运动；利用所述预设姿态的人手骨架获取每个体素块的尺寸；将所述预设姿态的人手骨架嵌入到所述多体素块中，并为所述每个体素计算最近的两根手骨；以及利用首帧手骨架的运动驱动多体素，以将所述首帧的深度数据融合到所述多体素块中，获得人手的初始模型。

进一步地，在本发明的一个实施例中，所述将所述新的深度数据融合到所述多体素块中，更新手的几何模型，以同时重建手的运动和所述几何模型，进一步包括：利用前一帧的人手运动作为初始值，并驱动当前预设姿态下的多体素块的tsdf场，以获得运动后的tsdf场；通过将当前深度数据约束到所述运动后tsdf场过零点，以求解人手的运动；以及利用所述人手的运动驱动体素块中的体素，将所述当前深度数据融合到所述多体素块中，更新人手模型。

进一步地，在本发明的一个实施例中，体素的运动可表示为：

T(x)＝SE3(normalize(w1·dq(p1)+w2·dq(p1))，

其中，dq(p)为手骨p的运动由对偶四元数表示，normalize()是对对偶四元数进行归一化，SE3()是将对偶四元数转化为变换矩阵T。

进一步地，在本发明的一个实施例中，所述多体素块中人手模型的更新为：

其中，{S(x)，W(x)}为体素中存储的tsdf值和其置信度，μ表示截断长度，η为：

进一步地，其中，x_c为运动之后体素的相机坐标，T_c为世界坐标系到相机坐标系之间的变换，x_c ^z为x_c的z坐标，K表示相机投影矩阵。

为达到上述目的，本发明另一方面实施例提出了一种基于多体素块的手几何运动重建装置，包括：初始化模块，用于根据首帧的深度数据获取人手骨架，并对多体素块进行初始化；运动估计模块，用于通过所述多体素块中已重建好的手模型对手进行运动估计，以得到新的深度数据；以及重建模块，用于将所述新的深度数据融合到所述多体素块中，更新手的几何模型，以同时重建手的运动和所述几何模型。

本发明实施例的基于多体素块的手几何运动重建装置，通过设置首帧的深度数据，从而对多体素块进行初始化，并得到新的深度数据，将新的深度数据融合到多体素块中，重建手的运动和所述几何模型，避免了传统人手运动重建过程中对参数化模型的依赖，增强了手重建技术的鲁棒性并拓展人手重建技术的应用范围，推动人手重建技术的发展。

另外，根据本发明上述实施例的基于多体素块的手几何运动重建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述初始化模块，进一步用于：使用所述多个体素块分别对人手的手掌和手指进行重建；利用所述首帧获得的人手骨架获取预设姿态下的骨架，并得到首帧人手骨架相对于所述预设姿态骨架的运动；利用所述预设姿态的人手骨架获取每个体素块的尺寸；将所述预设姿态的人手骨架嵌入到所述多体素块中，并为所述每个体素计算最近的两根手骨；以及利用首帧手骨架的运动驱动多体素，以将所述首帧的深度数据融合到所述多体素块中，获得人手的初始模型。

进一步地，在本发明的一个实施例中，所述重建模块，进一步用于：利用前一帧的人手运动作为初始值，并驱动当前预设姿态下的多体素块的tsdf场，以获得运动后的tsdf场；通过将当前深度数据约束到所述运动后tsdf场过零点，以求解人手的运动；以及利用所述人手的运动驱动体素块中的体素，将所述当前深度数据融合到所述多体素块中，更新人手模型。

T(x)＝SE3(normalize(w1·dq(p1)+w2·dq(p1))，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于多体素块的手几何运动重建方法的流程图；

图2为根据本发明一个实施例的适合于人手重建的多体素块数据结构图；

图3为根据本发明一个实施例的基于多体素块的手几何运动重建方法的流程图；

图4为根据本发明实施例的基于多体素块的手几何运动重建装置的结构示意图。

附图标记书明：

图2(a)中，(1)为手掌体素块、(2)为大拇指体素块、(3)为食指体素块、(4)为中指体素块、(5)为无名指体素块和(6)小拇指体素块。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于多体素块的手几何运动重建方法及装置，首先将参照附图描述根据本发明实施例提出的基于多体素块的手几何运动重建方法。

图1为根据本发明实施例的基于多体素块的手几何运动重建方法的流程图，如图1所示，该基于多体素块的手几何运动重建方法包括以下步骤：

在步骤S101中，根据首帧的深度数据获取人手骨架，并对多体素块进行初始化。

首先，根据图2，依据人手的解剖结构，将人手表示为多体素块结构，包括以下两个部分：多体素块和人手骨架。

其中，体素块是计算机用于存储模型TSDF值的数据结构。基于体素的重建方法常用于静态场景重建(如办公室重建)或动态场景重建(如人体重建)。常见体素结构为稠密体素块或稀疏体素块，体素之间在物理空间上互不重叠。为适应人手模型的重建，提出多体素块的数据结构，如图2(a)所示，包含6个体素块，分别为手掌体素块(1)、大拇指体素块(2)、食指体素块(3)、中指体素块(4)、无名指体素块(5)和小拇指体素块(6)，分别用于重建手掌和5根手指。各体素块均为长方体结构，其大小和位置由人手标准姿态下的骨架尺寸确定，各体素块中的体素在标准坐标系下可能会有重叠。

进一步地，依据人手的运动特点和解剖结构，可将人手的运动信息使用如图2(b)所示的骨架结构进行表达。该骨架结构总共包含21个结点，各结点的自由度如图2(b)所示。结点之间通过手骨相互连接，构成铰链式的运动结构，人手的运动即可由手骨的运动完全表达。人手骨架的尺寸(如食指指骨的长度)与人手的实际尺寸(如食指长度)具有非常大的相关性。所以可以通过人手骨架的尺寸确定各体素块的尺寸，并且人手骨架的运动可以带着各体素块运动。

在本发明的一个实施例中，标准姿态下的人手骨架可以通过以下方法获得：

在输入视频的首帧估计人手的骨架结点，要求视频首帧的人手姿态应接近于标准姿态。对首帧人手骨架结点进行处理，获得标准姿态下的人手骨架以及首帧人手骨架相对于标准姿态骨架的运动。

如图3所示，可以理解的，根据首帧深度数据获取人手骨架，并对多体素块进行初始化，其步骤为：

使用多个体素块分别对人手的手掌和手指进行重建；利用首帧获得的人手骨架获取预设姿态下的骨架，并得到首帧人手骨架相对于预设姿态骨架的运动；利用预设姿态的人手骨架获取每个体素块的尺寸；将预设姿态的人手骨架嵌入到多体素块中，并为每个体素计算最近的两根手骨；利用首帧手骨架的运动驱动多体素，以将首帧的深度数据融合到多体素块中，获得人手的初始模型。

进一步地，在本发明的一个实施例中，多体素块的初始化包含确定各体素块的尺寸，计算对体素影响最大的两根手骨的索引和权重，以及将第一帧的深度信息融合到多体素块中三部分。

各体素块的尺寸可通过标准姿态下的人手骨架确定。其中，手掌体素块的长和宽由处于标准姿态下的结点0、2、7和13共同决定，手掌厚度单独确定。各手指体素块的长度由各手指的指尖结点和指根结点确定，如食指体素块的长度由结点4和17确定(注意体素块的长度应大于结点4和17的距离)，手指体素块的宽度和厚度尺寸相等且单独确定。

可以理解的是，对体素运动影响最大的两根手骨的计算在标准姿态下进行。首先为每个体素块确定局部坐标系。选择结点0，2，4，7，10，13分别为手掌体素块，大拇指体素块，食指体素块，中指体素块，无名指体素块和小拇指体素块局部坐标系的坐标原点。选择手掌体素块的局部坐标系为多体素块的标准坐标系，如图2(b)所示，确定每个体素块的局部坐标系到标准坐标系的旋转Ri和平移ti，其中，i的取值范围为0～5，分别对应手掌体素块(1)，大拇指体素(2)，食指体素块(3)，中指体素块(4)，无名指体素块(5)和小拇指体素块(6)。然后为每个体素块确定会对该块内体素产生影响的手骨Pi。对手掌体素块中的体素产生影响的手骨包括P0＝{0-1，1-2，2-3，0-4，4-5，0-7，7-8，0-10，10-11，0-13，13-14}，其中m-n表示两端结点分别为m和n的手骨；对大拇指体素块中的体素产生影响的手骨包括P1＝{1-2，2-3，3-16}；对食指体素块中的体素产生影响的手骨包括P2＝{0-4，4-5，5-6，6-17}；对中指体素块中的体素产生影响的手骨包括P3＝{0-7,7-8,8-9,9-18}；对无名指体素块中的体素产生影响的手骨包括P4＝{0-10，10-11，11-12，12-19}；对小拇指体素块中的体素产生影响的手骨包括P5＝{0-13，13-14，14-15，15-20}。最后选择两个距离最近的手骨作为影响该体素的手骨I(x)＝{p1，p2}，得到：

进一步地，使用其距离的高斯函数作为影响权重W(v)＝{w1，w2}，得到：

其中，d(xs，p)表示体素到手骨线段的最近距离，xs为体素的标准坐标，得到：

x_s＝R_ix+t_i，

其中，x为体素的局部坐标。

在本发明的一个实施例中，可按照动态重建的方法将第一帧手的深度数据融合到多体素块中，具体地，体素的运动可表示为：

T(x)＝SE3(normalize(w1·dq(p1)+w2·dq(p1))，

其中，dq(p)为手骨p的运动由对偶四元数表示，normalize()为对对偶四元数进行归一化，SE3()为将对偶四元数转化为变换矩阵T。

在步骤S102中，通过多体素块中已重建好的手模型对手进行运动估计，以得到新的深度数据。

在本发明的一个实施例中，手的运动可由手骨的运动完全表达，即Θ＝{dq(p_j)|p_j∈P₀∪P₁∪P₂∪P₃∪P₄∪P₅}。求解手的运动即求解Θ，使得能量最小，其公式为：

其中，v为当前深度图D所包含的手数据点，TSDF(v,Θ)为将多体素块中的tsdf场经Θ运动后得到的tsdf场在v处的值。

在步骤S103中，将新的深度数据融合到多体素块中，更新手的几何模型，以同时重建手的运动和几何模型。

可以理解的是，重建手的运动和几何模型具体包括：利用前一帧的人手运动作为初始值，并驱动当前预设姿态下的多体素块的tsdf场，以获得运动后的tsdf场；通过将当前深度数据约束到运动后tsdf场过零点，以求解人手的运动；利用人手的运动驱动体素块中的体素，将当前深度数据融合到多体素块中，更新人手模型。

在本发明的一个实施例中，在获得手的运动之后，便可使用如下公式将新的数据融合到多体素块中，完成多体素块中人手模型的更新：

其次参照附图描述根据本发明实施例提出的基于多体素块的手几何运动重建装置。

图4是本发明一个实施例的基于多体素块的手几何运动重建装置的结构示意图。

如图2所示，该基于多体素块的手几何运动重建装置10包括：初始化模块100、运动估计模块200和重建模块300。

其中，初始化模块100用于根据首帧的深度数据获取人手骨架，并对多体素块进行初始化。运动估计模块200用于通过多体素块中已重建好的手模型对手进行运动估计，以得到新的深度数据。重建模块300用于将新的深度数据融合到多体素块中，更新手的几何模型，以同时重建手的运动和几何模型。该基于多体素块的手几何运动重建装置10能够增强手重建技术的鲁棒性并拓展人手重建技术的应用范围，推动人手重建技术的发展。

进一步地，在本发明的一个实施例中，初始化模块100，进一步用于：使用多个体素块分别对人手的手掌和手指进行重建；利用首帧获得的人手骨架获取预设姿态下的骨架，并得到首帧人手骨架相对于预设姿态骨架的运动；利用预设姿态的人手骨架获取每个体素块的尺寸；将预设姿态的人手骨架嵌入到多体素块中，并为每个体素计算最近的两根手骨；利用首帧手骨架的运动驱动多体素，以将首帧的深度数据融合到多体素块中，获得人手的初始模型。

进一步地，在本发明的一个实施例中，重建模块300，进一步用于：利用前一帧的人手运动作为初始值，并驱动当前预设姿态下的多体素块的tsdf场，以获得运动后的tsdf场；通过将当前深度数据约束到运动后tsdf场过零点，以求解人手的运动；利用人手的运动驱动体素块中的体素，将当前深度数据融合到多体素块中，更新人手模型。

T(x)＝SE3(normalize(w1·dq(p1)+w2·dq(p1))，

进一步地，在本发明的一个实施例中，多体素块中人手模型的更新为：

需要说明的是，前述对基于多体素块的手几何运动重建方法实施例的解释说明也适用于该实施例的基于多体素块的手几何运动重建装置，此处不再赘述。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多体素块的手几何运动重建方法，其特征在于，包括以下步骤：

根据首帧的深度数据获取人手骨架，并对多体素块进行初始化，所述根据首帧深度数据获取人手骨架，并对多体素块进行初始化，进一步包括：使用所述多体素块分别对人手的手掌和手指进行重建；利用所述首帧获得的人手骨架获取预设姿态下的骨架，并得到首帧人手骨架相对于所述预设姿态骨架的运动；利用所述预设姿态的人手骨架获取每个体素块的尺寸；将所述预设姿态的人手骨架嵌入到所述多体素块中，并为所述每个体素计算最近的两根手骨；利用首帧手骨架的运动驱动多体素，以将所述首帧的深度数据融合到所述多体素块中，获得人手的初始模型；

通过所述多体素块中已重建好的手模型对手进行运动估计，以得到新的人手运动，其中，手的运动由手骨的运动完全表达，即Θ＝{dq(p_j)|p_j∈P₀∪P₁∪P₂∪P₃∪P₄∪P₅}，其中，dq(p_j)为由对偶四元数表示的手骨p_j的运动，P₀、P₁、P₂、P₃、P₄和P₅分别表示手掌、大拇指、食指、中指、无名指和小拇指所包含的手骨；求解手的运动即求解Θ，使得能量最小，其公式为：

其中，v为当前深度图D所包含的手数据点，TSDF(v,Θ)为将多体素块中的tsdf场经Θ运动后得到的tsdf场在v处的值；以及

根据所述人手运动将当前深度数据融合到所述多体素块中，更新手的几何模型，以同时重建手的运动和所述几何模型。

2.根据权利要求1所述的基于多体素块的手几何运动重建方法，其特征在于，所述将所述新的深度数据融合到所述多体素块中，更新手的几何模型，以同时重建手的运动和所述几何模型，进一步包括：

利用前一帧的人手运动作为初始值，并驱动当前预设姿态下的多体素块的tsdf场，以获得运动后的tsdf场；

通过将当前深度数据约束到所述运动后tsdf场过零点，以求解人手的运动；以及

利用所述人手的运动驱动体素块中的体素，将所述当前深度数据融合到所述多体素块中，更新人手模型。

3.根据权利要求2所述的基于多体素块的手几何运动重建方法，其特征在于，体素的运动可表示为：

T(x)＝SE3(normalize(w1·dq(p1)+w2·dq(p1))，

其中，dq(p)为手骨p的运动由对偶四元数表示，normalize()是对对偶四元数进行归一化，SE3()是将对偶四元数转化为变换矩阵T，p1和p2为两个距离最近的手骨，w1和w2为影响权重，

d(x_s，p)表示体素到手骨线段的最近距离，x_s为体素的标准坐标，x_s＝R_ix+t_i，x为体素的局部坐标，每个体素块的局部坐标系到标准坐标系的旋转R_i和平移t_i。

4.根据权利要求3所述的基于多体素块的手几何运动重建方法，其特征在于，所述多体素块中人手模型的更新为：

5.一种基于多体素块的手几何运动重建装置，其特征在于，包括：

初始化模块，用于根据首帧的深度数据获取人手骨架，并对多体素块进行初始化，所述初始化模块，进一步用于：使用所述多体素块分别对人手的手掌和手指进行重建；利用所述首帧获得的人手骨架获取预设姿态下的骨架，并得到首帧人手骨架相对于所述预设姿态骨架的运动；利用所述预设姿态的人手骨架获取每个体素块的尺寸；将所述预设姿态的人手骨架嵌入到所述多体素块中，并为所述每个体素计算最近的两根手骨；利用首帧手骨架的运动驱动多体素，以将所述首帧的深度数据融合到所述多体素块中，获得人手的初始模型；

运动估计模块，用于通过所述多体素块中已重建好的手模型对手进行运动估计，以得到新的人手运动，其中，手的运动由手骨的运动完全表达，即Θ＝{dq(p_j)|p_j∈P₀∪P₁∪P₂∪P₃∪P₄∪P₅}，其中，dq(p_j)为由对偶四元数表示的手骨p_j的运动，P₀、P₁、P₂、P₃、P₄和P₅分别表示手掌、大拇指、食指、中指、无名指和小拇指所包含的手骨；求解手的运动即求解Θ，使得能量最小，其公式为：

重建模块，用于根据所述人手运动将所述当前深度数据融合到所述多体素块中，更新手的几何模型，以同时重建手的运动和所述几何模型。

6.根据权利要求5所述的基于多体素块的手几何运动重建装置，其特征在于，所述重建模块，进一步用于：

7.根据权利要求5所述的基于多体素块的手几何运动重建装置，其特征在于，体素的运动可表示为：

T(x)＝SE3(normalize(w1·dq(p1)+w2·dq(p1))，

8.根据权利要求5所述的基于多体素块的手几何运动重建装置，其特征在于，所述多体素块中人手模型的更新为：