CN110007754B

CN110007754B - 手与物体交互过程的实时重建方法及装置

Info

Publication number: CN110007754B
Application number: CN201910169262.3A
Authority: CN
Inventors: 徐枫; 张�浩; 杨东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2020-08-28
Anticipated expiration: 2039-03-06
Also published as: CN110007754A

Abstract

本发明公开了一种手与物体交互过程的实时重建方法及装置，其中，方法包括以下步骤：对待处理深度图像数据进行数据分割得到手与物体分割结果，且获得手势姿态预测数据，其中，手与物体分割结果包括物体数据和手部数据；将预测数据和手与物体分割作为约束项对统一能量函数进行优化，以得到手部运动序列和物体非刚性运动序列；将物体数据融合到物体模型得到物体静态模型，并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。该方法可以有效解决手与物体交互运动的实时重建问题，实时获得手的运动、物体的运动和物体的几何模型。

Description

手与物体交互过程的实时重建方法及装置

技术领域

本发明涉及计算机视觉、计算机图形学技术领域，特别涉及一种手与物体交互过程的实时重建方法及装置。

背景技术

手与物体的交互运动是人们日常生活中非常常见的活动，对手与物体的交互运动进行重建是人类活动全三维重建所必须解决的问题。而且，手与物体的交互过程中既包含了人的意图，又能反映一个人的健康状况。

因此，对手与物体的交互过程进行重建具有重要的科研意义。手势跟踪以及物体运动和模型重建是与手与物体交互运动重建直接相关的两个问题，也是计算机视觉与计算机图像学领域中两个重要且基础的问题，它们在人机交互，虚拟/增强现实等领域有着非常广泛的应用，学术界和工业界分别对这两个问题都进行了大量研究。

然而，目前对手与物体交互运动重建的研究非常不足。因此本发明针对这一现状，对手与物体的交互运动提出了一种实时重建方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种手与物体交互过程的实时重建方法，该方法可以有效解决手与物体交互运动的实时重建问题，实时获得手的运动、物体的运动和物体的几何模型。

本发明的另一个目的在于提出一种手与物体交互过程的实时重建装置。

为达到上述目的，本发明一方面实施例提出了一种手与物体交互过程的实时重建方法，包括以下步骤：对待处理深度图像数据进行数据分割得到手与物体分割结果，且获得手势姿态预测数据，其中，所述手与物体分割结果包括物体数据和手部数据；将预测数据和手与物体分割作为约束项对统一能量函数进行优化，以得到手部运动序列和物体非刚性运动序列；将所述物体数据融合到物体模型得到物体静态模型，并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。

本发明实施例的手与物体交互过程的实时重建方法，基于手与物体数据分割和手势姿态预测数据的统一能量优化，输入为两段采集的手与物体交互的时空对准的深度视频帧序列，输出为手的运动序列，物体的非刚性运动序列和一个物体的静态模型，从而有效解决手与物体交互运动的实时重建问题，实时获得手的运动、物体的运动和物体的几何模型。

另外，根据本发明上述实施例的手与物体交互过程的实时重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述对待处理深度图像数据进行数据分割得到手与物体分割结果，进一步包括：通过手与物体分割数据库对DNN(Deep NeuralNetwork，深度神经网络算法)进行训练，并根据训练后的所述DNN对待处理深度图像数据进行数据分割，以得到手与物体分割结果。

进一步地，在本发明的一个实施例中，所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据，其中，所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。

进一步地，在本发明的一个实施例中，所述获得手势姿态预测数据，进一步包括：采集手部运动数据，并根据所述手部运动数据训练LSTM(Long Short-Term Memory，长短期记忆网络)，以根据所述LSTM预测得到所述手势姿态预测数据。

进一步地，在本发明的一个实施例中，其中，所述统一能量函数为：

其中，

表示物体的非刚性运动，θ^t表示手势的姿态，

是与物体运动相关能量，所述

为：

其中，

是度量物体运动与物体的深度数据匹配程度的能量项，所述

为：

其中，D_obj表示属于物体的深度数据，u和n分别表示物体的三维点和法向，

表示物体的静态模型上的点经运动后获得的实时动态点；

和

分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项，其中，所述E_hand(θ^t)是与手的运动相关的能量：

所述E_d2m(θ^t)是度量手的运动与手的深度数据匹配程度的能量项：

其中，D_hand表示属于手的深度数据，H(θ^t)表示姿态为θ^t的手的模型，Dist(×)表示点到手模型表面之间的有符号距离，其中正数表示点在模型外部，负数表示点在模型内部，E_m2d(θ^t)表示将手的运动约束到数据轮廓中的能量，E_pose(θ^t)、E_lim(θ^t)和E_colli(θ^t)分别表示手姿态运动的先验信息，E_pre(θ^t)表示LSTM网络给出的手的姿态约束项，可表示为：

其中，

表示LSTM给出的t时刻的手势，E_itc表示手与物体之间的相互作用，可表示为：

当

M是物体模型的表面点。

为达到上述目的，本发明另一方面实施例提出了一种手与物体交互过程的实时重建装置，包括：分割模块，用于对待处理深度图像数据进行数据分割得到手与物体分割结果，且获得手势姿态预测数据，其中，所述手与物体分割结果包括物体数据和手部数据；优化模块，将预测数据和手与物体分割作为约束项对统一能量函数进行优化，以得到手部运动序列和物体非刚性运动序列；融合模块，用于将所述物体数据融合到物体模型得到物体静态模型，并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。

本发明实施例的手与物体交互过程的实时重建装置，基于手与物体数据分割和手势姿态预测数据的统一能量优化，输入为两段采集的手与物体交互的时空对准的深度视频帧序列，输出为手的运动序列，物体的非刚性运动序列和一个物体的静态模型，从而有效解决手与物体交互运动的实时重建问题，实时获得手的运动、物体的运动和物体的几何模型。

另外，根据本发明上述实施例的手与物体交互过程的实时重建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述分割模块进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练，并根据训练后的所述DNN对待处理深度图像数据进行数据分割，以得到手与物体分割结果。

进一步地，在本发明的一个实施例中，所述分割模块进一步用于采集手部运动数据，并根据所述手部运动数据训练长短期记忆网络LSTM，以根据所述LSTM预测得到所述手势姿态预测数据。

其中，

表示物体的非刚性运动，θ^t表示手势的姿态，

是与物体运动相关能量，所述

为：

其中，

是度量物体运动与物体的深度数据匹配程度的能量项，所述

为：

表示物体的静态模型上的点经运动后获得的实时动态点；

和

其中，

当

M是物体模型的表面点。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的手与物体交互过程的实时重建方法的流程图；

图2为根据本发明实施例的使用的两路深度数据示意图；

图3为根据本发明实施例的使用DNN获得的手与物体分割结果示意图；

图4为根据本发明实施例的手与物体交互重建结果示意图；

图5为根据本发明实施例的手与物体交互过程的实时重建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建方法及装置，首先将参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建方法。

图1是本发明一个实施例的手与物体交互过程的实时重建方法的流程图。

如图1所示，该手与物体交互过程的实时重建方法包括以下步骤：

在步骤S101中，对待处理深度图像数据进行数据分割得到手与物体分割结果，且获得手势姿态预测数据，其中，手与物体分割结果包括物体数据和手部数据。

可以理解的是，本发明实施例可以通过一定的方法对深度数据进行手-物体分割且获得手势的预测姿态。其中，一定的方法可以为预设方法，比如，预设方法可以为DNN，当然，本领域技术人员也可以根据实际情况选择其他方法，在此仅作为示例不做具体限定。

进一步地，在本发明的一个实施例中，待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据，其中，第一路深度图像数据和第二路深度图像数据在时间上同步、且在空间上对齐。

其中，如图2所示，本实施实例使用两路分辨率为320×240的深度图像数据为例进行说明，这两路深度数据在时间上是同步的，并通过校准进行空间对齐。

进一步地，在本发明的一个实施例中，对待处理深度图像数据进行数据分割得到手与物体分割结果，进一步包括：通过手与物体分割数据库对深度神经网络算法DNN进行训练，并根据训练后的DNN对待处理深度图像数据进行数据分割，以得到手与物体分割结果。

其中，在本发明的一个实施例中，获得手势姿态预测数据，进一步包括：采集手部运动数据，并根据手部运动数据训练长短期记忆网络LSTM，以根据LSTM预测得到手势姿态预测数据。

具体而言，首先对两路深度数据进行数据分割，分别得到属于手的数据和属于物体的部分。数据分割可以采用颜色信息，也可以采用其他方法。本实施实例使用基于DNN的方法进行手与物体分割。通过使用手与物体分割数据库对DNN进行训练，使得DNN具有手部数据识别的能力。使用时，分别将两路深度数据输入到DNN，得到手与物体的分割结果，如图3所示。同时，本实例通过采集手的运动数据，训练了一个LSTM。该LSTM通过历史的手姿态给出一个手姿态的预测值。

在步骤S102中，将预测数据和手与物体分割作为约束项对统一能量函数进行优化，以得到手部运动序列和物体非刚性运动序列。

可以理解的是，本发明实施例可以将手-物体分割结果和预测的手势姿态送入统一能量函数中进行优化，从而解得手的姿态和物体的运动。

需要说明的是，本发明实施例方法能实时地获得手的运动，物体的运动以及物体的几何表面。其核心在于构建了一个统一的能量函数，并通过优化获得了手的运动和物体的非刚性运动。此技术可以在普通PC或工作站等硬件上实现。

具体而言，本发明实施例将深度数据，手与物体分割信息，LSTM给出的手势预测姿态数据作为数据项，构造一个统一的手与物体运动能量：

其中，

表示物体的非刚性运动，θ^t表示手的姿态。

是只与物体运动相关能量，可表示为：

其中，

是度量物体运动与物体的深度数据匹配程度的能量项，表示为：

表示物体的静态模型上的点经运动后获得的实时动态点。

和

分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项。

E_hand(θ^t)是只与手的运动相关的能量，可表示为：

其中，E_d2m(θ^t)是度量手的运动与手的深度数据匹配程度的能量项，可表示为：

其中，D_hand表示属于手的深度数据，H(θ^t)表示姿态为θ^t的手的模型，Dist(×)表示点到手模型表面之间的有符号距离，其中正数表示点在模型外部，负数表示点在模型内部。E_m2d(θ^t)表示将手的运动约束到数据轮廓中的能量。E_pose(θ^t)、E_lim(θ^t)和E_colli(θ^t)分别表示手姿态运动的先验信息。E_pre(θ^t)表示LSTM网络给出的手的姿态约束项，可表示为：

其中，

表示LSTM给出的t时刻的手势。

E_itc表示手与物体之间的相互作用，可表示为：

当

M是物体模型的表面点。

本发明实施实例通过高斯牛顿法对统一的手与物体交互能量进行优化，得到手的运动

和物体的运动

在步骤S103中，将物体数据融合到物体模型得到物体静态模型，并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。

可以理解的是，将深度数据中物体的数据融合到物体模型中，得到完整的物体模型。

具体而言，如图4所示，本发明实施例进一步利用姿态更新的手的模型排除属于手的深度数据，提取属于物体的深度数据，最后将物体的深度数据信息根据物体的运动融合到物体静态模型中，得到完整的物体几何模型。

综上，手与物体的交互过程是人们日常生活中极为常见的场景。同时，手与物体交互的过程体现了人的意图且能反映人的健康状况。手与物体的交互过程在虚拟/增强现实，机器认知以及疾病诊断中都具有非常广泛的潜在应用。因此，对手与物体交互过程进行重建具有非常重要的意义。本发明实施例针对手与物体的交互过程，提出了一种基于手与物体数据分割，手势姿态预测数据的统一能量优化方法对手与物体交互过程进行实时重建。

根据本发明实施例提出的手与物体交互过程的实时重建方法，基于手与物体数据分割和手势姿态预测数据的统一能量优化，输入为两段采集的手与物体交互的时空对准的深度视频帧序列，输出为手的运动序列，物体的非刚性运动序列和一个物体的静态模型，从而有效解决手与物体交互运动的实时重建问题，实时获得手的运动、物体的运动和物体的几何模型。

其次参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建装置。

图5是本发明一个实施例的手与物体交互过程的实时重建装置的结构示意图。

如图5所示，该手与物体交互过程的实时重建装置10包括：分割模块100、优化模块200和融合模块300。

其中，分割模块100用于对待处理深度图像数据进行数据分割得到手与物体分割结果，且获得手势姿态预测数据，其中，手与物体分割结果包括物体数据和手部数据。优化模块200用于将预测数据和手与物体分割作为约束项对统一能量函数进行优化，以得到手部运动序列和物体非刚性运动序列。融合模块300用于将物体数据融合到物体模型得到物体静态模型，并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。本发明实施例的装置10可以有效解决手与物体交互运动的实时重建问题，实时获得手的运动、物体的运动和物体的几何模型。

进一步地，在本发明的一个实施例中，分割模块100进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练，并根据训练后的DNN对待处理深度图像数据进行数据分割，以得到手与物体分割结果。

进一步地，在本发明的一个实施例中，分割模块100进一步用于采集手部运动数据，并根据手部运动数据训练长短期记忆网络LSTM，以根据LSTM预测得到手势姿态预测数据。

进一步地，在本发明的一个实施例中，其中，统一能量函数为：

其中，

表示物体的非刚性运动，θ^t表示手势的姿态，

是与物体运动相关能量，

为：

其中，

是度量物体运动与物体的深度数据匹配程度的能量项，

为：

表示物体的静态模型上的点经运动后获得的实时动态点；

和

分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项，其中，E_hand(θ^t)是与手的运动相关的能量：

E_d2m(θ^t)是度量手的运动与手的深度数据匹配程度的能量项：

其中，

当

M是物体模型的表面点。

需要说明的是，前述对手与物体交互过程的实时重建方法实施例的解释说明也适用于该实施例的手与物体交互过程的实时重建装置，此处不再赘述。

根据本发明实施例提出的手与物体交互过程的实时重建装置，基于手与物体数据分割和手势姿态预测数据的统一能量优化，输入为两段采集的手与物体交互的时空对准的深度视频帧序列，输出为手的运动序列，物体的非刚性运动序列和一个物体的静态模型，从而有效解决手与物体交互运动的实时重建问题，实时获得手的运动、物体的运动和物体的几何模型。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。