CN110007754B - 手与物体交互过程的实时重建方法及装置 - Google Patents

手与物体交互过程的实时重建方法及装置 Download PDF

Info

Publication number
CN110007754B
CN110007754B CN201910169262.3A CN201910169262A CN110007754B CN 110007754 B CN110007754 B CN 110007754B CN 201910169262 A CN201910169262 A CN 201910169262A CN 110007754 B CN110007754 B CN 110007754B
Authority
CN
China
Prior art keywords
hand
data
motion
representing
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910169262.3A
Other languages
English (en)
Other versions
CN110007754A (zh
Inventor
徐枫
张�浩
杨东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910169262.3A priority Critical patent/CN110007754B/zh
Publication of CN110007754A publication Critical patent/CN110007754A/zh
Application granted granted Critical
Publication of CN110007754B publication Critical patent/CN110007754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种手与物体交互过程的实时重建方法及装置,其中,方法包括以下步骤:对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,手与物体分割结果包括物体数据和手部数据;将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列;将物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。该方法可以有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。

Description

手与物体交互过程的实时重建方法及装置
技术领域
本发明涉及计算机视觉、计算机图形学技术领域,特别涉及一种手与物体交互过程的实时重建方法及装置。
背景技术
手与物体的交互运动是人们日常生活中非常常见的活动,对手与物体的交互运动进行重建是人类活动全三维重建所必须解决的问题。而且,手与物体的交互过程中既包含了人的意图,又能反映一个人的健康状况。
因此,对手与物体的交互过程进行重建具有重要的科研意义。手势跟踪以及物体运动和模型重建是与手与物体交互运动重建直接相关的两个问题,也是计算机视觉与计算机图像学领域中两个重要且基础的问题,它们在人机交互,虚拟/增强现实等领域有着非常广泛的应用,学术界和工业界分别对这两个问题都进行了大量研究。
然而,目前对手与物体交互运动重建的研究非常不足。因此本发明针对这一现状,对手与物体的交互运动提出了一种实时重建方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种手与物体交互过程的实时重建方法,该方法可以有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
本发明的另一个目的在于提出一种手与物体交互过程的实时重建装置。
为达到上述目的,本发明一方面实施例提出了一种手与物体交互过程的实时重建方法,包括以下步骤:对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列;将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
本发明实施例的手与物体交互过程的实时重建方法,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
另外,根据本发明上述实施例的手与物体交互过程的实时重建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述对待处理深度图像数据进行数据分割得到手与物体分割结果,进一步包括:通过手与物体分割数据库对DNN(Deep NeuralNetwork,深度神经网络算法)进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
进一步地,在本发明的一个实施例中,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
进一步地,在本发明的一个实施例中,所述获得手势姿态预测数据,进一步包括:采集手部运动数据,并根据所述手部运动数据训练LSTM(Long Short-Term Memory,长短期记忆网络),以根据所述LSTM预测得到所述手势姿态预测数据。
进一步地,在本发明的一个实施例中,其中,所述统一能量函数为:
Figure GDA0002418924580000021
其中,
Figure GDA0002418924580000022
表示物体的非刚性运动,θt表示手势的姿态,
Figure GDA0002418924580000023
是与物体运动相关能量,所述
Figure GDA0002418924580000024
为:
Figure GDA0002418924580000025
其中,
Figure GDA0002418924580000026
是度量物体运动与物体的深度数据匹配程度的能量项,所述
Figure GDA0002418924580000027
为:
Figure GDA0002418924580000028
其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,
Figure GDA0002418924580000029
表示物体的静态模型上的点经运动后获得的实时动态点;
Figure GDA00024189245800000210
Figure GDA00024189245800000211
分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项,其中,所述Ehandt)是与手的运动相关的能量:
Figure GDA00024189245800000212
所述Ed2mt)是度量手的运动与手的深度数据匹配程度的能量项:
Figure GDA0002418924580000031
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2dt)表示将手的运动约束到数据轮廓中的能量,Eposet)、Elimt)和Ecollit)分别表示手姿态运动的先验信息,Epret)表示LSTM网络给出的手的姿态约束项,可表示为:
Figure GDA0002418924580000032
其中,
Figure GDA0002418924580000033
表示LSTM给出的t时刻的手势,Eitc表示手与物体之间的相互作用,可表示为:
Figure GDA0002418924580000034
Figure GDA0002418924580000035
M是物体模型的表面点。
为达到上述目的,本发明另一方面实施例提出了一种手与物体交互过程的实时重建装置,包括:分割模块,用于对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;优化模块,将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列;融合模块,用于将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
本发明实施例的手与物体交互过程的实时重建装置,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
另外,根据本发明上述实施例的手与物体交互过程的实时重建装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述分割模块进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
进一步地,在本发明的一个实施例中,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
进一步地,在本发明的一个实施例中,所述分割模块进一步用于采集手部运动数据,并根据所述手部运动数据训练长短期记忆网络LSTM,以根据所述LSTM预测得到所述手势姿态预测数据。
进一步地,在本发明的一个实施例中,其中,所述统一能量函数为:
Figure GDA0002418924580000041
其中,
Figure GDA0002418924580000042
表示物体的非刚性运动,θt表示手势的姿态,
Figure GDA0002418924580000043
是与物体运动相关能量,所述
Figure GDA0002418924580000044
为:
Figure GDA0002418924580000045
其中,
Figure GDA0002418924580000046
是度量物体运动与物体的深度数据匹配程度的能量项,所述
Figure GDA0002418924580000047
为:
Figure GDA0002418924580000048
其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,
Figure GDA0002418924580000049
表示物体的静态模型上的点经运动后获得的实时动态点;
Figure GDA00024189245800000410
Figure GDA00024189245800000411
分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项,其中,所述Ehandt)是与手的运动相关的能量:
Figure GDA00024189245800000412
所述Ed2mt)是度量手的运动与手的深度数据匹配程度的能量项:
Figure GDA00024189245800000413
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2dt)表示将手的运动约束到数据轮廓中的能量,Eposet)、Elimt)和Ecollit)分别表示手姿态运动的先验信息,Epret)表示LSTM网络给出的手的姿态约束项,可表示为:
Figure GDA00024189245800000414
其中,
Figure GDA00024189245800000415
表示LSTM给出的t时刻的手势,Eitc表示手与物体之间的相互作用,可表示为:
Figure GDA0002418924580000051
Figure GDA0002418924580000052
M是物体模型的表面点。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的手与物体交互过程的实时重建方法的流程图;
图2为根据本发明实施例的使用的两路深度数据示意图;
图3为根据本发明实施例的使用DNN获得的手与物体分割结果示意图;
图4为根据本发明实施例的手与物体交互重建结果示意图;
图5为根据本发明实施例的手与物体交互过程的实时重建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建方法及装置,首先将参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建方法。
图1是本发明一个实施例的手与物体交互过程的实时重建方法的流程图。
如图1所示,该手与物体交互过程的实时重建方法包括以下步骤:
在步骤S101中,对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,手与物体分割结果包括物体数据和手部数据。
可以理解的是,本发明实施例可以通过一定的方法对深度数据进行手-物体分割且获得手势的预测姿态。其中,一定的方法可以为预设方法,比如,预设方法可以为DNN,当然,本领域技术人员也可以根据实际情况选择其他方法,在此仅作为示例不做具体限定。
进一步地,在本发明的一个实施例中,待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,第一路深度图像数据和第二路深度图像数据在时间上同步、且在空间上对齐。
其中,如图2所示,本实施实例使用两路分辨率为320×240的深度图像数据为例进行说明,这两路深度数据在时间上是同步的,并通过校准进行空间对齐。
进一步地,在本发明的一个实施例中,对待处理深度图像数据进行数据分割得到手与物体分割结果,进一步包括:通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
其中,在本发明的一个实施例中,获得手势姿态预测数据,进一步包括:采集手部运动数据,并根据手部运动数据训练长短期记忆网络LSTM,以根据LSTM预测得到手势姿态预测数据。
具体而言,首先对两路深度数据进行数据分割,分别得到属于手的数据和属于物体的部分。数据分割可以采用颜色信息,也可以采用其他方法。本实施实例使用基于DNN的方法进行手与物体分割。通过使用手与物体分割数据库对DNN进行训练,使得DNN具有手部数据识别的能力。使用时,分别将两路深度数据输入到DNN,得到手与物体的分割结果,如图3所示。同时,本实例通过采集手的运动数据,训练了一个LSTM。该LSTM通过历史的手姿态给出一个手姿态的预测值。
在步骤S102中,将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列。
可以理解的是,本发明实施例可以将手-物体分割结果和预测的手势姿态送入统一能量函数中进行优化,从而解得手的姿态和物体的运动。
需要说明的是,本发明实施例方法能实时地获得手的运动,物体的运动以及物体的几何表面。其核心在于构建了一个统一的能量函数,并通过优化获得了手的运动和物体的非刚性运动。此技术可以在普通PC或工作站等硬件上实现。
具体而言,本发明实施例将深度数据,手与物体分割信息,LSTM给出的手势预测姿态数据作为数据项,构造一个统一的手与物体运动能量:
Figure GDA0002418924580000061
其中,
Figure GDA0002418924580000062
表示物体的非刚性运动,θt表示手的姿态。
Figure GDA0002418924580000063
是只与物体运动相关能量,可表示为:
Figure GDA0002418924580000064
其中,
Figure GDA0002418924580000065
是度量物体运动与物体的深度数据匹配程度的能量项,表示为:
Figure GDA0002418924580000066
其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,
Figure GDA0002418924580000067
表示物体的静态模型上的点经运动后获得的实时动态点。
Figure GDA0002418924580000068
Figure GDA0002418924580000069
分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项。
Ehandt)是只与手的运动相关的能量,可表示为:
Figure GDA0002418924580000071
其中,Ed2mt)是度量手的运动与手的深度数据匹配程度的能量项,可表示为:
Figure GDA0002418924580000072
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部。Em2dt)表示将手的运动约束到数据轮廓中的能量。Eposet)、Elimt)和Ecollit)分别表示手姿态运动的先验信息。Epret)表示LSTM网络给出的手的姿态约束项,可表示为:
Figure GDA0002418924580000073
其中,
Figure GDA0002418924580000074
表示LSTM给出的t时刻的手势。
Eitc表示手与物体之间的相互作用,可表示为:
Figure GDA0002418924580000075
Figure GDA0002418924580000076
M是物体模型的表面点。
本发明实施实例通过高斯牛顿法对统一的手与物体交互能量进行优化,得到手的运动
Figure GDA0002418924580000077
和物体的运动
Figure GDA0002418924580000078
在步骤S103中,将物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。
可以理解的是,将深度数据中物体的数据融合到物体模型中,得到完整的物体模型。
具体而言,如图4所示,本发明实施例进一步利用姿态更新的手的模型排除属于手的深度数据,提取属于物体的深度数据,最后将物体的深度数据信息根据物体的运动融合到物体静态模型中,得到完整的物体几何模型。
综上,手与物体的交互过程是人们日常生活中极为常见的场景。同时,手与物体交互的过程体现了人的意图且能反映人的健康状况。手与物体的交互过程在虚拟/增强现实,机器认知以及疾病诊断中都具有非常广泛的潜在应用。因此,对手与物体交互过程进行重建具有非常重要的意义。本发明实施例针对手与物体的交互过程,提出了一种基于手与物体数据分割,手势姿态预测数据的统一能量优化方法对手与物体交互过程进行实时重建。
根据本发明实施例提出的手与物体交互过程的实时重建方法,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
其次参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建装置。
图5是本发明一个实施例的手与物体交互过程的实时重建装置的结构示意图。
如图5所示,该手与物体交互过程的实时重建装置10包括:分割模块100、优化模块200和融合模块300。
其中,分割模块100用于对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,手与物体分割结果包括物体数据和手部数据。优化模块200用于将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列。融合模块300用于将物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。本发明实施例的装置10可以有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
进一步地,在本发明的一个实施例中,分割模块100进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
进一步地,在本发明的一个实施例中,待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,第一路深度图像数据和第二路深度图像数据在时间上同步、且在空间上对齐。
进一步地,在本发明的一个实施例中,分割模块100进一步用于采集手部运动数据,并根据手部运动数据训练长短期记忆网络LSTM,以根据LSTM预测得到手势姿态预测数据。
进一步地,在本发明的一个实施例中,其中,统一能量函数为:
Figure GDA0002418924580000081
其中,
Figure GDA0002418924580000082
表示物体的非刚性运动,θt表示手势的姿态,
Figure GDA0002418924580000083
是与物体运动相关能量,
Figure GDA0002418924580000084
为:
Figure GDA0002418924580000085
其中,
Figure GDA0002418924580000091
是度量物体运动与物体的深度数据匹配程度的能量项,
Figure GDA0002418924580000092
为:
Figure GDA0002418924580000093
其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,
Figure GDA0002418924580000094
表示物体的静态模型上的点经运动后获得的实时动态点;
Figure GDA0002418924580000095
Figure GDA0002418924580000096
分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项,其中,Ehandt)是与手的运动相关的能量:
Figure GDA0002418924580000097
Ed2mt)是度量手的运动与手的深度数据匹配程度的能量项:
Figure GDA0002418924580000098
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2dt)表示将手的运动约束到数据轮廓中的能量,Eposet)、Elimt)和Ecollit)分别表示手姿态运动的先验信息,Epret)表示LSTM网络给出的手的姿态约束项,可表示为:
Figure GDA0002418924580000099
其中,
Figure GDA00024189245800000910
表示LSTM给出的t时刻的手势,Eitc表示手与物体之间的相互作用,可表示为:
Figure GDA00024189245800000911
Figure GDA00024189245800000912
M是物体模型的表面点。
需要说明的是,前述对手与物体交互过程的实时重建方法实施例的解释说明也适用于该实施例的手与物体交互过程的实时重建装置,此处不再赘述。
根据本发明实施例提出的手与物体交互过程的实时重建装置,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种手与物体交互过程的实时重建方法,其特征在于,包括以下步骤:
对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;
将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列,其中,所述统一能量函数为:
Figure FDA0002438733530000011
其中,
Figure FDA0002438733530000012
表示物体的非刚性运动,θt表示手势的姿态,
Figure FDA0002438733530000013
是与物体运动相关能量,所述
Figure FDA0002438733530000014
为:
Figure FDA0002438733530000015
其中,
Figure FDA0002438733530000016
是度量物体运动与物体的深度数据匹配程度的能量项,所述
Figure FDA0002438733530000017
为:
Figure FDA0002438733530000018
其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,
Figure FDA0002438733530000019
表示物体的静态模型上的点经运动后获得的实时动态点;
Figure FDA00024387335300000110
Figure FDA00024387335300000111
分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项,其中,所述Ehandt)是与手的运动相关的能量:
Figure FDA00024387335300000112
所述Ed2mt)是度量手的运动与手的深度数据匹配程度的能量项:
Figure FDA00024387335300000113
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2dt)表示将手的运动约束到数据轮廓中的能量,Eposet)、Elimt)和Ecollit)分别表示手姿态运动的先验信息,Epret)表示LSTM网络给出的手的姿态约束项,可表示为:
Figure FDA00024387335300000114
其中,
Figure FDA00024387335300000115
表示LSTM给出的t时刻的手势,Eitc表示手与物体之间的相互作用,可表示为:
Figure FDA00024387335300000116
Figure FDA00024387335300000117
M是物体模型的表面点;以及
将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
2.根据权利要求1所述的手与物体交互过程的实时重建方法,其特征在于,所述对待处理深度图像数据进行数据分割得到手与物体分割结果,进一步包括:
通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
3.根据权利要求2所述的手与物体交互过程的实时重建方法,其特征在于,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
4.根据权利要求1所述的手与物体交互过程的实时重建方法,其特征在于,所述获得手势姿态预测数据,进一步包括:
采集手部运动数据,并根据所述手部运动数据训练长短期记忆网络LSTM,以根据所述LSTM预测得到所述手势姿态预测数据。
5.一种手与物体交互过程的实时重建装置,其特征在于,包括:
分割模块,用于对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;
优化模块,将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列,其中,所述统一能量函数为:
Figure FDA0002438733530000021
其中,
Figure FDA0002438733530000022
表示物体的非刚性运动,θt表示手势的姿态,
Figure FDA0002438733530000023
是与物体运动相关能量,所述
Figure FDA0002438733530000024
为:
Figure FDA0002438733530000025
其中,
Figure FDA0002438733530000026
是度量物体运动与物体的深度数据匹配程度的能量项,所述
Figure FDA0002438733530000027
为:
Figure FDA0002438733530000028
其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,
Figure FDA0002438733530000029
表示物体的静态模型上的点经运动后获得的实时动态点;
Figure FDA00024387335300000210
Figure FDA00024387335300000211
分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项,其中,所述Ehandt)是与手的运动相关的能量:
Figure FDA00024387335300000212
所述Ed2mt)是度量手的运动与手的深度数据匹配程度的能量项:
Figure FDA00024387335300000213
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2dt)表示将手的运动约束到数据轮廓中的能量,Eposet)、Elimt)和Ecollit)分别表示手姿态运动的先验信息,Epret)表示LSTM网络给出的手的姿态约束项,可表示为:
Figure FDA0002438733530000031
其中,
Figure FDA0002438733530000032
表示LSTM给出的t时刻的手势,Eitc表示手与物体之间的相互作用,可表示为:
Figure FDA0002438733530000033
Figure FDA0002438733530000034
M是物体模型的表面点;以及
融合模块,用于将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
6.根据权利要求5所述的手与物体交互过程的实时重建装置,其特征在于,所述分割模块进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
7.根据权利要求6所述的手与物体交互过程的实时重建装置,其特征在于,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
8.根据权利要求5所述的手与物体交互过程的实时重建装置,其特征在于,所述分割模块进一步用于采集手部运动数据,并根据所述手部运动数据训练长短期记忆网络LSTM,以根据所述LSTM预测得到所述手势姿态预测数据。
CN201910169262.3A 2019-03-06 2019-03-06 手与物体交互过程的实时重建方法及装置 Active CN110007754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910169262.3A CN110007754B (zh) 2019-03-06 2019-03-06 手与物体交互过程的实时重建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910169262.3A CN110007754B (zh) 2019-03-06 2019-03-06 手与物体交互过程的实时重建方法及装置

Publications (2)

Publication Number Publication Date
CN110007754A CN110007754A (zh) 2019-07-12
CN110007754B true CN110007754B (zh) 2020-08-28

Family

ID=67166554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910169262.3A Active CN110007754B (zh) 2019-03-06 2019-03-06 手与物体交互过程的实时重建方法及装置

Country Status (1)

Country Link
CN (1) CN110007754B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124107A (zh) * 2019-11-14 2020-05-08 清华大学 手与物体复杂交互场景重建方法及装置
CN111311648A (zh) * 2020-02-06 2020-06-19 青岛理工大学 基于协作差分进化滤波的人手-物体交互过程跟踪方法
CN111583134B (zh) * 2020-04-20 2022-08-12 清华大学 带标注的手与物体复杂交互真实彩色数据生成方法及装置
US11335007B2 (en) * 2020-05-29 2022-05-17 Zebra Technologies Corporation Method to generate neural network training image annotations

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341811A (zh) * 2017-06-20 2017-11-10 上海数迹智能科技有限公司 基于深度图像的利用MeanShift算法进行手部区域分割的方法
JP2017220157A (ja) * 2016-06-10 2017-12-14 三菱電機株式会社 物体認識処理装置、物体認識処理方法および自動運転システム
CN108122281A (zh) * 2017-12-22 2018-06-05 洛阳中科众创空间科技有限公司 一种大范围实时人体三维重建方法
CN108256421A (zh) * 2017-12-05 2018-07-06 盈盛资讯科技有限公司 一种动态手势序列实时识别方法、系统及装置
CN108776990A (zh) * 2018-04-10 2018-11-09 清华大学 基于三阶球面谐波的动态场景高精度实时三维重建方法及系统
CN108805974A (zh) * 2018-05-28 2018-11-13 深圳市唯特视科技有限公司 一种基于格拉斯曼流形的密集非刚性运动结构算法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679154A (zh) * 2013-12-26 2014-03-26 中国科学院自动化研究所 基于深度图像的三维手势动作的识别方法
CN106910242B (zh) * 2017-01-23 2020-02-28 中国科学院自动化研究所 基于深度相机进行室内完整场景三维重建的方法及系统
CN106980386A (zh) * 2017-04-24 2017-07-25 清华大学 手型跟踪方法、装置和计算机可读介质
US10431000B2 (en) * 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017220157A (ja) * 2016-06-10 2017-12-14 三菱電機株式会社 物体認識処理装置、物体認識処理方法および自動運転システム
CN107341811A (zh) * 2017-06-20 2017-11-10 上海数迹智能科技有限公司 基于深度图像的利用MeanShift算法进行手部区域分割的方法
CN108256421A (zh) * 2017-12-05 2018-07-06 盈盛资讯科技有限公司 一种动态手势序列实时识别方法、系统及装置
CN108122281A (zh) * 2017-12-22 2018-06-05 洛阳中科众创空间科技有限公司 一种大范围实时人体三维重建方法
CN108776990A (zh) * 2018-04-10 2018-11-09 清华大学 基于三阶球面谐波的动态场景高精度实时三维重建方法及系统
CN108805974A (zh) * 2018-05-28 2018-11-13 深圳市唯特视科技有限公司 一种基于格拉斯曼流形的密集非刚性运动结构算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
非刚性人体运动动作图像姿态轮廓提取算法;冷新科,等.;《吉林大学学报(理学版)》;20181130;第56卷(第6期);第1453-1460页 *

Also Published As

Publication number Publication date
CN110007754A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110007754B (zh) 手与物体交互过程的实时重建方法及装置
Petrovich et al. TEMOS: Generating diverse human motions from textual descriptions
Zhang et al. Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things
Liu et al. Trajectorycnn: a new spatio-temporal feature learning network for human motion prediction
Wang et al. Humanise: Language-conditioned human motion generation in 3d scenes
Liu et al. Investigating pose representations and motion contexts modeling for 3D motion prediction
CN103003846B (zh) 关节区域显示装置、关节区域检测装置、关节区域归属度计算装置、关节状区域归属度计算装置以及关节区域显示方法
CN112131985A (zh) 一种基于OpenPose改进的实时轻量人体姿态估计方法
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN110427831B (zh) 一种基于融合特征的人体动作分类方法
Lee et al. 3-D human behavior understanding using generalized TS-LSTM networks
CN115131849A (zh) 图像生成方法以及相关设备
CN113989928A (zh) 一种动作捕捉和重定向方法
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
Neverova Deep learning for human motion analysis
CN114170353B (zh) 一种基于神经网络的多条件控制的舞蹈生成方法及系统
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113065496B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN112199994B (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
CN111738092A (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
CN103699214A (zh) 一种基于三维自然手势的三维跟踪和交互方法
Li et al. Feature Point Matching for Human-Computer Interaction Multi-Feature Gesture Recognition Based on Virtual Reality VR Technology
Chen et al. Movement Evaluation Algorithm‐Based Form Tracking Technology and Optimal Control of Limbs for Dancers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant