CN108369643A - 用于3d手部骨架跟踪的方法和系统 - Google Patents

用于3d手部骨架跟踪的方法和系统 Download PDF

Info

Publication number
CN108369643A
CN108369643A CN201780004025.0A CN201780004025A CN108369643A CN 108369643 A CN108369643 A CN 108369643A CN 201780004025 A CN201780004025 A CN 201780004025A CN 108369643 A CN108369643 A CN 108369643A
Authority
CN
China
Prior art keywords
positioning
hand
model
tracking
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780004025.0A
Other languages
English (en)
Other versions
CN108369643B (zh
Inventor
毛文涛
张旭
马赓宇
费越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Play Out Dreams (Shanghai) Technology Co.,Ltd.
Original Assignee
Yousen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yousen filed Critical Yousen
Publication of CN108369643A publication Critical patent/CN108369643A/zh
Application granted granted Critical
Publication of CN108369643B publication Critical patent/CN108369643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/428Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving motion or position input signals, e.g. signals representing the rotation of an input controller or a player's arm motions sensed by accelerometers or gyroscopes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6045Methods for processing data by generating or executing the game program for mapping control signals received from the input arrangement into game commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种跟踪系统。所述系统可包括处理器和耦合到所述处理器且存储指令的非暂时性计算机可读存储媒体,所述指令在由所述处理器执行时,使得所述系统执行一种方法。所述方法可包括训练检测模型和提取模型,捕捉物体的至少一部分的一个或多个图像,通过经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分,实时跟踪所述物体的经检测部分,通过经训练提取模型获得所述物体的经跟踪部分上的一个或多个位置的2D定位,及至少部分基于获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的3D定位。

Description

用于3D手部骨架跟踪的方法和系统
相关申请的交叉参考
此申请是基于2016年7月20日通过美国专利及商标局(United States Patentand Trademark Office)申请的美国临时申请第62/364,783号且要求所述申请的权益,所述申请特此以全文引用的方式并入。
技术领域
本公开大体上涉及用于计算机视觉的方法和系统,且更具体地说,涉及用于3D手部骨架跟踪的方法和系统。
背景技术
示意动作识别是3D计算机计算机视觉的最流行主题中的一个。通过示意动作识别,人类可以非语言方式与机器自然地通信及交互,而无需任何机械输入装置。因此,各种各样的应用程序已经通过示意动作识别技术实现及改进,所述示意动作识别技术例如动画制作和电影效果、交互式游戏、机器人控制、家电控制、医疗装置自动化、无人驾驶汽车控制等。示意动作通常包含手部、面部和/或其它身体部分的运动。由于人类一般使用手部表达情感、发出命令或执行其它类型的沟通,所以作为用于精确捕捉手部或手指定位、姿势和运动的方法的3D手部骨架跟踪恰好属于技术发展的前沿。为此,已经开发各种手部或手部骨架跟踪模型以实时模拟人类骨架。
发明内容
本公开的一个方面涉及一种跟踪系统。所述跟踪系统包括处理器和耦合到所述处理器的非暂时性计算机可读存储介质。非暂时性计算机可读存储介质可存储指令,所述指令在由处理器执行时,使得系统执行一种方法。所述方法可包括训练检测模型和提取模型,捕捉物体的至少一部分的一个或多个图像,通过经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分,实时跟踪所述物体的经检测部分,通过经训练提取模型获得所述物体的经跟踪部分上的一个或多个位置的2D定位,及至少部分基于获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的3D定位。
本发明的另一方面涉及一种用于计算机视觉的方法。所述方法可包括训练检测模型和提取模型,捕捉物体的至少一部分的一个或多个图像,通过经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分,实时跟踪所述物体的经检测部分,通过经训练提取模型获得所述物体的经跟踪部分上的一个或多个位置的2D定位,及至少部分基于获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的3D定位。
应理解,上述概括描述和以下详细描述仅是示例性及说明性的,且不是如所要求的限制本发明。
附图说明
构成此公开的部分、说明一些实施例且随实施方式一起的随附图式用于解释所公开的原理。
图1是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的系统的框图。
图2是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的方法的流程图。
图3A-3E是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的系统100的各种训练方法的流程图。
图4是说明符合本公开的示例性实施例的步骤202-203的子步骤的流程图。
图5是说明符合本公开的示例性实施例的子步骤204a的图示。
图6是说明符合本公开的示例性实施例的一个视图中的子步骤204b的图示。
图7A是说明符合本公开的示例性实施例的手部骨架模型的图示。
图7B是说明符合本公开的示例性实施例的逆运动学(IK)模型的流程图。
图8是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的方法的流程图。
具体实施方式
将详细参考示例性实施例,在附图中说明所述实施例的实例。以下说明涉及附图,其中不同图式中的相同编号代表相同或相似元件,除非另有代表。符合本发明的示例性实施例的以下说明中所陈述的实施方案并不代表符合本发明的所有实施方案。反而,其仅仅是符合与本发明相关的方面的系统和方法。
在传统方法下,3D手部骨架跟踪可带来一些挑战。首先,手指关节水平的精确且快速的跟踪对于现有技术来说可能很难实现。其次,基于手机RGB摄像机或深度摄像机的当前跟踪硬件系统由于此类摄像机的较窄视角并不适用于移动手部活动检测。再次,当前技术并不满足生物学手部的层次和铰接约束,例如骨骼长度、关节角度等。在一个实例中,使用美国专利申请第2016/0048726号中所公开的深度序列的三维手部跟踪在不同情况同无法稳定地进行,且无法提取手部骨架。在另一实例中,使用美国专利申请第2016/0086349号中所公开的前臂-手部模型的手部姿势跟踪需要使所捕捉示意动作与所存储示意动作数据库匹配,严重依赖数据库,且不适用于移动应用程序,因为数据库不可以覆盖所有可能的示意动作。在又另一实例中,美国专利申请第2014/0022164号中所公开的实时手部跟踪、姿势分类和界面控制仅在简单场景中起作用,且需要大量计算过程,这往往明显放慢跟踪过程。在又另一实例中,美国专利第9,153,028号中所公开的用于捕捉三维空间中的活动的系统和方法(其通过与形状的所存储数据库拟合的几何学形状模拟手部)在复杂情况下不足,由于并非所有恰当形状可用于匹配。鉴于以上,为了克服现有技术中的不足且改进示意动作识别技术,需要开发快速、稳定且可靠的3D手部跟踪系统和方法。
起源于计算机技术的所要求解决方案可克服特别是计算机视觉领域中产生的问题。在各种实施方案中,公开用于跟踪物体(例如,手部)的至少一部分的系统和方法。所述方法可包括训练检测模型和提取模型,捕捉物体的至少一部分的一个或多个图像,通过经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分,实时跟踪所述物体的经检测部分,通过经训练提取模型获得所述物体的经跟踪部分上的一个或多个位置(例如,手部关节)的2D定位,及至少部分基于获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的3D定位。在一些实施例中,一个或多个图像可包括物体的部分的两个立体图像,且所述两个立体图像可由两个摄像机(例如,红外摄像机)捕捉。在一些实施例中,方法可进一步包括使一个或多个位置(例如,手部关节)的获得的3D定位受到一个或多个约束以获得一个或多个位置的经精化3D定位。一或多个约束包括对应于手部关节中的距离的每一手部骨骼长度的正常范围。在一些实施例中,方法进一步包括至少一个第一和第二优化方法。第一优化方法可包括将经精化3D定位投影到2D以或获得经投影2D定位,比较所述经投影2D定位与所述获得的2D定位以获得第一差值,及调整所述经精化3D定位以最小化所述第一差值,从而获得优化3D定位。第二优化方法可包括比较所述经精化3D定位与所述获得的3D定位以获得第二差值,及调整所述经精化3D定位以最小化所述第二差值,从而获得优化3D定位。
在一些实施例中,训练所述检测模型和所述提取模型可包括各种步骤,例如训练检测模型,精化检测模型,训练提取模型及精化提取模型,所述步骤中的一些可以是可选的。
训练检测模型可包括获得不同人的不同姿势的各种手部的图像,根据作为手部基本真值的经验证手部数据标识获得的图像中的手部定位,及利用所述获得的图像和所述手部基本真值训练第一机器学习模型。第一机器学习模型可包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
精化检测模型(即,精化上一步骤所训练的检测模型)可包括使用所述检测模型预测所述获得的图像中的手部定位,及利用所述手部基本真值和所述获得的图像中的经预测手部定位训练第二机器学习模型以精化所述检测模型。第二机器学习模型可包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。手部定位可指限定所述手部的边界框的定位,且通过经训练检测模型检测一个或多个图像中的每一个中的物体的部分可包括通过从所述第一或所述第二机器学习模型训练的所述检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分。
训练提取模型可包括根据作为关节基本真值的经验证关节数据标识所述获得的图像中的手部关节的定位;使用经精化检测模式获得所述手部的裁剪区域,所述裁剪区域对应于所述边界框;及利用所述手部的所述裁剪区域和所述关节基本真值训练第三机器学习模型。第三机器学习模型可包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
精化提取模型可包括使用所述提取模型预测所述手部的关节的定位,及利用所述关节的经预测定位和所述关节基本真值训练第四机器学习模型。第四机器学习模型可包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。通过所述经训练提取模型获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述2D定位包括通过从所述第三或所述第四机器学习模型中的至少一个训练的所述提取模型获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述2D定位。
在一些实施例中,至少部分基于所述获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述3D定位包括通过三角测量方法获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述3D定位。三角测量方法可至少部分基于来自两个立体图像的2D关节定位对、分别捕捉所述两个立体图形的摄像机的焦距和所述摄像机的定位信息(例如,摄像机之间的相对定位,立体图像与摄像机的相对定位)。
图1是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的系统100的框图。系统可包含手部骨架跟踪装置10和外部装置104。手部骨架跟踪装置10可包含彼此耦合的IR装置101、处理器102、显示器103和非暂时性计算机可读存储介质105。以上组件中的一些可以是可选的,且一些可以是本地、在线或基于云的。举例来说,外部装置104可以是云服务器。
IR装置101可包括一个或多个红外(IR)源1011(例如,IR光发射二极管)和一个或多个摄像机1012。一个或多个摄像机1012可选自一个或多个RGB摄像机、一个或多个深度摄像机、一个或多个IR摄像机及其组合(例如,RGB-IR摄像机、RGB-深度摄像机等)。举例来说,一个或多个摄像机1012可以是两个IR摄像机,或可以是一个IR摄像机、一个RGB摄像机和一个深度摄像机。一个或多个摄像机1012可捕捉物体或物体部分的RGB信息、深度信息和/或IR信息,且将此类信息传输到处理器102。处理器102可处理所述信息且将结果输出到用于呈现的显示器103。处理器102可通过因特网连接到外部装置104。管理员或数据贴标机可能能够通过来自外部装置104的操作配置处理器102。
非暂时性计算机可读存储介质105可耦合到处理器102且可存储指令,所述指令在由处理器102执行时,执行以下所描述的方法或步骤。指令可专业化且可包含各种机器学习模型、逆运动学(IK)模型,和/或本公开中所描述的其它模型和算法。为了执行以下所描述的步骤和方法,可专门训练处理器102和/或指令(例如,机器学习模型、逆运动学模型、其它模型或算法等)。以下参考各种步骤和图式描述对应训练过程。在一些实施例中,系统100的以上组件可具有许多配置。举例来说,IR装置101、处理器102和显示器103可以是单一装置(例如,移动装置)的组成部分。对于另一实例,IR装置101可无线或有线连接到包括处理器102和显示器103的PC或移动装置。对于又另一实例,处理器102、显示器103和/或非暂时性计算机可读存储介质105可放置在外部装置104上。
图2是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的方法200的流程图。方法200可包含一定数目的步骤和子步骤,所述步骤和子步骤中的一些可以是可选的。举例来说,202可包括子步骤202a和202b两个或包括仅子步骤202a,步骤204可包括子步骤204a和204b两个或包括仅子步骤204a,且步骤205可包括子步骤205a和205b两个或包括仅子步骤205a。每一步骤或子步骤与其右部的一个或多个图像相关,以说明对应效果。举例来说,步骤201与包括手部的两个立体图像的图像201-d相关。立体图像可以是或可转换成灰度图像、黑白图像等。方法200可由系统100的一个或多个组件(例如手部骨架跟踪装置10)实施。
在一些实施例中,系统100可提前储存及训练一个或多个机器学习模型,以执行以下所描述的某些步骤或子步骤。举例来说,系统100可存储作为非暂时性计算机可读存储介质105中的指令的算法,且明确地编程所存储的算法以解决特定任务。通过训练,系统100可接受预定的训练数据以识别数据模式,从所识别的模式学习,且基于学习改进模型,使得系统100可基于经改进模型执行特定任务。模型可以是所存储指令的部分。举例来说,训练数据可包括实例输入机器所需输出,且目标是用于模型学习将输入映射到输出的通用规则。模型可自我强化正确规则且自我改进不正确规则。可参考各种步骤提供示例性机器学习模型。
在步骤201处,系统100可捕捉第一帧中的一个或多个图像。在一些实施例中,IR装置101可包含配置成捕捉手部的立体图像的两个IR摄像机,例如,捕捉手部的左侧图像的第一IR摄像机和捕捉如图像201-d中所说明的同一手部的右侧图像的第二IR摄像机。
在步骤202处,系统100可检测图像中的每一个中的手部,例如,由机器学习模型检测来自立体图像的手部。机器学习模型可包含随机森林方法,卷积神经网络(CNN)方法等。通过机器学习模型,手部检测可更加稳定及精确,而无需任何预处理步骤。在一些实施例中,一个或多个图像可由同一模型分析以检测手部。
在一些实施例中,步骤202可包括子步骤202a和202b。
在步骤202a处,系统100可通过搜索全部立体图像来检测立体图像中的每一个中的手部(所述检测示出为标识图像202a-d中的手部的边界框)。在一些实施例中,可根据以下参考图3B所描述的方法300b来训练系统100以执行子步骤202a。
在子步骤202b处,系统100可通过局部精化手部检测来提高手部检测的精确度。如图像202b-d中所示出,与图像202a-d中的部分相比,每一边界框包含更完整的手部部分。在一些实施例中,立体图像中的每一个可由对应模型分析以实现经精化手部检测。在一些实施例中,可根据以下参考图3C所描述的方法300c来训练系统100以执行子步骤202b。在一些实施例中,系统100可使用包含例如随机森林方法和CNN方法的机器学习模型以执行子步骤202a和202b。在一些实施例中,子步骤202a和202b可使用同一机器学习模型。在一些其它实施例中,子步骤202a和202b可使用不同机器学习模型。举例来说,子步骤202a使用随机森林方法且子步骤202b使用CNN方法,反之亦然。
在步骤203处,系统100可基于一个或多个之前帧(例如,第一帧)中的手部定位预测、验证及更新第二帧中的手部定位(图203-d中所说明)且可对后续帧递归地执行预测-验证-更新步骤。在一些实施例中,系统100可使用跟踪模型或策略执行步骤203。跟踪模型或策略可包含粒子群优化(PSO)、粒子滤波器、卡尔曼滤波器、扩展卡尔曼滤波器、马尔可夫链方法、蒙特卡罗方法和其它平滑滤波器的变体。在一些实施例中,系统100可在执行步骤203之前为一定预定数目的帧执行步骤201-202。步骤203可允许一致检测跨越不同帧的同一手部。
参考图4,图4是说明符合本公开的示例性实施例的步骤202-203的子步骤的流程图。子步骤中的一些(例如子步骤402和403)可以是可互换的。子步骤中的一些可以是可选的。在子步骤401处,系统100可确定在当前帧(例如,第二帧)中是否检测到手部。如果检测到手部,方法继续进行到子步骤402。如果检测到手部,方法继续进行到子步骤406。在子步骤402处,系统100可确定所观察到的手部部分。在一些实施例中,子步骤402可对应于步骤202,且子步骤403-408可对应于步骤203。在子步骤403处,系统100可预测当前帧中的手部的定位。在一些实施例中,系统100可获得一个或多个之前帧中的手部定位,将一个或多个之前帧的定位馈入到物体模型(例如,自由活动物理模型),且基于模型输出获得经预测定位。经预测定位可包含不确定性及相关权重。在子步骤404处,系统100可比较观察到的定位与经预测定位以验证手部定位。如果比较的差值高于预定阈值,方法可继续进行到子步骤406。如果差值不高于预定阈值,方法可积极验证所观察到的手部且继续进行到子步骤405。在子步骤405处,系统100可基于经预测定位和验证更新所观察到的定位。在步骤406处,系统100可获得一个或多个之前帧中的每一个中的手部定位。在子步骤407处,系统100可比较一个或多个之前帧中的手部定位与经预测手部定位,或可比较一个或多个之前帧中的手部定位与所观察到的定位。如果来自子步骤407的比较高于预定阈值,那么方法可继续进行到子步骤408,且系统100可确定在当前帧中未检测到手部。如果来自子步骤407的比较不高于预定阈值,方法可继续进行到子步骤405。在一些实施例中,系统100可基于一个或多个之前帧对一定数目的帧递归地执行子步骤401-408。
返回参考图2,在步骤204处,系统100可基于每一视图的手部定位(例如,如边界框所限定的手部定位)获得手部区域,且提取每一视图的手部的对应2D骨架点。步骤204中的手部定位可从子步骤202a或202b或步骤203直接获得,同时跳过其它步骤。骨架点可代表手部的骨架定位。
在一些实施例中,步骤204可包括子步骤204a和204b。在子步骤204a处,系统100可使用边界框获得标识每一视图中的手部的手部区域,提取对应骨架点(图204a-d中所说明)且应用滤波。所应用的滤波器可包含卡尔曼滤波器、扩展卡尔曼滤波器、均值滤波器、中值滤波器等。在一些实施例中,可根据以下参考图3D所描述的方法300d来训练系统100以执行子步骤204a。
参考图5,图5是符合本公开的示例性实施例的子步骤204a的图示500。在一些实施例中,系统100可将手部区域501a和501b的两个立体图像组合成一个图像(图中未示出)且提取每一视图中的骨架点。举例来说,系统100可提取如图像502a或图像502b中所示出的22个手部关节的定位点。图像502a和图像502b可以是相同图像。所提取的定位点还可包含所述点的对应置信水平。每一置信水平可表明所提取定位是真实定位的几率,且可由以下参考图3D所描述的经训练模型输出。将手部区域组合成一个图像可提供手部定位的精确度,特别是在图像含有遮挡物时。
返回参考图2,在子步骤204b处时,系统100可通过调整所提取的2D骨架点(图204b-d中所说明)的定位来提高骨架点的精确度。子步骤204b可将骨架点调整到更精确的定位,使得例如沿同一手指的骨架点落在平滑的直线或曲线上。在一些实施例中,可根据以下参考图3E所描述的方法300e来训练系统100以执行子步骤204b。在一些实施例中,系统100可使用包含例如随机森林方法和CNN方法的机器学习模型以执行子步骤204a和204b。在一些实施例中,子步骤204a和204b可使用同一机器学习模型。在一些其它实施例中,子步骤204a和204b可使用不同机器学习模型。举例来说,子步骤204a使用随机森林方法且子步骤204b使用CNN方法,反之亦然。
参考图6,图6是符合本公开的示例性实施例的一个视图中的子步骤204b的图示600。在一些实施例中,系统100可预测当前帧中的具有对应置信水平的骨架点的定位,例如手部关节的定位。当在步骤204a处获得所提取的骨架定位之后,系统100可比较经预测定位与所提取的骨架定位以在步骤204b处估计真实骨架定位的偏移。偏移可由配置601中所示出的箭头表示。因此,系统100可基于偏移更新骨架点定位以获得配置602。
返回参考图2,在步骤205处,系统100可基于2D骨架点通过IK模型获得表示手部的3D骨架点(图像205-d中所说明)。步骤205中所描述的2D骨架点可从子步骤204a或204b直接获得。所获得的3D骨架模型及相关数据可实施跟踪且可直接用于应用程序中。通过IK模型,系统100可获得现实且精确的3D手部模型,从而满足例如骨骼长度和关节角度的人类骨骼-关节约束。3D手部模型还可含有所跟踪手部的详细信息,包含每一指尖的每一关节的3D定位和定向、每一骨骼的长度和定向及手部尺寸(例如,手部宽度和长度)。
在一些实施例中,IK模型可包含求解非线性方程,例如优化关于26个自由度(DoF)骨架模型的观察函数:
误差=Y–F(X,θ)
Y=(y1,y2,…,yn)表示来自之前模块的所有关节的2D或3D定位的集合;F表示X与θ的函数(例如,骨架模型函数);X=(x1,x2,…,xm)表示骨架模型中的变量的集合;且θ表示骨架模型中的参数的集合,例如正常手部中的骨骼的骨骼长度。此非线性方程可应用于图7A中所描述的手部关节。
参考图7A,图7A是手部骨架模型的图示。在一些实施例中,如由蓝色点表示的根具有六个DoF,包含三种类型的旋转和三种类型的平移;红色关节各自具有两个DoF,包括围绕z和x轴的旋转;且黑色关节各自具有一个DoF,包括围绕x轴的旋转。因此,所有手部关节总计达26个DoF。受制于26个自由度,优化非线性方程可标识最佳描述手部关节定位的变量X的集合。以下参考图7B描述优化的细节。
参考图7B,图7B是说明符合本公开的示例性实施例的IK模型的流程图700b。在步骤701处,系统100可确定关节的2d定位Y1={y0,y1,…,yn}。步骤701可类似于以上所描述的步骤204。在图701-d中说明步骤701的示例性结果。步骤702-707可类似于以下所描述的步骤205a和/或205b。
在步骤702处,系统100可通过2D-3D逆投影来确定关节的3d定位Y2={y0,y1,…,yn}。2D-3D逆投影也称为3D重构或三角测量,可简化以确定3D空间中的点,假如其投影到两个或更多个图像中。在以上所描述的捕捉物体的两个摄像机的方案中,物体的每一点可对应于左侧图像中由左侧摄像机捕捉的直线和右侧图像中由右侧摄像机捕捉的另一直线。左侧和右侧图像上的直线的末端形成对应于物体上的点的一对点。这对点已知相对于图像及相对于摄像机的定位。即,左侧和右侧图像中的这对点是共同3D点的投影。相反地,由图像点对产生的线的集合可在共同3D点处相交。为了标识来自图像点对的共同3D点,可使用多种方法。举例来说,倘若标识图像点对,对于每一摄像机,其焦点和图像点对的图像点可确定3D空间中的一直线。通过以3D投影两条直线且基于两个摄像机的相对定位,经投影线的交点可确定为相对于摄像机的共同3D点。实际上,可能需要考虑各种类型的杂讯(例如来自镜头失真或兴趣点检测误差的几何杂讯)以精确地确定共同3D点。在图702-d中说明步骤702的示例性结果。
在步骤703处,系统100可例如通过使Y2={y0,y1,…,yn}受制于参数的集合θ={θ01,…,θn}而基于经确定关节的3d定位Y2={y0,y1,…,yn}来确定骨架模型X={x0,x1,…,xn}。如以上参考非线性函数所描述,θ表示骨架模型中的参数的集合,例如正常手部的骨骼的骨骼长度。在图703-d中说明步骤703的示例性结果。
步骤704和705可称为第一优化方法。第一优化方法可包括第一优化方法可包括将经精化3D定位投影到2D以或获得经投影2D定位,比较所述经投影2D定位与所述获得的2D定位以获得第一差值,及调整所述经精化3D定位以最小化所述第一差值,从而获得优化3D定位。在步骤704处,系统100可将骨架模型从3D投影到2D以获得Y’1=F(X,θ),使得在步骤705处,系统100可计算误差1=Y1-Y’1
步骤706和707可称为第二优化方法。第二优化方法可包括比较所述经精化3D定位与所述获得的3D定位以获得第二差值,及调整所述经精化3D定位以最小化所述第二差值,从而获得优化3D定位。在步骤706处,系统100可基于(经精化)骨架模型确定关节的3d定位Y’2=F(X,θ),使得在步骤707处,系统100可计算误差2=Y2-Y’2。通过最小化误差1和/误差2,系统100可获得表示骨架模型中的手部的优化3D骨架点X={x0,x1,…,xn}。
返回参考图2,在一些实施例中,步骤205可包括子步骤205a和205b。子步骤205a和205b中的一个可实施如以上所论述的IK模型。
在子步骤205a处,系统100可利用子步骤204a或204b组合各种视图中的所提取的2D骨架点,以重构手部的3D骨架模型,且应用滤波。所应用的一个或多个滤波器可包含卡尔曼滤波器、扩展卡尔曼滤波器、均值滤波器、中值滤波器等。在一些实施例中,3D骨架模型可包含16个关节的3D定位和3D定向(16个关节在图7A示出为黑色、红色或蓝色),5个指尖的3D定位和3D定向,及手腕的定位和定向。
在子步骤205b处,系统100可通过调整骨架点提高3D骨架模型的精确度,且应用滤波。所应用的一个或多个滤波器可包含卡尔曼滤波器、扩展卡尔曼滤波器、均值滤波器、中值滤波器等。
在一些实施例中,各种方法可用于实施步骤205a和205b。第一方法可对应于以上参考图7B所描述的步骤701-703、706和707,其中步骤701可对应于步骤204,步骤702和703可对应于子步骤205a,且步骤706和707可对应于子步骤205b。在第一方法中,为了重构3D骨架模型,系统100可首先通过几何2D到3D逆投影方法(也成为3D重构或三角测量)将所提取的2D骨架点(例如,左侧和右侧立体图像中的骨架关节)转换成3D点,且将经逆投影3D点用作所观察到的关节定位Y。逆投影可包含通过形成三角形来确定点的3D位置以形成两个已知点,例如两个所捕捉到的2D图像中的对应点。通过例如焦距、摄像机定位和摄像机的广角的已知图像参数,可计算3D位置。由于函数F(X,θ)使用26个DoF变量X获得关节的3D定位,系统100可通过基于受制于约束θ的优化方法更改X的值来最小化Y中的3D点与函数F(X,θ)中的3D点之间的总计3D定位差值。优化方法可包含梯度下降、高斯-牛顿算法、列文伯格-马夸尔特算法等。约束可涉及一个或多个变量且要求例如X中所表示的每一关节角度在预定范围内,X中所表示的两个关节角度经校正且帧之间的一致性。误差函数可包含当前结果X(t)与上一帧中的结果X(t-1)之间的差值,且约束可要求所述差值小于预定阈值以确保顺利跟踪的活动。在优化后,系统100可获得新的最佳骨架变量X’和参数θ’。
第二方法可对应于以上参考图7B所描述的步骤701-705,其中步骤701可对应于步骤204,步骤702和703可对应于子步骤205a,且步骤704和705可对应于子步骤205b。在第二方法中,系统100可将所提取的2D骨架点(例如,左侧和右侧立体图像中的骨架关节)直接用作所观察到的关节定位Y。系统100可使用函数F(X,θ)和26个DoF变量X计算来自左侧和右侧立体图像的骨架关节的3D定位,且将所计算出的3D点投影到左侧和右侧立体图像的坐标系统中的2D点。系统100可通过基于受制于约束的优化方法更改X和θ的值来最小化Y中的2D点与函数F(X,θ)中的2D点之间的总计2D定位差值。优化方法可包含梯度下降、高斯-牛顿算法、列文伯格-马夸尔特算法等。约束可涉及一个或多个变量且要求例如X中所表示的每一关节角度是预定范围,X中所表示的两个关节角度经校正且帧之间的一致性误差函数可包含当前结果X(t)与上一帧中的结果X(t-1)之间的差值,且约束可要求所述差值小于预定阈值以确保顺利跟踪的活动。在优化后,系统100可获得新的最佳骨架变量X’和参数θ’。
图3A-3E是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的系统100的各种训练方法的流程图。训练方法可存储在系统100中,例如在存储介质105中。在一些实施例中,专门训练系统100(例如,处理器102和/或存储介质105)以执行以上所描述的方法200的步骤。
系统100或系统100的组件(例如,外部装置104)可执行参考图3A-3E所描述的(训练)方法。在关于离线训练模式的一些实施例中,外部装置104执行参考图3A-3E所描述的方法和步骤以获得经训练模型,且将经训练模型导出到手部骨架跟踪装置10以供应用。离线训练模式可包含批量训练和学习以通过一次学习整个可用训练数据集合来产生最佳预测器。在关于在线训练模式的一些其它实施例中,外部装置104可实时训练手部骨骼跟踪装置10。在线训练模式可包含使用变得可依序使用的数据来更新或训练最佳预测器以在每一步骤处获得未来数据。以下描述可基于离线训练模式。
参考图3A,系统100可执行方法300a以为以下所描述的方法300b-300e做准备。在步骤301a处,系统100可捕捉手部的一个或多个图像。在步骤302a处,系统100可从各种情况下的各种人获得所捕捉的手部图像。在步骤303a处,系统100可将所收集到的手部图像存储在存储介质105中的数据集中。
参考图3B,系统100的检测模型可根据方法300b来训练以执行以上参考图2所描述的子步骤202a。在步骤301b处,系统100可根据标记数据将手部图像上的手部边界框标识为手部基本真值。手部图像可在从方法300a获得的数据集中。在一些实施例中,标记数据可以是由管理员标记的图像中的手部的区域或由边界框标记的手部的图像的经验证数据集。在一些实施例中,用于获得基本真值的手部的图像可以是摄像机捕捉的。在一些其它实施例中,用于获得基本真值的手部的图像可以是计算机产生的。在步骤302b处,系统100可利用数据集和基本真值训练机器学习模型以获得手部检测模型。机器学习模型可包含随机森林方法,卷积神经网络(CNN)方法等。系统100还可更新数据集以包含经训练手部检测模型。此机器学习模型可称为第一机器学习模型。
在使用CNN方法的一个实例中,系统100可将每一图像(例如,灰度图像)转换成强度数组。数组可以像素块组织。系统100可将分析层应用到像素块中的每一个以识别手部定位。像素块层可包含例如卷积层、汇聚层等。每一层可逐渐改进识别,举例来说,第一层可识别锐缘,第二层可识别手指和手掌等。总之,可逐层简化大型图像以识别手部定位(或应用于后续应用的关节定位)。对于训练,系统100可接收基本真值,分析强度数组,且根据基本真值使强度数组配置与手部位置相关。对于预测,系统100可基于经训练模型确定手部定位。
参考图3C,系统100的经精化检测模型可根据方法300c来训练以执行以上参考图2所描述的子步骤202b。在步骤301c处,系统100可根据标记数据将基于方法300a的手部图像数据集的手部边界框标识为手部基本真值。在一些实施例中,标记数据可以是由管理员标记的图像中的手部的区域或由边界框标记的手部的图像的经验证数据集。在步骤302c处,系统100可使用方法300b的手部检测模型来预定手部的边界框。在步骤303c处,系统100可利用经标识且经预测的边界框训练机器学习模型以获得手部精化模型。经训练手部精化模型可包含在数据集中。机器学习模型可包含随机森林方法,卷积神经网络(CNN)方法等。此机器学习模型可称为第二机器学习模型。系统100还可更新数据集以包含经训练手部精化模型。
在使用随机森林方法的一个实例中,可至少部分基于基本真值验证经预测手部定位。随机森林可包括共同确定手部定位是否经验证的多个决策树。举例来说,如果树的数目超过阈值可验证手部定位,那么经预测手部定位可用于更新手部定位;否则,系统100可调查之前手部定位。每一树可设计有节点分叉且可利用基本真值训练。示例性节点分叉可取决于水平像素定位。因此,模型可增强手部定位的精确度。
参考图3D,系统100的提取模型可根据方法300d来训练以执行以上参考图2所描述的子步骤204a。在步骤301d处,系统100可将来自数据集的标记关节定位用作关节基本真值。标记关节定位还可包含基于例如一个帧中的定位可区分性和帧之间一致性的一个或多个因素。举例来说,如果关节是明显可区分的,其标记定位的几率可能是1。举例来说,如果关节明显隐藏在另一物体之后或明显可区分的,其标记定位的几率可能是0.5。对于又另一实例,如果关节的标记定位在10个连续帧中类似,那么对应几率可能接近1。在步骤302d处,系统100可利用来自数据集的手部基本真值训练边界框模型。边界框模型可类似于以上参考图3B所描述的手部检测模型。在步骤303d处,系统100可利用来自步骤302d的结果训练边界框精化模型。边界框精化模型可类似于以上参考图3C所描述的手部精化模型。在步骤304d处,系统100可例如通过使用经精化检测模型从步骤303d的结果提取有框线的手部区域以获得手部的经剪裁区域。在步骤305d处,系统100可利用有框线的手部区域和关节基本真值训练机器学习模型以获得骨架提取模型。机器学习模型可包含随机森林方法,卷积神经网络(CNN)方法等。所述机器学习模型可称为第三机器学习模型。由于边界框模型和边界框精化模型利用具有对应几率的经标记定位训练,模型的输出可包含具有对应几率的定位,例如输出定位的置信水平是真实定位。
参考图3E,系统100的经精化提取模型可根据方法300e来训练以执行以上参考图2所描述的子步骤204b。在步骤301e处,系统100可将来自数据集的标记关节定位用作关节基本真值。在步骤302e处,系统100可利用来自数据集的手部基本真值训练边界框模型。边界框模型可类似于以上参考图3B所描述的手部检测模型。在步骤303e处,系统100可利用来自步骤302e的结果训练边界框精化模型。边界框精化模型可类似于以上参考图3C所描述的手部精化模型。在步骤304e处,系统100可基于来自步骤303e的结果使用骨架提取模型(例如,方法300d的经训练骨架提取模型)预测手部的骨架。在步骤305e处,系统100可利用经预测骨架和关节基本真值训练机器学习模型以获得骨架精化模型。机器学习模型可包含随机森林方法,卷积神经网络(CNN)方法等。所述机器学习模型可称为第四机器学习模型。
图8是说明符合本公开的示例性实施例的用于3D手部骨架跟踪的方法800的流程图。方法800可包括一定数目的步骤和子步骤,所述步骤和子步骤中的一些可以是可选的。
在步骤801处,系统100可执行参考图2所描述的方法200且产生对应结果,例如3D手部模型。在步骤802处,应用程序可接收来自步骤801的结果,且产生对应结果。在步骤803处,摄像机可捕捉图像。在步骤804处,系统100可接收来自步骤801、802和/或803的输入,随机保存输入,及/或确定失败检测。如果(a)用户完成应用指定交互任务有困难,(b)方法200的任一步骤报告较低置信水平,例如统计学置信水平或输出的几率低于正确的70%,或(c)IK模型报告高于预定阈值的误差,那么系统100可将检测确定为失败检测。在确定失败检测之后,系统100可保存对应输入且将其发送到步骤805处的经配置本地计算机或步骤808处的云计算机或服务器。
在一些实施例中,方法200由存储算法集的系统100的本地计算机(例如,手机)以较快且交互式速度执行。系统100还可将类似算法的副本存储在经配置本地计算机和/或云计算机或服务器以执行对应方法。经配置本地计算机、云计算机或云服务器可具有执行对应方法的越来越多的计算机能力。举例来说,经配置本地计算机可比手机更快地执行方法200。对于另一实例,云计算机可比手机执行方法200持续更多循环,且获得更精确结果。对于又另一实例,云服务器可利用更复杂的机器学习模型执行经修改的方法200,且获得更精确结果。
在一些实施例中,步骤805可包括子步骤806和807。在子步骤806处,系统100可在经配置本地计算机处执行方法200或类似于方法200的方法且将经标记数据输出到子步骤807。本地计算机可配置成偶尔在后台运行,例如在计算机闲置时。在子步骤807处,系统100可基于子步骤806的结果逐步训练机器学习模型(例如,(经精化)检测和/或(经精化)提取模型)。通过执行子步骤806和807,系统100可将特征用户的手部确定为个人参数以改进方法200的性能,将更精确结果用作经标记数据以进一步改进机器学习模型,且产生用户特定模型。系统100可将经改进结果(例如,来自子步骤806或807的经改进机器学习模型和模型参数)发送到步骤801以更新方法200。
在一些实施例中,步骤808可包括子步骤809-811。在步骤809处,系统100可从步骤804接收使用数据,例如失败检测。系统100可在云计算机或服务器处执行方法200或类似于方法200的方法。系统100可检测手部,将手部标记为训练数据,允许手动检验或标记数据,且将经标记数据发送到子步骤810或811。在子步骤810处,系统100可使用经标记数据改进用户特定机器学习模型(例如,(经精化)检测和/或(经精化)提取模型)。在子步骤811处,系统100可使用经标记数据改进全局机器学习模型(例如,(经精化)检测和/或(经精化)提取模型)。系统100可将经改进结果(例如,来自子步骤810或811的经改进机器学习模型和模型参数)发送到步骤801以更新方法200。
本文中所描述的方法可应用于(但不限于)手部。在一些实施例中,可捕捉其它四肢或身体部分且可由此公开中所描述的系统和方法类似地跟踪对应骨架。通过专用立体摄像机系统,以上所描述的方法可基于机器学习、逆运动学、每人模型、离线学习和云学习检测及跟踪3D手部骨架。所公开的方法快速、稳定且精确,且与各种尺寸、纵横比和形状的手部很好地协作。以上所描述的系统和方法可集成在移动装置中,且可与所公开的立体成像系统一起应用于虚拟现实(VR)和增强现实(AR)。
所属领域的技术人员可进一步理解,参考本文所公开内容描述的各种示例性逻辑块、模块、电路和算法步骤可实施为专业电子硬件、计算机软件,或电子硬件和计算机软件的组合。举例来说,模块/单元可通过一个或多个处理器实施,使得一个或多个处理器成为一个或多个特殊目的处理器,从而执行存储于计算机可读存储介质中的软件指令来执行模块/单元的专业功能。
附图中的流程图和框图示出根据本发明的多个实施例的系统和方法的可能实施方案的系统架构、功能和操作。就此而言,流程图或框图中的每一框可代表一个模块、一个程序段或一部分代码,其中模块、程序段或部分代码包含用于实施指定逻辑功能的一个或多个可执行指令。还应注意,在一些替代性实施方案中,框中标志的功能也可以与不同于图式中所标志的序列的序列发生。举例来说,两个连续框实际上可基本上平行地执行,且有时,其也可以相反次序执行,此取决于涉及的功能。框图和/或流程图中的每一框及框图和/或流程图中的框的组合可由用于执行相应功能或操作的基于专用硬件的系统实施,或可由专用硬件和计算机指令的组合实施。
如所述领域的技术人员将理解,本公开的实施例可体现为方法、系统或计算机程序产品。因此,本公开的实施例可采用完全硬件实施例、完全软件实施例或组合软件和硬件的实施例的形式,以允许专业组件执行以上所描述的功能。此外,本公开的实施例可采用计算机程序产品的形式,所述计算机程序产品体现在含有计算机可读程序代码的一个或多个有形和/或非暂时性计算机可读存储介质中。非暂时性计算机可读介质的常见形式包含例如软盘、柔性盘、硬盘、固态硬盘、磁带或任何其它磁性数据存储介质、CD-ROM、任何其它光数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM或任何其它闪速存储器、NVRAM、缓存、寄存器或其它存储器芯片或盒,以及其网络版本。
参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本公开的实施例。应理解,每一流程和/或流程图的框和/或框图,以及流程图和/或框图中的框可通过计算机程序指令实施。这些计算机程序指令可提供到计算机的处理器、嵌入式处理器或其它可编程数据处理装置以产生特殊目的机器,使得通过计算机或其它可编程数据处理装置的处理器执行的指令产生用于实施流程图中的一个或多个流程中所指定的功能和/或框图中的一个或多个框的方式。
这些计算机程序指令也可存储在计算机可读存储器中,所述计算机可读存储器可以特定方式引导计算机或其它可编程数据处理装置起作用,使得存储于计算机可读存储器中的指令产生包括指令工具的制造产品,所述指令工具实施流程图中的一个或多个流程和/或框图中的一个或多个框中所指定的功能。
这些计算机程序指令也可载入到计算机或其它可编程数据处理装置上以使得计算机或其它可编程装置上将执行的一系列操作步骤产生由计算机实施的处理,使得指令(其在计算机或其它可编程装置上执行)提供用于实施流程图中的一个或多个流程和/或框图中的一个或多个框中所指定的功能。在典型配置中,计算机装置包含中央处理(CPU)、输入/输出接口、网络接口和存储器。存储器可包含易挥发性存储器、随机存取存储器(RAM)和/或非挥发性存储器等,例如计算机可读存储介质中的只读存储器(ROM)或闪存RAM。所述存储器是计算机可读存储介质的实例。
计算机可读存储介质是指其上可存储可由处理器读取的信息的任何类型的物体存储器。因此,计算机可读存储介质可存储由一个或多个处理器执行的指令,包含使得一个或多个处理器执行符合本文中所描述的实施例的步骤或级的指令。计算机可读介质包含非挥发性和挥发性介质及可移动和不可移动介质,其中信息存储可通过任何方法或技术实施。信息可以是计算机可读指令、数据结构和程序的模块,或其它数据。非暂时性计算机可读介质的实例包含但不限于,相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器或其它存储器技术、压缩光盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其它光学存储器、盒式磁带、磁带或磁盘存储器或其它磁性存储器装置、缓存、寄存器,或可用于存储能够由计算机装置存取的信息的任何其它非传输介质。计算机可读存储介质是非暂时性的,且不包含暂时性介质,例如调制数据信号和载波。
说明书已经描述用于3D轮廓识别和3D网格产生的方法、设备和系统。所说明的步骤意图解释所示出的示例性实施例,且应预期不断的技术发展将改变执行特定功能的方式。因此,这些实例出于说明而非限制的目的存在于本文中。举例来说,本文中所公开的符合所公开实施例的步骤或过程不限于以所描述的次序执行,但可以任何次序执行,且一些步骤可省略。另外,为描述的便利性,功能建构框的边界在本文中已随意界定。只要指定功能及其关系恰当地执行,可界定可替代性边界。基于本文中所含有的教示的替代方案(包含本文中所描述那些的等同物、扩展、变体、变形等)将对于相关领域的人员是显而易见的。这些替代方案属于所公开实施例的范围和精神。
尽管本文中描述所述公开原理的实例和特征,在不脱离所述公开实施例的精神和范围的情况下,修改、改编及其它实施是可能的。又,词语“包括(comprising)”、“具有(having)”、“含有(containing)”和“包含(including)”及其它类似形式在含义上原本是相当的且开放性的,这些词语中的任何一个后面的一项或多项并不是对所述项或所述多项的无穷列举或仅限于所列的项或多项。必须指出,除非上下文另有明确说明,本文和所附权利要求书中所使用的单数形式“一(a)”、“一(an)”和“所述(the)”包含复数引用。
应了解,本发明并不限于以上已描述及附图中已说明的具体结构,在不脱离本本发明的范围的情况下,可进行各种修改和更改。期望本发明的范围仅由所附权利要求书限制。

Claims (30)

1.一种跟踪系统,其包括:
处理器;和
非暂时性计算机可读存储介质,其耦合到所述处理器且存储指令,所述指令在由所述处理器执行时,使得所述系统执行:
训练检测模型和提取模型;
捕捉物体的至少一部分的一个或多个图像;
通过经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分;
实时跟踪所述物体的经检测部分;
通过经训练提取模型获得所述物体的经跟踪部分上的一个或多个位置的2D定位;及
至少部分基于获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的3D定位。
2.根据权利要求1所述的跟踪系统,其中:
所述一个或多个图像包括所述物体的所述部分的两个立体图像;且
所述系统进一步包括配置成捕捉所述两个立体图像的两个红外摄像机。
3.根据权利要求1所述的跟踪系统,其中:
所述物体的所述部分包括手部;且
所述一个或多个位置包括所述手部的一个或多个关节。
4.根据权利要求3所述的跟踪系统,其中训练所述检测模型和所述提取模型包括:
获得不同人的不同姿势的各种手部的图像;
根据作为手部基本真值的经验证手部数据标识获得的图像中的手部定位;及
利用所述获得的图像和所述手部基本真值训练第一机器学习模型,所述第一机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
5.根据权利要求4所述的跟踪系统,其中训练所述检测模型和所述提取模型进一步包括:
使用所述检测模型预测所述获得的图像中的手部定位;及
利用所述手部基本真值和所述获得的图像中的经预测手部定位训练第二机器学习模型以精化所述检测模型,所述第二机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
6.根据权利要求5所述的跟踪系统,其中:
所述手部定位是限定所述手部的边界框的定位;且
通过所述经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分包括通过从所述第一或所述第二机器学习模型训练的所述检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分。
7.根据权利要求1所述的跟踪系统,其中实时跟踪所述物体的所述经检测部分包括基于粒子群优化(PSO)、粒子滤波器、卡尔曼滤波器、扩展卡尔曼滤波器、马尔可夫链方法或蒙特卡罗方法中的至少一个。
8.根据权利要求6所述的跟踪系统,其中训练所述检测模型和所述提取模型进一步包括:
根据作为关节基本真值的经验证关节数据标识所述获得的图像中的手部关节的定位;
使用经精化检测模式获得所述手部的裁剪区域,所述裁剪区域对应于所述边界框;及
利用所述手部的所述裁剪区域和所述关节基本真值训练第三机器学习模型,所述第三机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
9.根据权利要求8所述的跟踪系统,其进一步包括应用卡尔曼滤波器、扩展卡尔曼滤波器、均值滤波器或中值滤波器。
10.根据权利要求8所述的跟踪系统,其中训练所述检测模型和所述提取模型进一步包括:
使用所述提取模型预测所述手部的关节的定位;及
利用所述关节的经预测定位和所述关节基本真值训练第四机器学习模型,所述第四机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
11.根据权利要求10所述的跟踪系统,其中通过所述经训练提取模型获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述2D定位包括通过从所述第三或所述第四机器学习模型中的至少一个训练的所述提取模型获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述2D定位。
12.根据权利要求3所述的跟踪系统,其中至少部分基于所述获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述3D定位包括至少基于以下获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述3D定位:
来自所述两个立体图像的2D关节定位对;
分别捕捉所述两个立体图形的摄像机的焦距;和
所述摄像机的定位信息。
13.根据权利要求3所述的跟踪系统,其进一步包括使所述一个或多个位置的所述获得的3D定位受到一个或多个约束以获得所述一个或多个位置的经精化3D定位,其中所述一个或多个约束包括对应于所述手部关节中的距离的每一手部骨骼长度的正常范围。
14.根据权利要求13所述的跟踪系统,其进一步包括至少一个第一和第二优化方法,其中:
所述第一优化方法包括:
将经精化3D定位投影到2D以或获得经投影2D定位,
比较所述经投影2D定位与所述获得的2D定位以获得第一差值,及
调整所述经精化3D定位以最小化所述第一差值,从而获得优化3D定位;且
所述第二优化方法包括:
比较所述经精化3D定位与所述获得的3D定位以获得第二差值,及
调整所述经精化3D定位以最小化所述第二差值,从而获得优化3D定位。
15.根据权利要求3所述的跟踪系统,其中:
所述跟踪系统放置在移动装置上;
所述移动装置耦合到本地装置或云装置中的至少一个;
所述跟踪系统配置成将失败检测发送到所述本地装置或所述云装置中的至少一个;
所述本地装置配置成校正所述失败检测,从而进一步训练所述检测或提取模型中的至少一个;及
所述云装置配置成校正所述失败检测,从而进一步训练所述检测或提取模型中的至少一个。
16.一种跟踪方法,其包括:
训练检测模型和提取模型;
捕捉物体的至少一部分的一个或多个图像;
通过经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分;
实时跟踪所述物体的经检测部分;通过经训练提取模型获得所述物体的经跟踪部分上的一个或多个位置的2D定位;及
至少部分基于获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的3D定位。
17.根据权利要求16所述的跟踪方法,其中:
所述一个或多个图像包括所述物体的所述部分的两个立体图像;且
所述系统包括配置成捕捉所述两个立体图像的两个红外摄像机。
18.根据权利要求16所述的跟踪方法,其中:
所述物体的所述部分包括手部;且
所述一个或多个位置包括所述手部的一个或多个关节。
19.根据权利要求18所述的跟踪方法,其中训练所述检测模型和所述提取模型包括:
获得不同人的不同姿势的各种手部的图像;
根据作为手部基本真值的经验证手部数据标识获得的图像中的手部定位;及
利用所述获得的图像和所述手部基本真值训练第一机器学习模型,所述第一机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
20.根据权利要求19所述的跟踪方法,其中训练所述检测模型和所述提取模型进一步包括:
使用所述检测模型预测所述获得的图像中的手部定位;及
利用所述手部基本真值和所述获得的图像中的经预测手部定位训练第二机器学习模型以精化所述检测模型,所述第二机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
21.根据权利要求20所述的跟踪方法,其中:
所述手部定位是限定所述手部的边界框的定位;且
通过所述经训练检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分包括通过从所述第一或所述第二机器学习模型训练的所述检测模型检测所述一个或多个图像中的每一个中的所述物体的所述部分。
22.根据权利要求16所述的跟踪方法,其中实时跟踪所述物体的所述经检测部分包括基于粒子群优化(PSO)、粒子滤波器、卡尔曼滤波器、扩展卡尔曼滤波器、马尔可夫链方法或蒙特卡罗方法中的至少一个。
23.根据权利要求21所述的跟踪方法,其中训练所述检测模型和所述提取模型进一步包括:
根据作为关节基本真值的经验证关节数据标识所述获得的图像中的手部关节的定位;
使用经精化检测模式获得所述手部的裁剪区域,所述裁剪区域对应于所述边界框;及
利用所述手部的所述裁剪区域和所述关节基本真值训练第三机器学习模型,所述第三机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
24.根据权利要求23所述的跟踪方法,其进一步包括应用卡尔曼滤波器、扩展卡尔曼滤波器、均值滤波器或中值滤波器。
25.根据权利要求23所述的跟踪方法,其中训练所述检测模型和所述提取模型进一步包括:
使用所述提取模型预测所述手部的关节的定位;及
利用所述关节的经预测定位和所述关节基本真值训练第四机器学习模型,所述第四机器学习模型包含随机森林方法或卷积神经网络(CNN)方法中的至少一个。
26.根据权利要求25所述的跟踪方法,其中通过所述经训练提取模型获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述2D定位包括通过从所述第三或所述第四机器学习模型中的至少一个训练的所述提取模型获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述2D定位。
27.根据权利要求18所述的跟踪方法,其中至少部分基于所述获得的2D定位获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述3D定位包括至少基于以下获得所述物体的所述经跟踪部分上的所述一个或多个位置的所述3D定位:
来自所述两个立体图像的2D关节定位对;
分别捕捉所述两个立体图形的摄像机的焦距;和
所述摄像机的定位信息。
28.根据权利要求18所述的跟踪方法,其进一步包括使所述一个或多个位置的所述获得的3D定位受到一个或多个约束以获得所述一个或多个位置的经精化3D定位,其中所述一个或多个约束包括对应于所述手部关节中的距离的每一手部骨骼长度的正常范围。
29.根据权利要求28所述的跟踪方法,其进一步包括至少一个第一和第二优化方法,其中:
所述第一优化方法包括:
将经精化3D定位投影到2D以或获得经投影2D定位,
比较所述经投影2D定位与所述获得的2D定位以获得第一差值,及
调整所述经精化3D定位以最小化所述第一差值,从而获得优化3D定位;且
所述第二优化方法包括:
比较所述经精化3D定位与所述获得的3D定位以获得第二差值,及
调整所述经精化3D定位以最小化所述第二差值,从而获得优化3D定位。
30.根据权利要求18所述的跟踪方法,其中:
所述跟踪系统放置在移动装置上;
所述移动装置耦合到本地装置或云装置中的至少一个;
所述跟踪系统配置成将失败检测发送到所述本地装置或所述云装置中的至少一个;
所述本地装置配置成校正所述失败检测,从而进一步训练所述检测或提取模型中的至少一个;及
所述云装置配置成校正所述失败检测,从而进一步训练所述检测或提取模型中的至少一个。
CN201780004025.0A 2016-07-20 2017-07-14 用于3d手部骨架跟踪的方法和系统 Active CN108369643B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662364783P 2016-07-20 2016-07-20
US62/364,783 2016-07-20
PCT/US2017/042041 WO2018017399A1 (en) 2016-07-20 2017-07-14 Method and system for 3d hand skeleton tracking

Publications (2)

Publication Number Publication Date
CN108369643A true CN108369643A (zh) 2018-08-03
CN108369643B CN108369643B (zh) 2022-05-13

Family

ID=60988484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780004025.0A Active CN108369643B (zh) 2016-07-20 2017-07-14 用于3d手部骨架跟踪的方法和系统

Country Status (4)

Country Link
US (1) US10372228B2 (zh)
EP (1) EP3488324A1 (zh)
CN (1) CN108369643B (zh)
WO (1) WO2018017399A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215128A (zh) * 2018-08-09 2019-01-15 北京华捷艾米科技有限公司 物体运动姿态图像的合成方法及系统
CN109682375A (zh) * 2019-01-21 2019-04-26 重庆邮电大学 一种基于容错决策树的uwb辅助惯性定位方法
CN110570455A (zh) * 2019-07-22 2019-12-13 浙江工业大学 一种面向房间vr的全身三维姿态跟踪方法
CN111414797A (zh) * 2019-01-07 2020-07-14 一元精灵有限公司 用于基于来自移动终端的视频的姿态序列的系统和方法
CN112287960A (zh) * 2019-07-24 2021-01-29 辉达公司 用于训练或再训练机器学习模型的地面真值数据的自动生成

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150124566A1 (en) 2013-10-04 2015-05-07 Thalmic Labs Inc. Systems, articles and methods for wearable electronic devices employing contact sensors
US10188309B2 (en) 2013-11-27 2019-01-29 North Inc. Systems, articles, and methods for electromyography sensors
US11921471B2 (en) 2013-08-16 2024-03-05 Meta Platforms Technologies, Llc Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source
US11854308B1 (en) * 2016-02-17 2023-12-26 Ultrahaptics IP Two Limited Hand initialization for machine learning based gesture recognition
US11841920B1 (en) 2016-02-17 2023-12-12 Ultrahaptics IP Two Limited Machine learning based gesture recognition
US11714880B1 (en) 2016-02-17 2023-08-01 Ultrahaptics IP Two Limited Hand pose estimation for machine learning based gesture recognition
WO2020112986A1 (en) 2018-11-27 2020-06-04 Facebook Technologies, Inc. Methods and apparatus for autocalibration of a wearable electrode sensor system
US20190121306A1 (en) 2017-10-19 2019-04-25 Ctrl-Labs Corporation Systems and methods for identifying biological structures associated with neuromuscular source signals
US11216069B2 (en) 2018-05-08 2022-01-04 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
US10990174B2 (en) 2016-07-25 2021-04-27 Facebook Technologies, Llc Methods and apparatus for predicting musculo-skeletal position information using wearable autonomous sensors
US10902343B2 (en) * 2016-09-30 2021-01-26 Disney Enterprises, Inc. Deep-learning motion priors for full-body performance capture in real-time
WO2018087933A1 (ja) * 2016-11-14 2018-05-17 富士通株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018131110A (ja) * 2017-02-16 2018-08-23 パナソニックIpマネジメント株式会社 推定装置、推定方法、及び推定プログラム
CN110476168B (zh) * 2017-04-04 2023-04-18 优森公司 用于手部跟踪的方法和系统
JP6923789B2 (ja) * 2017-07-05 2021-08-25 富士通株式会社 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム
JP7054436B2 (ja) * 2017-12-14 2022-04-14 オムロン株式会社 検出システム、情報処理装置、評価方法及びプログラム
CN109934065B (zh) * 2017-12-18 2021-11-09 虹软科技股份有限公司 一种用于手势识别的方法和装置
JP6765545B2 (ja) * 2017-12-22 2020-10-07 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 動的ジェスチャ認識方法および装置、ジェスチャ対話制御方法および装置
US11961494B1 (en) 2019-03-29 2024-04-16 Meta Platforms Technologies, Llc Electromagnetic interference reduction in extended reality environments
US11907423B2 (en) 2019-11-25 2024-02-20 Meta Platforms Technologies, Llc Systems and methods for contextualized interactions with an environment
US11150730B1 (en) 2019-04-30 2021-10-19 Facebook Technologies, Llc Devices, systems, and methods for controlling computing devices via neuromuscular signals of users
US11493993B2 (en) 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
US11481030B2 (en) 2019-03-29 2022-10-25 Meta Platforms Technologies, Llc Methods and apparatus for gesture detection and classification
US10937414B2 (en) 2018-05-08 2021-03-02 Facebook Technologies, Llc Systems and methods for text input using neuromuscular information
US10671842B2 (en) * 2018-01-29 2020-06-02 Google Llc Methods of determining handedness for virtual controllers
US10296102B1 (en) * 2018-01-31 2019-05-21 Piccolo Labs Inc. Gesture and motion recognition using skeleton tracking
US10241588B1 (en) 2018-01-31 2019-03-26 Piccolo Labs Inc. System for localizing devices in a room
EP3543829A1 (en) * 2018-03-19 2019-09-25 Padrone AG Method and finger-worn device for controlling an external computer
JP6962450B2 (ja) * 2018-03-28 2021-11-05 日本電気株式会社 画像処理装置、画像処理方法、及びプログラム
CN108446678B (zh) * 2018-05-07 2021-05-11 同济大学 一种基于骨骼特征的危险驾驶行为识别方法
US10592001B2 (en) 2018-05-08 2020-03-17 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
CN110163045A (zh) 2018-06-07 2019-08-23 腾讯科技(深圳)有限公司 一种手势动作的识别方法、装置以及设备
CA3105272A1 (en) * 2018-06-29 2020-01-02 Wrnch Inc. Human pose analysis system and method
KR102615196B1 (ko) 2018-08-21 2023-12-18 삼성전자주식회사 객체 검출 모델 트레이닝 장치 및 방법
EP4241661A1 (en) * 2018-08-31 2023-09-13 Facebook Technologies, LLC Camera-guided interpretation of neuromuscular signals
US11850514B2 (en) 2018-09-07 2023-12-26 Vulcan Inc. Physical games enhanced by augmented reality
EP3853698A4 (en) 2018-09-20 2021-11-17 Facebook Technologies, LLC NEUROMUSCULAR TEXT ENTRY, WRITING AND DRAWING IN SYSTEMS WITH EXTENDED REALITY
WO2020072918A1 (en) * 2018-10-05 2020-04-09 The Trustees Of Princeton University Automated system to measure multi-animal body part dynamics
WO2020083831A1 (en) * 2018-10-22 2020-04-30 Future Health Works Ltd. Computer based object detection within a video or image
US10922573B2 (en) 2018-10-22 2021-02-16 Future Health Works Ltd. Computer based object detection within a video or image
US10937173B2 (en) * 2018-11-15 2021-03-02 Qualcomm Incorporated Predicting subject body poses and subject movement intent using probabilistic generative models
US11670080B2 (en) 2018-11-26 2023-06-06 Vulcan, Inc. Techniques for enhancing awareness of personnel
CN109558832B (zh) * 2018-11-27 2021-03-26 广州市百果园信息技术有限公司 一种人体姿态检测方法、装置、设备及存储介质
US11950577B2 (en) 2019-02-08 2024-04-09 Vale Group Llc Devices to assist ecosystem development and preservation
US10755571B1 (en) * 2019-03-01 2020-08-25 Amazon Technologies, Inc. Identifying parking location using single camera reverse projection
WO2020198070A1 (en) 2019-03-22 2020-10-01 Vulcan Inc. Underwater positioning system
EP3953901A4 (en) * 2019-04-12 2023-01-04 University Of Iowa Research Foundation SYSTEM AND METHOD FOR PREDICTING, PREVENTING AND MITIGATING WORKPLACE INJURY
US11435845B2 (en) * 2019-04-23 2022-09-06 Amazon Technologies, Inc. Gesture recognition based on skeletal model vectors
US10976829B1 (en) * 2019-06-03 2021-04-13 Facebook, Inc. Systems and methods for displaying augmented-reality objects
WO2020256172A1 (ko) * 2019-06-18 2020-12-24 엘지전자 주식회사 카트 로봇
US11263443B2 (en) * 2019-07-19 2022-03-01 Sri International Centimeter human skeleton pose estimation
CN110472531B (zh) * 2019-07-29 2023-09-01 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN114391160A (zh) * 2019-09-09 2022-04-22 斯纳普公司 根据立体相机的手部姿势估计
US11275453B1 (en) 2019-09-30 2022-03-15 Snap Inc. Smart ring for manipulating virtual objects displayed by a wearable device
KR20210069491A (ko) 2019-12-03 2021-06-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11182909B2 (en) * 2019-12-10 2021-11-23 Google Llc Scalable real-time hand tracking
CN111242982A (zh) * 2020-01-02 2020-06-05 浙江工业大学 一种基于渐进卡尔曼滤波的人体目标跟踪方法
CN111368668B (zh) * 2020-02-25 2023-05-23 北京字节跳动网络技术有限公司 三维手部识别方法、装置、电子设备及存储介质
WO2021212411A1 (en) * 2020-04-23 2021-10-28 Intel Corporation Kinematic interaction system with improved pose tracking
US11798429B1 (en) 2020-05-04 2023-10-24 Snap Inc. Virtual tutorials for musical instruments with finger tracking in augmented reality
US11520399B2 (en) 2020-05-26 2022-12-06 Snap Inc. Interactive augmented reality experiences using positional tracking
US11340707B2 (en) * 2020-05-29 2022-05-24 Microsoft Technology Licensing, Llc Hand gesture-based emojis
WO2022006784A1 (zh) * 2020-07-08 2022-01-13 香港中文大学(深圳) 人体骨架检测方法、装置、系统、设备及存储介质
US11508118B2 (en) * 2020-07-13 2022-11-22 Fujitsu Limited Provisioning real-time three-dimensional maps for autonomous vehicles
US11925863B2 (en) 2020-09-18 2024-03-12 Snap Inc. Tracking hand gestures for interactive game control in augmented reality
US11546505B2 (en) 2020-09-28 2023-01-03 Snap Inc. Touchless photo capture in response to detected hand gestures
KR20220086971A (ko) * 2020-12-17 2022-06-24 삼성전자주식회사 손 관절을 추적하는 방법 및 장치
WO2022146678A1 (en) * 2020-12-29 2022-07-07 Snap Inc. Micro hand gestures for controlling virtual and graphical elements
US11740313B2 (en) 2020-12-30 2023-08-29 Snap Inc. Augmented reality precision tracking and display
US11531402B1 (en) 2021-02-25 2022-12-20 Snap Inc. Bimanual gestures for controlling virtual and graphical elements
US11868531B1 (en) 2021-04-08 2024-01-09 Meta Platforms Technologies, Llc Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof
US11861070B2 (en) 2021-04-19 2024-01-02 Snap Inc. Hand gestures for animating and controlling virtual and graphical elements
CN113326751B (zh) * 2021-05-19 2024-02-13 中国科学院上海微系统与信息技术研究所 一种手部3d关键点的标注方法
KR102548208B1 (ko) * 2021-06-04 2023-06-28 주식회사 피앤씨솔루션 증강현실 글라스 장치의 실시간 손동작 인터페이스 구현을 위한 경량화된 손 관절 예측 방법 및 장치
JP7213396B1 (ja) * 2021-08-30 2023-01-26 ソフトバンク株式会社 電子機器及びプログラム
US11556183B1 (en) * 2021-09-30 2023-01-17 Microsoft Technology Licensing, Llc Techniques for generating data for an intelligent gesture detector
TWI790764B (zh) * 2021-09-30 2023-01-21 宏碁股份有限公司 三維手勢偵測裝置及三維手勢偵測方法
CN114494338A (zh) * 2021-12-21 2022-05-13 特斯联科技集团有限公司 基于自适应定位及卡尔曼滤波跟踪的手部实时感知方法
WO2022256189A1 (en) * 2022-05-20 2022-12-08 Innopeak Technology, Inc. Hand gesture detection methods and systems with optimized hand detection
US11783495B1 (en) 2022-10-25 2023-10-10 INSEER Inc. Methods and apparatus for calculating torque and force about body joints using machine learning to predict muscle fatigue

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120070070A1 (en) * 2010-09-16 2012-03-22 Primesense Ltd. Learning-based pose estimation from depth maps
US20130294651A1 (en) * 2010-12-29 2013-11-07 Thomson Licensing System and method for gesture recognition
CN103399637A (zh) * 2013-07-31 2013-11-20 西北师范大学 基于kinect人体骨骼跟踪控制的智能机器人人机交互方法
US20140192147A1 (en) * 2011-12-01 2014-07-10 Lightcraft Technology, Llc Automatic tracking matte system
CN104937635A (zh) * 2013-02-15 2015-09-23 英特尔公司 基于模型的多假设目标追踪器
US20150378444A1 (en) * 2011-08-12 2015-12-31 The Research Foundation For The State University Of New York Hand pointing estimation for human computer interaction
US20160085310A1 (en) * 2014-09-23 2016-03-24 Microsoft Corporation Tracking hand/body pose

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104379A (en) 1996-12-11 2000-08-15 Virtual Technologies, Inc. Forearm-supported exoskeleton hand-tracking device
KR100474848B1 (ko) 2002-07-19 2005-03-10 삼성전자주식회사 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
US20090306509A1 (en) * 2005-03-30 2009-12-10 Worcester Polytechnic Institute Free-hand three-dimensional ultrasound diagnostic imaging with position and angle determination sensors
US7450736B2 (en) * 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
US7760074B2 (en) * 2007-01-29 2010-07-20 International Business Machines Corporation Diagnosing a radio frequency identification reader
US8600166B2 (en) 2009-11-06 2013-12-03 Sony Corporation Real time hand tracking, pose classification and interface control
US20110317871A1 (en) 2010-06-29 2011-12-29 Microsoft Corporation Skeletal joint recognition and tracking system
WO2012135153A2 (en) 2011-03-25 2012-10-04 Oblong Industries, Inc. Fast fingertip detection for initializing a vision-based hand tracker
US8897491B2 (en) 2011-06-06 2014-11-25 Microsoft Corporation System for finger recognition and tracking
US8773512B1 (en) * 2011-06-30 2014-07-08 Aquifi, Inc. Portable remote control device enabling three-dimensional user interaction with at least one appliance
US8638989B2 (en) 2012-01-17 2014-01-28 Leap Motion, Inc. Systems and methods for capturing motion in three-dimensional space
US8938124B2 (en) 2012-05-10 2015-01-20 Pointgrab Ltd. Computer vision based tracking of a hand
US9111135B2 (en) 2012-06-25 2015-08-18 Aquifi, Inc. Systems and methods for tracking human hands using parts based template matching using corresponding pixels in bounded regions of a sequence of frames that are a specified distance interval from a reference camera
CN102830798A (zh) 2012-07-31 2012-12-19 华南理工大学 单臂机器人基于Kinect的无标记人手跟踪方法
CN103593679A (zh) 2012-08-16 2014-02-19 北京大学深圳研究生院 一种基于在线机器学习的视觉人手跟踪方法
GB201215944D0 (en) * 2012-09-06 2012-10-24 Univ Manchester Image processing apparatus and method for fittng a deformable shape model to an image using random forests
US9754154B2 (en) * 2013-02-15 2017-09-05 Microsoft Technology Licensing, Llc Identification using depth-based head-detection data
US9275277B2 (en) 2013-02-22 2016-03-01 Kaiser Foundation Hospitals Using a combination of 2D and 3D image data to determine hand features information
CN103530892B (zh) 2013-10-21 2016-06-22 清华大学深圳研究生院 一种基于Kinect传感器的双手跟踪方法与装置
CN103559505A (zh) 2013-11-18 2014-02-05 庄浩洋 一种3d骨架建模与手检测方法
US9811721B2 (en) 2014-08-15 2017-11-07 Apple Inc. Three-dimensional hand tracking using depth sequences
US20160086349A1 (en) 2014-09-23 2016-03-24 Microsoft Corporation Tracking hand pose using forearm-hand model
CN105023280A (zh) 2015-08-21 2015-11-04 武汉汇思聚创信息技术有限公司 一种基于3d骨架建模的检测方法
US10318008B2 (en) * 2015-12-15 2019-06-11 Purdue Research Foundation Method and system for hand pose detection
JP6909960B2 (ja) * 2017-03-31 2021-07-28 パナソニックIpマネジメント株式会社 検知装置、検知方法及び検知プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120070070A1 (en) * 2010-09-16 2012-03-22 Primesense Ltd. Learning-based pose estimation from depth maps
US20130294651A1 (en) * 2010-12-29 2013-11-07 Thomson Licensing System and method for gesture recognition
US20150378444A1 (en) * 2011-08-12 2015-12-31 The Research Foundation For The State University Of New York Hand pointing estimation for human computer interaction
US20140192147A1 (en) * 2011-12-01 2014-07-10 Lightcraft Technology, Llc Automatic tracking matte system
CN104937635A (zh) * 2013-02-15 2015-09-23 英特尔公司 基于模型的多假设目标追踪器
CN103399637A (zh) * 2013-07-31 2013-11-20 西北师范大学 基于kinect人体骨骼跟踪控制的智能机器人人机交互方法
US20160085310A1 (en) * 2014-09-23 2016-03-24 Microsoft Corporation Tracking hand/body pose

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215128A (zh) * 2018-08-09 2019-01-15 北京华捷艾米科技有限公司 物体运动姿态图像的合成方法及系统
CN109215128B (zh) * 2018-08-09 2019-12-24 北京华捷艾米科技有限公司 物体运动姿态图像的合成方法及系统
CN111414797A (zh) * 2019-01-07 2020-07-14 一元精灵有限公司 用于基于来自移动终端的视频的姿态序列的系统和方法
CN111414797B (zh) * 2019-01-07 2023-05-23 一元精灵有限公司 用于估计对象的姿势和姿态信息的系统和方法
CN109682375A (zh) * 2019-01-21 2019-04-26 重庆邮电大学 一种基于容错决策树的uwb辅助惯性定位方法
CN110570455A (zh) * 2019-07-22 2019-12-13 浙江工业大学 一种面向房间vr的全身三维姿态跟踪方法
CN110570455B (zh) * 2019-07-22 2021-12-07 浙江工业大学 一种面向房间vr的全身三维姿态跟踪方法
CN112287960A (zh) * 2019-07-24 2021-01-29 辉达公司 用于训练或再训练机器学习模型的地面真值数据的自动生成
US11783230B2 (en) 2019-07-24 2023-10-10 Nvidia Corporation Automatic generation of ground truth data for training or retraining machine learning models
CN112287960B (zh) * 2019-07-24 2024-03-08 辉达公司 用于训练或再训练机器学习模型的地面真值数据的自动生成

Also Published As

Publication number Publication date
US10372228B2 (en) 2019-08-06
WO2018017399A1 (en) 2018-01-25
EP3488324A1 (en) 2019-05-29
US20180024641A1 (en) 2018-01-25
CN108369643B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN108369643A (zh) 用于3d手部骨架跟踪的方法和系统
US11928592B2 (en) Visual sign language translation training device and method
US10902343B2 (en) Deep-learning motion priors for full-body performance capture in real-time
US20180012411A1 (en) Augmented Reality Methods and Devices
Cartucho et al. VisionBlender: a tool to efficiently generate computer vision datasets for robotic surgery
US11281896B2 (en) Physical activity quantification and monitoring
CN102725038B (zh) 组合多传感输入以用于数字动画
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
Camba et al. From reality to augmented reality: Rapid strategies for developing marker-based AR content using image capturing and authoring tools
Gulde et al. RoPose: CNN-based 2D pose estimation of industrial robots
Lee et al. Control framework for collaborative robot using imitation learning-based teleoperation from human digital twin to robot digital twin
JP2012113438A (ja) 姿勢推定装置および姿勢推定プログラム
US20230154091A1 (en) Joint rotation inferences based on inverse kinematics
Kanis et al. Improvements in 3D hand pose estimation using synthetic data
Li Application of IoT-enabled computing technology for designing sports technical action characteristic model
Lou et al. Self-supervised surgical instrument 3D reconstruction from a single camera image
Schlette et al. A new benchmark for pose estimation with ground truth from virtual reality
WO2020193972A1 (en) Facial analysis
Jian et al. Realistic face animation generation from videos
Ghahramani et al. 6d object pose estimation for robot programming by demonstration
Joo Sensing, Measuring, and Modeling Social Signals in Nonverbal Communication
Liu et al. RealDex: Towards Human-like Grasping for Robotic Dexterous Hand
Cleetus Real-time multiple human pose estimation for animations in game engines
Ashley et al. 3D Pose Estimation
Kanis et al. Combination of Positions and Angles for Hand Pose Estimation

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180927

Address after: Room 101, block C, 7 building, 4028 South Ring Road, Binjiang District, Hangzhou, Zhejiang.

Applicant after: Hangzhou Linggan Technology Co.,Ltd.

Address before: Technology incubator No. 260, San Jose City, California, USA 1740

Applicant before: Yousen

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230805

Address after: 201600 Room 501, Building 3, No. 1 Caosung Road, Xinqiao Town, Songjiang District, Shanghai

Patentee after: Shanghai yuweia Technology Co.,Ltd.

Address before: 310053 Room 101, block C, 7 building, 4028 South Ring Road, Binjiang District, Hangzhou, Zhejiang.

Patentee before: Hangzhou Linggan Technology Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 201600 Room 501, Building 3, No. 1 Caosung Road, Xinqiao Town, Songjiang District, Shanghai

Patentee after: Play Out Dreams (Shanghai) Technology Co.,Ltd.

Address before: 201600 Room 501, Building 3, No. 1 Caosung Road, Xinqiao Town, Songjiang District, Shanghai

Patentee before: Shanghai yuweia Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder