CN111417953A - 用于使用人类运动模型来改进运动估计的设备、系统和方法 - Google Patents

用于使用人类运动模型来改进运动估计的设备、系统和方法 Download PDF

Info

Publication number
CN111417953A
CN111417953A CN201880072802.XA CN201880072802A CN111417953A CN 111417953 A CN111417953 A CN 111417953A CN 201880072802 A CN201880072802 A CN 201880072802A CN 111417953 A CN111417953 A CN 111417953A
Authority
CN
China
Prior art keywords
movement
human
model
motion
movements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880072802.XA
Other languages
English (en)
Inventor
玛坦·普洛特
埃弗拉特·罗特姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Technology Israel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Technology Israel Ltd filed Critical Alibaba Technology Israel Ltd
Publication of CN111417953A publication Critical patent/CN111417953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

提供了一种用于基于虚拟、增强或混合现实环境中的人类移动模型来估计移动的设备、系统和方法。在脱机阶段中,可以存储人类移动模型,所述人类移动模型指派在人体中发生的移动的时空表示的非均匀概率。在联机阶段中,可以记录用户的移动。可以通过多个(N个)自由度(DOF)的时空表示来估计所述用户的移动,所述用户的移动使包含实测移动与所估计的移动匹配的第一概率和所述人类移动模型指派给所估计的移动的时空表示的第二概率的联合概率最大化。可以显示基于所估计的移动的NDOF时空表示而渲染的虚拟、增强或混合现实图像。

Description

用于使用人类运动模型来改进运动估计的设备、系统和方法
本申请要求于2017年11月10日提交的美国临时专利申请No.62/584,257的优先权,其通过引用整体地并入本文。
技术领域
本发明的实施例涉及运动估计的领域。在一些实施例中,运动估计可以用于跟踪或预测虚拟现实、增强现实和/或混合现实系统中的用户移动。
背景技术
虚拟现实(VR)、增强现实(AR)和/或混合现实(MR)环境中的主要挑战是以足够的速度和精度来计算出用户移动以模拟逼真地看起来从用户的观点渲染的虚拟图像。为了实现逼真的用户体验,应该准确地且实时地计算出头部和整体用户移动。
虚拟现实(VR)、增强现实(AR)和/或混合现实(MR)系统基于用户的移动(诸如头部位置、视线和/或身体位置和/或用户手或手掌移动)来模拟图形。移动跟踪基于由诸如附到用户的头部、手和/或其他身体部位的相机、陀螺仪和/或加速度计这样的传感器或者由用户在其视场中的外部传感器或成像器所记录的测量结果。一些系统使用用户的当前运动估值或动力学来预测将来运动以说明在测量用户移动的时间与渲染并向用户显示对应图像的时间之间的计算延迟。
然而,运动估计涉及分析例如六个自由度上所有可能的候选运动的复杂且费时的计算。当前的运动估计器的时间和计算负担引入了被称为“运动到光子”等待时间的显著等待时间,其是在初始头部移动到向用户显示对应图像的时间之间的延迟。运动到光子等待时间给出了对头部运动的延迟图形响应的外观,并且使这种等待时间最小化是VR、AR和MR系统中的普遍目标。进一步地,当前的运动估计器产生随等待时间以指数方式增长的误差。
因此,在本领域中存在用于减少运动估计计算的时间和等待时间并改进运动估计准确度的需要。
发明内容
本发明的一些实施例通过减少运动估计计算的时间和等待时间并且/或者改进运动检测、估计和预测准确度来克服本领域中固有的前述问题。
在本发明的实施例中,提供了一种用于基于虚拟、增强或混合现实环境中的人类移动模型来估计移动的设备、系统和方法。在脱机阶段中,可以存储人类移动模型,所述人类移动模型指派在人体中发生的移动的时空表示的非均匀概率。在联机阶段中,可以记录用户的移动。可以通过多个(N个)自由度(DOF)的时空表示来估计所述用户的移动,所述用户的移动使包含实测移动与所估计的移动匹配的第一概率和所述人类移动模型指派给所估计的移动的时空表示的第二概率的联合概率最大化。可以显示基于所估计的移动的NDOF时空表示而渲染的虚拟、增强或混合现实图像。
附图说明
在说明书的结束部分中特别指出并显然要求保护被视为本发明的主题。然而,关于组织和操作方法以及其目的、特征和优点,可以在与附图一起阅读时通过参考以下详细描述来最好地理解本发明,在附图中:
图1A是依照本发明的一些实施例的用于在脱机阶段中训练运动估计器以对人类运动进行建模的示例系统的示意图示;
图1B是依照本发明的一些实施例的用于在联机阶段中使用训练后的人类运动模型来估计运动的示例系统的示意图示;以及
图2是依照本发明的一些实施例的用于基于虚拟、增强或混合现实环境中的人类移动模型来估计移动的示例方法的流程图。
应领会的是,为了图示的简单和清楚,这些图中所示的元件尚不一定按比例绘制。例如,为了清楚,一些元件的尺寸可以相对于其他元件被放大。进一步地,在被认为适当的情况下,可以在这些图之中重复附图标记以指示对应或类似的元件。
具体实施方式
在以下描述中,将描述本发明的各个方面。出于说明的目的,阐述了具体配置和细节以便提供对本发明的透彻理解。然而,对于本领域的技术人员而言还将显而易见的是,可以在没有本文呈现的具体细节的情况下实践本发明。此外,可以省略或简化众所周知的特征以免使本发明混淆。
除非另外具体地陈述,否则如从以下讨论中显而易见的,应领会的是在整个说明书中,利用诸如“处理”、“计算”、“计算出”、“确定”等这样的术语的讨论指代计算机或计算系统或类似的电子计算设备的动作和/或处理,其将被表示为计算系统的寄存器和/或存储器内的物理量(诸如电子量)的数据操纵和/或变换成被类似地表示为计算系统的存储器、寄存器或其他此类信息存储、传输或显示设备内的物理量的其他数据。
根据本发明的一些实施例,虚拟、增强或混合现实设备、系统或方法可以基于虚拟、增强或混合现实环境中的人类移动模型来估计运动。可以生成和/或存储人类移动模型,所述人类移动模型定义与在人体中发生多个移动的非均匀概率相对应的多个移动的时空表示的非均匀概率。人类运动模型可以表示有利于某些常见移动(例如,头部以小角度左右移动)具有许可或相对高或高于阈值概率的并且不利于其他稀有或不可能的移动(例如,头部旋转180°)具有禁止或相对低或低于阈值的模型概率的非均匀分布。运动估计模型可以仅分析或估计与人类运动数据集一致的候选运动,而丢弃或忽视不一致的候选运动。在一些实施例中,运动估计模型可以将不许可的或低于阈值概率的运动变换成许可的或高于阈值概率的运动(例如,与不许可的运动最类似的可接受的NDOF)。
在运行时期间,VR、AR或MR设备可以使用人类移动模型(具有各种运动的非均匀或优先概率)来优化运动估值或者校正或改进初始运动估值(基于无模型或所有运动的均匀概率)。设备可以从测量用户的移动的一个或多个移动记录器接收移动记录。每个移动记录可以与移动的多个(N个)自由度(DOF)的初始时空表示相关联。NDOF测量结果可以指代在单个时间的单个NDOF读数(表示诸如位置这样的静态移动),或诸如在多个时间的多个NDOF测量结果的变化或导数这样的函数(表示诸如速度或旋转这样的动态移动),或N个自由度的部分子集(例如,仅向前或旋转运动)。可以应用人类移动模型来将初始NDOF时空表示变换成移动记录的更新的NDOF时空表示。附加地或可替代地,可以首先(跳过初始NDOF)通过将模型应用于实测(例如,原始或部分NDOF)传感器数据来计算最佳NDOF,以使与模型和实测传感器数据匹配的联合概率最大化。
在一些实施例中,可以通过使信号的联合概率最大化来生成重建NDOF信号。p1(X)可以表示估计运动信号X与由移动记录器所记录的信号匹配的概率。如果移动记录器直接地记录NDOF测量结果,则X与所记录的信号越类似,p1(X)将越大,而X与所记录的信号越不同,p1(X)将越低。在一些实施例中,p1(X)是X与实测信号之间的距离的单调函数(例如,成反比)。如果移动记录器记录与NDOF测量结果间接地有关的数据,诸如测量旋转速度的IMU,则在与估计运动信号X相关联的NDOF测量结果与从所记录的数据中提取的NDOF测量结果类似的情况下p1(X)将较大。在一些实施例中,旋转速度的IMU测量结果等于X的角度的导数(其产生由X所引发的旋转速度)。p2(X)可以表示估计运动信号X由人类运动模型生成的概率,所述人类运动模型表示与在人体中发生多个移动的非均匀概率相对应的多个移动的时空表示的非均匀可能性。当运动在人类运动模型中有相对较大的概率(例如,诸如站着不动、步行这样的典型运动)时,p2(X)将相对较大;对于不可能的运动(例如,以超过1000度/秒的速度旋转),p2(X)将为零,而对于可能的但不太可能或不常见的运动,p2(X)将相对较低。可以通过使联合或对偶概率p1(X)*p2(X)最大化来生成重建NDOF信号,以根据测量结果和模型两者来获得具有最高联合概率的输出信号。在一些实施例中,为了减少运行时间、计算资源等,仅执行针对使p1(X)*p2(X)最大化的X的近似搜索而不是确切搜索。
在一些实施例中,人类运动模型可以被应用在移动记录器的直接输出上,并且由于使所记录的信号和人类运动模型的联合概率最大化,将直接输出变换成相同类型的数据但具有改进的质量。在一些实施例中,使用人类运动模型来将IMU的记录变换成修改的记录,所述修改的记录使原始IMU记录和根据人类运动模型的运动的联合概率最大化。在其他实施例中,表示NDOF的直接或间接估计的运动记录用于计算p1(X)(通过针对X计算间接测量结果并计算与运动记录的相似性),同时人类运动模型用于计算p2(X),并且通过使联合概率p1(X)*p2(X)最大化,从输入生成NDOF信号,而不要求计算不依靠人类运动模型的NDOF移动的初始步骤。在一些其他实施例中,可以将来自一个或多个传感器跟踪器的信息组合或融合成不依靠人类运动模型的NDOF的初始估计。然后基于X与初始NDOF的相似性来计算p1(X),同时人类运动模型用于计算p2(X)。可以通过使联合概率p1(X)*p2(X)最大化来生成最终NDOF信号。虽然符号“*”通常指代标量或矢量积,但是可以使用组成概率p1和p2(例如,加权和)的任何其他运算并且可以使用概率的任何其他函数(例如,概率的幂,诸如
Figure BDA0002485170900000051
)。
在一些实施例中,可以不显式地计算p1(X)、p2(X)或p1(X)*p2(X)中的一些或全部,仅计算至少近似地使p1(X)*p2(X)最大化的X。
可以基于移动记录的经更新或优化的NDOF时空表示来例如在头戴式显示器(HMD)或屏幕上显示虚拟、增强或混合现实图像。可以实时地渲染图像以基于其更新或优化的NDOF时空表示从用户的角度表示场景,或者使其更新或优化的NDOF时空表示可视化。
附加地或可替代地,人类移动模型可以用于将将来运动预测为要基于模型遵循当前运动的一个或多个最可能的候选运动。在该将来时间接收运动信息之前,VR、AR或MR设备可以渲染与所预测的将来运动相关联的图像,所述预测的将来运动在模型精确正确的情况下可以被(或可以不被)验证,在模型稍微不正确的情况下例如通过时间扭曲来修改,或者在模型完全不正确的情况下被丢弃。通过基于人类运动模型针对将来运动渲染图像,在记录关于那时的移动的任何信息之前,VR、AR或MR设备可以减少运动到光子等待时间。
人类运动模型可以是离散的或连续的。离散模型可以将一组候选移动分类为禁止类别与许可类别之间的运动可能性的许可的(例如,具有高于阈值概率的,在一组预定义允许移动的列表中,或者通过模型模拟或函数来定义)或禁止的(例如,具有低于阈值的概率,在预定义非许可移动的列表中,或者不通过模型模拟或函数来定义)和/或一个或多个附加离散范围、等级或类别的两个或更多个不同的(例如,互补和/或非交叠)集合。在一个实施例中,二元模型可以基于移动的概率是高于还是低于单个阈值来对移动进行分类。具有三个或更多个类别的离散模型可以使用多个阈值来将移动分类为多个等级,例如,从最不可能到最可能。在一些实施例中,模型可以是连续的,例如,定义移动的一个或多个连续概率或可能性。
人类移动模型可以是时间相关的以对人类运动或动力学(例如,轨迹、动量、加速度等)进行建模。时间相关性可以约束模型以基于来自一个或多个先前迭代或时间的输出在当前时间或迭代中确定经更新的NDOF时空表示的输出。在一个示例中,如果从先前NDOF到当前NDOF的向前运动的变化或导数指示用户正在高速跑,则下一次迭代中的运动估值将估计高于阈值的向前运动。
人类运动模型可以包括例如多项式模型、化身模型、隐马尔可夫模型、高斯混合模型、稀疏字典模型、移动语言模型和/或定义人类运动的任何其他模型。多项式模型可以通过n阶(例如,5阶)多项式来对人类运动或定位进行建模。化身模型可以定义人类的几何形状和约束(例如,作为骨骼),可以使用具有固定长度的骨骼、具有允许和非允许轨迹或弧的关节、可提供某些加速度的肌肉等来构建化身模型。隐马尔可夫模型可以将人类运动定义为一组“状态”,其中存在保持在每种状态下或者从一种状态转变为某些连接状态的概率(与不可能的运动相关联的一些状态转变是不允许的)。高斯混合模型可以将一组人类运动(例如,随着时间推移的位置和角度)定义为针对6DOF测量结果的一组六维高斯或针对NDOF测量结果(或其导数)的任何n维高斯的加权和的分布。稀疏字典模型可以包括定义运动的分量的基本集的“原子”或构造块的字典。每个实际的运动被表示为许多这些原子的组合。可以将字典的原子训练或预先确定为一组运动函数。移动语言模型可以定义一组基本运动(例如,“停留”,“向前移动”、“步行”、“跳跃”、“向右看”等),然后基于那些基本运动及其参数的组合(例如,向右看40度、以1m/s向前步行等)来组成实际的运动。
人类运动模型可以基于真实观察和实测的人类运动(例如,人类移动的视频记录)来生成,被模拟(例如,基于人类的计算机模型来生成),并且/或者使用神经网络或其他训练方法基于训练数据集(例如,真实或模拟的人类运动的训练数据集)来训练。
可以针对计算运动信号在各个阶段中(例如,在预处理中、在处理期间或在的后处理中)应用模型。在后处理阶段中,模型可以被应用于原始运动信号的输出以首先计算出6DOF估值,或者模型可以被应用于初始6DOF计算以改进或校正估计。在处理期间,可以将模型作为约束或作为成本函数来添加以用于优化运动估计(例如,通过惩罚来自模型的运动信号的成本、距离或误差或者与其根据模型的可能性成反比例地惩罚运动信号)。在预处理阶段中,模型可以用于调谐或设置硬件或软件参数,例如,以改进个别传感器的输出(诸如用于计算运动信号的IMU测量结果或其他原始传感器数据)的质量。
根据本发明的一些实施例,设备、系统或方法可以训练表示过去、当前或将来移动的一个或多个概率、参数、度量和/或规则的人类移动模型。在一个实施例中,可以例如在脱机阶段中基于一个或多个人类用户移动的记录的训练数据集来生成人类运动模型。在一个实施例中,人类运动模型可以在每次记录移动时再训练或递增每个移动的概率。附加地或可替代地,可以基于真实观察和实测的人类运动(例如,在研究设定中)模拟(例如,作为骨骼或化身模型)或生成模型。
可以以各种方式训练人类运动模型。最初,可以生成或获得训练数据集。训练数据集可以包括例如数千或数百万个训练信号。训练数据集可以包括有噪声的信号(例如,具有高于阈值的噪声水平)、稍微有噪声的信号(例如,具有低于阈值的非零噪声水平)和/或无噪声信号(例如,具有零或接近零噪声水平)中的一种或组合。有噪声的信号可以使用(例如,附加的或综合的)学习到的变换,所述变换将有噪声的信号映射到改进的信号。然后使用训练数据集来训练模型。训练过程可以取决于模型类型而变化。在一个实施例中,高斯混合模型可以将高斯的参数(例如,高斯数、均值、协方差、权重等)拟合到训练数据集,从而输出拟合最接近于输入信号的分布的高斯分布。在另一实施例中,稀疏字典模型(例如,K-SVD)可以包括一组原子。可以从初始字典开始发起迭代过程,所述初始字典可以是最佳拟合信号的一组函数(例如,不同频率中的cos和sin)。然后,模型可以使用字典中的函数来针对每个输入信号计算其构造(例如,同时迫使表示为稀疏的,例如,仅使用少量或最小数量的原子)。然后,可以修改每个原子以最佳拟合使用它的所有信号。可以重复此过程(例如,针对每个信号计算并更新原子),直到模型收敛或者执行了一定数量的迭代为止。
可以将人类移动模型聚类成用户特定模型,例如,对每个用户来说唯一且不同,以学习最可能被该特定用户执行的移动。可以通过在运行时使用期间收集用户的运动读数来训练用户特定模型。可以将人类移动模型聚类成用户组或用户类型特定模型,例如,对每个用户组或类型来说唯一且不同,诸如取决于年龄、身高、体重、性别等,以学习将最可能被特定组或类型的用户执行的移动。可以将人类移动模型聚类成任务特定模型,例如,对每个任务、游戏、界面、控制器或环境来说唯一且不同,以学习最可能针对特定任务的移动(例如,用户在玩保龄球游戏时与第一人称射击游戏不同地移动)。可以显式地或隐式地对模型进行聚类。在显式地聚类的模型中,模型数据可以与关联的聚类类别(例如,用户、组、年龄、任务等)显式地相关联并且基于所述关联的聚类类别被收集或分类。在隐式地聚类的模型中,可以将模型数据聚类成类似的移动或行为组(尽管未显式地定义类似的类别)。
一旦生成了模型,例如在联机或运行时阶段中操作的运动估计器就可以应用人类移动模型来将原始输入NDOF时空表示变换为移动记录的更新的NDOF时空表示以实时地估计当前人类运动或者预测将来人类运动。可以基于移动记录的经更新的NDOF时空表示来例如在头戴式显示器(HMD)或屏幕上显示虚拟、增强或混合现实图像。可以实时地渲染图像以基于其更新的NDOF时空表示以从用户的角度表示场景,或者使其更新的NDOF时空表示可视化。
运动估计模型通过提供关于如何能够和不能构造信号的先验信息来改进估计运动的准确度。在人类中,并非所有运动都有相同的发生概率。存在不可能的人类移动(例如,关节的极端加速或360°旋转)、非常稀有的一些移动以及非常常见的其他移动(例如,小角度头部枢转)。各种运动的概率的非恒定分布可以基于几何形状(例如,关节提供枢转点,骨骼作为刚体而移动等)或人体的不同部位之间的协调(例如,当步行时,头部通常沿着步行路径的轨迹被定向;当跌倒时,手臂通常伸出以支撑移位质心)。在常规模型中,不可能的运动被预测有与导致误差的常见运动相同的概率。
因为人类移动模型对不同的移动来说有非均匀概率分布,所以模型以比稀有或不可能的移动更大的概率估计常见移动,从而以更高的准确度估计运动(例如,与所有移动具有相等的发生概率的均匀或无移动模型相比)。进一步地,因为基于人类移动来生成模型,所以运动估计器反映人类特定运动限制和偏好并且因此将更准确地预测特定于人类的运动模式。特别地,当模型是用户特定的、组特定的或任务特定的时,运动估计器将更准确地反映该个别用户、组或任务的真实运动模式。随着软件准确度提高而实现此人类模型可以允许相对低精度硬件传感器(具有相对有限的准确度)以与相对高精度传感器相当的精度执行。这可以消除对通常用于提高准确度的更多传感器、较高精度传感器或更多功率的需要。因此,实现根据本发明的实施例的人类运动模型可以降低系统的成本、尺寸、功率、组件数和复杂度。
进一步地,人类移动模型可以通过消除不可能的运动候选、按比例缩小用于分析的候选和计算的数量来改进效率。人类移动模型可以具有与对用户来说不可能的、不大可能的或从不/很少记录的移动相对应的零(或近似零)概率或非许可的移动。运动估计器可以消除(或者通过设置为零来简化)针对这些零或低于阈值概率或非许可的移动的计算,从而显著地减少用于计算出运动估计计算的数量、复杂度、功耗和时间(例如,与必须评价所有运动的未训练的运动估计器相比)。这样的计算减少可以提高运动估计速度并减少运动到光子等待时间和延迟,例如,致使VR、AR和/或MR系统更快且更具响应性。等待时间减少可以进一步对应于将来运动预测的时标减少,这以指数方式改进运动预测准确度。
“移动”、“运动”或“移动性”可以指代其位置、定向、定位、定时、速度、速率、加速度、轨迹、动量或旋转分量中的任一个,或任何其他时空状态或动力学,或其组合或推导。可以针对用户的任何身体部位(例如,包括但不限于头部、眼睛(视线)、躯干、手臂、腿、手、整个身体和/或其任何组合)来记录移动。
“自由度”或“DOF”可以指代在三维空间中记录刚体的移动而沿着的独立轴的数量。DOF测量结果可以取自在单个时间的单个运动记录(用于静态移动)或在多个时间的多个运动记录(用于动态移动)。例如,NDOF可以沿着任何N个轴或维度测量其位置、定向、定位、速度、速率、加速度、轨迹、动量、旋转分量或其任何推导(例如,任何阶导数或积分)。在一些实施例中,在整数(N)DOF(NDOF)上记录移动。在一个示例中,结合通过绕三个垂直轴旋转(常常称为俯仰、偏航和横摇)的定向变化在NDOF(例如,在三个垂直轴上估计向前/向后(波动)、向上/向下(升降)、向左/向右(摇摆)平移的六DOF(6DOF))上记录移动。可以使用附加的或不同的轴来记录NDOF。NDOF测量结果可以表示N个维度的全部或部分子集(例如,仅沿着N个维度中的一个或多个的运动)。
“虚拟现实”或“VR”可以指代虚拟场景,其中场景的视点(POV)是基于用户的测量移动来确定的(例如,用户使其头部向左旋转使VR场景向左移位)。在一些实施例中,VR场景可以是完全虚拟的,例如,由模拟图形排他地组成(而没有真实世界图形或图像表示)。
“混合现实”或“MR”可以指代组合虚拟和真实世界场景,其中虚拟场景被叠加在真实世界场景的渲染视频流上。真实世界场景可以直接地遵循用户的移动(例如,真实世界场景由安装在用户的头戴式设备或身体的相机记录)并且可以将虚拟场景模拟成具有基于用户的移动而计算出的POV。
“增强现实”或“AR”可以指代组合虚拟和真实世界场景,其中虚拟场景被叠加在实际的(例如,非渲染的)真实世界场景上(例如,经由“透视”显示器(诸如光学透镜)查看或者在用户的眼睛和真实世界对象之间没有任何媒介设备)。虚拟场景和真实世界场景二者都对用户移动起反应—真实世界POV根据眼睛光学器件自然地变化,而虚拟POV通过更新与用户或头部移动的变化计算相对应的参考系来改变。
“头戴式显示器”或“HMD”可以指代例如经由诸如安全带、头盔、装备或遮阳板这样的安装设备安装到用户的头部的显示设备。在混合和增强现实(AR)平台中,HMD将虚拟对象的图像放置在用户的视场中的真实世界对象的图像(或透视光学器件)之上。在虚拟现实(VR)平台中,HMD在用户的视场中显示完全计算机生成的图像。经成像的场景被从与如由运动跟踪器所确定的用户的头部的NDOF相对应的视点渲染。现代HMD常常采用传感器进行六自由度(6DOF)(但是可以使用任何NDOF)监视,其允许系统将虚拟信息与物理世界对准并根据用户的头部移动来调整POV。
“脱机”阶段可以指代记录人类移动以便训练或生成人类移动模型(例如,图1A和图1B的150)的时间段。在一些实施例中,例如在VR、MR或AR系统中,那些人类移动未被用于在与那些移动相对应的参考系中渲染图像。在其他实施例中,训练数据集中的人类移动除了训练模型之外还可以被用于渲染图像。在训练被用于运行时渲染或者运行时数据被用于训练的实施例中,训练(脱机)阶段和运行时(联机)阶段可以同时地或在交叠时间期间执行。
“联机”或“运行时”阶段可以指代记录人类移动以便在与那些移动相对应的参考系中渲染并向用户显示图像的时间段,例如,基于在脱机阶段中生成的人类移动模型来确定。联机阶段可以紧跟脱机阶段的完成之后或者可以与其并行地运行。
基于运动(例如,NDOF)测量结果来渲染图像可以指代将运动测量结果直接地变换为用于渲染图像的图像数据(例如,图像的参考系或坐标、图像的视场或图像中的对象运动)或将运动测量结果间接地变换为图像数据(例如,将运动测量结果变换为中间运动或参数数据,诸如界标或3D环境的坐标,然后使用该界标或3D环境,进而以计算图像数据)。图像可以指代显示器或全息图上的帧。
本发明的一些实施例可以提供通过使用记录一个或多个人类的运动的真实世界数据来改进对人类用户的头部或其他身体部位的位置和定向(P&O)的实时估计的设备、系统或方法。改进对头部的P&O的估计还可以有助于估计通过眼睛的瞳孔的方向所确定的视线。
在使运动估计器适合人类的移动时,本发明的一些实施例利用如下事实:由于解剖和生理约束,人类移动限于仅所有可能的(例如,N=6)DOF移动的小子集。另外,人类移动可以呈现指定移动之间的时间相关统计关系。
为了实现此目的,可以根据本发明的一些实施例使用指示人类移动模式的数据以便改进对用户的当前或将来移动的估计。
由于解剖和生理原因,人类移动模式与例如一组无限制的三个万向节相比受很多限制,一个万向节被按正交枢转轴安装在另一个万向节上,从而限定所有6DOF运动。附加地,因为人体不是刚性的,所以多个身体部位(例如,头部、眼睛、手臂等)独立地移动,并且身体可能不通过单个N DOF集来表示。因此,一些实施例可以包括用于估计多个相应的身体部位的移动的多个模型(例如,头部运动模型、眼睛运动模型、身体运动模型等)。多个身体部位模型可以相互关联,例如,以预测多个身体部位的移动的组合的附加联合概率(例如,定义用户沿着眼睛视线的轨迹而不是在另一方向上移动手的较高联合概率)。
虽然从概率观点来看,单个N DOF集具有关于位置和定向的均匀概率分布函数(PDF),但是人体受更多限制,并且描述人类移动的PDF在性质上通常是非均匀的。通过记录人体的移动来训练的人类移动模型因此可以表示人类执行多种移动的非均匀概率。
参考图1A和图1B,图1A和图1B是依照本发明的一些实施例的分别处于脱机阶段和联机阶段的示例系统100A和100B的示意图示。在一些实施例中,图1A的系统100A可以在脱机或训练阶段中操作,而图1B的系统100B可以在联机或图像渲染阶段中操作,但是在其他实施例中,来自系统100A或100B的组件可以在联机阶段或脱机阶段中操作。系统100A和100B可以是相同或不同的系统。
系统100A和/或100B可以包括穿戴、附着或安装到用户10的虚拟现实(VR)、增强现实(AR)和/或混合现实(MR)设备110。用户设备110可以是例如在用户的视场中显示完全虚拟(VR)或部分虚拟(AR/MR)的模拟图形的VR、AR或MR头戴式设备或眼镜。用户设备110可以包括用于测量用户10的运动的一个或多个传感器,诸如头戴或手戴式相机、陀螺仪和/或加速度计。
系统100A和/或100B可以包括移动记录器120,所述移动记录器120包含用于测量用户10头部、手、视线、身体、身体部位和/或用户设备110(诸如头戴式设备、眼镜、手套等)的运动的一个或多个传感器。移动记录器120可以包括与用户设备110分离或在用户设备110外部的传感器,例如,对用户进行成像的一个或多个相机。附加地或可替代地,移动记录器120可以在操作上联接到用户设备110传感器。移动记录器120可以包括与用户设备110成一体/在用户设备110内部、与用户设备110分离/在用户设备110外部或与用户设备110成一体/在用户设备110内部和与用户设备110分离/在用户设备110外部的组合的传感器和组件。在一些实施例中,与用户设备110分离的移动记录器120(例如,相机)可以仅被用在图1A的脱机训练系统中而不用在图1B的联机图像渲染系统中。可替代地,外部移动记录器120可以被用在图1B的联机图像渲染系统中,而不是用于补充来自用户设备110的运动测量结果。
参考图1A,例如,在脱机或训练阶段中,移动记录器120被配置为测量至少一个人类用户10或者身体部位或者诸如附着到人类用户10或由人类用户10持有的用户设备110这样的对象的多个人类移动记录22,例如,V1(t)……VN(t),从而定义位置、定时、速度、速率、加速度、定向或其任何组合中的任一种。移动记录22可以定义移动的NDOF时空表示。脱机阶段中的移动记录22可以被连续地记录并且不需要(但是可以)与记录时间相关联。移动记录22可以被校准、分段、聚类、归一化或以其他方式处理并存储,例如,在数据库储存库或存储单元24中。移动记录22可以被从储存库24中采样或检索并通过由计算机处理器130A执行的分析模块140来分析。对于记录的序列,可以逐个地对个别记录执行存储和检索。
分析模块140可以分析移动记录22以例如在脱机或训练阶段中生成人类移动模型150,所述人类移动模型150定义关于个别人类或可替代地一组代表性人类如何被许可(和/或未许可)移动的规则、参数和/或约束。根据本发明的一些实施例,人类移动模型150可以包括基于由移动记录器120记录的用户10和/或用户设备110的移动记录22而生成的至少一个人类用户10的移动的时空表示。人类移动模型150可以定义与在人体中发生移动的非均匀概率相对应的移动的各种NDOF时空表示的非均匀概率。
可以根据若干实施例对移动的时空表示的人类移动模型150进行建模,所述若干实施例包括例如多项式模型、化身模型、隐马尔可夫模型、高斯混合模型、稀疏字典模型、移动语言模型和/或定义人类运动的任何其他模型。在一个实施例中,人类移动模型150可以定义移动(例如,加速度、速率和/或位置)的和/或不同身体部位(例如,头部、手、眼睛等)的单一或联合概率分布函数(PDF),诸如但不限于隐马尔可夫模型(HMM)。在一些实施例中,人类移动模型150可以定义移动(例如,加速度、速率和/或位置)的可能的联合值的限制(例如,排除运动)或稀疏性(例如,包括运动)。在一些实施例中,人类移动模型150可以通过字典来定义稀疏表示,在所述字典中在运行时期间记录的移动被表示为字典中的少量基本移动(“原子”)的组合。“原子”在训练阶段期间被生成为稀疏字典中的“单词”。在一些实施例中,可以使用一个或多个神经网络(NN)来训练人类移动模型150,其中根据包含“真实”或相对更好的信号的训练数据集来学习NN。在一个实施例中,当将移动输入到NN中时,NN将移动的分类输出为可能的或不可能的(二元模型)。在另一实施例中,当将移动输入到NN中时,NN将移动的分类输出为N个概率水平中的一个(例如,不可能的、低、中、高或任何其他类别)(离散模型)。在另一实施例中,当将移动输入到NN中时,NN输出移动的绝对或相对概率(连续模型)。在另一实施例中,当将移动输入到NN中时,NN根据模型和输入两者来输出具有最高概率的移动(例如,考虑输入数据和模型两者的联合概率)。
在一些实施例中,人类移动模型150可以包括定义(N个)DOF中的每一个上的移动的概率的概率分布函数(PDF)。概率分布函数(PDF)可以通过移动记录22来填充,例如,每次在移动记录22中描绘移动时递增每个移动的概率。概率分布函数(PDF)可以等同于移动记录22的原始填充分布,或者可以是其最佳拟合近似值。在一些实施例中,每个受监视的身体部位(例如,头部、眼睛等)可以具有独立或相互关联的概率分布函数(PDF)。概率分布函数(PDF)可以是非均匀的以表示具有优选移动和禁止移动二者的人类运动的非均匀性质。例如,用户的头部绕垂直轴旋转(例如,沿着颈部的长度居中)的概率分布函数(PDF)可以在零度旋转(例如,在静止时居中面向)时具有最大概率并且可以在+/-180°旋转(例如,头部完全在用户身后旋转的禁止或不可能的位置)时渐近地(例如,近似抛物线地、对数地或指数地)减小到最小(例如,零)概率。因为每个用户具有不同的移动模式和优选位置,所以基于移动记录22而生成的概率分布函数(PDF)对每个用户来说可以不同。在一些实施例中,人类移动模型150可以是非时间相关的,使得移动记录22不与当该移动被记录(例如,不带时间戳)时的时间相关联。在一些实施例中,人类移动模型150可以是表示沿着任何整数N个独立轴的运动的N DOF模型(例如,N=6)。
在一些实施例中,人类移动模型150可以是用户特定的,例如,定义特定于每个个别用户的移动,使得多个用户中的每一个均具有多个不同模型中的唯一相应的模型。这样的人类移动模型150可以由每个个别用户训练,从而形成对该用户唯一的用户特定“移动签名”。在一些实施例中,人类移动模型150可以特定于一组用户或一种类型的用户,例如,与特定移动风格、特定性格、特定活动、特定身体类型(诸如身高、年龄和/或体重范围)、特定性别等相关联。这样的人类移动模型150可以由那种类型或那组用户的一个或多个人类代表训练。在一些实施例中,用于所有用户的通用人类移动模型150可以由一个或多个代表性用户训练。在一些实施例中,人类移动模型150可以特定于某个界面、任务或游戏(例如,用户往往在执行不同的任务(诸如模拟保龄球与模拟射击游戏)时不同地移动)。训练用户10可以是在真实世界中移动的真实人类、人类的视频或被建模成像人类一样移动的虚拟化身。
参考图1B,例如,在联机或运行时阶段中,用户设备110和/或外部移动记录器120可以实时地记录用户的移动。联机阶段中的移动记录20可以被周期性地(例如,不连续地)记录并且可以是时间相关的,使得每个记录与当该移动被记录(例如,带时间戳)时的记录时间相关联。在一些实施例中,用户设备110(例如,VR、MR或AR头戴式设备)和移动记录器120(例如,对用户进行成像的相机)二者都可以在联机阶段中记录移动记录20,然而在其他实施例中,可以在联机阶段中仅使用用户设备110或仅使用移动记录器120。
在一些实施例中,可以将移动记录20连同来自人类移动模型150的度量一起直接地发送到人类移动估计器160,例如卡尔曼估计器,以执行运动估计。
附加地或可替代地,可以将移动记录20发送到分析模块140以在联机阶段中更新并训练人类移动模型150。在此类实施例中,可以将移动记录20例如并行地(例如,同时地)或依次(例如,非同时地)发送到分析模块140和人类移动估计器160两者。在一些顺序实施例中,当前迭代的移动记录22可以用于在当前迭代中更改人类移动模型150并估计运动,然而在一些并行实施例中,当前迭代的移动记录22可以在当前迭代中更改人类移动模型150但是仅用于在下一次迭代中估计运动。
由计算机处理器130B执行的人类移动估计器160可以将人类移动模型150应用于所接收到的实时用户移动记录20,其以相等概率(例如,在NDOF的所有N个维度上的相等概率)估计所有移动,以基于模型150中的移动的非均匀概率来生成更新的运动估值,例如,按人类特定移动模式而定制。运动估计可以是使与实测输入移动记录20匹配的概率(例如,p1)和与人类移动模型150匹配的概率(例如,p2)的联合概率(例如,p1*p2)最大化的一个或多个移动。运动估值可以输入在过去或当前记录时间t0记录的移动记录20以估计在当前记录时间t0的移动或者预测在目前或将来时间tN的可能的人类运动。对于运动预测,人类移动估计器160可以将用户在当前时间t0的实时移动与人类移动模型150相比较以估计在将来时间tN(例如,将来可能的位置、定时、速度、速率、加速度和/或定向)的一个或多个最可能的将来候选移动。多个最可能的当前或将来候选移动可以基于其可能性被排序并且/或者可以与置信值相关联。可替代地,可以选择单个最可能的或高于阈值可能性的移动。
根据本发明的一些实施例,可以单独或相结合地使用基于各种运动参数、身体部位、建模类型等的多个人类移动模型150中的每一个,以改进运动估计器160。在一些实施例中,PDF模型150可以用于通过整合模型150、噪声模型和运动测量结果来增强运动估计器,诸如卡尔曼估计器。在一些实施例中,NN模型150可以用于通过NN对移动记录或N DOF的一部分进行变换来增强运动估计器。运动估计器160可以代替或结合N DOF的真实移动记录使用经变换的结果。
人类移动估计器160可以估计模型150的所有N DOF上的运动。在一些实施例中,人类移动估计器160可以通过动态地调整运动估计的频率、所应用的模型150的数量或类型或者用于实时地估计运动的其他参数来优化性能,例如,以使系统速度和准确度平衡。例如,在图像渲染速度低于阈值的情况下,人类移动估计器160可以降低运动估计的频率以减少计算并提高图像渲染速度,然而人类移动估计器160可以在图像渲染速度高于阈值时提高运动估计的频率。
人类移动估计器160可以在联机阶段中将运动估计信息发送到图像渲染器170(例如,在用户设备110或诸如处理器130B这样的另一设备中)。图像渲染器170可以渲染与被估计或预测为在当前时间t0或将来时间tN发生的一个或多个移动相对应的一个或多个(M个)(例如,VR、AR或MR)图像。在人类移动估计器160输出多个(M个)候选移动的实施例中,图像渲染器170可以渲染与其相对应的(M个)图像的全部或仅子集。在一个实施例中,图像渲染器170可以以减小与将来候选移动相关联的可能性和/或置信值的顺序次序渲染图像。在其他实施例中,图像渲染器170可以并行地针对多个移动(例如,其全部或子集)渲染多个图像。在一些实施例中,图像渲染器170可以渲染与固定数量的将来候选移动相对应的图像(例如,前整数M个最可能的图像)。在一些实施例中,图像渲染器170可以例如基于动态地分配的计算资源的量来渲染与可变数量的将来候选移动相对应的可变数量M个图像。例如,当相对小的计算资源可用时,图像渲染器170可以渲染与单个或相对少的将来候选移动相对应的单个或相对少的图像,然而当相对大的计算资源可用时,图像渲染器170可以渲染与所有或相对较大数量的候选移动相对应的所有M个或相对较大数量的图像。
图像渲染器170可以例如基于在正好在显示tN-ε(例如,其中ε是用于计算用户的移动的最小运动到光子等待时间,诸如1-2ms)之前的时间记录的移动来向图像投影仪180(例如,在用户设备110或另一设备中)发送要在每个时间tN显示的图像。图像渲染器170可以向图像投影仪180发送与和所记录的移动或渲染图像匹配(或最紧密地匹配)或者从所记录的移动或渲染图像外推的候选移动相对应的渲染图像。图像显示器180可以在每个时间tN显示渲染图像。如果候选移动与实际检测到的移动匹配(或者在实际检测到的移动的阈值差内),则图像投影仪180将显示预测图像,或者可以适配(例如,时移)最接近的图像以更好地近似用户的真实运动。如果没有候选移动与实际检测到的移动匹配(或者大于实际检测到的移动的阈值差),则可以不使用运动估计并且图像投影仪180可以投影似乎不在合适位置(例如,与图像中的最佳位置相距mm和cm)的全息图,具有降低的稳定性(例如,产生抖动图像),或者在其他方面具有降级的准确度。
因为在所对应的移动被用户设备110在将来时间tN-ε检测到之前(例如,正好在时间tN显示图像之前)图像渲染器170在初始时间t0开始基于估计运动来渲染图像,所以所述图像与在没有运动估计的情况下渲染的图像相比具有较少的运动到光子等待时间。例如,运动估计将等待时间减少了图像渲染时间(诸如16ms),从而仅经历运动检测等待时间(诸如1ms的头部跟踪时间)。运动到光子等待时间的这种减少可以基于更近的移动(例如,在显示的ε例如1ms内)产生图像,例如,产生更具响应性的VR、AR和/或MR环境。附加地或可替代地,基于人类模型150生成估计运动与在不使用模型的情况下相比可以生成更准确的图像,因为人类模型150基于人类运动的子集或非均匀概率来预测移动,例如,优先考虑可能的或真实世界验证的人类运动而取消优先考虑相对不太可能的运动并且/或者消除不可能的运动(例如,用户的头部旋转360°)。附加地或可替代地,通过提高准确度,人类运动模型150可以与相对简单或低精度传感器和算法一起使用以实现与相对复杂或高精度传感器和算法相同或相当的性能。因为相对低精度传感器和算法通常使用较少的计算并按提高的速度而估计运动,所以人类运动模型150可以提高运动估计的速度和效率。附加地或可替代地,基于人类模型150生成估计运动可以显著地提高运动估计的速度,因为运动被以其可能性的次序考虑并且/或者仅分析高于阈值可能性或可能的运动的子集(例如,所有NDOF移动的子集)并且/或者不分析低于阈值可能性或不可能的运动,从而节约关联的计算努力、资源和时间。使用个别用户或用户组模型的实施例进一步提高了准确度和渲染速度,因为模型被训练来分析针对该特定用户或用户组验证的移动的子集。
用户设备110、移动记录器120、分析模块140、人类移动估计器160、图像渲染器170和/或图像投影仪180可以各自包括以下各项或者通过以下各项来实现:用于执行操作的一个或多个控制器或处理器,例如,图1A和图1B的处理器130A或130B;以及用于存储可由处理器执行的数据和/或指令(例如,软件)的一个或多个存储器单元,例如,图1A和图1B的储存库24。处理器可以包括例如中央处理单元(CPU)、数字信号处理器(DSP)、微处理器、控制器、芯片、微芯片、集成电路(IC)或者任何其他适合的多用途或特定处理器或控制器。用户设备110、移动记录器120、分析模块140、人类移动估计器160、图像渲染器170和/或图像投影仪180可以根据存储在一个或多个存储器单元(诸如储存库24)中的计算机代码来检索和/或存储数据和/或执行软件。存储器单元可以包括例如随机存取存储器(RAM)、动态RAM(DRAM)、闪速存储器、易失性存储器、非易失性存储器、高速缓存存储器、缓冲器、短期存储器单元、长期存储器单元或其他适合的存储器单元或存储单元。
图1A和图1B的系统可以包括附加组件(未示出),可以省略示出的组件,并且可以更改组件的布置。可以将被示出为单独的设备或组件组合成单个整体设备,并且可以将被示为集成在单个设备中的组件分成多个不同的设备。
人类移动模型150可以采取许多形式。由于解剖和生理原因,与例如一组无限制的三个万向节(一个万向节被按相互正交枢转轴安装在另一个万向节上)相比,人类移动模式可能显著地受限制。虽然从概率观点来看后者具有关于位置和定向的均匀概率分布函数(PDF),但是人体的移动受限制并且描述此类移动的PDF因此可以是非均匀的。
在一些实施例中,在从一个点到另一点发生某个移动的可能性可以取决于先前移动的意义上,可以定义人类的移动的可能性的PDF可以是滞后的。
在一些实施例中,人类移动模型150可以包括人类移动与由人类并发地执行的其他活动之间的相互依赖性。例如,个体在跑时与在坐时相比可以具有更受限制的头部移动。可以监视、分析两个或更多个移动(例如,跑和头部旋转)之间的概率关系,并且可以相应地生成联合概率模型或PDF。
依照本发明的一些实施例的产生人类移动模型150的脱机剖析过程可以是以基于目前时间中的位置、定向、速度和加速度中的至少一种使以下各项中的至少一种相关联的联合概率PDF的形式的:将来时间中的位置、定向、速度、旋转速度及加速度。
根据本发明的一些实施例,可以例如通过区分有效(许可的)移动(例如,具有非零PDF值)和无效(受限制的)移动(例如,具有零或约零PDF值)来分析人类移动模型150,以推导人类移动度量。
根据本发明的一些实施例,可以针对多个移动组中的每一个单独地计算出人类移动模型150。
根据本发明的一些实施例,可以通过对移动的部分的聚类的无监督学习来创建移动组,其中所述聚类可以包括具有类似模型的移动组。在一个实施例中,可以通过用一个或多个聚类参数(例如,用户类型、年龄、身高等)“标记”每个记录来显式地执行聚类。可替代地,可以通过自动地将记录的聚类生成到不同组中来隐式地执行聚类没有显式类别或参数与各记录相关联),所述不同组与同一组中的其他记录共享类似的行为并且具有与不同组中的其他记录不同的行为。可以基于这些聚类或组中的每一个来训练模型。在运行时期间,处理器(例如,图1B的130B)可以检测多个组中的哪一个或多个最类似于所记录的信号,并且可以使用针对特定组训练的模型来估计所记录的信号的运动。
根据本发明的一些实施例,可以通过对移动语言的监督学习来创建移动组。
根据本发明的一些实施例,移动组可以与以下各项中的一种或多种相关联:性别、年龄、体重、身高、柔韧性、移动风格、活动和性格。
根据本发明的一些实施例,可以例如通过对指示由至少一个人类用户进行的移动的时空表示的组合输入应用去噪函数来分析人类移动模型150,以推导人类移动度量。
根据本发明的一些实施例,可以从图像捕获设备(例如,移动记录器120)和定位设备(例如,用户设备110,诸如VR、MR或AR头戴式设备或眼镜)的组合或者该图像捕获设备和定位设备中的仅一个接收移动记录20和/或22。
根据本发明的一些实施例,可以通过监视由至少一个人类用户施加的多个移动并且基于预定义时空参考系分析移动来生成人类移动模型150。
根据本发明的一些实施例,一个或多个人类用户10可以包括多个人类用户,并且其中,所述方法进一步包含针对多个相应的人类用户生成多个人类移动模型的数据库。在一些实施例中,人类移动度量可以用于例如基于聚合所述多个人类移动模型的全部或子集(例如,与用户的组、类型或任务相关)的人类移动的广义模型来增强人类移动的估计器。
根据本发明的一些实施例,计算机处理器可以被进一步配置为基于由所述多个用户执行的不同类型的活动来对数据库进行聚类,并且聚合或使用与进行类似的移动的多个用户相对应的一个或多个模型聚类。
根据本发明的一些实施例,活动包含以下各项中的至少一种:躺、坐、站、步行和跑。
根据本发明的一些实施例,可以通过监视至少一个人类用户的多种姿势下的多个移动来生成人类移动模型150,以产生用户特定移动剖面,其中人类移动度量用于基于人类移动性的用户特定模型来增强人类移动的估计器。
根据本发明的一些实施例,姿势可以包括以下各项中的至少一种:躺、坐、站、步行和跑。
根据本发明的一些实施例,计算机处理器可以被进一步配置为将增强的估计器应用于包含人类用户的移动的至少一些度量的实时移动记录20。
根据本发明的一些实施例,可以使用以下各项中的至少一个来记录移动记录20和/或22:惯性测量单元(IMU);凝视检测器;头戴式跟踪系统;和外部跟踪系统。
参考图2,图2是依照本发明的一些实施例的用于基于虚拟、增强或混合现实环境中的人类移动模型来估计运动的示例方法200的流程图。方法200可以由虚拟、增强或混合现实设备中的一个或多个处理器执行。例如,操作210-230可以由图1A的处理器130A在脱机阶段中执行,而操作240-260可以由图1B的处理器130B在联机阶段中执行,但是还可以使用其他处理器或系统组件。
在一些实施例中,可以在脱机阶段中执行操作210-230如下:
在操作210中,一个或多个处理器可以获得一个或多个人类用户(例如,图1A和/或图1B的10)的人类运动数据(例如,图1A的记录22)。可以从移动记录器(例如,图1A的120)或者一个或多个存储器(例如,图1A的储存库24)获得人类运动数据。人类运动数据可以包括由一个或多个传感器记录的一个或多个人类用户的真实人类运动的记录。附加地或可替代地,人类运动数据可以包括人类运动的模拟计算机模型。
在操作220中,一个或多个处理器可以例如显式地基于诸如由多个用户执行的不同类型的活动这样的聚类参数或者隐式地基于类似的移动对人类运动数据进行聚类。聚类可以对为从由以下各项构成的组中选择的一个或多个参数所共有的数据进行分组:用户身份、年龄、性别、身高、体重、柔韧性、移动风格、活动和性格。
在操作230中,一个或多个处理器可以生成人类用户的一个或多个人类移动模型(例如,图1A和/或图1B的150)。人类移动模型可以指派与在一个或多个人类用户的人体中发生多个移动的非均匀概率相对应的所述多个移动的时空表示的非均匀概率。可以针对多个相应的聚类生成多个模型。可以将一个或多个人类移动模型存储在一个或多个存储器中。
在一些实施例中,可以通过机器学习来生成人类移动模型。在模型训练阶段中,一个或多个处理器可以接收一个或多个用户的移动记录的训练数据集,并且训练人类移动模型以基于在训练数据集中检测到的多个移动的实例的非均匀分布或频率来定义所述多个移动的时空表示的非均匀概率。
人类移动模型可以采取许多形式。在一些实施例中,人类移动模型可以在移动的时空表示的许可、禁止或其他类别的一个或多个离散集合之间区分用户移动。在一些实施例中,人类移动模型定义移动的时空表示的一个或多个连续概率。在一些实施例中,人类移动模型具有时间相关性,所述时间相关性至少部分地基于来自一个或多个先前时间或迭代的NDOF时空表示来确定在当前时间或迭代的NDOF时空表示。在一些实施例中,人类移动模型是基于真实和/或模拟人类移动的训练数据集来训练的神经网络。在一些实施例中,可以通过一个或多个n阶多项式来表示人类移动模型。在一些实施例中,人类移动模型可以是一个或多个人类化身。在一些实施例中,人类移动模型可以是以保持在每种状态下或转变为连接状态的概率将人类运动定义为状态的隐马尔可夫模型。在一些实施例中,人类移动模型可以是将人类运动定义为表示NDOF时空表示的一组N维高斯的加权和的分布的高斯混合物模型。在一些实施例中,人类移动模型可以是包含分量运动的构造块的字典的稀疏字典模型。在一些实施例中,人类移动模型可以是定义被组成为更复杂的人类运动的基本人类运动的移动语言模型。
在一些实施例中,可以在联机或实时阶段中执行操作240-260如下:
在操作240中,一个或多个处理器可以从一个或多个移动记录器接收测量用户的移动的移动记录。操作210和/或240中的移动记录器可以包括以下各项中的一个或多个:惯性测量单元(IMU)、凝视检测器、头戴式跟踪系统、手戴式跟踪系统、外部跟踪系统和图像捕获设备。
在操作250中,一个或多个处理器可以估计通过多个(N个)自由度(DOF)的时空表示所表示的用户的一个或多个移动。可以确定所估计的移动,所估计的移动至少近似地使联合概率p1*p2最大化,所述联合概率p1*p2包含实测移动与估计移动匹配的第一概率p1和人类移动模型指派给估计移动的时空表示的第二概率p2(例如,人类根据模型产生实测移动的可能性)。在一些实施例中,联合概率可以包括附加概率p3、p4、…、pN。在一个实施例中,附加概率可以特定于多个身体部位特定子模型中的每一个,所述多个身体部位特定子模型相互关联以基于定义多个身体部位的移动的组合的附加概率来预测联合概率。在一个实施例中,附加概率可以基于其在过去或目前时间中的位置、定向、速度和加速度或旋转分量中的至少一种来表示以下各项中的至少一种:其在目前或将来时间中的位置、定向、速度和加速度或旋转分量。
在一些实施例中,一个或多个处理器可以接收估计移动的多个(N个)自由度(DOF)的初始时空表示并且应用人类移动模型来将初始NDOF时空表示变换为估计移动的更新的NDOF时空表示。在其他实施例中,可以将人类移动模型应用于原始运动数据以首先生成估计移动的NDOF时空表示。
估计移动可以表示当前运动或者可以预测来估计将来运动。例如,可以将人类移动模型应用于用户移动以基于在当前时间记录的移动来预测被估计为在将来时间发生的移动。附加地或可替代地,可以应用人类移动模型来校正过去的用户移动,例如,以改进3D界标或模型。
在实施例中,当在操作240中使用多种不同类型的记录器的组合时,NDOF时空表示可以是从多种不同类型的移动记录器记录的数据的融合。
在操作260中,一个或多个处理器可以显示基于估计移动的NDOF时空表示直接地或间接地渲染的虚拟、增强或混合现实图像。对于间接渲染,可以通过附加运动估计器(例如,卡尔曼滤波器)进一步处理NDOF测量结果或者为然后用于渲染虚拟图像的附加对象(例如,界标或环境)生成运动数据。
可以使用其他操作,可以添加附加操作(例如,操作250中的NDOF估计由中间运动估计器附加地处理以在操作260中间接地产生图像渲染),可以省略操作(例如,聚类操作220),并且可以在图2的方法200中重新布置操作的次序。
方法和系统被提供用于使用移动模型来改进对人类移动的估计。方法可以包括:在脱机阶段中,获得至少一个人类用户的人类移动记录,其中,所述人类移动记录指示由所述至少一个人类用户执行的移动的时空表示;分析所述移动记录,以推导人类移动模型;以及使用从所述人类移动模型推导的度量来增强人类移动的估计器,其中,移动估计器被配置为基于联机阶段中的瞬时人类移动记录来估计由所述至少一个人类用户在将来时间执行的将来人类移动。
前述流程图和框图图示了根据本发明的各种实施例的系统和方法的可能的实施方案的架构、功能性和操作。在这方面,流程图或框图中的每个框可以表示代码的模块、段或部分,所述代码可以包含用于实现所指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中指出的功能可不按图中指出的次序发生或者通过不同的模块发生。除非显式地陈述,否则本文描述的方法实施例不局限于特定次序或顺序。附加地,所描述的方法实施例或其要素中的一些可在同一时间点发生或被执行。可通过执行所指定的功能或行为的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合。
本发明的实施例可以包括诸如非暂时性计算机或处理器可读介质的物品,或者计算机或处理器非暂时性存储介质,诸如例如存储器、磁盘驱动器或USB闪速存储器,其对指令(例如,计算机可执行指令)进行编码(包括或存储指令),所述指令当由处理器或控制器执行时,执行本文公开的方法。
在以上描述中,实施例是本发明的示例或实施方案。“一个实施例”、“实施例”或“一些实施例”的各种出现不一定都指代相同的实施例。尽管可以在单个实施例的上下文中描述本发明的各种特征,然而还可以单独地或按照任何适合的组合提供实施例的特征。相反地,尽管为了清楚可以在本文中可以在单独的实施例的上下文中描述本发明,然而还可以在单个实施例中实现本发明。在说明书中对“一些实施例”、“实施例”、“一个实施例”或“其他实施例”的引用意味着连同这些实施例一起描述的特定特征、结构或特性被包括在本发明的至少一些实施例而不一定是所有实施例中。应进一步认识到的是,在本发明的实施例中,在上文描述的本发明的各方面可以被组合或者以其他方式共存于本发明的实施例中。
权利要求和说明书中呈现的描述、示例、方法和材料不应被解释为限制性的,而是相反被解释为仅说明性的。虽然已在本文中图示并描述了本发明的某些特征,但是本领域的普通技术人员可以想到许多修改、替换、改变和等同物。因此,应当理解的是,所附的权利要求旨在涵盖如落入本发明的真实精神内的所有此类修改和改变。
虽然已相对于有限数量的实施例描述了本发明,但是这些不应该被解释为对本发明的范围的限制,而是相反被解释为优选实施例中的一些的例证。其他可能的变化、修改和应用也在本发明的范围内。本文公开了不同的实施例。某些实施例的特征可以与其他实施例的特征组合;因此某些实施例可以是多个实施例的特征的组合。

Claims (15)

1.一种用于基于虚拟、增强或混合现实环境中的人类移动模型来估计移动的方法,所述方法包括:
在虚拟、增强或混合现实设备中:
存储人类移动模型,所述人类移动模型指派与在人体中发生多个移动的非均匀概率相对应的所述多个移动的时空表示的非均匀概率;
从一个或多个移动记录器接收测量用户的移动的移动记录;
估计通过多个(N个)自由度(DOF)的时空表示所表示的所述用户的一个或多个移动,所述移动使包含实测移动与所估计的移动匹配的第一概率和所述人类移动模型指派给所估计的移动的时空表示的第二概率的联合概率最大化;以及
显示基于所估计的移动的NDOF时空表示而渲染的虚拟、增强或混合现实图像。
2.根据权利要求1所述的方法,所述方法包括:
接收所估计的移动的多个(N个)自由度(DOF)的初始时空表示;以及
应用所述人类移动模型以将所述初始NDOF时空表示变换为所估计的移动的更新的NDOF时空表示。
3.根据权利要求1所述的方法,所述方法包括,在模型训练阶段中:
接收一个或多个用户的移动记录的训练数据集;以及
训练所述人类移动模型以基于在所述训练数据集中检测到的多个移动的实例的非均匀分布来定义所述多个移动的时空表示的非均匀概率。
4.根据权利要求1所述的方法,所述方法包括应用所述人类移动模型以基于在当前时间记录的移动来预测被估计为在将来时间发生的移动。
5.根据权利要求1所述的方法,其中,所述人类移动模型在移动的时空表示的许可、禁止或其他类别的一个或多个离散集合之间区分用户移动。
6.根据权利要求1所述的方法,其中,所述人类移动模型定义移动的时空表示的一个或多个连续概率。
7.根据权利要求1所述的方法,其中,所述人类移动模型具有时间相关性,所述时间相关性至少部分地基于来自一个或多个先前时间或迭代的NDOF时空表示来确定在当前时间或迭代的NDOF时空表示。
8.根据权利要求1所述的方法,其中,所述人类移动模型包括多个身体部位特定子模型,所述多个身体部位特定子模型相互关联以基于定义多个身体部位的移动的组合的附加概率来预测所述联合概率。
9.根据权利要求1所述的方法,其中,所述人类移动模型特定于选自由以下各项构成的组中的一个或多个参数:用户身份、年龄、性别、身高、体重、柔韧性、移动风格、活动和性格。
10.根据权利要求1所述的方法,其中,所述人类移动模型包括选自由以下各项构成的组中的一种或多种数据结构:基于真实或模拟的人类移动的训练数据集而训练的神经网络、n阶多项式、人类化身、以保持在每种状态下或转变为连接状态的概率将人类运动定义为状态的隐马尔可夫模型、将人类运动定义为表示NDOF时空表示的一组N维高斯的加权和的分布的高斯混合模型、包含分量运动的构造块的字典的稀疏字典模型、以及定义被组成为更复杂的人类运动的基本人类运动的移动语言模型。
11.根据权利要求1所述的方法,所述方法包括基于真实人类运动的记录或人类运动的计算机模型来生成所述人类运动模型。
12.根据权利要求1所述的方法,其中,所述人类移动模型通过基于在过去或目前时间中的位置、定向、速度和加速度或旋转分量中的至少一种使以下各项中的至少一种相关联的附加概率来表示所述联合概率:在目前或将来时间中的位置、定向、速度和加速度或旋转分量。
13.根据权利要求1所述的方法,其中,所述一个或多个移动记录器是从由以下各项构成的组中选择的:惯性测量单元(IMU)、凝视检测器、头戴式跟踪系统、手戴式跟踪系统、外部跟踪系统和图像捕获设备。
14.根据权利要求1所述的方法,其中,所述NDOF时空表示是从多种不同类型的移动记录器记录的数据的融合。
15.一种系统,所述系统包括:
一个或多个存储器,所述一个或多个存储器用于存储根据前述权利要求中的任一项的数据;以及
一个或多个处理器,所述一个或多个处理器用于执行根据前述权利要求中的任一项的方法。
CN201880072802.XA 2017-11-10 2018-11-06 用于使用人类运动模型来改进运动估计的设备、系统和方法 Pending CN111417953A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762584257P 2017-11-10 2017-11-10
US62/584,257 2017-11-10
PCT/IL2018/051179 WO2019092698A1 (en) 2017-11-10 2018-11-06 Device, system and method for improving motion estimation using a human motion model

Publications (1)

Publication Number Publication Date
CN111417953A true CN111417953A (zh) 2020-07-14

Family

ID=66438278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880072802.XA Pending CN111417953A (zh) 2017-11-10 2018-11-06 用于使用人类运动模型来改进运动估计的设备、系统和方法

Country Status (3)

Country Link
US (1) US11100314B2 (zh)
CN (1) CN111417953A (zh)
WO (1) WO2019092698A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113133779A (zh) * 2021-05-19 2021-07-20 山东新华医疗器械股份有限公司 一种智能控制型ct机

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962780B2 (en) * 2015-10-26 2021-03-30 Microsoft Technology Licensing, Llc Remote rendering for virtual images
US11900239B2 (en) 2019-07-01 2024-02-13 Alibaba Group Holding Limited Systems and methods for accelerating sparse neural network execution
US20210035326A1 (en) * 2019-08-02 2021-02-04 Tokyo Institute Of Technology Human pose estimation system
US11315326B2 (en) * 2019-10-15 2022-04-26 At&T Intellectual Property I, L.P. Extended reality anchor caching based on viewport prediction
EP3936978B1 (en) * 2020-07-08 2023-03-29 Nokia Technologies Oy Object display
US20220262010A1 (en) * 2021-02-17 2022-08-18 Ember Tech LLC Biomechanical tracking and feedback system
US11127131B1 (en) * 2021-02-22 2021-09-21 Marc Michael Thomas Systems and methods to assess abilities of two or more individuals to perform collective physical acts
SE544895C2 (en) * 2021-05-10 2022-12-20 Gazelock AB Data and command transmission system, computer-implemented method of transmitting data and commands, computer program and non-volatile data carrier
US20240096033A1 (en) * 2021-10-11 2024-03-21 Meta Platforms Technologies, Llc Technology for creating, replicating and/or controlling avatars in extended reality
CN114827575B (zh) * 2022-03-10 2024-04-30 晋江市博感电子科技有限公司 一种vr显示控制方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101579238A (zh) * 2009-06-15 2009-11-18 吴健康 人体运动捕获三维再现系统及其方法
CN102156994A (zh) * 2011-04-19 2011-08-17 上海摩比源软件技术有限公司 一种单视角无标记人体运动跟踪的关节定位方法
US20110256914A1 (en) * 2005-07-25 2011-10-20 Ahdoot Ned M Interactive games with prediction and plan with assisted learning method
CN102707806A (zh) * 2012-05-18 2012-10-03 北京航空航天大学 一种基于加速度传感器的运动识别方法
US20130006577A1 (en) * 2010-03-15 2013-01-03 Bae Systems Pic Target tracking
CN105404393A (zh) * 2015-06-30 2016-03-16 指点无限(美国)有限公司 低延迟虚拟现实显示系统
US20170123487A1 (en) * 2015-10-30 2017-05-04 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
US20170136296A1 (en) * 2015-11-18 2017-05-18 Osvaldo Andres Barrera System and method for physical rehabilitation and motion training

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8026931B2 (en) * 2006-03-16 2011-09-27 Microsoft Corporation Digital video effects
US9372979B2 (en) * 2011-01-07 2016-06-21 Geoff Klein Methods, devices, and systems for unobtrusive mobile device user recognition
US9195309B2 (en) * 2011-05-27 2015-11-24 Qualcomm Incorporated Method and apparatus for classifying multiple device states
US9058663B2 (en) * 2012-04-11 2015-06-16 Disney Enterprises, Inc. Modeling human-human interactions for monocular 3D pose estimation
US10521671B2 (en) * 2014-02-28 2019-12-31 Second Spectrum, Inc. Methods and systems of spatiotemporal pattern recognition for video content development

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110256914A1 (en) * 2005-07-25 2011-10-20 Ahdoot Ned M Interactive games with prediction and plan with assisted learning method
CN101579238A (zh) * 2009-06-15 2009-11-18 吴健康 人体运动捕获三维再现系统及其方法
US20130006577A1 (en) * 2010-03-15 2013-01-03 Bae Systems Pic Target tracking
CN102156994A (zh) * 2011-04-19 2011-08-17 上海摩比源软件技术有限公司 一种单视角无标记人体运动跟踪的关节定位方法
CN102707806A (zh) * 2012-05-18 2012-10-03 北京航空航天大学 一种基于加速度传感器的运动识别方法
CN105404393A (zh) * 2015-06-30 2016-03-16 指点无限(美国)有限公司 低延迟虚拟现实显示系统
US20170123487A1 (en) * 2015-10-30 2017-05-04 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
US20170136296A1 (en) * 2015-11-18 2017-05-18 Osvaldo Andres Barrera System and method for physical rehabilitation and motion training

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
乔少杰;金琨;韩楠;唐常杰;格桑多吉;LOUIS ALBERTO GUTIERREZ;: "一种基于高斯混合模型的轨迹预测算法", 软件学报, no. 05, 15 May 2015 (2015-05-15), pages 1048 - 1063 *
王传旭;刘云;: "基于时空运动特征的运动姿态视频检索方法", 数据采集与处理, no. 03, 15 May 2011 (2011-05-15), pages 339 - 346 *
陈靖, 王涌天, 施琦, 闫达远: "基于视觉的增强现实运动跟踪算法", 计算机应用研究, no. 02, 28 February 2002 (2002-02-28), pages 15 - 21 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113133779A (zh) * 2021-05-19 2021-07-20 山东新华医疗器械股份有限公司 一种智能控制型ct机

Also Published As

Publication number Publication date
US11100314B2 (en) 2021-08-24
WO2019092698A1 (en) 2019-05-16
US20200226357A1 (en) 2020-07-16

Similar Documents

Publication Publication Date Title
US11100314B2 (en) Device, system and method for improving motion estimation using a human motion model
US11379287B2 (en) System and method for error detection and correction in virtual reality and augmented reality environments
KR102478026B1 (ko) 반복 신경망들을 통한 포즈 예측
Memo et al. Head-mounted gesture controlled interface for human-computer interaction
US10394318B2 (en) Scene analysis for improved eye tracking
EP2724318B1 (en) Fully automatic dynamic articulated model calibration
US9613298B2 (en) Tracking using sensor data
US8953844B2 (en) System for fast, probabilistic skeletal tracking
US10181193B2 (en) Latency reduction in camera-projection systems
JP2022510843A (ja) アバタ移動のためのマルチモードの手の場所および配向
CN112614213A (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
US10990170B2 (en) Eye tracking method, electronic device, and non-transitory computer readable storage medium
CN111295714B (zh) 在虚拟环境中使用高精度传感器数据来训练低精度传感器数据以进行对象定位的双精度传感器系统
CN115244495A (zh) 针对虚拟环境运动的实时式样
US20220207831A1 (en) Simulated control for 3- dimensional human poses in virtual reality environments
CN115280367A (zh) 具有改进的姿态跟踪的运动学交互系统
WO2022140540A1 (en) Simulated control for 3-dimensional human poses in virtual reality environments
CN116700471A (zh) 一种增强虚拟现实系统用户体验的方法及系统
US20230083619A1 (en) Method and system of global position prediction for imu motion capture
US20240257382A1 (en) Joint rotation/location from egocentric images
US20240282028A1 (en) Reducing domain shift in neural motion controllers
CN116030166A (zh) 动画数据生成方法和装置、介质和计算机设备
Guo et al. An Online Full‐Body Motion Recognition Method Using Sparse and Deficient Signal Sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230410

Address after: Room 516, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba Dharma Institute (Hangzhou) Technology Co.,Ltd.

Address before: 3 / F, No.20, galiarehapura, helzria, Israel

Applicant before: Alibaba (Israel) Technology Co.,Ltd.