CN112148118A

CN112148118A - 生成物理环境中的人的姿势信息

Info

Publication number: CN112148118A
Application number: CN202010542574.7A
Authority: CN
Inventors: A·奥尔; S·B·克诺尔
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-06-27
Filing date: 2020-06-15
Publication date: 2020-12-29
Anticipated expiration: 2040-06-15
Also published as: CN112148118B; US20220207772A1; US11315287B2; US20200410713A1

Abstract

本公开涉及生成物理环境中的人的姿势信息。本文所公开的各种实施方式包括用于生成物理环境中的人的身体姿势信息的设备、系统和方法。在各种实施方式中，一种设备包括环境传感器、非暂态存储器以及与该环境传感器和该非暂态存储器耦接的一个或多个处理器。在一些实施方式中，一种方法包括经由该环境传感器获得对应于物理环境的空间数据。该物理环境包括人和固定空间点。该方法包括识别该空间数据的对应于该人的身体部分的一部分。在一些实施方式中，该方法包括基于该空间数据的该部分来确定该身体部分相对于该固定空间点的位置。在一些实施方式中，该方法包括基于身体部分相对于该固定空间点的该位置来生成该人的姿势信息。

Description

生成物理环境中的人的姿势信息

相关申请的交叉引用

本申请要求于2019年6月27日提交的美国临时专利申请号62/867,568的权益，该申请据此全文以引用方式并入。

技术领域

本公开整体涉及生成物理环境中的人的姿势信息。

背景技术

一些设备能够呈现计算机生成的现实(CGR)体验。例如，一些头戴式设备(HMD)向HMD的用户呈现沉浸式CGR体验。一些CGR体验要求知道用户的身体姿势。例如，一些CGR体验呈现用户的化身，该化身模仿用户的行为。如果用户使他/她的身体的一部分移动，则化身使对应部分移动。在此类CGR体验中，呈现准确化身要求知道用户的身体姿势。在一些CGR体验中，CGR体验基于用户的身体姿势来进行更改。例如，随着用户移动，所呈现的CGR环境的视角也会改变。在此类CGR体验中，提供现实CGR体验要求知道用户的身体姿势。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1A至图1B是根据一些实施方式的示例性操作环境的图示。

图2是根据一些实施方式的示例性系统的框图。

图3是根据一些实施方式的示例性神经网络的框图。

图4A至图4C是根据一些实施方式的生成姿势信息的方法的流程图表示。

图5是根据一些实施方式的生成姿势信息的设备的框图。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种实施方式包括用于生成物理环境中的人的身体姿势信息的设备、系统和方法。在各种实施方式中，设备包括环境传感器、非暂态存储器以及与环境传感器和非暂态存储器耦接的一个或多个处理器。在一些实施方式中，方法包括经由环境传感器获得对应于物理环境的空间数据。在一些实施方式中，物理环境包括人和固定空间点。在一些实施方式中，该方法包括识别空间数据的对应于人的身体部分的一部分。在一些实施方式中，该方法包括基于空间数据的部分来确定身体部分相对于固定空间点的位置。在一些实施方式中，该方法包括基于身体部分相对于固定空间点的位置来生成人的姿势信息。

根据一些具体实施，设备包括一个或多个处理器、非暂态存储器以及一个或多个程序。在一些具体实施中，一个或多个程序存储在非暂态存储器中并由一个或多个处理器执行。在一些具体实施中，一个或多个程序包括用于执行或促使执行本文描述的任何方法的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，该指令当由设备的一个或多个处理器执行时使该设备执行或导致执行本文所述方法中的任一种。根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器，以及用于执行或导致执行本文所述方法中的任一种的装置。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

物理环境是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

相反，计算机生成现实(CGR)环境是指人们经由电子系统感知和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，该音频对象创建3D或空间音频环境，该3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。

虚拟现实(VR)环境是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致运动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。

增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置成在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特征的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的位置的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置成接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个具体实施中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置成将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

本公开提供了用于生成物理环境中的人的姿势信息的方法、系统和/或设备。基于在物理环境中人的身体部分相对于固定空间点的位置来生成姿势信息。固定空间点可包括物理物品(例如，物理环境中的真实对象)或物理边界表面(例如，地板、墙壁或天花板)。由于已知固定空间点，因此身体部分相对于固定空间点的位置指示人的身体姿势。多个身体部分相对于固定空间点的位置可提高身体姿势的准确性。

图1A是根据一些实施方式的示例性操作环境10的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作环境10包括具有人110、电子设备120和控制器150的物理环境100。在图1A中，控制器150被示出为与电子设备120分离。然而，在一些实施方式中，控制器150集成到电子设备120中。在图1A的示例中，电子设备120被人110握持。在一些实施方式中，电子设备120包括手持式设备。在一些实施方式中，电子设备120包括智能电话、平板电脑、膝上型计算机等。

在各种实施方式中，电子设备120包括人110可穿戴的可穿戴计算设备。例如，在一些实施方式中，电子设备120包括穿戴在人110的腕部上的电子手表。在一些实施方式中，电子设备120包括附接到人110的不同身体部分的一组一个或多个可穿戴计算设备。例如，在一些实施方式中，电子设备120包括附接到(例如，穿戴在)人110的左脚的左脚设备(例如，左脚相机)、附接到人110的右脚的右脚设备(例如，右脚相机)、附接到人110的右臂的右臂设备(例如，右臂相机)、附接到人110的左臂的左臂设备(例如，左臂相机)和/或附接到人110的头部112的可头戴设备。在一些实施方式中，电子设备120和/或控制器150存储指示人110的至少一个身体部分(例如，头部112)相对于电子设备120的相对位置(例如，相对定位和/或相对取向)的位置信息。

在图1A的示例中，物理环境100包括一组一个或多个固定空间点。在一些实施方式中，固定空间点是指物理环境100的物理边界表面(例如，物理边界)。例如，物理环境100包括地板102、侧壁104和前壁106。地板102、侧壁104和前壁106包括许多固定空间点。在一些实施方式中，固定空间点是指物理环境100中的物理物品(例如，真实对象)。例如，物理环境100包括安装在前壁106上的电视机108以及沙发109。电视机108和沙发109包括许多固定空间点。在各种实施方式中，固定空间点是指物理环境100中的已知且可检测的地理坐标。

在一些实施方式中，电子设备120包括相机122(例如，前置相机或后置相机)。相机122具有视场124。在图1A的示例中，视场124捕获人110的头部112、地板102的一部分、前壁106和电视机108。相机122捕获图像126，该图像包括在相机122的视场124中的对象的表示。因此，图像126包括头部112、地板102的一部分、前壁106和电视机108的表示。在一些实施方式中，控制器150获得由相机122捕获的图像126。

在一些实施方式中，电子设备120包括共同地捕获有关物理环境100和人110的环境数据的一组两个或更多个环境传感器(例如，图像传感器诸如相机，例如相机122和另一个相机(未示出)，和/或深度传感器诸如深度相机)。在一些实施方式中，环境传感器中的一个(例如，相机122)捕获与人110相关联的环境数据，并且环境传感器中的另一个(例如，另一个相机或深度传感器)捕获与物理环境100相关联的环境数据。例如，相机122捕获人110的图像，并且另一个相机(未示出)捕获物理环境100的图像。在该示例中，由另一个相机捕获的图像可不包括对应于人110的像素。

参照图1B，在一些实施方式中，控制器150利用图像126来生成人110的姿势信息152。在一些实施方式中，姿势信息152指示人110在物理环境100内的位置。在一些实施方式中，姿势信息152指示人110在物理环境100内的定位。例如，姿势信息152指示人110在沙发109附近。在一些实施方式中，姿势信息152指示人110在物理环境100内的取向。例如，姿势信息152指示人110正站在沙发109附近。在一些实施方式中，姿势信息152指示人110的各种身体部分的位置(例如，定位和/或取向)。例如，姿势信息152指示人110的头部112向上倾斜了多个角度。

在一些实施方式中，控制器150利用与图像处理相关联的方法、设备和/或系统来生成姿势信息152。在一些实施方式中，控制器150利用与摄影测量法相关联的方法、设备和/或系统来生成姿势信息152。在图1B的示例中，控制器150利用图像126来确定在人110与前壁106之间存在水平距离HD。由于沙发109也与前壁106相距水平距离HD，因此控制器150确定人110在沙发109附近。控制器150还确定在头部112的顶部与电视机108的底部之间存在竖直距离VD。基于竖直距离VD，控制器150确定人110正站着还是坐着。例如，如果竖直距离VD大于阈值T，则控制器150确定人110正坐在沙发109上。然而，如果竖直距离VD小于阈值T，则控制器150确定人110正站在沙发109附近。在图1B的示例中，竖直距离VD小于阈值T。因此，控制器150确定人110正站着而不是坐着。因此，在图1B的示例中，姿势信息152指示人110正站在沙发109附近。

在一些实施方式中，图像126不包括对应于人110的身体部分的像素。例如，如果相机122向上对着物理环境100的天花板，则头部112可能不在相机122的视场124中。在一些实施方式中，控制器150基于在物理环境100中电子设备120相对于固定空间点的相对位置来确定姿势信息152。例如，如果相机122对着天花板并且图像126不包括对应于人110的像素，则控制器150基于在电子设备120与人110的身体部分之间的已知空间关系来确定姿势信息152。例如，如果已知空间关系是在头部112与相机122之间的第一距离，并且图像126指示在天花板与相机122之间的第二距离，则控制器150可基于第一距离和第二距离来确定在头部112与天花板之间的第三距离。在该示例中，控制器150可基于第三距离来确定人110正坐在沙发109上还是站着，并且姿势信息152可指示人110正坐着还是站着。

在一些实施方式中，电子设备120的环境传感器(例如，相机122)在不同时间(例如，在不同传感器帧中，例如在不同图像帧中)捕获在物理环境100中的人110的身体部分(例如，头部112)和固定空间点(例如，前壁106)。例如，相机122在第一时间(例如，在第一图像帧中)捕获头部122，并且在不同于第一时间的第二时间(例如，在第二图像帧中)捕获前壁106。在一些实施方式中，控制器150基于在不同时间捕获的环境数据来确定(跟踪)身体部分相对于固定空间点的位置，并且基于身体部分相对于固定空间点的位置来生成姿势信息152。

在一些实施方式中，控制器150确定固定空间点。例如，在一些实施方式中，控制器150生成物理环境100的语义构造并将物理环境100中的特定地理坐标分配为固定空间点。在一些实施方式中，固定空间点与指示固定空间点的一个或多个特性的语义标签相关联(例如，该语义标签指示固定空间点是地板还是桌子)。在一些实施方式中，控制器150获得(例如，生成、检索或接收)语义标签。

在一些实施方式中，固定空间点与一组两个或更多个坐标(例如，三个坐标)相关联，并且控制器150利用该组两个或更多个坐标的子组。例如，在一些实施方式中，控制器150利用一组两个或更多个坐标中的一个。例如，控制器150可确定沿在电子设备120与固定空间点(例如，电视机108)之间的重力轴线的距离。在该示例中，控制器150确定一维(1D)距离(例如，沿一条轴线的距离)，而不是三维(3D)距离(例如，沿三条轴线的距离)。

在一些实施方式中，人110正在穿戴头戴式设备(HMD)。在一些实施方式中，HMD包括捕获传感器数据(例如，图像和/或深度数据)的传感器。在一些实施方式中，传感器包括IMU、前置相机和/或深度传感器。控制器150从HMD获得传感器数据，并且基于传感器数据来生成姿势信息152。在各种实施方式中，HMD以与图1A和图1B所示的电子设备120基本上相同的方式操作。在一些实施方式中，HMD执行与图1A和图1B所示的电子设备120基本上相同的操作。在一些具体实施中，HMD包括可头戴壳体。在各种实施方式中，可头戴壳体被成形为形成用于接收具有显示器的电子设备(例如，图1A和图1B所示的电子设备120)的接收器。例如，在一些实施方式中，图1A和图1B所示的电子设备120可滑入HMD中。在一些实施方式中，HMD包括用于向人110呈现CGR体验的集成显示器。在一些实施方式中，控制器150集成到HMD中。

图2是生成人的姿势信息252(例如，图1B所示的姿势信息152)的示例性设备200的框图。在一些实施方式中，设备200实现图1A至图1B所示的控制器150。在一些实施方式中，设备200实现图1A至图1B所示的电子设备120。在一些实施方式中，设备200实现HMD。在一些实施方式中，设备200包括环境传感器210、身体部分检测器220、位置确定器240以及姿势生成器250。

在一些实施方式中，环境传感器210捕获对应于物理环境(例如，图1A至图1B所示的物理环境100)的空间数据212。在一些实施方式中，环境传感器210包括图像传感器，诸如相机210a，其捕获图像212a(例如，图1A所示的图像126)。在一些实施方式中，环境传感器210包括IMU210b，其捕获IMU数据212b。在一些实施方式中，环境传感器210包括深度传感器210c(例如，深度相机)，其捕获深度数据212c。在一些实施方式中，环境传感器210包括捕获传感器数据212d的一组分布式传感器210d。在一些实施方式中，该组分布式传感器210d分布(例如定位，例如展开)在整个物理环境中。

在一些实施方式中，空间数据212指示物理环境包括人(例如，图1A至图1B所示的人110)和固定空间点(例如，物理边界表面诸如地板102、侧壁104和/或前壁106，和/或物理物品诸如电视机108和/或沙发109)。空间数据212包括人和固定空间点的表示。例如，如果空间数据212包括图像212a，则图像212a包括对应于人和固定空间点的像素。

在一些实施方式中，身体部分检测器220识别空间数据212的对应于人的身体部分的部分222。在一些实施方式中，身体部分包括四肢(例如，手臂和脚)、关节(例如，肩关节、肘部、腕部、膝部、脚踝、臀部等)、躯干、头部和/或颈部。

在一些实施方式中，身体部分检测器220包括机器学习系统220a，该机器学习系统识别空间数据212的对应于人的身体部分的部分222。机器学习系统220a获得空间数据212作为输入并将空间数据212的部分222识别为输出。在一些实施方式中，机器学习系统220生成图像212a中的像素的像素特征向量。在一些实施方式中，机器学习系统220在一组像素的像素特征向量满足对象置信度阈值时确定该组像素对应于身体部分。在一些实施方式中，当一组像素的像素特征向量包括在一定程度的相似度内的标签值时，满足对象置信度阈值。例如，当一组像素的像素特征向量包括对应于前臂的标签值时，则机器学习系统220a确定该组像素对应于前臂。在一些实施方式中，利用训练数据来训练机器学习系统220a，该训练数据包括身体部分的标记图像。

在一些实施方式中，身体部分检测器220包括语义分割单元220b，该语义分割单元识别空间数据212的对应于人的身体部分的部分222。在一些实施方式中，语义分割单元220b对空间数据212执行语义分割以识别空间数据212的对应于身体部分的部分222。例如，在一些实施方式中，语义分割单元220b利用空间数据212来生成物理环境的三维(3D)点云(以下简称为“点云”)。在一些实施方式中，语义分割单元220b生成每个点的点特征向量。在一些实施方式中，语义分割单元220b生成点云的语义标签。语义分割单元220b响应于点云中的点满足对象置信度阈值(例如，当与点云相关联的点特征向量的阈值数量包括在一定程度的相似度内的标签值时)而生成特定点云的语义标签。作为示例，当特定点云中的点特征向量的阈值数量包括对应于躯干的标签值时，语义分割单元220b将该特定点云标记为躯干。在各种实施方式中，语义分割单元220b利用神经网络系统来识别空间数据212的部分222。

在一些实施方式中，位置确定器240确定身体部分相对于固定空间点的位置246。在一些实施方式中，位置确定器240获得物理环境的模型242。模型242标识固定空间点和固定空间点的定位244。例如，模型242标识图1A至图1B所示的物理边界表面(诸如地板102、侧壁104和/或前壁106)和/或物理物品(诸如电视机108和/或沙发109)。

在一些实施方式中，位置确定器240利用与图像处理相关联的方法、设备和/或系统来确定位置246。在一些实施方式中，位置确定器240利用与摄影测量法相关联的方法、设备和/或系统来确定位置246。在一些实施方式中，位置246包括身体部分相对于固定空间点的定位246a。例如，位置246包括身体部分距固定空间点的距离(例如，图1B所示的水平距离HD和/或竖直距离VD)。在一些实施方式中，位置246包括身体部分相对于固定空间点的取向246b(例如，头部112是面向电视机108还是背对电视机108)。

在一些实施方式中，姿势生成器250基于身体部分相对于固定空间点的位置246来生成人的姿势信息252。在一些实施方式中，姿势信息252指示各种身体部分相对于彼此的位置和/或取向。例如，在一些实施方式中，姿势信息252包括各种身体关节的角位置。在一些实施方式中，位置确定器240确定身体部分相对于彼此的位置，并且姿势生成器250利用身体部分的相对位置来生成姿势信息252。在一些实施方式中，位置确定器240确定各种身体部分的相应位置，并且姿势生成器250利用各种身体部分的相应位置来增加姿势信息252的准确度和/或增加姿势信息252的粒度。

在一些实施方式中，姿势生成器250将姿势信息252提供到渲染和显示流水线。在一些实施方式中，渲染和显示流水线利用姿势信息来操纵在CGR环境中人110的CGR表示。在一些实施方式中，姿势生成器250将姿势信息252传输到另一个设备，该设备利用姿势信息252来渲染人110的CGR表示。

图3是根据一些实施方式的神经网络300的框图。在图3的示例中，神经网络300包括输入层320、第一隐藏层322、第二隐藏层324、分类层326以及身体姿势生成器328。虽然作为示例，神经网络300包括两个隐藏层，但是本领域的普通技术人员将从本公开理解，在各种实施方式中，也存在一个或多个附加隐藏层。添加附加隐藏层会增加计算复杂性和存储器需求，但可改善某些应用的性能。在一些实施方式中，神经网络300实现电子设备120、HMD、控制器150和/或设备200的部分。

在各种实施方式中，输入层320被耦接(例如，配置)以接收各种输入。在图3的示例中，输入层320接收指示空间数据212和/或模型242的输入。在一些实施方式中，神经网络300包括特征提取模块(未示出)，该特征提取模块基于空间数据212和/或模型242来生成特征流(例如，特征向量302)。在此类实施方式中，特征提取模块将特征流提供到输入层320。因此，在一些实施方式中，输入层320接收特征流，该特征流是空间数据212和/或模型242的函数。在各种实施方式中，输入层320包括多个LSTM逻辑单元320a，这些逻辑单元也被本领域的普通技术人员称为神经元的模型。在一些此类实施方式中，从特征到LSTM逻辑单元320a的输入矩阵包括矩形矩阵。此矩阵的大小是特征部流中包含的特征部数量的函数。

在一些实施方式中，第一隐藏层322包括多个LSTM逻辑单元322a。在一些实施方式中，LSTM逻辑单元322a的数量在大约10个至500个之间的范围内。本领域的普通技术人员将会理解，在此类具体实施中，每层的LSTM逻辑单元的数量比先前已知的方法(约为O(10¹)-O(10²))小几个数量级(约为O(10¹)-O(10²))，这允许此类具体实施被嵌入高度资源受限的设备中。如图3的示例所示，第一隐藏层322从输入层320接收其输入。

在一些实施方式中，第二隐藏层324包括多个LSTM逻辑单元324a。在一些实施方式中，LSTM逻辑单元324a的数量与输入层320中的LSTM逻辑单元320a的数量或第一隐藏层322中的LSTM逻辑单元322a的数量相同或类似。如图3的示例所示，第二隐藏层324从第一隐藏层322接收其输入。附加地或另选地，在一些实施方式中，第二隐藏层324从输入层320接收其输入。

在一些实施方式中，分类层326包括多个LSTM逻辑单元326a。在一些实施方式中，LSTM逻辑单元326a的数量与输入层320中的LSTM逻辑单元320a的数量、第一隐藏层322中的LSTM逻辑单元322a的数量或第二隐藏层324中的LSTM逻辑单元324a的数量相同或类似。在一些实施方式中，分类层326包括产生多个候选身体姿势的多项式逻辑函数(例如，柔性最大值函数)的实施方式。在一些实施方式中，候选身体姿势的数量大约等于可能身体姿势的数量。在一些实施方式中，候选身体姿势与对应置信度得分相关联，该对应置信度得分包括基于空间数据212的对应候选身体姿势的概率或置信度度量。

在一些实施方式中，身体姿势生成器328通过选择由分类层326提供的前N个候选身体姿势来生成姿势信息252。例如，在一些实施方式中，身体姿势生成器328选择具有最高置信度得分的候选身体姿势。在一些实施方案中，基于空间数据212，前N个候选身体姿势是最有可能的身体姿势。在一些实施方式中，身体姿势生成器328将姿势信息252提供到渲染和显示流水线。

在一些实施方式中，神经网络300基于历史姿势信息来生成姿势信息252。例如，在一些实施方式中，特征向量302包括历史姿势信息。基于历史姿势信息来生成姿势信息252允许姿势信息252表示随时间推移的平滑身体姿势运动，其看起来更自然和连续。利用历史姿势信息来生成姿势信息252降低生成不完整、嘈杂和/或不连续的身体姿势的可能性(例如，降低在第一时间帧中显示左脚并在后续时间帧中使左脚不可见的可能性)。在一些实施方式中，神经网络300存储历史姿势信息(例如，作为神经网络300的循环单元中的内部状态)。

在一些实施方式中，控制器150、设备200和/或神经网络300利用强化学习。在此类实施方式中，控制器150、设备200和/或神经网络300输出用于人110的CGR表示的动作。在一些实施方式中，动作包括对人110的CGR表示的关节角度的调整。

在一些实施方式中，神经网络300利用回归操作来生成姿势信息252。在回归操作中，神经网络300合成姿势信息252(例如，而不是从一组候选姿势选择姿势信息252)。在一些实施方式中，神经网络300输出人110的CGR表示的每个进行关节运动的自由度(例如，关节取向和/或位置)的值。在一些实施方式中，控制器150、设备200和/或神经网络300对人110的动作进行分类。在一些实施方式中，控制器150、设备200和/或神经网络300执行分类操作，以便确定人110的身体部分是否与物理环境100接触。

在一些实施方式中，使用具有关于物理环境100的信息的运动捕获数据来训练神经网络300。在一些实施方式中，神经网络300的训练由操作员(例如，人类操作员)监督。在一些实施方式中，训练包括具有奖励的强化学习，以用于再现检测到的身体部分的位置、停留在自然运动空间中以及以目标方式与物理环境相互作用。

图4A是生成人的姿势信息的方法400的流程图表示。在各种实施方式中，方法400由具有环境传感器、非暂态存储器以及与环境传感器和非暂态存储器耦接的一个或多个处理器的设备(例如，分别在图1A至图2中示出的电子设备120、HMD、控制器150和/或设备200)执行。在一些具体实施中，方法400由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些实施方式中，方法400由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。

如框410所表示，在各种实施方式中，方法400包括经由环境传感器获得对应于物理环境的空间数据(例如，图1A所示的图像126和/或图2所示的空间数据212)。在一些实施方式中，物理环境包括人和固定空间点(例如，物理环境100中示出的人110、以及物理物品和/或物理边界表面)。

如框420所表示，在一些实施方式中，方法400包括识别空间数据的对应于人的身体部分的一部分。例如，如图2所示，身体部分检测器220识别空间数据212的对应于身体部分的部分222。在一些实施方式中，方法400包括将空间数据的对应于身体部分的部分与空间数据的不对应于身体部分的其余部分区分开。在一些实施方式中，方法400包括检测在空间数据中身体部分的表示。在一些实施方式中，身体部分包括关节、四肢、躯干、头部、颈部等。

如框430所表示，在一些实施方式中，方法400包括基于空间数据的部分来确定身体部分相对于固定空间点的位置。例如，如图2所示，位置确定器240基于空间数据212的对应于身体部分的部分222来确定身体部分的位置246。

如框440所表示，在一些实施方式中，方法400包括基于身体部分相对于固定空间点的位置来生成人的姿势信息。例如，如图2所示，姿势生成器250基于身体部分相对于固定空间点的位置246来生成姿势信息252。

参照图4B，如框410a所表示，在一些实施方式中，环境传感器包括图像传感器(例如，相机，例如，图1A所示的相机122和/或图2所示的相机210a)，方法400包括从图像传感器获得一组一个或多个图像(例如，获得图1A所示的图像126和/或图2所示的图像212a)。

如框410b所表示，在一些实施方式中，环境传感器包括惯性测量单元(IMU)(例如，图2所示的IMU 210b)，并且方法400包括从IMU获得IMU数据(例如，从图2所示的IMU 210b获得数据212b)。

如框410c所表示，在一些实施方式中，环境传感器包括深度传感器(例如，深度相机)，并且方法400包括从深度传感器获得深度数据。例如，如图2所示，环境传感器210包括深度传感器210c，并且空间数据212包括深度数据212c。

如框410d所表示，在一些实施方式中，环境传感器包括一组分布式传感器，并且方法400包括从该组分布式传感器获得传感器数据。例如，如图2所示，环境传感器210包括一组分布式传感器210d，并且空间数据212包括由该组分布式传感器210d捕获的传感器数据212d。

如框420a所表示，在一些实施方式中，空间数据包括一组图像，并且方法400包括通过将一组图像提供到识别该身体部分的机器学习系统来识别该身体部分。例如，如图2所示，空间数据212包括图像212a，该图像被提供作为到识别空间数据212的对应于身体部分的部分222的机器学习系统220a的输入。

如框420b所表示，在一些实施方式中，方法400包括通过提供包括身体部分的标记图像的训练数据来训练机器学习系统。例如，在一些实施方式中，方法400包括向机器学习系统220a提供被标记为“头部”的人类头部的图像、被标记为“前臂”的前臂的图像、被标记为“膝部”的膝部的图像等。

如框420c所表示，在一些实施方式中，方法400包括对空间数据执行语义分割，以便检测固定空间点和/或人的身体部分。例如，如图2所示，语义分割单元220b对空间数据212(例如，图像212a)执行语义分割，以便识别空间数据的对应于身体部分的部分222。

参照图4C，如框430a所表示，在一些实施方式中，方法400包括获得物理环境的模型(例如，图2所示的模型242)。在一些实施方式中，模型标识固定空间点并指示固定空间点在物理环境内的定位。例如，模型242指示固定空间点的定位244。

如框430b所表示，在一些实施方式中，方法400包括基于在身体部分与固定空间点之间的距离的变化来检测人正在相对于固定空间点移动。例如，基于图1B所示的水平距离HD的变化来检测人110正在相对于电视机108移动。

如框430c所表示，在一些实施方式中，方法400包括检测身体部分相对于固定空间点的定位。例如，如图2所示，在一些实施方式中，身体部分的位置246包括身体部分相对于固定空间点的定位246a。

如框430d所表示，在一些实施方式中，方法400包括检测身体部分相对于固定空间点的取向。例如，如图2所示，在一些实施方式中，身体部分的位置246包括身体部分相对于固定空间点的取向246b。

如框430e所表示，在一些实施方式中，固定空间点表示物理环境的物理边界。例如，在一些实施方式中，固定空间点表示物理边界表面，诸如图1A至图1B所示的地板102、侧壁104和/或前壁106。

如框430f所表示，在一些实施方式中，固定空间点表示位于物理环境内的物理物品。例如，固定空间点包括图1A至图1B所示的电视机108和/或沙发109。

如框440a所表示，在一些实施方式中，方法400包括根据姿势信息来操纵人的CGR表示。在一些实施方式中，方法400包括使表示人的CGR对象在CGR环境中移动，以便模仿人在物理环境中的移动。

如框440b所表示，在一些实施方式中，方法400包括传输姿势信息。在一些实施方式中，方法400包括将姿势信息传输到根据姿势信息来显示人的CGR表示的另一个设备。

图5是根据一些实施方式的生成人的姿势信息的设备500的框图。尽管示出了一些具体特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些实施方式中，设备500包括一个或多个处理单元(CPU)501、网络接口502、编程接口503、存储器504以及用于互连这些和各种其他部件的一个或多个通信总线505。

在一些实施方式中，提供了网络接口502以便除其他用途之外，在云托管的网络管理系统与包括一个或多个兼容设备的至少一个专用网络之间建立和维护元数据隧道。在一些实施方式中，一个或多个通信总线505包括互连和控制在系统部件之间的通信的电路。存储器504包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备，并且可包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器504任选地包括与一个或多个CPU 501远程地定位的一个或多个存储设备。存储器504包括非暂态计算机可读存储介质。

在一些实施方式中，存储器504或存储器504的非暂态计算机可读存储介质存储以下程序、模块以及数据结构，或者它们的子集，包括任选的操作系统506、数据获得器510、身体部分检测器220、位置确定器240以及姿势生成器250。在各种实施方式中，设备500执行图4A至图4C所示的方法400。在各种实施方式中，设备500实现电子设备120、HMD、控制器150和/或设备200。

在一些实施方式中，数据获得器510获得对应于物理环境的空间数据。在一些实施方式中，数据获得器510执行由图4A和图4B中的框410表示的操作。为此，数据获得器510包括指令510a以及启发法和元数据510b。

如本文所述，在一些实施方式中，身体部分检测器220识别空间数据的对应于人的身体部分的一部分。在一些实施方式中，身体部分检测器220执行由图4A和图4B中的框420表示的操作。为此，身体部分检测器220包括指令220a以及启发法和元数据220b。

在一些实施方式中，位置检测器240基于空间数据的部分来确定身体部分相对于固定空间点的位置。在一些实施方式中，位置检测器240执行由图4A和图4C中的框430表示的操作。为此，位置检测器240包括指令240a以及启发法和元数据240b。

在一些实施方式中，姿势生成器250基于身体部分相对于固定空间点的位置来生成人的姿势信息。在一些实施方式中，姿势生成器250执行由图4A和图4C中的框440表示的操作。为此，姿势生成器250包括指令250a以及启发法和元数据250b。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求书中所使用的那样，单数形式的“一个”、“一”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”和/或“包含”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

Claims

1.一种方法，包括：

在包括环境传感器、非暂态存储器以及与所述环境传感器和所述非暂态存储器耦接的一个或多个处理器的设备处：

经由所述环境传感器获得对应于物理环境的空间数据，其中所述物理环境包括人和固定空间点；

识别所述空间数据的对应于所述人的身体部分的一部分；

基于所述空间数据的所述部分来确定所述身体部分相对于所述固定空间点的位置；以及

基于所述身体部分相对于所述固定空间点的所述位置来生成所述人的姿势信息。

2.根据权利要求1所述的方法，其中所述空间数据包括一组图像，并且识别所述身体部分包括将所述组图像提供到识别所述身体部分的机器学习系统。

3.根据权利要求2所述的方法，还包括：

通过提供包括身体部分的标记图像的训练数据来训练所述机器学习系统。

4.根据权利要求1所述的方法，还包括：

对所述空间数据执行语义分割以检测所述固定空间点。

5.根据权利要求1所述的方法，还包括：

获得所述物理环境的模型，其中所述模型标识所述固定空间点并且指示所述固定空间点在所述物理环境内的定位。

6.根据权利要求1所述的方法，还包括：

基于在所述身体部分与所述固定空间点之间的距离的变化来检测到所述人正在相对于所述固定空间点移动。

7.根据权利要求1所述的方法，还包括：

根据所述姿势信息来操纵所述人的计算机生成的现实(CGR)表示。

8.根据权利要求1所述的方法，还包括：

传输所述人的所述姿势信息。

9.根据权利要求1所述的方法，还包括：

基于所述空间数据来确定所述身体部分相对于所述固定空间点的所述位置。

10.根据权利要求9所述的方法，其中所述身体部分的所述位置指示所述身体部分在所述物理环境内的定位。

11.根据权利要求9所述的方法，其中所述身体部分的所述位置指示所述身体部分在所述物理环境内的取向。

12.根据权利要求1所述的方法，其中所述固定空间点表示所述物理环境的物理边界。

13.根据权利要求1所述的方法，其中所述固定空间点表示位于所述物理环境内的物理物品。

14.根据权利要求1所述的方法，其中所述环境传感器包括图像传感器，并且所述空间数据包括一组一个或多个图像。

15.根据权利要求1所述的方法，其中所述环境传感器包括惯性测量单元(IMU)，并且所述空间数据包括IMU数据。

16.根据权利要求1所述的方法，其中所述环境传感器包括深度传感器，并且所述空间数据包括深度数据。

17.根据权利要求1所述的方法，其中所述环境传感器包括一组分布式传感器，并且所述空间数据包括来自所述组分布式传感器的数据。

18.根据权利要求1所述的方法，其中所述设备包括头戴式设备(HMD)。

19.一种设备，包括：

一个或多个处理器；

非暂态存储器；

环境传感器；以及

存储在所述非暂态存储器中的一个或多个程序，所述一个或多个程序当由所述一个或多个处理器执行时使所述设备：

识别所述空间数据的对应于所述人的身体部分的一部分；

20.一种非暂态存储器，所述非暂态存储器存储一个或多个程序，所述一个或多个程序当由具有环境传感器的设备的一个或多个处理器执行时使所述设备：

识别所述空间数据的对应于所述人的身体部分的一部分；