CN115066667A

CN115066667A - 使用深度学习来确定注视

Info

Publication number: CN115066667A
Application number: CN202080084160.2A
Authority: CN
Inventors: M·赞诺里; 肖磊; K·埃默里
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-12-05
Filing date: 2020-11-23
Publication date: 2022-09-16
Also published as: US11308698B2; JP2023504994A; WO2021113100A1; KR20220119053A; US20210174589A1; EP4070178A1

Abstract

在一个实施例中，计算系统可以生成并且向用户显示虚拟现实环境。计算系统可以基于与用户佩戴的头戴式装置相关联的头戴式装置跟踪数据来确定用户的头部姿势。计算系统可以基于与用户的手抓握或佩戴的设备相关联的手部跟踪数据来确定用户的手部姿势。计算系统可以访问与所显示的虚拟现实环境相关联的场景信息。计算系统可以通过使用机器学习模型处理头部姿势、手部姿势和场景信息，来确定用户在虚拟现实环境内的预测焦点。

Description

使用深度学习来确定注视

技术领域

本公开总体上涉及用于虚拟现实环境中的用户交互和体验的控件和界面。

背景技术

虚拟现实是计算机生成的环境(例如，3D环境)的模拟，用户可以通过看似真实或物理的方式与之交互。虚拟现实系统(其可以是单个设备或一组设备)可以生成该模拟，以在例如虚拟现实头戴式装置(headset)或某种其他显示设备上显示给用户。模拟可以包括图像、声音、触觉反馈和/或其他感觉，以模拟真实或想象的环境。随着虚拟现实变得越来越显著，其有用的应用范围正在迅速扩大。虚拟现实最常见的应用包括游戏或其他交互式内容，但是其他应用(诸如出于娱乐或训练目的的视觉媒体项目(例如，照片、视频)的察看)紧随其后。使用虚拟现实来模拟现实生活中的对话以及其他用户交互的可行性也正在探索中。

发明内容

因此，本发明针对根据所附权利要求的方法、计算机可读非暂态存储介质和系统。本文公开了呈现虚拟(或增强)现实环境并与之交互的各种不同方式。虚拟现实系统可以呈现虚拟环境，该虚拟环境可以包括被呈现以显示给一个或多个用户的虚拟空间。用户可以通过任何适当的方式在该虚拟空间和更广阔的虚拟环境中察看和交互。所公开方法的一个目标是确定用户的注视或执行眼跟踪。在特定实施例中，虚拟现实系统可以提供一种通过使用机器学习模型来确定用户注视的方法。虚拟现实系统可以使用输入数据，诸如用户佩戴的头戴式装置相对于环境的姿势、控制器相对于头戴式装置或环境的姿势、场景信息等数据，以便确定用户的注视。通过训练机器学习模型来确定注视，虚拟现实系统可以改进用户的预测注视的准确性。目前，虚拟现实系统需要诸如眼跟踪器的传感器，以便确定用户的注视。如此，没有必要传感器的虚拟现实系统可能无法利用变焦显示器和注视跟随呈现解决方案，变焦显示器和注视跟随呈现解决方案改进了用户的视觉体验和虚拟现实系统的处理。为了训练机器学习模型，机器学习模型可以将输入数据与来自眼跟踪器的数据一起用于基础真值数据。在机器学习模型被训练之后，机器学习模型继而可以被实现在没有眼跟踪器的虚拟现实系统中，以使这些虚拟现实系统能够具有执行眼跟踪和/或确定用户的注视的能力。

本发明的实施例可以包括人工现实系统或结合人工现实系统来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混杂现实(hybrid reality)或其某种组合和/或其衍生物。人工现实内容可以包括完全生成的内容或与捕获的内容(例如，现实世界的照片)相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈，或其某种组合，并且其中任何一个都可以在单个通道中或在多个通道中被呈现(诸如向观众产生三维效果的立体视频)。另外，在一些实施例中，人工现实可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合例如用于在人工现实中创建内容和/或在人工现实中被使用(例如，在人工现实中执行活动)。可以在各种平台(包括连接到主计算机系统的头戴式显示器(HMD)、独立的HMD、移动设备或计算系统，或者能够向一个或多个观众提供人工现实内容的任何其他硬件平台)上实现提供人工现实内容的人工现实系统。

在一个方面，本发明涉及一种方法，包括由计算系统：

生成并且向用户显示渲染环境；

基于与用户佩戴的头戴式装置相关联的头戴式装置跟踪数据，确定用户的头部姿势；

基于手部跟踪数据，确定用户的手部姿势；

访问与显示的渲染环境相关联的场景信息；以及

通过使用机器学习模型处理头部姿势、手部姿势和场景信息，确定用户在渲染环境内的预测焦点。

在根据本发明的方法的一个实施例中，方法可以进一步包括：基于用户在渲染环境内的预测焦点，调整由计算系统呈现给用户的图像。

在根据本发明的方法的一个实施例中，头部姿势可以相对于渲染环境被确定。在根据本发明的方法的一个实施例中，手部姿势可以相对于渲染环境或用户佩戴的头戴式装置中的一个被确定。

1.在根据本发明的方法的一个实施例中，确定用户的手部姿势可以进一步包括：基于耦合到计算系统的一个或多个相机来标识用户的手部，该计算系统分析包括用户的手部的多个图像。

在根据本发明的方法的一个实施例中，手部跟踪数据可以与用户的手抓握或佩戴的设备相关联。除此之外，方法可以进一步包括：确定由用户的手抓握或佩戴的设备执行的行动，并且其中确定预测焦点进一步包括：使用机器学习模型，处理由用户的手抓握或佩戴的设备执行的行动。

在根据本发明的方法的一个实施例中，场景信息可以包括颜色和深度数据和/或场景信息可以包括渲染环境内的一个或多个元素的语义信息。

在根据本发明的方法的一个实施例中，预测焦点可以是渲染环境内的三维坐标。

在根据本发明的方法的一个实施例中，渲染环境可以与应用相关联，应用可以与类别有关，并且场景信息可以包括与应用有关的类别。

在根据本发明的方法的一个实施例中，方法可以进一步包括：使用机器学习模型，针对预测焦点生成一个或多个位置的置信图，其中置信图分配预测焦点在一个或多个位置中的每个位置处的概率，并且其中确定预测焦点包括利用置信图。

在根据本发明的方法的一个实施例中，预测焦点可以在没有眼跟踪传感器的情况下被确定

在根据本发明的方法的一个实施例中，渲染环境可以包括增强现实环境、虚拟现实环境或混合现实环境中的一种或多种。

在一方面，本发明涉及一个或多个计算机可读非暂态存储介质，其实施软件，软件在被执行时可操作，以执行如上所述的方法，或者以：

生成并且向用户显示虚拟现实环境；

基于与用户的手抓握或佩戴的设备相关联的手部跟踪数据，确定用户的手部姿势；

访问与显示的虚拟现实环境相关联的场景信息；以及

通过使用机器学习模型处理头部姿势、手部姿势和场景信息，确定用户在虚拟现实环境内的预测焦点。

在一个方面，本发明涉及一种系统，包括：一个或多个处理器；以及耦合到处理器的非暂态存储器，该非暂态存储器包括可由处理器执行的指令，处理器在执行指令时可操作以执行如上所述的方法或者以：

生成并且向用户显示虚拟现实环境；

访问与显示的虚拟现实环境相关联的场景信息；以及

本文公开的实施例仅仅是示例，并且本公开的范围不限于它们。特定实施例可以包括上面公开的实施例的组件、元件、特征、功能、操作或步骤中的全部、一些或没有一个被包括。根据本发明的实施例在所附权利要求中被具体公开，权利要求涉及方法、存储介质、系统和计算机程序产品，其中在一种权利要求类别(例如方法)中提到的任何特征，也可以在另一种权利要求类别(例如系统)中要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而，也可以要求保护由对任何先前权利要求的有意往回引用(特别是多个从属关系)而产生的任何主题，使得权利要求及其特征的任何组合被公开并且可以被要求保护，而不管所附权利要求中选择的从属关系如何。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合，而且还包括在权利要求中的特征的任何其他组合，其中在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。

附图说明

本专利或申请文件包含以彩色展示的至少一个附图。具有(多个)彩色附图的本专利或专利申请公布的副本在请求并且支付必要的费用后将由专利局提供。

图1图示了使用机器学习模型来确定用户注视的示例过程。

图2图示了在其中确定预测注视的示例虚拟现实环境。

图3图示了训练机器学习模型以预测用户注视的示例过程。

图4图示了使用机器学习模型确定用户注视的示例方法。

图5图示了与虚拟现实系统相关联的示例网络环境。

图6图示了示例计算机系统。

具体实施方式

在便携式个人显示器上开发高质量视觉体验的许多技术可能依赖于准确的注视跟踪。可以帮助改进用户在虚拟现实环境内的视觉体验的注视跟随技术可以包括变焦显示和注视点呈现。虽然一些虚拟现实系统可以包括眼跟踪器以便确定用户的注视，但眼跟踪器不是对所有虚拟现实系统可访问。例如，通过用户智能手机呈现虚拟现实环境的用户可能不具有眼跟踪功能。随着用户通过便携式和个人解决方案(诸如用户的智能手机)更容易访问虚拟现实，眼跟踪/注视确定功能将被移除。然而，通过训练机器学习模型，可以利用可用于大多数虚拟现实系统的数据，以便确定用户的注视和/或执行眼跟踪。当用户探索虚拟现实环境并完成任务时，他们注视的位置可以与信息源相对应，信息源诸如是头部方向、手部位置、场景内容和任务目标。虽然本文可以在虚拟现实系统和虚拟现实环境的上下文中描述眼跟踪/注视确定过程和应用，但该过程和应用也可以应用于增强现实系统、增强现实环境、混合现实系统和混合现实环境。作为示例而非限制，渲染环境可以是包括具有增强现实元素的现实世界场景的增强现实环境，并且输入数据可以是被增强现实系统用来确定用户注视的数据。

在特定实施例中，为了训练机器学习模型以确定注视，可以使用与头戴式装置的姿势、控制器信息和场景信息中的至少一个相关联的输入数据。在特定实施例中，虚拟现实系统可以检索或访问来自多个传感器的输入数据。作为示例而非限制，虚拟现实系统可以通过耦合到头戴式装置的加速度计来确定头戴式装置的加速度。输入数据可以用于确定用户正在看的地方的预测焦点。预测焦点可以由用户的环境内的三维坐标表示。例如，预测焦点可以由用户的环境内的XYZ坐标来表示。例如，在虚拟现实环境内，AR/VR头戴式装置可以计算预测的三维坐标，以表示用户在虚拟现实环境内正在看的位置。头戴式装置的姿势可以指示头戴式装置的位置和定向。该位置和定向可以是相对于环境。输入数据可以进一步包括头戴式装置的速度和加速度。控制器信息可以指示与控制器中的一个或多个控制器相关联的、相对于头戴式装置和环境的姿势数据，并且还指示是否存在针对控制器执行的行动(例如，用户正在按下按钮以执行捡起功能)。控制器信息可以进一步包括控制器中的每个控制器的速度和加速度。场景信息可以包括环境的RGBD数据。头戴式装置可以根据场景的RGBD数据执行对象标识。在虚拟现实环境中，虚拟现实系统可以接收与虚拟现实环境有关的附加信息。例如，虚拟场景中的对象的对象数据、游戏信息以及虚拟环境的附加信息可以被发送到虚拟现实系统。环境的信息可以用于预测用户可能在看哪里。作为示例而非限制，如果存在用户需要瞄准的目标，那么用户很可能会查看目标。这种关于头戴式装置姿势、控制器信息和场景信息的信息积累可以被馈送到机器学习模型中，以预测用户的焦点。在特定实施例中，可以将预测焦点与用户实际注视的基础真值进行比较。在特定实施例中，实际注视可以最初由眼跟踪传感器和用户确认来确定。在机器学习模型被训练之后，不具有眼跟踪传感器的其他虚拟现实系统可以使用机器学习模型，以便预测用户的焦点。

在特定实施例中，机器学习模型的输出可以是焦点可能所在位置处的置信图。置信图可以包括环境内的各种XYZ位置的置信度得分。这可以类似于焦点可能所在位置的热图。作为示例而非限制，置信图可以包括针对环境内多个XYZ位置的从0-1的范围。在特定实施例中，置信度得分可以表示焦点在该位置处的概率。在特定实施例中，预测焦点可以包括数个XYZ位置。虽然被讨论为XYZ焦点，但机器学习模型可以仅确定XY焦点来指示注视轨迹，而不是3D空间中的特定焦点。

在特定实施例中，虚拟现实系统可以生成并且向用户显示虚拟现实环境。虚拟现实系统可以包括头戴式装置、一个或多个控制器、处理器和附加传感器(例如，相机等)。在特定实施例中，头戴式装置和处理器可以被包含在一个计算设备中。虚拟现实头戴式装置可以呈现虚拟现实环境，诸如要在虚拟现实头戴式装置上显示的应用。应用可以与类别和/或子类别相关联。作为示例而非限制，应用可以是游戏，并且游戏可以是体育游戏。虚拟现实系统可以访问或检索对应于与呈现的虚拟现实环境相关联的应用的信息。作为示例而非限制，如果虚拟现实头戴式装置生成虚拟现实元素(例如，书)，则虚拟现实系统可以检索该信息，以标识虚拟现实环境内的各种对象。在特定实施例中，虚拟现实系统可以在虚拟现实环境内执行对象检测。

在特定实施例中，虚拟现实系统可以确定用户的头部姿势。在特定实施例中，虚拟现实系统可以基于与用户佩戴的头戴式装置相关联的头戴式装置跟踪数据来确定头部姿势。在特定实施例中，虚拟现实系统可以访问传感器数据(例如，头戴式装置的加速度计/陀螺仪数据，或监控虚拟现实环境内的用户的单独相机)来跟踪头戴式装置的姿势。作为示例而非限制，头戴式装置可以具有可以由独立传感器检测的IR/LED图案，以用于确定头戴式装置的姿势。作为另一个示例而非限制，头戴式装置可以具有面向外部的相机，该相机可以拍摄物理环境的照片，并且使用三角测量技术来确定头戴式装置相对于物理环境的位置。头戴式装置相对于物理环境的位置可以与用户在虚拟现实环境内的姿势进行比较。在特定实施例中，头部姿势可以相对于虚拟现实环境被确定。

在特定实施例中，虚拟现实系统可以确定用户的手部姿势。在特定实施例中，虚拟现实系统可以基于与用户的手抓握或佩戴的设备相关联的手部跟踪数据，来确定手部姿势。作为示例而非限制，该设备可以是控制器、手套等。在特定实施例中，虚拟现实系统可以基于用户手部的手部跟踪数据来确定手部姿势。在特定实施例中，类似于确定头部姿势，虚拟现实系统可以基于传感器数据来确定设备在用户手中的姿势。作为示例而非限制，虚拟现实系统可以使用IR/LED模式来确定设备(例如，控制器)在用户手中的姿势。作为另一个示例而非限制，头戴式装置可以捕获控制器的图像，并且确定设备相对于用户的头戴式装置的手部姿势。作为另一示例而非限制，头戴式装置可以捕捉用户手部的图像，并且确定用户手部的手部姿势。在特定实施例中，手部姿势可以相对于虚拟现实环境或物理现实世界环境来被确定。在特定实施例中，虚拟现实系统还可以访问用户手中的设备的控制器信息。控制器信息可以指示由设备执行的行动。作为示例而非限制，用户可以在设备的按钮上点击，这可以对应于虚拟现实环境内的行动。例如，行动可以是抓握对象、与对象交互等。在特定实施例中，头戴式装置可以通过捕获的包括用户的手部的环境图像，来确定用户的一只手或两只手执行的手势。

在特定实施例中，虚拟现实系统可以访问与所显示的虚拟现实环境相关联的场景信息。在特定实施例中，虚拟现实系统可以检索由应用提供的场景信息。作为示例而非限制，如果应用是游戏，并且游戏指示头戴式装置在虚拟现实环境内生成虚拟现实元素，则虚拟现实系统可以能够检索与虚拟现实元素相对应的信息。例如，虚拟现实系统可以确定对应于在虚拟现实环境内生成的虚拟现实元素的XYZ坐标。在特定实施例中，场景信息可以包括颜色和深度数据。在特定实施例中，虚拟现实系统可以访问与虚拟现实环境相关联的RGB数据或RGBD数据中的一个或多个。作为示例而非限制，虚拟现实系统可以捕捉虚拟现实环境内的图像。在特定实施例中，在增强现实环境或混合现实环境内，头戴式装置可以捕捉现实世界环境的图像。所捕获的现实世界环境图像可以被处理以标识现实世界环境内的物理对象。可以通过应用三角测量技术来处理图像，以确定物理对象的深度测量结果。在特定实施例中，场景信息可以包括虚拟现实环境内的虚拟现实元素的语义信息。虚拟现实系统可以使用各种技术来执行对象检测，以标识虚拟现实环境内的对象。虚拟现实环境可以确定对象相对于虚拟现实环境的XYZ坐标和/或位置。在特定实施例中，场景信息可以被分类为低级别信息和高级别信息。低级别信息可以包括强度、颜色或运动中的一种或多种。高级别信息可以包括在虚拟现实环境中标识的面孔、在虚拟现实环境中标识的人以及标识的任务。作为示例而非限制，虚拟现实系统可以确定用户正试图捡起虚拟现实环境内的对象、在虚拟现实环境内开火，以及用户在虚拟现实环境内执行的其他可能任务。

在特定实施例中，虚拟现实系统可以确定用户的预测焦点。在特定实施例中，虚拟现实系统可以通过使用机器学习模型处理头部姿势、手部姿势和场景信息，来确定用户的预测焦点。虽然机器学习模型被描述为被训练为由虚拟现实系统应用于虚拟现实环境，但机器学习模型也可以被训练为由增强现实系统应用于增强现实环境，或者被训练为由混合现实系统应用于混合现实环境。在特定实施例中，虚拟现实系统可以使用其他数据来使用机器学习模型进行处理。作为示例而非限制，虚拟现实系统可以使用机器学习模型，来处理由用户的手抓握或佩戴的设备执行的行动。例如，如果用户正试图捡起对象，机器学习模型可以确定预测焦点朝向正被捡起的对象。在特定实施例中，预测焦点可以是虚拟现实环境内的三维坐标。在特定实施例中，虚拟现实系统可以生成置信图，并且通过使用置信图来确定预测焦点。可以在不使用眼跟踪传感器的情况下确定预测焦点。在讨论确定预测焦点时，虚拟现实系统可以使用机器学习模型，来使用本文所述的输入数据来确定用户眼调节和/或聚散度。

在特定实施例中，虚拟现实系统可以访问先前帧数据或先前帧预测结果中的一个或多个，以确定预测焦点和机器学习模型的其他输出。在特定实施例中，机器学习模型可以分析显示给用户的每个帧之间的时间相关性。作为示例而非限制，一个帧内的预测焦点可被确定为在先前帧的预测焦点的精确位置或相对接近先前帧的预测焦点。在特定实施例中，先前帧数据可以包括相应帧的输入数据。作为示例而非限制，在显示给用户的帧的序列内，虚拟现实系统可以访问单个帧及其对应的输入数据。在特定实施例中，先前帧预测结果可以包括先前预测焦点和机器学习模型的其他输出。先前帧预测结果可以指示当前预测焦点。机器学习模型可以被训练以使用先前帧数据和/或先前帧预测结果，来确定当前预测焦点。

在特定实施例中，虚拟现实系统可以调整呈现给用户的图像。在特定实施例中，虚拟现实系统可以基于用户在虚拟现实环境内的预测焦点，来调整呈现给用户的图像。虚拟现实系统可以基于其他数据(诸如所确定的用户眼调节和/或所确定的聚散度)来调整呈现给用户的图像。作为示例而非限制，虚拟现实系统可以使用预测焦点进行注视点呈现，以减少显示虚拟现实环境所需的处理。利用注视点呈现，虚拟现实系统可以减少预测焦点之外的任何不必要的呈现。在特定实施例中，预测焦点的确定可以帮助图像失真校正、任何必要的图像移动等。此外，预测焦点可以帮助注视点呈现，以减少预测焦点之外的不必要呈现。预测焦点也可以用于变焦显示器以基于预测焦点来调整焦点显示器。在特定实施例中，虚拟现实系统可以连续地确定用户的预测焦点，并且基于更新的预测焦点来调整呈现给用户的图像。虽然本文描述了虚拟现实环境和虚拟现实系统，但在特定实施例中，预测焦点和机器学习模型的其他输出(例如，用户眼调节和/或聚散度)可以由增强现实系统用于增强现实环境或由混合现实系统用于混合现实环境。

在特定实施例中，用户可以通过增强现实系统、虚拟现实系统或混合现实系统中的一个或多个在渲染环境内进行交互。渲染环境可以是增强现实环境、虚拟现实环境或混合现实环境。在特定实施例中，增强现实系统、虚拟现实系统或混合现实系统中的一个或多个可以采用本文描述的输入数据，来训练机器学习模型以确定用户的注视或执行眼跟踪。作为示例而非限制，增强现实系统可以访问来自耦合到用户佩戴的头戴式装置的传感器的输入数据。在特定实施例中，增强现实系统或混合现实系统可以使用机器学习模型来确定用户的注视或执行眼跟踪。在特定实施例中，增强现实系统或混合现实系统可以将所确定的用户注视用于变焦透镜、改进的眼跟踪或用户界面交互中的一个或多个。作为示例而非限制，增强现实系统的透镜可以基于所确定的用户注视来进行调整。在特定实施例中，低保真眼跟踪器可以由增强现实系统、虚拟现实系统或混合现实系统使用，并且所确定的用户注视可以改进确定的用户注视的结果。

在特定实施例中，用户可以通过用户的注视与用户界面交互。在特定实施例中，用户界面元素可以被生成，作为增强现实元素、虚拟现实元素或混合现实元素。用户可以通过将他们的注视指向对应的呈现元素，来执行与用户界面相关联的功能。作为示例而非限制，消息图标(可以耦合到用户的视图，诸如用户视图的一角，或者耦合到所渲染环境)可以被呈现为呈现给用户的增强现实环境内的增强现实元素。如果增强现实系统确定用户正试图查看消息图标，则增强现实系统可以激活消息应用以供用户交互。在特定实施例中，所确定的注视可以用于导航通过用户界面。作为示例而非限制，用户可以通过相对于特定点向上或向下看，来在呈现给用户的菜单(耦合到用户的视图或耦合到渲染环境的菜单)上向上或向下滚动。在特定实施例中，所确定的注视可以用于在用户界面内执行选择。作为示例而非限制，如果向用户呈现作为增强现实元素(其可以耦合到用户的视图或耦合到增强现实环境)的多个选项，则用户可以通过查看对应于选项的增强现实元素，来选择选项中的一个选项。在特定实施例中，用户的注视可以与手势(例如，用户指向增强现实元素)结合使用以确定用户选择什么选项。

在特定实施例中，机器学习模型可以开发个性化注视简档。作为示例而非限制，用户可以登录到虚拟现实系统上的账户(例如，社交网络账户)，虚拟现实系统将该账户链接到虚拟现实系统。机器学习模型可以被训练成基于与虚拟现实环境的用户交互来确定特定用户的注视。作为示例而非限制，用户可能以与大多数用户稍微不同的方式查看虚拟现实环境，并且机器学习模型可以准确地确定特定用户的注视。机器学习模型还可以被训练成基于眼跟踪传感器(例如，如果设备具有它们)来确定特定用户的注视。在特定实施例中，如果用户在另一个虚拟现实系统或设备(例如，增强现实系统或混合现实系统)上登录他们的帐户，则个性化注视简档可以由机器学习模型使用来确定用户的注视。在特定实施例中，个性化注视简档可以是针对特定用户训练的机器学习模型。

参考图1，示出了使用机器学习模型来确定用户注视的示例过程100。在特定实施例中，过程100可以包括在虚拟现实系统或其他处理设备处接收输入数据102、104、106。在特定实施例中，输入数据可以包括头戴式装置跟踪数据102、手部跟踪数据104和场景信息106。在特定实施例中，头戴式装置跟踪数据102可以包括来自虚拟现实系统的虚拟现实头戴式装置的传感器数据，或来自虚拟现实系统的独立传感器的传感器数据。头戴式装置跟踪数据102可以用于确定用户的头部姿势。头部姿势可以指示虚拟现实头戴式装置相对于虚拟现实环境或相对于物理环境的位置和定向。在特定实施例中，手部跟踪数据104可以包括来自虚拟现实系统的虚拟现实控制器的传感器数据，或来自虚拟现实系统的独立传感器的传感器数据。手部跟踪数据104可以用于确定用户的手部姿势。手部姿势可以指示虚拟现实控制器相对于虚拟现实环境或虚拟现实头戴式装置的位置和定向。在特定实施例中，场景信息106可以从应用(例如，在虚拟现实系统上执行以生成虚拟现实环境的当前应用)被检索或基于虚拟现实环境的数据(例如，RGBD数据)被确定。在特定实施例中，场景信息106可以指示虚拟现实环境中的虚拟现实元素的语义信息以及与每个虚拟现实元素相关联的三维坐标。场景信息106还可以指示其他信息，诸如与虚拟现实环境相关联的颜色和深度数据。场景信息106可以包括用户正在虚拟现实环境内完成的任务。

在特定实施例中，输入数据102、104、106可以被传递到机器学习模型108，机器学习模型108确定预测的三维注视110。在特定实施例中，机器学习模型108可以先前已经通过将预测注视与基础真值进行比较而被训练。在特定实施例中，机器学习模型可以确定，某些任务可以导致用户查看虚拟现实环境中的特定点。例如，如果用户在虚拟现实环境内烹饪，则虚拟现实系统可以将场景信息106连同其他输入数据102、104一起发送到机器学习模型108。机器学习模型108可以确定，由于用户正在烹饪，因此用户必须查看虚拟现实环境内的某些对象，诸如炊具等。该信息可以用于预测用户正在看的焦点110，因为用户在他们执行相同或相似任务时，通常可能遵循相同的注视模式。在特定实施例中，诸如应用的类别和/或子类别的附加信息可以用于确定预测焦点110。作为示例而非限制，应用的类别(例如，体育比赛)可以指示用户在执行与该类别相关联的行动时，通常可能遵循的某些行动和随后的注视模式。这些行动的分类可以训练机器学习模型，来标识对应于应用的特定类别的注视模式。此外，在特定实施例中，机器学习模型可以更具体地确定与用户在虚拟现实环境内执行的某些行动相关联的注视模式。

在特定实施例中，机器学习模型可以标识虚拟现实环境内的对象之间的关系。作为示例而非限制，如果用户正在执行烹饪行动，诸如制作花生酱和果冻三明治，则机器学习模型可以标识将用于该行动的对象，并且可以标识用户将跟随以便完成制作三明治的任务的事件序列。事件序列可以指示用户在制作三明治时，将查看的位置的注视模式。例如，用户可以从抓起面包或器具开始。如此，用户最初可以查看面包并且遵循该过程。

图2图示了在其中确定预测注视的示例虚拟现实环境200。虚拟现实环境200可以包括多个对象202。例如，对象202中的一个对象可以是写字夹板202a。虚拟现实环境200可以在虚拟现实环境200内显示用户的手204。在特定实施例中，用户的手204可以对应于用户正抓握的虚拟现实控制器。在特定实施例中，虚拟现实系统可以基于本文描述的传感器数据来确定头部姿势和手部姿势。头部姿势可以指示用户头部的位置和在虚拟现实环境200内的定向。手部姿势可以指示用户手部的位置和在虚拟现实环境200内的定向。虚拟现实系统可以访问虚拟现实环境的场景信息。场景信息可以标识虚拟现实环境200内的各种对象202，以及对象202在虚拟现实环境内的位置。场景信息可以指示用户正在进行的任务，例如，用户正在拾起具有指令的写字夹板202a。如此，用户可能正在阅读写字夹板202a。虚拟现实系统可以使用机器学习模型来处理所确定的头部姿势、所确定的手部姿势和场景信息，以确定表示用户的预测注视的预测焦点206。机器学习模型可以确定，由于用户正在阅读写字夹板202a，因此预测焦点206可以位于写字夹板202a上或附近。在特定实施例中，虚拟现实系统可以基于预测注视，来改变虚拟现实环境200的显示。

图3图示了训练机器学习模型以预测用户注视的示例过程300。在特定实施例中，过程300可以通过将多个图像(诸如图像302)馈送到机器学习模型中来开始。图像302可以被处理以标识感兴趣的对象304。在特定实施例中，机器学习模型可以使用如本文描述的输入数据来确定感兴趣对象。在特定实施例中，图像302可以对应于目标练习虚拟现实环境，其中用户可以通过使用对象304a-304h瞄准各种目标304i、304j、304k、304l。在特定实施例中，机器学习模型可以访问基础真值图像306，基础真值图像306包括用户注视的多个标识的确定焦点308a-308m。在特定实施例中，可以通过使用眼跟踪传感器和/或用户确认，来生成基础真值图像306。基础真值图像306内的多个确定的焦点308可以由突出显示的绿色区域表示。在特定实施例中，机器学习模型可以生成包括多个预测焦点312a-312m的预测焦点图像310。在特定实施例中，预测焦点312中的每个预测焦点可以被呈现为表示预测焦点312在该位置处的概率的热图。在特定实施例中，较浅的绿色阴影可以表示预测焦点312可能位于该处的概率低。红色可以表示预测焦点312可能位于该处的概率高。可以将预测焦点312与基础真值图像306的确定焦点308进行比较。在特定实施例中，可以基于确定焦点308和预测焦点312的比较，来进一步更新机器学习模型。此外，在大量样本之后，由机器学习模型生成的预测焦点312可以比确定焦点308更准确。例如，眼跟踪传感器可能并不总是准确。在特定实施例中，机器学习模型还可以使用输入数据，来准确地确定预测焦点312。在特定实施例中，机器学习模型可以基于用户正在完成的任务，来确定预测焦点312。例如，代替目标304j-304l，对象304a-304h可以都具有更高的用户正在查看它们的概率。作为示例而非限制，机器学习模型可以确定，用户正在完成击中目标304j-304l的特定任务，并且将需要对象304a-304h以便击中目标304j-304l。如此，用户最初可能更有可能查看对象304a-304h。在特定实施例中，机器学习模型可以标识注视序列。注视序列可以是用户为了查看各种渲染环境而遵循的模式。作为示例而非限制，用户可以最初查看渲染环境内的最大对象，然后查看下一个最大对象，或者用户可以最初查看渲染环境内最接近的对象，然后查看下一个最接近的对象。对于目标练习虚拟现实环境，由于用户正在完成击中目标304j-304l的任务，因此用户可能遵循特定的注视序列。即，用户最初可以查看对象304a-304h，以拾起扔向目标304j-304l。在用户选择对象之后，用户可以将他们的注意力引向目标304j-304l。如此，机器学习模型可以预测，对象304a-304h可以最初具有预测焦点312位于它们相应位置处的高概率，然后目标304j-304l可以具有预测焦点312位于它们相应位置处的高概率，并且对象304a-304h可以具有减小的概率。

图4图示了用于使用机器学习模型确定用户注视的示例方法400。在特定实施例中，虚拟现实系统可以用于确定用户正在查看的预测焦点。方法400可以开始于步骤410，其中计算系统(例如，虚拟现实系统)可以生成并且向用户显示渲染环境。在步骤420处，计算系统可以基于与用户佩戴的头戴式装置相关联的头戴式装置跟踪数据，来确定用户的头部姿势。在步骤430处，计算系统可以基于手部跟踪数据，来确定用户的手部姿势。在步骤440处，计算系统可以访问与所显示的渲染环境相关联的场景信息。在步骤450处，计算系统可以通过使用机器学习模型处理头部姿势、手部姿势和场景信息来确定用户在渲染环境内的预测焦点。在适当的情况下，特定实施例可以重复图4的方法的一个或多个步骤。尽管本公开将图4的方法的特定步骤描述和图示为以特定顺序出现，但本公开预期了以任何适当顺序出现的图4的方法的任何适当步骤。此外，尽管本公开描述和图示了用于使用机器学习模型确定用户注视的示例方法(包括图4的方法的特定步骤)，但本公开预期了使用机器学习模型确定用户注视的任何适当方法，其包括任何适当的步骤，在适当的情况下，任何适当的步骤可以包括图4的方法的步骤中的所有步骤、一些步骤或不包括任何步骤。此外，尽管本公开描述和图示了实施图4的方法的特定步骤的特定组件、设备或系统，但本公开预期了实施图4的方法的任何适当步骤的任何适当的组件、设备或系统的任何适当的组合。

虽然本公开在执行各种功能的虚拟现实系统的上下文中描述和图示了过程，但是计算系统(例如，被实施为社交网络系统160或第三方系统170的服务器)可以应付该处理，并且将结果发送到虚拟现实系统。在特定实施例中，计算系统可以接收图像，并且将图像发送到另一个计算系统以进行处理。

图5图示了与虚拟现实系统相关联的示例网络环境500。网络环境500包括与客户端系统530交互的用户501、社交网络系统560和第三方系统570，这些部件通过网络510彼此连接。尽管图5图示了用户501、客户端系统530、社交网络系统560、第三方系统570和网络510的特定布置，但是本公开预期了用户501、客户端系统530、社交网络系统560、第三方系统570和网络510的任何适当的布置。作为示例而非限制，在用户501、客户端系统530、社交网络系统560和第三方系统570中的两个或多个可以绕过网络510而直接连接到彼此。作为另一示例，客户端系统530、社交网络系统560和第三方系统570中的两个或多个可以全部或部分地在物理上或逻辑上彼此位于相同位置。此外，尽管图5图示了特定数量的用户501、客户端系统530、社交网络系统560、第三方系统570和网络510，但是本公开预期了任意适当数量的客户端系统530、社交网络系统560、第三方系统570和网络510。作为示例而非限制，网络环境500可以包括多个用户501、客户端系统530、社交网络系统560、第三方系统570和网络510。

本公开预期了任何适当的网络510。作为示例而非限制，网络510的一个或多个部分可以包括自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网，或这些中的两个或多个的组合。网络510可以包括一个或多个网络510。

链路550可以将客户端系统530、社交网络系统560和第三方系统570连接到通信网络510或连接到彼此。本公开预期了任何适当的链路550。在特定实施例中，一个或多个链路550包括一个或多个有线(诸如例如数字用户线路(DSL)或基于电缆的数据服务接口规范(DOCSIS))链路、无线(诸如例如Wi-Fi或全球互通微波接入(WiMAX))链路，或光(诸如例如同步光网络(SONET)或同步数字体系(SDH))链路。在特定实施例中，一个或多个链路550各自包括自组织网络、内联网、外联网、VPN、LAN、WLAN、WAN、WWAN、MAN、互联网的一部分、PSTN的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、另一链路550，或两个或多个这种链路550的组合。链路550不需要在整个网络环境500中一定是相同的。一个或多个第一链路550可以在一个或多个方面上不同于一个或多个第二链路550。

在特定实施例中，客户端系统530可以是一种电子设备，该电子设备包括硬件、软件或嵌入式逻辑组件，或两个或多个这种组件的组合，并且能够执行由客户端系统530实现或支持的适当功能。作为示例而非限制，客户端系统530可以包括计算机系统，诸如台式计算机、笔记本或膝上型计算机、上网本、平板计算机、电子书阅读器、GPS设备、相机、个人数字助理(PDA)、手持电子设备、蜂窝电话、智能手机、虚拟现实头戴式装置和控制器、其他适当的电子设备，或其任何适当的组合。本公开预期了任何适当的客户端系统530。客户端系统530可以使在客户端系统530处的网络用户能够访问网络510。客户端系统530可以使它的用户能够与在其他客户端系统530处的其他用户进行通信。客户端系统530可以为用户生成虚拟现实环境以与内容交互。

在特定实施例中，客户端系统530可以包括虚拟现实(或增强现实)头戴式装置532(诸如OCULUS RIFT等)以及(多个)虚拟现实输入设备534(诸如虚拟现实控制器)。客户端系统530处的用户可以佩戴虚拟现实头戴式装置532，并且使用(多个)虚拟现实输入设备与虚拟现实头戴式装置532生成的虚拟现实环境536进行交互。尽管未示出，但客户端系统530也可以包括单独的处理计算机和/或虚拟现实系统的任何其他组件。虚拟现实头戴式装置532可以生成虚拟现实环境536，虚拟现实环境536可以包括系统内容538(包括但不限于操作系统)(诸如软件或固件更新)，并且还包括第三方内容540，诸如来自应用的内容或从互联网动态下载的内容(例如网页内容)。虚拟现实头戴式装置532可以包括(多个)传感器542(诸如加速度计、陀螺仪、磁力计)，以生成跟踪头戴式装置设备532的定位的传感器数据。头戴式装置532可以进一步包括眼跟踪器，用于跟踪用户眼睛的位置或他们的观看方向。客户端系统可以使用来自(多个)传感器542的数据来确定关于头戴式装置的速度、取向和重力。(多个)虚拟现实输入设备534可以包括(多个)传感器544(诸如加速度计、陀螺仪、磁力计和触摸传感器)，以生成跟踪输入设备534的定位和用户手指位置的传感器数据。客户端系统530可以利用外向内(outside-in)跟踪，其中跟踪相机(未示出)被放置在虚拟现实头戴式装置532的外部并且在虚拟现实头戴式装置532的视线内。在外向内跟踪中，跟踪相机可以跟踪虚拟现实头戴式装置532的定位(例如，通过跟踪虚拟现实头戴式装置532上的一个或多个红外LED标记)。备选地或附加地，客户端系统530可以利用内向外跟踪，其中跟踪相机(未示出)可以被放置在虚拟现实头戴式装置532本身上或在虚拟现实头戴式装置532本身内。在内向外跟踪中，跟踪相机可以捕获现实世界中其周围的图像，并且可以使用现实世界不断变化的视角来确定其自身在空间中的位置。

第三方内容540可以包括web浏览器(诸如MICROSOFT INTERNET EXPLORER、GOOGLECHROME或MOZILLA FIREFOX)，并且可以具有一个或多个附加件、插件或其他扩展件(诸如TOOLBAR或YAHOO TOOLBAR)。在客户端系统530处的用户可以输入统一资源定位符(URL)或将web浏览器引导到特定的服务器(诸如服务器562或与第三方系统570相关联的服务器)的其他地址，并且web浏览器可以生成超文本传输协议(HTTP)请求并且将HTTP请求传递到服务器。服务器可以接受HTTP请求，并响应于HTTP请求而向客户端系统530传递一个或多个超文本标记语言(HTML)文件。客户端系统530可以基于来自服务器的HTML文件来显现web界面(例如网页)用于呈现给用户。本公开预期了任何适当的源文件。作为示例而非限制，可以根据特定的需要根据HTML文件、可扩展超文本标记语言(XHTML)文件或可扩展标记语言(XML)文件来显现web界面。这种界面还可以执行脚本，诸如例如并且没有限制地，用JAVASCRIPT、JAVA、MICROSOFT SILVERLIGHT编写的脚本、标记语言和脚本的组合(诸如AJAX(异步JAVASCRIPT和XML))等。在本文中，在适当的情况下，对web界面的引用包括一个或多个相应的源文件(浏览器可以使用这些源文件来显现web界面)，反之亦然。

在特定实施例中，社交网络系统560可以是可以托管在线社交网络的网络可寻址计算系统。社交网络系统560可以生成、存储、接收和发送社交网络数据(诸如例如，用户简档数据、概念简档数据、社交图信息或与在线社交网络相关的其他适当的数据)。社交网络系统560可以由网络环境500的其他组件直接地或经由网络510来访问。作为示例而非限制，客户端系统530可以使用第三方内容540的web浏览器或与社交网络系统560相关联的原生应用(例如，移动社交网络应用、消息传递应用、另一适当的应用或其任何组合)直接地或经由网络510来访问社交网络系统560。在特定实施例中，社交网络系统560可以包括一个或多个服务器562。每个服务器562可以是整体式服务器(unitary server)或跨越多台计算机或多个数据中心的分布式服务器。服务器562可以具有各种类型，诸如，例如并且没有限制，web服务器、新闻服务器、邮件服务器、消息服务器、广告服务器、文件服务器、应用服务器、交换服务器、数据库服务器、代理服务器、适合于执行本文描述的功能或过程的另一服务器，或者其任何组合。在特定实施例中，每个服务器562可以包括硬件、软件或嵌入式逻辑组件，或用于执行由服务器562实现或支持的适当功能的两个或多个这种组件的组合。在特定实施例中，社交网络系统560可以包括一个或多个数据储存库564。数据储存库564可以用于存储各种类型的信息。在特定实施例中，可以根据特定的数据结构来组织存储在数据储存库564中的信息。在特定实施例中，每个数据储存库564可以是关系数据库、纵列(columnar)数据库、相关性数据库或其他适当的数据库。尽管本公开描述或图示了特定类型的数据库，但是本公开预期了任何适当类型的数据库。特定实施例可以提供使客户端系统530、社交网络系统560或第三方系统570能够管理、检索、修改、添加或删除存储在数据储存库564中的信息的接口。

在特定实施例中，社交网络系统560可以在一个或多个数据储存库564中存储一个或多个社交图。在特定实施例中，社交图可以包括多个节点——其可以包括多个用户节点(各自对应于特定用户)或多个概念节点(各自对应于特定概念)——以及连接节点的多条边。社交网络系统560可以向在线社交网络的用户提供与其他用户通信和交互的能力。在特定实施例中，用户可以经由社交网络系统560加入在线社交网络，且然后添加与社交网络系统560中的他们想要连接到的多个其他用户的连接(例如，关系)。在本文中，术语“朋友”可以指用户经由社交网络系统560与其形成连接、关联或关系的社交网络系统560的任何其他用户。

在特定实施例中，社交网络系统560可以向用户提供对由社交网络系统560支持的各种类型的项目或对象采取行动的能力。作为示例而非限制，项目和对象可以包括社交网络系统560的用户可以属于的群组或社交网络、用户可能感兴趣的事件或日历条目、用户可以使用的基于计算机的应用、允许用户经由服务来购买或销售商品的交易、用户可以执行的与广告的交互，或其他适当的项目或对象。用户可以与能够在社交网络系统560中或者由第三方系统570的外部系统表示的任何事物进行交互，第三方系统570与社交网络系统560分离并且经由网络510耦合到社交网络系统560。

在特定实施例中，社交网络系统560能够链接各种实体。作为示例而非限制，社交网络系统560可以使用户能够彼此交互以及从第三方系统570或其他实体接收内容，或者允许用户通过应用编程接口(API)或其他通信渠道与这些实体交互。

在特定实施例中，第三方系统570可以包括一种或更多种类型的服务器、一个或多个数据储存库、一个或多个接口(包括但不限于API)、一个或多个web服务、一个或多个内容源、一个或多个网络或任何其他适当的组件(例如，服务器可以与这些组件通信)。第三方系统570可以由与操作社交网络系统560的实体不同的实体进行操作。然而，在特定实施例中，社交网络系统560和第三方系统570可以结合彼此来操作以向社交网络系统560或第三方系统570的用户提供社交网络服务。在这个意义上，社交网络系统560可以提供平台或骨干网，其他系统(诸如第三方系统570)可以使用该平台或骨干网来在整个互联网上向用户提供社交网络服务和功能。

在特定实施例中，第三方系统570可以包括第三方内容对象提供者。第三方内容对象提供者可以包括可以被传递到客户端系统530的内容对象的一个或多个源。作为示例而非限制，内容对象可以包括关于用户感兴趣的事情或活动的信息，诸如例如电影放映时间、电影评论、餐馆评论、餐馆菜单、产品信息和评论或其他适当的信息。作为另一示例而不是限制，内容对象可以包括激励内容对象(诸如优惠券、折扣券、礼品券或其他适当的激励对象)。

在特定实施例中，社交网络系统560还包括用户生成的内容对象，其可以增强用户与社交网络系统560的交互。用户生成的内容可以包括用户可以添加、上传、发送或“发布”到社交网络系统560的任何内容。作为示例而非限制，用户将帖子从客户端系统530传送到社交网络系统560。帖子可以包括数据，诸如状态更新或其他文本数据、位置信息、照片、视频、链接、音乐或其他类似数据或媒体。内容还可以由第三方通过“通信渠道”(诸如动态消息或流)来添加到社交网络系统560。

在特定实施例中，社交网络系统560可以包括各种服务器、子系统、程序、模块、日志和数据储存库。在特定实施例中，社交网络系统560可以包括下列项中的一个或多个：web服务器、行动记录器、API请求服务器、相关性和排序引擎、内容对象分类器、通知控制器、行动日志、第三方内容对象暴露日志、推理模块、授权/隐私服务器、搜索模块、广告定位模块、用户界面模块、用户简档储存器、连接储存器、第三方内容储存器或定位储存器。社交网络系统560可以进一步包括适当的组件，诸如网络接口、安全机构、负载平衡器、故障转移服务器、管理和网络操作控制台、其他适当的组件，或其任何适当的组合。在特定实施例中，社交网络系统560可以包括用于存储用户简档的一个或多个用户简档储存库。用户简档可以包括例如，传记信息、人口统计信息、行为信息、社交信息或其他类型的描述性信息(诸如工作经历、教育历史、爱好或偏好、兴趣、亲和力或定位)。兴趣信息可以包括与一个或多个类别相关的兴趣。类别可以是一般的或特定的。作为示例而非限制，如果用户“赞(like)”关于一种品牌的鞋的文章，该类别可以是品牌，或者“鞋”或“衣服”的一般类别。连接储存器可以用于存储关于用户的连接信息。连接信息可以指示具有相似或共同的工作经历、组成员资格、爱好、教育历史或者以任何方式相关或共享共同属性的用户。连接信息可以进一步包括在不同用户和内容(内部和外部)之间的用户定义的连接。web服务器可以用于经由网络510将社交网络系统560链接到一个或多个客户端系统530或一个或多个第三方系统570。web服务器可以包括邮件服务器或用于在社交网络系统560和一个或多个客户端系统530之间接收和路由(routing)消息的其他消息传递功能。API请求服务器可以允许第三方系统570通过调用一个或多个API来访问来自社交网络系统560的信息。行动记录器可以用于从web服务器接收关于用户在社交网络系统560上或之外的行动的通信。结合行动日志，可以维护用户暴露于第三方内容对象的第三方内容对象日志。通知控制器可以向客户端系统530提供关于内容对象的信息。信息可以作为通知被推送到客户端系统530，或者信息可以响应于从客户端系统530接收的请求而从客户端系统530中被拉取。授权服务器可以用于实施社交网络系统560的用户的一个或多个隐私设置。用户的隐私设置确定与用户相关联的特定信息可以如何被分享。授权服务器可以诸如例如通过设置适当的隐私设置来允许用户选择加入或选择退出使他们的行动由社交网络系统560记录或者与其他系统(例如，第三方系统570)共享。第三方内容对象储存器可以用于存储从第三方(诸如第三方系统570)接收的内容对象。定位储存器可以用于存储从与用户相关联的客户端系统530接收的定位信息。广告定价模块可以组合社交信息、当前时间、定位信息或其他适当的信息，来以用通知的形式向用户提供相关广告。

图6图示了示例计算机系统600。在特定实施例中，一个或多个计算机系统600执行本文描述或图示的一个或多个方法的一个或多个步骤。在特定实施例中，一个或多个计算机系统600提供本文描述或图示的功能。在特定实施例中，在一个或多个计算机系统600上运行的软件执行本文描述或图示的一个或多个方法的一个或多个步骤，或者提供本文描述或图示的功能。特定实施例包括一个或多个计算机系统600的一个或多个部分。在本文中，在适当的情况下，对计算机系统的引用可以包括计算设备，反之亦然。此外，在适当的情况下，对计算机系统的引用可以包括一个或多个计算机系统。

本公开预期了任何适当数量的计算机系统600。本公开预期了计算机系统600采取任何适当的物理形式。作为示例而非限制，计算机系统600可以是嵌入式计算机系统、片上系统(SOC)、单板计算机系统(SBC)(诸如例如，模块上计算机(COM)或模块上系统(SOM))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、大型机、计算机系统网状网、移动电话、个人数字助理(PDA)、服务器、平板计算机系统，或者这些中的两个或多个的组合。在适当的情况下，计算机系统600可以包括一个或多个计算机系统600；是整体式的或分布式的；跨越多个定位；跨越多台机器；跨越多个数据中心；或者驻留在云中，云可以包括在一个或多个网络中的一个或多个云组件。在适当的情况下，一个或多个计算机系统600可以在没有实质性空间或时间限制的情况下执行本文描述或图示的一个或多个方法的一个或多个步骤。作为示例而非限制，一个或多个计算机系统600可以实时地或以批处理模式来执行本文描述或图示的一个或多个方法的一个或多个步骤。在适当的情况下，一个或多个计算机系统600可以在不同的时间或在不同的定位处执行本文描述或图示的一个或多个方法的一个或多个步骤。

在特定实施例中，计算机系统600包括处理器602、存储器604、存储装置606、输入/输出(I/O)接口608、通信接口610和总线612。尽管本公开描述和图示了具有在特定布置中的特定数量的特定组件的特定计算机系统，但是本公开预期了具有在任何适当布置中的任何适当数量的任何适当组件的任何适当的计算机系统。

在特定实施例中，处理器602包括用于执行指令(诸如构成计算机程序的那些指令)的硬件。作为示例而非限制，为了执行指令，处理器602可以从内部寄存器、内部高速缓存、存储器604或存储装置606中检索(或取回)指令；将他们解码并且执行它们；以及然后将一个或多个结果写到内部寄存器、内部高速缓存、存储器604或存储装置606。在特定实施例中，处理器602可以包括用于数据、指令或地址的一个或多个内部高速缓存。在适当的情况下，本公开预期了处理器602包括任何适当数量的任何适当的内部高速缓存。作为示例而非限制，处理器602可以包括一个或多个指令高速缓存、一个或多个数据高速缓存，以及一个或多个转译后备缓冲区(TLB)。在指令高速缓存中的指令可以是在存储器604或存储装置606中的指令的副本，并且指令高速缓存可以加速处理器602对那些指令的检索。在数据高速缓存中的数据可以是：在存储器604或存储装置606中的数据的副本，用于使在处理器602处执行的指令进行操作；在处理器602处执行的先前指令的结果，用于由在处理器602处执行的后续指令访问或者用于写到存储器604或存储装置606；或其他适当的数据。数据高速缓存可以加速由处理器602进行的读或写操作。TLB可以加速关于处理器602的虚拟地址转译。在特定实施例中，处理器602可以包括用于数据、指令或地址的一个或多个内部寄存器。在适当的情况下，本公开预期了处理器602包括任何适当数量的任何适当的内部寄存器。在适当的情况下，处理器602可以包括一个或多个算术逻辑单元(ALU)；是多核处理器；或者包括一个或多个处理器602。尽管本公开描述和图示了特定的处理器，但是本公开预期了任何适当的处理器。

在特定实施例中，存储器604包括用于存储用于使处理器602执行的指令或用于使处理器602操作的数据的主存储器。作为示例而非限制，计算机系统600可以将指令从存储装置606或另一个源(例如，诸如另一个计算机系统600)加载到存储器604。处理器602然后可以将指令从存储器604加载到内部寄存器或内部高速缓存。为了执行指令，处理器602可以从内部寄存器或内部高速缓存中检索指令并且将它们解码。在指令的执行期间或之后，处理器602可以将一个或多个结果(其可以是中间结果或最终结果)写到内部寄存器或内部高速缓存。处理器602然后可以将这些结果中的一个或多个写到存储器604。在特定实施例中，处理器602仅执行在一个或多个内部寄存器或内部高速缓存中或在存储器604(而不是存储装置606或其他地方)中的指令，并且仅对在一个或多个内部寄存器或内部高速缓存中或在存储器604(而不是存储装置606或其他地方)中的数据进行操作。一个或多个存储器总线(其可以各自包括地址总线和数据总线)可以将处理器602耦合到存储器604。如下所述，总线612可以包括一个或多个存储器总线。在特定实施例中，一个或多个存储器管理单元(MMU)驻留在处理器602和存储器604之间，并且便于由处理器602请求的对存储器604的访问。在特定实施例中，存储器604包括随机存取存储器(RAM)。在适当的情况下，该RAM可以是易失性存储器。在适当的情况下，该RAM可以是动态RAM(DRAM)或静态RAM(SRAM)。此外，在适当的情况下，该RAM可以是单端口RAM或多端口RAM。本公开预期了任何适当的RAM。在适当的情况下，存储器604可以包括一个或多个存储器604。尽管本公开描述和图示了特定的存储器，但是本公开预期了任何适当的存储器。

在特定实施例中，存储装置606包括用于数据或指令的大容量存储装置。作为示例而非限制，存储装置606可以包括硬盘驱动器(HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器，或这些中的两个或多个的组合。在适当的情况下，存储装置606可以包括可移动或不可移动(或固定)介质。在适当的情况下，存储装置606可以在计算机系统600的内部或外部。在特定实施例中，存储装置606是非易失性固态存储器。在特定实施例中，存储装置606包括只读存储器(ROM)。在适当的情况下，该ROM可以是掩模编程ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可变ROM(EAROM)，或闪存，或这些中的两个或多个的组合。本公开预期了采用任何适当的物理形式的大容量存储装置606。在适当的情况下，存储装置606可以包括便于在处理器602和存储装置606之间的通信的一个或多个存储装置控制单元。在适当的情况下，存储装置606可以包括一个或多个存储装置606。尽管本公开描述和图示了特定的存储装置，但是本公开预期了任何适当的存储装置。

在特定实施例中，I/O接口608包括为在计算机系统600和一个或多个I/O设备之间的通信提供一个或多个接口的硬件、软件或两者。在适当的情况下，计算机系统600可以包括这些I/O设备中的一个或多个。这些I/O设备中的一个或多个可以实现在人和计算机系统600之间的通信。作为示例而非限制，I/O设备可以包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态相机、触笔、平板计算机、触摸屏、跟踪球、视频相机、另一个适当的I/O设备，或这些中的两个或多个的组合。I/O设备可以包括一个或多个传感器。本公开预期了任何适当的I/O设备以及用于它们的任何适当的I/O接口608。在适当的情况下，I/O接口608可以包括使处理器602能够驱动这些I/O设备中的一个或多个的一个或多个设备或软件驱动器。在适当的情况下，I/O接口608可以包括一个或多个I/O接口608。尽管本公开描述和图示了特定的I/O接口，但是本公开预期了任何适当的I/O接口。

在特定实施例中，通信接口610包括提供用于在计算机系统600和一个或多个其他计算机系统600或一个或多个网络之间的通信(例如，诸如基于分组的通信)的一个或多个接口的硬件、软件或两者。作为示例而非限制，通信接口610可以包括用于与以太网或其他基于有线的网络进行通信的网络接口控制器(NIC)或网络适配器，或用于与无线网络(诸如Wi-Fi网络)进行通信的无线NIC(WNIC)或无线适配器。本公开预期了任何适当的网络和用于它的任何适当的通信接口610。作为示例而非限制，计算机系统600可以与自组织网络、个域网(PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)或互联网的一个或多个部分，或这些中的两个或多个的组合进行通信。这些网络中的一个或多个的一个或多个部分可以是有线的或无线的。作为示例，计算机系统600可以与无线PAN(WPAN)(例如，诸如蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(例如，诸如全球移动通信系统(GSM)网络)，或其他适当的无线网络，或这些中的两个或多个的组合进行通信。在适当的情况下，计算机系统600可以包括用于这些网络中的任一个的任何适当的通信接口610。在适当的情况下，通信接口610可以包括一个或多个通信接口610。尽管本公开描述和图示了特定的通信接口，但是本公开预期了任何适当的通信接口。

在特定实施例中，总线612包括将计算机系统600的组件耦合到彼此的硬件、软件或两者。作为示例而非限制，总线612可以包括加速图形端口(AGP)或其他图形总线、扩展工业标准体系结构(EISA)总线、前端总线(FSB)、HYPERTRANSPORT(HT)互连、工业标准体系结构(ISA)总线、INFINIBAND互连、低引脚数(LPC)总线、存储器总线，微通道体系结构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCIe)总线、串行高级技术附件(SATA)总线、视频电子标准协会本地(VLB)总线，或任何其他适当的总线，或这些中的两个或多个的组合。在适当的情况下，总线612可以包括一个或多个总线612。尽管本公开描述和图示了特定总线，但是本公开预期了任何适当的总线或互连。

在本文中，在适当的情况下，一个或多个计算机可读非暂态存储介质可以包括一个或多个基于半导体的或其他集成电路(IC)(例如，现场可编程门阵列(FPGA)或专用IC(ASIC))、硬盘驱动器(HDD)、混合硬盘驱动器(HHD)、光盘、光盘驱动器(ODD)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(FDD)、磁带、固态驱动器(SSD)、RAM驱动器、安全数字(SECUREDIGITAL)卡或驱动器、任何其他适当的计算机可读非暂态存储介质，或这些中的两个或多个的任何适当组合。在适当的情况下，计算机可读非暂态存储介质可以是易失性的、非易失性的或者易失性和非易失性的组合。

本文中，除非另有明确指示或通过上下文另有指示，否则“或”是包括一切的而非排他性的。因此在本文中，除非另有明确指示或通过上下文另有指示，否则“A或B”意指“A、B或两者”。此外，除非另有明确指示或通过上下文另有指示，否则“和”既是联合的又是各自的。因此在本文中，除非另有明确指示或通过上下文另有指示，否则“A和B”意指“A和B，联合地或各自地”。

本公开的范围包括本领域中的普通技术人员将理解的对本文描述或图示的示例实施例的所有改变、替换、变化、变更和修改。本公开的范围不限于本文描述或图示的示例实施例。此外，尽管本公开将本文的相应实施例描述和图示为包括特定的组件、元件、特征、功能、操作或步骤，但是这些实施例中的任何一个可以包括本领域中的普通技术人员将理解的在本文任何地方描述或图示的任何组件、元件、特征、功能、操作或步骤的任何组合或置换。此外，在所附权利要求中对适合于、被布置成、能够、被配置成、实现来、可操作来，或操作来执行特定功能的装置或系统或装置或系统的组件的引用包括该装置、系统、组件，无论它或那个特定功能是否被激活、开启或解锁，只要该装置、系统或组件是这样被调整、被布置、使能够、被配置、被实现、可操作的，或操作的。此外，尽管本公开将特定实施例描述或图示为提供特定优点，但是特定实施例可以提供这些优点中的一些、全部或不提供这些优点。

Claims

1.一种方法，包括由计算系统：

生成并且向用户显示渲染环境；

基于与所述用户佩戴的头戴式装置相关联的头戴式装置跟踪数据，确定所述用户的头部姿势；

基于手部跟踪数据，确定所述用户的手部姿势；

访问与所显示的所述渲染环境相关联的场景信息；以及

通过使用机器学习模型处理所述头部姿势、所述手部姿势和所述场景信息，确定所述用户在所述渲染环境内的预测焦点。

2.根据权利要求1所述的方法，还包括：

基于所述用户在所述渲染环境内的所述预测焦点，调整由所述计算系统呈现给所述用户的图像。

3.根据权利要求1所述的方法，其中所述头部姿势相对于所述渲染环境被确定。

4.根据权利要求1所述的方法，其中所述手部姿势相对于所述渲染环境或所述用户佩戴的所述头戴式装置中的一项被确定。

5.根据权利要求1所述的方法，其中确定所述用户的所述手部姿势包括：

基于耦合到所述计算系统的一个或多个相机来标识所述用户的手部，所述计算系统分析包括所述用户的所述手部的多个图像。

6.根据权利要求1所述的方法，其中所述手部跟踪数据与所述用户的手抓握或佩戴的设备相关联。

7.根据权利要求6所述的方法，还包括：

确定由所述用户的所述手抓握或佩戴的所述设备执行的行动，并且其中确定所述预测焦点进一步包括：使用所述机器学习模型，处理由所述用户的所述手抓握或佩戴的所述设备执行的所述行动。

8.根据权利要求1所述的方法，其中所述场景信息包括颜色和深度数据，或者其中所述场景信息包括所述渲染环境内的一个或多个元素的语义信息。

9.根据权利要求1所述的方法，其中所述预测焦点是所述渲染环境内的三维坐标。

10.根据权利要求1所述的方法，其中所述渲染环境与应用相关联，并且其中所述应用与类别有关，并且其中所述场景信息包括与所述应用有关的所述类别。

11.根据权利要求1所述的方法，还包括：

使用所述机器学习模型，生成针对所述预测焦点的一个或多个位置的置信图，其中所述置信图分配所述预测焦点在所述一个或多个位置中的每个位置处的概率，并且其中确定所述预测焦点包括利用所述置信图。

12.根据权利要求1所述的方法，其中所述预测焦点在没有眼跟踪传感器的情况下被确定。

13.根据权利要求1所述的方法，其中所述渲染环境包括增强现实环境、虚拟现实环境或混合现实环境中的一项或多项。

14.一个或多个计算机可读非暂态存储介质，其实施软件，所述软件在被执行时可操作，以执行根据权利要求1至13中任一项所述的方法，或者以：

生成并且向用户显示虚拟现实环境；

基于与所述用户的手抓握或佩戴的设备相关联的手部跟踪数据，确定所述用户的手部姿势；

访问与所显示的所述虚拟现实环境相关联的场景信息；以及

通过使用机器学习模型处理所述头部姿势、所述手部姿势和所述场景信息，确定所述用户在所述虚拟现实环境内的预测焦点。

15.一种系统，包括：一个或多个处理器；以及耦合到所述处理器的非暂态存储器，所述非暂态存储器包括能够由所述处理器执行的指令，所述处理器在执行所述指令时可操作，以执行根据权利要求1至13中任一项所述的方法，或者以：

生成并且向用户显示虚拟现实环境；

访问与所显示的所述虚拟现实环境相关联的场景信息；以及