CN114222960A

CN114222960A - 用于计算机生成现实的多模态输入

Info

Publication number: CN114222960A
Application number: CN202080057569.5A
Authority: CN
Inventors: R·德赛; M·努尔卡米
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-09-09
Filing date: 2020-09-09
Publication date: 2022-03-22
Also published as: US20210074072A1; US11698674B2; US20230315196A1; WO2021050595A1; EP4028862A1

Abstract

本主题技术的具体实施提供至少部分地基于电子设备是否通信地联接到相关联的基础设备来确定该电子设备的操作模式。基于所确定的操作模式，本主题技术识别用于发起该电子设备的视野内的内容的记录的一组输入模态。本主题技术监测由包括在该电子设备中的或通信地联接到该电子设备的至少一个传感器生成的传感器信息。此外，当所监测的传感器信息指示已经触发了所识别的一组输入模态中的至少一个输入模态时，本主题技术发起该电子设备的视野内的内容的记录。

Description

用于计算机生成现实的多模态输入

相关申请的交叉引用

本专利申请要求2019年9月9日提交的名称为“Multimodal Inputs forComputer-Generated Reality”的美国临时专利申请第62/897,909号的优先权权益，该专利申请的公开内容在此全文并入本文。

技术领域

本说明书整体上涉及计算机生成现实环境，包括在计算机生成现实环境中利用多模态输入。

背景技术

增强现实技术旨在通过提供利用电子信息增强的增强物理环境来桥接虚拟环境和物理环境之间的间隙。因此，电子信息看起来是用户感知的物理环境的一部分。在一个示例中，增强现实技术进一步提供用户界面以与在增强的物理环境中覆盖的电子信息交互。

附图说明

本主题技术的一些特征在所附权利要求书中被示出。然而，出于解释的目的，在以下附图中阐述了本主题技术的若干实施方案。

图1示出了根据一个或多个具体实施的包括可实现本主题系统的各种电子设备的示例性系统架构。

图2示出了根据本主题技术的一个或多个具体实施的可在电子设备上实现的示例性软件架构。

图3A示出了根据本主题技术的具体实施的面部表情跟踪以发起计算机生成现实记录的示例。

图3B和图3C示出了根据本主题技术的具体实施的跟踪注视方向以发起计算机生成现实记录的示例。

图4A、图4B和图4C示出了根据本主题技术的一些具体实施的确定计算机生成现实环境内的感兴趣区域并且基于该感兴趣区域发起记录的示例。

图5A、图5B和图5C示出了根据本主题技术的一些具体实施的向计算机生成现实环境内的各种对象或实体提供注释的示例。

图6示出了用于发起电子设备的视野内的内容的记录的示例过程的流程图。

图7示出了根据一个或多个具体实施的用于更新用于在电子设备上发起内容的记录的一组输入模态的示例性过程的流程图。

图8示出了根据一个或多个具体实施的用于确定与电子设备的操作模式相关联的服务质量度量的示例性过程的流程图。

图9示出了可实现本主题技术的一个或多个具体实施的电子系统。

具体实施方式

下面示出的具体实施方式旨在作为本主题技术的各种配置的描述并且不旨在表示本主题技术可被实践的唯一配置。附图被并入本文并且构成具体实施方式的一部分。具体实施方式包括具体的细节旨在提供对本主题技术的透彻理解。然而，本主题技术不限于本文阐述的具体细节，而是可以采用一个或多个其他具体实施来实践。在一个或多个具体实施中，以框图形式示出了结构和部件，以便避免使本主题技术的概念模糊。

计算机生成现实(CGR)系统使得物理环境和虚拟环境能够以不同程度组合以促进以实时方式与用户交互。因此，如本文所述，此类CGR系统可以包括物理环境和虚拟环境的各种可能组合，包括增强现实，其主要包括物理元素并且比虚拟环境(例如，没有物理元素)更接近物理环境。这样，物理环境可以通过CGR系统与虚拟环境连接。浸没在CGR环境中的用户可以在这种环境中进行导航，并且CGR系统可以跟踪用户的视点以基于用户如何位于该环境中而提供可视化。

物理环境是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

相反，计算机生成现实(CGR)环境是指人们经由电子系统感测和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的身体和/或头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感觉中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，该音频对象创建3D或空间音频环境，该3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。

虚拟现实(VR)环境是指被设计成对于一个或多个感觉完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟和/或通过在计算机生成的环境内人的物理移动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是介于一端为完全物理环境和一端为虚拟现实环境之间但不包括这两端的任何环境。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致移动使得虚拟树木相对于物理地面看起来是静止的。

增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置为在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境的一部分之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，该成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用该系统经由物理环境的图像或视频而间接地查看该物理环境，并且感知叠加在物理环境的一部分之上和/或物理环境的一部分之后的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指虚拟或计算机生成环境结合了来自实体环境的一项或多项感官输入的模拟环境。感官输入可以是物理环境的一个或多个特性的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的定位的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括移动设备、平板设备、基于投影的系统、平视显示器(HUD)、头戴式系统、集成有显示能力的交通工具挡风玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑或平板设备、以及台式/膝上型计算机。例如，头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以被配置成接受外部不透明显示器(例如，智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

本文所述的主题技术的具体实施提供了CGR系统，该CGR系统可以使用不同的输入模态来实现多模态，以用于记录CGR环境内的内容。不同输入模态的示例包括面部表情、手势、语音和/或显式硬件输入，其中的每一个输入模态可以单独工作和/或与其它输入模态中的一个或多个输入模态结合工作。因此，本文所述的输入模态可以互补方式起作用。此外，本主题技术使得能够选择CGR环境中的感兴趣区域并提供在CGR环境中检测到的对象和/或事件的注释。

图1示出了根据一个或多个具体实施的包括可实现本主题系统的各种电子设备的示例性系统架构100。然而，并非所有所描绘的部件均可在所有具体实施中使用，并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化，而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同的部件或更少的部件。

系统架构100包括电子设备105、手持式电子设备104、电子设备110、电子设备115和服务器120。出于解释的目的，系统架构100在图1中被示出为包括电子设备105、手持式电子设备104、电子设备110、电子设备115和服务器120；然而，系统架构100可包括任何数量的电子设备和任何数量的服务器或包括多个服务器的数据中心。

电子设备105可以例如实现为平板设备、手持式和/或移动设备或作为头戴式便携式系统(例如，由用户101佩戴)。电子设备105包括能够向用户呈现计算机生成现实环境的可视化的显示系统。电子设备105可用电池和/或另一种电源供电。在一个示例中，电子设备105的显示系统向用户提供计算机生成现实环境的立体呈现，使得能够提供特定场景渲染的三维视觉显示。在一个或多个具体实施中，代替利用电子设备105来访问计算机生成现实环境或除此之外，用户可使用手持式电子设备104，诸如平板电脑、手表、移动设备等。

电子设备105可包括一个或多个相机，诸如相机150(例如，可见光相机、红外相机等)。此外，电子设备105可包括各种传感器152，包括但不限于相机、图像传感器、触摸传感器、麦克风、惯性测量单元(IMU)、心率传感器、温度传感器、深度传感器(例如，激光雷达传感器、雷达传感器、声纳传感器、飞行时间传感器等)、GPS传感器、Wi-Fi传感器、近场通信传感器、无线射频传感器等。此外，电子设备105可包括可接收用户输入的硬件元件，诸如硬件按钮或开关。由此类传感器和/或硬件元件检测到的用户输入对应于例如用于在应用程序内发起共现会话的各种输入模态。例如，此类输入模态可包括但不限于面部跟踪、眼睛跟踪(例如，注视方向)、手部跟踪、姿态跟踪、生物识别读数(例如，心率、脉搏、瞳孔扩张、呼吸、温度、脑电图、嗅觉)、识别语音或音频(例如，特定热字词)以及激活按钮或开关等。

在一个或更多个具体实施中，电子设备105可通信地耦接到基础设备，诸如电子设备110和/或电子设备115。一般来讲，与电子设备105相比，此类基础设备可包括更多计算资源和/或可用功率。在一个示例中，电子设备105可以各种模式操作。例如，电子设备105可独立于任何基础设备以独立模式操作。当电子设备105以独立模式操作时，输入模态的数量可受到电子设备105的功率和/或处理限制(诸如设备的可用电池功率)的约束。响应于功率限制，电子设备105可停用设备自身内的某些传感器以保持电池功率和/或释放处理限制。

电子设备105还可以无线连线模式操作(例如，经由无线连接与基础设备连接)，从而与给定基础设备结合工作。电子设备105还可以电子设备105物理地连接到基础设备(例如，经由电缆或一些其他物理连接器)的连接模式工作，并且可利用由基础设备提供的电力资源(例如，在基础设备在物理地连接时对电子设备105充电的情况下)。

当电子设备105以无线连线模式或连接模式操作时，可将处理用户输入和/或渲染计算机生成现实环境的至少一部分卸载到基础设备，从而减少电子设备105上的处理负担。例如，在一个具体实施中，电子设备105结合电子设备110或电子设备115工作以生成计算机生成现实环境，该扩展现实环境包括以实时方式在用户与该计算机生成现实环境之间实现不同形式的交互(例如，视觉、听觉和/或物理或触觉交互)的物理对象和/或虚拟对象。在一个示例中，电子设备105提供对应于计算机生成现实环境的场景的渲染，该场景可被用户感知并以实时方式交互，诸如用于与另一用户的共现会话的主机环境。另外，作为呈现渲染场景的一部分，电子设备105可向用户提供声音和/或触觉或触感反馈。给定渲染场景的内容可能取决于可用处理能力、网络可用性和容量、可用电池功率和当前系统工作负载。

电子设备105还可检测已发生在计算机生成现实环境的场景内的事件。此类事件的示例包括检测场景中特定人、实体或对象的存在。响应于检测到的事件，电子设备105可以在计算机生成现实环境中提供对应于检测到的事件的注释(例如，以元数据的形式)。

网络106可将例如电子设备104、电子设备105、电子设备110和/或电子设备115与每个其他设备和/或服务器120通信地(直接或间接)耦接。在一个或多个具体实施中，网络106可以是可包括互联网或可通信地耦接到互联网的设备的互连网络。

电子设备110可包括触摸屏并且可以是例如包括触摸屏的智能电话、便携式计算设备，诸如包括触摸屏的膝上型计算机、包括触摸屏的配套设备(例如数字相机、耳机)、包括触摸屏的平板设备、包括触摸屏的可穿戴设备(诸如手表、腕带等)、包括例如触摸屏的任何其他适当设备或者任何具有触控板的电子设备。在一个或多个具体实施中，电子设备110可不包括触摸屏，但可支持触摸屏类似的手势，诸如在计算机生成现实环境中。在一个或多个具体实施中，电子设备110可包括触控板。在图1中，通过举例的方式，电子设备110被描绘为具有触摸屏的移动智能电话设备。在一个或多个具体实施中，电子设备110、手持式电子设备104和/或电子设备105可以是以及/或者可以包括下文相对于下文相对于图9讨论的电子系统所讨论的电子设备的全部或部分。在一个或多个具体实施中，电子设备110可为另一个设备，诸如互联网协议(IP)相机、平板电脑或配套设备诸如电子触笔等。

电子设备115可为例如台式计算机、便携式计算设备诸如膝上型计算机、智能电话、配套设备(例如，数字相机、耳机)、平板设备、可穿戴设备诸如手表、腕带等。在图1中，通过举例的方式，电子设备115被描绘为台式计算机。电子设备115可以是和/或可包括下文相对于图9讨论的电子系统的全部或部分。

服务器120可形成计算机网络或服务器组130的全部或部分，诸如在云计算或数据中心实施中。例如，服务器120存储数据和软件，并且包括用于渲染和生成计算机生成的现实环境的内容诸如图形、图像、视频、音频和多媒体文件的具体硬件(例如，处理器、图形处理器和其他专用或定制处理器)。在一个具体实施中，服务器120可用作云存储服务器，该云存储服务器存储由上述设备和/或服务器120生成的任何前述计算机生成现实内容。

图2示出了根据一个或多个具体实施的可在电子设备105上实现的示例性软件架构200。出于说明的目的，软件架构200被描述为由图1的电子设备105实现，诸如由电子设备105的处理器和/或存储器实现；然而，该软件架构200可由任何其他电子设备实现，包括电子设备115和/或电子设备120。然而，并非所有所描绘的部件均可在所有具体实施中使用，并且一个或多个具体实施可包括与图中所示的那些相比附加的或不同的部件。可进行这些部件的布置和类型的变化，而不脱离本文所列出的权利要求的实质或范围。可提供附加的部件、不同的部件或更少的部件。

如在电子设备105上实现的软件架构200包括框架。如本文所用的框架可以指作为较大软件平台的一部分提供特定功能性以促进软件应用程序的开发的软件环境，并且可提供一个或多个应用程序编程接口(API)，开发者可利用该一个或多个应用程序编程接口来以程序化方式设计计算机生成现实环境并处理用于此类计计算机生成现实环境的操作。

如图所示，提供了记录框架230。记录框架230可以提供用于记录由如上文所论述的输入模态提供的计算机生成现实环境的功能。提供事件检测器220，其接收对应于来自各种输入模态的输入的信息。提供系统管理器210以监测来自电子设备105的资源并基于可用资源确定服务质量度量。系统管理器210可以做出选择对应于相应输入模态的特定硬件部件的决策，以根据该服务质量度量来激活和/或去活，例如以释放处理资源、节省功率资源等。例如，可以关闭用于跟踪面部表情的相机，或者可以关闭用于跟踪手势的另一相机。

在一个或多个具体实施中，当特定硬件被去激活时，电子设备105可以提供通知以警告用户特定的输入模态不可用。类似地，电子设备105可以提供通知以警告用户在激活特定硬件时该特定的输入模态可用。

图3A示出了根据本主题技术的具体实施的面部表情跟踪以发起计算机生成现实记录的示例。以下讨论涉及电子设备105的部件，其包括各种相机或图像传感器，以实现用户面部的面部跟踪。

在具体实施中，电子设备105可以利用各种传感器来跟踪使用电子设备105的用户301的面部表情。如图所示，用户的面部内的不同区域可以由电子设备105的传感器跟踪。例如，相机可以跟踪用户301的右眉毛310和左眉毛312的移动。另一个相机可以跟踪包括右眼的区域302和包括左眼的区域304的移动。不同的相机可以跟踪第一区域308(例如，包括鼻部的顶点和鼻孔)和/或第二区域306(例如，包括鼻部的鼻背和/或鼻梁)的移动。又一个相机可以跟踪用户301的口部316。此外，特定相机可以跟踪包括用户301的下巴的下颌314。

尽管上面讨论了各种相机，但是应当理解，相同的相机可以跟踪用户面部的多于一个部分并且仍然处于主题技术的范围内。例如，相同的相机可以用于跟踪用户的下颌314和用户301的口部316。

可以独立地分析来自各种相机的信息，或者由事件检测器220组合使用。事件检测器220可以使用该信息来检测用户的面部的面部表情。响应于检测到的面部表情，事件检测器220可向记录框架230发送请求以在计算机生成现实环境内发起记录，例如，对特定感兴趣区域或视场的记录。

不同类型的面部表情可以对应于用户301的各种情绪。在示例中，电子设备105确定检测到的面部表情对应于特定情绪(例如，惊讶、生气、高兴)并且响应于基于检测到的面部表情的情绪来发起计算机生成现实环境的记录。

图3B和图3C示出了根据本主题技术的具体实施的跟踪注视方向以发起计算机生成现实记录的示例。以下讨论涉及电子设备105的部件，该电子设备包括各种相机，以使得能够跟踪用户面部的眼睛的注视方向。

如图3B所示，分析了由电子设备105的至少一个相机捕获的图像以确定用户的眼睛在视野内的相对位置。在具体实施中，电子设备105可以区分用户的瞳孔，并且可以利用瞳孔相对于眼睛位置的相对位置来确定注视方向。例如，在图3C中，电子设备105可以使用用户的瞳孔相对于用户的眼睛的检测到的位置，并且确定在视野320内用户正看着的电子设备105的显示器上的区域。另外，在具体实施中，电子设备105还可以检测到例如用户闭合他或她的眼睛特定时间段的运动，这可以用于在计算机生成现实环境内发起记录。

事件检测器220可以分析上述信息以确定注视方向。事件检测器220可以使用该信息来确定用户眼睛的注视方向。响应于所确定的注视方向，事件检测器220可向记录框架230发送请求以在计算机生成现实环境内发起记录。例如，响应于确定用户的注视方向处于特定方向或朝向计算机生成现实环境的当前场景中的特定对象或人，事件检测器220可以将此类请求发送到记录框架230以发起记录。

图4A、图4B和图4C示出了根据本主题技术的一些具体实施的确定计算机生成现实环境内的感兴趣区域并且基于该感兴趣区域发起记录的示例。以下讨论涉及电子设备105的部件。

在具体实施中，可以使用一个或多个输入模态来识别感兴趣区域，该感兴趣区域是计算机生成现实环境内的记录的焦点。例如，用户可以执行手势或一些其他交互(例如，按下电子设备105上的按钮或开关，提供热词或语音)以识别感兴趣区域。还应理解，用户可以组合地利用一个或多个输入模式来识别感兴趣区域和/或发起记录。此外，如上所述，可以在检测到在场景内发生的事件(诸如，场景中人的存在)时发起记录。

如图4A所示，场景410示出在计算机生成现实环境中正发生的体育赛事(例如，冰上曲棍球)。在此示例中，通过使用特定的输入模态，用户已经选择了对应于计算机生成现实环境的当前场景中的冰球的感兴趣区域404。在场景410中，冰球朝向对应于第一冰球运动员的人402移动。事件检测器220已经检测到特定人406的存在(例如，明星冰球运动员)，并且作为响应，通过向记录框架230发送请求来发起计算机生成现实环境的记录。

在图4B中，场景420示出特定人406已经移动到与场景410中最初的位置不同的位置。该记录框架230继续记录计算机生成现实环境并且聚焦在感兴趣区域404上，因为冰球移动地更靠近场景420中的人402的曲棍。因此，感兴趣区域404可以移动或正在运动，并且该记录移动或跟踪感兴趣区域。在具体实施中，记录框架230记录整个场景420，尽管有感兴趣区域404。在记录的未来回放期间，记录的呈现可以聚焦在对应于冰球的感兴趣区域404上。

在图4C中，场景430示出特定的人406移动到与场景420中的位置不同的位置，并且完全处于场景430的视图框内。该记录框架230继续记录计算机生成现实环境并且聚焦在感兴趣区域404上，因为冰球移动跨过场景430中的冰场。

图5A、图5B和图5C示出了根据本主题技术的一些具体实施的向计算机生成现实环境内的各种对象或实体提供注释的示例。以下讨论涉及电子设备105的部件。

在图5A中，场景502被渲染给用户并且包括计算机生成现实环境内的各种对象或实体。在图5B中，事件检测器220检测人504、动物508和交通工具506的存在。在示例中，当记录的视频流被传递到事件检测器220时发生对象的检测。事件检测器220将对应于检测到的人504、动物508和交通工具506的信息转发到记录框架230。基于接收到的信息，记录框架230生成对应于人504的注释512。记录框架230还生成对应于交通工具506的注释514。此外，记录框架230生成对应于动物508的注释516。另选地，事件检测器220可以生成上述注释，并且记录框架230可以将注释存储为具有对应于该注释的坐标(和/或其它信息)的元数据。上述注释可以被存储为与场景内容的记录相关联的元数据，诸如，在示例中添加要包含的元数据作为内容的记录的一部分(例如，现在包含元数据的该内容记录的修改版本)。在示例中，将对象标识和识别为人、动物等，并且与所标识的对象相关联地存储元数据。在具体实施中，对应于注释的此类元数据可以存储在电子设备105的存储器中，和/或包括在计算机生成现实记录中，和/或单独存储在不同的电子设备(例如，服务器或基础设备)中。还应理解，可以将不同的注释集合应用于给定的计算机生成现实记录，从而使得能够结合记录的回放实现不同注释的各种使用。

在图5C中，电子设备105向场景502渲染更新，该场景现在显示对应于人504的注释512、对应于交通工具506的注释514以及对应于动物508的注释516。如图所示，注释被渲染作为场景502的一部分，该场景可以包括对应于物理环境的元素，该元素与数字生成内容(例如，注释)混合。在一些具体实施中，此类注释可以以不同格式提供或者不显示在场景中。例如，可以以音频形式向用户提供注释，用作用户当前正在经历的计算机生成现实环境的叙述。

图6示出了根据一个或多个具体实施的用于发起电子设备105的视野内的内容的记录的示例过程600的流程图。出于解释的目的，本文主要参考图1和图2的电子设备105来描述过程600。然而，过程600不限于图1和图2中的电子设备105，并且过程600的一个或多个框(或操作)可由其他合适设备的一个或多个其他部件来执行。进一步出于解释的目的，过程600的框在本文中被描述为顺序地或线性地发生。然而，过程600的多个框可并行发生。此外，过程600的框不必按所示顺序执行，并且/或者过程600的一个或多个框不必执行和/或可由其他操作替代。

如图6所示，电子设备105至少部分地基于电子设备105是否通信地联接到相关联的基础设备来确定操作模式(610)。基于所确定的操作模式，电子设备105识别用于发起电子设备105的视野内的内容的记录的一组输入模态(612)。电子设备105监测由包括在电子设备105中的或通信地联接到电子设备105的至少一个传感器生成的传感器信息(614)。当所监测的传感器信息指示已经触发了所识别的一组输入模态中的至少一个输入模态时，电子设备105发起在电子设备105的视野内的内容的记录(616)。

图7示出了根据一个或多个具体实施的用于更新用于在电子设备105上发起内容的记录的一组输入模态的示例性过程700的流程图。出于解释的目的，本文主要参考图1和图2的电子设备105来描述过程700。然而，过程700不限于图1和图2中的电子设备105，并且过程700的一个或多个框(或操作)可由其他合适设备的一个或多个其他部件来执行。进一步出于解释的目的，过程700的框在本文中被描述为顺序地或线性地发生。然而，过程700的多个框可并行发生。此外，过程700的框不必按所示顺序执行，并且/或者过程700的一个或多个框不必执行和/或可由其他操作替代。

如图7所示，电子设备105检测到电子设备105的操作模式已改变(710)。响应于检测到该改变，电子设备105基于改变的操作模式来更新用于发起内容的记录的一组输入模态(712)。

图8示出了根据一个或多个具体实施的用于确定与电子设备105的操作模式相关联的服务质量度量的示例性过程的流程图800。

如图8所示，电子设备105确定与电子设备105的操作模式相关联的服务质量度量(810)。至少部分地基于该服务质量度量，电子设备105选择至少一个输入模态(812)。电子设备105提供该至少一个输入模态作为用于发起电子设备105的视野内的内容的记录的该组输入模态(814)。

如上所述，本技术的一个方面在于收集和使用得自各种来源的数据。本公开预期，在一些实例中，这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可以包括人口统计数据、基于位置的数据、电话号码、电子邮件地址、社交网络标识符、家庭地址、与用户的健康或健身级别相关的数据或记录(例如，生命体征测量、药物信息、锻炼信息)、出生日期或任何其他识别或个人信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。本公开还预期个人信息数据有益于用户的用途。例如，健康和健身数据可用于向用户的总体健康状况提供见解，或者可用作使用技术来追求健康目标的个人的积极反馈。

本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问，并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。此外，应在收到用户知情同意后进行此类采集/共享。此外，此类实体应考虑采取任何必要步骤，保卫和保障对此类个人信息数据的访问，并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外，应当调整政策和实践，以便采集和/或访问的特定类型的个人信息数据，并适用于包括管辖范围的具体考虑的适用法律和标准。例如，在美国，对某些健康数据的收集或获取可能受联邦和/或州法律的管辖，诸如健康保险流通和责任法案(HIPAA)；而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此，在每个国家应为不同的个人数据类型保持不同的隐私实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，本技术可被配置为允许用户在注册服务期间或其后随时选择参与采集个人信息数据的“选择加入”或“选择退出”。除了提供“选择加入”和“选择退出”选项外，本公开设想提供与访问或使用个人信息相关的通知。例如，可在下载应用时向用户通知其个人信息数据将被访问，然后就在个人信息数据被应用访问之前再次提醒用户。

此外，本公开的目的是应管理和处理个人信息数据以最小化无意或未经授权访问或使用的风险。一旦不再需要数据，通过限制数据收集和删除数据可最小化风险。此外，并且当适用时，包括在某些健康相关应用程序中，数据去标识可用于保护用户的隐私。可在适当时通过移除特定标识符(例如，出生日期等)、控制所存储数据的量或特异性(例如，在城市级别而不是在地址级别收集位置数据)、控制数据如何被存储(例如，在用户之间聚合数据)、和/或其他方法来促进去标识。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案，但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如，可通过基于非个人信息数据或少量的个人信息，诸如与用户相关联的设备请求的内容，其他非个人信息或公开可用的信息来选择内容并且递送至用户。

图9示出了可利用以实现本主题技术的一个或多个具体实施的电子系统900。电子系统900可以是图1所示的电子设备105、电子设备104、电子设备110、电子设备115和/或服务器120并且/或者可以是其一部分。电子系统900可包括各种类型的计算机可读介质以及用于各种其他类型的计算机可读介质的接口。电子系统900包括总线908、一个或多个处理单元912、系统存储器904(和/或缓存)、ROM 910、永久性存储设备902、输入设备接口914、输出设备接口906以及一个或多个网络接口916，或其子集及变体形式。

总线908总体表示通信地连接电子系统900的许多内部设备的全部系统总线、外围设备总线和芯片组总线。在一个或多个具体实施中，总线908将一个或多个处理单元912与ROM 910、系统存储器904和永久性存储设备902通信地连接。一个或多个处理单元912从这些各种存储器单元检索要执行的指令和要处理的数据，以便执行本主题公开的过程。在不同的具体实施中，一个或多个处理单元912可为单个处理器或者多核处理器。

ROM 910存储一个或多个处理单元912以及电子系统900的其他模块所需的静态数据和指令。另一方面，永久性存储设备902可为读写存储器设备。永久性存储设备902可为即使在电子系统900关闭时也存储指令和数据的非易失性存储器单元。在一个或多个具体实施中，海量存储设备(诸如，磁盘或光盘及其对应的磁盘驱动器)可被用作永久性存储设备902。

在一个或多个具体实施中，可移除存储设备(诸如软盘、闪存驱动器及其对应的磁盘驱动器)可以用作永久性存储设备902。与永久性存储设备902一样，系统存储器904可为读写存储器设备。然而，与永久性存储设备902不同，系统存储器904可为易失性读写存储器，诸如随机存取存储器。系统存储器904可存储一个或多个处理单元912在运行时可能需要的指令和数据中的任何指令和数据。在一个或多个具体实施中，本主题公开的过程被存储在系统存储器904、永久性存储设备902和/或ROM 910中。一个或多个处理单元912从这些各种存储器单元检索要执行的指令和要处理的数据，以便执行一个或多个具体实施的过程。

总线908还连接至输入设备接口914和输出设备接口906。输入设备接口914使得用户能够向电子系统900传送信息以及选择命令。可与输入设备接口914一起使用的输入设备可包括例如字母数字混合键盘和指向设备(也称为“光标控制设备”)。输出设备接口906可例如使得能够显示电子系统900所生成的图像。可与输出设备接口906一起使用的输出设备可包括例如打印机和显示设备，诸如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、柔性显示器、平板显示器、固态显示器、投影仪或用于输出信息的任何其他设备。一个或多个具体实施可包括既充当输入设备又充当输出设备的设备，诸如触摸屏。在这些具体实施中，提供给用户的反馈可以是任何形式的感官反馈，诸如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声学、语音或触觉输入。

最后，如图9所示，总线908还通过一个或多个网络接口916将电子系统900联接到一个或多个网络和/或联接到一个或多个网络节点，例如图1中所示的电子设备110。以此方式，电子系统900可以是计算机网络(诸如LAN、广域网(“WAN”)或内联网)的一部分，或者可以是网络的网络(诸如互联网)的一部分。电子系统900的任何或全部部件可与本主题公开一起使用。

上述这些功能可在计算机软件、固件或硬件中实现。该技术可使用一个或多个计算机程序产品实现。可编程处理器和计算机可包括在移动设备中或封装为移动设备。该过程和逻辑流程可由一个或多个可编程处理器和一个或多个可编程逻辑电路执行。通用和专用计算设备以及存储设备可通过通信网络互连。

一些具体实施包括将计算机程序指令存储在机器可读或计算机可读介质(也称为计算机可读存储介质、机器可读介质或机器可读存储介质)中的电子部件，诸如微处理器、存储装置以及存储器。此类计算机可读介质的一些示例包括RAM、ROM、只读光盘(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、只读数字通用光盘(例如，DVD-ROM、双层DVD-ROM)、各种可刻录/可重写DVD(例如，DVD-RAM、DVD-RW、DVD+RW等)、闪存存储器(例如，SD卡，mini-SD卡、micro-SD卡等)、磁性和/或固态硬盘驱动器、只读和可刻录

盘、超密度光盘、任何其他光学或磁性介质以及软盘。计算机可读介质可存储计算机程序，该计算机程序可由至少一个处理单元执行并且包括用于执行各种操作的指令集。计算机程序或者计算机代码的示例包括机器代码，诸如由编译器所产生的机器代码，以及包括可由计算机、电子部件或微处理器使用解译器来执行的更高级别代码的文件。

虽然上述论述主要涉及执行软件的微处理器或多核处理器，但一些具体实施由一个或多个集成电路诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)执行。在一些具体实施中，此类集成电路执行存储在电路自身上的指令。

如本说明书以及本专利申请的任何权利要求所用，术语“计算机”、“服务器”、“处理器”及“存储器”均是指电子或其它技术设备。这些术语排除人或者人的群组。出于本说明书的目的，术语显示或正在显示意指在电子设备上显示。如本说明书以及本专利申请的任何权利要求所使用的，术语“计算机可读介质”以及“计算机可读媒介”完全限于以可由计算机读取的形式存储信息的可触摸的有形物体。这些术语不包括任何无线信号、有线下载信号以及任何其他短暂信号。

为了提供与用户的交互，本说明书中所述的主题的具体实施可在具有用于向用户显示信息的显示设备以及用户可用来向计算机提供输入的键盘和指向设备的计算机上实现，显示设备为例如CRT(阴极射线管)或LCD(液晶显示器)监视器，指向设备为例如鼠标或轨迹球。其他种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，计算机可通过向用户所使用的设备发送文档以及从其接收文档来与用户进行交互；例如，通过响应于从用户客户端设备上的web浏览器接收的请求而将网页发送到该web浏览器。

本说明书中所述的主题的实施方案可在计算系统中实现，该计算系统包括后端部件，例如作为数据服务器，或者包括中间件部件，例如应用服务器，或者包括前端部件，例如具有图形用户界面或Web浏览器的客户端计算机，用户可通过该图形用户界面或Web浏览器与本说明书中所述的主题的具体实施进行交互，或者包括一个或多个此类后端部件、中间件部件或前端部件的任何组合。系统的部件可通过任何形式或介质的数字数据通信例如通信网络来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如，互联网)和对等网络(例如，自组织对等网络)。

计算系统可包括客户端和服务器。客户端和服务器一般是相互远离的，并且可通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在某些具体实施中，服务器将数据(例如，HTML页面)传输到客户端设备(例如，为了向与该客户端设备交互的用户显示数据以及从与该客户端设备交互的用户接收用户输入)。在服务器处可以从客户端设备接收客户端设备处生成的数据(例如，用户交互的结果)。

本领域的技术人员将会认识到，本文所述的各种例示性的框、模块、元件、部件、方法和算法可被实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性，上文已经一般性地按照功能性对各种例示性的框、模块、元件、部件、方法和算法进行了描述。此类功能性是被实现为硬件还是软件取决于具体应用以及对整个系统施加的设计约束。所述功能可针对每个特定应用以不同方式实现。各种部件和框可被不同地布置(例如，以不同的顺序排列，或以不同的方式划分)，而不脱离本主题技术的范围。

应当理解，本发明所公开的过程中的步骤的特定顺序或分级结构为示例性方法的例示。基于设计优选要求，应当理解，过程中的步骤的特定顺序或者分级结构可被重新布置。该步骤中的一些步骤可被同时执行。所附方法权利要求呈现样本次序中的各种步骤的元素，并且不意味着限于所呈现的特定顺序或分级结构。

先前的描述被提供以使得本领域的技术人员能够实践本文所述的各个方面。先前描述提供了本主题技术的各种示例，并且本主题技术不限于这些示例。这些方面的各种修改对本领域的技术人员而言是显而易见的，并且本文所限定的通用原则可应用于其他方面。因此，本权利要求书并非旨在受限于本文所示的各个方面，而是旨在使得全部范围与语言权利要求书一致，其中提及单数形式的要素并非旨在意味着“仅仅一个”，而是指“一个或多个”，除非被具体指出。除非另外特别说明，否则术语“一些”是指一个或多个。男性的代名词(例如，他的)包括女性和中性(例如，她的和它的)，并且反之亦然。标题和副标题(如果有的话)仅用于方便，并不限制本文所述的本发明。

如本文所用，术语网站可包括网站的任何方面，包括一个或多个网页、用于托管或存储网络相关内容的一个或多个服务器等。因此，术语网站可与术语网页和服务器互换使用。谓词字词“被配置为”、“能够操作以”以及“被编程以”并不意味着对某一主题进行任何特定的有形或无形的修改而是旨在可互换使用。例如，部件或被配置为监视和控制操作的处理器也可能意味着处理器被编程以监视和控制操作或者处理器能够操作以监视和控制操作。同样，被配置为执行代码的处理器可解释为被编程以执行代码或能够操作以执行代码的处理器。

如本文所用，术语自动可包括由计算机或机器的执行而无需用户干预；例如，通过响应于计算机或机器或其他启动机构的谓词动作的指令。字词“示例”在本文用于意指“用作示例或者例示”。本文作为“示例”所述的任何方面或者设计不一定被理解为比其他方面或者设计优选或者有利。

短语诸如“方面”不意味此方面对本主题技术是必需的或者此方面应用于本主题技术的所有配置。与一个方面相关的公开可应用于所有配置，或者一个或多个配置。一个方面可提供一个或多个示例。短语诸如方面可指一个或多个方面，反之亦然。短语诸如“实施方案”不意味此实施方案对本主题技术是必需的或者此实施方案应用于本主题技术的所有配置。与一个实施方案相关的公开可应用于所有实施方案，或者一个或多个实施方案。一个实施方案可提供一个或多个示例。短语诸如“实施方案”可指一个或多个实施方案，反之亦然。短语诸如“配置”不意味此配置是本主题技术必需的或者此配置应用于本主题技术的所有配置。与配置相关的公开可应用于所有配置或者一个或多个配置。配置可提供一个或多个示例。短语诸如“配置”可指一个或多个配置，并且反之亦然。

Claims

1.一种方法，包括：

至少部分地基于电子设备是否通信地联接到相关联的基础设备来确定所述电子设备的操作模式；

基于所确定的操作模式，识别用于发起所述电子设备的视野内的内容的记录的一组输入模态；

监测由包括在所述电子设备中的或通信地联接到所述电子设备的至少一个传感器生成的传感器信息；以及

当所监测的传感器信息指示已经触发了所识别的一组输入模态中的至少一个输入模态时，发起所述电子设备的视野内的内容的记录。

2.根据权利要求1所述的方法，还包括：

检测到所述电子设备的所述操作模式已改变；以及

响应于检测到所述改变，基于改变的操作模式来更新用于发起内容的所述记录的所述一组输入模态。

3.根据权利要求1所述的方法，其中所述相关联的基础设备对应于移动计算设备、膝上型电脑或台式计算机。

4.根据权利要求1所述的方法，其中识别用于发起内容的所述记录的所述一组输入模态还包括：

确定与所述电子设备的所述操作模式相关联的服务质量度量；

至少部分地基于所述服务质量度量，选择至少一个输入模态；以及

提供所述至少一个输入模态作为用于发起所述电子设备的所述视野内的内容的所述记录的所述一组输入模态。

5.根据权利要求4所述的方法，其中所述服务质量度量至少部分地基于所述电子设备中的可用计算资源或可用电力，所述可用电力包括电池电力的量。

6.根据权利要求4所述的方法，还包括：

去激活对应于所述电子设备中的至少一个传感器的特定输入模态，其中所述特定输入模态包括面部表情、注视方向、眼睛位置、手势、硬件输入、语音或场景中的对象或人的识别。

7.根据权利要求4所述的方法，还包括：

当所述服务质量度量低于阈值时，去激活所述电子设备中的特定传感器，其中所述特定传感器包括相机、惯性测量单元、麦克风或触摸传感器。

8.根据权利要求1所述的方法，还包括：

确定所述电子设备的所述视野中的感兴趣区域。

9.根据权利要求8所述的方法，其中基于与所述感兴趣区域相对应的手势或指示符来确定所述感兴趣区域。

10.根据权利要求1所述的方法，还包括：

生成与内容的所述记录相对应的注释；以及

将所述注释作为元数据添加到内容的所述记录。

11.一种系统，包括：

处理器；

存储器设备，所述存储器设备包含指令，所述指令在由所述处理器执行时使得所述处理器执行包括以下各项的操作：

12.根据权利要求11所述的系统，其中所述存储器设备包含另外的指令，所述另外的指令在由所述处理器执行时还使得所述处理器执行另外的操作，所述另外的操作还包括：

检测到所述电子设备的所述操作模式已改变；以及

13.根据权利要求11所述的系统，其中所述相关联的基础设备对应于移动计算设备、膝上型电脑或台式计算机。

14.根据权利要求11所述的系统，其中识别用于发起内容的所述记录的所述一组输入模态还使得所述处理器执行另外的操作，所述另外的操作还包括：

15.根据权利要求14所述的系统，其中所述服务质量度量至少部分地基于所述电子设备中的可用计算资源或可用电力，所述可用电力包括电池电力的量。

16.根据权利要求14所述的系统，其中所述存储器设备包含另外的指令，所述另外的指令在由所述处理器执行时还使得所述处理器执行另外的操作，所述另外的操作还包括：

17.根据权利要求14所述的系统，其中所述存储器设备包含另外的指令，所述另外的指令在由所述处理器执行时还使得所述处理器执行另外的操作，所述另外的操作还包括：

18.根据权利要求11所述的系统，其中所述存储器设备包含另外的指令，所述另外的指令在由所述处理器执行时还使得所述处理器执行另外的操作，所述另外的操作还包括：

确定所述电子设备的所述视野中的感兴趣区域，其中基于与所述感兴趣区域相对应的手势或指示符来确定所述感兴趣区域。

19.根据权利要求11所述的系统，其中所述存储器设备包含另外的指令，所述另外的指令在由所述处理器执行时还使得所述处理器执行另外的操作，所述另外的操作还包括：

生成与内容的所述记录相对应的注释；以及

将所述注释作为元数据添加到内容的所述记录。

20.一种包括指令的非暂态计算机可读介质，所述指令在由计算设备执行时，使得所述计算设备执行包括以下各项的操作：

监测由包括在所述电子设备中的或通信地联接到所述电子设备的至少一个传感器生成的传感器信息；

当所监测的传感器信息指示已经触发了所识别的一组输入模态中的至少一个输入模态时，发起所述电子设备的视野内的内容的记录；

检测到所述电子设备的所述操作模式已改变；以及