CN112306228A

CN112306228A - 计算机生成渲染环境的视觉搜索细化

Info

Publication number: CN112306228A
Application number: CN202010757211.5A
Authority: CN
Inventors: E·维尔马; D·乌布利希; A·布莱希施米特; M·H·拜格; C-Y·李; T·巴特拉
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-08-01
Filing date: 2020-07-31
Publication date: 2021-02-02
Also published as: US20220044486A1; KR20210016288A; US20210035367A1; KR20220084242A; US11189103B2; KR102406878B1; KR102590957B1; US11710283B2

Abstract

本公开涉及计算机生成渲染环境的视觉搜索细化。所公开的各种具体实施包括能够更快、更有效地进行实时物理对象识别、信息检索和CGR环境更新的设备、系统和方法。在一些具体实施中，基于所述物理对象、图像或视频数据的分类，在所述第一设备处提供所述CGR环境，包括：由所述第一设备将所述物理对象传输到第二设备，以及基于从所述第二设备接收的与物理对象相关联的响应，由所述第一设备更新所述CGR环境。

Description

计算机生成渲染环境的视觉搜索细化

技术领域

本发明涉及提供一种计算机生成渲染(CGR)环境，并且具体地讲，涉及用于识别物理对象并基于与所识别的物理对象相关联的信息更新该CGR环境的系统、方法和设备。

背景技术

在设备(例如，便携式电子设备)处提供由该设备在图像或视频数据中检测到的物理对象的信息，在计算上既昂贵又耗时，这通常导致与执行图像或视频数据的分割和对象识别相关联的处理延迟相当长。例如，该设备的用户可走进一个房间，然后经历相当长的延迟，之后该设备才能识别到房间内的一切对象。

发明内容

本发明公开的各种具体实施包括能够更快、更有效地进行实时物理对象识别、信息检索和CGR环境更新的设备、系统和方法。在一些具体实施中，一种具有处理器、显示器和相机的设备(例如移动计算设备或头戴式设备(HMD))实现了经由相机获得物理布景(setting)的图像或视频的方法。例如，该设备可捕获实时视频流。该设备基于与图像或视频中检测到的物理对象相关联的特征，将物理对象分类为一定类别，并根据该类别来在显示器上提供CGR环境。在一些具体实施中，该设备基于对物理对象的粗略识别来对物理对象进行分类，例如，基于相对较少的信息，或者使用处理要求比其他精细识别技术更低的处理技术。此外，可认为图像或视频的特定部分包含该对象。例如，该设备可基于对象的形状、颜色、尺寸、体积、标记或与该对象相关联的任意数量的简单或复杂特征通过局域神经网络检测到该对象是膝上型电脑，并且可基于将该物理对象分类为膝上型电脑类别而显示来自资源商店的通用膝上型电脑。在一些具体实施中，该设备可基于该类别，利用来自驻留在该设备上的资源商店的通用虚拟内容来替换、增强或补充该物理对象。

在一些具体实施中，该设备将图像或视频的一部分(例如，一些或全部)传输到第二设备(例如，服务器、台式计算机、云计算设备等)。例如，该设备可将图像或视频的包括该物理对象的部分发送到第二设备。在一些具体实施中，该设备确定该图像或视频是否满足隐私标准。此外，该设备可基于满足隐私标准来确定是否将该图像或视频的包括该物理对象的部分传输到第二设备。在一些具体实施中，该设备将一个或多个检测到的特征或所确定的类别传输到第二设备。

在一些具体实施中，该设备接收与对象相关联的响应，并基于该响应来更新显示器上的CGR环境。该响应是基于由该第二设备执行的对物理对象的识别来确定的。该第二设备基于对物理对象的精细识别而对物理对象进行识别，例如，基于相对较多的信息，或者使用处理要求比用于对象分类的粗略识别技术更多的处理技术。例如，该第二设备可访问在第一设备上不可用的稳定的对象信息库，以识别特定对象或获得关于该对象的特定信息。例如，与该对象相关联的响应可包括：对子类别(例如，X品牌的膝上型计算机)的识别、对特定类型的项(例如，型号)的识别、补充信息(例如，用户手册)、与对象相关联的动画、三维姿态、计算机辅助绘图(CAD)模型等。已从该第二设备接收到响应的该设备可基于该识别(例如，显示对膝上型电脑的描绘以匹配特定模型，显示与膝上型电脑相邻的用户手册等)来改变对该对象的描绘，或者可生成与该对象相关联的体验(例如，触发动画、提供三维姿态等)。在一些具体实施中，与该对象相关联的所接收的响应包括将由该设备用于识别未来图像或视频中的物理对象的识别数据(例如，属性的矢量、描述符等)。此外，在一些具体实施中，与该对象相关联的所接收的响应包括对物理对象的状况(例如，该设备是否是损坏的、未损坏的、润湿的、干燥的、竖直的或水平的等)的评估。

在一些具体实施中，该设备可将基于该类别显示的通用虚拟内容替换为基于与该对象相关联的所接收的响应的特定于对象的内容。

根据一些具体实施中，非暂态计算机可读存储介质中存储有指令，所述指令是计算机可执行的以执行或使得执行本文所述的任何方法。根据一些具体实施，一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序；该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且该一个或多个程序包括用于执行或使得执行本文所述方法中的任一种的指令。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1示出了根据一些具体实施的设置在设备的显示器上的物理环境的CGR环境。

图2示出了根据一些具体实施的由图1提供的CGR环境。

图3示出了根据一些具体实施的设置在设备上的包括特定于对象的内容的CGR环境，该特定于对象的内容基于从第二设备接收的与物理对象相关联的响应。

图4示出了根据一些具体实施的由图提供的CGR环境。

图5是根据一些具体实施的示例性设备的框图。

图6是根据一些具体实施的示例性设备的框图。

图7是根据一些具体实施的示出提供CGR环境的示例性方法的流程图。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的系统、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

具体实施方式

相关申请的交叉引用

本申请要求2019年8月1日提交的美国临时申请序列号62/881,476的权益，该申请全文以引用方式并入本文。

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将会知道，其他有效方面或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

参考图1和图2，示出了根据一些具体实施的示例性操作环境100。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作环境100包括设备120(例如，移动电子设备或头戴式设备(HMD))和设备145(例如，服务器、云计算设备、个人计算机或移动电子设备)，该设备120和设备145中的一者或两者可处于物理布景105中。物理布景105是指无需电子系统帮助个体就能够感知或个体能够与之交互的世界。物理布景(例如，物理森林)包括物理对象(例如，物理树、物理结构和物理动物)。个体可直接与物理布景相互作用或感知物理布景，诸如通过触摸、视觉、嗅觉、听觉和味觉。

在一些具体实施中，设备120被配置为管理和协调用户的计算机生成渲染(CGR)环境125，并且在一些具体实施中，设备120被配置为向用户呈现CGR环境125。在一些具体实施中，设备120包括软件、固件或硬件的合适组合。下文参考图5更详细地描述了设备120。

在一些具体实施中，设备120是相对于物理布景105处于本地或远程位置的计算设备。在一些具体实施中，设备120的功能由控制器提供或与控制器相结合(例如，位于物理布景105内的本地服务器或位于物理布景105以外的的远程服务器)。在一些具体实施中，设备120经由一个或多个有线或无线通信信道(例如，蓝牙、IEEE 802.11x、IEEE 802.16x、IEEE802.3x等)与其他设备或外围设备通信地耦接。

根据一些具体实施，当用户出现在物理布景105内时，设备120向用户呈现CGR环境125。与物理布景相比，CGR环境指的是一种完全或部分由计算机创建的布景，个人可经由电子系统感知或与之交互。

在一些具体实施中，提供CGR环境125包括虚拟现实(VR)。VR布景是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟布景。VR布景包括个体可与之交互或对其进行感知的多个虚拟对象。个体可通过在计算机创建的布景内模拟个体动作的子集或通过对个体或其在计算机创建的布景内的存在的模拟，来与VR布景中的虚拟对象进行交互或感知VR布景中的虚拟对象。

在一些具体实施中，提供CGR环境125包括混合现实(MR)。MR布景是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理布景的感官输入或其表示集成的模拟布景。在现实谱系上，混合现实布景介于(但不包括)一端的VR布景和另一端的完全物理布景之间。

在一些MR布景中，计算机创建的感官输入可以适应于来自物理布景的感官输入的变化。另外，用于呈现MR布景的一些电子系统可以监测相对于物理布景的取向或位置，以使虚拟对象能够与真实对象(即来自物理布景的物理对象或其表示)交互。例如，系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

混合现实的一个示例是增强现实(AR)。AR布景是指至少一个虚拟对象叠加在物理布景或其表示之上的模拟布景。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理布景的图像或视频，这些图像或视频是物理布景的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体使用系统经由物理布景的图像或视频间接地查看物理布景，并且观察叠加在物理布景之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理布景的图像，并且使用那些图像在不透明显示器上呈现AR布景时，所显示的图像被称为视频透传。另选地，用于显示AR布景的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理布景。该系统可在透明或半透明显示器上显示虚拟对象，使得个体使用该系统观察叠加在物理布景之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理布景中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体使用该系统观察叠加在物理布景之上的虚拟对象。

增强现实布景也可指其中物理布景的表示被计算机创建的感官信息改变的模拟布景。例如，物理布景的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表一个或多个初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于一个或多个图像传感器捕获的视点的特定视点。再如，物理布景的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

混合现实的另一个示例是增强虚拟(AV)。AV布景是指计算机创建布景或虚拟布景并入来自物理布景的至少一个感官输入的模拟布景。来自物理布景的一个或多个感官输入可为物理布景的至少一个特征的表示。例如，虚拟对象可呈现由一个或多个成像传感器捕获的物理对象的颜色。又如，虚拟对象可呈现出与物理布景中的实际天气条件相一致的特征，如经由天气相关的成像传感器或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

许多电子系统使得个体能够与各种形式的混合环境进行交互或感知各种形式的混合环境。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计为接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理布景的图像/视频或捕获物理布景的音频的一个或多个成像传感器或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，表示图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶，或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个具体实施中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理布景中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。

在一些具体实施中，设备120显示CGR环境125，使得用户115可同时在设备120的显示器上查看物理环境105，例如，设备在具有现实世界内容的现实世界坐标系中显示CGR环境125。在一些具体实施中，此类查看模式包括结合了CGR内容与物理环境105的现实世界内容的视觉内容。此外，CGR环境125可包括视频透视(例如，其中现实世界内容由相机捕获并与3D模型一起显示在显示器上)或光学透视内容(例如，其中现实世界内容直接或通过玻璃查看并通过显示3D模型来补充)。

例如，CGR环境125可通过将所渲染的三维(3D)图形整合到由板载相机捕获的实时视频流中而在消费者蜂窝电话的显示器上为用户115提供视频透视CGR。又如，CGR环境125可通过将所渲染的3D图形叠加到可穿戴透视HMD当中而为用户115提供光学透视CGR，从而借助于所叠加的3D模型以电子方式为用户增强现实世界的光学视图。

在一些具体实施中，物理环境10包括至少一个物理对象130。例如，物理对象130可为消费者电子设备(例如，膝上型电脑)、一件家具或艺术品、照片等。在一些具体实施中，设备120接收图像或视频数据，检测物理对象130，并且将图像或视频的一部分(例如，图像或视频中描绘物理环境105的部分135的那部分)识别为包括物理对象130。

在一些具体实施中，设备120基于与物理对象130相关联的一个或多个简单或复杂特征(例如，形状、颜色、尺寸、体积、标记等)通过局域神经网络对该物理对象130进行分类，并提供CGR环境125，该CGR环境125将物理环境105(例如，经由物理环境105的本地捕获的图像或视频)与对应于物理对象130的内容结合起来。例如，设备120可基于与物理对象130相关联的一个或多个简单或复杂特征诸如形状、颜色、尺寸、体积、标记通过局域神经网络对物理对象130(例如，膝上型电脑)进行粗略识别。在一些具体实施中，设备120将与物理对象相关联的特征(例如，形状、颜色、尺寸、体积、标记等)中的一个或多个特征传输到设备145。例如，设备120可识别与物理对象30相关联的标记，将标记传输到设备145，并且设备145可基于该标记来识别物理对象130(例如，该标记可与膝上型电脑的特定品牌和型号相关联)。

在一些具体实施中，设备120利用通用虚拟内容140替换、增强或补充CGR环境125中的物理对象130。例如，可基于物理对象130的所确定的类别从设备120上的资源商店获得通用虚拟内容140(例如，膝上型电脑标识符)。

各个具体实施使得设备120能够接收与物理对象130相关联的响应或关于物理对象130的附加信息。在一些具体实施中，设备120经由链路150将图像或视频的该部分(例如，图像或视频中描绘包括物理对象130的物理环境105的部分135的那部分)传输到设备145。例如，设备120可将图像或视频中包括膝上型电脑的部分发送到设备145(例如，远程服务器、个人计算机或云计算设备)。

然而，出于隐私原因，用户115可能不希望将与物理环境105相关联的数据发送到设备145(例如，远程服务器)。因此，在一些具体实施中，如果数据满足预先确定的隐私标准，则设备120仅将与物理环境105相关联的图像或视频数据发送到设备145。此外，在一些具体实施中，设备120通过确定图像或视频中的该部分是否满足隐私标准，从而确定是否将图像或视频中的该部分发送到设备145。此类隐私标准可包括该图像或视频是否包含人、姓名、识别号码、财务信息等。在一些具体实施中，用户115能够指定该用户不希望将图像或视频数据发送到设备145。例如，隐私标准可包括设备120上的配置设置是否被设置为允许将数据发送到设备145上。在一些具体实施中，隐私标准可包括数据是与特定类别的物理对象相关联还是在特定物理位置(例如，家或单位的GPS位置)收集。许多由用户指定的或按设备级配置的其他隐私标准，也可用于确定是否将图像或视频数据发送到设备145。

在一些具体实施中，设备145对物理对象130进行识别。例如，设备145可在比设备120进行的粗略识别更精细的水平下识别物理对象130。此外，设备120可将分类的类别传输到设备145。例如，设备120可将物理对象30分类为膝上型电脑，并且设备145可进一步识别物理对象130(例如，膝上型电脑的特定品牌和型号)。

如图1所示，根据一些具体实施，设备120是移动电子设备，并且根据一些具体实施，设备120是被配置为佩戴在用户115的头部上的HMD。此类HMD可包围用户115的视场。设备120包括被配置为显示CGR环境125的一个或多个屏幕或者其他显示器。在一些具体实施中，设备120括一个或多个屏幕或其他显示器，以显示具有用户115的视场中的现实世界内容的虚拟元素。在一些具体实施中，设备120被佩戴成使得一个或多个屏幕被定位成在用户115的视场中显示具有物理环境105的现实世界内容的CGR环境125。在一些具体实施中，提供CGR环境125的设备120是被配置为呈现CGR环境125的腔室、壳体或房间，，在该腔室、壳体或房间中用户115不佩戴或手持设备120。

如图3和图4所示，根据一些具体实施，设备120接收与物理对象130相关联的响应160，该响应是通过设备145对物理对象130进行识别来确定的。例如，所接收的响应160可包括子类别的识别、特定类型项的识别或补充信息。

在一些具体实施中，信息160在CGR环境125中呈现给用户115。例如，关于物理对象130的信息160可包括：子类别(例如，膝上型计算机)的识别、特定类型项目(例如，型号)的识别、补充信息(例如，用户手册、维修信息、辅助信息等)或对物理对象130的状况的评估。在一些具体实施中，通用虚拟内容140被替换成基于信息160的特定于对象的内容。例如，可将通用膝上型电脑描绘更改为对特定模型的描绘。

在一些具体实施中，设备120可从设备145接收对象识别数据，该数据将被设备120用于识别物理环境105的未来图像或视频中的物理对象130。例如，设备120可从设备145接收与物理对象130相关联的三维模型、矢量或描述符。在一些具体实施中，设备120可基于所接收的响应160来生成体验。例如，所接收的响应160可使设备120能够或以其他方式触发设备120，来显示与物理对象130相关联的动画、三维姿态或CAD模型。

如图3所示，根据一些具体实施，设备120是移动电子设备，并且根据一些具体实施，设备120是被配置为佩戴在用户115的头部上的HMD。

图5是根据一些具体实施的设备120的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，设备120包括一个或多个处理单元502(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器506、一个或多个通信接口508(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE、SPI、I2C或类似类型的接口)、一个或多个编程(例如，I/O)接口510、一个或多个显示器512、一个或多个面向内部或面向外部的图像传感器514、存储器520以及用于互连这些部件和各种其他部件的一条或多条通信总线504。

在一些具体实施中，一条或多条通信总线504包括互连和控制系统部件之间的通信的电路。在一些具体实施中，该一个或多个I/O设备及传感器506包括以下项中的至少一者：惯性测量单元(IMU)、加速度计、磁力计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血氧传感器、血糖传感器等)、一个或多个麦克风、一个或多个扬声器、触觉引擎或者一个或多个深度传感器(例如，结构光、飞行时间等)等。

在一些具体实施中，一个或多个显示器512被配置为向用户呈现CGR环境。在一些具体实施中，一个或多个显示器512对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电系统(MEMS)或类似显示器类型。在一些具体实施中，一个或多个显示器512对应于衍射、反射、偏振、全息等波导显示器。例如，设备120包括单个显示器。又如，设备120包括针对用户的每只眼睛的显示器。

在一些具体实施中，该一个或多个图像传感器系统514被配置为获得与用户的面部的包括该用户的眼睛的至少一部分对应的图像或视频数据。例如，该一个或多个图像传感器系统514包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、单色相机、IR相机、基于事件的相机等。在各种具体实施中，该一个或多个图像传感器系统514还包括对用户的面部的该部分发射光的照明源，诸如闪光灯或闪光源。

存储器520包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器520包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器520任选地包括与一个或多个处理单元502远程定位的一个或多个存储设备。存储器520包括非暂态计算机可读存储介质。在一些具体实施中，存储器520或者存储器520的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统530和CGR环境模块540。

操作系统530包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中，CGR环境模块540被配置为创建、编辑或体验CGR环境。内容创建单元542被配置为创建和编辑将用作一个或多个用户的CGR环境的一部分的CGR内容(例如，用于一个或多个用户的单个SR环境，或用于一个或多个用户的相应组的多个SR环境)。尽管这些模块和单元被示出为驻留在单个设备(例如，设备120)上，但应当理解，在其他具体实施中，这些模块和单元的任何组合可位于单独的计算设备中。

此外，图5更多地用作存在于特定具体实施中的各种特征部的功能描述，该各种特征部与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图5中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征部将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定具体实施选择的硬件、软件或固件的特定组合。

图6是根据一些具体实施的设备145的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，设备145包括一个或多个处理单元602(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器606、一个或多个通信接口608(例如，USB、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE、SPI、I2C或类似类型的接口)、一个或多个编程(例如，I/O)接口610、一个或多个显示器612、一个或多个面向内部或面向外部的图像传感器614、存储器620以及用于互连这些部件和各种其他部件的一条或多条通信总线604。

在一些具体实施中，一条或多条通信总线604包括互连和控制系统部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备及传感器606包括以下项中的至少一者：IMU、加速度计、磁力计、陀螺仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血液氧传感器、血糖传感器等)、一个或多个传声器、一个或多个扬声器、触觉引擎以及/或者一个或多个深度传感器(例如，结构光、飞行时间等)等。

在一些具体实施中，一个或多个显示器612被配置为向用户呈现CGR环境。在一些具体实施中，一个或多个显示器612对应于全息、DLP、LCD、LCoS、OLET、OLED、SED、FED、QD-LED、MEMS，或类似的显示器类型。在一些具体实施中，一个或多个显示器612对应于衍射、反射、偏振、全息等波导显示器。

在一些具体实施中，该一个或多个图像传感器系统614被配置为获得与用户的面部的包括该用户的眼睛的至少一部分对应的图像或视频数据。例如，该一个或多个图像传感器系统614包括一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、单色相机、IR相机、基于事件的相机等。在各种具体实施中，该一个或多个图像传感器系统614还包括对用户的面部的该部分发射光的照明源，诸如闪光灯或闪光源。

存储器620包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器620包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器620任选地包括与一个或多个处理单元602远程定位的一个或多个存储设备。存储器620包括非暂态计算机可读存储介质。在一些具体实施中，存储器620或者存储器620的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集，其中包括任选的操作系统630，对象数据库640和识别模块650。

在一些实施方案中，对象数据库640包括与特定物理对象或对象类别相关联的特性(例如，形状、颜色、尺寸、体积或标记)。例如，对象数据库640可包括促进物理对象识别的与对象相关联的任何信息。此外，在一些实施方案中，对象数据库640包括与物理对象或物理对象的类别相关联的模型库或虚拟内容库。

操作系统630包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中，识别模块650被配置为识别物理对象。对象识别单元652被配置为访问、创建和编辑将用于识别物理对象或对物理对象进行分类的对象识别数据。尽管这些模块和单元被示出为驻留在单个设备(例如，设备145)上，但应当理解，在其他具体实施中，这些模块和单元的任何组合可位于单独的计算设备中。

此外，图6更多地用作存在于特定具体实施中的各种特征部的功能描述，该各种特征部与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图6中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征部将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定具体实施选择的硬件、软件或固件的特定组合。

图7是根据一些具体实施的示出提供CGR环境的示例性方法的流程图。在一些具体实施中，方法700由设备(例如，图1至图6的设备120或设备145)执行。可在移动设备、HMD、台式计算机、膝上型计算机、服务器设备处或由彼此通信的多个设备执行方法700。在一些具体实施中，方法700由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法700由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。

在框702处，方法700中经由相机获得物理布景的图像或视频。在一个示例中，基于用户输入或选择来采集图像或视频，并且在另一个示例中，由设备自动采集图像或视频。

在框704处，方法700基于与在图像或视频中检测到的物理对象相关联的特征来将该物理对象分类为一个类别。在一个示例中，物理对象是电子设备(例如，膝上型电脑)，并且基于对包括形状、颜色、尺寸、体积、标记等特征中的任一个或组合的粗略识别来分类。此外，在另一个示例中，图像或视频的特定部分被识别为包含物理对象。

在框706处，方法700基于该类别来在显示器上提供计算机生成渲染(CGR)环境。在一个示例中，CGR环境包括物理对象的通用表示或识别，以及物理布景的其他描绘。

在框708处，方法700传输图像的一部分或与物理对象相关联的一个或多个特征。在一个示例中，图像或视频或者图像或视频的一部分被传输到远程服务器或云计算设备。又如，与物理对象相关联的特征被传输到另一个本地设备。此外，任何图像或视频数据的传输可基于确定图像或视频满足隐私标准(例如，用户定义的隐私设置、个人数据的识别等)。在一个示例中，方法700还可以传输在框704处确定的类别。

在框710处，方法700接收与对象相关联的响应，其中该响应是基于物理对象的识别来确定的。在一个示例中，从远程或本地设备接收响应，并且该响应包括子类别的识别、特定类型项的识别(例如，型号)、补充信息(例如，用户手册)或物理条件。此外，该响应可生成与对象相关联的体验(例如，触发动画、提供三维姿态等)。

在框712处，方法700基于所接收的响应在显示器上更新计算机生成渲染(CGR)环境。在一个示例中，方法700将物理对象的通用表示或识别的描绘更改为物理对象的更具体的表示或识别。又如，方法700显示与物理对象的表示接近的附加信息或资源。例如，所描绘的物理对象的分类可更改为物理对象的识别。在又一示例中，可邻近物理对象显示用户手册。又如，方法700中可显示与对象相关联的动画，如三维姿态或CAD模型。

本文所公开的各个具体实施提供了用于对物理对象进行分类和识别的技术，这些技术节省了计算资源并且实现了更快的处理。例如，佩戴HMD的用户可能想获得关于其周围环境的信息。然而，提供此类信息可能需要HMD对输入视频流执行分割和对象识别，这在计算上是既昂贵又耗时。因此，如果用户走进一个房间并且在识别到任何东西之前经历了相当长的延迟，则会产生不良体验，这会为用户带来不良体验。

然而，根据一些具体实施，在HMD上进行对象的粗略识别，以迅速提供关于对象的基本信息。此外，还将对象的粗略识别发送到服务器或云计算设备，在该服务器或云计算设备上执行更详细的分析以获得和返回详细识别。该服务器或云计算设备还可向HMD发送信息，该信息将促进HMD将来进行的对象识别。例如，由HMD发送到该服务器或云计算设备的信息可包括精简版的视觉搜索。由HMD从该服务器或云计算设备接收的信息可包括对象的学习版本的抽象表示或与元信息混合的同时定位和映射(SLAM)点云。此外，HMD可为由特定用户拥有的或换句话讲与特定用户相关联的对象的内存维持持久性。

在一个示例中，设备可存储有关先前识别的物理对象的信息，以供稍后使用或参考。在示例性使用案例中，零售店的用户可识别诸如桌子等物理对象。然后，用户可根据对用户家中或办公室中的物理对象的预先识别，检查该桌子是否适合用户的家或办公室。

此外，在MR应用中，物理对象的视图可由设备替换成虚拟对象。最初，物理对象可由设备替换成通用版的对象，但随后可基于从服务器或云计算设备接收的信息，通过该对象的更具体的3D表示来细化其视图。

本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而，本领域的技术人员将理解，可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中，没有详细地介绍普通技术人员已知的方法、设备或系统，以便不使要求保护的主题晦涩难懂。

除非另外特别说明，否则应当理解，在整个说明书中，利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程，诸如一个或多个计算机或类似的电子计算设备，其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。

本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统，其访问存储的软件，该软件将计算系统从通用计算设备编程或配置为实现本发明主题的一种或多种具体实施的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。

本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化，例如，可以将框重新排序、组合或者分成子框。某些框或过程可以并行执行。

本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种对象，但是这些对象不应当被这些术语限定。这些术语只是用于将一个对象与另一对象区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”或“包含”在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、对象或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、对象、部件或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

本发明的前述描述和概述应被理解为在每个方面都是例示性和示例性的，而非限制性的，并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定，而是根据专利法允许的全部广度。应当理解，本文所示和所述的具体实施仅是对本发明原理的说明，并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。

Claims

1.一种方法，包括：

在具有处理器、显示器和相机的第一设备处：

经由所述相机获得物理布景的图像或视频；

基于与在所述图像或视频中检测到的物理对象相关联的特征，将所述物理对象分类为一定类别；

基于所述类别来在显示器上提供计算机生成渲染(CGR)环境；

将所述图像或视频的一部分、所述特征或所述分类类别传输到第二设备；

接收与所述物理对象相关联的响应，所述响应是基于由所述第二设备执行的对所述物理对象的识别来确定的；以及

基于所述响应来更新所述显示器上的所述CGR环境。

2.根据权利要求1所述的方法，其中提供所述CGR环境包括：基于所述类别，利用来自驻留在所述设备上的资源商店的通用虚拟内容来替换、增强或补充所述物理对象。

3.根据权利要求1或2中的任一项所述的方法，其中更新所述CGR环境包括：将所述通用虚拟内容替换成基于关于所述物理对象的信息的特定于对象的内容。

4.根据权利要求1至3中的任一项所述的方法，其中将所述物理对象分类为一定类别基于所述物理对象的粗略识别。

5.根据权利要求1至4中的任一项所述的方法，其中所述图像或视频的所述一部分不包括所述图像或视频的第二部分。

6.根据权利要求1至5中的任一项所述的方法，其中所述特征为形状、颜色、尺寸、体积或标记。

7.根据权利要求1至6中的任一项所述的方法，其中所接收的响应包括子类别的识别、特定类型项的识别或补充信息。

8.根据权利要求1至7中的任一项所述的方法，还包括：

确定所述图像或视频是否满足隐私标准；以及

基于满足所述隐私标准来确定所述图像或视频的所述一部分。

9.根据权利要求1至8中的任一项所述的方法，还包括基于隐私标准来确定是否传输所述图像或视频的所述一部分。

10.根据权利要求1至9中的任一项所述的方法，还包括将所述类别传输到所述第二设备。

11.根据权利要求1至10中的任一项所述的方法，其中与所述物理对象相关联的所接收的响应包括将由所述设备用于识别未来图像或视频中的物理对象的识别数据。

12.根据权利要求1至11中的任一项所述的方法，其中与所述物理对象相关联的所接收的响应包括对所述物理对象的状况的评估。

13.根据权利要求1至12中的任一项所述的方法，其中所述第一设备是头戴式显示器(HMD)。

14.根据权利要求1至12中的任一项所述的方法，其中所述第一设备是移动电子设备。

15.一种系统，包括：

具有显示器和相机的第一设备：

处理器；以及

包括指令的计算机可读存储介质，所述指令在由所述处理器执行时使得所述系统执行操作，所述操作包括：

经由所述相机获得物理布景的图像或视频

基于所述类别来在显示器上提供计算机生成渲染(CGR)环境；

将所述图像或视频的一部分传输到第二设备；

接收与所述物理对象相关联的响应，所述响应是基于由所述设备执行的对所述物理对象的识别来确定的；以及

基于所述响应来更新所述显示器上的所述CGR环境。

16.根据权利要求15所述的系统，其中提供所述CGR环境包括：基于所述类别，利用来自驻留在所述设备上显示的资源商店的通用虚拟内容来替换、增强或补充所述物理对象。

17.根据权利要求15或16中的任一项所述的系统，其中更新所述CGR环境包括将通用虚拟内容替换成基于与所述物理对象相关联的响应的特定于对象的内容。

18.根据权利要求15至17中的任一项所述的系统，其中将所述物理对象分类为一定类别基于所述物理对象的粗略识别。

19.根据权利要求15至18中的任一项所述的系统，其中所述图像或视频的所述一部分不包括所述图像或视频的第二部分。

20.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机可执行的程序指令以执行包括以下项的操作：

通过包括相机和显示器的第一设备，经由所述相机获得物理布景的图像或视频；

基于与在所述图像或视频中检测到的所述物理对象相关联的特征，由所述第一设备将所述物理对象分类为一定类别；

基于所述类别，由所述第一设备在所述显示器上提供计算机生成渲染(CGR)环境；

由所述第一设备将所述图像或视频的一部分传输到第二设备；

由所述第一设备接收与所述物理对象相关联的响应，所述响应是基于由所述第二设备执行的对所述物理对象的识别来确定的；以及

基于所述响应，由所述第一设备更新所述显示器上的所述CGR环境。