CN112639684A

CN112639684A - 用于递送推荐的方法、设备和系统

Info

Publication number: CN112639684A
Application number: CN201980056127.6A
Authority: CN
Inventors: A·理·莱; P·A·卡罗; M·J·洛克威尔; V·M·达吉内尼; R·德赛
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-09-11
Filing date: 2019-09-11
Publication date: 2021-04-09
Anticipated expiration: 2039-09-11
Also published as: EP4206871A1; US20210150774A1; CN112639684B; CN119597153A; JP2022172061A; WO2020055935A1; JP2021536054A; KR20210034669A; EP3850467A1; JP7379603B2; US20200082576A1; EP3850467B1

Abstract

本发明公开了一种电子设备：获得表征由图像传感器捕获的视场的透传图像数据；确定透传图像数据中的所识别被摄体是否满足与特定于用户的推荐配置文件相关联的置信度分数阈值；响应于确定透传图像数据中的所识别被摄体满足置信度分数阈值，生成与所识别被摄体相关联的一个或多个计算机生成现实(CGR)内容项；以及将透传图像数据与一个或多个CGR内容项合成，其中一个或多个CGR内容项靠近视场中的所识别被摄体。

Description

用于递送推荐的方法、设备和系统

相关申请的交叉引用

本申请要求于2018年9月11日提交的美国临时专利申请62/729,960的优先权，该申请据此全文以引用方式并入。

技术领域

本发明整体涉及递送推荐，包括但不限于使得能够在计算机生成现实环境中递送最佳推荐的电子设备。

背景技术

物理环境是指人们在没有电子系统帮助的情况下能够感测和/或交互的物理世界。物理环境诸如物理公园包括物理物品，诸如物理树木、物理建筑物和物理人。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。

相反，计算机生成现实(CGR)环境是指人们经由电子系统感知和/或交互的完全或部分模拟的环境。在CGR中，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如，CGR系统可以检测人的头部转动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如，声音命令)来进行。

人可以利用其感觉中的任一者来感测CGR对象和/或与CGR对象交互，包括视觉、听觉、触觉、味觉和嗅觉。例如，人可以感测音频对象和/或与音频对象交互，该音频对象创建3D或空间音频环境，该3D或空间音频环境提供3D空间中点音频源的感知。又如，音频对象可以使能音频透明度，该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中，人可以感测和/或只与音频对象交互。

CGR的示例包括虚拟现实和混合现实。

虚拟现实(VR)环境是指被设计成对于一个或多个感觉完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如，树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理移动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。

与被设计成完全基于计算机生成的感官输入的VR环境相比，混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如，虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上，混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况，但不包括这两端。

在一些MR环境中，计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外，用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向，以使虚拟对象能够与真实对象(即，来自物理环境的物理物品或其表示)交互。例如，系统可以导致移动使得虚拟树木相对于物理地面看起来是静止的。

混合现实的示例包括增强现实和增强虚拟。

增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，用于呈现AR环境的电子系统可具有透明或半透明显示器，人可以透过该显示器直接查看物理环境。该系统可以被配置为在透明或半透明显示器上呈现虚拟对象，使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地，系统可以具有不透明显示器和一个或多个成像传感器，该成像传感器捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境，并且感知叠加在物理环境之上的虚拟对象。如本文所用，在不透明显示器上显示的物理环境的视频被称为“透传视频”，意味着系统使用一个或多个图像传感器捕获物理环境的图像，并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地，系统可以具有投影系统，该投影系统将虚拟对象投射到物理环境中，例如作为全息图或者在物理表面上，使得人利用该系统感知叠加在物理环境之上的虚拟对象。

增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如，在提供透传视频中，系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如，视点)。又如，物理环境的表示可以通过图形地修改(例如，放大)其部分而进行转换，使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如，物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。

增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特性的表示。例如，AV公园可以具有虚拟树木和虚拟建筑物，但人的脸部是从对物理人拍摄的图像逼真再现的。又如，虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如，虚拟对象可以采用符合太阳在物理环境中的定位的阴影。

有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括智能电话、平板电脑、台式/膝上型计算机、头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人的眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或不具有触觉反馈的可穿戴或手持控制器和/或具有手势跟踪和/或其他身体姿态估计能力的相机)。

头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地，头戴式系统可以为被配置为接受外部不透明显示器(例如，智能电话)的头戴式壳体(HME)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个具体实施中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

CGR(AR)技术有可能成为用户日常生活的组成部分。实现CGR的设备可向用户提供与从导航到天气、到架构、到游戏等许多方面有关的信息。然而，提供给用户的信息可能是压倒性的，并且可能与用户的兴趣无关。

发明内容

根据一些实施方案，在具有非暂态存储器和一个或多个处理器的电子设备处执行一种方法。该方法包括获得表征由图像传感器捕获的视场的透传图像数据。该方法还包括确定透传图像数据中的所识别被摄体是否满足与特定于用户的推荐配置文件相关联的置信度分数阈值。该方法还包括响应于确定透传图像数据中的所识别被摄体满足置信度分数阈值而生成与所识别被摄体相关联的一个或多个计算机生成现实(AR)内容项。该方法还包括将透传图像数据与一个或多个CGR内容项合成，其中一个或多个CGR内容项靠近视场中的所识别被摄体。

根据一些实施方案，在具有非暂态存储器和一个或多个处理器的电子设备处执行一种方法。该方法包括获得与设备的第一姿态相关联的第一组被摄体。该方法还包括基于用户上下文和第一姿态来确定第一组被摄体中的每一个的似然估计值。该方法还包括确定第一组被摄体中的至少一个相应被摄体的至少一个似然估计值是否超过置信度阈值。该方法还包括响应于确定至少一个似然估计值超过置信度阈值，使用用户上下文和与至少一个相应被摄体相关联的至少一个分类器生成与至少一个相应被摄体相关联的推荐内容或动作。

根据一些实施方案，电子设备包括显示器、一个或多个输入设备、一个或多个处理器、非暂态存储器以及一个或多个程序；一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且一个或多个程序包括用于执行或导致执行本文所述的方法中的任一种方法的操作的指令。根据一些实施方案，一种非暂态计算机可读存储介质具有存储在其中的指令，当这些指令由具有显示器和一个或多个输入设备的电子设备的一个或多个处理器执行时，使得设备执行或导致执行本文所述的方法中的任一种方法的操作。根据一些实施方案，电子设备包括：显示器、一个或多个输入设备；以及用于执行或导致执行本文所述的方法中的任一种方法的操作的装置。根据一些实施方案，在具有显示器和一个或多个输入设备的电子设备中使用的信息处理装置包括用于执行或导致执行本文所述的方法中的任一种方法的操作的装置。

附图说明

为了更好地理解各种所述实施方案，应结合以下附图参考下面的具体实施方式，其中类似的附图标号在所有附图中指示对应的部分。

图1是根据一些具体实施的示例性操作环境的框图。

图2A至图2G示出了根据一些实施方案的用于渲染特定于用户的计算机生成现实(CGR)内容项的示例性用户界面。

图3示出了根据一些实施方案的用于生成特定于用户的CGR内容的示例性抽象框图。

图4A至图4C示出了根据一些实施方案的用于基于更新用户上下文和/或姿态推荐特定于用户的CGR内容项的示例性用户界面。

图5示出了根据一些实施方案的用于在CGR环境中递送最佳推荐的示例性抽象框图。

图6示出了根据一些实施方案的渲染特定于用户的CGR内容项的方法的流程图。

图7示出了根据一些实施方案的生成推荐的CGR内容的方法的流程图。

图8为根据一些实施方案的计算设备的框图。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的系统、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

在下文所述的实施方案中，表征由图像传感器捕获的视场的透传图像数据与一个或多个计算机生成现实(CGR)内容项合成。一个或多个CGR内容项与透传图像数据中的所识别被摄体相关联，并且透传图像数据中的所识别被摄体满足置信度分数阈值。在合成图像中，一个或多个CGR内容项靠近视场中的所识别被摄体放置。因此，下文所述的实施方案提供了特定于用户的内容的无缝集成。基于用户感兴趣的可能性生成特定于用户的内容并将其显示给用户。例如，当在用户的视场内识别到纸托蛋糕时，生成纸托蛋糕配方或纸托蛋糕的营养信息并将其显示给用户。因此，根据本文所述的各种实施方案生成的推荐的CGR内容项允许用户保持沉浸在其体验中，而不必手动输入搜索查询或指示偏好。无缝集成还通过使用户能够更快速且有效地使用设备而减少了电力使用并延长了设备的电池寿命。

在下述实施方案中，获得与设备的姿态相关联的一组被摄体，并且基于用户上下文和姿态来确定该组被摄体中的每一个的似然估计值。生成与该组被摄体中的至少一个相应被摄体相关联的推荐内容或动作。响应于确定该组被摄体中的至少一个相应被摄体的至少一个似然估计值超过置信度阈值，使用与至少一个相应被摄体相关联的至少一个分类器生成推荐内容或动作。因此，下文所述的实施方案提供了用于基于用户将对被摄体感兴趣的可能性程度来生成推荐的CGR内容的过程。因此，根据本文所述的各种实施方案的内容推荐提供了在定位信息或下一个动作时需要更少时间和用户输入的无缝用户体验。这还通过使用户能够更快速且有效地使用设备而减少了电力使用并延长了设备的电池寿命。

图1是根据一些具体实施的示例性操作环境100的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作环境100包括控制器102和CGR设备104。在图1的示例中，CGR设备104由用户10佩戴。

在一些具体实施中，CGR设备104对应于平板电脑或移动电话。在各种具体实施中，CGR设备104对应于头戴式系统，诸如其中插入有平板电脑或移动电话的头戴式设备(HMD)或头戴式壳体(HME)。在一些具体实施中，CGR设备104被配置为向用户呈现CGR内容。在一些具体实施中，CGR设备104包括软件、固件和/或硬件的合适组合。

根据一些具体实施，当用户虚拟地和/或物理地存在于场景106内时，CGR设备104经由显示器122向用户呈现CGR内容。在一些具体实施中，CGR设备104被配置为呈现虚拟内容(例如，虚拟圆柱体109)并实现在显示器上对场景106(例如，包括桌子107的表示117)的视频透传。在一些具体实施中，CGR设备104被配置为呈现虚拟内容以及实现场景106的光学透视。

在一些具体实施中，用户将CGR设备104保持在他/她的手中。在一些具体实施中，用户将CGR设备104佩戴在他/她的头上。因此，CGR设备104包括被设置成用于显示CGR内容的一个或多个CGR显示器。例如，CGR设备104包围了用户的视场。在一些具体实施中，采用被配置为呈现CGR内容的CGR腔、壳体或室代替CGR设备104，其中用户不再佩戴CGR设备104。

在一些具体实施中，控制器102被配置为管理和协调针对用户的CGR内容的呈现。在一些具体实施中，控制器102包括软件、固件和/或硬件的合适组合。在一些具体实施中，控制器102是相对于场景106处于本地或远程位置的计算设备。例如，控制器102是位于场景106内的本地服务器。在另一个示例中，控制器102是位于场景106之外的远程服务器(例如，云服务器、中央服务器等)。在一些具体实施中，控制器102经由一个或多个有线或无线通信信道144(例如，蓝牙、IEEE802.11x、IEEE802.16x、IEEE802.3x等)与CGR设备104通信耦接。在一些具体实施中，控制器102的功能由CGR设备104提供和/或与该CGR设备结合。

如图1所示，CGR设备104呈现场景106的表示。在一些具体实施中，场景106的表示由控制器102和/或CGR设备104生成。在一些具体实施中，场景106的表示包括虚拟场景，该虚拟场景是场景106的模拟替换。换句话讲，在一些具体实施中，场景106的表示由控制器102和/或CGR设备104模拟。在此类具体实施中，场景106的表示不同于CGR设备104所在的场景106。在一些具体实施中，场景106的表示包括增强场景，该增强场景是场景106的修改版本(例如，包括虚拟圆柱体109)。例如，在一些具体实施中，控制器102和/或CGR设备104修改(例如，增强)场景106以便生成场景106的表示。在一些具体实施中，控制器102和/或CGR设备104通过模拟场景106的复制品来生成场景106的表示。在一些具体实施中，控制器102和/或CGR设备104通过从场景106的模拟副本中移除和/或向其中添加物项来生成场景106的表示。

图2A至图2G示出了根据一些实施方案的用于渲染特定于用户的计算机生成现实(CGR)内容的示例性用户界面。这些附图中的用户界面被用于示出包括图5中的过程的下文描述的过程。在一些实施方案中，设备经由与显示器分开的输入设备(例如，具有语音激活命令的头戴式设备(HMD)、具有单独触摸板和显示器的膝上型电脑、或具有单独鼠标和显示器的台式电脑)检测输入。

如图2A所示，设备104显示媒体捕获/交互界面202。根据一些实施方案，媒体捕获/交互界面202在图像传感器的视场中显示具有被摄体的场景。表示场景的图像数据(或透传图像数据)由图像传感器捕获。在一些实施方案中，透传图像数据包括预览图像、表面图像(例如，平坦表面)、深度映射、锚坐标(例如，用于深度映射)等。在一些实施方案中，透传图像数据不仅包括视觉内容，还包括音频内容、3D渲染、(所显示的实际帧的)时间戳、标头文件(例如，相机设置诸如对比度、饱和度、白平衡等)和/或元数据。

如上文参考图1所述，在一些实施方案中，用于捕获场景的图像传感器是设备104的一部分或附接到设备104；而在一些其他实施方案中，图像传感器与设备104分离，例如在远离设备的相机上。104在各种实施方案中，场景随着图像传感器的视场改变而改变，如下文参考图2C至图2G所示。在图2A中，媒体捕获/交互界面202包括具有标记为“201”的门标志210的打开的门道。媒体捕获/交互界面202还通过打开的门道示出了房间中的画框220和桌子230。

图2B示出了在媒体捕获/交互界面202中渲染有CGR内容项的合成透传图像数据。根据一些实施方案，合成透传图像数据包括信息，例如与房间相关联的房间信息212和楼层图214。房间信息212和楼层图214是基于设备104识别到门标志210并确定用户有兴趣学习关于房间和建筑物的更多信息而生成的CGR内容项。在一些实施方案中，如门标志210周围的虚线所指示，视场中的所识别被摄体被强调以指示附加CGR内容项212和214与所识别被摄体210的关联。在一些实施方案中，CGR内容项212和214在所识别被摄体210附近以动画方式显示(例如，闪烁、收缩/放大、移动等)以指示与所识别被摄体210的关联。在一些实施方案中，除了在设备104的显示器上显示CGR内容项212和214之外或代替在设备104的显示器上显示CGR内容项212和214，音频内容被播放为CGR内容项，例如，向用户读取门标志、房间信息和/或楼层图。

图2B至图2C示出了其中基于图像传感器的视场的改变来更新媒体捕获/交互界面202的序列。图像传感器的视角或有利位置在图2B至图2C之间变化。例如，在图2C中，门道不再显示在媒体捕获/交互界面202中，这指示用户已进入房间。因此，如图2B所示的与门标志210相关联的CGR内容项212和214不再被提供给用户。相反，当用户进入房间时，用户具有房间的完整视图。因此，如图2C所示，媒体捕获/交互界面202显示房间的三个墙壁。媒体捕获/交互界面202还显示房间中的画框220、桌子230、时钟240和狗236。另外，如图2C所示，媒体捕获/交互界面202显示桌子230上的纸托蛋糕232和书籍234。

图2D至图2E示出了基于不同用户上下文渲染给用户的不同CGR内容项。在图2D中，合成透传图像数据包括与纸托蛋糕232相关联的CGR内容项250。CGR内容项250邻近或相对于纸托蛋糕232渲染。此外，CGR内容项250包括与纸托蛋糕232相关联的信息，例如，纸托蛋糕的卡路里，以及包括到纸托蛋糕232的配方的链接252和用于将纸托蛋糕232添加到饮食日志的按钮254的示能表示。示能表示252作为选项提供给用户，以便执行与纸托蛋糕232相关联的动作，例如轻击链接252以找出纸托蛋糕232的配方或点击按钮254以将纸托蛋糕232添加到饮食日志。

图2D中所示的CGR内容项250基于确定用户对纸托蛋糕232感兴趣而生成，并且进行推荐以提供关于纸托蛋糕232的信息。相比之下，图2E示出了覆盖在纸托蛋糕232上的不同CGR内容项256。当用户仍然对纸托蛋糕230感兴趣时，CGR内容项256基于不同的用户上下文(例如，用户具有饮食限制等)来进行。

图2F示出了靠近所识别被摄体(例如，桌子230)的CGR内容项260，其中CGR内容项260响应于检测到靠近包含所识别被摄体230的至少一部分的区域262的注视而生成。在图2F中，设备104检测靠近注视的区域262，该区域包括桌子230的一部分、桌子230上的纸托蛋糕232的一部分和桌子230上的书籍234的一部分。设备104使用对应于区域262的透传图像数据的子集并将桌子分类器应用于图像数据的子集来识别桌子230。

在一些实施方案中，基于分配给分类器群集的权重来选择桌子分类器。在一些实施方案中，分类器对应于对象/被摄体的库中的条目，例如，形状、数量、动物、食物、植物、人、狗、正方形、花、形状、照明等。使用一个或多个分类器，可以在图像数据中识别被摄体。在被摄体识别期间，权重被分配给不同的分类器，并且可以基于与每个分类器相关联的权重来选择一个或多个分类器。所选择的分类器然后可以用于识别图像数据中的被摄体。

例如，基于靠近区域262的注视，将权重分配给桌子分类器、纸托蛋糕分类器和书籍分类器。随着注视稳定在桌子表面上，分配给桌子分类器的权重增加，而分配给纸托蛋糕分类器和书籍分类器的权重减小。基于分配给分类器的权重，选择桌子分类器以用于辨识靠近注视区域262的桌子被摄体230。已经识别出桌子230，设备104邻近桌子230渲染CGR内容260，诸如可匹配桌子230的样式的椅子的推荐。

图2G示出了靠近所识别被摄体234的CGR内容项270(例如，指向配置中的手图标)，其中注视区域272在距所识别被摄体234的阈值距离内。在图2G中，设备104检测到注视区域272在视场中的狗236上。然而，基于用户上下文，用户不太可能有兴趣看到关于显示在媒体捕获/交互界面202中的狗236的更多信息，例如，用户害怕动物。进一步基于用户上下文，设备确定用户对书籍234更感兴趣(例如，用户最近从图书馆获得书籍234)，并且书籍234在距注视区域272的阈值距离内。随后，设备104扩展注视区域272，使得更多的被摄体被包括在该区域中并被分析。然后从对应于扩展注视区域的图像数据中识别书籍234，并且在书籍234上方生成并渲染CGR内容项270。

图2G示出了CGR内容项270通过似然估计为特定用户生成，其中输入关于用户的先验信息以及当前透传图像数据。当所识别被摄体包括多个可搜索元素并且每个元素与至少分类器相关联时，这是特别有用的。例如，在图2A至图2G中，画框220包括多个可搜索元素，包括框架本身、图画中的花瓶和图示花瓶中的花。为了区分这些可搜索元素并生成用户将最可能感兴趣的元素的CGR内容项，如下文参考图3更详细地描述的，对内容推荐进行微调。

图3示出了与用于辨识用户最可能感兴趣的被摄体的多重迭代过程300相关联的抽象框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性实施方案的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在图3中，由于注视区域222靠近视场中的画框220，画框220包括多个可搜索元素，该多个可搜索元素包括框架310、花320和花瓶330，并且其中每个可搜索元素靠近注视区域。在多重迭代期间确定似然估计值。

在一些实施方案中，为每个似然估计值被分配初始值，例如，所有似然估计值为0或似然估计值均匀分布。如图3中所示，在第一迭代期间，框架310、花320和花瓶330的似然估计值相等地分配为大约1/3，例如，框架310为0.33，花320为0.33，并且花瓶330为0.34。在第二迭代期间，更新似然估计值以反映用户在第一迭代之后的下一个时间步对什么感兴趣。此外，如下面将参考图4A至图4C详细描述的，姿态和/或用户上下文的改变可以有助于似然估计值的改变。因此，在二次迭代期间，框架310的似然估计值为0.25，花320的似然估计值为0.00，并且花瓶330的似然估计值为0.75。同样，在第三迭代期间，姿态和/或用户上下文的更多变化导致框架310的似然估计值改变为0.75，花320为0.00，并且花瓶330为0.25。虽然花320的为0.00的似然估计值指示用户最可能对学习更多关于花320的信息没有兴趣，但在一些实施方案中，设备将需要更多迭代来辨识用户最感兴趣的一个元素，例如，0.25和0.75的值不超过置信度阈值。如图3中所示，在第四迭代和最终迭代期间，框架310的似然估计值已增加到0.90，指示用户最可能对框架本身感兴趣，而不是框架中描绘的图画。

图3中所示的选择过程是漏斗形的，使得随时间推移，例如，在第二迭代和第三迭代或阈值时间量之后，低于阈值的似然估计值(例如，似然估计值为0.00的花)不包括在下一迭代中。在多重迭代之后，将似然估计值收敛至特定值，使得可针对用户最可能感兴趣的特定被摄体进行推荐。

转到图4A至图4C，图4A至图4C示出了根据一些实施方案的用于基于用户上下文和/或姿态来渲染特定于用户的CGR内容项的示例性用户界面。示例性用户界面用于示出图5中的推荐的内容生成过程。

例如，在图4A中，设备104基于设备104的姿态检测靠近画框220的注视区域222(如虚线所示)。画框220包括框架本身、图画中的花瓶和图示花瓶中的花。设备104的似然估计器确定每个被摄体的似然估计值，例如框架的似然估计值、花瓶的似然估计值和花的似然估计值。在一些实施方案中，基于用户上下文和姿态两者来确定似然估计值。在图4A中，注视区域222a靠近框架、花瓶和花。使用用户上下文，例如，用户是植物学家而不是艺术家，则用户更有可能对框架220中描绘的花感兴趣。因此，设备104生成推荐内容224以向用户提供花的信息。

图4B至图4C示出了相对于图4A中所示的界面更新媒体捕获/交互界面202。相对于图4A所示的视图，如图5B至图5C所示的设备104的视角或有利位置随着视场向右移位(例如，由于设备104的移动)而改变。当注视向右移位时，注视区域222b远离中心的画框220移动并向右移动。图4B示出了作为姿态变化的结果，设备104预测右壁上的时钟是用户感兴趣的被摄体，并且邻近时钟240生成事件日历242。图4C示出了当注视区域222c甚至更靠近时钟240移动时，在界面202中示出另一个推荐内容244。推荐内容244基于用户上下文生成，该用户上下文为是兽医访问的时间了，并且用户更有兴趣获得与狗236相关联的信息以准备兽医访问。

图5示出了根据一些实施方案的与用于在CGR环境中递送最优推荐的过程500相关联的抽象框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性实施方案的更多相关方面，未示出各种其他特征。例如，实现过程500的系统可以是包括多个分布式设备的异构系统。因此，如虚线所指示，执行计算资源密集型任务的一些部件在远程代理上实现，并且可在本地代理、对等代理和分布式代理之间动态地重新配置。

如图5所示，扫描仪510(例如，图8中的图像捕获控制模块850)获得图像并导出图像数据或透传图像数据。在一些实施方案中，透传图像数据包括音频内容、视觉内容、3D渲染、(所显示的实际帧的)时间戳、标头文件(包含所有相机设置：对比度、饱和度、白平衡等)和/或元数据。在一些实施方案中，透传图像数据包括预览图像、表面图像(例如，平坦表面)、深度映射、锚坐标(例如，用于深度映射)。在一些实施方案中，扫描仪510还连同透传图像数据一起提供设备的姿态信息，例如，图像传感器的视场内的焦点、图像传感器到多个真实世界对象的距离、由视场中的被摄体占据的视觉空间的百分比和/或当前注视等。

在一些实施方案中，在特定于用户的推荐配置文件中指定用户上下文505。在一些实施方案中，特定于用户的推荐配置文件包括用户历史、特定于用户的列表、用户启用模块(例如，特定于职业或特定于任务，诸如引擎修理)等。

在一些实施方案中，分析仪520包括多个分类器522。在一些实施方案中，多个分类器522对应于被摄体库中的条目，例如形状、数量、动物、食物、植物、人等。分类器连同相关联的权重(例如，用于辨识狗的狗分类器等)被提供给似然估计器530。

连同来自分析器520的输入，似然估计器530从扫描仪510接收图像数据和姿态信息并接收用户上下文505。基于所接收的信息，似然估计器530辨识用户最可能感兴趣的视场中的被摄体，并且生成供用户查看和/或交互的推荐的CGR内容项560，如图2A至图2G和图4A至图4C所示。

在一些实施方案中，级联高速缓存550-1、550-2、550-3……550-N用于促进被摄体辨识和CGR内容项推荐。被摄体和相关联的推荐以权重顺序存储在级联高速缓存中。例如，在一个迭代期间，第一级联高速缓存550-1存储具有最低推荐权重的被摄体，并且最后一个级联高速缓存550-N存储具有最高推荐权重的被摄体。因此，第一级联高速缓存550-1包括关于在该阶段被确定为对用户最不重要或相关的被摄体的信息，并且最后一个级联高速缓存550-N包括关于在该阶段被确定为对用户最重要或相关的被摄体的信息。在如图3中所示的后续阶段或迭代期间，可根据用户上下文和/或姿态变化来调整存储在级联高速缓存550中的信息。

在一些实施方案中，执行精匹配540以微调来自似然估计器530的结果。在一些实施方案中，精匹配540被远程执行(例如，在第二设备处)以节省本地设备的计算资源。在此类实施方案中，编码器532用于降低矢量维度，以将数据有效率地传送到远程源。在接收到编码数据时，远程源上的解码器542在执行细粒度匹配之前对数据进行解码。在一些实施方案中，在远程源处，跨多个用户应用机器学习，使得可以为特定用户生成更好的推荐。

图6是根据一些实施方案的渲染特定于用户的CGR内容项的方法600的流程图表示。在一些实施方案中(并且如下面作为示例所详述)，方法600由电子设备(或其一部分)执行，诸如图1中的电子设备104或图3中的设备300，其包括非暂态存储器和一个或多个处理器。在一些实施方案中，设备还包括图像传感器或相机组件、显示器以及一个或多个输入设备。例如，显示器和一个或多个输入设备组合成触摸屏显示器。在该示例中，电子设备对应于智能电话或平板电脑。又如，显示器和一个或多个输入设备是分开的。在该示例中，电子设备对应于膝上型计算机或台式计算机。例如，电子设备对应于可穿戴计算设备(包括包围或不包围用户眼睛的HMD或者具有一个或多个CGR显示器的CGR呈现设备)、智能电话、平板电脑、膝上型计算机、台式计算机、自助服务机、机顶盒(STB)、机上盒(OTT)、游戏机等。在一些实施方案中，图像传感器与设备分离，例如在远离设备104的相机上。

在一些实施方案中，方法600由处理逻辑部件(包括硬件、固件、软件或其合适的组合)执行。在一些实施方案中，方法600由执行存储在非暂态计算机可读存储介质(例如，非暂态存储器)中的代码、程序或指令的一个或多个处理器执行。方法600中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。简而言之，该方法600包括：获得表征由图像传感器捕获的视场的透传图像数据。确定透传图像数据中的所识别被摄体是否满足与特定于用户的推荐配置文件相关联的置信度分数阈值；响应于确定透传图像数据中的所识别被摄体满足所述置信度分数阈值，生成与所识别被摄体相关联的一个或多个计算机生成现实(CGR)内容项；以及将透传图像数据与一个或多个CGR内容项合成，其中一个或多个CGR内容项靠近视场中的所识别被摄体。

在框602处，方法600开始，其中电子设备获得场景数据。根据一些实施方案，设备104或其部件(例如，图8中的图像捕获控制模块850)通过用图像传感器或相机组件从第一参考/有利位置(例如，相机位置、姿态或视场)捕获场景的图像来获得场景数据(例如，图像数据或透传图像数据)。设备104或其部件(例如，图8中的图像处理模块852)导出表征视场的透传图像数据。例如，在图2A中，设备104获得透传图像数据并显示媒体捕获/交互界面202，该媒体捕获/交互界面包括对应于房间的场景，其具有房间门上的门标志210、桌子230和房间内的画框220。继续该示例，在图2C中，媒体捕获/交互界面202描绘了房间内的场景，其还包括右壁上的时钟240、靠近左壁的狗236、以及桌子230上的纸托蛋糕232和书籍234。

方法600在框604处继续，其中电子设备确定透传图像数据中的所识别被摄体是否满足与特定于用户的推荐配置文件相关联的置信度分数阈值。换句话讲，设备104或其部件(例如，图8中的被摄体识别模块854或图5中的似然估计器530)确定用户是否可能使所识别被摄体对透传图像数据感兴趣。在一些实施方案中，电子设备基于特定于用户的推荐配置文件来获得有关用户偏好的信息。例如，参考图2A，设备104使用特定于用户的推荐配置文件诸如用户历史、特定于用户的列表、用户启用模块(例如，特定于职业或特定于任务，诸如引擎维修)等来确定用户是否有兴趣学习关于与门标志210相关联的房间和建筑物的更多信息。

在一些实施方案中，特定于用户的推荐配置文件包括与设备交互的用户的上下文、用户的生物特征、用户的先前搜索或用户的配置文件中的至少一者。例如，与设备交互的用户的上下文包括由用户最近从兽医、纸托蛋糕面包师等处下的订单。在另一个示例中，生物识别传感器可用于测量用户的生物特征，例如，指示用户对被摄体体验的悲伤或兴奋的升高的血压和/或心率。在又一示例中，特定于用户的推荐配置文件包括用户的先前搜索和所采取的相关联动作，例如，用户之前多次搜索了纸托蛋糕，但在所有先前场合都决定对纸托蛋糕说“不”。在又一个示例中，用户配置文件中的元数据可显示用于分配权重和/或似然估计值的先验信息。

在一些实施方案中，如框606所示，通过检测视场中的区域处的注视来识别透传图像数据中的所识别被摄体，如框608所示，获得对应于该区域的透传图像数据的子集，并且如框610所呈现，基于透传图像数据的子集和分类器来辨识所识别被摄体。例如，在图2B中，在检测到靠近门标志210的区域处的注视时，设备104或其部件(例如，图8中的图像处理模块852或图5中的似然估计器530)进一步处理与靠近门标志210的区域对应的透传图像数据的子集。然后，设备104使用透传图像数据的子集和门标志分类器来辨识门标志210。

在一些实施方案中，方法600在框612处进一步继续，其中电子设备基于注视来向分类器分配权重，其中分类器中的每一个与注视区域中的被摄体相关联，并且基于对注视的更新来调整对分类器的权重。在一些实施方案中，方法600在框614处进一步继续，其中电子设备从分类器中选择具有最高权重的分类器。

例如，在图2C中，在检测到注视之前，将相等的权重分配给视场中的所有被摄体，例如，将相等的权重分配给画框220、桌子230、纸托蛋糕232、书籍234、时钟240和狗236。继续参考图2D和图2E，一旦注视稳定在桌子230顶部的纸托蛋糕232上，与纸托蛋糕分类器相关联的权重就增大，而与其他分类器相关联的权重就减小。因此，从分类器中选择纸托蛋糕分类器以便识别纸托蛋糕232被摄体并推荐与纸托蛋糕232相关联的CGR内容项，例如，如图2D中所示的具有到纸托蛋糕配方的链接252和添加示能表示(例如，按钮254)的CGR内容项250，或者如图2E所示的无纸托蛋糕标志(例如，CGR内容项256)。

在一些实施方案中，如框616所示，注视区域包括所识别被摄体的至少一部分。例如，在图2F中，注视区域262包括桌子230的一部分、桌子230上的纸托蛋糕232的一部分和桌子230上的书籍234的一部分。设备104使用桌子图像数据的至少一部分并将桌子分类器应用于桌子图像数据以便辨识桌子230来识别桌子230。相比之下，在一些实施方案中，如框618所示，注视区域在CGR内容推荐的距所识别被摄体的阈值距离内，并且基于特定于用户的推荐配置文件来辨识所识别被摄体。例如，在图2G中，注视区域272靠近狗236，而所识别被摄体是桌子230上的书籍234。书籍234被辨识为用户最可能感兴趣的被摄体，因为特定于用户的推荐配置文件指示与狗236相比，用户对书籍234更感兴趣，并且书籍234在距注视区域272的阈值距离内。这样，注视区域272被扩展为包括书籍图像数据，较高的权重被分配给书籍分类器，并且书籍分类器用于处理扩展的图像数据，以便将书籍234辨识为感兴趣的被摄体。

在一些实施方案中，如框620所示，所识别被摄体包括多个可搜索元素，并且每个元素与至少一个分类器相关联。例如，画框220包括多个可搜索元素、框架本身、图画中的花瓶以及图示花瓶中的花。为了区分这些可搜索元素并生成用户将最可能感兴趣的元素的CGR内容项，如上文参考图3描述的，对内容推荐进行微调。

仍然参考图6，方法600在框622处继续，其中电子设备响应于确定透传图像数据中的所识别被摄体满足置信度分数阈值，生成与所识别被摄体相关联的一个或多个计算机生成现实(CGR)内容项。根据一些实施方案，由设备104或其部件(例如，图8中的CGR内容推荐模块856)生成的一个或多个CGR内容项包括与所识别被摄体相关联的信息或执行与所识别被摄体相关联的动作的选项中的至少一者。例如，如图2B中所示的关于房间的文本212和关于楼层的文本214、如图2D中所示的存储信息(例如，CGR内容项250)、到纸托蛋糕配方的链接252以及用于将纸托蛋糕添加至饮食日志的按钮254、图2E中的无纸托蛋糕标志(例如，CGR内容项256)、如图2F中所示的椅子推荐(例如，CGR内容项260)或如图2G中所示的指向书籍234的指示符270。

方法600在框624处继续，其中电子设备将透传图像数据与一个或多个CGR内容项合成。在一些实施方案中，电子设备进一步将视场中的透传图像数据渲染为具有靠近所识别被摄体显示的一个或多个CGR内容项。在一些其他实施方案中，根据使用该设备的用户的视场，邻近所识别被摄体显示一个或多个CGR内容项。例如，在支持CGR的眼镜的情况下，具有图像传感器的相机和用户的光学系统可为两个独立的东西。因此，可基于图像传感器或用户的视场来确定一个或多个CGR内容项的位置。另选地，可以协调图像传感器和用户的视场，例如，一个可以覆盖另一个。在此类实施方案中，可基于图像传感器和用户的视场来确定一个或多个CGR内容项的位置。

例如，设备104或其部件(例如，图8中的CGR内容渲染模块858或图5中的视图和交互模块560)在被摄体旁边显示关于被摄体的文本或标志，例如，如图2A所示在门标志210旁边显示房间信息212和楼层图214，如图2E所示将无纸托蛋糕标志256叠加在纸托蛋糕232上，如图2F所示在桌子230旁边显示椅子推荐(例如，CGR内容项260)，并且如图2G所示将指向标志270浮置到书籍234。在另一个示例中，设备104或其部件(例如，图8中的CGR内容渲染模块858或图5中的视图和交互模块560)邻近被摄体显示到被摄体的链接，例如，如图2D所示在纸托蛋糕232上方显示到纸托蛋糕配方的链接252。在又一示例中，设备104或其部件(例如，图8中的CGR内容渲染模块858或图5中的视图和交互模块560)邻近被摄体显示交互式示能表示，例如，如图2D所示在纸托蛋糕232旁边显示按钮254。

图7是根据一些实施方案的生成推荐的CGR内容的方法700的流程图表示。在一些实施方案中(并且如下面作为示例所详述)，方法700由电子设备(或其一部分)执行，诸如图1中的电子设备104或图3中的设备300，其包括非暂态存储器和一个或多个处理器。在一些实施方案中，设备还包括图像传感器或相机组件、显示器以及一个或多个输入设备。例如，显示器和一个或多个输入设备组合成触摸屏显示器。在该示例中，电子设备对应于智能电话或平板电脑。又如，显示器和一个或多个输入设备是分开的。在该示例中，电子设备对应于膝上型计算机或台式计算机。例如，电子设备对应于可穿戴计算设备(包括包围或不包围用户眼睛的HMD或者具有一个或多个CGR显示器的CGR呈现设备)、智能电话、平板电脑、膝上型计算机、台式计算机、自助服务机、机顶盒(STB)、机上盒(OTT)、游戏机等。在一些实施方案中，图像传感器与设备分离，例如在远离设备104的相机上。

在一些实施方案中，方法700由处理逻辑部件(包括硬件、固件、软件或其合适的组合)执行。在一些实施方案中，方法700由执行存储在非暂态计算机可读存储介质(例如，非暂态存储器)中的代码、程序或指令的一个或多个处理器执行。方法700中的一些操作任选地被组合，并且/或者一些操作的次序任选地被改变。简而言之，方法700包括：获得与设备的第一姿态相关联的第一组被摄体；基于用户上下文和第一姿态来确定第一组被摄体中的每一个的似然估计值；确定第一组被摄体中的至少一个相应被摄体的至少一个似然估计值是否超过置信度阈值；并且响应于确定至少一个似然估计值超过置信度阈值，使用用户上下文和与至少一个相应被摄体相关联的至少一个分类器生成与至少一个相应被摄体相关联的推荐内容或动作。

方法700在框702处开始，电子设备获得与设备的第一姿态相关联的第一组被摄体。根据一些实施方案，设备104或其部件(例如，图8中的图像捕获控制模块850或图5中的扫描仪510)通过用图像传感器或相机组件从第一参考/有利位置(例如，相机位置、姿态或视场)捕获场景的图像来获得场景数据(例如，图像数据或透传图像数据)。设备104或其部件(例如，图8中的图像处理模块852)导出表征视场的图像数据并且识别到视场中的一组被摄体。在一些实施方案中，通过以下方式来识别(例如，通过设备104或其部件，诸如图8中的被摄体识别模块854)第一组被摄体：检测靠近设备的视场中的第一区域的注视，获得对应于第一区域的图像数据，以及基于图像数据和一个或多个分类器对第一组被摄体进行分类，如上面参考图6所解释的。

在框704处，方法700继续，其中电子设备基于用户上下文和第一姿态来确定第一组被摄体中的每一个的似然估计值。例如，如图5和图4A所示，设备104或其部件(例如，图8中的CGR内容推荐模块856或图5中的似然估计器530)获得靠近注视区域222的一组被摄体，包括框架本身310、花320和花瓶330。如图3所示，设备确定框架310、花320和花瓶330的似然估计值。在一些实施方案中，似然估计值对应于用户对多个被摄体中的每一个感兴趣的可能性的量值/权重。

在一些实施方案中，递归地确定似然估计值。如框706所示，在一些实施方案中，基于多个时间段期间更新的用户上下文递归地确定似然估计值。例如，在图3中，在第一时间段期间分配第一迭代期间的似然估计值，并且可在第一迭代和第二迭代之间的第二时间段期间更新用户上下文的值。因此，框架310、花320和花瓶330的似然估计值基于用户上下文的更新值(例如，用户不再对花320感兴趣)进行更新。如框708所示，在一些实施方案中，基于更新的姿态递归地确定似然估计值。在一些实施方案中，设备104或其部件(例如，图8中的图像捕获控制模块850和/或图8中的图像处理模块852或图5中的扫描仪510)获得与设备的第二姿态相关联的第二组被摄体，其中至少一个被摄体在第一组和第二组被摄体中，并且基于第二姿态、用户上下文和第一姿态来确定至少一个被摄体的至少一个似然估计值。

例如，在图2A至图2B中，设备104在进入房间之前从第一参考点获得透传图像数据。如图2A至图2B所示的场景包括被摄体，诸如房间门上的门标志210、桌子230和房间内的画框220。在图2C中，随着用户进入房间，参考点已经改变，其中在房间内，媒体捕获/交互界面202描绘了包括被摄体的场景，被摄体诸如右壁上的时钟240、靠近左壁的狗236以及桌子230上的纸托蛋糕232和书籍234。因此，由于参考点改变，用户看到关于与门标志相关联的房间或建筑物的更多信息的可能性改变。又如，在图4A中，设备104获得画框220在视场的中心的场景。在图4B中，姿态变化使得视场从查看中心的画框220移位到查看更多悬挂在右壁上的时钟240。因此，画框220和时钟240的似然估计值改变。

在一些实施方案中，似然估计值被分配初始似然估计值(例如，所有似然估计值为0)或似然估计值被均匀分布(例如，框架310、花320和花瓶330最初被分配相等的值，如图3所示)。在一些实施方案中，初始似然估计值由用户上下文确定。在一个示例中，电气工程师指出他对使用“电气工程师书籍”感兴趣，其中电气工程师书籍包含分类器集群，该分类器集群包括特定于电气工程的主题(例如，信号处理、焊接、控制系统等)。电气工程师书籍还可包含每个主题的相应初始似然估计值。例如，信号处理将具有比力学更高的似然估计值。在一些实施方案中，初始似然估计值由第一姿态信息(例如，什么当前在图像传感器的视场中)、视觉空间由视场中的被摄体占据的百分比(例如，白板占据比干擦标记物更多的空间)、被摄体到图像传感器的距离和/或当前注视等来确定。例如，在图2C中，随着用户进入房间，由于纸托蛋糕232与门的距离近，因此与画框220相比，其可具有更高的初始似然估计值。另选地，例如，在图2C中，由于占据的视觉空间的百分比较高，因此画框220可具有比纸托蛋糕232更高的初始似然估计值。

方法700在框710处继续，其中电子设备确定第一组被摄体中的至少一个相应被摄体的至少一个似然估计值是否超过置信度阈值。例如，给定被摄体A、B和C(其中似然估计值为A＝0.4，B＝0.3，C＝0.3)，设备104和其部件(例如，图8中的CGR内容推荐模块856或图5中的似然估计器530)确定被摄体A超过0.3的置信度阈值。在一些实施方案中，如框712所示，确定包括与其他似然估计值的比较。例如，给定被摄体A、B和C，其中似然估计值为A＝0.6，B＝0.2，C＝0.2，被摄体A的似然估计值>(B+C)的似然估计值，因此被摄体A超过置信度阈值。

在一些实施方案中，似然估计值中没有一个超过阈值，或者多个似然估计值一起超过阈值。在此类实施方案中，需要多于一次迭代来递归地确定更新的似然估计值，如上文参考步骤706和708所述。换句话讲，确定似然估计值中的至少一个是否超过阈值指示收敛于对应于单个被摄体的单个似然估计值，如框714所示。例如，设备104或其部件(例如，图8中的CGR内容推荐模块856或图5中的似然估计器530)确定第一组被摄体中的至少一个相应被摄体的至少一个似然估计值包括第一被摄体的第一似然估计值和第二被摄体的第二似然估计值。响应于确定多个似然估计值一起超过阈值，设备104基于更新的用户上下文和更新第一姿态信息中的至少一者来更新第一组被摄体中的每一个的似然估计值，包括生成第一被摄体的更新的第一似然估计值和第二被摄体的更新的第二似然估计值。设备104进一步基于更新的第一似然估计值和更新的第二似然估计值在第一被摄体和第二被摄体之间进行选择。如图3所示，框架310和花瓶330在第二迭代和第三迭代期间打平。在第四迭代期间使用更新的似然估计值，似然估计值收敛于对应于框架310的单个似然估计值。

方法700在框716处继续，其中电子设备响应于确定至少一个似然估计值超过置信度阈值，使用与至少一个相应被摄体相关联的至少一个分类器和用户上下文生成与至少一个相应被摄体相关联的推荐内容或动作。在一些实施方案中，设备104或其部件(例如，图8中的CGR内容渲染模块858或似然估计器530)分配计算密集型任务，诸如与第二计算设备的精匹配，如框718所示。在此类实施方案中，如上文参考图5所解释的，设备104(例如，在图5中的编码器532处)生成表示与用户上下文和第一姿态相关联的第一组被摄体的压缩矢量。然后，设备104将压缩矢量远程发送到第二设备，以便生成与第一组被摄体相关联的分类器的推荐权重。在第二设备处执行细粒度匹配之后，例如，通过跨用户的机器学习，设备104从第二设备接收推荐权重以用于生成推荐内容或动作。在一些实施方案中，为了进一步促进推荐生成，如框720所示，设备104将第一组被摄体和相关联的权重存储在多个级联高速缓存(例如，图5中的级联高速缓存550-1、550-2、550-3……550-N)中。在此类实施方案中，被摄体以权重顺序存储在级联的高速缓存中。

在一些实施方案中，方法700在框722处继续，其中电子设备基于更新的用户上下文和更新的第一姿态信息中的至少一者来预测超过置信度阈值的不同的被摄体，并且生成与不同的被摄体相关联的一组推荐内容或动作。例如，如果第一姿态和第二姿态指示焦点正在视场内向右移动，则似然估计器基于用户上下文预测视场右侧的下一个被摄体以提供推荐内容。例如，如图4A所示，最初，与第一姿态相关联的焦点在视场中心的框架上。继续该示例，如图4B所示，随着与第二姿态相关联的焦点向右移动，基于日历中会议的用户上下文，即使注视区域222仍然在时钟240的阈值距离内，用户也更有可能想要查看右壁上的时钟。相比之下，由于从第一姿态到第二姿态的变化指示注视区域正向右移位，所以用户不太可能想要获得关于左侧上的关于狗236的信息。基于更新的姿态信息，设备104预测用户最可能对与时钟240相关联的事件日历242感兴趣。然而，如图4C所示，基于更新的用户上下文信息，例如即将到来的兽医访问是针对狗236，设备104预测生成提供关于狗236的更多信息和兽医预约信息(例如，推荐内容244)。

图8为根据一些实施方案的计算设备800的框图。在一些实施方案中，计算设备800对应于图1中的设备104的至少一部分，并执行上述功能中的一者或多者。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不使本文所公开的实施方案的更多相关方面晦涩难懂，未示出各种其他特征。为了达到这一目的，作为非限制性示例，在一些实施方案中，计算设备800包括一个或多个处理单元(CPU)802(例如，处理器)、一个或多个输入/输出(I/O)接口803(例如，网络接口、输入设备、输出设备和/或传感器接口)、存储器810、编程接口805，以及用于互连这些部件和各种其他部件的一条或多条通信总线804。

在一些实施方案中，一条或多条通信总线804包括互连和控制系统部件之间的通信的电路。存储器810包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备；并且在一些实施方案中，包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器810任选地包括与一个或多个CPU 802远程定位的一个或多个存储设备。存储器810包括非暂态计算机可读存储介质。此外，在一些实施方案中，存储器810或存储器810的非暂态计算机可读存储介质存储以下程序、模块和数据结构或其子集，包括任选的操作系统820、图像捕获控制模块850、图像处理模块852、被摄体识别模块854、CGR内容推荐模块856和CGR内容渲染模块858。在一些实施方案中，一个或多个指令包括在逻辑和非暂态存储器的组合中。操作系统820包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。

在一些实施方案中，图像捕获控制模块850被配置为控制图像传感器或相机组件的功能以捕获图像或获得图像数据。为此，图像捕获控制模块850包括一组指令851a以及启发法和元数据851b。

在一些实施方案中，图像处理模块852被配置为预处理来自图像传感器或相机组件的原始图像数据(例如，将RAW图像数据转换为RGB或YCbCr图像数据并得出姿态信息等)。为此，图像处理模块852包括一组指令853a以及启发法和元数据853b。

在一些实施方案中，被摄体识别模块854被配置为从图像数据识别被摄体。为此，被摄体识别模块854包括一组指令855a以及启发法和元数据855b。

在一些实施方案中，CGR内容推荐模块856被配置为推荐与所识别被摄体相关联的CGR内容项。为此，CGR内容推荐模块856包括一组指令857a以及启发法和元数据857b。

在一些实施方案中，CGR内容渲染模块858被配置为在靠近所识别被摄体的视场中合成并渲染CGR内容项。为此，CGR内容渲染模块858包括一组指令859a以及启发法和元数据859b。

虽然图像捕获控制模块850、图像处理模块852、被摄体识别模块854、CGR内容推荐模块856和CGR内容渲染模块858被示出为驻留在单个计算设备上，但应当理解，在其他实施方案中，图像捕获控制模块850、图像处理模块852、被摄体识别模块854、CGR内容推荐模块856和CGR内容渲染模块858的任何组合可在各种实施方案中驻留在独立的计算设备中。例如，在一些实施方案中，图像捕获控制模块850、图像处理模块852、被摄体识别模块854、CGR内容推荐模块856和CGR内容渲染模块858中的每一个可驻留在独立的计算设备上或云中。

此外，图8更多地用作存在于特定具体实施中的各种特征部的功能描述，与本文所述的实施方案的结构示意图不同。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图8中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种实施方案中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征部将根据实施方案而变化，并且可以部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一节点可以被称为第二节点，并且类似地，第二节点可以被称为第一节点，其改变描述的含义，只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点，但它们不是同一个节点。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样，单数形式的“一个”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

Claims

1.一种方法，包括：

在包括非暂态存储器和一个或多个处理器的设备处：

获得表征由图像传感器捕获的视场的透传图像数据；

确定所述透传图像数据中的所识别被摄体是否满足与特定于用户的推荐配置文件相关联的置信度分数阈值；

响应于确定所述透传图像数据中的所识别被摄体满足所述置信度分数阈值，生成与所识别被摄体相关联的一个或多个计算机生成现实(CGR)内容项；以及

将所述透传图像数据与所述一个或多个CGR内容项合成，

其中所述一个或多个CGR内容项靠近所述视场中的所识别被摄体。

2.根据权利要求1所述的方法，其中所述透传图像数据中的所识别被摄体通过以下方式来识别：

检测所述视场中的区域处的注视；

获得对应于所述区域的所述透传图像数据的子集；以及

基于所述透传图像数据的所述子集和分类器来辨识所识别被摄体。

3.根据权利要求2所述的方法，还包括：

基于所述注视来向分类器分配权重，其中所述分类器中的每一个与所述区域中的被摄体相关联；

基于对所述注视的更新来调整对所述分类器的所述权重；以及

从所述分类器中选择具有最高权重的所述分类器。

4.根据权利要求2或3所述的方法，其中所述区域包括所识别被摄体的至少一部分。

5.根据权利要求1至4中任一项所述的方法，还包括检测靠近所述视场中的区域的注视，其中所识别被摄体在距所述区域的阈值距离内并且基于所述特定于用户的推荐配置文件来辨识，包括：

获得对应于扩展区域的所述透传图像数据的子集；以及

6.根据权利要求1至5中任一项所述的方法，还包括将所述视场中的所述透传图像数据渲染为具有靠近所识别被摄体显示的所述一个或多个CGR内容项。

7.根据权利要求1至6中任一项所述的方法，其中所述一个或多个CGR内容项包括与所识别被摄体相关联的信息或执行与所识别被摄体相关联的动作的选项中的至少一者。

8.根据权利要求1至7中任一项所述的方法，其中所识别被摄体包括多个可搜索元素，并且每个可搜索元素与至少一个分类器相关联。

9.根据权利要求1至8中任一项所述的方法，其中所述特定于用户的推荐配置文件包括与所述设备交互的用户的上下文、所述用户的生物特征、所述用户的先前搜索、或所述用户的配置文件中的至少一者。

10.一种设备，包括：

非暂态存储器；和

一个或多个处理器，所述一个或多个处理器被配置为：

获得表征由图像传感器捕获的视场的透传图像数据；

将所述透传图像数据与所述一个或多个CGR内容项合成，

11.根据权利要求10所述的设备，其中所述透传图像数据中的所识别被摄体通过以下方式来识别：

检测所述视场中的区域处的注视；

获得对应于所述区域的所述透传图像数据的子集；以及

12.根据权利要求11所述的设备，其中所述一个或多个处理器被进一步配置为：

从所述分类器中选择具有最高权重的所述分类器。

13.根据权利要求11或12所述的设备，其中所述区域包括所识别被摄体的至少一部分。

14.根据权利要求10至13中任一项所述的设备，其中所述一个或多个处理器被进一步配置为检测靠近所述视场中的区域的注视，其中所识别被摄体在距所述区域的阈值距离内并且基于所述特定于用户的推荐配置文件通过以下方式来辨识：

获得对应于扩展区域的所述透传图像数据的子集；以及

15.根据权利要求10至14中任一项所述的设备，其中所述一个或多个处理器被进一步配置为将所述视场中的所述透传图像数据渲染为具有靠近所识别被摄体显示的所述一个或多个CGR内容项。

16.根据权利要求10至15中任一项所述的设备，其中所述一个或多个CGR内容项包括与所识别被摄体相关联的信息或用于执行与所识别被摄体相关联的动作的选项中的至少一者。

17.根据权利要求10至16中任一项所述的设备，其中所识别被摄体包括多个可搜索元素，并且每个可搜索元素与至少一个分类器相关联。

18.根据权利要求10至17中任一项所述的设备，其中所述特定于用户的推荐配置文件包括与所述设备交互的用户的上下文、所述用户的生物特征、所述用户的先前搜索、或所述用户的配置文件中的至少一者。

19.一种具有在其上编码的指令的非暂态计算机可读介质，所述指令在由设备的一个或多个处理器执行时，使得所述设备进行以下操作：

获得表征由图像传感器捕获的视场的透传图像数据；

将所述透传图像数据与所述一个或多个CGR内容项合成，其中所述一个或多个CGR内容项靠近所述视场中的所识别被摄体。

20.一种方法，包括：

在包括非暂态存储器和一个或多个处理器的设备处：

获得与所述设备的第一姿态相关联的第一组被摄体；

基于用户上下文和所述第一姿态来确定所述第一组被摄体中的每一个的似然估计值；

确定所述第一组被摄体中的至少一个相应被摄体的至少一个似然估计值是否超过置信度阈值；以及

响应于确定所述至少一个似然估计值超过所述置信度阈值，使用所述用户上下文和与所述至少一个相应被摄体相关联的至少一个分类器生成与所述至少一个相应被摄体相关联的推荐内容或动作。

21.根据权利要求20所述的方法，其中所述第一组被摄体在第一时间段期间由图像传感器捕获，并且所述方法还包括在第二时间段期间：

获得所述用户上下文在第二时间段期间的更新值；以及

基于所述用户上下文的所述更新值和所述第一姿态来更新所述第一组被摄体中的每一个的所述似然估计值。

22.根据权利要求20或21中任一项所述的方法，其中基于所述用户上下文和所述第一姿态确定所述第一组被摄体中的每一个的所述似然估计值包括：

获得与所述设备的第二姿态相关联的第二组被摄体，其中至少一个被摄体在所述第一组被摄体和所述第二组被摄体中；以及

基于所述第二姿态、所述用户上下文和所述第一姿态来确定所述至少一个被摄体的至少一个似然估计值。

23.根据权利要求20至22中任一项所述的方法，其中确定所述第一组被摄体中的所述至少一个相应被摄体的所述至少一个似然估计值是否超过所述置信度阈值包括将所述至少一个似然估计值与所述第一组被摄体中的其他被摄体的似然估计值进行比较。

24.根据权利要求20至23中任一项所述的方法，其中：

所述第一组被摄体中的所述至少一个相应被摄体的所述至少一个似然估计值包括第一被摄体的第一似然估计值和第二被摄体的第二似然估计值；并且

所述方法还包括：

基于更新的用户上下文和更新第一姿态信息中的至少一者来更新所述第一组被摄体中的每一个的所述似然估计值，包括生成所述第一被摄体的更新的第一似然估计值和所述第二被摄体的更新的第二似然估计值；以及

基于所述更新的第一似然估计值和所述更新的第二似然估计值在所述第一被摄体与所述第二被摄体之间进行选择。

25.根据权利要求20至24中任一项所述的方法，还包括：

生成表示与所述用户上下文和所述第一姿态相关联的所述第一组被摄体的压缩矢量；

将所述压缩矢量发送到第二设备，以便生成与所述第一组被摄体相关联的分类器的推荐权重；以及

从所述第二设备接收所述推荐权重以用于生成所述推荐内容或动作。

26.根据权利要求20至25中任一项所述的方法，还包括将所述第一组被摄体和相关联的权重存储在多个级联高速缓存中，所述多个级联高速缓存以与所述第一组被摄体中的被摄体的分类器相关联的权重排序。

27.根据权利要求20至26中任一项所述的方法，还包括：

基于更新的用户上下文和更新的第一姿态信息中的至少一者来预测超过所述置信度阈值的不同的被摄体；以及

生成与所述不同的被摄体相关联的一组推荐内容或动作。

28.根据权利要求20至27中任一项所述的方法，其中所述第一组被摄体通过以下方式被识别：

检测靠近所述设备的视场中的第一区域的注视；

获得对应于所述第一区域的图像数据；以及

基于所述图像数据和一个或多个分类器对所述第一组被摄体进行分类。

29.一种设备，包括：

非暂态存储器；和

一个或多个处理器，所述一个或多个处理器被配置为：

获得与所述设备的第一姿态相关联的第一组被摄体；

30.根据权利要求29所述的设备，其中所述第一组被摄体在第一时间段期间由图像传感器捕获，并且所述一个或多个处理器被进一步配置为在第二时间段期间：

获得所述用户上下文在第二时间段期间的更新值；以及

31.根据权利要求29或30所述的设备，其中所述一个或多个处理器被配置为通过以下方式基于所述用户上下文和所述第一姿态来确定所述第一组被摄体中的每一个的所述似然估计值：

32.根据权利要求29至31中任一项所述的设备，其中所述一个或多个处理器被配置为通过将所述第一组被摄体中的所述至少一个相应被摄体的所述至少一个似然估计值与所述第一组被摄体中的其他被摄体的似然估计值进行比较来确定所述至少一个似然估计值是否超过所述置信度阈值。

33.根据权利要求29至32中任一项所述的设备，其中：

所述一个或多个处理器被进一步配置为：

34.根据权利要求29至33中任一项所述的设备，其中所述一个或多个处理器被进一步配置为：

35.根据权利要求29至34中任一项所述的设备，其中所述一个或多个处理器被进一步配置为将所述第一组被摄体和相关联的权重存储在多个级联高速缓存中，所述多个级联高速缓存以与所述第一组被摄体中的被摄体的分类器相关联的权重排序。

36.根据权利要求29至35中任一项所述的设备，其中所述一个或多个处理器被进一步配置为：

生成与所述不同的被摄体相关联的一组推荐内容或动作。

37.根据权利要求29至36中任一项所述的设备，其中所述第一组被摄体通过以下方式被识别：

检测靠近所述设备的视场中的第一区域的注视；

获得对应于所述第一区域的图像数据；以及

38.一种具有在其上编码的指令的非暂态计算机可读介质，所述指令在由设备的一个或多个处理器执行时，使得所述设备进行以下操作：

获得与所述设备的第一姿态相关联的第一组被摄体；