CN110633009B

CN110633009B - 用于显示虚拟对象的方法和系统

Info

Publication number: CN110633009B
Application number: CN201910541176.0A
Authority: CN
Inventors: D.E.D.乌贝蒂
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-06-22
Filing date: 2019-06-21
Publication date: 2024-05-21
Anticipated expiration: 2039-06-21
Also published as: JP2020004407A; EP3588448B1; EP3588448A1; US20190392642A1; CN110633009A; GB2574882B; JP7465067B2; US10902681B2; GB2574882A; GB201810270D0

Abstract

一种用于显示虚拟对象的系统，包括：用于显示环境的显示设备；摄影机，其中该摄影机可操作以捕获用户环境的区域的视频图像，视频图像中的区域的尺寸大于在显示设备处可视的环境的区域的尺寸；运动预测器，其可操作以预测摄影机的运动；场景处理器，其可操作以识别和处理所捕获的视频图像的一部分作为预测运动的结果，该捕获的视频图像的一部分对应于预计在显示设备处可视的环境的区域；图像生成器，被配置为从场景处理器接收输入，并且响应于该输入生成用于在显示设备显示的虚拟对象；并且其中图像生成器被配置为响应于预测运动的检测输出用于显示的虚拟对象。

Description

用于显示虚拟对象的方法和系统

技术领域

本公开涉及用于显示虚拟对象的方法和系统。

背景技术

许多显示设备允许用户体验增强现实。通常，这些设备是以智能手机或头戴式显示器(HMD)的形式，并使用摄影机捕获用户物理、真实世界环境的实时视图。通过在此视图上叠加虚拟对象，用户可以体验到这些虚拟对象似乎存在于用户的真实世界环境中的现实。

最近，增强现实进一步发展成为所谓的“混合现实”的形式。混合现实与增强现实的不同之处在于，在该环境中显示虚拟对象时，会考虑用户物理环境的物理边界或表面。例如，虚拟对象不是简单地覆盖在用户视图的顶部，而是看起来停留在真实世界的物理表面上，并且具有与该表面在真实世界环境中的位置相对应的深度。

在一些版本的混合现实中，真实世界的用户视图可能被虚拟现实的视图完全掩盖，但虚拟现实本身可能包括真实世界环境内的一个或多个物理边界或表面的表示。

通常，在增强或混合现实中显示虚拟对象时，这些对象出现的真实性将取决于用户真实世界环境的各个方面。例如，这些可能包括真实世界环境的照明条件、任何(真实)物理对象、表面或边界的存在。当用户对环境的视图发生变化时，环境的这些方面也可能发生变化，因此在出现虚拟对象时需要考虑这些因素。

在已知系统中，检测环境的用户视点的变化通常需要实时处理视频图像。就所需的处理而言，这可能有点密集。通常，在变化的检测和考虑到这些变化的虚拟对象的渲染之间存在延迟。这种延迟可能在显示似乎与真实世界的环境不同步的虚拟对象时表现出来。例如，虚拟对象可能以错误的照明显示，或者以相对于进入用户视场的其他对象错误的深度显示。总之，这可能破坏用户体验的沉浸感，为用户带来次优体验。

本发明力争规避或至少缓解这些问题。

发明内容

根据本文公开的第一方面，提供了一种系统。

根据本文公开的第二方面，提供了一种显示虚拟对象的方法。

附图说明

为了帮助理解本公开并展示如何实施实施例，下列附图为例以供参考，其中：

图1示意性地示出了根据本发明的HMD的示例；

图2示意性地示出了根据本发明的移动设备的示例；

图3A示意性地示出了使用单个摄影机的显示设备；

图3B示意性地示出了使用两个摄影机的显示设备；

图4示意性地示出了由本发明的显示设备捕获的图像的示例；

图5示意性地示出了增强现实图像的示例；以及

图6示出了根据本发明的系统的示例。

图7示出了显示虚拟对象的方法的流程图。

具体实施方式

图1示意性地示出了根据本发明的显示设备20的示例。

在图1中，显示设备20显示为佩戴在用户头部30上的头戴式显示器(HMD)。HMD包括用于将HMD固定到用户头部的带40和用于向用户显示图像的显示部分50。例如，图像可以对应于虚拟对象或虚拟环境。

在图1中，显示部分50显示为完全遮挡了用户对周围环境的视图。在本示例中，用户可能被限制到看到HMD内显示的一对图像(在显示部分50处)。在其他示例中，用户对外部环境的视图可能不会被显示部分50完全遮挡。例如，可以布置图像以使其叠加(从用户的视点)在外部环境上。这可能导致用户体验“增强”现实，而不是严格的虚拟现实。

在图1中，框架40显示为包括后带和顶带。在其他示例中，框架40可能更类似于与传统眼镜相关的框架。例如，框架40可能具有从显示部分50向后延伸到用户耳朵顶部后面的基本水平的镜腿，可能在耳朵后面弯曲。例如，在这种情况下，用户可以通过显示部分50看见至少一些外部环境。换句话说，其中显示部分50包含透明或部分透明的表面，图像被投影到该表面上。

在一些例子中，HMD可以与单独的计算设备通信。所述单独的计算设备可以作为视频信号源，并且可以配置为将视频信号传输到HMD。在这些示例中，HMD可以配置为从单独的视频信号源接收视频信号并显示视频信号。外部视频信号源可以是例如游戏机。在其他示例中，HMD可以操作以生成用于显示的图像，而无需从单独的计算设备接收图像。

在图1中，HMD还显示为包含适应用户的左耳和右耳70的耳机60。耳机60回放来自内部或外部源提供的音频信号。例如，HMD可以与另一个计算设备(如游戏机)通信，并且耳机可以配置以输出从游戏机接收到的音频信号。在其他示例中，HMD本身可以配置为生成音频信号，而无需从外部音频信号源接收它们。在一些示例中，HMD可能包括一个或多个用于捕获音频信号的麦克风(未显示)。

图1所示的HMD还显示为包含摄影机90。在图1中，摄影机90显示为安装在HMD上，并且位于用户眼睛上方和(大约)用户前额中心。在一些示例中，摄影机90可以与HMD集成地形成，摄影机90的镜头暴露在HMD的外表面上。通常，摄影机90被定位以捕获环境的一个区域，该区域包括并大于原本将落在用户的视场内的环境的范围。

摄影机90捕获的视频图像可以显示在显示部分50上。例如，用户对外部环境的视图可能对应于捕获的环境视频图像。例如，在这种情况下，用户对环境的视图被显示部分50完全遮挡。在其他示例中，用户可以通过显示元素(由于其透明度)看见环境，并且捕获的视频图像不需要显示在显示部分50处。稍后将关于图3A和3B描述视频图像的使用(在两个示例中)。

在一些例子中，HMD可能包含两个摄影机。在这些示例中，每个摄影机90被布置以捕获环境的不同区域。也就是说，每个摄影机90可以定位在HMD上或在HMD中，使得环境的不同区域落入每个摄影机90的视场内。其中一个摄影机可以位于HMD上或HMD中的中心位置，以便捕获覆盖用户视场的视频图像。另一个摄影机90(未显示)可以位于第一个摄影机90的侧面，以便捕获尚未在用户视场内的环境区域。在一些示例中，两个摄影机可以被布置以提供外部环境的360度(水平和/或垂直)视图。

图2示意性地示出了根据本发明的显示设备20的第二个示例。在图2中，显示设备包括智能手机形式的移动设备。智能手机显示为由前表面20A和后表面20B构成，前表面20A包括屏幕形式的显示部分50，后表面包括至少一个用于捕获视频图像的摄影机90A。在所示示例中，摄影机90A显示为嵌入在移动设备的后表面内，位于朝向后表面的顶部和中心。

如前所述，摄影机90A配置为捕获摄影机视场内环境区域的视频图像。移动设备可以配置成在移动设备的屏幕上显示摄影机捕获的视频图像。例如，这可能是在移动设备上显示增强现实图像的情况。视频图像可用于提供用户环境的视图，其中一个或多个虚拟对象覆盖在该视图的顶部(或内部，取决于这些对象的任何遮挡)。应当理解的是，摄影机90A可能位于移动设备后表面的其他地方。

在一些实施例中，移动设备可以包括用于捕获环境不同区域的视频图像的第二摄影机90B。如图2所示，第二摄影机位于第一摄影机90A的右侧，但在顶部和底部边缘与第一摄影机90A对齐。通常，第二摄影机90B被布置以捕获在移动设备的屏幕处(当前)不可视的环境区域的视频图像。

应当理解的是，本发明可采用与图2中所示的布置不同的摄影机90A、90B的布置。通常，至少一个摄影机被定位以与用户对外部环境的视图相对应，并且另一个摄影机被定位以捕获该环境的相邻视图。在一些示例中，每个摄影机的视场可能部分重叠。

图3A示意性地示出了显示设备20的俯视图和显示设备20使用的摄影机(未显示)的视场。

在图3A中，显示设备20显示为指向方向304。如前所述，显示设备20可以对应于HMD或移动设备。显示设备20所使用的摄影机的视场显示为包括两部分。视场302A对应于可在显示设备20的显示部分50处可视(或通过的)的环境区域/由显示设备20的显示部分50呈现的环境区域。视场302B对应于显示设备20处不可视的(或通过的)环境区域/不由显示设备20呈现的环境区域。由此可以看出，在图3A中，视频图像中捕获的区域的总尺寸大于显示设备20处可视(或通过)的区域的尺寸/由显示设备20呈现的区域的尺寸。

图3B示意性地示出了使用两个摄影机90A、90B的显示设备20的俯视图。第一摄影机90A显示为具有视场302A；第二摄影机90B显示为具有视场302B。视场302B从视场302A偏移，并且可选地可以更宽(图3B中未示出)。显示设备20可以对应于前面描述的HMD或移动设备。

如图3B所示，每个摄影机90A、90B被布置以捕获环境的不同区域(尽管可能重叠，但至少在一个方向上有不同范围)。第一摄影机90A所捕获的区域可能对应于显示设备20处可视或由显示设备20呈现的环境区域。第二摄影机90B捕获的区域至少部分地对应于在显示设备20处不可视的环境区域。视频图像的组合覆盖的环境区域大于显示设备20处可视的环境区域/由显示设备20呈现的环境区域。

在图3B中，摄影机90A、90B显示为位于显示设备20的两端。这是为了强调两个摄影机90A、90B的不同视场302A、302B。应当理解的是在现实中，其中一个摄影机可能位于显示设备20(如图1和图2所示)内(或其上)的中心位置，并且另一摄影机90B位于第一摄影机90A的任一侧。在一些示例中，摄影机90A、90B位于显示设备20内(或其上)，使得由每个摄影机捕获的视频图像可以缝合在一起形成全景图像。

在图3B的示例中，显示设备20顺时针方向的旋转可对应于移动第一摄影机90A以指向之前仅由第二摄影机90B在旋转之前捕获的环境区域。同样，显示设备20从例如从左到右方向的平移可能对应于移动第一摄影机90A，使得包含更多以前仅由第二摄影机90B在平移之前捕获的环境区域。一般来说，如果可以预测这些类型的运动是令人欣喜的，从后面描述的实施例中可以明显看出。

然而，在本示例中，如果显示设备20的旋转为逆时针方向或从右向左平移，则第一摄影机移动到之前可能未被第二摄影机覆盖的区域。

为了适应这种情况，可选地，第二摄影机可能具有比第一摄影机更宽的视场，这样它也可以捕获第一摄影机左侧/逆时针的区域，或者可选地或附加地，在显示设备20处可视的环境区域/由显示设备20呈现的环境区域对应于两个摄影机之间的重叠区域302C，使得两个摄影机都可操作，以对显示设备20处不可视的环境区域/不由显示设备20呈现的环境区域进行成像，并在当前观察到的场景的任一侧提供遮挡。

还应了解的是，摄影机90A和可选摄影机90B可以具有垂直地延伸到在显示设备20处可视的环境区域/由显示设备20呈现的环境区域之上/或之下的视场，使得本文所公开的原理可以单独或组合地垂直和水平地应用。

还应理解的是，在适当情况下，单数形式的“视频图像”可包括来自两个摄影机的两个视频图像，其中它们之间提供连续且通常重叠的环境视图。

在图3B中，第一和第二摄影机90A、90B显示为分别指向34A和34B方向。在图3B中，两个摄影机90A和90B显示为指向同一方向。然而，在一些示例中，摄影机可能指向不同的方向(取决于例如每个摄影机的视场以及摄影机将捕获的环境范围)。

图4示意性地示出了由本发明的显示设备20的摄影机捕获的视频图像400的示例。视频图像400显示为由两个区域组成，第一区域402A和第二区域402B。第一区域402A可对应于在显示设备20处可视的环境部分/由显示设备20呈现的环境部分。第二区域402B可对应于在显示设备20处不可视、但是在显示设备20使用的摄影机的视场内的环境部分。如果使用两个摄影机，则第二区域402B可能对应于第二摄影机90B视场内的环境部分。

在图4中，视频图像400描绘了一个场景，其中两名玩家404A、404B正在打篮球。示出了篮筐406、以及限定两名玩家打篮球的区域的物理边界408。示出这两名玩家在篮球场上打篮球，篮球场的地板/地面由物理表面410表示。

在图像400的第一部分402A中，显示了第一个玩家404A和篮筐406。在图像400的第二部分402B中，显示第二玩家404B正在呼叫将球传给他们。在这种情况下，用户10可能会移动他们的显示设备20，从而使第二玩家404B落在用户的视场内。这可能对应于移动显示设备20，使第二玩家404B在捕获的视频图像400中占据更中心的位置。例如，由于用户例如穿戴HMD时旋转和/或平移其头部，或重新定向/重新定位移动设备，运动可能对应于显示设备20的旋转和/或平移。

图5示出了与图4的示例相似的场景的示例，其中虚拟对象502(在本例中是霸王龙Rex(T-Rex))显示为存在于用户的物理真实世界环境中。在图5中，显示设备20显示为智能手机，并且用户的环境视图由智能手机上显示的视频图像定义。

为了让T-Rex令人信服地出现在用户真实世界环境的视图中，在出现要显示的虚拟对象502之前可能需要考虑一些因素。首先，需要检测玩家正在玩的物理表面，以确保T-Rex被描绘为在这个表面上行走。为确保正确显示虚拟对象的虚拟阴影504可能也需要检测这一点。同样，可能需要检测任何物理边界，如墙壁或围栏，以确保T-Rex停留在这些边界内，或与它们适当地交互。在图5中，示出了栅栏形式的物理边界408。

在一些示例中，可能还需要检测环境中存在一个或多个物理对象。例如，这可能涉及检测一个或多个玩家、篮球和篮筐在场景中的相对位置和深度(距离)。通过检测这些对象的相对位置和深度，如果对象位于T-Rex前面(从用户的视角)，则T-Rex可能会显示为被对象遮挡。这也允许使T-Rex动画，以便与这些对象交互。例如，T-Rex可以被动画，以便吃掉其中一个玩家，并且这样玩家可能需要从场景中数字地删除。

在一些示例中，检测物理对象可能涉及识别与预先确定(即已知)对象相对应的物理对象。例如，这可能涉及识别对应于篮筐的物理对象。在其他或可选示例中，这可能涉及区分和/或识别单个玩家的身份，并控制T-Rex的动作，以便指向特定玩家。同样，通过识别一些物理对象，可以用来控制当与他们交互式如何显示虚拟对象。

在一些示例中，可以确定场景内的照明条件，以便将T-Rex显示为受这些照明条件影响。例如，如果篮球比赛是在晚上进行的，那么最好是让T-Rex比如果篮球比赛是在中午进行时更昏暗地照亮。在一些情况下，用户环境中的不同位置的照明条件可能会变化，因此当用户对环境的视场改变时，可能需要调整虚拟对象显示为暴露在其中的照明。为了确定如何在场景中显示T-Rex的虚拟阴影可能也需要检测照明条件。

在其他示例中，还可能需要跟踪场景中发生的一些事件。在图5中，这可能对应于跟踪例如篮球何时进入篮筐、或者两名玩家何时相互碰撞。通过跟踪这些事件，可以控制虚拟对象的动画，以便对检测到的事件作出反应。

可以理解的是，随着环境显示视图的变化，所显示环境的任何一个这些特征都可能发生变化。在已知系统中，通常在显示设备(或者更确切地说，显示设备的摄影机)被移动以便捕获新的或变化的特征时检测这些变化。然而，以这种方式检测变化是有问题的。例如，如果仍有正在被检测的用户环境的特征，则可能无法实时显示虚拟对象对用户环境做出反应。如果用户进一步移动其显示设备，则可能需要检测环境的更多特征。这可能导致虚拟对象与用户环境不同步。总的来说，用户可能会体验到一种不太令人信服的增强或混合现实。

图6示意性地示出了通过实施本文中的技术来规避或至少缓解这个问题的系统600的示例。这种系统在本文中称为根据本发明的系统。图6所示的组件可能都是前面讨论过的显示设备20的组件。在其他实施例中，至少一些组件可以在单独的计算设备上实现，如下所述。

系统600包括用于捕获用户外部环境区域的视频图像的摄影机单元602。摄影机单元602可包括单个摄影机或两个摄影机，如前面关于图3A和3B所述。摄影机单元602捕获的视频图像(或视频图像的组合)覆盖的环境区域大于在显示设备20处可视的环境区域/由显示设备20呈现的环境区域的大小。

系统600还包括一个或多个以运动预测器604形式的处理器，其被配置为预测摄影机的运动，例如通过预测显示设备20的运动作为替代。显示设备20的预测运动可用于确定由于执行了运动而可能在显示设备20处可视的环境区域。

在一些示例中，运动预测器604可配置为基于显示设备的先前姿势预测显示设备20的姿势(即位置和/或方向)。例如，显示设备20可包括运动检测器(未显示)，其被配置为检测显示设备20的姿势。可以随着时间的推移监测显示设备20的姿势，并用于预测显示设备20的后续姿势。例如，这可能涉及确定显示设备20的速度。应当注意的是，以这种方式预测显示设备20的运动在小时间帧内可能足够可靠。对于较长的时间帧、或涉及在方向上快速变化的复杂运动，这种预测运动的方法可能不太准确。这种运动预测的简单例子可能涉及观看网球或足球比赛或跳水比赛，在这种比赛中，运动的方向和范围可以假设为是可预测的。

在其他或可选示例中，运动预测器604可包括用于检测用户注视方向变化的注视方向检测器。注视方向检测器可以包括例如设置为捕获用户的眼睛(或双眼)的图像的红外摄影机，并且注视方向检测器可以配置为识别和跟踪用户的瞳孔在所捕获图像中的位置。运动预测器604可配置为基于检测到的用户注视方向的变化来预测显示设备20的运动。例如，如果检测到用户的瞳孔正在移动(例如，向左移动)，则用户可能会将设备20移动到相应的方向。

在又一其它或可选示例中，运动预测器604可配置为基于检测摄影机单元602捕获的视频图像中的一个或多个物理(即真实)对象来预测显示设备20的运动。在一些示例中，这可能涉及检测一个或多个物理对象的移动。例如，用户10可能会移动显示设备20，以便将移动对象保留在用户的环境视场内。在一些示例中，这可能涉及检测物理对象正在执行可能导致用户10将转到(或将其设备20转到)该对象的移动或操作。例如，对象可以是与整个场景具有显著亮度或对比度差异的特定的人、或者球、或对象(例如，由于处于聚光灯下)。

运动预测器604可以检测所谓的“光流”，即由于摄影机的平移或旋转而导致图像中特征的总体运动。

运动预测器604可采用例如计算机视觉或机器学习，以检测视频图像中的不同物理对象。同样地，运动预测器604可采用机器学习来识别视频图像中与用户可能跟踪和/或聚焦的动作相对应的一些运动。

在其它的示例中，运动预测器604可配置为基于检测到与音频源相关的环境中的位置预测显示设备20的运动。例如，通常可以预计用户10将看向(在这样做时，将其设备转向面对)物理对象，例如说话的人。在这种情况下，运动预测器604可配置以确定显示设备20可能沿检测到的音频源的方向移动(例如，旋转)。例如，显示设备20可包括两个或多个麦克风，用于检测相对于用户的音频源方向。

在其它的示例中，运动预测器604可配置为基于显示设备20上显示或将显示的虚拟对象的位置预测显示设备20的运动。例如，可以预计用户10将显示设备20转向虚拟对象，以便更好地观看该虚拟对象。因此，运动预测器604可配置为获取虚拟对象在用户环境中的位置，并响应于该位置确定显示设备20可能经历的相应运动。可以从用虚拟对象对场景进行增强的处理器(例如，图像生成器608)获得位置(或最后的位置)，或者可以从图像分析等获得位置。

在优选实施例中，使用机器学习算法预测显示设备20的运动(或更确切地说，后续的姿势)。

可以用在运动之前的指示显示设备20的运动的数据和由显示设备20捕获的相应视频数据训练机器学习算法。训练可能涉及确定将显示设备20捕获的视频数据(对应于用户的环境视图)映射到显示设备20的后续运动的函数。可以根据一个或多个参数定义该函数，并且可以调整这些参数，直到函数能够以足够的精度预测显示设备20的运动。在一个例子中，可以使用反向传播调整这些参数，即机器学习算法的输出(显示设备20的预测运动)可以与原始输入(显示设备20的实际运动)进行比较，并且可以调整这些参数，直到能够以足够的精度预测显示设备20的运动。如本领域所知，一旦该算法为一组看不见的测试数据产生精确的结果，则可以说该算法已经过充分的训练。如上所述，用于训练的其他参数可能包括用于识别/区分视频数据中的一个或多个对象的元数据、视频中包含的或将包含在视频、音频数据或其抽象中的增强对象的位置、姿势和/或类型的信息(例如，音量级别或语音活动标志)。其他参数对技术人员来说是显而易见的，例如GPS坐标或可能表示场景并因此是可预测的行为(例如在网球场)的描述性关键字。

在一些例子中，机器学习算法的训练可以在例如服务器上执行。服务器可以配置为从多个不同的显示设备20接收运动数据、视频数据和其他可选参数，并以上述方式训练机器学习算法。一旦机器学习算法得到充分的训练，该算法的训练版本可以输出到显示设备20。例如，这可以作为通过通信网络下载到显示设备的软件更新的一部分执行。

机器学习算法可以使用神经网络，例如“深度学习”网络或贝叶斯专家系统600，或任何可操作来学习第一组数据点和第二组数据点之间的相关性的方案，例如遗传算法、决策树学习算法、关联规则学习方案等。

这种相关性的例子包括球的运动和显示设备的运动；在可视显示区域的外围或邻近区域的一个或多个预定类别的真实或虚拟对象的全部或部分外观，以及将它们集中的运动；与可视对象相关的音频源和将它们集中的运动等。

图6所示的系统600还包括场景处理器606，其被配置为处理由摄影机单元602捕获的视频图像的一部分。如图6所示，场景处理器606接收来自运动预测器604和摄影机单元602的输入。场景处理器606被配置为识别视频图像的一部分，其对应于由于显示设备20已经以预定的方式被移动而预计落入用户视场内的环境区域。

在图4所示的示例中，这可能对应于检测捕获的视频图像的第二部分402B可能在随后的时间落入用户的视图中。因此，场景处理器606可以识别和处理捕获的视频图像的这一部分。如前所述，摄影机单元602可包括两个摄影机，并且用户对环境的视场可与其中一个摄影机捕获的视频图像相对应。在这种情况下，场景处理器606可以配置为处理由另一摄影机捕获的图像。

回到图6，场景处理器606可配置为处理捕获视频图像的识别部分中存在的照明条件。例如，在一些环境中，环境中不同位置的照明可能会有所不同；这取决于例如每个位置距离光源多近或多远。场景处理器606可配置为通过检测例如视频图像的识别部分的曝光水平、色温、白平衡、主要场景颜色等来检测照明条件。

在其它或可选的实施例中，场景处理器606可配置为检测捕获视频图像的识别部分中任何物理(即真实)对象、物理表面或边界的存在。在图4的示例中，这可能涉及在捕获的视频图像内检测第二玩家的位置，并且在场景处理器606处接收到的后续视频图像中追踪该玩家的位置。

在一些示例中，场景处理器606可配置为将检测到的物理对象标识为对应于预先确定的对象。在图4的示例中，这可能对应于检测第二部分中第二玩家404B的存在，并将该玩家识别为人(并且可选地，识别为系统600已知身份的人)。例如，可以通过计算机视觉或机器学习来实现捕获的视频图像中的对象的检测和/或识别。在其他示例中，可以通过显示设备20可访问的数据库来实现所述检测和/或识别。例如，数据库可以为多个不同对象中的每一个定义图像特征，并且可以基于与存储在数据库中的图像特征的比较来识别所捕获图像中的对象。

在优选示例中，场景处理器606还配置为确定预计将落入用户随后的环境视图中的物理对象的深度(距离)。例如，显示设备20可包括用于捕获用户环境的深度数据的深度相机或3D扫描仪。场景处理器606可配置为确定在捕获的视频图像的识别部分中检测到存在的任何物理对象的深度。在使用两个摄影机的示例中，物理对象的深度可以通过两个视图深度估计来确定，如本领域所知。应当注意的是，最初这些物体可能只能由一台摄影机看到，并且因此不能进行双视图深度估计。在这种情况下，可以使用与场景中当前已知对象的可选的大小比较来近似物理对象的距离。类似地，与场景中物理对象相关的可选的大小数据可以从可用时的图像和深度数据建立，并且然后存储一个预定的时间段，以便在再次遇到该对象时，可以从单个图像中的外观大小估计其距离。通常，检测物理对象的深度是有用的，因为这样可以使用适当的遮挡(如果有的话)显示虚拟对象。

在一些示例中，显示设备20包括场景处理器606。在其他示例中，场景处理器606可在显示设备与之通信的单独计算设备上实现。例如，场景处理器606可以在例如游戏机、或例如在显示设备通过通信网络与之通信的服务器上执行。

如图6所示，场景处理器606显示为向图像生成器608提供输入。该输入可以包括指示检测到的照明条件和用户预计观看的(直接或间接取决于使用的显示设备的类型)环境区域中任何物理对象、表面或边界的存在中的至少一种的数据。

图像生成器608配置为响应于从场景处理器606接收输入，生成用于在显示设备上显示的虚拟对象502。图像生成器608配置为生成虚拟对象502，该虚拟对象502考虑到照明条件以及由于用户对显示设备执行预测运动而预计落入用户视图内的任何物理对象、表面或边界。图像生成器608配置为响应于对预测运动的检测输出生成的虚拟对象502。这样可以确保仅在检测到的照明条件、物理对象、物理表面或边界对用户可见时将虚拟对象502显示给用户。在图6中，图像生成器608显示为输出用于在显示设备20上显示的虚拟对象502。

在图6中，图像生成器608显示为接收虚线箭头形式的附加输入。此输入可对应于从单独的计算设备(如游戏机)接收的图像数据。例如，游戏机可以配置为生成虚拟对象502，并且图像生成器608可以配置为基于场景处理器606执行的处理调整虚拟对象502的一个或多个属性。

在一些示例中，图像生成器608可以从显示设备20分离。例如，场景处理和图像生成都可以在与显示设备20通信的单独计算设备上执行。因此，显示设备20可以仅显示在单独的计算设备上生成的虚拟对象502。

现在将关于图5讨论图6中系统600的用例。

在图5中，用户当前的环境视图(即在用户智能手机的屏幕上可以看到)包括第一个玩家404A和第二玩家404B，以及篮筐406和T-Rex。T-Rex对应于图像生成器608生成的虚拟对象502。

在图5中，第二玩家404B可能正在呼叫第一个玩家，或者第一个玩家404A通常正在朝第二玩家404B的方向移动。在这种情况下，用户10可能会旋转他们的智能手机，以便跟随第一个玩家404A，或者以获得第二玩家404B的更中心视图。因此，运动预测器604可以预测用户10会使用他们的智能手机执行相应的运动，即旋转(箭头506所示)。响应于此，场景处理器606识别并处理预计落入用户后续视场的场景的部分。如前所述，这可能涉及到处理包括场景的该部分的视频图像的一部分，或者处理包含更多该场景中该区域的视频图像。

图像生成器608配置为基于场景处理器606执行的处理生成T-Rex的图像。例如，这可能涉及生成暴露在用户预计看到的环境区域的照明条件下的T-Rex的图像。虽然未显示，但可能是例如第二玩家404B占用的篮球场部分比第一个玩家404A占用的篮球场部分更暗或更亮。在一些示例中，图像生成器608配置为生成对应于例如与第二玩家404B交互的T-Rex的动画。

应当理解的是，虽然图5所示的T-Rex位于所显示图像的右侧，图像生成器608可配置为使T-Rex动画，以便其例如跟随篮球。在这种情况下，预计T-Rex将被描绘为朝第二个玩家移动。在这种情况下，图像生成器608配置为调整T-Rex的显示，使其以正确的照明出现，并且在用户视图改变时考虑将进入用户环境视图的任何物理对象、边界或表面。

图7说明了根据本发明的方法的示例。

在步骤S702中，在显示设备处提供环境视图。该视图可以对应于真实世界视图(例如，增强现实)或虚拟世界视图(例如，混合现实)。在一个例子中，环境可能是前面关于图4和图5描述的篮球场。

在步骤S704中，使用摄影机捕获环境的视频图像。视频图像中捕获的环境区域大于在显示设备上可视的环境区域。如前所述，摄影机可以构成显示设备本身的一部分，或者也可以从显示设备分离(但与显示设备通信)。如前所述，视频图像可以由两个摄影机或单个摄影机捕获。

在步骤S706中，预测摄影机的运动。可以基于前面描述的任何方法预测摄影机的运动。例如，可以基于所捕获视频图像的内容、用户的注视方向的变化以及显示设备在当前时间之前的运动(例如，摄影机的当前轨迹)中的至少一个来预测运动。如前所述，机器学习可用于识别视频内容与摄影机后续移动之间的关系。在一些例子中，可以基于在捕获的视频图像中检测到的一个或多个物理对象(包括人)的运动预测摄影机的运动。

在步骤S708中，识别预计在显示设备处可见的环境区域。基于摄影机的预测运动来识别该区域。

在步骤S710中，处理捕获的视频图像中与要在显示设备处可视的环境部分相对应的部分。所述处理可以包括确定捕获视频图像部分中出现的照明条件和检测捕获图像部分中的一个或多个物理对象中的至少一个。对一个或多个物理对象的检测可能涉及检测捕获视频图像中对象的相对位置和深度。例如，可以使用计算机视觉或机器学习来检测一个或多个物理对象。

在步骤S712中，基于步骤S710中执行的处理生成虚拟对象的图像。生成虚拟对象以在显示设备提供的环境视图中显示。如前所述，可以生成虚拟对象，使其暴露在作为步骤S710的处理的一部分被检测到的照明条件下。在其它的示例中，虚拟对象可能是基于一个或多个检测到的物理对象生成的。这可能涉及生成虚拟对象，以便具有取决于步骤S710中识别的一个或多个物理对象的相对位置和深度的遮挡。这还可能涉及动画虚拟对象，以便与环境中检测到的一个或多个物理对象进行交互。例如，虚拟对象可以是前面关于图5描述的T-Rex。

在步骤S714中，检测与预测运动相对应的摄影机的运动。在一些例子中，这不需要是完全的匹配，而是与预测运动足够相似的运动。

在步骤S716中，生成的虚拟对象被显示在显示设备上。虚拟对象可以覆盖在显示设备处提供的环境视图的顶部，或者可以嵌入与真实世界环境相对应(至少部分对应)的虚拟环境内。如前所述，显示的虚拟对象可能对应于例如场景中具有适当位置、深度、交互性和照明的T-Rex。

通过根据本文所述的实施例生成虚拟对象，显示设备能够先取得用户对周围环境的视图中的改变，并相应地调整虚拟对象的显示。这允许将虚拟对象描述为实时与环境交互，因为在该环境部分进入用户视图之前，大部分的处理已经被执行了。

因此，本发明的优点是为了增强现实的目的(例如识别表面、边界、对象、照明条件等)，对真实世界环境的至少一部分的特征描述可以在预计到这种增强发生(通常每秒钟有30或60帧)时通过预测显示设备的视场中的变化并且因此预测真实世界环境的什么部分可能变得可视来执行，从而避免需要在第一可视帧内对环境进行特征描述的处理瓶颈或峰值。

相应的优点是，可选地，系统可以同等地预测真实世界环境中的什么部分不再可视，并相应地减少计算资源。例如，通过丢弃该部分的特征描述数据，或推迟该部分中交互或增强的计算，直到明确预测是否正确为止。

同样地，除了对预计变得可视的真实世界环境的至少一部分进行预先特征描述外，可选地还可以预先准备与该部分环境对应的任何增强相关联的资源(例如，提取相关纹理，或加载相关着色器，如果预测到篮筐将变得可视则用闪光灯增强篮筐)。

上面的描述在很大程度上假设显示设备20(诸如HMD或移动设备)的特征为摄影机和显示器作为相同设备的部分，可选地一些或者全部处理在诸如视频游戏机或服务器的远程设备上执行。然而，应当理解的是，本文中的技术也适用于远程出现系统,其中第一用户控制摄影机或每个摄影机(例如当参加体育赛事时)，并且视图被流式传输/广播到远程显示设备(例如家庭成员的显示设备，或该流式传输/广播的订阅者)。在这种情况下，运动预测器604和场景处理器606可能位于摄影机、显示单元或其它的远程设备(诸如视频游戏机或服务器)。

应当理解的是，上述任何配置都因此可以用作根据本文的技术显示虚拟对象的系统。

上述技术可以在硬件、软件或两者的组合中实现。在使用软件控制的数据处理装置来实现实施例的一个或多个特征的情况下，应当理解的是，该软件和存储或传输介质(诸如提供该软件的非暂时性机器可读存储介质)也被视为本发明的实施例。

Claims

1.一种用于显示虚拟对象的系统，所述系统包括：

用于显示环境的显示设备；

摄影机；

其中，所述摄影机可操作以捕获用户环境的区域的视频图像，所述视频图像中的所述区域的尺寸大于在所述显示设备处可视的环境的区域的尺寸；

运动预测器，其可操作以预测所述摄影机的运动；

场景处理器，其可操作以识别和处理捕获的视频图像的一部分作为预测运动的结果，所述捕获的视频图像的一部分对应于预计在所述显示设备处可视的环境的区域；

图像生成器，被配置为从所述场景处理器接收输入，并且响应于所述输入生成用于在所述显示设备显示的虚拟对象；

其中，所述图像生成器被配置为响应于所述预测运动的检测输出用于显示的所述虚拟对象，

其中，所述运动预测器被配置为检测所述捕获的视频图像中的一个或多个物理对象；并且

其中，所述运动预测器被配置为基于检测到的所述一个或多个物理对象预测所述显示设备的运动。

2.根据权利要求1所述的系统，其中，所述系统包括两个摄影机，每个摄影机被配置为捕获所述环境的至少部分不同的区域的图像；

其中，在所述显示设备处可视的所述环境的区域小于由所述两个摄影机捕获的区域；并且

其中，所述场景处理器被配置为处理在所述显示设备处可视的所述环境的区域之外的区域的视频图像数据。

3.根据权利要求1所述的系统，其中，所述场景处理器被配置为确定所述捕获的视频图像的部分中的照明条件；并且

其中，所述图像生成器被配置为生成好像曝光在这些照明条件下的所述虚拟对象。

4.根据权利要求1所述的系统，其中，所述场景处理器被配置为检测所述捕获的视频图像的部分中的至少一个物理对象；并且

其中，所述图像生成器被配置为响应于检测到的至少一个物理对象生成虚拟对象。

5.根据权利要求4所述的系统，其中，所述场景处理器被配置为确定所述至少一个物理对象的相对位置和深度；并且

其中，所述图像生成器被配置为生成具有遮挡的所述虚拟对象，所述遮挡取决于所述至少一个物理对象的所述相对位置和深度。

6.根据权利要求4所述的系统，其中，所述图像生成器被配置为生成动画的虚拟对象，所述动画对应于所述虚拟对象和所述至少一个物理对象之间的虚拟交互。

7.根据权利要求1所述的系统，其中，所述运动预测器包括注视方向检测器，其可操作以检测所述用户的注视方向；并且

其中，所述运动预测器被配置为基于检测到的所述用户的注视方向的变化预测所述显示设备的运动。

8.根据权利要求1所述的系统，其中，所述系统包括运动检测器，其可操作以检测所述显示设备的运动；并且

其中，所述运动预测器被配置为基于由所述运动检测器检测到的所述显示设备的运动，预测所述显示设备的运动。

9.根据权利要求1所述的系统，其中，所述运动预测器被配置为通过计算机视觉或机器学习来检测所述一个或多个物理对象。

10.根据权利要求1所述的系统，其中，所述运动预测器被配置为接收指示所述显示设备的运动的运动数据、以及指示所述捕获的视频图像的内容的图像数据；并且

其中，所述运动预测器包括机器学习算法，所述机器学习算法被训练以基于所述捕获的视频图像的内容来预测所述显示设备的运动。

11.根据权利要求10所述的系统，其中，所述系统包括训练单元，其可操作以训练所述机器学习算法，所述训练被配置为从多个不同的显示设备接收运动数据和由所述显示设备捕获的视频数据；并且

其中，所述训练单元被配置为确定所述捕获的视频图像的内容和所述显示设备的运动之间的关系。

12.一种显示虚拟对象的方法，所述方法包括：

在显示设备处提供环境的视图；

捕获所述环境的视频图像，在所述视频图像中捕获的所述环境的区域大于在所述显示设备处可视的所述环境的区域；

检测所捕获的视频图像中的一个或多个物理对象；

基于一个或多个检测到的物理对象预测摄影机的运动；

识别预计在所述显示设备处可视的所述环境的区域，作为所述摄影机的预测运动的结果；

处理与预计在所述显示设备处可视的所述环境的区域相对应的捕获的视频图像的部分；

生成用于在所述显示设备处显示的虚拟对象的图像，所述图像是基于所述视频图像的部分的处理生成的；并且

响应于检测所述显示设备的所述预测运动已经被执行，显示所述虚拟对象。

13.根据权利要求12所述的方法，其中，处理所述捕获的视频图像的所述部分包括以下的至少一个：

i.确定在所述捕获的视频图像的所述部分中出现的照明条件；以及

ii.检测所述捕获的视频图像的所述部分中的一个或多个物理对象。

14.根据权利要求12所述的方法，其中预测所述显示设备的运动包括检测以下的至少一个：

i.所述捕获的视频图像的内容；

ii.用户的注视方向的变化；以及

iii.当前时间之前的所述摄影机的运动。