CN110869980B

CN110869980B - 将内容分发和呈现为球形视频和3d资产组合

Info

Publication number: CN110869980B
Application number: CN201880045898.0A
Authority: CN
Inventors: 塔图·V·J·哈尔维艾宁; 马尔科·帕维艾宁
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2017-05-18
Filing date: 2018-05-11
Publication date: 2024-01-09
Anticipated expiration: 2038-05-11
Also published as: US11202051B2; WO2018213131A1; EP3625772A1; CN110869980A; US20210084278A1

Abstract

可针对3D视频内容模拟运动视差效果。在头戴式显示器(HMD)处，可以通过以下各项来仿真运动视差：在HMD处接收3D视频；获得3D视频中的对象的模型；获得被处理的3D视频，其中所述3D视频被处理以从所述3D视频移除对象；通过HMD的传感器来跟踪HMD的位置的变化；在HMD处呈现所述被处理的3D视频；以及基于所跟踪的HMD的位置的变化在被处理的3D视频中的一位置处呈现对象的模型。还可以生成指示其中的对象的深度的多层球形视频，其可以用于运动视差仿真。

Description

将内容分发和呈现为球形视频和3D资产组合

相关申请的交叉引用

本申请是2017年5月18日提交的名为“用于将内容分发和呈现为球形视频和3D资产组合的系统和方法”的美国临时专利申请序列号62/508,120的正式申请并根据35U.S.C.§119(e)要求其权益，该美国临时专利申请的全部内容通过引用的方式合并于此。

技术领域

本申请涉及视频处理领域。

背景技术

虚拟现实(VR)设置通常利用能够连接到不同种类的网络的头戴式显示器(HMD)设备来促进。运动视差是当观看者移动到新视点时对象相对于背景的明显运动。一些现有的360度视频解决方案，例如三自由度(DOF)VR，仅从单个相机位置提供图像。视点可以改变，但是其将不展现运动视差。因此，如果360度视频的观看者例如通过侧向移动他们的头部来平移他们的观看位置，则360度视频保持不变。虽然全六DOF VR实现了用于增加的真实感的运动视差，但是除了HMD可能是系留式(tethered)HMD之外，可能导致大量的计算、呈现(rendering)和带宽需求。本文阐述的系统和方法试图解决这些问题和其他问题。

发明内容

根据本文阐述的一些实施例，存在用于在三DOF系统中显示具有运动视差效果的VR对象的系统和方法。

在一些实施例中，一种在头戴式显示器(HMD)处仿真运动视差的示例方法包括：在HMD处接收3D视频；获得3D视频中的对象的模型；获得被处理的3D视频，其中3D视频被处理以从3D视频移除对象；通过HMD的传感器来跟踪HMD的位置的变化；在HMD处呈现被处理的3D视频；以及基于所跟踪的HMD的位置的变化在被处理的3D视频中的一位置处呈现对象的模型。

在一些实施例中，一种用于在头戴式显示器(HMD)处仿真运动视差的示例方法包括：在HMD处显示接收的3D视频；选择3D视频中的对象以用于运动视差仿真；获得3D视频中的对象的3D模型；从3D视频中移除对象以准备没有所述对象的被处理的3D视频；通过HMD的传感器来跟踪HMD的位置的变化；在HMD处呈现被处理的3D视频；以及基于所跟踪的HMD的位置的变化在被处理的3D视频中的一位置处呈现对象的3D模型。

根据本文阐述的一些实施例，存在用于生成多层球形视频的系统和方法。

在一些实施例中，一种生成多层球形视频的示例方法包括：获得静态环境的3D重构；获得所述环境的存在动态元素的场景的球形视频；对于所获得的球形视频的每个帧：基于静态环境的3D重构与使用通过差分呈现的照明模拟的球形视频的比较来估计动态元素的深度值；基于静态环境的3D重构来分配帧的剩余部分的深度值；以及基于所估计和分配的深度值将帧划分为多个深度层；以及从帧的深度层生成多层球形视频。

附图说明

图1描绘了根据一些实施例的VR系统的示意性平面图。

图2描绘了根据一些实施例的实现运动视差的示例过程。

图3A-3B描绘了根据一些实施例的用于在客户端侧设备中实现复杂3D模型的所选元素的运动视差的序列图。

图4A描绘了根据一些实施例的用于在HMD中提供运动视差效果的示例方法。

图4B描绘了根据一些实施例的用于在HMD中提供运动视差效果的示例方法。

图5A描绘了根据一些实施例的360度视频的第一视点。

图5B描绘了根据一些实施例的图5A的360度视频的第二视点。

图6A-6C描绘了根据一些实施例的显示运动视差的示例方法。

图7描绘了根据一些实施例的静态环境处理阶段的示例方法。

图8描绘了根据一些实施例的动态环境处理阶段的示例方法。

图9描绘了根据一些实施例的捕获视频帧中的动态元素的示例过程。

图10描绘了根据一些实施例的用于估计动态元素的深度的示例过程。

图11描绘了根据一些实施例的用于估计动态元素的深度的示例方法。

图12A-12F描绘了根据一些实施例的直接对象距离求解的示例过程。

图13A是示出了可以在其中实现一个或多个所公开的实施例的示例通信系统的系统图。

图13B是根据实施例示出了可以在图13A所示的通信系统中使用的示例性无线发射/接收单元(WTRU)的系统图；

在各个附图中描绘并结合各个附图描述的实体、连接、布置等是通过示例而非限制的方式来介绍的。这样，关于特定附图“描绘”了什么、特定附图中的特定元素或实体“是”或“具有”什么的任何和所有陈述或其它指示、以及任何和所有类似陈述(其可能是孤立的和脱离上下文被解读为绝对的并因此是限制性的)可仅被适当地解读为在其之前以建设性的方式加上诸如“在至少一个实施例中……”之类的条款。为了简洁明了起见，在附图的详细描述中，不再重复这个隐含的前导条款。

具体实施方式

现在将参考各个附图来提供对说明性实施例的详细描述。尽管描述提供了可能实现方式的详细示例，但是应当注意，所提供的细节旨在作为示例，而绝不限制本申请的范围。

注意，所描述的实施例中的一个或多个的各种硬件元件被称为“模块”，其执行(即，运行、实行等)在此结合相应模块描述的各种功能。如本文所使用的，模块包括相关领域的技术人员认为适合于给定实现方式的硬件(例如，一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所描述的模块还可以包括可实行用于执行被描述为由相应模块执行的一个或多个功能的指令，并且注意，那些指令可以采取硬件(即，硬连线的)指令、固件指令、软件指令等的形式或包括它们，并且可以存储在任何合适的非暂时性计算机可读介质或媒介中，诸如通常被称为RAM、ROM等。

分发和呈现内容

虚拟现实(VR)设置通常利用能够连接到不同种类的网络的头戴式显示器(HMD)设备来促进。运动视差是当观看者移动到新视点时对象相对于背景的明显运动。一些360度视频解决方案(例如，三自由度(DOF)VR)，仅从单个相机位置提供图像。视点可以改变，但是其将不展现运动视差。因此，如果360度视频的观看者平移位置，则360度视频不变。全六DOFVR实现了用于增加的真实感的运动视差，但是除了HMD是系留式HMD之外，通常可能需要大量的计算、呈现和带宽。因此，需要将内容分发和呈现为球形视频和3D资产组合的系统和方法。

根据一些实施例，本文描述的系统和方法涉及向用户显示相关VR场景的用户界面。各种HMD设备通常可用于向用户展示VR场景。然而，处理用于所有对象的在VR设备中显示的全运动视差可能降低用户的VR体验。在一些实施例中，本文阐述的系统和方法提供VR对象的运动视差模拟。

在一些实施例中，HMD设备连接到有线或无线的不同种类的网络，以向用户提供VR环境。HMD设备可以具有变化的呈现能力、存储器容量，并且可以接入不同速度的网络。不同3D模型的呈现能力在HMD中可以变化。例如，一些HMD可能不能够呈现3D图形或仅呈现基本3D图形。HMD的存储器容量可以变化。存储器消耗可以取决于存储在设备的内部存储器中的3D模型的复杂度和数量。HMD还可接入提供变化的带宽和服务质量(QoS)(例如，不同的可靠性和时延参数)的不同速度网络。

在一些实施例中，在HMD和联网计算设备(诸如服务器)之间划分呈现任务。例如，HMD可以具有有限的或以其他方式受限的呈现能力，并且可以经由网络连接接收服务器侧呈现的数据。HMD然后可以显示所接收的数据。

增加计算机的处理能力和存储器容量使得提供包含越来越多的细节和可视元素的虚拟世界成为可能。VR体验为其用户提供逼真的数字体验。然而，用作某些高级VR解决方案的基础的3D模型的复杂性可能需要可在例如基于无线/电池的、小规模且轻量型设备中难以实现的能力，例如在用作HMD设备的移动设备中难以实现的能力。

在一些实施例中，3D模型在服务器侧上被呈现，并且然后呈现的帧通过无线网络被递送给HMD设备，HMD设备然后为用户显示呈现的帧。然而，在具有许多同时用户的某些情况下，用户计数可能难以处理，因为实时呈现(例如，20fps)可能需要处理能力以生成每个客户端的不同呈现和大量带宽来传输数据。例如，在存在1000个用户的情况下，可能难以提供能够为用户呈现帧的服务器以及能够将这些帧递送到客户端设备的无线网络连接。限制服务器侧的处理负载的一种可能性是将3D场景呈现为球形视频和3D模型的组合。结果，相同的3D或360度内容可被递送给虚拟世界中处于相同位置的所有用户，而不管观看方向如何。每个HMD显示器然后可以基于特定用户的视角来显示内容。

运动视差效果以较短的网络响应时间得到改善。时延(诸如与服务器侧呈现相关的网络时延)可能使得运动视差效果对于用户而言是不舒服的。结果，经由一些当前网络和远程呈现解决方案来产生运动视差效果可能是不可行的。

在一些实施例中，本地呈现是指本地(例如，台式机、HMD、移动设备)计算机执行3D模型的呈现。在一些实施例中，VR应用的使用可能在一个位置。另外，在复杂3D模型的情况下，用户可能必须对以期望的帧速率执行呈现任务的一个或多个计算机进行大量的金钱投资。呈现计算所使用的处理也可能耗尽移动设备的电池。

在一些实施例中，服务器侧呈现是指服务器侧执行呈现任务并通过网络连接将所产生的帧流式传输到客户端设备。然后，客户端为用户显示帧。然而，在一些这样的实施例中，网络时延可能在一些网络条件下禁止增强现实图形的有效可视化，特别是3D内容的方便的运动视差效果。

在一些实施例中，共享呈现是指在服务器侧和客户端侧之间共享呈现任务。在服务器侧执行的预处理可以使得客户端侧(例如，移动设备)更容易执行其余的呈现任务。360度视频的处理可以是与客户端和服务器侧之间的呈现工作共享的处理。

在为3D对象和为使用HMD或具有异构能力的其他360度视频呈现设备的用户提供运动视差效果的一些实施例中，该方法包括呈现3D模型的360度视频、检测感兴趣对象、以及将感兴趣对象的3D模型传递到HMD设备以执行呈现的一部分以便为3D内容的所选对象提供运动视差效果。

运动视差对于给定360度视频中的所有内容可能不是必需的或期望的，并且在各种实施例中，运动视差可以选择性地应用在360度内容内。在一些实施例中，确定将提供VR场景运动视差中的哪些对象。对象可以是感兴趣对象、在适当视觉距离处的对象、适当视觉复杂度的对象等。感兴趣对象可以是用户当前正在例如经由注视检测等表达兴趣的3D对象。

如果在用户和(一个或多个)对象之间存在大的距离，则运动视差效果对于用户不一定是可观察的。因此，距离可以用于确定是否为所选对象提供运动视差。另外，对象的运动视差效果的激活可以基于(一个或多个)3D对象的复杂度。具有较高复杂度的对象可能需要太多的处理能力。如果运动视差效果不能为VR用户提供足够的附加益处，则可以省略对这种对象的3D呈现。对VR用户附加的益处可以通过基于(一个或多个)对象和VR用户之间的距离的视觉偏移的估计来确定。另一种确定对VR用户附加的益处的方法可以包括确定VR用户的兴趣是否超过兴趣阈值。如果用户对VR对象不感兴趣，则产生该对象的运动视差的处理能力可能不值得。

是否为对象提供运动视差效果的确定可以进一步取决于HMD设备的呈现能力。可以存在能够呈现复杂3D模型并为3D对象提供全运动视差效果的HMD设备。然而，对于具有完全呈现能力的一些设备，在无线网络的可用带宽中可能存在限制或其他约束，这可能阻止复杂3D模型和纹理到HMD设备的快速传输。一些示例性实施例提供了一种使得能够快速进入虚拟世界的方法。例如，示例性系统可以首先将3D模型呈现为视频帧，并且然后在后台(backgroud)传送和/或准备用于HMD设备的3D资产，其然后可以移动到本地呈现模式。

对于具有部分呈现能力的设备，可能难以实现期望的帧速率。在一些这样的实施例中，呈现可以在服务器侧和客户端侧之间动态地共享。例如，在虚拟世界中，可能存在不包含那么多的对象(和多边形)的片段，并且因此有可能在客户端侧上呈现所有内容。在一些情况下，执行动态适配，使得在服务器侧上呈现3D内容的一部分，并且在HMD设备中仅呈现3D内容的有限部分。

对于没有3D呈现能力的设备，在一些实施例中，设备可以被扩展具有将3D呈现和运动视差能力插入HMD设备的软件模块。首先在服务器侧执行呈现，并在HMD设备中展示。在一些此类实施例中，系统可以安装HMD设备可能需要的资产，并且将HMD设备设置为完全/部分呈现模式。

在一些实施例中，HMD设备被用在可以为其用户提供变化的网络带宽的移动环境中。在复杂3D模型的情况下，网络可以实现快速或慢速网络连接。

快速网络连接可以实现3D内容的流畅传输。在一些这样的实施例中，网络带宽使得能够从服务器向客户端传输3D内容。在这种情况下，可以不需要对通过网络传输的3D内容进行优先级划分。慢速网络连接使得能够传输例如3D内容的最感兴趣部分。网络带宽可以限制3D内容(例如，模型和纹理)的传输；因此，可以对通过网络传输的内容执行优先级划分。

图1描绘了根据一些实施例的虚拟现实(VR)系统的示意性平面图。具体地，图1描绘了包括左侧的360VR服务器105和右侧的启用360视频和3D的HMD设备150的系统。360VR服务器105包括360视频呈现模块110、资产优先级划分模块115和资产准备模块120。启用360视频和3D的HMD设备150包括注视方向传感器155、位置变化检测传感器160、3D对象优先级划分模块165、性能分析器170、网络分析器175、本地资产存储180和3D呈现模块185。360VR服务器105向HMD设备150提供360视频流130、3D对象描述132和运动视差资产134的侧流。HMD设备150向服务器提供3D对象优先级划分数据140、HMD属性142和网络QoS数据144。服务器105和HMD设备150的组件被配置为执行本文描述的操作。

360VR服务器产生虚拟世界的360视频，其可以被称为复杂3D模型。360VR服务器还生成针对混合HMD设备的360视频中示出的3D对象的描述，并且将这些描述提供给HMD设备。服务器对虚拟世界的期望3D对象(例如，感兴趣对象)的模型确定优先级并将其递送给混合HMD设备。在一些实施例中，当要执行运动视差时，可以从360视频中移除要应用(一个或多个)运动视差效果的对象的描绘。

HMD设备被配置为向用户显示360视频。其还被配置为检测用户的注视方向、位置变化(例如，头部跟踪)、使用3D对象描述并针对运动视差效果对3D对象确定优先级。关于服务器侧的3D对象优先级划分、HMD属性和网络属性的信息被传递到VR服务器。取决于HMD的配置，3D对象模型的呈现(例如，针对有限尺寸的3D对象模型)由HMD执行。所呈现的对象被显示在360视频内的正确位置。HMD能够在i)纯360视频模式和ii)基于360视频和3D对象的运动视差模式之间切换。

图2描绘了根据一些实施例的实现运动视差的示例过程。示例过程可以用于使得能够利用有限的处理能力和存储器来表示HMD设备中的运动视差效果。该过程可以使用例如图1的示例系统架构在服务器侧/客户端侧作为并行运行的单独线程来执行，经由进程间通信、共享存储器、消息传递等来通信。

在某一点，用户可以“进入”虚拟世界(202)，其中圆220表示复杂3D模型的360度(“360”)视频，包括在视频中的初始位置处的至少一个3D对象222。进入虚拟世界可以包括例如360视频帧的服务器侧呈现、360视频到HMD设备的流式传输、注视方向检测、360视频在HMD设备处的输出等。

利用进入的虚拟世界，可以准备运动视差资产(204)。360VR服务器(105)可以向HMD设备(150)的本地3D模型存储(180)提供3D模型信息。在运动视差的准备中，例如，递送3D对象描述，并且确定3D对象的优先级。根据该示例，检测感兴趣对象，并且确定用于运动视差的资产的优先级。根据该示例，资产可以被准备并存储在本地存储中。

在该过程的206，由HMD设备输出运动视差。这包括注视方向和位置变化的检测、移除了感兴趣对象表示的360视频帧的服务器侧呈现、以及没有初始3D对象表示(222)的360视频(250)的输出、以及感兴趣3D对象(255)的显示资产。运动视差效果是通过3D对象255相对于其在360视频中的初始位置(对于初始3D对象222)的重新定位来提供的。

在一些实施例中，该过程使得能够实现具有例如有限能力的HMD设备中的复杂3D模型的所选元素的运动视差效果。在一些这样的实施例中，可以为复杂的3D模型以及为连接到不同类型的网络的异构HMD设备的用户提供更沉浸式和增强的表示。在一些实施例中，即使当HMD或客户端侧不具有有限能力时，由于诸如QoS管理、网络使用考虑等原因，也可以使用相同或类似的过程。

在一些实施例中，实现运动视差效果的表示，并且自动处理运动资产参数的准备。这将允许在非常广泛的HMD设备和无线网络以及使用场景中生成更丰富的体验。例如，HMD设备可以从具有有限呈现能力的低功率HMD设备一直变化到具有高处理能力、存储器容量和对高速网络的接入的HMD设备。使用场景可以从简单的娱乐变化到支持物理环境中的维护/服务工作。

图3A-3B描绘了根据一些实施例的针对HMD设备中的复杂3D模型的所选元素实现运动视差的序列图。在HMD设备中启用复杂3D模型的所选元素的运动视差的一些实施例中，如图3A-3B的序列图中所示，用户302可以在客户端侧设备310(例如，HMD)和服务器侧设备320的帮助下进入虚拟世界。在一些实施例中，客户端侧设备310可以包括用户体验(UX)管理器312、HMD传感器314和3D呈现/显示模块316。服务器侧设备320可以包括360视频呈现模块322和运动视差准备模块324。

如图3A所示，在一些实施例中，运动视差效果可以使用没有3D感兴趣对象的360视频的呈现以及3D感兴趣对象的局部呈现。在这样的实施例中，服务器用于呈现没有用于运动视差的(一个或多个)感兴趣对象的360视频。如图3B所示，在一些其它实施例中，在运动视差的展示中可以使用补丁(patch)。

如图3A-3B的序列图所描绘的，对于用户的客户端设备具有有限能力(或者例如，正在较低功能性模式中操作)的一些实施例，在用户302进入虚拟世界之前，服务器320可以呈现定义虚拟世界的复杂3D模型(330)的360视频。

服务器侧设备320通过网络连接(例如无线网络连接)来递送用于HMD设备310的360视频流(332)。在呈现虚拟世界的情况下，用户302可以进入(334)虚拟世界，其中虚拟世界由HMD310显示。HMD传感器314检测用户的注视方向并且将该信息(336)提供给UX管理器312。在一些实施例中，服务器侧320使用注视方向信息，并且针对感兴趣区域，例如针对用户正在看的区域，生成较高分辨率360视频。HMD设备以正确的视角为用户显示360视频(338)。

在为运动视差做准备时，用户302与360视频交互并且查看视频中的对象。在后台，UX管理器312发起对服务器侧设备320准备360视频的对象的运动视差资产的请求的过程。运动视差准备模块324可以将针对360视频中示出的3D对象描述(340)传送到UX管理器312。例如，3D对象描述可以指定3D对象的位置、到3D对象的距离以及3D对象的复杂度。

UX管理器312然后可以对3D对象进行优先级划分(342)。优先级划分可以基于例如用户的注视方向(例如，用户当前正在看或最近看的3D对象、注视方向的预测等)、到对象的距离和3D对象的复杂度等。如果从用户到360视频中的3D对象存在大的距离，诸如对于风景(landscape)中的对象，则运动视差效果可能不可见。在这样的实例中，可以降低远离用户的对象的优先级，使得将不为这些对象提供运动视差效果。例如，在距离用户超过阈值距离的距离处的对象可以使其优先级被降低或消除，以便为那些对象提供/仿真运动视差。在一些实施例中，3D对象的复杂度或尺寸可以影响对象的优先级，其中更复杂的对象具有降低的优先级。例如，如果3D对象的尺寸超过阈值尺寸，则对象可以使其优先级被降低或消除以提供/仿真运动视差。

用户还可以实现用于特殊种类的对象的运动视差效果，诸如用于与用户的当前任务相关的对象。在一些实施例中，管理位移模型以允许小的位移。为了避免用于运动视差呈现的偏移的漂移，偏移可以缓慢地衰减到零。

基于优先级划分，UX管理器312可以与运动视差准备模块324通信，以便例如通过传送3D对象优先级划分、HMD属性、网络属性等来为运动视差准备资产(344)。在一些实施例中，感兴趣对象是例如由服务器侧设备基于检测用户对对象(346)的兴趣而检测到的对象(例如，如由360视频内的注视检测所确定的用户当前正看着的对象)。然后针对运动视差对资产进行优先级划分(348)。在一些实施例中，优先级划分(348)可以包括基于从客户端侧设备接收的优先级划分、HMD能力和网络的QoS等。例如，不能在客户端侧设备310上呈现的3D模型资产可以被降低优先级，并且在360视频中被表示而没有运动视差。另外，如果HMD设备连接到慢速或不可靠的网络，或者以其他方式具有有限的连通性，则一些3D模型或其部分可以在运动视差的优先级上被降低。

服务器侧设备320然后为最高优先级对象的运动视差准备资产(350)。示例资产可以包括3D模型、3D对象补丁、背景补丁以及用于优先级对象后面的对象的3D模型。为要被传输到客户端侧以便呈现的感兴趣对象获得3D模型。为感兴趣3D对象呈现3D对象补丁以用于运动视差效果的表示。背景补丁是在3D模型中定义的对象的经呈现的背景区域。当3D对象被呈现在虚拟世界的360视频之上时，该补丁可被用作背景。用于优先级对象后面的对象的3D模型可由服务器侧设备提供，以使客户端侧设备能够呈现并准备感兴趣对象的背景补丁。

准备的资产(350)在后台以优先级顺序被传送(352)到UX管理器312，其将资产存储到本地存储器。然后在HMD处展示运动视差。

在一些实施例中，在运动视差模式中从360视频中移除感兴趣对象的表示。在其他实施例中，补丁被用于感兴趣对象。

如图3A所示，在一些实施例中，运动视差效果可以使用服务器准备没有3D感兴趣对象的360视频的呈现和3D感兴趣对象的局部呈现。响应于用户看着感兴趣对象，HMD从本地存储检索准备的运动视差资产，并且准备展示感兴趣对象的运动视差效果。HMD设备310中的传感器314检测用户的注视方向和头部移动或位置变化(370)。UX管理器312向服务器侧设备320发送激活运动视差消息(372)。激活运动视差模式，并且呈现360视频帧(374)而没有感兴趣对象。然后，服务器经由网络连接将360视频流(376)而不是感兴趣对象传送到UX管理器312。

运动视差效果的表示基于用户(378)的注视方向和位置变化，由HMD传感器314检测并由UX管理器312评估。显示运动视差效果(380)可以包括输出背景视频和输出感兴趣对象。在一些实施例中，360视频被显示为背景。

在一些其他实施例中，不是服务器准备没有3D感兴趣对象的360视频(如图3A中)，而是可以在HMD处将补丁叠加在360视频上以实现运动视差效果，如图3B中所示。例如，在一些实施例中，当原始360视频流被用作背景时，背景补丁可被叠加在360视频背景上。(一个或多个)背景补丁可以描绘360视频的背景的一部分或片段，其可以覆盖在360视频的呈现上以隐藏或“移除”360视频的一部分或片段，诸如包括感兴趣对象的部分或片段。

背景补丁可以以各种方式提供。

例如，在一些实施例中，客户端侧设备执行3D呈现并产生感兴趣对象的背景补丁。客户端侧设备使用感兴趣对象后面的对象的3D模型并为感兴趣对象呈现背景补丁。客户端侧设备将准备的背景补丁叠加到360视频背景中。

在一些其它实施例中，客户端侧设备可以使用减弱现实技术并且产生用于感兴趣对象的背景补丁。例如，使用任何可用的减弱现实技术、模块或软件(诸如以下文章中所讨论的：Siltanen,S.，“增强现实室内设计的减少现实”，虚拟计算机，2017年，第33卷，第193-208页(Siltanen,S.,“Diminished reality for augmented reality interior design”,The Visual Computer,2017,vol.33,p.193-208)；以及Kawai等人，“考虑背景结构的减少现实”，2013年IEEE混合和增强现实国际研讨会(ISMAR)，2013年，第259-260页(Kawai etal.,“Diminished reality considering background structures.”,2013IEEEInternational Symposium on Mixed and Augmented Reality(ISMAR),2013,p.259-260))，客户端侧设备可以检测背景视频中感兴趣对象的表示并将其从视频中移除。在一些实施例中，客户端侧设备可以在产生感兴趣对象的背景补丁时使用背景纹理。

在一些其它实施例中，服务器侧设备可以产生背景补丁，该背景补丁然后可以由客户端设备使用。如图3B所示，在一些实施例中，服务器侧设备可以包括传送(352)到客户端侧设备的用于运动视差的资产中的任何准备好的补丁。客户端侧设备然后可使用服务器侧设备准备的一个/多个背景补丁，并将一个/多个补丁叠加到360视频背景中的适当位置处。

无论是否使用了没有感兴趣3D对象或背景补丁的准备的360视频，运动视差的输出(图3A中的380，图3B中的394)可以由客户端侧设备310使用各种技术来执行，以向用户进行运动视差的视觉展示(图3A中的382，图3B中的396)。例如，输出感兴趣对象可以包括客户端侧设备输出感兴趣对象的3D模型或在背景视频上输出感兴趣对象的补丁。在感兴趣对象被输出为3D模型的一些实施例中，UX管理器312可以通过呈现存储在本地存储中的感兴趣对象的3D模型来显示感兴趣对象，从而除了考虑用户的观看方向的改变之外还考虑HMD设备的位移。在感兴趣对象被输出为感兴趣对象的补丁的一些实施例中，补丁可以被叠加在360视频背景上以表示具有仿真的运动视差的所选择的3D对象。

在一些实施例中，可以将在图3A-3B中的运动视差资产的准备中使用的模块的位置移动到客户端侧设备。例如，可以在客户端侧设备310处而不是在服务器320处从360视频中移除感兴趣对象的表示。

图4A和4B示出了在提供运动视差效果时使用补丁的一些实施例。

图4A描绘了根据一些实施例的用于在HMD中提供运动视差效果的示例方法。图4A中的方法类似于图2的方法，如上所述。这里，球体420表示具有复杂3D模型422的360视频。360视频420包含所有内容，如当前VR一样，并且没有运动视差。对运动视差资产(例如3D模型426和3D补丁428)进行优先级划分、准备，并将其从360VR服务器424传输到本地存储430。当为3D对象提供运动视差效果时，背景补丁440(来自一个或多个补丁428)可以覆盖360视频中具有3D对象的区域。在各种实施例中，可在客户端侧或服务器侧设备中的任一者或两者处准备背景补丁440。运动视差客户端接收例如感兴趣对象的(一个或多个)3D模型(435)，并且呈现3D模型以支持运动视差效果。如图4A所示，在一些实施例中，所呈现的感兴趣对象可以位于完全在背景补丁440的区域内、与背景补丁440的边缘重叠等的位置。

图4B描绘了根据一些实施例的用于在HMD中提供运动视差效果的示例方法。图4B中的方法与图4A中的方法大体相似。这里，360视频450仅包含背景，而不包含(一个或多个)感兴趣对象的3D呈现。不能(通过硬件或其他限制或约束)呈现(一个或多个)感兴趣3D对象的客户端接收补丁以覆盖视频450中的(一个或多个)对象(未示出)的表示。在运动视差效果的呈现中，这些补丁455覆盖在背景中感兴趣对象的位置上。这样，在相对于其初始位置的更新位置中示出感兴趣对象，其中补丁455包括感兴趣对象的重新定位的描绘。

在一些示例性实施例中，根据本文阐述的实施例的系统和方法可以提供低端HMD设备和异构网络中的合成3D内容的输出。这样的示例性使用可以提供用于向不同种类的HMD设备提供内容的自动解决方案。

在一些示例性实施例中，基于360视频捕获和服务器侧3D重构，服务器可以将检测到的3D对象递送到客户端侧设备，以便为检测到的对象提供运动视差。例如，可以提供360视频以及由服务器在视频中检测到的对象的几何信息。

图5A描绘了根据一些实施例的360视频的第一视点。在图5A中，360视频510包括天际线的背景，其中第一船VR对象520在前景中。另外，第二船VR对象525部分地出现在第一船VR对象520后面。从视点530观察到用户的第一船VR对象520是直的。从视点530看，第一船VR对象520的后部与天际线中的建筑物550对准，如虚线555所描绘的。

图5B描绘了根据一些实施例的图5A的360视频510的第二视点535。在图5B中，相对于图5A的视点530向右平移视点535(例如，用户的头部相对于其视点530的位置向右移动)。这里，第二船VR对象525完全出现在第一船VR对象520的右侧。第二船VR对象525在图5A中最初被遮挡而无法完全观看，但是由于来自启用运动视差效果的船520、525和背景360视频的相对运动，启用的表观运动导致船525从平移视点535完全可见。

还如图5B所示，当第一船VR对象520保持在用户的视场的中心时，第二船VR对象525和天际线已经向右移位。由于用户位置到视点535的移位，第一船VR对象520的后部现在与天际线中的建筑物560一致，如虚线565所示。

图6A-6C描绘了根据一些实施例的显示运动视差的示例方法。

图6A描绘了方法600，其包括在602处，在HMD设备处接收360视频信号。在604处，检测HMD设备的取向。在606处，基于检测的HMD设备的取向将360视频呈现到视点。在608处，确定观看者的平移移动，并且在610处，接收3D对象的模型。在612处，检测与所接收的3D对象相对应的对象。在614处，从所呈现的360视频视图中移除对象。在616处，基于HMD设备的取向和所确定的观看者的平移移动来将对象模型呈现到HMD视图。在一些实施例中，如在614中，移除对象包括接收视频的空间补丁片段并且在对象上显示补丁。在其他实施例中，移除对象包括在360视频视图上呈现补丁。

图6B描绘了包括在HMD处接收3D视频(620)的示例方法618。还获得3D视频中的对象的模型(622)。获得被处理的3D视频(624)，其中处理3D视频以从3D视频中移除对象。通过HMD的传感器来跟踪HMD的位置的变化(626)。在HMD处呈现被处理的3D视频(628)，并且基于所跟踪的HMD的位置的变化在被处理的3D视频中的一位置处呈现对象的模型(630)。

图6C描绘了包括在HMD处显示接收到的3D视频(642)的示例方法640。选择3D视频中的对象用于运动视差仿真(644)。获得3D视频中的对象的3D模型(646)。通过从3D视频中移除对象来准备没有所述对象的被处理的3D视频(648)。HMD的传感器跟踪HMD的位置的变化(650)。在HMD处呈现被处理的3D视频(652)，并且基于所跟踪的HMD的位置的变化在被处理的3D视频中的一位置处呈现对象的3D模型(654)。

在一些实施例中，为了仿真运动视差，HMD可以接收360度视频和360度视频中的至少第一对象的模型。在一些实施例中，第一对象可以通过用户兴趣评估来确定，诸如通过监视用户的注视方向。在一些情况下，可以考虑对象距用户的相对虚拟距离以选择一个或多个感兴趣对象。HMD可以处理所接收的360度视频以从360度视频中移除至少第一对象。在一些实施例中，360度视频可通过在360度视频中的至少第一对象的位置上呈现补丁片段来处理。在一些情况下，补丁片段可由HMD来准备，并且在一些情况下，补丁片段可在HMD处从服务器接收。在一些实施例中，HMD可使用一个或多个减弱现实技术来准备补丁片段以检测并且然后移除360度视频中的至少第一对象的表示。例如，HMD可以使用视频的相关区域的背景纹理来产生用于至少第一对象的背景补丁。在一些实施例中，HMD可使用第一对象的区域中的一个或多个附加对象的模型来准备补丁片段。例如，从用户的角度来看，附加对象可以在视觉上在第一对象后面。HMD可从存储器或服务器接收这些附加模型，并且结合360度视频使用这些附加模型来准备用于从所呈现的360度视频“移除”第一对象的补丁片段。在一些实施例中，可以在HMD处从服务器接收准备好的补丁片段。

HMD的至少一个传感器(诸如运动传感器、加速计等)可以检测和跟踪HMD的取向的变化。可以呈现已移除第一对象的被处理的360度视频并将其展示给HMD用户。另外，基于检测到的和跟踪到的HMD的取向的变化，可以至少部分地基于检测到的和跟踪到的HMD的取向的变化在一新的位置处呈现第一对象的模型。以这些方式，可以在减少对HMD的呈现处理要求的情况下模拟运动视差。

根据一些实施例，3D视频可以包括多层球形视频，并且感兴趣对象的深度可以基于多层球形视频的深度层。

在一些实施例中，存在一种用于在实现运动视差的头戴式显示器(HMD)设备上显示图像的示例方法，该方法包括：在HMD设备处接收球形视频信号；检测HMD设备的取向；基于检测到的HMD设备的取向将球形视频呈现到视图；确定观看者的平移运动；接收3D对象的模型；检测与3D对象模型相对应的球形视频中的对象；从所呈现的球形视频视图移除对象；以及基于HMD设备的取向和所确定的观看者的平移移动在HMD设备处呈现所接收的3D对象模型。该方法可包括其中通过使用由服务器提供的视频的补丁片段来移除对象。该方法可以包括其中，补丁片段是空间补丁片段。该方法可以包括其中移除对象包括在球形视频中的对象上呈现补丁。

在一些实施例中，存在一种示例方法，包括：检测对经由头戴式显示器(HMD)设备显示的球形视频中的虚拟现实(VR)3D对象的用户兴趣；确定HMD设备的平移移动；从球形视频中移除3D对象；呈现有限尺寸的3D对象；以及相对于所确定的HMD设备的平移移动，在球形视频中显示有限尺寸的3D对象。该方法可以包括其中通过使用由服务器提供的视频的补丁片段来移除3D对象。该方法可以包括其中，补丁片段是空间补丁片段。该方法可以包括其中移除3D对象包括在球形视频中的对象上呈现补丁。该方法可以包括其中3D对象的呈现是基于确定3D对象在距用户的确定的视觉距离处来完成的。该方法可以包括其中3D对象的呈现是基于确定用户对对象的兴趣级别来完成的。该方法可以包括其中3D对象的呈现是基于对象的视觉复杂度来完成的。该方法可以包括其中3D对象的呈现是基于确定HMD设备与VR服务器之间可用的足够网络资源来完成的。该方法可以包括其中，在远程VR服务器处呈现球形视频并且由HMD设备接收该球形视频。该方法可以包括其中经由无线网络连接向HMD设备提供球形视频。该方法可以包括其中检测用户对3D对象的兴趣包括确定用户的注视方向。该方法还可以包括为3D对象呈现补丁以及显示该补丁。该方法还可以包括为3D对象呈现背景补丁以及显示背景补丁。该方法还可以包括提供用于在视觉上位于3D对象后面的第二3D对象的第二3D模型。

在一些实施例中，存在一种用于显示虚拟现实的系统，该系统包括：VR服务器和客户端侧VR设备。VR服务器可以包括：球形视频呈现模块，被配置为呈现球形3D视频；资产优先级划分模块，其被配置为对要在运动视差中显示的对象进行优先级划分；以及资产准备模块，其被配置为针对被优先级划分的对象准备运动视差资产。客户端侧VR设备可以包括：注视方向传感器，其被配置为检测用户的注视位置；位置变化检测传感器，其被配置为检测所述用户的平移移动；3D对象优先级划分，其被配置为确定3D对象的初始优先级以准备视差运动；性能分析器，其被配置为确定HMD属性；网络分析器，其被配置为确定网络性能特性；本地资产存储；以及3D呈现模块，被配置为呈现3D对象以用于显示。该系统可以包括其中VR服务器向客户端侧VR设备提供球形视频流、3D对象描述和运动视差资产。该系统可以包括其中客户端侧VR设备向VR服务器提供3D对象优先级划分、HMD属性和网络参数。

在一些实施例中，存在一种设备服务器，包括用于承载一个或多个指令的非暂时性计算机可读介质，其中所述一个或多个指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤：在HMD设备处接收球形视频信号；检测HMD设备的取向；基于检测到的HMD设备的取向将球形视频呈现到视图；确定观看者的平移运动；接收3D对象的模型；检测球形视频中与3D对象模型相对应的对象；从所呈现的球形视频视图移除对象；以及基于HMD设备的取向和所确定的观看者的平移移动在HMD设备处呈现所接收的3D对象模型。

产生多层球形视频

在电影VR实施例中，视点可以被限制为一个单个静态视点位置。用户的真实头部运动与电影VR视点的固定位置之间的差异可能破坏沉浸感的幻觉，并且可能导致例如晕屏症。诸如在以不同速度相对于彼此移动的不同距离处的对象的视觉感知中的运动视差已经被证明是比立体视觉更强的深度提示(cue)，并且因此常常是人们如何感知他们周围现实的维度的实质部分。电影VR体验可受益于适应用户头部运动，诸如除了根据观看者的实际头部运动的取向之外还能够改变视点位置，从而当用户将其头部移动远离固定位置时重建正确的运动视差。

在一些情况下，观看者客户端与内容服务器之间的数据连接的有限带宽和时延以及客户端设备的有限计算性能(或者限制或分布客户端设备与服务器之间的计算要求的任何其他原因)可能对这种下一代电影VR内容的使用施加约束，因为在所捕获的VR内容内移动的自由度通常伴随有极大的存储器消耗和繁重的计算要求。

解决这些缺点的一种方法是多层球形视频。在多层球形视频中，基于视觉元素的深度将捕获的真实3D电影VR场景分离成多个层。根据用户的头部运动，利用分离的视频层的非均匀运动，可以近似地重建场景的运动视差。将真实3D场景变换成多层球形视频可以使得能够在具有有限计算能力(或者以其他方式受限或期望被分发)的设备上进行更高效的数据传输和回放。

在一些实施例中，例如，可以使用普通消费者容易获得的单视场360视频相机而不是更复杂的系统来创建多层球形视频。多层视频根据用户头部在所捕获的球形/360视频内容内的有限区域内的移动来实现运动视差。在一些实施例中，场景作为整体可以近似地被划分成静态环境或其动态元素。该过程类似于实时3D游戏中经常使用的内容结构，其中室内场景被划分成静态环境模型，诸如游戏人物的动态移动元素被单独地添加到该静态环境模型中。在3D游戏中，这种划分允许针对静态环境预先呈现复杂的全局照明，而动态对象用不同的呈现方法呈现，从而更好地解决例如实时要求(如果有的话)。在一些公开的实施例中，将内容捕获划分为静态和动态部分允许组合不同类型的捕获过程，以及用于从所捕获的内容中解决缺失的深度信息的不同方法。

在一些实施方案中，捕获在两个单独的步骤中进行。在一个步骤中，捕获静态环境而没有任何移动元素。在第二步骤中，捕获具有所有移动元素的最终场景。将在两个步骤中捕获的该内容变换成多层球形视频的处理也作为两个单独的阶段来执行。下面详细描述捕获和处理静态环境以及捕获和处理具有所有动态元素的实际场景的步骤。

静态环境捕获。360相机单独在静态环境中四处移动。在最终场景捕获阶段360相机将被放置的区域被更密集地覆盖，以确保从旨在支持运动视差的整个区域进行环境深度估计的良好精度。静态环境的其它区域可以被更稀疏地覆盖，集中在动态元素将被放置的区域。

在静态环境捕获期间，360相机记录具有多个曝光值的环境的图像。这使得动态范围能够扩展到超过可以单独在一个单个图像中捕获的动态范围。使用来自运动方法的结构来创建静态环境的3D模型。接下来，在该环境内创建高动态范围环境地图的阵列。

捕获场景以及动态元素。360视频相机利用动态元素捕获场景。处理所捕获的360视频的每个帧。登记相对于静态环境的3D重构的相机位置。选择在静态环境捕获阶段中捕获的具有最接近曝光值的最接近匹配相机图像。通过将动态元素与所选的最接近匹配图像进行比较，来从所捕获的数据中隔离动态元素。检测来自所捕获数据的阴影区域，并且分割动态对象区域而使得该动态对象区域不具有阴影。

利用基于通过差分呈现的照明比较的深度检测，找到动态对象区域的平均深度。为此，创建虚拟几何结构，该几何结构与在图像上看到的动态对象区域的形状相匹配。虚拟几何结构的比例和距离被改变以模拟虚拟几何结构如何随着每个尺寸/距离变化改变环境的重构3D模型的照明，例如，在哪里投射阴影。将利用差分呈现方法产生的照明模拟结果与静态场景的捕获图像组合。将在不同距离处通过虚拟几何结构投射的阴影增强的静态环境图像与从动态场景捕获的帧进行比较。

用与所捕获的动态场景帧具有最小量的视觉差异的虚拟几何结构阴影增强的静态环境图像给出了动态元素距离的最佳近似。将虚拟对象用于最佳匹配的距离指定为所捕获帧中的动态元素区域的平均深度。

在一些实施例中，一旦为所捕获的帧中的所有动态元素指定了深度值，所捕获的帧的其余部分就被认为是静态背景，并且从在第一阶段中重构的环境的3D模型来为其指定深度值。基于深度值将所捕获的帧划分成多个不同深度层。

在一些这样的实施例中，环境的3D重构使得能够通过照明模拟和差分呈现来对动态对象进行深度估计。动态对象的深度可以通过重建阴影来估计，该阴影将使用虚拟几何结构和用于呈现的3D重构来投射在距相机的不同距离处。

在一些实施例中，例如，利用现有商品单视场球形相机来实现电影VR内容的创建，从而实现运动视差。该过程使得能够利用普通的现有360相机创建多层球形视频。多层球形视频使得能够在内容的回放上近似地重建运动视差。

在一些这样的实施例中，在两个单独的阶段中捕获和处理静态环境和具有动态移动元素的场景。在处理所捕获的数据时，可为所捕获的视觉元素估计深度。估计的深度值驱动球形视频到多个层的分离，这进而使得能够在显示内容时再现运动视差。

当用两阶段方法捕获电影VR体验时，可处理所捕获的内容以产生多层球形视频，该多层球形视频不仅包含从一个单个视点看到的电影VR体验，而且允许从相机视点周围的区域的运动视差，该相机视点在第二动态捕获阶段中使用。

电影VR体验的捕获在两个单独的阶段中执行，首先捕获静态环境，然后捕获具有所有动态元素的场景。捕获静态环境的第一阶段是通过在没有动态元素的环境中四处移动相机来执行的。在第二阶段，通常利用放置在动作内以针对由导演和存在的所有动态元素定义的视点的球形相机来捕获场景。动态元素可以包括在用相机记录时行动的演员和/或任何其他移动对象。

在第一阶段，通过在环境中四处移动360相机来捕获静态环境。当通过移动相机来扫描环境时，相机被设置为通过改变快门速度来以不同的曝光连续地拍摄图像。通过改变快门速度，以各种动态范围捕获环境的相同视图。然后，可以在内容处理阶段组合动态范围图像的这些不同区域的组合，以便从不同位置组成环境的高动态范围(HDR)图像。为了能够从彼此非常接近的视点位置以不同的曝光值拍摄图像，相机被设置为迭代通过不同的快门值。360相机的运动需要足够慢，以免在具有不同曝光的图像之间引起过大的运动。对于静态环境捕获，场景从动态元素中清除，并且包括具有最小运动或外观变化的元素，诸如具有恒定光照的室内场景。

在一些实施例中，在静态环境的捕获中，在最终场景捕获阶段相机将被放置的区域被更密集地覆盖，以确保从旨在支持运动视差的整个区域进行环境深度估计的良好精度。静态环境的其它区域可以被更稀疏地覆盖，集中在动态元素将被放置的区域。

在第二阶段中，在与第一静态环境捕获阶段中捕获的相同环境中用360相机捕获完整场景。在该捕获阶段，相机被放置在静态视点，该静态视点由导演选择为例如对于在场景中发生的动作的最佳观看位置。在捕获动态场景时也可能执行相机移动，并且这些相机运动将导致视点在向观看者示出的最终内容中移动，这可能不提供例如最佳可能或最优的终端用户体验，因为所分离的层的深度将改变。实际上，执行静态和动态捕获阶段的顺序无关紧要。

与捕获一样，根据一些实施例，内容处理也可以在两个阶段中执行。在第一阶段中，重构静态环境几何，并且创建高动态范围(HDR)环境地图的阵列。在第二处理阶段中，将动态元素与静态环境分开，并且针对这些动态元素估计深度值。使用静态环境的深度值和动态元素的估计深度，基于深度值将视频素材分离成多个球形视频层。

静态环境处理。图7描绘了根据一些实施例的静态环境处理阶段的示例方法700。在捕获环境的球形图像(710)的情况下，如上所述，可以加载从静态环境中的各个视点捕获的图像以用于处理(715)。可以执行静态环境处理以创建静态环境的3D重构(720)，以及创建覆盖将放置动态内容的区域和将捕获动态场景的区域中的静态环境的HDR图像阵列(745)。

可以使用运动结构(SfM)方法根据从不同位置捕获的图像创建静态环境的3D重构(720)。SfM是可用于创建包含几何结构和纹理的3D模型的计算机视觉方法的集合，该几何结构和纹理来自对象或环境的静止图像或所捕获的视频帧的集合。使用SfM从图像集合构建3D模型的公知解决方案包括VisualSfM和Agisoft Photoscan。SfM的一些实现在以下文章中被讨论：Guan等人,”Structure-From-Motion in Spherical Video Using the vonMises-Fisher Distribution”,IEEE Transactions on Image Processing,2016。

用SfM方法产生的3D重构(730)提供了静态背景的深度值。在动态场景处理阶段中从3D重构中采样静态背景的深度值，以便为所捕获的动态场景的不包括动态元素的所有区域提供深度。在动态场景处理阶段中，基于深度值将所捕获的帧分离成若干层。每当所选择的跟踪方法能够在跟踪中使用3D重构时，3D重构的二次使用将用于辅助3D相机跟踪。为了这些目的，3D重构被存储(725)以可用作在动态场景处理阶段中完成的处理的输入。

除了使用从用于3D重构的环境捕获的图像之外，该处理还编辑从相同位置拍摄的具有对HDR图像的不同曝光的图像(735)。在动态内容处理阶段中使用球形HDR图像来检测视觉数据中的动态元素，并且还实现用于检测从动态内容视频中检测到的动态元素的3D位置的有效的物理上似乎真实的阴影呈现。该处理将合成的HDR图像(740)存储为HDR图像的阵列(745)，以可用于动态内容处理阶段以及从其视点拍摄HDR图像的位置信息。

动态内容处理。图8是示出根据一些实施例的动态环境处理阶段的示例过程800的流程图。动态内容处理将内容划分成多个深度层，这些深度层能够在内容回放时重建运动视差。在已经执行静态环境处理阶段之后，可以执行动态内容处理阶段。在动态内容处理阶段，处理具有所有动态元素的所捕获的球形视频的帧。每帧处理的过程包括：相机位置配准、动态元素检测、动态元素的深度估计和层分离。在一些实施例中，如下所述，可以针对球形视频的每个帧执行这些步骤。

通过检测在特定帧中使用的相机的视点来开始每个球形视频帧的处理(805)。应当理解，可以使用任何可应用的视觉3D跟踪方法来执行该相机配准，其中例如静态环境的3D重构和收集的HDR图像(810)两者都可以用于辅助配准。

通过将所捕获的帧与静态环境的HDR图像进行比较，并使用例如在以下文章中描述的技术来进行3D重构，从而从球形视频中隔离动态元素(815)。所述文章例如：Sand和Teller,“视频匹配”,关于Graphics22的ACM学报，卷3，第592-599页，第2004年(Sand andTeller,“Video Matching,”ACM Transactions on Graphics 22,3,592-599,2004)。除了检测所捕获的帧中与来自静态环境和3D重构的图像相比包含显著差异的区域之外，还可检测由阴影引起的差异区域(820)。在所捕获的帧中可见的动态对象除了包含实际动态元素的图像区域之外，还可能导致视觉信息与其阴影的差异。一些阴影检测技术在以下文章中讨论：Prati等人，“检测移动阴影：算法和评估”，关于模式分析和机器智能的IEEE学报，第2003年，25.7：918-923(Prati,et al.,“Detecting moving shadows:algorithms andevaluation”,IEEE transactions on pattern analysis and machine intelligence,2003,25.7:918-923)。在一些实施例中，不是通过比较动态和静态帧，而是可以使用用于从单个捕获帧进行阴影检测的方法，诸如但不限于在以下文章中中讨论的这些方法：Khan等人，"自动阴影检测和从单个图像中移除”，关于模式分析和机器智能的IEEE学报，第2016年，38.3：431-446(Khan,et.al.,“Automatic shadow detection and removal from asingle image,”IEEE transactions on pattern analysis and machine intelligence,2016,38.3:431-446)。应当理解，阴影检测可以使用各种合适的技术中的任何一种来执行。可以对隔离的动态对象区域进行分割以移除检测到的阴影区域，留下检测到的动态元素(822)。

所检测的动态元素的深度可能不是直接从所捕获的球形视频帧中包含的2D视觉数据来估计的。从相机到动态元素的方向和动态元素的形状从所捕获的帧中是已知的，但是元素距相机的深度不是直接已知的。然而，由于球形图像的光学特性是已知的，因此动态元素距离与所捕获的帧上的尺寸之间的关系也是已知的。使用这些已知元素和/或其他数据，可以估计所检测到的动态元素的深度值(825)，如下面更全面地讨论的。

层分离。在已经针对所捕获的帧中的所检测的动态元素估计了深度之后，利用估计来设置所捕获的帧中的所有元素的深度(830)。所捕获的帧中未被检测为动态元素的区域预期表示静态环境，其深度可以通过从被登记为相机位置的位置对3D重构进行采样来导出。

在一些实施例中，基于估计的深度值，特别是基于场景的当前帧中的深度值的范围和变化，可以估计重建运动视差可能需要的不同深度层数(835)。对于可接受的运动视差重建，仅需要重建观看者的视觉感知可以检测到的运动视差。可以在不降低体验质量的情况下移除由深度变化引起的运动视差，该深度变化足够小以至于所得到的运动视差不能被观看者感知。在一些情况下，可以在对体验的总体质量具有有限的、可忽略的或最小的影响的情况下移除来自更大的深度变化的甚至更可感知的运动视差。可接受的省略的运动视差的量和相关联的深度变化可以基于人类视觉感知的阈值的实验近似，或者其可以基于确定可以省略什么级别的运动视差的预定参数。然后，这些运动视差级别可以用于确定用于重建运动视差的深度层数。要使用的不同深度层数也可以受外部约束的强制或限制，诸如由呈现系统支持的最大层数等。

在确定了要使用的层数之后，选择用于将内容划分成不同深度级别的深度值的阈值(840)。选择阈值，使得在将深度层划分调整到尽可能清楚的深度区域而没有内容的主要元素的同时，充分地保持内容的每个时间步长的尽可能多的深度变化。当已经选择了深度阈值时，服务器将内容元素呈现为单独的球形视频层(845)。

在呈现期间，记录前景中的元素所遮挡的区域部分。在所捕获的球形视频中，前景中的对象可以遮挡背景，使得并非来自背景的被前景中的元素遮挡的所有视觉内容都可以被恢复。在这些情况下，呈现过程组合来自静态环境处理阶段中捕获的HDR图像的信息和3D重构以填充由更靠近相机的视觉元素遮挡的背景区域。

在一些实施例中，当启用运动视差时，被前景元素遮挡的背景区域根据视点的改变而改变，因此尽可能多的背景应当是可用的。在一些实施例中，内容服务器根据层的平均深度缩放分离的层，从而扩展可以重建运动视差的区域。

利用该方法，求解内容的每个时间步长的深度阈值，并且根据元素的深度将球形视频帧划分成不同的层，并且将层与每个层的平均深度值一起存储。

多层视频压缩和存储。在处理所捕获的球形视频的帧之后，将各个处理的帧组合成视频文件(850)。各个层可以作为单独的视频文件来存储，或者可以使用使得能够使用视频信息的若干层的文件格式。当帧被打包为视频文件时，应当理解，数据也可以使用任何视频数据压缩方法来压缩。

在一些实施例中，捕获包括动态元素的场景，并且实时地流式传输内容。在一些这样的实施例中，静态环境作为预处理步骤被捕获和处理，并且球形视频可以被实时捕获。在捕获期间，帧被处理和流式传输。静态环境捕获和处理在捕获具有动态元素的球形视频之前完成。此外，动态内容处理还可以包括创建实时视频流并将该流分发到呈现客户端。

此外，在一些实例中，执行动态内容处理的处理可能过于处理密集而无法实时完成。为了解决这个问题，在一些实施例中，可以预先在动态场景捕获中定义相机位置，从而消除了对于每个捕获的帧的单独相机配准的需要。此外，可以提供动态元素距离的近似以限制在运行时间期间测试所需的不同深度的范围。

在一些实施例中，创建HDR图像阵列以用于呈现用于深度识别的代理几何结构。在该解决方案的变型中，代替使用HDR图像，可以创建将环境中的光源的位置和属性描述为3D实体的更复杂的照明模型。

在一些这样的实施例中，创建与电影VR内容一起使用的多层球形视频。在一个变型中，识别来自球形视频的动态元素，并且在将动态元素与静态背景分开的同时为它们创建分开的球形视频层。其中动态元素与静态背景分开的多层球形视频可以用作增强现实(AR)内容。每个产生的球形视频层的深度信息是已知的。该深度信息可被用于创建AR内容的运动视差效果。

在一些实施例中，利用计算机视觉方法来辅助所检测的动态区域的深度估计，所述计算机视觉方法例如是利用现有的3D视频序列训练的深度学习模型。

深度估计。如上所述，在动态环境处理800期间，可以估计所检测的动态元素的深度。在不同的实施例中，可以使用各种方法来进行估计。

3D元素的2D投影的尺寸取决于对象距视点的尺寸和距离以及用于将3D视图变换成2D图像的透视投影。在传统相机中，透视投影是透镜将光从场景引导到图像传感器或胶片的结果。理论上，当使用特定透视投影时，距离与对象在2D图像平面上出现的大小之间的关系由透视投影的视场决定。在球形视频的情况下，投影所使用的视场理论上是360度。然而，360相机产生的球形图像可以与由多个传感器捕获的多个图像缝合在一起，且然后以等矩形或其他投影方式从在不同方向捕获的若干2D图像投影到单个2D图像。因此，在不对由相机产生的实际图像进行采样的情况下，投影矩阵以及因此对象距离和尺寸之间的关系不是直接数学求解的。

通常在各种计算机视觉解决方案中使用的相机校准方法可以用于求解360相机的投影属性，并且因此求解在图像上出现的对象的距离和大小之间的关系。用于相机校准的一种方法是利用具有已知几何属性(通常是黑白棋盘格)的校准目标的相机来捕获若干图像，并且然后分析这些捕获的图像以求解由特定透镜、相机的传感器和对图像执行的后处理的组合所创建的投影属性。

由相机校准产生的相机矩阵定义了将来自真实世界视图的3D点映射到相机的图像平面上的2D点的投影。如果3D点的深度是已知的，则相机矩阵的逆矩阵可以用于将2D图像点投影回真实世界中的3D点。在从相机到对象的距离已知的情况下，这可以用于测量利用校准相机拍摄的图像中的对象的尺寸。在这种解决方案的情况下，动态对象的原始距离是未知的。然而，当距离被近似时，相机矩阵的逆矩阵给出对于该近似距离正确地沿着水平轴和垂直轴的对象边界点的位置。然后，使用从这种反投影得到的具有3D位置的边界来生成3D形状，然后使用该3D形状来模拟照明的效果。

图9描绘了根据一些实施例的示出动态元素可以如何出现在捕获的视频帧中的若干图像。为了简单起见，图9中描绘的相机图像是用正常相机视场而不是球形相机的视场来说明的。然而，由于距离与图像平面上的对象缩放的关系是相对于相机所使用的投影，因此当相机是球形相机而不是传统相机时缩放因子改变。在顶部图像中，在距相机四个不同距离处描绘球体，每一不同位置具有不同尺寸的球体。在中间行中，四个图像分别描绘了与顶部图像的每个尺寸和距离组合，而底部行中的图像描绘了这些不同球体位置和尺寸组合中的每一个如何看起来与相机所看到的相同。当相机以不同的球体位置和尺寸捕获场景时，仅由每个球体投射的阴影改变。

根据一些实施例，对象尺寸与距离之间的关系(例如，如关于图9所讨论的)用于测试不同距离处的动态元素将如何影响与场景中的其他对象交互的光的总体视觉外观。通过模拟不同距离处的动态对象的近似将如何在环境中投射阴影，并将这些模拟结果与从动态场景捕获的实际帧进行比较，可确定动态元素的近似(或估计)距离(例如，深度)。

在一些实施例中，照明模拟是差分呈现过程。在该过程中，将所创建的虚拟几何结构放置在环境的3D重构中，并且模拟来自光源的光传输。从大致在放置虚拟几何结构的区域处捕获的HDR图像检索模拟所使用的环境照明的模型。在光传输模拟中，虚拟几何结构阻挡来自光源的光的一些部分到达静态环境重构的区域。因此，一些区域显得较暗，因为它们处于由虚拟几何结构投射的阴影中。照明中的这些变化由从用于捕获动态场景帧的相机的视点观察到的差分呈现收集。由虚拟几何结构在特定距离处投射的阴影被添加到从相机的位置看到的静态环境图像。

当所有期望的动态元素距离(例如，深度)/比例变化已经被执行用于一次迭代并且已经产生通过组合静态场景的差分呈现和HDR图像而产生的结果图像时，所创建的模拟结果与实际动态场景的所捕获的帧进行比较。基于该差分呈现过程(例如，确定由在特定位置处的虚拟几何结构的存在引起的与场景的差异)的结果组合图像，产生最相似视觉外观的深度/比例变化可以被选择为场景中的动态元素的实际距离的最佳估计。

图10是示出根据一些实施例的用于估计所捕获的球形帧(frame)中的动态元素(这可以在图8的步骤825处使用)的深度的示例过程1000的流程图。根据当前捕获的球形帧(1005)中的动态元素的检测区域，可以构造近似于与动态元素相关联的动态区域的形状的虚拟几何结构(1010)。根据一些实施例，可以通过获取特定的检测到的动态元素的检测到的区域(诸如从过程800的步骤815和820)，并且生成定义动态元素的轮廓的2D点，来构造虚拟几何结构。例如，OpenCV函数“findContours”可以用于定义对象轮廓。2D轮廓点可以被反向投影到世界坐标(例如，所捕获的静态场景内的坐标)中的3D点默认距离，诸如通过使用相机矩阵的逆矩阵。可以生成3D点的副本并使其沿深度轴偏移，并且连接3D点以生成包括体积的3D几何结构。所生成的几何结构可以膨胀以给予其“圆形”3D形状。一种这样的用于图像区域轮廓绘制和膨胀以产生3D体积的方法在以下文章中被讨论：Igarashi等人，“Teddy：3D自由形式设计的草图绘制界面”中，在ACM国际图形学年会(SIGGRAPH)2007课程，第21章(Igarashi,et al.,“Teddy:A Sketching Interface for 3D Freeform Design”,in:ACM SIGGRAPH 2007courses,Article 21)。

利用所构造的虚拟几何结构，可以通过检查存在动态元素的静态环境的区域(1015)并且确定动态对象可能存在的最大距离来选择可能的呈现距离的范围(例如，动态元素可以在其中存在于所捕获的球形帧中的距离的范围)。基于最大距离，距离范围可以被划分成多个初始距离值，其表示要针对当前检测到的动态元素的每个深度估计迭代执行的照明模拟的数量。根据一些实施例，来自先前帧的结果可以在初始值的选择中被加权以强调动态对象位于先前帧中为其估计的距离附近的可能性。根据一些实施例，初始值的选择还可以包括随机变化因子以避免混叠。

可以检索环境的3D重构(1017)，并且在第一初始距离值处开始，可以诸如通过根据当前初始距离值调整虚拟几何结构的比例和呈现距离，将所构造的虚拟几何结构放置在3D重构内的所选位置处(1020)。查核HDR图像阵列(1022)，可以从大致在虚拟几何结构当前放置的位置捕获的HDR图像检索用于照明模拟要使用的环境照明的模型(1025)。可以执行照明模拟以使用基于所选择的(一个或多个)HDR图像的照明来模拟由3D重构内的虚拟几何结构(1030)引起的阴影。在照明模拟中，虚拟几何结构阻挡来自光源的光的一些部分到达静态环境重构的区域，并且因此一些区域看起来更暗，因为它们在由虚拟几何结构投射的阴影中。

可以通过隔离从捕获的当前动态场景帧的相机的视点看到的由虚拟几何结构投射的阴影来体现差分呈现方法(1035)。由虚拟几何结构在当前初始距离值处投射的隔离的阴影(例如，差分呈现)被添加(例如，与其组合)到从动态场景相机的位置看到的所选(一个或多个)静态环境HDR图像(1040)，以产生用于当前虚拟几何结构的一个或多个组合图像。存储针对每个虚拟几何结构距离的组合图像(1042)。可以重复该过程(1045)，直到模拟了所确定的范围中的所有测试深度值。

在所有测试深度值被模拟的情况下，可以分析组合图像集合(1042)以确定与当前动态场景捕获帧(1050)相比具有最小视觉差异的组合图像。视觉外观的相似性可以基于观察所捕获的帧与所产生的模拟结果之间的视觉差异。产生最相似视觉外观的深度和比例变化，然后给出动态元素的实际距离的最佳估计。通过观察所捕获的帧和所产生的模拟结果之间的视觉差异来测量视觉外观的相似性。

以最简单的形式，这种视觉差异可以是图像上的像素值之间的直接比较，或者是其它更复杂的方法，其中例如在不同图像中隔离阴影区域并且计算它们的位置的相似性。估计的深度不需要完全精确，只要将动态元素分离到正确的(或适当的)深度层中就足够了。

如果来自比较过程1050的匹配仅有一个(1055)，则可以将单个匹配的深度指定为所检测的动态元素的选择/估计的深度值(1060)。在一些实例中，可能存在必须在其间选择的多个匹配(1055)。在一些实施例中，为了在来自比较过程的多个匹配之间进行选择，可以选择与针对先前动态帧中的动态元素/对象的估计深度具有最小变化的匹配组合图像(1065)，假设当前帧不是正被处理的第一动态帧。然后，可以将从多个匹配中选择的匹配的深度值选择为当前动态帧中检测到的动态元素的估计深度值(1060)。

应当理解，可以使用任何适当的3D呈现方法或专用光传输模拟解决方案等来执行照明模拟。例如，可以使用诸如ARM Enlighten的高级实时照明方法，或者诸如VRay、RenderMan、POV-Ray等的离线呈现器。

在从3D环境重构观察到的可能的深度范围限制内，利用虚拟几何结构的不同距离和尺寸变化来执行不同的照明模拟。收集结果并将其与所捕获的动态场景帧进行比较。可以迭代地执行照明模拟的评估。对于每次迭代，将待检查的距离范围分成预定数量的不同距离值。评估每个不同距离值的结果，并且使用引起模拟图像和捕获图像之间的最低视觉差异的距离来设置用于下一次迭代的初始距离值。对每个帧执行预定次数的迭代，或者至少直到实现足够低的视觉差异。

在一些实施例中，当检查利用不同的初始距离值产生的视觉差异值时，如果视觉差异太高，则设置在该迭代上产生最佳结果的值周围的初始距离值，并且如果需要，执行下一次迭代。在一些实施例中，如果视觉差异足够低，则可以完成迭代循环。

距离和尺寸的关系由360相机用于将球形视图投影到2D图像中的投影属性和所捕获的帧中的所检测的动态元素的区域来定义。

在一些实施例中，照明模拟是差分呈现过程。在该过程中，将所创建的虚拟几何结构放置在环境的3D重构中，然后模拟来自光源的光传输。从大致在放置虚拟几何结构的区域处捕获的HDR图像检索模拟所使用的环境照明的模型。在光传输模拟中，虚拟几何结构阻挡来自光源的光的一些部分到达静态环境重构的区域。因此，一些区域显得较暗，因为它们处于由虚拟几何结构投射的阴影中。照明中的这些变化由从用于捕获动态场景帧的相机的视点观察到的差分呈现收集。由虚拟几何结构在特定距离处投射的阴影被添加到如从相机的位置看到的静态环境图像。

在已经为通过组合差分绘制产生的一个迭代结果图像和已经产生静态场景的HDR图像执行了动态元素距离和比例变化之后，将所创建的模拟结果与实际动态场景的所捕获帧进行比较。产生最相似视觉外观的深度和比例变化，然后给出动态元素的实际距离的最佳估计。通过观察所捕获的帧和所产生的模拟结果之间的视觉差异来测量视觉外观的相似性。

在一些实施例中，视觉差异是图像之间的像素值之间的直接比较，或者是任何更复杂的方法，其中例如在两个图像中隔离阴影区域并且计算它们的位置的相似性。估计深度不需要完全准确，只要其足够好猜测可以用来分离动态元素以校正深度层。

图11描绘了根据一些实施例的生成多层球形视频的示例方法1140。可以获得静态环境的3D重构(1150)。获得存在至少一个动态元素的相同环境的场景的球形视频(1155)。在球形视频的第一帧处开始，并且针对视频中的每个帧进行迭代，分析每个帧(1160)。

对每个帧的分析包括通过使用照明模拟基于静态环境的3D重构与球形视频的比较(例如，如上文关于图10所讨论的)来估计当前帧中的(一个或多个)动态元素的深度值(1165)。基于静态环境的3D重构来为帧的剩余部分分配深度值(1170)。然后，基于所估计和分配的深度值将帧划分成多个深度层(1175)。如果还有要分析的帧(1180)，则分析前进到下一帧(1185)并重复。一旦分析了所有帧(1180)，就可以从所分析的帧的深度层生成多层球形视频(1190)。

根据一些实施例，用于每个帧的过程还可以包括：相对于静态环境的3D重构来登记相机位置；从用于静态环境的3D重构的多个相机图像中选择具有与当前帧最接近的曝光值的相机图像；将当前帧与在静态环境中捕获的所选择的相机图像进行比较以隔离动态元素；检测与当前帧中的动态元素相关联的阴影区域；以及分割与当前帧中的动态元素相关联的动态对象区域，使得动态对象区域不具有检测到的阴影。

根据一些实施例，通过使用照明模拟基于静态环境的3D重构与球形视频的比较来估计(一个或多个)动态元素的深度值可以包括：生成与动态对象区域的形状匹配的虚拟几何结构；通过改变虚拟几何结构的比例或虚拟几何结构的距离中的至少一者来模拟对静态环境的3D重构的照明的改变；将照明模拟结果与静态环境的所选择的所捕获图像组合以生成模拟由虚拟几何结构在不同距离处投射的阴影的多个增强静态帧；将多个增强静态帧与当前帧进行比较以选择与当前帧具有最小视觉差异的增强静态帧；以及基于所选择的增强静态帧中的虚拟几何结构的距离，为当前帧中的动态元素区域分配平均深度。

直接对象距离求解

在一些实施例中，基于已知的光源位置和已知的阴影区域位置来确定对象的距离。在一些这样的实施例中，创建照明模型，使得光源的全3D位置和阴影区域位置是已知的。当存在多个光源和从环境表面反射的大量光时，一些这样的实施例可能不提供与使用全光模拟一样精确的距离。在全光模拟中，阴影可以是相当细微的，并且阴影的哪个部分来自哪个光的区分对于确定可能是非常重要的。

在直接对象距离求解方法中，分析所创建的具有3D位置和发光区域的照明模型以确定场景设置是否适合于直接对象距离求解。如果仅有一个或几个明确定义的光源，则可以使用直接对象距离求解。通过查核所检测的阴影区域，还可以进一步评估每个所捕获的动态场景帧对直接对象距离求解的适合性的评估。阴影区域可以包括足够清晰的边界并且不被场景几何结构遮挡。基于该评估，可以针对每个帧做出是否要使用直接动态对象距离求解或者是否使用完全迭代照明模拟的决定。

当使用直接对象距离求解时，动态对象的距离用类似于用于对象阴影的3D呈现的技术的方法来求解，该技术被称为阴影体积技术。在这种方法中，创建了将阴影边缘连接到光源的作为3D几何结构的阴影体积。在创建了阴影体积之后，从与所捕获的帧中的相机位置相对应的视点来呈现它。这里，检查包含动态对象的区域，因为动态对象的深度是从2D图像平面上与动态对象区域重叠的区域观察到的阴影体积的平均深度值。

图12A-12F描绘了根据一些实施例的使用直接对象距离求解的示例过程。如图12A中所示，可例如通过相机1204捕获具有一个主光源1203和一个动态对象的真实世界场景1200。光1203的3D位置可在预处理步骤中确定。如图12A中所示，真实世界场景1200包含第一墙壁1205、垂直于第一墙壁1205的第二墙壁1207和地板1209。动态对象由在地板1209上投射椭圆形阴影1220的球体1215表示。

图12B和12C描绘了由图12A中所见的相机1204捕获的真实世界场景1200的所捕获帧1201。如图12B所示，可以在所捕获的帧1201中检测到动态对象1215及其阴影1220。如图12C所示，可以检测阴影的边缘1225。如图12D所示，基于检测到的阴影边缘1225和已知的光源1203位置(在预处理步骤中确定)，可以创建阴影体积1230。阴影边缘1225连接到光源边缘1227以创建阴影体积1230。如图12E所示，可以创建用于包含动态对象1215的区域的边界框1240。边界框1240可以用作用于呈现阴影体积的视口。图12F描绘了通过使用边界框1240作为视口来呈现阴影体积1230而得到的图像1260。如图12F所示，可以针对如在图12B、12C和12E的所捕获的帧1201中看到的被动态对象1215覆盖的像素来呈现阴影体积1230的深度值。动态对象的平均深度可被估计为所呈现的阴影体像素的平均深度值(例如，图12F中由不同梯线(gradient)填充描绘的不同所呈现的深度值1252、1254、1256、1258)。

在一个示例用例下，电影VR场景出现在起居室中，并且被捕获为多层球形视频。为此，起居室首先通过在空间周围移动360相机而在没有演员和在场景中使用的道具的情况下被捕获。当房间被捕获时，360相机连续地记录图像，同时通过若干不同的快门速度迭代，以便产生具有不同曝光的图像。在捕获环境时，360相机在拍摄实际场景时要放置相机的区域中以及在场景期间演员将要定位的区域中移动。

一旦完成了环境捕获，360相机就被放置在被选择为三脚架上房间中心的拍摄位置的位置上。相机被设置为记录并且演员在空间中扮演他们的角色，而360相机将场景记录为球形视频。一旦演员完成了场景，记录就完成了，并且所收集的镜头可以用于产生多层球形视频。

在所捕获镜头的处理中，首先执行静态环境处理阶段。对于静态环境处理，在来自环境的不同曝光下捕获的图像被给出作为用于该过程的输入。利用来自运动方法的结构来创建环境的3D重构。这导致了空间的纹理化3D几何结构和每个球形图像的相机位置，其被给出作为3D重构的输入。

基于图像位置，在相同位置捕获的具有不同曝光的图像被组合为HDR图像。可以丢弃所得到的HDR图像的彼此重叠或非常接近的冗余副本。

在静态环境处理阶段之后，将具有演员的球形视频转换为多层球形视频。这里，与演员表演一起捕获的球形视频被作为动态内容产生阶段的输入而给出。

处理球形视频的每一帧，从而产生多层球形视频，然后存储该多层球形视频。一旦已经存储了包含表示不同深度范围的不同层和每层的平均深度值的多层球形视频，就可以分发和观看内容。在诸如能够进行头部跟踪的VR HMD之类的显示设备上，可以通过映射被缩放为与层的平均深度值相匹配的每个层球体来呈现内容，然后允许用于呈现的视点根据头部运动在这些呈现球体内移动，从而根据观看者的头部运动来重建运动视差。

在一些实施例中，存在一种确定动态对象的深度的示例方法，该方法包括：创建与从360相机图像检测到的动态对象的形状匹配的自由形态对象；改变自由形态对象的比例和距离；确定由自由形态对象以所述各种比例和距离创建的阴影的多个位置和尺寸数据；将多个阴影位置和尺寸与静态环境组合以确定阴影位置和尺寸与动态对象的视觉差异；在基于视觉差异选择的位置处用阴影增强静态环境；以及基于自由形态对象到所选择的阴影位置和尺寸的对应比例和距离来设置对象的深度值。该方法还可以包括球形相机在多个位置和多个曝光设置处捕获静态环境的视觉表示。该方法可以包括其中在每次照片捕获时记录球形相机的位置。该方法还可以包括基于静态捕获创建静态环境的3D模型。该方法还可以包括利用动态元素捕获场景的球形视频。该方法还可以包括生成和存储场景的球形HDR图像。

在一些实施例中，存在一种示例方法，包括：确定动态对象的阴影的位置；检测阴影的边缘；通过将阴影边缘连接到光源的已知位置来生成阴影体积；为包含动态对象的区域创建边界框；以及针对由动态对象覆盖的像素呈现阴影体积的深度值。该方法还可以包括基于到所呈现的像素的距离来确定动态对象的平均深度。

网络架构

图13A是示出了可以在其中实现一个或多个所公开的实施例的示例通信系统1300的图。通信系统1300可以是向多个无线用户提供诸如语音、数据、视频、消息传递、广播等内容的多接入系统。通信系统1300可以使多个无线用户能够通过共享包括无线带宽的系统资源来访问这样的内容。例如，通信系统1300可采用一种或多种信道接入方法，诸如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT扩展OFDM(ZT-UW DTS-sOFDM)、唯一字OFDM(UW-OFDM)、资源块滤波OFDM、滤波器组多载波(FBMC)等。

如图13A所示，通信系统1300可包括无线发射/接收单元(WTRU)1302a、1302b、1302c、1302d、RAN1304、CN1306、公共交换电话网(PSTN)1308、因特网1310和其他网络1312，但是应当理解，所公开的实施例设想了任意数量的WTRU、基站、网络和/或网络元件。WTRU1302a、1302b、1302c、1302d中的每一个可以是被配置成在无线环境中操作和/或通信的任何类型的设备。举例来说，WTRU1302a、1302b、1302c、1302d(其中任何一个可以被称为“站”和/或“STA”)可以被配置成传送和/或接收无线信号，并且可以包括用户设备(UE)、移动站、固定或移动订户单元、基于订阅的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型计算机、上网本、个人计算机、无线传感器、热点或MiFi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴式显示器(HMD)、车辆、无人机、医疗设备和应用(例如远程手术)、工业设备和应用(例如，在工业和/或自动化处理链环境中操作的机器人和/或其他无线设备)、消费电子设备、在商业和/或工业无线网络上操作的设备等。WTRU1302a、1302b、1302c及1302d中的任一者可互换地称为UE。

通信系统1300还可以包括基站1314a和/或基站1314b。基站1314a、1314b中的每一个可以是被配置为与WTRU1302a、1302b、1302c、1302d中的至少一者无线对接以促进对一个或多个通信网络的接入的任何类型的设备，所述通信网络诸如CN1306、因特网1310和/或其他网络1312。作为示例，基站1314a、1314b可以是基站收发台(BTS)、节点B、e节点B、家庭节点B、家庭e节点B、gNB、NR节点B、站点控制器、接入点(AP)、无线路由器等。虽然基站1314a、1314b各自被描绘为单个元件，但将了解，基站1314a、1314b可包含任何数目的互连的基站和/或网络元件。

基站1314a可以是RAN1304的一部分，其还可以包括其它基站和/或网络元件(未示出)，例如基站控制器(BSC)、无线网络控制器(RNC)、中继节点等。基站1314a和/或基站1314b可被配置成在一个或多个载波频率上传送和/或接收无线信号，这可被称为小区(未示出)。这些频率可以在许可频谱、未许可频谱、或者许可和未许可频谱的组合中。小区可以向特定地理区域提供无线服务的覆盖，该特定地理区域可以是相对固定的或者可以随时间而改变。小区可以进一步被划分为小区扇区。例如，与基站1314a相关联的小区可被划分成三个扇区。因此，在一个实施例中，基站1314a可包括三个收发信机，即，小区的每个扇区一个收发信机。在实施例中，基站1314a可以采用多输入多输出(MIMO)技术，并且可以针对小区的每个扇区利用多个收发信机。例如，波束成形可以用于在期望的空间方向上传送和/或接收信号。

基站1314a、1314b可通过空中接口1316与WTRU1302a、1302b、1302c、1302d中的一者或多者通信，该空中接口可以是任何合适的无线通信链路(例如，射频(RF)、微波、厘米波、微米波、红外(IR)、紫外(UV)、可见光等)。空中接口1316可以使用任何合适的无线接入技术(RAT)来建立。

更具体地说，如上所述，通信系统1300可以是多接入系统，并且可以采用一个或多个信道接入方案，例如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等。例如，RAN1304中的基站1314a和WTRU1302a、1302b、1302c可以实现诸如通用移动电信系统(UMTS)陆地无线电接入(UTRA)之类的无线电技术，其可以使用宽带CDMA(WCDMA)来建立空中接口1316。WCDMA可以包括诸如高速分组接入(HSPA)和/或演进型HSPA(HSPA+)之类的通信协议。HSPA可以包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。

在实施例中，基站1314a和WTRU1302a、1302b、1302c可以实现诸如演进型UMTS陆地无线电接入(E-UTRA)之类的无线电技术，其可以使用长期演进(LTE)和/或高级LTE(LTE-A)和/或高级LTE Pro(LTE-A Pro)来建立空中接口1316。

在实施例中，基站1314a和WTRU1302a、1302b、1302c可以实现诸如NR无线电接入的无线电技术，其可以使用新无线电(NR)来建立空中接口1316。

在实施例中，基站1314a及WTRU1302a、1302b、1302c可实施多种无线电接入技术。例如，基站1314a和WTRU1302a、1302b、1302c可以例如使用双连接(DC)原理一起实现LTE无线电接入和NR无线电接入。因此，WTRU1302a、1302b、1302c所使用的空中接口可以由多种类型的无线电接入技术和/或发送到多种类型的基站(例如eNB和gNB)或从多种类型的基站发送的传输来表征。

在其它实施例中，基站1314a和WTRU1302a、1302b、1302c可以实现无线电技术，例如IEEE802.11(即，无线保真(WiFi)、IEEE802.16(即，全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信系统(GSM)、增强的GSM演进数据速率(EDGE)、GSMEDGE(GERAN)等。

图13A中的基站1314b可以是例如无线路由器、家庭节点B、家庭e节点B或接入点，并且可以利用任何合适的RAT来促进局部区域中的无线连接，该局部区域诸如营业场所、家庭、车辆、校园、工业设施、空中走廊(例如，供无人机使用)、道路等。在一个实施例中，基站1314b及WTRU1302c、1302d可实施例如IEEE802.11的无线电技术以建立无线局域网络(WLAN)。在实施例中，基站1314b和WTRU1302c、1302d可以实现诸如IEEE802.15的无线电技术以建立无线个域网(WPAN)。在又一实施例中，基站1314b和WTRU1302c、1302d可利用基于蜂窝的RAT(例如WCDMA、CDMA2000、GSM、LTE-A Pro、NR等)来建立微微小区或毫微微小区。如图13A所示，基站1314b可具有到因特网1310的直接连接。因此，基站1314b可不需要经由CN1306接入因特网1310。

RAN1304可与CN1306通信，其可以是被配置为向WTRU1302a、1302b、1302c、1302d中的一者或多者提供语音、数据、应用和/或基于网际协议的语音(VoIP)服务的任何类型的网络。数据可具有变化服务质量(QoS)要求，例如不同吞吐量要求、时延要求、容错要求、可靠性要求、数据吞吐量要求、移动性要求等。CN1306可以提供呼叫控制、计费服务、基于移动位置的服务、预付费呼叫、因特网连接、视频分发等，和/或执行高级安全功能，例如用户认证。尽管在图13A中未示出，但是应当理解，RAN1304和/或CN1306可以与采用与RAN1304相同的RAT或不同的RAT的其它RAN进行直接或间接的通信。例如，除了连接到可以利用NR无线电技术的RAN1304之外，CN1306还可以与采用GSM、UMTS、CDMA2000、WiMAX、E-UTRA或WiFi无线电技术的另一RAN(未示出)进行通信。

CN1306还可以充当WTRU1302a、1302b、1302c、1302d的网关，以接入PSTN1308、因特网1310和/或其他网络1312。PSTN1308可包括提供普通老式电话服务(POTS)的电路交换电话网络。因特网1310可以包括使用公共通信协议的互连计算机网络和设备的全球系统，所述公共通信协议例如是TCP/IP因特网协议族中的传输控制协议(TCP)、用户数据报协议(UDP)和/或因特网协议(IP)。网络1312可包括由其它服务提供商拥有和/或运营的有线和/或无线通信网络。例如，网络1312可以包括连接到一个或多个RAN的另一个CN，这些RAN可以使用与RAN1304相同的RAT或不同的RAT。

通信系统1300中的WTRU1302a、1302b、1302c、1302d中的一些或全部可以包括多模能力(例如WTRU1302a、1302b、1302c、1302d可以包括用于通过不同无线链路与不同无线网络通信的多个收发信机)。例如，图13A所示的WTRU1302c可被配置成与可使用基于蜂窝的无线电技术的基站1314a通信，以及与可使用IEEE802无线电技术的基站1314b通信。

图13B是示出示例WTRU1302的系统图。如图13B所示，WTRU1302可以包括处理器1318、收发信机1320、发射/接收元件1322、扬声器/麦克风1324、键盘1326、显示器/触摸板1328、不可移除存储器1330、可移除存储器1332、电源1334、全球定位系统(GPS)芯片组1336和/或其他外围设备1338等等。可以理解，WTRU1302可以包括前述元件的任何子组合，同时保持与实施例一致。

处理器1318可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其它类型的集成电路(IC)、状态机等。处理器1318可以执行信号编码、数据处理、功率控制、输入/输出处理和/或使WTRU1302能够在无线环境中操作的任何其他功能。处理器1318可以耦合到收发信机1320，后者可以耦合到发射/接收元件1322。虽然图13B将处理器1318和收发信机1320描绘为单独的组件，但将了解，处理器1318和收发信机1320可一起集成在电子封装或芯片中。

发射/接收元件1322可以被配置为通过空中接口1316向基站(例如，基站1314a)发送信号或者从基站接收信号。例如，在一个实施例中，发射/接收元件1322可以是被配置为发射和/或接收RF信号的天线。在实施例中，发射/接收元件1322可以是发射器/检测器，其被配置为发射和/或接收例如IR、UV或可见光信号。在又一实施例中，发射/接收元件1322可以被配置为发射和/或接收RF和光信号两者。应当理解，发射/接收元件1322可以被配置为发射和/或接收无线信号的任何组合。

尽管发射/接收元件1322在图13B中被描绘为单个元件，但是WTRU1302可以包括任意数量的发射/接收元件1322。更具体地，WTRU1302可以使用MIMO技术。因此，在一个实施例中，WTRU1302可以包括两个或更多个发射/接收元件1322(例如多个天线)，用于通过空中接口1316发射和接收无线信号。

收发信机1320可以被配置成调制将由发射/接收元件1322发射的信号并且解调由发射/接收元件1322接收的信号。如上所述，WTRU1302可以具有多模能力。因此，收发信机1320可以包括多个收发信机，用于使WTRU1302能够经由多个RAT进行通信，例如NR和IEEE802.11。

WTRU1302的处理器1318可以耦合到扬声器/麦克风1324、键盘1326和/或显示器/触摸板1328(例如液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)，并且可以从其接收用户输入数据。处理器1318还可以将用户数据输出到扬声器/麦克风1324、键盘1326和/或显示器/触摸板1328。此外，处理器1318可以从任何类型的合适的存储器访问信息，并且将数据存储在任何类型的合适的存储器中，所述存储器诸如不可移除存储器1330和/或可移除存储器1332。不可移除存储器1330可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或任何其它类型的存储器存储设备。可移除存储器1332可以包括用户识别模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在其他实施方式中，处理器1318可以从存储器访问信息并将数据存储在存储器中，所述存储器不是物理地位于WTRU1302上，例如位于服务器或家用计算机(未示出)上。

处理器1318可以从电源1334接收电力，并且可以被配置成分配和/或控制电力给WTRU1302中的其他组件。电源1334可以是用于为WTRU1302供电的任何合适的设备。例如，电源1334可以包括一个或多个干电池(例如，镍镉(NiCd)、镍锌(NiZn)、镍金属氢化物(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。

处理器1318还可以耦合到GPS芯片组1336，其可以被配置为提供关于WTRU1302的当前位置的位置信息(例如经度和纬度)。除了来自GPS芯片组1336的信息之外，或者作为其替代，WTRU1302可以通过空中接口1316从基站(例如基站1314a、1314b)接收位置信息，和/或基于从两个或更多个邻近基站接收的信号的定时来确定其位置。应当理解，WTRU1302可以通过任何合适的位置确定方法来获取位置信息，同时保持与实施例一致。

处理器1318还可以耦合到其他外围设备1338，其可以包括提供附加特征、功能和/或有线或无线连接的一个或多个软件和/或硬件模块。例如，外围设备1338可以包括加速度计、电子罗盘、卫星收发信机、数字相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发信机、免提耳机、模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏播放器模块、因特网浏览器、虚拟现实和/或增强现实(VR/AR)设备、活动跟踪器等。外围设备1338可以包括一个或多个传感器，传感器可以是陀螺仪、加速度计、霍尔效应传感器、磁力计、定向传感器、接近传感器、温度传感器、时间传感器中的一个或多个；地理定位传感器；高度计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物测定传感器和/或湿度传感器。

WTRU1302可以包括全双工无线电设备，对于该全双工无线电设备，一些或所有信号(例如，与用于UL(例如，用于传输)和下行链路(例如，用于接收)的特定子帧相关联的信号)的传输和接收可以是并发的和/或同时的，该全双工无线电可以包括干扰管理单元，以减少和/或基本上消除经由硬件(例如，扼流圈)的自干扰或者经由处理器(例如，单独的处理器(未示出)或经由处理器1318)的信号处理。

注意，所描述的实施例中的一个或多个的各种硬件元件被称为“模块”，其执行(即，运行、实行等)在此结合相应模块描述的各种功能。如本文所使用的，模块包括相关领域的技术人员认为适合于给定实现方式的硬件(例如，一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所描述的模块还可以包括可实行用于执行被描述为由相应模块执行的一个或多个功能的指令，并且那些指令可以采取硬件(或硬连线)指令、固件指令、软件指令等的形式或包括它们，并且可以存储在任何合适的非暂时性计算机可读介质或媒介中，诸如通常被称为RAM或ROM。

尽管以上以特定的组合描述了特征和元素，但是本领域的普通技术人员将理解，每个特征或元素可以单独使用或与其它特征和元素以任何组合使用。另外，本文描述的方法可以在计算机程序、软件或固件中实现，所述计算机程序、软件或固件并入计算机可读介质中以由计算机或处理器执行。计算机可读存储介质的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、高速缓存存储器、半导体存储器设备、诸如内部硬盘和可移动盘等磁介质、磁光介质、以及诸如CD-ROM盘和数字多功能盘(DVD)等光介质。与软件相关联的处理器可以用于实现在WTRU、UE、终端、基站、RNC或任何主机计算机中使用的射频收发信机。

Claims

1.一种在头戴式显示器HMD处仿真运动视差的方法，其包括：

在HMD处接收3D视频；

获得所述3D视频中的对象的模型；

获得被处理的3D视频，其中所述3D视频被处理以从所述3D视频移除所述对象；

通过所述HMD的传感器来跟踪所述HMD的位置的变化；

在所述HMD处呈现所述被处理的3D视频；以及

基于所跟踪的所述HMD的位置的变化，在所述被处理的3D视频中的一新的位置处呈现所述对象的所述模型，使得通过将所述对象相对于所述3D视频中的初始位置重新定位至所述被处理的3D视频中的所述新的位置来提供运动视差效果。

2.根据权利要求1所述的方法，其中获得所述被处理的3D视频包括从服务器接收所述被处理的3D视频。

3.根据权利要求1所述的方法，其中获得所述被处理的3D视频包括在所述3D视频的包含所述对象的片段上呈现补丁片段以从所述3D视频移除所述对象。

4.根据权利要求3所述的方法，其中呈现所述补丁片段还包括从服务器接收所述补丁片段。

5.根据权利要求3所述的方法，其中呈现所述补丁片段还包括在所述HMD处生成所述补丁片段。

6.根据权利要求5所述的方法，其中在所述HMD处生成所述补丁片段包括在所述3D视频上使用减弱现实技术生成所述补丁片段。

7.根据权利要求5所述的方法，其中在所述HMD处生成所述补丁片段包括使用第二对象的第二模型，以及其中所述第二对象在视觉上在所述3D视频中的所述对象后面。

8.根据权利要求1至7中任一项所述的方法，该方法还包括：

在所述HMD处向用户显示所接收的3D视频；

检测所显示的3D视频内的用户注视方向；以及

基于所检测的用户注视方向，选择所述对象用于运动视差仿真。

9.根据权利要求8所述的方法，其中，选择所述对象用于运动视差仿真还包括确定所述对象在所显示的3D视频内距所述用户小于阈值虚拟距离。

10.根据权利要求8所述的方法，其中选择所述对象以用于运动视差仿真还包括确定所述对象的尺寸小于阈值尺寸。

11.根据权利要求1所述的方法，该方法还包括：

在HMD处显示接收的3D视频；以及

选择所述3D视频中的所述对象用于运动视差仿真，

其中，所述模型是三维的。

12.一种被配置为在头戴式显示器HMD处仿真运动视差的系统，包括：

处理器；以及

存储指令的非暂时性计算机可读存储介质，所述指令当在所述处理器上执行时可操作以执行以下：

在HMD处接收3D视频；

获得所述3D视频中的对象的模型；

通过所述HMD的传感器来跟踪所述HMD的位置的变化；

在所述HMD处呈现所述被处理的3D视频；以及

13.一种用于在头戴式显示器HMD处仿真运动视差的方法，其包括：

在HMD处显示接收的3D视频；

选择所述3D视频中的对象用于运动视差仿真；

获得所述3D视频中的所述对象的3D模型；

从所述3D视频中移除所述对象以准备没有所述对象的被处理的3D视频；

通过所述HMD的传感器来跟踪所述HMD的位置的变化；

在所述HMD处呈现所述被处理的3D视频；以及

基于所跟踪的所述HMD的位置的变化，在所述被处理的3D视频中的一新的位置处呈现所述对象的所述3D模型，使得通过将所述对象相对于所述3D视频中的初始位置重新定位至所述被处理的3D视频中的所述新的位置来提供运动视差效果。

14.根据权利要求13所述的方法，其中从所述3D视频移除所述对象包括在所述3D视频的包含所述对象的片段上呈现补丁片段。

15.根据权利要求14所述的方法，其中呈现所述补丁片段还包括从服务器接收所述补丁片段。

16.根据权利要求14所述的方法，其中呈现所述补丁片段还包括在所述HMD处生成所述补丁片段。

17.根据权利要求16所述的方法，其中在所述HMD处生成所述补丁片段包括在所述3D视频上使用减弱现实技术生成所述补丁片段。

18.根据权利要求16所述的方法，

其中在所述HMD处生成所述补丁片段包括使用第二对象的第二模型，以及

其中所述第二对象在视觉上在所述3D视频中的所述对象后面。

19.根据权利要求13至18中任一项所述的方法，其中选择所述对象包括：

检测所显示的3D视频内的用户注视方向；以及

基于所检测的所显示的3D视频内的用户注视方向来选择所述对象。

20.根据权利要求13至18中任一项所述的方法，其中选择所述对象还包括确定所述对象在所显示的3D视频内距用户小于阈值虚拟距离。

21.根据权利要求13至18中任一项所述的方法，其中选择所述对象还包括确定所述对象的尺寸小于阈值尺寸。

22.一种被配置为在头戴式显示器HMD处仿真运动视差的系统，包括：

处理器；以及

在HMD处显示接收的3D视频；

选择所述3D视频中的对象以用于运动视差仿真；

获得所述3D视频中的所述对象的3D模型；

通过所述HMD的传感器来跟踪所述HMD的位置的变化；

在所述HMD处呈现所述被处理的3D视频；以及