CN112385241A

CN112385241A - 以基于景深的多层结构的虚拟现实媒体内容生成

Info

Publication number: CN112385241A
Application number: CN201980044492.5A
Authority: CN
Inventors: S·奈克; S·S·谢蒂; P·萨卡尔
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-07-03
Filing date: 2019-06-17
Publication date: 2021-02-19
Anticipated expiration: 2039-06-17
Also published as: WO2020008284A1; CN112385241B; US10284753B1

Abstract

虚拟现实(VR)装置存储包括视频片段序列的编码的360°VR视频。每个视频片段包括多个平坦层，并且每个平坦层是与图像元数据相关联的至少一个等边矩形图像帧。VR装置被配置为将每个视频片段中的多个平坦层渲染为以多个深度值投影的多个同心球形层。VR装置还被配置为接收与对图像元数据中的属性集合的修改相关联的多个用户输入。VR装置还被配置为针对不同同心球形层生成修改的图像元数据，并根据针对不同同心球形层的经修改的图像元数据来控制每个视频片段的回放。

Description

以基于景深的多层结构的虚拟现实媒体内容生成

相关申请的交叉引用/通过引用合并

无。

技术领域

本公开的各种实施例涉及沉浸式虚拟现实(VR)装置和技术。更具体地，本公开的各种实施例涉及以基于景深的多层结构的虚拟现实媒体内容生成。

背景技术

基于虚拟现实(VR)的装置领域中的最近进展已经增加了用户对不同类型的VR装置上的VR视频的参与，所述不同类型的VR装置例如VR游戏控制台、VR头戴式装置(HMD)、基于VR的电视屏幕等。然而，大多数现有的360°视频或VR视频具有平坦结构，其中，诸如用户界面(UI)、文本、字幕、计算机生成图像(CGI)、按钮、动画和重叠图形的不同部件被合并和重叠到单层360°视频中。用于360°视频或沉浸式VR视频的当前视频格式和VR渲染机制限制了用户交互以及360°视频或VR视频的不同分量的深度值的任何变化。

通过将所描述的系统与本公开的一些方面进行比较，如在本申请的其余部分中并且参考附图所阐述的，常规和传统方法的进一步限制和缺点对于本领域技术人员将变得显而易见。

发明内容

一种用于以基于景深的多层结构的VR媒体内容生成的虚拟现实(VR)装置及方法基本上如至少一幅附图所示及/或结合至少一幅附图所描述，并在权利要求中更完整地阐述。

通过阅读本公开的以下详细描述以及附图，可以理解本公开的这些和其他特征和优点，在附图中，相同的附图标记始终表示相同的构件。

附图说明

图1是示出根据本公开的实施例的用于多层结构的虚拟现实(VR)媒体内容生成并在虚拟现实装置处进行交互式回放的示例性网络环境的框图。

图2A是示出根据本公开的实施例的用于多层结构的VR媒体内容生成和交互式回放的示例性VR装置的框图。

图2B是示出根据本公开的实施例的在用户穿戴的HMD装置处的360°VR视频的不同渲染层的示例性场景。

图2C是示出根据本公开的另一实施例的在HMD装置处的360°VR视频的不同渲染层的示例性场景。

图3A是示出根据本公开的实施例的在图2A的VR装置处渲染的多层结构的360°VR视频的视频格式的示例性场景。

图3B是示出根据本公开的实施例的在用户穿戴的HMD装置处的360°VR视频的不同渲染层的视图的示例性场景。

图4A是示出根据本公开的实施例的响应于用户输入而对背景层的景深的修改的示例性场景。

图4B是示出根据本公开的实施例的响应于用户输入对不同的渲染层的音频感知深度和音频感知方向的修改的示例性场景。

图5是示出根据本公开的实施例的用于沉浸式VR视频的用户交互式回放的示例性方法的流程图。

具体实施方式

本公开的各种实施例可在用于以多层结构的VR媒体内容生成以及所生成的多层结构的VR媒体内容的交互式回放的方法及虚拟实境(VR)装置中找到。所公开的方法和VR装置提供了一种新的VR视频格式，其能够以多层结构以同心360°球形格式封装图像/视频。此外，所公开的方法和VR装置提供了一种渲染机制，该渲染机制为经渲染的VR媒体内容提供增强的深度感，并使得用户能够与经渲染的VR媒体内容的多层结构的不同层进行交互。

图1是示出根据本公开实施例的用于以多层结构的虚拟现实(VR)媒体内容生成和虚拟现实装置处的交互式回放的示例性网络环境的框图。参考图1，示出了网络环境100，其包括VR装置102和经由通信网络108通信地耦合到VR装置102的媒体服务器106。在一些实施例中，VR装置102可以通信地耦合到输入/输出(I/O)控制台104。用户110可以与VR装置102和I/O控制台104接合。

VR装置102可以包括适当的逻辑、电路和接口，其可以被配置为控制以多层格式的360°VR视频的回放，使得在VR装置102处以从用户视点的不同景深渲染每一层。VR装置102可以包括专用视频编解码器、3D VR显示器、I/O接口、存储器、图形加速器或专用图形处理单元(GPU)、传感器电路、以及用于VR装置102处的360°VR视频的离线/在线回放的其他计算电路。VR装置102可以实现为VR支持系统，例如基于投影的VR支持系统、可穿戴的支持系统、基于监视器的VR支持系统等。VR装置102的示例可以包括但不限于洞穴式自动虚拟环境(CAVE)显示系统、头戴式显示器(HMD)、悬臂式(boom-mounted)显示器、鱼缸(fish-tank)VR显示器、全息台、全景VR显示器和可穿戴VR眼镜。

I/O控制台104可以包括适当的逻辑、电路、接口，其可以被配置为从用户(例如，用户110)接收多个用户输入并将多个用户输入提供给VR装置102，以便于与在VR装置102处的360°VR视频的回放进行用户控制的交互。I/O控制台104可以包括多个输入接口，例如用于基于笔划的和/或基于移动的输入的按钮和/或操纵杆、手势传感器、身体姿势传感器、触摸屏等。I/O控制台104的示例可以包括但不限于游戏控制器、操纵杆、鼠标、键盘、深度传感器、基于姿势的控制器等。可以注意到，I/O控制台104已经被示出为VR装置102的外围控制台装置。然而，本公开可以不限于此，并且I/O控制台104或I/O控制台104的功能可以集成到单个VR装置中，诸如VR装置102，而不脱离本公开的范围。

媒体服务器106可以包括适当的逻辑、电路、接口，其可以被配置为存储编码的360°VR视频并将其传送到VR装置102，以在VR装置102处回放。媒体服务器106可以包括适当的包(package)，以将VR媒体内容和其他非VR内容(例如，字幕、图形项目、3D音频资源、动画、CGI等)组合成编码的360°VR视频的多个视频片段。媒体服务器106还可以包括音频和视频编解码器，以对每个视频片段中的多个平坦层进行编码，以便传递到VR装置102。尽管没有提及，但是媒体服务器106可以是媒体服务器的分布式网络，而不是单个媒体服务器，所述媒体服务器在可以由不同人口统计因素识别的不同地区上共享不同的VR内容和非VR内容，例如，特定于印度用户的所有内容可以存储在针对印度用户的专用服务器处。

通信网络108可以包括适当的逻辑、电路和接口，其可以被配置为提供用于数据的发送和接收的多个网络端口和多个通信信道。每个网络端口可对应于用于通信数据的发送和接收的虚拟地址(或物理机器地址)。例如，虚拟地址可以是因特网协议版本4(IPV4)(或IPV6地址)，而物理地址可以是媒体访问控制(MAC)地址。通信网络108可以与应用层相关联，以用于基于来自一个或多个通信装置中的至少一个的一个或多个通信请求来实现通信协议。通信数据可以经由通信协议被发送或接收。通信协议的示例可以包括但不限于HTTP(超文本传输协议)、FTP(文件传输协议)、SMTP(简单邮件传输协议)、DNS(域网络系统)协议和CMIP(公共管理接口协议)。

根据实施例，通信数据可以经由通信网络108中的多个通信信道中的至少一个通信信道来发送或接收。通信信道可以包括但不限于无线信道、有线信道、无线和有线信道的组合。无线或有线信道可以与数据标准相关联，该数据标准可以由局域网(LAN)、个人区域网(PAN)、无线局域网(WLAN)、无线传感器网络(WSN)、无线区域网(WAN)和无线广域网(WWAN)中的一个来定义。另外，可以基于带宽标准来选择有线信道。例如，光纤信道可以用于高带宽通信。此外，基于同轴线缆或基于以太网的通信信道可用于中等带宽通信。

在操作中，可以通过用户接口(UI)或I/O控制台104接收用户输入，作为在VR装置102处回放360°VR视频的请求。根据实施例，在VR装置102中没有本地存储的360°VR视频的情况下，媒体服务器106可以接收回放请求。在一些情况下，请求可以与用户110可能期望参与沉浸式环境的内容类型的一组用户偏好相关联。媒体服务器106可以被配置为根据所述一组用户偏好封装覆盖有非VR内容的层的VR内容。在一些实施方式中，媒体服务器106可以被配置为经由通信网络108向VR装置102提供预先封装的360°VR视频。

根据另一实施例，VR装置102可以被配置为从VR装置102或媒体服务器106检索360°VR视频。360°VR视频可以作为编码的360°VR视频存储在VR装置102处。360°VR视频可以根据将VR媒体内容(例如，电影、CGI或游戏)和非VR内容(例如，重叠图形、字幕或动画)存储为视频片段序列的视频格式来编码。

编码的360°VR视频可以包括视频片段序列。视频片段序列的每一视频片段可包括多个平坦层。多个平坦层中的每个平坦层可以包括至少一个等边矩形图像帧。在下文中，至少一个等边矩形图像帧可以被称为用于360°VR视频的视频片段中的单个平坦层的等边矩形图像帧。平坦层的每个等边矩形图像帧可以进一步与图像元数据相关联。图像元数据可以包括与层类型、深度值、三维(3D)音频位置值、阿尔法值和媒体播放器特定信息相关联的层信息。这种层信息可以进一步用于在VR装置102处渲染360°VR视频的不同平坦层。

VR装置102可以被配置为通过对编码的360°VR视频的每个编码视频片段的多个平坦层以及每个平坦层的图像元数据进行解压缩来生成解码的360°VR视频。VR装置102可以被配置为在VR装置102处渲染编码的360°VR视频的每个视频片段中的多个平坦层。多个平坦层可以被渲染为多个同心球形层，其可以由VR装置102以相对于用户视点的多个深度值投影(如图3A和图3B中所示)。可以在多个平坦层中的每个平坦层的图像元数据中提供用于计算多个平坦层的渲染模型的规范。

根据实施例，可以根据为用户110(或一组用户)渲染的VR环境的类型来不同地渲染解码的360°VR视频。VR环境的类型可包括完全沉浸式VR环境和部分沉浸式VR环境。例如，完全沉浸式环境可以对应于360°VR视频被在VR装置102上渲染使得穿戴VR装置102的用户可以体验到自我放逐(self-deportation)到通过360°VR视频的渲染创建的沉浸式和交互式VR环境中的场景。自我放逐体验还可以被称为VR环境的第一人视图，其中用户110可以直接参与VR环境的不同组成部分。部分沉浸式VR环境可以对应于360°VR视频在VR装置102上渲染，使得穿戴VR装置102的用户可以体验受引导和/或指示的参与到通过360°VR视频的渲染而创建的沉浸式和交互式VR环境中的场景。引导和/或指示的参与还可以被称为VR环境的第二或第三人视图，其中用户110可以被动地参与所渲染的VR环境的不同组成部分。

VR环境的类型还可以至少取决于相对于用户视点的VR装置102处的场景的视场。视场可以随着用户110使用的VR装置的不同类型而变化。例如，已知3D计算机监视器、HMD/悬臂显示器、全息台、壁装式显示器、全景显示器和六面洞穴(six-sided cave)的视场分别位于“20°-40°”、“30°-80°”、“80°-120°”、“100°-140°”、“160°-180°”和高达“360°的范围内。因此，HMD、悬臂显示器和六面洞穴可以用作VR装置102，以便对于经渲染的360°VR视频，为用户110提供完全沉浸式环境。相反，3D计算机监视器、全息台、全景屏幕和“3-5”面洞穴可以用作VR装置102，以对于经渲染的360°VR视频，向用户110提供部分沉浸式环境。

根据实施例，VR装置102还可以被配置为修改与经渲染的360°VR视频相关联的不同属性。在经渲染的360°VR视频的每一层的图像元数据中指定与经渲染的360°VR视频相关联的不同属性。响应于在观看经渲染的360°VR视频时的用户输入，修改与经渲染的360°VR视频相关联的不同属性。与经渲染的360°VR视频相关联的不同属性的这种修改提供了与在经渲染的360°VR视频中的不同深度(即，从用户视点的景深)处观看的不同元素的交互性。此外，可以进行这样的修改，以便通过在VR装置102处回放360°VR视频来个性化用户110的沉浸式体验。

VR装置102还可以被配置为接收多个用户输入。多个用户输入可以与图像元数据中的属性集合的修改相关联，该图像元数据与VR装置102处的经渲染的360°VR视频的每个视频片段中的多个同心球形层中的至少一个同心球形层相关联。在下文中，至少一个同心球形层可以被称为用户选择的同心球形层。VR装置102可以被配置为生成针对经渲染的360°VR视频的每个视频片段中的多个同心球形层的用户选择的同心球形层的修改的图像元数据。针对用户选择的同心球形层的修改的图像元数据可以基于对与经渲染的360°VR视频的每个视频片段的用户选择的同心球形层相关联的图像元数据的属性集合的修改而生成。

VR装置102可以被配置为利用经修改的图像元数据在VR装置102处重新渲染用户选择的同心球形层。换句话说，VR装置102可被配置为控制渲染为多个同心球形层的每一视频片段的回放。可以根据针对经渲染的360°VR视频的每个视频片段的用户选择的同心球形层的经修改的图像元数据来控制回放。可以基于图像元数据中的属性集合的用户选择来控制每个视频片段的回放。在一些实施例中，根据经修改的图像元数据的每个视频片段的受控回放可对应于位置的切换、内容的修改、音频感知深度和音频感知方向的修改、或经渲染的360°VR视频中的每个视频片段的不同同心球形层的透明度水平中的至少一个。

根据实施例，经编码的360°VR视频可以表现出与编码的360°VR视频的不同分量可以在VR装置102处被分离、重新组合或修改的程度相关联的模块性。因此，由于编码的360°VR视频的数据结构/视频格式的模块性，媒体服务器106可以根据不同类型用户的目标需求来广播编码的360°VR视频的媒体流。可以基于不同的人口统计因素(例如，地区、宗教、种族、年龄组、性别、母语、财务状况等)来进一步识别这种类型的用户。例如，文本层的内容可以根据可以观看360°VR视频的用户的母语在编码的360°VR视频的不同广播媒体流中变化(例如，日语字幕、英语字幕、印地语字幕等)。

图2A是示出根据本公开实施例的用于以多层结构的VR媒体内容生成和交互式回放的示例性VR装置的框图。结合图1的元素解释图2A。参考图2A，示出了VR装置102的框图200A。VR装置102可以包括VR回放电路200、VR显示器202、网络接口204、输入/输出(I/O)接口206、多个传感器208和存储器210。VR回放电路200还可以包括处理器212、媒体解码器214、媒体渲染器216和回放控制器218。虽然未示出，但是VR装置102还可以包括其他电路，例如扬声器、图形加速器、电源电路等。

VR显示器202可以包括适当的逻辑、电路和接口，其可以被配置为显示沉浸式虚拟环境，该虚拟环境包括分层为多个同心层的360°VR视频的球形投影。VR显示器202可以是3DVR屏幕，其可以以可调节的景深显示经渲染的360°VR视频。这种3D VR屏幕可以基于VR装置102的类型进行分类，例如基于投影的VR显示器、可穿戴的VR显示器和外部VR显示监视器。VR显示器202的示例可以包括HMD和全景装置中的弯曲显示屏、HMD、全景装置、悬臂显示装置、平板监视器中的平板显示屏等。根据实施例，VR显示器202还可以通过几种已知技术来实现，例如但不限于液晶显示(LCD)显示器、发光二极管(LED)显示器、等离子体显示器和有机LED(OLED)显示器技术中的至少一种，以及其他显示资源。VR显示器202可以指智能眼镜装置的显示屏、透视显示器、基于投影的显示器、电致变色显示器和透明显示器等。

网络接口204可以包括适当的逻辑、电路和接口，其可以被配置为经由通信网络108与其他系统和装置进行通信。网络接口204可以通过使用已知技术来实现，以支持VR装置102与通信网络108的有线或无线通信。网络接口204的部件可以包括但不限于天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编码器-解码器(CODEC)芯片组、用户识别模块(SIM)卡和/或本地缓冲器电路。

I/O接口206可以包括适当的逻辑、电路和接口，其可以被配置为作为用户110与VR装置102的不同操作部件之间的I/O信道/接口来操作。I/O接口206可以促进I/O装置(例如，I/O控制台104)接收来自用户110的输入并且基于从用户110提供的输入来呈现输出。I/O接口206可以包括各种输入和输出端口，以连接可以与VR装置102的不同操作部件通信的各种I/O装置。输入装置的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、麦克风和图像捕获装置。输出装置的示例可以包括但不限于显示器(例如，VR显示器202)、扬声器以及触觉或其他传感输出装置。

多个传感器208可以包括适当的逻辑、电路和接口，其可以被配置为收集和存储与用户110相关联的信息以及可以影响用户110的沉浸式体验的多个环境参数。多个传感器208可以被实现为与VR装置102一起的嵌入式/可穿戴传感器。在其他实施例中，多个传感器208可以被实现为分布式传感环境的一部分，在所述分布式传感环境中，被实现为与VR装置102一起的嵌入式/可穿戴传感器的一部分和传感器的剩余部分被实现在用户110的周围环境中。多个传感器208的示例可以包括但不限于图像传感器、麦克风、陀螺仪、加速度计、接近传感器、磁力计、触摸传感器、亮度传感器和其他微机电系统(MEMS)传感器或纳米机电系统(NENS)传感器。例如，HMD VR装置可以实现不同MEMS陀螺仪传感器的组合，以检测相对于沿着与HMD VR装置相关联的轴(诸如偏转轴、滚动轴和俯仰轴)的不同的可能头部移动的六个自由度。

存储器210可以包括适当的逻辑、电路和接口，其可以被配置为存储可由处理器212、媒体解码器214、媒体渲染器216和回放控制器218执行的指令集。存储器210可以被配置为存储编码的360°VR视频和解码的360°VR视频。存储器210还可以被配置为存储360°VR视频的每个视频片段的不同层的图像元数据和用户偏好数据。存储器210的实现的示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、中央处理单元(CPU)高速缓存和/或安全数字(SD)卡。

处理器212可以包括适当的逻辑、电路和接口，其可以被配置为执行存储在存储器210中的指令集。处理器212可以基于本领域已知的多种处理器技术来实现。处理器212的示例可以包括但不限于图形处理单元(GPU)、CPU、基于x86的处理器、基于x64的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器。

媒体解码器214可以包括适当的逻辑、电路和接口，其可以被配置为通过对编码的360°VR视频的编码视频片段中的多个层进行解压缩来生成解码的360°VR视频。在一些实施例中，媒体解码器214可以被实现为与VR装置102的其他计算电路接口的专用硬件解码器。在此实施方式中，媒体解码器214可与特定计算电路上的特定形状因素相关联。特定计算电路的示例可以包括但不限于现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、专用集成电路(ASIC)、可编程ASIC(PL-ASIC)、专用集成构件(ASSP)和基于标准微处理器(MPU)或数字信号处理器(DSP)的片上系统(SOC)。在其他实施例中，媒体解码器214可进一步与图形处理单元(GPU)接口连接，以使媒体解码器214的操作并行化。另外，媒体解码器214可以实现为存储在存储器210中的可编程指令和VR装置102中的硬件电路上的逻辑单元(或可编程逻辑单元)的组合。

媒体渲染器216可以包括适当的逻辑、电路和接口，其可以被配置为将解码的360°VR视频中的多个平坦层渲染为多个同心球形层，使得多个同心球形层以多个深度值在VR装置102的VR显示器202处投影。这样的多个深度值可便于用户110以不同景深可视化不同同心层。在一些实施例中，媒体渲染器216可以被实现为VR装置102处的硬件媒体渲染电路，其利用存储器210和处理器212的计算资源。在其他实施例中，媒体渲染器216可进一步与图形处理单元(GPU)接口连接，以使媒体渲染器216的操作并行化。另外，媒体渲染器216可以实现为存储在存储器210中的可编程指令和VR装置102中的硬件电路上的逻辑单元(或可编程逻辑单元)的组合。

回放控制器218可以包括适当的逻辑、电路和接口，其可以被配置为基于用户110提供的多个用户输入来控制在VR装置102的VR显示器202处的经渲染的360°VR视频的回放。经渲染的360°VR视频的受控回放可与层内容、不同层的景深、音频感知深度、层透明度等中的至少一个的修改相关联。在一些实施例中，回放控制器218可以被实现为VR装置102处的硬件媒体渲染电路，其利用存储器210和处理器212的计算资源。在其他实施例中，回放控制器218还可以与图形处理单元(GPU)接口连接，以便使回放控制器218的操作并行化。另外，回放控制器218可以实现为存储在存储器210中的可编程指令和VR装置102中的硬件电路上的逻辑单元(或可编程逻辑单元)的组合。在一些实施例中，在不脱离本公开的范围的情况下，回放控制器218可以与媒体渲染器216一体化为VR装置102中的单个操作电路。

在操作中，VR装置102处的VR回放电路200的不同部件可以从I/O接口206接收回放请求。回放请求可以由用户110(或一组用户)发起，以在VR显示器202上回放编码的360°VR视频。在一个实施方式中，回放请求可以经由通信网络108在网络接口204处被接收。在另一实施方式中，代替网络接口204，可以在I/O接口206处直接接收回放请求。响应于回放请求，处理器212可以被配置为在VR装置102处识别用户110期望观看或参与的VR媒体内容(以编码的360°VR视频的形式)。

存储器210可以被配置为检索与回放请求的用户偏好匹配的编码的360°VR视频。编码的360°VR视频可以包括视频片段序列。视频片段序列的每一视频片段可包括多个平坦层。多个平坦层中的每个平坦层可以包括与图像元数据相关联的至少一个等边矩形图像帧。视频片段序列的每个视频片段可以根据特定数据结构进一步存储在VR装置102的存储器210中的专用分配中。特定数据结构(或格式)可以指示可以从VR装置102处的存储器210访问每个片段中的不同VR内容和非VR内容的方式(如图3A所示)。媒体解码器214可以被配置为解压缩编码的360°VR视频的编码视频片段的多个平坦层和每个平坦层的图像元数据。媒体解码器214可在对经编码的360°VR视频的不同层进行解压缩之后生成经解码的360°VR视频。解码的360°VR视频可以被进一步处理以在VR装置102处回放。在图2B中已经详细地进一步描述了用于回放解码的360°VR视频的详细操作。

图2B是示出根据本公开的实施例的在用户穿戴的HMD装置处的360°VR视频的不同渲染层的示例性场景。结合图1和2A的元素解释图2B。参考图2B，示出了其中穿戴HMD装置的用户(例如，用户110)参与经渲染的360°VR视频的场景200B。

媒体渲染器216可以被配置为将编码的360°VR视频的每个视频片段中的多个平坦层渲染为在VR显示器202处投影的多个同心球形层220A……220N。每个平坦层可以表示2D图像帧在直线平面上的等边矩形投影(或单项投影)，并且每个同心球形层(例如，球形层220A)可以表示相同2D图像在球形上的球形投影。因此，媒体渲染器216可以被配置为在VR装置102的VR显示器202处将2D图像帧的投影从等边矩形平面变换为球形平面。在球形平面的中心的用户110可以看到在用户110的给定视场内的相同2D图像的直线投影。多个同心球形层220A……220N可相对于用户视点224以多个深度值222A……222N被投影。每个视频片段的每个平坦层的深度值可以对应于相对于用户视点224测量的同心球形层的半径。换句话说，多个同心球形层220A……220N可以被渲染为使得用户视点224位于多个同心球形层220A……220N的中心。因此，每个同心球形层可以提供沉浸式景深，该景深随着VR显示202处的这种同心球形层的半径的增大而增大。多个同心球形层220A至220N中的每一个可以与可以由两个连续的同心球形层的深度值之间的差来表示的景深相关联。景深还可以指同心球形层中显示的内容在纵向平面中的分辨率。景深可以由从焦点对准的最近物体平面到可以同时在不同同心球形层中焦点对准的最远物体平面的距离来表示，而深度值可以表示每个同心球形层相对于用户视点的半径。在一些实施例中，可以由VR装置102基于捕获被渲染为球形同心层的图像的成像装置的f数或焦距的变化来控制每个同心球形层的景深。f数可以由N表示，N也表示为比率“f/D”，其中“f”是成像装置所使用的镜头的焦距，“D”是镜头孔径曝光的直径。景深(D_F)可由如下的等式(1)表示：

D_F＝2×N×C×d²/f² (1)

其中，C表示散光圈，d表示镜头与参考物体(即，用户110)之间的距离。

散光圈(c)可以表示图像(被渲染为同心球形层)中的特定点处的模糊点直径，其进一步表示图像中描绘的物体在特定点处的可接受的景深或锐度。可基于多个平坦层中的每个平坦层的图像元数据来渲染多个同心球形层220A至220N。换句话说，媒体渲染器216可利用视频片段序列中的多个平坦层中的每个平坦层的图像元数据中指定的属性集合。图像元数据中指定的属性集合可以包括与层类型、深度值、三维(3D)音频位置值、阿尔法值和媒体播放器特定信息相关联的层信息。

与在固定半径的单个球体上渲染并且对于场景中的不同层缺乏景深的感知的传统渲染的平坦360°VR视频相比，解码的360°VR视频可以被渲染为多个同心球形层220A至220N，以在VR装置102处向每个同心层分配不同的景深。这是有利的，因为在VR装置102处向每个同心层分配不同的景深为场景中的不同层提供了增强的深度感。

在一些实施例中，多个同心球形层220A至220N可以包括背景球形层220N和多个球形项目层220A、……220、220M。媒体渲染器216可被配置为将背景球形层220N渲染为多个同心球形层220A至220N的最外面的同心球形层。背景球形层220N可以与深度值相关联，该深度值是为解码的360°VR视频的每个视频片段中的多个平坦层指定的多个深度值222A……222N中的最大值。因此，媒体渲染器216可进一步被配置为将多个球形项目层中的每一个渲染为多个同心球形层220A至220N中的内同心球形层。换句话说，在一些实施方式中，背景球形层220N可以在VR装置102的VR显示器202处聚焦在最大深度值(即，同心球形层的最大半径)，并且多个球形项目层220A……220/220M可以相对于背景球形层220N的景深以低景深值(即，同心球形层的较小半径)渲染。在一些实施方式中，背景球形层220N可以包括与所请求的VR媒体内容相关联的图像帧，并且多个球形项目层220A……220M可以包括图形图像、文本内容、交互按钮、用户界面、3D深度纹理、计算机生成图像(CGI)或动画序列中的至少一个。换句话说，多个球形项目层可用作补充背景层的VR媒体内容的附加层(例如，字幕、动画效果和重叠图形(诸如广告、玩家信息、报告卡等))。

例如，虚拟足球比赛的游戏玩法的经渲染的360°VR视频可以包括视频片段序列(F₁……F_N)。在视频片段序列(F1……FN)中，第一视频片段(F₁)可以包括在VR装置102的VR显示器202处渲染的多个同心球形层(L₁……L_N)。第一同心球形层(L₁)可以是最内球形项目层(例如，最接近用户视点渲染的图形按钮)，并且其他同心球形层(L₂……L_N-1)可以是可以以比背景球形层(L_N)的深度值更大的深度值渲染的多个球形项目层。在五层VR足球比赛的情况下，第一球形层(L₁)可以以最小深度值(即，最小半径)投射填充有虚拟观众的体育场内的运动场的视图。第二球形层(L₂)可以以大于L₁的最小深度值的深度值投影可以是虚拟足球比赛的一部分的不同队中的运动员的重叠图形。第三球形层(L₃)可以以大于L₁和L₂的深度值在虚拟观众周围投影雨动画图形。第四球形层(L₄)可以以大于L₁、L₂和L₃的深度值投影虚拟足球比赛的英文字幕。第五球形层(L₅)可以以大于L₁、L₂、L₃和L₄的深度值投影虚拟足球比赛的比赛按钮。

根据实施例，媒体渲染器216可以进一步被配置为将360°VR视频的每个视频片段中的多个同心球形层220A至220N渲染为多个体素。可以在可以与用户的视图平面对准的体积中渲染多个体素。通过应用基于体积纹理渲染的技术，可以进一步将景深添加到体素的不同层。与体积纹理渲染相关联的详细操作对于本领域技术人员来说是已知的，因此为了简洁起见，从本公开中省略了这些细节。

在一些实施例中，媒体渲染器216可进一步被配置为渲染经解码的360°VR视频的每一视频片段的同心球形层的音频项。可以根据同心球形层的音频项的3D音频位置值来渲染音频项。3D音频位置值可以指定多个同心球形层220A至220N的不同同心球形层的音频项的音频感知方向和音频感知深度。音频感知方向可以进一步根据用户110在多个同心球形层220A至220N上的特定点处的注视来设置。例如，如果用户110可以观看坐在虚拟体育场左侧的虚拟观众，则可以从坐在体育场左侧的观众设置音频感知方向，并且可以按照包括观众的层的深度值来设置音频感知深度(如图4B中所示)。

在某个时刻，用户110可能期望修改与VR装置102的VR显示器202上显示的不同内容层相关联的不同属性。因此，处理器212可以接收多个用户输入，这些用户输入可以描述用户110对用户110可能感兴趣的沉浸式VR体验类型的偏好。多个用户输入可以与和经渲染的360°VR视频的每个视频片段中的多个同心球形层220A至220N中的用户选择的同心球形层相关联的图像元数据中的属性集合的修改相关联。

多个用户输入可以包括但不限于触摸输入、触觉输入、手势输入、语音输入、头部旋转输入或眼睛移动输入以及瞳孔扩张输入。可以基于测量用户110的不同特征的不同传感器来收集这种用户输入。因此，在一些实施例中，处理器212可以被配置为从多个传感器208收集用户信息。用户信息可以包括与身体和/或不同身体部位的运动、用户110的眼睛的移动、瞳孔收缩和扩张、手势、触摸、姿势、面部表情(例如，恐惧、悲伤、快乐、情感淡漠、愤怒等)、语音模式、情感和音调等相关联的数据。例如，基于HMD的VR装置中的MEMS陀螺仪可以基于头部沿着偏转轴向左移动30°来确定360°VR视频的视场的变化。另外，处理器212可以被配置成从多个传感器208收集与环境参数相关联的数据。与周围参数相关联的数据可以包括用户110周围的环境中的亮度分布、周围环境中的估计占用、周围环境中的噪声影响、VR装置102使用的构建环境的类型、周围环境中可用的空间的有效3D地图等。

处理器212还可以被配置为生成针对经渲染的360°VR视频的每个视频片段中的用户选择的同心球形层中的每个同心球形层的修改的图像元数据。可以基于与经渲染的360°VR视频的每个视频片段中的用户选择的同心球形层相关联的图像元数据的属性集合的修改来生成修改的图像元数据。例如，经修改的图像元数据可包括对层类型、层内容、层透明度、层的深度值、层的音频深度值等的修改。在一些实施例中，用户110可以触摸和选择虚拟环境中的不同的渲染的同心球形层，并且修改不同同心球形层的图像元数据中的属性集合。针对不同视频片段的用户选择的同心球形层的图像元数据的属性集合的修改可以对应于在VR装置102的VR显示器202处回放解码的360°VR视频期间不同视频片段的用户选择的同心球形层的修改。

经修改的图像元数据还可以用于针对用户110个性化与经渲染的360°VR视频中的修改相关联的沉浸式VR体验。因此，回放控制器218可以被配置为控制被渲染为多个同心球形层220A至220N的每个视频片段的回放。每个视频片段的受控回放可对应于经渲染的360°VR视频中的每个视频片段的不同同心球形层的位置切换、内容修改、音频感知深度修改、音频感知方向或透明度水平中的至少一者。可以根据经渲染的360°VR视频的每个视频片段的用户选择的同心球形层的修改的图像元数据来控制回放。每个视频片段的回放可以进一步基于对不同视频片段的用户选择的同心球形层的图像元数据中的属性集合的用户选择来控制。因此，有利地，用户110可以与360°VR视频的不同同心球形层交互，并且在360°VR视频的实时或接近实时回放期间个性化360°VR视频的不同部分的回放。交互性、用户110参与360°VR视频的不同同心球形层、以及360°VR视频的受控回放可以与针对360°VR视频的不同同心球形层的图像元数据中的实时或接近实时的修改是无缝的。

根据实施例，回放控制器218可以被配置为根据相关联的图像元数据中的不同同心球形层的深度值的修改来切换经渲染的360°VR视频的每个视频片段的不同同心球形层的位置。可以基于接收到用于不同同心球形层的深度值的修改的用户输入来完成切换。作为示例，用户110可以基于背景球形层220N的触摸或轻扫将背景球形层220N的深度值从“R1”修改为“R2”。在这样的实施方式中，存储器210可以存储利用(由不同f数，即，对于成像装置，焦距(f)与镜头孔径直径(D)的比率(f/D)表示的)不同焦距值捕获的单个图像帧的多个等边矩形图像帧。因此，回放控制器218可以用与用户110选择的深度值222N相关联的等边矩形图像帧来渲染背景球形层220N。作为示例，背景图像(即，相对于用户的视点的最外面的球形层)可以以与先前深度值(例如，可以由f数“f/8”表示)不同的深度值(例如，可以由f数“f/11”表示)被渲染。从“f/8”到“f/11”的修改可以进一步增加在背景图像中显示的内容中的景深。

回放控制器218还可以被配置为修改经渲染的360°VR视频的每个视频片段的不同同心球形层的内容。可以根据对不同同心球形层的图像元数据中的层类型的修改来进行这样的修改。层类型的示例可以包括但不限于图形图像、文本内容、交互按钮、用户界面、3D深度纹理、CGI或动画序列。可以基于接收到用于修改不同同心球形层的层类型的用户输入来进一步进行修改。例如，用户110可以提供第一输入以将最内球形层(从用户视点224的最低景深)的层类型从按钮类型修改为字幕类型。因此，相邻的球形层的层类型可以从动画类型修改为按钮类型。通常，用户110可以决定哪种类型的层将具有相对于用户视点224的什么类型的景深。

根据实施例，回放控制器可以被配置为修改每个视频片段的不同同心球形层的不同音频项的音频感知深度和音频感知方向。不同音频项的音频感知深度和音频感知方向的修改可以根据经渲染的360°VR视频的每个视频片段的不同同心球形层的3D音频位置值的修改来进行。可以进一步基于接收到用于修改不同同心球形层的3D音频位置值的用户输入来完成对不同音频项的音频感知深度和音频感知方向的修改。

作为示例，背景球形层220N的位置可由用户通过将深度值从“R_N”修改到“R_N-3”(即，同心球形层的半径减小)来切换。因此，与背景层相关联的音频项(例如，观众欢呼)可能进一步需要音频感知深度的修改，其可以与和背景球形层220N的位置的改变的深度值的修改成比例。

作为另一示例，穿戴HMD VR装置的用户可以在参加虚拟足球比赛的同时沿着偏转轴、滚动轴或俯仰轴移动其头部。这样的移动可以引起用户110的视场中的虚拟场景的改变，并且因此，虚拟体育场中的观众的位置可以在视场中改变。回放控制器218可以被配置为利用针对观众欢呼的音频项的回放来修改音频感知深度的方向。可以根据与耳朵的位置、周围环境中的噪声、用户的频率灵敏度/音频幅度灵敏度等中的至少一个相关联的收集的用户信息来进行音频感知方向和音频感知深度的修改。在一些实施方式中，可以进一步基于用户110在VR显示器202处的每个视频片段的不同同心球形层上的注视点的变化，修改每个视频片段的不同同心球形层的不同音频项的音频感知深度和音频感知方向。注视点的这种变化可以根据用户眼睛的移动来确定。在一些情况下，可以利用眼睛移动传感器(或图像传感器)来确定用户110在VR装置102处显示的不同同心球形层上从一个点到另一个点的注视的改变。

根据实施例，回放控制器218还可以被配置为修改经渲染的360°VR视频的每个视频片段的不同同心球形层的透明度水平。可以根据不同同心球形层的α值的修改来进行透明度水平的这种修改。可以进一步基于接收到用于修改不同同心球形层的α值的用户输入来进行修改。例如，用户可以针对用于字幕的最内部同心球形项目层选择“0.1”(或10％)的阿尔法值，并且针对与背景球形层相邻放置的重叠图形的同心球形项层选择“0.8”的阿尔法值。阿尔法值的这种修改可以进一步用于隐藏或显示与呈现出比特定层的景深更大的景深的其他层同心的特定层。按照默认条件，具有较低深度值的同心球形层的阿尔法值可以总是保持在具有较高深度值的同心球形层的阿尔法值之下。默认条件可以被设置为对于用户不可修改的，以防止多个同心球形层的可视化中的错误配置。可视化中的这种误配置可能是由靠近用户的视点被渲染的同心球形层的透明度水平相对于以更高的深度值远离用户的视点而被渲染的同心球形层的透明度水平降低引起的。

根据实施例，可以由处理器212基于从经渲染的360°VR视频选择性地移除不同同心层、两个不同同心层组合或合并为单个同心层、单个同心层划分为可以以不同的深度值渲染的多个同心层、用户界面的文本、超链接、其他相关联的内容或外观的修改等，来针对用户110进一步个性化经渲染的360°VR视频。

多个平坦层可以被渲染为多个同心球形层220A至220N，即从等边矩形投影到球形投影。然而，在不脱离本公开的范围的情况下，用户可以将多个同心球形层220A至220N的球形投影视为相同同心球形层的直线(或心射(Gnomonic))投影。换句话说，用户110可以在例如大约“114°”的受限视场内观看与用户110通常感知场景的方式类似的同心球形图像。

图2C是根据本公开的另一实施例的示出HMD装置处的360°VR视频的不同渲染层的示例性场景。结合图1、2A和2B的元素解释图2C。参考图2C，示出了示例性场景200C，其中一组同心球形层(由L₁、L₂、L₃、L₄和L₅表示)以相对于用户的视点的不同深度值(每一深度值表示同心球形层的半径)渲染。

该组同心球形层(由L₁、L₂、L₃、L₄和L₅表示)可以包括第一同心球形层(L₁)、第二同心球形层(L₂)、第三同心球形层(L₃)、第四同心球形层(L₄)和第五同心球形层(L₅)。该组同心球形层(由L₁、L₂、L₃、L₄和L₅表示)可以与可以从R₁线性地增加到R₅的一组半径值(由R₁、R₂、R₃、R₄和R₅表示)相关联。景深可以不同于同心球形层的层深度。景深可以指同心球形层中显示的内容在纵向平面中的分辨率。景深可以由从焦点对准的最近物体平面到可以同时在不同同心球形层中焦点对准的最远物体平面的距离来表示，而层深度可以表示每个同心球形层相对于用户视点的半径。在一些实施例中，可以由VR装置102基于捕获被渲染为球形同心层的图像的成像装置的f数或焦距的变化来控制每个同心球形层的景深。f数由N表示，其也表示为比率“f/D”，其中“f”是成像装置所使用的镜头的焦距，“D”是镜头孔径曝光的直径。景深(D_F)可由等式(1)表示。

第一同心球形层(L₁)的深度值可以小于第二球形层(L₂)的深度值，等等。在每个球形层处渲染的内容可以基于针对在VR装置102的存储器210中的解码360°视频中的平坦层指定的图像元数据。第一球形层(L₁)的图像元数据可将层类型指定为交互按钮，f数为“f/2”，其中f表示焦距，“2”表示镜头孔径的直径，L₁的深度值由半径R₁表示，α值为“0.1”等。第二球形层(L₂)的图像元数据可指定层类型为字幕、f数为“f/2.5”、L₂的深度值由半径R2表示、以及“0.2”的阿尔法值等。第三球形层(“L₃”)的图像元数据可将层类型指定为动画、f数为“f/4”、L₃的深度值由半径R3表示、α值为“0.3”等。第四球形层(L₄)的图像元数据可指定层类型为重叠图形、f数为“f/5.6”、阿尔法值为“0.4”等。第五球形层(L₅)的图像元数据可指定层类型为背景图像、f数为“f/8”、α值为“0.5”等。媒体渲染器216可以被配置为基于针对一组同心球形层(由L₁、L₂、L₃、L₄和L₅表示)中的每一个指定的属性，在VR显示器202处将一组平坦层渲染为一组同心球形层(由L₁、L₂、L₃、L₄和L₅表示)。

图3A是示出根据本公开的实施例的在VR装置处渲染的360°VR视频的视频格式的示例性场景。结合来自图1、图2A和图2B的元素描述图3A。参考图3A，示出了与在用户306穿戴的HMD装置304处对编码的360°VR视频302的渲染相关联的第一场景300A。

HMD装置304将编码的360°VR视频302存储在存储器210中。编码的360°VR视频302可以包括视频片段序列308A……308N。视频片段序列308A……308N中的每个视频片段还可包括多个平坦层，例如视频片段308A中的多个平坦层310A……310N。换句话说，编码的360°VR视频302可将背景图像帧和可与背景图像帧同心渲染的相关层聚类成单个视频片段。不同的背景帧可以被聚类成不同的视频片段，这些视频片段可以按顺序存储在存储器210中。

多个平坦层310A……310N中的平坦层310可以是与图像元数据312B相关联的等边矩形图像帧312A。图像元数据312B可以描述与内容相关联的属性集合314A……314N，以及等边矩形图像帧312A的不同属性。例如，属性集合314A……314N可以包括第一属性(M1)314A、第二属性(M2)314B、第三属性(M3)314C、第四属性(M4)314D和第五属性(M5)314E。这些属性M1、M2、M3、M4和M5可以与层类型(文本、背景、用户界面、按钮、动画等)、深度值、阿尔法值、音频感知的深度和方向等中的至少一个相关联。

编码的360°VR视频302可以在HMD装置304处解码和渲染。在特定的时间帧，渲染的360°VR视频316可以包括从视频片段308A中的多个平坦层310A……310N渲染的多个同心球形层(例如，多个同心球形层318A……314E)。多个同心球形层318A……318E中的每个层可以相对于用户视点(例如，经渲染的360°VR视频316的多个同心球形层318A……318N的中心)向用户306提供不同的景深。经渲染的360°VR视频316还可以提供沉浸式VR体验，该体验可以由用户306基于不同类型的用户输入(例如层切换、深度调整、音频深度修改、透明度调整、层隐藏/显示等)进一步个性化。

图3B是示出根据本公开的实施例的在用户穿戴的HMD装置处的360°VR视频的不同渲染层的视图的示例性场景。结合图1、2A、2B和3A的元素解释图3B。参考图3B，示出了第二示例性场景300B，其包括在HMD装置304处渲染的相对于用户306的多个同心球形层318A……318E的视图。多个同心球形层318A……318E的视图可包括相对于用户视点在HMD装置304处以不同景深渲染的第一层318A、第二层318B、第三层318C、第四层318D和第五层318E。

第一层318A可以是示出交互按钮(例如，开始VR足球比赛的播放按钮)的项目层。第二层318B可以是示出文本内容(例如，VR足球比赛期间比赛解说的字幕)的另一项目层。第三层318C可以是以不同于第一层318A和第二层318B的景深示出重叠图形(例如，VR足球比赛中的竞赛运动员)的又一项目层。第四层318D可以是以相对于用户视点的特定景深示出动画效果(例如，VR足球运动场中的虚拟观众上方的雨天效果)的项目层。最后，第五层318E可以是示出用户请求的VR内容的背景图像帧(例如，VR足球场)的背景层。

HMD装置304可以被配置为测量用户306的身体部位的不同移动，作为与经渲染的360°VR视频316的受控回放相关联的不同交互选项的触发。例如，用户306沿着偏转轴320A、滚动轴320B和俯仰轴320C的头部移动可以用于在用户306的视场内环摄和放大/缩小所经渲染的360°VR视频316的不同部分。

图4A是示出根据本公开的实施例的响应于用户输入而对背景层的景深的修改的示例性场景。结合图1、2A、2B、3A和3B的元素解释图4A。参考图4A，示出了与响应于来自用户306的输入而对第五层318E(背景图像)的深度值的修改相关联的第一场景400A。

HMD装置304的I/O接口206可以接收用户输入以修改第五层318E的深度值。可以基于身体移动、眼睛移动、触摸或可以由用户306控制的外部I/O控制台来接收(或检测)用户输入。基于将第五层从同心层中的第一位置切换到第二位置的用户输入，可以以第一深度值402、第二深度值404、第三深度值406、第四深度值408和第五深度值410来渲染第五层318E。

可以以由不同f数表示的成像装置的不同焦距值来捕获第五层318E中的等边矩形图像帧。例如，在第一深度值402、第二深度值404、第三深度值406、第四深度值408和第五深度值410处的第五层318E可与“f/2”、“f/2.8”、“f/4”、“f/5.6”和“f/8”的f数相关联。这里，“f”可以是经由图像传感器捕获场景的图像帧的相机或镜头的焦距，并且2、2.8、4、5.6和8可以表示也表示f制光圈的f数。

图4B是示出根据本公开的实施例的响应于用户输入对不同渲染层的音频感知的深度和音频感知的方向的修改的示例性场景。结合图1、2A、2B、3A、3B和4A的元素解释图4B。参考图4B，示出了与响应于来自用户306的输入而对视频片段308A的多个同心球形层318A……318E中的层的音频感知的方向和深度的修改相关联的第二场景400B。

在一些情况下，输入可以由用户306提供给HMD装置304。这种输入可以是触摸输入或控制台输入，用于选择在HMD装置304处渲染的多个同心球形层318A……318E之一上的聚焦区域412。HMD装置304可以利用聚焦区域412来设置相对于用户耳朵的音频感知的方向和音频感知的深度。换句话说，HMD装置304可以确定从聚焦区域412指向用户306的双耳的方向向量414，以向用户306提供沉浸式和定向的音频感知。HMD装置304可以调整针对该层指定的音频项的音频深度值，使得经渲染的音频从聚焦区域412指向用户306的耳朵。

在其他情况下，用户306可以注视HMD装置304处渲染的层之一上的特定点。HMD装置304可以被配置为基于相对于用户306的视图平面的注视点来识别观看方向(由方向向量414示出)和聚焦区域412。HMD装置304还可以渲染用于该层的音频项，使得音频感知的方向和音频感知的深度被用户306感知为从聚焦区域412指向。

图5是示出了根据本公开实施例的用于沉浸式VR视频的用户交互式回放的示例性方法的流程图。结合图1、2、3A-3B和4A-4C的元素解释图5。参考图5，示出了流程图500。该方法开始于502并且进行到步骤504。

在504，可以将编码的360°VR视频存储在VR装置102处。存储器210可以被配置为将编码的360°VR视频存储在VR装置102处。编码的360°VR视频可以包括视频片段序列。每个视频片段可以包括多个平坦层。多个平坦层中的每个平坦层可以是可与图像元数据相关联的等边矩形图像帧。

在506，可以通过对编码的360°VR视频的编码视频片段的多个平坦层以及每个平坦层的图像元数据进行解压缩，来生成解码的360°VR视频。媒体解码器214可以被配置为通过对编码的360°VR视频的编码视频片段的多个平坦层以及每个平坦层的图像元数据进行解压缩来生成解码的360°VR视频。

在508，基于编码的360°VR视频的每个视频片段中的多个平坦层中的每个平坦层的图像元数据，多个平坦层可被渲染为在VR显示器202处相对于用户视点以多个深度值投影的多个同心球形层。媒体渲染器216可以被配置为将编码的360°VR视频的每个视频片段中的多个平坦层渲染为在VR显示器202处相对于用户视点以多个深度值投影的多个同心球形层。基于编码的360°VR视频的每个视频片段中的多个平坦层中的每个平坦层的图像元数据，多个平坦层可被渲染为多个同心球形层。

在510，根据经渲染的360°视频的每个视频片段的同心球形层中的音频项的3D音频位置值，可以针对该同心球形层渲染该音频项。媒体渲染器216可被配置为根据经渲染的360°视频的每个视频片段的同心球形层中的音频项的3D音频位置值来针对该同心球形层渲染音频项。

在512，可以接收可以与对经渲染的360°VR视频的每个视频片段中的至少一个同心球形层的图像元数据中的属性集合的修改相关联的多个用户输入。处理器212可以被配置为接收可以与对经渲染的360°VR视频的每个视频片段中的至少一个同心球形层的图像元数据中的属性集合的修改相关联的多个用户输入。

在514，可以基于对与视频片段的至少一个同心球形层相关联的图像元数据的属性集合的修改，为经渲染的360°VR视频的视频片段的多个同心球形层中的至少一个同心球形层生成修改的图像元数据。处理器212可以被配置为生成针对经渲染的360°VR视频的视频片段的多个同心球形层中的至少一个同心球形层的经修改的图像元数据。可以基于与对与视频片段的至少一个同心球形层相关联的图像元数据的属性集合的修改来生成修改的图像元数据。

在516，可以根据经渲染的360°VR视频的每个视频片段的至少一个同心球形层的经修改的图像元数据来控制被渲染为多个同心球形层的每个视频片段的回放。回放控制器218可以被配置为根据经渲染的360°VR视频的每个视频片段的至少一个同心球形层的修改的图像元数据来控制被渲染为多个同心球形层的每个视频片段的回放。控制转到结束。

本公开的各种实施例可提供非暂时性计算机可读介质和/或存储介质，和/或非暂时性机器可读介质和/或存储介质，其上存储有机器代码和/或指令集，并且可由机器和/或计算机执行，用于多层结构的VR媒体内容生成和所生成的多层结构的VR媒体内容的交互式回放。VR装置102中的指令集可以使机器和/或计算机执行用于具有可调景深的沉浸式VR内容的用户交互式回放的步骤。VR装置102可以包括VR回放电路200、VR显示器202和存储器210。存储器210可被配置为存储可包括视频片段序列的经编码的360°VR视频。每个视频片段可以包括多个平坦层，并且多个平坦层中的每个平坦层可以是与图像元数据相关联的至少一个等边矩形图像帧。VR回放电路200可以被配置为将编码的360°VR视频的每个视频片段中的多个平坦层渲染为在VR显示器处以相对于用户视点的多个深度值投影的多个同心球形层。基于多个平坦层中的每个平坦层的图像元数据，多个平坦层可被渲染为多个同心球形层。VR回放电路200还可以被配置为接收与图像元数据中的属性集合的修改相关联的多个用户输入。用于图像元数据中的属性集合的修改的多个用户输入可以与经渲染的360°VR视频的每个视频片段中的多个同心球形层中的至少一个同心球形层相关联。VR回放电路200可被配置为生成经渲染的360°VR视频的视频片段的多个同心球形层中的至少一个同心球形层的经修改的图像元数据。可以基于对与视频片段的至少一个同心球形层相关联的图像元数据的属性集合的修改来生成修改的图像元数据。VR回放电路200还可以被配置为根据经渲染的360°VR视频的每个视频片段的至少一个同心球形层的修改的图像元数据来控制被呈现为多个同心球形层的每个视频片段的回放。可以基于对与视频片段的至少一个同心球形层相关联的图像元数据中的属性集合的用户选择来控制每个视频片段的回放。

本公开的各种实施例可以在用于具有可调节景深的沉浸式VR内容的用户交互式回放的方法和VR装置中找到。VR装置可以包括VR显示器、存储器和VR回放电路。存储器可被配置为存储可包括视频片段序列的经编码的360°VR视频。每个视频片段可以包括多个平坦层，并且多个平坦层中的每个平坦层可以是与图像元数据相关联的至少一个等边矩形图像帧。VR回放电路被配置为将编码的360°VR视频的每个视频片段中的多个平坦层渲染为在VR显示器处以相对于用户视点的多个深度值投影的多个同心球形层。基于多个平坦层中的每个平坦层的图像元数据，多个平坦层可被渲染为多个同心球形层。VR回放电路还可以被配置为接收与图像元数据中的属性集合的修改相关联的多个用户输入。用于图像元数据中的属性集合的修改的多个用户输入可以与经渲染的360°VR视频的每个视频片段中的多个同心球形层中的至少一个同心球形层相关联。VR回放电路可以被配置为生成经渲染的360°VR视频的视频片段的多个同心球形层中的至少一个同心球形层的修改的图像元数据。可以基于与视频片段的至少一个同心球形层相关联的图像元数据的属性集合的修改来生成修改的图像元数据。VR回放电路还可配置为根据经渲染的360°VR视频的每个视频片段的至少一个同心球形层的修改的图像元数据来控制呈现为多个同心球形层的每个视频片段的回放。可以基于对与视频片段的至少一个同心球形层相关联的图像元数据中的属性集合的用户选择来控制每个视频片段的回放。

根据实施例，VR回放电路可以被配置为通过对编码的360°VR视频的编码视频片段的多个平坦层以及每个平坦层的图像元数据进行解压缩来生成解码的360°VR视频。每个平坦层的图像元数据中的属性集合可以包括与层类型、深度值、三维(3D)音频位置值、阿尔法值和媒体播放器专用信息相关联的层信息，其可以用于将每个平坦层渲染为同心球形层。

根据实施例，多个同心球形层可以包括背景球形层和多个球形项目层。VR回放电路还可以被配置为将背景球形层渲染为多个同心球形层的最外面的同心球形层。背景球形层可以与作为针对解码的360°VR视频的每个视频片段中的多个平坦层指定的多个深度值中的最大值的深度值相关联。类似地，VR回放电路还可以被配置为将多个球形项目层中的每一个渲染为多个同心球形层中的内同心球形层。多个球形项目层可以包括图形图像、文本内容、交互式按钮、用户界面、3D深度纹理、计算机生成图像(CGI)或动画序列中的至少一个。每个视频片段的每个平坦层的深度值可对应于相对于用户视点测量的同心球形层的半径。

根据实施例，VR回放电路还可被配置为根据同心球形层的音频项的3D音频位置值来渲染经渲染的360°VR视频的每个视频片段的同心球形层的音频项。所述多个用户输入可以包括触摸输入、触觉输入、手势输入、语音输入、头部旋转输入、或眼睛移动输入、以及瞳孔扩张输入中的至少一个。

根据实施例，视频片段的至少一个同心球形层的图像元数据的属性集合的修改可以对应于在经渲染的360°VR视频的回放期间视频片段的至少一个同心球形层的修改。根据修改的图像元数据的每个视频片段的受控回放可对应于经渲染的360°VR视频中的每个视频片段的不同同心球形层的位置的切换、内容的修改、音频感知深度和音频感知方向的修改、或透明度水平中的至少一个。

根据实施例，VR回放电路可以被配置为根据修改的图像元数据中的不同同心球形层的深度值的修改来切换经渲染的360°VR视频的每个视频片段的不同同心球形层的位置。可以基于接收到用于修改不同同心球形层的深度值的用户输入来完成切换。VR回放电路还可以被配置为根据对针对不同同心球形层的图像元数据中的层类型的修改来修改解码的360°VR视频的每个视频片段的不同同心球形层的内容。可以基于接收到用于修改不同同心球形层的层类型的用户输入来进行修改。

根据实施例，VR回放电路还可被配置为修改每个视频片段的不同同心球形层的不同音频项的音频感知深度和音频感知方向。音频感知深度和音频感知方向的修改可以根据解码的360°VR视频的每个视频片段的不同同心球形层的3D音频位置值的修改来完成。该修改基于接收到用于修改不同同心球形层的3D音频位置值的用户输入。根据用户眼睛的移动，基于用户在VR显示器处的每个视频片段的不同同心球形层上的注视点的变化，进一步修改每个视频片段的不同同心球形层的不同音频项的音频感知深度和音频感知方向。

根据实施例，VR回放电路还可以被配置为修改经渲染的360°VR视频的每个视频片段的不同同心球形层的透明度水平。这种修改可以根据不同同心球形层的α值的修改来完成。可以基于接收到用于修改不同同心球形层的阿尔法值的用户输入来进行修改。

根据实施例，VR回放电路还可以被配置为将360°VR视频的每个视频片段中的多个同心球形层渲染为与用户的视平面对准的体积中的多个体素。通过应用基于体积纹理渲染的技术，可以进一步将景深添加到所述多个体素。

本公开可以以硬件或硬件和软件的组合来实现。本公开可以以集中的方式在至少一个计算机系统中实现，或者以分布式的方式实现，其中不同的元件可以分布在若干互连的计算机系统上。适于执行这里描述的方法的计算机系统或其他装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，当加载和执行该计算机程序时，可以控制该计算机系统，使得它执行这里描述的方法。本公开可以在包括还执行其他功能的集成电路的一部分的硬件中实现。

本公开还可以嵌入在计算机程序产品中，该计算机程序产品包括使得能够实现本文描述的方法的所有特征，并且当被加载在计算机系统中时能够执行这些方法。在本上下文中，计算机程序意指指令集的以任何语言、代码或符号的任何表达，该指令集旨在使具有信息处理能力的系统直接执行特定功能，或者在以下中的一个或两个之后执行特定功能：a)转换成另一种语言、代码或符号；b)以不同的材料形式再现。

尽管已经参考某些实施例描述了本公开，但是本领域技术人员将理解，在不脱离本公开的范围的情况下，可以进行各种改变并且可以用等同物进行替换。此外，在不背离本公开的范围的情况下，可以进行许多修改以使特定的情况或材料适应本公开的教导。因此，本公开并不限于所公开的特定实施例，而是本公开将包括落入随附权利要求的范围内的所有实施例。

Claims

1.一种虚拟现实VR装置，包括：

VR显示器；

存储器，被配置为存储包括视频片段序列的经编码的360°VR视频，

其中，所述视频片段序列的每个视频片段包括多个平坦层，以及

其中，所述多个平坦层中的每个平坦层是与图像元数据相关联的至少一个等边矩形图像帧；以及

VR回放电路，其中，所述VR回放电路被配置为：

基于所述多个平坦层中的每个平坦层的图像元数据，将经编码的360°VR视频的每个视频片段中的所述多个平坦层渲染为在所述VR显示器处相对于用户视点以多个深度值投影的多个同心球形层；

接收与和经渲染的360°VR视频的每个视频片段中的所述多个同心球形层中的至少一个同心球形层相关联的图像元数据中的属性集合的修改相关联的多个用户输入；

基于与经渲染的360°VR视频的视频片段的所述多个同心球形层的所述至少一个同心球形层相关联的图像元数据的属性集合的修改，生成所述至少一个同心球形层的经修改的图像元数据；以及

根据所述经渲染的360°VR视频的每个视频片段的所述至少一个同心球形层的经修改的图像元数据来控制被渲染为所述多个同心球形层的每个视频片段的回放，其中基于对与所述视频片段的所述至少一个同心球形层相关联的图像元数据中的属性集合的用户选择来控制每个视频片段的回放。

2.根据权利要求1所述的VR装置，其中，所述VR回放电路还被配置为通过对经编码的360°VR视频的经编码的视频片段的所述多个平坦层以及每个平坦层的图像元数据进行解压缩来生成解码的360°VR视频。

3.根据权利要求1所述的VR装置，其中，每个平坦层的图像元数据中的属性集合包括与层类型、深度值、三维3D音频位置值、阿尔法值和媒体播放器特定信息相关联的层信息，所述层信息被用于将每个平坦层渲染为同心球形层。

4.根据权利要求1所述的VR装置，其中，所述多个同心球形层包括背景球形层和多个球形项目层。

5.根据权利要求4所述的VR装置，其中，所述VR回放电路还被配置为将所述背景球形层渲染为所述多个同心球形层中的最外面的同心球形层。

6.根据权利要求5所述的VR装置，其中，所述背景球形层与作为针对经解码的360°VR视频的每个视频片段中的所述多个平坦层指定的所述多个深度值中的最大值的深度值相关联。

7.根据权利要求4所述的VR装置，其中，所述VR回放电路还被配置为将所述多个球形项目层中的每一个渲染为所述多个同心球形层中的内同心球形层。

8.根据权利要求7所述的VR装置，其中，所述多个球形项目层包括图形图像、文本内容、交互按钮、用户接口、3D深度纹理、计算机生成的影像(CGI)或动画序列中的至少一个。

9.根据权利要求1所述的VR装置，其中，每个视频片段的每个平坦层的深度值与相对于所述用户视点测量的同心球形层的半径相对应。

10.根据权利要求1所述的VR装置，其中，所述VR回放电路还被配置为根据经渲染的360°VR视频的每个视频片段的同心球形层的音频项的3D音频位置值来渲染所述同心球形层的所述音频项。

11.根据权利要求1所述的VR装置，其中，所述多个用户输入包括触摸输入、触觉输入、手势输入、语音输入、头部旋转输入、或眼睛移动输入、以及瞳孔扩张输入中的至少一个。

12.根据权利要求1所述的VR装置，其中，对所述视频片段的所述至少一个同心球形层的图像元数据的属性集合的修改与对在经渲染的360°VR视频的回放期间的所述视频片段的所述至少一个同心球形层的修改相对应。

13.根据权利要求1所述的VR装置，其中，所述VR回放电路还被配置为根据对经修改的图像元数据中的不同同心球形层的深度值的修改来切换经渲染的360°VR视频的每个视频片段的所述不同同心球形层的位置，其中，所述切换基于接收到针对对所述不同同心球形层的深度值的修改的用户输入。

14.根据权利要求1所述的VR装置，其中，所述VR回放电路还被配置为根据对经渲染的360°VR视频的每个视频片段的所述不同同心球形层的图像元数据中的层类型的修改来修改所述不同同心球形层的内容，其中，所述修改基于接收到针对对所述不同同心球形层的层类型的修改的用户输入。

15.根据权利要求1所述的VR装置，其中，所述VR回放电路还被配置为根据对经渲染的360°VR视频的每个视频片段的不同同心球形层的3D音频位置值的修改来修改每个视频片段的不同同心球形层的不同音频项的音频感知深度和音频感知方向，其中，所述修改基于接收到针对对所述不同同心球形层的3D音频位置值的修改的用户输入。

16.根据权利要求15所述的VR装置，其中，还根据用户的眼睛的移动，基于用户在所述VR显示器处在每个视频片段的所述不同同心球形层上的注视点的变化，来修改针对所述每个视频片段的所述不同同心球形层的不同音频项的音频感知深度和音频感知方向。

17.根据权利要求1所述的VR装置，其中，所述VR回放电路还被配置为根据对经渲染的360°VR视频的每个视频片段的不同同心球形层的阿尔法值的修改来修改所述不同同心球形层的透明度水平，并且其中，所述修改基于接收到针对对所述不同同心球形层的阿尔法值的修改的用户输入。

18.根据权利要求1所述的VR装置，其中，根据经修改的图像元数据对每个视频片段的受控回放与经渲染的360°VR视频中的每个视频片段的不同同心球形层的位置的切换、内容的修改、音频感知深度和音频感知方向的修改、或者透明度水平中的至少一者相对应。

19.根据权利要求1所述的VR装置，其中，所述VR回放电路还被配置为将所述360°VR视频的每个视频片段中的所述多个同心球形层渲染为与用户的视平面对准的体积中的多个体素，其中，通过应用基于体积纹理渲染的技术来向所述多个体素添加景深。

20.一种方法，包括：

在包括虚拟现实VR显示器、存储器和VR回放电路的VR装置中：

在所述存储器中存储包括视频片段序列的经编码的360°VR视频，其中每个视频片段包括多个平坦层，其中所述多个平坦层中的每个平坦层是与图像元数据相关联的至少一个等边矩形图像帧；

由所述VR回放电路基于经解码的360°VR视频的每个视频片段中的所述多个平坦层中的每个平坦层的图像元数据，将所述多个平坦层渲染为在所述VR显示器处相对于用户的视点以多个深度值投影的多个同心球形层；

由所述VR回放电路接收与和经渲染的360°VR视频的每个视频片段中的所述多个同心球形层中的至少一个同心球形层相关联的图像元数据中的属性集合的修改相关联的多个用户输入；

由VR回放电路基于对与经渲染的360°VR视频的视频片段的所述至少一个同心球形层相关联的图像元数据的属性集合的修改，生成所述至少一个同心球形层的经修改的图像元数据；以及

由所述VR回放电路根据经渲染的360°VR视频的每个视频片段的所述至少一个同心球形层的经修改的图像元数据来控制被渲染为所述多个同心球形层的每个视频片段的回放，其中，每个视频片段的回放是基于与所述视频片段的所述至少一个同心球形层相关联的图像元数据中的属性集合的用户选择来控制的。