CN109891465A

CN109891465A - 用于处理虚拟现实图像的方法和装置

Info

Publication number: CN109891465A
Application number: CN201780063380.5A
Authority: CN
Inventors: 崔秉斗; E.叶; 宋在涓
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-10-12
Filing date: 2017-10-12
Publication date: 2019-06-14
Anticipated expiration: 2037-10-12
Also published as: KR102527816B1; KR102642406B1; CN109891465B; KR20180040507A; WO2018070810A1; EP3528212A1; KR20230060499A; EP3528212A4; US20210067758A1

Abstract

根据本公开的一方面的用于处理虚拟现实(VR)图像的方法可以包括如下步骤：选择视口；发送与选择的视口相关的信息；接收与和选择的视口重叠的VR内容相关的至少一个轨道；从接收的至少一个轨道获取元数据；以及基于接收的元数据和选择的视口，从接收的至少一个轨道呈现选择的视口。

Description

用于处理虚拟现实图像的方法和装置

技术领域

本公开涉及处理自适应虚拟现实(VR)图像的方法和装置。

背景技术

因特网正在从人类创建和消费信息的以人为中心的连接网络演变为物联网(IoT)网络，通过该网络在事物或其他分布式组件之间传送和处理信息。万物互联(IoE)技术可以是通过例如与云服务器的连接来组合大数据处理技术和IoT技术的示例。

为了实现IoT，需要各种技术元素，诸如传感技术、有线/无线通信和网络基础设施、服务接口技术和安全技术。最近正在进行对对象间连接技术，诸如传感器网络、机器到机器(M2M)或机器类型通信(MTC)的研究。

在IoT环境中可能会提供智能互联网技术(IT)服务，其收集和分析由彼此连接的事物所生成的数据，来为人类的生活创造新的价值。通过转换或整合现有的IT技术与各种行业，IoT可以具有各种应用，诸如智能家居、智能建筑、智能城市、智能汽车或连接的汽车、智能电网、医疗保健或智能家电行业、或最先进的医疗服务。同时，为实施IoT的内容也在不断演变。换句话说，随着黑白内容转移为彩色内容，以及高清(HD)、超高清(UHD)和最近的高动态范围(HDR)内容被标准化和传播，正在进行虚拟(VR)内容的研究，该VR内容可以由VR装置，诸如Oculus或Samsung Gear VR播放。VR系统监视用户并允许用户使用某种类型的控制器通过内容显示设备或处理单元输入反馈。所述设备或单元处理输入的反馈以调整内容来适合该反馈，从而实现交互。

VR回声系统可以包括基本组件，例如头戴式显示器(HMD)、无线/移动VR、TV、洞穴自动虚拟环境(CA VE)、外围设备和触觉(用于向VR提供输入的其他控制器)、内容捕捉(相机或视频拼接)、内容工作室(游戏、流、电影、新闻和纪录片)、工业应用(教育、医疗保健、房地产、建筑、旅行)以及生产工具和服务(3D引擎、处理能力)、应用商店(用于VR媒体内容)。

在没有实现可以设计用于三维(3D)360度内容的后高效视频编码(HEVC)编解码器的情况下，为了配置VR内容而执行的360度图像内容的捕捉、编码和传输遇到了无数的挑战。

因此，存在对能够以更有效的方式配置和消费VR内容的方案的需要。

发明内容

[技术问题]

根据本公开，提供一种处理虚拟现实(VR)图像的方法和装置。

根据本公开，提出了一种用于配置各条信息并且信号传输该信息的方法和装置，所述信息用于呈现构成没有失真的VR内容的图像。

根据本公开，提出了一种在接收侧基于VR内容的信令信息来播放VR内容的方法和装置。

[解决方案]

根据本公开的一方面，处理虚拟现实图像的方法可以包括：选择视口，发送与选择的视口相关的信息，接收与和选择的视口重叠的虚拟现实(VR)内容相关的至少一个轨道(track)，从接收的至少一个轨道获得元数据，以及基于接收的元数据和选择的视口，从接收的至少一个轨道呈现选择的视口。

另外，与视口相关的信息可以包括视点信息和视场(FoV)信息，其中，视点信息可以包括与球坐标有关的中心偏航角和中心俯仰角，并且FoV信息可以包括偏航角的宽度和俯仰角的宽度。

另外，中心偏航角可以不小于-180度且不大于180度，俯仰角可以不小于-90度且不大于90度，偏航角的宽度可以不小于0度且不大于360度，并且俯仰角的宽度可以不小于0度且不大于180度。

另外，元数据可以包括如下中的至少一个：至少一个轨道是否被拼接(stitch)，至少一个轨道的全部覆盖范围，至少一个轨道是360度图像的整体还是部分，至少一个轨道的水平有效范围，至少一个轨道的垂直有效范围，至少一个轨道是否是通过柏拉图实体投影方法的一个轨道，正多面体的类型以及至少一个轨道的FoV信息。元数据可以包括关于在一个或多个轨道与和视口重叠的至少一个轨道之间的依赖性的信息，并且，其中，

至少一个轨道可以包括虚拟现实内容的全部几何形状或虚拟现实内容的全部几何形状的仅一部分。可以通过等角投影(ERP)方法或柏拉图实体投影方法来生成至少一个轨道。所述至少一个轨道的数量可以是两个或更多个，可以彼此不重叠，至少一个轨道之间可以具有依赖性。

根据本公开的另一方面，一种处理虚拟现实图像的装置可以包括：收发器；存储器，被配置为存储虚拟现实图像处理模块；和控制器，与收发器和存储器连接以执行虚拟现实图像处理模块，其中控制器可以被配置为：选择视口，发送与选择的视口相关的信息，接收与和选择的视口重叠的虚拟现实(VR)内容相关的至少一个轨道，从接收的至少一个轨道获得元数据，以及基于接收的元数据和选择的视口，从接收的至少一个轨道呈现选择的视口。

通过以下结合附图的详细描述并公开本公开的优选实施例，本公开的其他方面、优点和核心特征对于本领域普通技术人员将是显而易见的。

在进入本公开的详细描述之前，定义如本文所使用的特定单词和短语可能是有效的。如本文所用，词语“包括”和“包含”及其衍生词可以意味着这样做而没有任何限制。如本文所用，术语“或”可以意味着“和/或”。如本文所用，短语“与......相关联”和“与之相关联”及其衍生词可以意味着“包括”、“包括在其中”、“与......互连”、“包含”、“包含在其中”、“连接到或与…连接”或“耦合到或与...耦合”、“可与…通信”、“与…合作”、“交错”、“并置”、“接近”、“约束到或约束于”、“具有或具有…的属性”。如本文所用，词语“控制器”可以意味着控制至少一个操作的任何设备、系统或其部分。该设备可以用硬件、固件、软件或其至少两个的某种组合来实现。应该注意到，功能，无论与其相关联的特定控制器，可以集中或分布或本地或远程地实现。本领域普通技术人员应当理解，在许多情况下或者即使不是在大多数情况下，可以采用这里使用的特定术语或短语的现有的或将来的定义。

附图说明

图1是示出根据本公开实施处理自适应虚拟现实图像的方法的计算机系统的示例配置的图；

图2a、图2b和图2c是示出根据本公开的示例ERP图像的图；

图3a、图3b和图3c是示出根据本公开的示例视口图像的图；

图4是示出映射视口图像和ERP图像的示例方法的图；

图5是示出映射视口图像和ERP图像的示例方法的图；

图6a、图6b和图6c是示出在生成的视口图像中示出的锯齿、模糊和混淆的示例的图；

图7和图8是示出根据本公开的映射视口图像和ERP图像的示例方法的图；

图9(a)是示出视口图像的图，而图9(b)是示出球坐标系中的偏航和俯仰的图；

图10是示出将在球坐标系中的坐标映射到ERP图像中的坐标的示例方法的图；

图11是示出根据本公开使用多面体获得360度图像的示例方法的图；图11(a)是每个多面体的二维分解图，图11(b)是立方体的示例二维分解图，而图11(c)是二十面体的示例二维分解图；

图12是示出根据本公开的跟踪与在ERP图像中呈现视口相关的视点的图；

图13是示出根据本公开的跟踪与在立方投影中呈现视口相关的视点的图；

图14示出用于捕捉360度图像的相机设备；

图15是示出取决于捕捉360度图像的相机设备的形状的捕捉范围的示例的图；图15(a)示出四面体相机设备的捕捉范围，图15(b)示出立方体形状的相机设备的捕捉范围，而图15(c)示出十二面体相机设备的捕捉范围；

图16是示出从球面图像投影的示例方法的图；

图17是示出立方投影的示例方法的图；以及

图18是示出八面体投影的示例方法的图。

具体实施方式

下文中，参考附图详细描述本公开的实施例。贯穿附图，相同的附图标记用于表示相同的组件。当确定会使本公开的主题不清楚时，可以跳过已知功能或配置的细节。这里使用的术语是考虑到本公开中的功能而定义的，并且可以根据用户或操作者的意图或实践用其他术语代替。因此，应基于整体公开来定义各术语。

可以对本发明进行各种改变，并且本发明可以具有多种实施例。结合附图示出并描述了本发明的一些实施例。然而，应当理解，本发明不限于这些实施例，并且对其的所有改变和/或等同物或替换物也属于本发明的范围。

如这里所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文另有明确说明。因此，作为示例，“组件表面”包括一个或多个组件表面。

与诸如“第一”和“第二”的序数一起出现的术语可以用于表示各种组件，但是组件不受这些术语的限制。这些术语仅用于区分一个组件与另一个组件。例如，在不脱离本公开的范围的情况下，第一组件可以表示为第二组件，反之亦然。术语“和/或”可以表示所列出的多个相关项目的组合或任何一个项目。

提供这里使用的术语仅仅是为了描述其一些实施例，而不是为了限制本公开。应理解，单数形式“一”、“一个”和“该”包括复数指代，除非上下文另有明确说明。将进一步理解，当在本说明书中使用时，术语“包括”和/或“具有”指定所述特征、整数、步骤、操作、元素和/或组件的存在，但不排除存在或者添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组。

除非结合本公开的实施例另外定义，否则本文使用的包括技术和科学术语的所有术语具有与本公开的实施例所属领域的普通技术人员通常理解的含义相同的含义。将进一步理解的是，诸如在常用词典中定义的那些术语应该被解释为具有与其在相关领域的上下文中的含义一致的含义，并且将不被理解为理想化或过于正式的含义，除非在此明确如此定义。

根据本公开的实施例，这里公开的电子设备可以包括通信功能。例如，电子设备可以是智能手机、平板PC、个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、笔记本PC、上网本PC、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、相机、可穿戴设备(例如，头戴式设备(HMD))、电子服装、电子手镯、电子项链、电子配件、电子纹身或智能手表。

根据本公开的各种实施例，电子设备可以是具有通信功能的智能家电。例如，智能家电可以是：电视机、数字视频盘(DVD)播放器、音频播放器、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、干燥机、空气净化器、机顶盒、TV盒(例如，Samsung HomeSync^TM、Apple TV^TM、或Google TV^TM)、游戏控制台、电子词典、摄像机或电子相框。

根据本公开的各种实施例，电子设备可以是医疗设备(例如，磁资源血管造影(MRA)设备、磁资源成像(MRI)设备、计算机断层摄影(CT)设备、成像设备或超声波设备)、导航设备、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐设备、航行电子设备(例如，航行导航设备、陀螺仪或指南针)、航空电子设备、安全设备、或者家用或工业机器人。

根据本公开的各种实施例，电子设备可以是具有通信功能的一件家具、建筑物/结构的一部分、电子板、电子签名接收设备、投影仪或各种测量设备(例如，用于测量水、电、气或电磁波的设备)。

根据本公开的各种实施例，电子设备可以是上面列出的设备的组合。本领域普通技术人员应该理解，电子设备不限于上述设备。

根据本公开的各种实施例，用于发送和接收VR内容的设备可以是例如电子设备。

在此使用的术语定义如下。图像可以是视频或静止图像。图像内容可以包括各种多媒体内容，包括音频或字幕，但不仅仅是视频或静止图像。VR内容包括将图像提供为360度图像或三维(3D)图像的图像内容。媒体文件格式可以是遵循各种媒体相关标准的媒体文件格式，诸如基于国际标准化组织(ISO)的媒体文件格式(ISOBMFF)。投影是指用于将用于展示的球形图像，例如360度图像，投影到根据该处理的结果获得的平面表面或图像帧的处理。映射是指通过投影到根据该处理的结果获得的二维(2D)平面表面或图像帧而将图像数据映射到平面表面上的处理。全方位媒体包括可以根据用户的视口(viewport)或用户的头部移动的方向来呈现的图像或视频，例如，当用户使用HMD和/或其相关音频时。视口可以被表示为视场(FOV)，意味着用户在某个视点处观看的图像的区域(这里，图像的区域可以是球形图像的区域)。

在下文中，参考附图详细描述本发明的优选实施例。

图1是示出根据本发明的实施处理自适应虚拟现实图像的方法的计算机系统的示例配置的图。

同时，处理自适应虚拟现实图像的方法可以在计算机系统中实现或者记录在记录介质中。参考图1，计算机系统可包括至少一个或多个处理器110和存储器120。

处理器110可以是中央处理单元(CPU)或处理存储在存储器120中的命令的半导体设备。

处理器110可以是控制计算机系统100的所有操作的控制器。控制器可以通过从存储器120读出和运行编程代码来执行计算机系统100的操作。

计算机系统100可以包括用户输入设备150、数据通信总线130、用户输出设备160和存储单元140。上述组件可以通过数据通信总线130执行数据通信。

计算机系统还可以包括连接到网络180的网络接口170。

存储器120和存储单元140可以包括各种类型的易失性或非易失性存储介质。例如，存储器120可以包括只读存储器(ROM)123和随机存取存储器(RAM)126。存储单元140可以包括非易失性存储器，诸如磁带、硬盘驱动器(HDD)、固态驱动器(SSD)、光学数据设备和闪存存储器。

因此，根据本发明的实施例的处理自适应虚拟现实图像的方法可以实现为可在计算机上执行的方法。当在计算机设备上执行根据本发明的实施例的处理自适应虚拟现实图像的方法时，计算机可读命令可以执行根据本发明的操作方法。

同时，根据本发明的处理自适应虚拟现实图像的上述方法可以以计算机可以从记录介质读出的代码来实现。计算机可读记录介质包括存储可由计算机系统读出或解释的数据的所有类型的记录介质。例如，计算机可读记录介质可以包括ROM、RAM、磁带、磁盘、闪存存储器和光学数据存储设备。此外，计算机可读记录介质可以分布在经由计算机通信网络连接的计算机系统上，并且可以存储和运行为以分布方式可读的代码。

图2a、图2b和图2c是示出根据本公开的示例ERP图像的图。

视口是指用户视角的投影。当观看VR内容时，基本VR内容的“部分”可以由VR显示设备呈现。基本VR内容的该部分称为视口。例如，头戴式显示设备(HMD)可以基于用户的头部运动来呈现视口。

视口可以有各种定义。视口可以指HMD的显示部分或者要呈现的VR内容的一部分，或者用于筛选要呈现的该部分的信息。

对于全方位图像，图像相机设备用户对球坐标系或等角投影(equirectangularprojection,ERP)中的全部内容的视角，即整个图像的一部分，通常被称为视口。因此，与视口相关的信息包括视点和视场(FoV)。视点表示用户的观看取向，而与覆盖区域相关的FoV是指要在HMD的显示器上输出的视图的范围。视点可以用球坐标系中的偏航角(yaw angle)和俯仰角(pitch angle)表示，并且FoV可以将偏航角的宽度和俯仰角的宽度表示为角度。

根据本公开的全方位视频图像可以是4k等角投影(ERP)图像。4k ERP图像的分辨率可以是4096x2048。4k可以表示4096，其是沿水平轴的分辨率。根据本公开的视口图像的分辨率可以是640×720。左手图像和右手图像的、分别是头戴式显示设备的左眼和右眼的相机设备的分辨率可以是640×720。

具体数字是示例，并不旨在限制本公开的技术范围。例如，4k ERO图像的分辨率可以是3840×2160或3840×1920，并且视口图像的分辨率可以是630×700。

图3a、图3b和图3c是示出根据本公开的示例视口图像的图。

如图3a、图3b和图3c中公开的，θ_r是指视点的中心偏航角，而φ_r是指中心俯仰角。

视点可以由中心偏航角(center_yaw)和中心俯仰角(center_pitch)限定。例如，视点(viewpoint)可以表达为：viewpoint＝(center_yaw，center_pitch)。

例如，头戴式显示器的双眼上的显示屏幕在各图中示出，其中图3a用于(0°，0°)的视点，图3b用于(0°，45°)的视点，而图3a用于(0°，90°)的视点。

各种实施例对于表示视点的中心偏航角和中心俯仰角是可能的，只要中心偏航角和中心俯仰角可转换为角度。中心偏航角和中心俯仰角可以用浮点数或定点数表示来表达。或者，它们可以表达为基于基本单位的整数。例如，如果基本单位为(2^-16°)，center_yaw＝100x 2¹⁶，则center_yaw归结为100°。

图4是示出映射视口图像和ERP图像来呈现视口的示例方法的图。

首先，使用例如透视或方位角投影方法将视口的坐标(x，y)转换为球坐标(θ，φ)。这里，θ表示偏航角，而φ表示俯仰角。转换后的球坐标(θ，φ)被转换为ERP图像的子像素(u，v)。图4的ERP图像是全方位视频坐标。也即，u的范围被确定为满足-180°<u<180°，并且v的范围被确定为满足-90°<u<90°。

可以获得包括子像素(u，v)的相邻像素的像素值，并且可以基于获得的相邻像素的像素值来计算与视口的坐标(x，y)对应的像素值。此外，可以将权重应用于获得的相邻像素的像素值，并且可以获得与视口的坐标(x，y)对应的像素值。

此外，在根据本公开的处理虚拟现实图像的方法中，可以直接从视口的坐标(x，y)获得ERP图像的子像素(u，v)。此时，可以预先通过实验获得表示在视口的坐标(x，y)与ERP图像的子像素(u，v)之间的对应关系的对应表，并且可以使用对应表直接获得与视口的坐标(x，y)对应的ERP图像的子像素(u，v)。

可以根据以下等式从包括子像素(u，v)的相邻像素的像素值计算视口的坐标(x，y)的像素值。

【等式1】

图5是示出映射视口图像和ERP图像以呈现视口的示例方法的图。

图5的左侧的图是指具有45°的俯仰角的视口，而图5的右侧的图是指4k ERP图像。图5表示在视口和4k ERP图像之间的映射关系。通常，与视口的上部线映射的ERP图像中的上部曲线在曲率上大于与视口的下部线映射的ERP图像中的下部曲线。对应于视口的下部线和上部线的ERP图像的下部曲线和上部曲线可以通过实验获得。

由于采样率对视口的每行不同，因此在ERP图像中使用例如4×4或2×2的预定插值掩模来获得视口的坐标的像素值可能导致显著误差。需要一种对视口的每行应用不同采样率的方法。

根据本公开的呈现视口的方法可以执行视口的每个水平线的呈现。可以预先为每条水平线获得对应于4k ERP图像的每条曲线，并且可以通过沿着与视口的每条水平线对应的每条曲线的插值方法获得对应于视口的坐标(x，y)的像素值。

图6a、图6b和图6c是示出在生成的视口图像中示出的锯齿、模糊和混淆的示例的图。

图6a表示使用最近邻方法来获得与视口的坐标(x，y)对应的像素值的结果。最近邻方法是使用最接近ERP图像的子像素(u，v)的像素值来获得与视口的坐标(x，y)对应的像素值的方法。由于使用最近的像素值，减少转换可能会丢失像素，可能导致锯齿(锯齿形图案)。

图6b表示使用双线性插值方法来获得与视口的坐标(x，y)对应的像素值的结果。双线性插值方法是沿水平方向或垂直方向连续执行两次正常线性插值方法的方法。通过沿水平或垂直方向的插值的性质，双线性插值方法使得能够快速处理，但是由于其逐行地应用插值，所以行中的图像可以被平滑地处理而行之间的图像可能由于偏差而被模糊。

图6c表示使用双三次插值方法来获得与视口的坐标(x，y)对应的像素值的结果。双三次插值方法是连续执行两次三次插值方法的方法。由于使用加权平均值作为视口的像素值，使用位于ERP的子像素的顶部、底部、左侧和右侧的像素值，可能出现混淆(不均匀纹理)。

图7和图8是示出根据本公开的映射视口图像和ERP图像的示例方法的图。

图7是示出针对视口的一个像素确定ERP图像中的多个相邻像素的示例方法的图。获得视口的一个像素的四个顶点和中心点，并获得与获得的中心点和四个顶点的坐标对应的视口的子像素。获得与视口的子像素对应的ERP图像的子像素，并确定ERP图像的子像素的各个相邻像素。

参考图8，对确定的相邻像素的像素值进行加权平均，并获得中心点和四个顶点的像素值。获得每个点的像素值的方法类似于上面结合图4描述的方法。

首先，视口的一个像素的中心点是(x₀，y₀)，像素的顶点是(x₁，y₁)，(x₂，y₂)，(x₃，y₃)和(x₄，y₄)，中心点和顶点各自代表视口的子像素。视口的子像素可以表达为(x_j，y_j)并且可以通过以下等式计算。

【等式2】

可以使用上述等式的结果和以下等式来计算视口的像素(x，y)的像素值。

【等式3】

图9(a)是示出视口图像的图，而图9(b)是示出球坐标系中的偏航角和俯仰角的图。

视口可以用两种方案表示：1)视口包括视点和视场(FoV)的方案；以及2)表示视口本身的方案。

视点和FoV可以表示为以下等式。

【等式4】

viewpoint＝(center_yaw，center_pitch)

FoV＝(FOV_yaw，FOV_pitch)

视口可以表示为以下等式，而不是使用视点和FoV。

【等式5】

viewport＝(yaw_left，yaw_right；pitch_top，pitch_bottom)

发生在等式4和等式5之间的以下关系。

【等式6】

yaw_left＝center_yaw+FOV_yaw/2，

yaw_right＝center_yaw-FOV_yaw/2，

pitch_top＝center_pitch+FOV_pitch/2，

pitch_bottom＝center-pitch-FOV_pitch/2

例如，当视点＝(90°，0°)，而FOV＝(120°，100°)，视口＝(150°，30°，50°，-50°)。

架构A：覆盖全部内容几何的轨道

图10是示出将在球坐标系中的坐标映射到ERP图像中的坐标的示例方法的图。

球坐标(r，θ，φ)被转换为ERP上的坐标(x，y)。此时，x可以对应于偏航角(θ)，并且y可以对应于俯仰角(φ)。

根据本公开的实施例，轨道可以被设计为包括全部内容的几何。

架构A具有以下特征。视频流或视频轨道的样本可以包括全部内容的几何。例如，在图10的ERP中，偏航角(θ)的范围是-180°<θ<180°，并且俯仰角(φ)的范围是-90°<φ<90°，ERP投影图像变为全方位图像。这可以被称为360度图像、全部内容，更简单地称为360度图像、360视频。通常，可以通过捕捉球形360视频并将捕捉的360视频映射到二维平面表面来执行架构A。播放器(例如，HMD)可以选择视口，从360视频中提取，并呈现选择的视口。

图11是示出根据本公开的另一实施例将360度图像投影到二维平面表面上的示例方法的图。

可以通过另一种投影方法生成全方位图像。例如，可以使用正多面体生成360度图像，并且可以将生成的360度图像投影到二维平面表面上。

图11(a)示出三维模型、二维投影，以及每个多面体的面的数量。图11(b)示出立方体的二维投影，而图11(c)示出二十面体的二维投影。

图11(a)公开将球形360度图像投影到二维平面表面上的其他方法。通常，默认是投影到正多面体上。由于能够用多个二维平面表面围绕，正多面体可以表示为类似于ERP的二维平面表面。虽然通过将投影到球体上的图像投影到矩形上来以矩形形状生成ERP图像，但是使用正多面体的投影方法可能需要填充区域，例如黑色区域，如图11(b)和11(c)所示。

由于可以使用各种多面体，因此将关于默认投影方法的信息指示为文件格式(例如，国际标准化组织基础的媒体文件格式(ISOBMFF))是至关重要的，以便客户端(例如，HMD)从360度图像精确地呈现视口。也就是说，ISOBMFF格式数据可以包含元数据，其可以包含关于默认投影方法的信息。

架构B：基于视口的架构

架构B是基于视口设计的。轨道可能已拼接或未拼接。这称为基于视口的架构。

根据架构B，视频内容可以拆分成多个。每个都覆盖球形360度图像的不同部分。每个拆分的部分称为轨道视口。轨道视口之间可能存在或不存在重叠。通常，内容服务器或配备相机的图像处理设备生成轨道视口。

客户端(例如，HMD)选择要呈现的视口。对与选择的视口对应的至少一个轨道视口的请求被发送到内容服务器或图像处理设备，并且从内容服务器或图像处理设备接收轨道视口。然而，HMD可以包括相机设备，并且不将从其自身捕捉的图像获得轨道视口排除在本公开的范围之外。

为了呈现选择的视口，可能需要多个轨道视口。多个轨道视口之间可能存在依赖性。换句话说，由于轨道视口仅表示视频部分的一小部分，因此可能不会单独播放它。也就是说，在没有其他轨道的情况下，可能不会展示单独的依赖轨道。

在多个轨道视口具有依赖性的情况下，客户端可以发送对与和选择的视口重叠的轨道视口相关的视口的请求并呈现选择的视口。

每个轨道可以单独存储为分离的文件，或者多个轨道可以存储在一个文件中，或者一个轨道可以分开并存储在多个文件中。

在轨道具有依赖性的情况下，“轨道参考框(Track Reference Box)”可用于指定与和选择的视口重叠的轨道视口有关的参考轨道。

实施例B.1：拼接、投影、分割

根据本公开，由捕捉360度图像的相机设备生成360球形内容，并将其投影到二维平面表面上。然后，投影的平面表面被分离成区域，并且每个分离的区域被封装成轨道。

图12是示出根据本公开的一方面的关于ERP图像中“要呈现的视口”所需的“轨道视口”的图。

参考图12，VR内容被用ERP投影并且针对每个轨道被拆分以占据360球形图像的一部分(轨道视口)。编号为1、2、3、....、16的区域各自为轨道视口。通过编号，它们可以被称为1号轨道视口、2号轨道视口、......、16号轨道视口。当客户端(例如，HMD)选择“要呈现的视口”时，可基于“轨道视口”要求与一个或多个文件相关的轨道。

例如，如果图12(a)的中心处的黑色区域是“要呈现的视口”，则请求的“轨道视口”是6号轨道视口、7号轨道视口、10号轨道视口和11号轨道视口。如果图12(b)的黑色区域是“要呈现的视口”，则“轨道视口”是3号轨道视口和7号轨道视口。

图13是示出根据本公开的另一实施例的使用立方投影关于“要呈现的视口”所需的“轨道视口”的图。

生成VR内容并使用立方投影将其投影到二维平面表面上。投影的平面表面被拆分成精确对应于立方体的各个面的区域，并且每个区域被封装成轨道。

在图13(a)和13(b)中，立方体的各个面用1F、2R、3b、4L、5T和6m表示。这与图17(b)类似。但是，图13与图17(b)不同处在于，它使用2l而不是2R以及使用4r而不是4L。根据实施例，每个投影表面可以不同地命名。

如果在图13(a)中所示的黑色部分是“要呈现的视口”，则请求的“轨道视口”是1F和2R。如果在图13(b)中所示的黑色部分是“要呈现的视口”，则请求的“轨道视口”是2R和5T。

如果请求的轨道与其他轨道有依赖性，则可以通过“轨道参考框”暗示并请求(一个或多个)参考轨道。

实施例B.2：没有拼接(单独的相机的输出，任意排列)

根据即时实施例，在捕捉设备(内容生成设备)中，不拼接由每个相机捕捉的帧。图像拼接是指用视场(FoV)重叠将多个照片图像合并以生成高分辨率图像或碎片的全景图像的处理。

来自每个相机的单独的视频序列被封装到轨道中。换句话说，“轨道视口”与每个相机的视口相同。通常，相机的视口重叠。也即，可以单独接收来自相机的单独的视频序列而无需拼接。

图14示出用于捕捉360度图像的相机设备。

为了产生选择的“呈现视口”，客户端对来自不同相机的帧执行拼接和投影。允许文件格式(例如，ISOBMFF)通过指定每个相机的俯仰和偏航边界或指定相机的FoV和取向来使用指示相机视口的任意放置的语法。也就是说，ISOBMFF格式的数据可以包含元数据，其可以包含关于相机视口的任意放置的信息。

实施例B.3：没有拼接(单独的相机的输出，规则排列)

根据即时实施例，在捕捉设备(内容生成设备)中，没有拼接由每个相机捕捉的帧。来自每个相机的单独的视频序列被封装到轨道中。

与实施例B.2不同，实施例B.3的相机设备被设置为符合规则排列，如在正多面体的面上的投影之一，其中一个相机朝向正多面体的一个面。

图15是示出取决于捕捉360度图像的相机设备的形状的捕捉范围的示例的图。图15(a)示出示例四面体相机设备，图15(b)示出示例立方体形状的相机设备，而图15(c)示出示例十二面体相机设备。也即，该图描绘了相机设备对应于正四面体(四个相机)、正立方体(六个相机)和正十二面体(12个相机)的投影。

通过在文件格式(例如，ISOBMFF)中指定用于相机设备的正多面体，客户端可以知道精确的相机部署。也即，客户端可以知道相机的取向和产生VR内容的拼接方法。ISOBMFF格式的数据可以包含元数据，该元数据可以包含关于相机的部署和取向以及产生VR内容的拼接方法的信息。

还需要通过客户端用于呈现的文件格式指定相机的FoV。

使用架构B的属性，文件格式指示默认投影方法和“轨道视口”以使客户端(例如，HMD)精确地请求相关轨道/文件是至关重要的。

通常，架构B中的每个轨道的纵横比和分辨率不需要保持相等。例如，在用于在分割成不同轨道视口之前的二维投影的ERP的情况下，顶部和底部可以被拆分成比中心区域更大的矩形。或者，顶部和底部可以被拆分成具有比中心区域更低的分辨率。

以下建议的是适用于所有上述实施例的语法结构。

基于轨道的语法用于指定包含轨道的VR属性。

编码的帧可以是VR内容。编码的帧可以包括全部VR场景(例如，球形360度图像或投影)。或者，编码的帧可以仅包括全部VR场景的一部分。

可以使用SchemeType′vrvi′(VR视频框)。或者，可以使用其他唯一名称。

下表代表′vrvi′的定义。

【表1】

BoxType	′vrvi′
		Container	Scheme Information box(′schi′)
Mandatory	Yes(when the Schemetype is ′vrvi′)
		Quantity	One

VR视频框可以用于编码的帧以包括全部360度图像场景或仅包括球形场景的一部分。当方案类型为“vrvi”时，VR视频框可以存在。

下表代表'vrvi'的语法。

【表2】

在根据本公开的另一种方法中，可以通过相机参数获得FoV。例如，可以使用传感器尺寸和焦距通过普通光学设备获得FoV。

如上所述，指定视口的另一种方法是使用视点(或取向)和FoV。可以指定相机的取向(center_yaw，center_pitch)，并且可以通过语法的fov_yaw和fov_pitch来发信号通知FoV，或者可以通过相机参数(例如，传感器尺寸和焦距)来获得FoV。

pre_stitched是整数。如果pre_stitched为1，则在封装到一个或多个轨道之前预先拼接内容并将其投影到二维平面表面上。

如果pre_stitched为0，则不对内容进行拼接，并且来自每个相机的视频序列被单独封装。

entire_active_range指示要与所有相关轨道递送的视频一起呈现的内容的整个覆盖范围(几何表面)。根据entire_active_range的值，请参阅下表中的定义。

【表3】

Value	entire_active_range
		0x00	Reserved
0x01	360(H)x180(V)
		0x02	180(H)x180(V)
0x03	360(H)x100(V)
		0x04	Restricted view
0x05-0xFF	Other reserved ranges

hor_active_range表示内容在视图中受限制的内容的水平范围(度)(即，degree_range＝3)。

vert_active_range表示内容在视图中受限制的内容的垂直角度范围(度)(即，degree_range＝3)。

geometry_type表示指定用于呈现全方位媒体的几何形状。

【表4】

Value	geometry_type
		0x00	Reserved
0x01	Sphere
		0x02	Cylinder
0x03	Platonic Solid
		0x04	Quartz-based Projection(QZP)
0x05-0xFF	Reserved

platonic_projection_type表示用于呈现全方位媒体的正多面体的形状。

【表5】

Value	platonic_projection_type
		0x00	Reserved
0x01	Tetrahedron(4 surfaces)
		0x02	Cube(6 surfaces)
0x03	Octahedron(8 surfaces)
		0x04	Icosahedrons(20 surfaces)
0x05-0xFF	Reserved

scene_fraction是整数。如果scene_fraction为0，这指示内容包括全部VR场景。也即，每个帧包括全部场景。帧的场景范围，即每帧包括全部场景。导出帧的场景范围以满足：(yaw_left，yaw_right)＝(0，360)和(pitch_top，pitch_bot)＝(-90，90)。如果scene_fraction为1，则该帧负责场景的一部分。覆盖范围在下列语法中表示。

在没有拼接platonic_arranged内容(pre_stitched＝0)的情况下，语法指示是否特别放置了相机装备。当值为1时，这指示相机取向为面向正多面体的给定面的每个点。

在以下两种情况下发信号通知num_faces。

A.vr_projection_type指示投影在正多面体上。其值可以是4、8、12或20以代表投影方法。(6用于正立方投影)。

B.platonic_arranged表示通过沿正多面体布置的相机获得非拼接的相机内容。

在以下两种情况下发信号通知face_id。

A.当vr_scene_fraction＝1，并且vr_projection_type指示投影在正多面体上时，它表示根据正多面体的预定索引从包含的轨道开始的面。

B.platonic_arranged表示通过沿正多面体布置的相机获得非拼接的相机内容。该值表示相机的方向对应于正多面体的预定索引。

yaw_left、yaw_right、pitch_top和pitch_bot表示包括的轨道的视口。

fov_yaw和fov_pitch表示相机在水平和垂直方向上的FoV。在相机与正多面体的面对齐的情况下，确定方向，并且为了确定相机的视口，仅需要两个用于FoV的参数。

实施例1

在ERP中，用一个轨道覆盖全部场景的实施例中的语法如下。

【表6】

实施例2

图16是示出从球形图像投影的示例方法的图。

图16示出在ERP中用四个轨道覆盖每个场景的部分的实施例。

在图16中，区域1的语法如下。

【表7】

实施例3

在立方投影中，用一个轨道覆盖全部场景的实施例的语法如下。

【表8】

实施例4

图17是示出立方投影的示例方法的图。

在立方投影中，覆盖六个轨道中的“正面(front face)”(即，1f)的实施例的语法如下。

【表9】

实施例5

下表代表一个轨道覆盖正八面体中的全部场景的实施例的语法。

【表10】

实施例6

图18是示出正八面体投影的示例方法的图。

下表代表覆盖图18的正八面体的3号面的场景的实施例的语法。

【表11】

实施例7

下表代表覆盖对应于一个相机的面的实施例的语法，其中相机被任意地布置，如图14中提出的相机设备中那样。

【表12】

实施例8

下表代表覆盖鱼眼相机的正面的实施例的语法。

【表13】

实施例9

下表代表覆盖图15(b)的立方体投影中的正面的实施例的语法。

【表14】

实施例10

下表代表覆盖图15(a)的四面体投影中的特定面的实施例的语法。

【表15】

尽管以上结合附图描述了本发明的配置，但是这仅是示例，并且本领域普通技术人员可以在不脱离本发明的技术精神的情况下对其进行各种改变或修改。因此，本发明的范围不应限于上述实施例，而是由所附权利要求确定。

Claims

1.一种处理虚拟现实图像的方法，该方法包括：

选择视口；

发送与选择的视口相关的信息；

接收与和选择的视口重叠的虚拟现实(VR)内容相关的至少一个轨道；

从接收的至少一个轨道获得元数据；以及

基于接收的元数据和选择的视口，从接收的至少一个轨道呈现选择的视口。

2.如权利要求1所述的方法，其中，与视口相关的信息包括视点信息和视场(FoV)信息，其中视点信息包括与球坐标相关的中心偏航角和中心俯仰角，并且FoV信息包括偏航角的宽度和俯仰角的宽度。

3.如权利要求2所述的方法，其中，中心偏航角不小于-180度且不大于180度，俯仰角不小于-90度且不大于90度，偏航角的宽度不小于0度且不大于360度，以及俯仰角的宽度不小于0度且不大于180度。

4.如权利要求1所述的方法，其中，元数据包括指示如下中的至少一个的信息：至少一个轨道是否被拼接、至少一个轨道的全部覆盖范围、至少一个轨道是360度图像的整体还是部分、至少一个轨道的水平有效范围、至少一个轨道的垂直有效范围、至少一个轨道是否是通过柏拉图实体投影方法的一个轨道、正多面体的类型以及至少一个轨道的FoV信息。

5.如权利要求1所述的方法，其中，至少一个轨道包括VR虚拟现实内容的全部几何形状，并且其中，通过拼接捕捉的360度图像，将拼接的360度图像投影到二维平面表面并拆分投影的图像来生成至少一个轨道。

6.如权利要求5所述的方法，其中，通过等角投影(ERP)方法或柏拉图实体投影方法来生成至少一个轨道。

7.如权利要求1所述的方法，其中，元数据包括关于在一个或多个轨道与和视口重叠的至少一个轨道之间的依赖性的信息，并且其中，当元数据包括指示在一个或多个轨道与至少一个轨道之间的依赖性的信息时，该方法还包括接收所述一个或多个轨道。

8.如权利要求7所述的方法，还包括：

基于元数据拼接所述一个或多个轨道和至少一个轨道；

将拼接的多个轨道投影到二维平面表面上；以及

基于接收的元数据和选择的视口，从投影的轨道呈现选择的视口。

9.如权利要求1所述的方法，其中，所述至少一个轨道的数量是两个或更多个，其中，所述至少一个轨道彼此不重叠，其中，所述至少一个轨道之间具有依赖性，并且其中，所述方法还包括：

将所述至少一个轨道投影到二维平面表面上；以及

基于接收的元数据和选择的视口，从投影的至少一个轨道呈现选择的视口。

10.如权利要求1所述的方法，其中，通过柏拉图实体投影方法，所述至少一个轨道的数量是4、6、8、12和20中的任何一个，其中，所述至少一个轨道中的一个对应于柏拉图实体投影方法的一个面，其中，所述至少一个轨道彼此重叠，并且其中，所述方法还包括拼接重叠的部分并投影到二维平面表面上。

11.一种处理虚拟现实图像的装置，包括：

收发器；

存储器，被配置为存储虚拟现实图像处理模块；以及

控制器，与收发器和存储器连接以执行虚拟现实图像处理模块，其中，所述控制器被配置为：选择视口，发送与选择的视口相关的信息，接收与和选择的视口重叠的虚拟现实(VR)内容相关的至少一个轨道，从接收的至少一个轨道获得元数据，以及基于接收的元数据和选择的视口，从接收的至少一个轨道呈现选择的视口。

12.如权利要求11所述的装置，其中，所述控制器被配置为通过如权利要求2至10之一所述的方法来操作。