CN111418213A

CN111418213A - 用于沉浸式视频编解码的信令语法的方法以及装置

Info

Publication number: CN111418213A
Application number: CN201880050495.5A
Authority: CN
Inventors: 王鹏; 林鸿志; 林建良; 张胜凯
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2017-08-23
Filing date: 2018-08-17
Publication date: 2020-07-14
Anticipated expiration: 2038-08-17
Also published as: CN111418213B; TW201921950A; EP3656128A1; WO2019037656A1; EP3656128A4; TWI684359B

Abstract

根据本发明一个方法，在来源侧或编码器侧，决定与360°虚拟现实图像相关的所选择视埠。然后决定与所述所选择金字塔投影格式相关的一个或多个参数。根据本发明，将所述一个或多个参数的一个或多个语法元素包括于所述360°虚拟现实图像的已编码数据中。提供所述360°虚拟现实图像的所述已编码数据作为输出数据。在接收器侧或解码器侧，从所述360°虚拟现实图像的所述已编码数据中解析一个或多个参数的一个或多个语法元素。基于包括所述一个或多个参数的信息决定与所述360°虚拟现实图像相关的所选择金字塔投影格式。根据所选择视埠，恢复所述360°虚拟现实图像。

Description

用于沉浸式视频编解码的信令语法的方法以及装置

相关引用

本发明要求提交于2017年8月23日，号码为62/549,016的美国临时专利申请案的优先权，该美国临时专利申请案整体通过引用纳入其中。

技术领域

本发明涉及用于360°虚拟现实(VR)图像/序列的图像/视频处理或编解码，特别地，本发明涉及用于金字塔投影格式(pyramid projection format)中沉浸式视频编解码的语法信令。

背景技术

360°视频也称为沉浸式视频，是一种新兴技术，其可以提供“现场般的感受”。这种沉浸式的感受可以由用环绕式场景环绕用户来覆盖全景视野(panoramic view)实现，特别地，360°视场(field of view)。该“现场般的感受”可以由立体式渲染进一步提升。因此，全景视频正被广泛的用于虚拟现实(VR)应用中。

沉浸式视频涉及使用多个摄像机捕获场景来覆盖全景视野，例如，360°视场。沉浸式摄像机通常使用全景摄像机或者一组摄像机来捕获360°视场。典型地，两个或更多个摄像机用于沉浸式摄像机。所有摄像机必须同时地拍摄并且记录该场景的多个分离片段(也称为分离视角(perspectives))。此外，该组摄像机通常用于水平地捕获视图，而该等摄像机的其他布置也是可能的。

可以使用360°球面全景摄像机捕获360°虚拟现实图像或者多个图像来覆盖360°环绕的全部视场。使用传统的视频/图像处理装置难以处理或者存储三维(3D)球面图像，因此，通常使用3D至2D投影方法来将360°VR图像转换成二维(2D)格式。例如，等矩形投影(equirectangular projection，简称ERP)以及立方体球面投影(cubemap projection，简称CMP)都是常用的投影方法。因此，可以以等矩形投影的格式存储360°图像，等矩形投影将球体的整个表面映像到平面图像，纵轴是纬度以及横轴是经度。对于ERP投影，球体北极以及南极中的区域(也就是从单个点变成线)相比于赤道附近的区域被更剧烈地拉伸。而且，由于拉伸所引入的失真，特别是两极附近，预测编码工具通常不能做到好的预测，导致编解码效率的降低。

本发明中，公开了与新的投影格式有关的语法信令。

发明内容

本发明公开了一种处理360°虚拟现实图像的方法及装置。根据本发明一个方法，在来源侧或编码器侧，接收360°虚拟现实图像的输入数据。决定与所述360°虚拟现实图像相关的所选择视埠。决定与对应于所述所选择视埠的所选择金字塔投影格式相关的一个或多个参数，其中所述金字塔投影格式包括主要视埠面以及四个辅助视埠面。根据本发明，将所述一个或多个参数的一个或多个语法元素包括于所述360°虚拟现实图像的已编码数据中；以及提供所述360°虚拟现实图像的所述已编码数据作为输出数据。

在接收器侧或解码器侧，接收360°虚拟现实图像的已编码数据。从所述360°虚拟现实图像的所述已编码数据解析一个或多个参数的一个或多个语法元素。基于包括所述一个或多个参数的信息决定与所述360°虚拟现实图像相关的所选择金字塔投影格式，其中所述金字塔投影格式包括主要视埠面以及四个辅助视埠面；以及根据对应于所述所选择金字塔投影格式的所选择视埠，恢复所述360°虚拟现实图像。

在一个实施例中，所述一个或多个参数包括主要视埠中心的偏航、主要视埠面的俯仰、所述主要视埠面的宽度、所述主要视埠面的FOV(视场)角度、用于所述四个辅助视埠面的非均匀因子及其组合。在另一个实施例中，所述一个或多个参数包括填充类型、关于辅助视埠面中心位移是否被允许的位移指示符、水平面中心位移、垂直面中心位移及其组合。当所述位移指示符指示该辅助视埠面中心位移被允许时，所述水平面中心位移、所述垂直面中心位移或两者的一个或多个语法元素被包括于所述360°虚拟现实图像的所述已编码数据中。

附图说明

图1A示出了表示为金字塔的视埠(viewport)的示例。球体上的360VR视频内容被投影到内接的金字塔上，其包括一个顶点、一个矩形底面以及四个三角形侧面。

图1B示出了包括五个面的金字塔的示例，该五个面称为正面或主要面以及标记为R(右)、L(左)、T(顶)以及B(底)四个侧面。

图1C示出了紧凑的金字塔投影布局的示例，其中重新排列具有收缩高度的三角形投影面与正面一起形成紧凑的布局。

图1D示出了指数非均匀映射函数的示例。

图2示出了基于视埠的金字塔投影的示例，其中指示了视埠中心、偏航(也就是经度)θ的值以及俯仰(也就是纬度)

的值。

图3示出了具有(偏航，俯仰)＝(0，0)以及非均匀因子n＝2.5的提出的布局的视端口图像的示例。

图4示出了表示为封闭于球体中金字塔的视埠的示例，其中指示了相关的参数。

图5示出了两个填充类型(第一类型、第二类型)中非对称金字塔投影布局的示例，其中主视图以及辅助视图被水平地堆放。

图6示出了两种填充类型(第三类型、第四类型)中非对称金字塔投影布局的示例，其中主视图以及辅助视图被垂直地堆放。

图7示出了非对称金字塔投影布局的示例，其中顶点位置在水平以及垂直两个方向上偏离默认中心的偏移。

图8示出了根据本发明实施例的用于在来源侧或者编码器侧处理360°虚拟现实图像的系统的示例性流程图。

图9示出了根据本发明实施例的用于在接收侧或解码器侧处理360°虚拟现实图像的系统的示例性流程图。

具体实施方式

后续的描述是实施本发明的最佳实施方式。所做之描述是为了说明本发明的基本原理并且不应当对此做限制性理解。本发明的范围由参考所附权利要求最佳确定。

在JVET-E0058(2017年1月12-20日，瑞士日内瓦，ITU-T SG 16WP 3以及ISO/IECJTC 1/SC 29/WG 11的联合视频开发小组(JEVT)第5次会议，Peng Wang等人提出的“AHG 8:A viewport-based pyramid projection for VR360 video streaming”，文献：JVET-E0058)中已经公开了用于360VR视频流的基于视埠的金字塔投影格式。基于视埠的金字塔投影格式由两个区域组成：主区域(primary region)以及辅助区域(secondary region)。主区域保留由预定义的FOV所指定的高保真度的观看区域而辅助区域表示在主区域外的区域的下采样版本。换句话说，对于流媒体应用，基于视埠的投影格式的带宽可以显著地减少。视埠切换方案允许在不同的视埠中观看VR视频，这些视埠视频的这些主区域包括整个360°×180°区域。通常，每一视端口视频的主区域的中心由偏航角以及俯仰角指示，因此，根据使用者的观看角度，使用者可以接收包含观看区域的对应的视端口视频。

在图1A中，视埠被表示为金字塔以及球体上的360VR视频内容被投射到内接的金字塔上，其包括一个顶点、一个矩形底面以及4个三角形侧面。在图1A中示出的特定实施例中，金字塔的底面对应于正方形，如图1B所示，该金字塔包括五个面(也就是正方形的底面110以及四个三角形侧面)，其中底面110称为正面或主要面以及四个三角形侧面标记为R(右)、L(左)、T(顶)以及B(底)。如图1B所示，每一未折叠的侧面的高度称为H，主要面是主视埠面，其包括90°×90°区域。其他四个等腰三角形侧面称为辅助面。如图1C所示，重新排列具有收缩高度(标记为h)的这些三角形面与正面120一起形成非常紧凑的布局。此外，在紧凑布局中任意两个相连的面之间没有不连续边界，在图1C中，紧凑格式中具有收缩高度的四个辅助面被称为紧凑的辅助视图130。紧凑格式中的整个图像(也就是主视图120以及紧凑的辅助视图130)称为金字塔紧凑布局。

当将五个面填充到紧凑布局中时，四个三角形面的高度从H收缩到h，可以垂直地下采样多个三角形面来减少采样的数目。线性映射函数(linear mapping function)可以用于在垂直方向将H收缩到h。然而，为了保留主要投影面附近的更多细节，重新采样进程可以使用非均匀映射函数来生成主要投影面附近的对应的侧面投影面U/B/L/R的更密集的取样。如图1D所示，在非均匀映射函数是指数函数的情况下，非均匀映射函数可以通过使用下列等式来表示：

在上述等式中，n是正数且n≠1，Y是初始侧面投影面的垂直坐标，以及y’是垂直收缩的侧面投影面的垂直坐标。本发明中的参数n指非均匀因子。非均匀下采样进程可以实现接近于主区域的投影区域的图像质量的降级小于远离主区域的区域的图像质量的降级。

为了适应各种基于视埠的金字塔投影格式，需要发信与所选择金字塔投影格式相关的参数以致解码器可以适当地重构VR视频。因此，本发明公开了用于与所选择金字塔投影格式相关的参数的多个个语法元素。例如，所述多个语法元素可能包括下列语法元素的一个或多个：

signed int(16)main_viewpoint_center_yaw；

signed int(16)main_viewpoint_center_pitch；

unsigned int(16)main_viewpoint_face_width；

unsigned int(8)main_viewpoint_fov_angle；

unsigned int(32)non_uniform_factor；

在上述列表中，main_viewpoint_center_yaw指定偏航(也就是经度)θ的值，旋转方向是顺时针并且值的范围是[-180°,180°]。在上述列表中，main_viewpoint_center_pitch指定俯仰(也就是纬度)

的值，旋转方向是顺时针并且值的范围是[-90°,90°]。

图2示出了基于视点的金字塔投影的示例，其中视埠中心由黑点所指示，也指示了偏航(也就是经度)θ以及俯仰(也就是纬度)

的值。

图3示出了具有(偏航，俯仰)＝(0,0)以及非均匀因子n＝2.5的提出的布局的视端口图像的示例。在图3中，主要面的中心由白点所述指示，四个三角形面的边界由白线所指示。如图3所示，穿过边界的图像内容是连续的。main_viewpoint_face_width指定主视埠面的宽度以及高度的像素数量，在图3中指示了用于金字塔投影格式中示例性图像的main_viewpoint_face_width。

在图4中，如图式410所示，视埠表示为封闭于球体中金字塔。main_viewpoint_fov_angle指定角的度数，其定义了正方形主视图区域的视场(FOV)大小。d是球体中心与主视埠面之间的距离，穿过顶点以及一条线的金字塔的截面(cross section)将主视图拆分成两个相等大小的三角形示于图4中。主视埠面的宽度(w)以及金字塔的高度(h’)计算如下：

图4也示出了用于推导主视埠面的宽度(w)以及金字塔的高度(h’)的相关参数。在图4中，图式410示出了封闭于球体中具有主要面在前面的金字塔的透视图，其中指示了主要视埠图的宽度(w)。图式420表示了封闭于球体中金字塔的侧视图，其中指示了球体的半径(R)、金字塔的高度(h’)、球体的中心422、球体的中心与主视埠面之间的距离(d)以及视场(FOV)角度(θ)的值。图式430表示了封闭于球体中金字塔的三维视图，其中指示了球体的半径(R)、金字塔的高度(h’)、球体的中心422以及球体的中心与主视埠面之间的距离(d)。

在图1A-1C中，四个三角形侧面是对称地围绕着主要面的并具有相同的形状和尺寸。当将四个三角形侧面折叠成图1C中布局右侧的正方形中时，四个三角形侧面是对称的并且顶点连接于图1C中布局右侧的正方形的中心处。在本发明中，也公开了具有非对称侧面的金字塔投影布局。图5示出了两个填充类型(第一类型510，第二类型520)中非对称金字塔投影的示例，其中主视图以及辅助视图被水平地堆放。非对称金字塔投影布局的图像宽度以及高度分别称为W_a以及H_a。换句话说，非对称金字塔投影布局的分辨率是W_a×H_a，主要视图的分辨率是H_a×H_a。辅助视图的分辨率是(W_a-H_a)×H_a。顶点位置(512，522)是从辅助视图的默认中心(514,524)的偏移并且在图5中分别指示了水平偏移距离(516以及526)。此外，紧凑的布局中任意两个相连的面之间没有不连续边界。

图6示出了两个包装类型(第三类型610，第四类型620)中非对称金字塔投影布局的示例，其中垂直地堆放主视图以及辅助视图。非对称金字塔投影布局的图像宽度以及高度分别称为W_a以及H_a。换句话说，非对称金字塔投影布局的帧分辨率是W_a×H_a，主要视图的分辨率是W_a×W_a，辅助视图的分辨率是H_a×(W_a-H_a)。顶点位置(612,622)是从辅助视图的默认中心(614,624)的偏移以及在图6中分别指示了垂直偏移距离(616以及626)。此外，紧凑布局中任意两个相连的面之间没有不连续边界。

图7示出了非对称金字塔投影布局710的示例，其中水平地堆放主视图以及辅助视图(也就是第一类型)。顶点位置712在水平以及垂直方向上从默认中心(714)的偏移。图7中指示了从辅助视图默认中心的水平偏移距离(716)以及垂直偏移距离(718)。此外，紧凑布局中任意两个相连的面之间没有不连续边界。

为了支持非对称金字塔投影布局，本发明也公开了将在视频比特流中发信的额外的语法元素，以致解码器可以相应地恢复所选择非对称金字塔投影布局。

额外的语法元素包括：

packing_type；

disable_center_displacement；

center_displacement_x；

center_displacement_y；

如之前所提到的，如图5以及图6中所示出的，有四种类型的非对称金字塔投影布局。语法元素packing_type定义选择了四种类型的哪一个，语法元素disable_center_displacement定义了中心位移是否禁用，如果disable_center_displacement等于1，center_displacement_x以及center_displacement_y被推断为0；否则，使用语法元素center_displacement_x以及center_displacement_y(在像素单元中)发信中心位移。可以从辅助视图的默认中心以及偏移值决定非对称金字塔投影布局的顶点中心，根据如下方式可以决定用于四种类型的辅助视图的默认中心的x坐标x_c(从帧的左边界测量)以及y坐标y_c(从帧的上边界测量)：

类型1:x_c＝(W_a+H_a)/2,y_c＝H_a/2；

类型2:x_c＝(W_a-H_a)/2,y_c＝H_a/2；

类型3:x_c＝W_a/2,y_c＝(H_a-W_a)/2；

类型4:x_c＝W_a/2,y_c＝(H_a+W_a)/2.

当顶点在默认中心的右边时，center_displacement_x>0。当顶点在默认中心的左边时，center_displacement_x<0。当顶点在默认中心的上方时，center_displacement_y>0。当顶点在默认中心的下方时，center_displacement_y<0。当disable_center_displacement等于0时(也就是允许非对称投影格式)，用于四种类型的顶点的中心坐标计算如下：

类型1以及2:(x_c+center_displacement_x,y_c)；

类型3以及4:(x_c,y_c+center_displacement_y).

对于图7中的非对称金字塔投影布局，其中顶点位置(712)在水平以及垂直方向偏移默认中心(714)，disable_center_displacement等于0时(也就是允许非对称投影格式)，顶点的中心坐标计算如下：

(x_c+center_displacement_x,y_c+center_displacement_y)

图8示出了根据本发明实施例的用于在来源侧或编码器侧处理360°虚拟现实图像的系统的示例性流程图。在流程图中示出的步骤可以实施为在编码器侧的一个或多个处理器(例如，一个或多个CPU)上可执行的程序代码，在流程图中示出的步骤可以基于硬件实施，如一个或多个电子装置或处理器用于执行流程图中的步骤。根据这一方法，在步骤810中，接收360°虚拟现实图像的输入数据。在步骤820中，决定与所述360°虚拟现实图像相关的所选择视埠。在步骤830中，决定与对应于所述所选择视埠的所选择金字塔投影布局相关的一个或多个参数，其中所述金字塔投影布局包括主视埠面以及四个辅助视埠面。在步骤840中，将所述一个或多个参数的一个或多个语法元素包括于所述360°虚拟现实图像的已编码数据中。在步骤850中，提供所述360°虚拟现实图像的所述已编码数据作为输出数据。

图9示出了根据本发明实施例的用于在接收器侧或解码器侧处理360°虚拟现实图像的系统的示例性流程图。在步骤910中，接收360°虚拟现实图像的已编码数据。在步骤920中，从所述360°虚拟现实图像的所述已编码数据中解析一个或多个参数的一个或多个语法元素。在步骤930中，基于包括所述一个或多个参数的信息决定与所述360°虚拟现实图像相关的所选择金字塔投影格式，其中所述金字塔投影格式包括主视埠面以及四个辅助视埠面。在步骤940中，根据对应于所述所选择金字塔投影格式的所选择视埠，恢复所述360°虚拟现实图像。

上述示出的流程图旨在作为示例来说明本发明的实施例。本领域技术人员可以在不背离本发明精神的情况下，通过修改单个步骤、拆分或合并步骤来实施本发明。

上述所做的描述能够让本领域技术人员在特定应用以及其需求的上下文中实施本发明。对所描述的实施例的各种修正对本领域技术人员将是显而易见的，并且此处所定义的基本原理也可以应用于其他实施例。因此，本发明不旨在限于所示和所描述的特定实施例，而是符合与此处公开的与原理以及新颖特征一致的最宽范围。在上述细节描述中，所示出的各种特定细节是为了提供本发明的透彻理解，然而，本领域技术人员能够理解并实施本发明。

以上所描述的本发明的实施例可以以各种硬件、软件代码及其组合来实施。例如，本发明的实施例可以是集成到视频压缩芯片的一个或多个电子电路或者集成到视频压缩软件的程序代码来执行此处所描述的处理。本发明的实施例也可以是在数字信号处理器(DSP)上执行的程序代码来执行此处所描述的处理。本发明也涉及由计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(FPGA)执行的许多功能。这些处理器可以用于配置根据本发明的特定任务，通过执行定义由本发明实施的特定方法的机器可读软件代码或固件代码。软件代码或固件代码可以以不同的程序语言包以及不同的格式或风格开发，软件代码也可以编译用于不同的目标平台。然而，软件代码的不同的代码格式、风格以及语言以及配置代码来执行与本发明一致的任务的其他方法将不背离本发明的精神以及范围。

本发明可以以其他特定的形式实施而不背离其精神或基本特征。所描述的示例在所有方面仅被认为是说明性的而非限制性的。因此，本发明的范围由所附申请专利范围所指示而不是前述的描述。在权利要求等同物的含义与范围内的所有变化都包括于它们的范围内。

Claims

1.一种处理360°虚拟现实图像的方法，其特征在于，所述方法包括：

接收所述360°虚拟现实图像的输入数据；

决定与所述360°虚拟现实图像相关的所选择视埠；

决定与对应于所述所选择视埠的所选择金字塔投影格式相关的一个或多个参数，其中所述金字塔投影格式包括主视埠面以及四个辅助视埠面；

将所述一个或多个参数的一个或多个语法元素包括于所述360°虚拟现实图像的已编码数据中；以及

提供所述360°虚拟现实图像的所述已编码数据作为输出数据。

2.如权利要求1所述的处理360°虚拟现实图像的方法，其特征在于，其中所述一个或多个参数包括主视埠中心的偏航、主视埠中心的俯仰、所述主视埠面的宽度、所述主视埠面的FOV(视场)角度、用于所述四个辅助视埠面的非均匀因子或其组合。

3.如权利要求1所述的处理360°虚拟现实图像的方法，其特征在于，其中所述一个或多个参数包括包装类型、关于辅助视埠面中心位移是否被允许的位移指示符、水平面中心位移、垂直面位移或其组合。

4.如权利要求3所述的处理360°虚拟现实图像的方法，其特征在于，其中当所述位移指示符指示所述辅助视埠面中心位移被允许时，所述水平面中心位移、所述垂直面中心位移或其两者的一个或多个语法元素被包括于所述360°虚拟现实图像的所述已编码数据中。

5.一种处理360°虚拟现实图像的装置，其特征在于，所述装置包括一个或多个电子装置或处理器用于：

接收所述360°虚拟现实图像的输入数据；

决定与所述360°虚拟现实图像相关的所选择视埠；

6.如权利要求5所述的处理360°虚拟现实图像的装置，其特征在于，其中所述一个或多个参数包括主视埠中心的偏航、主视埠中心的俯仰、所述主视埠面的宽度、所述主视埠面的FOV(视场)角度、用于所述四个辅助视埠面的非均匀因子或其组合。

7.如权利要求5所述的处理360°虚拟现实图像的装置，其特征在于，其中所述一个或多个参数包括包装类型、关于辅助视埠面中心位移是否被允许的位移指示符、水平面中心位移、垂直面位移或其组合。

8.如权利要求7所述的处理360°虚拟现实图像的装置，其特征在于，其中当所述位移指示符指示所述辅助视埠面中心位移被允许时，所述水平面中心位移、所述垂直面中心位移或其两者的一个或多个语法元素被包括于所述360°虚拟现实图像的所述已编码数据中。

9.一种处理360°虚拟现实图像的方法，其特征在于，所述方法包括：

接收所述360°虚拟现实图像的已编码数据；

从所述360°虚拟现实图像的所述已编码数据解析一个或多个参数的一个或多个语法元素；

基于包括所述一个或多个参数的信息决定与所述360°虚拟现实图像相关的所选择金字塔投影格式，其中所述金字塔投影格式包括主视埠面以及四个辅助视埠面；以及

根据对应于所述所选择金字塔投影格式的所选择视埠，恢复所述360°虚拟现实图像。

10.如权利要求9所述的处理360°虚拟现实图像的方法，其特征在于，其中所述一个或多个参数包括主视埠中心的偏航、主视埠中心的俯仰、所述主视埠面的宽度、所述主视埠面的FOV(视场)角度、用于所述四个辅助视埠面的非均匀因子或其组合。

11.如权利要求9所述的处理360°虚拟现实图像的方法，其特征在于，其中所述一个或多个参数包括包装类型、关于辅助视埠面中心位移是否被允许的位移指示符、水平面中心位移、垂直面位移或其组合。

12.如权利要求11所述的处理360°虚拟现实图像的方法，其特征在于，其中当所述位移指示符指示所述辅助视埠面中心位移被允许时，所述水平面中心位移、所述垂直面中心位移或其两者的一个或多个语法元素被包括于所述360°虚拟现实图像的所述已编码数据中。

13.一种处理360°虚拟现实图像的装置，其特征在于，所述装置包括一个或多个电子装置或处理器用于：

接收所述360°虚拟现实图像的已编码数据；

14.如权利要求13所述的处理360°虚拟现实图像的装置，其特征在于，其中所述一个或多个参数包括主视埠中心的偏航、主视埠中心的俯仰、所述主视埠面的宽度、所述主视埠面的FOV(视场)角度、用于所述四个辅助视埠面的非均匀因子或其组合。

15.如权利要求13所述的处理360°虚拟现实图像的装置，其特征在于，其中所述一个或多个参数包括包装类型、关于辅助视埠面中心位移是否被允许的位移指示符、水平面中心位移、垂直面位移或其组合。

16.如权利要求15所述的处理360°虚拟现实图像的装置，其特征在于，其中当所述位移指示符指示所述辅助视埠面中心位移被允许时，所述水平面中心位移、所述垂直面中心位移或其两者的一个或多个语法元素被包括于所述360°虚拟现实图像的所述已编码数据中。