CN111247803A

CN111247803A - 立体全向帧打包

Info

Publication number: CN111247803A
Application number: CN201880068301.4A
Authority: CN
Inventors: F.拉卡普; F.加尔平; A.罗伯特
Original assignee: InterDigital VC Holdings Inc
Current assignee: InterDigital VC Holdings Inc
Priority date: 2017-10-20
Filing date: 2018-10-16
Publication date: 2020-06-05
Also published as: US20210195161A1; EP3474550A1; EP3698543A1; WO2019079268A1

Abstract

使得能够进行与诸如具有等矩形投影的立体全向视频的全向视频有关的视频编码和解码的方法和设备。对于场景的立体图像，将视频图像数据进行分割、重采样和布置，以使表示两个图像的部分都可以适合于帧。随帧发送消息，以描述重采样或布置信息。在至少一个实施例中，重采样是水平进行的。在至少一个实施例中，消息在补充增强信息消息内发送。对应的操作在解码器处逆转该过程，使得能够重新创建两个立体图像。

Description

立体全向帧打包

技术领域

以下描述的方面一般涉及视频压缩领域，并且尤其涉及全向视频领域。

背景技术

近来，可用的大视场内容(高达360°)已经有了增长。用户在诸如头戴式显示器(HMD)、智能眼镜、PC屏幕、平板电脑、智能手机等沉浸式显示设备上观看内容时，可能无法完全看到这样的内容。这意味着在给定时刻，用户可能仅在观看内容的一部分。然而，典型地，用户可以通过诸如头部移动、鼠标移动、触摸屏、语音等各种方式在内容内导航。典型地，期望对该内容进行编码和解码。

发明内容

通过所描述的实施例中的至少一个，解决了现有技术的这些和其他不足和缺点，这些实施例针对用于打包立体全向视频的方法和装置，其改善了这种内容在帧打包框架中的紧凑性(compacity)，该帧打包框架包括相同编码帧中的两个(左和右)视点。

在所描述的实施例中的至少一个中，考虑到全向内容的特殊性，在帧打包的上下文中重新定义立体帧的布置，从而提高了最终压缩效率。

在至少一个实施例中，提供了一种方法。该方法包括以下步骤：在对应的时间对表示场景的至少两个视图的视频图像部分进行重采样；布置至少两个视图的重采样部分，以使得所述布置的重采样部分适合于帧；对帧进行编码，所述帧包括指示所述布置和重采样操作中的至少一个的消息。

在至少另一实施例中，提供了一种方法。该方法包括以下步骤：从比特流对视频的帧进行解码，所述帧也包括消息；从所述解码的帧中提取至少两个视图的部分；对至少两个视图的所述提取的部分进行重采样；以及将所述重采样的提取的部分布置成表示至少两个视图的视频图像，其中，所述提取、重采样和布置中的至少一个基于所述消息。

在另一实施例中，提供了一种根据前述方法中的任一种的方法，其中，对表示两个视图的图像使用水平重采样。

在另一实施例中，提供了一种根据前述方法中的任一种的方法，其中，消息位于补充增强信息消息中。

在另一实施例中，提供了一种根据前述方法中的任一种的方法，其中，消息传达关于每个视图的每个图像被划分成的部分的数量以及水平重采样比率的信息。

在另一实施例中，提供了一种装置。该装置包括存储器和处理器。处理器被配置为执行前述方法实施例的任何变型，以进行编码或解码。

根据本文描述的另一方面，提供了一种非暂时性计算机可读存储介质，包含根据前述方法实施例中任一个的方法或由前述装置实施例中任一个的装置生成的数据内容，以用于使用处理器进行回放。

根据本文描述的另一方面，提供了一种信号，包括根据用于对视频数据块进行编码的前述方法实施例中的任一个的方法或由用于对视频数据块进行编码的上述装置实施例中的任一个的装置生成的视频数据，以用于使用处理器进行回放。

根据本文描述的另一方面，提供了一种包括指令的计算机程序产品，当由计算机运行程序时，该指令使计算机执行前述方法实施例中的任一个的方法。

通过以下结合附图对示例性实施例的详细描述，本原理的这些和其他方面、特征和优点将变得显而易见。

附图说明

图1图示了根据特定且非限制性实施例的用于对全向视频进行编码和解码的示例性系统，

图2-6图示了根据各种实施例的被配置为对沉浸式视频进行解码、处理和呈现的系统，

图7-9表示根据各种实施例的具有沉浸式墙的系统，该沉浸式墙被配置为对沉浸式视频进行解码、处理和呈现，以及

图10-12表示根据各种实施例的沉浸式视频呈现设备。

图13A和13B图示了从球面S到矩形图片F上的投影的示例，

图14A和14B图示了从立方表面S到六张图片上的投影以及在2D图片上投影的立方体的六个面的布局的示例，

图15A和图15B图示了表示全向视频的3D表面的投影图片F中的运动对象，以及在投影图片的块划分中的对应运动矢量。

图16A和16B图示了从帧坐标到呈现的帧以及从呈现的帧到编码的帧的映射。

图17图示了视频解码器的示例流程图实施例，可以将本文描述的一般方面应用于该视频解码器。

图18图示了可以将所描述的方面应用于其的编码器的示例。

图19图示了可以将所描述的方面应用于其的解码器的另一示例。

图20图示了使用四叉树分割将经典块细分(subdivision)为正方形编码树单元(CTB和CB)。

图21图示了等矩形映射，示出了强度变化，该强度变化描绘了顶部和底部的水平像素密度，水平密度是与赤道的垂直的角度的函数。

图22示出了经典的顶底帧打包布置。

图23示出了区块或图像部分的分布，其水平尺寸取决于等矩形帧中像素的分辨率。

图24示出了左视图和右视图的打包分布的示例。

图25示出了以单个编码的序列发送和接收两个视图的流程示意图的实施例。

图26示出了带有子采样区块的图像的示例。

图27示出了所提出的帧打包分布的示例。

图28示出了具有四个部分或区块的示例。

图29图示了根据所描述的方面的编码方法的一个实施例。

图30图示了根据所描述的方面的解码方法的一个实施例。

图31图示了根据所描述的方面的用于编码或解码的装置的一个实施例。

具体实施方式

通常将全向内容投影到给定的布局上，以便将要进行编码/解码的最终内容适合于便于由现有编解码器进行处理的矩形帧。取决于映射，可能会引入几何失真，这会损害压缩性能。特别地，在处理等矩形投影(ERP)映射时，运动矢量预测可能不适合。以下实施例也可以扩展到具有类似特性的其他映射。

将所描述的实施例中的至少一个用于适合于立体全向视频映射的帧打包中。对现有技术进行了一些改进。

大视场内容尤其可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。可以使用许多术语来设计这样的沉浸式视频，例如，诸如虚拟现实(VR)、360、全景、4π、球面弧度、沉浸式、全向、大视场。

沉浸式视频通常指代在矩形帧上编码的视频，该矩形帧是像“常规”视频的二维像素(即颜色信息的元素)阵列。在许多实施方式中，可以执行以下过程。要进行呈现，首先将帧映射到凸体积的内表面上，也称为映射表面(例如，球体、立方体、金字塔)，其次，该体积的一部分被虚拟相机捕获。由虚拟相机捕获的图像在沉浸式显示设备的屏幕上进行呈现。立体视频在一个或两个矩形帧上进行编码，并投影在两个映射表面上，该两个映射表面根据设备的特性进行组合，以由两个虚拟相机捕获。

可以根据帧中的映射函数对像素进行编码。映射函数可以取决于映射表面。对于同一映射表面，可能有几种映射函数。例如，立方体的面可以根据帧表面内的不同布局来构造。例如，可以根据等矩形投影或球形投影映射球体。由所选投影函数产生的像素组织会修改或破坏线的连续性、正交局部帧、像素密度，并引入时间和空间的周期性。这些是用于对视频进行编码和解码的典型特征。现有的编码和解码方法通常不考虑沉浸式视频的特殊性。实际上，由于沉浸式视频可以是360°视频，因此，平移会例如引入运动和不连续性，这些运动和不连续性需要大量的数据进行编码，而场景的内容不会发生变化。在对视频帧进行编码和解码时，考虑沉浸式视频的特殊性将为编码或解码方法带来宝贵的优势。

图1图示了根据特定且非限制性实施例的编码和解码系统的总体概述。图1的系统是功能系统。预处理模块110可以准备内容以供编码设备120编码。预处理模块110可以执行多图像获取，将所获取的多个图像合并在公共空间中(如果我们对方向进行编码，则通常是3D球体)，以及使用例如但不限于等矩形映射或立方体映射将3D球体将其映射到2D帧中。预处理模块110还可以接受具有特定格式(例如，等矩形)的全向视频作为输入，并且对该视频进行预处理以将映射变更为更适合于编码的格式。取决于所获取的视频数据表示，预处理模块110可以执行映射空间变更。

将参考说明书的其他附图来描述编码设备120和编码方法。在被编码之后，可以对例如沉浸式视频数据或3D CGI编码的数据进行编码的数据被发送到网络接口130，典型地，该网络接口130可以以例如网关中存在的任何网络接口中实现。然后，将数据通过诸如互联网的通信网络发送，但任何其他网络都是可以预见的。然后，经由网络接口140接收数据。网络接口140可以在网关、电视、机顶盒、头戴式显示设备、沉浸式(投影)墙或任何沉浸式视频呈现设备中实现。

在接收之后，将数据发送到解码设备150。解码功能是以下图2至12中描述的处理功能中的一个。解码的数据然后由播放器160处理。播放器160为呈现设备170准备数据，并且可以从传感器或用户输入数据接收外部数据。更精确地，播放器160准备将要由呈现设备170显示的视频内容的一部分。解码设备150和播放器160可以被集成在单个设备(例如，智能手机、游戏机、STB、板电脑、计算机等)中。在其他实施例中，播放器160可以被集成在呈现设备170中。

例如在呈现沉浸式视频时，可以设想几种类型的系统来执行沉浸式显示设备的解码、播放和呈现功能。

图2至图6中图示了用于处理增强现实、虚拟现实或增强虚拟内容的第一系统。这样的系统包括处理功能、沉浸式视频呈现设备，其可以是例如头戴式显示器(HMD)、平板电脑或智能手机，并且可以包括传感器。沉浸式视频呈现设备还可以包括在显示设备和处理功能之间的附加接口模块。处理功能可以由一个或几个设备执行。它们可以被集成到沉浸式视频呈现设备中，或者它们可以被集成到一个或几个处理设备中。处理设备包括一个或几个处理器以及与沉浸式视频呈现设备的通信接口，诸如无线或有线通信接口。

该处理设备还可以包括连接诸如互联网的宽带访问网络的第二通信接口，并可以直接或通过诸如家庭或本地网关的网络设备访问位于云上的内容。处理设备还可以通过第三接口(诸如以太网类型的本地访问网络接口)访问本地存储。在一个实施例中，处理设备可以是具有一个或几个处理单元的计算机系统。在另一实施例中，它可以是智能手机，其可以通过有线或无线链路连接到沉浸式视频呈现设备，或者可以插入到沉浸式视频呈现设备的壳体中，并通过连接器或无线地与之通信。处理设备的通信接口是有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或

接口)。

当由沉浸式视频呈现设备执行处理功能时，可以直接或通过网关向沉浸式视频呈现设备提供到网络的接口，以接收和/或发送内容。

在另一实施例中，系统包括辅助设备，该辅助设备与沉浸式视频呈现设备和处理设备进行通信。在这样的实施例中，该辅助设备可以包含处理功能中的至少一个。

沉浸式视频呈现设备可以包括一个或几个显示器。该设备可以在其每个显示器的前面采用诸如透镜的光学器件。像智能手机或平板电脑一样，显示器也可以是沉浸式显示设备的一部分。在另一实施例中，显示器和光学器件可以被嵌入在头盔、眼镜或用户可以佩戴的面甲中。沉浸式视频呈现设备还可以集成几个传感器，如稍后所述。沉浸式视频呈现设备还可以包括几个接口或连接器。它可能包括一个或几个无线模块，以便与传感器、处理功能、手持式或其他身体部位相关的设备或传感器进行通信。

沉浸式视频呈现设备还可以包括由一个或几个处理器运行并且被配置为解码内容或处理内容的处理功能。这里通过处理内容，可以理解所有功能以准备可以显示的内容。例如，这可以包括对内容进行解码，在显示内容之前合并内容以及修改内容以适合显示设备。

沉浸式内容呈现设备的一个功能是控制虚拟相机，该虚拟相机捕获被构造为虚拟体积的内容的至少部分。系统可以包括姿势跟踪传感器，该姿势跟踪传感器全部或部分地跟踪用户的姿势，例如，用户的头部的姿势，以便处理虚拟相机的姿势。一些定位传感器可以跟踪用户的位移。系统还可以包括与环境有关的其他传感器，例如以测量照明、温度或声音条件。这样的传感器还可以与用户的身体有关，例如以测量出汗或心率。通过这些传感器获取的信息可用于处理内容。系统还可以包括用户输入设备(例如，鼠标、键盘、遥控器、操纵杆)。来自用户输入设备的信息可用于处理内容，管理用户界面或控制虚拟相机的姿势。传感器和用户输入设备通过有线或无线通信接口与处理设备和/或与沉浸式呈现设备通信。

使用图2至图6，描述了用于显示增强现实、虚拟现实、增强虚拟或从增强现实到虚拟现实的任何内容的该第一类型系统的几个实施例。

图2图示了被配置为解码、处理和呈现沉浸式视频的系统的特定实施例。该系统包括沉浸式视频呈现设备10、传感器20、用户输入设备30、计算机40和网关50(可选)。

图10中图示的沉浸式视频呈现设备10包括显示器101。该显示器例如是OLED或LCD类型的。沉浸式视频呈现设备10例如是HMD、平板电脑或智能手机。设备10可以包括触摸表面102(例如，触摸板或触觉屏幕)、相机103、与至少一个处理器104连接的存储器105和至少一个通信接口106。该至少一个处理器104处理从传感器20接收的信号。

来自传感器的一些测量用于计算设备的姿势并控制虚拟相机。用于姿势估计的传感器例如是陀螺仪、加速度计或指南针。也可以使用例如使用相机组的更复杂的系统。在这种情况下，至少一个处理器执行图像处理以估计设备10的姿势。使用一些其他测量来根据环境条件或用户的反应来处理内容。用于观察环境和用户的传感器例如是麦克风、光传感器或接触传感器。也可以使用更复杂的系统，例如，跟踪用户的眼睛的视频摄像机。在这种情况下，至少一个处理器执行图像处理以操作预期的测量。也可以将来自传感器20和用户输入设备30的数据发送到计算机40，该计算机40将根据这些传感器的输入来处理数据。

存储器105包括处理器104的参数和代码程序指令。存储器105还可以包括从传感器20和用户输入设备30接收的参数。通信接口106使沉浸式视频呈现设备能够与计算机40通信。处理设备的通信接口106可以是有线接口(例如，总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或

接口)。

计算机40将数据和可选的控制命令发送到沉浸式视频呈现设备10。计算机40负责处理数据，即准备数据以供沉浸式视频呈现设备10显示。处理可以仅由计算机40完成，或者处理的一部分可以由计算机完成，而部分可以由沉浸式视频呈现设备10完成。计算机40直接或通过网关或网络接口50连接到互联网。计算机40从互联网接收表示沉浸式视频的数据，处理这些数据(例如，对其进行解码并且可能准备将要由沉浸式视频呈现设备10显示的视频内容的部分)并将处理后的数据发送到沉浸式视频呈现设备10以供显示。在另一实施例中，系统还可以包括本地存储(未示出)，其中存储有表示沉浸式视频的数据，所述本地存储可以在计算机40上或者在可以通过例如局域网访问的本地服务器上(未示出)。

图3表示第二实施例。在该实施例中，STB 90直接(即，STB 90包括网络接口)或经由网关50连接到诸如互联网的网络。STB 90通过无线接口或通过有线接口连接到呈现设备，诸如电视机100或沉浸式视频呈现设备200。除了STB的经典功能之外，STB 90还包括处理功能，以处理视频内容以供在电视机100或任何沉浸式视频呈现设备200上呈现。这些处理功能与针对计算机40描述的处理功能相同，在此不再赘述。传感器20和用户输入设备30也与先前关于图2描述的类型相同。STB 90从互联网获得表示沉浸式视频的数据。在另一实施例中，STB 90从存储有表示沉浸式视频的数据的本地存储(未示出)获得表示沉浸式视频的数据。

图4表示与在图2中所表示的实施例有关的第三实施例。游戏控制台60处理内容数据。游戏控制台60将数据和可选的控制命令发送到沉浸式视频呈现设备10。游戏控制台60被配置为处理表示沉浸式视频的数据，并且将处理后的数据发送到沉浸式视频呈现设备10以供显示。处理可以专门由游戏控制台60完成，或者部分处理可以由沉浸式视频呈现设备10完成。

游戏控制台60直接地或通过网关或网络接口50连接到互联网。游戏控制台60从互联网获得表示沉浸式视频的数据。在另一实施例中，游戏控制台60从存储有表示沉浸视频的数据的本地存储(未示出)获得表示沉浸式视频的数据，所述本地存储可以在游戏控制台60上或在可以通过例如局域网访问的本地服务器上(未示出)。

游戏控制台60从互联网接收表示沉浸式视频的数据，处理这些数据(例如，对其进行解码并可能准备将要显示的视频的部分)，并将处理后的数据发送到沉浸式视频呈现设备10以供显示。游戏控制台60可以从传感器20和用户输入设备30接收数据，并且可以使用它们来处理表示从互联网或从本地存储获得的沉浸式视频的数据。

图5表示所述第一类型系统的第四实施例，其中，沉浸式视频呈现设备70由插入壳体705中的智能手机701形成。智能手机701可以连接到互联网，并且因此可以从互联网获得表示沉浸式视频的数据。在另一实施例中，智能手机701从存储有表示沉浸视频的数据的本地存储(未示出)获得表示沉浸式视频的数据，所述本地存储可以在智能手机701上或在可以通过例如局域网访问的本地服务器上(未示出)。

参考图11描述了沉浸式视频呈现设备70，图11给出了沉浸式视频呈现设备70的优选实施例。它可选地包括至少一个网络接口702和智能手机701的壳体705。智能手机701包括智能手机和显示器的所有功能。智能手机的显示器用作沉浸式视频呈现设备70的显示器。因此，除了智能手机701的显示器之外，不包括显示器。然而，包括诸如透镜的光学器件704用于查看智能手机显示器上的数据。智能手机701被配置为可能根据从传感器20和从用户输入设备30接收的数据来处理(例如，解码和准备以供显示)表示沉浸式视频的数据。将来自传感器的一些测量用于计算设备的姿势并控制虚拟相机。用于姿势估计的传感器例如是陀螺仪、加速度计或指南针。也可以使用例如相机组的更复杂的系统。在这种情况下，至少一个处理器执行图像处理以估计设备10的姿势。使用其他一些测量来根据环境条件或用户的反应来处理内容。用于观察环境和用户的传感器例如是麦克风、光传感器或接触传感器。也可以使用更复杂的系统，例如，跟踪用户的眼睛的视频摄像机。在这种情况下，至少一个处理器执行图像处理以操作预期的测量。

图6表示所述第一类型系统的第五实施例，其中，沉浸式视频呈现设备80包括用于处理和显示数据内容的所有功能。系统包括沉浸式视频呈现设备80、传感器20和用户输入设备30。沉浸式视频呈现设备80被配置为可能根据从传感器20和从用户输入设备30接收的数据来处理(例如，解码和准备以供显示)表示沉浸式视频的数据。沉浸式视频呈现设备80可以连接到互联网，并且因此可以从互联网获得表示沉浸式视频的数据。在另一实施例中，沉浸式视频呈现设备80从存储有沉浸式视频的数据的本地存储(未示出)获得表示沉浸式视频的数据，所述本地存储可以在呈现设备80上或在可以通过例如局域网访问的本地服务器上(未示出)。

沉浸式视频呈现设备80在图12中图示。沉浸式视频呈现设备包括显示器801。显示器可以是例如OLED或LCD类型。设备80可以包括触摸表面(可选)802(例如，触摸板或触觉屏幕)、相机(可选)803、与至少一个处理器804连接的存储器805和至少一个通信接口806。存储器805包括处理器804的参数和代码程序指令。存储器805还可以包括从传感器20和用户输入设备30接收的参数。存储器也可以足够大以存储表示沉浸式视频内容的数据。为此，可以存在几种类型的存储器，并且存储器805可以是单个存储器，也可以是几种类型的存储(SD卡、硬盘、易失性或非易失性存储器...)。通信接口806使沉浸式视频呈现设备能够与互联网通信。处理器804处理表示视频的数据，以便在显示器801上显示它们。相机803捕获环境的图像以用于图像处理步骤。从该步骤中提取数据以便控制沉浸式视频呈现设备。

在图7至9中图示了用于处理增强现实、虚拟现实或增强虚拟内容的第二系统。这样的系统包括沉浸式墙。

图7表示第二类型的系统。它包括显示器1000，该显示器1000是从计算机4000接收数据的沉浸式(投射)墙。计算机4000可以从互联网接收沉浸式视频数据。计算机4000通常直接或通过网关5000或网络接口连接到互联网。在另一实施例中，计算机4000从存储有表示沉浸式视频的数据的本地存储(未示出)获得沉浸式视频数据，所述本地存储可以在计算机4000中或在可以通过例如局域网访问的本地服务器中(未示出)。

该系统还可以包括传感器2000和用户输入设备3000。沉浸式墙1000可以是OLED或LCD类型的。它可以配备一个或几个相机。沉浸式墙1000可以处理从传感器2000(或多个传感器2000)接收的数据。从传感器2000接收的数据可以与照明条件、温度、用户的环境例如对象的位置有关。

沉浸式墙1000还可以处理从用户输入设备3000接收的数据。用户输入设备3000发送诸如触觉信号的数据，以便给出关于用户情绪的反馈。用户输入设备3000的示例是诸如智能手机、遥控器的手持设备以及具有陀螺仪功能的设备。

也可以将传感器2000和用户输入设备3000的数据发送到计算机4000。计算机4000可以根据从这些传感器/用户输入设备接收的数据来处理视频数据(例如，对其进行解码并且准备它们以供显示)。传感器信号可以通过沉浸式墙的通信接口接收。该通信接口可以是蓝牙类型、WIFI类型或任何其他类型的连接，优选地为无线连接，但也可以是有线连接。

计算机4000将处理后的数据和可选的控制命令发送到沉浸式墙1000。计算机4000被配置为处理要由沉浸式墙1000显示的数据(即，准备数据以供显示)。可以专门由计算机4000完成处理，或者部分处理可以由计算机4000完成，部分可以由沉浸式墙1000完成。

图8表示第二类型的另一系统。它包括沉浸式(投影)墙6000，该沉浸式墙6000被配置为处理(例如，解码并准备数据以供显示)并显示视频内容。它还包括传感器2000、用户输入设备3000。

沉浸式墙6000通过网关5000从互联网或直接从互联网接收沉浸式视频数据。在另一实施例中，沉浸式视频数据由沉浸式墙6000从存储有表示沉浸式视频的数据的本地存储(未示出)获得，所述本地存储可以在沉浸式墙6000中，或在可以通过例如局域网访问的本地服务器中(未示出)。

该系统还可以包括传感器2000和用户输入设备3000。沉浸式墙6000可以是OLED或LCD类型的。它可以配备一个或几个相机。沉浸式墙6000可以处理从传感器2000(或多个传感器2000)接收的数据。从传感器2000接收的数据可以与照明条件、温度、用户的环境例如对象的位置有关。

沉浸式墙6000还可以处理从用户输入设备3000接收的数据。用户输入设备3000发送诸如触觉信号的数据，以便给出关于用户情绪的反馈。用户输入设备3000的示例是诸如智能手机、遥控器的手持设备和具有陀螺仪功能的设备。

沉浸式墙6000可以根据从这些传感器/用户输入设备接收的数据来处理视频数据(例如，对数据进行解码并且准备数据以供显示)。传感器信号可以通过沉浸式墙的通信接口接收。该通信接口可以是蓝牙类型、WIFI类型或任何其他类型的连接，优选地为无线连接，但也可以是有线连接。沉浸式墙6000可包括至少一个通信接口，以与传感器和与互联网通信。

图9图示了第三实施例，其中沉浸式墙用于游戏。一个或多个游戏控制台7000优选地通过无线接口连接到沉浸式墙6000。沉浸式墙6000通过网关5000从互联网或直接从互联网接收沉浸式视频数据。在另一实施例中，沉浸式视频数据由沉浸式墙6000从存储有表示沉浸式视频的数据的本地存储(未示出)获得，所述本地存储可以在沉浸式墙6000中或在可以通过例如局域网访问的本地服务器中(未示出)。

游戏控制台7000将指令和用户输入参数发送到沉浸式墙6000。沉浸式墙6000可能根据从传感器2000和用户输入设备3000以及游戏控制台7000接收的输入数据来处理沉浸式视频内容，以便准备内容以供显示。沉浸式墙6000还可包括内部存储器以存储要显示的内容。

在一个实施例中，我们认为全向视频以使得能够将周围的三维(3D)表面S投影到标准矩形帧F上的格式来表示，该标准矩形框F以适合于视频编解码器的格式来表示。可以使用各种投影将3D表面投影到二维(2D)表面。例如，图13A示出了使用等矩形投影(ERP)将示例性球体表面S映射至2D帧F，并且图13B示出了使用立方体映射将示例性立方体表面映射至2D帧。其他映射，诸如金字塔、二十面体或八面体映射，可用于将3D表面映射到2D帧中。这样的图像需要视频编解码器内部的一些新工具来考虑图像的几何特性。在待决的申请“用于VR的运动转换”中给出了这种工具的示例。对于这些新工具，需要标志来激活或不激活这些工具。这样，语法可能会变得太大，从而降低工具的性能。

另一个问题是这些工具中的一些可能需要额外的处理，并且希望在可能的情况下降低复杂度。当前，用信号通知用于视频的映射类型，而不描述特定工具的使用。例如，可以在每个编码单元中使用标志来激活或去激活工具。

可以使用现有的视频编码器对2D帧F进行编码，例如，符合Google的VP9、AOMedia的AV1、MPEG-2(ITU-T H.222/H.262)、H.264/AVC(MPEG-4第10部分，高级视频编码)或H.265/HEVC(MPEG-H第2部分，高效视频编码)的编码器。2D帧F还可以以适合于全向视频的属性的编码器进行编码，例如，使用自适应VP9、VP10、MPEG-2、H.264/AVC或H.265/HEVC编码器。在编码和解码之后，可以将解码后的2D帧映射回对应的3D表面，例如，对于等矩形映射是球体表面，或对于立方体映射是立方体表面。然后可以将3D表面投影到与用户视点相对应的“虚拟屏幕”上，以获得最终呈现的帧。可以将解码2D帧并从3D表面投影到呈现的帧的步骤合并为单个步骤，在此步骤中，将解码的帧的部分映射到呈现的帧上。

为了简化符号，我们可以将解码的2D帧也称为“F”，并且将在呈现中使用的3D表面也称为S。应当理解，将要编码的2D帧和要解码的2D帧称为可以由于视频压缩而不同，并且预处理中的3D表面和呈现中的3D表面也可以不同。术语“映射”和“投影”可以互换使用，术语“像素”和“样点”可以互换使用，术语“帧”和“图片”可以互换使用。

首先针对全向视频的典型布局(等矩形布局)描述了三维(3D)表面到矩形表面的映射的问题，但是一般原理适用于从3D表面S到矩形帧F的任何映射。相同的原理可以应用于例如立方体映射布局。

在图15A和15B中，我们显示了对象在场景中沿直线移动的示例，以及在帧中产生的视在运动，如虚线所示。在右侧示出了对于任意预测单元(PU)分割所得的运动矢量。可以注意到，即使在呈现的图像中运动是完全笔直的，要编码的帧也会显示非均匀运动矢量。

所描述的实施例的领域是360°全向内容的压缩，尤其是立体360°视频的打包。等矩形布局是当前最常用的映射中的一个，用于存储、压缩和处理360°捕获的场景。映射将场景的球形表示作为输入，并将其映射到矩形帧上，如图13A所示。

立体360°意味着从两个不同的视点产生两个全向视图，从而得到两个不同的等矩形帧。这些描述的实施例的部分旨在改善这种立体内容在帧打包框架中的紧致性，其包括相同编码帧中的两个视点。

例如，在HEVC标准中，帧打包是SEI(补充增强信息)消息，这意味着它是对左右视图打包方式的描述，但这些语义不影响编码/解码过程。换句话说，它对应于由比特流携带的用于显示目的的信息。在HEVC中，SEI消息包含布置的索引，用于指示视图是以并排压缩还是顶底压缩，或者甚是时域交织被打包。可以潜在地发送每个视图的左上角的坐标。在每个视图都占据整个帧表面一半的简单情况下，可以轻松推导它们。相对于所描述的实施例，它还包含标志upsampled_aspect_ratio_flag，该标志指示是否需要对视图进行升采样以进行显示，在并排布置的情况下为水平升采样，在顶底布置的情况下为垂直升采样。另外，语法允许显示器知道是否视图中的一个已被翻转。

表1示出了描述HEVC中的帧打包布置的示例性SEI消息。

表1：HEVC中的帧打包布置SEI消息语法

所述实施例处理的一个问题可表述如下。最近的视频压缩标准逐块处理视频的帧。编码器根据压缩效率和复杂度等标准选择块的尺寸。图20描绘了典型的HEVC标准的示例性分解，其中，按照四叉树结构，将每个64×64编码树块(CTB)分割为编码块(CB)。

在全向视频布局中，由于可以方便地将球体映射到连续的矩形帧，因此等矩形是最流行的布局。在下文中，将等矩形帧称为F，并将要显示的呈现的帧标记为G，如图16A所示。F中的给定点P映射在球体上的位置P'处，并且与呈现的帧中的点P”对应。呈现的帧是要在例如头戴式显示器中显示的矩形图像，以提供360°沉浸式体验。它的位置取决于用户正在看的地方。

然而，尽管分辨率应沿垂直轴变化以在呈现的帧中产生恒定的分辨率，因为该矩形中像素的密度是固定的，所以该映射在视频压缩方面存在一些缺点。图16A在左侧示出了与等矩形帧F的该关系，并将对应的密度示出为垂直位置的“纬度”的函数。在纬度0处，密度最高，并沿垂直轴减小。换句话说，呈现的帧中每个像素的宽度随距“赤道”(或y＝0)的距离而增加。

图21示出了等矩形映射。将呈现的帧投影G中每个像素的宽度示出为垂直位置的函数。在顶部，强度描绘了像素水平密度，其中深色阴影为较低的密度。在底部，水平密度作为到赤道的垂直角度的函数。

一旦被投影到呈现的帧上，现有的划分为编码单元的帧没有充分利用来自等矩形帧的实际像素密度的这种变化。对于帧打包选项也是如此，其中，两个等矩形图像当前将以并排或顶底方式打包。图22显示了顶底布置，没有任何翻转。

所描述的实施例提出了利用左侧图像和右侧图像两者中的密度变化来设计帧打包布置的解决方案。尽管在随后的示例实施例中在水平方向上示出了重采样，但是水平和/或垂直重采样都可以发生，其中重采样指的是升采样或降采样，或两者的某种比率。

编解码器逐块处理视频的帧，如图20所示。为了使解决方案与现有设计兼容，将视频垂直地逐块切割似乎是有意义的。图23示出了可能的分布，其中图像不再是“矩形”而是分割成“区块”(tile)，其水平尺寸取决于它们的垂直位置。应当注意，这里的“区块”一词表示共享相同采样的矩形区域，并且不应直接引用HEVC中的区块的定义，HEVC中的区块定义了编码的特定条件。

取决于区块的位置，对原始等矩形内容进行水平子采样。该过程允许减少要压缩的信号的表面，而不会显着丢失信息，因为重要的呈现的帧的质量不会受到太大影响，因为由于映射本身，分辨率已经很低。

然后必须组织该分布以填充矩形帧，以进行有效压缩。在帧打包的情况下，需要分发两组区块。图24给出了示例性分布，其中左视图为白色，右视图表示为几种灰色阴影。将左视图的区块移动到与左侧水平对齐的位置，将右视图的区块打包在右侧，以创建矩形帧。区块的右侧分布在中间被垂直分割，以用左视图创建整体矩形形状。

必须注意，图24中描绘的简单情况要求从中间到顶部和底部，不断逐区块缩小区块的宽度，以确保矩形打包的帧。此外，在HEVC的示例中，帧打包意味着对组成帧的采样。例如，对于并排布置，对组成帧进行降采样以占据要被编码的总帧的一半。在这种情况下，在所提出的方法中，逐区块采样替代了经典采样。然后考虑区块尺寸比率和使组成区块适合于最终帧尺寸(即其宽度)所需的缩放，来确定采样因子。重采样操作结合了升采样和降采样操作，其比率称为重采样比率。

所提出的方法的整体过程如图25的流程图所示。首先将两个视图都分割为区块，如图24的顶部所示。对每个区块根据其位置和为要被编码/解码的帧所考虑的最终重采样比率进行降采样。然后将区块打包以形成要被编码/解码的帧。编码器将帧打包SEI消息嵌入比特流中。在对帧进行解码之后，将SEI消息用于分离帧。提取区块并对其进行升采样以重建两个视图。

图26和图27图示了所提出的布置。图26示出了如何对每个组成帧进行信号重采样。可以通过由打包的帧的最终尺寸确定的最终比率来调制该重采样。图27显示了要编码的最终帧。

考虑以下实际示例，如图28中具有四个区块的示例所示。在等矩形映射下，立体全向帧的每个视图(左和右)具有4096x2028的分辨率。

1.每帧选择4个水平区块。由于密度图像对称，因此2个中心区块的大小相同，并且可以根据需要合并为1个区块。

2.每个区块的高度为h＝2048/4＝512像素。每个视图的中心区块的宽度保持为4096。将顶部和底部的区块缩小到宽度为：

w＝cos(45)*4096＝2896像素

3.创建高度为2048且宽度为4096+2896＝6992像素的打包的帧。

4.用因子为4096/6992的水平缩小尺寸来获得最终帧。

可以实施两个主要概念来实现这种分布。第一个是用于显示目的的帧打包描述，诸如HEVC中的补充增强信息(SEI)。第二个概念是压缩工具集，以适应引起的不连续性和采样变化。

帧打包描述是本说明书的一方面。考虑HEVC的示例性帧打包SEI语法，详见表1。frame_packing_arrangement_type指示帧是怎么布置的：

-值3对应于两个组成帧的对应平面的并排打包布置；

-值4对应于两个组成帧的对应平面的顶底打包布置；

-值5对应于视图的时域交织，使得按输出顺序的解码的帧的分量平面形成交替的第一和第二组成帧的时域交织。

因此，可以使用HEVC标准当前未使用的frame_packing_arrangement_type来启用所建议的布置，诸如frame_packing_arrangement_type＝＝6或大于6的值。即使可以将打包视为并排布置，也必须将其与经典打包区分开。

在以下实施例中，可以开发出几种处理分布描述的方式。

在第一实施例中，在区块的数量及其不同的水平采样被预设并固定的情况下，除了frame_packing_arrangement_type(＝6)之外，不需要其他语法。

在第二实施例中，使用如示例性表2中所示的frame_packing_arrangement_type和与该类型有关的专用语法元素。例如：

-nb_tiles_div2(例如u(4))：指定在中间水平线到顶部和底部之间垂直分割帧的区块数。使用帧尺寸来推导垂直方向上每个区块的CTU的数量。

-hor_ratio(例如u(7))：指定垂直方向上顶部或底部区块与中间区块的尺寸之间的最大比率。

由于中间区块的宽度和两极区块的宽度之和对应于打包的帧的总宽度，因此元素hor_ratio可以用几种方式表示。已经经由比特流中的高级语法知道了总尺寸，该信息可以是最小宽度和最大宽度之间的比率，也可以是两极区块的宽度。

例如，可以将其表示为CTU的数量，或者表示为两极区块和中间区块的水平CTU数量的比率，以确保SEI中的CTU粒度和较短的语法元素。

使用这些元素，图24示出了所提出的打包分布。右视图的灰度级描绘了应用于打包的帧的垂直顺序。由于中间的区块可以具有在中间区块和两极区块之间线性变化的宽度，因此可以检索图24。实际上，这种布置要求每行上的区块的尺寸之和等于打包的帧的尺寸。

表2：支持所提出的帧打包布置的示例性帧打包语法

现有语法使得能够描述哪个图像对应于左视图和右视图，以及其中的一个是否被水平翻转。

所描述的实施例允许在帧打包的上下文中对立体全向视图进行编码，即，对包含所有所需信息的一个矩形帧进行编码/解码。基于全向内容属性，将视图打包，以便改善压缩性能。

图29示出了根据所描述的方面的方法2900的一个实施例。该方法开始于开始框2901，并且控制进行到框2910，以在对应的时间对表示场景的至少两个视图的视频图像的部分进行重采样。控制从框2910进行到框2920，以布置至少两个视图的重采样部分，使得所布置的重采样部分适合于帧。控制然后从框2920进行到框2930，以对帧进行编码，该帧包括指示布置和重采样操作中的至少一个的消息。

图30示出了根据所描述的方面的方法3000的一个实施例。该方法开始于开始框3001，并且控制进行到框3010，以从比特流中解码视频的帧，还包括消息。控制从框3010进行到框3020，以从解码的帧中提取至少两个视图的部分。控制从框3020进行到框3030，以对至少两个视图的提取部分进行重采样。控制从框3030进行到框3040，以将重采样的提取部分布置为表示至少两个视图的视频图像，其中，提取、重采样和布置步骤中的至少一个是基于消息的。

图31示出了用于对视频数据的块进行编码或解码的装置3100的一个实施例。该装置包括处理器3110，其具有输入和输出端口，并且与也具有输入和输出端口的存储器3120处于信号连接中。该装置可以运行任何前述方法实施例或变型。

可以使用专用硬件以及能够运行与适当的软件相关联的软件的硬件来提供图中所示的各种元件的功能。当由处理器提供时，功能可以由单个专用处理器、单个共享处理器或由多个其中一些可以共享的单独的处理器提供。此外，术语“处理器”或“控制器”的明确使用不应解释为专门指能够执行软件的硬件，而是可以隐含包括但不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储器。

也可以包括其他常规和/或定制的硬件。类似地，图中所示的任何开关仅是概念上的。它们的功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑的交互、甚至手动来进行，其中具体技术可由实现者选择，如从上下文中更具体地理解的。

本说明书说明了本构思。因此，将理解，本领域技术人员将能够设计出尽管未在本文中明确描述或示出但体现了本构思并且包括在其范围内的各种布置。

本文叙述的所有示例和条件语言旨在用于教学目的，以帮助读者理解本发明的原理和发明人为进一步发展本领域贡献的概念，并且应被解释为不限于这种具体叙述的示例和条件。。

此外，本文中引用本原理的原理、方面和实施例及其特定示例的所有陈述旨在涵盖其结构和功能上的等同物。另外，这样的等同物应包括当前已知的等同物以及将来开发的等同物，即，所开发的执行相同功能的任何元件，而与结构无关。

因此，例如，本领域技术人员将认识到，本文呈现的框图表示体现本原理的说明性电路的概念图。类似地，将认识到，任何流程图、流程示意图，状态转变图、伪代码等表示各种过程，这些过程可以基本上在计算机可读介质中表示，并且因此由计算机或处理器运行，无论是否明确示出这样的计算机或处理器。

在本文的权利要求书中，表达为用于执行特定功能的部件的任何元件旨在涵盖执行该功能的任何方式，包括例如a)执行该功能的电路元件的组合，或b)任何形式的软件(因此，包括固件、微代码等)与适当的用于运行该软件的电路相结合以执行功能。这样的权利要求书所限定的本原理在于以下事实：由各种所述部件提供的功能以权利要求所要求的方式组合在一起。因此认为可以提供那些功能的任何部件都等同于本文所示的部件。

说明书中对本原理的“一个实施例”或“实施例”及其其他变型的引用意味着结合该实施例描述的特定特征、结构、特性等包括在本原理的至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”或“在实施例中”以及任何其他变型的出现不一定都指代相同的实施例。

总之，描述了使工具和操作能够进行与具有等矩形投影的立体全向视频有关的视频编码的方法和装置。这些技术提供了帧打包的方法，以使至少两个视图适合于帧。

Claims

1.一种方法，包括：

在对应的时间对表示场景的至少两个视图的视频图像的部分进行重采样；

布置所述至少两个视图的重采样部分，以使得所述布置的重采样部分适合于帧；

对所述帧进行编码，所述帧包括指示所述布置和重采样操作中的至少一个的消息。

2.一种方法，包括：

从比特流对视频的帧进行解码，所述帧也包括消息；

从所述解码的帧中提取至少两个视图的部分；

对所述至少两个视图的所述提取的部分进行重采样；以及

将所述重采样的提取的部分布置成表示所述至少两个视图的视频图像，其中，所述提取、重采样和布置中的至少一个基于所述消息。

3.一种用于对视频数据的至少部分进行编码的装置，包括：

存储器，以及

处理器，被配置为执行：

在对应时间对表示场景的至少两个视图的视频图像的部分进行重采样；

4.一种用于对视频数据的至少部分进行解码的装置，包括：

存储器，以及

处理器，被配置为执行：

从比特流对视频的帧进行解码，所述帧也包括消息；

从所述解码的帧中提取至少两个视图的部分；

对所述至少两个视图的所述提取的部分进行重采样；以及

5.根据权利要求1或2所述的方法，或者根据权利要求3或4所述的装置，其中，以由帧尺寸确定的比率来执行所述重采样。

6.根据权利要求1或2所述的方法，或者根据权利要求3或4所述的装置，其中，所述至少两个视图是立体全向帧的部分。

7.根据权利要求6所述的方法或装置，其中，从球体执行等矩形映射以获得所述至少两个视图。

8.根据权利要求1或2所述的方法，或者根据权利要求3或4所述的装置，其中，重采样是水平执行的。

9.根据权利要求1或2所述的方法，或者根据权利要求3或4所述的装置，其中，所述部分的数量是固定的。

10.根据权利要求1或2所述的方法，或者根据权利要求3或4所述的装置，其中，所述部分的重采样比率是固定的。

11.根据权利要求1或2所述的方法，或者根据权利要求3或4所述的装置，其中，所述消息位于视频比特流的高级语法元素中。

12.根据权利要求1或2所述的方法，或者根据权利要求3或4所述的装置，其中，所述布置能够通过并排、顶底或时域交织地打包所述至少两个视图的部分来执行。

13.一种非暂时性计算机可读介质，包含根据权利要求1和5至12中任一项所述的方法或由权利要求3和5至12中任一项所述的装置生成的数据内容，以用于使用处理器进行回放。

14.一种信号，包括根据权利要求1和5至12中任一项所述的方法或者由权利要求3和5至12中任一项所述的装置生成的视频数据，以用于使用处理器进行回放。

15.一种包括指令的计算机程序产品，所述指令在由计算机运行时，使所述计算机执行权利要求1、2和5至12中任一项所述的方法。