CN112153391A

CN112153391A - 视频编码的方法、装置、电子设备及存储介质

Info

Publication number: CN112153391A
Application number: CN202010588984.5A
Authority: CN
Inventors: 崔秉斗; 文格尔史蒂芬; 刘杉; 索达加伊拉吉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2019-06-28
Filing date: 2020-06-24
Publication date: 2020-12-29
Anticipated expiration: 2040-06-24
Also published as: CN115514972A; CN112153391B

Abstract

本申请实施例提供一种视频编码的方法、装置、电子设备及存储介质，所述方法包括：获取至少一个视觉三维场景的体积数据；将体积数据转换为点云数据；将点云数据投影到二维图像上；对投影到二维图像上的点云数据进行编码；以及组成媒体文件，所述媒体文件封装了元数据和已编码的点云数据，所述元数据指示六自由度媒体。

Description

视频编码的方法、装置、电子设备及存储介质

交叉引用

本申请要求于2019年6月28日在美国专利和商标局提交的第US62/868,797 号临时申请以及2020年6月23日在美国专利和商标局提交的第16/909,314号美国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及一组高级视频编码技术，包括点云数据的观察位置(View-position)和角度相关处理(Angle dependent processing)的改进方案。

背景技术

在不允许针对其他维度的有效流式传输的情况下，虚拟现实的流式传输，例如图像和音频的流式传输，会将用户的观看体验限制为一种全景图像的体验，全景图像的体验允许该用户在x轴、y轴、z轴环境下从不同角度观看图像的不同部分，该全景图像类似于三维图像，而所述其他维度可以使用户除了在这些位置中的至少一个位置处的不同角度观看之外，还可以从前/后、上/下和左/右的不同的观察位置来体验这种虚拟现实。

因此，现有技术中除了x轴、y轴、z轴环境下的不同角度的流式传输外，不允许其他维度的有效流式传输，也即用户无法从前/后、上/下和左/右的不同的观察位置来体验这种虚拟现实，而用户从多个维度体验虚拟现实会造成全景视频和/ 或图像数据量增大，进而造成全景视频系统的处理效率低下，针对此类问题亟需对应的技术方案来解决。

发明内容

本申请实施例包括一种视频编码的方法、装置、电子设备及存储介质。

本申请实施例提供的视频编码的方法，包括：获取至少一个视觉三维3D场景的体积数据；将所述体积数据转换为点云数据；将所述点云数据投影到二维2D图像上；对投影到所述2D图像上的所述点云数据进行编码；以及组成媒体文件，所述媒体文件封装了元数据和已编码的所述点云数据，所述元数据指示六自由度 6DoF媒体。

本申请实施例提供的视频编码的装置，包括：

选择模块，用于获取至少一个视觉三维3D场景的体积数据；

转换模块，用于将所述体积数据转换为点云数据；

投影模块，用于将所述点云数据投影到二维2D图像上；

编码模块，用于对投影到所述2D图像上的所述点云数据进行编码；以及

组成模块，用于组成媒体文件，所述媒体文件封装了元数据和编码的所述点云数据，所述元数据指示六自由度6DoF媒体。

本申请实施例还提供一种非易失性计算机可读存储介质，所述存储介质存储有多条指令，可以使至少一个处理器执行本申请实施例所述的方法。

本申请实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例所述的方法。

通过本申请实施例的技术方案，可以对点云数据的特定部分而进行更有效的处理，使得播放器可聚焦于点云数据中比其它部分更高质量的图像，而不传送未被使用的部分，进而提高全景视频系统的效率。

附图说明

根据以下具体实施方式和附图，所公开的主题的其他的特征、性质和各种优点将更加显而易见，其中：

图1是根据本公开的实施例的通信系统的简化框图；

图2是本公开的实施例的视频编码器和视频解码器在流式传输环境中的放置方式的示例；

图3是根据本申请公开的实施例的视频解码器的功能框图；

图4是根据本申请公开的实施例的视频编码器的框图；

图5是根据本申请公开的实施例的在HEVC和JEM中使用的帧内预测模式；

图6是根据本申请公开的实施例的帧内方向模式的N个参考层级；

图7是根据本申请公开的实施例的一个4×4块内的(0，0)和(1，0)位置的DC模式PDPC权重的图示；

图8是根据本申请公开的实施例的局部亮度补偿的图示；

图9A是根据本申请公开的实施例的HEVC中使用的帧内预测模式；

图9B是根据本申请公开的实施例的VVC中的87个帧内预测模式的示例；

图10是根据本申请公开的实施例的全景媒体应用格式的示例性的窗口相关处理的简化框图式的工作流程图；

图11A是根据本申请公开的实施例的视频编码的方法的流程图；

图11B是根据本申请公开的实施例的观察位置和角度相关处理的已编码的点云数据的简化框式内容流程图；

图12是根据本申请公开的实施例的计算机系统的框图。

具体实施方式

以下讨论的本申请实施例提出的特征可被单独地使用或以任何顺序组合使用。进一步地，可通过处理电路(例如，至少一个处理器或者至少一个集成电路)来实现实施例。在一个实施例中，至少一个处理器执行存储在非易失性计算机可读介质中的程序。

图1示出了根据本公开的实施例的通信系统100的简化框图。通信系统100可包括通过网络105互连的至少两个终端102和103。对于数据的单向传输，第一终端103在本地位置处对视频数据进行编码，以通过网络105传输到另一个终端102。第二终端102从网络105接收另一个终端的已编码视频数据，对已编码数据进行解码并显示恢复的视频数据。单向数据传输在媒体服务应用等中是较为常见的。

图1还示出了执行已编码视频数据的双向传输的第二对终端装置，第三终端(101)和第四终端(104)，所述双向传输可例如在视频会议期间发生。对于双向数据传输，第三终端(101)和第四终端(104)中的每个终端可对在本地位置采集的视频数据(例如由终端装置采集的视频图片流)进行编码，以通过网络(105) 传输到其他终端。第三终端(101)和第四终端(104)中的每个终端还可接收由其他终端传输的已编码视频数据，且可对所述已编码视频数据进行解码，且可在本地显示装置上显示恢复的视频数据。

在图1的实施例中，第一终端(103)、第二终端(102)、第三终端(101) 和第四终端(104)可为服务器、个人计算机和智能电话，但本申请公开的原理可不限于此。本申请公开的实施例适用于膝上型计算机、平板电脑、媒体播放器和/ 或专用视频会议设备。网络(105)表示在第一终端(103)、第二终端(102)、第三终端(101)和第四终端(104)之间传送已编码视频数据的任何数目的网络，包括例如有线(连线的)和/或无线通信网络。通信网络(105)可在电路交换和/ 或分组交换信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的，除非在下文中有所解释，否则网络(105)的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

作为实施例，图2示出视频编码器和视频解码器在流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它支持视频的应用，包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。

流式传输系统可包括采集子系统(203)，所述采集子系统可包括数码相机等视频源(201)，所述视频源创建例如未压缩的视频样本流(213)。相较于已编码的比特流，将该视频样本流(213)强调为高数据量，视频样本流(213)并且可由耦合到照相机201的编码器202处理。视频编码器(202)可包括硬件、软件或其组合，以实现或实施如下文更详细地描述的所公开主题的各方面。已编码视频比特流204可被存储在流式传送服务器205上以供将来使用，已编码视频比特流204 相较于视频样本流，可以被强调为较低数据量。至少一个流式传输客户端212和 207，可访问流式传输服务器(305)以检索已编码的视频比特流(204)的副本(208) 和副本(206)。客户端(212)可包括视频解码器(211)，该视频解码器(211) 对已编码视频比特流208的传入副本进行解码，且产生可在显示器(209)或其他呈现装置(未描绘)上呈现的输出视频样本流(210)。可根据某些视频编码/压缩标准对视频比特流204、206和208进行编码。这些标准的示例如上所述，并在本文被进一步描述。

图3是根据本申请公开的实施例的视频解码器(300)的功能框图。

接收器(302)可接收将由视频解码器(300)解码的一个或至少两个编解码视频序列；在同一实施例或另一实施例中，一次接收一个已编码视频序列，其中每个已编码视频序列的解码独立于其它已编码视频序列。可从信道(301)接收已编码视频序列，所述信道可以是通向存储已编码的视频数据的存储装置的硬件/软件链路。接收器(302)可接收已编码的视频数据以及其它数据，例如，可转发到它们各自的使用实体(未标示)的已编码音频数据和/或辅助数据流。接收器(302) 可将已编码视频序列与其它数据分开。为了防止网络抖动，缓冲存储器(303)可耦接在接收器(302)与熵解码器/解析器(304)(此后称为“解析器”)之间。而当接收器(302)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时，也可能不需要配置缓冲存储器(303)，或可以将所述缓冲存储器做得较小。当然，为了在互联网等业务分组网络上使用，也可能需要缓冲存储器(303)，所述缓冲存储器可相对较大且可具有自适应性大小。

视频解码器(300)可包括解析器(304)以根据熵编码的视频序列重建符号(313)。这些符号的类别包括用于管理视频解码器(300)的操作的信息，以及用以控制显示装置(例如，显示屏312)等显示装置的潜在信息，所述显示装置不是解码器(430) 的组成部分，但可耦接到解码器上。用于显示装置的控制信息可以是辅助增强信息(SupplementalEnhancement Information，SEI消息)或视频可用性信息(Video Usability Information，VUI)的参数集片段(未标示)。解析器(304)可对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可根据视频编码技术或标准进行，且可遵循本领域技术人员周知的原理，包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等等。解析器(304) 可基于对应于群组的至少一个参数，从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图片群组(Group of Pictures，GOP)、图片、图块、切片、宏块、编码单元(Coding Unit，CU)、块、变换单元(Transform Unit，TU)、预测单元(Prediction Unit，PU)等等。熵解码器/解析器还可从已编码视频序列提取信息，例如变换系数、量化器参数值、运动矢量等等。

解析器304可对从缓冲器303接收的视频序列执行熵解码/解析操作，以便创建符号313。解析器304可接收已编码数据，并选择性地对特定符号313进行解码。进一步地，解析器304可确定是否将特定符号313提供给运动补偿预测单元306、缩放器/逆变换单元305、帧内预测单元307或环路滤波器311。

取决于已编码视频图片或一部分已编码视频图片(例如：帧间图片和帧内图片、帧间块和帧内块)的类型以及其它因素，符号(313)的重建可涉及至少两个不同单元。涉及哪些单元以及涉及方式可由解析器(304)从已编码视频序列解析的子群控制信息控制。为了简洁起见，未描述解析器(304)与下文的至少两个单元之间的此类子群控制信息流。

除已经提及的功能块以外，视频解码器(300)可在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施例中，这些单元中的许多单元彼此紧密交互并且可以彼此集成。然而，出于描述所公开主题的目的，概念上细分成下文的功能单元是适当的。

第一单元是缩放器/逆变换单元(305)。缩放器/逆变换单元(305)从解析器 (304)接收作为符号(313)的量化变换系数以及控制信息，包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(304)可输出包括样本值的块，所述样本值可输入到聚合器(310)中。

在一些情况下，缩放器/逆变换单元(305)的输出样本可属于帧内编码块；即：不使用来自先前重建的图片的预测性信息，但可使用来自当前图片的先前重建部分的预测性信息的块。此类预测性信息可由帧内图片预测单元(307)提供。在一些情况下，帧内图片预测单元(307)采用从(部分重建的)当前图片309提取的已重建信息生成大小和形状与正在重建的块相同的周围块。在一些情况下，聚合器(310)基于每个样本，将帧内预测单元(307)生成的预测信息添加到由缩放器 /逆变换单元(305)提供的输出样本信息中。

在其它情况下，缩放器/逆变换单元(305)的输出样本可属于帧间编码和潜在运动补偿块。在此情况下，运动补偿预测单元(306)可访问参考图片存储器(308) 以提取用于预测的样本。在根据符号(313)对提取的样本进行运动补偿之后，这些样本可由聚合器(310)添加到缩放器/逆变换单元(305)的输出(在这种情况下被称作残差样本或残差信号)，从而生成输出样本信息。运动补偿预测单元(306) 从参考图片存储器内的地址获取预测样本可受到运动矢量控制，且所述运动矢量以所述符号(313)的形式而供运动补偿预测单元(306)使用，所述符号(313) 例如是包括X、Y和参考图片分量。运动补偿还可包括在使用子样本精确运动矢量时，从参考图片存储器提取的样本值的内插、运动矢量预测机制等等。

聚合器(310)的输出样本可在环路滤波器单元(311)中被各种环路滤波技术采用。视频压缩技术可包括环路内滤波器技术，所述环路内滤波器技术受控于包括在已编码视频比特流中的参数，且所述参数作为来自解析器(304)的符号(313) 可用于环路滤波器单元(311)。然而，在其他实施例中，视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获得的元信息，以及响应于先前重建且经过环路滤波的样本值。

环路滤波器单元(311)的输出可以是样本流，所述样本流可输出到显示装置(312)以及存储在参考图片存储器(557)，以用于后续的帧间图片预测。

一旦完全重建，某些已编码图片就可用作参考图片以用于将来预测。一旦已编码图片被完全重建，且已编码图片(通过例如解析器(304))被识别为参考图片，则当前图片缓冲器(309)可变为参考图片缓冲器(308)的一部分，且可在开始重建后续已编码图片之前重新分配新的当前图片存储器。

视频解码器(300)可根据例如ITU-T H.265标准中的记录的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术文档或标准(尤其是其中的配置文件)规定的视频压缩技术或标准的语法的意义上，已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。对于合规性，还要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下，层级限制最大图片大小、最大帧率、最大重建取样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下，由层级设定的限制可通过假想参考解码器(Hypothetical Reference Decoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

在实施例中，接收器(302)可连同已编码视频一起接收附加(冗余)数据。所述附加数据可以是已编码视频序列的一部分。所述附加数据可由视频解码器(300) 用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图4是根据本申请公开的实施例的视频编码器(400)的框图。

视频编码器(400)可从视频源(401)(并非编码器的一部分)接收视频样本，所述视频源可采集将由视频编码器(400)编码的视频图像。

视频源(401)可提供将由视频编码器(303)编码的呈数字视频样本流形式的源视频序列，所述数字视频样本流可具有任何合适位深度(例如：8位、10位、12 位……)、任何色彩空间(例如BT.601Y CrCB、RGB……)和任何合适取样结构 (例如Y CrCb 4:2:0、Y CrCb4:4:4)。在媒体服务系统中，视频源(401)可以是存储先前已准备的视频的存储装置。在视频会议系统中，视频源(401)可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为至少两个单独的图片，当按顺序观看时，这些图片被赋予运动。图片自身可构建为空间像素阵列，其中取决于所用的取样结构、色彩空间等，每个像素可包括一个或至少两个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。

根据实施例，视频编码器(400)可实时或在由应用所要求的任何其它时间约束下，将源视频序列的图片编码且压缩成已编码视频序列(410)。施行适当的编码速度是控制器(402)的一个功能。在一些实施例中，控制器(402)控制如下文所描述的其它功能单元且在功能上耦接到这些单元。为了简洁起见，图中未标示耦接。由控制器(402)设置的参数可包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、图片群组(group of pictures，GOP)布局，最大运动矢量搜索范围等。本领域技术人员可以识别出控制器(402)的其它合适的功能，这些功能涉及针对某一系统设计优化的视频编码器(400)。

一些视频编码器在本领域技术人员容易识别的编码环路中进行操作。作为简单的描述，编码环路由编码器(402)的编码部分(以下称为源编码器530)(负责基于待编码的输入图片和参考图片创建符号)和嵌入于视频编码器中的(本地) 解码器(406)。解码器(406)以(远程)解码器创建样本数据的方式重建符号以创建样本数据(因为在本申请所考虑的视频压缩技术中，符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流输入到参考图片存储器(405)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果，因此参考图片存储器中的内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说，编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)对本领域技术人员来说是周知的。

“本地”解码器(406)的操作可与例如已在上文结合图3详细描述的“远程” 解码器相同。然而，另外简要参考图4，当符号可用且熵编码器(408)和解析器 (304)能够无损地将符号编码/解码为已编码视频序列时，包括信道(301)、缓冲器(303)和解析器(304)在内的视频解码器(300)的熵解码部分，可能无法完全在本地解码器(406)中实施。

此时可以观察到，除存在于解码器中的解析/熵解码之外的任何解码器技术，也必定以基本上相同的功能形式存在于对应的编码器中。可简化编码器技术的描述，因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述，并且在下文提供。

作为操作的一部分，源编码器(403)可执行运动补偿预测编码。参考来自视频序列中被指定为“参考帧”的一个或至少两个先前已编码帧，所述运动补偿预测编码对输入帧进行预测性编码。以此方式，编码引擎(407)对输入帧的像素块与参考帧的像素块之间的差异进行编码，所述参考帧可被选作所述输入帧的预测参考。

本地视频解码器(406)可基于源编码器(403)创建的符号，对可指定为参考帧的帧的已编码视频数据进行解码。编码引擎(407)的操作可为有损过程。当已编码视频数据可在视频解码器(图4中未示)处被解码时，重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(406)复制解码过程，所述解码过程可由视频解码器对参考帧执行，且可使重建的参考帧存储在参考图片高速缓存(405)中。以此方式，视频编码器(400)可在本地存储重建的参考帧的副本，所述副本与将由远端视频解码器获得的重建参考帧具有共同内容(不存在传输误差)。

预测器(404)可针对编码引擎(407)执行预测搜索。即，对于将要编码的新图片，预测器(404)可在参考图片存储器(405)中搜索可作为所述新帧的适当预测参考的样本数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器(404)可基于样本块逐像素块操作，以找到合适的预测参考。在一些情况下，根据预测器(404)获得的搜索结果，可确定输入图片可具有从参考图片存储器(405)中存储的至少两个参考图片取得的预测参考。

控制器(402)可管理编码器(403)的编码操作，包括例如设置用于对视频数据进行编码的参数和子群参数。

可在熵编码器(408)中对所有上述功能单元的输出进行熵编码。熵编码器根据本领域技术人员周知的技术，例如霍夫曼编码、可变长度编码、算术编码等，对各种功能单元生成的符号进行无损压缩，从而将所述符号转换成已编码视频序列。

传输器(409)可缓冲由熵编码器(408)创建的已编码视频序列，从而为通过通信信道(411)进行传输做准备，所述通信信道可以是通向将存储已编码的视频数据的存储装置的硬件/软件链路。传输器(409)可将来自视频编码器(403)的已编码视频数据与要传输的其它数据合并，所述其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。

控制器(402)可管理视频编码器(400)的操作。在编码期间，控制器(405) 可以为每个已编码图片分配某一已编码图片类型，但这可能影响可应用于相应的图片的编码技术。例如，通常可将图片分配为以下任一种帧类型：

帧内图片(I图片)，其可以是不将序列中的任何其它帧用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片，包括例如独立解码器刷新(Independent Decoder Refresh，“IDR”)图片。所属领域的技术人员了解I图片的变体及其相应的应用和特征。

预测性图片(P图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。

双向预测性图片(B图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地，至少两个预测性图片可使用多于两个参考图片和相关联元数据以用于重建单个块。

源图片通常可在空间上细分成至少两个样本块(例如，4×4、8×8、4×8或 16×16个样本的块)，且逐块进行编码。这些块可参考其它(已编码)块进行预测编码，根据应用于块的相应图片的编码分配来确定所述其它块。举例来说，I图片的块可进行非预测编码，或所述块可参考同一图片的已经编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可参考一个先前编码的参考图片通过空间预测或通过时域预测进行非预测编码。B图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时域预测进行非预测编码。

视频编码器(400)可根据例如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器(400)可执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，已编码视频数据可符合所用视频编码技术或标准指定的语法。

在实施例中，传输器(409)可在传输已编码的视频时传输附加数据。源编码器(403)可将此类数据作为已编码视频序列的一部分。附加数据可包括时间/空间 /SNR增强层、冗余图片和切片等其它形式的冗余数据、SEI(Supplementary EnhancementInformation)消息、VUI(Visual Usability Information)参数集片段等。

图5示出了在HEVC和JEM中使用的帧内预测模式。为了采集在自然视频中呈现的任意边缘方向，将定向帧内模式(Directional intra mode)的数量从HEVC 中使用的33扩展到65。在HEVC顶部的JEM中的额外定向模式在图5中被描绘为虚线箭头，并且平面模式和DC模式保持相同。这些更密集的定向帧内预测模式适用于所有的块尺寸，并且适用于亮度和色度帧内预测。如图5所示，与奇数帧内预测模式索引关联的、由虚线箭头标识的定向帧内预测模式被称为奇数帧内预测模式。与偶数帧内预测模式索引关联的、由实线箭头标识的定向帧内预测模式被称为偶数帧内预测模式。在该文档中，如图5中的实线箭头或虚线箭头指示的定向帧内预测模式也被称为角模式。

在JEM中，总共67个帧内预测模式用于亮度帧内预测。为了对帧内模式进行编码，基于相邻块的帧内模式建立尺寸为6的最可能模式(MPM:Most Probable Mode)列表。如果帧内模式不是来自MPM列表，则发信号通知标志以指示帧内模式是否属于已选模式。在JEM-3.0中，有16个已选模式，其以每四个角模式统一地进行选择。在标准提案JVET-D0114和JVET-G0060中，导出了16个次级MPM 来代替统一选择的模式。

图6示出了帧内方向模式的N个参考层级。存在块单元611、段(Segment)A 601、段B 602、段C 603、段D 604、段E 605、段F 606、第一参考层610、第二参考层 609、第三参考层608和第四参考层607。

在HEVC和JEM以及一些其它标准(诸如H.264/AVC)中，用于预测当前块的参考样本仅限于最接近参考线(行或列)。在多参考线帧内预测的方法中，对于帧内方向模式，候选参考线(行或列)的数量从1(即最接近)增加到N，其中 N是大于或等于1的整数。图2以4×4的预测单元(PU:Prediction Unit)为例示出了多参考线帧内定向预测方法的概念。帧内定向模式选择N个参考层中的任意一个以生成预测器。换句话说，从参考样本S1、S2、…和SN中的一个参考样本生成预测器p(x，y)。发信号通知标志以指示选择哪个参考层用于帧内定向模式。如果N被设置为1，则帧内定向预测方法与JEM2.0中的传统方法相同。在图6中，参考线610、609、608和607由六个段601、602、603、604、605和606以及左上角的参考样本共同组成。在该文档中，参考层也被称为参考线。当前块单元内的左上角的像素的坐标是(0，0)，并且第一参考线中的左上角像素的坐标是(-1， -1)。

在JEM中，对于亮度分量，在生成过程之前对用于帧内预测样本生成的相邻样本进行滤波。通过给定的帧内预测模式和变换块的尺寸来控制滤波。如果帧内预测模式是DC或者变换块的尺寸等于4×4，则不对相邻样本进行滤波。如果给定的帧内预测模式与垂直模式(或水平模式)之间的距离大于预定阈值，则启用滤波过程。使用[1，2，1]滤波器和双线性滤波器对相邻样本进行滤波。

位置相关帧内预测组合(PDPC:Position Dependent Intra PredictionCombination) 方法是一种帧内预测方法，该帧内预测方法调用未被滤波的边界参考样本以及具有滤波的边界参考样本的HEVC样式的帧内预测的组合。位于(x，y)处的每个预测样本pred[x][y]的计算如下：

pred[x][y]＝(wL*R_-1,y+wT*R_x,-1+wTL*R_-1,-1+(64-wL-wT-wTL)*pred[x][y]+32)＞＞6

(等式2-1)

其中R_x,-1、R_-1,y分别表示位于当前样本(x，y)的顶部和左边的未被滤波的参考样本，R_-1,-1表示位于当前块的左上角的未被滤波的参考样本。根据如下公式计算权重，

wT＝32＞＞((y＜＜1)＞＞shift) (等式2-2)

wL＝32＞＞((x＜＜1)＞＞shift) (等式2-3)

wTL＝-(wL＞＞4)-(wT＞＞4) (等式2-4)

shift＝(log2(width)+log2(height)+2)＞＞2 (等式2-5)

图7示出了其中一个4×4块内的(0，0)和(1，0)位置的DC模式PDPC 权重(wL、wT、wTL)的图示700。如果将PDPC应用于DC模式、平面模式、水平模式和垂直帧内模式，则不需要额外的边界滤波器，例如HEVC DC模式边界滤波器或水平/垂直模式边缘滤波器。图7示出了应用于右上对角模式的PDPC的参考样本R_x,-1、R_-1,y和R_-1,-1的定义。预测样本pred(x’，y’)位于预测块内的(x’， y’)处。参考样本Rx,-1的坐标x由下式给出：x＝x’+y’+1，并且类似地，参考样本R_-1,y的坐标y由下式给出：y＝x’+y’+1。

图8示出了局部亮度补偿(LIC:Local Illumination Compensation)的图示800并且图8是基于使用缩放因子a和偏移b的亮度变化的线性模型。对于每个帧间模式编码的编码单元(CU)自适应地启用或禁用LIC。

当LIC应用于CU时，可采用最小平方误差方法以通过使用当前CU的相邻样本及其对应的参考样本来导出参数a和b。更具体地，如图8所示，使用CU的二次样本(2：1二次样本)的相邻样本和参考图片中的对应的样本(由当前CU或子CU的运动信息识别)。将IC参数导出并分别应用于每个预测方向。

当通过合并模式对CU进行编码时，从相邻块中复制LIC标志，复制方式类似于合并模式下的运动信息复制；否则，为CU发信号通知LIC标志，以指示是否应用LIC。

图9A示出了在HEVC中使用的帧内预测模式900。在HEVC中，总共有35 个帧内预测模式，其中模式10是水平模式，模式26是垂直模式，模式2、模式18 和模式34是对角模式。由三个最可能模式(MPM)和32个剩余的模式用信号通知帧内预测模式。

图9B示出了在VVC的实施例中总共有87个帧内预测模式，其中模式18是水平模式，模式50是垂直模式，以及模式2、模式34和模式66是对角模式。模式-1 至-10以及模式67至76被称为广角帧内预测(WAIP:Wide-Angle Intra Prediction) 模式。

根据PDPC表达式，使用帧内预测模式(DC、平面、角)和参考样本的线性组合来预测位置(x，y)处的预测样本pred(x，y)：

pred(x,y)＝(wL×R_-1,y+wT×R_x,-1–wTL×R_-1,-1+(64–wL–wT+wTL)× pred(x,y)+32)>>6

其中，R_x,-1、R_-1,y分别表示位于当前样本(x，y)的顶部和左边的参考样本，R_-1,-1表示位于当前块的左上角的参考样本。

对于DC模式，对于尺寸为width和height的块，权重的计算如下：

wT＝32>>((y<<1)>>nScale)，

wL＝32>>((x<<1)>>nScale)，

wTL＝(wL>>4)+(wT>>4)，

其中，nScale＝(log2(width)–2+log2(height)–2+2)>>2，其中，wT表示位于具有与当前样本相同水平坐标的上述参考线中的参考样本的加权因子，wL表示位于具有与当前样本相同垂直坐标的左参考线中的参考样本的加权因子，并且wTL表示当前块的左上角的参考样本的加权因子，nScale指示加权因子沿轴线减小的速度(wL 从左到右减小或wT从上到下减小)，即加权因子递减率，在当前设计中该加权因子递减率沿x轴(从左到右)和y轴(从上到下)是相同的。32表示相邻样本的初始加权因子，所述初始加权因子也是分配给当前CB中的左上角的样本的顶部 (左或左上)的加权，PDPC过程中相邻样本的加权因子应等于或小于该初始加权因子。

对于平面模式，wTL＝0，而对于水平模式，wTL＝wT，对于垂直模式，wTL＝wL。可仅利用加法和移位来计算PDPC权重。使用等式1在单个步骤中计算Pred(x， y)的值。

图10示出了全景媒体应用格式(OMAF:Omnidirectional Media ApplicationFormat)的示例性的窗口相关处理的简化框图式的工作流程图1000，所述OMAF 允许在OMAF中描述的360度虚拟现实(VR360)流式传输。

在获取块1001处，获取视频数据A，例如在图像数据可以表示VR360中的场景的情况下，视频数据A可以是至少两个图像的数据和相同时刻的音频。在处理块1003处，通过以下一种或者多种方式来处理同一时刻的图像B_i：拼接(stitch)，相对于至少一个虚拟现实(VR)角度或其它角度/视点映射到投影图片上，和按区域打包(region-wise packed)。此外，创建元数据，以有利于传送和呈现(Rendering) 过程，该元数据指示此类处理信息和其它信息中的任一种。

关于数据D，在图像编码块1005处，将投影图片编码为数据E_i，并将已编码的投影图片合成至媒体文件中以及与窗口无关的流式传输中，在视频编码块1004 处，将视频图片编码为数据E_v，将该数据E_v作为单层比特流。关于数据B_a，在音频编码块1002处也可以将音频数据编码为数据E_a。

可以将数据E_a、E_v E_i、以及整个已编码的比特流F_i和/或F存储在(内容分发网络(CDN:Content Delivery Network)/云)服务器，数据E_a、E_v、E_i、以及整个已编码的比特流F_i和/或F通常(例如在递送块1007处或以其它方式)被完全地传输到OMAF播放器1020，由解码器完全地解码，以使显示块1016针对各种元数据、文件回放和方向/窗口(viewport)元数据(例如相对于该VR图像设备的窗口规格，用户从头/眼跟踪模块1008观看该VR图像设备所能看到的角度)，将对应于当前窗口的已解码图片的至少一个区域呈现给用户。VR360的独特特征在于，在任何特定时间可仅显示一个窗口，VR360根据用户的窗口(或任何其它标准，诸如已推荐窗口定时元数据)进行选择性传送的特征，可以用于改进全景视频系统的性能。例如，可通过基于片(Tile)的视频编码来实现窗口相关的传送。

与上述编码块一样，根据示例性实施例的，OMAF播放器1020可类似地针对数据F’和/或F’_i以及元数据中的至少一个的文件/段进行解封装，来使此编码的至少一个方面反转；在音频解码块1010处对音频数据E’_i进行解码，在视频解码块1013处对视频数据E’_v进行解码，以及在图像解码块1014处对图像数据E’ _i进行解码，以继续进行在音频呈现块1011处对数据B’_a的音频呈现以及在图像呈现块1015处对数据D’的图像呈现，进而根据各种元数据例如方向/窗口元数据，以VR360格式在显示块1016处输出显示数据A’_i，在扬声器/耳机块1012处输出音频数据A’_s。各种元数据可根据OMAF播放器1020的用户所选择的各种轨道、语言、质量、视图来影响数据解码和呈现(渲染)过程。应当理解，本文描述的处理顺序是示例性实施例给出的，并且可根据其它示例性实施例的其它顺序来实现。

图11A示出了本公开的实施例提供的视频编码的方法的流程图1100A。如图 11A所示，该方法包括以下步骤：

步骤S111，获取至少一个视觉三维3D场景的体积数据。

步骤S112，将所述体积数据转换为点云数据。

步骤S113，将所述点云数据投影到二维2D图像上。

步骤S114，对投影到所述2D图像上的所述点云数据进行编码。

在一些实施例中，所述对投影到所述2D图像上的所述点云数据进行编码，包括：将所述点云数据划分为至少两个分区。

在一些实施例中，所述对投影到所述2D图像上的所述点云数据进行编码，包括：彼此独立地对所述至少两个分区进行编码。

步骤S115，组成媒体文件，所述媒体文件封装了元数据和已编码的所述点云数据，所述元数据指示六自由度6DoF媒体。

在一些实施例中，所述组成媒体文件包括：将已编码的每个分区添加到所述媒体文件。

在一些实施例中，所述元数据进一步指示所述至少两个分区的布局信息；或者所述至少两个分区包括在六自由度6DoF坐标系上的至少两个3D分区，所述元数据进一步指示所述3D分区在所述六自由度6DoF坐标系上的3D位置。

在一些实施例中，将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述至少两个分区的布局信息从所述媒体文件中提取至少一个特定的分区；或者将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述3D 位置从所述媒体文件中提取至少一个特定的3D分区。

在一些实施例中，所述元数据进一步指示六自由度6DoF坐标系上的至少一个观察位置以及所述至少一个观察位置处的至少一个角度。

在一些实施例中，所述元数据包括360度虚拟现实数据。

在一些实施例中，已编码的所述点云数据包括点云重建元数据。

通过本公开的实施例，可以对点云数据的特定部分而进行更有效的处理，使得播放器可聚焦于点云数据的比其它部分更高质量的图像，而不传送未被使用的部分，进而提高全景视频系统的效率。

图11B示出了观察位置和角度相关处理的已编码的点云数据的简化框式内容流程图1100B，所述已编码的点云数据关于采集/生成/编解码/呈现(渲染)/显示 6个自由度媒体(本文称为：基于视频的点云编码技术，V-PCC：Video-based Point Cloud Coding)。应当理解，所描述的特征可被单独或以任何顺序组合使用用于编码和解码等的元件可由处理电路(例如，至少一个处理器或至少一个集成电路) 来实现，并且根据示例性实施例，至少一个处理器可执行存储在非易失性计算机可读介质中的程序。

图1100B示出了根据V-PCC的已编码的点云数据的流式传输的示例性实施例。

在体积数据获取块1101处，获取至少一个视觉三维3D场景的体积数据。

在一些实施例中，真实世界视觉场景或计算机生成的视觉场景(或它们的组合)可由一组相机设备采集或由计算机合成为体积数据。

在转换点云块1102处，将所述体积数据转换为点云数据。

在一些实施例中，通过图像处理将具有任意格式的体积数据转换为(量化的) 点云数据格式。例如，根据示例性实施例，来自体积数据的数据可以是转为点云的一些点的面积数据，所述面积数据是从体积数据和相关数据中提取下面所述的一个或至少两个值到期望的点云格式的数据。

根据示例性实施例，体积数据可为2D图像的3D数据集，例如可以是3D数据集的2D投影所投影的条带。根据示例性实施例，点云数据格式包括在至少一个不同空间中的数据点的表示，可用于表示体积数据，并且可提供关于样本和数据压缩(诸如关于时间冗余)的改进，例如x、y、z格式的点云数据表示在云数据的多每个点处的颜色值(例如，RGB等)、亮度、强度等，并且可以与渐进解码、多边形网格化、直接呈现、2D四叉树数据的八叉树3D表示一起使用。

在投影到图像块1103时，将获取的点云数据投影到2D图像上，并且利用 V-PCC将所述投影的点云数据编码为图像/视频图片。投影的点云数据可由属性、几何信息、占用率图(occupancy map)以及用于点云数据重建的其它元数据组成，其它元数据例如具有画家算法(Painter’s Algorithms)、射线投射算法(Ray Casting Algorithms)、(3D)二进制空间分区算法等。

另一方面，在场景生成器块1109处，场景生成器可以根据导演的意图或用户的偏好，生成一些用于呈现和显示6个自由度(DoF)媒体的元数据。关于在已编码的点云数据内或至少根据已编码的点云数据的虚拟体验，其他维度允许前/后、上/下和左/右运动，除此之外，该6DoF媒体包括向360VR之类的3D观看场景，该观看场景通过3D轴X、Y、Z上的旋转变化来观看。场景描述元数据定义了至少一个场景，所述至少一个场景由已编码的点云数据和其它媒体数据(包括VR360、光场、音频等)组成，将所述元数据提供给至少一个云服务器和/或如图11B和相关描述中指示的文件/段封装/解封装处理。

在视频编码块1104处，对投影到所述二维2D图像上的所述点云数据进行编码。

在一些实施例中，彼此独立地对所述至少两个分区进行编码。

在图像编码块1105处，组成媒体文件，所述媒体文件封装了元数据和已编码的所述点云数据，所述元数据指示六自由度6DoF媒体。

在一些实施例中，将已编码的每个分区添加到所述媒体文件。具体的，在视频编码块1104和图像编码块1105处的、类似于上述视频和图像编码(并且应当理解，也如上所述提供了音频编码)，文件/段封装块1106对已编码的点云数据进行处理，以根据特定媒体容器文件格式，将已编码的点云数据组成用于文件回放的媒体文件或者用于流式传输的初始化段和媒体段的序列，所述特定媒体容器文件格式例如可以是至少一个视频容器格式，以及可以相对于下面描述的DASH来使用的格式，其中此类描述表示示例性实施例段段。文件容器还可将场景描述元数据包括到文件或段中，所述场景描述元数据来自场景生成器块1109。

根据示例性实施例，根据场景描述元数据对文件进行封装，以使其包括至少一个观察位置以及在6DoF媒体当中一次或多次的每个所述观察位置处的至少一个视角，这样以根据用户或创建者输入的请求来传输该文件。进一步地，根据示例性实施例，此文件的段可以包括此文件的至少一个部分，例如所述6DoF媒体的一部分，该部分指示一次或多次的单个视点及其角度；然而，这些仅仅是示例性实施例，可根据各种条件，例如网络、用户、创建者的能力和输入，而改变。

根据示例性实施例，将点云数据划分为至少两个2D/3D区域，将所述2D/3D 区域在视频编码块1104和图像编码块1105中的至少一处进行独立地编码。然后，可在文件/段封装块1106处将点云数据的每个独立编码的分区，封装为文件和/或段中的轨道。根据示例性的实施例，每个点云轨道和/或元数据轨道可以包括对于观察位置/角度相关处理有用的一些元数据。

根据示例性实施例，对视图/位置/角度相关的处理有用的元数据，例如包含在文件/段封装块的封装的文件和/或段中的元数据，包括以下至少一项：具有索引的2D/3D分区的布局信息、将3D体积划分与至少一个2D分区(例如，片(Tile) /片组/条带(Slice)/子图片中的任一个)关联的(动态)映射信息、6DoF坐标系上的每个3D分区的3D位置、代表性的观察位置/角度列表、选定的与3D体积分区对应的观察位置/角度列表、与选定的观察位置/角度对应的2D/3D分区的索引、每个2D/3D分区的质量(等级)信息，以及取决于每个观察位置/角度的每个2D/3D 分区的呈现信息。当被请求时，调用该元数据，例如由V-PCC播放器的用户请求或者由内容创建者为V-PCC播放器的用户指示时，调用此元数据可以对此元数据所期望的6DoF媒体的特定部分进行更有效的处理，这样可以使V-PCC播放器传送聚焦于6DoF媒体的部分上的比其它部分更高质量的图像，而不是传送所述媒体的未被使用的部分。

在一些实施例中，所述元数据进一步指示所述至少两个分区的布局信息；将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述至少两个分区的布局信息从所述媒体文件中提取至少一个特定的分区。

在一些实施例中，所述至少两个分区包括在六自由度6DoF坐标系上的至少两个三维3D分区，所述元数据进一步指示所述三维3D分区在所述六自由度6DoF坐标系上的三维3D位置；将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述三维3D位置从所述媒体文件中提取至少一个特定的至少一个三维3D分区。

在一些实施例中，所述元数据包括360度虚拟现实数据。

从文件/段封装块1106，使用传送机制，例如通过HTTP上的动态自适应流式传输(DASH:Dynamic Adaptive Streaming)，将文件或文件的至少一个段直接传送到V-PCC播放器1125和云服务器中的任一个，例如在云服务器块1107处，云服务器可从文件中提取至少一个轨道和/或至少一个特定的2D/3D分区，并将至少两个已编码的点云数据合并为一个数据。

根据关于位置/视角跟踪块1108的数据，如果在户端系统在6DoF坐标系上定义了当前观察位置和角度，那么可以从文件/段封装块1106传送观察位置/角度元数据，或者在云服务器块1107处根据已经在云服务器的文件或段对所述观察位置/ 角度元数据进行其他处理，这样使云服务器可从存储文件中提取适当的分区，根据来自客户端系统的元数据将提取的适当的分区进行合并(如果必要)，所述客户端系统具有V-PCC播放器1125，并将提取数据作为文件或段传送到客户端。

针对此类数据，在文件/段解封装块1109处，文件解封装器处理文件或接收到的段，提取已编码的比特流，并对元数据进行解析；在视频解码和图像解码块处，将以编码的点云数据进行解码，并在点云重建块1112处将解码的点云数据重建为点云数据，可以在显示块1114处显示重建的点云数据，和/或可以先根据场景生成器块1109关于场景描述数据，在场景组成块1113处根据至少一个种场景描述合成所述重建的点云数据。

鉴于以上所述，此类示例性V-PCC流程表示出了相对于V-PCC标准的优势，包括以下项中的至少一个：描述的对至少两个2D/3D区域的分区能力、将已编码的2D/3D分区的压缩域组合成单个一致的已编码视频比特流的能力，以及将编码图片的已编码的2D/3D分区组成一致的已编码的比特流的比特流提取能力，其中通过包括VVC比特流的容器形成，来支持用于包含携带上述元数据中的至少一个的元数据的机制，来进一步改进此V-PCC系统支持。

因此，通过本文描述的示例性实施例，通过这些技术方案中的至少一个可以对点云数据的特定部分而进行更有效的处理，使得播放器可聚焦于点云数据的比其它部分更高质量的图像，而不传送未被使用的部分，进而提高全景视频系统的效率，也即有利地改善上述技术问题。

本申请实施例还提供了对应于上述视频编码的方法对应的视频编码的装置，该装置包括：

选择模块，用于获取至少一个视觉三维3D场景的体积数据；

转换模块，用于将所述体积数据转换为点云数据；

投影模块，用于将所述点云数据投影到二维2D图像上；

编码模块，用于对投影到所述二维2D图像上的所述点云数据进行编码；以及

所述编码模块进一步将所述点云数据划分为至少两个分区。

在一些实施例中，所述编码模块进一步彼此独立地对所述至少两个分区进行编码。

在一些实施例中，所述组成模块进一步通过将每个编码的分区添加到所述媒体文件以组成所述媒体文件。

在一些实施例中，所述元数据进一步指示所述至少两个分区的布局信息；所述装置进一步包括发送模块，用于将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述至少两个分区的布局信息从所述媒体文件中提取至少一个特定的分区。

在一些实施例中，所述至少两个分区包括在六自由度6DoF坐标系上的至少两个三维3D分区，所述元数据进一步指示所述三维3D分区在所述六自由度6DoF坐标系上的三维3D位置；

所述装置进一步包括发送模块，用于将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述三维3D位置从所述媒体文件中提取至少一个特定的至少一个三维3D分区。

上述技术可以通过计算机可读指令实现为计算机软件，并且物理地存储在至少一个计算机可读介质中，或者通过专门配置的一个或至少两个硬件处理器实现。例如，图12示出了计算机系统1200，其适于实现所公开主题的某些实施例，例如适用于本公开的实施例中的电子设备。

所述计算机软件可通过任何合适的机器代码或计算机语言进行编码，通过汇编、编译、链接等机制创建包括指令的代码，所述指令可由计算机中央处理单元 (CPU)，图形处理单元(GPU)等直接执行或通过译码、微代码等方式执行。

所述指令可以在各种类型的计算机或其组件上执行，包括例如个人计算机、平板电脑、服务器、智能手机、游戏设备、物联网设备等。

图12所示的用于计算机系统1200的组件本质上是示例性的，并不用于对实现本申请实施例的计算机软件的使用范围或功能进行任何限制。也不应将组件的配置解释为与计算机系统1200的示例性实施例中所示的任一组件或其组合具有任何依赖性或要求。

计算机系统1200可以包括某些人机界面输入设备。这种人机界面输入设备可以通过触觉输入(如：键盘输入、滑动、数据手套移动)、音频输入(如：声音、掌声)、视觉输入(如：手势)、嗅觉输入(未示出)，对一个或至少两个人类用户的输入做出响应。所述人机界面设备还可用于捕获某些媒体，气与人类有意识的输入不必直接相关，如音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静止影像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。

人机界面输入设备可包括以下中的一个或至少两个(仅绘出其中一个)：键盘1201、鼠标1202、触控板1203、触摸屏1210、操纵杆1205、麦克风1206、扫描仪1208、照相机1207。

计算机系统1200还可以包括某些人机界面输出设备。这种人机界面输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激一个或至少两个人类用户的感觉。这样的人机界面输出设备可包括触觉输出设备(例如通过触摸屏1210或操纵杆1205的触觉反馈，但也可以有不用作输入设备的触觉反馈设备)、音频输出设备(例如，扬声器1209、耳机(未示出))、视觉输出设备(例如，包括阴极射线管屏幕、液晶屏幕、等离子屏幕、有机发光二极管屏的屏幕1210，其中每一个都具有或没有触摸屏输入功能、每一个都具有或没有触觉反馈功能——其中一些可通过诸如立体画面输出的手段输出二维视觉输出或三维以上的输出；虚拟现实眼镜(未示出)、全息显示器和放烟箱(未示出))以及打印机(未示出)。

计算机系统1200还可以包括人可访问的存储设备及其相关介质，如包括具有 CD/DVD的高密度只读/可重写式光盘(CD/DVD ROM/RW)1220或类似介质1221 的光学介质、拇指驱动器1222、可移动硬盘驱动器或固体状态驱动器1223，诸如磁带和软盘(未示出)的传统磁介质，诸如安全软件保护器(未示出)等的基于 ROM/ASIC/PLD的专用设备，等等。

本领域技术人员还应当理解，结合所公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。

计算机系统1200还可以包括通往至少一个通信网络1298的接口1299。例如，网络1298可以是无线的、有线的、光学的。网络还可为局域网、广域网、城域网、车载网络和工业网络、实时网络、延迟容忍网络等等。网络1298还包括以太网、无线局域网、蜂窝网络(GSM、3G、4G、5G、LTE等)等局域网、电视有线或无线广域数字网络(包括有线电视、卫星电视、和地面广播电视)、车载和工业网络(包括CANBus)等等。某些网络1298通常需要外部网络接口适配器，用于连接到某些通用数据端口或外围总线(1250和1251)(例如，计算机系统1200的 USB端口)；其它系统通常通过连接到如下所述的系统总线集成到计算机系统1200的核心(例如，以太网接口集成到PC计算机系统或蜂窝网络接口集成到智能电话计算机系统)。通过使用这些网络1298中的任何一个，计算机系统1200可以与其它实体进行通信。所述通信可以是单向的，仅用于接收(例如，无线电视)，单向的仅用于发送(例如CAN总线到某些CAN总线设备)，或双向的，例如通过局域或广域数字网络到其它计算机系统。上述的每个网络和网络接口可使用某些协议和协议栈。

上述的人机界面设备、人可访问的存储设备以及网络接口可以连接到计算机系统1200的核心1240。

核心(440)可包括一个或至少两个中央处理单元(CPU)1241、图形处理单元(GPU)1242、图形适配器1217、以现场可编程门阵列(FPGA)1243形式的专用可编程处理单元、用于特定任务的硬件加速器1244等。这些设备以及只读存储器(ROM)1245、随机存取存储器1246、内部大容量存储器(例如内部非用户可存取硬盘驱动器、固态硬盘等)1247等可通过系统总线1248进行连接。在某些计算机系统中，可以以一个或至少两个物理插头的形式访问系统总线1248，以便可通过额外的中央处理单元、图形处理单元等进行扩展。外围装置可直接附接到核心的系统总线1248，或通过外围总线1249进行连接。外围总线的体系结构包括外部控制器接口PCI、通用串行总线USB等。

CPU1241、GPU1242、FPGA1243和加速器1244可以执行某些指令，这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM1245或 RAM1246中。过渡数据也可以存储在RAM1246中，而永久数据可以存储在例如内部大容量存储器1247中。通过使用高速缓冲存储器可实现对任何存储器设备的快速存储和检索，高速缓冲存储器可与一个或至少两个CPU1241、GPU1242、大容量存储器1247、ROM1245、RAM1246等紧密关联。

所述计算机可读介质上可具有计算机代码，用于执行各种计算机实现的操作。介质和计算机代码可以是为本申请的目的而特别设计和构造的，也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。

作为实施例而非限制，具有体系结构1200的计算机系统，特别是核心1240，可以作为处理器(包括CPU、GPU、FPGA、加速器等)提供执行包含在一个或至少两个有形的计算机可读介质中的软件的功能。这种计算机可读介质可以是与上述的用户可访问的大容量存储器相关联的介质，以及具有非易失性的核心1240的特定存储器，例如核心内部大容量存储器1247或ROM1245。实现本申请的各种实施例的软件可以存储在这种设备中并且由核心1240执行。根据特定需要，计算机可读介质可包括一个或一个以上存储设备或芯片。该软件可以使得核心1240特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文所述的特定过程或特定过程的特定部分，包括定义存储在RAM1246中的数据结构以及根据软件定义的过程来修改这种数据结构。另外或作为替代，计算机系统可以提供逻辑硬连线或以其它方式包含在电路(例如，加速器1244)中的功能，该电路可以代替软件或与软件一起运行以执行本文所述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(IC))，包含执行逻辑的电路，或两者兼备。本申请包括任何合适的硬件和软件组合。

虽然本申请已对至少两个示例性实施例进行了描述，但实施例的各种变更、排列和各种等同替换均属于本申请的范围内。因此应理解，本领域技术人员能够设计多种系统和方法，所述系统和方法虽然未在本文中明确示出或描述，但其体现了本申请的原则，因此属于本申请的精神和范围之内。

Claims

1.一种视频编码的方法，其特征在于，所述方法包括：

获取至少一个视觉三维3D场景的体积数据；

将所述体积数据转换为点云数据；

将所述点云数据投影到二维2D图像上；

对投影到所述2D图像上的所述点云数据进行编码；以及

组成媒体文件，所述媒体文件封装了元数据和已编码的所述点云数据，所述元数据指示六自由度6DoF媒体。

2.根据权利要求1所述的视频编码的方法，其特征在于，所述对投影到所述2D图像上的所述点云数据进行编码，包括：将所述点云数据划分为至少两个分区。

3.根据权利要求2所述的视频编码的方法，其特征在于，所述对投影到所述2D图像上的所述点云数据进行编码，包括：彼此独立地对所述至少两个分区进行编码。

4.根据权利要求3所述的视频编码的方法，其特征在于，所述组成媒体文件包括：将已编码的每个分区添加到所述媒体文件。

5.根据权利要求2所述的视频编码的方法，其特征在于，所述元数据进一步指示所述至少两个分区的布局信息；或者

所述至少两个分区包括在六自由度6DoF坐标系上的至少两个3D分区，所述元数据进一步指示所述3D分区在所述六自由度6DoF坐标系上的3D位置。

6.根据权利要求5所述的视频编码的方法，其特征在于，所述方法进一步包括：

将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述至少两个分区的布局信息从所述媒体文件中提取至少一个特定的分区；或者

将所述媒体文件传输到云服务器和媒体播放器中的至少一个，以使所述云服务器和媒体播放器中的至少一个，根据所述3D位置从所述媒体文件中提取至少一个特定的3D分区。

7.根据权利要求1所述的视频编码的方法，其特征在于，所述元数据进一步指示六自由度6DoF坐标系上的至少一个观察位置以及所述至少一个观察位置处的至少一个角度。

8.根据权利要求1所述的视频编码的方法，其特征在于，所述元数据包括360度虚拟现实数据。

9.根据权利要求1所述的视频编码的方法，其特征在于，已编码的所述点云数据包括点云重建元数据。

10.一种视频编码的装置，其特征在于，所述装置包括：

选择模块，用于获取至少一个视觉三维3D场景的体积数据；

转换模块，用于将所述体积数据转换为点云数据；

投影模块，用于将所述点云数据投影到二维2D图像上；

11.一种非易失性计算机可读存储介质，其特征在于，包括：所述存储介质存储有多条指令，可以使至少一个处理器执行如权利要求1～9任一项所述的方法。

12.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1～9任一项所述的方法。