CN113228050A

CN113228050A - 用于改进图像块打包和编解码效率的点云组块方法和装置

Info

Publication number: CN113228050A
Application number: CN202080007211.1A
Authority: CN
Inventors: 沃索基阿拉什; 芮世薰; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2019-01-09
Filing date: 2020-01-06
Publication date: 2021-08-06
Also published as: EP3908976A4; EP3908976A1; US11956478B2; WO2020146224A1; US20200221137A1

Abstract

一种使用视频点云编解码对视频流进行编码的方法和装置，解码包括：获取输入点云；将所述输入点云划分为多个块，所述多个块包括第一块和第二块，所述第一块包括第一组多个点，所述第二块包括第二组多个点；基于所述第一组多个点生成第一组多个图像块；基于所述第二组多个点生成第二组多个图像块；将所述第一组多个图像块和所述第二组多个图像块打包成图像；以及基于所述图像生成所述视频流。

Description

用于改进图像块打包和编解码效率的点云组块方法和装置

相关申请

本申请要求2019年1月9日提交的第62/790,448号美国临时申请的优先权、以及2020年1月2日提交的第16/732,498号美国申请的优先权，所述申请以全文引用方式并入本申请。

技术领域

本申请涉及一组高级视频编解码技术，具体地，涉及基于视频的点云压缩。

背景技术

世界的高级三维(3D)表示使更加沉浸式的交互和通信成为可能，并且还使机器能够理解、解释并遨游世界。3D点云(point cloud)已经成为实现此类信息的代表。目前已经发现了与点云数据相关联的多个用例，并且已经开发了对点云表示和压缩的相应要求。

点云可以是3D空间中的一组点，每个点具有相关联的属性，例如颜色、材料属性等。点云可用于将对象或场景重建为这种点的集合。可以在各种环境中使用多个照相机和深度传感器来获得点云，点云可以由数千到数十亿个点组成，能够真实地表示重建的场景。

需要使用压缩技术来减少用于表示点云的数据量。因此，需要针对实时通信和六自由度(degrees of freedom，DoF)虚拟现实中的点云进行有损压缩的技术。此外，在用于自主驾驶和文化遗产应用等的动态绘图的场景中，需要对点云进行无损压缩的技术。运动图像专家组(Moving Picture Experts Group，MPEG)已经开始研究一种处理几何和属性的压缩标准，属性可包括例如颜色和反射率、可缩放/渐进编解码、跨越一定时间获得的点云序列的编解码，以及对点云的子集的随机访问。

发明内容

根据一个实施例，一种使用视频点云编解码对视频流进行编码的方法由至少一个处理器执行，包括获取输入点云；将输入点云划分成多个块，包括第一块和第二块，第二块包括第一组多个点；第二块包括第二组多个点；第二块包括第二组多个点；第二块包括第二组多个点；基于所述第一组多个点生成第一组多个图像块；基于第二组多个点生成第二组多个图像块；将第一组多个图像块和第二组多个图像块打包成图像；并基于图像生成视频流。

根据一个实施例，一种用于使用视频点云编解码对视频流进行编码的装置，包括：至少一个存储器，用于存储程序代码；至少一个处理器，用于读取所述程序代码并按照程序代码的指示进行操作，所述程序代码包括获取代码，所述获取代码用于使至少一个处理器获取输入点云；划分代码，用于使至少一个处理器将输入点云划分为多个块，所述多个块包括第一块和第二块，第一块包括第一组多个点，第二块包括第二组多个点；第一生成代码，用于使至少一个处理器基于第一组多个点来生成第一组多个图像块；第二生成代码，用于使至少一个处理器基于第二组多个点生成第二组多个图像块；打包代码，用于使至少一个处理器将第一组多个图像块和第二组多个图像块打包为图像；第三生成代码，用于使至少一个处理器基于所述图像生成视频流。

根据一个实施例，一种非易失性计算机可读介质存储有计算机指令，该计算机指令用于使用视频点云编解码来对视频流进行编码，该计算机指令在由至少一个处理器执行时使至少一个处理器：获得输入点云，将输入点云划分为多个块，包括第一块和第二块，第一块包括第一组多个点，第二块包括第二组多个点；基于所述第一组多个点生成第一组多个图像块；基于第二组多个点生成第二组多个图像块；将第一组多个图像块和第二组多个图像块打包成图像；并根据图像生成视频流。

附图说明

根据以下详细描述和附图，本申请主题的其它特征、性质和各种优点将变得更加明显，在附图中：

图1是一个实施例的通信系统的简化框图的示意图。

图2是一个实施例的流媒体系统的简化框图的示意图。

图3是一个实施例的视频编码器的简化框图的示意图。

图4是一个实施例的视频解码器的简化框图的示意图。

图5是一个实施例的几何形状图像示例的示意图。

图6是一个实施例的纹理图像示例的示意图。

图7是一个实施例中打包示例的示意图。

图8A-8B是多个实施例的打包示例的示意图。

图9A-9D是多个实施例的打包示例的示意图。

图10是一个实施例所执行方法的流程图。

图11是一个实施例的设备的示意图。

图12是适于实现各实施例的计算机系统的示意图。

具体实施方式

基于视频的点云压缩(video-based point cloud compression，V-PCC)背后的考虑因素是利用现有的视频编解码器将动态点云的几何形状、占用率和纹理压缩为三个单独的视频序列。用于解释三个视频序列的额外元数据可以单独压缩。整个比特流的一小部分是元数据，可以使用软件方式对其进行有效的编码/解码。大部分信息可以由视频编解码器处理。

参考图1至图4，其中描述了用于实现本申请的编码结构和解码结构的本申请实施例。本申请的编码结构和解码结构可以实现上述V-PCC的一些方面。

图1为本申请实施例的通信系统100的简化框图。系统100可包括通过网络150互联的至少两个终端110、120。对于单向数据传输，第一终端110可在本地位置编码视频数据，用于经网络150传输至另一终端120。第二终端120可从网络150接收另一终端的编码视频数据，解码该编码数据并显示恢复出的视频数据。单向数据传输常用于媒体服务应用及其它类似应用。

图1示出第二对终端130、140，其可以支持已编码视频的双向传输，例如，在视频会议期间发生的双向传输。对于双向的数据传输，每个终端130、140可对在本地位置拍摄的视频数据进行编码，以便通过网络150传输至另一终端。每个终端130、140还可接收由另一终端传输的已编码视频数据，可解码该已编码数据，并可在本地显示器设备显示恢复出的视频数据。

在图1中，终端110-140可以是，例如服务器、个人计算机、智能电话和/或其它任何类型的终端。例如，终端110-140可以是笔记本电脑、平板电脑、媒体播放器、和/或专用的视频会议装置。网络150表示任何数量的网络，可以在终端110-140之间传输已编码视频数据，可以包括，例如，有线和/或无线通信网络。通信网络150可在电路交换和/或包交换的信道中交换数据。代表性的网络包括电信网络、局域网、广域网、和/或互联网。为本文讨论的目的，除非有明确说明，网络150的体系结构和拓扑与本申请公开的操作无关。

作为本申请公开主题的应用示例，图2示出一种在流媒体环境下视频编码器和解码器的部署方式。本申请公开的主题可与其它支持视频的应用共同使用，包括，例如视频会议、数字电视、将压缩后的视频存储到数字媒体，包括CD、DVD、记忆棒等，的应用等。

如图2所示，流媒体系统200可包括拍摄子系统213，其包括视频源201和编码器203。流媒体系统200还可以包括至少一个流媒体服务器205和/或至少一个流媒体客户端206。

视频源201可以创建，例如，包括3D视频对应的3D点云的流202。视频源201可以包括，例如3D传感器(如深度传感器)或3D成像技术(如数码摄像机)，以及用于利用从3D传感器或3D成像技术接收到的数据生成3D点云的计算设备。样本流202(比已编码的视频码流的数据量大)可由耦合于视频源201的编码器203处理。编码器203可包括硬件、软件或软硬件组合，从而能够支持或实现如下文详细描述的本申请公开主题的各方面。编码器203还可生成已编码视频码流204。已编码视频码流204(比未压缩视频样本流202的数据量更小)可存储于流媒体服务器205以备后续使用。一个或多个流媒体客户端206可访问流媒体服务器205，以获取视频码流209，视频码流209可以是已编码视频码流204的副本。

流媒体客户端206可包括视频解码器210和显示器212。视频解码器210可以，例如，解码视频码流209(即，接收到的编码视频码流204的副本)，并创建输出视频样本流211，其可绘制在显示器212或另一绘制设备(未示出)上。在一些流媒体系统中，视频码流204、209可根据一些视频编码/压缩标准进行编码。该标准的示例包括，但不限于，ITU-T建议H.265、多用途视频编码(VersatileVideoCoding，VVC)，及MPEG/V-PCC。

参考图3至图4，下面描述可以由本申请的实施例执行的V-PCC的一些方面。

图3为本申请实施例的视频编码器203的示例功能框图。

如图3所示，视频编码器203可以接收一个或多个点云帧350，并基于点云帧350生成几何图像352、纹理图像356和占用图334。视频编码器203可以将几何图像352压缩成压缩后的几何图像362，将纹理图像356压缩成压缩后的纹理图像364，以及将占用图334压缩成压缩后的占用图372。视频编码器203的多路复用器328可以形成压缩后的码流374，压缩的码流374包括压缩后的几何图像362、压缩后的纹理图像364和压缩后的占用图372。

更具体地，一些实施例中，视频编码器203可以包括将点云帧350分割成图像块(patch)的图像块生成模块302。图像块是V-PCC的有用实体。图像块生成过程包括将点云帧350分解成具有平滑边界的最小数目的图像块，同时还使重建误差最小化。本申请的编码器可实施各种方法来实现此分解。

视频编码器203可以包括执行打包过程的图像块打包模块304。打包过程包括将提取的图像块映射到2D网格上，同时使未使用的空间最小化并保证网格的每个M×M(例如，16x16)块与唯一的图像块相关联。高效的图像块打包通过使未使用的空间最小化或确保时间一致性来直接影响压缩效率。图像块打包模块304可以生成占用图334。

视频编码器203可以包括几何图像生成模块306和纹理图像生成模块308。为了更好地处理多个点投影到相同样本的情况，每个图像块可以投影到两个图像(也称为层)上。例如，几何图像生成模块306和纹理图像生成模块308可以利用图像块打包模块304在打包过程中计算出的3D到2D映射来将点云的几何形状和纹理存储为图像(也称为层)。可以根据作为为参数提供的配置信息，将生成的图像/层存储为一个或多个视频帧，并使用视频编解码器(例如HM视频编解码器)对其进行压缩。

一些实施例中，基于输入点云帧350和占用图334，几何图像生成模块306生成几何图像352，纹理图像生成模块308生成纹理图像356。图5为几何图像352的示例，图6为纹理图像356的示例。一个实施例中，几何图像352可以由YUV420-8位格式的WxH的单色帧表示。一个实施例中，占用图334图像由二进制图组成，该二进制图指示网格的每个单元属于空白空间还是属于点云。为了生成纹理图像356，纹理图像生成模块308可以利用重建后的/平滑后的几何形状358，以便计算要与重新采样的点相关联的颜色。

视频编码器203还可以包括分别用于填充几何图像352的图像填充模块314和用于填充纹理图像356的图像填充模块316，以形成填充后的几何图像354和填充后的纹理图像360。图像填充(也称为“背景填充”)仅使用冗余信息填充图像的未使用空间。良好的背景填充是一种最低限度地增加比特率而不在图像块边界周围引入显著编码失真的操作。图像填充模块314和图像填充模块316可以使用占用图334以分别形成填充后的几何图像354和填充后的纹理图像360。一个实施例中，视频编码器203可以包括群组扩张模块320以形成填充后的纹理图像360。群组扩张模块320可用于，例如，确保各个帧的图像块之间的空间一致性。

视频编码器203可以包括视频压缩模块322和视频压缩模块324，用于分别将填充后的几何图像354压缩为压缩后的几何图像362，以及将填充后的纹理图像360压缩为压缩后的纹理图像364。

视频编码器203可以包括：熵压缩模块318，用于对占用图334进行无损编码366，以及视频压缩模块326，用于对占用图334进行有损编码368。无损编码366和有损编码368之间的切换状态可以基于，例如输入点云350的码率或码流374的码率来确定。

各实施例中，视频编码器203可以包括平滑模块310，用于通过使用图像块信息332和由视频压缩模块322提供的重建后的几何图像365来生成平滑后的几何形状358。平滑模块310的平滑过程可以旨在减轻由于压缩伪像而在图像块边界处出现的可能的不连续性。平滑后的几何形状358可用于纹理图像生成模块308以生成纹理图像356。

视频编码器203还可以包括辅助图像块信息压缩模块312，用于形成由多路复用器328在压缩后的码流374中提供的压缩后的辅助图像块信息370。

图4为本申请实施例的视频解码器210的示例功能框图。

如图4所示，视频解码器210可以从视频编码器203接收已编码的码流374，以获取压缩后的纹理图像362、压缩后的几何图像364、压缩后的占用图372和压缩后的辅助图像块信息370。视频解码器210可以对压缩后的纹理图像362、压缩后的几何图像364、压缩后的占用图372和压缩后的辅助图像块信息370进行解码，以分别获取解压缩的纹理图像460、解压缩的几何图像462、解压缩的占用图464和解压缩的辅助图像块信息466。接下来，视频解码器210可以基于解压缩的纹理图像460、解压缩的几何图像462、解压缩的占用图464和解压缩的辅助图像块信息466生成重建的点云474。

一个实施例中，视频解码器210可以包括解复用器402，用于从所接收的压缩后的码流374中分离出压缩后的纹理图像362、压缩后的几何图像364、压缩后的占用图372和压缩后的辅助图像块信息370。

视频解码器210可以包括视频解压缩模块404、视频解压缩模块406、占用图解压缩模块408和辅助图像块信息解压缩模块410，分别用于对压缩后的纹理图像362、压缩后的几何图像364、压缩后的占用图372和压缩后的辅助图像块信息370进行解码。

视频解码器210可以包括几何形状重建模块412，用于基于解压缩的几何图像462、解压缩的占用图464和解压缩的辅助图像块信息466获取重建的(三维)几何形状468。

视频解码器210可以包括平滑模块414，用于对重建后的几何形状468进行平滑以获取平滑后的几何形状470。平滑过程可以旨在减轻由于压缩伪像而可能在图像块边界处出现的可能的不连续性。

视频解码器210可以包括纹理重建模块416，用于基于解压缩的纹理图像460和平滑后的几何形状470获取重建后的纹理472。

视频解码器210可以包括颜色平滑模块418，用于对重建后的纹理472的颜色进行平滑以获取重建的点云474。3D空间中的非相邻图像块在打包后通常在2D视频中彼此相邻。这意味着来自非相邻图像块的像素值可能被基于块的视频编解码器(block-based videocodec)混淆。颜色平滑模块418的颜色平滑可以旨在减少图像块边界处出现的可见伪像。

如上所述，打包过程可以包括将提取的图像块映射到2D网格上，同时使未使用空间最小化并保证网格的每个M×M(例如，16x16)块与唯一的图像块相关联。一个实施例中，V-PCC可以使用简单的打包策略，该打包策略迭代性地尝试将图像块插入到WxH网格中。W和H可以是用户定义的参数，可以对应于待编码的几何形状/纹理/运动视频图像的分辨率。可以通过光栅扫描顺序所使用的穷举搜索来确定图像块位置。可以选择能够保证图像块的无重叠插入的第一个位置，并且可以将该图像块覆盖的网格单元标记为已使用。如果当前分辨率图像中没有空的空间可以容纳该图像块，则可以暂时将网格的高度H翻倍，并可以再次进行搜索。在该过程结束时，可以对H进行裁切以适合所使用的网格单元。对于视频序列，可以使用确定整个GOP的W和H的过程。图7示出了这种打包过程的结果的示例。

根据各实施例，所提出的算法的示例可以包括以下算法#1-#6：

算法#1：

根据第一算法，可以仅沿一个轴执行组块。首先，可以找到输入点云的边界框。然后，可以找到这些点的协方差矩阵的特征向量。然后，可以沿与最大特征值对应的特征向量最接近的轴执行组块。

一个实施例中，Φ＝{φ₁，φ₂，φ₃}可以表示特征向量的集合，并且Λ＝{λ₁，λ₂，λ₃}可以表示以降序排列的相应特征值的集合，即λ₁>λ₂>λ₃。输入云的单位矢量可由x＝(1，0，0)，y＝(0,1,0)，z＝(0,0,1)表示。可以沿内积φ₁的绝对值最大的轴v^*进行组块，如以下等式1所示：

可以按如下方法计算特征向量Φ＝{φ₁，φ₂，φ₃}。首先，可以使用以下等式2来估计具有N个点的输入云的协方差矩阵：

其中

可以表示点云的质心并且可以通过以下等式3计算：

a^T可以表示矢量a的转置。

C的奇异值分解(Singular Value Decomposition，SVD)可用于按照以下等式4的方法找到特征向量和特征值：

算法#2：

根据第二算法，可以仅沿一个轴执行组块。首先，可以找到云的边界框。然后，可以找到边界框的最长(或最短)轴，并且可以沿该轴进行组块。

算法#3：

根据第三算法，一旦指定了组块轴，则可以均匀地或非均匀地沿该轴进行组块。非均匀组块的示例可以包括使得所有块具有相等数目个点的组块方式，或者使得块(chunk)的密度(近似)相等的组块方式，其中密度可以被定义为属于一个块的点的数目与该块的边界框体积之比。

算法#4：

根据第四算法，可以沿2或3个轴进行组块。例如，可以选择目标函数，如块密度的平均值。然后，可以通过沿2或3个轴进行组块来定义一组可行的组块配置。通过在该组中进行穷竭搜索，可以使目标函数最小化。

算法#5：

根据第五算法，可以沿2或3个轴进行组块。首先，可以找到输入点云的边界框。接着，可以找到这些点的协方差矩阵的特征向量。然后，可以根据以下等式5的方式沿最接近特征向量φ₁的轴

进行组块(参见算法#1中使用的符号)：

然后，可以根据以下等式6沿最接近特征向量φ₂的轴

进行组块：

其中A\b表示从集合A中移除b而获得的集合。

算法#6：

根据第六算法，分割(segmentation)可用于将输入云分割成若干云区域。一个示例可以包括，对于输入云是人体的情况，使用现有的人体分割算法。分割后的每个身体部分可以被视为独立于各身体部分经历过图像块生成过程的块。聚类技术也可用于点的分割。示例包括但不限于K均值聚类(K-means clustering)、分级聚类(hierarchicalclustering)、高斯混合(Gaussian mixtures)和谱聚类(spectral clustering)。

尽管上文已经描述了几种算法，但是本申请不限于所描述的算法。此外，本申请考虑可以以任何期望的方式改变或组合所描述的算法。

一个实施例中，编码器可以决定不用信号表示关于所采用的组块配置的任何信息，而解码器仍然能够对在编码器处重建的云进行解码。

一个实施例中，编码器可以决定用信号表示组块配置。已知组块边界，编码器可以在块的边界处执行额外的几何形状平滑(或任何其它类型的信号处理)。由于在编码器和解码器处均进行平滑，因此解码器可能需要知道组块配置。

下表1示出了用于用信号表示上述实施例的元数据语法的示例：

表1

在上表1中，cloud_chunking_with_signaling_present_flag可以指示是否使用具有信令的云组块。

number_of_chunks可以指示块的数目。number_of_chunks的值可以在[1，255]的范围内。

chunk_bounding_box_origin[i][axis]可以指示沿索引为“axis”的轴的第i个块的边界框的原点。轴索引的值可以是0、1和2，其可以分别对应于轴x、y和z。chunk_bounding_box_origin[i][axis]的值可以在[1，2³²]的范围内。

chunk_bounding_box_size[i][axis]可以指示沿索引为“axis”的轴的第i个块的边界框的尺寸。轴索引的值可以是0、1和2，其分别对应于轴x、y和z。chunk_bounding_box_size[i][axis]的值可以在[1，2³²]的范围内。

一个解码过程的例子可以采用块的边界框的原点和尺寸作为输入。如果期望编码器或解码器在块边界的相邻区域执行额外处理，例如额外的平滑等，则解码器(例如解码器210)可以对所有块的边界框的原点和尺寸进行解码。一旦确定了边界框的原点及其沿所有轴x、y和z的尺寸，就可以容易地得出块边界并将其用于后续处理。

图10是各实施例的使用视频点云编码对视频流进行编码的方法1000的流程图。在一些实施方式中，图10的至少一个过程框可以由编码器203执行。在一些实施方式中，图10的至少一个过程框可以由与编码器203分离或包括编码器203的另一设备或一组设备(例如解码器210)执行。

如图10所示，在操作1010中，方法1000可以包括获取输入点云。

如图10所示，在操作1020中，方法1000可以包括，将输入点云划分为多个块，包括第一块和第二块，第一块包括第一组多个点，第二块包括第二组多个点。

如图10所示，在操作1030中，方法1000可以包括，基于第一组多个点生成第一组多个图像块。

如图10所示，在操作1040中，方法1000可以包括，基于第二组多个点生成第二组多个图像块。

如图10所示，在操作1050中，方法1000可以包括，将第一组多个图像块和第二组多个图像块打包成图像。

如图10所示，在操作1060中，方法1000可以包括，基于该图像生成视频流。

一个实施例中，方法1000可以包括，从输入点云中获取多个遗漏点，第一组多个点和第二组多个点中不包括该多个遗漏点，并基于该图像和该多个遗漏点生成该视频流。

一个实施例中，方法1000可以包括：确定输入点云的边界框；确定边界框的至少一个轴；并基于该至少一个轴将输入点云划分为该多个块。

一个实施例中，这多个块可以沿该至少一个轴中的最长轴或最短轴中的一个轴对齐。

一个实施例中，方法1000可以包括：确定输入点云的协方差矩阵的特征向量；从这些特征向量中选择一个特征向量，其中该特征向量对应于这些特征向量的特征值中的最大特征值；从至少一个轴中选择最接近该特征向量的一个轴；以及沿该轴将输入点云划分为多个块。

一个实施例中，该多个块可以沿该至少一个轴中的第一轴和该至少一个轴中的第二轴对齐。

一个实施例中，方法1000可以包括：确定输入点云的协方差矩阵的特征向量；从这些特征向量中选择第一特征向量和第二特征向量，其中第一轴是该至少一个轴中最接近第一特征向量的轴，第二轴是该至少一个轴中最接近第二特征向量的轴。

一个实施例中，第一组多个点的数目可以等于第二组多个点的数目。

一个实施例中，输入点云可以表示人体；并且可以基于对输入点云执行的身体部分分割选择上述多个块。

一个实施例中，视频流的元数据可以指示以下中的至少一个：是否使用组块对视频流进行编码的指示信息、多个块的数目、输入点云的边界框的原点，以及边界框的尺寸。

尽管图10示出了方法1000的示例框，但是在一些实施方式中，方法1000可以包括相比图10中描绘的那些框更多的框、更少的框、不同的框或不同排列方式的框。附加地或可选地，方法1000的框中的两个或更多个框可以并行执行。

图11是各实施例的对使用视频点云编解码进行编码的视频流进行编码的装置1100的示意图。如图11所示，装置1100包括获取代码1110、划分代码1120、第一生成代码1130、第二生成代码1140、打包代码1150和第三生成代码1160。

获取代码1110可用于使至少一个处理器获取输入点云。

划分代码1120可用于使至少一个处理器将输入点云划分为多个块，包括第一块和第二块，第一块包括第一组多个点，第二块包括第二组多个点。

第一生成代码1130可用于使至少一个处理器基于第一组多个点生成第一组多个图像块。

第二生成代码1140可用于使至少一个处理器基于第二组多个点生成第二组多个图像块。

打包代码1150可用于使至少一个处理器将第一组多个图像块和第二组多个图像块打包成图像。

第三生成代码1160可用于使至少一个处理器基该于图像生成视频流。

上述技术可以使用计算机可读指令实现为计算机软件，并且物理地存储在一个或多个计算机可读介质中。例如，图12示出适于实现本申请一些实施例的计算机系统1200。

该计算机软件可利用任何合适的机器代码或计算机语言来编码，可采用汇编、编译、链接或类似机制生成指令代码。这些指令代码可由计算机中央处理单元(centralprocessing unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)等直接执行或通过代码解释、微代码执行等操作来执行。

这些指令可在多种类型的计算机或计算机组件中执行，包括，例如，个人计算机、平板电脑、服务器、智能电话、游戏设备、物联网设备等。

图12所示的计算机系统1200的组件仅仅是例子，而非旨在对实现本申请实施例的计算机软件的使用或功能范围做任何限制。也不应将组件的配置方式解释为对计算机系统1200的非限制性实施例中的任一部件或其组合具有任何的依赖性或要求。

计算机系统1200可以包括某些人机界面输入设备。这样的人机界面输入设备可以响应于一个或多个人类用户通过例如触觉输入(诸如键击、挥动、数据手套移动)、音频输入(诸如语音、拍击)、视觉输入(诸如姿势)、嗅觉输入(未示出)的输入。人机界面设备还可用于捕捉不必直接与人类有意识输入相关的某些介质，例如音频(诸如语音、音乐、环境声音)、图像(诸如扫描的图像、从静止图像相机获得的摄影图像)、视频(诸如二维视频，包括立体视频的三维视频)。

人机界面输入设备可包括以下项中的一种或多种(每一种仅描绘一个)：键盘1201、鼠标1202、触控板1203、触摸屏1210、数据手套、操纵杆1205、麦克风1206、扫描仪1207、照相机1208。

计算机系统1200还可以包括某些人机界面输出设备。这样的人机界面输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感觉。这种人机界面输出设备可以包括触觉输出设备(例如通过触摸屏1210、数据手套或操纵杆1205的触觉反馈，但是也可以有不用作输入设备的触觉反馈设备)。例如，这种设备可以是音频输出设备(诸如扬声器1209、耳机(未示出))、可视输出设备以及打印机(未示出)，其中可视输出设备诸如屏幕1210、虚拟现实眼镜(未示出)、全息显示器和烟雾箱(未示出)，屏幕1210包括阴极射线管(CRT)屏幕、液晶显示器(LCD)屏幕、等离子屏幕、有机发光二极管(OLED)屏幕，每一种都具有或不具有触摸屏输入能力，每一种都具有或不具有触觉反馈能力，这些屏幕中的一些能够通过手段(诸如立体图像输出)输出二维可视输出或多于三维的输出。

计算机系统1200还可以包括人类可访问的存储设备及其相关联的介质，诸如光学介质(包括具有CD/DVD的CD/DVDROM/RW1220)或类似介质1221、拇指驱动器1222、可移动硬盘驱动器或固态驱动器1223、传统磁介质(诸如磁带和软盘(未示出))、基于专用ROM/ASIC/PLD的设备(诸如安全加密狗(security dongle)(未示出))，等等。

本领域技术人员还应当理解，结合当前公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。

计算机系统1200还可以包括连接一个或多个通信网络的接口。网络可以是，例如，无线网络、有线网络、光网络。网络还可以是本地网、广域网、城域网、车联网的和工业网络、实时网络、延迟容忍网络等等。网络的示例包括局域网(诸如以太网、无线LAN)、蜂窝网络(包括全球移动通信系统(GSM)、第三代移动通信系统(3G)、第四代移动通信系统(4G)、第五代移动通信系统(5G)、长期演进(LTE)等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车辆和工业网络(包括CANBus)，等等。某些网络通常需要外部网络接口适配器，该外部网络接口适配器连接到某些通用数据端口或外围总线1249(诸如计算机系统1200的通用串行总线(USB)端口)；其他的通常通过如下所述连接到系统总线而集成到计算机系统1200的核心中(例如，进入个人计算机系统的以太网接口或进入智能手机计算机系统的蜂窝网络接口)。通过使用这些网络中的任何一个，计算机系统1200可以与其它实体通信。这种通信可以是使用局域或广域数字网络的到其它计算机系统的单向的、仅接收的(例如广播TV)、单向仅发送的(例如到某些CAN总线设备的CAN总线)或双向的通信。这种通信可以包括与云计算环境1255的通信。可以在如上所述的那些网络和网络接口中的每一个上使用某些协议和协议栈。

上述人机界面设备、人类可访问存储设备和网络接口1254可以连接到计算机系统1200的内核1240。

内核1240可以包括一个或多个中央处理单元(CPU)1241、图形处理单元(GPU)1242、以现场可编程门阵列(FPGA)1243形式存在的专用可编程处理单元、用于特定任务的硬件加速器1244等。这些设备，以及只读存储器(ROM)1245，随机存取存储器1246，内部大容量存储器(如内部非用户可访问硬盘驱动器，SSD)1247等，可以通过系统总线1248相互连接。在一些计算机系统中，系统总线1248可以以一个或多个物理插头的形式访问，从而通过附加的CPU，GPU等实现扩展。外围设备可以直接，或者通过外围总线1248，连接到内核的系统总线1249。外围总线的架构包括PCI，USB等。图形适配器1250可能包括在内核1240中。

CPU 1241、GPU 1242、FPGA 1243和加速器1244可以执行某些指令，这些指令组合起来可以构成前述的计算机代码。该计算机代码可以存储在ROM 1245或RAM 1246中。中间数据也可以存储在RAM 1246中，而永久数据可以存储在，例如，内部大容量存储器1247中。可以通过使用高速缓冲存储器来实现到任何存储器设备的快速存储和读取，高速缓存存储器可以与一个或多个CPU 1241、GPU 1242、大容量存储器1247、ROM 1245、RAM 1246等紧密关联。

计算机可读介质上可以具有计算机代码，在计算机代码上执行各种计算机执行的操作。介质和计算机代码可以是为本申请的目的而特别设计和构造的，也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。

作为示例而非限制，具有体系结构1200的计算机系统，特别是内核1240，可以提供处理器(包括CPU、GPU、FPGA、加速器等)执行在一个或多个有形的计算机可读介质中的软件而实现的功能。这样的计算机可读介质可以是与如上所述的用户可访问大容量存储器相关联的介质，以及非暂时性的内核1240的某些存储，诸如内核内部大容量存储器1247或ROM1245。实现本申请各实施例的软件可以存储在这样的设备中并由内核1240执行。根据特定需要，计算机可读介质可包括一个或多个存储器设备或芯片。该软件可以使内核1240，特别是其中的处理器(包括CPU，GPU，FPGA等)，执行本文描述的特定过程或特定过程的特定部分，包括定义存储在RAM1246中的数据结构，以及根据软件定义的过程修改这些数据结构。作为补充或作为替代，计算机系统可提供与电路(例如加速器1244中的逻辑硬连线或其它组件相同的功能，可代替软件或与软件一起操作以执行本文所述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(IC))，包括执行逻辑的电路，或两者兼备。本申请包括硬件和软件的任何适当组合。

虽然本申请已对多个非限制性实施例进行了描述，但实施例的各种变更、置换和各种替代属于本申请的范围内。因此应理解，本领域技术人员能够设计多种系统和方法，所述系统和方法虽然未在本文中明确展示或描述，但其体现了本申请的原则，因此属于本申请的精神和范围之内。

Claims

1.一种使用视频点云编解码对视频流进行编码的方法，其特征在于，所述方法由至少一个处理器执行，包括：

获取输入点云；

将所述输入点云划分为多个块，所述多个块包括第一块和第二块，所述第一块包括第一组多个点，所述第二块包括第二组多个点；

基于所述第一组多个点生成第一组多个图像块；

基于所述第二组多个点生成第二组多个图像块；

将所述第一组多个图像块和所述第二组多个图像块打包成图像；以及

基于所述图像生成所述视频流。

2.根据权利要求1所述的方法，其特征在于，进一步包括：

从所述输入点云中获取多个遗漏点，所述第一组多个点和所述第二组多个点不包括所述多个遗漏点；以及

基于所述图像和所述多个遗漏点生成所述视频流。

3.根据权利要求1所述的方法，其特征在于，进一步包括：

确定所述输入点云的边界框；

确定所述边界框的至少一个轴；以及

基于所述至少一个轴将所述输入点云划分为所述多个块。

4.根据权利要求3所述的方法，其特征在于，所述多个块沿所述至少一个轴中的最长轴或最短轴中的一个轴对齐。

5.根据权利要求3所述的方法，其特征在于，进一步包括：

确定所述输入点云的协方差矩阵的多个特征向量；

从所述多个特征向量中选择一个特征向量，其中，所述特征向量对应于所述多个特征向量的特征值中的最大特征值；

从所述至少一个轴中选择一个轴，其中，所述轴是所述至少一个轴中最接近所述特征向量的轴；以及

沿所述轴将所述输入点云划分为所述多个块。

6.根据权利要求3所述的方法，其特征在于，所述多个块沿所述至少一个轴中的第一轴和第二轴对齐。

7.根据权利要求6所述的方法，其特征在于，进一步包括：

确定所述输入点云的协方差矩阵的多个特征向量；

从所述多个特征向量中选择第一特征向量和第二特征向量，

其中，所述第一轴是所述至少一个轴中最接近所述第一特征向量的轴，以及

其中，所述第二轴是所述至少一个轴中最接近所述第二特征向量的轴。

8.根据权利要求1所述的方法，其特征在于，所述第一组多个点的数目等于所述第二组多个点的数目。

9.根据权利要求1所述的方法，其特征在于，所述输入点云表示人体；

其中，所述多个块是基于对所述输入点云进行身体部分分割而选择出的。

10.根据权利要求1所述的方法，其特征在于，所述视频流的元数据指示以下中的至少一个：是否使用组块对所述视频流进行编码的指示、所述多个块的数目、所述输入点云的边界框的原点，以及所述边界框的尺寸。

11.一种使用视频点云编解码对视频流进行编码的装置，其特征在于，所述装置包括：

至少一个存储器，用于存储程序代码；以及

至少一个处理器，用于读取所述程序代码并按照所述程序代码的指示进行操作，所述程序代码包括：

获取代码，用于使所述至少一个处理器获取输入点云；

划分代码，用于使所述至少一个处理器将所述输入点云划分为多个块，所述多个块包括第一块和第二块，所述第一块包括第一组多个点，所述第二块包括第二组多个点；

第一生成代码，用于使所述至少一个处理器基于所述第一组多个点生成第一组多个图像块；

第二生成代码，用于使所述至少一个处理器基于所述第二组多个点生成第二组多个图像块；

打包代码，用于使所述至少一个处理器将所述第一组多个图像块和所述第二组多个图像块打包成图像；以及

第三生成代码，用于使所述至少一个处理器基于所述图像生成所述视频流。

12.根据权利要求11所述的装置，其特征在于，所述获取代码包括第一获取代码，

其中，所述程序代码进一步包括：

第二获取代码，用于使所述至少一个处理器从所述输入点云中获取多个遗漏点，其中，所述第一组多个点和所述第二组多个点不包括所述多个遗漏点；以及

第四生成代码，用于使所述至少一个处理器基于所述图像和所述多个遗漏点生成所述视频流。

13.根据权利要求11所述的装置，其特征在于，所述程序代码进一步包括：

第一确定代码，用于使所述至少一个处理器确定所述输入点云的边界框；以及

第二确定代码，用于使所述至少一个处理器确定所述边界框的至少一个轴，以及

其中，所述划分代码进一步用于使所述至少一个处理器基于所述至少一个轴将所述输入点云划分为所述多个块。

14.根据权利要求13所述的装置，其特征在于，所述多个块沿所述至少一个轴中的最长轴或最短轴中的一个轴对齐。

15.根据权利要求13所述的装置，其特征在于，所述程序代码进一步包括：

第三确定代码，用于使所述至少一个处理器确定所述输入点云的协方差矩阵的多个特征向量；

第一选择代码，用于使所述至少一个处理器从所述多个特征向量中选择一个特征向量，其中，所述特征向量对应于所述多个特征向量的特征值中的最大特征值；

第二选择代码，用于使所述至少一个处理器从所述至少一个轴中选择一个轴，其中，所述轴是所述至少一个轴中最接近所述特征向量的轴，以及

其中，所述划分代码进一步用于使所述至少一个处理器沿所述轴将所述输入点云划分为所述多个块。

16.根据权利要求13所述的装置，其特征在于，所述多个块沿所述至少一个轴中的第一轴和所述至少一个轴中的第二轴对齐。

17.根据权利要求11所述的装置，其特征在于，所述第一组多个点的数目等于所述第二组多个点的数目。

18.根据权利要求11所述的装置，其特征在于，所述输入点云表示人体；

19.根据权利要求11所述的装置，其特征在于，所述视频流的元数据指示以下中的至少一个：是否使用组块对所述视频流进行编码的指示、所述多个块的数目、所述输入点云的边界框的原点，以及所述边界框的尺寸。

20.一种非易失性计算机可读介质，存储有计算机指令，所述计算机指令用于使用视频点云编解码对视频流进行编码，其特征在于，所述计算机指令在由至少一个处理器执行时使所述至少一个处理器：

获取输入点云；

基于所述第一组多个点生成第一组多个图像块；

基于所述第二组多个点生成第二组多个图像块；

基于所述图像生成所述视频流。