CN114341941A - 编解码点云的传递格式 - Google Patents

编解码点云的传递格式 Download PDF

Info

Publication number
CN114341941A
CN114341941A CN202080060356.8A CN202080060356A CN114341941A CN 114341941 A CN114341941 A CN 114341941A CN 202080060356 A CN202080060356 A CN 202080060356A CN 114341941 A CN114341941 A CN 114341941A
Authority
CN
China
Prior art keywords
image
channel
texture
geometry
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080060356.8A
Other languages
English (en)
Inventor
J.里卡德
T.吉勒姆
P.安德里冯
C.古德
Y.奥利维尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
Interactive Digital Vc Holding France
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Digital Vc Holding France filed Critical Interactive Digital Vc Holding France
Publication of CN114341941A publication Critical patent/CN114341941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

至少一个实施例涉及在两个处理单元或存储器之间传输三信道纹理图像和用于重构点云的几何形状的至少两个图像结构化数据。此类传输包括将该三信道纹理图像的三个信道复制到四信道图像的三个信道中,以及在该四信道图像的第四信道中存储组合信息,该组合信息是通过将该至少两个图像结构化数据组合到一起得到的。然后传输该四信道图像。

Description

编解码点云的传递格式
技术领域
本实施例中的至少一个总体上涉及点云的处理。特别地,呈现了在处理单元和存储器之间传输图像结构化数据,其中处理单元和存储器用于实施基于图像的点云解码器。
背景技术
本部分旨在向读者介绍本领域的各个方面,这些方面可能与以下描述和/或要求保护的本实施例中的至少一个实施例的各个方面有关。该讨论被认为有助于为读者提供背景信息以使其更好地理解至少一个实施例的各个方面。
点云可用于各种用途,诸如文化遗产/建筑物,其中雕像或建筑物等对象以3D扫描,以便共享该对象的空间配置,而无需传送或访问它。此外,这是一种确保在该对象可能被破坏时保存有关该对象的知识的方法;例如,地震后的寺庙。此类点云通常是静态的、彩色的和巨大的。
另一个用例是用于地形学和制图学,其中使用3D表示允许地图不限于平面并且可能包括浮雕。谷歌地图现在是3D地图的一个很好的示例,但使用网格而不是点云。尽管如此,点云可能是3D地图的合适数据格式,并且此类点云通常是静态的、彩色的和巨大的。
点云也可以用于汽车行业和自动驾驶汽车领域。自动驾驶汽车应该能够“探测”他们的环境,以基于其近邻的实际情况做出合适的驾驶决策。像LIDAR(光探测和测距)这样的典型传感器产生决策引擎使用的动态点云。这些点云不旨在由人类查看,并且它们通常很小,不一定是彩色的,并且是动态的,具有很高的捕获频率。这些点云可能具有其他属性,例如LIDAR提供的反射率,因为该属性提供了有关被感测对象的材料的良好信息,并可能有助于做出决策。
虚拟现实和沉浸式世界最近成为热门话题,并且被许多人预见为2D平面视频的未来。基本思想是让观众沉浸在其周围的环境中,这与标准TV不同,在标准TV中观众只能看到观众面前的虚拟世界。根据观众在环境中的自由度,沉浸感有几个层次。点云是用于分布虚拟现实(VR)世界的一种很好的候选格式。
在许多应用程序中,重要的是能够通过仅消耗合理数量的比特率(或存储应用程序的存储空间)将动态点云分发给最终用户(或将它们存储在服务器中),同时保持可接受的(或者最好是非常高)的体验质量。这些动态点云的有效压缩是使许多沉浸式世界的分布链实用的关键点。
考虑到上述内容,设计了至少一个实施例。
发明内容
为了提供对本公开的一些方面的基本理解,下文呈现了本实施例中的至少一个实施例的简化概述。该概述不是实施例的广泛综述。它不旨在标识实施例的关键或决定性元素。以下概述仅以简化形式呈现本实施例中的至少一个实施例的一些方面,作为本文其他地方提供的更详细描述的序言。
根据至少一个实施例的一般方面,提供了一种方法,包括在两个处理单元或存储器之间传输表示点云纹理的至少一个三信道纹理图像以及用于重构点云的几何形状的至少两个图像结构化数据,其中传输包括:
-将所述至少一个三信道纹理图像的三个信道复制到四信道图像的三个信道中;
-在所述四信道图像的第四信道中存储组合信息,该组合信息是通过将该至少两个图像结构化数据组合到一起得到的;以及
-传输该四信道图像。
此类方法可以用于例如重构该点云。
根据实施例,一个图像结构化数据是表示点云的几何形状的单色几何形状图像,而另一个图像结构化数据是占据图,在占据图中像素值指示纹理和单色几何形状图像的块是否包括点云的至少一个正交投影点,并且其中第四信道的像素值是单色几何形状图像的像素的偏差值与占据图中的共位像素的值的乘积。
根据实施例,一个图像结构化数据是表示点云的几何形状的单色几何形状图像,而另一个图像结构化数据是占据图,在占据图中像素值指示纹理和单色几何形状图像的块是否包括点云的至少一个正交投影点,并且其中第四信道的像素值是单色几何形状图像的像素值与占据图中的共位像素的值的乘积。
根据实施例,当需要发送多个单色几何形状图像和多个三信道纹理图像时,将至少两个三信道纹理图像的第一信道、第二信道和第三信道分别打包到该四信道图像的第一信道、第二信道和第三信道,以及将该组合信息存储在所述四信道图像的第四信道中,该组合信息是由该至少两个图像结构化数据组合到一起得到的。
根据实施例,将三信道纹理图像打包到四信道图像包括并排复制该纹理图像。
根据实施例,将三信道纹理图像打包到四信道图像包括将三信道纹理图像所表示的信息按照样式交替交织。
根据实施例,该第四信道是RGBA图像格式的阿尔法信道。
至少一个实施例中的一个或多个还提供了一种设备、一种计算机程序产品和一种非暂时性计算机可读介质。
本实施例中的至少一个实施例的具体性质以及所述至少一个本实施例的其他目的、优点、特征和用途将从以下结合附图对示例的描述中变得显而易见。
附图说明
在附图中,示出了几个实施例的示例。该附图显示:
图1示出了根据本实施例中的至少一个实施例的基于两层的点云编码结构的示例的示意框图;
图2示出了根据本实施例中的至少一个实施例的基于两层的点云解码结构的示例的示意框图;
图3示出了根据本实施例中的至少一个实施例的基于图像的点云编码器的示例的示意框图;
图3a示出了包括2个补丁和它们的2D边界框的画布的示例;
图3b示出了沿投影线位于两个3D样本之间的两个中间(in-between)3D样本的示例;
图4示出了根据本实施例中的至少一个实施例的基于图像的点云解码器的示例的示意框图;
图5示意性地示出了根据本实施例中的至少一个实施例的表示基础层BL的位流的语法示例;
图6示出了其中实现各个方面和实施例的系统的示例的示意框图;
图7示出了根据本实施例中的至少一个实施例在存储器之间传输图像结构化数据的方法的流程图;以及
图8示出了根据实施例的用于将图像结构化数据组合到一起的示例。
具体实施方式
下面将参照附图更全面地描述本实施例中的至少一个,其中示出了本实施例中的至少一个实施例的示例。然而,一个实施例可以以许多替代形式来体现,并且不应被解释为限于在此阐述的示例。因此,应当理解,并不意在将实施例限制为所公开的特定形式。相反,本公开旨在覆盖落入本申请的精神和范围内的所有修改、等效物和替代物。
当图以流程图的形式呈现时,应当理解其还提供了相应装置的框图。类似地,当图以框图形式呈现时,应当理解其也提供了相应方法/工艺的流程图。
图中相似或相同的元件用相同的附图标记表示。
下面描述和设想的方面可以以许多不同的形式实现。下面的图1-7提供了一些实施例,但其他实施例也是可以考虑的,并且对图1-7的讨论不限制实施方式的广度。
这些方面中的至少一个总体上涉及点云编码和解码,并且至少另一个方面总体上涉及发送生成或编码的位流。
更准确地说,本文描述的各种方法和其他方面可以用于实施模块,例如,本实施例可以通过几何形状RG(几何形状生成模块GGM的输出,模块4500)和该重构的点云RPCF(IRPCF)(纹理生成模块TGM的输出,模块4600)的一种混合器/组合器来实现。
此外,本方面不限于诸如与点云压缩有关的MPEG-I第5部分的MPEG标准,并且可以应用于例如其他标准和建议,无论是预先存在的还是未来开发的,以及任何此类标准和建议的扩展(包括MPEG-I第5部分)。除非另有说明或技术上排除,本申请中描述的各方面可以单独使用或组合使用。
在下文中,图像数据是指数据,例如,特定图像/视频格式的2D样本的一个或几个阵列。特定的图像/视频格式可以指定与图像(或视频)的像素值有关的信息。例如,特定图像/视频格式还可以指定可由显示器和/或任何其他装置用于可视化和/或解码图像(或视频)的信息。图像通常包括第一分量(又名信道(channel)),其形状为样本的第一个2D阵列,通常表示图像的亮度(luminance)(或亮度(luma))。图像还可以包括第二分量和第三分量,其形状为样本的其他2D阵列,通常表示图像的色度(chrominance)(或色度(chroma))。此类图像通常表示为三信道图像,诸如传统的三色RGB图像或YCbCr/YUV图像。
在一个或多个实施例中,像素值由C个值的矢量表示,其中C是分量(信道)的数量。矢量的每个值通常用多个位来表示,其中该位可以定义像素值的动态范围。
图像块是指属于图像的像素组。图像块(或图像块数据)的像素值是指属于该图像块的像素的值。尽管矩形很常见,但是图像块可以具有任意形状。
点云可以由3D体积空间内的3D样本数据集表示,这些3D样本具有唯一的坐标并且还可能具有一个或多个属性。
该数据集的3D样本可以由其空间定位(3D空间中的X、Y和Z坐标)定义,并且可能由一个或多个相关联的属性定义,诸如,颜色(例如在RGB或YUV颜色空间中表示的)、透明度、反射率、二分量法线矢量或表示该样本的特征的任何特征。例如,3D样本可以由6个分量(X、Y、Z、R、G、B)或等效的(X、Y、Z、y、U、V)定义,其中(X、Y、Z)定义3D空间中点的坐标,并且(R、G、B)或(y、U、V)定义此3D样本的颜色。同一类型的属性可以多次呈现。例如,多个颜色属性可以提供来自不同视点的颜色信息。
点云可以是静态的或动态的,取决于云是否随时间变化。静态点云或动态点云的实例通常表示为点云帧。需要注意的是,在动态点云的情况下,点的数量通常不是恒定的,相反,它通常会随时间变化。更一般地,如果任何事物都随时间变化,诸如例如点的数量、一个或多个点的位置或任何点的任何属性,则点云可以被认为是动态的。
例如,2D样本可以由6个分量(u、v、Z、R、G、B)或等效地(u、v、Z、y、U、V)定义。(u,v)定义投影平面的2D空间中的2D样本的坐标。Z是投影到该投影平面上的投影的3D样本的深度值。(R,G,B)或(y,U,V)定义此3D样本的颜色。
图1示出了根据本实施例中的至少一个实施例的基于两层的点云编码结构1000的示例的示意框图。
该基于两层的点云编码结构1000可以提供表示输入点云帧IPCF的位流B。可能的是,所述输入点云帧IPCF表示动态点云的帧。然后,可以通过该基于两层的点云编码结构1000独立于另一帧对所述动态点云的帧进行编码。
基本上,该基于两层的点云编码结构1000可以提供将该位流B结构化为基础层BL和增强层EL的能力。该基础层BL可以提供输入点云帧IPCF的有损表示,并且该增强层EL可以通过编码该基础层BL未表示的孤立点来提供更高质量(可能无损)的表示。
如图3所示,该基础层BL可以由基于图像的编码器3000提供。所述基于图像的编码器3000可以提供表示该输入点云帧IPCF的3D样本的几何形状/属性的几何形状/纹理图像。它可能允许丢弃孤立的3D样本。该基础层BL可以由如图4所示的基于图像的解码器4000解码,其可以提供中间重构点云帧IRPCF。
然后,回到图1中该基于两层的点云编码1000,比较器COMP可以将该输入点云帧IPCF的3D样本与中间重构点云帧IRPCF的3D样本进行比较,以便检测/定位丢失的/孤立的3D样本。接下来,编码器ENC可以对该丢失的3D样本进行编码并且可以提供该增强层EL。最后,该基础层BL和该增强层EL可以通过复用器MUX复用在一起,以生成该位流B。
根据一个实施例,该编码器ENC可以包括检测器,该检测器可以检测该中间重构点云帧IRPCF的3D参考样本R并将其与丢失的3D样本M相关联。
例如,根据给定度量,与丢失的3D样本M相关联的3D参考样本R可以是M的最近邻。
根据实施例,该编码器ENC然后可以将丢失的3D样本M的空间定位及其属性编码为根据所述3D参考样本R的空间定位和属性确定的差异。
在变体中,那些差异可以被单独编码。
例如,对于丢失的3D样本M,具有空间坐标x(M)、y(M)和z(M),则x坐标位置差Dx(M),y坐标位置差Dy(M)、z坐标位置差Dz(M)、R属性分量差Dr(M)、G属性分量差Dg(M)和B属性分量差Db(M)可以按如下公式计算:
Dx(M)=x(M)-x(R),
其中x(M)是该3D样本M的x坐标,分别是图3提供的几何形状图像中的R,
Dy(M)=y(M)-y(R)
其中y(M)是该3D样本M的y坐标,分别是图3提供的几何形状图像中的R,
Dz(M)=z(M)-z(R)
其中z(M)是该3D样本M的z坐标,分别是图3提供的几何形状图像中的R,
Dr(M)=R(M)-R(R)。
其中R(M)和R(R)分别是该3D样本M和R的颜色属性的r颜色分量,
Dg(M)=G(M)-G(R)。
其中G(M)和G(R)分别是该3D样本M和R的颜色属性的g颜色分量,
Db(M)=B(M)-B(R)。
其中B(M)和B(R)分别是该3D样本M和R的颜色属性的b颜色分量。
图2示出了根据本实施例中的至少一个实施例的基于两层的点云解码结构2000的示例的示意框图。
该基于两层的点云解码结构2000的行为取决于其能力。
具有有限能力的基于两层的点云解码结构2000可以通过使用解复用器DMUX仅访问来自该位流B的基础层BL,然后可以通过由图4所示的点云解码器4000对该基础层BL进行解码来提供该输入点云帧IRCF的准确(但有损)版本的IRPCF。
具有完全能力的基于两层的点云解码结构2000可以通过使用解复用器DMUX从该位流B访问该基础层BL和该增强层EL两者。如图4所示,该点云解码器4000可以从该基础层BL确定该中间重构点云帧IRPCF。该解码器DEC可以从该增强层EL确定互补点云帧CPCF。然后,组合器COMB可以将该中间重构点云帧IRPCF和该互补点云帧CPCF组合在一起,从而提供输入点云帧IPCF的更高质量(可能无损)表示(重构)CRPCF。
图3示出了根据本实施例中的至少一个实施例的基于图像的点云编码器3000的示例的示意框图。
该基于图像的点云编码器3000利用现有的视频编解码器来压缩动态点云的几何形状和纹理(属性)信息。这是通过本质上将该点云数据转换为一组不同的视频序列来实现的。
在特定实施例中,可以使用现有的视频编解码器生成和压缩两个视频,一个用于捕获该点云数据的几何形状信息,另一个用于捕获纹理信息。现有的视频编解码器的一个示例是HEVC主要配置文件编码器/解码器(ITU(02/2018)ITU-T H.265电信标准化部门,H系列:视听和多媒体系统,视听服务基础设施-移动视频编解码,高效视频编解码,ITU-TH.265建议书)。
用于解释两个视频的附加元数据通常也会单独生成和压缩。这样的附加元数据包括例如占据图OM和/或辅助补丁信息PI。
然后可以将该生成的视频位流和该元数据复用在一起以生成组合位流。
应该注意的是,该元数据通常代表一小部分的整体信息。大部分信息都在该视频位流中。
执行ISO/IEC JTC1/SC29/WG11 MPEG2019/w18180(2019年1月,马拉喀什)中定义的MPEG草案标准的测试模型类别2算法(也表示为V-PCC)给出了这种点云编码/解码过程的示例)。
在步骤3100中,模块PGM可以通过使用提供最佳压缩的策略将表示该输入点云帧IPCF的数据集的3D样本分解为投影平面上的2D样本来生成至少一个补丁。
补丁可以定义为2D样本组。
例如,在V-PCC中,如Hoppe等人(Hugues Hoppe,Tony DeRose,Tom Duchamp,JohnMcDonald,Werner Stuetzle。无组织点的表面重构(Surface reconstruction fromunorganized points)。ACM SIGGRAPH 1992 Proceedings,71-78)所述,首先估计每个3D样本的法线。接下来,通过将每个3D样本与3D边界框的六个定向平面之一相关联,获得该输入点云帧IPCF的初始集群,其中该3D边界框涵盖该输入点云帧IPCF的3D样本。更准确地说,每个3D样本都被集群并与具有最接近法线的定向平面相关联(即最大化点法线和平面法线的标量积)。然后将该3D样本投影到它们相关的平面上。在其平面上形成连接区域的3D样本组被称为连接分量。连接分量是一组至少一个具有相似法线和相同关联定向平面的3D样本。然后,通过基于每个3D样本的法线和最邻近样本的集群迭代地更新与每个3D样本相关联的集群来细化初始集群。最后一步包括从每个连接组件生成一个补丁,这是通过将每个连接组件的3D样本投影到与所述连接组件相关联的定向平面上来完成的。补丁与辅助补丁信息PI相关联,该辅助补丁信息PI表示为每个补丁定义的辅助补丁信息,以解释对应于该几何形状和/或属性信息的投影2D样本。
例如,在V-PCC中,该辅助补丁信息PI包括1)指示涵盖连接分量的3D样本的3D边界框的六个定向平面之一的信息;2)与该平面法线相关的信息;3)确定连接分量相对于以深度、切向偏移和双切向偏移表示的补丁的3D定位的信息;和4)诸如投影平面中的坐标(u0,v0,u1,v1)等信息,该投影平面定义了涵盖补丁的2D边界框。
在步骤3200,补丁打包模块PPM可以将至少一个生成的补丁映射(放置)到2D网格(也称为画布)上,而不会以通常最小化未使用空间的方式进行任何重叠,并且可以保证该2D网格的每个TxT(例如,16x16)块与唯一的补丁相关联。该2D网格的给定最小块尺寸TxT可以指定放置在该2D网格上的不同补丁之间的最小距离。该2D网格的分辨率可以取决于该输入点云的尺寸,并且其宽度W和高度H以及块尺寸T可以作为元数据发送到该解码器。
该辅助补丁信息PI还可以包括与该2D网格的块和补丁之间的关联相关的信息。
在V-PCC中,该辅助信息PI可以包括块到补丁指数信息(BlockToPatch),其中该块到补丁指数信息(BlockToPatch)确定该2D网格的块与补丁指数之间的关联。
图3a示出了画布C的示例,其中该画布C包括2个补丁P1和P2以及它们的相关联的2D边界框B1和B2。注意两个边界框可以在如图3a所示的画布C中重叠。该2D网格(该画布的分割)仅仅在该边界框里表示,但是该画布的分割也存在于那些边界框外部。与补丁相关联的边界框可以被分割为TxT块,通常T=16。
包含属于补丁的2D样本的TxT块可以被认为是占用块。该画布的每个占用块由占据图OM(三信道图像)中的特定像素值表示(例如1),并且该画布的每个未占用块由另一个特定值(例如0)表示。然后,该占据图OM的像素值可以指示该画布的TxT块是否被占用,即包含属于补丁的2D样本。
在图3a中,占用块由白色块表示,并且浅灰色块表示未占用块。该图像生成过程(步骤3300和3400)利用该至少一个生成的补丁到在步骤3200期间计算的2D网格的映射,以将该输入点云帧IPCF的几何形状和纹理存储为图像。
在步骤3300中,几何形状图像生成器GIG可以从该输入点云帧IPCF、该占据图OM和该辅助补丁信息PI生成至少一个几何形状图像GI。该几何形状图像生成器GIG可以利用该占据图信息来检测(定位)该占用块,从而检测(定位)该几何形状图像GI中的非空像素。
几何形状图像GI可以表示该输入点云帧IPCF的几何形状,并且可以是WxH像素的,例如以YUV420-8bit(位)格式表示的单色图像。
为了更好地处理多个3D样本(沿着相同的投影方向(线))被投影(映射)到该投影平面的相同2D样本的情况,可以生成多个图像,称为层。因此,不同的深度值D1、…、Dn可以与补丁的2D样本相关联,然后可以生成多个几何形状图像。
在V-PCC中,补丁的2D样本被投影到两层上。第一层,也称为近层,可以存储例如与具有较小深度的2D样本相关联的深度值D0。第二层,也称为远层,可以存储例如与具有较大深度的2D样本相关联的深度值D1。可替代地,该第二层可以存储深度值D1和D0之间的差值。例如,该第二深度图像存储的信息可以在范围[D0,D0+Δ]中的深度值对应的区间[0,Δ]内,其中Δ是描述表面厚度的用户自定义参数。
通过这种方式,该第二层可以包含显著的轮廓状高频特点。因此,很明显,该第二深度图像可能难以通过使用传统视频编解码器进行编解码,因此,该深度值不大可能从所述解码的第二深度图像重构,这导致该重构的点云帧的几何形状质量较差。
根据实施例,该几何形状图像生成模块GIG可以通过使用辅助补丁信息PI来编解码(导出)与该第一层和第二层的2D样本相关联的深度值。
在V-PCC中,3D样本在具有相应连接分量的补丁中的定位可以用深度δ(u,v)、切向偏移s(u,v)和双切向偏移r(u,v)来表示为如下式:
δ(u,v)=δ0+g(u,v)
s(u,v)=s0-u0+u
r(u,v)=r0-v0+v
其中g(u,v)是几何形状图像的亮度分量,(u,v)是与投影平面上的3D样本相关联的像素,(δ0,s0,r0)是该3D样本所属的连接分量的对应补丁的3D定位,并且(u0,v0,u1,v1)是所述投影平面中的坐标,该投影平面定义了涵盖与所述连接分量相关联的补丁的投影的2D边界框。
因此,几何形状图像生成模块GIG可以将与层(第一层或第二层或两者)的2D样本相关联的深度值编解码(导出)为由下式给出的亮度分量g(u,v):g(u,v)=δ(u,v)-δ0。注意,该关系可用于从具有伴随的辅助补丁信息PI的重构几何形状图像g(u,v)重构3D样本定位(δ0,s0,r0)。
根据实施例,可以使用投影模式来指示第一几何形状图像GI0是否可以存储第一层或第二层的2D样本的深度值,并且第二几何形状图像GI1是否可以存储与第二层或第一层的2D样本相关联的深度值。
例如,当投影模式等于0时,则第一几何形状图像GI0可以存储第一层的2D样本的深度值,而第二几何形状图像GI1可以存储与第二层的2D样本相关联的深度值。反过来,当投影模式等于1时,则第一几何形状图像GI0可以存储第二层的2D样本的深度值,而第二几何形状图像GI1可以存储与第一层的2D样本相关联的深度值。
根据实施例,可以使用帧投影模式来指示是否对所有补丁使用固定投影模式或者是否使用可变投影模式,在可变投影模式中每个补丁可以使用不同的投影模式。
该投影模式和/或帧投影模式可以作为元数据发送。
例如,可以在V-PCC的第2.2.1.3.1节中提供帧投影模式决策算法。
根据实施例,当该帧投影指示可以使用可变投影模式时,可以使用补丁投影模式来指示用于(去)投影补丁的适当模式。
补丁投影模式可以作为元数据被发送并且可能是包括在该辅助补丁信息PI中的信息。
例如,在V-PCC的第2.2.1.3.2节中提供补丁投影模式决策算法。
根据步骤3300的实施例,第一几何形状图像中的像素值,例如GI0,对应于补丁的2D样本(u,v),可以表示沿对应于所述2D样本(u,v)的投影线定义的至少一个中间(in-between)3D样本的深度值。更准确地说,所述中间3D样本处于投影线并且共享该2D样本(u,v)的相同坐标,2D样本(u,v)的深度值D1被编解码在第二几何形状图像例如GI1中。进一步地,所述中间3D样本可以具有深度值D0和深度值D1之间的深度值。指定位可以与每个所述中间3D样本相关联,如果中间3D样本存在则指定位设置为1,否则指定位设置为0。
图3b示出了沿投影线PL位于两个3D样本P0和P1之间的两个中间3D样本Pi1和Pi2的示例。该3D样本P0和P1分别具有等于D0和D1的深度值。两个中间3D样本Pi1和Pi2的深度值Di1和Di2分别大于D0并且小于D1。
然后,沿所述投影线的所有所述指定位可以被串联以形成码字,以下称为增强占据图(EOM)码字。如图3b所示,假设EOM码字长度为8位,其中2位等于1以指示两个3D样本Pi1和Pi2的定位。最后,所有的EOM码字可以打包在一个图像中,例如,该占据图OM。在那种情况下,该画布的至少一个补丁可以包含至少一个EOM码字。这样的补丁被表示为参考补丁并且参考补丁的块被表示为EOM参考块。因此,该占据图OM的像素值可以等于第一值,例如0,以指示该画布的未占用块,或另一个值,例如大于0,以指示该画布的占用块,例如当D1-D0<=1时,或例如当D1-D0>1时,表示该画布的EOM参考块。
在该占据图OM中指示EOM参考块的像素的定位和从那些像素的值获得的EOM码字的位值指示该中间3D样本的3D坐标。
在步骤3400中,纹理图像生成器TIG可以从该输入点云帧IPCF、该占据图OM、该辅助补丁信息PI和从至少一个解码的几何形状图像DGI导出的重构点云帧的几何形状生成至少一个纹理图像TI,和视频解码器VDEC的输出(图4中的步骤4200)。
纹理图像TI是三信道图像,可以表示该输入点云帧IPCF的纹理,并且可以是WxH像素的图像,例如以YUV420-8位格式或RGB444-8位格式表示。
该纹理图像生成器TG可以利用该占据图信息来检测(定位)该占用块,从而检测(定位)该纹理图像中的非空像素。
该纹理图像生成器TIG可以适于生成纹理图像TI并将其与每个几何形状图像/层DGI相关联。
根据实施例,该纹理图像生成器TIG可以将与第一层的2D样本相关联的纹理(属性)值T0编解码(存储)为第一纹理图像TI0的像素值,并且将与第二层的2D样本相关联的纹理值T1编解码(存储)为第二纹理图像TI1的像素值。
可替代地,该纹理图像生成模块TIG可以将与第二层的2D样本相关联的纹理值T1编解码(存储)为第一纹理图像TI0的像素值,并且将与第一层的2D样本相关联的纹理值D0编解码(存储)为第二几何形状图像GI1的像素值。
例如,可以如V-PCC的第2.2.3、2.2.4、2.2.5、2.2.8或2.5节中所述获得3D样本的颜色。
两个3D样本的纹理值被存储在第一或第二纹理图像中。但是,中间3D样本的纹理值既不能存储在该第一纹理图像TI0也不能存储在第二纹理图像TI1中,因为该投影的中间3D样本的定位对应于已经用于存储如图3b所示的另一个3D样本(P0或P1)的纹理值的占用块。因此,中间3D样本的纹理值被存储在位于程序定义的定位的第一或第二纹理图像中其他位置的EOM纹理块中(V-PCC的第9.4.5节)。简而言之,该过程确定纹理图像中未占用块的定位,并将与中间3D样本相关联的纹理值存储为该纹理图像的所述未占用块的像素值,表示为EOM纹理块。
根据一个实施例,可以在几何形状和/或纹理图像上应用填充过程。该填充过程可以用于充满补丁之间的空白空间,以生成适合视频压缩的分段平滑图像。
V-PCC的2.2.6和2.2.7节提供了图像填充示例。
在步骤3500中,视频编码器VENC可以对生成的图像/层TI和GI进行编码。
在步骤3600中,编码器OMENC可以将该占据图编码为图像,例如在V-PCC的第2.2.2节中详述。可以使用有损或无损编码。
根据实施例,该视频编码器ENC和/或OMENC可以是基于HEVC的编码器。
在步骤3700中,编码器PIENC可以对该辅助补丁信息PI和可能的附加元数据(诸如几何形状/纹理图像的块尺寸T、宽度W和高度H)进行编码。
根据实施例,可以对该辅助补丁信息进行差分编码(如例如在V-PCC的第2.4.1节中所定义的)。
在步骤3800中,可以将复用器应用于步骤3500、3600和3700的生成的输出,结果这些输出可以被复用在一起以便生成代表该基础层BL的位流。应该注意的是,该元数据信息代表整体位流的一小部分。使用该视频编解码器将大部分信息压缩。
图4示出了根据本实施例中的至少一个实施例的基于图像的点云解码器4000的示例的示意框图。
在步骤4100中,可以应用解复用器DMUX来解复用表示该基础层BL的位流的编码信息。
在步骤4200中,视频解码器VDEC可以对编码的信息进行解码以导出至少一个解码的几何形状图像DGI和至少一个解码的纹理图像DTI。
在步骤4300中,解码器OMDEC可以对编码的信息进行解码以导出解码的占据图DOM。
根据实施例,该视频解码器VDEC和/或OMDEC可以是基于HEVC的解码器。
在步骤4400中,解码器PIDEC可以对编码的信息进行解码以导出辅助补丁信息DPI。
可能,元数据也可以从位流BL中导出。
在步骤4500中,几何形状生成模块GGM可以从该至少一个解码的几何形状图像DGI、该解码的占据图DOM、该解码的辅助补丁信息DPI和可能的附加元数据导出重构点云帧IRPCF的几何形状RG。
该几何形状生成模块GGM可以利用该解码的占据图信息DOM以便在至少一个解码的几何形状图像DGI中定位该非空像素。
如上所述,基于该解码的占据信息DOM的像素值和D1-D0的值,所述非空像素属于占用块或EOM参考块。
根据步骤4500的实施例,该几何形状生成模块GGM可以从非空像素的坐标导出中间3D样本的3D坐标中的两个。
根据步骤4500的实施例,当所述非空像素属于所述EOM参考块时,该几何形状生成模块GGM可以从该EOM码字的位值中导出中间3D样本的3D坐标中的第三个。
例如,根据图3b的示例,该EOM码字EOMC用于确定中间3D样本Pi1和Pi2之间的3D坐标。该中间3D样本Pi1的第三坐标可以例如从D0通过Di1=D0+3导出,并且该重构的3D样本Pi2的第三坐标可以例如从D0通过Di2=D0+5导出。该偏移值(3或5)是D0和D1之间沿该投影线的间隔数。
根据实施例,当所述非空像素属于占用块时,该几何形状生成模块GGM可以从非空像素的坐标、该至少一个解码的几何形状图像DGI中的一个的所述非空像素的值、该解码的辅助补丁信息、并且可能从附加元数据中推导出重构的3D样本的3D坐标。
非空像素的使用基于2D像素与3D样本的关系。例如,使用V-PCC中的所述投影,重构的3D样本的3D坐标可以根据深度δ(u,v)、切向偏移s(u,v)和双切向偏移r(u,v)来表示为如下式:
δ(u,v)=δ0+g(u,v)
s(u,v)=s0 u0+u
r(u,v)=r0 v0+v
其中g(u,v)是解码的几何形状图像DGI的亮度分量,(u,v)是与重构的3D样本相关联的像素,(δ0,s0,r0)是连接分量的3D定位,其中该重构的3D样本属于该连接分量,并且(u0,v0,u1,v1)是定义2D边界框的投影平面中的坐标,该2D边界框涵盖与所述连接分量相关联的补丁的投影。
在步骤4600中,纹理生成模块TGM可以从该几何形状RG和该至少一个解码的纹理图像DTI导出该重构点云帧IRPCF的纹理。
根据步骤4600的实施例,该纹理生成模块TGM可以从对应的EOM纹理块中导出属于EOM参考块的非空像素的纹理。纹理图像中EOM纹理块的定位由程序定义(V-PCC的第9.4.5节)
根据步骤4600的实施例,该纹理生成模块TGM可以将属于占用块的非空像素的纹理直接导出为第一纹理图像或第二纹理图像的像素值。
图5示意性地示出了根据本实施例中的至少一个实施例的表示基础层BL的位流的示例语法。
位流包括位流标头SH和至少个帧流组GOFS(Group Of Frame Stream)。
帧流组GOFS包括头HS、代表占据图OM的至少一个语法元素OMS、代表至少一个几何形状图像(或视频)的至少一个语法元素GVS、代表至少一个纹理图像(或视频)的至少一个语法元素TVS、和代表辅助补丁信息和其他附加元数据的至少一个语法元素PIS。
在一个变型中,帧流组GOFS包括至少一个帧流。
图6显示了示出其中实现各个方面和实施例的系统的示例的示意框图。
系统6000可以体现为包括以下描述的各种组件的一个或多个设备并且被配置为执行本文件中描述的方面的一个或多个。可以形成系统6000的全部或部分的器件的示例包括个人计算机、膝上型计算机、智能手机、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频记录系统、连接的家用电器、连接的车辆及其相关的处理系统、头戴式显示设备(HMD、透视眼镜)、投影仪(投影机)、“洞见(cave)”(包括多个显示器的系统)、服务器、视频编码器、视频解码器、处理视频解码器输出的后处理器、向视频编码器提供输入的预处理器、网络服务器、机顶盒、和任何其他用于处理点云、视频或图像或其他通信设备的设备。系统6000的元件可以单独地或组合地体现在单个集成电路、多个IC和/或分立组件中。例如,在至少一个实施例中,系统6000的处理和编码器/解码器元件可以被分布在多个IC和/或分立组件上。在各种实施例中,该系统6000可以经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他类似系统或其他电子设备。在各种实施例中,该系统6000可以被配置为实现本文件中描述的方面中的一个或多个。
该系统6000可以包括至少一个处理器6010,其被配置为执行加载在其中的指令以实现例如本文件中描述的各个方面。处理器6010可以包含嵌入式存储器、输入输出接口和本领域已知的各种其他电路。该系统6000可以包括至少一个存储器6020(例如易失性存储设备和/或非易失性存储设备)。系统6000可以包括存储设备6040,该存储设备可以包括非易失性存储器和/或易失性存储器,包括但不限于电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,该存储设备6040可以包含内部存储设备、附加存储设备和/或网络可访问存储设备。
该系统6000可以包括编码器/解码器模块6030,其被配置为例如处理数据以提供编码的数据或解码的数据,并且该编码器/解码器模块6030可以包括其自己的处理器和存储器。该编码器/解码器模块6030可以表示可以被包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可以包含编码和解码模块之一或两者。附加地,编码器/解码器模块6030可以作为系统6000的单独元件来实现或者可以作为本领域技术人员已知的硬件和软件的组合并入处理器6010内。
将被加载到处理器6010或编码器/解码器6030上以执行本文件中描述的各个方面的程序代码可以被存储在存储设备6040中并且随后被加载到存储器6020上以供处理器6010执行。根据各种实施例,处理器6010、存储器6020、存储设备6040和编码器/解码器模块6030中的一个或多个可以在本文件中描述的过程的执行期间存储各种项目中的一个或多个。此类存储项目可以包括但不限于点云帧、编码/解码的几何形状/纹理视频/图像或该编码/解码的几何形状/纹理视频/图像的一部分、位流、矩阵、变量以及来自等式、公式、运算和运算逻辑处理的中间或最终结果。
在一些实施例中,该处理器6010和/或编码器/解码器模块6030内部的存储器可以用于存储指令并提供用于在编码或解码期间执行的处理的工作存储器。
然而,在其他实施例中,处理设备外部的存储器(例如,处理设备可以是处理器6010或编码器/解码器模块6030)可以用于这些功能中的一个或多个。外部存储器可以是存储器6020和/或存储设备6040,例如动态易失性存储器和/或非易失性快闪存储器。在一些实施例中,外部非易失性快闪存储器可以用于存储电视的操作系统。在至少一个实施例中,诸如RAM之类的快速外部动态易失性存储器可以用作用于视频编解码和解码操作的工作存储器,诸如用于MPEG-2第2部分(也称为ITU-T建议H.262和ISO/IEC 13818-2,也称为MPEG-2视频)、HEVC(高效视频编解码)或VVC(多功能视频编解码)。
如框6130所示,可以通过各种输入设备提供对系统6000的元件的输入。这种输入设备包括但不限于(i)可以接收RF信号的RF部分,例如,由广播公司通过空中传输,(ii)复合输入终端,(iii)USB输入终端,和/或(iv)HDMI输入终端。
在各种实施例中,框6130的输入设备可以具有相关联的本领域已知的相应输入处理元件。例如,RF部分可以与以下操作所必需的元件相关联:(i)选择期望频率(也称为选择信号,或将信号带限制为频带),(ii)下变频所选信号,(iii)再次将带限制到更窄的频带以选择(例如)在某些实施例中可以称为信道的信号频带,(iv)解调下变频和带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据打包流。各种实施例的RF部分可以包括一个或多个元件来执行这些功能,例如频率选择器、信号选择器、带限器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可以包括执行这些功能中的各种功能的调谐器,包括例如将接收到的信号下变频到较低频率(例如,中频或近基带频率)或到基带。
在一个机顶盒实施例中,该RF部分及其相关联的输入处理元件可以接收通过有线(例如,电缆)介质发送的RF信号。然后,该RF部分可以通过滤波、下变频和再次滤波到期望的频带来执行频率选择。
各种实施例重新排列上述(和其他)元素的顺序,移除这些元素中的一些,和/或添加执行类似或不同功能的其他元素。
添加元件可以包括在现有元件之间插入元件,诸如,插入放大器和模数转换器。在各种实施例中,该RF部分可以包括天线。
附加地,USB和/或HDMI终端可以包含相应的接口处理器,用于通过USB和/或HDMI连接将系统6000连接到其他电子设备。应当理解,输入处理的各个方面,例如里德-所罗门纠错,可以根据需要在例如单独的输入处理IC内或在处理器6010内实现。类似地,USB或HDMI接口处理的各方面可以根据需要在单独的接口IC内或在处理器6010内实现。解调、纠错和解复用的流可以被提供给各种处理元件,包括例如处理器6010和编码器/解码器6030,它们与存储器和存储元件结合操作以根据需要处理该数据流以呈现在输出设备上。
系统6000的各种元件可以设置在集成外壳内。在集成外壳内,各种元件可以使用合适的连接布置6140互连并在其间传输数据,例如本领域已知的内部总线,包含I2C总线、布线和印刷电路板。
该系统6000可以包括能够通过通信信道6060与其他设备进行通信的通信接口6050。该通信接口6050可以包含但不限于被配置为通过通信信道6060传输和接收数据的收发器。该通信接口6050可以包含但不限于调制解调器或网卡,并且通信信道6060可以例如在有线和/或无线介质内实现。
在各种实施例中,可以使用诸如IEEE 802.11的Wi-Fi网络将数据流式传输到该系统6000。这些实施例的Wi-Fi信号可以通过适用于Wi-Fi通信的通信信道6060和通信接口6050接收。这些实施例的通信信道6060通常可以连接到接入点或路由器,该访问点或路由器提供对包括因特网在内的外部网络的访问,以允许流应用程序和其他云上通信。
其他实施例可以使用通过输入块6130的HDMI连接发出数据的机顶盒向系统6000提供流数据。
其他实施例可以使用输入块6130的RF连接向该系统6000提供流数据。
应当理解,可以以多种方式实现信令发送。例如,在各种实施例中,一个或多个语法元素、标志等可以用于向对应的解码器信令发送信息。
该系统6000可以向各种输出设备提供输出信号,包含显示器6100、扬声器6110和其他外围设备6120。在实施例的各种示例中,其他外围设备6120可以包括独立型DVR、磁盘播放器、立体声系统、照明系统以及基于系统3000的输出提供功能的其他设备中的一个或多个。
在各种实施例中,控制信号可以在该系统6000和该显示器6100、扬声器6110或其他外围设备6120之间使用诸如AV.Link(音频/视频链接)、CEC(消费者电子设备控制)之类的信令或允许使用或不允许使用用户干预进行设备到设备控制的其他通信协议进行通信。
该输出设备可以通过各自的接口6070、6080和6090经由专用连接通信地耦接到系统6000。
可替代地,该输出设备可以经由通信接口6050使用通信信道6060连接到系统6000。该显示器6100和扬声器6110可以与系统6000的其他组件一起集成在电子设备(例如诸如,电视机)中的单个单元中。
在各种实施例中,该显示接口6070可以包括显示驱动器,例如定时控制器(T Con)芯片。
例如,如果输入6130的RF部分是单独机顶盒的一部分,则显示器6100和扬声器6110可以替代地与多个其他组件中的一个或分开。在显示器6100和扬声器6110可以是外部组件的各种实施例中,可以经由专用输出连接提供输出信号,包括例如HDMI端口、USB端口或COMP输出。
在实施基于图像的点云解码器时,诸如图4的V-PCC解码器,在推导重构点云的几何形状(RG)和纹理之前,重构点云需要首先对几何形状(DGI)和纹理(DTI)图像以及附加图像结构化数据(诸如占据图(DOM)或块到补丁指数信息(BlockToPatch)、辅助补丁信息(DPI)的一部分)进行解码。该解码的纹理和几何形状图像、该解码的占据图和该块到补丁指数信息是图像结构化数据,即它们指的是在2D数组中组织的数据。这些2D数组的元素的值和这些元素在这些2D数组中的2D定位都是重构该点云的相关信息。例如,该解码的占据图DOM的像素值指示TxT块是被占用还是未被占用,如上所述(图3a)。该2D数组中像素的2D定位指示该解码的几何形状和纹理图像中TxT块的2D定位。作为另一个示例,该块到补丁指数信息(单色图像)的像素值指示块的补丁指数,并且该像素在2D数组中的2D定位指示该块在该解码的几何形状和纹理图像中的2D定位。
通常,解码图像结构化数据可以使用专用处理单元/存储器来实现,并且从该解码图像重构点云可以通过使用其他专用处理单元/存储器来实现。因此,需要在这些专用处理单元/存储器的接口之间复制图像结构化数据。通常,此类接口使用三个图像信道,通常是YUV420-8位格式(或RGB444-8位)。在最近的处理单元上,相同的接口通常用于并行实现,并且这些接口非常适合传输多个(为3的倍数)图像信道,诸如三信道图像或两个三信道图像,或3个单色图像等。但是,当要复制的图像信道的数量不是3的倍数时,例如要发送三信道图像和2个单色图像(则必须复制5个图像信道),则复制了2个接口,每个接口使用一个三信道图像,这导致带宽问题,因为这5个图像信道中的2个没有用。例如,传输解码的三信道纹理图像DTI、该解码的占据图DOM(其中每个像素值表示二进制信息)和单色几何形状图像DGI(或由单色图像表示的块到补丁指数信息)会出现问题,因为一个接口用于复制该三信道纹理图像的三个信道,并且第二个接口用于复制其他两个要传输的信道。例如,这两个信道之一用于复制该解码的占据图DOM的二进制信息,而另一个信道用于复制该单色几何形状图像DGI的像素值,或者这两个信道之一用于复制该解码的占据图DOM的二进制信息而另一个信道用于复制块到补丁指数信息。然而,该第二个接口的信道没有用,引起带宽问题。
因此,从内存占用空间的角度来看,复制表示此类图像结构化数据的此类三信道图像效率低下,并且需要大数据路径来传输重构点云所需的图像信道。
优化内存传输的一种直接解决方案可能是将该解码的图像结构化数据展开并复制到1D数组中。然而,这种解决方案破坏了该图像结构化数据的初始整形/格式化,从而丢失了相关的2D定位信息。这可能是一个问题,因为V-PCC点云重构过程需要此类2D定位信息,例如,该占据图DOM的像素的2D定位信息或解码的几何形状图像DGI的2D定位信息或表示块到补丁指数信息的单色图像的2D定位信息。
根据本原理中的至少一个,在两个处理单元或存储器之间传输三信道纹理图像和用于重构该点云的几何形状的至少两个图像结构化数据包括将该三信道纹理图像的三个信道复制到四信道图像的三个信道,并将该至少两个图像结构化数据组合到一起得到的组合信息存储到该四信道图像的第四信道中。然后传输该四信道图像。
图像结构化数据的存储器之间的传输带宽因此得到优化,因为与每个图像结构化数据通常传输三信道图像相比,该图像结构化数据仅传输(复制)四信道图像,同时保留该发送数据的2D结构。
图7示出了根据本实施例中的至少一个在处理单元/存储器之间传输图像结构化数据的方法的流程图。
在步骤71中,将该纹理图像DGI的三个信道复制到四信道图像的三个信道中。
在步骤72中,将组合信息CI存储在所述四信道图像的第四信道中。所述组合信息CI是通过将该至少两个图像结构化数据组合到一起而获得的。
在步骤73,传输该四信道图像。
根据实施例,该第四信道是阿尔法信道。通常,该阿尔法信道是RGBA图像格式。
根据实施例,一个图像结构化数据是单色几何形状图像DGI,而另一个图像结构化数据是占据图DOM。然后,该第四信道的像素值A(p)是该单色几何形状图像DGI的像素的偏差值DGI(p)与该占据图DOM中的共位像素DOM(p)的值的乘积。
A(p)=DOM(p)x(DGI(p)+1)
因此,块占据信息被保存并编解码为非零值(即使DGI(p)为空值)。
相反,该占据图DOM和该几何形状图像DGI的像素值可以通过以下方式检索:
如果A(p)=0,则DOM(p)=0(未占用TxT块)
否则,DOM(p)=1并且DGI(p)=A(p)-1
可能会注意到该占据图DOM的值存在溢出的风险。
在一个变体中,可能会添加剪辑来解决此问题。
根据实施例,一个图像结构化数据是单色几何形状图像DGI,而另一个图像结构化数据是占据图DOM。该第四信道A的像素值A(p)是该几何形状图像DGI的像素的值DGI(p)与该占据图DOM中的共位像素DOM(p)的值的乘积:
A(p)=DOM(p)xDGI(p)
这里不考虑溢出,并且当A(p)不是空值并且DOM(p)是二进制值时,可以直接从A(p)获得该几何形状图像DGI的像素值。
可能会注意到DGI(p)的像素值必须严格为正。
根据实施例,一个图像结构化数据是单色几何形状图像DGI,另一个图像结构化数据是该占据图DOM并且另一个图像结构化数据是该块到补丁指数信息(单色图像),并且其中该第四信道的范围被分成子区间,当该像素属于与该补丁指数i相关联的块时,每个子区间i与补丁指数i相关联,并且该单色几何形状图像DGI的像素值存储在子区间i中。
图8示出了根据实施例的用于将图像结构化数据组合到一起的非限制性示例。
在此示例中,补丁指数P的数量等于4,从0到3。该第四信道的范围R,通常为256,被分成4个子区间。当该像素属于与补丁0相关联的块时,该单色几何形状图像DGI的像素值由属于(0;M-1)(通常M=256/4=64)的值表示,当该像素属于与补丁1相关联的块时,该单色几何形状图像DGI的像素值由属于(M-1;2M-1)的值表示,当该像素属于与补丁2相关联的块时,该单色几何形状图像DGI的像素值由属于(2M-1;3M-1)的值表示,当该像素属于与补丁3相关联的块时,该单色几何形状图像DGI的像素值由属于(3M-1;R-1)的值表示。
因此,当该占据图DOM的像素值等于0时,该块未被占用,否则该块被占用。当一个块被占用时,如果该第四信道的共位像素的值A(p)属于(M-1;2M-1),那么该单色图像DTI的像素值等于A(p)-(M-1)。这是该补丁1的块的像素p的深度值。该像素的2D定位由该四信道图像中像素p的2D定位给出。
根据该方法的实施例,当需要发送多个单色几何形状图像DGI和多个三信道纹理图像DTI时,通常为2个。然后,在步骤70中,将两个纹理图像DTI的第一、二、三信道分别打包到该四信道图像的第一、二、三信道中,并且将该组合信息CI存储到所述四信道图像的第四信道中。
该四信道图像的尺寸等于该三信道纹理图像DGI的尺寸乘以取决于三信道纹理图像DGI的数量的因子(通常为2)的乘积。
该组合信息CI可以通过将该单色几何形状图像DGI打包到单色图像并且将由所述单色图像表示的信息与如上所述的其他图像结构化数据(单色图像)组合到一起来获得。注意,图像结构化数据的尺寸,诸如表示该占据图DOM的单色图像的尺寸,与该四信道图像的尺寸可能不同。然后,将三信道纹理图像DGI的图像结构化数据重新用于另一个。例如,与一个三信道纹理图像DGI相关联的占据图DOM的信息可以被重新用于另一个(例如第二个)三信道纹理图像DGI。
根据实施例,将纹理图像打包到四信道图像包括并排复制该纹理图像。
根据实施例,将纹理图像打包到四信道图像包括将该纹理图像所表示的信息按照样式交替交织/交错。
例如,当由两个纹理图像DTI0和DTI1表示的信息交织时,可以使用以下模式:
用第二个纹理图像表示的信息。
DTI0(p),DTI1(p),DTI0(p+1),DTI1(p+1)等或梅花样式DTI0(p),DTI0(p+1),DTI1(p),DTI1(p+1),…其中p是纹理图像的一个像素。
该实施例减少了内存高速缓存要求访问。
在图1-8中,在此描述了各种方法,并且方法中的每一个包括用于实现所描述的方法的一个或多个步骤或动作。除非该方法的正确操作需要特定步骤或动作的顺序,否则可以修改或组合特定步骤和/或动作的顺序和/或使用。
关于框图和操作流程图描述了一些示例。每个块表示一个电路元件、模块或代码部分,其中包括一个或多个用于实现指定逻辑功能的可执行指令。还应注意,在其他实施方式中,块中注明的功能可能不按指示的顺序出现。例如,基于所涉及的功能,连续显示的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行。
在此描述的实施方式和各方面可以在例如方法或过程、装置、计算机程序、数据流、位流或信号中实施。即使仅在单一实施方式形式的上下文中讨论(例如,仅作为方法讨论),所讨论的特征的实施方式也可以以其他形式(例如,装置或计算机程序)来实现。
该方法例如可以在处理器中实现,处理器泛指处理设备,包含例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备。
此外,这些方法可以通过由处理器执行的指令来实现,并且此类指令(和/或由实施方式产生的数据值)可以存储在计算机可读存储介质上。计算机可读存储介质可以采取计算机可读程序产品的形式,该计算机可读程序产品体现在一个或多个计算机可读介质中并且具有体现在其上的可由计算机执行的计算机可读程序代码。考虑到在其中存储信息的固有能力以及从其中提供信息检索的固有能力,本文使用的计算机可读存储介质可以被认为是非暂时性存储介质。计算机可读存储介质可以是例如但不限于电子的、磁性的、光学的、电磁的、红外线的或半导体系统、装置或设备,或前述的任何合适的组合。应当理解,以下虽然提供了可以应用本实施例的计算机可读存储介质的更具体示例,但仅是说明性的,而不是如本领域普通技术人员容易理解的详尽列表:便携式计算机软盘;硬盘;只读存储器(ROM);可擦除可编程只读存储器(EPROM或闪存);便携式光盘只读存储器(CD-ROM);光存储设备;磁存储设备;或上述任何合适的组合。
该指令可以形成有形地体现在处理器可读介质上的应用程序。
例如,指令可以在硬件、固件、软件或组合中。例如,可以在操作系统、单独的应用程序或两者的组合中找到指令。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(例如存储设备)的设备。此外,除了指令之外或代替指令,处理器可读介质可以存储由实施方式产生的数据值。
装置可以在例如适当的硬件、软件和固件中实现。此类装置的示例包括个人计算机、膝上型计算机、智能手机、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频记录系统、连接的家用电器、头戴式显示设备(HMD、透视眼镜)、投影仪(投影机)、“洞见”(包括多个显示器的系统)、服务器、视频编码器、视频解码器、处理视频解码器输出的后处理器、向视频编码器提供输入的预处理器、网络服务器、机顶盒、和任何其他用于处理点云、视频或图像或其他通信设备的设备。应该清楚的是,该设备可以是移动的,甚至可以安装在移动车辆中。
计算机软件可以由该处理器6010、或硬件、或硬件和软件的组合来实现。作为非限制性示例,该实施例还可以通过一个或多个集成电路来实现。作为非限制性示例,该存储器6020可以是适合于该技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。作为非限制性示例,该处理器6010可以是适合于该技术环境的任何类型,并且可以涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一个或多个。
对于本领域的普通技术人员来说显而易见的是,实施方式可以产生各种被格式化以携带例如可以被存储或传输的信息的信号。该信息可以包含例如用于执行方法的指令或由所描述的实施方式之一产生的数据。例如,信号可以被格式化以携带所描述的实施例的位流。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或作为基带信号。格式化可以包含例如对数据流进行编码并用编码的数据流调制载波。信号携带的信息可以是例如模拟或数字信息。众所周知,信号可以通过各种不同的有线或无线链路传输。该信号可以存储在处理器可读介质上。
本文使用的术语仅出于描述特定实施例的目的,而并不旨在进行限制。如本文所用,除非上下文另作明确指示,否则单数形式“一个(a)”、“一个(an)”和“该(the)”也可以意图包括复数形式。将进一步理解的是,当在本说明书中使用时,术语“包括/包括(includes/comprises)”和/或“包括/包括(including/comprising)”可以指定所陈述的例如特点、整数、步骤、操作、元件和/或组件,但不排除一个或多个其他特点、整数、步骤、操作、元件、组件和/或它们的组的存在或添加。此外,当一个元件被称为“响应”或“连接”到另一个元件时,它可以直接响应或连接到另一个元件,或者可以存在中间元件。相反,当一个元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。
应当理解,例如,在“A/B”、“A和/或B”和“A和B中的至少一个”的情况下,使用以下“/”、“和/或”和“至少其中之一”中的任何一个符号/术语,可以旨在涵盖仅选择第一个列出的选项(A),或仅选择第二个列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一个”的情况下,这样的措辞旨在涵盖仅选择第一个列出的选项(A),或仅选择第二个列出的选项(B),或仅选择第三个列出的选项(C),或仅选择第一个和第二个列出的选项(A和B),或仅选择列出第一个和第三个列出的选项(A和C),或仅选择第二个和第三个列出的选项(B和C),或选择所有三个选项(A和B和C)。正如本领域和相关领域的普通技术人员清楚的那样,这可以扩展到与列出的一样多的项目。
应当理解,尽管术语第一、第二等可以在本文中用于描述各种元件,但是这些元件不受这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开。例如,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件而不背离本申请的教导。第一个元件和第二个元件之间没有暗示排序。
对“一个实施例(one embodiment)”或“实施例(an embodiment)”或“一个实施方式(one implementation)”或“实施方式(an implementation)”及其他变体的引用常常用于传达包括结合实施例/实施方式描述的特定特点、结构、特征等在至少一个实施例/实施方式中。因此,在本申请的各个地方出现的短语“在一个实施例中(in one embodiment)”或“在实施例中(in an embodiment)”或“在一个实施方式中(in one implementation)”或“在实施方式中(in an implementation)”,以及任何其他变体的出现不一定都是指相同的实施例。
类似地,本文对“根据一个实施例/示例/实施方式”或“在一个实施例/示例/实施方式中”及其其他变体的引用常常用于传达包括结合实施例/示例/实施方式描述的特定特点、结构、特征等在至少一个实施例/示例/实施方式中。因此,在说明书的各个地方出现的“根据一个实施例/示例/实施方式”或“在一个实施例/示例/实施方式中”的表述不一定都指同一个实施例/示例/实施方式,也不是单独的或替代的实施例/示例/实施方式必须与其他实施例/示例/实施方式相互排斥。
权利要求中出现的参考数字仅用于说明,并且对权利要求的范围不应有限制作用。尽管没有明确描述,但是可以以任何组合或子组合来采用本实施例/示例和变体。
当图以流程图的形式呈现时,应当理解其还提供了相应装置的框图。类似地,当图以框图形式呈现时,应当理解其也提供了相应方法/工艺的流程图。
尽管一些图包括通信路径上的箭头以显示通信的主要方向,但应理解通信可以在与所描绘的箭头相反的方向上发生。
各种实施方式涉及解码。如在本申请中使用的,“解码”可以涵盖所有或部分执行过程,例如,在接收到的点云帧(可能包括接收到的对一个或多个点云帧进行编码的位流)以产生适合在重构的点云域中显示或进一步处理的最终输出。在各种实施例中,此类过程包括通常由基于图像的解码器执行的一个或多个过程。在各种实施例中,此类过程例如还或备选地包括由本申请中描述的各种实施方式的解码器执行的过程。
作为进一步的示例,在一个实施例中,“解码”可以仅指熵解码,在另一个实施例中,“解码”可以仅指差分解码,并且在另一个实施例中,“解码”可以指熵解码和差分解码的组合。基于具体描述的上下文,短语“解码过程”可以旨在具体指代操作的子集还是一般指更广泛的解码过程将是清楚的,并且相信是本领域技术人员很好理解的。
各种实施方式涉及编码。以与上述关于“解码”的讨论类似的方式,本申请中使用的“编码”可以涵盖例如对输入点云帧执行以产生编码位流的全部或部分过程。在各种实施例中,此类过程包括通常由基于图像的解码器执行的一个或多个过程。在各种实施例中,此类过程例如还或备选地包括由本申请中描述的各种实施方式的编码器执行的过程。
作为进一步的示例,在一个实施例中,“编码”可以仅指熵编码,在另一个实施例中,“编码”可以仅指差分编码,并且在另一个实施例中,“编码”可以指差分编码和熵编码的组合。基于具体描述的上下文,短语“编码过程”可以旨在具体指代操作的子集还是一般指更广泛的编码过程将是清楚的,并且相信是本领域技术人员很好理解的。
各种实施例涉及速率失真优化。特别是,在编码过程中,通常考虑到速率和失真之间的平衡或权衡,通常考虑到计算复杂度的限制。速率失真优化通常可以表述为最小化速率失真函数,该函数是速率和失真的加权和。有不同的方法来解决率失真优化问题。例如,这些方法可以基于对所有编码选项的广泛测试,包括所有考虑的模式或编解码参数值,并对其编解码成本和编解码和解码后重构信号的相关失真进行完整评估。也可以使用更快的方法来节省编码复杂度,特别是在基于预测或预测残差信号而不是重构信号计算近似失真的情况下。也可以使用这两种方法的混合,例如仅对一些可能的编码选项使用近似失真,并且对其他编码选项使用完全失真。其他方法仅评估可能编码选项的子集。更一般地说,许多方法采用多种技术中的任何一种来执行优化,但优化不一定是对编解码成本和相关失真的完整评估。
附加地,本申请可能涉及“确定”各种信息。确定信息可以包含例如估计信息、计算信息、预测信息或从存储器中检索信息中的一种或多种。
进一步,本申请可能涉及“访问”各种信息。访问信息可以包含例如接收信息、检索信息(例如从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一种或多种。
附加地,本申请可能涉及“接收”各种信息。接收与“访问”一样,是一个广义的术语。接收信息可以包含例如访问信息或检索信息(例如,从存储器)中的一种或多种。进一步地,“接收”通常以一种或另一种方式涉及操作过程中,例如,存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息。
此外,如本文所使用的,单词“信号”尤其是指向相应的解码器指示某物。例如,在某些实施例中,该编码器信令发送特定XXX。这样,在一个实施例中,在编码器侧和解码器侧都可以使用相同的参数。因此,例如,编码器可以向解码器发送(显式信令发送)特定参数,使得解码器可以使用相同的特定参数。相反,如果解码器已经具有特定参数以及其他参数,则可以在不发送(隐式信令发送)的情况下使用信令发送以简单地允许解码器知道和选择特定参数。通过避免传输任何实际功能,在各种实施例中实现了位节省。应当理解,可以以多种方式实现信令发送。例如,在各种实施例中,一个或多个语法元素、标志等用于向对应的解码器信令发送信息。虽然前面涉及“信号”一词的动词形式,但“信号”一词在本文也可用作名词。
已经描述了许多实施方式。然而,应当理解,可以进行各种修改。例如,可以组合、补充、修改或移除不同实施方式的元件以产生其他实施方式。此外,普通技术人员将理解,其他结构和过程可以替代所公开的那些,并且所得到的实施方式将以至少基本相同的方式执行至少基本相同的功能,以至少实现与所公开的实施方式基本相同的结果。因此,本申请考虑了这些和其他实施方式。

Claims (17)

1.一种方法,包括在两个处理单元或存储器之间传输表示点云纹理的至少一个三信道纹理图像以及用于重构所述点云的几何形状的至少两个图像结构化数据,其中传输包括:
-将所述至少一个三信道纹理图像的三个信道复制到四信道图像的三个信道中;
-在所述四信道图像的第四信道中存储组合信息,所述组合信息是通过将所述至少两个图像结构化数据组合到一起得到的;以及
-传输所述四信道图像。
2.根据权利要求1所述的方法,其中,一个图像结构化数据是表示点云的几何形状的单色几何形状图像,而另一个图像结构化数据是占据图,在所述占据图中像素值指示纹理和单色几何形状图像的块是否包括点云的至少一个正交投影点,并且其中所述第四信道的像素值是所述单色几何形状图像的像素的偏差值与所述占据图中的共位像素的值的乘积。
3.根据权利要求1所述的方法,其中,一个图像结构化数据是表示点云的几何形状的单色几何形状图像,而另一个图像结构化数据是占据图,在所述占据图中像素值指示纹理和单色几何形状图像的块是否包括点云的至少一个正交投影点,并且其中所述第四信道的像素值是单色几何形状图像的像素值与所述占据图中的共位像素的值的乘积。
4.根据权利要求1-3中任一项所述的方法,当需要发送多个单色几何形状图像和多个三信道纹理图像时,将至少两个三信道纹理图像的第一信道、第二信道和第三信道分别打包到所述四信道图像的第一信道、第二信道和第三信道,以及将所述组合信息存储在所述四信道图像的所述第四信道中,所述组合信息是由所述至少两个图像结构化数据组合到一起得到的。
5.根据权利要求4所述的方法,其中,将三信道纹理图像打包到四信道图像包括并排复制所述纹理图像。
6.根据权利要求4所述的方法,其中,将三信道纹理图像打包到四信道图像包括将由所述三信道纹理图像表示的信息按照样式交替交织。
7.根据权利要求1所述的方法,其中,所述第四信道是RGBA图像格式的阿尔法信道。
8.一种设备,用于在两个处理单元或存储器之间传输表示点云纹理的至少一个三信道纹理图像以及用于重构所述点云的几何形状的至少两个图像结构化数据,所述设备包括用于以下操作的部件:
-将所述至少一个三信道纹理图像的三个信道复制到四信道图像的三个信道中;
-在所述四信道图像的第四信道中存储组合信息,所述组合信息是通过将所述至少两个图像结构化数据组合到一起得到的;以及
-传输所述四信道图像。
9.一种设备,用于在两个处理单元或存储器之间传输表示点云纹理的至少一个三信道纹理图像以及用于重构所述点云的几何形状的至少两个图像结构化数据,所述设备包括一个或多个处理器,被配置为:
-将所述至少一个三信道纹理图像的三个信道复制到四信道图像的三个信道中;
-在所述四信道图像的第四信道中存储组合信息,所述组合信息是通过将所述至少两个图像结构化数据组合到一起得到的;以及
-传输所述四信道图像。
10.根据权利要求8或9所述的设备,其中,一个图像结构化数据是表示点云的几何形状的单色几何形状图像,而另一个图像结构化数据是占据图,在所述占据图中像素值指示纹理和单色几何形状图像的块是否包括点云的至少一个正交投影点,并且其中所述第四信道的像素值是所述单色几何形状图像的像素的偏差值与所述占据图中的共位像素的值的乘积。
11.根据权利要求8或9所述的设备,其中,一个图像结构化数据是表示点云的几何形状的单色几何形状图像,而另一个图像结构化数据是占据图,在所述占据图中像素值指示纹理和单色几何形状图像的块是否包括点云的至少一个正交投影点,并且其中所述第四信道的像素值是单色几何形状图像的像素值与所述占据图中的共位像素的值的乘积。
12.根据权利要求8-11中任一项所述的设备,当需要发送多个单色几何形状图像和多个三信道纹理图像DTI时,将至少两个三信道纹理图像的第一信道、第二信道和第三信道分别打包到所述四信道图像的第一信道、第二信道和第三信道,将所述组合信息存储在所述四信道图像的所述第四信道中,所述组合信息是由所述至少两个图像结构化数据组合到一起得到的。
13.根据权利要求12所述的设备,其中,将三信道纹理图像打包到四信道图像包括并排复制所述纹理图像。
14.根据权利要求12所述的设备,其中,将三信道纹理图像打包到四信道图像包括将由所述三信道纹理图像表示的信息按照样式交替交织。
15.根据权利要求8或9所述的设备,其中,所述第四信道是RGBA图像格式的阿尔法信道。
16.一种计算机程序产品,包括指令,当程序由一个或多个处理器执行时,所述指令使所述一个或多个处理器执行一种方法,所述方法包括通过以下操作在两个处理单元或存储器之间传输表示点云纹理的至少一个三信道纹理图像以及用于重构所述点云的几何形状的至少两个图像结构化数据:
-将所述至少一个三信道纹理图像的三个信道复制到四信道图像的三个信道中;
-在所述四信道图像的第四信道中存储组合信息,所述组合信息是通过将所述至少两个图像结构化数据组合到一起得到的;以及
-传输所述四信道图像。
17.一种非暂时性计算机可读介质,包括用于使一个或多个处理器执行以下操作的指令:
通过以下操作在两个处理单元或存储器之间传输表示点云纹理的至少一个三信道纹理图像以及用于重构所述点云的几何形状的至少两个图像结构化数据:
-将所述至少一个三信道纹理图像的三个信道复制到四信道图像的三个信道中;
-在所述四信道图像的第四信道中存储组合信息,所述组合信息是通过将所述至少两个图像结构化数据组合到一起得到的;以及
-传输所述四信道图像。
CN202080060356.8A 2019-08-29 2020-08-18 编解码点云的传递格式 Pending CN114341941A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306044.9 2019-08-29
EP19306044 2019-08-29
PCT/EP2020/073120 WO2021037613A1 (en) 2019-08-29 2020-08-18 Transporting format of a coded point cloud

Publications (1)

Publication Number Publication Date
CN114341941A true CN114341941A (zh) 2022-04-12

Family

ID=67982003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080060356.8A Pending CN114341941A (zh) 2019-08-29 2020-08-18 编解码点云的传递格式

Country Status (4)

Country Link
US (1) US20220405975A1 (zh)
EP (1) EP4022572A1 (zh)
CN (1) CN114341941A (zh)
WO (1) WO2021037613A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2567427B (en) * 2017-10-06 2020-10-07 Imagination Tech Ltd Data compression

Also Published As

Publication number Publication date
EP4022572A1 (en) 2022-07-06
WO2021037613A1 (en) 2021-03-04
US20220405975A1 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
JP7476104B2 (ja) 点群処理
KR102640992B1 (ko) 포인트 클라우드 프로세싱
US20220164993A1 (en) Processing missing points of a point cloud
WO2021048050A1 (en) Processing a point cloud
CN114556432A (zh) 处理点云
CN114503579A (zh) 使用中间样品的贴片对点云进行编码和解码
WO2021001193A1 (en) Processing a point cloud
CN113632486A (zh) 处理点云的中间点
CN113475093B (zh) 用于处理点云的方法和装置
RU2767775C1 (ru) Обработка облака точек
US20220405975A1 (en) Transporting format of a coded point cloud
US20230377204A1 (en) A method and an apparatus for reconstructing an occupancy map of a point cloud frame
EP3713240A1 (en) Processing a point cloud
CN113614786A (zh) 处理点云

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231030

Address after: Paris France

Applicant after: Interactive digital CE patent holding Co.

Address before: Seville, France

Applicant before: Interactive digital VC holding France