CN113115019B - 视频编解码方法、装置、计算机设备及存储介质 - Google Patents
视频编解码方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113115019B CN113115019B CN202110016566.3A CN202110016566A CN113115019B CN 113115019 B CN113115019 B CN 113115019B CN 202110016566 A CN202110016566 A CN 202110016566A CN 113115019 B CN113115019 B CN 113115019B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- quantization
- lifting
- location
- reconstructed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/12—Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种视频编解码方法、装置、计算机设备和存储介质。该方法包括:接收与点云相关联的数据;基于对与提升分解相关联的属性进行可扩展编解码,通过所述提升分解对接收到的数据执行变换;及,根据变换后的数据,对所述点云进行重建。
Description
引用并入
本申请要求于2020年1月9日提交的、申请号为62/958,863的美国临时申请的优先权、于2020年4月14日提交的、申请号为63/009,874的美国临时申请的优先权、于2020年4月14日提交的、申请号为63/009,875的美国临时申请的优先,以及于2020年12月29日提交的美国申请第17/136,122号的优先权,其全部内容通过引用并入本申请中。
技术领域
本申请实施例涉及视频编解码技术,尤其涉及一种视频编解码方法、装置、计算机设备及存储介质。
背景技术
世界的高级三维(3D)表示能够实现更加沉浸式的交互和通信。它们还允许机器理解、解释和导航我们的世界。3D点云已经成为这类信息的启用表示。已经识别出与点云数据相关联的多个用例,并且已经开发了对点云表示和压缩的相应要求。
点云是指在3D空间中的一组点,每个点具有相关联的属性,例如颜色、材料特性等。点云可以用于重建对象或场景作为此类点的组合。可以在各种设置中使用多个相机和深度传感器捕获所述点,并且所述点可以由数千到数十亿个点组成,以便真实地表示重建的场景。
需要压缩技术来减少表示点云所需的数据量。因此,在实时通信和六自由度(6DoF)虚拟现实中,需要使用点云的有损压缩技术。另外,在自动驾驶和文化遗产应用等的动态映射的环境中,寻求无损点云压缩技术。运动图像专家组(MPEG)开始研究解决几何形状和属性的压缩的标准,例如颜色和反射率、可缩放/渐进编码、随时间捕获的点云序列的编码以及对点云子集的随机访问。
在点云压缩(G-PCC,Graph-based Point Cloud Compression)预测和属性编解码提升中,能够有相邻属性样本可用,对于压缩效率是非常重要的,因为相邻属性样本越多,预测越精确。当没有足够的相邻样本用于预测时,压缩效率将会降低。
发明内容
本申请实施例和点云编解码技术有关,提供了一种视频编解码方法、装置、计算机设备及存储介质。
本申请实施例提供了一种视频编解码方法,包括:
接收与点云相关联的数据;
基于对与提升分解相关联的属性进行可扩展编解码,通过所述提升分解对接收到的数据执行变换;及,
根据变换后的数据,对所述点云进行重建。
本申请实施例还提供了一种视频编解码装置,包括:
接收模块,用于接收与点云相关联的数据;
变换模块,用于基于对与提升分解相关联的属性进行可扩展编解码,通过所述提升分解对接收到的数据执行变换;及,
重建模块,用于根据变换后的数据,对所述点云进行重建。
本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如上所述的视频编解码方法。
本申请实施例还提供一种非暂时性计算机可读介质,其上存储有指令,当所述指令由计算机执行时,使得所述计算机执行如上所述的视频编解码方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述视频编解码的方法。
由上述技术方案可见,本发明实施例提供的方法,通过对与提升分解相关联的属性进行可扩展编解码,可以在当前G-PCC提升设计下,实现了提升系数的可扩展编解码,从而提升了视频编解码的增益。
附图说明
根据以下详细说明和附图,所公开的主题的进一步的特征、性质和各种优点将更加显而易见,其中:
图1A是根据本申请一实施例的在G-PCC中生成LoD的方法示意图;
图1B是根据本申请一实施例的在G-PCC中用于P/U-提升的结构示意图;
图2是根据本申请一实施例的通信系统的结构示意图;
图3是根据本申请一实施例的在环境中放置G-PCC压缩器和G-PCC解压缩器的示意图;
图4是根据本申请一实施例的G-PCC压缩器的功能性结构示意图;
图5是根据本申请一实施例的G-PCC解压缩器的功能性结构示意图;
图6是根据本申请一实施例的视频编解码方法的流程示意图;以及
图7示出了根据本申请实施例的计算机设备的示意图。
具体实施方式
图1A是示出在基于图的点云压缩G-PCC中生成细节级别(LoD)的方法示意图。
参考图1A,在当前G-PCC属性编解码中,基于每个3D点的距离生成每个3D点(例如,P0-P9)的LoD(即,组),然后基于LoD的顺序110进行预测,对每个LoD中3D点的属性值进行编码,而不是以3D点的原始顺序105来进行预测。例如,通过计算3D点P0、P5和P4(它们在3D点P2之前编码或解码)的基于距离的加权平均值,来预测3D点P2的属性值。
G-PCC中的当前锚定方法,如下所述。
首先,计算3D点的邻域的可变性,可以检查相邻的值是如何不同的,并且如果可变性低于阈值,则通过预测属性值(ai)i∈0…k-1,使用基于当前点i的最近邻点的距离进行的线性插值过程,来计算基于距离的加权平均预测。令是当前点i的k个最近邻点的集合,令是它们的已解码/已重建的属性值,并且令是它们到当前点i的距离。然后由下式给出预测的属性值
注意,当对属性进行编码时,所有点云的几何位置都已经是可用的。另外,相邻点以及它们已重建的属性值,在编码器和解码器中都可用作k维树结构,所述k维树结构便于以相同的方式,针对每个点执行最近相邻搜索。
其次,如果可变性高于阈值,则执行率失真优化(RDO,rate-distortionoptimized)预测器选择。基于在生成LoD时进行邻点搜索的结果,创建多个预测器候选或多个候选预测值。例如,当通过使用预测器来对3D点P2的属性值进行编码时,从3D点P2分别到3D点P0、P5和P4的距离进行加权平均后的值,可以被设置为预测器索引等于0。然后,从3D点P2到最近邻点P4的距离被设置为预测器索引等于1。而且,如以下表1中示出的,将从3D点P2到下一个最近邻点P5和P0的距离,分别被设置为预测器索引等于2和3。
表1用于属性编解码的预测器候选的样本
在创建预测器候选之后,通过应用率失真优化程序来选择最佳预测器,然后,将选定的预测器索引映射到截断的一元(TU)编码,其中,截断的一元编码的二进制数将进行算术编码。注意,在表1中,较短的TU编码将分配给较小的预测器索引。
定义预测器候选的最大数量MaxNumCand,并且进行编码,写到属性头中。在当前实现方式中,预测器候选的最大数量MaxNumCand被设置为等于numberOfNearestNeighborsInPrediction+1,并且用于对截断的一元二进制化的预测器索引进行编码和解码。
G-PCC中用于属性编解码的提升变换,建立在上述预测变换之上。预测方案和提升方案之间的主要区别,在于引入了更新运算符。
图1B是在G-PCC中用于预测/更新(P/U)—提升的结构图。为了便于在提升中进行预测和更新,须在分解的每个阶段,将信号拆分成两组高相关性信号。在G-PCC的提升方案中,可以利用LoD结构来执行拆分,在所述LoD结构中,认为在各个级别之间具备高相关性,并且每个级别通过最近相邻搜索来构成,以将非均匀点云组织成结构化数据。在级别N处的P/U分解,可以得到细节信号D(N-1)和近似信号A(N-1),所述细节信号D(N-1)和近似信号A(N-1)进一步分解为D(N-2)和A(N-2)。重复应用所述步骤,直到获得基础级别近似信号A(1)。
因此,在提升方案中,对D(N-1)、D(N-2)、…、D(1)、A(1)进行编解码,而不是对由LoD(N)、…、LoD(1)组成的输入属性信号本身进行编解码。注意的是,使用有效的P/U步骤,通常会导致D(N-1)、…、D(1)中子带“系数”稀疏,从而获得在变换编解码增益上的优势。
当前,仅使用上述用于预测变换的基于距离的加权平均预测,作为G-PCC中的锚定方法,在提升中用于预测步骤。
本申请描述的实施例提供了一种用于对点云样本的属性信息进行编解码的方法和装置。对点云样本的属性信息进行编解码的方法和装置也可以用于任何具有相似结构的编解码器。
如前所述,基于距离的加权平均预测用于提升中的预测步骤,作为G-PCC中的锚点(anchor)方法。在点云压缩G-PCC预测和属性编码提升中,能够有相邻属性样本可用,对于压缩效率是非常重要的,因为相邻属性样本越多,预测越精确。当没有足够的相邻样本用于预测时,压缩效率将会降低。然而,对于点云数据,存在这样的情况,即需要从有损到无损或接近无损的保真度对数据进行可扩展重建。因此,在当前GPCC提升设计下实现属性的可扩展编解码可能是有利的。因此,本申请公开的方法、计算机系统和计算机可读介质直接涉及当前的G-PCC提升设计,并且提出了扩展或修改它以使得能够对提升系数进行可扩展编解码的方法。这些方法可以应用于为点云设计的类似编解码器。
图2示出了根据本申请一个实施例的通信系统200的简化框图。系统200可以包括经由网络250互连的至少两个终端210、220。对于数据的单向传输,第一终端210可以对本地位置处的点云数据进行编码,以经由网络250传输到另一终端220。第二终端220可以从网络250接收另一终端的已编码点云数据,对已编码数据进行解码,并且显示已恢复的点云数据。单向数据传输在媒介服务应用等中可能是常见的。
图2示出了第二对终端230、240,用于支持例如在视频会议期间可能发生的已编码点云数据的双向传输。对于数据的双向传输,每个终端230、240可以对在本地位置处捕获到的点云数据进行编码,以经由网络250传输到另一终端。每个终端230、240还可以接收由另一终端传输的已编码点云数据,可以对已编码数据进行解码,并且可以在本地显示设备处显示已恢复的点云数据。
在图2中,终端210-240可以是例如服务器、个人计算机和智能电话和/或任何其它类型的终端。例如,终端210-240可以是膝上型计算机、平板计算机、媒体播放器和/或专用视频会议设备。网络250表示在终端210-240之间传送已编码点云数据的任意数量的网络,包括例如有线和/或无线通信网络。通信网络250可以在线路交换和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于当前讨论的目的,网络250的架构和拓扑结构对于本申请操作可能是无关紧要的,除非在下文中解释。
图3是根据本申请一实施例的在环境中放置G-PCC压缩器303和G-PCC解压缩器310的示意图。所公开的主题可以同样适用于其他使用点云的应用,包括例如视频会议、数字电视、存储压缩的点云数据的数字媒体,包括光盘、数字视频光盘、记忆棒等。
流系统300可以包括捕捉子系统313,捕捉子系统313可以包括点云源301,例如数码相机,创建例如未压缩的点云数据302。具有较高数据量的点云数据302可由联接到点云源301的G-PCC压缩器303进行处理。G-PCC压缩器303可以包括硬件、软件或它们的组合,以启用或实现所公开主题的各方面,在下面进行更详细的描述。具有较低数据量的已编码的点云数据304可以存储在流服务器305上以供将来使用。至少一个流客户端306和308可以访问流服务器305,以取回已编码的点云数据304的副本307和309。客户端306可以包括G-PCC解压缩器310,所述G-PCC解压缩器310对已编码的点云数据的传入副本307进行解码,并且创建可在显示器312或其他呈现设备(未示出)上呈现的传出点云数据311。在一些流系统中,可以根据视频编解码/压缩标准对已编码的点云数据304、307和309进行编解码。这些标准的示例包括由MPEG针对G-PCC开发的那些标准。
图4是根据实施例的G-PCC压缩器303的功能框图。
如图4中示出的,G-PCC压缩器303包括量化器405、点移除模块410、八叉树编码器415、属性传送模块420、LoD生成器425、预测模块430、量化器435和算术编码器440。
量化器405接收输入点云中的点的位置。位置可以是(x,y,z)坐标。量化器405还使用例如缩放算法和/或移位算法来量化接收到的位置。
点移除模块410从量化器405接收量化后的位置,并且从接收到的量化后的位置移除重复的位置或者滤波掉重复的位置。
八叉树编码器415从点移除模块410接收滤波后的位置,并且使用八叉树编码算法,将接收到的滤波后的位置编码成表示输入点云的八叉树的占用符号。对应于八叉树的输入点云的边界框,可以是任何3D形状,例如,立方体。
八叉树编码器415还基于对滤波后的位置的编码,来对接收到的滤波后的位置进行重新排序。
属性传送模块420接收输入点云中的点的属性。属性可以包括例如,每个点的颜色,或RGB值,和/或反射率。属性传送模块420还从八叉树编码器415接收重新排序的位置。
属性传送模块420基于接收到的重新排序的位置,进一步更新已接收属性。例如,属性传送模块420可以对已接收属性执行至少一个预处理算法,预处理算法包括,例如,对已接收属性进行加权和平均,以及从已接收属性中对更多的属性进行插值。属性传送模块420还将更新的属性传送到预测模块430。
LoD生成器425从八叉树编码器415接收重新排序的位置,并且获得重新排序的位置对应的每个点的LoD。每个LoD可以被认为是一组点,并且可以基于每个点的距离来获得。例如,如图1A中示出的,点P0、P5、P4和P2可在LoD LoD0中,点P0、P5、P4、P2、P1、P6和P3可在LoD LoD1中,点P0、P5、P4、P2、P1、P6、P3、P9、P8和P7可在LoD LoD2中。
预测模块430从属性传送模块420接收所传送的属性,并且从LoD生成器425接收所获得的每个点的LoD。预测模块430基于接收到的每个点的LoD的顺序对已接收属性应用预测算法,分别获得所接收属性的预测残差(值)。预测算法可以包括各种预测算法中的任一种,诸如,插值、加权平均计算、最近相邻算法和RDO。
例如,如图1A中示出的,在获得LoD1和LoD2中分别包括的点P1、P6、P3、P9、P8和P7的已接收属性的预测残差之前,可以首先获得LoD0中包括的点P0、P5、P4和P2的已接收属性的预测残差。可以通过基于点P0、P5和P4的加权平均计算距离来获得点P2的已接收属性的预测残差。
量化器435从预测模块430接收所获得的预测残差,并且使用例如缩放算法和/或移位算法来量化接收到的预测残差。
算术编码器440从八叉树编码器415接收占用符号,并且从量化器435接收量化的预测残差。算术编码器440对接收到的占用符号和量化的预测残差执行算术编码,以获得已压缩位流。算术编码可以包括各种熵编解码算法中的任一种,诸如,例如上下文自适应二进制算术编码。
图5是根据实施例的G-PCC解压缩器310的功能框图。
如图5中示出的,G-PCC解压缩器310包括算术解码器505、八叉树解码器510、逆量化器515、LoD生成器520、逆量化器525和逆预测模块530。
算术解码器505从G-PCC压缩器303接收已压缩位流,并且对接收到的已压缩位流执行算术解码,以获得占用符号和量化的预测残差。算术解码可以包括各种熵解码算法中的任一种,诸如,例如上下文自适应二进制算术解码。
八叉树解码器510从算术解码器505接收所获得的占用符号,并且使用八叉树解码算法将接收到的占用符号解码成量化后的位置。
逆量化器515从八叉树解码器510接收量化后的位置,并且使用例如缩放算法和/或移位算法对接收到的量化后的位置进行逆量化,以获得输入点云中点的重建的位置。
LoD生成器520从八叉树解码器510接收量化后的位置,并且获得接收到的量化后的位置所对应的每个点的LoD。
逆量化器525接收所获得的量化的预测残差,并且使用例如缩放算法和/或移位算法对接收到的量化的预测残差进行逆量化,以获得重建的预测残差。
逆预测模块530从逆量化器525接收所获得的重建的预测残差,并且从LoD生成器520接收所获得的每个点的LoD。逆预测模块530基于接收到的每个点的LoD的顺序,将预测算法应用于接收到的重建的预测残差,分别获得与接收到的重建的预测残差相对应的重建的属性。预测算法可以包括各种预测算法中的任一种,诸如,插值、加权平均计算、最近相邻算法和RDO。重建的属性是指输入点云中的点的属性。
现在将详细描述用于视频编解码的方法和装置,具体为对帧间点云属性进行编解码。这种方法和装置可在上述的G-PCC压缩器303中实现,即预测模块430。所述方法和装置也可在G-PCC解压缩器310中实现,即逆预测模块530。
对于每个提升变换系数的粗颗粒可扩展解码,嵌入的系数编解码在一组定义的量化级别上进行迭代。给定每个量化级别,计算对应的量化步长,并且对每个系数的量化索引进行编解码。在后续量化级别中的每一个级别上,对残余系数重复进行相同的处理,这些残余系数是通过重复减去具有先前量化级别的已重建层而产生的。与系数编解码的当前GPCC锚点设计一致,如果来自连续系数的前述量化索引是一系列零,则发送zero_cnt,而不是显式地对这些索引进行编解码。当量化索引中的任何一个在特定级别处碰巧具有非零值时,zero_cnt被设置为0,并且逐个对上述索引进行显式地编解码。
在下面的描述中,给出了用于解码过程的类C伪码,其中反射率是单通道点云信号的代表性类型。
-quantWeight是量化加权因子,解码器已经将其用作输入
-反射率是解码过程的输出,并且在开始时被初始化为零
-QPset[N]是包含粗颗粒可扩展的目标QP级别的阵列,其中N是QP级别的期望数量。
-decodeZeroCnt()是在连续提升系数被解码时,返回目标粗颗粒可扩展的特定量化级别处的零系数的数量。
-decodeDelta()返回量化的系数值
-InverseQuantization()在给定量化的系数值Δ的情况下,在每个级别QP处执行逆量化
-TotalNumLOD、predictorCount[]、predStartIdx[]分别指当前GPCC设计中的LOD的总数、每个LOD处点的数量和LOD中第一点的predictorIndex。
在上面的描述中,使用具有LODIndex和cnt的双for循环来引出变量predictorIndex,该变量predictorIndex本质上是指每个点云。在当前GPCC锚点实施方案,可以简单地按照如下方式进行替换。例如,
其中,pointCount是被编码的帧或条带中点云的总数。前一实施例的潜在好处是可以利用从先前LOD获得的任何可用信息,以便更好地对当前LOD中的系数值进行编码。
可以理解,对于多通道情况下的每个通道,可以单独地应用与单通道信号中相同、基本相同或类似的过程。或者,可以将“反射率”替换为“颜色”,然后使用相同、基本相同或类似的过程,其中,“颜色”是矢量信号,定义“零”是对应于系数的所有三个分量都为零的情况。
在下面的描述中,给出了用于解码过程的类C伪码,其中颜色是三通道点云信号的代表性类型。
-quantWeight是量化加权因子,解码器已经将其用作输入
-颜色是三维矢量(例如,RGB或YUV)以及解码过程的输出,并且在开始时被初始化为零
-QPset[N]是包含粗颗粒可扩展的目标QP级别的阵列,其中N是QP级别的期望数量。
-decodeZeroCnt()是在连续提升系数被解码时,返回目标粗颗粒可扩展的特定量化级别处的零系数的数量,其中,定义“零”是对应于系数的所有三个分量都为零的情况。
-decodeDelta()返回量化的系数矢量
-InverseQuantization()在给定量化的系数矢量Δ的情况下,在每个级别QP处执行逆量化
-TotalNumLOD、predictorCount[]、predStartIdx[]分别指当前GPCC设计中的LOD的总数、每个LOD处点的数量和LOD中第一点的predictorIndex。
可以使用用于熵编解码的不同的上下文模型,来更好地利用系数的不同特性。在一个实施例中,不同的上下文模型可以用于提升系数的不同LOD(细节级别)层,因为作为提升分解的结果,较高的LOD层会具有较小的系数。因此,针对与接收到的数据相关联的各个细节级别层,对不同的细节级别层使用至少一个上下文模型,其中,细节级别层越高,通过所述提升分解生成的提升系数越小。
在另一实施例中,不同的上下文模型可以用于不同的QP(量化参数),因为较高的QP会导致较小的量化系数,反之亦然。因此,对于不同的量化参数,使用至少一个上下文模型,其中,量化参数越大,通过所述提升分解生成的量化系数越小。
在另一实施例中,不同的上下文模型可以用于不同的粗颗粒可扩展层,因为增强层(即,增加的层,将已重建信号修正到较小QP级别)在系数之间的相关性方面,具有较大的噪声或随机性。因此,当最小化提升分解的系数之间的噪声时,对不同的粗颗粒可扩展层,使用至少一个上下文模型。
在另一实施例中,可以根据来自较低量化级别层中相应位置的已重建(因此可用于参考)样本的值或值的函数,来使用不同的上下文模型。例如,在较低层中具有零或非常小的已重建值的区域,与较高层的区域相比,具有不同的系数特性。因此,对于与接收到的数据相关联的各个量化级别层,确定低量化级别层中与所述点云的位置相对应的位置以及来自所述位置的已重建样本;根据所述已重建样本的值或值的函数,使用至少一个上下文模型。
在另一实施例中,可以根据来自相同量化级别处较低LOD中相应位置的已重建(因此可用于参考)样本的值或值的函数,来使用不同的上下文模型。来自相应位置的这些样本,可以作为GPCC中LOD建筑物中最近邻域搜索的结果。因此,针对与接收到的数据相关联的各个细节级别层,确定具有相同量化级别的低细节级别层中与所述点云的位置相对应的位置以及来自所述位置的已重建样本;根据所述已重建样本的值或值的函数,使用至少一个上下文模型。
注意,这些样本在解码器处是可用的,并且是上述伪码中所示的逐个进行LOD重建的结果。
在所有上述实施例中,在使用基于字典的编解码或依赖于查找表的其它方法时,可以自适应地切换用于符号索引编解码的查找表,而不再使用不同的上下文模型。
图6是图示根据实施例的视频编解码的方法600的流程图。在一些实施方式中,图6的至少一个过程方框可以由G-PCC解压缩器310执行。在一些实施方式中,图6的至少一个过程方框可以由另一设备或一组设备来执行,其与G-PCC解压缩器310分离或包括G-PCC解压缩器310,诸如G-PCC压缩器303。
参考图6,在第一方框610中,方法600包括接收与点云相关联的数据。
在第二方框620中,方法600包括基于对与提升分解相关联的属性进行可扩展编解码,通过提升分解对接收到的数据执行变换。
在第三方框630中,方法600包括根据变换后的数据,对点云进行重建。
尽管图6示出了方法600的示例方框,但是在一些实施方案中,方法600可以包括相比图6中描绘的那些方框附加的方框、更少的方框、不同的方框或不同布置的方框。附加地或替代性地,方法600的方框中的两个或多个可以被并行地执行。
进一步,每个方法可以通过处理电路(例如,至少一个处理器,或者,至少一个集成电路)来实现。在一示例中,上述至少一个处理器执行至少一个非易失性计算机可读介质中存储的程序。
图7示出了计算机设备700,其适于实现所公开主题的某些实施例。
计算机软件可通过任何合适的机器代码或计算机语言进行编码,通过汇编、编译、链接等机制创建包括指令的代码,所述指令可由至少一个计算机中央处理单元(CPU),图形处理单元(GPU)等直接执行或通过译码、微代码等方式执行。
所述指令可以在各种类型的计算机或其组件上执行,包括例如个人计算机、平板电脑、服务器、智能手机、游戏设备、物联网设备等。
图7所示的用于计算机设备700的组件本质上是示例性的,并不用于对实现本申请实施例的计算机软件的使用范围或功能进行任何限制。也不应将组件的配置解释为与计算机设备700的示例性实施例中所示的任一组件或其组合具有任何依赖性或要求。
计算机设备700可以包括某些人机界面输入设备。这种人机界面输入设备可以通过触觉输入(如:键盘输入、滑动、数据手套移动)、音频输入(如:声音、掌声)、视觉输入(如:手势)、嗅觉输入(未示出),对至少一个人类用户的输入做出响应。所述人机界面设备还可用于捕获某些媒体,气与人类有意识的输入不必直接相关,如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静止影像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
人机界面输入设备可包括以下中的至少一个(仅绘出其中一个):键盘801、鼠标802、触控板803、触摸屏810、操纵杆805、麦克风806、扫描仪807、照相机808。
计算机设备700还可以包括某些人机界面输出设备。这种人机界面输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激至少一个人类用户的感觉。这样的人机界面输出设备可包括触觉输出设备(例如通过触摸屏810或操纵杆805的触觉反馈,但也可以有不用作输入设备的触觉反馈设备)、音频输出设备(例如,扬声器809、耳机(未示出))、视觉输出设备(例如,包括阴极射线管(CRT)屏幕、液晶屏显示(LCD)屏幕、等离子屏幕、有机发光二极管(OLED)屏的屏幕810,其中每一个都具有或没有触摸屏输入功能、每一个都具有或没有触觉反馈功能——其中一些可通过诸如立体画面输出的手段输出二维视觉输出或三维以上的输出;虚拟现实眼镜(未示出)、全息显示器和放烟箱(未示出))以及打印机(未示出)。图形适配器850生成图像,并且将图像输出给触摸屏810。
计算机设备700还可以包括人可访问的存储设备及其相关介质,如包括具有CD/DVD的高密度只读/可重写式光盘(CD/DVD ROM/RW)820或类似介质821的光学介质、拇指驱动器822、可移动硬盘驱动器或固体状态驱动器823,诸如磁带和软盘(未示出)的传统磁介质,诸如安全软件保护器(未示出)等的基于ROM/ASIC/PLD的专用设备,等等。
本领域技术人员还应当理解,结合所公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。
计算机设备700还可以包括通往至少一个通信网络855的接口。例如,通信网络855可以是无线的、有线的、光学的。网络855还可为局域网、广域网、城域网、车载网络和工业网络、实时网络、延迟容忍网络等等。网络855还包括以太网、无线局域网、蜂窝网络(GSM、3G、4G、5G、LTE等)等局域网、电视有线或无线广域数字网络(包括有线电视、卫星电视、和地面广播电视)、车载和工业网络(包括CANBus)等等。网络855通常需要外部网络接口适配器,用于连接到某些通用数据端口或外围总线849(例如,计算机设备700的USB端口);其它系统通常通过连接到如下所述的系统总线集成到计算机设备700的核心,例如,包括以太网接口的网络接口854集成到PC计算机设备或蜂窝网络接口集成到智能电话计算机设备。通过使用这些网络855中的任何一个,计算机设备700可以与其它实体进行通信。所述通信可以是单向的,仅用于接收(例如,广播电视),单向的仅用于发送(例如CAN总线到某些CAN总线设备),或双向的,例如通过局域或广域数字网络到其它计算机设备。上述网络855和网络接口854中的每个可使用某些协议和协议栈。
上述的人机界面设备、人可访问的存储设备以及网络接口854可以连接到计算机设备700的核心840。
核心840可包括至少一个中央处理单元(CPU)841、图形处理单元(GPU)842、以现场可编程门阵列(FPGA)843形式的专用可编程处理单元、用于特定任务的硬件加速器844等。这些设备以及只读存储器(ROM)845、随机存取存储器846、内部大容量存储器(例如内部非用户可存取硬盘驱动器、固态硬盘等)847等可通过系统总线848进行连接。在某些计算机设备中,可以以至少一个物理插头的形式访问系统总线848,以便可通过额外的中央处理单元、图形处理单元等进行扩展。外围装置可直接附接到核心的系统总线848,或通过外围总线849进行连接。外围总线的体系结构包括外部控制器接口PCI、通用串行总线USB等。
CPU 841、GPU 842、FPGA 843和硬件加速器844可以执行某些指令,这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM 845或RAM 846中。过渡数据也可以存储在RAM 846中,而永久数据可以存储在例如内部大容量存储器847中。通过使用高速缓冲存储器可实现对任何存储器设备的快速存储和检索,高速缓冲存储器可与至少一个CPU 841、GPU 842、大容量存储器847、ROM 845、RAM846等紧密关联。
所述计算机可读介质上可具有计算机代码,用于执行各种计算机实现的操作。介质和计算机代码可以是为本申请的目的而特别设计和构造的,也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。
作为实施例而非限制,具有体系结构的计算机设备700,特别是核心840,可以作为处理器(包括CPU、GPU、FPGA、加速器等)提供执行包含在至少一个有形的计算机可读介质中的软件的功能。这种计算机可读介质可以是与上述的用户可访问的大容量存储器相关联的介质,以及具有非易失性的核心840的特定存储器,例如核心内部大容量存储器847或ROM845。实现本申请的各种实施例的软件可以存储在这种设备中并且由核心840执行。根据特定需要,计算机可读介质可包括一个或一个以上存储设备或芯片。该软件可以使得核心840特别是其中的处理器(包括CPU、GPU、FPGA等)执行本申请所述的特定过程或特定过程的特定部分,包括定义存储在RAM 846中的数据结构以及根据软件定义的过程来修改这种数据结构。另外或作为替代,计算机设备可以提供逻辑硬连线或以其它方式包含在电路(例如,加速器844)中的功能,该电路可以代替软件或与软件一起运行以执行本申请所述的特定过程或特定过程的特定部分。在适当的情况下,对软件的引用可以包括逻辑,反之亦然。在适当的情况下,对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(IC)),包含执行逻辑的电路,或两者兼备。本申请包括任何合适的硬件和软件组合。
虽然本申请已对多个示例性实施例进行了描述,但实施例的各种变更、排列和各种等同替换均属于本申请的范围内。因此应理解,本领域技术人员能够设计多种系统和方法,所述系统和方法虽然未在本申请中明确示出或描述,但其体现了本申请的原则,因此属于本申请的精神和范围之内。
Claims (15)
1.一种视频编解码方法,其特征在于,包括:
接收与点云相关联的数据;
对与提升分解相关联的属性进行可扩展解码,具体包括:
定义一组量化级别;
针对每个量化级别,对每个细节级别LoD层中的每个点云,执行以下迭代处理:
在对连续的提升系数进行解码时,确定该量化级别处零系数的数量;
当所述数量为零时,确定量化的系数值;
根据该量化级别上的量化参数以及所述量化的系数值,执行逆量化,获得重建的预测残差;及,
根据所述重建的预测残差,获得每个点云重建的属性。
2.根据权利要求1所述的方法,其特征在于,进一步包括:
针对与接收到的数据相关联的各个LoD层,对不同的LoD层使用至少一个上下文模型,其中,LoD层越高,通过所述提升分解生成的提升系数越小。
3.根据权利要求1所述的方法,其特征在于,进一步包括:
对于不同的量化参数,使用至少一个上下文模型,其中,量化参数越大,通过所述提升分解生成的量化系数越小。
4.根据权利要求1所述的方法,其特征在于,进一步包括:
当最小化所述提升分解的系数之间的噪声时,对不同的量化级别层,使用至少一个上下文模型。
5.根据权利要求1所述的方法,其特征在于,进一步包括:
对于与接收到的数据相关联的各个量化级别层,确定低量化级别层中与所述点云的位置相对应的位置以及来自所述位置的已重建样本;
根据所述已重建样本的值或值的函数,使用至少一个上下文模型。
6.根据权利要求1所述的方法,其特征在于,进一步包括:
针对与接收到的数据相关联的各个LoD层,确定具有相同量化级别的低LoD层中与所述点云的位置相对应的位置以及来自所述位置的已重建样本;
根据所述已重建样本的值或值的函数,使用至少一个上下文模型。
7.根据权利要求1所述的方法,其特征在于,进一步包括:
若使用基于字典的编解码,在应用所述提升分解时,自适应地切换用于符号索引编解码的查找表。
8.一种视频编解码装置,其特征在于,包括:
接收模块,用于接收与点云相关联的数据;
变换模块,用于对与提升分解相关联的属性进行可扩展解码,具体包括:定义一组量化级别;针对每个量化级别,对每个细节级别LoD层中的每个点云,执行以下迭代处理:在对连续的提升系数进行解码时,确定该量化级别处零系数的数量;当所述数量为零时,确定量化的系数值;根据该量化级别上的量化参数以及所述量化的系数值,执行逆量化,获得重建的预测残差;及,
重建模块,用于根据所述重建的预测残差,获得每个点云重建的属性。
9.根据权利要求8所述的装置,其特征在于,进一步包括:
模型使用模块,用于针对与接收到的数据相关联的各个LoD层,对不同的LoD层使用至少一个上下文模型,其中,LoD层越高,通过所述提升分解生成的提升系数越小。
10.根据权利要求8所述的装置,其特征在于,进一步包括:
模型使用模块,用于对于不同的量化参数,使用至少一个上下文模型,其中,量化参数越大,通过所述提升分解生成的量化系数越小。
11.根据权利要求8所述的装置,其特征在于,进一步包括:
模型使用模块,用于当最小化所述提升分解的系数之间的噪声时,对不同的量化级别层,使用至少一个上下文模型。
12.根据权利要求8所述的装置,其特征在于,进一步包括:
模型使用模块,用于对于与接收到的数据相关联的各个量化级别层,确定低量化级别层中与所述点云的位置相对应的位置以及来自所述位置的已重建样本;根据所述已重建样本的值或值的函数,使用至少一个上下文模型。
13.根据权利要求8所述的装置,其特征在于,进一步包括:
模型使用模块,用于针对与接收到的数据相关联的各个LoD层,确定具有相同量化级别的低LoD层中与所述点云的位置相对应的位置以及来自所述位置的已重建样本;根据所述已重建样本的值或值的函数,使用至少一个上下文模型。
14.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1至7中任一项所述的方法。
15.一种非易失性计算机可读存储介质,其特征在于,存储有计算机可读指令,可以使至少一个处理器执行如权利要求1至7中任一项所述的方法。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062958863P | 2020-01-09 | 2020-01-09 | |
US62/958,863 | 2020-01-09 | ||
US202063009875P | 2020-04-14 | 2020-04-14 | |
US202063009874P | 2020-04-14 | 2020-04-14 | |
US63/009,874 | 2020-04-14 | ||
US63/009,875 | 2020-04-14 | ||
US17/136,122 | 2020-12-29 | ||
US17/136,122 US11551334B2 (en) | 2020-01-09 | 2020-12-29 | Techniques and apparatus for coarse granularity scalable lifting for point-cloud attribute coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113115019A CN113115019A (zh) | 2021-07-13 |
CN113115019B true CN113115019B (zh) | 2022-08-12 |
Family
ID=76710185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110016566.3A Active CN113115019B (zh) | 2020-01-09 | 2021-01-07 | 视频编解码方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113115019B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113676738B (zh) * | 2021-08-19 | 2024-03-29 | 上海交通大学 | 一种三维点云的几何编解码方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567081B1 (en) * | 2000-01-21 | 2003-05-20 | Microsoft Corporation | Methods and arrangements for compressing image-based rendering (IBR) data using alignment and 3D wavelet transform techniques |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0401021D0 (sv) * | 2004-04-21 | 2004-04-21 | Sectra Imtec Ab | Datareduktion för framställning av datorgenererad grafik och analys |
US10469873B2 (en) * | 2015-04-15 | 2019-11-05 | Google Llc | Encoding and decoding virtual reality video |
US10861196B2 (en) * | 2017-09-14 | 2020-12-08 | Apple Inc. | Point cloud compression |
US10897269B2 (en) * | 2017-09-14 | 2021-01-19 | Apple Inc. | Hierarchical point cloud compression |
US11010928B2 (en) * | 2018-04-10 | 2021-05-18 | Apple Inc. | Adaptive distance based point cloud compression |
US10909727B2 (en) * | 2018-04-10 | 2021-02-02 | Apple Inc. | Hierarchical point cloud compression with smoothing |
-
2021
- 2021-01-07 CN CN202110016566.3A patent/CN113115019B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567081B1 (en) * | 2000-01-21 | 2003-05-20 | Microsoft Corporation | Methods and arrangements for compressing image-based rendering (IBR) data using alignment and 3D wavelet transform techniques |
Also Published As
Publication number | Publication date |
---|---|
CN113115019A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3861755B1 (en) | Techniques and apparatus for weighted-median prediction for point-cloud attribute coding | |
US11568571B2 (en) | Techniques and apparatus for lossless lifting for attribute coding | |
JP7384520B2 (ja) | フレーム間点群属性コーディングのための方法、装置及びコンピュータ・プログラム | |
JP7261300B2 (ja) | 適応ポイントクラウド属性コーディングのための方法、装置、及びコンピュータプログラム | |
CN113455007B (zh) | 帧间点云属性编解码的方法和装置 | |
CN112771583A (zh) | 视频编码的方法和装置 | |
CN113795870B (zh) | 一种对点云属性编解码的方法、装置及存储介质 | |
US11202054B2 (en) | Method and apparatus for inter-channel prediction and transform for point-cloud attribute coding | |
US11917205B2 (en) | Techniques and apparatus for scalable lifting for point-cloud attribute coding | |
KR102584519B1 (ko) | 포인트 클라우드 압축을 위한 변환 계수들의 알파벳-파티션 코딩을 위한 기술들 및 장치들 | |
CN112218077B (zh) | 通道间点云属性编码方法、装置以及可读存储介质 | |
US11551334B2 (en) | Techniques and apparatus for coarse granularity scalable lifting for point-cloud attribute coding | |
CN115336243A (zh) | 基于哈尔的点云编码方法和装置 | |
CN113179411A (zh) | 点云属性编解码方法、装置、计算机设备及存储介质 | |
CN113115019B (zh) | 视频编解码方法、装置、计算机设备及存储介质 | |
CN112188199B (zh) | 自适应点云属性编码的方法、装置、电子设备和存储介质 | |
CN112188216A (zh) | 视频数据的编码方法、装置、计算机设备及存储介质 | |
CN112616058A (zh) | 视频编码或解码方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40047928 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |