CN116158075A - 用于图像或视频编码的视图的打包 - Google Patents

用于图像或视频编码的视图的打包 Download PDF

Info

Publication number
CN116158075A
CN116158075A CN202180058799.8A CN202180058799A CN116158075A CN 116158075 A CN116158075 A CN 116158075A CN 202180058799 A CN202180058799 A CN 202180058799A CN 116158075 A CN116158075 A CN 116158075A
Authority
CN
China
Prior art keywords
view
pixels
metadata
additional view
additional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180058799.8A
Other languages
English (en)
Inventor
W·H·A·布鲁斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN116158075A publication Critical patent/CN116158075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/129Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

公开了用于3DoF+视频的编码器、解码器、编码方法和解码方法。所述编码方法包括接收(110)包括场景的基本视图和至少第一附加视图的多视图图像或视频数据。所述方法通过识别(220)所述第一附加视图中需要被编码的像素而继续进行,因为它们包含在所述基本视图中不可见的场景内容。将所述第一附加视图划分(230)成像素的多个第一块。保留(240)包含所识别的像素中的至少一个像素的第一块;并且丢弃不包含所述所识别的像素中的任何像素的第一块。重新布置(250)保留的块,使得它们在至少一个维度上是邻接的。打包的附加视图根据重新布置的第一保留块而被生成(260)并且被编码(264)。

Description

用于图像或视频编码的视图的打包
技术领域
本发明涉及多视图图像或视频数据的编码。本发明具体涉及用于对虚拟现实(VR)或沉浸式视频应用的视频序列进行编码和解码的方法和装置。
背景技术
在本领域中已经研究了用于若干不同类型的沉浸式媒体内容的编码方案。一种类型是360°视频,也称为三自由度(3DoF)视频。这允许针对具有任意取向(由内容的消费者选择)但仅在空间中的固定点处的视点来重建场景的视图。在3DoF中,自由度是角度的-即俯仰、滚转和偏航。3DoF视频支持头部旋转-换句话说,消费视频内容的用户可以在场景中的任何方向上观看,但是不能移动到场景中的不同位置。
顾名思义,“3DoF+”表示3DoF视频的增强。“+”反映了它另外支持场景中的视点的有限平移变化的事实。例如,这可以允许就座的用户将他们的头部向上、向下、向左和向右、向前和向后移动一小段距离。这增强了体验,因为它允许用户体验视差效果,并且在某种程度上观看场景中的“周围”对象。
无约束平移是六自由度(6DoF)视频的目标。这允许完全沉浸式体验,由此观看者可以在虚拟场景周围自由移动,并且可以从场景中的任何点在任何方向上观看。3DoF+不支持这些大的转换。
3DoF+是虚拟现实(VR)应用的重要使能技术,其中存在越来越多的兴趣。通常,通过使用多个相机捕获场景,从一系列(略微)不同的观看位置在一系列不同方向上观看,来记录VR 3DoF+内容。每个相机生成场景的相应“视图”,包括图像数据(有时也称为“纹理”数据)和深度数据。对于每个像素,深度数据表示观察到对应图像像素数据的深度。
因为视图全部表示来自略微不同的位置和角度的相同场景,所以在不同视图的内容中通常存在高度冗余。换句话说,由每个相机捕获的许多视觉信息也由一个或多个其他相机捕获。为了以带宽有效的方式存储和/或传输内容,并且以计算有效的方式对其进行编码和解码,期望减少这种冗余。最小化解码器的复杂度是特别期望的,因为内容可以被产生(和被编码)一次,但是可以被多个用户多次消费(并且因此被解码)。
在视图之中,一个视图可以被指定为“基本”视图或“中心”视图。其他视图可以被指定为“附加”视图或“侧面”视图。
发明内容
在计算工作量、能量消耗和数据速率(带宽)方面,将期望有效地编码和解码基本和附加视图。期望在比特率和需要处理的像素数量(像素率)方面提高编码效率。比特率影响存储和/或传输编码视图所需的带宽和解码器的复杂度。像素率影响解码器的复杂度。
本发明由权利要求限定。
根据本发明的一个方面的示例,提供了一种根据权利要求1所述的对多视图图像或视频数据进行编码的方法。
这里,“在至少一个维度上连续”意味着(i)沿着每一行块从左到右或从右到左扫描,在保留的第一块之间没有间隙,或者(ii)沿着所有列块从上到下或从下到上扫描,在保留的第一块之间没有间隙,或者(iii)保留的第一块在二维上是连续的。情况(i)意味着块沿着行连接:除了每一行的左端和右端处的块之外,每个保留的第一块与其左和右的另一个保留的第一块相邻。然而,可能存在没有保留块的一个或多个行。情况(ii)意味着块沿着列连接:除了在每列的顶部和底部处的块之外,每个保留的第一块与上方和下方的另一个保留的第一块相邻。然而,可能存在没有保留块的一个或多个列。
在情况(iii)中,“在两个维度上连续”意味着每个保留的第一块与至少一个其他这样的块相邻(上方、下方、左侧或右侧)。因此,没有隔离的块或块组。优选地,沿着任何列没有间隙,并且沿着任何行没有间隙,如上面针对两个一维情况所描述的。
重新布置保留的第一块可以包括在一个维度上移动每个保留的第一块,特别是将它定位成沿着该维度与其最近相邻的保留的第一块直接相邻。
移位可以包括沿着块的行水平移位,或沿着块的列竖直移位。水平移动可能是优选的。在一些示例中,块可水平地以及竖直地移位。例如,块可以水平移位,以产生连续的块行。然后,连续的行可以竖直移位,使得块在二维上是连续的。
移位可以包括在相同方向上移位所保留的第一块。例如,向向左移位动块。
在打包的附加视图中,保留的第一块可以与视图的一个边缘邻接。这可以是打包的附加视图的左边缘。
块可以都具有相同的尺寸。
该方法还可以包括,在对打包的附加视图进行编码之前:将打包的附加视图分割成第一部分和第二部分;相对于所述第一部分变换所述第二部分,以生成经变换的打包的视图;并且将经变换的打包的视图编码到视频比特流中。也就是说,经变换的打包的视图而不是原始打包的附加视图被编码。该变换可以被选择为使得经变换的打包的视图在至少一个维度上具有减小的尺寸。特别地,经变换的打包的视图可具有减小的水平尺寸(即,减少数量的像素列)。
所述变换可选地包括以下中的一个或多个:在水平方向上反转所述第二部分;在竖直方向上反转所述第二部分;转置所述第二部分;使所述第二部分沿着所述水平方向循环地移位,并且使所述第二部分沿着所述竖直方向循环地移位。
反转产生行的镜像(左-右)。反转意味着将列倒置。转置意味着将行交换为列(并且反之亦然),使得第一行被原始第一列替换,第二行被原始第二列替换,等等。
第一部分和第二部分中的至少一个中的保留块可以通过将它们向左移位来重新布置。该向左移位可以在第二部分相对于第一部分的变换之前和/或之后进行。当随后压缩经变换的打包的附加视图时,该方法可以很好地工作。由于许多压缩标准的工作方式,这种方法可以帮助降低压缩后的比特率。
该方法还可以包括将第二部分相对于第一部分如何变换的描述编码到元数据比特流中。
该方法还可以包括将附加视图被打包到打包的附加视图中的顺序的描述编码到元数据比特流中。
可以使用无损压缩对元数据比特流进行编码,任选地具有错误检测和/或校正代码。
打包的附加视图可以沿着至少一个维度具有与每个附加视图相同的尺寸。特别地,它们可以沿着竖直维度具有相同的尺寸(即,相同数量的像素行)。
该方法还可以包括使用视频压缩算法(任选地,标准化视频压缩算法,其可以采用有损压缩)来压缩基本视图和打包的附加视图。示例包括但不限于高效视频编码(HEVC),也称为H.265和MPEG-H Part 2。比特流可以包括压缩的基本视图和压缩的打包的附加视图。
视频压缩算法的压缩块尺寸可以在至少一个维度上大于该维度上的第一块和第二块的尺寸。这可以允许多个较小的块(或块的切片)一起聚集成单个压缩块以进行视频压缩。这可以帮助提高保留块的编码效率。
每个视图可以包括图像(纹理)值和深度值。
还提供了一种根据权利要求10所述的对多视图图像或视频数据进行解码的方法。
布置第一块可以包括根据第一打包元数据中的描述在一个维度上移位它们。特别地,第一块可以沿着所述维度移位到间隔开的位置。在一些示例中,布置可以包括在两个维度上移动第一块。
视频比特流中的视图可能已经使用视频压缩算法(可选地,标准化视频压缩算法)进行了压缩。该方法可以包括,当解码视图时,根据视频压缩算法对视图进行解压缩。
该方法可以包括相对于第一部分逆变换经打包的附加视图的第二部分。逆变换可以基于从元数据比特流解码的关于在编码期间第二部分相对于第一部分如何被变换的描述。
还提供了一种根据权利要求12所述的计算机程序,所述计算机程序可以被提供在计算机可读介质(优选地非瞬态计算机可读介质)上。
还提供了一种根据权利要求13所述的编码器;一种根据权利要求14所述的解码器;以及一种根据权利要求15的比特流。
可以使用如上概述的方法对比特流进行编码和解码。它可以体现在计算机可读介质上或体现为调制到电磁载波上的信号。计算机可读介质可以是非瞬态计算机可读介质。
本发明的这些和其他方面将参考下文描述的(一个或多个)实施例变得显而易见并将参考下文描述的(一个或多个)实施例得以阐述。
附图说明
为了更好地理解本发明并且为了更清楚地示出它可以如何被实施,现在将仅以示例的方式参照附图,其中:
图1图示了根据实施例操作的视频编码和解码系统;
图2是根据实施例的编码器的框图;
图3更详细地示出了图2的框图的部件;
图4是图示由图4的编码器执行的编码方法的流程图;
图5A-C图示了根据实施例的保留的像素块的重新布置;
图6是图示用于重新布置像素块的其他步骤的流程图;
图7A-D图示了使用图6中图示的过程的打包的附加视图的一部分的变换;
图8是根据实施例的解码器的框图;
图9是图示由图8的解码器执行的解码方法的流程图。
具体实施方式
将参考附图来描述本发明。
应当理解,详细描述和具体示例在指示装置、系统和方法的示例性实施例的同时,仅旨在用于图示的目的,而不旨在限制本发明的范围。根据以下描述、所附权利要求和附图将更好地理解本发明的装置、系统和方法的这些和其他特征、方面和优点。应当理解,附图仅仅是示意性的,并未按比例绘制。还应当理解,在整个附图中使用相同的附图标记来表示相同或相似的部件。
如本文所使用的,“视图”是指场景的图像。(该图像可以是静止图像或视频帧)图像包括由行和列组成的二维像素的阵列。在该阵列中,行水平延伸,并且列竖直延伸。方向“左”和“右”是指水平(即,行)维度。方向“上”/“向上”和“下”/“向下”是指竖直(即,列)维度。最左边的像素是每一行上的第一像素。最上面的像素是每列中的第一像素。当图像被划分为都具有相同高度(就像素数量而言)的像素块时,这导致块的行。当图像被划分为全部具有相同宽度(再次,测量为像素数)的像素块时,这导致块的列。当图像被分成具有相同高度和宽度的块时,这导致由块的行和列组成的规则的块阵列。
尽管基本(或“中心”)视图可以被整体编码,但是可以将附加视图“修剪”到它们包含冗余视觉内容(即,已经由基本视图足够准确地表示的视觉内容)的程度。这导致在视觉内容中相对稀疏的经修剪的附加视图。发明人已经认识到,将这些附加视图划分为块并且将这些附加视图划分为块可以是有利的。在压缩附加视图之前,重新布置这些块以更有效地将它们打包在一起。
图1图示了根据实施例的整个系统。图1以简化形式图示了用于编码和解码3DoF+视频的系统。相机阵列10用于捕获场景的多个视图。每个相机捕获常规图像(本文中称为纹理图)和其前面的视图的深度图。包括纹理和深度数据的一组视图被提供给编码器100。编码器将纹理数据和深度数据两者编码成常规视频比特流——例如,高效视频编码(HEVC)比特流。这伴随有元数据比特流,以向解码器400通知视频比特流的不同部分的含义。例如,元数据告诉解码器视频比特流的哪些部分对应于纹理图以及哪些对应于深度图。取决于编码方案的复杂性和灵活性,可能需要更多或更少的元数据。例如,非常简单的方案可以非常严格地规定比特流的结构,使得在解码器端需要很少元数据或不需要元数据来对其进行解包。随着比特流的更多数量的可选可能性,将需要更大量的元数据。
解码器400对编码视图(纹理和深度)进行解码并渲染场景的至少一个视图。它将渲染的视图传递到显示设备,诸如虚拟现实头戴式设备40。头戴式耳机40根据头戴式耳机40的当前位置和取向,请求解码器400使用解码的视图渲染3D场景的特定视图。
图1所示的系统的优点在于,它能够使用常规的2-D视频编解码器来编码和解码纹理和深度数据。然而,缺点是存在要编码、传输和解码的大量数据。因此,期望降低比特率和/或像素率,同时尽可能少地损害重建视图的质量。
图2是根据本实施例的编码器100的框图。编码器100包括:输入端110,其被配置为接收视频数据;修剪单元120;打包单元130;视频编码器140和元数据编码器150。修剪单元120的输出端连接到打包单元130的输入端。打包单元130的输出端分别连接到视频编码器140和元数据编码器150的输入端。视频编码器140输出视频比特流;元数据编码器150输出元数据比特流。
图3更详细地示出了修剪单元120和打包单元130。修剪单元120包括一组像素标识符单元122a、b、...——针对场景的每个侧视图一个。在图1的示例中,总共有八个视图,即,一个基本视图和七个侧视图。为了便于解释,图3仅示出了两个侧视图。应当理解,可以类似地处理其他侧视图。修剪单元120还包括一组块对齐静默器(muter)单元124a、124b、…——再次,针对每个侧视图一个。打包单元130包括相应的一组向左移位单元132a、b等。它还包括视图组合器134,用于将侧视图组合成打包的附加视图。
现在将参考图4描述由编码器100执行的方法。在步骤210中,输入端110接收包括基本视图和附加(侧)视图的视频数据。出于本说明的目的,假设基本视图被单独编码和压缩——这在本公开的范围之外,并且将不在本文中进一步讨论。侧视图被传递到修剪单元120。特别地,第一侧视图被传递到像素识别器122a和块对齐静默器124a。第二侧视图被传递到像素识别器122b和块对齐静默器124b。
在步骤220中,每个像素识别器122识别相应侧视图中需要被编码的像素,因为它们包含在基本视图中不可见的场景内容。这可以以多种不同方式中的一种来完成。在一个示例中,每一像素识别器被配置为检查深度图的梯度的幅值。该梯度高于预定阈值的像素被识别为需要被编码。这些识别的像素将捕获深度不连续性。深度不连续处的视觉信息需要被编码,因为它将在场景的不同视图中不同地出现——例如,由于视差效应。以这种方式,识别梯度的幅值大的像素提供了一种识别需要被编码的图像区域的方式,因为它们在基本视图中不可见。
在另一示例中,编码器可以被配置为基于被丢弃(即,未被编码)的某些像素来构建测试视口。这可以与在保留这些像素的同时构造的参考视口进行比较。像素识别器可以被配置为计算测试视口与参考视口之间的差(例如,像素值之间的平方差之和)。如果所选像素的不存在不会太多地影响测试视口的呈现(即,如果差异不大于预定阈值),则可以从编码过程中丢弃测试像素。否则,如果丢弃它们具有显著影响在渲染的测试视口上,像素识别器122应当标记它们以用于保留。编码器可以用建议丢弃的不同像素集合进行实验,并选择提供最高质量和/或最低比特率或像素率的配置。
像素识别器122的输出是针对每个像素的二进制标志,指示像素是被保留还是被丢弃。该信息被传递到相应的块对齐静默器124。在步骤230中,块对齐静默器124a将第一侧视图划分为像素的多个第一块。并行地,块对齐静默器124b将第二侧视图划分为像素的多个第二块。在步骤240中,块对齐静默器124a保留包含由像素识别器122a识别为需要编码的像素中的至少一个像素的那些第一块。这些块被传递到打包单元130的向左移位单元132a。不包含任何已识别像素的块被丢弃(即,它们不被传递到打包单元)。在本实施例中,这通过用黑色像素替换侧视图中的所有丢弃的块来实现。这种用黑色像素的替换在本文中被称为“静默”。由第二侧视图上的块对齐静默器124b执行对应的步骤。保留的第二像素块被传递到向左移位单元132b。
在步骤250中,向左移位单元132a重新布置保留的像素的第一块,使得它们在至少一个维度上是邻接的。这是通过将块向左移位直到它们沿着块的相应行彼此相邻为止来实现的,其中,每一行中的最左边的块与图像的左边缘相邻。该流程在图5A-C中图示。图5A示出了侧视图30,其中,各个块32将被保留。图5B图示了将块32向左移位的过程。图5C示出了在它们都被移位到图像的左手边缘之后的块。每一行块沿着行维度是连续的,即,沿着每一行的块之间没有间隙。在该示例中,块在列方向上也是连续的;然而,当沿行移动块时,不一定总是这种情况。一些行中可能没有保留的块,在这种情况下,在重新布置的图像中的块的一些行之间将存在间隙。除了图5A-C中所示的保留块32之外的块被着色为黑色。注意,图5A-C示出了示例性侧视图的小区域中的少量块。实际上,通常会有更多的块。发明人已经发现,利用矩形而不是正方形的块(即具有与其水平宽度不同的竖直高度的块)可以获得良好的结果。特别地,可以使用具有一个或多个块的块来实现更好的结果。水平宽度小于竖直高度。已经发现32个像素的竖直高度给出了良好的结果,其中,水平宽度为1个像素或4个像素。
在步骤260中,视图组合器将重新布置的第一保留块(来自向左移位单元132a)添加到打包的附加视图。在添加单个侧视图之后,打包的附加视图与图5C相同。在步骤270中,向左移位单元132a生成描述如何重新布置所保留的第一块的第一打包元数据。向左移位单元132b对第二侧视图的第二保留块执行类似的重新布置操作,并生成描述这些块如何重新布置的第二打包元数据。重新布置的块被传递到视图组合器134以被添加到打包的附加视图。它们可以以各种方式添加。在本示例中,来自第二侧视图的每一行保留的块被附加到来自第一侧视图的对应行的保留的块。可以对每个侧视图重复该流程,直到打包的附加视图完成。注意,因为侧视图相对稀疏地填充有保留的块,所以在静默阶段之后,所有侧视图的保留的块可以被打包到具有更少数量的像素和所有侧视图的像素总数的图像中。特别地,在本示例中,尽管打包的附加视图具有与原始侧视图中的每一个相同数量的行(即,相同的竖直尺寸),但是它可以具有较少数量的列(即,较小的水平尺寸)。这有助于降低要编码/传输的像素率。
在步骤264中,视频编码器140从打包单元130接收打包的附加视图,并将打包的附加视图和基本视图编码到视频比特流中。可以使用视频压缩算法(其可以是有损视频压缩算法)对基本视图和打包的附加视图进行编码。在步骤274中,元数据编码器150将第一打包元数据和第二打包元数据编码为元数据比特流。元数据编码器150还可以将附加视图被添加/打包到打包的附加视图中的序列的定义编码到元数据比特流中。特别地,如果没有以预定的固定顺序添加/打包附加视图,则应该这样做。使用无损压缩(可选地使用错误检测和/或校正代码)对元数据进行编码。这是因为如果在解码器处没有正确地接收到元数据中的错误,则元数据中的错误可能对解码过程具有更显著的影响。合适的检错和/或校正代码在通信理论领域中是已知的。
现在将参考图6和7A-D描述可选的附加编码级。图6是示出处理步骤的流程图,其在图7A-D中的图形示例中图示。图6的过程可由打包单元130执行。它可以针对每个侧视图单独执行,或它可以在包含在打包的附加视图中的侧视图的组合上执行。在图6中,假设后一种情况。
在步骤136中,打包单元130将打包的附加视图分割成两个部分。在图7A中图示的示例中,打包的附加视图被分割成左部分30a(部分1)和右部分30b(部分2)。为了图示的清楚性,右侧部分30b的块用灰色阴影表示。接下来,对打包的附加视图的右侧部分30b进行变换,以使每一行上的静默(丢弃)块的数量更均匀。在步骤137中,右部分30b从左到右翻转。这用其镜像代替了右部分30b,如图7B所示。在步骤138中,打包单元130以循环式竖直移动右侧部分30b的保留块(由此当竖直“向上”移动一行时,顶行移动到底行)。在图7C所示的示例中,块向上移位4行。如图7C所示,变换的每一行现在包括相似数量的静默(丢弃)块。相反,可以说每一行包含相似数量的保留块。这允许变换的右侧部分(以灰色示出)的保留块向左移位,以更靠近左侧部分的保留块。在步骤139中,打包单元130将变换的右部分30b与左部分30a重新组合。在重新组合过程中,经变换的右部分的保留块向左移位,以产生经变换的打包的视图30C,如图7D所示。可以以各种方式执行向左移位。在图7D所示的示例中,每个保留块向左移位相同数量的块(即相同数量的列),使得变换的右部分的至少一个保留块沿着给定行与左部分的至少一个块相邻。替代地,经变换的右部分30b的每一行可以向左移位行特定数量的块,直到经变换的右部分30b的每一行块与左部分30a的相应行块邻接。元数据编码器150将对在生成经变换的打包的视图时如何操纵右部分(部分2)的保留块的描述编码到元数据比特流中。应当注意,该描述的尺寸以及因此的元数据的量将在某种程度上取决于变换的复杂性。例如,如果右部分的所有行向左移位相同数量的列,则仅需要将一个值编码到元数据中,以描述变换的该部分。另一方面,如果每一行移位不同数量的列,则每一行将生成元数据值。
变换的复杂度(以及元数据的对应尺寸)可以与由变换引起的比特率和/或像素率的降低进行折衷。如从前面的描述将显而易见的,当选择用于正确部分(部分2)的变换时,存在若干变量。这些可以以各种不同的方式选择。例如,编码器可以用不同的变换选择进行实验,并且可以针对每个不同的选择测量比特率和/或像素率的降低。然后,编码器可以选择导致比特率和/或像素率的最大降低的变换参数的组合。
图8示出了被配置为对由图2的编码器产生的视频和元数据比特流进行解码的解码器400。图9示出了由解码器400执行的对应方法。
在步骤510中,在第一输入端410处接收视频比特流。在步骤520中,在第二输入端处接收元数据比特流,第二输入端可以与第一输入端相同或不同。在本示例中,第二输入端与第一输入端410相同。在步骤530中,视频解码器420对视频比特流进行解码,以获得基本视图和打包的附加视图。这可以包括根据标准视频压缩编解码器进行解码。在步骤540中,元数据解码器430对元数据比特流进行解码,以获得描述如何将第一附加(侧)视图添加到打包的附加视图中的第一打包元数据、以及描述如何将第二附加(侧)视图添加到打包的附加视图中的第二打包元数据。这包括描述上面参考图5A-C和7A-D描述的块的重新布置和部分的可选变换的元数据。
解码的打包的附加视图和解码的元数据被传递到重建单元440。在步骤550中,重建单元440将来自解码的打包的附加视图的块布置成单独的侧视图。它通过使用解码的元数据反转在编码器处执行的操纵来实现这一点。然后,在步骤560中,解码的基本视图和重建的侧视图被传递到渲染器450,渲染器450基于输入来渲染场景的视图。
已经使用MPEG测试序列针对用于多视图3DoF+编码的现有技术MPEG解决方案(参见ISO/IECJTC 1/SC 29/WG 11N18464:Working Draft 1of Metadata for ImmersiveMedia(Video);ISO/IEC JTC1/SC 29/WG 11N18470:Test Model for Immersive Video)测试了上述编码(和解码)方法。结果在下面的表1中。结果表明,根据测试序列和块尺寸,本实施例的方法实现了现有技术算法的34%和61%之间的像素率,并且现有技术的27%和82%之间的比特率。在右手列中,4×32表示块尺寸水平地宽4个像素,并且竖直地高32个像素;1×32表示块水平地宽1个像素,并且竖直地高32个像素。
表1:关于MPEG测试序列相对于沉浸式视频的MPEG工作草案的实验结果
Figure BDA0004113601620000061
Figure BDA0004113601620000071
本领域技术人员将理解,上述实施例仅是本公开范围内的一个示例。许多变化是可能的。例如,保留块的重新布置不限于向左移位。块可以向右而不是向左移位。它们可以沿着列竖直移位而不是沿着行水平移位。在一些实施例中,可以组合竖直移位和水平移位,以实现保留块的更好打包。不希望受理论束缚,据信如果重新布置块使得类似的视觉内容包含在打包表示中彼此相邻的保留块中,则可以改善编码效率(并且因此降低比特率)。这可以允许标准视频压缩算法实现最佳编码效率,因为它们通常被设计为利用像这样的图像内容中的空间冗余。因此,块的不同重新布置和变换可以更好地用于不同类型的场景。在一些实施例中,编码器可以测试各种不同的重新布置和变换,并且可以选择导致该场景的比特率和/或像素率的最大降低的重新布置和/或变换的组合,同时保持最高质量(即再现的准确性)。
图4和9的编码和解码方法以及图2和8的编码器和解码器可以以硬件或软件或两者的混合(例如,作为在硬件设备上运行的固件)的方式来实施。就实施例部分地或全部地以软件的方式来实施而言,过程流程图中所图示的功能步骤可以由适当编程的物理计算设备(诸如一个或多个中央处理单元(CPU)或图形处理单元(GPU))执行。每个过程——以及如流程图中所图示的其个体组成步骤——可以由相同或不同的计算设备执行。根据实施例,一种计算机可读存储介质存储包括计算机程序代码的计算机程序,所述计算机程序代码被配置为当程序在一个或多个物理计算设备上运行时使一个或多个物理计算设备执行如上所述的编码或解码方法。
存储介质可以包括易失性和非易失性计算机存储器,诸如RAM、PROM、EPROM和EEPROM。各种存储介质可以固定在计算设备内或可以是可运输的,使得存储在其上的一个或多个程序可以被加载到处理器中。
根据实施例的元数据可以存储在存储介质上。根据实施例的比特流可以存储在相同的存储介质或不同的存储介质上。元数据可以嵌入在比特流中,但这不是必需的。同样地,元数据和/或比特流(其中,元数据在比特流中或与它分开)可以作为调制到电磁载波上的信号来传输。可以根据用于数字通信的标准来定义信号。载波可以是光载波、射频波、毫米波或近场通信波。它可以是有线的或无线的。
就实施例部分地或全部地以硬件的方式来实施而言,图2和8的框图中所示出的框可以是单独的物理部件、或单个物理部件的逻辑细分,或可以都以集成的方式被实施在一个物理部件中。在实施方式中,附图中所示出的一个框的功能可以在多个部件之间进行划分,或在实施方式中,附图中所示的多个框的功能可以被组合在单个部件中。适合于在本发明的实施例中使用的硬件部件包括但不限于常规微处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。一个或多个框可以被实施为执行一些功能的专用硬件与执行其他功能的一个或多个编程的微处理器和相关联的电路的组合。
本领域技术人员通过研究附图、公开内容以及权利要求,在实践请求保护的发明时能够理解并实现对所公开的实施例的变型。在权利要求中,“包括”一词不排除其他元件或步骤,并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。尽管某些措施被记载在互不相同的从属权利要求中,但是这并不指示不能有利地使用这些措施的组合。如果上面讨论了计算机程序,它可以被存储/分布在合适的介质上,例如与其他硬件一起或作为其他硬件的部分供应的光学存储介质或固态介质,但是也可以被以其他形式分布,例如经由互联网或其他有线或无线的电信系统。如果术语“适于”用于权利要求书或说明书中,应注意术语“适于”旨在相当于术语“被配置为”。权利要求中的任何附图标记都不应被解释为对范围的限制。

Claims (15)

1.一种对多视图图像或视频数据进行编码的方法,所述多视图图像或视频数据包括场景的基本视图和至少第一附加视图,每个视图包括像素的阵列,所述方法包括:
接收(110)所述多视图图像或视频数据;
识别(220)所述第一附加视图中需要被编码的像素,所述像素需要被编码是因为它们包含在所述基本视图中不可见的场景内容;
将所述第一附加视图划分(230)为像素的多个第一块;
保留(240)包含所识别的像素中的至少一个像素的第一块;
丢弃不包含所述所识别的像素中的任何像素的第一块;
重新布置(250)像素的所保留的第一块,使得所保留的第一块在至少一个维度上是邻接的;
根据重新布置的第一保留块来生成(260)打包的附加视图;
生成(270)描述如何重新布置所保留的第一块的第一打包元数据;
将所述基本视图和所述打包的附加视图编码(264)到视频比特流中;并且
将所述第一打包元数据编码(274)到元数据比特流中。
2.根据权利要求1所述的方法,其中,重新布置(250)所保留的第一块包括在一个维度上使每个保留的第一块移位,以将每个保留的第一块定位为沿着该维度与其最近相邻的保留的第一块直接相邻。
3.根据权利要求1或2所述的方法,其中,所述块是具有以像素为单位的宽度和以像素为单位的高度的矩形块,其中,所述宽度与所述高度不同。
4.根据前述权利要求中任一项所述的方法,其中,所述多视图图像或视频数据还包括第二附加视图,所述方法还包括:
识别(220)所述第二附加视图中需要被编码的像素,所述像素需要被编码因为它们包含在所述基本视图中不可见的场景内容;
将所述第二附加视图划分(230)成像素的多个第二块;
保留(240)包含所识别的像素中的至少一个像素的第二块;
丢弃不包含所述所识别的像素中的任何像素的第二块;
重新布置(250)像素的所保留的第二块,使得所保留的第一块在所述至少一个维度上是邻接的;
生成(270)描述如何重新布置所保留的第二块的第二打包元数据;
将重新布置的第二块添加到所述打包的附加视图;并且
将所述第二打包元数据编码(274)到所述元数据比特流中。
5.根据权利要求4所述的方法,还包括将所述附加视图被添加到所述打包的附加视图中的顺序的描述编码到所述元数据比特流中。
6.根据前述权利要求中任一项所述的方法,还包括,在对所述打包的附加视图进行编码之前:
将所述打包的附加视图分割(136)成第一部分和第二部分;
相对于所述第一部分变换(137、138)所述第二部分,以生成经变换的打包的视图;并且
将所述经变换的打包的视图编码到所述视频比特流中。
7.根据权利要求6所述的方法,其中,所述变换包括以下中的一项或多项:
在水平方向上反转(137)所述第二部分;
在竖直方向上翻转所述第二部分;
转置;
使所述第二部分沿着所述水平方向循环移位;以及
使所述第二部分沿着所述竖直方向循环移位(138)。
8.根据权利要求6或7所述的方法,其中,通过将所述第一部分和所述第二部分中的至少一个中的保留块向左移位来重新布置所述保留块。
9.根据前述权利要求中任一项所述的方法,其中,所述打包的附加视图沿着至少一个维度具有与至少所述第一附加视图相同的尺寸。
10.一种对描绘场景的多视图图像或视频数据进行解码的方法,所述方法包括:
接收(510)其中编码有基本视图和打包的附加视图的视频比特流,每个视图包括像素的阵列;
接收(520)包括第一打包元数据的元数据比特流,所述第一打包元数据包含对第一附加视图的像素的第一块如何被重新布置到所述打包的附加视图中的描述;
对所述视频比特流进行解码(530)以获得所述基本视图和所述打包的附加视图;
从所述元数据比特流解码(540)所述第一打包元数据;
使用所述第一打包元数据根据所述打包的附加视图来重建(550)所述第一附加视图,以生成重建的第一附加视图;并且
基于所述基本视图和所述重建的第一附加视图来渲染(560)所述场景的至少一个视图,
其中,重建所述第一附加视图包括根据所述第一打包元数据中的所述描述来布置(550)所述第一块。
11.根据权利要求10所述的方法,其中,所述打包的附加视图包括属于第二附加视图的像素的第二块,并且所述元数据比特流包括第二打包元数据,所述第二打包元数据包含对像素的所述第二块如何被重新布置到所述打包的附加视图中的描述,所述方法还包括:
从所述元数据比特流解码(540)所述第二打包元数据;
使用所述第二打包元数据根据所述打包的附加视图来重建(550)所述第二附加视图,以生成重建的第二附加视图;并且
基于所述基本视图和所述重建的第二附加视图来渲染(560)所述场景的至少一个视图,其中,重建所述第二附加视图包括根据所述第二打包元数据中的所述描述来布置(550)所述第二块。
12.一种包括计算机代码的计算机程序,所述计算机代码用于当所述程序在处理系统上运行时使所述处理系统实施根据权利要求1至11中任一项所述的方法。
13.一种被配置为对包括场景的基本视图和至少第一附加视图的多视图图像或视频数据进行编码的编码器(100),每个视图包括像素的阵列,所述编码器包括:
输入端(110),其被配置为接收(210)所述多视图图像或视频数据;
修剪单元(120),其被配置为:
识别(220)所述第一附加视图中需要被编码的像素,所述像素需要被编码是因为它们包含在所述基本视图中不可见的场景内容;
将所述第一附加视图划分(230)为像素的多个第一块;
保留(240)包含所识别的像素中的至少一个像素的第一块;并且
丢弃不包含所述所识别的像素中的任何像素的第一块;以及
打包单元(130),其被配置为:
重新布置(250)所保留的像素的第一块,使得它们在至少一个维度上是邻接的;
根据重新布置的第一保留块来生成(260)打包的附加视图;并且
生成(270)描述如何重新布置所保留的第一块的第一打包元数据;
视频编码器(140),其被配置为将所述基本视图和所述打包的附加视图编码(264)到视频比特流中;以及
元数据编码器(150),其被配置为将所述第一打包元数据编码(274)到元数据比特流中。
14.一种用于多视图图像或视频数据的解码器(400),所述解码器包括:
第一输入端(410),其被配置为接收(510)其中编码有基本视图和打包的附加视图的视频比特流,每个视图包括像素的阵列;
第二输入端(410),其被配置为接收(520)包括第一打包元数据的元数据比特流,所述第一打包元数据包含对第一附加视图的像素的第一块如何被重新布置到所述打包的附加视图中的描述;
视频解码器(420),其被配置为对所述视频比特流进行解码(530)以获得所述基本视图和所述打包的附加视图;
元数据解码器(430),其被配置为从所述元数据比特流解码(540)所述第一打包元数据;
重建单元(440),其被配置为使用所述第一打包元数据根据所述打包的附加视图来重建(550)所述第一附加视图,以生成重建的第一附加视图;以及
渲染器(450),其被配置为基于所述基本视图和所述重建的第一附加视图来渲染(560)所述场景的至少一个视图,
其中,所述重建单元被配置为在重建所述第一附加视图时根据所述第一打包元数据中的所述描述来布置(550)所述第一块。
15.一种包含描绘场景的编码的多视图图像或视频数据的比特流,所述比特流包括:
视频比特流;以及
元数据比特流,
其中,所述视频比特流已经在其中编码有基本视图和打包的附加视图,每个视图包括像素的阵列,
并且其中,所述元数据比特流已经在其中编码有至少第一打包元数据,所述第一打包元数据包含对第一附加视图的像素的第一块如何被重新布置到所述打包的附加视图中的描述。
CN202180058799.8A 2020-07-31 2021-07-26 用于图像或视频编码的视图的打包 Pending CN116158075A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20188843.5A EP3945720A1 (en) 2020-07-31 2020-07-31 Packing of views for image or video coding
EP20188843.5 2020-07-31
PCT/EP2021/070767 WO2022023227A1 (en) 2020-07-31 2021-07-26 Packing of views for image or video coding

Publications (1)

Publication Number Publication Date
CN116158075A true CN116158075A (zh) 2023-05-23

Family

ID=71899542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180058799.8A Pending CN116158075A (zh) 2020-07-31 2021-07-26 用于图像或视频编码的视图的打包

Country Status (9)

Country Link
US (1) US20230262262A1 (zh)
EP (2) EP3945720A1 (zh)
JP (1) JP2023535581A (zh)
KR (1) KR20230043977A (zh)
CN (1) CN116158075A (zh)
BR (1) BR112023001623A2 (zh)
CA (1) CA3190265A1 (zh)
TW (1) TW202215850A (zh)
WO (1) WO2022023227A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3422724B1 (en) * 2017-06-26 2024-05-01 Nokia Technologies Oy An apparatus, a method and a computer program for omnidirectional video
EP3672251A1 (en) * 2018-12-20 2020-06-24 Koninklijke KPN N.V. Processing video data for a video player apparatus

Also Published As

Publication number Publication date
US20230262262A1 (en) 2023-08-17
EP3945720A1 (en) 2022-02-02
WO2022023227A1 (en) 2022-02-03
TW202215850A (zh) 2022-04-16
JP2023535581A (ja) 2023-08-18
CA3190265A1 (en) 2022-02-03
BR112023001623A2 (pt) 2023-02-23
EP4189958A1 (en) 2023-06-07
KR20230043977A (ko) 2023-03-31

Similar Documents

Publication Publication Date Title
RU2559691C2 (ru) Способ декодирования, декодер, программный продукт, программное приложение для мобильного устройства беспроводной связи и электронный потребительский продукт
US11818190B2 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US20230050860A1 (en) An apparatus, a method and a computer program for volumetric video
KR20170139560A (ko) 완전 시차 광 필드 디스플레이 시스템들을 위한 방법들 및 장치들
US11418564B2 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN114946179B (zh) 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
US20240007642A1 (en) Image coding method based on transform, and device therefor
EP4171035A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US11871035B2 (en) Image coding method on basis of transform, and apparatus therefor
US20090213443A1 (en) Apparatus and method for encoding or/and decoding digital hologram
US11908168B2 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
US11974026B2 (en) Apparatus, a method and a computer program for volumetric video
KR102329228B1 (ko) 임의 파티션 변환에 기초하여 비디오 신호를 처리하는 방법
CN116250238A (zh) 用于对场景的一幅或多幅视图进行编码和解码的方法和装置
US12003773B2 (en) Transform-based video coding method, and device therefor
JP4355914B2 (ja) 多視点画像伝送システムと方法、多視点画像圧縮装置と方法、多視点画像伸長装置と方法およびプログラム
US20240155157A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device and point cloud data reception method
CN116158075A (zh) 用于图像或视频编码的视图的打包
Wu et al. On object-based compression for a class of dynamic image-based representations
WO2023150488A1 (en) Depth differences in place of motion vectors
CN116018618A (zh) 图像处理装置和方法
EP2698996A2 (en) Decoder and method
Wu et al. On object-based compression for a class of dynamic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination