CN114051734A - 一种解码三维场景的方法和装置 - Google Patents

一种解码三维场景的方法和装置 Download PDF

Info

Publication number
CN114051734A
CN114051734A CN202080047528.8A CN202080047528A CN114051734A CN 114051734 A CN114051734 A CN 114051734A CN 202080047528 A CN202080047528 A CN 202080047528A CN 114051734 A CN114051734 A CN 114051734A
Authority
CN
China
Prior art keywords
image
point cloud
colour
pixel
source image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080047528.8A
Other languages
English (en)
Inventor
J.弗勒罗
G.布里安德
R.多尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN114051734A publication Critical patent/CN114051734A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/503Blending, e.g. for anti-aliasing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/257Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/363Image reproducers using image projection screens
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Image Generation (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

公开了一种用于从对三维场景的一部分的投影进行编码的源图像生成图像的方法。所述源图像的像素包括深度和颜色属性。将源图像的像素解投影为彩色点云。3D空间中的解投影的点具有被解投影的像素的颜色属性。此外,根据所生成的点所来自的像素的局部深度梯度和/或局部颜色梯度,将分数归属于该点,梯度越低,分数越高。在第二步骤,生成的点云由用于在显示设备上进行渲染的虚拟相机捕获。通过混合投影到同一像素上的点的颜色,将点云投影到视口图像上,该混合是由这些点的分数加权。

Description

一种解码三维场景的方法和装置
技术领域
本公开总体上涉及对包括三维(3D)对象的三维场景进行解码。特别地但非排他地,本公开的技术领域涉及解码通过投影3D场景的点而获得的深度和纹理图像数据,用于表示三维场景的几何形状和颜色。
背景技术
本部分旨在向读者介绍本领域的各个方面,其可以与下面描述和/或要求保护的本公开的各个方面相关。相信本讨论有助于向读者提供背景信息以便于更好地理解本公开的各个方面。因此,应该理解的是这些陈述应该从这个角度来阅读,而不是作为对现有技术的承认。
点云是点集,通常用于表示3D对象的外表面,但也表示毛发或皮毛等更复杂的几何形状,而这些更复杂的几何形状可能无法通过网格等其他数据格式有效地表示。点云中的每个点通常由3D空间位置(3D空间的正交参考系中的X、Y和Z坐标或3D空间的径向参考系中的角度ρ、φ和距离d)以及可能的其他相关属性来定义,例如在RGB或YUV颜色空间中表示的颜色、透明度、反射率、法向量等。点云可能是静态的,也可能是动态的,这取决于云是否随时间演变。应该注意的是,在动态点云的情况下,点的数量不是恒定的,而是相反的通常随着时间而演变。因此,动态点云是点集的时序序列。
虚拟现实(VR)和沉浸式世界最近成为热门话题,并被许多人预见为二维(2D)平面视频的未来。基本思想是让观看者沉浸在他周围的环境中,这与他只能看着他前面的虚拟世界的标准TV相反。沉浸感有几个层次,这取决于观看者在环境中的自由度。点云,尤其是彩色点云,是分布VR世界和立体视频的一种很好的候选格式。它们可能是静态的,也可能是动态的,通常具有平均大小(一次几百万个点)。
众所周知的方法将表示3D对象的几何形状和颜色的彩色点云投影到3D环境中的表面上,例如投影到包含3D对象的立方体的面上,以获得针对纹理和深度的视频,并使用诸如3D-HEVC的传统编码器对纹理和深度视频进行编解码。
在解码器处,图片和深度图像(视频是图像序列)被反向投影以重新生成彩色点云(或彩色点云序列)。反向投影是根据表示与原始彩色点云已经投影到的表面相关联的投影映射的信息来执行的。由于归因于图像光栅化和非无损压缩方法的可避免的离散化,用投影图像表示点云的几何形状和颜色会引入点坐标和颜色的不精确性。当从这些图像重新生成彩色点云时,原始彩色点云中的相同点可以在不同的坐标和/或以不同的颜色被反向投影多次。当重建的彩色点云由不在源图像投影中心位置的虚拟相机捕获时,这些误差和不精确性通常会导致视口图像中出现鬼影效果。本公开通过利用原始彩色点云的相同点可以被多次投影到多个图像上的事实来解决这个问题。
发明内容
下面给出了本公开的简化概述,以提供对公开的一些方面的基本理解。该概述不是对本公开的广泛概述。它并不旨在确定本公开的关键或重要要素。以下概述仅仅以简化的形式呈现了本公开的一些方面,作为下面提供的更详细描述的序言。
本公开涉及一种用于从对三维场景的一部分的投影进行编码的源图像生成图像的方法,所述源图像的像素包括深度和颜色属性。该方法包括:
-将源图像的像素解投影为彩色点云。根据像素的深度属性,像素被解投影为3D空间中的点。该点具有像素的颜色属性,并且具有根据生成该点的像素的局部深度梯度和/或局部颜色梯度归因的分数,梯度越低,分数越高;
-通过混合投影到同一像素上的点的颜色属性,将构建的彩色点云投影到要生成的图像上。该混合是由这些点的分数属性加权的函数。
根据一个实施例,从数据流中解码源图像。源图像可以在数据流中与表示已经生成图像的三维场景的一部分的投影的数据相关联。这些数据随后被用于解投影源图像的像素。
根据另一个实施例,生成的图像为根据虚拟相机在所述3D空间中的位置和方向渲染的视口图像。虚拟相机的这个姿态(即位置和方向)可以由头戴式显示设备的传感器控制。
本公开还涉及一种包括配置用于实现上述方法的处理器的设备。本公开还涉及一种非暂时性处理器可读介质,该非暂时性处理器可读介质中存储有用于使处理器执行该方法的指令。
附图说明
通过阅读以下描述,将更好地理解本公开,并且其他特定特征和优点将显现出来,该描述参考了附图,其中:
-图1示出根据本公开的非限制性实施例,对象的三维(3D)模型以及对应于3D模型的点云的点;
-图2示出根据本公开的非限制性实施例,对表示3D场景序列的数据进行编码、传输和解码的非限制性示例;
-图3示出根据本公开的非限制性实施例,可以被配置为实现结合图7描述的方法的设备的示例架构;
-图4示出根据本公开的非限制性实施例,当通过基于分组的传输协议发送数据时流的语法的实施例的示例;
-图5示出根据本公开的非限制性实施例,表示多个3D对象的3D模型在对应于第一投影表面的第一图像上以及对应于第二投影表面的第二图像上的投影;
-图6示出根据本公开的非限制性实施例,由于对编码3D场景的图像进行压缩而产生的鬼影效果;
-图7示意性地示出根据本公开的非限制性实施例,用于从编码三维场景的一部分的投影的源图像生成图像(例如视口图像)的方法70。
具体实施方式
下文将参考在其中示出了本公开的示例的附图更全面地描述本公开。然而,本公开可以以多种替代形式来体现,并且不应被解释为限于本文阐述的示例。因此,尽管本公开易于进行各种修改和替代形式,但是其具体示例在附图中以示例的方式示出,并将在本文详细描述。然而,应当理解,并不打算将本公开限制于所公开的特定形式,相反,本公开覆盖了落入由权利要求所限定的本公开的精神和范围内的所有修改方案、等同方案和替代方案。
本文使用的术语仅仅是为了描述特定的示例,而不是为了限制本公开。如本文所使用的,除非上下文清楚地另行指出,单数形式“一个(a)”、“一个(an)”和“该(the)”、“本(the)”旨在也包括复数形式。将进一步理解,当在本说明书中使用时,术语“包括(comprises)”、“包括(comprising)”、“包括(includes)”和/或“包括(including)”特指存在所陈述的特征、整数、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合。此外,当一个元件被称为“响应”或“连接”到另一个元件时,它可以直接响应或连接到另一个元件,或者可以存在中间元件。相反,当一个元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。如本文所使用的,术语“和/或”包括一个或多个的相关列出的条目的任何和所有组合,并且可以缩写为“/”。
应当理解,尽管本文可以用术语第一、第二等描述各种元件,但是这些元件不应该被这些术语所限制。这些术语仅用于区分一个元素和另一个元素。例如,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件,而不脱离本公开的教导。
尽管一些图包括通信路径上的箭头以示出通信的主要方向,但是应当理解,通信可以在与所示箭头相反的方向上发生。
关于框图和操作流程图描述了一些示例,其中每个框表示包括用于实现特定逻辑功能的一个或多个可执行指令的电路元件、模块或代码的部分。还应该注意的是,在其他实现方式中,框中所述的功能可以不按所述的顺序发生。例如,根据所涉及的功能,连续示出的两个框实际上可以实质上同时执行,或者这些框有时可以以相反的顺序执行。
这里提到的“根据示例”或“在示例中”意味着结合示例描述的特定特征、结构或特性可以被包括在本公开的至少一个实现方式中。本说明书中不同地方出现的短语“根据示例”或“在示例中”不一定都指同一示例,也不一定是与其他示例相互排斥的单独或替代示例。
权利要求中出现的附图标记仅仅是为了说明,其对权利要求的范围没有限制作用。虽然没有明确描述,但是本示例和变型可以以任何组合或子组合来实施。
本公开描述了编码/解码点云,但扩展到编码/解码点云序列,因为该序列中的每个彩色点云被顺序地如下文所述地编码/解码。点云可以是彩色的。
在下文中,图像或图包含特定图像/视频格式的样本(像素值)的一个或多个阵列,该特定图像/视频格式指定了与图像(或视频)的像素值相关的所有信息以及可以由显示器和/或任何其他设备用来可视化和/或解码图像(或视频)的所有信息。图像包括以第一样本阵列形状的至少一个分量,通常是亮度分量或深度分量,并且可能包括以至少一个其他样本阵列形状的至少一个其他分量,通常是颜色分量。或者,等同地,相同的信息也可以由颜色样本阵列集,例如三基色RGB表现形式,来表示。
图1示出对象的三维(3D)模型10以及对应于3D模型10的点云11的点。3D模型10和点云11可以例如对应于包括其他对象的3D场景中的对象的可能3D表现形式。模型10可以是3D网格表现形式,而点云11的点可以是网格的顶点。点云11的点也可以是散布在网格的面的表面上的点。模型10也可以表示为点云11的展开版本,模型10的表面通过展开点云11的点来创建。模型10可以由许多不同的表现形式来表示,例如体素或样条。图1示出了这样的事实,即点云可以用3D对象的表面表现形式来定义,并且3D对象的表面表示可以从点云生成。如在此所使用的,将3D对象的点(通过3D场景的扩展点)投影到图像上等同于投影该3D对象的任何表现形式,例如点云、网格、样条模型或体素模型。
点云可以在存储器中表示为,例如,基于向量的结构,其中每个点在视点的参考系中具有其自己的坐标(例如,三维坐标XYZ,或者从视点/到视点的立体角和距离(也称为深度))以及一个或多个属性,也称为分量。分量的一个示例是可以在各种颜色空间中表示的颜色分量,例如RGB(红色、绿色和蓝色)或YUV(Y是亮度分量,UV是两个色度分量)。点云是包括对象的3D场景的表现形式。可以从给定的视点或视点范围观看3D场景。点云可以通过多种方式获取,例如:
·从由一套相机拍摄的真实物体的捕获中,可选地通过深度主动感测设备补充;
·从由建模工具中的一套虚拟相机拍摄的虚拟/合成对象的捕获中;
·从真实和虚拟对象的混合中。
图2示出对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。例如,编码格式可以同时兼容3DoF、3DoF+和6DoF解码。应当理解在本文中,条目序列可以是唯一的条目,例如,3D场景序列可以是一个3D场景或者图像序列可以是一个图像。
获取3D场景序列20。正如图片序列是2D视频,3D场景序列是3D(也称为立体)视频。3D场景序列可以被提供给立体视频渲染设备以进行3DoF、3DoF+和6DoF渲染和显示。
3D场景序列20被提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入,并提供表示该输入的比特流。该比特流可以存储在存储器22中和/或电子数据介质上,并且可以在网络22上发送。可以由解码器23从存储器22读取和/或从网络22接收表示3D场景序列的比特流。解码器23被输入所述比特流,并且提供例如点云格式的3D场景序列。
编码器21可以包括实现一些步骤的一些电路。在第一步骤中,编码器21将每个3D场景投影到至少一个2D图片上。3D投影是将三维点映射到二维平面的任何方法。由于大多数当前显示图形数据的方法是基于平面(来自一些位平面的像素信息)二维媒介,对这种类型的投影的使用是广泛的,特别是在计算机图形、工程和制图中。投影电路211为3D场景序列20提供至少一个二维帧2111。帧2111包括表示投影到帧2111上的3D场景的颜色信息和深度信息。在变型中,颜色信息和深度信息被编码在两个单独的帧2111和2112中。
元数据212由投影电路211使用和更新。如关于图5至7描述的,元数据212包括关于投影操作(例如投影参数)以及关于颜色和深度信息在帧2111和2112内组织的方式的信息。
视频编码电路213将帧2111和2112的序列编码为视频。由视频编码器213将3D场景2111和2112的图片(或3D场景的图片序列)编码在流中。然后,由数据封装电路214将视频数据和元数据212封装在数据流中。
例如,编码器213是符合如下的编码器:
-JPEG,规范ISO/CEI 10918-1UIT-T推荐T.81,https://www.itu.int/rec/T-REC-T.81/en;
-AVC,也称为MPEG-4AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)都有规定,http://www.itu.int/rec/T-REC-H.264/en,HEVC(其规范在ITU网站-T推荐-H系列-h265上找到,http://www.itu.int/rec/T-REC-H.265-201612-I/en);
-3D-HEVC(HEVC的扩展,其规范在ITU网站-T推荐-H系列-h265上找到,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I);
-Google开发的VP9;或者
-开放媒体联盟(Alliance for Open Media)开发的AV1(AO媒体视频1)。
数据流存储在例如由解码器23通过网络22可访问的存储器中。解码器23包括实现不同解码步骤的不同电路。解码器23将由编码器21生成的数据流作为输入,并提供要由立体视频显示设备(如头戴式设备(HMD))渲染和显示的3D场景序列24。解码器23从源22处获取该流。例如,源22属于集合,所述集合包括:
-本地存储器,例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘;
-存储接口,例如大容量存储器、RAM、闪存、ROM、光盘或磁性载体的接口;
-通信接口,例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(例如IEEE 802.11接口或蓝牙接口);以及
-使得用户能够输入数据的诸如图形用户界面的用户界面。
解码器23包括用于提取被编码在数据流中的数据的电路234。电路234将数据流作为输入,并提供对应于被编码在流中的元数据212的元数据232和二维视频。该视频由提供帧序列的视频解码器233解码。解码的帧包括颜色和深度信息。在一个变型中,视频解码器233提供两个帧序列,一个包括颜色信息,另一个包括深度信息。电路231使用元数据232以从解码的帧中解投影颜色和深度信息,进而提供3D场景序列24。3D场景序列24对应于3D场景序列20,可能会损失与编码为2D视频和视频压缩相关的精度。
视频渲染设备23根据由控制器,例如HMD的惯性测量单元(IMU),确定的视点,在其视口中显示接收到的3D场景的一部分。
图3示出了可以被配置为实现结合图7描述的方法的设备30的示例架构。图2的编码器21和/或解码器23可以实现这种架构。可选地,编码器21和/或解码器23的每个电路可以是根据图3的架构的、例如经由它们的总线31和/或经由I/O接口36链接在一起的设备。
设备30包括由数据和地址总线31链接在一起的如下元件:
-微处理器32(或CPU),其例如是DSP(或数字信号处理器);
-ROM(只读存储器)33;
-RAM(随机存取存储器);
-存储接口35;
-用于从应用程序接收要传输的数据的I/O接口36;以及
-电源,例如电池。
根据一个示例,电源在设备外部。在每个提到的存储器中,本说明书中使用的词“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如,整个程序或大量接收的或解码的数据)。ROM 33至少包括程序和参数。ROM33可以存储算法和指令以执行根据本公开的技术。当开启时,CPU 32将程序加载到RAM中并执行相应的指令。
RAM 34包括寄存器中的由CPU 32执行并在设备30开启后上传的程序、寄存器中的输入数据、寄存器中的该方法的不同状态的中间数据以及寄存器中用于执行该方法的其他变量。
本文描述的实现方式可以在例如方法或流程、装置、计算机程序产品、数据流或信号中实现。即使仅在单一实现形式的上下文中讨论(例如,仅作为方法或设备讨论),所讨论的特征的实现方式也可以以其他形式实现(例如,程序)。装置可以以例如适当的硬件、软件和固件来实现。方法可以在例如诸如处理器的装置中实现,处理器通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,例如计算机、蜂窝电话、便携式/个人数字助理(“PDAs”)以及促进终端用户之间信息通信的其他设备。
根据示例,设备30被配置为实现结合图7描述的方法,并且属于包括以下的集合:
-移动设备;
-通讯设备;
-游戏设备;
-平板(或平板电脑);
-笔记本电脑;
-静止图片相机;
-视频相机;
-编码芯片;
-服务器(例如广播服务器、视频点播服务器或网络服务器)。
图4示出了当通过基于分组的传输协议发送数据时流的语法的实施例的示例。图4示出了立体视频流的示例结构4。该结构包括在以独立的语法元素来组织流的容器中。该结构可以包括头部41,其是流的每个语法元素共有的一组数据。例如,头部包括一些关于语法元素的元数据,描述了每个语法元素的性质和作用。头部还可以包括图2的元数据212的一部分,例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括包含语法元素42和至少一个语法元素43的有效载荷。语法元素42包括表示颜色和深度帧的数据。图像可能已经根据视频压缩方法进行了压缩。
语法元素43是数据流的有效载荷的一部分,并且可以包括关于语法元素42的帧如何被编码的元数据,例如用于将3D场景的点投影和打包到帧上的参数。此元数据可以与视频的每一帧或帧的组(在视频压缩标准中也称为图片组(GoP))相关联。
图5示出了表示多个3D对象的3D模型50投影到第一表面51上以获得第一图像53以及投影到第二表面52上以获得第二图像54。为了清楚起见,表面51和52是与正交投影映射相关联的平面矩形。投影表面可以是任何形状并且与相应的投影映射相关联。例如,投影表面可以是与诸如等矩形投影映射或经纬度投影映射等的球形投影映射相关联的球形冠。在图5的示例中,3D点云50包括三个纹理(即彩色)的莫埃雕像。图像53和54的像素存储深度和颜色信息,例如以RGB-D格式。在图5中,为了清楚起见,仅示出了颜色信息。在另一个实施例中,深度和颜色存储在一对图像中,一个用于颜色信息,例如以RGB或YUV格式,以及一个用于深度信息,例如作为灰度级图像。在不失一般性的情况下,本公开适用于该实施例。
点云的第一部分点被投影到表面51上,以获得图像53,也称为第一图像。点云的第二部分点被投影到表面52上,以获得图像54,也称为第二图像。第一和第二部分具有公共点,第二部分包括不属于第一部分的点,并且第一和第二部分的结合可以不包含整个点云。对第一和第二部分的结合进行编码对于在其中观看者仅可从视点的有限立体观察3D模型的渲染(也称为3DoF+渲染场景)来说可能是足够的。如果不允许终端用户观察雕像的背面,就没有理由对这些点进行编码。在允许观看者从每个视角观察被编码的3D场景30的六自由度渲染场景(也称为6DoF)中,将需要更多的投影图像,否则,模型的部分将丢失。
如图2所示,表示3D场景的一部分的图像53和54被编码、压缩并发送到解码器。解码器接收与描述投影51和52的条件和参数(例如参数化表面和映射格式)的数据相关联的图像53和54。根据这些数据对图像53和54进行解投影。在图5的示例中,图像53的像素被映射在表面51上,并且重建中的3D场景的点通过在与图像53的像素的深度属性相对应的距离处正交地解投影像素而生成。像素的颜色属性归属于从该像素生成的点。对图像54执行相同的操作,并且经由两个图像53和54编码的原始3D场景的部分被重建。
在解码器处,一旦重建了3D场景,就例如通过虚拟相机捕捉到视口图像。在3DoF+场景中,相机可以由用户移动,例如由佩戴头戴式显示设备的用户移动,HMD的惯性测量单元控制虚拟相机的位置和方向。重建的三维场景通过投影到视口图像的平面上来渲染,例如使用针孔投影。在图5的示例中,虚拟相机可以在其中移动的3DoF+空间通常位于表面51和52的两个中心之间。
由于视频编解码器(例如HEVC编解码器)的性质,在压缩之后(尤其是在低比特率下),针对压缩图像的颜色和深度属性的全局低通滤波可能发生,这导致解码之后颜色和深度图集的不期望的平滑。解码图像的颜色和深度值被轻微修改。因此,从这种图像的像素中解投影的3D点与原始3D场景中的对应点不在同一位置和/或颜色不同。一旦在图像的颜色和/或深度属性中出现强梯度,这种缺陷就会出现。然后,相关的像素值对低通滤波非常敏感,并且在编解码之后产生了人工的中间值,这在轮廓周围造成了不期望的反锯齿效果。这种伪影对于3D场景的前景和背景对象之间的转换尤其重要。围绕颜色和/或深度轮廓出现的反锯齿倾向于将前景色与背景和/或背景色与前景相关联。这些伪影会产生鬼影效果,当虚拟相机的位置和/或方向捕捉到3D场景的暴露部分时,即当从虚拟相机视点看到的点(即,投影在视口图像上的点)已经从多个源图像被解投影时,尤其可见。
图6示出了由于对编码3D场景的图像进行压缩而产生的鬼影效果。在图6的示例中,通过对表示对原始3D场景的部分进行投影的图像集进行解投影来重建点云,该原始3D场景包括在暗色背景前面的亮色立方体。当这些图像被光栅化、量化和压缩时,它们的像素的解投影包括不精确性和误差。重建的3D场景的点可以与对应的原始点处于不同的位置和/或具有不同的颜色。当捕捉场景以在显示设备的视口图像中进行渲染的虚拟相机处于靠近投影的位置和方向63时(例如,像图5的表面51和52的箭头),鬼影效果类似于对应视口图像65上所示的锯齿效果。然而,当相机处于从中其捕捉从类似于视点64的多个图像而生成的点的位置和/或方向时,点的位置和颜色的误差产生称为鬼影效应66的可见伪影,如对应于视点64的视口图像65所示。这种伪影对于前景和背景对象之间的转换尤其重要。围绕颜色和/或深度轮廓发生的反锯齿倾向于将前景色与背景和/或背景色与前景相关联。它会在背景暴露部分产生前景对象的残留鬼影轮廓。
图7示意性地示出了用于从编码三维场景的一部分的投影的源图像生成图像(例如视口图像)的方法70。在步骤71,从结合图2和3描述的源获得图像。方法70产生减少鬼影效应的技术效果,即使只有一个源图像。由于它利用了信息的冗余性,因此源图像越多该方法就越有效。源图像可以封装在数据流中,并且在该数据流中关联了表示用于生成图像的投影的数据。在一种变型中,解码器知道这些数据,这些数据存储在解码器可访问的存储器中。在另一变型中,这些数据是从不同于源图像的源获得的。源图像具有深度和颜色属性。在另一个实施例中,深度和颜色被编码在一对源图像中,一个用于深度,一个用于颜色。
在步骤72,根据与图像相关联的数据对源图像的像素进行解投影。源图像的像素在相对于像素的深度属性的距离处被解投影为点,并获得该像素的颜色属性。生成的点可以具有来自像素的其他属性,例如法向矢量或亮度属性。根据本公开,生成的点具有根据像素的局部深度和/或颜色梯度确定的分数属性。由于每个源图像都是通过各种投影(具有不同的中心和/或参数表面)生成的,因此原始3D场景的冗余部分,尤其是轮廓,很可能以掠入射角被投影到第一源图像以及以更多的正交入射角被投影到的第二源图像上。在后一种情况下,深度梯度和颜色梯度更低。计算像素属性的局部梯度是众所周知的演算。例如,对于所考虑的像素周围的N×M矩形(或正方形,即N=M)像素区域计算局部深度梯度。在一种变型中,对以所考虑的像素为中心的椭圆区域计算梯度。根据本公开,计算要被解投影的像素的深度和颜色梯度,并将分数确定为这两个梯度的函数,像素的深度和/或颜色梯度越低,归属于生成的点的分数越高。例如,分数根据等式1确定,其中a和b是常数系数:
Figure BDA0003438615190000111
在步骤73,根据虚拟相机在点云的3D空间中的位置和方向,生成用于将解码的彩色点云渲染到显示设备的视口上的图像。例如,用于生成视口图像的投影是针孔投影。可以使用其他投影,如鱼眼投影、等矩形投影或立方体映射投影。根据本公开,归属于像素的颜色是投影到该像素上的3D点的颜色的混合,该混合由在步骤72确定的这些3D点的分数加权。例如,所生成的点的颜色根据等式2来确定。
Figure BDA0003438615190000121
在另一个实施例中,归属于像素的颜色是在步骤72确定的投影到具有最高分数的像素上的3D点的颜色。
这里描述的实现方式可以在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单一实现形式的上下文中讨论(例如,仅作为方法或设备讨论),所讨论的特征的实现也可以以其他形式实现(例如,程序)。装置可以用例如适当的硬件、软件和固件来实现。这些方法可以在例如诸如处理器的装置中实现,处理器通常指包括例如计算机、微处理器、集成电路或可编程逻辑设备的处理设备。处理器还包括通信设备,例如智能手机、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDAs”)以及促进终端用户之间信息通信的其他设备。
本文描述的各种过程和特征的实现方式可以体现在各种不同的设备或应用中,特别是例如与数据编码、数据解码、视图生成、纹理处理以及图像和相关纹理信息和/或深度信息的其他处理相关联的设备或应用。这种设备的示例包括编码器、解码器、处理解码器的输出的后处理器、向编码器提供输入的前处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA以及其他通信设备。应该清楚的是,设备可以是移动的,甚至可以安装在移动车辆中。
此外,这些方法可以通过由处理器执行的指令来实现,并且这样的指令(和/或由实现方式产生的数据值)可以存储在处理器可读介质上,例如集成电路、软件载体或其他存储设备,例如硬盘、光盘(“CD”)、光盘(例如DVD,通常称为数字多功能盘或数字视频盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成有形地包含在处理器可读介质上的应用程序。指令可以在例如硬件、固件、软件或其组合中。指令可以在例如操作系统、单独的应用程序或两者的组合中找到。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(例如存储设备)的设备。此外,除了指令之外或者代替指令,处理器可读介质可以存储由实现方式产生的数据值。
对于本领域技术人员来说显而易见的是,实现方式可以产生各种信号,这些信号被格式化以携带例如可以被存储或发送的信息。该信息可以包括例如用于执行方法的指令,或者由所描述的实现方式之一产生的数据。例如,信号可以被格式化为携带用于写入或读取所描述的实施例的语法的规则作为数据,或者携带由所描述的实施例写入的实际语法值作为数据。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可以包括,例如,编码数据流和用编码的数据流调制载波。信号携带的信息可以是例如模拟或数字信息。众所周知,信号可以通过各种不同的有线或无线链路传输。该信号可以存储在处理器可读介质上。
已经描述了许多实现方式。然而,应当理解,可以进行各种修改。例如,不同实现的元素可以被组合、补充、修改或移除以产生其他实现方式。此外,本领域普通技术人员将理解,可以用其他结构和过程来代替所公开的那些结构和过程,并且所得到的实现方式将以至少基本相同的方式执行至少基本相同的功能,以实现与所公开的实现方式至少基本相同的结果。因此,本申请考虑了这些和其他实现方式。

Claims (11)

1.一种方法包括:
-将源图像的像素解投影为彩色点云,所述源图像的像素包括深度和颜色属性,像素被解投影为具有所述像素的所述颜色属性、以及具有根据所述像素的局部深度梯度和/或局部颜色梯度归因的分数的点,所述梯度越低,所述分数越高;
-通过混合被投影在同一像素上的点的颜色属性来所述彩色点云投影到图像上以生成所述图像,所述混合由所述点的分数属性加权。
2.根据权利要求1所述的方法,其中所述方法包括从数据流中解码所述源图像。
3.根据权利要求2所述的方法,其中所述方法包括:
-从所述数据流中解码表示用以生成源图像的投影模式的数据;以及
-使用所述数据将所述源图像的像素解投影为彩色点云。
4.根据权利要求1-3之一所述的方法,其中所生成的图像为根据虚拟相机在所述3D空间中的位置和方向而渲染的视口图像。
5.根据权利要求4所述的方法,其中所述虚拟相机的所述位置和方向由头戴式显示设备的传感器控制。
6.一种包括处理器的设备,所述处理器配置用于:
-将源图像的像素解投影为彩色点云,所述源图像的像素包括深度和颜色属性,像素被解投影为具有所述像素的所述颜色属性、以及具有根据所述像素的局部深度梯度和/或局部颜色梯度归因的分数的点,所述梯度越低,所述分数越高;
-通过混合被投影在同一像素上的点的颜色属性来将所述彩色点云投影到图像上以生成所述图像,所述混合由所述点的分数属性加权。
7.根据权利要求6所述的设备,其中所述处理器配置用于从数据流中解码所述源图像。
8.根据权利要求7所述的设备,其中所述处理器配置用于:
-从所述数据流中解码表示用以生成源图像的投影模式的数据;以及
-使用所述数据将所述源图像的像素解投影为彩色点云。
9.根据权利要求6至8之一所述的设备,其中所生成的图像为根据虚拟相机在所述3D空间中的位置和方向而渲染的视口图像。
10.根据权利要求9所述的设备,其中所述虚拟相机的所述位置和方向由头戴式显示设备的传感器控制。
11.一种非暂时性处理器可读介质,所述非暂时性处理器可读介质中存储有用于使处理器执行根据权利要求1至5之一所述的方法的指令。
CN202080047528.8A 2019-05-28 2020-05-26 一种解码三维场景的方法和装置 Pending CN114051734A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19305676.9A EP3745357A1 (en) 2019-05-28 2019-05-28 A method and apparatus for decoding three-dimensional scenes
EP19305676.9 2019-05-28
PCT/US2020/034549 WO2020243089A1 (en) 2019-05-28 2020-05-26 A method and apparatus for decoding three-dimensional scenes

Publications (1)

Publication Number Publication Date
CN114051734A true CN114051734A (zh) 2022-02-15

Family

ID=67060339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080047528.8A Pending CN114051734A (zh) 2019-05-28 2020-05-26 一种解码三维场景的方法和装置

Country Status (4)

Country Link
US (1) US11721044B2 (zh)
EP (2) EP3745357A1 (zh)
CN (1) CN114051734A (zh)
WO (1) WO2020243089A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3515067A1 (en) * 2018-01-19 2019-07-24 Thomson Licensing A method and apparatus for encoding and decoding three-dimensional scenes in and from a data stream
US20200404241A1 (en) * 2019-06-20 2020-12-24 At&T Intellectual Property I, L.P. Processing system for streaming volumetric video to a client device
WO2021122983A1 (en) * 2019-12-20 2021-06-24 Interdigital Vc Holdings France A method and apparatus for coding and decoding volumetric video with view-driven specularity
CN112991517B (zh) * 2021-03-08 2022-04-29 武汉大学 一种纹理影像编解码自动匹配的三维重建方法
US20230386086A1 (en) * 2022-05-31 2023-11-30 Microsoft Technology Licensing, Llc Video compression

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
LU92074B1 (en) * 2012-09-18 2014-03-19 Iee Sarl Depth image enhancement method
US9369689B1 (en) * 2015-02-24 2016-06-14 HypeVR Lidar stereo fusion live action 3D model video reconstruction for six degrees of freedom 360° volumetric virtual reality video
EP3467785A1 (en) * 2017-10-06 2019-04-10 Thomson Licensing A method and apparatus for encoding a point cloud representing three-dimensional objects

Also Published As

Publication number Publication date
US11721044B2 (en) 2023-08-08
WO2020243089A1 (en) 2020-12-03
EP3745357A1 (en) 2020-12-02
EP3977415A1 (en) 2022-04-06
US20220254068A1 (en) 2022-08-11

Similar Documents

Publication Publication Date Title
US10964066B2 (en) Method and apparatus for encoding a point cloud representing three-dimensional objects
US20190108655A1 (en) Method and apparatus for encoding a point cloud representing three-dimensional objects
US11721044B2 (en) Method and apparatus for decoding three-dimensional scenes
WO2022023002A1 (en) Methods and apparatus for encoding and decoding a 3d mesh as a volumetric content
KR20220069086A (ko) 볼류메트릭 비디오를 인코딩, 송신 및 디코딩하기 위한 방법 및 장치
EP3709651A1 (en) A method and apparatus for encoding an rendering a 3d scene with inpainting patches
KR20220109433A (ko) 다중 뷰포인트 3DoF+ 콘텐츠의 인코딩 및 디코딩을 위한 방법 및 장치
CN116235497A (zh) 一种用于用信号通知基于多平面图像的体积视频的深度的方法和装置
CN114270863A (zh) 一种编码和解码立体视频的方法和装置
US20230224501A1 (en) Different atlas packings for volumetric video
KR20220127258A (ko) 뷰-유도 스펙큘러리티를 갖는 볼류메트릭 비디오를 코딩 및 디코딩하기 위한 방법 및 장치
US20220343546A1 (en) Haptic atlas coding and decoding format
KR20220127246A (ko) 보조 패치들을 갖는 볼류메트릭 비디오
JP2022549431A (ja) 容積ビデオを符号化、送信、及び復号化するための方法及び装置
US20230239451A1 (en) A method and apparatus for encoding and decoding volumetric content in and from a data stream
US20240249462A1 (en) Volumetric video supporting light effects
CN115885513A (zh) 用于对体积视频进行编码和解码的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination