CN111557094A - 用于编码/解码体积式视频的方法、设备和流 - Google Patents

用于编码/解码体积式视频的方法、设备和流 Download PDF

Info

Publication number
CN111557094A
CN111557094A CN201880085164.5A CN201880085164A CN111557094A CN 111557094 A CN111557094 A CN 111557094A CN 201880085164 A CN201880085164 A CN 201880085164A CN 111557094 A CN111557094 A CN 111557094A
Authority
CN
China
Prior art keywords
map
representation
information
parameterization
depth map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880085164.5A
Other languages
English (en)
Inventor
B.丘佩奥
F.加尔平
J.弗勒里奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN111557094A publication Critical patent/CN111557094A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/529Depth or shape recovery from texture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]

Abstract

根据视点范围对表示3D表示的数据进行编码/解码可以涉及:根据表示与3D表示的一部分相关联的至少2D参数化的参数和与该部分的点相关联的数据,生成与该部分相关联的深度图,以及根据该参数和该数据生成与该部分相关联的纹理图,其中,可以根据3D表示的感兴趣区域获得表示深度图和/或纹理图内量化参数变化的信息。

Description

用于编码/解码体积式视频的方法、设备和流
技术领域
本公开涉及体积式(volumetric)视频内容领域。还可以在表示体积式内容的数据的编码和/或格式化的上下文中理解本公开,该数据例如用于在诸如移动设备或头戴式显示器之类的终端用户设备上进行呈现。
背景技术
本章节意图向读者介绍本领域的各个方面,这些方面可能与下面描述和/或要求保护的本公开的各个方面相关。该讨论被认为有助于向读者提供背景信息,以便于更好地理解本发明的各个方面。因此,应该理解的是,这些陈述应该从这个角度来理解,而不是作为对现有技术的承认
最近,可用的大视场内容有所增长(高达360°)。这种内容对于在沉浸式显示设备(诸如头戴式显示器(Head Mounted Display,HMD)、智能眼镜、PC屏幕、平板电脑、智能电话等)上观看内容的用户来说可能是不完全可见的。这意味着在给定的时刻,用户可能只在观看部分内容。然而,用户通常可以通过诸如头部移动、鼠标移动、触摸屏、语音等各种方式在内容内导航。通常期望对该内容进行编码和解码。
沉浸式视频,也称为360平面视频,允许用户通过围绕静止的视点旋转头部来观看自己周围的一切。旋转只允许3自由度(3DoF)的体验。即使3DoF视频对于第一全向视频体验(例如,使用头戴式显示设备(HMD))来说是足够的,3D视频对于期望更多自由度的观看者来说可能很快例如因体验视差而变得令人沮丧。另外,3DoF还可能导致头晕,因为用户不仅旋转他的头部,还会在三个方向上平移他的头部,这种平移在3DoF视频体验中是不会再现的。
其中,大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频,以及其他。许多术语可以用于设计这种沉浸式视频,诸如虚拟现实(VirtualReality,VR)、360、全景、4π球面度、沉浸式、全向、大视场。
体积式视频(也称为6自由度(6DoF)视频)是3DoF视频的替代视频。当观看6DoF视频时,除了旋转,用户还可以在观看的内容内平移他的头部,甚至他的身体,并体验视差甚至音量。这种视频大大增加了沉浸感和对场景深度的感知,并且通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容通过专用传感器创建,允许同时记录感兴趣场景的颜色和深度。一一套彩色相机与摄影测量技术的结合使用是进行这种记录的常用方法。
虽然3DoF视频包括由纹理图像的去映射产生的图像序列(例如,根据纬度/经度投影映射或等矩形投影映射而编码的球形图像),但6DoF视频帧嵌入来自若干个视点的信息。它们可以被视为由三维捕获产生的时间上一连串的点云。根据观看条件,可以考虑两种体积式视频。第一个(即,完全6DoF)允许在视频内容中进行完全自由的导航,而第二个(即,3DoF+)将用户观看空间限制在有限的体积内,允许有限的头部平移和视差体验。这第二个背景是自由导航和坐着的观众的被动观看条件之间的有价值的权衡。
虽然在沉浸式上下文中增加了用户体验,但是要传输到呈现器的数据量非常重要,并且可能是一个问题。
发明内容
说明书中对“一个实施例”、“实施例”、“示例实施例”、“特定实施例”的引用表示所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例不一定包括该特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合实施例描述特定的特征、结构或特性时,可以认为结合无论是否明确描述的其他实施例影响这样的特征、结构或特性都在本领域技术人员的知识范围内。
本公开涉及一种将表示场景的3D表示的数据编码进比特流的方法,该3D表示是根据视点范围的,该方法包括:
-根据表示与3D表示的至少一个部分相关联的至少一个二维参数化的至少一个参数和与该至少一个部分中包括的至少一个点相关联的数据,生成与该至少一部分相关联的至少一个深度图,该至少一个二维参数化响应于与该至少一个点相关联的几何信息以及响应于与视点范围相关联的姿态信息;
-根据该至少一个参数和与在该至少一个部分中包括的至少一个点相关联的数据,生成与该至少一个部分相关联的至少一个纹理图;
-根据3D表示的感兴趣区域,获得表示至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息;
-将至少一个深度图编码到比特流的第一语法元素中,将至少一个纹理图编码到比特流的第二语法元素中,将至少一个参数编码进比特流的第三语法元素中,将第一信息编码到比特流的第四语法元素中,并且将表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息编码到比特流的第五语法元素中。
本公开还涉及一种被配置为将表示场景的3D表示的数据编码进比特流的设备,该3D表示是根据视点范围的,该设备包括与至少一个处理器相关联的存储器,该处理器被配置为:
-根据表示与3D表示的至少一个部分相关联的至少一个二维参数化的至少一个参数和与在该至少一个部分中包括的至少一个点相关联的数据,生成与该至少一部分相关联的至少一个深度图,该至少一个二维参数化响应于与该至少一个点相关联的几何信息以及响应于与视点范围相关联的姿态信息;
-根据该至少一个参数和与在该至少一个部分中包括的至少一个点相关联的数据,生成与该至少一个部分相关联的至少一个纹理图;
-根据3D表示的感兴趣区域,获得表示至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息;
-将至少一个深度图编码到比特流的第一语法元素中,将至少一个纹理图编码到比特流的第二语法元素中,将至少一个参数编码到比特流的第三语法元素中,将第一信息编码到比特流的第四语法元素中,并且将表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息编码到比特流的第五语法元素中。
本公开涉及一种被配置为将表示场景的3D表示的数据编码进比特流的设备,该3D表示是根据视点范围的,该设备包括:
-被配置为根据表示与3D表示的至少一个部分相关联的至少一个二维参数化的至少一个参数和与在该至少一个部分中包括的至少一个点相关联的数据来生成与该至少一部分相关联的至少一个深度图的生成器,该至少一个二维参数化响应于与该至少一个点相关联的几何信息以及响应于与视点范围相关联的姿态信息;
-被配置为根据该至少一个参数和与在该至少一个部分中包括的至少一个点相关联的数据来生成与该至少一个部分相关联的至少一个纹理图的生成器;
-被配置为根据3D表示的感兴趣区域来获得表示至少一个深度图和/或至少一个纹理图内的量化参数变化的第一信息的接口;
-被配置为将至少一个深度图编码到比特流的第一语法元素中,将至少一个纹理图编码到比特流的第二语法元素中,将至少一个参数编码到比特流的第三语法元素中,将第一信息编码到比特流的第四语法元素中,并且将表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息编码到比特流的第五语法元素中的编码器。
本公开还涉及一种被配置为将表示场景的3D表示的数据编码进比特流的设备,该3D表示是根据视点范围的,该设备包括:
-用于根据表示与3D表示的至少一个部分相关联的至少一个二维参数化的至少一个参数和与在该至少一个部分中包括的至少一个点相关联的数据来生成与该至少一部分相关联的至少一个深度图的装置,该至少一个二维参数化响应于与该至少一个点相关联的几何信息以及响应于与视点范围相关联的姿态信息;
-用于根据该至少一个参数和与在该至少一个部分中包括的至少一个点相关联的数据来生成与该至少一个部分相关联的至少一个纹理图的装置;
-用于根据3D表示的感兴趣区域来获得表示至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息的装置;
-用于将至少一个深度图编码到比特流的第一语法元素中,将至少一个纹理图编码到比特流的第二语法元素中,将至少一个参数编码到比特流的第三语法元素中,将第一信息编码到比特流的第四语法元素中,并且将表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息编码到比特流的第五语法元素中的装置。
本公开涉及一种从比特流中解码表示场景的3D表示的数据的方法,该3D表示根据视点范围,该方法包括:
-从比特流中解码表示3D表示的至少一部分的至少一个二维参数化的至少一个参数;
-从比特流中解码表示与3D表示的至少一部分相关联的至少一个纹理图的数据;
-从比特流中解码表示与3D表示的至少一部分相关联的至少一个深度图的数据;
-从至少一个参数、表示至少一个纹理图的数据、表示至少一个深度图的数据、从比特流获得的且表示至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息、以及从比特流获得的且表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息中,确定与3D表示的至少一部分中包括的至少一个点相关联的数据。
本公开涉及一种被配置为从比特流中解码表示场景的3D表示的数据的设备,该3D表示是根据视点范围的,该设备包括与至少一个处理器相关联的存储器,该处理器被配置为:
-从比特流中解码表示3D表示的至少一部分的至少一个二维参数化的至少一个参数;
-从比特流中解码表示与3D表示的至少一部分相关联的至少一个纹理图的数据;
-从比特流中解码表示与3D表示的至少一部分相关联的至少一个深度图的数据;
-从至少一个参数、表示至少一个纹理图的数据、表示至少一个深度图的数据、从比特流获得的且表示至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息、以及从比特流获得的且表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息中,确定与3D表示的至少一部分中包括的至少一个点相关联的数据。
本公开涉及一种被配置为从比特流中解码表示场景的3D表示的数据的设备,该3D表示是根据视点范围的,该设备包括:
-被配置为从比特流中解码表示3D表示的至少一部分的至少一个二维参数化的至少一个参数的解码器;
-被配置为从比特流中解码表示与3D表示的至少一部分相关联的至少一个纹理图的数据的解码器;
-被配置为从比特流中解码表示与3D表示的至少一部分相关联的至少一个深度图的数据的解码器;
-处理器,被配置为从至少一个参数、表示至少一个纹理图的数据、表示至少一个深度图的数据、从比特流获得的且表示至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息、以及从比特流获得的且表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息中确定与3D表示的至少一部分中包括的至少一个点相关联的数据。
本公开涉及一种被配置为从比特流中解码表示场景的3D表示的数据的设备,该3D表示是根据视点范围的,该设备包括:
-用于从比特流中解码表示3D表示的至少一部分的至少一个二维参数化的至少一个参数的装置;
-用于从比特流中解码表示与3D表示的至少一部分相关联的至少一个纹理图的数据的装置;
-用于从比特流中解码表示与3D表示的至少一部分相关联的至少一个深度图的数据的装置;
-用于从至少一个参数、表示至少一个纹理图的数据、表示至少一个深度图的数据、从比特流获得的且表示至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息、以及从比特流获得的且表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息中确定与3D表示的至少一部分中包括的至少一个点相关联的数据的装置。
根据特定特征,根据第一信息对至少一个深度图和/或所述至少一个纹理图进行编码。
根据特定特征,第一信息对应于与至少一个感兴趣区域相关联的预测误差。
根据另一个特性,第一信息对应于表示至少一个2D参数化的采样的信息,第一采样水平被应用于与至少一个感兴趣区域相关联的2D参数化的至少一个区域,并且第二采样水平被应用于2D参数化的其他区域。
本公开还涉及一种携带表示场景的3D表示的数据的比特流,该3D表示是根据视点范围的,其中该数据包括:
-表示3D表示的至少一部分的至少一个二维参数化的至少一个参数,该参数是根据与该至少一部分的至少一个点相关联的几何信息以及根据与视点范围相关联的姿态信息获得的;
-表示与该至少一个部分相关联的且从至少一个参数和与该至少一个部分中包括的至少一个点相关联的数据中确定的至少一个纹理图的数据;
-表示与3D表示的至少一部分相关联的且从至少一个参数和与该至少一个部分中包括的至少一个点相关联的数据中确定的至少一个深度图的数据;
-表示根据3D表示的感兴趣区域的至少一个深度图和/或至少一个纹理图内量化参数变化的第一信息;以及
-表示至少一个二维参数化和对应的至少一个深度图和至少一个纹理图之间的映射的第二信息。
本公开还涉及一种包括程序代码指令的计算机程序产品,当在计算机上执行该程序时,该程序代码指令执行对表示场景的3D表示的数据进行编码或解码的方法的步骤。
本公开还涉及一种(非暂时性)处理器可读介质,该处理器可读介质中存储有用于使处理器至少执行对表示场景的3D表示的数据进行编码或解码的上述方法的指令。
附图说明
通过阅读以下描述,将会更好地理解本公开,并且其他特定特征和优点将会显现,该描述参考附图,其中:
图1示出了根据本原理的特定实施例的体积式内容;
图2A和图2B示出了根据本原理的特定实施例的光场获取设备,被配置为获取3D场景[或3D场景的一部分]的图像以用于获取图1的体积式内容的至少一部分;
图3示出了根据本原理的特定实施例的用图2A和图2B的获取设备获取的3D场景或其一部分的表示;
图4示出了根据本原理的特定实施例的与图3的3D场景的表示的3D部分相关联的2D参数化;
图5和图6示出了根据本原理的特定实施例的与图4的3D部分相关联的补片(patch)图谱(atlas);
图7示出了根据本原理的非限制性实施例的图5和图6的补片图谱的生成;
图8A、图8B、图8C和图8D各自示出了图3的3D场景的3D表示的分割的非限制性示例;
图9和图10示出了根据本原理的非限制性实施例的与图4的3D部分相关联的2D参数化的采样的适配;
图11示出了根据本原理的第一非限制性实施例的用于对图3的3D场景进行编码/解码的第一方案;
图12示出了根据本原理的第二非限制性实施例的用于对图3的3D场景进行编码/解码的第二方案;
图13示出了根据本原理的第三非限制性实施例的用于对图3的3D场景进行编码/解码的第三方案;
图14示出了根据本原理的示例的被配置用于实施图19和/或图20的方法的设备的架构的示例;
图15示出了根据本原理的示例的通过通信网络进行通信的图16的两个远程设备;
图16示出了根据本原理的示例的携带图3的3D场景的3D表示的描述的信号的语法;
图17示出了根据本原理的示例的对表示图3的3D场景的3D表示的数据进行编码的方法;
图18示出了根据本原理的示例的表示图3的3D场景的3D表示的数据进行解码的方法。
具体实施方式
现在参考附图描述主题,其中相同的附图标号始终用于指代相同的元件。在以下描述中,出于解释的目的,阐述了许多具体细节,以便提供对主题的全面理解。然而,显而易见的是,可以在没有这些具体细节的情况下实践主题实施例。
本说明书示出了本公开的原理。因此,应当理解,本领域技术人员将能够设计各种布置,尽管在此没有明确描述或示出,但是这些布置体现了本公开的原理。
根据本公开的非限制性实施例,公开了对体积式视频(也称为3DoF+或6DoF视频)的图像进行编码的方法和设备。还公开了从流中解码体积式视频的图像的方法和设备。还公开了用于对体积式视频的一个或多个图像进行编码的比特流的语法的示例。
根据第一方面,将参考将表示场景的3D表示(用全向内容表示,也称为沉浸式视频)的数据编码进比特流的方法(和被配置用于该方法的设备)的第一特定实施例来描述本原理。为了达到该目的,为3D表示获得一个或多个2D参数化,2D参数化对应于例如场景的3D表示或3D表示的一部分的2D像素表示。使用描述与每个部分相关联的2D参数化的一个或多个参数,为3D表示的每个部分确定深度图(也称为高度图)和纹理图(也称为颜色图)并将其与3D表示的每个部分相关联。与3D表示(或与3D表示的一部分)相关联的深度图包括与3D表示(或3D表示的一部分)中包括的元素(例如,点)相关联的深度或距离信息。与3D表示(或与3D表示的一部分)相关联的纹理图包括与3D表示(或3D表示的一部分)中包括的元素(例如,点)相关联的纹理信息(例如,RGB值)。根据与深度图和/或纹理图相关联的3D表示的部分是否包括感兴趣区域,用于对深度和/或纹理信息进行编码的量化步长(step)可以在深度图和/或纹理图内变化。可以通过组合和/或编码(多个)2D参数化的参数、表示(多个)深度图的数据、表示(多个)纹理图的数据、关于(多个)量化步长变化的信息以及将每个2D参数化与其相关联的深度图和纹理图相链接的映射信息来生成比特流。
在解码器/呈现侧,3D表示(例如,点云或网格)可以通过从流中解码/提取2D参数化的参数以及相关联的具有与量化步长的变化相关的信息的深度图和纹理图来重构,并且可以从3D表示中呈现3D场景的一个或多个图像。
与用点云或3D网格的表示相比,使用多个2D参数化作为用纹理和深度信息表示对象的参考,能够减少表示场景所需的数据量,同时能够用最佳细节水平表示具有复杂拓扑的对象。根据(多个)感兴趣区域的存在改变量化步长还能够减少要发送的数据量,同时保持(多个)感兴趣区域的良好表示。
图1示出了根据本原理的特定且非限制性实施例的体积式内容10(也称为沉浸式内容或全向内容)的示例。图1示出了表示三维场景的图像,其包括若干对象的表面表示。该场景可以是使用任何合适的技术捕获的。例如,它可以是使用计算机图形图像(computergraphics imagery,CGI)工具创建的。它可以由彩色图像和深度图像获取设备捕获。在这种情况下,从获取设备(例如,相机)不可见的对象的部分有可能不在场景中表示。图1所示的示例场景包括房屋、两个人物和一口井。图1中的立方体11示出了用户可能从其观察3D场景的视图空间。
用于对体积式内容10进行可视化的显示设备例如是HMD(头戴式显示器),其配戴在用户的头上或作为头盔的一部分。HMD有利地包括一个或多个显示屏(例如,LCD(LiquidCrystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)或LCOS(Liquid Crystal on Silicon,硅上液晶))和被配置用于根据现实世界的一个、两个或三个轴(俯仰轴、偏转轴和/或滚动轴)测量HMD位置的(多个)变化的(多个)传感器,例如,陀螺仪或IMU(Inertial Measurement Unit,惯性测量单元)。与HMD的测量位置相对应的体积式内容10的部分有利地通过建立现实世界中与HMD相关联的视点和与体积式内容10相关联的虚拟相机的视点之间的关系的特定函数来确定。根据所测量的HMD的位置来控制要在HMD的(多个)显示屏上显示的视频内容的部分,使得佩戴HMD的用户能够浏览到沉浸式内容,该沉浸式内容比与HMD的(多个)显示屏相关联的视场更大。例如,如果由HMD提供的视场等于110°(例如,关于偏转轴),并且如果沉浸式内容提供180°的内容,则佩戴HMD的用户可以向右或向左旋转头部,以看到由HMD提供的视场之外的视频内容的部分。根据另一示例,沉浸式系统是CAVE(Cave Automatic Virtual Environment,洞穴式自动虚拟环境)系统,其中沉浸式内容被投影到房间的墙壁上。例如,CAVE的墙壁包括背投屏幕或平板显示器。用户因此可以浏览其在房间不同墙壁上的注视。CAVE系统有利地配备有获取用户图像的相机,以通过对这些图像的视频处理来确定用户的注视方向。根据一种变型,用户的注视或姿态由跟踪系统(例如,红外跟踪系统)确定,用户佩戴红外传感器。根据另一变型,沉浸式系统是具有触觉显示屏的平板电脑,用户通过用一个或多个手指在触觉显示屏上滑动来滚动内容而浏览内容。
体积式内容10例如可以是2π、2.5π、3π或4π球面度内容。
图2A和图2B示出了可以用于获取体积式内容10的光场获取设备的示例。更具体地,图2A和图2B各自示出了根据本原理的两个特定实施例的相机阵列2B、2A(也称为相机阵列)。
相机阵列2A包括透镜或微透镜的阵列20和一个或若干个传感器阵列21,该阵列20包括若干个微透镜201、202至20p,其中p是对应于微透镜数量的整数。相机阵列2A不包括主透镜。透镜阵列20可以是小型器件,通常称为微透镜阵列。具有单个传感器的相机阵列可以被认为是全光相机的特殊情况,其中主透镜具有无限焦距。根据其中光电传感器数量等于微透镜数量的特定布置,即一个光电传感器与一个微透镜在光学上相关联,相机阵列20可以被视为多个单独相机(例如,微相机)紧密间隔的布置,诸如正方形布置(如图2A所示)或梅花形布置,或者例如在圆柱形表面上的非平坦布置。
相机阵列2B对应于一一套单独的相机,每个相机包括一个透镜和一个光电传感器阵列。相机间隔开例如等于几厘米或更短或5、7或10cm的距离。
用这样的相机阵列2A或2B获得的光场数据(形成所谓的光场图像)对应于场景的多个视图,即对应于可以通过对用全光相机获得的原始图像进行解复用和去马赛克(demosaic)而获得的最终视图,该全光相机诸如是1.0型的全光相机,对应于其中小透镜阵列和光电传感器阵列之间的距离等于微透镜焦距的全光相机,或者是2.0型的全光相机(也称为聚焦全光相机)。相机阵列2B的相机根据任何已知的方法进行校准,即,相机的内部和外部参数是已知的。
用光场获取设备获得的不同视图使得能够使用能例如基于视差计算深度的算法来获得沉浸式内容或沉浸式内容的至少一部分。自然地,沉浸式内容可以利用不同于光场获取设备的获取设备来获得,例如,利用与深度传感器相关联的相机(例如,红外发射器/接收器,诸如微软的Kinect或激光发射器)。
图3示出了用体积式内容10表示的场景的对象或其一部分的两种不同表示。根据图3的示例,对象是人,例如,在场景内移动的人,并且与头部相对应的对象的一部分在图3中示出。
对象的一部分的第一3D表示30是点云。点云对应于表示对象(例如,对象的外表面或外部形状)的点的大集合。点云可以被视为基于矢量的结构,其中每个点具有其坐标(例如,三维坐标XYZ,或距给定视点的深度/距离)和一个或多个属性,也称为分量。分量的示例是可以在不同颜色空间中表达的颜色分量,例如,RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是从给定的视点或视点范围看到的对象的表示。点云可以通过不同的方式获得,例如:
·由一一套(rig)相机拍摄的真实对象的捕获,如图2的相机阵列,可选地由深度主动感测设备补充;
·从在建模工具中由一一套虚拟相机拍摄的虚拟/合成对象的捕获;
·从真实和虚拟物体的混合。
根据一种变型,3D表示对应于3D网格表示,并且第一表示上示出的点对应于形成网格的网格元素(例如,三角形)的顶点。
在第一种情况下(从真实对象的捕获),相机集合生成对应于不同视图(不同视点)的一组图像或图像序列(视频)。深度信息—意味着从每个相机中心到对象表面的距离—通过主动深度感测设备(例如,在红外范围内)并且基于结构化光分析或飞行时间或基于视差算法来获得。在这两种情况下,所有的相机都需要在内部和外部进行校准。视差算法包括在一对经校正的相机图像上搜索相似的视觉特征,这些图像通常沿一维线进行:像素列差越大,此特征的表面越接近。在相机阵列的情况下,可以从多个对等视差信息的组合中获得全局深度信息,利用多个相机对的优势,从而提高信噪比。
在第二种情况下(合成对象),建模工具直接提供深度信息。
可以从点云(或3D网格)表示30中获得对象的部分的第二表示31,第二表示对应于表面表示。点云可以被处理以便计算其表面。为此,对于点云的给定点,使用该给定点的邻近点来计算该给定点处的局部表面的法线,与该给定点相关联的表面元素从法线推导出。对所有点迭代该过程以获得表面。从点云重构表面的方法例如由Matthew Berger等人在“State of the Art in Surface Reconstruction from Point Clouds”,State of theArt Report,2014,中描述。根据一种变型,与点云的给定点相关联的表面元素通过对该给定点应用splat呈现来获得。对象的表面(也称为对象的隐式表面或外表面)是通过混合与点云的点相关联的所有splat(例如,椭圆体)获得的。
在特定实施例中,点云仅表示对象的部分视图,而不是对象的整体视图,并且这对应于应如何在呈现侧(例如,在电影摄影场景中)的观看对象的方式。例如,面向平面相机阵列拍摄人物时,只会在该套设备的一侧生成点云。人物的背面甚至不存在,对象本身也不是封闭的,因此该对象的几何特征是朝向该套设备方向的所有表面的集合(每个局部表面的法线和返回获取设备的射线之间的角度例如小于90°)。
图4示出了根据本原理的特定实施例的与已经用相机4001、4002、4003和4004获取的场景的对象的表示40的3D部分相关联的2D参数化41、42和43。相机4001至4004例如对应于图2B的该套设备一些相机。如图3的示例31所示,用其表面40来表示对象,但也可以如图3的示例30所示,用点云本身来表示对象。每个2D参数化与对象的表示的3D部分相关联,每个3D部分对应于包括点云的一个或多个点的体积。通过考虑获取设备的姿态信息,以浏览与所述每个2D参数化相关联的3D部分中包括的点云的(由获取设备的视点范围生成的)最大数量的点的方式来确定每个2D参数化。当用相关联的3D部分的点的线性透视投影获得2D参数化时,确定的视点与每个2D参数化相关联,每个视点被包括在与用于获取场景的视点范围相对应的视点范围内。2D参数化41与视点401相关联,2D参数化42与视点402相关联,并且2D参数化43与视点403相关联。从图4中可以看出,视点401至403中的每一个都位于视点4001和4002之间,分别对应于获取设备的视点范围的左极限4001和右极限4004。点云是从有限且确定的视点范围获得的,并且点云的3D部分的2D表示(即,2D参数化)都是从位于用于获得点云的有限且确定的视点范围内的视点看到的。每个2D参数化都是与其相关联的点云的3D部分的2D表示。相同的3D部分可以用一个或若干个2D参数化来表示,例如,用2个、3个或更多个2D参数化来表示。如上所述,与点云的一个给定3D部分相关联的2D参数化对应于点云的给定3D部分的二维浏览,其允许对给定3D部分进行采样,即该给定3D部分的内容(即,(多个)点)的2D表示包括多个样点,样点数量取决于所应用的采样率。2D参数化可以以多种方式获得,例如,通过实施以下方法中的任何一种来获得:
-点云的3D部分的点在与视点相关联的平面上的线性透视投影,表示线性透视投影的参数包括虚拟相机的位置、空间采样率和二维视场;
-点云的3D部分的点在表面上的正投影,表示正投影的参数包括投影表面的几何形状(形状、大小和方位)和空间采样率;
-对应于降维的数学运算的LLE(Locally-Linear Embedding,局部线性嵌入),这里应用于从3D到2D的转换/变换,表示LLE的参数包括变换系数。
2D参数化41、42和43可以用有限数量的参数来表示,并且例如用一个或多个参数方程来定义。与点云的给定3D部分相关联的2D参数化是通过考虑给定3D部分的几何特性(例如,给定3D部分的极值点和/或从位于3D部分内的点获得的与给定3D部分中包括的对象的部分的外表面的元素相关联的法线信息)和(多个)获取设备的姿态信息(例如,用于定向2D参数化)来确定的。考虑3D部分的几何特性和姿态信息使得能够获得位于面向3D部分的空间中的2D参数化,即位于获取设备和点云之间的2D参数化。
从图4中可以看出,2D参数化41、42和43可以彼此重叠,该重叠例如是由于与2D参数化相关联的3D部分的重叠。
为了获得3D部分,可以根据不同的方法分割点云。例如,可以根据图8A至图8D的示例来分割点云。根据图8A的非限制性示例,点云所占据的3D空间81(例如,半球体)根据球面坐标(r,θ,
Figure BDA0002565036180000141
)(即,根据对应于半球体的半径的距离“r”以及角度“θ”和
Figure BDA0002565036180000142
)来分割,每个维度“r”,“θ”和
Figure BDA0002565036180000143
被均匀地分割。根据一种变型,维度“r”、“θ”和/或
Figure BDA0002565036180000144
中的一个或多个可以变化,例如,3D部分的深度可以随着维度“r”而变化。根据一种变型,每个3D部分的尺寸被确定为将点云的点均匀分布到3D部分中,3D点的尺寸取决于点云所占据的空间的不同区域中的点的局部密度。在图8B的示例中,点云所占据的3D空间82(例如,半球体)根据球面坐标(r,θ,
Figure BDA0002565036180000145
)以交错的方式被分割。在图8A和图8B的示例中,3D部分可以被视为观看相机视锥体(frustum)体积。根据图8C的非限制性示例,点云所占据的3D空间83(例如,对应于界定点云的框的平行六面体)根据笛卡尔坐标(x,y,z)(即,根据3D笛卡尔参考系的3维)来分割。每个3D部分可以具有立方体或长方体的形式。每个3D部分可以具有相同的尺寸,或者3D部分可以具有不同的尺寸,例如,将点均匀分布到所有3D部分中。图8D示出了图8C的分割的变形,其中平行六面体以交错的方式分布在点云所占据的3D空间84内。即使未在图8A、图8B、图8C和图8D中示出,由点云的分割产生的3D部分可以部分地彼此重叠,这意味着点云的空间的一些部分可以属于若干个3D部分。点云的分割可以是固定的,也可以随时间变化。例如,点云的分割可以从一个GOP(Group of Pictures,图片组)到另一个GOP有所变化。当在MPEG-DASH(Dynamic Adaptive Streaming over HTTP,基于HTTP的动态自适应流)环境中应用时,分割可能在一个段到另一个段有所变化,并且在ISOBMFF标准的框架下,该段可以是ISOBMFF段。
图5示出了根据本原理的非限制性示例的深度图和纹理图与帧i和时间上位于帧i之后的帧j的点云的3D部分的关联。表示对象5(图5的示例中的人)的3D点云以灰色阴影示出。对象5的分割51对应于图8A的示例,即,根据球面坐标的分割,其中相邻3D部分之间有部分重叠。为了清楚起见,点云及其分割仅根据θ和
Figure BDA0002565036180000151
在2D中表示。由分割产生的3D部分用以矩阵方式排列的正方形5100、5110、51mn示出,其中“m”对应于行索引,并且“n”对应于列索引。例如,参考编号5100指向属于索引为“0”的行和索引为“1”的列的正方形,并且参考编号5110指向属于索引为“1”的行和索引为“0”的列的正方形。一个深度图与点云5的每个3D部分相关联。以相同的方式,一个纹理图与点云5的每个3D部分相关联。
通过使用与给定3D部分5110相关联的2D参数化的参数来获得与给定3D部分(例如,3D部分5110)相关联的深度图,并且通过使用与3D部分5320相关联的2D参数化的参数来获得深度图5320。例如,当2D参数化对应于线性透视投影时,表示2D参数化的参数是视点的位置(即,虚拟相机位置)(其可以例如从与3D部分中包括的点云的点相关联的法线获得)以及水平和垂直视场。要存储在深度图中的深度信息对应于在线性透视的情况下的虚拟相机位置或在正投影的情况下的2D投影表面与在3D部分中包括的点云的点之间的距离,该点云的点沿着从在线性透视的情况下的视点开始或在正投影的情况下与投影表面正交的,并且在3D部分中包括的点云的点处结束的射线,例如,在知道点的坐标和视点在世界空间(world space)中的坐标(在线性透视投影的情况下)的情况下。当用从点云的点获得的其隐式表面来表示对象时,要存储在深度图中的距离对应于在一方面的射线和2D参数化表面之间的交点与在另一方面的射线和隐式表面之间的交点之间的距离。深度信息的数量可以取决于2D参数化表面的分辨率,该分辨率取决于采样间隔。例如,通过应用splat呈现技术获得深度图,即,将与点相关联的深度值分配给与该点相关联的2D参数化表面的样点(该样点取决于所使用的2D参数化的类型,例如,线性透视投影、正投影或LLE投影),并且还分配给位于交叉样点附近的样点(这些样点形成splat)。根据一种变型,深度图是通过应用射线追踪技术获得的,即通过从2D参数化表面的样点发射射线,并且通过将深度值分配给给定样点,该深度值对应于与从该给定样点发射的射线相交的点(或者最接近射线的点)相关联的深度值。
深度信息的编码可以从第一补片图谱53中的一个深度图到另一个深度图有所变化。例如,给定深度图的深度信息的编码可以适配于与给定深度图相关联的3D部分的深度值的范围和/或3D部分中包括的点的数量。例如,根据为3D部分计算的最小深度值和最大深度值,对应的深度图中的深度信息的编码被确定为适配于这些最小值和最大值之间的差。如果差较小,则深度信息可以例如以8或10比特被编码,并且如果差较大,则深度信息可以例如以12、14或更多比特被编码。从一个深度图到另一个深度图变化编码能够优化比特率编码。根据一种变型,不管最小深度值和最大深度值之间的差如何,对于每个3D图,深度信息以相同的比特深度(例如,8、10、12或14比特)被编码,但是考虑最小值和最大值。这种变型能够在差较小时减小量化步长,这能够减小与深度信息的编码相关联的量化噪声。
以同样的方式,通过使用与给定3D部分相关联的2D参数化的参数,获得与给定3D部分相关联的纹理图。从给定3D部分中包括的点云的点取得的颜色信息或者从与从视点投射的射线相交的对象的隐式表面取得的颜色信息与2D参数化表面的样点相关联,以形成颜色图。至于深度图,例如,通过应用splat呈现技术来获得颜色图,即,将与点相关联的(多个)颜色值分配给与该点相关联的2D参数化表面的样点(该样点取决于所使用的2D参数化的类型,例如,线性透视投影、正投影或LLE投影),并且还分配给位于交叉样点附近的样点(这些样点形成splat)。根据一种变型,纹理图是通过应用射线跟踪技术来获得的,即,通过从2D参数化表面的样点发射射线,并且通过将颜色值分配给给定样点,该颜色值对应于与从该给定样点发射的射线相交的点(或者最接近射线的点)相关联的颜色值。至于深度信息,给定颜色图的颜色信息的编码可以适配于与给定颜色图相关联的3D部分的颜色值的范围和/或3D部分中包括的点的数量。例如,根据为3D部分计算的最小颜色值和最大颜色值,对应的颜色图中的颜色信息的编码被确定为适配于这些最小值和最大值之间的差。如果差较小,则纹理/颜色信息可以例如以8或10比特被编码,如果差较大,则纹理/颜色信息可以例如以12、14或更多比特被编码。从一个颜色图到另一个颜色图改变编码能够优化比特率编码。根据一种变型,不管最小颜色值和最大颜色值之间的差如何,对于每个纹理图,颜色信息以相同的比特深度(例如,8、10、12或14比特)被编码,但是考虑最小值和最大值。这种变型能够在差较小时减小量化步长,这能够实现更高的颜色动态范围或更高的亮度范围,这可以被用于获得用点云表示的对象的HDR(高动态范围)表示。
所获得的深度图的集合可以根据确定的或随机的布置(例如,以具有行和列的矩阵形式)布置在第一补片图谱53中,其中第一补片图谱53的补片对应于一个深度图。例如,补片531是与3D部分5110相关联的深度图。
以相同的方式,所获得的纹理图的集合被布置在第二补片图谱54中,例如,根据与第一补片图谱53中的深度图相同的布置。
可以生成第一映射信息,以分别在第一补片图谱和第二补片图谱中保持2D参数化和相关联的深度图和纹理图之间的连接。第一映射信息例如可以是以下形式:
{2D参数化的参数;深度图ID;纹理图ID}
其中,深度图ID可以是整数值或包括深度图在第一补片图谱的补片矩阵中所属的列索引U和行索引V的一对值;纹理图ID可以是整数值或包括纹理图在第二补片图谱的补片矩阵中所属的列索引U’和行索引V’的一对值。
当深度图和纹理图根据第一补片图谱和第二补片图谱中的相同布置被布置时,深度图ID和纹理图ID是相同的,并且第一映射信息可以是例如以下形式:
{2D参数化的参数;深度图和纹理图ID}
其中,“深度图和纹理图ID”通过与深度图和纹理图两者相关联的相同整数值,或者通过深度图和纹理图分别在第一补片图谱和第二补片图谱中所属的列索引U和行索引V的该对值,识别第一补片图谱中的深度图和第二补片图谱中的颜色图。
针对每个2D参数化和相关联的深度图和纹理图生成相同的映射信息。这种第一映射信息能够通过建立2D参数化与对应的深度图和纹理图的关联来重构点云。如果2D参数化是投影,则点云可以通过对相关联的深度图中包括的深度信息和相关联的纹理图中的纹理/颜色信息进行去投影(执行逆投影)来重构。然后,第一映射信息对应于映射信息列表:
{2D参数化的参数;深度图和纹理图ID}i
对于i=1至n,n是2D参数化的数量。
第一补片图谱53和第二补片图谱可以被视为具有相同分辨率的图像,即,具有以具有K个列和L个行的矩阵方式布置的相同数量的像素,K和L是整数。每个补片(对应于第一补片图谱53的深度图或第二补片图谱54的纹理图)包括表示第一补片图谱53或第二补片图谱的图像的像素子集。
根据可选的变型,第二映射信息可以与表示第一补片图谱53或第二补片图谱54的图像的像素相关联,第二映射信息有利地对于表示第一补片图谱53的图像和表示第二补片图谱54的图像是共同的,分辨率对于两个图像是相同的,并且引用相同2D参数化的补片是根据第一补片图谱和第二补片图谱中的相同布置来组织的。第二映射信息指示表示第一补片图谱(或第二补片图谱)的图像的每个像素或每个像素组引用哪个2D参数化或与哪个2D参数化相关联。为了达到该目的,识别信息与每个2D参数化相关联(例如,对于每个2D参数化不同的整数值)。第二映射信息例如可以是布置成行和列的单元图的形式,每个单元对应于图像的像素或像素组,并且包括对应的2D参数化的识别信息。根据另一示例,第二映射信息对应于例如以下形式的列表:
{3D部分标识;像素/像素组标识),对于表示第一/第二补片图谱的图像的每个像素或每个像素组。第二映射信息使得能够通过简化与每个3D部分相关联的识别信息的取得来加速在解码器/呈现侧的对信息的解码,这应该针对图像的每个像素进行。解码器的典型实施方式需要在GPU(Graphical Processing Unit,图形处理单元)上并行实施对图像的每个像素的取得,这必须避免浏览列表。根据该可选变型,该第二映射信息是分辨率通常低于颜色和深度图像的图像,其中每个像素直接给出与该像素/点所属的每个3D部分相关联的识别信息。
对象5的分割可以随时间变化,例如,从一个GOP到下一个GOP有所变化,或者当对象5的拓扑变化已经改变时或者每q帧改变时,其中q是大于或等于1的整数。分割中的这种变化在图5中以帧j示出。帧j处的对象5的分割52不同于帧i处的相同对象5的分割51。在图5的示例中,帧j处的对象5的拓扑不同于帧i处的对象5的拓扑。帧j可以例如属于在时间上在包括帧i的GOP之后的GOP。使用表示与分割所产生的3D部分相关联的2D参数化的参数且从表示3D部分中包括的点的几何形状(例如,坐标)的数据来获得第一补片图谱55(包括与3D部分相关联的深度图和对应的2D参数化),如关于帧i所述。由于分割52所产生的3D部分的数量少于分割51所产生的3D部分的数量,所以第一补片图谱55中的深度图的数量少于第一补片图谱53中包括的深度图的数量。以同样的方式,使用表示与分割52产生的3D部分相关联的2D参数化的参数且从表示3D部分中包括的点的几何形状(例如,坐标)的数据来获得第二补片图谱56(包括与3D部分相关联的纹理图和对应的2D参数化),如关于帧i所述。由于由分割52所产生的3D部分的数量少于分割51所产生的3D部分的数量,所以第二补片图谱56中的纹理图的数量少于第二补片图谱54中包括的深度图的数量。
图6示出了与表示对象5的3D表示(例如,点云)的3D部分相关联的第一补片图谱或第二补片图谱的进一步非限制性示例。图6示出了例如与图5的分割51相对应的点云的第一分割61和同一点云的第二分割62。从第一分割61生成第一补片图谱63,第一补片图谱63包括从与分割61所产生的3D部分相关联的2D参数化获得的深度图。从第一分割61生成第二补片图谱64,第二补片图谱64包括从与分割61所产生的3D部分相关联的2D参数化获得的纹理图。
第二分割62与第一分割61的不同之处在于,第一分割61的一些3D部分已经被分组到第二分割62的单个3D部分中。例如,表示人的躯干的第一分割61的6个3D部分已经被分组,以在第二分区62中形成一个3D部分622。以相同的方式,表示人的肩部和手臂部分的第一分割61的4个3D部分已经被分组,以在第二分割62中形成一个3D部分621。3D部分例如根据与3D部分中包括的点云的点相关联的几何特性来分组。例如,当从这些3D部分中的每一个中包括的点获得的隐式表面具有相似的拓扑时,例如,法线彼此接近和/或相关联的深度值的范围彼此接近,3D部分可以被分组在一起。
从第二分割62生成第一补片图谱65,第一补片图谱65包括从与第二分割62所产生的3D部分相关联的2D参数化获得的深度图。如图6所示,第一补片图谱65中的深度图的形状和数量不同于第一补片图谱63中的深度图的形状和数量。与第一补片图谱63中的对应的深度图相比,与3D部分621、622的2D参数化相关联的一些深度图651、652在尺寸上不同。以相同的方式,从第二分割62生成第二补片图谱66,第二补片图谱66包括从与第二分割62所产生的3D部分相关联的2D参数化获得的纹理图。在对第一分割61的3D部分进行分组以获得第二分割62之后,第二补片图谱66中的颜色图的数量少于第二补片图谱64中的颜色图的数量。这种分组允许减少补片的数量,从而减少锐利边界和高空间频率信息的数量。减少这一点会降低纹理图和深度图的压缩比特率。
根据另一示例,单个2D参数化可以与整个对象5相关联,可以为整个对象5生成单个深度图和单个纹理图。
图7示出了根据本原理的非限制性示例的从表示对象5的点云的3D部分生成第一补片图谱和第二补片图谱。
表示对象5的点云被分割成多个3D部分,例如,50、100、1000或更多个3D部分,其中的3个在图7中示出,即3D部分71、72和73,3D部分71包括表示人头部的一部分的点云的点,3D部分72包括表示人腋窝的点云的点,并且3D部分73包括表示人手的点云的点。生成每个3D部分或3D部分的一部分的一个或多个2D参数化,以二维表示每个3D部分。例如,针对3D部分71获得2D参数化701,针对3D部分72获得2D参数化702,并且针对3D部分73获得2个不同的2D参数化703和704。2D参数化可以从3D部分到另一个3D部分有所变化。例如,与3D部分71相关联的2D参数化701是线性透视投影,而与3D部分72相关联的2D参数化702是LLE,并且与3D部分73相关联的2D参数化703和704都是根据不同视点的正交投影。用于获得2D参数化的所有视点被选择为位于用于获得对象5的图像并获得相关联的点云的获取设备的视点范围内。根据一种变型,与所有3D部分相关联的所有2D参数化都是相同类型的,例如,线性透视投影或正投影。根据一种变型,不同的2D参数化可以被用于相同的3D部分。如参考图5和图6所解释的,生成用于收集与所获得的2D参数化相关联的深度图的第一补片图谱74。第一补片图谱包括与2D参数化701相关联的深度图741、与2D参数化702相关联的深度图742、与2D参数化703相关联的深度图743和与2D参数化704相关联的深度图744,以及其他深度图。如关于图5和图6所解释的,生成用于收集与所获得的2D参数化相关联的纹理图的第二补片图谱75。
每个3D部分的2D参数化的选择例如基于优化过程,例如,减少第一补片图谱和第二补片图谱中的图的数量,和/或最小化在3D到2D变换过程中可能丢失的3D部分的点。
每个深度或纹理图有利地具有矩形形状,以简化第一补片图谱和第二补片图谱上的填充过程。
分别在第一补片图谱和第二补片图谱中的深度图和纹理图将被界线分开,该界线将在解码器侧被丢弃,以消除出现在锐利可视边界的压缩伪像。在解码器侧为深度图和纹理图取得用于点云再生的精确信息部分(例如,深度/纹理图的宽度和高度)是由一些2D参数化参数提供的,例如,在线性或正交透视投影的情况下给出以像素表示的投影表面的二维跨度的参数。
图9和图10示出了根据本原理的非限制性实施例的与场景的3D表示或3D表示的一部分相关联的2D参数化的空间采样的适配。
图9示出了例如对应于2D参数化41、42或43之一的2D参数化90的示例。2D参数化包括两个感兴趣区域901,每个感兴趣区域对应于与2D参数化90相对应的场景的3D表示的一部分中包括的感兴趣区域。3D表示的(多个)感兴趣区域例如通过应用本领域技术人员已知的任何对象显著性检测方法来确定。当应用于包括一个或多个人的场景时,考虑到(多个)人的(多个)面部是感兴趣的对象,对象显著性方法可以是面部检测方法。对象显著性方法可以例如应用于用图2A和图2B的获取设备获取的3D场景的图像。2D参数化90的空间采样可以适配于向包括感兴趣区域901的2D参数化区域分配比2D参数化的其他区域更多的样点(例如,像素)。为了达到该目的,网格生成方法(例如,在J.E.CASTILLO、J.S.OTTO的“APractical Guide to Direct Optimization for Planar Grid-Generation”中)可以被用于根据在2D参数化中检测到的感兴趣的区域或点来适配2D参数化90的采样。网格生成算法可以例如用参数集合来描述,例如称为采样映射算子SMO 91。通过将SMO91应用于2D参数化90,获得输出2D参数化92。在输出2D参数化92中感兴趣区域921的表示所占据的空间比在输入2D参数化90中感兴趣区域901所占据的空间更大。考虑到输入2D参数化90和输出2D参数化92中的样点(像素)的总数,分配给感兴趣区域的样点(像素)的数量在输出2D参数化中比在输入2D参数化中更大,而分配给其他区域(不包括感兴趣点)921的样点(像素)的数量在输出2D参数化92中比在输入2D参数化90中更少。
图10示出了从输出2D参数化92和与采样映射算子SMO 91的逆相对应的采样映射算子SMO-1 101来重构图像100,其可以对应于2D参数化90。表示2D参数化92的数据(即,与形成2D参数化的样点/像素相关联的数据,例如,存储在与2D参数化相关联的深度图或纹理图中的数据)可能已经通过网络(例如,在比特流中)与SMO 91一起被发送到解码器,该解码器被配置为解码并生成表示2D参数化100的数据。
在2017年5月4日提交的专利申请EP17305504.7中描述了用于生成采样映射算子的方法的示例。
图11示出了根据本原理的非限制性实施例的对表示3D场景的3D表示的数据进行编码和解码的第一方案,诸如图3的3D表示30、31。以下是关于与单个2D参数化相关联的单个深度图和单个纹理图的描述。自然地,相同的处理适用于多个2D参数化和相关联的深度图和纹理图。
图11示出了被配置为将深度图和纹理图编码进比特流的编码器111,以及被配置为从编码器111获得的比特流中解码深度图和纹理图的解码器112。编码器111适配于确定在对深度图和纹理图的块进行编码时可以使用哪些量化步长。量化步长可以例如在模块1111中从显著性图中确定,该显著性图包括用于获得相关联的深度图和纹理图的3D表示的一部分内的(多个)感兴趣区域(region of interest,ROI)的位置。显著图例如通过将从3D表示的所考虑的部分获得的ROI的掩模投影到与深度图和纹理图相关联的2D参数化上来获得。可以从显著图中推导QP图(Quantization Parameters map,量化参数图),QP图指示例如哪个量化步长值将被用于对(深度图和纹理图的)每个块进行编码。例如,第一量化参数值(例如,小值,接近0)可以被用于属于包括ROI的2D参数化的区域(或等效于深度图和纹理图的区域)的像素块;并且第二量化参数值(大于第一量化参数值)可以用于属于不包括ROI的2D参数化的区域(或者等效于深度图和纹理图的区域)的像素块。当从编码比特流重构3D表示时,用小的量化参数编码ROI能够获得更好的精度和质量。
量化参数可以被用于定义量化步长(quantization step,QS),例,如根据以下定律:
QS=K.2QP/6
其中,K是取决于像素块尺寸的参数,QP可以在0到51之间变化。
深度编码器1112根据从模块1111获得的QP图对深度图进行编码,即通过使用与ROI中包括的深度图的像素块相关联的量化参数和与不包括ROI的区域中包括的深度图的像素块相关联的量化参数。深度图的数据例如根据确定的格式被编码在比特流的第一语法元素中,例如,根据H.264/MPEG-4 AVC:“Advanced video coding for genericaudiovisual Services(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。关于用于对不同像素块进行编码的不同量化参数的信息(例如,ROI中的QP等于0,其他像素块的QP等于12)与深度图的编码数据一起被编码进比特流。
纹理编码器1113根据从模块1111获得的QP图对纹理图进行编码,即通过使用与ROI中包括的纹理图的像素块相关联的量化参数和与不包括ROI的区域中包括的纹理图的像素块相关联的量化参数。纹理图的数据例如根据确定的格式被编码在比特流的第二语法元素中,例如,根据H.264/MPEG-4 AVC:“Advanced video coding for genericaudiovisual Services(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。关于用于对不同像素块进行编码的不同量化参数的信息(例如,ROI中的QP等于0,其他像素块的QP等于25)与纹理图的编码数据一起被编码进比特流。
根据一种变型,QP图被编码在比特流的第三语法元素中。根据该变型,关于用于对深度图和纹理图的不同像素块进行编码的不同量化参数的信息没有被编码在第一和第二语法元素中,因为该信息将由解码器112从第三语法元素中取得。
根据另一种可选变型,深度图和纹理图的采样网格在模块114中使用由模块113从ROI掩模获得的SMO被适配/映射到ROI(如参考图9和图10所描述的)。根据该变型,模块113和114可以是集成到编码器111中的功能模块。根据该变型,在被发送到深度和纹理编码器之前,QP制图也被适配/映射到深度图和纹理图的采样。
生成包括第一、第二和第三语法元素的比特流。比特流还包括表示2D参数化的一个或多个参数(用于从场景的3D表示中获得深度图和纹理图)和表示2D参数化与深度图和纹理图之间的映射的信息。
所获得的比特流可以通过网络(例如,LAN(局域网)或WLAN(无线局域网)和/或经由互联网)发送到例如解码器112。
解码器112包括深度解码器1121,其适配于对被编码到第一语法元素中的深度数据进行解码,以及纹理解码器1122,其适配于对被编码到第二语法元素中的纹理数据进行解码。使用与这些块中的每一个相关联的量化参数(例如,对于ROI中包括的像素块,QP等于0,而对于其他像素块,QP等于12)来对深度图和纹理图的像素块进行解码。解码器1121和1122例如符合H.264/MPEG-4 AVC:“Advanced video coding for generic audiovisualServices(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。
当深度图和纹理图的采样网格已经根据ROI掩模被适配时,逆采样算子SMO-1从比特流中被解码,并且被应用于解码的深度图和纹理图,例如,在可以集成在解码器112中或者不集成在解码器112中的模块115中,以重构场景的3D表示。
图12示出了根据本原理的非限制性实施例的对表示3D场景的3D表示(诸如图3的3D表示30、31)的数据进行编码和解码的第二方案。以下是关于与单个2D参数化相关联的单个深度图和单个纹理图的描述。自然地,相同的处理适用于多个2D参数化和相关联的深度图和纹理图。
图12示出了被配置为将深度图和纹理图编码进比特流的编码器121,以及被配置为从编码器121获得的比特流中解码深度图和纹理图的解码器122。编码器121包括适配于对纹理图进行编码的纹理编码器1211。纹理图的数据例如根据确定的格式被编码在比特流的第二语法元素中,例如,根据H.264/MPEG-4 AVC:“Advanced video coding for genericaudiovisual Services(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。
编码的纹理数据被发送到编码器121中包括的纹理解码器1212,纹理解码器1212与解码器122中包括的纹理解码器1221相同。纹理解码器1212符合H.264/MPEG-4 AVC:“Advanced video coding for generic audiovisual Services(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。纹理解码器1212将编码器1211编码的纹理数据解码到第二语法元素中。ROI检测器1213被实施为处理由纹理解码器1212解码的纹理数据,以检测解码的纹理图内的(多个)感兴趣区域的位置,例如生成ROI掩模的解码版本。(在编码之前)将解码的ROI掩模版本与从纹理图生成的ROI掩模进行比较,以获得ROI掩模的预测误差。ROI掩模的预测误差例如被编码到比特流的第三语法元素中。
编码器121还包括深度编码器1214,其适配于根据ROI掩模对深度图的数据进行编码,即,通过根据像素块是否属于ROI,用不同的量化参数对不同的像素块进行编码。深度图被编码到比特流的第一语法元素中。第一语法元素仅包括表示编码的深度图的编码数据,没有关于用于对数据进行编码的量化步长的信息。
生成包括第一、第二和第三语法元素的比特流。比特流还包括表示2D参数化的一个或多个参数(用于从场景的3D表示中获得深度图和纹理图)和表示2D参数化与深度图和纹理图之间的映射的信息。
所获得的比特流可以通过网络(例如,LAN(局域网)或WLAN(无线局域网)和/或经由互联网)发送到例如解码器122。
解码器122包括适配于对被编码到第二语法元素中的纹理数据进行解码的解码器1221,以及适配于被编码到第一语法元素中的深度数据进行解码的深度解码器1223。结合从应用于解码的纹理图的ROI检测器1222获得的ROI掩模,使用量化参数对深度图的像素块进行解码,该量化参数是从编码到第三语法元素中的预测误差中获得的。解码器1221和1222例如符合H.264/MPEG-4 AVC:“Advanced video coding for generic audiovisualServices (通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-TH.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。
图12的编码/解码方案能够优化(即减少)用于描述将以比特流发送的量化参数的数据量。在比特流中仅编码和传输预测误差。
第二种方案已经基于应用于由纹理解码器解码的纹理数据的ROI检测器的示例进行描述,ROI掩模的预测误差被用于对深度数据进行解码。通过将ROI检测器应用于由深度解码器解码的深度数据,可以应用相同的方案,ROI掩模的预测误差被用于对纹理数据进行解码。
根据可选的变型,纹理编码器1211根据ROI掩模(即,根据依据纹理图的像素块是否属于ROI而变化的量化参数),对纹理数据进行编码。根据该变型,量化参数可以用纹理数据进行编码,以使纹理解码器1221能够相应地对编码的纹理数据进行解码。
图13示出了根据本原理的非限制性实施例的对表示3D场景的3D表示(诸如图3的3D表示30、31)的数据进行编码和解码的第三方案。以下是关于与单个2D参数化相关联的单个深度图和单个纹理图的描述。自然地,相同的处理适用于多个2D参数化和相关联的深度图和纹理图。
图13示出了编码器131和解码器132,该编码器131被配置为将深度图和纹理图编码进比特流,并且该解码器132被配置为从编码器131获得的比特流中解码深度图和纹理图。深度图和纹理图首先根据SMO被编码,以使采样网格适配于133ROI掩模。编码器131包括模块1311,该模块1311被适配于确定哪些量化参数可以被用于对深度图和纹理图的块进行编码。量化参数可以从已经用于根据ROI适配深度图和纹理图的采样网格的SMO中确定。例如,当从SMO确定采样网格在深度图或纹理图的区域中更密集时,可以推断该区域对应于ROI。相反,当从SMO确定采样水平是标准的或粗略的时,可以推断该区域对应于不包括任何ROI的深度图或纹理图的区域。然后,可以从模块1311根据表示应用于深度图和纹理图的自适应采样的参数SMO获得QP图。QP图指示例如哪个量化步长值将被用于对(深度图和纹理图的)每个块进行编码。例如,第一量化参数值(例如,小值,接近0)可以被用于属于包括ROI的2D参数化区域(或等效于深度图和纹理图的区域)的像素块;并且第二量化参数值(大于第一量化参数值)可以被用于属于不包括ROI的2D参数化区域(或者等效于深度图和纹理图的区域)的像素块。例如,ROI中包括的像素块可以用等于0的QP来编码,而ROI中不包括的像素块可以用等于12(对于深度)的QP来编码和等于25(对于纹理)的QP来编码。当从编码的比特流重构3D表示时,用小量化参数值来编码ROI能够获得更好的精度和质量。
深度编码器1312根据从模块1311获得的QP图对深度图进行编码,即,通过使用与ROI中包括的深度图的像素块相关联的量化参数和与不包括ROI的区域中包括的深度图的像素块相关联的量化参数。深度图的数据例如根据确定的格式被编码在比特流的第一语法元素中,例如,根据H.264/MPEG-4AVC:“Advanced video coding for genericaudiovisual Services(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。
纹理编码器1313根据从模块1311获得的QP图对纹理图进行编码,即,通过使用与ROI中包括的纹理图的像素块相关联的量化参数和与不包括ROI的区域中包括的纹理图的像素块相关联的量化参数。纹理图的数据例如根据确定的格式被编码在比特流的第二语法元素中,例如,根据H.264/MPEG-4AVC:“Advanced video coding for genericaudiovisual Services(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-T H.265”。
生成包括第一和第二语法元素的比特流。比特流还包括第三语法元素,该第三语法元素包括表示应用于深度图和纹理图的自适应采样的参数SMO。根据另一个示例,第三语法元素包括逆参数SMO-1,该参数使得能够对通过自适应采样映射获得的深度图和纹理图进行去投影。比特流还包括表示2D参数化的一个或多个参数(用于从场景的3D表示中获得深度图和纹理图)和表示2D参数化与深度图和纹理图之间的映射的信息。
所获得的比特流可以通过网络(例如,LAN(局域网)或WLAN(无线局域网)和/或经由互联网)发送到例如解码器132。
解码器132包括:深度解码器1321,其适配于对被编码到第一语法元素中的深度数据进行解码,以及纹理解码器1322,其适配于对被编码到第二语法元素中的纹理数据进行解码。解码器132还包括模块1321,该模块1321被配置为从第三语法元素中包括的参数生成QP图,模块1321例如与模块1311相同。深度图和纹理图的像素块使用QP图中包括的并与这些块中的每一个相关联的量化参数来解码(例如,对于ROI中包括的像素块,QP等于0,对于其他像素块,QP对于深度和纹理分别等于12和25)。解码器1321和1322例如符合H.264/MPEG-4 AVC:“Advanced video coding for generic audiovisual Services(通用视听服务的高级视频编码)”,H系列:视听和多媒体系统,推荐ITU-T H.264,国际电联电信标准化部门,2014年2月,或根据HEVC/H265:“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务的基础设施-运动视频编码、高效视频编码,推荐ITU-TH.265”。
然后,可以使用去映射参数SMO-1来对解码的深度图和纹理图进行去映射135,以生成与深度图和纹理图相关联的场景的3D表示。
第三编码/解码方案能够减少要编码进比特流中并与比特流一起发送的数据量。实际上,不需要对描述深度图和纹理图内量化步长变化的附加信息进行编码,因为该信息是从描述应用于深度图和纹理图的自适应采样映射的参数SMO或SMO-1推导出的。
QP图可以通过多种方式获得。例如,QP图可以以简单的方式从去映射自适应采样函数中推导。对于每个编码块,可以计算去映射之后邻近点之间的平均距离:距离越小,采样密度越高,因此块被包括在ROI内的概率越高(参数表面上的采样密度已经增加)。编码器和解码器仅需要将采样密度范围映射到QP值的LUT(查找表)来确定每个采样密度将使用哪些量化参数。不需要发送可以存储在编码器和解码器的存储器中的该表。根据一种变型,该表被编码进比特流,并与比特流一起被发送。
图14示出了可以被配置为实施关于图18和/或图19描述的方法的设备14的示例架构。设备14可以被配置为图11、图12、图13的编码器111、121、131或解码器112、122、132。
设备14包括通过数据和地址总线141链接在一起的以下元件:
-微处理器142(或CPU),其例如是DSP(Digital Signal Processor,数字信号处理器);
-ROM(或只读存储器)143;
-RAM(或随机存取存储器)144;
-存储接口145;
-I/O(输入/输出)接口146,用于从应用接收要发送的数据;以及
-电源,例如,电池。
根据示例,电源在设备外部。在提到的每个存储器中,说明书中使用的词语“寄存器”可以对应于小容量区域(一些位)或非常大的区域(例如,整个程序或大量接收或解码的数据)。ROM 143至少包括程序和参数。ROM 143可以存储用于执行根据本原理的技术的算法和指令。当接通时,CPU 142将程序上传到RAM中,并执行对应的指令。
在寄存器中,RAM 144包括由CPU 142运行并在设备150接通后上传的程序、寄存器中的输入数据、寄存器中方法的不同状态的中间数据以及寄存器中用于执行该方法的其他变量。
这里描述的实施方式可以以例如方法或过程、装置、计算机程序产品、数据流或信号来实施。即使仅在单一形式的实施方式的上下文中讨论(例如,仅作为方法或设备讨论),所讨论的特征的实施方式也可以以其他形式(例如,程序)来实施。装置可以用例如适当的硬件、软件和固件来实施。这些方法可以例如在诸如处理器的装置中实施,其通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如,计算机、蜂窝电话、便携式/个人数字助理(“personal digital assistant,PDA”)以及便于终端用户之间的信息通信的其他设备。
根据编码或编码器111、121、131的示例,从源获得三维场景10。例如,该源属于包括以下各项的集合:
-本地存储器(143或144),例如,视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘;
-存储接口(145),例如,具有大容量存储、RAM、闪存、ROM、光盘或磁性载体的接口;
-通信接口(146),例如,有线接口(例如,总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或
Figure BDA0002565036180000303
接口);以及
-用户界面(诸如图形用户界面),使用户能够输入数据。
根据解码或解码器112、122、132的示例,流被传送到目的地;具体地,目的地属于包括以下各项的集合:
-本地存储器(143或144),例如,视频存储器或RAM、闪存、硬盘;
-存储接口(145),例如,具有大容量存储、RAM、闪存、ROM、光盘或磁性载体的接口;以及
-通信接口(146),例如,有线接口(例如,总线接口(例如,USB(Universal SerialBus,通用串行总线))、广域网接口、局域网接口、HDMI(High Definition MultimediaInterface,高清晰度多媒体接口)接口)或无线接口(诸如IEEE 802.11接口、
Figure BDA0002565036180000301
Figure BDA0002565036180000302
接口)。
根据编码或编码器的示例,包括表示体积式场景的数据的比特流被传送到目的地。作为示例,比特流被存储在本地或远程存储器中,例如,视频存储器或RAM、硬盘。在一种变型中,比特流被传送到存储接口,例如,具有大容量存储、闪存、ROM、光盘或磁性载体的接口,和/或通过通信接口发送,例如,点对点链路、通信总线、点对多点链路或广播网络的接口。
根据解码或解码器或呈现器的示例,从源获得比特流。示例性地,比特流从本地存储器读取,例如,视频存储器、RAM、ROM、闪存或硬盘。在一种变型中,比特流从存储接口接收,例如,具有大容量存储、闪存、ROM、光盘或磁性载体的接口,和/或从通信接口接收,例如,点对点链路、总线、点对多点链路或广播网络的接口。
根据示例,设备14被配置为实施关于图17和/或图18描述的方法,并且属于包括以下各项的集合:
-移动设备;
-通信设备;
-游戏设备;
-平板电脑(平板计算机);
-笔记本电脑;
-照相机;
-摄像相机;
-编码芯片;
-服务器(例如,广播服务器、视频点播服务器或网络服务器)。
根据图15所示的示例,(装置14的类型的)两个远程设备151和152之间通过通信网络NET 150的传输上下文中,设备151包括被配置为实施如关于图11、图12、图13和/或图17所述的用于对数据进行编码的方法的装置,并且设备152包括被配置为实施如关于图11、图12、图13和/或图18所述的解码方法的装置。
根据示例,网络150是LAN或WLAN,其适配于从设备151向包括设备152的解码/呈现设备广播静止图片或视频图片以及相关联的音频信息。
根据另一示例,该网络是适配于从设备151向包括设备152的解码设备广播编码的(多个)点云的广播网络。
打算由设备151发送的信号携带比特流16。
图16示出了当数据通过基于分组的传输协议被发送时,这种信号的语法的实施例的示例。图16示出了体积式内容流的示例结构16。该结构包括以独立的语法元素来组织流的容器。
该结构可以包括报头部分161,该报头部分161是流的每个语法元素共有的数据集合。例如,报头部分包括关于语法元素的元数据,描述了每个语法元素的性质和作用。
该结构可以包括有效载荷,该有效载荷包括语法元素162至166。第一语法元素162例如关于定义2D参数化的参数。第二语法元素163例如关于表示(多个)深度图的数据。第三语法元素164例如关于表示(多个)纹理图的数据。第四语法元素165例如关于与量化参数或量化步长相关的信息。第五语法元素166例如关于与2D参数化和相应的深度图和纹理图之间的映射相关的信息。
为了说明起见,在ISOBMFF文件格式标准的上下文中,纹理图、深度图和元数据通常在“moov”类型的框中的ISOBMFF轨中引用,纹理图和深度图数据本身嵌入在“mdat”类型的媒体数据框中。
图17示出了根据本原理的非限制性实施例的用于对表示场景的3D表示(例如3D场景10)的数据进行编码的方法。该方法可以例如在编码器111、121、131和/或设备14中实施。设备14的不同参数可以被更新。3D表示可以例如从源获得,可以在3D场景的空间中确定一个或多个视点,可以初始化与(多个)投影映射相关联的参数。
在第一操作171中,生成一个或多个深度图,每个深度图与场景的3D表示的一部分相关联。每个深度图都是从每个都与3D表示的一部分相关联的2D参数化的(多个)参数以及从与包括在与2D参数化相关联的3D表示的部分中的点相关联的几何信息生成的。每个深度图可以例如对应于第一补片图谱的补片,并且与3D表示的一部分的一个2D参数化相关联。与3D表示的一部分相关联的2D参数化是从与所述部分中包括的点相关联的几何数据获得的3D隐式表面的2D像素/样点表示,2D参数化在场景空间中的位置以及与2D参数化相关联的视点是根据与从其看到3D表示的视点范围相关联的姿态信息。2D参数化以这样的方式被定位在由3D表示所表示的场景表面和视点范围之间,即,通过2D参数化获得的2D表面面对与其相关联的部分。针对3D表示的每个部分或仅针对3D表示的部分的每个部分生成一个或多个2D参数化。根据一种变型,针对整个3D表示生成单个2D参数化。当数据与深度图的像素相关联时,该数据对应于距离或深度信息。
在第二操作172中,生成一个或多个纹理图,每个纹理图与场景的3D表示的一部分相关联。纹理图是从每个都与3D表示的一部分相关联的2D参数化的参数以及从与包括在与2D参数化相关联的3D表示的部分中的点相关联的纹理/颜色信息生成的。每个纹理图可以例如对应于第二补片图谱的补片,并且与3D表示的一部分的一个2D参数化相关联。与纹理图的像素相关联的数据可以对应于颜色(例如,红色、绿色、蓝色或青色、品红色、黄色、黑色)信息。
在第三操作173中,获得表示量化步长变化的第一信息,该第一信息被用于对深度图和/或纹理图进行编码,例如,从存储设备中取得或者如关于图11、图12和/或图13所解释的来确定该第一信息。量化步长可以根据3D表示的对应部分中包括的(多个)感兴趣区域在深度图和/或纹理图内变化。
在第四操作中,将至少一个深度图编码到比特流的第一语法元素中;至少一个纹理图被编码到比特流的第二语法元素中;至少一个参数被编码到第三语法元素中;第一信息被编码到第四语法元素中;并且表示(多个)2D参数化和(多个)对应的深度图和纹理图之间的映射的第二信息被编码到比特流的第五语法元素中。
图18示出了根据本原理的非限制性实施例的用于对表示场景(例如,3D场景10)的3D表示的数据进行解码的方法。该方法可以例如在解码器112、122、132和/或设备14中实施。
在第一操作181中,从接收到的比特流中解码表示3D表示的至少一部分的至少一个二维参数化的至少一个参数。
在第二操作182中,从比特流中解码表示与3D表示的至少一部分相关联的至少一个纹理图的数据。
在第三操作183中,从比特流中解码表示与3D表示的至少一部分相关联的至少一个深度图的数据。
在第四操作174中,根据至少一个参数、表示(多个)纹理图的数据、表示(多个)深度图的数据、从比特流获得的且表示(多个)深度和/或纹理图内量化步长变化的第一信息、以及从比特流获得的且表示(多个)2D参数化和对应的深度图和纹理图之间的映射的第二信息,确定与所述3D表示的至少一部分中包括的至少一个点相关联的数据。
自然地,本公开不限于先前描述的实施例。
具体地,本公开不限于用于对表示3D场景的数据进行编码/解码的方法和设备,而是还扩展到用于生成包括编码的数据的比特流的方法,并且扩展到实施该方法的任何设备,特别是包括至少一个CPU和/或至少一个GPU的任何设备。
本公开还涉及一种用于显示从比特流的解码的数据呈现的图像的方法(和配置用于该方法的设备)。
本公开还涉及用于发送和/或接收比特流的方法(和配置用于该方法的设备)。
本文描述的实施方式可以以例如方法或过程、装置、计算机程序产品、数据流或信号来实施。即使仅在单一形式的实施方式的上下文中讨论(例如,仅作为方法或设备讨论),所讨论的特征的实施方式也可以以其他形式(例如,程序)来实施。装置可以用例如适当的硬件、软件和固件来实施。这些方法可以例如在诸如处理器的装置中实施,其通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如,智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及便于终端用户之间的信息通信的其他设备。
本文描述的各种过程和特征的实施方式可以体现在各种不同的设备或应用中,特别是,例如,与数据编码、数据解码、视图生成、纹理处理以及图像和相关纹理信息和/或深度信息的其他处理相关联的设备或应用。这种设备的示例包括编码器、解码器、处理从解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、网络服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应该清楚的是,该设备可以是移动的,甚至可以安装在移动车辆中。
另外,该方法可以通过由处理器执行的指令来实施,并且这种指令(和/或由实施方式产生的数据值)可以被存储在处理器可读介质上,诸如例如,集成电路、软件载体或其他存储设备,诸如例如,硬盘、致密盘(“CD”)、光盘(诸如例如,通常被称为数字多功能盘或数字视频盘的DVD)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。这些指令可以形成有形地体现在处理器可读介质上的应用程序。指令可以是以例如硬件、固件、软件或其组合。指令可以在例如操作系统、单独的应用或两者的组合中找到。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(例如,存储设备)的设备。此外,除了指令之外或代替指令,处理器可读介质可以存储由实施方式产生的数据值。
对于本领域技术人员来说显而易见的是,实施方式可以产生各种格式化以承载例如可以被存储或发送的信息的信号。该信息可以包括例如用于执行方法的指令,或者由所描述的实施方式之一产生的数据。例如,信号可以被格式化以作为数据携带用于写入或读取所描述的实施例的语法的规则,或者作为数据携带由所描述的实施例写入的实际语法值。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可以包括例如对数据流进行编码和用编码的数据流调制载波。信号携带的信息可以是例如模拟或数字信息。如已知的,信号可以通过各种不同的有线或无线链路被发送。信号可以被存储在处理器可读介质上。
已经描述了许多实施方式。然而,应当理解,可以进行各种修改。例如,不同实施方式的元素可以被组合、补充、修改或移除以产生其他实施方式。另外,本领域普通技术人员将理解,可以用其他结构和过程来替代所公开的那些结构和过程,并且所得到的实施方式将以至少基本上相同的方式执行至少基本上相同的(多个)功能,以实现与所公开的实施方式至少基本上相同的(多个)结果。因此,本申请考虑了这些和其他实施方式。

Claims (15)

1.一种将表示场景的3D表示的数据编码到比特流中的方法,所述3D表示依据视点范围,所述方法包括:
-根据表示与所述3D表示的至少一部分相关联的二维参数化的至少一个参数以及根据与所述至少一部分中包括的至少一个点相关联的数据,确定与所述至少一部分相关联的深度图,所述至少二维参数化响应于与所述至少一个点相关联的几何信息以及响应于与所述视点范围相关联的姿态信息;
-根据所述至少一个参数和与所述至少一部分中包括的所述至少一个点相关联的数据,确定与所述至少一部分相关联的纹理图;
-根据所述3D表示的感兴趣区域,获得表示所述深度图和/或所述纹理图内量化参数的变化的第一信息;
-将所述深度图、所述纹理图、所述至少一个参数、所述第一信息以及表示所述二维参数化与对应的深度图和纹理图之间的映射的第二信息编码进所述比特流。
2.一种被配置为将表示场景的3D表示的数据编码进比特流的设备,所述3D表示依据视点范围,所述设备包括与至少一个处理器相关联的存储器,所述至少一个处理器被配置为:
-根据表示与所述3D表示的至少一部分相关联的二维参数化的至少一个参数以及根据与所述至少一部分中包括的至少一个点相关联的数据,确定与所述至少一部分相关联的深度图,所述至少二维参数化响应于与所述至少一个点相关联的几何信息以及响应于与所述视点范围相关联的姿态信息;
-根据所述至少一个参数和与所述至少一部分中包括的所述至少一个点相关联的数据,确定与所述至少一部分相关联的纹理图;
-根据所述3D表示的感兴趣区域,获得表示所述深度图和/或所述纹理图内量化参数的变化的第一信息;
-将所述深度图、所述纹理图、所述至少一个参数、所述第一信息以及表示所述二维参数化与对应的深度图和纹理图之间的映射的第二信息编码进所述比特流。
3.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,根据所述第一信息对所述深度图和/或所述纹理图进行编码。
4.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,所述第一信息对应于与至少一个所述感兴趣区域相关联的预测误差。
5.根据权利要求1和3之一所述的方法或根据权利要求2至3之一所述的设备,其中,所述第一信息对应于表示所述2D参数化的采样的信息,第一采样水平被应用于与至少一个所述感兴趣区域相关联的所述2D参数化的至少一个区域,并且第二采样水平被应用于所述2D参数化的其他区域。
6.一种携带表示场景的3D表示的数据的流,所述3D表示依据视点范围,其中,所述数据包括:
-表示所述3D表示的至少一部分的二维参数化的至少一个参数,所述至少一个参数是根据与所述至少一部分的至少一个点相关联的几何信息以及根据与所述视点范围相关联的姿态信息而获得的;
-表示与所述至少一部分相关联的且从所述至少一个参数和与所述至少一部分中包括的至少一个点相关联的数据中确定的纹理图的数据;
-表示与所述3D表示的所述至少一部分相关联的且从所述至少一个参数和与所述至少一部分中包括的所述至少一个点相关联的数据中确定的深度图的数据;
-表示根据所述3D表示的感兴趣区域的在所述深度图和/或所述纹理图内量化参数的变化的第一信息;以及
-表示所述二维参数化与对应的深度图和纹理图之间的映射的第二信息。
7.根据权利要求6所述的流,其中,根据所述第一信息对表示所述深度图和/或所述纹理图的数据进行编码。
8.根据权利要求6所述的流,其中,所述第一信息对应于与所述感兴趣区域相关联的预测误差。
9.根据权利要求6或7所述的流,其中,所述第一信息对应于表示所述2D参数化的采样的信息,第一采样水平被应用于与所述感兴趣区域相关联的所述2D参数化的至少一个区域,并且第二采样水平被应用于所述2D参数化的其他区域。
10.一种从比特流中解码表示场景的3D表示的数据的方法,所述3D表示依据视点范围,所述方法包括:
-从所述比特流中解码表示所述3D表示的至少一部分的二维参数化的至少一个参数;
-从所述比特流中解码表示与所述3D表示的所述至少一部分相关联的纹理图的数据;
-从所述比特流中解码表示与所述3D表示的所述至少一部分相关联的深度图的数据;
-从所述至少一个参数、所述表示纹理图的数据、所述表示深度图的数据、从所述比特流获得的且表示所述深度图和/或所述纹理图内量化参数的变化的第一信息、以及从所述比特流获得的且表示所述二维参数化与对应的深度图和纹理图之间的映射的第二信息中,确定与所述3D表示的所述至少一部分中包括的至少一个点相关联的数据。
11.一种被配置为从比特流中解码表示场景的3D表示的数据的设备,所述3D表示依据视点范围,所述设备包括与至少一个处理器相关联的存储器,所述至少一个处理器被配置为:
-从所述比特流中解码表示所述3D表示的至少一部分的二维参数化的至少一个参数;
-从所述比特流中解码表示与所述3D表示的所述至少一部分相关联的纹理图的数据;
-从所述比特流中解码表示与所述3D表示的所述至少一部分相关联的深度图的数据;
-从所述至少一个参数、所述表示纹理图的数据、所述表示深度图的数据、从所述比特流获得的且表示所述深度图和/或所述纹理图内量化参数的变化的第一信息、以及从所述比特流获得的且表示所述二维参数化与对应的深度图和纹理图之间的映射的第二信息中,确定与所述3D表示的所述至少一部分中包括的至少一个点相关联的数据。
12.根据权利要求10所述的方法或根据权利要求11所述的设备,其中,根据所述第一信息对所述深度图和/或所述纹理图进行解码。
13.根据权利要求10所述的方法或根据权利要求11所述的设备,其中,所述第一信息对应于与至少一个所述感兴趣区域相关联的预测误差。
14.根据权利要求10和12之一所述的方法或根据权利要求11至12之一所述的设备,其中,所述第一信息对应于表示所述2D参数化的采样的信息,第一采样水平被应用于与所述感兴趣区域相关联的所述2D参数化的至少一个区域,并且第二采样水平被应用于所述2D参数化的其他区域。
15.一种具有存储在其中的指令的非暂时性处理器可读介质,所述指令用于使处理器至少执行根据权利要求1所述的方法的步骤和/或至少执行根据权利要求10所述的方法的步骤。
CN201880085164.5A 2017-11-07 2018-10-23 用于编码/解码体积式视频的方法、设备和流 Pending CN111557094A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17306538.4 2017-11-07
EP17306538.4A EP3481067A1 (en) 2017-11-07 2017-11-07 Method, apparatus and stream for encoding/decoding volumetric video
PCT/US2018/057035 WO2019094184A1 (en) 2017-11-07 2018-10-23 Method, apparatus and stream for encoding/decoding volumetric video

Publications (1)

Publication Number Publication Date
CN111557094A true CN111557094A (zh) 2020-08-18

Family

ID=60409248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880085164.5A Pending CN111557094A (zh) 2017-11-07 2018-10-23 用于编码/解码体积式视频的方法、设备和流

Country Status (6)

Country Link
US (1) US20210176496A1 (zh)
EP (2) EP3481067A1 (zh)
JP (1) JP2021502033A (zh)
CN (1) CN111557094A (zh)
MX (1) MX2020004720A (zh)
WO (1) WO2019094184A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11956478B2 (en) * 2019-01-09 2024-04-09 Tencent America LLC Method and apparatus for point cloud chunking for improved patch packing and coding efficiency
JPWO2020230710A1 (zh) * 2019-05-10 2020-11-19
US11432009B2 (en) * 2019-07-02 2022-08-30 Intel Corporation Techniques for encoding and decoding immersive video
JP7354417B2 (ja) * 2019-08-16 2023-10-02 グーグル エルエルシー ビデオ通話用の顔ベースのフレームパッキング
CN114762356A (zh) * 2019-12-13 2022-07-15 索尼集团公司 图像处理装置和方法
US20230179797A1 (en) * 2020-03-25 2023-06-08 Sony Group Corporation Image processing apparatus and method
CN115336269A (zh) * 2020-04-13 2022-11-11 英特尔公司 基于纹理的沉浸式视频编码
US11838485B2 (en) * 2020-04-16 2023-12-05 Electronics And Telecommunications Research Institute Method for processing immersive video and method for producing immersive video
US20230196700A1 (en) * 2020-05-26 2023-06-22 Sony Group Corporation Image processing apparatus and image processing method
US11924428B2 (en) 2020-06-24 2024-03-05 Qualcomm Incorporated Scale factor for quantization parameter values in geometry-based point cloud compression
WO2022073796A1 (en) * 2020-10-08 2022-04-14 Interdigital Ce Patent Holdings, Sas A method and apparatus for adapting a volumetric video to client devices
WO2022259632A1 (ja) * 2021-06-10 2022-12-15 ソニーグループ株式会社 情報処理装置及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103181171A (zh) * 2010-11-04 2013-06-26 皇家飞利浦电子股份有限公司 深度指示图的产生
WO2014103966A1 (ja) * 2012-12-27 2014-07-03 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103181171A (zh) * 2010-11-04 2013-06-26 皇家飞利浦电子股份有限公司 深度指示图的产生
WO2014103966A1 (ja) * 2012-12-27 2014-07-03 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム、および画像復号プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KHARTIK AINALA ET, AL: "An improved enhancement layer for octree based point cloud compression with plane projection approximation", SPIE OPTICAL ENGINEERING + APPLICATIONS, 2016, SAN DIEGO, CALIFORNIA, UNITED STATES, pages 1 - 2 *

Also Published As

Publication number Publication date
MX2020004720A (es) 2020-08-13
EP3707901A1 (en) 2020-09-16
JP2021502033A (ja) 2021-01-21
US20210176496A1 (en) 2021-06-10
EP3481067A1 (en) 2019-05-08
WO2019094184A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
KR102468178B1 (ko) 몰입형 비디오 포맷을 위한 방법, 장치 및 스트림
KR102594003B1 (ko) 볼류메트릭 비디오를 인코딩/디코딩하기 위한 방법, 장치 및 스트림
CN111557094A (zh) 用于编码/解码体积式视频的方法、设备和流
EP3249922A1 (en) Method, apparatus and stream for immersive video format
CN112189345B (zh) 用于编码或解码表示3d场景的数据的方法、设备或介质
US20190251735A1 (en) Method, apparatus and stream for immersive video format
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
CN112425177A (zh) 用于体积视频传输的方法和装置
WO2019191202A1 (en) Method, apparatus and stream for volumetric video format
RU2807582C2 (ru) Способ, устройство и поток для формата объемного видео

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination