CN114731424A - 用于对体积视频进行编码、传输和解码的方法和装置 - Google Patents

用于对体积视频进行编码、传输和解码的方法和装置 Download PDF

Info

Publication number
CN114731424A
CN114731424A CN202080073164.0A CN202080073164A CN114731424A CN 114731424 A CN114731424 A CN 114731424A CN 202080073164 A CN202080073164 A CN 202080073164A CN 114731424 A CN114731424 A CN 114731424A
Authority
CN
China
Prior art keywords
view
fidelity
depth
parameter
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080073164.0A
Other languages
English (en)
Inventor
J·弗勒罗
B·楚波
T·塔皮
G·布赖恩德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
Interactive Digital Vc Holdings France Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Digital Vc Holdings France Ltd filed Critical Interactive Digital Vc Holdings France Ltd
Publication of CN114731424A publication Critical patent/CN114731424A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了用于对多视图帧进行编码、解码和传输的方法、设备和流。在多视图帧中,一些视图比其他视图更可信。将多视图帧编码在与元数据相关联的数据流中,针对视图中的至少一个视图,该元数据包括指示由该视图携带的信息的置信度的参数。该信息在解码侧处使用,以在针对3D空间中的给定视点合成视口帧的像素时确定视图的贡献。

Description

用于对体积视频进行编码、传输和解码的方法和装置
1.技术领域
本发明原理总体涉及三维(3D)场景和体积视频内容的域。还在编码、格式化和解码表示3D场景的纹理和几何结构的数据的上下文中理解本文档,以在诸如移动设备或头戴式显示器(HMD)的最终用户设备上渲染体积内容。在其他主题中,本发明原理涉及修剪多视图图像的像素以保证最佳比特流和渲染质量。
2.背景技术
本部分旨在向读者介绍本领域的各个方面,这些方面可能与下文描述和/或要求保护的本发明原理的各个方面有关。据信该讨论有助于为读者提供背景信息,以促进更好地理解本发明原理的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
最近,可用的大视场内容(高达360°)有所增长。观看沉浸式显示设备(诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话等)上的内容的用户可能无法完全看到此类内容。这意味着在给定的时刻,用户只能观看一部分内容。然而,用户通常可通过例如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。通常希望对该内容进行编码和解码。
沉浸式视频(也称为360°平面视频)允许用户通过围绕静止视点旋转其头部来观看自己周围的一切。旋转仅允许3个自由度(3DoF)的体验。即使3DoF视频足以满足第一次全向视频体验(例如,使用头戴式显示器(HMD设备))的要求,但3DoF视频对于期望更多自由(例如,通过体验视差)的观看者可能很快变得令人沮丧。此外,3DoF还可能导致眩晕,因为用户永远不会只旋转其头部,而是还向三个方向平移头部,这些平移不会在3DoF视频体验中再现。
其中,大视场内容可以是三维计算机图形图像场景(3D CGI场景)、点云或沉浸式视频。许多术语可用于设计此类沉浸式视频:例如,虚拟现实(VR)、360、全景、4π球面度、沉浸式、全向或大视场。
体积视频(也称为6个自由度(6DoF)视频)是3DoF视频的替代方案。在观看6DoF视频时,除了旋转之外,用户还可以在观看的内容中平移其头部,甚至其身体,并且体验视差甚至体积。这种视频显著增加了沉浸感和对场景深度的感知,并通过在头部平移期间提供一致的视觉反馈来防止眩晕。内容是通过专用传感器创建的,允许同时记录感兴趣场景的颜色和深度。即使仍然存在技术困难,使用结合摄影测量技术的彩色相机装备也是执行这种记录的一种方式。
虽然3DoF视频包括由纹理图像的解映射产生的图像序列(例如,根据纬度/经度投影映射或等角投影映射编码的球面图像),但6DoF视频帧嵌入了来自多个视点的信息。它们可被视为由三维捕获产生的点云的时间序列。根据观看条件可以考虑两种体积视频。第一种(即完整的6DoF)允许在视频内容内完全自由导航,而第二种(又名3DoF+)将用户观看空间限制到称为观看边界框的有限体积,从而允许有限的头部平移和视差体验。该第二种情况是在自由导航和就座观众的被动观看条件之间的有价值的折衷。
3DoF+内容可以被设置作为一组多视图+深度(MVD)帧。此类内容可以已经由专用相机捕获,或者可以借助于专用(可能真实)渲染从现有计算机图形(CG)内容生成。体积信息作为存储在对应的颜色和深度图集中的颜色和深度补丁的组合被输送,这些图集利用常规编解码器(例如HEVC)视频编码。颜色和深度补丁的每个组合表示MVD输入视图的子部分,并且在编码阶段设计所有补丁的集合以覆盖整体。
由MVD帧的不同视图携带的信息是可变的。缺乏获取由MVD的视图携带的信息的置信度以用于合成视口帧的方法。
3.发明内容
以下呈现本发明原理的简化概述,以便提供对本发明原理的一些方面的基本理解。本发明内容不是本发明原理的广泛概述。不旨在识别本发明原理的关键或重要元素。以下发明内容仅以简化形式呈现本发明原理的一些方面,作为下面提供的更详细描述的前言。
本发明原理涉及一种用于对多视图帧进行编码的方法。所述方法包括:
-针对所述多视图帧的视图,获得表示由所述视图携带的深度信息的保真度的参数;以及
-将所述多视图帧编码在与包括所述参数的元数据相关联的数据流中。
在特定实施方案中,根据已经捕获视图的相机的内在参数和外在参数确定表示视图的深度信息的保真度的参数。在另一个实施方案中,元数据包括指示是否为多视图帧的每个视图提供参数的信息,并且如果是,则针对每个视图,参数与视图相关联。在本发明原理的第一实施方案中,表示视图的深度信息的保真度的参数是指示深度保真度是完全可信的还是部分可信的布尔值。在本发明原理的第二实施方案中,表示视图的深度信息的保真度的参数是指示视图的深度保真度的置信度的数值。
本发明原理也涉及一种包括被配置为实现该方法的处理器的设备。
本发明原理也涉及一种用于从数据流解码多视图帧的方法。所述方法包括:
-从数据流解码所述多视图帧和相关联的元数据;
-从元数据获得信息,所述信息指示是否提供表示由所述多视图帧的视图携带的深度信息的保真度的参数,并且如果是,则针对每个视图获得参数;以及
-通过根据与视图相关联的参数确定所述多视图帧的每个视图的贡献,来根据观看姿态生成视口帧。
在一个实施方案中,其中表示视图的深度信息的保真度的参数是指示深度保真度是完全可信的还是部分可信的布尔值。在该实施方案的变体中,部分可信的视图的贡献被忽略。在另外的变体中,只要多个视图是完全可信的,就使用具有最低深度信息的完全可信的视图。在另一个实施方案中,表示视图的深度信息的保真度的参数是指示视图的深度保真度的置信度的数值。在该实施方案的变体中,在视图合成期间每个视图的贡献与参数的数值成比例。
本发明原理也涉及一种包括被配置为实现该方法的处理器的设备。
本发明原理也涉及一种数据流,该数据流包括:
-表示多视图帧的数据;和
-与所述数据相关联的元数据,针对多视图帧的每个视图,所述元数据包括表示由所述视图携带的深度信息的保真度的参数。
4.附图说明
将更好地理解本公开,并且在阅读以下描述、参考附图的描述之后,将出现其他特定特征和优点,其中:
-图1示出了根据本发明原理的非限制性实施方案的对象的三维(3D)模型和对应于该3D模型的点云的点;
-图2示出了根据本发明原理的非限制性实施方案的对表示3D场景序列的数据进行编码、传输和解码的非限制性示例;
-图3示出了根据本发明原理的非限制性实施方案的可以被配置为实现关于图7和图8描述的方法的设备的示例架构;
-图4示出了根据本发明原理的非限制性实施方案的当通过基于分组的传输协议传输数据时流的语法的实施方案的示例;
-图5示出了根据本发明原理的非限制性实施方案的当从非修剪MVD帧生成给定视口的图像时由视图合成器使用的过程;
-图6示出了根据本发明原理的非限制性实施方案的用于一组相机非均匀采样3D空间的视图合成;
-图7示出了根据本发明原理的非限制性实施方案的用于将多视图帧编码在数据流中的方法70;
-图8示出了根据本发明原理的非限制性实施方案的用于从数据流解码多视图帧的方法。
5.具体实施方式
下文将参考附图更全面地描述本发明原理,在该附图中示出了本发明原理的示例。然而,本发明原理可以许多替代形式体现,并且不应被解释为限制于本文阐述的示例。因此,虽然本发明原理易受各种修改和替代形式的影响,但是其具体示例通过附图中的示例示出,并且本文将详细描述。然而,应当理解,不存在将本发明原理限制为所公开的特定形式的意图,但是相反,本公开用于涵盖落入由权利要求书限定的本发明原理的实质和范围内的所有修改、等同物和替代方案。
本文使用的术语仅出于描述特定示例的目的,并且不旨在限制本发明原理。如本文所用,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确说明。将会进一步理解,当用于本说明书时,术语“包括”和/或“包含”指定存在所述特征、整数、步骤、操作、元件和/或分量,但不排除一个或多个其他特征、整数、步骤、操作、元件、分量和/或其组的存在或添加。此外,当元件被称为“响应”或“连接”到另一元件时,它可以直接响应或连接到另一元件,或者可以存在中间元件。相反,当元件被称为“直接响应”或“直接连接”到其他元件时,不存在中间元件。如本文所用,术语“和/或”包括列出的相关联项中的一者或多者的任何和所有组合,并且可以缩写为“/”。
应当理解,尽管在本文中可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如,在不脱离本发明原理的教导内容的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。
尽管一些图示包括通信路径上的箭头以显示主通信方向,但是应理解,通信可以在与所描绘箭头相反的方向上发生。
关于其中每个框表示电路元件、模块或代码部分的框图和操作流程图描述了一些示例,该代码部分包括用于实现指定逻辑功能的一个或多个可执行指令。还应当指出的是,在其他具体实施中,框中标注的功能可能不按标注的顺序出现。例如,连续显示的两个框实际上可基本上同时执行,或者这些框有时可根据所涉及的功能以相反的顺序执行。
本文中的“根据一个示例”或“在一个示例中”的参考意味着结合示例描述的特定特征、结构或特性可以包括在本发明原理的至少一个具体实施中。说明书中各个地方的“根据一个示例”或“在一个示例中”的短语的出现不一定全部参考同一示例,也不一定是与其他示例相互排斥的单独的或替代的示例。
在权利要求书中出现的附图标号仅通过说明的方式,并且对权利要求书的范围没有限制作用。虽然未明确描述,但本示例和变体可以任何组合或子组合采用。
图1示出了对象的三维(3D)模型10和对应于3D模型10的点云11的点。3D模型10和点云11可例如对应于包括其他对象的3D场景的对象的可能3D表示。模型10可以是3D网格表示,并且点云11的点可以是网格的顶点。点云11的点也可以是分布在网格面的表面上的点。模型10也可表示为点云11的喷溅版本,模型10的表面是通过喷溅点云11的点而创建的。模型10可由诸如体素或样条的许多不同表示来表示。图1示出了可用3D对象的表面表示来定义点云以及可从云点生成3D对象的表面表示的事实。如本文所用,将3D对象的点(引申为3D场景的点)投影到图像上等效于投影该3D对象的任何表示,例如点云、网格、样条模型或体素模型。
点云可在存储器中表示为例如基于矢量的结构,其中每个点在视点的参照系中都有自己的坐标(例如三维坐标XYZ,或立体角和从/到视点的距离(也称为深度))和一个或多个属性,也称为分量。分量的一个示例是可在各种色彩空间中表示的颜色分量,例如RGB(红、绿和蓝)或YUV(Y是亮度分量并且UV是两个色度分量)。点云是包括对象的3D场景的表示。可从给定视点或视点范围看到3D场景。点云可通过多种方式获得,例如:
·从由相机装备拍摄的真实对象的捕获,任选地辅以深度主动感测设备;
·从由建模工具中的虚拟相机装备拍摄的虚拟/合成对象的捕获;
·从真实对象和虚拟对象两者的混合。
3D场景(特别是当制作用于3DoF+渲染时)可以由多视图+深度(MVD)帧表示。然后,体积视频是MVD帧序列。在这种方法中,体积信息作为存储在对应颜色和深度图集中的颜色和深度补丁的组合被传输,然后利用常规编解码器(通常为HEVC)将其视频编码。颜色和深度补丁的每个组合通常表示MVD输入视图的子部分,并且在编码阶段设计所有补丁的集合以覆盖整个场景,同时存在尽可能少的冗余。在解码阶段,图集首先视频解码,并且补丁在视图合成过程中渲染以恢复与期望观看位置相关联的视口。
图2示出了对表示3D场景序列的数据进行编码、传输和解码的非限制性示例。编码格式可例如同时兼容3DoF、3DoF+和6DoF解码。
获得3D场景20序列。如同画面序列是2D视频,3D场景序列是3D(也称为体积)视频。可将3D场景序列提供给体积视频渲染设备以进行3DoF、3Dof+或6DoF渲染和显示。
可将3D场景20序列提供给编码器21。编码器21将一个3D场景或3D场景序列作为输入,并提供表示该输入的比特流。比特流可存储在存储器22中和/或电子数据介质上,并且可通过网络22传输。表示3D场景序列的比特流可由解码器23从存储器22读取和/或从网络22接收。解码器23由比特流输入并提供例如点云格式的3D场景序列。
编码器21可包括实现若干步骤的若干电路。在第一步骤中,编码器21将每个3D场景投影到至少一个2D画面上。3D投影是将三维点映射到二维平面的任何方法。由于用于显示图形数据的大多数当前方法都基于平面(来自几个位平面的像素信息)二维介质,因此这种类型的投影的用途是广泛的,在计算机图形、工程和制图方面尤为如此。投影电路211为3D场景20序列提供至少一个二维帧2111。帧2111包括表示投影到帧2111上的3D场景的颜色信息和深度信息。在变体中,颜色信息和深度信息被编码在两个单独的帧2111和2112中。
元数据212由投影电路211使用和更新。元数据212包括关于投影操作的信息(例如投影参数)以及关于颜色和深度信息在帧2111和2112内的组织方式的信息,如结合图5至图7所述。
视频编码电路213将帧2111和2112序列编码为视频。3D场景的画面2111和2112(或3D场景的画面序列)由视频编码器213编码在流中。然后,视频数据和元数据212由数据封装电路214封装在数据流中。
编码器213例如与诸如以下的编码器兼容:
-JPEG,规范ISO/CEI 10918-1 UIT-T Recommendation T.81,https://www.itu.int/rec/T-REC-T.81/en;
-AVC,也称为MPEG-4 AVC或h264。在UIT-T H.264和ISO/CEI MPEG-4第10部分(ISO/CEI 14496-10)两者中规定,http://www.itu.int/rec/T-REC-H.264/en,HEVC(其规范见于ITU网站,T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en);
-3D-HEVC(HEVC的扩展,其规范见于ITU网站,T recommendation,H series,h265,http://www.itu.int/rec/T-REC-H.265-201612-I/en annex G and I);
-Google开发的VP9;
-由Alliance for Open Media开发的AV1(AOMedia Video 1);或者
-未来标准,如多功能视频编码器或MPEG-I或MPEG-V未来版本。
数据流被存储在可由解码器23例如通过网络22访问的存储器中。解码器23包括实现不同的解码步骤的不同电路。解码器23将由编码器21生成的数据流作为输入,并提供待由如头戴式设备(HMD)的体积视频显示设备渲染和显示的3D场景24序列。解码器23从源22获得流。例如,源22属于一组,该组包括:
-存储器,例如视频存储器或RAM(或随机存取存储器)、闪存、ROM(或只读存储器)、硬盘;
-接口,例如具有大容量存储器、RAM、闪存、ROM、光盘或磁性载体的接口;
-通信接口,例如有线接口(例如总线接口、广域网接口、局域网接口)或无线接口(诸如IEEE 802.11接口或
Figure BDA0003603075980000081
接口);以及
-使得用户能够输入数据的用户界面,诸如图形用户界面。
解码器23包括用于提取在数据流中编码的数据的电路234。电路234将数据流作为输入,并提供对应于在流中编码的元数据212的元数据232和二维视频。视频由提供帧序列的视频解码器233解码。解码帧包括颜色和深度信息。在变体中,视频解码器233提供两个帧序列,一个包含颜色信息,另一个包含深度信息。电路231使用元数据232去投影来自解码帧的颜色和深度信息,以提供3D场景24序列。3D场景24序列对应于3D场景20序列,可能损失与作为2D视频的编码和视频压缩相关的精度。
图3示出了可以被配置为实现关于图7和图8描述的方法的设备30的示例架构。图2的编码器21和/或解码器23可实现该架构。或者,编码器21和/或解码器23中的每个电路可以是根据图3的架构的设备,其例如经由其总线31和/或经由I/O接口36链接在一起。
设备30包括通过数据和地址总线31连接在一起的以下元件:
-微处理器32(或CPU),该微处理器是例如DSP(或数字信号处理器);
-ROM(或只读存储器)33;
-RAM(或随机存取存储器)34;
-存储接口35;
-I/O接口36,该I/O接口用于从应用程序接收要传输的数据;以及
-电源,例如电池。
根据一个示例,电源在设备外部。在每个提到的存储器中,说明书中使用的词语“寄存器”可以对应于小容量的区域(一些位)或非常大的区域(例如,整个程序或大量接收或解码的数据)。ROM 33至少包括程序和参数。ROM 33可以根据本发明原理存储用于执行技术的算法和指令。当接通时,CPU 32上载RAM中的程序并执行对应指令。
RAM 34包括寄存器中的由CPU 32执行并在设备30的接通之后上载的程序、寄存器中的输入数据、寄存器中的方法的不同状态中的中间数据以及用于在寄存器中执行方法的其他变量。
本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如,例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
根据示例,设备30被配置为实现关于图7和图8描述的方法,并且属于包括以下项的集合:
-移动设备;
-通信设备;
-游戏设备;
-平板电脑(或平板计算机);
-膝上型电脑;
-静态图片相机;
-摄像机;
-编码芯片;
-服务器(例如广播服务器、视频点播服务器或web服务器)。
图4示出了当通过基于分组的传输协议传输数据时流的语法的实施方案的示例。图4示出了体积视频流的示例性结构4。该结构包含在以语法的独立元素组织流的容器中。该结构可包括标头部分41,它是流的每个语法元素所共有的一组数据。例如,标头部分包括关于语法元素的一些元数据,描述它们中每一个的性质和角色。标头部分还可包括图2的元数据212的一部分,例如用于将3D场景的点投影到帧2111和2112上的中心视点的坐标。该结构包括有效载荷,该有效载荷包括语法元素42和至少一个语法元素43。语法元素42包括表示颜色和深度帧的数据。图像可能已根据视频压缩方法进行了压缩。
语法元素43是数据流的有效载荷的一部分,并且可包括关于如何对语法元素42的帧进行编码的元数据,例如用于将3D场景的点投影和打包到帧上的参数。此类元数据可与视频的每个帧或帧组(在视频压缩标准中也称为画面组(GoP))相关联。
3DoF+内容可以被设置作为一组多视图+深度(MVD)帧。此类内容可以已经由专用相机捕获,或者可以借助于专用(可能真实)渲染从现有计算机图形(CG)内容生成。
图5示出了当从MVD帧生成给定视口的图像时由图2的视图合成器231使用的过程。当尝试合成针对视口50的要合成的像素51时,合成器(例如图2的电路231)去投影通过该给定像素的光线(例如,光线52和53)并检查每个源相机54至57沿着该光线的贡献。如图5所示,当场景中的一些对象创建从一个相机到另一个相机的阻塞时,或者当由于相机设置而无法确保可见性时,可以找不到所有源相机54至57之间的关于要合成的像素的特性的共识。在图5的示例中,随着它们全部沿着要合成的光线“看到”该对象,第一组3个相机54至56“投票”以使用前景对象58的颜色来合成像素51。第二组一个单相机57无法看到该对象,因为它在其视口之外。因此,相机57为背景对象59“投票”以用于合成像素51。消除此类情况的策略是根据它们到要合成的视口的距离以一权重将每个相机贡献共混和/或合并。在图5的示例中,第一组相机54至56随着这些相机更多并且随着它们更靠近要合成的视口,带来最大贡献。最终,可以预知,将利用前景对象68的特性来合成像素51。
图6示出了用于一组相机非均匀采样3D空间的视图合成。根据源相机装备的配置,尤其是当不对要获取的体积场景进行最佳采样时,这种加权策略可能由于它在图6中能够观察到而失败。在这种情况下,清楚地,将装备不良采样以捕获对象,因为大部分输入相机无法看到该对象,并且简单的加权策略不会给出预期结果。在图6的示例中,前景对象68仅由相机64捕获。当尝试合成针对视口60的要合成的像素61时,合成器去投影通过该给定像素的光线(例如,光线62和63)并检查每个源相机64、66和67沿着该光线的贡献。在图6的示例中,相机64投票以使用前景对象68的颜色来合成像素61,同时相机66和67的组为背景对象69投票以用于合成像素61。在结束中,背景对象69的颜色的贡献大于前景对象68的颜色的贡献,从而导致视觉伪影。
即使可以认为通过调整相机的空间配置来在捕获阶段克服要获取的场景的不良采样,其中不能预期场景的几何结构的情况可能例如以实时流媒体发生。此外,就具有复杂运动和大量可能的阻塞的自然场景而言,几乎不可能找到完美的装备设置。
然而,在一些特定情况中,尤其是当使用相机的虚拟装备来捕获计算机生成的(CG)3D场景时,可以设想与如虚拟相机是“完美的”并且它们可以是完全可信的先前呈现的加权策略不同的其他加权策略。实际上,在真实(非CG)上下文中,必须估计用作体积场景输入的MVD,因为没有直接捕获深度信息并且必须通过例如摄影测量方法进行预先计算。后一个步骤是许多伪影的来源(尤其是远距离相机的几何信息之间的非一致性),然后该来源必须/要求通过类似于图5中所述的加权/投票策略来减轻。相反,在计算机生成的场景中,要获取的场景完全建模,并且此类伪影无法发生,因为模型以完美方式直接给出深度信息。当合成器预先知道应该完全信任由源给出的信息(视图+深度)时,然后它可以显著加快其过程并防止如图6中所描述的加权问题。
根据本发明原理,提出了克服这些缺点的规范方法。信息是传输到解码器的插入元数据,以向合成器指示用于合成的相机是可信的并且应当设想替代的加权。将由多视图帧的每个视图携带的信息的置信度编码在与多视图帧相关联的元数据中。该置信度与获取的深度信息的保真度相关。如上面详细所述,针对由虚拟相机捕获的视图,深度信息的保真度是最大的,并且针对由真实相机捕获的视图,深度信息的保真度取决于真实相机的内在参数和外在参数。
此类特征的实施方案可以通过将相机参数列表中的标记插入元数据中来完成,如表1中所述。该标记可以是根据相机启用视图合成器的特殊配置文件的布尔值,其中能够认为给定相机是完美的,并且其信息应当被认为是完全可信的,如前所述。
设置通用标记“source_confidence_params_equal_flag”。该标记表示启用(如果真)或禁用(如果假)特征,并且ii)在启用后一个标记的情况下,布尔值的阵列“source_confidence”插入元数据中,其中针对每个相机,每个分量指示是否必须被认为是完全可靠的(如果真)或是不完全可靠的(如果假)。
Figure BDA0003603075980000121
表1
在渲染阶段,如果相机被识别为完全可信的(source_confidence的相关联分量设置为真),则其几何信息(深度值)覆写由其他“非可信”(即常规)相机携带的所有几何信息。在这种情况下,加权方案可以有利地由标识为可靠的相机的几何(例如深度)信息的简单选择来代替。换句话说,在图5和图6中提出的加权/投票方案中,如果在使其source_confidence特性为真的相机与使其source_confidence特性为假的另一个相机之间无法找到应当保持(前景或背景)用于合成给定像素的点的位置的共识,则使其source_confidence启用的相机是优选的。
当多个相机使这种特性启用(source_confidence的相关联分量设置为真)时,针对要合成的给定像素,选择深度信息最小的相机,因为它可以在规则光栅化引擎的深度缓冲器中执行。此类选择是通过以下事实来促动的:如果针对要合成的给定像素,给定可靠相机已经比其他相机更靠近得看到对象,则必然地,它创建针对其他相机的阻塞,这些相机因此携带被阻塞的另一对象的信息。在图6中,此类策略实质上将是选择由相机64携带的信息作为用于像素61的合成的信息。
在另一个实施方案中,非二进制值用于源置信度,诸如在0与1之间的归一化浮点,指示应当考虑相机在渲染方案中如何“可信”。
在真实世界环境中,相机通常不会被认为是完全可信的且完美的。想到术语“完全可信的”且“完美的”通常是指深度信息。在CG环境中,深度信息是已知的,因为其根据模型生成。因此,对于相对于所有虚拟相机的所有对象来说,深度是已知的。此类虚拟相机被建模为在CG环境内部生成的虚拟装备的一部分。因此,虚拟相机是完全可信的且完美的。
在图6的示例中,如果相机是真实世界系统的一部分,并且估计深度,则相机不会预期是完全可信的且完美的。因此,如果大多数加权方案用于视口相机60的像素61,则所产生的答案将是像素61的背景颜色。类似地,如果相机是虚拟装备的一部分并且是完全可信的且完美的,但仍使用大多数加权方案,然后将针对像素61选择背景颜色。然而,如果相机是虚拟装备的一部分,并且使用其完全可信的状态,使得选择完全可信的相机的最低深度,则针对像素61选择前景颜色(来自相机64)。
CG电影可以受益于所描述的实施方案。例如,CG电影(例如,Lion King)可以使用具有提供多个视图的多个虚拟相机的虚拟装备进行补拍。所得输出将允许用户在电影中具有沉浸式体验,从而选择观看位置。渲染不同的观看位置通常是时间密集型的。然而,假设虚拟相机是完全可信的且完美的(相对于深度),可以例如通过允许最低深度相机为给定像素提供颜色或者替代地更近深度值的颜色的平均值来减少渲染时间。这消除了执行加权操作通常所需的处理。
信任概念可以扩展到真实世界相机。然而,基于估计的深度对单个真实世界相机的依赖带来将针对任何给定像素选择错误颜色的风险。然而,如果某个深度信息对于给定相机更可靠,则可以利用该信息来减少渲染时间,但是通过依赖于“最佳”相机并因此避免可能的伪影来改善最终质量。
互补地,除了完美的几何信息之外,还可以使用“完全可信的”相机来携带装备的不同相机中颜色信息的可靠性。众所周知,根据颜色信息校准不同的相机并不总是易于实现。因此,“完全可信的”相机概念也可以用于将相机识别为颜色参考以在颜色加权渲染阶段获得更多信任。
图7示出了根据本发明原理的非限制性实施方案的用于将多视图(MV)帧编码在数据流中的方法70。在步骤71处,从源获得多视图帧。在步骤72处,获得表示由多视图帧的给定视图携带的信息的置信度的参数。在一个实施方案中,针对MV帧的每个视图获得参数。该参数可以是指示视图的信息是完全可信的还是“非完全”可信的布尔值。在变体中,参数是一定程度范围中的置信度,例如介于-100与100之间或介于0与255之间的整数,或者是实数,例如介于-1.0与1.0之间或介于0.0与1.0之间。在步骤73处,将MV帧编码在与元数据相关联的数据流中。元数据包括将视图(例如索引)与其参数相关联的数据对。
图8示出了根据本发明原理的非限制性实施方案的用于从数据流解码多视图帧的方法80。在步骤81处,从流解码多视图帧。也从流解码与该MV帧相关联的元数据。在步骤82处,从元数据获得数据对,这些数据将MV帧的视图与表示由该视图携带的信息的置信度的参数相关联。在步骤73处,针对观看姿态(即,渲染器的3D空间中的位置和定向)生成视口帧。针对视口帧的像素,根据与每个视图相关联的置信度确定每个视图(在本申请中也称为“相机”)的贡献的权重。
本文所述的具体实施可在例如方法或过程、装置、计算机程序产品、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法或设备讨论),讨论的特征的具体实施也可以其他形式(例如,程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如,例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如,智能电话、平板电脑、计算机、移动电话、便携式/个人数字助理(“PDA”)以及有利于最终用户之间信息的通信的其他设备。
本文描述的各种过程和特征的具体实施可以体现于各种不同的设备或应用程序中,特别是例如与数据编码、数据解码、视图生成、纹理处理和图像以及相关纹理信息和/或深度信息的其他处理相关联的设备或应用程序。此类设备的示例包括编码器、解码器、处理来自解码器的输出的后处理器、向编码器提供输入的预处理器、视频编码器、视频解码器、视频编解码器、web服务器、机顶盒、膝上型电脑、个人计算机、蜂窝电话、PDA和其他通信设备。应当清楚的是,设备可以是移动的,甚至安装在移动车辆中。
另外,方法可以由处理器执行的指令来实现,并且此类指令(和/或由具体实施产生的数据值)可以存储在处理器可读介质上,诸如例如集成电路、软件载体或其他存储设备,诸如例如硬盘、紧凑型磁盘(“CD”)、光盘(诸如例如,DVD,通常称为数字通用光盘或数字视频光盘)、随机存取存储器(“RAM”)或只读存储器(“ROM”)。指令可以形成在处理器可读介质上有形地体现的应用程序。指令可以是例如硬件、固件、软件或组合。指令可以在例如操作系统、单独应用程序或两者的组合中发现。因此,处理器可以被表征为例如被配置为执行过程的设备和包括具有用于执行过程的指令的处理器可读介质(诸如存储设备)的设备。此外,除了或代替指令,处理器可读介质可以存储由具体实施产生的数据值。
对于本领域的技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,信号可以被格式化为作为数据携带用于写入或阅读所描述的实施方案的语法的规则,或作为数据携带由所描述的实施方案写入的实际语法值的数据。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
已描述了多个具体实施。但应理解的是,可以作出许多修改。例如,可以组合、补充、修改或移除不同具体实施的元件以产生其他具体实施。另外,普通技术人员将理解,其他结构和过程可以被替换为所公开的那些,并且所得具体实施将以至少基本上相同的方式执行至少基本上相同的功能,以实现与所公开的具体实施至少基本相同的结果。因此,本申请考虑了这些和其他具体实施。

Claims (26)

1.一种用于对多视图帧进行编码的方法,所述方法包括:
-针对所述多视图帧的视图,获得表示由所述视图携带的深度信息的保真度的参数;以及
-将所述多视图帧编码在与包括所述参数的元数据相关联的数据流中。
2.根据权利要求1所述的方法,其中根据已经捕获视图的相机的内在参数和外在参数确定表示所述视图的深度信息的保真度的所述参数。
3.根据权利要求1或2所述的方法,其中所述元数据包括指示是否为所述多视图帧的每个视图提供参数的信息,并且如果是,则针对每个视图,所述参数与所述视图相关联。
4.根据权利要求1至3中的一项所述的方法,其中表示视图的深度信息的保真度的参数是指示所述深度保真度是完全可信的还是部分可信的布尔值。
5.根据权利要求1至3中的一项所述的方法,其中表示视图的深度信息的保真度的参数是指示所述视图的所述深度保真度的置信度的数值。
6.一种用于对多视图帧进行编码的设备,所述设备包括处理器,所述处理器被配置为:
-针对所述多视图帧的视图,获得表示由所述视图携带的深度信息的保真度的参数;以及
-将所述多视图帧编码在与包括所述参数的元数据相关联的数据流中。
7.根据权利要求6所述的设备,其中所述处理器被配置为根据已经捕获视图的相机的内在参数和外在参数确定表示所述视图的深度信息的保真度的所述参数。
8.根据权利要求6或7所述的设备,其中所述处理器被配置为编码元数据,所述元数据包括指示是否为所述多视图帧的每个视图提供参数的信息,并且如果是,则针对每个视图,所述参数与所述视图相关联。
9.根据权利要求6至8中的一项所述的设备,其中表示视图的深度信息的保真度的参数是指示所述深度保真度是完全可信的还是部分可信的布尔值。
10.根据权利要求6至8中的一项所述的设备,其中表示视图的深度信息的保真度的参数是指示所述视图的所述深度保真度的置信度的数值。
11.一种用于从数据流解码多视图帧的方法,所述方法包括:
-从所述数据流解码所述多视图帧和相关联的元数据;
-从所述元数据获得信息,所述信息指示是否提供表示由所述多视图帧的视图携带的深度信息的保真度的参数,并且如果是,则针对每个视图获得参数;以及
-通过根据与所述视图相关联的所述参数确定所述多视图帧的每个视图的贡献,来根据观看姿态生成视口帧。
12.根据权利要求11所述的方法,其中表示视图的深度信息的保真度的参数是指示所述深度保真度是完全可信的还是部分可信的布尔值。
13.根据权利要求12所述的方法,其中部分可信的视图的所述贡献被忽略。
14.根据权利要求12或13所述的方法,其中,只要多个视图是完全可信的,就使用具有最低深度信息的所述完全可信的视图。
15.根据权利要求11所述的方法,其中表示视图的深度信息的保真度的参数是指示所述视图的所述深度保真度的置信度的数值。
16.根据权利要求15所述的方法,其中每个视图的所述贡献与和所述视图相关联的所述数值成比例。
17.一种用于从数据流解码多视图帧的设备,所述设备包括处理器,所述处理器被配置为:
-从所述数据流解码所述多视图帧和相关联的元数据;
-从所述元数据获得信息,所述信息指示是否提供表示由所述多视图帧的视图携带的深度信息的保真度的参数,并且如果是,则针对每个视图获得参数;以及
-通过根据与所述视图相关联的所述参数确定所述多视图帧的每个视图的贡献,来根据观看姿态生成视口帧。
18.根据权利要求17所述的设备,其中表示视图的深度信息的保真度的参数是指示所述深度保真度是完全可信的还是部分可信的布尔值。
19.根据权利要求18所述的设备,其中部分可信的视图的所述贡献被忽略。
20.根据权利要求18或19所述的设备,其中,只要多个视图是完全可信的,就使用具有最低深度信息的所述完全可信的视图。
21.根据权利要求17所述的设备,其中表示视图的深度信息的保真度的参数是指示所述视图的所述深度保真度的置信度的数值。
22.根据权利要求21所述的设备,其中每个视图的所述贡献与和所述视图相关联的所述数值成比例。
23.一种数据流,包括:
-表示多视图帧的数据;和
-与所述数据相关联的元数据,针对所述多视图帧的每个视图,所述元数据包括表示由所述视图携带的深度信息的保真度的参数。
24.根据权利要求23所述的数据流,其中所述元数据包括指示是否为所述多视图帧的每个视图提供参数的信息,并且如果是,则针对每个视图,所述参数与所述视图相关联。
25.根据权利要求23或24所述的数据流,其中表示视图的深度信息的保真度的参数是指示所述深度保真度是完全可信的还是部分可信的布尔值。
26.根据权利要求23或24所述的数据流,其中表示视图的深度信息的保真度的参数是指示所述视图的所述深度保真度的置信度的数值。
CN202080073164.0A 2019-10-02 2020-10-01 用于对体积视频进行编码、传输和解码的方法和装置 Pending CN114731424A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306269.2 2019-10-02
EP19306269 2019-10-02
PCT/EP2020/077588 WO2021064138A1 (en) 2019-10-02 2020-10-01 A method and apparatus for encoding, transmitting and decoding volumetric video

Publications (1)

Publication Number Publication Date
CN114731424A true CN114731424A (zh) 2022-07-08

Family

ID=68296416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080073164.0A Pending CN114731424A (zh) 2019-10-02 2020-10-01 用于对体积视频进行编码、传输和解码的方法和装置

Country Status (7)

Country Link
US (1) US20220345681A1 (zh)
EP (1) EP4038884A1 (zh)
JP (1) JP2022551064A (zh)
KR (1) KR20220069040A (zh)
CN (1) CN114731424A (zh)
IL (1) IL291491A (zh)
WO (1) WO2021064138A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013025149A1 (en) * 2011-08-15 2013-02-21 Telefonaktiebolaget L M Ericsson (Publ) Encoder, method in an encoder, decoder and method in a decoder for providing information concerning a spatial validity range
KR20130074383A (ko) * 2011-12-26 2013-07-04 삼성전자주식회사 다중-레이어 표현을 사용하는 영상 처리 방법 및 장치
US11288864B2 (en) * 2018-03-08 2022-03-29 Simile Inc. Methods and systems for producing content in multiple reality environments

Also Published As

Publication number Publication date
WO2021064138A1 (en) 2021-04-08
IL291491A (en) 2022-05-01
KR20220069040A (ko) 2022-05-26
EP4038884A1 (en) 2022-08-10
JP2022551064A (ja) 2022-12-07
US20220345681A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
US11979546B2 (en) Method and apparatus for encoding and rendering a 3D scene with inpainting patches
US11968349B2 (en) Method and apparatus for encoding and decoding of multiple-viewpoint 3DoF+ content
US20230042874A1 (en) Volumetric video with auxiliary patches
EP3949420A1 (en) A method and apparatus for encoding and decoding volumetric video
US20220377302A1 (en) A method and apparatus for coding and decoding volumetric video with view-driven specularity
US20220368879A1 (en) A method and apparatus for encoding, transmitting and decoding volumetric video
WO2020185529A1 (en) A method and apparatus for encoding and decoding volumetric video
WO2020190898A1 (en) A method and apparatus for depth encoding and decoding
US20220345681A1 (en) Method and apparatus for encoding, transmitting and decoding volumetric video
US20230032599A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements
US20230239451A1 (en) A method and apparatus for encoding and decoding volumetric content in and from a data stream
EP4162689A1 (en) A method and apparatus for encoding and decoding volumetric video
CN114503554A (zh) 用于传送体积视频内容的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231108

Address after: Paris France

Applicant after: Interactive digital CE patent holding Co.

Address before: French Sesong Sevigne

Applicant before: Interactive digital VC holdings France Ltd.

TA01 Transfer of patent application right