CN115769582A - 利用去遮挡图集支持多视图视频操作 - Google Patents

利用去遮挡图集支持多视图视频操作 Download PDF

Info

Publication number
CN115769582A
CN115769582A CN202180042986.7A CN202180042986A CN115769582A CN 115769582 A CN115769582 A CN 115769582A CN 202180042986 A CN202180042986 A CN 202180042986A CN 115769582 A CN115769582 A CN 115769582A
Authority
CN
China
Prior art keywords
image
occlusion
atlas
view
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180042986.7A
Other languages
English (en)
Inventor
G·J·沃德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN115769582A publication Critical patent/CN115769582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/388Volumetric displays, i.e. systems where the image is built up from picture elements distributed through a volume
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

按大小对遮挡图像片段排序。最大的图像片段用于确定用于存储图像片段的去遮挡图集的布局掩模中的四叉树节点的大小。使用该布局掩模将这些经排序图像片段存储到该去遮挡图集中,比如每个图像片段被承载在该去遮挡图集中的最佳拟合四叉树节点上。视频信号可以通过对一个或多个参考图像以及存储这些图像片段的去遮挡图集进行编码来生成。这些图像片段可以由接收方设备使用,以在从这些参考图像合成的显示图像中的去遮挡空间区域中填充去遮挡图像数据。

Description

利用去遮挡图集支持多视图视频操作
相关申请的交叉引用
本申请要求均于2020年6月16日提交的美国临时申请号63/039,595和欧洲专利申请号20180179.2的优先权,这两个申请中的每一个通过援引以其全文并入本文。
技术领域
本发明总体上涉及图像编码和渲染,并且具体地涉及使用去遮挡图集来支持多视图视频操作。
背景技术
视图合成用于如三维(3D)电视、360度视频、体积视频、虚拟现实(VR)、增强现实(AR)等应用中。虚拟视图是从现有视图及其相关联的深度信息合成的。现有视图可以被扭曲或映射到所描绘的3D世界,然后反投影到目标视图位置。
因此,现有视图中被前景对象遮挡的背景区域可能在来自目标视图位置的目标视图中被去遮挡(没有来自现有视图的任何可用图像数据),从而在目标视图中形成间隙或空洞。另外,(多个)深度图像中的不连续性也可能导致合成视图中的间隙或空洞。随着要在视频信号中编码或传输的视图总数在真实视频显示应用中被减少或最小化,从已减少或最小化数量的视图生成的合成视图中的空洞的区域变得相对较大并且众多,从而产生容易被注意到的视觉伪影。
在本节中描述的方法是可以采用的方法,但不一定是先前已经设想到或采用过的方法。因此,除非另有指示,否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。类似地,除非另有指示,否则关于一种或多种方法所认定的问题不应该基于本节而认为在任何现有技术中已被认定。
附图说明
在附图中以示例而非限制的方式来图示本发明,并且其中相似的附图标记指代类似的要素,并且在附图中:
图1A和图1B图示了示例体积视频流;
图2A和图2B图示了示例纹理和深度图像;
图2C图示了用于识别在参考视图中被遮挡并且在相邻视图中变得至少部分地去遮挡的空间区域的示例图像掩模;
图3A图示了示例去遮挡图集;图3B图示了示例连续去遮挡图集序列;图3C图示了利用公共组级布局掩模生成的示例连续去遮挡图集组;
图4A至图4C图示了示例处理流程;以及
图5图示了可以在其上实施如本文描述的计算机或计算设备的示例硬件平台。
具体实施方式
本文描述了涉及使用去遮挡图集来支持多视图视频操作的示例实施例。在以下说明中,出于解释的目的,阐述了许多具体细节以便提供对本发明的透彻理解。然而,明显的是,可以在没有这些具体细节的情况下实践本发明。在其他情形中,为了避免不必要地遮蔽、模糊或混淆本发明,没有详尽地描述众所周知的结构和设备。
本文根据以下概要描述了示例实施例:
1.总体概述
2.体积视频
3.示例视频流服务器和客户端
4.去遮挡数据中的图像片段
5.用于去遮挡数据的图像掩模
6.去遮挡图集生成
7.时间上稳定的组级布局掩模
8.示例处理流程
9.实施机制——硬件概述
10.等效物、扩展、替代品和其他
1.总体概述
此概述介绍了对本发明的示例实施例的一些方面的基本描述。应当注意的是,此概述不是对示例实施例的各方面的广泛或详尽总结。此外,应当注意的是,此概述不旨在被理解为识别示例实施例的任何特别重要的方面或要素,也不旨在被理解为特别地描绘示例实施例的任何范围,也不是概括地描绘本发明。此概述仅以压缩和简化的格式介绍与示例实施例相关的一些概念,并且应被理解为仅仅是以下示例实施例的更详细说明的概念性前奏。注意,尽管本文讨论了单独的实施例,但是本文讨论的实施例和/或部分实施例的任何组合都可以组合以形成进一步实施例。
发送体积视频的常见方法是伴随从有限的一组视图位置(也称为“记录视图”、“参考视图”或“所表示视图”)捕获或渲染的具有深度的宽视野(通常是360度)图像。每个像素处的深度值允许这些像素被重投影(且z缓冲)到假定视图中,该假定视图通常位于记录视图位置(或参考视图)之间。单一重投影视图图像(如从记录视图位置处的记录图像合成的扭曲图像)将具有与从记录图像中表示的原始视角看不到的去遮挡区域相对应的空洞和间隙。通过添加更多的周围源视角或更多的记录视图位置,更少空洞可能留在重投影视图图像中,但以大量冗余数据(例如,在所添加的多个记录视图中的每一个中可见的像素等)为代价。
通过比较,本文描述的技术可以用于在图集表示中发送相对少量的去遮挡数据。去遮挡数据仅包括从单一(最近)参考视图位置不可见的那些片段的纹理和深度信息,从而避免附加的记录视图中的冗余并且显著减少视频流和解码中的数据量。这些技术可以用于布局组合(例如矩形、正方形等)图像中的图像片段,从而在组合图像中留下尽可能少的空白空间。
进一步地,由不同的连续图集布局中的帧到帧时间变化引起的视频压缩效率问题可以通过如本文描述的用于增强运动预测(例如,帧间预测等)的技术有效地解决。例如,可以在时间上稳定化图集“I帧”(可以在不进行运动预测的情况下被编码或解码的帧)之间的连续去遮挡图集的布局,以实现相对高效的压缩比率。
在一些操作场景中,与多视图视频的一个或多个所表示视图相对应(或包括来自该一个或多个所表示视图的图像数据)的一个或多个视频流可以与一个或多个所表示视图的去遮挡数据一起或分开地发送到接收方视频解码器。去遮挡数据包括可以在视频流中的所表示视图中被隐藏或遮挡的图像细节的纹理和/或深度图像数据。由去遮挡数据描绘的被遮挡图像细节中的一些可以在与视频流中的所表示视图中的一个或多个相邻的观察者的当前视图(也称为“虚拟视图”或“目标视图”)中变得可见。
如所述的,去遮挡数据可以被封装或编码在去遮挡图集中。去遮挡图集可以由视频编码器使用以支持将如一个或多个深度处的可见图像细节和其他深度处的被遮挡图像细节的多深度信息(针对可能多个所表示视图)编码为包括所表示视图的视频流的体积视频信号。去遮挡图集可以由视频信号的接收方视频解码器使用以渲染视图相关效果,比如特定于与所表示视图中的一个或多个相邻的观察者的当前视图的图像细节。
体积视频信号可以包括作为图像元数据的一部分的去遮挡图集,以辅助接收方视频解码器使用视频流中的所表示视图的图像数据来渲染特定于观察者的当前视图的图像。可以基于视频编码标准或专有规范利用编码语法来编码视频流和图像元数据,这些编码标准或专有规范包括但不限于移动图片专家组(MPEG)视频标准、H.264/高级视频编码(H.264/AVC)、高效视频编码(HEVC)、MPEG-I、杜比ViX文件格式等。另外地,可选地或替代性地,去遮挡图集可以编码在伴随包括所表示视图的图像数据的视频流的子流中并且从该子流解码。
接收方视频解码器可以解码包装在由体积视频信号载送的图像元数据(或子流)中的去遮挡图集中的去遮挡数据,以及可以解码编码在体积视频信号中的视频流中的所表示视图的图像数据。去遮挡数据和图像数据可以由视频解码器使用以在为与所表示视图中的一个或多个相邻的观察者的当前视图生成或构建图像时填充空洞或间隙。观察者的当前视图可能不与视频流中的所表示视图中的任何所表示视图重合,可以通过图像扭曲操作从所表示视图的接收到的图像获得观察者的当前视图(或视图位置)的图像。于2017年6月12日提交的美国临时专利申请号62/518,187中描述了示例图像扭曲和/或合成操作,该美国临时专利申请的全部内容如在本文中充分阐述的那样通过援引并入本文。
为了填充扭曲图像中的空洞或间隙,可以例如通过高效查找操作或按索引搜索操作来访问和取得去遮挡图集中的去遮挡数据中的一些或全部,以提供在所表示视图中被遮挡但在观察者的当前视图中去遮挡的图像细节。因此,根据观察者的当前视图,观察者可以看到在体积视频信号的视频流中编码的所表示视图的图像中未提供的视图特定的图像细节。
本文描述的示例实施例涉及流体积视频。在从一个或多个参考视图描绘视觉场景的一个或多个参考图像中被遮挡并且在与一个或多个参考视图相邻的非参考视图中至少部分地去遮挡的图像片段按大小排序。图像片段包括第一图像片段,该第一图像片段按大小不小于图像片段中的任何其他图像片段。为用于存储图像片段的去遮挡图集生成布局掩模。布局掩模被覆盖有四叉树,该四叉树包括具体地大小为用于第一图像片段的第一最佳拟合节点。经排序图像片段按降序被存储到在布局掩模中识别出的最佳拟合节点中。经排序图像片段中的每个图像片段被存储在最佳拟合节点中的相应最佳拟合节点中。最佳拟合节点包括通过迭代地划分覆盖布局掩模的四叉树中的至少一个节点获得的至少一个最佳拟合节点。生成利用一个或多个参考图像编码的体积视频信号。该体积视频信号利用去遮挡图集中的图像片段而被进一步编码。一个或多个参考图像由体积视频信号的接收方设备使用以合成非表示视图中用于在图像显示器上渲染的显示图像。去遮挡图集中的图像片段供接收方设备使用,以在显示图像中的去遮挡空间区域中填充去遮挡图像数据。
本文描述的示例实施例涉及渲染体积视频。从体积视频信号解码一个或多个参考图像。从体积视频信号解码去遮挡图集中的图像片段。基于一个或多个参考图像合成非表示视图中的显示图像。使用去遮挡图集中的图像片段来在显示图像中的去遮挡空间区域中填充去遮挡图像数据。在图像显示器上渲染显示图像。
在一些示例实施例中,比如本文描述的机制形成媒体处理系统的一部分,这些机制包括但不限于以下各项中的任何一项:基于云的服务器、移动设备、虚拟现实系统、增强现实系统、抬头显示设备、头盔式显示设备、CAVE式系统、墙壁大小的显示器、视频游戏设备、显示设备、媒体播放器、媒体服务器、媒体制作系统、相机系统、基于家庭的系统、通信设备、视频处理系统、视频编解码器系统、制作室系统、流媒体服务器、基于云的内容服务系统、手持式设备、游戏机、电视机、影院显示器、膝上型计算机、笔记本计算机、平板计算机、蜂窝无线电话、电子书阅读器、销售点终端、台式计算机、计算机工作站、计算机服务器、计算机亭、或各种其他类型的终端和媒体处理单元。
对优选实施例和通用原理以及本文描述的特征作出的各种修改对本领域的技术人员而言将是显而易见的。因此,本公开不旨在受限于所示实施例,而旨在符合与本文描述的原理和特征一致的最大范围。
2.体积视频
如本文描述的技术可以用于响应于观察者的身体或头部的运动(最高达全部六个自由度)而向观察者提供具有全视差的视图特定视频。如本文使用的,术语“视图特定”视频(图像)可以意指至少部分基于观察者的位置和/或取向(或响应于确定观察者的位置和/或取向)而生成和/或渲染的位置特定和/或取向特定视频(图像)。
为了实现这一点,可以使用空间中不同点的集或子集处的视频(与横跨观察者在其中自由移动的观察体积的不同位置和/或不同取向的集或子集相对应)来生成向观察者渲染的视图特定图像。空间中的这些不同点处的视频可以包括纹理视频以及深度视频,并且形成体积视频的参考视图(或参考视点)。
可以使用基于图像的渲染技术从体积视频中所表示的这些参考视图合成虚拟视图,虚拟视图比如针对观察者的给定位置和/或取向的观察者的当前视图(该当前视图可能不与这些参考视图中的任何参考视图重合)。
如本文使用的,纹理视频是指多个时间点上包括空间像素分布的纹理图像序列,每个像素被指定具有如RGB像素值、YCbCr像素值、明度和/或色度像素值等单独颜色或明亮度信息。与纹理视频相对应的深度视频是指多个时间点上包括空间像素分布的深度图像序列,每个像素被指定具有对应纹理图像的对应像素的空间深度信息,比如z轴值、深度值、空间差异值、视差信息等。
包括体积视频中的一个或多个视频流中所表示的一个或多个参考视图的去遮挡数据的去遮挡图集可以用于支持对视图相关效果的多深度信息进行编码。例如,如高光散斑等图像细节可以出现在一些但不是全部视图中,并且当可见时可以以不同方式出现在不同视图中(例如,不同参考视图、不同虚拟视图(如不同时间点处的观察者的当前视图)等)。在参考视图中被隐藏或遮挡的视图相关图像细节的多深度信息可以被包括在去遮挡数据中,并且作为图像元数据的一部分被传递到接收方视频解码器,使得视图相关图像细节(或效果)可以响应于观察者的位置或取向的检测到的变化而被正确地渲染或呈现给观察者。
另外地,可选地或替代性地,图像元数据可以包括如本文描述的对去遮挡图集中的片段、部分、补丁等的描述。图像元数据可以作为体积视频的一部分从上游设备传递到接收方设备,并且用于帮助接收方设备渲染从视频流和去遮挡图集解码的图像数据。
3.示例视频流服务器和客户端
图1A图示了如视频流服务器100等示例上游设备,该视频流服务器包括多视图流接收器132、视点处理器134、流合成器136等。视频流服务器(100)的部件中的一些或全部可以由一个或多个设备、模块、单元等以软件、硬件、软件与硬件的组合等方式实施。
多视图流接收器(132)包括被配置成直接或间接从外部视频源接收多个参考视图的参考纹理和/或深度视频(106)的软件、硬件、软件与硬件的组合等。
视点处理器(134)包括被配置成进行以下操作的软件、硬件、软件与硬件的组合等:从由观察者实时或近实时地操作的视频客户端设备接收观察者的视点数据;确立/确定观察者在AR、VR或体积视频应用的时间间隔/持续时间内的多个时间点的位置或取向。在视频应用中,从参考纹理和/或深度视频(106)得到的显示图像要在观察者的视口中的多个时间点处被渲染,该视口比如与同视频客户端设备结合操作的图像显示器一起被提供;等等。观察者的视口是指图像显示器上的窗口或可见区的大小。
流合成器(136)包括被配置成进行以下操作的软件、硬件、软件与硬件的组合等:至少部分地基于作为来自接收方设备的输入的一部分而接收的指示观察者的位置或取向的视点数据114等来从参考纹理和/或深度视频(106)生成(例如,实时等)体积视频信号112(包括但不限于表示一个或多个参考视图的一个或多个视频流以及包含与所表示视图相邻的视图的去遮挡图集的去遮挡图集)。
视频流服务器(100)可以用于支持AR应用、VR应用、360度视频应用、体积视频应用、实时视频应用、近实时视频应用、非实时全向视频应用、汽车娱乐、头盔式显示应用、抬头显示应用、游戏、2D显示应用、3D显示应用、多视图显示应用等。
图1B图示了如视频客户端设备150等示例接收方设备,该视频客户端设备包括实时流接收器142、视点跟踪器144、体积视频渲染器146、图像显示器148等。视频客户端设备(150)的部件中的一些或全部可以由一个或多个设备、模块、单元等以软件、硬件、软件与硬件的组合等方式实施。
视图点跟踪器(144)包括被配置成进行以下操作的软件、硬件、软件与硬件的组合等:与一个或多个观察者位置/取向跟踪传感器(例如,运动传感器、位置传感器、眼部跟踪器等)一起操作以收集与观察者有关的实时或近实时视点数据114;将视点数据(114)或从视图点数据确定的观察者的位置/取向发送到视频流服务器(100);等等。可以以相对精细的时间尺度(例如,每毫秒、每五毫秒等)对视点数据(114)进行采样或测量。视点数据可以用于按给定时间分辨率(例如,每毫秒、每五毫秒等)确立/确定观察者的位置或取向。
实时流接收器(142)包括被配置成接收和解码(例如,实时的等)体积视频信号(112)的软件、硬件、软件与硬件的组合等。
体积视频渲染器(146)包括被配置成进行以下操作的软件、硬件、软件与硬件的组合等:对从体积视频(112)解码的图像数据执行图像扭曲、图像扭曲、混合(例如,混合来自多个相机源的多个扭曲图像等)、图像合成、空洞填充等以生成与观察者的预测或测量位置或取向相对应的视图特定图像;将视图特定图像输出到图像显示器(148)以用于渲染;等等。
如本文使用的,如本文描述的视频流中的视频内容可以包括但不一定限于以下各项中的任何一项:视听节目、电影、视频节目、电视广播、计算机游戏、增强现实(AR)内容、虚拟现实(VR)内容、汽车娱乐内容等。示例视频解码器可以包括但不必限于以下各项中的任何一项:显示设备、具有近眼显示器的计算设备、头戴式显示器(HMD)、移动设备、可穿戴显示设备、具有如电视等显示器的机顶盒、视频监视器等。
如本文使用的,“视频流服务器”可以是指准备视频内容且将该视频内容流式传输到一个或多个视频流客户端(如视频解码器)以便在一个或多个显示器上渲染视频内容的至少一部分的一个或多个上游设备。视频内容被渲染在其上的显示器可以是一个或多个视频流客户端的一部分,或者可以与一个或多个视频流客户端结合操作。
示例视频流服务器可以包括但不必限于以下各项中的任何一项:远离(多个)视频流客户端定位的基于云的视频流服务器、通过本地有线或无线网络与(多个)视频流客户端连接的本地视频流服务器、VR设备、AR设备、汽车娱乐设备、数字媒体设备、数字媒体接收器、机顶盒、游戏机(例如,Xbox)、通用个人计算机、平板计算机、如苹果TV或罗库盒(Rokubox)等专用数字媒体接收器等。
4.去遮挡数据中的图像片段
去遮挡图集中的去遮挡数据可以包括在体积视频信号中的表示(参考)视图中被遮挡的图像片段。如本文描述的图像片段是指具有每像素图像纹理信息(例如,颜色、光亮度/色度值、RGB值、YCbCr值等)和每像素深度信息的相连、非凸形(或被遮挡)像素区域。为去遮挡图集中的图像片段指定的每像素图像纹理和深度信息可以可视地描绘在体积视频信号的所表示视图中被隐藏或遮挡但可能在与所表示视图相邻的视图中变得至少部分地去遮挡或可见的图像特征/对象/结构。
对于自身不包含具有缺失图像纹理和深度信息的空洞的给定参考视图,可以使用基于深度图像的渲染(DIBR)和可用于参考视图的图像纹理/深度信息为所表示视图周围的相邻视图生成合成图像。合成图像可能具有无法从可用于参考视图的图像纹理/深度信息获得其图像纹理信息和深度信息的空洞。利用合成图像,可以生成图像掩模以识别相邻视图的合成图像中的空洞。
在一些操作场景中,可以通过从给定参考视图中在相邻像素之间或之中具有相对平滑的深度转变的其他图像区域中识别出给定参考视图中在相邻像素之间或之中包含大深度间隙的图像区域(或区)来至少部分地为给定参考视图生成图像掩模。
可以从空间上不同的参考视图或从时间上不同的参考视图获得空洞(或像素的非凸形区域)中的图像片段的图像纹理信息和深度信息(如在图像掩模中识别的)。例如,用于与给定参考视图相同的时间点但空间上与给定参考视图不同的空间上不同的参考视图可以包含并且提供相邻视图中的合成图像中的空洞的图像纹理和深度信息。包括给定参考视图的这些空间上不同的参考视图可以共同地形成相同时间点的多视图图像。
另外地,可选地或替代性地,用于与给定参考视图不同的时间点的时间上不同的参考视图可以包含并且提供相邻视图中的合成图像中的空洞的图像纹理和深度信息。包括给定参考视图的这些时间上不同的参考视图可以属于相同视觉场景、相同图片组(GOP)等。
另外地,可选地或替代性地,人工智能(AI)或机器学习(ML)可以由训练图像训练,并且然后应用于生成或预测相邻视图中的合成图像中的空洞的图像纹理和深度信息中的一些或全部。
被包括在给定时间点的去遮挡图集中的图像片段可以分割成不同参考视图的不同图像片段子集。不同子集中的每个图像片段子集可以包括不同参考视图中的相应参考视图中的(被遮挡的)图像片段。
如本文描述的去遮挡图集技术可以用于(例如,自适应地、最优地等)将这些图像片段包装成覆盖最小总面积且不具有重叠片段的组合图像(或“图集”)。表示去遮挡图集的组合图像中的每个片段具有专属区域(或区),而不与被包括在去遮挡图集中的其他片段重叠。
可以从连续多视图图像序列生成体积视频信号。该连续多视图图像序列包括形成连续时间点序列的多个时间点的多个多视图图像。该多个多视图图像中的每个多视图图像包括该多个时间点中的相应时间点的多个参考视图的多个单视图图像。
可以为连续时间点序列生成连续去遮挡图集序列。该连续去遮挡图集序列包括该连续时间点序列中的多个时间点的多个去遮挡图集。该多个去遮挡图集中的每个去遮挡图集在体积视频信号中针对多个时间点中的相应时间点所表示的多个参考视图中包括包含一个或多个参考视图的一个或多个图像片段子集的图像片段。
对于由连续时间点序列覆盖的时间间隔(例如,30分钟、一小时或多个小时等)中的子间隔(例如,几分之一秒、一秒或多秒等),可以利用信号中表示的一个或多个参考视图的一个或多个图片组(GOP)子序列对体积视频信号进行编码。一个或多个GOP子序列中的每个GOP子序列包括体积视频信号中表示的一个或多个参考视图中的相应参考视图的纹理图像子序列和深度图像子序列。
每个GOP子序列包括一个或多个GOP。每个GOP由I帧界定,或以起始I帧开始并且以刚好在下一个起始I帧之前的帧结束。在一些实施例中,起始I帧和下一个起始I帧可以是没有(多个)其他I帧在其之间的两个最近的I帧。在一些实施例中,起始I帧和下一个起始I帧可以是附近的I帧,但不一定是两个最近的I帧。可以不依赖于来自其他帧的图像数据解码GOP中的I帧,然而可以至少部分地从GOP中的其他帧预测GOP中的非I帧(如B帧或P帧)。可以从时间上稳定或时间上类似的源/输入图像生成GOP中的(多个)I帧和/或(多个)非I帧。这些时间上稳定的源/输入图像可以在生成GOP中的(多个)I帧和/或(多个)非I帧时促进相对高效的帧间或帧内预测和数据压缩或编码。
对于由连续时间点序列覆盖的间隔中的相同子间隔,可以利用信号中表示的一个或多个参考视图的一个或多个去遮挡图集组子序列对体积视频信号进行编码。一个或多个去遮挡图集组子序列中的每个去遮挡图集组子序列包括与体积视频信号中表示的一个或多个参考视图中的相应参考视图相邻的视图中的空洞的纹理图像子序列和深度图像子序列。
每个去遮挡图集组子序列包括一个或多个去遮挡图集组。每个去遮挡图集组由图集I帧界定,或以起始图集I帧开始并且以刚好在下一个起始图集I帧之前的图集帧结束。在一些实施例中,起始图集I帧和下一个起始图集I帧可以是没有(多个)其他图集I帧在其之间的两个最近的图集I帧。在一些实施例中,起始图集I帧和下一个起始图集I帧可以是附近的图集I帧,但不一定是两个最近的图集I帧。可以不依赖于来自其他图集帧的去遮挡数据解码去遮挡图集组中的图集I帧,然而可以至少部分地从去遮挡图集组中的其他图集帧预测去遮挡图集组中的图集非I帧(如图集B帧或图集P帧)。可以从时间上稳定或时间上类似的去遮挡图集生成去遮挡图集组中的(多个)图集I帧和/或(多个)图集非I帧。这些时间上稳定的去遮挡图集可以在生成去遮挡图集组中的(多个)图集I帧和/或(多个)图集非I帧时促进相对高效的帧间或帧内预测和数据压缩或编码。5.用于去遮挡数据的图像掩模
图2A图示了参考视图中的示例纹理图像(例如,360度“棒球覆盖”视图等)。纹理图像包括图像帧中的像素阵列的纹理信息,比如颜色、光亮度/色度值、RGB值、YCbCr值等。纹理图像可以与由连续时间点序列覆盖的时间间隔中的时间点相对应或可以由其索引,并且可以编码成参考视图的视频流,例如作为视频流中的图片或图像的文本图像组(GOP)中的纹理图像I帧或纹理图像非I帧。
图2B图示了与图2A的纹理图像相同的参考视图中的示例深度图像(例如,360度“棒球覆盖”视图等)。图2B的深度图像包括图2A的纹理图像中的像素阵列中的一些或全部像素的深度信息,比如深度值、z值、空间差异值、视差值等。深度图像可以与由连续时间点序列覆盖的时间间隔中的相同时间点相对应或可以由其索引,并且可以编码成参考视图的视频流,例如作为视频流中的图片或图像的深度图像组(GOP)中的深度图像I帧或深度图像非I帧。
图2C图示了示例图像掩模,该示例图像掩模可以是具有位阵列的位掩模。图像掩模中的位阵列中的指示符或位可以(例如,1-1等)与图2A的纹理图像和/或图2B的深度图像中表示的像素阵列中的相应像素相对应。图像掩模中的每个指示符或位可以指示或指定在图像扭曲和空洞填充操作中要与图2A的纹理图像和/或图2B的深度图像一起使用的去遮挡图集中是否提供了如去遮挡像素纹理值(例如,颜色、光亮度/色度值、RGB值、YCbCr值等)和/或去遮挡像素深度值(例如,深度值、z值、空间差异值、视差值等)等去遮挡数据部分。
由Wenhui Jia等人于2019年4月1日提交的美国临时专利申请号62/811,956“HOLEFILLING FOR DEPTH IMAGE BASED RENDERING[用于基于深度图像的渲染的空洞填充]”中描述了示例空洞填充操作,该美国临时专利申请的全部内容如本文充分阐述的那样通过援引并入本文。
图像扭曲和空洞填充操作可以用于生成观察者的当前视图的合成图像,该观察者的当前视图可以是与参考视图相邻的视图。如去遮挡图集中提供的去遮挡像素纹理值和/或去遮挡像素深度值描绘了在图2A的纹理图像和/或图2B的深度图像中被遮挡但可能在与参考视图相邻的视图中变得部分地可见的图像细节。去遮挡图集可以与由连续时间点序列覆盖的时间间隔中的相同时间点相对应或可以由其索引,并且可以编码成参考视图的视频流或单独附带视频流,例如作为视频流或单独附带视频流中的去遮挡图集组中的图集I帧或图集非I帧。
如图2C中图示的图像掩模似乎不与图2A的对应纹理图像或图2B的对应深度图像对齐,因为掩模覆盖从与参考视图临近的一个或多个相邻视图不可见的纹理图像和/或深度图像的那些部分。利用图像掩模生成的去遮挡图集的目的是提供纹理和深度图像数据,以填充合成视图(如观察者的当前视图)中的空洞,其中,空洞是由于合成视图(或选择的“参考”视图)的重投影中的去遮挡而产生的。在各种操作场景中,去遮挡图集中的纹理和深度数据可以覆盖多于或少于或相同于合成视图中的空洞的空间区域。
在一些操作场景中,由去遮挡图集覆盖的空间区域可以包括安全裕度,使得去遮挡图集可以确保去遮挡图集中的去遮挡纹理和深度数据可用于完全地填充与参考视图相邻的视图中的空洞。
在一些操作场景中,由去遮挡图集覆盖的空间区域可能不包括安全裕度,使得去遮挡图集可能无法确保去遮挡图集中的去遮挡纹理和深度数据可用于完全地填充与参考视图相邻的视图中的空洞。在这些操作场景中,接收方视频解码器可以应用空洞填充算法以生成与视频流中表示的参考视图相邻或临近的合成视图中的空洞的一部分的纹理和深度信息的至少一部分。
另外地,可选地或替代性地,在去遮挡图集中被覆盖的被遮蔽空间区域可以用于从参考视图中描绘的视觉场景中选择显著视觉对象。例如,去遮挡图集可以不载送或不向接收方视频解码器提供任何纹理或深度信息以覆盖远离显著视觉对象的空间区域。去遮挡图集载送或向接收方视频解码器提供其纹理或深度信息的空间区域可以向接收方视频解码器指示这些空间区域包含显著视觉对象。
6.去遮挡图集生成
图3A图示了示例(输出)去遮挡图集,该示例(输出)去遮挡图集包括(或封装有)表示一个或多个参考视图的被遮挡区域的图像片段。可以生成图像元数据以指示去遮挡图集中的这些图像片段分别与哪些参考视图相对应。
通过示例,从多视图图像序列生成体积视频信号。多视图图像序列中的每个多视图图像可以包括N个参考视图的N个单视图(输入/源)纹理图像的集合和连续时间点序列中的时间点的N个参考视图的N个单视图(输入/源)深度图像的集合。
可以接收视图参数并且这些视图参数用于指定或限定单射函数,该单射函数将图像(像素)坐标(例如,像素位置、像素行和列等)和深度映射到如世界(3-D)坐标系等坐标系。视图参数可以用于在相邻视图中合成图像,识别可以在参考视图中被遮挡但可能在相邻视图中变得至少部分地去遮挡的空洞或区域,针对参考视图中的一些或全部在每参考视图基础上确定、估计或预测这些空洞或区域的去遮挡纹理数据和去遮挡深度数据。
对于参考视图和给定时间点的每个单视图纹理图像和单视图深度图像,可以为参考视图生成如位掩模等图像掩模,从而识别出要在给定时间点的去遮挡图集中提供其去遮挡纹理和深度数据的空间区域,如图3A中图示的。
图3B图示了可以为所接收或所输入的多视图视频中的多视图图像序列创建的示例连续去遮挡图集序列。去遮挡图集序列可以被编码成去遮挡图集组。每个这样的去遮挡图集组包括时间上稳定的去遮挡图集,并且可以相对高效地被编码成视频流。
图4A图示了用于生成覆盖时间间隔的多视图图像序列中的多视图图像的去遮挡图集(如图3A中图示的)的示例处理流程。在一些示例实施例中,一个或多个计算设备或部件可以执行这个处理流程。
多视图图像与时间间隔中的时间点相对应或被索引到该时间点,并且包括N个参考视图的N个(源/输入)单视图纹理图像和N个参考视图的N个(源/输入)单视图深度图像。N个单视图纹理图像中的每个单视图纹理图像与N个单视图深度图像中的相应单视图深度图像相对应。
在框402中,在去遮挡图集用于存储(例如,复制、加戳记给、放置等)可能存在于与N个参考视图相邻的视图中的合成/扭曲图像中的空间区域或空洞的图像片段之前,如本文描述的系统(例如,图1A的100等)执行关于去遮挡图集的初始化操作。
框402的初始化操作可以包括:(a)接收或加载N个图像掩模,该N个图像掩模在与N个参考视图相邻的视图中的合成/扭曲图像中识别N个参考视图中可以具有丢失的纹理或深度数据的空间区域或空洞;(b)接收或加载在N个图像掩模中被识别出的图像片段的纹理和深度信息;(c)将图像片段按大小排序成图像片段列表;等等。
在这里,“大小”是指用于测量图像片段的空间尺寸的度量。各种度量可以用于测量图像片段的空间尺寸。例如,可以确定完全地封围图像片段的最小矩形。可以单独地或共同地使用水平大小(表示为“xsize”)、竖直大小(表示为“ysize”)、水平大小与竖直大小的组合等作为用于测量图像片段的大小的(多个)度量。
在一些操作场景中,可以将图像片段的大小计算为:64*max(xsize,ysize)+min(xsize,ysize),其中,xsize和ysize中的每一个可以以像素为单元或以特定大小的像素块(如2×2像素块中的2个像素、4×4像素块中的4个像素等)的水平或竖直尺寸(该水平或竖直尺寸可以是2的非负整数幂)为单元来表示。
N个加载的图像掩模中的每个图像掩模与N个参考视图中的相应参考视图相对应。图像掩模包括图像片段的图像掩模部分,这些图像片段在参考视图中被遮挡但在与参考视图相邻的视图中变得至少部分地可见。图像掩模中的图像掩模部分中的每个图像掩模部分在空间上划定或限定图像片段中的相应图像片段,这些图像片段在与图像掩模相对应的参考视图中被遮挡但在与参考视图相邻的视图中变得至少部分地可见。对于图像掩模中表示的每个像素,如果像素属于图像片段之一,则位指示符被设置为真或1,否则,如果像素不属于图像片段中的任何一个,则位指示器被设置为假或0。
在一些操作场景中,去遮挡图集包括布局掩模,该布局掩模用于阐述多视图图像的(例如,全部等)图像片段的空间布置,并且识别或跟踪其去遮挡数据被存储或维护在去遮挡图集中的图像片段。布局掩模可以包括布置在空间形状(如矩形形状)内的像素阵列。在空间上划定或限定在去遮挡图集的布局掩模中的图像片段是相互排斥的并且在布局掩模中(例如,完全地等)彼此不重叠。
框402的初始化操作可以进一步包括:(d)创建单数四叉树根节点。这个根节点要被初始化到最佳大小以刚好覆盖最大图像片段的大小。四叉树根据需要在每个尺寸中以两倍递增地生长,以便使对应的布局掩模保持尽可能地小;(e)通过将图像片段(例如,的图像掩模部分等)加戳记到在去遮挡图集的布局掩模中针对第一节点的指定区域中,将最大图像片段链接到四叉树的第一节点;等等。在这里,四叉树的第一节点是指表示整个布局掩模的根节点下方的第一级四叉树节点当中的第一四叉树节点。在这里,“加戳记”是指在去遮挡图集的布局掩模中复制、传递或拟合图像片段或其图像掩模部分。在这里,“四叉树”是指树状数据结构,在该树状数据结构中,每个内部节点具有四个子四叉树节点。
四叉树最初包括相等大小的空间形状(如相等大小的矩形)的四个节点。如本文描述的四叉树的节点的空间形状可以具有特殊尺寸,该特殊尺寸具有是2的非负整数幂的像素计数。
在将最大图像片段加戳记到去遮挡图集的布局掩模中之后,从(按大小排序的)图像片段的列表移除最大图像片段,并且将第一四叉树节点之后的下一个四叉树节点设置为当前四叉树节点。当前四叉树节点表示接下来要用于承载图像片段的空或候选四叉树节点(还未被任何图像片段或相应图像掩模部分占据)。
在框404中,系统确定按大小排序的图像片段的列表是否包含仍需要加戳记或空间上被布置到去遮挡图集的布局掩模中的任何图像片段。在一些实施例中,低于最小片段大小阈值的任何图像片段可以从列表移除或可以在列表中被忽略。示例最小片段大小阈值可以是以下各项中的一项:水平和竖直尺寸中的一个或两个上的四(4)个像素、水平和竖直尺寸中的一个或两个上的六(6)个像素等。
响应于确定(按大小排序的)图像片段的列表不包含仍需要加戳记或空间上被布置到去遮挡图集的布局掩模中的(多个)图像片段,处理流程结束。
否则,响应于确定(按大小排序的)图像片段的列表包含仍需要加戳记或空间上被布置到去遮挡图集的布局掩模中的(多个)图像片段,系统从(按大小排序的)图像片段的列表选择下一个最大的图像片段作为当前图像片段。
在框406中,系统确定四叉树中的当前四叉树节点是否足够大以承载当前图像片段或当前图像片段的对应图像掩模部分。
响应于确定四叉树中的当前四叉树节点不够大而无法承载当前图像片段,处理流程转到框410。
否则,响应于确定四叉树中的当前四叉树节点足够大以承载当前图像片段,处理流程转到框408。
在框408中,系统确定当前四叉树节点是否是当前图像片段的“最佳”拟合四叉树节点。“最佳”拟合四叉树节点是指刚好足够大以承载图像片段或其图像掩模部分的四叉树节点。换句话说,“最佳”拟合四叉树节点表示用于完全地封围或承载去遮挡图集的布局掩模中的图像片段的最小大小的四叉树节点。
响应于确定当前四叉树节点不是当前图像片段的“最佳”拟合四叉树节点,系统细分(例如,重复地、迭代地、递归地等)当前四叉树节点直到找到“最佳”拟合四叉树节点。将“最佳”拟合四叉树节点设置为当前四叉树节点。
一旦确定了当前四叉树节点是当前图像片段的“最佳”拟合四叉树节点,系统就在“最佳”拟合四叉树节点中加戳记给或在空间上划定当前图像片段。
在将当前图像片段加戳记到去遮挡图集或当前四叉树节点的布局掩模中之后,从(按大小排序的)图像片段的列表移除当前图像片段,并且将(移除的)当前四叉树节点之后的下一个四叉树节点设置为(新的或目前的)当前四叉树节点。
在框410中,系统确定在表示可用于承载当前图像片段的去遮挡图集的整个布局掩模的根节点下方的任何位置是否存在空的或候选四叉树节点。如果是,则使用(例如,如果使用多于一个节点则共同地使用等)空的或候选四叉树节点以承载当前图像片段。处理流程然后转到框404。因此,如果当前图像片段不拟合(整体地)到当前四叉树节点下方的任何现有(子)四叉树节点中,则可以做出尝试以拟合布局掩模中的任何位置处的片段。应注意,在许多操作场景中,(多个)四叉树仅仅是被设计为使图集构建更快的加速度数据结构。一旦确定了布局(或布局掩模),就可以不保存或不需要如本文描述的四叉树。进一步地,不存在由如本文描述的四叉树对可以放置任何图像片段的位置施加的(例如,绝对的、固有的等)限制。图像片段可以(并且通常在一些操作场景中)重叠多个四叉树节点。因此,如果“最佳拟合”方法(例如,为了找到如当前图像片段的片段的单一最佳拟合节点等)失败,则可以对整个布局掩模执行更详尽(和更昂贵)的搜索以拟合附近的片段。当成功时,与这样放置的片段重叠的全部四叉树节点都被标记为“已占用”,并且处理继续。当失败时,处理流程转到框412以使四叉树生长。如图4A中图示的整体算法仍然高效且有效的原因是,大多数时间在许多操作场景中,最佳拟合四叉树搜索是成功的。只有在没有为当前图像片段找到最佳拟合节点时,才会进行或调用更昂贵或详尽的回退搜索,以找到可能重叠的四叉树节点来承载当前图像片段。这可以涉及一直搜索(例如,在搜索循环中等)到去遮挡图集的整个布局掩模中的全部空的或候选四叉树节点(还未被任何图像片段占用)。
响应于确定布局掩模中剩余的空的或候选四叉树节点中的任何一个都不足够大以承载当前图像片段,处理流程转到框412。
否则,响应于确定布局掩模中的空的或候选四叉树节点足够大以承载当前图像片段,将空的或候选四叉树节点设置为(新的)当前四叉树节点,并且处理流程转到框408。
在框412中,系统使去遮挡图集或去遮挡图集的布局掩模的大小在水平和竖直尺寸中的每一个上扩展或增加两倍(2x)。此扩展之前的现有四叉树(或旧的四叉树)可以链接到或放置到第一四叉树节点(例如,新扩展的四叉树的左上象限等)中。将第二四叉树节点(例如,新扩展的四叉树的右上象限等)设置为(新的)当前四叉树节点。处理流程转到框408。
如在去遮挡图集的布局掩模中被识别为属于图像片段的每个像素的纹理和深度值可以作为去遮挡图集中的一部分与去遮挡图集的布局掩模一起被存储、缓存或缓冲。
7.时间上稳定的组级布局掩模
为了稳定化视频序列中的连续去遮挡图集,多个连续时间点的连续去遮挡图集组(可以与视频序列中的纹理图像GOP、深度图像GOP等相对应)中的去遮挡图集的布局掩模可以通过“或”操作分离地结合,以形成连续去遮挡图集组的组级布局掩模。
布局掩模中的每个布局掩模可以是相等大小的,并且利用指示布局掩模中的任何像素是否属于相应去遮挡图集中承载的图像片段的相应指示符或位来压缩相同的像素阵列。
组级布局掩模可以与连续去遮挡图集组的(单独)布局掩模是相同大小的,并且包括与(单独)布局掩模中的像素阵列相同的像素阵列。为了通过并集操作或分离“或”操作生成组级布局掩模,如果连续去遮挡图集组的(单独)布局掩模中的相同特定像素位置或索引处的对应像素的指示符或位中的任一个为真或一(1),则可以将特定像素位置或索引处的像素的指示符或位设置为真或一(1)。
组级布局掩模或其实例可以重复地用于连续去遮挡图集组中的每个去遮挡图集,以针对在连续去遮挡图集组中覆盖的多个连续时间点中的相应时间点承载或布局要在去遮挡图集中表示的图像片段。针对时间点不具有去遮挡纹理和深度信息的像素可以在该时间点(或时间戳)的组级布局掩模的对应实例中被省略(例如,未限定、未占用等)。图3C图示了利用如本文描述的公共组级布局掩模生成的示例连续去遮挡图集组。
在一些操作场景中,可以使用相同组级布局掩模的多个实例生成单独去遮挡图集。连续去遮挡图集组中的最初去遮挡图集(与组合的组级布局掩模的最初实例一起)可以用于生成起始图集I帧,随后是从连续去遮挡图集组中的其他去遮挡图集生成的其他图集帧。起始图集I帧和其他图集帧可以形成由起始图集I帧和组结束之前的下一个起始图集I帧界定的连续图集帧组。时间上稳定的组级布局掩模可以用于促进数据压缩操作,比如应用帧间预测和/或帧内预测以找出数据相似性,并且减少要传输到接收方视频解码器的连续去遮挡图集组中的整体数据。在一些实施方式示例中,在(I帧)时间间隔内使用布局掩模(或位掩模)的并集可以将视频压缩提高2倍或更好。
在一些操作场景中,可以包括或传输在连续去遮挡图集的每个单独布局掩模中识别的全部像素的纹理和深度数据,而无需生成连续去遮挡图集的组合组级布局掩模。数据压缩操作(使用时间上和空间上彼此不同的单独布局掩模)在减少数据量方面可能不如使用如本文描述的组级布局掩模的数据压缩操作一样高效。
在一些操作场景中,为了将图像片段布局到去遮挡图集的布局掩模上,这些图像片段可以拟合到可用空间区域(如空的或候选四叉树节点)中而无需首先被旋转。在一些操作场景中,为了提高包装效率,图像片段在被放置到“最佳”拟合四叉树节点中之前可以首先进行旋转。因此,在旋转之前可能不能够承载图像片段的四叉树节点可以能够在旋转之后承载图像片段。
多视图图像或其中的任何单视图图像可以是360度图像。360度图像的图像数据(包括去遮挡数据)可以在如矩形帧的图像帧中(例如,在“棒球覆盖”视图中等)被表示。如在图2A和图2B中所图示的,这样的图像可以包括被一起组合成例如在“棒球覆盖”视图中的矩形图像帧的多个图像片段。然而,多个图像片段可以一起组合成不同视图的形状,例如正方形视图的形状。
如本文描述的去遮挡图集可以在布局掩模中包括或阐述掩模条纹,以指示图像片段包括与图像片段的边界相接的纹理和深度信息。在布局掩模中放置掩模条纹的原因是为了避免图集承载的图像片段跨过与360度图像中的接缝相对应的C0(或零阶)不连续的情况,该360度图像可以包括与一个或多个接缝结合的多个图像片段。例如,在360度图像的棒球覆盖表示中,在中间存在一个长水平接缝,其中,接缝的不同侧上的临近像素不与视觉场景的(例如,实际的等)视图的临近部分相对应。通过将沿着此接缝的输入掩模中的线归零,可以在(多个)去遮挡图集中实施掩模条纹,以保证图像片段不会跨越此界线。因此,具有掩模条纹的图像片段可以被约束并被正确地解释以应用于填充与图像片段位于线的相同侧上的空洞或间隙。
8.示例处理流程
图4B图示了根据本发明的示例实施例的示例处理流程。在一些示例实施例中,一个或多个计算设备或部件可以执行这个处理流程。在框422中,上游设备按大小对图像片段排序,这些图像片段在从一个或多个参考视图描绘视觉场景的一个或多个参考图像中被遮挡并且在与一个或多个参考视图相邻的非参考视图中变得至少部分地去遮挡。图像片段包括第一图像片段,该第一图像片段按大小不小于图像片段中的任何其他图像片段。
在框424中,上游设备为用于存储图像片段的去遮挡图集生成布局掩模。布局掩模被覆盖有四叉树,该四叉树包括具体地大小为用于第一图像片段的第一最佳拟合节点。第一拟合节点的大小为用于(例如完全地)覆盖第一图像片段。
在框426中,上游设备按降序将经排序图像片段存储到在布局掩模中识别出的最佳拟合节点中。经排序图像片段中的每个图像片段被存储在最佳拟合节点中的相应最佳拟合节点中。最佳拟合节点包括通过迭代地划分覆盖布局掩模的四叉树中的至少一个节点获得的至少一个最佳拟合节点。最佳拟合节点中的每一个可以被识别为用于完全地覆盖每个相应图像片段的最小大小的四叉树节点。
在框428中,上游设备生成利用一个或多个参考图像编码的体积视频信号。体积视频信号利用去遮挡图集中的图像片段而被进一步编码。一个或多个参考图像由体积视频信号的接收方设备使用以合成非表示视图中用于在图像显示器上渲染的显示图像。去遮挡图集中的图像片段供接收方设备使用,以在显示图像中的去遮挡空间区域中填充去遮挡图像数据。
在实施例中,一个或多个参考图像中的每一个表示以下各项中的一项:360度图像、180度图像、视口图像、规则空间形状图像帧中的图像或不规则空间形状图像帧中的图像。
在实施例中,对于由在一个或多个参考视图中被遮挡的相连像素形成的空间区域,图像片段中的每一个包括纹理图像值和深度图像值。
在实施例中,一个或多个明显视频流的集合包括指派有第一明显等级的第一明显视频流和指派有低于第一明显等级的第二明显等级的第二明显视频流;响应于确定可用数据比率已减小而从要在稍后时间要被传输到视频流客户端的一个或多个明显视频流的集合移除第二视频流。
在实施例中,一个或多个参考图像被包括在多视图图像组中的多视图图像中,该多视图图像组包括多个连续时间点的多个连续多视图图像;去遮挡图集被包括在去遮挡图集组中,该去遮挡图集组包括多个连续时间点的多个去遮挡图集。
在实施例中,布局掩模被包括在为多个去遮挡图集生成的多个单独布局掩模中;通过并集操作从多个单独布局掩模生成组级布局掩模;在体积视频信号中编码的去遮挡图集在组级布局掩模中被表示。
在实施例中,去遮挡图集组在体积视频信号中被编码为图集帧组;其中,该图集帧组以图集I帧开始,并且在不同的图集I帧之前结束。
在实施例中,去遮挡图集包括掩模条纹;掩模条纹指示存储在去遮挡图集中的图像片段在图像片段的一个或多个边界处接壤。
在实施例中,响应于确定未在布局掩模的预扩展大小内找到最佳拟合节点而扩展布局掩模。
在实施例中,在位掩模中识别出用于图像片段的空间区域;使用用于图像片段的空间区域的大小对图像片段排序。
在实施例中,存储在去遮挡图集中的图像片段位于从视觉场景识别的一个或多个明显区域中。明显区域可以是视觉场景感兴趣的更有趣或更重要的部分或区域。
图4C图示了根据本发明的示例实施例的示例处理流程。在一些示例实施例中,一个或多个计算设备或部件可以执行这个处理流程。
在框460中,下游解码器(例如接收方设备或解码器)接收体积视频信号。可以利用以上描述的实施例中的任何实施例编码/生成体积视频信号,例如参考图4B。利用去遮挡图集中的一个或多个参考图像和图像片段编码体积视频信号。去遮挡图集用于存储图像片段。在从一个或多个参考视图描绘视觉场景的一个或多个参考图像中被遮挡并且在与一个或多个参考视图相邻的非参考视图中变得至少部分地去遮挡的图像片段按大小被排序,如参考图4B(框422)所描述的。
在框462中,下游设备从体积视频信号解码一个或多个参考图像。
在框464中,下游设备从体积视频信号解码去遮挡图集中的图像片段。
在框466中,下游设备基于一个或多个参考图像合成非表示视图中的显示图像。
在框468中,下游设备使用去遮挡图集中的图像片段来在显示图像中的去遮挡空间区域中填充去遮挡图像数据。
在框470中,上游设备在图像显示器上渲染显示图像。
在实施例中,对于由在一个或多个参考视图中被遮挡的相连像素形成的空间区域,图像片段中的每一个包括纹理图像值和深度图像值。
在实施例中,在框466中,合成显示图像包括使用可用于一个或多个参考视图的纹理图像值和深度图像值。
在实施例中,通过确定可用于一个或多个参考视图的纹理图像值和深度图像值对于与一个或多个参考视图相邻的非参考视图是不可获得的,来识别合成显示图像中的去遮挡空间区域。
在实施例中,存储在去遮挡图集中的图像片段位于从视觉场景识别的一个或多个明显区域中,并且其中,去遮挡图集不包括任何纹理图像值或深度图像值以覆盖远离一个或多个明显区域的空间区域,使得在合成显示图像中识别一个或多个明显区域。
在实施例中,体积视频信号包括指定单射函数的图像元数据;单射函数将图像片段中的每个像素从像素在图像帧中的像素位置映射到在其中表示视觉场景的三维坐标系中的对应位置。
在各种示例实施例中,装置、系统、装置或者一个或多个其他计算设备执行如所描述的前述方法中的任何方法或一部分。在实施例中,非暂态计算机可读存储介质存储软件指令,这些软件指令当由一个或多个处理器执行时致使执行如本文描述的方法。
注意,尽管本文讨论了单独的实施例,但是本文讨论的实施例和/或部分实施例的任何组合都可以组合以形成进一步实施例。
9.实施机制——硬件概述
根据一个实施例,本文描述的技术由一个或多个专用计算设备实施。专用计算设备可以是硬接线的,以用于执行这些技术,或者可以包括被持久地编程以执行这些技术的数字电子设备,比如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA),或者可以包括被编程为根据固件、存储器、其他存储设备或组合中的程序指令执行这些技术的一个或多个通用硬件处理器。这样的专用计算设备也可以将定制的硬接线逻辑、ASIC或FPGA与定制编程相结合来实现这些技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、联网设备、或合并硬接线和/或程序逻辑以实施技术的任何其他设备。
例如,图5是图示了可以在其上实施本发明的示例实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其他通信机制、以及与总线502耦接以处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。
计算机系统500还包括耦接到总线502以用于存储要由处理器504执行的信息和指令的主存储器506,比如随机存取存储器(RAM)或其他动态存储设备。主存储器506还可以用于存储在执行要由处理器504执行的指令期间的临时变量或其他中间信息。在被存储于处理器504可访问的非暂态存储介质中时,这样的指令使得计算机系统500变成被自定义为执行在指令中指定的操作的专用机器。
计算机系统500进一步包括只读存储器(ROM)508或耦接到总线502以用于存储处理器504的静态信息和指令的其他静态存储设备。
如磁盘或光盘、固态RAM等存储设备510被提供并耦接到总线502以用于存储信息和指令。
计算机系统500可以经由总线502耦接到如液晶显示器等显示器512上,以用于向计算机用户显示信息。包括字母数字键和其他键的输入设备514耦接到总线502,以用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是如鼠标、轨迹球或光标方向键等光标控件516,以用于将方向信息和命令选择传送到处理器504并用于控制在显示器512上的光标移动。典型地,此输入设备具有在两条轴线(第一轴线(例如,x轴)和第二轴线(例如,y轴))上的两个自由度,允许设备在平面中指定位置。
计算机系统500可以使用自定义硬接线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实施本文描述的技术,这些自定义硬接线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑与计算机系统相结合使计算机系统500成为或编程为专用机器。根据一个实施例,响应于处理器504执行包含在主存储器506中的一个或多个指令的一个或多个序列,由计算机系统500执行本文的技术。这样的指令可以从另一个存储介质(如存储设备510)读取到主存储器506中。包含在主存储器506中的指令序列的执行使处理器504执行本文描述的过程步骤。在替代实施例中,可以使用硬接线电路来代替软件指令或者与软件指令相结合。
如本文所使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非暂态介质。这样的存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,比如存储设备510。易失性介质包括动态存储器,比如主存储器506。常见形式的存储介质包括例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、闪速EPROM、NVRAM、任何其他存储器芯片或存储盒。
存储介质不同于传输介质但可以与传输介质结合使用。传输介质参与存储介质之间的信息传递。例如,传输介质包括同轴电缆、铜线和光纤,包括包含总线502的导线。传输介质还可以采用声波或光波的形式,比如在无线电波和红外数据通信期间生成的那些声波或光波。
各种形式的介质可以涉及将一个或多个指令的一个或多个序列载送到处理器504以供执行。例如,最初可以在远程计算机的磁盘或固态驱动器上载送指令。远程计算机可以将指令加载到其动态存储器中,并使用调制解调器通过电话线发送指令。计算机系统500本地的调制解调器可以接收电话线上的数据并使用红外发射器将数据转换成红外信号。红外检测器可以接收红外信号中载送的数据,并且适当的电路可以将数据放在总线502上。总线502将数据载送到主存储器506,处理器504从主存储器取得并执行指令。主存储器506接收的指令可以可选地在由处理器504执行之前或之后存储在存储设备510上。
计算机系统500还包括耦接到总线502的通信接口518。通信接口518提供耦接到网络链路520的双向数据通信,所述网络链路连接到本地网络522。例如,通信接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器、或用于提供与相应类型电话线的数据通信连接的调制解调器。作为另一个示例,通信接口518可以是局域网(LAN)卡,用于提供与兼容LAN的数据通信连接。还可以实施无线链路。在任何这样的实施方式中,通信接口518发送和接收载送表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
网络链路520通常通过一个或多个网络向其他数据设备提供数据通信。例如,网络链路520可以提供通过本地网络522到主计算机524或到由因特网服务提供商(ISP)526操作的数据设备的连接。ISP 526进而通过现在通常称为“因特网”528的全球分组数据通信网络来提供数据通信服务。本地网络522和因特网528都使用载送数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及网络链路520上和通过通信接口518的信号(其将数字数据载送到计算机系统500和从计算机系统载送数字数据)是传输介质的示例形式。
计算机系统500可以通过(多个)网络、网络链路520和通信接口518发送消息和接收数据,包括程序代码。在因特网示例中,服务器530可以通过因特网528、ISP 526、本地网络522和通信接口518传输应用程序的请求代码。
接收到的代码可以在被接收到时由处理器504执行和/或存储在存储设备510或其他非易失性存储器中以供稍后执行。
10.等效物、扩展、替代品和其他
在前述说明书中,已经参考许多具体细节描述了本发明的示例实施例,这些细节可以根据实施方式而变化。因此,指明本发明以及本申请人的发明意图的唯一且排他性指示是根据本申请以具体形式发布的权利要求组,其中,这样的权利要求发布包括任何后续修正。本文中针对这样的权利要求中包含的术语明确阐述的任何定义应该支配如在权利要求中使用的这样的术语的含义。因此,权利要求中未明确引用的限制、要素、性质、特征、优点或属性不应该以任何方式限制这样的权利要求的范围。因此,应当从说明性而非限制性意义上看待本说明书和附图。
一些实施例的各方面包括以下枚举的示例实施例(EEE):
EEE1.一种方法,包括:
按大小对图像片段排序,所述图像片段在从一个或多个参考视图描绘视觉场景的一个或多个参考图像中被遮挡并且在与所述一个或多个参考视图相邻的非参考视图中变得至少部分地去遮挡,所述图像片段包括按大小不小于所述图像片段中的任何其他图像片段的第一图像片段;
为用于存储所述图像片段的去遮挡图集生成布局掩模,所述布局掩模被覆盖有四叉树,所述四叉树包括具体地大小为用于所述第一图像片段的第一最佳拟合节点,所述去遮挡图集是包含多个非重叠图像片段的最小总面积的组合图像;
按降序将经排序图像片段存储到在所述布局掩模中识别出的最佳拟合节点中,经排序图像片段中的每个图像片段被存储在所述最佳拟合节点中的相应最佳拟合节点中,所述最佳拟合节点包括通过迭代地划分覆盖所述布局掩模的所述四叉树中的至少一个节点获得的至少一个最佳拟合节点;
生成利用所述一个或多个参考图像编码的体积视频信号,所述体积视频信号利用所述去遮挡图集中的所述图像片段而被进一步编码,所述一个或多个参考图像供所述体积视频信号的接收方设备使用,以合成非表示视图中的显示图像以便在图像显示器上渲染,所述去遮挡图集中的所述图像片段供所述接收方设备使用,以在所述显示图像中的去遮挡空间区域中填充去遮挡图像数据。
EEE2.如EEE1所述的方法,其中,所述一个或多个参考图像中的每一个表示以下各项中的一项:360度图像、180度图像、视口图像、规则空间形状图像帧中的图像或不规则空间形状图像帧中的图像。
EEE3.如EEE1或EEE2所述的方法,其中,对于由在所述一个或多个参考视图中被遮挡的相连像素形成的空间区域,所述图像片段中的每一个包括纹理图像值和深度图像值。
EEE4.如EEE1至EEE3中任一项所述的方法,其中,所述一个或多个参考图像被包括在多视图图像组中的多视图图像中,所述多视图图像组包括多个连续时间点的多个连续多视图图像;其中,所述去遮挡图集被包括在去遮挡图集组中,所述去遮挡图集组包括所述多个连续时间点的多个去遮挡图集。
EEE5.如EEE4中所述的方法,其中,所述布局掩模被包括在为所述多个去遮挡图集生成的多个单独布局掩模中;其中,通过并集操作从所述多个单独布局掩模生成组级布局掩模;其中,在所述体积视频信号中编码的所述去遮挡图集在所述组级布局掩模中被表示。
EEE6.如EEE4或EEE5所述的方法,其中,所述去遮挡图集组在所述体积视频信号中被编码为图集帧组;其中,所述图集帧组以图集I帧开始,并且在不同的图集I帧之前结束。
EEE7.如EEE1至EEE6中任一项所述的方法,其中,所述去遮挡图集包括掩模条纹;其中,所述掩模条纹指示存储在所述去遮挡图集中的图像片段在图像片段的一个或多个边界处接壤。
EEE8.如EEE1至EEE7中任一项所述的方法,其中,响应于确定未在所述布局掩模的预扩展大小内找到最佳拟合节点而扩展所述布局掩模。
EEE9.如EEE1至EEE8中任一项所述的方法,其中,在位掩模中识别出所述图像片段的空间区域;其中,使用所述图像片段的所述空间区域的大小对所述图像片段排序。
EEE10.如EEE1至EEE9中任一项所述的方法,其中,存储在所述去遮挡图集中的所述图像片段位于从所述视觉场景识别的一个或多个明显区域中。
EEE11.如EEE10所述的方法,其中,所述一个或多个明显视频流包括指派有第一明显等级的第一明显视频流和指派有低于所述第一明显等级的第二明显等级的第二明显视频流。
EEE12.一种方法,包括:
从体积视频信号解码一个或多个参考图像;
从所述体积视频信号解码去遮挡图集中的图像片段;
从所述一个或多个参考图像合成非表示视图中的显示图像;
使用所述去遮挡图集中的所述图像片段来在所述显示图像中的去遮挡空间区域中填充去遮挡图像数据;
在图像显示器上渲染所述显示图像。
EEE13.如EEE1至EEE12中任一项所述的方法,其中,所述体积视频信号包括指定单射函数的图像元数据;其中,所述单射函数将所述图像片段中的每个像素从所述像素在图像帧中的像素位置映射到三维坐标系中的对应位置,其中,在所述三维坐标系中表示所述视觉场景。
EEE14.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储软件指令,所述软件指令当由一个或多个处理器执行时使得执行如EEE1至EEE13中任一项所述的方法。
EEE15.一种计算设备,所述计算设备包括一个或多个处理器以及存储指令集的一个或多个存储介质,所述指令集当由一个或多个处理器执行时使得执行如EEE1至EEE13中任一项所述的方法。

Claims (18)

1.一种方法,包括:
按大小对图像片段排序,所述图像片段在从一个或多个参考视图描绘视觉场景的一个或多个参考图像中被遮挡并且在与所述一个或多个参考视图相邻的非参考视图中变得至少部分地去遮挡,所述图像片段包括按大小不小于所述图像片段中的任何其他图像片段的第一图像片段;
为用于存储所述图像片段的去遮挡图集生成布局掩模,所述布局掩模被覆盖有四叉树,所述四叉树包括大小为用于覆盖所述第一图像片段的第一最佳拟合节点,所述去遮挡图集是包含多个非重叠图像片段的最小总面积的组合图像;
按降序将经排序图像片段存储到在所述布局掩模中识别出的最佳拟合节点中,其中,所述最佳拟合节点中的每一个被识别为用于完全地覆盖相应图像片段中的每一个的最小大小的四叉树节点,所述经排序图像片段中的每个图像片段被存储在相应最佳拟合节点中,所述最佳拟合节点包括通过迭代地划分覆盖所述布局掩模的所述四叉树中的至少一个节点获得的至少一个最佳拟合节点;
生成利用所述一个或多个参考图像编码的体积视频信号,所述体积视频信号利用所述去遮挡图集中的所述图像片段而被进一步编码,所述一个或多个参考图像供所述体积视频信号的接收方设备使用,以合成非表示视图中的显示图像以便在图像显示器上渲染,所述去遮挡图集中的所述图像片段供所述接收方设备使用,以在所述显示图像中的去遮挡空间区域中填充去遮挡图像数据。
2.如权利要求1所述的方法,其中,所述一个或多个参考图像中的每一个表示以下各项中的一项:360度图像、180度图像、视口图像、规则空间形状图像帧中的图像或不规则空间形状图像帧中的图像。
3.如权利要求1或2所述的方法,其中,对于由在所述一个或多个参考视图中被遮挡的相连像素形成的空间区域,所述图像片段中的每一个包括纹理图像值和深度图像值。
4.如权利要求1至3中任一项所述的方法,其中,所述一个或多个参考图像被包括在多视图图像组中的多视图图像中,所述多视图图像组包括多个连续时间点的多个连续多视图图像;其中,所述去遮挡图集被包括在去遮挡图集组中,所述去遮挡图集组包括所述多个连续时间点的多个去遮挡图集。
5.如权利要求4所述的方法,其中,所述布局掩模被包括在为所述多个去遮挡图集生成的多个单独布局掩模中;其中,通过并集操作从所述多个单独布局掩模生成组级布局掩模;其中,在所述体积视频信号中编码的所述去遮挡图集在所述组级布局掩模中被表示。
6.如权利要求4或5所述的方法,其中,所述去遮挡图集组在所述体积视频信号中被编码为图集帧组;其中,所述图集帧组以图集I帧开始,并且在不同的图集I帧之前结束。
7.如权利要求1至6中任一项所述的方法,其中,所述去遮挡图集包括掩模条纹;其中,所述掩模条纹指示存储在所述去遮挡图集中的图像片段在图像片段的一个或多个边界处接壤。
8.如权利要求1至7中任一项所述的方法,其中,响应于确定未在所述布局掩模的预扩展大小内找到最佳拟合节点而扩展所述布局掩模。
9.如权利要求1至8中任一项所述的方法,其中,在位掩模中识别出所述图像片段的空间区域;其中,使用所述图像片段的所述空间区域的大小对所述图像片段排序。
10.如权利要求1至9中任一项所述的方法,其中,存储在所述去遮挡图集中的所述图像片段位于从所述视觉场景识别的一个或多个明显区域中。
11.一种方法,包括:
根据任何前述权利要求所述的方法,接收利用一个或多个参考图像以及去遮挡图集中的图像片段编码的体积视频信号;
从所述体积视频信号解码所述一个或多个参考图像;
从所述体积视频信号解码所述去遮挡图集中的所述图像片段;
从所述一个或多个参考图像合成非表示视图中的显示图像;
使用所述去遮挡图集中的所述图像片段来在所述显示图像中的去遮挡空间区域中填充去遮挡图像数据;
在图像显示器上渲染所述显示图像。
12.如权利要求11所述的方法,其中,对于由在所述一个或多个参考视图中被遮挡的相连像素形成的空间区域,所述图像片段中的每一个包括纹理图像值和深度图像值。
13.如权利要求11至12中任一项所述的方法,其中,合成所述显示图像包括使用可用于所述一个或多个参考视图的纹理图像值和深度图像值。
14.如权利要求13所述的方法,其中,通过确定可用于所述一个或多个参考视图的所述纹理图像值和所述深度图像值对于与所述一个或多个参考视图相邻的所述非参考视图是不可获得的,来识别合成显示图像中的所述去遮挡空间区域。
15.如权利要求12至13中任一项所述的方法,其中,存储在所述去遮挡图集中的所述图像片段位于从所述视觉场景识别的一个或多个明显区域中,并且其中,所述去遮挡图集不包括任何纹理图像值或深度图像值以覆盖远离所述一个或多个明显区域的空间区域,使得在合成显示图像中识别一个或多个明显区域。
16.如权利要求1至15中任一项所述的方法,其中,所述体积视频信号包括指定单射函数的图像元数据;其中,所述单射函数将所述图像片段中的每个像素从所述像素在图像帧中的像素位置映射到三维坐标系中的对应位置,其中,在所述三维坐标系中表示所述视觉场景。
17.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储软件指令,所述软件指令当由一个或多个处理器执行时使得执行如权利要求1至16中任一项所述的方法。
18.一种计算设备,所述计算设备包括一个或多个处理器以及存储指令集的一个或多个存储介质,所述指令集当由一个或多个处理器执行时使得执行如权利要求1至16中任一项所述的方法。
CN202180042986.7A 2020-06-16 2021-06-16 利用去遮挡图集支持多视图视频操作 Pending CN115769582A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063039595P 2020-06-16 2020-06-16
EP20180179.2 2020-06-16
US63/039,595 2020-06-16
EP20180179 2020-06-16
PCT/US2021/037527 WO2021257639A1 (en) 2020-06-16 2021-06-16 Supporting multi-view video operations with disocclusion atlas

Publications (1)

Publication Number Publication Date
CN115769582A true CN115769582A (zh) 2023-03-07

Family

ID=76731135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180042986.7A Pending CN115769582A (zh) 2020-06-16 2021-06-16 利用去遮挡图集支持多视图视频操作

Country Status (6)

Country Link
US (1) US20230224447A1 (zh)
EP (1) EP4162690A1 (zh)
JP (2) JP7320146B2 (zh)
KR (1) KR102597471B1 (zh)
CN (1) CN115769582A (zh)
WO (1) WO2021257639A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2584546B (en) * 2020-04-06 2021-09-01 Novasight Ltd Method and device for treating vision impairment
WO2023129214A1 (en) * 2022-01-01 2023-07-06 Leia Inc. Methods and system of multiview video rendering, preparing a multiview cache, and real-time multiview video conversion
CN114449345B (zh) * 2022-02-08 2023-06-23 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2487488C2 (ru) 2007-06-26 2013-07-10 Конинклейке Филипс Электроникс Н.В. Способ и система для кодирования сигнала трехмерного видео, инкапсулированный сигнал трехмерного видео, способ и система для декодера сигнала трехмерного видео
CN101822068B (zh) 2007-10-11 2012-05-30 皇家飞利浦电子股份有限公司 用于处理深度图的方法和设备
ITTO20120413A1 (it) 2012-05-08 2013-11-09 Sisvel Technology Srl Metodo per la generazione e ricostruzione di un flusso video tridimensionale, basato sull'utilizzo della mappa delle occlusioni, e corrispondente dispositivo di generazione e ricostruzione.
JP7012642B2 (ja) * 2015-11-09 2022-01-28 ヴァーシテック・リミテッド アーチファクトを意識したビュー合成のための補助データ

Also Published As

Publication number Publication date
KR102597471B1 (ko) 2023-11-03
JP2023139163A (ja) 2023-10-03
WO2021257639A1 (en) 2021-12-23
US20230224447A1 (en) 2023-07-13
JP7320146B2 (ja) 2023-08-02
JP2023529748A (ja) 2023-07-11
EP4162690A1 (en) 2023-04-12
KR20230016705A (ko) 2023-02-02

Similar Documents

Publication Publication Date Title
KR102597471B1 (ko) 폐색 해제 아틀라스를 통한 다중 뷰 비디오 작업 지원
CN115443652B (zh) 点云数据发送设备、点云数据发送方法、点云数据接收设备和点云数据接收方法
US11418564B2 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
JP7376705B2 (ja) ポイントクラウドデータ送信装置、ポイントクラウドデータ送信方法、ポイントクラウドデータ受信装置およびポイントクラウドデータ受信方法
JP7177034B2 (ja) レガシー及び没入型レンダリングデバイスのために没入型ビデオをフォーマットする方法、装置、及びストリーム
US11528538B2 (en) Streaming volumetric and non-volumetric video
WO2019229293A1 (en) An apparatus, a method and a computer program for volumetric video
KR102373833B1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US20210321072A1 (en) An apparatus for transmitting a video, a method for transmitting a video, an apparatus for receiving a video, and a method for receiving a video
US20210409767A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN115918093A (zh) 点云数据发送设备、点云数据发送方法、点云数据接收设备和点云数据接收方法
US20230215129A1 (en) Representing volumetric video in saliency video streams
CN111726598B (zh) 图像处理方法和装置
CN115567756A (zh) 基于视角的vr视频系统和处理方法
US20210398323A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
Gudumasu et al. Adaptive Volumetric Video Streaming Platform
KR102658474B1 (ko) 가상 시점 합성을 위한 영상 부호화/복호화 방법 및 장치
US20230345020A1 (en) Method for processing video data stream, video decoding apparatus, and method for encoding data stream
CN115428442B (zh) 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
CN113243112B (zh) 流式传输体积视频和非体积视频
WO2023150488A1 (en) Depth differences in place of motion vectors
WO2023198426A1 (en) Dynamic block decimation in v-pcc decoder
CN116097652A (zh) 基于视口变化的双流动态gop访问

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination