CN116325721A - 用于编码和解码多视图视频的方法 - Google Patents

用于编码和解码多视图视频的方法 Download PDF

Info

Publication number
CN116325721A
CN116325721A CN202180065991.XA CN202180065991A CN116325721A CN 116325721 A CN116325721 A CN 116325721A CN 202180065991 A CN202180065991 A CN 202180065991A CN 116325721 A CN116325721 A CN 116325721A
Authority
CN
China
Prior art keywords
depth
block
view
decoding
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180065991.XA
Other languages
English (en)
Inventor
F·亨利
P·加鲁斯
G·克雷尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ao Lanzhi
Original Assignee
Ao Lanzhi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ao Lanzhi filed Critical Ao Lanzhi
Publication of CN116325721A publication Critical patent/CN116325721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明涉及一种用于对从不同位置或不同视角同时表示3D场景的视图进行编码的方法,该方法由编码设备实施,该方法包括针对至少一个视图的深度分量进行以下步骤:‑将所述深度分量划分(C2)成至少一个块,‑从所述视图中的至少一个的纹理分量的纹理数据中获得(C4)所述至少一个块的深度信息,‑从所述信息中获得(C5)至少一个深度估计参数,‑对所述至少一个深度估计参数进行编码(C6),所述至少一个块的深度信息未被编码。

Description

用于编码和解码多视图视频的方法
技术领域
本发明总体上涉及沉浸式视频领域,比如具体地涉及多视图视频领域。更具体地,本发明涉及为了生成这种沉浸式视频而捕获的多个视图的编码和解码,并且涉及未被捕获的中间视点的合成。
本发明可以尤其但不排他地适用于在当前AVC和HEVC视频编码器中所实施的视频编码及其扩展(MVC、3D-AVC、MV-HEVC、3D-HEVC等),并且适用于对应的视频解码。
背景技术
为了生成全向视频,比如360°视频,常规的做法是使用360°相机。这种360°相机由安装在球形平台上的几个2D(二维)相机组成。每个2D相机捕获从同一视点看到的3D(三维)场景的特定角度,相机捕获的该组视图使得可以从一个视点根据360°×180°的视场生成表示该3D场景的视频。也可以使用单个360°相机根据360°×180°的视场来捕获3D场景。这种视场当然可以不那么大,例如270°×135°。
然后,这种360°视频允许用户观看场景,就好像他或她置身于该场景的中心并且在360°范围内环顾四周,从而提供了一种观看视频的新方式。这种视频通常在虚拟现实头戴式耳机(也称为“头戴式设备”HMD)上回放。但它们也可以在配备有合适的用户交互装置的2D屏幕上显示。用于捕获360°场景的2D相机的数量根据使用的平台而变化。
然而,上述360°方法是具有局限性,因为观看者只能从单一视点观看场景。
为了允许观看者改变视点,存在多视图捕获系统,在该多视图捕获系统中,3D场景由一组2D类型的相机捕获,每个相机捕获场景的特定角度。为了增强场景中的沉浸感,根据现有视图合成了一个或多个缺失视图,即表示未被相机捕获的视点的视图。
这些缺失视图或中间视图的计算由所谓的“视图合成”算法执行。例如,VSRS(“视图合成参考”)软件可以用作视图合成算法。
传统上,这种合成算法既基于每个相机在不同时刻捕获到的视图的纹理分量,也基于这些视图的深度分量(称为“深度图”)。深度图表示视图的每个像素与捕获该视图的相机之间的距离。因此,每个相机从其各自的视点以纹理分量的形式捕获3D场景的视图,该纹理分量与3D场景的深度图相关联,如从相机的各自的视点所看到的。存在以下几种构建深度图的方式:雷达、激光、使用当前视图和相邻视图的像素的计算方法。
存在用于从一组纹理分量中估计深度的已知技术。因此,文件“O.Stankiewicz、K.Wegner、M.Tanimoto和M.
Figure BDA0004146087950000021
“Enhanced Depth Estimation ReferenceSoftware(DERS)for Free-viewpoint Television[用于自由视点电视的增强型深度估计参考软件(DERS)]”,ISO/IEC JTC1/SC29/WG11Doc.MPEG M31518,日内瓦,2013”中所描述的DERS方法使用了至少两个纹理分量来初始估计两个视图之间的视差,即两个视图之间的以像素数量衡量的一个像素的位移。为此,对于在当前视图中围绕当前像素的块,DERS连续应用了“块匹配”步骤,以便在另一个视图中识别出相对于当前视图的块而言误差最小的块。这种搜索是水平进行的,因为视图被认为是已校准的。在预定视差区间内执行搜索,即,将会对位于最小视差Dmin与最大视差Dmax之间的所有块进行块匹配。视差“d”与场景的深度“Z”之间存在直接联系,视差为“d”的像素的深度“Z”等于:
Z=(b*f)/d,
其中,“b”是拍摄视图的相机的光学中心之间的距离,“f”是相机的焦距。因此,最小视差Dmin对应于场景中预期的最大深度Zmax,而最大视差Dmx对应于场景中预期的最小深度Zmin。在具体情况下,通过指定Zmin的预定值(例如,0.3m)和Zmax的预定值(例如,5m)来完成对场景的捕获。这直接产生了Dmin和Dmax的值,这些值将确定要评估的视差假设的数量。例如,在确定Dmin=2个像素且Dmax=192个像素的情况下,这意味着块匹配技术对所有视差假设D=2,3,4,...,191,192个像素的块匹配代成本(即被存储并相互比较的191次计算)进行评估。因此,DERS算法根据与每个视差相关联的成本以及一个或多个规则化参数(包括参数Sc(代表“平滑系数”))确定从191个可能的视差中选择哪个视差。该系数确定了所产生的深度图的规则性。因此,如果该系数较低,则深度图将更准确,但存在包括噪声在内的风险,而如果该系数较高,则深度图将会非常规则,具有均匀的深度区域,但存在不能很好地表示较小的局部变化的风险。
存在其他深度估计方法,比如文件“Dawid Mieloch、Adrian Dziembowski、JakubStankowski、Olgierd Stankiewicz、Marek
Figure BDA0004146087950000031
Gwangsoon Lee、Yun Young Jeong[MPEG-I Visual]Immersive video depth estimation[沉浸式视频深度估计],ISO/IECJTC1/SC29/WG11 MPEG2020m53407”中所呈现的IVDE(代表“沉浸式视频深度估计”)方法,该方法联合确定了一系列平行视图的深度图。
在常规沉浸式视频编码器中,纹理分量及其各自的深度图被编码并发送到解码器,该解码器例如安装在用户的显示设备中。在解码器端,对每个视图进行解码,视图的解码包括对该视图的纹理分量进行解码,以及对与该视图的纹理分量相关联的深度图进行解码。然后,合成算法根据一个或多个已解码深度图并根据一个或多个已解码纹理分量构建与用户所请求的视点相对应的中间视图。
文件“Patrick Garus、Jung Joel、Thomas Maugey、Christine Guillemot,Bypassing Depth Maps Transmission For Immersive Video Coding[绕过深度图传输实现沉浸式视频编码],PCS 2019——图像编码研讨会,2019年11月,中国宁波,第1-5页,hal-02397800”描述了一种不编码深度图的沉浸式视频编码器。仅视图的纹理分量被编码并传输到解码器。在解码器端,对纹理分量进行解码,然后将深度估计方法(比如,DERS)应用于已解码的纹理分量以生成估计深度图。然后,VSRS(代表“视图合成参考软件”)合成算法使用这些估计深度图来执行视图合成。
凭借该项技术,全向视频的编码比特率得以降低,因为不需要对深度图进行编码和传输。此外,为获得合成视图而需要解码的像素数量小于常规沉浸式视频解码器中所使用的像素数量。
然而,在该项技术中所使用的解码方法在计算方面是密集的,因为它需要在解码器中实施深度估计步骤。此外,由于在解码器中估计的深度是基于与原始纹理分量相比质量较差的已解码纹理分量,因此估计深度本身的质量也不佳。因此,其结果是,在呈现给用户的图像质量方面或在计算资源消耗方面,以该项技术实施的视图合成都不是最佳的。
发明内容
本发明的目的之一是补救上述现有技术的缺点。
为此,本发明的一个目的涉及一种用于对从不同位置或不同视角同时表示3D场景的视图进行编码的方法,该方法由编码设备实施,该方法包括针对至少一个视图的深度分量进行以下步骤:
-将所述深度分量划分成至少一个块,
-从所述视图中的至少一个的纹理分量的纹理数据中获得所述至少一个块的深度信息,
-从该深度信息中获得至少一个深度估计参数,
-对所述至少一个深度估计参数进行编码,所述至少一个块的深度信息未被编码。
根据本发明的这种编码方法使得可以在对视图进行编码时避免对与该视图相关联的分量或深度图的深度块进行编码,这减轻了由编码器实施的计算量,同时节省了存储器资源,这些存储器资源不再需要存储深度块的编码数据。因为该深度块不被编码,所以没有与该深度块相关的编码数据被传输到解码器,这降低了在编码器与解码器之间传输的信息的信令成本。为了补偿与深度块相关的编码数据的缺失,并允许对该深度块进行解码,根据本发明的编码方法对与深度块相关联的至少一个深度估计参数实施编码,该深度估计参数将在解码器中用于重建深度块,而无需事先对该深度块进行解码。
根据具体实施例,所述至少一个深度估计参数是所述至少一个块的深度值,该深度值大于所述至少一个块的深度值中的每一个;或者是所述至少一个块的深度值,该深度值小于所述至少一个块的深度值中的每一个。
根据该具体实施例,解码器的深度估计器不再需要为了重建深度块而评估该块的每个可能的对应深度与一个或多个视图的重建纹理块的每个像素的似然性。事实上,根据该实施例,针对要重建的深度块,深度估计器仅在位于该块的最小深度值与最大深度值之间的区间内估计该块的深度。这种深度估计大大加快了深度估计步骤,该深度估计步骤是现有技术中的一个复杂方面。
根据另一个具体实施例,所述至少一个深度估计参数是由深度估计方法所使用的参数。
根据该具体实施例,由已知深度估计方法所使用的所述(多个)深度估计参数被有利地优化,以便产生尽可能接近原始深度块的估计深度块。这种参数例如是规则化参数,这些参数使得可以迫使深度估计算法找到具有很少噪声的深度图、或可靠性参数,可靠性参数允许深度估计算法在深度值可靠性太低的情况下继续细化深度值。
根据另一个具体实施例,对表示深度估计方法的信息进行编码。
根据该具体实施例,编码器能够测试不同的可用深度估计方法(每种方法都可能在给定的内容或块上给出基本上良好的结果),能够选择在当前块上产生最佳深度估计的深度估计方法,并且能够对该选择进行编码,以便将其传输到解码器以将所选择的深度估计应用于当前块。
上述各个实施例或特征可以被单独或彼此组合地添加到以上所定义的编码方法中。
本发明还涉及一种用于对从不同位置或不同视角同时表示3D场景的视图进行编码的设备,所述编码设备包括处理器,该处理器被配置成针对至少一个视图的深度分量实施以下步骤:
-将深度分量划分成至少一个块,
-从所述视图中的至少一个的纹理分量的纹理数据中获得所述至少一个块的深度信息,
-从该深度信息中获得至少一个深度估计参数,
-对所述至少一个深度估计参数进行编码,所述至少一个块的深度信息未被编码。
这种编码设备尤其能够实施上述编码方法。
本发明还涉及一种用于对从不同位置或不同视角同时表示3D场景的视图进行解码的方法,该方法由解码设备实施,该方法包括针对至少一个视图的深度分量进行以下步骤:该深度分量被划分成至少一个块:
-在数据信号中读取与所述至少一个块相关联的至少一个深度估计参数,
-对所述至少一个深度估计参数进行解码,
-从所述至少一个深度估计参数并且从所述视图中的至少一个的重建纹理分量的纹理数据中获得所述至少一个块的深度信息。
根据本发明的这种解码方法具有低计算复杂性,并且有利地使得可以节省存储器资源。实际上,由于块的深度信息尚未被编码,因此并未被传输到解码器,所以解码器不需要对其进行解码和存储。在解码中,仅值得对解码器接收到的数据信号中所传输的至少一个深度估计参数进行解码,以重建块的深度信息,所述至少一个深度估计参数的传输成本比深度信息的传输成本低。
根据具体实施例,所述至少一个深度估计参数是所述至少一个块的深度值,该深度值大于所述至少一个块的深度值中的每一个;或者是所述至少一个块的深度值,该深度值小于所述至少一个块的深度值中的每一个。
根据具体实施例,所述至少一个深度估计参数是由深度估计方法所使用的参数。
根据另一个具体实施例,对表示深度估计方法的信息进行解码。
上述各个实施例或特征可以被单独或彼此组合地添加到以上所定义的解码方法中。
本发明还涉及一种用于对从不同位置或不同视角同时表示3D场景的视图进行解码的设备,所述解码设备包括处理器,该处理器被配置成针对至少一个视图的深度分量实施以下步骤:该深度分量被划分成至少一个块;
-在数据信号中读取与所述至少一个块相关联的至少一个深度估计参数,
-对所述至少一个深度估计参数进行解码,
-从所述至少一个深度估计参数并且从所述视图中的至少一个的重建纹理分量的纹理数据中获得所述至少一个块的深度信息。
这种解码设备尤其能够实施上述解码方法。
本发明还涉及一种视图合成方法,所述合成方法由解码设备或视图合成设备实施,该方法包括以下步骤:
-根据上文所提及的根据本发明的解码方法来重建视图,
-从该重建视图并且从表示已获得的所述至少一个块的深度的信息中合成视图的至少一部分。
本发明还涉及一种包括指令的计算机程序,当所述程序由处理器执行时,这些指令用于实施根据前述具体实施例中的任何一个的根据本发明的编码、解码或合成方法。
这种指令可以持久地存储在实施上述编码方法的编码设备、实施上述解码方法的解码设备或实施上述合成方法的合成设备的非暂态存储器介质中。
该程序可以使用任何编程语言,并且可以是源代码、目标代码、或在源代码与目标代码之间的中间代码的形式,如呈部分编译的形式或呈任何其他令人期望的形式。
本发明还针对一种计算机可读存储介质或信息介质,该计算机可读存储介质或信息介质包括如上文所提及的计算机程序的指令。
该存储介质可以是能够存储程序的任何实体或设备。例如,该介质可以包括比如ROM(例如,CD ROM或微电子电路ROM)等存储装置、或甚至磁性存储装置(例如,USB密钥或硬盘)。
并且,该存储介质可以是可以经由电缆或光缆以无线或其他方式传送的可传输介质,比如电信号或光信号。根据本发明的程序可以具体地通过互联网类型的网络进行下载。
可替代地,该存储介质可以是该程序被结合在其中的集成电路,该电路被适配成执行或用于执行上述编码方法、上述解码方法或甚至上述合成方法。
附图说明
在阅读作为说明性和非限制性示例给出的本发明的具体实施例以及附图时,其他特征和优点将变得明显,在附图中:
[图1]图1表示在本发明的具体实施例中用于对视图进行编码的方法的进展,
[图2A]图2A表示在图1的编码方法中实施的获得深度估计参数的步骤的第一实施例,
[图2B]图2B表示在图1的编码方法中实施的获得深度估计参数的步骤的第二实施例,
[图3A]图3A表示由图1的编码方法所编码的信息的信令的第一实施例,
[图3B]图3B表示由图1的编码方法所编码的信息的信令的第二实施例,
[图4]图4表示实施图1的编码方法的视频编码设备,
[图5]图5表示在本发明的具体实施例中用于对视图进行解码的方法的进展,
[图6]图6表示实施图5的解码方法的视频解码设备,
[图7]图7表示在本发明的具体实施例中的缺失视图合成方法的进展,
[图8A]图8A表示在本发明的具体实施例中实施图7的合成方法的合成设备,
[图8B]图8B表示在本发明的另一个具体实施例中实施图7的合成方法的合成设备。
具体实施方式
多视图视频编码方法的实施示例
下面描述了一种用于对多视图视频进行编码的方法,该方法可以使用任何类型的多视图视频编码器,例如符合3D-HEVC或MV-HEVC标准、或其他标准的多视图视频编码器。
参考图1,这种编码方法被应用于形成多个视图V1,......,VN的一部分的当前视图,该多个视图分别从捕获该场景的相机的多个视角或多个位置/取向表示3D场景。
根据本发明的编码方法包括在当前时刻对以下各项进行编码:
-视图V1
-视图V2
-...,
-视图Vi
-...,
-视图VN
在N个视图中考虑的一个视图既可以是与该视图相关联的纹理分量,也可以是深度分量或深度图。例如,当前视图Vi(1≤i≤N)通常与Q(Q≥1)个像素的纹理分量Ti以及具有深度值Q的深度分量Pi相关联,这些深度值与至少一个纹理分量(比如纹理分量Ti或N个视图中除视图Vi之外的视图的纹理分量)的Q个像素相关联。众所周知,深度分量Pi可以直接由纹理图像Ti生成,或者通过使用比如LIDAR(代表“光探测和测距”)等设备捕获3D场景的体积数据来生成。
在C1中,在当前时刻选择当前视图Vi,以预定顺序一个接一个地选择N个视图中的每一个。
在C2中,将所述至少一个视图Vi的深度分量Pi划分成多个块B1,B2,...,Bj,...,BM(1≤j≤M)。在一个可能的实施例中,认为单个深度块对应于未划分的深度分量Pi。深度分量的块可以是预定义的大小(例如,64×64像素)、可参数化的(则所使用的大小以编码形式传输)、或者自适应的(其中,所使用的大小的信令与在HEVC标准中实施的信令类似)。在后一种情况下,深度分量Pi首先被分为最大大小(例如,64×64像素)的块,然后针对每个块传输二元信息,该二元信息指示该块是否必须被递归地细分为更小的块,直至达到预定义的最小块大小(例如,4×4像素),对此情况不传输信息。这使得可以对深度分量Pi的块的细分进行定义。
在C3中,选择深度分量Pi的当前块Bi,以预定顺序一个接一个地选择深度分量Pi的每个块。
在C4中,对于所述至少一个当前块Bj,获得深度信息IPj。如本身已知的,对于纹理分量Ti和/或N个视图中除视图Vi之外的视图的纹理分量的像素块BT的所有或部分像素,获得与这些像素相对应的深度值Z1至ZR,从而形成与像素块BT相对应的深度块BPj
在C5中,从所述深度信息IPi中获得至少一个深度估计参数PE。
根据图2A所表示的第一获得实施例,在C51a中,确定R个深度值Z1至ZR中的最大深度值Zmax和/或最小深度值Zmin
在C52a中,将Zmin或Zmax、或者区间[Zmin,Zmax]指配给深度估计参数PE。
根据图2B所表示的第二获得实施例,在C51b中,选择深度估计方法的至少一个深度估计参数PME。这例如是上文所提及的深度估计算法DERS的参数。根据另一个示例,该参数可以是比如IVDE算法等另一深度估计算法的参数。关于DERS算法,所选择的参数例如是规则化参数或“平滑系数”Sc,这使得可以迫使深度估计算法DERS找到对应于像素块BT的无噪声深度块。可以使用深度估计算法参数的其他示例,比如:
-可靠性参数,比如DERS算法的参数λ,其允许DERS算法在深度值的可靠性太低的情况下继续细化深度值,
-平滑参数,比如在IVDE算法中使用并在上述文件“Dawid Mieloch、AdrianDziembowski、Jakub Stankowski、Olgierd Stankiewicz、Marek
Figure BDA0004146087950000091
GwangsonLee、Yun Young Jeong[MPEG-I Visual]Immersive video depth estimation[沉浸式视频深度估计],ISO/IEC JTC1/SC29/WG11 MPEG2020m53407”中描述的初始平滑参数β0
在C52b中,对于已选择的深度估计方法的深度估计参数PME的X(X≥1)个可能值Val1,...,Valk,...,ValX(1≤k≤X)的有限集,分别获得X个估计深度块BPE1,...,BPEk,...,BPEX。对于参数Sc,可能值的有限集例如是{0.01,0.02,0.04,0.08,0.16}。显然,根据当前视频上下文,其他值也是可能的。
在C53b中,从已经估计了深度的X个块BPE1,...,BPEk,...,BPEX中,选择估计深度最接近从像素块BT获得的原始深度块BPj的块。这种选择使用失真测量来实施,比如PSNR(代表“峰值信噪比”)、均方误差、差的绝对值之和或任何其他类似测量。在所表示的示例中,所选择的例如是估计深度块BPEk
在C54b中,已经为C53b中所选择的估计深度块BPEk选择的深度估计方法的深度估计参数PME的值Valk然后被选择为深度估计参数PE的值。
再次参考图1,在C6中,对深度估计参数PE进行编码,例如使用无损编码方法,比如CABAC(代表“上下文自适应二进制算术编码”),或者甚至通过霍夫曼编码,或者通过Lempel-Ziv编码。在图2A的示例中,在C6中被编码的是值Zmin或值Zmax、或甚至是区间[Zmin,Zmax]。在图2B的示例中,在C6中被编码的是规则化参数Sc的值Valk,在其他实施例中,甚至是上述可靠性参数或平滑参数。除了该值Valk之外,还可以对另一个参数的值进行编码,比如能够在步骤C54b结束时获得的上述可靠性参数或平滑参数。在步骤C6结束时,获得已编码深度估计参数PEC
可选地(并且因此在图1中以虚线表示),在C7中对表示C5中所使用的深度估计方法(例如DERS或IVDE)的信息IMEP进行编码,例如使用无损编码方法,比如CABAC。这种信息IMEP可以在视图Vi中或在位于不同时刻的一系列视图Vi中进行编码。在步骤C7结束时,获得已编码信息IMEPC
在C8中,使用常规视频编码器(比如HEVC)对纹理分量Ti进行编码。在步骤C8结束时,获得已编码纹理分量Ti C
根据图3A所表示的第一实施例,已编码深度估计参数pEC、已编码信息IMEPC、以及已编码纹理分量Ti C的数据被包括在同一数据信号F中,该数据信号旨在被传输到将在后面的描述中进行描述的解码器。
根据图3B所表示的第二实施例,已编码深度估计参数pEC和已编码信息IMEPC被包括在同一数据信号F中,而已编码纹理分量Ti C的数据被包括在另一个数据信号F′中,信号F和F′都旨在被传输到上述解码器。
有利地,根据本发明,编码方法不生成已编码深度块BPj C。因此,在图3A和图3B的示例中,信号F不包含任何已编码深度块BPj C
然后,可以针对深度分量Pi的每个块B1到BM、其次针对视图V1到VN中的每一个实施上述编码方法。
视频编码设备的实施示例
图4呈现了编码设备COD的简化结构,该编码设备适用于实施根据本发明的具体实施例中的任一个的编码方法。
根据本发明的具体实施例,通过该编码方法执行的动作由计算机程序指令实施。为此,编码设备COD具有计算机的常规架构,并且尤其包括存储器MEM_C、处理单元UT_C,该处理单元配备有例如处理器PROC_C、并且由存储在存储器MEM_C中的计算机程序PG_C驱动。计算机程序PG_C包括用于在程序由处理器PROC_C运行时实施如上所述的编码方法的动作的指令。
在初始化时,计算机程序PG_C的代码指令例如在由处理器PROC_C执行之前被加载到RAM存储器(未表示出)中。处理单元UT_C的处理器PROC_C尤其根据计算机程序PG_C的指令来实施上文所描述的编码方法的动作。
多视图视频解码方法的实施示例
下文描述了一种用于对多视图视频进行解码的方法,该方法可以使用任何类型的多视图视频解码器,例如符合3D-HEVC或MV-HEVC标准、或其他标准的多视图视频解码器。
参考图5,这种解码方法被应用于表示当前视图的数据信号,该当前视图已根据上述编码方法进行了编码,所述当前视图形成多个视图V1,...,VN的一部分。
根据本发明的解码方法包括对以下各项进行解码:
-表示已被编码的视图V1的数据信号,
-表示已被编码的视图V2的数据信号,
-...,
-表示已被编码的视图Vi的数据信号,
-...,
-表示已被编码的视图VN的数据信号。
解码方法包括针对数据信号F(图3A)或针对表示要重建的已编码当前视图Vi的数据信号F和F′(图3B)进行以下步骤:
在D1中,在当前时刻选择已被编码的当前视图Vi,以预定顺序一个接一个地选择N个视图中的每一个。
在D2中,将所述至少一个视图Vi的要重建的深度分量Pi划分成多个块B1,B2,...,Bj,...,BM(1≤j≤M)。在一个可能的实施例中,认为单个深度块对应于未划分的深度分量Pi。深度块可以是预定义的大小(例如,64×64像素)、可参数化的(则对以已编码形式传输的所使用的大小进行解码)、或者自适应的(其中,所使用的大小的信令与在HEVC标准中实施和在信号F中读取的信令类似)。在后一种情况下,深度分量Pi首先被分为最大大小(例如,64×64像素)的块,然后针对每个块(例如,在信号F或另一个信号中)读取二元信息,该二元信息指示该块是否必须被递归地细分为更小的块,直至达到预定义的最小块大小(例如,4×4像素),对此情况不读取信息。这使得可以对深度分量Pi的块的细分进行定义。
在D3中,选择深度分量Pi的当前块Bj,以预定顺序一个接一个地选择深度分量Pi的每个块。
在D4中,可选地(并且因此在图5中以虚线表示),在数据信号F(图3A或图3B)中读取表示在C5(图1)中所使用的深度估计方法的已编码信息IMEPC
在D5中,对该已编码信息IMEPC进行解码,例如使用无损解码方法,比如CABAC,或者甚至通过霍夫曼解码或Lempel-Ziv解码。这种已编码信息IMEPC可以在当前视图Vi中或在位于不同时刻的一系列视图Vi中进行解码。在步骤D5结束时,获得信息IMEP。
作为可选步骤D4和D5的替代方案,C5中所使用的深度估计方法可以在解码器中预定义。在这种情况下,可直接获得表示深度估计方法的信息IMEP。
在D6中,在图3A或图3B的数据信号F中读取与深度分量Pi的要重建的当前块Bj相关联的至少一个已编码深度估计参数PEC
在D7中,对所述至少一个已编码深度估计参数PEC进行解码,例如使用无损解码方法,比如CABAC,或者通过霍夫曼解码或Lempel-Ziv解码。如果在C6中被编码的是深度值Zmin或Zmax、或甚至是区间[Zmin,Zmax],则:
-要么在D7中对深度值Zmin进行解码并将其指配给深度估计参数PE,
-要么在D7中对深度值Zmx进行解码并将其指配给深度估计参数PE,
-或者在D7中对深度值区间[Zmin,Zmax]进行解码并将其指配给深度估计参数PE。
如果在C6中被编码的是规则化参数Sc的值Valk,和/或根据其他实施例甚至是上述可靠性参数或平滑参数的值,则在D7中对值Valk进行解码并将其指配给深度估计参数PE。除了该值Valk之外,还可以对在步骤C54b结束时获得的另一个参数(比如,上述可靠性参数或平滑参数)的值进行解码。
在D8中,例如借助于常规视频解码器(比如HEVC)来重建所述至少一个视图Vi的纹理分量Ti。在步骤D8结束时获得重建纹理分量Ti R。显然,步骤D8可以在步骤D1至步骤D7之前实施,或者在接收到数据信号F(图3A)或F′(图3B)的任何时刻实施。为此,在信号F(图3A)或F′(图3B)中读取已编码纹理分量Ti C的数据,然后进行重建,从而生成重建纹理分量Ti R
在D9中,从在D7中解码的所述至少一个深度估计参数PE并且从所述重建纹理分量Ti R或者N个视图中除视图Vi之外的视图的重建纹理分量的纹理数据(像素)获得所述当前块Bj的深度信息IPj
根据步骤D9的第一实施例,通过使用预定义深度估计方法或与在D5中获得的IMEP参数相对应的深度估计方法,使用与要重建的深度分量Pi的当前块Bj相关的深度值Zmin或深度值Zmax、或甚至深度值区间[Zmin,Zmax],对重建纹理分量Ti R的块的每个像素实施深度搜索。这种操作的优点在于,确定当前块Bj的深度不是在理论上可能的最大深度与最小深度之间(通常,在0米到无穷大之间),而是至多在[Zmin,Zmax]之间。这使得可以大大减少要测试的深度的数量,从而降低了深度估计算法的复杂性。在步骤D9的第一实施例结束时,获得与当前块Bj相对应的重建深度块BPj R
根据步骤D9的第二实施例,通过使用在D7中解码的规则化参数Sc(或者例如可靠性参数或平滑参数)的值Valk,将预定义深度估计方法或与在D5中获得的IMEP参数相对应的深度估计方法应用于当前块Bj,以对重建纹理分量Ti R的块的每个像素进行深度搜索。在步骤D9的第二实施例结束时,获得与当前块Bj相对应的重建深度块BPj R。凭借该第二实施例,重建深度块BPj R很接近在图1的编码方法期间在C4中获得的深度块BPj,有利地,根据本发明,该深度块BPj既未被编码,也未在信号F或F′中传输。
在D10中,然后将重建深度块BPj R包括在与重建纹理分量Ti R相对应的当前被重建的深度分量Pi R中。
然后,针对要重建的每个像素块B1至BM、其次针对要重建的视图V1至VN中的每一个实施上述解码方法。
视频解码设备的实施示例
图6呈现了解码设备DEC的简化结构,该解码设备适用于实施根据本发明的具体实施例中的任一个的解码方法。
根据本发明的具体实施例,通过上述解码方法执行的动作由计算机程序指令实施。为此,解码设备DEC具有计算机的常规架构,并且尤其包括存储器MEM_D、处理单元UT_D,该处理单元配备有例如处理器PROC_D、并且由存储在存储器MEM_D中的计算机程序PG_D驱动。计算机程序PG_D包括用于在程序由处理器PROC_D运行时实施如上所述的解码方法的动作的指令。
在初始化时,计算机程序PG_D的代码指令例如在由处理器PROC_D执行之前被加载到RAM存储器(未表示出)中。处理单元UT_D的处理器PROC_D尤其根据计算机程序PG_D的指令来实施上文所描述的解码方法的动作。
视图合成方法的实施示例
现在参考图7对使用根据图5的解码方法重建的视图的视图合成方法进行描述。
如图7所展示的,根据本发明的合成方法使用了在图5的解码方法结束时获得的N个重建视图V1 R,...,VN R中的至少一个重建视图。
在S1中,从这N个重建视图中选择至少一个重建视图Vq R(1≤q≤N)。重建视图Vq R包括重建纹理分量Tq R及其相关联的重建深度分量Pq R
在S2中,根据重建纹理分量Tq R并且根据与该重建纹理分量Tq R的重建像素块By R相关联的至少一个重建深度块BPy R计算缺失视图或中间视图(比如,用户要求显示在他或她的计算机或者他或她的电话的屏幕上的视图)的至少一个合成部分PVsy,其中,1≤y≤M。该缺失视图或中间视图的合成部分PVsy使用常规合成算法来计算,比如VSRS算法、RVS(“参考视图合成器”)算法、VVS(“多功能视图合成器”)算法等。
合成设备的实施示例
图8A或图8B呈现了合成设备SYNT的简化结构,该合成设备适用于实施根据本发明的具体实施例中的任一个的图7的合成方法。
根据本发明的具体实施例,通过图7的合成方法执行的动作由计算机程序指令实施。为此,合成设备SYNT具有计算机的常规架构,并且尤其包括存储器MEM_S、处理单元UT_S,该处理单元配备有例如处理器PROC_S、并且由存储在存储器MEM_S中的计算机程序PG_S驱动。计算机程序PG_S包括用于在程序由处理器PROC_S运行时实施如上所述的合成方法的动作的指令。
在初始化时,计算机程序PG_S的代码指令例如在由处理器PROC_S执行之前被加载到RAM存储器(未表示出)中。处理单元UT_S的处理器PROC_S尤其根据计算机程序PG_S的指令来实施上文所描述的合成方法的动作。
根据图8A所表示的实施例,合成设备SYNT被布置在解码器DEC的输出端,如图8A所展示的。
根据图8B所表示的实施例,合成设备SYNT形成解码器DEC的整体部分,如图8B所展示的。

Claims (15)

1.一种用于对从不同位置或不同视角同时表示3D场景的视图进行编码的方法,该方法由编码设备实施,该方法包括针对至少一个视图的深度分量进行以下步骤:
-将所述深度分量划分(C2)成至少一个块,
-从所述视图中的至少一个的纹理分量的纹理数据中获得(C4)所述至少一个块的深度信息,
-从所述信息中获得(C5)至少一个深度估计参数,
-对所述至少一个深度估计参数进行编码(C6),所述至少一个块的深度信息未被编码。
2.如权利要求1所述的编码方法,其中,所述至少一个深度估计参数是所述至少一个块的深度值(Zmax),该深度值大于所述至少一个块的深度值中的每一个;或者是所述至少一个块的深度值(Zmin),该深度值小于所述至少一个块的深度值中的每一个。
3.如权利要求1所述的编码方法,其中,所述至少一个深度估计参数是由深度估计方法所使用的参数(Sc;λ;β0)。
4.如权利要求1至3中任一项所述的编码方法,其中,对表示深度估计方法的信息进行编码。
5.一种用于对根据不同位置或不同视角同时表示3D场景的视图进行编码的设备,所述编码设备包括处理器(UT_C),该处理器被配置成针对至少一个视图的深度分量实施以下步骤:
-将所述深度分量划分成至少一个块,
-从所述视图中的至少一个的纹理分量的纹理数据中获得所述至少一个块的深度信息,
-从所述信息中获得至少一个深度估计参数,
-对所述至少一个深度估计参数进行编码,所述至少一个块的深度信息未被编码。
6.一种包括程序代码指令的计算机程序,当该计算机程序在计算机上运行时,这些程序代码指令用于实施如权利要求1至4中任一项所述的编码方法。
7.一种计算机可读信息介质,包括如权利要求6所述的计算机程序的指令。
8.一种用于对从不同位置或不同视角同时表示3D场景的视图进行解码的方法,该方法由解码设备实施,该方法包括针对至少一个视图的深度分量进行以下步骤,所述深度分量被划分成至少一个块:
-在数据信号中读取(D6)与所述至少一个块相关联的至少一个深度估计参数,
-对所述至少一个深度估计参数进行解码(D7),
-从所述至少一个深度估计参数并且从所述视图中的至少一个的重建纹理分量的纹理数据中获得(D9)所述至少一个块的深度信息。
9.如权利要求8所述的解码方法,其中,所述至少一个深度估计参数是所述至少一个块的深度值(Zmax),该深度值大于所述至少一个块的深度值中的每一个;或者是所述至少一个块的深度值(Zmin),该深度值小于所述至少一个块的深度值中的每一个。
10.如权利要求8所述的解码方法,其中,所述至少一个深度估计参数是由深度估计方法所使用的参数(Sc)。
11.如权利要求8至10中任一项所述的解码方法,其中,对表示深度估计方法的信息进行解码。
12.一种用于对从不同位置或不同视角同时表示3D场景的视图进行解码的设备,所述解码设备包括处理器(UT_D),该处理器被配置成针对至少一个视图的深度分量实施以下步骤:所述深度分量被划分成至少一个块:
-在数据信号中读取与所述至少一个块相关联的至少一个深度估计参数,
-对所述至少一个深度估计参数进行解码,
-从所述至少一个深度估计参数并且从所述视图中的至少一个的重建纹理分量的纹理数据中获得所述至少一个块的深度信息。
13.一种视图合成方法,所述合成方法由解码设备或视图合成设备实施,该方法包括以下步骤:
-根据如权利要求8至11中任一项所述的解码方法来重建视图,
-从该重建视图并且从表示已获得的所述至少一个块的深度的信息中合成视图的至少一部分。
14.一种包括程序代码指令的计算机程序,当该计算机程序在计算机上运行时,这些程序代码指令用于实施如权利要求8至11中任一项所述的解码方法或如权利要求13所述的合成方法。
15.一种计算机可读信息介质,包括如权利要求14所述的计算机程序的指令。
CN202180065991.XA 2020-09-29 2021-09-08 用于编码和解码多视图视频的方法 Pending CN116325721A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR2009913A FR3114716A1 (fr) 2020-09-29 2020-09-29 Codage et décodage d’une vidéo multi-vues
FRFR2009913 2020-09-29
PCT/FR2021/051540 WO2022069809A1 (fr) 2020-09-29 2021-09-08 Codage et decodage d'une video multi-vues

Publications (1)

Publication Number Publication Date
CN116325721A true CN116325721A (zh) 2023-06-23

Family

ID=74553905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180065991.XA Pending CN116325721A (zh) 2020-09-29 2021-09-08 用于编码和解码多视图视频的方法

Country Status (8)

Country Link
US (1) US20230412831A1 (zh)
EP (1) EP4222950A1 (zh)
JP (1) JP2023543048A (zh)
KR (1) KR20230078669A (zh)
CN (1) CN116325721A (zh)
BR (1) BR112023005339A2 (zh)
FR (1) FR3114716A1 (zh)
WO (1) WO2022069809A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101628383B1 (ko) * 2010-02-26 2016-06-21 연세대학교 산학협력단 영상 처리 장치 및 방법
KR101662918B1 (ko) * 2011-11-11 2016-10-05 지이 비디오 컴프레션, 엘엘씨 깊이-맵 추정 및 업데이트를 사용한 효율적인 멀티-뷰 코딩

Also Published As

Publication number Publication date
BR112023005339A2 (pt) 2023-04-25
FR3114716A1 (fr) 2022-04-01
EP4222950A1 (fr) 2023-08-09
WO2022069809A1 (fr) 2022-04-07
US20230412831A1 (en) 2023-12-21
JP2023543048A (ja) 2023-10-12
KR20230078669A (ko) 2023-06-02

Similar Documents

Publication Publication Date Title
US8488870B2 (en) Multi-resolution, multi-window disparity estimation in 3D video processing
US11412233B2 (en) Methods for MR-DIBR disparity map merging and disparity threshold determination
Hou et al. Light field image compression based on bi-level view compensation with rate-distortion optimization
US20190222821A1 (en) Methods for Full Parallax Compressed Light Field 3D Imaging Systems
JP5575908B2 (ja) 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法
JP5763184B2 (ja) 3次元画像に対する視差の算出
EP3298577B1 (en) Filtering depth map image using texture and depth map images
KR101492876B1 (ko) 사용자 선호도들에 기초하여 3d 비디오 렌더링을 조정하기 위한 3d 비디오 제어 시스템
US11159824B1 (en) Methods for full parallax light field compression
CN108886598A (zh) 全景立体视频系统的压缩方法和装置
EP2476096A1 (en) Rendering multiview content in a 3d video system
JP7105062B2 (ja) 画像処理装置、コンテンツ処理装置、コンテンツ処理システム、および画像処理方法
WO2019211541A2 (fr) Procédé et dispositif de décodage d'une vidéo multi-vue, et procédé et dispositif de traitement d'images
WO2018127629A1 (en) Method and apparatus for video depth map coding and decoding
CN113853796A (zh) 用于体积视频编码和解码的方法、装置和计算机程序产品
CN116325721A (zh) 用于编码和解码多视图视频的方法
Liu et al. Coding of 3D holoscopic image by using spatial correlation of rendered view images
CN113785585B (zh) 用于编码和解码多视图视频序列的方法和设备
WO2019185983A1 (en) A method, an apparatus and a computer program product for encoding and decoding digital volumetric video
US20230065861A1 (en) Method and device for processing multi-view video data
Sebai et al. Piece-wise linear function estimation for platelet-based depth maps coding using edge detection
CN117043820A (zh) 沉浸式视频上下文中的深度估计方法
Sharma et al. A Novel Unified Model for Multi-exposure Stereo Coding Based on Low Rank Tucker-ALS and 3D-HEVC

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination