CN108293133A - 用于编码和解码基于光场的图像的方法和装置及对应计算机程序产品 - Google Patents

用于编码和解码基于光场的图像的方法和装置及对应计算机程序产品 Download PDF

Info

Publication number
CN108293133A
CN108293133A CN201680065314.7A CN201680065314A CN108293133A CN 108293133 A CN108293133 A CN 108293133A CN 201680065314 A CN201680065314 A CN 201680065314A CN 108293133 A CN108293133 A CN 108293133A
Authority
CN
China
Prior art keywords
pixel
predicted
block
pixels
prediction modes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680065314.7A
Other languages
English (en)
Inventor
D.梭罗
M.艾伦
M.特坎
P.圭洛特尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN108293133A publication Critical patent/CN108293133A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开总体上涉及一种用于预测属于从与场景关联的光场数据获得的视图矩阵(17)的视图(170)的至少一个像素块的方法。根据本公开,所述方法由处理器实现并且包括,对于所述像素块的要预测的至少一个像素:‑从所述视图矩阵(17),获得(51)所述要预测的像素所属于的至少一个对极平面图像(EPI),‑在单向预测模式的集合中,从所述至少一个对极平面图像中邻近所述要预测的像素的先前重建像素的集合,确定(52)至少一个最佳单向预测模式,‑通过使用所述至少一个最佳单向预测模式,外推(53)所述要预测的像素的预测值。

Description

用于编码和解码基于光场的图像的方法和装置及对应计算机 程序产品
技术领域
本公开涉及光场成像,并且涉及用于采集和处理光场数据的技术。更确切地说,本公开总体上涉及用于编码和解码基于光场的图像的方法和装置,并且在图像或视频编码/解码领域中得到应用。
背景技术
该部分旨在向读者介绍可能与以下描述和/或要求保护的本发明的各个方面相关的技术的各个方面。相信该讨论有助于向读者提供背景信息以便于更好地理解本发明的各个方面。因此,应当理解的是,这些陈述应当就此而言被理解,而不是对现有技术的承认。
常规的图像捕捉装置将三维场景绘制到二维传感器上。在操作期间,常规捕捉装置捕捉表示到达装置内的光传感器(或光检测器)的光量的二维(2-D)图像。然而,该2-D图像不包含关于到达光传感器的光线的方向分布(可以称为光场)的信息。例如,深度在采集期间会丢失。因此,常规的捕捉装置不存储关于来自场景的光分布的大部分信息。
光场捕捉装置(也称为“光场数据采集装置”)已被设计成通过捕捉来自该场景的不同视点的光而测量场景的四维(4D)光场。因此,通过测量沿着与光传感器相交的每个光束传播的光量,这些装置可以捕捉附加的光学信息(关于光线束的方向分布的信息),以便通过后处理提供新的成像应用。由光场捕捉装置采集/获得的信息被称为光场数据。光场捕捉装置在本文中定义为能够捕捉光场数据的任何装置。有几种类型的光场捕捉装置,其中:
-全光装置,其使用放置在图像传感器和主透镜之间的微透镜阵列,如文献US2013/0222633中所述;
-相机阵列,其中所有相机成像到单个共享的图像传感器上。
光场数据也可以利用计算机生成图像(CGI),从均通过使用常规手持相机从不同视点拍摄的场景的一系列2-D图像进行模拟。
光场数据处理尤其包括但不限于生成场景的重新聚焦图像,生成场景的透视图,生成场景的深度图,生成景深扩展(EDOF)图像,生成立体图像,和/或这些的任何组合。
更确切地说,本公开集中于由以下公开的如图1所示的全光装置捕捉的基于光场的图像:R.Ng等人,“Light field photography with a hand-held plenoptic camera”,Standford University Computer Science Technical Report CSTR 2005-02,第11期(2005年4月)。
这样的全光装置由主透镜(11),微透镜阵列(12)和光传感器(13)组成。更确切地说,凸透镜将对象聚焦到微透镜阵列上(或附近)。微透镜阵列(12)将会聚光线分离成在其后面的光传感器(13)上的图像。
微图像是在微透镜阵列(12)的所考虑的微透镜后面的光传感器上形成的图像(14),如由http://www.tgeorgiev.net/公开的图2所示,其中左侧的图像对应于原始数据,而右侧的图像对应于特别表示海鸥头部的微图像的细节。微图像的分辨率和数量取决于微透镜相对于传感器的尺寸。更确切地说,微图像分辨率根据装置和应用(从2x2像素到约100x100像素)变化很大。
然后,从每个微图像重建子光圈图像。这样的重建包括从每个微图像收集并置的像素。微透镜越多,子光圈图像的分辨率越高。更确切地说,如图3所示,考虑到一个微透镜与光传感器(15)的NxN像素重叠,通过考虑第i视图包含与包括LxL微透镜的微透镜阵列(16)的每个微透镜重叠的所有LxL第i像素而获得视图(17)的NxN矩阵,其中“x”是乘法运算符。
更准确地说,在图3中,L=8且N=4,因此第一视图300将包括由所考虑的微透镜阵列的64个微透镜中的每个微透镜覆盖的十六个像素中的第一个。
子光圈图像重建需要去模糊处理。目前开发了用于从原始全光材料恢复视图矩阵的技术,例如由以下公开的技术:N.Sabater等人,“Light field demultiplexing anddisparity estimation”,International Conference on Complementary Problems ICCP2014。
与全光装置相反,相机阵列装置(如Pelican Imaging相机)直接递送视图矩阵(即,不需要去模糊处理)。
用于编码这样的基于光场的图像的现有技术方法包括使用标准图像或视频编解码器(如JPEG,JPEG-2000,MPEG4 Part 10AVC,HEVC)。然而,这样的标准编解码器不能考虑到光场成像(亦称全光数据)的特殊性,其记录每个方向上的空间中每个点处的光量(“辐射亮度(radiance)”)。
事实上,应用常规的标准图像或视频编解码器(如JPEG,JPEG-2000,MPEG4 Part10AVC,HEVC)递送常规的成像格式。
然而,在由这些更丰富的数据源提供的许多新光场成像功能中,有一种是在内容已被捕捉之后处理内容的能力;这些处理可能有不同的目的,特别是艺术的,基于任务的和法医的。例如,用户可以实时改变焦点,景度和立体基线,以及观察者视角。这样的媒体交互和体验对于通过使用常规标准图像或视频编解码器编码/解码基于光场的图像而获得的常规成像格式是不可用的。
因此期望提供一种用于编码/解码基于光场的图像的技术,其不会显示现有技术的这些缺点。值得注意的是,期望提供这样的技术,其将允许更精细地绘制从基于光场的图像获得的解码图像的感兴趣对象。
发明内容
以下呈现本公开的简化总结以提供对本公开的一些方面的基本理解。该总结不是对本公开的广泛概述。它并不旨在确定本公开的关键或重要要素。以下总结仅以简化形式呈现本公开的一些方面,作为以下提供的更详细描述的序言。
本公开通过一种用于预测属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的方法来解决现有技术的至少一个缺点。
这样的方法由处理器实现并且包括,对于所述像素块的要预测的至少一个像素:
-从所述视图矩阵,获得所述要预测的至少一个像素所属于的至少一个对极平面图像(EPI),
-在单向预测模式的集合中,从所述至少一个对极平面图像中邻近所述要预测的至少一个像素的先前重建像素的集合,确定至少一个最佳单向预测模式,
-通过使用所述至少一个最佳单向预测模式,外推所述要预测的至少一个像素的预测值。
本公开因此依赖于用于预测属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的新颖且创造性的方法。实际上,本公开受益于对极平面图像内部的线性结构的特定性质。
更确切地说,如B.Goldluecke等人在“The Variational Structure ofDisparity and Regularization of 4D Light Fields”pp 1003-1010 2013 IEEEConference on Computer Vision and Pattern Recognition中所公开的,水平(相应地,竖直)对极平面图像是2D图像,其通过沿着视图矩阵的视图的行(相应地,列)彼此叠置地堆叠所述视图矩阵的所有图像而构建,并且对应于沿着每个堆叠视图的相同行(相应地,沿着每个堆叠视图的相同列)的获得堆叠的切割。
必须注意的是,可以使用与水平或竖直不同的另一取向来获得对应的EPI。
换句话说,根据本公开,所述至少一个对极平面图像(EPI)是水平对极平面图像(EPI),竖直对极平面图像(EPI)或具有相对于水平或竖直对极平面图像的角度取向的对极平面图像(EPI)(所述角度取向是预定的或不预定的)。
在单向预测模式(预定的或不预定的)的集合中,从所述至少一个对极平面图像中邻近所述要预测的至少一个像素的先前重建像素的集合确定至少一个最佳单向预测模式,允许精确地利用视图间相关性,即,具有的像素(或小于像素块的像素组)分辨率是根据现有技术的预测方法(如H.264标准的预测方法)不可能具有的。
结果,由于基于对极平面图像的本公开的预测模式,可以提供相对于提供视图矩阵的全光成像的特殊性更优化的预测模式。
必须注意的是,B.Goldluecke在“The Variational Structure of Disparityand Regularization of 4D Light Fields”中既没有公开也没有建议使用对极平面图像来优化编码/解码处理期间的像素预测,而是使用对极平面图像来导出对极平面图像空间上的矢量场的差分约束,以实现与光场的4D光线空间上更一般的矢量值函数的正则化相关的一致视差场。
使用对极平面图像允许利用场景的四维(4D)光场的性质,原因是它们的构建基于表示来自该场景的不同视点(即,水平对极平面图像的视图矩阵的相同行的视点,竖直对极平面图像的视图矩阵的相同列的视点,或具有相对于所述视图矩阵的行或列的角度取向的所述视图矩阵的相同视图集合的视点)的光的视图的堆叠。
根据本公开的第一实施例,所述确定所述最佳单向预测模式包括,对于所述像素块的要预测的至少一个像素:
-将不同的滤波操作与所述单向预测模式集合中的每个单向预测模式关联,
-将每个滤波操作应用于所述至少一个对极平面图像中邻近所述要预测的至少一个像素的所述先前重建像素的集合,以获得每个单向预测模式的能量水平,
-选择所述最佳单向预测模式,其对应于能量水平是对于每个单向预测模式获得的能量水平的最小值或最大值的自变量的单向预测模式。
换句话说,每个单向预测模式与从所述至少一个对极平面图像中邻近所述要预测的至少一个像素的先前重建像素的集合外推所述要预测的至少一个像素的预测值的方向关联。
事实上,光场在光线空间上定义,并且隐含地表示在其对极平面图像上变得可见的丰富结构中的场景几何数据。因此,对极平面图像具有特定的方向结构。根据本公开,选定的最佳单向预测模式对应于相对于用于所考虑的像素块的要预测的像素的所考虑的对极平面图像的方向结构最适合的单向预测模式。
根据第二实施例,本公开的用于预测的方法还包括提供所述像素块内的要预测的至少一个像素组,所述像素组包括相同行的至少两个像素,相同列的至少两个像素,或具有相对于所述像素块的行或列的角度取向的至少两个像素的集合的至少两个像素,
其中确定所述最佳单向预测模式包括:
-将不同的滤波操作与所述单向预测模式集合中的每个单向预测模式关联,
-对于所述像素组的要预测的至少一个像素,将每个滤波操作应用于所述至少一个对极平面图像中邻近所述要预测的至少一个像素的所述先前重建像素的集合,以获得每个单向预测模式的能量水平,
-对于属于所述像素组的要预测的所有像素选择相同的最佳单向预测模式,所述最佳单向预测模式对应于能量水平是对于所述像素组的要预测的至少一个像素获得的能量水平的最小值或最大值的自变量(argument)的单向预测模式。
根据这样的实施例,所实现的选择是鲁棒的,原因是对于属于所述组的要预测的所有像素获得单个最佳单向预测模式,这样的最佳单向预测模式具有的能量水平是对于每个单向预测模式和对于所述像素组的要预测的至少一个像素获得的能量水平的最小值的自变量。
可以注意到,基于具有根据正交于潜在轮廓的方向计算的梯度的最大梯度的方法也是可能的。
换句话说,通过考虑比在先前实施例中考虑的更多获得的能量水平来完成选择,其中执行最佳单向预测模式的选择,使得要预测的每个像素而不是对于属于所述像素组的要预测的所有像素获得最佳单向预测模式。
根据前述两个实施例的第一变型,当要预测的一个像素所属于的至少两个对极平面图像(EPI)对应于水平对极平面图像(EPI)和竖直对极平面图像(EPI),或对应于不同角度取向对极平面图像(EPI)的集合时,对于所述水平对极平面图像(EPI)和所述竖直对极平面图像(EPI),或对于不同角度取向对极平面图像(EPI)的集合,确定所述最佳单向预测模式,所述最佳单向预测模式对应于能量水平是对于每个对极平面图像获得的能量水平的最小值的自变量的单向预测模式。
根据前述两个实施例的第二变型,当要预测的一个像素所属于的至少两个对极平面图像(EPI)对应于水平对极平面图像(EPI)和竖直对极平面图像(EPI),或对应于不同角度取向对极平面图像(EPI)的集合时,对于每个对极平面图像确定最佳单向预测模式,并且所述要预测的至少一个像素的所述预测值对应于通过使用对于每个对极平面图像确定的所述最佳单向预测模式相应地获得的至少两个预测值的平均值。
根据先前实施例的另一方面,将不同的滤波操作与所述单向预测模式集合中的每个单向预测模式关联包括,对于每个不同的滤波操作,在所述至少一个对极平面图像中邻近所述要预测的至少一个像素的所述先前重建像素的集合中定位应用点。
这样的方面增加了将每个滤波操作应用于所述至少一个对极平面图像中邻近所述要预测的像素的所述先前重建像素的集合以获得每个单向预测模式的能量水平的后续步骤的准确性。
根据前述实施例的另一方面,当在所述至少一个对极平面图像中邻近所述要预测的像素的所述先前重建像素的集合中,至少一个重建像素也属于所述视图并且邻近所述要预测的像素时,所述单向预测模式中的一个对应于外推方向是从既属于所述至少一个对极平面图像又属于所述视图的所述至少一个重建像素到所述要预测的像素的方向的单向预测模式。
本发明也涉及一种用于编码属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的方法。
这样的方法由处理器实现并且包括:
-根据如上所述的用于预测的方法预测所述至少一个像素块以获得预测像素块,
-确定与所述至少一个像素块和所述预测像素块之间的差对应的残余误差,
-编码与所述像素块关联的所述残余误差。
在所述编码期间实现的预测当然可以包括根据如前所述的本公开的不同实施例或变型的预测方法的不同特征。
根据所述用于编码的方法的特定方面,所述用于编码的方法还包括:
-在表示从与所述场景关联的光场数据获得的所述视图矩阵的信号中插入所述编码残余误差,
-在所述信号中插入表示所述像素块内的要预测的至少一个像素组的信息。
本公开的另一方面涉及一种表示从与所述场景关联的光场数据获得的视图矩阵的至少一个像素块的信号,所述信号由如上所述的所述用于编码的方法获得,其中在所述信号中插入表示所述像素块内的要预测的至少一个像素组的信息。
本公开的另一方面涉及一种承载如上所述的信号的记录介质。
本公开的另一方面涉及一种用于解码表示属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的信号的方法。
这样的方法由处理器实现并且包括:
-从所述信号解码与所述像素块关联的残余误差,
-根据如上所述的用于预测的方法预测所述至少一个像素块以获得预测像素块,
-通过将所述残余误差添加到所述预测像素块重建所述至少一个像素块。
这样的解码方法尤其适合于解码根据上述编码方法编码的信号。
以该方式,执行与编码时执行的相同预测步骤以重新构建给定的像素块,并且通过可选地将预测残余误差(在信号中传输)添加到预测。
在所述用于解码的方法的特定方面,可以从所述信号提取表示所述像素块内的要预测的至少一个像素组的信息,所述预测考虑所述信息。
本公开的另一方面涉及一种用于编码属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的装置,其中所述装置包括处理器,所述处理器配置成控制:
-用于预测所述至少一个像素块以获得预测像素块的模块,所述模块包括,对于所述像素块的要预测的至少一个像素:
o用于从所述视图矩阵获得所述要预测的像素所属于的至少一个对极平面图像(EPI)的实体,
o用于在单向预测模式的集合中从所述至少一个对极平面图像中邻近所述要预测的像素的先前重建像素的集合确定至少一个最佳单向预测模式的实体,
o用于通过使用所述至少一个最佳单向预测模式外推所述要预测的像素的预测值的实体,
-用于确定与所述至少一个像素块和所述预测像素块之间的差对应的残余误差的模块,
-用于编码与所述像素块关联的所述残余误差的模块。
这样的编码装置尤其适合于实现如上所述的用于编码的方法。
本公开的另一方面涉及一种用于解码表示属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的信号的装置,其中所述装置包括处理器,所述处理器配置成控制:
-用于解码与所述像素块关联的残余误差的模块,
-用于预测所述至少一个像素块以获得预测像素块的模块,所述模块包括,对于所述像素块的要预测的至少一个像素:
o用于从所述视图矩阵获得所述要预测的像素所属于的至少一个对极平面图像(EPI)的实体,
o用于在单向预测模式的集合中从所述至少一个对极平面图像中邻近所述要预测的像素的先前重建像素的集合确定至少一个最佳单向预测模式的实体,
o用于通过使用所述至少一个最佳单向预测模式外推所述要预测的像素的预测值的实体,
-用于通过将所述残余误差添加到所述预测像素块重建所述至少一个像素块的模块。
这样的解码装置尤其适合于实现如上所述的解码方法。
本公开因此涉及包括一种装置,所述装置包括配置成实现上述方法的处理器。
根据它的其他方面,本公开涉及一种计算机程序产品,其包括程序代码指令,当该程序在计算机上执行时执行上述方法的步骤,一种处理器可读介质,其具有存储在其中的指令,用于使处理器至少执行上述方法的步骤,以及一种非临时性存储介质,其承载程序代码的指令,当所述程序在计算装置上执行时用于执行上述方法的步骤。
从结合附图进行的实施例的以下描述,本公开的特定性质以及本公开的其他目的,优点,特征和使用将变得显而易见。
附图说明
在附图中,示出了本公开的实施例。其示出:
图1已经与现有技术相关呈现地示出了全光相机的概念示意图;
图2已经与现有技术相关呈现地示出了用全光相机拍摄的照片的示例;
图3已经与现有技术相关呈现地分别示出了相机传感器(15),微透镜阵列(16)和视图矩阵(17)。
图4示出了从视图矩阵获得的对极平面图像的构建;
图5示意性地示出了根据本公开的用于预测的方法的主要步骤的图;
图6a和6b示意性地示出了根据本公开的两个实施例的确定最佳单向预测模式的子步骤的图;
图7a和图7b相应地示出了在给定视图中并且然后在所考虑的对极平面图像中的要预测的像素的预测邻域;
图8示出了预定单向预测模式的集合的示例;
图9示出了相应地与图8的预定单向预测模式的集合关联的滤波操作的示例;
图10示出了图9的一个滤波操作的应用点的定位;
图11示意性地示出了根据本公开的用于编码的方法的步骤的图;
图12示意性地示出了根据本公开的用于解码的方法的步骤的图;
图13示出了根据本公开的实施例的装置的架构的示例。
相似或相同的元件用相同的附图标记表示。
具体实施方式
5.1一般原则
本公开提出了一种用于基于视图矩阵的对极平面图像(EPI)表示来编码(或解码)实现新型预测的视图矩阵的图像的新技术。
更确切地说,从邻近要预测和编码的当前像素的对极平面图像(EPI)的因果重建像素,找到单向预测模式中的最佳方向,并且随后用于外推要预测和编码的所述当前像素的预测值。
本公开中提出的方法因此能够应对在对极平面图像(EPI)内部的线性结构的特定性质,并且因此适合于利用场景的四维(4D)光场的性质。
在下文中将参考附图更全面地描述本公开,在附图中示出了本公开的实施例。然而,本公开可以以许多替代形式体现,并且不应当被解释为限于在本文阐述的实施例。因此,尽管本公开容易有各种修改和替代形式,但是其具体实施例在附图中通过示例的方式示出并且将在本文详细描述。然而,应当理解的是,没有意图将本公开限制为所公开的特定形式,而是相反,本公开将涵盖落入如权利要求限定的本公开的精神和范围内的所有修改,等效物和替代。
本文使用的术语仅用于描述特定实施例的目的,而不意图限制本公开。如本文所使用的,单数形式“一”和“所述”旨在也包括复数形式,除非上下文另外清楚地指出。将进一步理解的是,当在本说明书中使用时,术语“包括”和/或“包含”指定存在所述特征,整体,步骤,操作,元件和/或部件,但并不排除存在或添加一个或多个其他特征,整体,步骤,操作,元件,部件,和/或其组合。而且,当元件被称为“响应”或“连接”另一元件时,其可以直接响应或连接到另一元件,或者可以存在中间元件。相比之下,当元件被称为“直接响应”或“直接连接”其他元件时,不存在中间元件。如本文所使用的,术语“和/或”包括一个或多个相关所列项目的任何和所有组合,并且可以缩写为“/”。
应当理解的是,尽管本文可以使用术语第一,第二等来描述各种元件,但是这些元件不应当由这些术语限制。这些术语仅用于将一个元件与另一元件区分。例如,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件,而不脱离本公开的教导。
尽管一些图包括通信路径上的箭头以示出通信的主要方向,但是应当理解的是,通信可以在与所示的箭头相反的方向上发生。
关于框图和操作流程描述了一些实施例,其中每个框表示包括用于实现(一个或多个)指定逻辑功能的一个或多个可执行指令的电路元件,模块或代码部分。也应当注意的是,在其他实施方式中,在框中标注的(一个或多个)功能可以不按照标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者框有时可以以相反的顺序执行。
本文对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征,结构或特性可以包括在本公开的至少一个实现方式中。说明书中各处出现的短语“在一个实施例中”或“根据实施例”不一定都是指相同实施例,独立的或替代的实施例也不一定与其他实施例相互排斥。
在权利要求中出现的附图标记仅仅是为了说明并且对权利要求的范围没有限制作用。
尽管未明确描述,但是本实施例和变型可以以任何组合或子组合使用。
本公开被描述用于编码/解码视图矩阵的视图的像素块,但是扩展到视图矩阵序列(全光视频)的编码/解码,原因是属于所述序列的每个视图矩阵的每个视图如下所述被顺序编码/解码。
5.2预测方法
图5示意性地示出了根据本公开的用于预测的方法(50)的主要步骤的图,所述方法由用于预测的模块执行。
根据本公开,如图3中所示,用于预测属于从与场景关联的光场数据获得的视图矩阵(17)的视图(170)的至少一个像素块的方法由处理器实现并且包括,首先,对于所述像素块的要预测的至少一个像素,通过使用用于获得的实体获得(51)与所述要预测的至少一个像素关联的至少一个对极平面图像(EPI)。要预测的至少一个像素属于所述至少一个对极平面图像(EPI)。
所述获得(51)由图4示出并且由B.Goldluecke等人在“The VariationalStructure of Disparity and Regularization of 4D Light Fields”pp 1003-10102013IEEE Conference on Computer Vision and Pattern Recognition中公开。
视图矩阵(17)将4D光场表示为场景(4000)的图像的集合,其中相机的焦点位于2D平面中。
获得(51)对极平面图像包括沿着视点的行(40)彼此叠置地堆叠所有图像,即,行(40)的第一图像(41)在堆叠(400)的顶上,如箭头(410)所示,而行(40)的最后图像(42)在堆叠(400)下方,如箭头(420)所示。然后,沿着每个视图的相同行(43)执行通过该堆叠(400)的切割(401)。这样的切割是水平对极平面图像(EPI)。
换句话说,考虑由行和列中的相应索引v,u的BxD视图(在图4中B=D=5)组成的视图矩阵,以及行和列中的相应索引t,s的尺寸为LxC像素的每个视图,通过堆叠所有第v子图像的第t行来实现如图4中所示的尺寸为DxC的水平EPI,其中v=0,...,B-1。换句话说,对极平面图像是2D图像,其通过沿着视图矩阵(17)的(u,v)平面的行(固定v坐标对应于行(40))彼此叠置地堆叠来自所有视图的视图行(固定t坐标对应于视图行(43))而构建。
类似地,通过堆叠所有第u子图像的第s列来实现尺寸为LxB的竖直EPI,其中u=0,...,D-1。
必须注意的是,可以使用与水平或竖直不同的另一种取向来获得对应的EPI。
因此,所提出的公开提供所考虑的像素块的要预测的至少一个像素以预测至少一个对极平面图像的给定视图矩阵的视图。
所述至少一个对极平面图像(EPI)可以是水平对极平面图像(EPI),竖直对极平面图像(EPI),或具有相对于水平或竖直对极平面图像的预定角度取向的对极平面图像(EPI)。
必须注意的是,所考虑的要预测的像素可以属于对应于水平对极平面图像(EPI)和竖直对极平面图像(EPI),或对应于不同角度取向对极平面图像(EPI)的集合的至少两个对极平面图像(EPI)。
一旦对于所考虑的要预测的像素获得(51)至少一个对极平面图像,在预定单向预测模式的集合中并且从所述至少一个对极平面图像(54)中邻近所述要预测的至少一个像素的先前重建像素的集合,使用用于确定的实体执行至少一个最佳单向预测模式的确定(52)。
所述确定(52)的两个实施例相应地在图6a和6b中示出。
更确切地说,根据如图6a中所示的第一实施例,对于包括N个像素的所述像素块的要预测的至少一个像素,在M个预定单向预测模式的集合(6000)中执行最佳单向预测模式的选择(63)。
特别地,根据本公开,通过考虑所考虑的要预测的像素所属于的至少一个对极平面图像中邻近所述要预测的至少一个像素的先前重建像素的集合(6001)执行此这样的选择。
相应地在图7a和7b中示出了在给定视图中并且然后仅在所考虑的对极平面图像中的所述要预测的至少一个像素的预测邻域。
例如,图7a表示如图4所示的视图的矩阵(17)的视图(40)的最后视图(42)。
特别地,在尺寸为LxC像素的所述视图(42)中,其中L=6(6行)和C=13(13列),考虑像素块(70)。这样的块(70)例如被由三角形表示的像素(71)包围,所述像素是所述视图(42)的先前重建像素。
另外,并且有利地根据本公开,要预测的像素块(70)的像素(701)也由水平对极平面图像中的像素(7000)包围,所述像素也是先前重建像素,由黑体点表示。这样的对极平面图像允许利用场景的四维(4D)光场的性质。
如前面关于获得(51)对极平面图像所解释的,对于所考虑的视图的每一行(相应地,列)获得不同的水平(相应地,竖直)图像。换句话说,位于所考虑的块70的上面一行中的像素702属于水平对极平面图像hEPI0,而位于考虑块70的最后一行中的像素701属于水平对极平面图像hEPI3
根据本发明的第一变型,对于属于所述像素块(70)的每个像素,通过使用从所述至少一个对极平面图像邻近所述要预测的像素的先前重建像素的集合确定的至少一个最佳单向预测模式外推预测值。
因此,根据该第一变型,在对应于对极平面图像的维度中预测像素块(70)的要预测的所有像素。
根据第二变型,对于属于所述像素块(70)的像素的第一部分通过使用从所述至少一个对极平面图像邻近所述要预测的像素的先前重建像素的集合确定的至少一个最佳单向预测模式外推预测值。
对于属于所述像素块(70)的像素的第一部分,一旦使用对极平面图像获得预测值,所述预测值然后用于预测尚未获得预测值的属于所述像素块(70)的像素的另一部分。
通过使用例如从H.264标准的帧内预测模式导出的经典预测模式(然而仍需要对应于该帧内预测模式的辅助信息传输到解码器)或者更简单地通过使用空间内推(需要较少的辅助信息,原因是解码器可以默认知道一旦已使用对极平面图像重建要预测的像素的一部分,必须执行这样的空间内推)执行尚未获得预测值的属于所述像素块(70)的像素的另一部分的所述预测。
更确切地说,根据空间内推,要预测的像素的预测值例如对应于直接或不直接邻近它的两个或更多个像素的值的平均值或加权值,所述相邻像素已被重建(71)或属于所述第一部分并且因此已经与预测值关联。
例如,根据水平(相应地,竖直)的空间内推,要预测的像素的预测值例如对应于已经与预测值关联或已经重建的,直接水平地(相应地,竖直地)邻近它的两个或更多个像素的值的平均值或加权值。
在执行空间内推的该情况下,对于直接邻近所述像素块(70)的要预测的像素(例如直接位于所述块(70)下方的要预测的像素行的要预测的像素),也可以通过使用对极平面图像获得预测值,使得在随后的空间内推期间,所述块(70)的要预测的像素与已经与预测值关联或已经重建的,执行空间内推所需的数量的像素相邻。
因此,根据该第二变型,首先在对应于对极平面图像的维度中预测像素块(70)的要预测的像素的一部分,并且使用在视图内预形成的空间内推而不使用任何对极平面图像预测像素的另一部分。
例如,根据该第二变型,对于所考虑的要预测的像素块(70),通过使用从对极平面图像确定的单向预测模式获得两个像素中的一个的预测值。
因此,像素块(70)的两个像素中的一个仍然要预测。对于这些要预测的剩余像素,可以通过使用例如通过使用所考虑的视图的重建像素(71)和已使用对极平面图像获得预测值的所述像素块(70)的像素的集合执行的水平空间内推来替换通过使用对极平面图像进行的预测值的外推。
对于所述像素块(70)的要预测的剩余像素中的一些,有可能不能获得预测值。在该情况下,然后在随后的迭代中使用已获得预测值的剩余像素的像素,以通过在该情况下使用竖直内推等来预测所述块(70)的要预测的剩余像素。图7b仅表示在水平对极平面图像hEPI3中由先前重建像素(7000)包围的所考虑的块70的最后一行的要预测的像素701。如已经解释的,在这样的先前重建像素(7000)中,由三角形表示的一些重建像素71属于与要预测的像素701相同的行中的相同视图。可以看出,邻近要预测的像素701的先前重建像素的集合(7000)对应于要预测的当前像素的左上的区域。
关于水平对极平面图像hEPI3中的要预测的像素701的这样的环境,本公开使用利用对极平面图像的特定方向性质的新的单向预测模式。
图8示出了预定单向预测模式的集合的示例。可以容易地导出使用对极平面图像中的先前重建像素的其他示例。可以看出,根据所有这些单向预测模式,预测方向由从以粗体点表示的对极平面图像中的先前重建像素开始到要预测的像素的箭头示出。
单向预测模式的这样的示例可以被认为与H.264标准的帧内4x4预测所公开的类似,但是必须很好地注意到,根据本公开,这样的模式通过使用对极平面图像中的先前重建像素进行限定,其允许利用场景的四维(4D)光场的性质。
不同地,根据H.264标准的帧内4x4预测使用的单向预测模式通过使用要编码的图像中(即,相同视图中)的先前重建像素进行限定,其不允许从场景的整个四维(4D)光场受益。
特别地,可以看出,图8的模式8与H.264标准的帧内4x4预测的模式8实际上不同,原因是箭头的起点位于由粗体点表示的对极平面图像中的先前重建像素中,到达要预测的像素,并且是“水平左下”,而对应于H.264标准的帧内4x4预测的模式8的箭头不是从对极平面图像中的先前重建像素开始并且是“水平上”。
另外,可以看出,H.264的帧内4x4预测的模式2不适合于根据本公开的预测(即,根据本公开不执行DC模式2),其在4D光场环境中执行。
根据本发明的特定方面,当在所述至少一个对极平面图像中邻近所述要预测的至少一个像素的所述先前重建像素的集合(7000)中,至少一个重建像素也属于所述视图并且邻近所述要预测的至少一个像素(作为由图7b中的三角形表示的像素701)时,单向预测模式中的一个对应于外推方向是从既属于所述至少一个对极平面图像又属于所述视图的所述至少一个重建像素到所述要预测的至少一个像素的方向的单向预测模式。这样的模式由图8的模式1示出。
关于如图6a中所示的确定(52)的第一实施例,这样的确定(52)包括将不同的滤波操作(F_Oj)与所述预定单向预测模式集合中的每个单向预测模式关联。
这样的不同滤波操作例如由图9示出。更确切地说,根据图9的示例,这样的滤波操作是矩阵或掩模,每个对应于图8的预定单向预测模式集合中的一个单向预测模式。
例如,在掩模D0中,图8的竖直模式0的箭头的起点由“-1”表示,而箭头的尖端由“1”表示。
可以使用掩模的许多其他示例,例如为了示出竖直模式,即,对极平面图像中的竖直轮廓,可以使用以下掩模D0
这样的示例也突显对极平面图像中的竖直轮廓,并且使用加权来强调刚好在所考虑的要预测的像素上方的邻域的权重。也可以使用具有与3x3矩阵不同尺寸的其他掩模以考虑所述至少一个对极平面图像中邻近所述要预测的至少一个像素的更多先前重建像素。
可选地,为了提高准确性,将这样的滤波操作适当地定位(610)在对极平面图像中,使得竖直箭头正好在所考虑的像素上方以预测如图10中表示的p(0,0)。
更确切地说,如图10中所示,相对于要预测的EPI行的第一像素p(0,0)的要检查的不同方向的卷积掩模(在图9中作为示例提出)的对应中心位置如下:
●C0上的D0=p(0,-2)
●C1上的D1=p(-2,0)
●D3上的C3=p(2,-2)
●C4上的D4=p(-2,-2)
●C5上的D5=p(-1,-2)
●C6上的D6=p(-3,-2)
●C7上的D7=p(1,-2)
●C8上的D8=p(3,-2)
一旦不同的滤波操作与每个单向预测模式关联(61),并且可选地适当定位(610),将每个滤波操作(即,掩模)应用(62)于所述至少一个对极平面图像中邻近所述要预测的至少一个像素(701)的先前重建像素的集合7000以获得与每个单向预测模式关联的能量水平。
这样的能量水平对应于与每个单向预测模式关联的每个方向(即,箭头)的空间梯度。
用于计算空间梯度的能量水平的步骤在邻近所述要预测的至少一个像素(701)的先前重建像素上从作为用作在该邻域中移动的窗口的卷积的图9的2D掩模被执行。
因此生成要预测的像素(图10中的p(0,0),其中仅以虚线标出两个窗口)的邻域的八个滤波型式,将在其上确定根据以下表达式计算的方向能量水平E0至E8
其中:
●Nd是相同卷积掩模Dd的中心的位置的集合,对于每个卷积掩模Dd,限定要外推的像素p(0,0)的滤波邻域。例如,该邻域可以仅以例如单个位置(k,1)为中心,如图10中所示,卷积掩模D8以单个位置C8=p(3,-2)为中心。替代地,Nd可以包括一个以上的位置,即,卷积掩模D8可以位于C8_1=p(3,-2)上,并且然后位于C8_2=p(4,-2)上。在Nd包括一个以上位置的情况下,Ed应当通过将其除以所述集合Nd的位置的数量而被正则化。
●(k,1)对应于属于集合Nd的中心的坐标
●Y是亮度值,
●d是与不同预测方向对应的索引,
●*是卷积运算符,
●(a,o)对应于卷积掩模Dd的每个系数的坐标。在图9中,这样的掩模Dd包括3x3=9个系数,
●2n+1和2m+1对应于卷积掩模Dd的尺寸(即,在由图9和10给出的3x3滤波器的示例中m=n=1)
●|.|对应于选定的标准运算符,平方高程也是可能的,使得:
●并且Dd对应于由EPI空间方向d定义的Prewitt型卷积掩模,其示例在图9中表示,在该示例中,Nd仅包括一个中心位置。
换句话说,将每个滤波操作这样应用(62)于邻近所述要预测的至少一个像素p(0,0)的所述先前重建像素的集合(7000)包括分析位于所述要预测的至少一个像素所属于的对极平面图像中的所考虑的像素的邻近区域中的亮度信号。
例如,对于方向d=0,即,使用以邻近当前像素p(0,0)的像素C0(0,-2)为中心的图8的模式0对应的图9的掩模D0,即行k=-2,列l=0(坐标0,0对应于要预测的像素701p(0,0)),能量水平E0的计算值是像素(0,-1)的亮度减去像素(0,-3)的亮度。
E0=Y(0,-1)-Y(0,-3).
事实上,关于选定的掩模D0,只有两个系数不等于零。
对于与卷积掩模Dd关联的所述集合Nd的每个位置计算的值集合给出能量Ed。在图10的情况下,其中所述集合Nd仅包括一个中心位置,因此对于尺寸为(2n+1)x(2m+1)=6且其中m=n=1的掩模D0,当其所有系数不等于零时存在九个总和。
根据图9的示例,当考虑Nd包括单个中心C0,D0(0,-1)=1和D0(0,1)=-1的情况时,只有两个系数不同于零。
一旦获得(62)每个单向预测模式(M个预测模式中的索引j,例如在图8中M=8)的能量水平,然后选择最佳单向预测模式。
这样的选择(63)包括检测具有较低能量水平的空间梯度的方向,以与潜在轮廓共线的方式计算这样的能量水平,如上所述。
换句话说,最佳单向预测模式对应于能量水平是对于每个单向预测模式获得的能量水平的最小值的自变量的单向预测模式,例如:
dopt=Arg mind{Ed},其中d=0,3,4,5,6,7,8(和1,当在至少一个对极平面图像中邻近所述要预测的至少一个像素的所述先前重建像素的集合(7000)中,至少一个重建像素也属于所述视图并且邻近所述要预测的至少一个像素时)。
事实上,如果对极平面图像中邻近要预测的至少一个像素的轮廓是竖直轮廓,则像素(0,-1)的亮度和像素(0,-3)的亮度将接近,导致能量E0的很低值。
可以注意到,基于具有根据正交于潜在轮廓的方向计算的梯度的最大梯度的方法也是可能的。
关于图6a的第一实施例,对于(所述像素块的N个像素中的索引i的)要预测的至少一个像素,在M个预定单向预测模式的集合(6000)中执行最佳单向预测模式的选择(63)。
根据图6b所示的第二实施例,本公开的用于预测的方法还包括提供(60)所述像素块B_Pix内的要预测的至少一个像素组G_Pix,所述像素组G_Pix包括相同行的,相同列的,或具有相对于所述像素块的行或列的预定角度取向的至少两个像素的集合的至少两个像素Pg。
在下文中,认为所述像素组G_Pix包括G个像素。例如,这样的像素组G_Pix可以对应于如图7b中表示的相同行的要预测的四个像素Pg 701。
图6b的第二实施例与图6a的第一实施例的区别在于选择(6300)的步骤。实际上,根据第二实施例,对于属于所述像素组的所有要预测的像素选择(6300)相同的最佳单向预测模式,所述最佳单向预测模式对应于能量水平是对于所述像素组的要预测的至少一个像素获得的能量水平的最小值的自变量的单向预测模式。
换句话说,在该第二实施例中,对于属于所述像素组G_Pix的所有像素,通过考虑MxG能量水平,选择最佳单向预测模式,而在第一实施例中,每个要预测的像素通过考虑M个能量水平选择最佳单向预测模式。
根据图6a和图6b所示的这两个实施例的第一变型,当要预测的一个像素所属于的至少两个对极平面图像(EPI)对应于水平对极平面图像(EPI)和竖直对极平面图像(EPI),或对应于不同角度取向对极平面图像(EPI)的集合时,对于所述水平对极平面图像(EPI)和所述竖直对极平面图像(EPI),或对于不同角度取向对极平面图像(EPI)的集合,执行确定(52)所述最佳单向预测模式,所述最佳单向预测模式对应于能量水平是对于每个对极平面图像获得的能量水平的最小值的自变量的单向预测模式,例如:
dopt o=Arg mind,o{Ed,o},其中d=0,3,4,5,6,7,8和o=竖直或水平EPI。
在相同的情况下,根据前述两个实施例的第二变型,对于每个对极平面图像确定(52)最佳单向预测模式,并且所述要预测的至少一个像素的所述预测值对应于通过使用对于每个对极平面图像确定的所述最佳单向预测模式相应地获得的至少两个预测值的平均值。
一旦根据图6a和图6b所示的两个实施例中的一个确定(52)至少一个最佳单向预测模式,通过使用所述至少一个最佳单向预测模式外推(53)所述要预测的至少一个像素的预测值。所述外推由用于外推的实体执行。
这些外推构建如下(参见图8):
●模式0(竖直):p(x,y)=p0=p(x,-1)
●模式1(水平):p(x,y)=p1=p(x-1,y)
●模式3(对角左下):p(x,y)=p3=(p(x,-1)+2*p(x+1,-1)+p(x+2,-1)+2)>>2
●模式4(对角右下):p(x,y)=p4=(p(x-2,-1)+2*p(x-1,-1)+p(x,-1)+2)>>2
●模式5(竖直右):p(x,y)=p5=(p(x-1,-1)+p(x,-1)+1)>>1
●模式6(水平右下):p(x,y)=p6=(p(x-1,-1)+2*p(x-2,-1)+p(x-3,-1)+2)>>2
●模式7(竖直左):p(x,y)=p7=(p(x,-1)+p(x+1,-1)+1)>>1
●模式8(水平左下):p(x,y)=p8=(p(x+1,-1)+2*p(x+2,-1)+p(x+3,-1)+2)>>2。
其中:
●“p(x,y)”是图7b的四个像素701的相应坐标(0,0),(1,0),(2,0)和(3,0)的要预测的当前像素。
●“*”对应于乘法运算符
●“>>n”是整数除以2n
必须注意的是,根据本公开的预测方向不限于如图8中表示的八个方向。通过卷积掩模和关联的外推公式的适应性修改,其他方向是可能的。
考虑第一实施例,例如,对于坐标(0,0),(1,0),(2,0)和(3,0)的要预测的像素将相应地选择模式0(dopt=0),3(dopt=3),5(dopt=5)和8(dopt=8):
●p(0,0)=p0=p(0,-1),
●p(1,0)=p3=(p(1,-1)+2*p(2,-1)+p(3,-1)+2)>>2
●p(2,0)=p5=(p(1,-1)+p(2,-1)+1)>>1,以及
●p(3,0)=p8=(p(4,-1)+2*p(5,-1)+p(5,-1)+2)>>2。
考虑第二实施例,例如,对于坐标(0,0),(1,0),(2,0)和(3,0)的要预测的四个像素将相应地选择单个模式5(dopt=5):
●p(0,0)=p5=(p(-1,-1)+p(0,-1)+1)>>1,
●p(1,0)=p5=(p(0,-1)+p(1,-1)+1)>>1
●p(2,0)=p5=(p(1,-1)+p(2,-1)+1)>>1,以及
●p(3,0)=p5=(p(2,-1)+p(3,-1)+1)>>1。
5.3编码方法
如前所述的预测技术可以由视图矩阵编码器使用。事实上,本公开旨在提供一种用于编码(相应地,解码)视图矩阵的图像的方法,并且为了该目标使用如上所述的基于视图矩阵的对极平面图像(EPI)表示的新型的预测。
这样的基于对极平面图像(EPI)的新型预测例如使用由T.Wiegand等人在“Lagrange Multiplier Selection in Hybrid Video Coder Control”pp 542-545vol.3IEEE International Conference on Image processing 2001中公开的速率失真优化准则在其他经典类型的预测中自动选择。
参考图11,在一个特定实施例中,对于从与场景关联的光场数据获得的视图矩阵,这样的编码器实现以下步骤:
-根据如上所述的用于预测的方法预测(50)所述至少一个像素块以获得预测像素块,
-通过使用用于确定的模块确定(101)与所述至少一个像素块和所述预测像素块之间的差对应的残余误差,
-通过使用用于编码的模块编码(102)与所述像素块关联的所述残余误差。
在编码(102)期间,变换和量化并且最终熵编码残余误差。
可选地(如以虚线表示),用于编码的方法还包括:
-在表示从与所述场景关联的光场数据获得的所述视图矩阵的信号中插入(103)所述编码残余误差,
-在所述信号中插入(104)表示所述像素块内的要预测的至少一个像素组的信息。
特别地,当执行预测方法的第二实施例时实现该选项。因此获得特定信号,其包括表示所述像素块内的要预测的至少一个像素组的信息。
5.4解码方法
现在参考图12,示出了在适合于解码视图矩阵的解码器中实现的解码的主要步骤。
假设解码器接收表示例如根据上面描述的编码方法编码的视图矩阵的信号。
图12示出了一种解码方法,其中可选地(如以虚线表示)包括至少一个预测残余误差和表示所述像素块内的要预测的至少一个像素组的信息。
因此,在该实施例中,根据本发明的解码方法包括:
-使用用于解码的模块,从所述信号解码(111)与所述像素块关联的残余误差,
-通过使用用于预测的模块,根据如权利要求1至8中任一项所述的用于预测的方法,预测(112)所述至少一个像素块以获得预测像素块,
-通过使用用于重建的模块,通过将所述残余误差添加到所述预测像素块,重建(113)所述至少一个像素块,
并且其还包括从所述信号提取表示所述像素块内的要预测的至少一个像素组的信息,所述预测考虑所述信息。
在解码(111)期间,残余误差相对于编码期间执行的处理被逆量化和逆变换。
5.5用于预测的模块、编码器和解码器的结构
在图5、6a和6b、11和12中,模块是功能单元,其可能与或不与可区分的物理单元有关。例如,这些模块或其中的一些模块可以集中在唯一部件或电路中,或有助于软件的功能。相反,一些模块可能由独立的物理实体组成。与本公开可兼容的装置使用纯硬件来实现,例如使用专用硬件,如ASIC或FPGA或VLSI,相应地,“专用集成电路”,“现场可编程门阵列”,“超大规模集成”,或来自嵌入装置中的若干集成电子部件或来自硬件和软件部件的混合。
图13表示装置1300的示例性架构,其可以配置成实现关于图1-10描述的预测方法,关于图11描述的编码方法,或关于图12描述的解码方法。
装置1300包括通过数据和地址总线1301链接在一起的以下元件:
-微处理器1303(或CPU),其例如是DSP(或数字信号处理器);
-ROM(或只读存储器)1302;
-RAM(或随机存取存储器)1304;
-用于从应用传输和/或接收数据的I/O接口1305;以及
-电池1306。
根据变型,电池1306在装置的外部。图13的这些元件中的每一个都是本领域技术人员公知的,并且将不再进一步公开。在每个提到的存储器中,说明书中使用的单词“寄存器”可以对应于小容量区域(一些位)或很大区域(例如整个程序或大量的接收或解码数据)。ROM 1302至少包括程序和参数。根据本公开的方法的算法存储在ROM 1302中。当接通时,CPU 1303将程序上载到RAM中并且执行对应的指令。
RAM 1304在寄存器中包括由CPU 1303执行并在装置1300接通之后上载的程序,寄存器中的输入数据,寄存器中的方法的不同状态下的中间数据,以及寄存器中的用于执行方法的其他变量。
本文描述的实现方式可以在例如方法或过程,装置,软件程序,数据流或信号中实现。即使仅在单一形式的实现方式的上下文中讨论(例如,仅作为方法或装置讨论),所讨论的特征的实现方式也可以以其他形式(例如程序)实现。装置可以例如以适当的硬件,软件和固件实现。方法可以在例如诸如处理器的装置中实现,所述装置通常是指处理装置,例如包括计算机,微处理器,集成电路,或可编程逻辑器件。处理器也包括通信装置,例如计算机,手机,便携式/个人数字助理(“PDA”),以及便于最终用户之间的信息通信的其他装置。
根据编码或编码器的具体实施例,所述视图矩阵是从源获得的。例如,源属于包括以下的集合:
-本地存储器(1302或1304),例如视频存储器或RAM(或随机存取存储器),闪存,ROM(或只读存储器),硬盘;
-存储接口,例如与大容量存储器,RAM,闪存,ROM,光盘或磁性支持装置的接口;
-通信接口(1305),例如,有线接口(例如总线接口,广域网接口,局域网接口)或无线接口(如IEEE 802.11接口或Bluetooth接口);以及
-图像捕捉电路(例如,诸如CCD(或电荷耦合器件)或CMOS(或互补金属氧化物半导体)的传感器)。
根据解码或解码器的不同实施例,解码的视图矩阵被发送到目的地;具体地,该目的地属于包括以下的集合:
-本地存储器(1302或1304),例如视频存储器或RAM(或随机存取存储器),闪存,ROM(或只读存储器),硬盘;
-存储接口,例如与大容量存储器,RAM,闪存,ROM,光盘或磁性支持装置的接口;
-通信接口(1305),例如,有线接口(例如总线接口,广域网接口,局域网接口)或无线接口(如IEEE 802.11接口或Bluetooth接口);以及
-显示器。
根据编码或编码器的不同实施例,由所述编码器递送的位流被发送到目的地。作为示例,所述位流存储在本地或远程存储器中,例如视频存储器(1304)或RAM(1304),硬盘(1302)。在变型中,所述位流被发送到存储接口,例如与大容量存储器,闪速存储器,ROM,光盘或磁性支持装置的接口,和/或在通信接口(1305)上传输,例如到点对点链路,通信总线,点对多点链路或广播网络的接口。
根据解码或解码器的不同实施例,从源获得位流。示例性地,位流从本地存储器读取,例如视频存储器(1304),RAM(1304),ROM(1302),闪存(1302)或硬盘(1302)。在变型中,位流从存储接口接收,例如与大容量存储器,RAM,ROM,闪存,光盘或磁性支持装置的接口,和/或从通信接口(1305)接收,例如到点对点链路,总线,点对多点链路或广播网络的接口。
本文描述的各种过程和特征的实现方式可以体现在各种不同的设备或应用中。这样的设备的示例包括编码器,解码器,处理来自解码器的输出的后处理器,向编码器提供输入的预处理器,视频编码器,视频解码器,视频编解码器,网页服务器,机顶盒,膝上型电脑,个人计算机,手机,PDA,以及用于处理图片或视频的任何其他装置或其他通信装置。应当清楚,该设备可能是移动的,甚至可以安装在移动车辆中。
另外,方法可以通过由处理器执行的指令实现,并且这样的指令(和/或由实现方式产生的数据值)可以存储在计算机可读存储介质上。计算机可读存储介质可以采取体现在一个或多个计算机可读介质中并且具有在其上体现的可由计算机执行的计算机可读程序代码的计算机可读程序产品的形式。如本文使用的计算机可读存储介质被认为是非临时性存储介质,其具有在其中存储信息的固有能力以及提供从其检索信息的固有能力。计算机可读存储介质可以是例如但不限于电子的,磁的,光的,电磁的,红外的或半导体的系统,装置或器件,或前述的任何合适的组合。应当领会的是,以下尽管提供了可以应用本原理的计算机可读存储介质的更具体示例,但是仅仅是示例性的而非详尽列举,如本领域普通技术人员容易理解的:便携式计算机软盘;硬盘;只读存储器(ROM);可擦除可编程只读存储器(EPROM或闪存);便携式光盘只读存储器(CD-ROM);光存储装置;磁存储装置;或前述的任何合适的组合。
指令可以形成有形地体现在处理器可读介质上的应用程序。
例如,指令可以在硬件,固件,软件或组合中。例如,指令可以在操作系统,独立的应用或两者的组合中找到。因此,处理器可以被表征为例如配置成执行处理的装置和包括具有用于执行处理的指令的处理器可读介质(如存储装置)的装置。此外,作为处理器可读介质的附加或替代,处理器可读介质可以存储由实现方式产生的数据值。
对于本领域技术人员而言显而易见的是,实现方式可以产生格式化为承载可以例如存储或传输的信息的各种信号。该信息可以包括例如用于执行方法的指令,或由所述的实现方式中的一个产生的数据。例如,信号可以被格式化以将用于写入或读取所述的实施例的语法的规则作为数据承载,或者将由所述的实施例写入的实际语法值作为数据承载。这样的信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或者作为基带信号。格式化可以包括例如编码数据流和用编码数据流调制载波。信号承载的信息可以是例如模拟或数字信息。众所周知,信号可以在各种不同的有线或无线链路上传输。信号可以存储在处理器可读介质上。
已描述了许多实现方式。然而,应当理解的是,可以进行各种修改。例如,不同实现方式的要素可以组合,补充,修改或移除以产生其他实现方式。另外,普通技术人员将理解,其他结构和过程可以替代所公开的那些结构和过程,并且所得到的实现方式将以至少基本相同的(一种或多种)方式执行至少基本相同的(一个或多个)功能,以实现与所公开的实现方式至少基本相同的(一个或多个)结果。因此,这些和其他实现方式由本申请预期。

Claims (16)

1.一种用于预测属于从与场景关联的光场数据获得的视图矩阵(17)的视图(170)的至少一个像素块的方法,
所述方法由处理器实现并且包括,对于所述像素块的要预测的至少一个像素:
-从所述视图矩阵(17),获得(51)所述要预测的至少一个像素所属于的至少一个对极平面图像(EPI),
-在单向预测模式的集合中,从所述至少一个对极平面图像中邻近所述要预测的至少一个像素的先前重建像素的集合,确定(52)至少一个最佳单向预测模式,
-通过使用所述至少一个最佳单向预测模式,外推(53)所述要预测的至少一个像素的预测值。
2.根据权利要求1所述的用于预测的方法,其中确定(52)所述最佳单向预测模式包括,对于所述像素块的所述要预测的至少一个像素:
-将不同的滤波操作与所述单向预测模式的集合中的每个单向预测模式关联(61),
-将每个滤波操作应用(62)于所述至少一个对极平面图像中邻近所述要预测的至少一个像素的所述先前重建像素的集合,以获得每个单向预测模式的能量水平,所述滤波包括分析所述至少一个对极平面图像中邻近所述要预测的至少一个像素的先前重建像素的亮度,
-选择(63)所述最佳单向预测模式,所述最佳单向预测模式对应于能量水平是对于每个单向预测模式获得的能量水平的最小值或最大值的自变量的单向预测模式。
3.根据权利要求1所述的用于预测的方法,其还包括提供(60)所述像素块内的要预测的至少一个像素组,所述像素组包括相同行的至少两个像素,相同列的至少两个像素,或表示相对于所述像素块的行或列的角度取向的至少两个像素的集合的至少两个像素,
其中确定所述最佳单向预测模式包括:
-将不同的滤波操作与所述单向预测模式集合中的每个单向预测模式关联(61),
-对于所述像素组的要预测的至少一个像素,将每个滤波操作应用(62)于所述至少一个对极平面图像中邻近所述要预测的像素的所述先前重建像素的集合,以获得每个单向预测模式的能量水平,
-对于属于所述像素组的要预测的所有像素,选择(6300)相同的最佳单向预测模式,所述最佳单向预测模式对应于能量水平是对于所述像素组的所述要预测的至少一个像素获得的能量水平的最小值或最大值的自变量的单向预测模式。
4.根据权利要求2或3所述的用于单向预测的方法,其中,
当要预测的一个像素所属于的至少两个对极平面图像(EPI)对应于水平对极平面图像(EPI)和竖直对极平面图像(EPI),或不同角度取向对极平面图像(EPI)的集合时,
对于所述水平对极平面图像(EPI)和对于所述竖直对极平面图像(EPI),或对于不同角度取向对极平面图像(EPI)的集合,确定(52)所述最佳单向预测模式,所述最佳单向预测模式对应于能量水平是对于每个对极平面图像获得的能量水平的最小值的自变量的单向预测模式。
5.根据前述权利要求2或3中任一项所述的用于预测的方法,其中,
当要预测的一个像素所属于的至少两个对极平面图像(EPI)对应于水平对极平面图像(EPI)和竖直对极平面图像(EPI),或对应于不同角度取向对极平面图像(EPI)的集合时,
对于每个对极平面图像确定最佳单向预测模式,并且所述要预测的像素的所述预测值对应于通过使用对于每个对极平面图像确定的所述最佳单向预测模式分别地获得的至少两个预测值的平均值。
6.根据权利要求2至5中任一项所述的用于预测的方法,其中将不同的滤波操作与所述单向预测模式集合中的每个单向预测模式关联(61)包括,对于每个不同的滤波操作,在所述至少一个对极平面图像中邻近所述要预测的像素的所述先前重建像素的集合中定位(610)应用点。
7.根据前述权利要求中任一项所述的用于预测的方法,其中,
当在所述至少一个对极平面图像中邻近所述要预测的像素的所述先前重建像素的集合中,至少一个重建像素也属于所述视图并且邻近所述要预测的像素时,
所述单向预测模式中的一个对应于外推方向是从既属于所述至少一个对极平面图像又属于所述视图的所述至少一个重建像素到所述要预测的像素的方向的单向预测模式。
8.一种用于编码属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的方法,所述方法由处理器实现并且包括:
-根据如权利要求1至8中任一项所述的用于预测的方法预测(50)所述至少一个像素块以获得预测像素块,
-确定(101)与所述至少一个像素块和所述预测像素块之间的差对应的残余误差,
-编码(102)与所述像素块关联的所述残余误差。
9.根据权利要求9所述的用于编码的方法,其还包括:
-在表示从与所述场景关联的光场数据获得的所述视图矩阵的信号中插入(103)所述编码残余误差,
-在所述信号中插入(104)表示所述像素块内的要预测的至少一个像素组的信息。
10.一种用于解码表示属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的信号的方法,所述方法由处理器实现并且包括:
-从所述信号解码(111)与所述像素块关联的残余误差,
-根据如权利要求1至7中任一项所述的用于预测的方法预测(112)所述至少一个像素块以获得预测像素块,
-通过将所述残余误差添加到所述预测像素块重建(113)所述至少一个像素块。
11.根据权利要求10所述的用于解码的方法,其还包括从所述信号提取(114)表示所述像素块内的要预测的至少一个像素组的信息,所述预测考虑所述信息。
12.一种用于编码属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的装置,其中所述装置包括处理器,所述处理器配置成控制:
-用于预测所述至少一个像素块以获得预测像素块的模块,所述模块包括,对于所述像素块的要预测的至少一个像素:
o用于从所述视图矩阵获得所述要预测的像素所属于的至少一个对极平面图像(EPI)的实体,
o用于在单向预测模式的集合中从所述至少一个对极平面图像中邻近所述要预测的像素的先前重建像素的集合确定至少一个最佳单向预测模式的实体,
o用于通过使用所述至少一个最佳单向预测模式外推所述要预测的像素的预测值的实体,
-用于确定与所述至少一个像素块和所述预测像素块之间的差对应的残余误差的模块,
-用于编码与所述像素块关联的所述残余误差的模块。
13.根据权利要求12所述的用于编码的装置,其还包括:
-在表示从与所述场景关联的光场数据获得的所述视图矩阵的信号中插入所述编码残余误差的模块。
14.在所述信号中插入表示所述像素块内的要预测的至少一个像素组的信息的模块。一种用于解码表示属于从与场景关联的光场数据获得的视图矩阵的视图的至少一个像素块的信号的装置,其中所述装置包括处理器,所述处理器配置成控制:
-用于解码与所述像素块关联的残余误差的模块,
-用于预测所述至少一个像素块以获得预测像素块的模块,所述模块包括,对于所述像素块的要预测的至少一个像素:
o用于从所述视图矩阵获得所述要预测的像素所属于的至少一个对极平面图像(EPI)的实体,
o用于在单向预测模式的集合中从所述至少一个对极平面图像中邻近所述要预测的像素的先前重建像素的集合确定至少一个最佳单向预测模式的实体,
o用于通过使用所述至少一个最佳单向预测模式外推所述要预测的像素的预测值的实体,
-用于通过将所述残余误差添加到所述预测像素块重建所述至少一个像素块的模块。
15.根据权利要求14所述的用于解码的装置,其还包括用于从所述信号提取表示所述像素块内的要预测的至少一个像素组的信息的模块,所述预测考虑所述信息。
16.一种从通信网络可下载和/或记录在由计算机可读取的介质上和/或由处理器可执行的计算机程序产品,其包括程序代码指令,用于实现根据权利要求1至7或8-9或10-11中任一项所述的方法。
CN201680065314.7A 2015-09-14 2016-09-14 用于编码和解码基于光场的图像的方法和装置及对应计算机程序产品 Pending CN108293133A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15306409.2 2015-09-14
EP15306409.2A EP3142366A1 (en) 2015-09-14 2015-09-14 Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
PCT/EP2016/071717 WO2017046176A1 (en) 2015-09-14 2016-09-14 Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product

Publications (1)

Publication Number Publication Date
CN108293133A true CN108293133A (zh) 2018-07-17

Family

ID=54249415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680065314.7A Pending CN108293133A (zh) 2015-09-14 2016-09-14 用于编码和解码基于光场的图像的方法和装置及对应计算机程序产品

Country Status (6)

Country Link
US (1) US10785502B2 (zh)
EP (2) EP3142366A1 (zh)
JP (1) JP6872533B2 (zh)
KR (1) KR20180053665A (zh)
CN (1) CN108293133A (zh)
WO (1) WO2017046176A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11051039B2 (en) 2017-06-02 2021-06-29 Ostendo Technologies, Inc. Methods for full parallax light field compression
EP3422722A1 (en) * 2017-06-30 2019-01-02 Thomson Licensing Method for encoding a matrix of image views obtained from data acquired by a plenoptic camera
US10931956B2 (en) 2018-04-12 2021-02-23 Ostendo Technologies, Inc. Methods for MR-DIBR disparity map merging and disparity threshold determination
EP3579561A1 (en) * 2018-06-05 2019-12-11 InterDigital VC Holdings, Inc. Prediction for light-field coding and decoding
US11172222B2 (en) * 2018-06-26 2021-11-09 Ostendo Technologies, Inc. Random access in encoded full parallax light field images
US11363249B2 (en) * 2019-02-22 2022-06-14 Avalon Holographics Inc. Layered scene decomposition CODEC with transparency
BR102021009291A2 (pt) * 2021-05-13 2022-11-22 Samsung Eletrônica da Amazônia Ltda. Método de intrapredição quadridimensional para codificação e decodificação de dados de light field

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007026440A1 (ja) * 2005-08-29 2007-03-08 National University Corporation Nagoya University 画像情報圧縮方法、画像情報圧縮装置、及び自由視点テレビシステム
CN102301713A (zh) * 2009-01-28 2011-12-28 法国电信公司 使用预测掩膜对图像进行编码的方法和装置、对应的解码方法和装置、信号和计算机程序

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5703961A (en) * 1994-12-29 1997-12-30 Worldscape L.L.C. Image transformation and synthesis methods
US6097394A (en) 1997-04-28 2000-08-01 Board Of Trustees, Leland Stanford, Jr. University Method and system for light field rendering
KR101031624B1 (ko) 2006-09-20 2011-04-27 니폰덴신뎅와 가부시키가이샤 화상 부호화 방법 및 복호 방법, 그 장치 및 그 프로그램을 기록한 기억매체
JP4999854B2 (ja) 2006-09-20 2012-08-15 日本電信電話株式会社 画像符号化方法及び復号方法、それらの装置、及びそれらのプログラム並びにプログラムを記録した記憶媒体
US7822280B2 (en) 2007-01-16 2010-10-26 Microsoft Corporation Epipolar geometry-based motion estimation for multi-view image and video coding
WO2010102935A1 (en) 2009-03-09 2010-09-16 Thomson Licensing Estimation of the prediction mode for the intra coding mode
US8995785B2 (en) 2012-02-28 2015-03-31 Lytro, Inc. Light-field processing and analysis, camera control, and user interfaces and interaction on light-field capture devices
US9462164B2 (en) 2013-02-21 2016-10-04 Pelican Imaging Corporation Systems and methods for generating compressed light field representation data using captured light fields, array geometry, and parallax information
US9712820B2 (en) * 2014-04-24 2017-07-18 Lytro, Inc. Predictive light field compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007026440A1 (ja) * 2005-08-29 2007-03-08 National University Corporation Nagoya University 画像情報圧縮方法、画像情報圧縮装置、及び自由視点テレビシステム
CN102301713A (zh) * 2009-01-28 2011-12-28 法国电信公司 使用预测掩膜对图像进行编码的方法和装置、对应的解码方法和装置、信号和计算机程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOLLES RC: "EPI POLAR-PLANE IMAGE ANALYSIS:AN APPROACH TO DTERMINING STRUCTURE FROM MOTION", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 *

Also Published As

Publication number Publication date
JP6872533B2 (ja) 2021-05-19
WO2017046176A1 (en) 2017-03-23
EP3351000A1 (en) 2018-07-25
US20190158877A1 (en) 2019-05-23
US10785502B2 (en) 2020-09-22
EP3142366A1 (en) 2017-03-15
KR20180053665A (ko) 2018-05-23
JP2018533273A (ja) 2018-11-08

Similar Documents

Publication Publication Date Title
CN108353189A (zh) 用于编码和解码基于光场的图像的方法和装置及对应计算机程序产品
CN108293133A (zh) 用于编码和解码基于光场的图像的方法和装置及对应计算机程序产品
CN108141610A (zh) 用于编码和解码基于光场的图像的方法和设备,以及相应的计算机程序产品
JP5535625B2 (ja) 適応的参照フィルタリングの方法及び装置
CN104885467B (zh) 用于下一代视频编码的内容自适应参数变换
CN109792517A (zh) 用于编码和解码大视场视频的方法和装置
CN110268716B (zh) 由球面投影处理等量矩形对象数据以补偿畸变
US20190005709A1 (en) Techniques for Correction of Visual Artifacts in Multi-View Images
CN109076232A (zh) 用于虚拟现实视频的面独立编解码结构的方法与装置
WO2022063265A1 (zh) 帧间预测方法及装置
CN114915783A (zh) 编码方法和装置
US20180278955A1 (en) Method and apparatus for reducing the coding artefact of a light field based image, and corresponding computer program product
EP4074046A1 (en) Intra prediction for image and video compression
US20170150152A1 (en) Methods and devices for encoding and decoding a matrix of views obtained from light-field data, corresponding computer program and non-transitory program storage device
CN103916652A (zh) 视差矢量生成方法及装置
EP3185560A1 (en) System and method for encoding and decoding information representative of a bokeh model to be applied to an all-in-focus light-field content
EP3430810B1 (en) Method and apparatus for processing video information
Jin Depth-map-assisted Texture and Depth Map Super-resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190919

Address after: Delaware, USA

Applicant after: Interactive Digital VC Holdings

Address before: Icelemulino, France

Applicant before: THOMSON LICENSING

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180717

WD01 Invention patent application deemed withdrawn after publication