CN107770537A

CN107770537A - 基于线性重建的光场图像压缩方法

Info

Publication number: CN107770537A
Application number: CN201711065302.7A
Authority: CN
Inventors: 陈志波; 赵盛洋
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-03-06
Anticipated expiration: 2037-11-02
Also published as: CN107770537B

Abstract

本发明公开了一种基于线性重建的光场图像压缩方法，包括：将光场图像分解为视角图阵列，再分为A、B两个集合；在编码端，采用第一视频编码器对A集合中的视角图进行压缩，码流传输给编码端中的视频解码器与解码端的视频解码器；将B集合中的视角图结合编码端中的视频解码器重建出的A集合中视角图，并利用光场视角图的线性重建理论，求得B集合中视角图与A集合中视角图的关系，并传输给解码端的第二视频解码器；在解码端，利用光场视角图的线性重建理论，并结合解码端的第一与第二视频解码器的解码结果，重建出B集合；利用重建的A集合与B集合重新组成光场图像。该方法可大幅度减少编码端编码数据，并在解码端以较好的质量重建。

Description

基于线性重建的光场图像压缩方法

技术领域

本发明涉及光场图像压缩技术领域，尤其涉及一种基于线性重建的光场图像压缩方法。

背景技术

光场相机可以记录下空间场景中的光线强度和方向信息(即光场信息)。在光场相机内部，一个微透镜阵列被放置在CCD传感器前方，并位于主透镜的焦距附近。每个微透镜对应于一个像素块(即宏像素)，光场图像由N*M个宏像素组成，其中N和M分别为微透镜阵列的高和宽。若将每个微透镜视为小孔，则主透镜背面在每个宏像素上成倒立的像——即每个宏像素可视为对主透镜在特定方向上的一个采样。

相同空间分辨率下，数据量要数百倍于传统2D图像(Lytro二代光场相机拍摄单幅YUV图像大小50M左右)，这是制约光场技术应用的一个重要因素。因此一套光场图像的高效压缩方案对于图像的存储传输是必须的。

主流的压缩方案可以分为基于raw文件、基于伪视频序列、基于稀疏编码三种。

基于raw文件的压缩方法将宏像素阵列视为2D图像，使用传统编码方法如JEPG压缩。很显然这种方法不能充分利用光场本身的结构特征，实际操作亦不能取得好的效果。

基于伪视频序列的方法将光场分解为多个视角图，采用一定的顺序构成一个视频序列，采用传统的视频压缩方法，如HEVC等进行压缩。该方法压缩效率高，但没有充分利用光场的2D结构。

基于稀疏编码的方法往往利用光场图像中一些关键视角，利用字典训练等手段进行光场重建。此类方法压缩率高，但往往需要在编解码端进行字典学习和重建系数求解。由于光场的维度高数据量大，此类方法有复杂度很高，解码时间长的缺陷。

发明内容

本发明的目的是提供一种基于线性重建的光场图像压缩方法，可以大幅度减少编码端编码数据，并在解码端以较好的质量重建。

本发明的目的是通过以下技术方案实现的：

一种基于线性重建的光场图像压缩方法，包括：

将光场图像分解为视角图阵列，再将视角图阵列分为A、B两个非空的集合；

在编码端，采用第一视频编码器对A集合中的视角图进行压缩后，码流传输给编码端中的视频解码器与解码端中的第一视频解码器；将B集合中的视角图结合编码端中的视频解码器重建出的A集合中视角图，再利用光场视角图的线性重建理论，求得B集合中视角图与A集合中视角图的关系，并传输给解码端的第二视频解码器；

在解码端，利用光场视角图的线性重建理论，并结合解码端的第一与第二视频解码器的解码结果，重建出B集合中视角图；

利用重建的A集合与B集合重新组成光场图像。

由上述本发明提供的技术方案可以看出，将光场图像分解为视频，使用视频编码器去除角度域和空间域的冗余，同时利用所提出的线性重建理论，大幅度减少编码端编码数据，并在解码端以较好的质量重建；与基于稀疏编码的方法相比，本方案无须进行复杂耗时的字典训练和重建过程，同时因为编码数据量的减少，降低了编码复杂度，节约了编解码时间；同时，本方案可以与任意的序列扫描顺序技术相结合，因此具有良好的可拓展性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的将光场图像分解为视角图阵列的示意图；

图2为本发明实施例提供的微相机阵列的示意图；

图3为本发明实施例提供的一种基于线性重建的光场图像压缩方法的示意图；

图4为本发明实施例提供的一种光场图像压缩方法的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于线性重建的光场图像压缩方法，其利用基于微透镜阵列的光场图像的本身特性，设计高效的压缩方案，支持光场图像的存储和传输。其原理如下：

光场图像由宏像素阵列组成，每个宏像素实际是一个像素块，通过算法可以将光场图像分解为视角图阵列。如图1所示，通过抽取宏像素相同位置的像素并组合，可以构成场景的视角图。分解后可得到二维的视角图阵列。基于这种分解，可以认为图像是由微型相机阵列所拍摄得到，也就是说，将基于微透镜阵列的光场相机视为如图2所示的微相机阵列。

如图2所示，相邻相机间的距离固定为t₁，则对于深度为z_p的空间点p，视角子图V_i与中心视角图之间的视差为：

其中，K为相机内参，为视角图V_i与中心视角图之间的相对位置矢量；

可以确定，任意两个视角图V_j与V_i之间存在如下关系：

其中，p为像素坐标，D_u(p)为像素p的视差值，为视角图V_j与中心视角图之间的相对位置矢量，V₀为光场图像的中心视角图，如果有一组系数[x₁,x₂,......,x_m]满足：

其中M为重建所需视角图的个数。则可以得到：

即可以使用满足一定条件的稀疏对视角图进行线性重建。即在系数满足上式时，可以将视角图关系中的第二项消去，从而对视角图进行线性重建。值得注意的是，该约束为必要不充分条件，当M大于4的时候，系数没有唯一解，因此可以用优化模型求解一个最优系数。基于上述理论，提出一种基于线性重建的光场图像压缩方法，如图3所示，其主要包括：

1)将光场图像分解为视角图阵列，再将视角图阵列分为A、B两个非空的集合。

将光场图像分解为视角图阵列的过程可参见前文的图1。分解为视角图阵列，再将其分为A、B两个非空的集合。

2)在编码端，采用第一视频编码器(例如，可以是JEM标准编码器，即编码端上方的“JEM Encoder”)对A集合中的视角图进行压缩后，码流传输给编码端中的视频解码器(例如，可以是JEM标准解码器，即编码端的“JEM Decoder”)与解码端中的第一视频解码器(例如，可以是JEM标准解码器，即解码端上方的“JEM Decoder”)；将B集合中的视角图结合编码端中的视频解码器重建出的A集合中视角图，再利用光场视角图的线性重建理论，求得B集合中视角图与A集合中视角图的关系，并传输给解码端的第二视频解码器(例如，可以是JEM标准解码器，即解码端下方的“JEM Decoder”)。

具体的，对A集合中的视角图按照一定顺序组成一个视频序列，再采用第一视频编码器对A集合中的视角图进行压缩，获得的码流给编码端中的视频解码器与解码端中的第一视频解码器。

本发明实施例中，所述将B集合中的视角图结合编码端中的视频解码器重建出的A集合中视角图，并利用光场视角图的线性重建理论，求得B集合中视角图与A集合中视角图的关系，并传输给解码端的第二视频解码器具体如下：

对B集合中的每一张视角图，取编码端中的视频解码器重建出的A集合中若干张视角图(例如，图3中使用了最临近的四张视角图)，利用线性重建理论计算加权系数，直接计算线性加权和，结果与B集合中相应视角图作残差，再利用编码端中的第二视频编码器(例如，可以是JEM标准编码器，即编码端下方的“JEM Encoder”)将残差编码后传至解码端的第二视频解码器。

需要特别指出的是，线性平均方法重建的效果已经非常接近编码器编码效果，因此在低码率情况下，可以跳过残差编码，在解码端用A集合重建集合B。

3)在解码端过程与编码端相反：首先将A集合解码，然后利用A集合重建B集合，最后将B集合的残差解码，最终得到解码的B集合(即重建的集合B)。

4)利用重建的A集合与B集合重新组成光场图像。

本发明实施例上述方案，将光场图像分解为视频，使用视频编码器去除角度域和空间域的冗余，同时利用所提出的线性重建理论，大幅度减少编码端编码数据，并在解码端以较好的质量重建；与基于稀疏编码的方法相比，本方案无须进行复杂耗时的字典训练和重建过程，同时因为编码数据量的减少，降低了编码复杂度，节约了编解码时间；同时，本方案可以与任意的序列扫描顺序技术相结合，因此具有良好的可拓展性。

此外，为了验证本发明的效果，还进行了相关实验。实验过程如图4所示，图4与前文图3所示方案的原理类似，都属于线性重建理论的不同实施方案。线性重建的时候，需要对每一个视角图有加权系数，图4相当于用最优化模型去计算视角图的系数，而图3相当于使用了固定系数。与前述方案类似，按图1方法将光场图像分解为视角图阵列，再将视角图阵列分为A、B两个集合，对于A仍然使用标准编码器编码。但对于B集合中的每一个视角图，采用如下凸优化求解全局最优重建系数：

其中，将A集合中的所有视角图展开为列向量组成矩阵A，b为待重建的视角图，x为重建系数。对求得的最优重建系数进行量化和熵编码后传至解码端。

在解码端根据重建后的A集合中的视角图和解码得到的最优重建系数重建出B集合，进而还原整个光场图像。

这一实验中，采用了EPFL中的12幅光场图像，以ICME2016年光场压缩竞赛第一名的方案为参考；实验表明，相同质量下，本发明可以节约61.63％码率，极大的提高了编码效率，且在低码率时可以更加好的提高视觉体验和主观感受。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于线性重建的光场图像压缩方法，其特征在于，包括：

利用重建的A集合与B集合重新组成光场图像。

2.根据权利要求1所述的一种基于线性重建的光场图像压缩方法，其特征在于，所述采用视频编码器对A集合中的视角图进行压缩包括：

对A集合中的视角图按照一定顺序组成一个视频序列，再采用视频编码器对A集合中的视角图进行压缩。

3.根据权利要求1所述的一种基于线性重建的光场图像压缩方法，其特征在于，所述将B集合中的视角图结合编码端中的视频解码器重建出的A集合中视角图，并利用光场视角图的线性重建理论，求得B集合中视角图与A集合中视角图的关系，并传输给解码端的第二视频解码器包括：

对B集合中的每一张视角图，取编码端中的视频解码器重建出的A集合中若干张视角图，利用线性重建理论计算加权系数，直接计算线性加权和，结果与B集合中相应视角图作残差，再利用编码端中的第二视频编码器将残差编码后传至解码端的第二视频解码器。