CN106973293A

CN106973293A - 基于视差预测的光场图像编码方法

Info

Publication number: CN106973293A
Application number: CN201710267438.XA
Authority: CN
Inventors: 陈志波; 赵盛洋
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2017-07-21
Anticipated expiration: 2037-04-21
Also published as: CN106973293B

Abstract

本发明公开了一种基于视差预测的光场图像编码方法，包括：将光场图像转换为伪视频序列；在编码端，利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息，并将其转换为视差信息，然后进行运动补偿，并计算残差；最后，将残差量化编码写入码流；在解码端，采用与编码端一致的方法，利用深度神经网络预测已解码帧和当前帧之间的光流信息，并将其转换为对应解码块的运动矢量，通过运动补偿得到当前解码块的预测块，最后利用码流中的残差信息构建重建块。该方法可以节省运动估计的时间，降低编码运动矢量的比特数，提高光场图像的压缩性能，且不需要再将运动信息写入码流，能够极大地降低传输码流信息所需要的带宽。

Description

基于视差预测的光场图像编码方法

技术领域

本发明涉及视频编码技术领域，尤其涉及一种基于视差预测的光场图像编码方法。

背景技术

光场相机不但可以记录空间场景中的光线强度，而且还能记录其方向信息，随着Lytro光场相机的推出，光场图像在立体显示、虚拟现实、深度计算等领域有着巨大的应用前景。对于光场图像，我们可以将其转换为一组子孔径图像(subaperture image)，各个子孔径图像存在微小的视差，因此它们的信息冗余度非常大。如何利用子孔径图像间的视差对其进行高效地压缩，是光场技术应用过程中亟待解决的问题。

目前，如下两种方案：1)将视差补偿结合到小波变换中，但是该方法不能和现有的基于块结构的混合编码框架进行有效结合，并且该方法无法支持实时操作；2)则利用投影映射对子孔径图像间的视角变换进行建模，但是由于特征点检测精度的问题，导致其压缩性能不高。

另一方面，虽然光场中的视差信息可以通过计算运动矢量的方法得到，但是目前的计算过程涉及到运动估计，其时间复杂度较高，而且编码这些运动矢量要花费大量的比特。

发明内容

本发明的目的是提供一种基于视差预测的光场图像编码方法，可以节省运动估计的时间，降低编码运动矢量的比特数，提高光场图像的压缩性能。

本发明的目的是通过以下技术方案实现的：

一种基于视差预测的光场图像编码方法，包括：

将光场图像转换为伪视频序列；

在编码端，利用深度神经网络预测伪视频序列中已编码帧和当前帧之间的光流信息，并将其转换为视差信息，即对应编码块的运动矢量，然后进行运动补偿，并计算残差；最后，将残差量化编码写入码流；

在解码端，采用与编码端一致的方法，利用深度神经网络预测已解码帧和当前帧之间的光流信息，并将其转换为对应解码块的运动矢量，通过运动补偿得到当前解码块的预测块，最后利用码流中的残差信息构建重建块。

所述将光场图像转换为伪视频序列包括：

将光场图像转换为子孔径图像阵列，每幅子孔径图像反映了不同视角的场景信息；

将子孔径图像阵列按照一定的顺序将其转换为伪视频序列。

构建所述深度神经网络的过程如下：

计算伪视频序列相邻帧之间的光流信息，作为训练样本标签；

构建神经网络结构，以视频帧作为网络输入进行前向传播预测光流，并根据训练样本标签计算损失值，再根据损失值反向传播更新参数，如此反复迭代多次作为网络训练过程，训练完成的网络作为深度神经网络。

所构建的神经网络结构为：依次设置的卷积层、局部响应正则化层、池化层、卷积层、局部响应正则化层、池化层、三个卷积层、池化层、两个全连接层以及空间多元逻辑斯蒂克回归层；或者，依次设置的五个交替设置的卷积层与池化层、三个卷积层、逆卷积层、剪裁层以及多元逻辑斯蒂克回归层。

由上述本发明提供的技术方案可以看出，通过深度学习预测光场子孔径图像间的光流信息，并将其转换为其视差，从而节省运动估计的时间，降低编码运动矢量的比特数，提高光场图像的压缩性能，此外，不需要再将运动信息写入码流，能够极大地降低传输码流信息所需要的带宽。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的光场图像转换为伪视频序列的示意图；

图2为本发明实施例提供的传统混合编码框架；

图3为本发明实施例提供的传统混合解码框架；

图4为本发明实施例提供的光场伪视频序列编码框架；

图5为本发明实施例提供的解码框架；

图6为本发明实施例提供的一种神经网络结构示意图；

图7为本发明实施例提供的另一种神经网络结构示意图；

图8为本发明实施例提供的编码块运动矢量生成过程示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于视差预测的光场图像编码方法，包括：

将光场图像转换为伪视频序列；

如图1所示，所述将光场图像转换为伪视频序列包括：

将子孔径图像阵列按照一定的顺序将其转换为伪视频序列。

图2-图3，分别为传统混合编码框架与传统混合解码框架；相对应的，图4-图5，分别为本发明实施例提供的光场伪视频序列编码框架与解码框架。

从图2和图4中可以看出：本发明实施例中可以通过运动矢量生成模块(Block MVGeneration)生成每个编码块的帧间运动矢量(Block MV)，并且不需要将其写入码流传输到解码端，因此能够大幅度减少需要传输的比特。

从图3和图5中可以看出：本发明实施例中的解码器不再需要码流中的运动矢量，而是在解码端直接通过Block MV Generation模块中的深度神经网络预测并转换得到。

本发明实施例中，深度神经网络的构建过程如下：

首先，计算伪视频序列相邻帧之间的光流信息，作为训练样本标签；

然后，构建神经网络结构，如图6和图7所示，以视频帧作为网络输入进行前向传播预测光流，并根据训练样本标签计算损失值，再根据损失值反向传播更新参数，如此反复迭代多次作为网络训练过程，训练完成的网络作为深度神经网络(DNN网络)。

图6中所构建的神经网络结构为：依次设置的卷积层(Conv Layer)、局部响应正则化层(LRN Layer)、池化层(P Layer)、卷积层、局部响应正则化层、池化层、三个卷积层、池化层、两个全连接层(FC Layer)以及空间多元逻辑斯蒂克回归层(SS Layer)；

图7中所构建的神经网络结构为：依次设置的五个交替设置的卷积层与池化层(C&P Layer)、三个卷积层、逆卷积层(Deconv Layer)、剪裁层(Crop Layer)以及多元逻辑斯蒂克回归层(S Layer)。

图6-图7中，Forward Propagation表示前向传播，Backward Propagation表示后向传播。

其中，图6所示的网络结构并由空间多元逻辑斯蒂克回归层(Spatial SoftmaxLayer)代替多元逻辑斯蒂克回归层(Softmax Layer)，以生成与空间相关的运动矢量；图7所示的结构由全卷积网络组成，该结构能够有效的保留图片、视频中的局部信息。

本发明实施例中的神经网络结构已经预先构建完成并可直接使用，在实际操作中，可以直接执行编、解码操作。在编码端，将当前帧的上一帧图像(即已编码的图像帧)作为网络输入，前向传播后得到预测的光流信息；然后，将光流信息转换为编码块的运动矢量信息；接着，进行运动补偿，并计算残差；最后，将残差量化编码写入码流，具体如图8所示，运动矢量转换模块(Transform to Block MV)部分可以采用求取块内所有光流信息的均值等方法将光流转换为前编码块的运动矢量。在解码端，将已经解码的视频作为网络输入，预测得到光流信息，然后将其转换为编码块的运动矢量，最后利用码流中的残差信息重建出视频帧。图8中，Decoded Frame Buffer为解码帧缓存，DNN为深度神经网络，Block MV为块运动矢量。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于视差预测的光场图像编码方法，其特征在于，包括：

将光场图像转换为伪视频序列；

2.根据权利要求1所述的一种基于视差预测的光场图像编码方法，其特征在于，所述将光场图像转换为伪视频序列包括：

将子孔径图像阵列按照一定的顺序将其转换为伪视频序列。

3.根据权利要求1所述的一种基于视差预测的光场图像编码方法，其特征在于，构建所述深度神经网络的过程如下：

4.根据权利要求1所述的一种基于视差预测的光场图像编码方法，其特征在于，所构建的神经网络结构为：依次设置的卷积层、局部响应正则化层、池化层、卷积层、局部响应正则化层、池化层、三个卷积层、池化层、两个全连接层以及空间多元逻辑斯蒂克回归层；或者，依次设置的五个交替设置的卷积层与池化层、三个卷积层、逆卷积层、剪裁层以及多元逻辑斯蒂克回归层。