CN111951203A

CN111951203A - 视点合成方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111951203A
Application number: CN202010623644.1A
Authority: CN
Inventors: 高伟; 陶履方; 周琳洁
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-11-17

Abstract

本发明公开了一种视点合成方法、装置、设备及计算机可读存储介质，该方法包括以下步骤：获取多个输入图像，并将输入图像输入至压缩分辨率网络，以对输入图像执行压缩分辨率操作，得到中间图像；将中间图像输入至视点合成网络，得到视点合成图；将视点合成图输入至超分辨率网络，以对视点合成图执行分辨率重建操作，输出高分辨率的目标视点合成图，其中，压缩分辨率网络与所述超分辨率网络的网络结构对称。本发明通过压缩分辨率网络和超分辨率网络降低视点合成数据的运算量，从而减少计算机系统的计算量，提升计算机运算效率，解决了计算机系统进行视点合成的计算效率较低的技术问题。

Description

视点合成方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及视点合成技术领域，尤其涉及一种视点合成方法、装置、设备及计算机可读存储介质。

背景技术

光场的视点合成也可以视为角度超分辨率，由于角度分辨率的限制，为了生成平滑的视点转换，使用视点合成技术可以从稀疏的光场视点生成更密集的虚拟视点，因此可以获得更好的视觉体验。另外，通过光场的视点合成技术增加角度分辨率还有益于后续的处理算法，例如重聚焦、深度估计、质量增强、对象检测等。因此，设计一种高效快速的光场视点合成方法以改善三维沉浸式体验和实时处理性能是很有价值的。

先前的光场视点合成方法通常需要人工设计的特征、复杂的变换过程和大量的计算。由于这些方法的表示能力较差，合成的视点容易受到遮挡和噪声的影响，从而导致明显的伪影或模糊，性能很有限。近年来，随着深度学习在计算机视觉任务上的成功，一些研究人员提出了基于卷积神经网络的光场视点合成方法，尽管这种基于卷积神经网络的视点合成算法可以得到质量较高的视点，但是由于其具有大量参数的模型通常需要较大显存和较长模型训练收敛时间，导致计算机系统的计算效率较低，从而难以应用于大规模计算的实时系统中。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种视点合成方法、装置、设备及计算机可读存储介质，旨在解决计算机系统的计算效率较低的技术问题。

为实现上述目的，本发明提供一种视点合成方法，所述视点合成方法包括以下步骤：

获取多个输入图像，并将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像；

将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图；

将所述视点合成图输入至超分辨率网络，以对所述视点合成图执行分辨率重建操作，输出高分辨率的目标视点合成图，其中，所述压缩分辨率网络与所述超分辨率网络的网络结构对称。

可选地，所述获取多个输入图像，并将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像的步骤之前，还包括：

分别对所述压缩分辨率网络、所述视点合成网络及所述超分辨率网络执行预训练操作；

基于全局损失函数，联合训练所述压缩分辨率网络、所述视点合成网络及所述超分辨率网络；

基于目标网络模型对应的稀疏度参数，对所述目标网络模型执行神经网络压缩操作，其中，所述目标网络模型包括所述压缩分辨率网络、所述视点合成网络或所述超分辨率网络中的至少一种。

可选地，所述基于目标网络模型对应的稀疏度参数，对所述目标网络模型执行神经网络压缩操作的步骤包括：

基于序贯模型优化器生成预设的优化目标函数对应的稀疏度参数；

将所述稀疏度参数输入至实验单元，进行压缩尝试，以确定所述目标网络模型压缩后对应的图像质量指标及模型复杂度指标；

基于所述图像质量指标及所述模型复杂度指标计算所述优化目标函数对应的新的稀疏度参数，并基于所述新的稀疏度参数对所述目标网络模型执行神经网络压缩操作。

可选地，所述基于所述新的稀疏度参数对所述目标网络模型执行神经网络压缩操作的步骤包括：

执行所述基于所述新的稀疏度参数对所述目标网络模型执行神经网络压缩操作的步骤，直至所述神经网络压缩操作对应的迭代次数达最大迭代次数或所述优化目标函数对应的函数值达到预设收敛条件。

可选地，所述分别对所述压缩分辨率网络、所述视点合成网络及所述超分辨率网络执行预训练操作的步骤包括：

基于所述超分辨率网络对应的第一损失函数，对所述超分辨率网络执行预训练操作；

基于所述压缩分辨率对应的第二损失函数，联合所述超分辨率网络对所述压缩分辨率网络执行预训练操作；

基于所述视点合成网络对应的第三损失函数，对所述视点合成网络执行预训练操作。

可选地，所述将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像的步骤包括：

将所述输入图像输入至所述压缩分辨率网络的第一卷积层，以对所述输入图像执行初始特征提取操作，得到所述输入图像对应的第一特征图；

将所述第一特征图输入至所述压缩分辨率的第二卷积层，以对所述第一特征图执行降维操作，得到第二特征图；

对所述第二特征图依次执行缩放投影操作和重建操作，得到所述中间图像。

可选地，所述视点合成网络包括视差估计子网络及颜色预测子网络，所述将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图的步骤包括：

将所述中间图像输入至所述视点合成网络的视差估计子网络，以对所述中间图像执行视差估计操作，得到所述中间图像对应的视差图；

将所述视差图输入至所述视点合成网络的颜色预测子网络，以对所述视差图执行颜色预测操作，得到所述视点合成图。

此外，为实现上述目的，本发明还提供一种视点合成装置，所述视点合成装置包括：

压缩分辨率模块，用于获取多个输入图像，并将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像；

视点合成模块，用于将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图；

超分辨率模块，用于将所述视点合成图输入至超分辨率网络，以对所述视点合成图执行分辨率重建操作，输出高分辨率的目标视点合成图，其中，所述压缩分辨率网络与所述超分辨率网络的网络结构对称。

此外，为实现上述目的，本发明还提供一种视点合成设备，所述视点合成装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视点合成程序，所述视点合成程序被所述处理器执行时实现如上述的视点合成方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视点合成程序，所述视点合成程序被处理器执行时实现如上述的视点合成方法的步骤。

本发明通过获取多个输入图像，并将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像；将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图；将所述视点合成图输入至超分辨率网络，以对所述视点合成图执行分辨率重建操作，输出高分辨率的目标视点合成图，其中，所述压缩分辨率网络与所述超分辨率网络的网络结构对称。在本实施例中，先将输入图像压缩分辨率后再输入至视点合成网络中进行合成视点合成图，之后再通过超分辨率网络将图像重建成高分辨率的目标视点合成图。这种通过压缩分辨率网络和超分辨率网络降低视点合成数据的运算量，从而减少计算机系统的计算量，提升计算机运算效率，解决了计算机系统进行视点合成的计算效率较低的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的视点合成设备结构示意图；

图2为本发明视点合成方法第一实施例的流程示意图；

图3为本发明视点合成方法中的视点合成网络的结构示意图；

图4为本发明视点合成方法中的压缩分辨率网络和超分辨率网络的网络结构示意图；

图5为本发明基于优化目标函数及稀疏度参数的视点合成方法的流程示意图；

图6为基于序贯模型优化的稀疏度自动优化效果示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的视点合成设备结构示意图。

本发明实施例视点合成设备可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该视点合成设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，视点合成设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图1中示出的视点合成设备结构并不构成对视点合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视点合成程序。

在图1所示的视点合成设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视点合成程序。

在本实施例中，视点合成设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的视点合成程序，其中，处理器1001调用存储器1005中存储的视点合成程序时，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的视点合成程序，还执行以下操作：

本发明还提供一种视点合成方法，参照图2，图2为本发明视点合成方法第一实施例的流程示意图。

本发明所提出的视点合成方法应用于视点合成系统，该视点合成系统由压缩分辨率网络、视点合成网络及超分辨率网络三部分组成，压缩分辨率通过视点合成网络与超分辨率网络连接，压缩分辨率的输出端与视点合成网络的输入端连接，视点合成网络的输出端与超分辨率网络的输入端连接。压缩分辨率网络用于调整图像在视点合成前的图像分辨率；超分辨率网络分别用于调整图像在视点合成后的图像分辨率，使得压缩分辨率网络中图像的退化信息能被超分辨率网络有效恢复；视点合成网络则用于合成图像中光场的视点信息。其中，视点合成是指利用多张照片合成目标视角对应位置的照片，例如，利用已知的参考相机拍摄的图像合成出参考相机之间的虚拟相机位置拍摄的图像，从而通过视点合成技术可以合成更多视角下的图片，视点合成技术在VR中应用前景很大。在本实施例中，该视点合成方法包括以下步骤：

需要说明的是，本发明适用于光场、双目立体、多视点、自由视点等图像或视频系统等多种不同场景。

步骤S10，获取多个输入图像，并将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像；

压缩分辨率网络的网络结构包括初始特征提取模块、降维模块、缩放投影模块及重建模块，初始特征提取模块、降维模块、缩放投影模块及重建模块依次连接。其中，初始特征提取模块为滤波器尺寸为3*3的卷积层，用于提取图像的特征。降维模块为滤波器尺寸为1*1的卷积层，用于对图像进行降维。缩放投影模块包括3个下采样单元和2个上采样单元，上采样单元和下采样单元相隔放置，各个采样单元顺次连接，缩放投影模块用于对图像进行上、下缩放投影。并且，第一上采样单元、第二上采样单元分别与第三下采样单元连接，第一下采样单元、第二下采样单元分别与第二上采样单元连接，第一、第二及第三下采样单元分别与重建模块连接，从而使得缩放投影模块中的上采样单元或下采样单元输出的维度相同特征图都连接在一起作为下一个单元的输入。重建模块为滤波器尺寸为3*3的卷积层，用于将图像重建出压缩的低分辨率图像。

在本实施例中，压缩分辨率网络为预先基于图像训练数据训练视点合成系统完成后得到的压缩分辨率网络。在训练完成视点合成系统后，基于视点合成系统进行图像的视点合成过程，从预设数据持有方获取多个输入图像，并将多个输入图像输入至压缩分辨网络。压缩分辨率网络基于各个模块及各个模块对应的模块参数对输入图像执行压缩分辨率操作。执行完成压缩分辨率操作后，压缩分辨率网络输出低分辨率的中间图像，从而压缩分辨率网络将输入图像进行降低分辨率，以得到低分辨率的输入图像，从而减小后续视点合成网络对输入图像的运算量。其中，压缩分辨率操作包括初始特征提取操作、缩放投影操作及重建操作，也就是说，将输入图像输入至压缩分辨率网络后，通过初始特征提取流程、缩放投影流程及重建流程，对输入图像执行压缩分辨率操作。

给定输入的高分辨率视点V_Ih∈R^Hh×Wh×C，其中，H_h和W_h分别代表输入图像的高度和宽度，C表示像素通道数。首先，压缩分辨率产生V_Il∈R^Hh×Wh×C作为图像的压缩表示，其中H_l和W_l代表压缩图像的高度和宽度。通过保存更多结构信息和高频信息，可以获取更有效的特征，得到较低的计算量。然后，V_Il输入视点合成网络，输出低分辨率的新视图V_Ol∈R^Hl×Wl×C。最后，超分辨率网络将V_Ol复原为高分辨率重建视图V_Oh∈R^Hh×Wh×C。

初始特征提取阶段首先使用滤波器尺寸为3×3的卷积层从输入视图V_Ih∈R^Hh×Wh×C提取初始特征图F_I∈R^Hh×Wh×C1，然后使用滤波器尺寸为1×1的卷积层将特征图F_I∈R^Hh×Wh×C1降维为F_I∈R^Hh×Wh×C2(C2<C1)。上、下缩放投影阶段会迭代建立低分辨率和高分辨率特征图的相互关系，具体包含3个下采样单元和2个上采样单元，所有之前的输出的维度相同特征图都连接在一起作为下一个单元的输入。下采样单元从F_h∈R^{Hh×Wh×(C2×n)}生成F_l∈R^Hl×Wl×C2，上采样单元从F_l∈R^{Hl×Wl×(C2×n)}生成F_h∈R^Hh×Wh×C2，其中n表示连接的特征数量。最终重建阶段连接了先前的低分辨率特征图F_l∈R^{Hl×Wl×(C2×n)}通过滤波器尺寸为3×3的卷积层重建出压缩的低分辨率图像V_Il∈R^Hl×Wl×C。

步骤S20，将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图；

视点合成网络的网络结构包括视差估计子网络及颜色预测子网络，视差估计子网络与颜色预测子网络级联，即视差估计子网络的输出端与颜色预测子网络的输入端连接。视差估计子网络和颜色预测子网络具有同样的结构，均包含四个卷积层和三个激活层，每一个卷积层后接一个ReLU激活层(最后一个卷积层除外)，但两个子网络具有不同的输入和输出大小。其中，四个卷积层依次为7*7卷积层、5*5卷积层、3*3卷积层及1*1卷积层。

在本实施例中，视点合成网络为预先基于图像训练数据训练视点合成系统完成后得到的视点合成网络。在训练完成视点合成系统后，基于视点合成系统进行图像的视点合成过程，在将输入图像输入视点合成系统的压缩分辨率网络后，压缩分辨率网络对输入图像执行压缩分辨率操作后输出中间图像。之后，中间图像输入至视点合成网络进行视点合成过程，视点合成网络包括视差估计子网络和颜色预测子网络，从而视点合成网络基于视差估计子网络对中间图像执行视差估计操作，以及基于颜色预测子网络对中间图像执行颜色预测操作，最终在执行视差估计操作和颜色预测操作后视点合成网络输出低分辨率的视点合成图。

步骤S30，将所述视点合成图输入至超分辨率网络，以对所述视点合成图执行分辨率重建操作，输出高分辨率的目标视点合成图，其中，所述压缩分辨率网络与所述超分辨率网络的网络结构对称。

超分辨率网络与压缩分辨率网络的网络结构对称，超分辨率网络的网络结构包括顺次连接的滤波器尺寸为3*3的第一卷积层、滤波器尺寸为1*1的第二卷积层、第一上采样单元、第一下采样单元、第二上采样单元、第二下采样单元、第三上采样单元及滤波器尺寸为3*3的第三卷积层。可见，超分辨率网络具有2个下采样单元和3个上采样单元，上采样单元和下采样单元相隔放置，各个采样单元顺次连接。并且，第一下采样单元、第二下采样单元分别与第三上采样单元连接，第一上采样单元、第二上采样单元分别与第二下采样单元连接，第一、第二及第三上采样单元分别与第三卷积层连接，从而使得上采样单元或下采样单元输出的维度相同特征图都连接在一起作为下一个单元的输入。本方案中的超分辨率网络基于现有的图像超分辨率方法DBPN进行简化，将原始的7个上、下采样单元减少为3个，从而可以实现轻量级网络和低显存使用。

在本实施例中，超分辨率网络为预先基于图像训练数据训练视点合成系统完成后得到的超分辨率网络。视点合成网络执行视差估计操作及颜色预测操作，输出视点合成图对应的高分辨率的目标视点合成图。由于输入视点合成网络中处理的图像(中间图像)为经压缩分辨率网络处理后的低分辨率的图像，因此视点合成网络输出的图像也是低分辨率的图像(视点合成图)，从而通过超分辨率网络将低分辨率的图像重建回高分辨率的目标视点图像，使得图像在压缩分辨率网络中的退化信息能被超分辨率网络有效恢复。

综上所述，所提出的视点合成方法可以表示为：

V_Oh＝f_sr(f_vs(f_cr(V_Ih)))

其中，f_sr，f_vs和f_cr分别代表超分辨率网络、视点合成网络和压缩分辨率网络。V_Ih和V_Oh表示高分辨率的输入视点和输出视点(注意有多个视点作为输入)。

本实施例提出的视点合成方法，通过获取多个输入图像，并将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像；将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图；将所述视点合成图输入至超分辨率网络，以对所述视点合成图执行分辨率重建操作，输出高分辨率的目标视点合成图，其中，所述压缩分辨率网络与所述超分辨率网络的网络结构对称。在本实施例中，先将输入图像压缩分辨率后再输入至视点合成网络中进行合成视点合成图，之后再通过超分辨率网络将图像重建成高分辨率的目标视点合成图。这种通过压缩分辨率网络和超分辨率网络降低视点合成数据的运算量，从而减少计算机系统的计算量，提升计算机运算效率，解决了计算机系统进行视点合成的计算效率较低的技术问题。

基于第一实施例，提出本发明视点合成方法的第二实施例，在本实施例中，步骤S10之前，还包括：

步骤S40，分别对所述压缩分辨率网络、所述视点合成网络及所述超分辨率网络执行预训练操作；

步骤S50，基于全局损失函数，联合训练所述压缩分辨率网络、所述视点合成网络及所述超分辨率网络；

步骤S60，基于目标网络模型对应的稀疏度参数，对所述目标网络模型执行神经网络压缩操作，其中，所述目标网络模型包括所述压缩分辨率网络、所述视点合成网络或所述超分辨率网络中的至少一种。

在基于视觉合成系统进行图像的视点合成过程之前，分别对压缩分辨率网络、视点合成网络和超分辨率网络进行预训练。预训练完成后，将图像训练数据输入至视点合成系统，并基于全局损失函数联合压缩分辨率网络、视点合成网络及超分辨率网络进行训练，训练完成后生成压缩分辨率网络、视点合成网络或超分辨率网络中的至少一个目标网络模型的稀疏度参数，以对目标网络模型进行神经网络压缩。其中，全局损失函数的公式如下：

其中，λ是压缩分辨率网络、视点合成网络和超分辨率网络训练的平衡参数。由于超分辨率网络直接输出最终新视图，因此其损失函数应分配较大的权重。但是压缩分辨率网络和视点合成网络对特征学习也有影响，为了方便起见，可以设置参数λ以相同的权重衡量压缩分辨率网络和视点合成网络的损失函数，其中参数λ的值小于1。

例如，可以仅对压缩分辨率网络或视点合成网络或超分辨率网络中的一个进行神经网络压缩，也可以对压缩分辨率网络或视点合成网络或超分辨率网络中的任意两个网络模型进行神经网络压缩，也可以对压缩分辨率网络和视点合成网络和超分辨率网络这三个网络模型一起执行压缩分辨率操作，基于计算效率的考虑，一般只对视点合成网络进行神经网络压缩。

其中，对网络模型进行神经网络压缩实际上是通过对神经网络模型内部冗余参数及拓扑结构进行裁剪操作，因此神经网络压缩也称剪枝操作，基于通道剪枝的神经网络模型压缩技术能够对预训练模型(预训练的压缩分辨率网络或视点合成网络或超分辨率网络中的至少一个目标网络模型)实现轻量化处理。其中，通道剪枝(又名：滤波器剪枝)是一种典型的结构化剪枝方法，这种方法能够对神经网络模型的权重矩阵进行处理，置零其中部分通道的权重，从而对神经网络模型进行优化，并且可以在计算过程中省略相应的乘、加法操作，从而能够有效降低神经网络模型的参数量与计算量，加速模型推理过程，以及缩短执行时间。

进一步地，一实施例中，所述基于目标网络模型对应的稀疏度参数，对所述目标网络模型执行神经网络压缩操作的步骤包括：

步骤S601，基于序贯模型优化器生成预设的优化目标函数对应的稀疏度参数；

步骤S602，将所述稀疏度参数输入至实验单元，进行压缩尝试，以确定所述目标网络模型压缩后对应的图像质量指标及模型复杂度指标；

步骤S603，基于所述图像质量指标及所述模型复杂度指标计算所述优化目标函数对应的新的稀疏度参数，并基于所述新的稀疏度参数对所述目标网络模型执行神经网络压缩操作。

一般情况下，对神经网络模型施以稀疏度越高的模型压缩操作，神经网络模型的预测性能损失越严重，也会导致输出图像出现更为严重的质量损失。鉴于此，本申请提出一种基于稀疏度参数和优化目标函数的视点合成方法，用于权衡模型复杂度和图像质量之间的关系。将优化目标函数定义为在模型稀疏度配置方案χ下，基于实验单元输出质量指标u(χ)、模型复杂度指标v(χ)的复合函数。一种可能的定义方式是：根据u(χ)或v(χ)与目标指标的关系，对另一维度的评价指标进行补偿。以设定质量目标为例，此时稀疏度调整的总体优化目标可定义为：

其中，V为模型复杂度目标，α、β分别为达到、未达到目标时，与原始输出质量指标相乘的补偿项的奖惩指数。u(χ)可采用模型输出图像与真值图像配对求出的PSNR、SSIM、MS-SSIM等客观质量评价指标，v(χ)可采取进行压缩处理后，模型剩余参数量或计算量(浮点运算次数，或乘、加法操作次数)等指标。

进一步地，一实施例中，所述基于所述新的稀疏度参数对所述目标网络模型执行神经网络压缩操作的步骤包括：

执行基于所述新的稀疏度参数对所述目标网络模型执行神经网络压缩操作的步骤，直至神经网络压缩操作对应的迭代次数达最大迭代次数或优化目标函数对应的函数值达到预设收敛条件。

进一步地，一实施例中，所述分别对所述压缩分辨率网络、所述视点合成网络及所述超分辨率网络执行预训练操作的步骤包括：

步骤S401，基于所述超分辨率网络对应的第一损失函数，对所述超分辨率网络执行预训练操作；

步骤S402，基于所述压缩分辨率对应的第二损失函数，联合所述超分辨率网络对所述压缩分辨率网络执行预训练操作；

步骤S403，基于所述视点合成网络对应的第三损失函数，对所述视点合成网络执行预训练操作。

为了获得更高质量的视点合成图像和使模型更快地收敛，在联合训练压缩分辨率网络、视点合成网络和超分辨率网络之前，先通过光场数据集分别对压缩分辨率网络、视点合成网络和超分辨率网络进行预训练。由于压缩分辨率网络的训练数据难以获得，因此先训练超分辨率网络，使用均方差损失函数(第一损失函数)对超分辨率网络进行训练，当第一损失函数对应的函数值达到预设阈值，则预训练超分辨率网络完成。其中，第一损失函数的公式如下：

其中，V_l和V_h分别代表低分辨率和高分辨率视点。

预训练完成超分辨率网络后，联合超分辨率网络和压缩分辨率网络以预训练压缩分辨率网络。其中，联合超分辨率网络和压缩分辨率网络对压缩分辨率网络进行预训练时，固定超分辨率网络的权重，仅更新压缩分辨率网络的权重。基于超分辨率网络和压缩分辨率网络对应的第二损失函数，联合超分辨网络对压缩分辨率网络进行训练，并且当第二损失函数满足预设条件，则预训练超分辨率网络完成。其中，预设条件可以是第二损失函数对应的函数值达到预设函数值，第二损失函数的公式如下：

其中，f_cr是压缩分辨率网络，B表示基于双三次插值下采样，λ₀是压缩分辨率网络训练的关键参数，用于平衡所生成压缩分辨率网络的质量和信息量。可以理解的是，λ₀越大，压缩分辨率网络生成的图像质量越好；反之，λ₀越小，压缩分辨率网络生成图像中保留更多的高频信息。

预训练完成压缩分辨率网络后，基于视点合成网络对应的第三损失函数对视点合成网络进行预训练，当第三损失函数满足预设条件，则预训练视点合成网络完成。其中，预设条件可以是第三损失函数对应的函数值达到预设函数值，第三损失函数的公式如下：

其中，V_Ih和V_Oh分别是高分辨率的输入视点和输出视点。

进一步地，一实施例中，所述将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像的步骤包括：

步骤S101，将所述输入图像输入至所述压缩分辨率网络的第一卷积层，以对所述输入图像执行初始特征提取操作，得到所述输入图像对应的第一特征图；

步骤S102，将所述第一特征图输入至所述压缩分辨率的第二卷积层，以对所述第一特征图执行降维操作，得到第二特征图；

步骤S103，对所述第二特征图依次执行缩放投影操作和重建操作，得到所述中间图像。

压缩分辨率网络的网络结构包括初始特征提取模块、降维模块、缩放投影模块及重建模块，初始特征提取模块、降维模块、缩放投影模块及重建模块依次连接。其中，初始特征提取模块为滤波器尺寸为3*3的第一卷积层，用于提取图像的特征。降维模块为滤波器尺寸为1*1的第二卷积层，用于对图像进行降维。缩放投影模块包括3个下采样单元和2个上采样单元，上采样单元和下采样单元相隔放置，各个采样单元顺次连接，缩放投影模块用于对图像进行上、下缩放投影。并且，第一上采样单元、第二上采样单元分别与第三下采样单元连接，第一下采样单元、第二下采样单元分别与第二上采样单元连接，第一、第二及第三下采样单元分别与重建模块连接，从而使得缩放投影模块中的上采样单元或下采样单元输出的维度相同特征图都连接在一起作为下一个单元的输入。重建模块为滤波器尺寸为3*3的第三卷积层，用于将图像重建出压缩的低分辨率图像。

从预设数据持有方获取多个输入图像，并将多个输入图像输入至压缩分辨网络的第一卷积层，以使第一卷积层对输入图像进行提取初始特征，得到第一特征图；之后，第一卷积层输入第一特征图纸第二卷积层，以使第二卷积层对第一特征图进行降维，得到第二特征图；然后，第二卷积层输出第二特征图至缩放投影模块，以使缩放投影模块对第二特征图进行上、下缩放投影处理，得到第三特征图；缩放投影模块输出第三特征图至重建模块，以使重建模块对第三特征图进行重建，得到中间图像。

进一步地，一实施例中，所述视点合成网络包括视差估计子网络及颜色预测子网络，所述将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图的步骤包括：

步骤S201，将所述中间图像输入至所述视点合成网络的视差估计子网络，以对所述中间图像执行视差估计操作，得到所述中间图像对应的视差图；

步骤S202，将所述视差图输入至所述视点合成网络的颜色预测子网络，以对所述视差图执行颜色预测操作，得到所述视点合成图。

在将输入图像输入视点合成系统的压缩分辨率网络后，压缩分辨率网络对输入图像执行压缩分辨率操作后输出中间图像。之后，中间图像输入至视点合成网络的视差估计子网络中，以使视差估计子网络对中间图像执行视差估计操作，得到中间图像处理后的视差图；之后，基于中间图像和视差图对视差图进行视点扭转之后得到视点扭转图像；得到视点扭转图像后，将视点扭转图像输入至颜色预测子网络，以使颜色预测子网络对扭转图像执行颜色预测操作，最终输出低分辨率的视点合成图。

进一步地，为了验证本发明的性能，设计并实现两个基线模型进行比较。

基线1(视点合成)：为了评估使用压缩图像进行视点合成的加速效果，实现了基线1，该基线仅包含视点合成网络，没有压缩分辨率网络和超分辨率网络，也没有进行网络压缩。

基线2(使用双三次采样的视点合成)：为了评估该方法相对于传统插值方法的图像质量提升效果，实现了基线2，该基线使用双三次插值代替了压缩分辨率网络和超分辨率网络。

使用Kalantari等人的训练集来训练该框架，该训练集含有Lytro Illum相机拍摄的100个光场。为了增加数据集的多样性和模型的泛化性，测试集不仅包括中的测试集，还包括Stanford Lytro Light Field Archive中的Fruits&Vegetables，People和Refractive&Reflective surfaces数据集，分别具有30、20、17和32个光场。这些数据集包含各种场景，因此可以对本发明的性能进行全面、客观的评估。

实验是在NVIDIA Tesla V100GPU上进行训练和测试的，首先将超分辨率网络和压缩分辨率网络训练400代(epoch)，其中初始学习率设置为0.001，在第200代之后学习率每10代衰减0.05。用于训练压缩分辨率网络和超分辨率网络的输入图像被裁剪为20×20的图像块。因此，将压缩分辨率网络的输入图像和超分辨率网络的输出图像尺寸设置为H_h＝20，将W_h＝20，将压缩分辨率网络的输出图像和超分辨率网络的输入图像尺寸设置为H_l＝10，W_l＝10。其他参数设置为C₁＝32，C₂＝16，λ₀＝0.7。视点合成网络根据四个输入视点生成一个新视点，训练60000次迭代(iteration)，首先将学习率设置为0.0001，然后在4000次迭代后学习率每500次迭代衰减0.05。批处理大小(batch size)设置为10，输入图像裁剪为60×60的图像块以进行训练，并且使用Adam优化器更新参数。

在表1中，本方案的框架中的每个模块的时间消耗与基线1中的时间消耗在Cars光场进行了比较。一个新的视点合成可以节省约33.5878秒，约占原先总时间的77.9％。压缩分辨率网络和超分辨率网络仅占用很少的时间，但在视点扭转(warping)中节省了大量时间。因此，与原始的全分辨率视点合成方法相比，该框架可以大大缩短运算时间。此外，该方法的训练时间也比基线1少很多。在NVIDIA Tesla V100GPU上，基线1训练每100代大约需要41分钟，而该方法只需要17分钟。因此，该方法在训练和运行上都可以节省大量时间。在表2中，与基线2相比，该方法可以获得更好的图像质量，分别在PSNR上获得5.78dB和SSIM上获得0.078dB的增益，大大优于基于双三次插值的视点合成方法。该结果表明，与双三次采样相比，基于深度学习的压缩分辨率和超分辨率方法在保留和恢复有效特征方面具有更好的能力。

表1本发明与基线1运行时间对比(单位：秒)

表2本发明与基线2合成的视点质量对比(PSNR单位：dB)

使用本申请提出的视点合成方法，对视点合成系统模型进行轻量化处理，效果如图6所示，本申请提出的优化目标函数所度量的目标函数值能够随着迭代步数的增加，不断搜索到目标函数值更高的稀疏度参数，直至在一定步数后趋于稳定。

表3对基线1使用均匀剪枝方法与本发明的神经网络压缩效果对比

方法	参数量	浮点计算量	推理耗时(秒)	PSNR(dB)
					基线1	1.64M(100％)	318.75G(100％)	1.01(100％)	34.76
均匀剪枝	1.03M(62％)	199.78G(63％)	0.68(67％)	34.80
					本发明	445.78K(27％)	86.02G(26％)	0.34(34％)	34.81

表4使用本发明提出稀疏度自动优化方法，对本发明提出的使用分辨率缩放

的视点合成网络进行压缩处理的效果

通过上述方法对原始光场视点合成方案与使用分辨率缩放技术加速后的光场视点合成方案分别进行神经网络模型轻量化，效果如表3、4所示。对原始方案中的模型进行压缩时，通过本申请提出的自动优化方法，能够在不损失峰值信噪比的前提下，有效降低视点合成网络模型的参数量、计算量、与推理耗时，且与对相应模型进行均匀剪枝相比，效果明显提升。对使用分辨率缩放技术加速后的光场视点合成方法进行稀疏度自动优化后，同样能够在峰值信噪比不显著降低的前提下，有效减少预训练模型的参数量与计算量。

从实验结果可以看出，基于分辨率缩放的视点合成网络和模型压缩方法的视点合成方法具有显著的加速效果。

此外，本发明实施例还提出一种视点合成装置，所述视点合成装置包括：

视点合成模块，用于将所述中间图像输入至视点合成网络，以对所述中间图像依次执行视差估计操作及颜色预测操作，得到低分辨率的视点合成图；

进一步地，所述压缩分辨率模块，还用于：

进一步地，所述视点合成模块，还用于：

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视点合成程序，所述视点合成程序被处理器执行时实现如上述中任一项所述的视点合成方法的步骤。

本发明计算机可读存储介质具体实施例与上述视点合成方法的各实施例基本相同，在此不再详细赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视点合成方法，其特征在于，所述视点合成方法包括以下步骤：

2.如权利要求1所述的视点合成方法，其特征在于，所述获取多个输入图像，并将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像的步骤之前，还包括：

3.如权利要求2所述的视点合成方法，其特征在于，所述基于目标网络模型对应的稀疏度参数，对所述目标网络模型执行神经网络压缩操作的步骤包括：

4.如权利要求3所述的视点合成方法，其特征在于，所述基于所述新的稀疏度参数对所述目标网络模型执行神经网络压缩操作的步骤包括：

5.如权利要求2所述的视点合成方法，其特征在于，所述分别对所述压缩分辨率网络、所述视点合成网络及所述超分辨率网络执行预训练操作的步骤包括：

6.如权利要求1所述的视点合成方法，其特征在于，所述将所述输入图像输入至压缩分辨率网络，以对所述输入图像执行压缩分辨率操作，得到低分辨率的中间图像的步骤包括：

7.如权利要求1至6任一项所述的视点合成方法，其特征在于，所述视点合成网络包括视差估计子网络及颜色预测子网络，所述将所述中间图像输入至视点合成网络，得到低分辨率的视点合成图的步骤包括：

8.一种视点合成装置，其特征在于，所述视点合成装置包括：

9.一种视点合成设备，其特征在于，所述视点合成装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视点合成程序，所述视点合成程序被所述处理器执行时实现如权利要求1至7中任一项所述的视点合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视点合成程序，所述视点合成程序被处理器执行时实现如权利要求1至7中任一项所述的视点合成方法的步骤。