CN110689514B

CN110689514B - 一种透明物体的新视角合成模型的训练方法和计算机设备

Info

Publication number: CN110689514B
Application number: CN201910964836.6A
Authority: CN
Inventors: 黄惠; 吴博剑; 吕佳辉
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2022-11-11
Anticipated expiration: 2039-10-11
Also published as: CN110689514A

Abstract

本申请涉及一种透明物体的新视角合成模型的训练方法和计算机设备，本方法在训练时，卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像，其中，预测折射流反映新视角的光传输矩阵，使卷积神经网络学习光线经过透明物体的复杂光传输行为，再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像。通过迭代训练卷积神经网络，得到新视角合成模型；通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像，得到第一视角和第二视角之间任意视角的合成图像，且合成图像质量高。

Description

一种透明物体的新视角合成模型的训练方法和计算机设备

技术领域

本申请涉及图片处理技术领域，特别是涉及一种透明物体的新视角合成模型的训练方法和计算机设备。

背景技术

新视角合成，是通过拍摄固定视角下物体或场景的图像，生成新视角下的图像，通常是通过插值或者扭曲附近视角的图像来实现。目前，对于新视角合成的研究，一方面，主要集中于朗伯表面的研究，由于很难明确地模拟光传输特征，没有考虑依赖于视角的光效应，例如，镜面反射率或透明度，因此，图像之间缺乏特征对应性，这将导致所有基于图像变形或基于几何推断的方法失效，对透明物体进行新视角合成变得非常具有挑战性；另一方面，通过训练图像到图像的网络以直接输出新视角下的图像，其中，网络不仅需要合理解释光传输行为，还需要建模图像本身属性，因此，对于透明物体来说仍然是非常困难的。现有的新视角合成方法不能直接应用于透明对象。

因此，现有技术有待改进。

发明内容

本发明所要解决的技术问题是，提供一种透明物体的新视角合成模型的训练方法和计算机设备，以实现针对透明物体进行新视角合成。

一方面，本发明实施例提供了一种透明物体的新视角合成模型的训练方法，包括：

将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络，通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流，其中，所述训练数据包括多组训练图像组，每一组训练图像组包括第一图像、第二图像、真实图像和混合系数，第一图像为在第一视角下拍摄的透明物体图像，第二图像为在第二视角下拍摄的透明物体图像，真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像，混合系数表示第一视角、第二视角和新视角之间的视角关系；

根据所述预测蒙版、预测衰减图和预测折射流，计算得到预测图像，其中，所述预测图像为卷积神经网络预测的在新视角下的透明物体图像；

根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤，直至满足预设训练条件，以得到新视角合成模型。

作为进一步的改进技术方案，所述卷积神经网络包括：编码模块和解码模块，所述将训练数据中的第一图像和第二图像输入卷积神经网络，通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流，包括：

将所述第一图像、第二图像和混合系数输入所述编码模块，以得到深度特征；将所述深度特征输入所述解码模块，以得到预测蒙版、预测衰减图和预测折射流。

作为进一步的改进技术方案，所述编码模块包括第一编码器、第二编码器和卷积层，所述深度特征包括第一深度特征、第二深度特征、第三深度特征、第四深度特征和混合深度特征，所述将所述第一图像、第二图像和混合系数输入所述编码器，以得到深度特征，包括：

将第一图像输入第一编码器，以得到第一图像对应的第一深度特征和第二深度特征；

将第二图像输入第二编码器，以得到第二图像对应的第三深度特征和第四深度特征；

将第二深度特征、第四深度特征和混合系数输入到卷积层，以得到混合深度特征。

作为进一步的改进技术方案，所述解码模块包括第一解码器、第二解码器和第三解码器，所述将所述深度特征输入所述解码模块，以得到预测蒙版、预测衰减图和预测折射流，包括：

将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第一解码器，以得到预测蒙版；

将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第二解码器，以得到预测衰减图；

将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第三解码器，以得到预测折射流。

作为进一步的改进技术方案，所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，包括：

根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值；

根据所述总损失值调整所述卷积神经网络的参数。

作为进一步的改进技术方案，所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值，包括：

根据真实图像计算真实蒙版、真实衰减图和真实折射流；

根据所述预测蒙版和所述真实蒙版，计算蒙版损失值；

根据所述预测衰减图和所述真实衰减图，计算衰减损失值；

根据所述预测折射流和所述真实折射流，计算折射流损失值；

根据预测图像和真实图像，计算构图损失值和感知损失值；

根据所述蒙版损失值、所述衰减损失值、所述折射流损失值、所述构图损失值和所述感知损失值计算总损失值。

作为进一步的改进技术方案，所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络之前，包括：

根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数。

第二方面，本发明第二实施例提供了一种透明物体的新视角合成方法，所述方法包括：

获取待处理第一图像和待处理第二图像和待处理混合系数；

将待处理第一图像和所述待处理第二图像输入到新视角合成模型，以得到待处理蒙版、待处理衰减图和待处理折射流；其中，所述新视角合成模型为通过上述一种透明物体的新视角合成模型的训练方法训练得到的新视角合成模型；

根据所述待处理蒙版、所述待处理衰减图和所述待处理折射流，通过环境遮罩计算得到合成图像，其中，所述合成图像的视角在所述待处理第一图像的视角和所述待处理第二图像的视角之间。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

与现有技术相比，本发明实施例具有以下优点：

根据本发明实施方式提供的训练方法，将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络，通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流，其中，所述训练数据包括多组训练图像组，每一组训练图像组包括第一图像、第二图像、真实图像和混合系数，第一图像为在第一视角下拍摄的透明物体图像，第二图像为在第二视角下拍摄的透明物体图像，真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像，混合系数表示第一视角、第二视角和新视角之间的视角关系；根据所述预测蒙版、预测衰减图和预测折射流，计算得到预测图像，其中，所述预测图像为卷积神经网络预测的在新视角下的透明物体图像；根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤，直至满足预设训练条件，以得到新视角合成模型。本方法在训练时，卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像，其中，预测折射流反映新视角的光传输矩阵，使卷积神经网络学习光线经过透明物体的复杂光传输行为，再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像，通过迭代训练卷积神经网络，得到新视角合成模型；通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像，得到第一视角和第二视角之间任意视角的合成图像，且合成图像质量高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种透明物体的新视角合成模型的训练方法的流程示意图；

图2为本发明实施例中将第一图像、第二图像和混合系数输入卷积神经网络以得到预测蒙版、预测衰减图和预测折射流的过程示意图；

图3为本发明实施例中卷积神经网络的层级结构示意图；

图4为本发明实施例中采用PSNR和SSIM来评估不同组合得到的预测图像的质量结果示意图；

图5为本发明实施例根据真实图像获取真实蒙版、真实衰减图和真实折射流的示意图；

图6为本发明实施例中渲染背景图；

图7为本发明实施例中采用Point Grey Flea彩色相机捕获用于训练和测试的真实图像

图8为本发明实施例中另外5个类别的量化评估结果示意图；

图9为本发明实施例中一种透明物体的新视角合成方法的流程示意图；

图10为本发明实施例中Airplane的合成示例图；

图11为本发明实施例中Glass_water的合成示例图；

图12为本发明实施例中Bottle的合成示例图；

图13为本发明实施例中Bench的合成示例图；

图14为本发明实施例中Table的合成示例图

图15为本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，详细说明本发明的各种非限制性实施方式。

参见图1，示出了本发明实施例中的一种透明物体的新视角合成模型的训练方法。在本实施例中，所述方法例如可以包括以下步骤：

S1、将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络，通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流，其中，所述训练数据包括多组训练图像组，每一组训练图像组包括第一图像、第二图像、真实图像和混合系数，第一图像为在第一视角下拍摄的透明物体图像，第二图像为在第二视角下拍摄的透明物体图像，真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像，混合系数表示第一视角、第二视角和新视角之间的视角关系。

本发明实施例中，所述第一图像、第二图像和真实图像来自不同视角的摄像机拍摄的稀疏采样图像，对于一个透明物体，可以拍摄此透明物体在多个视角下的图像，并用视角序号为多个视角下的图像进行编号。例如，相机围绕透明物体匀速移动，捕获一个图像序列，由C＝{C_k|k＝0,1,…,N}表示，其中，C₀表示视角序号为0的图像；从图像序列中随机选择第一图像C_L和第二图像C_R(0≤L<R≤N)，以及用于监督学习的真实图像C_t(L<t<R)，第一图像为在第一视角下拍摄的透明物体图像，可知，此例中，第一视角的视角序号为L；同样的，第二视角的视角序号为R，真实图像对应的视角序号为t。关于训练数据的获取，将在后面详细介绍。

具体的，在步骤S1之前包括：

M、根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数。

由于图像序列是围绕透明对象匀速移动的相机捕获的，在训练时，选定第一图像和第二图像，以及真实图像，并在选定第一图像、第二图像和真实图像之后确定混合系数。可以根据公式(1)计算混合系数α，混合系数表示第一视角、第二视角和新视角之间的关系，通过公式(1)可以计算混合系数α：

其中，t为真实图像的视角序号，L为第一图像的视角序号，R为第二图像的视角序号。将混合系数输入卷积神经网络，卷积神经网络根据混合系数输出第一图像和第二图像在混合系数下的预测图像对应的蒙版、折射流和衰减图，换句话说，可理解为卷积神经网络根据混合系数确定要预测哪个视角序号下的图像。

本发明实施例中，所述卷积神经网络，根据第一图像、第二图像和混合系数可以得到在新视角对应的预测蒙版

预测衰减图

和预测折射流

关于步骤S1的具体内容将在后面再详细介绍。

S2、根据所述预测蒙版、所述预测衰减图和所述预测折射流，计算得到第一图像和第二图像在混合系数下的预测图像，其中，所述预测图像为卷积神经网络预测的在新视角下的透明物体图像。

本发明实施例中，环境遮罩能够描述透明物体在环境中与光线相互作用时的反射和折射，以及前景物体的任何透射效果，为了将透明物体很好地合成至新的背景中，环境遮罩的核心是准确估计光传输矩阵；采用环境遮罩，根据预测蒙版、预测衰减图和预测折射流，可以合成在视角序号为t的新视角图像，即卷积神经网络预测的在新视角下的透明物体图像；对于透明物体，环境遮罩可以表示如下：

其中，C表示合成图像，F表示环境光照，B是背景图像；若背景图像B＝0，则C＝F，即，背景图像B为纯黑色时，容易获得环境光照F；进一步的，由于拍摄对象为透明物体，则F＝0。此外，m∈{0,1}表示对象二进制蒙版，其中m＝0，则表示合成颜色直接来自背景图像；折射流W可以用于表示光传输矩阵，并表征合成图像的像素和背景图像的像素之间的对应关系，为了简化问题，假设合成图像的一个像素仅仅来自于背景图像中的对应的一个像素，合成图像中的单个像素和背景图像中的一个像素与背景图像中的一个像素的对应关系用W表示；

意味着背景图像的逐像素索引。例如，如果W_ij＝(a,b)，则B_ab被索引用以计算C_ij，其中B_ab和C_ij分别表示位置(a,b)处的背景像素和位置(i,j)处的合成像素值。此外，ρ表示衰减图，其中针对每个像素，如果没有光线通过，则衰减值为0；如果有光线通过，并且没有衰减，则衰减值则等于1。

在本发明实施例中，将卷积神经网络输出的预测蒙版

预测衰减图

和预测折射流

代入公式(2)，可以计算得到预测图像中各像素点的像素值，通过像素值则可以得到预测图像

S3、根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，并继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤，直至满足预设训练条件，以得到新视角合成模型。

在本发明实施例中，以网络监督的方式进行训练，采用真实图像监督卷积神经网络的训练，根据真实图像对应的蒙版、衰减图和折射流，联合卷积神经网络的输出结果和预测图像，蒙版损失、衰减损失和折射流损失，为了合成更高质量的新视角图像，在训练中增加构图损失和感知损失，以对卷积神经网络的参数进行调整，直至满足预设训练条件，以得到新视角合成模型。

本方法在训练时，卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像，其中，预测折射流反映新视角的光传输矩阵，使卷积神经网络学习光线经过透明物体的复杂光传输行为，再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像，通过迭代训练卷积神经网络，得到新视角合成模型；通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像，得到第一视角和第二视角之间任意视角的合成图像，且合成图像质量高。

关于步骤S3的具体内容将在后面再详细介绍。

接下来详细介绍在另一种实现方式中，步骤S1的具体内容。

在本发明实施例中，由于通过透明物体的光传输是高度非线性的，通过卷积神经网络来学习和建模光传输关系，即通过以下方式合成中间视角的预测蒙版、预测衰减图和预测折射流，参见图2，示出了将第一图像C_L、第二图像C_R和混合系数输入卷积神经网络100，以得到预测蒙版

预测衰减图

和预测折射流

的过程，如公式(3)所示。

其中，Network表示卷积神经网络，卷积神经网络采用基于编码-解码的框架，以学习为透明物体合成新视角，第一图像和第二图像作为卷积神经网络的输入，并通过顺序卷积层将第一图像和第二图像投影搭配深度特征空间，在特征混合之后，得到混合深度特征，所述混合深度特征作为解码的基础，用于同时预测新视角底下的蒙版、衰减图和折射流。

具体的，所述卷积神经网络包括：编码模块和解码模块，步骤S1包括：

S11、将所述第一图像、第二图像和混合系数输入所述编码模块，以得到深度特征。

本发明实施例中，参见图3，示出了卷积神经网络的层级结构，所述编码模块包括第一编码器enc1(101)、第二编码器enc2(102)和卷积层CNN，第一编码器enc1和第二编码器enc2共享权重；每个编码器均有多个层次，例如，第一编码器和第二编码器均有8个编码器层，为了方便描述，将第一编码器的第一编码层记为enc1-L1(1011)，每个编码层的输出通道数分别是：64；128；256；512；512；512；512；512，在编码阶段，编码器采用8个连续的编码器层逐渐将第一图像和第二图像下采样到其

大小。

所述深度特征包括第一深度特征、第二深度特征、第三深度特征、第四深度特征和混合深度特征，具体的，步骤S11还包括：

S111、将第一图像输入第一编码器，以得到第一图像对应的第一深度特征和第二深度特征。

本发明实施例中，研究了如何平衡深度特征混合和跳跃连接，通过表示深度特征混合的最后p个层和跳跃连接的前q个层为(p混合；q连接)，定量研究这些组合将如何影响最终的合成结果。采用PSNR和SSIM来评估不同组合得到的预测图像的质量，结果总结如图4所示，选择3个示例，用于不同网络的性能定量评估，数值最小表示性能最佳，分别评估了M(ask)-IoU，A(ttenuation)-MSE，F(low)-EPE，C(omposition)-L1，PSNR和SSIM，为了平衡细节保留和特征混合，根据实验数据选择(p＝6；q＝2)作为较佳组合。

本发明实施例中，第一深度特征为第一编码器的浅层编码层输出的特征，例如，第一编码器有8个编码器层，可以将第一编码层和第二编码层设定为浅层编码层，则第一深度特征包括第一编码器的第一编码层输出的第一深度特征-L1：

以及第一编码器的第二编码层输出的第二深度特征-L2：

所述第二深度特征为第一编码器深层编码层输出的特征，例如，第一编码器有8个编码器层，可以将第三编码层至第八编码层均设定为深层编码层，则第二深度特征包括第一编码器的第一编码层至第八编码层的所有输出结果，可以将第二深度特征包括：第二深度特征-L3：

第二深度特征-L4：

第二深度特征-L5：

第二深度特征-L6：

第二深度特征-L7：

和第二深度特征-L8：

S112、将第二图像输入第二编码器，以得到第二图像对应的第三深度特征和第四深度特征。

本发明实施例中，第三深度特征为第二编码器的浅层特征，例如，第二编码器有8个编码器层，可以将第一编码层和第二编码层设定为浅层，则第三深度特征包括第二编码器的第一编码层输出的第三深度特征-L1：

以及第二编码器的第二编码层输出的第三深度特征-L2：

所述第四深度特征为第二编码的深层编码层输出的特征，例如，第二编码器有8个编码器层，可以将第三编码层至第八编码层均设定为深层编码层，则第四深度特征包括第二编码器的第一编码层至第八编码层的所有输出结果，可以将第四深度特征包括：第四深度特征-L3：

第四深度特征-L4：

第四深度特征-L5：

第四深度特征-L6：

第四深度特征-L7：

和第四深度特征-L8：

S113、将第二深度特征、第四深度特征和混合系数输入到卷积层，以得到混合深度特征。

在本发明实施例中，所述第二深度特征为第一编码器深层编码层输出的特征，所述第四深度特征为第二编码的深层编码层输出的特征，为了合成新视角图像，在深度特征空间进行混合模拟第一视角、第二视角和新视角之间的内在固有变换关系；在卷积层CNN中，通过公式(4)混合两个编码器的深度特征，以得到混合深度特征。

其中，k表示编码层，假设编码器的第三编码层至第八编码层为深层编码层，则k可以取3,4,……,8，

表示第一编码器第k编码层输出的第一图像对应的深度特征，

表示第二编码器第k编码层输出的第二图像对应的深度特征。

S12、将所述深度特征输入所述解码模块，以得到预测蒙版、预测衰减图和预测折射流。

在本发明实施例中，参见图3，解码模块包括第一解码器(103)、第二解码器(104)和第三解码器(105)，用于根据深度特征分别输出预测蒙版、预测衰减图和预测折射流。假设编码器采用8个连续的编码层对第一图像和第二图像进行下采样到其

大小，由于对称性，解码器必须以相同数量的转置解码层，以相反的方式对压缩的深度特征进行上采样。具体的，步骤S12包括：

S121、将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第一解码器，以得到预测蒙版。

在本发明实施例中，第一深度特征和第三深度特征是编码器的浅层编码层的输出结果，将浅层编码层的特征跳跃连接到具有相同空间维度的解码器层(如图3中501～504的所示)，可以将更多以细节和上下文信息传播到更高分辨率的解码层。

例如，第一编码器和第二编码器均有8个编码层，则将第一编码器的第一编码层和第二编码器的第一编码层跳跃连接到解码模块的各第一解码层，以及将第一编码器的第二编码层和第二编码器的第二编码层跳跃连接到解码模块的各第二解码层。

所述混合深度特征是编码器的深层编码层的输出结果，在步骤S121中，第一解码器用于根据第一深度特征、第三深度特征和混合深度特征输出预测蒙版

S122、将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第二解码器，以得到预测衰减图。

在本发明实施例中，第二解码器用于根据第一深度特征、第三深度特征和混合深度特征输出预测衰减图

S123、将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第三解码器，以得到预测折射流。

在本发明实施例中，第三解码器用于根据第一深度特征、第三深度特征和混合深度特征输出预测折射流

在本发明实施例中，解码之后，通过公式(2)，可以得到预测图像

接下来详细介绍在另一种实现方式中，步骤S3的具体内容。

具体的，步骤S3包括：

S31、根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值。

具体的，步骤S31包括：

S311、根据真实图像获取真实蒙版、真实衰减图和真实折射流。

首先根据真实图像获取其对应的真实蒙版m_t，真实衰减图ρ_t和真实折射流W_t。可参见图5，C_t为真实图像，m_t为真实图像对应的真实蒙版，ρ_t为真实图像对应的真实衰减图，W_t为真实图像对应的真实折射流。

关于如何根据真实图像获取其对应的真实蒙版、真实衰减图和真实折射流，在后面介绍真实数据集时再详细介绍。

S312、根据所述预测蒙版和所述真实蒙版，计算蒙版损失值。

本发明实施例中，透明物体的蒙版预测是二元分类问题，可以采用额外的softmax层来规范化输出并使用二进制交叉熵函数来计算蒙版损失值L_m，如公式(5)所示：

其中，H和W表示第一输入图像和第二输入图像的高度和宽度(第一输入图像高度和第二输入图像的高度相同，第一输入图像的宽度和第二输入图像的宽度相同)，m_ij和

分别表示二进制真实蒙版和规范化输出的预测蒙版在位置(i,j)处的像素值。

S313、根据所述预测衰减图和所述真实衰减图，计算衰减损失值。

本发明实施例中，使用MSE函数来计算衰减损失值L_a，如公式(6)所示：

其中，ρ_ij和

表示(i,j)像素处的真实衰减值和预测衰减值，并使用sigmoid激活函数来规范化预测衰减图

S314、根据所述预测折射流和所述真实折射流，计算折射流损失值。

本发明实施例中，预测折射流的维度是H*W*2，其被定义为合成像素与其对应的背景像素之间的索引关系。这两个通道分别表示沿x和y维度的像素位移。可以通过tanh激活函数来规范化输出，然后使用第一输入图像和第二输入图像的大小对输出值进行缩放。通过采用平均端点误差(EPE)函数，计算折射流损失值L_f，如公式(7)所示：

其中，W和

表示真实和预测的折射流，H和W表示第一输入图像和第二输入图像的高度和宽度(第一输入图像高度和第二输入图像的高度相同，第一输入图像的宽度和第二输入图像的宽度相同)，

表示真实图像在位置(i,j)处，沿x维度的像素位移，

表示预测图像在位置(i,j)处，沿x维度的像素位移，

表示真实图像在位置(i,j)处，沿y维度的像素位移，

表示预测图像在位置(i,j)处，沿y维度的像素位移。

S315、根据预测图像和真实图像，计算构图损失值和感知损失值。

在本发明实施例中，为了最小化预测图像和真实图像之间的差异，采用L1函数可以计算构图损失L_c，如公式(8)所示：

其中，H和W表示第一输入图像和第二输入图像的高度和宽度(第一输入图像高度和第二输入图像的高度相同，第一输入图像的宽度和第二输入图像的宽度相同)，

表示预测图像在(i,j)处的像素数值，

表示真实图像在(i,j)处的像素数值。

以及，为了更好的保留细节并较少模糊度，同时增加预测图像的清晰度，加入感知损失L_p，如公式(9)所示。

其中，φ(·)表示ImageNet预训练的VGG16模型的conv4_3特征，N是该层的总通道数。

S316、根据所述蒙版损失值、所述衰减损失值、所述折射流损失值、所述构图损失值和所述感知损失值计算总损失值。

在本发明实施例中，根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值；可以通过公式(10)实现最小化总损失值，根据总损失值训练网络。

L＝ω_mL_m+ω_aL_a+ω_fL_f+ω_cL_c+ω_pL_p (10)

其中，L表示总损失值，L_m表示蒙版损失值，ω_m表示蒙版损失值对应的平衡权重，L_a表示衰减损失值，ω_a表示衰减损失值对应的平衡权重，L_f表示折射流损失值，ω_f表示折射流损失值对应的平衡权重，L_c表示构图损失值，ω_c表示构图损失值对应的平衡权重，L_p表示感知损失值，ω_p表示感知损失值对应的平衡权重，可以设置ω_m＝1，ω_a＝10，ω_f＝1，ω_c＝10和ω_p＝1。

S32、根据所述总损失值调整所述卷积神经网络的参数。

在本发明实施例中，在训练时，可以使用PyTorch来实现，卷积神经网络的参数初始化采用Xavier算法实现，并使用默认参数的Adam算法作为优化器，修改参数之后再继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤，在一种实现方式中，通过固定学习率为0.0002，在Titan X GPU上训练100个周期的时间大概是10-12个小时。

在另一种实现方式中，修改参数之后再继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤，直至满足预设训练条件，其中，所述预设训练条件包括总损失值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据新视角合成模型来确定，这里不做详细说明；所述预设次数可以为卷积神经网络的最大训练次数，例如，50000次等。由此，在计算得到总损失值后，判断所述总损失值是否满足预设要求，若总损失值满足预设要求，则结束训练，若总损失值不满足预设要求，则判断所述卷积神经网络的训练次数是否达到训练次数，若未达到预设次数，则根据所述总损失值对所述卷积神经网络的参数进行调整，若达到预设次数，则结束训练，这样通过损失值和训练次数来判断卷积神经网络训练是否结束，可以避免因损失值无法达到预设要求而造成训练进入死循环。

进一步，由于对卷积神经网络的参数进行修改是在未满足预设条件是执行的(例如，总损失值未满足预设要求并且训练次数未达到预设次数)，从而在根据总损失值对所述卷积神经网络的参数进行修正后，需要继续对卷积神经网络进行训练，即继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤。其中，继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络中的第一图像、第二图像和混合系数可以为均未输入过卷积神经网络的第一图像、第二图像和混合系数。例如，训练数据中所有第一图像和第二图像均具有唯一图像标识(例如，视角序号)，混合系数的数值不同，第一次训练输入卷积神经网络的第一图像和第二图像的图像标识与第二次训练输入卷积神经网络的第一图像和第二图像的图像标识不同，如，第一次训练输入卷积神经网络的第一图像的视角序号为1，第二图像的视角序号为7，混合系数为0.5；第二次训练输入卷积神经网络的第一图像的视角序号为2，第二图像的视角序号为10，混合系数为0.6。

在实际应用中，由于训练数据中的第一图像和第二图像的数量有限，为了提高卷积神经网络的训练效果，可以依次将训练数据中的第一图像、第二图像和混合系数输入至卷积神经网络以对其进行训练，当训练数据中的所有第一图像、所有第二图像和对应的混合系数均输入过新视角合成模型后，可以继续执行依次将训练数据中的第一图像、第二图像和混合系数输入至卷积神经网络的操作，以使得训练数据中的训练图像组按循环输入至卷积神经网络模型。需要说明的是，在将第一图像和第二图像输入新视角合成模型训练的过程中，可以按照各个第一图像的视角序号顺序输入，也可以不按照各个第一图像的视角序号顺序输入，当然，可以重复使用同样的第一图像、第二图像和混合系数对卷积神经网络进行训练，也可以不重复使用同样的第一图像、第二图像和混合系数对卷积神经网络进行训练，在本实施例中，不对“继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤”的具体实现方式进行限定。

接下来详细介绍在一种实现方式中的训练数据。

目前还没有专门用于透明物体的新视角合成的任何开放数据集，本发明创建一个训练数据，包括合成数据集和真实数据集，其中，合成数据集包括使用POVRay渲染的、不同摄像机视角下的、8个不同模型类别作为可选取的第一图像和第二图像；真实数据集包括拍摄了6个真实的透明对象进行评估。

在本发明实施例中，合成数据集是包括从ShapeNet收集的8类3D对象，包括Airplane，Bench，Bottle，Car，Jar，Lamp和Table，对于每个类别，随机选择了400个模型，其中350个用于训练，50个用于测试；此外，还使用400个Glass_water模型作为附加实例，以验证训练后得到的新视角合成模型可以有效扩展至一般的例子中。在渲染过程中，每个模型都呈现为透明对象，折射率设置为1.5。用于拍摄透明物体的摄像机设置为具有固定焦距和视点的针孔模型，显示屏幕的分辨率为512*512，在每个摄像机试图中，屏幕显示一系列二进制格雷码图像用于蒙版提取和环境遮罩，因此，需要渲染18张格雷码图像，其中9张作为行，另外9张作为列。此外，通过在纯白色背景图像前渲染模型，很容易获得衰减图；渲染时所采用的背景图像如图6所示。使用唯一的颜色值对该背景图像中每个像素进行预编码，以避免重复模式并帮助优化损失函数，从而在网格采样期间更有效地计算梯度。考虑到对每个对象的渲染，为了满足预设训练要求，并且增加训练样例的多样性，首先将对象在虚拟场景中随机旋转至某一初始化位置，然后围绕y轴(POVRay的坐标系)从-10°旋转至10°。并以2°的旋转间隔获得图像序列。

在本发明实施例中，真实数据集，6个真实的透明物体，包括Hand，Goblet，Dog，Monkey，Mouse和Rabbit，用于算法评估，见图7。采用Point Grey Flea彩色相机(FL3-U3-13S2C-CS)捕获用于训练和测试的真实图像。与合成数据集的渲染方法相似，将透明对象放置在DELL LCD显示器(U2412M)前方的转盘上。在拍摄期间，转盘以2°的间隔从0°旋转到360°。在显示器上显示格雷码图案，纯白图像和彩色图背景图像，用于提取真实蒙版，真实衰减图和真实折射流。

在本发明实施例中，除了图4中评估的三个类别以外，还进行了对另外5个类别的更多量化评估，参见图8，每个类别的平均PSNR和SSIM高于20.0和0.85，这说明我们网络合成的图像可以产生视觉较好的结果。

本方法在训练时，卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像，预测蒙版、预测衰减图和预测折射流反映新视角的光传输矩阵，使卷积神经网络学习透明物体图像的复杂光行为，再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像，通过迭代训练，得到新视角合成模型；通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像，得到第一视角和第二视角之间任意视角的合成图像，且合成图像质量高。

本发明实施例中还提供了一种透明物体的新视角合成方法，参见图9，所述方法例如可以包括以下步骤：

K1、获取待处理第一图像、待处理第二图像和预设混合系数。

在本发明实施例中，待处理第一图像X的视角序号x与待处理第二图像Y的视角序号y不同，预设混合系数α'大于0且小于1。根据公式(11)可以知道合成图像的视角序号。

则需要合成视角序号为例如，视角序号x等于2，视角序号y等于8，预设混合系数α'为0.5，可知合成图像X的视角序号x为4。

K2、将所述待处理第一图像、所述待处理第二图像和所述预设混合系数输入到新视角合成模型，以得到待处理蒙版、待处理衰减图和待处理折射流；其中，所述新视角合成模型为上述一种透明物体的新视角合成模型的训练方法得到的新视角合成模型。

K3、采用环境遮罩，根据所述待处理蒙版、所述待处理衰减图和所述待处理折射流，计算得到待处理第一图像和待处理第二图像在预设混合系数下的合成图像，其中，所述合成图像的视角在所述待处理第一图像的视角和所述待处理第二图像的视角之间。

在本发明实施例中，采用公式(2)所示的环境遮罩表达式，可以根据待处理蒙版m、所述待处理衰减图ρ和所述待处理折射流W得到合成图像。

举例说明，参见图10，示出了Airplane的合成示例，相机相对于物体的视角，从-10°到10°，其中，A为在-10°时拍摄的图像，B为在-8°时拍摄的图像，C为在-6°时拍摄的图像，D为在-4°时拍摄的图像，E为在-2°时拍摄的图像，F为在0°时拍摄的图像，G为在2°时拍摄的图像，H为在4°时拍摄的图像，I为在6°时拍摄的图像，J为在8°时拍摄的图像，K为在10°时拍摄的图像，将图像A作为待处理第一图像，图像K作为待处理第二图像，在不同的新视角(即不同的预设混合视角)下，可以输出待处理蒙版，待处理损失值和待处理折射流，所述待处理蒙版，待处理损失值和待处理折射流均是像素值，可以通过图像表现。A1是图像A对应的可视化待处理蒙版，B1是图像B对应的可视化待处理蒙版，……，K1是图像K对应的可视化待处理蒙版；A2是图像A对应的可视化待处理衰减图，B2是图像B对应的可视化待处理衰减图，……，K2是图像K对应的可视化待处理衰减图；A3是图像A对应的可视化待处理折射流，B3是图像B对应的可视化待处理折射流，……，K3是图像K对应的可视化待处理折射流。根据待处理蒙版、待处理衰减图和待处理折射流，通过环境遮罩可以得到合成图像，a是根据图像A和图像K得到的-10°视角下的合成图像，b是根据图像A和图像K得到的-8°视角下的合成图像，c是根据图像A和图像K得到的-6°视角下的合成图像，……，k是根据图像A和图像K得到的10°视角下的合成图像。与每个相应的真实图像相比，在此情况下的平均PSNR和SSIM是(25.7,0.9567)和(19.4,0.9004)，它清楚地表明合成结果在视觉上是合理的。

参见图11，本发明实施例还示出了Glass_water的合成示例，同样的，A为在-10°时拍摄的图像，B为在-8°时拍摄的图像，C为在-6°时拍摄的图像，D为在-4°时拍摄的图像，E为在-2°时拍摄的图像，F为在0°时拍摄的图像，G为在2°时拍摄的图像，H为在4°时拍摄的图像，I为在6°时拍摄的图像，J为在8°时拍摄的图像，K为在10°时拍摄的图像；根据训练得到的新视角合成模型，将图像A作为待处理第一图像，图像K作为待处理第二图像，在不同的新视角(即不同的预设混合视角)下，可以得到不同的合成图像。在此情况下的平均PSNR和SSIM是(19.4,0.9004)，它清楚地表明合成结果在视觉上是合理的。

参见图12，本发明实施例还示出了Bottle的合成示例，A为在-10°时拍摄的图像，B为在0°时拍摄的图像，C为在10°时拍摄的图像，将A作为待处理第一图像，C作为待处理第二图像，A1为图像A为真实图像时对应的可视化待处理蒙版，B1为B为真实图像时对应的可视化待处理蒙版，C1为图像C为真实图像时对应的可视化待处理蒙版；A2为图像A为真实图像时对应的可视化待处理衰减图，B2为B为真实图像时对应的可视化待处理衰减图，C2为图像C为真实图像时对应的可视化待处理衰减图；A3为图像A为真实图像时对应的可视化待处理折射流，B3为B为真实图像时对应的可视化待处理折射流，C3为图像C为真实图像时对应的可视化待处理折射流。a是根据图像A和图像C得到的-10°视角下的合成图像，b是根据图像A和图像C得到的0°视角下的合成图像，c是根据图像A和图像C得到的10°视角下的合成图像。在此情况下的平均PSNR和SSIM是(23.5,0.9584)，它清楚地表明合成结果在视觉上是合理的。

参见图13，本发明实施例还示出了Bench的合成示例，与图12所示相同，A为在-10°时拍摄的图像，B为在0°时拍摄的图像，C为在10°时拍摄的图像，将A作为待处理第一图像，C作为待处理第二图像，A1为图像A为真实图像时对应的可视化待处理蒙版，B1为B为真实图像时对应的可视化待处理蒙版，C1为图像C为真实图像时对应的可视化待处理蒙版；A2为图像A为真实图像时对应的可视化待处理衰减图，B2为B为真实图像时对应的可视化待处理衰减图，C2为图像C为真实图像时对应的可视化待处理衰减图；A3为图像A为真实图像时对应的可视化待处理折射流，B3为B为真实图像时对应的可视化待处理折射流，C3为图像C为真实图像时对应的可视化待处理折射流。a是根据图像A和图像C得到的-10°视角下的合成图像，b是根据图像A和图像C得到的0°视角下的合成图像，c是根据图像A和图像C得到的10°视角下的合成图像。在此情况下的平均PSNR和SSIM是(21.6,0.9243)，它清楚地表明合成结果在视觉上是合理的。

参见图14，本发明实施例还示出了Table的合成示例，与图12所示相同，A为在-10°时拍摄的图像，B为在0°时拍摄的图像，C为在10°时拍摄的图像，将A作为待处理第一图像，C作为待处理第二图像，A1为图像A为真实图像时对应的可视化待处理蒙版，B1为B为真实图像时对应的可视化待处理蒙版，C1为图像C为真实图像时对应的可视化待处理蒙版；A2为图像A为真实图像时对应的可视化待处理衰减图，B2为B为真实图像时对应的可视化待处理衰减图，C2为图像C为真实图像时对应的可视化待处理衰减图；A3为图像A为真实图像时对应的可视化待处理折射流，B3为B为真实图像时对应的可视化待处理折射流，C3为图像C为真实图像时对应的可视化待处理折射流。a是根据图像A和图像C得到的-10°视角下的合成图像，b是根据图像A和图像C得到的0°视角下的合成图像，c是根据图像A和图像C得到的10°视角下的合成图像。在此情况下的平均PSNR和SSIM是(21.4,0.9907)，它清楚地表明合成结果在视觉上是合理的。

经过上述示例，可以看出，训练得到透明物体的新视角合成模型可以在不同物体的新视角下准确预测和复现光传输特性。

在一个实施例中，本发明提供了一种计算机设备，该设备可以是终端，内部结构如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现透明物体的新视角合成模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15所示的仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络，通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流，其中，所述训练数据包括多组训练图像组，每一组训练图像组包括第一图像、第二图像、真实图像和混合系数，第一图像为在第一视角下拍摄的透明物体图像，第二图像为在第二视角下拍摄的透明物体图像，真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像，混合系数表示第一视角、第二视角和新视角之间的关系；

根据所述预测蒙版、所述预测衰减图和所述预测折射流，计算得到第一图像和第二图像在混合系数下的预测图像，其中，所述预测图像为卷积神经网络预测的在新视角下的透明物体图像；

根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，并继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤，直至满足预设训练条件，以得到新视角合成模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述一种透明物体的新视角合成模型的训练方法和计算机设备，根据本发明实施方式提供的训练方法，将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络，通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流，其中，所述训练数据包括多组训练图像组，每一组训练图像组包括第一图像、第二图像、真实图像和混合系数，第一图像为在第一视角下拍摄的透明物体图像，第二图像为在第二视角下拍摄的透明物体图像，真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像，混合系数表示第一视角、第二视角和新视角之间的视角关系；根据所述预测蒙版、预测衰减图和预测折射流，计算得到预测图像，其中，所述预测图像为卷积神经网络预测的在新视角下的透明物体图像；根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤，直至满足预设训练条件，以得到新视角合成模型。本方法在训练时，卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像，其中，预测折射流反映新视角的光传输矩阵，使卷积神经网络学习光线经过透明物体的复杂光传输行为，再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像，通过迭代训练卷积神经网络，得到新视角合成模型；通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像，得到第一视角和第二视角之间任意视角的合成图像，且合成图像质量高。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种透明物体的新视角合成模型的训练方法，其特征在于，所述方法包括：

所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络之前，包括：

根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数；

所述根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数，包括：

所述混合系数表示第一视角、第二视角和新视角之间的关系，所述混合系数

的计算公式为：

，

其中，t为真实图像的视角序号，L为第一图像的视角序号，R为第二图像的视角序号；

所述卷积神经网络包括：编码模块和解码模块，所述将训练数据中的第一图像和第二图像输入卷积神经网络，通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流，包括：

将所述第一图像、第二图像和混合系数输入所述编码模块，以得到深度特征；

将所述深度特征输入所述解码模块，以得到预测蒙版、预测衰减图和预测折射流；

所述编码模块包括第一编码器、第二编码器和卷积层，所述深度特征包括第一深度特征、第二深度特征、第三深度特征、第四深度特征和混合深度特征，所述将所述第一图像、第二图像和混合系数输入所述编码器，以得到深度特征，包括：

将第二深度特征、第四深度特征和混合系数输入到卷积层，以得到混合深度特征；

所述解码模块包括第一解码器、第二解码器和第三解码器，所述将所述深度特征输入所述解码模块，以得到预测蒙版、预测衰减图和预测折射流，包括：

将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第三解码器，以得到预测折射流；

根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，并继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤，直至满足预设训练条件，以得到新视角合成模型；

所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像，对所述卷积神经网络的参数进行调整，包括：

根据所述总损失值调整所述卷积神经网络的参数；

根据蒙版损失值、衰减损失值、折射流损失值、构图损失值和感知损失值计算总损失值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值，包括：

根据真实图像计算真实蒙版、真实衰减图和真实折射流；

根据所述预测蒙版和所述真实蒙版，计算蒙版损失值；

根据所述预测衰减图和所述真实衰减图，计算衰减损失值；

根据预测图像和真实图像，计算构图损失值和感知损失值。

3.一种透明物体的新视角合成方法，其特征在于，所述方法包括：

获取待处理第一图像、待处理第二图像和预设混合系数；

将所述待处理第一图像、所述待处理第二图像和所述预设混合系数输入到新视角合成模型，以得到待处理蒙版、待处理衰减图和待处理折射流；其中，所述新视角合成模型为权利要求1至2中任一所述的方法训练得到的新视角合成模型；

采用环境遮罩，根据所述待处理蒙版、所述待处理衰减图和所述待处理折射流，计算得到待处理第一图像和待处理第二图像在预设混合系数下的合成图像，其中，所述合成图像的视角在所述待处理第一图像的视角和所述待处理第二图像的视角之间。

4.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。