CN110689514B - 一种透明物体的新视角合成模型的训练方法和计算机设备 - Google Patents

一种透明物体的新视角合成模型的训练方法和计算机设备 Download PDF

Info

Publication number
CN110689514B
CN110689514B CN201910964836.6A CN201910964836A CN110689514B CN 110689514 B CN110689514 B CN 110689514B CN 201910964836 A CN201910964836 A CN 201910964836A CN 110689514 B CN110689514 B CN 110689514B
Authority
CN
China
Prior art keywords
image
prediction
visual angle
mask
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910964836.6A
Other languages
English (en)
Other versions
CN110689514A (zh
Inventor
黄惠
吴博剑
吕佳辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910964836.6A priority Critical patent/CN110689514B/zh
Publication of CN110689514A publication Critical patent/CN110689514A/zh
Application granted granted Critical
Publication of CN110689514B publication Critical patent/CN110689514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本申请涉及一种透明物体的新视角合成模型的训练方法和计算机设备,本方法在训练时,卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像,其中,预测折射流反映新视角的光传输矩阵,使卷积神经网络学习光线经过透明物体的复杂光传输行为,再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像。通过迭代训练卷积神经网络,得到新视角合成模型;通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像,得到第一视角和第二视角之间任意视角的合成图像,且合成图像质量高。

Description

一种透明物体的新视角合成模型的训练方法和计算机设备
技术领域
本申请涉及图片处理技术领域,特别是涉及一种透明物体的新视角合成模型的训练方法和计算机设备。
背景技术
新视角合成,是通过拍摄固定视角下物体或场景的图像,生成新视角下的图像,通常是通过插值或者扭曲附近视角的图像来实现。目前,对于新视角合成的研究,一方面,主要集中于朗伯表面的研究,由于很难明确地模拟光传输特征,没有考虑依赖于视角的光效应,例如,镜面反射率或透明度,因此,图像之间缺乏特征对应性,这将导致所有基于图像变形或基于几何推断的方法失效,对透明物体进行新视角合成变得非常具有挑战性;另一方面,通过训练图像到图像的网络以直接输出新视角下的图像,其中,网络不仅需要合理解释光传输行为,还需要建模图像本身属性,因此,对于透明物体来说仍然是非常困难的。现有的新视角合成方法不能直接应用于透明对象。
因此,现有技术有待改进。
发明内容
本发明所要解决的技术问题是,提供一种透明物体的新视角合成模型的训练方法和计算机设备,以实现针对透明物体进行新视角合成。
一方面,本发明实施例提供了一种透明物体的新视角合成模型的训练方法,包括:
将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的视角关系;
根据所述预测蒙版、预测衰减图和预测折射流,计算得到预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。
作为进一步的改进技术方案,所述卷积神经网络包括:编码模块和解码模块,所述将训练数据中的第一图像和第二图像输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,包括:
将所述第一图像、第二图像和混合系数输入所述编码模块,以得到深度特征;将所述深度特征输入所述解码模块,以得到预测蒙版、预测衰减图和预测折射流。
作为进一步的改进技术方案,所述编码模块包括第一编码器、第二编码器和卷积层,所述深度特征包括第一深度特征、第二深度特征、第三深度特征、第四深度特征和混合深度特征,所述将所述第一图像、第二图像和混合系数输入所述编码器,以得到深度特征,包括:
将第一图像输入第一编码器,以得到第一图像对应的第一深度特征和第二深度特征;
将第二图像输入第二编码器,以得到第二图像对应的第三深度特征和第四深度特征;
将第二深度特征、第四深度特征和混合系数输入到卷积层,以得到混合深度特征。
作为进一步的改进技术方案,所述解码模块包括第一解码器、第二解码器和第三解码器,所述将所述深度特征输入所述解码模块,以得到预测蒙版、预测衰减图和预测折射流,包括:
将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第一解码器,以得到预测蒙版;
将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第二解码器,以得到预测衰减图;
将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第三解码器,以得到预测折射流。
作为进一步的改进技术方案,所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,包括:
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值;
根据所述总损失值调整所述卷积神经网络的参数。
作为进一步的改进技术方案,所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值,包括:
根据真实图像计算真实蒙版、真实衰减图和真实折射流;
根据所述预测蒙版和所述真实蒙版,计算蒙版损失值;
根据所述预测衰减图和所述真实衰减图,计算衰减损失值;
根据所述预测折射流和所述真实折射流,计算折射流损失值;
根据预测图像和真实图像,计算构图损失值和感知损失值;
根据所述蒙版损失值、所述衰减损失值、所述折射流损失值、所述构图损失值和所述感知损失值计算总损失值。
作为进一步的改进技术方案,所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络之前,包括:
根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数。
第二方面,本发明第二实施例提供了一种透明物体的新视角合成方法,所述方法包括:
获取待处理第一图像和待处理第二图像和待处理混合系数;
将待处理第一图像和所述待处理第二图像输入到新视角合成模型,以得到待处理蒙版、待处理衰减图和待处理折射流;其中,所述新视角合成模型为通过上述一种透明物体的新视角合成模型的训练方法训练得到的新视角合成模型;
根据所述待处理蒙版、所述待处理衰减图和所述待处理折射流,通过环境遮罩计算得到合成图像,其中,所述合成图像的视角在所述待处理第一图像的视角和所述待处理第二图像的视角之间。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的视角关系;
根据所述预测蒙版、预测衰减图和预测折射流,计算得到预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的视角关系;
根据所述预测蒙版、预测衰减图和预测折射流,计算得到预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。
与现有技术相比,本发明实施例具有以下优点:
根据本发明实施方式提供的训练方法,将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的视角关系;根据所述预测蒙版、预测衰减图和预测折射流,计算得到预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。本方法在训练时,卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像,其中,预测折射流反映新视角的光传输矩阵,使卷积神经网络学习光线经过透明物体的复杂光传输行为,再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像,通过迭代训练卷积神经网络,得到新视角合成模型;通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像,得到第一视角和第二视角之间任意视角的合成图像,且合成图像质量高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种透明物体的新视角合成模型的训练方法的流程示意图;
图2为本发明实施例中将第一图像、第二图像和混合系数输入卷积神经网络以得到预测蒙版、预测衰减图和预测折射流的过程示意图;
图3为本发明实施例中卷积神经网络的层级结构示意图;
图4为本发明实施例中采用PSNR和SSIM来评估不同组合得到的预测图像的质量结果示意图;
图5为本发明实施例根据真实图像获取真实蒙版、真实衰减图和真实折射流的示意图;
图6为本发明实施例中渲染背景图;
图7为本发明实施例中采用Point Grey Flea彩色相机捕获用于训练和测试的真实图像
图8为本发明实施例中另外5个类别的量化评估结果示意图;
图9为本发明实施例中一种透明物体的新视角合成方法的流程示意图;
图10为本发明实施例中Airplane的合成示例图;
图11为本发明实施例中Glass_water的合成示例图;
图12为本发明实施例中Bottle的合成示例图;
图13为本发明实施例中Bench的合成示例图;
图14为本发明实施例中Table的合成示例图
图15为本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,详细说明本发明的各种非限制性实施方式。
参见图1,示出了本发明实施例中的一种透明物体的新视角合成模型的训练方法。在本实施例中,所述方法例如可以包括以下步骤:
S1、将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的视角关系。
本发明实施例中,所述第一图像、第二图像和真实图像来自不同视角的摄像机拍摄的稀疏采样图像,对于一个透明物体,可以拍摄此透明物体在多个视角下的图像,并用视角序号为多个视角下的图像进行编号。例如,相机围绕透明物体匀速移动,捕获一个图像序列,由C={Ck|k=0,1,…,N}表示,其中,C0表示视角序号为0的图像;从图像序列中随机选择第一图像CL和第二图像CR(0≤L<R≤N),以及用于监督学习的真实图像Ct(L<t<R),第一图像为在第一视角下拍摄的透明物体图像,可知,此例中,第一视角的视角序号为L;同样的,第二视角的视角序号为R,真实图像对应的视角序号为t。关于训练数据的获取,将在后面详细介绍。
具体的,在步骤S1之前包括:
M、根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数。
由于图像序列是围绕透明对象匀速移动的相机捕获的,在训练时,选定第一图像和第二图像,以及真实图像,并在选定第一图像、第二图像和真实图像之后确定混合系数。可以根据公式(1)计算混合系数α,混合系数表示第一视角、第二视角和新视角之间的关系,通过公式(1)可以计算混合系数α:
Figure BDA0002230142180000081
其中,t为真实图像的视角序号,L为第一图像的视角序号,R为第二图像的视角序号。将混合系数输入卷积神经网络,卷积神经网络根据混合系数输出第一图像和第二图像在混合系数下的预测图像对应的蒙版、折射流和衰减图,换句话说,可理解为卷积神经网络根据混合系数确定要预测哪个视角序号下的图像。
本发明实施例中,所述卷积神经网络,根据第一图像、第二图像和混合系数可以得到在新视角对应的预测蒙版
Figure BDA0002230142180000082
预测衰减图
Figure BDA0002230142180000083
和预测折射流
Figure BDA0002230142180000084
关于步骤S1的具体内容将在后面再详细介绍。
S2、根据所述预测蒙版、所述预测衰减图和所述预测折射流,计算得到第一图像和第二图像在混合系数下的预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像。
本发明实施例中,环境遮罩能够描述透明物体在环境中与光线相互作用时的反射和折射,以及前景物体的任何透射效果,为了将透明物体很好地合成至新的背景中,环境遮罩的核心是准确估计光传输矩阵;采用环境遮罩,根据预测蒙版、预测衰减图和预测折射流,可以合成在视角序号为t的新视角图像,即卷积神经网络预测的在新视角下的透明物体图像;对于透明物体,环境遮罩可以表示如下:
Figure BDA0002230142180000085
其中,C表示合成图像,F表示环境光照,B是背景图像;若背景图像B=0,则C=F,即,背景图像B为纯黑色时,容易获得环境光照F;进一步的,由于拍摄对象为透明物体,则F=0。此外,m∈{0,1}表示对象二进制蒙版,其中m=0,则表示合成颜色直接来自背景图像;折射流W可以用于表示光传输矩阵,并表征合成图像的像素和背景图像的像素之间的对应关系,为了简化问题,假设合成图像的一个像素仅仅来自于背景图像中的对应的一个像素,合成图像中的单个像素和背景图像中的一个像素与背景图像中的一个像素的对应关系用W表示;
Figure BDA0002230142180000091
意味着背景图像的逐像素索引。例如,如果Wij=(a,b),则Bab被索引用以计算Cij,其中Bab和Cij分别表示位置(a,b)处的背景像素和位置(i,j)处的合成像素值。此外,ρ表示衰减图,其中针对每个像素,如果没有光线通过,则衰减值为0;如果有光线通过,并且没有衰减,则衰减值则等于1。
在本发明实施例中,将卷积神经网络输出的预测蒙版
Figure BDA0002230142180000092
预测衰减图
Figure BDA0002230142180000093
和预测折射流
Figure BDA0002230142180000094
代入公式(2),可以计算得到预测图像中各像素点的像素值,通过像素值则可以得到预测图像
Figure BDA0002230142180000095
S3、根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。
在本发明实施例中,以网络监督的方式进行训练,采用真实图像监督卷积神经网络的训练,根据真实图像对应的蒙版、衰减图和折射流,联合卷积神经网络的输出结果和预测图像,蒙版损失、衰减损失和折射流损失,为了合成更高质量的新视角图像,在训练中增加构图损失和感知损失,以对卷积神经网络的参数进行调整,直至满足预设训练条件,以得到新视角合成模型。
本方法在训练时,卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像,其中,预测折射流反映新视角的光传输矩阵,使卷积神经网络学习光线经过透明物体的复杂光传输行为,再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像,通过迭代训练卷积神经网络,得到新视角合成模型;通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像,得到第一视角和第二视角之间任意视角的合成图像,且合成图像质量高。
关于步骤S3的具体内容将在后面再详细介绍。
接下来详细介绍在另一种实现方式中,步骤S1的具体内容。
在本发明实施例中,由于通过透明物体的光传输是高度非线性的,通过卷积神经网络来学习和建模光传输关系,即通过以下方式合成中间视角的预测蒙版、预测衰减图和预测折射流,参见图2,示出了将第一图像CL、第二图像CR和混合系数输入卷积神经网络100,以得到预测蒙版
Figure BDA0002230142180000101
预测衰减图
Figure BDA0002230142180000102
和预测折射流
Figure BDA0002230142180000103
的过程,如公式(3)所示。
Figure BDA0002230142180000104
其中,Network表示卷积神经网络,卷积神经网络采用基于编码-解码的框架,以学习为透明物体合成新视角,第一图像和第二图像作为卷积神经网络的输入,并通过顺序卷积层将第一图像和第二图像投影搭配深度特征空间,在特征混合之后,得到混合深度特征,所述混合深度特征作为解码的基础,用于同时预测新视角底下的蒙版、衰减图和折射流。
具体的,所述卷积神经网络包括:编码模块和解码模块,步骤S1包括:
S11、将所述第一图像、第二图像和混合系数输入所述编码模块,以得到深度特征。
本发明实施例中,参见图3,示出了卷积神经网络的层级结构,所述编码模块包括第一编码器enc1(101)、第二编码器enc2(102)和卷积层CNN,第一编码器enc1和第二编码器enc2共享权重;每个编码器均有多个层次,例如,第一编码器和第二编码器均有8个编码器层,为了方便描述,将第一编码器的第一编码层记为enc1-L1(1011),每个编码层的输出通道数分别是:64;128;256;512;512;512;512;512,在编码阶段,编码器采用8个连续的编码器层逐渐将第一图像和第二图像下采样到其
Figure BDA0002230142180000105
大小。
所述深度特征包括第一深度特征、第二深度特征、第三深度特征、第四深度特征和混合深度特征,具体的,步骤S11还包括:
S111、将第一图像输入第一编码器,以得到第一图像对应的第一深度特征和第二深度特征。
本发明实施例中,研究了如何平衡深度特征混合和跳跃连接,通过表示深度特征混合的最后p个层和跳跃连接的前q个层为(p混合;q连接),定量研究这些组合将如何影响最终的合成结果。采用PSNR和SSIM来评估不同组合得到的预测图像的质量,结果总结如图4所示,选择3个示例,用于不同网络的性能定量评估,数值最小表示性能最佳,分别评估了M(ask)-IoU,A(ttenuation)-MSE,F(low)-EPE,C(omposition)-L1,PSNR和SSIM,为了平衡细节保留和特征混合,根据实验数据选择(p=6;q=2)作为较佳组合。
本发明实施例中,第一深度特征为第一编码器的浅层编码层输出的特征,例如,第一编码器有8个编码器层,可以将第一编码层和第二编码层设定为浅层编码层,则第一深度特征包括第一编码器的第一编码层输出的第一深度特征-L1:
Figure BDA0002230142180000111
以及第一编码器的第二编码层输出的第二深度特征-L2:
Figure BDA0002230142180000112
所述第二深度特征为第一编码器深层编码层输出的特征,例如,第一编码器有8个编码器层,可以将第三编码层至第八编码层均设定为深层编码层,则第二深度特征包括第一编码器的第一编码层至第八编码层的所有输出结果,可以将第二深度特征包括:第二深度特征-L3:
Figure BDA0002230142180000113
第二深度特征-L4:
Figure BDA0002230142180000114
第二深度特征-L5:
Figure BDA0002230142180000115
第二深度特征-L6:
Figure BDA0002230142180000116
第二深度特征-L7:
Figure BDA0002230142180000117
和第二深度特征-L8:
Figure BDA0002230142180000118
S112、将第二图像输入第二编码器,以得到第二图像对应的第三深度特征和第四深度特征。
本发明实施例中,第三深度特征为第二编码器的浅层特征,例如,第二编码器有8个编码器层,可以将第一编码层和第二编码层设定为浅层,则第三深度特征包括第二编码器的第一编码层输出的第三深度特征-L1:
Figure BDA00022301421800001110
以及第二编码器的第二编码层输出的第三深度特征-L2:
Figure BDA0002230142180000119
所述第四深度特征为第二编码的深层编码层输出的特征,例如,第二编码器有8个编码器层,可以将第三编码层至第八编码层均设定为深层编码层,则第四深度特征包括第二编码器的第一编码层至第八编码层的所有输出结果,可以将第四深度特征包括:第四深度特征-L3:
Figure BDA0002230142180000121
第四深度特征-L4:
Figure BDA0002230142180000122
第四深度特征-L5:
Figure BDA0002230142180000123
第四深度特征-L6:
Figure BDA0002230142180000124
第四深度特征-L7:
Figure BDA0002230142180000125
和第四深度特征-L8:
Figure BDA0002230142180000126
S113、将第二深度特征、第四深度特征和混合系数输入到卷积层,以得到混合深度特征。
在本发明实施例中,所述第二深度特征为第一编码器深层编码层输出的特征,所述第四深度特征为第二编码的深层编码层输出的特征,为了合成新视角图像,在深度特征空间进行混合模拟第一视角、第二视角和新视角之间的内在固有变换关系;在卷积层CNN中,通过公式(4)混合两个编码器的深度特征,以得到混合深度特征。
Figure BDA0002230142180000127
其中,k表示编码层,假设编码器的第三编码层至第八编码层为深层编码层,则k可以取3,4,……,8,
Figure BDA0002230142180000128
表示第一编码器第k编码层输出的第一图像对应的深度特征,
Figure BDA0002230142180000129
表示第二编码器第k编码层输出的第二图像对应的深度特征。
S12、将所述深度特征输入所述解码模块,以得到预测蒙版、预测衰减图和预测折射流。
在本发明实施例中,参见图3,解码模块包括第一解码器(103)、第二解码器(104)和第三解码器(105),用于根据深度特征分别输出预测蒙版、预测衰减图和预测折射流。假设编码器采用8个连续的编码层对第一图像和第二图像进行下采样到其
Figure BDA00022301421800001210
大小,由于对称性,解码器必须以相同数量的转置解码层,以相反的方式对压缩的深度特征进行上采样。具体的,步骤S12包括:
S121、将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第一解码器,以得到预测蒙版。
在本发明实施例中,第一深度特征和第三深度特征是编码器的浅层编码层的输出结果,将浅层编码层的特征跳跃连接到具有相同空间维度的解码器层(如图3中501~504的所示),可以将更多以细节和上下文信息传播到更高分辨率的解码层。
例如,第一编码器和第二编码器均有8个编码层,则将第一编码器的第一编码层和第二编码器的第一编码层跳跃连接到解码模块的各第一解码层,以及将第一编码器的第二编码层和第二编码器的第二编码层跳跃连接到解码模块的各第二解码层。
所述混合深度特征是编码器的深层编码层的输出结果,在步骤S121中,第一解码器用于根据第一深度特征、第三深度特征和混合深度特征输出预测蒙版
Figure BDA0002230142180000131
S122、将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第二解码器,以得到预测衰减图。
在本发明实施例中,第二解码器用于根据第一深度特征、第三深度特征和混合深度特征输出预测衰减图
Figure BDA0002230142180000132
S123、将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第三解码器,以得到预测折射流。
在本发明实施例中,第三解码器用于根据第一深度特征、第三深度特征和混合深度特征输出预测折射流
Figure BDA0002230142180000133
在本发明实施例中,解码之后,通过公式(2),可以得到预测图像
Figure BDA0002230142180000134
接下来详细介绍在另一种实现方式中,步骤S3的具体内容。
具体的,步骤S3包括:
S31、根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值。
具体的,步骤S31包括:
S311、根据真实图像获取真实蒙版、真实衰减图和真实折射流。
首先根据真实图像获取其对应的真实蒙版mt,真实衰减图ρt和真实折射流Wt。可参见图5,Ct为真实图像,mt为真实图像对应的真实蒙版,ρt为真实图像对应的真实衰减图,Wt为真实图像对应的真实折射流。
关于如何根据真实图像获取其对应的真实蒙版、真实衰减图和真实折射流,在后面介绍真实数据集时再详细介绍。
S312、根据所述预测蒙版和所述真实蒙版,计算蒙版损失值。
本发明实施例中,透明物体的蒙版预测是二元分类问题,可以采用额外的softmax层来规范化输出并使用二进制交叉熵函数来计算蒙版损失值Lm,如公式(5)所示:
Figure BDA0002230142180000141
其中,H和W表示第一输入图像和第二输入图像的高度和宽度(第一输入图像高度和第二输入图像的高度相同,第一输入图像的宽度和第二输入图像的宽度相同),mij
Figure BDA0002230142180000142
分别表示二进制真实蒙版和规范化输出的预测蒙版在位置(i,j)处的像素值。
S313、根据所述预测衰减图和所述真实衰减图,计算衰减损失值。
本发明实施例中,使用MSE函数来计算衰减损失值La,如公式(6)所示:
Figure BDA0002230142180000143
其中,ρij
Figure BDA0002230142180000144
表示(i,j)像素处的真实衰减值和预测衰减值,并使用sigmoid激活函数来规范化预测衰减图
Figure BDA0002230142180000145
S314、根据所述预测折射流和所述真实折射流,计算折射流损失值。
本发明实施例中,预测折射流的维度是H*W*2,其被定义为合成像素与其对应的背景像素之间的索引关系。这两个通道分别表示沿x和y维度的像素位移。可以通过tanh激活函数来规范化输出,然后使用第一输入图像和第二输入图像的大小对输出值进行缩放。通过采用平均端点误差(EPE)函数,计算折射流损失值Lf,如公式(7)所示:
Figure BDA0002230142180000146
其中,W和
Figure BDA0002230142180000147
表示真实和预测的折射流,H和W表示第一输入图像和第二输入图像的高度和宽度(第一输入图像高度和第二输入图像的高度相同,第一输入图像的宽度和第二输入图像的宽度相同),
Figure BDA0002230142180000148
表示真实图像在位置(i,j)处,沿x维度的像素位移,
Figure BDA0002230142180000151
表示预测图像在位置(i,j)处,沿x维度的像素位移,
Figure BDA0002230142180000152
表示真实图像在位置(i,j)处,沿y维度的像素位移,
Figure BDA0002230142180000153
表示预测图像在位置(i,j)处,沿y维度的像素位移。
S315、根据预测图像和真实图像,计算构图损失值和感知损失值。
在本发明实施例中,为了最小化预测图像和真实图像之间的差异,采用L1函数可以计算构图损失Lc,如公式(8)所示:
Figure BDA0002230142180000154
其中,H和W表示第一输入图像和第二输入图像的高度和宽度(第一输入图像高度和第二输入图像的高度相同,第一输入图像的宽度和第二输入图像的宽度相同),
Figure BDA0002230142180000155
表示预测图像在(i,j)处的像素数值,
Figure BDA0002230142180000156
表示真实图像在(i,j)处的像素数值。
以及,为了更好的保留细节并较少模糊度,同时增加预测图像的清晰度,加入感知损失Lp,如公式(9)所示。
Figure BDA0002230142180000157
其中,φ(·)表示ImageNet预训练的VGG16模型的conv4_3特征,N是该层的总通道数。
S316、根据所述蒙版损失值、所述衰减损失值、所述折射流损失值、所述构图损失值和所述感知损失值计算总损失值。
在本发明实施例中,根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值;可以通过公式(10)实现最小化总损失值,根据总损失值训练网络。
L=ωmLmaLafLfcLcpLp (10)
其中,L表示总损失值,Lm表示蒙版损失值,ωm表示蒙版损失值对应的平衡权重,La表示衰减损失值,ωa表示衰减损失值对应的平衡权重,Lf表示折射流损失值,ωf表示折射流损失值对应的平衡权重,Lc表示构图损失值,ωc表示构图损失值对应的平衡权重,Lp表示感知损失值,ωp表示感知损失值对应的平衡权重,可以设置ωm=1,ωa=10,ωf=1,ωc=10和ωp=1。
S32、根据所述总损失值调整所述卷积神经网络的参数。
在本发明实施例中,在训练时,可以使用PyTorch来实现,卷积神经网络的参数初始化采用Xavier算法实现,并使用默认参数的Adam算法作为优化器,修改参数之后再继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤,在一种实现方式中,通过固定学习率为0.0002,在Titan X GPU上训练100个周期的时间大概是10-12个小时。
在另一种实现方式中,修改参数之后再继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤,直至满足预设训练条件,其中,所述预设训练条件包括总损失值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据新视角合成模型来确定,这里不做详细说明;所述预设次数可以为卷积神经网络的最大训练次数,例如,50000次等。由此,在计算得到总损失值后,判断所述总损失值是否满足预设要求,若总损失值满足预设要求,则结束训练,若总损失值不满足预设要求,则判断所述卷积神经网络的训练次数是否达到训练次数,若未达到预设次数,则根据所述总损失值对所述卷积神经网络的参数进行调整,若达到预设次数,则结束训练,这样通过损失值和训练次数来判断卷积神经网络训练是否结束,可以避免因损失值无法达到预设要求而造成训练进入死循环。
进一步,由于对卷积神经网络的参数进行修改是在未满足预设条件是执行的(例如,总损失值未满足预设要求并且训练次数未达到预设次数),从而在根据总损失值对所述卷积神经网络的参数进行修正后,需要继续对卷积神经网络进行训练,即继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤。其中,继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络中的第一图像、第二图像和混合系数可以为均未输入过卷积神经网络的第一图像、第二图像和混合系数。例如,训练数据中所有第一图像和第二图像均具有唯一图像标识(例如,视角序号),混合系数的数值不同,第一次训练输入卷积神经网络的第一图像和第二图像的图像标识与第二次训练输入卷积神经网络的第一图像和第二图像的图像标识不同,如,第一次训练输入卷积神经网络的第一图像的视角序号为1,第二图像的视角序号为7,混合系数为0.5;第二次训练输入卷积神经网络的第一图像的视角序号为2,第二图像的视角序号为10,混合系数为0.6。
在实际应用中,由于训练数据中的第一图像和第二图像的数量有限,为了提高卷积神经网络的训练效果,可以依次将训练数据中的第一图像、第二图像和混合系数输入至卷积神经网络以对其进行训练,当训练数据中的所有第一图像、所有第二图像和对应的混合系数均输入过新视角合成模型后,可以继续执行依次将训练数据中的第一图像、第二图像和混合系数输入至卷积神经网络的操作,以使得训练数据中的训练图像组按循环输入至卷积神经网络模型。需要说明的是,在将第一图像和第二图像输入新视角合成模型训练的过程中,可以按照各个第一图像的视角序号顺序输入,也可以不按照各个第一图像的视角序号顺序输入,当然,可以重复使用同样的第一图像、第二图像和混合系数对卷积神经网络进行训练,也可以不重复使用同样的第一图像、第二图像和混合系数对卷积神经网络进行训练,在本实施例中,不对“继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤”的具体实现方式进行限定。
接下来详细介绍在一种实现方式中的训练数据。
目前还没有专门用于透明物体的新视角合成的任何开放数据集,本发明创建一个训练数据,包括合成数据集和真实数据集,其中,合成数据集包括使用POVRay渲染的、不同摄像机视角下的、8个不同模型类别作为可选取的第一图像和第二图像;真实数据集包括拍摄了6个真实的透明对象进行评估。
在本发明实施例中,合成数据集是包括从ShapeNet收集的8类3D对象,包括Airplane,Bench,Bottle,Car,Jar,Lamp和Table,对于每个类别,随机选择了400个模型,其中350个用于训练,50个用于测试;此外,还使用400个Glass_water模型作为附加实例,以验证训练后得到的新视角合成模型可以有效扩展至一般的例子中。在渲染过程中,每个模型都呈现为透明对象,折射率设置为1.5。用于拍摄透明物体的摄像机设置为具有固定焦距和视点的针孔模型,显示屏幕的分辨率为512*512,在每个摄像机试图中,屏幕显示一系列二进制格雷码图像用于蒙版提取和环境遮罩,因此,需要渲染18张格雷码图像,其中9张作为行,另外9张作为列。此外,通过在纯白色背景图像前渲染模型,很容易获得衰减图;渲染时所采用的背景图像如图6所示。使用唯一的颜色值对该背景图像中每个像素进行预编码,以避免重复模式并帮助优化损失函数,从而在网格采样期间更有效地计算梯度。考虑到对每个对象的渲染,为了满足预设训练要求,并且增加训练样例的多样性,首先将对象在虚拟场景中随机旋转至某一初始化位置,然后围绕y轴(POVRay的坐标系)从-10°旋转至10°。并以2°的旋转间隔获得图像序列。
在本发明实施例中,真实数据集,6个真实的透明物体,包括Hand,Goblet,Dog,Monkey,Mouse和Rabbit,用于算法评估,见图7。采用Point Grey Flea彩色相机(FL3-U3-13S2C-CS)捕获用于训练和测试的真实图像。与合成数据集的渲染方法相似,将透明对象放置在DELL LCD显示器(U2412M)前方的转盘上。在拍摄期间,转盘以2°的间隔从0°旋转到360°。在显示器上显示格雷码图案,纯白图像和彩色图背景图像,用于提取真实蒙版,真实衰减图和真实折射流。
在本发明实施例中,除了图4中评估的三个类别以外,还进行了对另外5个类别的更多量化评估,参见图8,每个类别的平均PSNR和SSIM高于20.0和0.85,这说明我们网络合成的图像可以产生视觉较好的结果。
本方法在训练时,卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像,预测蒙版、预测衰减图和预测折射流反映新视角的光传输矩阵,使卷积神经网络学习透明物体图像的复杂光行为,再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像,通过迭代训练,得到新视角合成模型;通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像,得到第一视角和第二视角之间任意视角的合成图像,且合成图像质量高。
本发明实施例中还提供了一种透明物体的新视角合成方法,参见图9,所述方法例如可以包括以下步骤:
K1、获取待处理第一图像、待处理第二图像和预设混合系数。
在本发明实施例中,待处理第一图像X的视角序号x与待处理第二图像Y的视角序号y不同,预设混合系数α'大于0且小于1。根据公式(11)可以知道合成图像的视角序号。
Figure BDA0002230142180000191
则需要合成视角序号为例如,视角序号x等于2,视角序号y等于8,预设混合系数α'为0.5,可知合成图像X的视角序号x为4。
K2、将所述待处理第一图像、所述待处理第二图像和所述预设混合系数输入到新视角合成模型,以得到待处理蒙版、待处理衰减图和待处理折射流;其中,所述新视角合成模型为上述一种透明物体的新视角合成模型的训练方法得到的新视角合成模型。
K3、采用环境遮罩,根据所述待处理蒙版、所述待处理衰减图和所述待处理折射流,计算得到待处理第一图像和待处理第二图像在预设混合系数下的合成图像,其中,所述合成图像的视角在所述待处理第一图像的视角和所述待处理第二图像的视角之间。
在本发明实施例中,采用公式(2)所示的环境遮罩表达式,可以根据待处理蒙版m、所述待处理衰减图ρ和所述待处理折射流W得到合成图像。
举例说明,参见图10,示出了Airplane的合成示例,相机相对于物体的视角,从-10°到10°,其中,A为在-10°时拍摄的图像,B为在-8°时拍摄的图像,C为在-6°时拍摄的图像,D为在-4°时拍摄的图像,E为在-2°时拍摄的图像,F为在0°时拍摄的图像,G为在2°时拍摄的图像,H为在4°时拍摄的图像,I为在6°时拍摄的图像,J为在8°时拍摄的图像,K为在10°时拍摄的图像,将图像A作为待处理第一图像,图像K作为待处理第二图像,在不同的新视角(即不同的预设混合视角)下,可以输出待处理蒙版,待处理损失值和待处理折射流,所述待处理蒙版,待处理损失值和待处理折射流均是像素值,可以通过图像表现。A1是图像A对应的可视化待处理蒙版,B1是图像B对应的可视化待处理蒙版,……,K1是图像K对应的可视化待处理蒙版;A2是图像A对应的可视化待处理衰减图,B2是图像B对应的可视化待处理衰减图,……,K2是图像K对应的可视化待处理衰减图;A3是图像A对应的可视化待处理折射流,B3是图像B对应的可视化待处理折射流,……,K3是图像K对应的可视化待处理折射流。根据待处理蒙版、待处理衰减图和待处理折射流,通过环境遮罩可以得到合成图像,a是根据图像A和图像K得到的-10°视角下的合成图像,b是根据图像A和图像K得到的-8°视角下的合成图像,c是根据图像A和图像K得到的-6°视角下的合成图像,……,k是根据图像A和图像K得到的10°视角下的合成图像。与每个相应的真实图像相比,在此情况下的平均PSNR和SSIM是(25.7,0.9567)和(19.4,0.9004),它清楚地表明合成结果在视觉上是合理的。
参见图11,本发明实施例还示出了Glass_water的合成示例,同样的,A为在-10°时拍摄的图像,B为在-8°时拍摄的图像,C为在-6°时拍摄的图像,D为在-4°时拍摄的图像,E为在-2°时拍摄的图像,F为在0°时拍摄的图像,G为在2°时拍摄的图像,H为在4°时拍摄的图像,I为在6°时拍摄的图像,J为在8°时拍摄的图像,K为在10°时拍摄的图像;根据训练得到的新视角合成模型,将图像A作为待处理第一图像,图像K作为待处理第二图像,在不同的新视角(即不同的预设混合视角)下,可以得到不同的合成图像。在此情况下的平均PSNR和SSIM是(19.4,0.9004),它清楚地表明合成结果在视觉上是合理的。
参见图12,本发明实施例还示出了Bottle的合成示例,A为在-10°时拍摄的图像,B为在0°时拍摄的图像,C为在10°时拍摄的图像,将A作为待处理第一图像,C作为待处理第二图像,A1为图像A为真实图像时对应的可视化待处理蒙版,B1为B为真实图像时对应的可视化待处理蒙版,C1为图像C为真实图像时对应的可视化待处理蒙版;A2为图像A为真实图像时对应的可视化待处理衰减图,B2为B为真实图像时对应的可视化待处理衰减图,C2为图像C为真实图像时对应的可视化待处理衰减图;A3为图像A为真实图像时对应的可视化待处理折射流,B3为B为真实图像时对应的可视化待处理折射流,C3为图像C为真实图像时对应的可视化待处理折射流。a是根据图像A和图像C得到的-10°视角下的合成图像,b是根据图像A和图像C得到的0°视角下的合成图像,c是根据图像A和图像C得到的10°视角下的合成图像。在此情况下的平均PSNR和SSIM是(23.5,0.9584),它清楚地表明合成结果在视觉上是合理的。
参见图13,本发明实施例还示出了Bench的合成示例,与图12所示相同,A为在-10°时拍摄的图像,B为在0°时拍摄的图像,C为在10°时拍摄的图像,将A作为待处理第一图像,C作为待处理第二图像,A1为图像A为真实图像时对应的可视化待处理蒙版,B1为B为真实图像时对应的可视化待处理蒙版,C1为图像C为真实图像时对应的可视化待处理蒙版;A2为图像A为真实图像时对应的可视化待处理衰减图,B2为B为真实图像时对应的可视化待处理衰减图,C2为图像C为真实图像时对应的可视化待处理衰减图;A3为图像A为真实图像时对应的可视化待处理折射流,B3为B为真实图像时对应的可视化待处理折射流,C3为图像C为真实图像时对应的可视化待处理折射流。a是根据图像A和图像C得到的-10°视角下的合成图像,b是根据图像A和图像C得到的0°视角下的合成图像,c是根据图像A和图像C得到的10°视角下的合成图像。在此情况下的平均PSNR和SSIM是(21.6,0.9243),它清楚地表明合成结果在视觉上是合理的。
参见图14,本发明实施例还示出了Table的合成示例,与图12所示相同,A为在-10°时拍摄的图像,B为在0°时拍摄的图像,C为在10°时拍摄的图像,将A作为待处理第一图像,C作为待处理第二图像,A1为图像A为真实图像时对应的可视化待处理蒙版,B1为B为真实图像时对应的可视化待处理蒙版,C1为图像C为真实图像时对应的可视化待处理蒙版;A2为图像A为真实图像时对应的可视化待处理衰减图,B2为B为真实图像时对应的可视化待处理衰减图,C2为图像C为真实图像时对应的可视化待处理衰减图;A3为图像A为真实图像时对应的可视化待处理折射流,B3为B为真实图像时对应的可视化待处理折射流,C3为图像C为真实图像时对应的可视化待处理折射流。a是根据图像A和图像C得到的-10°视角下的合成图像,b是根据图像A和图像C得到的0°视角下的合成图像,c是根据图像A和图像C得到的10°视角下的合成图像。在此情况下的平均PSNR和SSIM是(21.4,0.9907),它清楚地表明合成结果在视觉上是合理的。
经过上述示例,可以看出,训练得到透明物体的新视角合成模型可以在不同物体的新视角下准确预测和复现光传输特性。
在一个实施例中,本发明提供了一种计算机设备,该设备可以是终端,内部结构如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现透明物体的新视角合成模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15所示的仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的关系;
根据所述预测蒙版、所述预测衰减图和所述预测折射流,计算得到第一图像和第二图像在混合系数下的预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的关系;
根据所述预测蒙版、所述预测衰减图和所述预测折射流,计算得到第一图像和第二图像在混合系数下的预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。
上述一种透明物体的新视角合成模型的训练方法和计算机设备,根据本发明实施方式提供的训练方法,将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的视角关系;根据所述预测蒙版、预测衰减图和预测折射流,计算得到预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像和第二图像输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型。本方法在训练时,卷积神经网络根据第一图像、第二图像和混合系数输出预测蒙版、预测衰减图和预测折射流而不是直接得到预测图像,其中,预测折射流反映新视角的光传输矩阵,使卷积神经网络学习光线经过透明物体的复杂光传输行为,再根据预测蒙版、预测衰减图和预测折射流得到透明物体在新视角下的预测图像,通过迭代训练卷积神经网络,得到新视角合成模型;通过本发明训练得到的新视角合成模型可以根据第一视角的透明图像和第二视角的透明图像,得到第一视角和第二视角之间任意视角的合成图像,且合成图像质量高。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (5)

1.一种透明物体的新视角合成模型的训练方法,其特征在于,所述方法包括:
将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,其中,所述训练数据包括多组训练图像组,每一组训练图像组包括第一图像、第二图像、真实图像和混合系数,第一图像为在第一视角下拍摄的透明物体图像,第二图像为在第二视角下拍摄的透明物体图像,真实图像为在第一视角和第二视角之间的新视角下拍摄的透明物体图像,混合系数表示第一视角、第二视角和新视角之间的关系;
所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络之前,包括:
根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数;
所述根据所述第一图像的视角序号、第二图像的视角序号和真实视角图像的视角序号计算混合系数,包括:
所述混合系数表示第一视角、第二视角和新视角之间的关系,所述混合系数
Figure 631078DEST_PATH_IMAGE001
的计算公式为:
Figure 291867DEST_PATH_IMAGE002
其中,t为真实图像的视角序号,L为第一图像的视角序号,R为第二图像的视角序号;
所述卷积神经网络包括:编码模块和解码模块,所述将训练数据中的第一图像和第二图像输入卷积神经网络,通过所述卷积神经网络输出预测蒙版、预测衰减图和预测折射流,包括:
将所述第一图像、第二图像和混合系数输入所述编码模块,以得到深度特征;
将所述深度特征输入所述解码模块,以得到预测蒙版、预测衰减图和预测折射流;
所述编码模块包括第一编码器、第二编码器和卷积层,所述深度特征包括第一深度特征、第二深度特征、第三深度特征、第四深度特征和混合深度特征,所述将所述第一图像、第二图像和混合系数输入所述编码器,以得到深度特征,包括:
将第一图像输入第一编码器,以得到第一图像对应的第一深度特征和第二深度特征;
将第二图像输入第二编码器,以得到第二图像对应的第三深度特征和第四深度特征;
将第二深度特征、第四深度特征和混合系数输入到卷积层,以得到混合深度特征;
所述解码模块包括第一解码器、第二解码器和第三解码器,所述将所述深度特征输入所述解码模块,以得到预测蒙版、预测衰减图和预测折射流,包括:
将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第一解码器,以得到预测蒙版;
将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第二解码器,以得到预测衰减图;
将第一深度特征、第三深度特征和所述混合深度特征输入所述解码模块输入第三解码器,以得到预测折射流;
根据所述预测蒙版、所述预测衰减图和所述预测折射流,计算得到第一图像和第二图像在混合系数下的预测图像,其中,所述预测图像为卷积神经网络预测的在新视角下的透明物体图像;
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,并继续执行所述将训练数据中的第一图像、第二图像和混合系数输入卷积神经网络的步骤,直至满足预设训练条件,以得到新视角合成模型;
所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像,对所述卷积神经网络的参数进行调整,包括:
根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值;
根据所述总损失值调整所述卷积神经网络的参数;
根据蒙版损失值、衰减损失值、折射流损失值、构图损失值和感知损失值计算总损失值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预测蒙版、所述预测衰减图和所述预测折射流、所述预测图像和所述真实图像计算总损失值,包括:
根据真实图像计算真实蒙版、真实衰减图和真实折射流;
根据所述预测蒙版和所述真实蒙版,计算蒙版损失值;
根据所述预测衰减图和所述真实衰减图,计算衰减损失值;
根据所述预测折射流和所述真实折射流,计算折射流损失值;
根据预测图像和真实图像,计算构图损失值和感知损失值。
3.一种透明物体的新视角合成方法,其特征在于,所述方法包括:
获取待处理第一图像、待处理第二图像和预设混合系数;
将所述待处理第一图像、所述待处理第二图像和所述预设混合系数输入到新视角合成模型,以得到待处理蒙版、待处理衰减图和待处理折射流;其中,所述新视角合成模型为权利要求1至2中任一所述的方法训练得到的新视角合成模型;
采用环境遮罩,根据所述待处理蒙版、所述待处理衰减图和所述待处理折射流,计算得到待处理第一图像和待处理第二图像在预设混合系数下的合成图像,其中,所述合成图像的视角在所述待处理第一图像的视角和所述待处理第二图像的视角之间。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。
CN201910964836.6A 2019-10-11 2019-10-11 一种透明物体的新视角合成模型的训练方法和计算机设备 Active CN110689514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910964836.6A CN110689514B (zh) 2019-10-11 2019-10-11 一种透明物体的新视角合成模型的训练方法和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910964836.6A CN110689514B (zh) 2019-10-11 2019-10-11 一种透明物体的新视角合成模型的训练方法和计算机设备

Publications (2)

Publication Number Publication Date
CN110689514A CN110689514A (zh) 2020-01-14
CN110689514B true CN110689514B (zh) 2022-11-11

Family

ID=69112213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910964836.6A Active CN110689514B (zh) 2019-10-11 2019-10-11 一种透明物体的新视角合成模型的训练方法和计算机设备

Country Status (1)

Country Link
CN (1) CN110689514B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022077146A1 (zh) * 2020-10-12 2022-04-21 深圳大学 透明物体的网格重建方法、装置、计算机设备和存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164571A (ja) * 2002-06-27 2004-06-10 Mitsubishi Electric Research Laboratories Inc 3dオブジェクトをモデル化する方法
US8947430B1 (en) * 2010-02-26 2015-02-03 Nvidia Corporation System and method for rendering a particle-based fluid surface
CN106683188A (zh) * 2016-11-17 2017-05-17 长春理工大学 透明目标的双表面三维重构方法、装置和系统
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
EP3343507A1 (en) * 2016-12-30 2018-07-04 Dassault Systèmes Producing a segmented image of a scene
CN108416751A (zh) * 2018-03-08 2018-08-17 深圳市唯特视科技有限公司 一种基于深度辅助全分辨率网络的新视点图像合成方法
CN108416834A (zh) * 2018-01-08 2018-08-17 长春理工大学 透明目标表面三维重构方法、装置和系统
CN108765425A (zh) * 2018-05-15 2018-11-06 深圳大学 图像分割方法、装置、计算机设备和存储介质
CN109118531A (zh) * 2018-07-26 2019-01-01 深圳大学 透明物体的三维重建方法、装置、计算机设备及存储介质
CN109238167A (zh) * 2018-07-26 2019-01-18 深圳大学 透明物体光线对应关系采集系统
CN109712080A (zh) * 2018-10-12 2019-05-03 迈格威科技有限公司 图像处理方法、图像处理装置及存储介质
WO2019140414A1 (en) * 2018-01-14 2019-07-18 Light Field Lab, Inc. Systems and methods for rendering data from a 3d environment
CN110033486A (zh) * 2019-04-19 2019-07-19 山东大学 透明晶体生长过程边缘及体积实时监测方法及系统
CN110060335A (zh) * 2019-04-24 2019-07-26 吉林大学 一种场景中存在镜面物体和透明物体的虚实融合方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324190B2 (en) * 2012-02-24 2016-04-26 Matterport, Inc. Capturing and aligning three-dimensional scenes
US11164394B2 (en) * 2012-02-24 2021-11-02 Matterport, Inc. Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
EP2828834B1 (fr) * 2012-03-19 2019-11-06 Fittingbox Modèle et procédé de production de modèles 3d photo-réalistes
US10410337B2 (en) * 2014-12-24 2019-09-10 Datalogic Ip Tech S.R.L. System and method for identifying the presence or absence of transparent pills in blister packer machines using high resolution 3D stereo reconstruction based on color linear cameras
US10846836B2 (en) * 2016-11-14 2020-11-24 Ricoh Company, Ltd. View synthesis using deep convolutional neural networks
US10762425B2 (en) * 2017-09-26 2020-09-01 Nvidia Corporation Learning affinity via a spatial propagation neural network
US10977827B2 (en) * 2018-03-27 2021-04-13 J. William Mauchly Multiview estimation of 6D pose
US11532073B2 (en) * 2018-03-29 2022-12-20 Pixar Temporal techniques of denoising Monte Carlo renderings using neural networks

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004164571A (ja) * 2002-06-27 2004-06-10 Mitsubishi Electric Research Laboratories Inc 3dオブジェクトをモデル化する方法
US8947430B1 (en) * 2010-02-26 2015-02-03 Nvidia Corporation System and method for rendering a particle-based fluid surface
CN106683188A (zh) * 2016-11-17 2017-05-17 长春理工大学 透明目标的双表面三维重构方法、装置和系统
EP3343507A1 (en) * 2016-12-30 2018-07-04 Dassault Systèmes Producing a segmented image of a scene
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN108416834A (zh) * 2018-01-08 2018-08-17 长春理工大学 透明目标表面三维重构方法、装置和系统
WO2019140414A1 (en) * 2018-01-14 2019-07-18 Light Field Lab, Inc. Systems and methods for rendering data from a 3d environment
CN108416751A (zh) * 2018-03-08 2018-08-17 深圳市唯特视科技有限公司 一种基于深度辅助全分辨率网络的新视点图像合成方法
CN108765425A (zh) * 2018-05-15 2018-11-06 深圳大学 图像分割方法、装置、计算机设备和存储介质
CN109118531A (zh) * 2018-07-26 2019-01-01 深圳大学 透明物体的三维重建方法、装置、计算机设备及存储介质
CN109238167A (zh) * 2018-07-26 2019-01-18 深圳大学 透明物体光线对应关系采集系统
CN109712080A (zh) * 2018-10-12 2019-05-03 迈格威科技有限公司 图像处理方法、图像处理装置及存储介质
CN110033486A (zh) * 2019-04-19 2019-07-19 山东大学 透明晶体生长过程边缘及体积实时监测方法及系统
CN110060335A (zh) * 2019-04-24 2019-07-26 吉林大学 一种场景中存在镜面物体和透明物体的虚实融合方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Full 3D Reconstruction of Transparent Objects;BOJIAN WU et al.;《ACM Transactions on Graphics》;20180830;第37卷(第4期);第103(1-11)页 *
Single-Shot Analysis of Refractive Shape Using Convolutional Neural Networks;Jonathan Dyssel Stets et al.;《 19th IEEE Winter Conference on Applications of Computer Vision》;20190111;第995-1003页 *
TOM-Net: Learning Transparent Object Matting from a Single Image;Guanying Chen et al.;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20180623;第9233-9241页 *

Also Published As

Publication number Publication date
CN110689514A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN111798400B (zh) 基于生成对抗网络的无参考低光照图像增强方法及系统
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
CN109166144B (zh) 一种基于生成对抗网络的图像深度估计方法
CN109643383A (zh) 域分离神经网络
JP7026222B2 (ja) 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体
WO2023138062A1 (zh) 图像处理方法及装置
CN109844811A (zh) 用于校正针对全向视频的运动补偿的方法和装置
Luo et al. Niid-net: adapting surface normal knowledge for intrinsic image decomposition in indoor scenes
Richardt et al. Capture, reconstruction, and representation of the visual real world for virtual reality
Li et al. A lightweight depth estimation network for wide-baseline light fields
CN111611925A (zh) 一种建筑物检测与识别方法及装置
CN109727320A (zh) 一种虚拟化身的生成方法和设备
CN110689514B (zh) 一种透明物体的新视角合成模型的训练方法和计算机设备
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
Yuan et al. Presim: A 3d photo-realistic environment simulator for visual ai
CN112686830A (zh) 基于图像分解的单一深度图的超分辨率方法
CN112116646A (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN111815529A (zh) 一种基于模型融合和数据增强的低质图像分类增强方法
CN115170746B (zh) 一种基于深度学习的多视图三维重建方法、系统及设备
CN115953524A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及系统
Bai et al. Dynamic plenoctree for adaptive sampling refinement in explicit nerf
Madhusudana et al. Revisiting dead leaves model: Training with synthetic data
CN113506362A (zh) 基于编码解码网络的单视角透明物体新视图合成的方法
CN116188691B (zh) 基于单张图片下三维人脸重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant