CN115719399A - 一种基于单张图片的物体光照编辑方法、系统及介质 - Google Patents

一种基于单张图片的物体光照编辑方法、系统及介质 Download PDF

Info

Publication number
CN115719399A
CN115719399A CN202211230379.6A CN202211230379A CN115719399A CN 115719399 A CN115719399 A CN 115719399A CN 202211230379 A CN202211230379 A CN 202211230379A CN 115719399 A CN115719399 A CN 115719399A
Authority
CN
China
Prior art keywords
illumination
picture
network
highlight
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211230379.6A
Other languages
English (en)
Inventor
易任娇
朱晨阳
徐凯
奚月锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211230379.6A priority Critical patent/CN115719399A/zh
Publication of CN115719399A publication Critical patent/CN115719399A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于单张图片的物体光照编辑方法、系统及介质,本发明方法包括将目标物体的单张图片通过训练好的高光分解网络去除强高光;将去除强高光后的图片输入训练好的法向网络以估计图片中目标物体的法向图,将去除强高光后的图片输入训练好的光照网络估计出图片中目标物体的光照图;根据法向图和光照图输入训练好的可微分渲染层,得到目标物体的逆渲染模型;为目标物体的逆渲染模型赋予新的光照、材质,然后对目标物体的逆渲染模型的光照、材质信息进行重渲染,得到目标物体在新的光照、材质下的图片。本发明能够实现从单张图像到三维模型直接的自动转换,并可按需赋予光照和材质信息,可广泛应用于增强现实技术。

Description

一种基于单张图片的物体光照编辑方法、系统及介质
技术领域
本发明涉及增强现实技术领域,具体涉及一种基于单张图片的物体光照编辑方法、系统及介质,用于实现对图像的逆向渲染。
背景技术
随着现代增强现实技术的不断发展,移动端的增强现实技术得到了广泛的应用,比如在真实图像、视频中插入新的物体等等。然而,目前,插入真实图像视频的物体仍然要求是虚拟物体,由专业人员建立物体对应的三维模型。这一步骤对于业余用户很不友好,对于没有该方面基础的人员是无法构建自己需要使用的三维模型。目前大多数增强现实的移动应用比如SnapChat和宜家Place等,都是只能支持插入应用程序中预先内置的虚拟物体。这大大限制了用户体验。一个更吸引人的设置是允许用户从照片中自动提取对象并将其插入到目标场景。这需要一项瓶颈技术,解决从单张图像到三维模型直接的自动转换。基于单个图像的重光照技术(将物体的光影效果改变为目标场景中的光照效果),到目前为止,一直是图形和视觉领域的关键挑战。重光照技术需要恢复真实物体的当前光照、几何形状、以及材质信息;这几个问题合起来就是图形学中的逆向渲染问题。
目前已有一些相关技术从其他思路来解决此问题,比如:1)针对场景图像的重光照方法:论文[1](Y.Yu,A.Meka,M.Elgharib,H.-P.Seidel,C.Theobalt,and W.A.Smith,“Self-supervised outdoor scene relighting,”in European Conference on ComputerVision.Springer,2020,pp.84–101.)提出一种基于深度学习的场景重光照方法,针对室外建筑物的图片,假设材质为哑光,估计出输入图片的法向(几何信息)、材质颜色和阴影,再渲染新的光照下的场景图片,该方法仅需要一张图片输入,不需要任何其他信息,缺点是只能针对建筑图片和室外场景有效,针对物体图片效果不佳。2)针对合成数据的深度学习逆渲染技术:由于该任务是一个病态问题,深度学习的工具擅长于解决此类问题,但是需要大量的带标注的训练数据。这样的真实图片数据很难以获取,因为物体的材质、光照信息难以捕捉,因此合成数据作为训练数据,也是一种常用的思路。方法[2](M.Janner,J.Wu,T.D.Kulkarni,I.Yildirim,and J.Tenenbaum,“Selfsupervised intrinsic imagedecomposition,”in NIPS,2017,pp.5936–5946.)是一种基于大规模合成数据的方法,针对单个物体的图片,可以有效恢复出几何等三维信息,然而合成数据与真实数据存在特征空间映射域不对应的问题,这就导致真实测试数据,在特征空间中并不符合合成数据的分布,因此训练出的方法对于真实数据效果很差。3)针对哑光物体的光照渲染技术:在进行逆向渲染步骤后,可微分的渲染技术是下一个步骤。目前,Pytorch3D中仅支持点光源的渲染,而已有方法[3](R.Ramamoorthi and P.Hanrahan,“An efficient representation forirradiance environment maps,”in Proceedings of the 28th annual conference onComputer graphics and interactive techniques,2001,pp.497–500.)则仅支持哑光材质的渲染,哑光材质的假设对于场景图片可以基本成立,但是对于单个物体而已,高光反射是广泛存在的,因此哑光反射的渲染并不能真实地模拟物体的光照效果。4)针对图像直方图的光照编辑技术:还有一类方法[4](Shu Z,Hadap S,Shechtman E,et al.Portraitlighting transfer using a mass transport approach[J].ACM Transactions onGraphics(TOG),2017,36(4):1.)是完全不考虑三维信息,也不进行物体的重新渲染,仅仅通过两张图片之间的颜色直方图的转移,来达到近似光照编辑的视觉效果,该类方法的局限性较大,会产生材质颜色也一同改变等情况。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于单张图片的物体光照编辑方法、系统及介质,本发明能够实现从单张图像到三维模型直接的自动转换,并可按需赋予光照和材质信息,可广泛应用于增强现实技术。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于单张图片的物体光照编辑方法,包括:
S101,将目标物体的单张图片通过训练好的高光分解网络去除强高光;
S102,将去除强高光后的图片输入训练好的法向网络以估计图片中目标物体的法向图,将去除强高光后的图片输入训练好的光照网络估计出图片中目标物体的光照图;
S103,根据法向图和光照图进行哑光渲染,得到目标物体的光影图,将所述单张图片的原图除以光影图得到材质图,得到由法向图、光照图、光影图以及材质图构成的逆渲染模型;
S104,为目标物体的逆渲染模型赋予新的光照、材质中的至少一种,然后对目标物体的逆渲染模型进行高光渲染,得到目标物体在新的光照、材质下的图片。
可选地,步骤S101中将输入的单张图片通过训练好的高光分解网络去除强高光之前还包括检测输入的单张图片的饱和像素比例,若饱和像素比例大于设定阈值则将输入的单张图片通过训练好的高光分解网络去除强高光,否则将输入的单张图片作为去除强高光后的图片,跳转步骤S102。
可选地,步骤S102中的法向网络包括依次连接的编码器和解码器,所述编码器用于将去除强高光后的图片进行编码得到法向编码向量,所述解码器用于将编码向量解码为图片中物体的法向图。
可选地,步骤S102中的光照网络包括依次连接的编码器、连接层、多层感知机和球谐系数层,所述编码器用于将去除强高光后的图片进行编码提取光照编码向量,所述连接层用于将光照编码向量和去除强高光后的图片连接后作为多层感知机的输入以获得光照系数信息,所述球谐系数层用于基于二阶球面谐波基函数为光照系数信息估计多个球谐系数以作为图片中物体的光照图。
可选地,步骤S101之前还包括训练高光分解网络、法向网络以及光照网络的步骤:
S201,构建各帧间样本物体对齐、但环境光照不同的视频数据集;
S202,构建低秩误差作为损失函数,对高光分解网络、法向网络以及光照网络进行无监督训练,且对高光分解网络、法向网络以及光照网络进行无监督训练分为两轮进行,两轮训练过程中第一轮为固定法向网络以训练高光分解网络和光照网络直至低秩误差收敛,第二轮为固定光照网络以训练高光分解网络和法向网络直至低秩误差收敛。
可选地,步骤S202中构建低秩误差作为损失函数包括:
S301,根据样本物体的原图提取法向图和光照图进行哑光渲染得到样本物体的光影图,将样本物体的原图除以样本物体的光影图得到材质图,并将同一批次的多个材质图作为矩阵R的一行以构建得到矩阵R;
S302,对矩阵R进行奇异值分解,并提取低秩近似矩阵
Figure BDA0003880853740000031
S303,根据矩阵R、低秩近似
Figure BDA0003880853740000032
之间的F模的平方作为损失函数。
可选地,步骤S201中构建各帧间目标物体对齐、但环境光照不同的视频数据集是指将相机和目标物体相对固定在同一个转盘上,转动转盘并通过相机采集目标物体的图像,使得相机拍摄的目标物体位置始终保持不变以实现各帧间目标物体对齐、但环境光照随着转盘的角度不同而不同,从而得到各帧间目标物体对齐、但环境光照不同的视频数据集。
可选地,步骤S103中根据法向图和光照图进行哑光渲染的函数表达式为:
Figure BDA0003880853740000033
上式中,Id(p)为任意像素p处的哑光反射颜色,ap为p点处的哑光材质颜色,lw为光照图中点光源w的光强,Lw为光照图中点光源w的方向,np为法向图中p点处法向,L为光照图中点光源的集合;Cl,m为球谐系数,
Figure BDA0003880853740000034
为球谐基函数的参数,Yl,m(θ·φ)为球谐基函数,np=(x,y,z),(θ,φ)为(x,y,z)对应的球坐标;
步骤S104中对目标物体的逆渲染模型进行高光渲染的函数表达式为:
Figure BDA0003880853740000035
上式中,H(p)为像素p处的高光反射颜色,sp为p点处的高光材质颜色,v为视角方向,α为高光材质参数,
Figure BDA0003880853740000036
为高光基的球谐基函数。
此外,本发明还提供一种基于单张图片的物体光照编辑系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述基于单张图片的物体光照编辑方法。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述基于单张图片的物体光照编辑方法。
和现有技术相比,本发明主要具有下述优点:本发明方法包括将目标物体的单张图片通过训练好的高光分解网络去除强高光;将去除强高光后的图片输入训练好的法向网络以估计图片中目标物体的法向图,将去除强高光后的图片输入训练好的光照网络估计出图片中目标物体的光照图;根据法向图和光照图输入训练好的可微分渲染层,得到目标物体的逆渲染模型;为目标物体的逆渲染模型赋予新的光照、材质,然后对目标物体的逆渲染模型的光照、材质信息进行重渲染,得到目标物体在新的光照、材质下的图片,本发明能够实现从单张图像到三维模型直接的自动转换,并可按需赋予光照和材质信息,可广泛应用于增强现实技术。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例方法的基本原理示意图。
图3为本发明实施例方法的训练流程示意图。
图4为本发明实施例中高光基的球谐基函数的示意图。
图5为本发明实施例方法在多组场景下的测试结果。
图6为本发明实施例方法和直接插入的效果对比示意图。
具体实施方式
本实施例基于单张图片的物体光照编辑方法要解决的问题是单张图像的光照编辑技术,可以实现用户任意拍摄一张物体图片,自动将其光影效果改变至目标场景,实现物体插入新场景的真实的增强现实效果。
如图1和图2所示,本实施例提供一种基于单张图片的物体光照编辑方法,包括:
S101,将目标物体的单张图片通过训练好的高光分解网络去除强高光;
S102,将去除强高光后的图片输入训练好的法向网络以估计图片中目标物体的法向图,将去除强高光后的图片输入训练好的光照网络估计出图片中目标物体的光照图;
S103,根据法向图和光照图进行哑光渲染,得到目标物体的光影图,将前述单张图片的原图除以光影图得到材质图(即将原图中每个像素点的数值除以光影图对应像素点的数值,即可得到对应像素点的材质颜色的数值),得到由法向图、光照图、光影图以及材质图构成的逆渲染模型;
S104,为目标物体的逆渲染模型赋予新的光照、材质中的至少一种,然后对目标物体的逆渲染模型进行高光渲染,得到目标物体在新的光照、材质下的图片。
参见图2,本实施例中步骤S103进行哑光渲染和步骤S104进行高光渲染的执行对象简称为可微分渲染层。以上流程的假设是物体为哑光材质,但是许多真实图像具有强烈的高光,在这种情况下上述漫反射逆渲染的朗伯假设不能作为通用情况,为了解决这个问题,我们添加了一个高光分解网络,在可微分渲染层进行漫反射逆渲染之前去除强高光。我们观察到,在高光区域上,像素颜色值通常是饱和的(等于255),并且如果三通道均饱和,高光往往显示为白色。但是,考虑到输入的单张图片的多样性,为了实现高光分解网络的按需作业,本实施例步骤S101中将输入的单张图片通过训练好的高光分解网络去除强高光之前还包括检测输入的单张图片的饱和像素比例,若饱和像素比例大于设定阈值则将输入的单张图片通过训练好的高光分解网络去除强高光,否则将输入的单张图片作为去除强高光后的图片,跳转步骤S102。例如本实施例中设定阈值为10%,若饱和像素比例大于10%则将输入的单张图片通过训练好的高光分解网络去除强高光,否则将输入的单张图片作为去除强高光后的图片,跳转步骤S102。我们发现在此设置下,结果优于对所有图片都进行高光分解,因为基于学习的高光去除方法往往倾向于过度提取漫反射图像上的高光。
本实施例中将高光分解网络具体采用Spec-Net,采用论文[1](Y.Yu,A.Meka,M.Elgharib,H.-P.Seidel,C.Theobalt,and W.A.Smith,“Self-supervised outdoorscene relighting,”in European Conference on Computer Vision.Springer,2020,pp.84–101.)通过在高光分离后哑光反射部分的rg色度的一致性,定义低秩误差进行无监督训练。
参见图3,本实施例步骤S102中的法向网络包括依次连接的编码器和解码器,所述编码器用于将去除强高光后的图片进行编码得到法向编码向量述解码器用于将编码向量解码为图片中物体的法向图。
参见图3,本实施例步骤S102中的光照网络包括依次连接的编码器、连接层、多层感知机和球谐系数层,所述编码器用于将去除强高光后的图片进行编码提取光照编码向量,所述连接层用于将光照编码向量和去除强高光后的图片连接后作为多层感知机的输入以获得光照系数信息,球谐系数层用于基于二阶球面谐波基函数为光照系数信息估计多个球谐系数以作为图片中物体的光照图。
针对目前合成数据效果不理想,而真实数据无标注的数据瓶颈问题,本实施例通过提出无监督训练方法来解决此问题。针对无标注训练数据,本实施例中创新性地提出了一个轻量级的网络结构(高光分解网络、法向网络以及光照网络)。参见图3,本实施例步骤S101之前还包括训练高光分解网络、法向网络以及光照网络的步骤:
S201,构建各帧间样本物体对齐、但环境光照不同的视频数据集;
S202,构建低秩误差作为损失函数,对高光分解网络、法向网络以及光照网络进行无监督训练,且对高光分解网络、法向网络以及光照网络进行无监督训练分为两轮进行,两轮训练过程中第一轮为固定法向网络以训练高光分解网络和光照网络直至低秩误差收敛,第二轮为固定光照网络以训练高光分解网络和法向网络直至低秩误差收敛。
本实施例中,上述训练全流程是自监督的。在训练过程中,首先因为法向的坐标轴可能有几种选择方式,我们首先利用小批量的合成数据对法向网络进行预训练,对法向网络的坐标轴进行初始化。在预训练之后,我们开始法向网络和光照网络的交替学习。由于用同一个低秩误差来训练时,两个网络可能存在鸡生蛋的关系,难以同时训练,于是我们首先固定法向网络,训练光照网络,当误差收敛后,第二轮固定光照网络,训练法向网络,以此交替训练,直至误差收敛。这一过程是误差不断降低的过程,所以能够保证优化结果。最后,在网络训练好之后,测试时可以实现高光反射的快速渲染,可以支持光照和材质的同时编辑。最终,本实施例方法被实现为一个安卓应用,支持移动端的轻量级增强现实效果。
本实施例中提出一种新的低秩误差定义,具有良好的收敛性,能够有效地完成对前文提及的轻量级的网络结构(高光分解网络、法向网络以及光照网络)的无监督学习。具体地,本实施例步骤S202中构建低秩误差作为损失函数包括:
S301,根据样本物体的原图提取法向图和光照图进行哑光渲染得到样本物体的光影图,将样本物体的原图除以样本物体的光影图得到材质图(即将原图中每个像素点的数值除以光影图对应像素点的数值,即可得到对应像素点的材质颜色的数值),并将同一批次的多个材质图作为矩阵R的一行以构建得到矩阵R;
S302,对矩阵R进行奇异值分解,并提取低秩近似矩阵
Figure BDA0003880853740000065
对矩阵R进行奇异值分解可表示为:
R=UΣVT
上式中,U为左奇异向量,Σ为对角矩阵,V为右奇异向量,且有:
Σ=diag(σ12,…,σ16),
上式中,σ1~σ16为对矩阵R进行奇异值分解得到的16个奇异值。
本实施例中,令Σ′=diag(σ1,0,…,0),获得低秩近似矩阵
Figure BDA0003880853740000061
的函数表达式为:
Figure BDA0003880853740000062
S303,根据矩阵R、低秩近似
Figure BDA0003880853740000063
之间的F模的平方作为损失函数,可表示为:
Figure BDA0003880853740000064
上式中,lossLR即为损失函数。该损失函数的定义能够有效保证训练中梯度下降速度稳定,收敛效果较好。
为了驱动网络训练,本实施例中采用了一种各帧间目标物体对齐、但环境光照不同的视频数据集(简称为Relit数据集)。为了提高各帧间目标物体对齐、但环境光照不同的视频数据集的采集效率,作为一种可选的实施方式,本实施例中步骤S201中构建各帧间目标物体对齐、但环境光照不同的视频数据集是指将相机和目标物体相对固定在同一个转盘上,转动转盘并通过相机采集目标物体的图像,使得相机拍摄的目标物体位置始终保持不变以实现各帧间目标物体对齐、但环境光照随着转盘的角度不同而不同,从而得到各帧间目标物体对齐、但环境光照不同的视频数据集,从而能够快速大批量采集像素对齐的视频数据,解决合成数据的映射域迁移问题,保证真实数据训练时的效果。具体地,本实施例中的转盘为电动转盘,通过步进电机或伺服电机,可精确控制环境光照随着转盘的角度,由于相机和对象放置在一个电动转盘上,在拍摄过程中转盘会转动,因此物体上的光影效果会不断改变,但是相机和物体是相对静止的,因此物体在视频中的位置是始终不变的。最终,本实施例中得到的Relit数据集包含500个视频,包含多种不同的室内和室外照明下以及超过100个物体。每视频为50秒,可以贡献1500个物体对齐的图片。Relit数据集总共包含750K张图像。所有物体包含各种形状、材料和纹理。本实施例中得到的Relit数据集可以用于许多任务,如图像重新照明,分割和逆渲染等。
在取得数据集之后,我们按照图3进行训练。训练过程中,每次在同一个视频中取16张图片作为一个批次(batch),同一批次包含同一个物体在同一个视角下的不同光照下的图片,对于其中有高光的图片,高光分解网络会去除其高光(此步骤后文有详述),然后我们首先利用一个法向网络(Normal-Net),估计出该物体的法向信息,然后设计了一个光照网络(Light-Net),估计出每一张图片对应的光照信息(用二阶球面谐波基函数表示,仅需估计九个球谐系数)。得到法向和光照后,我们首先利用一个可微分渲染层,渲染出该物体图片的光影信息,按照图像方程,可以用原图除以光影得到材质信息,而同一个批次的图片,材质颜色应该是一致的,因此此处加上约束,将16个材质图作为矩阵的16行,构建一个矩阵R,要求此矩阵的秩为1,即16个材质图应该尽可能相同。这就是低秩误差。利用此低秩误差,在训练中,可以无监督地对法向网络和光照网络进行训练,最终得到理想结果。在使用该技术时,直接利用已经训练好的网络,首先进行高光分解,去除高光反射后,利用法向网络和光照网络估计出图片物体对应的法向、材质颜色和光照系数。为了插入新的场景,我们预计算出新场景的光照系数,给定新的材质光滑度(高光反射参数),利用本发明提出的高光反射渲染层进行快速渲染,最终得到无缝的增强现实的物体插入效果。
目前针对场景图片,经常假设材质都是哑光的,目前可微分渲染只能支持环境光照的哑光材质渲染,因为场景中的高光反射往往是少数。但是对于物体不是这样,金属或者塑料材质的物体往往存在强烈的高光反射。可微分高光渲染技术(实现成深度神经网络的渲染过程,全程计算都可导,方便网络训练中的梯度传递)的缺乏,限制了增强现实应用的速度和应用效果。针对此问题,该技术提出一种基于球谐光照的高光渲染技术,能够快速进行高光反射的渲染,支持了非哑光材质的光照编辑。具体地,本实施例步骤S103中根据法向图和光照图进行哑光渲染的函数表达式为:
Figure BDA0003880853740000081
上式中,Id(p)为任意像素p处的哑光反射颜色,ap为p点处的哑光材质颜色,lw为光照图中点光源w的光强,Lw为光照图中点光源w的方向,np为法向图中p点处法向,L为光照图中点光源的集合;Cl,m为球谐系数,
Figure BDA00038808537400000814
为球谐基函数的参数,Yl,m(θ·φ)为球谐基函数,np=(x,y,z),(θ,φ)为(x,y,z)对应的球坐标;上述方法可参见方法[2](M.Janner,J.Wu,T.D.Kulkarni,I.Yildirim,and J.Tenenbaum,“Selfsupervised intrinsic imagedecomposition,”in NIPS,2017,pp.5936–5946.);
步骤S104中对目标物体的逆渲染模型进行高光渲染的函数表达式为:
Figure BDA0003880853740000082
上式中,H(p)为像素p处的高光反射颜色,sp为p点处的高光材质颜色,v为视角方向,α为高光材质参数,
Figure BDA0003880853740000083
为高光基的球谐基函数。给定新的光照会导致球谐系数Cl,m发生变化,给定新的材质时会导致p点处的高光材质颜色sp和高光材质参数α发生变化,从而利用上式进行高光渲染,即可在哑光渲染的图片的基础上,得到高光渲染的图片。
本实施例中,球谐系数Cl,m包括九个球谐系数,为了加速渲染过程,我们可以预计算出目标物体在九个高光基的球谐基函数下的渲染图
Figure BDA0003880853740000084
在渲染时仅需利用球谐系数Cl,m对九个高光基的球谐基函数的渲染图进行加权即可。本实施例中的九个高光基的球谐基函数定义如下:
Figure BDA0003880853740000085
Figure BDA0003880853740000086
Figure BDA0003880853740000087
Figure BDA0003880853740000088
Figure BDA0003880853740000089
Figure BDA00038808537400000810
Figure BDA00038808537400000811
Figure BDA00038808537400000812
Figure BDA00038808537400000813
上式中,(x,y,z)为法向图中p点处法向,c0~c5均为常数系数,且本实施例中具体为:
c0=0.282095,c1=0.488603,c2=1.092548,c3=0.315392,c5=0.546274。
为了实现材质编辑效果,本实施例中还提出了一种高光反射部分的重渲染的方法,将原始的球面谐波基改进为图4所示的高光基,图4中,(a)表示点光源w的方向Lw与视角方向v,及其角平分线b的关系示意图;(b)为yz平面示意图,在yz平面上,点光源w的方向Lw与视角v的夹角θLw=2θb,其中θb为角平分线b与点光源w的方向Lw、视角v的夹角;(c)为xy平面示意图,在xy平面上,点光源w的方向Lw、视角方向v以及角平分线b重合,且点光源w的方向Lw与y轴的夹角
Figure BDA0003880853740000091
和角平分线b与y轴的夹角
Figure BDA0003880853740000092
相等。(d)为针对高光渲染时的采用的高光基的球谐基函数的示意图,图4中的(d)中九个高光基的球谐基函数呈金字塔状布置(顶层1个,中间层3个,底层5个),因左侧3个高光基的球谐基函数与右侧3个高光基的球谐基函数结构对称,故左侧3个高光基的球谐基函数在图4中的(d)中省略未绘出。
本实施例中将高光渲染部分在Pytorch中实现,并且进行了有效验证。最终,本发明实现了如图5所示的单张图片的光照编辑和材质编辑效果,其中(a)、(b)和(c)为单张图片的原图,(a-1)~(a-3)为(a)采用本实施例方法得到的目标物体在新的光照、材质下的图片,(b-1)~(b-3)为(b)采用本实施例方法得到的目标物体在新的光照、材质下的图片,(c-1)~(c-3)为(c)采用本实施例方法得到的目标物体在新的光照、材质下的图片。参见图5可知,采用本实施例方法将目标物体插入新场景后,看起来光影是和谐一致的。
图6所示为采用本实施例方法和将目标物体直接插入(不进行任何光照编辑)的对比示意图。其中(a)为第一组目标物体的照片(上半部分)以及场景(下半部分),(a-1)为采用本实施例方法后插入场景得到的图片,(a-2)为直接插入场景得到的图片。其中(b)为第二组目标物体的照片(上半部分)以及场景(下半部分),(b-1)为采用本实施例方法后插入场景得到的图片,(b-2)为直接插入场景得到的图片。其中(c)为第三组目标物体的照片(上半部分)以及场景(下半部分),(ca-1)为采用本实施例方法后插入场景得到的图片,(c-2)为直接插入场景得到的图片。参见图6可知,采用本实施例方法和将目标物体直接插入(不进行任何光照编辑)相比,达到的增强现实效果更加真实,通过高光反射渲染层进行快速渲染,最终得到无缝的增强现实的物体插入效果。
此外,本实施例还提供一种基于单张图片的物体光照编辑系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行前述基于单张图片的物体光照编辑方法。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序用于被微处理器编程或配置以执行前述基于单张图片的物体光照编辑方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于单张图片的物体光照编辑方法,其特征在于,包括:
S101,将目标物体的单张图片通过训练好的高光分解网络去除强高光;
S102,将去除强高光后的图片输入训练好的法向网络以估计图片中目标物体的法向图,将去除强高光后的图片输入训练好的光照网络估计出图片中目标物体的光照图;
S103,根据法向图和光照图进行哑光渲染,得到目标物体的光影图,将所述单张图片的原图除以光影图得到材质图,得到由法向图、光照图、光影图以及材质图构成的逆渲染模型;
S104,为目标物体的逆渲染模型赋予新的光照、材质中的至少一种,然后对目标物体的逆渲染模型进行高光渲染,得到目标物体在新的光照、材质下的图片。
2.根据权利要求1所述的基于单张图片的物体光照编辑方法,其特征在于,步骤S101中将输入的单张图片通过训练好的高光分解网络去除强高光之前还包括检测输入的单张图片的饱和像素比例,若饱和像素比例大于设定阈值则将输入的单张图片通过训练好的高光分解网络去除强高光,否则将输入的单张图片作为去除强高光后的图片,跳转步骤S102。
3.根据权利要求1所述的基于单张图片的物体光照编辑方法,其特征在于,步骤S102中的法向网络包括依次连接的编码器和解码器,所述编码器用于将去除强高光后的图片进行编码得到法向编码向量,所述解码器用于将编码向量解码为图片中物体的法向图。
4.根据权利要求1所述的基于单张图片的物体光照编辑方法,其特征在于,步骤S102中的光照网络包括依次连接的编码器、连接层、多层感知机和球谐系数层,所述编码器用于将去除强高光后的图片进行编码提取光照编码向量,所述连接层用于将光照编码向量和去除强高光后的图片连接后作为多层感知机的输入以获得光照系数信息,所述球谐系数层用于基于二阶球面谐波基函数为光照系数信息估计多个球谐系数以作为图片中物体的光照图。
5.根据权利要求1~4中任意一项所述的基于单张图片的物体光照编辑方法,其特征在于,步骤S101之前还包括训练高光分解网络、法向网络以及光照网络的步骤:
S201,构建各帧间样本物体对齐、但环境光照不同的视频数据集;
S202,构建低秩误差作为损失函数,对高光分解网络、法向网络以及光照网络进行无监督训练,且对高光分解网络、法向网络以及光照网络进行无监督训练分为两轮进行,两轮训练过程中第一轮为固定法向网络以训练高光分解网络和光照网络直至低秩误差收敛,第二轮为固定光照网络以训练高光分解网络和法向网络直至低秩误差收敛。
6.根据权利要求5所述的基于单张图片的物体光照编辑方法,其特征在于,步骤S202中构建低秩误差作为损失函数包括:
S301,根据样本物体的原图提取法向图和光照图进行哑光渲染得到样本物体的光影图,将样本物体的原图除以样本物体的光影图得到材质图,并将同一批次的多个材质图作为矩阵R的一行以构建得到矩阵R;
S302,对矩阵R进行奇异值分解,并提取低秩近似矩阵
Figure FDA0003880853730000025
S303,根据矩阵R、低秩近似
Figure FDA0003880853730000026
之间的F模的平方作为损失函数。
7.根据权利要求6所述的基于单张图片的物体光照编辑方法,其特征在于,步骤S201中构建各帧间目标物体对齐、但环境光照不同的视频数据集是指将相机和目标物体相对固定在同一个转盘上,转动转盘并通过相机采集目标物体的图像,使得相机拍摄的目标物体位置始终保持不变以实现各帧间目标物体对齐、但环境光照随着转盘的角度不同而不同,从而得到各帧间目标物体对齐、但环境光照不同的视频数据集。
8.根据权利要求1所述的基于单张图片的物体光照编辑方法,其特征在于,步骤S103中根据法向图和光照图进行哑光渲染的函数表达式为:
Figure FDA0003880853730000021
上式中,Id(p)为任意像素p处的哑光反射颜色,ap为p点处的哑光材质颜色,lw为光照图中点光源w的光强,Lw为光照图中点光源w的方向,np为法向图中p点处法向,L为光照图中点光源的集合;Cl,m为球谐系数,
Figure FDA0003880853730000024
为球谐基函数的参数,Yl,m(θ·φ)为球谐基函数,np=(x,y,z),(θ,φ)为(x,y,z)对应的球坐标;
步骤S104中对目标物体的逆渲染模型进行高光渲染的函数表达式为:
Figure FDA0003880853730000022
上式中,H(p)为像素p处的高光反射颜色,sp为p点处的高光材质颜色,v为视角方向,α为高光材质参数,
Figure FDA0003880853730000023
为高光基的球谐基函数。
9.一种基于单张图片的物体光照编辑系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于单张图片的物体光照编辑方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述基于单张图片的物体光照编辑方法。
CN202211230379.6A 2022-09-30 2022-09-30 一种基于单张图片的物体光照编辑方法、系统及介质 Pending CN115719399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211230379.6A CN115719399A (zh) 2022-09-30 2022-09-30 一种基于单张图片的物体光照编辑方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211230379.6A CN115719399A (zh) 2022-09-30 2022-09-30 一种基于单张图片的物体光照编辑方法、系统及介质

Publications (1)

Publication Number Publication Date
CN115719399A true CN115719399A (zh) 2023-02-28

Family

ID=85254161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211230379.6A Pending CN115719399A (zh) 2022-09-30 2022-09-30 一种基于单张图片的物体光照编辑方法、系统及介质

Country Status (1)

Country Link
CN (1) CN115719399A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252787A (zh) * 2023-11-17 2023-12-19 北京渲光科技有限公司 图像重新照明方法、模型训练方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252787A (zh) * 2023-11-17 2023-12-19 北京渲光科技有限公司 图像重新照明方法、模型训练方法、装置、设备及介质
CN117252787B (zh) * 2023-11-17 2024-02-02 北京渲光科技有限公司 图像重新照明方法、模型训练方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11721071B2 (en) Methods and systems for producing content in multiple reality environments
Rhodin et al. Unsupervised geometry-aware representation for 3d human pose estimation
US8947422B2 (en) Gradient modeling toolkit for sculpting stereoscopic depth models for converting 2-D images into stereoscopic 3-D images
US11688145B2 (en) Virtualizing content
US8884948B2 (en) Method and system for creating depth and volume in a 2-D planar image
Radke Computer vision for visual effects
US6266068B1 (en) Multi-layer image-based rendering for video synthesis
Yu et al. Self-supervised outdoor scene relighting
CN111656407A (zh) 对动态三维模型的视图进行融合、纹理化和绘制
Bianco et al. Personalized image enhancement using neural spline color transforms
KR102353556B1 (ko) 사용자 얼굴기반 표정 및 포즈 재현 아바타 생성장치
CN113066156A (zh) 表情重定向方法、装置、设备和介质
CN115719399A (zh) 一种基于单张图片的物体光照编辑方法、系统及介质
Ma et al. Neural compositing for real-time augmented reality rendering in low-frequency lighting environments
Zhang et al. Refilming with depth-inferred videos
Yang et al. Towards practical capture of high-fidelity relightable avatars
CN111968191A (zh) 使用梳状神经网络架构的自动图像合成
Tous Pictonaut: movie cartoonization using 3D human pose estimation and GANs
Jin et al. Automatic and real-time green screen keying
CN115496843A (zh) 一种基于gan的局部写实感漫画风格迁移系统及方法
CN112132923A (zh) 一种基于风格小图高清化的两阶段数字图像风格变换方法及系统
Hedman Free Photography for Virtual Reality
Choi et al. Study on 2D Sprite* 3. Generation Using the Impersonator Network.
Gao et al. Aesthetics Driven Autonomous Time-Lapse Photography Generation by Virtual and Real Robots
Bai et al. Local-to-Global Panorama Inpainting for Locale-Aware Indoor Lighting Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination