CN108416805A - 一种基于深度学习的本征图像分解方法及装置 - Google Patents
一种基于深度学习的本征图像分解方法及装置 Download PDFInfo
- Publication number
- CN108416805A CN108416805A CN201810201866.7A CN201810201866A CN108416805A CN 108416805 A CN108416805 A CN 108416805A CN 201810201866 A CN201810201866 A CN 201810201866A CN 108416805 A CN108416805 A CN 108416805A
- Authority
- CN
- China
- Prior art keywords
- decomposition
- error
- intrinsic
- network
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000005286 illumination Methods 0.000 claims abstract description 42
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 27
- 230000011514 reflex Effects 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000003252 repetitive effect Effects 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000001537 neural effect Effects 0.000 claims description 12
- 238000005303 weighing Methods 0.000 claims description 9
- 239000004615 ingredient Substances 0.000 claims description 8
- 239000011248 coating agent Substances 0.000 claims description 7
- 238000000576 coating method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013480 data collection Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003706 image smoothing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度学习的本征图像分解方法及装置,其中该方法包括在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;利用所生成的数据集将全卷积神经网络训练成本征图分解网络;对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。本发明提出的本征图分解方法允许通过图形渲染的方式获取大批量有标注数据集,通过训练深度神经网络,获取鲁棒性良好的分解模型;通过应用损失网络,进一步提高泛化性能并且避免了损失函数的设计困难。
Description
技术领域
本发明涉及本征图分解技术领域,特别涉及一种基于深度学习的本征图像分解方法及装置。
背景技术
现有的本征图分解技术主要有以下几类:
1)基于先验假设的数值优化方法[1,2]。此类方法依赖于如对光照、物体表面、深度等一些物理特性或现象的连续性假设。例如[1]通过依赖于直接和间接辐照度的光滑性假设,构造对应的能量函数和约束,并优化最小平方误差;[2]则通过高斯混合模型学习物体表面几何和光照先验分布,根据相应的观察构造不同成分对应的损失函数并加权做优化,以此来求解对应成分的值达到分解的目的。
2)基于图像平滑的方法[3]。根据经验,反射成分常常呈现分片一致,即具有一种平滑现象。其通过L1正则化实现图像的分片平滑变换。平滑后的图像即可以作为反射成分,而光照成分则可以通过商图像(L=I/R)获取。
3)基于学习的回归模型方法[4]。当有足够多的数据的时候,基于深度学习的方法往往能获得比手工特征或者启发式方法拥有更好鲁棒性的结果。这种方法通过深度神经网络直接学习一个回归模型,对于给定图像,可以直接输出对应的光照成分和反射成分。
已有的本征图分解技术尚存在很多不足。很多数值优化的方法往往需要针对每个输入进行冗长耗时的优化,限制了其在实时领域的应用。同时,相应的观察和假设有其局限性,仅在特定情况下有效。而基于学习的方法又受数据集标注困难的限制,往往很难获得大量的有密集标注的图片数据集。
参考文献:
[1]Chen Q,Koltun V.A Simple Model for Intrinsic Image Decompositionwith Depth Cues[C].international conference on computer vision,2013:241-248.
[2]Barron J T,Malik J.Shape,Illumination,and Reflectance from Shading[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(8):1670-1687.
[3]Bi S,Han X,Yu Y,et al.An L 1 image transform for edge-preservingsmoothing and scene-level intrinsic decomposition[J].international conferenceon computer graphics and interactive techniques,2015,34(4).
[4]Narihira T,Maire M,Yu S X,et al.Direct Intrinsics:Learning Albedo-Shading Decomposition by Convolutional Regression[J].international conferenceon computer vision,2015:2992-2992.
发明内容
本发明的主要目的是提出一种基于深度学习的本征图像分解方法,旨在克服以上问题。
为实现上述目的,本发明提出的一种基于深度学习的本征图像分解方法,包括如下步骤:
S10在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;
S20利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
S30对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述S20包括:
S201计算像素误差:采用
(3),
以衡量预测值和真实值之间像素误差,其中表示像素,是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
S202计算特征误差:采用
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度;
S203计算风格相似度对应的误差:采用
(5),
以通过Gram矩阵来衡量风格相似度,其中表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素,φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
S204结合特征误差和风格相似度对应的误差计算感知误差:采用
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
S205通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
训练全卷积神经网络ψ。
优选地,所述S20之后还包括:采用
对训练后的全卷积神经网络ψ进行优化,其中损失网络φ的参数不更新,全卷积神经网络ψ参数更新。
优选地,所述更新全卷积神经网络ψ参数时采用ADAM优化器。
优选地,所述S30包括:
S301令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:
I=R⊙L (1),
该函数为图像I等于R和L的逐点乘积;
S302利用全卷积神经网络ψ,达到:
的目的,其中是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则同理,对于L成分
优选地,所述在若干3D模型中选取3D模型的条件是:选取图中不带光照效果的3D模型。
优选地,所述S10中随机设置光照,任取视角渲染图片之后还包括:S01模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作。
本发明还公开了一种基于深度学习的本征图像分解装置,用以实现上述方法,其包括:
数据集生成模块,用于在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分;及模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作,生成大批量的有标注本征图分解的数据集;
神经网络训练模块,用于利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
应用模块,用于对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述神经网络训练模块包括:
像素误差单元,用于计算像素误差:采用
以衡量预测值和真实值之间像素误差,其中表示像素,是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
特征误差单元,用于采用
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度
风格相似度误差单元,用于计算风格相似度对应的误差:采用
以通过Gram矩阵来衡量风格相似度,其中表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
感知误差单元,用于结合特征误差和风格相似度对应的误差计算感知误差:采用
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
神经训练单元,用于通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
训练全卷积神经网络ψ。
优选地,所述应用模块包括:
函数建立单元,用于令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:
I=R⊙L (1),
该函数为图像I等于R和L的逐点乘积;
应用单元,用于利用全卷积神经网络ψ,达到:
的目的,其中是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则同理,对于L成分
本发明提出的本征图分解方法允许通过图形渲染的方式获取大批量有标注数据集,通过训练深度神经网络,获取鲁棒性良好的分解模型;通过应用损失网络,进一步提高泛化性能并且避免了损失函数的设计困难。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明的基于深度学习的本征图像分解方法一实施例的流程框图;
图2为本征图分解网络的结构示意图,图2中的全卷积神经网络模型由一个U型网络和后续若干卷积层构成,网络参数标注在箭头上,模型训练后输入特定图像即可产生对应的本征图;
图3为本征图分解网络的训练网络图,其中本征图分解网络ψ如图1所示,损失网络采用预训练的VGG19;
图4为训练后的卷积神经网络ψ在MIT Intrinsic Images数据集上的测试结果图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1-4所示,本发明提出的一种基于深度学习的本征图像分解方法,包括如下步骤:
S10在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;
S20利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
S30对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述S20包括:
S201计算像素误差:采用
(3),
以衡量预测值和真实值之间像素误差,其中表示像素,是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
S202计算特征误差:采用
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度;
S203计算风格相似度对应的误差:采用
(5),
以通过Gram矩阵来衡量风格相似度,其中表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φl,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
S204结合特征误差和风格相似度对应的误差计算感知误差:采用
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
S205通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
训练全卷积神经网络ψ。
优选地,所述S20之后还包括:采用
对训练后的全卷积神经网络ψ进行优化,其中损失网络φ的参数不更新,全卷积神经网络ψ参数更新。
优选地,所述更新全卷积神经网络ψ参数时采用ADAM优化器。
优选地,所述S30包括:
S301令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:
I=R⊙L (1),
该函数为图像I等于R和L的逐点乘积;
S302利用全卷积神经网络ψ,达到:
的目的,其中是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则同理,对于L成分
优选地,所述在若干3D模型中选取3D模型的条件是:选取图中不带光照效果的3D模型。
优选地,所述S10中随机设置光照,任取视角渲染图片之后还包括:S01模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作。
本发明还公开了一种基于深度学习的本征图像分解装置,用以实现上述方法,其包括:
数据集生成模块,用于在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分;及模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作,生成大批量的有标注本征图分解的数据集;
神经网络训练模块,用于利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
应用模块,用于对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
优选地,所述神经网络训练模块包括:
像素误差单元,用于计算像素误差:采用
以衡量预测值和真实值之间像素误差,其中表示像素,是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
特征误差单元,用于采用
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度
风格相似度误差单元,用于计算风格相似度对应的误差:采用
以通过Gram矩阵来衡量风格相似度,其中表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
感知误差单元,用于结合特征误差和风格相似度对应的误差计算感知误差:采用
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
神经训练单元,用于通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
训练全卷积神经网络ψ。
优选地,所述应用模块包括:
函数建立单元,用于令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:
I=R⊙L (1),
该函数为图像I等于R和L的逐点乘积;
应用单元,用于利用全卷积神经网络ψ,达到:
的目的,其中是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则同理,对于L成分
在本发明实施例中,合成及及训练的流程图如图1所示。完成后即可得到本征图分解网络ψR和ψL。将网络ψR和ψL应用于任意合法输入即可得到图片的光照成分L和反射成分R。
1)训练数据合成
取任意3D模型(贴图中不带有光照效果的模型),加载进基于物理的图形渲染器;随机设置光照,以产生足够复杂的阴影。任取视角渲染彩色图像Ii,并通过渲染器获取对应的反射成分Ri和光照成分Li。进一步,可以模拟深度传感器——在光线追踪框架下,两个(虚拟)相机,一个相机发射光线检测和三维模型的相交点,另一个相机发射光线,检测这些点是否被遮挡,来达到双目视差的效果,然后通过参数化(如光线方向和模型表面法相相关的方式加入噪声和数据丢失的效果),产生具有Kinect噪声特征的深度图。重复设置光照或选取视角以产生足够丰富的图片。在足够多的3D模型上重复上述步骤,构造完整训练数据集。
2)神经网络训练
令数据集中任一图像为I,其对应的反射成分和光照成分分别为R和L。根据Lambertian光照模型,满足以下条件:
I=R⊙L (1)
该函数为图像I等于R和L的逐点乘积。
通过三维模型,并利用基于物理的图形渲染器,只需要少量的三维模型,通过变换视角和光照的方式,可生成大批量的有标注本征图分解数据集。利用此数据集,即可以训练一个学习模型,达成本征图分解的目的而无需过多的先验假设。
在这里,我们希望利用如图2所示的全卷积神经网络ψ,达到:
的目的。是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,;x是网络的输入,视不同情况,输入x可以是RGB图像或RGB-D输入;,若分解目标为反射成分R,则同理,对于L成分
训练上述网络ψ,按照图3所示的训练网络结构图构造网络,其中的损失网络φ(用于构造感知误差)在其他任务上预训练的网络,用于衡量网络ψ的预测输出和真实值之间的误差。在本发明中使用VGG19。其中
用于衡量预测值和真实值之间的像素误差,表示像素,n是有效像素数,i是任意一个有效像素。
用损失网络φ的第l层对应的特征图φl来衡量特征误差:
公式4为特征误差,其所表达的是特征的相似度。其中l是选取的网络层;φl为其对应的特征图;Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度、Wl为对应这个特征图的宽度。
通过Gram矩阵来衡量风格相似度:
其中表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素。φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量。
则风格相似度(如颜色等特征)对应的误差如公式6所示。称公式6为风格误差。
感知误差有如公式7所示,由特征误差和风格误差加权而得。感知误差由损失网络φ计算而得。
其中Lf和Ls表示选用的用于衡量感知误差的激活层。所选用的层如图3所示。在本发明中,我们选取VGG19对应的层{relu1_2,relu2_2,relu3_3,relu4_3}为Lf,相应的wl分别为{1.0,1.0,0.75,0.25};并取{relu1_1,relu2_1}为Ls,相应的wl分别为{1.0,1.0}。
最终用于训练神经网络的花费函数如公式8所示。通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定的问题。
网络的优化目标即
其中损失网络φ的参数固定,不更新。其中更新网络参数时采用ADAM优化器。
3)本征图分解网络应用
对于本征图分解网络ψ,若其训练目标为R,将其记为ψR;若训练目标为L,将其记为ψL。使用训练过程中相同成分构成的输入x(即训练过程中采用RGB图片,则此处应同样采用RGB图片,对RGB-D输入同理)。
ψR(x)即可得反射成分,ψL(x)即可得光照成分。
本发明欲保护:采用物理仿真的形式合成大规模的有标注RGB或RGB-D数据集,并加以利用,用于训练基于学习的本征图分解模型;感知误差(公式7所示)在本征图分解网络学习中的应用。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种基于深度学习的本征图像分解方法,其特征在于,包括如下步骤:
S10在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分,以此重复操作,生成大批量的有标注本征图分解的数据集;
S20利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
S30对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
2.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述S20包括:
S201计算像素误差:采用
(3),
以衡量预测值和真实值之间像素误差,其中表示像素误差,是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
S202计算特征误差:采用
(4),
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中 表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度;
S203计算风格相似度对应的误差:采用
(5),
以通过Gram矩阵来衡量风格相似度,其中表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素,φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
S204结合特征误差和风格相似度对应的误差计算感知误差:采用
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
S205通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
训练全卷积神经网络ψ。
3.如权利要求2所述的基于深度学习的本征图像分解方法,其特征在于,所述S20之后还包括:采用
对训练后的全卷积神经网络ψ进行优化,其中损失网络φ的参数不更新,全卷积神经网络ψ参数更新。
4.如权利要求3所述的基于深度学习的本征图像分解方法,其特征在于,所述更新全卷积神经网络ψ参数时采用ADAM优化器。
5.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述S30包括:
S301令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:
I=R⊙L (1),
该函数为图像I等于R和L的逐点乘积;
S302利用全卷积神经网络ψ,达到:
的目的,其中是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则同理,对于L成分
6.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述在若干3D模型中选取3D模型的条件是:选取合理建模的,贴图中不带光照效果的3D模型。
7.如权利要求1所述的基于深度学习的本征图像分解方法,其特征在于,所述S10中随机设置光照,任取视角渲染图片之后还包括:S01模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作。
8.一种基于深度学习的本征图像分解装置,其特征在于,包括:
数据集生成模块,用于在若干3D模型中选取3D模型加载入基于物理的渲染器,随机设置光照,任取视角渲染图片,并通过渲染器获取对应的反射成分和光照成分;及模拟深度传感器,产生具有Kinect噪声特征的深度图,以此重复操作,生成大批量的有标注本征图分解的数据集;
神经网络训练模块,用于利用所生成的数据集将全卷积神经网络训练成本征图分解网络;
应用模块,用于对本征图分解网络进行应用,由预测输出的分解结果,得到期望输出的分解目标。
9.如权利要求8所述的基于深度学习的本征图像分解装置,其特征在于,所述神经网络训练模块包括:
像素误差单元,用于计算像素误差:采用
以衡量预测值和真实值之间像素误差,其中表示像素,是预测输出的分解结果,y是期望输出的分解目标,即生成的数据集对应的真实值,n是有效像素数,i是任意一个有效像素,λ∈0-1之间的实数,为权重,可调;
特征误差单元,用于采用
以用损失网络φ的第l层对应的特征图φl来衡量特征误差,其中表示特征的相似度,l是选取的网络层,φl为其对应的特征图,Cl为对应这个特征图的通道数,Hl为对应这个特征图的高度,Wl为对应这个特征图的宽度
风格相似度误差单元,用于计算风格相似度对应的误差:采用
以通过Gram矩阵来衡量风格相似度,其中表示损失网络的第l层对应的Gram矩阵的第i行第j列上的元素,φ′l,i表示特征图φl中的第i个通道对应的特征,并将这个矩阵φl,i按任意固定方式拉伸为向量,则风格相似度对应的误差如公式6所示:
感知误差单元,用于结合特征误差和风格相似度对应的误差计算感知误差:采用
其中Lf和Ls表示选用的用于衡量感知误差的激活层,wl∈0-1之间的实数,为权重,可调;
神经训练单元,用于通过梯度对应的Frobenius范数的比值对误差进行加权,以平衡各误差所带来的梯度大小不平衡所造成的训练不稳定,采用
训练全卷积神经网络ψ。
10.如权利要求8所述的基于深度学习的本征图像分解装置,其特征在于,所述应用模块包括:
函数建立单元,用于令数据集中任一图像为I,其对应的反射成分为R,对应的光照成分为L,根据Lambertian光照模型,满足以下条件:
I=R⊙L (1),
该函数为图像I等于R和L的逐点乘积;
应用单元,用于利用全卷积神经网络ψ,达到:
的目的,其中是预测输出的分解结果,ψ是本征图分解网络,X是网络的实际输入图像,y是期望输出的分解目标,即生成的数据集对应的真实值,若分解目标为反射成分R,则同理,对于L成分
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810201866.7A CN108416805B (zh) | 2018-03-12 | 2018-03-12 | 一种基于深度学习的本征图像分解方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810201866.7A CN108416805B (zh) | 2018-03-12 | 2018-03-12 | 一种基于深度学习的本征图像分解方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108416805A true CN108416805A (zh) | 2018-08-17 |
CN108416805B CN108416805B (zh) | 2021-09-24 |
Family
ID=63131083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810201866.7A Active CN108416805B (zh) | 2018-03-12 | 2018-03-12 | 一种基于深度学习的本征图像分解方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108416805B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509248A (zh) * | 2018-09-28 | 2019-03-22 | 北京大学 | 一种基于神经网络的光子映射渲染方法和系统 |
CN109523617A (zh) * | 2018-10-15 | 2019-03-26 | 中山大学 | 一种基于单目摄像机的光照估计方法 |
CN109903320A (zh) * | 2019-01-28 | 2019-06-18 | 浙江大学 | 一种基于肤色先验的人脸本征图像分解方法 |
CN109961488A (zh) * | 2019-03-25 | 2019-07-02 | 中国银联股份有限公司 | 一种实物图像生成方法及装置 |
CN110009676A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 一种双目图像的本征性质分解方法 |
CN110728633A (zh) * | 2019-09-06 | 2020-01-24 | 上海交通大学 | 多曝光度高动态范围反色调映射模型构建方法及装置 |
CN111476087A (zh) * | 2020-03-02 | 2020-07-31 | 深圳市商汤科技有限公司 | 目标检测方法及其相关的模型训练方法、设备、装置 |
CN111833430A (zh) * | 2019-04-10 | 2020-10-27 | 上海科技大学 | 基于神经网络的光照数据预测方法、系统、终端及介质 |
CN113034353A (zh) * | 2021-04-09 | 2021-06-25 | 西安建筑科技大学 | 一种基于交叉卷积神经网络的本质图像分解方法及系统 |
CN113077451A (zh) * | 2021-04-13 | 2021-07-06 | 中山大学 | 基于无监督学习的单张图片本征图像分解方法、系统及介质 |
CN113268126A (zh) * | 2020-02-17 | 2021-08-17 | 富士通株式会社 | 混合物性能优化装置和方法、记录介质和混合制冷剂 |
CN113763524A (zh) * | 2021-09-18 | 2021-12-07 | 华中科技大学 | 基于物理光学模型和神经网络的双流散景渲染方法及系统 |
CN116391206A (zh) * | 2020-11-05 | 2023-07-04 | 谷歌有限责任公司 | 采用神经渲染的立体表演捕获 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281513A (zh) * | 2013-05-14 | 2013-09-04 | 西安理工大学 | 一种无重叠域监控系统中行人识别方法 |
CN105574832A (zh) * | 2015-12-11 | 2016-05-11 | 上海交通大学 | 基于迭代方向滤波器组可逆深度卷积网络结构 |
CN107481211A (zh) * | 2017-08-15 | 2017-12-15 | 北京工业大学 | 一种基于梯度域融合的夜间交通监控增强方法 |
-
2018
- 2018-03-12 CN CN201810201866.7A patent/CN108416805B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281513A (zh) * | 2013-05-14 | 2013-09-04 | 西安理工大学 | 一种无重叠域监控系统中行人识别方法 |
CN105574832A (zh) * | 2015-12-11 | 2016-05-11 | 上海交通大学 | 基于迭代方向滤波器组可逆深度卷积网络结构 |
CN107481211A (zh) * | 2017-08-15 | 2017-12-15 | 北京工业大学 | 一种基于梯度域融合的夜间交通监控增强方法 |
Non-Patent Citations (3)
Title |
---|
TAKUYA NARIHIRA ET AL: "Direct Intrinsics: Learning Albedo-Shading Decomposition by Convolutional Regression", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
TINGHUI ZHOU ET AL: "Learning Data-Driven Reflectance Priors for Intrinsic Image Decomposition", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
孙星 等: "基于卷积神经网络的本征图像分解的实现", 《北京电子科技学院学报》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509248A (zh) * | 2018-09-28 | 2019-03-22 | 北京大学 | 一种基于神经网络的光子映射渲染方法和系统 |
CN109509248B (zh) * | 2018-09-28 | 2023-07-18 | 北京大学 | 一种基于神经网络的光子映射渲染方法和系统 |
CN109523617A (zh) * | 2018-10-15 | 2019-03-26 | 中山大学 | 一种基于单目摄像机的光照估计方法 |
CN109523617B (zh) * | 2018-10-15 | 2022-10-18 | 中山大学 | 一种基于单目摄像机的光照估计方法 |
CN109903320A (zh) * | 2019-01-28 | 2019-06-18 | 浙江大学 | 一种基于肤色先验的人脸本征图像分解方法 |
CN109903320B (zh) * | 2019-01-28 | 2021-06-08 | 浙江大学 | 一种基于肤色先验的人脸本征图像分解方法 |
CN109961488A (zh) * | 2019-03-25 | 2019-07-02 | 中国银联股份有限公司 | 一种实物图像生成方法及装置 |
CN111833430A (zh) * | 2019-04-10 | 2020-10-27 | 上海科技大学 | 基于神经网络的光照数据预测方法、系统、终端及介质 |
CN110009676A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 一种双目图像的本征性质分解方法 |
CN110009676B (zh) * | 2019-04-11 | 2019-12-17 | 电子科技大学 | 一种双目图像的本征性质分解方法 |
CN110728633A (zh) * | 2019-09-06 | 2020-01-24 | 上海交通大学 | 多曝光度高动态范围反色调映射模型构建方法及装置 |
CN113268126A (zh) * | 2020-02-17 | 2021-08-17 | 富士通株式会社 | 混合物性能优化装置和方法、记录介质和混合制冷剂 |
CN111476087A (zh) * | 2020-03-02 | 2020-07-31 | 深圳市商汤科技有限公司 | 目标检测方法及其相关的模型训练方法、设备、装置 |
CN116391206A (zh) * | 2020-11-05 | 2023-07-04 | 谷歌有限责任公司 | 采用神经渲染的立体表演捕获 |
CN113034353A (zh) * | 2021-04-09 | 2021-06-25 | 西安建筑科技大学 | 一种基于交叉卷积神经网络的本质图像分解方法及系统 |
CN113034353B (zh) * | 2021-04-09 | 2024-07-12 | 西安建筑科技大学 | 一种基于交叉卷积神经网络的本质图像分解方法及系统 |
CN113077451A (zh) * | 2021-04-13 | 2021-07-06 | 中山大学 | 基于无监督学习的单张图片本征图像分解方法、系统及介质 |
CN113077451B (zh) * | 2021-04-13 | 2023-04-18 | 中山大学 | 基于无监督学习的单张图片本征图像分解方法、系统及介质 |
CN113763524A (zh) * | 2021-09-18 | 2021-12-07 | 华中科技大学 | 基于物理光学模型和神经网络的双流散景渲染方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108416805B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416805A (zh) | 一种基于深度学习的本征图像分解方法及装置 | |
CN105574827B (zh) | 一种图像去雾的方法、装置 | |
CN109255769A (zh) | 图像增强网络的训练方法和训练模型、及图像增强方法 | |
CN107909640A (zh) | 基于深度学习的人脸重光照方法及装置 | |
CN108280811A (zh) | 一种基于神经网络的图像去噪方法和系统 | |
CN106981080A (zh) | 基于红外图像和雷达数据的夜间无人车场景深度估计方法 | |
CN107133934A (zh) | 图像补全方法及装置 | |
CN106952239A (zh) | 图像生成方法和装置 | |
CN110246209B (zh) | 图像处理方法及装置 | |
CN107484428A (zh) | 用于显示对象的方法 | |
CN110917617B (zh) | 水波纹图像的生成方法、装置、设备及存储介质 | |
Sun et al. | Underwater image enhancement with reinforcement learning | |
CN110020600A (zh) | 生成用于训练人脸对齐模型的数据集的方法 | |
CN101454806A (zh) | 使用深度加权彩色化的体绘制方法和装置 | |
CN104599326B (zh) | 一种人体心脏的实时逼真绘制方法 | |
CN111047506A (zh) | 环境图生成和孔填充 | |
CN109903347A (zh) | 一种颜色混合的方法、系统、计算机设备及存储介质 | |
IL299465A (en) | An object recognition neural network for predicting a missing visual information center | |
CN113554653A (zh) | 基于互信息校准点云数据长尾分布的语义分割方法 | |
US20080129738A1 (en) | Method and apparatus for rendering efficient real-time wrinkled skin in character animation | |
CN116543086A (zh) | 神经辐射场处理方法、装置及电子设备 | |
CN116012501A (zh) | 基于风格内容自适应归一化姿态引导的图像生成方法 | |
CN116363308A (zh) | 人体三维重建模型训练方法、人体三维重建方法和设备 | |
CN114494611A (zh) | 基于神经基函数的智能三维重建方法、装置、设备及介质 | |
CN107369138A (zh) | 基于高阶统计模型的图像最优化显示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |