CN117252787B - 图像重新照明方法、模型训练方法、装置、设备及介质 - Google Patents
图像重新照明方法、模型训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117252787B CN117252787B CN202311535543.9A CN202311535543A CN117252787B CN 117252787 B CN117252787 B CN 117252787B CN 202311535543 A CN202311535543 A CN 202311535543A CN 117252787 B CN117252787 B CN 117252787B
- Authority
- CN
- China
- Prior art keywords
- feature map
- convolution
- image
- layer
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005286 illumination Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 title claims abstract description 53
- 230000008447 perception Effects 0.000 claims abstract description 139
- 238000012545 processing Methods 0.000 claims abstract description 108
- 239000000463 material Substances 0.000 claims abstract description 76
- 238000007499 fusion processing Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims abstract description 13
- 239000000523 sample Substances 0.000 claims description 110
- 230000004913 activation Effects 0.000 claims description 69
- 239000013598 vector Substances 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012952 Resampling Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能技术领域,公开一种图像重新照明方法、模型训练方法、装置、设备及介质。该图像重新照明方法包括:获取原始材质图像,获取高光感知模型;对原始材质图像进行编码处理,得到第一特征图;提取第一特征图中过度曝光区域所对应的局部图像特征以及第一特征图的全局图像特征,对局部图像特征和全局图像特征进行融合处理,得到第二特征图;对第二特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播操作,得到第三特征图;对第三特征图进行解码处理,生成重新照明图像。本申请实施例可以降低生成重新照明结果的计算量以及扩展生成重新照明结果的适用条件。
Description
技术领域
本申请涉及人工智能技术领域,尤其是一种图像重新照明方法、模型训练方法、装置、设备及介质。
背景技术
在计算机图形学中,重新照明是指从给定的输入图像中生成具有不同光照条件的输出图像。通过重新照明,可以改变物体的阴影、高光和反射等视觉效果,从而实现对物体外观的控制和调整。
相关技术中,生成重新照明结果的方法是通过路径追踪计算出材质纹理的重照明结果,或者是利用神经网络模型生成SVBRDF(Spatially Varying BidirectionalReflectance Distribution Function)参数,然后再进行渲染。
然而,以上方法存在计算量庞大以及适应性差的缺陷。
发明内容
本申请的目的是提供一种图像重新照明方法、模型训练方法、装置、设备及介质,旨在降低生成重新照明结果的计算量以及扩展生成重新照明结果的适用条件。
本申请实施例提供一种图像重新照明方法,包括:
获取原始材质图像,获取高光感知模型;所述高光感知模型包括编码器、高光感知网络、特征传播网络和解码器;
基于所述编码器,对所述原始材质图像进行编码处理,得到第一特征图;
基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二特征图;
基于所述特征传播网络,对所述第二特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播操作,得到第三特征图;
基于所述解码器,对所述第三特征图进行解码处理,生成重新照明图像。
在一些实施例中,在所述基于所述编码器,对所述原始材质图像进行编码处理,得到第一特征图之前,还包括:
对原始图像进行重采样处理,得到重采样图像;
计算所述重采样图像的像素深度,得到像素深度信息;
将所述像素深度信息存储至所述重采样图像的透明度通道,以生成所述原始材质图像。
在一些实施例中,所述高光感知网络包括若干个顺次连接的卷积模块,所述卷积模块包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,所述第四卷积层和所述第五卷积层连接;
所述基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二特征图,包括:
对第一输入特征图进行标准化处理,得到标准化特征图;所述第一输入特征图为所述第一特征图或前一个卷积模块输出的特征图;
将所述第一输入特征图输入至所述第一卷积层,进行逐层卷积操作,对所述第一卷积层最后一次卷积操作的结果进行激活处理,得到第一激活结果;所述第一激活结果表征所述第一输入特征图中各区域过度曝光的概率;
将所述标准化特征图输入至所述第二卷积层,进行逐层卷积操作,对所述第二卷积层最后一次卷积操作的结果进行激活处理,得到第二激活结果;所述第二激活结果表征所述标准化特征图中各区域过度曝光的概率;
将所述第一输入特征图输入至所述第三卷积层和所述第四卷积层,进行逐层卷积操作,对所述第三卷积层和所述第五卷积层最后一次卷积操作的结果进行融合处理,得到所述全局图像特征;
对所述第一激活结果、所述第二激活结果和所述全局图像特征进行融合处理,得到当前卷积模块输出的特征图,输出最后一个卷积模块输出的特征图,作为所述第二特征图。
在一些实施例中,所述特征传播网络包含若干个顺次连接的残差模块;
所述基于所述特征传播网络,对所述第二特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播操作,得到第三特征图,包括:
构造目标照明方向向量;所述目标照明方向向量包含相机方向向量、光线方向向量以及相机方向和光线方向之间的角平分线方向向量;
对所述目标照明方向向量进行升采样处理,得到升采样向量;
将所述升采样向量和第二输入特征图输入至所述残差模块,在所述残差模块中进行残差预测处理,得到所述残差模块输出的残差预测向量;所述第二输入特征图为所述第二特征图或前一个残差模块输出的特征图;
将所述残差预测向量和一所述卷积模块输出的特征图进行跳跃连接处理,得到当前残差模块输出的特征图,输出最后一个残差模块输出的特征图,作为所述第三特征图。
在一些实施例中,所述高光感知模型还包括鉴别器;
所述图像重新照明方法,还包括:
基于所述鉴别器,对所述原始材质图像和所述重新照明图像进行材质相似度鉴别处理,输出所述原始材质图像和所述重新照明图像的材质相似度预测结果。
本申请实施例还提供一种模型训练方法,包括:
获取样本材质图像和参考图像,获取样本感知模型;所述样本感知模型包括编码器、高光感知网络、特征传播网络和解码器;
基于所述编码器,对所述样本材质图像进行编码处理,得到第一样本特征图;
基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二样本特征图;
基于所述特征传播网络,对所述第二特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播操作,得到第三样本特征图;
基于所述解码器,对所述第三样本特征图进行解码处理,生成预测图像;
使用所述样本材质图像、所述预测图像和所述参考图像对所述样本感知模型进行训练,得到高光感知模型。
在一些实施例中,所述使用所述样本材质图像、所述参考图像和所述预测图像对所述样本感知模型进行训练,得到高光感知模型,包括:
基于所述参考图像与所述预测图像,确定模型损失信息;所述模型损失信息用于表征所述参考图像与所述预测图像之间的匹配程度;
基于所述模型损失信息调整所述样本感知模型的权重参数,在所述模型损失信息符合结束条件时,得到高光感知模型;
所述模型损失信息的计算公式为:
,
其中,L0为模型损失信息,λdata、λper和λdis均为损失权重系数,Ldata为数据损失信息,Lper为感知损失信息,Ldis为鉴别器损失信息;
所述感知损失信息的计算公式为:
,
,
,
其中,Lfeat为特征重建损失信息,Lstyle为风格重建损失信息,为样本感知模型的第i层输出的特征图,Hi×Wi为该特征图的分辨率,Ci为该特征图的通道数,/>为该特征图的真实值,/>为该特征图的Ci×Ci维的Gram矩阵,/>为/>的真实值。
本申请实施例还提供一种图像重新照明装置,包括:
第一模块,用于获取原始材质图像,获取高光感知模型;所述高光感知模型包括编码器、高光感知网络、特征传播网络和解码器;
第二模块,用于基于所述编码器,对所述原始材质图像进行编码处理,得到第一特征图;
第三模块,用于基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二特征图;
第四模块,用于基于所述特征传播网络,对所述第二特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播,得到第三特征图;
第五模块,用于基于所述解码器,对所述第三特征图进行解码处理,生成重新照明图像。
本申请实施例还提供一种模型训练装置,包括:
第一训练模块,用于获取样本材质图像和参考图像,获取样本感知模型;所述样本感知模型包括编码器、高光感知网络、特征传播网络和解码器;
第二训练模块,用于基于所述编码器,对所述样本材质图像进行编码处理,得到第一样本特征图;
第三训练模块,用于基于所述高光感知网络,提取所述第一样本特征图中过度曝光区域所对应的局部图像特征以及所述第一样本特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二样本特征图;
第四训练模块,用于基于所述特征传播网络,对所述第二样本特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播,得到第三样本特征图;
第五训练模块,用于基于所述解码器,对所述第三样本特征图进行解码处理,生成预测图像;
第六训练模块,用于使用所述样本材质图像、所述预测图像和所述参考图像对所述样本感知模型进行训练,得到高光感知模型。
本申请实施例还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本申请的有益效果:利用高光感知网络提取对原始材质图像编码得到的第一特征图中过度曝光区域的局部图像特征和材质图像的全局图像特征,融合局部图像特征和全局图像特征,得到第二特征图,然后利用特征传播网络对第二特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播操作,得到第三特征图,最后对第三特征图进行解码处理,从而生成重新照明图像。由于本申请实施例是在编码器-解码器网络架构进行学习和预测,能够有效地捕捉原始材质图像的材质特征,结合高光感知网络和特征传播网络,构建高光感知网络和特征传播网络之间的特征传播,以及在目标照明方向的维度上进行残差预测处理,可以更好的学习和提取过度曝光区域的图像特征,减少数据损失,使目标照明方向作为可学习的特征,能够实时改变目标照明方向,可生成在动态照明环境下的重新照明图像,无需复杂的计算过程,降低生成重新照明结果的计算量,在挑战性材质和不在训练集中的材质上具有更好的泛化能力,扩展了生成重新照明结果的适用条件。
附图说明
图1是本申请实施例提供的图像重新照明方法的一个可选的流程图。
图2是本申请实施例提供在步骤S102之前的方法的流程图。
图3是本申请实施例提供的步骤S103的具体方法的流程图。
图4是本申请实施例提供的步骤S104的具体方法的流程图。
图5是本申请实施例提供的模型训练方法的一个可选的流程图。
图6是本申请实施例提供的图像重新照明装置的一个可选的结构示意图。
图7是本申请实施例提供的模型训练装置的一个可选的结构示意图。
图8是本申请实施例提供的电子设备的硬件结构示意图。
图9是本申请本申请实施例提供的高光感知模型的一个可选的结构示意图。
图10是本申请本申请实施例提供的卷积模块的一个可选的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和机器学习(Machine Learning,ML)。
计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。在本申请中,即是将原始材质图像进行重新照明处理,生成在动态照明下的重新照明图像。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。在本申请中,具体的技术手段涉及机器学习中的卷积神经网络和残差网络等技术。
重新照明是指从受控照明条件下的一组输入照片中直接推断出在不同入射光照下物体视觉外观的变化情况。在计算机图形学中,重新照明是指从给定的输入图像中生成具有不同光照条件的输出图像。通过重新照明,可以改变物体的阴影、高光和反射等视觉效果,从而实现对物体外观的控制和调整。
相关技术中,对图片进行重新照明处理的方法包括通过路径追踪计算出材质纹理的重照明结果以及使用神经网络模型生成SVBRDF参数,然后对SVBRDF参数进行估计和渲染,进而的得到重照明结果。然而,前者需要进行大量计算,后者将生成SVBRDF参数作为中间步骤,然后进行估计和渲染的过程增加了计算复杂度、时间成本和转换损失,同时,对于具有挑战性的材质或不在训练集中的材质的转换效果不理想,无法处理曲面上的材质映射,只能处理平面材质,以及无法实现单个像素的独立重新照明,不适用于基于光线追踪的渲染系统。
基于此,本申请实施例提供一种图像重新照明方法、模型训练方法、装置、设备及介质,旨在降低生成重新照明结果的计算量以及扩展生成重新照明结果的适用条件。
请参阅图1,图1是本申请实施例提供的图像重新照明方法的一个可选的流程图。在本申请的一些实施例中,图1中的方法具体可以包括但不限于步骤S101至步骤S105,下面结合图1对这五个步骤进行详细介绍。
步骤S101,获取原始材质图像,获取高光感知模型。
可以理解的是,原始材质图像是指包含某种物体表面材质信息的图片,例如,材质可以是树皮、玉石或砖墙,若原始材质图像中包含的是表面光滑的材质且存在一个固定光源对该材质进行照射,则原始材质图像中材质的各个位置处于不同程度的曝光,呈现出不同的曝光视觉效果(例如,高光或阴影)。
请参阅图9,图是本申请实施例提供的高光感知模型的一个可选的结构示意图。高光感知模型包括编码器、高光感知网络、特征传播网络和解码器。高光感知模型可以学习输入的原始材质图像中高光区域的图像特征,对原始材质图像进行重新照明处理,生成重新照明图像。
其中,高光感知模型是由样本图像以及样本图像所对应的参考图像训练样本感知模型后得到的。样本图像的本质即使上述的原始材质图像,参考图像是样本图像所对应的真实重新照明图像,参考图像可以是通过训练好的其他预测模型对样本图像进行预测得到的,又或者是通过图像采集器件采集在动态光源对样本图像中的材质进行照射的图像信息得到的。
下面结合步骤S102至步骤S105,对高光感知模型进行详细说明。
步骤S102,基于编码器,对原始材质图像进行编码处理,得到第一特征图。
在一些实施例中,编码器可以是采用残差网络结构,具有若干个顺次连接的卷积层,任意两个卷积层之间可以设置残差连接来进行特征传播,残差连接是由前面的卷积层的输出端指向后面的卷积层的输出端,卷积层的卷积核的大小为7×7,原始材质图像的通道数量为4,分别为R、G、B和Alpha,最后一个卷积层输出第一特征图,第一特征图的通道数量为64。
具体的,将原始材质图像输入至编码器,在编码器中,前一个卷积层的输出特征图作为后一个卷积层的输入特征图,逐层对原始材质图像进行卷积和激活操作并通过残差连接进行特征传播,从而通过深层卷积提取原始材质图像的深层特征,对最后一个卷积层的输出进行最大池化处理,得到第一特征图。
步骤S103,基于高光感知网络,提取第一特征图中过度曝光区域所对应的局部图像特征以及第一特征图的全局图像特征,对局部图像特征和全局图像特征进行融合处理,得到第二特征图。
在一些实施例中,高光感知网络可以是由若干个顺次连接的卷积模块构成,前一个卷积模块的输出作为后一个卷积模块的输入,每个卷积模块由至少两个卷积层构成,各卷积模块通过深层卷积提取第一特征图中过度曝光区域所对应的局部图像特征以及全局图像特征,然后将局部图像特征和全局图像特征进行融合处理,以通过学习过度曝光区域的特征,从而将第一特征图中的过度曝光区域去除掉,减少镜面高光对漫反射的影响,生成第二特征图。
在卷积模块中,各卷积模块对第一特征图进行上采样处理,卷积模块的通道数沿信息传递方向递增。例如,请参阅图9,高光感知网络可以是由5个卷积模块构成,卷积模块的第一个卷积层的输出通道数分别为64、64、128、256和512,卷积模块的最后一个卷积层的输出通道数分别为64、128、256、512和1024。
具体的,将第一特征图输入至高光感知网络,在高光感知网络中,前一个卷积模块的输出特征图作为后一个卷积模块的输入特征图,在卷积模块中,将各个卷积层分设为局部分支和全局分支,卷积模块的输入特征图分别输入到局部分支和全局分支,局部分支的卷积层对输入特征图进行卷积和激活操作,提取输入特征图中各个过度曝光区域的特征,将提取得到各个过度曝光区域的特征进行融合,得到局部图像特征,全局分支的卷积层对输入特征图进行卷积操作,对输入特征图的全局信息进行特征提取,得到全局图像特征,提取得到的全局图像特征没有任何的空间信息,卷积模块将提取得到的局部图像特征和全局图像特征进行融合,得到卷积模块的输出特征图,最后一个卷积模块的输出特征图即为第二特征图。
步骤S104,基于特征传播网络,对第二特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播,得到第三特征图。
在一些实施例中,特征传播网络可以是采用残差网络结构,具有若干个顺次连接的残差模块,每个残差模块由至少两个卷积层构成,残差模块以目标照明方向作为条件输入,前一个残差模块的输出特征图作为后一个残差模块的输入特征图,逐层对输入的特征图进行残差预测处理,以预测在目标照明方向进行对特征图进行照明的情境下呈现的曝光效果,在残差预测处理的过程中,各残差模块分别与高光感知网络中的卷积模块进行残差连接,由高光感知网络中一卷积模块的输出端指向特征传播网络中一残差模块的输出端,卷积模块的输出特征图和残差模块的输出特征图进行融合,生成第三特征图。
在残差模块中,各残差模块对第二特征图进行下采样处理,残差模块的通道数沿信息传递方向递减。例如,请参阅图9,特征传播网络可以是由4个残差模块构成,残差模块的第一个卷积层的输出通道数分别为1024、512、256和128,残差模块的最后一个卷积层的输出通道数分别为512、256、256、128和64,每个卷积层的卷积核的大小为3×3。
具体的,将第二特征图输入至特征传播网络,在特征传播网络中,前一个残差模块的输出特征图作为后一个残差模块的输入特征图,在残差模块中,将输入特征图和目标照明方向进行融合,然后对融合目标照明方向的特征图进行逐层卷积和激活操作,以预测在融合目标照明方向后特征图中各个区域的曝光程度,得到残差模块的预测输出特征图,然后,将残差模块的预测输出特征图与高光感知网络中一卷积模块的输出特征图进行融合,得到残差模块的输出特征图,最后一个残差模块的输出特征图即为第三特征图。
步骤S105,基于解码器,对第三特征图进行解码处理,生成重新照明图像。
具体的,将第三特征图输入至解码器,在解码器中,将具有固定长度的第三特征图进行解码转换,通过逐层卷积和激活操作,对第三特征图进行降维,最后进行全连接操作,生成三维RGB图像,即生成对应的重新照明图像。
本申请实施例所示意的步骤S101至步骤S105,利用高光感知网络提取对原始材质图像编码得到的第一特征图中过度曝光区域的局部图像特征和材质图像的全局图像特征,融合局部图像特征和全局图像特征,得到第二特征图,然后利用特征传播网络对第二特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播操作,得到第三特征图,最后对第三特征图进行解码处理,从而生成重新照明图像。由于本申请实施例是在编码器-解码器网络架构进行学习和预测,能够有效地捕捉原始材质图像的材质特征,结合高光感知网络和特征传播网络,构建高光感知网络和特征传播网络之间的特征传播,以及在目标照明方向的维度上进行残差预测处理,可以更好的学习和提取过度曝光区域的图像特征,减少数据损失,使目标照明方向作为可学习的特征,能够实时改变目标照明方向,可生成在动态照明环境下的重新照明图像,无需复杂的计算过程,降低生成重新照明结果的计算量,在挑战性材质和不在训练集中的材质上具有更好的泛化能力,扩展了生成重新照明结果的适用条件。
请参阅图2,图2是本申请实施例提供在步骤S102之前的方法的流程图。在本申请的一些实施例中,在步骤S102之前具体还可以包括但不限于步骤S201至步骤S203,下面结合图2对这三个步骤进行详细介绍。
步骤S201,对原始图像进行重采样处理,得到重采样图像。
步骤S202,计算重采样图像的像素深度,得到像素深度信息。
步骤S203,将像素深度信息存储至重采样图像的透明度通道,以生成原始材质图像。
在一些实施例的步骤S201中,获取原始图像,对获取得到的原始图像重采样到分辨率大小为256×256,得到重采样图像。其中,原始图像为正上方观察并拍摄的平面材质样本的一张图片(俯视图),拍摄图像的视场角度值为28°,经过重采样处理,可以扩大重采样图像的视场角度值,从而得到一张256×256分辨率下的正常范围视场角度值的重采样图像。
在一些实施例的步骤S202中,计算重采样图像的像素深度,可以是通过相机参数计算得到,或者是可以通过神经网络得到,具体可参考现有技术提供的计算方法,本申请不进行详细说明。其中,像素深度是指存储每个像素所用的位数,也用它来度量图像的分辨率。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。
在一些实施例的步骤S203中,将像素深度信息存储至重采样图像的透明度通道,这样重采样图像的透明度通道的通道数为4个,分别为R、G、B和Alpha(透明度通道),分别表示存储红色、绿色、蓝色和像素深度。
请参阅图3,图3是本申请实施例提供的步骤S103的具体方法的流程图。在本申请的一些实施例中,步骤S103具体可以包括但不限于步骤S301至步骤S305,下面结合图3对这五个步骤进行详细介绍。
请参阅图10,图是本申请实施例提供的卷积模块的一个可选的结构示意图结构示意图。本实施例中,高光感知网络包括若干个顺次连接的卷积模块,卷积模块包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,第四卷积层和第五卷积层连接。
在高光感知网络中,第一个卷积模块接入编码器输出的第一特征图,前一个卷积模块输出的特征图作为后一个卷积模块输入的特征图,最后一个卷积模块输出的特征图经最大池化处理后得到第二特征图。
步骤S301,对第一输入特征图进行标准化处理,得到标准化特征图。
其中,第一输入特征图为第一特征图或前一个卷积模块输出的特征图。
具体的,计算第一特征图每个通道的平均值和标准差,再通过计算得到的平均值和标准差对第一输入特征图进行标准化处理,得到标准化特征图。通过使用标准化特征图,可以提高表现,加快训练速度,并有助于去除原始材质图像中的阴影。
更为具体的,第一输入特征图的表达式为:
,
其中,Xi为第i个第一输入特征图,第i个第一输入特征图作为第i个卷积模块的输入,H×W为第i个第一输入特征图的分辨率,C为第i个第一输入特征图的通道数;
第一输入特征图每个通道的平均值和标准差的计算公式为:
,
,
其中,μi为第i个第一输入特征图每个通道的平均值,σi为第i个第一输入特征图每个通道的标准差,为第i个第一输入特征图中第j个分辨率为H*W的图,j∈[0,c-1]。
标准化特征图的计算公式为:
,
其中,为第i个标准化特征图,ɛ为非零极小值。
步骤S302,将第一输入特征图输入至第一卷积层,进行逐层卷积操作,对第一卷积层最后一次卷积操作的结果进行激活处理,得到第一激活结果。
其中,第一激活结果表征第一输入特征图中各区域过度曝光的概率。
具体的,将第一输入特征图输入至第一卷积层,在第一卷积层中进行逐层卷积操作,得到Di=Xi*Wd,其中,Di为第一卷积层卷积操作的结果,Wd为第一卷积层的权重矩阵,第一卷积层最后一个隐层连接一个激活模块,该激活模块使用Sigmoid激活函数对第一卷积层最后一次卷积操作的结果进行激活处理,从而得到第一激活结果。在对高光感知网络训练过程中,通过使用Sigmoid激活函数,第一卷积层可以根据第一输入特征图中的过度曝光区域学习到一个形式自由的软遮罩,以便减少此过度曝光区域对特征的贡献。
步骤S303,将标准化特征图输入至第二卷积层,进行逐层卷积操作,对第二卷积层最后一次卷积操作的结果进行激活处理,得到第二激活结果。
其中,第二激活结果表征标准化特征图中各区域过度曝光的概率。
具体的,将第一输入特征图输入至第二卷积层,在第二卷积层中进行逐层卷积操作,得到,其中,Fi为第二卷积层卷积操作的结果,Wf为第二卷积层的权重矩阵,第二卷积层最后一个隐层连接一个激活模块,该激活模块使用LeakyReLU激活函数对第二卷积层最后一次卷积操作的结果进行激活处理,从而得到第二激活结果。在对高光感知网络训练过程中,可以在上述软遮罩的帮助下,更好地提取标准化特征图的局部图像特征。
步骤S304,将第一输入特征图输入至第三卷积层和第四卷积层,进行逐层卷积操作,对第三卷积层和第五卷积层最后一次卷积操作的结果进行融合处理,得到全局图像特征。
具体的,将第一输入特征图输入至第三卷积层和第四卷积层,第四卷积层输出的结果输入第五卷积层,第三卷积层、第四卷积层和第五卷积层分别对输入的特征图进行逐层卷积操作,用于提取第一输入特征图的全局特征信息,将第三卷积层和第五卷积层最后一次卷积操作的结果进行融合处理,从而得到全局图像特征p(Xi)。
步骤S305,对第一激活结果、第二激活结果和全局图像特征进行融合处理,得到当前卷积模块输出的特征图,输出最后一个卷积模块输出的特征图,作为第二特征图。
具体的,对第一激活结果、第二激活结果和全局图像特征进行融合处理,可以是计算第一激活结果和第二激活结果的克罗内克积,然后计算第一激活结果和第二激活结果的克罗内克积和全局图像特征的异或运算结果,得到当前卷积模块输出的特征图并输入至下一个卷积模块,即第i+1个第一输入特征图,该特征图可以表示为。当得到最后一个卷积模块输出的特征图时,该特征图即为第二特征图。
请参阅图4,图4是本申请实施例提供的步骤S104的具体方法的流程图。在本申请的一些实施例中,步骤S104具体可以包括但不限于步骤S401至步骤S404,下面结合图4对这四个步骤进行详细介绍。
本实施例中,特征传播网络包含若干个顺次连接的残差模块。
在特征传播网络中,第一个残差模块接入高光感知网络输出的第二特征图,前一个残差模块输出的特征图作为后一个残差模块输入的特征图,最后一个残差模块输出的特征图经最大池化处理后得到第三特征图。
步骤S401,构造目标照明方向向量。
其中,目标照明方向向量包含相机方向向量、光线方向向量以及相机方向和光线方向之间的角平分线方向向量。
具体的,相机方向向量、光线方向向量和角平分线方向向量分别具有3个方向,也就是说,目标照明方向向量总共具有9个方向,对应9个通道。
步骤S402,对目标照明方向向量进行升采样处理,得到升采样向量。
具体的,对目标照明方向向量进行若干次升采样处理,以得到若干个与残差模块的输入通道数相同的升采样向量。例如,请参阅图9,特征传播网络包含4个顺次连接的残差模块,各残差模块的输入通道数分别是1024、512、256和128,对目标照明方向向量进行若干次升采样处理后,得到4个升采样向量,各升采样向量的通道数分别是1024、512、256和128。
步骤S403,将升采样向量和第二输入特征图输入至残差模块,在残差模块中进行残差预测处理,得到残差模块输出的残差预测向量。
其中,第二输入特征图为第二特征图或前一个残差模块输出的特征图。
具体的,将升采样向量和第二输入特征图的特征向量进行相加,得到条件输入特征图,将条件输入特征图输入至残差模块,在残差模块的卷积层中进行逐层卷积操作和激活操作,得到残差模块输出的残差预测向量。
步骤S404,将残差预测向量和一卷积模块输出的特征图进行跳跃连接处理,得到当前残差模块输出的特征图,输出最后一个残差模块输出的特征图,作为第三特征图。
具体的,残差预测向量和一卷积模块输出的特征图进行跳跃连接处理,使残差预测向量与一卷积模块输出的特征图的特征向量进行相加,从而得到当前残差模块输出的特征图,例如,请参阅图9,第一个残差模块输出的残差预测向量与第四个卷积模块输出的特征图进行跳跃连接处理,得到第一个残差模块输出的特征图,第二个残差模块输出的残差预测向量与第三个卷积模块输出的特征图进行跳跃连接处理,得到第二个残差模块输出的特征图,第三个残差模块输出的残差预测向量与第二个卷积模块输出的特征图进行跳跃连接处理,得到第三个残差模块输出的特征图,第四个残差模块输出的残差预测向量与倒数第一个卷积模块输出的特征图进行跳跃连接处理,得到第三特征图。
当前残差模块输出的特征图输入至下一残差模块,在一个残差模块中进行残差预测处理,直至最后一个残差模块输出特征图,该特征图即为第三特征图。
在一些实施例中,高光感知模型还包括鉴别器,鉴别器设置于解码器的输出端,图像重新照明方法还包括:基于鉴别器,对原始材质图像和重新照明图像进行材质相似度鉴别处理,输出原始材质图像和重新照明图像的材质相似度预测结果。具体的,鉴别器采用全连接网络结构,用于鉴别重新照明图像与原始材质图像是否具有相同材质,鉴别器由若干层256*256特征图的神经网络构成,每层卷积核的大小为4×4,卷积步长未2,输出的通道数为8,使用LeakyReLU作为激活函数,鉴别器的末尾还设置有批归一化层。鉴别器所用的是INRIA SVBRDF数据集,其分辨率为256*256。
请参阅图5,图5是本申请实施例提供的模型训练方法的一个可选的流程图。在本申请的一些实施例中,图5中的方法具体可以包括但不限于步骤S501至步骤S506,下面结合图5对这六个步骤进行详细介绍。
步骤S501,获取样本材质图像和参考图像,获取样本感知模型。
其中,样本感知模型包括编码器、高光感知网络、特征传播网络和解码器。
步骤S502,基于编码器,对样本材质图像进行编码处理,得到第一样本特征图。
步骤S503,基于高光感知网络,提取第一样本特征图中过度曝光区域所对应的局部图像特征以及第一样本特征图的全局图像特征,对局部图像特征和全局图像特征进行融合处理,得到第二样本特征图。
步骤S504,基于特征传播网络,对第二样本特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播操作,得到第三样本特征图。
步骤S505,基于解码器,对第三样本特征图进行解码处理,生成预测图像。
步骤S506,使用样本材质图像、预测图像和参考图像对样本感知模型进行训练,得到高光感知模型。
可以理解的是,样本材质图像本质上是原始材质图像,样本材质图像和参考图像作为样本感知模型的训练素材,参考图像为样本材质图像所对应的重新照明图像,步骤S502至步骤S505的具体过程与上述步骤S102至步骤S105的具体过程实质相同,在此不再赘述。
在一些实施例中,使用所述样本材质图像、所述参考图像和所述预测图像对样本感知模型进行训练,得到高光感知模型,包括:
基于参考图像与预测图像,确定模型损失信息。
其中,模型损失信息用于表征参考图像与预测图像之间的匹配程度。
基于模型损失信息调整样本感知模型的权重参数,在模型损失信息符合结束条件时,得到高光感知模型。
模型损失信息的计算公式为:
,
其中,L0为模型损失信息,λdata、λper和λdis均为损失权重系数,Ldata为数据损失信息,Lper为感知损失信息,Ldis为鉴别器损失信息;
若样本感知模型没有鉴别器,则模型损失信息的计算公式为:
,
感知损失信息的计算公式为:
,
,
,
其中,Lfeat为特征重建损失信息,Lstyle为风格重建损失信息,为样本感知模型的第i层输出的特征图,Hi×Wi为该特征图的分辨率,Ci为该特征图的通道数,/>为该特征图的真实值,/>为该特征图的Ci×Ci维的Gram矩阵,/>为/>的真实值。
在一些实施例中,λdata=1,λper=0.01,λdis=0.025。
请参阅图6,本申请实施例还提供一种图像重新照明装置,可以实现上述图像重新照明方法,该装置包括:
第一模块601,用于获取原始材质图像,获取高光感知模型;高光感知模型包括编码器、高光感知网络、特征传播网络和解码器;
第二模块602,用于基于编码器,对原始材质图像进行编码处理,得到第一特征图;
第三模块603,用于基于高光感知网络,提取第一特征图中过度曝光区域所对应的局部图像特征以及第一特征图的全局图像特征,对局部图像特征和全局图像特征进行融合处理,得到第二特征图;
第四模块604,用于基于特征传播网络,对第二特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播,得到第三特征图;
第五模块605,用于基于解码器,对第三特征图进行解码处理,生成重新照明图像。
该图像重新照明装置的具体实施方式与上述图像重新照明方法的具体实施例基本相同,在此不再赘述。
请参阅图7,本申请实施例还提供一种模型训练装置,可以实现上述模型训练方法,该装置包括:
第一训练模块701,用于获取样本材质图像和参考图像,获取样本感知模型;样本感知模型包括编码器、高光感知网络、特征传播网络和解码器;
第二训练模块702,用于基于编码器,对样本材质图像进行编码处理,得到第一样本特征图;
第三训练模块703,用于基于高光感知网络,提取第一样本特征图中过度曝光区域所对应的局部图像特征以及第一样本特征图的全局图像特征,对局部图像特征和全局图像特征进行融合处理,得到第二样本特征图;
第四训练模块704,用于基于特征传播网络,对第二样本特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播,得到第三样本特征图;
第五训练模块705,用于基于解码器,对第三样本特征图进行解码处理,生成预测图像;
第六训练模块706,用于使用样本材质图像、预测图像和参考图像对样本感知模型进行训练,得到高光感知模型。
该模型训练装置的具体实施方式与上述模型训练方法的具体实施例基本相同,在此不再赘述。
图8是根据一示例性实施例示出的一种电子设备的框图。
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840等。
其中,存储单元存储有程序代码,程序代码可以被处理单元810执行,使得处理单元810执行本说明书上述审计报告生成方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,处理单元810可以执行如图1、图2、图3和图4中所示的步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备800’(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器860可以通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述审计报告生成方法。
本申请实施例提供的图像重新照明方法、模型训练方法、装置、设备及介质,利用高光感知网络提取对原始材质图像编码得到的第一特征图中过度曝光区域的局部图像特征和材质图像的全局图像特征,融合局部图像特征和全局图像特征,得到第二特征图,然后利用特征传播网络对第二特征图在目标照明方向的维度上进行残差预测处理,在残差预测处理的过程中与高光感知网络进行特征传播操作,得到第三特征图,最后对第三特征图进行解码处理,从而生成重新照明图像。由于本申请实施例是在编码器-解码器网络架构进行学习和预测,能够有效地捕捉原始材质图像的材质特征,结合高光感知网络和特征传播网络,构建高光感知网络和特征传播网络之间的特征传播,以及在目标照明方向的维度上进行残差预测处理,可以更好的学习和提取过度曝光区域的图像特征,减少数据损失,使目标照明方向作为可学习的特征,能够实时改变目标照明方向,可生成在动态照明环境下的重新照明图像,无需复杂的计算过程,降低生成重新照明结果的计算量,在挑战性材质和不在训练集中的材质上具有更好的泛化能力,扩展了生成重新照明结果的适用条件。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种图像重新照明方法,其特征在于,包括:
获取原始材质图像,获取高光感知模型;所述高光感知模型包括编码器、高光感知网络、特征传播网络和解码器;
基于所述编码器,对所述原始材质图像进行编码处理,得到第一特征图;
基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二特征图;
基于所述特征传播网络,对所述第二特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播操作,得到第三特征图;
基于所述解码器,对所述第三特征图进行解码处理,生成重新照明图像;
所述高光感知网络包括若干个顺次连接的卷积模块,所述卷积模块包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,所述第四卷积层和所述第五卷积层连接;
所述基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二特征图,包括:
对第一输入特征图进行标准化处理,得到标准化特征图;所述第一输入特征图为所述第一特征图或前一个卷积模块输出的特征图;
将所述第一输入特征图输入至所述第一卷积层,进行逐层卷积操作,对所述第一卷积层最后一次卷积操作的结果进行激活处理,得到第一激活结果;所述第一激活结果表征所述第一输入特征图中各区域过度曝光的概率;
将所述标准化特征图输入至所述第二卷积层,进行逐层卷积操作,对所述第二卷积层最后一次卷积操作的结果进行激活处理,得到第二激活结果;所述第二激活结果表征所述标准化特征图中各区域过度曝光的概率;
将所述第一输入特征图输入至所述第三卷积层和所述第四卷积层,进行逐层卷积操作,对所述第三卷积层和所述第五卷积层最后一次卷积操作的结果进行融合处理,得到所述全局图像特征;
对所述第一激活结果、所述第二激活结果和所述全局图像特征进行融合处理,得到当前卷积模块输出的特征图,输出最后一个卷积模块输出的特征图,作为所述第二特征图。
2.根据权利要求1所述的图像重新照明方法,其特征在于,在所述基于所述编码器,对所述原始材质图像进行编码处理,得到第一特征图之前,还包括:
对原始图像进行重采样处理,得到重采样图像;
计算所述重采样图像的像素深度,得到像素深度信息;
将所述像素深度信息存储至所述重采样图像的透明度通道,以生成所述原始材质图像。
3.根据权利要求1所述的图像重新照明方法,其特征在于,所述特征传播网络包含若干个顺次连接的残差模块;
所述基于所述特征传播网络,对所述第二特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播操作,得到第三特征图,包括:
构造目标照明方向向量;所述目标照明方向向量包含相机方向向量、光线方向向量以及相机方向和光线方向之间的角平分线方向向量;
对所述目标照明方向向量进行升采样处理,得到升采样向量;
将所述升采样向量和第二输入特征图输入至所述残差模块,在所述残差模块中进行残差预测处理,得到所述残差模块输出的残差预测向量;所述第二输入特征图为所述第二特征图或前一个残差模块输出的特征图;
将所述残差预测向量和一所述卷积模块输出的特征图进行跳跃连接处理,得到当前残差模块输出的特征图,输出最后一个残差模块输出的特征图,作为所述第三特征图。
4.根据权利要求1所述的图像重新照明方法,其特征在于,所述高光感知模型还包括鉴别器;
所述图像重新照明方法,还包括:
基于所述鉴别器,对所述原始材质图像和所述重新照明图像进行材质相似度鉴别处理,输出所述原始材质图像和所述重新照明图像的材质相似度预测结果。
5.一种模型训练方法,其特征在于,包括:
获取样本材质图像和参考图像,获取样本感知模型;所述样本感知模型包括编码器、高光感知网络、特征传播网络和解码器;
基于所述编码器,对所述样本材质图像进行编码处理,得到第一样本特征图;
基于所述高光感知网络,提取所述第一样本特征图中过度曝光区域所对应的局部图像特征以及所述第一样本特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二样本特征图;
基于所述特征传播网络,对所述第二样本特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播操作,得到第三样本特征图;
基于所述解码器,对所述第三样本特征图进行解码处理,生成预测图像;
使用所述样本材质图像、所述预测图像和所述参考图像对所述样本感知模型进行训练,得到高光感知模型;
所述高光感知网络包括若干个顺次连接的卷积模块,所述卷积模块包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,所述第四卷积层和所述第五卷积层连接;
所述基于所述高光感知网络,提取所述第一样本特征图中过度曝光区域所对应的局部图像特征以及所述第一样本特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二样本特征图,包括:
对第一输入特征图进行标准化处理,得到标准化特征图;所述第一输入特征图为所述第一样本特征图或前一个卷积模块输出的特征图;
将所述第一输入特征图输入至所述第一卷积层,进行逐层卷积操作,对所述第一卷积层最后一次卷积操作的结果进行激活处理,得到第一激活结果;所述第一激活结果表征所述第一输入特征图中各区域过度曝光的概率;
将所述标准化特征图输入至所述第二卷积层,进行逐层卷积操作,对所述第二卷积层最后一次卷积操作的结果进行激活处理,得到第二激活结果;所述第二激活结果表征所述标准化特征图中各区域过度曝光的概率;
将所述第一输入特征图输入至所述第三卷积层和所述第四卷积层,进行逐层卷积操作,对所述第三卷积层和所述第五卷积层最后一次卷积操作的结果进行融合处理,得到所述全局图像特征;
对所述第一激活结果、所述第二激活结果和所述全局图像特征进行融合处理,得到当前卷积模块输出的特征图,输出最后一个卷积模块输出的特征图,作为所述第二样本特征图。
6.根据权利要求5所述的模型训练方法,其特征在于,所述使用所述样本材质图像、所述参考图像和所述预测图像对所述样本感知模型进行训练,得到高光感知模型,包括:
基于所述参考图像与所述预测图像,确定模型损失信息;所述模型损失信息用于表征所述参考图像与所述预测图像之间的匹配程度;
基于所述模型损失信息调整所述样本感知模型的权重参数,在所述模型损失信息符合结束条件时,得到高光感知模型;
所述模型损失信息的计算公式为:
,
其中,L0为模型损失信息,λdata、λper和λdis均为损失权重系数,Ldata为数据损失信息,Lper为感知损失信息,Ldis为鉴别器损失信息;
所述感知损失信息的计算公式为:
,
,
,
其中,Lfeat为特征重建损失信息,Lstyle为风格重建损失信息,为样本感知模型的第i层输出的特征图,Hi×Wi为该特征图的分辨率,Ci为该特征图的通道数,/>为该特征图的真实值,/>为该特征图的Ci×Ci维的Gram矩阵,/>为/>的真实值。
7.一种图像重新照明装置,其特征在于,包括:
第一模块,用于获取原始材质图像,获取高光感知模型;所述高光感知模型包括编码器、高光感知网络、特征传播网络和解码器;
第二模块,用于基于所述编码器,对所述原始材质图像进行编码处理,得到第一特征图;
第三模块,用于基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二特征图;
第四模块,用于基于所述特征传播网络,对所述第二特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播,得到第三特征图;
第五模块,用于基于所述解码器,对所述第三特征图进行解码处理,生成重新照明图像;
所述高光感知网络包括若干个顺次连接的卷积模块,所述卷积模块包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,所述第四卷积层和所述第五卷积层连接;
所述基于所述高光感知网络,提取所述第一特征图中过度曝光区域所对应的局部图像特征以及所述第一特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二特征图,包括:
对第一输入特征图进行标准化处理,得到标准化特征图;所述第一输入特征图为所述第一特征图或前一个卷积模块输出的特征图;
将所述第一输入特征图输入至所述第一卷积层,进行逐层卷积操作,对所述第一卷积层最后一次卷积操作的结果进行激活处理,得到第一激活结果;所述第一激活结果表征所述第一输入特征图中各区域过度曝光的概率;
将所述标准化特征图输入至所述第二卷积层,进行逐层卷积操作,对所述第二卷积层最后一次卷积操作的结果进行激活处理,得到第二激活结果;所述第二激活结果表征所述标准化特征图中各区域过度曝光的概率;
将所述第一输入特征图输入至所述第三卷积层和所述第四卷积层,进行逐层卷积操作,对所述第三卷积层和所述第五卷积层最后一次卷积操作的结果进行融合处理,得到所述全局图像特征;
对所述第一激活结果、所述第二激活结果和所述全局图像特征进行融合处理,得到当前卷积模块输出的特征图,输出最后一个卷积模块输出的特征图,作为所述第二特征图。
8.一种模型训练装置,其特征在于,包括:
第一训练模块,用于获取样本材质图像和参考图像,获取样本感知模型;所述样本感知模型包括编码器、高光感知网络、特征传播网络和解码器;
第二训练模块,用于基于所述编码器,对所述样本材质图像进行编码处理,得到第一样本特征图;
第三训练模块,用于基于所述高光感知网络,提取所述第一样本特征图中过度曝光区域所对应的局部图像特征以及所述第一样本特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二样本特征图;
第四训练模块,用于基于所述特征传播网络,对所述第二样本特征图在目标照明方向的维度上进行残差预测处理,在所述残差预测处理的过程中与所述高光感知网络进行特征传播,得到第三样本特征图;
第五训练模块,用于基于所述解码器,对所述第三样本特征图进行解码处理,生成预测图像;
第六训练模块,用于使用所述样本材质图像、所述预测图像和所述参考图像对所述样本感知模型进行训练,得到高光感知模型;
所述高光感知网络包括若干个顺次连接的卷积模块,所述卷积模块包括第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,所述第四卷积层和所述第五卷积层连接;
所述基于所述高光感知网络,提取所述第一样本特征图中过度曝光区域所对应的局部图像特征以及所述第一样本特征图的全局图像特征,对所述局部图像特征和所述全局图像特征进行融合处理,得到第二样本特征图,包括:
对第一输入特征图进行标准化处理,得到标准化特征图;所述第一输入特征图为所述第一样本特征图或前一个卷积模块输出的特征图;
将所述第一输入特征图输入至所述第一卷积层,进行逐层卷积操作,对所述第一卷积层最后一次卷积操作的结果进行激活处理,得到第一激活结果;所述第一激活结果表征所述第一输入特征图中各区域过度曝光的概率;
将所述标准化特征图输入至所述第二卷积层,进行逐层卷积操作,对所述第二卷积层最后一次卷积操作的结果进行激活处理,得到第二激活结果;所述第二激活结果表征所述标准化特征图中各区域过度曝光的概率;
将所述第一输入特征图输入至所述第三卷积层和所述第四卷积层,进行逐层卷积操作,对所述第三卷积层和所述第五卷积层最后一次卷积操作的结果进行融合处理,得到所述全局图像特征;
对所述第一激活结果、所述第二激活结果和所述全局图像特征进行融合处理,得到当前卷积模块输出的特征图,输出最后一个卷积模块输出的特征图,作为所述第二样本特征图。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311535543.9A CN117252787B (zh) | 2023-11-17 | 2023-11-17 | 图像重新照明方法、模型训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311535543.9A CN117252787B (zh) | 2023-11-17 | 2023-11-17 | 图像重新照明方法、模型训练方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252787A CN117252787A (zh) | 2023-12-19 |
CN117252787B true CN117252787B (zh) | 2024-02-02 |
Family
ID=89129853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311535543.9A Active CN117252787B (zh) | 2023-11-17 | 2023-11-17 | 图像重新照明方法、模型训练方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252787B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111194554A (zh) * | 2017-10-05 | 2020-05-22 | 交互数字Vc控股公司 | 基于照明补偿的视频编码和解码的方法和装置 |
CN113661496A (zh) * | 2019-05-23 | 2021-11-16 | 谷歌有限责任公司 | 用于使用预测深反射场重新照明图像的方法、系统以及介质 |
CN114581318A (zh) * | 2022-01-24 | 2022-06-03 | 广东省科学院智能制造研究所 | 一种低照明度图像增强方法及系统 |
CN114863009A (zh) * | 2022-05-10 | 2022-08-05 | 深延科技(北京)有限公司 | 图像重新照明方法及相关装置 |
CN115100337A (zh) * | 2022-05-31 | 2022-09-23 | 北京邮电大学 | 一种基于卷积神经网络的全身人像视频重照明方法和装置 |
CN115311730A (zh) * | 2022-09-23 | 2022-11-08 | 北京智源人工智能研究院 | 一种人脸关键点的检测方法、系统和电子设备 |
CN115601549A (zh) * | 2022-12-07 | 2023-01-13 | 山东锋士信息技术有限公司(Cn) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 |
CN115719399A (zh) * | 2022-09-30 | 2023-02-28 | 中国人民解放军国防科技大学 | 一种基于单张图片的物体光照编辑方法、系统及介质 |
CN115880225A (zh) * | 2022-11-10 | 2023-03-31 | 北京工业大学 | 一种基于多尺度注意力机制的动态光照人脸图像质量增强方法 |
CN116324899A (zh) * | 2020-09-30 | 2023-06-23 | 谷歌有限责任公司 | 基于机器学习模型的增强的照片重新照明 |
CN116664448A (zh) * | 2023-07-24 | 2023-08-29 | 南京邮电大学 | 一种基于图像去雾的中高能见度计算方法及计算系统 |
CN116883578A (zh) * | 2023-09-06 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及相关设备 |
CN116977343A (zh) * | 2022-10-31 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及程序产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11380023B2 (en) * | 2020-03-18 | 2022-07-05 | Adobe Inc. | End-to-end relighting of a foreground object of an image |
CN112766199B (zh) * | 2021-01-26 | 2022-04-29 | 武汉大学 | 基于自适应多尺度特征提取模型的高光谱图像分类方法 |
CN113592998A (zh) * | 2021-06-29 | 2021-11-02 | 北京百度网讯科技有限公司 | 重光照图像的生成方法、装置及电子设备 |
-
2023
- 2023-11-17 CN CN202311535543.9A patent/CN117252787B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111194554A (zh) * | 2017-10-05 | 2020-05-22 | 交互数字Vc控股公司 | 基于照明补偿的视频编码和解码的方法和装置 |
CN113661496A (zh) * | 2019-05-23 | 2021-11-16 | 谷歌有限责任公司 | 用于使用预测深反射场重新照明图像的方法、系统以及介质 |
CN116324899A (zh) * | 2020-09-30 | 2023-06-23 | 谷歌有限责任公司 | 基于机器学习模型的增强的照片重新照明 |
CN114581318A (zh) * | 2022-01-24 | 2022-06-03 | 广东省科学院智能制造研究所 | 一种低照明度图像增强方法及系统 |
CN114863009A (zh) * | 2022-05-10 | 2022-08-05 | 深延科技(北京)有限公司 | 图像重新照明方法及相关装置 |
CN115100337A (zh) * | 2022-05-31 | 2022-09-23 | 北京邮电大学 | 一种基于卷积神经网络的全身人像视频重照明方法和装置 |
CN115311730A (zh) * | 2022-09-23 | 2022-11-08 | 北京智源人工智能研究院 | 一种人脸关键点的检测方法、系统和电子设备 |
CN115719399A (zh) * | 2022-09-30 | 2023-02-28 | 中国人民解放军国防科技大学 | 一种基于单张图片的物体光照编辑方法、系统及介质 |
CN116977343A (zh) * | 2022-10-31 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及程序产品 |
CN115880225A (zh) * | 2022-11-10 | 2023-03-31 | 北京工业大学 | 一种基于多尺度注意力机制的动态光照人脸图像质量增强方法 |
CN115601549A (zh) * | 2022-12-07 | 2023-01-13 | 山东锋士信息技术有限公司(Cn) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 |
CN116664448A (zh) * | 2023-07-24 | 2023-08-29 | 南京邮电大学 | 一种基于图像去雾的中高能见度计算方法及计算系统 |
CN116883578A (zh) * | 2023-09-06 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及相关设备 |
Non-Patent Citations (5)
Title |
---|
NTIRE 2021 Depth Guided Image Relighting Challenge;M. El Helou et al.;2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW);566-577 * |
Z. -L. Zhu,et al..Designing an Illumination-Aware Network for Deep Image Relighting. IEEE Transactions on Image Processing.2022,5396-5411. * |
关于三维影像制作中全局照明渲染的研究;郑海滨;;科技风(第23期);41-47 * |
分层特征融合注意力网络图像超分辨率重建;雷鹏程;刘丛;唐坚刚;彭敦陆;;中国图象图形学报(第09期);59-72 * |
多图像融合Retinex用于弱光图像增强;冯维;吴贵铭;赵大兴;刘红帝;;光学精密工程(第03期);227-235 * |
Also Published As
Publication number | Publication date |
---|---|
CN117252787A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11775829B2 (en) | Generative adversarial neural network assisted video reconstruction | |
CN113822969A (zh) | 训练神经辐射场模型和人脸生成方法、装置及服务器 | |
CN113901894A (zh) | 一种视频生成方法、装置、服务器及存储介质 | |
US11967024B2 (en) | Extracting triangular 3-D models, materials, and lighting from images | |
US11610370B2 (en) | Joint shape and appearance optimization through topology sampling | |
CN116630514A (zh) | 图像处理方法、装置、计算机可读存储介质及电子设备 | |
CN112115744B (zh) | 点云数据的处理方法及装置、计算机存储介质、电子设备 | |
CN117218300B (zh) | 三维模型的构建方法、三维构建模型的训练方法及装置 | |
CN114529785A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
US11475549B1 (en) | High dynamic range image generation from tone mapped standard dynamic range images | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
CN117499711A (zh) | 视频生成模型的训练方法、装置、设备及存储介质 | |
CN116152419B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN117392293A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115953524A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
US20230298243A1 (en) | 3d digital avatar generation from a single or few portrait images | |
CN116957921A (zh) | 图像渲染方法、装置、设备及存储介质 | |
CN117252787B (zh) | 图像重新照明方法、模型训练方法、装置、设备及介质 | |
Han | Texture image compression algorithm based on self-organizing neural network | |
CN114333069B (zh) | 对象的姿态处理方法、装置、设备及存储介质 | |
Guan et al. | Learning neural implicit representations with surface signal parameterizations | |
CN117333609B (zh) | 图像渲染方法、网络的训练方法、设备及介质 | |
CN116310660B (zh) | 一种增强样本的生成方法及装置 | |
CN116862803B (zh) | 逆转图像重建方法、装置、设备及可读存储介质 | |
CN116704588B (zh) | 面部图像的替换方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |