CN111292408B - 一种基于注意力机制的阴影生成方法 - Google Patents

一种基于注意力机制的阴影生成方法 Download PDF

Info

Publication number
CN111292408B
CN111292408B CN202010070261.6A CN202010070261A CN111292408B CN 111292408 B CN111292408 B CN 111292408B CN 202010070261 A CN202010070261 A CN 202010070261A CN 111292408 B CN111292408 B CN 111292408B
Authority
CN
China
Prior art keywords
shadow
image
virtual object
attention
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010070261.6A
Other languages
English (en)
Other versions
CN111292408A (zh
Inventor
肖春霞
刘大全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010070261.6A priority Critical patent/CN111292408B/zh
Publication of CN111292408A publication Critical patent/CN111292408A/zh
Application granted granted Critical
Publication of CN111292408B publication Critical patent/CN111292408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/60Shadow generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于注意力机制的阴影生成方法,首先对合成图像中的背景真实环境使用注意力机制提取有助于虚拟物体阴影生成推断的真实阴影与真实阴影的投射物等线索特征,然后使用深度神经网络模型生成虚拟物体的阴影,最后使用生成对抗训练优化整个模型。本发明有如下优点:能直接生成虚拟物体的阴影而不需要繁琐而困难的逆渲染过程;注意力机制提取线索特征与图像特征融合能生成合理的虚拟物体阴影;使用生成对抗方式进一步优化训练模型能够保留更好的细节。

Description

一种基于注意力机制的阴影生成方法
技术领域
本发明属于计算图形学和计算机视觉领域,涉及一种阴影生成方法,尤其是一种基于注意力机制的阴影生成方法。
背景技术
增强现实技术将计算机生成的虚拟信息如图片、文字、三维物体或声音等无缝地与真实环境进行叠加融合。近年来,随着科技的飞速发展,硬件的计算能力大幅度提升,这使得增强现实技术在娱乐、教育与医疗等领域具有巨大的需求量。增强现实技术尽可能让合成图像或视频具有较强的真实感,其中光照一致性体现在合成图像中虚拟物体的阴影、明暗等方面,因此,虚拟物体的阴影生成是提升合成图像真实感的重要技术。但是现有方法通常使用逆渲染的方式估计出场景的三维几何信息、表面反射率、完整光照条件等信息,再通过这些信息完成三维物体的渲染得到包含虚拟物体阴影的合成图像。通过这样的方式生成虚拟物体的阴影需要依赖逆渲染过程中每一步的结果,但是在现有条件下,各个步骤均难以实现准确的估计,除此之外各个步骤的错误会逐步积累从而导致渲染得到的三维物体的阴影不合理。另一方面,如果采用现有逆渲染方式生成虚拟物体阴影的方式,在获取到以上信息之后依然需要大量的人机交互,比如光照方位角调整、光照参数设置、虚拟物体的摆放或虚拟平面设置等,这对于增强现实应用而言成本太高。
发明内容
本发明的目的是克服上述现有方法存在的缺陷,提供了一种基于注意力机制的直接为合成图像生成虚拟物体阴影的方法,利用合成图像中的真实环境背景信息使用注意力机制提取合成图像中真实阴影与产生真实阴影的遮挡物等线索信息的特征,然后使用深度神经网络模型生成虚拟物体的阴影,最后使用生成对抗训练优化整个模型。为了方便叙述,下文将“产生真实阴影的遮挡物”简单地表述为“投射物”。
本发明的上述技术问题主要是通过以下技术方案得以解决的,一种基于注意力机制的阴影生成方法,包括以下步骤:
步骤1,拍摄用于构建数据集的原始图像数据并标定拍摄时的相机参数与光照条件,然后标注出原始图像中的真实阴影掩码图像与对应投射物的掩码图像;
步骤2,根据步骤1获取的相机参数与光照信息,以原始图像为背景渲染虚拟3D模型,得到同一条件下的有虚拟阴影合成图像、无虚拟阴影合成图像以及虚拟物体的掩码图像,这些图像与步骤1得到的掩码图像合在一起构成数据集。数据集划分为训练集与测试集;
步骤3,采用ResNet34模型的部分降采样模块与两个结构完全相同的插值-卷积上采样模块作为注意力模型,并用步骤2获取的数据子集进行参数预训练,然后用预训练的注意力模型提取出输入合成图像中真实阴影与相应投射物的注意力特征;
步骤4,采用ResNet34模型的部分降采样模块提取输入合成图像的全局特征,将步骤3提取到的注意力特征与图像特征进行特征融合,得到虚拟物体阴影生成的线索特征,然后将线索特征与虚拟物体掩码输入插值-卷积上采样模块得到虚拟物体阴影的残差图像,与输入图像相加得到最终的包含虚拟物体阴影的合成图像;
步骤5,利用步骤2获取的训练集,以监督学习的方式与条件对抗生成网络的形式训练步骤4的网络模型学习输入无虚拟物体阴影合成图像到输出有虚拟物体阴影合成图像的映射关系。
进一步的,步骤1中描述的相机参数为:相机中心偏移、焦距以及相机相对于世界坐标系的旋转与平移矩阵。步骤1中描述的光照信息分为两种:室内条件下的光照信息为产生最明显阴影的单个光源的几何中心位置坐标;室外条件下的光照信息为太阳光的方向向量坐标。步骤1基于特殊黑白标记物建立笛卡尔坐标系,相机的旋转与平移通过特殊黑白标记物的检测与识别完成,光照信息在特殊黑白标记物所定义的笛卡尔坐标系下测量得到。步骤1中描述的原始图像用焦距固定为668像素的Logitech C920高清摄像头以640x480分辨率拍摄得到,每张图像中需要出现特殊黑白方形标记物,且需要有不少于1个实例的真实阴影与其投射物同时出现。真实阴影与其投射物的掩码图像通过labelme标注工具手动标注得到。
进一步的,步骤2中描述的数据集的一条完整有效的数据记录包括5种图像:无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像。一条完整的数据记录对应一个背景场景与一个插入其中的虚拟物体,掩码图像要能够与图像中的物体对齐。步骤2中描述的数据集中的合成图像需要通过以下方式得到:以真实照片为背景,以虚拟物体为前景,利用步骤1描述的相机参数与光照信息渲染得到合成图像,用Shadow Mapping方式渲染虚拟物体阴影。通过控制是否渲染阴影得到无阴影与有阴影的对应,通过设置前景白色与背景黑色得到精确的虚拟物体掩码图像。本发明所述的一种基于注意力机制的阴影生成方法输入无虚拟物体阴影的合成图像与虚拟物体的掩码图像,输出有虚拟物体阴影的合成图像。
进一步的,步骤3使用注意力模型提取输入图像的注意力特征,训练时对于一张图像的损失函数定义如下:
{Ai}=sigmoid(Attn(x,m))
Figure GDA0003305944480000031
其中,Attn(·)表示ResNet34降采样模块与插值-卷积上采样模块组成的注意力模型输出的注意力特征图,A表示注意力特征图经过sigmoid函数激活后的结果,x表示输入的无虚拟物体阴影合成图像,m表示虚拟物体掩码,图像的像素值全部归一化到范围[-1,1]。||·||2表示2-范数,M表示步骤1标注的真实阴影与阴影投射物掩码图像,i为类别编号,i为0表示真实阴影,i为1表示阴影投射物。
进一步的,步骤4的具体实现方式如下:
步骤4.1,输入不含虚拟物体阴影的合成图像与虚拟物体的掩码,与步骤3的注意力机制提取的注意力特征融合;
Xfeature=fusion(x,m,{Ai})
其中,x与m的含义与上述相同,fusion(·)表示注意力机制提取的线索特征与图像特征的融合,具体采用将特征图按通道合并的方式实现。
步骤4.2,输入步骤4.1得到的融合特征Xfeature,用ResNet34降采样模块与插值-卷积上采样模块组成的深度神经网络为虚拟物体生成阴影;
Rfeature=G(Xfeature)
y′=tanh(x+Rfeature)
其中,x与Xfeature的含义与上述相同,G(·)表示深度神经网络生成的虚拟物体阴影特征图,虚拟物体阴影表示为残差图的形式,与输入图像x相加并通过双曲正切函数tanh激活得到最终的包含虚拟物体阴影的合成图像y’。
进一步的,步骤5以监督学习的形式,用生成对抗训练步骤4的网络模型,对于一张图像,其训练的损失函数定义如下:
L=β1Ladv2Lgen3Lper
其中,Ladv为生成对抗训练误差,Lgen为像素级别的误差,Lper为全局图像的感知损失误差。参数β1,β2与β3用于控制三种误差的对生成结果的影响比重。
Ladv为是生成对抗训练的损失函数,其定义如下:
Ladv=log[D(y)]+log[1-D(y′)]
y’的含义与前步骤相同,y表示数据集中x与m对应的包含虚拟物体阴影的目标合成图像,D为用深度卷积神经网络定义的判别器,D(·)表示判别器判定输入为真的概率,在本发明中D(y)应趋向于1.0,D(y’)应趋向于0.0,其网络的具体参数在生成对抗中学习得到。
Lgen为像素级别的误差损失函数,其定义如下:
Lgen=||y-y′||2
所有符号的含义与前步骤相同。
Lper为全局图像的感知损失误差,其定义如下:
Lper=10-5*||Vgg(y)-Vgg(y′)||2
其中,Vgg(·)表示VGG19网络第10层提取的特征图,该项用于衡量输出图像与目标图像之间的全局语义一致性。
在每个迭代中,用生成对抗策略训练网络模型:判别器的优化策略使L最大化,而生成器的优化策略使L最小化。
与现有技术相比,本发明有如下优点:
1.本发明的阴影生成方法简单直观,不需要任何逆渲染过程,大大减少人机交互操作;
2.本发明的注意力机制增强有利于阴影生成的背景线索特征;
3.本发明使用生成对抗训练进一步优化训练模型获得更高质量的生成图像。
附图说明
图1是本发明的总流程图。
图2为本发明的实验效果图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,一种基于注意力机制的阴影生成方法,包括如下步骤:
步骤1,拍摄用于构建数据集的原始图像数据并标定拍摄时的相机参数与光照条件,然后标注出原始图像中的真实阴影掩码图像与对应投射物的掩码图像;
步骤1中描述的相机参数为:相机中心偏移、焦距以及相机相对于世界坐标系的旋转与平移矩阵。步骤1中描述的光照信息分为两种:室内条件下的光照信息为产生最明显阴影的单个光源的几何中心位置坐标;室外条件下的光照信息为太阳光的方向向量坐标。步骤1基于特殊黑白标记物建立笛卡尔坐标系,相机的旋转与平移通过特殊黑白标记物的检测与识别完成,光照信息在特殊黑白标记物所定义的笛卡尔坐标系下测量得到。步骤1中描述的原始图像用焦距固定为668像素的Logitech C920高清摄像头以640x480分辨率拍摄得到,每张图像中需要出现特殊黑白方形标记物,且需要有不少于1个实例的真实阴影与其投射物同时出现。真实阴影与其投射物的掩码图像通过labelme标注工具手动标注得到。
步骤2,步骤2中描述的数据集的一条完整有效的数据记录包括5种图像:无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像。一条完整的数据记录对应一个背景场景与一个插入其中的虚拟物体,掩码图像要能够与图像中的物体对齐。步骤2中描述的数据集中的合成图像需要通过以下方式得到:以真实照片为背景,以虚拟物体为前景,利用步骤1描述的相机参数与光照信息渲染得到合成图像,用Shadow Mapping方式渲染虚拟物体阴影。通过控制是否渲染阴影得到无阴影与有阴影的对应,通过设置前景白色与背景黑色得到精确的虚拟物体掩码图像。本发明所述的一种基于注意力机制的阴影生成方法输入无虚拟物体阴影的合成图像与虚拟物体的掩码图像,输出有虚拟物体阴影的合成图像。
步骤2中描述的数据集的一条完整有效的数据记录包括5种图像:无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像。本发明1所述的一种基于注意力机制的阴影生成方法输入无虚拟物体阴影的合成图像与虚拟物体的掩码图像,输出有虚拟物体阴影的合成图像。
步骤3,采用ResNet34模型的部分降采样模块与两个结构完全相同的插值-卷积上采样模块作为注意力模型,并用步骤2获取的数据子集进行参数预训练,然后用预训练的注意力模型提取出输入合成图像中真实阴影与相应投射物的注意力特征;
步骤3使用注意力模型提取输入图像的注意力特征,训练时对于一张图像的损失函数定义如下:
{Ai}=sigmoid(Attn(x,m))
Figure GDA0003305944480000051
其中,Attn(·)表示ResNet34降采样模块与插值-卷积上采样模块组成的注意力模型输出的注意力特征图,A表示注意力特征图经过sigmoid函数激活后的结果,x表示输入的无虚拟物体阴影合成图像,m表示虚拟物体掩码,图像的像素值全部归一化到范围[-1,1]。||·||2表示2-范数,M表示步骤1标注的真实阴影与阴影投射物掩码图像,i为类别编号,i为0表示真实阴影,i为1表示阴影投射物。sigmoid为S型函数,能返回(0,1)区间的实数值,定义如下:
Figure GDA0003305944480000061
步骤4,采用ResNet34模型的部分降采样模块提取输入合成图像的全局特征,将步骤3提取到的注意力特征与图像特征进行特征融合,得到虚拟物体阴影生成的线索特征,然后将线索特征与虚拟物体掩码输入插值-卷积上采样模块得到虚拟物体阴影的残差图像,与输入图像相加得到最终的包含虚拟物体阴影的合成图像;
步骤4包括如下子步骤:
步骤4.1,输入不含虚拟物体阴影的合成图像与虚拟物体的掩码,与步骤3的注意力机制提取的注意力特征融合;
Xfeature=fusion(x,m,{Ai})
其中,x与m的含义与上述相同,fusion(·)表示注意力机制提取的线索特征与图像特征的融合,具体采用将特征图按通道合并的方式实现。
步骤4.2,输入步骤4.1得到的融合特征Xfeature,用ResNet34降采样模块与插值-卷积上采样模块组成的深度神经网络为虚拟物体生成阴影;
Rfeature=G(Xfeature)
y′=tanh(x+Rfeature)
其中,x与Xfeature的含义与上述相同,G(·)表示深度神经网络生成的虚拟物体阴影特征图,虚拟物体阴影表示为残差图的形式,与输入图像x相加并通过双曲正切函数tanh激活得到最终的包含虚拟物体阴影的合成图像y’。双曲正切函数tanh返回区间(-1,1)中的实数值,定义如下:
Figure GDA0003305944480000062
步骤5,利用步骤2获取的数据子集,以监督学习的方式与条件对抗生成网络的形式训练步骤4的网络模型学习输入无虚拟物体阴影合成图像到输出有虚拟物体阴影合成图像的映射关系。
步骤5以监督学习的形式,用生成对抗训练步骤4的网络模型,对于一张图像,其训练的损失函数定义如下:
L=β1Ladv2Lgen3Lper
其中,Ladv为生成对抗训练误差,Lgen为像素级别的误差,Lper为全局图像的感知损失误差。超参数β1,β2与β3用于控制三种误差对生成结果的影响比重。某一超参数值所占的比重越大,其控制的相应误差越小,需要根据具体训练情况进行调整。
Ladv为是生成对抗训练的损失函数,其定义如下:
Ladv=log[D(y)]+log[1-D(y′)]
y’的含义与前步骤相同,y表示数据集中x与m对应的包含虚拟物体阴影的目标合成图像,D为用深度卷积神经网络定义的判别器,D(·)表示判别器判定输入为真的概率,在本发明中D(y)应趋向于1.0,D(y’)应趋向于0.0,其网络的具体参数在生成对抗中学习得到。
Lgen为像素级别的误差损失函数,其定义如下:
Lgen=||y-y′||2
所有符号的含义与前步骤相同。
Lper为全局图像的感知损失误差,其定义如下:
Lper=10-5*||Vgg(y)-Vgg(y′)||2
其中,Vgg(·)表示VGG19网络第10层提取的特征图,该项用于衡量输出图像与目标图像之间的全局语义一致性。
在每个迭代中,监督训练优化策略使得Lgen与Lper最小化。然后进一步通过生成对抗策略训练网络模型:判别器的优化策略使L最大化,而生成器的优化策略使L最小化。
图2为本发明的其中一实验效果图,在该实验中,超参数的取值分别为β1=1,β2=100,β3=10,由图中所示,得到了质量较高的阴影生成图像。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种基于注意力机制的阴影生成方法,其特征在于,包括以下步骤:
步骤1,拍摄用于构建数据集的原始图像数据并标定拍摄时的相机参数与光照条件,然后标注出原始图像中的真实阴影掩码图像与对应投射物的掩码图像;
步骤2,根据步骤1获取的相机参数与光照信息,以原始图像为背景渲染虚拟3D模型,得到同一条件下的有虚拟阴影合成图像、无虚拟阴影合成图像以及虚拟物体的掩码图像,这些图像与步骤1得到的掩码图像合在一起构成数据集;
步骤3,采用ResNet34模型的部分降采样模块与两个结构完全相同的插值-卷积上采样模块作为注意力模型,并用步骤2获取的数据集进行参数预训练,然后用预训练的注意力模型提取出输入合成图像中真实阴影与相应投射物的注意力特征;
步骤4,将步骤3提取到的注意力特征与图像特征进行特征融合,得到虚拟物体阴影生成的线索特征,然后将线索特征与虚拟物体掩码输入插值-卷积上采样模块得到虚拟物体阴影的残差图像,与输入图像相加得到最终的包含虚拟物体阴影的合成图像;其中,所述图像特征包括输入的无虚拟物体阴影合成图像和虚拟物体掩码;
步骤5,利用步骤2获取的数据集中的训练数据集,以监督学习的方式与条件对抗生成网络的形式训练步骤4的网络模型学习输入无虚拟物体阴影合成图像到输出有虚拟物体阴影合成图像的映射关系。
2.根据权利要求1所述的一种基于注意力机制的阴影生成方法,其特征在于:步骤1中描述的相机参数包括:相机中心偏移、焦距以及相机相对于世界坐标系的旋转与平移矩阵;步骤1中描述的光照信息分为两种:室内条件下的光照信息为产生最明显阴影的单个光源的几何中心位置坐标;室外条件下的光照信息为太阳光的方向向量坐标;步骤1基于特殊黑白标记物建立笛卡尔坐标系,相机的旋转与平移通过特殊黑白标记物的检测与识别完成,光照信息在特殊黑白标记物所定义的笛卡尔坐标系下测量得到。
3.根据权利要求1所述的一种基于注意力机制的阴影生成方法,其特征在于:所述步骤1中描述的原始图像用焦距固定为668像素的Logitech C920高清摄像头以640x480分辨率拍摄得到,每张图像中需要出现特殊黑白方形标记物,且需要有不少于1个实例的真实阴影与其投射物同时出现;真实阴影与其投射物的掩码图像通过labelme标注工具手动标注得到。
4.根据权利要求1所述的一种基于注意力机制的阴影生成方法,其特征在于:所述步骤2中描述的数据集的一条完整有效的数据记录包括5种图像:无虚拟物体阴影的合成图像、虚拟物体的掩码图像、有虚拟物体阴影的合成图像、真实阴影的掩码图像以及真实阴影投射物的掩码图像;一条完整的数据记录对应一个背景场景与一个插入其中的虚拟物体,掩码图像与图像中的物体对齐。
5.根据权利要求1所述的一种基于注意力机制的阴影生成方法,其特征在于:所述步骤2中描述的数据集中的合成图像需要通过以下方式得到:以真实照片为背景,以虚拟物体为前景,利用步骤1描述的相机参数与光照信息渲染得到合成图像,用Shadow Mapping方式渲染虚拟物体阴影,通过控制是否渲染阴影得到无阴影与有阴影的对应,通过设置前景白色与背景黑色得到精确的虚拟物体掩码图像。
6.根据权利要求1所述的一种基于注意力机制的阴影生成方法,其特征在于:步骤3使用注意力模型提取输入图像的注意力特征,训练时对于一张图像的损失函数定义如下:
{Ai}=sigmoid(Attn(x,m))
Figure FDA0003374205200000021
其中,Attn(.)表示ResNet34降采样模块与插值-卷积上采样模块组成的注意力模型输出的注意力特征图,A表示注意力特征图经过sigmoid函数激活后的结果,x表示输入的无虚拟物体阴影合成图像,m表示虚拟物体掩码,图像的像素值全部归一化到范围[-1,1];||.||2表示2-范数,M表示步骤1标注的真实阴影与阴影投射物掩码图像,i为类别编号,i为0表示真实阴影,i为1表示阴影投射物;sigmoid为S型函数,能返回(0,1)区间的实数值,定义如下:
Figure FDA0003374205200000022
7.根据权利要求6所述的一种基于注意力机制的阴影生成方法,其特征在于:步骤4的具体步骤如下:
步骤4.1,输入不含虚拟物体阴影的合成图像与虚拟物体的掩码,与步骤3的注意力机制提取的注意力特征融合;
Xfeature=fusion(x,m,{Ai})
其中,x与m的含义与上述相同,fusion(.)表示注意力机制提取的线索特征与图像中真实阴影的融合,具体采用将特征图按通道合并的方式实现;
步骤4.2,输入步骤4.1得到的融合特征Xfeature,用ResNet34降采样模块与插值-卷积上采样模块组成的深度神经网络为虚拟物体生成阴影;
Rfeature=G(Xfeature)
y′=tanh(x+Rfeature)
其中,x与Xfeature的含义与上述相同,G(.)表示深度神经网络生成的虚拟物体阴影特征图,虚拟物体阴影表示为残差图的形式,与输入图像x相加并通过双曲正切函数tanh激活得到最终的包含虚拟物体阴影的合成图像y’;双曲正切函数tanh返回区间(-1,1)中的实数值,定义如下:
Figure FDA0003374205200000031
8.根据权利要求7所述的一种基于注意力机制的阴影生成方法,其特征在于:步骤5以监督学习的形式,用生成对抗训练步骤4的网络模型,对于一张图像,其训练的损失函数定义如下:
L=β1Ladv2Lgen3Lper
其中,Ladv为生成对抗训练误差,Lgen为像素级别的误差,Lper为全局图像的感知损失误差,参数β1,β2与β3用于控制三种误差的对生成结果的影响比重;
Ladv为是生成对抗训练的损失函数,其定义如下:
Ladv=log[D(y)]+log[1-D(y′)]
y’的含义与前步骤相同,y表示数据集中x与m对应的包含虚拟物体阴影的目标合成图像,D为用深度卷积神经网络定义的判别器,D(.)表示判别器判定输入为真的概率,D(y)应趋向于1.0,D(y’)应趋向于0.0,其网络的具体参数在生成对抗中学习得到;
Lgen为像素级别的误差损失函数,其定义如下:
Lgen=||y-y′||2
所有符号的含义与前步骤相同;
Lper为全局图像的感知损失误差,其定义如下:
Lper=10-5*||Vgg(y)-Vgg(y′)||2
其中,Vgg(.)表示VGG19网络第10层提取的特征图,该项用于衡量输出图像与目标图像之间的全局语义一致性;
在每个迭代中,监督训练优化策略使得Lgen与Lper最小化,然后进一步通过生成对抗策略训练网络模型:判别器的优化策略使L最大化,而生成器的优化策略使L最小化。
CN202010070261.6A 2020-01-21 2020-01-21 一种基于注意力机制的阴影生成方法 Active CN111292408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010070261.6A CN111292408B (zh) 2020-01-21 2020-01-21 一种基于注意力机制的阴影生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010070261.6A CN111292408B (zh) 2020-01-21 2020-01-21 一种基于注意力机制的阴影生成方法

Publications (2)

Publication Number Publication Date
CN111292408A CN111292408A (zh) 2020-06-16
CN111292408B true CN111292408B (zh) 2022-02-01

Family

ID=71023363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010070261.6A Active CN111292408B (zh) 2020-01-21 2020-01-21 一种基于注意力机制的阴影生成方法

Country Status (1)

Country Link
CN (1) CN111292408B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833283B (zh) * 2020-06-23 2024-02-23 维沃移动通信有限公司 数据处理方法、装置及电子设备
CN111915642B (zh) * 2020-09-14 2024-05-14 北京百度网讯科技有限公司 图像样本的生成方法、装置、设备和可读存储介质
CN112287779B (zh) * 2020-10-19 2022-03-25 华南农业大学 一种低光照度图像自然光照度补强方法及应用
CN114187186B (zh) * 2021-10-26 2024-06-04 山东师范大学 一种纸质化验单图像预处理方法及系统
CN114626468B (zh) * 2022-03-17 2024-02-09 小米汽车科技有限公司 在图像中生成阴影的方法、装置、电子设备及存储介质
CN115375828B (zh) * 2022-10-24 2023-02-03 腾讯科技(深圳)有限公司 模型的阴影生成方法、装置、设备、介质
CN118230172A (zh) * 2024-05-08 2024-06-21 中冶建筑研究总院有限公司 钢结构金属屋面锈蚀缺陷全景视觉检测方法、系统及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564012A (zh) * 2017-08-01 2018-01-09 中国科学院自动化研究所 面向未知环境的增强现实方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2234069A1 (en) * 2009-03-27 2010-09-29 Thomson Licensing Method for generating shadows in an image
CN103500465B (zh) * 2013-09-13 2017-01-18 西安工程大学 基于增强现实技术的古代文物场景快速渲染方法
CN110033423B (zh) * 2019-04-16 2020-08-28 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN110503711B (zh) * 2019-08-22 2023-02-21 三星电子(中国)研发中心 在增强现实中渲染虚拟物体的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564012A (zh) * 2017-08-01 2018-01-09 中国科学院自动化研究所 面向未知环境的增强现实方法及装置

Also Published As

Publication number Publication date
CN111292408A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111292408B (zh) 一种基于注意力机制的阴影生成方法
WO2022121645A1 (zh) 一种教学场景中虚拟对象的真实感生成方法
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
Shan et al. Research on landscape design system based on 3D virtual reality and image processing technology
WO2022156640A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
WO2022156622A1 (zh) 脸部图像的视线矫正方法、装置、设备、计算机可读存储介质及计算机程序产品
CN114972617B (zh) 一种基于可导渲染的场景光照与反射建模方法
WO2022156626A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN105046649A (zh) 一种去除运动视频中运动物体的全景图拼接方法
CN112085835A (zh) 三维卡通人脸生成方法、装置、电子设备及存储介质
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN114077891B (zh) 风格转换模型的训练方法及虚拟建筑检测模型的训练方法
Cui et al. Dense depth-map estimation based on fusion of event camera and sparse LiDAR
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113673567B (zh) 基于多角度子区域自适应的全景图情感识别方法及系统
CN118351410A (zh) 一种基于稀疏代理注意力的多模态三维检测方法
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
US20240161391A1 (en) Relightable neural radiance field model
CN116681839B (zh) 一种基于改进NeRF的实景三维目标重建与单体化方法
CN112509110A (zh) 一种陆地对抗智能体的图像数据集自动采取与标注框架
WO2023086398A1 (en) 3d rendering networks based on refractive neural radiance fields
Miao et al. Research on 3d reconstruction of furniture based on differentiable renderer
CN116740201B (zh) 基于ldr图像的hdr场强计算方法、装置和存储介质
CN117953165B (zh) 基于神经辐射场的人脸新视图合成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant