CN116109757A - 基于内蕴坐标的哈希编码的动态三维人体渲染合成方法 - Google Patents
基于内蕴坐标的哈希编码的动态三维人体渲染合成方法 Download PDFInfo
- Publication number
- CN116109757A CN116109757A CN202310084613.7A CN202310084613A CN116109757A CN 116109757 A CN116109757 A CN 116109757A CN 202310084613 A CN202310084613 A CN 202310084613A CN 116109757 A CN116109757 A CN 116109757A
- Authority
- CN
- China
- Prior art keywords
- coordinates
- query
- representation model
- implicit
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/08—Volume rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/06—Ray-tracing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供了一种动态三维人体的新视角渲染合成方法,能够从输入的视频中快速地重建出人体的大致几何以及高质量纹理,并随后进行新视角、人体新形态的合成渲染。基于显式代理几何的内蕴坐标表示有效地聚合了视频序列的信息,同时将哈希编码器的应用范畴从静态场景拓展到了动态目标。基于内蕴坐标的哈希编码器可以使模型共用训练参数,从而达到快速收敛的效果。最后基于隐式神经表示和神经渲染可以利用图像数据自监督地改进重建目标的几何以及纹理细节,以便获得更具真实感的渲染结果。本发明提供的方法可以应用于任意穿衣人物,并可通过编辑几何代理网格,对生成的人体形态进行编辑,方便用于制作动画、全息会议以及体育赛事转播等应用。
Description
技术领域
本发明涉及动态三维人体新视角合成技术,尤其涉及一种基于内蕴坐标的哈希编码的动态三维人体渲染合成方法、隐式神经表示模型的训练方法、电子设备以及存储介质。
背景技术
动态三维人体的新视图合成是计算机视觉中的一个重要研究方向。它在许多领域都有广泛的应用,例如体育赛事转播、视频会议和VR/AR。虽然这一方向已经被研究了很长时间,但现有的方法仍然需要相当长的计算时间,导致该技术不容易被公众用户使用。
传统的新视角合成方法或需要密集的二维图像的输入来进行插值,或者需要深度相机来进行高保真的三维重建以呈现逼真的结果。一些基于模型的方法可以从稀疏视角的视频重建显式三维网格,但这类方法的三维网格往往缺乏几何细节,导致渲染得到的图片不够真实。一些方法应用神经辐射场来合成动态人体的新视角图像,它们通过将人体先验与神经辐射场相结合,能够从包含人体的稀疏视角视频中重建出人体的大致集合。然而,由于神经辐射场昂贵的计算成本,这些方法往往需要很长的训练时间来拟合每一个输入对象。此外,大多数方法仍然需要校准的多视角相机系统,这使得这些方法难以部署以及应用。近年来,通过精心设计的多分辨率哈希编码,神经辐射场的训练速度提高了几个数量级。但是目前该策略是基于外在坐标的,只适用于静态场景,无法扩展到动态场景中。
发明内容
鉴于上述问题,本发明提供了一种基于内蕴坐标的哈希编码的动态三维人体渲染合成方法、隐式神经表示模型的训练方法、电子设备以及存储介质以期至少能够解决上述问题之一。
根据本发明的第一个方面,提供了一种基于内蕴坐标的哈希编码的动态三维人体渲染合成方法,包括:
通过优化目标穿衣人物的运动视频中视频帧所对应的人体的姿态参数和形态参数,得到目标穿衣人物的人体参数化网格,并将人体参数化网格作为目标穿衣人物的粗糙显式几何代理;
根据相机参数,计算目标穿衣人物的粗糙显式几何代理所在空间中与像素点的采样光线相对应的查询点;
根据预设的映射规则和目标穿衣人物的粗糙几何代理的几何信息,计算查询点映射到辐射密度立方体网格上的内蕴坐标;
利用训练好的隐式神经表示模型的多层级第一感知机预测辐射密度立方体网格的偏移量场,并利用辐射密度立方体网格的偏移量场优化查询点的内蕴坐标,其中,隐式神经表示模型的用于表示目标穿衣人物的人体模型;
利用训练好的隐式神经表示模型的多层级哈希编码器计算优化后的查询点的内蕴坐标的高维度特征向量;
利用训练好的隐式神经表示模型的多层级第二感知机处理查询点的高维度特征向量,得到查询点的密度和颜色;
利用体渲染公式计算查询点所对应的像素点的颜色,得到目标穿衣人物的视频帧图像,并根据视频帧图像合成目标穿衣人物的运动视频。
根据本发明的实施例,上述根据相机参数,计算目标穿衣人物的粗糙显式几何代理所在空间中与像素点的采样光线相对应的查询点包括:
根据相机参数中的相机光心和光线方向,计算得到像素点的采样光线;
根据预设采样深度,在采样光线上进行均匀采样,得到查询点。
根据本发明的实施例,上述根据预设的映射规则由公式(1)表示:
UVD(x|Tt)=(UV(p|Tt),S(d)) (1),
其中,x表示所述查询点,Tt表示第t帧的粗糙显式几何代理,d表示查询点x到Tt的符号距离,p表示查询点x在Tt上的最近点,UV(p|Tt)表示p在粗糙显式几何代理Tt的纹理展开图中对应的纹理坐标,S(*)表示Sigmoid函数,UVD(*)表示所述查询点到所述辐射密度立方体网格中的内蕴坐标的映射。
根据本发明的实施例,上述利用训练好的隐式神经表示模型的多层级哈希编码器计算优化后的查询点的内蕴坐标的高维度特征向量包括:
将辐射密度立方体网格划分成由粗到细的多个具有不同分辨率的体素网格,其中,体素网格的分辨率由目标穿衣人物的运动视频的分辨率确定;
根据预设的查询公式和预设的素数值,利用训练好的隐式神经表示模型的多层级哈希编码器计算特定分辨率的体素网格的顶点的特征向量,其中,优化后的查询点的内蕴坐标位于特定分辨率的体素网格中;
根据特定分辨率的体素网格的顶点的坐标和优化后的查询点的内蕴坐标,对顶点的特征向量进行插值计算,得到优化后的查询点的内蕴坐标在特定分辨率的体素网格中的特征向量;
重复进行顶点特征向量计算操作以及插值计算操作,得到优化后的查询点的内蕴坐标在不同分辨率的体素网格中的特征向量;
将优化后的查询点的内蕴坐标在不同分辨率的体素网格中的特征向量进行向量拼接,得到优化后的查询点的内蕴坐标的高维度特征向量。
根据本发明的实施例,上述预设查询公式由公式(2)表示:
其中,z表示顶点在所述体素网格中的坐标,πi为预设的素数,T表示训练好的隐式神经表示模型的多层级哈希编码器的哈希表的大小,⊕表示异或操作。。
根据本发明的实施例,上述训练好的隐式神经表示模型的多层级第一感知机由公式(3)表示:
Δr=Fφ(r,et) (3),
其中,r表示辐射密度立方体网格中的点,Δr表示r对应的偏移量,et为第t帧粗糙显式几何代理的条件变量,FΦ表示训练好的隐式神经表示模型的多层级第一感知机;
其中,训练好的隐式神经表示模型的多层级第二感知机由公式(4)表示:
其中,r是查询点x对应的内蕴坐标,Δr表示r对应的偏移量,σt(x)表示查询点x在第t帧的密度,ct(x)表示查询点x在第t帧的颜色,表示训练好的隐式神经表示模型的多层级哈希编码器的哈希表,h(*)表示优化后的查询点的内蕴坐标到其高维度特征向量的映射,Fω表示训练好的隐式神经表示模型的多层级第二感知机。
根据本发明的实施例,上述体渲染公式由公式(5)和(6)所示:
α(xi)=1-exp(-σ(xi)δi) (6),
其中,C(γ)表示光线γ的颜色,c(xi)和σ(xi)分别表示采样点xi的颜色和密度值,δi表示采样点之间的间距,α(*)表示采样点xi的不透明度。
根据本发明的第二个方面,提供了一种隐式神经表示模型的训练方法,包括:
根据目标穿衣人物的运动视频,提取目标穿衣人物的真实的视频帧图像;
利用隐式神经表示模型得到目标穿衣人物的合成的视频帧图像,其中,隐式神经表示模型包括多层级第一感知机、多层级第二感知机以及多层级哈希编码器;
利用损失函数处理合成的视频帧图像和真实的视频帧图像,并根据损失值,优化隐式神经表示模型,其中,损失函数包括光度损失函数和正则损失函数;
迭代进行真实的视频帧图像和合成的视频帧图像获取操作、模型优化操作,直到到达预设条件,得到训练好的隐式神经表示模型,其中,训练好的隐式神经表示模型应用于基于内蕴坐标的哈希编码的动态三维人体渲染合成方法。
根据本发明的第三个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行基于内蕴坐标的哈希编码的动态三维人体渲染合成方法以及隐式神经表示模型的训练方法。
根据本发明第四个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行基于内蕴坐标的哈希编码的动态三维人体渲染合成方法以及隐式神经表示模型的训练方法。
本发明提供的上述基于内蕴坐标的哈希编码的动态三维人体渲染合成方法,根据目标穿衣人物的运动视频,结合基于内蕴坐标表示的哈希编码器,同时利用神经渲染,对视频中的目标穿衣人物整体自监督地重建几何与高质量的纹理,随后可在任意视角、人体形态下合成渲染图像。本发明相对于现有技术中的各类方案,不需要长达十数个小时的训练,能够在二十分钟内完成训练过程,同时能够通过对粗糙几何代理,对生成的人体形态进行编辑,方便用于制作动画等下游应用。
附图说明
图1是根据本发明实施例的基于内蕴坐标的哈希编码的动态三维人体渲染合成方法的流程图;
图2是根据本发明实施例的获取查询点的内蕴坐标的高维度特征向量的流程图;
图3是根据本发明另一实施例的一种动态三维人体运动视频的新视角渲染合成方法的流程图;
图4是根据本发明另一实施例的关于内蕴坐标表示的说明示意图;
图5是根据本发明另一实施例的关于偏移量场的说明示意图;
图6是根据本发明实施例的隐式神经表示模型的训练方法的流程图;
图7示意性示出了根据本发明实施例的适于实现基于内蕴坐标的哈希编码的动态三维人体渲染合成方法以及隐式神经表示模型的训练方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
在动态三维人体新视角合成领域,基于隐式神经表示的方法虽然能够展示出高现实感的结果,但针对每个对象都需要十二个小时甚至更长的训练时间,难以在实际应用中部署。虽然多层级哈希编码能够加速神经辐射场的训练,但该策略目前仅适用于静态场景。为此,本发明实施例提供一种基于内蕴坐标表示的哈希编码和神经渲染的快速人体新视角合成方法,用于解决现有技术中的各种技术问题。
本发明的目的是提供一种基于单视角或稀疏视角的人物运动视频的新视角合成算法,能够从输入的视频中快速地重建出人体的大致几何以及纹理,并随后进行新视角、人体新形态的合成渲染。
在本发明的技术方案中,所涉及的目标穿衣人物的运动视频及视频帧图像的获取、存储和应用等,均经过了目标穿衣人物的同意,符合相关法律法规的规定以及公序良俗,并采取了必要的保密措施。
本发明的技术方案利用一种基于上述显式人体几何代理的内蕴坐标表示,将不同帧下的对应点,映射到同一内蕴坐标,并将该映射的值域称为UV-D网格(辐射密度立方体网格);将人体表示为粗糙的显式几何代理以及定义在其上的UV-D网格,并在UV-D网格中记录密度和颜色;对于UV-D网格中的任一坐标,使用多层级哈希编码将其映射为高维度特征向量,以达到加速训练的效果;将上述高维度特征向量输入神经辐射场网络中,输出UV-D网格中该点所记录的密度和颜色值;基于上述策略,可以得到在任意一帧下,空间中任意一点的密度和颜色值,随后根据输入的相机位姿参数对每一个像素采样光线,利用体渲染公式得到各个像素的颜色。通过计算生成颜色和真实颜色差的l1范数作为优化目标,即可对模型进行自监督的训练。
下面通过具体实施方式并结合附图对本发明提供的技术方案作详细地说明和解释。
图1是根据本发明实施例的基于内蕴坐标的哈希编码的动态三维人体渲染合成方法的流程图。
如图1所示,上述基于内蕴坐标的哈希编码的动态三维人体渲染合成方法,包括操作S110~操作S170。
在操作S110,通过优化目标穿衣人物的运动视频中视频帧所对应的人体的姿态参数和形态参数,得到目标穿衣人物的人体参数化网格,并将人体参数化网格作为目标穿衣人物的粗糙显式几何代理。
经过上述目标穿衣人物的同意,本发明获取上述目标穿衣人物的运动视频;并且在本发明各个实施例中,对该视频以及视频帧图像的处理,均经过了目标穿衣人物的许可。
上述根据相机参数,计算目标穿衣人物的粗糙显式几何代理所在空间中与像素点的采样光线相对应的查询点包括:根据相机参数中的相机光心和光线方向,计算得到像素点的采样光线;根据预设采样深度,在采样光线上进行均匀采样,得到查询点。
上述根据预设的映射规则由公式(1)表示:
UVD(x|Tt)=(UV(p|Tt),S(d)) (1),
其中,x表示所述查询点,Tt表示第t帧的粗糙显式几何代理,d表示查询点x到Tt的符号距离,p表示查询点x在Tt上的最近点,UV(p|Tt)表示p在粗糙显式几何代理Tt的纹理展开图中对应的纹理坐标,S(*)表示Sigmoid函数,UVD(*)表示查询点到辐射密度立方体网格中的内蕴坐标的映射。
在操作S120,根据相机参数,计算目标穿衣人物的粗糙显式几何代理所在空间中与像素点的采样光线相对应的查询点。
在操作S130,根据预设的映射规则和目标穿衣人物的粗糙几何代理的几何信息,计算查询点映射到辐射密度立方体网格上的内蕴坐标。
上述辐射密度立方体网格就是UV-D网格,通过所述的哈希编码和隐式神经表示模型的多层级第二感知机记录了粗糙几何代理网格表面附近空间的密度值和辐射值。
在操作S140,利用训练好的隐式神经表示模型的多层级第一感知机预测辐射密度立方体网格的偏移量场,并利用辐射密度立方体网格的偏移量场优化查询点的内蕴坐标,其中,隐式神经表示模型的用于表示目标穿衣人物的人体模型。
在操作S150,利用训练好的隐式神经表示模型的多层级哈希编码器计算优化后的查询点的内蕴坐标的高维度特征向量。
图2是根据本发明实施例的获取查询点的内蕴坐标的高维度特征向量的流程图。
如图2所示,上述利用训练好的隐式神经表示模型的多层级哈希编码器计算优化后的查询点的内蕴坐标的高维度特征向量包括操作S210~操作S250。
在操作S210,将辐射密度立方体网格划分成由粗到细的多个具有不同分辨率的体素网格,其中,体素网格的分辨率由目标穿衣人物的运动视频的分辨率确定。
体素网格(voxel grid)是由多个小立方体构成的立方体网格,每个小立方体都有8个顶点。
在操作S220,根据预设的查询公式和预设的素数值,利用训练好的隐式神经表示模型的多层级哈希编码器计算特定分辨率的体素网格的顶点的特征向量,其中,优化后的查询点的内蕴坐标位于特定分辨率的体素网格中。
上述预设查询公式由公式(2)表示:
其中,z表示所述顶点在所述体素网格中的坐标,πi为预设的素数,T表示训练好的隐式神经表示模型的多层级哈希编码器的哈希表的大小,⊕表示异或操作。
该分辨率下的体素网格的每个顶点的特征向量都要计算。
在操作S230,根据特定分辨率的体素网格的顶点的坐标和优化后的查询点的内蕴坐标,对顶点的特征向量进行插值计算,得到优化后的查询点的内蕴坐标在特定分辨率的体素网格中的特征向量。
在操作S240,重复进行顶点特征向量计算操作以及插值计算操作,得到优化后的查询点的内蕴坐标在不同分辨率的体素网格中的特征向量。
在操作S250,将优化后的查询点的内蕴坐标在不同分辨率的体素网格中的特征向量进行向量拼接,得到优化后的查询点的内蕴坐标的高维度特征向量。
将UV-D网格(即辐射密度立方体网格)将UV-D网格划分成由粗到细的多个体素网格,体素网格的分辨率由输入视频的分辨率决定,这样就得到了多个具有不同分辨率的体素网格,其中,每个体素网格包括多个小立方体,每个小立方体都有8个顶点,查询点的内蕴坐标位于其中的一个体素网格中。对特定分辨率的细分的体素网格,根据公式(2)所示的预设的查询公式在哈希表中查询各个顶点(或称为角点)对应的特征向量。根据内蕴坐标在该分辨率体素网格中的位置,插值计算该分辨率层级下的特征向量。将各个层级下的特征向量结合得到最终的特征向量。
首先,将UV-D网格划分成多个具有不同分辨率的体素网格,例如,将UV-D网格划分成16种不同分辨率的体素网格;然后,利用训练好的隐式神经表示模型的哈希编码器计算查询点的内蕴坐标所在的体素网格的8个顶点的特征向量,然后将这8个顶点的特征向量进行插值计算,得到查询点的内蕴坐标在该分辨率下的2维特征向量;最后,获取所有分辨率下的查询点的内蕴坐标的2维特征向量,并将这些2维特征向量进行拼接,得到最终的查询点的内蕴坐标的高维度特征向量,例如每个分辨率都得到一个2维特征向量,16种分辨率共得到16个2维特征向量,将这些特征向量进行拼接,得到一个32维的特征向量,将这个32维的特征向量作为查询点的内蕴坐标的高维度特征向量。
在操作S160,利用训练好的隐式神经表示模型的多层级第二感知机处理查询点的高维度特征向量,得到查询点的密度和颜色。
根据本发明的实施例,上述训练好的隐式神经表示模型的多层级第一感知机由公式(3)表示:
Δr=fφ(r,et) (3),
其中,r表示辐射密度立方体网格中的点,Δr表示r对应的偏移量,et为第t帧粗糙显式几何代理的条件变量,FΦ表示训练好的隐式神经表示模型的多层级第一感知机。
训练好的隐式神经表示模型的多层级第二感知机由公式(4)表示:
其中,r是查询点x对应的内蕴坐标,Δr表示r对应的偏移量,σt(x)表示查询点x在第t帧的密度,ct(x)表示查询点x在第t帧的颜色,表示训练好的隐式神经表示模型的多层级哈希编码器的哈希表,h(*)表示优化后的查询点的内蕴坐标到其高维度特征向量的映射,Fω表示训练好的隐式神经表示模型的多层级第二感知机。
在操作S170,利用体渲染公式计算查询点所对应的像素点的颜色,得到目标穿衣人物的视频帧图像,并根据视频帧图像合成目标穿衣人物的运动视频。
上述视频帧图像的获取以及合成处理,均经过了目标穿衣人物的许可,对其的处理也均在目标穿衣人物的许可范围内实施。
根据本发明的实施例,上述体渲染公式由公式(5)和(6)所示:
α(xi)=1-exp(-σ(xi)δi) (6),
其中,C(γ)表示光线γ的颜色,c(xi)和σ(xi)分别表示采样点xi的颜色和密度值,δi表示采样点之间的间距,α(*)表示采样点xi的不透明度。
本发明提供的上述基于内蕴坐标的哈希编码的动态三维人体渲染合成方法,根据目标穿衣人物的运动视频,结合基于内蕴坐标表示的哈希编码器,同时利用神经渲染,对视频中的目标穿衣人物整体自监督地重建几何与高质量的纹理,随后可在任意视角、人体形态下合成渲染图像。本发明相对于现有技术中的各类方案,不需要长达十数个小时的训练,能够在二十分钟内完成训练过程,同时能够通过对粗糙几何代理,对生成的人体形态进行编辑,方便用于制作动画等下游应用。
下面通过本发明的另一具体实施例以及结合图3~5对本发明提供的上述技术方案作进一步的详细地说明。
图3是根据本发明另一实施例的一种动态三维人体运动视频的新视角渲染合成方法的流程图。
图4是根据本发明另一实施例的关于内蕴坐标表示的说明示意图。
图5是根据本发明另一实施例的关于偏移量场的说明示意图。
如图3所示,可以将动态三维人体运动视频的新视角渲染合成方法划分为7个步骤。在步骤1中,从目标穿衣人物的运动视频(视频时长可以是十到二十几秒)中提取人体参数化网格,即提取每个视频帧的人体参数化网格,作为每一帧的粗糙几何代理。在获取人体参数化网格的过程中,可选的是,利用SMPL人体参数网格作为粗糙几何代理,通过优化每个视频帧的人体的姿态参数和形态参数,得到每个视频帧的粗糙几何代理Ti,基于这些显式网格共享同一个纹理展开图,利用公式(1)将t帧空间中的任一点x映射到UV-D网格中,以确保不同帧的相关点被映射到同一内蕴坐标。
步骤2,利用输入的相机参数,计算空间中的查询点。在进行任意视角的渲染时,应用体渲染的策略:对每个像素采样一条光线,随后在每条光线上,采样若干个点,根据这些采样点的密度和颜色值计算当前像素的颜色。如公式(7)和(8)所示:
xi=o+tiV (8),
步骤3,利用粗糙几何代理的几何信息,计算空间中查询点的内蕴坐标。如图4所示,对于第t帧空间中的任意一点x,利用第t帧的粗糙几何代理,将其映射到UV-D网格中的内蕴坐标。本实例中,使用查询点x在第t帧的几何代理Tt上的最近点p的纹理坐标以及对应的归一化后的符号距离d,作为内蕴坐标表示,如公式(1)所示:
UVD(x|Tt)=(UV(p|Tt),S(d)) (1)。
步骤4,使用多层级感知机,预测UV-D网格中的偏移量场。如图5所示,粗糙几何代理并不足够准确,无法对衣服褶皱等细节进行建模。本实例中,使用公式(3)所示的偏移量场来优化内蕴坐标映射
Δr=Fφ(r,et) (3)。
通过公式(3),以找到任意一帧空间中的任意查询点点的内蕴坐标r+Δr。
步骤5,将优化后的内蕴坐标输入多层级哈希编码器,计算高维度的特征向量。将UV-D网格划分成由粗到细的多个体素网格,体素网格的分辨率由输入视频的分辨率决定。对特定分辨率的细分的体素网格,根据如下的查询公式在哈希表中查询各个角点(即体素网格的8个顶点),对应的特征向量如公式(2)所示:
随后,根据内蕴坐标在该分辨率体素网格中的位置,插值计算该分辨率层级下的特征向量。将各个层级下的特征向量结合得到最终的特征向量。
步骤6,利用多层级感知机,计算查询点处的密度和颜色。对每个查询点应用上述步骤,随后将得到的特征向量输入多层感知机中,计算查询点的密度值和颜色值,如公式(4)所示:
在步骤S7中,通过体渲染公式,计算最终的合成图像。根据输入的相机位姿参数和粗糙人体代理几何,可以对每个像素进行光线采样,随后利用体渲染公式得到各个像素的颜色,从而得到指定相机位姿参数和人体形态与位姿下的新视角合成图像。对于步骤2中各个光线的采样点,应用步骤3-6可计算得出这些点处的密度和颜色,随后使用公式(5)和(6)计算每条光线的颜色:
α(xi)=1-exp(-σ(xi)δi) (6)。
图6是根据本发明实施例的隐式神经表示模型的训练方法的流程图。
如图6所示,上述一种隐式神经表示模型的训练方法包括操作S610~操作S640。
在操作S610,根据目标穿衣人物的运动视频,提取目标穿衣人物的真实的视频帧图像。
在操作S620,利用隐式神经表示模型得到目标穿衣人物的合成的视频帧图像,其中,隐式神经表示模型包括多层级第一感知机、多层级第二感知机以及多层级哈希编码器。
在操作S630,利用损失函数处理合成的视频帧图像和真实的视频帧图像,并根据损失值,优化隐式神经表示模型,其中,损失函数包括光度损失函数和正则损失函数。
上述损失函数中的正则损失函数可由公式(9)表示:
上述损失函数中的光度损失函数可由公式(10)表示:
光度损失以及正则损失,优化得到最终模型;上述损失函数能够更快地收敛到输入的粗糙代理几何附近。
在操作S640,迭代进行真实的视频帧图像和合成的视频帧图像获取操作、模型优化操作,直到到达预设条件,得到训练好的隐式神经表示模型,其中,训练好的隐式神经表示模型应用于基于内蕴坐标的哈希编码的动态三维人体渲染合成方法。
通过比对合成图片以及输入的真实图片,可以自监督地训练整个模型。
图7示意性示出了根据本发明实施例的适于实现基于内蕴坐标的哈希编码的动态三维人体渲染合成方法以及隐式神经表示模型的训练方法的电子设备的方框图。
如图7所示,根据本发明实施例的电子设备700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有电子设备700操作所需的各种程序和数据。处理器701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。电子设备700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于内蕴坐标的哈希编码的动态三维人体渲染合成方法,包括:
通过优化目标穿衣人物的运动视频中视频帧所对应的人体的姿态参数和形态参数,得到所述目标穿衣人物的人体参数化网格,并将所述人体参数化网格作为所述目标穿衣人物的粗糙显式几何代理;
根据相机参数,计算所述目标穿衣人物的粗糙显式几何代理所在空间中与像素点的采样光线相对应的查询点;
根据预设的映射规则和所述目标穿衣人物的粗糙几何代理的几何信息,计算所述查询点映射到辐射密度立方体网格上的内蕴坐标;
利用训练好的隐式神经表示模型的多层级第一感知机预测所述辐射密度立方体网格的偏移量场,并利用所述辐射密度立方体网格的偏移量场优化所述查询点的内蕴坐标,其中,所述隐式神经表示模型的用于表示所述目标穿衣人物的人体模型;
利用所述训练好的隐式神经表示模型的多层级哈希编码器计算优化后的所述查询点的内蕴坐标的高维度特征向量;
利用所述训练好的隐式神经表示模型的多层级第二感知机处理所述查询点的高维度特征向量,得到所述查询点的密度和颜色;
利用体渲染公式计算所述查询点所对应的像素点的颜色,得到所述目标穿衣人物的视频帧图像,并根据所述视频帧图像合成所述目标穿衣人物的运动视频。
2.根据权利要求1所述的方法,其中,所述根据相机参数,计算所述目标穿衣人物的粗糙显式几何代理所在空间中与像素点的采样光线相对应的查询点包括:
根据所述相机参数中的相机光心和光线方向,计算得到所述像素点的采样光线;
根据预设采样深度,在所述采样光线上进行均匀采样,得到所述查询点。
3.根据权利要求1所述的方法,其中,所述根据预设的映射规则由公式(1)表示:
UVD(x|Tt)=(UV(p|Tt),S(d)) (1),
其中,x表示所述查询点,Tt表示第t帧的粗糙显式几何代理,d表示查询点x到Tt的符号距离,p表示查询点x在Tt上的最近点,UV(p|Tt)表示p在粗糙显式几何代理Tt的纹理展开图中对应的纹理坐标,S(*)表示Sigmoid函数,UVD(*)表示所述查询点到所述辐射密度立方体网格中的内蕴坐标的映射。
4.根据权利要求1所述的方法,其中,所述利用训练好的隐式神经表示模型的多层级哈希编码器计算优化后的所述查询点的内蕴坐标的高维度特征向量包括:
将所述辐射密度立方体网格划分成由粗到细的多个具有不同分辨率的体素网格,其中,所述体素网格的分辨率由所述目标穿衣人物的运动视频的分辨率确定;
根据预设的查询公式和预设的素数值,利用所述训练好的隐式神经表示模型的多层级哈希编码器计算特定分辨率的体素网格的顶点的特征向量,其中,所述优化后的查询点的内蕴坐标位于所述特定分辨率的体素网格中;
根据所述特定分辨率的体素网格的顶点的坐标和所述优化后的查询点的内蕴坐标,对所述顶点的特征向量进行插值计算,得到所述优化后的查询点的内蕴坐标在所述特定分辨率的体素网格中的特征向量;
重复进行顶点特征向量计算操作以及插值计算操作,得到所述优化后的查询点的内蕴坐标在不同分辨率的体素网格中的特征向量;
将所述优化后的查询点的内蕴坐标在所述不同分辨率的体素网格中的特征向量进行向量拼接,得到所述优化后的查询点的内蕴坐标的高维度特征向量。
6.根据权利要求1所述的方法,其中,所述训练好的隐式神经表示模型的多层级第一感知机由公式(3)表示:
Δr=Fφ(r,et) (3),
其中,r表示所述辐射密度立方体网格中的点,Δr表示r对应的偏移量,et为第t帧粗糙显式几何代理的条件变量,FΦ表示所述训练好的隐式神经表示模型的多层级第一感知机;
其中,所述训练好的隐式神经表示模型的多层级第二感知机由公式(4)表示:
8.一种隐式神经表示模型的训练方法,包括:
根据目标穿衣人物的运动视频,提取所述目标穿衣人物的真实的视频帧图像;
利用所述隐式神经表示模型得到所述目标穿衣人物的合成的视频帧图像,其中,所述隐式神经表示模型包括多层级第一感知机、多层级第二感知机以及多层级哈希编码器;
利用损失函数处理所述合成的视频帧图像和所述真实的视频帧图像,并根据损失值,优化所述隐式神经表示模型,其中,所述损失函数包括光度损失函数和正则损失函数;
迭代进行真实的视频帧图像和合成的视频帧图像获取操作、模型优化操作,直到到达预设条件,得到训练好的隐式神经表示模型,其中,所述训练好的隐式神经表示模型应用于权利要求1-7任一所述的方法。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084613.7A CN116109757A (zh) | 2023-01-17 | 2023-01-17 | 基于内蕴坐标的哈希编码的动态三维人体渲染合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084613.7A CN116109757A (zh) | 2023-01-17 | 2023-01-17 | 基于内蕴坐标的哈希编码的动态三维人体渲染合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116109757A true CN116109757A (zh) | 2023-05-12 |
Family
ID=86267023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310084613.7A Pending CN116109757A (zh) | 2023-01-17 | 2023-01-17 | 基于内蕴坐标的哈希编码的动态三维人体渲染合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109757A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274344A (zh) * | 2023-11-22 | 2023-12-22 | 北京渲光科技有限公司 | 真实材质纹理的模型训练方法、纹理合成及映射方法 |
CN117496072A (zh) * | 2023-12-27 | 2024-02-02 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
-
2023
- 2023-01-17 CN CN202310084613.7A patent/CN116109757A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274344A (zh) * | 2023-11-22 | 2023-12-22 | 北京渲光科技有限公司 | 真实材质纹理的模型训练方法、纹理合成及映射方法 |
CN117274344B (zh) * | 2023-11-22 | 2024-02-06 | 北京渲光科技有限公司 | 真实材质纹理的模型训练方法、纹理合成及映射方法 |
CN117496072A (zh) * | 2023-12-27 | 2024-02-02 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
CN117496072B (zh) * | 2023-12-27 | 2024-03-08 | 南京理工大学 | 一种三维数字人生成和交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113706714A (zh) | 基于深度图像和神经辐射场的新视角合成方法 | |
CN116109757A (zh) | 基于内蕴坐标的哈希编码的动态三维人体渲染合成方法 | |
US11222466B1 (en) | Three-dimensional geometry-based models for changing facial identities in video frames and images | |
KR20100073173A (ko) | 3차원 모델 생성 방법 및 장치 | |
JP2008513882A (ja) | ビデオイメージ処理システム及びビデオイメージ処理方法 | |
CN114863038B (zh) | 基于显式几何形变的实时动态自由视角合成方法及装置 | |
Yang et al. | Panoramic video quality assessment based on non-local spherical CNN | |
CN111612878B (zh) | 将静态照片制作成三维效果视频的方法及装置 | |
CN112967373B (zh) | 一种基于非线性3dmm的人脸图像特征编码方法 | |
CN116721210A (zh) | 基于神经有符号距离场的实时高效三维重建方法及装置 | |
Han et al. | PIINET: A 360-degree panoramic image inpainting network using a cube map | |
Jiang et al. | H $ _ {2} $-Mapping: Real-time Dense Mapping Using Hierarchical Hybrid Representation | |
Ren et al. | Facial geometric detail recovery via implicit representation | |
CN116912148B (zh) | 图像增强方法、装置、计算机设备及计算机可读存储介质 | |
US20240095999A1 (en) | Neural radiance field rig for human 3d shape and appearance modelling | |
CN118076977A (zh) | 使用分层神经表示的可编辑自由视点视频 | |
Goswami et al. | Interactive landscape–scale cloud animation using DCGAN | |
Nicolet et al. | Repurposing a relighting network for realistic compositions of captured scenes | |
CN116051696B (zh) | 一种可重光照的人体隐式模型的重建方法和装置 | |
Satilmis et al. | Deep synthesis of cloud lighting | |
Dai et al. | PBR-Net: Imitating physically based rendering using deep neural network | |
Tous | Pictonaut: movie cartoonization using 3D human pose estimation and GANs | |
CN115953476A (zh) | 基于可泛化神经辐射场的人体自由视角合成方法 | |
Lin et al. | Hierarchical bit-plane slicing for high dynamic range image stereo matching | |
Tsiminaki et al. | Joint multi-view texture super-resolution and intrinsic decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |