CN116912393A - 人脸重建方法、装置、电子设备及可读存储介质 - Google Patents
人脸重建方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116912393A CN116912393A CN202310942852.1A CN202310942852A CN116912393A CN 116912393 A CN116912393 A CN 116912393A CN 202310942852 A CN202310942852 A CN 202310942852A CN 116912393 A CN116912393 A CN 116912393A
- Authority
- CN
- China
- Prior art keywords
- image
- ray
- background
- rendering
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000009877 rendering Methods 0.000 claims abstract description 106
- 238000005070 sampling Methods 0.000 claims abstract description 103
- 230000005855 radiation Effects 0.000 claims abstract description 98
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 30
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 210000004460 N cell Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/06—Ray-tracing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种人脸重建方法、装置、电子设备及可读存储介质,属于人工智能技术领域。该人脸重建方法包括:根据虚拟拍摄设备的位姿,确定第一射线和第二射线,所述第一射线为与待渲染像素对应的且不与待渲染图像中的人脸区域的包围盒相交的射线,所述第二射线为与待渲染像素对应的且与待渲染图像中的人脸区域的包围盒相交的射线;将所述第一射线上的多个采样点输入到目标背景辐射场网络中进行渲染,获得第一渲染图像;将所述第二射线上的多个采样点输入到目标人脸辐射场网络中进行渲染,获得第二渲染图像;对第一渲染图像和第二渲染图像进行合成,获得人脸重建图像。由此,可以高效地渲染得到人脸重建图像。
Description
技术领域
本申请属于人工智能技术领域,具体涉及一种人脸重建方法、装置、电子设备及可读存储介质。
背景技术
相关技术中,人脸重建通常需要用户在专业的摄影棚内拍摄图像和采用专业的深度相机拍摄图像,并基于拍摄得到的图像和深度图,渲染得到人脸重建图像。这种情况下,由于需要专业的设备拍摄图像等原因,将会造成无法高效地渲染得到人脸重建图像。
发明内容
本申请实施例的目的是提供一种人脸重建方法、装置、电子设备及可读存储介质,以解决相关技术中无法高效地渲染得到人脸重建图像的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,提供了一种人脸重建方法,包括:
根据虚拟拍摄设备的位姿,确定第一射线和第二射线,其中,所述第一射线为与待渲染像素对应的且不与待渲染图像中的人脸区域的包围盒相交的射线,所述第二射线为与待渲染像素对应的且与待渲染图像中的人脸区域的包围盒相交的射线;
将所述第一射线上的多个采样点输入到预训练的目标背景辐射场网络中进行渲染,获得第一渲染图像;
将所述第二射线上的多个采样点以及目标脸部系数,输入到预训练的目标人脸辐射场网络中进行渲染,获得第二渲染图像;
对所述第一渲染图像和所述第二渲染图像进行合成,获得人脸重建图像。
可选的,所述第一射线上的多个采样点是根据所述虚拟拍摄设备的感知范围进行采样得到;
和/或,所述第二射线上的多个采样点是在所述第二射线与所述待渲染图像中的人脸区域的包围盒的远交点和近交点之间的范围内进行采样得到。
可选的,所述第一射线和第二射线为由所述虚拟拍摄设备指向对应像素的射线。
可选的,所述方法还包括:
获取目标人物的多个样本图像;
对所述多个样本图像进行分割,获得所述多个样本图像的多个背景图像和多个前景图像,以及根据拍摄所述多个样本图像时的IMU数据,确定所述多个样本图像的摄像设备的位姿;
根据所述多个背景图像和所述摄像设备的位姿,训练得到所述目标背景辐射场网络,以及根据所述多个前景图像和所述目标人物的脸部系数,训练得到所述目标人脸辐射场网络。
可选的,所述根据所述多个背景图像和所述摄像设备的位姿,训练得到所述目标背景辐射场网络,包括:
针对所述多个背景图像中的每个背景图像,循环执行以下过程,直至满足收敛条件,获得所述目标背景辐射场网络:
根据所述摄像设备的位姿,确定所述背景图像的背景射线信息,其中,所述背景射线信息包括多条背景射线的信息,所述多条背景射线与所述背景图像的多个像素分别对应,所述多条背景射线中的每条背景射线包括多个第一采样点;
将所述每条背景射线上的多个第一采样点输入到背景辐射场网络中进行渲染,获得背景渲染图像和背景渲染深度图;
根据所述背景图像与所述背景渲染图像的差异,确定第一颜色损失,以及根据所述背景图像的背景深度图与所述背景渲染深度图的差异,确定第一深度损失;
根据所述第一颜色损失和所述第一深度损失,更新所述摄像设备的位姿和所述背景辐射场网络的参数。
可选的,所述多个第一采样点是在根据所述背景图像的深度信息确定的近平面和远平面之间的空间内进行采样得到。
可选的,所述多个第一采样点分别位于对应背景射线上的多个小区间,所述多个小区间是按照高斯分布划分。
可选的,所述根据所述多个前景图像和所述目标人物的脸部系数,训练得到所述目标人脸辐射场网络,包括:
针对所述多个前景图像中的每个前景图像,循环执行以下过程,直至满足收敛条件,获得所述目标人脸辐射场网络:
根据所述摄像设备的目标位姿,确定所述前景图像的前景射线信息,其中,所述前景射线信息包括多条前景射线的信息,所述多条前景射线与所述前景图像的多个像素分别对应,所述多条前景射线中的每条前景射线包括多个第二采样点;
将所述每条前景射线上的多个第二采样点以及所述目标人物的脸部系数,输入到人脸辐射场网络中进行渲染,获得前景渲染图像和前景渲染深度图;
根据所述前景图像与所述前景渲染图像的差异,确定第二颜色损失,以及根据所述前景图像的前景深度图与所述前景渲染深度图的差异,确定第二深度损失;
根据所述第二颜色损失和所述第二深度损失,更新所述人脸辐射场网络的参数。
可选的,所述多个第二采样点是在对应前景射线与所述前景图像中的人脸区域的包围盒的远交点和近交点之间的范围内进行采样得到。
可选的,所述摄像设备的目标位姿是在训练得到所述目标背景辐射场网络时确定。
第二方面,提供了一种人脸重建装置,包括:
第一确定模块,用于根据虚拟拍摄设备的位姿,确定第一射线和第二射线,其中,所述第一射线为与待渲染像素对应的且不与待渲染图像中的人脸区域的包围盒相交的射线,所述第二射线为与待渲染像素对应的且与待渲染图像中的人脸区域的包围盒相交的射线;
第一渲染模块,用于将所述第一射线上的多个采样点输入到预训练的目标背景辐射场网络中进行渲染,获得第一渲染图像;
第二渲染模块,用于将所述第二射线上的多个采样点以及目标脸部系数,输入到预训练的目标人脸辐射场网络中进行渲染,获得第二渲染图像;
合成模块,用于对所述第一渲染图像和所述第二渲染图像进行合成,获得人脸重建图像。
第三方面,提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
通过本申请实施例,采用预训练的目标背景辐射场网络和目标人脸辐射场网络来进行图像渲染,能够使得背景信息参与到人脸重建图像的渲染合成,且无需专业设备拍摄的图像,从而高效地渲染得到人脸重建图像,使得获得的人脸重建图像的真实感更强。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
图1是本申请实施例提供的一种人脸重建方法的流程图;
图2是本申请实施例中第一射线和第二射线的示意图;
图3是本申请实施例中目标背景辐射场网络的训练过程示意图;
图4是本申请实施例提供的一种人脸重建装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
可选的,本申请实施例适用的场景包括但不限于元宇宙中用户虚拟头像的生成。例如,可以在远程会议中使用虚拟头像替代真实实时头像。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的人脸重建方法、装置、电子设备及可读存储介质进行详细地说明。
请参见图1,图1是本申请实施例提供的一种人脸重建方法的流程图,该方法应用于电子设备,如图1所示,该方法包括如下步骤:
步骤11:根据虚拟拍摄设备的位姿,确定第一射线和第二射线,所述第一射线为与待渲染像素对应的且不与待渲染图像中的人脸区域的包围盒相交的射线,所述第二射线为与待渲染像素对应的且与待渲染图像中的人脸区域的包围盒相交的射线。
本实施例中,所述虚拟拍摄设备可选为虚拟相机等。所述虚拟拍摄设备的位姿可以是基于实际渲染需求预先设定。
可选的,在确定第一射线和第二射线时,可以先根据虚拟拍摄设备的位姿,确定待渲染图像的多条射线,所述多条射线的条数与待渲染图像中的待渲染像素的个数相同,即针对待渲染图像中的每个待渲染像素分别形成与其对应的射线,射线的原点为相机坐标系的原点;然后从所述多条射线中选取第一射线和第二射线,如图2所示,第一射线为不与待渲染图像中的人脸区域的包围盒相交的射线,第二射线为与待渲染图像中的人脸区域的包围盒相交的射线。
可选的,所述多条射线中的每条射线为由虚拟拍摄设备指向对应像素的射线,即每条射线的方向为虚拟拍摄设备指向对应像素的方向。
步骤12:将第一射线上的多个采样点输入到预训练的目标背景辐射场网络中进行渲染,获得第一渲染图像。
本实施例中,所述将第一射线上的多个采样点输入到预训练的目标背景辐射场网络中进行渲染的过程可理解为,生成第一射线对应的待渲染像素的颜色值和深度值的过程。通过将所述多条射线中所有的第一射线上的多个采样点分别输入到目标背景辐射场网络中进行渲染,可以生成所有第一射线对应的待渲染像素的颜色值和深度值,即获得相应的背景图像和背景深度图。所述采样点也可称为3D点。每条第一射线包括的采样点的个数可以相同,也可以不相同,对此不作限定。比如,可以在每条第一射线上采样得到N个采样点。
可选的,所述目标背景辐射场网络可以采用神经辐射场(Neural RadianceField,NeRF)框架,具体为静态神经辐射场网络。
可选的,所述第一射线上的多个采样点可以是根据虚拟拍摄设备的感知范围进行采样得到。比如,该感知范围为[dn,df],则在感知范围[dn,df]内进行采样,以获得采样点。
一些实施例中,在获得第一渲染图像时,可以将第一射线上的多个采样点以及第一射线的方向,输入到预训练的目标背景辐射场网络中进行渲染。
步骤13:将第二射线上的多个采样点以及目标脸部系数,输入到预训练的目标人脸辐射场网络中进行渲染,获得第二渲染图像。
本实施例中,所述将第二射线上的多个采样点以及目标脸部系数,输入到预训练的目标人脸辐射场网络中进行渲染的过程可理解为,生成第二射线对应的待渲染像素的颜色值和深度值的过程。通过将所述多条射线中所有的第二射线上的多个采样点分别输入到目标人脸辐射场网络中进行渲染,可以生成所有第二射线对应的待渲染像素的颜色值和深度值,即获得相应的前景图像和前景深度图。所述采样点也可称为3D点。每条第二射线包括的采样点的个数可以相同,也可以不相同,对此不作限定。比如,可以在每条第二射线上采样得到N个采样点。
可选的,所述目标人脸辐射场网络可以采用神经辐射场NeRF框架,具体为动态神经辐射场网络。所述目标人脸辐射场网络可以实现为多层感知机(Multi-LayerPerceptron,MLP),以提升渲染效果。
可选的,所述第二射线上的多个采样点可以是在第二射线与待渲染图像中的人脸区域(或称为:头部区域)的包围盒的远交点和近交点之间的范围内进行采样得到。比如,若所述第二射线的方向为虚拟拍摄设备指向对应像素的方向,则以虚拟拍摄设备为起点,分别计算第二射线与待渲染图像中的人脸区域的包围盒的远交点和近交点,并在远交点和近交点之间的范围内进行采样,以获得采样点。
可选的,所述目标脸部系数可以是基于实际渲染需求预先设定,也可以是从被模仿视频的每帧图像中提取得到。所述目标脸部系数可以包括但不限于脸部形状系数、表情系数、脸部姿态系数等。比如,当所述目标脸部系数从被模仿视频的每帧图像中提取得到时,通过本申请中的人脸重建过程,即针对从每帧图像中提取的目标脸部系数进行人脸重建,可以生成连续的人脸重建图像,即生成连续的人脸表情驱动视频。
步骤14:对第一渲染图像和第二渲染图像进行合成,获得人脸重建图像。
这里,可以采样相关技术对第一渲染图像和第二渲染图像进行合成,具体的图像合成方式可以基于实际需求选择,对此不作限定。
通过本申请实施例,采用预训练的目标背景辐射场网络和目标人脸辐射场网络来进行图像渲染,能够使得背景信息参与到人脸重建图像的渲染合成,且无需专业设备拍摄的图像,从而高效地渲染得到人脸重建图像,使得获得的人脸重建图像的真实感更强。
一些实施例中,当执行上述步骤12和步骤13中的渲染过程时,可以根据如下的颜色渲染方程(1)与深度预测方程(2),分别得到渲染图像与深度图:
其中,Ti表示第一射线或第二射线对应的待渲染像素的光线路径的累积透明度;τi表示采样点i的体密度;δi=ti+1-ti,表示采样点i+1和采样点i之间的距离,ti表示采样点i到对应射线原点的距离;ci表示采样点i的颜色值;N表示第一射线或第二射线上的采样点的个数。
本申请实施例中,可以预先训练得到上述的目标背景辐射场网络和目标人脸辐射场网络。在步骤11之前,所述人脸重建方法还包括:
获取目标人物的多个样本图像;
对多个样本图像进行分割,获得所述多个样本图像的多个背景图像和多个前景图像,以及根据拍摄多个样本图像时的惯性测量单元(Inertial Measurement Unit,IMU)数据,确定所述多个样本图像的摄像设备的位姿;所述前景图像可理解为动态人脸图像;
根据所述多个背景图像和所述摄像设备的位姿,训练得到所述目标背景辐射场网络,以及根据所述多个前景图像和所述目标人物的脸部系数,训练得到所述目标人脸辐射场网络。
这样,通过将背景辐射场网络和人脸辐射场网络分开训练,可以使得背景信息也参与到图像合成渲染,使得生成图像的真实感更强。
这里,所述目标人物与待人脸重建的人物相关,具体可选为待人脸重建的人物。当获取目标人物的多个样本图像时,可以采用摄像设备(比如相机、手机中摄像头等)直接拍摄得到所述多个样本图像,也可以先采用摄像设备(比如相机、手机中摄像头等)拍摄一段肩部以上动态人脸视频,然后从拍摄的视频中选取关键帧作为样本图像。
比如,在执行模型训练之前,可以首先,采用移动端设备(比如手机或者平板)拍摄一段肩部以上动态人脸视频,期间目标人物可以说话,头部可以左右摆动,移动端设备可以同时移动,此移动非快速且大幅度,并记录每个时刻对应的图像和深度图以及此拍摄时间内的IMU数据;其次,分割每帧图像的前后景物,获得背景图像和前景图像,以将动态人体与静态背景区分开,避免动态人体影响相机位姿计算的精度;比如,可采用相关算法分割每帧图像;然后,采用同步定位与地图构建(Simultaneous Localization And Mapping,SLAM)算法(例如VINS),基于分割后的背景图像与IMU数据,计算得到移动端设备的位置姿态(即位姿),并生成W个关键帧序列{Ij,Dj,Tj},其中Ij表示关键帧图像j,Dj表示对应的深度图,Tj表示对应的位姿。这样利用SLAM算法处理视频输出拍摄设备的位姿,可以放宽用户拍摄要求,允许拍摄设备和人脸都可以运动。
需指出的,摄像设备的位姿精度直接影响了图像渲染的精度。由于图像分割、IMU数据等常存在误差,导致确定的摄像设备位姿也存在误差。为了提升图像渲染精度,可以提高摄像设备位姿的精度,可以在训练背景辐射场网络时优化摄像设备位姿。
可选的,上述根据所述多个背景图像和所述摄像设备的位姿,训练得到所述目标背景辐射场网络的过程可以包括:
针对所述多个背景图像中的每个背景图像,如图3所示,循环执行以下过程,直至满足收敛条件,获得所述目标背景辐射场网络:
根据所述摄像设备的位姿,确定所述背景图像的多条背景射线,所述多条背景射线与背景图像的多个像素分别对应,所述多条背景射线中的每条背景射线包括多个第一采样点;比如,对于背景图像中的一个像素[u,v],将其投影到摄像设备坐标系中的对应射线可以表示为r=TwcK-1[u,v],Twc表示摄像设备的位姿,K表示摄像设备的内参;
将每条背景射线上的多个第一采样点输入到背景辐射场网络中进行渲染,获得背景渲染图像和背景渲染深度图;
根据所述背景图像与所述背景渲染图像的差异,确定第一颜色损失,以及根据所述背景图像的背景深度图与所述背景渲染深度图的差异,确定第一深度损失;
根据所述第一颜色损失和所述第一深度损失,更新摄像设备的位姿和背景辐射场网络的参数。
这样,借助更新/优化摄像设备的位姿,可以提升后续图像渲染的精度,进而提升训练得到的目标背景辐射场网络的效果。
这里,所述收敛条件可以预先设置,比如为循环次数达到预设阈值或损失值低于预设阈值等。
所述多条背景射线的条数可以与相应背景图像中的像素的个数相同,即针对相应背景图像中的每个像素分别形成与其对应的背景射线。所述多条背景射线中的每条背景射线为由拍摄设备指向对应像素的射线,即每条背景射线的方向为拍摄设备指向对应像素的方向。
所述将每条背景射线上的多个第一采样点输入到背景辐射场网络中进行渲染的过程可理解为,生成每条背景射线对应的像素的颜色值和深度值的过程。通过将所有的背景射线上的多个第一采样点分别输入到背景辐射场网络中进行渲染,可以得到相应的背景渲染图像和背景渲染深度图。需指出的,此处的渲染过程可以采用如上颜色渲染方程(1)与深度预测方程(2)执行,即其中的i表示第一采样点i,N表示背景射线上的第一采样点的个数(此仅为举例说明,具体训练时,背景射线上的第一采样点的个数也可选为不同于N的其他数值),其他符号的含义类似,在此不再赘述。
由于渲染过程对优化变量都是可微的,故本实施例可以根据颜色的光度误差和深度的几何误差来执行迭代优化。所述第一颜色损失可以根据如下的颜色光度损失函数计算得到:
所述第一深度损失可以根据如下的深度损失函数计算得到:
其中,C(r)表示像素r的真实颜色值;表示渲染得到的像素r的颜色值;D(r)表示像素r的真实深度值;/>表示渲染得到的像素r的深度值;/>表示对应背景图像的深度方差;R表示对应背景图像中所有像素的个数。
进一步的,在获得第一颜色损失lp和第一深度损失lg后,可以采用如下公式确定的损失值l来更新摄像设备的位姿和背景辐射场网络的参数:
l=min(lg+ωplp)
其中,ωp表示预设参数,可以基于实际需求而定。
本实施例中,由于背景图像具有深度信息,故可以根据深度信息来优化每条背景射线上的第一采样点的采样过程。比如,可以采用借鉴Mip-NeRF采样算法来进行采样,但优选在有深度信息的背景表面附近来构建采样区间。
可选的,每条背景射线上的多个第一采样点是在根据背景图像的深度信息确定的近平面和远平面之间的空间内进行采样得到。所述近平面和远平面为背景表面附近的平面,比如可将相对于背景表面深度d增减10%的深度所对应的平面作为近平面和远平面,对应区间为[tn,tf]。这样,可以保证在背景表面附近进行采样,使得获得的采样点更集中,加快模型训练速度。
可选的,所述多个第一采样点分别位于对应背景射线上的多个小区间,所述多个小区间是按照高斯分布划分。比如,可以将近平面和远平面之间的空间[tn,tf]按照高斯分布划分为N个小区间,这N个小区间的边界值按照均值为深度,方差为自定义经验值确定,并在每个小区间内进行采样,即针对每个背景射线获得N个第一采样点。
可选的,上述根据所述多个前景图像和所述目标人物的脸部系数,训练得到所述目标人脸辐射场网络的过程可以包括:
针对所述多个前景图像中的每个前景图像,循环执行以下过程,直至满足收敛条件,获得所述目标人脸辐射场网络:
根据所述摄像设备的目标位姿,确定所述前景图像的多条前景射线,所述多条前景射线与所述前景图像的多个像素分别对应,所述多条前景射线中的每条前景射线包括多个第二采样点;
将每条前景射线上的多个第二采样点以及所述目标人物的脸部系数,输入到人脸辐射场网络中进行渲染,获得前景渲染图像和前景渲染深度图;
根据所述前景图像与所述前景渲染图像的差异,确定第二颜色损失,以及根据所述前景图像的前景深度图与所述前景渲染深度图的差异,确定第二深度损失;
根据所述第二颜色损失和所述第二深度损失,更新所述人脸辐射场网络的参数。
这里,所述收敛条件可以预先设置,比如为循环次数达到预设阈值或损失值低于预设阈值等。
所述目标人物的脸部系数可以通过FLAME人脸模型算法获得,可以包括脸部形状系数β、表情系数和脸部姿态系数θ等。
所述摄像设备的目标位姿可以是在训练得到目标背景辐射场网络时确定,即训练完成时优化得到的摄像设备的位姿。
所述多条前景射线的条数可以与相应前景图像中的像素的个数相同,即针对相应前景图像中的每个像素分别形成与其对应的前景射线。所述多条前景射线中的每条前景射线可以为由拍摄设备指向对应像素的射线,即每条前景射线的方向为拍摄设备指向对应像素的方向。
所述将每条前景射线上的多个第二采样点输入到前景辐射场网络中进行渲染的过程可理解为,生成每条前景射线对应的像素的颜色值和深度值的过程。通过将所有的前景射线上的多个第二采样点分别输入到前景辐射场网络中进行渲染,可以得到相应的前景渲染图像和前景渲染深度图。需指出的,此处的渲染过程可以采用如上颜色渲染方程(1)与深度预测方程(2)执行,即其中的i表示第二采样点i,N表示前景射线上的第二采样点的个数(此仅为举例说明,具体训练时,前景射线上的第二采样点的个数也可选为不同于N的其他数值),其他符号的含义类似,在此不再赘述。
由于渲染过程对优化变量都是可微的,故本实施例可以根据颜色的光度误差和深度的几何误差来执行迭代优化。所述第二颜色损失可以根据如上的颜色光度损失函数(3)计算得到,所述第二深度损失可以根据如上的深度损失函数(4)计算得到。
进一步的,在获得第二颜色损失lp和第二深度损失lg后,可以采用如下公式确定的损失值l来更新人脸辐射场网络的参数:
l=min(lg+ωplp)
其中,ωp表示预设参数,可以基于实际需求而定。
比如,对于一个第二采样点phead,可以将该第二采样点phead、该第二采样点phead对应的前景射线方向目标人物的β、/>和θ,以及隐空间编码γ输入到人脸辐射场网络中进行渲染,输出该第二采样点phead的颜色值和深度值,其中隐空间编码γ为预设值,可选为256维。
可选的,每条前景射线上的多个第二采样点可以是在对应前景射线与前景图像中的人脸区域(或称为:头部区域)的包围盒的远交点和近交点之间的范围内进行采样得到。比如,若前景射线的方向为拍摄设备指向对应像素的方向,则以拍摄设备为起点,分别计算前景射线与前景图像中的人脸区域的包围盒的远交点和近交点,并在远交点和近交点之间的范围内进行采样,以获得第二采样点。
需要说明的是,本申请实施例提供的人脸重建方法,执行主体可以为人脸重建装置,或者该人脸重建装置中的用于执行人脸重建方法的控制模块。本申请实施例中以人脸重建装置执行人脸重建方法为例,说明本申请实施例提供的人脸重建装置。
请参见图4,图4是本申请实施例提供的一种人脸重建装置的结构示意图,该装置应用于电子设备,如图4所示,人脸重建装置40包括:
第一确定模块41,用于根据虚拟拍摄设备的位姿,确定第一射线和第二射线,所述第一射线为与待渲染像素对应的且不与待渲染图像中的人脸区域的包围盒相交的射线,所述第二射线为与待渲染像素对应的且与待渲染图像中的人脸区域的包围盒相交的射线;
第一渲染模块42,用于将第一射线上的多个采样点输入到预训练的目标背景辐射场网络中进行渲染,获得第一渲染图像;
第二渲染模块43,用于将第二射线上的多个采样点以及目标脸部系数,输入到预训练的目标人脸辐射场网络中进行渲染,获得第二渲染图像;
合成模块44,用于对所述第一渲染图像和所述第二渲染图像进行合成,获得人脸重建图像。
可选的,所述第一射线上的多个采样点是根据所述虚拟拍摄设备的感知范围进行采样得到;
和/或,所述第二射线上的多个采样点是在所述第二射线与所述待渲染图像中的人脸区域的包围盒的远交点和近交点之间的范围内进行采样得到。
可选的,所述第一射线和第二射线为由所述虚拟拍摄设备指向对应像素的射线。
可选的,人脸重建装置40还包括:
获取模块,用于获取目标人物的多个样本图像;
分割模块,用于对所述多个样本图像进行分割,获得所述多个样本图像的多个背景图像和多个前景图像;
第二确定模块,用于根据拍摄所述多个样本图像时的惯性测量单元IMU数据,确定所述多个样本图像的摄像设备的位姿;
训练模块,用于根据所述多个背景图像和所述摄像设备的位姿,训练得到所述目标背景辐射场网络,以及根据所述多个前景图像和所述目标人物的脸部系数,训练得到所述目标人脸辐射场网络。
可选的,所述训练模块具体用于针对所述多个背景图像中的每个背景图像,循环执行以下过程,直至满足收敛条件,获得所述目标背景辐射场网络:
根据所述摄像设备的位姿,确定所述背景图像的多条背景射线,所述多条背景射线与所述背景图像的多个像素分别对应,所述多条背景射线中的每条背景射线包括多个第一采样点;
将所述每条背景射线上的多个第一采样点输入到背景辐射场网络中进行渲染,获得背景渲染图像和背景渲染深度图;
根据所述背景图像与所述背景渲染图像的差异,确定第一颜色损失,以及根据所述背景图像的背景深度图与所述背景渲染深度图的差异,确定第一深度损失;
根据所述第一颜色损失和所述第一深度损失,更新所述摄像设备的位姿和所述背景辐射场网络的参数。
可选的,所述多个第一采样点是在根据所述背景图像的深度信息确定的近平面和远平面之间的空间内进行采样得到。
可选的,所述多个第一采样点分别位于对应背景射线上的多个小区间,所述多个小区间是按照高斯分布划分。
可选的,所述训练模块具体用于针对所述多个前景图像中的每个前景图像,循环执行以下过程,直至满足收敛条件,获得所述目标人脸辐射场网络:
根据所述摄像设备的目标位姿,确定所述前景图像的多条前景射线,所述多条前景射线与所述前景图像的多个像素分别对应,所述多条前景射线中的每条前景射线包括多个第二采样点;
将所述每条前景射线上的多个第二采样点以及所述目标人物的脸部系数,输入到人脸辐射场网络中进行渲染,获得前景渲染图像和前景渲染深度图;
根据所述前景图像与所述前景渲染图像的差异,确定第二颜色损失,以及根据所述前景图像的前景深度图与所述前景渲染深度图的差异,确定第二深度损失;
根据所述第二颜色损失和所述第二深度损失,更新所述人脸辐射场网络的参数。
可选的,所述多个第二采样点是在对应前景射线与所述前景图像中的人脸区域的包围盒的远交点和近交点之间的范围内进行采样得到。
可选的,所述摄像设备的目标位姿是在训练得到所述目标背景辐射场网络时确定。
本申请实施例的人脸重建装置40,可以实现上述图1所示的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,如图5所示,本申请实施例还提供一种电子设备50,包括处理器51,存储器52,存储在存储器52上并可在所述处理器51上运行的程序或指令,该程序或指令被处理器51执行时实现上述人脸重建方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供了一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时可实现上述人脸重建方法实施例的各个过程且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台服务分类设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种人脸重建方法,应用于电子设备,其特征在于,包括:
根据虚拟拍摄设备的位姿,确定第一射线和第二射线,其中,所述第一射线为与待渲染像素对应的且不与待渲染图像中的人脸区域的包围盒相交的射线,所述第二射线为与待渲染像素对应的且与待渲染图像中的人脸区域的包围盒相交的射线;
将所述第一射线上的多个采样点输入到预训练的目标背景辐射场网络中进行渲染,获得第一渲染图像;
将所述第二射线上的多个采样点以及目标脸部系数,输入到预训练的目标人脸辐射场网络中进行渲染,获得第二渲染图像;
对所述第一渲染图像和所述第二渲染图像进行合成,获得人脸重建图像。
2.根据权利要求1所述的方法,其特征在于,所述第一射线上的多个采样点是根据所述虚拟拍摄设备的感知范围进行采样得到;
和/或,
所述第二射线上的多个采样点是在所述第二射线与所述待渲染图像中的人脸区域的包围盒的远交点和近交点之间的范围内进行采样得到。
3.根据权利要求1所述的方法,其特征在于,所述第一射线和所述第二射线为由所述虚拟拍摄设备指向对应像素的射线。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标人物的多个样本图像;
对所述多个样本图像进行分割,获得所述多个样本图像的多个背景图像和多个前景图像,以及根据拍摄所述多个样本图像时的惯性测量单元IMU数据,确定所述多个样本图像的摄像设备的位姿;
根据所述多个背景图像和所述摄像设备的位姿,训练得到所述目标背景辐射场网络,以及根据所述多个前景图像和所述目标人物的脸部系数,训练得到所述目标人脸辐射场网络。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个背景图像和所述摄像设备的位姿,训练得到所述目标背景辐射场网络,包括:
针对所述多个背景图像中的每个背景图像,循环执行以下过程,直至满足收敛条件,获得所述目标背景辐射场网络:
根据所述摄像设备的位姿,确定所述背景图像的多条背景射线,所述多条背景射线与所述背景图像的多个像素分别对应,所述多条背景射线中的每条背景射线包括多个第一采样点;
将所述每条背景射线上的多个第一采样点输入到背景辐射场网络中进行渲染,获得背景渲染图像和背景渲染深度图;
根据所述背景图像与所述背景渲染图像的差异,确定第一颜色损失,以及根据所述背景图像的背景深度图与所述背景渲染深度图的差异,确定第一深度损失;
根据所述第一颜色损失和所述第一深度损失,更新所述摄像设备的位姿和所述背景辐射场网络的参数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述多个前景图像和所述目标人物的脸部系数,训练得到所述目标人脸辐射场网络,包括:
针对所述多个前景图像中的每个前景图像,循环执行以下过程,直至满足收敛条件,获得所述目标人脸辐射场网络:
根据所述摄像设备的目标位姿,确定所述前景图像的多条前景射线,所述多条前景射线与所述前景图像的多个像素分别对应,所述多条前景射线中的每条前景射线包括多个第二采样点;
将所述每条前景射线上的多个第二采样点以及所述目标人物的脸部系数,输入到人脸辐射场网络中进行渲染,获得前景渲染图像和前景渲染深度图;
根据所述前景图像与所述前景渲染图像的差异,确定第二颜色损失,以及根据所述前景图像的前景深度图与所述前景渲染深度图的差异,确定第二深度损失;
根据所述第二颜色损失和所述第二深度损失,更新所述人脸辐射场网络的参数。
7.根据权利要求6所述的方法,其特征在于,所述摄像设备的目标位姿是在训练得到所述目标背景辐射场网络时确定。
8.一种人脸重建装置,应用于电子设备,其特征在于,包括:
第一确定模块,用于根据虚拟拍摄设备的位姿,确定第一射线和第二射线,其中,所述第一射线为与待渲染像素对应的且不与待渲染图像中的人脸区域的包围盒相交的射线,所述第二射线为与待渲染像素对应的且与待渲染图像中的人脸区域的包围盒相交的射线;
第一渲染模块,用于将所述第一射线上的多个采样点输入到预训练的目标背景辐射场网络中进行渲染,获得第一渲染图像;
第二渲染模块,用于将所述第二射线上的多个采样点以及目标脸部系数,输入到预训练的目标人脸辐射场网络中进行渲染,获得第二渲染图像;
合成模块,用于对所述第一渲染图像和所述第二渲染图像进行合成,获得人脸重建图像。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的人脸重建方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的人脸重建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942852.1A CN116912393A (zh) | 2023-07-28 | 2023-07-28 | 人脸重建方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942852.1A CN116912393A (zh) | 2023-07-28 | 2023-07-28 | 人脸重建方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912393A true CN116912393A (zh) | 2023-10-20 |
Family
ID=88356464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310942852.1A Pending CN116912393A (zh) | 2023-07-28 | 2023-07-28 | 人脸重建方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912393A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237547A (zh) * | 2023-11-15 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
-
2023
- 2023-07-28 CN CN202310942852.1A patent/CN116912393A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237547A (zh) * | 2023-11-15 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
CN117237547B (zh) * | 2023-11-15 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113706714B (zh) | 基于深度图像和神经辐射场的新视角合成方法 | |
CN110378838B (zh) | 变视角图像生成方法,装置,存储介质及电子设备 | |
US20170278302A1 (en) | Method and device for registering an image to a model | |
CN110689562A (zh) | 一种基于生成对抗网络的轨迹回环检测优化方法 | |
CN110381268B (zh) | 生成视频的方法,装置,存储介质及电子设备 | |
CN113538659A (zh) | 一种图像生成方法、装置、存储介质及设备 | |
JP2016537901A (ja) | ライトフィールド処理方法 | |
CN110276831B (zh) | 三维模型的建构方法和装置、设备、计算机可读存储介质 | |
CN111080776B (zh) | 人体动作三维数据采集和复现的处理方法及系统 | |
CN114049434A (zh) | 一种基于全卷积神经网络的3d建模方法及系统 | |
CN114782628A (zh) | 基于深度相机的室内实时三维重建方法 | |
CN116912393A (zh) | 人脸重建方法、装置、电子设备及可读存储介质 | |
CN116051719A (zh) | 一种基于神经辐射场模型的图像渲染方法及装置 | |
CN114581571A (zh) | 基于imu和前向变形场的单目人体重建方法及装置 | |
CN115131492A (zh) | 目标对象的重光照方法、装置及存储介质和背景替换方法 | |
US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
WO2022201803A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
KR20230150867A (ko) | 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 | |
WO2022217470A1 (en) | Hair rendering system based on deep neural network | |
CN113065506B (zh) | 一种人体姿态识别方法及系统 | |
CN116681839B (zh) | 一种基于改进NeRF的实景三维目标重建与单体化方法 | |
CN116958393A (zh) | 一种增量式图像渲染方法及装置 | |
CN115953476A (zh) | 基于可泛化神经辐射场的人体自由视角合成方法 | |
CN116168393A (zh) | 基于点云神经辐射场的语义标注数据自动生成方法、装置 | |
WO2023086398A1 (en) | 3d rendering networks based on refractive neural radiance fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |