CN113454678A - 三维面部扫描增强 - Google Patents
三维面部扫描增强 Download PDFInfo
- Publication number
- CN113454678A CN113454678A CN202080015378.2A CN202080015378A CN113454678A CN 113454678 A CN113454678 A CN 113454678A CN 202080015378 A CN202080015378 A CN 202080015378A CN 113454678 A CN113454678 A CN 113454678A
- Authority
- CN
- China
- Prior art keywords
- neural network
- map
- quality
- spatial
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001815 facial effect Effects 0.000 title claims description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 182
- 238000000034 method Methods 0.000 claims abstract description 84
- 230000006870 function Effects 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 7
- 238000007781 pre-processing Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000003042 antagnostic effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 241000228740 Procrustes Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/28—Indexing scheme for image data processing or generation, in general involving image processing hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Image Processing (AREA)
Abstract
本说明书描述了使用神经网络增强3D面部数据的方法,以及训练神经网络增强3D面部数据的方法。根据本发明的第一方面,描述了一种训练生成器神经网络以将低质量3D面部扫描转换为高质量3D面部扫描的方法,所述方法包括:将所述生成器神经网络应用于低质量空间UV图,生成候选高质量空间UV图;将鉴别器神经网络应用于所述候选高质量空间UV图,生成重建的候选高质量空间UV图;将所述鉴别器神经网络应用于高质量地面真值空间UV图,生成重建的高质量地面真值空间UV图,其中,所述高质量地面真值空间UV图对应于所述低质量空间UV图;根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较,更新所述生成神经网络的参数;根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较以及所述高质量地面真值空间UV图和所述重建的高质量地面真值空间UV图的比较,更新所述鉴别器神经网络的参数。
Description
技术领域
本说明书描述了使用神经网络增强三维面部数据的方法,以及训练神经网络增强三维面部数据的方法。
背景技术
图像到图像转换是图像处理中普遍存在的问题,在图像到图像转换中,输入图像被转换为保持原始输入图像某些属性的合成图像。图像到图像转换的示例包括将图像从黑白转换为彩色,将白天场景转换为夜间场景,从而提高图像质量和/或处理图像的面部属性。然而,当前执行图像到图像转换的方法仅限于二维(two-dimension,2D)纹理图像。
随着深度摄像机的引入,三维(three-dimension,3D)图像数据的捕获和使用变得越来越普遍。然而,在此类3D图像数据上使用形状到形状转换(图像到图像转换的3D模拟)受到几个因素的限制,包括许多深度摄像机的低质量输出。这在非线性经常存在的3D面部数据中尤其如此。
发明内容
根据本发明的第一方面,描述了一种训练生成器神经网络以将低质量三维面部扫描转换为高质量三维面部扫描的方法,所述方法包括联合训练鉴别器神经网络和生成器神经网络,所述联合训练包括:将所述生成器神经网络应用于低质量空间UV图,生成候选高质量空间UV图;将所述鉴别器神经网络应用于所述候选高质量空间UV图,生成重建的候选高质量空间UV图;将所述鉴别器神经网络应用于高质量地面真值空间UV图,生成重建的高质量地面真值空间UV图,其中,所述高质量地面真值空间UV图对应于所述低质量空间UV图;根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较,更新所述生成器神经网络的参数;根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较以及所述高质量地面真值空间UV图和所述重建的高质量地面真值空间UV图的比较,更新所述鉴别器神经网络的参数。在更新所述参数时,还可以使用所述候选高质量空间UV图和所述对应的地面真值高质量空间UV图之间的比较。
所述生成器神经网络和/或所述鉴别器神经网络可以包括一组编码层和一组解码层,其中,所述编码层用于将输入空间UV图转换为嵌入,所述解码层用于将所述嵌入转换为输出空间UV图。在所述生成器神经网络和所述鉴别器神经网络的所述联合训练期间,一个或多个所述解码层的参数可以是固定的。所述生成器神经网络和/或所述鉴别器神经网络的所述解码层可以包括所述解码层的初始层中的一个或多个跳跃连接。
所述生成器神经网络和/或所述鉴别器神经网络包括可以多个卷积层。所述生成器神经网络和/或所述鉴别器神经网络可以包括一个或多个全连接层。所述生成器神经网络和/或所述鉴别器神经网络可以包括一个或多个上采样层和/或子采样层。所述生成器神经网络和/或所述鉴别器神经网络的网络结构可以相同。
更新所述生成器神经网络的参数还可以根据所述候选高质量空间UV图和所述对应的高质量地面真值空间UV图之间的比较。
更新所述生成器神经网络的参数可以包括:根据所述候选高质量空间UV图与所述对应的重建的候选高质量空间UV图之间的差值,使用生成器损失函数计算生成器损失;将优化过程应用于所述生成器神经网络,以根据所述计算出的生成器损失更新所述生成器神经网络的所述参数。所述生成器损失函数还可以根据所述候选高质量空间UV图与所述对应的高质量地面真值空间UV图之间的差值,计算所述生成器损失。
更新所述鉴别器神经网络的参数可以包括:根据所述候选高质量空间UV图与所述重建的候选高质量空间UV图之间的差值以及所述高质量地面真值空间UV图与所述重建的高质量地面真值空间UV图之间的差值,使用鉴别器损失函数计算鉴别器损失;将优化过程应用于所述鉴别器神经网络,以根据所述计算出的鉴别器损失更新所述鉴别器神经网络的所述参数。
所述方法还可以包括预训练所述鉴别器神经网络,以根据输入高质量地面真值空间UV图重建高质量地面真值空间UV图。
根据本发明的另一方面,描述了一种将低质量三维面部扫描转换为高质量三维面部扫描的方法,所述方法包括:接收面部扫描的低质量空间UV图;将神经网络应用于所述低质量空间UV图;从所述神经网络输出所述面部扫描的高质量空间UV图,其中,所述神经网络是使用根据本文所述的任一种训练方法训练的生成器神经网络。
根据本发明的另一方面,描述了一种装置,包括:一个或多个处理器;存储器,其中,所述存储器包括计算机可读指令,当由一个或多个处理器执行时,所述计算机可读指令使得所述装置执行根据本文描述的方法中的一个或多个方法。
根据本发明的另一方面,描述了一种包括计算机可读指令的计算机程序产品,当由计算机执行时,所述计算机可读指令使得所述计算机执行本文描述的方法中的一个或多个方法。
本文所使用的术语“质量”可以优选地用于表示以下任一个或多个:噪音水平(例如,峰值信噪比);纹理质量;相对于地面真值扫描的误差;3D形状质量(例如,可以指眼睑和/或嘴唇变化等高频细节在3D面部数据中的保留程度)。
附图说明
现在参考附图通过非限制性示例来描述实施例,其中:
图1示出了使用神经网络增强3D面部数据的示例性方法的概述;
图2示出了训练神经网络增强3D面部数据的示例性方法的概述;
图3示出了训练神经网络增强3D面部数据的示例性方法的流程图;
图4示出了预处理3D面部数据的示例性方法的概述;
图5示出了预训练鉴别器神经网络的示例性方法的概述;
图6示出了用于增强3D面部数据的神经网络的结构的示例;
图7示出了计算系统的示意图示例。
具体实施方式
一些3D摄像机系统捕获到的原始3D面部扫描通常质量较低,例如,表面细节较少和/或比较嘈杂。例如,这可能是摄像机用于捕获3D面部扫描的方法的结果,或者是由于3D摄像机系统的技术限制。但是,使用面部扫描的应用程序可以要求扫描的质量高于3D摄像机系统捕获到的面部扫描。
图1示出了使用神经网络增强3D面部数据的示例性方法的概述。所述方法还包括接收低质量3D面部数据102,并使用神经网络106根据低质量3D面部数据102生成高质量3D面部数据104。
低质量3D面部数据102可以包括低质量3D面部扫描的UV图。或者,低质量3D面部数据102可以包括表示低质量3D面部扫描的3D网格。在预处理步骤108中,3D网格可以转换成UV图。下面结合图4描述这种预处理步骤的示例。
空间UV图是3D表面或网格的二维表示。3D空间中的各点(例如,由坐标(x,y,z)描述)映射到二维空间(由坐标(u,v)描述)上。UV图可以是通过将3D空间中的3D网格展开到二维UV空间中的u-v平面上形成的。在一些实施例中,3D空间中的3D网格的坐标(x,y,z)存储为UV空间中相应点的RGB值。使用空间UV图可以有利于在提高3D扫描质量时使用二维卷积,而不是使用几何深度学习方法,这样往往主要保留3D网格的低频细节。
神经网络106包括多层节点,每个节点与一个或多个参数相关联。神经网络的每个节点的参数可以包括一个或多个权重和/或偏差。节点取上一层中节点的一个或多个输出作为输入。上一层中节点的一个或多个输出由节点用来通过激活函数和神经网络的参数生成激活值。
神经网络106可以具有自动编码器架构。下面结合图6描述神经网络架构的各个示例。
神经网络106的参数可以使用生成对抗训练进行训练,并且神经网络106因此可以称为生成对抗网络(Generative Adversarial Network,GAN)。神经网络106可以是生成对抗训练的生成网络。下面结合图3至图5描述训练方法的各个示例。
神经网络使用低质量3D面部扫描的UV图生成高质量3D面部数据104。高质量3D面部数据104可以包括高质量UV图。高质量UV图可以在后处理步骤110中转换为高质量3D空间网格。
图2示出了训练神经网络增强3D面部数据的示例性方法的概述。方法200包括以对抗方式联合训练生成器神经网络202和鉴别器神经网络204。在训练期间,生成器神经网络202的目的是学习根据输入低质量UV面部图(在本文中也称为低质量空间UV图)208生成高质量UV面部图206,这些低质量UV面部图208接近对应的地面真值UV面部图(在本文中也称为真实高质量UV面部图和/或高质量地面真值空间UV图)210。低质量空间UV图x和高质量地面真值空间UV图y的对集{(x,y)}可以称为训练集/数据。可以使用预处理方法根据原始面部扫描构建训练数据集,如下文结合图4更详细地描述。
在训练期间,鉴别器神经网络204的目的是学习区分地面真值UV面部图210和生成的高质量UV面部图206(在本文中也称为假高质量UV面部图或候选高质量空间UV图)。鉴别器神经网络204可以具有自动编码器结构。
在一些实施例中,鉴别器神经网络204可以对预训练数据进行预训练,如下文结合图5所述。在鉴别器神经网络204和生成器神经网络202的结构相同的实施例中,经过预训练的鉴别器神经网络204的参数可用于初始化鉴别器神经网络204和生成器神经网络202两者。
在训练过程中,生成器神经网络202和鉴别器神经网络204相互竞争,直到它们达到阈值/平衡条件。例如,生成器神经网络202和鉴别器神经网络204相互竞争,直到鉴别器神经网络204不能再区分真假UV面部图。
在训练过程中,生成器神经网络202应用于从训练数据中获取的低质量空间UV图208,x。生成器神经网络的输出是对应的候选高质量空间UV图206,G(x)。
鉴别器神经网络204应用于候选高质量空间UV图206,生成重建的候选高质量空间UV图212,D(G(x))。鉴别器神经网络204还应用于对应于低质量空间UV图208,x的高质量地面真值空间UV图210,y,生成重建的高质量地面真值空间UV图214,D(y)。
将候选高质量空间UV图206,G(x)和重建的候选高质量空间UV图212,D(G(x))进行比较,并使用所述比较结果更新生成器神经网络的参数。还可以将高质量地面真值空间UV图210,y和重建的高质量地面真值空间UV图214,D(y)进行比较,并将候选高质量空间UV图206和重建的候选高质量空间UV图212进行比较,两种比较结果一起用于更新鉴别器神经网络的参数。可以使用一个或多个损失函数执行比较。在一些实施例中,使用将生成器神经网络202和鉴别器神经网络204应用于多对低质量空间UV图208和高质量地面真值空间UV图210的结果计算损失函数。
在一些实施例中,可以使用对抗损失函数。对抗损失的一个示例是BEGAN损失。生成器神经网络的损失函数(在本文中也称为生成器损失)和鉴别器神经网络的损失函数(在本文中也称为鉴别器损失)可以由以下公式给出:
其中,t标记更新迭代(例如,对于网络的第一次更新,t=0,对于网络的第二组更新,t=1),表示将鉴别器的输入z与对应输出D(z)相比较的度量,kt是控制应该对£(G(x))施加多少权重的参数,λk是kt的学习率,γ∈[0,1]是控制平衡的超参数。超参数可以取值γ=0.5和λ=10,kt的值初始化为0.001。但是,也可以使用其它值。在一些实施例中,度量£(z)由给出,尽管将理解其它示例是可能的。表示训练数据集合的期望值。
在一些实施例中,更新生成器神经网络的参数还可以根据候选高质量空间UV图206和高质量地面真值空间UV图210之间的比较。可以使用生成器损失中的附加项来执行比较,附加项在本文中称为重建损失然后,完全生成器损失可由以下公式给出:
比较可用于使用旨在将上述损失函数减至最小的优化过程/方法更新生成器和/或鉴别器神经网络的参数。这种方法的一个示例是梯度下降算法。优化方法的特征可以是学习率,该学习率表征了在算法每次迭代期间所用步长的“大小”。在使用梯度下降的一些实施例中,对于生成器神经网络和鉴别器神经网络,学习率最初可以设置为5e(-5)。
在训练期间,训练过程的学习率可以在阈值数量的周期(epoch)和/或迭代之后改变。每N次迭代后,学习率可能会下降给定的因子。例如,每30个训练周期后,学习率可能会下降5%。
不同的学习率可用于神经网络202、204的不同层。例如,在鉴别器神经网络204已经经过预先训练的实施例中,鉴别器神经网络204和/或生成器神经网络202的一个或多个层可以在训练过程中被冻结(即,学习率为0)。鉴别器神经网络204和/或生成器神经网络202的解码器层可以在训练过程中被冻结。神经网络202、204的编码器和瓶颈部分可以具有小的学习率,以防止它们的值与预训练中发现的值偏差很大。这些学习率可以减少训练时间并提高经过训练的生成器神经网络106的精度。
训练过程可以是迭代的,直到满足阈值条件。例如,阈值条件可以是迭代和/或周期的阈值数量。例如,可以针对300个周期执行训练。可选地或另外地,阈值条件可以是损失函数各自被优化到其最小值的阈值内。
图3为训练神经网络以将低质量3D面部扫描转换为高质量3D面部扫描的示例性方法的流程图。流程图对应于上述结合图2描述的方法。
在操作3.1中,将生成器神经网络应用于低质量空间UV图,生成候选高质量空间UV图。生成器神经网络可以具有自动编码器结构,并包括一组编码器层和一组解码器层,其中,所述编码器层用于生成低质量空间UV图的嵌入,所述解码器层用于根据嵌入生成候选高质量空间UV图。生成器神经网络由生成器神经网络参数(例如,生成器神经网络中神经网络节点的权重和偏差)集描述。
在操作3.2中,将鉴别器神经网络应用于候选高质量空间UV图,生成重建的候选高质量空间UV图。鉴别器神经网络可以具有自动编码器结构,并包括一组编码器层和一组解码器层,其中,所述编码器层用于生成输入空间UV图的嵌入,所述解码器层用于根据嵌入生成输出高质量空间UV图。鉴别器神经网络由鉴别器神经网络参数(例如,鉴别器神经网络中神经网络节点的权重和偏差)集描述。
在操作3.3中,将所述鉴别器神经网络应用于高质量地面真值空间UV图,生成重建的高质量地面真值空间UV图,其中,高质量地面真值空间UV图对应于低质量空间UV图。高质量地面真值空间UV图和低质量空间UV图可以是来自训练数据集中的训练对,两者都代表相同的对象,但以不同的质量捕获(例如,由不同的3D摄像机系统捕获)。
在操作3.4中,根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较,更新所述生成器神经网络的参数。比较可以通过生成器损失函数执行。优化过程,如梯度下降,可以应用于损失函数,以确定对生成器神经网络参数进行更新。在更新生成器神经网络的参数时,还可以使用所述候选高质量空间UV图与所述对应的地面真值高质量空间UV图之间的比较。
在操作3.5中,根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较以及所述高质量地面真值空间UV图和所述重建的高质量地面真值空间UV图的比较,更新所述鉴别器神经网络的参数。上述比较可以由鉴别器损失函数执行。优化过程,如梯度下降,可以应用于损失函数,以确定对鉴别器神经网络参数进行更新。
操作3.1至操作3.5可以是迭代的,直到满足阈值条件。在每次迭代期间,可以使用来自训练数据集的不同空间UV图。
图4示出了预处理3D面部数据的示例性方法的概述。在一些实施例中,原始3D面部数据不能由本文描述的神经网络直接处理。预处理步骤400用于将该原始3D数据转换为可由生成器和/或鉴别器神经网络处理的UV面部图。下面的描述将从预处理训练数据的角度描述预处理方法,但很明显,该方法的元素可以同样地应用于增强3D面部数据的方法,例如,如上文结合图1所述。
在训练神经网络之前,在训练数据集中识别高质量原始扫描(yr)和低质量原始扫描(xr)402对。相应的网格对描绘了相同的主题,但在顶点数和三角测量方面具有不同的结构(例如,拓扑)。请注意,高质量原始扫描的顶点数不一定大于低质量原始扫描的顶点数;正确体现人脸特征是决定整体扫描质量的关键。例如,一些生成具有大量顶点的扫描的扫描仪可能会使用导致不必要点相互叠加的方法,从而生成表面细节较少的复杂图形。在一些实施例中,高质量的原始扫描(yr)也以这种方式进行预处理。3D
高质量原始扫描(yr)和低质量原始扫描(xr)(402)各自映射到模板404(T),该模板404(T)以相同的拓扑描述这两个扫描。这些模板的一个示例是LSFM模型。模板包括多个顶点,足以描绘高层次的面部细节(在LSFM模型的示例中,有54000个顶点)。
在训练期间,高质量原始扫描(yr)和低质量原始扫描(xr)402的原始扫描通过将模板网格404非刚性地变成每个原始扫描,从而具有对应关系。模板网格的非刚性变形可以使用最优步长非刚性迭代最近点(Non-rigid Iterative Closest Point,NICP)算法等执行。例如,顶点可以根据从面部扫描中的给定特征(例如鼻尖)测量的欧几里德距离加权。例如,从鼻尖到给定顶点的距离越大,分配给该顶点的权重就越大。这样可以帮助删除原始扫描外部区域内的面部扫描中记录的嘈杂信息。
然后,面部扫描的网格被转换为稀疏空间UV图406。UV图通常用于存储纹理信息。在此方法中,网格每个顶点的空间位置表示为UV空间中的RBG值。网格将展开到UV空间中,以获取网格顶点的UV坐标。例如,可以使用最佳的圆柱形展开技术来展开网格。
在一些实施例中,在将3D坐标存储在UV空间中之前,通过执行通用普氏分析(GeneralProcrustes Analysis,GPA)来对齐网格。网格也可以归一化为[-1,1]比例。
然后,稀疏空间UV图406转换为具有更多顶点数的插值UV图408。可以在UV域中使用二维插值来填充缺失区域,以产生最初稀疏UV图406的密集图示。这种插值方法的示例包括二维最近点插值或重心插值。
在顶点数大于50000的实施例中,UV图大小可以选择为256×256×3,这样可以帮助检索具有可忽略的重采样误差的高精度点云。
图5示出了预训练鉴别器神经网络500的示例性方法的概述.在一些实施例中,鉴别器神经网络204在与生成器神经网络202进行对抗训练之前经过预训练。预训练鉴别器神经网络204可以减少生成对抗训练中模式崩溃的发生。
鉴别器神经网络204在高质量的真实面部UV图502上进行预训练。将真实高质量空间UV图502输入到鉴别器神经网络204中,鉴别器神经网络204生成真实高质量空间UV图502的嵌入,并根据嵌入生成重建的真实高质量空间UV图504。根据真实高质量空间UV图502和重建的真实高质量空间UV图504的比较,更新鉴别器神经网络204的参数。鉴别器损失函数506可以用于将真实高质量空间UV图502和重建的真实高质量空间UV图504进行比较,例如,
鉴别器神经网络204经过预训练的数据(即,预训练数据)可以与上述对抗训练中使用的训练数据不同。例如,预训练期间使用的批处理大小可以是16。
可以执行预训练,直到满足阈值条件。阈值条件可以是训练周期的阈值数量。例如,可以针对300个周期执行预训练。学习率可能会在小于阈值的数量的周期后改变,例如每30个周期改变一次。
可以根据经过预训练的鉴别器神经网络的参数选择鉴别器神经网络204和生成器神经网络202的初始参数。
图6示出了用于增强3D面部数据的神经网络的结构的示例。这样的神经网络架构可用于鉴别器神经网络204和/或生成器神经网络202。
在这个示例中,神经网络106的形式是自动编码器。神经网络包括一组编码器层600,用于根据面部扫描的输入UV图604生成嵌入602。神经网络还包括一组解码器层608,用于根据嵌入602生成面部扫描的输出UV图610。
编码器层600和解码器层608各自包括多个卷积层612。每个卷积层612可用于将一个或多个卷积滤波器应用到卷积层612的输入。例如,一个或多个卷积层612可以应用内核大小为3、步长为1和填充大小为1的二维卷积块。但是,可以选择或替代地使用其它内核大小、步长和填充大小。在所示的示例中,编码层600中总共有12个卷积层612,解码层608中总共有13个卷积层612。也可以使用其它数量的卷积层612。
与编码器层600的卷积层612交错的是多个子采样层614(在本文中也称为下采样层)。一个或多个卷积层612可以位于各个子采样层614之间。在所示的示例中,各子采样层614之间放置两个卷积层612。每个子采样层614可用于减小到该子采样层的输入的尺寸。例如,一个或多个子采样层可以应用内核大小和步长大小为2的平均二维池化。然而,可以选择或替代地使用其它子采样方法和/或子采样参数。
一个或多个全连接层616也可以存在于编码器层600中,例如作为输出嵌入602的编码器层的最后一层(即,在自动编码器的瓶颈处)。全连接层616将输入张量投射到本征向量,或者反之亦然。
通过执行一系列卷积和子采样操作,然后由全连接层616生成大小为h(瓶颈大小为h)的嵌入602,编码器层600作用于面部扫描的输入UV图604(在此示例中,包括256×256×3张量,即256×256个RBG值,尽管也可能是其它大小)上。在所示的示例中,h等于128。
与解码器层608的卷积层612交错的是多个上采样层618。一个或多个卷积层612可以位于各个上采样层618之间。在所示的示例中,在上采样层618之间应用两个卷积层612。每个上采样层618用于增大该上采样层的输入维度。例如,上采样层618中的一个或多个上采样层可以应用具有比例因子2的最近邻方法。然而,可以选择或替代地使用其它上采样方法和/或上采样参数(例如,比例因子)。
一个或多个全连接层616也可以存在于解码器层608中,例如将嵌入602作为输入的编码器层的初始层(即,在自动编码器的瓶颈处)。
解码器层608还可以包括一个或多个跳跃连接620。跳跃连接620将给定层的输出/输入注入(inject)到后一层的输入中。在所示的示例中,跳跃连接将初始全连接层616的输出注入到第一上调层618a和第二上调层618b中。当使用神经网络106的输出UV图602时,可以产生更引人注目的视觉结果。
一个或多个激活函数用于神经网络106的各层中。例如,可以使用ELU激活函数。此外或替代地,可以在一个或多个层中使用Tanh激活函数。在一些实施例中,神经网络的最后一层可以使用Tanh激活函数。此外或替代地,可以使用其它激活功能。
图7示出了用于执行本文描述的任何方法的系统/装置的示意性示例。所示的系统/装置是计算设备的示例。本领域技术人员将理解,其它类型的计算设备/系统可替代地用于实现本文所述的方法,例如分布式计算系统。
装置(或系统)700包括一个或多个处理器702。一个或多个处理器控制系统/装置700的其它组件的操作。一个或多个处理器702例如可以包括通用处理器。一个或多个处理器702可以是单核设备或多核设备。一个或多个处理器702可以包括中央处理单元(centralprocessing unit,CPU)或图形处理单元(graphical processing unit,GPU)。或者,一个或多个处理器702可以包括专用处理硬件,例如RISC处理器或具有嵌入式固件的可编程硬件。可以包括多个处理器。
系统/装置包括工作或易失性存储器704。一个或多个处理器可以访问易失性存储器704,以便处理数据,并且可以控制将数据存储在存储器中。易失性存储器704可以包括任何类型的RAM,例如静态RAM(Static RAM,SRAM)、动态RAM(Dynamic RAM,DRAM),或者可以包括闪存,例如SD卡。
系统/装置包括非易失性存储器706。非易失性存储器706存储一组操作指令708,用于以计算机可读指令的形式控制处理器702的操作。非易失性存储器706可以是任何类型的存储器,例如只读存储器(read only memory,ROM)、闪存或磁驱动存储器。
一个或多个处理器702用于执行操作指令408以使系统/装置执行本文所述的任何方法。操作指令708可以包括与系统/装置700的硬件组件有关的代码(即,驱动程序),以及与系统/装置700的基本操作有关的代码。一般来说,一个或多个处理器702使用易失性存储器704来临时存储在执行所述操作指令708期间生成的数据,从而执行永久或半永久存储在非易失性存储器706中的操作指令708的一个或多个指令。
本文描述的方法的实现可以在数字电子电路、集成电路、专门设计的专用集成电路(application specific integrated circuit,ASIC)、计算机硬件、固件、软件和/或其组合中实现,这些可以包括计算机程序产品(例如,存储在例如磁盘、光盘、存储器、可编程逻辑器件上的软件),包括计算机可读指令,当由计算机(例如结合图7描述的计算机)执行时,使所述计算机执行本文所述的一个或多个方法。
本文描述的任何系统特征也可以作为方法特征提供,反之亦然。如本文所使用,装置加功能特征可以根据它们的相应结构来表示。具体地,方法方面可以应用于系统方面,反之亦然。
此外,一个方面中的任何、一些和/或所有特征可以以任何适当的组合应用于任何其它方面中的任何、一些和/或所有特征。还应理解,在本发明的任何方面中描述和定义的各种特征的特定组合可以独立地实现和/或提供和/或使用。
虽然已经示出和描述了几个实施例,但本领域技术人员将理解,在不背离本公开的原理的情况下,可以在这些实施例中进行改变,其范围在权利要求中定义。
Claims (16)
1.一种训练生成器神经网络以将低质量三维面部扫描转换为高质量三维面部扫描的方法,所述方法包括联合训练鉴别器神经网络和生成器神经网络,其特征在于,所述联合训练包括:
将所述生成器神经网络应用于低质量空间UV图,生成候选高质量空间UV图;
将所述鉴别器神经网络应用于所述候选高质量空间UV图,生成重建的候选高质量空间UV图;
将所述鉴别器神经网络应用于高质量地面真值空间UV图,生成重建的高质量地面真值空间UV图,其中,所述高质量地面真值空间UV图对应于所述低质量空间UV图;
根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较,更新所述生成器神经网络的参数;
根据所述候选高质量空间UV图和所述重建的候选高质量空间UV图的比较以及所述高质量地面真值空间UV图和所述重建的高质量地面真值空间UV图的比较,更新所述鉴别器神经网络的参数。
2.根据权利要求1所述的方法,其特征在于,所述生成器神经网络和/或所述
鉴别器神经网络包括一组编码层和一组解码层,其中,所述编码层用于将输入空间UV图转换为嵌入,所述解码层用于将所述嵌入转换为输出空间UV图。
3.根据权利要求2所述的方法,其特征在于,在所述生成器神经网络和所述鉴别器神经网络的所述联合训练期间,一个或多个所述解码层的参数是固定的。
4.根据权利要求2或3所述的方法,其特征在于,所述生成器神经网络和/或所述鉴别器神经网络的所述解码层包括所述解码层的初始层中的一个或多个跳跃连接。
5.根据上述权利要求中任一项所述的方法,其特征在于,所述生成器神经网络和/或所述鉴别器神经网络包括多个卷积层。
6.根据上述权利要求中任一项所述的方法,其特征在于,所述生成器神经网络和/或所述鉴别器神经网络包括一个或多个全连接层。
7.根据上述权利要求中任一项所述的方法,其特征在于,所述生成器神经网络和/或所述鉴别器神经网络包括一个或多个上采样层和/或子采样层。
8.根据上述权利要求中任一项所述的方法,其特征在于,所述生成器神经网络和/或所述鉴别器神经网络的网络结构相同。
9.根据上述权利要求中任一项所述的方法,其特征在于,更新所述生成器神经网络的参数还根据所述候选高质量空间UV图和所述对应的高质量地面真值空间UV图之间的比较。
10.根据上述权利要求中任一项所述的方法,其特征在于,更新所述生成器神经网络的参数包括:
根据所述候选高质量空间UV图与所述对应的重建的候选高质量空间UV图之间的差值,使用生成器损失函数计算生成器损失;
将优化过程应用于所述生成器神经网络,以根据所述计算出的生成器损失更新所述生成器神经网络的所述参数。
11.根据权利要求10所述的方法,其特征在于,所述生成器损失函数还根据所述候选高质量空间UV图与所述对应的高质量地面真值空间UV图之间的差值,计算所述生成器损失。
12.根据上述权利要求中任一项所述的方法,其特征在于,更新所述鉴别器神经网络的参数包括:
根据所述候选高质量空间UV图与所述重建的候选高质量空间UV图之间的差值以及所述高质量地面真值空间UV图与所述重建的高质量地面真值空间UV图之间的差值,使用鉴别器损失函数计算鉴别器损失;
将优化过程应用于所述鉴别器神经网络,以根据所述计算出的鉴别器损失更新所述鉴别器神经网络的所述参数。
13.根据上述权利要求中任一项所述的方法,其特征在于,还包括预训练所述鉴别器神经网络,以根据输入高质量地面真值空间UV图重建高质量地面真值空间UV图。
14.一种将低质量三维面部扫描转换为高质量三维面部扫描的方法,其特征在于,所述方法包括:
接收面部扫描的低质量空间UV图;
将神经网络应用于所述低质量空间UV图;
从所述神经网络输出所述面部扫描的高质量空间UV图,
其中,所述神经网络是使用根据权利要求1至13中任一项所述的方法训练的生成器神经网络。
15.一种装置,其特征在于,包括:
一个或多个处理器;
存储器,
其中,所述存储器包括计算机可读指令,当由所述一个或多个处理器执行时,所述计算机可读指令使得所述装置执行根据上述权利要求中任一项所述的方法。
16.一种包括计算机可读指令的计算机程序产品,其特征在于,当由计算执行时,所述计算机可读指令使得所述计算执行根据权利要求1至14中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1903017.0 | 2019-03-06 | ||
GB1903017.0A GB2581991B (en) | 2019-03-06 | 2019-03-06 | Enhancement of three-dimensional facial scans |
PCT/GB2020/050525 WO2020178591A1 (en) | 2019-03-06 | 2020-03-05 | Enhancement of three-dimensional facial scans |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113454678A true CN113454678A (zh) | 2021-09-28 |
Family
ID=66377375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080015378.2A Pending CN113454678A (zh) | 2019-03-06 | 2020-03-05 | 三维面部扫描增强 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220172421A1 (zh) |
EP (1) | EP3912125A1 (zh) |
CN (1) | CN113454678A (zh) |
GB (1) | GB2581991B (zh) |
WO (1) | WO2020178591A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2581991B (en) * | 2019-03-06 | 2022-06-01 | Huawei Tech Co Ltd | Enhancement of three-dimensional facial scans |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292950A (zh) * | 2017-06-08 | 2017-10-24 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络的端到端三维人脸重建方法 |
CN107844760A (zh) * | 2017-10-24 | 2018-03-27 | 西安交通大学 | 基于曲面法向分量图神经网络表示的三维人脸识别方法 |
US20180247201A1 (en) * | 2017-02-28 | 2018-08-30 | Nvidia Corporation | Systems and methods for image-to-image translation using variational autoencoders |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017223530A1 (en) * | 2016-06-23 | 2017-12-28 | LoomAi, Inc. | Systems and methods for generating computer ready animation models of a human head from captured data images |
WO2018053340A1 (en) * | 2016-09-15 | 2018-03-22 | Twitter, Inc. | Super resolution using a generative adversarial network |
EP3555812B1 (en) * | 2016-12-15 | 2022-07-06 | Google LLC | Transforming source domain images into target domain images |
CN107633218B (zh) * | 2017-09-08 | 2021-06-08 | 百度在线网络技术(北京)有限公司 | 用于生成图像的方法和装置 |
EP3881243A4 (en) * | 2018-11-15 | 2022-07-27 | Uveye Ltd. | ANOMALIES DETECTION METHOD AND SYSTEM THEREOF |
GB2581991B (en) * | 2019-03-06 | 2022-06-01 | Huawei Tech Co Ltd | Enhancement of three-dimensional facial scans |
GB2585708B (en) * | 2019-07-15 | 2022-07-06 | Huawei Tech Co Ltd | Generating three-dimensional facial data |
US11354774B2 (en) * | 2020-10-06 | 2022-06-07 | Unity Technologies Sf | Facial model mapping with a neural network trained on varying levels of detail of facial scans |
US20220377257A1 (en) * | 2021-05-18 | 2022-11-24 | Microsoft Technology Licensing, Llc | Realistic personalized style transfer in image processing |
-
2019
- 2019-03-06 GB GB1903017.0A patent/GB2581991B/en active Active
-
2020
- 2020-03-05 EP EP20711262.4A patent/EP3912125A1/en active Pending
- 2020-03-05 CN CN202080015378.2A patent/CN113454678A/zh active Pending
- 2020-03-05 WO PCT/GB2020/050525 patent/WO2020178591A1/en unknown
- 2020-03-05 US US17/436,793 patent/US20220172421A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247201A1 (en) * | 2017-02-28 | 2018-08-30 | Nvidia Corporation | Systems and methods for image-to-image translation using variational autoencoders |
CN107292950A (zh) * | 2017-06-08 | 2017-10-24 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络的端到端三维人脸重建方法 |
CN107844760A (zh) * | 2017-10-24 | 2018-03-27 | 西安交通大学 | 基于曲面法向分量图神经网络表示的三维人脸识别方法 |
Non-Patent Citations (2)
Title |
---|
DAVID BERTHELOT ET AL: ""BEGAN: Boundary Equilibrium Generative Adversarial Networks"", 《ARXIV》, 30 March 2017 (2017-03-30), pages 1 - 3 * |
JIANKANG DENG ET AL: ""UV-GAN: Adversarial Facial UV Map Completion for Pose-invariant Face Recognition"", 《IEEE》, 14 December 2018 (2018-12-14), pages 1 - 3 * |
Also Published As
Publication number | Publication date |
---|---|
EP3912125A1 (en) | 2021-11-24 |
WO2020178591A1 (en) | 2020-09-10 |
US20220172421A1 (en) | 2022-06-02 |
GB201903017D0 (en) | 2019-04-17 |
GB2581991B (en) | 2022-06-01 |
GB2581991A (en) | 2020-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047516B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112215050A (zh) | 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备 | |
CN111899353A (zh) | 一种基于生成对抗网络的三维扫描点云孔洞填补方法 | |
CN114746904A (zh) | 三维人脸重建 | |
CN111835983B (zh) | 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统 | |
JP2007000205A (ja) | 画像処理装置及び画像処理方法並びに画像処理プログラム | |
CA3137297C (en) | Adaptive convolutions in neural networks | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN113284251A (zh) | 一种自适应视角的级联网络三维重建方法及系统 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN113077545A (zh) | 一种基于图卷积的从图像中重建着装人体模型的方法 | |
CN116385281A (zh) | 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法 | |
CN109658508B (zh) | 一种多尺度细节融合的地形合成方法 | |
CN117934524A (zh) | 建筑物轮廓提取方法及装置 | |
CN117252987B (zh) | 一种基于显式和隐式混合编码的动态场景重建方法 | |
CN118154770A (zh) | 基于神经辐射场的单幅树木图像三维重建方法和装置 | |
CN113454678A (zh) | 三维面部扫描增强 | |
CN117593187A (zh) | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 | |
CN116452599A (zh) | 基于轮廓的图像实例分割方法及系统 | |
JP2022189901A (ja) | 学習方法、学習装置、プログラムおよび記録媒体 | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 | |
WO2021228172A1 (en) | Three-dimensional motion estimation | |
CN116030181A (zh) | 3d虚拟形象生成方法与装置 | |
JP7316771B2 (ja) | 学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置 | |
CN114663292A (zh) | 超轻量级图片去雾及识别网络模型、图片去雾及识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |