CN111950477B - 一种基于视频监督的单图像三维人脸重建方法 - Google Patents
一种基于视频监督的单图像三维人脸重建方法 Download PDFInfo
- Publication number
- CN111950477B CN111950477B CN202010824674.9A CN202010824674A CN111950477B CN 111950477 B CN111950477 B CN 111950477B CN 202010824674 A CN202010824674 A CN 202010824674A CN 111950477 B CN111950477 B CN 111950477B
- Authority
- CN
- China
- Prior art keywords
- face
- frame
- video
- shape
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005286 illumination Methods 0.000 claims abstract description 31
- 239000012634 fragment Substances 0.000 claims abstract description 15
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 51
- 238000010586 diagram Methods 0.000 claims description 20
- 238000009877 rendering Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000013519 translation Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000037075 skin appearance Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Molecular Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供了一种基于视频监督的单图像三维人脸重建方法,包括以下步骤:1)构建单图像人脸重建模块:根据视频人脸片段数据集进行训练,训练得到能够从单张人脸图像中重加出基本形状,形状偏移以及反照率图的模型;2)构建姿态光照分解模块:根据视频人脸片段数据集进行训练,得到能够从单张人脸图像中分解出相机姿态和环境光照;3)整体训练框架:包括数据预处理,训练框架设计以及测试三个部分。本发明实现了端到端的基于视频监督的单图像三维人脸重建,本发明方法可以更有效地从一张人脸图像中重建出人脸的三维几何结构,反照率并恢复出相机的姿态和环境光照。
Description
技术领域
本发明属于三维人脸重建领域,具体涉及一种基于视频监督的单图像三维人脸重建方法。
背景技术
单图像三维人脸重建指的是从单目2D图像中分离出人脸的形状身份(中性几何体)、皮肤外观(或反照率)、表情,以及估计场景照明和相机参数,其在视觉和图形学中有着广泛的应用,包括人脸跟踪、情感识别和多媒体相关的交互式图像/视频编辑任务。
然而从单目二维图像中恢复三维几何结构本身是一个病态问题,不同的几何体在不同的视角下也许有着相同的二维投影,为了消除这种歧义性,基于单图像的三维人脸重建方法,如文献1:Richardson E,Sela M,Kimmel R.3D Face Reconstruction byLearning from Synthetic Data[J].2016.引入3DMM人脸先验模型来消除歧义,这可以将三维重建问题转换为回归问题,他们将随机设置的3DMM模型的参数值所得到的人脸重投影回图像平面生成了合成人脸数据集,并在其上进行网络的回归训练。但他们的方法有两个局限性,1、3DMM模型本身只利用一组数据量较小的白人演员的三维激光扫描获得的,这就限制了其对于不同身份以及种族人群的泛化能力。2、由于3DMM本身的缺陷,利用3DMM合成的人脸数据和真实人脸数据之间存在一定的域差,这就导致了在合成人脸数据集上训练得到的网络无法很好地对真实世界的图像进行泛化。文献2:Deng Y,Yang J,Xu S,etal.Accurate 3D Face Reconstruction With Weakly-Supervised Learning:FromSingle Image to Image Set[C].computer vision and pattern recognition,2019:0-0.直接在真实人脸图像数据集上训练,但是他们的方法依赖于人脸关键点的标注,人脸区域掩码的提取以及一个具体的人脸先验模型,这三个子任务的效果都会限制该方法的性能上限,而且,他们的方法训练十分困难,不易操作。文献3:Wu S,Rupprecht C,VedaldiA.Unsupervised Learning of Probably Symmetric Deformable 3D Objects fromImages in the Wild[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2020:1-10.提出一种无约束的人脸重建方案,他们的方法不再依赖于关键点等一系列的图像标注信息,而是通过引入人脸对称性先验,直接探索图像本身潜在的几何线索,尽管他们的方法可以重建出视觉质量较高的结果(如人脸的一些皱纹等几何细节),然而,他们的方法在一些大姿态人脸和极端光照的情形下会失效,而因为对称性先验的引入,导致这些情况下重建出来的结果“过度对称”而不再像一张人脸。基于多视角监督的人脸重建,如文献4:Dou P,Kakadiaris I A.Multi-view 3D facereconstruction with deep recurrent neural networks[J].Image and VisionComputing,2018,80:80-91.通过探索左中右三个视图之间的相关性来发现几何线索从而解决歧义问题,但它们的方法无法用于单图像人脸重建,同时,它们对数据的要求是苛刻的,因为需要为他们提供左中右三个视角下同一个人的同一个表情的照片。视频数据,如智能移动设备拍摄的,监控设备拍摄的等,可以说是一种无穷无尽的资源,同时,即使是视频中的一小段片段也可能包含了足够多的三维信息,因此,解决单图像人脸重建问题,基于视频的监督是一条很有前景的研究道路。文献5:Novotny D,Larlus D,Vedaldi A,etal.Capturing the Geometry of Object Categories from Video Supervision[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2020,42(2):261-275.提出一种基于视频监督的三维物体重建方法,他们利用传统SFM对视频帧序列中的物体进行点云重建,再利用得到的点云进行监督,然而,传统SFM通常是十分耗时的,其所需要的后处理工作也十分繁琐,更重要的是,人脸不同于一般刚性物体,人脸丰富的形变使得难以使用SFM得到有效的稠密点云重建,尽管一些NRSFM算法可以解决形变问题,但这些方法重建的点云依然是稀疏的。文献6:Tewari A,Bernard F,Garrido P,et al.FML:Face ModelLearning from Videos[J].arXiv:Computer Vision and Pattern Recognition,2018.提出一种基于视频监督的人脸模型的学习方法,他们通过最小化多帧之间的像素一致性损失来解决可能存在的歧义问题,然而他们的方法依然依赖于关键点的标注。
发明内容
本发明所要解决的技术问题是针对目前的单图像人脸重建中的歧义问题,提出一种基于视频监督的单图像三维人脸重建方法,包括如下步骤:
步骤1,搭建单图像人脸重建模块:搭建单图像编码网络、形状解码网络、形状偏移解码网络以及反照率解码网络,输入一张人脸图片,输出一个形状深度图,形状偏移深度图以及一个反照率图;
步骤2,搭建姿态光照分解模块:建立光照姿态分解网络,输入一张人脸图片,输出图片中人脸的姿态和图片中环境的整体光照情况;
步骤3,通过对现有视频人脸数据集中每一个视频中的人脸进行检测、跟踪、对齐和切割制作成视频人脸片段数据集,通过重投影渲染以及约束每一个视频片段内的一致性信息来优化单图像人脸重建模块和姿态光照分解模块,利用训练好的单图像人脸重建模块实现单张人脸图像进行三维重建。
步骤1包括以下步骤:
步骤1-1,搭建单图像编码网络FE;
步骤1-2,搭建形状解码网络FS,形状偏移解码网络FΔS,以及反照率解码网络FA;
步骤1-3,对于一张输入的单张人脸图像I,经过单图像编码网络FE后得到3个k维的向量编码,分别为形状向量编码vS、形状偏移向量编码vΔS和反照率向量编码vA,k∈{2n|5≤n≤10,n∈N+},其中N+表示所有自然数的集合,将形状向量编码输入进形状解码网络得到初始形状深度图DS,将形状偏移向量编码输入进形状偏移解码网络得到形状偏移深度图DΔS,将反照率编码输入进反照率解码网络得到反照率图FA(I)
步骤1-1中,所述单图像编码网络包含5个基本块,每个基本块包含一个核大小是4,步长是2,填充是1的卷积层,(每一层卷积都将上一层的输出大小缩小两倍),以及一个组规范化层和一个LeakyReLU层,5个基本块后并列连接3个全连接层,每个全连接层后连接一个Tanh作为激活函数。整个单图像编码网络的输入大小是64×64,输出是3个k维的向量。
步骤1-2中所述的所述的三个解码网络形状解码网络FS,形状偏移解码网络FΔS,以及反照率解码网络FA都由头、身和尾三个部分组成,头是由一个全连接层和一个ReLU层组成,身是由4个基本块组成,每个基本块内包含一个核大小是4,步长是1,填充是0的反卷积,一个ReLU层,一个组规范化层和一个核大小是3,步长和填充都是1的卷积层;尾是由一个双线性上采样层以及三个核大小是5,步长是1,填充是2的卷积层组成;
三个解码网络的输入大小都是一个k维的向量,经过头后变成一个64维的向量,经过身后变成32×32大小的特征图,最后经过尾变成64×64大小的输出,其中形状解码网络和形状偏移解码网络输出的通道数是1,反照率解码网络输出的通道数是3。
步骤2中,所述姿态光照分解网络包括5个基本块,每个基本块内包括一个核大小是4,步长是2,填充是1的卷积层以及一个ReLU层,5个基本块后跟了一个核大小是1,步长是1,填充是0的卷积层,之后继续跟了Tanh激活函数,网络的输出是一个10维的向量,其中前6维表示姿态,姿态是由三个旋转角度(偏航角,俯仰角,旋转角)以及三个平移量即沿x,y,z轴的平移量表示的,后4维表示光照,光照采用朗博漫反射表示,其中第一维表示环境光照系数,第二维表示漫反射系数,第三到四维表示漫反射光源的方向。
步骤3包含以下步骤:
步骤3-1,数据预处理:对文献Chrysos G G,Antonakos E,Snape P,et al.Acomprehensive performance evaluation of deformable face tracking“in-the-wild”[J].International Journal of Computer Vision,2018,126(2-4):198-232.中的提出的现有视频人脸数据集中的每一段视频进行人脸检测和跟踪,检测和跟踪利用文献BewleyA,Ge Z,Ott L,et al.Simple online and realtime tracking[C]//2016 IEEEInternational Conference on Image Processing(ICIP).IEEE,2016:3464-3468.所提出的方法,利用文献Zhu X,Lei Z,Liu X,et al.Face alignment across large poses:A 3dsolution[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:146-155.中的人脸关键点检测方法检测跟踪到的人脸的68个关键点,并根据68个关键点的位置从视频帧中截取人脸,缩放到224×224大小,将处理后的每个视频分成60帧一组的视频片段,制作成视频人脸片段数据集,假设一段视频有F帧,则最终一段视频可以切割成个片段,其中/>表示向下取整,若视频不足60帧,则将其填充(将已有的帧复制到后面)直至多于60帧,填充方式采用“首-尾-尾-首-首...”的填充方式;
步骤3-2,设计训练框架:利用步骤1和步骤2中设计的网络,将人脸视频片段数据集中每一个视频段中的每一帧输入设计好的网络得到视频段的形状深度图{DS}、形状偏移深度图{DΔS}、反照率图{A}以及所有帧的姿态{P}和光照{L},对于每一帧的深度图DS,形状偏移深度图DΔS,计算D=DS+0.1DΔS得到每一帧最终的逐像素的深度图D,将逐像素的深度图D通过已有的深度图到三维网格模型的转换技术得到每一帧的人脸网格模型M,将逐帧的网格模型,反照率图,姿态以及光照输入到文献Kato H,Ushiku Y,Harada T.Neural 3d meshrenderer[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018:3907-3916.中设计的可微分光栅渲染器得到每一帧的重投影渲染结果,计算形状深度图一致性损失lD_cons,反照率图一致性损失lA_cons,帧级像素损失lphoto以及VGG特征损失lvgg,最终计算总损失l:
l=lD_cons+lA_cons+lphoto+lvgg,
通过最小化总损失来训练设计好的网络。
步骤3-3,框架测试:输入单张人脸图像,利用步骤3-1中所述的数据预处理方法得到一张224×224的人脸输入图像,继续将其缩放至64×64以满足网络的输入,将缩放后的人脸图片按照步骤3-2中所述的逐帧处理的方式得到最终的网格模型。
步骤3-1包含以下步骤
步骤3-1-1:对视频人脸数据集中每一段视频进行人脸检测和跟踪得到每一帧中人脸包围框以及身份信息。
步骤3-1-2:将步骤3-1-1中得到的同一身份的人的所有帧上包围框所涵盖的区域裁剪下来进行68个关键点检测,并将68个关键点位置还原回视频的原始帧中的位置。
步骤3-1-3:对于同一身份的人的其中一帧,根据检测到的68个关键点,与预定义好的标准正面68点求解几何变换,几何变换包括旋转向量r、平移向量t和缩放s,其中r是一个三维的向量,t是一个二维的向量,s是一个标量;
利用平移向量t对原始帧进行仿射变换,变换后保持帧原始大小;利用缩放s将原始帧缩放成(w'/2,h'/2)的大小以保证人脸大小和预定义好的人脸大小是一致的,其中,
w'=w*102/s
h'=h*102/s
w是原始帧的宽度,h是原始帧的高度;将缩放后的帧以(w'/2,h'/2)处为中心,切割一个224×224的区域即得到预处理好的人脸图像。
对视频人脸数据集中每一个视频执行步骤3-1-1~步骤3-1-3的操作得到224×224分辨率的视频人脸数据,将每一个视频切割成两个以上60帧的视频人脸片段构成最终的视频人脸片段数据集。
步骤3-2中,形状深度图一致性损失lD_cons、反照率图一致性损失lA_cons计算公式如下:
其中,t表示视频段帧的长度,x,y分别表示图像像素点的横坐标、纵坐标,(Di)x,y表示第i帧形状深度图上(x,y)处的深度值,同理(Ai)x,y表示第i帧反照率图上(x,y)处的像素颜色值,W和H分别表示输出图像的宽度和高度。
步骤3-2中,帧级像素损失lphoto计算公式如下:
其中表示第i帧原始帧上(x,y)像素的颜色值,/>表示重渲染后第i帧上(x,y)像素的颜色值。
步骤3-2中,VGG特征损失lvgg以文献Spyros Gidaris,Praveer Singh,and NikosKomodakis.Unsupervised representation learning by predicting imagerotations.In Proc.ICLR,2018.中预训练16层的VGG网络为基础,求重渲染后帧与原始帧VGG特征之间的欧式距离,在已经训练好的VGG网络上提取一层的特征图,重渲染后的帧当前层的特征图与原始帧对应特征图进行比较:
其中,Wm,n和Hm,n分别表示VGG网络内各个特征图的宽度和高度;Ψm,n对应VGG网络中第m个最大池化层之前的第n个卷积获得的特征图。
在视频监督的框架下,本发明提出一种基于视频监督的单图像三维人脸重建方法,该方法将单张人脸图片分解为形状深度图,形状偏移深度图以及反照率图,通过优化帧间的一致性损失和重投影损失进行训练,最终输入单张人脸图片,我们可以重建出相应的人脸几何。
有益效果:本发明具有以下优点:从对监督数据的要求上来说,与背景技术中文献5不同,本发明不需要事先从视频段中标注人脸的三维真值几何,与文献6不同,本发明不依赖关键点的标注,从最终重建结果和精度上来说,与文献3相比,本发明的方法具有更高的重建精度,并能一定程度上缓解他们结果中存在的“过度对称”问题。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的处理流程示意图。
图2a是输入图片示意图。
图2b是对应的预测的反照率图。
图2c是对应的预测的基本形状深度图。
图2d是对应的预测的形状偏移深度图。
图2e是对应的正视角重建结果示意图。
图2f是对应的相应视角下的重建结果示意图。
图2g是对应的重建结果的重投影渲染结果示意图。
具体实施方式
如图1所示,本发明公开的一种基于视频监督的单图像三维人脸重建方法,具体按照以下步骤实施:
1、构建单图像人脸重建模块
输入:单张人脸图片
输出:预测的基本形状深度图,形状偏移深度图以及反照率图
1.1搭建图像编码网络FE
图像编码网络FE包含5个基本块,每个基本块包含一个核大小是4,步长是2,填充是1的卷积层,(每一层卷积都将上一层的输出大小缩小两倍),以及一个组规范化层和一个LeakyReLU层,5个基本块后并列连接3个全连接层,每个全连接层后连接一个Tanh作为激活函数。整个编码网络的输入大小是64×64,输出是3个k维的向量。
1.2搭建形状解码网络FS,形状偏移解码网络FΔS,以及反照率解码网络FA
三个网络的基本结构是一致的,都由“头”“身”以及“尾”三个部分组成,“头”是由一个全连接层和一个ReLU层组成,主要用于适应不同维度的向量输入,“身”是由4个基本块组成,每个基本块内包含一个核大小是4,步长是1,填充是0的反卷积,一个ReLU层,一个组规范化层和一个核大小是3,步长和填充都是1的卷积层,每个基本块可以将上一层的输出大小放大两倍。“尾”是由一个上采样模块以及三个核大小是5,步长是1,填充是2的卷积层组成。整个解码网络的输入大小是一个k维的向量,经过“头”后变成一个64维的向量,经过“身”后变成32×32大小的特征图,最后经过“尾”变成64×64大小的输出。不同点在于反照率解码网络FA最后的输出的通道数是3,而形状解码网络FS和形状偏移解码网络FΔS最后输出的通道数是1.
1.3对于一张输入的单张人脸图像I,经过单图像编码网络FE后得到3个k维的向量编码,即形状向量编码vS,形状偏移向量编码vΔS以及反照率向量编码vA,将形状向量编码输入进形状解码网络得到初始形状深度图DS,将形状偏移向量编码输入进形状偏移解码网络得到形状偏移深度图DΔS,将反照率编码输入进反照率解码网络得到反照率图FA(I)
2、构建姿态光照分解模块
输入:单张人脸图像
输出:相机位姿参数以及环境光照参数
姿态光照分解网络包括5个基本块,每个基本块内包括一个核大小是4,步长是2,填充是1的卷积层以及一个ReLU层,5个基本块后跟了一个核大小是1,步长是1,填充是0的卷积层,之后继续跟了Tanh激活函数,网络的输出是一个10维的向量,其中前6维表示姿态,姿态是由三个旋转角度(偏航角,俯仰角,旋转角)以及三个平移量(沿x,y,z轴的平移量)表示的,后4维表示光照,光照采用朗博漫反射表示,其中第一维表示环境光照系数,第二维表示漫反射系数,第三到四维表示漫反射光源的方向。
3、整体训练框架
通过对视频中的人脸进行检测、跟踪、对齐和切割得到人脸视频片段数据集,通过探索视频片段内的一致性信息来训练单图像人脸重建网络和姿态光照分解网络,以提高人脸重建的精度。最终利用训练好的单图像人脸网络来对单张人脸图像进行三维重建。
3.1数据预处理
输入:视频人脸数据集
输出:视频人脸片段数据集
3.1.1人脸检测及追踪
对视频人脸数据集中每一段视频进行人脸检测和跟踪得到每一帧中人脸包围框以及身份信息。
3.1.2人脸关键点检测
将3.1.1中得到的同一身份的人的所有帧上包围框所涵盖的区域裁剪下来进行68关键点检测,并将68点关键点位置还原回原始帧中的位置。
3.1.3人脸对齐及裁剪
对于同一身份的人的其中一帧,根据检测到的68点,与预定义好的标准正面68点求解几何变换,变换参数包括旋转向量r,平移向量t以及缩放s,其中r是一个三维的向量,t是一个二维的向量,s是一个标量。首先利用平移向量t对原始帧进行仿射变换,变换后保持帧原始大小,同时将目标人脸中心移到(w/2,h/2)处,其中w是原始帧的宽度,h是原始帧的高度,接着,利用缩放变换s将原始帧缩放成(w'/2,h'/2)的大小以保证人脸大小和预定义好的人脸大小是一致的,其中
w'=w*102/s
h'=h*102/s
最后,将缩放后的帧以(w'/2,h'/2)处为中心,切割一个224×224的区域即得到预处理好的人脸图像。
对视频人脸数据集中每一个视频执行上面的操作得到224×224分辨率的视频人脸数据,将每一个视频切割成很多个60帧的视频人脸片段构成最终的视频人脸片段数据集。
3.2模型训练框架
输入:预处理后的视频人脸片段
输出:每一帧的深度图,反照率图,相机位姿以及环境光照
利用步骤1和步骤2中设计的网络,将每一个视频段中的每一帧输入设计好的网络得到视频段的形状深度图{DS}、形状偏移深度图{DΔS}、反照率图{A}以及所有帧的姿态{P}和光照{L},对于每一帧的深度图DS,形状偏移深度图DΔS,计算D=DS+0.1DΔS得到每一帧最终的逐像素的深度图,将逐像素的深度图D通过已有的深度图到三维网格模型的转换技术得到每一帧的人脸网格模型M,将逐帧的网格模型,反照率图,姿态以及光照输入到现有可微分光栅渲染器得到每一帧的重投影渲染结果,计算形状深度图一致性损失lD_cons,反照率图一致性损失lA_cons,帧级像素损失lphoto以及VGG特征损失lvgg,通过优化下面的损失项来优化模型。
l=lD_cons+lA_cons+lphoto+lvgg
其中深度图一致性损失lD_cons的计算所有帧预测出的形状深度图两两之间的均方差损失,所述反照率图一致性损失lA_cons计算所有帧预测出的反照率图两两之间的L1损失的和,公式如下
其中t表示视频段帧的长度,x,y分别表示图像像素点的横、纵坐标(Di)x,y表示第i帧深度图上(x,y)处的深度值,同理(Ai)x,y表示第i帧反照率图上(x,y)处的像素颜色值,W和H分别表示输出图像的宽度和高度。
所述帧级像素损失lphoto计算重投影后的帧序列和原始帧序列在像素级上的L1损失:
其中,表示第i帧上(x,y)像素的颜色值,/>表示重渲染后第i帧上(x,y)像素的颜色值。
所述的VGG特征损失以文献Spyros Gidaris,Praveer Singh,and NikosKomodakis.Unsupervised representation learning by predicting imagerotations.In Proc.ICLR,2018.中预训练16层的VGG网络为基础,求重渲染后帧与原始帧VGG特征之间的欧式距离,在已经训练好的VGG网络上提取一层的特征图,重渲染后的帧当前层的特征图与原始帧对应特征图进行比较:
其中,Wm,n和Hm,n分别表示VGG网络内各个特征图的宽度和高度;Ψm,n对应VGG网络中第m个最大池化层之前的第n个卷积获得的特征图。
3.3框架测试
输入:单张人脸图像
输出:人脸三维几何(网格面片形式)
首先利用步骤3-1中所述的数据预处理方法得到一张224×224的人脸输入图像,继续将其缩放至64×64以满足网络的输入,将缩放后的人脸图片按照步骤3-2中所述的方式得到最终的重建结果,具体如图2a~图2g所示,图2a是输入图片示意图。图2b是对应的预测的反照率图。图2c是对应的预测的基本形状深度图。图2d是对应的预测的形状偏移深度图。图2e是对应的正视角重建结果示意图。图2f是相应视角下的重建结果示意图,人脸朝向若与原图越一致,说明姿态预测得越准确。图2g是对应的重建结果的重投影渲染结果示意图。图2b到图2e是本发明对于一张输入图片的分解形式,图2g是利用图2b到图2e的分解结果还原的结果,图2g若与图2a越接近,说明分解得越准确。
本发明提供了一种基于视频监督的单图像三维人脸重建方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (8)
1.一种基于视频监督的单图像三维人脸重建方法,其特征在于,包括如下步骤:
步骤1,搭建单图像人脸重建模块:搭建单图像编码网络、形状解码网络、形状偏移解码网络以及反照率解码网络,输入一张人脸图片,输出一个形状深度图,形状偏移深度图以及一个反照率图;
步骤2,搭建姿态光照分解模块:建立光照姿态分解网络,输入一张人脸图片,输出图片中人脸的姿态和图片中环境的整体光照情况;
步骤3,通过对现有视频人脸数据集中每一个视频中的人脸进行检测、跟踪、对齐和切割制作成视频人脸片段数据集,通过重投影渲染以及约束每一个视频片段内的一致性信息来优化单图像人脸重建模块和姿态光照分解模块,利用训练好的单图像人脸重建模块实现单张人脸图像进行三维重建;
步骤3包含以下步骤:
步骤3-1,数据预处理:对现有视频人脸数据集中的每一段视频进行人脸检测和跟踪,利用人脸关键点检测方法检测跟踪到的人脸的68个关键点,并根据68个关键点的位置从视频帧中截取人脸,缩放到224×224大小,将处理后的每个视频切割成60帧一组的视频片段,制作成视频人脸片段数据集;
步骤3-2,设计训练框架:利用步骤1和步骤2中设计的网络,将人脸视频片段数据集中每一个视频段中的每一帧输入设计好的网络得到视频段的形状深度图{DS}、形状偏移深度图{DΔS}、反照率图{A}以及所有帧的姿态{P}和光照{L},对于每一帧的深度图DS,形状偏移深度图DΔS,计算D=DS+0.1DΔS得到每一帧最终的逐像素的深度图D,将逐像素的深度图D转换得到每一帧的人脸网格模型M,将逐帧的网格模型,反照率图,姿态以及光照输入到可微分光栅渲染器得到每一帧的重投影渲染结果,计算形状深度图一致性损失lD_cons,反照率图一致性损失lA_cons,帧级像素损失lphoto以及VGG特征损失lvgg,最终计算总损失l:
l=lD_cons+lA_cons+lphoto+lvgg,
通过最小化总损失来训练设计好的网络;
步骤3-3,框架测试:输入单张人脸图像,利用步骤3-1中所述的数据预处理方法得到一张224×224的人脸输入图像,继续将其缩放至64×64以满足网络的输入,将缩放后的人脸图片按照步骤3-2中所述的逐帧处理的方式得到最终的网格模型;
步骤3-2中,VGG特征损失lvgg以预训练的16层的VGG网络为基础,求重渲染后帧与原始帧VGG特征之间的欧式距离,在已经训练好的VGG网络上提取一层的特征图,重渲染后的帧当前层的特征图与原始帧对应特征图进行比较:
其中Wm,n和Hm,n分别表示VGG网络内各个特征图的宽度和高度;Ψm,n对应VGG网络中第m个最大池化层之前的第n个卷积获得的特征图;t表示视频段帧的长度,表示第i帧上(x,y)像素的颜色值,/>表示重渲染后第i帧上(x,y)像素的颜色值。
2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:
步骤1-1,搭建单图像编码网络FE;
步骤1-2,搭建形状解码网络FS,形状偏移解码网络FΔS,以及反照率解码网络FA;
步骤1-3,对于一张输入的单张人脸图像I,经过单图像编码网络FE后得到3个k维的向量编码,分别为形状向量编码vS、形状偏移向量编码vΔS和反照率向量编码vA,k∈{2n|5≤n≤10,n∈N+},其中N+表示所有自然数的集合,将形状向量编码输入进形状解码网络得到初始形状深度图DS,将形状偏移向量编码输入进形状偏移解码网络得到形状偏移深度图DΔS,将反照率编码输入进反照率解码网络得到反照率图FA(I)。
3.根据权利要求2所述的方法,其特征在于,步骤1-1中,所述单图像编码网络包含5个基本块,每个基本块包含一个核大小是4,步长是2,填充是1的卷积层,以及一个组规范化层和一个LeakyReLU层,5个基本块后并列连接3个全连接层,每个全连接层后连接一个Tanh作为激活函数,整个单图像编码网络的输入大小是64×64,输出是3个k维的向量。
4.根据权利要求3所述的方法,其特征在于,步骤1-2中所述的三个解码网络形状解码网络FS,形状偏移解码网络FΔS,以及反照率解码网络FA都由头、身和尾三个部分组成,头是由一个全连接层和一个ReLU层组成,身是由4个基本块组成,每个基本块内包含一个核大小是4,步长是1,填充是0的反卷积,一个ReLU层,一个组规范化层和一个核大小是3,步长和填充都是1的卷积层;尾是由一个双线性上采样层以及三个核大小是5,步长是1,填充是2的卷积层组成;
三个解码网络的输入大小都是一个k维的向量,经过头后变成一个64维的向量,经过身后变成32×32大小的特征图,最后经过尾变成64×64大小的输出,其中形状解码网络和形状偏移解码网络输出的通道数是1,反照率解码网络输出的通道数是3。
5.根据权利要求4所述的方法,其特征在于,步骤2中,所述姿态光照分解网络包括5个基本块,每个基本块内包括一个核大小是4,步长是2,填充是1的卷积层以及一个ReLU层,5个基本块后跟了一个核大小是1,步长是1,填充是0的卷积层,之后继续跟了Tanh激活函数,网络的输出是一个10维的向量,其中前6维表示姿态,姿态是由三个旋转角度偏航角,俯仰角,旋转角以及三个平移量即沿x,y,z轴的平移量表示的,后4维表示光照,光照采用朗博漫反射表示,其中第一维表示环境光照系数,第二维表示漫反射系数,第三到四维表示漫反射光源的方向。
6.根据权利要求5所述的方法,其特征在于,步骤3-1包含以下步骤
步骤3-1-1:对视频人脸数据集中每一段视频进行人脸检测和跟踪得到每一帧中人脸包围框以及身份信息;
步骤3-1-2:将步骤3-1-1中得到的同一身份的人的所有帧上包围框所涵盖的区域裁剪下来进行68个关键点检测,并将68个关键点位置还原回视频的原始帧中的位置;
步骤3-1-3:对于同一身份的人的其中一帧,根据检测到的68个关键点,与预定义好的标准正面68点求解几何变换,几何变换包括旋转向量r、平移向量t1和缩放s,其中r是一个三维的向量,t1是一个二维的向量,s是一个标量;
利用平移向量t1对原始帧进行仿射变换,变换后保持帧原始大小;利用缩放s将原始帧缩放成(w'/2,h'/2)的大小以保证人脸大小和预定义好的人脸大小是一致的,其中,
w'=w*102/s
h'=h*102/s
w是原始帧的宽度,h是原始帧的高度;将缩放后的帧以(w'/2,h'/2)处为中心,切割一个224×224的区域即得到预处理好的人脸图像;
步骤3-1-4:对视频人脸数据集中每一个视频执行步骤3-1-1~步骤3-1-3的操作得到224×224分辨率的视频人脸数据,将每一个视频切割成两个以上60帧的视频人脸片段构成最终的视频人脸片段数据集。
7.根据权利要求6所述的方法,其特征在于,步骤3-2中,形状深度图一致性损失lD_cons、反照率图一致性损失lA_cons计算公式如下:
其中t表示视频段帧的长度,x,y分别表示图像像素点的横坐标、纵坐标,(Di)x,y表示第i帧形状深度图上(x,y)处的深度值,(Ai)x,y表示第i帧反照率图上(x,y)处的像素颜色值,W和H分别表示输出图像的宽度和高度。
8.根据权利要求7所述的方法,其特征在于,步骤3-2中,帧级像素损失lphoto计算公式如下:
其中表示第i帧上(x,y)像素的颜色值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824674.9A CN111950477B (zh) | 2020-08-17 | 2020-08-17 | 一种基于视频监督的单图像三维人脸重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824674.9A CN111950477B (zh) | 2020-08-17 | 2020-08-17 | 一种基于视频监督的单图像三维人脸重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950477A CN111950477A (zh) | 2020-11-17 |
CN111950477B true CN111950477B (zh) | 2024-02-02 |
Family
ID=73343503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010824674.9A Active CN111950477B (zh) | 2020-08-17 | 2020-08-17 | 一种基于视频监督的单图像三维人脸重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950477B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396694B (zh) * | 2020-12-08 | 2023-05-05 | 北京工商大学 | 一种基于单目摄像头的3d人脸视频生成方法 |
CN114758334A (zh) * | 2020-12-29 | 2022-07-15 | 华为技术有限公司 | 一种对象注册方法及装置 |
CN112581520A (zh) * | 2021-01-29 | 2021-03-30 | 秒影工场(北京)科技有限公司 | 一种基于帧连续四维扫描的人脸形状表情模型构建方法 |
CN113076918B (zh) * | 2021-04-15 | 2022-09-06 | 河北工业大学 | 基于视频的人脸表情克隆方法 |
CN113066171B (zh) * | 2021-04-20 | 2023-09-12 | 南京大学 | 一种基于三维人脸形变模型的人脸图像生成方法 |
CN114332136B (zh) * | 2022-03-15 | 2022-05-17 | 南京甄视智能科技有限公司 | 人脸属性数据标注方法、计算机设备及存储介质 |
CN117710469B (zh) * | 2024-02-06 | 2024-04-12 | 四川大学 | 一种基于rgb-d传感器的在线稠密重建方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201613959D0 (en) * | 2015-08-14 | 2016-09-28 | Metail Ltd | Methods of generating personalized 3d head models or 3d body models |
CN108765550A (zh) * | 2018-05-09 | 2018-11-06 | 华南理工大学 | 一种基于单张图片的三维人脸重建方法 |
CN110163953A (zh) * | 2019-03-11 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 三维人脸重建方法、装置、存储介质和电子装置 |
CN110428491A (zh) * | 2019-06-24 | 2019-11-08 | 北京大学 | 基于单帧图像的三维人脸重建方法、装置、设备及介质 |
CN110443885A (zh) * | 2019-07-18 | 2019-11-12 | 西北工业大学 | 基于随机人脸图像的三维人头脸模型重建方法 |
WO2020099338A1 (en) * | 2018-11-16 | 2020-05-22 | Kokkinos Iason | Three-dimensional object reconstruction |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9679192B2 (en) * | 2015-04-24 | 2017-06-13 | Adobe Systems Incorporated | 3-dimensional portrait reconstruction from a single photo |
-
2020
- 2020-08-17 CN CN202010824674.9A patent/CN111950477B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201613959D0 (en) * | 2015-08-14 | 2016-09-28 | Metail Ltd | Methods of generating personalized 3d head models or 3d body models |
CN108765550A (zh) * | 2018-05-09 | 2018-11-06 | 华南理工大学 | 一种基于单张图片的三维人脸重建方法 |
WO2020099338A1 (en) * | 2018-11-16 | 2020-05-22 | Kokkinos Iason | Three-dimensional object reconstruction |
CN110163953A (zh) * | 2019-03-11 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 三维人脸重建方法、装置、存储介质和电子装置 |
CN110428491A (zh) * | 2019-06-24 | 2019-11-08 | 北京大学 | 基于单帧图像的三维人脸重建方法、装置、设备及介质 |
CN110443885A (zh) * | 2019-07-18 | 2019-11-12 | 西北工业大学 | 基于随机人脸图像的三维人头脸模型重建方法 |
CN111402310A (zh) * | 2020-02-29 | 2020-07-10 | 同济大学 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
Non-Patent Citations (5)
Title |
---|
CNN-Based Real-Time Dense Face Reconstruction with Inverse-Rendered Photo-Realistic Face Images;Yudong Guo等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;第41卷(第6期);1294-1307 * |
Learning Detailed Face Reconstruction From a Single Image;Elad Richardson等;《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;1259-1268 * |
Video supervised for 3D reconstruction from single image;Yijie Zhong等;《Multimed Tools Appl》;第81卷;15061–15083 * |
利用自监督卷积网络估计单图像深度信息;孙蕴瀚等;《计算机辅助设计与图形学学报》;第32卷(第04期);643-651 * |
数据驱动的三维人体头部重建;何华赟;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);I138-1745 * |
Also Published As
Publication number | Publication date |
---|---|
CN111950477A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950477B (zh) | 一种基于视频监督的单图像三维人脸重建方法 | |
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
Niu et al. | Unsupervised saliency detection of rail surface defects using stereoscopic images | |
US20140043329A1 (en) | Method of augmented makeover with 3d face modeling and landmark alignment | |
Jiang et al. | Dual attention mobdensenet (damdnet) for robust 3d face alignment | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
US20090285544A1 (en) | Video Processing | |
CN113421328B (zh) | 一种三维人体虚拟化重建方法及装置 | |
Ong et al. | Viewpoint invariant exemplar-based 3D human tracking | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
Kang et al. | Competitive learning of facial fitting and synthesis using uv energy | |
CN111476089A (zh) | 一种图像中多模态信息融合的行人检测方法、系统及终端 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
Zhang et al. | Weakly-supervised multi-face 3d reconstruction | |
Jeon et al. | Struct-MDC: Mesh-refined unsupervised depth completion leveraging structural regularities from visual SLAM | |
CN112906675B (zh) | 一种固定场景中的无监督人体关键点检测方法及系统 | |
Yin et al. | Weakly-supervised photo-realistic texture generation for 3d face reconstruction | |
Li et al. | Three-dimensional motion estimation via matrix completion | |
Nicolescu et al. | Layered 4D representation and voting for grouping from motion | |
CN115830241A (zh) | 一种基于神经网络的真实感三维人脸纹理重建方法 | |
CN116310228A (zh) | 一种针对遥感场景的表面重建与新视图合成方法 | |
Khan et al. | A robust light-weight fused-feature encoder-decoder model for monocular facial depth estimation from single images trained on synthetic data | |
CN112435345B (zh) | 一种基于深度学习的人体三维测量方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |