CN114049442A - 三维人脸视线计算方法 - Google Patents
三维人脸视线计算方法 Download PDFInfo
- Publication number
- CN114049442A CN114049442A CN202111376077.5A CN202111376077A CN114049442A CN 114049442 A CN114049442 A CN 114049442A CN 202111376077 A CN202111376077 A CN 202111376077A CN 114049442 A CN114049442 A CN 114049442A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- face
- sight
- rotation
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000013507 mapping Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 239000004576 sand Substances 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims 2
- 210000001508 eye Anatomy 0.000 description 40
- 230000006870 function Effects 0.000 description 23
- 210000005252 bulbus oculi Anatomy 0.000 description 6
- 210000000887 face Anatomy 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2016—Rotation, translation, scaling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Architecture (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种三维人脸视线计算方法,通过精确重构三维人脸从而准确计算该人脸的视线方向。本发明将视线方向计算任务分解为视线对齐的三维人脸重构和通过旋转来实现的视线接触两个子任务。首先使用三维形变模型以二维参考人脸图像作为输入来重构基本三维人脸。随后,对基本三维人脸进行形状调整得到形状对齐的三维重构人脸以保证三维人脸的眼部区域与输入的参考二维人脸图像眼部区域精确对齐。最后,通过替换形状对齐的三维人脸眼部区域的纹理而得到视线对齐的三维人脸。对于视线接触的子任务,本发明提出了全新的通过旋转三维人脸来实现视线接触的方法,该方法并不依赖于过多的假设,可广泛的应用于虚拟现实领域。
Description
技术领域
本发明涉及三维人脸重构和视线估计技术领域,是一种三维人脸视线计算方法。
背景技术
一直以来,三维人脸重构都是计算机视觉和计算机图像学最为热门的研究领域,现存的大量的工作分别以单张人脸图像、多视角图像、视频RGBD图像以及特定目标图像集合为输入来完成三维人脸的重构。本发明聚焦于以二维参考人脸图像作为输入完成视线对齐的三维人脸重构,这在视线方向计算和虚拟现实领域有着广泛的应用。视线跟踪技术作为新颖的人机交互方式,对理解用户行为意图具有重要意义。大脑感知的80%以上的信息都是经过视觉系统接收;基于视线的交互也比手势和语音交互需要更少的体力,并且提供更自然的体验,近年来在虚拟现实领域和人机交互领域中被积极探索。而视线方向计算是实现最终的最直接的方法,然而现有的视线方向计算技术大多聚焦于以二维人脸图像作为输入直接输出三维空间中的视线方向,这一方面影响了模型的泛化能力,另一方面由二维图片作为输入直接计算得到的三维空间中的视线方向会不可避免的产生误差,本发明则提出了一种全新的直接应用于三维人脸的视线计算方法,通过旋转视线对齐的三维人脸进行视线接触,来完成三维人脸视线方向的计算,其中,在完成视线接触的过程中三维人脸在水平和垂直方向上旋转的角度就是三维人脸旋转前在三维空间中的视线方向。
在现有的基于单张参考二维人脸图像完成三维人脸重构的方法中,三维形变模型(3D Morphable Models)起着至关重要的作用。基于收集到的标准人脸数据,三维形变模型将三维人脸在空间中的复杂分布简化为固定人脸形状的线性组合。然而这些方法通常需要精心优化才能完成高质量的三维人脸重建。伴随着深度学习的迅速发展,卷积神经网络被广泛的应用于三维人脸重建。Tuan首先使用卷积神经网络直接从输入图像回归三维形变模型形状和纹理参数。Dou通过在端到端训练框架中设计多任务损失函数,进一步提高了三维人脸重建的准确性。对于这些基于CNN的方法,一个潜在的缺陷是在训练阶段缺乏标记数据,另一个潜在缺陷是他们主要关注了例如皱纹的面部形状细节,而作为虚拟现实中最重要的交互器官,眼睛区域纹理和形状的准确性却很少被考虑。本发明提出了具有精确眼部区域的3D人脸重建方法,首先通过三维形变模型完成基本三维人脸的重建,随后通过对基本三维人脸执行形状对齐和纹理对齐最终完成视线对齐的三维人脸的重构。本发明重构的视线对齐的三维人脸的视线方向与参考二维人脸图像的视线方向保持一致,为通过旋转三维人脸来重构视线方向和完成视线接触提供了基础。
在早期,视线接触的实现依赖于特定的硬件,定制硬件较高的成本限制了这一类方法的应用前景。完成视线接触的一种直观而直接的方法是基于三维眼球模型根据输入的二维参考人脸图像完成三维眼球的重构,随后通过对重构的三维眼球的纹理和形状进行控制或者直接旋转眼球来完成视线接触。其中,Banf采用虹膜在眼部区域的坐标进行纹理坐标插值,可以在小角度偏移的情况下实现眼睛接触。但是仅针对眼部区域的插值会造成眼部区域与脸部区域在纹理上的不连续性,影响视线接触整体的真实性。Gazedirector则是通过旋转重构的三维眼球来执行视线接触。然而,这些基于三维眼球模型的方法依赖于过多的假设,这导致他们在实际场景的应用中实现视线接触的效果并不好。随着深度学习的在计算机视觉上的革命性的进展,一些方法使用深度神经网络来完成视线接触。Ganin等人提出了一种深度神经网络(DNNs)来合成眼部区域的图像并通过替换眼部区域的像素来完成视线接触。受限于生成器的性能,该方法只能生成模糊眼部区域图像。随后,He等人采用生成对抗网络(GAN)来合成具有高视觉质量的眼部区域图像。然而,受限于训练数据集的分布,该方法只能实现正面的眼神接触,对于具有较大偏移头部姿态的例子,该方法依旧无法较好的合成真实眼部区域图像。为了环节数据量过少对模型性能造成的影响,Zhang等人提出了一种无监督学习框架来训练生成对抗网络,该模型可以针对输入人脸的各种头部姿势完成视线接触。但是所有现有的方法都专注于通过直接改变眼部区域的纹理或形状来完成视线接触,这存在着两个主要局限性,一是重构的眼部区域图像视觉质量依旧较低。而是视线接触的精度依旧较差。
本发明将视线计算任务分解为视线对齐的三维人脸重构和通过旋转来实现的视线接触两个子任务。具体来说,本发明提出了视线对齐的三维人脸重构模块,以确保重构的认为人脸的眼部区域的精确性和真实性。首先使用三维形变模型以二维参考人脸图像作为输入来重构基本三维人脸。随后,对基本三维人脸进行形状调整得到形状对齐的三维重构人脸以保证三维人脸的眼部区域与输入的参考二维人脸图像眼部区域精确对齐。最后,通过替换形状对齐的三维人脸眼部区域的纹理而得到视线对齐的三维人脸。对于视线接触的子任务,本发明提出了全新的通过旋转三维人脸来实现视线接触的方法,该方法并不依赖于过多的假设,可广泛的应用于虚拟现实领域。
发明内容
根据上述实际需求和技术难题,本发明提供了一种三维人脸视线计算方法。
本发明是通过以下步骤实现的:
步骤一,对每张参考二维人脸图像提取重构系数,根据三维形变模型重构对应的基本三维人脸。
设参考二维人脸图片RGB三通道表示为Ii,将Ii输入卷积神经网络(CNN)提取出上述的一组重构系数W,具体计算方式如下:
W=(WS,We,Wt,γ,r,t),
其中,WS用于控制基本三维重构人脸的形状,We用于控制基本三维人脸的表情,Wt用于控制基本三维人脸的纹理,γ用于控制基本三维人脸的光照,r用于控制基本三维人脸的旋转,t用于控制基本三维人脸的平移。将重构系数输入三维形变模型便可得到基本三维重构人脸Mc,具体计算方式如下:
Mc=F3DMM(w),w=Fe(Ii),
其中,w为一组重构系数,Fe为上述卷积神经网络,F3DMM为上述三维形变模型,Ii为参考二维人脸图片RGB三通道。
步骤二,对每个基本三维重构人脸,优化局部区域细节,得到形状对齐的三维重构人脸;
将基本三维重构人脸Mc映射到二维平面上得到基本二维重构人脸Ic,将Ic和Ii相比较,设计三个损失函数来对基本三维重构人脸Mc进行优化,最终得到优化结果形状对齐的三维重构人脸Mf,具体计算方式如下:
Ic=P(Mc)
L3D=Lphoto(Ii,Ic)+Llandmarks(Ii,Ic)+Lreg(w)
其中,arg min为取最小值函数,Mc为基本三维重构人脸,L3D是优化过程中的目标损失函数,通过L3D最小化完成对Mc的优化,当Mc优化为Mf时候,所对应的L3D最小,P表示由三维到二维的映射函数,Ic为基本二维重构人脸,图片损失Lphoto通过计算参考二维人脸图片和基本二维重构人脸图片之间的欧几里得距离,来保证人脸外观的一致性,标记点损失Llandmarks通过计算二维人脸图片和基本二维重构人脸图片分别提取的人脸标记点之间的差异性来保证人脸轮廓和头部姿态的一致性,正则化损失Lreg通过衡量模型参数的复杂程度来保证重构人脸的形状和纹理不会变形。
步骤三,对每个形状对齐的三维重构人脸,将其眼部区域纹理与参考二维人脸图像对齐,得到视线对齐的三维重构人脸;
将形状对齐的三维重构人脸Mf的眼部区域在二维平面上的投影与参考二维人脸图片的眼部区域是严格对齐的,Mf眼部区域中的每一个点都与参考二维人脸图片眼部区域中的某个像素点相对应,通过将Mf眼部区域中的每一个点的RGB数值替换为相应二维人脸图片眼部区域中像素点的RGB值,可完成两者眼部区域的纹理对齐,得到视线对齐的三维重构人脸Mo。
步骤四,利用三维重构人脸在各个旋转角度的图片和设计特定的梯度损失函数训练视线接触判别器;
上述视线接触判别器Dg由特征提取器和梯度计算器两部分构成,特征提取器用于获取步骤三中所获取的Mo旋转前后的视觉特征ds和de:
ds=Es(Is),de=Ee(Ie),
其中,Is是Mo旋转前映射到二维平面二维重构人脸图片,Ie是Mo旋转后映射到二维平面二维重构人脸图片,Es和Ee为卷积神经网络模块,ds和de为提取的相应的视觉特征,随后将ds和de进行差分操作作为由一系列残差模块构成的梯度计算器Er的输入,最终完成视线对齐的三维重构人脸Mo旋转后视线方向相较于视线接触方向偏移的梯度g(s,e)的计算:
g(s,e)=Er(de-ds),
设计特定的梯度损失函数Lg完成视线接触判别器Dg的训练:
g(s,e)=Fg(∠A(e)-∠A(s))
其中,表示的范数,Fg是一个映射函数,负责将角度误差映射为梯度,是通过Dg直接估计得到的梯度,∠A(s)是Mo旋转前视线方向在三维空间中的角度,∠A(e)是Mo旋转后其视线方向在三维空间中的角度,通过反向传播的方法优化梯度损失函数Lg最终完成对Dg的优化。
步骤五,对每个等待实现视线接触的视线对齐的三维重构人脸,使用视线接触判别器计算其在各个方向旋转后的视线方向相较于视线接触方向偏移的梯度,设计特定的旋转方法,对三维重构人脸不断进行旋转直至完成视线接触。
附图说明
图1是本发明三维人脸视线计算方法的流程图;
图2是本发明三维人脸视线计算方法的视线接触总体流程图;
图3是本发明三维人脸视线计算方法的视线对齐的三维人脸重构流程图;
图4是本发明三维人脸视线计算方法的视线接触判别器训练数据分布图;
图5是本发明三维人脸视线计算方法的视线接触判别器结构图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下面结合附图和具体实施方式对本发明的具体实施方式做进一步详细描述。以下实施例或者附图用于说明本发明,但不用来限制本发明的范围。
图1为本发明一种三维人脸视线计算方法流程示意图,包括以下步骤:
步骤101:对每张参考二维人脸图像提取重构系数,根据三维形变模型(3DMorphable Models)重构对应的基本三维人脸;
步骤102:对每个基本三维重构人脸,优化局部区域细节,得到形状对齐的三维重构人脸;
步骤103:对每个形状对齐的三维重构人脸,将其眼部区域纹理与参考二维人脸图像对齐,得到视线对齐的三维重构人脸;
步骤104:利用三维重构人脸在各个旋转角度的图片和设计特定的梯度损失函数训练视线接触判别器;
步骤105:对每个等待实现视线接触的视线对齐的三维重构人脸,使用视线接触判别器计算其在各个方向旋转后的视线方向相较于视线接触方向偏移的梯度,设计特定的旋转方法,对三维重构人脸不断进行旋转直至完成视线接触。
图2是二维参考人脸图像为输入而实现三维空间中视线接触的流程图,首先针对二维参考人脸图像完成视线对齐的三维人脸的重构,随后通过预设的旋转方法来完成三维人脸的视线接触。
如图3所示,设参考二维人脸图片RGB三通道表示为Ii,将Ii输入卷积神经网络(CNN)提取出上述的一组重构系数W,具体计算方式如下:
W=(Ws,We,Wt,γ,r,t),
其中,Ws用于控制基本三维重构人脸的形状,We用于控制基本三维人脸的表情,Wt用于控制基本三维人脸的纹理,γ用于控制基本三维人脸的光照,r用于控制基本三维人脸的旋转,t用于控制基本三维人脸的平移。将重构系数输入三维形变模型便可得到基本三维重构人脸Mc,具体计算方式如下:
Mc=F3DMM(w),w=Fe(Ii),
其中,w为一组重构系数,Fe为上述卷积神经网络,F3DMM为上述三维形变模型。
将基本三维重构人脸Mc映射到二维平面上得到基本二维重构人脸Ic,将Ic和Ii相比较,设计三个损失函数来对基本三维重构人脸Mc进行优化,最终得到优化结果形状对齐的三维重构人脸Mf,具体计算方式如下:
Ic=P(Mc)
L3D=Lphoto(Ii,Ic)+Llandmarks(Ii,Ic)+Lreg(w)
其中,arg min为取最小值函数,Mc为基本三维重构人脸,L3D是优化过程中的目标损失函数,通过L3D最小化完成对Mc的优化,当Mc优化为Mf时候,所对应的L3D最小,P表示由三维到二维的映射函数,图片损失Lphoto通过计算参考二维人脸图片和基本二维重构人脸图片之间的欧几里得距离,来保证人脸外观的一致性,标记点损失Llandmarks通过计算二维人脸图片和基本二维重构人脸图片分别提取的人脸标记点之间的差异性来保证人脸轮廓和头部姿态的一致性,正则化损失Lreg通过衡量模型参数的复杂程度来保证重构人脸的形状和纹理不会变形。
上述形状对齐的三维重构人脸Mf,其眼部区域在二维平面上的投影与参考二维人脸图片的眼部区域是严格对齐的,Mf眼部区域中的每一个点都与参考二维人脸图片眼部区域中的某个像素点相对应,通过将Mf眼部区域中的每一个点的RGB数值替换为相应二维人脸图片眼部区域中像素点的RGB值,可完成两者眼部区域的纹理对齐,得到视线对齐的三维重构人脸Mo。
如图4所示,通过不断旋转视线对齐的三维重构人脸Mo并收集每次旋转后所对应的二维重构人脸图片来构建用于训练视线接触判别器Dg的数据集。具体来讲,设旋转前的视线对齐的三维重构人脸Mo在三维空间中的注视方向在水平方向和垂直方向偏移的角度为∠A(x,y),映射在二维平面的二维重构人脸图像为I(x,y);第i次旋转后Mo的注视方向为其中,为Mo在水平方向旋转的角度,为Mo在垂直方向旋转的角度,映射在二维平面的二维重构人脸图像为经过N次旋转,对于一个视线对齐的三维重构人脸Mo可构建总数为N的数据集当时,Mo在第i次旋转后完成视线接触,所构建的二维重构人脸图片数据集对应的相对于视线接触方向在三维空间的角度偏移为
如图5所示,上述视线接触判别器Dg由特征提取器和梯度计算器两部分构成,其中,特征提取器以两个卷积神经网络(CNNs)模块组成,以视线对齐的三维重构人脸Mo旋转前后所分别映射到二维平面上的二维人脸图片为输入,提取相应的视觉特征ds和de:
ds=Es(Is),de=Ee(Ie),
其中,Is是Mo旋转前映射到二维平面二维重构人脸图片,Ie是Mo旋转后映射到二维平面二维重构人脸图片,Es和Ee为上述的卷积神经网络模块Resnet-18,ds和de为提取的相应的视觉特征,随后将ds和de进行差分操作Subtraction作为由一系列残差模块ResnetBlock构成的梯度计算器Er的输入,其中,上述梯度计算器Er包括,残差模块Resnet Block,全连接层FC和激活函数Tanh,最终完成视线对齐的三维重构人脸Mo旋转后视线方向相较于视线接触方向偏移的梯度g(s,e)的计算:
g(s,e)=Er(de-ds),
根据视线接触判别器的具体网络结构和数据及分布设计特定的梯度损失函数Lg完成视线接触判别器Dg的训练:
三维人脸旋转方法,三维人脸旋转分为三个阶段,分别是开始旋转、连续旋转和结束旋转,具体来讲:
其中,argmin为取最小值函数,第c次预旋转的方向对应的梯度最小,当时进行第一步旋转,选择第c次预旋转的方向作为第一次旋转方向,设 为下次旋转开始前三维重构人脸的视线方向在三维空间中相对于水平方向和垂直方向的偏移。
选择梯度最小的预旋转方向作为备选旋转方向,具体计算方式如下:
当时Mo在所有方向旋转的梯度都大于0时,终止旋转,此时Mo通过不断的旋转完成了视线接触。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (7)
1.一种三维人脸视线计算方法,包括以下步骤:
步骤一,对每张参考二维人脸图像提取重构系数,根据三维形变模型重构对应的基本三维人脸;
步骤二,对每个基本三维重构人脸,优化局部区域细节,得到形状对齐的三维重构人脸;
步骤三,对每个形状对齐的三维重构人脸,将其眼部区域纹理与参考二维人脸图像对齐,得到视线对齐的三维重构人脸;
步骤四,利用三维重构人脸在各个旋转角度的图片和设计特定的梯度损失函数训练视线接触判别器;
步骤五,对每个等待实现视线接触的视线对齐的三维重构人脸,使用视线接触判别器计算其在各个方向旋转后的视线方向相较于视线接触方向偏移的梯度,设计特定的旋转方法,对三维重构人脸不断进行旋转直至完成视线接触。
2.根据权利要求1所述的方法,其中,所述对每张参考二维人脸图像提取重构系数,根据三维形变模型重构对应的基本三维人脸,包括:
采用三维形变模型作为重构模型,采用卷积神经网络提取的重构系数作为三维形变模型的输入,完成基本三维人脸Mc的重构。
3.根据权利要求1所述的方法,其中,所述形状对齐的三维重构人脸Mf构造方法中,步骤二通过将基本三维人脸与参考二维人脸图像相比较,设计损失函数完成对基本三维人脸局部区域细节的优化。
4.根据权利要求1所述的方法,其中,所述视线对齐的三维重构人脸Mo的构造方法中,由步骤二得到的Mf,其眼部区域在二维平面上的投影与参考二维人脸图片的眼部区域是严格对齐的,Mf眼部区域中的每一个顶点都在参考二维人脸图片眼部区域有像素点相对应,步骤三通过将Mf眼部区域的纹理完全替换为二维人脸图像眼部区域中的纹理,可完成两者眼部区域的纹理对齐。
5.根据权利要求1所述的方法,其中,所述视线接触判别器Dg由特征提取器和梯度计算器两部分构成,特征提取器用于获取步骤三中所获取的Mo旋转前后的视觉特征ds和de:
ds=Es(Is),de=Ee(Ie),
其中,Is是Mo旋转前映射到二维平面二维重构人脸图片,Ie是Mo旋转后映射到二维平面二维重构人脸图片,Es和Ee为卷积神经网络模块,ds和de为提取的相应的视觉特征,随后将ds和de进行差分操作,将由一系列残差模块构成的梯度计算器Er输入,最终完成视线对齐的三维重构人脸Mo旋转后视线方向相较于视线接触方向偏移的梯度g(s,e)的计算:
g(s,e)=Er(de-ds),
其中,Er为梯度计算器,ds和de为提取的相应的视觉特征。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111376077.5A CN114049442A (zh) | 2021-11-19 | 2021-11-19 | 三维人脸视线计算方法 |
US17/719,948 US11734889B2 (en) | 2021-11-19 | 2022-04-13 | Method of gaze estimation with 3D face reconstructing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111376077.5A CN114049442A (zh) | 2021-11-19 | 2021-11-19 | 三维人脸视线计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049442A true CN114049442A (zh) | 2022-02-15 |
Family
ID=80210149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111376077.5A Pending CN114049442A (zh) | 2021-11-19 | 2021-11-19 | 三维人脸视线计算方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11734889B2 (zh) |
CN (1) | CN114049442A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722570A (zh) * | 2022-03-07 | 2022-07-08 | 北京航空航天大学 | 视线估计模型建立方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255831A (zh) * | 2018-09-21 | 2019-01-22 | 南京大学 | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 |
WO2020231401A1 (en) * | 2019-05-13 | 2020-11-19 | Huawei Technologies Co., Ltd. | A neural network for head pose and gaze estimation using photorealistic synthetic data |
CN112002014A (zh) * | 2020-08-31 | 2020-11-27 | 中国科学院自动化研究所 | 面向精细结构的三维人脸重建方法、系统、装置 |
CN113269862A (zh) * | 2021-05-31 | 2021-08-17 | 中国科学院自动化研究所 | 场景自适应的精细三维人脸重建方法、系统、电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664949B2 (en) * | 2016-04-22 | 2020-05-26 | Intel Corporation | Eye contact correction in real time using machine learning |
US10558895B2 (en) * | 2018-03-30 | 2020-02-11 | Tobii Ab | Deep learning for three dimensional (3D) gaze prediction |
KR102604424B1 (ko) * | 2018-12-06 | 2023-11-22 | 주식회사 딥픽셀 | 표준 얼굴 모델 기반 얼굴 특징점 추정 영상 처리장치 및 표준 얼굴 모델 기반 얼굴 특징점 추정 영상 처리를 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 물리적 기록매체 |
US11487968B2 (en) * | 2019-12-16 | 2022-11-01 | Nvidia Corporation | Neural network based facial analysis using facial landmarks and associated confidence values |
CN111339928B (zh) * | 2020-02-25 | 2022-06-28 | 苏州科达科技股份有限公司 | 眼神调节方法、装置及存储介质 |
-
2021
- 2021-11-19 CN CN202111376077.5A patent/CN114049442A/zh active Pending
-
2022
- 2022-04-13 US US17/719,948 patent/US11734889B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255831A (zh) * | 2018-09-21 | 2019-01-22 | 南京大学 | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 |
WO2020231401A1 (en) * | 2019-05-13 | 2020-11-19 | Huawei Technologies Co., Ltd. | A neural network for head pose and gaze estimation using photorealistic synthetic data |
CN112002014A (zh) * | 2020-08-31 | 2020-11-27 | 中国科学院自动化研究所 | 面向精细结构的三维人脸重建方法、系统、装置 |
CN113269862A (zh) * | 2021-05-31 | 2021-08-17 | 中国科学院自动化研究所 | 场景自适应的精细三维人脸重建方法、系统、电子设备 |
Non-Patent Citations (1)
Title |
---|
JIADONG LIANG 等: "Reconstructing 3D Virtual Face with Eye Gaze from a Single Image", 2022 IEEE CONFERENCE ON VIRTUAL REALITY AND 3D USER INTERFACES (VR), 20 April 2022 (2022-04-20), pages 370 - 377 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722570A (zh) * | 2022-03-07 | 2022-07-08 | 北京航空航天大学 | 视线估计模型建立方法、装置、电子设备及存储介质 |
CN114722570B (zh) * | 2022-03-07 | 2023-09-15 | 北京航空航天大学 | 视线估计模型建立方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220254106A1 (en) | 2022-08-11 |
US11734889B2 (en) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106600667B (zh) | 一种基于卷积神经网络的视频驱动人脸动画方法 | |
CN110599605B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN111028330B (zh) | 三维表情基的生成方法、装置、设备及存储介质 | |
Ichim et al. | Dynamic 3D avatar creation from hand-held video input | |
EP2538388B1 (en) | Method and arrangement for image model construction | |
EP3992919B1 (en) | Three-dimensional facial model generation method and apparatus, device, and medium | |
JP2023526566A (ja) | 高速で深い顔面変形 | |
WO2021063271A1 (zh) | 人体模型重建方法、重建系统及存储介质 | |
CN102136156B (zh) | 用于介观几何结构调制的系统和方法 | |
CN112734890A (zh) | 基于三维重建的人脸替换方法及装置 | |
CN111754622B (zh) | 脸部三维图像生成方法及相关设备 | |
KR20230110787A (ko) | 개인화된 3d 머리 및 얼굴 모델들을 형성하기 위한 방법들 및 시스템들 | |
Wan et al. | Geodesic distance-based realistic facial animation using RBF interpolation | |
CN115512014A (zh) | 训练表情驱动生成模型的方法、表情驱动方法及装置 | |
CN114049442A (zh) | 三维人脸视线计算方法 | |
CN106909904A (zh) | 一种基于可学习形变场的人脸正面化方法 | |
CN110751026B (zh) | 视频处理方法及相关装置 | |
CN116863044A (zh) | 人脸模型的生成方法、装置、电子设备及可读存储介质 | |
KR20220054955A (ko) | 사용자 얼굴을 대상 얼굴로 교체하는 장치, 방법 및 컴퓨터 프로그램 | |
CN111768476A (zh) | 一种基于网格变形的表情动画重定向方法及系统 | |
CN113326751B (zh) | 一种手部3d关键点的标注方法 | |
CN114998514A (zh) | 一种虚拟角色的生成方法及设备 | |
CN116071485A (zh) | 一种人体三维重建方法及设备 | |
Hou et al. | Real-time markerless facial motion capture of personalized 3D real human research | |
CN113614791A (zh) | 动态三维成像方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |