CN115668300A - 利用纹理解析的对象重建 - Google Patents

利用纹理解析的对象重建 Download PDF

Info

Publication number
CN115668300A
CN115668300A CN202180039730.0A CN202180039730A CN115668300A CN 115668300 A CN115668300 A CN 115668300A CN 202180039730 A CN202180039730 A CN 202180039730A CN 115668300 A CN115668300 A CN 115668300A
Authority
CN
China
Prior art keywords
model
vertex
image
fitted
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180039730.0A
Other languages
English (en)
Inventor
C-M·郭
K-L·程
M·A·萨尔基斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN115668300A publication Critical patent/CN115668300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2012Colour editing, changing, or manipulating; Use of colour codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Abstract

提供了用于生成一个或多个三维(3D)模型的技术。在一个示例中,获得对象(例如,面部或其它对象)的图像,并且生成图像中的对象的3D模型。3D模型包括几何形状信息。确定用于3D模型的色彩信息,并且基于对几何形状信息和用于3D模型的色彩信息的修改,来生成对象的经拟合的3D模型。在一些情况下,色彩信息(例如,对色彩信息的确定和/或修改)和经拟合的3D模型可以是基于一个或多个顶点级别拟合过程的。基于经拟合的3D模型以及与经拟合的3D模型相关联的深度信息来生成对象的经细化的3D模型。在一些情况下,经细化的3D模型可以是基于像素级别细化或拟合过程的。

Description

利用纹理解析的对象重建
技术领域
概括而言,本公开内容涉及图像处理,并且更具体地,本公开内容涉及用于利用纹理解析来执行对象重建的技术和系统。
背景技术
许多设备和系统允许通过生成场景的图像(也被称为帧)和/或视频数据(包括多个图像或帧)来捕获场景。例如,相机或包括相机的计算设备(例如,诸如包括一个或多个相机的移动电话或智能电话之类的移动设备)可以捕获场景的图像序列。图像和/或视频数据可以由这样的设备和系统(例如,移动设备、IP相机等)捕获和处理,并且可以被输出以用于消耗(例如,被显示在设备和/或其它设备上)。在一些情况下,图像和/或视频数据可以由这样的设备和系统捕获并且输出以供其它设备处理和/或消耗。
可以对图像进行处理(例如,使用对象检测、识别、分割等),以确定在图像中存在的任何对象,这可能对于许多应用是有用的。例如,可以确定用于表示图像中的对象的模型,并且可以使用该模型来促进各种系统的有效操作。除了许多其它应用和系统之外,此类应用和系统的示例包括增强现实(AR)、机器人、汽车业和航空、三维场景理解、对象抓取、对象跟踪。
发明内容
在一些示例中,描述了用于处理一个或多个图像并且针对图像中的一个或多个对象执行利用纹理解析的对象重建的技术和系统。根据至少一个说明性示例,提供了一种用于生成一个或多个三维(3D)模型的方法。所述方法包括:获得对象的图像;生成所述图像中的所述对象的3D模型,所述3D模型包括几何形状信息;确定用于所述3D模型的色彩信息;基于对所述几何形状信息和用于所述3D模型的所述色彩信息的修改,来生成所述对象的经拟合的3D模型;以及基于所述经拟合的3D模型以及与所述经拟合的3D模型相关联的深度信息来生成所述对象的经细化的3D模型。
在另一示例中,提供了一种用于处理一个或多个图像的装置,包括:存储器(例如,被配置为存储至少一个图像的图像数据);以及在电路中实现并且耦合到所述存储器的一个或多个处理器。所述一个或多个处理器被配置为并且可以进行以下操作:获得对象的图像;生成所述图像中的所述对象的3D模型,所述3D模型包括几何形状信息;确定用于所述3D模型的色彩信息;基于对所述几何形状信息和用于所述3D模型的所述色彩信息的修改,来生成所述对象的经拟合的3D模型;以及基于所述经拟合的3D模型以及与所述经拟合的3D模型相关联的深度信息来生成所述对象的经细化的3D模型。
在另一示例中,提供了一种具有存储在其上的指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器进行以下操作:获得对象的图像;生成所述图像中的所述对象的3D模型,所述3D模型包括几何形状信息;确定用于所述3D模型的色彩信息;基于对所述几何形状信息和用于所述3D模型的所述色彩信息的修改,来生成所述对象的经拟合的3D模型;以及基于所述经拟合的3D模型以及与所述经拟合的3D模型相关联的深度信息来生成所述对象的经细化的3D模型。
在另一示例中,提供了一种用于处理一个或多个图像的装置。所述装置包括:用于获得对象的图像的单元;用于生成所述图像中的所述对象的3D模型的单元,所述3D模型包括几何形状信息;用于确定用于所述3D模型的色彩信息的单元;用于基于对所述几何形状信息和用于所述3D模型的所述色彩信息的修改,来生成所述对象的经拟合的3D模型的单元;以及用于基于所述经拟合的3D模型以及与所述经拟合的3D模型相关联的深度信息来生成所述对象的经细化的3D模型的单元。
在一些方面中,所述色彩信息包括反照率色彩。
在一些方面中,生成所述对象的所述3D模型包括:获得通用对象模型;识别所述图像中的所述对象的关键点;以及通过使用所述对象的所识别的关键点将所述通用对象模型拟合到所述图像中的所述对象来生成所述3D模型。
在一些方面中,生成所述对象的所述经拟合的3D模型以及确定用于所述3D模型的所述色彩信息包括:执行所述3D模型的至少一个顶点级别拟合,所述至少一个顶点级别拟合修改所述3D模型的所述几何形状信息并且使用对象解析遮罩来确定用于所述3D模型的所述色彩信息,所述对象解析遮罩定义所述3D模型的用于色彩调整的一个或多个区域。
在一些方面中,执行所述3D模型的所述至少一个顶点级别拟合包括:执行所述几何形状信息和所述色彩信息的联合优化。
在一些方面中,执行所述3D模型的所述至少一个顶点级别拟合包括:识别由所述对象解析遮罩定义的所述一个或多个区域;执行所述3D模型到所述对象的第一顶点级别拟合,所述第一顶点级别拟合通过将所述3D模型的每个顶点移位以拟合所述图像中的所述对象来修改所述3D模型的所述几何形状信息,所述第一顶点级别拟合还确定用于所述3D模型的每个顶点的所述色彩信息;以及执行所述3D模型到所述对象的第二顶点级别拟合,所述第二顶点级别拟合调整用于所述3D模型的被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点的所述色彩信息。
在一些方面中,确定用于所述3D模型的每个顶点的所述色彩信息包括:使用聚类算法来确定用于所述3D模型的被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点的多个候选色彩;以及针对被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点,从针对每个顶点确定的所述多个候选色彩中选择最亮色彩。
在一些方面中,所述聚类算法包括K-means算法。
在一些方面中,生成所述对象的所述经细化的3D模型包括:执行所述经拟合的3D模型的像素级别细化,所述像素级别细化将所述深度信息添加到所述经拟合的3D模型的一部分中。
在一些方面中,上述方法、装置和计算机可读介质还包括:使用细化遮罩来确定所述经拟合的3D模型的用于使用所述像素级别细化来添加所述深度信息的所述一部分。
在一些方面中,所述对象包括面部,并且其中,所述细化遮罩包括眼睛遮罩,所述眼睛遮罩指示所述一部分包括所述面部的在所述面部的眼睛区域之外的区域。
在一些方面中,执行所述经拟合的3D模型的所述像素级别细化包括:生成用于所述经拟合的3D模型的反照率图像和深度图像;以及使用所述反照率图像和所述深度图像来生成所述经细化的3D模型。
在一些方面中,上述方法、装置和计算机可读介质还包括:将平滑函数应用于所述经拟合的3D模型。
在一些方面中,所述平滑函数包括离散Laplacian平滑函数。
在一些方面中,所述对象是面部。
在一些方面中,上述方法、装置和计算机可读介质还包括:输出所述对象的所述经细化的3D模型。
在一些方面中,所述装置是以下各者或以下各者的一部分:相机(例如,IP相机)、移动设备(例如,移动电话或所谓的“智能电话”或其它移动设备)、可穿戴设备、扩展现实设备(例如,虚拟现实(VR)设备、增强现实(AR)设备或混合现实(MR)设备)、个人计算机、膝上型计算机、服务器计算机或其它设备。在一些方面中,所述装置包括用于捕获一个或多个图像的一个或多个相机。在一些方面中,所述装置还包括用于显示一个或多个图像、通知和/或其它可显示数据的显示器。在一些方面中,上述装置可以包括一个或多个传感器。
该发明内容既不旨在标识所要求保护的主题的关键或必要特征,也不旨在单独用于确定所要求保护的主题的范围。应当通过参考本专利的整个说明书的适当部分、任何或全部附图以及每个权利要求来理解该主题。
在参考以下说明书、权利要求和附图之后,前述内容以及其它特征和实施例将变得更加显而易见。
附图说明
下文参考以下附图来详细描述本申请的说明性实施例:
图1是示出根据一些示例的用于基于三维形变模型(3DMM)技术来执行对象重建的过程的示例的图;
图2A是示出根据一些示例的用于利用纹理解析来执行对象重建的过程的示例的图;
图2B是示出根据一些示例的用于利用纹理解析来执行对象重建的过程的另一示例的图;
图3是示出根据一些示例的用于肤色提取的过程的示例的框图;
图4A是根据一些示例的输入图像的示例;
图4B是示出根据一些示例的示出经重建的面部的示例的图,其示出了通过肤色提取估计的光和通过平均反照率纹理估计的光(具有由圆圈标记的内置阴影引起的不正确的光);
图5是示出根据一些示例的用于利用面部解析遮罩(作为对象解析遮罩的示例)进行色彩调整的过程的示例的框图;
图6是示出根据一些示例的使用利用纹理解析的面部重建而执行的面部重建结果的示例的图像;
图7A是示出根据一些示例的基于iBug的面部关键点(landmark)的示例的图像;
图7B是示出根据一些示例的基于本文描述的技术的面部关键点的示例的图像;
图8是示出根据一些示例的被投影到图像上的关键点和顶点的可视化的图像;
图9包括示出根据一些示例的对色彩正则化的比较的图像;
图10包括示出根据一些示例的利用和不利用面部解析遮罩求解的反照率的示例的图像;
图11是示出根据一些示例的用于生成一个或多个三维(3D)模型的过程的示例的流程图;以及
图12是示出用于实现本文描述的某些方面的系统的示例的图。
具体实施方式
下文提供了本公开内容的某些方面和实施例。如对于本领域技术人员将显而易见的,这些方面和实施例中的一些可以独立地应用,并且它们中的一些可以相结合地应用。在下文的描述中,出于解释的目的,阐述了具体细节以便提供对本申请的实施例的全面理解。然而,将显而易见的是,可以在没有这些具体细节的情况下实践各个实施例。附图和描述并不旨在是限制性的。
随后的描述仅提供了示例性实施例,并且不旨在限制本公开内容的范围、适用性或配置。而是,对示例性实施例的随后描述将向本领域技术人员提供用于实现示例性实施例的可行描述。应当理解的是,在不脱离如在所附的权利要求中阐述的本申请的精神和范围的情况下,可以对元素的功能和布置进行各种改变。
对用于物理对象的三维(3D)模型和/或深度图的生成对于许多系统和应用可能是有用的,诸如除了许多其它系统和应用之外,对于以下各项可能是有用的:扩展现实(XR)(例如,包括增强现实(AR)、虚拟现实(VR)、混合现实(MR)等)、机器人、汽车业、航空、3D场景理解、对象抓取、对象跟踪。例如,在AR环境中,用户可以查看包括人工或虚拟图形与用户的自然环境的集成的图像。AR应用允许对真实图像进行处理,以将虚拟对象添加到图像中并且在多个维度上将虚拟对象与图像对齐或配准。例如,现实中存在的真实世界对象可以使用与真实世界对象相似或作为其的精确匹配的模型来表示。在一个示例中,可以在AR设备(例如,AR眼镜、AR头戴式显示器(HMD)或其它设备)的视野中呈现表示停在跑道上的真实飞机的虚拟飞机的模型,同时用户继续在AR环境中查看他或她的自然环境。观看者能够在查看真实世界场景时操纵模型。在另一示例中,可以利用在AR环境中具有不同色彩或不同物理属性的模型来标识和渲染位于桌子上的实际对象。在一些情况下,还可以将现实中不存在的人工虚拟对象或用户自然环境的实际对象或结构的计算机生成的副本添加到AR环境中。
生成对象的详细三维(3D)模型(例如,3D面部模型)通常需要昂贵的设备,这阻碍了大规模数据收集过程。面部是可以针对其生成3D模型的对象的示例。存在越来越多的与面部相关的应用(例如,用于XR系统、用于3D图形、用于安全等等),这导致对具有以高效且高质量的方式生成详细的3D面部模型(以及其它对象的3D模型)的能力的系统的巨大需求。还存在对生成其它类型的对象的3D模型的巨大需求,诸如车辆的3D模型(例如,用于自主驾驶系统)、房间布局的3D模型(例如,对于XR应用,用于由设备、机器人进行的导航等)等等。
从一个或多个图像(例如,单个RGB图像)执行三维(3D)对象重建(例如,以生成对象(诸如面部)的3D模型和/或深度信息)可能是具有挑战性的。例如,基于涉及几何形状、反照率(albedo)纹理和照明估计的3D对象重建,可能会出现困难。反照率纹理是指没有任何阴影或高光的图像纹理(例如,色彩)。执行单图像3D面部重建的一种方式是基于3D形变模型(3DMM)拟合,这在以下文档中进行了描述:Volker Blanz和Thomas Vetter,“Amorphable model for the synthesis of 3D faces”,Siggraph,第99卷,第1999号,1999,据此通过引用的方式将其全部内容并入并且用于所有目的。使用3DMM拟合生成的3DMM模型是3D面部几何形状和纹理的统计模型。3D面部模型可以通过基础项与用于形状的系数Xshape、用于表情的系数Xexpression和用于纹理的系数Xalbedo的线性组合来表示,例如如下:
Vertices3D_coordinate=XshapeBasisshape+XexpressionBasisexpression (1)
Verticescolor=Colormean_albedo+XalbedoBasisalbedo (2)
等式(1)用于确定3DMM模型的每个顶点的位置,而等式(2)用于确定用于3DMM模型的每个顶点的色彩。
图1是示出用于基于3DMM技术来执行对象重建的过程100的示例的图。在操作102处,过程100包括获得输入,该输入包括图像(例如,RGB图像)和关键点(例如,面部关键点)。在操作104处,过程100执行3DMM拟合技术以生成3DMM模型。3DMM拟合包括求解对象(例如,面部)的3DMM模型的形状系数(例如,Xshape)、表情系数(例如,Xexpression)和反照率系数(例如,Xalbedo)。拟合还可以包括求解相机矩阵和球面谐波光照系数。
在操作106处,过程100包括对3DMM模型执行Laplacian变形。例如,Laplacian变形可以被应用于3DMM模型的顶点,以改进关键点拟合。在操作108处,过程100包括求解反照率。例如,过程100可以微调反照率系数以拆分出不属于球面谐波光照模型的色彩。在操作110处,过程100求解深度。例如,过程100可以基于从着色恢复形状(shape-from-shading)公式来确定每像素深度位移。从着色恢复形状公式将3DMM模型的每个点的色彩定义为反照率色彩乘以光系数的乘积。例如,在图像中看到的色彩用公式表示为反照率色彩乘以光系数。针对给定点的光系数是基于该点的表面法线的。在操作112处,过程100包括输出深度图和/或3D模型。
然而,基于执行3DMM拟合的3D面部重建的质量可能受到3DMM拟合本身的复杂性的限制。例如,3DMM是具有用于生成输出(例如,深度图和/或3D模型)的大数据集的预定义模型。基于复杂性,经重建的对象(例如,面部)将不具有大量细节(例如,所产生的深度图将不是高度详细的)。此外,由于其统计性质,3DMM模型的纹理基础伴随着照明(例如,有光泽的斑点或聚光照明(spotlight)、阴影等)。这样的照明导致对象的照明的估计不正确,并且也是正确恢复详细几何形状的阳碍。
本文描述了如下的系统、装置、过程(或方法)和计算机可读介质(统称为“系统和技术”):其可以从单个图像(例如,RGB图像)或在一些情况下从多个图像执行3D对象重建(例如,面部或其它对象的3D模型),以产生3D模型和/或深度图。例如,在一些情况下,可以使用本文描述的系统和技术来生成3D模型(其包括深度信息)。在另一示例中,可以使用本文描述的系统和技术来生成深度图。
在一些示例中,如下文更详细描述的,所述系统和技术可以基于图像(例如,单个图像)来执行初始拟合(例如,3D形变模型(3DMM)拟合)。所述系统和技术可以基于初始拟合(例如,3DMM拟合)和对象解析遮罩来执行一个或多个顶点级别拟合过程。在一些示例中,对象解析遮罩可以包括面部解析遮罩。在一些情况下,对象解析遮罩可以指示对象的用于应用聚类算法和/或用于色彩调整的一个或多个区域。所述系统和技术还可以执行像素级别细化(例如,在执行一个或多个顶点级别拟合过程之后)以生成经细化的3D模型。在一些情况下,可以使用细化遮罩来确定3D模型的用于使用像素级别细化来添加深度信息的一部分。
从初始(例如,3DMM)拟合产生的纹理由于其统计特性而可能包括初步光泽和阴影,从而导致不正确的光估计结果。在一些示例中,本文描述的系统和技术可以将聚类算法(例如,K-means算法)应用于属于对象的非纹理区域(例如,由对象解析遮罩来标识)(诸如前额、脸颊、鼻子和/或面部的其它区域)的每个顶点色彩。可以选择最亮中心作为用于3D模型的基础反照率色彩,从而提供不具有光泽和阴影的纹理并且导致更准确的光估计。
所述系统和技术可以将语义对象(例如,面部)解析集成到详细的3D对象重建(例如,3D面部或其它对象重建)中。上述对象解析遮罩可以提供对象的语义解析。所述系统和技术能够在3DMM拟合期间即时合成反照率纹理,使得反照率纹理不仅产生无光泽和阴影的纹理,而且导致准确的光照估计。该解决方案可以利用轻量级的初始(例如,3DMM)拟合来重建详细的3D对象(例如,3D面部),同时在主观和客观质量度量方面保持优越的质量。
除了其它益处之外,本文描述的技术和系统可以解决3DMM拟合技术的缺陷(例如,与基础项、复杂性等相关联的缺陷)。例如,所述技术和系统可以进行自由形式的3D移位(例如,在Laplacian变形约束下),以使得非刚性变形具有超过形状和表情系数的更好的拟合能力,同时保持对象(例如,面部)的主要表面形状。所述技术和系统还可以实现一种新颖的算法,以在对象解析遮罩(例如,指示图像中的要根据其从图像中提取反照率纹理的区域)(诸如面部解析遮罩)的引导下,直接从参考图像(例如,输入RGB图像)中提取反照率纹理。此外,在细化遮罩的引导下,可以避免在非均匀区域(例如,面部的眼睛以保持眼睛的真实球形形状)中的意外的深度结果。
出于说明性目的,本文中将使用面部作为对象的示例。然而,本领域普通技术人员将明白,本文描述的系统和技术可以针对在一个或多个图像中捕获的任何类型的对象来执行。
图2A是示出可以从单个RGB图像执行详细3D面部重建的系统200流水线的示例的图。如图2A所示,所提出的流水线包括三个不同的阶段,包括初始拟合阶段202(其可以包括3DMM拟合)、顶点级别拟合阶段(例如,包括顶点级别拟合过程204和顶点级别拟合过程206)以及像素级别细化阶段208(也被称为像素级别拟合)。对于初始拟合(例如,3DMM拟合),可以应用基于关键点的方法(使用面部关键点203),但不使用色彩相关项。在以下文档中描述了可以使用的基于关键点的方法的一个示例:Yudong Guo等人,“Cnn-based real-timedense face reconstruction with inverse-rendered photo-realistic face images”,IEEE transactions on pattern analysis and machine intelligence 41.6(2018):1294-1307,据此通过引用的方式将其全部内容并入并且用于所有目的。在一些情况下,系统200可以求解相机弱透视矩阵以及形状和表情的系数。
在一些示例中,如图2A所示,顶点级别拟合阶段包括可以顺序地应用的第一顶点级别拟合过程204和第二顶点级别拟合过程206。例如,第一顶点级别拟合过程204可以包括仅几何形状拟合,而第二顶点级别拟合过程206可以包括经组合的几何形状和纹理拟合。顺序地应用第一顶点级别拟合过程204和第二顶点级别拟合过程206可以提供以下描述的损失函数的更好收敛。在一些示例中,顶点级别拟合可以包括通过对由面部解析遮罩207定义的皮肤区域应用聚类算法(诸如K-means算法)来提取图像中的面部的肤色。在一些情况下,使用最小二乘解来求解球面谐波(SH)的光系数。在以下文档中描述了最小二乘解的示例:Ira Kemelmacher-Shlizerman和Ronen Basri,“3D face reconstruction from a singleimage using a single reference face shape”,IEEE transactions on patternanalysis and machine intelligence 33.2(2010):394-405,据此通过引用的方式将其全部内容并入并且用于所有目的。然后,该过程可以基于在仅几何形状顶点拟合过程204期间具有顶点的自由移位(例如,参见下面的等式(3))的损失(例如,真实感损失,诸如在下面的等式(9)中所示)来优化形状、表情和光系数。用于丰富纹理区域的面部解析遮罩207可以用于第一顶点级别拟合过程204和/或第二顶点级别拟合过程206。例如,可以将额外的色彩调整项(例如,参见下面的等式(11))添加到损失函数中,以在第二顶点级别拟合过程206期间生成反照率纹理。如在下面的等式中所示,顶点级别拟合过程204和206联合优化3D模型的形状和反照率。
在像素级别细化阶段208中,系统200可以渲染粗略的深度图,并且可以基于从着色恢复形状损失(例如,参见下面的等式(17))或其中估计了照明和纹理的其它损失来求解针对每个像素的深度位移。该步骤是基于在顶点级别拟合阶段中求解的反照率纹理(例如,光系数)和3D模型或网格的。
可以在不同阶段中应用对象解析遮罩(例如,面部解析遮罩207)以改善重建结果。在一些示例中,对象解析遮罩可以用于在顶点级别拟合阶段期间(例如,在第一顶点级别拟合过程204期间)的肤色提取。例如,从初始拟合(例如,基于3DMM的拟合)产生的肤色是由其平均纹理和基础的线性组合来确定的,如在上面的等式(2)中所示。然而,由于3DMM的统计特性,从初始(例如,3DMM)拟合产生的纹理通常包含初步光泽和阴影。图4A是输入图像的示例,并且图4B提供了对基于肤色提取估计的光(在列402的顶部行中示出)和基于平均反照率估计的光(在列404的顶部行中示出)的比较。在列402中示出了通过肤色提取估计的光的结果,并且在列404中示出了通过平均反照率纹理估计的光的结果。在图4B中通过圆圈标记了由内置阴影和光泽引起的不正确的光估计结果。例如,如在图4B的列404中所示,初步光泽和阴影导致基于在图4A中所示的输入图像的不正确的光估计结果。
如图3所示,本文描述的系统和技术可以将聚类算法(例如,K-means或其它聚类算法)应用于属于输入图像302中的由面部解析遮罩207标识的非纹理区域(诸如图像中的面部的前额、脸颊和鼻子区域)的每个顶点色彩(被称为候选色彩)。面部解析遮罩由图像304示出。如在图3中进一步示出,最亮色彩306被选择为基础反照率色彩(例如,最亮色彩306是从候选色彩中选择的)。反照率色彩在下面被表示为Calbedo。此类技术导致不具有光泽和阴影的纹理,从而提供了更准确的光估计,如在图4的列402中所示。在图像308中示出了基于所选择的最亮色彩306而估计的肤色。
在一些示例中,对象解析遮罩(例如,面部解析遮罩207)也可以用于在顶点级别拟合阶段期间(例如,在第二顶点级别拟合过程206期间)执行色彩调整。图5是示出用于使用面部解析遮罩207来执行色彩调整的示例过程的图。在给定输入图像502的情况下,确定初始肤色(在示出面部的反照率色彩的反照率图像504中示出)。在图像506中示出了面部解析遮罩,并且面部解析遮罩用于确定哪些区域是丰富纹理区域,诸如眉毛、嘴、嘴唇和眼睛。例如,如下面更详细描述的,将色彩调整项添加到拟合损失函数(拟合损失函数的示例如下面的等式(11)所示)中,以进一步合成具有丰富纹理信息的那些区域,诸如面部的眉毛和嘴。色彩调整项可以包括纹理部分和非均匀部分两者(诸如镜面反射和遮挡阴影),这超出了球面谐波光照模型的范围。在优化过程期间,该过程迫使丰富纹理区域中的顶点的色彩调整接近参考或输入图像中的对应色彩,丰富纹理区域具有高于其它区域中的像素的权重(例如,如在等式(15)和(16)中所示)。如上所述,从着色恢复形状公式指示输入图像502中的每个像素的色彩应当是某种标量乘以反照率色彩。然而,丰富纹理区域(例如,眉毛、嘴、嘴唇、眼睛等)中的色彩变化可能不是由于表面的正常光照造成的,而是实际上可能直接来自反照率(例如,来自输入图像)。例如,嘴唇是红色的原因是因为嘴唇实际上是红色的,而不是因为面部的光或几何形状。当针对图像中的面部生成反照率时,本文描述的系统和技术可以使用面部解析遮罩来确定如何处理不同的区域(例如,如何处理丰富纹理区域与如何处理非纹理区域)。例如,面部解析遮罩可以指示哪些像素属于将通过从着色恢复形状函数处理的区域(例如,非纹理区域)以及哪些像素属于将不通过从着色恢复形状函数处理(或将以与非纹理区域不同的方式来处理)的区域(丰富纹理区域)。图像508示出了从着色恢复形状函数的结果(例如,在第二顶点级别拟合过程206之后产生的)。
如上所述,在一些情况下可以使用细化遮罩。例如,因为人类(以及其它动物)的眼睛是反射性的,所以在球面谐波光照模型下执行每像素深度细化可能导致不自然的几何形状。为了克服这种问题,可以使用眼睛细化遮罩来执行在像素级别细化阶段208期间执行的深度细化。例如,眼睛细化遮罩可以定义眼睛的位置,使得像素级别细化阶段208将深度添加到面部的在模型的与眼睛相对应的区域之外的一部分中(并且因此不调整与眼睛相对应的点的深度),并且不添加或修改眼睛区域的深度。在一些示例中,眼睛细化遮罩可以在执行顶点级别拟合阶段之后用于眼睛,并且可以诸如通过使用额外损失函数(例如,参见下面的等式(18))来限制在眼睛细化遮罩中定义的眼睛区域的像素的深度位移。对眼睛细化遮罩的使用允许系统200输出带有具有球形形状的眼睛区域的3D模型和/或深度图,从而产生具有对人的物理眼睛的形状更真实地建模的视觉外观的输出。图6是示出使用眼睛细化遮罩执行的面部重建结果的示例的图像,其中眼睛区域(在方框602中示出)具有带有平滑表面的球状形状。如果在像素级别细化阶段208期间调整眼睛区域的深度,则眼睛区域将具有凹凸纹理。
图2B是示出用于执行3D面部重建(例如,从单个RGB图像)的流水线或过程210的另一示例的图。例如,在操作211处,过程210接收输入图像(例如,RGB图像)、关键点(例如,在图2A中示出的面部关键点203)和面部解析遮罩(例如,在图2A中示出的面部解析遮罩207)。在操作212处,过程210执行初始拟合,其可以包括3DMM拟合。初始拟合可以生成图像中的面部的3D模型。初始拟合可以包括:求解3DMM模型的形状和表情系数(例如,使用上面的等式(1)和(2)),求解或获得相机矩阵(例如,下面的Xcam)。初始拟合还可以包括求解球面谐波光照系数。可以使用任何适当的变换算法来求解相机矩阵,该变换算法可以执行从2D图像域到3D域的变换。
在操作214处,过程210执行顶点级别拟合,以提取肤色并且联合求解在操作212确定的3D模型(例如,3DMM模型)的顶点移位、色彩调整、形状、表情系数以及光照系数。如上所述,顶点级别拟合可以包括第一顶点级别拟合过程204和第二顶点级别拟合过程206。下面描述了顶点级别拟合的进一步细节。
在操作216处,过程210执行像素级别细化(或拟合)以求解每像素深度位移,这可以基于从着色恢复形状公式来执行,如下所述(例如,参见下面的等式(17))。在操作218处,过程210输出包括深度信息的深度图和/或3D模型。例如,3D模型可以包括由边和面连接的顶点或点的集合构成的3D网格。网格可以通过为这些顶点中的每个顶点分配(x,y,z)空间坐标来建模对象(例如,面部),其中x坐标对应于水平维度,y坐标对应于垂直维度,并且x坐标对应于深度维度。网格可以包括体积网格或多边形网格。
现在关于面部重建来描述关于由系统200和过程210执行的操作的实现细节。可以使用多个关键点来执行初始拟合(例如,3DMM拟合)。例如,可以使用针对输入图像(例如,RGB图像)中的面部而确定的面部关键点来将通用3D模型拟合到输入图像中的面部几何形状。该拟合可以包括基于面部关键点来修改3D模型的顶点(例如,修改模型的鼻子上的一个或多个顶点以与图像中的面部的鼻子上的一个或多个关键点对齐或紧密对齐),使得3D模型的几何形状更紧密地匹配图像中的面部。初始拟合将提供面部的深度图和/或3D模型的粗略估计。本文描述的顶点级别过程204和206以及像素级别细化阶段208可以提供更详细和细化的深度图和/或3D模型。
在一个说明性示例中,68个面部关键点可以用于初始拟合,诸如在图7A中所示的面部关键点。68个关键点可以包括由https://ibug.doc.ic.ac.uk/resources/300-W/中的iBug定义的那些关键点,据此通过引用的方式将其全部内容并入并且用于所有目的。对于顶点级别拟合,可以使用不同的面部关键点集合。在一个说明性示例中,70个关键点可以用于顶点级别拟合,诸如在图7B中所示的面部关键点。在一些情况下,如图7B所示,沿着眉毛的下边界定义针对眉毛的关键点,并且还添加了针对两个鼻子的关键点(与在图7A中所示的关键点相比),以提供更好的鼻子形状。在一些示例中,来自Pytorch的Adam优化器可以用于解决本文描述的所有优化问题。在以下文档中描述了Adam优化器和Pytorch:AdamPaszke等人,“Automatic differentiation in pytorch”(2017),据此通过引用的方式将其全部内容并入并且用于所有目的。在下面的等式中,为了更好的易读性,省略了针对球面谐波(SH)和3DMM系数的边界约束项。
如下所述,顶点级别拟合过程204和206可以联合优化光、几何形状和反照率。例如,可以从初始拟合(例如,3DMM拟合)获得初始光照。顶点级别拟合过程204和206可以根据几何形状和反照率来优化光。许多现有系统分开优化形状(或几何形状)、光和反照率。本文描述的系统和技术可以通过使用下面描述的技术(例如,在等式(9)、(11)等中示出)联合优化光、几何形状和反照率来提供改进的深度图和/或3D模型结果。
现在将描述第一顶点级别拟合过程204的示例实现(例如,仅关于几何形状)。在该阶段,系统200可以进行每顶点移位Xshift(例如,导致修改初始模型(诸如3DMM模型)的几何形状信息),以确保获得更好的拟合(与仅使用初始拟合(例如,初始3DMM拟合)获得的拟合相比)。每顶点移位Xshift可以导致每个顶点被非线性地移位。在一个示例中,在给定相机矩阵Xcam以及来自初始拟合(例如,来自3DMM拟合)的用于形状的系数Xshape和用于表情的系数Xexpression的情况下,系统200可以通过如下将顶点坐标V3d和V2d投影到2D图像来重建这些顶点坐标:
V3d=Xshape×Basisshape+Xexpression×Basisexpression+Xshift (3)
V2d=Project(V3d,Xcam) (4)
使用等式(3)确定的项V3d是作为初始拟合的结果而生成的初始模型的每个顶点的每顶点3D位置。使用等式(4)确定的项V2d表示在2D中(在图像中)的每个顶点位置。3D位置V3d可以用于计算几何形状。2D位置V2d可以用于计算图像坐标域中的每个顶点的色彩。形状系数Xshape和形状基础Basisshape(来自3DMM)表示初始模型(例如,3DMM模型)中的每个顶点的位置,并且表情系数Xexpression和表情基础Basisexpression表示用于每个顶点要移动的预定义图案(基于特定表情)。形状和表情系数以及基础项在初始3DMM拟合中使用(如在等式(1)和(2)中所示),并且是线性项,并且因此不能用于封装对象(例如,面部)的所有详细信息。Xshift项是使用以下优化来确定的,并且通过修改每个3D顶点位置V3d来向每个顶点的3D位置提供非线性度。Xshift可以是在任何方向上(包括水平或x方向、垂直或y方向和/或深度或z方向),在这种情况下,每个顶点可以基于Xshift的值在任何方向上移位。
Laplacian约束项用于在优化期间保持表面外观一致。在以下文档中提供了Laplacian约束项的示例:Olga Sorkine等人,“Laplacian surface editing”,2004年欧洲制图学会/ACM SIGGRAPH关于几何形状处理的研讨会的论文集,ACM,2004,据此通过引用的方式将其全部内容并入并且用于所有目的。系统200可以将每个顶点转变到其Laplacian坐标,并且可以例如使用以下等式计算在添加Xshift之后的损失:
LLaplacian=||Laplacian(V3d)-Laplacian(V3d-Xshift)||2 (5)
其中,LLaplacian是Laplacian约束。如在上面的等式(3)中所示(定义V3d),每个顶点位置V3d通过Xshift进行修改。如上所述,每个顶点可以基于Xshift的值在任何方向上移位。Laplacian约束可以用于约束由Xshift引起的每个顶点的移位量。例如,Laplacian可以通过用与顶点相邻的相邻顶点的平均位置减去顶点来定义顶点坐标,从而保持顶点与其邻居之间的关系。Laplacian约束可以充当平滑项,使得3D网格(构成3D模型)的顶点是平滑的。例如,构成鼻子的边缘的顶点通常应当定义平滑边缘,并且Laplacian约束可以确保相邻顶点保持一致的空间关系。
关键点可以在顶点级别拟合过程期间用作控制点。例如,为了进一步控制经重建的面部的3D几何形状,系统200可以计算被投影的顶点相对于相应关键点的2D距离损失Lstatic_lmk。在一些示例中,关键点中的一个或多个关键点可以包括轮廓关键点。轮廓关键点是位于可见面部区域的边缘的关键点。在一些情况下,轮廓关键点可能在初始模型(例如,3DMM模型)上没有固定的对应顶点。在这样的情况下,系统200可以确定针对轮廓关键点的最近顶点,并且可以在拟合期间使用最近顶点作为控制点。例如,对于轮廓关键点,系统200可以计算到其最近顶点的距离损失,以计算其损失Llmk_dynamic。2D距离损失可以如下用公式表示:
Llmk_static=||Landmark-corresponding(V2d)||2 (6)
Llmk_dynamic=||Landmark-closet(V2d)||2 (7)
静态关键点Llmk_static是在初始模型(例如,3DMM模型)的顶点索引之间具有特定对应关系的关键点。例如,与模型中的特定顶点相对应的关键点是静态关键点。对于静态关键点,等式(6)确定该关键点与对应顶点的2D位置之间的距离。动态关键点Llmk_dynamic是不具有与初始模型的3DMM顶点索引中的任何一者的对应关系的关键点。对于动态关键点,等式(7)确定该关键点与最接近该关键点的顶点的2D位置之间的距离(例如,如通过距离来度量,诸如余弦距离、曼哈顿距离或其它距离)。
如上所讨论的,系统200可以执行肤色提取(例如,使用聚类算法,诸如K-means),以确定针对每个顶点的纯反照率色彩Calbedo。然后,系统200可以应用最小二乘解来确定针对每个顶点的初始光系数Xlight。在上面引用的文档中描述了最小二乘解的示例:Kemelmacher-Shlizerman等人,“3D face reconstruction from a single image usinga single reference face shape”。系统200可以如下使用每个顶点的法线的球面谐波(SH)函数来计算针对每个顶点的照明或光标量Slight
Slight=SH(Normal(V3d),Nband)·Xlight (8)
Slight项是乘以反照率色彩的光标量(例如,参见下面的等式(9)),以确定针对3D模型的顶点的光。项Normal(V3d)是每个3D顶点V3d的表面法线。项Nband是球面谐波频带的数量。在一个说明性示例中,Nband可以是值2。根据球面谐波(SH)函数,可以将法线值传递到由球面谐波函数预定义的特征向量(例如,一维(1D)特征向量)。在以下文档中描述了SH函数:C.Muller,“Spherical harmonics”,InLecture Notes in Mathematics,第17卷,1966,据此通过引用的方式将其全部内容并入并且用于所有目的。来自等式(8)的被优化的变量是光项Xlight,其是1D向量(匹配SH特征向量的维度)。例如,光Xlight是从法线获得的SH基础的线性组合。
系统200可以将Xshape、Xexpression、Xlight和Xshift与真实感损失Lphoto联合地求解,其中*表示逐元素乘法,例如使用以下公式:
Lphoto_1=||Ctarget-Calbedo*Slight||2 (9)
Ctarget项是用于每个顶点的目标色彩。等式(9)的真实感损失Lphoto确定目标色彩Ctarget与基于光标量Slight和反照率色彩Calbedo计算的色彩之间的距离。如图8所示,可以从输入图像对每个顶点的目标色彩Ctarget进行双线性采样。图8是示出针对被投影到图像的关键点和顶点的可视化的图像。在图8中,空心圆圈表示关键点,菱形表示具有定义的对应关键点的顶点,并且圆点表示顶点。如图所示,鼻子的多个顶点(在鼻孔区域周围)聚类在一起。在一些示例中,系统200可以在优化期间忽略不可见的顶点。
在第一顶点级别拟合过程204中的具有损失权重的总体损失函数的示例如下:
Figure BDA0003975025540000102
如上所述,Lphoto_1是色彩项,LLaplacian是平滑Laplacian函数(针对3D顶点位置V3d),并且Llmk_static和Llmk_static是基于关键点的项(针对2D顶点位置V2d)。权重wphoto、wLaplacian、wlmk_static和wlmk_dynamic是可以调谐到特定值的超参数。用于加权参数(其用于下面描述的结果)的值的示例包括wphoto=2e6,wLaplacian=0.05,wlmk_static=1e5以及wlmk_dynamic=1e4。学习率可以被设置为0.005,并且系统200可以在第一顶点级别拟合过程204中运行100次迭代。
现在将描述第二顶点级别拟合过程206的示例实现(例如,关于几何形状和纹理)。基于执行第一顶点级别拟合过程204,系统200输出针对输入图像中的面部的准确拟合的网格(其可以被称为拟合3D模型)。系统200可以开始使用面部解析遮罩从参考图像(输入图像)中提取反照率纹理色彩。在第二顶点级别拟合过程206的优化中引入了两个色彩调整项Cadjust和Cresidual以及其正则化项。Cadjust项定义针对每个顶点的色彩移位并且因此用于调整针对每个顶点的色彩。如上所述,在第一顶点级别拟合过程204中仅使用了Calbedo,其中Calbedo是纯肤色(例如,如在图5的图像504中所示)。可以使用Cadjust项来调整Calbedo,如在下面的等式(11)中所示。使用色彩残差Cresidual项是因为SH模型无法处理由遮挡或聚光照明引起的一些阴影。如图9所示,所求解的残差Cresidual不仅关注纹理部分(例如,眉毛、嘴唇等),而且关注聚光照明(例如,鼻尖)。
与可以使用逐步方法和/或依赖于手动定义的遮罩的其它重建技术不同,系统200可以将Cadjust和Cresidual与其它参数联合求解。例如,使用色彩调整项Cadjust和Cresidual,系统200可以将等式9和10中的Lphoto_1修改为Lphoto_2,如下所示:
Lphoto_2=||Ctarget-((Calbedo+Cadjust)*Slight+Cresidual)||2 (11)
与等式(9)相比,等式(11)中的Lphoto_2在将反照率色彩乘以光标量Slight之前使用Cadjust来调整Calbedo。色彩调整可以生成被认为仅由实际面部几何形状和光照形成的色彩。图9示出了提供对色彩正则化的比较的图像。几何形状细节(例如,如通过图9的第二行中的方框所示)可以在没有适当约束的情况下由纹理直接表示。在一些情况下,可以引入正则化项Radjust和Rresidual以避免过度拟合(如在图9的第二列中所示),这可以确保色彩将不会改变太大的量。正则化项可以使用以下公式来定义:
Radjust=||Cadjust||2 (12)
Rresidual=||Cresidual||2 (13)
在一些示例中,对于每个顶点的色彩Ci=Calbedo_i+Cadjust_i,系统200可以约束与其邻居的色彩亲和性,以防止形成复杂的反照率纹理(如在图9的第三列中所示)。例如,可以确定色彩亲和性损失Laffinity,以确保所确定的反照率色彩是分段的,而不是非常详细的色彩图。色彩亲和性损失Laffinity可以使用以下公式来定义:
Figure BDA0003975025540000101
其中,i、j、N、K是顶点(i)的索引、相邻顶点(j)的索引、面部区域中的顶点总数(N)和相邻顶点的数量(K)。等式(14)的色彩亲和性损失Laffinity定义了每个顶点的色彩Ci与其相邻顶点的色彩Cj之间的色彩差,其中,如果两个顶点的色彩Ci和Cj彼此足够接近,则这些色彩被认为是相同的色彩。否则,如果这些色彩不够接近,则这些色彩可以彼此不同。例如,如在等式(14)的上部部分中指示的,如果色彩差太大(如由||Ci-Cj||2>τ定义),则不计算损失。对于位于两种不同色彩之间的边界的不同侧的两个顶点,可能出现这种情形。如果损失在||Ci-Cj||2>τ内,则根据函数
Figure BDA0003975025540000111
来计算损失。两个超参数τ和σ可以用于控制亲和性门限。
在一些示例中,对于面部的属于由面部解析遮罩定义的特定区域(例如,眼睛、眉毛、嘴、头发和/或面部上的其它丰富纹理区域)的顶点,损失函数Lalbedo被定义为从参考图像合成反照率纹理。损失函数Lalbedo可以如下定义:
Figure BDA0003975025540000112
在等式(15)中定义的损失函数Lalbedo使所生成的反照率纹理与所预测的色彩或纹理之间的差异最小化,所预测的色彩或纹理是通过从参考图像中移除光来计算的。如通过下面的等式(15)和等式(16)所示,对于纹理区域(例如,眼睛、眉毛等),将对色彩应用较多权重,而将对几何形状应用较少权重,从而联合优化色彩和几何形状。对于非纹理区域,Lalbedo将为0,在这种情况下,该项将对根据等式(16)确定的总体损失没有影响。使用面部解析遮罩来确定纹理区域和非纹理区域。例如,可以向面部解析遮罩中的每个像素分配指示输入图像中的对应像素属于纹理区域的第一值,或者分配指示输入图像中的对应像素属于非纹理区域的第二值。图10包括示出利用和不利用面部解析遮罩求解的反照率的示例的图像。
在第二顶点级别拟合过程206中的具有权重和正则化项的总体损失函数的示例如下:
Figure BDA0003975025540000113
用于权重参数(其用于以下描述的结果)的值的示例包括wadjust=5e3,wresidual=1e3,walbedo=1e7,wadjust_reg=0.1,以及wresidual=1e5。学习率可以被设置为0.005,并且系统200可以在第一顶点级别拟合过程204中运行100次迭代。
现在将描述像素级别细化阶段208的示例实现。在一些示例中,因为自由形式的移位在一些情况下可能导致粗糙表面(例如,在低分辨率网格中),所以系统200可以在渲染之前对网格执行平滑函数(例如,离散Laplacian平滑化)以降低其粗糙度。在以下文档中描述了离散Laplacian平滑化的示例:Max Wardetzky等人,“Discrete Laplace operators:nofree lunch”,几何处理研讨会,2007,据此通过引用的方式将其全部内容并入并且用于所有目的。
然后,系统200可以利用经平滑的网格来渲染反照率图像Ialbedo和深度图像Idepth,以进行像素级别细化。在像素级别细化中,需要求解的变量是在深度或z方向上的每像素位移Dshift。用于像素级别细化阶段208的损失函数也是真实感损失,但是在像素级别。系统200可以计算针对每个像素的法线,并且可以在优化期间将所求解的光照系数应用于经渲染的反照率图像Ialbedo。针对像素级别细化阶段208的目标变为不具有经渲染的残差部分Iresidual的参考图像Itarget,如下:
Lphoto_3=||Itarget-(Ialbedo*(5H(Normal(Idpeth+Dshift))·Xlight)+Iresidual)||2 (17)
等式(17)类似于等式(11),但是考虑了图像的每个像素而不是模型的每个顶点。像素级别移位Dshift将像素在深度或z方向上移位,以便确保深度是准确的,而Xshift可以在任何方向(包括水平或x方向、垂直或y方向和/或深度或z轴方向)上将顶点移位,以将3D模型与图像中的面部的几何形状对齐。为了保持球形眼睛几何形状(如通过图6中的结果所示),系统200可以使用眼睛细化遮罩来限制眼睛的像素具有接近零的位移。为了限制眼睛像素的位移(如通过眼睛细化遮罩所指示的),系统200可以使用针对经渲染的深度图像中的每个像素p的区域特定惩罚,其可以如下用公式表示:
Figure BDA0003975025540000121
像素p是否属于眼睛区域是由眼睛细化遮罩来指示的。例如,可以向眼睛细化遮罩中的每个像素分配指示输入图像中的对应像素属于眼睛区域的第一值,或者分配指示输入图像中的对应像素属于除了眼睛区域之外的区域的第二值。
离散Laplacian算子的大小(例如,如在上面引用的文档中描述的:Wardetzky,“Discrete Laplace operators:no free lunch”)可以用作损失函数Ldiscrete_Laplacian,这约束了经细化的3D模型或深度图的平滑度。对于位移的总大小,系统200可以使用L2损失Dshift作为正则化项Rshift
用于像素级别细化的总体损失函数的示例如下:
Figure BDA0003975025540000123
求解方程(19)产生Dshift的值,该值可以用于确定将输出的最终深度图和/或3D模型。例如,可以应用Dshift来将先前生成的深度图(或图像)Idepth的值移位(上面示为Idepth+Dshift)。用于参数(其用于下面描述的结果)的值的示例包括wphoto_3=1e3,weyes=1e9,wdiscrete_Laplacian=1,以及wshift_reg=1e-5
提供了在面部识别大挑战(FRGC)数据集上的经重建的3D面部相对于包括以下技术的其它面部重建技术的评估:在以下文档中描述的技术:Yue Li等人,“Feature-preserving detailed 3d face reconstruction from a single image”,第15届ACMSIGGRAPH欧洲视觉媒体生产会议的论文集,ACM,2018;以及在上面引用的文档中描述的技术:Kemelmacher-Shlizerman等人,“3D face reconstruction from a single imageusing a single reference face shape”。在以下文档中描述了FRGC数据集:P.J.Phillips等人,“Overview of the face recognition grand challenge”,在2005年IEEE计算机学会的计算机视觉和模式识别会议(CVPR’05)中,第1卷,第947954页,IEEE,2005,据此通过引用的方式将其全部内容并入并且用于所有目的。
使用迭代最近点(ICP)算法来配准经重建的点云,并且如在下面的表1中所示地计算每像素深度误差。如表1所示,使用本文描述的技术生成的重建在所有度量当中实现最佳结果。
Figure BDA0003975025540000122
表1-对实际扫描的深度数据的定量比较结果,其中,较低值指示较好结果
为了以更直观的方式比较结果,本文描述的重建技术可以被应用于图像,其中已经针对这些图像应用了其它重建技术。使用本文描述的技术获得的重建结果表明更好的细节并且显著更真实。
图11是示出使用本文描述的技术来生成一个或多个三维(3D)模型的过程1100的示例的流程图。在一些示例中,过程1100可以由在图2A中所示的系统200来执行。在操作1102处,过程1100包括获得对象的图像。对象可以包括面部、车辆、建筑物或任何其它对象。
在操作1104处,过程1100包括生成图像中的对象的3D模型。3D模型包括几何形状信息。例如,在一些示例中,过程1100可以获得通用对象模型,并且可以识别图像中的对象的关键点(例如,在图7A中所示的关键点)。过程1100可以通过使用所识别的对象的关键点将通用对象模型拟合到图像中的对象来生成3D模型。将通用对象模型拟合到图像中的对象可以包括修改通用对象模型中的顶点的位置以更好地拟合到关键点。在一些示例中,在操作1104处被执行以生成对象的3D模型的拟合可以包括上述初始拟合,诸如3DMM拟合。
在操作1106处,过程1100包括确定用于3D模型的色彩信息。在一些示例中,色彩信息包括反照率色彩。在操作1108处,过程1100包括基于对几何形状信息和用于3D模型的色彩信息的修改来生成对象的经拟合的3D模型。在一些实现中,过程1100可以执行3D模型的至少一个顶点级别拟合。至少一个顶点级别拟合修改3D模型的几何形状信息,并且使用对象解析遮罩(例如,面部解析遮罩)来确定用于3D模型的色彩信息。如上所述,对象解析遮罩定义3D模型的用于色彩调整的一个或多个区域。在一些方面中,执行3D模型的至少一个顶点级别拟合包括执行对几何形状信息和色彩信息的联合优化,如上所述。
如上所述,在一些实现中,可以使用上述第一顶点级别拟合过程204和第二顶点级别拟合过程206来执行对象的经拟合的3D模型以及确定用于3D模型的色彩信息。例如,执行3D模型的至少一个顶点级别拟合可以包括识别由对象解析遮罩定义的一个或多个区域,并且执行3D模型到对象的第一顶点级别拟合(例如,第一顶点级别拟合过程204)。第一顶点级别拟合通过将3D模型的每个顶点移位以拟合图像中的对象来修改3D模型的几何形状信息。第一顶点级别拟合还确定用于3D模型的每个顶点的色彩信息。例如,如上所述,过程1100可以使用聚类算法(例如,K-means算法)来确定用于3D模型的被包括在由对象解析遮罩标识的一个或多个区域中的每个顶点的多个候选色彩。过程1100可以针对被包括在由对象解析遮罩标识的一个或多个区域中的每个顶点,从针对每个顶点确定的多个候选色彩中选择最亮色彩(例如,用作上面的Calbedo)。
执行3D模型的至少一个顶点级别拟合还可以包括执行3D模型到对象的第二顶点级别拟合(例如,第二顶点级别拟合过程206)。第二顶点级别拟合调整用于3D模型的被包括在由对象解析遮罩标识的一个或多个区域中的每个顶点的色彩信息。
在操作1110处,过程1100包括基于经拟合的3D模型以及与经拟合的3D模型相关联的深度信息来生成对象的经细化的3D模型。在一些情况下,过程1100可以输出对象的经细化的3D模型。在一些示例中,生成对象的经细化的3D模型包括执行经拟合的3D模型的像素级别细化,诸如使用上述像素级别细化阶段208。像素级别细化将深度信息添加到经拟合的3D模型的一部分中。例如,使用细化遮罩(例如,眼睛细化遮罩),过程1100可以确定经拟合的3D模型的用于使用像素级别细化来添加深度信息的该部分。在各示例中,当对象包括面部时,细化遮罩可以包括眼睛细化遮罩(或者眼睛遮罩),其指示该部分包括面部的在面部的眼睛区域之外的区域。在一些示例中,如上所述,经拟合的3D模型的像素级别细化可以包括生成用于经拟合的3D模型的反照率图像和深度图像。过程1100可以使用反照率图像和深度图像来生成经细化的3D模型。在一些实现中,过程1100可以将平滑函数应用于经拟合的3D模型。在一些示例中,平滑函数包括离散Laplacian平滑函数。
在一些示例中,本文描述的过程(例如,过程210、1100和/或本文描述的其它过程)可以由计算设备或装置来执行。在一个示例中,过程1100(和/或本文描述的其它过程)可以由图2A中的系统200来执行。在另一示例中,过程1100(和/或本文描述的其它过程)可以由在图12中所示的计算系统1200来执行。例如,在图12中所示的计算系统200可以包括系统200的组件,并且可以实现图11的操作。
计算设备可以包括任何适当的设备,诸如移动设备(例如,移动电话)、桌面计算设备、平板计算设备、可穿戴设备(例如,VR头戴式设备、AR头戴式设备、AR眼镜、网络连接手表或智能手表、或其它可穿戴设备)、服务器计算机、自主车辆或自主车辆的计算设备、机器人设备、电视机和/或具有执行本文描述的过程(包括过程1100和/或本文描述的其它过程)的资源能力的任何其它计算设备。在一些情况下,计算设备或装置可以包括各种组件,诸如一个或多个输入设备、一个或多个输出设备、一个或多个处理器、一个或多个微处理器、一个或多个微型计算机、一个或多个相机、一个或多个传感器、和/或被配置为执行本文描述的过程的步骤的其它组件。在一些示例中,计算设备可以包括显示器、被配置为传送和/或接收数据的网络接口、其任何组合和/或其它组件。网络接口可以被配置为传送和/或接收基于互联网协议(IP)的数据或其它类型的数据。
计算设备的组件可以在电路中实现。例如,组件可以包括和/或可以使用电子电路或其它电子硬件来实现,电子电路或其它电子硬件可以包括一个或多个可编程电子电路(例如,微处理器、图形处理单元(GPU)、数字信号处理器(DSP)、中央处理单元(CPU),和/或其它适当的电子电路)、和/或可以包括和/或使用计算机软件、固件或其任何组合来实现,以执行本文描述的各种操作。
过程210和1100被示为逻辑流程图,逻辑流程图的操作表示可以在硬件、计算机指令或其组合中实现的一系列操作。在计算机指令的背景下,所述操作表示被存储在一个或多个计算机可读存储介质上的计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时执行所记载的操作。通常,计算机可执行指令包括执行特定功能或实现特定数据类型的例程、程序、对象、组件、数据结构等。描述操作的次序并不旨在被解释为限制,并且任何数量的所描述的操作可以以任何次序组合和/或可以是并行的,以实现这些过程。
另外,过程210、1100和/或本文描述的其它过程可以在被配置有可执行指令的一个或多个计算机系统的控制下执行,以及可以作为在一个或多个处理器上共同执行的代码(例如,可执行指令、一个或多个计算机程序、或一个或多个应用)来实现,通过硬件来实现,或其组合。如上所提到,代码可以例如以包括可由一个或多个处理器执行的多个指令的计算机程序的形式被存储在计算机可读或机器可读存储介质上。计算机可读存储介质或机器可读存储介质可以是非暂时性的。
图12是示出用于实现本文技术的某些方面的系统的示例的图。具体地,图12示出了计算系统1200的示例,计算系统1200可以是例如组成以下各者的任何计算设备:内部计算系统、远程计算系统、相机、或其任何组件(其中系统的组件使用连接1205彼此通信)。连接1205可以是使用总线的物理连接、或进入处理器1210的直接连接(诸如在芯片组架构中)。连接1205还可以是虚拟连接、网络连接或逻辑连接。
在一些实施例中,计算系统1200是分布式系统,其中,在本公开内容中描述的功能可以分布在数据中心、多个数据中心、对等网络等内。在一些实施例中,所描述的系统组件中的一个或多个系统组件表示许多这样的组件,每个组件执行针对该组件所描述的功能的一些或全部功能。在一些实施例中,组件可以是物理或虚拟设备。
示例系统1200包括至少一个处理单元(CPU或处理器)1210和连接1205,连接1205将包括系统存储器1215(诸如只读存储器(ROM)1220和随机存取存储器(RAM)1225)的各种系统组件耦合到处理器1210。计算系统1200可以包括高速存储器的高速缓存1212,高速缓存1212与处理器1210直接连接、接近处理器1210或被集成为处理器1210的一部分。
处理器1210可以包括任何通用处理器以及被配置为控制处理器1210的硬件服务或软件服务(诸如被存储在存储设备1230中的服务1232、1234和1236)、以及其中软件指令被并入实际处理器设计中的专用处理器。处理器1210本质上可以是完全自包含的计算系统,包含多个核或处理器、总线、存储器控制器、高速缓存等。多核处理器可以是对称的或非对称的。
为了实现用户交互,计算系统1200包括可以表示任何数量的输入机构的输入设备1245,诸如用于语音的麦克风、用于手势或图形输入的触摸敏感屏幕、键盘、鼠标、运动输入、语音等。计算系统1200还可以包括输出设备1235,其可以是多个输出机构中的一个或多个输出机构。在一些情况下,多模态系统可以使得用户能够提供多个类型的输入/输出以与计算系统1200进行通信。计算系统1200可以包括通信接口1240,其通常可以支配和管理用户输入和系统输出。通信接口可以使用有线和/或无线收发机来执行或促进接收和/或发送有线或无线通信,包括利用以下各项的那些有线和/或无线收发机:音频插孔/插头、麦克风插孔/插头、通用串行总线(USB)端口/插头、
Figure BDA0003975025540000152
端口/插头、以太网端口/插头、光纤端口/插头、专有有线端口/插头、
Figure BDA0003975025540000151
无线信号传输、
Figure BDA0003975025540000153
低能(BLE)无线信号传输、
Figure BDA0003975025540000154
无线信号传输、射频标识(RFID)无线信号传输、近场通信(NFC)无线信号传输、专用短程通信(DSRC)无线信号传输、802.11Wi-Fi无线信号传输、无线局域网(WLAN)信号传输、可见光通信(VLC)、微波接入全球互操作性(WiMAX)、红外(IR)通信无线信号传输、公共交换电话网(PSTN)信号传输、综合业务数字网络(ISDN)信号传输、3G/4G/5G/LTE蜂窝数据网络无线信号传输、自组织网信号传输、无线电波信号传输、微波信号传输、红外信号传输、可见光信号传输、紫外光信号传输、沿着电磁频谱的无线信号传输、或其某种组合。通信接口1240还可以包括一个或多个全球导航卫星系统(GNSS)接收机或收发机,其用于基于从与一个或多个GNSS系统相关联的一个或多个卫星接收一个或多个信号来确定计算系统1200的位置。GNSS系统包括但不限于基于美国的全球定位系统(GPS)、基于俄罗斯的全球导航卫星系统(GLONASS)、基于中国的北斗导航卫星系统(BDS)和基于欧洲的伽利略GNSS系统。对任何特定硬件排列的操作没有限制,并且因此在其被开发时,此处的基本功能可以容易地替换为改进的硬件或固件布置。
存储设备1230可以是非易失性和/或非暂时性和/或计算机可读存储器设备,以及可以是硬盘或其它类型的计算机可读介质,其可以存储可由计算机访问的数据,诸如盒式磁带、闪存卡、固态存储器设备、数字多功能磁盘、盒式磁带、软盘、软磁盘、硬盘、磁带、磁片(strip)/磁条(stripe)、任何其它磁性存储介质、闪存、忆阻器存储器、任何其它固态存储器、压缩盘只读存储器(CD-ROM)光盘、可重写压缩盘(CD)光盘、数字视频盘(DVD)光盘、蓝光盘(BDD)光盘、全息光盘、另一光学介质、安全数字(SD)卡、微型安全数字(microSD)卡、Memory
Figure BDA0003975025540000155
卡、智能卡芯片、EMV芯片、用户身份模块(SIM)卡、迷你/微型/纳米/微微SIM卡、另一集成电路(IC)芯片/卡、随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪速EPROM(FLASHPROM)、高速缓存存储器(L1/L2/L3/L4/L5/L#)、电阻式随机存取存储器(RRAM/ReRAM)、相变存储器(PCM)、自旋转移转矩RAM(STT-RAM)、另一存储器芯片或盒、和/或其组合。
存储设备1230可以包括软件服务、服务器、服务等,当由处理器1210执行定义这样的软件的代码时,其使得系统执行功能。在一些实施例中,执行特定功能的硬件服务可以包括被存储在计算机可读介质中的软件组件,软件组件与用于执行该功能的必要硬件组件(诸如处理器1210、连接1205、输出设备1235等)相连接。
如本文所使用的,术语“计算机可读介质”包括但不限于便携式或非便携式存储设备、光学存储设备、以及能够存储、包含或携带指令和/或数据的各种其它介质。计算机可读介质可以包括数据可以被存储在其中并且不包括以下各项的非暂时性介质:无线地或者在有线连接上传播的载波和/或暂时性电子信号。非暂时性介质的示例可以包括但不限于:磁盘或磁带、诸如压缩光盘(CD)或数字多功能光盘(DVD)的光学存储介质、闪存、存储器或存储器设备。计算机可读介质可以具有被存储在其上的代码和/或机器可执行指令,代码和/或机器可执行指令可以表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类、或者指令、数据结构或程序语句的任何组合。代码段可以通过传递和/或接收信息、数据、自变量、参数或存储器内容,来耦合到另一代码段或硬件电路。可以使用包括存储器共享、消息传递、令牌传递、网络传输等的任何适当的手段来传递、转发或发送信息、自变量、参数、数据等。
在一些实施例中,计算机可读存储设备、介质和存储器可以包括包含比特流等的电缆或无线信号。然而,当提及时,非暂时性计算机可读存储介质明确地排除诸如能量、载波信号、电磁波和信号本身的介质。
在上文的描述中提供了具体细节以提供对本文提供的实施例和示例的全面理解。然而,本领域普通技术人员将理解的是,可以在没有这些具体细节的情况下实践这些实施例。为了解释清楚,在一些情况下,本文的技术可以被呈现为包括包含如下的功能块的单独的功能块,这些功能块包括设备、设备组件、以软件体现的方法中的步骤或例程、或者硬件和软件的组合。除了在各图中所示和/或本文描述的组件之外,还可以使用额外的组件。例如,电路、系统、网络、过程和其它组件可以以框图形式被示为组件,以便不会在不必要的细节上模糊这些实施例。在其它情况下,公知的电路、过程、算法、结构和技术可以被示为不具有不必要的细节,以便避免模糊这些实施例。
上文可以将各个实施例描述为过程或方法,该过程或方法被描绘为流程图、流程示意图、数据流程图、结构图或框图。虽然流程图可以将操作描述为顺序的过程,但是这些操作中的许多操作可以并行或并发地执行。另外,可以重新排列操作的次序。过程在其操作完成后被终止,但是可以具有未被包括在图中的额外步骤。过程(process)可以对应于方法、函数、过程(procedure)、子例程、子程序等。当过程对应于函数时,其终止可以对应于该函数返回到调用函数或主函数。
根据上述示例的过程和方法可以使用计算机可执行指令来实现,计算机可执行指令被存储在计算机可读介质中或者以其它方式可从计算机可读介质得到。这样的指令可以包括例如指令或数据,指令或数据使得通用计算机、专用计算机或处理设备执行或者以其它方式将其配置为执行特定功能或特定的一组功能。可以通过网络访问所使用的计算机资源的部分。计算机可执行指令可以是例如二进制文件、诸如汇编语言的中间格式指令、固件、源代码等。可以用于存储指令、所使用的信息和/或在根据所描述的示例的方法期间创建的信息的计算机可读介质的示例包括磁盘或光盘、闪存、被提供有非易失性存储器的USB设备、网络存储设备等。
实现根据这些公开内容的过程和方法的设备可以包括硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合,以及可以采用多种形状因子中的任何一种。当在软件、固件、中间件或微代码中实现时,用于执行必要任务的程序代码或代码段(例如,计算机程序产品)可以被存储在计算机可读或机器可读介质中。处理器可以执行必要任务。形状因子的典型示例包括膝上型计算机、移动电话(例如,智能电话或其它类型的移动电话)、平板设备或其它小型形状因子的个人计算机、个人数字助理、机架式设备、独立设备等。本文描述的功能还可以体现在外围设备或插件卡中。通过另外的举例,这样的功能还可以在单个设备中执行的不同芯片或不同过程之间的电路板上实现。
指令、用于传送这样的指令的介质、用于执行它们的计算资源以及用于支持这样的计算资源的其它结构是用于提供在本公开内容中描述的功能的示例单元。
在前面的描述中,参考本申请的特定实施例描述了本申请的各方面,但是本领域技术人员将认识到,本申请不限于此。因此,尽管本文已经详细描述了本申请的说明性实施例,但是应理解的是,可以以其它方式不同地体现和采用本发明构思,并且所附的权利要求旨在被解释为包括这样的变型,除了由现有技术限制的变型。可以单独地或联合地使用上述应用的各个特征和方面。此外,在不脱离本说明书的较宽精神和范围的情况下,实施例可以在除了本文描述的环境和应用之外的任何数量的环境和应用中使用。因此,说明书和附图被认为是说明性的而不是限制性的。为了说明的目的,以特定次序描述了方法。应当认识到的是,在替代实施例中,可以以与所描述的次序不同的次序来执行所述方法。
本领域普通技术人员将认识到的是,在不脱离本说明书的范围的情况下,本文中使用的小于(“<”)和大于(“>”)符号或术语可以分别用小于或等于(“≤”)以及大于或等于(“≥”)符号来替换。
在将组件描述为“被配置为”执行某些操作的情况下,这样的配置可以例如通过以下方式来实现:将电子电路或其它硬件设计为执行该操作,将可编程电子电路(例如,微处理器或其它适当的电子电路)编程为执行该操作,或其任何组合。
短语“耦合到”指代直接或间接地物理连接到另一组件的任何组件、和/或直接或间接地与另一组件通信的任何组件(例如,通过有线或无线连接和/或其它适当的通信接口而连接到另一组件)。
记载集合中的“至少一个”和/或集合中的“一个或多个”的权利要求语言或其它语言指示该集合中的一个成员或者该集合中的多个成员(以任何组合)满足该权利要求。例如,记载“A和B中的至少一个”或“A或B中的至少一个”的权利要求语言意指A、B、或者A和B。在另一示例中,记载“A、B和C中的至少一个”或“A、B或C中的至少一个”的权利要求语言意指A、B、C、或者A和B、或者A和C、或者B和C、或者A和B和C。语言集合中的“至少一个”和/或集合中的“一个或多个”并不将该集合限制为在该集合中列出的项目。例如,记载“A和B中的至少一个”或“A或B中的至少一个”的权利要求语言可以意指A、B或者A和B,并且可以另外包括未在A和B的集合中列出的项目。
结合本文公开的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤可以被实现为电子硬件、计算机软件、固件或其组合。为了清楚地说明硬件和软件的这种可互换性,上文已经对各种说明性的组件、框、模块、电路和步骤围绕其功能进行了总体描述。这样的功能被实现为硬件还是软件取决于特定的应用和被施加在整个系统上的设计约束。技术人员可以针对每个特定应用以不同的方式来实现所描述的功能,但是这样的实现决策不应当被解释为导致脱离本申请的范围。
本文描述的技术还可以在电子硬件、计算机软件、固件或其任何组合中实现。这样的技术可以在各种设备中的任何一种中实现,诸如通用计算机、无线通信设备手持设备或具有多种用途(包括在无线通信设备手持设备和其它设备中的应用)的集成电路设备。被描述为模块或组件的任何特征都可以在集成逻辑设备中一起实现,或者分别作为分立但是可互操作的逻辑设备来实现。如果在软件中实现,则所述技术可以至少部分地由计算机可读数据存储介质来实现,计算机可读数据存储介质包括程序代码,程序代码包括在被执行时执行上述方法中的一种或多种方法的指令。计算机可读数据存储介质可以形成计算机程序产品的一部分,计算机程序产品可以包括封装材料。计算机可读介质可以包括存储器或数据存储介质,诸如随机存取存储器(RAM)(诸如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存、磁或光数据存储介质等。另外或替代地,所述技术可以至少部分地由以指令或数据结构的形式携带或传送程序代码并且可以由计算机访问、读取和/或执行的计算机可读通信介质(诸如传播的信号或波)来实现。
程序代码可以由处理器执行,处理器可以包括一个或多个处理器,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或分立逻辑电路。这样的处理器可以被配置为执行在本公开内容中描述的任何技术。通用处理器可以是微处理器,但是在替代方式中,处理器可以是任何常规的处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP核的结合、或任何其它这样的配置。因此,如本文所使用的术语“处理器”可以指代任何前述结构、前述结构的任何组合、或适于实现本文描述的技术的任何其它结构或装置。

Claims (30)

1.一种用于生成一个或多个三维(3D)模型的方法,所述方法包括:
获得对象的图像;
生成所述图像中的所述对象的3D模型,所述3D模型包括几何形状信息;
确定用于所述3D模型的色彩信息;
基于对所述几何形状信息和用于所述3D模型的所述色彩信息的修改,来生成所述对象的经拟合的3D模型;以及
基于所述经拟合的3D模型以及与所述经拟合的3D模型相关联的深度信息来生成所述对象的经细化的3D模型。
2.根据权利要求1所述的方法,其中,所述色彩信息包括反照率色彩。
3.根据权利要求1所述的方法,其中,生成所述对象的所述3D模型包括:
获得通用对象模型;
识别所述图像中的所述对象的关键点;以及
通过使用所述对象的所识别的关键点将所述通用对象模型拟合到所述图像中的所述对象来生成所述3D模型。
4.根据权利要求1所述的方法,其中,生成所述对象的所述经拟合的3D模型以及确定用于所述3D模型的所述色彩信息包括:
执行所述3D模型的至少一个顶点级别拟合,所述至少一个顶点级别拟合修改所述3D模型的所述几何形状信息并且使用对象解析遮罩来确定用于所述3D模型的所述色彩信息,所述对象解析遮罩定义所述3D模型的用于色彩调整的一个或多个区域。
5.根据权利要求4所述的方法,其中,执行所述3D模型的所述至少一个顶点级别拟合包括:执行所述几何形状信息和所述色彩信息的联合优化。
6.根据权利要求4所述的方法,其中,执行所述3D模型的所述至少一个顶点级别拟合包括:
识别由所述对象解析遮罩定义的所述一个或多个区域;
执行所述3D模型到所述对象的第一顶点级别拟合,所述第一顶点级别拟合通过将所述3D模型的每个顶点移位以拟合所述图像中的所述对象来修改所述3D模型的所述几何形状信息,所述第一顶点级别拟合还确定用于所述3D模型的每个顶点的所述色彩信息;以及
执行所述3D模型到所述对象的第二顶点级别拟合,所述第二顶点级别拟合调整用于所述3D模型的被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点的所述色彩信息。
7.根据权利要求6所述的方法,其中,确定用于所述3D模型的每个顶点的所述色彩信息包括:
使用聚类算法来确定用于所述3D模型的被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点的多个候选色彩;以及
针对被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点,从针对每个顶点确定的所述多个候选色彩中选择最亮色彩。
8.根据权利要求7所述的方法,其中,所述聚类算法包括K-means算法。
9.根据权利要求1所述的方法,其中,生成所述对象的所述经细化的3D模型包括:
执行所述经拟合的3D模型的像素级别细化,所述像素级别细化将所述深度信息添加到所述经拟合的3D模型的一部分中。
10.根据权利要求9所述的方法,还包括:
使用细化遮罩来确定所述经拟合的3D模型的用于使用所述像素级别细化来添加所述深度信息的所述一部分。
11.根据权利要求10所述的方法,其中,所述对象包括面部,并且其中,所述细化遮罩包括眼睛遮罩,所述眼睛遮罩指示所述一部分包括所述面部的在所述面部的眼睛区域之外的区域。
12.根据权利要求9所述的方法,其中,执行所述经拟合的3D模型的所述像素级别细化包括:
生成用于所述经拟合的3D模型的反照率图像和深度图像;以及
使用所述反照率图像和所述深度图像来生成所述经细化的3D模型。
13.根据权利要求12所述的方法,还包括:
将平滑函数应用于所述经拟合的3D模型。
14.根据权利要求13所述的方法,其中,所述平滑函数包括离散Laplacian平滑函数。
15.根据权利要求1所述的方法,其中,所述对象是面部。
16.根据权利要求1所述的方法,还包括:
输出所述对象的所述经细化的3D模型。
17.一种用于生成一个或多个三维(3D)模型的装置,包括:
存储器;以及
耦合到所述存储器的一个或多个处理器,所述一个或多个处理器被配置为:
获得对象的图像;
生成所述图像中的所述对象的3D模型,所述3D模型包括几何形状信息;
确定用于所述3D模型的色彩信息;
基于对所述几何形状信息和用于所述3D模型的所述色彩信息的修改,来生成所述对象的经拟合的3D模型;以及
基于所述经拟合的3D模型以及与所述经拟合的3D模型相关联的深度信息来生成所述对象的经细化的3D模型。
18.根据权利要求17所述的装置,其中,所述色彩信息包括反照率色彩。
19.根据权利要求17所述的装置,其中,生成所述对象的所述经拟合的3D模型以及确定用于所述3D模型的所述色彩信息包括:
执行所述3D模型的至少一个顶点级别拟合,所述至少一个顶点级别拟合修改所述3D模型的所述几何形状信息并且使用对象解析遮罩来确定用于所述3D模型的所述色彩信息,所述对象解析遮罩定义所述3D模型的用于色彩调整的一个或多个区域。
20.根据权利要求19所述的装置,其中,执行所述3D模型的所述至少一个顶点级别拟合包括:执行所述几何形状信息和所述色彩信息的联合优化。
21.根据权利要求19所述的装置,其中,执行所述3D模型的所述至少一个顶点级别拟合包括:
识别由所述对象解析遮罩定义的所述一个或多个区域;
执行所述3D模型到所述对象的第一顶点级别拟合,所述第一顶点级别拟合通过将所述3D模型的每个顶点移位以拟合所述图像中的所述对象来修改所述3D模型的所述几何形状信息,所述第一顶点级别拟合还确定用于所述3D模型的每个顶点的所述色彩信息;以及
执行所述3D模型到所述对象的第二顶点级别拟合,所述第二顶点级别拟合调整用于所述3D模型的被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点的所述色彩信息。
22.根据权利要求21所述的装置,其中,确定用于所述3D模型的每个顶点的所述色彩信息包括:
使用聚类算法来确定用于所述3D模型的被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点的多个候选色彩;以及
针对被包括在由所述对象解析遮罩标识的所述一个或多个区域中的每个顶点,从针对每个顶点确定的所述多个候选色彩中选择最亮色彩。
23.根据权利要求17所述的装置,其中,生成所述对象的所述经细化的3D模型包括:
执行所述经拟合的3D模型的像素级别细化,所述像素级别细化将所述深度信息添加到所述经拟合的3D模型的一部分中。
24.根据权利要求23所述的装置,其中,所述一个或多个处理器被配置为:
使用细化遮罩来确定所述经拟合的3D模型的用于使用所述像素级别细化来添加所述深度信息的所述一部分。
25.根据权利要求23所述的装置,其中,执行所述经拟合的3D模型的所述像素级别细化包括:
生成用于所述经拟合的3D模型的反照率图像和深度图像;以及
使用所述反照率图像和所述深度图像来生成所述经细化的3D模型。
26.根据权利要求17所述的装置,其中,所述对象是面部。
27.根据权利要求17所述的装置,其中,所述装置包括移动设备。
28.根据权利要求17所述的装置,其中,所述装置包括:显示器,其被配置为显示所述对象的所述经细化的3D模型。
29.根据权利要求17所述的装置,其中,所述装置包括:相机,其被配置为捕获所述图像。
30.一种具有存储在其上的指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使得所述一个或多个处理器进行以下操作:
获得对象的图像;
生成所述图像中的所述对象的3D模型,所述3D模型包括几何形状信息;
确定用于所述3D模型的色彩信息;
基于对所述几何形状信息和用于所述3D模型的所述色彩信息的修改,来生成所述对象的经拟合的3D模型;以及
基于所述经拟合的3D模型以及与所述经拟合的3D模型相关联的深度信息来生成所述对象的经细化的3D模型。
CN202180039730.0A 2020-06-13 2021-05-17 利用纹理解析的对象重建 Pending CN115668300A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063038801P 2020-06-13 2020-06-13
US63/038,801 2020-06-13
US16/994,481 2020-08-14
US16/994,481 US11615587B2 (en) 2020-06-13 2020-08-14 Object reconstruction with texture parsing
PCT/US2021/032701 WO2021252144A1 (en) 2020-06-13 2021-05-17 Object reconstruction with texture parsing

Publications (1)

Publication Number Publication Date
CN115668300A true CN115668300A (zh) 2023-01-31

Family

ID=78825789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180039730.0A Pending CN115668300A (zh) 2020-06-13 2021-05-17 利用纹理解析的对象重建

Country Status (4)

Country Link
US (1) US11615587B2 (zh)
EP (1) EP4165606A1 (zh)
CN (1) CN115668300A (zh)
WO (1) WO2021252144A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784821B (zh) * 2020-06-30 2023-03-14 北京市商汤科技开发有限公司 三维模型生成方法、装置、计算机设备及存储介质
US20220027720A1 (en) * 2020-07-22 2022-01-27 Itseez3D, Inc. Method to parameterize a 3d model
CN112102462B (zh) * 2020-09-27 2023-07-21 北京百度网讯科技有限公司 图像的渲染方法、装置
US20230252714A1 (en) * 2022-02-10 2023-08-10 Disney Enterprises, Inc. Shape and appearance reconstruction with deep geometric refinement
CN116310046B (zh) * 2023-05-16 2023-08-22 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072496A (en) * 1998-06-08 2000-06-06 Microsoft Corporation Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects
US10740959B2 (en) * 2017-09-09 2020-08-11 Apple Inc. Techniques for providing virtual light adjustments to image data
US11443484B2 (en) * 2020-05-15 2022-09-13 Microsoft Technology Licensing, Llc Reinforced differentiable attribute for 3D face reconstruction

Also Published As

Publication number Publication date
US11615587B2 (en) 2023-03-28
WO2021252144A1 (en) 2021-12-16
US20210390770A1 (en) 2021-12-16
EP4165606A1 (en) 2023-04-19

Similar Documents

Publication Publication Date Title
US11615587B2 (en) Object reconstruction with texture parsing
US20230386157A1 (en) Generating 3d data in a messaging system
US10818064B2 (en) Estimating accurate face shape and texture from an image
KR102624635B1 (ko) 메시징 시스템에서의 3d 데이터 생성
CN115699114B (zh) 用于分析的图像增广的方法和装置
CN113327278B (zh) 三维人脸重建方法、装置、设备以及存储介质
CN113287118A (zh) 用于面部再现的系统和方法
US11790621B2 (en) Procedurally generating augmented reality content generators
US20230085468A1 (en) Advanced Automatic Rig Creation Processes
JP2024500896A (ja) 3d頭部変形モデルを生成するための方法、システム及び方法
JP7462120B2 (ja) 2次元(2d)顔画像から色を抽出するための方法、システム及びコンピュータプログラム
WO2023066120A1 (zh) 图像处理方法、装置、电子设备及存储介质
CN112348937A (zh) 人脸图像处理方法及电子设备
CN116997933A (zh) 用于构造面部位置图的方法和系统
CN113826144A (zh) 使用单幅彩色图像和深度信息的面部纹理贴图生成
KR20230110787A (ko) 개인화된 3d 머리 및 얼굴 모델들을 형성하기 위한 방법들 및 시스템들
KR20230079264A (ko) 증강 현실 콘텐츠 생성기들에 대한 수집 파이프라인
SG182346A1 (en) Method, device, and computer readable medium for generating a digital picture
US20230093827A1 (en) Image processing framework for performing object depth estimation
US11354860B1 (en) Object reconstruction using media data
CN112561784B (zh) 图像合成方法、装置、电子设备及存储介质
WO2023003642A1 (en) Adaptive bounding for three-dimensional morphable models
US20220237862A1 (en) Object reconstruction using media data
US20240005581A1 (en) Generating 3d facial models &amp; animations using computer vision architectures
US20230230331A1 (en) Prior based generation of three-dimensional models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination