CN117152825A - 基于单张图片人脸重建方法及系统 - Google Patents

基于单张图片人脸重建方法及系统 Download PDF

Info

Publication number
CN117152825A
CN117152825A CN202311403611.6A CN202311403611A CN117152825A CN 117152825 A CN117152825 A CN 117152825A CN 202311403611 A CN202311403611 A CN 202311403611A CN 117152825 A CN117152825 A CN 117152825A
Authority
CN
China
Prior art keywords
face
feature map
image
semantic
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311403611.6A
Other languages
English (en)
Other versions
CN117152825B (zh
Inventor
郭勇
苑朋飞
靳世凯
周洁
赵存喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Film Annual Beijing Culture Media Co ltd
Original Assignee
China Film Annual Beijing Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Film Annual Beijing Culture Media Co ltd filed Critical China Film Annual Beijing Culture Media Co ltd
Priority to CN202311403611.6A priority Critical patent/CN117152825B/zh
Publication of CN117152825A publication Critical patent/CN117152825A/zh
Application granted granted Critical
Publication of CN117152825B publication Critical patent/CN117152825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于单张图片人脸重建方法及系统,涉及智能化人脸重建技术领域;其获取待重建人脸图像;对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;以及,基于所述融合语义人脸浅层特征图,得到生成人脸3D模型。这样,可以从单张图片中学习和推理出三维人脸模型,无需依赖于预先构建的形状模型。

Description

基于单张图片人脸重建方法及系统
技术领域
本发明涉及智能化人脸重建技术领域,并且更具体地,涉及一种基于单张图片人脸重建方法及系统。
背景技术
人脸重建是计算机视觉和图形学的一个重要研究方向,它的目的是根据输入的人脸图像,重建出对应的三维人脸模型。三维人脸模型可以用于人脸识别、人脸编辑、人脸动画等多种应用场景。
传统的基于单张图片的人脸重建方法通常依赖于预先构建的三维人脸形状模型,来约束人脸的几何结构。这些方法虽然能够实现较高的重建精度,但是也存在一些局限性,如无法处理非标准的人脸形状、无法捕捉细节特征等。因此,期待一种优化的基于单张图片人脸重建方案。
发明内容
为了解决上述技术问题,提出了本发明。本发明的实施例提供了一种基于单张图片人脸重建方法及系统,其获取待重建人脸图像;对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;以及,基于所述融合语义人脸浅层特征图,得到生成人脸3D模型。这样,可以从单张图片中学习和推理出三维人脸模型,无需依赖于预先构建的形状模型。
第一方面,提供了一种基于单张图片人脸重建方法,其包括:
获取待重建人脸图像;
对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;
以及基于所述融合语义人脸浅层特征图,得到生成人脸3D模型;
其中,对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图,包括:
对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像;
对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图;
将所述灰度化待重建人脸图像通过基于金字塔网络的人脸特征提取器以得到人脸浅层特征图和人脸深层特征图;
以及使用联合语义传播模块来融合所述人脸浅层特征图和所述人脸深层特征图以得到所述融合语义人脸浅层特征图;
对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;
以及将所述优化融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器以得到所述生成人脸3D模型。
第二方面,提供了一种基于单张图片人脸重建系统,其包括:
图像获取模块,用于获取待重建人脸图像;
图像特征提取模块,用于对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;
以及人脸3D模型生成模块,用于基于所述融合语义人脸浅层特征图,得到生成人脸3D模型;
其中,所述图像特征提取模块,包括:
图像预处理单元,用于对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像;
特征提取与融合单元,用于对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图;
优化单元,用于对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;以及
模型生成单元,用于将所述优化融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器以得到所述生成人脸3D模型。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的基于单张图片人脸重建方法的流程图。
图2为根据本发明实施例的基于单张图片人脸重建方法的架构示意图。
图3为根据本发明实施例的基于单张图片人脸重建系统的框图。
图4为根据本发明实施例的基于单张图片人脸重建方法的场景示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有说明,本发明实施例所使用的所有技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。本发明中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明的范围。
在本发明实施例记载中,需要说明的是,除非另有说明和限定,术语“连接”应做广义理解,例如,可以是电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
需要说明的是,本发明实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例可以除了在这里图示或描述的那些以外的顺序实施。
人脸重建是指根据输入的人脸图像或视频,通过计算机视觉和图形学技术,生成对应的三维人脸模型的过程。这个过程可以分为两个主要步骤:人脸特征提取和三维模型生成。
在人脸特征提取阶段,计算机会从输入的人脸图像中提取关键的面部特征,如眼睛、鼻子、嘴巴等。这可以通过传统的计算机视觉方法,如特征点检测、边缘检测等来实现,也可以使用深度学习方法,如卷积神经网络 (CNN) 来学习提取人脸特征。
接下来,在三维模型生成阶段,根据提取到的人脸特征,计算机会生成对应的三维人脸模型。传统的方法通常依赖于预先构建的三维人脸形状模型,通过将提取的特征与形状模型进行匹配和优化,得到最终的三维模型。这些方法可以使用几何约束、优化算法等技术来提高重建的精度。
人脸重建技术在人脸识别、人脸编辑、人脸动画等领域具有广泛的应用,可以用于人脸识别系统的人脸对齐和校正,提高识别的准确性;可以用于虚拟现实和增强现实应用中的人脸建模和动态表情合成;还可以用于数字娱乐产业中的人脸特效和角色建模等方面。随着技术的不断发展,人脸重建将在更多领域展现其潜力和价值。
三维人脸模型是对人脸的几何结构和外观进行三维表示的模型,包含了人脸的形状、表面纹理和其他相关属性,可以用于描述人脸的立体特征。三维人脸模型通常使用点云、网格或参数化表示等形式来表示人脸的几何结构,点云表示将人脸表面上的一系列点的坐标作为模型的表示,每个点代表人脸表面的一个位置。网格表示则将人脸表面划分为一系列小的三角形面片,每个面片由三个顶点和相应的法向量组成。参数化表示则使用一组参数来表示人脸的形状和纹理信息。
三维人脸模型可以用于多种应用,例如人脸识别、人脸动画、虚拟现实、增强现实等。在人脸识别中,三维人脸模型可以提供更多的几何信息,从而提高人脸识别的准确性和鲁棒性。在人脸动画中,三维人脸模型可以用于生成逼真的人脸动画效果。在虚拟现实和增强现实中,三维人脸模型可以与虚拟场景进行交互,实现更加真实和沉浸式的体验。
为了生成三维人脸模型,可以使用传统的基于形状模型的方法,如基于三维扫描或摄像的方法来获取人脸的几何信息。此外,还可以使用基于深度学习的方法,通过训练神经网络模型来从单张图像中推断出三维人脸模型。这种方法不需要预先构建形状模型,可以通过大规模的数据集进行训练,从而实现更高效和准确的三维人脸重建。
传统的基于单张图片的人脸重建方法主要依赖于形状模型和优化算法,通过将提取的人脸特征与形状模型进行匹配和优化,从而生成三维人脸模型。其中,3D MorphableModel是一种经典的形状模型,通过建立人脸形状和纹理的统计模型来表示人脸的三维几何结构。在重建过程中,通过优化算法将输入图像中的人脸特征与3DMM进行匹配,调整形状和纹理参数,从而生成三维人脸模型。
Active Appearance Model是一种基于统计的形状和纹理模型,将人脸的形状和纹理信息进行建模,并使用优化算法将模型与输入图像进行匹配。通过调整形状和纹理参数,AAM可以生成逼近输入人脸的三维模型。
3D Face Reconstruction from 2D Images是一种基于特征点的方法,首先通过特征点检测算法提取输入图像中的人脸特征点,然后使用形状模型和优化算法将这些特征点与模型进行匹配,生成三维人脸模型。该方法主要关注人脸的几何形状,对纹理信息的重建相对较弱。
这些传统方法在人脸重建领域取得了一定的成果,但也存在一些限制。传统方法通常使用预定义的形状模型,如3D Morphable Model,这些模型对人脸形状的建模能力有一定的限制,可能无法准确地捕捉到人脸的细节和变化,特别是对于非典型的人脸形状或特征。传统方法通常需要准确地提取人脸图像中的特征点,如眼睛、嘴巴等关键点,然而,特征点的定位可能会受到图像质量、姿态变化和遮挡等因素的影响,导致重建结果不准确或失败。传统方法通常需要提供一些初始参数作为优化的起点,如人脸的初始形状、姿态等,这些初始参数的选择对于最终的重建结果有很大的影响,而且对于不同的人脸和场景,合适的初始参数可能不同,因此需要手动调整。传统方法通常需要使用优化算法来优化形状模型和图像之间的匹配,这涉及到大量的计算和迭代过程。因此,传统方法的计算复杂度较高,对于大规模数据集或实时应用可能不够高效。
相比之下,基于深度学习的方法在人脸重建方面取得了一些突破,可以直接从图像中学习人脸的三维表示,避免了传统方法中的一些限制和问题,这些方法可以通过端到端的神经网络模型实现,能够更准确地重建人脸的三维结构,并且对于输入图像的要求相对较低。
近年来,基于深度学习的人脸重建方法得到了广泛关注。这些方法通过使用大规模的人脸数据集进行训练,学习到人脸图像与三维人脸模型之间的复杂映射关系。通过神经网络模型,可以直接从单张人脸图像中推断出对应的三维人脸模型,无需依赖于预先构建的形状模型,这种方法可以捕捉更多的细节特征,提高重建的精度和逼真度。
图1为根据本发明实施例的基于单张图片人脸重建方法的流程图。图2为根据本发明实施例的基于单张图片人脸重建方法的架构示意图。如图1和图2所示,所述基于单张图片人脸重建方法,包括:110,获取待重建人脸图像;120,对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;以及,130,基于所述融合语义人脸浅层特征图,得到生成人脸3D模型;其中,120,对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图,包括:121,对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像;122,对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图。
在所述步骤110中,确保获取的人脸图像具有足够的清晰度和质量,以便于后续的特征提取和重建过程。光照条件、姿态和遮挡等因素也需要考虑,尽量选择能够展示人脸特征的图像。
在所述步骤120中,选择合适的人脸特征提取方法,如使用卷积神经网络(CNN)进行特征提取。确保选择的方法能够捕捉到人脸的重要特征,如面部轮廓、眼睛、嘴巴等。此外,对于融合语义信息,可以考虑使用多尺度特征或引入上下文信息来提高特征的表达能力。通过图像特征提取,可以从待重建人脸图像中提取出有代表性的特征,这些特征可以用于后续的人脸重建过程,融合语义人脸浅层特征图可以提供更丰富的语义信息,有助于生成更准确的人脸3D模型。
在所述步骤130中,选择合适的方法和算法来进行人脸3D模型的生成,可以使用形状模型、优化算法或深度学习方法来实现。对于形状模型和优化算法,需要根据具体情况选择合适的模型和算法,并设置适当的参数。对于深度学习方法,可以使用生成对抗网络(GAN)或变分自编码器(VAE)等模型来生成人脸3D模型。通过基于融合语义人脸浅层特征图进行人脸3D模型的生成,可以更准确地还原人脸的三维结构,生成的人脸3D模型可以提供更多的细节和形状信息,有助于后续的人脸分析、识别和应用领域的研究和应用。
进一步地,在所述步骤121中,在进行图像预处理时,首先需要将彩色图像转换为灰度图像。可以使用常见的灰度转换算法,如将RGB图像的三个通道进行加权平均。此外,还可以进行一些图像增强处理,如去噪、对比度增强等,以提高后续特征提取的效果。将待重建人脸图像转换为灰度图像有助于简化后续特征提取的过程,减少计算量和复杂度,灰度图像中的亮度信息能够更好地表达人脸的形状和纹理特征,有助于提高特征提取的准确性。
在所述步骤122中,选择适合的特征提取方法,如使用卷积神经网络(CNN)进行特征提取。可以使用预训练的人脸识别模型,如VGGFace、ResNet等,或者使用自定义的网络架构,在特征融合过程中,可以考虑将多个层级的特征进行融合,以捕捉不同层次的语义信息。通过特征提取与特征融合,可以从灰度化待重建人脸图像中提取出更具代表性的特征,融合语义人脸浅层特征图能够综合考虑不同层次的语义信息,提供更丰富的特征表示,有助于后续的人脸重建过程,提高重建结果的准确性。
针对上述技术问题,本发明的技术构思为利用基于深度学习的人工智能技术,从单张图片中学习和推理出三维人脸模型,无需依赖于预先构建的形状模型。
基于此,在本发明的技术方案中,首先,获取待重建人脸图像。然后,对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像。
在本发明的一个具体示例中,对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像的编码过程,包括:对所述待重建人脸图像进行灰度处理以得到灰度化待重建人脸图像。
灰度处理是将彩色图像转换为灰度图像的过程。在彩色图像中,每个像素由红色、绿色和蓝色三个通道的数值表示,而在灰度图像中,每个像素只有一个灰度值表示。灰度处理的常见方法是通过对彩色图像的三个通道进行加权平均,将彩色像素的RGB值转换为灰度值。
一种常用的转换公式是:灰度值 = 0.2989 红色通道值 + 0.5870 /> 绿色通道值 + 0.1140 />蓝色通道值。这个公式是基于人眼对不同颜色通道的敏感度进行的加权,其中红色通道的权重最高,绿色通道次之,蓝色通道的权重最低。通过这种加权平均,可以将彩色图像转换为灰度图像,其中每个像素的值表示其亮度。
灰度处理的好处是简化了图像处理的复杂性,减少了计算量和存储空间。在人脸图像处理中,灰度图像可以更好地表达人脸的形状和纹理特征,有助于提高特征提取和人脸重建的准确性。此外,灰度图像也更适合用于一些图像处理任务,如边缘检测、人脸识别等。
接着,对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图。也就是,提取所述灰度化待重建人脸图像的人脸浅层特征与人脸深层特征,再将两者进行特征融合与交互,使得融合后的所述融合语义人脸浅层特征图包含更丰富的特征表达。
在本发明的一个具体示例中,对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图的编码过程,包括:先将所述灰度化待重建人脸图像通过基于金字塔网络的人脸特征提取器以得到人脸浅层特征图和人脸深层特征图;再使用联合语义传播模块来融合所述人脸浅层特征图和所述人脸深层特征图以得到融合语义人脸浅层特征图。
其中,金字塔网络是一种用于多尺度特征提取的神经网络结构,通过在不同尺度下对输入图像进行多次下采样和上采样操作,从而获得一系列不同分辨率的特征图。这些特征图包含了不同层次的语义信息,可以捕捉到图像中的细节和整体结构。
金字塔网络通常由两个主要部分组成:上采样路径(Upsampling Path)和下采样路径(Downsampling Path)。在下采样路径中,输入图像通过卷积、池化等操作逐渐降低分辨率,从而捕捉到更高层次的语义信息,每次下采样后,特征图的尺寸减小,但通道数增加,以增强特征的表达能力。在上采样路径中,通过上采样操作将低分辨率的特征图恢复到原始尺寸,并与相应层级的下采样路径中的特征图进行融合,这样可以将来自不同尺度的特征信息进行合并,保留了细节和全局特征。
金字塔网络的优势在于它能够同时处理多个尺度的信息,从而提取到更全面和丰富的特征表示。在人脸特征提取中,金字塔网络可以帮助捕捉到人脸的细节和整体结构,提高人脸识别、人脸表情识别等任务的准确性。
更具体地,在本发明的实施例中,使用联合语义传播模块来融合所述人脸浅层特征图和所述人脸深层特征图以得到融合语义人脸浅层特征图的实现过程为:先将所述人脸深层特征图进行上采样以得到分辨率重构特征图;接着,对由所述分辨率重构特征图进行全局均值池化后得到的全局均值特征向量进行点卷积、批量归一化操作和基于ReLU的非激活函数操作以得到全局语义向量;再对所述分辨率重构特征图进行点卷积、批量归一化操作和基于ReLU的非激活函数操作以得到局部语义向量;然后,将所述全局语义向量和所述局部语义向量进行点加以得到语义权重向量;接着,以所述语义权重向量为权重向量,对所述人脸浅层特征图进行加权处理以得到语义联合特征图;进一步地,融合所述人脸浅层特征图与所述语义联合特征图以得到所述融合语义人脸浅层特征图。这样,通过联合语义传播模块来提取深层特征的全局语义信息与局部语义信息,并将深层特征语义传播到浅层特征之中,缩小两者之间的语义差距,丰富特征表达。
在本发明的一个实施例中,基于所述融合语义人脸浅层特征图,得到生成人脸3D模型,包括:对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;以及,将所述优化融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器以得到所述生成人脸3D模型。
对融合语义人脸浅层特征图进行标准化操作,使得特征在每个通道上的均值为0,方差为1。这可以帮助消除特征之间的尺度差异,使得它们更具有可比性。通过引入映射函数将标准化后的特征图映射到一个新的特征空间,这个映射函数可以是线性的,也可以是非线性的,例如使用全连接层、卷积层或其他非线性变换。对映射后的特征进行重标定,使得特征在整个特征空间上的分布更加均匀,这可以通过对特征进行归一化或者应用其他分布调整方法来实现。特征分布增益的目的是使得特征在整个特征空间上更加丰富和均衡,从而提高特征的表达能力和区分性。
通过基于AIGC模型的3D模型生成器,可以将优化融合语义人脸浅层特征图转换为生成人脸的3D模型。AIGC模型是一种基于深度学习的模型,能够从特征图中学习到人脸的三维结构,并生成对应的3D模型。生成人脸的3D模型可以提供更准确和详细的人脸形状信息,包括面部轮廓、眼睛、鼻子、嘴巴等部位的几何结构。这对于人脸重建、人脸动画、虚拟现实等应用具有重要意义。
特征分布增益可以帮助突出人脸图像中的重要特征,提取到更具区分性和表达能力的特征。金字塔网络和特征分布增益可以捕捉到不同层次的语义信息,包括细节和整体结构,从而提供更丰富的人脸特征表示。基于AIGC模型的3D模型生成器可以从优化融合语义人脸浅层特征图中学习到人脸的三维结构,生成更准确和详细的人脸3D模型。
特征分布增益和基于AIGC模型的3D模型生成器能够提高人脸重建的准确性和质量,为人脸相关应用带来更好的效果。
在本申请的技术方案中,所述人脸浅层特征图和所述人脸深层特征图分别表达所述灰度化待重建人脸图像的基于金字塔网络的不同尺度下的浅层图像语义特征和深层图像语义特征,由此,在使用联合语义传播模块来融合所述人脸浅层特征图和所述人脸深层特征图,可以通过所述人脸深层特征图所表达的深层图像语义特征的全局图像语义特征分布来对所述人脸浅层特征图进行加权,由此,在使用联合语义传播模块融合的情况下,所述融合语义人脸浅层特征图会具有尺度和深度分级的图像语义特征表达。
但是,所述融合语义人脸浅层特征图的这种跨尺度和跨深度的图像语义特征表达也会使得所述融合语义人脸浅层特征图存在图像语义特征的多维度稀疏化,从而导致将所述融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器进行概率回归映射时,所述融合语义人脸浅层特征图的各个特征值的回归概率的概率密度分布的收敛性差,影响得到的生成人脸3D模型的模型质量。因此,优选地,对所述融合语义人脸浅层特征图的各个特征值进行优化,具体表示为:以如下优化公式对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;
其中,所述优化公式为:
其中,和/>是所述融合语义人脸浅层特征图/>的特征值,且/>是所述融合语义人脸浅层特征图/>的全局特征均值,/>是所述优化融合语义人脸浅层特征图的特征值。
具体地,针对所述融合语义人脸浅层特征图在高维特征空间内的稀疏分布导致的概率空间内概率密度分布的局部概率密度不匹配,通过正则化全局自洽类编码,来模仿所述融合语义人脸浅层特征图/>的高维特征流形在概率空间内的编码行为的全局自洽关系,以调整在高维开放空间域内的特征流形的误差景观,实现所述融合语义人脸浅层特征图/>的高维特征流形对显式概率空间嵌入的自洽匹配式类编码,从而提升所述融合语义人脸浅层特征图/>的回归概率的概率密度分布的收敛性,改进基于AIGC模型的3D模型生成器的训练效率和生成人脸3D模型的模型质量。
继而,将所述融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器以得到生成人脸3D模型。基于AIGC(Adversarial Inverse Graphics Network with ConsistentRendering)模型的3D模型生成器是一种基于深度学习的方法,用于从融合语义人脸浅层特征图生成人脸的3D模型。AIGC模型结合了对抗生成网络(GAN)和逆向图形学的思想,通过学习从特征图到3D模型的映射关系,实现了高质量的人脸重建。
AIGC模型的主要步骤包括:首先,生成器网络接收融合语义人脸浅层特征图作为输入,并输出相应的3D模型,生成器网络通常由多个卷积层、反卷积层和全连接层组成,用于将特征图转换为3D模型的表示。然后,判别器网络用于评估生成器网络输出的3D模型的真实性,接收真实的3D模型和生成器网络生成的3D模型作为输入,并输出一个判别分数。判别器网络的目标是尽可能准确地区分真实的3D模型和生成的3D模型。接着,AIGC模型通过逆向图形学的思想,通过最小化生成的3D模型与输入特征图之间的差异来训练生成器网络。这可以通过计算3D模型的重建损失来实现,例如使用均方误差(MSE)或其他适当的损失函数。最后,为了提高生成的3D模型的质量和逼真度,AIGC模型还采用了对抗训练的策略。生成器网络和判别器网络进行对抗训练,使得生成器网络能够生成更逼真的3D模型,而判别器网络能够更准确地区分真实和生成的3D模型。
基于AIGC模型的3D模型生成器可以从融合语义人脸浅层特征图生成高质量的人脸3D模型。这样的生成模型可以在人脸识别、人脸表情分析、虚拟现实等领域具有广泛的应用。
综上,基于本发明实施例的基于单张图片人脸重建方法被阐明,其利用基于深度学习的人工智能技术,从单张图片中学习和推理出三维人脸模型,无需依赖于预先构建的形状模型。
在本发明的一个实施例中,图3为根据本发明实施例的基于单张图片人脸重建系统的框图。如图3所示,根据本发明实施例的基于单张图片人脸重建系统200,包括:图像获取模块210,用于获取待重建人脸图像;图像特征提取模块220,用于对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;以及,人脸3D模型生成模块230,用于基于所述融合语义人脸浅层特征图,得到生成人脸3D模型;其中,所述图像特征提取模块220,包括:图像预处理单元221,用于对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像;特征提取与融合单元222,用于对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图。
在所述基于单张图片人脸重建系统中,所述图像预处理单元,用于:对所述待重建人脸图像进行灰度处理以得到所述灰度化待重建人脸图像。
在所述基于单张图片人脸重建系统中,所述特征提取与融合单元,用于:将所述灰度化待重建人脸图像通过基于金字塔网络的人脸特征提取器以得到人脸浅层特征图和人脸深层特征图;以及,使用联合语义传播模块来融合所述人脸浅层特征图和所述人脸深层特征图以得到所述融合语义人脸浅层特征图。
在所述基于单张图片人脸重建系统中,所述人脸3D模型生成模块,包括:优化单元,用于对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;以及,模型生成单元,用于将所述优化融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器以得到所述生成人脸3D模型。
在所述基于单张图片人脸重建系统中,所述优化单元,用于:以如下优化公式对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;
其中,所述优化公式为:
其中,和/>是所述融合语义人脸浅层特征图/>的特征值,且/>是所述融合语义人脸浅层特征图/>的全局特征均值,/>是所述优化融合语义人脸浅层特征图的特征值。
这里,本领域技术人员可以理解,上述基于单张图片人脸重建系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图2的基于单张图片人脸重建方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本发明实施例的基于单张图片人脸重建系统200可以实现在各种终端设备中,例如用于基于单张图片人脸重建的服务器等。在一个示例中,根据本发明实施例的基于单张图片人脸重建系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于单张图片人脸重建系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于单张图片人脸重建系统200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于单张图片人脸重建系统200与该终端设备也可以是分立的设备,并且基于单张图片人脸重建系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图4为根据本发明实施例的基于单张图片人脸重建方法的场景示意图。如图4所示,在该应用场景中,首先,获取待重建人脸图像(例如,如图4中所示意的C);然后,将获取的待重建人脸图像输入至部署有基于单张图片人脸重建算法的服务器(例如,如图4中所示意的S)中,其中所述服务器能够基于单张图片人脸重建算法对所述待重建人脸图像进行处理,以得到生成人脸3D模型。
还需要指出的是,在本发明的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (8)

1.一种基于单张图片人脸重建方法,其特征在于,包括:
获取待重建人脸图像;
对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;
以及基于所述融合语义人脸浅层特征图,得到生成人脸3D模型;
其中,对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图,包括:
对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像;
对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图;
将所述灰度化待重建人脸图像通过基于金字塔网络的人脸特征提取器以得到人脸浅层特征图和人脸深层特征图;
以及使用联合语义传播模块来融合所述人脸浅层特征图和所述人脸深层特征图以得到所述融合语义人脸浅层特征图;
对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;
以及将所述优化融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器以得到所述生成人脸3D模型。
2.根据权利要求1所述的基于单张图片人脸重建方法,其特征在于,对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像,包括:
对所述待重建人脸图像进行灰度处理以得到所述灰度化待重建人脸图像。
3.根据权利要求2所述的基于单张图片人脸重建方法,其特征在于,对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图,包括:以如下优化公式对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;
其中,所述优化公式为:
其中,/>和/>是所述融合语义人脸浅层特征图/>的特征值,且/>是所述融合语义人脸浅层特征图/>的全局特征均值,/>是所述优化融合语义人脸浅层特征图的特征值。
4.一种基于单张图片人脸重建系统,其特征在于,包括:
图像获取模块,用于获取待重建人脸图像;
图像特征提取模块,用于对所述待重建人脸图像进行图像特征提取以得到融合语义人脸浅层特征图;
以及人脸3D模型生成模块,用于基于所述融合语义人脸浅层特征图,得到生成人脸3D模型;
其中,所述图像特征提取模块,包括:
图像预处理单元,用于对所述待重建人脸图像进行图像预处理以得到灰度化待重建人脸图像;
特征提取与融合单元,用于对所述灰度化待重建人脸图像进行特征提取与特征融合以得到所述融合语义人脸浅层特征图。
5.根据权利要求4所述的基于单张图片人脸重建系统,其特征在于,所述图像预处理单元,用于:
对所述待重建人脸图像进行灰度处理以得到所述灰度化待重建人脸图像。
6.根据权利要求5所述的基于单张图片人脸重建系统,其特征在于,所述特征提取与融合单元,用于:
将所述灰度化待重建人脸图像通过基于金字塔网络的人脸特征提取器以得到人脸浅层特征图和人脸深层特征图;
以及使用联合语义传播模块来融合所述人脸浅层特征图和所述人脸深层特征图以得到所述融合语义人脸浅层特征图。
7.根据权利要求6所述的基于单张图片人脸重建系统,其特征在于,所述人脸3D模型生成模块,包括:
优化单元,用于对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;
以及模型生成单元,用于将所述优化融合语义人脸浅层特征图通过基于AIGC模型的3D模型生成器以得到所述生成人脸3D模型。
8.根据权利要求7所述的基于单张图片人脸重建系统,其特征在于,所述优化单元,用于:以如下优化公式对所述融合语义人脸浅层特征图进行特征分布增益以得到优化融合语义人脸浅层特征图;
其中,所述优化公式为:
其中,/>和/>是所述融合语义人脸浅层特征图/>的特征值,且/>是所述融合语义人脸浅层特征图/>的全局特征均值,/>是所述优化融合语义人脸浅层特征图的特征值。
CN202311403611.6A 2023-10-27 2023-10-27 基于单张图片人脸重建方法及系统 Active CN117152825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311403611.6A CN117152825B (zh) 2023-10-27 2023-10-27 基于单张图片人脸重建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311403611.6A CN117152825B (zh) 2023-10-27 2023-10-27 基于单张图片人脸重建方法及系统

Publications (2)

Publication Number Publication Date
CN117152825A true CN117152825A (zh) 2023-12-01
CN117152825B CN117152825B (zh) 2024-03-08

Family

ID=88910388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311403611.6A Active CN117152825B (zh) 2023-10-27 2023-10-27 基于单张图片人脸重建方法及系统

Country Status (1)

Country Link
CN (1) CN117152825B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951381A (zh) * 2020-08-13 2020-11-17 科大乾延科技有限公司 一种基于单张人脸图片的三维人脸重建系统
CN114972634A (zh) * 2022-05-06 2022-08-30 清华大学 基于特征体素融合的多视角三维可变形人脸重建方法
CN115049782A (zh) * 2022-05-12 2022-09-13 香港中文大学(深圳) 重建稠密三维模型的方法、装置及可读存储介质
CN115496659A (zh) * 2022-09-26 2022-12-20 苏州雷泰医疗科技有限公司 基于单张投影数据的三维ct图像重建方法及装置
CN115578511A (zh) * 2022-09-21 2023-01-06 复旦大学 一种半监督单视角3d物体重建方法
CN116910294A (zh) * 2023-08-11 2023-10-20 北京邮电大学 一种基于情感分析的图像滤镜生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951381A (zh) * 2020-08-13 2020-11-17 科大乾延科技有限公司 一种基于单张人脸图片的三维人脸重建系统
CN114972634A (zh) * 2022-05-06 2022-08-30 清华大学 基于特征体素融合的多视角三维可变形人脸重建方法
CN115049782A (zh) * 2022-05-12 2022-09-13 香港中文大学(深圳) 重建稠密三维模型的方法、装置及可读存储介质
CN115578511A (zh) * 2022-09-21 2023-01-06 复旦大学 一种半监督单视角3d物体重建方法
CN115496659A (zh) * 2022-09-26 2022-12-20 苏州雷泰医疗科技有限公司 基于单张投影数据的三维ct图像重建方法及装置
CN116910294A (zh) * 2023-08-11 2023-10-20 北京邮电大学 一种基于情感分析的图像滤镜生成方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
WANG ENDE ET AL.: "3D‐FEGNet: A feature enhanced point cloud generation network from a single image", 《IET COMPUTER VISION》 *
张举勇;武智;: "基于彩色和深度信息的多模态人脸识别", 武汉大学学报(工学版), no. 04 *
张冀 等: "《计算机应用研究》", 《计算机应用研究》, vol. 37, no. 11, pages 3487 - 3491 *
张冀 等: "基于多尺度CNN-RNN的单图三维重建网络", 《计算机应用研究》, vol. 37, no. 11 *
王珊;沈旭昆;赵沁平;: "三维人脸表情获取及重建技术综述", 系统仿真学报, no. 07 *
郑传哲: "基于深度学习的单图三维重建技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3 *

Also Published As

Publication number Publication date
CN117152825B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN108875935B (zh) 基于生成对抗网络的自然图像目标材质视觉特征映射方法
CN111080511B (zh) 一种端到端的高分辨率多特征提取的人脸交换方法
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
CN110390638B (zh) 一种高分辨率三维体素模型重建方法
US11562536B2 (en) Methods and systems for personalized 3D head model deformation
CN110796593A (zh) 基于人工智能的图像处理方法、装置、介质及电子设备
US11587288B2 (en) Methods and systems for constructing facial position map
JP7462120B2 (ja) 2次元(2d)顔画像から色を抽出するための方法、システム及びコンピュータプログラム
CN110852935A (zh) 一种人脸图像随年龄变化的图像处理方法
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
CN111640172A (zh) 一种基于生成对抗网络的姿态迁移方法
CN115984485A (zh) 一种基于自然文本描述的高保真三维人脸模型生成方法
CN116012501A (zh) 基于风格内容自适应归一化姿态引导的图像生成方法
JP2024506170A (ja) 個人化された3d頭部モデルおよび顔モデルを形成するための方法、電子装置、およびプログラム
CN117152825B (zh) 基于单张图片人脸重建方法及系统
CN116863069A (zh) 三维光场人脸内容生成方法、电子设备及存储介质
CN116703719A (zh) 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法
KR102529214B1 (ko) 페이스 스와핑 딥러닝 시스템을 학습하는 방법 및 장치
Gupta et al. Performance of DCGAN in 3D Face Reconstruction
CN117893673A (zh) 从单图像生成可动画的三维头部模型的生成方法及系统
CN116597066A (zh) 一种基于神经渲染器的无监督单图像三维人脸重建方法
Wang et al. Embedded Representation Learning Network for Animating Styled Video Portrait
CN117237570A (zh) 一种虚拟头部化身构造方法、装置、电子设备和存储介质
CN116363304A (zh) 一种基于多特征融合的手绘三维重建方法
CN117036179A (zh) 图像处理方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 701, 7th floor, and 801, 8th floor, Building 1, Courtyard 8, Gouzitou Street, Changping District, Beijing, 102200

Applicant after: Zhongying Nian Nian (Beijing) Technology Co.,Ltd.

Address before: No. 6304, Beijing shunhouyu Business Co., Ltd., No. 32, Wangfu street, Beiqijia Town, Changping District, Beijing 102200

Applicant before: China Film annual (Beijing) culture media Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant