CN117974425A

CN117974425A - 一种基于扩散模型的二维人脸重建方法及系统

Info

Publication number: CN117974425A
Application number: CN202410239593.0A
Authority: CN
Inventors: 王泓皓
Original assignee: Yijia Beijing Technology Co ltd
Current assignee: Yijia Beijing Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-05-03

Abstract

本申请公开了一种基于扩散模型的二维人脸重建方法及系统。本方法包括首先获取原始人物照片，对原始人物照片进行预处理操作；然后将预处理操作后的人物照片作为训练集，使用LoRA技术对基础深度学习模型分别进行人物优化训练以及风格优化训练；最后将训练完成的人物优化模型以及风格优化模型进行融合得到扩散模型，基于得到的扩散模型对人像图片进行重建。本发明的方法和系统为人脸图像处理领域提供了一种新的解决方案，特别适用于需要高质量人脸重建的应用场景，如数字娱乐、虚拟现实、安全监控以及个性化服务等。

Description

一种基于扩散模型的二维人脸重建方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于扩散模型的二维人脸重建方法及系统。

背景技术

在AI技术广泛应用之前，人像生成主要依赖于图像编辑软件和手工绘制。这些方法虽然能够创建人像，但通常耗时较长，且难以达到高度真实感。此外，对于非专业人士而言，操作复杂性也是一个限制因素。在早期的AI人像生成技术如基本的神经网络和简单的GAN模型，虽然在自动化和效率方面有所提升，但生成的人像往往缺乏细节和真实感。这些技术主要用于研究和实验目的，而非商业或专业应用。

随着技术的发展，现代的AI人像生成技术已能够创建极为逼真的图像。然而，这些高级技术如高级GANs和改进的CNNs面临的主要挑战包括处理大量数据的需求、高昂的计算成本、以及生成过程中的道德和隐私问题。此外，尽管生成的人像质量有显著提高，但在某些情况下，如复杂背景或特殊光照条件下，仍然存在优化空间。即现代的AI人像生成技术具体存在以下缺陷：

对抗生成网络(GANs)的不稳定性：虽然GANs在人像生成中表现出色，但它们在训练过程中常常遇到不稳定性问题。例如，在生成复杂的人脸图像时，GANs可能产生不自然的特征或扭曲。这种不稳定性主要是因为GANs在训练时需要平衡生成器和判别器之间的竞争关系，而这往往难以精确控制。

数据集偏差和隐私问题：AI人像生成技术通常需要大量的训练数据。这些数据集可能存在偏差，导致生成的人像在种族、性别等方面不够多样化。同时，使用真实人像数据进行训练可能引发隐私和道德问题，尤其是在未经个人同意的情况下使用其面部数据。

计算成本和资源需求：高级的AI人像生成技术，如深度学习模型，需要大量的计算资源和电力。这使得这些技术在没有高性能计算设备的情况下难以实施，同时也增加了成本，限制了技术的普及和使用。

真实感和细节的局限性：尽管现代AI技术能够生成高度逼真的人像，但在某些复杂场景下(如复杂的光照、表情变化等)，生成的图像仍可能缺乏足够的真实感和细节。这是因为模型在学习和模拟现实世界复杂性方面仍有局限。

发明内容

基于此，本申请实施例提供了一种基于扩散模型的二维人脸重建方法及系统，可以解决现有技术中所存在的缺陷。

第一方面，提供了一种基于扩散模型的二维人脸重建方法，该方法包括：

获取原始人物照片，对所述原始人物照片进行预处理操作；其中，所述预处理操作包括图像旋转检测操作、人体解析操作、人像美肤操作以及人脸属性文本标注操作；

将预处理操作后的人物照片作为训练集，使用LoRA技术对基础深度学习模型分别进行人物优化训练以及风格优化训练；

将训练完成的人物优化模型以及风格优化模型进行融合得到扩散模型，基于得到的扩散模型对人像图片进行重建。

可选地，在对所述原始人物照片进行预处理操作中，图像旋转检测操作具体包括通过计算图像中的主要轴线方向或使用人体姿态估计技术，调整图片的方向，以确保人物图像处于预设的姿态。

可选地，在对所述原始人物照片进行预处理操作中，人体解析操作具体包括通过深度学习模型对图像中的人体各部位进行识别和标注；其中，所述深度学习模型至少包括卷积神经网络。

可选地，在对所述原始人物照片进行预处理操作中，人像美肤操作具体包括采用图像处理技术对人物照片进行美化处理；其中，所述美化处理至少包括皮肤磨皮和瑕疵去除。

可选地，在对所述原始人物照片进行预处理操作中，人脸属性文本标注操作具体包括利用面部识别技术，对人脸属性进行标注；其中，所述人脸属性至少包括性别、年龄和表情。

可选地，使用LoRA技术对基础深度学习模型分别进行人物优化训练以及风格优化训练，具体包括：

选定基础深度学习模型；其中，所述基础深度学习模型已经在数据上进行了预训练，能够提取和生成高质量图像特征；

应用LoRA技术进行模型参数的微调；其中，具体包括通过在模型中添加低秩矩阵来实现微调。

可选地，将训练完成的人物优化模型以及风格优化模型进行融合得到扩散模型，具体包括：

将人物优化模型和风格优化模型进行集成，使得扩散模型能够在生成图像时同时考虑人物特征和风格特征；其中，具体在人物优化模型和风格优化模型中的不同层级上融合两个模型的输出。

第二方面，提供了一种基于扩散模型的二维人脸重建系统，该系统包括：

预处理模块，用于获取原始人物照片，对所述原始人物照片进行预处理操作；其中，所述预处理操作包括图像旋转检测操作、人体解析操作、人像美肤操作以及人脸属性文本标注操作；

训练模块，用于将预处理操作后的人物照片作为训练集，使用LoRA技术对基础深度学习模型分别进行人物优化训练以及风格优化训练；

重建模块，用于将训练完成的人物优化模型以及风格优化模型进行融合得到扩散模型，基于得到的扩散模型对人像图片进行重建。

第三方面，提供了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的基于扩散模型的二维人脸重建方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的基于扩散模型的二维人脸重建方法。

本申请实施例提供的技术方案中，首先获取原始人物照片，对所述原始人物照片进行预处理操作；然后将预处理操作后的人物照片作为训练集，使用LoRA技术对基础深度学习模型分别进行人物优化训练以及风格优化训练；最后将训练完成的人物优化模型以及风格优化模型进行融合得到扩散模型，基于得到的扩散模型对人像图片进行重建。

本申请实施例提供的技术方案带来的有益效果至少包括：

(1)高效的处理速度：本发明能够在消费级显卡上在1分钟内完成对人像的重建。与现有技术相比，这显著提高了处理速度，为用户提供了更快的服务响应，尤其适用于需要快速处理大量图像的场景。

(2)显著提高的图像质量：利用本发明的先进技术，生成的人像图像在真实感、细节表现和美观度上都有显著提升。特别是在人体解析和美颜处理方面，本发明实现了更高的精度和自然效果。

(3)减少资源消耗：由于本发明优化了计算模型和处理流程，相比于传统的高级人像生成技术，它显著减少了对计算资源的需求。这意味着更低的能源消耗和更低的运行成本，同时也降低了对高性能计算硬件的依赖。

(4)高度的可扩展性：本发明的设计允许在不同的硬件和软件环境下轻松扩展，使其适用于多种不同的应用场景，从个人用途到商业应用都能轻松适应。

(5)环保和降低劳动强度：本发明通过减少对计算资源的需求，不仅有利于环保，同时也降低了用户在图像处理过程中的劳动强度，特别是在对大量图像进行处理时。

通过以上效果，本发明不仅展现了在人像图像处理方面的显著优势，还体现了在提高效率、降低成本和可持续发展方面的重要贡献。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本申请实施例提供的一种基于扩散模型的二维人脸重建方法的步骤流程图；

图2为本申请实施例提供的二维人脸重建流程示意图；

图3为本申请实施例提供的二维人脸重建系统的框图；

图4为本申请实施例提供的一种电子设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本发明的描述中，术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种基于扩散模型的二维人脸重建方法进行详细介绍。

本发明的主要目的是提出一种基于扩散模型的人工智能人像生成和优化技术，以解决现有技术中存在的若干关键问题。具体来说，本发明旨在：

提高生成质量的稳定性：通过利用扩散模型的先进算法，本发明意在提高人像生成过程中的稳定性，减少生成过程中出现的不自然特征和扭曲，从而产生更加逼真和自然的人像。

减少对大量训练数据的依赖：本发明通过改进的学习方法，旨在降低对大规模训练数据集的依赖，减轻数据集偏差带来的问题，同时更好地保护个人隐私。

降低计算成本和资源消耗：本发明的一个关键目标是减少人像生成和优化所需的计算资源和电力消耗，使得技术更加经济、高效，同时更加环境友好。

增强生成图像的真实感和细节：通过扩散模型的高级图像处理能力，本发明意在提升生成图像的真实感和细节，特别是在复杂场景和光照条件下，以达到更高的图像质量。

总体而言，本发明通过使用优化的扩散模型在人工智能人像生成和优化方面带来的革新，克服了传统方法的缺陷，实现了在质量、效率和实用性方面的全面提升。

本发明的方法和系统为人脸图像处理领域提供了一种新的解决方案，特别适用于需要高质量人脸重建的应用场景，如数字娱乐、虚拟现实、安全监控以及个性化服务等。请参考图1，其示出了本申请实施例提供的一种基于扩散模型的二维人脸重建方法的流程图，该方法可以包括以下步骤：

S1，获取原始人物照片，对原始人物照片进行预处理操作。

本步骤中具体涉及了预处理操作，预处理操作包括图像旋转检测操作、人体解析操作、人像美肤操作以及人脸属性文本标注操作。

在本实施例中，首先进行人物原片处理：即输入为一张人物的原始照片作为流程的起点。目的作为后续处理的基础。如图2，给出了本实施例中二维人脸重建流程示意图。预处理操作具体为：

(1)图像旋转校准(图像旋转检测操作)：

技术措施：通过计算图像中的主要轴线方向或使用人体姿态估计技术，调整图片的方向，确保人物图像处于适当的姿态。

技术改进点：优化了图像方向，为后续的人体解析和美颜处理提供了稳定的基础。

在本申请可选的实施例中，图像旋转检测操作使用图像处理技术，如霍夫变换(Hough Transform)来检测图像中的直线，从而估计图像的主要轴线方向。或者利用人体姿态估计技术，如OpenPose等，来识别图像中人物的姿态。根据检测到的姿态，对图像进行旋转调整，使其与预设姿态对齐。

(2)人体解析(人体解析操作)：

技术措施：运用深度学习模型，如卷积神经网络，对图像中的人体各部位进行精确识别和标注。

技术改进点：提高了图像中人体部位识别的准确性，为后续处理提供了重要信息。

在本申请可选的实施例中，利用预训练的深度学习模型，如卷积神经网络(CNN)，进行人体部位识别。这些模型通常是在大量带有标注的人体图像数据集上进行训练的，能够识别并标注出人体的各个部位，如头、躯干、四肢等。通过模型的前向传播，得到人体各部位的分割图像和关键点的位置信息。

(3)人像美颜(人像美肤操作)：

技术措施：采用图像处理技术对人物照片进行美化处理，包括皮肤磨皮、瑕疵去除等。

技术改进点：提升了人物图像的美观度，增加了图像的吸引力和审美价值。

在本申请可选的实施例中，使用图像处理技术，如高斯模糊、双边滤波等，对皮肤区域进行磨皮处理，减少皮肤上的瑕疵和皱纹。利用颜色校正和亮度调整技术，改善皮肤的色调和亮度。应用瑕疵去除算法，如基于深度学习的方法，检测和去除皮肤上的斑点、痘痘等。

(4)人脸属性文本标注(人脸属性文本标注操作)：

技术措施：利用面部识别技术，对人脸的各个属性(如性别、年龄、表情)进行详细标注。

技术改进点：为后续的个性化图像生成提供了关键信息。

在本申请可选的实施例中，利用面部识别技术，如OpenCV、Dlib等库，来检测图像中的人脸。对检测到的人脸进行特征提取，利用预先训练的模型来估计人脸的属性，如性别、年龄和表情。将提取到的人脸属性以文本形式进行标注，并保存为元数据，与原始图像相关联。

S2，将预处理操作后的人物照片作为训练集，使用LoRA技术对基础深度学习模型分别进行人物优化训练以及风格优化训练。

在本步骤中，具体包括：

(1)人物LoRa模型训练：

技术措施：使用LoRA(Low-RankAdaptation)技术对现有深度学习模型进行优化，以提高其在特定任务(如人物图像生成)上的性能。

技术改进点：通过对模型参数的微调，提高了模型在特定人物图像生成任务上的效率和准确性。

在本申请可选的实施例中，选定基础深度学习模型；其中，基础深度学习模型已经在数据上进行了预训练，能够提取和生成高质量图像特征；应用LoRA技术进行模型参数的微调；其中，具体包括通过在模型中添加低秩矩阵来实现微调。

(2)风格LoRa模型训练：

技术措施：针对特定的艺术风格或色调，采用LoRA技术对模型进行风格优化训练。

技术改进点：使得生成的人像图像可以根据不同的风格或色调需求进行定制化调整。

S3，将训练完成的人物优化模型以及风格优化模型进行融合得到扩散模型，基于得到的扩散模型对人像图片进行重建。

在本步骤中具体包括Stable Diffusion模型生成：

技术措施：使用稳定扩散模型(Stable Diffusion Model)，一个先进的生成模型，进行最终的图像生成。这种模型结合了多步处理的输出，以生成高质量、逼真的人像图像。具体地，将人物优化模型和风格优化模型进行集成，使得扩散模型能够在生成图像时同时考虑人物特征和风格特征；其中，具体在人物优化模型和风格优化模型中的不同层级上融合两个模型的输出。

技术改进点：通过结合各处理步骤的优点，Stable Diffusion模型能够产生质量更高、更加逼真的人像图像。

最终产品输出：经过上述步骤处理和优化的人物照片作为最终产品输出。

本发明的方案综合运用了多种先进技术，从原始图像处理到深度学习模型优化，再到最终的图像生成，形成了一个全面的技术体系。这不仅提高了人像图像生成的质量和真实感，同时也大大降低了所需的计算成本和资源消耗，满足了在不同场景下对人像图像质量和效率的要求。

综上可以看出，本申请实现了本发明的核心创新在于其整合了多项先进技术，用于人像图像的生成和优化。以下是本发明的主要关键点或“闪光点”：

高效的图像旋转校准：本发明采用先进的人体姿态估计技术来调整图像方向。这一步骤的关键点在于，它提供了一种高效且准确的方法来确保人物图像的正确定位，这是优化后续处理步骤的关键基础。

精确的人体解析技术：利用深度学习模型进行人体解析，本发明能够精确地标注图像中的每个人体部位。这一创新点提高了后续美颜处理和风格化的准确性和效果。

高级人像美颜处理：本发明采用了一系列图像处理技术，不仅提升了人物图像的美观度，还保留了人物特征的自然感。这一关键点在于它结合了技术优化和视觉美学。

详尽的人脸属性文本标注：通过面部识别技术，本发明能够详细地标注人脸的多种属性。这一步骤的关键创新在于它为个性化和目标导向的图像生成提供了必要的数据支持。

人物与风格LoRA模型训练的结合：本发明在模型训练方面采用了LoRA技术，这不仅优化了模型的性能，还允许对特定的风格进行定制化训练，从而增加了生成图像的多样性和适应性。

请参考图3，其示出了本申请实施例提供的一种基于扩散模型的二维人脸重建系统的框图。该系统可以包括：

预处理模块，用于获取原始人物照片，对原始人物照片进行预处理操作；其中，预处理操作包括图像旋转检测操作、人体解析操作、人像美肤操作以及人脸属性文本标注操作；

关于基于扩散模型的二维人脸重建系统的具体限定可以参见上文中对于基于扩散模型的二维人脸重建方法的限定，在此不再赘述。上述基于扩散模型的二维人脸重建系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是计算机，其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于基于扩散模型的二维人脸重建数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于扩散模型的二维人脸重建方法。

本领域技术人员可以理解，如图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述基于扩散模型的二维人脸重建方法的步骤。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以M种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于扩散模型的二维人脸重建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的二维人脸重建方法，其特征在于，在对所述原始人物照片进行预处理操作中，图像旋转检测操作具体包括通过计算图像中的主要轴线方向或使用人体姿态估计技术，调整图片的方向，以确保人物图像处于预设的姿态。

3.根据权利要求1所述的二维人脸重建方法，其特征在于，在对所述原始人物照片进行预处理操作中，人体解析操作具体包括通过深度学习模型对图像中的人体各部位进行识别和标注；其中，所述深度学习模型至少包括卷积神经网络。

4.根据权利要求1所述的二维人脸重建方法，其特征在于，在对所述原始人物照片进行预处理操作中，人像美肤操作具体包括采用图像处理技术对人物照片进行美化处理；其中，所述美化处理至少包括皮肤磨皮和瑕疵去除。

5.根据权利要求1所述的二维人脸重建方法，其特征在于，在对所述原始人物照片进行预处理操作中，人脸属性文本标注操作具体包括利用面部识别技术，对人脸属性进行标注；其中，所述人脸属性至少包括性别、年龄和表情。

6.根据权利要求1所述的二维人脸重建方法，其特征在于，使用LoRA技术对基础深度学习模型分别进行人物优化训练以及风格优化训练，具体包括：

7.根据权利要求1所述的二维人脸重建方法，其特征在于，将训练完成的人物优化模型以及风格优化模型进行融合得到扩散模型，具体包括：

8.一种基于扩散模型的二维人脸重建系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的基于扩散模型的二维人脸重建方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的基于扩散模型的二维人脸重建方法。