CN117557688B

CN117557688B - 肖像生成模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN117557688B
Application number: CN202410034119.4A
Authority: CN
Inventors: 张顺四; 徐列; 卢增
Original assignee: Guangzhou Quwan Network Technology Co Ltd
Current assignee: Guangzhou Quwan Network Technology Co Ltd
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-03-12
Anticipated expiration: 2044-01-10
Also published as: CN117557688A

Abstract

本申请提供了一种肖像生成模型训练方法，包括：获取目标人像训练集、随机人像训练集和目标风格训练集；利用目标人像训练集训练得到第一Lora模型；利用目标人像训练集和随机人像训练集训练得到第二Lora模型；利用目标风格训练集训练得到第三Lora模型；根据第一Lora模型与第二Lora模型之间的模型参数差异，得到第四Lora模型；将第三Lora模型、第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型。该方法通过两个Lora模型之间的差值模型与目标风格对应的Lora模型进行显式融合，解决了模型参数隐式融合的不可控因素，还提高了肖像生成的质量。

Description

肖像生成模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种肖像生成模型训练方法、装置、计算机设备和存储介质。

背景技术

随着互联网的快速发展，图像处理技术日趋成熟，为了高效地绘制和处理拥有个性化特征的数字图像作品，出现了大量的人工智能技术辅助人类完成图像绘制工作，图像自动生成技术受到越来越多的关注和研究。生成质量已经满足诸多不同产业对于内容生产的需求。特别是在肖像生成场景下，用户希望可以借助图像生成技术，在保持自身人像特征的前提下，自动生成特定内容风格的图像。但传统技术中的方案存在着融合痕迹明显或生成效果不可控的问题。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中肖像生成模型存在的融合痕迹明显或生成效果不可控的缺陷。

第一方面，本申请提供了一种肖像生成模型训练方法，包括：

获取目标人像训练集、随机人像训练集和目标风格训练集；

利用目标人像训练集训练得到第一Lora模型；第一Lora模型用于生成与目标人像训练集的背景区域和人像区域均匹配的图像；

利用目标人像训练集和随机人像训练集训练得到第二Lora模型；第二Lora模型用于生成与目标人像训练集的背景区域匹配但人像区域随机的图像；

利用目标风格训练集训练得到第三Lora模型；第三Lora模型用于生成与目标风格训练集的背景区域和人像区域均匹配的图像；

根据第一Lora模型与第二Lora模型之间的模型参数差异，得到第四Lora模型；

将第三Lora模型、第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型。

在其中一个实施例中，利用目标人像训练集训练得到第一Lora模型之前，包括：

对目标人像训练集中的图像进行描述词抽取，得到各图像对应的描述词；

利用目标人像训练集训练得到第一Lora模型，包括：

根据目标人像训练集中的图像及其对应的描述词对初始Lora模型进行训练，得到第一Lora模型。

在其中一个实施例中，利用目标人像训练集和随机人像训练集训练得到第二Lora模型之前，包括：

对目标人像训练集和随机人像训练集中的图像进行人像区域分割，得到各图像的人像区域对应的第一蒙版和背景区域对应的第二蒙版；

对目标人像训练集和随机人像训练集中的图像进行描述词抽取，得到各图像对应的描述词；

对于目标人像训练集和随机人像训练集中的任意一张图像，对该图像的描述词进行分类，分别得到人像描述词和背景描述词；

利用目标人像训练集和随机人像训练集训练得到第二Lora模型，包括：

分别根据随机人像训练集中的图像及其对应的第一蒙版和人像描述词、根据目标人像训练集中的图像及其对应的第二蒙版和背景描述词对初始Lora模型进行训练，得到第二Lora模型。

在其中一个实施例中，利用目标风格训练集训练得到第三Lora模型之前，包括：

对目标风格训练集中的图像进行描述词抽取，得到各图像对应的描述词；

利用目标风格训练集训练得到第三Lora模型，包括：

根据目标风格训练集中的图像及其对应的描述词对初始Lora模型进行训练，得到第三Lora模型。

在其中一个实施例中，获取目标人像训练集、随机人像训练集和目标风格训练集，还包括：

分别对目标人像训练集、随机人像训练集和目标风格训练集中的图像进行方向校准并将尺寸调整为预设尺寸。

在其中一个实施例中，方向校准的过程，包括：

对待校准图像进行人脸关键点识别，以确定左眼坐标和右眼坐标；

根据左眼坐标和右眼坐标确定双眼连线方向；

根据双眼连线方向与预设方向之间的差异得到旋转角度；

根据旋转角度对待校准图像进行旋转。

在其中一个实施例中，将第三Lora模型、第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型，包括：

根据预设权重，对第三Lora模型、第四Lora模型的模型参数进行加权求和；

将加权求和所得到的权重参数与图像扩散模型的权重参数求和，得到肖像生成模型。

第二方面，本申请提供了一种肖像生成模型训练装置，包括：

数据集获取模块，用于获取目标人像训练集、随机人像训练集和目标风格训练集；

第一训练模块，用于利用目标人像训练集训练得到第一Lora模型；第一Lora模型用于生成与目标人像训练集的背景区域和人像区域均匹配的图像；

第二训练模块，用于利用目标人像训练集和随机人像训练集训练得到第二Lora模型；第二Lora模型用于生成与目标人像训练集的背景区域匹配但人像区域随机的图像；

第三训练模块，用于利用目标风格训练集训练得到第三Lora模型；第三Lora模型用于生成与目标风格训练集的背景区域和人像区域均匹配的图像；

差值模型生成模块，用于根据第一Lora模型与第二Lora模型之间的模型参数差异，得到第四Lora模型；

融合模块，用于将第三Lora模型、第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型。

第三方面，本申请提供了一种计算机设备，包括一个或多个处理器，以及存储器，存储器中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，执行上述任一实施例中的肖像生成模型训练方法的步骤。

第四方面，本申请提供了一种存储介质，存储介质中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例中的肖像生成模型训练方法的步骤。

基于上述任一实施例，首先获取目标人像训练集、随机人像训练集和目标风格训练集。然后基于这三个训练集分别训练出三个Lora模型，第一Lora模型拟合目标人像的全部特征，第二Lora模型拟合目标人像的背景特征及随机人像特征，第三Lora模型拟合目标风格特征。之后通过前两个Lora模型的差值得到第四Lora模型，它具有将任意人像转换为目标人像的功能。最后将第三Lora模型、第四Lora模型与基础的图像扩散模型进行融合，得到能生成包含目标人物和风格的定制化的肖像生成模型。该方法通过两个Lora模型之间的差值模型与目标风格对应的Lora模型进行显式融合，解决了模型参数隐式融合的不可控因素，还提高了肖像生成的质量。基于训练得到的肖像生成模型所生成的人物形象更加贴合目标人物，而照片风格和内容更加贴近目标风格。该肖像生成模型的应用可以极大地降低了用户拍摄写真、身份证、艺术照等具有特定内容风格要求照片的门槛。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请一个实施例提供的肖像生成模型训练方法的流程示意图；

图2为本申请一个实施例提供的肖像生成模型训练装置的模块示意图；

图3为本申请一个实施例提供的计算机设备的内部结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在传统技术中，为了满足用户定制化生成肖像图片的需求，可以通过换脸算法实现。换脸算法一般基于生成对抗网络（GAN）算法，输入分为源人脸和目标人脸，其中目标人脸图像作为定制化肖像的模板（例如证件照），借助于人脸识别等技术作为辅助，将源人脸的五官迁移到目标人脸的区域，从而达到被换脸的人物和源人脸的相似度高，以实现不同内容的肖像生成。但该方法虽然成本较低，且只需要用户提供一张图片，但是无法将源人脸五官以外的区域迁移到模板图片上。同时也无法很好地迁移脸型。并且，换脸算法很难学习到用户肖像中的耳朵，脖子，头发等同样具有个人特征的区域。另外当源人脸和目标人脸的光线、人脸姿态角度、妆容差异很大的时候，迁移效果较差，会导致生成的肖像照片不自然，融合痕迹明显。

另一种技术路线就是训练Lora模型，再将Lora模型与稳定扩散模型融合的方式实现。Lora模型是一种低秩适应模型，其通过低秩矩阵分解的方式进行模型训练。在基于稳定扩散模型进行肖像生成时，由于稳定扩散模型中的参数量巨大，训练成本很高，为了在不修改稳定扩散模型的前提下利用少量数据训练出符合定制化需求的模型，就采用训练低秩矩阵（low rank matrics）的方式得到Lora模型的参数。在训练完成后，将Lora模型的参数与稳定扩散模型融合，从而改变SD模型的生成风格。整个过程是一个简单的线性关系，可以认为是基础的稳定扩散模型叠加Lora模型后，得到一个全新效果的模型。

在有些方案中，会通过对一定数量的源人脸进行训练，得到源人脸对应的Lora模型。将其叠加基础稳定扩散模型后，通过提示词（描述词）进行不同类型和内容的人物肖像图像生成。该方法能够很好地利用稳定扩散模型的生成能力，相对换脸算法能够生成更加自然的人物肖像，且不局限于人脸区域，可以将整个人物的头部信息都通过模型进行训练和生成，同时生成的人物和场景融合度相对换脸算法更加高。而且利用扩散模型的随机性，能够生成全新的图像内容，不局限于只改变目标肖像模板中人脸部分的像素。但由于该方式只使用提示词控制，生成的内容完全取决于稳定扩散模型本身。难以根据用户的需要生成一些特别定制的风格的肖像照片。

在有些方案中，除了源人物的人脸对应的Lora模型以外，进一步训练目标风格对应的Lora模型来实现对风格的控制，但是由于最终的生成模型变成了多个Lora模型叠加基础模型。模型融合本质上是通过模型的参数叠加，属于隐式的融合方案，融合后的参数实际属于黑盒，可能同时具备了两个模型的能力，也可能互相制约而影响生成效果。普通的Lora模型融合的思路给最后的生成过程带来了极大的不可控因素，对于生成效果存在潜在的负面影响。

为了解决上述问题，本申请提供了一种肖像生成模型训练方法，请参阅图1，包括步骤S102至步骤S112。

S102，获取目标人像训练集、随机人像训练集和目标风格训练集。

可以理解，获取足够多样性和数量的人像图片作为训练集对后续模型训练质量至关重要。目标人像训练集包含目标人物的多张人像图片，目标人物就是需要进行肖像定制化生成的用户。目标人像训练集对图像的数量要求较低，一般使用5张图像就可以保证生成效果的多样性和质量。随机人像训练集是包含随机人物的多张人像图片。随机人像训练集包含大量不同人物的人像，其在后续将与目标人像训练集结合使用。在训练Lora模型时，使模型获得生成目标人像训练集的背景区域的能力时，保留对人像区域的随机生成能力。随机人像训练集对图像的数量要求较高，一般需要有数百张图像。目标风格训练集包含目标风格的多张人像图片，目标风格就是用户希望所生成的肖像的整体风格。在拍摄写真、身份证、艺术照等场景中可以使用。目标风格可体现在画面内容中包括特定风格的背景、服装或饰品等。目标风格训练集对图像的数量要求中等，一般需要有数张到数十张图像。

S104，利用目标人像训练集训练得到第一Lora模型。

可以理解，本实施例中将人像图片分为人像区域和背景区域。其中，人像区域指的是用户需要保留人像特征的区域。一般包括人脸区域、头发区域、脖子区域、耳朵区域等个人特征明显的区域。但也可由用户从上述几个区域中进行选择。而背景区域就是人像图片中除人像区域以外的区域。但是，在对人像区域和背景区域进行区分时，分割算法有时难以对两者交界的区域进行分类，则有可能存在过渡区域。第一Lora模型的训练目标是对目标人像训练集中的背景和人像区域进行拟合，使其能生成与目标人像背景和人像区域都匹配的新图像。在训练完成后，第一Lora模型即具备生成与目标人像训练集的背景区域和人像区域均匹配的图像的能力。

S106，利用目标人像训练集和随机人像训练集训练得到第二Lora模型。

可以理解，第二Lora模型的训练目标是对目标人像的背景区域进行拟合，同时具有在该背景区域生成随机人像的能力。利用目标人像训练集使得第二Lora模型获得对目标人像的背景区域的生成能力。而随机人像训练集提供了大量不同人物人像，使得模型在拟合目标人像的背景区域的同时，保持了对随机人像的生成能力。在训练完成后，第二Lora模型即具备生成与目标人像训练集的背景区域匹配但人像区域随机的图像。

S108，利用目标风格训练集训练得到第三Lora模型。第三Lora模型用于生成与目标风格训练集的背景区域和人像区域均匹配的图像。

可以理解，第三Lora模型的训练目标是对目标风格训练集中的背景和人像区域进行拟合，使其能生成具有目标风格的新图像。在训练完成后，第三Lora模型具备生成与目标分割训练集的背景区域和人像区域均匹配的图像的能力，即第三Lora模型可以生成与目标风格训练集具有统一风格的人像图片。

S110，根据第一Lora模型与第二Lora模型之间的模型参数差异，得到第四Lora模型。

可以理解，第四Lora模型即是两个Lora模型融合的产物，但与传统中Lora模型融合得到不可解释的隐式特征映射表示不同，第四Lora模型所具备的生成能力属于可解释的显式特征映射。具体而言，第一Lora模型和第二Lora模型都拟合了目标人像的背景区域，将他们的模型参数取差值可以抵消背景特征，仅保留两个模型在目标人像区域训练结果的差异。由于第一Lora模型在人像区域获得了生成专属于目标人物的人像特征的能力，第二Lora模型在人像区域则是获得了生成随机人像特征的能力。取两模型的参数差异得到的模型，在人像区域相当于具备将任意人像转换到目标人像的能力。

S112，将第三Lora模型、第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型。

可以理解，图像扩散模型是目前主流的一类图像生成模型，扩散模型在前向阶段对图像逐步施加噪声，直至图像被破坏变成完全的高斯噪声，然后在逆向阶段学习从高斯噪声还原为原始图像的过程。其中，最为典型的应用即为稳定扩散模型（StableDiffusion），后文将以图像扩散模型为稳定扩散模型为例进行说明。图像扩散模型提供了基础的图像生成能力，而第三Lora模型提供生成目标风格图像的能力，第四Lora模型提供将人像区域转换为目标人物的能力。将三个模型进行融合，使得肖像生成模型既具备了图像生成的基础能力，也同时具备了生成特定风格和特定人物的能力。因此最终获得的肖像生成模型，可以生成包含目标人物和目标风格的定制化肖像图像。相比单独的风格/人物模型或者隐式融合的方案，本实施例中显式的模型融合方式提高了模型各部分能力的可控性和解释性，降低了模型之间不可控的相互影响，提高了个性化肖像生成的质量。

在得到肖像生成模型后，即可根据自身需要设计提示词并输入到肖像生成模型中，以得到符合用户要求的定制化人像图片。

基于本实施例中的肖像生成模型训练方法，首先获取目标人像训练集、随机人像训练集和目标风格训练集。然后基于这三个训练集分别训练出三个Lora模型，第一Lora模型拟合目标人像的全部特征，第二Lora模型拟合目标人像的背景特征及随机人像特征，第三Lora模型拟合目标风格特征。之后通过前两个Lora模型的差值得到第四Lora模型，它具有将任意人像转换为目标人像的功能。最后将第三Lora模型、第四Lora模型与基础的图像扩散模型进行融合，得到能生成包含目标人物和风格的定制化的肖像生成模型。该方法通过两个Lora模型之间的差值模型与目标风格对应的Lora模型进行显式融合，解决了模型参数隐式融合的不可控因素，还提高了肖像生成的质量。基于训练得到的肖像生成模型所生成的人物形象更加贴合目标人物，而照片风格和内容更加贴近目标风格。该肖像生成模型的应用可以极大地降低了用户拍摄写真、身份证、艺术照等具有特定内容风格要求照片的门槛。

在其中一个实施例中，利用目标人像训练集训练得到第一Lora模型之前，包括：对目标人像训练集中的图像进行描述词抽取，得到各图像对应的描述词。

可以理解，Lora模型训练的输入即包括图像和图像对应的描述词。进行描述词抽取，可以获取人物在不同姿态、背景、着装等情况下对应的语义描述，为模型训练提供丰富的语义信息，可以显著提升生成结果的质量和符合用户预期的程度。目前已有许多成熟的插件、模块或算法等可以直接使用，只需要将需要进行描述词提取的图像输入即可得到对应的描述词。但为了提高描述词的质量，还可以由人工进一步筛选和修改描述词。

利用目标人像训练集训练得到第一Lora模型，包括：根据目标人像训练集中的图像及其对应的描述词对初始Lora模型进行训练，得到第一Lora模型。

可以理解，Lora模型的训练已较为成熟，在准备好训练数据后，只需选择好训练器，并完成训练环境的配置、训练参数的配置，再将训练数据导入训练器即可实现模型的训练。在训练完成后，还可以将训练好的Lora模型与基础的稳定扩散模型融合，并采用该Lora模型对应的触发词生成一些测试图像，根据测试图像的效果判断Lora模型是否具备了预期的图像生成能力。

（1）对目标人像训练集和随机人像训练集中的图像进行人像区域分割，得到各图像的人像区域对应的第一蒙版和背景区域对应的第二蒙版。

可以理解，人像区域分割是利用计算机视觉算法对人像图像进行解析，提取出人像的关键区域，例如面部、头发、耳朵等，并生成对应的区域蒙版。其中，第一蒙版对应人像区域，第二蒙版对应背景区域。蒙版中的每个像素点标记了该位置属于人像区域或背景区域。蒙版的数值范围为[0,1]之间的浮点数，在第一蒙版中0表示背景区域，1表示人像区域，其余表示过渡区域。在第二蒙版中，1表示背景区域，0表示人像区域，其余表示过渡区域。目标人像训练集的蒙版可以明确图片中人像和背景区域，为后续训练时使用不同数据源提供了区域约束。

（2）对目标人像训练集和随机人像训练集中的图像进行描述词抽取，得到各图像对应的描述词。

类似于第一Lora模型的训练，图像的描述词是Lora模型训练阶段必须的数据，需要分别对目标人像训练集和随机人像训练集中的图像进行描述词抽取。

（3）对于目标人像训练集和随机人像训练集中的任意一张图像，对该图像的描述词进行分类，分别得到人像描述词和背景描述词。

可以理解，目标人像训练集和随机人像训练集这两个数据源在第二Lora模型的训练中将提供不同区域的图像特征信息供模型学习，因此需要使用不同的蒙版进行区域约束。因此，描述词也要做相应的处理，需要将提示词中和人像区域相关的提示词和背景区域相关的提示词分别提取出来。在需要提供人像区域的信息时，一并输入模型训练的将只有人像描述词。在需要提供背景区域的信息时，一并输入模型训练的将只有背景描述词。这里的分类可以由人工进行，也可以通过定义规则实现，例如包含身体部位、服饰等词汇划入人像描述，包含场景物体等词汇划入背景描述。也可以基于语义关联对词汇进行分类。还可以在描述词提取阶段，利用第一蒙版进行裁剪，得到人像区域的截图，再将该截图进行描述词提取。将基于第一蒙版得到的描述词归类为人像描述词。以及利用第二蒙版进行裁剪，得到背景区域的截图，再将该截图进行描述词提取。将基于第二蒙版得到的描述词归类为背景描述词。

可以理解，由于目标人像训练集在第二Lora模型的训练中主要提供随机人像的人像特征信息，因此，需要基于第一蒙版对随机人像训练集中的图像进行区域约束，模型在计算损失函数时，由于第一蒙版的存在，只会计算其中非零的区域，同时还会将其对应的人像描述词输入模型训练，最终使得模型学习到随机的人像区域的生成能力。而目标人像训练集在第二Lora模型的训练中主要提供目标人像的背景特征信息，需要利用第二蒙版对目标人像训练集中的图像提供的信息进行区域约束，模型在计算损失函数时，由于第二蒙版的存在，只会计算其中非零的区域，同时还会将其对应的背景描述词输入模型训练，最终使得模型学习到目标人像的背景区域的生成能力。

在其中一个实施例中，利用目标风格训练集训练得到第三Lora模型之前，包括：对目标风格训练集中的图像进行描述词抽取，得到各图像对应的描述词。

可以理解，Lora模型训练的输入即包括图像和图像对应的描述词。进行描述词抽取，可以获取人物在不同姿态、背景、着装等情况下对应的语义描述，为模型训练提供丰富的语义信息，可以显著提升生成结果的质量和符合用户预期的程度。目前已有许多成熟的插件、模块、算法等可以直接使用，只需要将需要进行描述词提取的图像输入即可得到对应的描述词。但为了提高描述词的质量，还可以由人工进一步筛选和修改描述词。

利用目标风格训练集训练得到第三Lora模型，包括：根据目标风格训练集中的图像及其对应的描述词对初始Lora模型进行训练，得到第三Lora模型。

另外，上述三个模型的训练过程由于都涉及到描述词的提取，可以在得到各数据集后统一进行，而无需在每个Lora模型训练时再进行提取。上述三个Lora模型的训练也没有先后顺序的限制，可以根据实际情况自行选择。

在其中一个实施例中，获取目标人像训练集、随机人像训练集和目标风格训练集，还包括：分别对目标人像训练集、随机人像训练集和目标风格训练集中的图像进行方向校准并将尺寸调整为预设尺寸。

可以理解，图像的方向校准和尺寸调整是图像预处理的重要步骤，尤其是在涉及到多个图像数据集进行模型训练时，保证各图像的方向一致性和尺寸统一性可以为训练过程提供规范化的输入，提高模型训练质量。

在其中一个实施例中，方向校准的过程，包括：

（1）对待校准图像进行人脸关键点识别，以确定左眼坐标和右眼坐标。

可以理解，目标人像训练集、随机人像训练集和目标风格训练集都将成为待校准图像进行方向校准。人脸关键点识别是通过人脸分析算法，检测面部图像的语义级关键位置，例如眼睛、鼻子、嘴巴等部位的坐标。其中，左右眼坐标是确定面部姿态方向的重要参考。

（2）根据左眼坐标和右眼坐标确定双眼连线方向。

具体而言，根据左右眼坐标中心位置，连接两个中心点可以得到双眼连线。该连线表示面部的主要平视方向。双眼连线方向反映了面部姿态的空间方向，是决定面部旋转角度的依据。

（3）根据双眼连线方向与预设方向之间的差异得到旋转角度。

可以理解，将双眼连线方向与预设方向进行比较，即可得到双眼连线方向与标准方向之间的角度偏差，该偏差角度即为后续旋转所需角度。

（4）根据旋转角度对待校准图像进行旋转。

具体而言，旋转的具体过程可以是计算原图像的旋转中心。根据旋转角度建立旋转矩阵。利用旋转矩阵对待校准图像进行变换，实现图像旋转。在对各训练集中的图像都完成方向校准后，各图像的面部姿态方向都与预设方向对齐，实现了不同姿态下面部方向的规范化。

在其中一个实施例中，将方向校准后的图像调整为预设尺寸可以先计算原始图像的长宽比例。根据比例将原图像缩放到目标尺寸。还可采用双线性插值保证缩放质量。缩放后的图像即为经过尺寸调整的结果。

（1）根据预设权重，对第三Lora模型、第四Lora模型的模型参数进行加权求和。

可以理解，第三Lora模型具有生成目标风格图像的能力，第四Lora模型具有将人像转换为目标人物的能力。为了控制两个模型对最终结果的贡献，需要进行加权融合。预先设置第三Lora模型和第四Lora模型的权重值，将对应的权重值与模型参数相乘后相加，得到融合后的新模型参数集。预设权重的设置会影响不同能力的体现程度。适当调整权重，可以生成兼顾风格和个性化的结果。一般而言，权重将选择0至1的浮点数。

（2）将加权求和所得到的权重参数与图像扩散模型的权重参数求和，得到肖像生成模型。

可以理解，图像扩散模型提供了最基础的图像生成能力。将其与融合后的Lora模型参数相加，即可获得同时包含基础生成能力、特定风格生成能力与目标人物生成能力的最终模型。具体而言，在传统的多Lora模型与图像扩散模型融合的方案中，虽然也可以将Lora模型进行加权求和，如下式所示：

；

其中，为学习了目标人物人脸区域的Lora模型的模型参数，为学习了目标风格绘制特点的Lora模型的模型参数，/>和/>分别为两个Lora模型的权重，/>为基础的图像扩散模型的模型参数，/>为融合后的图像扩散模型的模型参数。由于这两个Lora模型拟合了不同的人物，因此模型融合过程相对隐式，融合模型生成的人物形象不完全可控。而本实施例中将隐式融合转换为显式融合，最终的模型融合过程如下式：

；

其中，为上述第一Lora模型的模型参数，/>为上述第二Lora模型的模型参数。第一Lora模型具备生产目标人物的人像区域和背景区域的能力，第二Lora模型具备生产随机人物的人像区域和目标人物的背景区域的能力。将这两个模型相减，可以将关于目标人物的背景区域的生成能力相互抵消。而对于前景部分，该差值模型，也即第四Lora模型，具备将随机人脸映射为目标人物的人脸的能力，这是一种显式的特征映射表示。将第四Lora模型的模型参数与基础的图像扩散模型的参数叠加，实现了不同模型能力的累积融合。最终肖像生成模型集成了多个单模型的优势，具有基础图像生成能力，可控制风格和个性化效果，且保证图像中的人像与目标人物相似。

另外，值得一提的是，由于Lora模型在训练过程中是将模型参数转换为了两个低秩矩阵，分别对两个低秩矩阵进行调整，从而降低了计算量。因此，在将Lora模型与图像扩散模型融合之前，如果Lora模型的模型参数仍是低秩矩阵的形式，则需要将Lora模型的模型参数进行还原。具体而言，可以将两个权重矩阵相乘，相乘后所得到的模型参数即与图像扩散模型具有一致的权重结构和维度，可以与图像扩散矩阵的模型参数进行融合。

本申请提供了一种肖像生成模型训练装置，请参阅图2，包括数据集获取模块210、第一训练模块220、第二训练模块230、第三训练模块240、差值模型生成模块250和融合模块260。

数据集获取模块210用于获取目标人像训练集、随机人像训练集和目标风格训练集。

第一训练模块220用于利用目标人像训练集训练得到第一Lora模型。第一Lora模型用于生成与目标人像训练集的背景区域和人像区域均匹配的图像。

第二训练模块230用于利用目标人像训练集和随机人像训练集训练得到第二Lora模型。第二Lora模型用于生成与目标人像训练集的背景区域匹配但人像区域随机的图像。

第三训练模块240用于利用目标风格训练集训练得到第三Lora模型。第三Lora模型用于生成与目标风格训练集的背景区域和人像区域均匹配的图像。

差值模型生成模块250用于根据第一Lora模型与第二Lora模型之间的模型参数差异，得到第四Lora模型。

融合模块260用于将第三Lora模型、第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型。

在其中一个实施例中，肖像生成模型训练装置包括描述词抽取模块。描述词抽取模块用于对目标人像训练集中的图像进行描述词抽取，得到各图像对应的描述词。第一训练模块220用于根据目标人像训练集中的图像及其对应的描述词对初始Lora模型进行训练，得到第一Lora模型。

在其中一个实施例中，肖像生成模型训练装置包括区域分割模块和描述词分类模块。区域分割模块用于对目标人像训练集和随机人像训练集中的图像进行人像区域分割，得到各图像的人像区域对应的第一蒙版和背景区域对应的第二蒙版。描述词抽取模块用于对目标人像训练集和随机人像训练集中的图像进行描述词抽取，得到各图像对应的描述词。描述词分类模块用于对于目标人像训练集和随机人像训练集中的任意一张图像，对该图像的描述词进行分类，分别得到人像描述词和背景描述词。第二训练模块230用于分别根据随机人像训练集中的图像及其对应的第一蒙版和人像描述词、根据目标人像训练集中的图像及其对应的第二蒙版和背景描述词对初始Lora模型进行训练，得到第二Lora模型。

在其中一个实施例中，描述词抽取模块用于对目标风格训练集中的图像进行描述词抽取，得到各图像对应的描述词。第三训练模块240用于根据目标风格训练集中的图像及其对应的描述词对初始Lora模型进行训练，得到第三Lora模型。

在其中一个实施例中肖像生成模型训练装置还包括预处理模块。预处理模块用于分别对目标人像训练集、随机人像训练集和目标风格训练集中的图像进行方向校准并将尺寸调整为预设尺寸。

在其中一个实施例中，预处理模块用于对待校准图像进行人脸关键点识别，以确定左眼坐标和右眼坐标；根据左眼坐标和右眼坐标确定双眼连线方向；根据双眼连线方向与预设方向之间的差异得到旋转角度；根据旋转角度对待校准图像进行旋转。

在其中一个实施例中，融合模块260用于根据预设权重，对第三Lora模型、第四Lora模型的模型参数进行加权求和；将加权求和所得到的权重参数与图像扩散模型的权重参数求和，得到肖像生成模型。

关于肖像生成模型训练装置的具体限定可以参见上文中对肖像生成模型训练方法的限定，在此不再赘述。上述肖像生成模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请提供了一种计算机设备，包括一个或多个处理器，以及存储器，存储器中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，执行上述任一实施例中的肖像生成模型训练方法的步骤。

示意性地，如图3所示，图3为本申请实施例提供的一种计算机设备的内部结构示意图。参照图3，计算机设备300包括处理组件302，其进一步包括一个或多个处理器，以及由存储器301所代表的存储器资源，用于存储可由处理组件302的执行的指令，例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的，每一个对应于一组指令的模块。此外，处理组件302被配置为执行指令，以执行上述任意实施例的肖像生成模型训练方法的步骤。

计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理，一个有线或无线模型接口304被配置为将计算机设备300连接到模型，和一个输入输出（I/O）接口305。

本申请提供了一种存储介质，存储介质中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例中的肖像生成模型训练方法的步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种肖像生成模型训练方法，其特征在于，包括：

获取目标人像训练集、随机人像训练集和目标风格训练集；

利用所述目标人像训练集训练得到第一Lora模型；所述第一Lora模型用于生成与所述目标人像训练集的背景区域和人像区域均匹配的图像；

利用所述目标人像训练集和所述随机人像训练集训练得到第二Lora模型；所述第二Lora模型用于生成与所述目标人像训练集的背景区域匹配但人像区域随机的图像；

利用所述目标风格训练集训练得到第三Lora模型；所述第三Lora模型用于生成与所述目标风格训练集的背景区域和人像区域均匹配的图像；

根据所述第一Lora模型与所述第二Lora模型之间的模型参数差异，得到第四Lora模型；

将所述第三Lora模型、所述第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型。

2.根据权利要求1所述的肖像生成模型训练方法，其特征在于，所述利用所述目标人像训练集训练得到第一Lora模型之前，包括：

对所述目标人像训练集中的图像进行描述词抽取，得到各图像对应的描述词；

所述利用所述目标人像训练集训练得到第一Lora模型，包括：

根据所述目标人像训练集中的图像及其对应的所述描述词对初始Lora模型进行训练，得到所述第一Lora模型。

3.根据权利要求1所述的肖像生成模型训练方法，其特征在于，所述利用所述目标人像训练集和所述随机人像训练集训练得到第二Lora模型之前，包括：

对所述目标人像训练集和所述随机人像训练集中的图像进行人像区域分割，得到各图像的人像区域对应的第一蒙版和背景区域对应的第二蒙版；

对所述目标人像训练集和所述随机人像训练集中的图像进行描述词抽取，得到各图像对应的描述词；

对于所述目标人像训练集和所述随机人像训练集中的任意一张图像，对该图像的所述描述词进行分类，分别得到人像描述词和背景描述词；

所述利用所述目标人像训练集和所述随机人像训练集训练得到第二Lora模型，包括：

分别根据所述随机人像训练集中的图像及其对应的所述第一蒙版和所述人像描述词、根据所述目标人像训练集中的图像及其对应的所述第二蒙版和所述背景描述词对初始Lora模型进行训练，得到所述第二Lora模型。

4.根据权利要求1所述的肖像生成模型训练方法，其特征在于，所述利用所述目标风格训练集训练得到第三Lora模型之前，包括：

对所述目标风格训练集中的图像进行描述词抽取，得到各图像对应的描述词；

所述利用所述目标风格训练集训练得到第三Lora模型，包括：

根据所述目标风格训练集中的图像及其对应的所述描述词对初始Lora模型进行训练，得到所述第三Lora模型。

5.根据权利要求1所述的肖像生成模型训练方法，其特征在于，所述获取目标人像训练集、随机人像训练集和目标风格训练集，还包括：

分别对所述目标人像训练集、所述随机人像训练集和所述目标风格训练集中的图像进行方向校准并将尺寸调整为预设尺寸。

6.根据权利要求5所述的肖像生成模型训练方法，其特征在于，所述方向校准的过程，包括：

根据所述左眼坐标和所述右眼坐标确定双眼连线方向；

根据所述双眼连线方向与预设方向之间的差异得到旋转角度；

根据所述旋转角度对所述待校准图像进行旋转。

7.根据权利要求1所述的肖像生成模型训练方法，其特征在于，所述将所述第三Lora模型、所述第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型，包括：

根据预设权重，对所述第三Lora模型、所述第四Lora模型的模型参数进行加权求和；

将加权求和所得到的权重参数与所述图像扩散模型的权重参数求和，得到所述肖像生成模型。

8.一种肖像生成模型训练装置，其特征在于，包括：

第一训练模块，用于利用所述目标人像训练集训练得到第一Lora模型；所述第一Lora模型用于生成与所述目标人像训练集的背景区域和人像区域均匹配的图像；

第二训练模块，用于利用所述目标人像训练集和所述随机人像训练集训练得到第二Lora模型；所述第二Lora模型用于生成与所述目标人像训练集的背景区域匹配但人像区域随机的图像；

第三训练模块，用于利用所述目标风格训练集训练得到第三Lora模型；所述第三Lora模型用于生成与所述目标风格训练集的背景区域和人像区域均匹配的图像；

差值模型生成模块，用于根据所述第一Lora模型与所述第二Lora模型之间的模型参数差异，得到第四Lora模型；

融合模块，用于将所述第三Lora模型、所述第四Lora模型的模型参数与图像扩散模型的模型参数融合，得到肖像生成模型。

9.一种计算机设备，其特征在于，包括一个或多个处理器，以及存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1-7任一项所述的肖像生成模型训练方法的步骤。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1-7任一项所述的肖像生成模型训练方法的步骤。