CN114120413A

CN114120413A - 模型训练方法、图像合成方法、装置、设备及程序产品

Info

Publication number: CN114120413A
Application number: CN202111436909.8A
Authority: CN
Inventors: 尚太章; 颜剑锋; 刘家铭; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-01

Abstract

本公开提供一种模型训练方法、图像合成方法、装置、设备及程序产品，涉及人工智能技术领域，具体涉及深度学习、计算机视觉技术领域，可应用于人脸图像处理、人脸图像识别等场景下，所述方法包括：获取训练数据集，训练数据集中包括第一图像、第二图像和第一目标图像；利用训练数据集对预设的初始模型进行训练，得到目标模型。这种实施方式中，能够训练得到结构简单的目标模型，该目标模型能够学习到换脸模型和清晰度转换模型的能力，因此，利用本公开训练方法得到的目标模型进行换脸处理时，既能够实现换脸和提高清晰度的目的，又能够降低处理时长以及对算力的要求。

Description

模型训练方法、图像合成方法、装置、设备及程序产品

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、计算机视觉技术领域，可应用于人脸图像处理、人脸图像识别等场景下，尤其涉及一种模型训练方法、图像合成方法、装置、设备及程序产品。

背景技术

在图像处理领域中，存在一种人脸属性编辑的技术，该技术涉及到很多不同的编辑内容，比如去掉或者添加眼镜，去掉或者添加刘海，发色编辑，五官编辑，妆容编辑。

有一种比较特殊的编辑类别为换脸任务。换脸指的是把一个人的图片作为背景图，把另一个人的图片作为人脸图。换脸的目的是通过算法对背景图和人脸图进行处理，得到合成图，合成图具有背景图中的姿态，表情，光照等信息；同时具有人脸征图中的人脸特征信息。

然而，一般换脸模型的结构较为复杂，进行换脸处理时推理时间较长，生成高清晰度的合成图像的时间较长。

发明内容

本公开提供了一种模型训练方法、图像合成方法、装置、设备及程序产品，从而降低对图像进行换脸时所需要的时长。

根据本公开的第一方面，提供了一种模型训练方法，包括：

获取训练数据集，所述训练数据集中包括第一图像、第二图像和第一目标图像；所述第一图像和所述第二图像均包括人脸图像，所述第一目标图像是先对所述第一图像和所述第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像；

利用所述训练数据集对预设的初始模型进行训练，得到目标模型；其中，所述目标模型用于输出与第一图像和第二图像对应的第二目标图像；其中，所述目标模型的层结构与所述换脸模型的层结构相同；所述目标模型中任一层的通道数量，小于所述换脸模型中与所述任一层对应的层的通道数量。

根据本公开的第二方面，提供了一种图像合成方法，包括：

获取第一图像和第二图像，所述第一图像和所述第二图像均包括人脸图像；

将所述第一图像和第二图像输入目标模型，得到第二目标图像；其中，所述第二目标图像中包括第一图像的背景特征信息和所述第二图像中的人脸特征信息；

所述目标模型是根据如第一方面所述的方法训练得到的。

根据本公开的第三方面，提供了一种模型训练装置，包括：

数据获取单元，用于获取训练数据集，所述训练数据集中包括第一图像、第二图像和第一目标图像；所述第一图像和所述第二图像均包括人脸图像，所述第一目标图像是先对所述第一图像和所述第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像；

训练单元，用于利用所述训练数据集对预设的初始模型进行训练，得到目标模型；其中，所述目标模型用于输出与第一图像和第二图像对应的第二目标图像；其中，所述目标模型的层结构与所述换脸模型的层结构相同；所述目标模型中任一层的通道数量，小于所述换脸模型中与所述任一层对应的层的通道数量。

根据本公开的第四方面，提供了一种图像合成装置，包括：

图像获取单元，用于获取第一图像和第二图像，所述第一图像和所述第二图像均包括人脸图像；

处理单元，用于将所述第一图像和第二图像输入目标模型，得到第二目标图像；其中，所述第二目标图像中包括第一图像的背景特征信息和所述第二图像中的人脸特征信息；

所述目标模型是根据如第三方面所述的装置训练得到的。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面或第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面或第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。

本公开提供的模型训练方法、图像合成方法、装置、设备及程序产品，能够训练得到结构简单的目标模型，且该目标模型能够学习到换脸模型和清晰度转换模型的能力，因此，利用本方案训练得到的目标模型进行换脸处理时，既能够实现换脸和提高清晰度的目的，又能够降低处理时长以及对算力的要求。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为一示例性实施例示出的换脸流程示意图；

图2为本公开一示例性实施例示出的模型训练方法的流程示意图；

图3为本公开一示例性实施例示出的模型训练过程示意图；

图4为本公开另一示例性实施例示出的模型训练方法的流程示意图；

图5A为本公开一示例性实施例示出的第一模型对图像进行处理的过程示意图；

图5B为图5A中的AAD Resblk的结构图；

图6为本公开一示例性实施例示出的模型训练过程示意图；

图7为本公开一示例性实施例示出的模型训练装置的结构示意图；

图8为本公开另一示例性实施例示出的模型训练装置的结构示意图；

图9为本公开一示例性实施例示出的图像合成装置的结构示意图；

图10是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为一示例性实施例示出的换脸流程示意图。

如图1所示，获取第一图像11和第二图像12，第一图像11和第二图像12中均包括人脸部分。将第一图像11和第二图像12输入预先训练好的换脸模型13中，换脸模型13能够输出合成图像14。

合成图像14中包括第一图像11的背景特征信息，例如包括第一图像11中的背景，以及第一图像11中的面部表情、姿态等信息，还可以包括第二图像12的人脸特征信息，具体包括第二图像12的人脸辨识信息。通过该人脸辨识信息能够确定出与人脸对应的用户。

这些背景特征信息中具体可以包括人脸的姿态、表情等信息，还可以包括人脸以外的背景部分。

由于换脸算法不是单独一个属性的编辑，这种整个人脸的编辑具有比较大的难度，往往模型比较大。所以通常训练换脸模型13时，一般是采用256的大小进行训练，这种训练方式，可以加快训练的速度，但是应用该训练模型13时，该训练模型13输出的合成图像14的清晰度往往不够。

因此，在进行换脸处理时还需要设置清晰度转换模型15。将合成图像14输入清晰度转换模型15，清晰度转换模型15输出清晰度较高的目标图像16。

由于对图像进行处理时，需要通过换脸模型13、清晰度转换模型15分别进行推理，换脸模型13又比较大，就导致对第一图像和第二图像进行处理得到清晰度较高的目标图像时，耗时较长，且需要的算力也比较高。

为了解决上述技术问题，本公开提供的方案中设置结构相较于换脸模型小的预设模型，训练该预设模型学习换脸模型和清晰度转换模型的能力，进而得到较小的目标模型。利用该目标模型进行换脸处理时，既能够实现换脸和提高清晰度的目的，又能够降低处理时长以及对算力的要求。

图2为本公开一示例性实施例示出的模型训练方法的流程示意图。

如图2所示，本公开提供的模型训练方法，包括：

步骤201，获取训练数据集，训练数据集中包括第一图像、第二图像和第一目标图像；第一图像和第二图像均包括人脸图像，第一目标图像是利用换脸模型先对第一图像和第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像。

其中，本公开提供的方法由具备计算能力的电子设备执行，该电子设备例如可以是服务器。可以在该服务器中设置训练数据集，利用这些训练数据集训练目标模型，该目标模型具有换脸和提高图像清晰度的功能。

具体的，训练数据集中包括第一图像、第二图像以及与第一图像和第二图像对应的第一目标图像。具体可以根据该第一图像和第二图像进行处理，得到第一目标图像。

进一步的，第一图像和第二图像中均包括人脸图像，人脸所属的用户可以相同，也可以不同。

实际应用时，可以预先设置换脸模型，该换脸模型具有对图像进行换脸的功能。可以将第一图像和第二图像输入换脸模型，得到合成图像。例如，得到的合成图像中包括第一图像的背景特征信息，包括第二图像的人脸特征信息。

其中，还可以对合成图像进行清晰度提高处理，得到第一目标图像。可以利用第一图像、第二图像和与该第一图像和第二图像对应的第一目标图像对模型进行训练，得到目标模型。

步骤202，利用训练数据集对预设的初始模型进行训练，得到目标模型；其中，目标模型用于输出与第一图像和第二图像对应的第二目标图像；其中，目标模型的层结构与换脸模型的层结构相同；目标模型中任一层的通道数量，小于换脸模型中与任一层对应的层的通道数量。

具体的，还可以预先设置初始模型，该初始模型的层结构与换脸模型的层结构相同，例如，换脸模型中包括N层特征提取层，则初始模型中也包括N层特征提取层。换脸模型中包括1层全连接层，则初始模型中也包括1层全连接层。

进一步的，初始模型中任一层的通道数量，均小于换脸模型中与任一层对应的层的通道数量。例如，在初始模型中的第5层的通道数量为S5，在换脸模型中的第5层的通道数量为E5，则S5小于E5；在初始模型中的第7层的通道数量为S7，在换脸模型中的第7层的通道数量为E7，则S7小于E5。

因此，对尺寸小的初始模型进行训练得到的目标模型，尺寸也比换脸模型小。且该目标模型具有换脸和清晰度提高处理的功能，从而利用目标模型进行换脸处理时能够节约推理耗时，并降低推理时所需的算力。

具体的，可以将第一图像和第二图像输入预设模型，由预设模型输出处理后的输出图像，再利用与第一图像和第二图像对应的第一目标图像以及该输出图像构建损失函数，并利用该损失函数优化预设模型，通过多次迭代能够得到满足要求的目标模型。

这种实施方式中，将第一图像和第二图像作为训练模型时的输入数据，将第一目标图像作为该输入数据的标签，进而能够利用第一图像、第二图像和第一目标图像对预设模型进行训练，得到目标模型。

图3为本公开一示例性实施例示出的模型训练过程示意图。

如图3所示，可以设置换脸模型31、清晰度转换模型32，将第一图像P31和第二图像P32输入换脸模型31，换脸模型31输出合成图像P33，并将合成图像P33输入清晰度转换模型32，得到第一目标图像P34。

还可以设置初始模型33，将第一图像P31和第二图像P32输入该初始模型33，得到处理图像P35。

利用第一目标图像P34和处理图像P35构建损失函数，对初始模型33进行优化调整，经过对初始模型33多次迭代，能够得到目标模型。

本公开提供的模型训练方法，包括：获取训练数据集，训练数据集中包括第一图像、第二图像和第一目标图像；第一图像和第二图像均包括人脸图像，第一目标图像是利用换脸模型先对第一图像和第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像；利用训练数据集对预设的初始模型进行训练，得到目标模型；其中，目标模型用于输出与第一图像和第二图像对应的第二目标图像；其中，目标模型的层结构与换脸模型的层结构相同；目标模型中任一层的通道数量，小于换脸模型中与任一层对应的层的通道数量。本公开提供的模型训练方法，能够训练得到结构简单的目标模型，且该目标模型能够学习到换脸模型和清晰度转换模型的能力，因此，利用本方案训练得到的目标模型进行换脸处理时，既能够实现换脸和提高清晰度的目的，又能够降低处理时长以及对算力的要求。

图4为本公开另一示例性实施例示出的模型训练方法的流程示意图。

如图4所示，本公开提供的模型训练方法，包括：

步骤401，获取第一训练数据集，第一训练数据集中包括第三图像和第四图像；第三图像和第四图像均包括人脸图像。

其中，还可以预先设置第一训练数据集，第一训练数据集中包括多个图像，图像中包括人脸图像。具体可以包括第三图像和第四图像。

具体的，电子设备可以获取第一训练数据集，从而利用第一训练数据集训练出具有换脸功能的换脸模型。

一种可选的实施方式中，第一训练数据集与用于训练初始模型的训练数据集可以相同，例如，第一图像与第三图像可以相同，第二图像与第四图像可以相同。

步骤402，将第三图像和第四图像输入预设的第一模型中，得到第一合成图像；第一合成图像中包括第三图像的背景特征信息和第四图像中的人脸特征信息。

进一步的，还可以预先设置第一模型，利用第三图像和第四图像对第一模型进行训练，得到换脸模型。该第一模型的可以采用Faceshifter(一种深度学习模型)架构。

其中，可以将第三图像和第四图像输入预设的第一模型中，第一模型能够提取第三图像中的特征，以及第四图像中的特征，并基于这些特征生成第一合成图像。

每次迭代过程可以获取多个第三图像和第四图像的组合，进而根据多组图像训练第一模型。

图5A为本公开一示例性实施例示出的第一模型对图像进行处理的过程示意图。

图5B为图5A中的AAD Resblk的结构图。

如图5所示，第一模型中包括背景信息提取模块51，以及人脸信息提取模块52，还包括合成模块53。

第三图像和第四图像输入到第一模型中以后，背景信息提取模块51对第三图像进行处理，提取第三图像中的背景特征信息；人脸信息提取模块52对第四图像进行处理，提取第四图像中的人脸特征信息。

其中，背景信息提取模块51中包括多个卷积层，通过这些卷积层能够提取第三图像的背景信息特征。不同卷积层提取的特征维度可以不同。一种可选的实施方式中，可以将第三图像的多个维度的背景信息特征输入到合成模块53中，使得合成模块53对多个维度的背景信息特征与第四图像的人脸特征信息进行融合处理。

具体的，人脸信息提取模块52中也可以包括卷积层，用于在第四图像中提取人脸特征信息。

进一步的，背景信息提取模块51、脸信息提取模块52中的卷积层结构，可以基于已有的卷积结构实现。

合成模块53对背景特征信息和人脸特征信息进行处理，得到第一合成图像。

其中，背景信息提取模块51能够提取第三图像的多个尺寸的背景特征信息，并将这些背景特征信息传输给合成模块53。

具体的，合成模块53对人脸特征信息和多个尺寸的背景特征信息进行合成处理，得到第一合成图像。

这种实施方式中，能够利用包括背景信息提取模块、人脸信息提取模块、合成模块的第一模型对第三图像和第四图像进行处理，得到合成图像，进而可以对这种结构的第一模型进行训练，得到换脸模型。

合成模块53中也可以包括多个卷积层的结构，背用于对输入该合成模块53的景信息特征和人脸特征信息进行融合处理，具体的卷积结构可以基于已有的卷积结构实现。

步骤403，根据第一合成图像、第三图像和第四图像，优化第一模型。

进一步的，电子设备可以根据第一合成图像、第三图像，确定出这两个图像之间的背景特征的差异，进而可以根据该差异优化第一模型，还可以根据第一合成图像、第四图像，确定出这两个图像之间的人脸特征的差异，进而可以根据该差异优化第一模型。通过多次迭代优化第一模型中的权重参数，使得第一模型生成的合成图像既包括第三图像中的背景特征，又包括第四图像中的人脸特征。

可以重复执行步骤402-403，直到满足第二预设条件为止，得到换脸模型，该换脸模型用于对输入的两幅图像进行处理，生成合成图像。

在步骤403之后，可以再次执行步骤402。

步骤404，将满足第二预设条件时得到的优化后的第一模型，确定为换脸模型。

当满足第二预设条件时，能够得到满足要求的换脸模型。通过这种实现方式，可以训练得到具备换脸功能的换脸模型，进而可以训练结构较为简单的初始模型，使其能够学习到该换脸模型的功能。

第二预设条件例如可以是迭代次数达到预设的次数时停止迭代，还可以是第一合成图像与第三图像之间的背景特征差异较小、第一合成图像与第四图像之间的人脸特征差异较小时，停止对第一模型进行训练。

本公开提供的方法中，可以根据第一合成图像、第三图像、第四图像构建多个损失函数，从而能够从多个角度优化第一模型，得到换脸模型，使得换脸模型能够合成更准确的换脸图像，进而使得目标模型能够学习到更准确的对图像进行换脸的能力。

其中，可以根据第一合成图像、第三图像，确定第一合成图像与第三图像之间的背景特征损失函数值；背景特征损失函数值用于表征第一合成图像的背景特征和第三图像之间的背景特征之间的差异。

具体的，电子设备中还可以设置背景特征提取模型，基于该模型提取第一合成图像中的合成背景特征，并基于该模型提取第三图像中的第三背景特征，进而可以根据合成背景特征、第三背景特征确定第一合成图像与第三图像之间的背景特征损失函数值。

进一步的，背景特征损失函数值表征第一合成图像的背景特征和第三图像的背景特征之间的差异。若第一模型的合成效果较好，那么第一合成图像中的背景特征与第三图像的背景特征之间较为相似。因此，可以根据第一合成图像的背景特征和第三图像的背景特征之间的差异优化第一模型，使得第一模型能够将第三图像的背景特征合成到第一合成图像中。

实际应用时，电子设备中还可以设置人脸特征提取模型，基于该模型提取第一合成图像中的合成人脸特征，并基于该模型提取第三图像中的第三人脸特征，进而可以根据合成人脸特征、第三人脸特征确定第一合成图像与第三图像之间的人脸特征损失函数值。

实际应用时，人脸特征损失函数值表征第一合成图像的人脸特征和第三图像的人脸特征之间的差异。若第一模型的合成效果较好，那么第一合成图像中的人脸特征与第三图像的人脸特征之间较为相似。因此，可以根据第一合成图像的人脸特征和第三图像的人脸特征之间的差异优化第一模型，使得第一模型能够将第三图像的人脸特征合成到第一合成图像中。

其中，本公开提供的方法中，还可以设置第一真伪辨认模型。该第一真伪辨认模型用于输出图像的辨认结果，该辨认结果用于表征图像是真实图像或合成图像。例如，将一张真图输入到第一真伪辨认模型，第一真伪辨认模型对该真图进行识别，能够输出辨认结果，例如输出真图的辨认结果。还可以将一张合成图输入到第一真伪辨认模型，第一真伪辨认模型对该合成图进行识别，能够输出辨认结果，例如输出合成图的辨认结果。

本公开提供的方案中，利用第一真伪辨认模型对第一合成图像进行识别，从而可以基于第一合成图像的辨认结果对第一模型进行优化，使得第一模型能够输出更逼真的第一合成图像。

具体的，可以将第一合成图像输入预设的第一真伪辨认模型，并根据第一真伪辨认模型输出的辨认结果确定真实性损失函数值。真实性损失函数值用于表征第一合成图像的辨认结果与真图辨认结果之间的差异，例如，真实性损失函数表征第一合成图像很像真实的图像，再例如，真实性损失函数表征第一合成图像与真实的图像相差很多。通过真实性损失函数优化第一模型，能够使第一模型输出的第一合成图像与真实图像越来越接近。

进一步的，根据背景特征损失函数值、人脸特征损失函数值和真实性损失函数值，优化第一模型。电子设备可以结合确定的背景特征损失函数值、人脸特征损失函数值和真实性损失函数值，对第一模型进行优化处理。例如，可以将背景特征损失函数值、人脸特征损失函数值和真实性损失函数值相加，根据该总和进行梯度回传，从而调整第一模型的权重参数。

实际应用时，还可以获取真实图像；从而利用真实图像和第一模型输出的第一合成图像，训练得到第一真伪辨认模型。

图6为本公开一示例性实施例示出的模型训练过程示意图。

如图6所示，设置有第一模型61，还设置有第一真伪辨认模型62。将第三图像P61和第四图像P62输入第一模型61，得到第一合成图像P63。

如图6中虚线所示出的数据传输方向，还可以获取真实图像P64，并将第一合成图像P63和真实图像P64输入第一真伪辨认模型62，第一真伪辨认模型62能够输出第一合成图像P63的辨认结果以及真实图像P64的辨认结果，第一合成图像P63的标签为合成图像，真实图像P64的标签为真实图像，因此，可以根据这两幅图像的标签和辨认结果对第一真伪辨认模型62进行优化。

其中，如图6中实线所示出的数据传输方向，还可以将第一合成图像P63输入第一真伪辨认模型62，得到辨认结果。具体可以先利用第一真伪辨认模型62对第一合成图像P63进行处理得到辨认结果，也可以先利用第一合成图像P63和真实图像P64对第一真伪辨认模型62进行训练。

通过这种实现方式，能够利用第一模型输出的第一合成图像训练第一真伪辨认模型，该第一真伪辨认模型还用来识别第一合成图像的真伪结果，从而可以对第一模型和第一真伪辨认模型依次进行训练，得到能够输出更加真实合成图像的目标模型。

本公开提供的方案中，还可以重复执行下述步骤405、406，直到满足第三预设条件为止，得到清晰度转换模型，该清晰度转换模型用于对输入的图像进行处理，输出清晰度更高的第一目标图像。

步骤405，获取第二训练数据集，第二训练数据集中包括第五图像。

其中，还可以预先设置第二训练数据集，第二训练数据集中包括多个图像，图像中可以包括人脸部分。具体可以包括第五图像。

具体的，电子设备可以获取第二训练数据集，从而利用第二训练数据集训练出具有提高图像清晰度功能的清晰度转换模型。

进一步的，可以对第五图像进行降低清晰度的处理，进而得到训练图像。从而利用训练图像和第五图像训练第二模型，得到清晰度转换模型。

步骤406，利用训练图像和第五图像优化预设的第二模型。

步骤407，当满足第三预设条件时得到的优化后的第二模型，确定为清晰度转换模型，清晰度转换模型用于对合成图像进行处理得到第一目标图像。

进一步的，还可以预先设置第二模型，利用第五图像对第二模型进行训练，得到清晰度转换模型。该第二模型的可以采用PSFRGAN(Progressive Semantic-Aware StyleTransformation for Blind Face Restoration，渐进式语义感知样式转换)架构。

其中，可以将采样后的训练图像输入预设的第二模型中，第二模型能够对该训练图像进行处理，输出高清晰度的图像。

具体的，还可以根据第二模型输出的图像与第五图像对第二模型进行优化处理，可以通过多次迭代得到目标模型。

每次迭代过程可以获取多个第五图像，进而根据多个图像训练第二模型。

这种实施方式中，能够利用第五图像训练第二模型，进而得到清晰度转换模型，进而可以训练结构较为简单的初始模型，使其能够学习到该清晰度转换模型的功能。

电子设备中还设置有人像分割模型，可以利用人像分割模型对训练图像进行处理，得到人像分割图。人像分割图中各个像素点的值可以是1或者0，0用于表征该像素点不属于人像部分，1用于表征该像素点属于人像部分。

其中，电子设备可以根据训练图像和人像分割图生成输入数据，训练图像是三通道的图像，人像分割图是一通道的图像，因此，可以拼接训练图像和人像分割图，得到四通道的输入数据。

具体的，电子设备将输入数据输入第二模型中，得到输出图像，再根据第五图像、输出图像优化第二模型，得到优化后的第二模型。

这种实施方式中，输入第二模型的输入数据中包括训练图像，而训练图像是清晰度较低的图像，因此，可以将第五图像作为该输入数据的标签，训练第二模型。

在输入数据中还包括人像分割图，通过这种方式能够使第二模型对输入数据进行处理，从而使第二模型能够对训练图像中的人像区域和背景区域进行有针对性的处理，再输出高清晰度的图像。

这种实施方式中，能够结合训练图像和该训练图像的人像分割图，对第二模型进行训练，得到能够对包括人像的图像进行清晰度转换的模型。

进一步的，电子设备可以根据第五图像、第二模型输出的图像，确定出这两个图像之间的差异，进而可以根据该差异优化第二模型。通过多次迭代优化第二模型中的权重参数，使得第二模型输出的图像清晰度较高。

在步骤406之后，若不满足第三预设条件，则可以再次执行步骤406。

当满足第三预设条件时，能够得到满足要求的清晰度转换模型。通过这种实现方式，可以训练得到具备清晰度转换功能的模型，进而可以训练结构较为简单的初始模型，使其能够学习到该清晰度转换功能。

第三预设条件例如可以是迭代次数达到预设的次数时停止迭代，还可以是第五图像与第二模型的输出图像之间的差异较小时，停止对第二模型进行训练。

本公开提供的方法中，可以根据第五图像、输出图像构建多个损失函数，从而能够从多个角度优化第二模型，得到清晰度转换模型，使得清晰度转换模型能够输出清晰度更高的第一目标图像，进而使得目标模型能够学习到对图像进行清晰度转换的能力。

其中，可以根据第五图像、输出图像，确定第五图像和输出图像之间的图像损失函数值；图像损失函数值用于表征第五图像与输出图像之间的差异。

可以比对第五图像与输出图像，若第二模型的清晰度转换效果较好，那么其输出的输出图像与第五图像较为接近，因此，可以确定第五图像与输出图像之间的差异，并根据该差异优化第二模型，使得第二模型能够输出与第五图像更加接近的输出图像。

将所述输出图像输入预设的第二真伪辨认模型，并根据所述第二真伪辨认模型输出的辨认结果确定真实性损失函数值；所述辨认结果用于表征所述输出图像是否为真图的结果，所述真实性损失函数值用于表征所述输出图像与真图辨认结果之间的差异；

其中，本公开提供的方法中，还可以设置第二真伪辨认模型。该第二真伪辨认模型用于对输出图像进行处理，输出辨认结果，该辨认结果用于表征图像是真实图像或合成图像。例如，将一张真图输入到第二真伪辨认模型，第二真伪辨认模型对该真图进行识别，能够输出辨认结果，例如输出真图的辨认结果。还可以将一张合成图输入到第二真伪辨认模型，第二真伪辨认模型对该合成图进行识别，能够输出辨认结果，例如输出合成图的辨认结果。

本公开提供的方案中，利用第二真伪辨认模型对输出图像进行识别，从而可以基于输出图像的辨认结果对第二模型进行优化，使得第二模型能够输出更逼真的输出图像。

具体的，可以将输出图像输入预设的第二真伪辨认模型，并根据第二真伪辨认模型输出的辨认结果确定真实性损失函数值。真实性损失函数值用于表征输出图像的辨认结果与真图辨认结果之间的差异，例如，真实性损失函数表征输出图像很像真实的图像，再例如，真实性损失函数表征输出图像与真实的图像相差很多。通过真实性损失函数优化第二模型，能够使第二模型输出的输出图像与真实图像越来越接近。

进一步的，电子设备中还可以设置风格信息提取模型，基于该模型提取输出图像中的风格信息，并基于该模型提取第五图像中的风格信息，进而可以根据输出图像的风格信息、第五图像的风格信息确定风格损失函数值。

进一步的，风格损失函数值表征输出图像的风格信息和第五图像的风格信息之间的差异。若第二模型的清晰度转换效果好，那么两个图像中的风格信息应当一致。因此，输出图像中的风格信息与第五图像的风格信息之间较为相似。因此，可以根据输出图像的风格信息和第五图像的风格信息之间的差异优化第二模型，使得第二模型能够输出的图像与原图风格一致。

进一步的，电子设备根据图像损失函数值、真实性损失函数值和风格损失函数值，优化第二模型。电子设备可以结合确定的图像损失函数值、真实性损失函数值和风格损失函数值，对第二模型进行优化处理。例如，可以将图像损失函数值、真实性损失函数值和风格损失函数值相加，根据该总和进行梯度回传，从而调整第二模型的权重参数。

实际应用时，还可以获取真实图像；从而利用真实图像和第二模型输出的输出图像，训练得到第二真伪辨认模型。具体训练方式与第一真伪辨认模型的训练方式相同，不再赘述。

上述实施例中，训练换脸模型和清晰度转化模型的顺序可以调整，可以先训练换脸模型，也可以先训练清晰度转化模型。

步骤408，获取训练数据集，训练数据集中包括第一图像、第二图像和第一目标图像；第一图像和第二图像均包括人脸图像，第一目标图像是先对第一图像和第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像。

步骤408与步骤201的实现方式类似，不再赘述。

步骤409，将训练数据集中的第一图像和第二图像输入初始模型，得到处理图像。

其中，初始模型的层结构与换脸模型的层结构相同，初始模型中任一层的通道数量，均小于换脸模型中与任一层对应的层的通道数量。例如，初始模型中层的通道数量可以是换脸模型中层的通道数量的四分之一，通过这种方式得到的目标模型，体积也是换脸模型的四分之一，但是具有换脸功能和清晰度转换功能，从而使用该目标模型对图像进行处理的耗时会较短。

具体的，可以将训练数据集中的第一图像和第二图像输入初始模型，该初始模型可以对第一图像和第二图像进行处理，得到处理图像。处理图像中包括第一图像的背景特征信息，还包括第二图像中的人脸特征信息。

与第一图像和第二图像对应的第一目标图像中，包括第一图像的背景特征信息，还包括第二图像中的人脸特征信息。若预设模型输出的处理图像较为准确，则该处理图像与第一目标图像中的信息应当相同或相近。

步骤410，根据处理图像以及第一目标图像，优化初始模型。

步骤411，将满足第一预设条件时得到的优化后的初始模型，确定为目标模型。

若不满足第一预设条件，则可以继续执行步骤409-410，优化初始模型。

进一步的，可以确定处理图像和第一目标图像之间的差异，进而基于这一差异调整初始模型，使得初始模型能够输出与第一目标图像相近的处理图像。例如，可以根据处理图像和第一目标图像构建损失函数，再基于该构建损失函数优化初始模型，从而得到优化后的初始模型。

进一步的，电子设备可以根据处理图像、第一目标图像，确定出这两个图像之间的图像特征的差异，进而可以根据该差异优化预设模型，还可以根据处理图像、第一目标图像，确定出这两个图像之间的深度特征的差异，进而可以根据该差异优化第二模型，还可以根据处理图像、第一目标图像，确定出这两个图像之间的人脸特征的差异，进而可以根据该差异优化第二模型。通过多次迭代优化第二模型中的权重参数，使得第二模型输出的处理图像与第一目标图像更加相近。

当满足第一预设条件时，能够得到满足要求的目标模型。通过这种实现方式，可以训练得到具备换脸功能和清晰度转换功能的目标模型，该模型能够继承换脸模型和清晰度转换模型的能力。

第一预设条件例如可以是迭代次数达到预设的次数时停止迭代，还可以是处理图像和第一目标图像之间的差异较小时，停止对预设模型进行训练。

实际应用时，电子设备可以根据处理图像以及与第一图像和第二图像对应的第一目标图像，构建多个损失函数，从而能够从多个角度优化预设模型，得到目标模型，使目标模型能够学习到换脸模型的换脸功能，以及清晰度转换模型的清晰度转换功能。

其中，电子设备可以根据处理图像、第一目标图像，确定处理图像与第一目标图像之间的图像损失函数值，该图像损失函数值用于表征处理图像与第一目标图像之间的差异。

可以比对处理图像与第一目标图像，若预设模型继承了换脸模型的换脸功能，以及清晰度转换模型的清晰度转换功能，那么其输出的处理图像与第一目标图像较为接近，因此，可以确定处理图像与第一目标图像之间的差异，并根据该差异优化预设模型，使得第二模型能够输出与第一目标图像更加接近的处理图像。

电子设备还可以根据处理图像、第一目标图像，确定处理图像与第一目标图像之间的深度特征损失函数值。深度特征损失函数值用于表征处理图像的深度特征、与第一目标图像的深度特征之间的差异。

其中，本公开提供的方法中，电子设备可以提取第一目标图像的深度特征，还可以提取处理图像的深度特征，进而比对这两个深度特征，得到深度特征损失函数值。通过该深度特征损失函数值优化预设模型，能够使该模型输出的处理图像与第一目标图像更加接近。

具体的，可以将处理图像输入预设的特征提取网络，得到处理图像的第一深度特征；将第一目标图像输入特征提取网络，得到第一目标图像的第二深度特征；根据第一深度特征、第二深度特征，确定处理图像与第一目标图像之间的深度特征损失函数值。

进一步的，电子设备中还可以设置特征提取网络，可以利用特征提取网络提取处理图像的第一深度特征，利用特征提取网络提取第一目标图像的第二深度特征。这两个深度特征可以是向量形式的数据，电子设备可以根据第一深度特征、第二深度特征，构建深度特征损失函数，从而得到处理图像与第一目标图像之间的深度特征损失函数值。

实际应用时，电子设备还可以根据处理图像、第一目标图像，确定处理图像与第一目标图像之间的人脸特征损失函数值。人脸特征损失函数值用于表征处理图像的人脸特征，与第一目标图像的人脸特征之间的差异。

其中，电子设备中还可以设置人脸特征提取网络，基于该网络提取处理图像中的人脸特征，并基于该网络提取第一目标图像中的人脸特征，进而可以根据处理图像的人脸特征、第一目标图像的人脸特征确定处理图像与第一目标图像之间的人脸特征损失函数值。

具体的，人脸特征损失函数值表征处理图像的人脸特征和第一目标图像的人脸特征之间的差异。若预设模型学习到了换脸模型的换脸功能，以及清晰度转换模型的清晰度转换功能，则预设模型输出的处理图像与第一目标图像相同或相似。因此，可以根据处理图像的人脸特征和第一目标图像的人脸特征之间的差异优化预设模型，使得预设模型能够根据第一图像和第二图像，生成与第一目标图像更加相近的处理图像。

进一步的，可以将处理图像输入预设的人脸特征提取网络，得到处理图像的第一人脸特征；将第一目标图像输入人脸特征提取网络，得到第二人脸特征；根据第一人脸特征、第二人脸特征，确定处理图像与第一目标图像之间的人脸特征损失函数值。

通过设置人脸特征提取网络能够更加准确的提取处理图像和第一目标图像的人脸特征，并且通过同一个网络提取人脸特征，能够更准确的比对第一人脸特征和第二人脸特征。

可以预先设置损失函数，并根据第一人脸特征、第二人脸特征确定人脸损失函数值，从而可以利用该值优化预设模型，使得预设模型输出的处理图像中的人脸特征与第一目标图像中的人脸特征更加相近。

根据处理图像与第一目标图像之间的图像损失函数值、深度特征损失函数值以及人脸损失函数值，优化初始模型，得到优化后的初始模型。

其中，可以根据处理图像与第一目标图像之间的图像损失函数值、深度特征损失函数值以及人脸损失函数值，确定第一损失函数总值；利用第一损失函数总值优化初始模型，得到优化后的初始模型。

进一步的，电子设备可以根据图像损失函数值、深度特征损失函数值以及人脸损失函数值，优化预设模型。具体可以根据图像损失函数值、深度特征损失函数值以及人脸损失函数值确定第一损失函数总值，再根据第一损失函数总值进行梯度回传，从而调整预设模型的权重参数。

实际应用时，电子设备可以将图像损失函数值、深度特征损失函数值以及人脸损失函数值的总和作为第一损失函数总值，进而根据第一损失函数总值调整预设模型中的权重参数。通过对预设模型进行多次迭代调整，能够得到目标模型。

通过这种方式能够从多个角度调整预设模型中的权重参数，使得该预设模型输出的处理图像与第一目标图像越来越接近。

一种可选的实施方式中，本公开还提供一种图像合成方法，包括：

获取第一图像和第二图像，所述第一图像和所述第二图像均包括人脸图像。

将第一图像和第二图像输入目标模型，得到第二目标图像；其中，第二目标图像中包括第一图像的背景特征信息和第二图像中的人脸特征信息。

该目标模型是根据上述任一项的方法训练得到的

通过这种方式对第一图像和第二图像进行处理，能够节约推理时间，并且对算里要求也不高。

图7为本公开一示例性实施例示出的模型训练装置的结构示意图。

如图7所述，本公开提供的模型训练装置700，包括：

数据获取单元710，用于获取训练数据集，所述训练数据集中包括第一图像、第二图像和第一目标图像；所述第一图像和所述第二图像均包括人脸图像，所述第一目标图像是利用换脸模型先对所述第一图像和所述第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像；

训练单元720，用于利用所述训练数据集对预设的初始模型进行训练，得到目标模型；其中，所述目标模型用于输出与第一图像和第二图像对应的第二目标图像；其中，所述目标模型的层结构与所述换脸模型的层结构相同；所述目标模型中任一层的通道数量，小于所述换脸模型中与所述任一层对应的层的通道数量。

本公开提供的模型训练装置，能够训练得到结构简单的目标模型，且该目标模型能够学习到换脸模型和清晰度转换模型的能力，因此，利用本方案训练得到的目标模型进行换脸处理时，既能够实现换脸和提高清晰度的目的，又能够降低处理时长以及对算力的要求。

图8为本公开另一示例性实施例示出的模型训练装置的结构示意图。

如图8所述，本公开提供的模型训练装置800中，数据获取单元810与图7中所示的数据获取单元710相似，训练单元820与图7中所示的训练单元710相似。

在一种可选的实施方式中，所述训练单元820包括输入模块821和调整模块822：

重复执行下述步骤，直到满足第一预设条件为止：

输入模块821，用于将所述训练数据集中的所述第一图像和所述第二图像输入所述初始模型，得到处理图像；

调整模块822，用于根据所述处理图像以及所述第一目标图像，优化所述初始模型；

所述调整模块822还用于将满足第一预设条件时得到的优化后的初始模型，确定为所述目标模型。

在一种可选的实施方式中，所述调整模块822具体用于：

根据所述处理图像以及所述第一目标图像，确定所述处理图像与所述第一目标图像之间的图像损失函数值、深度特征损失函数值以及人脸特征损失函数值；其中，所述图像损失函数值用于表征所述处理图像与所述第一目标图像之间的差异，所述深度特征损失函数值用于表征所述处理图像的深度特征、与所述第一目标图像的深度特征之间的差异，所述人脸特征损失函数值用于表征所述图像的人脸特征，与所述第一目标图像的人脸特征之间的差异；

根据所述图像损失函数值、深度特征损失函数值以及人脸损失函数值，优化所述初始模型。

在一种可选的实施方式中，所述调整模块822具体用于：

将所述处理图像输入预设的特征提取网络，得到所述处理图像的第一深度特征；将所述第一目标图像输入所述特征提取网络，得到所述第一目标图像的第二深度特征；

根据所述第一深度特征、所述第二深度特征，确定所述处理图像与所述第一目标图像之间的所述深度特征损失函数值。

在一种可选的实施方式中，所述调整模块822用于：

将所述处理图像输入预设的人脸特征提取网络，得到所述处理图像的第一人脸特征；将所述第一目标图像输入所述人脸特征提取网络，得到第二人脸特征；

根据所述第一人脸特征、所述第二人脸特征，确定所述处理图像与所述第一目标图像之间的所述人脸特征损失函数值。

在一种可选的实施方式中，所述调整模块822用于：

根据所述处理图像与所述第一目标图像之间的图像损失函数值、深度特征损失函数值以及人脸损失函数值，确定第一损失函数总值；

利用所述第一损失函数总值优化所述初始模型，得到优化后的初始模型。

在一种可选的实施方式中，还包括换脸模型训练单元830，用于在所述数据获取单元810获取训练数据集之前：

获取第一训练数据集，所述第一训练数据集中包括第三图像和第四图像；所述第三图像和所述第四图像均包括人脸图像；

将所述第三图像和所述第四图像输入预设的第一模型中，得到第一合成图像；所述第一合成图像中包括第三图像的背景特征信息和所述第四图像中的人脸特征信息；

根据所述第一合成图像、所述第三图像和所述第四图像，优化所述第一模型；

将满足第二预设条件时得到的优化后的第一模型，确定为所述换脸模型。

在一种可选的实施方式中，所述换脸模型训练单元830包括：

背景提取模块831，用于根据所述第一模型中的背景信息提取模块对所述第三图像进行处理，提取所述第三图像的背景特征信息；

人脸提取模块832，用于根据所述第一模型中的人脸信息提取模块对所述第四图像进行处理，提取所述第四图像的人脸特征信息；

输出模块833，用于根据所述第一模型中的合成模块对所述第三图像的背景特征信息、所述第四图像的人脸特征信息进行合成处理，得到所述第一合成图像。

在一种可选的实施方式中，所述换脸模型训练单元830包括：

函数构建模块834，用于根据所述第一合成图像、所述第三图像，确定所述第一合成图像与所述第三图像之间的背景特征损失函数值；所述背景特征损失函数值用于表征所述第一合成图像的背景特征和所述第三图像背景特征之间的差异；

所述函数构建模块834，还用于根据所述第一合成图像、所述第四图像，确定所述第一合成图像与所述第四图像之间的人脸特征损失函数值；所述人脸特征损失函数值用于表征所述第一合成图像的人脸特征和所述第三图像的人脸特征之间的差异；

所述函数构建模块834，还用于将所述第一合成图像输入预设的第一真伪辨认模型，并根据所述第一真伪辨认模型输出的辨认结果确定真实性损失函数值；所述辨认结果用于表征所述第一合成图像是否为真图的结果，所述真实性损失函数值用于表征所述第一合成图像的所述辨认结果与真图辨认结果之间的差异；

人脸模型调整模块835，用于根据所述背景特征损失函数值、所述人脸特征损失函数值和所述真实性损失函数值，优化所述第一模型。

在一种可选的实施方式中，还包括辨认模型训练单元840，用于：

获取真实图像；

利用所述真实图像和所述第一模型输出的所述第一合成图像，训练得到所述第一真伪辨认模型。

在一种可选的实施方式中，还包括转换模型训练单元850，用于在所述数据获取单元810获取训练数据集之前：

获取第二训练数据集，所述第二训练数据集中包括第五图像，并对所述第五图像进行降低清晰度处理得到训练图像；

利用所述训练图像和所述第五图像优化预设的第二模型；

当满足第三预设条件时得到的优化后的第二模型，确定为清晰度转换模型，所述清晰度转换模型用于对所述合成图像进行处理得到所述第一目标图像。

在一种可选的实施方式中，所述转换模型训练单元850，包括：

分割模块851，用于将所述训练图像输入预设的人像分割模型，得到与所述训练图像对应的人像分割图；

训练模块852，用于根据所述训练图像和所述人像分割图生成输入数据，并将所述输入数据输入所述第二模型中，得到输出图像；

所述训练模块852还用于根据所述第五图像、所述输出图像优化所述第二模型，得到优化后的第二模型。

在一种可选的实施方式中，所述训练模块852具体用于：

根据所述第五图像、所述输出图像，确定所述第五图像和所述输出图像之间的图像损失函数值；所述图像损失函数值用于表征所述第五图像与所述输出图像之间的差异；

利用预设的风格信息提取模型，提取所述输出图像的风格信息和第五图像的风格信息，根据所述输出图像的风格信息和第五图像的风格信息确定风格损失函数值；所述风格损失函数值用于表征所述输出图像与所述第五图像之间的风格差异；

根据所述图像损失函数值、所述真实性损失函数值和所述风格损失函数值，优化所述第二模型，得到优化后的第二模型。

图9为本公开一示例性实施例示出的图像合成装置的结构示意图。

如图9所述，本公开提供的图像合成装置900，包括：

图像获取单元910，用于获取第一图像和第二图像，所述第一图像和所述第二图像均包括人脸图像；

处理单元920，用于将所述第一图像和第二图像输入目标模型，得到第二目标图像；其中，所述第二目标图像中包括第一图像的背景特征信息和所述第二图像中的人脸特征信息；

所述目标模型是根据如图7或图8所述的任一项所述的装置训练得到的。

本公开提供一种模型训练方法、图像合成方法、装置、设备及程序产品，应用于人工智能技术中的计算机视觉技术、深度学习技术，可应用于人脸图像处理、人脸图像识别等场景下，以降低对图像进行换脸时所需要的时长。

需要说明的是，本实施例中的图像并不是针对某一特定用户的图像，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的二维人脸图像来自于公开数据集。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如模型训练方法或图像合成方法。例如，在一些实施例中，模型训练方法或图像合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的模型训练方法或图像合成方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法或图像合成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

获取训练数据集，所述训练数据集中包括第一图像、第二图像和第一目标图像；所述第一图像和所述第二图像均包括人脸图像，所述第一目标图像是利用换脸模型先对所述第一图像和所述第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像；

2.根据权利要求1所述的方法，其中，所述利用所述训练数据集对预设的初始模型进行训练，得到目标模型，包括：将所述训练数据集中的所述第一图像和所述第二图像输入所述初始模型，得到处理图像；

根据所述处理图像以及所述第一目标图像，优化所述初始模型；

将满足第一预设条件时得到的优化后的初始模型，确定为所述目标模型。

3.根据权利要求2所述的方法，其中，所述根据所述处理图像以及所述第一目标图像，优化所述初始模型，包括：

4.根据权利要求3所述的方法，其中，根据所述处理图像以及所述第一目标图像，确定所述处理图像与所述第一目标图像之间的深度特征损失函数值，包括：

5.根据权利要求3所述的方法，其中，根据所述处理图像以及所述第一目标图像，确定所述处理图像与所述第一目标图像之间的人脸特征损失函数值，包括：

6.根据权利要求3所述的方法，所述根据所述处理图像与所述第一目标图像之间的图像损失函数值、深度特征损失函数值以及人脸损失函数值，优化所述初始模型，得到优化后的初始模型，包括：

7.根据权利要求1-6任一项所述的方法，在所述获取训练数据集之前，还包括：

8.根据权利要求7所述的方法，其中，所述将所述第三图像和所述第四图像输入预设的第一模型中，得到第一合成图像，包括：

根据所述第一模型中的背景信息提取模块对所述第三图像进行处理，提取所述第三图像的背景特征信息；

根据所述第一模型中的人脸信息提取模块对所述第四图像进行处理，提取所述第四图像的人脸特征信息；

根据所述第一模型中的合成模块对所述第三图像的背景特征信息、所述第四图像的人脸特征信息进行合成处理，得到所述第一合成图像。

9.根据权利要求7所述的方法，其中，所述根据所述第一合成图像、所述第三图像和所述第四图像，优化所述第一模型，包括：

根据所述第一合成图像、所述第三图像，确定所述第一合成图像与所述第三图像之间的背景特征损失函数值；所述背景特征损失函数值用于表征所述第一合成图像的背景特征和所述第三图像背景特征之间的差异；

根据所述第一合成图像、所述第四图像，确定所述第一合成图像与所述第四图像之间的人脸特征损失函数值；所述人脸特征损失函数值用于表征所述第一合成图像的人脸特征和所述第三图像的人脸特征之间的差异；

将所述第一合成图像输入预设的第一真伪辨认模型，并根据所述第一真伪辨认模型输出的辨认结果确定真实性损失函数值；所述辨认结果用于表征所述第一合成图像是否为真图的结果，所述真实性损失函数值用于表征所述第一合成图像的所述辨认结果与真图辨认结果之间的差异；

根据所述背景特征损失函数值、所述人脸特征损失函数值和所述真实性损失函数值，优化所述第一模型。

10.根据权利要求9所述的方法，还包括：

获取真实图像；

11.根据权利要求1-6任一项所述的方法，在所述获取训练数据集之前，还包括：

利用所述训练图像和所述第五图像优化预设的第二模型；

12.根据权利要求11所述的方法，其中，所述利用所述训练图像和所述第五图像优化预设的第二模型，包括：

将所述训练图像输入预设的人像分割模型，得到与所述训练图像对应的人像分割图；

根据所述训练图像和所述人像分割图生成输入数据，并将所述输入数据输入所述第二模型中，得到输出图像；

根据所述第五图像、所述输出图像优化所述第二模型，得到优化后的第二模型。

13.根据权利要求12所述的方法，其中，所述根据所述第五图像、所述输出图像优化所述第二模型，得到优化后的第二模型，包括：

14.一种图像合成方法，包括：

所述目标模型是根据权利要求1-13任一项所述的方法训练得到的。

15.一种模型训练装置，包括：

数据获取单元，用于获取训练数据集，所述训练数据集中包括第一图像、第二图像和第一目标图像；所述第一图像和所述第二图像均包括人脸图像，所述第一目标图像是利用换脸模型先对所述第一图像和所述第二图像进行合成处理，再对合成得到的图像进行清晰度提高处理得到的图像；

16.根据权利要求15所述的装置，其中，所述训练单元包括：

输入模块，用于将所述训练数据集中的所述第一图像和所述第二图像输入所述初始模型，得到处理图像；

调整模块，用于根据所述处理图像以及所述第一目标图像，优化所述初始模型；

所述调整模块还用于将满足第一预设条件时得到的优化后的初始模型，确定为所述目标模型。

17.根据权利要求16所述的装置，其中，所述调整模块具体用于：

18.根据权利要求17所述的装置，其中，所述调整模块具体用于：

19.根据权利要求17所述的装置，其中，所述调整模块用于：

20.根据权利要求17所述的装置，所述调整模块用于：

21.根据权利要求15-20任一项所述的装置，还包括换脸模型训练单元，用于在所述数据获取单元获取训练数据集之前：

22.根据权利要求21所述的装置，其中，所述换脸模型训练单元包括：

背景提取模块，用于根据所述第一模型中的背景信息提取模块对所述第三图像进行处理，提取所述第三图像的背景特征信息；

人脸提取模块，用于根据所述第一模型中的人脸信息提取模块对所述第四图像进行处理，提取所述第四图像的人脸特征信息；

输出模块，用于根据所述第一模型中的合成模块对所述第三图像的背景特征信息、所述第四图像的人脸特征信息进行合成处理，得到所述第一合成图像。

23.根据权利要求21所述的装置，其中，所述换脸模型训练单元包括：

函数构建模块，用于根据所述第一合成图像、所述第三图像，确定所述第一合成图像与所述第三图像之间的背景特征损失函数值；所述背景特征损失函数值用于表征所述第一合成图像的背景特征和所述第三图像背景特征之间的差异；

所述函数构建模块，还用于根据所述第一合成图像、所述第四图像，确定所述第一合成图像与所述第四图像之间的人脸特征损失函数值；所述人脸特征损失函数值用于表征所述第一合成图像的人脸特征和所述第三图像的人脸特征之间的差异；

所述函数构建模块，还用于将所述第一合成图像输入预设的第一真伪辨认模型，并根据所述第一真伪辨认模型输出的辨认结果确定真实性损失函数值；所述辨认结果用于表征所述第一合成图像是否为真图的结果，所述真实性损失函数值用于表征所述第一合成图像的所述辨认结果与真图辨认结果之间的差异；

人脸模型调整模块，用于根据所述背景特征损失函数值、所述人脸特征损失函数值和所述真实性损失函数值，优化所述第一模型。

24.根据权利要求23所述的装置，还包括辨认模型训练单元，用于：

获取真实图像；

25.根据权利要求15-20任一项所述的装置，还包括转换模型训练单元，用于在所述数据获取单元获取训练数据集之前：

利用所述训练图像和所述第五图像优化预设的第二模型；

26.根据权利要求25所述的装置，其中，所述转换模型训练单元，包括：

分割模块，用于将所述训练图像输入预设的人像分割模型，得到与所述训练图像对应的人像分割图；

训练模块，用于根据所述训练图像和所述人像分割图生成输入数据，并将所述输入数据输入所述第二模型中，得到输出图像；

所述训练模块还用于根据所述第五图像、所述输出图像优化所述第二模型，得到优化后的第二模型。

27.根据权利要求26所述的装置，其中，所述训练模块具体用于：

28.一种图像合成装置，包括：

所述目标模型是根据权利要求15-27任一项所述的装置训练得到的。

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-14中任一项所述方法的步骤。