CN117522717B

CN117522717B - 一种图像的合成方法、装置及设备

Info

Publication number: CN117522717B
Application number: CN202410011262.1A
Authority: CN
Inventors: 张博; 段宇轩; 兰钧; 洪燕; 祝慧佳; 王维强; 牛力
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-01-03
Filing date: 2024-01-03
Publication date: 2024-04-19
Anticipated expiration: 2044-01-03
Also published as: CN117522717A

Abstract

本说明书实施例公开了一种图像的合成方法、装置及设备，该方法包括：获取包含目标主体的前景图像和待承载目标主体的背景图像，以及将前景图像合成于背景图像中时背景图像中前景图像所在的区域信息和前景图像的合成控制信息；对前景图像进行特征提取，得到前景图像对应的前景全局特征和前景局部特征，并对背景图像进行特征提取，得到背景图像对应的背景图像特征；将前景全局特征和前景局部特征，以及背景图像特征、区域信息和前景图像的合成控制信息输入到可控生成模型中，以通过前景图像的合成控制信息控制可控生成模型将前景全局特征融合到背景图像特征中，并将前景局部特征融合到背景图像特征中该区域信息对应的图像特征中，得到合成图像。

Description

一种图像的合成方法、装置及设备

技术领域

本文件涉及计算机技术领域，尤其涉及一种图像的合成方法、装置及设备。

背景技术

随着终端技术的不断发展，人们对自己的隐私数据越来越重视，人们的图像等隐私数据管控越来越严格，基于此，相应业务中的模型性能很难得到提升。图像合成是一种常见的图像编辑操作，在业务上有广泛的应用前景，例如，可以通过图像合成得到逼真的对抗样本从而来提升模型性能。

原始的图像合成是指把一张图像的前景部分剪切下来，粘贴到另外一张背景图像上以得到一张合成图像。然而，通过简单的剪切粘贴得到的合成图像往往不够真实，最终合成的图像不真实、不自然。为此，需要提供一种可控的图像合成方案，从而从给定的一张前景图像和一张背景图像上直接端到端生成合成图像。

发明内容

本说明书实施例的目的是提供一种可控的图像合成方案，从而从给定的一张前景图像和一张背景图像上直接端到端生成合成图像。

为了实现上述技术方案，本说明书实施例是这样实现的：

本说明书实施例提供的一种图像的合成方法，所述方法包括：获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例提供的一种图像的合成方法，所述方法包括：获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。通过预先训练的扩散模型中包含的前景编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并通过所述扩散模型中包含的第一编码器对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例提供的一种图像的合成装置，所述装置包括：信息获取模块，获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。特征提取模块，对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。图像合成模块，将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例提供的一种图像的合成装置，所述装置包括：图像获取模块，获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。特征提取模块，通过预先训练的扩散模型中包含的前景编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并通过所述扩散模型中包含的第一编码器对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。合成模块，将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例提供的一种图像的合成设备，所述图像的合成设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例提供的一种图像的合成设备，所述图像的合成设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。通过预先训练的扩散模型中包含的前景编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并通过所述扩散模型中包含的第一编码器对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例还提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例还提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态。通过预先训练的扩散模型中包含的前景编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并通过所述扩散模型中包含的第一编码器对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征。将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；

图1为本说明书一种图像的合成方法实施例；

图2为本说明书一种图像合成页面的示意图；

图3为本说明书一种前景编码器的结构示意图；

图4为本说明书一种可控生成模型的结构示意图；

图5为本说明书一种局部增强模块的结构示意图；

图6为本说明书一种模型训练过程的示意图；

图7为本说明书另一种图像的合成方法实施例；

图8为本说明书一种图像的合成装置实施例；

图9为本说明书另一种图像的合成装置实施例；

图10为本说明书一种图像的合成设备实施例。

具体实施方式

本说明书实施例提供一种图像的合成方法、装置及设备。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种可控的图像生成机制，图像合成是一种常见的图像编辑操作，在业务上有广泛的应用前景，例如，图像合成可以用于生成逼真合理的图像数据，来提升下游伪造检测模型的性能；也可以制造黑样本，实现模型的冷启动和提升模型的性能，如内容安全场景下的视频和直播中的禁限售物品检测，这样的样本在现实中出现的情况非常少，但如果出现了则要求能够准确防控，不然很容易造成损失。因此，可以通过图像合成得到逼真的对抗样本从而来提升模型性能。

原始的图像合成是指把一张图像的前景部分剪切下来，粘贴到另外一张背景图像上以得到一张合成图像。然而，通过简单的剪切粘贴得到的合成图像往往不够真实，这是因为前景图像中的物体的光照和视角与背景图像不一致。为此，人们提出图像融合、图像和谐化、阴影生成、视角变换等方式进行图像合成，但是，这样会导致整个图像合成过程变得复杂且繁琐，而且最终合成的图像不真实、不自然。本说明书实施例提出一种实现图像合成的机制，即从给定的一张前景图像和一张背景图像上直接端到端生成合成图像，这样，无需依赖上述多个步骤，此外，在实际应用场景中，当前景图像的光照和姿态与背景图像适配时，用户常常希望保留前景图像中的物体的光照或姿态，因此，本说明书实施例提出一种可控的图像合成方案。具体处理可以参见下述实施例中的具体内容。

如图1所示，本说明书实施例提供一种图像的合成方法，该方法的执行主体可以为终端设备或服务器等，其中的终端设备可以如手机、平板电脑等移动终端设备，还可以如笔记本电脑或台式电脑等计算机设备，或者，也可以为IoT设备（具体如智能手表、车载设备等）等，其中的服务器可以是独立的一个服务器，还可以是由多个服务器构成的服务器集群等，该服务器可以是如金融业务或网络购物业务等的后台服务器，也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明，对于执行主体为终端设备的情况，可以参见下述服务器的情况处理，在此不再赘述。该方法具体可以包括以下步骤：

在步骤S102中，获取包含目标主体的前景图像和待承载目标主体的背景图像，以及将前景图像合成于背景图像中时背景图像中前景图像所在的区域信息和前景图像的合成控制信息，该合成控制信息用于控制前景图像的合成状态。

其中，目标主体可以是图像中的某一对象，目标主体具体可以是物体、动物或人物等。前景图像可以是针对目标主体所拍摄的图像，例如，前景图像可以是某建筑物的图像，或者，前景图像可以是某用户的面部图像等。背景图像可以是目标主体所处的背景相关的图像，背景图像可以根据实际情况设置，例如，背景图像可以是背景为白色的图像，或者，背景图像可以是拍摄的指定环境的图像等，具体可以根据实际情况设定，本说明书实施例对此不做限定。所述区域信息可以包括区域的尺寸（如长度、宽度等）、该区域所在的位置等，具体可以根据实际情况设定。合成控制信息可以是用于控制前景图像的合成状态的信息，具体如可以控制前景图像的光照保持不变，或者，可以控制前景图像中不保留原光照，或者，可以控制前景图像中目标主体的姿态保持不变等，具体可以根据实际情况设定。

在实施中，为了将两张图像合成为一张图像，可以设置相应的图像合成页面，如图2所示，该图像合成页面中可以包括前景图像的输入框、背景图像的输入框、区域信息的输入框和合成控制信息的输入框，以及确定按键和取消按键等，当某用户需要将某两张图像合成为一张图像时，该用户可以获取上述图像合成页面，并可以在前景图像的输入框中输入包含目标主体的前景图像，并在背景图像的输入框中输入待承载目标主体的背景图像，同时，还可以在区域信息的输入框中输入将前景图像合成于背景图像中时背景图像中前景图像所在的区域信息，可以在合成控制信息的输入框中输入前景图像的合成控制信息，输入完成后，可以点击该图像合成页面中的确定按键，此时，终端设备或服务器可以从前景图像的输入框中获取包含目标主体的前景图像，并在背景图像的输入框中获取待承载目标主体的背景图像，同时，还可以在区域信息的输入框中获取将前景图像合成于背景图像中时背景图像中前景图像所在的区域信息，可以在合成控制信息的输入框中获取前景图像的合成控制信息。

在步骤S104中，对前景图像进行特征提取，得到前景图像对应的前景全局特征和前景局部特征，并对背景图像进行特征提取，得到背景图像对应的背景图像特征。

其中，前景全局特征可以是前景图像中的全局特征，其中的全局特征可以是前景图像的整体属性信息，例如，全局特征可以包括颜色特征、纹理特征（可以是目标主体表面共有的内在特性，其包含了目标主体表面结构组织排列的重要信息及其与周围物体的联系）、形状特征等。前景局部特征可以是前景图像中的局部特征，其中的局部特征可以是从前景图像中的局部区域（包括边缘、角点、线、曲线和特别属性的区域等）中抽取的特征，具体如尺度不变特征变换SIFT（Scale-Invariant Feature Transform）、加速稳健特征SURF（Speeded Up Robust Features）、旋转不变特征ORB（Oriented FAST and RotatedBREIF）、局部方向梯度直方图Local HOG（Histogram of Oriented Gradient）等，具体可以根据实际情况设定，本说明书实施例对此不做限定。

在实施中，可以通过多种不同的方式对前景图像进行特征提取，例如，可以根据实际情况预先设定全局特征提取算法和局部特征提取算法，可以通过该全局特征提取算法对前景图像进行特征提取，得到前景图像对应的前景全局特征，并可以使用局部特征提取算法对前景图像进行特征提取，得到前景图像对应的前景局部特征。此外，还可以通过多种不同的方式对背景图像进行特征提取，例如，可以根据实际情况预先设定背景特征提取算法，可以通过该背景特征提取算法对背景图像进行特征提取，得到背景图像对应的背景图像特征。

在步骤S106中，将前景图像对应的前景全局特征和前景局部特征，以及背景图像特征、上述区域信息和前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过前景图像的合成控制信息控制可控生成模型将前景全局特征融合到背景图像特征中，并将前景局部特征融合到背景图像特征中该区域信息对应的图像特征中，得到前景图像与背景图像的合成图像。

其中，可控生成模型可以通过多种不同的算法或网络构建，例如，可以通过神经网络构建可控生成模型，或者，可以通过分类算法和其他算法联合构建可控生成模型，具体可以根据实际情况设定，本说明书实施例对此不做限定。

在实施中，可以根据预设算法构建可控生成模型的模型架构，可控生成模型的输入数据可以包括前景图像对应的前景全局特征和前景局部特征，以及背景图像特征、上述区域信息和前景图像的合成控制信息，输出数据可以为合成图像。可以获取包含指定主体的前景图像样本和待承载该指定主体的背景图像样本，以及将前景图像样本合成于背景图像样本中时背景图像样本中前景图像样本所在的样本区域信息和前景图像样本的样本合成控制信息，可以基于上述信息对可控生成模型进行模型训练，直到预设的损失函数收敛，得到训练后的可控生成模型，通过上述方式可以得到训练后的可控生成模型，训练后的可控生成模型可以基于前景图像对应的前景全局特征和前景局部特征，以及背景图像特征、上述区域信息和前景图像的合成控制信息，通过前景图像的合成控制信息控制可控生成模型将前景全局特征融合到背景图像特征中，并将前景局部特征融合到背景图像特征中该区域信息对应的图像特征中，最终得到前景图像与背景图像的合成图像。

可以将前景图像对应的前景全局特征和前景局部特征，以及背景图像特征、上述区域信息和前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过前景图像的合成控制信息控制可控生成模型将前景全局特征融合到背景图像特征中，并将前景局部特征融合到背景图像特征中该区域信息对应的图像特征中，得到前景图像与背景图像的合成图像。

需要说明的是，上述区域信息和前景图像的合成控制信息可以是经过编码后的信息，例如，可以通过数字，或者，数字的组合表征该区域信息和前景图像的合成控制信息，具体如该区域信息可以包括：坐标点的位置为（1,2）、（1,6）、（3,2）和（3,6）等，前景图像的合成控制信息可以为（1,0,0）、（1,1,0）或（1,0,1）等，其中括号中的第一位数字表示前景图像中的A属性（如光照等）的属性值是否保留（通过0或者1来表征是否保留），括号中的第二位数字表示前景图像中的B属性的属性值是否保留，括号中的第三位数字表示前景图像中的C属性的属性值是否保留等，上述编码方式仅是一种可选的方式，在实际应用中还可以包括多种不同的编码方式，具体可以根据实际情况设定，本说明书实施例对此不做限定。在实际应用中，还可以通过可控生成模型对上述区域信息和前景图像的合成控制信息进行编码处理，编码方式可以参见上述内容，在此不再赘述。

本说明书实施例提供一种图像的合成方法，通过获取包含目标主体的前景图像和待承载该目标主体的背景图像，以及将该前景图像合成于该背景图像中时该背景图像中该前景图像所在的区域信息和该前景图像的合成控制信息，该合成控制信息用于控制该前景图像的合成状态，然后，可以对该前景图像进行特征提取，得到该前景图像对应的前景全局特征和前景局部特征，并对该背景图像进行特征提取，得到该背景图像对应的背景图像特征，最终，可以将该前景图像对应的前景全局特征和前景局部特征，以及该背景图像特征、该区域信息和该前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过该前景图像的合成控制信息控制该可控生成模型将该前景全局特征融合到该背景图像特征中，并将该前景局部特征融合到该背景图像特征中该区域信息对应的图像特征中，得到该前景图像与该背景图像的合成图像，这样，从给定的一张前景图像和一张背景图像上直接端到端生成合成图像，从而无需依赖多个步骤来合成图像，此外，在实际应用场景中，当前景图像与背景图像适配时，通过前景图像的合成控制信息来控制前景图像的合成状态，最终，通过模型合成相应的图像，从而实现了可控的图像合成，此外，通过上述方式还可以提升图像合成的过程中前景图像的保真度。

在实际应用中，上述区域信息可以包括区域位置、区域大小和区域尺寸中的一种或多种，前景图像的合成控制信息可以包括由前景图像的光照控制信息和/或前景图像中目标主体的姿态控制信息构成的控制信息。

其中，光照控制信息可以是对前景图像中的光照进行控制的信息，通过光照控制信息可以控制前景图像中的光照的强度达到指定强度，具体也可以如控制前景图像中的光照保持不变，或者，取消前景图像中的光照等，具体可以根据实际情况设定。前景图像中目标主体的姿态控制信息可以是对前景图像中目标主体的姿态进行控制的信息，通过姿态控制信息可以控制前景图像中目标主体所处的姿态，具体也可以如控制前景图像中目标主体的姿态保持不变，或者，控制前景图像中目标主体的姿态由横向放置调整为纵向放置等，具体可以根据实际情况设定。

基于上述内容，前景图像的合成控制信息为二维向量，该二维向量由前景图像的光照控制信息和所述前景图像中所述目标主体的姿态控制信息构成，所述前景图像的光照控制信息包括保留所述前景图像的光照和不保留所述前景图像的光照，所述前景图像中所述目标主体的姿态控制信息包括保留所述前景图像中所述目标主体的姿态和不保留所述前景图像中所述目标主体的姿态。

如上所述，前景图像的合成控制信息可以是经过编码后的信息，例如，前景图像的合成控制信息可以包括由前景图像的光照控制信息和前景图像中目标主体的姿态控制信息构成的控制信息，则前景图像的合成控制信息（即二维向量，也可以称为指示向量）可以如（0,0）、（0,1）、（1,0）和（1,1），其中括号中的第一位数字表示前景图像中的光照是否保留，第二位数字表示前景图像中目标主体的姿态是否保留，其中的0可以表示保留，1可以表示不保留等，在实际应用中，上述指示向量（0,0）可以对应图像融合Image Blending，上述指示向量（0,1）可以对应新视角合成View Synthesis，上述指示向量（1,0）可以对应图像和谐化Image Harmonization，上述指示向量（1,1）可以对应图像合成Image Composition。具体可以根据实际情况设定，本说明书实施例对此不做限定。

需要说明的是，对于上述情况，如果用户指定了指示向量（具体如指示向量（0,1）等），则可以通过该指定的指示向量通过本说明书的处理过程得到相应的合成图像，如果用户没有指定指示向量，则可以基于每种指示向量生成相应的合成图像，即可以生成4张合成图像，具体可以根据实际情况设定，本说明书实施例对此不做限定。

在实际应用中，上述步骤S104中对前景图像进行特征提取，得到前景图像对应的前景全局特征和前景局部特征的处理可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：通过预先训练的前景编码器中包含的第一子编码器对前景图像进行特征提取，得到前景图像对应的前景全局特征，并通过前景编码器中包含的第二子编码器对前景图像进行特征提取，得到前景图像对应的前景局部特征，第一子编码器和第二子编码器中包括相互进行参数共享的模块。

其中，第一子编码器可以基于指定的算法或网络构建，例如，第一子编码器可以由指定的特征提取算法构建或可以由神经网络构建等，具体可以根据实际情况设定。第二子编码器与第一子编码器不同，第二子编码器可以基于指定的算法或网络构建，例如，第二子编码器可以通过神经网络和其他网络构建等，具体可以根据实际情况设定。

在实施中，为了充分发挥模型的性能，可以预先训练前景编码器，该前景编码器中可以包括第一子编码器和第二子编码器，第一子编码器和第二子编码器中包括相互进行参数共享的模块，例如，第一子编码器和第二子编码器中都包括A模块，第一子编码器与第二子编码器可以共用A模块，即A模块中的模型参数是由第一子编码器中相应的模型参数与第二子编码器中相应的模型参数进行参数共享得到的。具体如，如图3所示，第一子编码器中包括第二子编码器和MLP（Multilayer Perceptron）模型，第一子编码器中的第二子编码器与该编码器中的第二子编码器相互进行参数共享，前景图像经过第二子编码器后，可以得到前景图像对应的前景局部特征，前景图像经过第一子编码器（即依次经过第二子编码器和MLP模型）后，可以得到前景图像对应的前景全局特征。其中编码器的训练可以是通过获取多个不同的图像作为训练样本，并可以设置相应的损失函数，通过上述训练样本和损失函数对编码器进行训练，得到训练后的编码器，进而得到训练后的第一子编码器和训练后的第二子编码器。

需要说明的是，上述第一子编码器和第二子编码器中包括相互进行参数共享的模块，在实际应用中，还可以不需要进行参数共享，即第一子编码器与第二子编码器相互独立，通过独立的第一子编码器对前景图像进行特征提取，得到前景图像对应的前景全局特征，同时，可以通过独立的第二子编码器对前景图像进行特征提取，得到前景图像对应的前景局部特征，具体可以根据实际情况设定。

此外，在实际应用中，上述步骤S104中对背景图像进行特征提取，得到背景图像对应的背景图像特征的处理可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：通过背景编码器对背景图像进行特征提取，得到背景图像对应的背景图像特征。

其中，背景编码器可以基于指定的算法或网络构建，例如，背景编码器可以由指定的特征提取算法构建或可以由神经网络构建等，具体可以根据实际情况设定。

在实际应用中，可控生成模型包括残差块、局部增强模块和Transformer块，则行数步骤S106的具体处理方式可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：将前景图像对应的前景全局特征和前景局部特征，以及背景图像特征、区域信息和前景图像的合成控制信息输入到预先训练的可控生成模型中：通过残差块对背景图像特征、区域信息和前景图像的合成控制信息进行处理，得到第一输出数据；将第一输出数据和前景全局特征输入到Transformer块中，以通过第一输出数据中表征前景图像的合成控制信息的数据控制Transformer块将前景全局特征融合到第一输出数据中表征背景图像特征的数据中，得到第二输出数据；将第二输出数据、前景图像的合成控制信息和前景局部特征输入到局部增强模块中，以通过前景图像的合成控制信息控制局部增强模块将前景局部特征融合到第二输出数据中表征区域信息对应的图像特征的数据中；得到前景图像与背景图像的合成图像。

其中，如图4所示，可控生成模型可以由U-Net构建，可控生成模型可以包括残差块、局部增强模块和Transformer块等。Transformer块可以包括自注意力模块、全局融合模块，前馈神经网络等，Transformer块内部的具体结构可以参见图4，前景全局特征可以输入到全局融合模块中，通过Transformer块进行处理，得到相应的输出数据。局部增强模块的结构可以根据实际情况设定，例如，局部增强模块可以由神经网络构建，或者，局部增强模块可以由指定的算法构建等，局部增强模块可以将前景局部特征融合到第二输出数据中表征区域信息对应的图像特征的数据中。

在实际应用中，上述局部增强模块的结构可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：局部增强模块可以包括第一处理层、交叉注意力层、对齐层、第一卷积层、第二卷积层、规范化层、第一元素相乘操作层、第一元素融合层和第二元素融合层，上述将第二输出数据、前景图像的合成控制信息和前景局部特征输入到局部增强模块中，以通过前景图像的合成控制信息控制局部增强模块将前景局部特征融第二输出数据中表征区域信息对应的图像特征的数据中的具体处理方式可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：

将第二输出数据、前景图像的合成控制信息和前景局部特征输入到局部增强模块中，通过第一处理层对第二输出数据和前景图像的合成控制信息进行处理，得到第一处理信息；通过交叉注意力层对第一处理信息和前景局部特征进行交叉注意力处理，得到第二处理信息；通过对齐层，使用交叉注意力层对应的注意力图对前景局部特征进行对齐处理，得到对齐后的前景局部特征；通过第一卷积层对对齐后的前景局部特征进行卷积处理，得到第一卷积结果，并通过第二卷积层对对齐后的前景局部特征进行卷积处理，得到第二卷积结果；通过规范化层对第二处理信息进行规划范处理，得到第三处理信息；将第一融合结果和第二输出数据经过第二元素融合层进行融合处理，以将前景局部特征融合到第二输出数据中表征区域信息对应的图像特征的数据中。

如图5所示，局部增强模块可以包括第一处理层、交叉注意力层（可以包括交叉注意力机制）、对齐层、第一卷积层、第二卷积层、规范化层、第一元素相乘操作层、第一元素融合层和第二元素融合层等，具体处理可以参见上述相关内容，在此不再赘。

在实际应用中，还可以通过下述方式对可控生成模型进行模型训练，具体可以参见下述步骤A2~步骤A8的处理。

在步骤A2中，获取包含目标主体的源图像样本。

在步骤A4中，通过预设的掩模源图像样本进行拆分处理，得到包含第一主体的前景图像样本和待承载第一主体的背景图像样本，以及将前景图像样本合成于背景图像样本中时背景图像样本中前景图像样本所在的样本区域信息，并获取前景图像样本的样本合成控制信息，样本合成控制信息用于控制前景图像样本的合成状态。

在步骤A6中，对前景图像样本进行特征提取，得到前景图像样本对应的第一全局特征和第一局部特征，并对背景图像样本进行特征提取，得到背景图像样本对应的样本图像特征，对源图像样本进行特征提取，得到源图像样本对应的源图像特征。

在步骤A8中，基于前景图像样本对应的第一全局特征和第一局部特征，以及样本图像特征、样本区域信息、前景图像样本的样本合成控制信息、源图像特征和预设的损失函数，对可控生成模型进行模型训练，得到训练后的可控生成模型。

在实施中，如图6所示，可以将前景图像样本对应的第一全局特征和第一局部特征，以及样本图像特征、样本区域信息、前景图像样本的样本合成控制信息输入到可控生成模型，得到相应的输出数据，可以基于该输出数据与源图像特征，通过预设的损失函数计算相应的损失信息，可以基于得到的损失信息调整可控生成模型的模型参数，通过上述方式进行不断的迭代处理，得到训练后的可控生成模型。

在实际应用中，上述步骤A6中对前景图像样本进行特征提取，得到前景图像样本对应的第一全局特征和第一局部特征，并对背景图像样本进行特征提取，得到背景图像样本对应的样本图像特征，对源图像样本进行特征提取，得到源图像样本对应的源图像特征的具体处理方式可以多种多样，以下提供一种可选的处理方式，具体可以包括以下步骤A62和步骤A64的处理。

在步骤A62中，通过前景编码器对前景图像样本进行特征提取，得到前景图像样本对应的第一全局特征和第一局部特征。

在步骤A64中，通过第一编码器对背景图像样本进行特征提取，得到背景图像样本对应的样本图像特征，并通过第一编码器对源图像样本进行特征提取，得到源图像样本对应的源图像特征。

相应的上述步骤A8的具体处理方式可以多种多样，以下提供一种可选的处理方式，具体可以包括以下步骤A82和步骤A84的处理。

在步骤A82中，对源图像特征进行加噪处理，得到加噪源图像特征。

在实施中，可以获取指定的噪声数据，例如，高斯噪声数据、白噪声数据等，可以将上述获取的噪声数据加入到源图像特征中，得到加噪源图像特征。

在步骤A84中，基于前景图像样本对应的第一全局特征和第一局部特征，以及样本图像特征、样本区域信息、前景图像样本的样本合成控制信息、加噪源图像特征和预设的损失函数，对可控生成模型、前景编码器和第一编码器进行联合训练，得到训练后的可控生成模型、训练后的前景编码器和训练后的第一编码器。

此外，在前景图像的保真度上，将前景全局特征与前景局部特征分成两个阶段分别与背景图像特征融合，同时为前景局部特征融合设计了局部增强模块，从而极大提升了前景图像的保真度，并改善了合成图像的质量，此外，在实际应用场景中，当前景图像的光照和目标主体的姿态与背景图像适配时，可以保留前景图像中的光照或目标主体的姿态，进而进行可控的图像合成处理。

如图7所示，本说明书实施例提供一种图像的合成方法，该方法的执行主体可以为终端设备或服务器等，其中的终端设备可以如手机、平板电脑等移动终端设备，还可以如笔记本电脑或台式电脑等计算机设备，或者，也可以为IoT设备（具体如智能手表、车载设备等）等，其中的服务器可以是独立的一个服务器，还可以是由多个服务器构成的服务器集群等，该服务器可以是如金融业务或网络购物业务等的后台服务器，也可以是某应用程序的后台服务器等。本实施例中以执行主体为服务器为例进行详细说明，对于执行主体为终端设备的情况，可以参见下述服务器的情况处理，在此不再赘述。该方法具体可以包括以下步骤：

在步骤S702中，获取包含目标主体的前景图像和待承载目标主体的背景图像，以及将前景图像合成于背景图像中时背景图像中前景图像所在的区域信息和前景图像的合成控制信息，该合成控制信息用于控制前景图像的合成状态。

在步骤S704中，通过预先训练的扩散模型中包含的前景编码器对前景图像进行特征提取，得到前景图像对应的前景全局特征和前景局部特征，并通过扩散模型中包含的第一编码器对背景图像进行特征提取，得到背景图像对应的背景图像特征。

其中，扩散模型可以基于指定的算法或网络构建，例如，扩散模型可以由指定的特征提取算法构建或可以由神经网络构建等，具体可以根据实际情况设定。

在步骤S706中，将前景图像对应的前景全局特征和前景局部特征，以及背景图像特征、上述区域信息和前景图像的合成控制信息输入到扩散模型中包含的可控生成子模型中，以通过前景图像的合成控制信息控制可控生成子模型将前景全局特征融合到背景图像特征中，并将前景局部特征融合到背景图像特征中区域信息对应的图像特征中，得到前景图像与背景图像的合成图像。

在实际应用中，上述步骤S704中通过预先训练的扩散模型中包含的前景编码器对前景图像进行特征提取，得到前景图像对应的前景全局特征和前景局部特征的处理可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：通过预先训练的前景编码器中包含的第一子编码器对前景图像进行特征提取，得到前景图像对应的前景全局特征，并通过前景编码器中包含的第二子编码器对前景图像进行特征提取，得到前景图像对应的前景局部特征，第一子编码器和第二子编码器中包括相互进行参数共享的模块。

在实际应用中，可控生成子模型包括残差块、局部增强模块和Transformer块，则行数步骤S706的具体处理方式可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：将前景图像对应的前景全局特征和前景局部特征，以及背景图像特征、区域信息和前景图像的合成控制信息输入到可控生成子模型中：通过残差块对背景图像特征、区域信息和前景图像的合成控制信息进行处理，得到第一输出数据；将第一输出数据和前景全局特征输入到Transformer块中，以通过第一输出数据中表征前景图像的合成控制信息的数据控制Transformer块将前景全局特征融合到第一输出数据中表征背景图像特征的数据中，得到第二输出数据；将第二输出数据、前景图像的合成控制信息和前景局部特征输入到局部增强模块中，以通过前景图像的合成控制信息控制局部增强模块将前景局部特征融合到第二输出数据中表征区域信息对应的图像特征的数据中；得到前景图像与背景图像的合成图像。

在实际应用中，上述局部增强模块的结构可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：局部增强模块可以包括第一处理层、交叉注意力层、对齐层、第一卷积层、第二卷积层、规范化层、第一元素相乘操作层、第一元素融合层和第二元素融合层，上述将第二输出数据、前景图像的合成控制信息和前景局部特征输入到局部增强模块中，以通过前景图像的合成控制信息控制局部增强模块将前景局部特征融第二输出数据中表征区域信息对应的图像特征的数据中的具体处理方式可以多种多样，以下再提供一种可选的处理方式，具体可以包括以下内容：将第二输出数据、前景图像的合成控制信息和前景局部特征输入到局部增强模块中，通过第一处理层对第二输出数据和前景图像的合成控制信息进行处理，得到第一处理信息；通过交叉注意力层对第一处理信息和前景局部特征进行交叉注意力处理，得到第二处理信息；通过对齐层，使用交叉注意力层对应的注意力图对前景局部特征进行对齐处理，得到对齐后的前景局部特征；通过第一卷积层对对齐后的前景局部特征进行卷积处理，得到第一卷积结果，并通过第二卷积层对对齐后的前景局部特征进行卷积处理，得到第二卷积结果；通过规范化层对第二处理信息进行规划范处理，得到第三处理信息；将第一融合结果和第二输出数据经过第二元素融合层进行融合处理，以将前景局部特征融合到第二输出数据中表征区域信息对应的图像特征的数据中。

在实际应用中，还可以通过下述方式对扩展模型进行模型训练，具体可以参见下述步骤B2~步骤B12的处理。

在步骤B2中，获取包含目标主体的源图像样本。

在步骤B4中，通过预设的掩模源图像样本进行拆分处理，得到包含第一主体的前景图像样本和待承载第一主体的背景图像样本，以及将前景图像样本合成于背景图像样本中时背景图像样本中前景图像样本所在的样本区域信息，并获取前景图像样本的样本合成控制信息，样本合成控制信息用于控制前景图像样本的合成状态。

在步骤B6中，通过前景编码器对前景图像样本进行特征提取，得到前景图像样本对应的第一全局特征和第一局部特征。

在步骤B8中，通过第一编码器对背景图像样本进行特征提取，得到背景图像样本对应的样本图像特征，并通过第一编码器对源图像样本进行特征提取，得到源图像样本对应的源图像特征。

在步骤B10中，对源图像特征进行加噪处理，得到加噪源图像特征。

在步骤B12中，基于前景图像样本对应的第一全局特征和第一局部特征，以及样本图像特征、样本区域信息、前景图像样本的样本合成控制信息、加噪源图像特征和预设的损失函数，对可控生成子模型、前景编码器和第一编码器进行联合训练，得到训练后的扩展模型。

本说明书实施例提供一种图像的合成方法，通过获取包含目标主体的前景图像和待承载该目标主体的背景图像，以及将该前景图像合成于该背景图像中时该背景图像中该前景图像所在的区域信息和该前景图像的合成控制信息，该合成控制信息用于控制该前景图像的合成状态，然后，可以通过预先训练的扩散模型中包含的前景编码器对该前景图像进行特征提取，得到该前景图像对应的前景全局特征和前景局部特征，并通过该扩散模型中包含的第一编码器对该背景图像进行特征提取，得到该背景图像对应的背景图像特征，最终，可以将该前景图像对应的前景全局特征和前景局部特征，以及该背景图像特征、该区域信息和该前景图像的合成控制信息输入到该扩散模型中包含的可控生成子模型中，以通过该前景图像的合成控制信息控制该可控生成子模型将该前景全局特征融合到该背景图像特征中，并将该前景局部特征融合到该背景图像特征中该区域信息对应的图像特征中，得到该前景图像与该背景图像的合成图像，这样，从给定的一张前景图像和一张背景图像上直接端到端生成合成图像，从而无需依赖多个步骤来合成图像，此外，在实际应用场景中，当前景图像与背景图像适配时，通过前景图像的合成控制信息来控制前景图像的合成状态，最终，通过模型合成相应的图像，从而实现了可控的图像合成，此外，通过上述方式还可以提升图像合成的过程中前景图像的保真度。

以上为本说明书实施例提供的图像的合成方法，基于同样的思路，本说明书实施例还提供一种图像的合成装置，如图8所示。

该图像的合成装置包括：信息获取模块801、特征提取模块802和图像合成模块803，其中：

信息获取模块801，获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态；

特征提取模块802，对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征；

图像合成模块803，将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例中，所述区域信息包括区域位置、区域大小和区域尺寸中的一种或多种，所述前景图像的合成控制信息包括由所述前景图像的光照控制信息和/或所述前景图像中所述目标主体的姿态控制信息构成的控制信息。

本说明书实施例中，所述前景图像的合成控制信息为二维向量，所述二维向量由所述前景图像的光照控制信息和所述前景图像中所述目标主体的姿态控制信息构成，所述前景图像的光照控制信息包括保留所述前景图像的光照和不保留所述前景图像的光照，所述前景图像中所述目标主体的姿态控制信息包括保留所述前景图像中所述目标主体的姿态和不保留所述前景图像中所述目标主体的姿态。

本说明书实施例中，所述特征提取模块802，通过预先训练的前景编码器中包含的第一子编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征，并通过所述前景编码器中包含的第二子编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景局部特征，所述第一子编码器和所述第二子编码器中包括相互进行参数共享的模块。

本说明书实施例中，所述可控生成模型包括残差块、局部增强模块和Transformer块，所述图像合成模块803：

将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中：

通过所述残差块对所述背景图像特征、所述区域信息和所述前景图像的合成控制信息进行处理，得到第一输出数据；

将所述第一输出数据和所述前景全局特征输入到所述Transformer块中，以通过所述第一输出数据中表征前景图像的合成控制信息的数据控制所述Transformer块将所述前景全局特征融合到所述第一输出数据中表征所述背景图像特征的数据中，得到第二输出数据；

将所述第二输出数据、所述前景图像的合成控制信息和所述前景局部特征输入到所述局部增强模块中，以通过所述前景图像的合成控制信息控制所述局部增强模块将所述前景局部特征融合到所述第二输出数据中表征所述区域信息对应的图像特征的数据中；

得到所述前景图像与所述背景图像的合成图像。

本说明书实施例中，所述局部增强模块包括第一处理层、交叉注意力层、对齐层、第一卷积层、第二卷积层、规范化层、第一元素相乘操作层、第一元素融合层和第二元素融合层，所述图像合成模块803，将所述第二输出数据、所述前景图像的合成控制信息和所述前景局部特征输入到所述局部增强模块中，通过所述第一处理层对所述第二输出数据和所述前景图像的合成控制信息进行处理，得到第一处理信息；通过所述交叉注意力层对所述第一处理信息和所述前景局部特征进行交叉注意力处理，得到第二处理信息；通过所述对齐层，使用所述交叉注意力层对应的注意力图对所述前景局部特征进行对齐处理，得到对齐后的前景局部特征；通过所述第一卷积层对所述对齐后的前景局部特征进行卷积处理，得到第一卷积结果，并通过所述第二卷积层对所述对齐后的前景局部特征进行卷积处理，得到第二卷积结果；通过所述规范化层对所述第二处理信息进行规划范处理，得到第三处理信息；将所述第三处理信息和所述第一卷积结果经过所述第一元素相乘操作层进行相乘操作，得到相乘结果；将所述相乘结果和所述第二卷积结果经过所述第一元素融合层进行融合处理，得到第一融合结果；将所述第一融合结果和所述第二输出数据经过所述第二元素融合层进行融合处理，以将所述前景局部特征融合到所述第二输出数据中表征所述区域信息对应的图像特征的数据中。

本说明书实施例中，所述装置还包括：

样本获取模块，获取包含目标主体的源图像样本；

样本信息获取模块，通过预设的掩模对所述源图像样本进行拆分处理，得到包含第一主体的前景图像样本和待承载所述第一主体的背景图像样本，以及将所述前景图像样本合成于所述背景图像样本中时所述背景图像样本中所述前景图像样本所在的样本区域信息，并获取所述前景图像样本的样本合成控制信息，所述样本合成控制信息用于控制所述前景图像样本的合成状态；

样本特征提取模块，对所述前景图像样本进行特征提取，得到所述前景图像样本对应的第一全局特征和第一局部特征，并对所述背景图像样本进行特征提取，得到所述背景图像样本对应的样本图像特征，对所述源图像样本进行特征提取，得到所述源图像样本对应的源图像特征；

模型训练模型，基于所述前景图像样本对应的第一全局特征和第一局部特征，以及所述样本图像特征、所述样本区域信息、所述前景图像样本的样本合成控制信息、所述源图像特征和预设的损失函数，对所述可控生成模型进行模型训练，得到训练后的可控生成模型。

本说明书实施例中，所述样本特征提取模块，包括：

第一特征提取单元，通过所述前景编码器对所述前景图像样本进行特征提取，得到所述前景图像样本对应的第一全局特征和第一局部特征；

第二特征提取单元，通过第一编码器对所述背景图像样本进行特征提取，得到所述背景图像样本对应的样本图像特征，并通过所述第一编码器对所述源图像样本进行特征提取，得到所述源图像样本对应的源图像特征；

所述模型训练模型，包括：

加噪单元，对所述源图像特征进行加噪处理，得到加噪源图像特征；

模型训练单元，基于所述前景图像样本对应的第一全局特征和第一局部特征，以及所述样本图像特征、所述样本区域信息、所述前景图像样本的样本合成控制信息、所述加噪源图像特征和预设的损失函数，对所述可控生成模型、所述前景编码器和所述第一编码器进行联合训练，得到训练后的可控生成模型、训练后的前景编码器和训练后的第一编码器。

本说明书实施例提供一种图像的合成装置，通过获取包含目标主体的前景图像和待承载该目标主体的背景图像，以及将该前景图像合成于该背景图像中时该背景图像中该前景图像所在的区域信息和该前景图像的合成控制信息，该合成控制信息用于控制该前景图像的合成状态，然后，可以对该前景图像进行特征提取，得到该前景图像对应的前景全局特征和前景局部特征，并对该背景图像进行特征提取，得到该背景图像对应的背景图像特征，最终，可以将该前景图像对应的前景全局特征和前景局部特征，以及该背景图像特征、该区域信息和该前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过该前景图像的合成控制信息控制该可控生成模型将该前景全局特征融合到该背景图像特征中，并将该前景局部特征融合到该背景图像特征中该区域信息对应的图像特征中，得到该前景图像与该背景图像的合成图像，这样，从给定的一张前景图像和一张背景图像上直接端到端生成合成图像，从而无需依赖多个步骤来合成图像，此外，在实际应用场景中，当前景图像与背景图像适配时，通过前景图像的合成控制信息来控制前景图像的合成状态，最终，通过模型合成相应的图像，从而实现了可控的图像合成，此外，通过上述方式还可以提升图像合成的过程中前景图像的保真度。

基于同样的思路，本说明书实施例还提供一种图像的合成装置，如图9所示。

该图像的合成装置包括：图像获取模块901、特征提取模块902和合成模块903，其中：

图像获取模块901，获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态；

特征提取模块902，通过预先训练的扩散模型中包含的前景编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并通过所述扩散模型中包含的第一编码器对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征；

合成模块903，将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书实施例提供一种图像的合成装置，通过获取包含目标主体的前景图像和待承载该目标主体的背景图像，以及将该前景图像合成于该背景图像中时该背景图像中该前景图像所在的区域信息和该前景图像的合成控制信息，该合成控制信息用于控制该前景图像的合成状态，然后，可以通过预先训练的扩散模型中包含的前景编码器对该前景图像进行特征提取，得到该前景图像对应的前景全局特征和前景局部特征，并通过该扩散模型中包含的第一编码器对该背景图像进行特征提取，得到该背景图像对应的背景图像特征，最终，可以将该前景图像对应的前景全局特征和前景局部特征，以及该背景图像特征、该区域信息和该前景图像的合成控制信息输入到该扩散模型中包含的可控生成子模型中，以通过该前景图像的合成控制信息控制该可控生成子模型将该前景全局特征融合到该背景图像特征中，并将该前景局部特征融合到该背景图像特征中该区域信息对应的图像特征中，得到该前景图像与该背景图像的合成图像，这样，从给定的一张前景图像和一张背景图像上直接端到端生成合成图像，从而无需依赖多个步骤来合成图像，此外，在实际应用场景中，当前景图像与背景图像适配时，通过前景图像的合成控制信息来控制前景图像的合成状态，最终，通过模型合成相应的图像，从而实现了可控的图像合成，此外，通过上述方式还可以提升图像合成的过程中前景图像的保真度。

以上为本说明书实施例提供的图像的合成装置，基于同样的思路，本说明书实施例还提供一种图像的合成设备，如图10所示。

所述图像的合成设备可以为上述实施例提供终端设备或服务器等。

图像的合成设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1001和存储器1002，存储器1002中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1002可以是短暂存储或持久存储。存储在存储器1002的应用程序可以包括一个或一个以上模块（图示未示出），每个模块可以包括对图像的合成设备中的一系列计算机可执行指令。更进一步地，处理器1001可以设置为与存储器1002通信，在图像的合成设备上执行存储器1002中的一系列计算机可执行指令。图像的合成设备还可以包括一个或一个以上电源1003，一个或一个以上有线或无线网络接口1004，一个或一个以上输入输出接口1005，一个或一个以上键盘1006。

具体在本实施例中，图像的合成设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对图像的合成设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态；

对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征；

将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

此外，具体在本实施例中，图像的合成设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对图像的合成设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

通过预先训练的扩散模型中包含的前景编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并通过所述扩散模型中包含的第一编码器对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征；

将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于图像的合成设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供一种图像的合成设备，通过获取包含目标主体的前景图像和待承载该目标主体的背景图像，以及将该前景图像合成于该背景图像中时该背景图像中该前景图像所在的区域信息和该前景图像的合成控制信息，该合成控制信息用于控制该前景图像的合成状态，然后，可以对该前景图像进行特征提取，得到该前景图像对应的前景全局特征和前景局部特征，并对该背景图像进行特征提取，得到该背景图像对应的背景图像特征，最终，可以将该前景图像对应的前景全局特征和前景局部特征，以及该背景图像特征、该区域信息和该前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过该前景图像的合成控制信息控制该可控生成模型将该前景全局特征融合到该背景图像特征中，并将该前景局部特征融合到该背景图像特征中该区域信息对应的图像特征中，得到该前景图像与该背景图像的合成图像，这样，从给定的一张前景图像和一张背景图像上直接端到端生成合成图像，从而无需依赖多个步骤来合成图像，此外，在实际应用场景中，当前景图像与背景图像适配时，通过前景图像的合成控制信息来控制前景图像的合成状态，最终，通过模型合成相应的图像，从而实现了可控的图像合成，此外，通过上述方式还可以提升图像合成的过程中前景图像的保真度。

进一步地，基于上述图1到图7所示的方法，本说明书一个或多个实施例还提供了一种存储介质，用于存储计算机可执行指令信息，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令信息在被处理器执行时，能实现以下流程：

此外，在另一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令信息在被处理器执行时，能实现以下流程：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于上述一种存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供一种存储介质，通过获取包含目标主体的前景图像和待承载该目标主体的背景图像，以及将该前景图像合成于该背景图像中时该背景图像中该前景图像所在的区域信息和该前景图像的合成控制信息，该合成控制信息用于控制该前景图像的合成状态，然后，可以对该前景图像进行特征提取，得到该前景图像对应的前景全局特征和前景局部特征，并对该背景图像进行特征提取，得到该背景图像对应的背景图像特征，最终，可以将该前景图像对应的前景全局特征和前景局部特征，以及该背景图像特征、该区域信息和该前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过该前景图像的合成控制信息控制该可控生成模型将该前景全局特征融合到该背景图像特征中，并将该前景局部特征融合到该背景图像特征中该区域信息对应的图像特征中，得到该前景图像与该背景图像的合成图像，这样，从给定的一张前景图像和一张背景图像上直接端到端生成合成图像，从而无需依赖多个步骤来合成图像，此外，在实际应用场景中，当前景图像与背景图像适配时，通过前景图像的合成控制信息来控制前景图像的合成状态，最终，通过模型合成相应的图像，从而实现了可控的图像合成，此外，通过上述方式还可以提升图像合成的过程中前景图像的保真度。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device，PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书的实施例是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器，使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器（CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种图像的合成方法，所述方法包括：

将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像；

所述可控生成模型通过神经网络构建，或者，所述可控生成模型通过分类算法和其他算法联合构建，或者，所述可控生成模型通过残差块、局部增强模块和Transformer块构建，所述可控生成模型是基于包含指定主体的前景图像样本和待承载该指定主体的背景图像样本，以及将前景图像样本合成于背景图像样本中时背景图像样本中前景图像样本所在的样本区域信息和前景图像样本的样本合成控制信息进行模型训练，直到预设的损失函数收敛而得到的训练后的可控生成模型。

2.根据权利要求1所述的方法，所述区域信息包括区域位置、区域大小和区域尺寸中的一种或多种，所述前景图像的合成控制信息包括由所述前景图像的光照控制信息和/或所述前景图像中所述目标主体的姿态控制信息构成的控制信息。

3.根据权利要求2所述的方法，所述前景图像的合成控制信息为二维向量，所述二维向量由所述前景图像的光照控制信息和所述前景图像中所述目标主体的姿态控制信息构成，所述前景图像的光照控制信息包括保留所述前景图像的光照和不保留所述前景图像的光照，所述前景图像中所述目标主体的姿态控制信息包括保留所述前景图像中所述目标主体的姿态和不保留所述前景图像中所述目标主体的姿态。

4.根据权利要求3所述的方法，所述对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，包括：

通过预先训练的前景编码器中包含的第一子编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征，并通过所述前景编码器中包含的第二子编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景局部特征，所述第一子编码器和所述第二子编码器中包括相互进行参数共享的模块。

5.根据权利要求1-4中任一项所述的方法，所述可控生成模型包括残差块、局部增强模块和Transformer块，所述将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像，包括：

得到所述前景图像与所述背景图像的合成图像。

6.根据权利要求5所述的方法，所述局部增强模块包括第一处理层、交叉注意力层、对齐层、第一卷积层、第二卷积层、规范化层、第一元素相乘操作层、第一元素融合层和第二元素融合层，所述将所述第二输出数据、所述前景图像的合成控制信息和所述前景局部特征输入到所述局部增强模块中，以通过所述前景图像的合成控制信息控制所述局部增强模块将所述前景局部特征融合到所述第二输出数据中表征所述区域信息对应的图像特征的数据中，包括：

将所述第二输出数据、所述前景图像的合成控制信息和所述前景局部特征输入到所述局部增强模块中，通过所述第一处理层对所述第二输出数据和所述前景图像的合成控制信息进行处理，得到第一处理信息；通过所述交叉注意力层对所述第一处理信息和所述前景局部特征进行交叉注意力处理，得到第二处理信息；通过所述对齐层，使用所述交叉注意力层对应的注意力图对所述前景局部特征进行对齐处理，得到对齐后的前景局部特征；通过所述第一卷积层对所述对齐后的前景局部特征进行卷积处理，得到第一卷积结果，并通过所述第二卷积层对所述对齐后的前景局部特征进行卷积处理，得到第二卷积结果；通过所述规范化层对所述第二处理信息进行规划范处理，得到第三处理信息；将所述第三处理信息和所述第一卷积结果经过所述第一元素相乘操作层进行相乘操作，得到相乘结果；将所述相乘结果和所述第二卷积结果经过所述第一元素融合层进行融合处理，得到第一融合结果；将所述第一融合结果和所述第二输出数据经过所述第二元素融合层进行融合处理，以将所述前景局部特征融合到所述第二输出数据中表征所述区域信息对应的图像特征的数据中。

7.根据权利要求6所述的方法，所述方法还包括：

获取包含目标主体的源图像样本；

通过预设的掩模对所述源图像样本进行拆分处理，得到包含第一主体的前景图像样本和待承载所述第一主体的背景图像样本，以及将所述前景图像样本合成于所述背景图像样本中时所述背景图像样本中所述前景图像样本所在的样本区域信息，并获取所述前景图像样本的样本合成控制信息，所述样本合成控制信息用于控制所述前景图像样本的合成状态；

对所述前景图像样本进行特征提取，得到所述前景图像样本对应的第一全局特征和第一局部特征，并对所述背景图像样本进行特征提取，得到所述背景图像样本对应的样本图像特征，对所述源图像样本进行特征提取，得到所述源图像样本对应的源图像特征；

基于所述前景图像样本对应的第一全局特征和第一局部特征，以及所述样本图像特征、所述样本区域信息、所述前景图像样本的样本合成控制信息、所述源图像特征和预设的损失函数，对所述可控生成模型进行模型训练，得到训练后的可控生成模型。

8.根据权利要求7所述的方法，所述对所述前景图像样本进行特征提取，得到所述前景图像样本对应的第一全局特征和第一局部特征，并对所述背景图像样本进行特征提取，得到所述背景图像样本对应的样本图像特征，对所述源图像样本进行特征提取，得到所述源图像样本对应的源图像特征，包括：

通过所述前景编码器对所述前景图像样本进行特征提取，得到所述前景图像样本对应的第一全局特征和第一局部特征；

通过第一编码器对所述背景图像样本进行特征提取，得到所述背景图像样本对应的样本图像特征，并通过所述第一编码器对所述源图像样本进行特征提取，得到所述源图像样本对应的源图像特征；

基于所述前景图像样本对应的第一全局特征和第一局部特征，以及所述样本图像特征、所述样本区域信息、所述前景图像样本的样本合成控制信息、所述源图像特征和预设的损失函数，对所述可控生成模型进行模型训练，得到训练后的可控生成模型，包括：

对所述源图像特征进行加噪处理，得到加噪源图像特征；

基于所述前景图像样本对应的第一全局特征和第一局部特征，以及所述样本图像特征、所述样本区域信息、所述前景图像样本的样本合成控制信息、所述加噪源图像特征和预设的损失函数，对所述可控生成模型、所述前景编码器和所述第一编码器进行联合训练，得到训练后的可控生成模型、训练后的前景编码器和训练后的第一编码器。

9.一种图像的合成方法，所述方法包括：

将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像；

所述可控生成子模型通过神经网络构建，或者，所述可控生成子模型通过分类算法和其他算法联合构建，或者，所述可控生成子模型通过残差块、局部增强模块和Transformer块构建，所述可控生成子模型是基于包含指定主体的前景图像样本和待承载该指定主体的背景图像样本，以及将前景图像样本合成于背景图像样本中时背景图像样本中前景图像样本所在的样本区域信息和前景图像样本的样本合成控制信息进行模型训练，直到预设的损失函数收敛而得到的训练后的可控生成子模型。

10.一种图像的合成装置，所述装置包括：

信息获取模块，获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态；

特征提取模块，对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征；

图像合成模块，将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到预先训练的可控生成模型中，以通过所述前景图像的合成控制信息控制所述可控生成模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像；

11.一种图像的合成装置，所述装置包括：

图像获取模块，获取包含目标主体的前景图像和待承载所述目标主体的背景图像，以及将所述前景图像合成于所述背景图像中时所述背景图像中所述前景图像所在的区域信息和所述前景图像的合成控制信息，所述合成控制信息用于控制所述前景图像的合成状态；

特征提取模块，通过预先训练的扩散模型中包含的前景编码器对所述前景图像进行特征提取，得到所述前景图像对应的前景全局特征和前景局部特征，并通过所述扩散模型中包含的第一编码器对所述背景图像进行特征提取，得到所述背景图像对应的背景图像特征；

合成模块，将所述前景图像对应的前景全局特征和前景局部特征，以及所述背景图像特征、所述区域信息和所述前景图像的合成控制信息输入到所述扩散模型中包含的可控生成子模型中，以通过所述前景图像的合成控制信息控制所述可控生成子模型将所述前景全局特征融合到所述背景图像特征中，并将所述前景局部特征融合到所述背景图像特征中所述区域信息对应的图像特征中，得到所述前景图像与所述背景图像的合成图像；

12.一种图像的合成设备，所述图像的合成设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

13.一种图像的合成设备，所述图像的合成设备包括：

处理器；以及