CN118015418A

CN118015418A - 场景图像合成方法及装置

Info

Publication number: CN118015418A
Application number: CN202410266730.XA
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-05-10

Abstract

本公开提供了一种场景图像合成方法及装置。该方法包括：构建特征提取分支和特征融合分支，利用特征提取分支、特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；获取待合成的目标图像和目标背景图像，将目标图像和目标背景图像输入场景图像合成模型：通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征；通过多模态编码器提取目标背景图像的目标背景多模态特征；通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像。

Description

场景图像合成方法及装置

技术领域

本公开涉及图像处理技术领域，尤其涉及一种场景图像合成方法及装置。

背景技术

为目标图像配合给定的背景，生成自然融合的目标场景图，这项技术在图像合成、效果图渲染、海报设计以及虚拟试穿等多个应用领域均表现出广泛的实用性。目前图像与背景合成新的场景图像质量不高，无法完全保留图像中目标的细节信息，目标无法适应场景中的局部变化(包括图像中的光线和目标姿态)，无法实现目标与各种环境场景之间的无缝适配。

发明内容

有鉴于此，本公开实施例提供了一种场景图像合成方法、装置、电子设备及计算机可读存储介质，以解决现有技术中使用图像与背景合成新的场景图像质量低的问题。

本公开实施例第一方面，提供了一种场景图像合成方法，包括：构建特征提取分支和特征融合分支，利用特征提取分支、特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；获取待合成的目标图像和目标背景图像，将目标图像和目标背景图像输入场景图像合成模型：通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征；通过多模态编码器提取目标背景图像的目标背景多模态特征；通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像。

本公开实施例第二方面，提供了一种场景图像合成装置，包括：建模模块，被配置为构建特征提取分支和特征融合分支，利用特征提取分支、特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；获取模块，被配置为获取待合成的目标图像和目标背景图像，将目标图像和目标背景图像输入场景图像合成模型：特征提取模块，被配置为通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；特征融合模块，被配置为通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征；多模态编码模块，被配置为通过多模态编码器提取目标背景图像的目标背景多模态特征；合成模块，被配置为通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在有益效果是：构建特征提取分支和特征融合分支，利用特征提取分支、特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；获取待合成的目标图像和目标背景图像，将目标图像和目标背景图像输入场景图像合成模型：通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征；通过多模态编码器提取目标背景图像的目标背景多模态特征；通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像。采用上述技术手段，可以解决现有技术中使用图像与背景合成新的场景图像质量低的问题，进而保留图像中目标的细节信息，使得目标适应场景中的局部变化，实现目标与环境场景之间的无缝适配。

附图说明

为了更清楚地说明本公开实施例中技术方案，下面将对实施例或现有技术描述中所需要使用附图作简单地介绍，显而易见地，下面描述中附图仅仅是本公开一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其它附图。

图1是本公开实施例提供一种场景图像合成方法的流程示意图；

图2是本公开实施例提供一种场景图像合成模型训练方法的流程示意图；

图3是本公开实施例提供一种场景图像合成装置结构示意图；

图4是本公开实施例提供一种电子设备结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类具体细节，以便透彻理解本公开实施例。然而，本领域技术人员应当清楚，在没有这些具体细节其它实施例中也可以实现本公开。在其它情况中，省略对众所周知系统、装置、电路以及方法详细说明，以免不必要细节妨碍本公开描述。

下面将结合附图详细说明根据本公开实施例一种场景图像合成方法和装置。

图1是本公开实施例提供一种场景图像合成方法的流程示意图。图1场景图像合成方法可以由计算机或服务器，或者计算机或服务器上软件执行。如图1所示，该场景图像合成方法包括：

S101，构建特征提取分支和特征融合分支，利用特征提取分支、特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；

S102，获取待合成的目标图像和目标背景图像，将目标图像和目标背景图像输入场景图像合成模型：

S103，通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；

S104，通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征；

S105，通过多模态编码器提取目标背景图像的目标背景多模态特征；

S106，通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像。

特征提取分支、特征融合分支、多模态编码器并行后连接到扩散网络上，得到场景图像合成模型。扩散模型用于对特征提取分支、特征融合分支、多模态编码器的输出进行处理，得到目标场景图像。

目标图像是关于目标对象的图像，目标背景图像是关于风景等各种场景的图像，场景图像合成模型将目标背景图像作为背景，与目标图像中的目标对象融合，得到目标对象在该背景下的目标场景图像。

根据本申请实施例提供技术方案，构建特征提取分支和特征融合分支，利用特征提取分支、特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；获取待合成的目标图像和目标背景图像，将目标图像和目标背景图像输入场景图像合成模型：通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征；通过多模态编码器提取目标背景图像的目标背景多模态特征；通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像。采用上述技术手段，可以解决现有技术中使用图像与背景合成新的场景图像质量低的问题，进而保留图像中目标的细节信息，使得目标适应场景中的局部变化，实现目标与环境场景之间的无缝适配。

进一步地，构建特征提取分支和特征融合分支，包括：利用分割网络、特征提取网络、边缘检测网络和关键点检测网络构建特征提取分支；利用图像编码器和特征融合网络构建特征融合分支，其中，特征提取分支中的边缘检测网络和关键点检测网络均与特征融合网络存在连接，特征融合网络用于融合图像编码器、边缘检测网络和关键点检测网络的输出。

分割网络可以使用轻量级语义分割网络BiseNetv2，分割网络可以是预训练后的模型；特征提取网络可以使用DINO-V2(Deep Implicit Negative Online)后接多个线性层的架构，DINO-V2可以是预训练后的模型；边缘检测网络使用高通滤波canny算子对其输入进行卷积的网络，边缘检测网络不需要进行优化(预训练后的模型也可以不需要进行优化)；关键点检测网络可以使用PFLD(Practical Facial Landmark Detector)模型，PFLD是一种用于面部特征点检测的深度学习模型，PFLD可以是预训练后的模型。分割网络后连接并行的特征提取网络、边缘检测网络和关键点检测网络三个网络，得到特征提取分支。

图像编码器可以使用VIT图像编码器(Vision Transformer)，图像编码器可以是预训练后的模型；特征融合网络是通过拼接的方法将其输入的多个特征融合到一起。连接图像编码器和特征融合网络，得到特征融合分支。特征提取分支中的边缘检测网络和关键点检测网络的输出侧均连接到特征融合网络的输入侧(图像编码器也是输出侧连接到特征融合网络的输入侧)，特征融合网络用于融合图像编码器、边缘检测网络和关键点检测网络的输出。

多模态编码器可以使用BLIP2模型，BLIP2模型是一种视觉语言预训练后的模型，它在多模态任务上实现了开放性的多模态内容理解与生成。该模型引入了编码器-解码器的多模态混合结构MED(Multimodal mixture of Encoder-Decoder)。扩散网络可以使用Stablediffusion，Stablediffusion是采用UNet架构的一个预训练后的模型。

综上，只有特征提取分支中的边缘检测网络和特征提取网络中的多个线性层是没有训练的网络，因为边缘检测网络使用高通滤波canny算子，所以实际上边缘检测网络不需要进行优化，所以构建的场景图像合成模型，只需要调优下特征提取分支中特征提取网络中的多个线性层即可使用场景图像合成模型，该训练量是很小的。为了进一步提升场景图像合成模型的精度，还可以调优扩散网络。如果再进一步提升场景图像合成模型的精度，就优化场景图像合成模型中所有网络。

更进一步地，通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征，包括：将目标图像输入特征提取分支，在特征提取分支内部：通过分割网络分割出目标图像中目标对象对应的部分，得到目标分割图像；通过特征提取网络提取目标分割图像的目标对象特征；通过边缘检测网络提取目标分割图像的目标边缘特征；通过关键点检测网络提取目标分割图像的目标关键点特征。

目标对象是目标图像中的一个主体，目标图像还包含其它的对象以及环境等信息。分割网络是从目标图像中分割出目标对象对应的部分，也就是目标分割图像。然后特征提取网络、边缘检测网络和关键点检测网络分别提取出目标分割图像的目标对象特征、目标边缘特征和目标关键点特征。

更进一步地，通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征，包括：将目标图像输入特征融合分支，在特征融合分支内部：通过图像编码器提取目标背景图像的目标背景编码特征；通过特征融合网络融合目标边缘特征、目标关键点特征和目标背景编码特征，得到目标融合特征，其中，目标边缘特征是边缘检测网络的输出，目标关键点特征是关键点检测网络的输出。

特征融合网络可以是通过特征拼接融合目标边缘特征、目标关键点特征和目标背景编码特征。

进一步地，通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像，包括：扩散网络包括多个编码器和多个解码器两部分组成，各个编码器和各个解码器均包含注意力层；将随机生成的噪声作为扩散网络中第一个编码器的输入，将目标对象特征作为扩散网络中所有注意力层的输入，将目标背景多模态特征与扩散网络中各个编码器的输出融合以更新各个编码器的输出，将目标融合特征与扩散网络中各个解码器输出融合以更新各个解码器的输出，扩散网络中的最后一个解码器输出目标场景图像。

具体地，在扩散模型内部：通过第一个编码器处理随机生成的噪声和从该编码器的注意力层输入的目标对象特征，得到第一个编码特征，使用目标背景多模态特征与第一个编码特征拼接后的特征更新第一个编码特征；第二个编码器处理更新的第一编码特征和从该编码器的注意力层输入的目标对象特征，得到第二个编码特征，使用目标背景多模态特征与第二个编码特征拼接后的特征更新第二个编码特征……最后一个编码器处理倒数第二个编码器更新的编码特征和从该编码器的注意力层输入的目标对象特征，得到最后一个编码特征，使用目标背景多模态特征与最后一个编码特征拼接后的特征更新最后一个编码特征。通过第一个解码器处理更新的最后一个编码特征和从该解码器的注意力层输入的目标对象特征，得到第一个解码特征，使用目标融合特征与第一个解码特征拼接后的特征更新第一个解码特征；通过第二个解码器处理更新的第一个解码特征和从该解码器的注意力层输入的目标对象特征，得到第二个解码特征，使用目标融合特征与第二个解码特征拼接后的特征更新第二个解码特征……通过最后一个解码器处理倒数第二个编码器更新的解码特征和从该解码器的注意力层输入的目标对象特征，得到最后一个解码特征，使用目标融合特征与最后一个解码特征拼接后的特征更新最后一个解码特征。最后一个解码特征即是目标场景图像。

图2是本公开实施例提供一种图片增强模型训练方法的流程示意图，如图2所示，该方法包括：

S201，获取训练图像以及背景图像，将训练图像和背景图像输入场景图像合成模型：

S202，通过特征提取分支处理训练图像，得到对象特征、边缘特征和关键点特征；

S203，通过特征融合分支处理背景图像、边缘特征和关键点特征，得到融合特征；

S204，通过多模态编码器提取背景图像的背景多模态特征；

S205，将随机生成的第一噪声作为扩散网络中第一个编码器的输入，将对象特征作为扩散网络中所有注意力层的输入，将背景多模态特征与扩散网络中各个编码器的输出融合以更新各个编码器的输出，将融合特征与扩散网络中各个解码器输出融合以更新各个解码器的输出，其中，扩散网络中的最后一个解码器输出训练图像和背景图像对应的场景图像，所有解码器是通过预测的第二噪声对扩散网络中最后一个编码器的输出进行解码，得到场景图像；

S206，通过均方差损失函数计算第一噪声和第二噪声之间的噪声损失，依据噪声损失优化场景图像合成模型的模型参数，以完成对场景图像合成模型的训练。

场景图像合成模型融合训练图像和背景图像，得到场景图像。本阶段是训练阶段，上文是推理阶段(模型正式使用的阶段)。训练阶段与推理阶段相对应，所以不再赘述训练阶段的具体过程。

其中，依据噪声损失优化场景图像合成模型的模型参数，主要是优化身份编码及调整分支中的适配网络，图像编码指导分支中的控制网络，多模态融合分支中的多层感知机以及扩散网络的模型参数。

在一个可选实施例中，通过均方差损失函数计算训练图像中对象与场景图像中对象之间的对象损失；通过均方差损失函数计算背景图像与场景图像中除对象之外部分之间的场景损失；按照预设权重对噪声损失、对象损失和场景损失加权求和，得到总损失，依据总损失优化场景图像合成模型的模型参数，以完成对场景图像合成模型的训练。

对象损失是约束场景图像相对于训练图像的保真度，对象损失能让场景图像保留训练图像中对象的尽可能多的信息。场景损失是约束场景图像相对于背景图像的保真度，对象损失能让场景图像保留背景图像尽可能多的信息。

上述所有可选技术方案，可以采用任意结合形成本申请可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露细节，请参照本公开方法实施例。

图3是本公开实施例提供一种场景图像合成装置示意图。如图3所示，该场景图像合成装置包括：

建模模块301，被配置为构建特征提取分支和特征融合分支，利用特征提取分支、特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；

获取模块302，被配置为获取待合成的目标图像和目标背景图像，将目标图像和目标背景图像输入场景图像合成模型：

特征提取模块303，被配置为通过特征提取分支处理目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；

特征融合模块304，被配置为通过特征融合分支处理目标背景图像、目标边缘特征和目标关键点特征，得到目标融合特征；

多模态编码模块305，被配置为通过多模态编码器提取目标背景图像的目标背景多模态特征；

合成模块306，被配置为通过扩散网络处理目标对象特征、目标融合特征和目标背景多模态特征，得到目标图像和目标图像对应的目标场景图像。

在一些实施例中，建模模块301还被配置为利用分割网络、特征提取网络、边缘检测网络和关键点检测网络构建特征提取分支；利用图像编码器和特征融合网络构建特征融合分支，其中，特征提取分支中的边缘检测网络和关键点检测网络均与特征融合网络存在连接，特征融合网络用于融合图像编码器、边缘检测网络和关键点检测网络的输出。

在一些实施例中，特征提取模块303还被配置为将目标图像输入特征提取分支，在特征提取分支内部：通过分割网络分割出目标图像中目标对象对应的部分，得到目标分割图像；通过特征提取网络提取目标分割图像的目标对象特征；通过边缘检测网络提取目标分割图像的目标边缘特征；通过关键点检测网络提取目标分割图像的目标关键点特征。

在一些实施例中，特征融合模块304还被配置为将目标图像输入特征融合分支，在特征融合分支内部：通过图像编码器提取目标背景图像的目标背景编码特征；通过特征融合网络融合目标边缘特征、目标关键点特征和目标背景编码特征，得到目标融合特征，其中，目标边缘特征是边缘检测网络的输出，目标关键点特征是关键点检测网络的输出。

在一些实施例中，合成模块306还被配置为扩散网络包括多个编码器和多个解码器两部分组成，各个编码器和各个解码器均包含注意力层；将随机生成的噪声作为扩散网络中第一个编码器的输入，将目标对象特征作为扩散网络中所有注意力层的输入，将目标背景多模态特征与扩散网络中各个编码器的输出融合以更新各个编码器的输出，将目标融合特征与扩散网络中各个解码器输出融合以更新各个解码器的输出，扩散网络中的最后一个解码器输出目标场景图像。

在一些实施例中，建模模块301还被配置为获取训练图像以及背景图像，将训练图像和背景图像输入场景图像合成模型：通过特征提取分支处理训练图像，得到对象特征、边缘特征和关键点特征；通过特征融合分支处理背景图像、边缘特征和关键点特征，得到融合特征；通过多模态编码器提取背景图像的背景多模态特征；将随机生成的第一噪声作为扩散网络中第一个编码器的输入，将对象特征作为扩散网络中所有注意力层的输入，将背景多模态特征与扩散网络中各个编码器的输出融合以更新各个编码器的输出，将融合特征与扩散网络中各个解码器输出融合以更新各个解码器的输出，其中，扩散网络中的最后一个解码器输出训练图像和背景图像对应的场景图像，所有解码器是通过预测的第二噪声对扩散网络中最后一个编码器的输出进行解码，得到场景图像；通过均方差损失函数计算第一噪声和第二噪声之间的噪声损失，依据噪声损失优化场景图像合成模型的模型参数，以完成对场景图像合成模型的训练。

在一些实施例中，建模模块301还被配置为通过均方差损失函数计算训练图像中对象与场景图像中对象之间的对象损失；通过均方差损失函数计算背景图像与场景图像中除对象之外部分之间的场景损失；按照预设权重对噪声损失、对象损失和场景损失加权求和，得到总损失，依据总损失优化场景图像合成模型的模型参数，以完成对场景图像合成模型的训练。

应理解，上述实施例中各步骤序号大小并不意味着执行顺序先后，各过程执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例实施过程构成任何限定。

图4是本公开实施例提供电子设备4示意图。如图4所示，该实施例电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元功能。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4示例，并不构成对电子设备4限定，可以包括比图示更多或更少部件，或者不同部件。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器402可以是电子设备4内部存储单元，例如，电子设备4硬盘或内存。存储器402也可以是电子设备4外部存储设备，例如，电子设备4上配备插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器402还可以既包括电子设备4内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需其它程序和数据。

所属领域技术人员可以清楚地了解到，为了描述方便和简洁，仅以上述各功能单元、模块划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同功能单元、模块完成，即将装置内部结构划分成不同功能单元或模块，以完成以上描述全部或者部分功能。实施例中各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成单元既可以采用硬件形式实现，也可以采用软件功能单元形式实现。

集成模块/单元如果以软件功能单元形式实现并作为独立产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样理解，本公开实现上述实施例方法中全部或部分流程，也可以通过计算机程序来指令相关硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明是，计算机可读介质包含内容可以根据司法管辖区内立法和专利实践要求进行适当增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细说明，本领域普通技术人员应当理解：其依然可以对前述各实施例所记载技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案本质脱离本公开各实施例技术方案精神和范围，均应包含在本公开保护范围之内。

Claims

1.一种场景图像合成方法，其特征在于，包括：

构建特征提取分支和特征融合分支，利用所述特征提取分支、所述特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；

获取待合成的目标图像和目标背景图像，将所述目标图像和所述目标背景图像输入所述场景图像合成模型：

通过所述特征提取分支处理所述目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；

通过所述特征融合分支处理所述目标背景图像、所述目标边缘特征和所述目标关键点特征，得到目标融合特征；

通过所述多模态编码器提取所述目标背景图像的目标背景多模态特征；

通过所述扩散网络处理所述目标对象特征、所述目标融合特征和所述目标背景多模态特征，得到所述目标图像和所述目标图像对应的目标场景图像。

2.根据权利要求1所述的方法，其特征在于，构建特征提取分支和特征融合分支，包括：

利用分割网络、特征提取网络、边缘检测网络和关键点检测网络构建所述特征提取分支；

利用图像编码器和特征融合网络构建所述特征融合分支，其中，所述特征提取分支中的边缘检测网络和关键点检测网络均与所述特征融合网络存在连接，所述特征融合网络用于融合所述图像编码器、所述边缘检测网络和所述关键点检测网络的输出。

3.根据权利要求2所述的方法，其特征在于，通过所述特征提取分支处理所述目标图像，得到目标对象特征、目标边缘特征和目标关键点特征，包括：

将所述目标图像输入所述特征提取分支，在所述特征提取分支内部：

通过所述分割网络分割出所述目标图像中目标对象对应的部分，得到目标分割图像；

通过所述特征提取网络提取所述目标分割图像的目标对象特征；

通过所述边缘检测网络提取所述目标分割图像的目标边缘特征；

通过所述关键点检测网络提取所述目标分割图像的目标关键点特征。

4.根据权利要求2所述的方法，其特征在于，通过所述特征融合分支处理所述目标背景图像、所述目标边缘特征和所述目标关键点特征，得到目标融合特征，包括：

将所述目标图像输入所述特征融合分支，在所述特征融合分支内部：

通过所述图像编码器提取所述目标背景图像的目标背景编码特征；

通过特征融合网络融合所述目标边缘特征、所述目标关键点特征和所述目标背景编码特征，得到所述目标融合特征，其中，所述目标边缘特征是所述边缘检测网络的输出，所述目标关键点特征是所述关键点检测网络的输出。

5.根据权利要求1所述的方法，其特征在于，通过所述扩散网络处理所述目标对象特征、所述目标融合特征和所述目标背景多模态特征，得到所述目标图像和所述目标图像对应的目标场景图像，包括：

所述扩散网络包括多个编码器和多个解码器两部分组成，各个编码器和各个解码器均包含注意力层；

将随机生成的噪声作为所述扩散网络中第一个编码器的输入，将所述目标对象特征作为所述扩散网络中所有注意力层的输入，将所述目标背景多模态特征与所述扩散网络中各个编码器的输出融合以更新各个编码器的输出，将所述目标融合特征与所述扩散网络中各个解码器输出融合以更新各个解码器的输出，所述扩散网络中的最后一个解码器输出所述目标场景图像。

6.根据权利要求1所述的方法，其特征在于，利用所述特征提取分支、所述特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型之后，所述方法还包括：

获取训练图像以及背景图像，将所述训练图像和所述背景图像输入所述场景图像合成模型：

通过所述特征提取分支处理所述训练图像，得到对象特征、边缘特征和关键点特征；

通过所述特征融合分支处理所述背景图像、所述边缘特征和所述关键点特征，得到融合特征；

通过所述多模态编码器提取所述背景图像的背景多模态特征；

将随机生成的第一噪声作为所述扩散网络中第一个编码器的输入，将所述对象特征作为所述扩散网络中所有注意力层的输入，将所述背景多模态特征与所述扩散网络中各个编码器的输出融合以更新各个编码器的输出，将所述融合特征与所述扩散网络中各个解码器输出融合以更新各个解码器的输出，其中，所述扩散网络中的最后一个解码器输出所述训练图像和所述背景图像对应的场景图像，所有解码器是通过预测的第二噪声对所述扩散网络中最后一个编码器的输出进行解码，得到所述场景图像；

通过均方差损失函数计算所述第一噪声和所述第二噪声之间的噪声损失，依据所述噪声损失优化所述场景图像合成模型的模型参数，以完成对所述场景图像合成模型的训练。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

通过所述均方差损失函数计算所述训练图像中对象与场景图像中对象之间的对象损失；

通过所述均方差损失函数计算所述背景图像与场景图像中除对象之外部分之间的场景损失；

按照预设权重对噪声损失、对象损失和场景损失加权求和，得到总损失，依据所述总损失优化所述场景图像合成模型的模型参数，以完成对所述场景图像合成模型的训练。

8.一种场景图像合成装置，其特征在于，包括：

建模模块，被配置为构建特征提取分支和特征融合分支，利用所述特征提取分支、所述特征融合分支、多模态编码器以及扩散网络构建场景图像合成模型；

获取模块，被配置为获取待合成的目标图像和目标背景图像，将所述目标图像和所述目标背景图像输入所述场景图像合成模型：

特征提取模块，被配置为通过所述特征提取分支处理所述目标图像，得到目标对象特征、目标边缘特征和目标关键点特征；

特征融合模块，被配置为通过所述特征融合分支处理所述目标背景图像、所述目标边缘特征和所述目标关键点特征，得到目标融合特征；

多模态编码模块，被配置为通过所述多模态编码器提取所述目标背景图像的目标背景多模态特征；

合成模块，被配置为通过所述扩散网络处理所述目标对象特征、所述目标融合特征和所述目标背景多模态特征，得到所述目标图像和所述目标图像对应的目标场景图像。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。