CN109919888B

CN109919888B - 一种图像融合的方法、模型训练的方法以及相关装置

Info

Publication number: CN109919888B
Application number: CN201910142210.7A
Authority: CN
Inventors: 黄浩智; 胥森哲; 胡事民; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2023-09-19
Anticipated expiration: 2039-02-26
Also published as: WO2020173329A1; US20210295483A1; TW202032400A; JP2022502783A; EP3933754A1; US11776097B2; CN109919888A; TWI725746B; EP3933754A4; JP7090971B2

Abstract

本申请公开了一种图像融合的方法，包括：获取第一待融合图像以及第二待融合图像；根据第一待融合图像获取第一特征集合，根据第二待融合图像获取第二特征集合，第一特征集合包括多个第一编码特征，第二特征集合包括多个第二编码特征；通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处理得到第三待融合图像，第三待融合图像包括至少一个第一编码特征以及至少一个第二编码特征；通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处理得到目标融合图像。本申请公开了一种模型训练的方法及装置。本申请可快速地对图像中的局部区域进行改变，形成融合图像，融合图像的身份信息与原始输入图像的身份信息未发生变化。

Description

一种图像融合的方法、模型训练的方法以及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像融合的方法、模型训练的方法以及相关装置。

背景技术

人脸融合是指依托人脸识别算法和深度学习引擎，快速精准地定位人脸关键点，将用户上传的照片与特定形象进行面部层面融合，使生成的图片同时具备用户与特定形象的外貌特征。在融合人脸的同时，支持对上传的照片进行识别，可提高活动的安全性，降低业务违规风险。

目前，人脸融合的技术主要是利用对抗神经网络生成图像。在人脸图像解缠绕时采用无监督学习的方法，即把人脸图像中的特征划分为若干个语块，每一个语块单独编码某一方面的特征，最后生成融合后的人脸图像。

然而，利用对抗神经网络生成的人脸图像不能保证该人脸图像的身份与原始输入的身份一致，从而降低到了人脸识别的准确度。此外，由于在编码的过程中采用无监督方法，因此，只能保证每个语块的独立性，但不能确定每个语块所表示的含义，从而不利于图像融合的灵活性。

发明内容

本申请实施例提供了一种图像融合的方法、模型训练的方法以及相关装置，可以快速地对一个图像中的局部区域进行改变，形成融合图像，且融合图像的身份信息与原始输入图像的身份信息没有发生变化。

有鉴于此，本申请第一方面提供一种图像融合的方法，包括：

获取第一待融合图像以及第二待融合图像，其中，所述第一待融合图像包括多个第一区域，所述第二待融合图像包括多个第二区域；

根据所述第一待融合图像获取第一特征集合，且根据所述第二待融合图像获取第二特征集合，其中，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应；

通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像，其中，所述第三待融合图像包括至少一个第一编码特征以及至少一个第二编码特征；

通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像。

本申请第二方面提供一种模型训练的方法，包括：

获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，其中，所述第一待训练图像包括多个第一训练区域，所述第二待训练图像包括多个第二训练区域，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应；

通过待训练形状融合网络模型对所述第一待训练图像以及所述第二待训练图像进行融合处理，得到第三待训练图像，其中，所述第三待训练图像包括至少一个第一编码特征以及至少一个第二编码特征；

通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像进行融合处理，得到第四待训练图像；

通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练图像进行融合处理，得到第五待训练图像，其中，所述第五待训练图像与所述第一待训练图像具有对应的特征；

通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练图像进行融合处理，得到目标图像；

采用目标损失函数以及所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型。

本申请第三方面提供一种图像融合装置，包括：

获取模块，用于获取第一待融合图像以及第二待融合图像，其中，所述第一待融合图像包括多个第一区域，所述第二待融合图像包括多个第二区域；

所述获取模块，还用于根据所述第一待融合图像获取第一特征集合，且根据所述第二待融合图像获取第二特征集合，其中，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应；

融合模块，用于通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像，其中，所述第三待融合图像包括所述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征；

所述融合模块，还用于通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述获取模块，具体用于采用解缠绕编码器对所述第一待融合图像中的所述多个第一区域进行编码处理，得到所述多个第一编码特征，其中，所述解缠绕编码器包括多个部件编码器，每个部件编码器用于对一个第一区域进行编码；

采用所述解缠绕编码器对所述第二待融合图像中的所述多个第二区域进行编码处理，得到所述多个第二编码特征，其中，所述解缠绕编码器包括所述多个部件编码器，每个部件编码器用于对一个第二区域进行编码。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，所述图像融合装置还包括确定模块；

所述确定模块，用于在所述融合模块通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像之前，从所述第一待融合图像中确定待替换区域，其中，所述待替换区域属于所述多个第一区域中的一个区域；

所述获取模块，还用于根据所述待替换区域获取所述第一待融合图像中的第一待替换编码特征，并根据所述待替换区域获取所述第二待融合图像中的第二待替换编码特征，其中，所述第一待替换编码特征属于所述多个第一编码特征中的一个编码特征，所述第二待替换编码特征属于所述多个第二编码特征中的一个编码特征。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述融合模块，具体用于通过所述形状融合网络模型，将所述第一待融合图像中的所述第一待替换编码特征替换为所述第二待融合图像中的所述第二待替换编码特征，得到待解码图像；

通过所述形状融合网络模型，对所述待解码图像进行解码处理，得到所述第三待融合图像。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，所述图像融合装置还包括接收模块、调整模块以及处理模块；

所述接收模块，用于在所述融合模块通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像之后，通过所述第三待融合图像接收区域调整指令，其中，所述区域调整指令用于调整图像中至少一个区域的形状；

所述调整模块，用于响应于所述接收模块接收的所述区域调整指令，对所述待替换区域进行调整，得到所述待替换区域所对应的目标替换区域；

所述处理模块，用于根据所述调整模块调整得到的所述目标替换区域对所述第三待融合图像进行处理，得到第四待融合图像；

所述融合模块，具体用于通过条件融合网络模型对所述第四待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

所述融合模块，具体用于对所述第三待融合图像以及所述第一待融合图像进行拼接处理，得到多通道特征图像，其中，所述多通道特征图像用于将至少两个图像的色彩特征进行拼接；

通过所述条件融合网络模型获取所述多通道特征图像所对应的所述目标融合图像。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，其中，所述第一待训练图像包括多个第一训练区域，所述第二待训练图像包括多个第二训练区域，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应；

融合模块，用于通过待训练形状融合网络模型对所述获取模块获取的所述第一待训练图像以及所述第二待训练图像进行融合处理，得到第三待训练图像，其中，所述第三待训练图像包括所述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征；

所述融合模块，还用于通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像进行融合处理，得到第四待训练图像；

所述融合模块，还用于通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练图像进行融合处理，得到第五待训练图像，其中，所述第五待训练图像与所述第一待训练图像具有对应的特征；

所述融合模块，还用于通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练图像进行融合处理，得到目标图像；

训练模块，用于采用目标损失函数以及所述融合模块融合得到的所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，所述模型训练装置还包括编码模块以及解码模块；

所述获取模块，还用于获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合之前，获取待训练目标图像集合，其中，所述待训练目标图像集合包括至少一个待训练目标图像，每个待训练目标图像包括至少一个区域；

所述编码模块，用于通过待训练解缠绕编码器对所述获取模块获取的所述待训练目标图像集合中待训练目标图像的各个区域进行编码处理，得到编码结果，其中，所述待训练解缠绕编码器包括多个待训练部件编码器，每个待训练部件编码器用于对一个区域进行编码；

所述解码模块，用于通过待训练解缠绕解码器对所述编码模块编码的所述编码结果进行解码处理，得到解码结果，其中，所述待训练解缠绕解码器包括多个待训练部件解码器，每个待训练部件解码器用于对一个区域进行解码；

所述训练模块，还用于采用损失函数以及所述解码模块解码得到的解码结果对所述待训练解缠绕编码器进行训练，得到解缠绕编码器，其中，所述解缠绕编码器包括多个部件编码器；

所述获取模块，具体用于获取第一待训练图像以及第二待训练图像；

采用所述解缠绕编码器对所述第一待训练图像中的所述多个第一区域进行编码处理，得到所述多个第一编码特征，其中，每个部件编码器用于对一个第一区域进行编码；

采用所述解缠绕编码器对所述第二待训练图像中的所述多个第二区域进行编码处理，得到所述多个第二编码特征，其中，每个部件编码器用于对一个第二区域进行编码。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，所述模型训练装置还包括确定模块；

所述确定模块，用于所述训练模块采用目标损失函数以及所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型之前，根据所述第五待训练图像以及真实图像，确定第一损失函数；

所述确定模块，还用于根据所述目标图像以及所述第一待训练图像，确定第二损失函数；

所述确定模块，还用于根据所述第一待训练图像、所述第二待训练图像、所述第四待训练图像以及所述目标图像，确定第三损失函数；

所述确定模块，还用于根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述目标损失函数。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

所述确定模块，具体用于采用如下方式计算所述第一损失函数：

其中，所述L_cyc,L表示所述第一损失函数，所述E表示期望值计算，所述y'_r表示所述第五待训练图像，所述y_A表示所述真实图像，所述λ_VGG表示损失比重调节系数，所述φ()表示预训练网络模型输出的特征；

采用如下方式计算所述第二损失函数：

其中，所述L_cyc,I表示所述第二损失函数，所述x'_A表示所述目标图像，所述x_A表示所述第一待训练图像；

采用如下方式计算所述第三损失函数：

其中，所述L_GAN表示所述第三损失函数，所述D_I表示判别网络，所述x_B表示所述第二待训练图像，所述x_r表示所述第四待训练图像，所述x'_A表示所述目标图像；

采用如下方式计算所述目标损失函数：

L_total＝L_cyc,L+L_cyc,I+L_GAN；

其中，所述L_total表示所述目标损失函数。

本申请第五方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

采用目标损失函数以及所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种图像融合的方法，首先，获取第一待融合图像以及第二待融合图像，其中，第一待融合图像包括多个第一区域，第二待融合图像包括多个第二区域，然后根据第一待融合图像获取第一特征集合，且根据第二待融合图像获取第二特征集合，其中，第一特征集合包括多个第一编码特征，且第一编码特征与第一区域一一对应，第二特征集合包括多个第二编码特征，且第二编码特征与第二区域一一对应，再通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处理，得到第三待融合图像，其中，第三待融合图像包括至少一个第一编码特征以及至少一个第二编码特征，最后可以通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处理，得到目标融合图像。通过上述方式，提取图像中各个局部区域的相应特征，由此可以快速地对一个图像中的局部区域进行改变，也就是将该局部区域替换为另一个图像中相应的局部区域，从而形成融合图像。此外，融合图像除被编辑的局部区域以外，其余区域与原始输入图像保持一致，使用户感到融合图像的身份信息与原始输入图像的身份信息没有发生变化。

附图说明

图1为本申请实施例中图像融合系统的一个架构示意图；

图2为本申请实施例中图像融合系统的一个整体框架流程示意图；

图3为本申请实施例中图像融合的方法一个实施例示意图；

图4为本申请实施例中通过解缠绕编码器对图像进行编码的一个实施例示意图；

图5为本申请实施例中通过形状融合网络模型对图像进行融合的一个实施例示意图；

图6为本申请实施例中手绘形状的一个实施例示意图；

图7为本申请实施例中模型训练的方法一个实施例示意图；

图8为本申请实施例中对条件融合网络模型进行训练的一个实施例示意图；

图9为本申请实施例中对解缠绕编码器进行训练的一个实施例示意图；

图10为本申请实施例中图像融合装置的一个实施例示意图；

图11为本申请实施例中图像融合装置的另一个实施例示意图；

图12为本申请实施例中图像融合装置的另一个实施例示意图；

图13为本申请实施例中模型训练装置的一个实施例示意图；

图14为本申请实施例中模型训练装置的另一个实施例示意图；

图15为本申请实施例中模型训练装置的另一个实施例示意图；

图16为本申请实施例中终端设备的一个实施例示意图；

图17为本申请实施例中终端设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请可以应用于图像合成场景，具体可以是人脸合成场景，即计算机合成虚拟的仿真人脸图像，人脸图像的虚拟合成是新一代人机交互中的重要技术，也是当前国内外非常活跃的研究方向，在计算机图形学和计算机视觉方面都将会得到广泛的关注和应用。其潜在的应用领域包括窄带视频传输、计算机辅助教学、电影特效制作、全球音乐电视台(music television，MTV)特效制作、游戏制作、虚拟现实、人工智能和机器人等等。在人脸图像合成技术方面，不同的应用领域，不用的研究人员提出的方法区别很大。人脸虚拟合成技术将成为人机交互(human computer interaction)领域中重要的组成部分。人机交互技术发展的最终目标：一是使计算机越来越智能化，易于使用；二是机器人的智能感知。

为了便于理解，本申请提出了一种图像融合的方法，该方法应用于图1所示的图像融合系统，请参阅图1，图1为本申请实施例中图像融合系统的一个架构示意图，如图所示，首先，客户端拍摄图像，比如用户A的人脸图像以及用户B的人脸图像，输入其中一张图像，比如输入用户A的人脸图像，客户端既可以在本地对用户A的人脸图像进行处理，也可以将用户A的人脸图像发送至服务器，由服务器对用户A的人脸图像进行处理。处理方式主要是先对用户A的人脸图像进行编码，分别使用不同的部件编码器(part-wise encoder)编码不同的部位形状，比如眼睛、鼻子、嘴巴、眉毛、脸型、头发以及身体，比如对于头发的part-wise encoder会输出一个1*1*128的一维特征向量。通过形状融合网络模型将用户A的人脸图像中某一部位的特征向量用用户B的人脸图像所对应特征向量进行替换，之后把全部的特征向量组合成为一个全体特征向量，通过全局解码器将这个全体特征向量解码成一张融合人脸。接下来通过条件融合网络模型将编辑后的融合人脸转化成一张生成的虚拟人脸图像，条件融合网络模型同样也将原始输入图像作为条件输入。本申请生成的虚拟人脸图像不丢失输入人脸图片的身份信息，但却修改了输入人脸图片某一部位的形状。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

下面将结合图2介绍图像融合系统，请参阅图2，图2为本申请实施例中图像融合系统的一个整体框架流程示意图，如图所示，通过交换不同人脸的特征编码，可以生成不同部位形状分别来自两张人脸的合成人脸图片。假设需要将原始图像A的头发特征替换为原始图像B的头发特征，首先通过形状融合网络模型将原始图像A的头发特征替换为原始图像B的头发特征，然后通过条件融合网络模型生成具有指定发型的用户A的人脸，即得到融合图像B。本申请可以控制生成具有用户B的发型的用户A的人脸。此外，本方法也支持生成直接指定特定部位形状的人脸图像，例如用户可以直接指定人脸图像A的发型(比如通过绘制范围)，生成具有用户指定发型的用户A的人脸。

结合上述介绍，下面将对本申请中图像融合的方法进行介绍，请参阅图3，本申请实施例中图像融合的方法一个实施例包括：

101、获取第一待融合图像以及第二待融合图像，其中，第一待融合图像包括多个第一区域，第二待融合图像包括多个第二区域；

本实施例中，图像融合装置获取第一待融合图像以及第二待融合图像，其中，第一待融合图像和第二待融合图像通常是同一个类型的图像，比如两者均为人脸图像，或者两则均为动物图像，或者两者均为风景图像，又或者是一个为人脸图像，另一个为动物图像。本实施例中将以两者均为人脸图像为例进行介绍，然而，这并不应理解为对本申请的限定。

其中，第一待融合图像以及第二待融合图像均包括多个区域，具体地，第一待融合图像与第二待融合图像具有相似区域，比如，第一待融合图像包括多个第一区域，第一区域包括眼睛、鼻子、嘴巴、眉毛、脸型、头发以及身体等。第二待融合图像包括多个第二区域，第二区域包括眼睛、鼻子、嘴巴、眉毛、脸型、头发以及身体等。

102、根据第一待融合图像获取第一特征集合，且根据第二待融合图像获取第二特征集合，其中，第一特征集合包括多个第一编码特征，且第一编码特征与第一区域一一对应，第二特征集合包括多个第二编码特征，且第二编码特征与第二区域一一对应；

本实施例中，图像融合装置需要分别对第一待融合图像以及第二待融合图像进行特征提取，即对第一待融合图像中每个第一区域提取相应的特征，得到第一编码特征，比如，针对第一待融合图像的眼睛部分可提取眼睛部分的第一编码特征，针对第一待融合图像的头发部分可提取头发部分的第一编码特征，以此类推，最终得到包括多个第一编码特征的第一特征集合。针对第二待融合图像的眼睛部分可提取眼睛部分的第二编码特征，针对第二待融合图像的头发部分可提取头发部分的第二编码特征，以此类推，最终得到包括多个第二编码特征的第二特征集合。

103、通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处理，得到第三待融合图像，其中，第三待融合图像包括至少一个第一编码特征以及至少一个第二编码特征；

本实施例中，图像融合装置将第一待融合图像以及第二待融合图像输入至形状融合网络模型，由该形状融合网络模型输出第三待融合图像，这里的第三待融合图像中同时包括第一待融合图像中的第一编码特征以及第二待融合图像中的第二编码特征。

104、通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处理，得到目标融合图像。

本实施例中，图像融合装置将第三待融合图像以及第一待融合图像输入至条件融合网络模型，由该条件融合网络模型输出目标融合图像。其中，目标融合图像与原始输入的第一待融合图像属于相同身份，即生成的虚拟图像中除了被编辑部位外，其余部位与原始输入人脸图像保持一致，使用户感到生成虚拟人脸图像的身份信息与原始输入的人脸图像的身份信息没有发生变化。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像融合的方法第一个可选实施例中，根据第一待融合图像获取第一特征集合，可以包括：

采用解缠绕编码器对第一待融合图像中的多个第一区域进行编码处理，得到多个第一编码特征，其中，解缠绕编码器包括多个部件编码器，每个部件编码器用于对一个第一区域进行编码；

根据第二待融合图像获取第二特征集合，包括：

采用解缠绕编码器对第二待融合图像中的多个第二区域进行编码处理，得到多个第二编码特征，其中，解缠绕编码器包括多个部件编码器，每个部件编码器用于对一个第二区域进行编码。

本实施例中，将介绍图像融合装置获取第一特征集合以及第二特征集合的方法。在图像融合装置获取到第一待融合图像以及第二待融合图像之后，将该第一待融合图像以及第二待融合图像分别输入至解缠绕编码器(disentangling encoder)，其中，disentangling encoder由若干个部件编码器(part-wise encoder)构成，通过各个part-wise encoder对图像中的各个区域进行编码，即得到解缠绕后的面部形状。

具体地，为了便于理解，请参阅图4，图4为本申请实施例中通过解缠绕编码器对图像进行编码的一个实施例示意图，如图所示，将原始图像输入至disentangling encoder，其中，该原始图像可以是人脸图像。disentangling encoder包括多个part-wise encoder，每个part-wise encoder负责对人脸图像中的一个区域进行独立编码。比如，采用1号part-wise encoder对人脸图像中的眼睛部位进行编码，得到1号编码结果。采用2号part-wiseencoder对人脸图像中的鼻子部位进行编码，得到2号编码结果。采用3号part-wiseencoder对人脸图像中的嘴巴部位进行编码，得到3号编码结果。采用4号part-wiseencoder对人脸图像中的眉毛部位进行编码，得到4号编码结果。采用5号part-wiseencoder对人脸图像中的脸部轮廓进行编码，得到5号编码结果。采用6号part-wiseencoder对人脸图像中的头发部位进行编码，得到6号编码结果。采用7号part-wiseencoder对人脸图像中的身体部位进行编码，得到7号编码结果。其中，1号至7号编码结果拼接在一起后即为面部形状基因(face shape gene)，即形成第一特征集合以及第二特征集合。

可以理解的是，对第一待融合图像编码后得到第一特征集合，对第二待融合图像编码后得到第二特征集合，其中，第一特征集合中的每个第一编码特征与第二特征集合中的每个第二编码特征具有相同维度的特征向量，比如可以是1*1*128的特征向量。

其次，本申请实施例中，提供了一种图像编码方式，即图像融合装置采用解缠绕编码器对第一待融合图像中的多个第一区域进行编码处理，得到多个第一编码特征，并且采用解缠绕编码器对第二待融合图像中的多个第二区域进行编码处理，得到多个第二编码特征，解缠绕编码器包括多个部件编码器，每个部件编码器用于对一个第二区域进行编码。通过上述方式，采用部件编码器对图像中不同的区域进行编码处理，能够有效地保证图像编码的一致性，从而便于进行后续的预测处理。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的图像融合的方法第二个可选实施例中，通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处理，得到第三待融合图像之前，还可以包括：

从第一待融合图像中确定待替换区域，其中，待替换区域属于多个第一区域中的一个区域；

根据待替换区域获取第一待融合图像中的第一待替换编码特征，并根据待替换区域获取第二待融合图像中的第二待替换编码特征，其中，第一待替换编码特征属于多个第一编码特征中的一个编码特征，第二待替换编码特征属于多个第二编码特征中的一个编码特征。

本实施例中，将介绍图像融合装置在进行图像融合处理之前需要进行的操作。首先，图像融合装置需要从第一待融合图像中确定待替换区域，以人脸图像为例，待替换的区域可以为头发区域，需要说明的是，待替换区域属于第一待融合图像中多个第一区域中的其中一个区域。相应地，在第二待融合图像中也有对应的待替换区域，以人脸图像为例，该待替换区域也为头发区域。然后，图像融合装置会根据待替换区域获取第一待融合图像中的第一待替换编码特征，并根据待替换区域获取第二待融合图像中的第二待替换编码特征。例如，可以在第一特征集合中的face shape gene中确定头发区域所对应的编码特征，该头发区域所对应的编码特征为第一待替换编码特征，在第二特征集合中的face shapegene中确定头发区域所对应的编码特征，该头发区域所对应的编码特征为第二待替换编码特征。

其次，本申请实施例中，介绍了一种图像融合之前的处理方式。即图像融合装置获取第三待融合图像之前，需要先从第一待融合图像中确定待替换区域，其中，待替换区域属于多个第一区域中的一个区域，然后根据待替换区域获取第一待融合图像中的第一待替换编码特征，并根据待替换区域获取第二待融合图像中的第二待替换编码特征。通过上述方式，能够根据需求将待替换的区域确定出来，随后将两个图像中同一个区域的不同编码特征进行替换，从而快速生成融合图像，以便进行后续处理。

可选地，在上述图3对应的第二个实施例的基础上，本申请实施例提供的图像融合的方法第三个可选实施例中，通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处理，得到第三待融合图像，可以包括：

通过形状融合网络模型，将第一待融合图像中的第一待替换编码特征替换为第二待融合图像中的第二待替换编码特征，得到待解码图像；

通过形状融合网络模型，对待解码图像进行解码处理，得到第三待融合图像。

本实施例中，将介绍图像融合装置通过形状融合网络模型得到第三待融合图像的方式。首先，图像融合装置需要通过形状融合网络模型，将第一待融合图像中的第一待替换编码特征替换为第二待融合图像中的第二待替换编码特征，得到待解码图像，然后采用全局解码器(overall decoder)对待解码图像进行解码处理，得到第三待融合图像。

为了便于理解，请参阅图5，图5为本申请实施例中通过形状融合网络模型对图像进行融合的一个实施例示意图，如图所示，假设第一待融合图像为原始图像A，第二待融合图像为原始图像B，分别将原始图像A和原始图像B输入至disentangling encoder，由disentangling encoder输出原始图像A对应的第一特征集合，第一特征集合包括编码特征A，编码特征A具体表示为A1、A2、A3、A4、A5、A6以及A7。类似地，由disentangling encoder输出原始图像B对应的第二特征集合，第二特征集合包括编码特征B，编码特征B具体表示为B1、B2、B3、B4、B5、B6以及B7。假设待替换区域为头发区域，那么对于第一特征集合而言，第一待替换编码特征即为头发区域所对应的特征A6，相应地，对于第二特征集合而言，第二待替换编码特征即为头发区域所对应的特征B6。接下来，需要将特征B6替换掉第一特征集合中的A6，进而形成新的特征集合，该特征集合包括编码特征C，编码特征C具体为A1、A2、A3、A4、A5、B6以及A7。最后，由形状融合网络模型中的overall decoder对编码特征C进行解码处理，形成融合图像A，即得到第三待融合图像。

由上述介绍可以看出，假设要将受体图像(receptor)的发型替换为供体图像(donor)的发型，形状融合网络模型就可以把receptor的face shape gene对应的发型区域的特征替换为donor的face shape gene对应的发型区域，得到修改后的混合face shapegene，最后通过overall decoder将混合face shape gene解码成编辑后的人脸图像。

overall decoder的具体结构可以表示为：

u5-512，u5-256，R256，R256，R256，R256，R256，u5-128，u5-64，c7s1-3

其中，u5-512表示一个包含512个5×5的卷积核，步长为1/2的反卷积规范化激活层(fractional-strided convolution instance norm-ReLU layer)。u5-256表示一个包含256个5×5的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLU layer。R256表示一个包含两个3×3卷积层，且每个卷积层有256个卷积核的残差块(residual block)的fractional-strided convolution instance norm-ReLU layer。u5-128表示一个包含128个5×5的卷积核，步长为1/2的fractional-strided convolutioninstance norm-ReLU layer。u5-64表示一个包含64个5×5的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLU layer。c7s1-3表示一个包含3个7×7的卷积核，且步长为1的卷积规范化激活层(convolution-instance norm ReLUlayer)。

需要说明的是，overall decoder的具体结构还可以有其他的表示方式，上述仅为一个示意，并不应理解为对本申请的限定。

再次，本申请实施例中，介绍了一种生成第三待融合图像的具体方式。首先，图像融合装置会通过形状融合网络模型，将第一待融合图像中的第一待替换编码特征替换为第二待融合图像中的第二待替换编码特征，得到待解码图像，然后继续通过形状融合网络模型，对待解码图像进行解码处理，得到第三待融合图像。通过上述方式，利用形状融合网络模型能够快速将两个图像进行融合，并且可以有效地提升图像融合效率，同时对于原始输入的人脸图像，所生成的虚拟人脸中除被编辑部位外其余部位与原始输入的人脸图像保持一致，使用户感到生成虚拟人脸的身份信息与原始输入人脸的身份信息没有发生变化，从而实现保身份的操作。

可选地，在上述图3对应的第二个或第三个实施例的基础上，本申请实施例提供的图像融合的方法第四个可选实施例中，通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处理，得到第三待融合图像之后，还可以包括：

通过第三待融合图像接收区域调整指令，其中，区域调整指令用于调整图像中至少一个区域的形状；

响应于区域调整指令，对待替换区域进行调整，得到待替换区域所对应的目标替换区域；

根据目标替换区域对第三待融合图像进行处理，得到第四待融合图像；

通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处理，得到目标融合图像，可以包括：

通过条件融合网络模型对第四待融合图像以及第一待融合图像进行融合处理，得到目标融合图像。

本实施例中，将介绍一种调整待替换区域以生成融合图像的方法。首先，在图像融合装置生成第三待融合图像之后，可以将该第三待融合图像展示在终端设备的显示界面上，用户通过触摸操作触发区域调整指令，即通过区域调整指令可以调整第三待融合图像中的区域形状和大小，图像融合装置根据用户触发的区域调整指令对待替换区域进行调整，得到调整后的目标替换区域，然后根据目标替换区域对第三待融合图像进行处理，得到第四待融合图像，最后图像融合装置通过条件融合网络模型对第四待融合图像以及第一待融合图像进行融合处理，得到目标融合图像。

为了便于理解，请参阅图6，图6为本申请实施例中手绘形状的一个实施例示意图，如图所示，当终端设备的显示界面上显示第三待融合图像时，用户可以直接通过在界面上拖动某个区域来调整该区域的形状和大小，比如，用户可以按住头发区域网外拖动，形成调整后的头像区域，即得到目标替换区域。这个过程中，用户可以按照需求任意编辑区域形状来生成虚拟人脸图像。在实际应用中，用户还可以对多个不同的区域进行编辑，以此提政虚拟人脸图像。

进一步地，本申请实施例中，提供了一种用户调整第三待融合图像的方法，即图像融合装置得到第三待融合图像之后，通过第三待融合图像接收区域调整指令，响应于区域调整指令，对待替换区域进行调整，得到待替换区域所对应的目标替换区域，然后根据目标替换区域对第三待融合图像进行处理，得到第四待融合图像，最后通过条件融合网络模型对第四待融合图像以及第一待融合图像进行融合处理，得到目标融合图像。通过上述方式，用户还可以根据需求调整待替换区域的形状和大小，实现用户指定编辑区域的方式，并且可以手绘该区域形状以生成新的图像，从而提升方案的灵活性和实用性。

可选地，在上述图3以及图3对应的第一个至第四个实施例中任一项的基础上，本申请实施例提供的图像融合的方法第五个可选实施例中，通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处理，得到目标融合图像，可以包括：

对第三待融合图像以及第一待融合图像进行拼接处理，得到多通道特征图像，其中，多通道特征图像用于将至少两个图像的色彩特征进行拼接；

通过条件融合网络模型获取多通道特征图像所对应的目标融合图像。

本实施例中，介绍了一种通过条件融合网络模型获取目标融合图像的方法。首先，即图像融合装置对第三待融合图像以及第一待融合图像进行拼接处理，得到多通道特征图像，比如第一待融合图像包括三个通道，具体为红色(red，R)通道、绿色(green，G)通道以及蓝色(blue，B)通道，第三待融合图像也包括三个通道，具体为R通道、G通道以及B通道，将第一待融合图像的三个通道与第三待融合图像的三个通道进行拼接，得到包括六个通道的多通道特征图像，最后将多通道特征图像输入至条件融合网络模型，由该条件融合网络模型获输出相应的目标融合图像。

具体地，条件融合网络模型可以把编辑后的第三待融合图像转化为逼真的目标融合图像，同时保证生成的目标融合图像与第一待融合图像的身份保持不变。条件融合网络模型以编辑后的第三待融合图像为输入，并以第一待融合图像为条件输入，第一待融合图像和第三待融合图像拼接为多通道特征图像，然后将多通道特征图像送入至条件融合网络模型。在实际应用中，第一待融合图像可以利用部件解码器(part-wise decoder)得到去除待替换区域的图像。如果第三待融合图像是用户手动调整过的图像，则该第三待融合图像即为第四待融合图像，也就是说，可以对第四待融合图像以及第一待融合图像进行拼接处理，得到多通道特征图像。

条件融合网络模型的具体结构可以表示为：

c7s1-64，c3s2-128，c3s2-256，c3s2-512，c3s2-1024，R1024，R1024，R1024，R1024，R1024，R1024，R1024，R1024，R1024，u3-512，u3-256，u3-128，u3-64，c7s1-3

其中，c7s1-64表示一个包含64个7×7的卷积核，且步长为1的convolution-instance norm ReLU layer。c3s2-128表示一个包含128个3×3的卷积核，且步长为2的convolution-instance norm ReLU layer。c3s2-256表示一个包含256个3×3的卷积核，且步长为2的convolution-instance norm ReLU layer。c3s2-512表示一个包含512个3×3的卷积核，且步长为2的convolution-instance norm ReLU layer。c3s2-1024表示一个包含1024个3×3的卷积核，且步长为2的convolution-instance norm ReLU layer。R1024表示一个包含两个3×3卷积层，且每个卷积层有1024个卷积核的residual block的fractional-strided convolution instance norm-ReLU layer。u3-512表示一个包含512个3×3的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLUlayer。u3-256表示一个包含256个3×3的卷积核，步长为1/2的fractional-stridedconvolution instance norm-ReLU layer。u3-128表示一个包含128个3×3的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLU layer。u3-64表示一个包含64个3×3的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLU layer。c7s1-3表示一个包含3个7×7的卷积核，且步长为1的convolution-instancenorm ReLU layer。

需要说明的是，条件融合网络模型的具体结构还可以有其他的表示方式，上述仅为一个示意，并不应理解为对本申请的限定。

更进一步地，本申请实施例中，提供了一种获取目标融合图像的方式，即图像融合装置先对第三待融合图像以及第一待融合图像进行拼接处理，得到多通道特征图像，其中，多通道特征图像用于将至少两个图像的色彩特征进行拼接，然后通过条件融合网络模型获取多通道特征图像所对应的目标融合图像。通过上述方式，利用条件融合网络模型能够准确地拼接两个图像，从而实现图像的融合，由此提升方案的可行性和可操作性。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图7，本申请实施例中模型训练的方法一个实施例包括：

201、获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，其中，第一待训练图像包括多个第一训练区域，第二待训练图像包括多个第二训练区域，第一特征集合包括多个第一编码特征，且第一编码特征与第一区域一一对应，第二特征集合包括多个第二编码特征，且第二编码特征与第二区域一一对应；

本实施例中，模型训练装置获取第一待训练图像以及第二待训练图像，其中，第一待训练图像和第二待训练图像通常是同一个类型的图像，比如两者均为人脸图像，或者两则均为动物图像，或者两者均为风景图像，又或者是一个为人脸图像，另一个为动物图像。本实施例中将以两者均为人脸图像为例进行介绍，然而，这并不应理解为对本申请的限定。

其中，第一待训练图像以及第二待训练图像均包括多个区域，具体地，第一待训练图像与第二待训练图像具有相似区域，比如，第一待训练图像包括多个第一区域，第一区域包括眼睛、鼻子、嘴巴、眉毛、脸型、头发以及身体等。第二待训练图像包括多个第二区域，第二区域包括眼睛、鼻子、嘴巴、眉毛、脸型、头发以及身体等。

模型训练装置需要分别对第一待训练图像以及第二待训练图像进行特征提取，即对第一待训练图像中每个第一区域提取相应的特征，得到第一编码特征，比如，针对第一待训练图像的眼睛部分可提取眼睛部分的第一编码特征，针对第一待训练图像的头发部分可提取头发部分的第一编码特征，以此类推，最终得到包括多个第一编码特征的第一特征集合。针对第二待训练图像的眼睛部分可提取眼睛部分的第二编码特征，针对第二待训练图像的头发部分可提取头发部分的第二编码特征，以此类推，最终得到包括多个第二编码特征的第二特征集合。

202、通过待训练形状融合网络模型对第一待训练图像以及第二待训练图像进行融合处理，得到第三待训练图像，其中，第三待训练图像包括至少一个第一编码特征以及至少一个第二编码特征；

本实施例中，模型训练装置将第一待训练图像以及第二待训练图像输入至待训练形状融合网络模型，由该待训练形状融合网络模型输出第三待训练图像，这里的第三待训练图像中同时包括第一待训练图像中的第一编码特征以及第二待训练图像中的第二编码特征。

203、通过待训练条件融合网络模型对第三待训练图像以及第一待训练图像进行融合处理，得到第四待训练图像；

本实施例中，模型训练装置将第三待训练图像以及第一待训练图像输入至待训练条件融合网络模型，由该待训练条件融合网络模型输出第四待训练图像。其中，第四待训练图像与原始输入的第一待训练图像属于相同身份，即生成的虚拟图像中除了被编辑部位外，其余部位与原始输入人脸图像保持一致，使用户感到生成虚拟人脸图像的身份信息与原始输入的人脸图像的身份信息没有发生变化。

204、通过待训练形状融合网络模型对第四待训练图像以及第一待训练图像进行融合处理，得到第五待训练图像，其中，第五待训练图像与第一待训练图像具有对应的特征；

本实施例中，模型训练装置将第四待训练图像以及第一待训练图像输入至待训练形状融合网络模型对，由该待训练形状融合网络模型输出第五待训练图像。其中，第五待训练图像与原始输入的第一待训练图像属于相同身份，即生成的虚拟图像中除了被编辑部位外，其余部位与原始输入人脸图像保持一致，使用户感到生成虚拟人脸图像的身份信息与原始输入的人脸图像的身份信息没有发生变化。

205、通过待训练条件融合网络模型对第五待训练图像以及第四待训练图像进行融合处理，得到目标图像；

本实施例中，模型训练装置将第五待训练图像以及第四待训练图像输入至待训练条件融合网络模型，由该待训练条件融合网络模型输出目标图像。其中，目标图像与原始输入的第一待训练图像属于相同身份，即生成的虚拟图像中除了被编辑部位外，其余部位与原始输入人脸图像保持一致，使用户感到生成虚拟人脸图像的身份信息与原始输入的人脸图像的身份信息没有发生变化。

206、采用目标损失函数以及目标图像，对待训练形状融合网络模型以及待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型。

本实施例中，模型训练装置采用目标损失函数、第一待训练图像、第二待训练图像、第三待训练图像、第四待训练图像、第五待训练图像以及目标图像，对待训练形状融合网络模型以及待训练条件融合网络模型进行训练，从而得到形状融合网络模型以及条件融合网络模型。

为了便于理解，请参阅图8，图8为本申请实施例中对条件融合网络模型进行训练的一个实施例示意图，如图所示，待训练形状融合网络模型以receptor为原始图像A(即第一待训练图像)和donor为原始图像B(即第二待训练图像)作为输入，生成编辑后的融合图像A(即第三待训练图像)。待训练条件融合网络模型以融合图像A为输入，以原始图像A为条件输入，可以得到编辑后的融合图像B(即第四待训练图像)。接下来，将融合图像B作为receptor(即替代原始图像A)，将原始图像A作为donor(即替代原始图像B)，把原始图像A的原部位形状重新替换回来，待训练形状融合网络模型以receptor为融合图像B和donor为原始图像A作为输入，生成编辑后的融合图像C(即第五待训练图像)。待训练条件融合网络模型以融合图像C作为输入，以融合图像B为条件输入，可以得到编辑后的融合图像D(即目标图像)。循环训练的约束目标是希望目标图像与第一待训练图像尽可能相似，而第五待训练图像与真实图像尽可能相似。

本申请实施例中，提供了一种模型训练的方法，首先模型训练装置获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，然后通过待训练形状融合网络模型对第一待训练图像以及第二待训练图像进行融合处理，得到第三待训练图像，再通过待训练条件融合网络模型对第三待训练图像以及第一待训练图像进行融合处理，得到第四待训练图像，然后通过待训练形状融合网络模型对第四待训练图像以及第一待训练图像进行融合处理，得到第五待训练图像，通过待训练条件融合网络模型对第五待训练图像以及第四待训练图像进行融合处理，得到目标图像，最后采用目标损失函数以及目标图像，对待训练形状融合网络模型以及待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型。通过上述方式，能够在保证融合图像的身份信息与原始输入图像的身份信息一致的情况下，对模型进行训练，从而提升模型训练的可靠性。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合之前，还可以包括：

获取待训练目标图像集合，其中，待训练目标图像集合包括至少一个待训练目标图像，每个待训练目标图像包括至少一个区域；

通过待训练解缠绕编码器对待训练目标图像集合中待训练目标图像的各个区域进行编码处理，得到编码结果，其中，待训练解缠绕编码器包括多个待训练部件编码器，每个待训练部件编码器用于对一个区域进行编码；

通过待训练解缠绕解码器对编码结果进行解码处理，得到解码结果，其中，待训练解缠绕解码器包括多个待训练部件解码器，每个待训练部件解码器用于对一个区域进行解码；

采用损失函数以及解码结果对待训练解缠绕编码器进行训练，得到解缠绕编码器，其中，解缠绕编码器包括多个部件编码器；

获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，可以包括：

获取第一待训练图像以及第二待训练图像；

采用解缠绕编码器对第一待训练图像中的多个第一区域进行编码处理，得到多个第一编码特征，其中，每个部件编码器用于对一个第一区域进行编码；

采用解缠绕编码器对第二待训练图像中的多个第二区域进行编码处理，得到多个第二编码特征，其中，每个部件编码器用于对一个第二区域进行编码。

本实施例中，介绍了一种训练得到解缠绕编码器对的方式，即模型训练装置首先需要获取待训练目标图像集合，其中，待训练目标图像集合包括至少一个待训练目标图像，每个待训练目标图像包括至少一个区域。然后可以通过待训练解缠绕编码器对待训练目标图像集合中待训练目标图像的各个区域进行编码处理，得到编码结果。需要说明的是，待训练解缠绕编码器包括多个待训练part-wise encoder，每个待训练part-wise encoder用于对一个区域进行编码，比如1号part-wise encoder编码的区域为鼻子区域，2号part-wiseencoder编码的区域为头发区域。相应地，模型训练装置为待训练解缠绕编码器设置了对应的待训练解缠绕解码器，其中，训练解缠绕解码器包括多个待训练部件解码器(part-wisedecoder)，每个待训练part-wise decoder用于对一个区域进行解码，类似地，比如1号part-wise decoder解码的区域为鼻子区域，2号part-wise decoder解码的区域为头发区域。结合每一对part-wise encoder和part-wise decoder的解码结果，采用损失函数对待训练解缠绕编码器进行训练，得到解缠绕编码器。具体可以得到解缠绕编码器中的各个part-wise encoder。

为了便于理解，请参阅图9，图9为本申请实施例中对解缠绕编码器进行训练的一个实施例示意图，如图所示，本申请使用基于卷积神经网络的编码器进行输入图像的解缠绕特征提取工作。本申请的Disentangling Encoder由多个part-wise encoder构成，每一个part-wise encoder独立地编码一个指定的人脸图像部位的形状，part-wise encoder输入一个人脸图像，可以输出是一个1*1*128的1维特征向量，由此编码了该人脸图片特定部位的形状。本申请考虑的部位包含但不仅限于眼睛、鼻子、嘴巴、眉毛、脸型、头发及身体，所有部位的特征向量拼接在一起形成特征集合，可以称为Face Shape Gene。

在训练阶段中，每一个part-wise encoder都会配置一个对应的part-wisedecoder，比如part-wise encoder配置对应的part-wise decoder/>用于从part-wise encoder输出的特征向量中学习生成对应面部部位的图像，比如得到图像y¹。其中，part-wise encoder和part-wise decoder结对一起训练，在part-wise decoder的监督下，part-wise encoder会自动摒弃不需要编码的部位的形状信息，仅在输出特征中保留需要编码的部位的形状信息。

part-wise encoder的具体结构可以表示为：

c7s1-64，c5s4-128，c5s4-256，R256，R256，R256，R256，c5s4-512，c5s4-128

其中，c7s1-64表示一个包含64个7×7的卷积核，且步长为1的convolution-instance norm ReLU layer。c5s4-128表示一个包含128个5×5的卷积核，且步长为4的convolution-instance norm ReLU layer。c5s4-256表示一个包含256个5×5的卷积核，且步长为4的convolution-instance norm ReLU layer。R256表示一个包含两个3×3卷积层，且每个卷积层有256个卷积核的residual block的fractional-strided convolutioninstance norm-ReLU layer。c5s4-512表示一个包含512个5×5的卷积核，且步长为4的convolution-instance norm ReLU layer。c5s4-128表示一个包含128个5×5的卷积核，且步长为4的convolution-instance norm ReLU layer。

需要说明的是，part-wise encoder的具体结构还可以有其他的表示方式，上述仅为一个示意，并不应理解为对本申请的限定。

part-wise decoder的具体结构为：

u5-512，u5-256，R256，R256，R256，R256，R256，u5-128，u5-64，c7s1-3

其中，u5-512表示一个包含512个5×5的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLU layer。u5-256表示一个包含256个5×5的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLU layer。R256表示一个包含两个3×3卷积层，且每个卷积层有256个卷积核的residual block的fractional-strided convolution instance norm-ReLU layer。u5-128表示一个包含128个5×5的卷积核，步长为1/2的fractional-strided convolution instance norm-ReLUlayer。u5-64表示一个包含64个5×5的卷积核，步长为1/2的fractional-stridedconvolution instance norm-ReLU layer。c7s1-3表示一个包含3个7×7的卷积核，且步长为1的convolution-instance norm ReLU layer。

需要说明的是，part-wise decoder的具体结构还可以有其他的表示方式，上述仅为一个示意，并不应理解为对本申请的限定。

其次，本申请实施例中，介绍了一种训练得到解缠绕编码器的具体方式，即模型训练装置可以先获取待训练目标图像集合，然后通过待训练解缠绕编码器对待训练目标图像集合中待训练目标图像的各个区域进行编码处理，得到编码结果，再通过待训练解缠绕解码器对编码结果进行解码处理，得到解码结果，采用损失函数以及解码结果对待训练解缠绕编码器进行训练，得到解缠绕编码器。通过上述方式，在模型训练阶段，针对待训练解缠绕编码器会配置对应的待训练解缠绕解码器，用来从对待训练解缠绕编码器输出的特征向量中学习生成相应区域的形状图像，从而提升图像编码的准确度和可靠性。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，采用目标损失函数以及目标图像，对待训练形状融合网络模型以及待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型之前，还可以包括：

根据第五待训练图像以及真实图像，确定第一损失函数；

根据目标图像以及第一待训练图像，确定第二损失函数；

根据第一待训练图像、第二待训练图像、第四待训练图像以及目标图像，确定第三损失函数；

根据第一损失函数、第二损失函数以及第三损失函数，确定目标损失函数。

本实施例中，介绍了一种模型训练装置确定目标损失函数的方式。循环训练的约束目标是希望目标图像与第一待训练图像尽可能相似，而第五待训练图像与真实图像尽可能相似。因此，第一损失函数是根据第五待训练图像以及真实图像生成的，其中，真实图像指示第一待训练图像所对应的特征图像。第二损失函数是根据根据目标图像以及第一待训练图像生成的。除了利用标签图和图像外观两个循环约束来保证人物身份信息不丢失之外，还是可以使用对抗约束来要求模型生成的结果像是真实人脸的图像，即根据第一待训练图像、第二待训练图像、第四待训练图像以及目标图像，确定第三损失函数。将第一损失函数、第二损失函数以及第三损失函数相加，得到目标损失函数。

其次，本申请实施例中，提供了一种得到目标损失函数的方式，即模型训练装置需要在得到形状融合网络模型以及条件融合网络模型之前，先根据第五待训练图像以及真实图像，确定第一损失函数，然后根据目标图像以及第一待训练图像，确定第二损失函数，再根据第一待训练图像、第二待训练图像、第四待训练图像以及目标图像，确定第三损失函数，最后根据第一损失函数、第二损失函数以及第三损失函数，确定目标损失函数。通过上述方式，为方案的实现提供了一种可靠的方式，结合多个图像生成最终的损失函数，考虑到了各个图像在模型训练过程中的重要性，由此得到更准确的模型。

可选地，在上述图7对应的第二个实施例的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，根据第五待训练图像以及真实图像，确定第一损失函数，可以包括：

采用如下方式计算第一损失函数：

其中，L_cyc,L表示第一损失函数，E表示期望值计算，y'_r表示第五待训练图像，y_A表示真实图像，λ_VGG表示损失比重调节系数，φ()表示预训练网络模型输出的特征；

根据目标图像以及第一待训练图像，确定第二损失函数，可以包括：

采用如下方式计算第二损失函数：

其中，L_cyc,I表示第二损失函数，x'_A表示目标图像，x_A表示第一待训练图像；

根据第一待训练图像、第二待训练图像、第四待训练图像以及目标图像，确定第三损失函数，可以包括：

采用如下方式计算第三损失函数：

其中，L_GAN表示第三损失函数，D_I表示判别网络，x_B表示第二待训练图像，x_r表示第四待训练图像，x'_A表示目标图像；

根据第一损失函数、第二损失函数以及第三损失函数，确定目标损失函数，可以包括：

采用如下方式计算目标损失函数：

L_to_tal＝L_cyc,L+L_cyc,I+L_GAN；

其中，L_total表示目标损失函数。

本实施例中，介绍了一种计算得到目标损失函数的具体方式。第一损失函数可以通过如下循环约束来确定：

其中，L_cyc,L表示第一损失函数，E表示期望值计算，y'_r表示第五待训练图像，y_A表示真实图像，λ_VGG表示损失比重调节系数，φ()表示预训练网络模型输出的特征。第二损失函数可以通过如下循环约束来确定：

其中，Lc_yc,I表示第二损失函数，x'_A表示目标图像，x_A表示第一待训练图像。可以理解的是，上述两个公式均利用了L1损失和VGG损失两种类型，具体地，L1损失为||y'_r-yA||₁以及||x'_A-x_A||₁，VGG损失为||φ(y'_r)-φ(y_A)||₁以及||φ(x'_A)-φ(x_A)||₁。λ_VGG表示损失比重调节系数，用于调整L1损失和VGG损失的比重，在本申请中可以取值1.0，即认为L1损失和VGG损失是等价的。φ()表示预训练网络模型输出的特征，具体是指预先训练的VGG19网络输出的特征，在本申请中使用卷积层(convolutional layer，conv)1-1、conv2-2、conv3-2、conv4-4以及conv5-4层的特征，并且分别赋予每一conv层如下权重1/32(即conv1-1的权重)、1/16(conv2-2的权重)、1/8(conv3-2的权重)、1/4(conv4-4的权重)以及1(conv5-4的权重)。

可以理解的是，上述权重值的设定仅为一个示意，不应理解为对本申请的限定。

除了上述两个循环约束保证人物身份信息不丢失之外，还需要使用一个对抗约束来要求条件融合网络模型生成的结果更贴近真实人脸的图像，第三损失函数可以表示为：

其中，L_GAN表示第三损失函数，D_I表示判别网络，x_B表示第二待训练图像，x_r表示第四待训练图像，x'_A表示目标图像。判别网络D_I的具体结构包括编码部分和解码部分，编码部分的结构可以为：c7s1-64，c5s4-128，c5s4-256，R256，R256，R256，R256，c5s4-512，c5s4-128。解码部分的结构可以表示为：u5-512，u5-256，R256，R256，R256，R256，R256，u5-128，u5-64，c7s1-3。此处仅为一个示意，不应理解为对本申请的限定。判别网络D_I被训练成用于判断图像是否为真实图像，且判别网络D_I伴随着待训练形状融合网络模型和待训练条件融合网络模型一起训练，最大化第三损失函数L_GAN这个对抗约束，能够尽量准确地区分生成图像和真实的图像，而待训练形状融合网络模型和待训练条件融合网络模型则会最小化第三损失函数L_GAN，以此期望能够生成尽量真实的图像。

由此，有了用于训练待训练形状融合网络模型和待训练条件融合网络模型的总的目标损失函数：

L_total＝L_cyc,L+L_cyc,I+L_GAN；

再次，本申请实施例中，介绍了计算损失函数的具体方式，即模型训练装置可以根据第五待训练图像以及真实图像，计算得到第一损失函数，然后根据目标图像以及第一待训练图像，计算得到第二损失函数，最后根据第一损失函数、第二损失函数以及第三损失函数，计算得到目标损失函数。通过上述方式，为方案的实现提供了具体的依据，从而提升了方案的可行性和可操作性。

下面对本申请中的图像融合装置进行详细描述，请参阅图10，图10为本申请实施例中图像融合装置一个实施例示意图，图像融合装置30包括：

获取模块301，用于获取第一待融合图像以及第二待融合图像，其中，所述第一待融合图像包括多个第一区域，所述第二待融合图像包括多个第二区域；

所述获取模块301，还用于根据所述第一待融合图像获取第一特征集合，且根据所述第二待融合图像获取第二特征集合，其中，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应；

融合模块302，用于通过形状融合网络模型对所述获取模块301获取的所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像，其中，所述第三待融合图像包括所述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征；

所述融合模块302，还用于通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像。

本实施例中，获取模块301获取第一待融合图像以及第二待融合图像，其中，所述第一待融合图像包括多个第一区域，所述第二待融合图像包括多个第二区域，所述获取模块301根据所述第一待融合图像获取第一特征集合，且根据所述第二待融合图像获取第二特征集合，其中，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应，融合模块302通过形状融合网络模型对所述获取模块301获取的所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像，其中，所述第三待融合图像包括所述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征，所述融合模块302通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像。

本申请实施例中，提供了一种图像融合装置，首先，获取第一待融合图像以及第二待融合图像，其中，第一待融合图像包括多个第一区域，第二待融合图像包括多个第二区域，然后根据第一待融合图像获取第一特征集合，且根据第二待融合图像获取第二特征集合，其中，第一特征集合包括多个第一编码特征，且第一编码特征与第一区域一一对应，第二特征集合包括多个第二编码特征，且第二编码特征与第二区域一一对应，再通过形状融合网络模型对第一待融合图像以及第二待融合图像进行融合处理，得到第三待融合图像，其中，第三待融合图像包括至少一个第一编码特征以及至少一个第二编码特征，最后可以通过条件融合网络模型对第三待融合图像以及第一待融合图像进行融合处理，得到目标融合图像。通过上述方式，提取图像中各个局部区域的相应特征，由此可以快速地对一个图像中的局部区域进行改变，也就是将该局部区域替换为另一个图像中相应的局部区域，从而形成融合图像。此外，融合图像除被编辑的局部区域以外，其余区域与原始输入图像保持一致，使用户感到融合图像的身份信息与原始输入图像的身份信息没有发生变化。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的图像融合装置30的另一实施例中，

所述获取模块301，具体用于采用解缠绕编码器对所述第一待融合图像中的所述多个第一区域进行编码处理，得到所述多个第一编码特征，其中，所述解缠绕编码器包括多个部件编码器，每个部件编码器用于对一个第一区域进行编码；

其次，本申请实施例中，提供了一种图像编码方式，即采用解缠绕编码器对第一待融合图像中的多个第一区域进行编码处理，得到多个第一编码特征，并且采用解缠绕编码器对第二待融合图像中的多个第二区域进行编码处理，得到多个第二编码特征，解缠绕编码器包括多个部件编码器，每个部件编码器用于对一个第二区域进行编码。通过上述方式，采用部件编码器对图像中不同的区域进行编码处理，能够有效地保证图像编码的一致性，从而便于进行后续的预测处理。

可选地，在上述图10所对应的实施例的基础上，请参阅图11，本申请实施例提供的图像融合装置30的另一实施例中，所述图像融合装置30还包括确定模块303；

所述确定模块303，用于在所述融合模块302通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像之前，从所述第一待融合图像中确定待替换区域，其中，所述待替换区域属于所述多个第一区域中的一个区域；

所述获取模块301，还用于根据所述确定模块303确定的所述待替换区域获取所述第一待融合图像中的第一待替换编码特征，并根据所述确定模块303确定的所述待替换区域获取所述第二待融合图像中的第二待替换编码特征，其中，所述第一待替换编码特征属于所述多个第一编码特征中的一个编码特征，所述第二待替换编码特征属于所述多个第二编码特征中的一个编码特征。

可选地，在上述图10或图11所对应的实施例的基础上，本申请实施例提供的图像融合装置30的另一实施例中，

所述融合模块302，具体用于通过所述形状融合网络模型，将所述第一待融合图像中的所述第一待替换编码特征替换为所述第二待融合图像中的所述第二待替换编码特征，得到待解码图像；

可选地，在上述图10或图11所对应的实施例的基础上，请参阅图12，本申请实施例提供的图像融合装置30的另一实施例中，所述图像融合装置30还包括接收模块304、调整模块305以及处理模块306；

所述接收模块304，用于在所述融合模块302通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像之后，通过所述第三待融合图像接收区域调整指令，其中，所述区域调整指令用于调整图像中至少一个区域的形状；

所述调整模块305，用于响应于所述接收模块304接收的所述区域调整指令，对所述待替换区域进行调整，得到所述待替换区域所对应的目标替换区域；

所述处理模块306，用于根据所述调整模块305调整得到的所述目标替换区域对所述第三待融合图像进行处理，得到第四待融合图像；

所述融合模块302，具体用于通过条件融合网络模型对所述第四待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像。

可选地，在上述图10、图11或者图12所对应的实施例的基础上，本申请实施例提供的图像融合装置30的另一实施例中，

所述融合模块302，具体用于对所述第三待融合图像以及所述第一待融合图像进行拼接处理，得到多通道特征图像，其中，所述多通道特征图像用于将至少两个图像的色彩特征进行拼接；

下面对本申请中的模型训练装置进行详细描述，请参阅图13，图13为本申请实施例中图像融合装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，其中，所述第一待训练图像包括多个第一训练区域，所述第二待训练图像包括多个第二训练区域，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应；

融合模块402，用于通过待训练形状融合网络模型对所述获取模块401获取的所述第一待训练图像以及所述第二待训练图像进行融合处理，得到第三待训练图像，其中，所述第三待训练图像包括所述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征；

所述融合模块402，还用于通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像进行融合处理，得到第四待训练图像；

所述融合模块402，还用于通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练图像进行融合处理，得到第五待训练图像，其中，所述第五待训练图像与所述第一待训练图像具有对应的特征；

所述融合模块402，还用于通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练图像进行融合处理，得到目标图像；

训练模块403，用于采用目标损失函数以及所述融合模块402融合得到的所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型。

本实施例中，获取模块401获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，其中，所述第一待训练图像包括多个第一训练区域，所述第二待训练图像包括多个第二训练区域，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二区域一一对应，融合模块402通过待训练形状融合网络模型对所述获取模块401获取的所述第一待训练图像以及所述第二待训练图像进行融合处理，得到第三待训练图像，其中，所述第三待训练图像包括所述获取模块获取的至少一个第一编码特征以及至少一个第二编码特征，所述融合模块402通过待训练条件融合网络模型对所述第三待训练图像以及所述第一待训练图像进行融合处理，得到第四待训练图像，所述融合模块402通过所述待训练形状融合网络模型对所述第四待训练图像以及所述第一待训练图像进行融合处理，得到第五待训练图像，其中，所述第五待训练图像与所述第一待训练图像具有对应的特征，所述融合模块402通过所述待训练条件融合网络模型对所述第五待训练图像以及所述第四待训练图像进行融合处理，得到目标图像，训练模块403采用目标损失函数以及所述融合模块402融合得到的所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型。

本申请实施例中，提供了一种模型训练装置，首先该模型训练装置获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，然后通过待训练形状融合网络模型对第一待训练图像以及第二待训练图像进行融合处理，得到第三待训练图像，再通过待训练条件融合网络模型对第三待训练图像以及第一待训练图像进行融合处理，得到第四待训练图像，然后通过待训练形状融合网络模型对第四待训练图像以及第一待训练图像进行融合处理，得到第五待训练图像，通过待训练条件融合网络模型对第五待训练图像以及第四待训练图像进行融合处理，得到目标图像，最后采用目标损失函数以及目标图像，对待训练形状融合网络模型以及待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型。通过上述方式，能够在保证融合图像的身份信息与原始输入图像的身份信息一致的情况下，对模型进行训练，从而提升模型训练的可靠性。

可选地，在上述图13所对应的实施例的基础上，请参阅图14，本申请实施例提供的模型训练装置40的另一实施例中，所述模型训练装置40还包括编码模块404以及解码模块405；

所述获取模块401，还用于获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合之前，获取待训练目标图像集合，其中，所述待训练目标图像集合包括至少一个待训练目标图像，每个待训练目标图像包括至少一个区域；

所述编码模块404，用于通过待训练解缠绕编码器对所述获取模块401获取的所述待训练目标图像集合中待训练目标图像的各个区域进行编码处理，得到编码结果，其中，所述待训练解缠绕编码器包括多个待训练部件编码器，每个待训练部件编码器用于对一个区域进行编码；

所述解码模块405，用于通过待训练解缠绕解码器对所述编码模块编码的所述编码结果进行解码处理，得到解码结果，其中，所述待训练解缠绕解码器包括多个待训练部件解码器，每个待训练部件解码器用于对一个区域进行解码；

所述训练模块403，还用于采用损失函数以及所述解码模块405解码得到的解码结果对所述待训练解缠绕编码器进行训练，得到解缠绕编码器，其中，所述解缠绕编码器包括多个部件编码器；

所述获取模块401，具体用于获取第一待训练图像以及第二待训练图像；

可选地，在上述图13或图14所对应的实施例的基础上，请参阅图15，本申请实施例提供的模型训练装置40的另一实施例中，所述模型训练装置40还包括确定模块406；

所述确定模块406，用于所述训练模块403采用目标损失函数以及所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型之前，根据所述第五待训练图像以及真实图像，确定第一损失函数；

所述确定模块406，还用于根据所述目标图像以及所述第一待训练图像，确定第二损失函数；

所述确定模块406，还用于根据所述第一待训练图像、所述第二待训练图像、所述第四待训练图像以及所述目标图像，确定第三损失函数；

所述确定模块406，还用于根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述目标损失函数。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述确定模块406，具体用于采用如下方式计算所述第一损失函数：

采用如下方式计算所述第二损失函数：

采用如下方式计算所述第三损失函数：

采用如下方式计算所述目标损失函数：

L_total＝L_cyc,L+L_cyc,I+L_GAN；

其中，所述L_total表示所述目标损失函数。

本申请实施例还提供了另一种图像融合装置，如图16所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图16示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图16，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图16中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图16对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图16中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器580还具有以下功能：

可选地，处理器580具体用于执行如下步骤：

采用解缠绕编码器对所述第一待融合图像中的所述多个第一区域进行编码处理，得到所述多个第一编码特征，其中，所述解缠绕编码器包括多个部件编码器，每个部件编码器用于对一个第一区域进行编码；

可选地，处理器580还用于执行如下步骤：

从所述第一待融合图像中确定待替换区域，其中，所述待替换区域属于所述多个第一区域中的一个区域；

根据所述待替换区域获取所述第一待融合图像中的第一待替换编码特征，并根据所述待替换区域获取所述第二待融合图像中的第二待替换编码特征，其中，所述第一待替换编码特征属于所述多个第一编码特征中的一个编码特征，所述第二待替换编码特征属于所述多个第二编码特征中的一个编码特征。

可选地，处理器580具体用于执行如下步骤：

通过所述形状融合网络模型，将所述第一待融合图像中的所述第一待替换编码特征替换为所述第二待融合图像中的所述第二待替换编码特征，得到待解码图像；

可选地，处理器580还用于执行如下步骤：

通过所述第三待融合图像接收区域调整指令，其中，所述区域调整指令用于调整图像中至少一个区域的形状；

响应于所述区域调整指令，对所述待替换区域进行调整，得到所述待替换区域所对应的目标替换区域；

根据所述目标替换区域对所述第三待融合图像进行处理，得到第四待融合图像；

通过条件融合网络模型对所述第四待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像。

可选地，处理器580具体用于执行如下步骤：

对所述第三待融合图像以及所述第一待融合图像进行拼接处理，得到多通道特征图像，其中，所述多通道特征图像用于将至少两个图像的色彩特征进行拼接；

图17是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 622还具有以下功能：

可选地，CPU 622还用于执行如下步骤：

获取待训练目标图像集合，其中，所述待训练目标图像集合包括至少一个待训练目标图像，每个待训练目标图像包括至少一个区域；

通过待训练解缠绕编码器对所述待训练目标图像集合中待训练目标图像的各个区域进行编码处理，得到编码结果，其中，所述待训练解缠绕编码器包括多个待训练部件编码器，每个待训练部件编码器用于对一个区域进行编码；

通过待训练解缠绕解码器对所述编码结果进行解码处理，得到解码结果，其中，所述待训练解缠绕解码器包括多个待训练部件解码器，每个待训练部件解码器用于对一个区域进行解码；

采用损失函数以及解码结果对所述待训练解缠绕编码器进行训练，得到解缠绕编码器，其中，所述解缠绕编码器包括多个部件编码器；

获取第一待训练图像以及第二待训练图像；

可选地，CPU 622还用于执行如下步骤：

根据所述第五待训练图像以及真实图像，确定第一损失函数；

根据所述目标图像以及所述第一待训练图像，确定第二损失函数；

根据所述第一待训练图像、所述第二待训练图像、所述第四待训练图像以及所述目标图像，确定第三损失函数；

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述目标损失函数。

可选地，CPU 622具体用于执行如下步骤：

采用如下方式计算所述第一损失函数：

所述根据所述目标图像以及所述第一待训练图像，确定第二损失函数，包括：

采用如下方式计算所述第二损失函数：

所述根据所述第一待训练图像、所述第二待训练图像、所述第四待训练图像以及所述目标图像，确定第三损失函数，包括：

采用如下方式计算所述第三损失函数：

所述根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述目标损失函数，包括：

采用如下方式计算所述目标损失函数：

L_total＝L_cyc,L+L_cyc,I+L_GAN；

其中，所述L_total表示所述目标损失函数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像融合的方法，其特征在于，包括：

通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像，包括：通过所述形状融合网络模型，将所述第一待融合图像中的第一待替换编码特征替换为所述第二待融合图像中的第二待替换编码特征，得到待解码图像；通过所述形状融合网络模型，对所述待解码图像进行解码处理，得到所述第三待融合图像；其中，所述第一待替换编码特征属于所述多个第一编码特征中的一个编码特征，所述第二待替换编码特征属于所述多个第二编码特征中的一个编码特征；所述第三待融合图像包括至少一个第一编码特征以及至少一个第二编码特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一待融合图像获取第一特征集合，包括：

所述根据所述第二待融合图像获取第二特征集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像之前，所述方法还包括：

根据所述待替换区域获取所述第一待融合图像中的第一待替换编码特征，并根据所述待替换区域获取所述第二待融合图像中的第二待替换编码特征。

4.根据权利要求1或3所述的方法，其特征在于，所述通过形状融合网络模型对所述第一待融合图像以及所述第二待融合图像进行融合处理，得到第三待融合图像之后，所述方法还包括：

所述通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像，包括：

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像，包括：

6.一种模型训练的方法，其特征在于，包括：

获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，其中，所述第一待训练图像包括多个第一训练区域，所述第二待训练图像包括多个第二训练区域，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一训练区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二训练区域一一对应；

7.根据权利要求6所述的方法，其特征在于，所述获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合之前，所述方法还包括：

所述获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，包括：

获取第一待训练图像以及第二待训练图像；

采用所述解缠绕编码器对所述第一待训练图像中的所述多个第一训练区域进行编码处理，得到所述多个第一编码特征，其中，每个部件编码器用于对一个第一训练区域进行编码；

8.根据权利要求6所述的方法，其特征在于，所述采用目标损失函数以及所述目标图像，对所述待训练形状融合网络模型以及所述待训练条件融合网络模型进行训练，得到形状融合网络模型以及条件融合网络模型之前，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述第五待训练图像以及真实图像，确定第一损失函数，包括：

采用如下方式计算所述第一损失函数：

采用如下方式计算所述第二损失函数：

采用如下方式计算所述第三损失函数：

采用如下方式计算所述目标损失函数：

L_total＝L_cyc,L+L_cyc,I+L_GAN；

其中，所述L_total表示所述目标损失函数。

10.一种图像融合装置，其特征在于，包括：

所述融合模块，还用于通过条件融合网络模型对所述第三待融合图像以及所述第一待融合图像进行融合处理，得到目标融合图像；

所述融合模块，具体用于通过所述形状融合网络模型，将所述第一待融合图像中的第一待替换编码特征替换为所述第二待融合图像中的第二待替换编码特征，得到待解码图像；通过所述形状融合网络模型，对所述待解码图像进行解码处理，得到所述第三待融合图像；其中，所述第一待替换编码特征属于所述多个第一编码特征中的一个编码特征，所述第二待替换编码特征属于所述多个第二编码特征中的一个编码特征。

11.一种模型训练装置，其特征在于，包括：

获取模块，用于获取第一待训练图像的第一特征集合以及第二待训练图像的第二特征集合，其中，所述第一待训练图像包括多个第一训练区域，所述第二待训练图像包括多个第二训练区域，所述第一特征集合包括多个第一编码特征，且所述第一编码特征与所述第一训练区域一一对应，所述第二特征集合包括多个第二编码特征，且所述第二编码特征与所述第二训练区域一一对应；

12.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

13.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至5中任一项所述的方法，或者执行如权利要求6至9中任一项所述的方法。