CN114862666A

CN114862666A - 图像变换系统、方法、存储介质及电子设备

Info

Publication number: CN114862666A
Application number: CN202210785010.5A
Authority: CN
Inventors: 白帅; 周慧玲; 李智康; 周畅; 杨红霞; 周靖人
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-06-22
Filing date: 2022-07-06
Publication date: 2022-08-05
Anticipated expiration: 2042-07-06
Also published as: CN114862666B

Abstract

本申请实施例公开了一种图像变换系统、方法、存储介质及电子设备。其中图像变换系统主要包括：图像获取组件，用于获取包含目标对象的第一图像和包含参考对象的第二图像；图像变换组件，用于将所述第一图像和第二图像输入图像变换模型，并获取所述图像变换模型得到的目标图像；其中所述图像变换模型采用可形变注意力机制预测目标对象和参考对象在目标图像中的特征，并利用预测得到的特征进一步得到目标图像，所述目标对象中所述参考对象的部分区域变换为所述目标对象。通过本申请能够有效提高图像变换的变换效果。

Description

图像变换系统、方法、存储介质及电子设备

本申请要求于2022年06月22日提交中国专利局、申请号为202210707933.9、申请名称为“图像变换系统、方法、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像变换系统、方法、存储介质及电子设备。

背景技术

随着互联网和电子商务的不断普及和发展，网上购买服饰已经成为人们很常见的消费方式之一。在电子商务网站中，通过模特身着服饰的图片能够很好地展示服饰的外观和款式，目前已经是服装领域不可或缺的一环。但是拍摄不同款式的服饰展示需要模特身着不同款式的服饰分别拍摄，成本较高，并且后期处理也带来了额外的时间和成本消耗。

随着深度学习的快速发展，出现了依据服饰图像和模特图像自动生成试衣图像的方法，其本质是将模特图像变换为模特身着服饰图像中服饰的图像，但变换效果仍有待提高。

发明内容

本申请提供了一种图像变换系统、方法、存储介质及电子设备，以提高图像变换的变换效果。

本申请提供了如下方案：

根据第一方面，一种图像变换系统，包括：

图像获取组件，用于获取包含目标对象的第一图像和包含参考对象的第二图像；

图像变换组件，用于将所述第一图像和第二图像输入图像变换模型，并获取所述图像变换模型得到的目标图像；其中所述图像变换模型采用可形变注意力机制预测目标对象和参考对象在目标图像中的特征，并利用预测得到的特征进一步得到目标图像，所述目标图像中所述参考对象的部分区域变换为所述目标对象。

根据本申请实施例中一可实现的方式，所述图像变换模型包括：第一特征提取网络、第二特征提取网络、流形变预测网络和编解码网络；

所述第一特征提取网络，用于对所述第一图像进行第一特征提取，得到第一目标对象特征；

所述第二特征提取网络，用于对所述第二图像进行第一特征提取，得到第一参考对象特征；

所述流形变预测网络，用于利用所述第一目标对象特征和第二目标对象特征预测针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图；

所述编解码网络，用于对所述第一图像和第二图像分别进行第二特征提取，得到第二目标对象特征和第二参考对象特征；利用所述针对目标对象的流形形变图和注意力权重图对所述第二目标对象特征进行变换，利用所述针对参考对象的流形形变图和注意力权重图对所述第二参考对象特征进行变换，利用变换后的特征得到所述目标图像。

根据本申请实施例中一可实现的方式，所述第一特征提取网络和所述第二特征提取网络均为金字塔特征提取网络，分别对所述第一图像和第二图像进行第一特征提取后，得到N个分辨率尺度对应的第一目标对象特征和第一参考对象特征，所述N为大于1的正整数；

所述流形变预测网络包含N个串行级联的子预测网络，N个子预测网络与所述N个分辨率尺度一一对应；

第一个子预测网络，用于利用本子预测网络所对应分辨率尺度的第一目标对象特征预测针对目标对象的流形形变图和注意力权重图，利用本子预测网络所对应分辨率尺度的第一参考对象特征预测针对参考对象的流形形变图和注意力权重图；

其余子预测网络，用于利用上一子预测网络预测得到的针对目标对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一目标对象特征进行变换，利用变换后的特征预测得到针对目标对象的流形形变图和注意力权重图；利用上一子预测网络预测得到的针对参考对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一参考对象特征进行变换，利用变换后的特征预测得到针对参考对象的流形形变图和注意力权重图。

根据本申请实施例中一可实现的方式，所述其余子预测网络包括：第一可形变注意力变换网络DAWarp、第二DAwarp和可形变注意力机制流网络DAFN；

所述第一DAWarp，用于利用上一子预测网络预测得到的针对目标对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一目标对象特征进行变换；

所述第二DAWarp，用于利用上一子预测网络预测得到的针对参考对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一参考对象特征进行变换；

所述DAFN，用于利用所述第一DAWarp和所述第二DAWarp输出的特征，预测得到针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图。

根据本申请实施例中一可实现的方式，所述DAFN包括第一多流形预测网络MFE、第二MFE、第三MFE、第三DAwarp、第四DAwarp和输出层；

所述第一MFE，用于利用所述第二DAWarp变换后的第一参考对象特征预测针对参考对象的初始流形形变和初始注意力权重图；

所述第三DAWarp，用于利用针对参考对象的初始流形形变和初始注意力权重图，对所述第二DAWarp变换后的第一参考对象特征进行变换；

所述第二MFE，用于利用所述第三DAWarp变换后的第一参考对象特征以及所述第二DAWarp变换后的第一目标对象特征，预测针对目标对象的初始流形形变和初始注意力权重图；

所述第四DAWarp，用于利用针对目标对象的初始流形形变和初始注意力权重图，对所述第二DAWarp变换后的第一目标对象特征进行变换；

所述第三MFE，用于利用所述第四DAWarp变换后的第一目标对象特征以及所述第三DAWarp变换后的第一参考对象特征，预测针对目标对象的中间流形形变和注意力权重图，以及针对参考对象的中间流形形变和注意力权重图；

所述输出层，用于利用针对目标对象的所述初始流形形变、中间流形形变以及上一子预测网络输出的针对目标对象的流形形变图，输出针对目标对象的流形形变图；利用针对参考对象的所述初始流形形变、中间流形形变以及上一子预测网络输出的针对参考对象的流形形变图，输出针对参考对象的流形形变图。

根据本申请实施例中一可实现的方式，所述流形形变图包括针对同一位置的M个采样点预测的流形形变信息，所述注意力权重图包括所述M个采样点的注意力权重信息，所述M为大于1的正整数；

所述变换包括：基于注意力权重图中同一位置点对应的M个采样点的注意力权重信息，利用该M个采样点的流形形变信息对该位置点的待变换特征进行注意力机制的处理，得到该位置点变换后的特征。

根据本申请实施例中一可实现的方式，该系统还包括：

样本获取组件，用于获取训练数据，所述训练数据包括包含目标对象的第一样本图像、包含参考对象的第二样本图像以及目标样本图像，所述目标样本图像包含所述参考对象的部分区域变换为所述目标对象；

模型训练组件，用于利用所述训练数据训练基于可形变注意力机制的图像变换模型，其中，所述第一样本图像和所述第二样本图像作为所述图像变换模型的输入，所述目标样本图像作为所述图像变换模型的目标输出。

根据本申请实施例中一可实现的方式，所述样本获取组件，用于获取包含目标对象的图像作为第一样本图像；获取参考对象的部分区域为目标对象的图像作为目标样本图像；将目标样本图像中所述部分区域进行掩码后的图像作为第二样本图像。

根据本申请实施例中一可实现的方式，所述目标对象包括服饰，所述参考对象包括人体；

所述目标对象中所述人体变换为身着所述服饰。

第二方面，提供了一种图像变换方法，该方法包括：

获取包含目标对象的第一图像和包含参考对象的第二图像；

将所述第一图像和第二图像输入图像变换模型，所述图像变换模型采用可形变注意力机制预测目标对象和参考对象在目标图像中的特征，并利用预测得到的特征进一步得到目标图像，所述目标图像中所述参考对象的部分区域变换为所述目标对象。

所述第一特征提取网络对所述第一图像进行第一特征提取，得到第一目标对象特征；

所述第二特征提取网络对所述第二图像进行第一特征提取，得到第一参考对象特征；

所述流形变预测网络利用所述第一目标对象特征和第二目标对象特征预测针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图；

所述编解码网络对所述第一图像和第二图像分别进行第二特征提取，得到第二目标对象特征和第二参考对象特征；利用所述针对目标对象的流形形变图和注意力权重图对所述第二目标对象特征进行变换，利用所述针对参考对象的流形形变图和注意力权重图对所述第二参考对象特征进行变换，利用变换后的特征得到所述目标图像。

第一个子预测网络利用本子预测网络所对应分辨率尺度的第一目标对象特征预测针对目标对象的流形形变图和注意力权重图，利用本子预测网络所对应分辨率尺度的第一参考对象特征预测针对参考对象的流形形变图和注意力权重图；

其余子预测网络利用上一子预测网络预测得到的针对目标对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一目标对象特征进行变换，利用变换后的特征预测得到针对目标对象的流形形变图和注意力权重图；利用上一子预测网络预测得到的针对参考对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一参考对象特征进行变换，利用变换后的特征预测得到针对参考对象的流形形变图和注意力权重图。

所述第一DAWarp利用上一子预测网络预测得到的针对目标对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一目标对象特征进行变换；

所述第二DAWarp利用上一子预测网络预测得到的针对参考对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一参考对象特征进行变换；

所述DAFN利用所述第一DAWarp和所述第二DAWarp输出的特征，预测得到针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图。

所述第一MFE利用所述第二DAWarp变换后的第一参考对象特征预测针对参考对象的初始流形形变和初始注意力权重图；

所述第三DAWarp利用针对参考对象的初始流形形变和初始注意力权重图，对所述第二DAWarp变换后的第一参考对象特征进行变换；

所述第二MFE利用所述第三DAWarp变换后的第一参考对象特征以及所述第二DAWarp变换后的第一目标对象特征，预测针对目标对象的初始流形形变和初始注意力权重图；

所述第四DAWarp利用针对目标对象的初始流形形变和初始注意力权重图，对所述第二DAWarp变换后的第一目标对象特征进行变换；

所述第三MFE利用所述第四DAWarp变换后的第一目标对象特征以及所述第三DAWarp变换后的第一参考对象特征，预测针对目标对象的中间流形形变和注意力权重图，以及针对参考对象的中间流形形变和注意力权重图；

所述输出层利用针对目标对象的所述初始流形形变、中间流形形变以及上一子预测网络输出的针对目标对象的流形形变图，输出针对目标对象的流形形变图；利用针对参考对象的所述初始流形形变、中间流形形变以及上一子预测网络输出的针对参考对象的流形形变图，输出针对参考对象的流形形变图。

根据本申请实施例中一可实现的方式，该方法还包括采用如下方式预先训练所述图像变换模型：

获取训练数据，所述训练数据包括包含目标对象的第一样本图像、包含参考对象的第二样本图像以及目标样本图像，所述目标样本图像包含所述参考对象的部分区域变换为所述目标对象；

利用所述训练数据训练基于可形变注意力机制的图像变换模型，其中，所述第一样本图像和所述第二样本图像作为所述图像变换模型的输入，所述目标样本图像作为所述图像变换模型的目标输出。

根据本申请实施例中一可实现的方式，所述获取训练数据包括：

获取包含目标对象的图像作为第一样本图像；

获取参考对象的部分区域为目标对象的图像作为目标样本图像；

将目标样本图像中所述部分区域进行掩码后的图像作为第二样本图像。

所述目标对象中所述人体变换为身着所述服饰。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第四方面，提供了一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1）本申请基于可形变注意力机制的图像变换模型，采用端到端的方式自动将目标图像中参考对象的部分区域变换为目标对象，避免了多阶段过程中模型预测误差的累积，从而提高图像变换的变换效果。并且整个变换过程无需人工对图像和模型进行任何的编辑和调整，大大降低了对于人工编辑能力的依赖，并且降低了人工和时间成本，图像变换的效率极高，能够应用于规模化的图像处理。

2）本申请通过对输入图像进行多分辨率尺度的特征提取，并针对不同分辨率尺度的特征进行流形形变图和注意力权重图的级联预测，这种金字塔式的特征提取和级联预测方式保证了在不同分辨率尺度上的表征能力，从而能够更加准确地预测图像的结构信息。

3）本申请在预测和变换过程中针对同一位置点采用多采样点的可形变注意力机制，由同一位置点对应的多个采样点的流形形变进行注意力机制的处理得到该位置点的特征，该特征能够表达结构更加合理、细节更加丰富的图像特征，使得变换后的图像能够保留图像细节，提高真实感。结合对输入图像进行的多分辨率尺度的特征提取和级联预测，能够使得即便在高分辨率图像基础上也能够保留图像细节，提高真实感。

4）由于本申请提供的模型是端到端的预测模型，其训练过程无需依赖多个阶段的模型的中间结果，摆脱了对于中间标签的依赖，也无需逐一训练多个阶段的模型，因此本申请采用端到端的方式直接使用目标样本图像作为目标训练模型，训练过程更加高效和准确。

5）训练数据的获取方式能够充分利用互联网上存在的海量数据，降低人工拍摄图像来构建训练数据的成本。

6）本申请能够应用于虚拟试衣场景，这种基于可形变注意力机制的预测方式，能够基于不同分辨率尺度所产生的流形形变图和注意力权重图对人体和服饰在试衣图像中的特征进行预测，基于预测得到的特征进一步得到试衣图像，使得既能够对服饰进行形变产生更加平滑的试衣效果，高程度地匹配人体姿态和体型，同时又能够充分保留服饰细节，试衣效果更加真实。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的图像变换系统的结构示意图；

图2为本申请实施例提供的图像变换模型的主要结构示意图；

图3为本申请实施例提供的流形变预测网络的结构示意图；

图4为本申请实施例提供的DAFN的结构示意图；

图5为本申请实施例提供的编解码网络的结构示意图；

图6为本申请实施例提供的虚拟试衣场景的图像实例图；

图7为本申请实施例提供的虚拟试衣场景下训练数据的实例图；

图8为本申请实施例提供的图像变换方法的主要流程图；

图9为本申请实施例提供的建立图像变换模型的方法流程图；

图10为本申请实施例提供的电子设备的架构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

在目前已有的技术中，已经存在一些进行图像变换的方法。以虚拟试衣为例，主要包括以下两种方式：

第一种方式：通过人工拖拽的方式调整人体模型以实现人体模型的姿态和体型与图像中模特的姿态和体型一致，然后将服装模型套在人体模型上，再对服装模型进行渲染得到符合图中模特姿态和体型的衣服图像，最后再利用Photoshop等图像编辑软件将服装图像进行编辑替换到模特身上，得到模特身着服装的试衣图像。这种方式强烈地依赖于服饰模型和人工对于模型、图像的编辑能力，并且人工和时间成本高，得到一张试衣图像甚至需要长达6个小时的时间，无法应用于规模化的图像处理。

第二种方式：采用多阶段的方式，先利用卷积神经网络对人体区域进行划分并预测目标服饰（即待试穿的服饰）对应的区域；然后根据预测的区域对服饰进行形变，然后结合形变后的服饰和区域划分，采用生成对抗网络生成试衣图像。这种方式得到的图像变换结果（即试衣图像）容易受到多个阶段中模型的预测结果影响，区域划分的准确度严重影响试衣图像的生成，造成累积误差，变换效果差。

另外，包括上述两种方式的已有图像变换方式还存在以下难点难以解决：

1）不同服饰有着不同的细节，例如图案系列和设计细节等，如何在生成试衣图像时仍保留这些细节，特别是如何在高分辨率图像基础上保留细节提高真实感是很大的难点。

2）人体体型和姿态往往存在较大差异并且可能存在遮挡的情况，如何让服饰高程度地匹配人体姿态和体型是很大的难点。

图1示出了可以应用本申请实施例的图像变换系统的结构示意图。如图1所示，该图像变换系统100可以包括图像获取组件101和图像变换组件102。进一步可选地，该图像变换系统还可以包括：样本获取组件103和模型训练组件104。

上述组件可以部署于同一个计算设备，也可以分布式部署于不同的计算设备，还可以采用组合的方式将其中一部分组件部署于一个计算设备，另一部分组件部署于另一个计算设备。甚至，可以将一个组件中的部分功能部署于一个计算设备，将一个组件中的另一部分功能部署于另一个计算设备等等。

上述计算设备可以是服务器，也可以是多个服务器构成的服务器群组，还可以是云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPs，Virtual Private Server）服务中存在的管理难度大，服务扩展性弱的缺陷。还可以是具有强大计算能力的计算机终端。

作为其中一种可实现的方式，上述图像获取组件101和图像变换组件102可以部署于云计算服务器，可以借助于云上资源的优势运行本申请实施例中涉及的图像变换模型。样本获取组件103和模型训练组件104也可以部署于云计算服务器，可以借助于云上资源的优势读取数据仓库并训练本申请实施例中涉及的图像变换模型。

另外，图1所示的各组件（Component）是对数据和方法的封装，用以实现特定的功能。除了组件之外，也可以采用控件、部件、单元、模块等其他名称。可以分别实现成多个软件或软件模块（例如用来提供分布式服务），也可以实现成单个软件或软件模块，在此不做具体限定。

作为其中一种可实现的方式，上述图像获取组件101和图像变换组件102设置于服务器端。用户可以通过终端设备向服务器端发送图像变换请求，图像获取组件101和图像变换组件102响应于该图像变换请求进行图像变换后，存储变换后得到的图像，或者将变换后的图像返回给终端设备。

其中，图像获取组件101可以获取包含目标对象的第一图像和包含参考对象的第二图像。

再由图像变换组件102将第一图像和第二图像输入基于可形变注意力机制的图像变换模型，得到图像变换模型输出的目标图像，目标对象中参考对象的部分区域变换为目标对象。其中，其中所述图像变换模型采用可形变注意力机制预测目标对象和参考对象在目标图像中的特征，并利用预测得到的特征进一步得到目标图像。

本申请基于可形变注意力机制的图像变换模型，采用端到端的方式自动将目标图像中参考对象的部分区域变换为目标对象，避免了多阶段过程中模型预测误差的累积，从而提高图像变换的变换效果。

本申请实施例提供的图像变换方法可以应用于多种应用场景，包括但不限于以下应用场景：

应用场景1：虚拟试衣场景。

虚拟试衣场景下，上述目标对象为服饰，第一图像即为包含服饰的图像，该服饰为待试穿的服饰。上述参考对象为人体，第二图像即为包含人体的图像，通常为包含模特的图像。上述目标图像为试衣图像，试衣图像为包含上述人体身着上述服饰的图像。例如服饰为一件T恤，即将第二图像中模特身着的上衣变换为该T恤。

应用场景2：物品更换部件的场景。

在该场景下，上述目标对象为目标部件，第一图像即为包含目标部件的图像。参考对象为物品，第二图像即为包含物品的图像。目标图像为将物品的对应部件更换为目标部件后的图像。例如，第一图像包含一个漂亮花纹的椅背，第二图像为一个椅子，将第二图像中的椅子变换为上述漂亮花纹的椅背。

应用场景3：变换人体姿态的场景。

该场景下，上述目标对象为目标姿态，第一图像即为包含目标姿态的图像。参考对象为人体，第二图像即为包含人体的图像。目标图像为将第二图像中人体的姿态变换为目标姿态的图像。

除了上述应用场景之外，还可以应用于其他应用场景，在此不做一一列举。为了方便理解，在后续实施例中均以虚拟试衣场景为例进行描述。下面结合实施例重点对上述图像变换组件102的功能进行详细描述。

图像获取组件101可以响应于来自终端设备的图像变换请求，获取第一图像和第二图像。也可以依据预设的策略，从预设的数据库中批量获取第一图像和第二图像，并逐一将第一图像和第二图像的组合提供给图像变换组件102。

作为其中一种可实现的方式，图像变换请求中可以携带上述第一图像和第二图像的数据。即图像获取组件101可以从图像变换请求中获取第一图像和第二图像的数据。

作为另一种可实现的方式，图像变换请求中可以携带上述第一图像和第二图像的标识信息或地址信息。即图像获取组件101可以从图像变换请求中获取第一图像和第二图像的标识信息或地址信息，然后依据标识信息或地址信息获取第一图像和第二图像。

本申请实施例中图像变换组件102采用的图像变换模型基于可形变注意力机制，是一种端到端模型。能够在输入包含目标对象的第一图像和包含参考对象的第二图像时，输出将参考对象的部分区域变换为目标对象的目标对象。虚拟试衣为例，能够在输入服饰图像和模特图像时，输出模特身着该服饰的图像。

图像变换模型的主要结构可以如图2中所示，包括第一特征提取网络、第二特征提取网络、流形变预测网络和编解码网络。

第一特征提取网络，用于对第一图像进行第一特征提取，得到第一目标对象特征。

第二特征提取网络，用于对第二图像进行第一特征提取，得到第一参考对象特征。

作为其中一种可实现的方式，上述第一特征提取网络和第二特征提取网络均可以在RGB（红绿蓝）颜色空间下，针对所输入图像中的各像素进行特征提取。在RGB颜色空间下，每个像素点的颜色由R、G、B三通道组成，每个通道的取值范围从0到255，每种颜色都有对应的RGB值。

流形变预测网络，用于利用第一目标对象特征和第二目标对象特征预测针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图。

编解码网络用于对第一图像和第二图像分别进行第二特征提取，得到第二目标对象特征和第二参考对象特征；利用针对目标对象的流形形变图和注意力权重图对第二目标对象特征进行变换，利用针对参考对象的流形形变图和注意力权重图对第二参考对象特征进行变换，利用变换后的特征得到目标图像。

其中变换后的特征实际上就是图像变换模型采用可形变注意力机制预测的目标对象和参考对象在目标图像中的特征。

在本申请整个实施例中，对特征进行变换基于的是可形变注意力机制。为了方便理解，首先对可形变注意力机制进行简单介绍。

可形变注意力机制由注意力机制改进而得到。注意力机制可以表述为将查询集query和一系列的键值对key-value映射到某个输出的过程，而这个输出就是根据query和key计算得到的权重作用于value上的权重和，表示为：

(1)

其中，Attention()表示注意力处理过程，Q、K和V分别是查询向量、键向量和值向量构成的矩阵，d_k为K的空间维度。

可形变注意力机制DdfoAttention()由上述注意力机制改进而来，对输入进行可形变注意力处理过程，表示为：

（2）

其中，DdfoAttention()表示可形变注意力处理过程，与注意力机制不同的是，V()表示一个函数，代表在可学习的参数矩阵V上的局部采样点，p_Q来自一个Q的局部采样区域，

是学习到的采样点的偏移量。计算V中周围关键采样点，并且融合来自Q的偏移特征，可以加快收敛速度，减少内存开销。

基于上述理论，本申请实施例中流形形变图包括针对同一位置的M个采样点预测的流形形变信息，也就是说，针对输入的图像中的每个位置点都预测得到M个采样点预测的流形形变信息。注意力权重图包括针对每一个位置点的M个采样点的注意力权重信息，M为大于1的正整数。同一个位置点的特征是基于M个采样点的流形形变信息和注意力权重信息预测得到的。

流形是局部具有欧几里得空间性质的空间，在数学中用于描述几何形体，体现为空间中的曲线。本申请实施例中流形变预测网络通过从第一图像和第二图像中提取的第一目标对象特征和第一参考对象特征，预测得到目标图像，第一图像和第二图像各位置点需要产生的流形形变信息。然后由编解码网络利用预测的流形形变信息对从第一图像和第二图像中提取的第二目标对象特征和第二参考对象特征进行变换，并利用变换得到的特征得到目标图像。并且，为了保留图像细节，在预测和变换过程中针对同一位置点采用多采样点的可形变注意力机制，由同一位置点对应的多个采样点的流形形变进行注意力机制的处理得到该位置点的特征。

为了更加准确地预测图像的结构信息，作为其中一种可实现的方式，可以由第一特征提取网络和第二特征提取网络对第一图像和第二图像进行多分辨率尺度的特征提取，并在流形变预测网络中采用级联预测的方式逐一基于不同分辨率尺度的特征预测流形形变图和注意力权重图。基于一个分辨率尺度的特征预测的流形形变图和注意力权重图输入到下一个分辨率尺度的特征预测过程中。下面对于这种实现方式进行详细描述。

第一特征提取网络和第二特征提取网络均为金字塔特征提取网络，分别对第一图像和第二图像进行第一特征提取后，得到N个分辨率尺度对应的第一目标对象特征和第一参考对象特征，N为大于1的正整数。

以虚拟试衣场景为例，第一特征提取网络和第二特征提取网络分别对第一图像和第二图像进行第一特征提取，得到N个分辨率尺度对应的第一服饰特征和第一人体特征。其中，上述分辨率尺度可以预先设置，不同分辨率尺度表示不同级别的分辨率。例如，可以采用三个分辨率尺度，高分辨率、中分辨率和低分辨率，分别对应三个预设分辨率值。

上述第一特征提取网络和第二特征提取网络采用相同的FPN（Feature PyramidNetwork，金字塔特征提取网络）结构，但并不共享参数。各FPN包括N个编码网络层，每个编码网络层负责进行一个分辨率尺度的特征提取。例如第一个编码网络层提取高分辨率尺度对应的特征，第二个编码网络层提取中分辨率尺度对应的特征，第三个编码网络层提取低分辨率尺度对应的特征。每个编码网络层包含一个下采样卷积网络和两个残差网络，鉴于FPN为目前已有的网络结构，在此不做详述。

由于包含目标服饰的第一图像和包含人体的第二图像的域是不统一的，因此很难直接和准确地预测大的形变。在本申请中，基于可形变注意力流网络的流形变预测网络进行从粗放到精细的预测。

这种情况下，流形变预测网络包含N个串行级联的子预测网络，N个子预测网络与所述N个分辨率尺度一一对应。N个子预测网络按照从对应低分辨率尺度到对应高分辨率尺度的顺序串行级联。

第一个子预测网络利用本子预测网络所对应分辨率尺度的第一目标对象特征预测针对目标对象的流形形变图和注意力权重图，利用本子预测网络所对应分辨率尺度的第一参考对象特征预测针对参考对象的流形形变图和注意力权重图。

其余子预测网络利用上一子预测网络预测得到的针对目标对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一目标对象特征进行变换，利用变换后的特征预测得到针对目标对象的流形形变图和注意力权重图；利用上一子预测网络预测得到的针对参考对象的流形形变图和注意力权重图，对本自预测网络所对应分辨率尺度的第一参考对象特征进行变换，利用变换后的特征预测得到针对参考对象的流形形变图和注意力权重图。

假设将N个分辨率尺度对应的第一服饰特征和第一人体特征分别表示为

，用以预测流形形变图和注意力权重图。其中，

表示第n个分辨率尺度对应的第一服饰特征,

表示第n个分辨率尺度对应的第一人体特征。

每个子预测网络负责对应其中一个分辨率尺度，对其所对应分辨率尺度的第一服饰特征和第一人体特征进行变换，利用变换后的特征预测针对服饰的流形形变图和注意力权重图以及针对人体的流形形变图和注意力权重图。第n个子预测网络对第一服饰特征进行变换输出的流形形变图和注意力权重图表示为

，对第一人体特征进行变换输出的流形形变图和注意力权重图表示为

。

作为其中一种可实现的方式，各子预测网络分别从低分辨率尺度开始到高分辨率尺度进行级联预测。

例如，第一个子预测网络的输入为

，输出为流形形变图

和注意力权重图

，在后续级联的子预测网络中流形形变图和注意力权重图被逐渐调整和更新。从第二个子预测网络开始分别输入为

，利用上一个子预测网络输出的流形形变图

和注意力权重图

对

进行变换，该变换称为DAWarp（Deformable Attention Warping，可形变的注意力变换），得到变换后的特征

。然后子预测网络基于变换后的特征

预测残差流和新的注意力权重图

，依据残差流进而获取到新的流形形变图

。直至第N个子预测网络输出流形形变图

和注意力权重图

。

（3）

其中，

表示非线性采样，W_DAF()表示DaWarp变换采用的函数。公式中的“/”表示“或者”。

作为其中一种可实现的方式，上述第一个子预测网络可以仅包括DAFN（可形变注意力机制流网络），其余子预测网络可以如图3中所示，包括第一DAWarp、第二DAwarp和可形变注意力机制流网络DAFN。图3中以包含三个子预测网络分别对应低分辨率、中分辨率和高分辨率为例。

第一DAWarp，用于利用上一子预测网络预测得到的针对目标对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一目标对象特征进行变换。

第二DAWarp，用于利用上一子预测网络预测得到的针对参考对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一参考对象特征进行变换。

DAFN，用于利用第一DAWarp和第二DAWarp输出的特征，预测得到针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图。

在上述DAWarp中，采用的是可形变注意力机制。每个位置点p的特征变换结果与M个采样点的特征加权求和得到。其中，位置p经过DAWarp变换后的结果

如下公式中所示：

（4）

表示第M个采样点的位置，

表示在该第M个采样点的位置采样的特征，采样点的特征可以通过双线性插值（即在图像平面的两个方向x，y方向上进行线性插值）得到。加权的权重通过softmax函数对注意力权重图中该位置对应的M个采样点的权重值进行归一化得到。对于图像而言，合并多个形变的图像能够重新组合成结构合理、纹理逼真的新图像。变换处理采用双线性差值，使得预测的形变在反向传播过程中逐渐优化。

作为其中一种可实现的方式，DAFN的结构如图4中所示，可以包括第一MFE（Multiple Flow field Estimator，多流形预测网络）、第二MFE、第三MFE、第三DAwarp、第四DAwarp和输出层。

第一MFE利用第二DAWarp变换后的第一参考对象特征预测针对参考对象的初始流形形变和初始注意力权重图。

第三DAWarp利用针对参考对象的初始流形形变和初始注意力权重图，对第二DAWarp变换后的第一参考对象特征进行变换。

第二MFE利用第三DAWarp变换后的第一参考对象特征以及第二DAWarp变换后的第一目标对象特征，预测针对目标对象的初始流形形变和初始注意力权重图。

第四DAWarp利用针对目标对象的初始流形形变和初始注意力权重图，对第二DAWarp变换后的第一目标对象特征进行变换。

第三MFE利用第四DAWarp变换后的第一目标对象特征以及第三DAWarp变换后的第一参考对象特征，预测针对目标对象的中间流形形变和注意力权重图，以及针对参考对象的中间流形形变和注意力权重图。

输出层利用针对目标对象的初始流形形变、中间流形形变以及上一子预测网络输出的针对目标对象的流形形变图，输出针对目标对象的流形形变图；利用针对参考对象的初始流形形变、中间流形形变以及上一子预测网络输出的针对参考对象的流形形变图，输出针对参考对象的流形形变图。

仍以虚拟试衣为例，假设第一MFE、第二MFE和第三MFE所采用的函数分别表示为

，

和

。

首先将变换后的第一人体特征

输入第一MFE来预测针对人体图像的初始流形形变

和初始注意力权重图

。

（5）

第三DAWarp利用针对人体图像的初始流形形变

和初始注意力权重图

将第一人体特征

进行DaWarp变换后得到

。

第二MFE将

与

进行拼接，利用拼接得到的特征预测针对服饰的初始流形形变

和初始注意力加权图

。

（6）

最后，第四DAwarp利用针对服饰的初始流形形变

和初始注意力加权图

对

进行变换得到

，第三MFE将

与

进行拼接后，利用拼接得到的特征预测针对服饰图像中间流形形变

和注意力加权图

以及针对人体图像的中间流形形变

和注意力加权图

。

针对服饰图像的流形形变图

由针对服饰图像的初始流形形变、中间流形形变以及上一DAFN输出的流形形变图求和得到，即：

（7）

利用针对人体图像的流形形变图

由针对人体图像的初始流形形变、中间流形形变以及上一DAFN输出的流形形变图求和得到，即：

（8）

上述各MFE预测的是固定数量M的采样点，而与特征空间的大小无关。MFE预测流形形变图

和注意力权重图

，可以表示为：

（9）

其中，H和W代表第一服饰特征和第一人体特征的特征空间的高和宽。F()代表MFE所采用的预测函数。

作为其中一种可实现的方式，上述的编解码网络可以如图5中所示，可以包括编码网络、第五DAWarp和第六DAWarp和解码网络。

编码网络，用于将第一图像和第二图像的特征从RGB映射到更高维的空间，即进行第二特征提取，得到第二目标对象特征和第二参考对象特征。

第五DAWarp，用于利用针对目标对象的流形形变图和注意力权重图，将第二目标对象特征进行变换处理。

第六DAWarp，用于利用针对参考对象的流形形变图和注意力权重图，将第二参考对象特征进行变换处理。

上述变换处理后的第二目标对象特征和第二参考对象特征进行拼接后输入解码网络，解码网络利用拼接后的特征得到目标图像。

上述编码网络和解码网络均可以通过两个卷积层实现。

仍以虚拟试衣为例，如图6中所示。通过本申请实施例的上述系统，图像获取组件101获取第一图像和第二图像后。由图像变换组件102利用图像变换模型基于第一图像中的上衣以及第二图像中的人体，生成目标图像，目标图像中人体的上衣变换为第一图像中的上衣。

继续参见图1，该系统中的样本获取组件103和模型训练组件104用以进行图像变换模型的训练。

其中，样本获取组件103获取训练数据，训练数据包括包含目标对象的第一样本图像、包含参考对象的第二样本图像以及目标样本图像，目标样本图像包含所述参考对象的部分区域变换为目标对象。

作为其中一种可实现的方式，可以首先拍摄包含目标对象的图像作为第一样本图像以及拍摄包含参考对象的图像作为第二样本，再将参考对象的部分区域变换为目标对象后再拍摄图像作为目标样本图像。以虚拟试衣为例，可以首先拍摄服饰的图像作为第一样本图像，再拍摄模特的图像作为第二样本，再让模特身着服饰后拍摄图像作为目标样本图像。

鉴于上述方式的成本较高，而目前互联网上存在海量的数据可以被利用。因此作为一种优选的实现方式，可以从互联网获取包含目标对象的图像作为第一样本图像，以及获取参考对象的部分区域为目标对象的图像作为目标样本图像，然后将目标样本图像中对应部分区域进行掩码后的图像作为第二样本图像。

以虚拟试衣为例，电子商务网站上存在大量的服饰图像以及模特身着服饰的图像。如图7中所示，可以将某上衣的图像作为第一样本图像，将模特身着该上衣的模特图像作为目标样本图像，然后将目标样本图像中的模特的上身部分进行mask，得到第二样本图像。利用电子商务网站上的海量图像数据就能够低成本的产生大量的训练数据。其中，在对目标样本图像中的模特的上身部分进行mask时，会涉及到人体关键点的定位等技术，在此不做详述。

模型训练组件104利用训练数据训练基于可形变注意力机制的图像变换模型，其中，第一样本图像和第二样本图像作为图像变换模型的输入，目标样本图像作为图像变换模型的目标输出。

图像变换模型的结构如图2中所示，包括：第一特征提取网络、第二特征提取网络、流形变预测网络和编解码网络。

第一特征提取网络对第一样本图像进行第一特征提取，得到第一目标对象特征。

第二特征提取网络对第二样本图像进行第一特征提取，得到第一参考对象特征。

流形变预测网络利用第一目标对象特征和第二目标对象特征预测针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图。

编解码网络对第一样本图像和第二样本图像分别进行第二特征提取，得到第二目标对象特征和第二参考对象特征；利用针对目标对象的流形形变图和注意力权重图对第二目标对象特征进行变换，利用针对参考对象的流形形变图和注意力权重图对第二参考对象特征进行变换，利用变换后的特征预测目标图像。

上述图像变换模型的训练目标为最小化目标图像与目标样本图像之间的差异。

为了更加准确的预测图像的结构信息，作为其中一种可实现的方式，第一特征提取网络和第二特征提取网络均为金字塔特征提取网络，分别对第一样本图像和第二样本图像进行第一特征提取后，得到N个分辨率尺度对应的第一目标对象特征和第一参考对象特征，N为大于1的正整数。

相应地，流形变预测网络包含N个串行级联的子预测网络，N个子预测网络与N个分辨率尺度一一对应。

如图3中所示，上述第一个子预测网络可以仅包括DAFN，其余子预测网络包括：第一可形变注意力变换网络DAWarp、第二DAwarp和可形变注意力机制流网络DAFN。

第一DAWarp利用上一子预测网络预测得到的针对目标对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一目标对象特征进行变换。

第二DAWarp利用上一子预测网络预测得到的针对参考对象的流形形变图和注意力权重图，对本子预测网络所对应分辨率尺度的第一参考对象特征进行变换。

DAFN利用第一DAWarp和第二DAWarp输出的特征，预测得到针对目标对象的流形形变图和注意力权重图，以及针对参考对象的流形形变图和注意力权重图。

作为其中一种可实现的方式，DAFN的结构如图4中所示，包括第一MFE、第二MFE、第三MFE、第三DAwarp、第四DAwarp和输出层。

上述实施例中的流形形变图包括针对同一位置的M个采样点预测的流形形变信息，注意力权重图包括M个采样点的注意力权重信息，M为大于1的正整数。

上述实施例中涉及的变换包括：基于注意力权重图中同一位置点对应的M个采样点的注意力权重信息，利用该M个采样点的流形形变信息对该位置点的待变换特征进行注意力机制的处理，得到该位置点变换后的特征。

图像变换模型的具体结构和原理可以参见之前实施例中的相关记载，在建立图像变换模型的方法实施例中不做赘述。

上面已经提及，图像变换模型的训练目标为最小化目标图像与目标样本图像之间的差异。在本申请实施例中，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

损失函数可以采用以下损失函数中的一种或任意组合来构建：

损失函数L1：采用图像变换模型输出的目标图像与目标样本图像之间的曼哈顿距离（Manhattan Distance）来体现。例如：

（10）

其中，

表示曼哈顿距离，I_out表示图像变换模型输出的目标图像，I_target表示目标样本图像。

损失函数L_prec：对图像变换模型输出的目标图像与目标样本图像分别进行局部特征提取，例如利用VGG19模型进行局部特征提取，然后计算目标图像与目标样本图像的每一层局部特征之间的曼哈顿距离之和。例如：

（11）

其中，

表示VGG19模型提取的第i层局部特征，N为局部特征提取的总层数，可以与图像变换模型中采用的分辨率尺度的数量一致。

损失函数L_style：对图像变换模型输出的目标图像与目标样本图像分别进行局部特征提取，例如利用VGG19模型进行局部特征提取，然后计算目标图像与目标样本图像的每一层局部特征的Gram matrix（拉格姆矩阵）之间的曼哈顿距离之和。例如：

（12）

其中，

表示第i层局部特征的Gram matrix。

若采用上述损失函数的组合来构建图像变换模型的损失函数L，则可以采用将上述损失函数进行加权处理的方式得到。

在上述模型训练的过程中摆脱了对于中间标签的依赖，采用端到端的方式使用目标样本图像作为目标训练模型，训练过程更加高效和准确。

在本申请实施例中，除了提供上述图像变换系统之外，还提供了中图像变换方法。图8为本申请实施例提供的图像变换方法的主要流程图。如图8中所示，该方法可以包括以下步骤：

步骤802：获取包含目标对象的第一图像和包含参考对象的第二图像。

步骤804：将第一图像和第二图像输入基于可形变注意力机制的图像变换模型，得到图像变换模型输出的目标图像。其中所述图像变换模型采用可形变注意力机制预测目标对象和参考对象在目标图像中的特征，并利用预测得到的特征进一步得到目标图像，所述目标图像中所述参考对象的部分区域变换为所述目标对象，目标对象中参考对象的部分区域变换为目标对象。

作为其中一种可实现的方式，图像变换模型可以包括：第一特征提取网络、第二特征提取网络、流形变预测网络和编解码网络。

编解码网络，用于对第一图像和第二图像分别进行第二特征提取，得到第二目标对象特征和第二参考对象特征；利用针对目标对象的流形形变图和注意力权重图对第二目标对象特征进行变换，利用针对参考对象的流形形变图和注意力权重图对第二参考对象特征进行变换，利用变换后的特征得到目标图像。

作为其中一种可实现的方式，第一特征提取网络和第二特征提取网络均为金字塔特征提取网络，分别对第一图像和第二图像进行第一特征提取后，得到N个分辨率尺度对应的第一目标对象特征和第一参考对象特征，N为大于1的正整数。

流形变预测网络包含N个串行级联的子预测网络，N个子预测网络与N个分辨率尺度一一对应。

作为其中一种可实现的方式，N个子预测网络可以按照从对应低分辨率尺度到对应高分辨率尺度的顺序串行级联。

作为其中一种可实现的方式，上述第一个子预测网络可以包括DAFN。

其余子预测网络包括：第一可形变注意力变换网络DAWarp、第二DAwarp和可形变注意力机制流网络DAFN。

作为其中一种可实现的方式，DAFN包括第一多流形预测网络MFE、第二MFE、第三MFE、第三DAwarp、第四DAwarp和输出层。

作为其中一种可实现的方式，流形形变图包括针对同一位置的M个采样点预测的流形形变信息，注意力权重图包括M个采样点的注意力权重信息，M为大于1的正整数。

上述变换包括：基于注意力权重图中同一位置点对应的M个采样点的注意力权重信息，利用该M个采样点的流形形变信息对该位置点的待变换特征进行注意力机制的处理，得到该位置点变换后的特征。

作为其中一种典型的应用场景，可以应用于虚拟试衣场景。上述目标对象包括服饰，参考对象包括人体；目标对象中人体变换为身着服饰。

图9为本申请实施例提供的建立图像变换模型的方法流程图，该方法用以训练得到上述方法实施例中涉及的图像变换模型。如图9中所示，该方法可以包括以下步骤：

步骤902：获取训练数据，训练数据包括包含目标对象的第一样本图像、包含参考对象的第二样本图像以及目标样本图像，目标样本图像包含所述参考对象的部分区域变换为目标对象。

步骤904：利用训练数据训练基于可形变注意力机制的图像变换模型，其中，第一样本图像和第二样本图像作为图像变换模型的输入，目标样本图像作为图像变换模型的目标输出。

作为其中一种可实现的方式，可以首先拍摄包含目标对象的图像作为第一样本图像以及拍摄包含参考对象的图像作为第二样本，再将参考对象的部分区域变换为目标对象后再拍摄图像作为目标样本图像。

鉴于上述方式的成本较高，而目前互联网上存在海量的数据可以被利用。因此作为一种优选的实现方式可以从互联网获取包含目标对象的图像作为第一样本图像，以及获取参考对象的部分区域为目标对象的图像作为目标样本图像，然后将目标样本图像中对应部分区域进行掩码后的图像作为第二样本图像。

关于图像变换模型的结构和原理，以及具体损失函数的构建可以参见系统实施例中的相关记载，在此不做赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下（例如，用户明确同意，对用户切实通知，等），在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图10示例性的展示出了电子设备的架构，具体可以包括处理器1010，视频显示适配器1011，磁盘驱动器1012，输入/输出接口1013，网络接口1014，以及存储器1020。上述处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020之间可以通过通信总线1030进行通信连接。

其中，处理器1010可以采用通用的CPU、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储用于控制电子设备1000运行的操作系统1021，用于控制电子设备1000的低级别操作的基本输入输出系统(BIOS)1022。另外，还可以存储网页浏览器1023，数据存储管理系统1024，以及图像变换系统1025等等。上述图像变换系统1025就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1013用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1014用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1030包括一通路，在设备的各个组件（例如处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，存储器1020，总线1030等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

需要说明的是，为了个人隐私保护目的，附图6和附图7中的人脸进行掩码处理。本领域技术人员可以知道，对人脸的掩码处理不影响本方案的计算流程。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像变换系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述图像变换模型包括：第一特征提取网络、第二特征提取网络、流形变预测网络和编解码网络；

3.根据权利要求2所述的系统，其特征在于，所述第一特征提取网络和所述第二特征提取网络均为金字塔特征提取网络，分别对所述第一图像和第二图像进行第一特征提取后，得到N个分辨率尺度对应的第一目标对象特征和第一参考对象特征，所述N为大于1的正整数；

4.根据权利要求3所述的系统，其特征在于，所述其余子预测网络包括：第一可形变注意力变换网络DAWarp、第二DAwarp和可形变注意力机制流网络DAFN；

5.根据权利要求4所述的系统，其特征在于，所述DAFN包括第一多流形预测网络MFE、第二MFE、第三MFE、第三DAwarp、第四DAwarp和输出层；

6.根据权利要求2至5中任一项所述的系统，其特征在于，所述流形形变图包括针对同一位置的M个采样点预测的流形形变信息，所述注意力权重图包括所述M个采样点的注意力权重信息，所述M为大于1的正整数；

7.根据权利要求1所述的系统，其特征在于，该系统还包括：

8.根据权利要求7所述的系统，其特征在于，所述样本获取组件，用于获取包含目标对象的图像作为第一样本图像；获取参考对象的部分区域为目标对象的图像作为目标样本图像；将目标样本图像中所述部分区域进行掩码后的图像作为第二样本图像。

9.根据权利要求1至5、7、8中任一项所述的系统，其特征在于，所述目标对象包括服饰，所述参考对象包括人体；

所述目标对象中所述人体变换为身着所述服饰。

10.一种图像变换方法，其特征在于，该方法包括：

获取包含目标对象的第一图像和包含参考对象的第二图像；

11.根据权利要求10所述的方法，其特征在于，所述图像变换模型包括：第一特征提取网络、第二特征提取网络、流形变预测网络和编解码网络；

12.根据权利要求11所述的方法，其特征在于，所述第一特征提取网络和所述第二特征提取网络均为金字塔特征提取网络，分别对所述第一图像和第二图像进行第一特征提取后，得到N个分辨率尺度对应的第一目标对象特征和第一参考对象特征，所述N为大于1的正整数；

13.根据权利要求12所述的方法，其特征在于，所述其余子预测网络包括：第一可形变注意力变换网络DAWarp、第二DAwarp和可形变注意力机制流网络DAFN；

14.根据权利要求13所述的方法，其特征在于，所述DAFN包括第一多流形预测网络MFE、第二MFE、第三MFE、第三DAwarp、第四DAwarp和输出层；

15.根据权利要求11至14中任一项所述的方法，其特征在于，所述流形形变图包括针对同一位置的M个采样点预测的流形形变信息，所述注意力权重图包括所述M个采样点的注意力权重信息，所述M为大于1的正整数；

16.根据权利要求10所述的方法，其特征在于，该方法还包括采用如下方式预先训练所述图像变换模型：

17.根据权利要求16所述的方法，其特征在于，所述获取训练数据包括：

获取包含目标对象的图像作为第一样本图像；

18.根据权利要求10至14、16、17中任一项所述的方法，其特征在于，所述目标对象包括服饰，所述参考对象包括人体；

所述目标对象中所述人体变换为身着所述服饰。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求10至18中任一项所述的方法的步骤。

20.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求10至18中任一项所述的方法的步骤。