CN110728319B

CN110728319B - 一种图像生成方法、装置以及计算机存储介质

Info

Publication number: CN110728319B
Application number: CN201910961226.0A
Authority: CN
Inventors: 夏轩; 于峰崎; 董楚楚
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-09-29
Anticipated expiration: 2039-09-30
Also published as: CN110728319A

Abstract

本申请实施例公开一种图像生成方法、装置以及计算机存储介质，方法包括：获取第一图像，将所述第一图像输入判别模型；所述判别模型包括多个类别标签；基于所述判别模型提取所述第一图像中与每个类别标签相关联的第一对象特征向量，根据所述第一对象特征向量得到所述每个类别标签分别对应的类别标签概率，根据所述类别标签概率生成所述第一图像的语义向量；获取第二图像，将所述语义向量和所述第二图像输入语义迁移模型；基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像。采用本申请，可以通过两张人脸图像生成一张包含原图像内容和特征的新人脸图像。

Description

一种图像生成方法、装置以及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像生成方法、装置以及计算机存储介质。

背景技术

人脸图像翻译是将人脸图像从其原始形式自动转换成某种合成形式(风格变化、部分内容变化等)，同时保留原有人脸图像的结构或形义，是计算机视觉领域备受关注的课题。

虚拟现实技术(Virtual Reality，VR)以及科幻动作片中的视频换脸等是人脸图像翻译的重要应用，但是在现有技术中，结合两张人脸图像进行图像翻译需要人工手动执行，且改变了原人脸图像的内容。

因此，随着深度卷积和生成式对抗网络的迅速发展，提出一种能很好保留原人脸图像的内容且融合其他人脸图像特征的方法变得十分必要。

发明内容

本申请实施例提供一种图像生成方法、装置以及计算机存储介质，可以生成既保留原人脸图像的内容又包含其他人脸图像特征的新图像。

本申请实施例第一方面提供了一种图像生成方法，包括：

获取第一图像，将所述第一图像输入判别模型；所述判别模型包括多个类别标签；

基于所述判别模型提取所述第一图像中与每个类别标签相关联的第一对象特征向量，根据所述第一对象特征向量得到所述每个类别标签分别对应的类别标签概率，根据所述类别标签概率生成所述第一图像的语义向量；

获取第二图像，将所述语义向量和所述第二图像输入语义迁移模型；

基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像。

其中，所述基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像，包括：

基于所述语义迁移模型对所述第二图像进行下采样，得到与所述第二图像对应的所述第二对象特征向量；

基于所述语义迁移模型中的感知器，生成所述语义向量对应的语义模型参数；

在所述语义迁移模型中，基于所述语义模型参数对所述第二对象特征向量进行语义迁移，得到所述融合特征向量；

基于所述语义迁移模型对所述融合特征向量进行上采样，得到第三对象特征向量；

根据所述第三对象特征向量生成所述第三图像。

其中，所述感知器包含第一感知器、第二感知器；所述语义模型参数包括与所述第一感知器相关联的第一语义模型参数和与所述第二感知器相关联的第二语义模型参数；

所述在所述语义迁移模型中，基于所述语义模型参数对所述第二对象特征向量进行语义迁移，得到所述融合特征向量，包括：

在所述语义迁移模型中获取与所述第一感知器对应的第一语义迁移子模型，获取与所述第二感知器对应的第二语义迁移子模型；

将所述第一语义模型参数和所述第二对象特征向量输入所述第一语义迁移子模型，得到待处理融合特征向量；

将所述第二语义模型参数和所述待处理融合特征向量输入所述第二语义迁移子模型，得到所述融合特征向量。

其中，还包括：

获取样本图像，根据所述样本图像携带的实际类别标签，生成目标语义向量；

基于初始判别模型对应的多个样本类别标签、所述样本图像确定与每个样本类别标签分别对应的样本估计语义向量；

基于初始生成模型、所述目标语义向量以及所述样本图像生成过渡语义迁移图像；

基于所述初始生成模型、所述样本估计语义向量以及所述过渡语义迁移图像生成循环语义迁移图像；

根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像和所述循环语义迁移图像生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始语义迁移模型，得到所述判别模型和所述语义迁移模型。

其中，所述样本图像包括第一样本图像和第二样本图像；所述第一样本图像携带第一实际类别标签，所述第二样本图像携带第二实际类别标签；

所述根据所述样本图像携带的实际类别标签，生成目标语义向量，包括：

获取所述第一样本图像对应于所述第一实际类别标签的第一实际语义向量；

获取所述第二样本图像对应于所述第二实际类别标签的第二实际语义向量；

将所述第一实际语义向量和所述第二实际语义向量拼接，生成第三实际语义向量；

从所述第三实际语义向量中获取所述目标语义向量。

其中，所述根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像和所述循环语义迁移图像生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始语义迁移模型，得到所述判别模型和所述语义迁移模型，包括：

基于所述初始判别模型对应的所述多个样本类别标签、所述过渡语义迁移图像确定与所述每个样本类别标签分别对应的目标估计语义向量；

基于所述初始判别模型匹配所述第三实际语义向量与所述样本估计语义向量，得到第一匹配结果；

基于所述初始判别模型匹配所述目标语义向量与所述目标估计语义向量，得到第二匹配结果；

根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成所述模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始语义迁移模型，得到所述判别模型和所述语义迁移模型。

其中，所述模型损失值包括：对抗损失值、第一语义损失值、第二语义损失值和语义循环损失值；

根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成所述模型损失值，包括：

根据所述第一匹配结果和所述第二匹配结果，确定所述对抗损失值；

根据所述样本图像和所述第三实际语义向量，确定所述第一语义损失值；

根据所述过渡语义迁移图像和所述目标语义向量，确定所述第二语义损失值；

根据所述样本估计语义向量、所述样本图像和所述循环语义迁移图像，确定所述语义循环损失值。

相应地，本申请实施例第二方面提供了一种图像生成装置，包括：

第一获取模块，用于获取第一图像，将所述第一图像输入判别模型；所述判别模型包括多个类别标签；

第一生成模块，用于基于所述判别模型提取所述第一图像中与每个类别标签相关联的第一对象特征向量，根据所述第一对象特征向量得到所述每个类别标签分别对应的类别标签概率，根据所述类别标签概率生成所述第一图像的语义向量；

第二获取模块，用于获取第二图像，将所述语义向量和所述第二图像输入语义迁移模型；

输出模块，用于基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像。

其中，所述输出模块，包括：

下采样单元，用于基于所述语义迁移模型对所述第二图像进行下采样，得到与所述第二图像对应的所述第二对象特征向量；

第一生成单元，用于基于所述语义迁移模型中的感知器，生成所述语义向量对应的语义模型参数；

迁移单元，用于在所述语义迁移模型中，基于所述语义模型参数对所述第二对象特征向量进行语义迁移，得到所述融合特征向量；

上采样单元，用于基于所述语义迁移模型对所述融合特征向量进行上采样，得到第三对象特征向量；

第二生成单元，用于根据所述第三对象特征向量生成所述第三图像。

所述迁移单元，包括：

获取子单元，用于在所述语义迁移模型中获取与所述第一感知器对应的第一语义迁移子模型，获取与所述第二感知器对应的第二语义迁移子模型；

第一输入子单元，用于将所述第一语义模型参数和所述第二对象特征向量输入所述第一语义迁移子模型，得到待处理融合特征向量；

第二输入子单元，用于将所述第二语义模型参数和所述待处理融合特征向量输入所述第二语义迁移子模型，得到所述融合特征向量。

其中，还包括：

第三获取模块，用于获取样本图像；根据所述样本图像携带的实际类别标签，生成目标语义向量；

确定模块，用于基于初始判别模型对应的多个样本类别标签、所述样本图像确定与每个样本类别标签分别对应的样本估计语义向量；

第二生成模块，用于基于初始生成模型、所述目标语义向量以及所述样本图像生成过渡语义迁移图像；

第三生成模块，用于基于所述初始生成模型、所述样本估计语义向量以及所述过渡语义迁移图像生成循环语义迁移图像；

训练模块，用于根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像和所述循环语义迁移图像生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

所述第三获取模块，包括：

第一获取单元，用于获取所述第一样本图像对应于所述第一实际类别标签的第一实际语义向量；

第二获取单元，用于获取所述第二样本图像对应于所述第二实际类别标签的第二实际语义向量；

拼接生成单元，用于将所述第一实际语义向量和所述第二实际语义向量拼接，生成第三实际语义向量；

第三获取单元，用于从所述第三实际语义向量中获取所述目标语义向量。

其中，所述训练模块，包括：

确定单元，用于基于所述初始判别模型对应的所述多个样本类别标签、所述过渡语义迁移图像确定与所述每个样本类别标签分别对应的目标估计语义向量；

第一匹配单元，用于基于所述初始判别模型匹配所述第三实际语义向量与所述样本估计语义向量，得到第一匹配结果；

第二匹配单元，用于基于所述初始判别模型匹配所述目标语义向量与所述目标估计语义向量，得到第二匹配结果；

训练单元，用于根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成所述模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

所述训练单元，包括：

第一确定子单元，用于根据所述第一匹配结果和所述第二匹配结果，确定所述对抗损失值；

第二确定子单元，用于根据所述样本图像和所述第三实际语义向量，确定所述第一语义损失值；

第三确定子单元，用于根据所述过渡语义迁移图像和所述目标语义向量，确定所述第二语义损失值；

第四确定子单元，用于根据所述样本估计语义向量、所述样本图像和所述循环语义迁移图像，确定所述语义循环损失值。

本申请实施例第三方面公开了一种电子设备，包括：处理器、存储器、通信接口和总线；

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

述存储器存储可执行程序代码；

述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行本申请实施例第一方面公开的一种图像生成方法中的操作。

相应地，本申请实施例提供了一种存储介质，其中，所述存储介质用于存储应用程序，述应用程序用于在运行时执行本申请实施例第一方面公开的一种图像生成方法。

相应地，本申请提供了一种应用程序，其中，所述应用程序用于在运行时执行本申请实施例第一方面公开的一种图像生成方法。

本申请实施例通过获取第一图像，将所述第一图像输入判别模型；所述判别模型包括多个类别标签；基于所述判别模型提取所述第一图像中与每个类别标签相关联的第一对象特征向量，根据所述第一对象特征向量得到所述每个类别标签分别对应的类别标签概率，根据所述类别标签概率生成所述第一图像的语义向量；获取第二图像，将所述语义向量和所述第二图像输入语义迁移模型；基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像。上述可知，第一图像的语义向量是根据第一图像的类别标签概率生成，且该类别标签概率是基于第一图像的第一对象特征向量判别得出；通过将第一图像的语义向量迁移至第二图像，可以生成一张新的图像，该图像既保留了第二图像的内容，又包含第一图像的类别特征。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像生成方法的系统架构图；

图2是本申请实施例提供的一种图像生成方法的流程示意图；

图3是本申请实施例提供的一种图像生成方法的场景示意图；

图4是本申请实施例提供的另一种图像生成方法的流程示意图；

图5是本申请实施例提供的一种训练样本图像方法的流程示意图；

图6是本申请实施例提供的一种训练样本图像方法的场景示意图；

图7是本申请实施例提供的一种图像生成装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本申请实施例提供的一种图像生成方法的系统架构图。服务器10a为用户终端集群提供服务，用户终端集群可以包括：服务器10b、用户终端10c、...、用户终端10d。当用户终端(可以是服务器10b、用户终端10c或用户终端10d)获取到两类人脸图像，并需要结合两类人脸图像生成新的第三类人脸图像时，即进行人脸图像翻译，将上述两类人脸图像发送至服务器10a。服务器10a基于提前训练好的判别模型提取第一类人脸图像中的语义向量，上述语义向量是由第一类人脸图像的多个类别标签概率生成，判别模型包含多个类别标签；服务器10a再基于提前训练好的语义迁移模型将上述第一类人脸图像的语义向量迁移至第二类人脸图像中，生成第三类人脸图像，上述第三类人脸图像既保留了第二类人脸图像的内容又包含第一类人脸图像的类别对象特征。后续，服务器10a可以将生成的第三类人脸图像发送至用户终端，以及将上述三类人脸图像以及第一类人脸图像的语义向量关联存储在数据库中。用户终端接收到服务器发送的新图像(即第三类图像)后，可以在屏幕上显示。当然，若用户终端的本地存储了训练好的判别模型和语义迁移模型，可以在用户终端本地将两类人脸图像翻译为第三类人脸图像。其中，由于训练判别模型和训练语义迁移模型涉及到大量的离线计算，因此用户终端本地的判别模型和语义迁移模型可以是由服务器10a训练完成后发送至用户终端。下述以两张人脸图像进行翻译生成第三张人脸图像为例(可以是在服务器10a中进行，也可以是在用户终端中进行)，进行说明。

其中，用户终端可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID，mobile internet device)、POS(Point Of Sales，销售点)机、可穿戴设备(例如智能手表、智能手环等)等。

请参见图2，是本申请实施例提供的一种图像生成方法的流程示意图。如图2所示，所述图像生成方法可以包括：

步骤S201，获取第一图像，将所述第一图像输入判别模型；所述判别模型包括多个类别标签。

具体的，服务器获取待处理的第一图像，将上述第一图像输入至判别模型，判别模型可以是一个卷积神经网络模型，并包含多个类别标签，比如大眼睛或小眼睛、长刘海或无刘海、开心或忧伤等，该判别模型由初始判别模型训练得到。

步骤S202，基于所述判别模型提取所述第一图像中与每个类别标签相关联的第一对象特征向量，根据所述第一对象特征向量得到所述每个类别标签分别对应的类别标签概率，根据所述类别标签概率生成所述第一图像的语义向量。

具体的，请一并参见图3，是本申请实施例提供的一种图像生成方法的场景示意图。步骤S201获取的第一图像是图3中的人脸图像30a，其中人脸图像30a的图像类别特征包括小眼睛、无刘海、开心等，将上述人脸图像30a(即第一图像)输入判别模型30d的输入层，以将人脸图像30a转化为第一对象特征向量，上述第一对象特征向量与判别模型中的每个类别标签相关联；再利用判别模型30d中的卷积层的卷积运算和池化层的池化运算，得出上述第一对象特征向量对应于判别模型所包含的类别标签的计算概率，分别是：0.99小眼睛、0.9无刘海、0.89开心等，其中，“0.99小眼睛”就表示判别模型30d判别人脸图像30a的第一对象特征向量有0.99的概率为“眼睛”类别标签中的小眼睛。基于上述多个类别标签概率生成上述人脸图像30a的语义向量30e。

步骤S203，获取第二图像，将所述语义向量和所述第二图像输入语义迁移模型。

具体的，请一并参见图3，上述第二图像是图3中的人脸图像30b，人脸图像30b的图像类别特征可以包括大眼睛、长刘海、郁闷等；上述语义迁移模型30f可以是一个卷积神经网络模型，该语义迁移模型30f由初始生成模型训练得到。

步骤S204，基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像。

具体的，请一并参见图3，将语义向量30e和人脸图像30b输入语义迁移模型30f；基于语义迁移模型30f对人脸图像30b进行下采样，得到与人脸图像30b对应的上述第二对象特征向量；基于所述语义迁移模型30f中的感知器，生成所述语义向量30e对应的语义模型参数；在所述语义迁移模型30f中，基于所述语义模型参数对所述第二对象特征向量进行语义迁移，得到所述融合特征向量。

具体迁移过程请一并参见图4，是本申请实施例提供的另一种图像生成方法的流程示意图。如图4所示，本申请实施例中的语义迁移模型30f中包含6个残差模块(即语义迁移子模型)以及对应的6个感知器，其中，所述语义模型参数可以包括与所述第一感知器相关联的第一语义模型参数和与所述第二感知器相关联的第二语义模型参数；在所述语义迁移模型30f中获取与所述第一感知器对应的第一残差模块(即第一语义迁移子模型)，获取与所述第二感知器对应的第二残差模块(即第二语义迁移子模型)；将所述第一语义模型参数和所述第二对象特征向量输入所述第一残差模块，得到待处理融合特征向量；将所述第二语义模型参数和所述待处理融合特征向量输入所述第二残差模块，得到所述融合特征向量；上述以第一残差模块、第二残差模块、第一感知器以及第二感知器为例叙述迁移过程，其余残差模块与感知器的迁移过程可以参照上述过程。

得到所述融合特征向量后，再基于所述语义迁移模型30f对所述融合特征向量进行上采样，得到第三对象特征向量；根据所述第三对象特征向量生成人脸图像30c(即所述第三图像)，上述人脸图像30c保留了人脸图像30b的图像内容，又包含了人脸图像30a的小眼睛、无刘海和开心等对象特征。

上述可知，第一图像的语义向量是根据第一图像的类别标签概率生成，且该类别标签概率是基于第一图像的第一对象特征向量判别得出；通过将第一图像的语义向量迁移至第二图像，可以生成一张新的图像，该图像既保留了第二图像的内容，又包含第一图像的类别特征。

进一步地，请参见图5，是本申请实施例提供的一种训练样本图像方法的流程示意图。如图5所示，所述方法可以包括：

步骤S501，获取样本图像；根据所述样本图像携带的实际类别标签，生成目标语义向量。

具体的，为了训练判别模型和语义迁移模型，服务器获取样本人脸图像，所述样本人脸图像包括第一样本人脸图像和第二样本人脸图像，所述第一样本人脸图像携带第一实际类别标签，比如女性、黄色头发、有刘海等，所述第二样本人脸图像携带第二实际类别标签，比如大眼睛、开心等；根据第一样本人脸图像携带的第一实际类别标签，获取所述第一样本人脸图像对应于所述第一实际类别标签的类别概率，由所述类别标签概率生成第一实际语义向量；根据第二样本人脸图像携带的第二实际类别标签，获取所述第二样本人脸图像对应于所述第二实际类别标签的类别概率，由所述类别标签概率第二实际语义向量；将所述第一实际语义向量和所述第二实际语义向量拼接，生成第三实际语义向量60a；从所述第三实际语义向量60a中获取所述目标语义向量60b。

下述步骤S502-步骤S505是用于描述训练判别模型和语义迁移模型的过程。判别模型是用于提取对应于类别标签的人脸图像的语义向量，可以对应于对抗网络中的初始判别模型，初始判别模型可以包含初始语义判别器和初始真假判别器，其中，初始语义判别器是用于得出样本人脸图像和过渡语义迁移图像对应于类别标签的估计概率，初始真假判别器用于判断由样本人脸图像生成的模拟人脸图像(包括下文提及的过渡语义迁移图像和循环语义迁移图像)和样本人脸图像的向量差距概率(由初始生成模型生成的样本人脸图像就是模拟人脸图像，由服务器采集来的人脸图像是真实的样本人脸图像，且属真实样本人脸图像的概率和属于模拟人脸图像的概率之和为1)；语义迁移模型是用于将两张人脸图像结合生成一张新的人脸图像，也可以理解为利用第一张人脸图像的对象特征和第二张人脸图像生成了一张既包含第二张人脸图像的内容又包含第一张人脸图像的对象特征，因此语义迁移模型可以对应于对抗网络中的初始生成模型。对于对抗网络也可以理解为：初始生成模型要生成尽量真实又包含其他样本人脸图像的类别特征的人脸图像，初始判别模型要尽量识别出由初始生成模型生成的人脸图像是模型的仿真人脸图像，而不是真实采集的人脸图像，所以这是一个对抗博弈的过程(也就称为对抗网络)，因此训练过程就是在初始生成模型对应的真实性和初始判别模型对应的准确性之间寻找一个平衡。

步骤S502，基于初始判别模型对应的多个样本类别标签、所述样本图像确定与每个样本类别标签分别对应的样本估计语义向量。

具体的，上述初始判别模型可以是一个卷积神经网络模型，并包含多个类别标签，比如大眼睛或小眼睛、长刘海或无刘海、开心或郁闷等，包含的类别标签数量通常大于样本人脸图像包含的类别标签数量，由该初始判别模型训练得到上述判别模型。

将上述样本人脸图像输入初始判别模型的输入层，以将样本人脸图像转化为样本对象特征向量，上述样本对象特征向量与初始判别模型中的每个类别标签相关联，比如“大眼睛”类别标签，上述样本人脸图像转化时，会针对眼睛部位区域生成“大眼睛”样本对象特征向量；再利用初始判别模型中的卷积层的卷积运算和池化层的池化运算，得出上述样本对象特征向量对应于初始判别模型所包含的类别标签的估计概率，基于上述多个类别标签估计概率生成上述样本人脸图像的样本估计语义向量60c。

步骤S503，基于初始生成模型、所述目标语义向量以及所述样本图像生成过渡语义迁移图像。

具体的，上述初始生成模型可以是一个卷积神经网络模型，训练该模型得到语义迁移模型。将上述目标语义向量60b和上述样本人脸图像输入初始生成模型，基于初始生成模型对样本人脸图像进行下采样，得到与样本人脸图像对应的真实对象特征向量；基于所述初始生成模型中的感知器，生成上述目标语义向量60b对应的目标语义模型参数，具体生成过渡语义迁移图像的过程请参见图2中的步骤S204，此处不再进行赘述。

步骤S504，基于所述初始生成模型、所述样本估计语义向量以及所述过渡语义迁移图像生成循环语义迁移图像。

具体的，将上述样本估计语义向量60c和上述过渡语义迁移图像输入初始生成模型，基于初始生成模型对过渡语义迁移图像进行下采样，得到与语义迁移图像对应的过渡对象特征向量；基于所述初始生成模型中的感知器，生成上述样本估计语义向量60c对应的估计语义模型参数，具体生成循环语义迁移图像的过程请参见图2中的步骤S204，此处不再进行赘述。

步骤S505，根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像和所述循环语义迁移图像生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

具体的，基于所述初始判别模型对应的所述多个样本类别标签、所述过渡语义迁移图像确定与所述每个样本类别标签分别对应的目标估计语义向量60e；基于所述初始判别模型匹配所述第三实际语义向量60a与所述样本估计语义向量60c，得到第一匹配结果60d，即样本人脸图像对应的样本对象特征向量为样本人脸图像对应的真实对象特征向量的概率；基于所述初始判别模型匹配所述目标语义向量60b与所述目标估计语义向量60e，得到第二匹配结果60f，即过渡语义迁移图像对应的过渡对象特征向量为样本人脸图像对应的目标对象特征向量的概率。

所述模型损失值包括：对抗损失值、第一语义损失值、第二语义损失值和语义循环损失值。根据所述第一匹配结果60d和所述第二匹配结果60e，确定所述对抗损失值，该损失值定义为：

其中，E表示数学期望，x表示样本人脸图像，x_t表示过渡语义迁移图像，A、B表示第一样本集和第二样本集，S_t表示目标类别标签，S表示样人脸本图像的类别标签，G表示初始生成模型，||·||₂指二阶矩，D_src为真假判别器，指x与x_t之间的随机插值，/>指/>的梯度，λ_gp是超参数，在本实例中设置为10。

根据所述样本人脸图像和所述第三实际语义向量60a，确定所述第一语义损失值，用于优化语义判别器D_sem，该损失值定义为：

其中，表示人脸样本图像x在来自第一样本集A的条件下，D_sem将其语义判别为/>的条件概率。因此/>的作用是训练D_sem能够正确地将x^a的语义估计/>判别为/>即，使得/>同理。该损失值的作用是使语义判别器D_sem计算得到的样本人脸图像x的语义估计/>能够逼近标记好的语义s_o，从而训练语义判别器D_sem学习到如何正确估计人脸图像语义。

根据所述过渡语义迁移图像和所述目标语义向量，确定所述第二语义损失值，用于优化语义迁移网络G，该损失值定义为：

其中，该损失值的目的是使在给定人脸图像x_s＝G(x,s_t)时，其语义向量能够逼近s_t。不同的是，此时语义判别器D_sem是固定的，训练的是初始生成模型G。因此G将在此学习到如何生成具备语义s_t的人脸图像。

根据所述样本估计语义向量、所述样本图像和所述循环语义迁移图像，确定所述语义循环损失值，该损失值定义如下：

其中||·||₁指一阶矩，样本估计语义向量/>是使用语义判别器D_sem得到的人脸图像x的语义估计，/>sigmoid[]是指sigmoid函数。

根据以上模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

本申请实施例通过获取样本图像；根据所述样本图像携带的实际类别标签，生成目标语义向量；基于初始判别模型对应的多个样本类别标签、所述样本图像确定与每个样本类别标签分别对应的样本估计语义向量；基于初始生成模型、所述目标语义向量以及所述样本图像生成过渡语义迁移图像；基于所述初始生成模型、所述样本估计语义向量以及所述过渡语义迁移图像生成循环语义迁移图像；根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像和所述循环语义迁移图像生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。上述可知，通过第一图像的语义向量是根据第一图像的类别标签概率生成，且该类别标签概率是基于第一图像的第一对象特征向量判别得出；通过将第一图像的语义向量迁移至第二图像，可以生成一张新的图像，该图像既保留了第二图像的内容，又包含第一图像的类别特征。

请参见图7，是本申请实施例提供的一种图像生成装置的结构示意图。如图7所示，图像生成装置1可以包括：第一获取模块11、第一生成模块12、第二获取模块13、输出模块14。

第一获取模块11，用于获取第一图像，将所述第一图像输入判别模型；所述判别模型包括多个类别标签；

第一生成模块12，用于基于所述判别模型提取所述第一图像中与每个类别标签相关联的第一对象特征向量，根据所述第一对象特征向量得到所述每个类别标签分别对应的类别标签概率，根据所述类别标签概率生成所述第一图像的语义向量；

第二获取模块13，用于获取第二图像，将所述语义向量和所述第二图像输入语义迁移模型；

输出模块14，用于基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像。

其中，第一获取模块11、第一生成模块12、第二获取模块13、输出模块14的具体功能实现方式可以参见上述图2对应实施例中的步骤S201-S204，这里不再进行赘述。

请参见图7，所述输出模块14可以包括：下采样单元141、第一生成单元142、迁移单元143、上采样单元144、第二生成单元145。

下采样单元141，用于基于所述语义迁移模型对所述第二图像进行下采样，得到与所述第二图像对应的所述第二对象特征向量；

第一生成单元142，用于基于所述语义迁移模型中的感知器，生成所述语义向量对应的语义模型参数；

迁移单元143，用于在所述语义迁移模型中，基于所述语义模型参数对所述第二对象特征向量进行语义迁移，得到所述融合特征向量；

上采样单元144，用于基于所述语义迁移模型对所述融合特征向量进行上采样，得到第三对象特征向量；

第二生成单元145，用于根据所述第三对象特征向量生成所述第三图像。

其中，下采样单元141、第一生成单元142、迁移单元143、上采样单元144、第二生成单元145的具体功能实现方式可以参见上述图2对应实施例中的步骤S204，这里不再进行赘述。

请参见图7，所述迁移单元143可以包括：获取子单元1431、第一输入子单元1432、第二输入子单元1433。

获取子单元1431，用于在所述语义迁移模型中获取与所述第一感知器对应的第一语义迁移子模型，获取与所述第二感知器对应的第二语义迁移子模型；

第一输入子单元1432，用于将所述第一语义模型参数和所述第二对象特征向量输入所述第一语义迁移子模型，得到待处理融合特征向量；

第二输入子单元1433，用于将所述第二语义模型参数和所述待处理融合特征向量输入所述第二语义迁移子模型，得到所述融合特征向量。

其中，获取子单元1431、第一输入子单元1432、第二输入子单元1433的具体功能实现方式可以参见上述图4对应实施例，这里不再进行赘述。

再请参见图7，图像生成装置1还可以包括：第三获取模块15、确定模块16、第二生成模块17、第三生成模块18、训练模块19。

第三获取模块15，用于获取样本图像；根据所述样本图像携带的实际类别标签，生成目标语义向量；

确定模块16，用于基于初始判别模型对应的多个样本类别标签、所述样本图像确定与每个样本类别标签分别对应的样本估计语义向量；

第二生成模块17，用于基于初始生成模型、所述目标语义向量以及所述样本图像生成过渡语义迁移图像；

第三生成模块18，用于基于所述初始生成模型、所述样本估计语义向量以及所述过渡语义迁移图像生成循环语义迁移图像；

训练模块19，用于根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像和所述循环语义迁移图像生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

其中，第三获取模块15、确定模块16、第二生成模块17、第三生成模块18、训练模块19的具体功能实现方式可以参见上述图5对应实施例中的步骤S501-步骤S505，这里不再进行赘述。

请参见图7，所述第三获取模块15可以包括：第一获取单元151、第二获取单元152、拼接生成单元153、第三获取单元154。

第一获取单元151，用于获取所述第一样本图像对应于所述第一实际类别标签的第一实际语义向量；

第二获取单元152，用于获取所述第二样本图像对应于所述第二实际类别标签的第二实际语义向量；

拼接生成单元153，用于将所述第一实际语义向量和所述第二实际语义向量拼接，生成第三实际语义向量；

第三获取单元154，用于从所述第三实际语义向量中获取所述目标语义向量。

其中，第一获取单元151、第二获取单元152、拼接生成单元153、第三获取单元154的具体功能实现方式可以参见上述图5对应实施例中的步骤S501，这里不再进行赘述。

请参见图7，所述训练模块19可以包括：确定单元191、第一匹配单元192、第二匹配单元193、训练单元194。

确定单元191，用于基于所述初始判别模型对应的所述多个样本类别标签、所述过渡语义迁移图像确定与所述每个样本类别标签分别对应的目标估计语义向量；

第一匹配单元192，用于基于所述初始判别模型匹配所述第三实际语义向量与所述样本估计语义向量，得到第一匹配结果；

第二匹配单元193，用于基于所述初始判别模型匹配所述目标语义向量与所述目标估计语义向量，得到第二匹配结果；

训练单元194，用于根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成所述模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

其中，确定单元191、第一匹配单元192、第二匹配单元193、训练单元194的具体功能实现方式可以参见上述图5对应实施例中的步骤S505，这里不再进行赘述。

请参见图7，所述训练单元194可以包括：第一确定子单元1941、第二确定子单元1942、第三确定子单元1943、第四确定子单元1944。

第一确定子单元1941，用于根据所述第一匹配结果和所述第二匹配结果，确定所述对抗损失值；

第二确定子单元1942，用于根据所述样本图像和所述第三实际语义向量，确定所述第一语义损失值；

第三确定子单元1943，用于根据所述过渡语义迁移图像和所述目标语义向量，确定所述第二语义损失值；

第四确定子单元1944，用于根据所述样本估计语义向量、所述样本图像和所述循环语义迁移图像，确定所述语义循环损失值。

其中，第一确定子单元1941、第二确定子单元1942、第三确定子单元1943、第四确定子单元1944的具体功能实现方式可以参见上述图5对应实施例中的步骤S505，这里不再进行赘述。

进一步地，请参见图8，是本申请实施例提供的一种电子设备的结构示意图。如图8所示，该电子设备可以包括：至少一个处理器801，例如CPU，至少一个通信接口802，至少一个存储器803，至少一个总线804。其中，总线804用于实现这些组件之间的连接通信。其中，本申请实施例中电子设备的通信接口802是有线发送端口，也可以为无线设备，例如包括天线装置，用于与其他节点设备进行信令或数据的通信。存储器803可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器803可选的还可以是至少一个位于远离前述处理器801的存储装置。存储器803中存储一组程序代码，且处理器801用于调用存储器中存储的程序代码，用于执行以下操作：

其中，处理器801还用于执行如下操作步骤：基于所述语义迁移模型对所述第二图像进行下采样，得到与所述第二图像对应的所述第二对象特征向量；

根据所述第三对象特征向量生成所述第三图像。

其中，处理器801还用于执行如下操作步骤：在所述语义迁移模型中获取与所述第一感知器对应的第一语义迁移子模型，获取与所述第二感知器对应的第二语义迁移子模型；

处理器801还用于执行如下操作步骤：获取样本图像；根据所述样本图像携带的实际类别标签，生成目标语义向量；

根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像和所述循环语义迁移图像生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

其中，处理器801还用于执行如下操作步骤：获取所述第一样本图像对应于所述第一实际类别标签的第一实际语义向量；

从所述第三实际语义向量中获取所述目标语义向量。

其中，处理器801还用于执行如下操作步骤：基于所述初始判别模型对应的所述多个样本类别标签、所述过渡语义迁移图像确定与所述每个样本类别标签分别对应的目标估计语义向量；

根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成所述模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到所述判别模型和所述语义迁移模型。

其中，处理器801还用于执行如下操作步骤：根据所述第一匹配结果和所述第二匹配结果，确定所述对抗损失值；

需要说明的是，本申请实施例同时也提供了一种存储介质，该存储介质用于存储应用程序，该应用程序用于在运行时执行图2和图5所示的一种人脸图像生成方法中电子设备执行的操作。

需要说明的是，本申请实施例同时也提供了一种应用程序，该应用程序用于在运行时执行图2和图5所示的一种人脸图像生成方法中电子设备执行的操作。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

Claims

1.一种图像生成方法，其特征在于，包括：

获取样本图像；所述样本图像包括第一样本图像和第二样本图像；所述第一样本图像携带第一实际类别标签，所述第二样本图像携带第二实际类别标签；

获取所述第一样本图像对应于所述第一实际类别标签的第一实际语义向量，获取所述第二样本图像对应于所述第二实际类别标签的第二实际语义向量；

将所述第一实际语义向量和所述第二实际语义向量拼接，生成第三实际语义向量，从所述第三实际语义向量中获取目标语义向量；

基于所述初始判别模型对应的多个样本类别标签、所述过渡语义迁移图像确定与所述每个样本类别标签分别对应的目标估计语义向量；

根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到判别模型和语义迁移模型；

获取第一图像，将所述第一图像输入所述判别模型；所述判别模型包括多个类别标签；

获取第二图像，将所述语义向量和所述第二图像输入所述语义迁移模型；

2.根据权利要求1所述的方法，其特征在于，所述基于所述语义迁移模型对所述语义向量和所述第二图像对应的第二对象特征向量进行融合，得到融合特征向量，根据所述融合特征向量输出第三图像，包括：

根据所述第三对象特征向量生成所述第三图像。

3.根据权利要求2所述的方法，其特征在于，所述感知器包含第一感知器、第二感知器；所述语义模型参数包括与所述第一感知器相关联的第一语义模型参数和与所述第二感知器相关联的第二语义模型参数；

4.根据权利要求1所述的方法，其特征在于，所述模型损失值包括：对抗损失值、第一语义损失值、第二语义损失值和语义循环损失值；

所述根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成所述模型损失值，包括：

5.一种图像生成装置，其特征在于，包括：

第三获取模块，用于获取样本图像；所述样本图像包括第一样本图像和第二样本图像；所述第一样本图像携带第一实际类别标签，所述第二样本图像携带第二实际类别标签；

所述第三获取模块，还用于获取所述第一样本图像对应于所述第一实际类别标签的第一实际语义向量，获取所述第二样本图像对应于所述第二实际类别标签的第二实际语义向量；

所述第三获取模块，还用于将所述第一实际语义向量和所述第二实际语义向量拼接，生成第三实际语义向量，从所述第三实际语义向量中获取目标语义向量；

训练模块，用于基于所述初始判别模型对应的多个样本类别标签、所述过渡语义迁移图像确定与所述每个样本类别标签分别对应的目标估计语义向量；

所述训练模块，还用于基于所述初始判别模型匹配所述第三实际语义向量与所述样本估计语义向量，得到第一匹配结果；

所述训练模块，还用于基于所述初始判别模型匹配所述目标语义向量与所述目标估计语义向量，得到第二匹配结果；

所述训练模块，还用于根据所述样本图像、所述目标语义向量、所述样本估计语义向量、所述过渡语义迁移图像、所述循环语义迁移图像、所述第三实际语义向量、所述第一匹配结果和所述第二匹配结果生成模型损失值，根据所述模型损失值训练所述初始判别模型和所述初始生成模型，得到判别模型和语义迁移模型；

第一获取模块，用于获取第一图像，将所述第一图像输入所述判别模型；所述判别模型包括多个类别标签；

生成模块，用于基于所述判别模型提取所述第一图像中与每个类别标签相关联的第一对象特征向量，根据所述第一对象特征向量得到所述每个类别标签分别对应的类别标签概率，根据所述类别标签概率生成所述第一图像的语义向量；

第二获取模块，用于获取第二图像，将所述语义向量和所述第二图像输入所述语义迁移模型；

6.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和总线；

所述存储器存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-4任一项所述的图像生成方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多种指令，所述指令适于由处理器加载并执行如权利要求1-4任一项所述的图像生成方法。