CN109472764A

CN109472764A - 图像合成和图像合成模型训练的方法、装置、设备和介质

Info

Publication number: CN109472764A
Application number: CN201811447866.1A
Authority: CN
Inventors: 杨轩; 李振; 邹昱
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-03-15
Anticipated expiration: 2038-11-29
Also published as: CN109472764B

Abstract

本发明实施例公开了一种图像合成和图像合成模型训练的方法、装置、设备和介质。该图像合成方法，通过获取待合成的原始图像；确定所述原始图像的目标图像属性；获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器；将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征；将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像，解决图像添加特效单一且无法自定义的问题，实现为用户提供多种图像属性选择，并自动生成带有该自定义图像属性的目标图像的效果。

Description

图像合成和图像合成模型训练的方法、装置、设备和介质

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种图像合成和图像合成模型训练的方法、装置、设备和介质。

背景技术

对图像进行特效合成的技术正逐步在娱乐软件中普及。特别是对人脸图像的特效合成的应用越来越丰富，比如添加表情，改变年龄，改变性别和美颜等特效合成的应用。

但在实际应用中，基于用户输入图片或视频进行特效处理的程度和效果有限，很多变化都无法做得自然或自定义化，无法达到较好的用户体验。

发明内容

本发明提供一种图像合成和图像合成模型训练的方法、装置、设备和介质，以实现自动生成带有自定义图像属性的目标图像。

第一方面，本发明实施例提供了一种图像合成方法，该图像合成方法包括：

获取待合成的原始图像；

确定所述原始图像的目标图像属性；

获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器；

将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征；

将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像。

进一步的，所述图像合成方法应用于直播平台，获取待合成的原始图像，包括：

从主播端上传的直播流中获取待合成的原始图像；

确定所述原始图像的目标图像属性，包括：

根据主播端的设置确定所述原始图像的目标图像属性；

在将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像之后，还包括：

根据所述目标图像生成合成后的直播流，并将所述合成后的直播流发送至客户端显示。

进一步的，所述原始图像和目标图像为人脸图像，所述目标图像属性至少包括：年龄、表情、性别和头饰其中之一。

第二方面，本发明实施例提供了一种图像合成模型训练方法，该图像合成模型训练方法包括：

获取训练样本集，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性；

根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，所述生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器；

根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，所述图像合成模型用于将所述训练原始图像合成为训练目标图像。

进一步的，根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，包括：

将所述训练原始图像输入所述特征检测器进行处理，以提取训练图像特征；

将所述训练图像特征输入所述属性判别器，以识别所述训练原始图像的原始属性；

根据所述原始属性与所述训练原始属性计算第一损失值；

将所述训练图像特征和所述训练目标图像的训练目标属性输入所述图像生成器进行处理，以生成训练合成图像；

根据所述训练合成图像与所述训练目标图像计算第二损失值；

判断所述第一损失值与所述第二损失值是否满足预设的迭代条件；

若是，则确定生成对抗网络训练完成；

若否，则更新所述特征检测器、所述图像生成器和所述属性判别器，返回所述将所述训练原始图像输入所述特征检测器进行处理，以提取训练图像特征。

进一步的，根据所述原始属性与所述训练原始属性计算第一损失值，包括：

根据所述原始属性与所述训练原始属性，进行均方误差损失函数的计算；

将计算结果作为第一损失值。

进一步的，根据所述训练合成图像与所述训练目标图像计算第二损失值，包括：

获取感知网络模型；

将所述训练合成图像与所述训练目标图像分别输入所述感知网络模型，以得到所述训练合成图像的第一感知向量与所述训练目标图像的第二感知向量；

根据两个所述感知向量进行均方误差损失函数的计算，以将计算结果作为第二损失值。

进一步的，根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，包括：

使用第一网络模型学习所述特征检测器的部分模型参数，其中，所述第一网络模型的结构小于所述特征检测器；

将学习得到的所述第一网络模型代替所述特征检测器；

使用第二网络模型学习所述图像生成器的部分模型参数，其中，所述第二网络模型的结构小于所述图像生成器；

将学习得到的所述第二网络模型代替所述图像生成器；

将代替的所述特征检测器和所述图像生成器，作为图像合成模型。

进一步的，所述特征检测器和属性判别器均采用残差网络结构。

第三方面，本发明实施例提供了一种图像合成装置，该图像合成装置包括：

原始图像获取模块，用于获取待合成的原始图像；

目标图像属性确定模块，用于确定所述原始图像的目标图像属性；

图像合成模型获取模块，用于获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器；

原始图像特征提取模块，用于将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征；

目标图像生成模块，用于将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像。

第四方面，本发明实施例提供了一种图像合成模型训练装置，该图像合成模型训练装置包括：

训练样本集获取模块，用于获取训练样本集，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性；

对抗网络生成模块，用于根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，所述生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器；

图像合成模型生成模块，用于根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，所述图像合成模型用于将所述训练原始图像合成为训练目标图像。

第五方面，本发明实施例提供了一种图像合成设备，该图像合成设备包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的图像合成方法。

第六方面，本发明实施例提供了一种图像合成模型训练设备，该图像合成模型训练设备包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第二方面中任一所述的图像合成模型训练方法。

第七方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的图像合成方法。

第八方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第二方面中任一所述的图像合成模型训练方法。

本发明实施例通过获取待合成的原始图像；确定所述原始图像的目标图像属性；获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器；将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征；将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像，解决图像添加特效单一且无法自定义的问题，实现为用户提供多种图像属性选择，并自动生成带有该自定义图像属性的目标图像的效果。

附图说明

图1为本发明实施例一提供的一种图像合成方法的流程图；

图2为本发明实施例二提供的一种图像合成方法的流程图；

图3A为本发明实施例三提供的一种图像合成模型训练方法的流程图；

图3B为本发明实施例三提供的一种残差块的结构示意图；

图4为本发明实施例四提供的一种图像合成模型训练方法的流程图；

图5为本发明实施例五提供的一种图像合成模型训练方法的流程图；

图6为本发明实施例六提供的一种图像合成装置的结构示意图；

图7为本发明实施例七提供的一种图像合成模型训练装置的结构示意图；

图8为本发明实施例八提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种图像合成方法的流程图。

本实施例的技术方案可适用于为图片添加特效的情况，具体的，本实施例以人脸特效为例进行说明，该人脸特效可以是改变年龄、添加表情、改变性别和添加饰物等。但可以理解的是，本技术方案也可以适用于其他应用场景中，只要通过为原始图像加入目标图像属性以得到目标图像的问题即可。该方法由一种图像合成设备来执行，该设备可以由软件和/或软件的方式实现，本实施例对图像合成设备不作限定，可以是电脑、工作站、服务器和移动终端等。本实施例以图像合成设备为移动终端为例进行说明，该移动终端可以是手机或平板等。参考图1，该方法具体包括如下步骤：

S110、获取待合成的原始图像。

其中，原始图像是待合成特效的图像。原始图像具有原始图像属性，该原始图像属性可以包括：年龄、表情、性别和头饰等。相应的，原始图像的特效合成指的是更改原始图像的原始图像属性。如原始图像为人脸图像，则原始图像对应的特效合成，可以是改变年龄、添加表情、改变性别和添加饰物等。

具体的，本实施例对如何获取原始图像不作限定，可以是由用户输入，或图像合成设备自动截取。

S120、确定所述原始图像的目标图像属性。

其中，目标图像为原始图像进行特效合成后的图像，目标图像属性为目标图像的图像属性。

具体的，对应人脸图像，目标图像属性可以是年龄、表情、性别和头饰。如原始图像中的原始图像属性为18岁，假设确定的目标图像属性为50岁，则表明用户需要将图像属性为18岁的原始图像经过特效合成，以得到图像属性为50岁的目标图像。而其他的表情、性别和头饰的目标图像属性也可以使用编码的方式表示。如性别“男”可以表示为“1”，性别“女”可以表示为“0”。若目标图像属性使用一向量表示，则目标图像属性则是由各个单独目标图像属性的编码按顺序排列而成。

S130、获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器。

其中，本实施例以使用图像合成模型将原始图像进行特效合成得到目标图像为例进行说明。

具体的，图像合成模型可通过使用训练样本集训练生成对抗网络而得到。其中，训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性；生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器。

需要说明的是，经过特征检测器、图像生成器和属性判别器三者的相互对抗训练，可以保证特征检测器的结果具备除去原始图像属性之外的一致性，进一步保证经过图像生成器所生成的目标图像与原始图像同样具有一致性。更为具体的，可以保证图像生成器所生成的目标图像与原始图像经过特征检测器计算所得结果的一致性。

S140、将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征。

其中，特征检测器用于进行特征检测，可以从原始图像提取出原始图像特征。原始图像特帧为特征检测器输出的向量，是对原始图像的抽象表示。

本实施例对特征检测器的具体实现方式不作限定，可以采用神经网络模型，进一步的，可以是具有残差网络结构的神经网络模型。

S150、将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像。

具体的，由于对抗训练得到的特征检测器和图像生成器可以保证目标图像与原始图像具有一致性，目标图像的合成效果由目标图像属性决定。目标图像属性可以表示需要更改的图像属性和图像属性范围，如目标图像属性中可以包括年龄，还可以进一步限定年龄的大小。

实施例二

图2为本发明实施例二提供的一种图像合成方法的流程图。

本实施例在上述实施例的基础上进一步细化，所述图像合成方法可以应用于美图和直播平台等应用场景。本实施例通过举例说明，所述图像合成方法应用于直播平台，所述原始图像和目标图像为人脸图像，所述目标图像属性至少包括：年龄、表情、性别和头饰其中之一。具体的，直播平台提供有主播端和客户端。主播端用于将主播录制的直播流上传至直播平台服务器；客户端用于从直播平台服务器下载经过特效合成处理的直播流进行播放。

参考图2，本实施例以直播平台的服务器为图像合成设备为例进行说明，该图像合成方法具体包括如下步骤：

S210、从主播端上传的直播流中获取待合成的原始图像。

其中，直播流为视频流，视频流包括多帧连续的原始图像。进一步的，可以从直播流中提取出原始图像。

本实施例以为直播流中主播的人脸图像进行特效合成为例进行说明，可以进行改变年龄、添加表情、改变性别和添加饰物等特效合成。

S220、根据主播端的设置确定所述原始图像的目标图像属性。

具体的，可以在主播端设置针对目标图像属性的设置接口，以方便主播可以通过主播端进行目标图像属性的自定义选择。

S230、获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器。

S240、将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征。

S250、将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像。

S260、根据所述目标图像生成合成后的直播流，并将所述合成后的直播流发送至客户端显示。

具体的，将多帧进行特效合成处理得到的目标图像重新生成直播流，并将该直播流发送至客户端显示。

需要注意的是，本实施例中对直播流进行特效合成处理的过程，也可以是直接在客户端完成。进一步的，可以通过精简图像合成模型的结构，以保证客户端进行特效合成处理的效率。

本发明实施例通过从主播端上传的直播流中获取待合成的原始图像；根据主播端的设置确定所述原始图像的目标图像属性；获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器；将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征；将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像；根据所述目标图像生成合成后的直播流，并将所述合成后的直播流发送至客户端显示，进一步的，所述原始图像和目标图像为人脸图像，所述目标图像属性至少包括：年龄、表情、性别和头饰其中之一，解决图像添加特效单一且无法自定义的问题，实现主播可以为录制的直播流添加针对多种图像属性的特效合成，增加直播间的点击率和关注率。

实施例三

图3A为本发明实施例三提供的一种图像合成模型训练方法的流程图，图3B为本发明实施例三提供的一种残差块的结构示意图。

本实施例中的图像合成模型可适用于为图片添加特效的情况，具体的，本实施例以人脸特效为例进行说明，该人脸特效可以是改变年龄、添加表情、改变性别和添加饰物等。但可以理解的是，本技术方案也可以适用于其他应用场景中，只要该图像合成模型可以为原始图像加入目标图像属性以得到目标图像即可。该图像合成模型可以通过本实施例提供的图像合成模型训练方法训练得到。该方法由一种图像合成模型训练设备来执行，该设备可以由软件和/或软件的方式实现，本实施例对图像合成模型训练设备不作限定，可以是电脑、工作站和服务器等。本实施例以图像合成模型训练设备为服务器为例进行说明，该服务器可以是独立服务器或集群服务器等。

参考图3A，该图像合成模型训练方法具体包括如下步骤：

S310、获取训练样本集，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性。

其中，训练原始图像和训练目标图像互相对应，目的在于将训练原始图像进行特效合成处理，以得到训练目标图像。训练原始属性和训练目标属性为图像属性，图像属性可以使用向量进行表示。进一步的，可以是向量中的每一维表示一种图像属性，其数值表示具体的图像属性范围。

具体的，以训练样本集中的图像为人脸图像为例进行说明，图像属性至少包括：年龄、表情、性别和头饰其中之一。训练原始图像和训练目标图像对应于同一个人脸，但具有不同的图像属性，如变现为不同的年龄、表情、性别或头饰等。年龄、表情、性别和头饰的目标图像属性可以使用编码的方式表示。如性别“男”可以表示为“1”，性别“女”可以表示为“0”；又如，年龄则可以直接用年龄的数值表示。

S320、根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，所述生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器。

在一实施例中，所述特征检测器和属性判别器均采用残差网络结构。其中，残差网络结构由残差块组合而成。

参考图3B，残差块包括：第一卷积层和第二卷积层，第一卷积层的输出作为第二卷积层的输入，第二卷积层的输出与第一卷积层的输入相加之后输出，且第一卷积层和第二卷积层都是以Relu激活函数(The Rectified Linear Unit)的方式进行输出，其中，Relu激活函数的表达式为：f(x)＝max(0,x)。

S330、根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，所述图像合成模型用于将所述训练原始图像合成为训练目标图像。

其中，图像合成模型为特征检测器和图像生成器的组合。

具体的，在图像合成模型使用的过程中，获取待合成的原始图像；确定所述原始图像的目标图像属性；将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征；将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像。

本发明实施例通过获取训练样本集，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性；根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，所述生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器；根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，所述图像合成模型用于将所述训练原始图像合成为训练目标图像，使得特征检测器、图像生成器和属性判别器三者的相互对抗训练，可以保证特征检测器的结果具备除去原始图像属性之外的一致性，进一步保证经过图像生成器所生成的目标图像与原始图像同样具有一致性，得到的图像合成模型可以用于解决图像添加特效单一且无法自定义的问题，实现为用户提供多种图像属性选择，并自动生成带有该自定义图像属性的目标图像的效果。

实施例四

图4为本发明实施例四提供的一种图像合成模型训练方法的流程图，本实施例在上述实施例的基础上进一步细化，该图像合成模型训练方法，具体包括如下步骤：

S401、获取训练样本集。

本实施例中，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性。

S402、将所述训练原始图像输入所述特征检测器进行处理，以提取训练图像特征。

其中，特征检测器用于进行特征检测，可以从训练原始图像提取出训练图像特征。训练图像特帧为特征检测器输出的向量，是对训练原始图像的抽象表示。

S403、将所述训练图像特征输入所述属性判别器，以识别所述训练原始图像的原始属性。

其中，属性判别器用于识别经过特征检测器计算后输出的图像特征所包含的属性。

本实施例中，属性判别器用于识别训练原始图像的原始属性。

S404、根据所述原始属性与所述训练原始属性计算第一损失值。

本实施例中，通过计算第一损失值，确定原始属性与训练原始属性之间的距离，可用于体现特征检测器和属性判别器的训练效果。

在一实施例中，步骤S404进一步细化为步骤S4041-4042：

S4041、根据所述原始属性与所述训练原始属性，进行均方误差损失函数的计算。

其中，原始属性与训练原始属性均可以使用向量的形式表达。均方误差损失函数(Mean Square Error Loss，MSE Loss)的表达式如下：本实施例中，x_i表示第i张训练原始图像，Y_i表示第i张训练原始图像的训练原始属性，F(x_i)表示第i张训练原始图像经过特征检测器和属性判别器计算后输出的原始属性。

S4042、将计算结果作为第一损失值。

S405、将所述训练图像特征和所述训练目标图像的训练目标属性输入所述图像生成器进行处理，以生成训练合成图像。

其中，图像生成器用于对输入的训练图像特征和训练目标属性进行特效合成处理，以期望获取具有训练目标属性的训练合成图像。

S406、根据所述训练合成图像与所述训练目标图像计算第二损失值。

本实施例中，通过计算第二损失值，确定训练合成图像与训练目标图像之间的距离，可用于体现图像生成器的训练效果。

在一实施例中，步骤S406进一步细化为步骤S4061-4063：

S4061、获取感知网络模型。

其中，感知网络模型为已训练的网络模型，示例性的，可以使用预先训练好的VGG16分类模型。感知网络模型主要用于提取特征向量。

S4062、将所述训练合成图像与所述训练目标图像分别输入所述感知网络模型，以得到所述训练合成图像的第一感知向量与所述训练目标图像的第二感知向量。

示例性的，可以提取VGG16分类模型中的一层输出作为感知向量。进而分别得到第一感知向量和第二感知向量。

S4063、根据两个所述感知向量进行均方误差损失函数的计算，以将计算结果作为第二损失值。

具体的，对第一感知向量和第二感知向量进行均方误差损失函数的计算，以将计算结果作为第二损失值。

S407、判断所述第一损失值与所述第二损失值是否满足预设的迭代条件。

若是，则执行S408，若否，则在执行S409后，返回执行S402。

其中，迭代条件为第一损失值与第二损失值均收敛至低于各自对应的预设阈值。

S408、确定生成对抗网络训练完成。

具体的，在确定生成对抗网络训练完成，得到训练完成的所述特征检测器、所述图像生成器和所述属性判别器。进一步可以执行步骤S410。

S409、更新所述特征检测器、所述图像生成器和所述属性判别器。

其中，当所述第一损失值与所述第二损失值不满足预设的迭代条件，则表明特征检测器、图像生成器和属性判别器仍需要继续训练。更新所述特征检测器、所述图像生成器和所述属性判别器，为根据反向传播法更新所述特征检测器、所述图像生成器和所述属性判别器中的权重。

S410、根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，所述图像合成模型用于将所述训练原始图像合成为训练目标图像。

本发明实施例通过获取训练样本集，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性；将所述训练原始图像输入所述特征检测器进行处理，以提取训练图像特征；将所述训练图像特征输入所述属性判别器，以识别所述训练原始图像的原始属性；根据所述原始属性与所述训练原始属性计算第一损失值；将所述训练图像特征和所述训练目标图像的训练目标属性输入所述图像生成器进行处理，以生成训练合成图像；根据所述训练合成图像与所述训练目标图像计算第二损失值；判断所述第一损失值与所述第二损失值是否满足预设的迭代条件；若是，则确定生成对抗网络训练完成；若否，则更新所述特征检测器、所述图像生成器和所述属性判别器，返回所述将所述训练原始图像输入所述特征检测器进行处理，以提取训练图像特征，使得特征检测器、图像生成器和属性判别器三者的相互对抗训练，可以保证特征检测器的结果具备除去原始图像属性之外的一致性，进一步保证经过图像生成器所生成的目标图像与原始图像同样具有一致性，使得该图像合成模型可以用于解决图像添加特效单一且无法自定义的问题，实现为用户提供多种图像属性选择，并自动生成带有该自定义图像属性的目标图像的效果。

实施例五

图5为本发明实施例五提供的一种图像合成模型训练方法的流程图，本实施例在上述实施例的基础上进一步细化，使得训练得到的图像合成模型适用于算力较低的设备，如移动终端。该图像合成模型训练方法，具体包括如下步骤：

S510、获取训练样本集。

S520、根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，所述生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器。

S530、使用第一网络模型学习所述特征检测器的部分模型参数，其中，所述第一网络模型的结构小于所述特征检测器。

其中，特征检测器的部分模型参数可以是特征检测器的最后一层的模型参数，或特征检测器中的任意一层或相邻的多层模型参数。

进一步的，第一网络模型的结构小于特征检测器，可以是第一网络模型的层数少于特征检测器的层数；或，第一网络模型的权重数量少于特征检测器的权重数量。

在一实施例中，第一网络模型和特征检测器均可以采用残差网络结构。

S540、将学习得到的所述第一网络模型代替所述特征检测器。

S550、使用第二网络模型学习所述图像生成器的部分模型参数，其中，所述第二网络模型的结构小于所述图像生成器。

其中，图像生成器的部分模型参数可以是图像生成器的最后一层的模型参数，或图像生成器中的任意一层或相邻的多层模型参数。

进一步的，第二网络模型的结构小于图像生成器，可以是第二网络模型的层数少于图像生成器的层数；或，第二网络模型的权重数量少于图像生成器的权重数量。

S560、将学习得到的所述第二网络模型代替所述图像生成器。

S570、将代替的所述特征检测器和所述图像生成器，作为图像合成模型。

本发明实施例通过获取训练样本集，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性；根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，所述生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器；使用第一网络模型学习所述特征检测器的部分模型参数，其中，所述第一网络模型的结构小于所述特征检测器；将学习得到的所述第一网络模型代替所述特征检测器；使用第二网络模型学习所述图像生成器的部分模型参数，其中，所述第二网络模型的结构小于所述图像生成器；将学习得到的所述第二网络模型代替所述图像生成器；将代替的所述特征检测器和所述图像生成器，作为图像合成模型，一方面，使得特征检测器、图像生成器和属性判别器三者的相互对抗训练，可以保证特征检测器的结果具备除去原始图像属性之外的一致性，进一步保证经过图像生成器所生成的目标图像与原始图像同样具有一致性；另一方面，通过使用第一网络模型和第二网络模型分别代替特征检测器和图像生成器，解决了因移动终端算力有限而特征检测器和图像生成器权重数量过于庞大带来的运行缓慢的问题，实现加快特效合成速度的效果。

实施例六

图6为本发明实施例六提供的一种图像合成装置的结构示意图。

本实施例的技术方案可适用于为图片添加特效的情况，具体的，本实施例以人脸特效为例进行说明，该人脸特效可以是添加表情、改变年龄、改变性别和添加饰物等。但可以理解的是，本技术方案也可以适用于其他应用场景中，只要通过为原始图像加入目标图像属性以得到目标图像的问题即可。该装置可集成于一种图像合成设备来执行，该设备可以由软件和/或软件的方式实现，本实施例对图像合成设备不作限定，可以是电脑、工作站、服务器和移动终端等。本实施例以图像合成设备为移动终端为例进行说明，该移动终端可以是手机或平板等。

参照图6，该图像合成装置具体包括如下结构：原始图像获取模块610、目标图像属性确定模块620、图像合成模型获取模块630、原始图像特征提取模块640和目标图像生成模块650。

原始图像获取模块610，用于获取待合成的原始图像。

目标图像属性确定模块620，用于确定所述原始图像的目标图像属性。

图像合成模型获取模块630，用于获取图像合成模型，其中，所述图像合成模型包括特征检测器和图像生成器。

原始图像特征提取模块640，用于将所述原始图像输入所述特征检测器进行特征检测，以得到原始图像特征。

目标图像生成模块650，用于将所述原始图像特征与所述目标图像属性输入所述图像生成器进行处理，以生成具有所述目标图像属性的目标图像。

在上述实施例的基础上，原始图像获取模块610包括：

直播流原始图像获取单元，用于从主播端上传的直播流中获取待合成的原始图像。

目标图像属性确定模块620，包括：

目标图像属性确定单元，用于根据主播端的设置确定所述原始图像的目标图像属性。

该图像合成装置还包括：

直播流合成模块，用于根据所述目标图像生成合成后的直播流，并将所述合成后的直播流发送至客户端显示。

在上述实施例的基础上，所述原始图像和目标图像为人脸图像，所述目标图像属性至少包括：年龄、表情、性别和头饰其中之一。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例七

图7为本发明实施例七提供的一种图像合成模型训练装置的结构示意图。

本实施例中的图像合成模型可适用于为图片添加特效的情况，具体的，本实施例以人脸特效为例进行说明，该人脸特效可以是改变年龄、添加表情、改变性别和添加饰物等。但可以理解的是，本技术方案也可以适用于其他应用场景中，只要该图像合成模型可以为原始图像加入目标图像属性以得到目标图像即可。该图像合成模型可以通过本实施例提供的图像合成模型训练方法训练得到。该装置可以集成于一种图像合成模型训练设备中，该设备可以由软件和/或软件的方式实现，本实施例对图像合成模型训练设备不作限定，可以是电脑、工作站和服务器等。本实施例以图像合成模型训练设备为服务器为例进行说明，该服务器可以是独立服务器或集群服务器等。

参考图7，该图像合成模型训练装置具体包括如下结构：训练样本集获取模块710、对抗网络生成模块720和图像合成模型生成模块730。

训练样本集获取模块710，用于获取训练样本集，所述训练样本集中包括训练原始图像和训练目标图像，所述训练原始图像设置有训练原始属性，所述训练目标图像设置有训练目标属性。

对抗网络生成模块720，用于根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，所述生成对抗网络中包括相互对抗的特征检测器、图像生成器和属性判别器。

图像合成模型生成模块730，用于根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，所述图像合成模型用于将所述训练原始图像合成为训练目标图像。

在上述实施例的基础上，对抗网络生成模块720，包括：

图像特征提取单元，用于将所述训练原始图像输入所述特征检测器进行处理，以提取训练图像特征。

原始属性识别单元，用于将所述训练图像特征输入所述属性判别器，以识别所述训练原始图像的原始属性。

第一损失值计算单元，用于根据所述原始属性与所述训练原始属性计算第一损失值。

训练合成图像生成单元，用于将所述训练图像特征和所述训练目标图像的训练目标属性输入所述图像生成器进行处理，以生成训练合成图像。

第二损失值生成单元，用于根据所述训练合成图像与所述训练目标图像计算第二损失值。

迭代条件判断单元，用于判断所述第一损失值与所述第二损失值是否满足预设的迭代条件；若是，则确定生成对抗网络训练完成；若否，则更新所述特征检测器、所述图像生成器和所述属性判别器，返回所述将所述训练原始图像输入所述特征检测器进行处理，以提取训练图像特征。

在上述实施例的基础上，第一损失值计算单元，包括：

均方误差计算子单元，用于根据所述原始属性与所述训练原始属性，进行均方误差损失函数的计算。

第一损失值确定子单元，用于将计算结果作为第一损失值。

在上述实施例的基础上，第二损失值生成单元，包括：

感知网络模型获取子单元，用于获取感知网络模型。

感知向量确定子单元，用于将所述训练合成图像与所述训练目标图像分别输入所述感知网络模型，以得到所述训练合成图像的第一感知向量与所述训练目标图像的第二感知向量。

第二损失值确定子单元，用于根据两个所述感知向量进行均方误差损失函数的计算，以将计算结果作为第二损失值。

在上述实施例的基础上，图像合成模型生成模块730，包括：

第一网络模型学习单元，用于使用第一网络模型学习所述特征检测器的部分模型参数，其中，所述第一网络模型的结构小于所述特征检测器。

第一代替单元，用于将学习得到的所述第一网络模型代替所述特征检测器。

第二网络模型学习单元，用于使用第二网络模型学习所述图像生成器的部分模型参数，其中，所述第二网络模型的结构小于所述图像生成器。

第二代替单元，用于将学习得到的所述第二网络模型代替所述图像生成器。

图像合成模型确定单元，用于将代替的所述特征检测器和所述图像生成器，作为图像合成模型。

在上述实施例的基础上，所述特征检测器和属性判别器均采用残差网络结构。

实施例八

图8为本发明实施例八提供的一种设备的结构示意图。如图8所示，本实施例的设备可以是图像合成设备或图像合成模型训练设备。该设备包括：处理器80、存储器81、输入装置82以及输出装置83。该设备中处理器80的数量可以是一个或者多个，图8中以一个处理器80为例。该设备中存储器81的数量可以是一个或者多个，图8中以一个存储器81为例。该设备的处理器80、存储器81、输入装置82以及输出装置83可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器81作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的图像合成方法或图像合成模型训练方法对应的程序指令/模块(例如，图像合成装置中的原始图像获取模块610、目标图像属性确定模块620、图像合成模型获取模块630、原始图像特征提取模块640和目标图像生成模块650；或，图像合成模型训练装置中的训练样本集获取模块710、对抗网络生成模块720和图像合成模型生成模块730)。存储器81可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器81可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器81可进一步包括相对于处理器80远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置82可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置83可以包括扬声器等音频设备。需要说明的是，输入装置82和输出装置83的具体组成可以根据实际情况设定。

处理器80通过运行存储在存储器81中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的图像合成方法或图像合成模型训练方法。

实施例九

本发明实施例九还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种图像合成方法或图像合成模型训练方法。

该图像合成方法包括：

获取待合成的原始图像；

确定所述原始图像的目标图像属性；

该图像合成模型训练方法，包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的图像合成方法或图像合成模型训练方法操作,还可以执行本发明任意实施例所提供的图像合成方法或图像合成模型训练方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的图像合成方法或图像合成模型训练方法。

值得注意的是，上述图像合成装置或图像合成模型训练装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像合成方法，其特征在于，包括：

获取待合成的原始图像；

确定所述原始图像的目标图像属性；

2.根据权利要求1所述的方法，其特征在于，所述图像合成方法应用于直播平台，获取待合成的原始图像，包括：

从主播端上传的直播流中获取待合成的原始图像；

确定所述原始图像的目标图像属性，包括：

根据主播端的设置确定所述原始图像的目标图像属性；

3.根据权利要求1或2所述的方法，其特征在于，所述原始图像和目标图像为人脸图像，所述目标图像属性至少包括：年龄、表情、性别和头饰其中之一。

4.一种图像合成模型训练方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述训练原始图像、所述训练原始属性、所述训练目标图像和所述训练目标属性训练生成对抗网络，包括：

根据所述原始属性与所述训练原始属性计算第一损失值；

若是，则确定生成对抗网络训练完成；

6.根据权利要求5所述的方法，其特征在于，根据所述原始属性与所述训练原始属性计算第一损失值，包括：

将计算结果作为第一损失值。

7.根据权利要求5所述的方法，其特征在于，根据所述训练合成图像与所述训练目标图像计算第二损失值，包括：

获取感知网络模型；

8.根据权利要求4所述的方法，其特征在于，根据训练得到的所述特征检测器和所述图像生成器生成图像合成模型，包括：

将学习得到的所述第一网络模型代替所述特征检测器；

将学习得到的所述第二网络模型代替所述图像生成器；

9.根据权利要求4-8任一所述的方法，其特征在于，所述特征检测器和属性判别器均采用残差网络结构。

10.一种图像合成装置，其特征在于，包括：

原始图像获取模块，用于获取待合成的原始图像；

11.一种图像合成模型训练装置，其特征在于，包括：

12.一种图像合成设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的图像合成方法。

13.一种图像合成模型训练设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求4-9中任一所述的图像合成模型训练方法。

14.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-3中任一所述的图像合成方法。

15.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求4-9中任一所述的图像合成模型训练方法。