CN108875511B

CN108875511B - 图像生成的方法、装置、系统及计算机存储介质

Info

Publication number: CN108875511B
Application number: CN201711252309.XA
Authority: CN
Inventors: 刘少伟
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2022-06-21
Anticipated expiration: 2037-12-01
Also published as: CN108875511A

Abstract

本发明实施例提供了一种图像生成的方法、装置、系统及计算机存储介质。该方法包括：获取通过训练得到的生成对抗网络，所述生成对抗网络包括生成模型和判别模型，且所述生成模型的输出图像与所述生成模型的输入图像具有不同的遮挡状态；将初始图像输入所述已训练好的生成模型，将所述生成模型的输出图像作为目标图像。由此可见，本发明实施例中能够训练得到生成对抗网络，且该生成对抗网络的生成模型能够生成具有不同遮挡状态的目标图像，进一步其可以被添加至已有数据集从而生成新的数据集，进一步可以得到包括不同遮挡状态数据的数据集，可以用于对不同遮挡状态的目标的识别，保证了识别的准确率。

Description

图像生成的方法、装置、系统及计算机存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种图像生成的方法、装置、系统及计算机存储介质。

背景技术

在诸如安防识别、抓拍识别等人脸识别的场景，待识别的用户可能会佩戴墨镜、口罩等，造成人脸的一部分被遮挡。

基于深度学习的神经网络方法通常需要大量数据进行训练才能取得很好的效果，因此，针对部分被遮挡的人脸识别的场景中，需要构建包括有遮挡人脸图像的数据集以用于训练。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种图像生成的方法、装置、系统及计算机存储介质，能够通过训练得到生成对抗网络以获取具有不同遮挡状态的目标图像。

根据本发明的一方面，提供了一种图像生成的方法，所述方法包括：

获取通过训练得到的生成对抗网络，所述生成对抗网络包括生成模型和判别模型，且所述生成模型的输出图像与所述生成模型的输入图像具有不同的遮挡状态；

将初始图像输入所述已训练好的生成模型，将所述生成模型的输出图像作为目标图像。

在本发明的一个实施例中，所述生成模型包括第一生成模型和第二生成模型，所述判别模型包括第一判别模型和第二判别模型，

所述获取通过训练得到的生成对抗网络，包括：

将第一已有图像作为所述第一生成模型的输入，得到第一输出图像；

将所述第一输出图像作为所述第二生成模型的输入，得到第二输出图像；

将第二已有图像作为所述第二生成模型的输入，得到第三输出图像；

将所述第三输出图像作为所述第一生成模型的输入，得到第四输出图像；

将所述第一输出图像作为所述第一判别模型的输入，得到第一输出值；

将所述第二输出图像作为所述第二判别模型的输入，得到第二输出值；

将所述第三输出图像作为所述第二判别模型的输入，得到第三输出值；

将所述第四输出图像作为所述第一判别模型的输入，得到第四输出值；

根据预定义的损失函数，对所述生成模型和所述判别模型进行训练，直到收敛；

其中，所述第一已有图像、所述第二输出图像、所述第三输出图像为有遮挡人脸图像，所述第二已有图像、所述第一输出图像、所述第四输出图像为无遮挡人脸图像，所述损失函数与所述第一已有图像、所述第二已有图像、所述第一输出图像、所述第二输出图像、所述第三输出图像、所述第四输出图像、所述第一输出值、所述第二输出值、所述第三输出值和所述第四输出值有关。

在本发明的一个实施例中，所述损失函数表示为：

其中，L_D1表示所述第一输出值与所述第四输出值之和，L_D2所述第二输出值与所述第三输出值之和，A、A1、A2、B、B1、B2依次表示所述第一已有图像、所述第一输出图像、所述第二输出图像、所述第二已有图像、所述第三输出图像、所述第四输出图像的像素取值矩阵，M_A表示所述第一已有图像的遮挡部分的表示矩阵，M_A2表示所述第二输出图像的遮挡部分的表示矩阵，M_B1表示所述第三输出图像的遮挡部分的表示矩阵，⊙为同或算子，

为拉普拉斯梯度算子，||·||₁和||·||₂分别为矩阵的一范数和二范数，α和β为预定义的常数。

在本发明的一个实施例中，M_A＝M_A2＝M_B1＝M，M表示有遮挡人脸图像的表示矩阵，其中，人脸区域中人脸遮挡部位的像素点在M中对应的元素为0，人脸区域中除所述人脸遮挡部位的其他部位的像素点在M中对应的元素为1。

在本发明的一个实施例中，M是根据人脸关键点位置进行估计得到的，或者是根据神经网络进行预测得到的。

在本发明的一个实施例中，所述获取通过训练得到的生成对抗网络，包括：

将已有图像作为所述生成模型的输入，得到输出图像，其中，所述输出图像与所述已有图像具有不同的遮挡状态；

将所述输出图像作为所述判别模型的输入，得到判别值，所述判别值表示所述输出图像为真实图像的概率；

根据预定义的损失函数，对所述生成模型和所述判别模型进行训练，直到收敛。

在本发明的一个实施例中，所述已有图像为无遮挡人脸图像，所述输出图像为有遮挡人脸图像；或者，所述已有图像为有遮挡人脸图像，所述输出图像为无遮挡人脸图像。

在本发明的一个实施例中，还包括：

将所述输出图像作为用于人脸识别的神经网络模型的输入，得到识别值，所述识别值表示所述输出图像与底图属于同一人的概率，所述底图为所述已有图像或为与所述已有图像属于同一人的第一图像或为与所述已有图像属于不同人的第二图像；

对所述生成对抗网络和所述神经网络模型进行联合训练，直到收敛。

在本发明的一个实施例中，还包括：将所述目标图像添加至已有数据集生成新的数据集；利用所述新的数据集，通过训练得到用于人脸识别的神经网络模型。

根据本发明的另一方面，提供了一种图像生成的装置，所述装置用于实现前述方面或各个实施例所述方法的步骤，所述装置包括：

获取模块，用于获取通过训练得到的生成对抗网络，所述生成对抗网络包括生成模型和判别模型，且所述生成模型的输出图像与所述生成模型的输入图像具有不同的遮挡状态；

生成模块，用于将初始图像输入所述已训练好的生成模型，将所述生成模型的输出图像作为目标图像。

根据本发明的又一方面，提供了一种图像生成的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面及各个示例所述的图像生成的方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方面及各个示例所述的图像生成的方法的步骤。

由此可见，本发明实施例中能够训练得到生成对抗网络，且该生成对抗网络的生成模型能够生成具有不同遮挡状态的目标图像，进一步其可以被添加至已有数据集从而生成新的数据集。并且，由于新的数据集中包括不同遮挡状态的数据，可以用于对不同遮挡状态的目标的识别，保证了识别的准确率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的图像生成的方法的一个示意性流程图；

图3是本发明实施例的GAN的一个示意图；

图4是本发明实施例的图像生成的装置的一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括中央处理单元(Central Processing Unit，CPU)1021和图形处理单元(Graphics Processing Unit，GPU)1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

生成对抗网络(Generative Adversarial Net，GAN)包括生成模型(generativemodel)和判别模型(discriminative model)。生成模型也可以称为生成器(Generator)或生成网络，可以表示为G；判别模型也可以称为判别器(Discriminator)或判别网络，可以表示为D。一般地，G可以接收一个随机的噪声向量z，通过这个噪声生成数据(如图像)，记为G(z)。D可以接收G(z)或接收真实图像，以判断所接收的图像为真实图像的概率，假设D所接收的图像表示为x，则D的输出可以表示为D(x)，D(x)的值可以位于0～1区间，D(x)＝1表示x为真实图像，D(x)＝0.5表示x有50％的概率为真实图像，D(x)＝0表示不可能为真实图像。G和D这两者可以同时训练，G的目标是尽量生成接近真实的图像试图欺骗D，而D的目标是尽量将G生成的图像区分开来。可见G和D是一个动态的博弈过程，在训练D时，最小化判别误差；在训练G时，最大化判别误差。两个目的均可以通过反向传播方法实现。经过交替优化训练，两种模型G和D都能得到提升，直到到达一个“G生成的图像与真实图像无法区分”的点，也就是使得D(G(z))＝0.5。

具体地，若以Pr和Pg分别表示真实图像的分布和G的生成图像的分布，那么可以将D的目标函数表示为：

结合G的目标，可以将整个的优化目标函数表示为：

一个直观的优化方法是分别对D和G进行交替迭代：固定G优化D，一段时间后固定D优化G，直到过程收敛。这样，经过交替优化训练，两种模型G和D都能得到提升，直到到达一个“G生成的图像与真实图像无法区分”的点，即使得D(G(z))＝0.5。

在该训练优化的过程中，可以使用卷积神经网络(Convolutional NeuralNetwork，CNN)，CNN是一种深度学习网络，可以使用CNN提取图像的特征。CNN可以是以图片作为输入，通过卷积层(convolutional layer)提取不同层级的信息，并以图片、类别抽象表达作为输出(如，纹理、形状等)，逐层深入。

图2是本发明实施例的图像生成的方法的一个示意性流程图。图2所示的方法包括：

S101，获取通过训练得到的生成对抗网络，所述生成对抗网络包括生成模型和判别模型，且所述生成模型的输出图像与所述生成模型的输入图像具有不同的遮挡状态。

S102，将初始图像输入所述已训练好的生成模型，并将所述生成模型的输出图像作为目标图像。

初始图像与目标图像具有不同的遮挡状态。

作为一种实现方式，S102中的目标图像可以被添加至已有数据集从而形成新的数据集。这样，能够使数据集中包括各种遮挡状态的数据，丰富了数据集中数据的种类。

本发明实施例中的数据集可以是用于人脸识别的数据集，该数据集中的数据可以为人脸图像，从而添加至数据集的目标图像也可以为人脸图像。人脸图像可以为无遮挡人脸图像和/或有遮挡人脸图像。其中的有遮挡人脸图像可以是由刘海、墨镜、口罩、帽子等物体对人脸的部分区域进行遮挡后的人脸图像。

示例性地，已有数据集中可以包括大量无遮挡人脸图像，其中，与同一ID(同一人)对应的可以为一张或更多张无遮挡人脸图像。可选地，已有数据集中也可以进一步包括部分有遮挡人脸图像。

作为一种实现方式，生成模型可以包括第一生成模型(表示为G1)和第二生成模型(表示为G2)，判别模型可以包括第一判别模型(表示为D1)和第二判别模型(表示为D2)。示例性地，该GAN也可以被称为循环生成对抗网络(cycleGAN)。

在S101中可以通过下述方式训练得到GAN：将第一已有图像作为所述第一生成模型的输入，得到第一输出图像；将所述第一输出图像作为所述第二生成模型的输入，得到第二输出图像；将第二已有图像作为所述第二生成模型的输入，得到第三输出图像；将所述第三输出图像作为所述第一生成模型的输入，得到第四输出图像；将所述第一输出图像作为所述第一判别模型的输入，得到第一输出值；将所述第二输出图像作为所述第二判别模型的输入，得到第二输出值；将所述第三输出图像作为所述第二判别模型的输入，得到第三输出值；将所述第四输出图像作为所述第一判别模型的输入，得到第四输出值；根据预定义的损失函数，对所述生成模型和判别模型进行训练，直到收敛。其中，所述第一已有图像、所述第二输出图像、所述第三输出图像为有遮挡人脸图像，所述第二已有图像、所述第一输出图像、所述第四输出图像为无遮挡人脸图像，所述损失函数与所述第一已有图像、所述第二已有图像、所述第一输出图像、所述第二输出图像、所述第三输出图像、所述第四输出图像、所述第一输出值、所述第二输出值、所述第三输出值和所述第四输出值有关。

示例性地，可以将G1称为无遮挡图生成模型，其可以接收有遮挡人脸图像，并输出无遮挡人脸图像。可以将G2称为有遮挡图生成模型，其可以接收无遮挡人脸图像，并输出有遮挡人脸图像。示例性地，可以将D1称为无遮挡图判别模型，其可以判别无遮挡人脸图像为真实图像的概率。可以将D2称为有遮挡图判别模型，其可以判别有遮挡人脸图像为真实图像的概率。

其中，第一输出值可以表示第一输出图像为真实图像的概率，第二输出值可以表示第二输出图像为真实图像的概率，第三输出值表示第三输出图像为真实图像的概率，第四输出值表示第四输出图像为真实图像的概率。并且，第一判别模型和第二判别模型的输出值可以是0至1之间的值。

示例性地，该GAN的一个示意图可以如图3所示。其中，第一已有图像可以是从已有数据库中或者从其他源所获取的有遮挡人脸图像，例如可以从互联网收集；第二已有图像可以是从已有数据库中所获取的无遮挡人脸图像，可选地，该已有数据集中可以包括与第二已有图像属于同一人的其他一张或更多张有遮挡人脸图像或无遮挡人脸图像。第一已有图像和/或第二已有图像可以为RGB图像或灰度图像。

这样，可以通过交替训练G1、G2和D1、D2，根据预定义的损失函数判断是否达到收敛。作为一个示例，该预定义的损失函数可以表示为：

其中，L_D1和L_D2分别是根据所述第一判别模型和所述第二判别模型的输出确定的，例如，L_D1可以等于第一输出值与第四输出值之和，L_D2可以等于第二输出值与第三输出值之和。⊙为同或算子，

为拉普拉斯梯度算子，||·||₁和||·||₂分别为矩阵的一范数和二范数，α和β为预定义的常数，例如α和β可以为平衡不同因素权重的常数。

其中，A、A1、A2、B、B1、B2依次表示所述第一已有图像、所述第一输出图像、所述第二输出图像、所述第二已有图像、所述第三输出图像、所述第四输出图像的像素取值矩阵。举例来说，若第一已有图像和第二已有图像均为RGB图像，则A、A1、A2、B、B1、B2均为三通道的像素矩阵。A、A1、A2的维度与第一已有图像的像素点的维度有关，B、B1、B2的维度与第二已有图像的像素点的维度有关。

其中，M_A表示所述第一已有图像的遮挡部分的表示矩阵，M_A2表示所述第二输出图像的遮挡部分的表示矩阵，M_B1表示所述第三输出图像的遮挡部分的表示矩阵。M_A和M_A2可以为单通道的矩阵，其维度与第一已有图像的像素点的维度有关。M_B1可以为单通道的矩阵，其维度与第二已有图像的像素点的维度有关。作为一例，假设遮挡部分是口罩遮挡，以M_A为例，M_A的与第一已有图像中嘴巴周围的像素对应的元素的取值为0，M_A的与其他部位的像素对应的元素的取值为1。

作为一种实现方式，若第一已有图像和第二已有图像具有相同的像素点维度，如256×256，则可以定义M_A＝M_A2＝M_B1＝M，且M可以根据人脸关键点位置进行估计得到，或者可以根据神经网络进行预测得到。具体地，M表示有遮挡人脸图像的表示矩阵，其中，人脸区域中人脸遮挡部位的像素点在M中对应的元素为0，人脸区域中除所述人脸遮挡部位的其他部位的像素点在M中对应的元素为1。作为一例，若为墨镜遮挡，则对表示眼睛周围的那些像素来说，它们在矩阵M中对应的元素为0；而对其他部位的像素来说，其在矩阵M中对应的元素为1。这里的元素是指矩阵的元素(element)。

本领域技术人员应理解，可以将上述L的公式中的一范数和二范数替换为其他类型的范数。另外，损失函数也可以采用其他的形式，本发明对此不限定。

如此便可以根据该损失函数通过训练得到GAN。在训练的过程中，所期望达到的D1和D2的优化目标为：尽可能判别出第一输出图像、第二输出图像、第三输出图像、第四输出图像为非真实图像。所期望达到的G1和G2的优化目标为：第一输出图像、第二输出图像、第三输出图像、第四输出图像尽可能被D1、D2判别为真实图像；第二输出图像与第一已有图像(包括清晰度、细节等)尽可能相同；第四输出图像与第二已有图像(包括清晰度、细节等)尽可能相同；第一输出图像、第二输出图像与第一已有图像在不涉及遮挡的部分尽可能相同；第三输出图像、第四输出图像与第二已有图像在不涉及遮挡的部分尽可能相同。其中，若遮挡为口罩遮挡，不涉及遮挡的部分是指人脸区域中除去口罩遮挡部分的其他部分；若遮挡为墨镜遮挡，不涉及遮挡的部分是指人脸区域中除去墨镜遮挡部分的其他部分；等等。

这样，通过使得第二输出图像与第一已有图像尽可能保持一致，能够避免G1生成的第一输出图像为丢失了第一已有图像的身份信息的平均脸，能够提高G1的性能。同样，通过使得第四输出图像与第二已有图像尽可能保持一致，能够避免G1生成的第四输出图像为丢失了第二已有图像的身份信息的平均脸，能够提高G1的性能。类似的，该训练过程同样有利于避免G2生成的第二输出图像/第三输出图像为丢失了第一已有图像/第二已有图像的身份信息的平均脸，能够提高G2的性能。

在该训练过程之后，可以根据GAN中的G1和G2得到更多的数据。具体地，可以在已有的有遮挡人脸图像的基础上，利用G1得到无遮挡人脸图像作为S102中的目标图像；可以在已有的无遮挡人脸图像的基础上，利用G2得到有遮挡人脸图像作为S102中的目标图像。这样，便可以在S102之后扩充数据集，新的数据集中既包括无遮挡人脸图像，还包括有遮挡人脸图像。

进一步地，还可以在扩充数据集之后，基于该新的数据集进行人脸识别。具体地，可以基于该新的数据集训练得到用于人脸识别的神经网络模型，并使用该神经网络模型对未知图像(可以是无遮挡人脸图像或者有遮挡人脸图像)进行人脸识别。

作为另一种实现方式，生成对抗网络的生成模型表示为G，判别模型表示为D。在S101中可以通过下述方式训练得到GAN：将已有图像作为所述生成模型的输入，得到输出图像，其中，所述输出图像与所述已有图像具有不同的遮挡状态；将所述输出图像作为所述判别模型的输入，得到所述输出图像为真实图像的概率；根据预定义的损失函数，对所述生成模型和判别模型进行训练，直到收敛。

举例来说，已有数据集中多为无遮挡人脸图像，期望将已有数据集进行扩充，增加有遮挡人脸图像。则输入生成模型G的已有图像可以是无遮挡人脸图像，G的输出图像可以是有遮挡人脸图像(如刘海遮挡、墨镜遮挡、口罩遮挡、帽子遮挡等中的任一种)。将G的输出图像输入至判别模型D，D的输出可以为0至1之间的值。可以交替训练G和D，根据预定义的损失函数判断是否达到收敛。其中，预定义的损失函数可以为前述目标函数的形式，这里不再赘述。

如此，便可以在S101通过训练得到GAN，随后可以在S102中获取GAN的生成模型的输出图像作为目标图像。

再举例来说，已有图像可以为有遮挡人脸图像，G的输出图像为无遮挡人脸图像。将G的输出图像输入至判别模型D，D的输出可以为0至1之间的值。并通过交替训练G和D，直至收敛，得到该GAN。

作为一个实施例，在该训练过程之后，可以根据GAN中的G得到更多的数据。具体地，可以在已有的无遮挡人脸图像的基础上，利用G得到有遮挡人脸图像作为S102中的目标图像。这样，便可以在S102后扩充数据集，新的数据集中既包括无遮挡人脸图像，还包括有遮挡人脸图像。进一步地，在扩充数据集之后，可以基于该新的数据集进行人脸识别。具体地，可以基于该新的数据集训练得到用于人脸识别的神经网络模型，并使用该神经网络模型对未知图像(可以是无遮挡人脸图像或者有遮挡人脸图像)进行人脸识别。

作为另一实施例，在上述训练GAN(如G和D，或G1、G2、D1和D2)的过程中，可以同时训练用于人脸识别的神经网络模型。也就是说，可以将GAN与用于人脸识别的神经网络模型整合成一个网络进行联合训练。具体地，可以将已有图像作为所述生成模型的输入，得到输出图像，其中，所述输出图像与所述已有图像具有不同的遮挡状态；将所述输出图像作为所述判别模型的输入，得到判别值，所述判别值表示所述输出图像为真实图像的概率；将所述输出图像作为用于人脸识别的神经网络模型的输入，得到识别值，所述识别值表示所述输出图像与底图属于同一人的概率，所述底图为所述已有图像或为与所述已有图像属于同一人的第一图像或为与所述已有图像属于不同人的第二图像；对所述生成对抗网络和所述神经网络模型进行联合训练，直到收敛。这样，通过联合训练，能够保证生成模型(G)和用于人脸识别的神经网络模型的性能更优。

图4是本发明实施例的图像生成的装置的一个示意性框图。图4所示的装置60包括获取模块610和生成模块620。

获取模块610，用于获取通过训练得到的生成对抗网络，所述生成对抗网络包括生成模型和判别模型，且所述生成模型的输出图像与所述生成模型的输入图像具有不同的遮挡状态；

生成模块620，用于将初始图像输入所述已训练好的生成模型，并将所述生成模型的输出图像以作为目标图像。

在本发明的一个实施例中，所述生成模型包括第一生成模型和第二生成模型，所述判别模型包括第一判别模型和第二判别模型，获取模块610可以具体用于：

在本发明的一个实施例中，所述损失函数表示为：

在本发明的一个实施例中，获取模块610可以具体用于：

在本发明的一个实施例中，获取模块610可以具体用于：将已有图像作为所述生成模型的输入，得到输出图像，其中，所述输出图像与所述已有图像具有不同的遮挡状态；将所述输出图像作为所述判别模型的输入，得到判别值，所述判别值表示所述输出图像为真实图像的概率；将所述输出图像作为用于人脸识别的神经网络模型的输入，得到识别值，所述识别值表示所述输出图像与底图属于同一人的概率，所述底图为所述已有图像或为与所述已有图像属于同一人的第一图像或为与所述已有图像属于不同人的第二图像；对所述生成对抗网络和所述神经网络模型进行联合训练，直到收敛。

在本发明的一个实施例中，图4所示装置60还包括识别训练模块。所述生成模块还用于将所述目标图像添加至已有数据集生成新的数据集。所述识别训练模块用于利用所述新的数据集，通过训练得到用于人脸识别的神经网络模型。

图4所示的装置60能够实现前述图2至图3所示的图像生成的方法，为避免重复，这里不再赘述。

另外，本发明实施例还提供了另一种图像生成的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2至图3所示的图像生成的方法的步骤。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图4所示的装置60。该电子设备可以实现前述图2至图3所示的图像生成的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2至图3所示的图像生成的方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

由此可见，本发明实施例提供了一种图像生成的方法、装置、系统、电子设备以及计算机存储介质。能够通过训练得到生成对抗网络以获取具有不同遮挡状态的目标图像，从而在已有数据集的基础上生成新的数据集。并且，由于新的数据集中包括不同遮挡状态的数据，即既包括无遮挡人脸图像也包括有遮挡人脸图像，使得新的数据集可以用于对不同遮挡状态的人脸图像进行识别，扩大了其识别的范围，且保证了识别的准确率。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing，DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像生成的方法，用于对不同遮挡状态的目标的识别，其特征在于，所述方法包括：

将初始图像输入所述已训练好的生成模型，并将所述生成模型的输出图像作为目标图像；

所述生成模型包括第一生成模型和第二生成模型，所述判别模型包括第一判别模型和第二判别模型，所述获取通过训练得到的生成对抗网络，包括：

将第一已有图像作为所述第一生成模型的输入，得到第一输出图像；将所述第一输出图像作为所述第二生成模型的输入，得到第二输出图像；将第二已有图像作为所述第二生成模型的输入，得到第三输出图像；将所述第三输出图像作为所述第一生成模型的输入，得到第四输出图像；将所述第一输出图像作为所述第一判别模型的输入，得到第一输出值；将所述第二输出图像作为所述第二判别模型的输入，得到第二输出值；将所述第三输出图像作为所述第二判别模型的输入，得到第三输出值；将所述第四输出图像作为所述第一判别模型的输入，得到第四输出值；

其中，所述第一已有图像、所述第二输出图像、所述第三输出图像为有遮挡人脸图像，所述第二已有图像、所述第一输出图像、所述第四输出图像为无遮挡人脸图像，所述损失函数与所述第一已有图像、所述第二已有图像、所述第一输出图像、所述第二输出图像、所述第三输出图像、所述第四输出图像、所述第一输出值、所述第二输出值、所述第三输出值和所述第四输出值有关；

所期望达到的第一生成模型和第二生成模型的优化目标包括：第一输出图像、第二输出图像与第一已有图像在不涉及遮挡的部分尽可能相同；第三输出图像、第四输出图像与第二已有图像在不涉及遮挡的部分尽可能相同。

2.根据权利要求1所述的方法，其特征在于，所述损失函数表示为：

3.根据权利要求2所述的方法，其特征在于，M_A＝M_A2＝M_B1＝M，M表示有遮挡人脸图像的表示矩阵，其中，人脸区域中人脸遮挡部位的像素点在M中对应的元素为0，人脸区域中除所述人脸遮挡部位的其他部位的像素点在M中对应的元素为1。

4.根据权利要求3所述的方法，其特征在于，M是根据人脸关键点位置进行估计得到的，或者是根据神经网络进行预测得到的。

5.根据权利要求1所述的方法，其特征在于，所述获取通过训练得到的生成对抗网络，包括：

6.根据权利要求5所述的方法，其特征在于，

所述已有图像为无遮挡人脸图像，所述输出图像为有遮挡人脸图像；

或者，所述已有图像为有遮挡人脸图像，所述输出图像为无遮挡人脸图像。

7.根据权利要求5或6所述的方法，其特征在于，还包括：

8.根据权利要求1至6中任一项所述的方法，其特征在于，还包括：

将所述目标图像添加至已有数据集生成新的数据集；

利用所述新的数据集，通过训练得到用于人脸识别的神经网络模型。

9.一种图像生成的装置，用于对不同遮挡状态的目标的识别，其特征在于，所述装置用于实现权利要求1至8中任一项所述方法的步骤，所述装置包括：

生成模块，用于将初始图像输入所述已训练好的生成模型，将所述生成模型的输出图像作为目标图像；

10.一种图像生成的系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。