CN108446667A

CN108446667A - 基于生成对抗网络数据增强的人脸表情识别方法和装置

Info

Publication number: CN108446667A
Application number: CN201810303845.6A
Authority: CN
Inventors: 秦曾昌; 万涛; 刘伊凡; 王恒; 朱欣悦
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-08-24

Abstract

本发明公开了一种基于生成对抗网络数据增强的人脸表情识别方法，包括：获取训练数据且对训练数据进行预处理；根据训练目标，构造CycleGAN模型与卷积神经网络模型；将CycleGAN模型的原本的损失函数、卷积神经网络模型的损失函数与训练目标进行结合；对CycleGAN模型进行训练，使用训练完成的CycleGAN模型进行数据增强；对卷积神经网络模型进行训练，使用训练完成的卷积神经网络分类器在测试集上验证卷积神经网络分类器的准确率。本公开提供的方法通过生成对抗网络生成图像，进行数据增强，然后训练分类器，提高了模型准确率。本公开还提供了一种基于生成对抗网络数据增强的人脸表情识别装置。

Description

基于生成对抗网络数据增强的人脸表情识别方法和装置

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于生成对抗网络数据增强的人脸表情识别方法和装置。

背景技术

人脸表情是人们之间非语言交流时的最丰富的资源和最容易表达人们情感的一种有效方式，在人们交流中起到很重要的作用。人脸表情识别技术随着人们对表情信息的日益重视而受到关注，成为目前一个研究的热点。

对于这类图像分类的问题，有个很明显的问题就是类别不平衡，就像那些中性表情的图像，明显多于那些带有感情色彩的表情图像，例如，悲伤之类的，这些类别不平衡，增加了训练的难度。

在本发明中，使用了对抗网络进行图像生成，达到拓展数据集的目的，与传统的方法不同的是，传统方法使用的是一些图像处理，加一些噪声或者对图像进行角度改变之类的手段，来生成新的图像。而使用生成对抗网络进行生成的时候，不是在原来的图像上，稍微的做点线性变换、加点噪声或者旋转角度之类的操作，而是生成一些原来不存在的图像，例如在那些没有表情的图像上，进行处理，那些图像的表情变成悲伤的，而图像的其他部分并没有改变。一般来说，数据量越大，模型能够更好地学习到数据的规律，效果越好。

发明内容

基于此，有必要针对传统技术存在的问题，提供一种基于生成对抗网络数据增强的人脸表情识别方法和装置。具体的，本发明提供了一种基于生成对抗网络数据增加方法的情感分类方法，该方法通过生成对抗网络生成图像，来弥补原本中数据类别不平衡的问题，或者数据集很小的问题，进行数据增强，然后训练分类器，从而提高了模型准确率。在该过程中，使用的是CycleGAN来进行数据增强，它可以将一类数据转换为另一类数据，在本发明中，是使用它将无表情的图像转换成带表情的图像，从而可以增加那些带表情的图像数据量很少的问题，最后使用它们来进行预训练卷积神经网络分类器，提高了模型的准确率。

第一方面，本发明实施例提供了一种基于生成对抗网络数据增强的人脸表情识别方法，所述方法包括：获取人脸图像数据集作为训练生成对抗网络的训练数据，对所述训练数据进行预处理；根据训练目标，构造CycleGAN模型与卷积神经网络模型；将所述CycleGAN模型的损失函数、所述卷积神经网络模型的损失函数和所述训练目标进行结合；对所述CycleGAN模型进行训练，且使用训练完成的所述CycleGAN模型进行数据增强；对所述卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证所述卷积神经网络分类器的准确率；其中，所述模型用于进行数据增强，所述卷积神经网络模型用于进行数据分类。

在其中一个实施例中，所述获取人脸图像数据集作为训练生成对抗网络的训练数据，包括：获取预先标注的人脸表情图像数据。

在其中一个实施例中，对所述训练数据进行预处理，包括：判断获取的多张所述人脸图像是否具有相同尺寸；当所述人脸图像的尺寸不一致时，则对不一致的所述人脸图像按照预设的尺寸对所述人脸图像进行裁剪，且调整裁剪后的所述人脸图像的长宽比。

在其中一个实施例中，还包括：对所述CycleGAN模型的损失函数进行定义，以及对所述卷积神经网络模型的损失函数进行定义。

在其中一个实施例中，对所述CycleGAN模型进行训练包括：初始化各层网络的参数，预设时间段内不间断地输入训练样本，根据所述损失函数计算出网络的损失值；通过反向传播计算出所述各层网络的参数的梯度，通过Adam优化算法对所述各层网络的参数进行优化。

在其中一个实施例中，所述使用训练完成的所述CycleGAN模型进行数据增强，包括：使用所述CycleGAN模型将无表情的图像转化成预设表情的图像。

在其中一个实施例中，所述CycleGAN模型由两个生成器和两个判别器组成。

第二方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的基于生成对抗网络数据增强的人脸表情识别方法。

第三方面，本发明实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第四方面，本发明实施例还提供了一种基于生成对抗网络数据增强的人脸表情识别装置，所述装置包括：获取与预处理模块，用于获取人脸图像数据集作为训练生成对抗网络的训练数据，对所述训练数据进行预处理；构造模块，用于根据训练目标，构造CycleGAN模型与卷积神经网络模型；结合模块，用于将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合；训练与增强模块，用于对所述CycleGAN模型进行训练，且使用训练完成的所述CycleGAN模型进行数据增强；训练与验证模块，用于对所述卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证所述卷积神经网络分类器的准确率；其中，所述训练与增强模块中的CycleGAN模型用于进行数据增强，所述训练与验证模块中的卷积神经网络模型用于进行数据分类。

在其中一个实施例中，所述获取与预处理模块，包括：标注单元，用于获取预先标注的人脸表情图像数据。

在其中一个实施例中，所述获取与预处理模块，还包括：判断单元，用于判断获取的多张人脸图像是否具有相同尺寸；裁剪与调整单元，用于当人脸图像的尺寸不一致时，则对不一致的人脸图像按照预设的尺寸对人脸图像进行裁剪，且调整裁剪后的人脸图像的长宽比。

在其中一个实施例中，还包括：结合模块，用于对CycleGAN模型的损失函数进行定义，以及对卷积神经网络模型的损失函数进行定义。

在其中一个实施例中，训练与增强模块，包括：第一计算单元，用于初始化各层网络的参数，预设时间段内不间断地输入训练样本，根据损失函数计算出网络的损失值；第二计算单元，用于通过反向传播计算出各层网络的参数的梯度；优化单元，用于通过Adam优化算法对各层网络的参数进行优化。

在其中一个实施例中，训练与增强模块，还包括：转化单元，用于使用CycleGAN模型将无表情的图像转化成预设表情的图像。

本发明提供的一种基于生成对抗网络数据增强的人脸表情识别方法和装置，获取人脸图像数据集作为训练生成对抗网络的训练数据，对训练数据进行预处理；根据训练目标，构造CycleGAN模型与卷积神经网络模型；将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合；对CycleGAN模型进行训练，且使用训练完成的CycleGAN模型进行数据增强；对卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证卷积神经网络分类器的准确率；其中，CycleGAN模型用于进行数据增强，卷积神经网络模型用于进行数据分类。本公开提供的方法通过生成对抗网络生成图像，来弥补原本数据类别不平衡的问题，或者数据集很小的问题，进行数据增强，然后训练分类器，从而提高了模型准确率。在该过程中，使用的是CycleGAN来进行数据增强，它可以将一类数据转换为另一类数据，在本发明中，是使用它将无表情的图像转换成带表情的图像，从而可以增加那些带表情的图像数据量很少的问题，最后使用它们来进行预训练卷积神经网络分类器，提高了模型的准确率。

附图说明

图1为本公开实施例的终端设备的硬件结构示意图；

图2为本公开一个实施例中的一种基于生成对抗网络数据增强的人脸表情识别方法的步骤流程示意图；

图3为本公开另一个实施例中的一种基于生成对抗网络数据增强的人脸表情识别方法的步骤流程示意图；

图4为本公开一个实施例中的一种基于生成对抗网络数据增强的人脸表情识别装置的结构示意图；

图5是本公开实施例的基于生成对抗网络数据增强的人脸表情识别装置的硬件结构示意图；

图6是本公开实施例的计算机可读存储介质的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下通过实施例，并结合附图，对本发明基于生成对抗网络数据增强的人脸表情识别方法和装置的具体实施方式进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本公开的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

如图1所示，基于生成对抗网络数据增强的人脸表情识别装置可以为终端设备。终端设备可以以各种形式来实施，本公开中的基于生成对抗网络数据增强的人脸表情识别装置可以包括但不限于诸如移动终端、智能终端、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。

在本公开的一个实施例中，基于生成对抗网络数据增强的人脸表情识别装置，即终端设备可以包括无线通信单元1、A/V(音频/视频)输入单元2、用户输入单元3、其中，用户输入单元：包括但不限于，摄像头、前置摄像头，后置摄像头，各类音视频设备，键盘，触屏等。此外，还包括：感测单元4、输出单元5、存储器6、接口单元7、控制器8和电源单元9等等。本领域的技术人员应该理解，上述实施例列出的基于生成对抗网络数据增强的人脸表情识别装置，即终端设备所包括的组件，不止上述所述的种类，可以包括更少或者更多的组件。

本领域的技术人员应该理解，这里描述的各种实施方式可以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器中并且由控制器执行。

为了解决目前遇到的问题，本发明使用CycleGAN来进行数据增强，生成大量带表情的图像，然后接着训练一个卷积神经网络模型，来进行图像分类。具体包括：数据获取以及预处理；模型构建；损失函数定义；模型训练；使用训练好的CycleGAN数据增强；训练卷积神经网络，来进行人脸表情识别；测试训练好的卷积神经网络模型的准确率。

本发明的目的在于使用生成对抗网络的方法来生成图片，来解决在图片分类任务中，类别不平衡的问题，生成那些样本数据很少的类别的图片，来提高分类的准确率，虽然本发明是一种人脸识别的方法，但是它也可以使用在其他类别不平衡的图像分类的任务中。使用的图像生成的模型不是常规的生成对抗网络，而是CycleGAN，它可以通过训练将一类数据转化为另一类数据，即一种表情的图像转化为另外一种表情图像。本发明的最重要的部分就是使用CycleGAN来生成图像，增加数据量，然后使用生成的图像来帮助分类器的训练，来达到提高分类器精度的目的。本发明中的分类器是一个卷积神经网络结构。本发明使用的是CycleGAN，有个很好的优势，训练数据不需要匹配。由此，使用的训练数据可以是大量的无表情的图像和少量有表情的图片，这样就可以将无表情的图像全部转化为有表情的图像，以高效地实现数据增强的有益效果。

如图2所示，为一个实施例中的一种基于生成对抗网络数据增强的人脸表情识别方法的流程示意图。具体包括以下步骤：

步骤101，获取人脸图像数据集作为训练生成对抗网络的训练数据，对训练数据进行预处理。

需要说明的是，训练生成对抗网络需要大量的训练数据，因此需要使用大规模的人脸图像数据集，对于该数据应该有一些数据集是有表情的，如开心、痛苦等，并且它们都是标注好了的，另外有大量的图像是没有表情的。这些图像应该是有相同大小的尺寸，当图像大小不一样的时候，把图片的尺寸变成一致并且进行裁剪，最好保持图片的长宽比和原来的一致，不至于让图片失真。

步骤102，根据训练目标，构造CycleGAN模型与卷积神经网络模型。需要说明的是，根据训练目的，构造用来数据增强的CycleGAN模型，以及用来进行数据分类的卷积神经网络模型。

步骤103，将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合。可以理解的是，在一个实施例中，基于生成对抗网络数据增强的人脸表情识别方法还包括：对CycleGAN模型的损失函数进行定义，以及对卷积神经网络模型的损失函数进行定义。

步骤104，对CycleGAN模型进行训练，且使用训练完成的CycleGAN模型进行数据增强。其中，CycleGAN模型用于进行数据增强。

需要说明的是，初始化各层网络的参数，预设时间段内不间断地输入训练样本，根据损失函数计算出网络的损失值，通过反向传播计算出各层网络的参数的梯度，通过Adam优化算法对各层网络的参数进行优化。进一步地，CycleGAN的训练目标是通过对抗训练，可以达到将一类数据转化为另一类数据的目的，在原有的数据里面，无表情的图像是有很多的，但是有表情的图像数量比较少，使用CycleGAN可以将属性为neutral的图像转化成其他6类表情的数据，从而拓展数据集，达到数据增强的目的。

步骤105，对卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证卷积神经网络分类器的准确率。其中，卷积神经网络模型用于进行数据分类。

需要说明的是，先使用CycleGAN生成的图像作为数据集-2，将原来存在的自然图像数据集作为数据集-1，先使用数据集-2来预训练卷积神经网络模型，然后再在数据集-1上对模型参数进行调整。进一步地，使用训练好之后的卷积神经网络分类器，在测试集上进行验证分类器的准确率。

具体的，先使用CycleGAN生成的图像作为数据集-2，将原来存在的数据集作为数据集-1，先使用数据集-2来进行预训练卷积神经网络模型，再在数据集-1上，训练数据集，对模型参数进行微调。在进行训练的时候，batch size为32，学习率是0.001，总共训练20000轮，预训练和微调的时候，各训练的是10000轮。按照损失函数，对模型进行求导，进行优化。

进一步地，使用训练好之后的卷积神经网络分类器，在测试集上进行验证分类器的准确率。要是直接在原有的数据集上进行训练的准确率为91.04％，通过数据增强之后，准确率变为94.71％。

如图3所示，为另一个实施例中的一种基于生成对抗网络数据增强的人脸表情识别方法的流程示意图。具体包括以下步骤：

步骤201，获取预先标注的人脸表情图像数据。

步骤202，判断获取的多张人脸图像是否具有相同尺寸。

步骤203，当人脸图像的尺寸不一致时，则对不一致的人脸图像按照预设的尺寸对人脸图像进行裁剪，且调整裁剪后的人脸图像的长宽比。

需要说明的是，使用的数据集是Facial Expression Recognization Database(FER2013)，在该数据集里面总共有7种面部表情的情感，包括angry,disgust,fear,happy,sad,surprise和neutral。依次给它们赋予的标签是0～6。我们从这7类不同的图像中进行随机选取，各选取7％，作为测试集。这些图像应该是有相同大小的尺寸，当图像大小不一样的时候，把图片的尺寸变成一致并且进行裁剪，最好保持图片的长宽比和原来的一致，不至于让图片失真。

步骤204，根据训练目标，构造CycleGAN模型与卷积神经网络模型。

需要说明的是，先构建CycleGAN模型，然后构建卷积神经网络模型，前者用于数据增强，后者用于情感分类。

具体的，构造CycleGAN中的生成器，它是用卷积神经网络和反卷积神经网络组成的。假设输入的图像大小是48*48的，而训练的batch_size＝1，模型结构如下：图像先经过卷积层-1(参数是卷积核大小是7*7，输出通道是64，卷积的时候stride是1)，后面还有batch normalization操作，然后经过一个Relu的非线性层；再经过卷积层-2(参数是卷积核大小是3*3，输出通道是128，卷积的时候stride是2)，后面还有batch normalization操作，然后经过一个Relu的非线性层；再经过卷积层-3(参数是卷积核大小是3*3，输出通道是256，卷积的时候stride是2)，后面还有batch normalization操作，然后经过一个Relu的非线性层；经过6个残差模块：每个残差模块有两个卷积神经网络层；反卷积层-1(参数是卷积核大小是3*3，输出通道是128，stride是1/2),后面还有batch normalization操作，然后经过一个Relu的非线性层；反卷积层-2(参数是卷积核大小是3*3，输出通道是64，stride是1/2),后面还有batch normalization操作，然后经过一个Relu的非线性层；反卷积层-3(参数是卷积核大小是7*7，输出通道是1，stride是1),后面还有batch normalization操作，然后经过一个Relu的非线性层，最后输出的是一张尺寸为48*48的图像。

进一步地，构造CycleGAN中的判别器，判别器是一个卷积神经网络构成的一个分类器。具体的，输入是一个尺寸为48*48大小的图片；卷积层-1(卷积核大小为4*4，输出通道数是64，卷积操作的时候，stride为2)，后面还有batch normalization操作，然后经过一个Relu的非线性层；卷积层-2(卷积核大小为4*4，输出通道数是128，卷积操作的时候，stride为2)，后面还有batch normalization操作，然后经过一个Relu的非线性层；卷积层-3(卷积核大小为4*4，输出通道数是256，卷积操作的时候，stride为2)，后面还有batchnormalization操作，然后经过一个Relu的非线性层；卷积层-4(卷积核大小为4*4，输出通道数是512，卷积操作的时候，stride为2)，后面还有batch normalization操作，然后经过一个Relu的非线性层；卷积层-5(卷积核大小为4*4，输出通道数是1，卷积操作的时候，stride为1)，后面还有batch normalization操作，然后经过一个Relu的非线性层；最终输出结果的尺寸是1。

更进一步地，在Cyclegan里面是由两个生成器和两个判别器组成的，另外一组生成器和判别器和上述所阐述的结构是一样的。此外，最后用来进行情感分类的判别器，它是一个卷积神经网络。具体的，输入的图片大小是48*48；卷积层-1(卷积核大小3*3，输出通道是64，进行卷积操作的时候，stride＝1)，后面经过一个Relu的非线性层；最大池化层-1(形状是[1,3,3,1]，进行卷积操作的时候，stride＝2)，后面经过一个batch normalization操作；卷积层-2(卷积核大小3*3，输出通道是128，进行卷积操作的时候，stride＝1)，后面经过一个Relu的非线性层；最大池化层-2(形状是[1,3,3,1]，进行卷积操作的时候，stride＝2)，后面经过一个batch normalization操作；经过一个2层的全连接层，输出的尺寸大小是256；使用一个softmax层，输出每一种类别对应的概率。

步骤205，将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合。

可以理解的是，CycleGAN的损失函数是为了可以生成图像，进行数据增强。卷积神经网络的目的是进行图像分类，达到最大的准确率。

具体的，CycleGAN损失函数：这里是两个生成器G和F，G是将输入的图片R转成目标类别T，而F是将目标类别T可以转成输入的参照类别R

L_lsgan(F,D_R,T,R)表示的是从目标类别转化为输入的参照类别时，对应的对抗网络的损失函数，其中使用的最小均方误差。L_lsgan(G,D_T,R,T)表示的是从输入类别转化为目标类别时，对应的对抗网络的损失函数，其中使用的最小均方误差。其中R代表参考类别的数据，在本发明中这个是无感情倾向的表情图像,P_data(r)就是它对应的数据分布，T代表的是目标类别的数据，在本发明中指的是有感情倾向的表情图像，对应的数据分布是P_data(t)。D_R是一个二分类的判别器，当将数据从目标类转换成参考类型的时候，当输入是目标类型的时候，判别器对应的期望输出是0，输入是参考类型的时候，对应的期望输出是1。D_T是将数据从参考类型转换维目标类型的时候，对应的判别器，目标类型对应的期望输出是1，参考类型对应的期望输出是0。

循环一致损失：

CycleGAN总的损失函数：

L(G,F,D_S,D_R)＝L_lsgan(F,D_R,T,R)+L_lsgan(G,D_T,R,T)+λ*L_cyc(G,F)

此外，卷积神经网络的损失函数：卷积神经网络进行情感分类的时候，总共有7个类别，通过softmax得到的是生成的类别的概率分布，最后使用交叉熵作为损失函数，来进行训练。

步骤206，对CycleGAN模型进行训练，且使用训练完成的CycleGAN模型进行数据增强。其中，CycleGAN模型用于进行数据增强。

需要说明的是，使用需要增加数据的类别作为目标类别，选择无表情的图像作为输入类别，来进行模型优化。首先，使用随机高斯噪声对模型的参数进行初始化，对于CycleGAN模型，进行训练的时候，每次只是输入一张图片，选择需要增加数据的类别作为目标类别，选择无表情的图像作为输入的参照类别，然后输入到CycleGAN里面，按照定义好的损失函数，使用Adam优化算法，对模型参数进行更新，直到模型收敛。其中，Adam优化算法的参数β₁＝0.5，在损失函数里面，λ＝10，其中学习率为0.0002。

进一步地，使用CycleGAN生成图像，使用上述训练好的模型，来生成图像，作为数据集-2，将原来的自然图像数据集作为数据集-1。

步骤207，对卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证卷积神经网络分类器的准确率。其中，卷积神经网络模型用于进行数据分类。

需要说明的是，训练卷积神经网络，来进行情感分类。即先使用数据集-2来进行预训练卷积神经网络模型，再在数据集-1上，训练数据集，对模型参数进行微调。在进行训练的时候，batch size为32，学习率是0.001，总共训练20000轮，预训练和模型微调的时候，各训练的是10000轮。按照损失函数，对模型进行求导，进行优化。

本发明提供的一种基于生成对抗网络数据增强的人脸表情识别方法，获取人脸图像数据集作为训练生成对抗网络的训练数据，对训练数据进行预处理；根据训练目标，构造CycleGAN模型与卷积神经网络模型；将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合；对CycleGAN模型进行训练，且使用训练完成的CycleGAN模型进行数据增强；对卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证卷积神经网络分类器的准确率；其中，CycleGAN模型用于进行数据增强，卷积神经网络模型用于进行数据分类。本公开提供的方法通过生成对抗网络生成图像，来弥补原本中数据类别不平衡的问题，或者数据集很小的问题，进行数据增强，然后训练分类器，从而提高了模型准确率。在该过程中，使用的是CycleGAN来进行数据增强，它可以将一类数据转换为另一类数据，在本发明中，是使用它将无表情的图像转换成带表情的图像，从而可以增加那些带表情的图像数据量很少的问题，最后使用它们来进行预训练卷积神经网络分类器，提高了模型的准确率。

基于同一发明构思，还提供了一种基于生成对抗网络数据增强的人脸表情识别装置。由于此装置解决问题的原理与前述一种基于生成对抗网络数据增强的人脸表情识别方法相似，因此，该装置的实施可以按照前述方法的具体步骤时限，重复之处不再赘述。

如图4所示，为一个实施例中的一种基于生成对抗网络数据增强的人脸表情识别装置的结构示意图。该基于生成对抗网络数据增强的人脸表情识别装置10包括：获取与预处理模块100、构造模块200、结合模块300、训练与增强模块400和训练与验证模块500。

具体的，获取与预处理模块100用于获取人脸图像数据集作为训练生成对抗网络的训练数据，对训练数据进行预处理；构造模块200用于根据训练目标，构造CycleGAN模型与卷积神经网络模型；结合模块300用于将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合；训练与增强模块400用于对CycleGAN模型进行训练，且使用训练完成的CycleGAN模型进行数据增强；训练与验证模块500用于对卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证卷积神经网络分类器的准确率；其中，训练与增强模块400中的CycleGAN模型用于进行数据增强，训练与验证模块500中的卷积神经网络模型用于进行数据分类。

需要说明的是，获取与预处理模块100，包括：标注单元(图中未示出)用于获取预先标注的人脸表情图像数据。此外，获取与预处理模块100，还包括：判断单元(图中未示出)用于判断获取的多张人脸图像是否具有相同尺寸；裁剪与调整单元(图中未示出)用于当人脸图像的尺寸不一致时，则对不一致的人脸图像按照预设的尺寸对人脸图像进行裁剪，且调整裁剪后的人脸图像的长宽比。

进一步地，本公开涉及的基于生成对抗网络数据增强的人脸表情识别装置，还包括：结合模块(图中未示出)用于对CycleGAN模型的损失函数进行定义，以及对卷积神经网络模型的损失函数进行定义。

更进一步地，训练与增强模块400包括：第一计算单元(图中未示出)用于初始化各层网络的参数，预设时间段内不间断地输入训练样本，根据损失函数计算出网络的损失值；第二计算单元(图中未示出)用于通过反向传播计算出各层网络的参数的梯度；优化单元(图中未示出)用于通过Adam优化算法对各层网络的参数进行优化；转化单元(图中未示出)用于使用CycleGAN模型将无表情的图像转化成预设表情的图像。其中，需要说明的是，CycleGAN模型由两个生成器和两个判别器组成。

本发明提供的一种基于生成对抗网络数据增强的人脸表情识别装置，获取与预处理模块获取人脸图像数据集作为训练生成对抗网络的训练数据，对训练数据进行预处理；构造模块根据训练目标，构造CycleGAN模型与卷积神经网络模型；结合模块将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合；训练与增强模块对CycleGAN模型进行训练，且使用训练完成的CycleGAN模型进行数据增强；训练与验证模块对卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证卷积神经网络分类器的准确率；其中，CycleGAN模型用于进行数据增强，卷积神经网络模型用于进行数据分类。本公开提供的装置通过生成对抗网络生成图像，来弥补原本中数据类别不平衡的问题，或者数据集很小的问题，进行数据增强，然后训练分类器，从而提高了模型准确率。在装置在工作过程中使用的是CycleGAN来进行数据增强，它可以将一类数据转换为另一类数据，在本发明中，是使用它将无表情的图像转换成带表情的图像，从而可以增加那些带表情的图像数据量很少的问题，最后使用它们来进行预训练卷积神经网络分类器，提高了模型的准确率。

本发明实施例还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，该程序被图2或图3中处理器执行。

本发明实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行上述图2或3的方法。

在本公开的一个实施例中，如图5所示，基于生成对抗网络数据增强的人脸表情识别装置80包括存储器801和处理器802。基于生成对抗网络数据增强的人脸表情识别装置80中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。

存储器801用于存储非暂时性计算机可读指令。具体地，存储器801可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

处理器802可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制基于生成对抗网络数据增强的人脸表情识别装置80中的其它组件以执行期望的功能。在本公开的一个实施例中，处理器802用于运行存储器801中存储的计算机可读指令，使得基于生成对抗网络数据增强的人脸表情识别装置80执行上述对象数据获取方法。基于生成对抗网络数据增强的人脸表情识别装置与上述基于生成对抗网络数据增强的人脸表情识别方法描述的实施例相同，在此将省略其重复描述。

如图6所示，在本公开的一个实施例中，计算机可读存储介质900其上存储有非暂时性计算机可读指令901。当非暂时性计算机可读指令901由处理器运行时，执行参照上述描述的根据本公开实施例的基于生成对抗网络数据增强的人脸表情识别方法。

本公开的一个实施例提供的基于生成对抗网络数据增强的人脸表情识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述任一项基于生成对抗网络数据增强的人脸表情识别方法的步骤。

在本公开的一个实施例中，存储器用于存储非暂时性计算机可读指令。具体地，存储器可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在本公开的一个实施例中，处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制基于生成对抗网络数据增强的人脸表情识别装置中的其它组件以执行期望的功能。在本公开的一个实施例中，处理器用于运行存储器中存储的计算机可读指令，使得基于生成对抗网络数据增强的人脸表情识别装置执行上述基于生成对抗网络数据增强的人脸表情识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于生成对抗网络数据增强的人脸表情识别方法，其特征在于，所述方法包括：

获取人脸图像数据集作为训练生成对抗网络的训练数据，对所述训练数据进行预处理；

根据训练目标，构造CycleGAN模型与卷积神经网络模型；

将所述CycleGAN模型的损失函数、所述卷积神经网络模型的损失函数和所述训练目标结合；

对所述CycleGAN模型进行训练，且使用训练完成的所述CycleGAN模型进行数据增强；

对所述卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证所述卷积神经网络分类器的准确率；

其中，所述CycleGAN模型用于进行数据增强，所述卷积神经网络模型用于进行数据分类。

2.根据权利要求1所述的方法，其特征在于，所述获取人脸图像数据集作为训练生成对抗网络的训练数据，包括：获取预先标注的人脸表情图像数据。

3.根据权利要求1所述的方法，其特征在于，对所述训练数据进行预处理，包括：判断获取的多张所述人脸图像是否具有相同尺寸；

当所述人脸图像的尺寸不一致时，则对不一致的所述人脸图像按照预设的尺寸对所述人脸图像进行裁剪，且调整裁剪后的所述人脸图像的长宽比。

4.根据权利要求1所述的方法，其特征在于，还包括：对所述CycleGAN模型的损失函数进行定义，以及对所述卷积神经网络模型的损失函数进行定义。

5.根据权利要求1所述的方法，其特征在于，对所述CycleGAN模型进行训练包括：初始化各层网络的参数，预设时间段内不间断地输入训练样本，根据所述损失函数计算出网络的损失值；

通过反向传播计算出所述各层网络的参数的梯度，通过Adam优化算法对所述各层网络的参数进行优化。

6.根据权利要求1所述的方法，其特征在于，所述使用训练完成的所述CycleGAN模型进行数据增强，包括：使用所述CycleGAN模型将无表情的图像转化成预设表情的图像。

7.根据权利要求4-6任一项所述的方法，其特征在于，所述CycleGAN模型由两个生成器和两个判别器组成。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-7中任一项所述方法的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。

10.一种基于生成对抗网络数据增强的人脸表情识别装置，其特征在于，所述装置包括：

获取与预处理模块，用于获取人脸图像数据集作为训练生成对抗网络的训练数据，对所述训练数据进行预处理；

构造模块，用于根据训练目标，构造CycleGAN模型与卷积神经网络模型；

结合模块，用于将CycleGAN模型的损失函数、卷积神经网络模型的损失函数和训练目标结合；

训练与增强模块，用于对所述CycleGAN模型进行训练，且使用训练完成的所述CycleGAN模型进行数据增强；

训练与验证模块，用于对所述卷积神经网络模型进行训练，且使用训练完成的卷积神经网络分类器在测试集上验证所述卷积神经网络分类器的准确率；

其中，所述训练与增强模块中的CycleGAN模型用于进行数据增强，所述训练与验证模块中的卷积神经网络模型用于进行数据分类。