CN108932484A

CN108932484A - 一种基于Capsule Net的人脸表情识别方法

Info

Publication number: CN108932484A
Application number: CN201810633028.7A
Authority: CN
Inventors: 张京儒; 肖南峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-12-04

Abstract

本发明公开了一种基于Capsule Net的人脸表情识别方法，包括步骤：1)选择数据集，选用Cohn‑Kanade Plus Database表情数据集，即CK+表情数据集；2)选取深度学习模型，使用反卷积版的Capsule Net作为实验模型；3)根据模型做训练和测试，将CK+表情数据集分割成训练数据集和测试数据集，将训练数据集读入Capsule Net进行周期训练，得到稳定、准确的Capsule Net深度学习模型；4)把训练好的Capsule Net深度学习模型和NAO机器人结合，NAO机器人实时跟踪训练过程，并定时地报告模型测试相关信息，将图像识别的结果通过语音和手势表达出来。采用本发明方法可以在短时间内快速达到收敛，且人脸表情识别准确率更高，可靠性高。

Description

一种基于Capsule Net的人脸表情识别方法

技术领域

本发明涉及图像处理和分类的技术领域，尤其是指一种基于Capsule Net的人脸表情识别方法。

背景技术

图像分类是人工智能领域的研究主题之一，即为输入图像打上固定类别的标签，是计算机视觉领域的核心问题之一。它有着不同的实际应用，在工业中用于对产品进行检测，识别和分类，加快了智能工业化的进程，在医学界用于疾病诊断和治疗，还可用于机器人技术领域，将图像处理和分类技术与机器人结合，从而使得机器人变得人性化，智能化。

具体地，可以利用经典的机器学习算法对图像数据集进行分类。深度学习模型强大的抽取特征能力和良好的分类效果，吸引了一大批研究者的关注和研究。其中谷歌的Inception模型和微软的ResNet都拥有复杂和深入的网络结构，在Image Net大型数据库上面的分类结果能达到90％以上的准确率，TOP-5的错误率已经低于人类。但是这些经典的深度学习模型只对图像的小范围内具有几何不变性，但是在大范围内就无法挖掘出特征之间的空间关系，一张图像里面鼻子和眼睛是眼睛在上鼻子在下的关系，位置颠倒了则不能将其视为一张人脸的图像，传统的深度卷积神经网络则仍然会将其识别为人脸。

针对此问题,Hinton提出了Capsule的结构，他是从神经认知学的发现中得到的启发。Hinton注意到的一个有趣的事实是，目前大多数神经解剖学研究都支持(大部分哺乳类，特别是灵长类)大脑皮层中大量存在称为Cortical minicolumn的柱状结构(皮层微柱)，其内部含有上百个神经元，并存在内部分层。这意味着人脑中的一层并不是类似现在NN的一层，而是有复杂的内部结构，这种结构帮助人眼认知物体的多种属性包括它的形状、颜色以及性状的空间关系。对应到深度学习的卷积神经网络中，只是将卷积核的处理方式由原来的标量输入输出转换为了向量形式的输入输出，具体的是卷积核处理图像输入后得到的feature maps的每一位的元素由标量变为了若干维的向量。

伴随着人工智能的飞速发展，机器人也变得越来越聪明，表情识别功能会大大提高服务机器人的服务质量。现今有儿童智能陪护机器人，在父母忙于工作时可以陪伴孩子，教育孩子并一起游戏，具有情感替代作用，能够弥补孩子孤独成长的遗憾，与此同时还解决了父母工作与家庭难以两全的矛盾。另外在会展中心或旅游景点这些地方，服务机器人可以帮助顾客答疑解难，为顾客做向导。在机器人领域，在视觉、听觉和触觉技术上存在瓶颈，除了期待硬件上的突破之外，在算法方面也要求用时少、效果好。要实现情感替代功能，人脸表情识别则是服务机器人不可或缺的能力。这种功能需要以情感分类模型为基础，本专利用Capsule Net深度学习模型完成人脸表情的识别和分类分类，并以Nao机器人为载体，与训练好的Capsule Net深度学习模型相结合，使Nao机器人完成人脸表情识别的任务。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于Capsule Net的人脸表情识别方法，在短时间内快速达到收敛。Capsule的原理基于卷积神经网络，不同之处在于feature maps为向量模式，通过动态路由方法计算选择Capsule作为最后的输出。在把图像进行翻转和放大处理后，送入Capsule Net，经过调参和训练，把最终模型和NAO机器人结合，通过其眼睛的颜色变换和说话以及手势动作使NAO机器人将情感表现出来，实现服务机器人的人脸表情识别功能。

为实现上述目的，本发明所提供的技术方案为：一种基于Capsule Net的人脸表情识别方法，包括以下步骤：

1)选择数据集，选用Cohn-Kanade Plus Database表情数据集，即CK+表情数据集，并对其做预处理；

2)选取深度学习模型，使用反卷积版的Capsule Net作为实验模型；

3)根据模型做训练，将CK+表情数据集分割成训练数据集和测试数据集，将训练数据集读入Capsule Net进行周期训练，得到稳定、准确的Capsule Net深度学习模型；

4)把训练好的Capsule Net深度学习模型和NAO机器人结合，NAO机器人读入测试数据集，并且定时地报告测试集通过模型测试的结果，将图像识别的结果通过语音和手势表达出来。

在步骤1)中，选取的CK+表情数据集，是根据硬件设备、运行程序环境来选择的，图像尺寸不能大于设定值，这将会导致后面的计算过程变得复杂，耗时长，达不到预期结果，而图像尺寸也不能小于设定值，否则会导致图像当中的复杂信息被忽略或者难以提取出来，这样不利于最终的分类效果；

CK+表情数据集特征明显，一共有高兴、悲伤、厌恶、平静、惊讶、恐惧、愤怒七种表情，为了更好的发挥深度学习模型的优势，将数据集进行扩充，扩充后的CK+数据集总共有10236张表情图像，这里用到镜像翻转、放大、缩小、添加噪音技术，把CK+图像除了人脸表情之外的其余部分进行剪裁处理，剪裁之后的图像只保留下来人脸表情。

在步骤2)中，选取深度学习模型的过程，具体如下：

传统的深度学习模型AlexNet、VGGNet(Visual Geometry Group Network)、谷歌的Inception v3模型以及微软的ResNet，图片都是通过卷积层和最大池化层，得到高度抽象的稀疏特征，对图像的小范围内具有几何不变性，但是在大范围内并不具备，不能挖掘出特征之间的关系，无法满足实验中需要学习特征位置空间关系的要求；利用最新的CapsuleNet对Ck+表情数据集训练，能识别出畸变的图像和正常图像，学习到眼睛和鼻子还有耳朵的特征空间位置关系，这使得Capsule Net具有对图像抗畸变的功能，而且模型深度浅，误差收敛快，这是优于传统深度学习模型的地方；

另外并非直接套用Capsule Net，该发明的特色之处在于在计算和优化误差方面，摒弃了原有的误差公式，将卷积后的抽象特征通过反卷积来重构图像，计算重构图像和原始图像的误差，减少了参数量，提高了准确率。

在步骤3)中，根据模型做训练，具体过程如下：

训练过程，分为读取数据和模型训练两部分。读取数据是将扩充后的CK+数据集按9:1的比例分成训练数据集和测试数据集两部分，Capsule Net调用函数从本地磁盘读入训练数据集；

模型训练则是将读取的训练数据集周期性地利用Capsule Net做训练，最终误差稳定在极小值即完成训练。Capsule Net总共只有三层；第一层是普通的卷积层，做初步粗略的特征提取，卷积层自身具备提取特征的能力，这一层得到的结果为向量u_i，为下一层的Capsule的输入做准备，因为Capsule的输入输出都是一种向量的模式；第二层的输入为u_i，也是第一层提取出的特征向量，输出为其计算公式如下：

其中，W_ij是权重矩阵，而作为一个Capsule，同时为第三层的输入，通过计算符合度来动态选择最优的Capsule作为输出，这里用到了动态路由算法，符合度用b_ij来表示，最初初始化为0矩阵，c_ij是b_ij经过Softmax后得到的，动态路由算法过程如下：输入和c_ij做矩阵连接运算，得到中间结果s_j：

s_j被送入“Squashing”激活函数：

该公式得到的V_j是经过挤压后的单位向量，其模长范围是0～1，表示属于j类别的概率，和sigmoid函数将计算结果挤压到0～1之间是同样的原理；

b_ij的更新规则为：

迭代三次完成更新，每完成一次迭代，对b_ij做Softmax处理得到c_ij并继续做运算，最终选择最符合输出的Capsule作为第三层的输出，对输出的Capsule做取模运算并Softmax，七维中结果最大的一维是该图像类别。

上述过程为整个模型核心计算部分，经过周期性地训练后，当模型误差和准确率都变得稳定时，即停止训练。

在步骤4)中，把训练好的Capsule Net深度学习模型和NAO机器人结合，具体如下：

NAO机器人自身的系统是Linux系统，支持跨平台使用，在Windows系统或者Linux或者Mac都是能够用的，其提供了可编程的Python接口和C++接口，而本程序是在Python环境下运行的，在程序中加入NAO机器人的第三方包并调用Python接口即可完成对接；

NAO机器人从测试集中读入一张图片，模型识别正确则调用NAO机器人扬声器的接口使它报告识别正确，并且调用眼睛LED灯的接口使其眼睛颜色变为绿色，同时调整它的手臂从垂直放松的状态变为上扬的状态；模型识别错误则会报告识别错误的语音，眼睛的颜色会变为红色，手臂处于垂直放松的状态不改变，实现机器人识别人脸表情的功能。

最后通过选择不同的深度学习模型进行对比实验，使用同样的数据集，结果显示Capsule Net具有明显优势。

用来做对比实验的深度学习模型为AlexNet，VGGNet，Inception v3，ResNet和AC-GAN(Auxiliary Classifier Generative Adversarial Networks)。最终在准确率上Capsule Net和AC-GAN获得最高的准确率，但是Capsule Net用时少，准确率更高一筹。

本发明与现有技术相比，具有如下优点与有益效果：

1、Capsule Net中的向量版feature maps，能学习到特征之间的视角、方向的位置关系，克服了传统的深度学习模型的缺陷。

2、修改后的反卷积Capsule Net收敛速度更快，识别准确率更高，简便易懂。

3、所选的CK+表情数据集采集了人类七种表情，种类齐全且权威，相比其它数据集更具有普遍性。

4、在应用性上面，NAO机器人的动作实现简便，表现生动形象，和人的互动性良好，易于编程和维护。

总之，本发明实现的机器人识别人脸表情的方案，可以为服务机器人领域的研究提供参考，发展前景广阔。

附图说明

图1是经由整理的CK+表情数据集。

图2是采用的新型的反卷积过程示意图。

图3是NAO机器人外形。

图4是Capsule全连接和反卷积的重构的测试准确率示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例是在Ubuntu 16.04系统下完成的，并搭建了Python2.7的实验环境，使用的是GTX1070 8G显存的显卡和16G内存。该实施例所提供的基于Capsule Net的人脸表情识别方法，包括以下步骤：

1)选择数据集，选用Cohn-Kanade Plus Database表情数据集，即CK+表情数据集，如图1所示；其中，选取的CK+表情数据集，是根据硬件设备、运行程序环境来选择的。

由于实验设备条件的限制，图像尺寸不能过大，这将会导致后面的计算过程变得复杂，耗时长，达不到预期结果；图像尺寸不能过小，否则会导致图像当中的复杂信息被忽略或者难以提取出来，特别是本实验中要提取人脸的表情特征，表情特征变化丰富，图像尺寸过小不利于最终的分类效果。

CK+表情数据集特征明显，一共有高兴、悲伤、厌恶、平静、惊讶、恐惧、愤怒七种表情。为了更好的发挥深度学习模型的优势，将数据集进行了扩充。扩充后的CK+数据集总共有10236张表情图像，这里用到了镜像翻转，放大，缩小，添加噪音技术。把CK+图像除了人脸表情之外的其余部分进行了剪裁处理，剪裁之后的图像只保留下来了人脸表情。

2)选取深度学习模型，使用反卷积版的Capsule Net作为实验模型，反卷积的过程如图2所示；其中，选取深度学习模型的过程，具体如下：

传统的深度学习模型AlexNet、VGGNet、谷歌的Inception v3模型以及微软的ResNet，图片都是通过卷积层和最大池化层，得到高度抽象的稀疏特征，对图像的小范围内具有几何不变性，但是在大范围内并不具备，不能挖掘出特征之间的关系，无法满足实验中需要学习特征位置空间关系的要求；利用最新的Capsule Net对Ck+表情数据集训练，能识别出畸变的图像和正常图像，学习到眼睛和鼻子还有耳朵的特征空间位置关系，这使得Capsule Net具有对图像抗畸变的功能，而且模型深度浅，误差收敛快，这是优于传统深度学习模型的地方；

另外并非直接套用Capsule Net，该发明的特色之处在于在计算和优化误差方面，不仅有反向传播的误差，还有重构图像与原始图像之间的误差。原始Capsule Net使用的是全连接的方式将高度抽象后的特征向量还原为原始图像。因为MNIST数据集图像信息简单，尺寸小，所以使用全连接方式做重构快速简单，误差小。而对于CK+表情数据集，以全连接的方式进行重构误差很大，参数量暴增，计算量大，最终导致程序崩溃。故摒弃了原始的全连接重构，采取反卷积的重构方法对图像进行反卷积重构，减少了参数量，提高了准确率。反卷积的过程如图2所示。

3)根据模型做训练，将CK+表情数据集分割成训练数据集和测试数据集，将训练数据集读入Capsule Net进行周期训练，得到稳定、准确的Capsule Net深度学习模型；其中，根据模型做训练，具体过程如下：

训练过程，分为读取数据和模型训练两部分。读取数据是将扩充后的CK+数据集按9:1的比例分成训练数据集和测试数据集两部分，Capsule Net调用函数从本地磁盘读入训练数据集。

s_j被送入“Squashing”激活函数：

b_ij的更新规则为：

总结Capsule Net模型的核心部分如下表所示。

上述过程为整个模型核心计算部分，经过周期性地训练后，当模型误差和准确率都变得稳定，即停止训练。

4)把训练好的Capsule Net深度学习模型和NAO机器人结合，NAO机器人的外形如图3所示。NAO机器人读入测试数据集，并定时地报告测试数据集通过模型得到的预测结果，将图像识别的结果通过语音和手势表达出来，具体过程如下：

NAO机器人自身的系统是linux系统，支持跨平台使用，在Windows系统或者Linux或者Mac都是可用的，其提供了可编程的Python接口和C++接口，本程序是在Python环境下实现的，故直接在程序中加入NAO机器人官方提供的第三方包并调用Python接口即可完成对接。

NAO机器人从测试集中读入一张图片，模型识别正确则调用NAO机器人扬声器的接口使它报告识别正确，并且调用眼睛LED灯的接口使其眼睛颜色变为绿色，还调整它的手臂从垂直放松的状态变为上扬的状态；模型识别错误则会报告识别错误的语音，眼睛的颜色会变为红色，手臂处于垂直放松的状态不改变，从而实现了机器人识别人脸表情的功能。

通过选择不同的深度学习模型进行对比实验，使用同样的数据集，结果显示Capsule net具有明显优势。

用来做对比实验的深度学习模型为AlexNet，VGGNet，Inception v3，ResNet和AC-GAN(Auxiliary Classifier Generative Adversarial Networks)。对AlexNet和VGGNet,重新训练的是最后全连接层的输出，前面的卷积核尺寸做了调整，权重矩阵使用原始训练好的参数，Inception v3使用的是迁移学习的方法，仍然只训练后面的分类输出部分，ResNet也做的同样处理。AC-GAN是一种生成对抗网络，通过生成网络生成原始图像，判别网络判别图像真伪，二者相互博弈，经过周期性地训练，最终两种网络都被训练得很出色，利用该网络特性，在生成网络部分给噪声添加参数，最终可生成指定类别的图像，并使用Softmax对输出做分类。综上比较，Capsule网络收敛的最快，仅仅用了10轮的训练就达到了85％的分类正确率。在众多网络模型中，准确率最高。

之后还做了使用全连接重构方法的对比实验，如图4所示，可以看出反卷积的方法收敛快，准确率高。

综上所述，采用Capsule Net深度学习模型训练的人脸表情识别，速度快，准确率高，实用性强，可以和NAO机器人进行对接，实现简单的机器人识别人脸表情的功能，将识别人脸表情功能作为服务机器人的一种功能，可以很大程度地提供服务机器人的服务质量，使机器人更具有亲和性和互动性，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于Capsule Net的人脸表情识别方法，其特征在于，包括以下步骤：

3)根据模型做训练，将CK+表情数据集分割成训练数据集和测试数据集，然后把训练数据集读入Capsule Net进行周期训练，得到稳定、准确的Capsule Net深度学习模型；

4)把训练好的Capsule Net深度学习模型和NAO机器人结合，NAO机器人读入测试数据集，并且定时地报告测试集通过模型预测的结果，将图像识别的结果通过语音和手势表达出来。

2.根据权利要求1所述的一种基于Capsule Net的人脸表情识别方法，其特征在于：在步骤1)中，选取的CK+表情数据集，是根据硬件设备、运行程序环境来选择的，图像尺寸不能大于设定值，这将会导致后面的计算过程变得复杂，耗时长，达不到预期结果，而图像尺寸也不能小于设定值，否则会导致图像当中的复杂信息被忽略或者难以提取出来，这样不利于最终的分类效果；

3.根据权利要求1所述的一种基于Capsule Net的人脸表情识别方法，其特征在于：在步骤2)中，选取深度学习模型的过程，具体如下：

在计算和优化误差方面，摒弃了原有的误差公式，将卷积后的抽象特征通过反卷积来重构图像，计算重构图像和原始图像的误差，减少了参数量，提高了准确率。

4.根据权利要求1所述的一种基于Capsule Net的人脸表情识别方法，其特征在于：在步骤3)中，根据模型做训练，具体过程如下：

训练过程，分为读取数据和模型训练两部分；读取数据是将扩充后的CK+数据集按9:1的比例分成训练数据集和测试数据集两部分，Capsule Net调用函数从本地磁盘读入训练数据集；

模型训练则是将读取的训练数据集周期性地利用Capsule Net做训练，最终误差稳定在极小值即完成训练；Capsule Net总共只有三层；第一层是普通的卷积层，做初步粗略的特征提取，卷积层自身具备提取特征的能力，这一层得到的结果为向量u_i，为下一层的Capsule的输入做准备，因为Capsule的输入输出都是一种向量的模式；第二层的输入为u_i，也是第一层提取出的特征向量，输出为其计算公式如下：

s_j被送入“Squashing”激活函数：

b_ij的更新规则为：

迭代三次完成更新，每完成一次迭代，对b_ij做Softmax处理得到c_ij并继续做运算，最终选择最符合输出的Capsule作为第三层的输出，对输出的Capsule做取模运算并Softmax，七维中结果最大的一维是该图像类别；

5.根据权利要求1所述的一种基于Capsule Net的人脸表情识别方法，其特征在于：在步骤4)中，把训练好的Capsule Net深度学习模型和NAO机器人结合，具体如下：

NAO机器人自身的系统是Linux系统，支持跨平台使用，在Windows系统或者Linux或者Mac都是能够用的，其提供了可编程的Python接口和C++接口，在Python环境下运行，在程序中加入NAO机器人的第三方包并调用Python接口即可完成对接；