CN114973362A

CN114973362A - 一种应用于社交机器人的动态延长编码微表情识别方法

Info

Publication number: CN114973362A
Application number: CN202210549594.6A
Authority: CN
Inventors: 刘昆宏; 刘佳桐; 邹嘉禹; 吴清强; 林伟平; 王备战; 陈滨
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-30

Abstract

本发明公开了一种应用于社交机器人的动态延长编码微表情识别方法，属于微表情领域；所述方法包括如下步骤：S1、对数据集中的数据进行增强扩充数据量并预处理；S2、搭建表情识别模型并利用S1中的数据集进行训练；S3、将步骤S2中训练后的表情识别模型进行优化调整；S4、输出最终的表情识别模型；本发明方法构建表情识别模型为基于一个标准卷积神经网络的实时CNN，有四个residual模块，每一个卷积均有一个BatchNormalization和Relu处理，末尾的卷积层也添加了全局平均池化层和softmax层；此架构包含大约六万个参数，是基本模型的十分之一；经过测试，系统在自闭症患儿数据集上的准确率达到70％，改进后的模型相较于之前获得了更高的识别精度。

Description

一种应用于社交机器人的动态延长编码微表情识别方法

技术领域

本发明涉及微表情领域，特别涉及一种应用于社交机器人的动态延长编码微表情识别方法、设备、存储介质。

背景技术

在这个人工智能成为热门的时代，面部表情识别己成为其中的一项研究热点，CNN、DNN与感知器等算法在面部表情识别任务中得到了众多应用。人脸表情里富有各种信息，轻微的表情变化都会反映出人心理的变化。

自闭症作为一种发育障碍综合征，其患儿最突出的病症在于人际沟通本领低下和行为认知的混乱。他们看人脸通常采取躲避的态度，且很难识别出自己或别人的面部表情，这就导致其病况的恶化。自闭症儿童不擅长社会交际，甚至会出现排斥行为。相比之下他们对于电子产品的接受程度要大得多。计算机的安全环境、多样交互形式，便于自闭症患儿进行可重复训练，为治疗提供了可监测控制的信息化平台。因此申请人提出一种应用于社交机器人的动态延长编码微表情识别方法解决现有技术的不足。

发明内容

(一)技术方案

本发明通过如下技术方案实现：一种应用于社交机器人的动态延长编码微表情识别方法，所述方法包括如下步骤：

S1、对数据集中的数据进行增强扩充数据量并预处理；

S2、搭建表情识别模型并利用S1中的数据集进行训练；

S3、将步骤S2中训练后的表情识别模型进行优化调整；

S4、输出最终的表情识别模型。

2、根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

所述S1、数据增强处理包括：

S111、训练集数据增强处理，采用随机切割48*48的图像，并将图像进行随机镜像处理；

S112、测试集数据增强处理，将图片在左上角，左下角，右上角，右下角，中心进行切割、和并，并实施镜像操作，将数据库扩大10倍。

3、根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

所述对数据集中的数据进行预处理包括：人脸归一化、数据规范化处理、数据整理分类、数据去噪、数据去重、数据存储与备份。

4、根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

所述S2中的表情识别模型包括有4个residual模块；每一个卷积层都有一个BN层和Relu函数；最后一个卷积层后加一个全局平均池化层和softmax分类器。

5、根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

所述S3优化调整具体的采用批量归一化算法以及丢弃法，提升网络深度与训练速度的同时有效地防止过拟合；采取随机设置起始帧的位置，提前设定每次读取帧序列的长度，循环操作，在将所有数据均遍历的同时，达到数据增广的目的。

本发明还提出一种应用于社交机器人的动态延长编码微表情识别系统，所述系统包括：

数据处理模块：用于对数据集中的数据进行增强扩充数据量并预处理；

分析模块：用于搭建表情识别模型并利用数据集进行训练；

优化模块：用于将训练后的表情识别模型进行优化调整，并输出最终的表情识别模型。

作为上述方案的进一步说明，所述数据处理模块具体用于：

训练集数据增强处理，采用随机切割48*48的图像，并将图像进行随机镜像处理；测试集数据增强处理，将图片在左上角，左下角，右上角，右下角，中心进行切割、和并，并实施镜像操作，将数据库扩大10倍；对数据集中的数据进行预处理包括：人脸归一化、数据规范化处理、数据整理分类、数据去噪、数据去重、数据存储与备份。

作为上述方案的进一步说明，所述优化模块具体用于：

采用批量归一化算法以及丢弃法，提升网络深度与训练速度的同时有效地防止过拟合；采取随机设置起始帧的位置，提前设定每次读取帧序列的长度，循环操作，在将所有数据均遍历的同时，达到数据增广的目的。

本发明还提出一种应用于社交机器人的动态延长编码微表情识别设备，其特征在于：包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现一种应用于社交机器人的动态延长编码微表情识别方法。

本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行所述的一种应用于社交机器人的动态延长编码微表情识别方法。

(三)有益效果

本发明相对于现有技术，具有以下有益效果：

本发明为了能提取更加多样化的特征，在优化模型中使用了residual模块和深度可分离卷积，后者由深度卷积和点卷积构成，将空间相关性从通道相关性中分离出来，能够通过分离特征抽取过程进一步减少参数，并通过一个卷积层联合起来；最终的模型为基于一个标准卷积神经网络的实时CNN，有四个residual模块，每一个卷积均有一个BatchNormalization和Relu处理，末尾的卷积层也添加了全局平均池化层和softmax层；此架构包含大约六万个参数，是基本模型的十分之一；经过测试，系统在自闭症患儿数据集上的准确率达到70％，改进后的模型相较于之前获得了更高的识别精度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明新型的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程示意图；

图2为实施例1中构建的表情识别模型结构图；

图3为本发明实施例中系统对输入”高兴”图像的表情识别结果图；

图4为本发明实施例中系统对输入”惊讶”图像的表情识别结果图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例

请参阅图1，一种应用于社交机器人的动态延长编码微表情识别方法，所述方法包括如下步骤：

S1、对数据集中的数据增强扩充数据量进行预处理；本实施例采用Fer2013(Facial Expression Recognition2013)数据集中的人脸表情的静态图像，作为此次训练模型的数据集合，并进行实验验证。

该数据库是2013年Kaggle比赛的数据，由于这个数据库大多是从网络爬虫下载的，存在一定的误差性。这个数据库的人为准确率是60％至70％，很多图像均被手、头发和围巾等遮挡。由于FER2013数据集数据更加齐全，同时更加符合实际生活的场景，所以这里主要选取FER2013训练和测试模型。Fer2013面部表情数据集包含35886张图像，分为28708张训练集(Training)和7178张测试集(Testing)。所有图像的尺寸均为48*48，处理为灰度图。数据集分为七个类别，标记为阿拉伯数字0到6：0表示anger愤怒、1表示disgust厌恶、2表示fear恐惧、3表示happy高兴、4表示sad悲伤、5表示surprised惊讶、6表示normal中性。

然而Fer2013数据集是没有直接存储图片的，它把每个图像的情绪分类、像素的数据信息和属于训练集或测试集存放入一个csv文档里。

第一行是表头，说明每列数据的含义，第一列表示表情标签，第二列即为图片数据，这里是原始的图片数据，最后一列为用途。解析csv文件，将图片像素点数据转存到jpg的格式。根据数据结构使用pandas解析fer2013.csv文件，再将原始图片数据保存为jpg文件，并根据用途和标签进行分类，分别保存到对应文件夹下。接着需要把数据转化为程序比较方便利用的形式。

数据库确定后，要分开训练集和测试集，使用代码编写并且修改路径处理即，数据增强处理包括：

对数据完成归一化操作，并且划分成训练集和测试集两个部分，利用图片生成器，在批量中对数据进行增强，扩充数据集的大小。数据集已经成功获取并根据label分类好了，对人脸图像进行表情丰富区域裁剪，分别是眼睛、鼻子和嘴巴3个部位。裁剪后得到2个局部区域图像，再将这2张图像统一缩放到48×48×3的尺寸。数据的质量，直接决定了模型的预测和泛化能力的好坏。它涉及很多因素，例如准确度、可信度、完整度和时效等，数值中仍然会含有许多缺失量和噪音等，也可能因为人工录入错误导致有异常点存在，非常不利于算法模型的训练。将脏数据处理成符合要求的可用数值，弥补完缺失值，方便后续对这些数据进行统计和分析，这个过程称为数据清洗。

对数据集中的数据进行预处理还包括：

(1)人脸归一化；人脸的光照和头部姿势变化会削弱训练模型的性能，有两种脸部归一化的策略削弱影响，分别是亮度归一化和姿态归一化。

(2)数据规范化处理；对数据命名进行统一，包括制定统一的命名格式，命名要求是不含有中文和不合法的字符，因为后续过程不能对数据集进行重命名，否则会造成数据无法回溯，导致数据的丢失。此外，数据集中的图片数据也需要有统一的格式，本实施例中统一使用.png格式，这样操作是为了防止部分平台和脚本处理的时候出现不必要的问题，印象后续的模型训练。

(3)数据整理分类；本实施例中数据集包括训练集和测试集，并且将原始数据、训练数据和测试数据分开存放。

(4)数据去噪；人工去除不相干的数据，接着利用相关的检测算法去除不符合的数据，去噪对数据的标注会有很大的帮助，能够提高标注的效率。

(5)数据去重；利用搜索引擎爬取图片的时候，可能会有重复的数据，对视频切分成图片数据重复率越高。重复的数据会对训练造成影响生殖导致模型过拟合，使用按照像素比较去掉完全相同的图片，利用图像相似度检测算法去重。

(6)数据存储与备份。

S2、搭建表情识别模型并利用S1中的数据集进行训练；

请参阅图2，在本实施例中搭建的表情识别模型包括有4个residual模块；每一个卷积层都有一个BN层和Relu函数；最后一个卷积层后加一个全局平均池化层和softmax分类器。模型大小：855k，表情分类准确率：66％。主要解决了实时完成人脸检测、性别分类、情绪分类的问题。主要工作是通过使用纵深分开卷积，来代替全卷积网络，从而来减少参数个数；多个分类任务下，可以保证其实时性。

将数据集中的图像放进输入层，再让卷积层完成卷积任务，采用卷积神经网络中的感受野和控制权值以获得初始的面部特征，接下来将这些数据传输到池化层。多次卷积操作传输到输出层。可是，此时的结果和想象中有很大的差异。所以还需要采取反向传播中的梯度下降方法来反复调整步长以获得预期结果。最初根据实际结果和预期之间的差值完成对各个层之间用来连接的权值大小，接着从后向前依次按照求导值来持续地改正，一直到和预期值没有明显的差别。卷积神经网络具有两个突出的优势：首先，CNN应用感受野将局部的图像特征提取出来，每一个神经元并不需要理解整张输入的图像。第二是采用了权值共享，根据神经元之间是局部连接的这一特点，先应用同一个卷积核对图像完成卷积操作，接着会使用不同的卷积核来提取不一样的图像中的特征信息。正是这二者使得卷积神经网络的参数数量明显地降低，也简化了原本繁琐的网络构架。

使用从图像中提取出的特征信息可以辨别出这个表情所属于的类别。按照FACS中的运动单元和时间进行分类，得到了普遍认同的六种表情。动态表情识别方式包括三个大类：面部几何形状、子空间和分类器，具体例如神经网络、隐马尔科夫模型(HMM)等算法。

卷积神经网络具有卷积层、采样层和全连接层，其中前两者通常是交替搭建的，最顶层的是全连接层。将图像放进输入层，输出的是各层计算得到的属于各个类别的概率的向量。整个系统采取的卷积神经网络模型的架构是由卷积层、池化层各三层，全连接层两层共同搭建的。

S3、将步骤S2中训练后的表情识别模型进行优化调整；具体的采用批量归一化算法以及丢弃法，提升网络深度与训练速度的同时有效地防止过拟合；采取随机设置起始帧的位置，提前设定每次读取帧序列的长度，循环操作，在将所有数据均遍历的同时，达到数据增广的目的。

S4、输出最终的表情识别模型。

上述步骤完成后，即可获得表情识别模型；本实施例采用不同数据集对模型进行验证；具体的：

1、Fer2013数据集

Fer2013包含35886张图像，分为7个情绪种类，训练集的数量为28708个，测试集的数量为7178个。

表1 Fer2013测试所得的混淆矩阵

	愤怒	厌恶	恐惧	高兴	悲伤	惊讶	中立
								愤怒	0.60	0.01	0.10	0.04	0.12	0.03	0.10
厌恶	0.26	0.55	0.05	0.04	0.05	0.02	0.03
								恐惧	0.12	0.01	0.41	0.05	0.20	0.11	0.11
高兴	0.02	0.00	0.02	0.87	0.02	0.02	0.05
								悲伤	0.11	0.01	0.10	0.06	0.53	0.01	0.19
惊讶	0.03	0.00	0.10	0.05	0.02	0.77	0.03
								中立	0.05	0.00	0.05	0.09	0.13	0.02	0.65

模型在Fer2013数据集上测试的准确率为69.4％。表格为本文所提方法在FER2013面部表情数据集上进行测试类别识别结果的混淆矩阵。具体数据见表1所示。

从Fer2013混淆矩阵可以看出，属于高兴和厌恶这两个类别的表情图像准确率最高达到100％。原因是高兴对应的面部特征不复杂，相对容易分辨，而在FER2013面部表情数据集中，厌恶情绪所呈现的图像和其他类别有非常大的差别，因此识别率会高一些。比较传统方法和表中的其他类别表情的识别率，不难发现，本文所提的方法使得准确率在未融合区域特征方法的基础上进一步得到了提升。进一步分析可知，将最能代表情绪的特征和整个图像的特征融合，类似于将这些区域的特征进行了强化。因此，本文算法能够识别出与恐惧这个表情表达相似的一些表情之间的较为细微的差异性，从而较大程度上消除了这一个问题对识别率的影响。在Fer2013数据集上的实验效果，经过交叉验证后得到，因为深度卷积神经网络对于特征提取的有效性，数据增强的方法提升了表情分类效果。实验结果表明，改良后模型的效果还是超过了基础的卷积神经网络。因为数据集是在封闭环境中获得的，样本比较容易识别。后续进行的dropout和BatchNormalize处理也获得了更高的准确率，达到了70.5％的较高水平。

2、JAFFE数据集

JAFFE数据集包含213张图像。实验对象是十个日本的女学生，一共分为七个表情种类：愤怒，厌恶，恐惧，高兴，悲伤，惊讶，中性。

模型在JAFFE上测试的准确率为为63.5％。表格为本文所提方法JAFFE数据集上进行测试类别识别结果的混淆矩阵。具体数据见表2所示。

表2 JAFFE测试所得的混淆矩阵

	愤怒	中立	厌恶	恐惧	高兴	悲伤	惊讶
								愤怒	0.80	0.14	0.02	0.00	0.04	0.00	0.00
中立	0.09	0.75	0.00	0.00	0.07	0.09	0.00
								厌恶	0.04	0.11	0.40	0.03	0.11	0.27	0.08
恐惧	0.06	0.05	0.00	0.52	0.04	0.16	0.17
								高兴	0.10	0.00	0.04	0.00	0.45	0.03	0.00
悲伤	0.04	0.04	0.03	0.01	0.08	0.48	0.00
								惊讶	0.04	0.06	0.01	0.23	0.00	0.01	0.65

从JAFFE混淆矩阵可以看出，属于厌恶、恐惧和悲伤这三个类别的表情图像准确率不够理想。原因是JAFFE测试集中的测试对象是来自亚洲的女性学生，而训练模型的Fer2013中的对象绝大数来自欧美地区，并且各个年龄段的分布比较均匀，所以对于这些面部特征较为复杂，相对难以区分的表情，识别的准确率会低一些。

3、CK+数据集

CK+数据集包含123个对象的327个被标记的表情图片序列，共分为正常、生气、蔑视、厌恶、恐惧、开心和伤心七种表情。对于在这593个图像序列中的每一个图片序列，只有最后一帧被提供了表情标签，所以共有327个图像被标记。

模型在CK+上测试的准确率为为66.5％。表格为本文所提方法CK+数据集上进行测试类别识别结果的混淆矩阵。具体数据见表3所示。

表3 CK+测试所得的混淆矩阵

	愤怒	厌恶	恐惧	高兴	悲伤	惊讶	中立
								愤怒	0.64	0.01	0.07	0.04	0.14	0.03	0.07
厌恶	0.23	0.61	0.04	0.00	0.11	0.02	0.00
								恐惧	0.08	0.00	0.53	0.03	0.20	0.07	0.09
高兴	0.01	0.00	0.01	0.88	0.02	0.01	0.06
								悲伤	0.08	0.00	0.08	0.04	0.65	0.02	0.14
惊讶	0.01	0.00	0.07	0.05	0.02	0.83	0.02
								中立	0.06	0.00	0.03	0.07	0.16	0.02	0.66

从CK+混淆矩阵可以看出，对于高兴和惊讶的准确率明显高于其他的类别，然而恐惧的准确率不够高。此问题的出现可能一是因为该数据集在各种表情类别下的数量不均衡，比如有72张高兴的图像，但只有4张厌恶的图像，而每个分类的图片平均数量是41，这样种类的不平衡足以使得分类出现误差；二是生气，厌恶，恐惧，悲伤这四类表情本身就存在一定的相似性，在现实生活中，人也会觉得这四类表情难以区分，特别是在彼此都不相识的情况下，要正确识别表情就更难了。误判总是出现在某些类，可能是某些类真的难以区分，易于混淆。

本发明的优点在于：本发明为了能提取更加多样化的特征，在优化模型中使用了residual模块和深度可分离卷积，后者由深度卷积和点卷积构成，将空间相关性从通道相关性中分离出来，能够通过分离特征抽取过程进一步减少参数，并通过一个卷积层联合起来；最终的模型为基于一个标准卷积神经网络的实时CNN，有四个residual模块，每一个卷积均有一个BatchNormalization和Relu处理，末尾的卷积层也添加了全局平均池化层和softmax层；此架构包含大约六万个参数，是基本模型的十分之一；经过测试，系统在自闭症患儿数据集上的准确率达到70％，改进后的模型相较于之前获得了更高的识别精度。

实施例2

本实施例与实施例1的区别在于，建立的表情识别模型中加入注意力机制。

1、通道注意力模块

通道注意力机制将重心放在各个特征在通道这一个维度中的地位上，在CNN结构中，输入图像通过卷积核输出对应的特征矩阵(H，W，C)，其中H，W表示图像空间的高度与宽度，C表示特征通道。对各个特征通道的重要程度构筑模型，给它们赋予权重数值，从而按照需求完成对各个通道所占比重的提升或者降低。

2、空间注意力模块

空间注意力机制聚焦在特征空间位置的重要程度，给特征图形成空间注意力的权重数值，按照特征权重完成对其地位的提升或降低。

3、两个注意力机制模块的组合

通道子模块在共享网络中同时使用最大池输出和平均池输出；空间子模块利用沿通道轴合并的两个相似输出，并将它们转发到卷积层。

4、测试结果

大部分网络的分类误差都有一定程度的降低，准确率达到了71.2％。可以发现增加模块的网络模型在推理过程中会将注意力更准确的放在正确待分类对象上。为各个特征赋予相符的注意力权重数值，能够构建在空间与通道域上的注意力机制。在这里使用轻量级的通道注意力模块与空间注意力模块，按照顺序组合后嵌入到模型的CNN网络结构里面，这样网络结构可以获得关于表情的更多信息，从而提高系统识别的准确率。在深度网络的每个卷积块上，通过模块对中间特征图进行自适应调整。在通道与空间这两个维度中加上注意力机制，不仅可以指向性地要求网络结构注意的对象，也可以使得某一区域的表现得到增强，模型较好地拟合了特征分布规律。

实施例3

本实施例与实施例1的区别在于本实施例采用胶囊神经网络代替卷积神经网络；

1、胶囊网络的结构

尽管CNN能够获得图像数据的特征，且据此完成分类和预测任务。但是，在卷积神经网络的底层完成对一般特征的学习，在层数变深的同时，获得的特征图像变得更复杂。接着，网络结构可以根据学到的数据信息完成分类与预测任务。然而在这里存在一些问题，卷积神经网络未能提取到有效的和空间有关的数据，并且池化层主要的用途是连接各层，对于特征的提取效率并不高。

卷积神经网络不能很好地提取特征信息间的关联，比如相对位置等。因而每当出现新的视角时，就会产生难以理解目标对象，形成无法识别的现象。卷积神经网络采取数据增强的措施，对图像完成旋转等操作。从而扩大数据样本的数量，导致模型训练时间的增加。

所以，把空间信息作为特征的编码，采取胶囊这一组神经元，使用它的输入输出向量代表某一实体的参数。在胶囊检测里对于特征的重要数据，均会作为向量完成封装。在完成空间信息编码的时候，同样对实体存在的概率完成运算。

向量的模代表特征存在的概率，向量的方向代表特征姿态的信息。胶囊网络能够逆渲染所检测的对象，接着对复现的结果和训练样本的标注进行比较，以此完成对分类和预测任务的学习过程，循环这一个过程可以达到比较理想的参数估计。CNN各个神经元的输出为一个标量，但是胶囊网络的输出为一个向量。CNN对卷积核和相应区域完成线性加权求和的卷积操作，获得一个标量的输出结果。但是胶囊为一个向量，能够包含任意数量的数值，代表检测对象的特征、方向等信息，胶囊神经元被激活的状态代表着图像存在某一实体的各个性质。

2、测试结果

在人脸表情数据集Fer2013和经过仿射变换后的Fer2013数据集中进行了测试，表情识别准确率能够测试胶囊网络的对描述特征与完成分类或预测任务的本领。

Fer2013数据集

和实施例1构建的模型比较而言，胶囊网络在Fer2013数据集中的准确率提高了6.5％，即胶囊网络算法在Fer2013数据集中的准确率为75.9％。

接着，对Fer2013的测试集完成仿射变换，让测试集与训练集呈现不均匀的分布。

在新生成的测试集上，胶囊神经网络的准确率下降到71.2％，而卷积神经网络模型下降到68.2％。结果表明，胶囊网络的鲁棒性比模型一更强。胶囊代表的性质包括各种的参数，如姿势、纹理等。胶囊输出向量的模代表实体存在的概率，向量的方向表示实体的图像参数等。胶囊采取非线性方式以此保证向量方向不变。确保胶囊的输出向量模小于等于一，代表实体存在的概率。CNN学习特征的能力，能够让模型在图像某个像素提取的权重转移去别的位置。

对于面部图像中的特征，胶囊网络能够提取到优良的方向，以此获取人脸运动单元间的联系。

模型一中深度卷积神经网络在表情识别方面得到了成功应用，因而证明深层的抽象特征对表情识别是具有帮助的，它能够有效地提取出人脸关键区域的重要数据。但是传统胶囊网络只使用了一层卷积来完成空间特征的提取，导致它的功能提高受到了限制。所以产生了将两者结合进行改良的思路，并在后文做出统一阐述。Fer2013数据集上的表情识别率展现了胶囊网络的良好效果，它可以为模型提供和表情有联系的运动部位的数据信息，同时强化人脸关键部位的特征，从而有效地提高面部表情识别的准确率。

实施例4

本实施例与实施例1的区别在于，预处理采用Gabor小波系数完成预处理；

1、Gabor小波变换好的表情特征提取结果应该具备以下几个条件：

(1)能够无缺地呈现面部表情的实质特点；

(2)排除噪音、光源等和表情没有关系的干扰因素；

(3)避免过高维度的数据，采取适当的表达方法；然而，这些特征信息大多数均有数据冗余、维度过高，需要排除干扰，以此来获取更能体现表情差异，使分类结果更准确的特征数据。使用Gabor小波变换方法提取面部特征点，获取面部特征的目的是采取最恰当的面部表现形式来完成表情分类。包括两类重点的算法：全局样板配对与以特征点区分类别的算法。在全局样板配对算法中，像素或向量均能够作为样板。在基于特征点的算法里，大多数是采取PCA与神经网络方法完成对于面部图像的降维处理，在图像中提取出关键特征与重要区域。根据这二者的相对距离计算出特征向量。全局样板配对算法和以特征点区分类别的算法相比计算量较小，对图像尺寸、头部姿态、人脸方位比较敏锐。根据敏感度分析得到的数据，不同的特征对情绪分类的影响存在差异，面颊和脑门位置的特征体现的信息较少，将其剔除以后，计算需要的时间减少，并且系统性能有一些进步。Gabor小波变换为Har所给出，然而在早期它并没有用于面部特征的检测。最直接地采取Gabor特征的手段为对每个像素点计算其在各方位和尺度上的Gabor特征，从而产生其面部模型，再完成特征获取与表情分类。因此，Gabor小波变换在方向的选择上有很强的适应性。对于光源位置的变化和图像大小改变等均能做到定程度上的包容。各个Gabor分类器均能够和某个感受野对应起来。Gabor小波变换函数会和与它振荡方向相互垂直的边缘形成较大的反应，进而完成图像的特征图谱。通常会丢掉Gabor小波变换的线性特征，仅仅保有Gabor小波对应的幅值来表示图谱，也能够理解为某一方向上边缘的相应强度。在实际的边缘周围有不错的光滑度，能够帮助提高识别的准确率。不同特征对于系统识别表情的用途不尽相同。所以必须对它们采取合适的降维操作。

2、测试结果

在弹性图中，可以提前确定部分人脸特征的位置，并给出它们对应的语义，这样可以实现对特征的降维操作。因为首层单元的功能是降维，并对隐藏层的单元数目做实验，结果发现人脸表情特征向量的维度在五到十的时候能获得最符合实际的效果。首先定位一系列特征点，由卷积操作获得特征的Gabor小波系数，由结果数据得到，Gabor小波变换比几何算法更好，两者组合使用的准确率更高。在隐藏层使用五到七个单元的时候，准确率渐渐非常平稳。实验首先调用表情数据库中的一幅图，按照Gabor小波的方法，对图像直接进行Gabor小波滤波，得到维数为7680的原始特征向量。循环此过程，得到表情库中110张图的原始特征向量后，接下来通过FisherFace方法，把7680*110的特征向量矩阵投影到新的空间进行降维，之后再对表情进行识别，随后得到的识别平均正确率为68％。此方法所提取的特征能反映出面部图像的情感特性，且计算的复杂度较低，完成特征提取过程所用的时间比较少。通过实验发现表情识别的效果很好。想要降低图像因为受到灰度值、面部的大小和所处位置等原因的作用。

本发明还提出一种应用于社交机器人的动态延长编码微表情识别系统，上述的模型训练好了，但它的作用就只是知道了其准确率优良，深度学习的目的最重要还是应用，做个系统调取摄像头对实时画面中的表情进行识别并显示识别结果，可视化的检测模型的实用性能。所述系统包括：

分析模块：用于搭建表情识别模型并利用数据集进行训练；

数据处理模块具体用于：训练集数据增强处理，采用随机切割48*48的图像，并将图像进行随机镜像处理；测试集数据增强处理，将图片在左上角，左下角，右上角，右下角，中心进行切割、和并，并实施镜像操作，将数据库扩大10倍；对数据集中的数据进行预处理包括：人脸归一化、数据规范化处理、数据整理分类、数据去噪、数据去重、数据存储与备份。

优化模块具体用于：采用批量归一化算法以及丢弃法，提升网络深度与训练速度的同时有效地防止过拟合；采取随机设置起始帧的位置，提前设定每次读取帧序列的长度，循环操作，在将所有数据均遍历的同时，达到数据增广的目的。

进一步的，本实施例所述系统还包括：系统交互模块：请参阅图3-图4，该模块的用处是基于表情识别模型建立人机交互界面；系统交互模块用于执行如下步骤：

选择模型文件；

选择一张人脸图片，基于模型对其中的表情进行识别测试；

若测试结果满足要求，则基于模型识别实时画面中的人脸表情。

语音模块：用于将表情识别模型分析的表情识别结果转化为语音信号进行输出；显示出图像在各个情绪上分布的概率后，系统会根据最大值给出语音提示，对于提示音的要求有以下几点：1.可以理解：音频的清晰程度，特别是听者能在多大程度上提取出原有的信息；2.语音听感自然：需要听者能够听懂并且理解、发音清晰、语气自然。本实施例中语音模块采用语音合成方法将文本转化为语音信号并输出。

模型管理模块：用于管理表情识别模型。

本发明还提出一种应用于社交机器人的动态延长编码微表情识别设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现一种应用于社交机器人的动态延长编码微表情识别方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行一种应用于社交机器人的动态延长编码微表情识别方法。

示例性的，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在应用于社交机器人的动态延长编码微表情识别设备中的执行过程。

所述一种应用于社交机器人的动态延长编码微表情识别设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是一种应用于社交机器人的动态延长编码微表情识别设备的示例，并不构成对应用于社交机器人的动态延长编码微表情识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述应用于社交机器人的动态延长编码微表情识别设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述应用于社交机器人的动态延长编码微表情识别设备的控制中心，利用各种接口和线路连接整个应用于社交机器人的动态延长编码微表情识别设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述应用于社交机器人的动态延长编码微表情识别设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述应用于社交机器人的动态延长编码微表情识别设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例中的实施方案可以进一步组合或者替换，且实施例仅仅是对本发明的优选实施例进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中专业技术人员对本发明的技术方案作出的各种变化和改进，均属于本发明的保护范围。

Claims

1.一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，所述方法包括如下步骤：

S1、对数据集中的数据进行增强扩充数据量并预处理；

S2、搭建表情识别模型并利用S1中的数据集进行训练；

S3、将步骤S2中训练后的表情识别模型进行优化调整；

S4、输出最终的表情识别模型。

2.根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

所述S1、数据增强处理包括：

3.根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

4.根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

5.根据权利要求1所述的一种应用于社交机器人的动态延长编码微表情识别方法，其特征在于，

6.一种应用于社交机器人的动态延长编码微表情识别系统，其特征在于，所述系统包括：

分析模块：用于搭建表情识别模型并利用数据集进行训练；

7.根据权利要求6所述的一种应用于社交机器人的动态延长编码微表情识别系统，其特征在于，

所述数据处理模块具体用于：

8.根据权利要求6所述的一种应用于社交机器人的动态延长编码微表情识别系统，其特征在于，

所述优化模块具体用于：

9.一种应用于社交机器人的动态延长编码微表情识别设备，其特征在于：包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如权利要求1至5任意一项所述的一种应用于社交机器人的动态延长编码微表情识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5任意一项所述的一种应用于社交机器人的动态延长编码微表情识别方法。