CN108319900A

CN108319900A - 一种基本表情分类方法

Info

Publication number: CN108319900A
Application number: CN201810038407.1A
Authority: CN
Inventors: 刘青山; 郁振波; 刘光灿
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2018-07-24

Abstract

本发明公开了一种基本表情分类方法，包括以下步骤：基于多目标级联卷积神经网络(Multi‑task Cascaded Convolutional Networks，MTCNN)的人脸检测；数据预处理；改进的三维卷积网络(3‑dimensional Convolutional Networks,C3D)；多维度空间金字塔池化(Multi‑dimensional Spatial Pyramid Pooling Normalization,MSPP‑norm)融合卷积特征；嵌套长短期记忆网络(Nested stacked LSTM)。本发明提出了一种基于表情识别的时空嵌套长短期记忆网络(Spatial‑Temporal Convolutional features with Nested‑LSTM，STC‑NLSTM)模型，将序列图像送入到带有多维空间金字塔池化的三维卷积神经网络来提取深度特征，将所有卷积层中提取的深度特征融合后送到Nested stacked LSTM中得到分类结果，从而形成一个端到端训练的网络结构。在目前公开的三个著名表情库上，本发明方法均取得了目前最好的结果。

Description

一种基本表情分类方法

技术领域

本发明属于图像信息处理技术领域，涉及一种基本表情分类方法。

背景技术

人脸表情识别是计算机视觉领域地一个经典的问题，其旨在识别六类基础的表情包括：厌恶、生气、恐惧、高兴、悲伤和惊讶。在不同的方法中，卷积神经网络(ConvolutionalNeural Networks,CNNs)和递归神经网络(Recurrent Neural Networks,RNNs)均在表情识别中展现出了非常好的效果。传统的表情识别仅仅考虑了图片空间的联系，即对图片进行单独的训练以及识别，并没有考虑到图片序列之间时间上的联系。目前主流的方法同时考虑的时间和空间上的联系，比如说CNN+RNN或者3DCNN。本发明提出的方法不仅考虑了时间和空间上的联系，并将卷积过程中尺度的变化考虑进去，设计出了一个全新的网络，该网络在经典数据库上的识别效果均达到了目前国内外最好的结果。

发明内容

本发明所要解决的技术问题在于克服现有技术不足，提供一种基本表情分类方法，针对目前时序主流方法CNN+LSTM中，CNN无法提取有效的时序特征的缺点，同时在传统方法仅考虑时间和空间的关系的基础上，考虑了每层卷积层之间的尺度的联系，本发明提出了一种基于表情识别的时空卷积特征的嵌套长短期记忆网络 (Spatial-TemporalConvolutional features with Nest-LSTM，STC-NLSTM)模型。

本发明的表情分类方法，包括以下步骤：

步骤1)、将一组视频序列通过人脸检测算法生成裁剪后的人脸，并利用水平翻转和旋转来扩大训练数据，防止网络在训练的过程中过拟合。

步骤2)、将裁剪后的表情序列送入到带有多维空间金字塔的3D卷积网络进行训练，以此来提取多尺度深度特征；

步骤3)、将训练过程中3D卷积网络每层的卷积特征送到Nested-LSTM中进行分类，形成端到端的网络训练结构；

有益效果

⑴在同样的实验条件下，本发明方法的分类准确率在CK+数据库上比 3DCNN-DAP、STM-ExpLet、DTAGN和PPDN方法的准确率要高；在Oulu-CASIA数据库上比HOG 3D、AdaLBP、Atlases、STM-ExpLet、DTAGN和PPDN方法的准确率要高，在MMI数据库上，比HOG 3D、3DSIFT、ITBN、CSPL、STM-ExpLet、3DCNN、 3DCNN-DAP、DTAGN和PPDN的方法的准确率要高。

⑵通过3DCNN能够有效提取表情间的时空特征，同时利用每层卷积层之间的尺度联系，将每层卷积特征送到Nested-LSTM中去，从而形成一个端到端的训练的网络，最终从根本上提高表情分类的准确率。

附图说明

图1为本发明表情分类方法的基本流程图；

图2为本发明表情识别的3D卷积网络特征提取结构示意图；

图3为本发明方法表情数据预处理操作结果图；

图4为本发明所用三种数据库的表情序列抽样图；

图5为本发明提出的Nested-LSTM；

图6为本发明提取出不同尺度下的特征可视化的结果；

图7为本发明展示了生气和厌恶两种表情序列变化的示意图；

图8为本发明在CK+数据库上的对比图；

图9为本发明在Oulu-CASIA数据库上的对比图；

图10为本发明在MMI数据库上的对比图；

具体实施方式

下面结合附图对本发明的技术方案进行详细的说明，下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明方法的基本流程如图1所示，具体包括以下步骤：

步骤1)、将一组视频序列通过目前最先进的人脸检测与配准算法MTCNN，对人脸进行配准，提取出两只眼睛的坐标，然后根据两只眼睛的坐标，保持两只眼睛之间距离不变，裁剪出相应的人脸，因为为了尽可能减少人脸周围对表情识别来说无效信息，比如头发、下把、人脸轮廓。本发明裁剪出来的人脸呈现矩形，如图4所示。然后通过 0填充，将其填充成正方形，再对其进行尺度变化，从而不会导致图片发生形变。在此基础上，本发明通过对图片进行旋转、翻转来扩大训练样本，如图3所示；

步骤2)、如图2所示，本发明提取出卷积特征中每一层卷积层的卷积特征。不同卷积层提取出的不同尺度下的卷积特征如图6所示。

步骤3)、如图5所示，将提取的不同尺度下的卷积特征送入Nested-LSTM中，通过MSPP-norm，即三种尺度的池化相结合，分别为2、4、8，将不同尺度下的特征转成相同长度的列向量，从而送到Nested-LSTM中。

其中，提取的Nested-LSTM由C-LSTM和T-LSTM组成，T-LSTM用于提取相同序列不同图片的时序信息，C-LSTM用于提取网络中得到不同尺度之间特征的联系。

为了进一步展示出本发明的意义以及优越性能，我们测试了两组基本实验，一组是只利用了最后一组卷积，也就是正常在网络训练过程中利用的最后一层，另外一组我们单纯使用了三维卷积网络。具体实验结果如下表所示。

表1 CK+数据库分类准确率对比

方法	分类准确率
		3DCNN-DAP	92.4
STM-ExpLet	94.2
		DTAGN	97.3
PPDN	99.3
		STC	98.9
STC-LSTM	99.3
		STC-NLSTM	99.8

表2 Oulu-CASIA数据库分类准确率对比

方法	分类准确率
		STM-ExpLet	74.59
DTAGN	81.46
		PPDN	84.59
STC	84.72
		STC-LSTM	88.98
STC-NLSTM	93.45

表3 MMI数据库分类准确率对比

方法	分类准确率
		STM-ExpLet	75.12
DTAGN	70.24
		SCPL	73.53
STC	88.84
		STC-LSTM	91.39
STC-NLSTM	95.53

从表1、表2和表3可以看出，本发明方法的分类准确率明显高于其他分类方法，和这些方法相比，本发明方法无论是从分类性能还是从分类精确度上来看，都具有明显的优势。

Claims

1.一种表情分类方法，其特征在于，包括以下步骤：

步骤1)将一组视频序列通过目前最先进的人脸检测算法生成裁剪后的人脸，并利用水平翻转和旋转不同的角度来扩大训练数据；

所述旋转对CK+(扩展的cohn-kanade表情数据库)数据库将其旋转15°、10°、5°、-5°、-10°、-15°；对Oulu数据库将其旋转7.5°、5°、2.5°、-2.5°、-7.5°；对MMI数据将其旋转10°、7.5°、5°、2.5°、-2.5°、-5°、-7.5°、-10°。(其中MMI和Oulu-CASIA是奥卢大学的赵国英教授提出的表情识别经典的数据库)在此之后再进行翻折，即将将原始数据库CK+、Oulu和MMI分别扩大14、14和16倍；

步骤2)将裁剪后的表情序列送入到带有多维空间金字塔的3D卷积网络进行训练，以此来提取多尺度深度特征；直接送到步骤3)中进行训练；

步骤3)将训练过程中3D卷积网络每层的卷积特征送到嵌套双层LSTM(Long ShortTerm Memory，长短期记忆算法)中进行分类，形成端到端的网络训练结构。

2.如权利要求1所述的方法，其特征在于：步骤3)所述Nested-LSTM(Nested LongShort Term Memory，嵌套的长短期记忆算法)网络均采用多对一的训练方式。