CN110309791A

CN110309791A - 一种峰值时空表情识别的方法

Info

Publication number: CN110309791A
Application number: CN201910599506.1A
Authority: CN
Inventors: 朱志良; 杨杨; 杨益; 杨守界; 王一博; 于海
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-08

Abstract

本发明公开一种峰值时空表情识别的方法，属于图像识别技术领域。该方法将视频序列固定为长度为n的序列，得到视频图像序列的灰度原始图像序列G、光流图像序列Ft和光流应变图像序列St；堆叠G、Ft、St这3个图像序列输入训练好的VGG16网络；使用峰值帧和非峰值帧对网络进行微调，得出视频序列的表情预测结果。该方法输入光流图像携带了物体的运动信息，光流应变图像能够准确地表示两个连续帧之间存在物体的微小移动量，帮助简化网络学习高级特征，有更好的易用性和鲁棒性。该方法还提出了一种新型的梯度下降的方法，使非峰值图像特征向峰值图像的特征靠近。

Description

一种峰值时空表情识别的方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种峰值时空表情识别的方法。

背景技术

表情是情绪的主观体验的外部表现模式，人的表情主要有三种方式：面部表情、语言声调表情和身体姿态表情。从面部图像中识别情绪是计算机视觉领域的一个经典问题，到目前为止已经进行了许多研究。1971年，专家研究了人类的6种基本表情(即高兴、悲伤、惊讶、恐惧、愤怒、厌恶)，并系统地建立了人脸表情图象库。

面部表情的识别对于研究人员在运动和有限数据库中的处理造成巨大挑战。

第一、大多数方法在学习过程中独立地考虑每个样本，忽略了每对样本之间的内在相关性，这限制了学习模型的识别能力；

第二、专注于识别清晰可分性的峰值表达样本，而忽略最常见的非峰值表达样本，这些非峰值表达样本的识别具有极大的挑战性；

第三、许多表情识别的方法取得了优异的性能，但是以复杂的网络模型和繁琐的调节参数为代价。

发明内容

针对上述现有技术的不足，本发明提供一种峰值时空表情识别的方法。

本发明所采取的技术方案是：

一种峰值时空表情识别的方法，其流程如图1所示，包括如下步骤：

步骤1：将已经公开带有7类基本表情标签的CK+表情数据库代入VGG16网络模型进行训练；

步骤2：采集一个固定长度为a帧的视频图像序列，检测到每一帧输入图像中的人脸，将图片含人脸部分进行剪裁，固定到224*224像素大小，将新的图片序列记为X；

步骤3：将图片序列X进行灰度处理，得到灰度原始图像序列G；

步骤4：使用方法opencv将图片序列X进行光流预处理得到光流图像序列Ft；

步骤5：对光流向量进行求导，得到光流应变图像序列St；

步骤6：将光流图像序列Ft，光流应变图像序列St，灰度原始图像序列G分别沿输入通道代入步骤1所述训练好的VGG16网络模型进行学习；

步骤6-1：将VGG16网络模型的输入维度调整为224*224*5，其中5代表有5个通道数；

步骤6-2：将光流图像序列Ft，光流应变图像序列St，灰度原始图像序列G，分别沿各自的通道输入模型进行堆叠，形成堆叠光流图像序列记为Ft’，其中Ft占3个通道，St、G分别占一个通道；

步骤6-3：将Ft’中VGG16网络模型预测得分最好的堆叠光流图像作为峰值表达图像，其余堆叠光流图像作为非峰值图像；

步骤7：将一个具有相同类型和主题的峰值和非峰值表达式的图像对作为输入，对VGG16网络进行微调；

步骤8：输出网络预测的表情标签。

本发明提供的一种峰值时空表情识别的方法融合了时间特征(视频序列中峰值表情和非峰值表情)和空间特征(视频运动的光流信息)，以光流数据作为输入可以帮助简化网络学习高级特征，从而提升注入的准确率和效率，并具有更好的易用性和鲁棒性。

附图说明

图1为本发明一种峰值时空表情识别的方法的流程图；

图2为本发明具体实施例中对图像序列进行灰度处理后得到的灰度原始图像序列G；

图3为本发明具体实施例中对图像序列进行光流预处理得到的光流图像序列Ft；

图4为本发明具体实施例中对光流向量进行求导，得到光流应变图像序列St；

图5为本发明具体实施例中输出的预测表情标签。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

步骤2：采集一个固定长度为9帧的视频图像序列，检测到每一帧输入图像中的人脸，将图片含人脸部分进行剪裁，固定到224*224像素大小，将新的图片序列记为X；

步骤3：将图片序列X进行灰度处理，得到灰度原始图像序列G，如图2所示；

步骤4：使用方法opencv将图片序列X进行光流预处理得到光流图像序列Ft，如图3所示；

步骤5：对光流向量进行求导，得到光流应变图像序列St，如图4所示；

步骤8：输出网络预测的表情标签，如图5所示，该图片系列的表情为“正常”。

本发明提供的方法替代传统的SGD来实现反向传播过程。本方法只允许非峰值表情的特征像峰值靠近，不允许峰值表情特征像峰值特征靠近，提高了学习模型的识别能力。

Claims

1.一种峰值时空表情识别的方法，其特征在于，包括如下步骤：

步骤4：将图片序列X进行光流预处理得到光流图像序列Ft；

步骤5：对光流向量进行求导，得到光流应变图像序列St；

步骤8：输出网络预测的表情标签。

2.根据权利要求1所述的一种峰值时空表情识别的方法，其特征在于，所述步骤4中使用方法opencv进行光流预处理。

3.根据权利要求1所述的一种峰值时空表情识别的方法，其特征在于，所述步骤6中沿输入通道代入步骤1所述训练好的VGG16网络模型进行学习的过程如下：

步骤6-3：将Ft’中VGG16网络模型预测得分最好的堆叠光流图像作为峰值表达图像，其余堆叠光流图像作为非峰值图像。