CN112580527A

CN112580527A - 一种基于卷积长短期记忆网络的人脸表情识别方法

Info

Publication number: CN112580527A
Application number: CN202011533235.9A
Authority: CN
Inventors: 李太豪; 刘昱龙; 廖龙飞; 裴冠雄
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-30

Abstract

本发明涉及图像识别技术领域，尤其涉及一种基于卷积长短期记忆网络的人脸表情识别方法，包括：步骤1、从待识别表情图像中检测出对应的人脸区域，并截取人脸区域图像块，用来进行表情识别；步骤2、将获取的人脸区域划分成多个人脸子区域图像块；步骤3、将人脸子区域图像块归一化至同一尺寸；步骤4、将归一化后的人脸子区域图像块输入ConvLSTM模型进行特征融合和特征分类。本发明能够有效降低脸部姿态对表情识别的影响，降低特征提取和特征分类分步实现导致的累计误差，提高表情识别准确率。

Description

一种基于卷积长短期记忆网络的人脸表情识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于卷积长短期记忆网络的人脸表情识别方法。

背景技术

在日常交流中面部表情扮演了一个重要的角色，传统的人机交互，无法理解和适应人们的情绪和心境。因此，人脸表情识别是一个建立机器与人类情感交流的重要研究领域。目前，表情识别已经在智能辅导系统、服务机器人、驾驶疲劳检测领域均有涉及，该技术在计算机视觉领域也受到越来越多的关注。

在相关技术中，表情识别方法可分为以下几个步骤：

(1)人脸提取，从待识别图像中检测出人脸区域，用来过滤图像中的无用背景信息，降低背景对识别的干扰；

(2)人脸特征提取，可提取的特征包含：HOG(Histogram of Oriented Gradient)、LBP(Local Binary Pattern)、Gabor以及CNN(Convolutional Neural Networks)等相关特征；

(3)表情特征识别，分类识别算法通常可采用SVM(Support Vector Machine，支持向量机)，Adaboost，或者深度学习中常用的Softmax方法。

研究表明，在真实自然场景下，仍存在以下问题影响表情识别准确性：1、人脸姿态角度不一，2、面部区域存在部分遮挡。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种基于卷积长短期记忆网络的人脸表情识别方法，其具体技术方案如下。

一种基于卷积长短期记忆网络的人脸表情识别方法，包括如下步骤：

步骤1、从待识别表情图像中检测出对应的人脸区域，并截取人脸区域图像块，用来进行表情识别；

步骤2、将获取的人脸区域划分成多个人脸子区域图像块；

步骤3、将人脸子区域图像块归一化至同一尺寸；

步骤4、将归一化后的人脸子区域图像块输入ConvLSTM模型进行特征融合和特征分类。

进一步的，所述步骤1的待识别图像通过实时摄像头获取和用户已有图像数据库中的图像获取；所述检测所使用的对人脸识别检测方法，包括基于传统图像特征提取算法LBP和分类算法Adaboost算法组合，MTCNN、Faceboxes深度学习算法。

进一步的，所述步骤2具体包括：

步骤2.1、获取待识别人脸图像区域后，利用dlib工具库提取人脸区域的关键特征点，生成关键特征点集合P＝{p₁,p₂,...,p_n}，其中p_n表示人脸区域内第n个特征点；

结合特征点的顺序与人脸部位的位置，并通过部分特征点位置提取预设好的人脸部位图像块S＝{s₁,s₂,...,s_m}，即将点集P中根据预设划成m个点集集合S＝{s₁,s₂,...,s_m}，其中s_m为对应第m个点集集合

属于点集P；

步骤2.2、根据集合S中的m个子集截取出m个人脸局部图像，生成人脸子区域图像集合AU＝{au₁,au₂,...,au_m}，其中au_m表示第m个人脸子区域图像块。

进一步的，所述步骤2.2具体包括：

所述m个人脸局部图像块的提取过程为：遍历集合S中的子集，预设某个人脸区域s_k(1≤k≤m)包含人脸区域内l个特征点

对应的坐标集合为{(x_k1,y_k1),(x_k2,y_k2),...,(x_kl,y_kl)}，(x_kl,y_kl)为p_kl对应的横纵坐标；首先，计算包含这l个特征点的最小外接矩形对应左上角坐标(x_kmin,y_kmin)，其中x_kmin＝min{x_k1,x_k2,...,x_kl}，y_kmin＝min{y_k1,y_k2,...,y_kl}和右下角坐标(x_kmax,y_kmax)，x_kmax＝max{x_k1,x_k2,...,x_kl}，y_kmax＝max{y_k1,y_k2,...,y_kl}；然后，根据(x_kmin,y_kmin)和(x_kmax,y_kmax)计算可得该最小外接矩形的高h_k＝y_kmax-y_kmin和宽w_k＝x_kmax-x_kmin，以及中心坐标(x_kcenter,y_ycenter)，

其中x_kcenter＝(x_kmax+x_kmin)/2，y_kcenter＝(y_kmax+y_kmin)/2；最后，截取该部位图像块区域内容为以(x_kcenter,y_ycenter)为中心，高为ratio×h_k，宽为ratio×w_k大小的图像块，其中ratio是截取图像的比例系数，如果ratio＞1表示向原始图像块区域增加部分背景作为填充。

进一步的，所述步骤3具体包括：

将提取的人脸子区域图像集合AU中所有的图像块尺寸大小缩放至同一尺度，得到归一化后的图像块集合R＝{r₁,r₂,...,r_m}，其中，r_m是对应集合AU中元素au_m经过缩放后的图像块。

进一步的，所述步骤4具体包括：

将归一化后的人脸子区域图像集合R＝{r₁,r₂,...,r_m}，输入具有m个时序输入的ConvLSTM模型，该模型将图像块集合R中m个图像块进行关联并生成用于最终分类的特征向量，具体为采用ConvLSTM模型的最后一个隐藏层也即第m个隐藏层状态输出H_m作为输出特征向量；

再通过ConvLSTM模型的全连接层将人脸区域的特征向量H_m映射到输出特征维度，然后采用Softmax层对最终特征进行分类得到表情识别结果。

进一步的，所述ConvLSTM模型的具体实现表达式为：

其中，f_t，i_t，C_t，o_t，H_t，X_t分别表示t时刻的遗忘门、输入门、状态门、输出门、隐藏层状态和时序输入，W和b表示可学习权重参数，式中*表示卷积运算，

表示点乘，H_t-1表示t-1时刻隐藏层状态输出，C_t-1表示t-1时刻的状态们，

为网络中可学习卷积核参数，b_f，b_i，b_c，b_o为网络中可学习偏置参数。

本发明通过特征点提取的图像块进行识别降低了面部非表情区域对表情识别的干扰，其中，表情区域是指眼睛，鼻子和嘴巴等能反应情感的部位，而非表情区域至脸部滤除表情区域的位置；减少了表情识别对于姿态的依赖，通常真实场景下取整个脸部区域进行识别需要针对各个姿态获取大量训练样本，而提取表情块降低了样本量的影响，从而提升方法实现效率；

通过将人脸子区域输入ConvLSTM获取各个子区域之间的关联特征，通常人类表情由脸部多个部位同时表达，本发明提出利用ConvLSTM方法能够关联脸部各个表情单元以解决此类问题，提高表情识别准确率；通过ConvLSTM提取各个子区域之间的关联特征降低某一区域特征对整体识别结果产生巨大影响程度，解决脸部部分区域被遮挡表情识别困难的问题。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的人脸区域特征点示意图；

图3为本发明的示例ConvLSTM模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，一种基于卷积长短期记忆网络的人脸表情识别方法，包括如下步骤：

所述待识别图像可通过实时摄像头获取，也可是用户已有图像数据库中的图像。同时在本发明实施例中，对人脸检测算法的具体种类不做限定，包括基于传统图像特征提取算法LBP和分类算法Adaboost算法组合，MTCNN、Faceboxes深度学习算法等。

步骤2、将获取的人脸区域划分成多个人脸子区域图像块；

获取待识别人脸图像区域后，利用dlib工具库提取人脸区域的关键特征点，生成关键特征点集合P＝{p₁,p₂,...,p_n}，其中p_n表示人脸区域内第n个特征点，且所述特征点分布在人的眼睛、眉毛、鼻子、嘴巴和下颚周围，即使存在部分脸部区域被遮挡，特征点也能预估被遮挡位置的特征点位置。

属于点集P；

然后根据集合S中的m个子集截取出m个人脸局部图像，生成人脸子区域图像集合AU＝{au₁,au₂,...,au_m}，其中au_m表示第m个人脸子区域图像块。

如图2所示，利用dlib工具库提取人脸区域21中47个有效关键特征点。同时，本实施例预设图像块包括：1、右眼和右侧眉毛组成的区域，2、左眼和左侧眉毛组成的区域，3、鼻子区域，4、嘴巴区域。因此在实施例中m＝4，且人脸部位图像块S＝{s₁,s₂,s₃,s₄}的组成特征点元素为：

s₁＝{p₁,p₂,...,p₅,p₁₁,p₁₂,...,p₁₆}

s₂＝{p₆,p₇,...,p₁₀,p₁₇,p₁₈,...,p₂₂}

s₃＝{p₂₃,p₂₄,...,p₃₁}

s₄＝{p₃₂,p₃₃,...,p₄₇}

进一步的，针对m个图像块的提取过程为：遍历集合S中的子集，预设某个人脸区域s_k(1≤k≤m)包含人脸区域内l个特征点

对应的坐标集合为{(x_k1,y_k1),(x_k2,y_k2),...,(x_kl,y_kl)}，(x_kl,y_kl)为p_kl对应的横纵坐标。首先，计算包含这l个特征点的最小外接矩形对应左上角坐标(x_kmin,y_kmin)，其中x_kmin＝min{x_k1,x_k2,...,x_kl}，y_kmin＝min{y_k1,y_k2,...,y_kl}和右下角坐标(x_kmax,y_kmax)，x_kmax＝max{x_k1,x_k2,...,x_kl}，y_kmax＝max{y_k1,y_k2,...,y_kl}；然后，根据(x_kmin,y_kmin)和(x_kmax,y_kmax)计算可得该最小外接矩形的高h_k＝y_kmax-y_kmin和宽w_k＝x_kmax-x_kmin，以及中心坐标(x_kcenter,y_ycenter)，

其中x_kcenter＝(x_kmax+x_kmin)/2，y_kcenter＝(y_kmax+y_kmin)/2；最后，截取该部位图像块区域内容为以(x_kcenter,y_ycenter)为中心，高为ratio×h_k，宽为ratio×w_k大小的图像块，其中ratio是截取图像的比例系数，如果ratio＞1表示向原始图像块区域增加部分背景作为填充；本实施例高为1.5×h_k，宽为1.5×w_k；

该步骤中，将人脸区域划分成多个人脸子区域，这些区域包含人脸主要表达情感的部位。其中，能表达情感的区域主要指眼睛，眉毛，鼻子和嘴巴等相关的部位，分析这些部位的状态变化，才能有效的识别出用户情感的变化，通常，过多的非情感表达区域会对表情的识别形成干扰，进而降低算法识别准确率。

步骤3、将人脸子区域图像块归一化至同一尺寸；

针对提取的人脸子区域图像块尺寸大小不一致，而后续模型输入需统一输入尺寸，因此将图像集合AU中所有的图像块缩放至同一尺度，得到归一化后的图像块集合R＝{r₁,r₂,...,r_m}，其中，r_m是对应集合AU中元素au_m经过缩放后的图像块，优选的本实施例中归一化图像的大小设定为96×96。

步骤4、将归一化后的人脸子区域图像块输入ConvLSTM模型进行特征融合和特征分类；

针对归一化后的图像块集合R＝{r₁,r₂,...,r_m}，采用一个具有m个时序输入的ConvLSTM模型，该模型将图像块集合R中m个图像块进行关联并生成用于最终分类的特征向量，采用最后一个隐藏层也即第m个隐藏层状态输出H_m作为输出特征向量。传统基于全连接的FC-LSTM输入向量为一维特征向量，针对本发明提取的人脸区域图像块通过增加特征提取模型将图像数据转换成一维特征向量，而转换过程增加额外操作增加计算量的同时使模型不能实现端到端的训练；而采用ConvLSTM既保留了人脸子区域的时序关联性同时能进行端到端的训练及测试，ConvLSTM的具体实现公式如下：

再通过全连接层将人脸区域的特征向量H_m映射到输出特征维度，然后采用Softmax层对最终特征进行分类得到表情识别结果。

如图3所示，本实施例将人脸区域分割成4个子区域，本实例ConvLSTM采用单层LSTM结构包含4个时序输入(X₁,X₂,X₃,X₄)对应脸部左眼左眉毛区域、右眼右眉毛区域、鼻子区域和嘴部区域，同时模型包含4个隐藏层状态输出(H₁,H₂,H₃,H₄)，优选的，本实施例使用隐藏层特征向量H₄表示人脸表情特征。

进一步的，针对提取使用所述的表情特征向量H₄，若采用传统机器学习方法Adaboost级联分类器或者SVM对特征进行分类，特征提取过程不参与模型训练阶段，将无法确认特征提取的好坏。因此，本实施实例采用Softmax分类器对最后特征向量进行分类输出，假设表情种类的数量为n，在本实例将特征向量H₄全连接到n维的特征向量。采用Softmax分类层能结合ConvLSTM实现特征提取和特征分类一体化，进而实现端到端的模型训练和推理，降低了特征提取和特征分类分步实现的累计误差。

综上所述，本实施例提供的方法，通过人脸区域划分减少了非表情区域对表情识别的干扰，即能降低脸部姿态对表情识别的影响。通过将人脸各个表情区域输入ConvLSTM模型使得脸部各个表情区域得到关联，同时能使数据与模型进行端到端的训练和测试，降低了特征提取和特征分类分步实现导致的累计误差。

Claims

1.一种基于卷积长短期记忆网络的人脸表情识别方法，其特征在于，包括如下步骤：

步骤2、将获取的人脸区域划分成多个人脸子区域图像块；

步骤3、将人脸子区域图像块归一化至同一尺寸；

2.如权利要求1所述的一种基于卷积长短期记忆网络的人脸表情识别方法，其特征在于，所述步骤1的待识别图像通过实时摄像头获取和用户已有图像数据库中的图像获取；所述检测所使用的对人脸识别检测方法，包括基于传统图像特征提取算法LBP和分类算法Adaboost算法组合，MTCNN、Faceboxes深度学习算法。

3.如权利要求1所述的一种基于卷积长短期记忆网络的人脸表情识别方法，其特征在于，所述步骤2具体包括：

属于点集P；

4.如权利要求3所述的一种基于卷积长短期记忆网络的人脸表情识别方法，其特征在于，所述步骤2.2具体包括：

5.如权利要求3所述的一种基于卷积长短期记忆网络的人脸表情识别方法，其特征在于，所述步骤3具体包括：

6.如权利要求5所述的一种基于卷积长短期记忆网络的人脸表情识别方法，其特征在于，所述步骤4具体包括：

7.如权利要求6所述的一种基于卷积长短期记忆网络的人脸表情识别方法，其特征在于，所述ConvLSTM模型的具体实现表达式为：

其中，f_t，i_t，C_t，o_t，H_t，X_t分别表示t时刻的遗忘门、输入门、状态门、输出门、隐藏层状态和时序输入，W和b表示可学习权重参数，式中*表示卷积运算，○表示点乘，H_t-1表示t-1时刻隐藏层状态输出，C_t-1表示t-1时刻的状态们，