CN109117795A

CN109117795A - 基于图结构的神经网络表情识别方法

Info

Publication number: CN109117795A
Application number: CN201810937765.6A
Authority: CN
Inventors: 李剑峰; 钟磊
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-01-01
Anticipated expiration: 2038-08-17
Also published as: CN109117795B

Abstract

本发明涉及生物特征识别领域，具体为基于图结构的神经网络表情识别方法，包括：定位脸部表情识别的多个关键点；使用滤波器提取每个关键点的纹理特征向量；将提取的每个纹理特征向量作为节点，每个节点相互连接形成图结构，各关键点之间的连线作为所述图结构的边，用欧式距离表示各关键点之间的几何特征信息，所述图结构用于代替表情图像；所述图结构输入到BRNN神经网络中；使用多次迭代的方式在所述BRNN神经网络的最后一个时间步上输出表情分类的结果。本发明充分利用不同表情的纹理及几何特征信息，以解决因图像上存在的干扰信息而降低了表情识别精度的问题。

Description

基于图结构的神经网络表情识别方法

技术领域

本发明涉及生物特征识别领域，具体为基于图结构的神经网络表情识别方法。

背景技术

在人脸表情识别的研究中，从人脸图像中抽取有效的表达信息是关键的步骤，早期的表情识别研究主要从特征学习、特征提取和分离器的构建三个方面入手。首先，人们从图像或者视频系列中提取有关面部外观或者几何形状变化信息，代表方法如LBP-TOP，HOG3D，DTAGN和STM-ExpLet。然后，从中选取出可以有效代表面部表情的特征子集，最后，根据提取的特征，构建一个有效的分类器对面部表情进行识别。但相对来说，传统的分类学习办法难取得较好的效果。

表情识别方法主要分为两大类，分别是基于单帧静止图像和基于时序多张图像的方法。在早期的表情识别中主要针对静止单帧的图片进行识别，现有的部分研究者开始尝试针对表情序列进行识别，使得传统的办法被扩展为针对表情序列识别，如3D-HOG，LBP-TOP和3D-SIFT等。这些传统方法中，研究者有采用纵向图集构建的方法在Oulu-CASIA数据库上得到了最好的结果；为了提取更加有效的时空特征，又提出了基于时域和空域的方法，并且在CK+和MMI数据库上取得了传统方法中最好的结果。所以，这三个表情数据库在表情识别实验中被广泛的使用。

最近几年，由于计算机性能的大幅度提升，深度学习方法在各个领域都取得了卓越的成果。因此，越来越多的研究者尝试使用深度学习方法来进行表情识别，目前已有较好的深度学习方法被提出，其不同于早期的直接将图片输入给神经网络的办法，而是专注于如何优化神经网络的输入。由理论可知，如图1所示，面部表情的产生可以看作是面部关键点附近肌肉的动态变化，如眼角、眉角和嘴角的变化，在图像上表现为这些关键点附近的纹理和几何的双重变化，因此图像上大部分信息对表情的判断并无贡献，反而成为了干扰信息，降低了表情识别效果。

发明内容

本发明意在提供基于图结构的神经网络表情识别方法，充分利用不同表情的纹理及几何特征信息，以解决因图像上存在的干扰信息而降低了表情识别精度的问题。

本发明的技术方案是：基于图结构的神经网络表情识别方法，包括：

定位脸部表情识别的多个关键点；

使用滤波器提取每个关键点的纹理特征向量；

将提取的每个特征向量作为节点，每个节点相互连接形成图结构，各关键点之间的连线作为所述图结构的边，用欧式距离表示各关键点之间的几何特征信息，所述图结构用于代替表情图像；

所述图结构输入到BRNN神经网络中；

使用多次迭代的方式在所述BRNN神经网络的最后一个时间步上输出表情分类的结果。

进一步，所述关键点采用DRMF方法标定出人脸的66个关键点，去除人脸外部轮廓的17个关键点，剩余49个关键点作为脸部的表情识别。

进一步，所述图结构的表示：

所述滤波器采用Gabor滤波器，所述Gabor滤波器包含尺度λ和角度θ两个参数，尺度λ和角度θ两个参数的组合：

其中，x,y分别表示所述节点坐标位置，φ表示相位偏移量，σ表示高斯函数的标准差，γ表示空间纵横比，尺度λ和角度θ参数的设置：

令θ＝{0,π/4,π/2,3π/4,π,5π/4,3π/2,2π}，产生一组共计5*8＝40组的Gabor特征向量，用x_i(i＝1,2,…,49)来表示节点i的值；

计算所述图结构中各关键点之间的欧式距离，生成一个49*49的矩阵，用e_ij(i,j＝1,2,…,49)来表示所述图结构中各条边的值。

进一步，所述BRNN神经网络对所述图结构的处理方式：

在将所述图结构输入BRNN神经网络之前，将各个节点信息x_i和其对应的边信息e_ij有效组合，形成新的特征向量节点n_i(i＝1,2,…,49)；

将所述BRNN神经网络中的非线性单元替换为GRU单元；

将每个n_i输入到各自对应的GRU单元，所述GRU单元中的前向层和后向层定义如下：

其中，初始值为T为迭代值；

取出前向迭代得到的终值，将其输入到所述BRNN神经网络中的全连接层得到y_i，再将y_i输入到softmax层得到y′：

其中，W₁、W₂、W₃和b₁代表所述BRNN神经网络中学习的权重和偏置，f代表ReLU函数，f′代表softmax函数，最终的y′即为表情分类评分。

进一步，所述特征向量节点n_i的组合方式：

对所述图结构的边取平均再点乘到节点上：

进一步，还包括：根据上述基于图结构的神经网络表情识别方法建立的模型，通过表情数据库进行其性能的验证。

进一步，所述表情数据库包括CK+、Oulu-CASIA、和MMI，用这三个表情数据库分别对所述模型进行验证。

进一步，所述Oulu-CASIA对所述模型的验证方法如下：

选取Oulu-CASIA中在正常光环境下采集的表情数据集；

在所述数据集中所有表情序列从中性表情开始，到表情强度最大值结束，选取每个表情序列中最后三张图片作为新的数据集；

作为新的数据集采用十折交叉验证在所述模型中进行测试；

将测试出的识别率取平均值得到最后的结果。

进一步，在所述模型的测试中，所述Gabor滤波器中的Gabor特征向量的融合采用级联和平均两种方式进行测量，所述Gabor滤波器中的Gabor核尺寸采用3*3、5*5、7*7三个尺度进行测试。

进一步，所述模型的验证在Tensorflow深度学习框架上进行。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

本方案创造图结构，通过将面部的多个关键点相互连接起来，形成图结构的节点和边。使用图结构进行表情识别的好处在于，不同的表情会在图结构的各个节点周围产生不一样的纹理变化，同时也会造成节点之间的距离发生不一样的几何变化，以实现用节点表示关键点附近的纹理特征足以满足不同表情造成的纹理变化信息，用边表示几何信息特征足以表示不同表情造成的几何变化关系，从而最大程度剥离了脸部上大面积的干扰信息，比如，脸颊、虹膜和头发等大面积区域，并覆盖了表情中的纹理及几何变化信息，从而提高了表情识别的效果，使得表情识别更加精确。

将提取的图结构作为BRNN神经网络的输入，在公开的三个常用表情数据库上进行训练测试，最终判断出本方案测出的识别效果优于现有的其他方法。

附图说明

图1为面部表情识别提取的关键点示意图；

图2为本实施例中基于图结构的神经网络表情识别方法的逻辑框图；

图3为本实施例中图结构的示意图；

图4为本实施例中基于图结构的神经网络表情识别方法的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

如图2、图3和图4所示：基于图结构的神经网络表情识别方法，包括：

步骤101，定位脸部表情识别的多个关键点。

关键点采用DRMF方法标定出人脸的66个关键点，去除人脸外部轮廓的17个关键点，剩余49个关键点作为脸部的表情识别。

步骤102，使用滤波器提取每个关键点的纹理特征向量。

滤波器采用Gabor滤波器，Gabor滤波器包含尺度λ和角度θ两个参数，尺度λ和角度θ两个参数的组合：

令θ＝{0,π/4,π/2,3π/4,π,5π/4,3π/2,2π}，产生一组共计5*8＝40组的Gabor特征向量。

步骤103，将提取的每个纹理特征向量作为节点，每个节点相互连接形成图结构，各关键点之间的连线作为所述图结构的边，用欧式距离表示各关键点之间的几何特征信息，图结构用于代替表情图像。

用x_i(i＝1,2,…,49)来表示节点i的值；

计算所述图结构中各关键点之间的欧式距离，生成一个49*49的矩阵，用e_ij(i,j＝1,2,…,49)来表示图结构中各条边的值。

步骤104，图结构输入到BRNN神经网络中。

在将图结构输入BRNN神经网络之前，将各个节点信息x_i和其对应的边信息e_ij有效组合，形成新的特征向量节点n_i(i＝1,2,…,49)；所述特征向量节点n_i的组合方式：对所述图结构的边取平均再点乘到节点上：

将所述BRNN神经网络中的非线性单元替换为GRU单元。

步骤105，使用多次迭代的方式在所述BRNN神经网络的最后一个时间步上输出表情分类的结果。

其中，初始值为T为迭代值；

根据上述基于图结构的神经网络表情识别方法建立的模型，通过表情数据库进行其性能的验证。表情数据库包括CK+、Oulu-CASIA、和MMI，选用三个表情数据库分别对上述模型进行验证。

Oulu-CASIA数据库的验证：

Oulu-CASIA表情数据库包含了80个样本的六种基本表情，即生气、厌恶、恐惧、高兴、伤心和惊讶。面部表情在三种环境下采集，分别为正常光，弱光和黑暗，并且每个光照条件下有480个表情序列。

Oulu-CASIA对所述模型的验证方法如下：

选取Oulu-CASIA中在正常光环境下采集的表情数据集；

作为新的数据集采用十折交叉验证在所述模型中进行测试；

具体的，将表情序列分为十份，每一次九份将会被选出来进行训练，剩下的一个用于测试结果；

将测试出的识别率取平均值得到最后的结果。

如表1所示，为了测试合适的参数，首先选用Gabor核尺寸为3*3、5*5、7*7三个尺度进行对比，Gabor特征向量取平均，网络结构为单层的BRNN。通过三组对比，实验发现Gabor核尺寸为3*3时取得最佳的效果，7*7的效果最差。

表1不同尺寸Gabor核在Oulu-CASIA数据库上的对比

Gabor核尺寸	精度
		3×3	93.6807％
5×5	90.2392％
		7×7	87.9831％

其次，对比Gabor特征向量级联和取平均的效果，级联即将40张gabor图结构依次级联，取平均是将同方向下的不同尺度gabor图叠加求平均，再按照八个方向顺序级联，选用Gabor核尺寸为3*3，网络结构为单层的BRNN。如表2所示，Gabor特征向量级联和取平均的两种方法，Gabor特征向量取平均可以得到更好的效果。

表2不同融合方式Gabor核在Oulu-CASIA数据库上的对比

融合方式	精度
		平均(Gabor核尺寸3×3)	93.6807％
级联(Gabor核尺寸3×3)	89.4040％

在上述实验后，又选取在Gabor特征向量在八个方向上取平均的方法，并同时移除图结构的边权重的几何信息，即令eij＝1，实验结果表明移除了边权重的信息后，实验结果并不理想，这也证明了本方法的模型依赖于几何信息，如图3所示的结果。

表3引入和不引入几何信息的识别对比

方式	精度
		包含几何信息	93.6807％
不包含几何信息	82.6302％

最后，将BRNN中使用的LSTM换成GRU单元进行实验，从实验结果可得，两者得到的识别率几乎没有区别，不过在收敛时间上，GRU更优越。

由上述的实验可得，本基于图结构的神经网络表情识别方法的模型在Gabor核取3×3，Gabor特征向量在八个方向取平均、单层BRNN时可以取得最好的效果，在接下来与现有方法对比时，该模型便使用这些设置。

如图表4所示，对比了在Oulu-CASIA数据库上使用本基于图结构的神经网络表情识别方法和最近几年他人办法的识别率，本发明的方法取得了满意的结果，为93.68％。

表4Oulu-CASIA数据库的识别率对比

	方法	精度
			Liuetal.	STM-ExpLet	6classes:74.59％
Guoetal.	Atlases	6classes:75.52％
			Jungetal.	DNN	6classes:74.17％
Jungetal.15	CNN-DNN	6classes:81.46％
			Zhaoetal.16	PPDN	6classes:84.59％
Yuetal.17	DPCN	6classes:86.23％
			Zhangetal.17	PHRNN-MSCNN	6classes:86.25％
所提方法	Graph-LSTM	6classes:93.68％

CK+数据库的验证：

CK+数据库是实验室环境下最为广泛使用的表情数据库，CK+数据库总共包含123个样本，593个序列。在这些序列中，有327个被标记为七种基本表情，比如生气、厌恶、恐惧、高兴、伤心、轻视和惊讶，每一个表情序列都是以中性表情开始，以表情的最大值结束。与Oulu-CASIA数据库类似，实验同样选取七个表情序列的的后三张作为新的数据集，同样采用十折交叉验证，在此不再赘述。如表5所示，其为采用CK+数据库取得的满意效果，为97.71％。

表5CK+数据库的识别率对比

MMI数据库：

MMI数据库同样也是在实验室环境下采集的表情数据库，总共包含，32个样本，326段视频序列。实验采用和别人一致的测试库，即其中的205段视频序列。与CK+和Oulu-CASIA不同的是，MMI表情序列是从中性表情开始，中间帧时达到表情的最大值，最后以中性表情结束，为了和CK+、Oulu-CASIA数据库统一，选取了表情序列中间表情最大的三帧作为新的数据集，其他的实验方法与CK+、Oulu-CASIA数据库统，所以在此不再赘述。如表6所示，其为采用MMI数据库取得的满意效果，为93.19％。

表6MMI数据库的识别率对比

	方法	精度
			Zhongetal.	CSPL	6classes:73.53％
Liuet.al	3DCNN-DAP	6classes:63.4％
			Junget.al	CNN-DNN	6classes:70.24％
Hasanietal.17	3DCNN-LSTM+landmark	6classes:77.50％
			Kimetal.17	CNN-LSTM	6classes:78.61％
Hasanietal.17	CNN-CRF	6classes:78.68％
			Zhangetal.17	PHRNN-MSCNN	6classes:81.18％
Sunetal.17	Networkensemble	6classes:91.46％
			所提方法	Graph-LSTM	6classes:93.19％

上述的所有对比实验都采用了十折交叉验证，所有的实验都在Tensorflow深度学习框架上进行，为了防止过拟合，在BRNN神经网络中的LSTM输入中使用了dropout并设置为0.5，Optimizer使用了Adamoptimizer。

本发明基于图结构的神经网络表情识别方法，通过图结构借助神经网络识别人脸6种基本表情。由于不同的表情会在脸部关键点杜绝产生不一样的纹理变化，脸部除此以外的区域基本上对表情识别的贡献较少，还会产生干扰，降低识别率，所以本方法使用Gabor滤波提取关键点附近的纹理信息，转化为特征向量，作为图结构的节点。而各特征点的相对位移也会随着不同表情产生不同变化，我们将不同特征点之间的几何信息作为图结构的边权重。最后我们利用BRNN处理构建的图结构，最终实现预测表情。实验表明在公开的三个数据库上，本文所提算法表现优于现今其他方法。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于图结构的神经网络表情识别方法，其特征在于，包括：

定位脸部表情识别的多个关键点；

使用滤波器提取每个关键点的纹理特征向量；

将提取的每个纹理特征向量作为节点，每个节点相互连接形成图结构，各关键点之间的连线作为所述图结构的边，用欧式距离表示各关键点之间的几何特征信息，所述图结构用于代替表情图像；

所述图结构输入到BRNN神经网络中；

2.根据权利要求1所述的基于图结构的神经网络表情识别方法，其特征在于，所述关键点采用DRMF方法标定出人脸的66个关键点，去除人脸外部轮廓的17个关键点，剩余49个关键点作为脸部的表情识别。

3.根据权利要求2所述的基于图结构的神经网络表情识别方法，其特征在于，所述图结构的表示：

其中，x，y分别表示所述节点坐标位置，φ表示相位偏移量，σ表示高斯函数的标准差，γ表示空间纵横比，尺度λ和角度θ参数的设置：

令θ＝{0，π/4，π/2，3π/4，π，5π/4，3π/2，2π}，产生一组共计5*8＝40组的Gabor特征向量，用x_i(i＝1，2，...，49)来表示节点i的值；

计算所述图结构中各关键点之间的欧式距离，生成一个49*49的矩阵，用e_ij(i，j＝1，2，...，49)来表示所述图结构中各条边的值。

4.根据权利要求3所述的基于图结构的神经网络表情识别方法，其特征在于，所述BRNN神经网络对所述图结构的处理方式：

在将所述图结构输入BRNN神经网络之前，将各个节点信息x_i和其对应的边信息e_ij有效组合，形成新的特征向量节点n_i(i＝1，2，...，49)；

将所述BRNN神经网络中的非线性单元替换为GRU单元；

其中，初始值为T为迭代值；

5.根据权利要求4所述的基于图结构的神经网络表情识别方法，其特征在于，所述特征向量节点n_i的组合方式：

对所述图结构的边取平均再点乘到节点上：

6.根据权利要求5所述的基于图结构的神经网络表情识别方法，其特征在于，还包括：根据上述基于图结构的神经网络表情识别方法建立的模型，通过表情数据库进行其性能的验证。

7.根据权利要求6所述的基于图结构的神经网络表情识别方法，其特征在于，所述表情数据库包括CK+、Oulu-CASIA、和MMI，用这三个表情数据库分别对所述模型进行验证。

8.根据权利要求7所述的基于图结构的神经网络表情识别方法，其特征在于，所述Oulu-CASIA对所述模型的验证方法如下：

选取Oulu-CASIA中在正常光环境下采集的表情数据集；

作为新的数据集采用十折交叉验证在所述模型中进行测试；

将测试出的识别率取平均值得到最后的结果。

9.根据权利要求8所述的基于图结构的神经网络表情识别方法，其特征在于，在所述模型的测试中，所述Gabor滤波器中的Gabor特征向量的融合采用级联和平均两种方式进行测量，所述Gabor滤波器中的Gabor核尺寸采用3*3、5*5、7*7三个尺度进行测试。

10.根据权利要求6所述的基于图结构的神经网络表情识别方法，其特征在于，所述模型的验证在Tensorflow深度学习框架上进行。