CN110378237A

CN110378237A - 基于深度度量融合网络的面部表情识别方法

Info

Publication number: CN110378237A
Application number: CN201910542467.1A
Authority: CN
Inventors: 杨文武; 陈拓; 邢帅
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-10-25
Anticipated expiration: 2039-06-21
Also published as: CN110378237B

Abstract

本发明公开了一种基于深度度量融合网络的面部表情识别方法，包括如下步骤：首先，对输入图像进行预处理；然后，构建了结合多种表情特征表示的深度度量融合网络，最后，利用训练样本对深度度量融合网络进行训练；测试时将待检测的人脸表情图像输入到训练好的深度度量融合网络中，得到表情的分类类别。本发明具有如下有益效果：本发明利用多个阈值信息来学习不同的表情分布，使得学习到的特征更具有鲁棒性和可辨别性；本发明使用对称三元组损失函数，能够避免不完整判断和锚点选择敏感的问题，加速了深度度量融合网络的收敛并且提高了学习能力；能够提高面部表情识别的准确率。

Description

基于深度度量融合网络的面部表情识别方法

技术领域

本发明涉及面部表情识别技术领域，尤其是涉及一种能够提高脸部表情识别准确率的基于深度度量融合网络的面部表情识别方法。

背景技术

面部表情是人类传递情感状态最自然和普遍的信号之一，表情识别在商业、安全、医学等领域有着广泛的应用前景，能够快速准确地识别出面部表情对其研究与应用具有重要意义。传统的机器学习方法需要手工提取特征且准确率难以保证。近年来，卷积神经网络因其良好的自学习和泛化能力在表情识别中得到了广泛应用，但是由于姿势、光照以及面部图像中个体身份的变化，表情识别仍然是一个挑战。例如，面部图像中的特征可能更多的受到身份变化而不是表情信息的主导，即具有相同表情的不同个体之间的特征距离可能大于相同个体的不同表情之间的特征距离，这将导致基于图像特征的表情分类十分困难。因此，一个有效的表情特征表示对于提高表情的辨别能力至关重要。

度量学习机制有从训练数据中学习有效表示表情变化的特征但对其他面部特征变化忽略的能力。基于深度度量学习的面部表情识别尝试构建从图像x到特征空间R^d的表情特征表示f(x)，使得具有相同表情的所有面部图像之间的特征距离很小，而具有不同表情的特征距离很大。但是基于度量学习的方法会遇到两个问题：第一点是传统的三元组损失虽然结构简单，如图3所示，但可能受到不完整判断的影响，这种情况下相应的三元组损失为0，网络在反向传播的过程中并未将其优化，但实际由于锚点到正样本的距离大于正样本到负样本的距离，因此学习很难收敛，将导致网络的学习能力不足。第二点，在先前的方法中，为了可以有效的分开来自不同类别的样本，阈值π通常是固定的并且需要手动的调整和验证。

发明内容

本发明为了克服现有技术中存在的基于图像特征的表情分类十分困难，度量学习难收敛，将导致网络的学习能力不足，识别准确率低的不足，提供了一种能够提高脸部表情识别准确率的基于深度度量融合网络的面部表情识别方法。

为了实现上述目的，本发明采用了以下技术方案：

一种基于深度度量融合网络的面部表情识别方法，包括如下步骤：

(1-1)输入图像的预处理；

(1-2)构建深度度量融合网络；

(1-2-1)利用DCNN模块提取面部表情特征；

(1-2-2)利用N-metric模块融合不同表情特征；

(1-3)对面部表情图像进行分类。

本发明输入的是带有面部表情信息的人脸图像，首先，对输入图像进行预处理；然后，构建了结合多种表情特征表示的深度度量融合网络，最后，利用训练样本对深度度量融合网络进行训练；测试时将待检测的人脸表情图像输入到训练好的深度度量融合网络中，得到表情的分类类别。

作为优选，步骤(1-2-1)的具体步骤如下：

(2-1)初始化DCNN模块；

(2-2)在人脸表情数据库上，利用softmax损失函数对DCNN模块进行微调，得到预训练的DCNN模块。

作为优选，步骤(1-2-2)的具体步骤如下：

(3-1)N-metric模块使用多个全连接的分支层，DCNN模块的最后一层全连接作为N-metric模块的每一个分支的输入，每一个分支都有一个固定大小的全连接层以及相关联的阈值π_i，i∈{1，2，...，N}；

(3-2)将图像x嵌入到欧式空间得到嵌入特征f_i(x)，在训练期间，每一个分支由对称三元组损失进行约束，表示为loss_i，i∈{1，2，...，N}。

作为优选，步骤(3-2)中对称三元组损失由如下步骤计算：

(4-1)在训练的每个batch中，将每一个训练样本作为查询图像，选择与查询样本具有相同表情的图像样本以及具有不同表情的图像样本来构造三元组；查询图像作为锚点与查询样本具有相同表情的图像样本作为正样本具有不同表情的图像样本作为负样本

(4-2)对称三元组的目标是确保正样本到锚点的距离小于负样本到锚点距离一个阈值π的大小，并且确保正样本到锚点的距离小于正样本到负样本距离一个阈值π的大小，即且其中，D(·，·)为计算样本之间的欧式距离；

(4-3)最终对称三元组损失的形式如下

使用对称三元组损失函数，加速了深度度量融合网络的收敛并且提高了学习能力。

作为优选，步骤(1-3)的具体步骤如下：

(5-1)将N-metric模块中所有分支学习到的表情特征进行融合；

(5-2)使用两个全连接层，联合softmax损失函数进行面部表情分类，第二个全连接层的输出作为面部表情分类层的输入。

作为优选，步骤(1-1)的具体步骤如下：

(6-1)使用面部关键点来剪裁感兴趣的面部区域并将对剪裁后的图像进行缩放；

(6-2)采用离线和在线的数据增强方法对缩放后的图像进行图像增强，增强过的图像作为深度度量融合网络的输入图像。

因此，本发明具有如下有益效果：本发明利用多个阈值信息来学习不同的表情分布，使得学习到的特征更具有鲁棒性和可辨别性；本发明使用对称三元组损失函数，能够避免不完整判断和锚点选择敏感的问题，加速了深度度量融合网络的收敛并且提高了学习能力；能够提高面部表情识别的准确率。

附图说明

图1是本发明的一种流程图；

图2是本发明的深度度量融合网络的一种结构示意图；

图3是本发明的传统的三元组损失不完整判断的一种示意图。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步描述：

如图1所示的实施例是一种基于深度度量融合网络的面部表情识别方法，包括如下步骤：

步骤100，输入图像的预处理

使用面部关键点来剪裁感兴趣的面部区域，并将对剪裁后的图像进行缩放，缩放到236*236的大小；采用离线和在线的数据增强方法对缩放后的图像进行图像增强：离线增强即将输入图像相应旋转{-10°，-5°，0，5°，10°}得到增强后的图像数据；在线增强即在网络训练时将图像随机从四个方向(中心，左上，左下，右上，右下)裁剪出224*224大小的图像，并随机水平翻转作为深度度量融合网络的输入图像；

步骤200，构建深度度量融合网络

深度度量融合网络使用深度卷积神经网络，如图2所示，主要由两个模块构成：提取面部表情特征的DCNN模块以及融合不同表情特征分布的N-metric模块；所述用于提取面部表情特征的DCNN模块采用VGG16网络结构；

步骤201，利用DCNN模块提取面部表情特征

用VGG16-Face model初始化DCNN模块；在FER2013人脸表情数据库上，利用softmax损失函数对DCNN模块进行微调，得到预训练的DCNN模块；

步骤202，利用N-metric模块融合不同表情特征

N-metric模块使用多个全连接的分支层，每个分支层含有512个神经元，DCNN模块的最后一层全连接作为N-metric模块的每一个分支的输入，每一个分支都有一个固定大小的全连接层以及相关联的阈值π_i，i∈{1，2，...，N}；将图像x嵌入到欧式空间得到嵌入特征f_i(x)，在训练期间，每一个分支由对称三元组损失进行约束，表示为loss_i，i∈{1，2，...，N}；

其中，对称三元组损失由如下方法计算：

在训练的每个batch中，将每一个训练样本作为查询图像，选择与查询样本具有相同表情的图像样本以及具有不同表情的图像样本来构造三元组；查询图像作为锚点与查询样本具有相同表情的图像样本作为正样本具有不同表情的图像样本作为负样本对称三元组的目标是确保正样本到锚点的距离小于负样本到锚点距离一个阈值π的大小，并且确保正样本到锚点的距离小于正样本到负样本距离一个阈值π的大小，即且其中，D(·，·)为计算样本之间的欧式距离；最终对称三元组损失的形式如下

步骤300，对面部表情图像进行分类

将N-metric模块中所有分支学习到的表情特征进行融合；

(5-2)在N-metric模块之后使用两个全连接层，每个全连接层含有256个神经元，联合softmax损失函数进行面部表情分类，第二个全连接层的输出作为面部表情分类层的输入；在训练期间，网络的不同模块采用端到端的形式进行联合优化，总损失定义如下：其中loss₀为softmax损失函数的损失。

应理解，本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于深度度量融合网络的面部表情识别方法，其特征在于，包括如下步骤：

(1-1)输入图像的预处理；

(1-2)构建深度度量融合网络；

(1-2-1)利用DCNN模块提取面部表情特征；

(1-2-2)利用N-metric模块融合不同表情特征；

(1-3)对面部表情图像进行分类。

2.根据权利要求1所述的基于深度度量融合网络的面部表情识别方法，其特征在于，步骤(1-2-1)的具体步骤如下：

(2-1)初始化DCNN模块；

3.根据权利要求1所述的基于深度度量融合网络的面部表情识别方法，其特征在于，步骤(1-2-2)的具体步骤如下：

(3-1)N-metric模块使用多个全连接的分支层，DCNN模块的最后一层全连接作为N-metric模块的每一个分支的输入，每一个分支都有一个固定大小的全连接层以及相关联的阈值π_i,i∈{1，2，...，N}；

(3-2)将图像x嵌入到欧式空间得到嵌入特征f_i(x),在训练期间，每一个分支由对称三元组损失进行约束，表示为loss_i,i∈{1，2，...，N}。

4.根据权利要求3所述的基于深度度量融合网络的面部表情识别方法，其特征在于，步骤(3-2)中对称三元组损失由如下步骤计算：

(4-2)对称三元组的目标是确保正样本到锚点的距离小于负样本到锚点距离一个阈值π的大小，并且确保正样本到锚点的距离小于正样本到负样本距离一个阈值π的大小，即且其中，D(∵)为计算样本之间的欧式距离；

(4-3)最终对称三元组损失的形式如下

5.根据权利要求1所述的基于深度度量融合网络的面部表情识别方法，其特征在于，步骤(1-3)的具体步骤如下：

(5-1)将N-metric模块中所有分支学习到的表情特征进行融合；

6.根据权利要求1所述的基于深度度量融合网络的面部表情识别方法，其特征在于，步骤(1-1)的具体步骤如下：