CN110532900B

CN110532900B - 基于U-Net和LS-CNN的人脸表情识别方法

Info

Publication number: CN110532900B
Application number: CN201910735015.5A
Authority: CN
Inventors: 毛莎莎; 石光辉; 缑水平; 焦昶哲; 焦李成; 路凯; 李阳阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-07-27
Anticipated expiration: 2039-08-09
Also published as: CN110532900A

Abstract

本发明提出了一种基于U‑Net和LS‑CNN的人脸表情识别方法，主要用于解决现有技术中存在的因人脸表情图像的全局信息不完整而导致人脸表情识别准确率较低的技术问题，实现步骤为：获取训练样本集C和待检测样本集V；构建基于深度卷积神经网络U‑Net和局部监督卷积神经网络LS‑CNN的人脸表情识别模型；对人脸表情识别模型进行迭代训练；基于训练好的人脸表情识别模型获取人脸表情识别结果。本发明通过U‑Net和LS‑CNN检测人脸表情图像中被遮挡或缺失的区域并降低该区域提取的特征的置信度，从而减小全局信息不完整对人脸表情识别的影响，能有效提高人脸表情识别的准确率，可用于人机交互、智慧教育、病人监护等领域。

Description

基于U-Net和LS-CNN的人脸表情识别方法

技术领域

本发明属于图像处理与模式识别技术领域，涉及一种人脸表情识别方法，具体涉及一种基于U-Net和LS-CNN的人脸表情识别方法，可用于人机交互、智慧教育、病人监护等领域。

背景技术

人脸表情识别是指让计算机对给定的表情图像进行特征提取，并结合人类已有的先验知识，展开学习、推理、判断，进而理解人类情绪的过程。人脸表情是人类表达内心深处情感状态和自身意图的最直接、最有力的信号之一，因此人脸表情识别在许多领域均有应用价值，包括人机交互、智慧教育、病人监护等，是当前的研究热点。早在20世纪，就有学者在不同文化领域中进行广泛研究，跨越不同民族文化的鸿沟定义了六种基本情感，表明人类对某些基本情感的感知方式与文化无关。这六个典型的面部表情是愤怒、厌恶、恐惧、快乐、悲伤和惊讶。

因为不同类别的人脸表情图像之间的大部分区域相似，人脸表情识别任务中类间差异小，因此人脸表情识别的准确率依赖于模型提取的特征的好坏，根据提取特征方式的不同，人脸表情识别方法可分为传统机器学习和深度学习两大类。其中传统机器学习主要提取手工设计的图像特征，如LBP特征、HOG特征和Haar特征。传统机器学习提取的特征由于其设计上的缺陷，难以处理人脸表情识别任务中类间差异性小的问题，只适用于在小型场景下对特定的人群进行人脸表情识别，具有鲁棒性低和稳定性差的缺点，无法满足大型场景中对人脸表情识别的需求。

目前，由于深度学习中的网络具有很强的特征提取和分类的能力，能将人脸表情图像映射至低维可分空间中，大幅度提升人脸表情识别的准确率，因此基于深度学习的人脸表情识别已近取得了一系列进展，其主要思想是借助卷积神经网络，对人脸表情图像进行特征提取，再对提取的特征进行分类，实现人脸表情的识别。例如申请公布号为CN109934204A，名称为“一种基于卷积神经网络的人脸表情识别方法”的专利申请，公开了一种基于卷积神经网络的人脸表情识别方法，该方法在训练期间，接收包括脸部的灰度图像及其各自的表情标签和眼睛中心位置的训练数据，生成新图像以增加数据库大小，同时对生成的新图像进行预处理，包括旋转校正，裁剪，下采样等，然后将归一化后的新图像输入卷积神经网络中进行训练，在测试阶段接收脸部的灰度图像以及其各自的眼睛中心位置，并且通过使用在训练期间学习到的最终网络权重来输出预测表达，判断该图像所属表情。该方法具有对人脸表情识别准确，快速，且可实时操作，对受控环境质量要求小，可跨数据库评估，可用标准计算机进行操作等优点。但是在人脸表情识别任务中，部分待检测图像中人脸的一些关键区域很容易被帽子、墨镜或者其它物品遮挡，同时，姿态的变化也会造成待检测图像中人脸的部分区域缺失，导致人脸表情图像的全局信息不完整，该方法只关注人脸表情图像的全局信息，而没有考虑到人脸表情图像中部分人脸被遮挡或缺失的情况，导致人脸表情识别的准确率仍然较低。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于U-Net和LS-CNN的人脸表情识别方法，用于解决现有技术中存在的因人脸表情图像的全局信息不完整而导致人脸表情识别准确率较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集C和待检测样本集V：

(1a)对从人脸表情数据库中随机选取的t幅人脸表情图像分别进行采样，并对采样得到的分辨率相同的t幅人脸表情图像进行归一化，然后对归一化后的t幅人脸表情图像的表情类别进行标注，再将归一化后的t幅人脸表情图像以及每幅归一化后的人脸表情图像对应的标签作为训练样本集C，其中，训练样本集C中标签的类别数为q，t≥3000，q≥3；

(1b)对e幅待检测的人脸表情图像{s₁,s₂,…,s_j,…,s_e}分别进行采样，得到与训练样本集C中t幅人脸表情图像分辨率相同的e幅待检测人脸表情图像，并对采样后的e幅待检测人脸表情图像进行归一化，然后将归一化结果作为待检测样本集V，其中，s_j为第j幅待检测的人脸表情图像，e≥4；

(2)构建基于深度卷积神经网络U-Net和局部监督卷积神经网络LS-CNN的人脸表情识别模型：

(2a)构建包括n个简单卷积神经网络{T₁,T₂,…,T_i,…,T_n}和n个权重卷积神经网络{P₁,P₂,…,P_i,…,P_n}的局部监督卷积神经网络LS-CNN，其中，第i个简单卷积神经网络T_i包括输入层、多个卷积层、多个池化层、展平层；第i个权重卷积神经网络P_i包括输入层、多个卷积层、多个全连接层、归一化层，归一化层采用Sigmoid函数进行归一化；T_i的最后一个池化层与P_i的输入层连接，T_i的展平层与P_i的归一化层连接，n≥4；

(2b)删除深度卷积神经网络U-Net反卷积路径中的输出层，并将LS-CNN中的n个简单卷积神经网络{T₁,T₂,…,T_i,…,T_n}的输入层与删除反卷积路径输出层的U-Net的最后一层并行连接，然后将{T₁,T₂,…,T_i,…,T_n}的n个展平层相加，得到向量层，在向量层后连接多个全连接层，得到基于深度卷积神经网络U-Net和局部监督卷积神经网络LS-CNN的人脸表情识别模型；

(3)对人脸表情识别模型进行迭代训练：

(3a)设置训练迭代次数为X，训练总迭代次数为Z，并令X＝1，Z≥20000；

(3b)对人脸表情识别模型的权值进行初始化；

(3c)将训练样本集C中的随机选取的m幅归一化后的人脸表情图像{g₁,g₂,…,g_k,…,g_m}及其对应的m个标签{l₁,l₂,…,l_k,…,l_m}作为人脸表情识别模型的输入，得到人脸表情识别模型中最后一个全连接层输出的m个概率向量{r₁,r₂,…,r_k,…,r_m}，并计算第k个概率向量r_k与第k个标签l_k的交叉熵损失o_k，然后求取m个交叉熵损失{o₁,o₂,…,o_k,…,o_m}的均值交叉熵损失O，其中，m≥4，r_k的维度大小与C中标签的类别数q相等；

(3d)通过均值交叉熵损失O，对人脸表情识别模型的权值进行更新；

(3e)判断X＝Z是否成立，若是，得到训练好的人脸表情识别模型，否则，令X＝X+1，并执行步骤(3c)；

(4)基于训练好的人脸表情识别模型获取人脸表情识别结果：

将待检测样本集V中的e幅人脸表情图像{s₁,s₂,…,s_j,…,s_e}作为训练好的人脸表情识别模型的输入，得到训练好的人脸表情识别模型中最后一个全连接层输出的e个概率向量{b₁,b₂,…,b_j,…,b_e}，并选择第j个概率向量b_j中最大概率值对应的表情类别作为待检测样本集V中的人脸表情图像s_j的表情识别结果h_j，得到待检测样本集V中的e幅人脸表情图像的表情识别结果{h₁,h₂,…,h_j,…,h_e}。

本发明与现有技术相比，具有以下优点：

本发明通过删除反卷积路径中输出层后的深度卷积神经网络U-Net获取输入图像的特征图，其中不仅含有人脸表情图像的细节信息，而且还含有人脸表情图像的深度语义信息，然后通过LS-CNN中多个并行的简单卷积神经网络对生成的特征图的局部区域进行特征提取，并通过权重卷积神经网络检测人脸表情图像中是否存在部分人脸被遮挡或缺失而造成全局信息不完整的情况，从而决定每个简单卷积神经网络提取的局部特征的置信度，从而减小全局信息不完整对人脸表情识别的影响，能有效提高人脸表情识别的准确率。

附图说明

图1是本发明的实现流程图。

图2是本发明检测人脸表情图像的全局信息完整性的仿真图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的详细描述。

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集C和待检测样本集V：

步骤1a)对从人脸表情数据库中随机选取的t幅人脸表情图像分别进行采样，并对采样得到的分辨率相同的t幅人脸表情图像进行归一化，然后对归一化后的t幅人脸表情图像的表情类别进行标注，再将归一化后的t幅人脸表情图像以及每幅归一化后的人脸表情图像对应的标签作为训练样本集C，其中，训练样本集C中标签的类别数为q，由于双线性采样能保留图像的细节信息，因此本实例中采样方式为双线性采样，采样分辨率为144×144，t＝6000，标注的人脸表情类别为愤怒、厌恶、恐惧、快乐、悲伤、惊讶和平静，q＝7；

步骤1b)对e幅待检测的人脸表情图像{s₁,s₂,…,s_j,…,s_e}分别进行双线性采样，得到与训练样本集C中t幅人脸表情图像分辨率相同的e幅待检测人脸表情图像，并对采样后的e幅待检测人脸表情图像进行归一化，然后将归一化结果作为待检测样本集V，其中，s_j为第j幅待检测的人脸表情图像，本实例中e＝2000；

步骤2)构建基于深度卷积神经网络U-Net和局部监督卷积神经网络LS-CNN的人脸表情识别模型：

步骤2a)构建包括n个简单卷积神经网络{T₁,T₂,…,T_i,…,T_n}和n个权重卷积神经网络{P₁,P₂,…,P_i,…,P_n}的局部监督卷积神经网络LS-CNN，本实例中n＝16，其中：

第i个简单卷积神经网络T_i的结构为：输入层→第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第三池化层→展平层，每层的参数设置或操作如下：

输入层维度大小设置为48×48×64；

第一卷积层和第二卷积层的卷积核个数为64，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第三卷积层和第四卷积层卷积核个数为128，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第五卷积层和第六卷积层的卷积核个数为256，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第一池化层、第二池化层和第三池化层的池化窗口为2×2，步长为2；

展平层将输入的矩阵拉伸成一个向量；

第i个权重卷积神经网络P_i的结构为：输入层→第一卷积层→第二卷积层→第三卷积层→第四卷积层→第一全连接层→第二全连接层→归一化层，每层的参数设置或操作如下：

输入层维度大小设置为6×6×256；

第一卷积层和第二卷积层的卷积核个数为128，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第三卷积层和第四卷积层的卷积核个数为64，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第一全连接层的节点数量设置为64；

第二全连接层的节点数量设置为1；

归一化层采用Sigmoid函数进行归一化；

T_i的第三池化层与P_i的输入层连接，T_i的展平层与P_i的归一化层连接；

步骤2b)删除深度卷积神经网络U-Net反卷积路径中的输出层，并将LS-CNN中的n个简单卷积神经网络{T₁,T₂,…,T_i,…,T_n}的输入层与删除反卷积路径输出层的U-Net的最后一层并行连接，然后将{T₁,T₂,…,T_i,…,T_n}的n个展平层相加，得到向量层，在向量层后连接多个全连接层，得到基于深度卷积神经网络U-Net和局部监督卷积神经网络LS-CNN的人脸表情识别模型，其中：

深度卷积神经网络U-Net常用于医学图像分割，其结构为：输入层→第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第三池化层→第七卷积层→第八卷积层→第四池化层→第九卷积层→第十卷积层→第一反卷积层→第一融合层→第十一卷积层→第十二卷积层→第二反卷积层→第二融合层→第十三卷积层→第十四卷积层→第三反卷积层→第三融合层→第十五卷积层→第十六卷积层→第四反卷积层→第四融合层→第十七卷积层→第十八卷积层→输出层，删除U-Net反卷积路径中的输出层后，每层的参数设置或操作如下：

输入层维度大小设置为144×1444×3；

第一卷积层、第二卷积层、第十七卷积层和第十八卷积层的卷积核个数为64，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第三卷积层、第四卷积层、第十五卷积层和第十六卷积层的卷积核个数为128，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第五卷积层、第六卷积层、第十三卷积层和第十四卷积层的卷积核个数为256，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第七卷积层、第八卷积层、第十一卷积层和第十二卷积层的卷积核个数为512，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第九卷积层和第十卷积层的卷积核个数为1024，卷积核尺寸为3×3，步长为1，激活函数为修正线性单元函数；

第一反卷积层的卷积核个数为512，卷积核尺寸为3×3，步长为2，激活函数为修正线性单元函数；

第二反卷积层的卷积核个数为256，卷积核尺寸为3×3，步长为2，激活函数为修正线性单元函数；

第三反卷积层的卷积核个数为128，卷积核尺寸为3×3，步长为2，激活函数为修正线性单元函数；

第四反卷积层的卷积核个数为64，卷积核尺寸为3×3，步长为2，激活函数为修正线性单元函数；

第一池化层、第二池化层、第三池化层和第四池化层的池化窗口为2×2，步长为2；

第一融合层将第八卷积层和第一反卷积层的输出在通道维度上进行叠加；

第二融合层将第六卷积层和第二反卷积层的输出在通道维度上进行叠加；

第三融合层将第四卷积层和第三反卷积层的输出在通道维度上进行叠加；

第四融合层将第二卷积层和第四反卷积层的输出在通道维度上进行叠加；

将删除反卷积路径输出层的U-Net的第十八卷积层按照从左到右、从上到下的顺序分割成n个同样大小的矩阵{M₁,M₂,…,M_i,…,M_n}，相邻矩阵的边之间有d个像素宽度的重叠，将M_i与局部监督卷积神经网络LS-CNN中简单卷积神经网络T_i的输入层连接，本实例中d＝16；

向量层将{T₁,T₂,…,T_i,…,T_n}的n个展平层的输出进行求和操作，在向量层后连接三个全连接层，其中，第一个全连接层的节点数量设置为1024，第二个全连接层的节点数量设置为128，第三个全连接层的节点数量设置为训练样本集C中标签的类别数q，得到基于深度卷积神经网络U-Net和局部监督卷积神经网络LS-CNN的人脸表情识别模型；

步骤3)对人脸表情识别模型进行迭代训练：

步骤3a)设置训练迭代次数为X，训练总迭代次数为Z，并令X＝1，本实施例中Z＝50000；

步骤3b)利用Xavier函数对人脸表情识别模型的权值进行初始化，Xavier函数的公式为：

W＝2/(n_in+n_out)

其中W为模型的初始化分布，n_in为输入的神经元数量，n_out为输出的神经元数量；

步骤3c)将训练样本集C中的随机选取的m幅归一化后的人脸表情图像{g₁,g₂,…,g_k,…,g_m}及其对应的m个标签{l₁,l₂,…,l_k,…,l_m}作为人脸表情识别模型的输入，得到人脸表情识别模型中最后一个全连接层输出的m个概率向量{r₁,r₂,…,r_k,…,r_m}，并计算第k个概率向量r_k与第k个标签l_k的交叉熵损失o_k，然后求取m个交叉熵损失{o₁,o₂,…,o_k,…,o_m}的均值交叉熵损失O，本实例中m＝20，r_k的维度大小与C中标签的类别数q相等，其中，交叉熵损失o_k的计算公式为：

o_k＝∑h_k×log₂r_k

其中，h_k为标签l_k的One-hot形式的编码向量，其维度大小与训练样本集C中标签的类别数q相等。

均值交叉熵损失O的计算公式为：

步骤3d)通过均值交叉熵损失O，利用Adam优化器对人脸表情识别模型的权值进行更新，本实例中Adam优化器的学习率设为0.0001；

步骤3e)判断X＝Z是否成立，若是，得到训练好的人脸表情识别模型，否则，令X＝X+1，并执行步骤(3c)；

步骤4)基于训练好的人脸表情识别模型获取人脸表情识别结果：

以下结合仿真试验，对本发明的技术效果作进一步说明：

1.仿真条件和内容：

仿真实验是基于Tensorflow平台，在GPU GeForce GTX 2080Ti，RAM 64G的硬件环境与Window10的软件环境下实现，仿真实验采用的人脸表情图像来自于RAF-DB、Fer2013和AffectNet人脸表情数据库。

仿真实验一，对本发明和现有的基于卷积神经网络的人脸表情识别方法的识别准确率进行对比仿真，其结果如表1所示；

仿真实验二，对本发明检测的人脸表情图像的全局信息完整性进行仿真，其结果如图2所示。

2.仿真结果分析：

表1

数据库	现有技术的准确率	本发明的准确率
			Fer2013	73.7％	77.9％
AffectNet	56.3％	59.5％
			RAF-DB	82.4％	86.1％

从表一中可以看到，在几个大型人脸表情识别数据库上，本发明所提出的方法的识别准确率都高于现有技术。

参照图2，图2(a)来自RAF-DB人脸表情图像数据库，图2(c)和图2(e)是对图2(a)的不同区域进行遮挡后得到的图像，图2(b)为局部监督卷积神经网络LS-CNN中16个权重卷积神经网络对图2(a)中16个不同区域的信息量检测的结果，图2(d)为局部监督卷积神经网络LS-CNN中16个权重卷积神经网络对图2(c)中16个不同区域的信息量检测的结果，图2(f)为局部监督卷积神经网络LS-CNN中16个权重卷积神经网络对图2(e)中16个不同区域的信息量检测的结果，图2(b)、图2(d)和图2(f)中数值大小代表对应区域的信息量的多少，可以看出如果人脸表情图像的某一区域被遮挡，其对应的权重卷积神经网络输出的数值将会减小，即检测到该区域含有的信息量小，该区域提取的特征的置信度也会降低，以减小全局信息不完整对人脸表情识别的影响。

综上所述，本发明提出的基于U-Net和LS-CNN的人脸表情识别方法能检测到人脸表情图像中部分人脸被遮挡或缺失的情况，有效提高全局信息不完整的人脸表情图像的识别准确率。

Claims

1.一种基于U-Net和LS-CNN的人脸表情识别方法，其特征在于，包括以下步骤：

(1)获取训练样本集C和待检测样本集V：

(2b)删除深度卷积神经网络U-Net反卷积路径中的输出层，并将LS-CNN中的n个简单卷积神经网络{T₁,T₂,…,T_i,…,T_n}的输入层与删除反卷积路径输出层的U-Net的最后一层并行连接，然后将{T₁,T₂,…,T_i,…,T_n}的n个展平层相加，得到向量层，在向量层后连接多个全连接层，得到基于深度卷积神经网络U-Net 和局部监督卷积神经网络LS-CNN的人脸表情识别模型；

(3)对人脸表情识别模型进行迭代训练：

(3b)对人脸表情识别模型的权值进行初始化；

(4)基于训练好的人脸表情识别模型获取人脸表情识别结果：

2.根据权利要求1中所述的基于U-Net和LS-CNN的人脸表情识别方法，其特征在于，步骤(2a)所述的n个简单卷积神经网络{T₁,T₂,…,T_i,…,T_n}和n个权重卷积神经网络{P₁,P₂,…,P_i,…,P_n}，其网络结构如下：

第i个简单卷积神经网络T_i的结构为：输入层→第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第三池化层→展平层；第i个权重卷积神经网络P_i的结构为：输入层→第一卷积层→第二卷积层→第三卷积层→第四卷积层→第一全连接层→第二全连接层→归一化层。

3.根据权利要求1中所述的基于U-Net和LS-CNN的人脸表情识别方法，其特征在于，步骤(2b)所述的将局部监督卷积神经网络LS-CNN中的n个简单卷积神经网络{T₁,T₂,…,T_i,…,T_n}的输入层与删除反卷积路径输出层的U-Net的最后一层并行连接，具体连接方式为：

将删除反卷积路径输出层的U-Net的最后一层按照从左到右、从上到下的顺序分割成n个同样大小的矩阵{M₁,M₂,…,M_i,…,M_n}，相邻矩阵的边之间有d个像素宽度的重叠，将M_i与局部监督卷积神经网络LS-CNN中简单卷积神经网络T_i的输入层连接，d≥4。

4.根据权利要求1中所述的基于U-Net和LS-CNN的人脸表情识别方法，其特征在于，步骤(3c)所述的计算第k个概率向量r_k与第k个标签l_k的交叉熵损失o_k，计算公式为：

o_k＝∑h_k×log₂r_k