CN110765873A

CN110765873A - 一种基于表情强度标签分布的面部表情识别方法与装置

Info

Publication number: CN110765873A
Application number: CN201910889390.5A
Authority: CN
Inventors: 徐如意; 陈靓影; 杨宗凯; 郭琛
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-07
Anticipated expiration: 2039-09-19
Also published as: CN110765873B

Abstract

本发明涉及一种基于表情强度标签分布的面部表情分析方法、装置与计算机可读介质。该方法对人脸图像序列进行自动编码生成表情强度标签，从表情序列中选取中性表情和非中性表情作为输入，采用卷积神经网络对输入数据进行训练得到表情识别模型，根据该表情识别模型输出的联合表情强度分布预测表情图像的类别及所属类别的强度。本发明能够获得表情强度标注的训练数据，从而提高表情识别的正确性和鲁棒性。

Description

一种基于表情强度标签分布的面部表情识别方法与装置

技术领域

本发明属于图像识别技术领域，具体涉及一种基于表情强度标签分布的面部表情识别方法、装置与计算机可读介质。

背景技术

面部表情识别是一个涉及模式识别、图像处理、人工智能等多学科的综合性课题，所谓面部表情识别，是指让计算机对给定的表情图像进行特征提取，并结合人类已有的先验知识，展开学习、推理、判断，进而理解人类情绪的过程。面部表情识别广泛应用于情感计算、人机交互、情感机器人、医疗保健等领域，是当前的研究热点。

面部表情识别主要由表情识别和表情强度估计两个部分组成。表情识别的工作主要是分类六类基本表情，包括：生气、厌恶、恐惧、高兴、悲伤、惊讶；而表情强度估计则主要判断情绪的表达强弱程度。为了是机器全面理解人的情绪，有必要同时估计表情的类别和强度。

然而，现有技术中，面部表情识别面临的主要困难在于缺乏有表情强度标注的训练数据，无法通过有监督的方法训练得到满意的面部表情分析模型，以实现对表情类别和强度的联合估计。同时，对于外观连续变化的表情序列，相邻强度的表情在外观上具有极强的相似性，难以实现准确的标注。另外，存在弱表情识别精度低，无法在统一框架下实现表情类别与强度的联合识别等问题。

发明内容

针对现有技术存在的至少一种问题或改进需求，本发明提供了一种基于表情强度标签分布的面部表情识别方法、装置与计算机可读介质，能够解决现有技术中缺乏有表情强度标注的训练数据、难以实现准确的标注和表情识别精度低的问题。

根据本发明的第一方面，本发明提供了一种基于表情强度标签分布的面部表情识别方法，包括训练步骤和测试步骤；

训练步骤包括：

提取训练人脸图像序列，该训练人脸图像序列包括中性表情和非中性表情在内的多帧表情，获取该训练人脸图像序列的表情类型及每帧表情的表情强度；

将该中性表情分别与该非中性表情组合，获取训练样本对；

根据该表情类型以及该表情强度，对该训练样本对进行编码获得表情强度标签；

采用卷积神经网络对该训练样本对和该表情强度标签进行训练，构建表情识别模型；

该测试步骤包括：

采集待测试人脸图像序列；

从该待测试人脸图像序列中提取中性表情与任意一帧非中性表情，组成测试样本对；

采用该表情识别模型根据该测试样本对确定该待测试人脸图像序列的表情类别和表情强度。

作为本发明的进一步改进，该卷积神经网络是类孪生卷积神经网络，该类孪生卷积神经网络包括两个结构相同的卷积神经网络，将该样本对中的中性表情输入到该类孪生卷积神经网络的一个卷积神经网络，将该样本对中的非中性表情输入到该类孪生卷积神经网络的另一个卷积神经网络。

作为本发明的进一步改进，该编码具体包括：

对任意一对该样本对，根据该强度值和离散高斯正态分布获取对应的强度标签分布

具体实现方式为：

其中，

表示当前帧x_t表情强度为k的概率，σ为协方差，Z是归一化参数，Z的作用是保证

y_t是当前帧的表情强度，T为该人脸图像序列的总帧数，K为预设的表情强度可划分的等级总数量；

根据该强度标签分布

得到该样本对的扩展强度标签分布联合编码

该联合编码

包含表情强度信息和表情类型信息，具体形式为：

其中，联合编码

由M组数据表示，每一组数据由长度为K的

编码得到。表示图像xt在第p个强度等级分组上的编码值，当p等于当前序列的类别j时，则用编码，否则用K个0来编码，其中，j为当前序列的表情类型，即：

作为本发明的进一步改进，该类孪生卷积神经网络包括特征提取模块，采用所述特征提取模块从所述训练样本对提取所述中性表情和非中性表情的特征；

该类孪生卷积神经网络还包括第一子任务模块和/或第二子任务模块，采用所述第一子任务模块根据所述非中性表情的特征确定所述非中性表情的表情类型和表情强度，和/或采用所述第二子任务模块根据所述中性表情和非中性表情的差分特征消除身份信息和表情无关信息并确定所述非中性表情的表情类型和表情强度；

通过最优化网络的损失函数来获取该类孪生卷积神经的参数。

作为本发明的进一步改进，该第一子任务模块和第二子任务模块均由两个全连接层组成。

作为本发明的进一步改进，该类孪生卷积神经网络的损失函数包括该第一子任务模块和该第二子任务模块的加权交叉熵损失

和L2归一化损失以及L2正则化项，总损失函数为：

其中γ是正则化项的权重，w代表两个子任务S1和S2中所有的参数，N代表每个训练或测试中窗口的大小，和

的获取方式为：

其中N代表每个训练或测试中窗口的大小,是每个训练样本对的权重值，

是当前样本对的标签信息，

是当前样本在该第一子任务模块的输出，

是该第二子任务模块的输出，

是样本在经过所有卷积层输出的中间特征，θ表示网络中的共享参数，H(·)代表L2归一化，其中的获取方式为：

其中G代表该第一子任务模块和该第二子任务模块中的运算，w₁和w₂分别是该第一子任务模块和该第二子任务模块中运算的参数。

作为本发明的进一步改进，该确定该待测试人脸图像序列的表情类别和表情强度具体是：

将该测试样本对输入到该表情识别模型，该表情识别模型的输出是包含M*K个预测值的序列，M为表情类型数量，K为预设的表情强度可划分的等级总数量；

将该M*K个预测值划分为K组，每组的长度为M，对每组数据求和，求和最大的组编号对应的表情类型即为当前表情图像的类型，组内最大值对应的强度编号即为当前表情图像的强度值，具体实现方式为:

其中，

为获取的待测试图像序列的表情类型，为获取的图像表情强度。

作为本发明的进一步改进，对该训练人脸图像序列和待测试人脸图像序列进行预处理，使每帧表情人脸对齐。

根据本发明的第二方面，提供一种基于表情强度标签分布的面部表情识别装置，包括训练模块和测试模块；

该训练模块包括：

提取模块，用来提取训练人脸图像序列，该训练人脸图像序列包括中性表情和非中性表情在内的多帧表情，获取该训练人脸图像序列的表情类型及每帧表情的表情强度；

训练样本对获取模块，用来将该中性表情分别与该非中性表情组合，获取训练样本对；

表情强度标签获取模块，用来根据该表情类型以及该表情强度，对该训练样本对进行编码获取表情强度标签；

表情识别模型构建模块，用来采用卷积神经网络对该训练样本对和该表情强度标签进行训练，构建表情识别模型；

该测试模块包括：

采集模块，采集待测试人脸图像序列；

测试样本对获取模块，用来从该待测试人脸图像序列中提取中性表情与任意一帧非中性表情，组成测试样本对；

确定模块，用来采用该表情识别模型根据该测试样本对确定该待测试人脸图像序列的表情类别和表情强度。

根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述中任一项方法。

与现有技术相比，本发明的优点和效果在于：

(1)利用强度标签分布对训练数据进行强度和类别的自动编码，有效地解决训练数据缺乏的问题，有利于解决训练表情识别模型时表情强度标签不足或不准确的问题。

(2)同时提出类孪生卷积神经网络对编码的数据进行训练，训练得到的模型能有效抑制个体差异、光照条件等干扰，并能同时估计表情类别和强度，在分类不同强度表情时有较高的分类正确率。

(3)采用端到端的卷积神经网络来估计表情强度，无需手工提取图像特征，能在最大化保留人脸表情信息的同时，消除个体差异以及环境噪声，所用方法大大提高了表情强度的估计的正确率和鲁棒性，同时在大大提高了微表情识别的正确率。

(4)训练了统一的模型同时估计表情的类别和强度，有利于计算机更好的理解人类的情绪，具有较强的现实应用。

附图说明

图1为本发明实施例的一种基于表情强度标签分布的面部表情识别方法的实现流程图；

图2为本发明实施例的基于VGG-Face的类孪生卷积神经网络结构图；

图3为本发明实施例的VGG-Face模型的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例的一种基于表情强度标签分布的面部表情分析方法流程图如图1所示，该方法包括训练部分和测试部分。

所述训练部分包括以下步骤：

(S1)提取样本图像的人脸图像序列，所述训练人脸图像序列包括中性表情和非中性表情在内的多帧表情，获取该训练人脸图像序列的表情类型及每帧表情的表情强度。

人脸图像序列是指有且仅含有一种表情类型，且整个图像序列满足中性表情到峰值表情的演化形式，即图像序列的第一帧为无表情的中性表情图像，最后一帧为表情强度达到最大值的峰值表情图像的图像序列。中性表情，即指面部肌肉在完全放松下的无表情状态。峰值表情，即指面部肌肉拉伸到极致状态下的表情。一个人脸图像序列的表情强度满足单调递增性，即每一帧表情强度大于等于前一帧。

在训练数据中，同一人有多种基本表情序列，本实施例以表情类型有6种，如生气,厌恶,恐惧,高兴,悲伤,惊讶为例说明。从作为训练数据的样本图像流中提取多个人脸图像序列，可以记录每个训练人脸图像序列的表情类型j＝1,…,6,j为表情类型对应值，对应方式为{生气:1,厌恶:2,恐惧:3,高兴:4,悲伤:5,惊讶:6}。可以采用现有的任何技术识别和获取记录表情类型。

优选地，每帧表情的强度值可以通过以下方法获取：根据样本序列表情强度“中性—峰值”演化的特性，x_t为人脸图像序列中第t帧图像。对样本x_t进行线性插值估计，估计样本的强度值。具体计算公式如下：

其中，t∈(0,T-1)，T为当前一个人脸图像序列总帧数，K表示预设的表情强度可划分的等级总数量，假设本例中设置K＝6，因此公式写为：

中性表情，即强度值为0。峰值表情，强度值即为5。

优选地，可对样本图像进行人脸对齐的预处理，使得每帧图像的人脸特征点具有相同的坐标位置。

对作为训练数据的样本图像进行预处理，使用现有人脸检测技术提取每张表情图像的人脸区域；对提取的人脸图像进行仿射变换，实现图像尺度归一化和人脸对齐。变换后，所有图像的尺寸保持一致，所有图像中眼睛的眼睛中心坐标保持一致。

仿射变换将原坐标(x,y)变换为新坐标(x′,y′)计算公式如下：

x′＝m₁₁*x+m₁₂*y+m₁₃

y′＝m₂₁*x+m₂₂*y+m₂₃

其中，(m₁₁,m₁₂,m₁₃；m₂₁,m₂₂,m₂₃)为仿射变换矩阵中的变换参数，通过上面公式可以计算出原图像经过变换后的对齐图像。

(S2)在样本的每个人脸图像序列中，将人脸图像序列中的中性表情分别与非中性表情组合，获得训练样本对。

以每个人脸图像序列包含T帧图像为例，在每个训练人脸图像序列中，将序列中第一帧x₀分别与其它帧(x₁，x₂，…，x_T-1)组合，得到T-1个样本对(x₀，x₁)，(x₀，x₂)，…，(x₀，x_T-1)，由此得到中性表情与非中性表情组合的训练样本对。

(S3)根据步骤S1获得的表情类型以及每帧表情的表情强度，对训练样本对进行编码获得表情强度标签。

根据步骤(S1)给定的表情类型以及估计的强度值y_t，对样本对(x₀，x_t)进行表情强度和类别的自动联合编码。使用该方法得到的自动编码具有以下性质：表情序列中相邻的两个帧具有相似的编码；随着两帧之间的时域距离的增加，编码的相似度降低；软标签同时包含了人脸表情图像的表情强度信息和表情类型信息，作为模型训练过程中的监督信息。

优选地，自动编码方法具体可以采用如下方法：

对任意一对训练样本图像，根据得到的表情强度估计值和离散的高斯正态分布自动编码，得到当前样本对的强度标签分布

具体公式如下：

其中，

y_t是当前帧的表情强度，T为所述人脸图像序列的总帧数，K为预设的表情强度可划分的等级总数量；

以K为6，M为6为例，该公式即为：

然后对得到的强度标签分布

扩展得到样本对图像的扩展强度标签分布联合编码

联合编码包含人脸表情图像的表情强度信息和表情类型信息，具体形式如下：

其中，联合编码由M组数据表示，每一组数据由长度为K的编码得到。

以K为6，M为6为例，该公式即为：

其中，联合编码

由6组数据表示，每一组数据由长度为6的

编码得到。

表示图像x_t在第p个分组上的编码值，当p等于当前序列的类别j时，则用

编码，否则用K个0来编码，其中，j为当前序列的表情类型。即：

以K为6，M为6为例，该公式即为：

使用提出的上述编码方式来表示表情强度的优点包括：(1)采用高斯正态分布对表情强度编码，能抑制对表情强度进行线性估计时产生的噪声；(2)作为一种软编码方式，采用分布而非一个固定的值来编码表情强度，更有利于估计连续表情强度估计；(3)编码向量中对于各强度等级的非零描述，具有数据增强的功能，即在不增加训练数据的情况下，对于某个强度的训练，其相邻强度的训练样本也能起到促进的作用。

(S4)采用卷积神经网络对所述训练样本对和所述表情强度标签进行训练，构建表情识别模型。

优选地，该卷积神经网络可以是类孪生卷积神经网络，将(S2)得到的训练样本对(x₀，x_t)和(S3)自动编码得到的对应编码作为类孪生卷积神经网络的输入，训练得到联合表情识别和表情强度估计的模型。该类孪生卷积神经网络包括两个结构相同的卷积神经网络，将测试样本对中的中性表情输入到该类孪生卷积神经网络的一个卷积神经网络，将测试样本对中的非中性表情输入到该类孪生卷积神经网络的另一个卷积神经网络。

优选地，该类孪生卷积神经网络包括特征提取模块，采用特征提取模块从训练样本对提取中性表情和非中性表情的特征；该类孪生卷积神经网络还包括第一子任务模块和/或第二子任务模块，采用第一子任务模块根据非中性表情的特征确定非中性表情的表情类型和表情强度，和/或采用第二子任务模块根据中性表情和非中性表情的差分特征消除身份信息和表情无关信息并确定非中性表情的表情类型和表情强度。第二子任务模块适用于容易获取到人脸图像序列中的中性表情，可以利用中性表情和非中性表情的差分特征更准确地识别表情强度。当不容易获取到中性表情时，可以仅采用第一子任务模块确定表情强度。

以图2为例说明，构建联合表情识别和表情强度的表情识别模型，该模型是同时包含第一子任务模块S1和第二子任务模块S2的最优示例。构建的模型可同时处理两张图像所构成的样本对，模型前端为特征提取主干网，由多个卷积层和池化层构成，通过参数共享方式用于分别从两张图像中提取特征，然后在第一个全连接层加入差分层，计算二者之间的差分特征。两个卷积神经网络所有卷积层和第一个全连接层的参数共享，将所有参数共享层定义为参数共享模块。非中性表情经过参数共享模块的输出，送入子任务S1，从而通过子任务S1从单个非中性表情样本估计表情的类别和强度；两个卷积神经网络分别经过参数共享模块后的输出作差分，送入子任务S2，从而利用差分消除身份信息和表情无关信息并确定该非中性表情的表情类型和表情强度。通过最优化网络的损失函数来求取网络中的参数。其中CONV表示卷积层模块，FC表示全连接层模块。网络模型的参数由预训练的模型进行初始化。

优选地，所述子任务S1,S2均由两个全连接层组成。

优选地，所述类孪生卷积神经网络的损失函数包括子任务S1和子任务S2的加权交叉熵损失

和

L2归一化损失

以及L2正则化项，总损失函数公式如下：

的获取方式为：

其中N代表每个训练或测试中窗口的大小,

是每个训练样本对的权重值，

是当前样本对的标签信息，

是当前样本在所述第一子任务模块的输出，是所述第二子任务模块的输出，是样本在经过所有卷积层输出的中间特征，θ表示网络中的共享参数，H(·)代表L2归一化，其中

的获取方式为：

其中G代表所述第一子任务模块和所述第二子任务模块中的运算，w₁和w₂分别是所述第一子任务模块和所述第二子任务模块中运算的参数。

所述步骤(S4)所采用的类孪生卷积神经网络可以是VGGNET、GoogleNet、ResNet中的一种。其中，VGGNET是牛津大学计算机视觉组和DeepMind公司共同研发一种深度卷积网络。GoogLeNet(也称InceptionNet)是2014年Christian Szegedy提出的一种全新的深度学习结构，它使用1x1的卷积来进行升降维同时在多个尺寸上进行卷积再聚合，能更高效的利用计算资源，在相同的计算量下能提取到更多的特征，从而提升训练结果。ResNet在2015年被微软研究院团队研究员何恺明提出，在ImageNet的classification、detection、localization以及COCO的detection和segmentation上均斩获了第一名的成绩。

将步骤(S2)组建的样本对以及该样本对由步骤(S3)产生的编码输入步骤(S4)构建的类孪生卷积神经网络进行训练，训练过程使用SGD算法对交叉熵损失函数进行最优化，并对全连接层特征进行归一化，得到联合表情识别和表情强度估计的表情识别模型。

所述在线测试部分包括以下步骤：

(T1)采集待测试人脸图像序列。

采集待测人员的测试人脸图像序列，采集方式为摄像头实时采集或从文件中读取。可以对测试图像序列的每一帧进行人脸检测和人脸对齐，得到表情序列。

(T2)从该待测试人脸图像序列中提取中性表情与任意一帧非中性表情，组成测试样本对；

从测试人脸图像序列中提取任意一帧x_t,t∈(1,T-1)与参考中性表情图像x₀组成表情测试样本对(x₀，x_t)。当测试人脸图像的中性表情难以获得时，也可以仅使用图2中的子任务S1预测单张测试样本的表情类型和表情强度。

(T3)基于构建的表情识别模型，根据测试样本对确定该待测试人脸图像序列的表情类别和表情强度。

将所述测试样本对输入到该表情识别模型，则该表情识别模型的输出是包含M*K个预测值的序列，M为表情类型数量，K为预设的表情强度可划分的等级总数量；

将所述M*K个预测值划分为K组，每组的长度为M，对每组数据求和，求和最大的组编号对应的表情类型即为当前表情图像的类型，组内最大值对应的强度编号即为当前表情图像的强度值，具体实现方式为:

其中，

为获取的待测试图像序列的表情类型，

为获取的图像表情强度。

仍然以K＝6，M＝6为例说明，将表情分类测试样本对送入训练得到的表情识别模型中，得到的输出是由36个预测值组成的列表，将该向量等分为6组，每组长度为6，这6个组对应6种表情类型，分别求和得到和最大的向量所对应的表情类型即为测试人脸图像的表情类型。

求和最大的向量中，其组内最大值所对应的强度即为测试人脸图像的表情强度值。即按照以下公式计算图像的类别和强度:

其中，

为估计得到的图像表情类型，

为估计得到的图像表情强度，本例中表情类型为{1,2,3,4,5,6}，表情强度划分等级为{0,1,2,3,4,5}。

下面以一具体应用为例说明。

采用卡内基梅隆大学创建的CK+表情库，包含123个18-30岁的成年人，共计593个表情序列，其中65％为女性，35％为男性。本发明从123个人中选择选取96个人，每人至少含有2个基本表情序列，采用10折交叉验证的方式，每次选择其中86个人用于训练，其余10个人用于测试。具体实现步骤如下：

1.对人脸表情图像进行预处理

(1.1)使用Viola和Jones提出的类Haar特征和adaboost学习算法来检测每张表情图像的人脸区域；

(1.2)对步骤(1.1)提取的人脸图像进行仿射变换，实现图像尺度归一化和人脸对齐。变换后，所有图像的尺寸归一化至224×224，所有图像中眼睛的中心坐标保持一致，图中左眼坐标均为(63,63)，右眼坐标均为(161,63)；根据变换前后眼睛的坐标求取变换参数(m₁₁,m₁₂,m₁₃；m₂₁,m₂₂,m₂₃)。仿射变换将原坐标(x,y)变换为新坐标(x′,y′)，计算公式如下：

x′＝m₁₁*x+m₁₂*y+m₁₃

y′＝m₂₁*x+m₂₂*y+m₂₃

通过上面公式可以计算出原图像经过变换后的新图像。

2.建立每个样本软标签的标签库，按照步骤(S2)方法组成样本对，得到训练样本库。

将用于训练的86个人的序列组成的训练样本库，按照步骤(S3)所述方法，分别对高兴、生气、恐惧、悲伤、厌恶、惊讶6类表情的每个人的样本对自动编码。

3.训练类孪生卷积神经网络

类孪生卷积神经网络的输入为来自训练样本对的两张图片(x₀,x_t)。网络的前端为特征提取主干网，使用VGG-Face深度模型，VGG-Face模型来自牛津大学VGG小组的工作，由VGG-16深度卷积神经网络对百万数量级的人脸样本训练得到，VGG-face结构参见附图3，包含多个卷积层和一个全连接层(FC6)，分别提取图片x₀和x_t的特征，所提取的特征用F(x₀；θ)和F(x_t；θ)表示，其中F表示经过特征提取主干网(卷积层和FC1层)对图像进行的一系列特征提取操作，θ为特征主干网中的网络权值。将两个FC1层的输出相减构成差分层，差分层的输出为：d_t＝F(x_t；θ)-F(x₀；θ)。差分层后再接两个全连接层(FC7和FC8)。

两个全连接层的操作用G表示。子任务S1和S2的输出可表示为:

S₁(x_t)＝G(F(x_t；θ),w₁)

S₂(x₀,x_t)＝G(d_t；w₂)＝G(F(x_t；θ)-F(x₀；θ),w₂)

其中，w₁,w₂为子任务S1和子任务S2全连接层FC7和FC8层的参数。模型的参数θ和w₁,w₂采用预训练的VGG-face进行初始化，然后使用SGD算法对交叉熵损失函数进行最优化，求解参数θ和w₁,w₂。

4.利用类孪生卷积神经网络估计表情类别和强度

将用于测试的10个人按照步骤(T2)组建表情分类测试样本，输入训练好的联合模型中，根据(T3)即可估计出测试样本的表情类型和表情强度。

应用上述步骤得到的分类器进行表情分析，在CK+库上的弱表情识别率为90.70％，从第2帧到最后一帧的总识别率为95.57％。PCC,ICC,MAE分别为0.7802，0.7436，0.1595，优于现有利用深度模型得到的结果，表明本发明有效的抑制种族、性别、年龄等人体差异对表情识别造成的干扰。

本发明实施例的一种基于表情强度标签分布的面部表情识别装置，包括训练模块和测试模块，

所述训练模块包括：

提取模块，用来提取训练人脸图像序列，所述训练人脸图像序列包括中性表情和非中性表情在内的多帧表情，获取所述训练人脸图像序列的表情类型及每帧表情的表情强度；

训练样本对获取模块，用来将所述中性表情分别与所述非中性表情组合，获取训练样本对；

表情强度标签获取模块，用来根据所述表情类型以及所述表情强度，对所述训练样本对进行编码获取表情强度标签；

表情识别模型构建模块，用来采用卷积神经网络对所述训练样本对和所述表情强度标签进行训练，构建表情识别模型；

所述测试模块包括：

采集模块，采集待测试人脸图像序列；

测试样本对获取模块，用来从所述待测试人脸图像序列中提取中性表情与任意一帧非中性表情，组成测试样本对；

确定模块，用来采用所述表情识别模型根据所述测试样本对确定所述待测试人脸图像序列的表情类别和表情强度。

该面部表情识别装置其实现原理和技术效果与上述面部表情识别方法类似，此处不再赘述。

为了实现上述实施例，本发明实施例还提出一种电子设备，包括：处理器和存储器。其中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。

存储器中存储有计算机程序，计算机程序被处理器执行时可以实现上述任一面部表情识别方法实施例的技术方案。存储器中存储有执行上述面部表情识别的计算机程序，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

处理器可以是一种集成电路芯片，具有信号的处理能力。处理器在接收到执行指令后，执行程序。可选地，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

本实施例提供的电子设备，可以用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一面部表情识别方法的技术方案。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于表情强度标签分布的面部表情识别方法，包括训练步骤和测试步骤，其特征在于：

所述训练步骤包括：

提取训练人脸图像序列，所述训练人脸图像序列包括中性表情和非中性表情在内的多帧表情，获取所述训练人脸图像序列的表情类型及每帧表情的表情强度；

将所述中性表情分别与所述非中性表情组合，获取训练样本对；

根据所述表情类型以及所述表情强度，对所述训练样本对进行编码获得表情强度标签；

采用卷积神经网络对所述训练样本对和所述表情强度标签进行训练，构建表情识别模型；

所述测试步骤包括：

采集待测试人脸图像序列；

从所述待测试人脸图像序列中提取中性表情与任意一帧非中性表情，组成测试样本对；

采用所述表情识别模型根据所述测试样本对确定所述待测试人脸图像序列的表情类别和表情强度。

2.如权利要求1所述的一种基于表情强度标签分布的面部表情识别方法，其特征在于：

所述卷积神经网络是类孪生卷积神经网络，所述类孪生卷积神经网络包括两个结构相同的卷积神经网络，将所述样本对中的中性表情输入到所述类孪生卷积神经网络的一个卷积神经网络，将所述样本对中的非中性表情输入到所述类孪生卷积神经网络的另一个卷积神经网络。

3.如权利要求1或2所述的一种基于表情强度标签分布的面部表情识别方法，其特征在于，所述编码具体包括：

对任意一对所述样本对，根据所述强度值和离散高斯正态分布获取对应的强度标签分布

具体实现方式为：

其中，

根据所述强度标签分布

得到所述样本对的扩展强度标签分布联合编码

所述联合编码

包含表情强度信息和表情类型信息，具体形式为：

其中，联合编码

由M组数据表示，每一组数据由长度为K的

编码得到。

表示图像x_t在第p个强度等级分组上的编码值，当p等于当前序列的类别j时，则

用

编码，否则用K个0来编码，其中，j为当前序列的表情类型，即：

4.如权利要求2所述的一种基于表情强度标签分布的面部表情识别方法，其特征在于：

所述类孪生卷积神经网络包括特征提取模块，采用所述特征提取模块从所述训练样本对提取所述中性表情和非中性表情的特征；

所述类孪生卷积神经网络还包括第一子任务模块和/或第二子任务模块，采用所述第一子任务模块根据所述非中性表情的特征确定所述非中性表情的表情类型和表情强度，和/或采用所述第二子任务模块根据所述中性表情和非中性表情的差分特征消除身份信息和表情无关信息并确定所述非中性表情的表情类型和表情强度；

通过最优化网络的损失函数来获取所述类孪生卷积神经的参数。

5.如权利要求4所述的一种基于表情强度标签分布的面部表情识别方法，其特征在于：

所述第一子任务模块和第二子任务模块均由两个全连接层组成。

6.如权利要求4或5所述的一种基于表情强度标签分布的面部表情识别方法，其特征在于：

所述类孪生卷积神经网络的损失函数包括所述第一子任务模块和所述第二子任务模块的加权交叉熵损失

和

L2归一化损失

以及L2正则化项，总损失函数为：

其中γ是正则化项的权重，w代表两个子任务S1和S2中所有的参数，N代表每个训练或测试中窗口的大小，

和

的获取方式为：

其中N代表每个训练或测试中窗口的大小，

是每个所述训练样本对的权重值，

是当前所述样本对的标签信息，

是当前样本在所述第一子任务模块的输出，

是所述第二子任务模块的输出，

是样本在经过所有卷积层输出的中间特征，θ表示网络中的共享参数，H(·)代表L2归一化，其中

的获取方式为：

7.如权利要求3所述的一种基于表情强度标签分布的面部表情识别方法，其特征在于：

所述确定所述待测试人脸图像序列的表情类别和表情强度具体是：

将所述测试样本对输入到所述表情识别模型，所述表情识别模型的输出是包含M*K个预测值的序列，M为表情类型数量，K为预设的表情强度可划分的等级总数量；

将所述M*K个预测值划分为K组，每组的长度为M，对每组数据求和，求和最大的组编号对应的表情类型即为当前表情图像的类型，组内最大值对应的强度编号即为当前表情图像的强度值，具体实现方式为：

其中，

为获取的待测试图像序列的表情类型，

为获取的图像表情强度。

8.如权利要求1或2所述的一种基于表情强度标签分布的面部表情识别方法，其特征在于：

对所述训练人脸图像序列和待测试人脸图像序列进行预处理，使每帧表情人脸对齐。

9.一种基于表情强度标签分布的面部表情识别装置，包括训练模块和测试模块，其特征在于：

所述训练模块包括：

所述测试模块包括：

采集模块，采集待测试人脸图像序列；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。