CN110147822B

CN110147822B - 一种基于人脸动作单元检测的情绪指数计算方法

Info

Publication number: CN110147822B
Application number: CN201910303586.1A
Authority: CN
Inventors: 樊亚春; 税午阳; 程厚森
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2021-04-02
Anticipated expiration: 2039-04-16
Also published as: CN110147822A

Abstract

本发明属于人脸识别以及情感计算技术领域技术领域，具体涉及一种基于人脸动作单元检测的情绪指数计算方法，具体步骤包括：建立待训练数据集，形成人脸动作单元数据库；人脸动作单元动作强度检测；计算情绪指数；本发明实现了通过面部表情所表达的情绪过程，能够更加准确客观的传达细节信息，更能弥补语言所不能描述和传达的深邃信息，尤其对语言表达障碍及无法正常获取语言信息的情景应用提供了一种非常可行的方案。

Description

一种基于人脸动作单元检测的情绪指数计算方法

技术领域

本发明涉及人脸识别以及情感计算技术领域技术领域，具体涉及一种基于人脸动作单元检测的情绪指数计算方法。

背景技术

情绪是日常生活中最为普遍的一种现象，对于有情感波动的人类来说，情绪变化随处可见，它是个体对于周围环境的一种内心感受的反映。它给人们带来快乐和满足，同时也带来了不满和失望。情绪变化影响了个体的行为和决定，通过情绪指数的自动计算能够探知人们的心理需求和变化，指导专业领域应用。而情绪指数计算可以应用于刑侦、司法、医学、教育、安全、商业等人们从事的各行各业中。情绪可以干涉甚至破坏正常的认知和体验过程，反之认知体验会发动和改变情绪的表现。犯罪刑侦中，审讯员可以通过环境和语言的诱导观察嫌疑人的情绪指数判断其心理动向，得到犯罪过程有利信息；医生可以通过治疗过程中病人的情绪指数了解其真实的内心感受，从而有针对性的对病人进行治疗；无人销售商场或电子商城中都可以通过监控中消费者的情绪变化了解其真实购买意图。

人脸动作单元(Action Unit，AU)是由美国心理学家保罗·艾克曼(Paul·Ekman)提出，将人类表达情感的脸部及身体动作划分成若干独立的单元，既有心理学的理论依据又有运动学的支持，是目前研究人类情感最为基础的理论之一。

情绪自动计算不仅是计算机技术问题，还涉及到生理学及心理学。目前对于情绪的度量分为两种形式，一个是连续度量方法，最早由冯特(Wundt)于1896年提出，将情绪按照三个维度的连续量衡量，每一个情绪均处于三维空间的某个位置，三个维度分别是愉快-不愉快，紧张-松弛，兴奋-沉静，现有连续度量方法均在此方法基础上演化而来，例如施落泊格 (Schosberg)对面部表情的情绪度量提出愉快-不愉快，注意-拒绝以及激活度三个维度进行。另外一种是离散方法，最早由艾克曼(Ekman)于1966年归纳提出，认为人的表情分为六种基本表情：愤怒，恐惧，快乐，伤心，厌恶，惊讶。这种离散分类方法影响深远，被广泛应用于情绪识别和度量实验中，在此基础上众多学者们更提出了结合具体应用的离散度量方式，例如结合教学应用，增加了专注，沉思等情绪分类。基于多维度空间连续度量方式强调准确度量，难度较大，且维度之间的重叠较难兼顾；离散度量通俗易用但却不够准确，有较多情绪不能有效表达。

如中国专利号CN 201710602227.7的专利公布了基于多任务学习与深度学习的人脸情绪分析方法及系统，包括利用卷积神经网络学习人脸库中预设的分析任务的卷积层，得到人脸分析模型；获取待分析人脸图像，利用人脸检测算法对所述待分析人脸图像进行分析，提取待分析人脸图像中人脸区域；利用所述人脸分析模型对所述待分析人脸图像进行预测，得到所述待分析人脸图像中每个人脸区域对应的情绪信息。本发明应用多任务学习的概念于卷积神经网络上，使得多种和人脸相关的分析任务，可以用同一个分析模型来识别，如此可以减少分析模型的大小和加快识别的时间。另外，该发明针对人脸的不同部位用不同的卷积层来描述，使得各卷积层的任务较单一且专精，可以达到更好的识别效果。但是并没有提出一种基于人脸动作单元检测的情绪指数计算方法及系统。

中国专利申请号为：CN201811076388.8的专利公布了一种基于深度卷积神经网络的人脸微表情动作单元检测方法，其中公布了关于人脸特征点的位置以及动作单元的划分。本申请采用了其技术内容并做了补充。

发明内容

本发明的目的是针对现有技术的不足，本发明的目的在于提供一种基于人脸动作单元检测的情绪指数计算方法，用深度学习方法检测人脸动作单元及其强度，建立数学模型计算情绪指数，用-1到1之间的一个一维连续值度量人脸表情所要表达的情绪，兼顾了离散情绪度量和连续情绪度量的优点，能够通过连续数值较为准确的表达情绪状态，且计算原理简单准确度高。

本发明解决问题的技术方案是：

一种基于人脸动作单元检测的情绪指数计算方法，包括如下具体步骤：

步骤1，建立待训练数据集，形成人脸动作单元数据库：

通过对抗生成网络生成数据库中人脸表情图像，标注人脸特征点，标注过程按照有监督的下降方法(SupervisedDescentMethod)完成。通过人脸特征点信息标注人脸位置区域及人脸动作单元，形成待训练数据集；

按照Ekman定义描述方法将每个人脸动作单元的动作强度分为{1,2,3,4,5}五个等级；

步骤2：人脸动作单元动作强度检测：

步骤2.1：基于谱聚类及无位置交叠的预定义检测形状框：

在步骤1的基础上，根据人脸的AU得到其AU变化的位置区域，将这些位置区域称为训练框数据，对所有的训练框数据利用谱聚类方法并根据人脸及人脸动作单元形状特点自动分为6类，取每类的中心的长宽值作为预定义框位置信息；

步骤2.2，检测并优化人脸动作单元动作强度：

将不同强度的同一个人脸动作单元分别作为不同的待检测分类，基于深度网络学习算法检测后对一张表情人脸图片，输出不同人脸动作单元强度分类概率；按照所有同一人脸动作单元中概率值最高的动作强度作为该人脸中此动作单元的动作强度分类值，具体动作强度分类值计算公式为：

此AU所确定的强度t，最终的概率计算式为：

其中，t为动作强度分类值，p_i为强度为i时的识别概率值；

步骤3，计算情绪指数：

步骤3.1：建立人脸动作单元到人脸离散表情的关系映射，根据表情中包含的人脸动作单元的发生概率建立表情相关度矩阵W；

步骤3.2：定义表情权值向量C：

定义表情权值向量来表示不同情绪对情绪指数影响的具体程度，向量C_19×1为表情权值矩阵；

步骤3.3：根据人脸动作单元识别结果，构建动作单元矩阵：

采用步骤2中的深度学习网络对当前人脸进行人脸动作单元的检测，得到当前存在的人脸动作单元概率向量P、人脸动作单元强度向量T，转置合并后形成人脸动作单元矩阵A；

步骤3.4，构建情绪相关度矩阵F：

通过表情相关度矩阵W和表情权值向量C的联合计算，建立情绪值和人脸动作单元之间的映射关系，通过下式建立情绪向量R_17×1：

R＝W′·C

其中，W′是表情相关度矩阵W的转置；

情绪相关度矩阵F_17×3用以进行情绪指数的计算：

F＝[A R]

它由情绪向量和动作单元矩阵联合组成，矩阵的三个列向量均表示了人脸动作单元和情绪的关系，表达了统计意义以及当前人脸上的人脸动作单元的分布情况；

步骤3.5，进行情绪相关度矩阵F标准化：

为了将情绪相关度矩阵F中不同列向量进行统一处理，对情绪相关矩阵进行标准化处理，将所有列向量进行归一化，如下式所示：

其中，

表示情绪相关度矩阵中的第j列第i行的元素，μ_j为第j列的均值，s_j为第j列的标准差；

步骤3.6，计算情绪相关度矩阵F的协方差矩阵并进行特征值特征向量求取，并计算情绪指数；

情绪相关度矩阵F表达了从不同角度上动作单元对当前情绪的影响程度，为了计算该矩阵的特征用于情绪指数计算，首先对计算情绪相关度矩阵的协方差矩阵：

其中，m＝17，为人脸动作单元个数；

利用奇异值分解方法计算该协方差矩阵的特征值及特征向量，并选择最大特征值λ及对应的特征向量V；

在特征向量和特征值计算基础上建立情绪指数h计算模型如下：

其中，v_i表示特征向量的第i项值；计算得到的情绪指数h其取值区间在【-1，1】；指数 1表示愉快，指数-1表示伤心，中间指数则按照表情从惊讶、厌恶、恐惧、愤怒的规律连续分布。

进一步的地，步骤3.1中，建立表情相关度矩阵W的具体步骤包括：

设定离散表情包括六种基本表情：快乐，惊讶，厌恶，伤心，恐惧，愤怒；中性表情；十二种组合表情：快乐惊讶、快乐厌恶、惊讶伤心、惊讶厌恶、厌恶伤心、伤心恐惧、伤心愤怒、惊讶恐惧、厌恶恐惧、恐惧愤怒、惊讶愤怒、厌恶愤怒；

对于19种表情，按照17种人脸动作单元的发生频率，统计得出其发生概率并建立表情相关度矩阵W_19×17；

矩阵中列向量表示17种人脸动作单元的发生频率，对应的人脸动作单元分别为：AU1， AU2，AU4，AU5，AU6，AU7，AU9，AU10，AU11，AU12，AU15，AU17，AU20，AU23， AU24，AU25，AU26；

矩阵中行向量则表示十九种表情按照影响情绪指数强度从大到小顺序分别是：快乐，快乐惊讶，惊讶，快乐厌恶，惊讶厌恶，厌恶，中性，惊讶恐惧，厌恶恐惧，恐惧，惊讶愤怒，厌恶愤怒，恐惧愤怒，愤怒，惊讶伤心，厌恶伤心，恐惧伤心，愤怒伤心，伤心。

进一步地，步骤3.2中，表情权值向量C具体的权值定义如下：

其中，第一行为1是快乐表情的权值，第19行值为-1为伤心表情的权值，而第7行值为 0属于中性表情的权值。

进一步地，步骤3.3中，人脸动作单元矩阵A的具体计算步骤如下：

将概率值小于检测阈值的人脸动作单元筛查掉，将其检测概率及强度均置为0，则人脸动作单元概率向量为P＝[p₁，...，p_i，...p_M]，其中，p_i为动作单元i在当前人脸上出现的概率， M＝17表示动作单元个数，且动作单元概率值必须要大于阈值ε，即p_i＞ε，否则其值置为0，这样做的目的是防止深度网络中对于动作单元的误检：

人脸动作单元强度向量T＝[t₁，...，t_i，...t_M]，M＝17，表示每个人脸动作单元在当前人脸上出现时其强度值，当人脸动作单元检测概率小于其阈值时，强度向量对应的值置为0；

其中，人脸动作单元强度t_i按照由弱到强取值分别为{0，1，2，3，4，5}，其中0表示当前人脸没有此动作单元出现或者其检测概率值小于阈值ε，1-5则等价于动作单元的强度值；

将人脸动作单元概率向量P和人脸动作单元强度向量T合并后形成人脸动作单元矩阵 A_17×2如下：

A＝[P′T′]

其中，P′和T′分布表示向量P和T的转置。

相对于现有技术，本发明的有益效果是：

本发明的技术方案基于预先获取待训练数据集构建人脸动作单元数据库；基于人脸动作单元数据库通过深度学习算法和强度概率值辅助的分类确定方法优化检测结果；并基于检测结果通过预先构建的情绪指数计算模型计算情绪指数。实现了通过面部表情所表达的情绪过程，能够更加准确客观的传达细节信息，更能弥补语言所不能描述和传达的深邃信息，尤其对语言表达障碍及无法正常获取语言信息的情景应用提供了一种非常可行的方案。

本发明的技术方案利用深度学习方法检测人脸动作单元及其强度，建立数学模型计算情绪指数，用-1到1之间的一个一维数值度量人脸表情所要表达的情绪，能够通过连续数值较为准确的表达情绪状态。该技术方案同时兼顾了离散情绪度量和连续情绪度量的优点，且计算原理简单准确度高。

附图说明

图1是本发明的一种基于人脸动作单元检测的情绪指数计算方法流程示意图；

具体实施方式

下面结合说明书附图对本发明内容作进一步详细说明。

如图1所述的一种基于人脸动作单元检测情绪指数计算方法包括：

步骤1，建立待训练数据集，形成人脸动作单元数据库：

通过对抗生成网络生成数据库中人脸表情图像，标注人脸特征点，标注过程按照有监督的下降方法(Supervised Descent Method，Xuehan Xiong,Fernando De la Torre；The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013,pp.532-539)完成。通过人脸特征点信息标注人脸位置区域及人脸动作单元，形成待训练数据集；

在中国专利申请号为：CN201811076388.8的基础上，进一步增加3个人脸动作单元AU10、 AU11、AU24。

对于AU10，其所描述的动作单元主要以上唇中间垂直向上拉为特点，不仅包括上唇动作，还包括脸颊沟的皱起和加深变化，因此其局部区域的定义如下：以第36号特征点的X 坐标作为局部矩形区域左上顶点的X坐标，以第28号特征点的Y坐标作为左上顶点的Y坐标，以第45号特征点的X坐标作为矩形区域的右下顶点的X坐标，以第64号特征点的Y 坐标作为矩形区域的右下顶点的Y坐标。

对于AU11，其所描述的动作单元主要以上唇的轻微提升和横移为主，位置主要体现在鼻唇沟附近，因此其局部区域的定义如下：以第45号特征点的X坐标作为局部矩形区域左上顶点的X坐标，以第33号特征点的Y坐标作为左上顶点的Y坐标，以第54号特征点的X 坐标作为矩形区域的右下顶点的X坐标，以第61号特征点的Y坐标作为矩形区域的右下顶点的Y坐标。

对于AU24，其所描述的动作单元主要以上唇和下唇的挤压为主，位置主要体现在唇部但范围较唇部区域稍大，因此其局部区域的定义如下：以第36号特征点的X坐标作为局部矩形区域左上顶点的X坐标，以第33号特征点的Y坐标作为左上顶点的Y坐标，以第45 号特征点的X坐标作为矩形区域的右下顶点的X坐标，以第10号特征点的Y坐标作为矩形区域的右下顶点的Y坐标。

按照Ekman定义描述方法将每个人脸动作单元的动作强度分为五个等级，由弱到强分为 {0,1,2,3,4,5}共5档。

步骤2：人脸动作单元动作强度检测：

步骤2.1：基于谱聚类及无位置交叠的预定义检测形状框：

对所有的训练框数据利用谱聚类方法进行自动分类，取分类中心的长宽值作为预定义框位置信息，根据人脸及人脸动作单元形状特点将分类定义为六类；

利用谱聚类方法进行自动分类的具体步骤如下：

1)从待训练数据集中载入所有的人脸动作单元及人脸位置框信息，并生成邻接矩阵A；

采用无位置交叠法(IOUNP)计算两个位置框之间的距离，计算式如下：

其中，R表示位置框，R＝{r_x,r_y,r_w,r_h}，包括框的起始位置坐标(r_x,r_y)、长r_w、宽r_h；

式中分子表示两个框的交，此交集去除了位置影响，其计算方法为:

R₁∩R₂＝min(r_1w,r_2w)*min(r_1h,r_2h)

而分母则表示两个框的面积和与其交的差，其计算方式为：

R₁∪R₂＝r_1w*r_1h+r_2w*r_2h-R₁∩R₂；

2)利用邻接矩阵每一行的总和形成对角矩阵D，并通过计算两个矩阵的差值得到拉普拉斯矩阵L＝A-D；

3)对L的最小两组特征向量进行K均值聚类得到最终六组形状框的长宽值。

步骤2.2，检测并优化人脸动作单元动作强度：

相较于之前的动作单元检测方法，本发明中涉及情绪指数计算因此不仅需要检测人脸动作单元的发生及其位置还要检测人脸动作单元发生的强度。

将动作单元强度检测看做一个分类问题而不是回归问题来处理，也就是将不同强度的同一个动作单元分别作为不同的待检测分类。对于一张表情人脸图片，由基于深度网络学习算法检测后，输出不同AU强度的分类概率。但是由于算法的局限性，同时引发的一个问题是在同一个AU位置可能会检测出其不同强度的概率值，而对于同一AU不可能同时具有不同强度的属性。例如对于AU12嘴角上扬，算法可能即检测出AU12强度为2的分类概率为30％，又检测出AU12强度为3的分类78％。此时需要通过利用动作强度概率值辅助进行最终分类确定。我们的分类方法是按照所有同一人脸动作单元中概率值最高的动作强度作为该人脸中此动作单元的动作强度分类值，具体计算公式为：

其中p_i为强度为i时的识别概率值；也就是对于人脸表情中的同一AU来说当前只有一种强度，即强度为t,其分类概率在同AU的所有强度分类中概率最大。

而对于此AU所确定的强度t，最终的概率由其自身概率和各个强度概率值的贡献共同得到，即由下式进行计算：

步骤3，计算情绪指数：

矩阵中行向量则表示十九种表情按照影响情绪指数强度从大到小顺序分别是：快乐，快乐惊讶，惊讶，快乐厌恶，惊讶厌恶，厌恶，中性，惊讶恐惧，厌恶恐惧，恐惧，惊讶愤怒，厌恶愤怒，恐惧愤怒，愤怒，惊讶伤心，厌恶伤心，恐惧伤心，愤怒伤心，伤心；

从矩阵中可以看出，中性表情即第七个行向量为中性表情，与其相关的动作单元发生概率均为0，也就是说中性表情下用户没有任何的动作单元变化，这符合人们对表情的描述及 Ekman对于动作单元的定义。

步骤3.2：定义表情权值向量C：

定义表情权值向量来表示不同情绪对情绪指数影响的具体程度，用向量C_19×1为表情权值矩阵，其具体的权值定义如下，其中第一行为1是快乐表情的权值，第19行值为-1为伤心表情的权值，而第7行值为0属于中性表情的权值：

步骤3.3：根据人脸动作单元识别结果，构建动作单元矩阵：

人脸动作单元强度向量T＝[t₁...，t_i，...t_M]，M＝17，表示每个人脸动作单元在当前人脸上出现时其强度值，当人脸动作单元检测概率小于其阈值时，强度向量对应的值置为0；

A＝[P′T′]

其中，P′和T′分布表示向量P和T的转置。

步骤3.4，构建情绪相关度矩阵F：

以表情相关度矩阵W作为基础统计规律，定义离散表情到连续情绪的权值向量C，并依据当前人脸动作单元的发生概率和强度向量A构建情绪相关度矩阵F，求取相关矩阵特征模型计算连续情绪指数h；

R＝W′·C

其中，W′是表情相关度矩阵W的转置；

情绪相关度矩阵F_17×3用以进行情绪指数的计算：

F＝[A R]

步骤3.5，进行情绪相关度矩阵F标准化：

其中，

其中，m＝17，为人脸动作单元个数；

其中，v_i表示特征向量的第i项值；计算得到的情绪指数h其取值区间在【-1，1】；指数 1表示愉快，指数-1表示伤心，而中间指数则按照表情从惊讶、厌恶、恐惧、愤怒的规律连续分布；实现了对人脸表情的连续情绪指数计算。

本发明并不限于上述实施方式，在不背离本发明实质内容的情况下，本领域技术人员可以想到的任何变形、改进、替换均落入本发明的保护范围。

Claims

1.一种基于人脸动作单元检测的情绪指数计算方法，其特征在于，包括如下具体步骤：

步骤1，建立待训练数据集，形成人脸动作单元数据库：

通过对抗生成网络生成数据库中人脸表情图像，标注人脸特征点，标注过程按照有监督的下降方法(Supervised Descent Method)完成，通过人脸特征点信息标注人脸位置区域及人脸动作单元，形成待训练数据集；

按照Ekman定义描述方法将每个人脸动作单元的动作强度分为{1，2，3，4，5}五个等级；

步骤2：人脸动作单元动作强度检测：

步骤2.1：基于谱聚类及无位置交叠的预定义检测形状框：

在步骤1的基础上，根据人脸的人脸动作单元得到其人脸动作单元变化的位置区域，将这些位置区域称为训练框数据，对所有的训练框数据利用谱聚类方法并根据人脸及人脸动作单元形状特点自动分为6类，取每类的中心的长宽值作为预定义框位置信息；

步骤2.2，检测并优化人脸动作单元动作强度：

此人脸动作单元所确定的强度t，最终的概率计算式为：

其中，t为动作强度分类值，p_i为强度为i时的识别概率值；

步骤3，计算情绪指数：

步骤3.2：定义表情权值向量C：

步骤3.3：根据人脸动作单元识别结果，构建动作单元矩阵：

步骤3.4，构建情绪相关度矩阵F：

R＝W′·C

其中，W′是表情相关度矩阵W的转置；

情绪相关度矩阵F_17×3用以进行情绪指数的计算：

F＝[A R]

步骤3.5，进行情绪相关度矩阵F标准化：

其中，

其中，m＝17，为人脸动作单元个数；

其中，v_i表示特征向量的第i项值；计算得到的情绪指数h其取值区间在【-1，1】；指数1表示愉快，指数-1表示伤心，中间指数则按照表情从惊讶、厌恶、恐惧、愤怒的规律连续分布。

2.根据权利要求1所述的一种基于人脸动作单元检测的情绪指数计算方法，其特征在于，所述步骤3.1中，建立表情相关度矩阵W的具体步骤包括：

矩阵中列向量表示17种人脸动作单元的发生频率，对应的人脸动作单元分别为：AU1，AU2，AU4，AU5，AU6，AU7，AU9，AU10，AU11，AU12，AU15，AU17，AU20，AU23，AU24，AU25，AU26；

3.根据权利要求1所述的一种基于人脸动作单元检测的情绪指数计算方法，其特征在于，所述步骤3.2中，表情权值向量C具体的权值定义如下：

其中，第一行为1是快乐表情的权值，第19行值为-1为伤心表情的权值，而第7行值为0属于中性表情的权值。

4.根据权利要求1所述的一种基于人脸动作单元检测的情绪指数计算方法，其特征在于，所述步骤3.3中，人脸动作单元矩阵A的具体计算步骤如下：

将概率值小于检测阈值的人脸动作单元筛查掉，将其检测概率及强度均置为0，则人脸动作单元概率向量为P＝[p₁，...，p_i，...p_M]，其中，p_i为动作单元i在当前人脸上出现的概率，M＝17表示动作单元个数，且动作单元概率值必须要大于阈值ε，即p_i＞ε，否则其值置为0，这样做的目的是防止深度网络中对于动作单元的误检：

将人脸动作单元概率向量P和人脸动作单元强度向量T合并后形成人脸动作单元矩阵A_17×2如下：

A＝[P′T′]

其中，P′和T′分布表示向量P和T的转置。