CN110580457A

CN110580457A - 一种基于面部显著特征的情感分析方法

Info

Publication number: CN110580457A
Application number: CN201910778975.XA
Authority: CN
Inventors: 孙强; 刘磊; 张龙涛
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-12-17

Abstract

本发明公开的一种基于面部显著特征的情感分析方法，包括输入图像，消除图像中头部倾斜，得到对齐后的面部图像；提取对齐后的面部图像的面部显著区域特征；随后融合以及选择，剔除情感无关因素的影响，筛选情感特征；将最后送入SVR训练并预测。本发明情感分析方法提取对光照和旋转具有鲁棒性的ULBP特征；采用显著性堆叠降噪自编码网络，对ULBP特征选择降维，挑选出对情感具有判别力的特征；采用SVR训练，预测连续的情感标签；不但同时兼具了面部判别块和面部特征点的优势，同时进行选择降维，保留情感相关特征，剔除了原特征中存在的冗余信息，最终采用连续维度描述，全面的对面部情感信息进行分析。

Description

一种基于面部显著特征的情感分析方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于面部显著特征的情感分析方法。

背景技术

近年来，随着人工智能的兴起，人机交互方式由命令和界面交互逐步进入到情感交互时代，而计算机感知人类情感的方式主要有三种：声音、文字以及视觉图像。研究表明：视觉图像能传达出55％的情感信息，表达情感的图像又包括肢体动作、姿态以及面部图像等。其中面部图像能直观的、真实的反应出人的情感状态，相比于声音和文字，面部图像传达出来的情感更真实可靠。

目前，大量的面部情感分析工作集中在基于类别的情感描述方法研究，即通过对人脸图像的情感特征提取、处理，最终将人脸的情感类型作为结果进行输出，但其忽略了自然条件下人脸表情具有自发性、不确定性，很难用离散的情感类别将所有面部情感进行区分，一定程度上制约了情感分析的实际应用。

同时，面部情感特征通常都具有高维性，且容易受到非情感因素的影响，直接将原始的情感特征用于情感分析，会导致训练模型耗时长，模型泛化能力差。现有的情感分析方法缺乏一种有效的模型区分所提取特征中的情感相关及情感无关特征，并对其进行选择，使得所提取的具有很大的冗余性，降低了情感识别方法的性能。

发明内容

本发明的目的是提供一种基于面部显著特征的情感分析方法，解决了现有面部情感分析方法中，训练模型耗时长、模型泛化能力差、高维情感特征中存在大量冗余信息的问题。

本发明所采用的技术方案是，一种基于面部显著特征的情感分析方法，包括以下步骤：

步骤1，输入待对齐图像和对应的标准正面图像，对图像进行预处理，消除图像中头部倾斜，得到对齐后的面部图像；

步骤2，提取步骤1中对齐后的面部图像的面部显著区域特征；

步骤3，对步骤2得到的面部显著区域特征进行融合以及选择，剔除情感无关因素的影响，筛选情感特征；

步骤4，将步骤3筛选的情感特征送入SVR模型训练，并预测连续的情感标签。

本发明的特征还在于，

步骤1具体为：

步骤1.1，对于待对齐图像，使用Dlib库中自带的决策树人脸特征点检测算法确定面部特征点位置，共68个特征点，坐标为(lx_j,ly_j),(j＝1,2,...,68)，选择眉、眼、耳、鼻、口五官周围的人脸特征点作为对齐点，记为面部特征点集合[(lx₁,ly₁),(lx₂,ly₂),...,(lx_n,ly_n)]；

针对标准正面图像，检测五官对应的正面人脸面部特征点，记作标准面部特征点集合[(x₁',y₁'),(x₂',y₂'),...,(x_n',y_n')]；

步骤1.2，输入步骤1.1中的面部特征点集合与标准面部特征点集合，计算公式(1)中的相似变换矩阵，得到待对齐图像相对于标准正面图像的面部旋转角度θ、缩放系数s和平移矢量t_x,t_y；

步骤1.3，将待对齐图像通过步骤1.2的相似变换矩阵进行相似变换，消除头部倾斜，得到对齐后的面部图像。

面部显著区域特征由面部判别块特征和面部特征点特征组成，步骤2具体为：

步骤2.1，提取面部判别块特征；

设面部判别块区域边长d为人脸宽度的1/9，在人脸上设有23个面部判别块区域：设23个面部判别块区域的中心坐标记为(x_i,y_i),(i＝1,2,...,23)，面部68个特征点坐标为(lx_j,ly_j),(j＝1,2,...,68)，定义23个面部判别块区域的中心坐标与68个特征点的关系，提取等价局部二值模式ULBP特征，即为面部判别块特征；

步骤2.2，提取面部特征点特征；

从所述68个面部特征点中选取35个情感相关的特征点，基于35个特征点提取等价局部二值模式ULBP特征，作为面部特征点区域特征；

步骤2.3，将步骤2.1的面部判别块特征和步骤2.2的面部特征点特征组合，即得到面部显著区域特征。

步骤2.1中，23个面部判别块区域的中心坐标与68个特征点的关系如下所示：

步骤2.2中最优结果的特征点组合为35点，具体为：

j＝19，24，30，36，37，38，39，40，41，42，43，44，45，46，47，48，49，50，51，52，53，54，55，56，57，58，59，60，61，62，63，64，65，66，67。

步骤3具体为：

步骤3.1，将步骤2中的面部显著区域特征输入到显著性堆叠降噪自编码网络进行无监督训练，显著性堆叠降噪自编码网络在无监督预训练阶段中具体为：

Input₁输入为原始的情感特征，经编码层降噪编码后，得到Hidden₁，其中n为训练样本个数，h₁为第一层隐层神经元个数，经解码层得到输出Output₁，保存第一层自编码的编码层权重W₁，编码层偏置b₁；将第一层自编码的隐层Hidden₁作为第二层自编码的输入，训练并保存并保持第二层自编码的编码层权重W₂，编码层偏置b₂，依此类推；

降噪所述自编码的输入为X，加噪声后得到使部分数据直接置0得到Y，重构误差为L_H(X,Z)，计算公式如公式(4)-(6)，

Z＝g(Y)＝s_g(YW^ú+b) (5)

L_H(X,Z)＝||X-Z||² (6)

公式(4)-(6)中，参数s_f、s_g均为激活函数，参数W为权重矩阵，参数b为偏置，参数X为输入特征，参数Z为重构特征；

步骤3.2，将步骤3.1中无监督训练的输出作为收缩式判别分析CDA的输入，进行有监督微调；具体为：

输入为样本原始特征X，采用非线性映射将原始特征映射为标签相关特征h₁(x)和标签无关特征h₂(x)，收缩式判别分析中每个编码层的关系如公式(7)所示，

公式(7)中，参数W、V均为d_x×d_h的权重矩阵，a、b均为d_h维的偏置，其中参数W和a对应的是第一层的权重矩阵和偏置，参数V和b对应的是第一层的权重矩阵和偏置；

将样本相关特征线性映射为一维的预测标签z_pre，如公式(8)，

z_pre＝h₁(x)U+c (6)

公式(8)中，参数c∈R¹；

最终收缩式判别分析的损失函数定义为重构误差L_RECON(x,y)、收缩惩罚项Φ_CDA(x)以及样本标签的损失L_DISC(z,z_pre)三部分的和，如公式(9)所示：

Γ_CDA(θ)＝∑L_RECON(x,y)+∑L_DISC(z,z_pre)+Φ_CDA(x) (9)

公式(9)中，参数L_RECON(x,y)＝||x-y||²，参数L_DSIC(z,z_pre)＝||z-z_pre||²，参数参数

步骤4具体为：

步骤4.1，将步骤3筛选情感特征输入向量回归器SVR进行训练，学习得出最优模型f_a(x),f_v(x)，函数定义如公式(2)：

其中约束条件为：

其中，参数x_i为输入特征，α，分别表示两个拉格朗日乘子，b为阈值项，核函数选用高斯核函数，满足公式(3)，

公式(3)中参数γ为核参数，决定了输入的第位数据映射到高维空间中的分布；

步骤4.2，针对步骤4.1的最优模型f_a(x),f_v(x)，对输入特征进行预测，得出待测样本的情感标签值。

本发明的有益效果是：本发明一种基于面部显著特征的情感分析方法，在情感特征提取阶段，基于面部判别块和面部特征点区域提取对光照和旋转具有鲁棒性的ULBP特征；在特征选择阶段，采用显著性堆叠降噪自编码网络，对ULBP特征选择降维，挑选出对情感具有判别力的特征；最后情感预测阶段，进行SVR训练，预测连续的情感标签；不但同时兼具了面部判别块和面部特征点的优势，同时进行选择降维，保留情感相关特征，剔除了原特征中存在的冗余信息，最终采用连续维度描述，全面的对面部情感信息进行分析，有很好的实用价值。

附图说明

图1是本发明一种基于面部显著特征的情感分析方法的流程图；

图2是本发明情感分析方法中组合特征点实验结果的曲线对比图，其中图2(a)表示基于7组特征点提取ULBP的兴奋度Arousal实验结果对比图，图2(b)表示基于7组特征点提取ULBP的活跃度Valence实验结果对比图；

图3是本发明情感分析方法中显著性堆叠降噪自编码网络的流程图；

图4是本发明情感分析方法中收缩式判别分析网络层展开图的流程图；

图5是本发明情感分析方法中显著性堆叠降噪自编码网络训练过程中的损失折线图；其中图5(a)为第一层网络预训练损失曲线图，图5(b)为第二层网络的预训练损失曲线图，图5(c)为第三层网络预训练损失曲线图，图5(d)为有监督微调网络层的损失曲线图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于面部显著特征的情感分析方法，如图1所示，包括以下步骤：

步骤1，输入待对齐图像和对应的标准正面图像，对图像进行预处理，消除图像中头部倾斜，得到对齐后的面部图像。具体为：

步骤2，提取步骤1中对齐后的面部图像的面部显著区域特征。

其中面部显著区域特征由面部判别块特征和面部特征点特征组成。

步骤2.1，提取面部判别块特征

设面部判别块区域的边长d为人脸宽度的1/9，在人脸上设有23个面部判别块区域：

面部判别块区域的坐标位置依据面部器官以及面部特征点的位置计算得到：设23个面部判别块区域的中心坐标记为(x_i,y_i),(i＝1,2,...,23)，面部68个特征点坐标为(lx_j,ly_j),(j＝1,2,...,68)；

定义当i＝1和i＝2时，分别表示两眼的内眉角，对应的面部判别块区域Patch1和Patch2的特征点坐标为(lx₂₁,ly₂₁)和(lx₂₂,ly₂₂)；当i＝3和i＝4时，分别表示两眼的对应的外眉角，对应的面部判别块区域Patch3和Patch4的特征点坐标为(lx₁₇,ly₁₇)和(lx₂₆,ly₂₆)；当i＝19和i＝20时，分别表示两个嘴角，对应的面部判别块区域Patch3和Patch4的特征点坐标为(lx₄₆,ly₄₆)和(lx₅₄,ly₅₄)；23个面部判别块区域的中心坐标如下表1所示：

表1 23个面部判别块区域的中心坐标

针对上述23个面部判别块区域的中心坐标和特征点坐标提取等价局部二值模式(ULBP)特征，作为面部判别块特征。

步骤2.2，提取面部特征点特征

从步骤2.1中面部68个特征点坐标中选取7种特征点组合，具体点数分别为7、11、19、27、35、43、51，特征点的编号选择如下表2所示。对上述7组特征点，提取等价局部二值模式(ULBP)特征，将其输入支持向量回归器SVR，其中向量回归器SVR的核函数选择高斯核函数。

向量回归器SVR的回归函数如公式(2)，

公式(2)中，约束条件为

参数x_i为输入特征，α，分别表示两个拉格朗日乘子，b为阈值项，公式(2)中，核函数选用高斯核函数，满足公式(3)，

其中，γ为核参数，决定了输入的第位数据映射到高维空间中的分布。

在上述SVR训练中，模型的性能很大程度取决于参数C和γ的值，训练过程中，通过训练特征来学习最优的参数C和γ，使得SVR模型能够最好的拟合输入数据，得到最终对应于公式(2)的回归函数，在输入测试特征时，通过公式(2)对应的模型得到相应的表情强度信息。

最终测试结果采用三种评价方式：均方根误差(RMSE)、皮尔逊积矩相关系数(CORR)、类内相关系数(ICC)。

表2 7组特征点选择编号

测试结果如图2所示，对比这七组面部特征点局部区域ULBP特征的性能，如图2(a)和图2(b)：在35点之前，随着特征点数目的增加，均方根误差(RMSE)下降速度较快，皮尔逊积矩相关系数(CORR)和类内相关系数(ICC)上升快；在35点之后，增加特征点的个数，情感预测准确率变化不明显，而特征点增多，情感特征的维度变高，会增加计算开销，而情感分析准确率提升较小，综合考虑计算准确率和计算开销，本发明最终确定采用35个人脸特征点进行面部特征点区域特征提取，将所得特征作为面部特征点特征。

步骤3，对步骤2得到的面部显著区域特征进行选择，剔除情感无关因素的影响，筛选情感特征。具体为：

步骤3.1，将步骤2中的面部显著区域特征输入到显著性堆叠降噪自编码网络进行无监督训练，如图3所示，为显著性堆叠降噪自编码网络整体结构图；

显著性堆叠降噪自编码网络在无监督预训练阶段中，Input₁输入为原始的情感特征，经编码层降噪编码后，得到Hidden₁(n为训练样本个数，h₁为第一层隐层神经元个数)，经解码层得到输出Output₁，保存第一层自编码的编码层权重W₁，编码层偏置b₁；将第一层自编码的隐层Hidden₁作为第二层自编码的输入，训练并保存并保持第二层自编码的编码层权重W₂，编码层偏置b₂，依此类推；

降噪自编码的输入为X，加噪声后得到使部分数据直接置0得到Y，重构误差为L_H(X,Z)，计算公式如公式(4)-(6)，

Z＝g(Y)＝s_g(YW^ú+b) (5)

L_H(X,Z)＝||X-Z||² (6)

公式(4)-(6)中，参数s_f、s_g均为激活函数，参数W为权重矩阵，参数b为偏置，参数X为输入特征，参数Z为重构特征。

步骤3.2，将步骤3.1中无监督训练的输出作为收缩式判别分析CDA的输入，进行有监督微调；

如图4所示，为收缩式判别分析网络层展开图，输入为样本原始特征X，采用非线性映射将原始特征映射为标签相关特征h₁(x)和标签无关特征h₂(x)，收缩式判别分析中每个编码层的关系如公式(7)所示：

公式(7)中，参数W、V均为d_x×d_h的权重矩阵，a、b均为d_h维的偏置，其中参数W和a对应的是第一层的权重矩阵和偏置，参数V和b对应的是第一层的权重矩阵和偏置。

为了有监督的调整编码器的参数，将样本相关特征线性映射为一维的预测标签z_pre，如公式(8)，

z_pre＝h₁(x)U+c (8)

公式(8)中，参数c∈R¹；

Γ_CDA(θ)＝∑L_RECON(x,y)+∑L_DISC(z,z_pre)+Φ_CDA(x) (9)

在显著性堆叠降噪自编码训练过程中，共包含三个隐层，在逐层无监督训练阶段，训练每层网络参数时，迭代15个epoch；在有监督微调网络参数时，迭代10个epoch；采用梯度下降法优化损失误差，满足一定迭代次数时自动终止，如图5(a)、图5(b)、图5(c)所示，分别为三个预训练层的损失曲线，图5(d)为微调损失曲线，以上4幅图中横坐标代表迭代次数，纵坐标代表每个epoch的损失均值，由于预训练过程为逐层训练，需要训练的参数少，损失收敛速度较快，由图可以看出，随着迭代数的增加，损失误差下降较为明显，其中batch_size设为64。

步骤4，将步骤3筛选情感特征送入SVR训练并预测连续的情感标签。

步骤4.1，将步骤3筛选情感特征输入步骤2的向量回归器SVR进行训练，即公式(2)和(3)中，学习得出最优模型f_a(x),f_v(x)；

实验对比结果：

(1)特征有效性对比：

本发明分别对整张人脸(Active and landmark patches)、面部判别块区域(Active patches)、面部特征点区域(Landmark patches)及组合面部特征点和面部判别块(Active and landmark patches)提取ULBP特征，采用SVR作为情感预测模型，分析对比模型性能如表3所示：

表3不同模型的性能对比图

实验结果表明：对整张人脸提取特征，情感维度最高，但情感模型的预测性能最差；主要是因为对整张人脸提取特征时，部分面部区域(背景、额头以及面腮等区域)对情感判别力差，容易为情感特征带来干扰因素，造成特征冗余，训练的模型泛化能力差，最终影响情感模型预测性能；本发明基于Active and landmark patches提取ULBP特征，特征维度为3422维，有效降低了特征维度，且识别准确率得到提升。

(2)特征选择方法对比：

得到样本特征后，为了挑选出对情感具有判别力的特征，本发明使用有监督的显著性堆叠降噪自编码网络(SSDA)，该网络可挑选出原始特征中的情感相关特征，利用情感相关特征分析情感，为对比未经处理的原始特征(Original)、收缩式判别分析(CDA)、堆叠降噪自编码(SDA)以及SSDA三种特征选择方法，经三种特征选择方法选择后，用SVR训练情感预测模型，分析对比模型性能如表4所示：

表4使用SVR训练情感预测模型性能分析

原始特征经不同的特征选择方法选择后，特征降为1000维，特征选择时间以及训练情感模型耗费的时间对比如表5所示：

表5特征选择时间以及训练情感模型耗费的时间对比

从实验结果可以得到如下结论：

与原始特征(original)对比，经CDA、SDA以及SSDA三种方法对特征选择后，情感特征为1000维，在保证情感识别准确率的情况下，模型的训练速度显著提升；

对比三种特征选择方法，SDA和SSDA的效果优于CDA，由于SDA和SSDA都是多层自编码器的叠加，包含更多的非线性映射操作，相比于单层自编码CDA，多层自编码网络抽象出的特征表征能力更强；结合了判别分析的SSDA比普通的堆叠降噪自编码更有效。

Claims

1.一种基于面部显著特征的情感分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于面部显著特征的情感分析方法，其特征在于，所述步骤1具体为：

3.根据权利要求2所述的一种基于面部显著特征的情感分析方法，其特征在于，所述面部显著区域特征由面部判别块特征和面部特征点特征组成，所述步骤2具体为：

步骤2.1，提取面部判别块特征；

步骤2.2，提取面部特征点特征；

4.根据权利要求3所述的一种基于面部显著特征的情感分析方法，其特征在于，所述步骤2.1中，23个面部判别块区域的中心坐标与68个特征点的关系如下所示：

5.根据权利要求4所述的一种基于面部显著特征的情感分析方法，其特征在于，所述步骤2.2中最优结果的特征点组合为35点，具体为：

6.根据权利要求5所述的一种基于面部显著特征的情感分析方法，其特征在于，所述步骤3具体为：

L_H(X,Z)＝||X-Z||² (6)

z_pre＝h₁(x)U+c (6)

公式(8)中，参数c∈R¹；

Γ_CDA(θ)＝∑L_RECON(x,y)+∑L_DISC(z,z_pre)+Φ_CDA(x) (9)

7.根据权利要求6所述的一种基于面部显著特征的情感分析方法，其特征在于，所述步骤4具体为：

其中约束条件为：