CN111985330A

CN111985330A - 一种基于特征级上下文信息感知的面部情感识别方法

Info

Publication number: CN111985330A
Application number: CN202010692930.3A
Authority: CN
Inventors: 孙强; 张龙涛
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-24
Anticipated expiration: 2040-07-17
Also published as: CN111985330B

Abstract

本发明公开了基于特征级上下文信息感知的面部情感识别方法，步骤如下：1、确定训练样本集和测试样本集；2、提取训练样本的人脸区域并统一尺寸；3、采集每个人脸图像的面部特征点，筛选情感相关部位特征点，确定面部情感区域；4、提取所有面部情感区域的MU‑CLBP特征值；5、将MU‑CLBP特征值送入SVR训练，获得SVR情感模型；6、获取测试样本集中所有测试样本MU‑CLBP特征值，并将测试样本MU‑CLBP特征值送入SVR情感模型，得到arousal和valence预测值。本发明通过对面部情感区域筛选克服对整张人脸图像分析时存在的特征冗余情况；且充分挖掘与利用像素点邻域上下文信息，识别结果准确度高。

Description

一种基于特征级上下文信息感知的面部情感识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种基于特征级上下文信息感知的面部情感识别方法。

背景技术

情感是人们表达自身感受的一种社会交流与沟通的必要形式。所谓情感识别，就是通过计算机分析人们表现出的情感信号，从而推断其心理状态。

计算机分析人类情感用到的信号通常包括：图像、视频、声音以及生理信号等，人脸图像作为最直观的情感观察对象，能直接表现出人们的情感，因此让计算机通过人脸图像精确识别人类情感并及时做出反应，从而更好完成人机交互已成为目前人工智能时代亟待突破的关键课题之一。

目前，大量的面部情感分析工作集中利用整幅人脸图像进行情感表达。这种做法的局限性是，忽略了对影响情感信号挖掘的面部关键区域的充分利用，且采用整幅面部图像时会引入身份信息，也不利于情感识别的正确推理。

而且，针对人脸图像的特征提取，现有方法缺少对于特征级上下文信息的探索。在对图像像素点进行情感特征编码时，并未考虑不同邻域范围内的像素对于中心像素点特征表达的作用，导致对于面部情感特征的表达并不充分。

发明内容

本发明的目的是提供一种基于特征级上下文信息感知的面部情感识别方法，解决了利用整张人脸图像识别情感时存在特征冗余的问题，同时解决了编码情感特征时没有充分利用像素点多尺度邻域上下文信息而导致识别准确度不高的问题。

本发明所采用的技术方案是，一种基于特征级上下文信息感知的面部情感识别方法，具体步骤如下：

步骤1、采集图像，确定训练样本集和测试样本集；

步骤2、提取训练样本集中每个训练样本的人脸区域并统一尺寸，得到训练人脸图像集；

步骤3、分别采集训练人脸图像集中每个人脸图像的面部特征点，筛选出情感相关部位特征点，确定面部情感区域；

步骤4、提取所有面部情感区域的多尺度统一圆形局部二值模式MU-CLBP特征值，完成情感特征的表达；

步骤5、将步骤4中提取的MU-CLBP特征值送入SVR训练，获得SVR情感模型；

步骤6、按照步骤2-4的具体步骤获取测试样本集中所有测试样本MU-CLBP特征值，并将测试样本MU-CLBP特征值送入步骤5中得到的SVR情感模型，得到连续维度的arousal和valence预测值。

本发明的特点还在于，

步骤2中人脸区域提取采用Viola-Jones人脸检测算法。

步骤3中采集人脸图像的面部特征点时采用基于回归树集合的人脸特征点检测算法。

步骤3中的面部情感区域定义为：在训练人脸图像集中的每个人脸图像上选取n个特征点，定义每一特征点为一个中心像素点，在每个中心像素点邻域选取N×N大小的区域，将每个人脸图像上的n个N×N大小区域定义为人脸图像的面部情感区域。

步骤4中面部情感区域的MU-CLBP特征提取过程具体为：

步骤4.1、针对面部情感区域的每个中心像素点均选取m组不同尺度参数，提取不同尺度参数下每个中心像素点对应的U-CLBP特征值；

步骤4.2、将面部情感区域中相同尺度参数下的所有U-CLBP特征进行拼接，得到m个尺度参数的U-CLBP特征值；

步骤4.3、绘制每个尺度参数的U-CLBP特征值的直方图，最终将m个U-CLBP特征值的直方图级联形成MU-CLBP特征值，即面部情感区域的MU-CLBP特征值。

一组尺度参数包括邻域采样点的采样半径和总的邻域采样点个数，m的个数不小于3。

步骤4.1中心像素点对应的U-CLBP特征提取步骤为：

步骤4.1.1、定义中心像素点为(x,y)，其像素值为g(x,y)，尺度参数为(R,P)，计算该尺度参数(R,P)下中心像素点(x,y)周围的邻域采样点(x_j,y_j)的位置，得到邻域采样点(x_j,y_j)的像素值f(x_j,y_j)；

其中，邻域采样点(x_j,y_j)的位置计算公式如下；

式(1)中，R为邻域采样点的采样半径，P为总的邻域采样点个数，P不小于1，(x_j,y_j)为中心像素点周围任意一个邻域采样点j的位置，1≤j≤P，f(x_j,y_j)为采样点j的像素值；

步骤4.1.2、由步骤4.1.1得到P个邻域采样点的像素值，将中心像素点像素值g(x,y)作为阈值，对中心像素点的P个邻域采样点进行判别，得到P位0/1二进制值，具体判别方式如下：

式(2)中，(x_j,y_j)为中心像素点周围任意一个邻域采样点j的位置，1≤j≤P，f(x_j,y_j)为采样点j的像素值；

步骤4.1.3、将步骤4.1.2中判别后得到的P位0/1二进制值按顺时针顺序拼接，得到该中心像素点(x,y)的长度为P的二进制码，定义为C_p；

步骤4.1.4、采用“统一模式”方式对二进制码C_p进行转换，得到中心像素点(x,y)对应的U-CLBP特征值，计算公式如下：

式(3)中，P为总的邻域采样点个数，U(C_p)表示二进制码C_p中0/1跳变次数。

步骤4.1.4对二进制码C_p进行转换的具体过程如下：保留二进制码中0/1跳变次数不大于两次的二进制码，将其转换为对应的十进制数值；将二进制码中0/1跳变次数大于两次的二进制码置为固定的十进制数值。

步骤5中SVR训练采用的回归器模型函数定义如下式：

约束条件：

其中，x，x_i为输入特征，α_i，α_i ^*为拉格朗日乘子，a代表输入特征数目，C为正则化系数，用来平衡模型复杂度与误差损失之间的关系，b阈值项，K(x,x_i)为核函数项，式(4)中的核函数选用高斯核函数，定义式如下：

式(5)中，γ为高斯核函数的宽度参数，控制函数的径向运用范围，x，x_i为输入特征。

得到MU-CLBP特征之后，将其输入SVR回归器进行训练，训练得出最优模型。

本发明的有益效果是：本发明的一种基于特征级上下文信息感知的面部情感识别方法，提出了一种基于多尺度统一圆形局部二值模式的情感特征提取方法，通过对面部情感区域进行筛选克服了利用整张人脸图像识别情感时存在的特征冗余等情况；同时在编码情感时，充分利用多尺度邻域上下文信息，提升了情感识别准确度。

附图说明

图1是本发明的一种基于特征级上下文信息感知的面部情感识别方法流程图；

图2是7种面部特征点区域集合示意图；

图3是7种特征点组合的实验结果图；

图4是不同采样半径R与不同采样点数P对应的采样过程示意图；

图5是本发明的一种基于特征级上下文信息感知的面部情感识别方法中以某一像素点为中心构成的MU-CLBP特征示意图；

图6是本发明的一种基于特征级上下文信息感知的面部情感识别方法中针对一副人脸图像提取的MU-CLBP特征的直方图示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种基于特征级上下文信息感知的面部情感识别方法，如图1所示，具体的步骤如下：

步骤1、采集图像，确定训练样本集和测试样本集；

步骤2、采用Viola-Jones人脸检测算法提取训练样本集中每个训练样本的人脸区域，并通过尺度变换归一化为统一尺寸480×600，得到训练人脸图像集；

步骤3、采用基于回归树集合的人脸特征点检测算法分别采集训练人脸图像集中每个人脸图像的面部特征点，筛选出情感相关部位特征点，确定面部情感区域；

面部情感区域定义为：在训练人脸图像集中的每个人脸图像上选取n个特征点，定义每一特征点为一个中心像素点，在每个中心像素点邻域选取N×N大小的区域，将每个人脸图像上的n个N×N大小区域定义为人脸图像的面部情感区域。

步骤4、提取每个面部情感区域的多尺度统一圆形局部二值模式MU-CLBP特征值，完成情感特征的表达；

面部情感区域的MU-CLBP特征提取过程具体为：

其中，尺度参数包括邻域采样点的采样半径和总的邻域采样点个数，m的不小于3。采样半径和总的邻域采样点个数取值不同，特征编码时尺度上下文信息不同。

中心像素点对应的U-CLBP特征提取的具体步骤为：

其中，邻域采样点(x_j,y_j)的位置计算公式如下；

步骤4.2、将每个面部情感区域中相同尺度参数下的所有U-CLBP特征进行拼接，得到m个尺度参数的U-CLBP特征值；

步骤4.3、绘制每个尺度参数的U-CLBP特征值的直方图，最终将m个尺度参数下的U-CLBP特征值的直方图级联形成MU-CLBP特征值，即面部情感区域的MU-CLBP特征值。

步骤5、将MU-CLBP特征值送入SVR训练，获得SVR情感模型；

SVR训练采用的回归器模型函数定义如下式：

约束条件：

式(4)中，x，x_i为输入特征，α_i，α_i ^*为拉格朗日乘子，a代表输入特征数目，C为正则化系数，用来平衡模型复杂度与误差损失之间的关系，b为阈值项，K(x,x_i)为核函数项，式(4)中的核函数选用高斯核函数，定义式如下：

下面通过实施案例的方式对本发明进行详细的说明：

实施例1

步骤1、从AffectNet数据库中挑选训练样本集及测试样本集；训练样本集及测试样本集中的图像都为带有情感标注的样本。

AffectNet数据库共包含420300个带情感标注的样本，可分为训练集样本集为414800个样本，测试样本集为5500个样本，由于样本中存在大量非人脸图像，经过数据清洗，得到训练集样本集中的样本为320740个，测试样本集中的样本为4500个。

为解决训练集分布不均衡的问题，增加训练模型泛化能力，将情感标注区间[-1,1]等分为10个区间，分别随机选取等量样本，确定最终的训练样本集包含2万样本，测试样本包含4500个样本。

步骤2、采用Viola-Jones人脸检测算法提取2万训练样本集中每个训练样本的人脸区域，并通过尺度变换归一化为统一尺寸480×600，调整图像大小为得到训练人脸图像集；

步骤3具体步骤如下：

得到人脸图像集后，根据基于回归树集合的人脸特征点检测算法得到68个面部特征点的位置，本实施例初步选用7组特征点组合，分别基于这些组合中的特征点选取邻域30×30大小区域，将每个人脸图像上的所有特征点的邻域30×30大小区域定义为面部情感区域，关于特征点的选取如图2所示，7组特征点的编号如下表1所示：

表1 7组特征点的编号

对初步选用7组特征点组合进行验证，选取尺度参数为(R＝1，P＝8)，提取2万的训练样本的面部情感区域统一圆形局部二值模式U-CLBP特征，训练SVR情感模型。然后，将由4500个测试样本形成的U-CLBP情感特征输入SVR情感模型中，用三个指标均方根误差(RMSE)、皮尔逊积矩相关系数(CORR)和类内相关系数(ICC)评价，得到的实验结果如图3所示。

通过大量实验验证，综合考虑特征维度大小、识别性能评价、存储空间以及计算耗时等因素，最终选取表1中的35点组合，对每一特征点邻域选取大小为30×30区域，最终这35个特征点邻域的30×30区域共同构成本实施例的面部情感区域；

步骤4、提取面部情感区域的多尺度统一圆形局部二值模式MU-CLBP特征值，完成情感特征的表达；

步骤4具体按照以下步骤实施：

步骤4.1、针对面部情感区域的每个中心像素点均选取3组不同尺度参数，分别定义为(R₁,P₁)、(R₂,P₂)、(R₃,P₃)，提取不同尺度参数下每个中心像素点对应的U-CLBP特征值；

不同采样半径R与不同采样点数P对应的采样过程如图4所示。

针对参数组合(R₁,P₁)，提取每个面部情感区域上所有中心像素点对应的U-CLBP特征值，具体过程如下：

步骤4.1.1、定义中心像素点为(x,y)，其像素值为g(x,y)，尺度参数为(R₁,P₁)，计算该尺度参数(R₁,P₁)下中心像素点(x,y)周围的邻域采样点(x_j',y_j')的位置，得到邻域采样点的像素值f(x_j',y_j')；

其中，邻域采样点(x_j',y_j')的位置的计算公式如下：

式(1)'中，R₁为邻域采样点的采样半径，P₁为总的邻域采样点个数，P₁不小于1，(x,y)为中心像素点的位置，g(x,y)为中心像素点的像素值，(x_j',y_j')为中心像素点周围任意一个邻域采样点j'的位置，1≤j'≤P₁，f(x_j',y_j')为采样点j'的像素值；

确定采样点位置后，其像素值f(x_j',y_j')通过如下策略确定：

(1)、当邻域采样点的位置坐标并不为整数，但落在图像像素点内时，则采用该点像素值进行表示；(2)、当邻域采样点的位置恰好位于相邻两像素的交界处，而不存在像素信息时，采用双线性插值方法计算该点像素值，如式(6)'所示：

步骤4.1.2、由步骤4.1.1得到P₁个邻域采样点的像素值，将中心像素点像素值g(x,y)作为阈值，对中心像素点的P₁个邻域采样点进行判别，得到P₁位0/1二进制值，具体判别方式如下：

式(2)'中，(x_j',y_j')为中心像素点周围任意一个邻域采样点j'的位置，1≤j'≤P₁，f(x_j',y_j')为采样点j'的像素值，若f(x_j',y_j')大于g(x,y)，则该像素值编码被置为1，否则置为0；

步骤4.1.3、将步骤4.1.2中判别后得到的P₁位0/1二进制值按顺时针顺序拼接，得到该中心像素点(x,y)的长度为P₁的二进制码，定义为

步骤4.1.4、采用“统一模式”方式对二进制码

进行转换，保留二进制码中0/1跳变次数小于等于两次的二进制码，再将其转换为对应的十进制数值；将二进制码中0/1跳变次数大于两次的二进制码置为固定的十进制数值，得到中心像素点(x,y)的U-CLBP特征值，计算公式如下：

式(3)'中，P₁为总的邻域采样点个数，

表示二进制码

中0/1跳变次数。

针对参数组合(R₂,P₂)，提取每个面部情感区域上所有中心像素点对应的U-CLBP特征值，具体过程如下：

步骤4.1.1、定义中心像素点为(x,y)，其像素值为g(x,y)，尺度参数为(R₂,P₂)，计算该尺度参数(R₂,P₂)下中心像素点(x,y)周围的邻域采样点(x_j”,y_j”)的位置，得到邻域采样点的像素值f(x_j”,y_j”)；

其中，邻域采样点(x_j”,y_j”)的位置的计算公式如下：

式(1)”中，R₂为邻域采样点的采样半径，P₂为总的邻域采样点个数，P₁不小于1，(x,y)为中心像素点的位置，g(x,y)为中心像素点的像素值，(x_j”,y_j”)为中心像素点周围任意一个邻域采样点j”的位置，1≤j”≤P₂，f(x_j”,y_j”)为采样点j”的像素值；

确定采样点位置后，其像素值f(x_j”,y_j”)通过如下策略确定：

(1)、当邻域采样点的位置坐标并不为整数，但落在图像像素点内时，则采用该点像素值进行表示；(2)、当邻域采样点的位置恰好位于相邻两像素的交界处，而不存在像素信息时，采用双线性插值方法计算该点像素值，如式(6)”所示：

步骤4.1.2、由步骤4.1.1得到P₂个邻域采样点的像素值，将中心像素点像素值g(x,y)作为阈值，对中心像素点的P₂个邻域采样点进行判别，得到P₂位0/1二进制值，具体判别方式如下：

式(2)”中，(x_j”,y_j”)为中心像素点周围任意一个邻域采样点j'的位置，1≤j”≤P₂，f(x_j”,y_j”)为采样点j”的像素值，若f(x_j”,y_j”)大于g(x,y)，则该像素值编码被置为1，否则置为0；

步骤4.1.3、将步骤4.1.2中判别后得到的P₂位0/1二进制值按顺时针顺序拼接，得到该中心像素点(x,y)的长度为P₂的二进制码，定义为

步骤4.1.4、采用“统一模式”方式对二进制码

式(3)”中，P₂为总的邻域采样点个数，

表示二进制码

中0/1跳变次数。

针对参数组合(R₃,P₃)，提取每个面部情感区域上所有中心像素点对应的U-CLBP特征值，具体过程如下：

步骤4.1.1、定义中心像素点为(x,y)，其像素值为g(x,y)，尺度参数为(R₃,P₃)，计算该尺度参数(R₃,P₃)下中心像素点(x,y)周围的邻域采样点

的位置，得到邻域采样点的像素值f(x_j”',y_j”')；

其中，邻域采样点

的位置的计算公式如下：

式(1)”'中，R₃为邻域采样点的采样半径，P₃为总的邻域采样点个数，P₃不小于1，(x,y)为中心像素点的位置，g(x,y)为中心像素点的像素值，

为中心像素点周围任意一个邻域采样点j”'的位置，1≤j”'≤P₃，f(x_j”',y_j”')为采样点j”'的像素值；

确定采样点位置后，其像素值f(x_j”',y_j”')通过如下策略确定：

(1)、当邻域采样点的位置坐标并不为整数，但落在图像像素点内时，则采用该点像素值进行表示；(2)、当邻域采样点的位置恰好位于相邻两像素的交界处，而不存在像素信息时，采用双线性插值方法计算该点像素值，如式(6)”'所示：

步骤4.1.2、由步骤4.1.1得到P₃个邻域采样点的像素值，将中心像素点像素值g(x,y)作为阈值，对中心像素点的P₃个邻域采样点进行判别，得到P₃位0/1二进制值，具体判别方式如下：

式(2)”'中，

为中心像素点周围任意一个邻域采样点j”'的位置，1≤j”'≤P₃，f(x_j”',y_j”')为采样点j”'的像素值，若f(x_j”',y_j”')大于g(x,y)，则该像素值编码被置为1，否则置为0；

步骤4.1.3、将步骤4.1.2中判别后得到的P₃位0/1二进制值按顺时针顺序拼接，得到该中心像素点(x,y)的长度为P₃的二进制码，定义为

步骤4.1.4、采用“统一模式”方式对二进制码

式(3)”'中，P₃为总的邻域采样点个数，

表示二进制码

中0/1跳变次数。

步骤4.2、分别将(R₁,P₁)、(R₂,P₂)和(R₃,P₃)尺度参数下每个面部情感区域中所有U-CLBP特征进行拼接，每个面部情感区域得到3个尺度参数的U-CLBP特征值；

步骤4.3、绘制每个尺度参数的U-CLBP特征值的直方图，最终将3组尺度参数下的U-CLBP特征值的直方图级联形成MU-CLBP特征值，即面部情感区域的MU-CLBP特征值。

针对某一中心点的MU-CLBP特征提取示意图如图5所示，同时针对整幅人脸图像的MU-CLBP特征提取示意图如图6所示；

步骤5、将多尺度统一圆形局部二值模式MU-CLBP特征送入SVR训练，得到SVR情感模型。

其中，SVR训练采用的回归器模型函数定义如下式：

约束条件：

其中，x，x_i为输入特征，α，α^*为拉格朗日乘子，a代表输入特征数目，C为正则化系数，用来平衡模型复杂度与误差损失之间的关系，b阈值项，K(x,x_i)为核函数项，式(7)中的核函数选用高斯核函数，定义式如下：

步骤6、对测试样本提取MU-CLBP特征，并送入SVR情感模型得到连续维度的兴奋度(arousal)和愉悦度(valence)预测值。

步骤6.1、按步骤2-4测试样本集中所有测试样本MU-CLBP特征值；

步骤6.2、将步骤6.1中得到的测试样本MU-CLBP特征值送入步骤5中训练得到的SVR情感模型，得到连续维度的兴奋度(arousal)和愉悦度

(valence)预测值。

实验对比结果：

1)特征的有效性对比

为验证本方法的有效性，设置三种不同的采样半径(R₁＝1,P₁＝8)，(R₂＝2,P₂＝8)，(R₃＝3,P₁＝8)，对输入面部图像提取MU-CLBP特征，同时分别与对应的单尺度U-CLBP特征进行对比。实验对比结果如下表所示：

为保证实验公平性，对于样本的选取、预处理以及模型训练均按照本文方案统一进行。由上表可以看出，MU-CLBP的各项指标均优于对应单尺度CLBP特征时的指标，与预期结果相符合，验证了MU-CLBP特征利用尺度上下文运信息的有效性。

2)不同参数组合情形下的性能对比

针对MU-CLBP特征，分别设置三种不同的参数组合作性能分析。方案1的参数设置为：R₁＝1,P₁＝8；R₂＝2,P₂＝8；R₃＝3,P₃＝8，方案2的参数设置：R₁＝1,P₁＝8；R₂＝2,P₂＝10；R₃＝3,P₃＝12，方案3的参数设置：R₁＝1,P₁＝8；R₂＝2,P₂＝10；R₃＝2,P₃＝12，最终实验结果对比如下表所示：

对比表中方案1与方案2，可以发现：当固定采样半径，采样点数越多，对于情感的表征能力越强。而对比方案2与方案3，可以看出，在采样点数相同时，采样半径越大，对于情感的表征能力越强。

Claims

1.一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，具体步骤如下：

步骤1、采集图像，确定训练样本集和测试样本集；

2.根据权利要求1所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，所述步骤2中人脸区域提取采用Viola-Jones人脸检测算法。

3.根据权利要求1所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，所述步骤3中采集人脸图像的面部特征点时采用基于回归树集合的人脸特征点检测算法。

4.根据权利要求1所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，所述步骤3中的面部情感区域定义为：在训练人脸图像集中的每个人脸图像上选取n个特征点，定义每一特征点为一个中心像素点，在每个中心像素点邻域选取N×N大小的区域，将每个人脸图像上的n个N×N大小区域定义为人脸图像的面部情感区域。

5.根据权利要求4所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，所述步骤4中面部情感区域的MU-CLBP特征提取过程具体为：

6.根据权利要求5所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，一组所述尺度参数包括邻域采样点的采样半径和总的邻域采样点个数，m的个数不小于3。

7.根据权利要求5或6所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，所述步骤4.1中心像素点对应的U-CLBP特征提取步骤为：

其中，邻域采样点(x_j,y_j)的位置计算公式如下；

8.根据权利要求7所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，所述步骤4.1.4对二进制码C_p进行转换的具体过程如下：保留二进制码中0/1跳变次数不大于两次的二进制码，将其转换为对应的十进制数值；将二进制码中0/1跳变次数大于两次的二进制码置为固定的十进制数值。

9.根据权利要求1所述的一种基于特征级上下文信息感知的面部情感识别方法，其特征在于，所述步骤5中SVR训练采用的回归器模型函数定义如下式：

约束条件：