CN112287745B

CN112287745B - 一种基于测地距离与样本熵的认知情感识别方法

Info

Publication number: CN112287745B
Application number: CN202010716885.0A
Authority: CN
Inventors: 陈嘉宇; 葛红娟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2024-05-03
Anticipated expiration: 2040-07-23
Also published as: CN112287745A

Abstract

本发明公开了一种基于测地距离与样本熵的认知情感识别方法，涉及人脸识别与情感计算技术领域。本发明首先针对四种影响人在任务回路中的认知情感，提出49个高效的脸部情感描述点，实现基于主动外观模型的人脸情感描述点定位；其次，设计了基于测地距离的人脸情感时空特征表达方法；然后，提出了基于样本熵的人脸情感特征提取方法，实现了认知情感时空特征的高效提取；最后利用随机森林分类器实现了情感分类与识别。本发明能够快速提取基于视频流的人脸认知情感，准确高效地识别人在任务回路中的认知情感状态，为监测人员工作状态，控制任务风险提供技术支撑。

Description

一种基于测地距离与样本熵的认知情感识别方法

技术领域

本发明涉及情感计算与人脸识别领域，具体涉及一种基于测地距离与样本熵的认知情感识别方法。

背景技术

情感计算是通过挖掘大数据表达与识别人的情感的理论，也是实现高级人工智能的关键技术。心理学研究表明，认知和情感是人类心理活动的两个重要部分，是有机联系在一起的一个过程的两个方面。研究任务中人的认知情感对及时发现任务风险与采取必要措施具有重要的作用。然而，当前情感计算与识别的研究主要集中在对日常六种基本情感的分析，忽略了对任务过程中人的认知情感的研究。

研究表明由人的认知状态引发的情感表达是一个持续1到4秒的过程，而非静态的情感峰值。然而，当前的脸部情感特征提取方法大都从二维静态图像中提取人脸表情的峰值特征，诸如Gabor小波、LBP和PCA方法，无法有效表达认知情感过程的时序动态属性。由于认知情感时序动态表达的特点，其分析的数据对象应为与时间序列相关的视频数据。然而，区别于静态图像，基于视频的数据处理增加了时间维信息，大大增加了数据量，多时甚至达到了上百万维的数据，其数据处理的难度也随之增大，增加了认知情感特征提取难度，导致认知情感计算与识别精度较低。

综上所述，针对持续过程的认知情感计算与识别问题，基于视频数据的人脸情感特征提取相比于传统的基于静态图像的特征提取更能够反映情感表达的过程，但这增加了数据维度，从而导致特征提取难度的激增。因此，如何快速有效地处理时序视频的大量数据，提取视频数据中人脸情感的时空特征，实现准确有效的认知情感识别是控制任务风险，避免重大事故的关键技术，也是当前情感计算人工智能的研究重点与难点。

发明内容

针对上述技术问题，本发明提出一种基于测地距离与样本熵的认知情感识别方法，能够有效从视频数据中提取人脸认知情感的时空特征，实现准确高效的认知情感识别，控制、预防与减少由人为因素导致的事故，降低任务风险，提高系统可靠性与安全性。

本发明采用的技术方案为：一种基于测地距离与样本熵的认知情感识别方法，该方法包括如下步骤：

步骤(1)、基于主动外观模型的人脸情感描述点定位；

步骤(2)、融合测地距离与样本熵的人脸情感特征提取；

步骤(3)、基于随机森林的认知情感识别。

其中，步骤(1)具体包括以下步骤：

1)认知情感描述点标定

本发明采用Mcdaniel、Rodrigo以及Baker等人研究的四种认知情感作为本发明的分析对象，分别为：疑惑、愉快、厌倦和挫败。

情感描述点标定的基本原则是用尽量少的脸部点来描述人脸表情的信息。传统研究一般采用标准的66到68个描述点对人脸表情进行标定，本发明通过分析认知情感特点，设计了49个人脸的认知情感描述点；

2)训练图像对其与预处理

采用Procrustes分析对所有图像进行归一化处理，包括处理个图像的旋转角度参数、缩放参数以及二维位移参数。

3)主动外观模型的形状和纹理模型构建

利用主成分分析法处理所有图像的冗余信息，得到一组新的相互正交变量，从而每幅图像都可以通过这个变量的线性组合来表达，即主动外观模型的形状模型：

其中，是通过计算训练集中的所有图像得到的平均形状。P_s是通过主成分分析得到的一组标准正交基向量的矩阵。b_s是形状子空间中的参数向量。

在将形状投影到平均形状中之后，训练图像即可得到一个“形状无关”的图像块。然后，再将该图像块中的像素光栅式地扫描到一个向量中，即可利用亮度对比度规范化得到纹理g。同样，纹理g也是通过PCA投影到纹理子空间，最终主动外观模型纹理模型可以表达为：

其中，是通过计算训练集中的所有样本得到的平均纹理。P_g是通过PCA得到的一组标准正交基向量的矩阵。b_g是纹理子空间中的参数向量。

4)生成主动外观模型

主动外观模型模型是进一步将形状模型和纹理模型结合起来，通过加权值W形成一个新的向量，即：

然后，对b做主成分分析，得到变换矩阵Q。最终，主动外观模型构建完成并可以表达为：

其中，c是外观参数，矩阵Q_s和Q_g表达了训练集中图像的变化模式。

5)基于主动外观模型图像拟合的情感描述点定位

基于主动外观模型的图像拟合的目的是为测试图像寻找准确的模型参数。由此，主动外观模型图像拟合是一个参数寻优将待拟合图像与主动外观模型合成图像的差异最小化的过程。将两者之间的差异定义为：

δg＝g_i-g_m

其中，g_i是一个测试图像的纹理特征向量，g_m是当前主动外观模型的纹理特征向量。通过改变参数c将方差能量E＝|δg|²最小化从而达到图像匹配的目的。因此，整个拟合算法的迭代过程如下：

i).计算纹理误差：δg＝g_i-g_m；

ii).估计纹理方差能量：E₀＝|δg|²；

iii).估算与误差对应的偏差值：δp₀＝-R·δg，其中R为δp和δg的线性关系，为常数矩阵，由主动外观模型计算获得；

iv).更新参数：p_k＝p_k-1+kδp_k-1，其中k的初始值为1；

v).根据估算的误差值计算出相应的外观图像，并计算出应对的纹理误差：

vi).再次估计纹理方差能量：E_k＝|δg^k|²；

vii).判断是否E_k＜E₀，若否，则赋值：k＝k+1，重复第4步；若是，则收敛，匹配完成。

在本发明中，利用主动外观模型完成图像拟合，并获得测试图像的49个情感描述点，每个图像的数据维度为2×49维。

其中，步骤(2)具体包括以下步骤：

1)基于测地距离的情感描述点时空特征表达

根据心理学实验与统计数据，认知情感的持续时间为1秒到4秒之间。认知情感的表达为一个持续过程，并以一段视频或动态图像为分析的单个样本对象。因此，假设每个样本包含n张图像，从而一个数据样本的情感描述点集可以表达为：

Sample＝{S₁,S₂,...,S_n}

由于每张图像包含49个情感描述点，每个描述点有2维坐标，因此该数据集的维数为2×49×n。

由于人脸表情的表达即为一系列人脸情感描述点在空间上的变化，因此计算样本中各图像数据与第1幅图像数据情感描述点之间的测地距离，以此表达样本数据情感描述点的时空特征：

其中，d_g(V_1，j，V_i，j)＝{d_g(s_1，j，s_1，j) d_g(s_1，j，s_2，j) … d_g(s_1，j，s_n，j)}，1≤j≤49。同时，d_g(a_i,a_j)表示两个数据点a_i和a_j之间的测地线距离:当数据集中的两个数据点a_i和a_j非常接近时，测地距离的度量即为两者之间的欧氏距离：

当两个数据点a_i和a_j相距很远时，引入一个中间变量a_t(t＝1,2,…,n)，通过以下算法计算两者之间的测地距离：

因此，获得基于测地距离的数据特征时空表达Feature_st，且每个样本数据的时空特征维度缩减为49×n。

2)基于样本熵的脸部认知情感特征提取

将第j(1≤j≤49)个数据样本的情感描述点时空特征的表达d_g(V_1,j,V_i,j),1≤i≤N视为一个由N个数据组成的时间序列数据为x(n)＝{x(1),x(2),...,x(N)}；

构建一个维数为m的向量序列：X_m(1),X_m(2),...,X_m(N-m+1)，其中X_m(i)＝{x(i),x(i+1),...,x(i+m-1)},1≤i≤N-m+1，表达从第i点开始的m个连续的x的值；

定义向量X_m(i)和X_m(j)之间的距离d{X_m(i),X_m(j)},1≤j≤N-m,j≠i为两个向量中对应元素差值绝对值的最大值，即：

d{X_m(i),X_m(j)}＝max(|x(i+k)-x(j+k)|),0≤k≤m-1

对于给定的X_m(i)，统计X_m(i)和X_m(j)之间距离小于等于r的数目，并记为B_i。因此，对于1≤i≤N-m，定义参数和B^m(r)为：

增加维数到m+1，同样统计X_m+1(i)和X_m+1(j)之间距离小于等于r的数目，并记为A_i。因此，参数和A^m(r)可以被定义为：

B^m(r)为两个序列在相似容限r下匹配m个点的概率，而A^m(r)是两个序列匹配m+1个点的概率。因此，该时间序列的样本熵可以求得：

通过分析，在本发明中，参数m＝2并且r为原始信号标准差的0.2倍。

由此，将时序数据Feature_st代入样本熵计算公式(6)中，则每个数据样本的人脸认知情感特征表达为：

Feature＝SampEn(Feature_st)

＝SampEn{|d_g(V_1,1,V_i,1) d_g(V_1,2,V_i,2) … d_g(V_1,49,V_n,49)|^T},1≤i≤n

＝{SampEn(1)，SampEn(2),...,SampEn(49)}

至此，融合测地距离与样本熵的人脸情感特征提取完毕。

其中，步骤(3)具体包括以下步骤：

使用随机森林分类器，对输入的样本数据进行训练与分类，实现对四类认知情感的识别。具体流程为：

1)通过使用自助采样，从训练集中选择样本选择k个样本，并且每个所选样本的样本大小与训练集相同；

2)为每个样本构建决策树模型，并利用这k个模型获得k个分类结果；

3)基于k个分类结果，通过对每条记录进行表决来确定最终的分类结果。通过构建不同的训练集，RF能够增加分类模型之间的差异，以便增强集合分类模型的外推预测能力。在训练后，获得分类模型系列{h₁(X),h₂(X),…,h_k(X)}，这个模型系列用于构建多分类模型系统。系统的最终分类结果是简单多数表决，最终分类决策如下：

其中，H(x)是组合分类器模型，h_i是单个决策树分类模型，Y是目标输出，I是示性函数。

本发明与现有技术相比的优点在于：

1)本发明通过分析认知与情感的内在规律，提出了面向任务环境中的人脸认知情感识别方法，设计了49个高效的脸部图像情感描述点，相对于传统的66到68个描述点，在保证描述情感变化的同时，降低了描述点的个数，从而有效提高了情感表达效率，为认知情感特征提取与情感识别奠定了基础。

2)依据心理学对认知情感发生过程的定义，将单个数据样本定义为一个持续时间在1到4秒内的视频数据，并提出了融合测地距离与样本熵的特征提取方法，在提取数据有效信息的同时，降低了数据维度，使得浅层分类器能够实现快速、准确与稳定的识别。

3)本发明所提的技术方法能够应用在交通运输、生产作业等人机交互领域，实现工业工程中对工作人员认知情感优劣的监测，控制任务的风险，降低人为因素导致的事故概率。

附图说明

图1为本发明一种基于测地距离与样本熵的认知情感识别方法方案图；

图2为49个高效的人脸情感描述点；

图3为采集的四种认知情感视频的原始数据示例；

图4为基于主动外观模型的人脸情感描述点定位；

图5为融合测地距离与样本熵的人脸情感特征提取模型流程图；

图6为四种认知情感的欧氏距离与奇异值特征；

图7为四种认知情感的测地距离与样本熵特征。

具体实施方式

下面结合附图以及具体实施方式进一步说明本发明。

本发明针对工业工程中控制与减少人为失误的需求，以解决缺乏客观与准确的技术手段衡量人的认知情感的问题为目标，提出了一种基于测地距离与样本熵的认知情感识别方法。

本发明要解决的技术问题为：工业系统中人机交互密切，交通运输过程中人机环境复杂，使得人为因素造成的事故频频发生。通过情感状态的识别是判断任务回路中人的认知状态优劣的关键所在。然而，当前情感计算理论与方法缺乏与认知状态的关联，难以实现时序视频数据模式下的认知情感特征高效提取与认知情感状态准确识别。针对上述技术难题，本发明提出一种基于测地距离与样本熵的认知情感识别方法，能够有效从视频数据中提取人脸认知情感的时空特征，实现准确高效的认知情感识别，控制、预防与减少由人为因素导致的事故，降低任务风险，提高系统可靠性与安全性。

步骤(1)、基于主动外观模型的人脸情感描述点定位；

步骤(2)、融合测地距离与样本熵的人脸情感特征提取；

步骤(3)、基于随机森林的认知情感识别。

其中，步骤(1)具体包括以下步骤：

1)认知情感描述点标定

2)训练图像对其与预处理

3)主动外观模型的形状和纹理模型构建

4)生成主动外观模型

5)基于主动外观模型图像拟合的情感描述点定位

δg＝g_i-g_m

viii).计算纹理误差：δg＝g_i-g_m；

ix).估计纹理方差能量：E₀＝|δg|²；

x).估算与误差对应的偏差值：δp₀＝-R·δg，其中R为δp和δg的线性关系，为常数矩阵，由主动外观模型计算获得；

xi).更新参数：p_k＝p_k-1+kδp_k-1，其中k的初始值为1；

xii).根据估算的误差值计算出相应的外观图像，并计算出应对的纹理误差：

xiii).再次估计纹理方差能量：E_k＝|δg^k|²；

xiv).判断是否E_k＜E₀，若否，则赋值：k＝k+1，重复第4步；若是，则收敛，匹配完成。

其中，步骤(2)具体包括以下步骤：

3)基于测地距离的情感描述点时空特征表达

Sample＝{S₁,S₂,...,S_n}

4)基于样本熵的脸部认知情感特征提取

d{X_m(i),X_m(j)}＝max(|x(i+k)-x(j+k)|),0≤k≤m-1

Feature＝SampEn(Feature_st)

＝{SampEn(1)，SampEn(2),...,SampEn(49)}

至此，融合测地距离与样本熵的人脸情感特征提取完毕。

其中，步骤(3)具体包括以下步骤：

3)基于k个分类结果，通过对每条记录进行表决来确定最终的分类结果。通过构建不同的训练集，RF能够增加分类模型之间的差异，以便增强集合分类模型的外推预测能力。在训练后，获得分类模型系列{h₁(X),h₂(X),…,h_k(X})，这个模型系列用于构建多分类模型系统。系统的最终分类结果是简单多数表决，最终分类决策如下：

为了具体说明本发明的方法，本发明对Belfast Natural Induced EmotionDatabase和MMI Facial Expression Database数据库的人脸数据进行分析。以这两个数据库为实验的基础样本库，实验从数据库中选择被试者表现出愉快、疑惑、厌倦和挫败四种认知情感的脸部表情视频片段中，共选取包含了22个测试者的168段视频作为原始采集数据，其中女性6名和男性16名，每位测试者有4到14段视频片段。每个视频片段的参数为：帧率25帧/秒，分辨率为768×576。如图3所示，为本次实验所采用的原始视频片段示例。原始视频片段经过预处理后，在本次实验中共采用900个视频样本作为实验的训练和测试样本。

步骤(1)、基于主动外观模型的人脸情感描述点定位；

首先，对900个视频数据进行分解，每个视频样本能够分解成25-100帧图像，并对图像进行规范化处理；其次，本文定义了49个人脸情感描述点，通过构建主动外观模型形状和纹理模型，形成完整的主动外观模型的外观模型；最终，利用主动外观模型对900×n(n＝25-100)幅样本数据图像进行情感描述点定位，实施人脸情感描述点定位过程如图4所示获得900个原始人脸情感描述点信息样本，每个样本数据长度为n×49×2。

步骤(2)、融合测地距离与样本熵的人脸情感特征提取；

利用本发明提出的融合测地距离与样本熵的特征提取方法对人脸情感描述点样本提取特征，方法实施过程如图5所示，最终得到900个认知情感特征向量样本，单个样本数据长度为1×49。为验证本文所提特征提取方法的有效性和优越性，在实验中采用传统的欧氏距离与奇异值特征作为比较。

如图6和图7所示，两图所示四条曲线分别是对四种认知情感提取欧氏距离与奇异值特征和测地距离与样本熵特征的结果。

由图6可见，四种认知情感对应的四条曲线变化程度较小，高低起伏趋势差异不明显。相反，由图7所示，融合测地距离与样本熵的特征曲线变化较大，高低起伏趋势较大。这是由于融合测地距离与样本熵的认知情感特征能够表达认知情感数据在时间与空间的变化趋势，并反映到二维曲线当中。因此，通过对比欧氏距离与奇异值特征提取方法，实验结果验证了本文所提的测地距离与样本熵方法的优越性与鲁棒性。另一方面，从图7不难发现，四种认知情感特征的差异明显，验证了该方法的有效性。

步骤(3)、基于随机森林的认知情感识别。

采用本发明提出的基于随机森林的方法对认知情感进行识别，为比较验证所提方法的有效性与优越性，传统分类器SVM在本文中被使用以完成对比分析。对于随机森林和SVM，本发明设置的训练样本数量均为180个，则测试样本为720个。

本发明提出的基于随机森林的方法以及基于SVM的方法对认知情感识别的结果如表1所示。本发明将900个样本数据随机分成5份，进行交叉验证。由图7可以发现，SVM方法对于厌倦与疑惑认知情感有相对较好的识别准确度，而对于挫败和愉快两种情感的识别率较低。尤其对于挫败情感(图中红色网格柱形图)，SVM方法表现出的识别准确性波动较大。结合表1的具体数值，识别结果显示SVM方法对于挫败的识别精度波动范围高达19.95％，易受训练样本差异的影响。最终，SVM方法的总体平均识别率为78.91％，未达到80％。对于本文所提随机森林分类器，比较表1中数据可以发现，RF分类器的识别效果优于SVM，且其最终总体平均识别率为82.44％。与此同时，对于每一种认知情感，其识别准确率均在80％以上，达到了良好的识别精度。

表1.基于监督学习的认知情感识别结果

由此，通过数据分析实施了本发明的应用过程，并且验证了本发明方法的有效性与优越性。

上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和调整，这些改进和调整也应视为本发明的保护范围。

Claims

1.一种基于测地距离与样本熵的认知情感识别方法，其特征在于：所述方法包括如下步骤：

步骤一，基于主动外观模型确定人脸情感描述点定位；所述步骤一的具体步骤为：

步骤1.1，基于主动外观模型对人脸情感描述点进行建模，包括情感描述点定位、训练图像对齐、形状和纹理模型构建、主动外观模型生成；

步骤1.2，基于主动外观模型图像拟合出人脸情感描述点定位；

步骤二，融合测地距离与样本熵提取人脸情感特征；步骤二的具体步骤为：

步骤2.1，基于测地距离对人脸情感描述点进行时空特征表达；所述步骤2.1具体过程为：

针对单个图像，提出49个人脸情感的高效描述点，假设每个数据样本包含n张图像，一个数据样本的情感描述点集表达为：

Sample＝{S₁，S₂，...，S_n}

其中，S_n为一张图片的数据点集，每个描述点有2维坐标；

由于人脸表情的表达为一系列人脸情感描述点在空间上的变化，因此计算样本中各图像数据与第1幅图像数据情感描述点之间的测地距离，以此表达样本数据情感描述点的时空特征：

其中，d_g(V_1，j，V_i，j)＝{d_g(s_1，j，s_1，j) d_g(s_1，j，s_2，j)…d_g(s_1，j，s_n，j)}，1≤j≤49；同时，d_g(a_i，a_j)表示两个数据点a_i和a_j之间的测地线距离：当数据集中的两个数据点a_i和a_j非常接近时，测地距离的度量即为两者之间的欧氏距离：

当两个数据点a_i和a_j相距很远时，引入一个中间变量a_t，t＝1，2，...，n，通过以下算法计算两者之间的测地距离：

获得基于测地距离的数据特征时空表达Feature_st，且每个样本数据的时空特征维度缩减为49×n；

步骤2.2，基于样本熵提取脸部认知情感特征；所述步骤2.2具体为：

步骤2.2.1，将第j个数据样本的情感描述点时空特征的表达d_g(V_1,j,V_i,j),1≤i≤N视为一个由N个数据组成的时间序列数据为x(n)＝{x(1),x(2),...,x(N)}，1≤j≤49；

步骤2.2.2，构建一个维数为m的向量序列：X_m(1),X_m(2),...,X_m(N-m+1)，其中X_m(i)＝{x(i),x(i+1),...,x(i+m-1)},1≤i≤N-m+1，表达从第i点开始的m个连续的x的值；

步骤2.2.3，定义向量X_m(i)和X_m(j)之间的距离d{X_m(i),X_m(j)},1≤j≤N-m,j≠i为两个向量中对应元素差值绝对值的最大值，即：

d{X_m(i),X_m(j)}＝max(|x(i+k)-x(j+k)|),0≤k≤m-1

步骤2.2.4，对于给定的X_m(i)，统计X_m(i)和X_m(j)之间距离小于等于r的数目，并记为B_i，因此，对于1≤i≤N-m，定义参数和B^m(r)为：

步骤2.2.5，增加维数到m+1，同样统计X_m+1(i)和X_m+1(j)之间距离小于等于r的数目，并记为A_i，因此，参数和A^m(r)可被定义为：

步骤2.2.6，B^m(r)为两个序列在相似容限r下匹配m个点的概率，而A^m(r)是两个序列匹配m+1个点的概率，该时间序列的样本熵求得：

将时序数据Feature_st代入样本熵计算公式，则每个数据样本的人脸认知情感特征表达为：

Feature＝SampEn(Feature_st)

＝SampEn{|d_g(V_1,1,V_i,1)d_g(V_1,2,V_i,2)…d_g(V_1,49,V_n,49)|^T},1≤i≤n；

＝{SampEn(1)，SampEn(2),...,SampEn(49)}

步骤三，基于随机森林算法对图像中人脸进行认知情感识别。