CN116052254A

CN116052254A - 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法

Info

Publication number: CN116052254A
Application number: CN202310057109.8A
Authority: CN
Inventors: 裴二成; 何浪; 陈海丰; 郭曼; 蒋冬梅; 宁海龙; 户战选
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-05-02

Abstract

本发明公开了一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法，主要解决了现有方法不能很好建模连续情感状态的不确定性的问题。其实现步骤为：(1)将原始视频数据划分为训练集和测试集；(2)基于人脸检测算法进行人脸检测，并在人脸区域提取面部表情特征；(3)建立基于扩展卡尔曼滤波神经网络的视觉连续情感识别模型，拟合连续情感状态的不确定性；(4)建立基于一致性相关系数的损失函数优化目标，并使用随机梯度下降法和误差反向传播算法优化模型参数；(5)用训练好的模型预测测试集中人物的情感状态。本发明使用扩展卡尔曼滤波网络模型，缓解了连续情感状态的不确定性带来的负面影响，提高了模型的泛化能力。

Description

基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法。

背景技术

连续情感识别旨在利用听视觉信号等序列数据来估计人的情感状态的变化轨迹，其在驾驶员实时精神状态监控及预警、孤寡独居老人的智能监护与陪伴、智能机器人、自闭症和抑郁症的辅助诊断及治疗、智慧课堂与个性化教育等场景中具有巨大应用潜力。近年来，人们已经开发了各种自动情感识别系统。由于视觉序列数据的复杂动态结构，连续情感识别依然是一项非常具有挑战性的任务。

目前连续情感识别方法可以大致划分为两类：

一是基于递归神经网络的方法，在连续情感识别任务中，基于递归神经网络的模型被广泛用于对视觉数据的复杂时间结构建模。J.Lee等人在文献“J.Lee,S.Kim,S.Kim,and K.Sohn,Multi-modal recurrent attention networks for facial expressionrecognition,IEEE Transactions on Image Processing,vol.29,pp.6977–6991,2020.”中提出一种基于递归注意力机制的连续情感识别方法。考虑到情感状态的不确定性，这一类方法通常在递归神经网络的输出上利用简单的滑动平均。而基于滑动平均的后处理相当于施加了一个无限强的先验在连续情感状态的时间结构上，该处理过于简单且难以解释。

二是基于贝叶斯滤波的方法，这种方法利用基于概率图的状态空间模型来为情感状态的不确定性进行建模。T.Dang等人在文献“T.Dang,V.Sethu,and E.Ambikairajah,Dynamic multi-rater gaussian mixture regression incorporating temporaldependencies ofemotion uncertainty using Kalman filters,in 2018IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP)，IEEE,2018,pp.4929–4933.”中提出一种基于高斯混合回归模型的连续情感识别方法，其将卡尔曼滤波引入高斯混合回归模型来建模情感状态的不确定性。这一类方法虽然可以显式地对情感状态的不确定性进行建模，但是由于概率图模型的推断难度大，使得这一类方法的非线性拟合能力非常有限。另外，该方法由多个子模型组成，并被分别单独优化，这可能导致次优的优化结果。

发明内容

本发明的目的在于针对上述现有方法的不足，提出一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法，解决现有方法不能很好建模连续情感状态的不确定性的问题。

为实现上述目的，本发明采用的技术方案为：

一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法，包括以下步骤：

S1，获取自然场景下连续情感数据库，包括人脸视频数据及其帧级别的情感标注；

S2，将原始视频数据划分为训练集和测试集，并对数据集进行预处理操作；

S3，构建基于扩展卡尔曼滤波神经网络的视觉连续情感识别模型：

首先将情感状态定义为唤醒度或愉悦度与其一阶、二阶差分形成的3维向量

然后利用状态空间模型对情感状态的不确定性建模，并将拓展卡尔曼滤波的推断计算过程形式化为一种扩展卡尔曼滤波神经网络模块，最终形成的视觉连续情感识别模型包括以下步骤：

(1)将提取的人脸特征输入深度神经网络模块，其由两个全连接网络层以及tanh激励函数构成，用于对原始特征x_t进行分布式特征编码，得到分布式特征编码

如下式所示：

(2)将分布式特征编码

输入长短时记忆神经网络模块，其包含一个LSTM网络层、一个全连接网络层以及tanh激励函数，用于对复杂的序列视觉数据进行动态特征编码，如下式所示：

o_t＝σ(W_zh_t+b_z).

其中c_t是t时刻细胞状态，h₀和c₀被设置为0向量，o_t为EKF模块的观测量，W_z和b_z分别为权重和偏置；

(3)将动态特征编码输入扩展卡尔曼滤波神经网络模块，其计算过程由扩展卡尔曼滤波过程定义，EKF网络模块中的动态转换模型将根据上一时刻的情感状态及其分布预测当前时刻的情感状态及其分布，然后利用其观测模型来修正当前时刻的情感状态及其分布，如下式所示：

其中，该模块的输入为当前时刻情感状态的观察o_t、上一时刻的情感状态z_t-1及其不确定性度量P_t-1；输出为当前时刻情感状态z_t及其不确定性P_t；

f为一个单隐层神经网络，用于模拟情感状态的动态转换过程，

为其可学习的参数；其中动态转换过程的噪声被假设符合0均值、协方差Q的高斯分布，Q为可学习参数。

h为另一个单隐层神经网络，用于模拟情感状态的观测过程，φ为其可学习的参数；观测过程的噪声被假设符合0均值、协方差R的高斯分布，R为可学习的参数，z_t为预测的情感状态，P_t为估计的情感状态不确定性度量，

S4，建立基于一致性相关系数的损失函数优化目标，并使用随机梯度下降法和误差反向传播算法优化模型参数；

S5，用训练好的模型推断测试集中人物的情感状态。

步骤S1进一步包括：

使用摄像机记录多个非特定人的面部视频或收集公开的人脸视频数据并标注连续情感状态，得到大规模连续情感数据库。

步骤S2所述预处理操作具体包括：

对原始视频数据进行人脸检测，基于检测到的人脸区域图像提取手工设计特征或者深度学习特征。

步骤S4所述基于一致性相关系数的损失函数具体包括步骤：

(1)定义优化目标

其中θ表示模型的所有参数，λ₁和λ₂是正则项系数，

为连续情感标注，

和

为连续情感标注的一阶、二阶差分，CCC是为预测值和标注值之间的一致性相关系数，其定义如下：

其中

为预测值和标注值之间的皮尔逊相关系数，

和σ_z为标注差，

和μ_z为均值，RMSE被定义如下：

(2)利用Adam算法，通过上述步骤定义的目标函数来迭代优化模型参数θ。

与现有技术相比，本发明的有益技术效果为：

(1)本发明中LSTM模块作为一个深度学习黑盒，被用于对复杂视觉数据的时间结构建模，其输出被当作情感状态的观测。EKF模块作为一种“手工设计”的强关系归纳偏置先验，被嵌入神经网络模型中用于对观测与情感隐状态之间的时空关系进行建模，其对不可靠的连续情感预测及标注有很好的鲁棒性，缓解了连续情感状态的不确定性带来的负面影响。将EKF整合到基于LSTM的深度学习模型中后，得到了一个集两者优点于一体、优势互补的视觉连续情感识别模型，其可解释性强、拟合能力强，并且易于求解，可用于情感机器人、元宇宙等场景。

(2)由于EKF是一种特殊的基于领域知识的结构，蕴含了很强的关系归纳偏置，从组合泛化的角度来看，在情感识别模型中引入强关系归纳偏置，可以提高样本利用率、减低模型参数、进而提高模型的泛化能力。

附图说明

图1为本发明的流程图；

图2为本发明实验中连续情感预测结果示意图；其中，实曲线为视频中人物的唤醒度标注值，虚曲线为唤醒度预测值。虚线框内为预测误差比较大的视频帧，实线框内为预测误差比较小的视频帧。

具体实施方式

为了更清楚地说明本发明的技术方案，下面将通过实施例和附图对各个模块作简单地介绍。

实施例：

参照图1，本发明实现的步骤如下：

步骤1：对训练和测试集数据进行人脸检测预处理，提取3D人脸场流特征(3DSF)，该方法基于文献“E.Pei,M.C.Oveneke,Y.Zhao,D.Jiang,and H.Sahli,“Monocular 3dfacial expression features for continuous affect recognition,”IEEETransactions onMultimedia,2020.”。

步骤2：3DSF特征x_t被输入如下含有两个全连接层的前馈神经网络，得到分布式特征编码

步骤3：分布式特征编码

被输入到如下LSTM网络模块来模拟序列数据的瞬时动态变化：

其中c_t是t时刻细胞状态，h₀和c₀被设置为0向量，

然后h₀被进一步输入到如下全连接层，其输出o_t即为EKF模块的观测量：

o_t＝σ(W_zh_t+b_z)，

其中W_z和b_z分别为权重和偏置。

步骤4：将观测o_t输入EKF网络模块，EKF网络模块的计算过程如下：

其中，f为一个单隐层神经网络，用于模拟情感状态的动态转换过程，

h为另一个单隐层神经网络，用于模拟情感状态的观测过程，φ为其可学习的参数；观测过程的噪声被假设符合0均值、协方差R的高斯分布，R为可学习的参数。z_t为预测的情感状态，P_t为估计的情感状态不确定性度量，

另外，动态转换过程噪声和观测噪声被假设各向同性，因此Q和R是对角矩阵。为了确保Q和R是正定矩阵，我们用q和r重新参数化Q和R，其中Q＝Diag(Softplus(q))，R＝Diag(Softplus(r))。Diag是向量生成对角矩阵的函数，Softplus是激励函数。

步骤5：定义优化目标

其中θ表示模型的所有参数，λ₁和λ₂是正则项系数。

为连续情感标注(Arousal或Valence值)，

和

为连续情感标注的一阶、二阶差分。CCC是为预测值和标注值之间的一致性相关系数，其定义如下：

其中

为预测值和标注值之间的皮尔逊相关系数。

和σ_z为标注差，

和μ_z为均值。RMSE被定义如下：

步骤6：训练模型参数。利用Adam算法，通过最小化步骤5定义的目标函数来迭代优化模型参数θ。

步骤7：测试训练好的模型。将步骤1中得到测试数据特征输入到步骤6得到的模型中，得到模型在测试集上的情感预测结果，然后与其真实标注值对比，并计算CCC和RMSE指标。

实验结果：

为了证明本发明方法的有效性，我们在RECOLA数据集上进行了验证实验，并计算了CCC和RMSE指标，如表1所示。

表1：不同方法在RECOLA数据集上的性能对比

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。