CN116052254A - 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 - Google Patents
基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 Download PDFInfo
- Publication number
- CN116052254A CN116052254A CN202310057109.8A CN202310057109A CN116052254A CN 116052254 A CN116052254 A CN 116052254A CN 202310057109 A CN202310057109 A CN 202310057109A CN 116052254 A CN116052254 A CN 116052254A
- Authority
- CN
- China
- Prior art keywords
- emotion
- model
- neural network
- state
- extended kalman
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法,主要解决了现有方法不能很好建模连续情感状态的不确定性的问题。其实现步骤为:(1)将原始视频数据划分为训练集和测试集;(2)基于人脸检测算法进行人脸检测,并在人脸区域提取面部表情特征;(3)建立基于扩展卡尔曼滤波神经网络的视觉连续情感识别模型,拟合连续情感状态的不确定性;(4)建立基于一致性相关系数的损失函数优化目标,并使用随机梯度下降法和误差反向传播算法优化模型参数;(5)用训练好的模型预测测试集中人物的情感状态。本发明使用扩展卡尔曼滤波网络模型,缓解了连续情感状态的不确定性带来的负面影响,提高了模型的泛化能力。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法。
背景技术
连续情感识别旨在利用听视觉信号等序列数据来估计人的情感状态的变化轨迹,其在驾驶员实时精神状态监控及预警、孤寡独居老人的智能监护与陪伴、智能机器人、自闭症和抑郁症的辅助诊断及治疗、智慧课堂与个性化教育等场景中具有巨大应用潜力。近年来,人们已经开发了各种自动情感识别系统。由于视觉序列数据的复杂动态结构,连续情感识别依然是一项非常具有挑战性的任务。
目前连续情感识别方法可以大致划分为两类:
一是基于递归神经网络的方法,在连续情感识别任务中,基于递归神经网络的模型被广泛用于对视觉数据的复杂时间结构建模。J.Lee等人在文献“J.Lee,S.Kim,S.Kim,and K.Sohn,Multi-modal recurrent attention networks for facial expressionrecognition,IEEE Transactions on Image Processing,vol.29,pp.6977–6991,2020.”中提出一种基于递归注意力机制的连续情感识别方法。考虑到情感状态的不确定性,这一类方法通常在递归神经网络的输出上利用简单的滑动平均。而基于滑动平均的后处理相当于施加了一个无限强的先验在连续情感状态的时间结构上,该处理过于简单且难以解释。
二是基于贝叶斯滤波的方法,这种方法利用基于概率图的状态空间模型来为情感状态的不确定性进行建模。T.Dang等人在文献“T.Dang,V.Sethu,and E.Ambikairajah,Dynamic multi-rater gaussian mixture regression incorporating temporaldependencies ofemotion uncertainty using Kalman filters,in 2018IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),IEEE,2018,pp.4929–4933.”中提出一种基于高斯混合回归模型的连续情感识别方法,其将卡尔曼滤波引入高斯混合回归模型来建模情感状态的不确定性。这一类方法虽然可以显式地对情感状态的不确定性进行建模,但是由于概率图模型的推断难度大,使得这一类方法的非线性拟合能力非常有限。另外,该方法由多个子模型组成,并被分别单独优化,这可能导致次优的优化结果。
发明内容
本发明的目的在于针对上述现有方法的不足,提出一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法,解决现有方法不能很好建模连续情感状态的不确定性的问题。
为实现上述目的,本发明采用的技术方案为:
一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法,包括以下步骤:
S1,获取自然场景下连续情感数据库,包括人脸视频数据及其帧级别的情感标注;
S2,将原始视频数据划分为训练集和测试集,并对数据集进行预处理操作;
S3,构建基于扩展卡尔曼滤波神经网络的视觉连续情感识别模型:
首先将情感状态定义为唤醒度或愉悦度与其一阶、二阶差分形成的3维向量然后利用状态空间模型对情感状态的不确定性建模,并将拓展卡尔曼滤波的推断计算过程形式化为一种扩展卡尔曼滤波神经网络模块,最终形成的视觉连续情感识别模型包括以下步骤:
ot=σ(Wzht+bz).
其中ct是t时刻细胞状态,h0和c0被设置为0向量,ot为EKF模块的观测量,Wz和bz分别为权重和偏置;
(3)将动态特征编码输入扩展卡尔曼滤波神经网络模块,其计算过程由扩展卡尔曼滤波过程定义,EKF网络模块中的动态转换模型将根据上一时刻的情感状态及其分布预测当前时刻的情感状态及其分布,然后利用其观测模型来修正当前时刻的情感状态及其分布,如下式所示:
其中,该模块的输入为当前时刻情感状态的观察ot、上一时刻的情感状态zt-1及其不确定性度量Pt-1;输出为当前时刻情感状态zt及其不确定性Pt;
h为另一个单隐层神经网络,用于模拟情感状态的观测过程,φ为其可学习的参数;观测过程的噪声被假设符合0均值、协方差R的高斯分布,R为可学习的参数,zt为预测的情感状态,Pt为估计的情感状态不确定性度量,
S4,建立基于一致性相关系数的损失函数优化目标,并使用随机梯度下降法和误差反向传播算法优化模型参数;
S5,用训练好的模型推断测试集中人物的情感状态。
步骤S1进一步包括:
使用摄像机记录多个非特定人的面部视频或收集公开的人脸视频数据并标注连续情感状态,得到大规模连续情感数据库。
步骤S2所述预处理操作具体包括:
对原始视频数据进行人脸检测,基于检测到的人脸区域图像提取手工设计特征或者深度学习特征。
步骤S4所述基于一致性相关系数的损失函数具体包括步骤:
(1)定义优化目标
(2)利用Adam算法,通过上述步骤定义的目标函数来迭代优化模型参数θ。
与现有技术相比,本发明的有益技术效果为:
(1)本发明中LSTM模块作为一个深度学习黑盒,被用于对复杂视觉数据的时间结构建模,其输出被当作情感状态的观测。EKF模块作为一种“手工设计”的强关系归纳偏置先验,被嵌入神经网络模型中用于对观测与情感隐状态之间的时空关系进行建模,其对不可靠的连续情感预测及标注有很好的鲁棒性,缓解了连续情感状态的不确定性带来的负面影响。将EKF整合到基于LSTM的深度学习模型中后,得到了一个集两者优点于一体、优势互补的视觉连续情感识别模型,其可解释性强、拟合能力强,并且易于求解,可用于情感机器人、元宇宙等场景。
(2)由于EKF是一种特殊的基于领域知识的结构,蕴含了很强的关系归纳偏置,从组合泛化的角度来看,在情感识别模型中引入强关系归纳偏置,可以提高样本利用率、减低模型参数、进而提高模型的泛化能力。
附图说明
图1为本发明的流程图;
图2为本发明实验中连续情感预测结果示意图;其中,实曲线为视频中人物的唤醒度标注值,虚曲线为唤醒度预测值。虚线框内为预测误差比较大的视频帧,实线框内为预测误差比较小的视频帧。
具体实施方式
为了更清楚地说明本发明的技术方案,下面将通过实施例和附图对各个模块作简单地介绍。
实施例:
参照图1,本发明实现的步骤如下:
步骤1:对训练和测试集数据进行人脸检测预处理,提取3D人脸场流特征(3DSF),该方法基于文献“E.Pei,M.C.Oveneke,Y.Zhao,D.Jiang,and H.Sahli,“Monocular 3dfacial expression features for continuous affect recognition,”IEEETransactions onMultimedia,2020.”。
其中ct是t时刻细胞状态,h0和c0被设置为0向量,
然后h0被进一步输入到如下全连接层,其输出ot即为EKF模块的观测量:
ot=σ(Wzht+bz),
其中Wz和bz分别为权重和偏置。
步骤4:将观测ot输入EKF网络模块,EKF网络模块的计算过程如下:
h为另一个单隐层神经网络,用于模拟情感状态的观测过程,φ为其可学习的参数;观测过程的噪声被假设符合0均值、协方差R的高斯分布,R为可学习的参数。zt为预测的情感状态,Pt为估计的情感状态不确定性度量,
另外,动态转换过程噪声和观测噪声被假设各向同性,因此Q和R是对角矩阵。为了确保Q和R是正定矩阵,我们用q和r重新参数化Q和R,其中Q=Diag(Softplus(q)),R=Diag(Softplus(r))。Diag是向量生成对角矩阵的函数,Softplus是激励函数。
步骤5:定义优化目标
步骤6:训练模型参数。利用Adam算法,通过最小化步骤5定义的目标函数来迭代优化模型参数θ。
步骤7:测试训练好的模型。将步骤1中得到测试数据特征输入到步骤6得到的模型中,得到模型在测试集上的情感预测结果,然后与其真实标注值对比,并计算CCC和RMSE指标。
实验结果:
为了证明本发明方法的有效性,我们在RECOLA数据集上进行了验证实验,并计算了CCC和RMSE指标,如表1所示。
表1:不同方法在RECOLA数据集上的性能对比
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法,其特征在于,包括以下步骤:
S1,获取自然场景下连续情感数据库,包括人脸视频数据及其帧级别的情感标注;
S2,将原始视频数据划分为训练集和测试集,并对数据集进行预处理操作;
S3,构建基于扩展卡尔曼滤波神经网络的视觉连续情感识别模型:
首先将情感状态定义为唤醒度或愉悦度与其一阶、二阶差分形成的3维向量然后利用状态空间模型对情感状态的不确定性建模,并将拓展卡尔曼滤波的推断计算过程形式化为一种扩展卡尔曼滤波神经网络模块,最终形成的视觉连续情感识别模型包括以下步骤:
ot=σ(Wzht+bz).
其中ct是t时刻细胞状态,h0和c0被设置为0向量,ot为EKF模块的观测量,Wz和bz分别为权重和偏置;
(3)将动态特征编码输入扩展卡尔曼滤波神经网络模块,其计算过程由扩展卡尔曼滤波过程定义,EKF网络模块中的动态转换模型将根据上一时刻的情感状态及其分布预测当前时刻的情感状态及其分布,然后利用其观测模型来修正当前时刻的情感状态及其分布,如下式所示:
其中,该模块的输入为当前时刻情感状态的观察ot、上一时刻的情感状态zt-1及其不确定性度量Pt-1;输出为当前时刻情感状态zt及其不确定性Pt;
h为另一个单隐层神经网络,用于模拟情感状态的观测过程,φ为其可学习的参数;观测过程的噪声被假设符合0均值、协方差R的高斯分布,R为可学习的参数,zt为预测的情感状态,Pt为估计的情感状态不确定性度量,
S4,建立基于一致性相关系数的损失函数优化目标,并使用随机梯度下降法和误差反向传播算法优化模型参数;
S5,用训练好的模型推断测试集中人物的情感状态。
2.根据权利要求1所述的方法,其特征在于,步骤S1进一步包括:
使用摄像机记录多个非特定人的面部视频或收集公开的人脸视频数据并标注连续情感状态,得到大规模连续情感数据库。
3.根据权利要求1所述的方法,其特征在于,步骤S2所述预处理操作具体包括:
对原始视频数据进行人脸检测,基于检测到的人脸区域图像提取手工设计特征或者深度学习特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310057109.8A CN116052254A (zh) | 2023-01-19 | 2023-01-19 | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310057109.8A CN116052254A (zh) | 2023-01-19 | 2023-01-19 | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052254A true CN116052254A (zh) | 2023-05-02 |
Family
ID=86113071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310057109.8A Pending CN116052254A (zh) | 2023-01-19 | 2023-01-19 | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052254A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116259012A (zh) * | 2023-05-16 | 2023-06-13 | 新疆克拉玛依市荣昌有限责任公司 | 嵌入式增压柴油罐的监测系统及其方法 |
CN117192063A (zh) * | 2023-11-06 | 2023-12-08 | 山东大学 | 基于耦合卡尔曼滤波数据同化的水质预测方法及系统 |
-
2023
- 2023-01-19 CN CN202310057109.8A patent/CN116052254A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116259012A (zh) * | 2023-05-16 | 2023-06-13 | 新疆克拉玛依市荣昌有限责任公司 | 嵌入式增压柴油罐的监测系统及其方法 |
CN117192063A (zh) * | 2023-11-06 | 2023-12-08 | 山东大学 | 基于耦合卡尔曼滤波数据同化的水质预测方法及系统 |
CN117192063B (zh) * | 2023-11-06 | 2024-03-15 | 山东大学 | 基于耦合卡尔曼滤波数据同化的水质预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427877B (zh) | 一种基于结构信息的人体三维姿态估算的方法 | |
CN110321603B (zh) | 一种用于航空发动机气路故障诊断的深度计算模型 | |
CN114220271A (zh) | 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质 | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN109841226A (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111898635A (zh) | 神经网络的训练方法、数据获取方法和装置 | |
CN109145516B (zh) | 一种基于改进型极限学习机的模拟电路故障识别方法 | |
CN111612243A (zh) | 交通速度预测方法、系统及存储介质 | |
CN110570035B (zh) | 同时建模时空依赖性和每日流量相关性的人流量预测系统 | |
CN111462191B (zh) | 一种基于深度学习的非局部滤波器无监督光流估计方法 | |
CN112966432A (zh) | 一种锂离子电池剩余有效寿命预测方法及装置 | |
CN110244689A (zh) | 一种基于判别性特征学习方法的auv自适应故障诊断方法 | |
CN112949828A (zh) | 一种基于图学习的图卷积神经网络交通预测方法及系统 | |
CN107704924B (zh) | 同步自适应时空特征表达学习模型的构建方法及相关方法 | |
CN111860787A (zh) | 一种含有缺失数据的耦合有向图结构流量数据的短期预测方法及装置 | |
CN113505924A (zh) | 一种基于级联时空特征的信息传播预测方法及系统 | |
CN115168443A (zh) | 一种基于gcn-lstm和注意力机制的异常检测方法及系统 | |
CN112146879A (zh) | 一种滚动轴承故障智能诊断方法及其系统 | |
CN112241802A (zh) | 一种风电功率的区间预测方法 | |
CN117148197A (zh) | 一种基于集成Transformer模型的锂离子电池寿命预测方法 | |
Henderson et al. | Spike event based learning in neural networks | |
Utku et al. | Deep learning based prediction model for the next purchase | |
Qin et al. | Remaining useful life prediction using temporal deep degradation network for complex machinery with attention-based feature extraction | |
CN116030537B (zh) | 基于多分支注意力图卷积的三维人体姿态估计方法 | |
CN116935128A (zh) | 一种基于可学习提示的零样本异常图像检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |