CN113057633B - 多模态情绪压力识别方法、装置、计算机设备及存储介质 - Google Patents
多模态情绪压力识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113057633B CN113057633B CN202110324847.5A CN202110324847A CN113057633B CN 113057633 B CN113057633 B CN 113057633B CN 202110324847 A CN202110324847 A CN 202110324847A CN 113057633 B CN113057633 B CN 113057633B
- Authority
- CN
- China
- Prior art keywords
- data
- deep learning
- learning model
- training sample
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0033—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0033—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
- A61B5/004—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room adapted for image acquisition of a particular organ or body part
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0062—Arrangements for scanning
- A61B5/0064—Body surface scanning
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0077—Devices for viewing the surface of the body, e.g. camera, magnifying lens
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Surgery (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Psychiatry (AREA)
- Physiology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Child & Adolescent Psychology (AREA)
- Developmental Disabilities (AREA)
- Educational Technology (AREA)
- Hospice & Palliative Care (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Cardiology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,该方法包括:获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。本发明选取的多模态数据在表征情绪压力时存在内在关联,并通过深度学习模型充分挖掘多模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。
Description
技术领域
本发明属于人工智能领域,特别是涉及一种多模态情绪压力识别方法、装置、计算机设备及存储介质。
背景技术
情绪压力是指个体在焦虑或恐惧等情绪的作用下形成的心理紧张反应或状态。现代社会,随着工作、生活节奏越来越快,人们面临着各种各样的压力。如社会环境压力、工作压力、个人成就压力等。研究表明,人长期处于情绪压力下会产生一系列的不良后果,对人的身心健康造成直接的损害。因此,对人的情绪压力进行识别和评估具有重要的意义。目前,已有研究者利用人的情感行为例如面部表情、语音、姿态等,和生理模式例如脑电、心电、皮肤电等,两大类模态对人的情绪例如开心、愤怒、悲伤等进行研究,一般是利用传统的特征工程对数据进行处理,结合经典的机器学习算法如SVM、随机森林等进行情绪识别,或利用各种深度学习网络,使用网络结构自动从数据中提取特征,实现端到端的情绪识别。
目前对人的情绪识别的研究,主要集中在国际知名数据库所提供的几种特定情绪如开心、愤怒、悲伤等,较少有研究者关注人的压力;而且,在利用人的生理数据进行研究时,脑电、心电等数据需要专业的仪器进行采集,在现实生活中难以进行广泛的应用。此外,在现有单模态情绪压力识别中,识别算法较多为传统的机器学习算法,准确率不高。
发明内容
为克服上述现有技术的不足,本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,利用多模态的信息对情绪压力进行识别,挖掘不同模态信息与情绪压力的内在关联,从而提高情绪压力识别的准确率。
本发明的第一个目的在于提供一种多模态情绪压力识别方法。
本发明的第二个目的在于提供一种多模态情绪压力识别装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种多模态情绪压力识别方法,所述方法包括:
获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;
利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;
利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;
将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。
进一步的,所述获取多模态数据并进行预处理,得到训练样本集,具体包括:
获取人脸视频图像数据和光电容积脉搏波数据;
将所述人脸视频图像数据转化为人脸图片数据,对所述人脸图片数据进行人脸检测与人脸对齐,将人脸图片数据转化为只含人脸关键区域的图片;
将光电容积脉搏波数据进行信号去噪,与所述只含人脸关键区域的图片进行时间上的对齐,分别得到人脸图片的训练样本和光电容积脉搏波的训练样本;
根据人脸图片的训练样本和光电容积脉搏波的训练样本,构成训练样本集。
进一步的,所述利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛,具体包括:
将所述训练样本集中的人脸图片训练样本输入至注意力卷积神经网络,得到人脸图片的空间信息的特征向量;
将得到的所述人脸图片的空间信息的特征向量与所述训练样本集中的光电容积脉搏波样本的特征向量进行拼接,得到多模态信息融合的特征向量;
将所述多模态信息融合的特征向量输入至门控循环单元,通过门控循环单元进行处理,得到蕴含时间信息的特征向量;
将蕴含时间信息的特征向量输入全连接层,经过全连接层处理后,输出情绪压力识别结果;
将交叉熵作为损失函数,采用反向传播算法更新深度学习模型的模型参数。
进一步的,所述通过门控循环单元进行处理,得到蕴含时间信息的特征向量,如下式:
其中:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
式中,X为多模态信息融合的特征向量中的每个特征向量,xt为特征向量X在t时刻的数据,ht为t时刻门控循环单元输出的蕴含时间信息的特征向量,zt为门控循环单元的更新门,ht-1为上一个时刻门控循环单元输出的蕴含时间信息的特征向量,传递了上一个时刻的信息,rt为门控循环单元的重置门,Wr、Wz、W为门控循环单元需要学习的权重参数。
进一步的,所述门控循环单元输出的特征向量经过全连接层后,输出情绪压力识别结果,具体包括:
所述门控循环单元输出的特征向量经过全连接层后进行线性变换,得到两个代表压力类别的输出值;
根据两个代表压力类别的输出值,通过Softmax函数得到对应压力类别的两个概率值,将概率值较大的类别作为压力识别的结果。
进一步的,所述将交叉熵作为损失函数,采用反向传播算法更新深度学习模型的模型参数,具体包括:
所述将交叉熵作为损失函数,损失函数L的公式如下:
采用反向传播算法对损失函数求导,得到损失函数的梯度;重复执行使用损失函数的梯度,并沿梯度方向更新深度学习模型参数,从而优化深度学习模型参数。
进一步的,所述注意力卷积神经网络包括卷积层、注意力层、全连接层,所述注意力层包括通道注意力模块和空间注意力模块。
本发明的第二个目可以通过采取如下技术方案达到:
一种多模态情绪压力识别装置,所述装置包括:
获取多模态数据模块,用于获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;
构建深度学习模型模块,用于利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;
训练深度学习模型模块,用于利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;
识别情绪压力模块,用于将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的多模态情绪压力识别方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的多模态情绪压力识别方法。
与现有技术相比,本发明具有如下优点与有益效果:
1、本发明的深度学习模型基于注意力机制与门控循环单元,区别于普通的神经网络模型,深度学习模型充分挖掘两个模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。
2、本发明实现情绪压力的识别是基于人脸视频图像与光电容积脉搏波,所选取的两个模态的数据在表征人的压力时存在内在关联,能够进一步地提高情绪压力识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的多模态情绪压力识别方法的流程图。
图2为本发明实施例1的多模态数据进行预处理的结构示意图。
图3为本发明实施例1的深度学习模型的结构示意图。
图4为本发明实施例1的深度学习模型的注意力层的结构示意图。
图5为本发明实施例2的多模态情绪压力识别装置的的结构框图。
图6为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例1
本实施例提供了一种多模态情绪压力识别方法,该方法对在心理学实验范式下采集到的人脸视频图像和光电容积脉搏波进行数据预处理,并构建训练样本。使用注意力卷积神经网络、门控循环单元与全连接层构建深度学习模型。在训练过程中,通过注意力卷积神经网络提取人脸图片的特征向量,与光电容积脉搏波的特征向量融合后,共同输入至门控循环单元,得到得到蕴含时间信息的特征向量,从而更好地提取训练样本中所蕴含的空间信息和时间信息,最后将蕴含时间信息的特征向量输入至全连接层获取识别结果。本实施例的模态情绪压力识别方法能够利用多模态的信息对人的情绪压力进行识别,能够挖掘不同模态信息与人的情绪压力的内在关联,从而提高识别准确率。
如图1所示,本实施例的多模态情绪压力识别方法包括以下步骤:
S101、获取多模态数据并进行数据预处理,得到训练样本集。
具体的,本实施例中的多模态数据包括人脸视频图像数据及光电容积脉搏波数据。
S1011、获取多模态数据。
在心理学实验范式压力诱发情况下,利用摄像头和可穿戴手环从60位被试者中采集人脸视频图像及光电容积脉搏波数据。视频图像数据及光电容积脉搏波数据构成自建数据集。在本实施例中,自建数据集包含被试者在静息态和压力态两种情绪状态下所采集到的数据。表1为自建数据集中两个子集的详细统计结果。
表1自建数据集的详细统计结果
S1012、对获取的多模态数据进行预处理,得到多模态数据的训练样本集。
如图2所示,对获取的人脸视频图像数据进行数据预处理,包括如下步骤:
1)使用FFmpeg多媒体处理工具将人脸视频图像数据转化为人脸图片数据,每秒视频图像数据中截取8帧图像数据;
2)使用以卷积神经网络为核心的MTCNN算法对人脸图片数据进行人脸检测与人脸对齐,从人脸图片数据中筛选出只含人脸关键区域的图片;
3)将光电容积脉搏波进行信号去噪,与得到的只含人脸关键区域的图片进行时间上的对齐,分别得到人脸图片的训练样本和光电容积脉搏波的训练样本,其中,每个人脸图片的训练样本含一张图片,每个光电容积脉搏波的训练样本含0.125秒的信号,光电容积脉搏波的采样率为64HZ。
4)根据人脸图片的训练样本和光电容积脉搏波的训练样本,构成训练样本集。
S102、构建深度学习模型。
如图3所示,深度学习模型由注意力卷积神经网络、门控循环单元与全连接层构成。注意力卷积神经网络包括卷积层、注意力层、全连接层,其中,注意力层包括通道注意力模块和空间注意力模块,如图4所示。门控循环单元包括输入层、隐藏层和输出层。
S103、利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛。
使用训练样本集训练深度学习模型直至收敛,具体包含如下步骤:
1)将训练样本集训中的人脸图片的训练样本输入至注意力卷积神经网络,提取蕴含人脸图片的空间信息的特征向量,与训练样本集训中的光电容积脉搏波样本的特征向量进行拼接,是使用Pytorch将两个特征向量的张量按维度1进行合并而实现两个特征向量的拼接,从而得到多模态信息融合的特征向量,实现了多模态数据信息的融合。
2)将融合后的特征向量输入至门控循环单元。对多模态信息融合的特征向量中的每个特征向量X,设定xt为特征向量X在t时刻的数据,在t时刻,计算门控循环单元的输出ht:
Zt=σ(Wz·[ht-1,xt])
其中,rt为门控循环单元的重置门,rt=σ(Wr·[ht-1,xt]),Wr、Wz、W为门控循环单元需要学习的权重参数。
3)多模态信息融合的特征向量输入至门控循环单元后,获得蕴含时间信息的特征向量,经过全连接层后做线性变换,得到代表压力类别的两个输出值,再经过Softmax层,输出对应压力类别的两个概率值,概率值较大的类别即为压力识别的结果。
4)将交叉熵作为损失函数,使用SGD算法更新深度学习模型的模型参数。
将交叉熵作为损失函数,损失函数L的公式如下:
通过反向传播算法对损失函数求导,得到损失函数的梯度;重复使用损失函数的梯度,并沿梯度方向更新深度学习模型参数;从而逐渐靠近模型的最优参数,通过上述步骤更新深度学习模型的模型参数,提高模型识别情绪压力的准确率。
由注意力卷积神经网络、门控循环单元与全连接层构建深度学习模型;使用得到的训练样本训练深度学习模型直至收敛;在训练过程中,通过注意力机制对训练样本中的人脸图像的特征图赋予不同权重,转化得到能够表征人脸图像空间信息的特征向量,将人脸图像的特征向量与光电容积脉搏波数据的特征向量在时间上对齐后进行融合,将这些特征向量输入至门控循环单元,以进一步提取更深层次的特征,挖掘训练样本的时间信息,最后通过全连接层获取识别结果。
S104、将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。
将待识别样本输入至训练好的深度学习模型,通过深度学习模型的注意力卷积神经网络对训练样本的特征进行提取,将多模态信息融合后的待识别样本的特征向量输入到门控循环单元和全连接层获取情绪压力识别结果。
实施例2
如图5所示,本实施例提供了一种多模态情绪压力识别装置,包括获取多模态数据模块501、构建深度学习模型模块502、训练深度学习模型模块503和情绪压力识别模块504,各个模块的具体功能如下:
获取多模态数据模块501,用于获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据。具体为:获取人在心理学实验范式压力诱发状态下的人脸视频图像与光电容积脉搏波生理信号,对两个模态的数据进行数据预处理并构建训练样本集。
构建深度学习模型模块502,用于利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型。深度学习模型由注意力卷积神经网络、门控循环单元与全连接层构成。注意力卷积神经网络包括卷积层、注意力层、全连接层,其中,注意力层包括通道注意力模块和空间注意力模块。
训练深度学习模型模块503,用于利用获得的训练样本集对深度学习模型进行训练,直至深度学习模型收敛。在训练过程中,通过注意力机制对训练样本中的人脸图像的特征图赋予不同权重,转化得到能够表征训练样本空间信息的特征向量,将人脸图像的特征向量与光电容积脉搏波的特征向量在时间上对齐后进行融合,将这些特征向量输入至门控循环单元进一步提取更深层次的特征,挖掘训练样本的时间信息,最后通过全连接层获取识别结果。
识别情绪压力模块504,用于将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。将待识别样本输入至训练好的深度学习模型,通过模型的注意力机制对训练样本的特征进行提取,将多模态信息融合后的待识别样本的特征向量输入到门控循环单元和全连接层获取情绪压力识别结果。
实施例3
如图6所示,本实施例提供了一种计算机设备,该计算机设备可以是计算机、服务器等,包括通过系统总线601连接的处理器602、存储器、输入装置603、显示器604和网络接口605。其中,处理器602用于提供计算和控制能力,存储器包括非易失性存储介质606和内存储器607,该非易失性存储介质606存储有操作系统、计算机程序和数据库,该内存储器607为非易失性存储介质606中的操作系统和计算机程序的运行提供环境,计算机程序被处理器602执行时,实现上述实施例1的多模态情绪压力识别方法,如下:
获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;
利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;
利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;
将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。实施例4
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时,实现上述实施例1的多模态情绪压力识别方法,如下:
获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;
利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;
利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;
将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以是计算机设备中所包含的;也可以是单独存在,而未装配入该计算机设备中。可以以一种或多种程序设计语言或其组合来编写用于执行本实施例的操作的计算机程序,上述程序设计语言包括面向对象的程序设计语言-诸如Java、Python、C++,还包括常规的过程式程序设计语言-诸如C语言或类似的程序设计语言。程序可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—-包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,上述实施例中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与上述实施例公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
综上所述,本发明通过构建深度学习模型,并利用训练样本对深度学习模型进行训练,在训练过程中,通过注意力卷积神经网络提取人脸图片的特征向量,与光电容积脉搏波的特征向量融合后,输入至门控循环单元,得到蕴含时间信息的特征向量,从而更好地提取训练样本中所蕴含的空间信息和时间信息,使得深度学习模型更关注数据中更能表征情绪压力的部分,提高了情绪压力识别的准确率。
本领域技术人员应当理解,本发明不限于上述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (5)
1.一种多模态情绪压力识别方法,其特征在于,所述方法包括:
获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;
利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;
利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;
将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果;
所述获取多模态数据并进行预处理,得到训练样本集,具体包括:
获取人脸视频图像数据和光电容积脉搏波数据;
将人脸视频图像数据转化为人脸图片数据,每秒视频图像数据中截取8帧图片数据;
使用以卷积神经网络为核心的MTCNN算法对人脸图片数据进行人脸检测与人脸对齐,从人脸图片数据中筛选出只含人脸关键区域的图片;
将光电容积脉搏波进行信号去噪,与得到的只含人脸关键区域的图片进行时间上的对齐,分别得到人脸图片的训练样本和光电容积脉搏波的训练样本,其中,每个人脸图片的训练样本含一张图片,每个光电容积脉搏波的训练样本含0.125秒的信号,光电容积脉搏波的采样率为64HZ;
根据人脸图片的训练样本和光电容积脉搏波的训练样本,构成训练样本集;
所述利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛,具体包括:
将训练样本集训中的人脸图片的训练样本输入至注意力卷积神经网络,提取蕴含人脸图片的空间信息的特征向量,与训练样本集中的光电容积脉搏波样本的特征向量进行拼接,是使用Pytorch将两个特征向量的张量按维度1进行合并而实现两个特征向量的拼接,从而得到多模态信息融合的特征向量,实现了多模态数据信息的融合;
将多模态信息融合的特征向量输入至门控循环单元,对多模态信息融合的特征向量中的每个特征向量X,设定xt为特征向量X在t时刻的数据,在t时刻,计算门控循环单元的输出,得到蕴含时间信息的特征向量ht:
Zt=σ(Wz·[ht-1,xt])
其中,rt为门控循环单元的重置门,rt=σ(Wr·[ht-1,xt]),Wr、Wz、W为门控循环单元需要学习的权重参数;
将蕴含时间信息的特征向量输入全连接层,经过全连接层后做线性变换,得到代表压力类别的两个输出值,再经过Softmax层,输出对应压力类别的两个概率值,概率值较大的类别即为压力识别的结果;
将交叉熵作为损失函数,损失函数L的公式如下:
通过反向传播算法对损失函数求导,得到损失函数的梯度;重复使用损失函数的梯度,并沿梯度方向更新深度学习模型参数;从而逐渐靠近模型的最优参数;
在训练过程中,通过注意力机制对训练样本中的人脸图像的特征图赋予不同权重,转化得到能够表征人脸图像空间信息的特征向量,将人脸图像的特征向量与光电容积脉搏波数据的特征向量在时间上对齐后进行融合,将这些特征向量输入至门控循环单元,以进一步提取更深层次的特征,挖掘训练样本的时间信息,最后通过全连接层获取识别结果。
2.根据权利要求1所述的多模态情绪压力识别方法,其特征在于,所述注意力卷积神经网络包括卷积层、注意力层、全连接层,所述注意力层包括通道注意力模块和空间注意力模块。
3.一种多模态情绪压力识别装置,其特征在于,所述装置包括:
获取多模态数据模块,用于获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;
构建深度学习模型模块,用于利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;
训练深度学习模型模块,用于利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;
识别情绪压力模块,用于将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果;
所述获取多模态数据并进行预处理,得到训练样本集,具体包括:
获取人脸视频图像数据和光电容积脉搏波数据;
将人脸视频图像数据转化为人脸图片数据,每秒视频图像数据中截取8帧图片数据;
使用以卷积神经网络为核心的MTCNN算法对人脸图片数据进行人脸检测与人脸对齐,从人脸图片数据中筛选出只含人脸关键区域的图片;
将光电容积脉搏波进行信号去噪,与得到的只含人脸关键区域的图片进行时间上的对齐,分别得到人脸图片的训练样本和光电容积脉搏波的训练样本,其中,每个人脸图片的训练样本含一张图片,每个光电容积脉搏波的训练样本含0.125秒的信号,光电容积脉搏波的采样率为64HZ;
根据人脸图片的训练样本和光电容积脉搏波的训练样本,构成训练样本集;
所述利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛,具体包括:
将训练样本集训中的人脸图片的训练样本输入至注意力卷积神经网络,提取蕴含人脸图片的空间信息的特征向量,与训练样本集训中的光电容积脉搏波样本的特征向量进行拼接,是使用Pytorch将两个特征向量的张量按维度1进行合并而实现两个特征向量的拼接,从而得到多模态信息融合的特征向量,实现了多模态数据信息的融合;
将多模态信息融合的特征向量输入至门控循环单元,对多模态信息融合的特征向量中的每个特征向量X,设定xt为特征向量X在t时刻的数据,在t时刻,计算门控循环单元的输出,得到蕴含时间信息的特征向量ht:
Zt=σ(Wz·[ht-1,xt])
其中,rt为门控循环单元的重置门,rt=σ(Wr·[ht-1,xt]),Wr、Wz、W为门控循环单元需要学习的权重参数;
将蕴含时间信息的特征向量输入全连接层,经过全连接层后做线性变换,得到代表压力类别的两个输出值,再经过Softmax层,输出对应压力类别的两个概率值,概率值较大的类别即为压力识别的结果;
将交叉熵作为损失函数,损失函数L的公式如下:
通过反向传播算法对损失函数求导,得到损失函数的梯度;重复使用损失函数的梯度,并沿梯度方向更新深度学习模型参数;从而逐渐靠近模型的最优参数;
在训练过程中,通过注意力机制对训练样本中的人脸图像的特征图赋予不同权重,转化得到能够表征人脸图像空间信息的特征向量,将人脸图像的特征向量与光电容积脉搏波数据的特征向量在时间上对齐后进行融合,将这些特征向量输入至门控循环单元,以进一步提取更深层次的特征,挖掘训练样本的时间信息,最后通过全连接层获取识别结果。
4.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-2中任一项所述的多模态情绪压力识别方法。
5.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-2中任一项所述的多模态情绪压力识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110324847.5A CN113057633B (zh) | 2021-03-26 | 2021-03-26 | 多模态情绪压力识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110324847.5A CN113057633B (zh) | 2021-03-26 | 2021-03-26 | 多模态情绪压力识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113057633A CN113057633A (zh) | 2021-07-02 |
CN113057633B true CN113057633B (zh) | 2022-11-01 |
Family
ID=76563893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110324847.5A Active CN113057633B (zh) | 2021-03-26 | 2021-03-26 | 多模态情绪压力识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113057633B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362915B (zh) * | 2021-07-16 | 2022-08-02 | 上海大学 | 一种基于多模态学习的材料性能预测方法及系统 |
CN113822178B (zh) * | 2021-09-06 | 2024-04-02 | 中车工业研究院有限公司 | 基于跨模态注意力机制的焊缝缺陷识别方法 |
CN113855020A (zh) * | 2021-09-18 | 2021-12-31 | 中国信息通信研究院 | 用于情绪识别的方法及装置、计算机设备、存储介质 |
CN114052675B (zh) * | 2021-11-18 | 2023-08-22 | 广东电网有限责任公司 | 一种基于融合注意力机制的脉搏异常判别方法及系统 |
CN114463594A (zh) * | 2021-11-19 | 2022-05-10 | 中国华能集团清洁能源技术研究院有限公司 | 多模态深度学习的发电设备异常一体化识别方法及设备 |
CN114424940A (zh) * | 2022-01-27 | 2022-05-03 | 山东师范大学 | 基于多模态时空特征融合的情绪识别方法及系统 |
CN114565964B (zh) * | 2022-03-03 | 2024-09-27 | 网易(杭州)网络有限公司 | 情绪识别模型的生成方法、识别方法、装置、介质和设备 |
CN114332825B (zh) * | 2022-03-10 | 2022-06-17 | 中汽信息科技(天津)有限公司 | 基于深度学习的道路地形分布识别方法、设备和存储介质 |
CN114694234B (zh) * | 2022-06-02 | 2023-02-03 | 杭州智诺科技股份有限公司 | 情绪识别方法、系统、电子设备和存储介质 |
CN115049077A (zh) * | 2022-06-06 | 2022-09-13 | 北京宾理信息科技有限公司 | 用于目标任务的机器学习模型训练方法、装置及设备 |
CN116383618A (zh) * | 2023-03-01 | 2023-07-04 | 北京师范大学 | 一种基于多模态数据的学习专注度评估方法及装置 |
CN117898685B (zh) * | 2023-12-29 | 2024-06-18 | 中南民族大学 | 一种基于不同情绪状态的压力检测方法及装置 |
CN117611845B (zh) * | 2024-01-24 | 2024-04-26 | 浪潮通信信息系统有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697399A (zh) * | 2017-10-24 | 2019-04-30 | 普天信息技术有限公司 | 一种人脸表情识别方法及装置 |
CN110619301A (zh) * | 2019-09-13 | 2019-12-27 | 道和安邦(天津)安防科技有限公司 | 一种基于双模态信号的情绪自动识别方法 |
CN111310672A (zh) * | 2020-02-19 | 2020-06-19 | 广州数锐智能科技有限公司 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
CN111597955A (zh) * | 2020-05-12 | 2020-08-28 | 博康云信科技有限公司 | 基于深度学习的表情情绪识别的智能家居控制方法及装置 |
CN112418095A (zh) * | 2020-11-24 | 2021-02-26 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10517521B2 (en) * | 2010-06-07 | 2019-12-31 | Affectiva, Inc. | Mental state mood analysis using heart rate collection based on video imagery |
WO2016143759A1 (ja) * | 2015-03-06 | 2016-09-15 | 株式会社 脳機能研究所 | 感情推定装置及び感情推定方法 |
CN110751015B (zh) * | 2019-09-02 | 2023-04-11 | 合肥工业大学 | 面部红外热图的灌注优化及人工智能情绪监测方法 |
CN111407243B (zh) * | 2020-03-23 | 2021-05-14 | 华南理工大学 | 一种基于深度学习的脉搏信号压力识别方法 |
CN112037179B (zh) * | 2020-08-11 | 2021-05-11 | 深圳大学 | 一种脑疾病诊断模型的生成方法、系统及设备 |
CN112216271B (zh) * | 2020-10-11 | 2022-10-14 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
-
2021
- 2021-03-26 CN CN202110324847.5A patent/CN113057633B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697399A (zh) * | 2017-10-24 | 2019-04-30 | 普天信息技术有限公司 | 一种人脸表情识别方法及装置 |
CN110619301A (zh) * | 2019-09-13 | 2019-12-27 | 道和安邦(天津)安防科技有限公司 | 一种基于双模态信号的情绪自动识别方法 |
CN111310672A (zh) * | 2020-02-19 | 2020-06-19 | 广州数锐智能科技有限公司 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
CN111597955A (zh) * | 2020-05-12 | 2020-08-28 | 博康云信科技有限公司 | 基于深度学习的表情情绪识别的智能家居控制方法及装置 |
CN112418095A (zh) * | 2020-11-24 | 2021-02-26 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113057633A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113057633B (zh) | 多模态情绪压力识别方法、装置、计算机设备及存储介质 | |
WO2021057423A1 (zh) | 图像处理方法、图像处理装置以及存储介质 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN111666845B (zh) | 基于关键帧采样的小样本深度学习多模态手语识别方法 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
Tajjour et al. | A novel hybrid artificial neural network technique for the early skin cancer diagnosis using color space conversions of original images | |
CN114092759A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
CN114581965A (zh) | 指静脉识别模型训练方法及识别方法、系统和终端 | |
CN116704585A (zh) | 一种基于质量感知的人脸识别方法 | |
Liu et al. | Facial expression recognition for in-the-wild videos | |
Liu et al. | Spiking-physformer: Camera-based remote photoplethysmography with parallel spike-driven transformer | |
CN117115312B (zh) | 一种语音驱动面部动画方法、装置、设备及介质 | |
CN114283301A (zh) | 一种基于Transformer的自适应医学影像分类方法及系统 | |
CN117874570A (zh) | 基于混合注意力机制的脑电信号多分类方法、设备及介质 | |
CN111144374B (zh) | 人脸表情识别方法及装置、存储介质和电子设备 | |
Li et al. | Harmamba: Efficient wearable sensor human activity recognition based on bidirectional selective ssm | |
CN116758402A (zh) | 图像人物关系识别方法、系统、设备及存储介质 | |
Wang et al. | Children's expression recognition based on a multiscale mixed attention mechanism | |
CN110210523A (zh) | 一种基于形状图约束的模特穿着衣物图像生成方法及装置 | |
CN114974571A (zh) | 多模态数据驱动的孤独症检测系统、设备及存储介质 | |
Uddin et al. | Deep learning-based human activity recognition using CNN, ConvLSTM, and LRCN | |
Hao | Human activity recognition based on WaveNet | |
Wu et al. | Dual-Constrained Dynamical Neural ODEs for Ambiguity-aware Continuous Emotion Prediction | |
Fu et al. | MM DialogueGAT-A Fusion Graph Attention Network for Emotion Recognition using Multi-model System | |
Shao et al. | Automatic Description Method for Sports Videos Based on Economic Management Effectiveness Visualization Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |