CN115349860A

CN115349860A - 一种多模态情绪识别方法、系统、设备及介质

Info

Publication number: CN115349860A
Application number: CN202210819867.4A
Authority: CN
Inventors: 唐浩雲; 青春美; 欧浩春; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-11-18
Anticipated expiration: 2042-07-13
Also published as: CN115349860B

Abstract

本发明公开了一种多模态情绪识别方法、系统、设备及介质，包括虚拟现实场景构建模块、信号采集模块、特征提取模块、特征重构模块及多模态情绪识别模型；对穿戴VR设备被试者通过VR情绪图片库进行情绪诱发，采集被测试者在虚拟现实设备下的生理信号，并进行特征提取，通过迁移学习对各个模块进行特征重构，通过多模态特征融合最终实现情绪分类。本发明提供虚拟现实诱发态下基于注意力机制和迁移学习的多模态情绪识别系统，利用不同生理信号的优点，探索并挖掘其在情绪识别中的作用，借助迁移学习和注意力机制，加强情绪识别系统的泛化能力，这不仅在实际应用中具有良好的发展前景，也开创了一种情绪识别系统新模式。

Description

一种多模态情绪识别方法、系统、设备及介质

技术领域

本发明涉及人机信号识别领域，特别涉及一种多模态情绪识别方法、系统、设备及介质。

背景技术

情绪来源于心理层面，是人类重要特征之一。常见的情绪分类的研究方法有三种：基于面部表情或语音实现情绪识别；基于外围生理信号实现情绪识别；基于中枢神经系统信号实现情绪识别。传统的检测指标如脑电信号(Electroencephalogram,EEG)，具有高时间分辨率、低空间分辨率、定位能力差等特点；在虚拟现实环境中，对比脑电信号，基于眼动信号的情绪识别方式更加便捷，具有较强的抗干扰性和较方便的采集模式等特点；而功能性近红外光谱技术(Functional Near-Infrared Spectroscopy,fNIRS)作为一种新兴的新型脑功能检测技术，具有低时间分辨率、高空间分辨率、对测量环境要求不高、抗干扰和抗电磁能力强、便于携带等特点。

多模态的脑功能检测方法能得到脑活动的多维信息，便于从不同方向对大脑神经活动进行描述，故脑电信号和眼动信号和功能性近红外光谱技术三种模式结合的情绪识别系统具有较高的研究价值。

不同个体之间存在生理、心理等方面的差异，对于同一种情绪诱发元，不同个体诱发的情绪可能并不完全相同。即使不同个体产生相同的情绪，其产生的生理信号也可能存在差异。故通过迁移学习来构建一种具有较强的泛化能力的情绪识别系统是一个较好的解决方案。

随着虚拟现实、元宇宙、人机交互、深度学习等领域的不断发展，基于VR设备下具有泛化能力的多模态的情绪分析有着广阔的应用前景和重要的意义。

发明内容

为了克服现有技术的上述缺点与不足，本发明的目的在于提供一种多模态情绪识别方法、系统、设备及介质。

本发明的目的通过以下技术方案实现：

一种多模态情绪识别方法，包括：

构建VR全景情绪图片库及数据集，并对数据集内的数据进行情绪标签；

用户佩戴VR设备，采用VR全景情绪图片库中的图片进行刺激，采集脑电信号、眼动信号及fNIRS信号；

使用稀疏自动编码器分别对脑电信号、眼动信号及fNIRS信号进行处理，提取输出层的特征，并将输出层特征作为输入层，继续处理，得到每一层的脑电信号、眼动信号及fNIRS信号特征；

通过模态间迁移函数学习进行特征重构，得到各模态重构特征；

将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征，输入残差多头自注意力模块，将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合，通过引入交谈多头注意力机制的多头互注意力模块，采用级联拼接进行特征融合，然后全局平均池化处理后分类输出情绪标签。

进一步，所述得到每一层的脑电信号、眼动信号及fNIRS信号特征，具体包括：

编码过程，具体是学习函数h的过程；

解码过程，具体是通过最小化重构误差来重构输入信号；

获得稀疏自动编码器每一层的脑电信号、眼动信号及fNIRS信号的特征。

进一步，所述通过模态间迁移函数学习进行特征重构，得到各模态重构特征，具体为：

将脑电模态、眼动模态及fNIRS模态三个模态两两组合，将模态投影到共同空间，在该空间中学习迁移函数，得到α、β的投影矩阵，并将该矩阵作为相应模态组合的迁移函数；

利用迁移函数得到各个模态第i层的迁移特征，进一步得到稀疏自动编码器每一层的输出；

通过反向传播BP算法微调权重

直至收敛。通过情感特征迁移学习后，能够得到各模态的重构特征，选择特征表现较好的第i层作为情感特征，此时得到脑电情感特征H_E、眼动情感特征H_Y及fNIRS情感特征H_F。

进一步，所述将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征，输入残差多头自注意力模块，将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合，通过引入交谈多头注意力机制的多头互注意力模块，采用级联拼接进行特征融合，然后全局平均池化处理后分类输出情绪标签，具体为：

残差多头自注意力模块包含残差模块、线性变换模块、放缩点积注意力机制模块以及拼接模块，任一模态情感特征经过线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V，将其通过放缩点积注意力机制，最后将输出进行拼接，得到任一模态的输出；

由于多头自注意力模块加入残差网络后，将上述各模态输出与该模态的浅层特征矩阵，即与所述对应模态的特征结合，因此得到脑电情感特征、眼动情感特征及fNIRS情感特征，作为经残差多头自注意力模块的输出；

交谈多头互注意力模块包含线性变换模块、经交谈机制处理的放缩点积注意力机制模块以及拼接模块，与自注意力模块不同的是，可同时处理两种模块的信号特征；

模态之间两两组合，分别将得到的残差多头自注意力输出经线性变换分别得到两种模态的查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V，将其通过引入交谈机制的放缩点积注意力机制，分别将两种模态的结果进行拼接得到多头互注意力输出，最后将两两组合拼接的结果再次进行拼接得到多模态的输出；

采用级联拼接进行特征融合，并通过全局平均池化处理后得到多模态融合后的情感特征。最后经分类器判别器输出情绪类别。

进一步，采用KSLPCCA方法使模态投影到共同空间。

进一步，所述对数据集内的数据进行情绪标签，具体为：对数据集进行愉悦度筛选，将消极情绪图片诱发的数据设定标签为负向情绪，标签值为0，将中立情绪图片诱发的数据设定标签为中立情绪，标签值为1，将积极情绪图片诱发的数据设定标签为积极情绪，标签值为2。

进一步，所述脑电信号、眼动信号及fNIRS信号还包括带通滤波降低噪声过程。

一种情绪识别系统，用于实现所述的多模态情绪识别方法，包括：

虚拟现实场景构建模块：借助国际情绪图片系统(IAPS)收集不同情绪全景图片，包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片，构成VR全景情绪图片库。并通过借助Unity搭建虚拟现实作为诱发态下的场景；

信号采集模块：包括脑电采集设备、眼动采集设置及fNIRS采集设备，分别用于采集脑电信号、眼动信号及fNIRS信号；

特征提取模块：使用稀疏自动编码器分别对脑电、眼动、fNIRS信号进行处理，获得其特征；

特征重构模块：通过模态间迁移函数学习进行特征重构，将各个模态的输入信号作为输入得到其对应的重构特征；

多模态情绪识别模型：将不同模态特征进行处理，并通过加入残差网络的多头自注意力模块，将三种模态进行两两组合通过引入交谈多头注意力机制的多头互注意力模块，通过级联拼接进行特征融合，通过全局平均池化处理后分类输出情绪标签。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的多模态情绪识别方法。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的多模态情绪识别方法。

与现有技术相比，本发明具有以下优点和有益效果：

(1)在虚拟现实的诱发中，采用国际情绪图片系统(IAPS)收集相同数量的不同种类的情绪全景图片，构成VR全景情绪图片库，并通过借助Unity搭建虚拟现实作为诱发态下的场景，并利用SAM表针对愉悦度、唤醒度进行打分，并进行生理信号采集，形成应用于本系统的数据集，针对数据集进行愉悦度筛选，设定标签。一般地，常见情绪诱发源对情感反应的触发依赖于感知刺激，尤其是视觉提示、声音，有时还有触觉和嗅觉，而视觉刺激对情绪的影响比听觉和触觉更强。本发明借助Unity在虚拟现实系统中，强调虚拟现实的视觉影响，能较之传统的情绪诱发源具有更强的实时性与交互性。

(2)本发明提出使用机器学习的方法进行特征提取，传统的手工特征的提取和表达更依赖于人的经验，并且过程繁琐耗时。使用机器学习的方法进行特征提取，可以提高预测、识别和分类的能力。

(3)本发明提出一种基于迁移学习的重构特征方法。受到相同情绪元刺激的不同个体可能产生的情绪不同，其产生的生理信号也可能不同。因此，情绪识别受个体因素影响较大，本发明提出基于迁移学习的特征重构方法能使情绪识别系统具有更强的泛化能力，因此提出基于迁移学习的情绪识别系统。优势在于，当个体的某一模态的生理信号较弱或者缺失时，可通过本发明提供的方法进行特征重构，增强系统的泛化能力。

本发明提出一种基于注意力机制的特征融合算法，具体是基于残差多头自注意力机制和多头互注意力机制。传统的特征融合方法常是直接将所有的特征进行级联。这使得各模态的特征在影响情感识别分类上的权重相同。在实际情况中，各模态在情感表达中的影响程度应是不同的。注意力机制能对不同的模态赋予不同的比重，能够提高情绪识别的效果，同时加入残差网络，也能解决训练过程中可能存在的梯度爆炸和消失等问题。在多头互注意力模块中提出交谈多头注意力，引入了对多头注意力的线性映射，增加多个注意力机制间的信息交流。该方法能够进一步提高情绪识别的准确率。

附图说明

图1是本发明的工作流程图；

图2是本发明的基于迁移学习的特征重构过程图；

图3是本发明的基于残差多头自注意力模块和多头互注意力模块的情绪识别模型结构图；

图4是本发明信号采集模块示意图。

具体实施方式

下面结合实施例，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

图1-图4所示，一种虚拟现实诱发态下基于注意力机制和迁移学习的fNIRS情绪识别系统及方法，适用于虚拟现实设备和脑电采集设备和fNIRS采集设备和眼动采集设备的情绪识别任务，主要包括虚拟现实场景搭建模块、信号采集模块、特征提取模块、特征重构模块、基于残差多头自注意力机制和多头互注意力机制的多模态情绪识别模型。

虚拟现实场景构建模块：虚拟现实情绪图片库采用国际情绪图片系统(IAPS)收集不同情绪全景图片，包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片，并通过VR设备对使用者进行情绪诱发，并利用SAM表针对愉悦度、唤醒度进行打分，分值在所选用图片的标准评分的80％即视为合格，并进行生理信号采集，形成应用于本系统的数据集，针对数据集进行愉悦度筛选，将消极情绪图片诱发的数据设定标签为负向情绪，标签值为0，将中立情绪图片诱发的数据设定标签为中立情绪，标签值为1，将积极情绪图片诱发的数据设定标签为积极情绪，标签值为2。

信号采集模块，如图4所示，信号采集模块在使用者受到虚拟现实情绪图库诱发影响，向信号采集设备传递相应信号。

首先，使用者通过佩戴VR、脑电采集设备、眼动采集设备fNIRS采集设备，实时采集脑电信号，眼动信号以及fNIRS信号。

通过脑电采集设备连续采集脑电信号，同时对脑电信号通过带通滤波以去除心电信号和肌电信号。

通过眼动采集设备连续采集眼动信号。同时对眼动信号通过带通滤波以降低噪声。

通过fNIRS采集设备连续采集fNIRS信号，同时对fNIRS信号通过带通滤波以平滑信号并降低噪声。

特征提取模块：将三种模态的输入信号输入到含有稀疏自动编码器的特征提取模块中进行，通过编码和解码后，可以获得稀疏自动编码器每一层的脑电、眼动、fNIRS信号的特征，分别记作：

具体为：

编码过程，即学习函数h的过程，公式如下：

h(x)＝f(Wx+b) (1)

f(z)＝1/(1+exp(-z)) (2)

其中f()为非线性激活函数，W为权重矩阵，b为偏移向量

解码过程，即通过最小化重构误差来重构输入信号，公式如下：

其中p为稀疏水平大小，β为稀疏惩罚项的权重。

获得稀疏自动编码器每一层的脑电、眼动、fNIRS信号的特征：

其中

分别为脑电、眼动、fNIRS的输入。

将上述得到的

视为下一层的输入，依次得到每一层的特征：

其中W^i→i+1为第i层和第i+1层之间的权重，g()为激活函数

特征重构模块：通过模态间迁移函数学习进行特征重构，将各个模态的信号进行输入，能通过迁移函数的学习，得到各个模态的重构特征。通过眼动特征和fNIRS特征对脑电特征进行重构，此时脑电重构特征为

通过眼动特征和脑电特征对fNIRS特征进行重构，此时fNIRS重构特征为

通过脑电特征和fNIRS特征对眼动特征进行重构，此时脑眼动重构特征为

选取特征表现较好的第i层，可通过多次实验的表现选取i的值。因此现在得到脑电情感特征H_E、眼动情感特征H_Y、fNIRS情感特征H_F。

所述通过模态间迁移函数学习进行特征重构，能得到各模态重构特征，具体为：

将脑电模态、眼动模态、fNIRS模态两两组合，利用核监督的局部保持典型相关分析KSLPCCA方法使模态投影到共同空间，在该空间中学习其迁移函数，以脑电情感特征和血氧情感特征为例：

KSLPCCA的目标函数为

可转化成广义特征方程求解

其中F_E是特征集H_E的类内k近邻图、F_F是特征集H_F的类内k近邻图、

是H_E的列和元素的对角矩阵、

是H_F的列和元素的对角矩阵、投影向量记作：W＝H_Eα、U＝H_Fβ、K_E＝(H_E)^TH_E代表特征集H_E的核矩阵、K_F＝(H_F)^TH_F代表特征集H_F的核矩阵、ξ_E、ξ_F表示正则化因子。

并满足以下关系

KSLPCCA能有效提取特征信息，并通过W和U把脑电和fNIRS特征的信息投影到共享空间中并得到α、β的投影矩阵，将该矩阵作为系数可得脑电和fNIRS模态间的迁移函数。

得到投影空间α、β之后，将其作为系数通过H_E获得迁移函数，再通过迁移函数得到调整后的fNIRS特征H’_F，公式如下：

H’_F＝T_E→F(H_E)＝H_Eαβ^T (11)

同理有：

H”_F＝T_γ→F(H_Y)＝H_Yγβ^T (14)

根据上述#(11)-#(14)公式可利用迁移函数得到各个模态第i层的迁移特征：

得到稀疏自动编码器每一层的输出：

通过反向传播BP算法微调权重

直至收敛。通过情感特征迁移学习后，能够得到各模态的重构特征。选择特征表现较好的第i层作为情感特征，此时得到脑电情感特征H_E、眼动情感特征H_Y、fNIRS情感特征H_F。

具体为：

以脑电模态为例，经线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V；

其中

分别为可训练的线性变换参数矩阵。

再通过放缩点积注意力机制，得到经多头自注意力模块的输出A^E:

A^E＝Concat(H₁,...,H_n) (21)

其中，

为脑电多头自注意力模块第i个自注意力模块的输出，A^E为脑电情感特征经多头自注意力模块的完整输出。n为残差多头自注意力模块中子注意力模块的个数，d为可训练的线性变换参数矩阵的输出维度。

同理得到眼动特征、fNIRS情感特征经多头自注意力模块的完整输出A^Y、A^F；

加入残差网络后，将脑电、眼动、fNIRS模态完整输出与浅层特征矩阵E结合，得到脑电情感特征、眼动情感特征、fNIRS情感特征经残差多头自注意力模块的输出R^E、R^Y、R^F；

通过使用一个参数矩阵将多头注意力重新融合成多个混合注意力，得到交谈多头注意力。

模态间两两组合，将得到的残差多头自注意力输出R^E、R^Y、R^F经引入交谈多头注意力机制的多头互注意力模块得到多头互注意力输出，以脑电和fNIRS模态为例，脑电和fNIRS通过多头互注意力机制得到多头互注意力模块的输出A^RE_F:

同理可得到脑电和眼动情感特征通过多头互注意力模块的输出A^RE_Y，眼动和fNIRS情感特征通过多头互注意力模块的输出A^RU_F。

最后采用级联拼接进行特征融合，并通过全局平均池化处理后得到多模态融合后的情感特征。最后经过分类器输出情绪识别概率。

目前基于生理信号的情绪识别方法中大多是以单模态如脑电信号为主，鲜有基于功能性近红外光谱技术、脑电信号、眼动信号相关的多模态情绪识别研究。本发明提出一种虚拟现实为诱发态下基于注意力机制和迁移学习的多模态情绪识别系统，利用不同生理信号的优点，探索并挖掘其在情绪识别中的作用，并且利用迁移学习，考虑到个体之间的差异以及模态的信号可能不佳或者缺失的情况，以此增强系统的泛化能力，并通过注意力机制进一步加强系统的泛化能力，有助于该模型的普遍性与应用性。这不仅在实际应用中具有良好的发展前景，也开创了一种情绪识别系统新模式。

本发明提出一种基于机器学习的稀疏自动编码器的特征提取方法，能够实现对脑电信号、眼动信号、功能性近红外光谱信号的特征提取，能够避免手工提取特征过于依赖人的经验的问题，该方法可以提高预测、识别和分类的能力，并且减少特征提取的繁琐性。

本发明提出一种基于迁移学习的特征重构方法，能够通过三种模态相互作用，并借助迁移函数，得到各个模态的重构特征，以尽可能解决因为不同个体之间产生生理信号不同的问题，能增强情绪识别系统的泛化能力，提高情绪识别系统对个体差异性的处理能力。

本发明提出一种基于残差多头自注意力和多头互注意力的多模态特征融合方法，注意力机制能够有效的结合不同模态之间的特征信息，能更好的结合脑电特征、眼动特征和fNIRS特征，并且加入了残差网络，能够减少训练过程中可能存在的梯度爆炸等问题。在多头互注意力模块中提出交谈多头注意力，引入了对多头注意力的线性映射，增加多个注意力机制间的信息交流。该方法能够进一步提高情绪识别的准确率。

本发明的另一个实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的多模态情绪识别方法。

本发明的另一个实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的多模态情绪识别方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多模态情绪识别方法，其特征在于，包括：

2.根据权利要求1所述的多模态情绪识别方法，其特征在于，所述得到每一层的特征，具体包括：

编码过程，具体是学习函数h的过程；

解码过程，具体是通过最小化重构误差来重构输入信号；

3.根据权利要求1所述的多模态情绪识别方法，其特征在于，所述通过模态间迁移函数学习进行特征重构，得到各模态重构特征，具体为：

通过反向传播BP算法微调权重

直至收敛，通过情感特征迁移学习后，能够得到各模态的重构特征，选择特征表现较好的第i层作为情感特征，此时得到脑电情感特征H_E、眼动情感特征H_Y及fNIRS情感特征H_F。

4.根据权利要求1所述的一种多模态情绪识别方法，其特征在于，所述将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征，输入残差多头自注意力模块，将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合，通过引入交谈多头注意力机制的多头互注意力模块，采用级联拼接进行特征融合，然后全局平均池化处理后分类输出情绪标签，具体为：

采用级联拼接进行特征融合，并通过全局平均池化处理后得到多模态融合后的情感特征，最后经分类器判别器输出情绪类别。

5.根据权利要求3所述的一种多模态情绪识别方法，其特征在于，采用KSLPCCA方法使模态投影到共同空间。

6.根据权利要求1所述的一种多模态情绪识别方法，其特征在于，所述对数据集内的数据进行情绪标签，具体为：对数据集进行愉悦度筛选，将消极情绪图片诱发的数据设定标签为负向情绪，标签值为0，将中立情绪图片诱发的数据设定标签为中立情绪，标签值为1，将积极情绪图片诱发的数据设定标签为积极情绪，标签值为2。

7.根据权利要求1所述的多模态情绪识别方法，其特征在于，所述脑电信号、眼动信号及fNIRS信号还包括带通滤波降低噪声过程。

8.一种情绪识别系统，其特征在于，用于实现权利要求1-7任一项所述的多模态情绪识别方法，包括：

虚拟现实场景构建模块：借助国际情绪图片系统(IAPS)收集不同情绪全景图片，包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片，构成VR全景情绪图片库，并通过借助Unity搭建虚拟现实作为诱发态下的场景；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的多模态情绪识别方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的多模态情绪识别方法。