CN115349860A - 一种多模态情绪识别方法、系统、设备及介质 - Google Patents

一种多模态情绪识别方法、系统、设备及介质 Download PDF

Info

Publication number
CN115349860A
CN115349860A CN202210819867.4A CN202210819867A CN115349860A CN 115349860 A CN115349860 A CN 115349860A CN 202210819867 A CN202210819867 A CN 202210819867A CN 115349860 A CN115349860 A CN 115349860A
Authority
CN
China
Prior art keywords
emotion
module
signal
reconstruction
fnirs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210819867.4A
Other languages
English (en)
Inventor
唐浩雲
青春美
欧浩春
徐向民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210819867.4A priority Critical patent/CN115349860A/zh
Publication of CN115349860A publication Critical patent/CN115349860A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0075Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence by spectroscopy, i.e. measuring spectra, e.g. Raman spectroscopy, infrared absorption spectroscopy
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/163Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/168Evaluating attention deficit, hyperactivity
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/378Visual stimuli
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/38Acoustic or auditory stimuli
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/381Olfactory or gustatory stimuli
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Psychiatry (AREA)
  • Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Developmental Disabilities (AREA)
  • Child & Adolescent Psychology (AREA)
  • Social Psychology (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Signal Processing (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本发明公开了一种多模态情绪识别方法、系统、设备及介质,包括虚拟现实场景构建模块、信号采集模块、特征提取模块、特征重构模块及多模态情绪识别模型;对穿戴VR设备被试者通过VR情绪图片库进行情绪诱发,采集被测试者在虚拟现实设备下的生理信号,并进行特征提取,通过迁移学习对各个模块进行特征重构,通过多模态特征融合最终实现情绪分类。本发明提供虚拟现实诱发态下基于注意力机制和迁移学习的多模态情绪识别系统,利用不同生理信号的优点,探索并挖掘其在情绪识别中的作用,借助迁移学习和注意力机制,加强情绪识别系统的泛化能力,这不仅在实际应用中具有良好的发展前景,也开创了一种情绪识别系统新模式。

Description

一种多模态情绪识别方法、系统、设备及介质
技术领域
本发明涉及人机信号识别领域,特别涉及一种多模态情绪识别方法、系统、设备及介质。
背景技术
情绪来源于心理层面,是人类重要特征之一。常见的情绪分类的研究方法有三种:基于面部表情或语音实现情绪识别;基于外围生理信号实现情绪识别;基于中枢神经系统信号实现情绪识别。传统的检测指标如脑电信号(Electroencephalogram,EEG),具有高时间分辨率、低空间分辨率、定位能力差等特点;在虚拟现实环境中,对比脑电信号,基于眼动信号的情绪识别方式更加便捷,具有较强的抗干扰性和较方便的采集模式等特点;而功能性近红外光谱技术(Functional Near-Infrared Spectroscopy,fNIRS)作为一种新兴的新型脑功能检测技术,具有低时间分辨率、高空间分辨率、对测量环境要求不高、抗干扰和抗电磁能力强、便于携带等特点。
多模态的脑功能检测方法能得到脑活动的多维信息,便于从不同方向对大脑神经活动进行描述,故脑电信号和眼动信号和功能性近红外光谱技术三种模式结合的情绪识别系统具有较高的研究价值。
不同个体之间存在生理、心理等方面的差异,对于同一种情绪诱发元,不同个体诱发的情绪可能并不完全相同。即使不同个体产生相同的情绪,其产生的生理信号也可能存在差异。故通过迁移学习来构建一种具有较强的泛化能力的情绪识别系统是一个较好的解决方案。
随着虚拟现实、元宇宙、人机交互、深度学习等领域的不断发展,基于VR设备下具有泛化能力的多模态的情绪分析有着广阔的应用前景和重要的意义。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种多模态情绪识别方法、系统、设备及介质。
本发明的目的通过以下技术方案实现:
一种多模态情绪识别方法,包括:
构建VR全景情绪图片库及数据集,并对数据集内的数据进行情绪标签;
用户佩戴VR设备,采用VR全景情绪图片库中的图片进行刺激,采集脑电信号、眼动信号及fNIRS信号;
使用稀疏自动编码器分别对脑电信号、眼动信号及fNIRS信号进行处理,提取输出层的特征,并将输出层特征作为输入层,继续处理,得到每一层的脑电信号、眼动信号及fNIRS信号特征;
通过模态间迁移函数学习进行特征重构,得到各模态重构特征;
将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签。
进一步,所述得到每一层的脑电信号、眼动信号及fNIRS信号特征,具体包括:
编码过程,具体是学习函数h的过程;
解码过程,具体是通过最小化重构误差来重构输入信号;
获得稀疏自动编码器每一层的脑电信号、眼动信号及fNIRS信号的特征。
进一步,所述通过模态间迁移函数学习进行特征重构,得到各模态重构特征,具体为:
将脑电模态、眼动模态及fNIRS模态三个模态两两组合,将模态投影到共同空间,在该空间中学习迁移函数,得到α、β的投影矩阵,并将该矩阵作为相应模态组合的迁移函数;
利用迁移函数得到各个模态第i层的迁移特征,进一步得到稀疏自动编码器每一层的输出;
通过反向传播BP算法微调权重
Figure BDA0003743772690000021
Figure BDA0003743772690000022
直至收敛。通过情感特征迁移学习后,能够得到各模态的重构特征,选择特征表现较好的第i层作为情感特征,此时得到脑电情感特征HE、眼动情感特征HY及fNIRS情感特征HF
进一步,所述将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签,具体为:
残差多头自注意力模块包含残差模块、线性变换模块、放缩点积注意力机制模块以及拼接模块,任一模态情感特征经过线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过放缩点积注意力机制,最后将输出进行拼接,得到任一模态的输出;
由于多头自注意力模块加入残差网络后,将上述各模态输出与该模态的浅层特征矩阵,即与所述对应模态的特征结合,因此得到脑电情感特征、眼动情感特征及fNIRS情感特征,作为经残差多头自注意力模块的输出;
交谈多头互注意力模块包含线性变换模块、经交谈机制处理的放缩点积注意力机制模块以及拼接模块,与自注意力模块不同的是,可同时处理两种模块的信号特征;
模态之间两两组合,分别将得到的残差多头自注意力输出经线性变换分别得到两种模态的查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过引入交谈机制的放缩点积注意力机制,分别将两种模态的结果进行拼接得到多头互注意力输出,最后将两两组合拼接的结果再次进行拼接得到多模态的输出;
采用级联拼接进行特征融合,并通过全局平均池化处理后得到多模态融合后的情感特征。最后经分类器判别器输出情绪类别。
进一步,采用KSLPCCA方法使模态投影到共同空间。
进一步,所述对数据集内的数据进行情绪标签,具体为:对数据集进行愉悦度筛选,将消极情绪图片诱发的数据设定标签为负向情绪,标签值为0,将中立情绪图片诱发的数据设定标签为中立情绪,标签值为1,将积极情绪图片诱发的数据设定标签为积极情绪,标签值为2。
进一步,所述脑电信号、眼动信号及fNIRS信号还包括带通滤波降低噪声过程。
一种情绪识别系统,用于实现所述的多模态情绪识别方法,包括:
虚拟现实场景构建模块:借助国际情绪图片系统(IAPS)收集不同情绪全景图片,包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片,构成VR全景情绪图片库。并通过借助Unity搭建虚拟现实作为诱发态下的场景;
信号采集模块:包括脑电采集设备、眼动采集设置及fNIRS采集设备,分别用于采集脑电信号、眼动信号及fNIRS信号;
特征提取模块:使用稀疏自动编码器分别对脑电、眼动、fNIRS信号进行处理,获得其特征;
特征重构模块:通过模态间迁移函数学习进行特征重构,将各个模态的输入信号作为输入得到其对应的重构特征;
多模态情绪识别模型:将不同模态特征进行处理,并通过加入残差网络的多头自注意力模块,将三种模态进行两两组合通过引入交谈多头注意力机制的多头互注意力模块,通过级联拼接进行特征融合,通过全局平均池化处理后分类输出情绪标签。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的多模态情绪识别方法。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的多模态情绪识别方法。
与现有技术相比,本发明具有以下优点和有益效果:
(1)在虚拟现实的诱发中,采用国际情绪图片系统(IAPS)收集相同数量的不同种类的情绪全景图片,构成VR全景情绪图片库,并通过借助Unity搭建虚拟现实作为诱发态下的场景,并利用SAM表针对愉悦度、唤醒度进行打分,并进行生理信号采集,形成应用于本系统的数据集,针对数据集进行愉悦度筛选,设定标签。一般地,常见情绪诱发源对情感反应的触发依赖于感知刺激,尤其是视觉提示、声音,有时还有触觉和嗅觉,而视觉刺激对情绪的影响比听觉和触觉更强。本发明借助Unity在虚拟现实系统中,强调虚拟现实的视觉影响,能较之传统的情绪诱发源具有更强的实时性与交互性。
(2)本发明提出使用机器学习的方法进行特征提取,传统的手工特征的提取和表达更依赖于人的经验,并且过程繁琐耗时。使用机器学习的方法进行特征提取,可以提高预测、识别和分类的能力。
(3)本发明提出一种基于迁移学习的重构特征方法。受到相同情绪元刺激的不同个体可能产生的情绪不同,其产生的生理信号也可能不同。因此,情绪识别受个体因素影响较大,本发明提出基于迁移学习的特征重构方法能使情绪识别系统具有更强的泛化能力,因此提出基于迁移学习的情绪识别系统。优势在于,当个体的某一模态的生理信号较弱或者缺失时,可通过本发明提供的方法进行特征重构,增强系统的泛化能力。
本发明提出一种基于注意力机制的特征融合算法,具体是基于残差多头自注意力机制和多头互注意力机制。传统的特征融合方法常是直接将所有的特征进行级联。这使得各模态的特征在影响情感识别分类上的权重相同。在实际情况中,各模态在情感表达中的影响程度应是不同的。注意力机制能对不同的模态赋予不同的比重,能够提高情绪识别的效果,同时加入残差网络,也能解决训练过程中可能存在的梯度爆炸和消失等问题。在多头互注意力模块中提出交谈多头注意力,引入了对多头注意力的线性映射,增加多个注意力机制间的信息交流。该方法能够进一步提高情绪识别的准确率。
附图说明
图1是本发明的工作流程图;
图2是本发明的基于迁移学习的特征重构过程图;
图3是本发明的基于残差多头自注意力模块和多头互注意力模块的情绪识别模型结构图;
图4是本发明信号采集模块示意图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
图1-图4所示,一种虚拟现实诱发态下基于注意力机制和迁移学习的fNIRS情绪识别系统及方法,适用于虚拟现实设备和脑电采集设备和fNIRS采集设备和眼动采集设备的情绪识别任务,主要包括虚拟现实场景搭建模块、信号采集模块、特征提取模块、特征重构模块、基于残差多头自注意力机制和多头互注意力机制的多模态情绪识别模型。
虚拟现实场景构建模块:虚拟现实情绪图片库采用国际情绪图片系统(IAPS)收集不同情绪全景图片,包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片,并通过VR设备对使用者进行情绪诱发,并利用SAM表针对愉悦度、唤醒度进行打分,分值在所选用图片的标准评分的80%即视为合格,并进行生理信号采集,形成应用于本系统的数据集,针对数据集进行愉悦度筛选,将消极情绪图片诱发的数据设定标签为负向情绪,标签值为0,将中立情绪图片诱发的数据设定标签为中立情绪,标签值为1,将积极情绪图片诱发的数据设定标签为积极情绪,标签值为2。
信号采集模块,如图4所示,信号采集模块在使用者受到虚拟现实情绪图库诱发影响,向信号采集设备传递相应信号。
首先,使用者通过佩戴VR、脑电采集设备、眼动采集设备fNIRS采集设备,实时采集脑电信号,眼动信号以及fNIRS信号。
通过脑电采集设备连续采集脑电信号,同时对脑电信号通过带通滤波以去除心电信号和肌电信号。
通过眼动采集设备连续采集眼动信号。同时对眼动信号通过带通滤波以降低噪声。
通过fNIRS采集设备连续采集fNIRS信号,同时对fNIRS信号通过带通滤波以平滑信号并降低噪声。
特征提取模块:将三种模态的输入信号输入到含有稀疏自动编码器的特征提取模块中进行,通过编码和解码后,可以获得稀疏自动编码器每一层的脑电、眼动、fNIRS信号的特征,分别记作:
Figure BDA0003743772690000061
具体为:
编码过程,即学习函数h的过程,公式如下:
h(x)=f(Wx+b) (1)
f(z)=1/(1+exp(-z)) (2)
其中f()为非线性激活函数,W为权重矩阵,b为偏移向量
解码过程,即通过最小化重构误差来重构输入信号,公式如下:
Figure BDA0003743772690000062
Figure BDA0003743772690000063
Figure BDA0003743772690000064
其中p为稀疏水平大小,β为稀疏惩罚项的权重。
获得稀疏自动编码器每一层的脑电、眼动、fNIRS信号的特征:
Figure BDA0003743772690000065
其中
Figure BDA0003743772690000066
分别为脑电、眼动、fNIRS的输入。
将上述得到的
Figure BDA0003743772690000071
视为下一层的输入,依次得到每一层的特征:
Figure BDA0003743772690000072
其中Wi→i+1为第i层和第i+1层之间的权重,g()为激活函数
特征重构模块:通过模态间迁移函数学习进行特征重构,将各个模态的信号进行输入,能通过迁移函数的学习,得到各个模态的重构特征。通过眼动特征和fNIRS特征对脑电特征进行重构,此时脑电重构特征为
Figure BDA0003743772690000073
Figure BDA0003743772690000074
通过眼动特征和脑电特征对fNIRS特征进行重构,此时fNIRS重构特征为
Figure BDA0003743772690000075
通过脑电特征和fNIRS特征对眼动特征进行重构,此时脑眼动重构特征为
Figure BDA0003743772690000076
Figure BDA0003743772690000077
选取特征表现较好的第i层,可通过多次实验的表现选取i的值。因此现在得到脑电情感特征HE、眼动情感特征HY、fNIRS情感特征HF
所述通过模态间迁移函数学习进行特征重构,能得到各模态重构特征,具体为:
将脑电模态、眼动模态、fNIRS模态两两组合,利用核监督的局部保持典型相关分析KSLPCCA方法使模态投影到共同空间,在该空间中学习其迁移函数,以脑电情感特征和血氧情感特征为例:
KSLPCCA的目标函数为
Figure BDA0003743772690000078
可转化成广义特征方程求解
Figure BDA0003743772690000079
其中FE是特征集HE的类内k近邻图、FF是特征集HF的类内k近邻图、
Figure BDA00037437726900000710
是HE的列和元素的对角矩阵、
Figure BDA00037437726900000711
是HF的列和元素的对角矩阵、投影向量记作:W=HEα、U=HFβ、KE=(HE)THE代表特征集HE的核矩阵、KF=(HF)THF代表特征集HF的核矩阵、ξE、ξF表示正则化因子。
并满足以下关系
Figure BDA0003743772690000081
KSLPCCA能有效提取特征信息,并通过W和U把脑电和fNIRS特征的信息投影到共享空间中并得到α、β的投影矩阵,将该矩阵作为系数可得脑电和fNIRS模态间的迁移函数。
得到投影空间α、β之后,将其作为系数通过HE获得迁移函数,再通过迁移函数得到调整后的fNIRS特征H’F,公式如下:
H’F=TE→F(HE)=HEαβT (11)
同理有:
Figure BDA0003743772690000082
Figure BDA0003743772690000083
H”F=Tγ→F(HY)=HYγβT (14)
根据上述#(11)-#(14)公式可利用迁移函数得到各个模态第i层的迁移特征:
Figure BDA0003743772690000084
得到稀疏自动编码器每一层的输出:
Figure BDA0003743772690000085
通过反向传播BP算法微调权重
Figure BDA0003743772690000086
Figure BDA0003743772690000087
直至收敛。通过情感特征迁移学习后,能够得到各模态的重构特征。选择特征表现较好的第i层作为情感特征,此时得到脑电情感特征HE、眼动情感特征HY、fNIRS情感特征HF
多模态情绪识别模型:将不同模态特征进行处理,并通过加入残差网络的多头自注意力模块,将三种模态进行两两组合通过引入交谈多头注意力机制的多头互注意力模块,通过级联拼接进行特征融合,通过全局平均池化处理后分类输出情绪标签。
具体为:
以脑电模态为例,经线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V;
Figure BDA0003743772690000091
Figure BDA0003743772690000092
Figure BDA0003743772690000093
其中
Figure BDA0003743772690000094
分别为可训练的线性变换参数矩阵。
再通过放缩点积注意力机制,得到经多头自注意力模块的输出AE:
Figure BDA0003743772690000095
AE=Concat(H1,...,Hn) (21)
其中,
Figure BDA0003743772690000096
为脑电多头自注意力模块第i个自注意力模块的输出,AE为脑电情感特征经多头自注意力模块的完整输出。n为残差多头自注意力模块中子注意力模块的个数,d为可训练的线性变换参数矩阵的输出维度。
同理得到眼动特征、fNIRS情感特征经多头自注意力模块的完整输出AY、AF
加入残差网络后,将脑电、眼动、fNIRS模态完整输出与浅层特征矩阵E结合,得到脑电情感特征、眼动情感特征、fNIRS情感特征经残差多头自注意力模块的输出RE、RY、RF
通过使用一个参数矩阵将多头注意力重新融合成多个混合注意力,得到交谈多头注意力。
模态间两两组合,将得到的残差多头自注意力输出RE、RY、RF经引入交谈多头注意力机制的多头互注意力模块得到多头互注意力输出,以脑电和fNIRS模态为例,脑电和fNIRS通过多头互注意力机制得到多头互注意力模块的输出ARE_F:
Figure BDA0003743772690000101
Figure BDA0003743772690000102
Figure BDA0003743772690000103
Figure BDA0003743772690000104
Figure BDA0003743772690000105
Figure BDA0003743772690000106
Figure BDA0003743772690000107
Figure BDA0003743772690000108
同理可得到脑电和眼动情感特征通过多头互注意力模块的输出ARE_Y,眼动和fNIRS情感特征通过多头互注意力模块的输出ARU_F
最后采用级联拼接进行特征融合,并通过全局平均池化处理后得到多模态融合后的情感特征。最后经过分类器输出情绪识别概率。
目前基于生理信号的情绪识别方法中大多是以单模态如脑电信号为主,鲜有基于功能性近红外光谱技术、脑电信号、眼动信号相关的多模态情绪识别研究。本发明提出一种虚拟现实为诱发态下基于注意力机制和迁移学习的多模态情绪识别系统,利用不同生理信号的优点,探索并挖掘其在情绪识别中的作用,并且利用迁移学习,考虑到个体之间的差异以及模态的信号可能不佳或者缺失的情况,以此增强系统的泛化能力,并通过注意力机制进一步加强系统的泛化能力,有助于该模型的普遍性与应用性。这不仅在实际应用中具有良好的发展前景,也开创了一种情绪识别系统新模式。
本发明提出一种基于机器学习的稀疏自动编码器的特征提取方法,能够实现对脑电信号、眼动信号、功能性近红外光谱信号的特征提取,能够避免手工提取特征过于依赖人的经验的问题,该方法可以提高预测、识别和分类的能力,并且减少特征提取的繁琐性。
本发明提出一种基于迁移学习的特征重构方法,能够通过三种模态相互作用,并借助迁移函数,得到各个模态的重构特征,以尽可能解决因为不同个体之间产生生理信号不同的问题,能增强情绪识别系统的泛化能力,提高情绪识别系统对个体差异性的处理能力。
本发明提出一种基于残差多头自注意力和多头互注意力的多模态特征融合方法,注意力机制能够有效的结合不同模态之间的特征信息,能更好的结合脑电特征、眼动特征和fNIRS特征,并且加入了残差网络,能够减少训练过程中可能存在的梯度爆炸等问题。在多头互注意力模块中提出交谈多头注意力,引入了对多头注意力的线性映射,增加多个注意力机制间的信息交流。该方法能够进一步提高情绪识别的准确率。
本发明的另一个实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的多模态情绪识别方法。
本发明的另一个实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的多模态情绪识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种多模态情绪识别方法,其特征在于,包括:
构建VR全景情绪图片库及数据集,并对数据集内的数据进行情绪标签;
用户佩戴VR设备,采用VR全景情绪图片库中的图片进行刺激,采集脑电信号、眼动信号及fNIRS信号;
使用稀疏自动编码器分别对脑电信号、眼动信号及fNIRS信号进行处理,提取输出层的特征,并将输出层特征作为输入层,继续处理,得到每一层的脑电信号、眼动信号及fNIRS信号特征;
通过模态间迁移函数学习进行特征重构,得到各模态重构特征;
将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签。
2.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述得到每一层的特征,具体包括:
编码过程,具体是学习函数h的过程;
解码过程,具体是通过最小化重构误差来重构输入信号;
获得稀疏自动编码器每一层的脑电信号、眼动信号及fNIRS信号的特征。
3.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述通过模态间迁移函数学习进行特征重构,得到各模态重构特征,具体为:
将脑电模态、眼动模态及fNIRS模态三个模态两两组合,将模态投影到共同空间,在该空间中学习迁移函数,得到α、β的投影矩阵,并将该矩阵作为相应模态组合的迁移函数;
利用迁移函数得到各个模态第i层的迁移特征,进一步得到稀疏自动编码器每一层的输出;
通过反向传播BP算法微调权重
Figure FDA0003743772680000011
Figure FDA0003743772680000012
直至收敛,通过情感特征迁移学习后,能够得到各模态的重构特征,选择特征表现较好的第i层作为情感特征,此时得到脑电情感特征HE、眼动情感特征HY及fNIRS情感特征HF
4.根据权利要求1所述的一种多模态情绪识别方法,其特征在于,所述将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签,具体为:
残差多头自注意力模块包含残差模块、线性变换模块、放缩点积注意力机制模块以及拼接模块,任一模态情感特征经过线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过放缩点积注意力机制,最后将输出进行拼接,得到任一模态的输出;
由于多头自注意力模块加入残差网络后,将上述各模态输出与该模态的浅层特征矩阵,即与所述对应模态的特征结合,因此得到脑电情感特征、眼动情感特征及fNIRS情感特征,作为经残差多头自注意力模块的输出;
交谈多头互注意力模块包含线性变换模块、经交谈机制处理的放缩点积注意力机制模块以及拼接模块,与自注意力模块不同的是,可同时处理两种模块的信号特征;
模态之间两两组合,分别将得到的残差多头自注意力输出经线性变换分别得到两种模态的查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过引入交谈机制的放缩点积注意力机制,分别将两种模态的结果进行拼接得到多头互注意力输出,最后将两两组合拼接的结果再次进行拼接得到多模态的输出;
采用级联拼接进行特征融合,并通过全局平均池化处理后得到多模态融合后的情感特征,最后经分类器判别器输出情绪类别。
5.根据权利要求3所述的一种多模态情绪识别方法,其特征在于,采用KSLPCCA方法使模态投影到共同空间。
6.根据权利要求1所述的一种多模态情绪识别方法,其特征在于,所述对数据集内的数据进行情绪标签,具体为:对数据集进行愉悦度筛选,将消极情绪图片诱发的数据设定标签为负向情绪,标签值为0,将中立情绪图片诱发的数据设定标签为中立情绪,标签值为1,将积极情绪图片诱发的数据设定标签为积极情绪,标签值为2。
7.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述脑电信号、眼动信号及fNIRS信号还包括带通滤波降低噪声过程。
8.一种情绪识别系统,其特征在于,用于实现权利要求1-7任一项所述的多模态情绪识别方法,包括:
虚拟现实场景构建模块:借助国际情绪图片系统(IAPS)收集不同情绪全景图片,包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片,构成VR全景情绪图片库,并通过借助Unity搭建虚拟现实作为诱发态下的场景;
信号采集模块:包括脑电采集设备、眼动采集设置及fNIRS采集设备,分别用于采集脑电信号、眼动信号及fNIRS信号;
特征提取模块:使用稀疏自动编码器分别对脑电、眼动、fNIRS信号进行处理,获得其特征;
特征重构模块:通过模态间迁移函数学习进行特征重构,将各个模态的输入信号作为输入得到其对应的重构特征;
多模态情绪识别模型:将不同模态特征进行处理,并通过加入残差网络的多头自注意力模块,将三种模态进行两两组合通过引入交谈多头注意力机制的多头互注意力模块,通过级联拼接进行特征融合,通过全局平均池化处理后分类输出情绪标签。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的多模态情绪识别方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的多模态情绪识别方法。
CN202210819867.4A 2022-07-13 2022-07-13 一种多模态情绪识别方法、系统、设备及介质 Pending CN115349860A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210819867.4A CN115349860A (zh) 2022-07-13 2022-07-13 一种多模态情绪识别方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210819867.4A CN115349860A (zh) 2022-07-13 2022-07-13 一种多模态情绪识别方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN115349860A true CN115349860A (zh) 2022-11-18

Family

ID=84032267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210819867.4A Pending CN115349860A (zh) 2022-07-13 2022-07-13 一种多模态情绪识别方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN115349860A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116098621A (zh) * 2023-02-14 2023-05-12 平顶山学院 一种基于注意力机制的情绪面孔及生理反应识别方法
CN116301473A (zh) * 2023-01-19 2023-06-23 佛山创视嘉科技有限公司 基于虚拟现实的用户行为预测方法、装置、设备及介质
CN116935480A (zh) * 2023-09-18 2023-10-24 四川天地宏华导航设备有限公司 一种情绪识别方法及装置
CN117582227A (zh) * 2024-01-18 2024-02-23 华南理工大学 基于概率分布标签和脑区特征的fNIRS情绪识别方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116301473A (zh) * 2023-01-19 2023-06-23 佛山创视嘉科技有限公司 基于虚拟现实的用户行为预测方法、装置、设备及介质
CN116098621A (zh) * 2023-02-14 2023-05-12 平顶山学院 一种基于注意力机制的情绪面孔及生理反应识别方法
CN116098621B (zh) * 2023-02-14 2024-08-16 平顶山学院 一种基于注意力机制的情绪面孔及生理反应识别方法
CN116935480A (zh) * 2023-09-18 2023-10-24 四川天地宏华导航设备有限公司 一种情绪识别方法及装置
CN116935480B (zh) * 2023-09-18 2023-12-29 四川天地宏华导航设备有限公司 一种情绪识别方法及装置
CN117582227A (zh) * 2024-01-18 2024-02-23 华南理工大学 基于概率分布标签和脑区特征的fNIRS情绪识别方法及系统
CN117582227B (zh) * 2024-01-18 2024-04-30 华南理工大学 基于概率分布标签和脑区特征的fNIRS情绪识别方法及系统

Similar Documents

Publication Publication Date Title
Tao et al. EEG-based emotion recognition via channel-wise attention and self attention
CN112120716B (zh) 一种可穿戴式多模态情绪状态监测装置
Chen et al. Accurate EEG-based emotion recognition on combined features using deep convolutional neural networks
Zhang et al. Multimodal emotion recognition using a hierarchical fusion convolutional neural network
CN115349860A (zh) 一种多模态情绪识别方法、系统、设备及介质
Hossain et al. Status of deep learning for EEG-based brain–computer interface applications
Wang et al. Multi-modal domain adaptation variational autoencoder for EEG-based emotion recognition
Praveen et al. Audio–visual fusion for emotion recognition in the valence–arousal space using joint cross-attention
Pan et al. Emotion recognition based on EEG using generative adversarial nets and convolutional neural network
Chen et al. Design and implementation of human-computer interaction systems based on transfer support vector machine and EEG signal for depression patients’ emotion recognition
CN113974627B (zh) 一种基于脑机生成对抗的情绪识别方法
Liu et al. Tacnet: task-aware electroencephalogram classification for brain-computer interface through a novel temporal attention convolutional network
Lian et al. An Ear Wearable Device System for Facial Emotion Recognition Disorders
Fu et al. Gesture based fear recognition using nonperformance dataset from VR horror games
CN114842384B (zh) 一种面向6g的触觉模态信号重建方法
Immanuel et al. Analysis of different emotions with bio-signals (EEG) using deep CNN
Partovi et al. A Self-Supervised Task-Agnostic Embedding for EEG Signals
Kaur et al. Recent trends and challenges in human computer interaction using automatic emotion recognition: a review
CN114081492A (zh) 一种基于可学习邻接矩阵的脑电情绪识别系统
Chen et al. Research on positive emotion recognition based on EEG signals
Lopez et al. Hierarchical Hypercomplex Network for Multimodal Emotion Recognition
Ferrante et al. Towards neural foundation models for vision: Aligning eeg, meg and fmri representations to perform decoding, encoding and modality conversion
Song et al. Emotion Recognition of EEG Signals Based on CRNN+ MCSNet
CN118296357B (zh) 脑电信号特征识别与表示方法、装置及计算机设备
Liang et al. A Novel Motor Imagery EEG Classification Model Using Frequency-Temporal-Spatial Convolutional Neural Network with Channel Attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination