CN115349860A - 一种多模态情绪识别方法、系统、设备及介质 - Google Patents
一种多模态情绪识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN115349860A CN115349860A CN202210819867.4A CN202210819867A CN115349860A CN 115349860 A CN115349860 A CN 115349860A CN 202210819867 A CN202210819867 A CN 202210819867A CN 115349860 A CN115349860 A CN 115349860A
- Authority
- CN
- China
- Prior art keywords
- emotion
- module
- signal
- reconstruction
- fnirs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 53
- 230000008451 emotion Effects 0.000 claims abstract description 68
- 230000007246 mechanism Effects 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000000763 evoking effect Effects 0.000 claims abstract description 4
- 230000004424 eye movement Effects 0.000 claims description 54
- 230000002996 emotional effect Effects 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 14
- 238000013508 migration Methods 0.000 claims description 11
- 230000005012 migration Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000007935 neutral effect Effects 0.000 claims description 9
- 210000004556 brain Anatomy 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000003565 oculomotor Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims 1
- 238000013526 transfer learning Methods 0.000 abstract description 14
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 3
- 238000011161 development Methods 0.000 abstract description 3
- 230000006698 induction Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 244000309464 bull Species 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 238000002329 infrared spectrum Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000037007 arousal Effects 0.000 description 2
- 230000003925 brain function Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
- 230000008035 nerve activity Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0075—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence by spectroscopy, i.e. measuring spectra, e.g. Raman spectroscopy, infrared absorption spectroscopy
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/163—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/168—Evaluating attention deficit, hyperactivity
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/378—Visual stimuli
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/38—Acoustic or auditory stimuli
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/381—Olfactory or gustatory stimuli
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Psychiatry (AREA)
- Psychology (AREA)
- Artificial Intelligence (AREA)
- Developmental Disabilities (AREA)
- Child & Adolescent Psychology (AREA)
- Social Psychology (AREA)
- Educational Technology (AREA)
- Hospice & Palliative Care (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Signal Processing (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种多模态情绪识别方法、系统、设备及介质,包括虚拟现实场景构建模块、信号采集模块、特征提取模块、特征重构模块及多模态情绪识别模型;对穿戴VR设备被试者通过VR情绪图片库进行情绪诱发,采集被测试者在虚拟现实设备下的生理信号,并进行特征提取,通过迁移学习对各个模块进行特征重构,通过多模态特征融合最终实现情绪分类。本发明提供虚拟现实诱发态下基于注意力机制和迁移学习的多模态情绪识别系统,利用不同生理信号的优点,探索并挖掘其在情绪识别中的作用,借助迁移学习和注意力机制,加强情绪识别系统的泛化能力,这不仅在实际应用中具有良好的发展前景,也开创了一种情绪识别系统新模式。
Description
技术领域
本发明涉及人机信号识别领域,特别涉及一种多模态情绪识别方法、系统、设备及介质。
背景技术
情绪来源于心理层面,是人类重要特征之一。常见的情绪分类的研究方法有三种:基于面部表情或语音实现情绪识别;基于外围生理信号实现情绪识别;基于中枢神经系统信号实现情绪识别。传统的检测指标如脑电信号(Electroencephalogram,EEG),具有高时间分辨率、低空间分辨率、定位能力差等特点;在虚拟现实环境中,对比脑电信号,基于眼动信号的情绪识别方式更加便捷,具有较强的抗干扰性和较方便的采集模式等特点;而功能性近红外光谱技术(Functional Near-Infrared Spectroscopy,fNIRS)作为一种新兴的新型脑功能检测技术,具有低时间分辨率、高空间分辨率、对测量环境要求不高、抗干扰和抗电磁能力强、便于携带等特点。
多模态的脑功能检测方法能得到脑活动的多维信息,便于从不同方向对大脑神经活动进行描述,故脑电信号和眼动信号和功能性近红外光谱技术三种模式结合的情绪识别系统具有较高的研究价值。
不同个体之间存在生理、心理等方面的差异,对于同一种情绪诱发元,不同个体诱发的情绪可能并不完全相同。即使不同个体产生相同的情绪,其产生的生理信号也可能存在差异。故通过迁移学习来构建一种具有较强的泛化能力的情绪识别系统是一个较好的解决方案。
随着虚拟现实、元宇宙、人机交互、深度学习等领域的不断发展,基于VR设备下具有泛化能力的多模态的情绪分析有着广阔的应用前景和重要的意义。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种多模态情绪识别方法、系统、设备及介质。
本发明的目的通过以下技术方案实现:
一种多模态情绪识别方法,包括:
构建VR全景情绪图片库及数据集,并对数据集内的数据进行情绪标签;
用户佩戴VR设备,采用VR全景情绪图片库中的图片进行刺激,采集脑电信号、眼动信号及fNIRS信号;
使用稀疏自动编码器分别对脑电信号、眼动信号及fNIRS信号进行处理,提取输出层的特征,并将输出层特征作为输入层,继续处理,得到每一层的脑电信号、眼动信号及fNIRS信号特征;
通过模态间迁移函数学习进行特征重构,得到各模态重构特征;
将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签。
进一步,所述得到每一层的脑电信号、眼动信号及fNIRS信号特征,具体包括:
编码过程,具体是学习函数h的过程;
解码过程,具体是通过最小化重构误差来重构输入信号;
获得稀疏自动编码器每一层的脑电信号、眼动信号及fNIRS信号的特征。
进一步,所述通过模态间迁移函数学习进行特征重构,得到各模态重构特征,具体为:
将脑电模态、眼动模态及fNIRS模态三个模态两两组合,将模态投影到共同空间,在该空间中学习迁移函数,得到α、β的投影矩阵,并将该矩阵作为相应模态组合的迁移函数;
利用迁移函数得到各个模态第i层的迁移特征,进一步得到稀疏自动编码器每一层的输出;
进一步,所述将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签,具体为:
残差多头自注意力模块包含残差模块、线性变换模块、放缩点积注意力机制模块以及拼接模块,任一模态情感特征经过线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过放缩点积注意力机制,最后将输出进行拼接,得到任一模态的输出;
由于多头自注意力模块加入残差网络后,将上述各模态输出与该模态的浅层特征矩阵,即与所述对应模态的特征结合,因此得到脑电情感特征、眼动情感特征及fNIRS情感特征,作为经残差多头自注意力模块的输出;
交谈多头互注意力模块包含线性变换模块、经交谈机制处理的放缩点积注意力机制模块以及拼接模块,与自注意力模块不同的是,可同时处理两种模块的信号特征;
模态之间两两组合,分别将得到的残差多头自注意力输出经线性变换分别得到两种模态的查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过引入交谈机制的放缩点积注意力机制,分别将两种模态的结果进行拼接得到多头互注意力输出,最后将两两组合拼接的结果再次进行拼接得到多模态的输出;
采用级联拼接进行特征融合,并通过全局平均池化处理后得到多模态融合后的情感特征。最后经分类器判别器输出情绪类别。
进一步,采用KSLPCCA方法使模态投影到共同空间。
进一步,所述对数据集内的数据进行情绪标签,具体为:对数据集进行愉悦度筛选,将消极情绪图片诱发的数据设定标签为负向情绪,标签值为0,将中立情绪图片诱发的数据设定标签为中立情绪,标签值为1,将积极情绪图片诱发的数据设定标签为积极情绪,标签值为2。
进一步,所述脑电信号、眼动信号及fNIRS信号还包括带通滤波降低噪声过程。
一种情绪识别系统,用于实现所述的多模态情绪识别方法,包括:
虚拟现实场景构建模块:借助国际情绪图片系统(IAPS)收集不同情绪全景图片,包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片,构成VR全景情绪图片库。并通过借助Unity搭建虚拟现实作为诱发态下的场景;
信号采集模块:包括脑电采集设备、眼动采集设置及fNIRS采集设备,分别用于采集脑电信号、眼动信号及fNIRS信号;
特征提取模块:使用稀疏自动编码器分别对脑电、眼动、fNIRS信号进行处理,获得其特征;
特征重构模块:通过模态间迁移函数学习进行特征重构,将各个模态的输入信号作为输入得到其对应的重构特征;
多模态情绪识别模型:将不同模态特征进行处理,并通过加入残差网络的多头自注意力模块,将三种模态进行两两组合通过引入交谈多头注意力机制的多头互注意力模块,通过级联拼接进行特征融合,通过全局平均池化处理后分类输出情绪标签。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的多模态情绪识别方法。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的多模态情绪识别方法。
与现有技术相比,本发明具有以下优点和有益效果:
(1)在虚拟现实的诱发中,采用国际情绪图片系统(IAPS)收集相同数量的不同种类的情绪全景图片,构成VR全景情绪图片库,并通过借助Unity搭建虚拟现实作为诱发态下的场景,并利用SAM表针对愉悦度、唤醒度进行打分,并进行生理信号采集,形成应用于本系统的数据集,针对数据集进行愉悦度筛选,设定标签。一般地,常见情绪诱发源对情感反应的触发依赖于感知刺激,尤其是视觉提示、声音,有时还有触觉和嗅觉,而视觉刺激对情绪的影响比听觉和触觉更强。本发明借助Unity在虚拟现实系统中,强调虚拟现实的视觉影响,能较之传统的情绪诱发源具有更强的实时性与交互性。
(2)本发明提出使用机器学习的方法进行特征提取,传统的手工特征的提取和表达更依赖于人的经验,并且过程繁琐耗时。使用机器学习的方法进行特征提取,可以提高预测、识别和分类的能力。
(3)本发明提出一种基于迁移学习的重构特征方法。受到相同情绪元刺激的不同个体可能产生的情绪不同,其产生的生理信号也可能不同。因此,情绪识别受个体因素影响较大,本发明提出基于迁移学习的特征重构方法能使情绪识别系统具有更强的泛化能力,因此提出基于迁移学习的情绪识别系统。优势在于,当个体的某一模态的生理信号较弱或者缺失时,可通过本发明提供的方法进行特征重构,增强系统的泛化能力。
本发明提出一种基于注意力机制的特征融合算法,具体是基于残差多头自注意力机制和多头互注意力机制。传统的特征融合方法常是直接将所有的特征进行级联。这使得各模态的特征在影响情感识别分类上的权重相同。在实际情况中,各模态在情感表达中的影响程度应是不同的。注意力机制能对不同的模态赋予不同的比重,能够提高情绪识别的效果,同时加入残差网络,也能解决训练过程中可能存在的梯度爆炸和消失等问题。在多头互注意力模块中提出交谈多头注意力,引入了对多头注意力的线性映射,增加多个注意力机制间的信息交流。该方法能够进一步提高情绪识别的准确率。
附图说明
图1是本发明的工作流程图;
图2是本发明的基于迁移学习的特征重构过程图;
图3是本发明的基于残差多头自注意力模块和多头互注意力模块的情绪识别模型结构图;
图4是本发明信号采集模块示意图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
图1-图4所示,一种虚拟现实诱发态下基于注意力机制和迁移学习的fNIRS情绪识别系统及方法,适用于虚拟现实设备和脑电采集设备和fNIRS采集设备和眼动采集设备的情绪识别任务,主要包括虚拟现实场景搭建模块、信号采集模块、特征提取模块、特征重构模块、基于残差多头自注意力机制和多头互注意力机制的多模态情绪识别模型。
虚拟现实场景构建模块:虚拟现实情绪图片库采用国际情绪图片系统(IAPS)收集不同情绪全景图片,包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片,并通过VR设备对使用者进行情绪诱发,并利用SAM表针对愉悦度、唤醒度进行打分,分值在所选用图片的标准评分的80%即视为合格,并进行生理信号采集,形成应用于本系统的数据集,针对数据集进行愉悦度筛选,将消极情绪图片诱发的数据设定标签为负向情绪,标签值为0,将中立情绪图片诱发的数据设定标签为中立情绪,标签值为1,将积极情绪图片诱发的数据设定标签为积极情绪,标签值为2。
信号采集模块,如图4所示,信号采集模块在使用者受到虚拟现实情绪图库诱发影响,向信号采集设备传递相应信号。
首先,使用者通过佩戴VR、脑电采集设备、眼动采集设备fNIRS采集设备,实时采集脑电信号,眼动信号以及fNIRS信号。
通过脑电采集设备连续采集脑电信号,同时对脑电信号通过带通滤波以去除心电信号和肌电信号。
通过眼动采集设备连续采集眼动信号。同时对眼动信号通过带通滤波以降低噪声。
通过fNIRS采集设备连续采集fNIRS信号,同时对fNIRS信号通过带通滤波以平滑信号并降低噪声。
具体为:
编码过程,即学习函数h的过程,公式如下:
h(x)=f(Wx+b) (1)
f(z)=1/(1+exp(-z)) (2)
其中f()为非线性激活函数,W为权重矩阵,b为偏移向量
解码过程,即通过最小化重构误差来重构输入信号,公式如下:
其中p为稀疏水平大小,β为稀疏惩罚项的权重。
获得稀疏自动编码器每一层的脑电、眼动、fNIRS信号的特征:
其中Wi→i+1为第i层和第i+1层之间的权重,g()为激活函数
特征重构模块:通过模态间迁移函数学习进行特征重构,将各个模态的信号进行输入,能通过迁移函数的学习,得到各个模态的重构特征。通过眼动特征和fNIRS特征对脑电特征进行重构,此时脑电重构特征为 通过眼动特征和脑电特征对fNIRS特征进行重构,此时fNIRS重构特征为通过脑电特征和fNIRS特征对眼动特征进行重构,此时脑眼动重构特征为 选取特征表现较好的第i层,可通过多次实验的表现选取i的值。因此现在得到脑电情感特征HE、眼动情感特征HY、fNIRS情感特征HF。
所述通过模态间迁移函数学习进行特征重构,能得到各模态重构特征,具体为:
将脑电模态、眼动模态、fNIRS模态两两组合,利用核监督的局部保持典型相关分析KSLPCCA方法使模态投影到共同空间,在该空间中学习其迁移函数,以脑电情感特征和血氧情感特征为例:
KSLPCCA的目标函数为
可转化成广义特征方程求解
其中FE是特征集HE的类内k近邻图、FF是特征集HF的类内k近邻图、是HE的列和元素的对角矩阵、是HF的列和元素的对角矩阵、投影向量记作:W=HEα、U=HFβ、KE=(HE)THE代表特征集HE的核矩阵、KF=(HF)THF代表特征集HF的核矩阵、ξE、ξF表示正则化因子。
并满足以下关系
KSLPCCA能有效提取特征信息,并通过W和U把脑电和fNIRS特征的信息投影到共享空间中并得到α、β的投影矩阵,将该矩阵作为系数可得脑电和fNIRS模态间的迁移函数。
得到投影空间α、β之后,将其作为系数通过HE获得迁移函数,再通过迁移函数得到调整后的fNIRS特征H’F,公式如下:
H’F=TE→F(HE)=HEαβT (11)
同理有:
H”F=Tγ→F(HY)=HYγβT (14)
根据上述#(11)-#(14)公式可利用迁移函数得到各个模态第i层的迁移特征:
得到稀疏自动编码器每一层的输出:
多模态情绪识别模型:将不同模态特征进行处理,并通过加入残差网络的多头自注意力模块,将三种模态进行两两组合通过引入交谈多头注意力机制的多头互注意力模块,通过级联拼接进行特征融合,通过全局平均池化处理后分类输出情绪标签。
具体为:
以脑电模态为例,经线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V;
再通过放缩点积注意力机制,得到经多头自注意力模块的输出AE:
AE=Concat(H1,...,Hn) (21)
同理得到眼动特征、fNIRS情感特征经多头自注意力模块的完整输出AY、AF;
加入残差网络后,将脑电、眼动、fNIRS模态完整输出与浅层特征矩阵E结合,得到脑电情感特征、眼动情感特征、fNIRS情感特征经残差多头自注意力模块的输出RE、RY、RF;
通过使用一个参数矩阵将多头注意力重新融合成多个混合注意力,得到交谈多头注意力。
模态间两两组合,将得到的残差多头自注意力输出RE、RY、RF经引入交谈多头注意力机制的多头互注意力模块得到多头互注意力输出,以脑电和fNIRS模态为例,脑电和fNIRS通过多头互注意力机制得到多头互注意力模块的输出ARE_F:
同理可得到脑电和眼动情感特征通过多头互注意力模块的输出ARE_Y,眼动和fNIRS情感特征通过多头互注意力模块的输出ARU_F。
最后采用级联拼接进行特征融合,并通过全局平均池化处理后得到多模态融合后的情感特征。最后经过分类器输出情绪识别概率。
目前基于生理信号的情绪识别方法中大多是以单模态如脑电信号为主,鲜有基于功能性近红外光谱技术、脑电信号、眼动信号相关的多模态情绪识别研究。本发明提出一种虚拟现实为诱发态下基于注意力机制和迁移学习的多模态情绪识别系统,利用不同生理信号的优点,探索并挖掘其在情绪识别中的作用,并且利用迁移学习,考虑到个体之间的差异以及模态的信号可能不佳或者缺失的情况,以此增强系统的泛化能力,并通过注意力机制进一步加强系统的泛化能力,有助于该模型的普遍性与应用性。这不仅在实际应用中具有良好的发展前景,也开创了一种情绪识别系统新模式。
本发明提出一种基于机器学习的稀疏自动编码器的特征提取方法,能够实现对脑电信号、眼动信号、功能性近红外光谱信号的特征提取,能够避免手工提取特征过于依赖人的经验的问题,该方法可以提高预测、识别和分类的能力,并且减少特征提取的繁琐性。
本发明提出一种基于迁移学习的特征重构方法,能够通过三种模态相互作用,并借助迁移函数,得到各个模态的重构特征,以尽可能解决因为不同个体之间产生生理信号不同的问题,能增强情绪识别系统的泛化能力,提高情绪识别系统对个体差异性的处理能力。
本发明提出一种基于残差多头自注意力和多头互注意力的多模态特征融合方法,注意力机制能够有效的结合不同模态之间的特征信息,能更好的结合脑电特征、眼动特征和fNIRS特征,并且加入了残差网络,能够减少训练过程中可能存在的梯度爆炸等问题。在多头互注意力模块中提出交谈多头注意力,引入了对多头注意力的线性映射,增加多个注意力机制间的信息交流。该方法能够进一步提高情绪识别的准确率。
本发明的另一个实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的多模态情绪识别方法。
本发明的另一个实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的多模态情绪识别方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种多模态情绪识别方法,其特征在于,包括:
构建VR全景情绪图片库及数据集,并对数据集内的数据进行情绪标签;
用户佩戴VR设备,采用VR全景情绪图片库中的图片进行刺激,采集脑电信号、眼动信号及fNIRS信号;
使用稀疏自动编码器分别对脑电信号、眼动信号及fNIRS信号进行处理,提取输出层的特征,并将输出层特征作为输入层,继续处理,得到每一层的脑电信号、眼动信号及fNIRS信号特征;
通过模态间迁移函数学习进行特征重构,得到各模态重构特征;
将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签。
2.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述得到每一层的特征,具体包括:
编码过程,具体是学习函数h的过程;
解码过程,具体是通过最小化重构误差来重构输入信号;
获得稀疏自动编码器每一层的脑电信号、眼动信号及fNIRS信号的特征。
4.根据权利要求1所述的一种多模态情绪识别方法,其特征在于,所述将模态重构特征即眼动信号重构特征、脑电信号重构特征以及fNIRS信号重构特征,输入残差多头自注意力模块,将眼动模态、脑电模态、fNIRS模态三种模态进行两两组合,通过引入交谈多头注意力机制的多头互注意力模块,采用级联拼接进行特征融合,然后全局平均池化处理后分类输出情绪标签,具体为:
残差多头自注意力模块包含残差模块、线性变换模块、放缩点积注意力机制模块以及拼接模块,任一模态情感特征经过线性变换得到查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过放缩点积注意力机制,最后将输出进行拼接,得到任一模态的输出;
由于多头自注意力模块加入残差网络后,将上述各模态输出与该模态的浅层特征矩阵,即与所述对应模态的特征结合,因此得到脑电情感特征、眼动情感特征及fNIRS情感特征,作为经残差多头自注意力模块的输出;
交谈多头互注意力模块包含线性变换模块、经交谈机制处理的放缩点积注意力机制模块以及拼接模块,与自注意力模块不同的是,可同时处理两种模块的信号特征;
模态之间两两组合,分别将得到的残差多头自注意力输出经线性变换分别得到两种模态的查询向量矩阵Q、键值向量矩阵K、输出值向量矩阵V,将其通过引入交谈机制的放缩点积注意力机制,分别将两种模态的结果进行拼接得到多头互注意力输出,最后将两两组合拼接的结果再次进行拼接得到多模态的输出;
采用级联拼接进行特征融合,并通过全局平均池化处理后得到多模态融合后的情感特征,最后经分类器判别器输出情绪类别。
5.根据权利要求3所述的一种多模态情绪识别方法,其特征在于,采用KSLPCCA方法使模态投影到共同空间。
6.根据权利要求1所述的一种多模态情绪识别方法,其特征在于,所述对数据集内的数据进行情绪标签,具体为:对数据集进行愉悦度筛选,将消极情绪图片诱发的数据设定标签为负向情绪,标签值为0,将中立情绪图片诱发的数据设定标签为中立情绪,标签值为1,将积极情绪图片诱发的数据设定标签为积极情绪,标签值为2。
7.根据权利要求1所述的多模态情绪识别方法,其特征在于,所述脑电信号、眼动信号及fNIRS信号还包括带通滤波降低噪声过程。
8.一种情绪识别系统,其特征在于,用于实现权利要求1-7任一项所述的多模态情绪识别方法,包括:
虚拟现实场景构建模块:借助国际情绪图片系统(IAPS)收集不同情绪全景图片,包含相同数量的消极情绪图片、中立情绪图片和积极情绪图片,构成VR全景情绪图片库,并通过借助Unity搭建虚拟现实作为诱发态下的场景;
信号采集模块:包括脑电采集设备、眼动采集设置及fNIRS采集设备,分别用于采集脑电信号、眼动信号及fNIRS信号;
特征提取模块:使用稀疏自动编码器分别对脑电、眼动、fNIRS信号进行处理,获得其特征;
特征重构模块:通过模态间迁移函数学习进行特征重构,将各个模态的输入信号作为输入得到其对应的重构特征;
多模态情绪识别模型:将不同模态特征进行处理,并通过加入残差网络的多头自注意力模块,将三种模态进行两两组合通过引入交谈多头注意力机制的多头互注意力模块,通过级联拼接进行特征融合,通过全局平均池化处理后分类输出情绪标签。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的多模态情绪识别方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的多模态情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210819867.4A CN115349860A (zh) | 2022-07-13 | 2022-07-13 | 一种多模态情绪识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210819867.4A CN115349860A (zh) | 2022-07-13 | 2022-07-13 | 一种多模态情绪识别方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115349860A true CN115349860A (zh) | 2022-11-18 |
Family
ID=84032267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210819867.4A Pending CN115349860A (zh) | 2022-07-13 | 2022-07-13 | 一种多模态情绪识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115349860A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116098621A (zh) * | 2023-02-14 | 2023-05-12 | 平顶山学院 | 一种基于注意力机制的情绪面孔及生理反应识别方法 |
CN116301473A (zh) * | 2023-01-19 | 2023-06-23 | 佛山创视嘉科技有限公司 | 基于虚拟现实的用户行为预测方法、装置、设备及介质 |
CN116935480A (zh) * | 2023-09-18 | 2023-10-24 | 四川天地宏华导航设备有限公司 | 一种情绪识别方法及装置 |
CN117582227A (zh) * | 2024-01-18 | 2024-02-23 | 华南理工大学 | 基于概率分布标签和脑区特征的fNIRS情绪识别方法及系统 |
-
2022
- 2022-07-13 CN CN202210819867.4A patent/CN115349860A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116301473A (zh) * | 2023-01-19 | 2023-06-23 | 佛山创视嘉科技有限公司 | 基于虚拟现实的用户行为预测方法、装置、设备及介质 |
CN116098621A (zh) * | 2023-02-14 | 2023-05-12 | 平顶山学院 | 一种基于注意力机制的情绪面孔及生理反应识别方法 |
CN116098621B (zh) * | 2023-02-14 | 2024-08-16 | 平顶山学院 | 一种基于注意力机制的情绪面孔及生理反应识别方法 |
CN116935480A (zh) * | 2023-09-18 | 2023-10-24 | 四川天地宏华导航设备有限公司 | 一种情绪识别方法及装置 |
CN116935480B (zh) * | 2023-09-18 | 2023-12-29 | 四川天地宏华导航设备有限公司 | 一种情绪识别方法及装置 |
CN117582227A (zh) * | 2024-01-18 | 2024-02-23 | 华南理工大学 | 基于概率分布标签和脑区特征的fNIRS情绪识别方法及系统 |
CN117582227B (zh) * | 2024-01-18 | 2024-04-30 | 华南理工大学 | 基于概率分布标签和脑区特征的fNIRS情绪识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tao et al. | EEG-based emotion recognition via channel-wise attention and self attention | |
CN112120716B (zh) | 一种可穿戴式多模态情绪状态监测装置 | |
Chen et al. | Accurate EEG-based emotion recognition on combined features using deep convolutional neural networks | |
Zhang et al. | Multimodal emotion recognition using a hierarchical fusion convolutional neural network | |
CN115349860A (zh) | 一种多模态情绪识别方法、系统、设备及介质 | |
Hossain et al. | Status of deep learning for EEG-based brain–computer interface applications | |
Wang et al. | Multi-modal domain adaptation variational autoencoder for EEG-based emotion recognition | |
Praveen et al. | Audio–visual fusion for emotion recognition in the valence–arousal space using joint cross-attention | |
Pan et al. | Emotion recognition based on EEG using generative adversarial nets and convolutional neural network | |
Chen et al. | Design and implementation of human-computer interaction systems based on transfer support vector machine and EEG signal for depression patients’ emotion recognition | |
CN113974627B (zh) | 一种基于脑机生成对抗的情绪识别方法 | |
Liu et al. | Tacnet: task-aware electroencephalogram classification for brain-computer interface through a novel temporal attention convolutional network | |
Lian et al. | An Ear Wearable Device System for Facial Emotion Recognition Disorders | |
Fu et al. | Gesture based fear recognition using nonperformance dataset from VR horror games | |
CN114842384B (zh) | 一种面向6g的触觉模态信号重建方法 | |
Immanuel et al. | Analysis of different emotions with bio-signals (EEG) using deep CNN | |
Partovi et al. | A Self-Supervised Task-Agnostic Embedding for EEG Signals | |
Kaur et al. | Recent trends and challenges in human computer interaction using automatic emotion recognition: a review | |
CN114081492A (zh) | 一种基于可学习邻接矩阵的脑电情绪识别系统 | |
Chen et al. | Research on positive emotion recognition based on EEG signals | |
Lopez et al. | Hierarchical Hypercomplex Network for Multimodal Emotion Recognition | |
Ferrante et al. | Towards neural foundation models for vision: Aligning eeg, meg and fmri representations to perform decoding, encoding and modality conversion | |
Song et al. | Emotion Recognition of EEG Signals Based on CRNN+ MCSNet | |
CN118296357B (zh) | 脑电信号特征识别与表示方法、装置及计算机设备 | |
Liang et al. | A Novel Motor Imagery EEG Classification Model Using Frequency-Temporal-Spatial Convolutional Neural Network with Channel Attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |