CN117992832A - 基于生理与非生理多模态数据融合的情感感知智能眼镜 - Google Patents
基于生理与非生理多模态数据融合的情感感知智能眼镜 Download PDFInfo
- Publication number
- CN117992832A CN117992832A CN202410227495.5A CN202410227495A CN117992832A CN 117992832 A CN117992832 A CN 117992832A CN 202410227495 A CN202410227495 A CN 202410227495A CN 117992832 A CN117992832 A CN 117992832A
- Authority
- CN
- China
- Prior art keywords
- emotion
- face
- fusion
- physiological
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 105
- 230000004927 fusion Effects 0.000 title claims abstract description 97
- 239000011521 glass Substances 0.000 title claims abstract description 28
- 230000008447 perception Effects 0.000 title claims abstract description 20
- 230000008909 emotion recognition Effects 0.000 claims abstract description 69
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000001815 facial effect Effects 0.000 claims abstract description 18
- 239000002131 composite material Substances 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 16
- 210000004556 brain Anatomy 0.000 claims abstract description 6
- 230000000007 visual effect Effects 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 claims description 16
- 230000004424 eye movement Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 12
- 230000001537 neural effect Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 239000004984 smart glass Substances 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 241000282414 Homo sapiens Species 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000001943 fluorescence-activated cell sorting Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000006996 mental state Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 3
- 230000001502 supplementing effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 210000001061 forehead Anatomy 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005802 health problem Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 208000019116 sleep disease Diseases 0.000 description 1
- 208000020685 sleep-wake disease Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种基于生理与非生理多模态数据融合的情感感知智能眼镜,包括镜架、摄像模块、音频采集模块、供电模块、数据处理装置、脑电检测装置;脑电检测装置包括插口和若干与插口相连的电极;镜架上设有用于插接插口的脑电采集接口;数据处理装置执行多模态数据情感感知方法,包括如下步骤:接收佩戴者多模态信号;多模态信号包括脑电信号、音频数据、脸部图片和脸部视频;分别进行情感特征提取;将各个情感特征进行融合,通过分类得到复合情感识别结果。该智能眼镜支持对生理和非生理多模态情感数据进行情感特征提取,融合,具备多模态情感数据相互支持、相互补充的能力,提高情感状态评估准确率,可有效、便捷地评估用户的日常精神状态。
Description
技术领域
本发明涉及情感识别技术领域,更具体地说,涉及一种基于生理与非生理多模态数据融合的情感感知智能眼镜。
背景技术
情感健康问题使人们在情感方面存在不良体验和困扰,长期处于焦虑、抑郁、恐惧、内疚、愤怒情绪下会导致抑郁症、焦虑症、睡眠障碍等生理和心理上的不适。随着城市化和现代生活方式的普及以及物联网和5G技术的发展,智能情感计算领域是人工智能领域一个快速发展的分支,涉及到自然语言处理、计算机视觉等多个技术方向,可有效识别人们的情感状态,为情感健康问题的诊断提供有价值的数据来源。
可穿戴设备逐渐成为一种新型流行的科技产品,其便捷性、实时性和可扩展性等特点广受用户欢迎。若将智能情感计算和可穿戴设备两种技术融合起来,则可在日常生活中进行情感数据获取和处理,有效评估用户的日常精神状态。
但现有的情感计算类可穿戴设备,往往只能采集表情等非生理数据进行情感感知,非生理数据受到主观因素干扰较大;若能加入脑电等生理数据,生理数据受主观因素较小,可从身体反应的角度来揭示人类的情感状态,有效提高情感感知的准确度。
针对不同场景,包括情感状态识别、精神状态感知、辅助疾病诊断和检测等,采集脑电信号需要使用不同导联模式;若在可穿戴设备上使用脑电信号,则需要解决不同导联模式兼容的问题。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于生理与非生理多模态数据融合的情感感知智能眼镜;该智能眼镜支持对生理和非生理多模态情感数据进行情感特征提取,融合,具备多模态情感数据相互支持、相互补充的能力,提高情感状态评估准确率,可有效、便捷地评估用户的日常精神状态。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于生理与非生理多模态数据融合的情感感知智能眼镜,包括镜架,设置在镜架的摄像模块、音频采集模块、供电模块和数据处理装置,以及可拆装地与镜架连接的脑电检测装置;
所述脑电检测装置包括插口和若干用于获取脑电信号的电极;各个电极分别与插口相连;镜架上设有用于插接所述插口的脑电采集接口;脑电采集接口、摄像模块和音频采集模块分别与数据处理装置信号连接;
所述数据处理装置执行多模态数据情感感知方法;所述多模态数据情感感知方法是,包括如下步骤:
S1、接收佩戴者多模态信号;多模态信号包括脑电检测装置得到的脑电信号、音频采集模块得到的音频数据、摄像模块得到的脸部图片和脸部视频;
S2、对脑电信号、音频数据、脸部图片、脸部视频分别进行情感特征提取;
S3、将步骤S2得到的各个情感特征进行融合,通过分类得到复合情感识别结果。
优选地,还包括:
镜片显示屏,用于生成全息影像;
镜片眼动仪,用于采集佩戴者的眼动数据;
GPS定位模块,用于记录用户佩戴的时间、位置、地点和运动轨迹;
电容传感模块,用于检测是否被佩戴;
镜片显示屏和镜片眼动仪分别设置在镜架的镜框中;GPS定位模块和电容传感模块分别设置在镜架中;
当电容传感模块检测到被佩戴的状态下,数据处理装置执行多模态数据情感感知方法;
所述多模态数据情感感知方法的步骤S1中,多模态信号还包括镜片眼动仪得到的眼动数据;步骤S2还对眼动数据进行情感特征提取。
优选地,所述步骤S2,对脑电信号进行情感特征提取,是指:接收脑电检测装置发送的脑电信号和脑电检测装置ID;对脑电检测装置ID进行识别,以获取导联模式信息;利用模型选择器根据导联模式信息选择相应的动态图卷积网络;将脑电信号输入到对应的动态图卷积网络提取情感特征。
优选地,所述步骤S2,对音频数据进行情感特征提取,是指:对音频数据进行滤波、平滑、分帧操作;提取梅尔倒谱系数特征;利用梅尔倒谱系数特征并载入为特征向量形式,输入到基于注意力机制的BiLSTM神经网络中进行情感特征提取。
优选地,所述摄像模块为四个,分别用于分别采集佩戴者四个视角的图片和视频;所述四个视角是指:左眼、右眼、左下脸部、右下脸部;
所述步骤S2,对脸部图片和脸部视频进行情感特征提取,是指:对脸部图片和脸部视频,分别采用局部融合情感识别网络进行处理;其中,脸部图片分别以四个视角数据作为局部融合情感识别网络的四个视角输入;脸部视频分别对四个视角数据提取起始帧和峰值帧,作为局部融合情感识别网络的四个视角输入;
所述四个视角输入在局部融合情感识别网络中的处理方式是:左眼输入和右眼输入进行深度卷积以提取局部视角特征;左下脸部输入和右下脸部输入分别通过嵌入层将提取到的动作单元嵌入,然后与面部行为编码FACS一起输入到空域图卷积中以提取局部视角特征;将四个视角输入提取得到的局部视角特征同时输入到多层感知机中进行空间映射,计算空间注意力和通道注意力后进行特征图融合,得到最终的情感特征。
优选地,所述局部融合情感识别网络为四个,分别为局部融合情感识别网络一、局部融合情感识别网络二、局部融合情感识别网络三和局部融合情感识别网络四;
所述局部融合情感识别网络一对脸部图片进行处理,得到脸部图片的宏表情情感特征;局部融合情感识别网络二对脸部图片进行处理,得到脸部图片的微表情情感特征;局部融合情感识别网络三对脸部视频进行处理,得到脸部视频的宏表情情感特征;局部融合情感识别网络四对脸部视频进行处理,得到脸部视频的微表情情感特征。
优选地,四个局部融合情感识别网络均包括分别四个视角输入的四个局部特征提取单元;针对左眼输入和右眼输入的两个局部特征提取单元均包括深度卷积网络一;针对左下脸部输入和右下脸部输入的两个局部特征提取单元均由嵌入层、空域图卷积网络依次连接组成;嵌入层还与动作单元提取器连接;空域图卷积网络还与面部动作编码系统连接;左下脸部输入和右下脸部输入;四个局部特征提取单元的输出同时与多层感知机连接,并通过通道注意力和空间注意力进行融合;
其中,所述局部融合情感识别网络三和局部融合情感识别网络四,针对左眼输入和右眼输入的两个局部特征提取单元分别还包括动作放大网络;左眼输入和右眼输入分别通过动作放大网络将微笑表情放大,再输入深度卷积网络一,提取局部视角特征。
优选地,所述步骤S2中,对脸部图片和脸部视频,在采用局部融合情感识别网络进行处理之前,先分别进行预处理;
对脸部图片,预处理包括利用串联的预处理卷积神经网络一进行人脸检测;利用串联的预处理卷积神经网络一进行人脸检测,是指:生成候选框,并对候选框进行初步筛选,对人脸关键点进行检测;经过卷积、激活函数、池化、全连接处理后,输出每个候选框的置信度、坐标偏移量和五个关键点的坐标,以实现人脸检测;
对脸部视频,预处理包括利用串联的预处理多层深度卷积神经网络二进行人脸检测;利用串联的预处理多层深度卷积神经网络二进行人脸检测,是指:使用视频流方式,逐帧读取脸部视频;对脸部视频的每一帧图像,利用串联的预处理多层深度卷积神经网络二对图像改变尺寸后的金字塔形数据进行操作,得到人脸框、关键点坐标和人脸分类,以实现人脸检测;预处理多层深度卷积神经网络二包括依次连接的图像改变尺寸层、卷积神经单元一、卷积神经单元二、最大池化层一、全连接层一、卷积神经单元三、最大池化层二和全连接层二,以及连接卷积神经单元三与最大池化层二之间的空间注意力层。
优选地,所述步骤S3,是指:采用多模态自适应融合模块将步骤S2得到的各个情感特征进行融合:多模态自适应融合模块的输入为情感特征X={X1,...,Xn},其中Xi为第i个情感特征,n为情感特征的数量;利用注意力机制并且迭代地进行特征融合,最终得到融合特征;将融合特征输入到分类器中进行学习,得到复合情感识别结果;复合情感识别结果采用情感状态的复合表示;情感状态的复合表示形式为:情感类别及对应比例。
与现有技术相比,本发明具有如下优点与有益效果:
1、本发明通过采集用户生理数据和非生理数据,支持对多模态情感数据进行情感特征提取,融合,具备多模态情感数据相互支持、相互补充的能力;多模态数据融合实时评估用户的情感状态,提高情感状态评估准确率,有利于后续提供相关建议或干预措施;可在日常便捷地佩戴和使用,不仅可以帮助个人更好地了解自己的情感状态,还可以为心理医生、研究人员等提供有价值的数据来源;
2、本发明采用可插拔的脑电检测装置,使智能眼镜可兼容多种规格和模式的导联,匹配不同场景和用途,提高智能眼镜的通用性,使用便捷;
3、本发明可采集佩戴者的局部多视角表情数据,采用面部动作单元信息辅助宏表情和微表情的局部融合情感识别网络,提高宏表情和微表情特征的表达能力。
附图说明
图1是本发明基于生理与非生理多模态数据融合的情感感知智能眼镜的结构示意图;
图2是本发明基于生理与非生理多模态数据融合的情感感知智能眼镜中脑电检测装置的结构示意图;
图3是本发明多模态数据情感感知方法的流程示意图;
图4是本发明预处理多层深度卷积神经网络二的结构图;
图5是本发明局部融合情感识别网络一和局部融合情感识别网络二的结构图;
图6是本发明局部融合情感识别网络三和局部融合情感识别网络四的结构图;
图7是本发明多模态自适应融合模块的结构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例
本实施例一种基于生理与非生理多模态数据融合的情感感知智能眼镜,如图1所示,包括镜架6、摄像模块3、音频采集模块5、供电模块和数据处理装置,以及可拆装地与镜架6连接的脑电检测装置;还包括用于生成全息影像的镜片显示屏8,用于采集佩戴者的眼动数据的镜片眼动仪7,用于记录用户佩戴的时间、位置、地点和运动轨迹的GPS定位模块,用于检测是否被佩戴的电容传感模块。
优选方案是:智能眼镜还包括:扬声器1,将电信号转换为声音,使用户能够听到清晰的音频;指示灯2,用于显示设备工作状态,使用光源提供设备的反馈信息;充电插口9,将电源适配器或充电器连接以进行充电。
摄像模块3、音频采集模块5、供电模块、数据处理装置、GPS定位模块和电容传感模块分别设置在镜架6中;镜片显示屏8和镜片眼动仪7分别设置在镜架6的镜框中。
脑电检测装置,如图2所示,包括插口10和若干用于获取脑电信号的电极11;本实施例的脑电检测装置为三导联,包括三个电极;三个电极11分别用于粘贴在左侧前额区域、中央前额区域、右侧前额区域;各个电极11分别与插口10相连;实际应用中,脑电检测装置还可以是四导联或六导联,可根据场景选用。镜架6上设有用于插接所述插口10的脑电采集接口4。
由于眼镜距离脸部太近,难以用单个摄像模块获取全脸图像;因此,本发明的摄像模块3为四个,分别用于分别采集佩戴者四个视角的图片和视频;所述四个视角是指:左眼、右眼、左下脸部、右下脸部。
脑电采集接口4、摄像模块3、音频采集模块5、镜片眼动仪、GPS定位模块、电容传感模块、镜片显示屏分别与数据处理装置信号连接。
当电容传感模块检测到被佩戴的状态下,数据处理装置执行多模态数据情感感知方法;
所述多模态数据情感感知方法是,如图3所示,包括如下步骤:
S1、接收佩戴者多模态信号;多模态信号包括脑电检测装置得到的脑电信号、音频采集模块得到的音频数据、摄像模块得到的脸部图片和脸部视频、镜片眼动仪得到的眼动数据。
S2、对脑电信号、音频数据、脸部图片、脸部视频、眼动数据分别进行情感特征提取。
对脑电信号进行情感特征提取,是指:接收脑电检测装置发送的脑电信号和脑电检测装置ID;对脑电检测装置ID进行识别,以获取导联模式信息;利用模型选择器根据导联模式信息选择相应的动态图卷积网络;将脑电信号输入到对应的动态图卷积网络提取情感特征。
模型选择器是前期构建,用于将不同的导联模式信息映射到不同参数下的动态图卷积网络;不同参数下的动态图卷积网络适用于不同数量导联的脑电信号处理。
对音频数据进行情感特征提取,是指:对音频数据进行滤波、平滑、分帧操作;提取梅尔倒谱系数特征;利用梅尔倒谱系数特征并载入为特征向量形式,输入到基于注意力机制的BiLSTM神经网络中进行情感特征提取。
对脸部图片和脸部视频进行情感特征提取,是指:对脸部图片和脸部视频,分别采用局部融合情感识别网络进行处理。对脸部图片和脸部视频,在采用局部融合情感识别网络进行处理之前,先分别进行预处理。
对脸部图片,预处理包括利用串联的预处理卷积神经网络一进行人脸检测;利用串联的预处理卷积神经网络一进行人脸检测,是指:生成候选框,并对候选框进行初步筛选,对人脸关键点进行检测;经过卷积、激活函数、池化、全连接处理后,输出每个候选框的置信度、坐标偏移量和五个关键点的坐标,以实现人脸检测;
对脸部视频,预处理包括利用串联的预处理多层深度卷积神经网络二进行人脸检测,如图4所示;利用串联的预处理多层深度卷积神经网络二进行人脸检测,是指:使用视频流方式,逐帧读取脸部视频;对脸部视频的每一帧图像,利用串联的预处理多层深度卷积神经网络二对图像改变尺寸后的金字塔形数据进行操作,得到人脸框、关键点坐标和人脸分类,以实现人脸检测;预处理多层深度卷积神经网络二包括依次连接的图像改变尺寸层、卷积神经单元一、卷积神经单元二、最大池化层一、全连接层一、卷积神经单元三、最大池化层二和全连接层二,以及连接卷积神经单元三与最大池化层二之间的空间注意力层。
脸部图片分别以四个视角数据作为局部融合情感识别网络的四个视角输入;脸部视频分别对四个视角数据提取起始帧和峰值帧,作为局部融合情感识别网络的四个视角输入;
所述四个视角输入在局部融合情感识别网络中的处理方式是:左眼输入和右眼输入进行深度卷积以提取局部视角特征;左下脸部输入和右下脸部输入分别通过嵌入层将提取到的动作单元嵌入,然后与面部行为编码FACS一起输入到空域图卷积中以提取局部视角特征;将四个视角输入提取得到的局部视角特征同时输入到多层感知机中进行空间映射,计算空间注意力和通道注意力后进行特征图融合,得到最终的情感特征。
局部融合情感识别网络为四个,分别为局部融合情感识别网络一、局部融合情感识别网络二、局部融合情感识别网络三和局部融合情感识别网络四;
所述局部融合情感识别网络一对脸部图片进行处理,得到脸部图片的宏表情情感特征;局部融合情感识别网络二对脸部图片进行处理,得到脸部图片的微表情情感特征;局部融合情感识别网络三对脸部视频进行处理,得到脸部视频的宏表情情感特征;局部融合情感识别网络四对脸部视频进行处理,得到脸部视频的微表情情感特征;局部融合情感识别网络一和局部融合情感识别网络二的结构如图5所示,局部融合情感识别网络三和局部融合情感识别网络四的结构如图6所示。
四个局部融合情感识别网络均包括分别四个视角输入的四个局部特征提取单元;针对左眼输入和右眼输入的两个局部特征提取单元均包括深度卷积网络一;针对左下脸部输入和右下脸部输入的两个局部特征提取单元均由嵌入层、空域图卷积网络依次连接组成;嵌入层还与动作单元提取器连接;空域图卷积网络还与面部动作编码系统连接;左下脸部输入和右下脸部输入;四个局部特征提取单元的输出同时与多层感知机连接,并通过通道注意力和空间注意力进行融合;
其中,所述局部融合情感识别网络三和局部融合情感识别网络四,针对左眼输入和右眼输入的两个局部特征提取单元分别还包括动作放大网络;左眼输入和右眼输入分别通过动作放大网络将微笑表情放大,再输入深度卷积网络一,提取局部视角特征。
S3、将步骤S2得到的各个情感特征进行融合,通过分类得到复合情感识别结果。
具体地说,采用多模态自适应融合模块将步骤S2得到的各个情感特征进行融合,如图7所示:多模态自适应融合模块的输入为情感特征X={X1,...,Xn},其中Xi为第i个情感特征,n为情感特征的数量;利用注意力机制并且迭代地进行特征融合,最终得到融合特征;将融合特征输入到分类器中进行学习,得到复合情感识别结果;复合情感识别结果采用情感状态的复合表示;情感状态的复合表示形式为:情感类别及对应比例。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:包括镜架,设置在镜架的摄像模块、音频采集模块、供电模块和数据处理装置,以及可拆装地与镜架连接的脑电检测装置;
所述脑电检测装置包括插口和若干用于获取脑电信号的电极;各个电极分别与插口相连;镜架上设有用于插接所述插口的脑电采集接口;脑电采集接口、摄像模块和音频采集模块分别与数据处理装置信号连接;
所述数据处理装置执行多模态数据情感感知方法;所述多模态数据情感感知方法是,包括如下步骤:
S1、接收佩戴者多模态信号;多模态信号包括脑电检测装置得到的脑电信号、音频采集模块得到的音频数据、摄像模块得到的脸部图片和脸部视频;
S2、对脑电信号、音频数据、脸部图片、脸部视频分别进行情感特征提取;
S3、将步骤S2得到的各个情感特征进行融合,通过分类得到复合情感识别结果。
2.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:还包括:
镜片显示屏,用于生成全息影像;
镜片眼动仪,用于采集佩戴者的眼动数据;
GPS定位模块,用于记录用户佩戴的时间、位置、地点和运动轨迹;
电容传感模块,用于检测是否被佩戴;
镜片显示屏和镜片眼动仪分别设置在镜架的镜框中;GPS定位模块和电容传感模块分别设置在镜架中;
当电容传感模块检测到被佩戴的状态下,数据处理装置执行多模态数据情感感知方法;
所述多模态数据情感感知方法的步骤S1中,多模态信号还包括镜片眼动仪得到的眼动数据;步骤S2还对眼动数据进行情感特征提取。
3.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:所述步骤S2,对脑电信号进行情感特征提取,是指:接收脑电检测装置发送的脑电信号和脑电检测装置ID;对脑电检测装置ID进行识别,以获取导联模式信息;通过模型选择器根据导联模式信息选择相应的动态图卷积网络;将脑电信号输入到对应的动态图卷积网络提取情感特征。
4.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:所述步骤S2,对音频数据进行情感特征提取,是指:对音频数据进行滤波、平滑、分帧操作;提取梅尔倒谱系数特征;利用梅尔倒谱系数特征并载入为特征向量形式,输入到基于注意力机制的BiLSTM神经网络中进行情感特征提取。
5.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:所述摄像模块为四个,分别用于分别采集佩戴者四个视角的图片和视频;所述四个视角是指:左眼、右眼、左下脸部、右下脸部;
所述步骤S2,对脸部图片和脸部视频进行情感特征提取,是指:对脸部图片和脸部视频,分别采用局部融合情感识别网络进行处理;其中,脸部图片分别以四个视角数据作为局部融合情感识别网络的四个视角输入;脸部视频分别对四个视角数据提取起始帧和峰值帧,作为局部融合情感识别网络的四个视角输入;
所述四个视角输入在局部融合情感识别网络中的处理方式是:左眼输入和右眼输入进行深度卷积以提取局部视角特征;左下脸部输入和右下脸部输入分别通过嵌入层将提取到的动作单元嵌入,然后与面部行为编码FACS一起输入到空域图卷积中以提取局部视角特征;将四个视角输入提取得到的局部视角特征同时输入到多层感知机中进行空间映射,计算空间注意力和通道注意力后进行特征图融合,得到最终的情感特征。
6.根据权利要求5所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:所述局部融合情感识别网络为四个,分别为局部融合情感识别网络一、局部融合情感识别网络二、局部融合情感识别网络三和局部融合情感识别网络四;
所述局部融合情感识别网络一对脸部图片进行处理,得到脸部图片的宏表情情感特征;局部融合情感识别网络二对脸部图片进行处理,得到脸部图片的微表情情感特征;局部融合情感识别网络三对脸部视频进行处理,得到脸部视频的宏表情情感特征;局部融合情感识别网络四对脸部视频进行处理,得到脸部视频的微表情情感特征。
7.根据权利要求6所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:四个局部融合情感识别网络均包括分别四个视角输入的四个局部特征提取单元;针对左眼输入和右眼输入的两个局部特征提取单元均包括深度卷积网络一;针对左下脸部输入和右下脸部输入的两个局部特征提取单元均由嵌入层、空域图卷积网络依次连接组成;嵌入层还与动作单元提取器连接;空域图卷积网络还与面部动作编码系统连接;左下脸部输入和右下脸部输入;四个局部特征提取单元的输出同时与多层感知机连接,并通过通道注意力和空间注意力进行融合;
其中,所述局部融合情感识别网络三和局部融合情感识别网络四,针对左眼输入和右眼输入的两个局部特征提取单元分别还包括动作放大网络;左眼输入和右眼输入分别通过动作放大网络将微笑表情放大,再输入深度卷积网络一,提取局部视角特征。
8.根据权利要求5所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:所述步骤S2中,对脸部图片和脸部视频,在采用局部融合情感识别网络进行处理之前,先分别进行预处理;
对脸部图片,预处理包括利用串联的预处理卷积神经网络一进行人脸检测;利用串联的预处理卷积神经网络一进行人脸检测,是指:生成候选框,并对候选框进行初步筛选,对人脸关键点进行检测;经过卷积、激活函数、池化、全连接处理后,输出每个候选框的置信度、坐标偏移量和五个关键点的坐标,以实现人脸检测;
对脸部视频,预处理包括利用串联的预处理多层深度卷积神经网络二进行人脸检测;利用串联的预处理多层深度卷积神经网络二进行人脸检测,是指:使用视频流方式,逐帧读取脸部视频;对脸部视频的每一帧图像,利用串联的预处理多层深度卷积神经网络二对图像改变尺寸后的金字塔形数据进行操作,得到人脸框、关键点坐标和人脸分类,以实现人脸检测;预处理多层深度卷积神经网络二包括依次连接的图像改变尺寸层、卷积神经单元一、卷积神经单元二、最大池化层一、全连接层一、卷积神经单元三、最大池化层二和全连接层二,以及连接卷积神经单元三与最大池化层二之间的空间注意力层。
9.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜,其特征在于:所述步骤S3,是指:采用多模态自适应融合模块将步骤S2得到的各个情感特征进行融合:多模态自适应融合模块的输入为情感特征X={X1,...,Xn},其中Xi为第i个情感特征,n为情感特征的数量;利用注意力机制并且迭代地进行特征融合,最终得到融合特征;将融合特征输入到分类器中进行学习,得到复合情感识别结果;复合情感识别结果采用情感状态的复合表示;情感状态的复合表示形式为:情感类别及对应比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410227495.5A CN117992832A (zh) | 2024-02-29 | 2024-02-29 | 基于生理与非生理多模态数据融合的情感感知智能眼镜 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410227495.5A CN117992832A (zh) | 2024-02-29 | 2024-02-29 | 基于生理与非生理多模态数据融合的情感感知智能眼镜 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117992832A true CN117992832A (zh) | 2024-05-07 |
Family
ID=90892996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410227495.5A Pending CN117992832A (zh) | 2024-02-29 | 2024-02-29 | 基于生理与非生理多模态数据融合的情感感知智能眼镜 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117992832A (zh) |
-
2024
- 2024-02-29 CN CN202410227495.5A patent/CN117992832A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20140267646A1 (en) | Apparatus connectable to glasses | |
CN110363129B (zh) | 基于微笑范式和音视频行为分析的孤独症早期筛查系统 | |
CN112597967B (zh) | 沉浸式虚拟环境、多模态生理信号的情绪识别方法及装置 | |
US10867527B2 (en) | Process and wearable device equipped with stereoscopic vision for helping the user | |
WO2021227585A1 (zh) | 一种基于视频图像的多模态情感识别系统及方法 | |
CN115064246A (zh) | 一种基于多模态信息融合的抑郁症评估系统及设备 | |
CN114973412A (zh) | 一种唇语识别方法和系统 | |
CN110717344A (zh) | 基于智能可穿戴设备的辅助交流系统 | |
Wahl et al. | Personalizing 3D-printed smart eyeglasses to augment daily life | |
WO2020228059A1 (zh) | 一种头戴式增强现实眼镜系统及其实现方法 | |
CN216152354U (zh) | 一种多功能智能养老机器人 | |
Wankhede et al. | Aid for ALS patient using ALS Specs and IOT | |
CN116665281B (zh) | 一种基于医患交互的关键情绪提取方法 | |
CN117992832A (zh) | 基于生理与非生理多模态数据融合的情感感知智能眼镜 | |
WO2024038134A1 (en) | Methods and devices in performing a vision testing procedure on a person | |
CN111339878A (zh) | 一种基于眼动数据的修正型实时情感识别方法及系统 | |
Jiang et al. | Emotion analysis: Bimodal fusion of facial expressions and EEG | |
CN112419808B (zh) | 一种便携式多模态学习分析智能眼镜 | |
Alashkar et al. | AI-vision towards an improved social inclusion | |
CN117809354B (zh) | 基于头部可穿戴设备感知的情感识别方法、介质及设备 | |
CN210606227U (zh) | 一种增强现实头戴交流装置及增强现实头戴交流系统 | |
CN112947762A (zh) | 一种基于脑识别表情的互动装置及方法 | |
CN111554376A (zh) | 基于大数据通道的瘫痪病人患者用多功能复合康复系统 | |
AU2020102872A4 (en) | A kind of intelligent glasses for the blind people to socialize | |
CN104202572B (zh) | 多功能老年阅读器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |