CN117992832A

CN117992832A - 基于生理与非生理多模态数据融合的情感感知智能眼镜

Info

Publication number: CN117992832A
Application number: CN202410227495.5A
Authority: CN
Inventors: 张通; 吴梦琪; 王锦炫; 陈俊龙
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; South China University of Technology SCUT
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; South China University of Technology SCUT
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-07

Abstract

本发明提供了一种基于生理与非生理多模态数据融合的情感感知智能眼镜，包括镜架、摄像模块、音频采集模块、供电模块、数据处理装置、脑电检测装置；脑电检测装置包括插口和若干与插口相连的电极；镜架上设有用于插接插口的脑电采集接口；数据处理装置执行多模态数据情感感知方法，包括如下步骤：接收佩戴者多模态信号；多模态信号包括脑电信号、音频数据、脸部图片和脸部视频；分别进行情感特征提取；将各个情感特征进行融合，通过分类得到复合情感识别结果。该智能眼镜支持对生理和非生理多模态情感数据进行情感特征提取，融合，具备多模态情感数据相互支持、相互补充的能力，提高情感状态评估准确率，可有效、便捷地评估用户的日常精神状态。

Description

基于生理与非生理多模态数据融合的情感感知智能眼镜

技术领域

本发明涉及情感识别技术领域，更具体地说，涉及一种基于生理与非生理多模态数据融合的情感感知智能眼镜。

背景技术

情感健康问题使人们在情感方面存在不良体验和困扰，长期处于焦虑、抑郁、恐惧、内疚、愤怒情绪下会导致抑郁症、焦虑症、睡眠障碍等生理和心理上的不适。随着城市化和现代生活方式的普及以及物联网和5G技术的发展，智能情感计算领域是人工智能领域一个快速发展的分支，涉及到自然语言处理、计算机视觉等多个技术方向，可有效识别人们的情感状态，为情感健康问题的诊断提供有价值的数据来源。

可穿戴设备逐渐成为一种新型流行的科技产品，其便捷性、实时性和可扩展性等特点广受用户欢迎。若将智能情感计算和可穿戴设备两种技术融合起来，则可在日常生活中进行情感数据获取和处理，有效评估用户的日常精神状态。

但现有的情感计算类可穿戴设备，往往只能采集表情等非生理数据进行情感感知，非生理数据受到主观因素干扰较大；若能加入脑电等生理数据，生理数据受主观因素较小，可从身体反应的角度来揭示人类的情感状态，有效提高情感感知的准确度。

针对不同场景，包括情感状态识别、精神状态感知、辅助疾病诊断和检测等，采集脑电信号需要使用不同导联模式；若在可穿戴设备上使用脑电信号，则需要解决不同导联模式兼容的问题。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于生理与非生理多模态数据融合的情感感知智能眼镜；该智能眼镜支持对生理和非生理多模态情感数据进行情感特征提取，融合，具备多模态情感数据相互支持、相互补充的能力，提高情感状态评估准确率，可有效、便捷地评估用户的日常精神状态。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于生理与非生理多模态数据融合的情感感知智能眼镜，包括镜架，设置在镜架的摄像模块、音频采集模块、供电模块和数据处理装置，以及可拆装地与镜架连接的脑电检测装置；

所述脑电检测装置包括插口和若干用于获取脑电信号的电极；各个电极分别与插口相连；镜架上设有用于插接所述插口的脑电采集接口；脑电采集接口、摄像模块和音频采集模块分别与数据处理装置信号连接；

所述数据处理装置执行多模态数据情感感知方法；所述多模态数据情感感知方法是，包括如下步骤：

S1、接收佩戴者多模态信号；多模态信号包括脑电检测装置得到的脑电信号、音频采集模块得到的音频数据、摄像模块得到的脸部图片和脸部视频；

S2、对脑电信号、音频数据、脸部图片、脸部视频分别进行情感特征提取；

S3、将步骤S2得到的各个情感特征进行融合，通过分类得到复合情感识别结果。

优选地，还包括：

镜片显示屏，用于生成全息影像；

镜片眼动仪，用于采集佩戴者的眼动数据；

GPS定位模块，用于记录用户佩戴的时间、位置、地点和运动轨迹；

电容传感模块，用于检测是否被佩戴；

镜片显示屏和镜片眼动仪分别设置在镜架的镜框中；GPS定位模块和电容传感模块分别设置在镜架中；

当电容传感模块检测到被佩戴的状态下，数据处理装置执行多模态数据情感感知方法；

所述多模态数据情感感知方法的步骤S1中，多模态信号还包括镜片眼动仪得到的眼动数据；步骤S2还对眼动数据进行情感特征提取。

优选地，所述步骤S2，对脑电信号进行情感特征提取，是指：接收脑电检测装置发送的脑电信号和脑电检测装置ID；对脑电检测装置ID进行识别，以获取导联模式信息；利用模型选择器根据导联模式信息选择相应的动态图卷积网络；将脑电信号输入到对应的动态图卷积网络提取情感特征。

优选地，所述步骤S2，对音频数据进行情感特征提取，是指：对音频数据进行滤波、平滑、分帧操作；提取梅尔倒谱系数特征；利用梅尔倒谱系数特征并载入为特征向量形式，输入到基于注意力机制的BiLSTM神经网络中进行情感特征提取。

优选地，所述摄像模块为四个，分别用于分别采集佩戴者四个视角的图片和视频；所述四个视角是指：左眼、右眼、左下脸部、右下脸部；

所述步骤S2，对脸部图片和脸部视频进行情感特征提取，是指：对脸部图片和脸部视频，分别采用局部融合情感识别网络进行处理；其中，脸部图片分别以四个视角数据作为局部融合情感识别网络的四个视角输入；脸部视频分别对四个视角数据提取起始帧和峰值帧，作为局部融合情感识别网络的四个视角输入；

所述四个视角输入在局部融合情感识别网络中的处理方式是：左眼输入和右眼输入进行深度卷积以提取局部视角特征；左下脸部输入和右下脸部输入分别通过嵌入层将提取到的动作单元嵌入，然后与面部行为编码FACS一起输入到空域图卷积中以提取局部视角特征；将四个视角输入提取得到的局部视角特征同时输入到多层感知机中进行空间映射，计算空间注意力和通道注意力后进行特征图融合，得到最终的情感特征。

优选地，所述局部融合情感识别网络为四个，分别为局部融合情感识别网络一、局部融合情感识别网络二、局部融合情感识别网络三和局部融合情感识别网络四；

所述局部融合情感识别网络一对脸部图片进行处理，得到脸部图片的宏表情情感特征；局部融合情感识别网络二对脸部图片进行处理，得到脸部图片的微表情情感特征；局部融合情感识别网络三对脸部视频进行处理，得到脸部视频的宏表情情感特征；局部融合情感识别网络四对脸部视频进行处理，得到脸部视频的微表情情感特征。

优选地，四个局部融合情感识别网络均包括分别四个视角输入的四个局部特征提取单元；针对左眼输入和右眼输入的两个局部特征提取单元均包括深度卷积网络一；针对左下脸部输入和右下脸部输入的两个局部特征提取单元均由嵌入层、空域图卷积网络依次连接组成；嵌入层还与动作单元提取器连接；空域图卷积网络还与面部动作编码系统连接；左下脸部输入和右下脸部输入；四个局部特征提取单元的输出同时与多层感知机连接，并通过通道注意力和空间注意力进行融合；

其中，所述局部融合情感识别网络三和局部融合情感识别网络四，针对左眼输入和右眼输入的两个局部特征提取单元分别还包括动作放大网络；左眼输入和右眼输入分别通过动作放大网络将微笑表情放大，再输入深度卷积网络一，提取局部视角特征。

优选地，所述步骤S2中，对脸部图片和脸部视频，在采用局部融合情感识别网络进行处理之前，先分别进行预处理；

对脸部图片，预处理包括利用串联的预处理卷积神经网络一进行人脸检测；利用串联的预处理卷积神经网络一进行人脸检测，是指：生成候选框，并对候选框进行初步筛选，对人脸关键点进行检测；经过卷积、激活函数、池化、全连接处理后，输出每个候选框的置信度、坐标偏移量和五个关键点的坐标，以实现人脸检测；

对脸部视频，预处理包括利用串联的预处理多层深度卷积神经网络二进行人脸检测；利用串联的预处理多层深度卷积神经网络二进行人脸检测，是指：使用视频流方式，逐帧读取脸部视频；对脸部视频的每一帧图像，利用串联的预处理多层深度卷积神经网络二对图像改变尺寸后的金字塔形数据进行操作，得到人脸框、关键点坐标和人脸分类，以实现人脸检测；预处理多层深度卷积神经网络二包括依次连接的图像改变尺寸层、卷积神经单元一、卷积神经单元二、最大池化层一、全连接层一、卷积神经单元三、最大池化层二和全连接层二，以及连接卷积神经单元三与最大池化层二之间的空间注意力层。

优选地，所述步骤S3，是指：采用多模态自适应融合模块将步骤S2得到的各个情感特征进行融合：多模态自适应融合模块的输入为情感特征X＝{X₁,...,X_n}，其中X_i为第i个情感特征，n为情感特征的数量；利用注意力机制并且迭代地进行特征融合，最终得到融合特征；将融合特征输入到分类器中进行学习，得到复合情感识别结果；复合情感识别结果采用情感状态的复合表示；情感状态的复合表示形式为：情感类别及对应比例。

与现有技术相比，本发明具有如下优点与有益效果：

1、本发明通过采集用户生理数据和非生理数据，支持对多模态情感数据进行情感特征提取，融合，具备多模态情感数据相互支持、相互补充的能力；多模态数据融合实时评估用户的情感状态，提高情感状态评估准确率，有利于后续提供相关建议或干预措施；可在日常便捷地佩戴和使用，不仅可以帮助个人更好地了解自己的情感状态，还可以为心理医生、研究人员等提供有价值的数据来源；

2、本发明采用可插拔的脑电检测装置，使智能眼镜可兼容多种规格和模式的导联，匹配不同场景和用途，提高智能眼镜的通用性，使用便捷；

3、本发明可采集佩戴者的局部多视角表情数据，采用面部动作单元信息辅助宏表情和微表情的局部融合情感识别网络，提高宏表情和微表情特征的表达能力。

附图说明

图1是本发明基于生理与非生理多模态数据融合的情感感知智能眼镜的结构示意图；

图2是本发明基于生理与非生理多模态数据融合的情感感知智能眼镜中脑电检测装置的结构示意图；

图3是本发明多模态数据情感感知方法的流程示意图；

图4是本发明预处理多层深度卷积神经网络二的结构图；

图5是本发明局部融合情感识别网络一和局部融合情感识别网络二的结构图；

图6是本发明局部融合情感识别网络三和局部融合情感识别网络四的结构图；

图7是本发明多模态自适应融合模块的结构图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例

本实施例一种基于生理与非生理多模态数据融合的情感感知智能眼镜，如图1所示，包括镜架6、摄像模块3、音频采集模块5、供电模块和数据处理装置，以及可拆装地与镜架6连接的脑电检测装置；还包括用于生成全息影像的镜片显示屏8，用于采集佩戴者的眼动数据的镜片眼动仪7，用于记录用户佩戴的时间、位置、地点和运动轨迹的GPS定位模块，用于检测是否被佩戴的电容传感模块。

优选方案是：智能眼镜还包括：扬声器1，将电信号转换为声音，使用户能够听到清晰的音频；指示灯2，用于显示设备工作状态，使用光源提供设备的反馈信息；充电插口9，将电源适配器或充电器连接以进行充电。

摄像模块3、音频采集模块5、供电模块、数据处理装置、GPS定位模块和电容传感模块分别设置在镜架6中；镜片显示屏8和镜片眼动仪7分别设置在镜架6的镜框中。

脑电检测装置，如图2所示，包括插口10和若干用于获取脑电信号的电极11；本实施例的脑电检测装置为三导联，包括三个电极；三个电极11分别用于粘贴在左侧前额区域、中央前额区域、右侧前额区域；各个电极11分别与插口10相连；实际应用中，脑电检测装置还可以是四导联或六导联，可根据场景选用。镜架6上设有用于插接所述插口10的脑电采集接口4。

由于眼镜距离脸部太近，难以用单个摄像模块获取全脸图像；因此，本发明的摄像模块3为四个，分别用于分别采集佩戴者四个视角的图片和视频；所述四个视角是指：左眼、右眼、左下脸部、右下脸部。

脑电采集接口4、摄像模块3、音频采集模块5、镜片眼动仪、GPS定位模块、电容传感模块、镜片显示屏分别与数据处理装置信号连接。

所述多模态数据情感感知方法是，如图3所示，包括如下步骤：

S1、接收佩戴者多模态信号；多模态信号包括脑电检测装置得到的脑电信号、音频采集模块得到的音频数据、摄像模块得到的脸部图片和脸部视频、镜片眼动仪得到的眼动数据。

S2、对脑电信号、音频数据、脸部图片、脸部视频、眼动数据分别进行情感特征提取。

对脑电信号进行情感特征提取，是指：接收脑电检测装置发送的脑电信号和脑电检测装置ID；对脑电检测装置ID进行识别，以获取导联模式信息；利用模型选择器根据导联模式信息选择相应的动态图卷积网络；将脑电信号输入到对应的动态图卷积网络提取情感特征。

模型选择器是前期构建，用于将不同的导联模式信息映射到不同参数下的动态图卷积网络；不同参数下的动态图卷积网络适用于不同数量导联的脑电信号处理。

对音频数据进行情感特征提取，是指：对音频数据进行滤波、平滑、分帧操作；提取梅尔倒谱系数特征；利用梅尔倒谱系数特征并载入为特征向量形式，输入到基于注意力机制的BiLSTM神经网络中进行情感特征提取。

对脸部图片和脸部视频进行情感特征提取，是指：对脸部图片和脸部视频，分别采用局部融合情感识别网络进行处理。对脸部图片和脸部视频，在采用局部融合情感识别网络进行处理之前，先分别进行预处理。

对脸部视频，预处理包括利用串联的预处理多层深度卷积神经网络二进行人脸检测，如图4所示；利用串联的预处理多层深度卷积神经网络二进行人脸检测，是指：使用视频流方式，逐帧读取脸部视频；对脸部视频的每一帧图像，利用串联的预处理多层深度卷积神经网络二对图像改变尺寸后的金字塔形数据进行操作，得到人脸框、关键点坐标和人脸分类，以实现人脸检测；预处理多层深度卷积神经网络二包括依次连接的图像改变尺寸层、卷积神经单元一、卷积神经单元二、最大池化层一、全连接层一、卷积神经单元三、最大池化层二和全连接层二，以及连接卷积神经单元三与最大池化层二之间的空间注意力层。

脸部图片分别以四个视角数据作为局部融合情感识别网络的四个视角输入；脸部视频分别对四个视角数据提取起始帧和峰值帧，作为局部融合情感识别网络的四个视角输入；

局部融合情感识别网络为四个，分别为局部融合情感识别网络一、局部融合情感识别网络二、局部融合情感识别网络三和局部融合情感识别网络四；

所述局部融合情感识别网络一对脸部图片进行处理，得到脸部图片的宏表情情感特征；局部融合情感识别网络二对脸部图片进行处理，得到脸部图片的微表情情感特征；局部融合情感识别网络三对脸部视频进行处理，得到脸部视频的宏表情情感特征；局部融合情感识别网络四对脸部视频进行处理，得到脸部视频的微表情情感特征；局部融合情感识别网络一和局部融合情感识别网络二的结构如图5所示，局部融合情感识别网络三和局部融合情感识别网络四的结构如图6所示。

四个局部融合情感识别网络均包括分别四个视角输入的四个局部特征提取单元；针对左眼输入和右眼输入的两个局部特征提取单元均包括深度卷积网络一；针对左下脸部输入和右下脸部输入的两个局部特征提取单元均由嵌入层、空域图卷积网络依次连接组成；嵌入层还与动作单元提取器连接；空域图卷积网络还与面部动作编码系统连接；左下脸部输入和右下脸部输入；四个局部特征提取单元的输出同时与多层感知机连接，并通过通道注意力和空间注意力进行融合；

具体地说，采用多模态自适应融合模块将步骤S2得到的各个情感特征进行融合，如图7所示：多模态自适应融合模块的输入为情感特征X＝{X₁,...,X_n}，其中X_i为第i个情感特征，n为情感特征的数量；利用注意力机制并且迭代地进行特征融合，最终得到融合特征；将融合特征输入到分类器中进行学习，得到复合情感识别结果；复合情感识别结果采用情感状态的复合表示；情感状态的复合表示形式为：情感类别及对应比例。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：包括镜架，设置在镜架的摄像模块、音频采集模块、供电模块和数据处理装置，以及可拆装地与镜架连接的脑电检测装置；

2.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：还包括：

镜片显示屏，用于生成全息影像；

镜片眼动仪，用于采集佩戴者的眼动数据；

电容传感模块，用于检测是否被佩戴；

3.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：所述步骤S2，对脑电信号进行情感特征提取，是指：接收脑电检测装置发送的脑电信号和脑电检测装置ID；对脑电检测装置ID进行识别，以获取导联模式信息；通过模型选择器根据导联模式信息选择相应的动态图卷积网络；将脑电信号输入到对应的动态图卷积网络提取情感特征。

4.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：所述步骤S2，对音频数据进行情感特征提取，是指：对音频数据进行滤波、平滑、分帧操作；提取梅尔倒谱系数特征；利用梅尔倒谱系数特征并载入为特征向量形式，输入到基于注意力机制的BiLSTM神经网络中进行情感特征提取。

5.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：所述摄像模块为四个，分别用于分别采集佩戴者四个视角的图片和视频；所述四个视角是指：左眼、右眼、左下脸部、右下脸部；

6.根据权利要求5所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：所述局部融合情感识别网络为四个，分别为局部融合情感识别网络一、局部融合情感识别网络二、局部融合情感识别网络三和局部融合情感识别网络四；

7.根据权利要求6所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：四个局部融合情感识别网络均包括分别四个视角输入的四个局部特征提取单元；针对左眼输入和右眼输入的两个局部特征提取单元均包括深度卷积网络一；针对左下脸部输入和右下脸部输入的两个局部特征提取单元均由嵌入层、空域图卷积网络依次连接组成；嵌入层还与动作单元提取器连接；空域图卷积网络还与面部动作编码系统连接；左下脸部输入和右下脸部输入；四个局部特征提取单元的输出同时与多层感知机连接，并通过通道注意力和空间注意力进行融合；

8.根据权利要求5所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：所述步骤S2中，对脸部图片和脸部视频，在采用局部融合情感识别网络进行处理之前，先分别进行预处理；

9.根据权利要求1所述的基于生理与非生理多模态数据融合的情感感知智能眼镜，其特征在于：所述步骤S3，是指：采用多模态自适应融合模块将步骤S2得到的各个情感特征进行融合：多模态自适应融合模块的输入为情感特征X＝{X₁,...,X_n}，其中X_i为第i个情感特征，n为情感特征的数量；利用注意力机制并且迭代地进行特征融合，最终得到融合特征；将融合特征输入到分类器中进行学习，得到复合情感识别结果；复合情感识别结果采用情感状态的复合表示；情感状态的复合表示形式为：情感类别及对应比例。