CN117520826B

CN117520826B - 一种基于可穿戴设备的多模态情绪识别方法及系统

Info

Publication number: CN117520826B
Application number: CN202410008133.7A
Authority: CN
Inventors: 余锋; 饶忠睿; 姜明华; 肖智勇; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2024-01-03
Filing date: 2024-01-03
Publication date: 2024-04-05
Anticipated expiration: 2044-01-03
Also published as: CN117520826A

Abstract

本发明公开了一种基于可穿戴设备的多模态情绪识别方法及系统，所述方法包括以下步骤S1：通过集成在可穿戴设备上的摄像头获取用户的原始面部图像并进行预处理；S2：通过集成在可穿戴设备上的传感器获取用户的脑电信号数据，使用NeuroEnhance框架对脑电信号数据进行混合预处理；S3：将经过预处理的脑电信号和面部图像送入多模态情绪识别网络模型，并设计损失函数训练该模型；S4：使用训练好的模型进行情绪识别，得到识别的结果。本发明通过对采集到的用户的面部图像和脑电信号进行预处理，将预处理的面部图像和脑电信号送入多模态情绪识别网络模型进行特征提取，并设计损失函数对该模型进行训练，训练好的模型能够更准确地识别和分析用户的各种情绪状态。

Description

一种基于可穿戴设备的多模态情绪识别方法及系统

技术领域

本发明涉及情绪识别领域，尤其涉及一种基于可穿戴设备的多模态情绪识别方法及系统。

背景技术

随着人工智能和可穿戴设备技术的快速发展，多模态情绪识别成为了研究和应用的热点。这种技术在心理健康监测、人机交互、用户体验优化等多个领域发挥着关键作用。然而，传统的情绪识别方法，如单纯依赖面部表情分析或生理信号监测，往往在复杂情境下表现不佳，特别是难以处理微妙或隐蔽的情绪表达。对于特殊群体，例如自闭症谱系障碍（ASD）患者，这种方法的效果尤其有限。此外，在处理情绪相关的复杂生理信号如EEG时，这些系统还面临着信号噪声和数据解析的挑战。

由于在各个领域中的巨大应用潜力，多模态情绪识别技术成为了活跃的研究课题。特别是在增强现实（AR）、虚拟现实（VR）以及日益兴起的元宇宙领域，这种技术展现出巨大的市场潜力。随着智能技术的普及和人们对沉浸式体验的追求，情绪识别被集成到AR/VR应用中，极大地提升了用户的互动体验。在这些沉浸式环境中，用户不仅仅关注虚拟世界的真实感和交互性，更期待这些技术能够理解和适应他们的情绪状态，从而提供更加个性化和富有同理心的体验。情绪识别技术在这些领域的应用，如在VR心理治疗、AR互动游戏，甚至是元宇宙的社交平台中，已经开始展现其改变游戏规则的潜力。

对于开发者和设计师而言，将多模态情绪识别技术融合进AR/VR应用中，不仅能够优化产品设计和提升用户体验，还能在更深层次上与用户建立连接。例如，在VR环境中，系统能够根据用户的情绪反应实时调整场景和互动元素，提供更加身临其境的体验。同样，在AR应用中，情绪识别可以帮助系统更好地理解用户的情绪状态，从而提供更加贴合用户情感需求的信息和服务。

公开号为CN114424940A的中国专利公开了“一种基于多模态时空特征融合的情绪识别方法” 通过预处理心电图、呼吸和眼动数据，使用CNN和LSTM网络提取特征，融合这些特征进行情绪识别，但心电图主要反映心脏活动，即使结合呼吸和眼动数据，在更复杂的情绪识别环境如AR应用、ASD患者情绪识别中，可能无法准确判断识别对象的微妙情绪表达。

因此，亟待设计一种基于可穿戴设备的多模态情绪识别方法及系统，解决上述现有技术存在的问题。

发明内容

本发明的目的在于提供一种基于可穿戴设备的多模态情绪识别方法及系统，旨在实现对用户情绪状态的综合判断，能够适用于各种情境下，更准确地识别和分析用户各种情绪状态。

为了实现上述目的，本发明采用了如下技术方案：

本发明第一方面提供了一种基于可穿戴设备的多模态情绪识别方法，所述方法包括以下步骤：

S1：通过集成在可穿戴设备上的摄像头获取用户的原始面部图像，对获取的原始面部图像进行预处理；

S2：通过集成在可穿戴设备上的传感器获取用户的脑电信号数据，使用NeuroEnhance框架对脑电信号数据进行混合预处理，所述NeuroEnhance框架包括信号处理和机器学习增强处理，其步骤具体包括：

S21：通过信号处理技术识别和剔除传入脑电信号的外源性伪迹，所述外源性伪迹包括环境噪声、操作误差和干扰；

S22：通过机器学习增强处理训练SVM模型，针对脑电、肌电、眼电和心电信号进行分类，并剔除生理来源的内源性伪迹，所述内源性伪迹包括肌电、眼电和心电信号；

S3：将经过预处理的所述脑电信号和面部图像送入多模态情绪识别网络模型，并设计损失函数训练多模态情绪识别网络模型，得到训练好的多模态情绪识别网络模型；

所述多模态情绪识别网络模型包括脑电信号特征提取模块、面部图片特征提取模块、脑电信号与面部图片特征提取模块和多模态情绪识别模块；

S4：使用训练好的多模态情绪识别网络模型进行情绪识别，得到识别的结果。

作为本申请一实施例，所述步骤S21具体包括：

S211:使用带通滤波器去除脑电信号中的高频和低频噪声，保留4-30Hz频率的脑电信号，其传递函数为：

其中，是滤波器的频率响应，/>是信号的频率，/>和/>分别是滤波器的下限和上限截止频率，/>是滤波器的阶数;

S212:通过基线校正消除脑电信号中的直流偏移即长期的平均值，所述基线校正公式为：

其中，是原始脑电信号，/>是经过基线校正的信号，/>是一个局部窗口内信号的平均值，这个窗口覆盖从时间点/>到/>的范围，其中/>是窗口的大小；

S213:通过归一化去除数据中的比例效应，其公式为：

其中，是原始数据，/>是归一化后的数据，/>是数据中的最小值，是数据中的最大值，/>和/>是可调整的缩放因子和偏移量。

作为本申请一实施例，所述步骤S22具体包括：

S221:首先对采集的脑电、肌电、眼电和心电信号提取时域特征，首先提取每个脑电时域信号的均值、标准差/>、最大值/>、最小值/>，使用快速傅里叶变换得到对应的频域信号，并提取相关的频域信息，其计算公式为：

其中，是第/>个频率分量的幅度，/>是时域信号的第/>个样本，/>是样本总数，的模/>表示频率分量/>的幅度，/>表示频率分量的能量；所述肌电、眼电和心电信号均通过上述和脑电信号相同的操作得到对应的频率分量的能量/>、/>、/>；

S222:将脑电信号的时域和频域特征组合成一个特征向量，特征向量公式为：

其中，是在FFT处理后得到的不同频率分量/>的能量，所述肌电、眼电和心电信号均通过上述和脑电信号同样的操作构建相应的特征向量、/>和/>；

S223：设计一个综合损失函数，用于处理脑电信号数据中的不平衡性和噪声问题，所述综合损失函数包括铰链损失函数和L2正则化项，其计算公式如下：

其中，是铰链损失函数，/>表示类别权重，/>是L2正则化项，/>表示模型权重向量的平方范数，/>是正则化强度参数；

S224：将所述脑电、肌电、眼电和心电的特征向量、/>、/>、/>输入到SVM模型，进行信号识别与处理。

作为本申请一实施例，所述步骤S3中脑电信号特征提取模块具体包括：

S311：输入经过预处理的脑电信号，使用的卷积核进行时域特征提取，经过ReLU激活层后采用/>的卷积核进行频域特征提取，再次经过ReLU激活层；

S312：经过最大池化和/>平均池化，再使用/>深度可分离卷积层对每个输入通道进行空间上的卷积；

S313：引入自注意力机制，设置一个Dropout层，加入一个全连接层，经过一个ReLU激活函数，再加入批量归一化层，输出脑电信号特征向量；所述自注意力机制计算公式如下：

其中，表示应用了注意力机制后的特征图，/>为生理驱动的通道注意力，/>代表经过编码的脑电通道的生理意义的嵌入向量，/>和/>是学习得到的权重和偏置，/>是时间动态注意力，/>是时间序列特征，/>和/>是学习的得到的权重和偏置，/>和/>是自适应学习的权重系数，/>表示原始脑电特征图，其中/>表示逐元素乘法。

作为本申请一实施例，所述步骤S3中面部表情特征提取模块具体包括：

S321：输入经过预处理的面部图像，使用的卷积核进行初始卷积，经过ReLU激活函数后再使用/>的卷积核进行深层特征提取，再次经过ReLU激活函数；

S322：引入动态注意力机制，调整注意力权重，使用平均池化层来进一步减少参数数量；所述动态注意力机制计算公式如下：

其中，是第/>个面部区域的局部特征；/>表示全连接层；/>是全局特征图，代表面部表情的整体特征；/>是第/>个区域的动态权重，由全连接网络/>计算得到，并通过/>函数确保权重在0到1之间；/>表示逐元素乘法；

S323：加入Dropout层，经过全连接层，应用自适应激活函数，输出图像特征向量；所述自适应激活函数表示如下：

其中，和/>是基于输入特征/>的统计特性的动态调整系数，/>，/>，/>，/>是可学习的参数，/>表示输入特征的标准差，/>表示输入特征的均值。

作为本申请一实施例，所述步骤S3中脑电信号与面部图片特征提取模块具体包括：

S331：输入经过预处理的脑电信号，使用的卷积核以捕捉频域特征；

S332：输入经过预处理的面部图像，使用的卷积核以提取空间特征；

S333：将经过不同卷积核的脑电信号和面部图片同时加入LeakyReLU激活函数，再使用多头注意力机制进行融合，所述多头注意力机制计算公式如下：

其中，表示第/>个注意力头的输出；/>为查询矩阵，/>为键矩阵，/>为值矩阵，表示键/查询向量的维度，/>是一个常数，用于避免分母为0的情况；

S334：设置Dropout层并加入全连接层，使用PCA降维技术来减少特征空间的维度；

S335：将经过PCA降维后的数据输入LSTM情感状态编码器并输出融合后的特征向量。

作为本申请一实施例，所述步骤S3中情绪识别模块具体包括：

S341：通过拼接操作将脑电信号特征提取模块、面部图片特征提取模块和脑电信号与面部图片特征提取模块的输出特征向量进行融合得到统一的特征向量；

S342：将统一的特征向量经过的卷积核进行初始卷积操作后经过ReLU激活函数，在应用/>的卷积核进行深度卷积后再次经过ReLU激活函数；

S343：经过最大池化和/>平均池化层后再经过ReLU激活函数，得到固定长度的特征向量；

S344：将固定长度的特征向量输入到全连接层，再经过Dropout层，应用softmax激活函数得到情绪的分类结果。

作为本申请一实施例，所述步骤3中设计的损失函数计算公式如下：

其中，为情感类别总数，/>是基于类别/>的历史分类准确率动态调整的权重，/>和/>分别表示第/>个情感类别的真实标签和模型的预测概率。

本申请还提供了一种基于可穿戴设备的多模态情绪识别系统，包括：

可穿戴设备，用于获取用户的原始面部图像和脑电信号数据；

图像处理模块，用于将获取到的用户的原始面部图像进行预处理；

信号处理模块，用于将获取到的用户的脑电信号进行预处理；

脑电信号特征提取模块，用于将经过信号处理模块的脑电信号数据进行特征提取，输出脑电信号特征向量；

面部图片特征提取模块，用于将经过图像处理模块的面部图像进行特征提取，输出图像特征向量；

脑电信号与面部图片特征提取模块，用于将经过信号处理模块的脑电信号和经过图像处理模块的面部图片提取相应的特征并进行融合，输出融合后的特征向量；

多模态情绪识别模块，将脑电信号特征提取模块、面部图片特征提取模块、脑电信号与面部图片特征提取模块的输出的特征向量进行融合，并应用softmax激活函数得到情绪的分类结果。

本发明的有益效果为：

（1）本发明通过对采集到的用户的面部图像和脑电信号进行预处理，将经过预处理后的面部图像和脑电信号送入多模态情绪识别网络模型进行特征提取，并设计损失函数对多模态情绪识别网络模型进行训练，训练好的多模态情绪识别网络模型能够更准确地识别和分析用户的各种情绪状态。

（2）本发明通过集成在可穿戴设备上的高分辨率摄像头实时捕捉用户的面部图像，通过集成在可穿戴设备上的传感器实时捕捉用户的脑电信号，同时采集用户的面部图像和脑电信号，将面部图像和脑电信号进行融合，相比传统的单一模态方法更为全面，能够捕捉更丰富的情绪相关信息。

（3）本发明通过使用NeuroEnhance框架对脑电信号数据进行混合预处理，NeuroEnhance框架结合了传统信号处理技术和现代机器学习增强处理方法，能够提取到更干净的脑电信号数据，提高多模态情绪识别网络模型的识别准确率。

（4）本发明通过脑电信号特征提取模块将脑电信号数据进行特征提取，面部图片特征提取模块将面部图像进行特征提取，脑电信号与面部图片特征提取模块将脑电信号和面部图像提取相应的特征并进行融合，本发明不仅融合了脑电信号和面部图像的单独特征，还创新性地将两者的交互信息编织进了多模态特征向量中，这种综合利用多模态数据的方法增强了多模态情绪识别网络模型对于复杂情绪状态的捕捉能力，显著提高了情绪识别的准确性和效率。

（5）本发明通过设计创新的损失函数，不仅关注常见的情感类别，而且对难以分类的情感状态给予额外的关注，进一步提高了多模态情绪识别网络模型在复杂情感分类任务中的准确性和敏感性。

附图说明

图1为本发明实施例中提供的一种基于可穿戴设备的多模态情绪识别方法的技术方案流程图；

图2为本发明实施例中提供的一种基于可穿戴设备的多模态情绪识别方法的NeuroEnhance框架示意图；

图3为本发明实施例中提供的一种基于可穿戴设备的多模态情绪识别方法的多模态情绪识别网络模型示意图；

图4为本发明实施例中提供的一种基于可穿戴设备的多模态情绪识别系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1至图4，本发明第一方面提供了一种基于可穿戴设备的多模态情绪识别方法，所述方法包括以下步骤：

S1：通过集成在可穿戴设备上的摄像头获取用户的原始面部图像，对获取的原始面部图像进行预处理；所述摄像头为高分辨率摄像头，配置为以30FPS的帧率连续捕捉面部图像，确保表情数据的流畅性和连续性，从而准确地记录下用户表情的每个细微变化。

另外，将获取的原始面部图像进行裁剪，去除图像中不必要的背景部分，仅保留关键的面部区域，有助于减少后续处理的数据量，同时确保模型的注意力集中在面部表情上；然后对裁剪后的图像进行统一的缩放处理，使所有图像达到统一的大小，这不仅有助于标准化输入数据，还可以进一步减少数据量，提高后续处理的效率。接着将彩色图像转换为灰度图，可以减少每个图像的颜色通道数量，降低计算复杂度，面部表情的主要特征通常可以在灰度图中得到有效捕捉。

其中，对裁剪、缩放和转换为灰度图的图像进行进一步的预处理，包括标准化图像像素值，以及应用图像平滑、锐化图像增强技术，以提高图像质量。预处理后的图像数据集将被整理和格式化，以适应后续的神经网络训练，这也包括将数据分割成训练集和验证集，以及将图像数据和相应的标签配对。

S2：通过集成在可穿戴设备上的传感器获取用户的脑电（EEG）信号数据，使用NeuroEnhance框架对脑电（EEG）信号数据进行混合预处理，所述NeuroEnhance框架框架的主要目标是识别并消除伪迹，即在采集脑电（EEG）信号过程中记录下来的无关信号，如图2所示，所述NeuroEnhance框架包括信号处理和机器学习增强处理，通过这种混合预处理方法，NeuroEnhance框架能够有效地清理脑电（EEG）信号，去除各种干扰，提取到更干净的脑电信号数据，从而为后续应用的深度学习或其他机器学习算法提供更加清晰和有代表性的数据，提高多模态情绪识别网络模型的识别准确率，其步骤具体包括：

S21：通过信号处理技术识别和剔除传入脑电（EEG）信号的外源性伪迹，所述外源性伪迹包括环境噪声、操作误差和干扰；这些伪迹会显著影响数据的质量，掩盖真实的脑电活动信号，可以通过简单的滤波技术消除。

S22：通过机器学习增强处理训练SVM模型，针对脑电（EEG）、肌电（EMG）、眼电（EOG）和心电(ECG)信号进行分类，并剔除生理来源的内源性伪迹，所述内源性伪迹包括肌电、眼电和心电信号；

其中，机器学习增强处理前先进行多种伪迹信号及脑电（EEG）信号的数据集采集，优选的，可穿戴设备上的传感器可以为电极，即通过贴在手臂或腿部肌肉附近皮肤上的电极来测量肌肉活动产生的肌电(EMG)信号；通过放置在眼睛周围的电极获取眨眼、闭眼时的眼电(EOG)信号；通过放置在胸部上的电极来记录心脏活动产生的心电(ECG)信号；通过在头皮上放置多个电极来记录大脑活动产生的脑电(EEG)信号。

本发明通过集成在可穿戴设备上的高分辨率摄像头实时捕捉用户的面部图像，通过集成在可穿戴设备上的传感器实时捕捉用户的脑电信号，同时采集用户的面部图像和脑电信号，将面部图像和脑电信号进行融合，相比传统的单一模态方法更为全面，能够捕捉更丰富的情绪相关信息。

S3：将经过预处理的所述脑电（EEG）信号和面部图像送入多模态情绪识别网络模型，并设计损失函数训练多模态情绪识别网络模型，得到训练好的多模态情绪识别网络模型；

如图3所示，所述多模态情绪识别网络模型包括脑电（EEG）信号特征提取模块、面部图片特征提取模块、脑电（EEG）信号与面部图片特征提取模块和多模态情绪识别模块；

S4：使用训练好的多模态情绪识别网络模型进行情绪识别，得到识别的结果。具体的，将训练好的多模态情绪识别网络部署到适当的环境中，对于新收集的脑电（EEG）和面部表情数据，使用训练好的NeuroEnhance框架对脑电（EEG）数据进行混合预处理，以及对面部图像数据集进行必要的预处理。将预处理后的数据输入到多模态情绪识别网络模型中。多模态情绪识别网络模型将根据学习到的模式来分析数据并预测当前的情绪状态。

作为本申请一实施例，所述步骤S21具体包括：

S211:使用带通滤波器去除脑电（EEG）信号中的高频和低频噪声，保留4-30Hz频率的脑电（EEG）信号，带通滤波器的目的是只允许特定频率范围内的信号通过，其传递函数为：

S212:通过基线校正消除脑电信号中的直流偏移即长期的平均值，从而使信号更加集中于零点，有助于减少由于设备或其他外部因素引起的偏差，这里的基线校正方法结合了传统的基线校正方法和动态窗口方法，对于处理脑电（EEG）信号等时间序列数据时较为有效，所述基线校正公式为：

其中，是原始脑电信号，/>是经过基线校正的信号，/>是一个局部窗口内信号的平均值，这个窗口覆盖从时间点/>到/>的范围，其中/>是窗口的大小，表示在计算当前点的基线时考虑的信号样本数，通过从原始信号的每个点减去其相应的动态窗口平均值，得到校正后的信号/>，这种方法的优势在于其动态性和适应性，与传统的基线校正相比，这里的基线不是一个固定的全局值，而是根据信号在局部窗口内的变化而动态计算的，能够更好地适应信号在不同时间点可能出现的变化，从而提供更准确的校正。

S213:通过归一化去除数据中的比例效应，通常归一化是为了将数据缩放到特定的范围，比如0到1，这里使用的归一化方法引入一个缩放因子来进一步控制数据的缩放范围和中心点用于调整数据的最终分布，其公式为：

其中，是原始数据，/>是归一化后的数据，/>是数据中的最小值，是数据中的最大值，/>和/>是可调整的缩放因子和偏移量，它们可以根据需要调整数据的缩放范围和中心点。

作为本申请一实施例，所述步骤S22具体包括：

S221:首先对采集的脑电（EEG）、肌电（EMG）、眼电（EOG）和心电(ECG)信号提取时域特征，首先提取每个脑电（EEG）时域信号的均值、标准差/>、最大值/>、最小值，使用快速傅里叶变换得到对应的频域信号，并提取相关的频域信息，其计算公式为：

其中，是第/>个频率分量的幅度，/>是时域信号的第/>个样本，/>是样本总数，的模/>表示频率分量/>的幅度，/>表示频率分量的能量；所述肌电（EMG）、眼电（EOG）和心电(ECG)信号均通过上述和脑电（EEG）信号相同的操作得到对应的频率分量的能量/>、/>、/>；

S222:获取到时域与频域信号后，将脑电（EEG）信号的时域和频域特征组合成一个特征向量，特征向量公式为：

其中，是在FFT处理后得到的不同频率分量/>的能量，所述肌电（EMG）、眼电（EOG）和心电(ECG)信号均通过上述和脑电（EEG）信号同样的操作构建相应的特征向量/>、/>和/>；

S223：设计一个综合损失函数，用于处理脑电（EEG）信号数据中的不平衡性和噪声问题，所述综合损失函数包括铰链损失函数和L2正则化项，所述铰链损失函数通过增加对少数类错误分类的惩罚来处理类别不平衡问题，同时，为了避免SVM模型过拟合，并使学习过程更加平滑，加入了L2正则化项，其计算公式如下：

其中，是针对分类误差的铰链损失函数，/>表示类别权重，/>是L2正则化项，用于减少SVM模型复杂度并防止过拟合，/>表示SVM模型权重向量的平方范数，/>是正则化强度参数；通过铰链损失函数和L2正则化项的结合，所述综合损失函数能够在保持SVM模型对少数类的敏感性的同时，确保整体SVM模型的泛化能力和稳定性。

S224：将所述脑电（EEG）、肌电（EMG）、眼电（EOG）和心电(ECG)的特征向量、/>、/>、/>输入到SVM模型，模型学习如何根据这些特征的特点分类出有效数据，进行信号识别与处理。

作为本申请一实施例，所述步骤S3中脑电（EEG）信号特征提取模块具体包括：

S311：输入经过预处理的脑电（EEG）信号，使用的卷积核进行时域特征提取，以增加多模态情绪识别网络模型的非线性并提高特征的表达能力，经过ReLU激活层后采用的卷积核进行频域特征提取，再次经过ReLU激活层；

S312：应用多尺度池化策略，经过最大池化和/>平均池化，以获取脑电（EEG）信号中的显著特征和一般特征，再使用/>深度可分离卷积层对每个输入通道进行空间上的卷积，整合不同通道的特征，以此降低计算复杂度并增强多模态情绪识别网络模型的学习能力；

S313：引入脑电（EEG）信号自注意力机制，该机制通过计算特征间的相互关系，生成一个注意力图，这个图被用于加权原始特征图，使网络能够专注于脑电（EEG）信号中最重要的部分，设置一个dropout率为0.5的Dropout层，然后加入一个全连接层，经过一个ReLU激活函数，再加入批量归一化层，以进一步提高多模态情绪识别网络模型的稳定性和性能，最后，输出脑电（EEG）信号特征向量，这个脑电（EEG）信号特征向量可以被用于后续的数据处理。

具体的，考虑到脑电（EEG）信号的每个通道可能对应大脑的不同区域，可以利用生理学知识来指导注意力的分配，因此在此融合了两种不同类型的注意力机制：生理驱动的通道注意力（PCA）和时间动态注意力（TDA），PCA旨在识别和加权脑电（EEG）信号中各个通道的重要性，由于不同的脑区可能对特定情绪状态的表达有不同的贡献，因此关注这些通道的生理意义是至关重要的；TDA关注脑电（EEG）信号随时间的变化，捕捉脑电活动中的动态模式，这对于识别与时间相关的情绪变化尤为重要。最后结合这两种注意力机制，通过加权和的形式来综合考虑两者的贡献。

所述自注意力机制计算公式如下：

其中，表示应用了注意力机制后的特征图，/>为生理驱动的通道注意力，/>代表经过编码的脑电通道的生理意义的嵌入向量，/>和/>是学习得到的权重和偏置，/>是时间动态注意力，/>是时间序列特征，/>和/>是学习的得到的权重和偏置，/>和/>是自适应学习的权重系数，/>表示原始脑电（EEG）特征图，将这两种注意力机制进行融合应用于原始脑电（EEG）特征图，其中/>表示逐元素乘法，即将注意力权重应用到特征图的每个元素上。

S321：输入经过预处理的面部图像，使用的卷积核进行初始卷积，提取面部图像中的基本空间特征，经过ReLU激活函数后再使用/>的卷积核进行深层特征提取，再次经过ReLU激活函数，随后结合使用/>和/>卷积核进行组合卷积，以捕捉和整合不同尺度的面部特征；

S322：引入动态注意力机制，根据关键面部特征的空间信息动态调整注意力权重，使用平均池化层来进一步减少参数数量，并防止过拟合；在末端，首先加入Dropout层，然后使用全连接层进一步整合从卷积层得到的特征，这里应用一种自适应激活函数，该函数根据输入特征的分布动态调整激活函数的形状。

具体的，考虑到面部表情的每个局部区域，如眼睛、嘴巴、和眉毛都可能表达特定的情感信息，传统的表情分析方法可能会忽略这些局部特征的细微差异，所以引入局部特征提取网络（小型CNN）专门针对预定义的面部关键区域提取局部特征。为了确保多模态情绪识别网络模型在最终的特征表示中适当地强调这些关键区域的重要性，采用一个简单的全连接神经网络层，输入为局部特征，输出为每个区域的重要性权重，最后将全局表情特征与经过动态权重加权的局部区域特征结合起来，以形成一个综合的、信息丰富的特征表示。

其中，融合后的动态区域感知注意力机制计算公式如下：

S323：加入Dropout层，经过全连接层，应用自适应激活函数，输出图像特征向量；

进一步的，考虑到面部表情的动态变化，此模块设计一个能够根据输入特征的统计特性动态调整其形状的激活函数，以在面部表情特征提取中更有效地处理非线性和复杂性。

所述自适应激活函数表示如下：

其中，和/>是基于输入特征/>的统计特性的动态调整系数，/>提供了非线性激活，有助于多模态情绪识别网络模型捕捉面部特征中的复杂模式，/>提供了饱和性质，有助于多模态情绪识别网络模型处理细微的特征变化，/>，/>，/>，/>是可学习的参数，/>表示输入特征的标准差，/>表示输入特征的均值（是向量中所有元素的算术平均值），这些系数允许激活函数根据输入数据的特性自适应调整，使得多模态情绪识别网络模型能更准确地处理面部表情的动态变化。

作为本申请一实施例，所述步骤S3中脑电（EEG）信号与面部图片特征提取模块具体包括：

S331：输入经过预处理的脑电（EEG）信号，使用的卷积核以捕捉频域特征；

S333：将经过不同卷积核的脑电（EEG）信号和面部图片同时加入LeakyReLU激活函数，再使用多头注意力机制进行融合，以在不同的子空间中捕捉脑电（EEG）和面部特征间的复杂关系。

进一步的，考虑到脑电（EEG）信号和面部图片数据的不同特性，在本模块中设计了一种特殊的多头注意力机制，以更有效地融合来自脑电（EEG）信号和面部图片的特征，且有助于模型识别脑电（EEG）数据和面部表情图像之间的复杂关系。首先将脑电（EEG）和面部图片的特征通过不同的线性映射矩阵映射到多个子空间中，以创建查询（Query）、键（Key）和值（Value）的表示。在每个注意力头中，计算查询和键之间的注意力分数，并使用这些分数来加权相应的值，这种方法允许模型在不同的注意力头中关注不同的信息方面，从而捕捉更多层面的特征关系。

所述多头注意力机制计算公式如下：

其中，表示第/>个注意力头的输出；/>为查询矩阵，代表想要搜索的目标，/>为键矩阵，用于与查询进行匹配，/>为值矩阵，与键相对应的实际内容，/>表示键/查询向量的维度，用于缩放点积，从而控制梯度的稳定性，/>是一个常数，用于避免分母为0的情况；随后将所有注意力头的输出特征连接起来，形成一个综合的特征视图。

S334：设置Dropout层并加入全连接层，以稳定训练和增强模型的泛化能力，此部分公式如下：

之后使用PCA降维技术来减少特征空间的维度；

具体的，所述LSTM情感状态编码器用于进一步处理和理解融合后的多模态数据，首先将多头注意力机制处理后的特征输入到LSTM情感状态编码器，LSTM情感状态编码器通过其内部门控机制处理输入的时间序列数据，有效地保留长期依赖信息，并过滤掉不相关的信息，然后LSTM情感状态编码器学习识别和编码与特定情感状态相关的模式和特征，最后输出的特征向量综合了时间序列数据中的情绪相关信息，为后续的情感识别提供了丰富的信息。

本发明通过脑电信号特征提取模块将脑电信号数据进行特征提取，面部图片特征提取模块将面部图像进行特征提取，脑电信号与面部图片特征提取模块将脑电信号和面部图像提取相应的特征并进行融合，不仅融合了脑电信号和面部图像的单独特征，还创新性地将两者的交互信息编织进了多模态特征向量中，这种综合利用多模态数据的方法增强了多模态情绪识别网络模型对于复杂情绪状态的捕捉能力，显著提高了情绪识别的准确性和效率。

S341：通过拼接操作将脑电（EEG）信号特征提取模块、面部图片特征提取模块和脑电（EEG）信号与面部图片特征提取模块的输出特征向量进行融合得到统一的特征向量；

S342：将统一的特征向量经过的卷积核进行初始卷积操作后经过ReLU激活函数，在应用/>的卷积核进行深度卷积后再次经过ReLU激活函数增强非线性特征表示；

S343：经过最大池化和/>平均池化层后再经过ReLU激活函数，过逐点卷积的方式对深度卷积的输出进行处理，在此使用/>卷积核是为了在不改变特征图空间尺寸的前提下，整合不同通道的特征逐点卷积后也应用ReLU激活函数。使用/>最大池化和平均池化层进一步精细化特征提取，得到固定长度的特征向量；

S344：通将固定长度的特征向量输入到第一个有256个神经元的全连接层，并应用ReLU激活函数，然后输入到第二个有128个神经元的全连接层，并应用ReLU激活函数，再经过Dropout层，随后输入到6个神经元的输出层，应用softmax激活函数得到情绪的分类结果。

其中，为情感类别总数，/>是基于类别/>的历史分类准确率动态调整的权重，例如，如果某个情感类别在历史上分类准确率较低，那么这个类别的权重/>会更大，和/>分别表示第/>个情感类别的真实标签和模型的预测概率，这部分损失函数通过计算每个类别的加权交叉熵损失来实现，其中加权部分/>是关键，它确保模型在训练过程中更关注那些难以识别的情感类别。

具体的，所述损失函数被设计用来优化情感分类的准确性，旨在在对那些难以分类的情感类别给予更多关注，以提高多模态情绪识别网络模型在各类情感状态上的整体分类准确性。

如图4所示，本申请还提供了一种基于可穿戴设备的多模态情绪识别系统，包括：

本发明通过对采集到的用户的面部图像和脑电信号进行预处理，将经过预处理后的面部图像和脑电信号送入多模态情绪识别网络模型进行特征提取，并设计损失函数对多模态情绪识别网络模型进行训练，训练好的多模态情绪识别网络模型能够更准确地识别和分析用户的各种情绪状态，本发明适用于各种情境，如个人健康监测、心理咨询、教育环境以及交互式娱乐，提供了一个用户友好、高度准确的多模态情绪识别解决方案。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于可穿戴设备的多模态情绪识别方法，其特征在于，所述方法包括以下步骤：

S21：通过信号处理识别和剔除传入脑电信号的外源性伪迹，所述外源性伪迹包括环境噪声、操作误差和干扰；

S4：使用训练好的多模态情绪识别网络模型进行情绪识别，得到识别的结果；

所述步骤S3中脑电信号特征提取模块具体包括：

其中，表示应用了注意力机制后的特征图，/>为生理驱动的通道注意力，/>代表经过编码的脑电通道的生理意义的嵌入向量，/>和/>是学习得到的权重和偏置，是时间动态注意力，/>是时间序列特征，/>和/>是学习的得到的权重和偏置，/>和/>是自适应学习的权重系数，/>表示原始脑电特征图，其中/>表示逐元素乘法；

所述步骤S3中面部表情特征提取模块具体包括：

其中，和/>是基于输入特征/>的统计特性的动态调整系数，/>，/>，/>，/>是可学习的参数，/>表示输入特征的标准差，/>表示输入特征的均值；

所述步骤S3中脑电信号与面部图片特征提取模块具体包括：

其中，表示第/>个注意力头的输出；/>为查询矩阵，/>为键矩阵，/>为值矩阵，/>表示键/查询向量的维度，/>是一个常数，用于避免分母为0的情况；

S334：设置Dropout层并加入全连接层，加入Dropout正则化，并应用层归一化，使用PCA降维技术来减少特征空间的维度；

S335：将经过PCA降维后的数据输入LSTM情感状态编码器并输出融合后的特征向量；

所述步骤S3中情绪识别模块具体包括：

S341：通过拼接操作将脑电信号特征提取模块、面部图片特征提取模块和脑电信号与面部图片特征提取模块的输出特征向量进行融合，得到统一的特征向量；

2.根据权利要求1所述的一种基于可穿戴设备的多模态情绪识别方法，其特征在于，所述步骤S21具体包括：

S213:通过归一化去除数据中的比例效应，其公式为：

3.根据权利要求1所述的一种基于可穿戴设备的多模态情绪识别方法，其特征在于，所述步骤S22具体包括：

S221:对采集的脑电、肌电、眼电和心电信号提取时域特征，首先提取每个脑电时域信号的均值、标准差/>、最大值/>、最小值/>，使用快速傅里叶变换得到对应的频域信号，并提取相关的频域信息，其计算公式为：

其中，是第/>个频率分量的幅度，/>是时域信号的第/>个样本，/>是样本总数，/>的模/>表示频率分量/>的幅度，/>表示频率分量的能量；所述肌电、眼电和心电信号均通过上述和脑电信号相同的操作得到对应的频率分量的能量/>、/>、/>；

其中，是在FFT处理后得到的不同频率分量/>的能量，所述肌电、眼电和心电信号均通过上述和脑电信号同样的操作构建相应的特征向量/>、和/>；

4.根据权利要求1所述的一种基于可穿戴设备的多模态情绪识别方法，其特征在于，所述步骤3中设计的损失函数计算公式如下：

其中，为情感类别总数，/>是基于类别/>的历史分类准确率动态调整的权重，和/>分别表示第/>个情感类别的真实标签和模型的预测概率。

5.一种基于可穿戴设备的多模态情绪识别系统，其特征在于，包括：

多模态情绪识别模块，将脑电信号特征提取模块、面部图片特征提取模块、脑电信号与面部图片特征提取模块的输出的特征向量进行融合，并应用softmax激活函数得到情绪的分类结果；

所述脑电信号特征提取模块具体包括：输入经过预处理的脑电信号，使用的卷积核进行时域特征提取，经过ReLU激活层后采用/>的卷积核进行频域特征提取，再次经过ReLU激活层；

经过最大池化和/>平均池化，再使用/>深度可分离卷积层对每个输入通道进行空间上的卷积；

引入自注意力机制，设置一个Dropout层，加入一个全连接层，经过一个ReLU激活函数，再加入批量归一化层，输出脑电信号特征向量；所述自注意力机制计算公式如下：

所述面部图片特征提取模块具体包括：

输入经过预处理的面部图像，使用的卷积核进行初始卷积，经过ReLU激活函数后再使用/>的卷积核进行深层特征提取，再次经过ReLU激活函数；

引入动态注意力机制，调整注意力权重，使用平均池化层来进一步减少参数数量；所述动态注意力机制计算公式如下：

加入Dropout层，经过全连接层，应用自适应激活函数，输出图像特征向量；所述自适应激活函数表示如下：

所述脑电信号与面部图片特征提取模块具体包括：

输入经过预处理的脑电信号，使用的卷积核以捕捉频域特征；

输入经过预处理的面部图像，使用的卷积核以提取空间特征；

将经过不同卷积核的脑电信号和面部图片同时加入LeakyReLU激活函数，再使用多头注意力机制进行融合，所述多头注意力机制计算公式如下：

设置Dropout层并加入全连接层，加入Dropout正则化，并应用层归一化，使用PCA降维技术来减少特征空间的维度；

将经过PCA降维后的数据输入LSTM情感状态编码器并输出融合后的特征向量；

所述多模态情绪识别模块具体包括：

通过拼接操作将脑电信号特征提取模块、面部图片特征提取模块和脑电信号与面部图片特征提取模块的输出特征向量进行融合，得到统一的特征向量；

将统一的特征向量经过的卷积核进行初始卷积操作后经过ReLU激活函数，在应用的卷积核进行深度卷积后再次经过ReLU激活函数；

经过最大池化和/>平均池化层后再经过ReLU激活函数，得到固定长度的特征向量；

将固定长度的特征向量输入到全连接层，再经过Dropout层，应用softmax激活函数得到情绪的分类结果。