CN115590515A

CN115590515A - 基于生成式自监督学习和脑电信号的情绪识别方法及系统

Info

Publication number: CN115590515A
Application number: CN202211194404.XA
Authority: CN
Inventors: 吕宝粮
Original assignee: Shanghai Zero Unique Technology Co ltd
Current assignee: Shanghai Zero Unique Technology Co ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-01-13

Abstract

本发明实施例提供一种基于生成式自监督学习和脑电信号的情绪识别方法及系统。该方法包括：将用于反映被试者脑电信号的微分熵特征输入至多视角掩码自编码模型，对微分熵特征进行重构，对多视角掩码自编码模型的编解码器进行预训练，将编码器作为脑电信号的通用特征提取器；基于目标被试者的校准脑电信号以及基准情绪标签对通用特征提取器进行个性化训练，得到目标被试者自监督学习的情绪预测器；基于情绪预测器对采集到的目标被试者的脑电数据进行个性化情绪预测。本发明实施例将重建掩蔽脑电通道作为预训练阶段的代理任务，挖掘无标签数据的信息并赋予模型解码损坏的脑电数据的能力，解决从少量标记和损坏的脑电数据解码情绪的问题。

Description

基于生成式自监督学习和脑电信号的情绪识别方法及系统

技术领域

本发明涉及情感脑机接口技术领域，尤其涉及一种基于生成式自监督学习和脑电信号的情绪识别方法及系统。

背景技术

情绪识别在情感脑机接口和心理健康评估中起着重要作用，例如，许多情感障碍疾病都与情绪有关，准确评估患者的情绪状态将有助于情感障碍疾病的治疗。同样的，在智能助手的交互中，能够准确识别用户的情绪，也可以推送/反馈对用户更个性化的信息，提高用户的体验。

虽然现有识别情绪的方式有多种，例如面部表情、眼球运动、皮肤电导反应、心电和脑电等多种方式，但利用脑电图信号能够以较高的时间分辨率揭示情绪的微妙变化，在分析情绪状态时更加客观和准确。

随着脑电情感识别技术的迅速发展，研究人员可以成功地解码在实验室场景下收集的有标注的、高质量的脑电数据。通过这些有标注的、高质量的脑电数据训练情绪识别模型来准确的评估人们的情绪。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

脑电数据的标注耗时且工作量大，且收集高质量的脑电数据的实验室场景通常难以大面积铺设，限制了高质量脑电数据的采集。虽然使用便携式干电极脑电图等设备可以在日常环境中采集脑电数据，但这种环境中存在噪声干扰，而脑电图信号又对噪声比较敏感，在日常环境采集的脑电数据容易受到使用者和环境的损害，难以训练出高精的情绪识别模型。

发明内容

为了至少解决现有技术中日常环境采集的脑电数据容易受到使用者和环境的损害，难以训练出高精的情绪识别模型的问题。第一方面，本发明实施例提供一种基于生成式自监督学习和脑电信号的情绪识别方法，包括：

将用于反映被试者脑电信号的微分熵特征输入至多视角掩码自编码模型，对所述微分熵特征进行频域和/或空间和/或时间维度的重构，得到用于模拟无标注和/或受损脑电信号的多视角重构微分熵特征，基于所述多视角重构微分熵特征对所述多视角掩码自编码模型的编、解码器进行预训练，将得到的编码器作为所述脑电信号的通用特征提取器；

基于目标被试者的校准脑电信号以及所述校准脑电信号对应的基准情绪标签对所述通用特征提取器进行个性化训练，得到针对于所述目标被试者自监督学习的情绪预测器；

基于所述情绪预测器对采集到的所述目标被试者的脑电数据进行个性化情绪预测，其中，所述脑电数据包括：无标注的脑电信号、受损的脑电信号。

第二方面，本发明实施例提供一种情绪识别系统，包括：

通用特征程序模块，用于将用于反映被试者脑电信号的微分熵特征输入至多视角掩码自编码模型，对所述微分熵特征进行频域和/或空间和/或时间维度的重构，得到用于模拟无标注和/或受损脑电信号的多视角重构微分熵特征，基于所述多视角重构微分熵特征对所述多视角掩码自编码模型的编、解码器进行预训练，将得到的编码器作为所述脑电信号的通用特征提取器；

个性化训练程序模块，用于基于目标被试者的校准脑电信号以及所述校准脑电信号对应的基准情绪标签对所述通用特征提取器进行个性化训练，得到针对于所述目标被试者自监督学习的情绪预测器；

情绪识别程序模块，用于基于所述情绪预测器对采集到的所述目标被试者的脑电数据进行个性化情绪预测，其中，所述脑电数据包括：无标注的脑电信号、受损的脑电信号。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例基于生成式自监督学习和脑电信号的情绪识别方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的基于生成式自监督学习和脑电信号的情绪识别方法的步骤。

本发明实施例的有益效果在于：将重建掩蔽脑电通道作为预训练阶段的代理任务，充分挖掘无标签数据的信息并赋予模型解码少量标记和损坏的脑电数据的能力，基于CNN-Transformer的混合结构充分利用了脑电信号的频谱、时间和空间域的信息，进而通过重建掩蔽脑电通道的生成式自监督学习，解决从少量标记和损坏的脑电数据解码情绪的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的流程图；

图2是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的多视角掩码自编码器的自监督学习模型架构示意图；

图3是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的脑电通道示意图；

图4是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的使用所有标记的训练数据时平均精度和标准偏差示意图；

图5是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的使用少量标记的训练数据时平均精度和标准偏差示意图；

图6是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的标记训练数据的受损示意图；

图7是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的分级性能的烧蚀研究示意图；

图8是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法使用少量和所有标记数据来校准对于三类、四类情绪状态区分的混淆矩阵示意图；

图9是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的测试数据以不同掩蔽率对脑电通道进行掩蔽损坏后的重建可视化示意图；

图10是本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别系统的结构示意图；

图11为本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别方法的流程图，包括如下步骤：

S11：将用于反映被试者脑电信号的微分熵特征输入至多视角掩码自编码模型，对所述微分熵特征进行频域和/或空间和/或时间维度的重构，得到用于模拟无标注和/或受损脑电信号的多视角重构微分熵特征，基于所述多视角重构微分熵特征对所述多视角掩码自编码模型的编、解码器进行预训练，将得到的编码器作为所述脑电信号的通用特征提取器；

S12：基于目标被试者的校准脑电信号以及所述校准脑电信号对应的基准情绪标签对所述通用特征提取器进行个性化训练，得到针对于所述目标被试者自监督学习的情绪预测器；

S13：基于所述情绪预测器对采集到的所述目标被试者的脑电数据进行个性化情绪预测，其中，所述脑电数据包括：无标注的脑电信号、受损的脑电信号。

在本实施方式中，将准备好的情绪诱发素材供被试者观看，在日常场景下，被试者只要拥有脑电采集设备，就可以通过脑电采集设备采集被试者的脑电信号数据。具体的，脑电采集设备可以选用基于ESI NeuroScan湿电极脑电帽来采集脑电信号。这样就可以在日常场景下获得大量的被试者的脑电信号作为训练数据进行情绪识别模型的训练，进而用于各领域的情绪识别。例如，日常场景可以为被试者静坐在房间中，被试者的前方放置显示器来播放情绪诱发视频，供被试者观看，此时基于脑电采集设备来采集脑电信号。

对于步骤S11，在得到被试者脑电信号之后，考虑到这些脑电信号源自于日常场景，为了进一步提升精确性，需要对所述被试者脑电信号进行滤波、降噪的预处理。

在本实施方式中，预处理包括对采集到的脑电数据进行基线校正、去除伪迹、滤波等处理。具体的，去除所述脑电信号中的50Hz交流电源噪音；在去噪后，利用1-75Hz带通滤波器去除所述脑电信号中的低频与高频无效信号。

通过预处理后的脑电信号确定对应的微分熵特征，可以利用定长的汉宁窗口在脑电信号上执行快速傅里叶变换，通过脑电信号在频域的频谱提取用于反映脑电信号中不同频带能量的微分熵特征，在得到微分熵特征后进行线性动力系统平滑处理。这样就得到了用于反映被试者脑电信号的微分熵特征。

对于多视角掩码自编码模型，其基于CNN(Convolutional Neural Network，卷积神经网络)-Transformer混合结构，从频谱、空间和时间角度解码脑电信号的情绪相关知识。

通过频域可以进行频谱分析，根据傅里叶定理，任何连续测量的时序或信号，都可以表示为不同频率的正弦波信号的无限叠加。脑电信号可以看成就是由不同的正弦信号混合而成的混合信号，通过傅里叶变换，就能够将这个混合信号重新分解成具有不同频率的正弦波，从而获得频域上的信息。频域分析不仅可以用于分析任务态的数据，还常用于分析静息态的数据。时间角度的时域关注的是脑电信号波幅随时间进程的变化情况，其能够快速得到由某个事件(刺激)所引起的波幅值的变化。空间角度是提取脑电信号通道的动态和通道间的依赖关系，可以客观的体现对于某个刺激事件大脑整体的幅度总结。

通过对微分熵特征进行频域、空间、时间维度的多角度重构，可以得到大量的用于模拟无标注和/或受损脑电信号的多视角重构微分熵特征，可以利用这些多视角重构微分熵特征来训练出通用特征提取器，可以提取出所有人可能都会出现的情绪特征，由于不同人所展现情绪的方式不同，其对应的脑电信号也有差别，针对于个人细化的情绪可能无法识别出。

具体的，所述多视角掩码自编码模型由频谱嵌入层、空间位置编码层、脑电通道掩码层、混合编码块以及与所述混合编码块对称的混合解码块组成，其中，所述频谱嵌入层用于提取微分熵特征的频谱信息；

所述空间位置编码层用于对脑电通道的空间位置进行编码，用于损毁及重构，其中，所述脑电通道的空间位置的编码方式包括正弦余弦位置编码；

所述脑电通道掩码层用于将重构的微分熵特征按通道划分为可见子集和掩码子集；

所述混合编码块用于捕捉所述可见子集中脑电通道间的依赖关系，确定脑电的多视角融合特征；

所述混合解码块用于通过可见子集和用参数替代的掩码子集确定原始脑电特征，基于所述原始脑电特征以及解码器输出的重构脑电特征的重构损失对所述混合编码块以及所述混合解码块进行预训练，得到所述脑电信号的通用特征提取器。

在本实施方式中，如图2所示，为多视角掩码自编码模型的结构，其由频谱嵌入层、空间位置编码层、脑电通道掩码、L个CNN-Transformer混合编码块和L个对称的CNN-Transformer混合解码块组成。输入由来自所有被试的训练脑电数据的频域微分熵特征构成，可以表示为X＝(x₁，x₂，...x_N，)∈R^N×F×V，为获取脑电时间序列，将所提取的频域特征X用时间窗口T转换成

对于频谱嵌入层，其通过线性变换将输入的脑电频谱特征(也就是微分熵特征)投影到新的D维频谱空间中，嵌入脑电信号的频谱信息。表示为

其中W、b为线性变换的权重矩阵和偏置。

对于空间位置编码层，根据脑电在空间维度上的通道将脑电数据分块，每一块代表一个脑电通道。为了记住每个脑电通道的位置从而进行损毁后的重构，在脑电通道的空间维度上加入正弦余弦位置编码。

对于脑电通道掩码，将脑电数据按通道随机划分成一个可见子集

和一个掩码子集

只有可见子集被用作混合编码器的输入，表示为：

对于L个CNN-Transformer混合编码块，每个CNN-Transformer混合编码块包括多尺度的时间因果卷积层、多头空间自注意力层、归一化层和前馈网络层。

具体的，所述时间因果卷积层包括多尺度时间卷积核，用于对可见子集中的脑电通道的时间信息进行提取；

所述多头空间自注意力层用于捕捉划分后可见子集的脑电通道间的空间依赖关系。

在本实施方式中，多尺度的时间因果卷积层中包括长、中、短尺度卷积核的因果卷积层分支。对于每个尺度分支，对每个脑电通道的时间维度T分别进行卷积核大小为K_l×1，K_m×1，K_s×1之一的因果卷积(causal convolution)运算和批归一化(BN)，嵌入特征由同一通道的相邻时间来更新，更新后的特征表示为：

其中，B_in为多尺度时间因果卷积层的输入，

分别为长、中、短尺度因果卷积层的编码特征输出，对于第一层CNN-Transformer混合编码块，B_in为可见子集

之后的每一个CNN-Transformer混合编码块的输入B_in为前一层编码块的输出。

在时间卷积层之后，所述多头空间自注意力层捕捉所有可见子集的脑电通道间的依赖关系，然后通过求和运算融合三个尺度分支的脑电特征嵌入，融合后的特征

表示为：

从而确定出脑电的多视角融合特征。

对于L个对称的CNN-Transformer混合解码块，由与编码块相同结构的L个CNN-Transformer混合解码块和线性层组成。解码器的输入是由编码的可见子集

和掩码子集

组成的完整集合，掩码子集

被设置为随机初始化的参数，并与编码的可见子集拼接，解码器输出重构的脑电特征

重构预测每个掩蔽脑电通道的值为：

通过MSE(Mean Square Error，均方误差)计算预测掩蔽脑电通道

的值与对应的原始脑电图特征

之间的重建损失为：

最终，通过最小化重构损失loss_rec使其达到预设重构标准为止，例如当重构损失loss_rec小于设定重构阈值时停止，训练完成，得到一个经过预训练的通用特征提取器E。

对于步骤S12，考虑到训练的通用特征提取器可能无法针对性的提取不同用户个性化的情绪，在预训练通用特征提取器的基础上进行个性化训练自监督调优。通常来说在日常场景中，使用通用特征提取器即可满足用户的通常需求。但为了进一步准确的识别每一名用户的情绪，进一步提升情绪识别的准确性，进行了精细的个性化训练。

作为一种实施方式，所述基于目标被试者的校准脑电信号以及所述校准脑电信号对应的基准情绪标签对所述通用特征提取器进行个性化训练包括：对所述通用特征提取器添加用于情绪分类的线性层，得到初始化个性的情绪预测器；利用所述情绪预测器确定所述校准脑电信号的预测情绪标签；基于所述预测情绪标签与所述基准情绪标签的交叉熵损失对所述情绪预测器进行训练，直至所述交叉熵损失达到预设损失标准为止。

在本实施方式中，对于特定的被试者s(也就是我们要针对训练的用户，例如，可以为医疗领域中的某位情感障碍疾病患者，也可以为人工智能领域中，使用智能语音助手的某位用户)，此时获取该名被试者的校准数据

和对应的基准情绪标签

通过微调通用特征提取器E获得针对被试s的个性化校准的情绪预测器

对预训练得到的通用特征提取器E添加上用于情绪分类的线性层linear，并用特征提取器E的参数初始化个性化情绪预测器

然后将校准数据

输入情绪预测器

计算的预测情绪标签的情绪类别与基准情绪标签

的交叉熵损失loss_cls，同样的可以通过最小化loss_cls来微调情绪预测器

进而得到针对于所述目标被试者自监督学习的情绪预测器。

对于步骤S13，在情绪预测器训练好后，利用采集的目标被试者的脑电数据

其中，本方法输入的的脑电数据可以为完整的脑电信号，也可以为无标注的脑电信号、受损的脑电信号。将脑电数据

输入至情绪预测器

对情绪类别进行预测：

最终得到目标被试者的情绪类别。

通过该实施方式可以看出，将重建掩蔽脑电通道作为预训练阶段的代理任务，充分挖掘无标签数据的信息并赋予模型解码少量标记和损坏的脑电数据的能力，基于CNN-Transformer的混合结构充分利用了脑电信号的频谱、时间和空间域的信息，进而通过重建掩蔽脑电通道的生成式自监督学习，解决从少量标记和损坏的脑电数据解码情绪的问题。

对本方法进行具体实验说明，预训练数据集由所有受试者的未标记训练数据连接，表示为X＝{X₁，...，X_S}，其中S表示主题的数量。级联的脑电图特征是提取的光谱特征，也可以表示为序列

其中N是时间序列中的样本数，C表示EEG(electroencephalogram，脑电图)通道的数量，F代表一组频段(δ：1-4Hz，θ：4-8Hz，α：8-14Hz，β：14-31Hz，γ：31-50Hz)在谱域中通过STFT(Short-time Fourier Transform，短时傅里叶变换)转换。预训练的一般特征提取器表示为E，特定主题的校准情绪预测器s表示为

其中s表示第s主题。

和

分别代表校准数据和标签。主题s的测试数据和标签表示为

和

本方法设计了一个基于多视图CNN(Convolutional Neural Network，卷积神经网络)-Transformer的MV-SSSTMA(Multi-view Spectral-Spatial-Temporal MaskedAutoencoder，多视觉光谱时空掩蔽自动编码模型)，如图2所示。整个模型可以分为三个阶段：预训练阶段、个性化校准阶段和个人测试阶段。在预训练阶段，来自所有被试者的未标记EEG数据X的通道被随机屏蔽，然后重建以学习由所有受试者共享的特征提取器提取的一般信息。在个性化校准阶段，只有少数来自特定主题s的标记数据

和

用于校准来自预训练的广义特征提取器E的个人情绪预测器

在测试阶段，脑电数据和受损数据

可以通过

解码来识别情绪状态。对广义特征的通用特征提取器E进行了预训练，该特征提取器学习所有被试的未标记EEG数据的知识，目的是在以后更好地识别特定被试的情绪状态。为了解决从较少且受损的脑电图数据中解码情绪的问题，选择重构被屏蔽脑电图通道的生成学习作为代理任务，学习脑电图数据的一般表示形式。考虑到EEG信号的特点，设计了基于多视图CNN-Transformer混合结构的预训练模型，该模型由光谱嵌入层、空间位置编码层、L个混合编码器和L个对称混合解码器组成。每个混合块包括一个时间多尺度随机卷积层和一个空间多头自注意层。

由于DE(differential entropy，微分熵特征)已被证明在基于脑电图的情绪识别任务中具有优异的性能，使用从脑电图信号的谱域提取的微分熵特征作为模型的输入。提取的DE特征

转换为样本

重叠窗口。对于每个样本i，

在光谱嵌入层中，首先通过线性层将

投影到D维空间中，以嵌入EEG信号的光谱信息。这样

被嵌入到C×T×D的形状中，其表达式如下：

其中，权重向量

以及偏差

对于空间位置编码层，根据EEG通道在维数上的不同将EEG数据分为多个块C(空间维度)。一个维度代表一个EEG通道。为了记住每个EEG通道的位置并在后续任务重构它。

对于掩蔽步骤，随机抽样一个可见子集

和遮罩子集合

其中，C_vUC_m＝C。仅

用作混合编码器的输入。

为了捕捉脑电信号的时间信息，引入了多尺度时间因果卷积层，使模型能够学习动态时间表示。实现了具有长、中、短内核大小的三个随机卷积层分支，对应于图2中的时间卷积层-短、时间卷积层-中和时间卷积层-长。计算每个EEG的时间大脑摘要来自输入光谱特征的通道。

多尺度时间因果卷积层采用具有多个卷积核长度的时间因果卷积来捕获不同范围的时间步长。短时间核旨在学习短期表示，而长时间核用于提取长期表示。通过多尺度时间核，可以丰富脑电数据的多样化表示，充分学习与情绪相关的信息。通过在输入EEG样本上并行应用多尺度时间核来生成动态长短期时间模式。时间卷积层-长、时间卷积层-中和时间卷积层-短的时间卷积核大小k_t×1分别设置为k_l×1、k_m×1和k_s×1。

与视频的时间图像不同，EEG信号的时间序列被表示为每一个通道的连续序列。为每个通道c∈{1，...，C}，其中c的嵌入由同一通道的相邻帧更新。在每个EEG通道中，对输入

的时间维T进行核大小为K_t×1的卷积运算。其中，K_t为在邻域中编码时间信息。

此外，使用因果卷积来强制不将信息从未来流向过去。如图3所示，时间t的输出只依赖于时间t及更早的输入。在模型中实现的通道时序卷积不会改变向量的形状，因此添加了长度为K_t-1的零填充以保持形状不变。模型中三个尺度分支的时间卷积可以表述为：

其中，

是输入光谱特征，在第一层设置为

和

是批量归一化操作，以保持模型的稳定性。

在时间卷积层之后，利用空间多头自注意学习所有可见脑电图通道的动态和通道间依赖关系，如图3所示。对于长尺度分支，将

重塑为C_v×TD的形状，则脑电嵌入可表示为

利用缩放点积来显式捕获EEG通道之间的拓扑关系，其表述为：

其中Q、K和V分别表示查询向量、键向量和值向量，TD是用于缩放点积的键向量的维数。

点积相似在感兴趣通道的Q与K之间进行评估。如果Q和K相似，意味着注意力权重较高，则假定相应的值是相关的。这里的Q、K和V向量是输入大脑嵌入

的投影。具体来说，长尺度分支的空间大脑摘要，表示为

通过多头注意力计算EEG通道之间的注意力权重：

其中

和

是将多头结果连接并投影回表示空间的权重矩阵。空间注意矩阵

表示一个通道对另一个通道的注意程度。

其他两个分支的处理方式与长规模分支相同。三个尺度分支中的空间脑嵌入通过求和运算进行融合：

其中

和

分别表示短尺度分支、中尺度分支和长尺度分支在空间注意层的输出，

表示三个尺度的整体空间大脑总结所有可见脑电图通道的分支。在空间注意力之后，层归一化和前馈网络紧随其后。有LCNN-Transformer混合编码器堆叠以更新嵌入并进一步提取EEG特征。

最终的嵌入表示为

在特征提取完成后，利用对称译码器重构被屏蔽的EEG信道，该信道由L相似的CNN-Transformer混合块和线性层组成。该编码器-解码器采用了对称结构，以获得更强的解码器来重构复杂的脑电图数据。对解码器的输入是由经过编码的可见通道

和经过屏蔽的通道

组成的完整集合。

被设置为随机初始化的参数，并与编码的可见通道连接。解码器输出重构的EEG特征

重构过程预测每个被屏蔽脑电图通道的值。损失仅在被掩通道的重构

与对应的原始EEG特征之间通过均方误差(MSE)计算。最后，通过最小化构建损失，得到了预训练的通用特征提取器E。

对于个性化目标被试者s，校准数据由受试者原始训练数据集中每种情绪状态的少量标记样本组成s，表示为

和

由于EEG数据是按时间顺序记录的，所以将训练数据集最开始的数据作为校准数据是合理的。获得了一个个性化的校准情绪预测器

通过微调广义特征抽取器E，通过线性层来预测情绪类。用交叉熵来衡量分类损失。

在测试阶段，模型接受损坏的EEG数据。使用来自原始测试数据集的主题s的测试集，记为

和

来验证个性化模型

的有效性。为了模拟受损数据，与预训练阶段相同的方式屏蔽通道。

本方法的模型是在情感脑电图数据集(SEED数据集和SEED-IV数据集)进行评估的，这些数据集的刺激材料均为视频剪辑。其中，SEED数据集包含15名参与者的EEG信号，被分为积极、中性和消极三种情绪状态。每个受试者在不同的时间进行了三次15次试验。在每个会话中，通常使用前9个试验作为训练数据，其余6个试验作为测试数据。SEED-IV数据集针对四种情绪状态收集：快乐、悲伤、恐惧和中性情绪。15名受试者在不同的日子参加了三次试验，每次24次试验。一般来说，前16个试验是训练数据，其余8个试验是每个会话的测试数据。

为了使本方法结果具有可比性，采用了与之前对两个数据集相同的常见实验设置，由于数据集中的类别是平衡的，因此通过会话的平均准确度和标准差来评估其性能。对于每个实验，本方法训练前数据X由所有受试者的未标记原始训练数据串联而成，包括SEED数据集的9个试验和SEED-IV数据集的16个试验。从目标受试者的训练数据集开始，每个情绪状态的数量为10，20，30的少量标记数据用于校准。

预训练数据

通过大小为T的重叠窗口转换为

以保持与比较实验相同的样本大小到10个样本，C是EEG通道的数量，等于62。实验使用了PyTorch深度学习框架。对于每个实验，本方法模型的学习率范围从0.001到0.00001。此外，谱嵌入大小D设置为16，混合块的数量L等于6。多头维度H设置为6。

参与的基线模型包括：

STRNN：时空循环神经网络基于统一的时空依赖模型，从时空两方面学习信息。

DGCNN：动态图卷积神经网络通过图卷积动态学习EEG信号的表征，用于基于EEG的情感识别。

BiDANN：双脑域对抗神经网络专注于脑左右半球的EEG信号的鉴别特征，用于基于EEG的情绪识别。

BiHDM：双半球差异模型研究了大脑左右半球的不对称差异。

R2G-STNN：区域到全局时空神经网络模型学习脑电信号在空间和时间方面的全局和区域脑电图表示。

RGNN：正则化图神经网络通过图卷积探索EEG通道的拓扑结构。

MD-AGCN：多域自适应图卷积网络，充分利用了不同域上的特征。

MAE：掩码自动编码器作为可伸缩的自我监督学习者，通过重建计算机视觉图像中的缺失补丁。

对于不同数量校准数据的结果。在图4和图5中，分别使用SEED和SEED-IV数据集的所有标记训练数据和少量标记训练数据(每种情绪状态的数量分别为10、20和30)，展示了本方法模型与基线模型之间的比较结果。对于每种情绪，10、20和30个标记数据来自同一时期试验的开始部分。值得注意的是，本方法结果仅与遵循相同通用实验设置的模型进行比较。

如图4所示与监督方法相比，本方法模型在SEED和SEED-IV数据集上取得了最先进的结果，这表明预训练过程可以提高模型的泛化和效率，特别是在情感类较多的问题上。具体来说，本方法模型在SEED数据集上的识别准确率达到95.32％，标准偏差为3.05％。在SEED-IV数据集上，本方法模型取得了显著改进，最高准确度为92.82％，最低标准偏差为5.03％。此外，MAE方法在SEED-IV上也超过了基线方法，而在SEED上表现比一些监督模型好。原因可能是这些监督模型考虑了EEG的时间信息。

在只有少量标记数据用于校准的情况下，使用自监督方法MAE和监督方法MD-AGCN对本方法的MV-SSMA进行评估。如图5所示，#标记的数据列表示本方法模型的每种情绪状态的标记训练数据的数量。当所有模型使用更多标记数据时，准确性会提高。增量可能很小，因为不同数量的标记数据是相邻的并且来自同一时期的令牌意味着缺乏多样性。此外，本方法模型在每种情况下都优于MAE和MD-ADCN。

还对上述所有情况下所有受试者的MVSTMA和MAE的表现以及MV-SSSTMA和MD-AGCN的表现进行测验。在所有情况下，显着性水平都远低于1％，表明它们之间存在显着差异。

(1)预训练阶段捕获EEG信号的泛化表示，而校准过程将模型向指定目标被试者进行训练迁移。

(2)本方法模型在频谱、时间和空间域上充分利用了脑电信号。

如图6所示，SEED-IV数据集上的10个标记校准数据演示了测试数据中不同比例的通道受损率的结果。每一列代表测试数据中受损通道的百分比。使用SEED-iv数据集的原因是SEED-iv中的四种情绪类别包括SEED中的所有三种情绪状态。从图6可以看出，当测试数据中30％的通道被破坏时，MV-SSTMA可以很好地识别情绪状态，仅用10个标记的校准数据就可以达到73.68％和7.58％的标准差。此外，即使在脑电信号通道受损较多的情况下，本方法模型仍能很好地区分情绪状态。

为了演示混合编码器块中通道型偶然卷积层的效果，通过用时间嵌入(即NoHybrid)替换通道型偶然卷积层来实现消融研究。在NoHybrid模型中，仍然通过在原有的光谱嵌入层中添加时间嵌入来考虑时间信息，但无法与L编码器块中的空间信息互换查看。还通过减少MV-SSTMA的多尺度时间分支来实现消融研究，这些时间分支在模型中只使用一个单一的尺度分支，称为SingleScale。用普通卷积运算代替了单尺度模型中的因果卷积，评价了因果卷积的贡献。

如图7所示，本方法MV-SSTMA、NoHybrid模型和SingleScale模型的性能，在SEED和SEED-IV数据集上，每种情绪状态的标定标记数据数量不同。本方法模型总是优于NoHybrid模型和SingleScale模型，这一事实表明了混合编码器块中信道随机卷积层和具有随机卷积的多尺度分支的重要性。此外，由于NoHybrid模型和SingleScale模型也考虑了时间信息，因此它们的性能仍然优于MAE。

如图8所示了本方法MV-SSTMA的混淆矩阵，其中包含10个和所有标记的训练数据，以在SEED和SEED-IV数据集上进行校准，说明了区分每个情绪状态的能力。对于SEED数据集，本方法模型能够最好地识别积极情绪状态，最难识别10个和所有标记训练数据的中性情绪状态。对于SEED-IV数据集，10个标记校准数据中最难识别的情绪状态，而中性状态是最容易识别的状态。此外，当采用所有标记的训练数据进行校准时，本方法模型仍然比所有其他三种情绪状态更好地解码中性状态，恐惧状态也是最难区分的状态。

进一步研究了本方法模型从测试数据重建受损脑电通道的能力。如图图9显示了重建的测试数据，这些数据是通过使用不同的屏蔽率随机屏蔽EEG通道而手动损坏的。可以看出，当掩蔽率为30％和50％时，可以很好地重建脑电特征。在70％的掩蔽率下，特征通常也可以重建，但某些细节可能会丢失。然而，当掩蔽率为90％时，脑电特征更难恢复。

总的来说，本方法的自监督学习的多视图光谱-空间-时间掩蔽自动编码模型，解决从少量标记和损坏的EEG数据中解码情绪的问题。本方法模型通过多视图CNN-Transformer混合结构探索EEG数据的光谱、空间和时间特性，从而充分利用EEG信号。预训练、标定、测试三个阶段，保证了整体框架的泛化、个性化、高效特性。

在SEED和SEED-IV数据集上进行的大量实验证明了本方法模型与各种高级基线模型相比具有出色的性能。少数标记和受损脑电图数据的结果表明，MV-SSSMA模型可以从大量未标记数据中学习脑电图表示，并有效地从少数标记甚至受损脑电图数据中解码情绪状态。在测试数据上重建受损脑电图通道的可视化证明了本方法模型恢复情绪脑电图数据缺失通道的有效性和能力，本方法模型以自我监督的方式促进了基于EEG的情绪识别的性能。

如图10所示为本发明一实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别系统的结构示意图，该系统可执行上述任意实施例所述的基于生成式自监督学习和脑电信号的情绪识别方法，并配置在终端中。

本实施例提供的一种基于生成式自监督学习和脑电信号的情绪识别系统10包括：通用特征程序模块11，个性化训练程序模块12和情绪识别程序模块13。

其中，通用特征程序模块11用于将用于反映被试者脑电信号的微分熵特征输入至多视角掩码自编码模型，对所述微分熵特征进行频域和/或空间和/或时间维度的重构，得到用于模拟无标注和/或受损脑电信号的多视角重构微分熵特征，基于所述多视角重构微分熵特征对所述多视角掩码自编码模型的编、解码器进行预训练，将得到的编码器作为所述脑电信号的通用特征提取器；个性化训练程序模块12用于基于目标被试者的校准脑电信号以及所述校准脑电信号对应的基准情绪标签对所述通用特征提取器进行个性化训练，得到针对于所述目标被试者自监督学习的情绪预测器；情绪识别程序模块13用于基于所述情绪预测器对采集到的所述目标被试者的脑电数据进行个性化情绪预测，其中，所述脑电数据包括：无标注的脑电信号、受损的脑电信号。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于生成式自监督学习和脑电信号的情绪识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的基于生成式自监督学习和脑电信号的情绪识别方法。

图11是本申请另一实施例提供的基于生成式自监督学习和脑电信号的情绪识别方法的电子设备的硬件结构示意图，如图11所示，该设备包括：

一个或多个处理器1110以及存储器1120，图11中以一个处理器1110为例。基于生成式自监督学习和脑电信号的情绪识别方法的设备还可以包括：输入装置1130和输出装置1140。

处理器1110、存储器1120、输入装置1130和输出装置1140可以通过总线或者其他方式连接，图11中以通过总线连接为例。

存储器1120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于生成式自监督学习和脑电信号的情绪识别方法对应的程序指令/模块。处理器1110通过运行存储在存储器1120中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于生成式自监督学习和脑电信号的情绪识别方法。

存储器1120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1120可选包括相对于处理器1110远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1130可接收输入的数字或字符信息。输出装置1140可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1120中，当被所述一个或者多个处理器1110执行时，执行上述任意方法实施例中的基于生成式自监督学习和脑电信号的情绪识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于生成式自监督学习和脑电信号的情绪识别方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括∶智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于生成式自监督学习和脑电信号的情绪识别方法，包括：

2.根据权利要求1所述的方法，其中，所述多视角掩码自编码模型由频谱嵌入层、空间位置编码层、脑电通道掩码层、混合编码块以及与所述混合编码块对称的混合解码块组成，其中，

所述频谱嵌入层用于提取微分熵特征的频谱信息；

所述空间位置编码层用于对脑电通道的空间位置进行编码，用于损毁及重构，其中，所述脑电通道的空间位置编码方式包括正弦余弦位置编码；

所述混合解码块用于通过可见子集和掩码子集确定原始脑电特征，基于所述原始脑电特征以及所述解码器输出的重构脑电特征的重构损失对所述混合编码块以及所述混合解码块进行预训练，得到所述脑电信号的通用特征提取器。

3.根据权利要求2所述的方法，其中，所述混合编码块包括：时间因果卷积层、多头空间自注意力层，其中，

所述时间因果卷积层包括多尺度时间卷积核，用于对可见子集中的脑电通道时间信息进行提取；

4.根据权利要求2所述的方法，其中，所述基于所述原始脑电特征以及所述解码器输出的重构脑电特征的重构损失对所述混合编码块以及所述混合解码块进行预训练包括：

将确定出的所述解码器输出的重构脑电特征与所述原始脑电特征的均方误差作为重构损失，基于所述重构损失所述混合编码块以及所述混合解码块进行预训练，直至所述重构损失达到预设重构标准为止。

5.根据权利要求1所述的方法，其中，所述基于目标被试者的校准脑电信号以及所述校准脑电信号对应的基准情绪标签对所述通用特征提取器进行个性化训练包括：

对所述通用特征提取器添加用于情绪分类的线性层，得到初始化个性的情绪预测器；

利用所述情绪预测器确定所述校准脑电信号的预测情绪标签；

基于所述预测情绪标签与所述基准情绪标签的交叉熵损失对所述情绪预测器进行训练，直至所述交叉熵损失达到预设损失标准为止。

6.根据权利要求1所述的方法，其中，所述用于反映被试者脑电信号的微分熵特征由所述被试者脑电信号频域的频谱确定。

7.根据权利要求6所述的方法，其中，在确定所述被试者脑电信号频域的频谱之前，所述方法还包括对所述被试者脑电信号进行滤波、降噪的预处理。

8.一种基于生成式自监督学习和脑电信号的情绪识别系统，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。