CN116035577A

CN116035577A - 一种结合注意力机制与crnn的脑电情感识别方法

Info

Publication number: CN116035577A
Application number: CN202310057960.0A
Authority: CN
Inventors: 周晓彦; 韩智超; 王基豪; 王丽丽; 邵勇斌
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-01-14
Filing date: 2023-01-14
Publication date: 2023-05-02

Abstract

本发明提供一种结合注意力机制与CRNN的脑电情感识别方法，涉及脑电情感识别领域。该结合注意力机制与CRNN的脑电情感识别方法，首先对输入的原始脑电信号进行基线去除以及分窗切片预处理。然后通过基于空间注意力的卷积神经网络(CNN)提取脑电数据的空间特征，并通过基于自注意力的循环神经网络(RNN)提取出时间序列信息。最后将两者相结合用于跨被试脑电情感识别。实验结果表明该方法能够从原始脑电信号中提取出更有辨识性的特征，在两个公开的脑电数据集DEAP和DREAMER上取得了89.29％和93.81％的平均分类准确率，相较于其他方法来说分类效果有了明显的提高。

Description

一种结合注意力机制与CRNN的脑电情感识别方法

技术领域

本发明涉及脑电情感识别技术领域，具体为一种结合注意力机制与CRNN的脑电情感识别方法。

背景技术

近年来，随着注意力机制的逐渐发展。许多研究人员也开始将注意力机制用于脑电情感识别当中。Chen等人[20]将分层双向门控循环单元网络和注意机制相结合，以获得更具区分性的EEG特征表示。Li等人[21]提出了一种基于多路图注意力网络的情感脑电识别方法，该方法通过通道注意力来增强脑电各电极通道之间的联系，获得更多相关的信息来用于分类。在这些方法中，研究人员将传统的深度学习模型与注意力机制相结合，提高了分类效能。然后，这些方法大多只采用了单一的注意力机制，如Chen等只在EEG数据的样本层面采用注意力来获得更加具有辨识性的特征，Li等只用了通道注意力来对于EEG通道施加权重并通过图卷积神经网络(GCNN)来提取特征。他们都没有考虑到脑电信号作为一种复杂的信号，包含大量的空间信息和时序信息，不能有效地提高分类的效果。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种结合注意力机制与CRNN的脑电情感识别方法，解决了现有技术没有考虑到脑电信号作为一种复杂的信号，包含大量的空间信息和时序信息，不能有效地提高分类的效果的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，提供了一种结合注意力机制与CRNN的脑电情感识别方法，包括：

获取脑电信号；

将脑电信号分别进行基线校准，消除脑电信号中的干扰信息；

将进行基线校准的脑电信号进行分窗切片操作并按照以便输入到卷积神经网络之中；

将空间注意力模块加入到卷积神经网络，通过加入空间注意力模块的卷积神经网络对进行基线校准和分窗切片操作的脑电信号进行提取脑电信号中的空间特征；

将长短期记忆网络与自注意力机制相结合，并对进行基线校准和分窗切片操作的脑电信号进行提取时序特征；

将提取的空间特征与时序特征相结合，用于增强情感分类的效果，完成情感分类任务。

优选的，所述将脑电信号分别进行基线校准，消除脑电信号中的干扰信息，具体包括：

设

为采集到的采样频率为HHz，持续时间为T₁s的脑电信号，其中，C为脑电电极数目，S为采集到的样本点个数，设

代表持续时间为T₂s，样本点个数为L的基线信号，

表示第i秒的基线信号；基线信号每秒的平均值表示为：

其中

表示基线每秒的平均值；

设

表示持续时间为T₃s的试验信号，其中J为样本点个数，用1s时间窗口将试验信号X_T切分成若干个不重叠的切片

每秒已去除基线的信号表示为：

将已去除基线的切片信号X'_j组成矩阵

优选的，所述将进行基线校准的脑电信号进行分窗切片操作并按照以便输入到卷积神经网络之中，具体包括：

将进行基线校准后的脑电信号

分割成若干个不重复的样本S＝{S₁,S₂,…,S_n}；其中，S_i(i＝1,2,...,n)表示第i个样本，T样本表示每个窗口的采样点个数。

优选的，所述将空间注意力模块加入到卷积神经网络，通过加入空间注意力模块的卷积神经网络对进行基线校准和分窗切片操作的脑电信号进行提取脑电信号中的空间特征，具体包括：

将卷积神经网络输出的特征图F在通道维度平均值池化和最大值池化，使用平均值池化和最大值池化所得到的2D特征图如下式所示：

将两个2D特征图进行拼接，在拼接好的特征图上，使用卷积来产生最终的空间注意力特征图：

M_s(F)∈R^h,w

其中，M_s(F)代表卷积之后所得到的特征图，其输出的维度为1×h×w；

将所得到的输出使用Sigmoid函数进行激活：

其中，σ代表Sigmoid函数。

优选的，所述将长短期记忆网络与自注意力机制相结合，并对进行基线校准和分窗切片操作的脑电信号进行提取时序特征，具体包括：

自注意力计算公式如下所示：

其中，Q,K,V分别代表查询，键，值矩阵，d_k代表键的维数；

使用d表示注意力机制的输出维度，用

表示输入的参数矩阵，则特征表示：

其中，

C_i和A_i分别表示第i时间节点的输入特征向量与特征表示向量。

第二方面，提供了一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行所述的一种结合注意力机制与CRNN的脑电情感识别方法。

第三方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现所述的一种结合注意力机制与CRNN的脑电情感识别方法。

(三)有益效果

本发明一种结合注意力机制与CRNN的脑电情感识别方法，解决了现有技术没有考虑到脑电信号作为一种复杂的信号，包含大量的空间信息和时序信息，不能有效地提高分类的效果的问题。

附图说明

图1为本发明方法流程图；

图2为本发明结合注意力机制与CRNN脑电情感识别总体框架图；

图3为本发明实施例中空间注意力模块示意图；

图4为本发明实施例中自注意力机制计算过程图；

图5为本发明实施例中效价与唤醒二维坐标图；

图6为本发明方法与其他最新方法的跨被试实验结果对比图。

具体实施方式

下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本发明实施例提供一种结合注意力机制与CRNN的脑电情感识别方法，包括：

获取脑电信号；

请参阅图2，本发明方法实施例的总体框架分为两个部分。一个是预处理部分，预处理部分将脑电信号分别进行基线校准及分窗切片操作，消除脑电信号中的干扰信息并按照1s时间窗口切分脑电信号(EEG)以便输入到神经网络之中。第二个部分为结合空间注意力及自注意力的CRNN网络，该部分将空间注意力模块加入到CNN模块之后，提高CNN网络的空间特征获取能力。由于脑电信号是一种高时序相关性的信号，引入自注意力模块在RNN模块之后，来获得复杂的时序特征。并将二者结合输入到softmax分类器中进行情感分类。本文的创新点主要在于充分考虑到了脑电信号复杂的空间相关及时间相关的特点。

本实施例的预处理部分分为两个阶段，分别是基线校准及分窗切片。一般来说，通过音乐视频诱发材料刺激所得到的脑电信号包括基线信号和试验信号。Yang等人提出了基线校准可以可以提高脑电情感识别准确率，并在DEAP数据集上进行了实验。

作为本发明进一步的方案，所述将脑电信号分别进行基线校准，消除脑电信号中的干扰信息，具体包括：

设

代表持续时间为T₂s，样本点个数为L的基线信号，

表示第i秒的基线信号；基线信号每秒的平均值表示为：

其中

表示基线每秒的平均值；

设

每秒已去除基线的信号表示为：

将已去除基线的切片信号X'_j组成矩阵

作为本发明进一步的方案，所述将进行基线校准的脑电信号进行分窗切片操作并按照以便输入到卷积神经网络之中，具体包括：

将进行基线校准后的脑电信号

结合空间注意力及自注意力的CRNN网络部分由两个模块组成，一个是基于空间注意力机制的CNN模块，一个是基于自注意力机制的RNN模块。其中，CNN模块包含2D卷积，深度卷积，分离卷积和两个池化层。CNN模块的具体参数如表一所示，其中C代表输入的通道数，即EEG电极数量。

表1CNN模块具体参数Table1DetailedparametersofCNNmodule

RNN模块则由2个LSTM层串联组成，每个LSTM的隐藏层神经元个数均为64。

本文借鉴了MobileNet[24]的思想，引入了深度可分离卷积来提取特征。深度可分离卷积将一个完整的卷积运算拆解为深度卷积和逐点卷积两步。对于深度卷积，其卷积核的数量与输入的特征映射的数量相同，每一个卷积核都单独对应一个通道进行卷积，即生成与输入的特征映射相同数目的feature map。但该操作在输入层进行每个通道的独立卷积之后即结束，无法有效地利用同一空间内不同的feature map的信息。因此引入了逐点卷积，将这些不同的feature map进行组合，生成一个新的feature map。逐点卷积的运算与常规卷积的运算非常类似，不同的是卷积核的大小是1×1×M，M是前一层的特征映射数量。因此，逐点卷积的运算将之前深度卷积所生成的feature map进行加权组合，生成新的feature map。卷积核的数量和feature map的数量是相等的。深度可分离卷积大大减少了神经网络的计算量和模型大小，但其分类精度并不低于传统的CNN模型[25]。

在标准的卷积层中，假设对于feature map F，输入的脑电信号的格式为D_f×D_f×M，采用卷积核K的标准卷积为D_k×D_k×M×N，输出的feature map G的格式为D_g×D_g×N。标准卷积的计算如公式为：

深度可分离卷积的计算如公式为：

其中

为深度卷积的卷积核，大小为D_k×D_k×M。将

中的第m个卷积核应用于F中的第m个通道，可以得到滤波后的feature map

中的第m个通道。

通过把标准卷积替换为为深度卷积(表1中Depthwiseconv2D)和分离卷积(表1中Separableconv2D)，可以大幅度减少CNN模型的运算参数和复杂度。同时，利用深度可分离卷积的通道滤波特性，提取出脑电信号中电极的相关信息用于情感识别。

作为本发明进一步的方案，所述将空间注意力模块加入到卷积神经网络，通过加入空间注意力模块的卷积神经网络对进行基线校准和分窗切片操作的脑电信号进行提取脑电信号中的空间特征，具体包括：

空间注意力模块借鉴了卷积注意力模块(CBAM)的思想，其由两个部分组成，即卷积通道注意力模块和空间注意力模块。由于在CNN模块中使用了深度可分离卷积，对脑电信号中的通道维度(即电极数量C)进行了加权卷积学习。本文中仅使用了CBAM模块中的空间注意力模块，以弥补卷积神经网络对于提取脑电信号空间特征的不足，提高对无关特征信息的抑制。如图3所示，空间注意力机制的原理是通过对CNN所得到的特征图内部的关系来产生空间注意力的特征图。空间注意力会聚焦于特征图上的有效信息在“哪里”，通过空间注意力模块与CNN模块的结合能够使模型能够从EEG信号中得到更具有代表性的空间特征用于情感的识别。

M_s(F)∈R^h,w

将所得到的输出使用Sigmoid函数进行激活：

其中，σ代表Sigmoid函数。

作为本发明进一步的方案，所述将长短期记忆网络与自注意力机制相结合，并对进行基线校准和分窗切片操作的脑电信号进行提取时序特征，具体包括：

请参阅图4，自注意力机制借鉴了近几年在自然语言处理领域中广泛使用的Transformer模型中的自注意力模块。本文中引用的自注意力(self-attention)机制其目的是为了在使用LSTM提取复杂的时序特征时，重点关注在特定时间节点上EEG信号所表达的情绪信息。

在EEG信号不同的实验中，常将一段受试者一次实验中所采集到的信号划分为多个不同样本，而这些样本汇总情绪波动的时间节点是不同的，比如对于样本1，情绪波动在10-20秒期间，而对于样本2，情绪波动在30-45秒期间。每个样本对于最终的情感分类任务的贡献是不同的，而传统RNN网络难以关注到最重要的时间节点信息。因此该模块引入自注意力机制，将LSTM最后一个隐藏层的状态进行加权组合，将其与当前输入的隐藏状态进行对齐，使其更加适用于情感分类任务。

自注意力机制主要采用缩放点积注意力，其输入部分由Q(Queries)，K(Key)，V(Value)三个矩阵组成，输出则是基于Q和K的相似度与值得加权和。

自注意力计算公式如下所示：

其中，Q,K,V分别代表查询，键，值矩阵，d_k代表键的维数；

使用d表示注意力机制的输出维度，用

表示输入的参数矩阵，则特征表示：

其中，

请参阅图5，本文所提出的AB-CRNN模型在两个公开数据集

DEAP和DREAMER上均进行了实验，下面对两个公开数据集进行介绍：

DEAP：DEAP数据集是由伦敦玛丽皇后大学的研究团队所提出的包含多种生理信号的多模态情感数据集。数据集包括32名被试观看40段音乐视频时所记录的脑电以及其他生理信号。在本实验中，脑电信号的采样频率被降采样到128Hz，利用盲源分离技术去除了眼电(EOG)伪影。每次实验预处理后的EEG数据包括60秒的实验数据及3秒的基线数据。这些情感音乐视频包含40个一分钟的视频，参与实验者被要求记录下对每个视频在效价，唤醒度，喜好和支配度上使用1-9的数值进行评价。我们选择了效价和唤醒度作为情感二分类的标准，如图5所示。阈值设置为5，分为高/低效价以及高/低唤醒。

DREAMER：DREAMER数据集是由西格兰大学的研究团队所采集的多模态数据集，包含EEG和ECG信号。23名被试被邀请观看18段影片，参与者被要求记录每个刺激后的效价，唤醒度和支配度。采用emotivEPOC设备以128Hz的采样频率记录脑电信号。采用影片的长度为65-393秒不等。在本实验中，所有的EEG数据被剪辑到了61秒，包含60秒的实验数据和1秒的基线信号。此外，大多数的伪影(眼电，眼动，心跳干扰等)已被firs滤波器去掉。我们选择了效价，唤醒度和支配度作为评价标准，标签的范围为1-5，采用3为阈值，分为高/低效价，唤醒度和支配度。

AB-CRNN模型实验及预处理都是Tensorflow2.3框架下基于python3.8实现的。实验环境为Inter(R)Core(TM)i5-10400CPU@2.90Hz，16GB内存，NVIDAGeforceGTX10606G显卡，64位Windows10系统。

所有数据库上的实验均为跨被试实验，即实验的训练集和测试集来自不同的被试。下面的4.3和4.4节分别介绍了在AB-CRNN模型在DEAP和DREAMER数据集上的实验结果以及分析。脑电通道数C，对于DEAP和DREAMER数据集分别设置为32和14；对于样本点个数T，根据两个数据集的采样频率设置为128。采用了Adam优化器对训练过程进行优化，学习率设置为0.001，batch_size设置为64，epoch设置为200。

原始数据的格式为32×40×32×8064，第一个32代表32个被试，40代表40次试验，第二个32代表EEG所用到的32个电极，每段视频持续时间T₁＝63s，采样频率H＝128Hz，基线信号T₂＝3s。将前3秒基线信号取平均得到

然后把后60秒的试验信号T₃减去基线信号的每秒平均值

得到基线校准后的切片信号X_j'作为实验的数据。用1s时间窗口进行分窗切片，每次实验得到60个片段，32个被试总共得到32×60×40＝76800个样本，每个样本的格式为32×128。将76800个样本随机地分成10份，每次选择其中1份作为测试集，其他9份作为训练集，并随机选取测试集的20％作为验证集，构建10折交叉验证实验。取10次实验的平均准确率作为最终的实验结果。

为了验证模型的有效性，本文将所提出的方法与不同的模型进行了比较，其中包括支持向量机(SVM)，卷积神经网络(CNN)，卷积循环神经网络(CRNN)，CNN-SA-RNN，CRNN-SA这几个模型。SVM采用线性核，CNN模型的设置与AB-CRNN中CNN模块的设置保持一致，CRNN为CNN模块加上RNN模块，去掉所有的注意力模块。CNN-SA-RNN为AB-CRNN模型去掉自注意力模块，保留空间注意力模块。CRNN-SA为AB-CRNN模型去掉空间注意力模块，保留自注意力模块。表2展示了各种模型与本文所提出方法的脑电情感识别准确率。

表2DEAP数据集上情感分类准确率Table2AccuracyofemotionclassificationonDEAPdataset

从表2中可以看出，在使用传统机器学习方法SVM时，其准确率只有55.86％和64.69％。当引入带有深度可分离卷积的CNN模块后，Valance和Arousal维度的准确率分别达到了82.24％和84.68％。而当加入了RNN模块之后，准确率又分别提升了1.3％和0.4％，这说明新加入的LSTM层能够很好地提取出CNN模块所提取不到的时序特征以用于情感识别。当在CRNN中加入空间注意力模块时，准确率达到了87.22％和87.84％，相较于没有加入注意力机制的CRNN模型准确率分别提升了3.12％和2.9％，这说明加入的空间注意力模块是有意义的。而当单独加入自注意力模块时，准确率较CRNN模型提升了2.12％和2.61％，说明自注意力机制的加入对于情感识别准确率的提升也是有帮助的。当CRNN结合了空间注意力以及自注意力之后，也就是最终的AB-CRNN模型取得了最高的分类准确率，在两个评价维度上分别达到了89.05％和89.53％。相比于没有加入任何注意力机制的CRNN模型分别提升了4.95％和4.59％，这说明本文中所提出的空间注意力和自注意力相结合的方法能够有效地提升情感识别的性能。

此外，本文还与其他几种最新的情感识别方法进行了比较，实验结果如图6所示。Pandey等提出了一种变分模式分解(VMD)来提取EEG特征，并使用深度神经网络(DNN)作为分类网络的情感识别方法；Rozgic等采用分段决策融合进行鲁棒的情感分类方法；Chai等提出了一种预激活残差网络融合频率及电极通道卷积注意的方法，取得了良好的分类效果；Yin等人则提出了一种自适应图卷积注意模型ECLGCNN，在Valance和Arousal维度取得了84.81％和85.27％的分类准确率。从图中可以看出，本文所提出的将CRNN网络与空间注意力和自注意力相结合的方法，相较于Yin等人的方法，准确率分别提升了4.24％和4.26％，在几种方法中取得了最高的分类准确率。这说明本文所提出的方法能够有效地增强CNN和RNN挖掘空间和时间特征的能力，从而提高分类效能。

原始数据的格式为23×18×14×7808，23代表23个被试，18代表18次试验，14代表14个EEG电极，每段视频持续时间T₁＝61s，采样频率H＝128Hz，基线信号T₂＝1s。基线信号

将后60秒的试验信号T₃减去基线信号

得到基线校准后的切片信号X_j'作为实验的数据。用1s时间窗口进行分窗切片，每次实验得到60个片段，23个被试总共得到23×60×18＝24840个样本，每个样本的格式为14×128。将24840个样本随机地分成10份，每次选择其中1份作为测试集，其他9份作为训练集，并随机选取测试集的20％作为验证集，构建10折交叉验证实验。取10次实验的平均准确率作为最终的实验结果。

DREMER数据集的实验对比设置与4.3节中与DEAP数据集的实验设置一致，实验结果如下表所示：

表3DREAMER数据集上情感分类准确率Table3AccuracyofemotionclassificationonDREAMERdataset

从表3中可以看出，在使用传统机器学习方法SVM时，其准确率为82.96％，86.67％和88.23％。当引入带有深度可分离卷积的CNN模块后，Valance，Arousal和Dominance维度的准确率分别达到了84.88％，88.74％和90.32％。而当加入了RNN模块之后，准确率又分别提升了7.55％，4.13％和2.49％。当在CRNN中加入空间注意力模块时，准确率达到了92.66％，93.06和93.02％。当单独加入自注意力模块时，准确率达到了93.11％，93.33和93.82％。融合了两种注意力模块的AB-CRNN模型取得了93.45％，93.95％和94.03％的最高准确率。相比于没有加入任何注意力机制的CRNN模型分别提升了1.02％，1.08％和1.22％，这说明本文中所提出的方法在不同的数据集上的实验效果仍然是有提升的，证明了模型的鲁棒性，且每个模块对于最终的分类结果都是有意义的。

本文提出了一种结合注意力机制与CRNN的脑电情感识别网络AB-CRNN。该方法将空间注意力机制与基于深度可分离卷积的卷积神经网络相结合，将LSTM与自注意力机制相结合。分别在空间和时间维度上进行建模，深度挖掘脑电信号中的空间和时间特征，以得到更有显著分别性的特征信息用于脑电情感识别。通过在DEAP和DREAMER这两个公开数据集上进行了大量的跨被试实验，其结果表明，本文所提出的方法取得了良好的分类效果，并相较于最新的一些情感分类方法有一定的性能提升。

在未来的工作中，我们会着眼于解决EEG信号中噪声复杂，样本量少且单一的问题。来制定一些能够解决这些问题的方案，比如借鉴图像图形领域较为流行的降噪网络和生成对抗网络来处理EEG信号，并通过实验来验证方案的有效性。

本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。