CN116965817B

CN116965817B - 一种基于一维卷积网络和Transformer的EEG情感识别方法

Info

Publication number: CN116965817B
Application number: CN202310940669.8A
Authority: CN
Inventors: 涂继辉; 李强; 程卓玲; 蔡卫菊; 钟杰波; 贺金涛
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2024-03-15
Anticipated expiration: 2043-07-28
Also published as: CN116965817A

Abstract

本发明公开了一种基于一维卷积网络和Transformer的情感识别的方法。包括以下步骤：S1、准备数据集：在脑电信号公共DEAP数据集上训练网络模型；S2、特征提取：将样本数据放入一维卷积网络中进行特征提取；S3、Transformer编码：将处理后的数据输入到Transformer编码器中进行编码；S4、SoftMax情感分类：将编码后的数据输入到MLP分类器中，使用SoftMax进行分类，训练模型检测能力，保存训练权重；S5、模型测试：用训练好的模型来检测测试者的EEG信号，分类测试者当前的情感状态。本发明采用基于一维卷积网络和Transformer的方法对EEG（原始脑电波）信号进行情感识别。

Description

一种基于一维卷积网络和Transformer的EEG情感识别方法

技术领域

本发明涉及EEG(脑电波信号)处理及一维时间信号识别领域，特别涉及一种基于一维卷积网络(1D-CNN)和Transformer的EEG情感识别的方法。

背景技术

情感在人的日常生活中扮演着重要的角色，不仅体现在人际交往中，在决策过程中，也在人们对周围世界的感知中。情绪是人类的本质，它在人类的理性决策、感知、互动和智力中起着至关重要的作用。随着人工智能技术的进步，情感识别已经成为神经科学、计算机科学、认知科学和医学科学领域研究中不可或缺的一部分。情感识别是理解和提取人类当前的心理状态和思维模式的过程，近年来，人们对基于脑信号的情绪识别做了大量研究。因为人类的任何类型的思想，想象力，梦想和计划都对大脑信号的形成有意义和指示性的影响。此外，受试者无法控制自动生成的EEG信号。并且，对于不能通过手势或姿势说话或表达他们的情绪的口齿不清或身体残疾的人来说，从语音、手势和姿势的情感识别变得不可能。因此，EEG(脑电信号)是一种提取人类情绪的合适手段，并且已经在许多研究中致力于理解人类情绪。

情感计算通过将技术和情感融合到人机交互中来填补这一空白。生理信号有助于更好地理解参与者表达的潜在情感反应，这些与来自中央和自主神经系统的多通道记录相对应。目前，许多研究人员采用基于深度学习或基于浅层机器学习的方法，但由于情绪识别这样的任务发生在几秒的时间内，而不是几毫秒的时间内，因此在短暂的时间段之内发生的脉冲之间可能存在联系。但卷积神经网络(CNN)和长短期记忆(LSTM)等架构可能无法考虑这种长期依赖性，现如今使用最多的识别方法是将信号转换为频谱图等放入网络中进行分类，但是EEG信号是随机的且原始信号中包含更多的情感特征信息，所以人们开始研究原始信号作为一维时间序列直接输入到神经网络中，但随之带来的是计算时间的增加，所以需要找到计算复杂度低且精确进行情感分析的方法。

在中国专利文献CN113919387A中记载了一种基于GBDT-LR模型的脑电信号情感识别方法，但该专利中利用的小波变换方法会导致数据信息的损失，效率不够高，而且没有考虑时间序列内部的相关性。

发明内容

本发明旨在解决目前算法中存在的实时性和精度问题，提出了一种基于一维卷积网络(1D-CNN)和Transformer的EEG(脑电信号)情感识别方法包括以下步骤：

S1、准备数据集：在脑电信号公共DEAP数据集上训练网络模型；

S2、特征提取：将样本数据放入一维卷积网络中进行特征提取；

S3、Transformer编码：将处理后的数据输入到Transformer编码器中进行编码；

S4、SoftMax情感分类：将编码后的数据输入到MLP分类器(多层感知器)中，使用SoftMax进行分类，训练模型检测能力，保存训练权重；

S5、模型测试：用训练好的模型来检测测试者的EEG信号，分类测试者当前的情感状态。

优选的方案中，步骤S1中还包括以下步骤：采集32个通道的60s数据，进行128Hz下采样，得到的样本数据data大小为1280×32×7680，标签划分为8类，标签labels大小为1280×1。

优选的方案中，步骤S2中，一维卷积网络的卷积窗口只在水平方向进行滑动，通过水平移动卷积核，可以捕捉到不同位置的局部特征。

优选的方案中，步骤S2中的一维卷积网络操作如下公式所示：

Con(X,W_j)＝X*W_j

X为输入序列，大小为C×D，C为数据采集的通道数，D是每个通道上的数据大小；Y为输出特征序列，大小为C×M×N；M为每个采样通道上的数据进行特征提取后的数据大小；N为一维卷积后的输出通道数；W为滤波器，大小为C×L，每一层中包含N个滤波器；L为滤波器长度；B为偏置项，大小为N×1；Con将输入数据X与N个滤波器W分别进行卷积，并加入偏置项B，求和输出最终的卷积结果。

优选的方案中，步骤S3还包括以下步骤：对经过步骤S2得到的特征序列进行位置编码及自注意力机制。

优选的方案中，步骤S4中的分类模型包含4层，两层全连接层、激活函数和SoftMax层，根据人的情感分别设定积极、焦虑、平静、沮丧、安静、疲倦、沉睡和厌恶8种类别。

优选的方案中，步骤S5具体包括如下步骤：

S51、采集测试者的32个通道的60sEEG信号进行下采样到128Hz，则每次实验采集的信号数据表示为E，大小为32×7680；

S52、将样本数据E经过步骤S2的一维卷积、下采样进行特征提取，得到特征提取后的数据F，大小为32×480；

S53、读取训练权重，将F输入到Transformer中进行前向传播计算，会通过网络的输入层，并在每一层中经过权重的加权和激活函数的处理，直到达到输出层，每个神经元的输入是前一层神经元的输出乘以相应的权重，并经过激活函数的处理，最终得到编码后的数据G，大小为32×481；

S54、再将G输入到MLP中，通过SoftMax进行分类，得出G分别属于8种类别的概率，8种概率分别表示为积极、焦虑、平静、沮丧、安静、疲倦、沉睡和厌恶，其中概率值最大的类别即为模型判断的数据G的情感类别，原始数据E的情感类别S的可用类别概率为S＝{S1,S2,S3,S4,S5,S6,S7,S8},最终得到的类别j如下公式所示：

其中，argmax表示选择使得条件概率最大的类别标签，即选择最高概率的类别作为预测结果，则原始信号E的类别即为S_i对应的类别名。

优选的方案中，位置编码具体流程如下：首先将32个通道的数据进行三角位置编码，在三角式位置编码中，位置t对应的位置向量在偶数位和奇数位的值分别为：

i表示位置编码中的维度索引，d表示位置编码的维度，在输入序列的开头还添加了一个全零的“CLS”标记，然后根据序列的长度获取位置编码，最后将位置编码添加到输入序列中，得到位置编码后的输出，输出大小为32×481，其中32个通道的序列长度为481。

优选的方案中，自注意力机制具体流程如下：将位置编码后得到的数据输入到Transformer模型中，Transformer包含交替层的多头自注意力块，在每个块之前具有层归一化，并且在每个块之后具有残差连接，多头自注意力块的计算过程如下公式所示，Z表示网络层数：

x₁'＝MSA(LN(x_1-l))+x_l-1,l＝1,2,...Z

其中MSA表示交替层的多头自注意力块，LN表示层归一化，在多头自注意力块中，通过并行处理多个独立的自注意力头，每个自注意力头都包含自注意力机制的计算过程如公式下所示：

其中，Q，K和V三个矩阵来自同一个输入，由时间序列向量和训练得到的权重矩阵相乘得到，d_k是时间序列向量的维度，之后通过SoftMax操作将分数进行归一化处理再与矩阵V相乘得到自注意力矩阵，多头自注意力机制是通过h个不同的线性变换对Query，Key和Value进行映射，然后将不同的Attention拼接起来，最后做一次线性变换得到最终的自注意力矩阵，再将自注意力矩阵输入前馈神经网络；在多头自注意力时，设置有8个头，则qkv的维度为4×481，最后将8个组qkv的输出连接起来，输出维度是32×481，然后再经过一层LN，维度仍然是32×481。

优选的方案中，步骤S4中还包括以下步骤：

S41、展平：将得到数据展平为一个大小为1×15392的向量；

S42、全连接层：输入到MLP的全连接层中，设置全连接层的大小为256，此时数据大小变为1×256；

S43、激活函数：应用Relu激活函数，对全连接层的输出进行非线性变换，数据大小仍然为1×256；

S44、全连接层：添加一个具有8个输出单元的全连接层，输出数据大小为1×8；

S45、SoftMax层：将全连接层的输出应用SoftMax函数，将输出转换为表示8个情感类别概率的向量，输出数据大小仍然为1×8，表示一个样本对应的8个类别的概率分布；

S46、最大概率对应的类别即为分类的情绪状态。

本发明的有益效果为：本发明中利用端到端的处理方式，直接从原始EEG信号数据输入，得出分类的结果，不需要做数据转换，因此没有数据信息损失；一维卷积网络是通过滑动卷积核在局部区域内提取特征，使得能够较好的捕捉时间序列中的局部依赖关系以及非线性特征，而Transformer编码器能够在高层次上理解序列整体信息，并处理长距离依赖关系，得到全局特征，将一维卷积网络和Transformer编码器结合，利用局部信息与全局信息，特征提取自适应，提取的信息更全面，并且考虑了时间序列内部的关联性，精度高；一维卷积网络可以并行处理时间序列数据，卷积运算在整个序列上同时进行，因此在EEG这种长时间序列中的训练效率更高，实时性好。

附图说明

图1是本发明总体流程图；

图2是卷积水平滑动示意图。

具体实施方式

如图1所示，提出了一种基于一维卷积网络和Transformer的情感识别的方法。首先直接采集原始信号进行下采样组成数据集，将训练数据集输入到网络中，通过网络模型中的5层一维卷积、下采样进行特征提取，将卷积后的数据输入到Transformer编码器中加入位置编码，通过MLP分类模型实现对EEG信号的情感识别分类。将测试EEG信号输入到训练好的模型中，通过训练好的模型参数对原始信号进行检测分类。

以下结合附图和实施例详细说明本发明技术方案，结构模型包括以下步骤：

步骤1：准备数据集。在EEG(脑电信号)公共DEAP数据集上训练网络模型，此数据集总共32个参与者，每个参与者有40次实验，总共1280个样本，每次实验在32个通道上采集60s的数据，采样频率为512Hz。进行128Hz下采样，得到的样本数据data大小为1280×32×7680，标签划分为8类，labels大小为1280×1。

步骤2：特征提取。由于原始EEG信号数据为一维时间序列，数据只在水平方向上相对时间相关联，而在垂直方向上没有关联，所以利用一维卷积进行特征提取。如图2所示，卷积窗口只在水平方向进行滑动。通过水平移动卷积核，可以捕捉到不同位置的局部特征，提取更多输入序列中的有用信息。

一维卷积层的基本操作如公式(1)所示。

Con(X,W_j)＝X*W_j(2)

设X为输入序列，大小为C×D，C为数据采集的通道数，D是每个通道上的数据大小。Y为输出特征序列，大小为C×M×N，M为每个采样通道上的数据进行特征提取后的数据大小，N为一维卷积后的输出通道数。W为滤波器(卷积核)，大小为C×L，每一层中包含N个滤波器，L为滤波器长度。B为偏置项，大小为N×1。卷积公式(2)中Con将输入数据X与N个滤波器W分别进行卷积，并加入偏置项B，求和输出(1)最终的卷积结果。

输入层的数据X大小为32×7680(32个通道×采样点数据)，经过五层一维卷积核操作后，输出Y为32×480。如表1所示是每一层参数及输入输出数据大小：

表1五层卷积对应参数表

第一、二层滤波器大小为32×9，有8个滤波器，开始输入的数据大小为32×7680，将其原始数据分别与8个滤波器的一维卷积核(每个通道所使用的权重矩阵)进行逐元素乘法并求和，再经过批量归一化和Relu激活，得到第一层卷积后的输出特征序列大小为32×7680×8，再经过下采样，变为32×1920×8。再将其输入到第二层卷积，第二层的结构与第一层卷积操作相同，卷积后经过批量归一化和Relu激活后，再经过下采样，变为32×480×8。

第三、四层滤波器大小为32×6，有16个滤波器，将经过前两层操作的得到的特征序列输入到第三层中，将其分别于16个滤波器的一维卷积核(每个通道所使用的权重矩阵)进行逐元素乘法并求和后，再经过批量归一化和Relu激活，得到第三层卷积后的输出特征序列大小为32×480×16，再经过下采样，变为32×120×16，再将它输入到第四层卷积，第四层卷积操作与第三层相同，卷积后经过批量归一化和Relu激活后，再经过下采样，得到数据大小为32×30×16。

第五层滤波器大小为32×3，有16个滤波器，将前四层卷积后得到的数据输入到第五层卷积中，将其分别于16个滤波器的一维卷积核(每个通道所使用的权重矩阵)进行逐元素乘法并求和后，再经过批量归一化和Relu激活，得到第五层卷积后的输出特征序列，大小为32×30×16，无需下采样。

步骤3：Transformer编码。经过步骤2得到的特征序列大小为32×480，总共有32个通道，每个通道的数据长度为480，对其进行位置编码及自注意力机制。

(1)位置编码。首先将32个通道的数据进行三角位置编码，因为三角函数具有连续性和平滑性能提供更丰富的上下文理解能力。在三角式位置编码中，位置t对应的位置向量在偶数位和奇数位的值分别为：

i表示位置编码中的维度索引，d表示位置编码的维度。在输入序列的开头还添加了一个全零的“CLS”标记，然后根据序列的长度获取位置编码。最后，将位置编码添加到输入序列中，得到位置编码后的输出，输出大小为32×481，其中32个通道的序列长度为481。

(2)自注意力机制。将位置编码后得到的数据输入到Transformer模型中，Transformer包含交替层的多头自注意力(MSA)块，在每个块之前具有层归一化(LN)，并且在每个块之后具有残差连接。多头自注意力块的计算过程如公式(5)所示，Z表示网络层数。

x₁'＝MSA(LN(x_1-l))+x_l-1,l＝1,2,...Z(5)

由于通过卷积提取了EEG的局部特征，所以再通过自注意力机制提取全局特征时计算量就简化了很多，这也使得模型更加轻量化，训练得到的模型参数量更小，在多头自注意力块中，通过并行处理多个独立的自注意力头，每个自注意力头都包含自注意力机制的计算过程，自注意力机制的计算过程如公式(6)。

其中，Q，K和V三个矩阵来自同一个输入，由时间序列向量和训练得到的权重矩阵相乘得到，d_k是时间序列向量的维度，之后通过SoftMax操作将分数进行归一化处理再与矩阵V相乘得到自注意力矩阵。多头自注意力机制是通过h个不同的线性变换对Query，Key和Value进行映射，然后将不同的Attention拼接起来，最后做一次线性变换得到最终的自注意力矩阵，再将自注意力矩阵输入前馈神经网络。在多头自注意力时，设置有8个头，则qkv的维度为4×481，最后将8个组qkv的输出连接起来，输出维度是32×481，然后再经过一层LN，维度仍然是32×481。

步骤4：SoftMax情感分类。整个分类模型包含4层，两层全连接层、激活函数和SoftMax层。将步骤3得到的数据(32×481)输入到MLP(多层感知器)中，使用SoftMax进行8分类，根据人的情感将8种类别分别设定为积极、焦虑、平静、沮丧、安静、疲倦、沉睡、厌恶。具体操作为：

(1)展平：将得到数据展平为一个大小为1×15392的向量。

(2)全连接层：输入到MLP的全连接层中，设置全连接层的大小为256，此时数据大小变为1×256。

(3)激活函数：应用Relu激活函数，对全连接层的输出进行非线性变换，数据大小仍然为1×256。

(4)全连接层：添加一个具有8个输出单元的全连接层。输出数据大小为1×8。

(5)SoftMax层：将全连接层的输出应用SoftMax函数，将输出转换为表示8个情感类别概率的向量，输出数据大小仍然为1×8，表示一个样本对应的8个类别的概率分布。

(6)最大概率对应的类别即为分类的情绪状态。

步骤5：使用步骤4训练好的网络来检测EEG信号的情绪状态。具体流程如下：

(1)采集测试者的32个通道的60sEEG信号进行下采样到128Hz，则每次实验采集的信号数据表示为E，大小为32×7680。

(2)将样本数据E经过步骤2的五层一维卷积、下采样进行特征提取。得到特征提取后的数据F，大小为32×480。

(3)读取训练权重，将F输入到Transformer中进行前向传播计算。会通过网络的输入层，并在每一层中经过权重的加权和激活函数的处理，直到达到输出层。每个神经元的输入是前一层神经元的输出乘以相应的权重，并经过激活函数的处理。最终得到编码后的数据G，大小为32×481。

(4)再将G输入到MLP中，通过SoftMax进行分类，得出G分别属于8种类别的概率，8种概率分别表示为积极、焦虑、平静、沮丧、安静、疲倦、沉睡、厌恶，其中概率值最大的类别即为模型判断的数据G的情感类别。所以原始数据E的情感类别S的可用类别概率为S＝{S₁,S₂,S₃,S₄,S₅,S₆,S₇,S₈},最终得到的类别j如公式(7)所示：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于一维卷积网络和Transformer的EEG情感识别方法，其特征是包括以下步骤：

S4、SoftMax情感分类：将编码后的数据输入到MLP分类器中，使用SoftMax进行分类，训练模型检测能力，保存训练权重；

S5、模型测试：用训练好的模型来检测测试者的EEG信号，分类测试者当前的情感状态；

其中，步骤S2中的一维卷积网络操作如下公式所示：

Con(X,W_j)＝X*W_j

X为输入序列，大小为C×D，C为数据采集的通道数，D是每个通道上的数据大小；Y为输出特征序列，大小为C×M×N；M为每个采样通道上的数据进行特征提取后的数据大小；N为一维卷积后的输出通道数；W为滤波器，大小为C×L，每一层中包含N个滤波器；L为滤波器长度；B为偏置项，大小为N×1；Con将输入数据X与N个滤波器W分别进行卷积，并加入偏置项B，求和输出最终的卷积结果；

步骤S4中的分类模型包含4层，两层全连接层、激活函数和SoftMax层，根据人的情感分别设定积极、焦虑、平静、沮丧、安静、疲倦、沉睡和厌恶8种类别；

步骤S4中还包括以下步骤：

S41、展平：将得到数据展平为一个大小为1×15392的向量；

S46、最大概率对应的类别即为分类的情绪状态；

步骤S5具体包括如下步骤：

S54、再将G输入到MLP中，通过SoftMax进行分类，得出G分别属于8种类别的概率，8种概率分别表示为积极、焦虑、平静、沮丧、安静、疲倦、沉睡和厌恶，其中概率值最大的类别即为模型判断的数据G的情感类别，原始数据E的情感类别S的可用类别概率为S＝{S1,S2,S3,S4,S5,S6,S7,S8}，最终得到的类别j如下公式所示：

2.根据权利要求1所述基于一维卷积网络和Transformer的EEG情感识别方法，其特征是：步骤S1中还包括以下步骤：采集32个通道的60s数据，进行128Hz下采样，得到的样本数据data大小为1280×32×7680，标签划分为8类，labels大小为1280×1。

3.根据权利要求1所述基于一维卷积网络和Transformer的EEG情感识别方法，其特征是：步骤S2中，一维卷积网络的卷积窗口只在水平方向进行滑动，通过水平移动卷积核，可以捕捉到不同位置的局部特征。

4.根据权利要求1所述基于一维卷积网络和Transformer的EEG情感识别方法，其特征是：步骤S3还包括以下步骤：对经过步骤S2得到的特征序列进行位置编码及自注意力机制。

5.根据权利要求4所述基于一维卷积网络和Transformer的EEG情感识别方法，其特征是：所述位置编码具体流程如下：首先将32个通道的数据进行三角位置编码，在三角式位置编码中，位置t对应的位置向量在偶数位和奇数位的值分别为：

6.根据权利要求4所述基于一维卷积网络和Transformer的EEG情感识别方法，其特征是：所述自注意力机制具体流程如下：将位置编码后得到的数据输入到Transformer模型中，Transformer包含交替层的多头自注意力块，在每个块之前具有层归一化，并且在每个块之后具有残差连接，多头自注意力块的计算过程如下公式所示，Z表示网络层数：

x₁'＝MSA(LN(x_1-l))+x_l-1,l＝1,2,...Z