CN113516101B

CN113516101B - 一种基于网络结构搜索的脑电信号情绪识别方法

Info

Publication number: CN113516101B
Application number: CN202110881417.3A
Authority: CN
Inventors: 李畅; 张中振; 宋仁成; 成娟; 刘羽; 陈勋
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2024-02-20
Anticipated expiration: 2041-08-02
Also published as: CN113516101A

Abstract

本发明公开了一种基于网络结构搜索的脑电信号情绪识别方法，其步骤包括：1，对于原始EEG数据进行去基线和片段分割的预处理；2，通过自动化网络结构搜索建立卷积神经网络模型；3，在数据集上训练建立的卷积神经网络模型；4，利用建立好的模型实现情绪分类任务。本发明能实现自适应搜索情绪分类的最优网络结构模型，从而提高识别率。

Description

一种基于网络结构搜索的脑电信号情绪识别方法

技术领域

本发明涉及情感计算领域，具体的说是一种通过算法自动搜索最优网络用于脑电情绪识别的方法。

背景技术

情绪是是人类意识和行为的综合表现，既反映主观感受，又反映客观生理反应。目前，情感计算在人工智能，尤其是人机交互领域显示出巨大的潜力。机器能否完全理解人类的情感，将直接影响交互体验。此外，情感识别也应用于医疗保健领域，已经成为一种创新的机器辅助诊断情感障碍的方法。关于情绪识别的研究方法有很多，常用的有非生理信号和生理信号来判断人的情感，其中脑电信号(EEG)作为生理信号的一种，常常与人们的认知行为和心理活动具有很强的相关性，并且具有良好的时间分辨率，更能够直接地反映情绪的变化，并且不易受到主观的控制。EEG情绪识别算法主要分为两类：传统算法和基于深度学习的算法。

基于EEG信号的情绪识别的传统算法中，通常是先从EEG信号中提取特征，再将提取到的特征运用到分类器中进行识别任务。常用的脑电特征有时域特征、频域特征和时频特征等。除此之外、功率谱特征、小波特征和微分熵等特征作为情绪相关特征进行情绪分类时，也可以取得比较好的结果。

由于传统方法手动提取特征的复杂性以及深度学习的快速发展，研究人员逐渐将深度学习这种新的高效算法应用到脑电解码中，并展示了其相对于传统方法的优势。深度学习是一种端到端的技术，它包含特征提取和分类框架，无需复杂的预处理过程就可以从脑电信号中捕获有区别的高级特征和潜在的依赖关系。特别是卷积神经网络最近在各个方面都展示出优越的识别和分类能力，引起了业内人士的高度关注。

尽管CNN在基于脑电图的情感识别方面显示出突出的优势，但这一进展的关键方面是新的网络结构的出现。事实证明，特征表示和最终性能在很大程度上取决于网络的体系结构。研究人员设计了各种复杂的架构，以实现更好的数据特征表示和分类识别效果。然而，现有的体系结构大多是由人类专家设计的，需要大量的先验知识和经验，这是一个耗时且容易出错的过程。同时，由于固有知识的局限性，专家很难跳出原有的思维范式去设计理想的模型，导致人工设计的网络架构不够新颖，缺乏创新性，在设计的过程中会消耗大量的人力物力资源，耗时问题和效率问题得不到有效的解决，同时手工设计的模型的泛化性不强，造成人为设计的模型无法应用到更广泛的领域。

发明内容

本发明为克服现有技术的不足之处，提出一种基于网络结构搜索的脑电信号情绪识别方法，以期能自适应搜索情绪分类的最优网络结构模型用于情绪识别分类，从而克服人工设计网络结构的缺陷，并提高情绪识别率。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于网络结构搜索的脑电信号情绪识别方法的特点是按如下步骤进行：

步骤1、获取任一受试者A的带有M种情绪标签的脑电信号数据并进行去基线和样本分割处理，从而得到受试者A的第m种情绪标签的N个脑电信号样本，记为其中，/>表示第m种情绪标签的第i个脑电信号样本，且第m种情绪标签的类别属于{1,2,…,r,…,F}，r表示标签的类别，F表示标签的类别数，Q表示脑电信号的通道数，P表示采样点数，m＝1,2,...,M；i＝1,2,...,N；N是样本数量；

步骤2、定义网络结构搜索的搜索空间，所述搜索空间包含若干个reduction模块和若干个convolution模块；每个模块由identity操作层、卷积操作层、最大池化操作层以及平均池化操作层中的一个或多个组合而成；其中，reduction模块的卷积层步长大于convolution模块的卷积层步长；

步骤3、按照所定义的操作层个数，LSTM控制器通过Softmax函数选取概率最大的操作层或连接操作，从而生成采样序列C＝{C₁,C₂,...,C_i,...,C_C}，当i为奇数时，C_i表示操作层，当i为偶数时，C_i表示连接操作，所述采样序列共包含D种操作层和E种连接操作；

根据所述采样序列C中的连接操作将采样序列C中的各个操作层连接起来，从而得到一个reduction模块和/或一个convolution模块；

步骤4、若只得到一个reduction模块或一个convolution模块；则按照步骤3的过程，从而得到另一个reduction模块或一个convolution模块；使得经过步骤3和步骤4的操作后，仅得到一个reduction模块和一个convolution模块；

步骤5、将reduction模块和convolution模块按照所设定的规则堆叠生成子模型；

步骤6、利用式(1)构建第m种情绪标签的损失函数L_m：

式(1)中，表示第m种情绪标签的第i个脑电信号样本/>的第r类标签的标签值，P_r,i,m表示子模型预测第m种情绪标签的第i个脑电信号样本/>的第r类标签的概率值；

步骤7、将从带有情绪标签的脑电信号训练样本中选择小批次的训练样本输入所述子模型中，计算所述损失函数L_m，并采用反向传播法对子模型的参数进行训练，得到训练后的子模型并验证其精度；

步骤8、利用式(2)构建LSTM控制器的损失函数L_θ：

式(2)中，表示采样序列C中第2i-1个值C_2i-1所对应的第d种操作层的标签值，P_d,(2i-1)表示控制器预测的采样序列C中第2i-1个值C_2i-1所对应的第d种操作层的概率值，/>表示采样序列C中第2i个值C_2i所对应的第e种连接操作的标签值，P_e，2i表示控制器预测的采样序列C中第2i个值C_2i所对应的第e种连接操作的概率值，d＝1,2,...,D，e＝1,2,...,E；

步骤9、将子模型的精度作为奖励reward，计算所述损失函数L_θ，并采用反向传播法更新所述控制器的参数，从而得到更新后的LSTM控制器；

步骤10、利用更新后的LSTM控制器按照步骤3-步骤9的过程进行处理，并选取精度最好的子模型作为最优子模型；

步骤11、利用所有M种情绪标签的N个脑电信号样本对所述最优子模型进行训练，计算每种情绪标签的损失函数，并采用反向传播法对所述最优子模型的参数进行更新，得到训练后的最优子模型用于脑电信号情绪的识别。

与已有技术相比，本发明的有益效果体现在：

1、本发明首次通过设计一种自动化网络结构搜索用于情绪的分类识别，相比于常规的手动设计网络结构，根据脑电数据的特性，通过自适应算法来设计最优的网络结构，无需大量的计算资源和人为的干涉，并能在大量的子模型中找到最优的模型，使得最终的模型具有较好的分类表现性能。

2、本发明通过网络结构搜索得到最优的网络模型用于情绪识别，该方法是一种端到端的数据驱动方法，不需要手工设计复杂的情绪相关特征，同时可以从原始脑电信号中提取时间特征，实现了准确的情感分类任务。

附图说明

图1为本发明方法流程示意图；

图2为本发明所定义的模块的概念图；

图3为本发LSTM控制器的结构图；

图4为DEAP数据库中效价维度上32名受试者的平均识别精度及标准差图；

图5为DEAP数据库中唤醒度维度上32名受试者的平均识别精度及标准差图。

具体实施方式

本实施例中，一种基于网络结构搜索的脑电信号情绪识别方法主要是利用LSTM控制器在定义好的搜索空间里找到最优的子模型，然后将最优子模型重新训练，训练充分的最优子模型能够充分表征脑电数据中的时域特征，最终实现基于EEG信号的情绪分类。如图1所示，是按如下步骤进行：

步骤1、获取任一受试者A的带有M种情绪标签的脑电信号数据并进行去基线和样本分割处理，从而得到受试者A的第m种情绪标签的N个脑电信号样本，记为其中，/>表示第m种情绪标签的第i个脑电信号样本，且第m种情绪标签的类别属于{1,2,…,r,…,F}，r表示标签的类别，F表示标签的类别数，Q表示脑电信号的通道数，P表示采样点数，m＝1,2,...,M；i＝1,2,...,N；N是样本数量；本实施例中，使用的是公开数据库DEAP中脑电数据做训练和测试，数据集包含了32名受试者，分别观看了40段一分钟的视频后采集的脑电信号，每位受试者一次trial采集的脑电信号X_m∈R^32×8064,其中前3s的数据是基线数据，标签是由受试者一次trial后的评分，包含了两种情绪类型Arousal和Valence，每类情绪标签分为两类；

具体实施中，对每个受试者的40段脑电信号进行预处理，包括：

假定一次trial的原始EEG信号为X_m∈R^Q×P，Q是脑电信号的通道数，P是采样点数，其中基线信号是X_b∈R^Q×L,b＝1,2,...,s.在DEAP数据集中，每位受试者的基线时长s＝3。

去基线：计算1s的平均基线数据如下：

式(1)中，表示第b个脑电信号样本对应的1s的平均基线数据，X_b表示第b个脑电信号样本。

为了减小静息状态脑电的干扰，使用平均基线数据对脑电信号做去基线预处理如下：

式(2)中，X_j′表示第j个脑电信号样本去除基线信号后的数据，X_j表示第j个脑电信号样本。

样本分割：为了扩大样本数量，将一位受试者60s的脑电信号用1s的滑动窗分割，相应的样本标签也随之增加，最终每位受试者的脑电样本。在测试集上进行十次实验后的平均识别率作为最终识别精度。

步骤2、定义网络结构搜索的搜索空间，搜索空间包含若干个reduction模块和若干个convolution模块；每个模块由identity操作层、卷积操作层、最大池化操作层以及平均池化操作层中的一个或多个组合而成，具体来说，一个模块内由7个节点组成，每个节点内包含了两个运算操作层(节点1，2除外)，不同位置的运算操作层有着特定的连接关系，这些运算操作和联系关系由LSTM控制器决定，控制器是具有100个隐藏层的LSTM，如图3所示，采用自回归的方式进行工作，前一步的输出作为下一步的输入，LSTM控制器的主要任务是决定模块中节点的连接关系和操作层，其中每一个节点包含了两个卷积操作层和不同的连接关系。本专利中每个模块包含七个节点，如图2所示，其中节点1、2分别连接了前两层的输出作为输入，因此控制器不对这两个节点作操作，后面3-7节点，每个节点包含了两种卷积操作层，然后将两种操作层的结果求和作为输出，由于不同的节点的本地计算都有自己的参数，这些参数仅在特定计算被激活时才会使用，因此使得所有的模型在搜索过程中可以共享参数，值得注意的是先前节点的输出可能作为后续的输入进行传递。最后将没有作为别的节点的输入的节点看作是最终节点，将所有的最终节点的结果经过1×1卷积后，并在通道维度相加，作为模块的输入，具体的细节步骤如下：

步骤2.1、节点1和节点2作为起始的输入节点，分别连接了先前的第i-1个模块的输出和第i个模块的输出作为输入，控制器不对这两个节点进行控制操作，令节点1，2的输出分别为h₁，h₂；

步骤2.2、控制器对节点3进行控制操作，让节点3采取了5×5卷积、5×5平均池化操作，并分别连接节点2作为他们的输入，这里h₃＝5×5_conv(h₂)+5×5ave_pool(h₂)；

步骤2.3、控制器对节点4进行控制操作，让节点4采取了5×5卷积、3×3卷积操作，并分别连接节点1作为他们的输入，这里h₄＝5×5_conv(h₁)+3×3_conv(h₁)；

步骤2.4、控制器对节点5进行控制操作，让节点5采取了3×3卷积、5×5最大池化操作，并分别连接节点3，4作为他们的输入，这里h₅＝3×3_conv(h₃)+5×5max_pool(h₄)；

步骤2.5、控制器对节点6进行控制操作，让节点6采取了5×5卷积、5×5卷积操作，并分别连接节点1，4作为他们的输入，这里h₆＝5×5_conv(h₁)+5×5_conv(h₄)；

步骤2.6、控制器对节点7进行控制操作，让节点7采取了5×5卷积、5×5卷积操作，并分别连接节点1，2作为他们的输入，这里h₇＝5×5_conv(h₁)+5×5_conv(h₂)；

步骤2.7、将没有作为别的节点的输入的节点作为最后的输出节点，因此节点5，6，7为输出节点，将这三个节点的输出经过一个1×1卷积操作，并在通道维度上相加，来控制通道数并减少对应的参数，得到这个模块的最终输出h＝1×1_conv(h₅+h₆+h₇)；

上述节点的操作和连接均由LSTM控制器采样得到，其中采样序列C＝{C₁,C₂,...,C_i,...,C₂₀}表示对应的操作与连接方式，这里共有10个卷积操作层和对应的10种不同的连接方式分别用C_i来表示，当i为奇数时，C_i表示操作层，其值从1～5依次表示identity层、3×3卷积操作层、5×5卷积操作层、3×3最大池化操作层和5×5平均池化操作层，当i为偶数时，C_i表示连接，其值从1～6依次表示连接对应不同的节点1～6，这样就定义好了模块的概念；其中，reduction模块的卷积层步长大于convolution模块的卷积层步长，在本专利中，reduction模块的卷积步长为2，采用padding填充，convolution模块的卷积步长为1，也采用padding填充；

步骤3、按照所定义的操作层个数，LSTM控制器通过Softmax函数选取概率最大的操作层或连接操作，从而生成采样序列C＝{C₁,C₂,...,C_i,...,C_C}，当i为奇数时，C_i表示操作层其值从1～5依次表示identity层、3×3卷积操作层、5×5卷积操作层、3×3最大池化操作层和5×5平均池化操作层，当i为偶数时，C_i表示连接操作，其值从1～6依次表示连接对应不同的节点1～6，采样序列共包含D种操作层和E种连接操作，在本实施例中，共有5种操作层和6种不同的连接；

根据采样序列C中的连接操作将采样序列C中的各个操作层连接起来，并将所有的最终节点的结果经过1×1卷积后，并在通道维度相加，作为模块的最终输出，从而得到一个reduction模块和/或一个convolution模块；

步骤4、若只得到一个reduction模块或一个convolution模块；则按照步骤3的过程，从而得到另一个reduction模块或一个convolution模块；使得经过步骤3和步骤4的操作后，仅得到一个reduction模块和一个convolution模块，这两个模块就构成了组成子模型的基本单元；

步骤5、将reduction模块和convolution模块按照所设定的规则堆叠生成子模型，本实施例中，根据情绪数据的特性设置1个convolution模块1个reduction模块的连接顺序将模块串联起来，并在最后加上全局平均池化层、全连接层和Softmax分类器，得到最终的10层的子网络；

步骤6、利用式(1)构建第m种情绪标签的损失函数L_m：

式(3)中，表示第m种情绪标签的第i个脑电信号样本/>的第r类标签的标签值，P_r,i,m表示子模型预测第m种情绪标签的第i个脑电信号样本/>的第r类标签的概率值，Softmax函数可以将样本的输出转变成概率密度函数，概率最大的结点对应的标签作为情绪识别的目标；

步骤7、将从带有情绪标签的脑电信号训练样本中选择小批次的训练样本输入子模型中，子模型由控制器在搜索空间得到相应的模块堆叠而成，在训练子模型的参数ω时，固定控制器参数θ，利用带有Momentum的动量下降算法去最小化子模型参数ω的期望损失函数，其表示如下：

式(4)中，K表示控制器通过策略π(K；θ)生成的子模型，表示子模型的损失函数，采用标准交叉熵损失，在小批次的训练样本上进行计算，其梯度的计算采用标准反向传播，其表示如下：

对于上述期望损失函数，采用蒙特卡洛近似的方法得到其近似表示，其方程如下：

式(6)，K_i表示控制器通过策略π(K；θ)生成的子模型，凭借情绪数据的特性，设定M＝1，因此，模型的参数ω通过计算每个模型的损失，在整个搜索过程中一直得到更新，再经过蒙特卡洛近似后的损失函数可表示为式(3)的L_m：

计算损失函数L_m，并采用反向传播法对子模型的参数进行训练，得到训练后的子模型并验证其精度，子模型的验证精度用reward表示；

步骤8、利用式(2)构建LSTM控制器的损失函数L_θ：

式(7)中，表示采样序列C中第2i-1个值C_2i-1所对应的第d种操作层的标签值，P_d,(2i-1)表示控制器预测的采样序列C中第2i-1个值C_2i-1所对应的第d种操作层的概率值，/>表示采样序列C中第2i个值C_2i所对应的第e种连接操作的标签值，P_e，2i表示控制器预测的采样序列C中第2i个值C_2i所对应的第e种连接操作的概率值，d＝1,2,…,D，e＝1,2,...,E；

步骤9、在训练控制器的参数θ时，先固定子模型的参数ω，然后利用子模型在验证集上的准确率作为指标，最大化期望回报，其表示如下：

式(8)中,K表示控制器通过策略π(K；θ)采样生成的子模型，R(K；ω)表示子模型验证准确率reward，将子模型的精度作为奖励reward，计算损失函数L_θ，并采用反向传播法更新控制器的参数，从而得到更新后的LSTM控制器，这种方法的目的是使选择的模型具有更好的泛化能力。使用Adam优化器，同时强化学习的策略梯度法用于计算梯度；

步骤10、利用更新后的LSTM控制器按照步骤3-步骤9的过程进行处理，并选取精度最好的子模型作为最优子模型，得到最优子模型之后，将不再重复上述工作，将最优子模型重新训练至收敛；

步骤11、利用所有M种情绪标签的N个脑电信号样本对最优子模型进行训练，计算每种情绪标签的损失函数L_m，并采用反向传播法对最优子模型的参数进行更新，将搜索到的最优子模型重新训练，构建交叉熵损失函数，并采用基于Momentum的动量梯度下降方法作为优化器来进行求解，得到训练后的最优子模型用于脑电信号情绪的识别，最优子模型再通过Softmax将样本的输出转化为相应的概率，概率最大的输出对应的标签即为得到的分类结果。

具体实施中，基于网络结构搜索得到的最优模型与支持向量机(SVM)、决策树(DT)，以及深度学习模型(DGCNN)进行对比，将测试集的平均识别精度作为评价指标，当识别精度越高，模型的识别能力越好。32名受试者十次平均识别精度如下表：

表1.DEAP数据库上不同方法对两种情绪的平均识别结果

	效价(％)	唤醒度(％)
			DT	71.63±4.71	73.70±5.09
SVM	88.65±6.18	89.07±5.89
			DGCNN	92.55±3.93	93.50±3.35
Ours	96.05±2.07	96.34±1.55

32名受试者的十折交叉验证结果如图4和图5所示。结果分析：

表1实验结果表明，与传统方法SVM和DT相比，基于网络结构搜索得到的最优模型在两种情绪维度(效价和唤醒度)的识别精度都有提升。与深度学习模型DGCNN相比，本方法也提升了识别结果，验证了基于网络结构搜索得到的最优模型可以充分利用EEG信号的时域相关信息，对情绪的分类识别有着显著的效果。同时在所有对比方法中，基于网络结构搜索的方法具有最小的方差，证明了该方法具有较为稳定的识别能力。此外，从图5可以发现，该模型在对32名受试者的识别效果均为最优，说明该方法对不同受试者均有很好的识别能力和很强的泛化效果。

综上所述，本发明充分利用EEG原始信号所含有的时域信息，使用网络结构搜索充分提取脑电信号相关特征，并以此建立最优的网络模型，提升了在公开数据集DEAP中两种情绪的识别精度。

本发明提出基于网络结构搜索得到的最优模型，在公共数据集DEAP上达到很好的识别结果，且在所有受试者上的识别结果更加稳定。

Claims

1.一种基于网络结构搜索的脑电信号情绪识别方法，是特征是按如下步骤进行：

步骤6、利用式(1)构建第m种情绪标签的损失函数L_m：

步骤8、利用式(2)构建LSTM控制器的损失函数L_θ：

式(2)中，表示采样序列C中第2i-1个值C_2i-1所对应的第d种操作层的标签值，P_d,(2i-1)表示控制器预测的采样序列C中第2i-1个值C_2i-1所对应的第d种操作层的概率值，表示采样序列C中第2i个值C_2i所对应的第e种连接操作的标签值，P_e，2i表示控制器预测的采样序列C中第2i个值C_2i所对应的第e种连接操作的概率值，d＝1,2,...,D，e＝1,2,...,E；