CN112001305B

CN112001305B - 基于梯度提升决策树的特征优化ssvep异步识别方法

Info

Publication number: CN112001305B
Application number: CN202010852569.6A
Authority: CN
Inventors: 徐光华; 吴永程; 吴一帆; 韩泽祯; 马凯权
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-08-05
Anticipated expiration: 2040-08-21
Also published as: CN112001305A

Abstract

基于梯度提升决策树的特征优化SSVEP异步识别方法，先通过设计离线实验采集被试者的异步脑电原始数据，用滑移窗的形式截取脑电信号，形成原始时域数据集；然后对原始时域数据集用典型相关分析进行降维滤波处理，取特定频段的CCA系数作为训练数据集；然后训练GBDT模型，更新GBDT模型参数，同时根据特征重要度指标对初始特征进行优化，得到最终训练模型；最后用最终训练模型对新的脑电信号进行分类，判断是NC状态和IC状态；本发明利用梯度提升决策树对被试者的训练数据进行模型训练，并根据决策树方法的特征重要度进行特征优化选取，提高方法识别准确率，降低方法计算成本并且解决了被试者个性化差异问题。

Description

基于梯度提升决策树的特征优化SSVEP异步识别方法

技术领域

本发明涉及生物医学工程中神经工程及脑-机接口技术领域，具体涉及一种基于梯度提升决策树的特征优化SSVEP异步识别方法。

背景技术

脑-机接口(Brain Computer Interface)技术是一种不依赖于正常的肌肉-神经通路的通讯技术，它提供了一条大脑与外部设备直接交互和通讯的途径，这些外部设备包括计算机、康复机器人、假肢、语音合成器等。稳态视觉诱发电位(SSVEP)是大脑枕区在接受视觉刺激后产生的周期性信号，与其他脑电接口形式如P300和运动想象相比，具有周期稳定、特征明显且不需要训练的特点，具有很好的实际运用价值。

脑机接口的控制模式有同步模式和异步模式之分。同步的脑控方法主要特征是使用者在预定的时间内，根据系统同步提示进行特定的意念控制任务，换言之计算机处理的每一段脑电信号都是控制意图状态(Intentional Control，IC)的信号，而不涉及到对空闲状态(No Control,NC)信号的处理。与同步模式不同，异步模式的运作过程中没有同步提示刺激，使用者具有自主思维的控制能力，脑控方法需要对IC状态和NC状态进行有效的区分。

现实生活中应用都具有异步控制模式的需求，然而目前大部分的脑控应用都采用同步控制模式，对异步控制的研究很少。现有的SSVEP异步识别方法存在以下缺点：识别时间长，识别准确率低，方法计算成本高，没有考虑到被试者的个性化差异问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的特征优化SSVEP异步识别方法，利用梯度提升决策树对被试者的训练数据进行模型训练，并基于决策树方法的特征重要度进行特征优化选取，识别时间短，提高识别准确率，降低方法计算成本且解决被试者个体化差异问题。

为了达到上述目的，本发明采取的技术方案是：

基于梯度提升决策树(GBDT)的特征优化SSVEP异步识别方法，包括以下步骤：

1)采集被试者的异步脑电信号EEG：设计离线实验，采集被试者异步脑电数据，异步脑电数据为IC状态的时域EEG信号和NC状态的时域EEG信号；采用滑移窗的形式，按照设定窗长和窗长滑移量进行EEG信号的截取，形成原始时域EEG数据集D：D＝{D₁,D₂,D₃,…,D_T}，其中T为数据集的数量；

2)原始时域EEG数据预处理：采用典型相关分析CCA对原始时域EEG数据集进行降维滤波处理，生成EEG频域信息CCA系数谱；选取5Hz-15Hz，频率分辨率为0.1Hz的CCA系数作为初始特征以及每段IC状态和NC状态数据的标签L，得到GBDT的训练数据集S：S₁＝{ρ₁,ρ₂,…,ρ₁₀₁,L₁},S₂＝{ρ₁,ρ₂,…,ρ₁₀₁,L₂},…,S_T＝{ρ₁,ρ₂,…,ρ₁₀₁,L_T}，其中ρ为CCA系数，T为数据集的数量；

3)模型训练：根据GBDT的训练数据集S＝{S₁,S₂,…,S_T}，训练梯度提升决策树GBDT模型，更新决策树GBDT模型的参数，最终获取最优参数；

4)特征优化：根据决策树GBDT的特征重要度指标对初始特征进行优化，得到最终的GBDT训练模型；

5)信号分类：使用GBDT训练模型对新的脑电信号进行分类，输出的分类结果为标签L；如果分类结果为IC状态，再通过比较步骤2中的CCA系数大小，取最大CCA系数对应的刺激范式频率，确定子控制意图状态IC1、IC2、IC3、...。

所述的步骤3)中梯度提升决策树的方法是一种以CART回归树为基函数，用梯度下降法近似损失函数残差的Boosting算法，其原理如下：

梯度提升决策树的模型F(x；w)本质上是个加法模型：

其中x为输入样本，w是分类回归树的参数，T为生成的CART回归树数量，α为每个树的权重，h为分类回归树；每一轮树的学习目的都是为了拟合上一轮学习结果的残差；

算法的目标是最小化损失函数L来求解最优模型F*：

其中y是目标值，损失函数L是平方损失函数、指数损失函数、绝对损失函数或Huber损失函数；采用平方损失函数，残差r_im的公式为：

其实质为泰勒公式展开的一阶导项。

本发明的有益效果为：

(1)本发明具有高的识别准确率和低的识别时间。

(2)本发明基于被试的训练数据训练模型，有效解决了个体差异性的问题。

(3)本发明采用特征优化的方案，有效地降低了计算成本，提高了方法的运算效率。

附图说明

图1是本发明方法流程图。

图2是本发明实施例的离线实验设计界面。

图3是本发明实施例的脑电信号采集电极安放位置图。

图4是本发明实施例离线实验流程以及脑电信号截取示意图。

图5是本发明初始特征选取示意图。

图6是本发明训练模型部分的流程图。

具体实施方式

以下结合附图对本发明进一步的详细说明。

如图1所示，基于梯度提升决策树的特征优化SSVEP异步识别方法，包括以下内容：

1)采集被试者的异步脑电信号(EEG)：设计离线实验，界面如图2所示4个刺激单元呈现在屏幕上，以左右上下的顺序依次为8Hz、8.6Hz、9.2Hz以及10Hz的运动频率，分别对应子控制意图状态IC1、IC2、IC3和IC4；屏幕中有5个标签进行标记：Left、Right、Up、Down分别对应4个刺激范式，中间的IDLE标签对应灰色背景区域；采集过程中，被试者按照绿色标签的提示依次注视左右上下的刺激目标，每个刺激目标持续注视7s，在每两个目标注视的过程中存在一个7s的空闲，即NC状态，被试者要求在该过程中注视中间的绿色标签，表示处于空闲NC状态；如图3所示，按照国际标准导联10-20系统，通过脑电帽将脑电信号测量电极安放到使用者头部视觉枕区PO₃、PO_z、PO₄、O₁、O_z和O₂位置，在前额的Fpz位置安放地电极，在任一耳垂位置A₁或A₂安放参考电极，采集离线实验中的脑电信号；如图4所示，采用滑移窗的形式，按照设定窗长2s和窗长滑移量0.5s进行EEG信号的截取，形成原始时域EEG数据集D，D＝{D₁,D₂,D₃,…,D_T}，其中T为数据集的数量；

2)原始时域EEG数据预处理：采用典型相关分析(CCA)对原始时域EEG数据集进行降维滤波处理，生成EEG频域信息CCA系数谱；如图5所示，选取5Hz-15Hz间隔0.1Hz的CCA系数作为初始特征以及每段数据的标签L(IC状态和NC状态)，得到GBDT的训练数据集S₁＝{ρ₁,ρ₂,…,ρ₁₀₁,L₁},S₂＝{ρ₁,ρ₂,…,ρ₁₀₁,L₂},…,S_T＝{ρ₁,ρ₂,…,ρ₁₀₁,L_T}，其中ρ为CCA系数，T为数据集的数量；

3)模型训练：如图6所示，把GBDT的训练数据集S＝{S₁,S₂,…,S_T}分为训练数据和测试数据；首先初始化参数，然后在训练数据的基础上用5折交叉验证的方式训练模型，接着用测试数据评估模型泛化能力，最终获取最优参数；

计算每个特征的重要度P_i公式如下：

其中S_i表示该特征在所有决策树中被当成内部节点(InternalNode)的次数，分母表示所有内部节点的总和，其含义为一个特征被当成内部节点次数所占比越大表明其重要度越高；

其特征优化的步骤为：

4.1)计算每一个特征的重要度P，并对m个特征按照重要度从大到小排序；

4.2)遍历排序后每一个重要度值P_i，并将其设定阈值，对重要度大于P_i值的特征进行组合；按照新的特征组合重新训练并计算其正确率；

4.3)权衡特征数和正确率，选择最优特征组合，

5)信号分类：使用GBDT训练模型对新的脑电信号进行分类，输出的分类结果为标签L，分为IC状态和NC状态；如果分类结果为IC(控制意图)状态，再通过比较步骤2中的CCA系数大小，取最大CCA系数对应的刺激范式频率，确定子控制意图状态IC1、IC2、IC3、IC4等。

梯度提升决策树的模型F(x；w)本质上是个加法模型：

算法的目标是最小化损失函数L来求解最优模型F*：

其中y是目标值，损失函数L可以是平方损失函数、指数损失函数、绝对损失函数或Huber损失函数；这里用的是平方损失函数，残差r_im的公式为：

其实质为泰勒公式展开的一阶导项。

Claims

1.基于梯度提升决策树的特征优化SSVEP异步识别方法，其特征在于，包括以下步骤：

1)采集被试者的异步脑电信号EEG：设计离线实验，采集被试者异步脑电数据，异步脑电数据为IC状态的时域EEG信号和NC状态的时域EEG信号；采用滑移窗的形式，按照设定窗长和窗长滑移量进行EEG信号的截取，形成原始时域EEG数据集D：D＝{D₁，D₂，D₃，...，D_T}，其中T为数据集的数量；

2)原始时域EEG数据预处理：采用典型相关分析CCA对原始时域EEG数据集进行降维滤波处理，生成EEG频域信息CCA系数谱；选取5Hz-15Hz，频率分辨率为0.1Hz的CCA系数作为初始特征以及每段IC状态和NC状态数据的标签L，得到GBDT的训练数据集：S₁＝{ρ₁，ρ₂，...，ρ₁₀₁，L₁}，S₂＝{ρ₁，ρ₂，...，ρ₁₀₁，L₂}，...，S_T＝{ρ₁，ρ₂，...，ρ₁₀₁，L_T}，其中ρ为CCA系数；

3)模型训练：根据GBDT的训练数据集S＝{S₁，S₂，...，S_T}，训练梯度提升决策树GBDT模型，更新决策树GBDT模型的参数，最终获取最优参数；

计算每个特征的重要度p_i公式如下：

其中s_i表示该特征在所有决策树中被当成内部节点的次数，分母表示所有内部节点的总和，其含义为一个特征被当成内部节点次数所占比越大表明其重要度越高；

其特征优化的步骤为：

4.3)权衡特征数和正确率，选择最优特征组合；

2.根据权利要求1所述的基于梯度提升决策树的特征优化SSVEP异步识别方法，其特征在于：所述的步骤3)中梯度提升决策树的方法是一种以CART回归树为基函数，用梯度下降法近似损失函数残差的Boosting算法，其原理如下：

梯度提升决策树的模型F(x；w)本质上是个加法模型：

算法的目标是最小化损失函数L来求解最优模型F*：

其实质为泰勒公式展开的一阶导项。