CN110414548A

CN110414548A - 基于脑电信号进行情感分析的层级Bagging方法

Info

Publication number: CN110414548A
Application number: CN201910492885.4A
Authority: CN
Inventors: 杨利英; 张清杨; 袁细国; 习佳宁
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-11-05

Abstract

本发明属于脑电信号处理技术领域，公开了一种基于脑电信号进行情感分析的层级Bagging方法，脑电样本数据预处理、特征提取和特征选择、训练集有放回抽样、不同基分类算法用于多个数据子集的训练、多分类器投票获得分类结果。与传统Bagging算法中单个训练子集对应单个分类算法不同的是，层级Bagging将多个训练子集对应单个分类算法，减小了单个性能良好的分类算法由于不适应个别数据导致被删去的风险。本发明可以有效提高脑电信号分类的准确率，解决单个分类算法稳定性不强的问题，也可推广至其他相似类型的数据处理。本发明对情绪监测、风险预测、有监督学习的分类都有重要意义。

Description

基于脑电信号进行情感分析的层级Bagging方法

技术领域

本发明属于脑电信号处理技术领域，尤其涉及一种基于脑电信号进行情感分析的层级Bagging方法。

背景技术

在当今数字化、计算化的时代，脑电信号的分析研究在处理人类的高级思维活动领域具有重要作用。情绪分类在之前的研究中，主要通过被试者表情，声音，肢体动作等指标来衡量，但由于这些指标受个人习惯及表现方式的影响较大，且具有可伪装和可掩饰性，相较之下，利用脑电波这种生理信号进行情绪分类的方法获得了得天独厚的真实性和准确性的优势。

目前，利用脑电信号进行情感分析最常用的现有技术是将进行过格式处理后的脑电数据应用于现有的有监督学习的分类器，如支持向量机，神经网络算法等。通过部分数据体系的训练，预测出整体数据表现出的结果。有监督学习的分类问题主要是通过学习已被标注标签的数据集样本，产生特征到标签的映射，依此确定未标签化数据集的标签。

而在实际问题中，由于脑电数据纬度高、表现角度多样和其高度复杂的数据结构，使它不像传统简单数据类型那样容易分类，传统单个的分类算法由于学习角度单一，若直接应用单个算法处理脑电数据，容易造成学习不充分导致的准确率低下问题。鉴于此，如果利用集成学习思想进行脑电信号分类，势必会提升性能。

集成学习则是通过一定整合方式组合单独的分量分类器的多学习器系统，利用集成学习器，可以有效减小有监督学习中单个分类器造成的泛化误差，达到减小整体方差、提高准确率和实验稳定性的作用，其理论源自于PAC基础，思想可以由以下公式体现：

其中P_wrong是集成之后分类器的错误率，P是单个学习器的分类错误率，n是集成分类器的数目，组合方式采用投票法，当n足够大时，集成学习器的错误率极低。每个集成分类器中，分类器种属数目越多，分类准确度越高。

集成学习还依靠分类器之间的多样性，只有在不同角度有不同表现优异的地方才能让集成分类器做到精准的“面面俱到”。总的来说，集成学习成功的要点在于“优而异”。

当前的集成学习大致可以分为Bagging，Boosting和Stacking三类，其中，Bagging针对复杂模型求解和强基分类器有更良好的表现效果。Bagging算法可以减少数据之间的方差导致的泛化误差(一般由于过拟合导致)。在训练数据的过程中，由于每个分类器不同，各自有其关注的重点，随机抽取训练集和集成多分类器的方法是Bagging算法的特点。步骤如下：

1.从原始数据集中抽出部分样本，将其作为一个子集，有放回的多次抽取形成多个子集。每个子集中的样本存在重叠现象，如果抽取的次数少，原始数据集中也许也有没有被抽取到的数据。

2.用抽取出的不同子集作为数据集应用不同分类算法训练不同的学习器，这里综合算法的方式根据具体问题决定回归还是分类选择平均还是投票。

3.将每个训练出来的学习器进行投票，票选出最终的结果。将Bagging算法的原理绘制成图。

在传统Bagging算法中，通过有放回抽样取原始数据集的部分数据组成数据子集，不同数据子集应用于不同分类算法，最后用原始测试集在训练出的多个模型上做测试，最终分类结果为多个模型测试出的投票结果。

Bagging算法具有优秀的平衡误差的特点，但是每个分类器只进行一次训练，而这次训练选取的样本集仅为初始训练集的小部分数据，这样的模型结构导致在分类器种类少的情况下，易出现因偶然误差或取样误差导致的训练结果不理想的现象。即：由于部分数据并不适应一个表现良好的算法，导致该算法在集成最后的投票筛选中被淘汰。

综上所述，现有技术存在的问题是：由于脑电信号数据结构复杂，利用集成学习的Bagging方法可减小学习不充分不适应带来的准确率低下问题，但是Bagging算法在基分类器数目较少时，由于低抽样比例，容易造成投票步骤中，原本性能好的分类算法不适应个别数据导致的分类算法被淘汰的情况。由于这个原因，在Bagging算法用于脑电信号分类中，算法的准确率始终无法超过表现最好的基分类器，从而使目前的集成学习应用于脑电分类算法的研究只提升了稳定性，而无法兼顾准确率。

解决上述技术问题的难度在于，单个分类算法没有丰富的学习角度，无法适应高维且复杂的脑电数据，而多个分类算法采用单次有放回投票的操作无法保证每个表现好分类算法遇在随机抽样过程中遇到适应该算法的数据。

解决上述技术问题的意义在于，如果可以提出一种改良的算法，结合多个分类器的学习角度，并保证每个表现好分类算法遇在随机抽样过程中即使遇到不适应该算法的数据也不会被淘汰，就可以实现分类算法的多角度学习和稳定性，从而提升脑电信号分类的准确率和稳定性。

发明内容

针对现有技术存在的问题，本发明提供了一种基于脑电信号进行情感分析的层级Bagging方法。

本发明是这样实现的，一种基于脑电信号进行情感分析的层级Bagging方法，所述基于脑电信号进行情感分析的层级Bagging方法包括以下步骤：

第一步，样本数据预处理，手动剔除脑电样本数据中眼电信号和肌电信号的噪声；

第二步，样本集划分，将每人每次实验数据作为一个样本集，样本集划分为不相交的训练集和测试集，利用训练集训练出学习器模型，利用测试集做衡量标准选择效果更优的学习器；

第三步，特征提取和特征选择，提取样本的差分熵特征，根据样本情况选择出高表现力低冗余性的特征。

进一步，所述基于脑电信号进行情感分析的层级Bagging方法的层级Bagging分类包括：

(1)抽样：将样本进行有放回抽样，形成n×k个数据子集，n为分类算法个数，k为分类算法内部数据子集个数；

(2)训练及预测：每k个数据子集用于一个分类算法，每个算法训练出k个分类器，共训练出n×k个分类器，用测试集预测；

(3)投票：将同一样本的n×k个测试结果投票，选出票数最多的作为标签作为该测试集样本的结果；

在每个样本集上进行(1)-(3)操作，最后算法准确率结果为所有样本集测试集的准确率均值。

进一步，所述基于脑电信号进行情感分析的层级Bagging方法在对样本进行划分时，选取单人单次实验的所有数据为一个样本集，样本以1s时间作为划分标准，最后算法的准确率是所有样本集的结果平均值。

进一步，所述基于脑电信号进行情感分析的层级Bagging方法在进行特征提取的时候采用差分熵特征公式为：

推导化得出：

其中X为时间序列，遵从N(μσ²)的高斯分布，μ为均值，σ²为方差，计算公式如下：

计算出的差分熵特征格式为：通道*时长*频带。

本发明的另一目的在于提供一种基于所述的基于脑电信号进行情感分析的层级Bagging方法的基于脑电信号进行情感分析的层级Bagging系统，所述基于脑电信号进行情感分析的层级Bagging系统包括：

抽样模块，用于对样本训练集进行有放回抽样，抽样的比率原样本训练集所有数据的<50％，抽样采用有放回随机模式，每次抽出的数据作为一个数据子集。不同数据子集之间可能有交集，所有数据子集的并集也有可能不完全覆盖整个样本训练集；

训练及预测模块，用于训练分类器并测试分类器效果，每次采用一个训练子集训练，用测试集在训练好的分类器上预测结果，每k个训练子集都用同一种分类算法，共n个算法，即每个时间样本都有n×k个分类结果；

投票模块，用于将不同训练子集训练出的分类模型进行误差平均，对结果进行投票，选出票数最多的作为该时间样本的最终结果。

本发明的另一目的在于提供一种应用所述基于脑电信号进行情感分析的层级Bagging方法的脑电信号处理系统。

综上所述，本发明的优点及积极效果为：本发明在基于脑电信号进行情感分析的过程中，减小了为保证分类质量和效率进行大规模选择分类算法的工作量，提升了算法的稳定性和健壮性，同时提高了结果的准确率。基于脑电信号进行情感分析的层级Bagging方法，利用Bagging的思想，加以机器学习相关知识和统计学操作，对特征提取过的脑电信号进行分类；采用了Bagging与多层训练相结合的思想，在保留随机性以减少基分类器方差的前提下提高了训练的充分性。本发明技术效果的证明详见后面实施例中的实验结果。

本发明采用集成学习Bagging算法并结合单分类器多次随机训练的层次结构，提高训练模型的健壮性，减小因分类器自身弱势导致的结果方差和噪声导致的结果偏差。集成学习思想应用于脑电信号分类领域，使复杂的脑电信号无需进行逐步的内部结构分析就可以找到最适合它的高准确率算法，同时，多种算法相结合的方式也减少了因为盲目选择实验算法而导致的准确率低下的可能。

本发明在抽取训练集时采用有放回抽样，延续了Bagging算法中随机性的操作，根据前文中数学定理的证明，使大约37％的噪声数据在训练时不被选中，即加大了有效数据在训练种的比例，提高了模型训练的准确率和针对性。

本发明改进了Bagging算法，将多种分类器和单种分类器的多次训练结果做投票操作：先将多个训练子集对应同一种训练算法，再将多次多种杂糅的训练结果一起投票产生最终预测结果。这样的好处在于，由于抽样只抽取了小部分样本，当基分类算法的种类很少时，有可能出现由于个别数据不适应某一本身性能优良的基分类算法使该算法被舍弃的情况。多个子集对应一种算法的模型可以有效解决上述问题，从而增加算法的健壮性，提高算法的准确率。

与现有技术相比，本发明具有以下优势：

1.有监督分类问题需要根据数据原始的维度、格式、噪声情况等选择适应数据的分类方案，然而在实际问题中，面临脑电信号这类的复杂数据结构，它具有维度高，处理复杂的特点，如果具体分析这些信号选择分类算法，这将是一个大工程。本发明提出将集成算法与脑电信号分类相结合，从集成学习角度出发解决此问题，使选择分类算法变得高效、快速。

2.集成学习可以训练出单独的分量分类器，然后通过一定整合方式集成多个分类器，本发明延续了集成学习的思想，在多个模型的基础上，获得一个更好的组合模型。但是减小了因为数据原因错筛性能原本良好分类器的可能，增加了实验的准确率。

3.本发明由多类分类器和同类的多个分类器组成。传统集成算法的性能提升依靠增加基分类器的种类，提升准确率的难度大，耗时长，集成算法修改繁琐。实验证明，本算法可以通过改变同种算法的基分类器个数提高性能：随着分类器个数的增加，实验准确率也有一定程度的提升。因此，层级Bagging算法具有比传统算法更大的提升空间和更低的提升成本。

附图说明

图1是本发明实施例提供的基于脑电信号进行情感分析的层级Bagging方法流程图。

图2是本发明实施例提供的基于脑电信号进行情感分析的层级Bagging方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明克服了现有Bagging算法的不足，本发明提出一种层级Bagging方法，采用了Bagging算法与多层训练相结合的思想，在保留随机性以减少基分类器器的方差的前提下提高了训练的充分性，在少量基分类器约束下也能够得到高的识别率。

下面结合附图对本发明的技术方案作详细的描述。

如图1所示，本发明实施例提供的基于脑电信号进行情感分析的层级Bagging方法包括以下步骤：

S101：样本数据预处理：手动剔除脑电样本数据中如眼电信号和肌电信号的噪声；

S102：样本集划分：将每人每次实验数据作为一个样本集，样本集划分为不相交的训练集和测试集，利用训练集训练出学习器模型，利用测试集做衡量标准选择效果更优的学习器；

S103：特征提取和特征选择：提取样本的差分熵特征，根据样本情况选择出高表现力低冗余性的特征。

S104：层级Bagging分类：

(1)抽样：将样本进行有放回抽样，形成n×k个数据子集(n为分类算法个数，k为分类算法内部数据子集个数)。

(2)训练及预测：每k个数据子集用于一个分类算法，每个算法训练出k个分类器，共训练出n×k个分类器，用测试集预测。

(3)投票：将同一样本的n×k个测试结果投票，选出票数最多的作为标签作为该测试集样本的结果。

在每个样本集上进行上述操作，最后算法准确率结果为所有样本集测试集的准确率均值。

在本发明的优选实施例中，为尊重脑电信号的时变特性和个人差异大的特性，在对样本进行划分时，选取单人单次实验的所有数据为一个样本集，样本以1s时间作为划分标准，最后算法的准确率是所有样本集的结果平均值。

在本发明的优选实施例中，在进行特征提取的时候采用差分熵特征，其公式为：

推导化简得出：

计算出的差分熵特征格式为：通道*时长*频带。

在本发明的优选实施例中，基于脑电信号进行情感分析的层级Bagging方法，包括：

(1)抽样模块：用于对样本训练集进行有放回抽样，抽样的比率原样本训练集所有数据的<50％，抽样采用有放回随机模式，每次抽出的数据作为一个数据子集。不同数据子集之间可能有交集，所有数据子集的并集也有可能不完全覆盖整个样本训练集。

(2)训练及预测模块：用于训练分类器并测试分类器效果，每次采用一个训练子集训练，用测试集在训练好的分类器上预测结果，每k个训练子集都用同一种分类算法，共n个算法，即每个时间样本都有n×k个分类结果。

(3)投票模块：用于将不同训练子集训练出的分类模型进行误差平均，对结果进行投票，选出票数最多的作为该时间样本的最终结果。

下面结合具体实施例对本发明的技术方案作进一步的描述。

本发明实施数据取自上海交通大学自主实验的SEED数据集，数据集包括了15名自述正常的受试者在不连续三天内每人每天观看15个情绪分明的电影片段的脑电信号数据，情绪标签为三种：积极，中性和消极。

实施例1：以SEED网站未经特征提取的数据进行实验，具体实现步骤如下。

输入：包含15*3个样本集，每个样本集包含15个电影片段，每个片段。

输出：测试集上的分类错误率。

(1)定义：给定4个分类器算法的集合{L₁,L₂,L₃,L₄}，其中L₁为第1个学习算法——支持向量机(SVM)L₂为第2个学习算法——逻辑回归分类(LR)，L₃为第3个学习算法——K最近邻算法(KNN)。样本集定义为X，含义是一个人某天观看电影片段的脑电数据，样本以1s时间划分，其标签定义为Y。X＝{X₁,X₂...X₂₇₇₅}，Y＝{Y₁,Y₂...Y₂₇₇₅}。其中X_i是第i个样本，Y_i是第i个样本的标签。样本X_i＝{x₁ ⁽ⁱ⁾,x₂ ⁽ⁱ⁾...x_m ⁽ⁱ⁾}，其中x_j ⁽ⁱ⁾表示为第i个样本的第j个特征。

(2)前期处理：

样本集划分：将样本集X划分为训练集X_train和测试集X_test，表示为：X＝X_train+X_test，利用训练集训练出学习器模型，利用测试集做衡量标准选择效果更优的学习器，且为避免结果出现“过于乐观”的情况，划分样本的方法采用直接划分法，按照机器学习最常用的9：6比例划分，即1665个训练样本，1110个测试样本。

特征提取：提取样本的差分熵特征，差分熵计算公式如下：

其中X为时间序列，遵从N(μσ²)的高斯分布，推导化简后最终得出：

其中μ为均值，σ²为方差，计算公式如下：

最终特征提取的结果是15*3个训练集，每个训练集里15条数据，分别对应15个电影片段，每个片段的格式为62*185*5，三个维度分别是通道、时长、频带。

特征选择：根据样本情况选择出高密度表现的特征。这里根据国际10-20标准选择脑电12通道，分别是FT7、FT8、T7、T8、C5、C6、TP7、TP8、CP5、CP6、P7、P8共6对。

(3)层级Bagging分类：

第一步，抽样：将样本进行有放回抽样，形成4×k个数据子集(k为单类算法对应的内部迭代次数，本发明验证中为10/20/40，另外“4”为本发明中基分类器个数)，每个子集可能有重叠部分，所有子集的并集也可能不涵盖所有数据集中的数据。

第二步，训练及预测：将1～k的数据子集用于分类算法L₁，训练出k个不同的分类器，用测试集X_test预测测试集标签并存储于标签矩阵中。k+1～2k的数据子集用于分类算法L₂，训练分类器，存储测试集预测标签。2k+1～3k的数据子集用于分类算法L₃，训练分类器，存储测试集预测标签。

第三步，投票：关注标签矩阵的样本维度，将同一样本的4×k个测试结果投票，选出票数最多的标签作为该测试样本的结果。

(4)在每个测试集上进行上述操作，共45个测试集，最后算法准确率为45个测试集的准确率均值。

由于脑电信号微弱和时变的特性，时间、人的差异对结果影响较大，所以样本集包括的“训练集”和“测试集”针对的是同一个人同一天的数据，划分每个样本的是1s的汉宁窗，即时间是区分每个样本的标准。一个单次结果是1110个样本预测结果的平均，15人3天的结果是45个单次结果的平均。表1列出了层级Bagging算法与基分类算法的对比结果。表2列出了层级Bagging算法与传统集成算法的对比结果。

表1层级Bagging算法与基分类算法的对比

表2层级Bagging算法与传统集成算法的对比

从表1和表2可以看出，层级Bagging算法优于基分类算法和传统的集成学习算法，且准确率随着每个分类器k值的增加而增加。

在验证了层级Bagging算法相比传统集成学习算法的有效性后，为验证其相对于单独投票或单独基分类器多次迭代的有效性，进行如下两组实验：

1.三种算法单独投票

将训练集直接投入三种算法，并用测试集在训练出的模型上测试，将各自测试的结果进行投票，准确率结果如表3所示。可以看出，虽然投票对结果也有平衡误差的作用，但是随着k值的增加，层级Bagging的准确率超过简单投票，并有持续上升的趋势，这是简单投票所不能及的。

表3三种算法单独投票与层级Bagging的结果对比

2.三种算法各自多次训练

随机有放回抽取数据集子集，投入同种分类算法进行训练，并用测试集在训练出的模型上测试，结果进行投票，准确率结果如表4所示。可以看出，仅将数据子集应用于同种分类器投票，效果随k值增大而变差。

表4三种算法各自多次训练的结果

	一次	五次	十次
				LR	65.10％	64.46％	63.85％
SVM	65.21％	65.44％	64.82％
				KNN	59.51％	58.98％	57.93％

从以上两组实验结果可以看出，层级Bagging方法性能的提升不是简单依靠投票或单种分类算法的迭代，而是将二者有机结合，二者在层级Bagging算法里同等重要，缺一不可。

实施例2：以SEED网站经过特征提取的数据进行实验。具体实施方式同实施例1。

输出：测试集上的分类错误率。

通过实验验证，层级Bagging对于SEED网站经特征提取的数据也有良好的提升效果，结果优于单分类器算法和传统集成算法。表5为层级Bagging算法在SEED网站经特征提取的数据上的结果与基分类器算法对比。

表5层级Bagging算法在经特征提取的SEED数据上与基分类器算法的对比

表6详细展示了层级Bagging算法在SEED网站经特征提取的数据上的结果。空间所限，这里给出的是14个样本的结果。可以看出，每个样本性能都有提升，证明层级Bagging的提升效果并非针对单个样本。

由实施例2的结果可以看出，层级Bagging在SEED网站经过特征提取的数据上也有很好的表现，经对比准确率高于各基分类算法，且随着k值增加结果呈上升趋势。这表明，本发明方法不受限于具体的特征提取方法，可以有效的适应复杂形式的脑电数据，是一种效果良好、有提升空间的集成学习方法。

针对一次实验具有一定的盲目性，当采用所有数据集中数据进行训练导致将原本是“噪声”的数据作为衡量区分的标准的问题，有放回取训练集部分数据进行相同算法的训练则可以有效解决，防止结果出现“过分适应”或者“过分不适应”个别数据的偏激化的“好”或者“差”的情况。

不同分类算法都有其优势，针对单个分类器学习角度单一的情况，如果可以对其不同算法产生分类结果进行投票选择，即选择最多数分类器所分的标签作为该样本的标签，可以有效减少由于个别分类器学习性能不佳带来的误差。

表6层级Bagging算法在经特征提取的SEED数据上的详细结果

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于脑电信号进行情感分析的层级Bagging方法，其特征在于，所述基于脑电信号进行情感分析的层级Bagging方法包括以下步骤：

第四步，集成各分类算法并投票。

2.如权利要求1所述的基于脑电信号进行情感分析的层级Bagging方法，其特征在于，所述基于脑电信号进行情感分析的层级Bagging方法的层级Bagging分类包括：

3.如权利要求1所述的基于脑电信号进行情感分析的层级Bagging方法，其特征在于，所述基于脑电信号进行情感分析的层级Bagging方法在对样本进行划分时，选取单人单次实验的所有数据为一个样本集，样本以1s时间作为划分标准，最后算法的准确率是所有样本集的结果平均值。

4.如权利要求1所述的基于脑电信号进行情感分析的层级Bagging方法，其特征在于，所述基于脑电信号进行情感分析的层级Bagging方法在进行特征提取的时候采用差分熵特征公式为：

推导化得出：

计算出的差分熵特征格式为：通道*时长*频带。

5.一种基于权利要求1所述的基于脑电信号进行情感分析的层级Bagging方法的基于脑电信号进行情感分析的层级Bagging系统，其特征在于，所述基于脑电信号进行情感分析的层级Bagging系统的集成各分类算法并投票部分包括：

抽样模块，用于对样本训练集进行有放回抽样，抽样的比率原样本训练集所有数据的<50％，抽样采用有放回随机模式，每次抽出的数据作为一个数据子集；不同数据子集之间可能有交集，所有数据子集的并集也有可能不完全覆盖整个样本训练集；

6.一种应用权利要求1～4任意一项所述基于脑电信号进行情感分析的层级Bagging方法的脑电信号处理系统。