CN108416373A

CN108416373A - 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统

Info

Publication number: CN108416373A
Application number: CN201810142731.8A
Authority: CN
Inventors: 王喆; 李冬冬; 朱昱锦; 高大启
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-08-17

Abstract

本发明提供一种基于正则化Fisher阈值选择策略的不平衡数据分类系统，首先将采集的样本转为适于后续处理的向量；在训练阶段，先实现正则化Fisher线性判别模型，在训练集上优化并输出相关参数，然后自定义的八个阈值训练八个新的正则化Fisher模型并通过验证选出最佳模型作为代表；接着根据训练第一步生成的原始超平面生成新超平面并根据新超平面筛选出候选样本及各类的距离向量。验证集上比较代表两种策略的两个改进正则化Fisher模型，输出较好的一个等待测试。相较于传统的分类技术，本发明使用正则化方法使得原始的Fisher线性判别模型能更好学习到数据全局分布信息；通过两种不同策略的选择，使得原本受到不平衡样本误导的阈值得到修正，并大大缩短调试时间。

Description

一种基于正则化Fisher阈值选择策略的不平衡数据分类系统

技术领域

本发明涉及模式分类技术领域，尤其涉及一种对不平衡数据集进行识别处理的正则化 Fisher阈值选择策略与系统。

背景技术

模式识别研究利用计算机来模仿或实现人类或其它动物的识别能力，以便对研究对象完成自动识别任务。近年，模式识别技术被广泛用于人工智能、机器学习、计算机工程、机器人学、神经生物学、医学、侦探学、考古学、地质勘探、宇航科学和武器技术等许多重要领域。在模式识别任务中，Fisher判别分析以其高效、高精度的算法优势，被广泛用于各种分类问题。Fisher具有的独特优势包括两方面：第一，Fisher目标函数的判别准则符合直观意义，易于实践，其不仅能学到类内样本的分布关系，还能掌握类间样本的距离；第二，Fisher目标函数的优化过程是解析的，因此非常快速，且不存在由于迭代求解带来的陷入局部最优解问题。进一步，由于Fisher目标函数的优化涉及矩阵运算，当样本维度远高于样本数时，容易出现矩阵奇异化问题，导致无法求解，因此，一些研究对Fisher进行正则化约束，从而缓解了以上高维少样本问题。

伴随应用领域拓展，传统模式识别技术面临新挑战。其中一个突出挑战来自不平衡数据处理问题。在一个不平衡数据集内部，一些类的样本数远小于其余类的样本数。为简便，称样本数少的类为少数类，称样本数多的类为多数类。实际应用中，少数类被错分所造成的损失往往比多数类被错分时大，如医疗诊断，误判潜在病患为健康的代价高于误判健康人为病患。同样，在错误检测、软测量、融资预测、医疗探查等领域存在大量不平衡数据。

传统模式分类方法在处理不平衡问题时，由于多数类样本在数量及分布空间的影响，往往造成较大的误差。为解决不平衡问题，一些特定方法被提出。目前，专门针对不平衡问题的方法可分三类：第一类是基于重采样技术，在模式预处理环节削减冗余的多数类，或生成少数类，使数据集趋于平衡，再把平衡的数据集代入后续传统分类模型。该类代表算法包括单边下采样算法(One Side Selection)和人造少数类上采样算法(SyntheticMinority Oversampling Technique)等；第二类是基于代价敏感的方法，该类方法通过给错分的样本赋予不同权值的代价，从而纠正传统模型由于不平衡数据造成的偏差，一般而言，错分的少数类样本获得比错分的多数类样本更高的代价。该类代表算法包括代价敏感局保投影算法(Cost-sensitive locality preserving projections)、代价敏感主成分分析算法(Cost-sensitive principal component analysis)及代价敏感判别分析算法(Cost-sensitive linear discriminant analysis)等；第三类是基于集成方法，该类方法通过将不同的弱分类方法合成在一起，对数据集进行综合判断。该类代表算法包括简洁集成法 (EasyEnsemble)，平衡级联法(BalanceCascade)，及非对称子空间采样支持向量机(Asymmetric Bagging and Random Subspace for Support Vector Machines)等。

Fisher线性判别分析也无法避免受到不平衡数据的干扰。原因在于：第一，当一个数据集严重不平衡，这种不平衡性不仅会体现在类间样本的数量差异上，更会体现在不同类样本在空间所占区域上。由于Fisher线性判别分析是一种全局学习方法，极端不平衡的空间分布将影响其学到正确的分类超平面。第二，Fisher线性判别分析常用来求得超平面阈值的解析形式在几何意义上并不适用于不平衡数据。当遇到不平衡问题，错误的阈值将使Fisher线性判别分析生成的超平面偏向多数类。

发明内容

针对现存Fisher线性判别分析在求解超平面斜率与阈值时存在的不合理结构，无法满足大规模、实时、或缺少先验知识的不平衡问题，本发明提供了一种基于正则化Fisher阈值选择策略的不平衡数据集分类方法，首先对传统的Fisher线性判别算法作正则化处理，其次设计两种针对Fisher目标函数生成超平面的阈值做调整的策略，策略一使用经验定义的多个阈值代入目标函数优化最后取训练集上效果最突出的阈值作为最佳候选，策略二则生成两条平行于原始超平面分别过两类样本质心的新平面替代原始平面，本质上消解了原始阈值，接着将两种策略生成的算法在验证集上验证并选择留下效果更好的一组，最后代入测试。由于两种策略可以分开实施且策略一内部又能够并行计算不同阈值，因此所提系统在保证不平衡数据集分类正确率的同时，在模型设计和模型运算两方面也保证了效率。

本发明解决其技术问题所采用的技术方案(以两类不平衡问题为例)：首先后台根据具体的不平衡问题描述，将采集到的样本转化成可以供后续算法处理的向量模型。其次，将以向量表示的数据集分为训练数据集与测试数据集两部分。若数据集有限，可以全部用作训练。在训练步骤中，首先将训练样本代入经过正则化处理后的Fisher线性判别分类模型，生成原始超平面。进一步，分别使用两种策略对该模型作后续优化。其中，在策略一实施时，代入多个阈值计算模型入正则化Fisher模型的目标方程，并行计算得到不同的新模型。这些模型重新代入训练样本进行第一轮验证，取验证结果最优的模型为策略一的代表模型。另一方面，在策略二中，首先生成平行于原始分类超平面且过两类样本质心的两个新决策面。只有位于两个过质心决策面中间空间的样本被保留作为候选子集，其余样本被去除；接着，生成每个候选多数类样本点距离过多数类质心超平面的距离，少数类作同样处理，两类每个样本的距离生成两个距离向量。第三步，将策略一与策略二训练好的模型代入验证集进行验证，比较选出二者中较好的模型作为最终测试模型。在测试阶段，若最终代表模型来自策略一，则使用普通线性模型的分类方法对样本进行判别即可；若最终代表模型来自策略二，首先，得到当前测试样本点到两个过质心决策面的距离，再用这两个距离和训练时模型生成的两类距离向量分别比较，通过判断测试样本点在哪一边的距离更接近质心决策面而作出最终决定。当两边距离相等时，算法转而采用来自策略一的代表模型进行判断。最后，输出决定的类标号。

本发明有益的效果是：使用正则化方法使得原始的Fisher线性判别模型能更好学习到数据全局分布信息；通过两种不同策略的选择，使得原本受到不平衡样本误导的阈值得到修正，并能得到最佳分类超平面；该方法的多个步骤可以同时完成，加上Fisher本身能解析求出斜率与阈值的最优值，从而大幅节省运算时间。

附图说明

图1是本发明应用于不平衡模式分类问题的系统框架；

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：本发明的方法共分三个模块。

第一部分：数据采集

数据采集过程是将现实中的不平衡问题数据化，生成向量表示的数据集便于后续模块进行处理。一个样本生成一个向量x，向量的每一元素对应样本的一个属性，向量的维度d即为样本的属性数，如下所示：

x_i＝[X_i，1，x_i，2，...，X_i，j，...，x_j，d]

在两类问题中，将少数类样本和多数类样本各合并成一个矩阵，即少数类的矩阵X_pos与多数类的矩阵X_neg，再将两个矩阵合并成一个大矩阵X_all，这个最终的矩阵即是整个问题的数据集，如下所示：

第二部分：训练分类模型

在这个模块中，采集到的数据集将代入发明的核心算法中进行训练。主要步骤如下：

1)设计正则化Fisher线性判别模型框架：Fisher线性判别模型的斜率可以由目标函数优化求得，目标函数在优化时如果使用广义瑞利商作为优化准则，则目标函数可以转换为一个特征方程。采用所提方法进行正则化后生成的特征方程如下：

其中，w即为需要求出的斜率，而α是一个用于协调各项比重的惩罚参数。进一步，公式项 S_W与S_LW可由一下公式计算得出：

S_LW＝X(D-A)X^T

进一步展开以上公式，有：

D_ii＝∑_jA_ji

另外，I是一个单位矩阵。

另一方面，该模型的阈值仍然使用传统Fisher线性判别分析的计算方法得到：

公式中，N_all表示所有样本的数目，N₁是少数类样本数目，N₂是多数类样本数目。μ₁是少数类样本质心在斜率方向的投影，μ₂是多数类样本质心在斜率方向的投影。

2)计算正则化Fisher线性判别模型生成的决策超平面l_d：Fisher线性分类算法是典型的线性分类算法，目的是生成一个决策面，落在决策面一边的测试样本就被判定为属于与其同一边的那一类别。决策面方程表示为：

3)进行策略一训练步骤：

3-1)首先使用训练样本计算四个参数，若令x表示一个样本，μ表示该类样本质心，N_C表示该类样本个数，对应地，带有下标-in的参数表示在过两类质心与超平面平行的平面之间的样本参数。最后，w为斜率，那么这是个参数计算公式如下：

3-2)根据实践经验训练八个新阈值：这些阈值的计算公式如下所示：

第一个阈值取两类质心投影后的中点位置：

第二个阈值交换了质心与样本数量，以增强对不平衡数据的学习能力：

第三个阈值是标准差与质心的比值，同样交换了两类标准差与质心位置，增强对不平衡数据的学习能力：

第四个阈值是第二与第三阈值的均值：

第五个阈值将标准差更换为无偏绝对值标准差，用到了上一步计算的参数：

第六个阈值则是超平面间无偏绝对值标准差，用到了上一步计算的参数：

第七个阈值是平均类内绝对值标准差，用到了上一步计算的参数：

第八个阈值是平均类内超平面间绝对值标准差，用到了上一步计算的参数：

3-3)验证并选出策略一的代表模型：将训练集当作验证集代入新建立的八个正则化 Fisher线性判别模型进行验证，根据八个模型的表现，选出最佳模型作为策略一的代表模型代入后续计算步骤。

4)进行策略二训练步骤：

4-1)过两类训练样本质心，作平行于原始超平面l_d且分别过两类质心的两个分类面l_pos与l_neg。两类质心的算法如下公式所示，

4-2)生成候选子集：将位于l_pos与l_neg间的样本留下，其余样本去除。

4-3)判断当前数据集是否线性可分：判断留下的两类样本是否存在重叠，若不存在，即数据集线性可分，则策略终止；若存在，进入下一步。

4-4)生成两个距离向量dis_pos与dis_neg：令d(x,l)表示一个样本点x到一个分类面l的欧式距离。则依次计算所有留下的中间样本中多数类点到l_neg的距离存入dis_neg中，同理所有少数类点到l_pos的距离存入dis_pos中。

第三部分：验证两个策略生成的模型

该模块中，需要将实现划分出来的一部分有标号数据作为验证集，代入由训练模块生成的两个新模型中进行验证。为方便，命名来自训练模块策略一的模型为模型A，来自训练模块策略二的模型为模型B。验证环节包括以下步骤：

1)代验证数据入模型A：验证数据去掉类别标记后代入模型A进行测试，记录下测试结果；

2)代验证数据入模型B：验证数据去掉类别标记后代入模型B进行测试，记录下测试结果；

3)选择最优模型：比较模型A与模型B在验证集上的分类结果，选出表现较好的一个模型作为最终代表模型输出。

第四部分：测试未知类别的样本该模块中，需要检测其类标号的未知数据代入代表模型，并由模型做出决定。设当前未知样本为z。测试环节包括以下步骤：

1)判断代表模型来自哪种策略，根据结果选择测试方式；

2)若模型来自训练策略一，则使用普通线性判别方法对当前测试样本作预测；

3)若模型来自训练策略二，使用如下步骤作预测：

3-1)计算测试样本点z到两个过质心分类平面的欧氏距离，即获取d(z,l_pos)与d(z,l_neg)；

3-2)代d(z,l_pos)入dis_pos进行比较，获取z被分类到少数类的概率，计算公式如下：

其中，分子是dis_pos中数值大于d(z,l_pos)的元素个数，即位于两超平面中间的样本集中到 l_pos距离比测试样本z到l_pos距离远的少数类样本个数。分母是这子集中少数类样本总数；

3-3)同理，比较d(z,l_neg)与dis_neg，计算公式如下：

3-4)比较P(y_pos～z)与P(y_neg～z)，z的类标号最后被决定为概率较大的一边；

3-5)若P(y_pos～z)与P(y_neg～z)相等，当前模型无法决定样本类别，则推出该策略分支，回

到模型一进行计算。

实验设计

1)实验数据集选取：该实验选择了开源网站Extraction based on EvolutionaryLearning (KEEL)dataset repository的六个不平衡数据集。选取数据集的类数目、样本维度、规模 (样本总数)及不平衡率IR列在下表中。其中IR大于9的为中度以上不平衡数据集。

其中，令n_neg为多数类样本数，n_pos为少数类样本数，不平衡率IR的计算公式为：

所有使用的数据集均采用五折交叉方式处理，即将数据集分为大致均匀的五份，每一次选择其中一份作为测试数据，另外四份为训练数据。不重复选取测试数据五次。

2)对比算法：发明所使用的核心算法，即正则化Fisher阈值选择策略分类算法，简称为RFLD。另外，我们选择三个专门针对不平衡数据集进行处理的分类算法：k典型近邻分类算法(the k Exemplar-based Nearest Neighbor,ENN)、类条件近邻分布算法(theClass Conditional Nearest Neighbor Distribution,CCNND)、及简洁集成法(EasyEnsemble)为基准算法。每个算法的参数描述及值域设置如下表：

3)性能度量方法：实验统一使用受试者工作特征曲线线下面积(the Area Underthe receiver operating characteristic Curve，AUC)来记录不同方法对各数据集的分类结果。结果均为对应算法在该数据集上使用最优参数配置时获得的结果，即最优结果。AUC的计算公式为：

其中TP为真正类率，FP为假正类率，TN为真负类率，FN为假负类率。四个指标的关系如下表：

	真预测值	假预测值
			正类	TP	FN
负类	FP	TN

实验结果

首先是RFLD与基准算法进行对比，每个数据集的最好结果标记为粗体。结果如下表：

如表可知，RFLD在所有数据集上取得最高AUC值，即最优结果。

Claims

1.一种基于正则化Fisher阈值选择策略的不平衡数据分类系统，其特征在于：具体步骤是：

1）预处理：将采集的样本转为适于后续处理的向量；

2）训练首步：实现正则化Fisher线性判别模型，在训练集上优化并输出相关参数；

3）训练次步：开启阈值选择策略，执行策略一，根据自定义的八个阈值训练八个新的正则化Fisher模型并通过验证选出最佳模型作为代表；

4）训练三步：开启阈值选择策略，执行策略二，根据训练第一步生成的原始超平面生成新超平面并根据新超平面筛选出候选样本及各类的距离向量；

5）验证步骤：在验证集上比较代表两种策略的两个改进正则化Fisher模型，输出较好的一个等待测试，另一个则保留；

6）测试步骤：根据验证步骤结果选择模型预测数据，当优先级高的模型失效时使用剩下的模型进行预测。

2.根据权利要求1所述的基于正则化Fisher阈值选择策略的不平衡数据分类系统，其特征在于：所述的训练第一阶段，实现正则化Fisher线性判别模型，在训练集上优化并输出相关参数的具体步骤包括：所提正则化Fisher线性判别分析模型采用广义瑞利商作为优化准则，把传统Fisher线性判别分析及局部保留投影降维法的目标函数统一在同一个目标函数，在将此目标函数转换为特征方程形式，进而求出所提正则化Fisher线性判别分析模型生成超平面斜率如下：

式中，α是一个用于协调各项比重的惩罚参数；

与传统Fisher类内散度矩阵的表达方式不同，所提方法使用如下形式将传统Fisher线性判别分析及局部保留投影降维法的拉普拉斯矩阵S _W与S _LW展开为：

，

进一步，两个正则项中相关参数计算如下：

另外，I是一个单位矩阵；

求出所提正则化Fisher线性判别分析模型生成超平面的斜率后，可再求出其阈值如下：

公式中，N _all表示所有样本的数目，N ₁是少数类样本数目，N ₂是多数类样本数目；μ ₁是少数类样本质心在斜率方向的投影，μ ₂是多数类样本质心在斜率方向的投影；

最后，输出相关参数。

3.据权利要求1所述的基于正则化Fisher阈值选择策略的不平衡数据分类系统，其特征在于：所述的训练第二阶段，开启阈值选择策略，执行策略一，根据自定义的八个阈值训练八个新的正则化Fisher模型并通过验证选出最佳模型作为代表的细节为：与传统方法不同，所提方法在训练阶段分为两种策略同时进行；

首先，所提方法使用训练样本自定义了四个参数用来构造新的超平面阈值；

这四个自定义参数为：

进一步，根据四个参数求得八个新超平面阈值如下：

第三步，将训练数据集作为内部验证数据集对由八个新阈值决定的八个新正则化Fisher模型进行验证，选出表现效果最好的模型作为代表模型输出。

4.根据权利要求1所述的基于正则化Fisher阈值选择策略的不平衡数据分类系统，其特征在于：所述的训练第三阶段，开启阈值选择策略，执行策略二，根据训练第一步生成的原始超平面生成新超平面并根据新超平面筛选出候选样本及各类的距离向量的细节为：首先，所提方法过两类训练样本质心，作平行于原始超平面l _d且分别过两类质心的两个分类面l _pos与l _neg；

其次，将位于l _pos与l _neg间的样本留下作为候选集，其余样本去除；

然后判断当前数据集是否线性可分：判断留下的两类样本是否存在重叠，若不存在，即数据集线性可分，则策略终止；若存在，进入下一步；

最后，分别计算候选集样本中多数类点到l _neg的距离存入 dis _neg中，同理所有少数类点到l _pos的距离存入dis _pos中；

输出两个距离向量dis _pos与dis _neg，两个质心，两个超平面的斜率与阈值，及样本是否线性可分的信息；

由以上步骤可知，所提策略二不必在训练阶段得到精确的分类超平面。

5.根据权利要求1所述的基于正则化Fisher阈值选择策略的不平衡数据分类系统，其特征在于：所述的验证阶段，在验证集上比较代表两种策略的两个改进正则化Fisher模型，输出较好的一个等待测试，另一个则保留的细节为：与传统Fisher线性判别模型的学习过程不同，所提方法在训练之前先分出一部分带有类别标记的样本组成验证数据集，再于验证环节对两种策略生成的两个模型分别进行验证；

验证后效果更好的那个模型被赋予较高优先级，另一个模型优先级较低，输入两个模型等待测试。

6.根据权利要求1所述的基于正则化Fisher阈值选择策略的不平衡数据分类系统，其特征在于：所述的测试阶段，根据验证步骤结果选择模型预测数据，当优先级高的模型失效时使用剩下的模型进行预测的具体步骤包括：与传统Fisher线性判别分析不同，所提方法首先根据验证步骤生成的模型优先级选择用于预测测试样本的最佳模型：若最佳模型来自训练阶段的策略一，则使用普通的Fisher判别函数对样本进行预测，判别准则如下：

即代需要预测的样本x入准则，若准则大于某值（例如大于0）则判定样本为第一类，否则为另一类；若最佳模型来自训练阶段的策略二，则依次进行如下操作：首先，计算测试样本点到两个过质心分类平面的欧氏距离；其次，由测试样本点到一个平面的距离与训练步骤三中候选样本点到该超平面的距离组成一个概率，该概率即为测试样本点属于该类的概率；

比较得到两类对应的两个概率，测试样本类标记最后被预测为概率较大的一边；

进一步，所提方法在优先使用的模型无法对测试样本进行预测时，可以继续使用保留的第二模型进行预测，从而提高鲁棒性。