CN108776809A

CN108776809A - 一种基于Fisher核的双重采样集成分类模型

Info

Publication number: CN108776809A
Application number: CN201810537148.7A
Authority: CN
Inventors: 王喆; 李冬冬; 陈钊志; 杜文莉; 张静
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-09

Abstract

本文提供一种基于Fisher核的双重采样集成分类模型，首先将数据映射到高维Fisher空间得到一个判别特征更好的样本表示。本发明通过Fisher空间下的多次对样本进行特征层面采样，得到多个视角来增加分类中需要的信息，提高基分类器的稳定性。本发明通过集成方法分别对视角内和视角外进行集成。通过不同视角表达的集成维持整个样本的多样性。本发明通过设计一个完整的系统，提供了一个框架性的集成方法用于针对不平衡分类问题；通过该系统为不平衡数据增加分类信息，提供更准确的分类效果；根据具体问题可以使用不同结构的联合训练模型对具体问题应用；根据样本信息数量生成多种形态不同样本表达矩阵和向量进行丰富训练数据，使最终分类效果提高。

Description

一种基于Fisher核的双重采样集成分类模型

技术领域

本发明涉及模式识别技术领域，尤其涉及针对不平衡数据分类的基于Fisher核的双重采样集成分类模型。

背景技术

模式识别中主要分类两大类方法，生成模型和判别模型。生成模型关注概率密度函数的生成过程，它可以提供更多的信息以便对数据的研究。而判别模型关注于直接的分类，直接学习分类边界。它基于训练集的先验知识进行决策判别，因此在计算量上也比生成模型的开销要小，性能表现上也优于生成模型。

现有的解决不平衡问题的方法主要包括采样方法，引入代价函数的方法，和集成方法。采样方法通过剪裁部分负类样本或者增加正类相似样本来重新平衡每一类样本个数的比例使得分类边界不过于偏向某一类。代价函数通过调整权重改变样本错分代价，使得少数类样本和特殊样本得到关注。通常不平衡问题中，样本规模的差别导致了少数类样本很少得到足够的误差最小化。因此正类样本应该通过增加少数类样本的权重或者降低多数类样本的权重来提高对少数类样本的关注度。集成方法通过结合子分类器，并进行投票从而决策最终结果。每个子分类器是局部平衡的，因此在综合多个子分类器后，可以保留原始样本的全局信息，从而保证分类效果。

多视角学习描述了一个目标的多个属性集，通过一致性性原则与互补性原则，使用这些属性集可以弥补单视角中信息不足的缺点，从而提高分类效果。具体说，多视角的优势是可以通过其他视角联合修正单个视角下存在的偏差。多视角方法在训练的时候，一致性法则会最大化每个视角的一致性。因此，在一个视角数据稀少的情况下，可以通过该目标的其他视角联合训练，最大化这些视角的一致性，从而从整体丰富训练信息。而根据互补性原则，数据的每个视角会包含一些其他视角所没有的知识，从而多视角数据可以更全面、直观的描述一组数据。因此我们可以把数据的每一个属性集看为一个视角，通过集成这些视角得到多视角学习的框架。

在多视角方法和集成方法中，判别模型一般作为主要基分类器模型。通常为简单线性分类器，这些线性分类器结构不复杂，在性能上虽然不是很强，但是经过集成，可以体现出较高的性能提升。这里，我们引入Fisher核映射用于改进基分类器的性能。Fisher核方法属于一种跟生成模型结合的判别方法，它具有在参数选择上能减少复杂度的优势。Fisher核的构造完全取决于样本，它能充分的利用训练样本的信息来构造具有更好判别性的特征，与传统和方法映射类似，新生成的Fisher核的特征是一种被映射到新特征空间的特征，它具有高维和非线性特性。另一个使用Fisher核的优势是，在确定样本分布的情况下，可以直接利用样本的先验参数直接进行高斯混合模型(GMM)建模，从而提高效率，减少参数求解的计算消耗。

发明内容

本发明从多视角理论出发，对不平衡数据集通过视角化学习，并结合Fisher核生成模型与判别模型结合提出一个新的学习框架，命名为基于Fisher核下的双重Bagging多视角模型(Fisher Kernel-based Multi-view Learning with Bi-Bagging，FKML)。在这个框架下，分别从样本层面，算法构造构造学习模型。具体地说，我们提出一个基于Fisher核的特征与样本双重Bagging，从而在分类策略层面上多视角化的新集成学习方法。该方法首先基于数据的概率特征，通过Fisher核对样本进行映射，在新的特征空间中，通过对特征的Bagging生成多个不同的属性子集，这些新的子集就被视为多个不同的视角。在每个视角下的样本子集中，我们采用样本Bagging对样本再次划分新的子集，实现对不平衡数据Fisher核下的特征与样本双重Bagging策略。

本发明解决其技术问题所采用的技术方案：首先后台根据具体问题描述，将采集到的样本转化成可以供该系统处理的向量模型。其次，将以向量表示的数据集映射到Fisher空间。在训练步骤中，该系统首先使用基于生成的子训练集对模型进行训练，不同视角下得到一组分类器，通过每组分类组成视角内的集成；其次，对视角间的模型组通过集成对新样本进行识别。

本发明有益的效果是：通过设计一个完整的系统，提供了一个框架性的集成方法用于针对不平衡分类问题；通过该系统为不平衡数据增加分类信息，提供更准确的分类效果；根据具体问题可以使用不同结构的联合训练模型对具体问题应用；根据样本信息数量生成多种形态不同样本表达矩阵和向量进行丰富训练数据，使最终分类效果提高。

附图说明

图1是本发明整体流程图。

具体实施方式

下面结合附图和实例对本发明作进一步介绍：本发明所设计的系统共分四个模块。

第一部分：数据预处理

采样生成的样本子集数对应于子分类器的个数，子分类器训练于对应的子集。定义负类为多数类样本，正类为少数类样本。将所有训练样本按照每一列是一个样本的规则合成一个训练矩阵X进行存储。

第二部分：Fisher核映射

在这一部分利用Fisher核空间下的样本构成新的样本集，因此，为了构造Fisher核映射，需要先使用EM算法为数据集求出混合高斯模型(GMM)的分量参数。现在假设原始数据集有N个样本，它用一个高斯混合模型(GMM)来表示。λ是一组GMM参数，λ＝{w_i,μ_i,Σ_i,i＝1,…,K}。其中，w_i模型的混合权重，μ_i为GMM的均值，Σ_i为协方差矩阵，为了便于讨论，协方差假设为对角矩阵。

设L(X|λ)＝logp(X|λ)。将L(X|λ)展开如下：

样本概率通过GMM生成：

混合权重约束条件如下：

高斯分量定义如下：

其中D为样本特征的维度。|·|为行列式运算符。式(4-1)对λ求导有：

归一化输入向量在判别模型中很重要。因此使用Fisher信息矩阵来做输入向量的归一化。归一化后的梯度向量表示为：

式中F_λ的直接计算比较困难，因此采用对角近似作为替代：

构建分别关于μ和σ的子向量。子向量构建如下：

Fisher向量是由关于μ和σ的子向量按每一位组合起来得到的。γ_n(i)表示第i个高斯分量的后验概率，用Fisher核表示一个样本时，例如一个图像，X＝{x₁,…x_m}，该图像有M个描述子，最终的表达形式为所有描述子的均值，特别地，当样本为非图像数据时，每一个向量为一个样本，此时φ(X)＝φ(x_i)且M＝1。Fisher向量的表达形式具体为：

F(x)表示样本x经过映射后得到的Fisher向量，我们对所有训练样本进行这个映射，从而得到新的样本矩阵X_F。

第三部分：对新的样本集进行双重采样

对于每一个样本的Fisher向量F(x)，从向量的所有特征分量中随机采样一定个数的不重复特征，组合成新的子特征空间，这样的一个新的子空间被叫做一个视角，从这些映射后得到的视角中进行多次样本采样，得到多个不同视角下的样本子集。基于这些视角子集，可以训练出不同视角下的基分类器现假设，整体样本中，|N|表示多数类样本的个数，|P|表示少数类样本的个数。在样本采样中，我们利用多数类下采样使每个子集中的多数类样本等于少数类样本个数|P|，因此训练得到的子分类器是局部平衡的。集成得到的分类器有更准确的决策边界。由此，在特征与样本采样后，我们得到总共J×T个子集，其中J是特征子集的个数，T是每组视角下样本子集的个数。

第四部分：

基于同一个视角下的多个训练集，我们用一种模型训练，可以得到对应个数的基分类器，在视角下进行集成投票，得到该视角下的票数和分类决策，对每个视角都用一种模型训练，然后投票，因此，每个视角会得到一个总票数与决策，在最后的视角间再进行全局投票，得到最终总的投票决策，该决策就为最终一个样本得到分类类别。当一个用于测试样本出现，视角下的集成表示如下：

式中，F_j为当前视角，表示在当前视角下，类别为ω_i时，x样本得到的票数。在视角投票后，对视角间的投票进行总集成，于是有：

D(x)输出样本x各个类别ω_i的得票总数，得票数最多的类别ω_i就为最终决策的类别。

实验设计

数据集与评价指标

KEEL标准数据集用来评价FKML的性能。下表列出了用于实验的数据集属性。KEEL是Knowledge Extraction based on Evolutionary Learning(KEEL)repository的缩写。实验数据集的不平衡率变化范围从1.85到127.42。它是一个二分类数据集。

比较算法在不平衡分类上的表现，我们采用ROC曲线下方面积(AUC)进行性能评价，评价准则如下：

其中TPR和FPR分别为真正类准确率和错正类率。最优参数用5折交叉验证确定。如表所示，实验数据集个数为40。实验是在Intel Xeon CPU E5-2403 with 1.80GHz,8GB RAMDDR3,Windows server 2012 and MATLAB上进行的。

线性基分类器上的实验

首先，我们通过实验比较改进前后的分类器进行评估我们提出的方法的在不平衡分类上的性能提升。使用三种线性分类器作为学习框架中的基分类器，用以验证框架的有效性。

1)实验设置

支持向量机(SVM)，逻辑回归和Modified HoKashyap分类器(MHKS)被选取为实验中框架的三组基分类器。SVM和MHKS的超参数C设置为{0.01,0.1,1,10,100}。特征子集采样后进行样本子集的采样。在MatMHKS算法中ρ和ξ为迭代次数和终止条件。它们的初始值分别设为0.99和0.0001。边缘向量b和b^p的初值设置为10^-6[1₁,…,1_N]^T。MatMHKS的初始权重u被设为[0.5₁,…,0.5_N,1]。GMM分量的参数k设置为{2,3,4,5}，目的在于找出最佳的分量参数k的值，这个值表示一个数据集需要用多少个分量表示。

2)分类结果分析

每个基分类器在框架下的性能表现如下表所示。框架在这三组基分类器下都有针对不平衡分类问题的性能提升。三种线性基分类器原型版本并非针对不平衡问题进行设计的，在引入我们的学习框架后，在不平衡分类数据集上有明显的性能提升。从根据结果的平均排名，可以看到SVM作为基分类器有更大的性能上限。其他线性基分类器也合适用于这个框架。在以后的研究工作中，可以考虑改进基分类器性能以获得更好的性能提升。实验中，可以看到在大部分数据集中，GMM成分参数k是在2的时候具有最好的分类性能，因此在KEEL数据集的二分类问题中，用两个GMM分量表示数据集时为最好的表达。

不平衡算法比较实验

在这一组实验中，我们比较不同的针对不平衡分类问题的方法以验证我们的方法在不平衡分类问题中的总体性能。比较算法由几种常用的针对不平衡分类问题的算法组成，其中包括采样方法，代价敏感方法，以及集成方法。根据上一个实验的结果，我们使用提升最突出的线性的SVM作为框架基分类器，用于与其他同类算法比较。在对比算法选择中，SMOTE作为采样方法中的代表方法。代价敏感SVM作为代价函数方法的代表方法。AdaBoost和Easyensemble作为集成方法中的代表方法作为比较。

1)实验设置

根据上一个实验的结论，SVM性能提升具有代表性，因此在本实验中，选择线性SVM为框架的基分类器。算法超参数C设为{0.01,0.1,1,10,100}。SVM的优化方法选择为Sequentialminimal optimization(SMO)。由上一个实验结论得到，GMM分量参数k设为k＝2。

2)实验结果分析

从下表中，FKML在对相关算法对比中，有比较优越的性能表现。在不平衡率较低的数据集中，FKML与对比算法的性能相近，但是略有提高。对比样本维度比较高的样本，例如“vehicle1”和“vehicle3”以及“pageblocks13vs4”等数据中，分类性能排位都处在首位，说明在维度较高的样本中，通过fisher核映射得到较准确的样本分布特征，并在多视角的集成下，得到了比其他算法更优越的性能。同时可以看到，在不平衡率较高的数据，同时正类样本个体十分稀少的数据中，FKML的分类性能较其他的算法也有优势，例如“pageblocks13vs4”、“glass016vs5”和“yeast2vs8”等数据集，不平衡率总体大于15，同时样本个数在40个以下。因此可以得到结论，该学习框架通过结合生成模型Fisher核映射用多个高斯模型对样本集有整体的参数描述，然后生成多视角子集丰富集成中基分类器的多样性，并使用Bagging的集成结合这些基分类器，从而得到总体比较理想的分类性能。经过不同不平衡率的数据集上的实验，可以证明FKML在较宽的不平衡率变化范围使用。

Claims

1.一种基于Fisher核的双重采样集成分类模型，其特征在于：具体步骤是：

1)将原始样本特征映射到fisher空间并对特征随机采样生成子集；

2)基于样本的样本空间和特征空间进行双重采样；

3)对不同子空间子集训练得到的分类器进行集成。

2.根据权利要求1所述的一种基于Fisher核的双重采样集成分类模型，其特征在于：所述的将原始样本特征映射到Fisher空间并对特征随机采样生成子集；其细节为：利用Fisher核映射原始样本到新的Fisher空间，并对新空间下的特征进行随机采样，生成特征子集；Fisher核映射公式如下：

Fisher向量是由关于μ和σ的子向量按每一位组合起来得到的；γ_n(i)表示第i个高斯分量的后验概率，用Fisher核表示一个样本时，例如一个图像，X＝{x₁,…x_m}，该图像有M个描述子，最终的表达形式为所有描述子的均值，特别地，当样本为非图像数据时，每一个向量为一个样本，此时φ(X)＝φ(x_i)且M＝1；λ是一组GMM参数，λ＝{w_i,μ_i,Σ_i,i＝1,…,K}；其中，w_i模型的混合权重，μ_i为GMM的均值，Σ_i为协方差矩阵，为了便于讨论，协方差假设为对角矩阵；Fisher向量的表达形式具体为：

生成了Fisher向量F(x)之后，在这个向量中，对特征进行采样，这样就可以得到一个特征子集，它表示这个向量在Fisher空间的子空间中的一个表示，因此作为一个视角F_j。

3.根据权利要求1所述的一种基于Fisher核的双重采样集成分类模型，其特征在于：所述的基于样本的样本空间和特征空间进行双重采样：根据Fisher核空间下的特征表示，分别对样本特征和样本分布进行采样，细节为：首先对Fisher向量的特征进行多次随机采样，会得到多个随机且不相等的特征排列起来的Fisher特征子空间，这些子空间即为不同的特征子集，属于不同视角，基于每个不同的视角，我们在样本层面进行多次多数类采样，采样方法为对多数类样本进行采样，采样比例默认设定为与少数类1：1，但不限于这个比例，根据实际情况调整采样参数；这样每个视角下都有多个不同的训练子集；基于这些子集，可以训练出多个分类器；由此，在特征与样本采样后，我们得到总共J×T个子集，其中J是特征子集的个数，T是样本子集的个数；

双重采样流程如下表所示：

4.根据权利要求1所述的一种基于Fisher核的双重采样集成分类模型，其特征在于：所述的对不同子空间子集训练得到的分类器进行集成，细节为：基于同一个视角下的多个训练集，我们用一种模型训练，可以得到对应个数的基分类器，在视角下进行集成投票，得到该视角下的票数和分类决策，对每个视角都用一种模型训练，然后投票，因此，每个视角会得到一个总票数与决策，在最后的视角间再进行全局投票，得到最终总的投票决策，该决策就为最终一个样本得到分类类别；视角下的集成表示如下：

式中，F_j为当前视角，表示在当前视角下，类别为ω_i时，x样本得到的票数；

在视角投票后，对视角间的投票进行总集成，于是有：