CN103473556B

CN103473556B - 基于拒识子空间的分层支持向量机分类方法

Info

Publication number: CN103473556B
Application number: CN201310390468.1A
Authority: CN
Inventors: 徐贵标; 胡包钢
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2017-06-20
Anticipated expiration: 2033-08-30
Also published as: CN103473556A

Abstract

本发明涉及一种基于拒识子空间的分层支持向量机分类方法，适用于处理多类别或非平衡大数据分类问题；该方法采用拒识子空间的方式对大数据实现分层并行化处理，从而改善分类结果；该方法的步骤是：首先训练获得计算复杂度低的支持向量机；然后用互信息学习准则确定支持向量机的拒识子空间，进而获得原始训练集中的拒识训练集；然后在拒识训练集上训练高精度的支持向量机用于进一步判别拒识训练集；上述训练过程根据实际需求重复多次。本发明通过分而治之的思想降低每一层支持向量机的训练复杂度；通过互信息让数据自身确定最佳的拒识子空间；因此，本发明具有计算复杂度低和让数据说话等特点，应用于医学诊断、多类别物体检测等大数据分类领域。

Description

基于拒识子空间的分层支持向量机分类方法

技术领域

本发明属于模式识别和机器学习技术领域，涉及一种分层支持向量机分类方法。

背景技术

医学诊断、入侵检测等非平衡大数据分类领域常见的两类问题是计算复杂度过大和类别样本数量不平衡。巨大的数据量导致训练分类器的计算复杂度大大的增大。除此之外，类别样本数量不平衡问题导致分类器容易将正类样本判别为负类样本(在本发明专利中，正类样本表示小类样本，负类样本表示大类样本)。一般情况下，将正类样本判为负类样本的损失代价要明显高于将负类样本判为正类样本的损失代价，例如将有疾病患者诊断为无疾病的损失代价和将非法入侵判为合法交易的损失代价都要明显高于相反的情形。针对非平衡大数据分类存在的这两类不同的问题，分别有不同的解决方法。

针对计算复杂度过大的问题，目前的解决方法可以分为以下三类：

1)提高计算机设备的计算能力；

2)利用随机采样的方法降低数据的规模；

3)提高训练分类器的算法效率。

解决计算复杂度过大的问题的最直接的方法是提高计算机设备的计算能力，但是该解决方法不是模式识别和机器学习领域研究的问题，而且该解决方法受到计算机硬件技术水平发展的限制和研究开发成本的约束。利用随机采样的方法可以降低原始数据集的规模从而降低计算复杂度，但是该方法破坏了原始数据集的内部结构，丢失了原始数据集的一些有效信息，从而使得分类器不能够充分的利用原始数据集所包含的信息。提高训练分类器的算法效率是降低大数据分类问题的计算复杂度的有效途径，但是目前算法效率的发展速度远低于数据规模膨胀的速度。

针对类别样本数量不平衡的问题，目前的解决方法可以分为以下三类：

1)负类样本欠采样；

2)正类样本过采样；

3)代价敏感学习。

负类样本欠采样方法可以使得非平衡数据变得平衡，而且能够降低原始数据集的规模，但是该方法破坏了原始数据集的内部结构，使得分类器不能够充分的利用原始数据集所包含的有效信息。正类样本过采样方法也能够使得非平衡数据变得平衡，但是该方法使得原始数据集的规模再一次扩大，进一步增加了训练分类器的计算复杂度。代价敏感学习是一种有效的解决类别样本数量不平衡问题的方法，有学者研究表明如果已知类别的错分代价，则应该使用代价敏感学习解决类别样本数量不平衡问题，但是在实际的分类问题中，类别的错分代价往往是未知的。

发明内容

为了解决现有技术的问题，本发明专利提供了一种基于拒识子空间的分层支持向量机分类方法。

本发明使用支持向量机层叠训练法训练低计算复杂度的支持向量机；然后，利用基于互信息的代价缺失学习确定支持向量机的拒识子空间，从而获得难以判定类别的拒识训练数据集；在该拒识训练数据集上训练高分类能力的支持向量机，从而对拒识的样本进行进一步的分类。上述步骤可以根据实际需求重复多次，形成分层支持向量机，直到分层支持向量机的分类结果满足要求。分层支持向量机依据其次结构对测试样本进行分类。

为达成所述目的，本发明提供一种基于拒识子空间的应用于非平衡大数据分类的分层支持向量机分类方法，该分类方法包括如下的步骤：

步骤S1：将数据集按照比例分为训练数据集和验证数据集；确定分层支持向量机的总层数h；

步骤S2：根据训练数据集规模为支持向量机层叠训练法选择核函数，并利用支持向量机层叠训练法在训练数据集上训练第k层支持向量机，k表示某一分层的支持向量机；

步骤S3：在验证数据集上，利用基于互信息的代价缺失学习获得第k层支持向量机的正负类样本拒识阈值，进而确定第k层支持向量机的拒识子空间；

步骤S4：利用第k层支持向量机的拒识子空间分别在训练数据集上和验证数据集上筛选出拒识训练数据集和拒识验证数据集，筛选出的拒识训练数据集和拒识验证数据集分别是下一层支持向量机的训练数据集和验证数据集，利用筛选出的训练数据集和验证数据集重复执行步骤S2至步骤S4，直到分层支持向量机的层数达到总层数h，则执行步骤S5；

步骤S5：给定一个测试样本，根据分层支持向量机的层次结构判定其类别。

本发明的有益效果：本发明为解决非平衡大数据分类问题提供了一种新颖的基于分而治之思想的解决方法，具有一定的实际应用价值。

基于拒识子空间的分层支持向量机分类方法的基本思想是分而治之。分而治之是一种有效的简化并解决复杂问题的方法，其思想广泛地体现在我们的日常生活中。本发明专利利用分而治之的思想，逐渐地、分层次地简化非平衡大数据分类问题，最终解决非平衡大数据分类问题。在机器学习领域，让数据说话是一种评价方法性能的基本准则，其目的是降低人的主观行为对算法效果的影响。针对类别样本数量不平衡问题，本发明专利首先利用拒识的方法筛选出难以判定类别的样本，组成拒识训练数据集，然后利用拒识训练数据集重新训练高分类能力的分类器来进一步判定拒识训练数据集中样本的类别。本发明专利利用基于互信息的代价缺失学习确定支持向量机的拒识子空间，具有让数据说话的特征。

附图说明

图1示出非平衡大数据的基于拒识子空间的分层支持向量机分类方法的流程图。

图2示出支持向量机层叠训练法的流程图。

图3示出支持向量机层叠训练法的算法结构图。

图4示出用基于互信息的代价缺失学习构建拒识子空间的流程图。

图5示出分层支持向量机的分层分类结构图。

图6示出支持向量机分类结果评价准则的示意图。

图7示出部分人造数据集样本点。

图8A和图8B分别示出在人造数据集上第1层线性支持向量机的拒识子空间和第2层非线性支持向量机的分类边界。

图9示出在三个真实数据集上传统支持向量机训练法和支持向量机层叠训练法的训练时间比较。

图10A，图10B和图10C示出在三个真实数据集上传统支持向量机分类方法和分层支持向量机分类方法的分类结果性能比较。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

1、方法概述

图1示出了基于拒识子空间的分层支持向量机分类方法的流程图。因为多类分类是一系列的二类分类问题，并且可以采用一对多的训练判别准则实现并行化处理，所以在此我们只讨论二类分类的情形。基于拒识子空间的分层支持向量机分类方法的主要步骤如下：

步骤S5中所述的具体分类过程是：首先，将测试样本输入到第1层支持向量机，如果第1层支持向量机判定该测试样本的类别则分类过程结束；如果第1层支持向量机拒识该测试样本则将该测试样本输入到第2层支持向量机，让第2层支持向量机判定该测试样本的类别；上述的分类过程一直持续到该测试样本获得类别标签。

所述的应用于非平衡大数据分类的分层支持向量机分类方法，分层支持向量机分类方法采用一对多训练判别准则能够并行化处理多类分类问题。

基于拒识子空间的分层支持向量机分类方法根据分而治之的思想分层训练支持向量机。一般情况下，选择线性核函数训练支持向量机的计算复杂度较低，选择非线性核函数训练支持向量机的计算复杂度较高。由于原始训练数据集规模庞大，所以在训练第一层支持向量机的时候，我们一般选择线性核函数。采用基于互信息的代价缺失学习确定第一层支持向量机的拒识子空间后，我们将得到拒识训练数据集。拒识训练数据集中的样本是相对难以判定类别的样本，因此我们选择非线性核函数在拒识训练数据集上训练高分类能力的第二层支持向量机用于进一步判定被第一层支持向量机拒识的样本的类别。上述分层训练支持向量机的过程可以根据训练数据集中样本的分布情况和实际的分类要求重复多次，从而构建多层次支持向量机。随着支持向量机层次的增加，我们会选择越来越复杂的非线性核函数用于训练支持向量机，得到的支持向量机的分类能力也越来越高。随着支持向量机层次的增加，由于拒识选项的引入，训练数据集的规模会越来越小，所以训练每一层支持向量机的计算复杂度都在可控的范围内。

2、数据预处理

数据预处理是分类领域训练分类器之前的一步重要的处理步骤。数据预处理的主要工作是分析样本的特征属性，删除或者补充数据集中某些样本缺失的属性值，根据样本属性值是否具有连续特征，对样本属性值进行归一化处理。归一化处理是数据预处理的重要步骤，能够降低分类器训练过程中数据的计算偏差。常用的数据归一化处理方法有按比例缩放和正则化处理。在本发明专利中，我们对原始数据采用正则化处理。

在本发明专利中，我们还将原始数据集按比例随机分为训练数据集和验证数据集。训练数据集用于训练支持向量机，验证数据集用于基于互信息的代价缺失学习，这种数据分配方法能够有效的避免数据过拟合现象。在本发明专利中，我们对原始数据集按照7∶3的比例随机分为训练数据集和验证数据集。

3、支持向量机层叠训练法

当训练数据集中样本的数量和样本的特征向量维数都较小时，可以将训练数据集一次性调入计算机内存训练支持向量机，在本发明专利中，我们称这种支持向量机训练法为直接训练法。一般情况下，选择简单核函数训练支持向量机的计算复杂度较低。但是，当原始训练数据集规模很大时，即使选择最简单的线性核函数，一次性调用所有训练数据集来训练支持向量机的训练复杂度依旧十分庞大。除此之外，在有些分类问题中，计算机内存不足以一次性存入所有的训练数据。所以，当训练数据集规模很大时，为了降低支持向量机的训练复杂度，本发明专利引入了支持向量机层叠训练法。图2示出的支持向量机层叠训练法的训练步骤如下：

步骤S21：分析训练数据集的大小和正负类样本的结构，将训练数据集随机等分为m个子训练数据集；

步骤S22：在m个子训练数据集上分别训练支持向量机，并提取出各个支持向量机的支持向量集SVs1；

步骤S23：将支持向量集SVs1两两组合，在组合的支持向量集上训练支持向量机并提取支持向量集SVs2，上述的两两组合，训练和提取的过程依层次进行，一直持续到获得一个整体的支持向量机，提取出整体的支持向量机的支持向量集，并将之反馈给初始的m个子训练数据集，重复执行步骤S22和步骤S23q次，然则执行步骤S24；

步骤S24：最后一次执行步骤S22和步骤S23获得的整体的支持向量机是在全体训练数据集上收敛的最优的支持向量机。

支持向量机层叠训练法的核心思想是尽早剔除非支持向量，从而提高训练支持向量机的效率。将训练数据集随机的等分为m个子训练数据集之后，每一个子训练数据集的规模会显著减小，所以在子训练数据集上训练支持向量机的计算复杂度显著降低。由于支持向量集只占原始子训练数据集的小部分，所以两两组合支持向量集得到的新的训练数据集的规模依旧较小。因而，支持向量机层叠训练法的计算复杂度明显小于直接训练法的计算复杂度。图2中步骤S23将整体的支持向量机的支持向量集反馈给初始的m个子训练数据集的目的是确保层叠训练法收敛于全体训练数据集的全局最优点。图3示出支持向量机层叠训练法的算法结构图，在图3中TD表示训练数据(Training Data)；m表示将原始训练数据集随机平分的份数；SVs表示支持向量机的支持向量集；图3的右侧标出了支持向量机层叠训练法的训练层数。综合图2和图3，我们能够更加直观地理解支持向量机层叠训练法。

在本发明专利中，我们根据训练数据集规模的大小选择某一种支持向量机训练法。

4、拒识子空间

本发明专利通过拒识选项筛选出难以判定类别的拒识训练集。已有的设定拒识子空间的方法是直接的或者间接的人为设定，本发明专利采用基于互信息的代价缺失学习让数据自身选择互信息最优的拒识子空间，这符合机器学习领域让数据说话的要求。本节我们将介绍如何利用基于互信息的代价缺失学习构建拒识子空间。

假设C是支持向量机分类结果的混淆矩阵：

其中，矩阵行表示样本的真实类别；矩阵列表示样本的判定类别；n是自然数，表示样本总类别数；c_ij是自然数，表示真实类别为i的样本判为类别j的样本数；n+1表示拒识选项。根据香农互信息的定义，我们引入“修正”互信息来恒量分类结果：

其中，L表示样本的真实类别随机变量；Y表示样本的判定类别随机变量；l表示样本的真实类别；y表示样本的判定类别；I_m(L；Y)表示样本的真实类别随机变量和判定类别随机变量之间的“修正”互信息；p(l，y)表示样本的真实类别和判定类别的联合概率分布；p(l)表示样本的真实类别的概率分布；p(y)表示样本的判定类别的概率分布；表示样本某一类别的真实数量；表示样本某一类别的判定数量；N是全体样本数量。在本发明专利中，在不产生混淆的前提下，我们也称“修正”互信息为互信息。互信息I_m(L；Y)具有如下性质：

1)I_m(L；Y)对正类样本的错分更加敏感，具有保护正类样本的特性；

2)I_m(L；Y)随着拒识率的变化而变化；

3)I_m(L；Y)具有内在一致的错分代价与拒识代价。

以上三个性质决定I_m(L；Y)可用于处理有拒识选项的非平衡数据分类，而且无需人为的输入一些辅助的损失代价信息就可获得互信息最优的拒识子空间。

4.1支持向量机决策函数

假设给定训练数据集其中每一个特征向量d表示样本特征维数；样本标签l_i∈{±1}，+1表示正类样本，-1表示负类样本。在训练支持向量机的时候，首先将特征向量映射到一个更加高维的特征空间然后在该高维特征空间中构建线性超平面，使得该超平面距离训练数据集中所有样本点的边际最大。在训练数据集上训练获得支持向量机之后，给定一个测试样本，支持向量机的决策函数是：

式中，SV_s表示支持向量集；α_i表示优化获得的支持向量集的权重系数；表示支持向量机核函数；b表示优化获得的偏置项；sgn(·)表示符号函数。

如果将拒识选项引入到支持向量机中，则支持向量机的决策函数是：

其中，表示支持向量机输出函数；t₁和t₂分别表示负类样本和正类样本的拒识阈值；0表示拒识选项。t₁和t₂构成支持向量机的拒识子空间。我们将用基于互信息的代价缺失学习获得t₁和t₂，进而构建支持向量机的拒识子空间。

4.2基于互信息的代价缺失学习的目标函数

假设支持向量机的拒识子空间的负类样本与正类样本的拒识阈值分别为t₁与t₂，表1示出了支持向量机在此拒识空间下的分类混淆矩阵。在表1中TP(t₂)表示真实类别为+1判定类别亦为+1的样本数；FN(t₁)表示真实类别为+1判定类别为-1的样本数；RP(t₁，t₂)表示真实类别为+1但被拒识的样本数；N₊表示真实类别为+1的样本数；FP(t₂)，TN(t₁)，RN(t₁，t₂)和N_{_}有类似的物理意义；表示判定类别为+1的样本数；表示判定类别为-1的样本数；N_R表示被拒识的样本数。假设和分别是正类样本和负类样本的支持向量机输出值的条件概率密度函数，则击中率TPR(t₂)，第二类错误类FNR(t₁)，第一类错误率FPR(t₂)，真负率TNR(t₁)，正类拒识率RPR(t₁，t₂)和负类拒识率RNR(t₁，t₂)分别是(如图6所示)：

为了简化表达式，我们用I_m(t₁，t₂)表示当拒识阈值分别为t₁和t₂时，支持向量机分类结果的互信息I_m(L；Y)。根据等式(1)，基于互信息的代价缺失学习的目标函数是：

max I_m(t₁，t₂) (5)

s.t. t₁≤t₂

其中：

I_m(t₁，t₂)

其中，P(+1)与P(-1)分别是正类样本和负类样本的先验概率。

表1：支持向量机的分类混淆矩阵

我们通过优化求解问题(5)获得互信息最优的拒识子空间。因为该学习过程不需要人为的输入辅助信息，例如错分代价，拒识代价，目标错误率，目标拒识率等等，所以我们称以上的学习过程为基于互信息的代价缺失学习。

4.3牛顿法

根据等式(4)可知，TPR(t₂)，FNR(t₁)，FPR(t₂)和TNR(t₁)分别对t₁和t₂的偏导数为：

(7)

根据等式(6)和(7)，我们可以求得I_m(t₁，t₂)的梯度为：

假设ψ_P(z)和ψ_N(z)分别是条件概率密度函数和的导数，则我们可以进一步求得I_m(t₁，t₂)的Hessian矩阵H为：

所以，依据约束条件，优化问题(5)的牛顿法是：

其中，表示拒识阈值；α表示牛顿法迭代步长；下标k表示迭代步数。一般情况下，α＝1时，牛顿法具有二次收敛性，所以基于互信息的代价缺失学习具有较高的学习效率。

4.4Parzen Window非参数估计法

为了能够使用牛顿法优化目标函数(5)，我们需要已知条件概率密度函数与和它们对应的导数ψ_P(z)与ψ_N(z)。但是，实际中我们无法已知ψ_P(z)和ψ_N(z)的具体函数形式。Parzen Window非参数估计法是一种被广泛使用的非参数估计法，它不需要假设目标函数的具体形式，能够从已知数据中估计函数取值。所以，我们采用Parzen Window非参数估计法从训练数据集中估计上述函数的取值。ψ_P(z)和ψ_N(z)的Parzen Window非参数估计法的计算公式是：

(11)

其中，G(z，σ²)表示高斯核函数；σ表示窗宽。在本发明专利中，我们采用非参数估计领域的ROT准则分别估计公式(11)中的窗宽。

4.5构建拒识子空间步骤

图4示出采用基于互信息的代价缺失学习构建支持向量机拒识子空间的步骤：

步骤S31：设定第k层支持向量机的正负类样本的初始拒识阈值；

步骤S32：利用第k层支持向量机和设定的初始拒识阈值，获得验证数据集的分类混淆矩阵，计算该分类混淆矩阵的互信息；

步骤S33：利用Parzen Window非参数估计法在验证数据集上估计位于拒识阈值处正负类样本的条件概率密度与条件概率密度的导数，从而获得分类混淆矩阵互信息的梯度与Hessian矩阵；

步骤S34：利用牛顿法，获得经过一步迭代优化的拒识阈值，重复执行步骤S32至步骤S34，直到获得牛顿法迭代收敛的结果，然则执行步骤S35：

步骤S35：牛顿法迭代收敛获得的拒识阈值是互信息最优的拒识阈值，构成了第k层支持向量机的拒识子空间。

根据本节所描述的基于互信息的代价缺失学习过程，我们可以在验证数据集上学习获得支持向量机互信息最优的拒识子空间，以便筛选出难以判定类别的拒识训练数据集。在验证数据集上学习互信息最优的拒识子空间能够有效的避免数据过拟合现象。

5、分层支持向量机的分类过程

根据上文描述的基于拒识子空间的分层支持向量机的训练过程，我们将获得图5所示的分层支持向量机分类系统，图5中P表示正类样本类别，R表示拒识样本类别，N表示负类样本类别。分层支持向量机是一种顺序分类过程。给定一个测试样本，该测试样本首先输入到含有正类样本类别P、拒识样本类别R和负类样本类别N的第一层支持向量机，如果第一层支持向量机能够判定该测试样本为正类样本类别P或者负类样本类别N，则分类过程结束；如果第一层支持向量机判定该测试样本为拒识样本类别R，则将该测试样本输入到含有正类样本类别P、拒识样本类别R和负类样本类别N的第二层支持向量机，让第二层支持向量机判定其类别标签；这样的分类过程一直持续到只含有正类样本类别P和负类样本类别N的第h层支持向量机，到达第h层支持向量机的测试样本将最终被判定为正类样本类别P或者负类样本类别N。由于训练支持向量机的核函数随着支持向量机所在层次的增加而变得越来越复杂，因而训练得到的支持向量机的分类能力越来越高。在分层支持向量机中，层次较高的支持向量机主要用于判定难以判定类别的样本。

6、一对多训练判别准则

基于拒识子空间的分层支持向量机分类方法既能够用于二类分类也能够用于多类分类。基于拒识子空间的分层支持向量机分类方法采用一对多训练判别准则处理多类分类问题，并且能够达到训练过程并行化的目的。一对多训练判别准则是模式识别和机器学习领域常用的处理多类分类问题的准则，其具体方法是：将多类中的一类作为正类样本，其余的各类全部作为负类样本，从而将多类分类问题转变为一系列二类分类问题，转换得到的一系列二类分类问题能够很容易的实现并行化处理。

7、实验仿真

7.1人造数据集

在本节，我们将结合实验仿真结果直观地展示基于拒识子空间的分层支持向量机分类方法的分类过程。我们生成了具有二维特征的人造数据集，如图7所示，目的是为了能够用图片直观地展示分类的过程。在图7中，“o”表示负类样本，“+”表示正类样本，负类样本与正类样本之间的样本数量比是12.4：1。我们随机的抽取70％的人造数据作为训练数据集，20％的人造数据作为验证数据集，10％的人造数据作为测试数据集，此处我们采用两层支持向量机分类方法。我们为第一层支持向量机选择线性核函数，并称第一层支持向量机为支持向量机-1。利用上文描述的基于互信息的代价缺失学习，我们在验证数据集上学习获得了支持向量机-1的拒识子空间的拒识阈值分别为-0.6533和1.6144。图8A示出了支持向量机-1的拒识子空间，在图8A中实线-0.6533是负类样本拒识阈值，实线1.6144是正类样本拒识阈值，虚线0是支持向量机-1原始的分类边界。支持向量机-1输出值介于-0.6533和1.6144之间的样本全部被拒识，而支持向量机-1输出值小于-0.6533和大于1.6144的样本则分别被判为负类样本和正类样本。我们将支持向量机-1拒识的样本组成拒识训练数据集，从图8A中我们可以直观地观察到拒识训练数据集中的样本均位于支持向量机-1原始的虚线0分类边界的附近。John Shawe-Taylor研究证明支持向量机分类器的输出值可以用于估计预测样本类别的置信度，即样本的支持向量机输出值越是远离0，则样本属于某一类别的概率就越大；反之，则样本属于某一类别的概率就越小。因为拒识训练数据集中的样本均属于难以判定类别的样本，所以我们需要训练另一个高分类能力的支持向量机用于进一步判定拒识训练数据集中样本的类别。高斯核函数的支持向量机的分类能力一般高于线性核函数的支持向量机，所以我们为第二层支持向量机选择高斯核函数，并称第二层支持向量机为支持向量机-2。图8B示出了在拒识训练数据集上训练获得的支持向量机-2的分类边界，在图8B中虚线0是支持向量机-2的分类边界。从图8B中我们可以直观地观察到支持向量机-2能够更加准确的判定拒识训练数据集中样本的类别。我们用该两层支持向量机去判定测试数据集中样本的类别，准确率为99.82％，击中率TPR为100％，第一类错误率FPR为0.19％。为了进行比较，我们选择高斯核函数直接在原始训练集上训练支持向量机(我们称之为传统支持向量机)，然后在同样的测试集上测试该支持向量机的分类能力，所得的分类结果的准确率为99.64％，击中率TPR为100％，第一类错误FPR为0.39％。比较以上的两组分类结果，我们发现两层支持向量机的分类结果稍微优于传统支持向量机的分类结果。

7.2真实数据集

为了进一步验证在非平衡大数据分类领域本发明专利的有效性，我们还在真实数据集上进行了测试。我们选择了三组真实数据集Jml，Mnist和SensIT Vehicle。这三组真实数据集的基本统计信息请见表2。Mnist与SensIT Vehicle均是多类别数据集，我们分别将它们当中样本数量最少的类别作为正类样本，其余类别的样本均作为负类样本，以使它们成为二类

表2：真实数据集基本统计信息

1http:／／promise.site.uottawa.ca／SERepository／datasets-page.html

2http:／／yann.1ecun.com／exdb／mnist／

3http:／／www.csie.ntu.edu.tw／～cjlin／libsvmtools／datasets／

数据集，这样同时增加类别之间的非平衡性。我们依旧随机的抽取数据集中70％的样本作为训练数据集，20％的样本作为验证数据集，10％的样本作为测试数据集，并且选择两层支持向量机，第一层为线性核函数的支持向量机，第二层为高斯核函数的支持向量机。为了进行比较，我们也在相同数据集上进行了传统支持向量机分类方法的训练与测试。我们选择准确率，击中率TPR和第一类错误率FPR来衡量这两种分类方法的分类结果。我们运行实验的计算机的硬件配置是：处理器为Intel Core i7-3770CPU@3.4GHz，内存为16G。我们借助台湾大学林智仁教授开发的libsvm软件工具包完成所有的实验。图9示出了两种支持向量机分类方法训练支持向量机所消耗的时间。在三组真实数据集上，支持向量机层叠训练法所消耗的时间均小于直接训练法，而且数据集规模越大，支持向量机层叠训练法的训练效率的优越性越大。这说明了基于拒识子空间的分层支持向量机分类方法提高了支持向量机的训练与分类效率。图10A，图10B，图10C分别示出了两种分类方法分类结果基于准确率，击中率TPR，第一类错误率FPR的比较结果。基于拒识子空间的分层支持向量机分类方法的分类结果均优于传统支持向量机分类方法的分类结果，同时更加的具有保护正类样本的能力。综合考虑支持向量机训练时间与分类结果，我们得出结论：基于拒识子空间的分层支持向量机分类方法是一种适用于非平衡大数据的有效的提高分类效率与分类结果的分类方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于拒识子空间的应用于非平衡大数据分类的分层支持向量机分类方法，其特征在于，该分类方法包括如下的步骤：

步骤S1：确定分层支持向量机的分类层数h；

步骤S2：利用支持向量机层叠训练法训练第k层支持向量机，k表示某一分层的支持向量机，每一层均只有一个支持向量机；

步骤S3：利用基于互信息的代价缺失学习确定第k层支持向量机的正负拒识阈值；

步骤S4：利用第k层支持向量机的正负拒识阈值筛选出不能够被第k层支持向量机分类的拒识数据集，该拒识数据集用于训练下一层支持向量机和确定下一层支持向量机的正负拒识阈值，重复执行步骤S2至步骤S4，直到分层支持向量机的分类层数达到h，然后执行步骤S5；

步骤S5：给定一个测试样本，根据分层支持向量机的层次结构判定其类别；如果第k层支持向量机能够判断该测试样本的类别，则分类过程结束；否则，用第k+1层支持向量机判断该测试样本的类别，直到第h层支持向量机；

其中，步骤S3中所述用基于互信息的代价缺失学习构建正负拒识阈值的步骤如下：

步骤S31：设定第k层支持向量机的初始正负拒识阈值；

步骤S32：利用第k层支持向量机和设定的初始拒识阈值，获得数据集的分类混淆矩阵，计算该分类混淆矩阵的互信息；

步骤S33：利用Parzen Window非参数估计法在数据集上估计位于拒识阈值处正负类样本的条件概率密度与条件概率密度的导数，从而获得分类混淆矩阵互信息的梯度与Hessian矩阵；

步骤S34：利用牛顿法，获得经过一步迭代优化的正负拒识阈值，重复执行步骤S32至步骤S34，直到获得牛顿法迭代收敛的结果，然后执行步骤S35；

步骤S35：牛顿法迭代收敛获得的正负拒识阈值是互信息最优的正负拒识阈值。