CN102831432A

CN102831432A - 一种适用于支持向量机训练的冗余数据约减方法

Info

Publication number: CN102831432A
Application number: CN2012101369851A
Authority: CN
Inventors: 沈项军; 吴昊翔; 蒋中秋; 林琳; 詹永照; 杨鹤标
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2012-05-07
Filing date: 2012-05-07
Publication date: 2012-12-19

Abstract

本发明公开一种适用于支持向量机训练的冗余数据约减方法，通过类最大最小距离方法对纯子类集合筛选，找到离支持向量机的分类面较远的纯子类并予以删除，得到集合上约减纯类集合后的纯子类子集合，对保留下来的可能存在支持向量的多个聚类，按照费歇尔判别率准则进一步将同一聚类的数据分成内层冗余数据和外层边界数据，只保留外层边界数据进行支持向量机的训练，从而有效消除同一类数据上的内部冗余数据，能在保持支持向量机分类精度的同时，大大减少海量数据上支持向量机训练所需时间，显著提升支持向量机训练的时间和空间效率，使之能够应对海量数据的分类训练问题。

Description

一种适用于支持向量机训练的冗余数据约减方法

技术领域

本发明涉及人工智能领域，特别是数据挖掘和模式识别技术，是一种基于聚类和费歇尔判别率的冗余数据约减方法，可用于支持向量机的快速训练。

背景技术

分类是人类智能活动的一个重要任务，其目标是将未分类的数据按照一定的规则归类到已知类别中。因此数据分类一直是数据挖掘和模式识别等人工智能技术的重要应用方向，被广泛应用在诸如手写字体识别、人脸识别以及垃圾邮件鉴别等多个领域。目前已出现多种智能分类技术，如判决树（decision tree）方法，神经网络方法（neural network）以及支持向量机（support vector machines）方法等。支持向量机方法由于其具有坚实的统计学习理论基础，成为近年来应用最广泛、分类效果最好的分类器。然而传统的支持向量机适合小样本情况下的训练及分类，这是因为，在支持向量机的样本训练方面，传统上主要利用标准二次型优化技术解决对偶问题的方法来解决，如Platt提出了“序列最小化”(SequentialMinimal Optimization，SMO)算法，这种算法将工作样本集的规模减到最小——两个样本。吴翔等人用块算法的思想对SMO算法进行了改进，称为分块SMO算法(CSMO)。该算法利用分块思想通过某种迭代方式逐步排除非支持向量。这些优化算法的基本思想是把大规模的二次规划问题转化为小规模的二次规划问题，在不太影响计算精度的情况下尽可能提高速度。

然而随着大型数据库，计算机技术及网络技术的发展，出现了海量数据的分类需求，如邮件服务器每天需要处理上百万垃圾邮件的分类，上述算法在应用到海量数据的分类上就显得异常缓慢，往往需要几十、几百小时甚至更长时间才能完成训练任务。在海量数据的支持向量机的分类训练上，出现了各种利用无监督聚类以消除非支持向量数据，即消除冗余数据的方法。这一类方法的基本思想是把数据用各种方法进行分类，然后删去对支持向量机训练分类无影响或影响较小的冗余数据，其缺陷是要牺牲一定分类精度的情况下才能大幅度提升分类的速度，如Cervantes等人提出的使用模糊聚类（Fuzzy Clustering）方法对聚类后的结果进行分析，只保留那些同时含有多类数据的聚类（即在很大概率上有支持向量的聚类）进行支持向量机的训练；Yu等人提出了层次式聚类(Hierarchical Clustering)方法，通过快速计算出粗略的分类面，然后对数据进行多次聚类，每次聚类都保留靠近粗略分类面的那一部分数据，删除远离粗略分类面的冗余数据，最后得到一个较小的样本集。

发明内容

本发明的目的是为克服上述现有技术的缺陷而提供一种适用于支持向量机训练的冗余数据约减方法，利用类最小最大化方法及费歇尔判别率准则，对大规模海量数据上冗余训练数据进行约减，在不降低支持向量机分类精度的条件下，显著提升训练速度。

为实现上述目的，本发明的技术方案是采用如下步骤：A、先将训练数据集合定义为，

Figure 2012101369851100002DEST_PATH_IMAGE002

是n维实向量空间

上的数据对象，

是数据对象

的实际类别标签，共有N个数据对象，数据对象分别属于M个实际类别；然后利用K均值聚类方法将训练数据聚类成K个子类

，将K个子类分为所包含的数据对象为单一类别的纯子类集合

和子类所含数据对象为两个以上多个类别的混合子类

；最后将混合子类MC中每一个混合子类中的数据对象按照其所属实际类别再次划分为多个纯子类，最终分成L个纯子类

，得到R+L个纯子类集合

。

B、通过类最大最小距离方法对纯子类集合UC筛选，找到离支持向量机的分类面较远的纯子类并予以删除，得到集合S上约减纯类集合后的纯子类子集合RS₁，具体按以下步骤实现：

1）计算集合S上每一个纯子类的聚类中心，对R+L个聚类中心及其对应的实际类别标签组成的集合使用支持向量机分类，得到M-1个近似分类面；

2）从实际类别标签

=1开始，选择纯子类UMC中属于同一实际类别标签的若干子集合

，计算子集合

的某一子集的每一个数据对象到M-1个近似分类面的最近距离，以

中所有子集合的距离的极大值作为该实际类别标签LY的类最大距离；

3）选取集合UC上所有实际类别标签均是LY的子集合

，H_cj是纯子类个数；

4）从cj=1开始，选取集合

中的一个纯子类

，计算

中每一个数据对象到M-1个近似分类面的最近距离作为该数据对象到M-1个近似分类面的距离，选取所有数据对象到近似分类面的极小值作为纯子类

到近似分类面的距离；

5）将cj递增1，并重复步骤4）直到cj=

+1；

6）将LY递增1，选择下一个实际类别标签，转到步骤2）继续执行，直到LY=M+1；

7）返回剩余子类及其所含数据集合，集合UC上最终保留H个纯子类，剩余子类共有H+L个纯子类。

C、使用费歇尔判别法对纯子类集合RS₁去除子类内层冗余数据，得到最终数据集合RS₂，具体按以下步骤实现：

1）从di=1子类开始，选取集合RS₁中的一个子类为

，计算中每一个数据对象到该类的聚类中心G_di的距离并排序得到对应的数据对象集合为

；

2）统计小于该数据对象到聚类中心距离内的数据对象个数，得到该数据对象到聚类中心距离上的数据密度集合为

；

3）设置参数d=1，LD=I_m，B_min=1，B_max=m_di，I_m=m+1；

4）若d<LD，执行下一步骤5）；否则跳转到步骤9）；

5）计算当前步长

；

6）在以

到

距离范围内的数据密度子集中，以SL为步长计算对应距离上的数据密度集合Den的费歇尔判别率值

；

；在第k个步长上，将数据密度集合Den在

到

距离上分成

和

两个子集；得到第gk个步长上，将数据密度集合Den分成V和T两个子集后得费歇尔判别率的值；

是子集合V上数据密度的均值，是子集合V上数据密度的均方差；

是集合T上数据密度的均值，

是集合T上数据密度的均方差；

7）选取值F上最大的两个费歇尔判别率值，得到其所对应的排序距离，将这两个排序距离的位置分别赋给B_min和B_max；

8）将d递增1，并跳转到步骤4）；

9）以当前排序距离

为阈值，删除数据对象中所有到该类聚类中心距离小于

的数据对象；

10）将di递增1，并跳转到步骤1），处理集合RS₁中的下一个子类,直到di=H+L+1。

11）将剩余的数据组成集合

。

本发明的有益效果是：

1、本发明由于考虑到用于分类的支持向量都来自于分类面附近，即支持向量数据来自该类数据的外部边缘而不在其内部，对保留下来的可能存在支持向量的多个聚类，按照费歇尔判别率（Fisher Discriminant Ratio）准则进一步将同一聚类的数据分成内层冗余数据和外层边界数据，只保留外层边界数据进行支持向量机的训练。将费歇尔判别率准则首次应用于同一聚类数据中，以确定同一类数据上内部稠密数据与外部稀疏数据的分界，从而有效消除同一类数据上的内部冗余数据。由于有效消除了内部冗余数据，保留了外部存在支持向量的外部数据，能在保持支持向量机分类精度的同时，大大减少海量数据上支持向量机训练所需时间，显著提升SVM训练的时间和空间效率，使之能够应对海量数据的分类训练问题。

以下结合附图和具体实施方式对本发明作进一步详细说明。

附图说明

图1是本发明实施例中的数据示意图；

图2是本发明实施例中的约减冗余子类后所得数据示意图

图3是本发明实施例中的约减子类内部冗余数据并训练得到最终分类面的数据示意图。

具体实施方式

本发明的具体实施步骤如下：

步骤一：将训练数据集合定义为

。

是n维实向量空间

上的数据对象，

是数据对象

的实际类别标签。训练数据集合D中共有N个数据对象，这些数据对象分别属于M个实际类别。利用K均值聚类（K-Means）方法将训练数据聚类成K个子类。假设N个数据对象采用K均值聚类方法后将数据分成K个子类，所得子类为

。对得到的K个子类，按照子类所含数据对象所对应的实际类别的分布情况，将子类分为：子类中所包含的数据对象为单一类别的纯子类

和子类所含数据对象为两个以上多个类别的混合子类

。即K个子类C为MC与UC的集合之和，即

。将MC中每一个混合子类中的数据对象按照其所属实际类别再次划分为多个纯子类，如第a个混合子类mc_a，假设其数据对象包含l个实际类别，又再分成l个纯子类。假设K-R个混合子类，最终又分成L个纯子类

。此时得到的R+L个纯子类集合即

。

步骤二：由于UMC集合比较靠近分类面，这些纯子类存在支持向量的可能较大。而直接由K均值（K-Means）聚类得到的纯子类集合UC通常距离分类面较远，其中存在支持向量的可能性较小。本发明通过类最大最小距离方法对纯子类集合UC进行筛选，以找到离支持向量机的分类面较远的那些纯子类，这些纯子类被认为不包含支持向量，对这些子类予以删除以减少集合所包含纯子类及其所包含的训练数据。应用类最大最小化距离方法得到集合S上约减纯类集合后的子集RS₁，应用类最大最小距离方法得到集合S上约减纯类集合后的子集RS₁的过程如下：

a1. 首先计算集合S上每一个纯子类的聚类中心，如设S集合上第e个纯子类的数据集合为

，

为训练数据集合D经聚类后在S集合的第e个子集合上的数据，设该类数据有m个数据对象且每个数据对象的实际类别标签均为Y。其聚类中心

为；应用所得S集合上R+L个聚类中心及其对应的实际类别标签组成以下集合GY：

，对集合GY使用支持向量机分类，如使用LIBSVM工具得到近似分类面为

。其中，是近似分类面上的支持向量；w是根据训练得到近似分类面上的支持向量的权重，因此w是一个n维向量；b是偏移量。当

>0，表明数据对象属于某一类，

<0时属于另一类；

=0表明无法判断数据对象属于任何一类。由于支持向量机被设计为两类问题的分类，当数据集有M个类别时，采用一对一（one-against-one）进行两两分类训练，共得到M(M-1)/2个近似分类面。即对任一类数据，其近似分类面有M-1个。

a2. 从实际类别标签

=1开始，选择UMC中属于同一实际类别标签的若干子集合，如

表示该子集合所有的数据对象的实际类别标签均为LY。计算子集合的某一子集如

的每一个数据对象到M-1个近似分类面的最近距离。假设子集合

中的第Z个数据对象为

，其到近似分类面的最近距离为

。其中，

是数据对象

到第io个近似分类面的距离，是权重w的距离。

是距离度量，本发明采用欧式距离，即

，

是n维向量w的第mn个分量。取

所有数据对象到近似分类面的极大值作为该子集合的距离。以

中所有子集合的距离的极大值作为该实际类别标签LY的类最大距离，假设该距离为

。

a3.对于纯子类集合UC,选取集合上所有实际类别标签均是LY的子集合

，假设该子集合上共有H_cj个纯子类。

a4. 从cj=1开始，选取集合

中的一个纯子类计算该子类中每一个数据对象到M-1个近似分类面的最近距离作为该数据对象到M-1个近似分类面的距离；选取所有数据对象到近似分类面的极小值作为纯子类

到近似分类面的距离，假设为DisMin_cj。此时判断，如果DisMin_cj>

，说明

子集合中纯子类

所包含的数据距离近似分类面较远，不可能存在支持向量，舍弃子类；否则保留子类

。

a5.将cj递增1，并重复以上a4，直到cj=

+1,说明集合UC_LY中所有子集都已完成是否应该舍弃的判断。

a6.将LY递增1，选择下一个实际类别标签，转到a2继续执行，直到LY=M+1,说明集合UC中所有子集都已完成是否应该舍弃的判断。

a7. 返回剩余子类及其所含数据集合。假设集合UC上最终保留H个纯子类，则剩余子类共有H+L个纯子类，即

。假设RS₁集合上的数据对象集合为，其中第si个纯子类所拥有的数据对象集合为

。

表示集合RS₁上第si个纯子类上第gx个数据对象。该类数据对象假设共有m_si个。

步骤三：使用费歇尔判别法对筛选后得到的纯子类集合RS₁进一步去除子类内层冗余数据，得到最终数据集RS₂。费歇尔判别率准则是模式识别领域一种经典的分类方法。通过寻找使得类内离散度最小、类间离散度最大的投影方向将数据进行分类。费歇尔判别率应用在两类或者多类数据的分类上。本发明应用费歇尔判别法对RS₁集合进一步去除子类内层冗余数据，得到最终数据集RS₂的具体步骤如下：

b1.从di=1开始，选取集合RS₁中的一个子类，假设选择第di个子类为

，其对应的数据对象集合D_di。计算该子类中每一个数据对象到该类的聚类中心G_di的距离并排序，假设该类数据对象共有m_di个，得到第di个子类排序后的距离集合为

。D_di上按照此距离进行排序后所对应的数据对象集合为

。

b2.以每个排序的数据对象为参照，统计小于该数据对象到聚类中心距离内的数据对象个数，得到该数据对象到聚类中心距离上的数据密度。假设排序对象

，其密度为。该子类上所有数据对象的数据密度集合为

。

b3.设置参数d=1,LD=I_m,B_min=1,B_max=m_di。其中，参数LD规定了迭代的次数。参数I_m是一个经验值，通常一个子类中数据量越大，I_m越大，对于一个内部数据量为10^m级的数据，本发明采用I_m =m+1，如聚类为10⁴级数据，I_m =5。参数B_min和B_max规定了数据密度集合Den上应用费歇尔判别率的取值范围，即在以

到

距离范围内的数据密度子集中计算费歇尔判别率的值。

b4.若d<LD，则说明迭代尚未完成，执行b5；否则跳转到b9。

b5.计算当前步长SL。其中

。

b6. 在以

到

，

。在第k个步长(即

距离上)上，将数据密度集合Den在

到

距离上分成

和

两个子集。应用费歇尔判别率所得f_gk为：

其中，是集合V上数据密度的均值，

是集合V上数据密度的均方差；同样

是集合T上数据密度的均值，

是集合T上数据密度的均方差。f_gk是第gk个步长上将数据密度集合Den分成V和T两个子集后所得费歇尔判别率的值。

b7. 选取集合F上最大的两个费歇尔判别率值，从而得到其所对应的排序距离，假设为dist_{m_i},dist_{m_j}（假设m_i<m_j）；将这两个排序距离的位置m_i和m_j分别赋给B_min和B_max。

b8.将d递增1，并跳转到b4。

b9.以当前排序距离

为阈值，删除数据对象集合

中所有到该类聚类中心距离小于

的数据对象。即保留排序距离集合

上所对应的数据对象

，假设此集合为RD_di。

b10.将di递增1，并跳转到b1，处理集合RS₁中的下一个子类,直到di=H+L+1。此时说明所有子类都已处理完毕。

b11. 将剩余的数据组成集合

。

步骤四：最终对保留下来的数据集RS₂进行SVM训练学习，以得到最终的支持向量。

以下结合图1-3给出本发明一个实施例以进一步阐述本发明。

实施例

图1表示一个两类实际数据，其中正方形表示一类数据，圆形表示另一类数据。应用步骤一进行K均值聚类，假设K设定为7，得到7个子类数据

，每一类数据用椭圆形虚线包含。对得到的7个子类，按照子类所含数据对象所对应的实际类别的分布情况，将子类分为：子类中所包含的数据对象为单一类别的纯子类和子类所含数据对象为两个以上多个类别的混合子类

。将MC中每一个混合子类中的数据对象按照其所属实际类别再次划分为多个纯子类，最终又分成4个纯子类

。此时得到的9个纯子类集合

。

图2表示应用步骤二对S集合应用类最大最小距离方法约减冗余子类：

1、首先计算集合S上每一个纯子类的聚类中心，在图2中用三角形表示。应用S集合上所得8个聚类中心及S集合上纯子类对应的实际类别作为参数：

，

表示S集合上i子类的聚类中心，1代表正方形数据，2代表圆形数据。对以上参数使用LIBSVM工具得到近似分类面。该近似分类面在图2中用实直线表示。图2中两条虚直线上的三角形聚类中心表示距离近似分类面最近的支撑向量。由于数据只有两类，因此对任一类数据，其分类面只有1个。

2、从实际类别标签LY=1的正方形数据开始，选择UMC中属于同一类别LY的若干子集合，在图2中为

，分别计算每一个子集

和中每一个数据对象到近似分类面的最近距离。分别取子集中所有数据对象到近似分类面的极大值作为该子集合的距离。然后以和

中子集合距离的极大值作为

类的类最大距离，假设该距离在图2中为

。

3、对于属于同一实际类别标签为LY的纯子类集合UC,如LY=1选取集合

，即子集合是正方形数据的子类。

4、从

类开始，计算

类中每一个数据对象到近似分类面的距离；选取所有数据对象到近似分类面的极小值作为子类到近似分类面的距离，假设该距离在图2中为DisMin_c2。由于DisMin_c2<

，说明

类可能存在支持向量，保留子类

。

5、选择集合子类

的下一个子类, 转到步骤4，直到

中所有子类选择完毕。

6、将LY递增1，选择下一个实际类别标签，转到步骤2继续执行，直到LY=3为止。

7、经过以上六个步骤，删除了离近似分类面较远的子类。返回剩余子类及其所含数据集合，在图2中为

。

图3表示应用步骤三和步骤四，约减子类内部冗余数据并训练得到最终分类面。RS₁中每一个子类删除的冗余数据在图3中用实线圆圈出。实线圆和虚线椭圆之间包含的数据为最终的数据集RS₂。步骤四中应用RS₂得到的最终分类面在图3中用直线表示。

其中，应用步骤三对RS₁集合进一步去除子类内层冗余数据，得到最终数据集RS₂的具体步骤如下

A、从集合RS₁的第一个子类开始，计算该子类中每一个数据对象到该类的聚类中心的距离。根据图3，

子类有30个数据，将此距离进行排序，得到第

子类排序后的距离集合

以及按照此距离进行排序后所对应的数据对象集合。

B、以每个排序的数据对象为参照，统计小于该数据对象到聚类中心距离内的数据对象个数，得到该数据对象到聚类中心距离上的数据密度。

子类的数据密度集合为

。

C、因此设置初始参数d=1,LD=I_m,B_min=1,B_max= m_di。由于图3的子类数据较少，故可设置LD=2，即只迭代一次。m_di是子类所拥有数据对象的个数，在

中，该数值为30，表示对所有数据密度集合计算费歇尔判别率值。

D、若d<LD，则说明迭代尚未完成，执行步骤E；否则跳转到步骤I。

E、计算当前步长

。由于图3的数据较小，SL=1。

F、在以

到

。在子类

中，o=29。

G、选取集合F上最大的两个费歇尔判别率值，从而得到其所对应的排序距离，假设为dist_{m_i},dist_{m_j}（假设m_i<m_j）；将这两个排序距离的位置i和j分别赋给B_min和B_max。

H、将d递增1，并跳转到步骤D。

I、以当前排序距离

为阈值，删除当前数据对象集合中所有到该类聚类中心距离小于

的数据对象。在图3中每一个子类用实线圆圈内的数据对象为删除的数据对象，在实线圆和虚线椭圆之间包含的数据为子类所保留的数据对象。

J、跳转到步骤A，处理集合RS₁中的下一个子类,直到所有子类都已处理完毕。

K、将剩余的数据组成集合RS₂，作为最终训练的数据集合。

在下表一中，第一个数据是通过计算机模拟生成的50000个二维高斯分布的数据，它服从以（0，1）和（1，0）为均值的标准二维正态分布。实验中，根据数据的形态和数量，对这组数据设置聚类数K=20。UCI/a6a和UCI/a9a来自UCI / Adult数据集，是一组实际类别为2类的数据，其中每个数据包含123维。实验中，对这两组数据分别设置聚类数K=50和K=60。UCI/Covtype.binary是一组包含57万个54维数据点的实际类别为2类的数据，实验中设置K=100。

表一原始数据

下表二是表一数据经本发明处理后通过SVM训练与直接使用LIBSVM工具训练的对比结果。从表二可以看出，与LIBSVM相比，本发明在所有数据集上都能取得和LIBSVM基本相同的分类精度，同时显著降低SVM训练所需的时间。特别是在UCI/Covtype.binary海量数据集中，本发明取得的时间优势相当可观。说明随着数据量的增长，本发明在SVM训练过程中取得的时间效率提升越发显著。

表二应用本发明及LIBSVM所得训练时间与分类精度的对比结果

	直接使用SVM训练所需总时间（S）	直接使用LIBSVM的分类精度	本发明优化后SVM训练所需总时间	使用本发明的分类精度
					模拟数据	65.23	99.99%	27.27274	99.99%
UCI/a6a	87.574	83.60%	70.66000032	83.47%
					UCI/a9a	437.211	84.09%	301.3219998	83.84%
UCI/Covtype.binary	39654.3	86.85%	15328.4	85.40%