CN101944122A

CN101944122A - 一种融合增量学习的支持向量机多类分类方法

Info

Publication number: CN101944122A
Application number: CN 201010289451
Authority: CN
Inventors: 琚春华; 郑丽丽; 梅铮
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2010-09-17
Filing date: 2010-09-17
Publication date: 2011-01-12

Abstract

本发明涉及一种融合增量学习的支持向量机多类分类方法。本发明的目的是提供一种融合增量学习的支持向量机多类分类方法，旨在减少样本的训练时间、提高分类器的分类精度及抗干扰性。本发明的技术方案是：1、在总的样本中随机抽取一部分作为训练样本集D，另一部分作为测试样本集T；2、对训练样本集D进行预抽取支持向量；3、用循环迭代法对预抽取训练样本集PTS进行支持向量机训练，得到多类分类模型M-SVM；4、对多类分类模型M-SVM进行二叉树处理，得到支持向量机多类分类模型BTMSVM₀；5、对多类分类模型BTMSVM₀进行增量学习训练，得到模型BTMSVM₁；6、将步骤1中的测试样本集T输入到多类分类模型BTMSVM₁进行分类。本发明用于通过增量学习对海量信息进行高效多类分类。

Description

一种融合增量学习的支持向量机多类分类方法

技术领域

本发明涉及智能信息处理和机器学习技术领域，尤其是一种融合增量学习的支持向量机多类分类方法。适用于在复杂属性条件下，通过增量学习的方式对海量信息进行高效多类分类。

背景技术

支持向量机(SupportVector Machine)是近几年发展起来的一种机器学习方法，它是基于结构风险最小化原则构建的，具有很强的学习能力和泛化性能，能够较好地解决小样本、高维数、非线性、局部极小等问题，广泛的应用于模式分类和非线性回归。传统的支持向量机是针对二类分类问题而提出的，不能直接用于多类分类，但在实际的应用中更多的是多类分类问题，如何将传统支持向量分类机推广到多类分类仍是目前支持向量机领域研究的热点。

增量学习技术相比于传统的学习方法具有明显的优越性，主要表现为：(1)增量学习算法可以充分利用历史的训练结果，从而减少后继训练时间；(2)无须保存历史数据且可舍弃无用样本减小训练集，从而减少了存储空间的占用；(3)随着增量学习过程的不断进行，所获得分类器的分类精度将不断提高。

Syed.N(1999年)是最早开始基于支持向量机增量算法研究的学者，在该算法中给出了增量学习的增加策略，每次增量学习后只保留支持向量，丢弃其他的样本。G.Cauwenberghs(2003年)等人提出了在线增量训练的精确解释，即增减一个训练样本对Lagrange系数和支持向量的影响。该算法是有效的，但其缺点是忽略了新增样本分布对已有样本分布的影响，其训练结果并不令人满意。萧嵘等(2001年)提出了一种支持增量学习的方法ISVM，其训练集的来源为支持向量、误分数据或有选择地淘汰一些样本而来，算法具有较高的学习精度。C.Domeniconi(2001年)提出了一种快速支持向量机增量学习算法。上述的这些算法的学习或存在振荡现象或因引入的淘汰机制缺乏新增样本对支持向量集影响的考虑而导致分类知识丢失。Liao DP等人(2007年)提出一种基于密度法的增量学习淘汰算法，该方法能准确地提出边界向量，淘汰掉非边界向量，有效地淘汰掉无用样本，保留重要信息，既保证训练的精度又提高训练的速度，计算简单且易于实现。尽管关于样本的增量学习取得上述一些成果，但有关该领域的增量学习方法的研究还处于初级阶段，且都局限于在两类分类中样本的增加，然而实际中存在大量的多分类问题，如文本分类、信用评估、人脸识别等，因此针对多类别增量学习的研究很必要也很重要。

目前对支持向量机多类分类算法的研究比较多，包括1-a-r(one-against-rest)算法.1-a-1(one-against-one)算法、DDAGSVM(directed acyclicraph SVM)算法等。Ying w等人(2006年)在克服上述算法缺点的基础上提出基于二叉树的支持向量机多分类算法(简称BTSVM)，有较好的分类效果和分类效率，但是该算法的抗干扰能力较差，对训练数据的要求较高，在一定程度上阻碍了其应用。

发明内容

本发明要解决的技术问题是：提供一种融合增量学习的支持向量机多类分类方法，旨在减少样本的训练时间、提高分类器的分类精度及抗干扰性。

本发明所采用的技术方案是：一种融合增量学习的支持向量机多类分类方法，其特征在于包括步骤：

步骤1、在总的样本中随机抽取一部分作为训练样本集D，另一部分作为测试样本集T；

步骤2、对训练样本集D进行预抽取支持向量，获得最终的预抽取训练样本集PTS，剩下的训练样本作为增量样本集B₀；

步骤3、用循环迭代法对预抽取训练样本集PTS进行支持向量机训练，得到多类分类模型M-SVM；

步骤4、对多类分类模型M-SVM进行二叉树处理，得到基于二叉树的支持向量机多类分类模型BTMSVM₀；

步骤5、对多类分类模型BTMSVM₀进行增量学习训练，得到新的多类分类模型BTMSVM₁；

步骤6、将步骤1中的测试样本集T输入到多类分类模型BTMSVM₁进行分类。

步骤2中所述的预抽取支持向量按以下步骤进行：

2.1、对K类样本根据各类样本的数量进行由多到少排序，训练样本中出现最多的类为第1类，以此类推，直至第K类，形成分类序列集合{s₁，s₂...s_k}；

2.2、确定训练样本的类型，对于K类的训练样本，训练K-1个支持向量机，第i个支持向量机以第i类样本为正的训练样本，将第i+1，i+2.....K类训练样本作为负的训练样本训练SVM(i)(i＝1....K-1)，第K-1个支持向量机将以第K-1类样本作为正样本，以第K类样本为负样本训练SVM(K-1)；

2.3、从训练样本集D中的第i类样本集中选取一个样本，根据类均值距离法求其与第i+1类所有样本间的距离δ_i，j(i＝1，2...k，j＝1，2，...k)：

δ_i，j＝||m_i-m_j||2-r_i-r_j

集的均值向量，||m_i-m_j||²为i类和j类均值向量间的距离，r_i和r_j分别为i类及j类的类平均半径，n_i为i类中的样本数目，称δ_i，j为i类和i类之间的类均值距离；

2.4、找出这些距离中的最小值及与这个最小距离所对应的第i+1类中的样本，将其放在预抽取样本集合PTS0中；

2.5、返回到步骤2.3，遍历完训练样本集D中第i类中的所有样本；

2.6、返回到步骤2.1，遍历完训练样本集D中第i+1类中的所有样本；

2.7、对预抽取样本集合PTS₀中的样本做唯一化处理，获得最终的预抽取训练样本集合PTS。

步骤3中所述的循环迭代法按以下步骤进行：

3.1、以步骤2最终获取的预抽取向量集PTS，构造数据集的分类超平面；

3.2、利用所得到的分类超平面对训练样本集D进行测试，计算训练样本集D中样本与分类超平面间距离d，以及训练正确率P；

3.3、当分类正确率P较小时，减少加入预抽取训练样本集PTS中违反KKT条件(KKT条件是使每个样本满足优化问题的条件，在本发明中该条件定义为

其中非零的a_i为SV，f(x)＝h为SVM分类决策函数，{x_i，y_i}为训练样本，C为指定常数。可知f(x)＝0为分类面，f(x)＝±1为分类间隔面，则a＝0对应的样本分布在分类器分类间隔面之外，0＜a＜C对应的样本位于分类间隔面之上，a＝C对应的样本位于分类间隔面关于本类的异侧。违背KKT条件等价于y_if(x_i)＜1。)的样本的数量，以求减少求解二次规划问题的规模；当分类正确率P较大时，加大加入预抽取训练样本集PTS中违反KKT条件的样本的数量，以求减少循环迭代的次数，并加入到预抽取训练样本集PTS中，取代原预抽取训练样本集PTS，作为下次循环迭代的训练样本集；

3.4、当训练正确率P＜1时，重复3.3；当训练正确率P＝1时跳出循环，结束迭代，训练结束，得到多类分类模型M-SVM。

步骤4包括：

4.1、将步骤3训练得到的SVM₁作为二叉树的根节点，将属于第1类的测试样本决策出来；

4.2、将不属于第1类的样本通过SVM₂继续进行分类，依次类推直到SVM_K-1将第K类样本训练完，从而得到基于二叉树的SVM多类分类模型BTMSVM₀。

步骤5中所述的增量学习按以下步骤进行：

5.1、将增量样本集B₀输入BTMSVM₀，将增量样本集分为满足BTMSVM₀的KKT条件和不满足KKT条件的2个集合；

5.2、对满足KKT条件的增量样本集和BTMSVM₀的负例样本集分别进行密度法淘汰处理，得到剩余集；

5.3、将剩余集与BTMSVM₀的正例样本集及增量样本集的不满足KKT条件的集合并得到新增量训练集B₁；

5.4、将新增量训练集B1输入BTMSVM₀进行训练，得到新的多类分类模型BTMSVM₁。

本发明的有益效果是：本方法通过将支持向量机和二叉树的基本思想相结合，以类均值距离作为二叉树的生成算法，让与其他类相隔最远的类最先分隔出来，这种方法构造的最优超平面具有较好的推广性，能有效的避免孤立点带来的问题，使其具有一定的抗干扰性，而且只需构造k-1个(k为样本类别总数)支持向量机分类器，测试时并不一定需要计算所有的分类器判别函数，从而可节省测试时间。同时将基于密度法的增量学习算法加入本发明的多类分类器，在实现多分类能力的同时提升其增量学习的能力。

附图说明

图1是本发明的工作流程图。

图2是本发明中BTIMSVM增量学习过程。

具体实施方式

本发明融合增量学习的支持向量机多类分类方法按以下步骤进行：

步骤1、在总的样本中随机抽取一部分作为训练样本集D，另一部分作为测试样本集T。

步骤2、对训练样本集D进行预抽取支持向量，进一步包括步骤：

2.2、确定训练样本的类型，对于K类的训练样本，训练K-1个支持向量机，第i个支持向量机以第i类样本为正的训练样本，将第i+1，i+2....K类训练样本作为负的训练样本训练SVM(i)(i＝1....K-1)，第K-1个支持向量机将以第K-1类样本作为正样本，以第K类样本为负样本训练SVM(K-1)；

δ_i，j＝||m_i-m_j||²-r_i-r_j

2.4、找出这些距离中的最小值及与这个最小距离所对应的第i+1类中的样本，将其放在预抽取样本集合PTS₀中；

2.7、对预抽取样本集合PTS₀中的样本做唯一化处理，获得最终的预抽取训练样本集合PTS，剩下的训练样本作为增量样本集B₀。

步骤3、用循环迭代法对预抽取训练样本集PTS进行支持向量机训练，进一步包括步骤：

3.3、当分类正确率P较小时，减少加入预抽取训练样本集PTS中违反KKT条件的样本的数量，以求减少求解二次规划问题的规模；当分类正确率P较大时，加大加入预抽取训练样本集PTS中违反KKT条件的样本的数量，以求减少循环迭代的次数，并加入到预抽取训练样本集PTS中，取代原预抽取训练样本集PTS，作为下次循环迭代的训练样本集；

步骤4、对多类分类模型M-SVM进行二叉树处理，包括：

步骤5、对多类分类模型BTMSVM₀进行增量学习训练，进一步包括：

下面将通过两个具体的案例来说明本发明的技术方案。

以某商业银行过去18个月的一组信用卡用户数据为实验样本集。经过处理的实验样本集共920条，划分为训练样本集D和测试样本集T两部分，其中训练样本240条，测试样本包括680条记录。训练样本中首先抽取80条，此后是新增20条、30条、40条、70条的增量进行训练。

实施例1：未使用增量学习训练的BTMSVM实验结果

第1步，对训练样本集进行预抽取得到80条记录组成的预抽取训练样本集PTS；

第2步，用PTS进行循环迭代法支持向量机训练，得到多类分类模型M-SVM；

第3步，对M-SVM进行二叉树处理，得到基于二叉树的支持向量机多类分类模型BTMSVM₀，训练时间10.92秒，提取680条测试样本测试分类模型，分类正确率为70.49％；

第4步，新增20条训练样本，与原训练样本80条合并，共100条记录，输入BTMSVM₀进行训练，训练时间为23.75秒。因为不能利用已经训练好的分类器(训练样本为80时)，需要重新训练，所以实际花费的时间等于利用80条训练样本进行训练的时间与重新利用100条训练样本进行训练的时间的和，即10.92秒与16.43秒的和，共27.35秒；

第5步，再依次新增30、40、70条训练样本，迭加后的训练样本分别为130、170、240条，输入BTMSVM₀进行训练，训练时间分别为46.98秒、70.89秒、108.87秒。

第6步，以上四组增量训练后，分别提取680条测试样本测试分类模型分类正确率，分别为：72.34％，74.16％，75.47％，87.02％。

实验结果如表1所示。

表1未使用增量训练的实验结果

实施例2：使用增量学习训练的BTMSVM实验结果

第1步，对训练样本集D进行预抽取得到80条记录组成的预抽取训练样本集PTS；

第3步，对M-SVM进行二叉树处理，得到基于二叉树的支持向量机多类分类模型BTMSVM₀，训练时间10.92秒；

第4步，提取680条测试样本集T经过多类分类模型BTMSVM₀分类，分类正确率70.49％；

第5步，将20条记录增量样本集B₀与80条初始训练样本PTS输入BTMSVM₀进行增量训练，增量训练时间2.56秒，经过密度法淘汰规则，共淘汰5条记录，剩余95条记录为新的增量训练集B₁；

第6步，将新的增量训练集输入进行训练，得到新的二叉树支持向量机多类分类模型BTMSVM₁；

第7步，提取680条测试样本经过BTMSVM₁分类，通过第1次增量训练的分类模型分类正确率提高到71.82％；

第8步，将B₁作为初始训练集，新增30条记录为增量样本集B₂，重复第5步到第7步，淘汰样本8条，分类正确率提高到73.85％；

第9步，继续以40条和70条记录作为新增样本重复第5步到第6步，分类正确率分别为74.09％和86.97％。

实验结果如表2所示。表2使用增量学习后的实验结果

实验结果表明，支持增量学习的BTMISVM模型可以充分利用以前的训练成果，大大减少训练时间，分类正确率也随着样本的增加而加速提高。本发明可以在一定程度上满足信用卡行为评估对于增量学习的需求。

Claims

1.一种融合增量学习的支持向量机多类分类方法，其特征在于包括步骤：

2.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤2中所述的预抽取支持向量按以下步骤进行：

δ_i，j＝||m_i-m_j||²-r_i-r_j

r_{i} = \frac{1}{n} Σ_{k = 1}^{n_{i}} {| | x_{k}^{i} - m_{i} | |}^{2}

其中

表示第i类样本集的均值向量，||m_i-m_j||²为i类和j类均值向量间的距离，r_i和r_j分别为i类及j类的类平均半径，n_i为i类中的样本数目，称δ_i，j为i类和j类之间的类均值距离；

3.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤3中所述的循环迭代法按以下步骤进行：

3.3、当分类正确率P较小时，减少加入预抽取训练样本集PTS中违反KKT条件(请解释一下KKT条件)的样本的数量，以求减少求解二次规划问题的规模；当分类正确率P较大时，加大加入预抽取训练样本集PTS中违反KKT条件的样本的数量，以求减少循环迭代的次数，并加入到预抽取训练样本集PTS中，取代原预抽取训练样本集PTS，作为下次循环迭代的训练样本集；

4.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤4包括：

5.根据权利要求1所述的融合增量学习的支持向量机多类分类方法，其特征在于步骤5中所述的增量学习按以下步骤进行：