CN104463221A

CN104463221A - 适用于支持向量机训练的不平衡样本加权方法

Info

Publication number: CN104463221A
Application number: CN201410803911.8A
Authority: CN
Inventors: 彭长生; 沈项军; 蔡炜
Original assignee: JIANGSU KING INTELLIGENT SYSTEM CO Ltd
Current assignee: JIANGSU KING INTELLIGENT SYSTEM CO Ltd
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2015-03-25

Abstract

本发明主要用于人工智能领域，涉及一种适用于支持向量机训练的不平衡样本加权方法。本发明利用聚类和费歇尔判别率准则对冗余数据约减，然后计算约减后的数据样本到模糊分类面的距离，根据这个距离来赋予相应的权值，然后用这些加权后的数据样本进行支持向量机的训练。本发明针对传统的支持向量机在处理大数据集或不平衡数据样本上仍有需要改进和提高的地方，本发明就提出了一种新的算法，在已约减的大样本数据上再进行相应的加权，以此来用于支持向量机的训练学习，不仅提高了支持向量机的训练速度，而且还提高了其分类精度，这对于大样本的数据集的分类是大有裨益的。

Description

适用于支持向量机训练的不平衡样本加权方法

技术领域

本发明主要用于人工智能领域，尤其是模式识别方面的技术，涉及基于聚类和费歇尔判别率的冗余数据约减以及对不平衡样本进行加权的方法，特别是一种适用于支持向量机训练的不平衡样本加权方法。

背景技术

数据分类一直是模式识别等人工智能领域的重要应用分支，被大量使用在字符识别、人脸检测识别等方面。现在已有的多种分类技术有判决树方法，神经网络方法以及支持向量机方法等，支持向量机方法因其科学的统计学习的理论基础，逐渐的发展成为当前使用最普遍、分类效果最为突出的分类器。针对大量的不平衡的数据样本的分类，传统的支持向量机不能得到很好的分类性能，支持向量机的学习速度太慢，于是研究学者们提出了一些方法，主要分为两类：1.将原二次规划问题分解成若干子二次规划问题。例如由Cortes和Vapnik提出的分块算法(Chunking)，Osuna提出的分解算法，以及Platt提出的序列最小化(Sequential MinimalOptimization，简称SMO)算法和由Keerthi等人提出的改进之后的SMO算法等。2.从原大样本数据集中选择一小部分具有代表性的样本参与训练学习，以此来减少训练样本点数量。例如Lee和Mangasarian提出来的利用随机采样技术对训练数据集进行随机采样的约减SVM(即RSVM)的方法以及Tsang等人提出的对最小封闭球取样的中心向量机算法等。尽管以上算法在一定程度上加快了支持向量机的训练速度，但在处理现实世界中的不平衡数据集时，因其选择的具有代表性的子样本集并不能准确代表原始样本集的分布情况，且对所有参与训练的样本数据都采用了相同的权重进行学习，致使分类精度有所降低。所以如何提升对不平衡数据集训练的分类性能得到了关注，Lin等人在2002年提出了一种模糊支持向量机(即FuzzySVM,FSVM)算法，该算法为所有样本都设置了一个模糊隶属度值，使得各个样本对最优分类面的训练的贡献程度不同；Wu和Wang提出了一种依据样本数据到由随机选择的样本子集训练得到的最优分类面的距离为样本加权的策略，该方法旨在反映每个样本的重要性和改进支持向量机训练过程；Nguyen，Phung和Bouzerdoum提出了结合无监督学习和有监督学习，只使用所有的聚类中心作为训练支持向量机的样本，并用与各个聚类中心所属类样本数量成比例和所属聚类样本数量成比例的两种策略为训练样本加权。

虽然上面提到的算法在传统支持向量机方法上做了很大的改进，在处理大数据和不平衡数据上体现了各自的优势，但忽视了训练数据集中只有处于最终的分类决策面附近的外层数据样本才可能成为支持向量，而其余的样本大多在训练支持向量机的时候起到的作用很微小或者没有，为这些实际意义可以忽略的的冗余数据进行加权是一种空间和时间上的浪费。本文从冗余数据约减和为不平衡样本数据分配不同的权重的角度出发，提出了一种新的算法，旨在提高支持向量机对不平衡大数据集的训练速度和分类精度。

发明内容

本发明所要解决技术问题是，提供一种能够提高支持向量机的训练速度，并能提高其分类精度，有利于大样本数据集分类的适用于支持向量机训练的不平衡样本加权方法。

本发明适用于支持向量机训练的不平衡样本加权方法如下：

步骤一：设训练样本数据为TD＝{(d_i，L_i)|d_i∈Rⁿ，L_i∈{1,...,S},i＝1,...,N}；d_i是n维实向量空间Rⁿ上的样本数据对象，L_i是样本数据对象d_i的类别标签；训练样本数据集合TD中共有N个样本数据对象，这些样本数据对象分属于S个类别；用K均值聚类算法将训练样本集中N个样本数据对象数据聚类成K个子类，所得子类为T＝{T_c|c＝1,...,K}；根据得到的K个子类中样本数据对象相应的类别分布情况，将这K个子类分为样本数据对象只含一种类别的纯子类UT＝{ut_j|j＝1，...,P,1≤P≤K}和包含两种或以上类别的混合子类MT＝{mt_q|q＝1，...，K-P},K是UT和MT的并集，即有K＝UT∪MT。将MT中每个混合子类中的样本数据对象按其相应类别再划分为多个纯子类，第a个混合子类MT_a有两个类别的样本数据对象，将其再分为两个纯子类，设K-P个混合子类中还有WC个纯子类即UMT＝{umt_b|b＝1，...,WC}，这样最终得到P+W个纯子类集合X＝UT∪UMT。

步骤二：计算集合X上每个纯子类的聚类中心，设X集合上第g个纯子集的样本数据集合为{d_g，h|h＝1，...，m}，d_g，h为训练样本数据集合TD经聚类后在X集合的第g个子集上的样本数据，设该类样本有m个样本数据对象且每个样本数据对象的类别标签都是S_h，则聚类中心通过X集合上P+WC个聚类中心及相应的类别标签组成集合GS＝{(Ge,Se)|Se∈{1，...，S},e＝1，...P+WC},然后使用libsvm来训练这些类中心，从而得到相应的模糊分类面f(x)＝w^Tx+c,x是模糊分类面上的支持向量，w是根据训练得到的模糊分类面上支持向量的权重，c是偏移量；当f(x)>0时，表示样本数据对象属于某一类，当f(x)<0时，则属于另一类，f(x)＝0时，则表示无法判断样本数据对象属于任何一类；支持向量机被设计为两类问题的分类，当样本有S个类别时，采用一对一的两两分类训练得到S(S-1)/2个模糊分类面，对任意一类样本集合，其模糊分类面都为S-1个。

步骤三：考虑到UMT集合比较靠近分类面，所以其纯子类包含支持向量的概率较大，而由K均值(K-Means)聚类得到的纯子类集合UT一般距离分类面较远，其包含支持向量的概率较小。本发明采用类最大最小距离方法对纯子类集合UT进行遴选，从其中找到离分类面较远的某些纯子类，将这些纯子类看作是不包含支持向量的，删除这些子类以减少集合X中所包含的对训练作用不大的样本数据，得到集合X上约减纯类集合后的子集RX₁。

步骤四：利用费歇尔判别法对遴选后得到的纯子类集合RX₁继续消除子类内层冗余数据，得到样本数据集RX_2，假设RX₂中剩下了M个子类集合。

步骤五：计算步骤四当中的样本数据集RX₂中各个数据对象到模糊分类面的距离dis_i，然后依照样本加权公式V_i＝(1+dis_i)^-z,i＝1,...,M；其中V_i是相应的权值，z是经过试验后得到的一个取值在1.0-1.2之间的一个变量；对RX₂中剩下的M个子类中所有的数据对象根据到模糊分类面的远近分配相应的权值V_i，经过加权之后的样本数据集合RX₂最后变为我们最终用来训练的样本数据集RX₃。

步骤六：对最后保留下来的样本数据集RX₃进行SVM训练，就可以得到最终的支持向量。

其中步骤三中从集合X上得到约减的纯子类集合RX₁过程如下：

A1:从类别标签SY＝1开始，选择UMT中属于同一类别标签的若干子集合，UMT_SY＝＝{umt_xi|xi＝1，...,X_xi}表示该子集合中所有样本数据对象的类别标签均为SY；计算子集合的某个子集如umt_xi中每个样本数据对象到步骤二中得到的S-1个模糊分类面的最近距离；设子集合umt_xi中的第Z个样本数据对象为d_xi，z，其到模糊分类面的最近距离为其中||f_jo(d_xi,z)||是样本数据对象d_xi，z到第jo个模糊分类面的距离，||w||是权重w的距离，本发明使用的距离都是欧式距离 w_Q是n维向量w的第Q个分量，取umt_xi中全部样本数据对象到模糊分类面的极大值作该类别标签SY的类最大距离，设该距离为DistMax_SY；

A2:对于纯子类集合UT，选择该集合里所有类别标签均为SY的子集合，UT_sy＝{ut_ti|ti＝1，...,H_ti}，设该子集合上有H_ti个纯子类，从ti＝1开始，选取集合UT_SY中的一个纯子类ut_ti，计算该子类中每一个样本数据对象到S-1个模糊分类面的距离，选取所有样本数据对象中到模糊分类面距离的极小值作为该子类到模糊分类面的距离记为DistMin_ti；此时如判断DistMin_ti>DistMax_SY,说明UT_SY子集合中纯子类ut_ti所包含的样本数据距离模糊分类面远，则舍弃ut_ti，否则应该保留ut_ti；

A3：使ti递增1，并重复A2直到ti＝H_ti+1，表明集合UT_SY中所有的子集都已完成约减的过程；

A4：将SY递增，然后选择下一个类别标签从A1开始继续执行，直到SY＝S+1,表明集合UT中所有子集都已完成约减的过程；

A5：返回剩余子类和其包含的样本数据集合，设UT中保留了F个纯子类，则最终的样本集合包含F+W个纯子类，即有RX₁＝{ut₁，...,ut_F,umt₁，...,umt_W}。

步骤四中利用费歇尔判别法对遴选后的纯子类集合RX₁进一步消除子类内层冗余数据，得到样本数据集RX₂的过程如下：

B1：从S_i＝1开始，选取集合RX₁中的一个子类，选择第S_i个子类为RX₁ ^Si和其相应的样本数据对象集合TD_Si，计算该子类中每个样本对象到该类的聚类中心G_Si的距离并排序，设该类样本数据对象有m_Si个，得到第S_i个子类排序后的距离集合为{dis_dx|d_x＝1，...，m_Si}，TD_Si按照次距离进行排序后所对应的样本数据对象集为STD_si＝{std_e ^Si|e＝1，...,m_Si}；

B2：以每个排序的样本数据对象作为参照，记录小于该样本数据对象到聚类中心距离内的样本数据对象的个数，得到该样本数据对象到聚类中心距离上的样本密度，设排序对象std_ui ^Si,其密度为该子类上所有样本数据对象的样本数据密度集合为Dens＝{dens_ui|ui＝1，...，m_Si}；

B3：设参数A＝1,AD＝I_n，D_min＝1，D_max＝m_Si，AD为迭代的次数，I_n是设定值，子类中样本数据量越大，I_n越大；D_min和D_max规定了样本数据密度集合Dens上应用费歇尔判别率的取值范围，即在dis_Dmin到dis_Dmax距离范围内的样本数据密度子集中计算费歇尔判别率的值；

B4：若A<AD,则表明迭代没有结束，继续执行B5，否则转到B8；

B5：确定当前步长len，其中在dis_Dmin到dis_Dmax距离范围内的样本数据密度子集中，以len计算对应距离上的样本数据密度集合Dens的费歇尔判别率值Fis＝{f_gi|gi＝1，...,J}，J＝(D_max-D_min)/len，在第q个步长上，将样本数据密度集合Dens在dis_Dmin到dis_Dmax距离上分成两个子集合，分别为B＝{dens₁，...,dens_{Dmin+gi*len-1}}和C＝{dens_Dmin+gi*len，...，densm_Si}，根据费歇尔判别率f_gi＝(μ_i-μ_j)²/(δ_i-δ_j)²,其中μ_i是集合B上样本数据密度的均值，δ_i是集合B上样本数据密度的均方差，μ^j是集合C上样本数据密度的均值，δ^j是集合C上样本数据密度的均方差，f_gi是第gi个步长上将样本数据密度集合Dens分成B和C两个子集后得到的费歇尔判别率的值；

B6：选择集合Fis上最大的两个费歇尔判别率的值，得到其对应的排序距离，设为dis_mi，dis_mj，设mi<mj，将这两个排序距离的位置mi和mj各自赋给D_min和D_max；

B7：使A递增1，然后转到继续从B4开始执行；

B8：将当前排序距离disDmax阀值，去掉样本数据集合RX1^Si中所有列到该聚类中心距离小于dis_Dmax的样本数据对象，保留排序距离集合RD_Si＝{dis_Dmax,...,dis_mi}；

B9：使S_i递增1，然后跳转到B2继续处理RX₁中下一个子类，直到S_i＝F+W+1,表明所有的子类处理完毕；

B10：将余下的样本数据集记作RX₂＝{RD_Si}。

本发明针对传统的支持向量机在处理大数据集或不平衡数据样本上仍有需要改进和提高的地方，本发明就提出了一种新的算法，在已约减的大样本数据上再进行相应的加权，以此来用于支持向量机的训练学习，不仅提高了支持向量机的训练速度，而且还提高了其分类精度，这对于大样本的数据集的分类是大有裨益的。

附图说明

图1是本发明实施例经过步骤一得到的样本数据分布图；

图2是本发明实施例经过步骤二，三约减冗余子类后的样本数据分布图；

图3是本发明实施例经过步骤四得到约减子类内部数据的数据示意图；

图4是本发明实施例经过步骤五，六后得到约减后经过加权的数据并经过训练得到最终分类面的示意图。

具体实施方式

根据上面的具体步骤，结合图1-3，下面给出本发明的一个具体的实施示例。

图1是经过步骤一进行K均值聚类，令K＝6，可得到6个子类，该样本数据表示的是两种类别的数据，其中正方形代表一类，圆形代表另一类。T＝{T_i|i＝1，...，6}，某一类别的数据使用椭圆虚线包围。对应得到的6个子类，按照其含数据对象相对应的类别的分布情况，将这6个子类分为仅包含单一类别的纯子类记作UT＝{T₂，T₄,T₅,T₆}和子类包含两个或以上多个类别的混合子类MT＝{T₁,T₃}。将MT中每个混合子类进一步划分为多个纯子类，记作UMT＝{T_1A,T_1B,T_3A,T_3B},得到8个纯子类记集合X＝{T₂,T₄,T₅,T₆,T_1A,T_1B,T_3A,T_3B}。

图2代表使用步骤二，三对集合X进行约减冗余子类后的结果图：

A1：计算集合X上每个纯子类的聚类中心，在图2中用三角形代表。利用集合X上得到的7个聚类中心及集合X上纯子类所对应的类别记作{(C_1A,1)(C_1B,2)(C₂,1)(C₄,2)(C₅,2)(C_3A,1)(C_3B,2)}，C_i表示集合X上第i个子类的聚类中心，1代表正方形样本数据，2代表圆形样本数据。然后对这些样本数据使用LIBSVM工具训练得到模糊分类面。在图2里，用实直线表示该模糊分类面,图2中两条虚直线附近的聚类中心则代表到模糊分类面最近的支撑向量。因为样本数据只有两类，所以对任意类别的样本数据，得出的分类面只有1个。

A2：从类别标签SY＝1开始，即为正方形的数据子集，选取UMT中属于同一类别标签的SY的子集合，在图2中为UMT₁＝{T_1A,T_3A}，再计算每子集T_1A和T_3A中每个数据对象到模糊分类面的最近距离，选取子集T_1A和T_3A中所有数据对象到模糊分类面的极大值记作该子集的距离。然后以T_1A和T_3A中距离的极大值作为UMT₁类的类最大距离，假设该距离在图2中为DistMax₁。

A3：在纯子类集合UT中，选取类别标签也为SY的子集合,即选取集合UT₁＝{T₂}即为正方形数据的子集。

A4：从子类T₂开始，计算子类T₂中每个数据对象到模糊分类面的距离，然后选择全部数据对象到模糊分类面距离的极小值作为子类T₂到模糊分类面的距离，不妨设该距离为DistMin_T2。由于DistMin_T2<DistMax₁，则表示子类T₂中可能存在支持向量，那么就保留子类T₂。

A5：由于UT₁中只有一个子类，所以继续使SY加1，选取下一个类别标签，此时SY＝2，代表圆形的数据子集，转到A2继续执行，直到SY＝3为止。

经过以上处理，我们弃掉了距离模糊分类面较远的T₆子类，然后得到了剩余子类及其所含样本数据集合RX₁，RX₁＝{T₂,T₄,T₅,T_1A,T_1B,T_3A,T_3B}。

图3代表使用了步骤四进一步约减子类中内部冗余数据。在图3中，RX₁中每个子类删除的内层冗余数据用实线圆圈出。实线圆和虚线椭圆之间包含的数据为约减后的剩余数据集RX₂。

其中，使用步骤四对RX₁集合进一步去除子类内层冗余数据，得到待加权的数据集RX₂的过程如下：

B1：从集合RX₁的子类T₂开始，计算该子类T₂中每个数据对象到该子类的聚类中心的距离dis_dx。在图3中，子类T₂有25个数据对象，对这些距离进行排序，得到第子类T₂排序后的距离集合记作{dis_dx|d_x＝1，...，25}和对应的数据对象集合记作STD_si＝{std_e ^Si|e＝1，...,25}。

B2：以每个排序的数据对象为参考，统计不大于该数据对象到聚类中心距离的数据对象个数，从而计算出该数据对象到聚类中心距离上的数据密度。子类T₂的数据密度集合为Dens＝{dens_ui|ui＝1，...，25}。

B3：可以设定参数A＝1,AD＝I_n,D_min＝1,D_max＝m_si。鉴于图3的子类数据较少，故可设置AD＝2，即只迭代一次。m_si是子类所拥有数据对象的个数，在T₂中，该数值为25，表示对该子类中所有数据密度集合计算其费歇尔判别率值。

B4：如果A<AD，则表明迭代没有结束，继续执行步骤B5；否则跳转到步骤I。

B5：确定当前步长len，其中因为图3的数据量小，len＝1。在dis_Dmin到dis_Dmax距离范围内的样本数据密度子集中，以len计算对应距离上的样本数据密度集合Dens的费歇尔判别率值Fis＝{f_gi|gi＝1，...,J}在子类T₂中J＝24。

B6：选择集合Fis上最大的两个费歇尔判别率的值，得到其对应的排序距离，假设为dis_mi，dis_mj(设mi<mj)，将这两个排序距离的位置mi和mj各自赋给D_min和D_max。

B7:使A加1，然后跳到过程B4继续执行。

B8：以当前排序距离dis_Dmax为阈值，去掉数据对象集合RX₁ ^Si中全部到该子类聚类中心距离小于dis_Dmax的数据对象。在图3中，每个子类中实圆圈内的数据对象即为要去掉的数据对象，那些在实线圆和虚线椭圆之间的数据对象即为子类该保留下来的数据对象。

B9：跳转到步骤B1，处理集合RX₁中的下一个子类T₄,直到所有子类都已处理完毕。

B10：将保留下来的数据集合组成集合RX₂，RX₂＝{T₂”，T₄”,T₅”,T_1A”,T_1B”,T_3A”,T_3B”}作为要用来加权的数据集合。

在图4中，经过步骤五，六对RX₂的数据集中的所有数据对象根据到模糊分类面的距离分配相应的权值V_i，得到加权之后的数据集RX₃，并使用RX₃数据集训练得到的最终分类面用直线表示。

其中，步骤五中对数据集RX₃进行加权的策略如下：

C1：从S_i＝1开始，计算数据集RX₂中第S_i个子类T₂”中所有的数据对象到模糊分类面的距离{dis_dx|d_x＝1，...，11}和对应的数据对象集合记作STD_si＝{std_e ^Si|e＝1，...,11}。此时T₂”中的数据对象为11个。

C2：依照子类T₂”中所有的数据对象到模糊分类面的距离dis_dx的值排序，根据样本加权公式V_i＝(1+dis_dx)^-z,d_x＝1,...,M，赋予相应的权值V_i。

C3:然后使S_i加1，继续继续处理RX₂中下一个子类，直到所有的子类加权完毕，即可得到最终的数据集RX₃。

表一原始数据

实验所用的1组模拟数据和6组真实数据的详细情况如表1所示。模拟数据是由计算机模拟生成的二维高斯分布的两类数据集，它服从均值为(0,0)和(5,0)，对应方差为

(\begin{matrix} 3 & 3 \\ 0 & 1 \end{matrix})

和

(\begin{matrix} 4 & 4 \\ 0 & 1 \end{matrix})

的高斯分布，模拟数据的测试数据的生成方式和训练数据一样。而真实数据的两组平衡数据集[UCI]/a8a来自UCI/Adult数据集，[IG05a]/gisette来自NIPS 2003Feature Selection Challenge[IG05a]数据集。四组不平衡数据集[JP98a]/w8a来自[JP98a]数据集，[DP01a]/ijcnnl来自[DP01a]数据集,[UCI]/Covtype.binary来自UCI/Covertype数据集，[KDD CUP2004]/Protein_homology来自KDD CUP 2004会议数据集。本实验中用到的数据集的类别都是两类数据集，而且考虑到多种情况，如模拟数据，真实数据，平衡数据和不平衡数据，数据的维数也是各不相同，这些不同的数据集在实验时的聚类数分别为20，30，20，60，70，60，100，可以客观的反映本发明所提出算法的有效性。

表二使用本发明及传统SVM得到训练时间与分类精度的对比结果

表二所得的实验数据是对表一的数据经过本发明优化后然后进行SVM的训练得出的训练时间和分类精度与传统的SVM训练进行的比较，从实验数据可以看出，当样本数据量较大且样本是不平衡分布时，表中的最后一行数据就是此类情况，我们可以看出训练的时间大幅度的减少，分类精度也有了一定程度的提高，这说明在大量的不平衡数据样本进行SVM的训练学习的时候，本发明对样本数据的优化然后用于SVM的训练是可以提高训练速度和分类精度的。

Claims

1.一种适用于支持向量机训练的不平衡样本加权方法，其特征是：步骤如下：

步骤一：设训练样本数据为TD＝{(d_i，L_i)|d_i∈Rⁿ，L_i∈{1,...,S},i＝1,...,N}；d_i是n维实向量空间Rⁿ上的样本数据对象，L_i是样本数据对象d_i的类别标签；训练样本数据集合TD中共有N个样本数据对象，这些样本数据对象分属于S个类别；用K均值聚类算法将训练样本集中N个样本数据对象数据聚类成K个子类，所得子类为T＝{T_c|c＝1,...,K}；根据得到的K个子类中样本数据对象相应的类别分布情况，将这K个子类分为样本数据对象只含一种类别的纯子类UT＝{ut_j|j＝1，...,P,1≤P≤K}和包含两种或以上类别的混合子类MT＝{mt_q|q＝1，...，K-P},K是UT和MT的并集，即有K＝UT∪MT；将MT中每个混合子类中的样本数据对象按其相应类别再划分为多个纯子类，第a个混合子类MT_a有两个类别的样本数据对象，就将其再分为两个纯子类，设K-P个混合子类中还有WC个纯子类即UMT＝{umt_b|b＝1，...,WC}，最终得到P+W个纯子类集合X＝UT∪UMT；

步骤二：计算集合X上每个纯子类的聚类中心，设X集合上第g个纯子集的样本数据集合为{d_g，h|h＝1，...，m}，d_g，h为训练样本数据集合TD经聚类后在X集合的第g个子集上的样本数据，设该类样本有m个样本数据对象且每个样本数据对象的类别标签都是S_h，则聚类中心通过X集合上P+WC个聚类中心及相应的类别标签组成集合GS＝{(Ge,Se)|Se∈{1，...，S},e＝1，...P+WC},然后使用libsvm来训练这些类中心，从而得到相应的模糊分类面f(x)＝w^Tx+c,x是模糊分类面上的支持向量，w是根据训练得到的模糊分类面上支持向量的权重，c是偏移量；当f(x)>0时，表示样本数据对象属于某一类，当f(x)<0时，则属于另一类，f(x)＝0时，则表示无法判断样本数据对象属于任何一类；支持向量机被设计为两类问题的分类，当样本有S个类别时，采用一对一的两两分类训练得到S(S-1)/2个模糊分类面，对任意一类样本集合，其模糊分类面都为S-1个；

步骤三：采用类最大最小距离方法对纯子类集合UT进行遴选，从其中找到离分类面较远的某些纯子类，将这些纯子类看作是不包含支持向量的，删除这些子类以减少集合X中所包含的对训练作用不大的样本数据，得到集合X上约减纯类集合后的子集RX₁；

步骤四：利用费歇尔判别法对遴选后得到的纯子类集合RX₁继续消除子类内层冗余数据，得到样本数据集RX_2，假设RX₂中剩下了M个子类集合；

步骤五：计算步骤四当中的样本数据集RX₂中各个数据对象到模糊分类面的距离dis_i，然后依照样本加权公式V_i＝(1+dis_i)^-z,i＝1,...,M；其中V_i是相应的权值，z是经过试验后得到的一个取值在1.0-1.2之间的一个变量；对RX₂中剩下的M个子类中所有的数据对象根据到模糊分类面的远近分配相应的权值V_i，经过加权之后的样本数据集合RX₂最后变为最终用来训练的样本数据集RX₃；

2.根据权利要求1所述的适用于支持向量机训练的不平衡样本加权方法，其特征是：其步骤三中从集合X上得到约减的纯子类集合RX₁过程如下：

A1:从类别标签SY＝1开始，选择UMT中属于同一类别标签的若干子集合，UMT_SY＝＝{umt_xi|xi＝1，...,X_xi}表示该子集合中所有样本数据对象的类别标签均为SY；计算子集合的某个子集如umt_xi中每个样本数据对象到步骤二中得到的S-1个模糊分类面的最近距离；设子集合umt_xi中的第Z个样本数据对象为d_xi，z，其到模糊分类面的最近距离为其中||f_jo(d_xi,z)||是样本数据对象d_xi，z到第jo个模糊分类面的距离，||w||是权重w的距离，使用的距离都是欧式距离w_Q是n维向量w的第Q个分量，取umt_xi中全部样本数据对象到模糊分类面的极大值作该类别标签SY的类最大距离，设该距离为DistMax_SY；

3.根据权利要求1所述的适用于支持向量机训练的不平衡样本加权方法，其特征是：步骤四中利用费歇尔判别法对遴选后的纯子类集合RX₁进一步消除子类内层冗余数据，得到样本数据集RX₂的过程如下：

B4：若A<AD,则表明迭代没有结束，继续执行B5，否则转到B8；

B5：确定当前步长len，其中在dis_Dmin到dis_Dmax距离范围内的样本数据密度子集中，以len计算对应距离上的样本数据密度集合Dens的费歇尔判别率值Fis＝{f_gi|gi＝1，...,J}，J＝(D_max-D_min)/len，在第q个步长上，将样本数据密度集合Dens在dis_Dmin到dis_Dmax距离上分成两个子集合，分别为B＝{dens₁，...,dens_{Dmin+gi*len-1}}和C＝{dens_Dmin+gi*len，...，densm_Si}，根据费歇尔判别率f_gi＝(μ_i-μ_j)²/(δ_i-δ_j)²,其中μ_i是集合B上样本数据密度的均值，δ_i是集合B上样本数据密度的均方差，μ_j是集合C上样本数据密度的均值，δ_j是集合C上样本数据密度的均方差，f_gi是第gi个步长上将样本数据密度集合Dens分成B和C两个子集后得到的费歇尔判别率的值；

B7：使A递增1，然后转到继续从B4开始执行；

B8：将当前排序距离disDmax阀值，去掉样本数据集合RX₁ ^Si中所有列到该聚类中心距离小于dis_Dmax的样本数据对象，保留排序距离集合RD_Si＝{dis_Dmax,...,dis_mi}；

B10：将余下的样本数据集记作RX₂＝{RD_Si}。