CN104463221A - 适用于支持向量机训练的不平衡样本加权方法 - Google Patents

适用于支持向量机训练的不平衡样本加权方法 Download PDF

Info

Publication number
CN104463221A
CN104463221A CN201410803911.8A CN201410803911A CN104463221A CN 104463221 A CN104463221 A CN 104463221A CN 201410803911 A CN201410803911 A CN 201410803911A CN 104463221 A CN104463221 A CN 104463221A
Authority
CN
China
Prior art keywords
sample data
subclass
sample
distance
pure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410803911.8A
Other languages
English (en)
Inventor
彭长生
沈项军
蔡炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU KING INTELLIGENT SYSTEM CO Ltd
Original Assignee
JIANGSU KING INTELLIGENT SYSTEM CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU KING INTELLIGENT SYSTEM CO Ltd filed Critical JIANGSU KING INTELLIGENT SYSTEM CO Ltd
Priority to CN201410803911.8A priority Critical patent/CN104463221A/zh
Publication of CN104463221A publication Critical patent/CN104463221A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明主要用于人工智能领域,涉及一种适用于支持向量机训练的不平衡样本加权方法。本发明利用聚类和费歇尔判别率准则对冗余数据约减,然后计算约减后的数据样本到模糊分类面的距离,根据这个距离来赋予相应的权值,然后用这些加权后的数据样本进行支持向量机的训练。本发明针对传统的支持向量机在处理大数据集或不平衡数据样本上仍有需要改进和提高的地方,本发明就提出了一种新的算法,在已约减的大样本数据上再进行相应的加权,以此来用于支持向量机的训练学习,不仅提高了支持向量机的训练速度,而且还提高了其分类精度,这对于大样本的数据集的分类是大有裨益的。

Description

适用于支持向量机训练的不平衡样本加权方法
技术领域
本发明主要用于人工智能领域,尤其是模式识别方面的技术,涉及基于聚类和费歇尔判别率的冗余数据约减以及对不平衡样本进行加权的方法,特别是一种适用于支持向量机训练的不平衡样本加权方法。
背景技术
数据分类一直是模式识别等人工智能领域的重要应用分支,被大量使用在字符识别、人脸检测识别等方面。现在已有的多种分类技术有判决树方法,神经网络方法以及支持向量机方法等,支持向量机方法因其科学的统计学习的理论基础,逐渐的发展成为当前使用最普遍、分类效果最为突出的分类器。针对大量的不平衡的数据样本的分类,传统的支持向量机不能得到很好的分类性能,支持向量机的学习速度太慢,于是研究学者们提出了一些方法,主要分为两类:1.将原二次规划问题分解成若干子二次规划问题。例如由Cortes和Vapnik提出的分块算法(Chunking),Osuna提出的分解算法,以及Platt提出的序列最小化(Sequential MinimalOptimization,简称SMO)算法和由Keerthi等人提出的改进之后的SMO算法等。2.从原大样本数据集中选择一小部分具有代表性的样本参与训练学习,以此来减少训练样本点数量。例如Lee和Mangasarian提出来的利用随机采样技术对训练数据集进行随机采样的约减SVM(即RSVM)的方法以及Tsang等人提出的对最小封闭球取样的中心向量机算法等。尽管以上算法在一定程度上加快了支持向量机的训练速度,但在处理现实世界中的不平衡数据集时,因其选择的具有代表性的子样本集并不能准确代表原始样本集的分布情况,且对所有参与训练的样本数据都采用了相同的权重进行学习,致使分类精度有所降低。所以如何提升对不平衡数据集训练的分类性能得到了关注,Lin等人在2002年提出了一种模糊支持向量机(即FuzzySVM,FSVM)算法,该算法为所有样本都设置了一个模糊隶属度值,使得各个样本对最优分类面的训练的贡献程度不同;Wu和Wang提出了一种依据样本数据到由随机选择的样本子集训练得到的最优分类面的距离为样本加权的策略,该方法旨在反映每个样本的重要性和改进支持向量机训练过程;Nguyen,Phung和Bouzerdoum提出了结合无监督学习和有监督学习,只使用所有的聚类中心作为训练支持向量机的样本,并用与各个聚类中心所属类样本数量成比例和所属聚类样本数量成比例的两种策略为训练样本加权。
虽然上面提到的算法在传统支持向量机方法上做了很大的改进,在处理大数据和不平衡数据上体现了各自的优势,但忽视了训练数据集中只有处于最终的分类决策面附近的外层数据样本才可能成为支持向量,而其余的样本大多在训练支持向量机的时候起到的作用很微小或者没有,为这些实际意义可以忽略的的冗余数据进行加权是一种空间和时间上的浪费。本文从冗余数据约减和为不平衡样本数据分配不同的权重的角度出发,提出了一种新的算法,旨在提高支持向量机对不平衡大数据集的训练速度和分类精度。
发明内容
本发明所要解决技术问题是,提供一种能够提高支持向量机的训练速度,并能提高其分类精度,有利于大样本数据集分类的适用于支持向量机训练的不平衡样本加权方法。
本发明适用于支持向量机训练的不平衡样本加权方法如下:
步骤一:设训练样本数据为TD={(di,Li)|di∈Rn,Li∈{1,...,S},i=1,...,N};di是n维实向量空间Rn上的样本数据对象,Li是样本数据对象di的类别标签;训练样本数据集合TD中共有N个样本数据对象,这些样本数据对象分属于S个类别;用K均值聚类算法将训练样本集中N个样本数据对象数据聚类成K个子类,所得子类为T={Tc|c=1,...,K};根据得到的K个子类中样本数据对象相应的类别分布情况,将这K个子类分为样本数据对象只含一种类别的纯子类UT={utj|j=1,...,P,1≤P≤K}和包含两种或以上类别的混合子类MT={mtq|q=1,...,K-P},K是UT和MT的并集,即有K=UT∪MT。将MT中每个混合子类中的样本数据对象按其相应类别再划分为多个纯子类,第a个混合子类MTa有两个类别的样本数据对象,将其再分为两个纯子类,设K-P个混合子类中还有WC个纯子类即UMT={umtb|b=1,...,WC},这样最终得到P+W个纯子类集合X=UT∪UMT。
步骤二:计算集合X上每个纯子类的聚类中心,设X集合上第g个纯子集的样本数据集合为{dg,h|h=1,...,m},dg,h为训练样本数据集合TD经聚类后在X集合的第g个子集上的样本数据,设该类样本有m个样本数据对象且每个样本数据对象的类别标签都是Sh,则聚类中心通过X集合上P+WC个聚类中心及相应的类别标签组成集合GS={(Ge,Se)|Se∈{1,...,S},e=1,...P+WC},然后使用libsvm来训练这些类中心,从而得到相应的模糊分类面f(x)=wTx+c,x是模糊分类面上的支持向量,w是根据训练得到的模糊分类面上支持向量的权重,c是偏移量;当f(x)>0时,表示样本数据对象属于某一类,当f(x)<0时,则属于另一类,f(x)=0时,则表示无法判断样本数据对象属于任何一类;支持向量机被设计为两类问题的分类,当样本有S个类别时,采用一对一的两两分类训练得到S(S-1)/2个模糊分类面,对任意一类样本集合,其模糊分类面都为S-1个。
步骤三:考虑到UMT集合比较靠近分类面,所以其纯子类包含支持向量的概率较大,而由K均值(K-Means)聚类得到的纯子类集合UT一般距离分类面较远,其包含支持向量的概率较小。本发明采用类最大最小距离方法对纯子类集合UT进行遴选,从其中找到离分类面较远的某些纯子类,将这些纯子类看作是不包含支持向量的,删除这些子类以减少集合X中所包含的对训练作用不大的样本数据,得到集合X上约减纯类集合后的子集RX1
步骤四:利用费歇尔判别法对遴选后得到的纯子类集合RX1继续消除子类内层冗余数据,得到样本数据集RX2,假设RX2中剩下了M个子类集合。
步骤五:计算步骤四当中的样本数据集RX2中各个数据对象到模糊分类面的距离disi,然后依照样本加权公式Vi=(1+disi)-z,i=1,...,M;其中Vi是相应的权值,z是经过试验后得到的一个取值在1.0-1.2之间的一个变量;对RX2中剩下的M个子类中所有的数据对象根据到模糊分类面的远近分配相应的权值Vi,经过加权之后的样本数据集合RX2最后变为我们最终用来训练的样本数据集RX3
步骤六:对最后保留下来的样本数据集RX3进行SVM训练,就可以得到最终的支持向量。
其中步骤三中从集合X上得到约减的纯子类集合RX1过程如下:
A1:从类别标签SY=1开始,选择UMT中属于同一类别标签的若干子集合,UMTSY=={umtxi|xi=1,...,Xxi}表示该子集合中所有样本数据对象的类别标签均为SY;计算子集合的某个子集如umtxi中每个样本数据对象到步骤二中得到的S-1个模糊分类面的最近距离;设子集合umtxi中的第Z个样本数据对象为dxi,z,其到模糊分类面的最近距离为其中||fjo(dxi,z)||是样本数据对象dxi,z到第jo个模糊分类面的距离,||w||是权重w的距离,本发明使用的距离都是欧式距离 wQ是n维向量w的第Q个分量,取umtxi中全部样本数据对象到模糊分类面的极大值作该类别标签SY的类最大距离,设该距离为DistMaxSY
A2:对于纯子类集合UT,选择该集合里所有类别标签均为SY的子集合,UTsy={utti|ti=1,...,Hti},设该子集合上有Hti个纯子类,从ti=1开始,选取集合UTSY中的一个纯子类utti,计算该子类中每一个样本数据对象到S-1个模糊分类面的距离,选取所有样本数据对象中到模糊分类面距离的极小值作为该子类到模糊分类面的距离记为DistMinti;此时如判断DistMinti>DistMaxSY,说明UTSY子集合中纯子类utti所包含的样本数据距离模糊分类面远,则舍弃utti,否则应该保留utti
A3:使ti递增1,并重复A2直到ti=Hti+1,表明集合UTSY中所有的子集都已完成约减的过程;
A4:将SY递增,然后选择下一个类别标签从A1开始继续执行,直到SY=S+1,表明集合UT中所有子集都已完成约减的过程;
A5:返回剩余子类和其包含的样本数据集合,设UT中保留了F个纯子类,则最终的样本集合包含F+W个纯子类,即有RX1={ut1,...,utF,umt1,...,umtW}。
步骤四中利用费歇尔判别法对遴选后的纯子类集合RX1进一步消除子类内层冗余数据,得到样本数据集RX2的过程如下:
B1:从Si=1开始,选取集合RX1中的一个子类,选择第Si个子类为RX1 Si和其相应的样本数据对象集合TDSi,计算该子类中每个样本对象到该类的聚类中心GSi的距离并排序,设该类样本数据对象有mSi个,得到第Si个子类排序后的距离集合为{disdx|dx=1,...,mSi},TDSi按照次距离进行排序后所对应的样本数据对象集为STDsi={stde Si|e=1,...,mSi};
B2:以每个排序的样本数据对象作为参照,记录小于该样本数据对象到聚类中心距离内的样本数据对象的个数,得到该样本数据对象到聚类中心距离上的样本密度,设排序对象stdui Si,其密度为该子类上所有样本数据对象的样本数据密度集合为Dens={densui|ui=1,...,mSi};
B3:设参数A=1,AD=In,Dmin=1,Dmax=mSi,AD为迭代的次数,In是设定值,子类中样本数据量越大,In越大;Dmin和Dmax规定了样本数据密度集合Dens上应用费歇尔判别率的取值范围,即在disDmin到disDmax距离范围内的样本数据密度子集中计算费歇尔判别率的值;
B4:若A<AD,则表明迭代没有结束,继续执行B5,否则转到B8;
B5:确定当前步长len,其中在disDmin到disDmax距离范围内的样本数据密度子集中,以len计算对应距离上的样本数据密度集合Dens的费歇尔判别率值Fis={fgi|gi=1,...,J},J=(Dmax-Dmin)/len,在第q个步长上,将样本数据密度集合Dens在disDmin到disDmax距离上分成两个子集合,分别为B={dens1,...,densDmin+gi*len-1}和C={densDmin+gi*len,...,densmSi},根据费歇尔判别率fgi=(μij)2/(δij)2,其中μi是集合B上样本数据密度的均值,δi是集合B上样本数据密度的均方差,μj是集合C上样本数据密度的均值,δj是集合C上样本数据密度的均方差,fgi是第gi个步长上将样本数据密度集合Dens分成B和C两个子集后得到的费歇尔判别率的值;
B6:选择集合Fis上最大的两个费歇尔判别率的值,得到其对应的排序距离,设为dismi,dismj,设mi<mj,将这两个排序距离的位置mi和mj各自赋给Dmin和Dmax
B7:使A递增1,然后转到继续从B4开始执行;
B8:将当前排序距离disDmax阀值,去掉样本数据集合RX1Si中所有列到该聚类中心距离小于disDmax的样本数据对象,保留排序距离集合RDSi={disDmax,...,dismi};
B9:使Si递增1,然后跳转到B2继续处理RX1中下一个子类,直到Si=F+W+1,表明所有的子类处理完毕;
B10:将余下的样本数据集记作RX2={RDSi}。
本发明针对传统的支持向量机在处理大数据集或不平衡数据样本上仍有需要改进和提高的地方,本发明就提出了一种新的算法,在已约减的大样本数据上再进行相应的加权,以此来用于支持向量机的训练学习,不仅提高了支持向量机的训练速度,而且还提高了其分类精度,这对于大样本的数据集的分类是大有裨益的。
附图说明
图1是本发明实施例经过步骤一得到的样本数据分布图;
图2是本发明实施例经过步骤二,三约减冗余子类后的样本数据分布图;
图3是本发明实施例经过步骤四得到约减子类内部数据的数据示意图;
图4是本发明实施例经过步骤五,六后得到约减后经过加权的数据并经过训练得到最终分类面的示意图。
具体实施方式
根据上面的具体步骤,结合图1-3,下面给出本发明的一个具体的实施示例。
图1是经过步骤一进行K均值聚类,令K=6,可得到6个子类,该样本数据表示的是两种类别的数据,其中正方形代表一类,圆形代表另一类。T={Ti|i=1,...,6},某一类别的数据使用椭圆虚线包围。对应得到的6个子类,按照其含数据对象相对应的类别的分布情况,将这6个子类分为仅包含单一类别的纯子类记作UT={T2,T4,T5,T6}和子类包含两个或以上多个类别的混合子类MT={T1,T3}。将MT中每个混合子类进一步划分为多个纯子类,记作UMT={T1A,T1B,T3A,T3B},得到8个纯子类记集合X={T2,T4,T5,T6,T1A,T1B,T3A,T3B}。
图2代表使用步骤二,三对集合X进行约减冗余子类后的结果图:
A1:计算集合X上每个纯子类的聚类中心,在图2中用三角形代表。利用集合X上得到的7个聚类中心及集合X上纯子类所对应的类别记作{(C1A,1)(C1B,2)(C2,1)(C4,2)(C5,2)(C3A,1)(C3B,2)},Ci表示集合X上第i个子类的聚类中心,1代表正方形样本数据,2代表圆形样本数据。然后对这些样本数据使用LIBSVM工具训练得到模糊分类面。在图2里,用实直线表示该模糊分类面,图2中两条虚直线附近的聚类中心则代表到模糊分类面最近的支撑向量。因为样本数据只有两类,所以对任意类别的样本数据,得出的分类面只有1个。
A2:从类别标签SY=1开始,即为正方形的数据子集,选取UMT中属于同一类别标签的SY的子集合,在图2中为UMT1={T1A,T3A},再计算每子集T1A和T3A中每个数据对象到模糊分类面的最近距离,选取子集T1A和T3A中所有数据对象到模糊分类面的极大值记作该子集的距离。然后以T1A和T3A中距离的极大值作为UMT1类的类最大距离,假设该距离在图2中为DistMax1
A3:在纯子类集合UT中,选取类别标签也为SY的子集合,即选取集合UT1={T2}即为正方形数据的子集。
A4:从子类T2开始,计算子类T2中每个数据对象到模糊分类面的距离,然后选择全部数据对象到模糊分类面距离的极小值作为子类T2到模糊分类面的距离,不妨设该距离为DistMinT2。由于DistMinT2<DistMax1,则表示子类T2中可能存在支持向量,那么就保留子类T2
A5:由于UT1中只有一个子类,所以继续使SY加1,选取下一个类别标签,此时SY=2,代表圆形的数据子集,转到A2继续执行,直到SY=3为止。
经过以上处理,我们弃掉了距离模糊分类面较远的T6子类,然后得到了剩余子类及其所含样本数据集合RX1,RX1={T2,T4,T5,T1A,T1B,T3A,T3B}。
图3代表使用了步骤四进一步约减子类中内部冗余数据。在图3中,RX1中每个子类删除的内层冗余数据用实线圆圈出。实线圆和虚线椭圆之间包含的数据为约减后的剩余数据集RX2
其中,使用步骤四对RX1集合进一步去除子类内层冗余数据,得到待加权的数据集RX2的过程如下:
B1:从集合RX1的子类T2开始,计算该子类T2中每个数据对象到该子类的聚类中心的距离disdx。在图3中,子类T2有25个数据对象,对这些距离进行排序,得到第子类T2排序后的距离集合记作{disdx|dx=1,...,25}和对应的数据对象集合记作STDsi={stde Si|e=1,...,25}。
B2:以每个排序的数据对象为参考,统计不大于该数据对象到聚类中心距离的数据对象个数,从而计算出该数据对象到聚类中心距离上的数据密度。子类T2的数据密度集合为Dens={densui|ui=1,...,25}。
B3:可以设定参数A=1,AD=In,Dmin=1,Dmax=msi。鉴于图3的子类数据较少,故可设置AD=2,即只迭代一次。msi是子类所拥有数据对象的个数,在T2中,该数值为25,表示对该子类中所有数据密度集合计算其费歇尔判别率值。
B4:如果A<AD,则表明迭代没有结束,继续执行步骤B5;否则跳转到步骤I。
B5:确定当前步长len,其中因为图3的数据量小,len=1。在disDmin到disDmax距离范围内的样本数据密度子集中,以len计算对应距离上的样本数据密度集合Dens的费歇尔判别率值Fis={fgi|gi=1,...,J}在子类T2中J=24。
B6:选择集合Fis上最大的两个费歇尔判别率的值,得到其对应的排序距离,假设为dismi,dismj(设mi<mj),将这两个排序距离的位置mi和mj各自赋给Dmin和Dmax。
B7:使A加1,然后跳到过程B4继续执行。
B8:以当前排序距离disDmax为阈值,去掉数据对象集合RX1 Si中全部到该子类聚类中心距离小于disDmax的数据对象。在图3中,每个子类中实圆圈内的数据对象即为要去掉的数据对象,那些在实线圆和虚线椭圆之间的数据对象即为子类该保留下来的数据对象。
B9:跳转到步骤B1,处理集合RX1中的下一个子类T4,直到所有子类都已处理完毕。
B10:将保留下来的数据集合组成集合RX2,RX2={T2”,T4”,T5”,T1A”,T1B”,T3A”,T3B”}作为要用来加权的数据集合。
在图4中,经过步骤五,六对RX2的数据集中的所有数据对象根据到模糊分类面的距离分配相应的权值Vi,得到加权之后的数据集RX3,并使用RX3数据集训练得到的最终分类面用直线表示。
其中,步骤五中对数据集RX3进行加权的策略如下:
C1:从Si=1开始,计算数据集RX2中第Si个子类T2”中所有的数据对象到模糊分类面的距离{disdx|dx=1,...,11}和对应的数据对象集合记作STDsi={stde Si|e=1,...,11}。此时T2”中的数据对象为11个。
C2:依照子类T2”中所有的数据对象到模糊分类面的距离disdx的值排序,根据样本加权公式Vi=(1+disdx)-z,dx=1,...,M,赋予相应的权值Vi
C3:然后使Si加1,继续继续处理RX2中下一个子类,直到所有的子类加权完毕,即可得到最终的数据集RX3
表一原始数据
实验所用的1组模拟数据和6组真实数据的详细情况如表1所示。模拟数据是由计算机模拟生成的二维高斯分布的两类数据集,它服从均值为(0,0)和(5,0),对应方差为 3 3 0 1 4 4 0 1 的高斯分布,模拟数据的测试数据的生成方式和训练数据一样。而真实数据的两组平衡数据集[UCI]/a8a来自UCI/Adult数据集,[IG05a]/gisette来自NIPS 2003Feature Selection Challenge[IG05a]数据集。四组不平衡数据集[JP98a]/w8a来自[JP98a]数据集,[DP01a]/ijcnnl来自[DP01a]数据集,[UCI]/Covtype.binary来自UCI/Covertype数据集,[KDD CUP2004]/Protein_homology来自KDD CUP 2004会议数据集。本实验中用到的数据集的类别都是两类数据集,而且考虑到多种情况,如模拟数据,真实数据,平衡数据和不平衡数据,数据的维数也是各不相同,这些不同的数据集在实验时的聚类数分别为20,30,20,60,70,60,100,可以客观的反映本发明所提出算法的有效性。
表二使用本发明及传统SVM得到训练时间与分类精度的对比结果
表二所得的实验数据是对表一的数据经过本发明优化后然后进行SVM的训练得出的训练时间和分类精度与传统的SVM训练进行的比较,从实验数据可以看出,当样本数据量较大且样本是不平衡分布时,表中的最后一行数据就是此类情况,我们可以看出训练的时间大幅度的减少,分类精度也有了一定程度的提高,这说明在大量的不平衡数据样本进行SVM的训练学习的时候,本发明对样本数据的优化然后用于SVM的训练是可以提高训练速度和分类精度的。

Claims (3)

1.一种适用于支持向量机训练的不平衡样本加权方法,其特征是:步骤如下:
步骤一:设训练样本数据为TD={(di,Li)|di∈Rn,Li∈{1,...,S},i=1,...,N};di是n维实向量空间Rn上的样本数据对象,Li是样本数据对象di的类别标签;训练样本数据集合TD中共有N个样本数据对象,这些样本数据对象分属于S个类别;用K均值聚类算法将训练样本集中N个样本数据对象数据聚类成K个子类,所得子类为T={Tc|c=1,...,K};根据得到的K个子类中样本数据对象相应的类别分布情况,将这K个子类分为样本数据对象只含一种类别的纯子类UT={utj|j=1,...,P,1≤P≤K}和包含两种或以上类别的混合子类MT={mtq|q=1,...,K-P},K是UT和MT的并集,即有K=UT∪MT;将MT中每个混合子类中的样本数据对象按其相应类别再划分为多个纯子类,第a个混合子类MTa有两个类别的样本数据对象,就将其再分为两个纯子类,设K-P个混合子类中还有WC个纯子类即UMT={umtb|b=1,...,WC},最终得到P+W个纯子类集合X=UT∪UMT;
步骤二:计算集合X上每个纯子类的聚类中心,设X集合上第g个纯子集的样本数据集合为{dg,h|h=1,...,m},dg,h为训练样本数据集合TD经聚类后在X集合的第g个子集上的样本数据,设该类样本有m个样本数据对象且每个样本数据对象的类别标签都是Sh,则聚类中心通过X集合上P+WC个聚类中心及相应的类别标签组成集合GS={(Ge,Se)|Se∈{1,...,S},e=1,...P+WC},然后使用libsvm来训练这些类中心,从而得到相应的模糊分类面f(x)=wTx+c,x是模糊分类面上的支持向量,w是根据训练得到的模糊分类面上支持向量的权重,c是偏移量;当f(x)>0时,表示样本数据对象属于某一类,当f(x)<0时,则属于另一类,f(x)=0时,则表示无法判断样本数据对象属于任何一类;支持向量机被设计为两类问题的分类,当样本有S个类别时,采用一对一的两两分类训练得到S(S-1)/2个模糊分类面,对任意一类样本集合,其模糊分类面都为S-1个;
步骤三:采用类最大最小距离方法对纯子类集合UT进行遴选,从其中找到离分类面较远的某些纯子类,将这些纯子类看作是不包含支持向量的,删除这些子类以减少集合X中所包含的对训练作用不大的样本数据,得到集合X上约减纯类集合后的子集RX1
步骤四:利用费歇尔判别法对遴选后得到的纯子类集合RX1继续消除子类内层冗余数据,得到样本数据集RX2,假设RX2中剩下了M个子类集合;
步骤五:计算步骤四当中的样本数据集RX2中各个数据对象到模糊分类面的距离disi,然后依照样本加权公式Vi=(1+disi)-z,i=1,...,M;其中Vi是相应的权值,z是经过试验后得到的一个取值在1.0-1.2之间的一个变量;对RX2中剩下的M个子类中所有的数据对象根据到模糊分类面的远近分配相应的权值Vi,经过加权之后的样本数据集合RX2最后变为最终用来训练的样本数据集RX3
步骤六:对最后保留下来的样本数据集RX3进行SVM训练,就可以得到最终的支持向量。
2.根据权利要求1所述的适用于支持向量机训练的不平衡样本加权方法,其特征是:其步骤三中从集合X上得到约减的纯子类集合RX1过程如下:
A1:从类别标签SY=1开始,选择UMT中属于同一类别标签的若干子集合,UMTSY=={umtxi|xi=1,...,Xxi}表示该子集合中所有样本数据对象的类别标签均为SY;计算子集合的某个子集如umtxi中每个样本数据对象到步骤二中得到的S-1个模糊分类面的最近距离;设子集合umtxi中的第Z个样本数据对象为dxi,z,其到模糊分类面的最近距离为其中||fjo(dxi,z)||是样本数据对象dxi,z到第jo个模糊分类面的距离,||w||是权重w的距离,使用的距离都是欧式距离wQ是n维向量w的第Q个分量,取umtxi中全部样本数据对象到模糊分类面的极大值作该类别标签SY的类最大距离,设该距离为DistMaxSY
A2:对于纯子类集合UT,选择该集合里所有类别标签均为SY的子集合,UTsy={utti|ti=1,...,Hti},设该子集合上有Hti个纯子类,从ti=1开始,选取集合UTSY中的一个纯子类utti,计算该子类中每一个样本数据对象到S-1个模糊分类面的距离,选取所有样本数据对象中到模糊分类面距离的极小值作为该子类到模糊分类面的距离记为DistMinti;此时如判断DistMinti>DistMaxSY,说明UTSY子集合中纯子类utti所包含的样本数据距离模糊分类面远,则舍弃utti,否则应该保留utti
A3:使ti递增1,并重复A2直到ti=Hti+1,表明集合UTSY中所有的子集都已完成约减的过程;
A4:将SY递增,然后选择下一个类别标签从A1开始继续执行,直到SY=S+1,表明集合UT中所有子集都已完成约减的过程;
A5:返回剩余子类和其包含的样本数据集合,设UT中保留了F个纯子类,则最终的样本集合包含F+W个纯子类,即有RX1={ut1,...,utF,umt1,...,umtW}。
3.根据权利要求1所述的适用于支持向量机训练的不平衡样本加权方法,其特征是:步骤四中利用费歇尔判别法对遴选后的纯子类集合RX1进一步消除子类内层冗余数据,得到样本数据集RX2的过程如下:
B1:从Si=1开始,选取集合RX1中的一个子类,选择第Si个子类为RX1 Si和其相应的样本数据对象集合TDSi,计算该子类中每个样本对象到该类的聚类中心GSi的距离并排序,设该类样本数据对象有mSi个,得到第Si个子类排序后的距离集合为{disdx|dx=1,...,mSi},TDSi按照次距离进行排序后所对应的样本数据对象集为STDsi={stde Si|e=1,...,mSi};
B2:以每个排序的样本数据对象作为参照,记录小于该样本数据对象到聚类中心距离内的样本数据对象的个数,得到该样本数据对象到聚类中心距离上的样本密度,设排序对象stdui Si,其密度为该子类上所有样本数据对象的样本数据密度集合为Dens={densui|ui=1,...,mSi};
B3:设参数A=1,AD=In,Dmin=1,Dmax=mSi,AD为迭代的次数,In是设定值,子类中样本数据量越大,In越大;Dmin和Dmax规定了样本数据密度集合Dens上应用费歇尔判别率的取值范围,即在disDmin到disDmax距离范围内的样本数据密度子集中计算费歇尔判别率的值;
B4:若A<AD,则表明迭代没有结束,继续执行B5,否则转到B8;
B5:确定当前步长len,其中在disDmin到disDmax距离范围内的样本数据密度子集中,以len计算对应距离上的样本数据密度集合Dens的费歇尔判别率值Fis={fgi|gi=1,...,J},J=(Dmax-Dmin)/len,在第q个步长上,将样本数据密度集合Dens在disDmin到disDmax距离上分成两个子集合,分别为B={dens1,...,densDmin+gi*len-1}和C={densDmin+gi*len,...,densmSi},根据费歇尔判别率fgi=(μij)2/(δij)2,其中μi是集合B上样本数据密度的均值,δi是集合B上样本数据密度的均方差,μj是集合C上样本数据密度的均值,δj是集合C上样本数据密度的均方差,fgi是第gi个步长上将样本数据密度集合Dens分成B和C两个子集后得到的费歇尔判别率的值;
B6:选择集合Fis上最大的两个费歇尔判别率的值,得到其对应的排序距离,设为dismi,dismj,设mi<mj,将这两个排序距离的位置mi和mj各自赋给Dmin和Dmax
B7:使A递增1,然后转到继续从B4开始执行;
B8:将当前排序距离disDmax阀值,去掉样本数据集合RX1 Si中所有列到该聚类中心距离小于disDmax的样本数据对象,保留排序距离集合RDSi={disDmax,...,dismi};
B9:使Si递增1,然后跳转到B2继续处理RX1中下一个子类,直到Si=F+W+1,表明所有的子类处理完毕;
B10:将余下的样本数据集记作RX2={RDSi}。
CN201410803911.8A 2014-12-22 2014-12-22 适用于支持向量机训练的不平衡样本加权方法 Pending CN104463221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410803911.8A CN104463221A (zh) 2014-12-22 2014-12-22 适用于支持向量机训练的不平衡样本加权方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410803911.8A CN104463221A (zh) 2014-12-22 2014-12-22 适用于支持向量机训练的不平衡样本加权方法

Publications (1)

Publication Number Publication Date
CN104463221A true CN104463221A (zh) 2015-03-25

Family

ID=52909235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410803911.8A Pending CN104463221A (zh) 2014-12-22 2014-12-22 适用于支持向量机训练的不平衡样本加权方法

Country Status (1)

Country Link
CN (1) CN104463221A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470699A (zh) * 2018-03-29 2018-08-31 深圳市创艺工业技术有限公司 一种半导体制造设备和工艺的智能控制系统
CN108562867A (zh) * 2018-04-17 2018-09-21 北京邮电大学 一种基于聚类的指纹定位方法及装置
CN109165694A (zh) * 2018-09-12 2019-01-08 太原理工大学 一种对非平衡数据集的分类方法及系统
CN109360206A (zh) * 2018-09-08 2019-02-19 华中农业大学 基于深度学习的大田稻穗分割方法
CN110377732A (zh) * 2019-06-27 2019-10-25 江苏大学 一种基于样本缩放的文本分类的方法
CN113156263A (zh) * 2021-03-23 2021-07-23 广东安恒电力科技有限公司 电缆状态监测方法及存储介质
CN113283909A (zh) * 2021-06-09 2021-08-20 广东工业大学 一种基于深度学习的以太坊钓鱼账户检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831432A (zh) * 2012-05-07 2012-12-19 江苏大学 一种适用于支持向量机训练的冗余数据约减方法
CN104009886A (zh) * 2014-05-23 2014-08-27 南京邮电大学 基于支持向量机的入侵检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831432A (zh) * 2012-05-07 2012-12-19 江苏大学 一种适用于支持向量机训练的冗余数据约减方法
CN104009886A (zh) * 2014-05-23 2014-08-27 南京邮电大学 基于支持向量机的入侵检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANGJUN SHEN等: "Distributed SVM Classification with Redundant Data Removing", 《GREEN COMPUTING AND COMMUNICATIONS (GREENCOM), 2013 IEEE AND INTERNET OF THINGS (ITHINGS/CPSCOM)》 *
李珍: "基于冗余数据约减的支持向量机学习方法研究", 《万方学位论文数据库》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108470699A (zh) * 2018-03-29 2018-08-31 深圳市创艺工业技术有限公司 一种半导体制造设备和工艺的智能控制系统
CN108562867A (zh) * 2018-04-17 2018-09-21 北京邮电大学 一种基于聚类的指纹定位方法及装置
CN108562867B (zh) * 2018-04-17 2020-10-13 北京邮电大学 一种基于聚类的指纹定位方法及装置
CN109360206A (zh) * 2018-09-08 2019-02-19 华中农业大学 基于深度学习的大田稻穗分割方法
CN109165694A (zh) * 2018-09-12 2019-01-08 太原理工大学 一种对非平衡数据集的分类方法及系统
CN109165694B (zh) * 2018-09-12 2022-07-08 太原理工大学 一种对非平衡数据集的分类方法及系统
CN110377732A (zh) * 2019-06-27 2019-10-25 江苏大学 一种基于样本缩放的文本分类的方法
CN113156263A (zh) * 2021-03-23 2021-07-23 广东安恒电力科技有限公司 电缆状态监测方法及存储介质
CN113283909A (zh) * 2021-06-09 2021-08-20 广东工业大学 一种基于深度学习的以太坊钓鱼账户检测方法

Similar Documents

Publication Publication Date Title
CN104463221A (zh) 适用于支持向量机训练的不平衡样本加权方法
CN102201236B (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN101968853B (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN105488528B (zh) 基于改进自适应遗传算法的神经网络图像分类方法
CN106779087A (zh) 一种通用机器学习数据分析平台
CN110751121B (zh) 基于聚类与sofm的无监督雷达信号分选方法
CN109145960A (zh) 基于改进粒子群算法的数据特征选择方法及系统
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
CN102831432A (zh) 一种适用于支持向量机训练的冗余数据约减方法
CN110110663A (zh) 一种基于人脸属性的年龄识别方法及系统
CN100416599C (zh) 一种遥感影像的人工免疫非监督分类方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN110287985A (zh) 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法
CN110909785B (zh) 基于语义层级的多任务Triplet损失函数学习方法
CN109284662A (zh) 一种面向水下声音信号分类的迁移学习方法
CN108647772A (zh) 一种用于边坡监测数据粗差剔除的方法
Estévez et al. A niching genetic algorithm for selecting features for neural network classifiers
Yi et al. A new genetic programming algorithm for building decision tree
Shih et al. Speech emotion recognition with ensemble learning methods
Zainuddin et al. Radial basis function neural networks in protein sequence classification
CN115472291A (zh) 基于改进樽海鞘优化bp神经网络的食管鳞癌生存预测方法
Zalasiński et al. Intelligent approach to the prediction of changes in biometric attributes
CN108345943A (zh) 一种基于嵌入编码与对比学习的机器学习识别方法
Antonelli et al. A new approach to handle high dimensional and large datasets in multi-objective evolutionary fuzzy systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325