CN101295362A - 结合支持向量机以及近邻法的模式分类方法 - Google Patents

结合支持向量机以及近邻法的模式分类方法 Download PDF

Info

Publication number
CN101295362A
CN101295362A CNA2007100988675A CN200710098867A CN101295362A CN 101295362 A CN101295362 A CN 101295362A CN A2007100988675 A CNA2007100988675 A CN A2007100988675A CN 200710098867 A CN200710098867 A CN 200710098867A CN 101295362 A CN101295362 A CN 101295362A
Authority
CN
China
Prior art keywords
sample
identified
alpha
classification
representative point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100988675A
Other languages
English (en)
Inventor
李蓉
王华宁
崔延美
贺晗
杜占乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Astronomical Observatories of CAS
Original Assignee
National Astronomical Observatories of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Astronomical Observatories of CAS filed Critical National Astronomical Observatories of CAS
Priority to CNA2007100988675A priority Critical patent/CN101295362A/zh
Publication of CN101295362A publication Critical patent/CN101295362A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合支持向量机以及近邻法的模式分类方法,包括以下步骤:通过核函数将输入样本空间的训练样本以非线性方式映射到特征空间,通过支持向量机SVM的二次优化训练算法获得支持向量;将获得的支持向量设置为代表点,计算待识别样本和代表点的距离差,判断距离差是否大于预置的分类阈值,如果大于,则直接用SVM分类算法对待识别样本进行模式分类;否则在全部所述代表点中寻找与所述待识别样本之间距离最近的K个代表点对待识别样本进行模式分类。采用本发明的方法不仅提高了模式分类的精确度,而且在降低了设计和计算复杂度的同时,节约了计算机实现模式分类的成本。

Description

结合支持向量机以及近邻法的模式分类方法
技术领域
本发明涉及模式分类技术,尤其涉及一种结合支持向量机以及近邻法的模式分类方法。
背景技术
机器学习作为人工智能的一个主要研究领域经历了很长的发展时期,基于训练样本的机器学习从观测训练样本出发寻找规律,并利用这些规律对未来样本或无法观测的样本进行预测。到了八十年代,一个由大量的简单处理单元广泛连接组成的人工网络即神经网络成为了一种重要的机器学习方法,用来模拟大脑神经系统的结构和功能,其中神经网络的连接方式以及权值决定了神经网络的行为。神经网络模型根据网络拓扑结构分为前馈型网络和回馈型网络两大类,已被广泛应用到模式识别和函数回归等领域中。然而,由于神经网络模型缺乏数学理论支持,存在使机器过学习的问题,即对训练样本学习过度,对未参加训练样本的学习能力差,因此在实际应用中存在一定的局限性。
目前,针对采用上述神经网络模型存在使机器过学习的问题,采用支持向量机(SVM,Support Vector Machine)来替代上述神经网络模型进行模式识别。SVM作为一种新的模式分类方法是建立在统计学习理论的VC维理论和结构风险最小化基础上,它不仅对训练样本有较强的学习能力,而且具有很好的推广能力,即能对未知样本有较强的预测能力,SVM已被应用于人脸识别、文本识别、手写体识别等领域。其中,作为统计学习理论中一个核心概念的VC维为描述函数集或机器学习的复杂性即机器学习能力的一个重要指标,并在此概念基础上发展出了一系列关于统计学习的一致性、收敛速度以及推广性能等重要结论。
然而,在SVM的应用中还存在诸如针对不同的应用问题较难选择核函数的参数、针对较复杂问题采用SVM模式分类精度不高、以及针对大规模模式分类问题训练时间长等问题。虽然也采用了相应的解决方法,包括首先建立模式分类性能的评价函数,然后对SVM中的核函数的参数进行优化;或者使用直推方法对给定训练样本设计最优的SVM,但是采用上述两种方法在设计和计算时都非常复杂,而且通过计算机实现该两种方法成本都很高。
发明内容
有鉴于此,本发明的主要目的在于提供一种结合支持向量机以及近邻法的模式分类方法,不仅提高了模式分类的精确度,而且在降低了设计和计算复杂度的同时,节约了计算机实现模式分类的成本。
为达到上述目的,本发明的技术方案是这样实现的:
一种结合支持向量机以及近邻法的模式分类方法,包括以下步骤:
A、通过核函数将输入样本空间的训练样本以非线性方式映射到特征空间,通过支持向量机SVM的二次优化训练算法获得支持向量;
B、将获得的所述支持向量设置为代表点,计算待识别样本和代表点的距离差,判断距离差是否大于预置的分类阈值,如果大于,则执行步骤C;否则执行步骤D;
C、以SVM分类算法对所述待识别样本进行模式分类,结束当前处理流程;
D、在全部所述代表点中寻找与所述待识别样本之间距离最近的K个代表点,根据这K个代表点所属的类别以及属于不同类别的代表点个数,确定代表点个数最多的类别,将待识别样本归为所确定的类别,并把确定的类别设置为待识别样本所属的类别。
其中,步骤A中通过SVM的二次优化训练算法获得支持向量具体为:
将所述样本空间中的训练样本xi,yi,输入到公式 W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l α i α j y i y j k ( x i · x j ) 及公式αi(yi[(w,xi)-b]-1)=0,i=1,…,l中,其中, W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l α i α j y i y j k ( x i · x j ) 在满足约束条件αi≥0,i=1,…,l及 Σ i = 1 l α i y i = 0 时成立,输出αi,i=1,…,l;αi对应的所述训练样本为所述支持向量;
相应地,步骤C中以SVM分类算法对待识别样本进行模式分类,具体为:
将αi输入分类函数
Figure A20071009886700062
输出f(x),f(x)对应于待识别样本x的类别。
其中,步骤A中的所述核函数为多项式核函数、径向基核函数、或感知机核函数中的一种。
其中,K=1时,步骤D具体为:
在全部所述代表点中寻找与所述待识别样本之间距离最近的一个代表点,将待识别样本设置为该代表点所属的类别。
其中,所述代表点所属的类别为两类时,步骤A中通过SVM的二次优化训练算法获得支持向量具体为:
将所述样本空间中的训练样本xi,yi,输入到公式 W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l α i α j y i y j k ( x i · x j ) 及公式αi(yi[(w,xi)-b]-1)=0,i=1,…,l中,其中, W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l α i α j y i y j k ( x i · x j ) 在满足约束条件αi≥0,i=1,…,l以及 Σ i = 1 l α i y i = 0 时成立,输出αi,i=1,…,l;αi对应的所述训练样本为所述支持向量;
相应地,步骤B具体为:
步骤B1、将所述支持向量xj,yj,αj以及常数b输入公式
Figure A20071009886700066
输出所述距离差g(x);
步骤B2、判断距离差g(x)是否大于预置的分类阈值ε,如果大于,则执行步骤C1;否则执行步骤D1;
步骤C具体为:
步骤C1、将g(x)输入f(x)=sgn(g(x)),输出f(x),f(x)对应于待识别样本的类别;
步骤D具体为:
步骤D1、将待识别样本x和代表点xi输入 d x i = | | φ ( x ) - φ ( x i ) | | 2 , 计算待识别样本x与代表点xi之间的距离,取距离该待识别样本x最近的K个代表点对待识别样本x进行分类。
本发明的方法首先采用SVM的二次优化训练算法获得支持向量;再将SVM训练所得的支持向量作为代表点,计算待识别样本和代表点的距离差,判断距离差是否大于预置的分类阈值,如果大于,则直接采用SVM分类算法对待识别样本进行模式分类,否则,结合近邻法(KNN)计算全部所述代表点和待识别样本的距离,即取距离该待识别样本最近的K个代表点对待识别样本进行模式分类。
由SVM的原理可知错分样本在分界面附近,可知应尽量利用分界面附近的训练样本提供的信息,以提高模式分类的精确度;而且,分界面附近的训练样本基本上为支持向量。同时,由于结合SVM和KNN的基础为SVM把两类支持向量每类组合成一个代表点,即可以被看成每类只有一个代表点的最近邻分类器(1NN),因此结合SVM和KNN进行模式分类的方法区别于仅采用KNN的选择所有的训练样本进行模式分类的方法,仅把经由SVM训练所得的支持向量作为代表点,即把每个支持向量作为一个代表点进行分类,不仅容易实现而且计算复杂度低。
综上所述,采用本发明的模式分类方法不仅提高了模式分类的精确度,而且在降低了设计和计算复杂度的同时,节约了计算机实现模式分类的成本。
附图说明
图1为本发明进行模式分类的原理实现流程示意图。
具体实施方式
本发明的核心思想为:首先采用SVM的二次优化训练算法获得支持向量;再将SVM训练所得的支持向量作为代表点,计算待识别样本和代表点的距离差,判断距离差是否大于预置的分类阈值,如果大于,则直接采用SVM分类算法对待识别样本进行模式分类,否则,结合KNN在全部所述代表点中寻找和待识别样本距离最近的K个代表点对待识别样本进行模式分类。这里,所述样本空间指输入样本的空间,通常是指训练集样本组成的原始输入空间,不包括待识别的样本。
其中,SVM的原理为:首先通过核函数将上述原始输入空间的训练样本通过非线性映射--φ映射到高维特征空间,然后建立一个线性判别函数,或者说在高维特征空间中建立一个能够区分训练样本的最优超平面,以增加训练样本的可分性,使得原本线形不可分的训练样本在高维特征空间中线形可分,由此可简单地用高维特征空间的一个最优超平面完成分类,并在高维特征空间构造线性支持向量机,还原到原来的输入空间即原特征空间则是一个非线性决策面。
SVM的核心是基于核函数的核化技术,通过内积核函数k(x,x′)替代点积(x,x′),将原特征空间的x变换到某一新的特征空间的φ(x)。具体来说,核函数k(xi,xj)对所有属于输入空间的训练样本xi和xj,使其满足k(xi,xj)={φ(xi),φ(xj)},其中,
Figure A20071009886700081
是从输入空间到特征空间即内积空间的映射。
所谓KNN也称为k-近邻,其基本原理为:选择样本空间中所有的训练样本作为代表点,寻找和待识别样本距离最近的K个代表点,根据这K个代表点所属的类别确定K个代表点中多数所属的类别,把待识别样本归为所确定的类别。
为使本发明的目的、技术方案和优点更加清楚明白,以下举具体实施例并参照附图,对本发明进一步详细说明。
如图1所示,本发明结合支持向量机以及近邻法的模式分类方法,包括以下步骤:
步骤101、通过核函数将输入样本空间的训练样本以非线性方式映射到特征空间,通过SVM的二次优化训练算法获得支持向量。
其中,特征空间为经由核函数k(x,x′)对样本空间的输入样本进行非线性映射后,得到的高维特征空间,在此空间下样本的类别不变。特征空间与样本空间之间的区别在于:样本空间的维数比较低,而特征空间的维数比较高。一个特征空间的样本点也称为一个特征向量。
步骤102、将获得的所述支持向量设置为代表点,计算待识别样本和代表点的距离差,判断距离差是否大于预置的分类阈值,如果大于,则执行步骤103;否则,执行步骤104。
步骤103、以SVM分类算法对所述待识别样本进行模式分类,结束当前处理流程。
步骤104、在全部所述代表点中寻找与所述待识别样本之间距离最近的K个代表点,根据这K个代表点所属的类别以及属于不同类别的代表点个数,确定代表点个数最多的类别,将待识别样本归为所确定的类别,并把确定的类别设置为待识别样本所属的类别,结束当前处理流程。
例如:在全部代表点中存在距离待识别样本最近的五个代表点,其中三个代表点所属的类别以+1标识,二个代表点所属的类别以-1标识,由于以+1标识的代表点多,因此把待识别样本归为该三个代表点所属的类别,即以+1标识。
已知训练样本(xi,yi),i=1,…,l,xi∈Rd,y∈{-1,+1},训练样本的学习任务即寻找满足以下解决二次优化问题的公式(1)的拉格郎日乘子αi
由于考虑到由Karush-Kuhn-Tucker提出的KKT条件,此二次优化问题的解W(α)还必须同时满足以下公式(2)才能获得αi,因此基于图1的实现原理,步骤101中通过SVM的二次优化训练算法获得支持向量具体为:
将样本空间中的训练样本输入到公式(1)及公式(2),输出αi,i=1,…,l。其中,公式(1)在同时满足约束条件αi≥0,i=1,…,l以及 Σ i = 1 l α i y i = 0 时成立。
W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l α i α j y i y j k ( x i · x j ) - - - ( 1 )
αi(yi[(w,xi)-b]-1)=0,i=1,…,l    (2)
由此可知,多数已知训练样本对应的αi将为0,只有一部分通常是少部分αi将不为零,αi所对应的训练样本为支持向量。SVM的分类函数为:
Figure A20071009886700101
相应地,步骤103中以SVM分类算法对待识别样本x进行模式分类,具体为:
将上述步骤得到的αi输入上述公式(3),输出f(x),f(x)对应于待识别样本x的类别。
综上所述,步骤101为输入训练样本采用SVM的训练学习过程:在同时满足公式(1)及公式(2)式的条件下,SVM的训练算法通过循环迭代求解。首先将原问题划分成若干子问题,然后按照换入换出的迭代策略,通过反复求解子问题,最终使结果收敛到原问题的最优解αi,并由此得到支持向量,解决二次优化问题,解为最优体现在所构造的分界面把两类样本分开的距离最大。其中,分界面附近的输入向量被称为支持向量,意即其它向量不影响分界面即决策函数。
也就是说,从训练样本集中选择一工作样本集,工作样本集的大小固定在算法速度可以容忍的限度内,在该固定工作样本集中划分子问题的条件下,上述迭代求解的具体过程为:选择一种换入换出的迭代策略,将剩余样本中的一部分与工作样本集中的样本进行等量交换,即使支持向量的个数超过工作样本集的大小,也不改变工作样本集的规模,而只对支持向量中的一部分进行优化。比较成熟的算法是LIBSVM,它是一个成熟的SVM算法的软件包,其中包括算法说明和软件。上述采用SVM根据有限的训练样本在模型的复杂性以及学习能力之间寻求折衷,也就是说在对特定训练样本的学习精度与无错误地识别任意样本的能力之间找到最优解,从而获得最好的推广能力。
公式(1)中的K(xi,xj)称为核函数,在步骤101中采用的核函数为多项式核函数、径向基核函数、或感知机核函数中的一种。通过采用不同的函数作为核函数,可以构造实现输入空间中不同类型的非线形决策面的机器学习,三类核函数具体为:
多项式核函数K(x,xi)=[(x·xi)+1]q,所得到的是q多项式分类器;
径向基函数(RBF) K ( x , x i ) = exp { - | | x - x i | | 2 σ 2 } , 所得分类器与传统RBF方法的重要区别是:这里每个基函数中心对应一个支持向量,它们及输出权值都是由算法自动确定的;
采用感知机核函数(Sigmoid)作为内积,K(x,xi)=tanh(v(x·xi)+c)。
基于图1的实现原理,当K=1时,如图2所示,步骤104具体为:
在全部所述代表点中寻找与所述待识别样本之间距离最近的一个代表点,将待识别样本设置为该代表点所属的类别。
采用SVM与图1中采用SVM结合KNN的区别在于:采用SVM时,由于SVM对每类支持向量只取一个代表点,有时该代表点不能很好的代表该类,仅在待识别样本离分界面较远的情况下才能正确地进行分类;而采用SVM结合KNN时即分类时从支持向量中选出待识别样本的K个近邻,看这K个近邻中的多数属于哪一类,就把待识别样本归到哪一类。因此将SVM与KNN相结合是因为KNN是将每类所有支持向量作为代表点,从而使分类器具有更高的分类准确率。
实施例一:
模式识别分为两类和多类问题,本实施例针对两类问题进行模式识别以及模式分类。两类中包括正例和反例,分别用+1和-1来标识,即:将两类支持向量即代表点所属的类别分别用+1和-1来标识。本实施例中,采用一个SVM-KNN分类器即将SVM与KNN相结合,当所述代表点所属的类别为两类时,结合支持向量机以及近邻法的模式分类方法为:
步骤101中通过SVM的二次优化训练算法获得支持向量具体为:
将所述样本空间中的训练样本xi,yi,输入到公式 W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l α i α j y i y j k ( x i · x j ) 以及公式αi(yi[(w,xi)-b]-1)=0,i=1,…,l中,其中, W ( α ) = Σ i = 1 l α i - 1 2 Σ i , j = 1 l α i α j y i y j k ( x i · x j ) 在满足约束条件αi≥0,i=1,…,l以及 Σ i = 1 l α i y i = 0 时成立,输出αi,i=1,…,l;αi对应的所述训练样本为所述支持向量。
相应地,步骤102具体为:
先将所述支持向量xj,yj、αj以及常数b输入公式输出所述距离差g(x);也就是说,在所述特征空间,根据所述待识别样本与所述代表点中的第一类代表点之间的距离、以及该待识别样本与第二类代表点之间的距离,计算所述二个距离之间的距离差;
然后判断距离差g(x)是否大于预置的分类阈值ε;
如果大于,则待识别样本离分界面较远,直接采用SVM分类算法对待识别样本进行模式分类,所执行的步骤为:将g(x)输入f(x)=sgn(g(x)),输出f(x),f(x)对应于所述待识别样本的类别;
如果不大于,则待识别样本离分界面较近,结合KNN分类算法在全部所述代表点中寻找与所述待识别样本之间距离最近的K个代表点即取距离该待识别样本最近的K个代表点,对待识别样本进行模式分类,所执行的步骤为:将待识别样本x和代表点xX输入 d x i = | | φ ( x ) - φ ( x i ) | | 2 ,计算待识别样本x与代表点xi之间的距离,取距离该待识别样本x最近的K个代表点对待识别样本x进行分类。
基于实施例一的原理,上述采用SVM-KNN分类器对两类问题进行模式分类的具体实现为:
预设置操作为:设T为测试集是待识别样本的集合,Tsv为支持向量集,k为KNN的个数。利用步骤101的SVM二次优化训练算法,求出相应的支持向量αi以及常数b,SVM-KNN算法中的分类阈值ε通常预置为1左右,当ε设为0,K=1,SVM-KNN算法就是SVM-1NN算法。
SVM-KNN分类器所执行的分类算法包括以下步骤:
第一步、如果测试集不空,取一个待识别样本x,如果测试样本集空,SVM-KNN算法停止;也就是说如果T≠Φ,取x∈T,如果T=Φ,停止;
第二步、将所述支持向量xj,yj,根据由步骤101中的SVM的二次优化训练算法获得的αj,以及常数b输入公式在特征空间根据待识别样本分别到两类代表点的距离,计算两个距离之间的距离差输出距离差g(x)。
第三步、如果距离差g(x)大于预置的分类阈值ε,则直接使用SVM分类算法对待识别样本进行模式分类,即将g(x)输入f(x)=sgn(g(x)))直接计算f(x)作为输出;如果距离差g(x)小于预置的分类阈值ε,结合SVM分类算法以及KNN分类算法对待识别样本进行模式分类,即将g(x)输入f(x)=sgn(g(x))计算f(x),并跳转到下述KNN分类器执行SVM-KNN分类,其输入KNN分类器的传递参数为待识别样本x、Tsv以及k,返回结果作为输出。
第四步、将已识别完的样本x从测试集中去除,返回第一步重新开始执行。
KNN分类器所执行的KNN分类算法包括以下步骤,其中,输入包括待识别样本x、支持向量集Tsv、k为KNN的个数;输出LBL(x)返回结果:
第1步、从支持向量集合任意取出k个样本作为初始的k个近邻,并计算待识别样本x和这k个近邻的距离,组成k近邻距离表;
也就是说,初始化k近邻表Tkn={xi|xi∈Tsv,i=0,1,…,k-1}和k近邻距离表Dkn={di|di=‖φ(x)-φ(xi)‖2,xi∈Tkn},其中剩余支持向量集Trest=Tsv-Tkn
第2步、在剩余的支持向量集合中依次取样本xi,计算样本x和xi的距离 d x i = | | φ ( x ) - φ ( x i ) | | 2 ,如果剩余样本集空,跳转执行第4步;
也就是说,若Trset=Φ,则跳转执行第4步,否则取xi∈Trest,计算 d x i = | | φ ( x ) - φ ( x i ) | | 2 ,Trest←Trest-{xi}。
第3步、比较
Figure A20071009886700135
和k近邻距离表里的每个距离,若 d x i < d i , 交换(
Figure A20071009886700137
di),更新k近邻表和k近邻距离表;
也就是说,依次比较
Figure A20071009886700138
&ForAll; d i &Element; D kn , d x i < d i , 交换(
Figure A200710098867001311
di),更新k近邻表和k近邻距离表。
第4步、计算最后得到的k近邻表里的样本属于两类的样本个数,哪类的样本数多就把待识别样本归为哪一类;
也就是说,对于 &ForAll; x &Element; T kn , 若label(x)=+1,PosiNum++;
若label(x)=-1,NegNum++;//label(x)为x的类别标识
If(PosiNum>NegNum),LBL(x)=+1;否则,LBL(x)=-1。
其中,所使用的KNN分类算法和通常的KNN分类算法有两点不同:一个不同点是,计算测试样本和每个支持向量的距离是在特征空间进行的而不是在原始样本空间中计算;
另一个不同点是,使用公式‖φ(x)-φ(xi)‖2=k(x,x)-2k(x,xi)+k(xi,xi)计算测试样本即待识别样本与每个支持向量的距离,而不是通常采用的欧氏距离公式。
实施例二:将结合SVM及KNN的模式分类方法具体应用在太阳耀斑预报问题中。
将结合SVM及KNN的模式分类方法用于太阳耀斑预报是将耀斑发生看作一个模式识别问题,提取活动区的特征作为特征参量,也称为预报因子。预报因子包括黑子面积、磁分型、Mcintosh分类和10cm射电流量,他们组成一个向量xi=[xi1,xi2,xi3,xi4]。通过统计预报因子与耀斑发生的产率给他们赋值,作为模型的输入。每个预报因子决定一个活动区是否爆发耀斑,如果活动区未来48小时有耀斑发生,则将其作为一类,标记为+1,没有耀斑发生作为另一类,标记为-1,结果作为模型的输出yi
所用的测量数据为第23个太阳活动周,取自美国SEC网站http://sec.noaa.gov/ftpmenu/forecasts/SRS.html,时间跨度从1996至2004年,每天每个活动区的数据都参加统计,每个活动区的数据对应数据集的一个样本,共有19544个样本,这些样本分为训练集和测试集。采用2000年至2004年的数据组成四个测试集,相当于进行连续4年的模拟预报。对每个测试集,训练集的数据范围为1996年到测试年的前一年。
将每个训练集中的(xi,yi)代入上述步骤101中的公式(1)计算,公式中核函数选择高斯核函数 k ( x , x i ) = exp { - | x - x i | 2 &sigma; 2 } , 分类时分别用SVM算法和SVM-KNN算法进行了预报。SVM-KNN方法中分类阈值ε设为0.8,k近邻的个数是1。结果如表1~表4所示。表中前两列指得预报和观测的次数,报准是对耀斑发生和没发生报准的个数之和,虚报是把实际没发生的样本预报为发生样本的个数,漏报相反,是把发生的预报为没发生。其中,表1为2001年测试结果,表2为2002年测试结果,表3为2003年测试结果,表4为2004年测试结果。
  方法   预报.   观测   报准   虚报   漏报   报准率(%)   虚报率(%)   漏报率(%)
  SVMSVM-KNN   34613461   34613461   30543110   266144   141207   88.2489.86   7.694.16   4.075.98
表1
  方法   预报.   观测   报准   虚报   漏报   报准率(%)   虚报率(%)   漏报率(%)
  SVMSVM-KNN   35143514   35143514   30623152   307180   145182   87.1489.70   8.745.12   4.125.18
表2
  方法   预报.   观测   报准   虚报   漏报   报准率(%)   虚报率(%)   漏报率(%)
  SVMSVM-KNN   21392139   21392139   18931953   17185   75101   88.5091.30   7.993.98   3.514.72
表3
  方法   预报.   观测   报准   虚报   漏报   报准率(%)   虚报率(%)   漏报率(%)
  SVMSVM-KNN   13061306   13061306   10861130   15388   6788   83.1586.52   11.726.74   5.136.74
表4
从表1~表4中可以看到,对于四年的数据,使用SVM-KNN方法比单独使用SVM方法预报的报准率均有提高而虚报率有所降低。将SVM和KNN分类方法结合构造了一种新的分类方法并将它用于太阳耀斑预报。SVM-KNN方法根据待分类样本的空间分布采用不同的分类方法。将此方法用于太阳耀斑预报具有较高的报准率,比采用传统的统计方法和神经网络方法的有更好的预报效果。SVM-KNN分类器是一种通用的分类算法,不仅可以用于太阳耀斑预报,而且能应用在机器学习和模式识别的各个应用领域,有比较好的应用前景。使用该分类方法的分类准确率比单纯使用SVM分类器一般有不同程度的提高,并且该分类器在一定程度上不受核函数参数选择的影响,具有一定的稳健性。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (5)

1、一种结合支持向量机以及近邻法的模式分类方法,其特征在于,包括以下步骤:
A、通过核函数将输入样本空间的训练样本以非线性方式映射到特征空间,通过支持向量机SVM的二次优化训练算法获得支持向量;
B、将获得的所述支持向量设置为代表点,计算待识别样本和代表点的距离差,判断距离差是否大于预置的分类阈值,如果大于,则执行步骤C;否则执行步骤D;
C、以SVM分类算法对所述待识别样本进行模式分类,结束当前处理流程;
D、在全部所述代表点中寻找与所述待识别样本之间距离最近的K个代表点,根据这K个代表点所属的类别以及属于不同类别的代表点个数,确定代表点个数最多的类别,将待识别样本归为所确定的类别,并把确定的类别设置为待识别样本所属的类别。
2、根据权利要求1所述的结合支持向量机以及近邻法的模式分类方法,其特征在于,步骤A中通过SVM的二次优化训练算法获得支持向量具体为:
将所述样本空间中的训练样本xi,yi,输入到公式 W ( &alpha; ) = &Sigma; i = 1 l &alpha; i - 1 2 &Sigma; i , j = 1 l &alpha; i &alpha; j y i y j k ( x i &CenterDot; x j ) 及公式αi(yi[(w,xi)-b]-1)=0,i=1,…,l中,其中, W ( &alpha; ) = &Sigma; i = 1 l &alpha; i - 1 2 &Sigma; i , j = 1 l &alpha; i &alpha; j y i y j k ( x i &CenterDot; x j ) 在满足约束条件αi≥0,i=1,…,l及 &Sigma; i = 1 l &alpha; i y i = 0 时成立,输出αi,i=1,…,l;αi对应的所述训练样本为所述支持向量;
相应地,步骤C中以SVM分类算法对待识别样本进行模式分类,具体为:
将αi输入分类函数
Figure A2007100988670002C4
输出f(x),f(x)对应于待识别样本x的类别。
3、根据权利要求1或2所述的结合支持向量机以及近邻法的模式分类方法,其特征在于,步骤A中的所述核函数为多项式核函数、径向基核函数、或感知机核函数中的一种。
4、根据权利要求1或2所述的结合支持向量机以及近邻法的模式分类方法,其特征在于,K=1时,步骤D具体为:
在全部所述代表点中寻找与所述待识别样本之间距离最近的一个代表点,将待识别样本设置为该代表点所属的类别。
5、根据权利要求1所述的结合支持向量机以及近邻法的模式分类方法,其特征在于,所述代表点所属的类别为两类时,步骤A中通过SVM的二次优化训练算法获得支持向量具体为:
将所述样本空间中的训练样本xi,yi,输入到公式 W ( &alpha; ) = &Sigma; i = 1 l &alpha; i - 1 2 &Sigma; i , j = 1 l &alpha; i &alpha; j y i y j k ( x i &CenterDot; x j ) 及公式αi(yi[(w,xi)-b]-1)=0,i=1,…,l中,其中, W ( &alpha; ) = &Sigma; i = 1 l &alpha; i - 1 2 &Sigma; i , j = 1 l &alpha; i &alpha; j y i y j k ( x i &CenterDot; x j ) 在满足约束条件αi≥0,i=1,…,l以及 &Sigma; i = 1 l &alpha; i y i = 0 时成立,输出αi,i=1,…,l;αi对应的所述训练样本为所述支持向量;
相应地,步骤B具体为:
步骤B1、将所述支持向量xj,yj,αj以及常数b输入公式
Figure A2007100988670003C4
输出所述距离差g(x);
步骤B2、判断距离差g(x)是否大于预置的分类阈值ε,如果大于,则执行步骤C1;否则执行步骤D1;
步骤C具体为:
步骤C1、将g(x)输入f(x)=sgn(g(x)),输出f(x),f(x)对应于待识别样本的类别;
步骤D具体为:
步骤D1、将待识别样本x和代表点xi输入 d x i = | | &phi; ( x ) - &phi; ( x i ) | | 2 , 计算待识别样本x与代表点xi之间的距离,取距离该待识别样本x最近的K个代表点对待识别样本x进行分类。
CNA2007100988675A 2007-04-28 2007-04-28 结合支持向量机以及近邻法的模式分类方法 Pending CN101295362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100988675A CN101295362A (zh) 2007-04-28 2007-04-28 结合支持向量机以及近邻法的模式分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100988675A CN101295362A (zh) 2007-04-28 2007-04-28 结合支持向量机以及近邻法的模式分类方法

Publications (1)

Publication Number Publication Date
CN101295362A true CN101295362A (zh) 2008-10-29

Family

ID=40065634

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100988675A Pending CN101295362A (zh) 2007-04-28 2007-04-28 结合支持向量机以及近邻法的模式分类方法

Country Status (1)

Country Link
CN (1) CN101295362A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102799902A (zh) * 2012-08-13 2012-11-28 南京师范大学 一种基于代表性样本的增强型关系分类器
CN103198052A (zh) * 2013-04-09 2013-07-10 山东师范大学 一种基于支持向量机的主动学习方法
CN103295024A (zh) * 2012-02-29 2013-09-11 佳能株式会社 分类与对象检测方法和装置以及图像拍摄和处理设备
CN109508730A (zh) * 2018-09-27 2019-03-22 东南大学 一种基于非线性svm算法的电离层相位闪烁检测方法
CN111125359A (zh) * 2019-12-17 2020-05-08 东软集团股份有限公司 一种文本信息分类的方法、装置及设备
CN111832224A (zh) * 2020-07-01 2020-10-27 南京航空航天大学 大规模超声速进气道流动状态的识别方法
CN112381051A (zh) * 2020-11-30 2021-02-19 闽江师范高等专科学校 基于改进支持向量机核函数的植物叶片分类方法及系统
CN112564835A (zh) * 2020-11-26 2021-03-26 华北电力大学 一种基于knn和svm算法的5g无线信道多径分簇计算方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法
CN103295024A (zh) * 2012-02-29 2013-09-11 佳能株式会社 分类与对象检测方法和装置以及图像拍摄和处理设备
CN103295024B (zh) * 2012-02-29 2017-03-01 佳能株式会社 分类与对象检测方法和装置以及图像拍摄和处理设备
CN102799902A (zh) * 2012-08-13 2012-11-28 南京师范大学 一种基于代表性样本的增强型关系分类器
CN103198052A (zh) * 2013-04-09 2013-07-10 山东师范大学 一种基于支持向量机的主动学习方法
CN103198052B (zh) * 2013-04-09 2015-08-26 山东师范大学 一种基于支持向量机的主动学习方法
CN109508730B (zh) * 2018-09-27 2021-07-27 东南大学 一种基于非线性svm算法的电离层相位闪烁检测方法
CN109508730A (zh) * 2018-09-27 2019-03-22 东南大学 一种基于非线性svm算法的电离层相位闪烁检测方法
CN111125359A (zh) * 2019-12-17 2020-05-08 东软集团股份有限公司 一种文本信息分类的方法、装置及设备
CN111125359B (zh) * 2019-12-17 2023-12-15 东软集团股份有限公司 一种文本信息分类的方法、装置及设备
CN111832224A (zh) * 2020-07-01 2020-10-27 南京航空航天大学 大规模超声速进气道流动状态的识别方法
CN112564835A (zh) * 2020-11-26 2021-03-26 华北电力大学 一种基于knn和svm算法的5g无线信道多径分簇计算方法
CN112564835B (zh) * 2020-11-26 2022-09-20 华北电力大学 一种基于knn和svm算法的5g无线信道多径分簇计算方法
CN112381051A (zh) * 2020-11-30 2021-02-19 闽江师范高等专科学校 基于改进支持向量机核函数的植物叶片分类方法及系统
CN112381051B (zh) * 2020-11-30 2023-12-19 闽江师范高等专科学校 基于改进支持向量机核函数的植物叶片分类方法及系统

Similar Documents

Publication Publication Date Title
CN101295362A (zh) 结合支持向量机以及近邻法的模式分类方法
Liu et al. An embedded feature selection method for imbalanced data classification
CN107103332B (zh) 一种面向大规模数据集的相关向量机分类方法
Agustı et al. A new grouping genetic algorithm for clustering problems
Psorakis et al. Multiclass relevance vector machines: sparsity and accuracy
Nagi et al. Classification of microarray cancer data using ensemble approach
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN102117411B (zh) 用于构建多级别分类模型的方法和系统
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN103617429A (zh) 一种主动学习分类方法和系统
CN103116762A (zh) 一种基于自调制字典学习的图像分类方法
CN112784918B (zh) 基于无监督图表示学习的节点识别方法、系统、装置
CN106503731A (zh) 一种基于条件互信息和K‑means的无监督特征选择方法
Lin et al. A new nearest neighbor classifier via fusing neighborhood information
CN102622609B (zh) 一种基于支持向量机的三维模型自动分类方法
US10929775B2 (en) Statistical self learning archival system
CN103258210A (zh) 一种基于字典学习的高清图像分类方法
Meng et al. Classifier ensemble selection based on affinity propagation clustering
CN103177265A (zh) 基于核函数与稀疏编码的高清图像分类方法
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN110188196A (zh) 一种基于随机森林的文本增量降维方法
CN108595909A (zh) 基于集成分类器的ta蛋白靶向预测方法
CN106203515A (zh) 多准则融合应用于高维小样本数据特征选择的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081029