CN101807254B - 用于图像分类识别的合成核支持向量机的实现方法 - Google Patents

用于图像分类识别的合成核支持向量机的实现方法 Download PDF

Info

Publication number
CN101807254B
CN101807254B CN 200910014316 CN200910014316A CN101807254B CN 101807254 B CN101807254 B CN 101807254B CN 200910014316 CN200910014316 CN 200910014316 CN 200910014316 A CN200910014316 A CN 200910014316A CN 101807254 B CN101807254 B CN 101807254B
Authority
CN
China
Prior art keywords
classification
sample
sorter
characteristic
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200910014316
Other languages
English (en)
Other versions
CN101807254A (zh
Inventor
唐家奎
张显峰
张爱军
胡引翠
李光霞
关燕宁
于君宝
董硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Institute of Coastal Zone Research of CAS
Original Assignee
YANTAI HAIANDAI SUSTAINABLE DEVELOPMENT INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YANTAI HAIANDAI SUSTAINABLE DEVELOPMENT INSTITUTE filed Critical YANTAI HAIANDAI SUSTAINABLE DEVELOPMENT INSTITUTE
Priority to CN 200910014316 priority Critical patent/CN101807254B/zh
Publication of CN101807254A publication Critical patent/CN101807254A/zh
Application granted granted Critical
Publication of CN101807254B publication Critical patent/CN101807254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种面向数据特点的合成核支持向量机的实现方法,包括以下步骤:数据预处理;特征提取、选择与分组:完成数据从数据空间到特征空间的转换,所选择特征反映分类识别目标的特性;训练样本、验证样本以及待分类样本的选择;分类器的选择与实现:选择面向数据特点的合成核支持向量机分类器,计算得到合成核参数;分类器的训练:利用训练样本,开展对DOCKSVM分类器的学习训练;分类器性能验证:通过对验证样本分类检验其性能,获得验证满意的DOCKSVM分类器;待分样本的分类;分类结果输出。本发明方法考虑应用领域数据的特点,更加客观地将应用领域的数据生化特点融入到最终训练获得的支持向量机中,进而提高具体分类与识别问题的结果精度,应用广泛。

Description

用于图像分类识别的合成核支持向量机的实现方法
技术领域
本发明涉及计算机图像处理与模式识别技术领域,具体的说是一种用于图像分类识别的合成核支持向量机的实现方法。 
背景技术
支持向量机的本质是基于核的方法,因此核函数的选择和构造对于支持向量机的最终性能具有重要影响。 
近年来,越来越多的相关领域研究表明,核函数对分类精度具有一定影响,对核函数进行合理选择、改进或修正具有重要研究意义。Amari&Wu于1999年利用实验数据对核函数的修正来改进SVM(support vectormachine,支持向量机)分类器的性能,使其能更好地与实际问题吻合,以提高SVM分类器的精度。前述常规核函数并未考虑遥感数据本身的光谱特征的生化特性的问题,Mercier&Lennon于2003年使用基于光谱的核进行高光谱影像分类,提出一些考虑光谱相似性的改进核,将径向基核、KMOD核中的二次距离用光谱相似性度量中有效的光谱角(SA)、光谱信息散度(SID)等代替,仍然符合Mercer准则,能够作为分类中新的核函数。应用于CASI数据分类的结果表明基于光谱的核能够取得更好的分类效果。其研究成果为本报告的研究奠定了可行性的基础。(参考文献有:Amari S,SWu.1999,Improving support vector machine classifiers by modifying kernelfunctions,Neural Networks,12,p783-789;Mercier G,Lennon,M,2003,Supportvector machines for hyperspectral image classification with spectral-basedkernels,Geoscience and Remote Sensing Symposium,2003,vol.1,p288-290。) 
另外,应用合成核来改善支持向量机性能的研究逐渐成为国际上的研究热点。早在2001年,Joachims等在利用SVM进行超文本分类的时候,利用2个相等权重单一的核组合成新的有效的核,提出了合成核的SVM算法,取得了优于单一核的分类结果。同时,他们也从理论和实验结果上给出获得该结果的前提条件:2个单一的核具有相近的分类性能,并且这2个核训练后获得的支持向量重叠较少,即2个核的分类效果相当,相互独立,基于不同特征时,合成核分类效果最好。(参考文献有:Joachims T,CristianiniN,Shawe-Taylor J.2001,Composite Kernels for Hypertext Categorisation,Proceedings ofthe International Conference on Machine Learning,p250-257。) 
Lodhi等2002年提出了用于文本分类的字符串核函数,并根据字符串序列的长度的不同构造和合成核,通过应用于SVM,与Joachims提出的标准字节特征空间核的性能进行了对比,结果表明性能有所提高。(参考文献有:Lodhi Human,Craig Saunders,Nello Cristianimi,2002,Text Classification using String Kernels,Journal of Machine Learning Research,(2),p419-444。) 
Sun等于2004年进一步提出了优化线性组合核函数的方法,用于网页分类,即通过学习不同类型特征的不同核函数,并自动调节核函数组合时的系数,给予不同核函数分配不同的权重,最后得到分类效果最优的合成核。其研究成果局限于采用的都是线形核函数,不适合处理遥感图像分类问题,但其构成合成核的思想具有重要借鉴价值。(参考文献有:Sun Jian-Tao,Ben-Yu Zhang,Zheng Chen et al.,2004,GE-CKO:A method to optimizecomposite kernels for Web page classification,Proceedings of theIEEE/WIC/ACM International Conference on Web Intelligence(WI’04)。) 
Camps-valls等于2004年开展了利用SVM方法综合光谱和纹理等空间信息对AVIRIS数据进行地物分类研究,构造和合成核,从而较好地在分类中加入了空间信息,并与传统的单纯依赖光谱信息分类对比,结果表明,精度有所提高。在研究合成核SVM的高光谱数据分类的同时,Camps-valls等也开展了合成核方法在多时相图像分类以及变化检测中的应用研究,2006年,他们提出一组合成核,其中充分考虑了序列图像之间的静态和时相上的互信息,以及图像本身的光谱域、空间域、时域上的信息,其应用于城市变化检测的实验结果表明,合成核的方法无论对于多类支持向量机(Inductive Support Vector Machines)还是单类(One-Class Support VectorData Description(SVDD))支持向量机均具有较好的性能。(参考文献有:Camps-Valls G,Calpe-Maravilla J,2004,Robust Support Vector Method forHyperspectral Data Classification and Knowledge Discovery,IEEE Transactionson Geoscience and Remote Sensing,42/07,P1530-1542;CAMPS-VALLS G.,L.G.Chova,et al,2006,Composite kernels for hyperspectral imageclassification,IEEE Trans.Geosci.Remote Sensing,vol.3,no.1,p93-97。) 
Jiang等于2007年提出了2种经典核-全局核(多项式核polynomialkernel)和局部核(径向基核RBF kernel)组合的合成核方法,并提出了基于该合成核的新的支持向量机算法,在应用于时间序列预测问题的结果表明,基于合成核支持向量机具有比单一核更好的性能。(参考文献有:JiangTiejun,Shuzong Wang,and Ruxiang Wei,2007,Support Vector Machine withComposite Kernels for Time Series Prediction,LNCS 4493,pp 350-356。) 
Gu等于2007年提出了基于合成核的软分类支持向量机算法,通过合成核的应用,在对高光谱图像分类中有效结合利用光谱和空间信息,通过实际分类测试结果表明,光谱-空间合成核的引入提高了支持向量机的分类性能,获得了比最大似然法(Maximum Likelihood Classifier,MLC)更高的精度。(参考文献有:Gu Yanfeng,Ying Liu,and Ye Zhang,2007,A SoftClassification Algorithm based on Spectral-spatial Kernels in HyperspectralImages,IEEE。) 
已有的研究成果表明,合成核支持向量机可以有效结合分类样本的不同特征信息,从而获得较单一核好的分类精度。另外,对于核函数本身的 构造问题是也支持向量机性能的关键因素,对于特定的应用领域,有必要从数据的角度定义合适的核函数,进而充分考虑实际数据的影响,提高分类的精度。 
选择合适的核函数以及构造合适的合成核可以改善最终应用的精度。合成核中的每个核对应具体分类类别的不同的特征信息或其组合,因此核的权系数代表其对分类结果影响的程度,存在的问题是如何合理构造不同特征的合成核以及确定相应合理的权值。 
发明内容
针对上述现有技术中存在的应用图像处理以及模式识别等领域的分类问题,由于往往因为应用领域的不同,其数据具有不同的物理生化特点,本发明要解决的技术问题是提供一种根据其数据特点的动态构造合成核支持向量机方法,用于其分类识别,最终提高实际应用的精度的面向数据特点的合成核支持向量机的实现方法。 
为解决上述技术问题,本发明采用的技术方案是: 
本发明一种面向数据特点的合成核支持向量机的实现方法包括以下步骤: 
(1)数据预处理:根据不同应用领域的不同预处理要求,对数据进行预处理; 
(2)特征提取、选择与分组:根据需要分类识别的类别,对预处理后的数据进行选择,提取特征矢量并分组,完成数据从数据空间到特征空间的转换,所选择特征反映分类识别目标的特性; 
(3)训练样本、验证样本以及待分类样本的选择:对训练样本、验证样本及待分类样本进行选择,其中,训练样本用于分类器的学习训练,验证样本用于对训练得到的分类器进行性能验证,待分类样本为实际需要分类的样本数据; 
(4)分类器的选择与实现:选择面向数据特点的合成核支持向量机分类器,即DOCKSVM,确定合成核的结构,修改其中各个核函数以及确定相应核权系数,最后计算得到合成核参数C、G; 
(5)分类器的训练:利用训练样本,开展对DOCKSVM分类器的学习训练,获得训练后的DOCKSVM分类器; 
(6)分类器性能验证:利用验证样本,开展对训练后的DOCKSVM分类器进行验证,通过对验证样本分类检验其性能,判断其性能是否满足用户要求,如满足,则获得验证满意的DOCKSVM分类器; 
(7)待分样本的分类:利用满意的分类器,对所有待分类样本进行分类; 
(8)分类结果输出:输出保存分类结果。 
所述分类器的选择与实现包括的步骤是: 
(4-1)确定合成核结构:根据特征提取、选择以及分组结果,确定合 成核的结构; 
(4-2)修改核函数:根据每个核函数对应特征的物理意义,为每个核函数选择相应的相似性或距离度量函数; 
(4-3)合成核权系数的确定:利用基于信息熵的合成核权系数优化算法计算合成核权值λ,对于多类分类问题,假设N为类别数目,采用OAO分类策略,对分类问题涉及的所有样本类别N两两组合,对应N(N-1)/2个分类器,分别计算每个分类器的合成核权系数; 
(4-4)合成核参数的计算:利用网格搜索算法,对已知样本数据进行K-折交叉验证,优化求解合成核参数:惩罚值C、宽度系数G; 
所述分别计算每个分类器的合成核权系数包括如下步骤: 
假设此处选择第q个分类器,q取值是遍历范围[1,N(N-1)/2]的整数,同时从所有N类训练样本中,提取第q个分类器对应的两类训练样本数据; 
计算每个分类特征熵值H(Fj):假设选取了n个分类特征,并分成S个特征组,H(Fj)为第j个特征的熵值;利用第q个分类器对应的两类训练样本数据计算每个分类特征熵值H(Fj); 
计算每个分类特征的归一化权系数:步骤2得到所有n个特征的熵值后,计算第j个特征归一化权值ωj如下: 
ω j = H ′ ( F j ) H 0 , j = 1,2 , . . . . . . , n , 其中 H ′ ( F j ) = 1 H ( F j ) , H 0 = Σ j = 1 n H ′ ( F j ) ;
计算第q个分类器的合成核权系数:上述特征参数数目n实际是s个特征域中所有参与分类特征的总和,每个合成核权系数是分别对应一个特征域的,设第i个特征域有ni个特征参数,第i个特征域所对应的核加权系数λi如下计算: 
λ i = Σ j = 1 n i ω ij , 其中,i=1,2,......s;ωi为从求得的ω中抽取的第i特征域的ni元素的子集; n = Σ i s n i ;
重复上述步骤,直到q取值遍历范围[1,N(N-1)/2]内的整数,完成N(N-1)/2个分类器合成核权系数的计算。 
如果判断DOCKSVM分类器性能不能满足用户要求,则接续步骤(4)。 
本发明具有以下有益效果及优点: 
1.改善了支持向量机用于分类的精度。本发明方法考虑应用领域数据的特点,选取并构造合适的合成核函数,并利用信息熵确定支持向量机合成核的权系数,更加客观地将应用领域的数据生化特点融入到最终训练获得的支持向量机中,进而提高具体分类与识别问题的结果精度。 
2.应用广泛。本发明方法可以用于多个应用领域,尤其是高维特征空 间的分类识别问题,如图像目标分类、文本分类、网页分类、遥感图像地物分类、军事目标识别等,可有效提高含有易混淆分类目标多类分类问题的精度,实际应用中,程序运行效率高,人工干预少,可实现系统的自动分类,并提高分类的精度。 
附图说明
图1为本发明合成核支持向量机的学习分类流程图; 
图2为本发明以3类数据为例的OAO多类问题分类策略示意图; 
图3为本发明合成核支持向量机实现方法流程图。 
具体实施方式
下面结合附图对具体实施方式加以详细说明。 
本发明提出了一种面向数据特点的合成核支持向量机DOCKSVM(DataOriented Composite Kernel based SVM)的实现方法,解决数据分类问题属于向量机学习问题,其目的是针对应用图像处理以及模式识别等领域的分类问题,由于往往因为应用领域的不同,其数据具有不同的物理生化特点,提出一种根据其数据特点的动态构造合成核支持向量机方法,用于其分类识别,最终提高实际应用的精度。本发明实现方法提出根据数据的物理生化特性,对不同具体物理意义的特征向量选择不同核函数,即选择了合适的相似性度量函数;同时提出基于信息熵确定合成核权系数的方法,从而使得采用OAO(One Against One:一对一)支持向量机分类策略(参见图2所示)时,获得了最终每个分类器的合成核的合理权值,获得更好的分类精度。图2为以3类数据为例的OAO多类问题分类策略示意图。其中F1,2(x)代表类别1和2之间的分类器;F2,3(x)代表类别2和3之间的分类器;F1,3(x)代表类别1和3之间的分类器。 
具体实施步骤如图1所示。 
步骤(1)数据预处理:首先开展对分类数据的预处理工作,不同的应用领域有不同的预处理要求,实际应用根据应用的特定问题而定,如应用于图像分类识别,要开展对图像数据的几何矫正、量化、采样、预滤波、去噪声等处理工作。 
步骤(2)特征提取、选择与分组:根据需要分类识别的类别,对预处理后的数据进行选择,提取特征矢量并分组,完成数据从数据空间到特征空间的转换;所选择特征要反映待分类识别目标的特性。 
步骤(3)训练样本、验证样本以及待分类样本的选择:对训练样本、验证样本及待分类样本进行选择,训练样本用于后续的分类器的学习训练(即从待处理数据中抽取出具普遍性、代表性的数据作为训练样样本);验证样本用于对上述训练得到的分类器进行性能验证;待分类样本为实际需要分类的样本数据。 
步骤(4)分类器的选择与实现:机器学习分类问题需要选择合适的分类器,比如神经网络、支持向量机、最大似然法等,选择分类器后需要确定分类器的结构以及参数予以实现。 
本发明中提出的DOCKSVM(Data Oriented Composite Kernel basedSVM,面向数据特点的合成核支持向量机)实质是一种新型的支持向量机分类器,DOCKSVM的实现流程如图3所示,具体包括如下4个子步骤: 
步骤(4-1)确定合成核结构:根据步骤(2)得到特征提取、选择以及分组结果,确定合成核的结构; 
步骤(4-2)修改核函数:选择相似性或距离度量函数,根据每个核函数对应特征的物理意义,为每个核函数选择相应的相似性或距离度量函数; 
步骤(4-3)合成核权系数的确定:根据基于信息熵的合成核权系数优化算法计算合成核权系数λ,实际应用中采用一对一(OAO:One AgainstOne)分类策略,即将分类问题涉及的所有样本类别N两两组合,对应N(N-1)/2个分类器,分别计算每个分类器的合成核权系数; 
步骤(4-4)合成核参数的计算:支持向量机模型参数中涉及惩罚值C及宽度系数G,是影响分类结果的关键参数。本发明利用传统经典的网格搜索算法以及对已知样本数据的K-折交叉验证的方法(K-fold CrossValidation)对核参数(C、G)进行优化求解,确定合成核支持向量机分类器; 
步骤(5)分类器的训练:利用步骤(3)中的训练样本,开展对步骤(4)中实现的DOCKSVM分类器的学习训练,获得训练后的DOCKSVM分类器; 
步骤(6)分类器性能验证:利用步骤(3)中的验证样本,开展对步骤(5)中训练后的DOCKSVM分类器,并通过对验证样本分类检验其性能,判断其性能是否满足用户要求,如不满足,则返回步骤4接续。如满足,则获得验证满意的DOCKSVM分类器; 
步骤(7)待分样本的分类:利用步骤(6)得到的分类器,对所有待分类样本进行分类; 
步骤(8)分类结果输出:输出保存分类结果。 
上述步骤(4-3)计算每个分类器的合成核权系数包括以下步骤: 
步骤(4-3-1):依次选择要确定合成核权系数的分类器,并根据其对应的两类类别组合,提取两类样本数据:对于多类分类问题,假设N为类别数目,采用OAO分类策略,即对分类问题涉及的所有样本类别N两两组合,对应N(N-1)/2个分类器,分别计算每个分类器的合成核权系数,假设此处选择第q个分类器,q取值是遍历范围[1,N(N-1)/2]的整数,同时从所有N类训练样本中,提取第q个分类器对应的两类训练样本数据; 
步骤(4-3-2):计算每个分类特征熵值H(Fj):根据权利要求1中步骤2,假设选取了n个分类特征,并分成S个特征组,H(Fj)为第j个特征的熵 值。利用步骤1提取第q个分类器对应的两类训练样本数据计算每个分类特征熵值H(Fj); 
步骤(4-3-3):计算每个分类特征的归一化权系数:步骤2得到所有n个特征的熵值后,计算第j个特征归一化权值ωj如下: 
ω j = H ′ ( F j ) H 0 , j = 1,2 , . . . . . . , n , 其中 H ′ ( F j ) = 1 H ( F j ) , H 0 = Σ j = 1 n H ′ ( F j ) ;
步骤(4-3-4):计算第q个分类器的合成核权系数:上述特征参数数目n实际是s个特征域中所有参与分类特征的总和,每个合成核权系数是分别对应一个特征域的,设第i个特征域有ni个特征参数,第i个特征域所对应的核加权系数λi如下计算: 
λ i = Σ j = 1 n i ω ij , 其中,i=1,2,......s;ωi为从求得的ω中抽取的第i特征域的ni元素的子集; n = Σ i s n i ;
步骤(4-3-5):重复上述步骤,直到q取值遍历范围[1,N(N-1)/2]内的整数,完成N(N-1)/2个分类器合成核权系数的计算。 
本发明方法的实现原理如下: 
(1)核函数的理论基础 
对于非线形可分类问题(实际工程应用中大部分属于此类问题),支持向量机的本质是求解非线形分类决策超平面。为了实现问题的求解,利用映射函数将样本数据映射到更高维空间中,从而实现样本类别数据的在高维空间的线形可分。实际上,SVM(support vector machine,支持向量机)依赖的核函数是为了隐性地模拟该映射的复杂计算,使问题得到简化解决。 
对于线形可分情况下,应用到的只是样本间的点积(xi·xj)运算,通过引入核k(xi,xj)=<φ(xi)·φ(xj)>,实际上,是通过合适的映射函数φ:Rn→H将x∈Rn映射到更高维的空间希尔伯特H,在无须知道显式φ的构成的情况下,核函数实现了样本特征空间的隐式映射。 
如前所述,任何一个满足Mercer定理条件的函数均可以被考虑用作核函数,Mercer定理描述如下: 
假设有限输入空间X={x1,x2,......xn},并假定k(x,z)是X上的对称函数,那么其是核函数的充分必要条件是矩阵 K = ( k ( x i , x j ) ) i , j = 1 n 是半正定的(即特征值非负),即由X的任何有限子集所构成的核矩阵K是半正定的。 
对于样本数据分类,构造合适的核函数主要是利用其在优化求解过程中进行距离或相似性度量矩阵的计算。根据空间中相临样本数据对最终核值计算的影响程度,可将核函数分为2类,局部核与全局核。前者如径向基核、KMOD核等,后者如线性核、多项式核和Sigmoid函数等。 
合成核的理论基础: 
支持向量机本身一种基于核的方法,核的定义如下: 
核是一个函数K,对于所有的x,z∈X,满足 
k(x,z)=<φ(x)·φ(z)>; 
其中φ是从X到特征空间F的映射。核函数本质上是对称函数,数学意义上看,两个向量之间的点积可以看作是它们之间相似性的一种度量,因此核函数本身也可被认为是特征空间中两个样本之间的一种相似性度量。当一个函数k(x,z)是核函数时必须满足Mercer定理。 
支持从核函数中构造核函数的命题: 
令k1、k2和K3是在X×X上的核, X ⊆ R n , a∈R+,0≤λ≤1,f(·)是X上的一个实值函数:φ:X→Rn,ki是Rm×Rm上的核,并且B是一个对称半正定的n×n矩阵。那么下面的函数是核函数: 
k(x,z)=k1(x,z)+k2(x,z)(1) 
k(x,z)=ak1(x,z)(2) 
k(x,z)=k1(x,z)k2(x,z)(3) 
k(x,z)=f(x)f(z)(4) 
k(x,z)=k3(φ(x),φ(z))(5) 
k(x,z)=x Bz    (6) 
在式(1)的基础上,如下的核函数也是有效的核函数: 
k(x,z)=λk1(x,z)+(1-λ)k2(x,z)。(7) 
信息熵的理论基础: 
“熵”的概念来自于信息论,它是信息不确定性的一种度量,设集合X中的各个事件出现的概率用n维概率矢量p=(p1,p2,......pn)来表示,且满足, 
Σ i = 1 n p i = 1,0 ≤ p ≤ 1
则熵函数定义为: 
H ( p ) = H ( p 1 , p , . . . . . . , p n ) = - Σ i = 1 n p i × ln p i
熵函数H(p)具有如下重要性质: 
(1)对称性:概率矢量p=(p1,p2,......pn)的各个分量的次序改变时,熵函数值H(p)不变,即熵值只与集合X总体上的统计特征有关。 
(2)非负性:熵函数是一个非负量,即H(p)≥0 
(3)确定性:集合X中只要有1个必然事件,其熵值为0。 
(4)集合X中各时间以等概率事件出现时,其熵值最大,即有: 
H(p1,p,......,pn)≤H(1/n,1/n,......1/n)=log2n。 
本发明对核函数的改进: 
从数学意义上讲,局部核是利用距离或相似性度量函数来计算核K的值,而全局核核值的计算是通过样本间的的点积来实现。例如: 
Linear全局核:k(xi,x)=(xi·x)(3-1) 
RBF局部核: k ( x i , x ) = e - γ | | x i - x | | 2 - - - ( 3 - 2 )
从局部核函数可以看出,核的隐性映射主要靠样本间距离(相似性)度量函数: 
d(xi,x)=‖xi-x‖2(3-3) 
式(3-2)中RBF核采用的欧氏2次距离函数 
对于特定领域的分类问题,可利用的分类特征通常有多个如图像处理领域有光谱、纹理以及形状等特征。根据具体的分类目的的不同,进行分类时可以利用的分类特征也是不同的。由于提取的不同的特征信息具有不同的生化特性及物理含义,已有研究表明,对于不同的特征而言,不同的相似性度量算法,对于分类的结果是有影响的。在分析、总结现有各类可利用的相似性(距离)度量算法基础上,本发明提出修改和代替经典RBF核中的欧氏2次距离函数d(xi,x)=‖xi-x‖2的核函数改进方法,进而选择适合其相应特征的相似度量函数重新构造适合分类的核函数。 
根据不同的算法原理和操作方法,可以将相似性度量算法划分为几何测度、编码测度、统计测度、特征测度、变换测度5大类,对于距离度量函数主要有以下8种:一阶距离、二阶距离、马氏距离(Mahalanobis)、Dominance距离、Canberra距离、Bray Curtis距离、Squared Chord距离、Square ChiSquared距离。其中,阶距离、二阶距离和马氏距离是应用比较广泛的相似性度量。实际应用中,可根据具体特征选择合适的相似性(距离)度量函数来修改BF核采用的欧氏2次距离函数,进而提高分类的精度。 
合成核的构造: 
Camps-valls等2006年提出了4种构造合成核的方法(Camps-valls&Gomez-Chova,et al.,2006),本发明在其提出的加权累加合成核的构造方法上加以拓展改进。根据符合Mercer定理的核函数性质,(见上述核函数的命题中公式1和2),以及Joachims证明的有效合成核函数(见上述公式7),改进后广义的加权累加合成核函数如下: 
对于特定样本X,设其可用于分类的特征域为s个,针对每个特征域采用合适的核函数,即共有s个核函数kp(xi p,xj p),p=1,2,......s。则基于特征的合成核可表达为: 
k ( x i , x j ) = Σ p = 1 s λ p k p ( x i p , x j p )
= λ 1 k 1 ( x i 1 , x j 1 ) + λ 2 k 2 ( x i 2 , x j 2 ) + , . . . . . . , + λ s k s ( x s s , s j s )
其中,λ12+,......+λs=1 
对于特定领域的分类问题,其分类特征域可包括多个,如图像处理领域的光谱特征、纹理特征、几何形状特征等。目前仅考虑如下特征及其组合用于分类,各特征域定义如下: 
X i = ( x 1 , x 2 , . . . . . . , x N ij ) , xi为 空间的特征组分,其中Xi为第i个特征域。其中,Nij分别为第i个特征域特征数据的维数。 
令ki、分别为第i个特征域对应的核函数,于是对应实际分类根据采用特征组合的合成核可分别表达为: 
k ( x i , x j ) = λ 1 k 1 ( x i 1 , x j 1 ) + λ 2 k 2 ( x i 2 , x j 2 ) + . . . . . . + λ s k s ( x i s , x j s )
其中,λ12+,......+λs=1 
本发明采用OAO支持向量机分类策略。对于N类样本X待训练以及分类,设其可用于分类的特征域为s个,则基于所有特征的合成核由s个核函数kp(xi p,xj p),p=1,2,......s,加权组成。 
根据OAO分类策略,需要构造N(N-1)/2个分类器,因此,共有N(N-1)/2个合成核函数,第q(q=1,2,......,N(N-1)/2)个分类器的合成核表达式如下: 
k q ( x i , x j ) = Σ p = 1 s λ qp k p ( x i p , x j p )
= λ q 1 k 1 ( x i 1 , x j 1 ) + λ q 2 k 2 ( x i 2 , x j 2 ) + , . . . . . . , + λ qs k s ( x s s , x j s ) - - - ( 8 )
其中,λq1q2+,......,+λqs=1,q=1,2,......N(N-1)/2。 
合成核权系数的确定: 
如上所述公式(8)中,本发明中涉及最关键的一个参数λq1...λqs的确定是最关键的环节之一。本发明提出基于信息熵的合成核权系数确定算法如下: 
根据熵函数的性质,可以用于机器分类问题的特征提取,显然,某一特征的熵值越小,其包含的确定性信息越多,在分类识别中该特征对分类结果的影响越大,即贡献(权重)越大。因此,可用于解决上述不同分类器的λ值的确定问题。 
对于公式(8)中的一个分类器而言,只是2个类别的分类器,因此,只考虑2类分类识别问题。设选取的s个特征域共包括n个特征参数,对于每个特征Fj(j=1,2,......n),将其对应的分布区间(指所有类别的该特征参数最大可能的分布区间)分为相等的M段,记为rk(j),k=1,2,......M。满足Fj∈rk(j)的样本属于第i类的概率为pki(j): 
p ki ( j ) = M ki ( j ) M k ( j ) ;
其中,Mk(j)为Fj∈rk(j)的样本数,Mki(j)为Mk(j)中属于第i类的样本数, 
M k ( j ) = Σ i = 1 2 M ki ( j ) ;
设pk(j)为一个样本满足Fj∈rk(j)的概率,则有: 
p k ( j ) = M k ( j ) M 0 ;
其中为总的样本数,即: 
M 0 = Σ k = 1 M M k ( j ) ;
特征Fj的熵可定义为: 
H ( F j ) = - Σ k = 1 M p k ( j ) Σ i 2 p ki ( j ) log 2 p ki ( j ) ;
根据熵函数的性质可知,熵值H(Fj)越小,各类在特征Fj上的类间可分离性越大,则Fj对分类的贡献越大,即权值越大。 
得到所有n个特征的H(Fj)后,定义归一化权值如下: 
H ′ ( F j ) = 1 H ( F j ) , H 0 = Σ j = 1 n H ′ ( F j )
ω j = H ′ ( F j ) H 0 , j = 1,2 , . . . . . . , n
实际应用中,由于此处的特征参数数目n实际是s个特征域中所有参与分类特征的总和,而由于目前提出的合成核算法中是针对特征域的,设第i个特征域有ni个特征参数,第i个特征域所对应的核加权系数λi可以如下计算: 
λ i = Σ j = 1 n i ω ij ,
式中,i=1,2,......s;ωi为从求得的ω中抽取的第i特征域的ni元素的子集,并有: 
n = Σ i s n i
将实际分类问题中的所有样本种类两两组合,分别计算合成核权值,在实际应用中采用OAO分类策略训练和分类,对应相应的N(N-1)/2(N为类别数目)个分类器,自此实现了合成核权系数λ的合理确定问题。 

Claims (1)

1.一种用于图像分类识别的合成核支持向量机的实现方法,其特征在于包括以下步骤:
(1)数据预处理:根据图像分类识别处理的预处理要求,对图像数据进行预处理;
(2)图像特征提取、选择与分组:根据需要分类识别的类别,对预处理后的图像数据进行选择,提取特征矢量并分组,完成图像数据从数据空间到特征空间的转换;
(3)训练样本、验证样本以及待分类样本的选择:对训练样本、验证样本及待分类样本进行选择,其中,训练样本用于分类器的学习训练,验证样本用于对训练得到的分类器进行性能验证,待分类样本为实际需要分类的样本数据;
(4)分类器的选择与实现:选择面向数据特点的合成核支持向量机分类器,即DOCKSVM,确定合成核的结构,修改其中各个核函数以及确定相应核权系数,最后计算得到合成核参数;
其中,确定合成核结构包括:对于特定样本X,设其可用于分类的特征域为s个,针对每个特征域采用合适的核函数,即共有s个核函数kp(xi p,xj p),p=1,2,......s,则基于特征的合成核可表达为:
k ( x i , x j ) = Σ p = 1 s λ p k p ( x i p , x j p )
= λ 1 k 1 ( x i 1 , x j 1 ) + λ 2 k 2 ( x i 2 , x j 2 ) + , . . . . . . , + λ s k s ( x s s , x j s ) , 其中,λ12+,......+λs=1;
Figure FSB00000759064000013
xi
Figure FSB00000759064000014
空间的特征组分,其中Xi为第i个特征域,Nij分别为第i个特征域特征数据的维数,ki为第i个特征域对应的核函数;
修改各个核函数包括:根据每个核函数对应特征的物理意义,为每个核函数选择相应的相似性或距离度量函数;
合成核权系数的确定包括:
a、设N为样本X的类别数目,采用OAO分类策略,对所有样本类别N两两组合,构造N(N-1)/2个分类器:
b、选择第q个分类器,第q个分类器的合成核表达式如下:
k q ( x i , x j ) = Σ p = 1 s λ qp k p ( x i p , x j p )
= λ q 1 k 1 ( x i 1 , x j 1 ) + λ q 2 k 2 ( x i 2 , x j 2 ) + , . . . . . . , + λ qs k s ( x s s , x j s )
其中,λq1q2+,......,+λqs=1,q取值是遍历范围[1,N(N-1)/2]的整数,同时从所有N类训练样本中,提取第q个分类器对应的两类训练样本数据;
c、设选取的s个特征域共包括n个特征,对于每个特征Fj(j=1,2,......n),将其对应的分布区间分为相等的M段,记为rk(j),k=1,2,......M,满足Fj∈rk(j)的样本属于第i类的概率为pki(j),
Figure FSB00000759064000021
其中,Mk(j)为Fj∈rk(j)的样本数,Mki(j)为Mk(j)中属于第i类的样本数,设pk(j)为一个样本满足Fj∈rk(j)的概率,则有
Figure FSB00000759064000023
其中M0为总的样本数,
Figure FSB00000759064000024
特征Fj的熵定义为: H ( F j ) = - Σ k = 1 M p k ( j ) Σ i 2 p ki ( j ) log 2 p ki ( j ) ;
d、得到所有n个特征的H(Fj)后,定义归一化权值如下:
H ′ ( F j ) = 1 H ( F j ) , H 0 = Σ j = 1 n H ′ ( F j ) , ω j = H ′ ( F j ) H 0 , j=1,2,......,n,特征数目n实际是s个特征域中所有参与分类特征的总和,设第i个特征域有ni个特征,第i个特征域所对应的核加权系数λi计算为:
Figure FSB00000759064000029
式中,i=1,2,......s;ωi为从求得的ω中抽取的第i特征域的ni元素的子集,并有: n = Σ i s n i ;
e、重复上述步骤,直到q取值遍历范围[1,N(N-1)/2]内的整数,从而完成N(N-1)/2个分类器合成核权系数的计算;
所述合成核参数的计算包括:利用网格搜索算法,对已知样本数据进行K折交叉验证,优化求解惩罚值C和宽度系数G;
(5)分类器的训练:利用训练样本,开展对DOCKSVM分类器的学习训练,获得训练后的DOCKSVM分类器;
(6)分类器性能验证:利用验证样本,开展对训练后的DOCKSVM分类器进行验证,通过对验证样本分类检验其性能,判断其性能是否满足用户要求,如满足,则获得验证满意的DOCKSVM分类器;
(7)待分样本的分类:利用满意的分类器,对所有待分类样本进行分类;
(8)分类结果输出:输出保存分类结果。
CN 200910014316 2009-02-13 2009-02-13 用于图像分类识别的合成核支持向量机的实现方法 Active CN101807254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910014316 CN101807254B (zh) 2009-02-13 2009-02-13 用于图像分类识别的合成核支持向量机的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910014316 CN101807254B (zh) 2009-02-13 2009-02-13 用于图像分类识别的合成核支持向量机的实现方法

Publications (2)

Publication Number Publication Date
CN101807254A CN101807254A (zh) 2010-08-18
CN101807254B true CN101807254B (zh) 2012-06-27

Family

ID=42609042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910014316 Active CN101807254B (zh) 2009-02-13 2009-02-13 用于图像分类识别的合成核支持向量机的实现方法

Country Status (1)

Country Link
CN (1) CN101807254B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411715A (zh) * 2010-09-21 2012-04-11 张云超 有监督学习功能的细胞图像自动分类方法和系统
CN102663438A (zh) * 2012-05-08 2012-09-12 哈尔滨工程大学 一种小样本高光谱图像蒙特卡罗特征降维方法
CN103942214B (zh) * 2013-01-21 2017-05-17 北京大学 基于多模态矩阵填充的自然图像分类方法及装置
CN103207389B (zh) * 2013-03-14 2017-10-31 中国人民解放军63801部队 一种基于信号幅相特性的雷达天线副瓣识别算法
CN103761295B (zh) * 2014-01-16 2017-01-11 北京雅昌文化发展有限公司 基于图片自动分类的艺术类图片的定制化特征量提取方法
CN104009886A (zh) * 2014-05-23 2014-08-27 南京邮电大学 基于支持向量机的入侵检测方法
CN104200217B (zh) * 2014-08-07 2017-05-24 哈尔滨工程大学 基于一种复合核函数的高光谱分类方法
CN105158175A (zh) * 2015-09-01 2015-12-16 中国科学院合肥物质科学研究院 一种采用透射光谱鉴别水中细菌的方法
CN105653791A (zh) * 2015-12-29 2016-06-08 中国石油天然气集团公司 一种基于数据挖掘的在役油管柱腐蚀失效预测系统
CN107292292A (zh) * 2017-07-20 2017-10-24 浙江好络维医疗技术有限公司 一种基于支持向量机的qrs波群分类方法
TWI649659B (zh) * 2017-10-27 2019-02-01 財團法人工業技術研究院 自動光學檢測影像分類方法、系統及含有該方法之電腦可讀取媒體
CN108470194B (zh) * 2018-04-04 2020-10-13 北京环境特性研究所 一种特征筛选方法及装置
CN109376626A (zh) * 2018-10-10 2019-02-22 国网陕西省电力公司电力科学研究院 一种基于辐射电场特征参数支持向量机的gis开关缺陷诊断方法
CN109697463B (zh) * 2018-12-13 2023-08-08 中国航空工业集团公司上海航空测控技术研究所 基于支持向量数据描述集成学习的齿轮故障识别方法
CN109924147A (zh) * 2019-01-17 2019-06-25 广西壮族自治区水产引育种中心 一种鲫鱼杂交制种中信息采集测定系统及测定方法
CN111709299B (zh) * 2020-05-19 2022-04-22 哈尔滨工程大学 一种基于加权支持向量机的水声目标识别方法
CN112381051B (zh) * 2020-11-30 2023-12-19 闽江师范高等专科学校 基于改进支持向量机核函数的植物叶片分类方法及系统
CN113158183A (zh) * 2021-01-13 2021-07-23 青岛大学 移动终端恶意行为检测方法、系统、介质、设备及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN101187913A (zh) * 2007-11-09 2008-05-28 北京理工大学 一种多核支持向量机分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN101187913A (zh) * 2007-11-09 2008-05-28 北京理工大学 一种多核支持向量机分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Amina El Gonnouni等.Support Vector Machines with Composite Kernels for NonLinear Systems Identification.《Proceedings of the International Multiconference on Computer Science and Information Technology》.2008,113-118. *
Gustavo Camps-Valls等.Composite Kernels for Hyperspectral Image Classification.《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》.2006,第3卷(第1期),93-97. *
Jian-Tao Sun等.GE-CKO: A method to optimize composite kernels for Web page classification.《Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence (WI"04)》.2004,299-305. *
厉晗等.利用相似度分割特征集的混合核构造方法.《科学技术与工程》.2007,第7卷(第4期),468-470. *

Also Published As

Publication number Publication date
CN101807254A (zh) 2010-08-18

Similar Documents

Publication Publication Date Title
CN101807254B (zh) 用于图像分类识别的合成核支持向量机的实现方法
CN110472817A (zh) 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
Ting et al. Mass estimation and its applications
Hajian et al. New automated power quality recognition system for online/offline monitoring
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN102915445A (zh) 一种改进型的神经网络高光谱遥感影像分类方法
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN109344618A (zh) 一种基于深度森林的恶意代码分类方法
CN112052755A (zh) 基于多路注意力机制的语义卷积高光谱图像分类方法
Ahlgren et al. The correlation between citation-based and expert-based assessments of publication channels: SNIP and SJR vs. Norwegian quality assessments
CN102254193A (zh) 基于相关向量机的多类数据分类方法
Zoltán et al. Comparative Analysis of the Development of the Digital Economy in Russia and EU Measured with DEA and Using Dimensions of DESI
CN103886334A (zh) 一种多指标融合的高光谱遥感影像降维方法
Le et al. Approximation vector machines for large-scale online learning
Handoyo et al. The varying threshold values of logistic regression and linear discriminant for classifying fraudulent firm
CN102663438A (zh) 一种小样本高光谱图像蒙特卡罗特征降维方法
Dahiya et al. A rank aggregation algorithm for ensemble of multiple feature selection techniques in credit risk evaluation
CN104599062A (zh) 一种基于分类的农业科技成果价值评估方法及系统
Renström et al. Fraud Detection on Unlabeled Data with Unsupervised Machine Learning
Singh et al. Comparative analysis of sequential community detection algorithms based on internal and external quality measure
Mandli et al. Selection of most relevant features from high dimensional data using ig-ga hybrid approach
Wang et al. Cosine kernel based density peaks clustering algorithm
Carnia et al. Academic performance ranking by the use of the analytic hierarchy process (AHP) and TOPSIS methods
Sui et al. An unsupervised band selection method based on overall accuracy prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: YANTAI INSTITUTE OF COASTAL ZONE RESEARCH, CHINESE

Free format text: FORMER OWNER: YANTAI HAIANDAI SUSTAINABLE DEVELOPMENT INSTITUTE

Effective date: 20120822

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120822

Address after: Chunhui road Laishan District 264003 Shandong city of Yantai province No. 17

Patentee after: Yantai Institute of Coastal Zone Research, Chinese Academy of Sciences

Address before: Chunhui road Laishan District 264003 Shandong city of Yantai province No. 17

Patentee before: Yantai Haiandai Sustainable Development Institute