CN101127029A - 用于在大规模数据分类问题中训练svm分类器的方法 - Google Patents

用于在大规模数据分类问题中训练svm分类器的方法 Download PDF

Info

Publication number
CN101127029A
CN101127029A CNA2007100452422A CN200710045242A CN101127029A CN 101127029 A CN101127029 A CN 101127029A CN A2007100452422 A CNA2007100452422 A CN A2007100452422A CN 200710045242 A CN200710045242 A CN 200710045242A CN 101127029 A CN101127029 A CN 101127029A
Authority
CN
China
Prior art keywords
sigma
sample
training
gauss model
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100452422A
Other languages
English (en)
Inventor
李斌
池明旻
薛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CNA2007100452422A priority Critical patent/CN101127029A/zh
Publication of CN101127029A publication Critical patent/CN101127029A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于统计机器学习技术领域,具体涉及一种用于在大规模数据分类问题中训练SVM分类器的方法。该方法首先训练样本的聚类,根据聚类结果,把具有相同标签的样本分别拟合成高斯模型,作为训练的基本信息单元;然后根据K个高斯模型建立K×K的核矩阵,并建立带约束的二次规划问题,用数值方法求解之;最后利用该二次规划问题的解得到分类器的决策函数,使用该决策函数对测试样本进行预测。本发明方法对时间复杂度和空间复杂度都大有降低;可广泛应用于多媒体信息检索、生物信息识别、金融信息处理等领域。

Description

用于在大规模数据分类问题中训练SVM分类器的方法
技术领域
本发明属于统计机器学习技术领域,具体涉及一种分类器的训练方法,主要解决大规模数据分类问题中快速有效地训练分类器的问题。
技术背景
随着计算机网络技术与存储设备的迅速发展,各应用领域的信息化程度不断提高,例如政府、企业、学校都在使用大规模数据库来管理与存储信息化数据。然而,除了简单地对数据进行管理与存储操作,人们更希望从这些海量的数据库中挖掘出一些有意义的规则或知识,例如门户网站希望自动对文档或图片进行分类。然而,在实际应用中,数据库中数据量通常是非常庞大的,其数量级通常会达到太字节(TB)以上,如果把所有样本都作为训练数据来训练分类器,其时空复杂性将无比巨大。
对于大规模数据的分类问题,国内外研究者已经做过大量工作,他们从不同角度提出了许多解决方案,比如:分解技术[16,12,17,3,13]通过将原有大规模分类器学习问题分解为较小的子问题进行迭代学习,每次只对一个工作子集进行训练,并利用该次训练的结果指导选择下一个工作子集用于训练;增量技术[2,8,14]每次仅读入一个样本,对分类器进行增量式更新;并行技术[4,9]一般使用集成方法,先把总体样本平分为多个样本子集,并把得到的样本子集作为独立的任务交给不同的处理器进行训练,最后把各处理器得到的结果通过某种技术合并为一个总的分类器;近似技术[7,15]则使用近似的计算公式降低原有算法的复杂性。以上这些技术需要对所有样本都进行训练,其复杂度难以降低。
还有一类技术通过在原数据集中选取代表点训练分类器,其思想在于使用一定的方式,在原有大规模数据集中选取小部分的代表性样本训练分类器,以达到降低训练样本数量的目的。较典型的方法包括:“主动学习”[18]通过启发式地选取代表点;CB-SVM[22]通过层次化聚类选取类中心作为代表点;[19]选取聚类超球表面的样本作为代表点;CVM[20]使用“核心集”作为代表点;[1,23]则选取聚类中心作为代表点。由于代表点的选取技术大多基于不同的假设,并不适合所有的应用场景,并且会丢失原数据集的统计信息。
经过大量观察以及实际应用,我们发现现有的针对大规模数据分类问题的分类器训练方法都在不同程度上存在以下一些局限性:(1)在训练阶段所需要的时间复杂性和空间复杂性极高;(2)丢失部分原数据集的统计信息;(3)基于较强的假设条件与前提条件;(4)对于硬件设备与资源的要求相当高;(5)算法实现非常复杂。
以上分析说明,如果用大规模训练样本进行训练,其时间复杂性必然会居高不下,即使通过各种优化与近似手段后,依然无法奏效;如果使用代表点技术,即基于一定的假设条件在原大规模数据中抽取一部分代表样本进行训练,又必定会丢失部分统计信息,影响分类器的性能。
如果有一种方法既能使样本数量减少,又能使原有的统计信息尽量不丢失,则可以达到在保持与现有分类器相似的分类准确率的条件下,显著降低训练阶段时空复杂性——本发明就是通过事先把训练样本聚类成高斯模型作为分类器训练的基本信息单元,从而达到既减少样本数量又能保持原有统计信息的目的;同时,本发明设计出的一种兼容的核函数使训练阶段得到的支撑高斯模型可以直接用于测试阶段,线性组合成最终的分类器。
参考文献
[1]Boley,D.and Cao,D.,Training Support Vector Machine Using Adaptive Clustering,InProc.of the SIAM Int’l Conf.on Data Mining,2004.
[2]Cauwenberghs,G.and Poggio,T.,Incremental and Decremental Support Vector MachineLearning,Advanced Neural Information Processing Systems,2000,Cambridge,MA:MITPress.
[3]Collobert,R.and Bengio,S.,SVMTorch:Support Vector Machines for Large-scaleRegression Problems,J.of Machine Learning Research,2001,vol.1,pp.143-160.
[4]Collobert,R.,Bengio,S.,and Bengio,Y.,A Parallel Mixture of SVMs for Very Large ScaleProblems,Advanced Neural Information Processing Systems,2001,Cambridge,MA:MITPress.
[5]Dempster,A.P.,Laird,N.M.,and Rubin,D.B.,Maximum Likelihood from IncompleteData via the EM Algorithm,Journal of the Royal Statistical Society,Series B(Methodological),1977,vol.39,pp.1-38.
[6]Friedman,M.and Kandel,A.,Introduction to Pattern Recognition,chapter DistanceFunctions,pp.70-73,London,UK:Imperial College Press,1999.
[7]Fung,G.and Mangasarian,O.L.,Proximal Support Vector Machine Classifiers,In Proc.ofthe ACM SIGKDD Int’l Conf.on Knowledge Discovery and Data Mining,2001,pp.77-86.
[8]Fung,G.and Mangasarian,O.L.,Incremental Support Vector Machine Classification,InProc.of the SIAMInt’l Conf.onData Mining,2002.
[9]Graf,H.P.,Cosatto,E.,Bottou,L.,Durdanovic,I.,and Vapnik,V.,Parallel Support VectorMachines:The Cascade SVM,Advanced Neural Information Processing Systems,2004,Cambridge,MA:MIT Press.
[10]Hartigan,J.A.and Wong,M.A.,A K-Means Clustering Algorithm,Applied Statistics,1979,vol.28,pp.100-108.
[11]Jebara,T.,Kondor,R.,and Howard,A.,Probability Product Kernels,J.of MachineLearning Research,2004,vol.5,pp.819-844.
[12]Joachims,T.,Making Large-scale SVM Learning Practical,In B.Schoelkopf,C.J.C.Burges,and A.J.Smola(Eds.),Advances in Kernel Methods-Support Vector Learning,1999,pp.169-184,Cambridge,MA:MIT Press.
[13]Keerthi,S.S.,Shevade,S.K.,Bhattacharyya,C.,and Murthy,K.R.K.,Improvements toPlatt’s SMO Algorithm for SVM Classfier Design,Neural Computation,2001,vol.13,pp.637-649.
[14]Laskov,P.,Gehl,C.,Krueger,S.,and Mueller,K.,Incremental Support Vector Learning:Analysis,Implementation and Applications,J.of Machine Learning Research,2006,vol.7,pp.1909-1936.
[15]Lee,Y.and Mangasarian,O.L.,RSVM:Reduced Support Vector Machines,In Proc.of theSIAM Int’l Conf.on Data Mining,2001.
[16]Osuna,E.,Freund,R.,and Girosi,F.,An Improved Training Algorithm for Support VectorMachines,InProc.of the 1997 IEEE Workshop on Neural Networks for Signal Processing,1997,pp.276-285.
[17]Platt,J.,Fast Training of Support Vector Machines using Sequential Minimal Optimization,In B.Schoelkopf,C.J.C.Burges,and A.J.Smola(Eds.),Advances in kernel methods-support vector learning,1999,pp.185-208.Cambridge,MA:MIT Press.
[18]Schohn,G.and Cohn,D.,Less is More:Active Learning with Support Vector Machines,InProc.of the Int’l Conf.on Machine Learning,2000.
[19]Sun,S.,Tseng,C.L.,Chen,Y.H.,Chuang,S.C.,and Fu,H.C.,Cluster-based SupportVector Machines in Text-independent Speaker Identification,In Proc.of the Int’l Joint Conf.on Neural Network,2004.
[20]Tsang,I.W.,Kwok,J.T.,and Cheung,P.,Core Vector Machines:Fast SVM Training onVery Large Data Sets,J.of Machine Learning Research,2005,vol.6,pp.363-392.
[21]Vapnik,V.,Statistical Learning Theory,1998,John Wiley.
[22]Yu,H.,Yang,J.,and Han,J.,Classifying Large Data Sets Using SVMs with HierarchicalClusters,InProc.of the ACMSIGKDD Int’l Conf.on Knowledge Discovery and DataMining,2003,pp.306-315.
[23]Yuan,J.,Li,J.,and Zhang,B.,Learning Concepts from Large Scale Imbalanced Data SetsUsing Support Cluster Machines,In Proc.of the ACM Int’l Conf.on Multimedia,2006,pp.441-450.
[24]Zhang,T.,Ramakrishnan,R.,and Livny,M.,BIRCH:An Efficient Data Clustering Methodfor Very Large Databases,In Proc.of the 1996 ACM SIGMOD Int’l Conf.on Managementof Data,1996,pp.103-114.
发明内容
本发明的目的在于提出一种在大规模数据分类问题中快速有效地训练SVM分类器的方法。
本发明提出的训练分类器的方法,遵循了Vapnik提出的经典统计学习框架[21],并在核空间中解决了高斯模型与特征向量可比性的难题。
本发明的主要思想如下:首先对于用于训练的大规模样本集进行聚类,并根据聚类结果把具有相同标签的样本分别拟合成高斯模型作为训练的基本信息单元,而测试样本仍然保留特征向量的形式用于测试。在训练与测试阶段,同时都需要使用一个兼容的核函数,该核函数不仅可以在训练阶段衡量两个高斯模型之间的相似度,并且可以在测试阶段衡量高斯模型与单个向量之间的相似度。因此,在训练阶段得到的支撑高斯模型可以直接用于决策函数的构造。
本发明所提出的分类器训练方法包括如下步骤:(1)训练样本的聚类;(2)核矩阵的计算;(3)目标函数的优化;(4)决策函数的建立。下面详细介绍上述步骤:
(1)训练样本的聚类
给定一个包含N=N++N-个训练样本的集合L.={(xi,yi)}N i=1,其中N+表示正样本数,N-表示负样本数,样本(特征向量)xi∈RD,其中D为输入空间的维数,标签yi∈{1,-1}。
在分类器的训练阶段,对N+个正样本和N-个负样本首先分别进行聚类,得到K+个正集群和K+个负集群,共计K=K++K-个集群。然后,按照聚类结果的集群标签,把具有相同标签的样本拟合成高斯模型,这样,共得到K+个正样本高斯模型和K-个负样本高斯模型,表示为C={(Θk,yk}K k=1,其中生成模型Θk=(Pk,μk,∑k)包含了第k个高斯模型的先验概率Pk(权重)、均值μk、以及协方差矩阵∑k,yk则表示该高斯模型的标签。这里需要指出的是作为训练基本单元的高斯模型的先验概率按照如下公式计算:Pk +=Nk +/N+,其中Nk +表示正样本中第k个高斯模型包含的样本数,N+表示正样本的总数;负样本高斯模型的先验概率按照同样方法计算,即Pk -=Nk -/N-
在本发明提出的方法中,聚类技术并没有任何限制,聚类算法仅是用来压缩原大规模训练数据的一种降采样手段,任何现有的聚类技术都可以用于训练样本的聚类,如,K均值(K-means)[10],期望最大化算法(Expectation Maximization)[5],层次聚类(Hierarchical Clustering)[24],阈值顺序依赖(Threshold Order-Dependent)[6]等。生成的聚类结果也无需一定要把样本的密度拟合得很好——在大规模数据分类问题中,最重要的是降低计算复杂性。因此,任何高效的聚类技术,只要能够准确地描述出数据在输入空间中的布局(layout),就可以适用于本发明提出的方法。在说明书的示例中,仅以阈值顺序依赖(Threshold Order-Dependent)算法,简称TOD算法为例。
(2)核矩阵的构建
在对训练样本进行聚类后,需要构建一个K×K的核矩阵,该矩阵中的任意一项元素Kij则为以第i个与第j个高斯模型作为变量的核函数值。本发明所设计的核函数由概率积核(Probability Product Kernel)[11]演化而来。因此,首先简要介绍在高斯分布下的概率积核。概率积核函数对于分布pk和pl有如下形式定义:
κ ρ ( p k , p l ) = ∫ R D p k ρ p l ρ dx - - - ( 1 )
其中kρpk,pl)正定(positive definite),而指数ρ如果取不同的值则可以得到一系列候选核。在此,选择ρ=1以满足构造兼容核函数的需要。
当分布pk和pl都为高斯分布时,即pk=PkP(x|μk,∑k),pl=Plp(x|μl,∑l),核函数κ(pk,pl)可以写成κ(Θk,Θl),表示为两个生成模型的函数。κ(Θk,Θl)可以使用两个高斯模型的参数直接计算(1),从而避免了在整个输入空间中对概率分布进行积分:
κ ( Θ k , Θ l ) = P k P l ∫ R D p ( x | μ k , Σ k ) p ( x | μ l , Σ l ) dx
= P k P l ( 2 π ) - D 2 | ( Σ k - 1 + Σ l - 1 ) - 1 | 1 2 | Σ k | - 1 2 | Σ l | - 1 2 - - - ( 2 )
exp ( - 1 2 ( μ k T Σ k - 1 μ k + μ l T Σ l - 1 μ l - μ ~ T Σ ~ - 1 μ ~ ) )
其中 Σ ~ - 1 = ( Σ k - 1 + Σ l - 1 ) - 1 , μ ~ = Σ k - 1 μ k + Σ l - 1 μ l , 上标T表示矩阵或者向量的转置。
在实际应用中,可以仅使用高斯模型协方差矩阵的对角线元素进行计算,即∑k=diag((σk (1))2,...,(σk (D) 2),以此达到避免在公式(2)中计算逆矩阵的目的。当仅使用协方差矩阵对角线元素时,核函数变为:
κ ( Θ k , Θ l ) = P k P l Π d = 1 D 2 π ( ( σ k ( d ) ) 2 + ( σ l ( d ) ) 2 ) exp { - 1 2 Σ d = 1 D ( μ k ( d ) - μ l ( d ) ) 2 ( σ k ( d ) ) 2 + ( σ l ( d ) ) 2 } . - - - ( 3 )
本发明中提出的兼容核函数不仅能够衡量高斯模型之间的相似度,还能够衡量高斯模型与单个向量之间的相似度。在决策函数中,测试样本x可以看作是高斯分布的一个极端情况,即其协方差矩阵为零矩阵,而先验概率为常量1。在这种情况下,有如下结论:给定两个高斯模型Θk和Θl,如果Pi=1,并且协方差矩阵∑l趋向于零矩阵,即∑l→0,则核函数(2)的极限变为μl在高斯分布Θk下的后验概率:
lim Σ l → 0 E p l [ p k ] = P k P l p ( μ l | μ k , Σ k ) lim Σ l → 0 ∫ μ l ϵ p ( x | μ l , Σ l ) dx
= P k p ( μ l | μ k , Σ k ) - - - ( 4 )
其中μl ε表示以μl为中心的ε开邻域。
把公式(4)中的Θl替换为测试样本Θx,可以得到如下用于决策函数的核函数:
κ(Θk,Θx)=Pkp(x|μk,∑k)    (5)
为了在实际应用中更加简便,公式(5)也可以仅使用协方差矩阵的对角线元素进行近似表达:
κ ( Θ k , Θ x ) = P k Π d = 1 D 1 2 π σ k ( d ) exp { - 1 2 Σ d = 1 D ( μ k ( d ) - x ( d ) ) 2 ( σ k ( d ) ) 2 } . - - - ( 6 )
(3)目标函数的优化
核矩阵构造完之后,就需要把其代入目标函数并对目标函数进行优化。在训练的基本单元为高斯模型的情况下,所有用于训练的高斯模型必须满足如下约束条件:
ykWTφ(Θk)+b)≥1-ξk,k=1,...,K    (7)
其中Φ(.)表示映射函数,该函数可以把生成模型映射到无限维的概率分布空间,常数b为线性函数的偏置(bias)。
与支撑向量机[21]类似,本发明提出的方法同样遵循结构化风险最小化(SRM)准则。该准则通过把一个正则化项引入代价函数达到最小化VC维的目的,这又等价于最大化正负高斯模型训练集之间的边界:
min w , b , ξ 1 2 w T w + C Σ k = 1 K P k ξ k - - - ( 8 )
其中常数C为结构化风险最低(Structural Risk Minimization)目标函数的权衡(tradeoff)参数,松弛变量ξk乘上权重Pk(第k个高斯模型的先验概率)的目的为使错分的高斯模型得到与它所包含样本数量等比例的惩罚,即包含样本较多的高斯模型一旦分错将会得到更多的惩罚。
综合约束条件(7)以及如下约束条件:ξk≥0,k=1,...,K,代价函数(8)可以表示为带约束的优化问题,即原始拉格朗日(Primal Lagrangian)问题。然后,原始拉格朗日问题可以转化成对偶表示(Dual Representation),其表达形式为:
max α Σ k = 1 K α k - 1 2 Σ k = 1 K Σ l = 1 K y k y l α k α l κ ( Θ k , Θ l ) - - - ( 9 )
s.t.0≤αk≤PkC,  k=1,...,K
Σ k = 1 K α k y k = 0 .
至此,分类器目标函数的优化问题已经转化为一个常见的带约束的二次规划问题,可以使用多种数值方法进行求解,求解后可以得到一组系数αk,k=1,...,K的值,其中非负值即对应为支撑高斯模型,可用于决策函数的建立。
(4)决策函数的建立
在上一步解决目标函数的优化问题后,可以得到系数序列αk,k=1,....,K。在决策函数中,测试样本(向量)x可看作为高斯模型Θx在极端条件下的情况,即其协方差矩阵退化为零矩阵,参数表示为Θx=(Px=1,μx=x,∑x=0)。然后,测试样本x就可以使用如下决策函数进行预测(即为x在高斯分布Θk下的后验概率):
f ( x ) = sgn ( Σ k = 1 K α k y k P k p ( x | μ k , Σ k ) + b ) . - - - ( 10 )
根据上述思想,本发明提出的分类器训练方法,具体步骤如下:
(1)、训练样本的聚类。对于用于训练的大规模样本进行聚类,根据聚类结果,把具有相同标签的样本分别拟合成高斯模型,作为训练的基本信息单元;而测试样本仍然保持向量的形式用于测试。
(2)、核矩阵的构建。使用步骤(1)中得到的K个高斯模型构建一个K×K的核矩阵,其中每个元素根据公式(2)或公式(3)计算得到。
(3)、目标函数的优化。使用步骤(2)中得到的核矩阵建立带约束的二次规划问题,即公式(9),使用数值方法求解该二次规划问题,可得到系数αk,k=1,...,K的值。
(4)、决策函数的建立。把从步骤(3)中得到的系数ak,k=1,...,K,代入公式(10),即可得到分类器的决策函数,使用该决策函数对测试样本X进行预测。。
本发明所提出的分类器训练方法主要针对于大规模数据分类问题中的应用。对于时间复杂性,目前用于大规模数据分类器训练的方法在训练阶段的时间复杂度一般处于O(logNN2)到O(N3)之间,而本发明所提出的方法在训练阶段可以把时间复杂度降低到O(NK+K3),其中N为训练集总样本数,K为训练样本经过聚类后所得到的高斯模型数,并且K<<N。例如,如果N=10000,K=100,则其它方法的时间复杂度为O(1010)到O(1012)之间,而本发明所提出的方法仅为O(106)。而且,本方法在时间复杂性上的优势会随着N数量级的增大越来越显著。在测试阶段,由于一般情况下该方法训练所得到的支撑高斯模型数会比支撑向量机所得到的支撑向量数少很多,所以本方法在测试阶段的时间复杂性也会在一定程度上降低。对于空间复杂性,一般分类器(不使用分解、增量技术)都需要存储一个N×N的矩阵,即空间复杂度为O(N2),而本发明所提出的方法在训练阶段可以把空间复杂度降低到O(K2),N与K定义同前。例如,如果N=10000,K=100,并且存储矩阵的数据类型为双精度型(8个字节),则一般方法需要约800M的内存,在真实应用场景中,样本数远不止这些,这就意味着,一般的PC机根本就无法胜任分类器的训练任务;而本方法则只需要80K的内存。
本发明方法可应用于多个领域,如多媒体信息检索、生物信息识别、金融信息处理等。
具体实施方式
为了演示本发明中所提出的分类器训练方法的直观效果,并且说明该方法的有效性,这里使用该方法对一个在二维空间中生成的模拟数据集进行训练(见附图1)。该模拟数据集根据预定义的某高斯混合模型的分布生成2500个正样本(用符号“+”表示)和2500个负样本(用符号“x”表示)。分类器的具体训练步骤如下:
1、使用TOD聚类算法分别对正样本集与负样本集分别聚类,得到25个正样本集群和25个负样本集群,并根据集群标签把具有相同标签的样本拟合成高斯模型,并分别计算其权重、均值、以及协方差矩阵(图中椭圆形即表示作为基本训练单元的高斯模型,其大小与权重成正比,其中心位置为均值,其形状表示协方差矩阵)。
2、基于步骤1中得到的50个高斯模型构造一个50×50的核矩阵,矩阵中的第i行第j列中的元素为第i行个与第j个高斯模型的相似度由公式(3)计算得到。
3、把步骤2中得到的核矩阵代入公式(9),求解带约束的二次规划问题,得到系数序列αk,k=1,...,K。图中黑体椭圆表示支撑高斯模型,它们所对应的α值均大于零。
4、使用步骤3中得到的支撑高斯模型根据公式(10)构建决策函数。把坐标系中的所有点代入,计算得到的结果如图1所示,淡灰色区域为-1≤f(x)<0,深灰色区域为0≤f(x)≤1。
从这个例子可以看出,通过将样本事先聚类并使用得到的高斯模型作为训练的基本单元,可以显著降低样本数量,同时保持原有的统计信息。另外,该方法由于同样遵循了边界最大化准则,其分类面与其它同类分类器一样尽量拉开正负样本之间的边界。

Claims (1)

1.一种用于在大规模数据分类问题中训练SVA分类器的方法,其特征在于具体步骤如下:
(1)训练样本的聚类
给定一个包含N=N++N-个训练样本的集合 L = { ( x i , y i ) } N i = 1 , 其中N+表示正样本数,N-表示负样本数,样本xi∈RD,其中D为输入空间的维数,标签yi∈{1,-1};
在分类器的训练阶段,对N+个正样本和N-个负样本首先分别进行聚类,得到K+个正集群和K-个负集群,共计K=K++K-个集群;然后,按照聚类结果的集群标签,把具有相同标签的样本拟合成高斯模型,这样,共得到K+个正样本高斯模型和K-个负样本高斯模型,表示为C={(Θk,yk)}K k=1,其中生成模型Θk=(Pk,μk,∑k)包含了第k个高斯模型的先验概率Pk、均值μk、以及协方差矩阵∑k,yk则表示该高斯模型的标签;这里,作为训练基本单元的高斯模型的先验概率按照如下公式计算:Pk +=Nk +/N+,其中Nk +表示正样本中第k个高斯模型包含的样本数,N+表示正样本的总数;负样本高斯模型的先验概率按照同样方法计算,即Pk -=Nk -/N-
(2)核矩阵的构建
使用步骤(1)中得到的K个高斯模型构建一个K×K的核矩阵,其中每个元素根据公式(2)或公式(3)计算得到:
κ ( Θ k , Θ l ) = P k P l ∫ R D p ( x | μ k , Σ k ) p ( x | μ l , Σ l ) dx
= P k P l ( 2 π ) - D 2 | ( Σ k - 1 + Σ l - 1 ) - 1 | 1 2 | Σ k | - 1 2 | Σ l | - 1 2
exp ( - 1 2 ( μ k T Σ k - 1 μ k + μ l T Σ l - 1 μ l - μ ~ T Σ ~ - 1 μ ~ ) ) - - - ( 2 )
其中 Σ ~ - 1 = ( Σ k - 1 + Σ l - 1 ) - 1 , μ ~ = Σ k - 1 μ k + Σ l - 1 μ l , 上标T表示矩阵或者向量的转置。
κ ( Θ k , Θ l ) = P k P l Π d = 1 D 2 π ( ( σ k ( d ) ) 2 + ( σ l ( d ) ) 2 ) exp { - 1 2 Σ d = 1 D ( μ k ( d ) - μ l ( d ) ) 2 ( σ k ( d ) ) 2 + ( σ l ( d ) ) 2 } . - - - ( 3 )
这里,σk (d),σl (d)分别为高斯型协方差矩阵∑k和∑l的第d个对角线元素;
(3)目标函数的优化
使用步骤(2)中得到的核矩阵建立带约束的二次规划问题,即公式(9),使用数值方法求解该二次规划问题,得到系数αk,k=1,...,K的值:
max α Σ k = 1 K α k - 1 2 Σ k = 1 K Σ l = 1 K y k y l α k α l κ ( Θ k , Θ l ) - - - ( 9 )
s.t.0≤αk≤PkC,k=1,...,K
Σ k = 1 K α k y k = 0 .
(4)决策函数的建立
把从步骤(3)中得到的系数αk,k=1,...,K,代入公式(10),即可得到分类器的决策函数,使用该决策函数对测试样本X进行预测:
f ( x ) = sgn ( Σ k = 1 K α k y k P k p ( x | μ k , Σ k ) + b ) . - - - ( 10 ) .
CNA2007100452422A 2007-08-24 2007-08-24 用于在大规模数据分类问题中训练svm分类器的方法 Pending CN101127029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100452422A CN101127029A (zh) 2007-08-24 2007-08-24 用于在大规模数据分类问题中训练svm分类器的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100452422A CN101127029A (zh) 2007-08-24 2007-08-24 用于在大规模数据分类问题中训练svm分类器的方法

Publications (1)

Publication Number Publication Date
CN101127029A true CN101127029A (zh) 2008-02-20

Family

ID=39095061

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100452422A Pending CN101127029A (zh) 2007-08-24 2007-08-24 用于在大规模数据分类问题中训练svm分类器的方法

Country Status (1)

Country Link
CN (1) CN101127029A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807254B (zh) * 2009-02-13 2012-06-27 烟台海岸带可持续发展研究所 用于图像分类识别的合成核支持向量机的实现方法
CN102737255A (zh) * 2011-03-30 2012-10-17 索尼公司 目标检测设备和方法
CN103605813A (zh) * 2013-12-10 2014-02-26 电子科技大学 一种域适应学习的最优核组合选择方法
CN103679189A (zh) * 2012-09-14 2014-03-26 华为技术有限公司 场景识别的方法和装置
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN103782309A (zh) * 2011-02-22 2014-05-07 汤姆森路透社全球资源公司 用于机器学习分类器的自动数据清除
CN103823843A (zh) * 2014-01-24 2014-05-28 北京理工大学 一种高斯混合模型树及其递增聚类方法
CN105005629A (zh) * 2015-08-11 2015-10-28 福州大学 一种基于混合高斯的sdn流聚类方法
CN105046269A (zh) * 2015-06-19 2015-11-11 鲁东大学 一种基于多核融合的多示例多标签场景分类方法
CN105160598A (zh) * 2015-08-28 2015-12-16 国网智能电网研究院 一种基于改进em算法的电网业务分类方法
CN105654100A (zh) * 2014-10-30 2016-06-08 诺基亚技术有限公司 利用计算装置识别对象的方法、装置以及电子设备
CN106610980A (zh) * 2015-10-22 2017-05-03 日本电气株式会社 用于对时空序列数据进行分类/预测的设备和方法
CN108388563A (zh) * 2017-02-03 2018-08-10 北京京东尚科信息技术有限公司 信息输出方法和装置
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN108897775A (zh) * 2018-06-01 2018-11-27 昆明理工大学 一种基于感知哈希的快速图像识别系统及方法
US11531926B2 (en) 2016-03-30 2022-12-20 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating machine learning model by using distributed computing framework
CN117133402A (zh) * 2023-08-30 2023-11-28 广东省中医院(广州中医药大学第二附属医院、广州中医药大学第二临床医学院、广东省中医药科学院) 动态监管患者康复的方法、装置、设备及可读存储介质
WO2024021536A1 (zh) * 2022-07-27 2024-02-01 华东理工大学 一种融合时序特征提取的催化裂化装置关键指标建模方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807254B (zh) * 2009-02-13 2012-06-27 烟台海岸带可持续发展研究所 用于图像分类识别的合成核支持向量机的实现方法
CN103782309A (zh) * 2011-02-22 2014-05-07 汤姆森路透社全球资源公司 用于机器学习分类器的自动数据清除
CN103782309B (zh) * 2011-02-22 2017-06-16 汤姆森路透社全球资源公司 用于机器学习分类器的自动数据清除
CN102737255A (zh) * 2011-03-30 2012-10-17 索尼公司 目标检测设备和方法
US9465992B2 (en) 2012-09-14 2016-10-11 Huawei Technologies Co., Ltd. Scene recognition method and apparatus
CN103679189A (zh) * 2012-09-14 2014-03-26 华为技术有限公司 场景识别的方法和装置
CN103679189B (zh) * 2012-09-14 2017-02-01 华为技术有限公司 场景识别的方法和装置
CN103605813A (zh) * 2013-12-10 2014-02-26 电子科技大学 一种域适应学习的最优核组合选择方法
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN103678681B (zh) * 2013-12-25 2017-03-01 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN103823843A (zh) * 2014-01-24 2014-05-28 北京理工大学 一种高斯混合模型树及其递增聚类方法
CN103823843B (zh) * 2014-01-24 2017-02-22 北京理工大学 一种高斯混合模型树及其递增聚类方法
CN105654100A (zh) * 2014-10-30 2016-06-08 诺基亚技术有限公司 利用计算装置识别对象的方法、装置以及电子设备
CN105046269A (zh) * 2015-06-19 2015-11-11 鲁东大学 一种基于多核融合的多示例多标签场景分类方法
CN105046269B (zh) * 2015-06-19 2019-02-22 鲁东大学 一种基于多核融合的多示例多标签场景分类方法
CN105005629A (zh) * 2015-08-11 2015-10-28 福州大学 一种基于混合高斯的sdn流聚类方法
CN105160598A (zh) * 2015-08-28 2015-12-16 国网智能电网研究院 一种基于改进em算法的电网业务分类方法
CN105160598B (zh) * 2015-08-28 2021-01-15 国网智能电网研究院 一种基于改进em算法的电网业务分类方法
CN106610980B (zh) * 2015-10-22 2022-03-18 日本电气株式会社 用于对时空序列数据进行分类/预测的设备和方法
CN106610980A (zh) * 2015-10-22 2017-05-03 日本电气株式会社 用于对时空序列数据进行分类/预测的设备和方法
US11531926B2 (en) 2016-03-30 2022-12-20 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating machine learning model by using distributed computing framework
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN108388563B (zh) * 2017-02-03 2022-11-08 北京京东尚科信息技术有限公司 信息输出方法和装置
CN108388563A (zh) * 2017-02-03 2018-08-10 北京京东尚科信息技术有限公司 信息输出方法和装置
CN108897775A (zh) * 2018-06-01 2018-11-27 昆明理工大学 一种基于感知哈希的快速图像识别系统及方法
WO2024021536A1 (zh) * 2022-07-27 2024-02-01 华东理工大学 一种融合时序特征提取的催化裂化装置关键指标建模方法
CN117133402A (zh) * 2023-08-30 2023-11-28 广东省中医院(广州中医药大学第二附属医院、广州中医药大学第二临床医学院、广东省中医药科学院) 动态监管患者康复的方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN101127029A (zh) 用于在大规模数据分类问题中训练svm分类器的方法
Zhang et al. Determinantal point processes for mini-batch diversification
Murtagh et al. Multivariate data analysis
Dunham Data mining: Introductory and advanced topics
Zhou et al. AdaBoost models for corporate bankruptcy prediction with missing data
Fan et al. Generalized and heuristic-free feature construction for improved accuracy
US20200193220A1 (en) Method for data imputation and classification and system for data imputation and classification
Li et al. Support cluster machine
Qu et al. Effects of loss function and data sparsity on smooth manifold extraction with deep model
Zhao et al. Joint adaptive graph learning and discriminative analysis for unsupervised feature selection
Wang et al. A novel nonlinear RBF neural network ensemble model for financial time series forecasting
Alba et al. Comparative analysis of modern optimization tools for the p-median problem
Xu et al. Semi-supervised learning algorithm based on linear lie group for imbalanced multi-class classification
Wu et al. Evaluation of feature selection methods using bagging and boosting ensemble techniques on high throughput biological data
Wang et al. Improved local-feature-based few-shot learning with Sinkhorn metrics
Sabzekar et al. Improved DAG SVM: A New Method for Multi-Class SVM Classification.
Zhang et al. A divisional incremental training algorithm of support vector machine
Chang et al. Semi-supervised classification algorithm based on the KNN
Kurbucz et al. Predicting the price movement of cryptocurrencies using linear law-based transformation
Li et al. Customer Churn Combination Prediction Model Based on Convolutional Neural Network and Gradient Boosting Decision Tree
Ben Ishak et al. Analysis and prediction of PM 10 concentration levels in Tunisia using statistical learning approaches
Wang et al. Risk assessment of customer churn in telco using FCLCNN-LSTM model
Ibraheem On the choice of inter-class distance maximization term in siamese neural networks
Luo et al. Trace ratio criterion based large margin subspace learning for feature selection
Swamynathan et al. Step 3: fundamentals of machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080220