CN101127029A

CN101127029A - 用于在大规模数据分类问题中训练svm分类器的方法

Info

Publication number: CN101127029A
Application number: CNA2007100452422A
Authority: CN
Inventors: 李斌; 池明旻; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2007-08-24
Filing date: 2007-08-24
Publication date: 2008-02-20

Abstract

本发明属于统计机器学习技术领域，具体涉及一种用于在大规模数据分类问题中训练SVM分类器的方法。该方法首先训练样本的聚类，根据聚类结果，把具有相同标签的样本分别拟合成高斯模型，作为训练的基本信息单元；然后根据K个高斯模型建立K×K的核矩阵，并建立带约束的二次规划问题，用数值方法求解之；最后利用该二次规划问题的解得到分类器的决策函数，使用该决策函数对测试样本进行预测。本发明方法对时间复杂度和空间复杂度都大有降低；可广泛应用于多媒体信息检索、生物信息识别、金融信息处理等领域。

Description

用于在大规模数据分类问题中训练SVM分类器的方法

技术领域

本发明属于统计机器学习技术领域，具体涉及一种分类器的训练方法，主要解决大规模数据分类问题中快速有效地训练分类器的问题。

技术背景

随着计算机网络技术与存储设备的迅速发展，各应用领域的信息化程度不断提高，例如政府、企业、学校都在使用大规模数据库来管理与存储信息化数据。然而，除了简单地对数据进行管理与存储操作，人们更希望从这些海量的数据库中挖掘出一些有意义的规则或知识，例如门户网站希望自动对文档或图片进行分类。然而，在实际应用中，数据库中数据量通常是非常庞大的，其数量级通常会达到太字节(TB)以上，如果把所有样本都作为训练数据来训练分类器，其时空复杂性将无比巨大。

对于大规模数据的分类问题，国内外研究者已经做过大量工作，他们从不同角度提出了许多解决方案，比如：分解技术[16，12，17，3，13]通过将原有大规模分类器学习问题分解为较小的子问题进行迭代学习，每次只对一个工作子集进行训练，并利用该次训练的结果指导选择下一个工作子集用于训练；增量技术[2，8，14]每次仅读入一个样本，对分类器进行增量式更新；并行技术[4，9]一般使用集成方法，先把总体样本平分为多个样本子集，并把得到的样本子集作为独立的任务交给不同的处理器进行训练，最后把各处理器得到的结果通过某种技术合并为一个总的分类器；近似技术[7，15]则使用近似的计算公式降低原有算法的复杂性。以上这些技术需要对所有样本都进行训练，其复杂度难以降低。

还有一类技术通过在原数据集中选取代表点训练分类器，其思想在于使用一定的方式，在原有大规模数据集中选取小部分的代表性样本训练分类器，以达到降低训练样本数量的目的。较典型的方法包括：“主动学习”[18]通过启发式地选取代表点；CB-SVM[22]通过层次化聚类选取类中心作为代表点；[19]选取聚类超球表面的样本作为代表点；CVM[20]使用“核心集”作为代表点；[1，23]则选取聚类中心作为代表点。由于代表点的选取技术大多基于不同的假设，并不适合所有的应用场景，并且会丢失原数据集的统计信息。

经过大量观察以及实际应用，我们发现现有的针对大规模数据分类问题的分类器训练方法都在不同程度上存在以下一些局限性：(1)在训练阶段所需要的时间复杂性和空间复杂性极高；(2)丢失部分原数据集的统计信息；(3)基于较强的假设条件与前提条件；(4)对于硬件设备与资源的要求相当高；(5)算法实现非常复杂。

以上分析说明，如果用大规模训练样本进行训练，其时间复杂性必然会居高不下，即使通过各种优化与近似手段后，依然无法奏效；如果使用代表点技术，即基于一定的假设条件在原大规模数据中抽取一部分代表样本进行训练，又必定会丢失部分统计信息，影响分类器的性能。

如果有一种方法既能使样本数量减少，又能使原有的统计信息尽量不丢失，则可以达到在保持与现有分类器相似的分类准确率的条件下，显著降低训练阶段时空复杂性——本发明就是通过事先把训练样本聚类成高斯模型作为分类器训练的基本信息单元，从而达到既减少样本数量又能保持原有统计信息的目的；同时，本发明设计出的一种兼容的核函数使训练阶段得到的支撑高斯模型可以直接用于测试阶段，线性组合成最终的分类器。

参考文献

[1]Boley，D.and Cao，D.，Training Support Vector Machine Using Adaptive Clustering，InProc.of the SIAM Int’l Conf.on Data Mining，2004.

[2]Cauwenberghs，G.and Poggio，T.，Incremental and Decremental Support Vector MachineLearning，Advanced Neural Information Processing Systems，2000，Cambridge，MA：MITPress.

[3]Collobert，R.and Bengio，S.，SVMTorch：Support Vector Machines for Large-scaleRegression Problems，J.of Machine Learning Research，2001，vol.1，pp.143-160.

[4]Collobert，R.，Bengio，S.，and Bengio，Y.，A Parallel Mixture of SVMs for Very Large ScaleProblems，Advanced Neural Information Processing Systems，2001，Cambridge，MA：MITPress.

[5]Dempster，A.P.，Laird，N.M.，and Rubin，D.B.，Maximum Likelihood from IncompleteData via the EM Algorithm，Journal of the Royal Statistical Society，Series B(Methodological)，1977，vol.39，pp.1-38.

[6]Friedman，M.and Kandel，A.，Introduction to Pattern Recognition，chapter DistanceFunctions，pp.70-73，London，UK：Imperial College Press，1999.

[7]Fung，G.and Mangasarian，O.L.，Proximal Support Vector Machine Classifiers，In Proc.ofthe ACM SIGKDD Int’l Conf.on Knowledge Discovery and Data Mining，2001，pp.77-86.

[8]Fung，G.and Mangasarian，O.L.，Incremental Support Vector Machine Classification，InProc.of the SIAMInt’l Conf.onData Mining，2002.

[9]Graf，H.P.，Cosatto，E.，Bottou，L.，Durdanovic，I.，and Vapnik，V.，Parallel Support VectorMachines：The Cascade SVM，Advanced Neural Information Processing Systems，2004，Cambridge，MA：MIT Press.

[10]Hartigan，J.A.and Wong，M.A.，A K-Means Clustering Algorithm，Applied Statistics，1979，vol.28，pp.100-108.

[11]Jebara，T.，Kondor，R.，and Howard，A.，Probability Product Kernels，J.of MachineLearning Research，2004，vol.5，pp.819-844.

[12]Joachims，T.，Making Large-scale SVM Learning Practical，In B.Schoelkopf，C.J.C.Burges，and A.J.Smola(Eds.)，Advances in Kernel Methods-Support Vector Learning，1999，pp.169-184，Cambridge，MA：MIT Press.

[13]Keerthi，S.S.，Shevade，S.K.，Bhattacharyya，C.，and Murthy，K.R.K.，Improvements toPlatt’s SMO Algorithm for SVM Classfier Design，Neural Computation，2001，vol.13，pp.637-649.

[14]Laskov，P.，Gehl，C.，Krueger，S.，and Mueller，K.，Incremental Support Vector Learning：Analysis，Implementation and Applications，J.of Machine Learning Research，2006，vol.7，pp.1909-1936.

[15]Lee，Y.and Mangasarian，O.L.，RSVM：Reduced Support Vector Machines，In Proc.of theSIAM Int’l Conf.on Data Mining，2001.

[16]Osuna，E.，Freund，R.，and Girosi，F.，An Improved Training Algorithm for Support VectorMachines，InProc.of the 1997 IEEE Workshop on Neural Networks for Signal Processing，1997，pp.276-285.

[17]Platt，J.，Fast Training of Support Vector Machines using Sequential Minimal Optimization，In B.Schoelkopf，C.J.C.Burges，and A.J.Smola(Eds.)，Advances in kernel methods-support vector learning，1999，pp.185-208.Cambridge，MA：MIT Press.

[18]Schohn，G.and Cohn，D.，Less is More：Active Learning with Support Vector Machines，InProc.of the Int’l Conf.on Machine Learning，2000.

[19]Sun，S.，Tseng，C.L.，Chen，Y.H.，Chuang，S.C.，and Fu，H.C.，Cluster-based SupportVector Machines in Text-independent Speaker Identification，In Proc.of the Int’l Joint Conf.on Neural Network，2004.

[20]Tsang，I.W.，Kwok，J.T.，and Cheung，P.，Core Vector Machines：Fast SVM Training onVery Large Data Sets，J.of Machine Learning Research，2005，vol.6，pp.363-392.

[21]Vapnik，V.，Statistical Learning Theory，1998，John Wiley.

[22]Yu，H.，Yang，J.，and Han，J.，Classifying Large Data Sets Using SVMs with HierarchicalClusters，InProc.of the ACMSIGKDD Int’l Conf.on Knowledge Discovery and DataMining，2003，pp.306-315.

[23]Yuan，J.，Li，J.，and Zhang，B.，Learning Concepts from Large Scale Imbalanced Data SetsUsing Support Cluster Machines，In Proc.of the ACM Int’l Conf.on Multimedia，2006，pp.441-450.

[24]Zhang，T.，Ramakrishnan，R.，and Livny，M.，BIRCH：An Efficient Data Clustering Methodfor Very Large Databases，In Proc.of the 1996 ACM SIGMOD Int’l Conf.on Managementof Data，1996，pp.103-114.

发明内容

本发明的目的在于提出一种在大规模数据分类问题中快速有效地训练SVM分类器的方法。

本发明提出的训练分类器的方法，遵循了Vapnik提出的经典统计学习框架[21]，并在核空间中解决了高斯模型与特征向量可比性的难题。

本发明的主要思想如下：首先对于用于训练的大规模样本集进行聚类，并根据聚类结果把具有相同标签的样本分别拟合成高斯模型作为训练的基本信息单元，而测试样本仍然保留特征向量的形式用于测试。在训练与测试阶段，同时都需要使用一个兼容的核函数，该核函数不仅可以在训练阶段衡量两个高斯模型之间的相似度，并且可以在测试阶段衡量高斯模型与单个向量之间的相似度。因此，在训练阶段得到的支撑高斯模型可以直接用于决策函数的构造。

本发明所提出的分类器训练方法包括如下步骤：(1)训练样本的聚类；(2)核矩阵的计算；(3)目标函数的优化；(4)决策函数的建立。下面详细介绍上述步骤：

(1)训练样本的聚类

给定一个包含N＝N₊+N_-个训练样本的集合L.＝{(x_i，y_i)}^N _i＝1，其中N₊表示正样本数，N_-表示负样本数，样本(特征向量)x_i∈R^D，其中D为输入空间的维数，标签y_i∈{1，-1}。

在分类器的训练阶段，对N₊个正样本和N_-个负样本首先分别进行聚类，得到K₊个正集群和K₊个负集群，共计K＝K₊+K_-个集群。然后，按照聚类结果的集群标签，把具有相同标签的样本拟合成高斯模型，这样，共得到K₊个正样本高斯模型和K_-个负样本高斯模型，表示为C＝{(Θ_k，y_k}^K _k＝1，其中生成模型Θ_k＝(P_k，μ_k，∑_k)包含了第k个高斯模型的先验概率P_k(权重)、均值μ_k、以及协方差矩阵∑_k，y_k则表示该高斯模型的标签。这里需要指出的是作为训练基本单元的高斯模型的先验概率按照如下公式计算：P_k ⁺＝N_k ⁺/N₊，其中N_k ⁺表示正样本中第k个高斯模型包含的样本数，N₊表示正样本的总数；负样本高斯模型的先验概率按照同样方法计算，即P_k ^-＝N_k ^-/N_-。

在本发明提出的方法中，聚类技术并没有任何限制，聚类算法仅是用来压缩原大规模训练数据的一种降采样手段，任何现有的聚类技术都可以用于训练样本的聚类，如，K均值(K-means)[10]，期望最大化算法(Expectation Maximization)[5]，层次聚类(Hierarchical Clustering)[24]，阈值顺序依赖(Threshold Order-Dependent)[6]等。生成的聚类结果也无需一定要把样本的密度拟合得很好——在大规模数据分类问题中，最重要的是降低计算复杂性。因此，任何高效的聚类技术，只要能够准确地描述出数据在输入空间中的布局(layout)，就可以适用于本发明提出的方法。在说明书的示例中，仅以阈值顺序依赖(Threshold Order-Dependent)算法，简称TOD算法为例。

(2)核矩阵的构建

在对训练样本进行聚类后，需要构建一个K×K的核矩阵，该矩阵中的任意一项元素K_ij则为以第i个与第j个高斯模型作为变量的核函数值。本发明所设计的核函数由概率积核(Probability Product Kernel)[11]演化而来。因此，首先简要介绍在高斯分布下的概率积核。概率积核函数对于分布p_k和p_l有如下形式定义：

κ_{ρ} (p_{k}, p_{l}) = \underset{R^{D}}{&Integral;} p_{k}^{ρ} p_{l}^{ρ} dx - - - (1)

其中k_ρp_k，p_l)正定(positive definite)，而指数ρ如果取不同的值则可以得到一系列候选核。在此，选择ρ＝1以满足构造兼容核函数的需要。

当分布p_k和p_l都为高斯分布时，即p_k＝P_kP(x|μ_k，∑_k)，p_l＝P_lp(x|μ_l，∑_l)，核函数κ(p_k，p_l)可以写成κ(Θ_k，Θ_l)，表示为两个生成模型的函数。κ(Θ_k，Θ_l)可以使用两个高斯模型的参数直接计算(1)，从而避免了在整个输入空间中对概率分布进行积分：

κ (Θ_{k}, Θ_{l}) = P_{k} P_{l} \underset{R^{D}}{&Integral;} p (x | μ_{k}, Σ_{k}) p (x | μ_{l}, Σ_{l}) dx

= P_{k} P_{l} {(2 π)}^{- \frac{D}{2}} | {(Σ_{k}^{- 1} + Σ_{l}^{- 1})}^{- 1} |^{\frac{1}{2}} {| Σ_{k} |}^{- \frac{1}{2}} {| Σ_{l} |}^{- \frac{1}{2}} - - - (2)

\exp (- \frac{1}{2} (μ_{k}^{T} Σ_{k}^{- 1} μ_{k} + μ_{l}^{T} Σ_{l}^{- 1} μ_{l} - {\tilde{μ}}^{T} {\tilde{Σ}}^{- 1} \tilde{μ}))

其中

{\tilde{Σ}}^{- 1} = {(Σ_{k}^{- 1} + Σ_{l}^{- 1})}^{- 1},

\tilde{μ} = Σ_{k}^{- 1} μ_{k} + Σ_{l}^{- 1} μ_{l},

上标T表示矩阵或者向量的转置。

在实际应用中，可以仅使用高斯模型协方差矩阵的对角线元素进行计算，即∑_k＝diag((σ_k ⁽¹⁾)²，...，(σ_k ^(D) ₂)，以此达到避免在公式(2)中计算逆矩阵的目的。当仅使用协方差矩阵对角线元素时，核函数变为：

κ (Θ_{k}, Θ_{l}) = \frac{P_{k} P_{l}}{Π_{d = 1}^{D} \sqrt{2 π ({(σ_{k}^{(d)})}^{2} + {(σ_{l}^{(d)})}^{2})}} \exp {- \frac{1}{2} Σ_{d = 1}^{D} \frac{{(μ_{k}^{(d)} - μ_{l}^{(d)})}^{2}}{{(σ_{k}^{(d)})}^{2} + {(σ_{l}^{(d)})}^{2}}} . - - - (3)

本发明中提出的兼容核函数不仅能够衡量高斯模型之间的相似度，还能够衡量高斯模型与单个向量之间的相似度。在决策函数中，测试样本x可以看作是高斯分布的一个极端情况，即其协方差矩阵为零矩阵，而先验概率为常量1。在这种情况下，有如下结论：给定两个高斯模型Θ_k和Θ_l，如果P_i＝1，并且协方差矩阵∑_l趋向于零矩阵，即∑_l→0，则核函数(2)的极限变为μ_l在高斯分布Θ_k下的后验概率：

\lim_{Σ_{l} &RightArrow; 0} E_{p_{l}} [p_{k}] = P_{k} P_{l} p (μ_{l} | μ_{k}, Σ_{k}) \lim_{Σ_{l} &RightArrow; 0} {&Integral;}_{μ_{l}^{ϵ}} p (x | μ_{l}, Σ_{l}) dx

= P_{k} p (μ_{l} | μ_{k}, Σ_{k}) - - - (4)

其中μ_l ^ε表示以μ_l为中心的ε开邻域。

把公式(4)中的Θ_l替换为测试样本Θ_x，可以得到如下用于决策函数的核函数：

κ(Θ_k，Θ_x)＝P_kp(x|μ_k，∑_k) (5)

为了在实际应用中更加简便，公式(5)也可以仅使用协方差矩阵的对角线元素进行近似表达：

κ (Θ_{k}, Θ_{x}) = P_{k} Π_{d = 1}^{D} \frac{1}{\sqrt{2 π} σ_{k}^{(d)}} \exp {- \frac{1}{2} Σ_{d = 1}^{D} \frac{{(μ_{k}^{(d)} - x^{(d)})}^{2}}{{(σ_{k}^{(d)})}^{2}}} . - - - (6)

(3)目标函数的优化

核矩阵构造完之后，就需要把其代入目标函数并对目标函数进行优化。在训练的基本单元为高斯模型的情况下，所有用于训练的高斯模型必须满足如下约束条件：

y_kW^Tφ(Θ_k)+b)≥1-ξ_k，k＝1，...，K (7)

其中Φ(.)表示映射函数，该函数可以把生成模型映射到无限维的概率分布空间，常数b为线性函数的偏置(bias)。

与支撑向量机[21]类似，本发明提出的方法同样遵循结构化风险最小化(SRM)准则。该准则通过把一个正则化项引入代价函数达到最小化VC维的目的，这又等价于最大化正负高斯模型训练集之间的边界：

\min_{w, b, ξ} \frac{1}{2} w^{T} w + C Σ_{k = 1}^{K} P_{k} ξ_{k} - - - (8)

其中常数C为结构化风险最低(Structural Risk Minimization)目标函数的权衡(tradeoff)参数，松弛变量ξ_k乘上权重P_k(第k个高斯模型的先验概率)的目的为使错分的高斯模型得到与它所包含样本数量等比例的惩罚，即包含样本较多的高斯模型一旦分错将会得到更多的惩罚。

综合约束条件(7)以及如下约束条件：ξ_k≥0，k＝1，...，K，代价函数(8)可以表示为带约束的优化问题，即原始拉格朗日(Primal Lagrangian)问题。然后，原始拉格朗日问题可以转化成对偶表示(Dual Representation)，其表达形式为：

\max_{α} Σ_{k = 1}^{K} α_{k} - \frac{1}{2} Σ_{k = 1}^{K} Σ_{l = 1}^{K} y_{k} y_{l} α_{k} α_{l} κ (Θ_{k}, Θ_{l}) - - - (9)

s.t.0≤α_k≤P_kC， k＝1，...，K

Σ_{k = 1}^{K} α_{k} y_{k} = 0 .

至此，分类器目标函数的优化问题已经转化为一个常见的带约束的二次规划问题，可以使用多种数值方法进行求解，求解后可以得到一组系数α_k，k＝1，...，K的值，其中非负值即对应为支撑高斯模型，可用于决策函数的建立。

(4)决策函数的建立

在上一步解决目标函数的优化问题后，可以得到系数序列α_k，k＝1，....，K。在决策函数中，测试样本(向量)x可看作为高斯模型Θ_x在极端条件下的情况，即其协方差矩阵退化为零矩阵，参数表示为Θ_x＝(P_x＝1，μ_x＝x，∑_x＝0)。然后，测试样本x就可以使用如下决策函数进行预测(即为x在高斯分布Θ_k下的后验概率)：

f (x) = sgn (Σ_{k = 1}^{K} α_{k} y_{k} P_{k} p (x | μ_{k}, Σ_{k}) + b) . - - - (10)

根据上述思想，本发明提出的分类器训练方法，具体步骤如下：

(1)、训练样本的聚类。对于用于训练的大规模样本进行聚类，根据聚类结果，把具有相同标签的样本分别拟合成高斯模型，作为训练的基本信息单元；而测试样本仍然保持向量的形式用于测试。

(2)、核矩阵的构建。使用步骤(1)中得到的K个高斯模型构建一个K×K的核矩阵，其中每个元素根据公式(2)或公式(3)计算得到。

(3)、目标函数的优化。使用步骤(2)中得到的核矩阵建立带约束的二次规划问题，即公式(9)，使用数值方法求解该二次规划问题，可得到系数α_k，k＝1，...，K的值。

(4)、决策函数的建立。把从步骤(3)中得到的系数a_k，k＝1，...，K，代入公式(10)，即可得到分类器的决策函数，使用该决策函数对测试样本X进行预测。。

本发明所提出的分类器训练方法主要针对于大规模数据分类问题中的应用。对于时间复杂性，目前用于大规模数据分类器训练的方法在训练阶段的时间复杂度一般处于O(logNN²)到O(N³)之间，而本发明所提出的方法在训练阶段可以把时间复杂度降低到O(NK+K³)，其中N为训练集总样本数，K为训练样本经过聚类后所得到的高斯模型数，并且K＜＜N。例如，如果N＝10000，K＝100，则其它方法的时间复杂度为O(10¹⁰)到O(10¹²)之间，而本发明所提出的方法仅为O(10⁶)。而且，本方法在时间复杂性上的优势会随着N数量级的增大越来越显著。在测试阶段，由于一般情况下该方法训练所得到的支撑高斯模型数会比支撑向量机所得到的支撑向量数少很多，所以本方法在测试阶段的时间复杂性也会在一定程度上降低。对于空间复杂性，一般分类器(不使用分解、增量技术)都需要存储一个N×N的矩阵，即空间复杂度为O(N²)，而本发明所提出的方法在训练阶段可以把空间复杂度降低到O(K²)，N与K定义同前。例如，如果N＝10000，K＝100，并且存储矩阵的数据类型为双精度型(8个字节)，则一般方法需要约800M的内存，在真实应用场景中，样本数远不止这些，这就意味着，一般的PC机根本就无法胜任分类器的训练任务；而本方法则只需要80K的内存。

本发明方法可应用于多个领域，如多媒体信息检索、生物信息识别、金融信息处理等。

具体实施方式

为了演示本发明中所提出的分类器训练方法的直观效果，并且说明该方法的有效性，这里使用该方法对一个在二维空间中生成的模拟数据集进行训练(见附图1)。该模拟数据集根据预定义的某高斯混合模型的分布生成2500个正样本(用符号“+”表示)和2500个负样本(用符号“x”表示)。分类器的具体训练步骤如下：

1、使用TOD聚类算法分别对正样本集与负样本集分别聚类，得到25个正样本集群和25个负样本集群，并根据集群标签把具有相同标签的样本拟合成高斯模型，并分别计算其权重、均值、以及协方差矩阵(图中椭圆形即表示作为基本训练单元的高斯模型，其大小与权重成正比，其中心位置为均值，其形状表示协方差矩阵)。

2、基于步骤1中得到的50个高斯模型构造一个50×50的核矩阵，矩阵中的第i行第j列中的元素为第i行个与第j个高斯模型的相似度由公式(3)计算得到。

3、把步骤2中得到的核矩阵代入公式(9)，求解带约束的二次规划问题，得到系数序列α_k，k＝1，...，K。图中黑体椭圆表示支撑高斯模型，它们所对应的α值均大于零。

4、使用步骤3中得到的支撑高斯模型根据公式(10)构建决策函数。把坐标系中的所有点代入，计算得到的结果如图1所示，淡灰色区域为-1≤f(x)＜0，深灰色区域为0≤f(x)≤1。

从这个例子可以看出，通过将样本事先聚类并使用得到的高斯模型作为训练的基本单元，可以显著降低样本数量，同时保持原有的统计信息。另外，该方法由于同样遵循了边界最大化准则，其分类面与其它同类分类器一样尽量拉开正负样本之间的边界。

Claims

1.一种用于在大规模数据分类问题中训练SVA分类器的方法，其特征在于具体步骤如下：

(1)训练样本的聚类

给定一个包含N＝N₊+N_-个训练样本的集合

L = {(x_{i}, y_{i})}^{N}_{i = 1},

其中N₊表示正样本数，N_-表示负样本数，样本x_i∈R^D，其中D为输入空间的维数，标签y_i∈{1，-1}；

在分类器的训练阶段，对N₊个正样本和N_-个负样本首先分别进行聚类，得到K₊个正集群和K_-个负集群，共计K＝K₊+K_-个集群；然后，按照聚类结果的集群标签，把具有相同标签的样本拟合成高斯模型，这样，共得到K₊个正样本高斯模型和K_-个负样本高斯模型，表示为C＝{(Θ_k，y_k)}^K _k＝1，其中生成模型Θ_k＝(P_k，μ_k，∑_k)包含了第k个高斯模型的先验概率P_k、均值μ_k、以及协方差矩阵∑_k，y_k则表示该高斯模型的标签；这里，作为训练基本单元的高斯模型的先验概率按照如下公式计算：P_k ⁺＝N_k ⁺/N₊，其中N_k ⁺表示正样本中第k个高斯模型包含的样本数，N₊表示正样本的总数；负样本高斯模型的先验概率按照同样方法计算，即P_k ^-＝N_k ^-/N_-；

(2)核矩阵的构建

使用步骤(1)中得到的K个高斯模型构建一个K×K的核矩阵，其中每个元素根据公式(2)或公式(3)计算得到：

κ (Θ_{k}, Θ_{l}) = P_{k} P_{l} \underset{R^{D}}{&Integral;} p (x | μ_{k}, Σ_{k}) p (x | μ_{l}, Σ_{l}) dx

= P_{k} P_{l} {(2 π)}^{- \frac{D}{2}} {| {(Σ_{k}^{- 1} + Σ_{l}^{- 1})}^{- 1} |}^{\frac{1}{2}} {| Σ_{k} |}^{- \frac{1}{2}} {| Σ_{l} |}^{- \frac{1}{2}}

\exp (- \frac{1}{2} (μ_{k}^{T} Σ_{k}^{- 1} μ_{k} + μ_{l}^{T} Σ_{l}^{- 1} μ_{l} - {\tilde{μ}}^{T} {\tilde{Σ}}^{- 1} \tilde{μ})) - - - (2)

其中

{\tilde{Σ}}^{- 1} = {(Σ_{k}^{- 1} + Σ_{l}^{- 1})}^{- 1},

\tilde{μ} = Σ_{k}^{- 1} μ_{k} + Σ_{l}^{- 1} μ_{l},

上标T表示矩阵或者向量的转置。

κ (Θ_{k}, Θ_{l}) = \frac{P_{k} P_{l}}{Π_{d = 1}^{D} \sqrt{2 π ({(σ_{k}^{(d)})}^{2} + {(σ_{l}^{(d)})}^{2})}} \exp {- \frac{1}{2} Σ_{d = 1}^{D} \frac{{(μ_{k}^{(d)} - μ_{l}^{(d)})}^{2}}{{(σ_{k}^{(d)})}^{2} + {(σ_{l}^{(d)})}^{2}}} . - - - (3)

这里，σ_k ^(d)，σ_l ^(d)分别为高斯型协方差矩阵∑k和∑l的第d个对角线元素；

(3)目标函数的优化

使用步骤(2)中得到的核矩阵建立带约束的二次规划问题，即公式(9)，使用数值方法求解该二次规划问题，得到系数α_k，k＝1，...，K的值：

\max_{α} Σ_{k = 1}^{K} α_{k} - \frac{1}{2} Σ_{k = 1}^{K} Σ_{l = 1}^{K} y_{k} y_{l} α_{k} α_{l} κ (Θ_{k}, Θ_{l}) - - - (9)

s.t.0≤α_k≤P_kC，k＝1，...，K

Σ_{k = 1}^{K} α_{k} y_{k} = 0 .

(4)决策函数的建立

把从步骤(3)中得到的系数α_k，k＝1，...，K，代入公式(10)，即可得到分类器的决策函数，使用该决策函数对测试样本X进行预测：

f (x) = sgn (Σ_{k = 1}^{K} α_{k} y_{k} P_{k} p (x | μ_{k}, Σ_{k}) + b) . - - - (10) .