CN103020711A

CN103020711A - 分类器训练方法及其系统

Info

Publication number: CN103020711A
Application number: CN2012105727719A
Authority: CN
Inventors: 吕俊超; 黄哲学
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2013-04-03

Abstract

本发明提供一种分类器训练方法及其系统，所述方法包括以下步骤：根据带有类别标记的训练样本集，确定分类器的准则函数；根据所述训练样本集，采用随机梯度下降法对所述准则函数运行n1次迭代，获取所述准则函数的初步权重，其中，n1等于所述训练样本集的样本个数；在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数迭代直到收敛，获取所述准则函数的最终权重；根据所述最终权重获取线性判别函数，建立分类器。本发明能够提高优化方法的收敛速度，从而提高分类器的训练速度，并且不会降低分类器的准确率。

Description

分类器训练方法及其系统

技术领域

本发明涉及数据挖掘领域的技术领域，特别是涉及一种分类器训练方法，以及一种分类器训练系统。

背景技术

基于分类器的线性分类方法在机器学习，数据挖掘领域扮演着重要的角色，并在如文本文类，信用卡风险控制等应用表现出较好的实际效果。

分类器可以分为训练和预测两个步骤：

训练：对于一组有类别标记的样本集{x_i,y_i}，i＝1,...n,x_i∈R^d,y_i∈{-1,1}，确定准则函数f(w)，其中，f(w)为关于x、y、w的函数，并通过优化方法获得f(w)的权重的极值解w*，从而得到线性判别函数g(x)=(w*)Tx。

预测：对于未知类别的样本x_k，根据所述g(x_k)的取值对所述未知类别的样本进行分类。

在分类器的训练过程中，训练速度是非常重要的指标，分类器的训练过程中常用的优化方法主要有两种：批量式学习(batch learning)和随机学习(stochastic learning)。

批量式学习法在每次求取收敛下降方向时需要涉及到所有样本，从而保证很好的收敛特性。有限内存BFGS方法（limited-memory BFGS）属于批量式学习方法，由于其准确率高，运行速度快等优点近些年来备受欢迎。

随机学习法在每一步学习中只需要对随机挑选出部分样本进行学习，特别是随机梯度法(stochastic gradient descent,SGD)，每次选择一个样本来求取梯度下降方向。

然而，随着对分类器训练速度的要求提高，上述两种优化方法的收敛速度越来越不能满足快速学习的需求，如何提高训练速度一直是技术人员亟待解决的技术难题。

发明内容

针对上述背景技术中存在的问题，本发明的目的在于提供一种分类器训练方法及其系统，提高优化方法的收敛速度，进一步提高分类器训练速度。

一种分类器训练方法，包括：

根据带有类别标记的训练样本集，确定分类器的准则函数；

根据所述训练样本集，采用随机梯度下降法对所述准则函数运行n1次迭代，获取所述准则函数的初步权重，其中，n1等于所述训练样本集的样本个数；

在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数迭代直到收敛，获取所述准则函数的最终权重；

根据所述最终权重获取线性判别函数，建立分类器。

一种分类器训练系统，包括：

分类器定义模块，用于根据带有类别标记的训练样本集，确定分类器的准则函数；

随机学习模块，用于根据所述训练样本集，采用随机梯度下降法对所述准则函数运行n1次迭代，获取所述准则函数的初步权重，其中，n1等于所述训练样本集的样本个数；

批量学习模块，用于在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数迭代直到收敛，获取所述准则函数的最终权重；

分类器模块，用于根据所述最终权重获取线性判别函数，建立分类器。

本发明分类器训练方法及其系统通过采用两种不同的优化方法的结合，使优化方法的收敛速度更高，大大提高了分类器的训练速度。现有的两种优化方法，分别是随机梯度下降法和有限内存BFGS方法，但这两种方法具有各自不同的收敛特性，本领域技术人员难以找到合适的方法将这两种不同的优化方法结合，并且能够提高收敛速度。而如果随便将这两种方法结合，可能达到的效果不是提高收敛速度而是反而降低了收敛速度。本发明的分类器训练方法是通过理论推导和大量实验验证，得到随机梯度下降法和有限内存BFGS方法结合的最合适方法是先采用随机梯度下降法对所述准则函数运行n1次迭代，其中，n1等于训练样本集的样本个数，然后再在此基础上采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛。实验证明，通过本发明的方法将两种优化算法结合能够大大提高收敛速度，从而提高分类器的训练速度，并且不会降低分类器的准确率。

附图说明

图1是本发明分类器训练方法的流程示意图；

图2是有限内存BFGS方法和随机梯度下降法的收敛速度示意图；

图3为本发明分类器训练方法一种优选实施方式执行随机梯度下降法获得初步权重的流程示意图；

图4为本发明分类器训练方法一种优选实施方式执行有限内存BFGS方法获得最终权重的流程示意图；

图5是本发明分类器训练系统的结构示意图；

图6为本发明分类器训练系统一种优选实施方式中随机学习模块的结构示意图；

图7为本发明分类器训练系统一种优选实施方式中批量学习模块的结构示意图。

具体实施方式

请参阅图1，图1是本发明分类器训练方法的流程示意图。

所述分类器训练方法，包括以下步骤：

S101，根据带有类别标记的训练样本集，确定分类器的准则函数；

S102，根据所述训练样本集，采用随机梯度下降法对所述准则函数运行n1次迭代，获取所述准则函数的初步权重，其中，n1等于所述训练样本集的样本个数；

S103，在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛，获取所述准则函数的最终权重；

S104，根据所述最终权重获取线性判别函数，建立分类器。

本发明分类器训练方法提高了优化方法的收敛速度，进一步提高分类器训练速度，而又不会降低分类器的准确率。

其中，对于步骤S101，首先设定所述分类器的准则函数。所述训练样本集为分类器的训练样本的集合，所述类别标记用于标记所述样本的类别，通过对所述训练样本集中的样本的学习，训练分类器。设线性可分的样本集{x_i,y_i},i＝1,...n，x_i∈R^d,y_i∈{-1,1}，将分类器的准则函数设置为：

f (w) = \frac{λ}{2} {| | w | |}^{2} + \frac{1}{n} Σ_{i = 1}^{n} ξ (w; x_{i}, y_{i})

则训练线性分类器，需要求解下式最小值优化问题：

\min_{w} f (w) = \frac{λ}{2} {| | w | |}^{2} + \frac{1}{n} Σ_{i = 1}^{n} ξ (w; x_{i}, y_{i}) - - - (1)

其中，参数λ＞0，而ξ(w;x_i,y_i)对于支持向量机(support vector machine,SVM)而言是max(0,1-y_iw^Tx_i)，而对于逻辑斯蒂回归(logistic regression,LR)而言是log(1+e^(-y_iw^Tx_i))。

我们将式(1)重写为：

\min_{w} f (w) = \frac{1}{n} Σ_{i = 1}^{n} (\frac{λ}{2} {| | w | |}^{2} + ξ (w; x_{i}, y_{i})) - - - (2)

因而

f_{i} (w) = \frac{λ}{2} {| | w | |}^{2} + ξ (w; x_{i}, y_{i}) - - - (3)

对于步骤S102和S103，首先执行随机梯度下降法对所述训练样本集，运行n1次迭代，迭代的次数n1的取值通过理论推导和实验验证，等于所述训练样本集的样本个数。

然后在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛，获取所述准则函数的最终权重。

通过实验验证以及对随机梯度下降法和有限内存BFGS方法的研究，我们了解到有限内存BFGS方法虽然能达到比较好的收敛效果，但每次迭代时间开销较大，训练时间长。而随机梯度下降法虽然每次迭代时间开销小，但不能保证收敛。

另外，就收敛速度而言，有限内存BFGS方法（LBFGS）为O(rt)，其中0＜r＜1，而随机梯度下降法（SGD）为O(1/t)。从图2中可以看出，存在一个时间点t0，当t＜t0，随机梯度下降法比有限内存BFGS方法收敛得快，而当t＞t0，有限内存BFGS方法比随机梯度下降法收敛得快。

通过研究上述两个优化方法的收敛速度，并通过理论证明和大量的实验表明:先使用随机梯度下降法执行n1迭代，再执行有限内存BFGS方法继续迭代直到收敛，并且当n1=n，n为样本个数时，优化收敛速度和效果最佳。使本发明既能够减少迭代次数，又要能保证收敛，从而加快了收敛速度。

所述随机梯度下降法以及所述有限内存BFGS方法的迭代执行可以参考其本身的运行方法。图3为本发明分类器训练方法一种优选实施方式执行随机梯度下降法获得初步权重的流程示意图。

在本实施方式中，所述步骤S102包括以下子步骤：

S201，设定所述准则函数的第一权重w_t，所述第一权重w_t的初始值为w₀（t=0）；

S202，根据所述第一权重对所述准则函数进行迭代f_i(w)，根据所述样本集中随机选取的一个样本，求取所述准则函数的一阶导数

根据所述一阶导数

以及预先设定的学习率η_t，设定下一次迭代的第一权重：

w_{t + 1} = w_{t} + η_{t} &dtri; f_{t} (w_{t});

S203，判断迭代次数t是否小于n1，如果是，则重新对所述准则函数进行迭代，直到所述迭代的次数t等于n1时，获取对应的所述第一权重w_t作为所述初步权重。

请参阅图4，图4为本发明分类器训练方法一种优选实施方式执行有限内存BFGS方法获得最终权重的流程示意图。

在本实施方式中，所述步骤S103包括以下子步骤：

S301，设定所述准则函数的第二权重w_t、对应的下降方向d_t以及hessian矩阵H_t，所述第一权重w_t的初始值等于所述初步权重，所述下降方向d_t的初始值为d₀；所述hessian矩阵H_t的初始值为H₀；

S302，根据所述第二权重w_t对所述准则函数f_i(w)进行迭代，根据所述样本集中的所有样本，求取所述准则函数的一阶导数

S303，判断所述一阶导数是否小于预设的收敛阈值N；如果小于所述预设的收敛阈值，则获取此次迭代中所述准则函数的第二权重w_t作为所述最终权重；否则，根据所述准则函数的一阶导数修改所述下降方向以及hessian矩阵，其中，所述下降方向

由前次迭代结果估算得出；根据修改后的所述下降方向、hessian矩阵以及预设的学习率η_t计算下一次迭代的第二权重w_t+1＝w_t+η_td_t。然后，根据下一次迭代的第二权重以及所述样本集重新计算所述准则函数的一阶导数，直到所述准则函数的一阶导数小于所述预设的收敛阈值。

本发明分别提供了以上运行所述随机梯度下降法以及所述有限内存BFGS方法的优选实施方式，并不构成对本发明的范围的限制。本领域技术人员可根据本发明的说明完善或以其他方式执行随机梯度下降法以及所述有限内存BFGS方法。

对于上述步骤S104，在获得所述最终权重之后，将所述最终权重代入上述公式（3），则可获得本发明分类器的线性判别函数。从而根据所述线性判别函数建立相应的分类器。

作为本发明的一种优选实施方式，在建立分类器之后，进一步包括应用所述分类器对输入所述分类器的待处理样本进行分类的步骤，具体包括：

根据输入分类器的待处理样本，计算所述线性判别函数的取值；

如果所述取值大于零，则将所述待处理样本划分为正类；如果所述取值小于零，则将所述待处理样本划分为负类。

本发明的分类器训练方法所克服的技术难点是如何能够将现有技术的两种优化算法最恰当地结合，亦即是确定初步权重的迭代次数n1的数值。通过理论推导和实验证明n1等于样本个数时收敛效果大大提高。

可通过理论和实验验证对本发明的分类器训练方法的效果进行验证：一方面，从理论证明上来看，通过推导本发明的分类器训练方法的收敛速度，然后分别将其与只采用随机梯度下降法或者有限内存BFGS的收敛速度相比较，推导结果表明本发明的分类器训练方法表现出相对最优的收敛效果；另一方面，从实验验证上来看，我们将本发明的分类器训练方法应用于支持向量机和逻辑斯蒂回归，分别在3组真实数据上，将本发明与随机梯度下降法、有限内存BFGS进行对比实验，得到的结果是随机梯度下降法不能收敛，而相比有限内存BFGS方法而言，本发明的分类器训练方法的收敛速度平均提高40%。

请参阅图5，图5是本发明分类器训练系统的结构示意图。

所述分类器训练系统，包括：

分类器定义模块11，用于根据带有类别标记的训练样本集，确定分类器的准则函数；

随机学习模块12，用于根据所述训练样本集，采用随机梯度下降法对所述准则函数运行n1次迭代，获取所述准则函数的初步权重，其中，n1等于所述训练样本集的样本个数；

批量学习模块13，用于在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛，获取所述准则函数的最终权重；

分类器模块14，用于根据所述最终权重获取线性判别函数，建立分类器。

其中，所述训练样本集为分类器的训练样本的集合，所述类别标记用于标记所述样本的类别，通过对所述训练样本集中的样本的学习，训练分类器。

所述分类器定义模块11根据学习的训练样本集设定分类器的准则函数。设线性可分的样本集{x_i,y_i}，i＝1，...n,x_i∈R^d,y_i∈{-1,1}，将分类器的准则函数设置为：

f (w) = \frac{λ}{2} {| | w | |}^{2} + \frac{1}{n} Σ_{i = 1}^{n} ξ (w; x_{i}, y_{i})

则训练线性分类器，需要求解下式最小值优化问题：

\min_{w} f (w) = \frac{λ}{2} {| | w | |}^{2} + \frac{1}{n} Σ_{i = 1}^{n} ξ (w; x_{i}, y_{i}) - - - (1)

其中，参数λ＞0，而ξ(w;x_i,y_i)对于支持向量机(support vector machine,SVM)而言是max(0，1-y_iw^Tx_i)，而对于逻辑斯蒂回归(logistic regression,LR)而言是log(1+e^(-y_iw^Tx_i))。

我们将式(1)重写为：

\min_{w} f (w) = \frac{1}{n} Σ_{i = 1}^{n} (\frac{λ}{2} {| | w | |}^{2} + ξ (w; x_{i}, y_{i})) - - - (2)

因而

f_{i} (w) = \frac{λ}{2} {| | w | |}^{2} + ξ (w; x_{i}, y_{i}) - - - (3)

然后，所述随机学习模块12首先执行随机梯度下降法对所述训练样本集，运行n1次迭代，迭代的次数n1的取值通过理论推导和实验验证，等于所述训练样本集的样本个数。

所述批量学习模块13在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛，获取所述准则函数的最终权重。

请参阅图6，图6为本发明分类器训练系统一种优选实施方式中随机学习模块的结构示意图。

在本实施方式中，所述随机学习模块12包括以下子模块：

第一初始化模块201，用于设定所述准则函数的第一权重；

随机迭代模块202，用于根据所述第一权重对所述准则函数进行迭代，根据所述样本集中随机选取的一个样本，求取所述准则函数的一阶导数；

初步权重获取模块203，用于根据所述一阶导数以及预先设定的学习率，设定下一次迭代的第一权重，重新对所述准则函数进行迭代，直到所述迭代的次数等于n1时，获取对应的所述第一权重作为所述初步权重。

请参阅图7，图7为本发明分类器训练系统一种优选实施方式中批量学习模块的结构示意图。

在本实施方式中，所述批量学习模块13包括以下子模块：

第二初始化模块301，用于设定所述准则函数的第二权重、对应的下降方向以及hessian矩阵；其中，所述第二权重的初始值等于所述初步权重；

批量迭代模块302，用于根据所述第二权重对所述准则函数进行迭代，根据所述样本集中的所有样本，求取所述准则函数的一阶导数；

判断模块303，用于判断所述一阶导数是否小于预设的收敛阈值；

最终权重获取模块304，用于在所述一阶导数小于所述预设的收敛阈值时，获取此次迭代中所述准则函数的第二权重作为最终权重；否则，根据所述准则函数的一阶导数修改所述下降方向以及hessian矩阵，根据修改后的所述下降方向、hessian矩阵以及预设的学习率计算下一次迭代的第二权重，根据下一次迭代的第二权重以及所述样本集重新计算所述准则函数的一阶导数，直到所述准则函数的一阶导数小于所述预设的收敛阈值。

所述分类器模块在获得所述最终权重之后，所述分类器模块14将所述最终权重代入上述公式（3），则可获得本发明分类器的线性判别函数。从而根据所述线性判别函数建立相应的分类器。

作为本发明的一种优选实施方式，在所述分类器模块建立分类器之后，可进一步应用所述分类器对输入所述分类器的待处理样本进行分类，因此，本发明的分类器训练系统可进一步包括：分类模块，所述分类模块用于根据输入分类器的待处理样本，计算所述线性判别函数的取值；如果所述取值大于零，则将所述待处理样本划分为正类；如果所述取值小于零，则将所述待处理样本划分为负类。

本领域普通技术人员可以理解实现上述实施方式中的全部或部分流程以及对应的系统，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施方式的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种分类器训练方法，其特征在于，包括以下步骤：

获取有类别标记的训练样本集；

确定分类器的准则函数；

在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛，获取所述准则函数的最终权重；

根据所述最终权重获取线性判别函数，建立分类器。

2.如权利要求1所述的分类器训练方法，其特征在于，进一步包括对输入所述分类器的待处理样本进行分类的步骤，具体包括：

3.如权利要求1所述的分类器训练方法，其特征在于，采用随机梯度下降法对所述准则函数运行n1次迭代，获得所述准则函数的初步权重的步骤包括：

设定所述准则函数的第一权重；

根据所述第一权重对所述准则函数进行迭代，根据所述样本集中随机选取的一个样本，求取所述准则函数的一阶导数；

根据所述一阶导数以及预先设定的学习率，设定下一次迭代的第一权重，重新对所述准则函数进行迭代，直到所述迭代的次数等于n1时，获取对应的所述第一权重作为所述初步权重。

4.如权利要求1至3任一项所述的分类器训练方法，其特征在于，在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛，获取所述准则函数的最终权重的步骤包括：

设定所述准则函数的第二权重、对应的下降方向以及hessian矩阵；其中，所述第二权重的初始值等于所述初步权重；

根据所述第二权重对所述准则函数进行迭代，根据所述样本集中的所有样本，求取所述准则函数的一阶导数；

判断所述一阶导数是否小于预设的收敛阈值；

如果小于所述预设的收敛阈值，则获取此次迭代中所述准则函数的第二权重作为最终权重；

否则，根据所述准则函数的一阶导数修改所述下降方向以及hessian矩阵，根据修改后的所述下降方向、hessian矩阵以及预设的学习率计算下一次迭代的第二权重，根据下一次迭代的第二权重以及所述样本集重新计算所述准则函数的一阶导数，直到所述准则函数的一阶导数小于所述预设的收敛阈值。

5.一种分类器训练系统，其特征在于，包括：

样本模块，用于获取有类别标记的训练样本集；

分类器定义模块，用于确定分类器的准则函数；

批量学习模块，用于在所述初步权重的基础上，采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛，获取所述准则函数的最终权重；

6.如权利要求5所述的分类器训练系统，其特征在于，进一步包括分类模块，所述分类模块用于根据输入分类器的待处理样本，计算所述线性判别函数的取值；如果所述取值大于零，则将所述待处理样本划分为正类；如果所述取值小于零，则将所述待处理样本划分为负类。

7.如权利要求5所述的分类器训练系统，其特征在于，所述随机学习模块包括：

第一初始化模块，用于设定所述准则函数的第一权重；

随机迭代模块，用于根据所述第一权重对所述准则函数进行迭代，根据所述样本集中随机选取的一个样本，求取所述准则函数的一阶导数；

初步权重获取模块，用于根据所述一阶导数以及预先设定的学习率，设定下一次迭代的第一权重，重新对所述准则函数进行迭代，直到所述迭代的次数等于n1时，获取对应的所述第一权重作为所述初步权重。

8.如权利要求5至7任一项所述的分类器训练系统，其特征在于，所述批量学习模块包括：

第二初始化模块，用于设定所述准则函数的第二权重、对应的下降方向以及hessian矩阵；其中，所述第二权重的初始值等于所述初步权重；

批量迭代模块，用于根据所述第二权重对所述准则函数进行迭代，根据所述样本集中的所有样本，求取所述准则函数的一阶导数；

判断模块，用于判断所述一阶导数是否小于预设的收敛阈值；

最终权重获取模块，用于在所述一阶导数小于所述预设的收敛阈值时，获取此次迭代中所述准则函数的第二权重作为最终权重；否则，根据所述准则函数的一阶导数修改所述下降方向以及hessian矩阵，根据修改后的所述下降方向、hessian矩阵以及预设的学习率计算下一次迭代的第二权重，根据下一次迭代的第二权重以及所述样本集重新计算所述准则函数的一阶导数，直到所述准则函数的一阶导数小于所述预设的收敛阈值。