CN1245696C

CN1245696C - 融合关键词学习的支持向量机文本分类增量训练学习方法

Info

Publication number: CN1245696C
Application number: CN 03145419
Authority: CN
Inventors: 孙晋文
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Inst Of Computer Science & Technology Peking University
Current assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Inst Of Computer Science & Technology Peking University
Priority date: 2003-06-13
Filing date: 2003-06-13
Publication date: 2006-03-15
Anticipated expiration: 2023-06-13
Also published as: CN1460947A

Abstract

本发明属于智能信息处理技术，具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。现有的方法忽略了随着增量训练而应有的文档关键词的学习问题，使得增量训练效果要低于非增量的一次性训练。本发明针对关键词在训练中的重要作用，提出了同步考虑关键词“增量”学习的方法，在增量训练过程中，同时进行分类关键词的学习与调节，从而消除了增量训练相对于一次性训练的不足。本发明所提出的融合关键词学习的增量训练方法可获得与一次性训练相一致的分类精度，优于没有进行关键词学习的方法。

Description

融合关键词学习的支持向量机文本分类增量训练学习方法

技术领域

本发明属于智能信息处理技术，更进一步是关于文本的分类处理的技术，具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。

背景技术

随着网络、信息化技术的快速发展，数字化文档信息的极大丰富，对文本、资料、网页等的分类处理已成为信息处理的在重要技术手段。对于文本分类来说，支持向量机方法(support vector machine，SVM)是目前最有效的方法之一，1998年Joachims在文献“Text Categorization with Support VectorMachines：Learning with Many Relevant Features”(In Proceedings of theEuropean Conference on Machine Learning，Berlin，Springer，1998)中验证了其在文本分类中的优异性能，对于支持向量机这一新的机器学习方法来说，相对于其性能的有效性同时，也具有训练过程复杂，对内存等资源占用大等缺点，因此，从其提出开始，人们就研究各种不同改进训练算法来改进其训练过程。

相对于传统一次性训练来说，增量训练技术是对其在应用中的进一步发展，正逐步受到更广泛的研究与关注，增量训练方法将传统的一次性集中训练转化为增量式、渐进式的训练学习，克服了一次性训练对内存资源占用大、没有持续训练学习能力等缺点，因而，增量训练学习方法大大扩展了分类模型的能力，提高了训练的灵活性与适应性，以及在实际应用中的学习能力。并且，相比于其它机器学习技术，支持向量机方法具有更良好的扩展性，及一般模型所不具备的优秀的增量学习的能力，这为支持向量机增量训练技术的研究应用提供了巨大的前景。1999年，Nadeem等在“Incremental Learningwith Support Vector Machines.(In Proc.of the Int.Joint Conf.on ArtificialIntelligence(IJCAI)，1999)中采用增量学习方法对两类支持向量机分类进行了研究，在每次增量时将上一次训练获得的支持向量与新增训练文档一起进行训练优化，实验获得了与非增量训练基本相近但略低的分类精度，2001年Cauwenberghs等在“Incremental and Decremental Support Vector MachineLearning，”(Adv.Neural Information Processing Systems，Cambridge MA：MIT Press，Vol.13，2001)从理论上分析了进行增量训练时支持向量全局优化的方法，同年，Ralaivola在“Incremental Support Vector Machine Learning”(a Local Approach.In Proceedings of ICANN′01，Springer，2001)中探讨了一种采用径向基函数(RBF)为核函数的支持向量机进行局部增量训练的优化策略，在该研究中仅仅采用新增训练数据周围数据作为工作子集的方法来进行优化训练，避免对全部数据参数的再学习，以上研究的重点都是集中在支持向量重新优化的问题上，是基于SVM本身的增量训练特性的研究。

发明内容

本方法是针对目前SVM文本分类增量训练中，由于仅仅考虑支持向量本身优化的问题，而导致增量训练效果比一次性训练分类精度略低这一现象，结合增量训练与一次性训练在分类关键词上所存在的差异，提出在增量学习过程中，同时进行文档关键词“增量”学习的方法，以达到消除二者的差异，从而使增量训练达到与一次性训练相一致的分类精度的目的。

为达到以上发明目的，本发明采用的技术内容是：一种融合关键词学习的支持向量机文本分类增量训练学习方法，包括以下步骤：

第一、类别关键词的学习与调整。

将增量训练学习分为分类关键词学习与支持向量优化训练两个方面。在获得用于增量训练的文档后，对它们进行文档切分、关键词提取，然后读取以前的关键词集合，进行相应的关键词学习与调整，步骤如下：

1)若增量训练文档中的关键词t_k已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数n_k加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置为1。

2)所有用于增量训练文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N。

3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算。

第二、支持向量的权重调整

关键词的学习完毕后，接下来在进行支持向量的优化调整前还需要进行原支持向量的权重调整。其原因在于：经过了关键词的学习后，关键词的倒排文档频率(idf)已发生了变化，而支持向量中的关键词权重是通过tf*idf方式获得，因此，也需要进行调整，具体方法是用新的关键词倒排文档频率(idf′)替换旧的关键词倒排文档频率(idf)：

w_{j}^{'} = \frac{w_{j} * id f_{j}^{'}}{{idf}_{j}}

其中，w_j代表关键词t_j的权重。

第三、支持向量机优化训练

将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并，重新进行支持向量机方法的二次规划优化训练，以获得新的分类模型及新的支持向量集合，用于新的分类处理。

上述第一步中，根据增量训练文档及其关键词调整分类关键词及其特征，该特征包括关键词的倒排文档频率、训练文档总数，其中，相应的关键词倒排文档频率(idf)进行计算的方法可以为

{idf}_{k} = \log \frac{N}{n_{k}}

，也可以采用其它不同形式的倒排文档频率计算方法，该计算式中，N为增加了新增量训练文档数的总训练文档数，n_k为调整后的关键词t_k的所出现的训练文档数。

该方法还可以通过对分类关键词进行一定形式的特征词提取后，用提取后的特征词进行学习调整及分类处理。

本发明的效果在于：通过本方法，使增量训练与一次性训练在分类关键词上保持了一致性，因此也就消除了因关键词的不同或关键词特性的不一致而造成的分类精度上的差异。根据采用本方法所进行的实验也表明：本发明所提出的方法在进行文本分类时，达到了与一次性训练相一致的分类精度，而优于不进行关键词学习的方法。

附图说明

图1融合关键词学习的sVM增量分类训练学习流程图；

图2实验数据集1的实验结果比较示意图；

图3实验数据集2的实验结果比较示意图。

具体实施方式

下面以实施例的方式并结合附图对本发明作进一步的描述：

如图1所示，一种融合关键词学习的支持向量机文本分类增量训练学习方法，包括以下步骤：

第一、通过计算机及相关软件读入增量训练文档，并对文档进行文档切分处理。

第二、根据文档中的词频特性，提取文档的关键词。

第三、进行关键词的学习与调整，对每篇新的增量训练文档，根据新的增量文档中的关键词更新原关键词集合，步骤如下：

3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算，本实施例采取的计算形式为：

{idf}_{k} = \log \frac{N}{n_{k}},

其中，N为增加了新增量训练文档数后的总训练文档数，n_k为调整后的关键词t_k的所出现的训练文档数。当然，还可以采取其他的计算形式来计算。

第四、据更新后的新的关键词集合，生成新的增量训练文档向量。

第五、支持向量权重调整，从分类模型中读取原支持向量，并根据新的关键词的倒排文档频率(idf)进行支持向量权重的更新。

第六、将增量文档向量与进行了权重更新后的支持向量进行合并，作为新的增量训练文档向量集。

第七、在多类分类处理时，需要进行多类两类的转换；

第八、进行两类SVM支持向量优化训练，获得新的分类训练模型。本实施例中实验数据的来源为人民网2001年、2002年新闻分类语料，共一万多篇，分为体育、信息技术、军事、文娱、科教、环保、经济共七大类别，为实验的充分性，分别从中随机抽取2800篇和7700篇分别组成实验数据集1和数据集2；并且，数据在各个类别中均匀分布，通过随机抽取，每个集合内又分为训练集合与测试集合，同时，为了进行增量训练的需要，训练集合部分又随机分别等分成12和9部分，用于增量训练，具体划分情况见表1、

表2。

表1实验数据集

		体育	信息技术	军事	文娱	科教	环保	经济	总计
		体育	信息技术	军事	文娱	科教	环保	经济	总计	数据集1	训练集	300	300	300	300	300	300	300	2800
测试集	100	100	100	100	100	100	100				训练集	300	300	300	300	300	300	300
测试集	100	100	100	100	100	100	100	数据集2	训练集		900	900	900	900	900	900	900	7700
测试集	200	200	200	200	200	200	200		训练集		900	900	900	900	900	900	900

表2增量实验训练数据分配

	初始训练集	增量1	增量2	增量3	增量4	增量5	增量6	增量7	增量8	增量9	增量10	增量11
	初始训练集	增量1	增量2	增量3	增量4	增量5	增量6	增量7	增量8	增量9	增量10	增量11	数据集1	175	175	175	175	175	175	175	175	175	175	175	175
数据集2	700	700	700	700	700	700	700	700	700				数据集1	175	175	175	175	175	175	175	175	175	175	175	175

为了验证本发明所提出方法的在实际分类中的效果，分别将本文提出的有关键词学习的增量训练学习与无关键词学习的增量训练以及非增量的一次性训练进行实验比较，为表述方便，将本文提出的具有关键词学习的增量学习方法记为I-SVM-KL(Incremental SVM with Keyword Learning)方法，而无关键词学习的增量训练学习方法，即普通的增量训练方法记作I-SVM，非增量的一次性训练方法记作batch-SVM具体实验数据结果分别见表3、表4，图2、图3分别是上述实验结果的实验数据曲线，其中分类精度为各个类别精度的平均值。

表3 数据集1的实验数据结果

分类精度	I-SVM-KL	I-SVM	batch-SVM
分类精度	I-SVM-KL	I-SVM	batch-SVM	初始集	79.571	79.571	79.571

增量1增量2增量3增量4增量5增量6增量7增量8增量9增量10增量11

85.42985.71486.57187.42987.42988.143888888.14388.71488.714

84.42985.71486.28687.14387.42988.14387.57186.7148787.57187.286

8585.57186.42987.85787.57188.2868887.85788.42988.42988.714

表4 数据集2的实验结果

分类精度	I-SVM-KL	I-SVM	batch-SVM
分类精度	I-SVM-KL	I-SVM	batch-SVM	初始集增量1增量2增量3增量4增量5增量6增量7增量8	88.64390.85791.07191.85791.64391.85792.35792.28692.357	88.64389.71490.78690.85790.78691.28691.78691.85791.643	88.64390.57191.14392.07191.78691.85792.21492.28692.5

由以上数据可以看出，本发明的效果在于：

1、本发明所提出的融合关键词学习与调整的增量学习方法确实进一步提高了增量训练的性能，大大优于不进行关键词学习而仅仅进行支持向量优化选择的方法。

2、本发明与以前研究者的研究结果相一致，即不进行关键词学习的增量训练学习方法，则只获得了略低的性能，并且，随着增量数据集的增加，其局限性逐渐明显。

3、从实验可以看出，在多数实验数据点，本发明所提出的方法与一次性训练获得了完全相同或基本相同的结果；并且，从二者的实验数据及性能曲线中可以明显看出，本文提出的改进的增量训练方法在分类精度上达到了与一次性训练相一致的效果，实现了一次性训练的增量式实现。

Claims

1.一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于包括以下步骤：

第一、类别关键词的学习与调整

将增量训练学习分为分类关键词学习与支持向量优化训练两个方面，在获得用于增量训练的文档后，进行文档切分、关键词提取，然后结合以前的关键词集合，进行相应的关键词学习与调整，步骤如下：

1)若增量训练文档中的关键词t_k已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数n_k加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置设为1；

2)所有用于增量训练的文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N；

3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算；

第二、支持向量的权重调整

关键词的学习完毕后，需要对原支持向量进行权重调整，具体方法是用新的关键词倒排文档频率(idf′)替换旧的关键词倒排文档频率(idf)：

w_{j}^{'} = \frac{w_{j} * id f_{j}^{'}}{id f_{j}}

其中，w_j代表关键词t_j的权重；

第三、支持向量机优化训练

2.如权利要求1所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于：第一步中，根据增量训练文档及其关键词调整分类关键词及其特征，该特征包括关键词的倒排文档频率、训练文档总数，其中，相应的关键词倒排文档频率(idf)进行计算的方法可以为

{idf}_{k} = \log \frac{N}{n_{k}},

也可以采用其它不同形式的倒排文档频率计算方法，该计算式中，N为增加了新增量训练文档数的总训练文档数，n_k为调整后的关键词t_k的所出现的训练文档数。

3.如权利要求1、2所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于：该方法还可以通过对分类关键词进行一定形式的特征词提取后，用提取后的特征词进行学习调整及分类处理。