CN1245696C - 融合关键词学习的支持向量机文本分类增量训练学习方法 - Google Patents

融合关键词学习的支持向量机文本分类增量训练学习方法 Download PDF

Info

Publication number
CN1245696C
CN1245696C CN 03145419 CN03145419A CN1245696C CN 1245696 C CN1245696 C CN 1245696C CN 03145419 CN03145419 CN 03145419 CN 03145419 A CN03145419 A CN 03145419A CN 1245696 C CN1245696 C CN 1245696C
Authority
CN
China
Prior art keywords
training
keyword
support vector
learning
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 03145419
Other languages
English (en)
Other versions
CN1460947A (zh
Inventor
孙晋文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Inst Of Computer Science & Technology Peking University
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Inst Of Computer Science & Technology Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Inst Of Computer Science & Technology Peking University filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN 03145419 priority Critical patent/CN1245696C/zh
Publication of CN1460947A publication Critical patent/CN1460947A/zh
Application granted granted Critical
Publication of CN1245696C publication Critical patent/CN1245696C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于智能信息处理技术,具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。现有的方法忽略了随着增量训练而应有的文档关键词的学习问题,使得增量训练效果要低于非增量的一次性训练。本发明针对关键词在训练中的重要作用,提出了同步考虑关键词“增量”学习的方法,在增量训练过程中,同时进行分类关键词的学习与调节,从而消除了增量训练相对于一次性训练的不足。本发明所提出的融合关键词学习的增量训练方法可获得与一次性训练相一致的分类精度,优于没有进行关键词学习的方法。

Description

融合关键词学习的支持向量机文本分类增量训练学习方法
技术领域
本发明属于智能信息处理技术,更进一步是关于文本的分类处理的技术,具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。
背景技术
随着网络、信息化技术的快速发展,数字化文档信息的极大丰富,对文本、资料、网页等的分类处理已成为信息处理的在重要技术手段。对于文本分类来说,支持向量机方法(support vector machine,SVM)是目前最有效的方法之一,1998年Joachims在文献“Text Categorization with Support VectorMachines:Learning with Many Relevant Features”(In Proceedings of theEuropean Conference on Machine Learning,Berlin,Springer,1998)中验证了其在文本分类中的优异性能,对于支持向量机这一新的机器学习方法来说,相对于其性能的有效性同时,也具有训练过程复杂,对内存等资源占用大等缺点,因此,从其提出开始,人们就研究各种不同改进训练算法来改进其训练过程。
相对于传统一次性训练来说,增量训练技术是对其在应用中的进一步发展,正逐步受到更广泛的研究与关注,增量训练方法将传统的一次性集中训练转化为增量式、渐进式的训练学习,克服了一次性训练对内存资源占用大、没有持续训练学习能力等缺点,因而,增量训练学习方法大大扩展了分类模型的能力,提高了训练的灵活性与适应性,以及在实际应用中的学习能力。并且,相比于其它机器学习技术,支持向量机方法具有更良好的扩展性,及一般模型所不具备的优秀的增量学习的能力,这为支持向量机增量训练技术的研究应用提供了巨大的前景。1999年,Nadeem等在“Incremental Learningwith Support Vector Machines.(In Proc.of the Int.Joint Conf.on ArtificialIntelligence(IJCAI),1999)中采用增量学习方法对两类支持向量机分类进行了研究,在每次增量时将上一次训练获得的支持向量与新增训练文档一起进行训练优化,实验获得了与非增量训练基本相近但略低的分类精度,2001年Cauwenberghs等在“Incremental and Decremental Support Vector MachineLearning,”(Adv.Neural Information Processing Systems,Cambridge MA:MIT Press,Vol.13,2001)从理论上分析了进行增量训练时支持向量全局优化的方法,同年,Ralaivola在“Incremental Support Vector Machine Learning”(a Local Approach.In Proceedings of ICANN′01,Springer,2001)中探讨了一种采用径向基函数(RBF)为核函数的支持向量机进行局部增量训练的优化策略,在该研究中仅仅采用新增训练数据周围数据作为工作子集的方法来进行优化训练,避免对全部数据参数的再学习,以上研究的重点都是集中在支持向量重新优化的问题上,是基于SVM本身的增量训练特性的研究。
发明内容
本方法是针对目前SVM文本分类增量训练中,由于仅仅考虑支持向量本身优化的问题,而导致增量训练效果比一次性训练分类精度略低这一现象,结合增量训练与一次性训练在分类关键词上所存在的差异,提出在增量学习过程中,同时进行文档关键词“增量”学习的方法,以达到消除二者的差异,从而使增量训练达到与一次性训练相一致的分类精度的目的。
为达到以上发明目的,本发明采用的技术内容是:一种融合关键词学习的支持向量机文本分类增量训练学习方法,包括以下步骤:
第一、类别关键词的学习与调整。
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面。在获得用于增量训练的文档后,对它们进行文档切分、关键词提取,然后读取以前的关键词集合,进行相应的关键词学习与调整,步骤如下:
1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置为1。
2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N。
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算。
第二、支持向量的权重调整
关键词的学习完毕后,接下来在进行支持向量的优化调整前还需要进行原支持向量的权重调整。其原因在于:经过了关键词的学习后,关键词的倒排文档频率(idf)已发生了变化,而支持向量中的关键词权重是通过tf*idf方式获得,因此,也需要进行调整,具体方法是用新的关键词倒排文档频率(idf′)替换旧的关键词倒排文档频率(idf):
w j ′ = w j * id f j ′ idf j
其中,wj代表关键词tj的权重。
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并,重新进行支持向量机方法的二次规划优化训练,以获得新的分类模型及新的支持向量集合,用于新的分类处理。
上述第一步中,根据增量训练文档及其关键词调整分类关键词及其特征,该特征包括关键词的倒排文档频率、训练文档总数,其中,相应的关键词倒排文档频率(idf)进行计算的方法可以为 idf k = log N n k ,也可以采用其它不同形式的倒排文档频率计算方法,该计算式中,N为增加了新增量训练文档数的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。
该方法还可以通过对分类关键词进行一定形式的特征词提取后,用提取后的特征词进行学习调整及分类处理。
本发明的效果在于:通过本方法,使增量训练与一次性训练在分类关键词上保持了一致性,因此也就消除了因关键词的不同或关键词特性的不一致而造成的分类精度上的差异。根据采用本方法所进行的实验也表明:本发明所提出的方法在进行文本分类时,达到了与一次性训练相一致的分类精度,而优于不进行关键词学习的方法。
附图说明
图1融合关键词学习的sVM增量分类训练学习流程图;
图2实验数据集1的实验结果比较示意图;
图3实验数据集2的实验结果比较示意图。
具体实施方式
下面以实施例的方式并结合附图对本发明作进一步的描述:
如图1所示,一种融合关键词学习的支持向量机文本分类增量训练学习方法,包括以下步骤:
第一、通过计算机及相关软件读入增量训练文档,并对文档进行文档切分处理。
第二、根据文档中的词频特性,提取文档的关键词。
第三、进行关键词的学习与调整,对每篇新的增量训练文档,根据新的增量文档中的关键词更新原关键词集合,步骤如下:
1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置为1。
2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N。
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算,本实施例采取的计算形式为: idf k = log N n k , 其中,N为增加了新增量训练文档数后的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。当然,还可以采取其他的计算形式来计算。
第四、据更新后的新的关键词集合,生成新的增量训练文档向量。
第五、支持向量权重调整,从分类模型中读取原支持向量,并根据新的关键词的倒排文档频率(idf)进行支持向量权重的更新。
第六、将增量文档向量与进行了权重更新后的支持向量进行合并,作为新的增量训练文档向量集。
第七、在多类分类处理时,需要进行多类两类的转换;
第八、进行两类SVM支持向量优化训练,获得新的分类训练模型。本实施例中实验数据的来源为人民网2001年、2002年新闻分类语料,共一万多篇,分为体育、信息技术、军事、文娱、科教、环保、经济共七大类别,为实验的充分性,分别从中随机抽取2800篇和7700篇分别组成实验数据集1和数据集2;并且,数据在各个类别中均匀分布,通过随机抽取,每个集合内又分为训练集合与测试集合,同时,为了进行增量训练的需要,训练集合部分又随机分别等分成12和9部分,用于增量训练,具体划分情况见表1、
表2。
表1实验数据集
  体育   信息技术   军事   文娱   科教   环保   经济   总计
  数据集1   训练集   300   300   300   300   300   300   300   2800
  测试集   100   100   100   100   100   100   100
  数据集2   训练集   900   900   900   900   900   900   900   7700
  测试集   200   200   200   200   200   200   200
表2增量实验训练数据分配
  初始训练集   增量1   增量2   增量3   增量4   增量5   增量6   增量7   增量8   增量9   增量10   增量11
  数据集1   175   175   175   175   175   175   175   175   175   175   175   175
  数据集2   700   700   700   700   700   700   700   700   700
为了验证本发明所提出方法的在实际分类中的效果,分别将本文提出的有关键词学习的增量训练学习与无关键词学习的增量训练以及非增量的一次性训练进行实验比较,为表述方便,将本文提出的具有关键词学习的增量学习方法记为I-SVM-KL(Incremental SVM with Keyword Learning)方法,而无关键词学习的增量训练学习方法,即普通的增量训练方法记作I-SVM,非增量的一次性训练方法记作batch-SVM具体实验数据结果分别见表3、表4,图2、图3分别是上述实验结果的实验数据曲线,其中分类精度为各个类别精度的平均值。
表3 数据集1的实验数据结果
  分类精度   I-SVM-KL   I-SVM   batch-SVM
  初始集   79.571   79.571   79.571
  增量1增量2增量3增量4增量5增量6增量7增量8增量9增量10增量11   85.42985.71486.57187.42987.42988.143888888.14388.71488.714   84.42985.71486.28687.14387.42988.14387.57186.7148787.57187.286   8585.57186.42987.85787.57188.2868887.85788.42988.42988.714
表4 数据集2的实验结果
  分类精度   I-SVM-KL   I-SVM   batch-SVM
  初始集增量1增量2增量3增量4增量5增量6增量7增量8   88.64390.85791.07191.85791.64391.85792.35792.28692.357   88.64389.71490.78690.85790.78691.28691.78691.85791.643   88.64390.57191.14392.07191.78691.85792.21492.28692.5
由以上数据可以看出,本发明的效果在于:
1、本发明所提出的融合关键词学习与调整的增量学习方法确实进一步提高了增量训练的性能,大大优于不进行关键词学习而仅仅进行支持向量优化选择的方法。
2、本发明与以前研究者的研究结果相一致,即不进行关键词学习的增量训练学习方法,则只获得了略低的性能,并且,随着增量数据集的增加,其局限性逐渐明显。
3、从实验可以看出,在多数实验数据点,本发明所提出的方法与一次性训练获得了完全相同或基本相同的结果;并且,从二者的实验数据及性能曲线中可以明显看出,本文提出的改进的增量训练方法在分类精度上达到了与一次性训练相一致的效果,实现了一次性训练的增量式实现。

Claims (3)

1.一种融合关键词学习的支持向量机文本分类增量训练学习方法,其特征在于包括以下步骤:
第一、类别关键词的学习与调整
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面,在获得用于增量训练的文档后,进行文档切分、关键词提取,然后结合以前的关键词集合,进行相应的关键词学习与调整,步骤如下:
1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键词集合中,并将其相应的所出现的训练文档数置设为1;
2)所有用于增量训练的文档进行步骤1)的关键词调整完成后,将新增的训练文档数与原总训练文档数相加,作为新的总训练文档数N;
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算;
第二、支持向量的权重调整
关键词的学习完毕后,需要对原支持向量进行权重调整,具体方法是用新的关键词倒排文档频率(idf′)替换旧的关键词倒排文档频率(idf):
w j ′ = w j * id f j ′ id f j
其中,wj代表关键词tj的权重;
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并,重新进行支持向量机方法的二次规划优化训练,以获得新的分类模型及新的支持向量集合,用于新的分类处理。
2.如权利要求1所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法,其特征在于:第一步中,根据增量训练文档及其关键词调整分类关键词及其特征,该特征包括关键词的倒排文档频率、训练文档总数,其中,相应的关键词倒排文档频率(idf)进行计算的方法可以为 idf k = log N n k , 也可以采用其它不同形式的倒排文档频率计算方法,该计算式中,N为增加了新增量训练文档数的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。
3.如权利要求1、2所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法,其特征在于:该方法还可以通过对分类关键词进行一定形式的特征词提取后,用提取后的特征词进行学习调整及分类处理。
CN 03145419 2003-06-13 2003-06-13 融合关键词学习的支持向量机文本分类增量训练学习方法 Expired - Fee Related CN1245696C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 03145419 CN1245696C (zh) 2003-06-13 2003-06-13 融合关键词学习的支持向量机文本分类增量训练学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 03145419 CN1245696C (zh) 2003-06-13 2003-06-13 融合关键词学习的支持向量机文本分类增量训练学习方法

Publications (2)

Publication Number Publication Date
CN1460947A CN1460947A (zh) 2003-12-10
CN1245696C true CN1245696C (zh) 2006-03-15

Family

ID=29591384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 03145419 Expired - Fee Related CN1245696C (zh) 2003-06-13 2003-06-13 融合关键词学习的支持向量机文本分类增量训练学习方法

Country Status (1)

Country Link
CN (1) CN1245696C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808B (zh) * 2007-05-24 2010-12-15 上海大学 文本关键词的提取方法
TWI482038B (zh) * 2012-12-12 2015-04-21 Univ Nat Sun Yat Sen 近似複本之偵測方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1327376C (zh) * 2004-04-08 2007-07-18 上海交通大学 基于支持向量机的软测量仪表建模方法
CN100353361C (zh) * 2004-07-09 2007-12-05 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN100353355C (zh) * 2004-08-12 2007-12-05 上海交通大学 减少支持向量与训练时间的交叉合并方法
CN101079024B (zh) * 2006-06-19 2010-06-16 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN103038764A (zh) * 2010-04-14 2013-04-10 惠普发展公司,有限责任合伙企业 用于关键字提取的方法
CN102710616B (zh) * 2012-05-18 2015-04-22 中国科学院信息工程研究所 数据流预测方法及装置
CN103279761A (zh) * 2013-05-20 2013-09-04 浙江大学 一种用于支持向量机的在线向量选取方法
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106682129B (zh) * 2016-12-14 2020-02-21 浙江工业大学 个人大数据管理中层次概念向量化增量处理方法
CN106815605B (zh) * 2017-01-23 2021-04-13 上海上讯信息技术股份有限公司 一种基于机器学习的数据分类方法及设备
CN109840534B (zh) * 2017-11-29 2021-10-01 北京京东尚科信息技术有限公司 处理事件的方法和装置
CN109670026B (zh) * 2018-12-23 2021-06-18 上海安路信息科技股份有限公司 一种测试数据报告生成方法及报告生成系统
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统
CN117216280B (zh) * 2023-11-09 2024-02-09 闪捷信息科技有限公司 敏感数据识别模型的增量学习方法、识别方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808B (zh) * 2007-05-24 2010-12-15 上海大学 文本关键词的提取方法
TWI482038B (zh) * 2012-12-12 2015-04-21 Univ Nat Sun Yat Sen 近似複本之偵測方法

Also Published As

Publication number Publication date
CN1460947A (zh) 2003-12-10

Similar Documents

Publication Publication Date Title
CN1245696C (zh) 融合关键词学习的支持向量机文本分类增量训练学习方法
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
Fu et al. WASTK: A weighted abstract syntax tree kernel method for source code plagiarism detection
CN101038596A (zh) 一种网站分类方法及系统
Bryan et al. The $25,000,000,000 eigenvector: The linear algebra behind Google
de Vries et al. Efficient k-NN search on vertically decomposed data
CN1240011C (zh) 应用于操作系统的文件分类管理系统及方法
CN1112647C (zh) 响应查询以对文档集合中的文档进行分级的系统和方法
CN101853272B (zh) 基于相关反馈和聚类的搜索引擎技术
CN1230277A (zh) 在语音识别系统中多语种采用隐藏马尔可夫语音模型的方法
CN1609859A (zh) 搜索结果聚类的方法
CN105260359A (zh) 语义关键词提取方法及装置
CN101079024A (zh) 一种专业词表动态生成系统和方法
CN101079072A (zh) 一种文本聚类元学习方法及装置
CN1967536A (zh) 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法
CN104361037A (zh) 微博分类方法及装置
CN103577587A (zh) 一种新闻主题分类方法
CN102004796B (zh) 一种网页文本的无阻滞层次分类方法与装置
CN101957859A (zh) 基于集成支撑矢量机排序的信息检索方法
CN1851706A (zh) 基于本体学习的智能主题式网络爬虫系统构建方法
Wenli Application research on latent semantic analysis for information retrieval
CN116756346A (zh) 一种信息检索方法及装置
CN106951548B (zh) 基于rm算法提升特写词语搜索精度的方法及系统
CN111090749A (zh) 一种基于TextCNN的报刊出版物分类方法及系统
CN1271550C (zh) 口语会话中句子边界识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060315