CN101604322A - 一种决策级文本自动分类融合方法 - Google Patents

一种决策级文本自动分类融合方法 Download PDF

Info

Publication number
CN101604322A
CN101604322A CNA2009100878443A CN200910087844A CN101604322A CN 101604322 A CN101604322 A CN 101604322A CN A2009100878443 A CNA2009100878443 A CN A2009100878443A CN 200910087844 A CN200910087844 A CN 200910087844A CN 101604322 A CN101604322 A CN 101604322A
Authority
CN
China
Prior art keywords
classification results
fusion
classification
sorter
decision level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100878443A
Other languages
English (en)
Other versions
CN101604322B (zh
Inventor
张晓丹
牛振东
张正施
曹玉鹃
徐小梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN2009100878443A priority Critical patent/CN101604322B/zh
Publication of CN101604322A publication Critical patent/CN101604322A/zh
Application granted granted Critical
Publication of CN101604322B publication Critical patent/CN101604322B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种决策级文本自动分类融合方法,属于数据挖掘领域,适用于数字图书馆、网络内容监管、垃圾邮件过滤等。本发明以信息融合为理论基础,以分类精度高的文本自动分类算法为研究对象,建立了决策级文本自动分类融合模型,即采用多层融合结构,串、并联混和的形式进行文本自动分类处理,得到准确率更高的分类结果。

Description

一种决策级文本自动分类融合方法
技术领域
本发明涉及一种决策级文本自动分类融合方法,属于数据挖掘领域,适用于数字图书馆、网络内容监管、垃圾邮件过滤等。
背景技术
文本自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器,该函数或分类器能把待分文档映射到给定的相应类别中。其目标是研究分类速度更快、更准确的管理文本信息的方法。如何提高分类的准确率是目前研究的热点问题。
决策级融合模型是信息融合领域较为经典的融合模型,其结构有串联和并联两种方式,采用特征级和决策级进行最终的决策。
信息融合的级别是指在信息处理的哪个层次上对多传感器信息进行综合处理和分析。按照数据信息由低到高的抽象层次,可以分为像素层、特征层、决策层三个层次,信息融合的过程相应地也被分为三个级别,即像素级融合、特征级融合和决策级融合。在融合系统的研究与应用中,融合可发生在像素级、特征级和决策级三个层次上,不同的级别具有相应的方法和融合结构。像素级融合是直接在采集到的原始数据层上进行融合,也就是对各种传感器的原始数据不经过处理就直接进行综合和分析。特征级融合是指先对来自每个传感器的原始信息进行特征抽取以获得来自每个传感器的特征向量,然后对特征信息向量进行综合分析和处理。决策级融合是一种最高层次的融合,融合的结果为系统的控制决策提供依据。在融合过程中,多个传感器观测同一目标,并在本地完成预处理、特征提取、识别或判决,以获得各自初步的结论,然后通过关联分析、决策级融合判决,获得最终的联合推断结果,为决策提供直接的依据。决策级融合是三级融合的最终结果,直接关系到决策的效果,具有非常重要的作用。
不同级别的融合通常采用不同的融合结构,但抽象出通用的结构可以分为并联融合结构和串联融合结构两种。并联融合结构是指所有的传感器信息都输入给同一个信息融合中心,在融合中心进行信息融合;串联融合结构是指先将两个传感器信息进行一次融合,再将融合结果与另一个传感器信息进行融合,依次进行下去,直到所有的传感器信息都融合完为止。
投票算法,其核心思想是:k(k为大于1的整数)个专家判断的有效组合应该优于某个专家个人的判断。投票算法主要有两种:Bagging算法和Boosting算法。
现有的文本自动分类技术的分类基本过程如图1所示。具体操作步骤如下:
第1步:对待分类文件进行格式分析和内容提取,获得其纯文本内容;
第2步:对纯文本内容进行分词及词形还原,获取最小的语义单位——词条,以及每个词条的频率信息;
第3步:进行特征提取以及特征合并,降低向量空间的维数;
第4步:对抽取处理的特征进行权重的计算;
第5步:对抽取处理的特征进行向量化表示;经过向量化,将文本表示为计算机易于处理的向量形式;
第6步:最后利用分类器进行分类,输出分类结果。
分类算法是文本分类系统的核心,因此对分类算法的研究一直是文本分类研究的热点。目前主要研究的是提高分类器的准确率问题。
目前常用的分类方法有很多种,有基于概率的方法,如贝叶斯方法,其原理是通过概率计算,由待分类的数据对象的属性值求出最可能的分类目标值,即计算各个类别在给定这组属性值时的条件概率,并把输出条件概率值最大的类标号作为目标值。其缺点是前提条件不容易满足;基于实例的方法,如KNN方法,其基本原理是基于实例之间的距离,对每个实例来说,如果靠近它的实例都是某个类别,那么该实例也可能是这个类别。该方法的缺点是分类效率较低;基于统计学习的方法,如SVM等。这种方法的原理从几何上说,就是要在多维空间中寻找到最佳决策面,该决策面能最好地区分正例和反例,使正例与反例之间的分类间隔最大。SVM分类器是目前最好的文本分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数。另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大。
虽然这些方法各自有各自的优势,但各自有不同的缺点,分类准确率最高在80%左右,还不能够满足实际使用的要求。
对文本分类的结果可以从两个方面进行评价:准确性和计算复杂度。准确性衡量的是一个分类器正确分类的能力。计算复杂度则包括时间复杂度和空间复杂度。而在这两个方面之中,准确性最为重要,因为不管分类器的速度有多快,占用的空间有多小,如果它不能正确分类的话,这个分类器也是没有效果的。因此对分类的评价主要指的是准确性的评价。
发明内容
本发明针对目前已有文本自动分类方法存在精度不高的缺点,提出一种决策级文本自动分类融合方法。本发明以信息融合为理论基础,以分类精度高的文本自动分类算法为研究对象,建立了决策级文本自动分类融合模型,即采用多层融合结构,串、并联混和的形式进行文本自动分类处理,得到准确率更高的分类结果。
本发明是通过以下技术方案实现的。
本发明的决策级文本自动分类融合模型如图2所示,此模型分为特征级和决策级两级:其中KNN分类器、贝叶斯分类器以及SVM分类器属于特征级;决策级融合中心属于决策级,采用投票算法来实现。各分类器之间采用串、并联相结合的方式对待分类文本进行分类,即各分类器之间既采用并联的形式对待分类文本进行分类,并将分类结果输入到决策级融合中心;又采用串联方式,即前一个分类器将分类结果输入决策级融合中心的同时,还要输入到下一个分类器,以便于参与下一个分类器做分类决策,得出分类结果,输入到决策级融合中心。
本发明的一种决策级文本自动分类融合方法的具体操作步骤如下:
第1步:对待分文档进行分词、特征提取、权重计算等预处理;
第2步:在第1步的基础上,将预处理后的结果分别发送到SVM,KNN和贝叶斯分类器中;
第3步:在第2步的基础上,SVM分类器进行分类,并将分类结果发送到决策级融合中心以及KNN分类器中;
第4步:在第2步的基础上,KNN分类器进行分类,得到KNN分类器的分类结果;
第5步:在第3步和第4步的基础上,将KNN分类器的分类结果与SVM的分类结果进行比较,即:将KNN得到类别概率与SVM分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果;然后将分类结果发送到决策级融合中心以及贝叶斯分类器中;
第6步:在第2步的基础上,贝叶斯分类器进行分类,得到贝叶斯分类器的分类结果;
第7步:在第5步和第6步的基础上,将贝叶斯分类器的分类结果与KNN的分类结果相比较,即:将贝叶斯分类器得到的类别概率与KNN分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果。将分类结果发送到决策级分类融合中心。
第8步:在第3步、第5步和第7步的基础上,在决策级融合中心采用投票算法对特征级得到的分类结果进行投票,得到最终的分类决策结果。
有益效果
1.在此融合结构模型中,不同的层次完成的功能不同。这种结构综合了串、并联融合结构的优势,且采用了分层的融合结构可以确保每个子系统独立、准确地完成本系统的局部融合分类,降低了对整个自动分类系统进行文本分类的复杂性。
2.本发明方法不仅可以保证各个局部分类的正确性,还可以适应分类目标的改变,保证分类系统的效率及准确度。
3.当分类系统对实时性要求较高时,通过系统的分层结构可以实现各个子系统的分别训练和学习来实现全局文本分类功能的改进,提高分类系统性能,灵活地、自适应地、高效地实现文本自动分类,提高分类准确率。
附图说明
图1为已有技术的文本自动分类基本过程流程图;
图2为本发明的决策级分类融合模型。
具体实施方式
根据上述技术方案,下面结合实施例对本发明进行详细说明。
本发明以本人实验室文本自动分类的实际项目为实验平台,以验证本发明提出的方法的有效性。基于本发明方法的系统采用JAVA开发平台,Oracle数据库。
本实验采用本发明方法对一万篇语料进行分类,其中7000篇为训练语料、3000篇为测试语料,共分15个类别。
采用本发明方法进行分类的步骤如下:
第1步:对3000篇待分文档进行分词、特征提取、权重计算等预处理;
第2步:在第1步的基础上,将预处理后的结果分别发送到SVM,KNN和贝叶斯分类器中;
第3步:在第2步的基础上,SVM分类器进行分类,并将分类结果发送到决策级融合中心(投票算法)以及KNN分类器中;
第4步:在第2步的基础上,KNN分类器进行分类,得到KNN分类器的分类结果;
第5步:在第3步和第4步的基础上,将KNN分类器的分类结果与SVM的分类结果进行比较,即:将KNN得到类别概率与SVM分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果。将分类结果发送到决策级融合中心(投票算法)以及贝叶斯分类器中;
第6步:在第2步的基础上,贝叶斯分类器进行分类,得到贝叶斯分类器的分类结果;
第7步:在第5步和第6步的基础上,将贝叶斯分类器的分类结果与KNN的分类结果相比较,即:将贝叶斯分类器得到的类别概率与KNN分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果。将分类结果发送到决策级融合中心(投票算法)。
第8步:在第3步、第5步和第7步的基础上,在决策级融合中心采用投票算法对特征级得到的分类结果进行投票,得到最终的分类决策结果。
同时,为说明本发明的分类效果,本实验是在同等条件下,以相同的训练语料、测试语料以及相同的分类体系分别采用KNN分类器、SVM分类器和贝叶斯分类器进行分类,结果分类效果结果如表1所示:
表1四种算法分类效果比较
Figure G2009100878443D00061
结论:本发明提出的决策级文本自动分类融合方法发挥了各种分类器的优势,得到了高于其他单分类器的准确率和召回率,验证了其有效性。
需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。

Claims (1)

1.一种决策级文本自动分类融合方法,其特征在于以信息融合为理论基础,以分类精度高的文本自动分类算法为研究对象,建立了决策级文本自动分类融合模型,即采用多层融合结构,串、并联混和的形式进行文本自动分类处理,得到准确率更高的分类结果;其具体实现步骤如下:
第1步:对待分文档进行分词、特征提取、权重计算等预处理;
第2步:在第1步的基础上,将预处理后的结果分别发送到SVM,KNN和贝叶斯分类器中;
第3步:在第2步的基础上,SVM分类器进行分类,并将分类结果发送到决策级融合中心以及KNN分类器中;
第4步:在第2步的基础上,KNN分类器进行分类,得到KNN分类器的分类结果;
第5步:在第3步和第4步的基础上,将KNN分类器的分类结果与SVM的分类结果进行比较,即:将KNN得到类别概率与SVM分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果;然后将分类结果发送到决策级融合中心以及贝叶斯分类器中;
第6步:在第2步的基础上,贝叶斯分类器进行分类,得到贝叶斯分类器的分类结果;
第7步:在第5步和第6步的基础上,将贝叶斯分类器的分类结果与KNN的分类结果相比较,即:将贝叶斯分类器得到的类别概率与KNN分类器的分类结果进行比较,概率最大者为该分类器的最终分类结果;将分类结果发送到决策级分类融合中心;
第8步:在第3步、第5步和第7步的基础上,在决策级融合中心采用投票算法对特征级得到的分类结果进行投票,得到最终的分类决策结果。
CN2009100878443A 2009-06-24 2009-06-24 一种决策级文本自动分类融合方法 Expired - Fee Related CN101604322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100878443A CN101604322B (zh) 2009-06-24 2009-06-24 一种决策级文本自动分类融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100878443A CN101604322B (zh) 2009-06-24 2009-06-24 一种决策级文本自动分类融合方法

Publications (2)

Publication Number Publication Date
CN101604322A true CN101604322A (zh) 2009-12-16
CN101604322B CN101604322B (zh) 2011-09-07

Family

ID=41470054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100878443A Expired - Fee Related CN101604322B (zh) 2009-06-24 2009-06-24 一种决策级文本自动分类融合方法

Country Status (1)

Country Link
CN (1) CN101604322B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN102426585A (zh) * 2011-08-09 2012-04-25 中国科学技术信息研究所 一种基于贝叶斯网络的网页自动分类方法
CN102509545A (zh) * 2011-09-21 2012-06-20 哈尔滨工业大学 一种实时声学事件检测系统及检测方法
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN104809131A (zh) * 2014-01-27 2015-07-29 董靖 电子文档的自动分类系统和方法
CN106960017A (zh) * 2017-03-03 2017-07-18 掌阅科技股份有限公司 电子书分类及其训练方法、装置和设备
CN108647239A (zh) * 2018-04-04 2018-10-12 顺丰科技有限公司 对话意图识别方法及装置、设备和存储介质
CN111540155A (zh) * 2020-03-27 2020-08-14 北京联合大学 一种智能家居火灾探测器
CN116051164A (zh) * 2022-12-29 2023-05-02 北京北咨信息工程咨询有限公司 建设成本测算方法、装置、设备及可读存储介质
CN116468037A (zh) * 2023-03-17 2023-07-21 北京深维智讯科技有限公司 一种基于nlp的数据处理方法及系统
CN116737940A (zh) * 2023-08-14 2023-09-12 成都飞航智云科技有限公司 一种智能决策方法、决策系统
CN116310516B (zh) * 2023-02-20 2023-11-21 交通运输部水运科学研究所 船舶分类方法及装置
CN117688222A (zh) * 2024-02-04 2024-03-12 中国标准化研究院 一种基于贝叶斯网络的数字图书馆的实现方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956473B (zh) * 2016-05-15 2018-11-13 广东技术师范学院 基于sdn网络的恶意代码检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100565523C (zh) * 2007-04-05 2009-12-02 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN100495408C (zh) * 2007-06-22 2009-06-03 中国科学院研究生院 一种文本聚类元学习方法及装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102426585A (zh) * 2011-08-09 2012-04-25 中国科学技术信息研究所 一种基于贝叶斯网络的网页自动分类方法
CN102509545A (zh) * 2011-09-21 2012-06-20 哈尔滨工业大学 一种实时声学事件检测系统及检测方法
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN104809131B (zh) * 2014-01-27 2021-06-25 董靖 电子文档的自动分类系统和方法
CN104809131A (zh) * 2014-01-27 2015-07-29 董靖 电子文档的自动分类系统和方法
CN106960017A (zh) * 2017-03-03 2017-07-18 掌阅科技股份有限公司 电子书分类及其训练方法、装置和设备
CN108647239A (zh) * 2018-04-04 2018-10-12 顺丰科技有限公司 对话意图识别方法及装置、设备和存储介质
CN111540155A (zh) * 2020-03-27 2020-08-14 北京联合大学 一种智能家居火灾探测器
CN111540155B (zh) * 2020-03-27 2022-05-24 北京联合大学 一种智能家居火灾探测器
CN116051164A (zh) * 2022-12-29 2023-05-02 北京北咨信息工程咨询有限公司 建设成本测算方法、装置、设备及可读存储介质
CN116051164B (zh) * 2022-12-29 2023-11-28 北京北咨信息工程咨询有限公司 建设成本测算方法、装置、设备及可读存储介质
CN116310516B (zh) * 2023-02-20 2023-11-21 交通运输部水运科学研究所 船舶分类方法及装置
CN116468037A (zh) * 2023-03-17 2023-07-21 北京深维智讯科技有限公司 一种基于nlp的数据处理方法及系统
CN116737940B (zh) * 2023-08-14 2023-11-07 成都飞航智云科技有限公司 一种智能决策方法、决策系统
CN116737940A (zh) * 2023-08-14 2023-09-12 成都飞航智云科技有限公司 一种智能决策方法、决策系统
CN117688222A (zh) * 2024-02-04 2024-03-12 中国标准化研究院 一种基于贝叶斯网络的数字图书馆的实现方法及系统
CN117688222B (zh) * 2024-02-04 2024-04-16 中国标准化研究院 一种基于贝叶斯网络的数字图书馆的实现方法及系统

Also Published As

Publication number Publication date
CN101604322B (zh) 2011-09-07

Similar Documents

Publication Publication Date Title
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN101937445B (zh) 一种文件自动分类系统
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN110598800A (zh) 一种基于人工智能的垃圾分类识别方法
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN100533441C (zh) 基于概率主题词的两级组合文本分类方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN107861951A (zh) 智能客服中的会话主题识别方法
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN109933670A (zh) 一种基于组合矩阵计算语义距离的文本分类方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN101587493A (zh) 文本分类方法
CN110659367B (zh) 文本分类号的确定方法、装置以及电子设备
Wei et al. Text classification using support vector machine with mixture of kernel
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN102609714A (zh) 基于信息增益和在线支持向量机的新型分类器及分类方法
CN107480141A (zh) 一种基于文本和开发者活跃度的软件缺陷辅助分派方法
CN107885849A (zh) 一种基于文本分类的情绪指数分析系统
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN101976270B (zh) 基于不确定推理的文本层次分类方法与装置
CN104881685A (zh) 基于捷径深度神经网络的视频分类方法
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110907

Termination date: 20120624