CN102033949B - 基于修正的k近邻文本分类方法 - Google Patents

基于修正的k近邻文本分类方法 Download PDF

Info

Publication number
CN102033949B
CN102033949B CN 201010601777 CN201010601777A CN102033949B CN 102033949 B CN102033949 B CN 102033949B CN 201010601777 CN201010601777 CN 201010601777 CN 201010601777 A CN201010601777 A CN 201010601777A CN 102033949 B CN102033949 B CN 102033949B
Authority
CN
China
Prior art keywords
text
classification
nearest neighbor
document
classification method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010601777
Other languages
English (en)
Other versions
CN102033949A (zh
Inventor
曹杰
伍之昂
王有权
方仓健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN 201010601777 priority Critical patent/CN102033949B/zh
Publication of CN102033949A publication Critical patent/CN102033949A/zh
Application granted granted Critical
Publication of CN102033949B publication Critical patent/CN102033949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于修正的K近邻文本分类方法,包括文本预处理,首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示;文本特征选择,然后对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征;最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,得到分类结果。该方法分类结果准确。

Description

基于修正的K近邻文本分类方法
技术领域
本发明属于电子资源信息分类和检索领域,涉及一种非结构化文本分类和管理方法,具体地说是一种基于修正的K近邻文本分类方法。
背景技术
近年来,随着信息技术的迅速发展,特别是互联网的普及和数据库的大规模应用,网上的电子资源信息急剧增加,面对信息爆炸和信息多元化,如何有效地组织和管理这些海量信息,并且快速、准确地获得自己需要的、真正感兴趣的信息已成为当前一大难题。文本分类技术作为组织和处理大量电子资源信息的关键技术,将有助于信息检索和分析,方便用户快速、准确地定位所需要的信息。
文本分类是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其相关的类别中。文本分类技术研究始于50年代末,美国IBM公司的H. P. Luhn首先提出了基于词频统计的文本分类算法,对文本分类技术进行可行性研究。20世纪60年代至80年代末,知识工程技术是这段时期最主要最有效的内容文本分类系统,主要使用人工的方法来构建分类器,这样既耗费人力物力,又容易出现人为错误。20世纪90年代以后,随着互联网技术的飞速发展,基于统计理论和机器学习方法成为主流的文本分类技术,主要包括决策树方法、神经网络方法、遗传算法、贝叶斯分类、K近邻、最小二乘拟合方法、粗糙集方法、模糊集方法、支持向量机等等。
K近邻是最早应用于自动文本分类的机器学习算法之一,其分类思想是:取待分类文文本s的K个近邻,看这K个近邻中多数属于哪一类,就将s归于该类。该种规则中显然存在一个问题:当样本分布密度不不均匀时,只按照前K个近邻样本的顺序而不考虑它们的距离差别,一般K近邻存在倾向于大类的分类决策,将会降低分类器的分类性能。
发明内容
鉴于K近邻对样本不均匀数据存在较大的偏差,本发明的目的是提供一种基于修正的K近邻文本分类方法,该算法首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后需要对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器,分类结果准确。
本发明的目的是通过以下技术方案来实现的:
一种基于修正的K近邻文本分类方法,其特征在于:该方法首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,得到分类结果,具体步骤如下:
1) 文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去停用词,删除非相关文本;
2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率;
3) 文本分类;由于K近邻文本分类方法存在当样本分布密度不不均匀时K近邻存在倾向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。
本发明在文本特征选择时,构造一个特征函数对特征词进行打分,然后按照分值的高低将特征词排序,最后通过设定的阈值仅保留分值高于阈值的特征词。常见的特征选择方法有:信息增益、互信息、c 2统计量、特征权等方法,本发明中主要采用c 2统计量的方法。
本发明首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后需要对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,分类结果准确。
附图说明
图1为本发明的整体框架图。
具体实施方式
一种本发明所述的的基于修正的K近邻文本分类方法,该方法首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,得到分类结果,
 1) 文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去停用词,删除非相关文本;由于文本预处理不是本发明的重点,所以就不再详述。
2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率。
在文本特征选择时,构造一个特征函数对特征词进行打分,然后按照分值的高低将特征词排序,最后通过设定的阈值仅保留分值高于阈值的特征词。
3) 文本分类;由于K近邻文本分类方法存在当样本分布密度不不均匀时K近邻存在倾向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。常见的特征选择方法有:信息增益、互信息、c 2统计量、特征权等方法,本发明中采用c 2统计量的方法。
在文本预处理的基础上主要c 2统计量来衡量特征词w和类别c之间的权重关系,根据阀值选取对文本分类影响较大的特征词,最后在此基础上采用修正的文本分类方法完成文本分类,具体实施步骤如下所示:
步骤1:由于c 2统计量的方法充分考虑了特征词和文本类别之间的关系,所以该方法使得所找出来的特征词对文本类别的判定有更大的帮助,在文本训练集合较大的情况下,该方法有很好的稳定性,所以选取该方法来完成文本特征选择。令A为训练文本集中特征词w和类c同时出现的次数;B为特征词w出现而类c不出现的次数;C为特征词w不出现而类c出现的次数;D为特征词w和类c都没有出现的次数;N则表示训练文本集中的样本总数,c 2统计量的计算公式如公式(1)所示:
             (1)
步骤2:然后再使用公式(2)计算特征词w对整个训练集合的c 2统计量,下面是公式(2)的计算方法:
                           (2)
其中m为文本类别数量,然后设置一个阀值,将原始特征空间中低于阀值的特征词,保留高于阀值的特征词作为文本进一步分类的特征。
步骤3: 根据步骤2中找出的特征词,根据向量空间模型,将文本集合形式化为加权特征向量,文本集合S=(T 1 ,W 1 T 2 ,W 2 ; ...; T n ,W n ),然后计算每个文本与其他文本的相似度,计算公式如式(3)所示:
                          (3)
其中si为测试文本集合的特征向量,sj为其他文本,M为特征向量的维数,Wik为文本向量si的第k维。
步骤4:为了能够修正K近邻分类器,为每个类别t赋予一个权重wt,其中权重大小与根据文本类别的大小进行调整,如果文本类别大,则相对的调小一些该权重,否则调大一些该权重,则调整后的相似度技术公式如公式(4)所示:
Figure 820638DEST_PATH_IMAGE002
                       (4)
步骤4:找出测试文本si的最大的K个最相似邻居,计算每个文本类别的权重,计算公式如公式(5)所示:
Figure 215847DEST_PATH_IMAGE003
                         (5)
其中s为新的文本向量,sim(s, si, wt)为新的文本向量和s的K个最近邻中的si的相似度,tft代表了文本向量的类别属性,如果si属于该类,则tft等于1,否则等于0。
步骤5:分别计算新的文本向量s的所有类别权重,找出权重最大的文本类别,则新的文本属于该类,完成文本分类。
本发明首先对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后需要对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后利用基于偏差的K近邻文本分类算法构建分类器进行分类,分类结果准确。

Claims (2)

1.一种基于修正的K近邻文本分类方法,其特征在于:该方法首先通过文本预处理对训练文本集合中的每一个文档进行分词,去除停用词,将文本进行项目化表示,然后进行文本特征选择,对文本向量降维,选择尽可能少且与文档主题概念密切相关的文档特征,最后进行文本分类,利用基于偏差的K近邻文本分类算法构建分类器,得到分类结果,具体步骤如下:
1) 文本预处理;搜集文本并进行预处理,包括处理文本乱码及非文本内容分词并去停用词,删除非相关文本;
2)文本特征选择,应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进行文本分类;用文本预处理的结果组成一个文本向量来表征文本,然后根据规则从高维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率;
3) 文本分类;由于K近邻文本分类方法存在当样本分布密度不不均匀时K近邻存在倾向于大类的分类决策,采用基于修正的K近邻文本分类方法进行分类。
2.根据权利要求1所述的基于修正的K近邻文本分类方法,其特征在于:步骤2)中,文本特征选择时,构造一个特征函数对特征词进行打分,然后按照分值的高低将特征词排序,最后通过设定的阈值仅保留分值高于阈值的特征词。
CN 201010601777 2010-12-23 2010-12-23 基于修正的k近邻文本分类方法 Active CN102033949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010601777 CN102033949B (zh) 2010-12-23 2010-12-23 基于修正的k近邻文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010601777 CN102033949B (zh) 2010-12-23 2010-12-23 基于修正的k近邻文本分类方法

Publications (2)

Publication Number Publication Date
CN102033949A CN102033949A (zh) 2011-04-27
CN102033949B true CN102033949B (zh) 2012-02-29

Family

ID=43886842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010601777 Active CN102033949B (zh) 2010-12-23 2010-12-23 基于修正的k近邻文本分类方法

Country Status (1)

Country Link
CN (1) CN102033949B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184402A (zh) * 2011-05-17 2011-09-14 哈尔滨工程大学 一种特征选择方法
CN103345528B (zh) * 2013-07-24 2016-08-24 南京邮电大学 一种基于关联分析和knn的文本分类方法
CN104123336B (zh) * 2014-05-21 2018-04-24 深圳北航天汇创业孵化器有限公司 深度玻尔兹曼机模型及短文本主题分类系统和方法
CN104462405A (zh) * 2014-12-10 2015-03-25 天津大学 一种基于文本模型的过采样算法
CN106202116B (zh) * 2015-05-08 2020-09-25 北京信息科技大学 一种基于粗糙集与knn的文本分类方法及系统
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN105426426B (zh) * 2015-11-04 2018-11-02 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
CN106294689B (zh) * 2016-08-05 2018-09-25 浪潮电子信息产业股份有限公司 一种基于文本类特征选择进行降维的方法和装置
CN107657060B (zh) * 2017-10-20 2020-06-30 中电科新型智慧城市研究院有限公司 一种基于半结构化文本分类的特征优化方法
CN107832456B (zh) * 2017-11-24 2021-11-26 云南大学 一种基于临界值数据划分的并行knn文本分类方法
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN108898274A (zh) * 2018-05-30 2018-11-27 国网浙江省电力有限公司宁波供电公司 一种电力调度日志缺陷分类方法
CN109408636A (zh) * 2018-09-29 2019-03-01 新华三大数据技术有限公司 文本分类方法及装置
CN109993216B (zh) * 2019-03-11 2021-05-11 深兰科技(上海)有限公司 一种基于k最近邻knn的文本分类方法及其设备
CN110457467A (zh) * 2019-07-02 2019-11-15 厦门美域中央信息科技有限公司 一种基于高斯混合模型的信息技术文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363899A (zh) * 2000-12-28 2002-08-14 松下电器产业株式会社 文本分类参数生成器和使用所生成参数的文本分类器
CN1701324A (zh) * 2001-11-02 2005-11-23 Dba西方集团西方出版社 用于分类文档的系统,方法和软件

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363899A (zh) * 2000-12-28 2002-08-14 松下电器产业株式会社 文本分类参数生成器和使用所生成参数的文本分类器
CN1701324A (zh) * 2001-11-02 2005-11-23 Dba西方集团西方出版社 用于分类文档的系统,方法和软件

Also Published As

Publication number Publication date
CN102033949A (zh) 2011-04-27

Similar Documents

Publication Publication Date Title
CN102033949B (zh) 基于修正的k近邻文本分类方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Fernandes et al. A proactive intelligent decision support system for predicting the popularity of online news
CN108363810B (zh) 一种文本分类方法及装置
CN104573046B (zh) 一种基于词向量的评论分析方法及系统
CN109886349B (zh) 一种基于多模型融合的用户分类方法
CN105335491B (zh) 基于用户点击行为来向用户推荐图书的方法和系统
CN108763213A (zh) 主题特征文本关键词提取方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN107169001A (zh) 一种基于众包反馈和主动学习的文本分类模型优化方法
WO2016180270A1 (zh) 网页分类方法和装置、计算设备以及机器可读存储介质
CN105095187A (zh) 一种搜索意图识别方法及装置
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN109948668A (zh) 一种多模型融合方法
CN108388914A (zh) 一种基于语义计算的分类器构建方法、分类器
CN102622373A (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
CN101814086A (zh) 一种基于模糊遗传算法的中文web信息过滤方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN104298787A (zh) 一种基于融合策略的个性化推荐方法及装置
CN103810162A (zh) 推荐网络信息的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201202

Address after: 210000 No. 20 West Beijing Road, Jiangsu, Nanjing

Patentee after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. INFORMATION & TELECOMMUNICATION BRANCH

Address before: 210003 No. 128 North Railway Street, Jiangsu, Nanjing

Patentee before: NANJING University OF FINANCE AND ECONOMICS

TR01 Transfer of patent right