CN108509552A - 一种文本分类方法 - Google Patents
一种文本分类方法 Download PDFInfo
- Publication number
- CN108509552A CN108509552A CN201810238364.1A CN201810238364A CN108509552A CN 108509552 A CN108509552 A CN 108509552A CN 201810238364 A CN201810238364 A CN 201810238364A CN 108509552 A CN108509552 A CN 108509552A
- Authority
- CN
- China
- Prior art keywords
- text
- index
- classification
- word
- weighted value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本分类方法,属于文本分类领域,具体包括如下步骤:从文件库选取若干篇文章筛选出文本的指标集,并将指标集进行归类划分为不同的指标库。对指标库进行归一化处理得到文本分类指标矩阵。选取需分类的文本,对文本进行预处理,提取特征词,对文本进行分词和分字处理,去除中性词。计算特征词的权重值;根据权重值选取本分类指标矩阵对词和字进行文本分类处理,完成文本分类。本发明通过根据现有已经分类的文本进行筛选指标集,并根据指标集进行划分指标库,同时计算指标库的在不同文本中权重值,再进行列出分类矩阵,从而使得分类模型更加准确更加好,同时在前期通过人为的判断进行更新指标库。
Description
技术领域
本发明涉及文本分类领域,特别地,涉及一种文本分类方法。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。在文本分类的过程中,关键词的权重起到决定性的作用,它能快速反映一篇文档主题内容或与文档所在领域高度相关的词语,帮助人们在搜寻所需的信息时能够迅速地定位到相应的文档。目前获取关键词或特征词的方式有4种:(1)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
基于此,现提供一种基于改进的TFIDF算法的文本分类的方法,该方法结合文本分类的实际情况,结合传统的特征词权重的计算方法,分析了传统TF-IDF算法在特征词权重计算上的不足,即传统的TFIDF算没有考虑特征词在类内和内间的分布,导致一些区分度不强的特征词赋予了较大的权重。针对传统的TFIDF算法的不足,结合特征词权重对文本分类的实际影响,本发明对传统TFIDF算法公式进行了修改,剔除干扰特征性在内间的影响,同时加入了类内离散度的概念,实现了文本分类精确度的要求。
发明内容
为了解决背景技术中存在的不足,本发明目的在于提供一种文本分类方法,通过该方法使得分类的文本更加准确,具有进步性的分类处理能力,同时满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。
为解决上述问题,本发明采用如下技术方案:
一种文本分类方法,包括如下步骤,
步骤1:从文件库选取若干篇文章筛选出文本的指标集,并将指标集进行归类划分为不同的指标库;
步骤2:对指标库进行归一化处理得到文本分类指标矩阵;
步骤3:选取需分类的文本,对文本进行预处理,提取特征词,对文本进行分词和分字处理,去除中性词;
步骤4:计算特征词的权重值;
步骤5:根据权重值选取步骤2中的本分类指标矩阵对词和字进行文本分类处理,完成文本分类。
所述步骤1中的筛选文本的指标集的具体过程为:
步骤1.1:文件库为已经分类号的文本类型的文件库,从文件库选取不同文本类型的5000篇-10000篇的文本进行筛选;
步骤1.2:步骤1.1筛选的过程为从每个文本提取与该文本的分类相关的词或字;
步骤1.3:对每个类型的文本筛选出的词或字进行汇总得到文本的指标集。
所述步骤1中划分为不同的指标库的具体过程为:
步骤1.4:对每个文本类型的文本指标集进行根据词或字在该类文本中的权重值进行划分;
步骤1.5:同时划分算出每个指标集在文本类型中的权重值。
所述步骤2中归一化处理的具体过程为:
设m个待测数据,n指权重值,得到矩阵(aij)m×n,其中aij为第i个指标所对应的第j个因素的评价值,将其归一化之后得到矩阵(aij)m×n’。
所述步骤骤4中的具体过程为:
首先,计算第j个状态下的第i个因素占其指标的比重值:
其中,j=1,2…n,i为因素个数,j为状态个数;
其次,计算第j个指标的信息熵:
其中,k=1,j=1,2…n,
然后,计算第j个指标的熵权;
其中,i代表每个因素,j代表每个因素所对应的状态,n为总的状态数;
最后,将均衡函数引入变权公式得到指标的变权重数值,式(4)为均衡函数,将其引入变权公式后变权重表达式为式(5);
其中,m代表各个因素,i为正整数,α为平衡因子,取1/2,xm为变元;
其中,w′i为第i指标的变权重系数;m为指标所对应的二层指标个数;xi为第i个指标标准化之后的值;wi为第i个综合状态量的常权重系数。
上述方案还包括步骤5中完成分类后,认为进行对已分类的文本进行认为判断,把人为分类判断与机器分类进行对比同时统计机器分类准确率,当分类少于1000篇或者准确率低于96%时,人为对文本分类后把该文档执行步骤1,进行更新步骤1的指标库;当当分类大于1000篇或者准确率不低于96%时,人为分类判断停止,步骤5中执行的分类结果则为最终的分类结果。
本发明采用上述技术方案,本发明有如下显著效果:
本发明通过根据现有已经分类的文本进行筛选指标集,并根据指标集进行划分指标库,同时计算指标库的在不同文本中权重值,再进行列出分类矩阵,从而使得分类模型更加准确更加好,同时在前期通过人为的判断进行更新指标库,使得分类的文本更加准备,实用性强,易于推广。
附图说明
图1是本发明的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
一种文本分类方法,如图1所示,包括如下步骤,
步骤1:从文件库选取若干篇文章筛选出文本的指标集,并将指标集进行归类划分为不同的指标库。筛选文本的指标集的具体过程为:
步骤1.1:文件库为已经分类号的文本类型的文件库,从文件库选取不同文本类型的5000篇-10000篇的文本进行筛选。选取的文本的数量根据需要而定,一般5000篇-10000篇得到的分类的准确率已经达到95.8%,如果需要进行更高的准确率,可以选取更多的文本数量进行筛选。
步骤1.2:步骤1.1筛选的过程为从每个文本提取与该文本的分类相关的词或字。主要选取划分该文本被划分为哪个类型的文本起到的一些词或者字。比如一些植物名称或者动物名称等,主要是自然科学类。
步骤1.3:对每个类型的文本筛选出的词或字进行汇总得到文本的指标集。对有影响的词或字都进行汇总,不管影响的大小均进行汇总。一些中性词,如“的、么、了”等直接去掉。
划分为不同的指标库的具体过程为:
步骤1.4:对每个文本类型的文本指标集进行根据词或字在该类文本中的权重值进行划分;
步骤1.5:同时划分算出每个指标集在文本类型中的权重值。
步骤2:对指标库进行归一化处理得到文本分类指标矩阵。归一化处理的具体过程为:
设m个待测数据,n指权重值,得到矩阵(aij)m×n,其中aij为第i个指标所对应的第j个因素的评价值,将其归一化之后得到矩阵(aij)m×n’。该矩阵就是为分类文本的模型,输出的结果为分类文本类型的输出值,根据输出值进行与现有的类型比较得到分类结果。
步骤3:选取需分类的文本,主要是对需要分类的文本进行获取。对文本进行预处理,将原始语料格式化为规范样式,便于后续的处理。提取特征词,从文本抽取出反映主题的特征,并确定特征项的权重。对文本进行分词和分字处理,去除中性词,其中还有一些标调符号等均去掉。
步骤4:计算特征词的权重值。具体过程为:
首先,计算第j个状态下的第i个因素占其指标的比重值:
其中,j=1,2…n,i为因素个数,j为状态个数;
其次,计算第j个指标的信息熵:
其中,k=1,j=1,2…n,
然后,计算第j个指标的熵权;
其中,i代表每个因素,j代表每个因素所对应的状态,n为总的状态数;
最后,将均衡函数引入变权公式得到指标的变权重数值,式(4)为均衡函数,将其引入变权公式后变权重表达式为式(5);
其中,m代表各个因素,i为正整数,α为平衡因子,取1/2,xm为变元;
其中,w′i为第i指标的变权重系数;m为指标所对应的二层指标个数;xi为第i个指标标准化之后的值;wi为第i个综合状态量的常权重系数。
步骤5:根据权重值选取步骤2中的本分类指标矩阵对词和字进行文本分类处理,完成文本分类。
其中,还包括步骤5中完成分类后,认为进行对已分类的文本进行认为判断,把人为分类判断与机器分类进行对比同时统计机器分类准确率,当分类少于1000篇或者准确率低于96%时,人为对文本分类后把该文档执行步骤1,进行更新步骤1的指标库;当当分类大于1000篇或者准确率不低于96%时,人为分类判断停止,步骤5中执行的分类结果则为最终的分类结果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种文本分类方法,其特征在于:包括如下步骤,
步骤1:从文件库选取若干篇文章筛选出文本的指标集,并将指标集进行归类划分为不同的指标库;
步骤2:对指标库进行归一化处理得到文本分类指标矩阵;
步骤3:选取需分类的文本,对文本进行预处理,提取特征词,对文本进行分词和分字处理,去除中性词;
步骤4:计算特征词的权重值;
步骤5:根据权重值选取步骤2中的本分类指标矩阵对词和字进行文本分类处理,完成文本分类。
2.根据权利要求1所述的一种文本分类方法,其特征在于,所述步骤1中的筛选文本的指标集的具体过程为:
步骤1.1:文件库为已经分类号的文本类型的文件库,从文件库选取不同文本类型的5000篇-10000篇的文本进行筛选;
步骤1.2:步骤1.1筛选的过程为从每个文本提取与该文本的分类相关的词或字;
步骤1.3:对每个类型的文本筛选出的词或字进行汇总得到文本的指标集。
3.根据权利要求2所述的一种文本分类方法,其特征在于,所述步骤1中划分为不同的指标库的具体过程为:
步骤1.4:对每个文本类型的文本指标集进行根据词或字在该类文本中的权重值进行划分;
步骤1.5:同时划分算出每个指标集在文本类型中的权重值。
4.根据权利要求3所述的一种文本分类方法,其特征在于,所述步骤2中归一化处理的具体过程为:
设m个待测数据,n指权重值,得到矩阵(aij)m×n,其中aij为第i个指标所对应的第j个因素的评价值,将其归一化之后得到矩阵(aij)m×n’。
5.根据权利要求4所述的一种文本分类方法,其特征在于,所述步骤骤4中的具体过程为:
首先,计算第j个状态下的第i个因素占其指标的比重值:
其中,j=1,2…n,i为因素个数,j为状态个数;
其次,计算第j个指标的信息熵:
其中,k=1,j=1,2…n,
然后,计算第j个指标的熵权;
其中,i代表每个因素,j代表每个因素所对应的状态,n为总的状态数;
最后,将均衡函数引入变权公式得到指标的变权重数值,式(4)为均衡函数,将其引入变权公式后变权重表达式为式(5);
其中,m代表各个因素,i为正整数,α为平衡因子,取1/2,
xm为变元;
其中,w′i为第i指标的变权重系数;m为指标所对应的二层指标个数;xi为第i个指标标准化之后的值;wi为第i个综合状态量的常权重系数。
6.根据权利要求5所述的一种文本分类方法,其特征在于,还包括步骤5中完成分类后,认为进行对已分类的文本进行认为判断,把人为分类判断与机器分类进行对比同时统计机器分类准确率,当分类少于1000篇或者准确率低于96%时,人为对文本分类后把该文档执行步骤1,进行更新步骤1的指标库;当当分类大于1000篇或者准确率不低于96%时,人为分类判断停止,步骤5中执行的分类结果则为最终的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810238364.1A CN108509552A (zh) | 2018-03-22 | 2018-03-22 | 一种文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810238364.1A CN108509552A (zh) | 2018-03-22 | 2018-03-22 | 一种文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108509552A true CN108509552A (zh) | 2018-09-07 |
Family
ID=63377989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810238364.1A Pending CN108509552A (zh) | 2018-03-22 | 2018-03-22 | 一种文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509552A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737818A (zh) * | 2019-09-06 | 2020-01-31 | 平安科技(深圳)有限公司 | 网络发布数据处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970888A (zh) * | 2014-05-21 | 2014-08-06 | 山东省科学院情报研究所 | 基于网络度量指标的文档分类方法 |
CN104866573A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种文本分类的方法 |
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
-
2018
- 2018-03-22 CN CN201810238364.1A patent/CN108509552A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103970888A (zh) * | 2014-05-21 | 2014-08-06 | 山东省科学院情报研究所 | 基于网络度量指标的文档分类方法 |
CN104866573A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种文本分类的方法 |
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
Non-Patent Citations (1)
Title |
---|
宋人杰 等: "基于变权系数的继电保护状态模糊综合评价方法", 《电力系统保护与控制》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737818A (zh) * | 2019-09-06 | 2020-01-31 | 平安科技(深圳)有限公司 | 网络发布数据处理方法、装置、计算机设备和存储介质 |
CN110737818B (zh) * | 2019-09-06 | 2024-02-27 | 平安科技(深圳)有限公司 | 网络发布数据处理方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291822A (zh) | 基于深度学习的问题分类模型训练方法、分类方法及装置 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN106021362A (zh) | 查询式的图片特征表示的生成、图片搜索方法和装置 | |
CN103186538A (zh) | 一种图像分类方法和装置、图像检索方法和装置 | |
CN111401419A (zh) | 基于改进RetinaNet的员工着装规范检测方法 | |
CN103778262B (zh) | 基于叙词表的信息检索方法及装置 | |
CN101853299A (zh) | 一种基于感性认知的图像检索结果排序方法 | |
CN109872162A (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN105427309A (zh) | 面向对象高空间分辨率遥感信息提取的多尺度分层处理方法 | |
CN108470022A (zh) | 一种基于运维管理的智能工单质检方法 | |
CN106326913A (zh) | 一种洗钱账户的确定方法及装置 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN107330464A (zh) | 数据处理方法和装置 | |
CN109120632A (zh) | 基于在线特征选择的网络流异常检测方法 | |
CN106095939B (zh) | 账户权限的获取方法和装置 | |
CN109739844A (zh) | 基于衰减权重的数据分类方法 | |
CN109117885A (zh) | 一种基于深度学习的邮票识别方法 | |
CN110348490A (zh) | 一种基于支持向量机算法的土壤质量预测方法及装置 | |
CN110472053A (zh) | 一种面向公共资源招投标公告数据的自动分类方法及其系统 | |
CN109086825A (zh) | 一种基于模型自适应选择的多分类模型融合方法 | |
CN106779086A (zh) | 一种基于主动学习和模型剪枝的集成学习方法及装置 | |
CN109344907A (zh) | 基于改进评判标准分类算法的判别方法 | |
CN107818376A (zh) | 用户流失预测方法和装置 | |
CN109993187A (zh) | 一种用于识别物体类别的建模方法、机器人及存储装置 | |
CN107169523A (zh) | 自动确定机构的所属行业类别的方法、存储设备及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |
|
RJ01 | Rejection of invention patent application after publication |