CN105893380A - 一种改良的文本分类特征选择方法 - Google Patents
一种改良的文本分类特征选择方法 Download PDFInfo
- Publication number
- CN105893380A CN105893380A CN201410795989.XA CN201410795989A CN105893380A CN 105893380 A CN105893380 A CN 105893380A CN 201410795989 A CN201410795989 A CN 201410795989A CN 105893380 A CN105893380 A CN 105893380A
- Authority
- CN
- China
- Prior art keywords
- word
- feature
- text
- words
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种改良的文本分类特征选择方法,其中,所述一种改良的文本分类特征选择方法包括:获取训练集文本;对获取的训练集文本分词、去除停用词;改良特征选择方法,使用特征词的文本频率对全体词集进行划分,使用信息增益值对低频词集进行特征选择,再通过改进的χ2统计法对高频词集进行特征选择;合并两部分特征词形成最终分类特征词集。采用本发明,可以通过两次特征选择过程,选择出更具类别代表性的特征词,提高分类效率和准确度。
Description
技术领域
本发明属于文本挖掘技术领域,特别涉及一种改良的文本分类特征选择方法。
背景技术
随着信息技术的发展,当今世界的信息量也在以惊人的速度不断增加。如何在较短的时间内迅速、有效地处理数量庞大的文本文档,已经成为当前研究的热点。传统的信息检索技术已经不能够满足人们日益增加的需求,此时,文本分类技术应运而生,文本分类技术能够很大程度上解决文本文档信息量大并且杂乱的问题,帮助人们检索、查询、过滤文档信息,提高信息的可用效率,同时,文本分类也是文本挖掘的重要手段。
文本分类即在给定分类体系的前提下,根据分类体系中相应的分类规则,将待分类文本分配到预定义的某个类别中。文本分类的过程实际上是对输入文本内容模式特征的识别与归类的过程。文本分类的整个过程可以分为文本预处理、特征选择、特征值计算、构造分类器、待分类文本的处理及归类这五个主要部分,其具体流程图见图1。
经过文本预处理之后,用于表示文本的特征向量的维数往往非常庞大,里面可能含有很多对文本分类无贡献的噪音词,导致分类效率降低,影响分类效果。特征选择能够通过一定的方法保留对文本分类有一定贡献的词汇,降低文本向量空间的维数,提高分类器的分类效率和分类精度。在中文文本分类中,常用的特征选择方法主要有以下几种:
(1)文档频率法(Document Frequency,DF),是指在训练预料中出现该特征的文档数,其基本思想为文档频率较高的词在文本集中出现的次数较多,有可能携带较多的类别信息。但是采用DF的方法进行特征的选择会漏掉低频高信息量的词。
(2)信息增益法(Information Gain,IG),定义为某一特征在文档中出现前后的信息熵之差,基本思想为通过计算某个词能为整个分类提供多少信息量来衡量它对于分类的重要程度,其中信息量的多少用熵来衡量。IG算法能够解决DF算法中出现的漏掉低频高信息量的词的问题,但是此算法可能导致特征词集稀疏。
(3)χ2统计法(Chi-square,CHI),基本思想为某个词关于类j的χ2统计值越大,说明该词在类j中的分布情况与该词在总文档中的分布情况越不一致,该词携带的类别信息也就越多。CHI算法考虑了特征词对某一个分类的影响。但是如果出现特征词均匀的影响全部分类时,则无法取得很好的分类效果。
(4)互信息法(Mutual Information,MI),其基本思想与CHI算法类似,互信息值的大小表征的是文档与类的相关程度。此法在试验环境下性能表现不稳定。
由上可见,有必要设计一种更有效的特征选择方法,以克服各特征选择算法的不足,选出更具类别代表性的特征词,进而提高文本分类的准确率和召回率。
发明内容
为解决现有文本分类特征选择方法准确度差,特征性不强等不足,本发明提出了一种基于改良特征选择的文本分类方法。所述方案包括以下步骤:
步骤1:获取不同类别的一定数量文本,将其赋予类别标签,作为文本分类的训练样本集;
步骤2:对训练集的文本进行预处理,包括中文分词,去停用词处理;
步骤3:使用改良的特征选择方法对文本进行特征选择。其特征在于,所述方法包括:
结合特征词的文档频率(DF)对全体词集进行划分,具体为:将预处理后各词按照文档频率进行排序,将词集T划分成两个集合:一个是文档频率小于某阈值的词集TA,一个是文档频率大于或等于某阈值的词集TB。
使用信息增益法(IG)对低文档频率词集TA进行特征词选择,具体为:设定一个信息增益值阈值M,计算词集TA中各词的信息增益值,将信息增益值小于M的词删掉,信息增益值大于等于M的词作为特征词保留。
使用改进的χ2统计法对高文档频率词集TB进行特征词选择,具体为:计算TB中每个词对于各类别CHI统计值的方差其中n为类别个数。计算得出的方差可以表征该词在全部类中分布的不平衡性,方差值越大,分布不平衡性越强,则该词的分类表征能力越强,携带的分类信息越大。
按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排序,得到词方差降序队列。
整合两部分特征词,形成文本分类特征词集,具体为:指定特征词总个数,优先选取低文档频率词集TA中的特征词,根据选取TA后仍需要选取的特征词个数,对应在TB的词方差降序队列中选取相应个数的词,与TA中的特征词共同构成分类特征词集合。
本发明所提供的技术方案的有益效果是:
通过DF对全词集进行划分,在低文档频率词集中,利用IG选择出出现频率虽低,但是带有大量信息量的词,从而同时克服单纯使用IG导致特征词集稀疏以及DF容易丢失低频关键词的缺点;选择对每个词的各类的CHI统计值求方差的方式,来反映词对于不同类之间分布情况的“波动程度”,即反映词与类关联度的特异性,并在高文档频率词集中按此方差值进行筛选,以进一步在高文档频率词集中选出更具代表性的特征词,最后合并两部分特征词,得到更具表征性的特征词集,在避免维度灾难的同时,也可以有效的提升分类的准确性。
附图说明
图1是中文文本分类的一般流程。
图2是本发明改良后的特征选择过程的示意图。
具体实施方式
为使本发明之目的、技术方案和优点阐述更加清晰,下面将结合附图与实际用例,对本发明做进一步的详细描述。
利用网络爬虫或人工收集从互联网上获取一定数量的多个领域中有代表性的文章,对这些文章进行分析整理,按照类别归入语料训练集,作为文本分类系统的训练样本集。
为了从文本中抽取出能够代表该文本特征的词语,对其进行分词、去除停用词等处理。
假设训练集E中含有n个类别:C1,C2,C3,...Cn,每个类别里含有若干个文本,训练集可表示为:
{E|{C1|d11,d12,d13,…},{C2|d21,d22,d23,…},…,{Cn|dn1,dn2,dn3,…}}
那么进行了文本预处理之后,训练集变成了:
{E|{C1|t11,t12,t13,…},{C2|t21,t22,t23,…},…,{Cn|tn1,tn2,tn3,…}}
其中的tij(i=1,2,…,n;j=1,2,…)表示文本dij(i=1, 2,…,n;j=1,2,…)经过分词和去停用词之后留下的词的集合。
图2为本发明所述的改良后特征选择过程的示意图,本发明所述的一种改良的特征选择方法具体如下:
步骤1:根据词的文档频率对词集进行划分。
令词集T=∪tij(i=1,2,...n,j=1,2,...),则T中某个词t的文档频率计算公式如下:
其中E为训练集中的所有文本,dij为训练集中第i类第j个文本,p(t,dij)为词t和第i类中第j个文本共同出现的概率。
设定文档频率阈值为K,则可将词集T划分成两个集合:一个是文档频率小于K的词集TA,一个是文档频率大于或等于K的词集TB。
步骤2:依据信息增益值,对低文档频率词集TA进行特征词选择。
词集TA中某个词t的信息增益值的计算公式如下:
其中p(Ci)表示文本属于类别Ci(j=1,2,...,n)的概率,p(t)表示包含词t的文本出现的概率,表示不包含词t的文本出现的概率,p(Ci|t)表示文本中包含词t时属于类别Ci的概率,表示文本中不包含词t时属于类别Ci的概率,n表示文本类别总数。
计算词集TA中各词的信息增益值,将信息增益值小于预设阈值M的词过滤掉,信息增益值大于等于预设阈值M的词予以保留。
步骤3:基于改进的χ2统计法对词集TB进行进一步的选择。
具体包括如下三个步骤:
步骤(1),假设:词t*(t*∈TB)与不同类别的文本之间符合一阶自由度的χ2分布,计算该词的CHI统计值,计算方法为:
其中N为训练集中E的文本数量。
步骤(2),计算该词各类别CHI统计值的方差将计算得出的方差作为该词在类中的分布情况与该词在其他类中的分布情况不一致的剧烈程度的一种衡量,其中方差越大,说明该词在各类的分布情况差异性越强,越有可能携带大量的分类信息。
步骤(3),按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排序,得到词方差降序队列。
步骤4:整合两部分特征词,形成文本分类特征词集。
指定特征词总个数,优先选取低文档频率词集TA中的特征词,根据选取TA后仍需要选取的特征词个数,对应在高文档频率词集TB的词方差降序队列中选取相应个数的特征词,与TA中选取的特征词共同构成分类特征词集合。
以下以上述过程确定参数为标准,对应用实例进行说明。
实施例1
步骤1:利用网络爬虫或人工收集从互联网上获取一定数量的多个领域中有代表性的文章,对这些文章进行分析整理,按照类别归入语料训练集,作为文本分类系统的训练样本集。
将获取的文本进行分词,并去除停用词。
假设训练集E中含有3个类别:C1,C2,C3,训练集可表示为:
{E|{C1|d11,d12,d13,…},{C2|d21,d22,d23,…},{C3|d31,d32,d33,…}}
那么进行了文本预处理之后,训练集变成了:
{E|{C1|t11,t12,t13,…},{C2|t21,t22,t23,…},{C3|t31,t32,t33,…}}
其中的tij表示文本dij(i=1,2,3;j=1,2,...)经过分词和去停用词之后留下的词的集合。
步骤2:假设预处理后每个类别中只有三个词,类C1中有词w11,w12,w13,类C2中有词w21,w22,w23,类C3中有词w31,w32,w33。下表以阈值为参考值显示各词DF和IG的大小,其中各词的DF值与阈值K的大小关系如表一所示,各词的IG值与阈值M的大小关系如表二所示:
表1
w11 | w12 | w13 | w21 | w22 | w23 | w31 | w32 | w33 | |
DF | >K | >K | <K | <K | <K | =K | >K | >K | <K |
表2
w11 | w12 | w13 | w21 | w22 | w23 | w31 | w32 | w33 | |
IG | <M | =M | <M | >M | >M | <M | =M | <M | <M |
将预处理后的各词按照文档频率进行排序,将词集划分成两个集合:一个是文档频率小于某阈值K的词集TA(w13,w21,w22,w33),一个是文档频率大于或等于K的词集TB(w11,w12,w23,w31,w32);
步骤3,计算词集TA中各词的信息增益值,将信息增益值小于阈值M的词删除,信息增益值大于等于M的词保留,得到词集T′A(w21,w22);
步骤4:基于改进的χ2统计法对词集TB进行进一步的特征词选择:
步骤(1),计算词集TB(w11,w12,w23,w31,w32)中每个词的CHI统计值,以词w12为例,计算后它的各类的CHI值分别为:
其中N为训练集中E的文本数量。
步骤(2),计算每个词各类别CHI统计值的方差。仍以词w12为例,其CHI统计值的方差 其中 将计算得出的方差作为该词在类中的分布情况与该词在其他类中的分布情况不一致的剧烈程度的一种衡量,得到五个词的CHI统计值方差分别为
步骤(3),按照计算得出的各个词的CHI统计值方差从高到低的顺序对词进行排序,得到词方差降序队列。
设方差从高到低排列顺序为 则基于改进的χ2统计法进一步选择后,词集TB排列顺序为(w11,w12,w23,w31,w32)。
步骤5:整合步骤3和步骤4得到的两部分特征词T′A和TB,形成文本分类特征词集。
设指定的特征词总个数为4,优先选取低频词集T′A中的特征词w21,w22,由于词集T′A中特征词个数为2,少于总个数4,所以对应在词集TB中还需选取2个特征词,由于方差从高到低排列顺序为所以只需选取特征词w11,w12,最终选取的分类特征词集合为T”(w11,w12,w21,w22)。
本发明实施例所提供的技术方案,能够选择出更具类别代表性的特征词,在平衡召回率和准确率的同时,提高文本分类的速度与精度。
通过以上实施方式的描述,本领域的技术人员可以清楚本发明的实现方式,本发明可以通过软件编程实现,相应的软件程序可存储于可读取的存储介质中,如光盘、硬盘、移动存储介质等。
以上为本发明的具体实施例,但并不用以限制本发明,对于本技术领域的普通技术人员来说,凡在不脱离本发明原理的前提下,所做的任何修改、等同替换、改进等,均应包含在本发明的保护发明范围之内。
Claims (6)
1.一种改良的分类文本特征选择方法,其特征在于,具体包括以下步骤:
步骤1:获取不同类别的一定数量文本,将其赋予类别标签,作为文本分类的训练样本集;
步骤2:对训练集的文本进行预处理,包括中文分词,去停用词处理;
步骤3:使用改良的特征选择方法对文本进行特征选择。
2.如权利要求1所述的一种基于改良特征选择的文本分类方法,其特征在于,步骤3所述的使用改良的特征选择方法对文本进行特征选择的方法,具体包括以下步骤::
步骤1:结合特征词的文本频率(Document Frequency,DF)对全体词集进行划分;
步骤2:使用信息增益值(Information Gain,IG)对低频特征词集进行特征选择;
步骤3:使用基于改进的χ2统计法对高频特征词集进行特征选择。
步骤4:整合两部分特征词,形成文本分类特征词集。
3.如权利要求2所述的一种改良的特征选择方法,其特征在于,结合特征词的文本频率对全体词集进行划分,具体为:
将预处理后各词按照文档频率进行排序,将词集T划分成两个集合:一个是文档频率小于某阈值的词集TA,一个是文档频率大于或等于某阈值的词集TB。
4.如权利要求2所述的一种改良的特征选择方法,其特征在于,使用信息增益值对低频特征词集进行特征选择,具体为;
设定一个信息增益值阈值M,计算词集TA中各词的信息增益值,将信息增益值小于M的词删掉,信息增益值大于等于M的词作为特征词保留。
5.如权利要求2所述的一种改良的特征选择方法,其特征在于,使用基于改进的χ2统计法对高频特征词集进行特征选择,具体为:
计算TB中每个词对于各类别CHI统计值的方差其中n为分类个数。计算得出的方差可以表征该词在全部类中分布的不平衡性,方差值越大,分布不平衡性越强,则该词的表征能力越强,携带的分类信息越大。
将计算得出的各个词的分布方差值从高到低的顺序对特征词进行排序,得到词分布方差值降序队列。
6.如权利要求2所述的一种改良的特征选择方法,其特征在于,整合两部分特征词,形成文本分类特征词集,具体为:
指定特征词总个数,优先选取低频词集TA中的特征词,根据选取TA后仍需要选取的特征词个数,对应在TB的词分布方差值降序队列中选取相应个数的特征词,与TA中选取的特征词共同构成分类特征词集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410795989.XA CN105893380B (zh) | 2014-12-11 | 2014-12-11 | 一种改良的文本分类特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410795989.XA CN105893380B (zh) | 2014-12-11 | 2014-12-11 | 一种改良的文本分类特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105893380A true CN105893380A (zh) | 2016-08-24 |
CN105893380B CN105893380B (zh) | 2019-08-23 |
Family
ID=56700108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410795989.XA Active CN105893380B (zh) | 2014-12-11 | 2014-12-11 | 一种改良的文本分类特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893380B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445918A (zh) * | 2016-09-26 | 2017-02-22 | 深圳市数字城市工程研究中心 | 一种中文地址处理方法及系统 |
CN106776828A (zh) * | 2016-11-24 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN106909694A (zh) * | 2017-03-13 | 2017-06-30 | 杭州普玄科技有限公司 | 分类标签数据获取方法以及装置 |
CN108038099A (zh) * | 2017-11-29 | 2018-05-15 | 贵州大学 | 基于词聚类的低频关键词识别方法 |
CN108376130A (zh) * | 2018-03-09 | 2018-08-07 | 长安大学 | 一种不良文本信息过滤用特征选择方法 |
CN109472318A (zh) * | 2018-11-27 | 2019-03-15 | 阿里巴巴集团控股有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN110019654A (zh) * | 2017-07-20 | 2019-07-16 | 南方电网传媒有限公司 | 一种不平衡网络文本分类优化系统 |
CN112052151A (zh) * | 2020-10-09 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 故障根因分析方法、装置、设备及存储介质 |
CN113378567A (zh) * | 2021-07-05 | 2021-09-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116588A (zh) * | 2011-11-17 | 2013-05-22 | 腾讯科技(深圳)有限公司 | 一种个性化推荐方法及系统 |
-
2014
- 2014-12-11 CN CN201410795989.XA patent/CN105893380B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116588A (zh) * | 2011-11-17 | 2013-05-22 | 腾讯科技(深圳)有限公司 | 一种个性化推荐方法及系统 |
Non-Patent Citations (2)
Title |
---|
代六玲等: "中文文本分类中特征抽取方法的比较研究", 《中文信息学报》 * |
黄秀丽等: "一种改进的文本分类特征选择方法", 《计算机工程与应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445918B (zh) * | 2016-09-26 | 2019-08-27 | 深圳市数字城市工程研究中心 | 一种中文地址处理方法及系统 |
CN106445918A (zh) * | 2016-09-26 | 2017-02-22 | 深圳市数字城市工程研究中心 | 一种中文地址处理方法及系统 |
CN106776828A (zh) * | 2016-11-24 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN106776828B (zh) * | 2016-11-24 | 2020-12-15 | 竹间智能科技(上海)有限公司 | 用于保持对话系统对话连贯性的方法及系统 |
CN106909694A (zh) * | 2017-03-13 | 2017-06-30 | 杭州普玄科技有限公司 | 分类标签数据获取方法以及装置 |
CN106909694B (zh) * | 2017-03-13 | 2020-01-17 | 杭州普玄科技有限公司 | 分类标签数据获取方法以及装置 |
CN110019654A (zh) * | 2017-07-20 | 2019-07-16 | 南方电网传媒有限公司 | 一种不平衡网络文本分类优化系统 |
CN108038099B (zh) * | 2017-11-29 | 2021-07-09 | 贵州大学 | 基于词聚类的低频关键词识别方法 |
CN108038099A (zh) * | 2017-11-29 | 2018-05-15 | 贵州大学 | 基于词聚类的低频关键词识别方法 |
CN108376130A (zh) * | 2018-03-09 | 2018-08-07 | 长安大学 | 一种不良文本信息过滤用特征选择方法 |
CN109472318A (zh) * | 2018-11-27 | 2019-03-15 | 阿里巴巴集团控股有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN109472318B (zh) * | 2018-11-27 | 2021-06-04 | 创新先进技术有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN112052151A (zh) * | 2020-10-09 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 故障根因分析方法、装置、设备及存储介质 |
CN112052151B (zh) * | 2020-10-09 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 故障根因分析方法、装置、设备及存储介质 |
CN113378567A (zh) * | 2021-07-05 | 2021-09-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113378567B (zh) * | 2021-07-05 | 2022-05-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105893380B (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893380A (zh) | 一种改良的文本分类特征选择方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN109101477B (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN102799647B (zh) | 网页去重方法和设备 | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
Suresh | An unsupervised fuzzy clustering method for twitter sentiment analysis | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN105426426A (zh) | 一种基于改进的K-Medoids的KNN文本分类方法 | |
CN105893388A (zh) | 一种基于类间区分度及类内高表征度的文本特征提取方法 | |
CN104750844A (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN103186675A (zh) | 一种基于网络热词识别的网页自动分类方法 | |
CN104391835A (zh) | 文本中特征词选择方法及装置 | |
CN105095210A (zh) | 一种筛选推广关键词的方法和装置 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN103678274A (zh) | 一种基于改进互信息和熵的文本分类特征提取方法 | |
CN105260437A (zh) | 文本分类特征选择方法及其在生物医药文本分类中的应用 | |
CN104361037B (zh) | 微博分类方法及装置 | |
TW202042132A (zh) | 一種異常交易節點的檢測方法及裝置 | |
Xu et al. | An improved information gain feature selection algorithm for SVM text classifier | |
CN103838798A (zh) | 页面分类系统及页面分类方法 | |
CN107562928B (zh) | 一种ccmi文本特征选择方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |