CN111382273B

CN111382273B - 一种基于吸引因子的特征选择的文本分类方法

Info

Publication number: CN111382273B
Application number: CN202010158078.1A
Authority: CN
Inventors: 周红芳; 韩霜
Original assignee: Guangzhou Zhiying Wanshi Market Management Co ltd
Current assignee: Guangzhou Zhiying Wanshi Market Management Co ltd; Xi'an Huaqi Zhongxin Technology Development Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-04-14
Anticipated expiration: 2040-03-09
Also published as: CN111382273A

Abstract

本发明公开了一种基于吸引因子的特征选择的文本分类方法，使用朴素贝叶斯分类器和支持向量机分类器进行数据集预处理，获取数据集，消除数据集中词条在文档中出现的频率超过25％的词条及词条出现的文档少于3篇的词条，采用交叉验证法划分测试集和训练集；使用基于吸引因子的特征选择方法，设置测试集和训练集特征词数量，生成最优特征子集；使用朴素贝叶斯分类器和支持向量机分类器对训练集的最优特征子集依次进行训练和分类，训练出分类器模型，将测试集的最优特征子集输入分类器模型得到分类结果；使用微平均‑F1与宏平均‑F1两个评价指标对分类结果进行评估，验证该方法的性能。

Description

一种基于吸引因子的特征选择的文本分类方法

技术领域

本发明属于数据挖掘方法技术领域，涉及一种基于吸引因子的特征选择的文本分类方法。

背景技术

文本分类是为文档分配预定义类别的任务，传统上分类任务是由领域专家手动执行的，但是随着互联网上可用的数字文档数量的显著增长，不可能手动处理如此大量的信息，分类算法随着IT技术的发展应运而生。在信息科学和计算机科学中研究的文本分类已在许多领域中找到了许多应用，例如信息检索，体裁分类，垃圾邮件过滤，语言识别等。文本分类是文本信息挖掘的基本功能，也是处理和组织文本数据的核心技术，能够有效地辅助人们组织和分类信息数据，使信息杂乱的问题在较大程度上得到解决，对于信息的高效管理及有效利用都具有很强的现实的意义，因此文本分类技术成为了数据挖掘领域的重要研究方向之一。

文本分类技术是一个复杂的系统工程，特征选择又是文本分类的关键技术之一。特征选择是文本分类中的一个重要问题，能够不牺牲分类性能的情况下缩减特征空间大小，同时避免过度拟合现象的产生。其主要思想是按照一定规则从原本的高维特征集合空间中将对文本分类没有多大贡献的特征词删除，选取出一部分最为有效的、最具有代表性的特征词构成新的特征子集。通过特征选择这一步骤，一些和需求无关的特征词会被剔除，使文本特征集合空间的维数得到大幅度降低，进而提高文本分类的效率和精度。

文本分类的主要特征是，即使对于中等大小的数据集，特征空间中的特征数量也可以轻松达到数万个数量级，因此在高维情况下存在以下两个问题：

一个是某些复杂的算法无法在文本分类中最佳使用；另一个问题是，当大多数算法在训练集中训练时，过度分类在文本分类中是不可避免的，导致分类精准度低。因此，降维一直是主要的研究领域。与此同时，文本分类技术的飞速发展也带来了前所未遇的困难和挑战，在理论和实践上文本分类技术的研究仍存在很大的发展空间。

发明内容

本发明的目的是提供一种基于吸引因子的特征选择的文本分类方法，解决了现有技术中存在的分类精准度低的问题。

本发明所采用的技术方案是，一种基于吸引因子的特征选择的文本分类方法，具体包括如下步骤：

步骤1：使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理，获取已经进行了词干提取和去停用词处理的若干数据集，消除数据集中词条在文档中出现的频率超过25％的词条及词条出现的文档少于3篇的词条，采用交叉验证法划分测试集和训练集；

步骤2：使用基于吸引因子的特征选择方法，设置步骤1中得到的测试集和训练集特征词数量，生成最优特征子集；

步骤3：使用朴素贝叶斯分类器NB和支持向量机分类器SVM对步骤2中得到的训练集的最优特征子集依次进行训练和分类，训练出分类器模型，将步骤2中得到的测试集的最优特征子集输入分类器模型得到分类结果；

步骤4：使用微平均-F1与宏平均-F1两个评价指标对步骤3中得到的分类结果进行评估，验证基于吸引因子的特征选择方法的性能。

本发明的特点还在于：

步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。

步骤2具体步骤为：

步骤2.1：计算吸引因子T(t_i)，其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率；

步骤2.2：计算最大术语正率MT，即取真正率和假正率中的最大值来权衡术语的真实相关性；

步骤2.3：根据步骤2.2中计算的真正率tpr和假正率fpr，再计算归一化差异测量因子NDM；

步骤2.4：按照下列公式计算每个词条的权重值MTFS(t_i)，然后进行排序，根据词条个数选择出最优特征子集，

MTFS(t_i)＝MT·T(t_i)·NDM

其中MT代表步骤2.2中的最大术语正率，T(t_i)为步骤2.1中的吸引因子，NDM代表步骤2.3中的归一化差异测量因子。

步骤2的具体步骤为：

步骤2.1：计算吸引因子T(t_i)，其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率

其中，其中，tf_ij是术语在类别C_i中的文本d_j中出现的次数，N为类别C_i中的总文本数；

步骤2.2：计算最大术语正率MT，即取真正率tpr和假正率fpr中的最大值来权衡术语的真实相关性；

其中真正率tpr和假正率fpr的计算公式为：

其中，tp表示包含词条t_i并且属于类别C_k的文本数；fn表示不包含词条t_i并且属于类别C_k的文本数；fp表示包含词条t_i并且不属于类别C_k的文本数；tn表示不包含词条t_i并且不属于类别C_k的文本数；

步骤2.3：根据步骤2.2中公式(2)、(3)计算的真正率tpr和假正率fpr，再按照如下公式计算归一化差异测量因子，

步骤2.4：按照如下公式计算每个词条的权重值MTFS(t_i)，然后进行排序，根据词条个数选择出最优特征子集，

其中MT代表步骤2.2中得到的最大术语正率，T(t_i)为步骤2.1中得到的吸引因子，NDM代表步骤2.3中得到的归一化差异测量因子。

步骤4中微平均-F1计算公式如下：

其中，

为平均查准率，

为平均查全率，查准率

查全率

tp表示包含词条t_i并且属于类别C_k的文本数；fn表示不包含词条t_i并且属于类别C_k的文本数；fp表示包含词条t_i并且不属于类别C_k的文本数；

宏平均-F1计算公式如下：

式中F₁(k)表示第k个测试类别的微平均-F1的值，K表示测试类别的总个数。

本发明的有益效果是：

1.本发明综合地考虑了文档频率和术语在类中及类间的分布问题对分类的贡献，因此在分类准确率上相比于传统的CHI算法、GINI算法、NDM算法、OR算法，本发明在数据集20Newsgroups、WebKB、K1a、K1b上具有明显的优势结果，实验证明该基于吸引因子的特征选择方法应用于文本分类时可以提高分类精度，是一种有效的特征选择算法。

2.在与不同的分类器配合上，将本发明和其他传统的CHI算法、GINI算法、NDM算法、OR算法四种算法选择的特征子集分别在NB和SVM这两种分类器上运行，最终结果表明本发明结果具有好的效果，分类准确率高。

附图说明

图1是本发明一种基于吸引因子的特征选择的文本分类方法的流程图；

图2是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时微平均-F1值的折线对比图；

图3是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时宏平均-F1值的折线对比图；

图4是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时微平均-F1值的折线对比图；

图5是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时宏平均-F1值的折线对比图；

图6是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时微平均-F1值的柱状对比图；

图7是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时宏平均-F1值的柱状对比图；

图8是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时微平均-F1值的柱状对比图；

图9是本发明一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时宏平均-F1值的柱状对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于吸引因子的特征选择的文本分类方法，如图1所示，具体包括如下步骤：

本发明使用朴素贝叶斯(Naive Bayes，NB)、支持向量机(SupportVectorMachines，SVM)分类算法来进行分类。朴素贝叶斯算法是一种基于概率的算法，它广泛应用于机器学习领域，主要关注的是文本属于某个类别的概率，该方法在实际应用中表现出了很好的高效性和健壮性。支持向量机算法在挖掘数据内在特征方面有很好的效果，并且与其他分类算法相比具有较高的准确性，在高维向量空间中，分类的核函数可以将向量空间的运算从高维降到低维。

步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。

步骤2具体步骤为：

步骤2.1：计算吸引因子T(t_i)，其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率，吸引因子越大，说明术语越能代表此类；

MTFS(t_i)＝MT·T(t_i)·NDM

步骤2的具体步骤为：

其中真正率tpr和假正率fpr的计算公式为：

步骤4中微平均-F1计算公式如下：

其中，

为平均查准率，

为平均查全率，查准率

查全率

宏平均-F1计算公式如下：

实验中得到的Micro-F1值和Macro-F1值越高越稳定，分类的效果越好，精准度越高。

实验中经过对数据集的分析，本发明考虑了术语在类内的分布情况，同时还考虑了在类间存在高度稀疏的术语时如何解决的问题，目的是指从原始特征空间中选择出具有较强的类别区分能力的特征项，依据某一种或某些评价标准对特征全集进行降维处理，生成较低维度的特征子集。

为了验证基于文档层词频重排序的特征选择方法的能力，将该方法与已知的归一化卡方检验(CHI)、基尼系数(GINI)方法、差值测量方法(NDM)、和优势率(OR)进行对比。从图2、3、6和7中可以看出，在朴素贝叶斯分类器的实验结果中，本发明比现有方法具有更高的F1值，更加稳定且平均最优。从图4、5、8和9中可以看出，在支持向量机分类器的实验结果中，本发明在大部分数据集中都表现出了比较好的结果。实验证明本发明是一种有效的特征选择算法。

本发明的算法的伪代码如下所示：

本发明一种基于吸引因子的特征选择的文本分类方法，其有益效果在于：本发明综合地考虑了文档频率和术语在类中及类间的分布问题对分类的贡献，因此在分类准确率上相比于传统的CHI算法、GINI算法、NDM算法、OR算法，本发明在数据集20Newsgroups、WebKB、K1a、K1b上具有明显的优势结果，实验证明该基于吸引因子的特征选择方法应用于文本分类时可以提高分类精度，是一种有效的特征选择算法。