CN114547309A

CN114547309A - 一种基于改进tfidf的文本特征选择方法

Info

Publication number: CN114547309A
Application number: CN202210195321.6A
Authority: CN
Inventors: 黄连福
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-05-27

Abstract

本发明公开了一种基于改进TFIDF的文本特征选择方法，包括如下改进步骤：初步修改IDF公式；针对未考虑类间分布的改进；针对未考虑类内分布的改进；针对未考虑文档内分布的改进；针对词性的改进；针对被修饰词的改进；改进TF‑IDTF‑WI算法。本发明通过实验证明相比于传统的TF‑IDF方法，TF‑IDTF‑WI算法在文本分类中能取得更高的准确率，并且在其它评价指标上也表现更加出色。

Description

一种基于改进TFIDF的文本特征选择方法

技术领域

本发明涉及计算机技术及软件技术领域，尤其涉及一种基于改进TFIDF的文本特征选择方法。

背景技术

文本语料库是指以结构化的文本数据组成的大规模电子文本库，其中存放的是在日常生活工作中真实出现过的语言材料，是自然语言处理研究的基础资源；文本语料库按语言可以分为中文文本语料库、英文文本语料库、西班牙语文本语料库等；本文的研究内容都是在中文文本语料库基础之上进行，相比于英文文本语料库而言，中文文本语料库的处理更加复杂，中文词汇非常庞大，并且具有大量的成语、歇后语等，一个句子可能由很多词组成，并且词之间难以区分，比如赵元任先生所著的《施氏食狮史》中：“石室诗士施氏，嗜狮，誓食十狮”，“石室”指的是石头屋子，而不是石头和屋子两样物品；而英语文本由一个个单词和空格组成，对计算机而言操作更加容易。

文本分类是指通过计算机按照一定的分类体系对文本数据进行自动分类，一个常见的文本分类任务流程，具体步骤包括数据预处理、文本表示、特征选择、分类器的选择与训练、分类器的评估。

本文的研究内容在于特征选择阶段，这个阶段对分类的性能和结果起着关键性的作用，本文主要对文本分类的各个步骤的相关技术进行简要介绍，为后续算法的提出和实验的设计和实现打下铺垫。

TF-IDF(Term Frequency—Inverse Document Frequency)是一种常用于信息检索与文本挖掘的加权技术。TF-IDF旨在反映一个词对于语料库中的文档的重要性。TF-IDF加权技术经常被搜索引擎作为给用户查询响应的文档相关性打分和排名的核心工具，一个最简单的排名方法就是将每个用户查询的关键词的TF-IDF值相加来计算的。2015年的一项调查表明，数字图书馆中70％的基于文本的推荐系统都使用了TF-IDF技术。此外，TF-IDF也成功地应用于各种任务的停用词过滤，包括文本总结和分类，因此TF-IDF也可以完成于基于VSM模型的文本分类的特征选择任务。

在一份给定的文件中，词频TF(Term Frequency)指的是某一个给定的词语在该文件中出现的频率，之所以采用频率而不是频数，是因为文本长度往往会对词频产生较大的影响。对于某个特定的特征词t_i来说，其在文件d_k中的词频可以表示为：

其中n_i，j为特征词t_i在文件d_j中的出现次数，分母为d_j的长度，V为根据数据集所构造出的词典。

逆文档频率IDF(Inverse Document Frequency)是一个词语在语料库中的普遍重要性的度量，比如像的、地、得、我、你、如果、虽然这些常用词，可能会大量的出现在文章中，但是其对于文章主题的贡献微乎其微。因此就需要降低这些词的权重。定义IDF为：

其中|D|为语料库中的文件总数，

为语料库中包含词语t_i的文件数目，+1是为了避免某些情况下导致的分母为0。

最后TF-IDF值为TF值与IDF值相乘，这样可以避免一些高频但是无意义的词具有过高的权重，也可以提高一些出现频率低但是具有较高区分意义的词的权重。

TF-IDF(t_i，d_k)＝TF(t_i，d_k)×IDF(t_i)

在数据集D中，对于特征词t_i，有

其可以衡量该特征词在数据集中的重要程度，按照该值对数据集中所有特征词进行排序，选择TF-IDF值较大的特征词构成新的特征词集合即可完成特征选择工作。

尽管传统TF-IDF算法因思想简单、易实现、效果好而被广泛地应用于各类文本任务中。但是该算法仍然存在一些缺陷，导致分类效果并不理想。本文提出了TF-IDF存在的五个问题，并针对这五个问题逐一改进。

1、IDF缺少与类别之间的联系

文本语料库往往会将所有的文档分为多个类别，比如新闻文本可以分为财经、教育、科技、娱乐等类别。而文本分类任务所要作的就是将文本归到正确的类别。在IDF的计算公式

中，只考虑了全体数据集，在不同类别文档中的同一个词的IDF(t_i)值都是相同的，表示其在数据集中的普遍适用性的一个度量，并没有考虑特征词与类别之间的联系，为了应用于分类任务的特征选择，提升分类任务的性能，IDF应建立与类别之间的联系。此外，在IDF公式中，计算作为分母的文档数量时，计数时只判断特征词t_i是否出现在文档d_j中，这样特征词t_i在文档中出现1次与出现10次对IDF公式的贡献度完全一样，并且难以避免一些在文章中只出现一次且与主题无关的词对IDF值的扰动。

2、没有考虑特征词在不同类型文档中的分布

通常，我们预期的是：如果一个特征词在某个类中出现的频率比其它类高，那么这个特征词就更能代表这个类，应给予更高的权重。如果一个词在所有类中的分布很均匀，那么这个词有可能在分类任务中没有什么区分度，比如像"如果"，"总而言之"这些词，其广泛地应用于各类中文文本中，并不涉及文本类别，这时我们应降低这些词的权重。但对于TF-IDF算法，其并没有考虑到特征词在不同类型文档中的分布情况(即类间分布)，对于如表格1的情况，文本数据集总共有4类文档，每类有100篇本文。对于特征词t_i和t_j来说，有

IDF值上并没有区分度，但明显能看出来特征词t_i在区分A类文档及其他类文档的能力上会比特征词t_j更强。

表格1特征词在不同类别文档中的分布情况1

3、没有考虑特征词在同一类型文档中的分布

此外，在同一个类型的文档中，我们预期的是，如果一个特征词在某类文档中分布的较为均匀，在每篇文本中都有涉及，且出现频率稳定，那么这个特征词很可能就是这类文档的关键词，其对分类任务的贡献可能就越大，需要提高该词的权重。但对于TF-IDF算法来说，其并没有考虑到特征词在同一类型文档内的分布情况(即类内分布)，对于如表格2的情况，假设在某一类文档中只有4个文本d₁，d₂，d₃，d₄，4个文本中都包含特征词t_i，t_j，特征词t_j在该类文档中分布的较为分散，在部分文档中词频很高，但在部分文档中词频很低，有可能是能代表该类文档的关键词，也可能是和类别关系无关的特征词。相比于特征词t_j，特征词t_i在该类文档中均匀的分布，更有可能是代表该类文档的关键词，在分类任务中，选择词t_i作为特征可能会比词t_j效果更好。但是二者总频率都是0.04，在该类文档中对TF值和IDF值贡献度都相同，即无法通过TF-IDF公式表达类内的分布关系。

表格2特征词在同一类别文档内的分布情况

4、没有考虑特征词在单个文档中的分布

我们常常说一篇文章开篇点题、开门见山、首尾照应，这表明如果一个特征词在文章开头和文章末尾中出现，其就有较大的概率是该篇文章的主题词，也有较大的概率是和该文章所属类别相关的特征词，这个词用在文本分类中的效果可能就比用当前文本中其他词作为特征词更好，应给予更大的权重。但TF-IDF算法在单篇文章仅仅考虑词频，并没有考虑特征词在文章中的分布。

5、没有考虑词语的语义信息

对于任何一种语言，每一个词语都有它自身的含义，有时结合上下文一个词可能会有不同的意思，词语按照词性又可以分为名词、动词、动名词、形容词、副词等。大部分情况下，一篇文章的主题是名词，包括人名、地名和各类动名词等。动词有时候也蕴含着大量信息，比如“游泳”这个词可能就暗示着其所属的文章是属于体育类别的。对于形容词和副词，其可以用来修饰其他的词汇，补充感情等信息，突显被修饰词的与众不同，因此文章的作者往往也会对文章的关键词进行额外的修饰和描绘。因此，名词相比于其他词具有更大的概率作为文章的主题词，应该给予更大的权重。而对于在文本中被广泛修饰的词来说，其也有极大的概率是文章的主题词，也应当给予较大的权重。但TF-IDF算法是基于向量空间模型的，其本质上是个计数模型，并没有保存词语的语义信息，因此可以从语义方面对TF-IDF算法进行改进。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于改进TFIDF的文本特征选择方法。

本发明提出的一种基于改进TFIDF的文本特征选择方法，包括如下改进步骤：

S1初步修改IDF公式；

在IDF公式中，并没有考虑类别信息，而且可能会受到文本中出现次数极少的词的扰动；因此，在这里结合类别信息，让特征词可以基于不同类别得出不同的IDF值，使能代表某类文本的特征词在该类中得到较高的IDF值，并让一些无关的特征词得到较低的IDF值，并结合词频信息，防止一些出现次数较低的特征词对IDF进行扰动，新的IDTF公式如下所示：

其中N代表原始数据集，|N|代表数据集的文档数量，N_j代表原始数据集中所有j类文档组成的集合，|N_j|代表数据集中j类文档的数量，tf(t_i，d_k)代表在文档d_k中词t_i的词频，

代表j类文档中单词t_i的平均词频，

代表在非j类文档中，对于单词t_i，其词频比j类文档平均词频高的文档数量，后面+1是为了避免分母为0；

如果一个特征词在某个类别文档中的平均词频很高，在其他类别文档中的词频不高，其很有可能是该类文档的关键词，其IDTF值也就越大，同时在IDTF公式计数时并不考虑该类文档，这样可以让与某一类别有较强关联的特征词拥有更高的IDTF值，如果一个特征词在某个类别的平均词频很低，或者其在所有类别中的平均词频都很高，比如“虽然”、“但是”、“如果”这类词，可能这个特征词对当前类别关联性就不强，其IDTF值也就较低，如果说IDF可以衡量一个词语在语料库中的普遍重要性，那么IDTF则是在衡量一个词语在不同类别文本中的重要性；

S2针对未考虑类间分布的改进；

如果一个特征词在不同类别内的文档中分布均匀，容易推测出这个特征词对文本分类任务能起到的作用就比较小，在特征选择评分时应给予较低的权重，如果一个特征词在某些类别中大量出现，在另一些文本中几乎不怎么出现，容易推测这个特征词对文本分类任务能起到较好的作用，应给予较高的权重；

卡法检验(chi-square test，x²test)是一种用途非常广泛的假设检验方法，是统计样本的实际观测值和假设推断值之间的偏离程度，如果卡方值越大，二者的偏差程度越大；如果卡方值越小，二者的偏差程度越小；若观测值与推断值相等，卡方值为0，表示假设完全符合，在考虑特征词在类间分布情况的时候，我们可以使用卡方检验方法，作出原假设：特征词在所有类别之间均匀分布，如果实际情况与假设一致，那么卡方值就会接近于0，如果特征词在类别之间分布越分散，那么卡方值就越大，所以卡方值可以直接用来判断词在类间的分布情况，并用做词加权因子；设数据集的分布如表格3所示。

表格3词在不同类别文档间的分布情况2

令词类间卡方值为：

如果词t_i在类别中均匀分布，表明其在类间没什么区分度，

就越小，如果词t_i在类别中分布分散，

值就越大；

S3针对未考虑类内分布的改进；

类内分布与类间分布完全相反，一个词若在类内分布越均匀，说明其与该类的联系越强，应给予较高的权重，反之，若一个特征词在类内分布越分散，说明其与该类的联系较弱，应给予较低的权重；

令逆词类内卡方值为：

其中tf(t_i，d)表示特征词t_i在文本d中的词频，

表示特征词t_i在类别c_j中的平均词频，如果逆词类内卡方值越大，则说明特征词在当前类内分布越均匀，其有较大概率是该类文本的关键词，如果逆词类内卡方值越小，则说明特征词在当前类内分布越分散，该特征词与当前类的关联度就可能较低，对该类文本分类的贡献就较低；

S4针对未考虑文档内分布的改进；

在单个文本中，一个特征词如果在首尾段中均有出现，其有较大的概率是该文本的主题词，应给予较大的权重，如果一个特征词只集中出现在某个段落中，其可能只是该段落的主题，与文本主题关系不大，不应给予较大的权重；

令词跨度系数(Word Span Factor，WSF)为

其中，firstPos(t_i，d_k)为单词t_i在文本d_k中出现的第一个位置，lastPos(t_i，d_k)为单词t_i在文本d_k中出现的最后一个位置，len(d_k)为文本的长度，WSF可以反映词语在文本中出现的范围，通常来说，词语在文章中分布范围越广，该词越能代表文章的类型，WSF值也就越大，相反，词语在文章中的出现范围越集中，该词可能就不能很好地概括全文主旨，WSF值也就越小；

S5针对词性的改进；

首先从特征词的词性考虑，文本在经过预处理阶段后会变成一个个词语构成的列表，这些词按照词性又可以分为名词、动词、形容词、副词、连词，在大部分语言中，一篇文章的关键词往往是名词或则是动词，而形容词和副词等往往起到的是一个修饰的作用，其自身难以反映文章的内容，而连接词，语气词，量词等更像是一些功能词，本身并无意思，基于此，文本提出词性系数WCF，针对不同词性给予不同权重，WCF公式如下：

WCF针对每个词性的具体权重值是基于实验调整得到，若针对其它语言的文本数据集，也应当进行调整；

S6针对被修饰词的改进；

形容词和副词是中文文本的重要组成部分，形容词主要用来描述或修饰名词，表示人或事物的属性、性质、特征、状态、形状，如“帅气”、“美丽”、“大”、“小”词汇，副词主要用来修饰动词，形容词或副词，以表示时间、频率、范围、语气、程度，比如“极度”、“非常”等词汇，在一篇文章中，作者往往会用形容词和副词来补充感情信息，并突显被修饰词的与众不同，基于此，本文提出了修饰系数DF，其公式如下：

其中desCnt(t，d_k)表示在文章d_k中，词t_i被修饰的次数，

表示在这篇文章中，每个修饰词的价值，如果作者是一个很浮夸的人，其在文章中大量使用修饰词，那往往就很难从中抓取到重点，每个修饰词的价值就变低了，如果作者惜字如金，只在需要的时候来个点睛之笔，这样的修饰词价值就变高了，

表示该词在文中的重要程度，一个词，如果被作者用反复用不同的修饰词进行描述，其是中心词的概率就直线上升，重要程度就应该增加，如果只是偶尔出现一次，其重要程度应该降低；

S7改进TF-IDTF-WI算法；

基于对传统TF-IDF算法在词分布方面的缺陷进行分析与改进，可以明确地知道，对于一个能区分某个类和其他类的特征词，其应集中出现在某些类的文本中，而不是均匀分布在全体数据集中，并且其在所属类别内的文档中分布应是接近均匀分布，此外，在该类内的以该词为主题的文档中，其应具有较大的词跨度，根据上述思量并结合词性信息和文本类别信息，提出了TF-IDTF-WI算法，TF-IDTF-WI公式如下所示：

从类别出发，特征词对于每个类别的TF-IDTF-WI值为

在每个类中，根据该值对特征词进行从大到小的排序，并逐一从各类中选取TF-IDTF-WD值最大的特征词加入到新的特征词集合，即可完成特征选择工作，并能提升传统TF-IDF算法的分类准确率。

本发明中，所述一种基于改进TFIDF的文本特征选择方法，通过实验证明TF-IDTF-WD算法的有效性，使用THUCNews数据集，在文本分类过程中分别采用卡方检验方法、互信息法、TF-IDF法、TF-IDTF-WD法进行特征选择，采取不同的分类模型，并在不同规模的特征集数量下进行分类准确率等模型评价指标的比较。最后证明了TF-IDTF-WD算法的有效性，通过实验证明相比于传统的TF-IDF方法，TF-IDTF-WI算法在文本分类中能取得更高的准确率，并且在其它评价指标上也表现更加出色。

附图说明

图1为TF-IDTF-WI算法的流程示意图；

图2为实验流程示意图；

图3为使用SVC()下不同方法的准确率折线对比图；

图4为使用MultinomialNB()下不同方法的准确率折线对比图；

图5为使用RandomForestClassifier()下不同方法的准确率折线对比图；

图6为在不同模型下不同特征选择算法的准确率折线图一；

图7为在不同模型下不同特征选择算法的准确率折线图二图；

图8为在不同模型下不同特征选择算法的准确率折线图三图；

图9为在不同模型下不同特征选择算法的准确率折线图四图；

图10为在不同模型下不同特征选择算法的准确率折线图五图；

图11为在不同模型下不同特征选择算法的准确率折线图六图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-11，一种基于改进TFIDF的文本特征选择方法，包括如下改进步骤：

S1初步修改IDF公式；

代表j类文档中单词t_i的平均词频，

S2针对未考虑类间分布的改进；

卡法检验(chi-square test，x²test)是一种用途非常广泛的假设检验方法，是统计样本的实际观测值和假设推断值之间的偏离程度，如果卡方值越大，二者的偏差程度越大；如果卡方值越小，二者的偏差程度越小；若观测值与推断值相等，卡方值为0，表示假设完全符合，在考虑特征词在类间分布情况的时候，我们可以使用卡方检验方法，作出原假设：特征词在所有类别之间均匀分布，如果实际情况与假设一致，那么卡方值就会接近于0，如果特征词在类别之间分布越分散，那么卡方值就越大，所以卡方值可以直接用来判断词在类间的分布情况，并用做词加权因子。

令词类间卡方值为：

如果词t_i在类别中均匀分布，表明其在类间没什么区分度，

就越小，如果词t_i在类别中分布分散，

值就越大；

S3针对未考虑类内分布的改进；

令逆词类内卡方值为：

其中tf(t_i，d)表示特征词t_i在文本d中的词频，

S4针对未考虑文档内分布的改进；

令词跨度系数(Word Span Factor，WSF)为

S5针对词性的改进；

S6针对被修饰词的改进；

其中desCnt(t，d_k)表示在文章d_k中，词t_i被修饰的次数，

S7改进TF-IDTF-WI算法；

从类别出发，特征词对于每个类别的TF-IDTF-WI值为

本发明：具体实验流程总体上分为训练和测试两个过程，在训练过程中使用不同的特征选择算法确定新的特征集，后续模型的训练和测试向量都是基于该特征集生成，在数据集方面，CNews已经划分为训练集和测试集，在文本预处理阶段，使用jieba作为分词工具，对文本进行分词，并记录文本中每个单词位置，用作后续词跨度系数的计算，并设置了词最小出现阈值，去掉一些出现次数极少的词，在5万样本的训练集中，设置最小出现阈值为50次，则特征维度从37万维降低到了2万维，在特征选择算法阶段，分别使用TF-IDF-WD、TF-IDF、卡方检验、互信息作为特征选择算法，并按照不同比例选择特征，构建新的特征集合，并分别使用支持向量机、朴素贝叶斯、随机森林作为文本分类器进行训练和模型评估，最后对不同的特征选择算法在不同分类器下的表现进行比较分析。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于改进TFIDF的文本特征选择方法，其特征在于，包括如下改进步骤：

S1初步修改IDF公式；

代表j类文档中单词t_i的平均词频，

S2针对未考虑类间分布的改进；

卡法检验(chi-square test，x²test)是一种用途非常广泛的假设检验方法，是统计样本的实际观测值和假设推断值之间的偏离程度，如果卡方值越大，二者的偏差程度越大；如果卡方值越小，二者的偏差程度越小；若观测值与推断值相等，卡方值为0，表示假设完全符合，在考虑特征词在类间分布情况的时候，我们可以使用卡方检验方法，作出原假设：特征词在所有类别之间均匀分布，如果实际情况与假设一致，那么卡方值就会接近于0，如果特征词在类别之间分布越分散，那么卡方值就越大，所以卡方值可以直接用来判断词在类间的分布情况，并用做词加权因子；

令词类间卡方值为：