CN111209743A

CN111209743A - 一种基于信息熵与词长信息改进的hidfwl特征提取方法

Info

Publication number: CN111209743A
Application number: CN201911301915.5A
Authority: CN
Inventors: 金燕; 黄杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-29

Abstract

本发明公开了一种基于信息熵与词长信息改进的HIDFWL特征提取方法，属于文本特征提取方法领域，包括：将训练集文本预处理得到文本列表和类别列表；将文本列表中所有不重复的特征词组成特征词列表；计算特征词表中特征词的IDF，所有特征词的IDF组成IDF向量；计算特征词的信息熵与词长权重，利用信息熵与词长权重计算得到信息值，将所有特征词的信息值组成文本向量；利用IDF向量与文本向量得到特征向量，并将特征向量归一化得到特征矩阵；利用特征矩阵与类别列表对分类器进行训练；利用测试文本对训练后的分类器进行测试；利用测试后的分类器对文本进分类。利用本发明所述的HIDFWL特征提取方法对文进行分类，提高了文本分类的准确率、查全率、召回率以及F1‑score值。

Description

一种基于信息熵与词长信息改进的HIDFWL特征提取方法

技术领域

本发明涉及文本特征提取的方法，具体涉及一种基于信息熵与词长信息改进的HIDFWL特征提取方法。

背景技术

随着互联网的迅速发展，每天的生活中数据文本也呈现着爆炸性的增长，对于文本分类的工作者来说，增加了巨大的工作量，面对大数据量的文本，采取人工手动的特征提取进行文本分类显得非常的困难，为了能高效的进行文本分类的工作，就有了文本分类的算法模型。文本分类的过程包括文本预处理、文本分词、去停用词、特征提取、训练分类器等，其中，特征提取对文本分类的效果有着非常大的影响，所以对特征提取算法的研究是很有必要的。

1988年，Salton G首次提出了TFIDF算法，并论证了TFIDF算法在文本分类中的有效性，TFIDF算法的核心思想是文本中词条x出现的频率大，文档集中包含词条x的文本数少就说明这个词条x有较大的区分能力(Erm-weighting approaches in automatic textretrieval[M].Pergamon Press,Inc.1988.)。

传统的TFIDF算法涉及到了两个概念：特征词在文本中的频率和特征词的逆文本频率(IDF)；其中，特征词在文本中的频率表达的是包含特征词x的文本在文本集中出现的频繁程度；包含特征词x的文本越小，就说明特征词x集中在少数的几个文本中，则特征词x区分文本的能力就强；传统的TFIDF算法具体的计算公式如公式1所示：

其中x表示的是词条；d表示文本；tf(x)表示的是词条x在文本中的频率；N为总的训练集文本数量；n为包含词条x的文本数；加0.01是为了防止分母为零。

随着传统的TFIDF算法在文本分类，信息检索模型中的普及，研究人员对传统的TFIDF算法进行了系统的优化，使其在实际应用中被广泛使用。

公开号为CN104699772B公开了一种基于云计算的大数据文本分类方法，包括如下步骤：对有类标和无类标的训练文本分别进行预处理，得到对应的训练数据集；对训练数据集分别进行特征选择，得到对应的降维后的训练数据集；对降维后的训练数据集分别按照TFIDF加权模型计算，从而将训练数据集分别转化为对应的一维向量；将有类标的一维向量按照贝叶斯算法计算，得到每个类别的先验概率和每个词条属于每个类别的先验概率，初始化贝叶斯分类器参数；利用EM算法优化贝叶斯分类器的参数，得到分类模型；利用分类模型对待分类的文本进行文本分类。

公开号为CN107633000A公开了一种基于TFIDF算法和相关词权重修正的文本分类方法，包括以下步骤：S1：提取出类别关键字；S2：构成滑动文本窗，设定词语权重并修正其在滑动文本窗的位置；S3：根据词频统计修正函数计算出词语的词频；S4：根据TFIDF算法加权计算,实现文本词语的向量化；S5：通过SVM分类器进行文本分类。

虽然传统的TFIDF算法在文本分类中被广泛应用，但是在实际的文本分类中，传统的TFIDF算法中没有考虑到文本内特征词的分布特征以及词长信息的问题造成了文本分类的准确率较低。

发明内容

本发明提供一种基于信息熵与词长信息改进的HIDFWL特征提取方法，使用该HIDFWL特征提取方法对文进行分类，提高了文本分类的准确率、查全率、召回率以及F1-score值。

一种基于信息熵与词长信息改进的HIDFWL特征提取方法，包括：

步骤1、对训练集文本分词，去掉停用词，将训练集文本与其对应的类别分别放到文本列表和文本类别列表。

步骤2、统计文本列表中所有训练集文本中不重复的特征词，组成特征词列表。

步骤3、利用步骤2中获取的特征词列表计算每一个特征词的IDF值，所有特征词的IDF值组成IDF向量。

所述的IDF值计算公式为公式(1)所示：

IDF值＝log(N/(n+0.01)) (1)

其中，N为文本列表中的文本总数量；n为文本列表中包含词条X的文本数；加0.01是为了防止分母为零。

步骤4、按照步骤2中特征词列表中特征词的顺序计算每一个特征词的信息熵与词长权重，利用信息熵与词长权重计算每一个特征词的信息值，将文本列表中单篇训练集文本中所有特征词的信息值组成文本向量。

步骤4.1，按照特征词列表中的顺序统计文本列表中每篇训练集文本的特征词的分布概率；其中，训练集文本中出现的词不在特征词列表中，频率记为0。

步骤4.2，根据特征词的分布概率计算特征词的信息熵；由于传统的TFIDF算法中仅以词频来表达特征词在文本中的分布，这样的表达方式是不够准确的，词频无法准确描述特征词在文本中的特征分布；因此，通过引入特征词的信息熵来准确的反应文本中特征词的分布特征，所述的信息熵计算公式为公式(2)所示：

h(x)＝-p(x)×logp(x) (2)

其中，h(x)为特征词X的信息熵；p(x)为特征词X在文本内的分布概率；从特征词的信息熵公式可以看出分布越均匀的特征词的信息熵越大。

步骤4.3，根据特征词的词长计算词长权重；由于，文本内词条长度的不同，所包含的信息也不同，一般情况下，词条所能包含的信息与词条的长短相关，词条越长所能包含的信息越多，而传统的TFIDF算法中忽略了词长信息这一特点，本发明中加入了表达词长信息的词长权重，所述的词长权重计算公式为公式(3)所示：

其中，l是词条的长度，wl为词长权重。

步骤4.4，利用词长权重与信息熵计算得到特征词的信息值；所述的信息值的计算公式为公式(4)所示：

信息值＝wl×h(x) (4)。

步骤5、利用步骤3中的IDF向量与步骤4中的文本向量计算得到特征向量，并对特征向量进行归一化，将文本列表中所有训练集文本归一化后的特征向量合成特征矩阵。

所述的特征向量中是由文本列表中单篇训练集文本的所有特征词的特征值组成；所述的特征值计算公式为式(5)所示：

其中x表示词条，d表示文本，p(x)为词条x在文本内的分布概率，N为文本集的文本总数量，n为文本集中包含词条x的文本数，加0.01是为了防止分母为零，l为词条长度。

利用HIDFWL算法对公式(5)计算出的特征值进行归一化，文本列表中单篇训练集文本中所有特征词归一化后的特征值组成归一化后的特征向量；所述的HIDFWL算法的计算公式为式(6)所示：

其中，公式(6)中所有的字母的含义与公式(5)中的一致。

步骤6、利用步骤5中的特征矩阵与对应的文本类别列表输入到分类器中，对分类器进行训练。

步骤7、利用测试文本对训练后的分类器进行测试，包括：

步骤7.1、将测试文本分词，去掉停用词，将文本与其对应的类别分别放到测试文本列表和测试文本类别列表。

步骤7.2、统计测试文本列表中所有文本中不重复的特征词，组成测试文本特征词列表。

步骤7.3、利用测试文本特征词列表重复步骤3-5，得到测试文本的特征向量合成的测试文本的特征矩阵。

步骤7.4、将测试文本的特征矩阵与测试文本类别列表输入到分类器中对测试文本进行分类。

步骤8，利用测试后的分类器对文本进分类。

本发明技术方案的优点有：

(1)与传统的TFIDF算法相比，本发明中所提供的基于信息熵与词长信息改进的HIDFWL特征提取方法，考虑了文本中每个不同词长的特征词所包含的信息不同，加入了反映文本中特征词分布特征的信息熵和表达词长信息的词长权重，对传统的TFIDF算法进行改进，解决了传统的TFIDF算法中因忽略特征词分布特征与词长信息造成的准确率低的问题。

(2)使用本发明中所提供的基于信息熵与词长信息改进的HIDFWL特征提取方法对文本进行分类，提高了文本分类的准确率、查全率、召回率以及F1-score值。

附图说明

图1为本发明所述的HIDFWL特征提取方法的流程示意图。

图2为本发明所述的HIDFWL特征提取方法与传统的TFIDF算法的文本分类效果对比图。

具体实施方式

下面结合具体实施方式及附图对本发明作进一步的描述。

如图1所示，为了验证本发明所提供基于信息熵与词长信息改进的HIDFWL特征提取方法的可还原性，使用互联网上公开的中文文本作训练集文本进行文本分类；其中，选取4000篇中文文本作为训练集文本，分为10个文本类别列表，每个文本类别列表400篇训练文本；选取10000篇中文文本作为测试集文本，将10000篇测试文集分为10个小测试集，每个小测试集共有1000篇测试文本；将每个小测试集共分为10个测试文本类别，每个类别100篇；使用jupyter notebook作为编译环境，python3.7作为开发语言，jieba，sklearn，numpy作为工具包以及逻辑回归分类器进行文本分类。

步骤1、对选取的4000篇训练集文本进行预处理，使用jieba分词对所有的训练集文本分词，去掉停用词，将训练集文本与其对应的类别分别放到文本列表和文本类别列表中，将处理好的4000篇训练集文本放入文本列表中，共分为10个文本类别列表，每个文本类别列表中400篇训练文本。

步骤3、利用步骤2中获取的特征词列表计算每一特征词的逆文本频率(IDF值)，所有特征词的IDF值组成IDF向量。

所述的IDF值计算公式为公式(1)所示：

IDF＝log(N/(n+0.01)) (1)

步骤4、按照步骤2中特征词列表中特征词的顺序计算每一个特征词的信息熵与词长权重，利用信息熵与词长权重计算每一个特征词的信息值，将文本列表单篇训练集文本中所有特征词的信息值组成文本向量。

h(x)＝-p(x)×logp(x) (2)

其中，l是词条的长度，wl为词长权重。

信息值＝wl×h(x) (4)。

其中，所述的特征向量中是由文本列表中单篇训练集文本的所有特征词的特征值组成；

所述的特征值计算公式为式(5)所示：

其中，公式(6)中所有的字母的含义与公式(5)中的一致。

步骤7、利用10个小测试集分别对训练后的分类器进行测试，包括：

步骤7.1、将小测试集中的1000篇测试文本分词，去掉停用词，将文本与其对应的类别分别放到测试文本列表和测试文本类别列表中，其中，将处理好的1000篇中文文本放入文本列表，共分为10个测试文本类别，每个类别100篇。

步骤8，利用测试后的分类器对文本进分类。

评价文本分类结果的指标有准确率，查准率(precision)，查全率(recall)，F1-score值，以二分类为例，测试集文本分类后的情况具体如下：

表1文本分类的二分类表

	真正属于该类别	真正不属于该类别
			分类后属于该类别	A	B
分类后不属于该类别	C	D

如表1所示，测试集文本分类结果中的准确率为分类正确的文本数除以总的文本数，具体公式为式(7)所示：

准确率＝(A+D)/(A+B+C+D) (7)。

查准率为分类器正确的判断为该类的文本数量与判断为该类的文本总数的比值，体现了分类结果的准确性，具体公式为式(8)所示：

precision＝A/(A+B) (8)。

查全率是正确的判断为该类的文本数与实际上该类的总文本数的比值，体现出了分类结果的完备性，具体公式为式(9)所示：

recall＝A/(A+C) (9)。

由式(8)与式(9)可以看出查准率与查全率是相互制衡的，文本分类中用F1-score值对查准率与查全率进行调和平衡，衡量分类性能的好坏；其中，F1-score值的具体公式为式(9)所示：

F1-score值＝2*precision*recall/(precision+recall) (10)。

通过上述步骤求出10个小测试集文本的分类结果，并计算10次小测试集文本分类结果的准确率、查准率(precision)、查全率(recall)以及F1-score值的平均值。

利用传统的TFIDF算法对上述10个小测试集中的测试文本进行分类，计算10次分类结果的准确率、查准率(precision)、查全率(recall)以及F1-score值的平均值并与本发明所改进的HIDFWL特征提取方法的文本分类结果做对比。

如图2所示，本发明中所述的基于信息熵与词长信息改进的HIDFWL特征提取方法对于文本的分类结果与传统的TFIDF算法相比在准确率上高出了6.96％，在查准率上高出了2.36％，这表明通过引入特征词的信息熵来表示文本中特征词的分布特征以及加入表示词长信息的词长权重能有效的提高算法的准确率，体现了分类结果的准确性。

本发明中所述的基于信息熵与词长信息改进的HIDFWL特征提取方法对于文本的分类结果在召回率上比传统的TFIDF算法高出了6.96％，证明了本发明所改进的HIDFWL特征提取方法在分类结果的完备性远比传统的TFID算法要好。

F1-score值是文本分类中调和查准率与查全率的综合稳定性指标；其中，本发明所述的基于信息熵与词长信息改进的HIDFWL特征提取方法在文本分类中的F1-score值高出传统的TFIDF算法的F1-score值7.88％，证明了本发明所述的基于信息熵与词长信息改进的HIDFWL特征提取方法的综合稳定性较好。

综上所述，与传统的TFIDF算法相比，本发明中所提供的基于信息熵与词长信息改进的HIDFWL特征提取方法，考虑了每个不同词长的特征词所包含的信息不同，加入了反映文本中特征词分布特征的信息熵和表达词长信息的词长权重，解决了传统TFIDF特征提取算法中忽略特征词分布特征与词长信息的问题，对于文本分类的准确率、查全率、召回率、F1-score值都有了很大的提高，弥补了传统的TFIDF算法的不足与缺失的信息。

Claims

1.一种基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，包括：

步骤1、对训练集文本进行分词，去掉停用词，将训练集文本与其对应的类别分别放到文本列表和文本类别列表；

步骤2、将步骤1中文本列表内所有训练集文本中不重复的特征词组成特征词列表；

步骤3、计算步骤2中获取的特征词列表中每一特征词的IDF值，所有特征词的IDF值组成IDF向量；

步骤4、按照步骤2中特征词列表中特征词的顺序计算每一个特征词的信息熵与词长权重，利用信息熵与词长权重计算每一个特征词的信息值，将文本列表中单篇训练集文本中所有特征词的信息值组成文本向量；

步骤5、利用步骤3得到的IDF向量与步骤4得到的文本向量计算得到特征向量，对特征向量进行归一化，将文本列表中所有训练集文本归一化后的特征向量合成特征矩阵；

步骤6、将步骤5中的特征矩阵与对应的文本类别列表输入到分类器中，对分类器进行训练；

步骤7、利用测试文本对训练后的分类器进行测试；

步骤8、利用测试后的分类器对文本进分类。

2.根据权利要求1所述的基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，步骤3中，所述的IDF计算公式为公式(1)所示：

IDF＝log(n/(N+0.01)) (1)

3.根据权利要求1所述的基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，步骤4中，所述的利用信息熵与词长权重计算特征词的信息值，包括：

步骤4.1，按照特征词列表中的顺序统计文本列表中每篇训练集文本的特征词的分布概率；

步骤4.2，根据特征词的分布概率计算特征词的信息熵；所述的信息熵计算公式为公式(2)所示：

h(x)＝-p(x)×logp(x) (2)

其中，h(x)为特征词X的信息熵；p(x)为特征词X在文本内的分布概率；

步骤4.3，根据特征词的词长计算词长权重；所述的词长权重计算公式为公式(3)所示：

其中，l是词条的长度，wl为词长权重；

信息值＝wl×h(x) (4)。

4.根据权利要求1所述的基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，步骤5中，所述的特征向量中是由文本列表中单篇训练集文本的所有特征词的特征值组成；所述的特征值计算公式为式(5)所示：

5.根据权利要求4所述的基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，所述的特征值通过HIDFWL算法进行归一化运算得到归一化后的特征值，文本列表中单篇训练集文本所有归一化后的特征值组成归一化后的特征向量；所述的HIDFWL算法为式(6)所示公式：

其中，式(6)中的所有字母代表的含义与权利要求4中式(5)中的一致。

6.根据权利要求1所述的基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，步骤7中，所述的利用测试文本对训练后的分类器进行测试，包括：

步骤7.1、将测试文本分词，去掉停用词，将文本与其对应的类别分别放到测试文本列表和测试文本类别列表中；

步骤7.2、统计测试文本列表中所有文本中不重复的特征词，组成测试文本特征词列表；

步骤7.3、利用测试文本特征词列表重复步骤3-5，得到测试文本的特征向量合成的测试文本的特征矩阵；