CN111401040B

CN111401040B - 一种适用于word文本的关键词提取方法

Info

Publication number: CN111401040B
Application number: CN202010188511.6A
Authority: CN
Inventors: 张校源; 陈骁; 马祥祥
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2021-06-18
Anticipated expiration: 2040-03-17
Also published as: WO2021184674A1; CN111401040A; US20230136368A1

Abstract

本发明涉及一种适用于word文本的关键词提取方法，包括以下步骤：S1：获取word文本并提取正文；S2：分别利用TFIDF算法和TextRank算法提取设定个数的关键词；S3：获取文本名称和文本标题，并进行分词；S4：构建文本特征向量，并输入训练完成的关键词提取模型；S5：利用关键词提取模型，对通过TextRank算法提取的关键词再次提取，得到最终关键词集合，完成文本关键词的提取，与现有技术相比，本发明具有准确率和召回率高等优点。

Description

一种适用于word文本的关键词提取方法

技术领域

本发明涉及文本分析领域，尤其是涉及一种适用于word文本的关键词提取方法。

背景技术

关键词提取是信息检索、文本分类聚类以及自动文摘生成等技术的关键，是快速获取文档主题的重要手段。传统上将关键词定义为一组能够概括文档主题内容的词或短语。关键词在很多领域都有非常重要的应用，如文档的自动摘要、网页信息抽取、文档的分类聚类、搜索引擎等。然而，在大多情况下的文本并没有直接给出关键词，因此需要设计出关键词提取方法。

在文本分析领域，提取文本关键词的技术主要包括：TextRank算法、TFIDF算法和LDA主题模型。

(1)TextRank算法

TextRank算法是从PageRank算法演变而来，利用TextTank算法提取关键词时，不是每个词都有连接，而是设置一个窗口后，窗口里的词才有了连接，利用得分计算公式对每个词的得分进行计算统计，得到最高分词的n个词即为关键词，得分计算公式为：

其中，WS(Vi)表示Vi这个词的权重值(textrank值)；Vi表示词i；d为阻尼系数，通常取0.85；ω表示为i和j词之间的边，也就是两个词之间的权重；In(V_i)表示可以连接到Vi这个词的集合；Out(V_j)表示可以连接到Vj词的集合；i表示词i；j表示词j，为i前面的词；k为除词i和词j以外的其他词k。公式表明：TextRank算法中一个单词i的权重取决于与在i前面的各个点j组成的(j，i)这条边的权重，以及j这个点到其他其他边的权重之和。

(2)TFIDF算法

TFIDF算法是一种基于统计的计算方法，其计算公式为：

tfidf_i,j＝tf_i,j×idf_i

其中，tf_i,j为词频，idf_i为逆文档频率，n_i,j表示一个词的个数在文章中出现的次数；D表示文档集总数；i表示词i；j表示词j。

该式统计了词频(TF)和逆文档频率(IDF)，TFIDF值常用于表示在一个文档集中某一份文档词的重要程度，也可以称这个文档的特征词或关键词。词频(TF)是指一个词在一篇文章中的频率，逆文档频率(IDF)是指一个词所在的文件集的总数除以包含这个词的文档数加一的值的log值。一个词的TFIDF值越大表示这个词在一篇文章中的频率越高，并且在文件集的其他文章中出现的次数越低，越能够代表这篇文章的特征或关键性。

(3)LDA算法

LDA算法假设文档中主题的先验分布和主题中词的先验分布都服从狄利克雷分布。根据贝叶斯学派的方法，通过先验的狄利克雷分布和观测数据得到的多项式分布，得到一组Dirichlet-multi共轭，并据此来推断文档中主题的后验分布和主题中词的后验分布，也就是我们最后需要的结果。

虽然以上三种方法均可以在一定程度上提取文本的关键词，但是都没有结合文本的名称和标题，这样便丢失了很重要的信息，对于提取文章的关键词便少了一些重要的信息。在一篇文章中，文章的名称和标题对这篇文章有着比较重要的作用，一篇文章的名称或标题当中的一些词就一般情况下可以代表这篇文章，除去一些随意命名的文章和没有标题的文章，一般的场景都是为了能够在未打开文件的时候就可以知道这篇文章的大概内容。文章的标题是整个文章内容的骨架，代表了每一个段落的主要核心内容，对文章有着承上启下的作用。

比如：文件名为“赢得漂亮！诺维茨基现场助阵达拉斯牛仔队赛季揭幕”(引用百度新闻中一篇体育新闻为例)，运用以上方法提取的5个关键词为：达拉斯、比赛、赛季、牛仔、队，显然这篇新闻的关键词应包括“诺维斯基”，但是“诺维斯基”在提取10个关键词时才能会出现，这样提取的关键词效果差强人意，不能达到真正关键词提取的要求。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高准确率和召回率的适用于word文本的关键词提取方法。

本发明的目的可以通过以下技术方案来实现：

一种适用于word文本的关键词提取方法，包括以下步骤：

S1：获取word文本并提取正文；

S2：分别利用TFIDF算法和TextRank算法提取设定个数的关键词；

S3：获取文本名称和文本标题，并进行分词；

S4：构建文本特征向量，并输入训练完成的关键词提取模型；

S5：利用关键词提取模型，对通过TextRank算法提取的关键词再次提取，得到最终关键词集合，完成文本关键词的提取。

进一步地，所述的步骤S4具体包括：

S41：判断利用TextRank算法提取的关键词是否出现在文本名称的分词中，若是，则用[1,0]向量表示，否则用[0,1]向量表示；

S42：判断利用TextRank算法提取的关键词是否出现在文本标题的分词中，若是，则用[1,0]向量表示，否则用[0,1]向量表示；

S43：对TextRank算法提取的每个关键词，分别利用其在TextRank算法和TFIDF算法提取的关键词中的排名以及其与文本名称和文本标题的关系，分别构建文本特征向量；

S44：将所有文本特征向量输入训练完成的关键词提取模型。

更进一步地，所述的文本特征向量为包含六位数的向量，其中第一位数表示该词在TextRank算法提取的关键词中的排名；第二位数表示该词在TFIDF算法提取的关键词中的排名；第三位数和第四位数为步骤S41中得到的向量；第五位数和第六位数为步骤S42中得到的向量。

若利用TextRank算法提取的某个关键词，在TFIDF算法提取的关键词中不存在，则文本特征向量的第二位数的值设为利用TFIDF算法提取的关键词的数量。

进一步地，所述的步骤S2具体包括：

利用TFIDF算法提取tfidf值排名靠前的100个词作为TFIDF算法的关键词，利用TextRank算法提取排名前100个词作为TextRank算法的关键词。

进一步地，所述的步骤S5具体包括：

所述的关键词提取模型根据输入的文本特征向量，判断TextRank算法提取的关键词是否为真实关键词，若是，则输出为1，否则输出为0，最后取出判断结果为1的词，作为最终关键词集合，完成文本关键词的提取。

进一步地，所述的关键词提取模型的训练步骤具体包括：

A1：获取包含文本名称、文本标题和正文的多篇文本，组成训练集；

A2：对训练集中的文本进行预处理，得到预处理后文本；

A3：提取文本原有关键词，并进行分词，作为文本特征向量的标签；

A5：分别利用TFIDF算法和TextRank算法提取设定个数的关键词；

A6：获取文本名称和文本标题，并分别判断利用TextRank算法提取的关键词是否出现在文本名称和文本标题中，若是，则用[1,0]向量表示，否则用[0,1]向量表示；

A7：构建文本特征向量矩阵，所述的文本特征向量矩阵中包括利用TextRank算法提取的关键词所对应的向量，该向量为包含七位数的向量；

A8：利用文本特征向量矩阵创建关键词提取模型并进行模型训练。

更进一步地，所述的包含七位数的向量中，第一位数表示该词在TextRank算法提取的关键词中的排名；第二位数表示该词在TFIDF算法提取的关键词中的排名；第三位数和第四位数为步骤A6中得到的，用于表示该词是否出现在文本名称中的向量；第五位数和第六位数为步骤A6中得到的，用于表示该词是否出现在文本标标题中的向量；第七位数表示该词是否为原有关键词中的一个，若是则记为1，否则记为0。

进一步优选地，所述的关键词提取模型为二分类模型P(Y|X)，模型训练时，所述的文本特征向量矩阵中每个向量的前六位数作为X，第七位数作为标签Y。

更进一步优选地，所述的关键词提取模型使用LR模型、SVM模型或决策树模型，其中，最好选用LR模型，会得到更好的效果。

与现有技术相比，本发明具有以下优点：

1)本方法利用了文本名称和标题中的词对文本关键词提取的重要性，通过对文本名称和标题的提取，建立其与TextRank算法提取的关键词之间的关系，对模型进行训练，提高了关键词的准确性；

2)本发明结合TFIDF算法和TextRank算法作为文本的特征，与单一的关键词提取算法相比，本方法更进一步地提高了关键词提取的准确性；

3)本方法先利用TextRank算法提取多个关键词，再判断这些词是否存在于文件名和标题中，再结合TFIDF算法的排名，训练出一个可以判断是关键词概率大小的模型，提取的关键词与文本原有关键词之间的差距一致性高。

附图说明

图1为本发明方法关键词提取的流程示意图；

图2为本发明整体流程示意图；

图3为模型训练的示意图；

图4为利用模型进行关键词提取的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供一种适用于word文本的关键词提取方法，包括以下步骤：

S1：获取word文本并提取正文；

S2：分别利用TFIDF算法和TextRank算法提取设定个数的关键词；

S3：获取文本名称和文本标题，并进行分词；

如图2所示，本发明主要分为两个部分，第一步是训练模型，第二步是应用模型进行关键词提取。图1表示是为模型训练阶段与模型应用提取关键词阶段的主要逻辑，模型的训练需要一定量的数据文本，本方法采用的测试数据文本为网络爬取的多篇论文。

如图3所示，模型训练的主要方法主要包括步骤如下：

101)提前准备好的文本训练集，其中的每一个文本都包含有文件名、标题和正文，并且文件名为有意义的文件名。对文件进行预处理得到预处理后文本，包括删除一些不是文本内容的文本，比如在论文中的“您现在的位置：论文网>>会计审计论文>>审计论文>>基于大数据、云计算技术对审计的影响研究论文基于大数据、云计算技术对审计的影响研究”，因为在网络爬取数据的时候，会爬到一些噪声，删除这些数据，从而减少对文本关键词提取准确性的影响。如果爬取的是网页数据还要删除网页格式，尽量把文本处理成文本数据原有的样子。

102)在文本预处理完成后，提取文本原有关键词，因此时提取出来的关键词多为二元词或三元词，比如[“二氧化硅和硅酸”，“教学设计”，“核心素养”]，为了与TexkRank算法和TFIDF算法提取的词相对应，故将提取的关键词进行分词，得到一个词的集合，如[“二氧化硅”，“和”，“硅酸”，“教学”，“设计”，“核心”，“素养”]，作为第一集合。然后将提取出来的第一集合作为文本特征向量的标签。

103)利用TFIDF算法提取排名靠前的多个词组形成第二集合，提取的词组个数为自定义数据，本实施例中设定提取的词组个数为100个，TFIDF算法在算出每一个tfidf值后，要进行排序，从而提取出排名靠前的100个词，如[硅酸，二氧化硅，硅，溶液，酸性，意图，高中化学，性质，氧化物，学生，教学，化学方程式，元素，硅胶，碳酸，化合物，反应，实验，玻璃，化学，素养，二氧化碳，氢氟酸，分组，辨识……]。

104)利用TextRank算法提取文本靠前的多个词组作为第三集合，提取的词组个数为自定义数据，本实施例中设定提取的词组个数为100个，如[学生，学习，硅酸，性质，中，设计，二氧化硅，S，培养，问题，意图，元素，硅，溶液，知识，教学，实验，应用，酸性，C，环节，高中化学，中的，素养，课堂，论文，写，反应，具有，研究……]。

105)取出文件名及标题并分别进行分词，得到第四集合和第五集合，其中第四集合为文件名分词后的集合，第五集合为标题分词后的集合。因为文件名和标题中词的权重不一样，所以文件名和标题要分别进行分词，形成两个集合，各表示一个特征。如文件名分词后得到的第四集合为[基于，高中，化学，核心，素养，的，课堂，教学，设计]，标题分词后得到的第五集合为[设计，理念，教学，背景，分析，目标，设计，重点，难点，方法，用具]。

106)分别判断第三集合中的词是否出现在第四集合和第五集合中，若有，则表示为[1,0]向量，没有则表示为[0,1]向量。

107)构建文本特征向量矩阵，每一个文本都用一个100*7的特征向量矩阵表示，有多少训练文本就会有多少这个矩阵，矩阵中包括第三集合中100个关键词分别对应的向量，即第三集合中的每个词都对应一个七位数的向量，100个七位数的向量共同组成了文本特征向量矩阵。例如“教学”这个词对应为：[16，11，1，0，1，0，1]，其中第一位数“16”表示：“教学”这个词在TextRank算法提取的前100个关键词中的排名；第二位数“11”表示：“教学”这个词在TFIDF算法提取的前100个关键词中的排名，若这个词在第二集合中(即TFIDF算法提取的前100个词)不存在，则记为100；第三位和第四位数[1，0]表示“教学”在文件名中存在；第五位和第六位数[1，0]表示“教学”这个词在标题中出现；第七位数“1”表示“教学”这个词是原有关键词中的一个。

108)在得到文本特征向量矩阵后，创建模型P(Y|X)，就可以进行模型训练，这里用逻辑回归(Logistic Regression,LR)模型，向量的前六位数作为X，第七位作为标签Y，得到训练完成的关键词提取模型。

如图4所示，在得到模型之后，就可以对word文本进行关键词的提取。其中有部分的数据处理和模型训练的重合，为了能够表达清楚，数据处理一样的部分也会按照步骤进行详解：

201)从后缀名为docx的文件中提取正文，本方法中的word文本只支持后缀为docx格式，如果是doc的文件可转换docx后进行操作，因只有后缀为docx文件才能够解析提取出标题。

202)利用TFIDF算法算出每个词的tfidf值后进行排序，提取排名靠前的100个词，作为第六集合，如：[股票价值，净利润，期权，清算，净资产，解释力，模型，增长率，收益率，股票价格，……]。

203)利用TextRank算法提取正文的前100个关键词，作为第七集合，如：[公司，价值，模型，实证，评估，净利润，净资产，经营，收益率，论文，期权，数据，碧桂园，股票价值……]。

204)从docx文件中获取文件名和标题，如文件名为：[“基于改进的剩余收益模型的实证分析”]，标题为：[“改进的EBO模型概述，实证分析，EBO模型参数确定，二叉树模型的构建，结论”]，分别对文件名和标题进行分词，得到第八集合：[基于，改进，的，剩余，收益，模型，的，实证，分析]和第九集合集合：[改进，的，EBO，模型，概述，实证，分析，EBO，模型，参数，确定，二叉树，模型，的，构建，结论]。

205)分别判断第七集合中的词是否出现在第八集合和第九集合中，若有，则表示为[1,0]向量，没有则表示为[0,1]向量。

206)构建包含六位数的文本特征向量，如“模型”这个词对应为：[3，7，1，0，1，0]，其中，第一位数“3”表示：“模型”这个词在TextRank算法提取的前100个关键词中的排名；第二位数“7”表示：“模型”这个词在TFIDF算法提取的前100个关键词中的排名，若这个词在第六集合中(即TFIDF算法提取的前100个词中)不存在，则记为100；第三位和第四位数[1，0]表示：“模型”这个词在文件名中存在；第五位和第六位数[1,0]表示：“模型”这个词在标题中出现，这样关于这个文本的特征向量就构建好了。

207)利用训练好的关键词提取模型和构建完成的文本特征向量，判断这个词是否是关键词，是关键词则输出为1，不是关键词则输出为0。通过该步骤，对TextRank算法提取的100个关键词进行重新判断后，取出判断结果为1的关键词，作为最终关键词集合，完成文本关键词的提取。

本实施例中，对本方法进行测试，具体如下：

测试数据：共爬取116532篇论文，包括政治、教学、经济等类别，根据是否含有关键词、标题等信息筛选一部分数据，实际用到论文如下：

测试文本数量	涵盖内容	其他说明
			3556篇训练	政治、教学、经济等论文	网络公开免费论文
535篇测试	政治、教学、经济等论文	网络公开免费论文

一、多种方法提取文本关键词对比：

1、测试数据：选用535篇文章中，一篇名为“基于商业银行小微企业金融服务研究”的论文。

2、利用TextRank算法、TFIDF算法及本发明方法提取提取关键词。

TextRank算法提取关键词就是基于本论文进行提取；因TFIDF算法中idf值需要多篇测试数据计算所得，在提取关键词时idf值是基于535篇论文测试集进行计算，在本发明方法中涉及的tfidf值也是基于测试集进行计算。

3、论文原有关键词(分词)及不同算法提取10个关键词结果如表1所示，其中本方法分别利用LR模型，SVM模型和决策树进行提取，论文原有关键词和本方法利用不同模型提取的关键词没有排名先后，TextRank算法和TFIDF算法是利用各自不同的值提取排名靠前的十个词：

表1关键词提取测试结果

测试结果说明：针对这一篇文章，本方法只提取了模型认为是关键词的词，精确率和召回率均高于textrank和tfidf提取关键词的精确率和召回率。

二、不同关键词提取方法准确率及召回率

测试数据：上述3556篇论文训练集和535篇论文测试集

具体步骤如下：

1、利用3556篇论文的训练集进行模型的训练，按照图2的流程，对训练集中的每一篇论文都做相同的处理，提取原论文关键词、利用TextRank算法提取前100个关键词、利用TFIDF提取前100个关键词、提取论文的标题并获取文件名。

2、对每一篇文本创建文本特征向量矩阵，共3556篇论文，每篇论文都对应一个大小为100*7的向量矩阵。

3、提取矩阵向量的X,Y，利用SKlearn中不同方法创建不同的模型，比如分别利用LR、SVM和决策树创建关键词提取模型P(X|Y)，并对关键词提取模型进行训练。

4、模型训练完成后，对535篇测试数据进行处理，提取原论文关键词、利用TextRank算法提取前100个关键词，利用TFIDF提取排名前100的关键词，提取论文的标题、获取文件名，并利用文本内容提取文本特征向量。

5、利用文本特征向量和关键词提取模型，将TextRank算法提取的100个关键词进行重新判断，最终提取出被判断为是关键词的词语，作为最终关键词集合。

7、将通过本发明方法中不同模型提取的关键词与原有关键词进行比较，计算精确率和召回率。

8、利用TextRank算法和TFIDF算法提取测试集535篇论文的关键词，并与原有关键词对比计算精确率和召回率。

经过测试集测试后，提取关键词的准确率与召回率如表2所示：

关键词提取算法	精确率	召回率
			TextRank	0.7865	0.6300
TFIDF	0.6357	0.5361
			本发明用LR模型	0.9339	0.6576
本发明用SVM模型	0.9056	0.6324
			本发明用决策树模型	0.9423	0.5997

从测试结果分析可得以下结论：

1、通过对比，本方法不同模型提取关键词的精确率和召回率总体上较优于TextRank算法和TFIDF算法提取的关键词。召回率提高不多，这是因为本实施例中采用TextRank算法和TFIDF算法时，分别提取了十个关键词，提取的关键词的个数较多；精确率提高比较明显，最高可比TextRank算法提高16％，比TFIDF算法提高31％。

2、通过本方法内部对比，从精确率的角度看，LR模型与决策树模型效果差不多，稍微优于决策树模型。

其中，精确率和召回率的定义说明如下：

首先看混淆矩阵，假如现在有一个二分类问题，那么预测结果和实际结果两两结合会出现如下四种情况。

由于用数字1、0表示不太方便阅读，转换后使用T(True)代表正确、F(False)代表错误、P(Positive)代表1、N(Negative)代表0。先看预测结果(P|N)，然后再针对实际结果对比预测结果，给出判断结果(T|F)。按照上面逻辑，重新分配后为：

TP、FP、FN、TN可以理解为：

TP：预测为1，实际为1，预测正确。

FP：预测为1，实际为0，预测错误。

FN：预测为0，实际为1，预测错误。

TN：预测为0，实际为0，预测正确。

精确率：针对预测结果而言的，其含义是在被所有预测为正的样本中实际为正样本的概率，表达式为：

召回率：针对原样本而言的，其含义是在实际为正的样本中被预测为正样本的概率，表达式为：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种适用于word文本的关键词提取方法，其特征在于，包括以下步骤：

S1：获取word文本并提取正文；

S2：分别利用TFIDF算法和TextRank算法提取设定个数的关键词；

S3：获取文本名称和文本标题，并进行分词；

S4：对TextRank算法提取的每个关键词分别构建文本特征向量，并输入训练完成的关键词提取模型，所述的文本特征向量为包含六位数的向量，其中第一位数表示该词在TextRank算法提取的关键词中的排名；第二位数表示该词在TFIDF算法提取的关键词中的排名；第三位数和第四位数为步骤S41中得到的向量；第五位数和第六位数为步骤S42中得到的向量；

所述的步骤S41具体为：判断利用TextRank算法提取的关键词是否出现在文本名称的分词中，若是，则用[1,0]向量表示，否则用[0,1]向量表示；

所述的步骤S42具体为：判断利用TextRank算法提取的关键词是否出现在文本标题的分词中，若是，则用[1,0]向量表示，否则用[0,1]向量表示；

S5：利用关键词提取模型，对通过TextRank算法提取的关键词再次提取，得到最终关键词集合，完成文本关键词的提取，具体包括：所述的关键词提取模型根据输入的文本特征向量，判断TextRank算法提取的关键词是否为真实关键词，若是，则输出为1，否则输出为0，最后取出判断结果为1的词，作为最终关键词集合，完成文本关键词的提取；

所述的关键词提取模型的训练步骤具体包括：

A2：对训练集中的文本进行预处理，得到预处理后文本；

A5：分别利用TFIDF算法和TextRank算法提取设定个数的关键词；

2.根据权利要求1所述的一种适用于word文本的关键词提取方法，其特征在于，若利用TextRank算法提取的某个关键词，在TFIDF算法提取的关键词中不存在，则文本特征向量的第二位数的值设为利用TFIDF算法提取的关键词的数量。

3.根据权利要求1所述的一种适用于word文本的关键词提取方法，其特征在于，所述的步骤S2具体包括：

4.根据权利要求1所述的一种适用于word文本的关键词提取方法，其特征在于，所述的包含七位数的向量中，第一位数表示该词在TextRank算法提取的关键词中的排名；第二位数表示该词在TFIDF算法提取的关键词中的排名；第三位数和第四位数为步骤A6中得到的，用于表示该词是否出现在文本名称中的向量；第五位数和第六位数为步骤A6中得到的，用于表示该词是否出现在文本标标题中的向量；第七位数表示该词是否为原有关键词中的一个，若是则记为1，否则记为0。

5.根据权利要求4所述的一种适用于word文本的关键词提取方法，其特征在于，所述的关键词提取模型为二分类模型P(Y|X)，模型训练时，所述的文本特征向量矩阵中每个向量的前六位数作为X，第七位数作为标签Y。

6.根据权利要求5所述的一种适用于word文本的关键词提取方法，其特征在于，所述的关键词提取模型使用LR模型、SVM模型或决策树模型。