CN111859961B

CN111859961B - 一种基于改进TopicRank算法的文本关键词抽取方法

Info

Publication number: CN111859961B
Application number: CN202010743694.3A
Authority: CN
Inventors: 廖盛斌; 郑章雄
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2024-02-23
Anticipated expiration: 2040-07-29
Also published as: CN111859961A

Abstract

本发明公开了一种基于改进TopicRank算法的文本关键词抽取方法，包括步骤：对文本进行预处理，从预处理后的文本中抽取候选关键词，并对候选关键词进行向量化，然后对向量化后的候选关键词进行聚类生成主题；构建图模型，利用图模型获取每个主题的分值。其中，图模型的顶点代表主题，图模型的边代表构成边的两个顶点所表示主题间的语义关系，边对应的分值权重由主题包含的候选关键词的相对位置、绝对位置和长度确定；从高到低选取分值最高的n个主题，n为预先定义的正整数，从选取的n个主题包含的候选关键词中选取最终文本关键词。本发明能够有效改进TopicRank算法抽取关键词的效果，提高抽取关键词的准确率。

Description

一种基于改进TopicRank算法的文本关键词抽取方法

技术领域

本发明属于文本处理技术领域，更具体地，涉及一种基于改进TopicRank算法的文本关键词抽取方法。

背景技术

文本关键词代表了文本的主要概念和关键性内容,是理解文本内容最简洁和最快速的方法。文本关键词抽取,也称关键词提取或关键词标注,是从文本中把与该文本所要表达的意义最相关的一些词或短语抽取出来的一种自动化技术。关键词抽取在图书馆学、情报学、自然语言处理等领域有重要的实际应用价值。

现有的关键词抽取方法可以分为两类：有监督机器学习方法和无监督机器学习方法。

基于有监督学习的关键词抽取方法的一般步骤是：首先，建立一个包含大量文本和人工标注的对应关键词的训练数据集；然后，利用建立好的训练数据集对构造的关键词抽取算法进行训练得到一个模型；最后，应用训练好的模型对新文本进行关键词抽取。有监督机器学习的关键词抽取算法常借助决策树(DT)、朴素贝叶斯(NB)、支持向量机(SVM)、最大熵模型(ME)、隐Markov模型(HMM)、条件随机场(CRF)等机器学习模型。

在有监督的关键词抽取方法当中，训练数据集的质量会直接影响到模型的准确性，从而影响着关键词抽取的效果。具体有两方面的原因，一方面，现已标注关键词的文本有限，训练集要自己去标注会花费大量的人力物力，工作量十分巨大，而且人工标注关键词不可避免地带有一定的人为主观判断，会造成实验数据的不一致性影响模型训练的效果。另一方面，在一个领域训练的关键词抽取模型往往很难直接应用于另一个领域或者在应用于其他领域时效果会大幅下降，比如在规范性的论文数据集上训练出的模型就很难直接应用于随意性较大的互联网文本。因此，如何获取一个高质量的文本关键词抽取的训练集合，并且使训练出来的关键词抽取模型在不同的领域之间具有很好的迁移性是有监督算法的难点所在。

与有监督的关键词抽取算法不同，无监督的关键词抽取学习任务，不需要人工标注的训练语料，而是一般通过各种无监督学习算法对候选关键词排名的手段来实现，因此可以避免有监督学习算法的一些问题。无监督的关键词抽取任务一般步骤如下：首先，根据一些事先人为设定的规则提取出文本的候选关键词，如由名词或形容词构成的词组；然后，根据一些指标或方法对这些候选关键词进行排序来确定这些候选关键词的重要性；最后,选择排序前n个词或短语作为最终抽取出来的关键词来代表文章内容。

相对于有监督方法而言，无监督的关键词抽取方法是近年来关键词抽取研究和应用的热点，其经常采用的技术手段包括：基于统计的方法、基于主题的方法、基于网络图的方法等。

基于统计的方法利用的是文本的统计特征来进行关键词抽取，例如文本中关键词词频等。在基于统计的方法中比较著名的一个方法是TF-IDF算法，TF(“Term Frequency”的缩写)代表文章中某一个候选关键词出现的频率，如果一个候选关键词出现的频率越高，则它的TF值越大。IDF(“Inverse Document Frequency”的缩写)表示一个候选关键词的常见程度，候选关键词在文档中越常见则它的IDF值越低。TF-IDF算法的主要思想是如果某个候选关键词在一篇文章中出现的频率即TF值高，并且在其他文章中很少出现，即IDF值同样也高，那么这一个候选关键词对这篇文章就具有很好的代表性，能够作为代表文章内容的一个关键词。

基于主题的方法，也称为主题模型，它认为一篇文本由若干个主题构成，例如一篇介绍国际贸易冲突的文章可能会涉及的主题有“芯片”和“5G”，当文本描述到“芯片”时，“英特尔”、“台积电”、“ASML”等词出现概率较高，而提到“5G”时，则出现“华为”、“中兴”、“诺基亚”等概率较高。主题模型通过对训练文档的无监督学习，期望得到文本的主题分布和主题下的关键词分布。然后在进行关键词抽取的时候，通过已训练好的主题模型得到主题-词的分布和文档-主题分布来调整根据其他算法(例如TF-IDF等)得到的候选关键词得分。目前，使用较多的主题模型有LDA主题模型等。

基于网络图的方法也称为“图模型”，它是利用网络图来对候选关键词进行排名，得分最高的候选关键词选出作为文本的关键词。TextRank算法是图模型算法当中具有代表性的一个算法，其思想来源于著名的PageRank算法，它采用了投票(vote)的策略来对候选关键词进行排名，即一个重要的节点所指向的节点也相应更为重要。在TextRank算法当中，在某一个窗口范围之内(间隔5个词或间隔10个词)的候选关键词被认为两者之间具有语义关系，能够给彼此投票。在TextRank算法之后，有很多模型对其进行了改进，如TopicRank算法，TopicRank算法认为文章的语义是由一个一个的主题代表的，用单个词或词组来代表文章容易造成单个词或词组的语义重复，因此TopicRank算法在用图模型进行排序时，所构造的图模型的顶点不是单个的单词或词组，而是根据一定的规则聚成类的主题，实验证明这种方法在TextRank算法的基础上能有效提升模型的关键词抽取效果。

最近随着词向量研究的快速发展，在TopicRank聚类的时候或者在其他关键词抽取模型当中很多工作开始引入了词向量聚类的过程，比如利用word2vec、fastText等进行聚类。词向量的引入，大大提升了在计算机当中表征词汇的能力，并使得不同的词汇进行语义上的直接比较成为可能，例如利用余弦公式可以简便地计算两个词汇的相似度。因此，也相应提高了关键词抽取模型抽取关键词的效果。

然而，现有的文本关键词抽取方法仍然还有改进的空间。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于改进TopicRank算法的文本关键词抽取方法，使用了文本中候选关键词的相对位置信息、绝对位置信息和长度信息，能够有效改进TopicRank算法抽取关键词的效果。

为实现上述目的，按照本发明的第一方面，提供了一种基于改进TopicRank算法的文本关键词抽取方法，包括步骤：

对文本进行预处理，从预处理后的文本中抽取候选关键词，并对候选关键词进行向量化，对向量化后的候选关键词进行聚类生成主题；

构建图模型，利用图模型获取每个主题的分值，其中，图模型的顶点代表主题，图模型的边代表构成边的两个顶点所表示主题间的语义关系，两个主题间的语义关系决定两个主题间的分值权重，将边的两个顶点代表的主题记为t_i、t_j，则主题t_i、t_j构成的边的分值权重w_i,j由主题t_i、t_j包含的候选关键词的相对位置，主题t_i、t_j包含的候选关键词的绝对位置和主题t_i、t_j包含的候选关键词的长度确定；

根据分值对主题进行排序，从高到低选取分值最高的n个主题，n为预先定义的正整数，从选取的n个主题包含的候选关键词中选取最终文本关键词。

优选的，所述主题t_i、t_j构成的边的分值权重w_i,j确定时，若主题t_i、t_j包含的候选关键词越长，则分值权重w_i,j越大；主题t_i、t_j包含的候选关键词的绝对位置越靠近文本的开头，则分值权重w_i,j越大。

优选的，所述主题t_i、t_j之间的分值权重w_i,j按照如下方式定义：

len(c_k,c_l)的计算方式为：

len(c_k,c_l)＝len(c_k)+len(c_l)

或者，

len(c_k,c_l)＝(len(c_k)+len(c_l))²

pos(c_k,c_l)的计算方式为：

或者，

其中，len(c_k)、len(c_l)代表主题t_i、t_j中候选关键词c_k和c_l的长度，pos(c_k,c_l)代表c_k和c_l的正序位置信息，p_x、p_y是c_k和c_l在文中出现的位置，dist(c_k,c_l)表示主题t_i、t_j中候选关键词c_k和c_l在文本当中的所有距离之和，pos(c_k)、pos(c_l)表示文本中候选关键词c_k、c_l的所有位置。

优选的，所述利用图模型获取每个主题的分值时，主题t_i的分值S(t_i)按照如下公式定义：

其中，V_i是给主题t_i投票的其他主题，λ是预设的阻尼因子。

优选的，所述进行聚类生成主题包括：

计算向量化后的候选关键词的杰卡德距离，并按照候选关键词词干的相似度用层次聚类算法进行聚类，若两个候选关键词的词干相似度在预设阈值以上，则认为它们属于同一类，构成一个主题。

优选的，所述用层次聚类算法进行聚类时使用平均链接策略，即计算两个主题之间的距离时，使用主题中所有候选关键词的平均距离。

优选的，所述从选取的n个主题包含的候选关键词中选取最终文本关键词采用以下方式一、二或三中的任意一种：

方式一，在n个主题中，选取每个主题中最先出现的候选关键词作为最终文本关键词；

方式二，在n个主题中，选取每个主题中最常出现的候选关键词作为最终文本关键词；

方式三，在n个主题中，选取每个主题中靠近聚类中心的候选关键词作为最终文本关键词。

优选的，所述向量化包括步骤：

对抽取出来的所有候选关键词按照字母顺序进行先后排序，形成一个候选关键词序列，并将所有的候选关键词词组拆分成单个的词，同样对这些拆分后的词按照字母顺序进行排序，然后构造一个m×n的0-1矩阵，其中m是文本中候选关键词的数量，n是将候选关键词词组拆分成单个词之后所有词的数量。

总体而言，本发明与现有技术相比，具有有益效果：

(1)本发明除了使用文本中候选关键词的位置信息外，还较新颖地使用了候选关键词的长度信息，且实验证明长度信息对模型效果有较大影响，能够有效改进TopicRank算法抽取关键词的效果，提高抽取关键词的准确率。

(2)本发明不仅利用了候选关键词之间的相对位置关系，还利用了文本本身的候选关键词的绝对位置信息，且与现有技术对位置权重进行分段设置为几个固定的值不同，本发明使用位置信息的方式是采用候选关键词在文中位置的倒数，使模型对位置信息的使用更为有效。

(3)本发明新加入的特征值的使用方式较为简洁，没有过多的参数需要人为设置，一定程度上避免了过拟合的风险。

(4)本发明所介绍的思路不仅可用来改进TopicRank算法，也可轻易地用于改进其他基于图模型的关键词抽取算法。

附图说明

图1是本发明实施例的文本关键词抽取方法的流程示意图；

图2是本发明实施例的向量化示意图；

图3是本发明实施例的层次聚类方法示意图；

图4是本发明实施例的TopicRank算法的图模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例的一种基于改进TopicRank算法的文本关键词抽取方法，基于计算机对输入的文本进行处理，包括以下步骤：

步骤1：给定文本预处理

对输入计算机的文本进行预处理。优选的，预处理包括对其进行分句、去掉停用词和标点符号，对单词进行标记(word tokenization)、词性标记(标记名词、动词、形容词、介词等)等。对单词进行标记使用的python自然语言工具包为英文提供的TreebankWordTokenizer，并使用斯坦福的POS-tagger对词性进行标记。

步骤2：候选关键词抽取

从预处理后的文本中抽取候选关键词。优选的，根据步骤1中词性标记的结果，抽取文本当中最长的由名词、形容词、介词组成的词组作为候选关键词。

步骤3：候选关键词向量化及聚类

对候选关键词进行向量化，对向量化后的候选关键词进行聚类生成代表文本内容的主题。

优选的，向量化的具体实现方式：首先，对抽取出来的所有候选关键词按照字母顺序进行先后排序，形成一个候选关键词序列，并且将所有的候选关键词词组拆分成单个的词，同样对这些拆分后的词按照字母顺序进行排序。其次，构造一个m×n的矩阵D，其中m是文本当中候选关键词的数量，n是将所有候选关键词词组拆分成单个词之后构成的集合中词的数量。对于任意一个候选关键词，若它在所有候选关键词中排序为e，且其拆分后的单个词在所有候选关键词拆分后的单个词中排序为f、g(以一个候选关键词词组拆分成两个单词为例)，则将D[e,f]、D[e,g]标记为1，其余全标记为0。按照这种方法，构造一个代表所有候选关键词的0-1矩阵。

优选的，采用层次聚类算法进行聚类。首先对步骤2中抽取出来的候选关键词进行词干化来减少单词涉及的形式；然后对词干相似度在预设阈值如25％以上的候选关键词进行聚类，形成一个代表文章语义的主题；最后用层次聚类算法对主题进行聚类，聚类时使用杰卡德距离(Jaccard Distance)计算两个主题之间的距离矩阵，用平均距离对候选关键词进行关联，即计算两个主题当中所有候选关键词的平均距离。附图2是候选关键词向量化示意图，附图3是层次聚类算法示意图。

步骤4：候选关键词长度、位置计算

计算步骤2中抽取出来的候选关键词的长度和候选关键词在文本中的绝对位置，作为备用，用来初始化步骤5中图模型边的权重。

对于英文，可定义候选关键词的长度为包含单词的数量，例如若候选关键词为“process”，则长度为1，若候选关键词为“inverse problem”，则长度为2。

对于中文，可定义候选关键词的长度为包含汉字的数量。

候选关键词在文本中的绝对位置定义为：文本分词后，候选关键词在文本中的位置。

步骤5：基于图模型的主题排名

基于计算机建模技术构建图模型，对步骤3中聚成的主题用图模型计算分值。其中图模型当中的顶点代表候选关键词聚成的主题，顶点之间的边代表构成边的两个顶点所表示主题间的语义关系。两个主题间的语义关系的决定两个主题间的打分权重。两个顶点之间边的打分权重取决于它们语义关系的强弱程度，即如果两个主题当中的两个候选关键词在文档中经常近距离成对出现，则认为它们之间具有较强的语义关系，在图模型当中表现为给彼此进行了“投票”。

将边的两个顶点代表主题记为t_i、t_j，则主题t_i、t_j构成的边的分值权重w_i,j由主题t_i、t_j包含的候选关键词的相对位置，主题t_i、t_j包含的候选关键词的绝对位置和主题t_i、t_j包含的候选关键词的长度确定；

优选的，若主题t_i、t_j包含的候选关键词越长，则分值权重w_i,j越大；若主题t_i、t_j包含的候选关键词的绝对位置越靠近文本的开头，则分值权重w_i,j越大。若一个候选关键词越长或者出现在文章的开头部分，则认为它们比长度较短的关键词或处于文本中间的候选关键词具有更大的重要性，更能够代表文本内容。附图4是本发明实施例改进的TopicRank算法示意图。

优选的，主题t_i、t_j之间的分值权重w_i,j按照如下方式定义：

len(c_k,c_l)的计算方式可以是：

len(c_k,c_l)＝len(c_k)+len(c_l)

或者：

len(c_k,c_l)＝(len(c_k)+len(c_l))²

pos(c_k,c_l)的计算方式可以是：

或者：

然后，当图模型构建好之后再利用基于图模型获取主题的分值。在该过程中，通过“投票”的方法给主题分配一个显著性分值：若一个主题分值较高，那么认为被它“投票”的主题也相应具有更大的重要性，即与其相连的主题分值也随之提高。具体的获取分值过程如下：

其中，V_i是给主题t_i投票的其他主题，λ是阻尼因子，λ可设置为TopicRank算法中的0.85。

步骤6：抽取关键词

从高到低对步骤5中得分在前面的n个主题，从这n个主题中抽取该主题当中最能代表该主题的候选关键词作为文本最终的关键词，通常有三种策略来选择最能代表该主题的关键词。第一种策略，在n个主题中，选取每个主题中最先出现的候选关键词；第二种策略，在n个主题中，选取每个主题中出现次数最多的候选关键词；第三种策略，在n个主题中，选取每个主题中最靠近聚类中心的候选关键词。优选的，可延用TopicRank的选择策略采用第一种方式。

为了验证本方法的有效性，本发明在公开的数据集上进行了实验验证：

实验使用的数据为关键词抽取评测任务-SemEval2010，由284篇科学论文组成，其中训练集由144篇文章组成，验证集40篇，测试集100篇。并使用三个经典的关键词抽取算法作为比较对象，分别是TF-IDF、TextRank和TopicRank。

本发明分别实验了单独融合候选关键词的长度信息和位置信息以及两者一起融合时的效果。结果显示，单独融合候选关键词的长度信息，能使TopicRank算法的F1值由0.121提升到0.134。单独融合候选关键词的位置信息，能使TopicRank算法的F1值由0.121提升到0.143。两者同时融合能使TopicRank算法的F1值由0.121提升到0.147。以上结果充分验证了本发明的有效性。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进TopicRank算法的文本关键词抽取方法，其特征在于，包括步骤：

对输入计算机的文本进行预处理，从预处理后的文本中抽取候选关键词，并对候选关键词进行向量化，对向量化后的候选关键词进行聚类生成主题；

根据分值对主题进行排序，从高到低选取分值最高的n个主题，n为预先定义的正整数，从选取的n个主题包含的候选关键词中选取最终文本关键词；

所述主题t_i、t_j构成的边的分值权重w_i,j确定时，若主题t_i、t_j包含的候选关键词越长，则分值权重w_i,j越大；若主题t_i、t_j包含的候选关键词的绝对位置越靠近文本的开头，则分值权重w_i,j越大；

所述主题t_i、t_j之间的分值权重w_i,j按照如下方式定义：

len(c_k,c_l)的计算方式为：

len(c_k,c_l)＝len(c_k)+len(c_l)

或者，

len(c_k,c_l)＝(len(c_k)+len(c_l))²

pos(c_k,c_l)的计算方式为：

或者，

2.如权利要求1所述的一种基于改进TopicRank算法的文本关键词抽取方法，其特征在于，所述利用图模型获取每个主题的分值中，主题t_i的分值S(t_i)按照如下公式定义：

3.如权利要求1所述的一种基于改进TopicRank算法的文本关键词抽取方法，其特征在于，所述进行聚类生成主题包括：

4.如权利要求3所述的一种基于改进TopicRank算法的文本关键词抽取方法，其特征在于，所述用层次聚类算法进行聚类时使用平均链接策略，即计算两个主题之间的距离时，使用主题中所有候选关键词的平均距离。

5.如权利要求1所述的一种基于改进TopicRank算法的文本关键词抽取方法，其特征在于，所述从选取的n个主题包含的候选关键词中选取最终文本关键词采用以下方式一、二或三中的任意一种：

6.如权利要求1所述的一种基于改进TopicRank算法的文本关键词抽取方法，其特征在于，所述向量化包括步骤：