CN112948527A

CN112948527A - 一种改进的TextRank关键词提取方法及装置

Info

Publication number: CN112948527A
Application number: CN202110201095.3A
Authority: CN
Inventors: 赵娜; 杨燕; 王莹港; 郁湧; 王剑; 康雁; 王鑫锴; 张强荐; 胡盛; 柴焰明; 龙镇; 文俊杰; 马伟云
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-11
Anticipated expiration: 2041-02-23
Also published as: CN112948527B

Abstract

本申请公开了一种改进的TextRank关键词提取方法及装置。在该方法中，首先构建文本的词共现网络，接着基于词共现网络并引入节点的度中心性和聚类系数两项复杂网络统计特征，得到节点的初始权重。然后依据相邻节点对节点的重要程度将初始权重分配给两节点之间的连边，确定连边权重，从而实现对连边加权，确定每个节点的重要性分值。进一步引入位置系数来对节点的重要性分值进行调整，确定每个节点的最终权重。最后依据每个节点的最终权重对节点进行排序后，确定文本的关键词。本申请通过节点本身的度中心性和聚类系数两项特征为连边加权，并结合节点的位置特征实现文本的关键词提取，能够有效提高关键词提取的准确率。

Description

一种改进的TextRank关键词提取方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种改进的TextRank关键词提取方法及装置。

背景技术

文本关键词是指能对文本内容进行精确概括，反映作者写作意图的重要词语，文本关键词不仅可以概况文本的主题，还可以反映文本的主要内容和情感倾向。因此，准确、高效的文本关键词提取对于文本聚类、文本摘要抽取和信息检索都至关重要。

传统的TextRank算法是一种基于图排序的关键词提取算法，它利用文本候选关键词在窗口中的共现关系，将相关联的候选关键词之间建立连边，构建词共现网络，通过公式迭代计算得到词共现网络中每个节点(节点是指词共现网络中的候选关键词)的权重，从而完成节点的排序，提取出文本的关键词。该算法仅利用文本本身的信息就能完成关键词提取，无需预先对数据进行大量训练，具有实现简单、语言相关性弱等优点。

但是传统的TextRank算法在进行关键词提取时，将词共现次数作为连边权重，却忽略了候选关键词本身的重要性，使得关键词提取的准确率较低。

发明内容

本申请公开一种改进的TextRank关键词提取方法及装置，用于解决现有技术中，传统的TextRank算法在进行关键词提取时，将词共现次数作为连边权重，却忽略了候选关键词词本身的重要性，使得关键词提取的准确率较低的技术问题。

本申请第一方面公开了一种改进的TextRank关键词提取方法，包括：

获取初始文本，并对所述初始文本进行预处理，确定候选关键词总集；所述预处理是指将所述初始文本划分为多个句子，对任一句子进行分词、词性标注、词性过滤以及去停用词处理后，确定任一句子对应的候选关键词集；所述候选关键词总集包括多个候选关键词集；

根据候选关键词总集，构建词共现网络；

根据所述词共现网络，获取第一节点及第二节点，所述第一节点为任一节点，所述第二节点为所述第一节点任一相邻的节点；

获取所述第一节点的度中心性，以及，获取所述第二节点的度中心性；

获取所述第一节点的聚类系数，以及，获取所述第二节点的聚类系数；

根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数，确定所述第一节点的初始权重；以及，根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数，确定所述第二节点的初始权重；

根据所述词共现网络，获取节点总数、第一相邻节点的集合、第二相邻节点的集合，所述第一相邻节点是指与所述第一节点相邻的节点，所述第二相邻节点是指与所述第二节点相邻的节点；

根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合，确定所述第一节点与所述第二节点之间的连边权重；

根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重，确定所述第一节点的重要性分值；

根据所述第一节点的重要性分值和预设的位置系数，确定所述第一节点的最终权重；

根据所述第一节点的最终权重，对全部节点进行降序排列并舍去单字词节点，确定所述初始文本的关键词。

可选的，所述获取所述第一节点的度中心性，以及，获取所述第二节点的度中心性，包括：

根据所述词共现网络，获取所述节点总数、所述第一节点的边数及第二节点的边数，所述边数是指连接所述任一节点的边的个数；

根据所述节点总个数和所述第一节点的边数，确定所述第一节点的度中心性；

根据所述节点总个数和所述第二节点的边数，确定所述第二节点的度中心性。

可选的，获取所述第一节点的聚类系数，以及，获取所述第二节点的聚类系数，包括：

根据所述词共现网络，获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数；

根据所述第一节点的边数和所述第一相邻节点之间的边数，确定所述第一节点的聚类系数；

根据所述第二节点的边数和所述第二相邻节点之间的边数，确定所述第二节点的聚类系数。

可选的，所述根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合，确定所述第一节点与所述第二节点之间的连边权重，包括：

通过如下公式确定所述第一节点与所述第二节点之间的连边权重：

其中，w_ij表示所述第一节点v_i与所述第二节点v_j之间的连边权重，wc_i表示所述第一节点v_i的初始权重，wc_j表示所述第二节点v_j的初始权重，τ(i)表示所述第一相邻节点的集合，τ(j)表示所述第二相邻节点的集合。

本申请第二方面公开了一种改进的TextRank关键词提取装置，所述改进的TextRank关键词提取装置应用于本申请第一方面公开的一种改进的TextRank关键词提取方法，所述改进的TextRank关键词提取装置包括：

文本获取模块，用于获取初始文本，并对所述初始文本进行预处理，确定候选关键词总集；所述预处理是指将所述初始文本划分为多个句子，对任一句子进行分词、词性标注、词性过滤以及去停用词处理后，确定任一句子对应的候选关键词集；所述候选关键词总集包括多个候选关键词集；

词共现网络构建模块，用于根据候选关键词总集，构建词共现网络；

节点获取模块，用于根据所述词共现网络，获取第一节点及第二节点，所述第一节点为任一节点，所述第二节点为所述第一节点任一相邻的节点；

度中心性计算模块，用于获取所述第一节点的度中心性，以及，获取所述第二节点的度中心性；

聚类系数计算模块，用于获取所述第一节点的聚类系数，以及，获取所述第二节点的聚类系数；

初始权重获取模块，用于根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数，确定所述第一节点的初始权重；以及，根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数，确定所述第二节点的初始权重；

节点参数获取模块，用于根据所述词共现网络，获取节点总数、第一相邻节点的集合、第二相邻节点的集合，所述第一相邻节点是指与所述第一节点相邻的节点，所述第二相邻节点是指与所述第二节点相邻的节点；

连边权重获取模块，用于根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合，确定所述第一节点与所述第二节点之间的连边权重；

重要性分值确定模块，用于根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重，确定所述第一节点的重要性分值；

最终权重确定模块，用于根据所述第一节点的重要性分值和预设的位置系数，确定所述第一节点的最终权重；

关键词获取模块，用于根据所述第一节点的最终权重，对全部节点进行降序排列并舍去单字词节点，确定所述初始文本的关键词。

可选的，所述度中心性计算模块包括：

度中心性参数获取单元，用于根据所述词共现网络，获取所述节点总数、所述第一节点的边数及第二节点的边数，所述边数是指连接所述任一节点的边的个数；

第一节点度中心性计算单元，用于根据所述节点总个数和所述第一节点的边数，确定所述第一节点的度中心性；

第二节点度中心性计算单元，用于根据所述节点总个数和所述第二节点的边数，确定所述第二节点的度中心性。

可选的，所述聚类系数计算模块包括：

聚类系数参数获取单元，用于根据所述词共现网络，获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数；

第一节点聚类系数计算单元，用于根据所述第一节点的边数和所述第一相邻节点之间的边数，确定所述第一节点的聚类系数；

第二节点聚类系数计算单元，用于根据所述第二节点的边数和所述第二相邻节点之间的边数，确定所述第二节点的聚类系数。

可选的，所述连边权重获取模块用于通过如下公式确定所述第一节点与所述第二节点之间的连边权重：

本申请涉及自然语言处理技术领域，公开了一种改进的TextRank关键词提取方法及装置。在该方法中，首先构建文本的词共现网络，接着基于词共现网络并引入节点的度中心性和聚类系数两项复杂网络统计特征，得到节点的初始权重。然后依据相邻节点对节点的重要程度将初始权重分配给两节点之间的连边，确定连边权重，从而实现对连边加权，确定每个节点的重要性分值。进一步引入位置系数来对节点的重要性分值进行调整，确定每个节点的最终权重。最后依据每个节点的最终权重对节点进行排序后，确定文本的关键词。本申请通过节点本身的度中心性和聚类系数两项特征为连边加权，并结合节点的位置特征实现文本的关键词提取，能够有效提高关键词提取的准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种改进的TextRank关键词提取方法的工作流程示意图；

图2为本申请实施例公开的一种改进的TextRank关键词提取方法中，词共现关系的示例图；

图3为本申请实施例公开的一种改进的TextRank关键词提取装置的结构示意图。

具体实施方式

为了解决现有技术中，传统的TextRank算法在进行关键词提取时，将词共现次数作为连边权重，却忽略了候选关键词词本身的重要性，使得关键词提取的准确率较低的技术问题，本申请通过以下两个实施例公开了一种改进的TextRank关键词提取方法及装置。

本申请第一实施例公开了一种改进的TextRank关键词提取方法，参见图1所示的工作流程示意图，所述改进的TextRank关键词提取方法包括：

步骤S101，获取初始文本，并对所述初始文本进行预处理，确定候选关键词总集。所述预处理是指将所述初始文本划分为多个句子，对任一句子进行分词、词性标注、词性过滤以及去停用词处理后，确定任一句子对应的候选关键词集。所述候选关键词总集包括多个候选关键词集。

在本申请的部分实施例中，将初始文本划分为多个句子，对初始文本进行句子识别，以顿号、句号、问号、感叹号、省略号、分号等作为句子分隔符。对划分后的句子进行分词、词性标注、词性过滤、去停用词处理，得到每个句子对应的候选关键词集合，即候选关键词总集。

步骤S102，根据候选关键词总集，构建词共现网络。

在本申请的部分实施例中，构建初始文本的词共现网络G＝(V，E)，其中V为候选关键词总集，E为边集合，E∈V×V。文本的共现窗口大小为初始文本预处理后的句子长度，候选关键词的共现窗口跨度最大取2，即对于候选关键词总集{w₁，w₂，w₃，...，w_n}中任意两个候选关键词w_a和w_b，如果它们同时出现在一个句子中且跨度小于等于2，则认为这两个词语之间存在关联，相应地，在w_a和w_b之间建立连边，合并相同节点，得到词共现网络。

具体来说，词共现是指在同一集合(句子，段落，文档)中，一个词的出现很可能跟另外一个词的出现相关。文本是由一系列词串线性连接组成的，但使用词共现网络对文本进行表示，可将文本中的词表示为网络中的节点，词之间的关系表示为网络中的连边，因此，词之间呈现多向关联关系，更符合语言学特性。

示例：以文本“关键词提取的方法与实现”(分词结果：“关键词”“提取”“的”“方法”“与”“实现”)为例，如将文本的窗口单元定义为两个步长，即词之间的跨度小于等于2，则句中“的”和“与”被认为是意义不大的停用词，需要删除。如图2所示，这句话的连边关系是：{“关键词”，“提取”}，{“提取”，“方法”}，{“方法”，“实现”}。

步骤S103，根据所述词共现网络，获取第一节点及第二节点，所述第一节点为任一节点，所述第二节点为所述第一节点任一相邻的节点。

本申请实施例通过第一节点v_i和第二节点v_j进行说明，需要指出的是，所述第一节点v_i为任一节点，所述第二节点v_j为所述第一节点v_i任一相邻的节点。

具体来说，根据所述词共现网络，确定节点集(词共现网络中候选关键词的集合)V＝{v₁，v₂，...，v_N，N∈N⁺}，边集E＝{(v_a，v_b)|v_a，v_b∈V}表示节点(候选关键词)之间连边关系的集合。则词共现网络G＝(V，E)表示以V为节点，E为边的词共现网络，例如(v_i，v_j)表示第一节点v_i和第二节点v_j之间的边，N表示词共现网络中节点的个数。

步骤S104，获取所述第一节点的度中心性，以及，获取所述第二节点的度中心性。

进一步的，所述获取所述第一节点的度中心性，以及，获取所述第二节点的度中心性，包括：

根据所述词共现网络，获取所述节点总数、所述第一节点的边数及第二节点的边数，所述边数是指连接所述任一节点的边的个数。

根据所述节点总个数和所述第一节点的边数，确定所述第一节点的度中心性。

具体来说，词共现网络G中，节点v_a的度k_a定义为连接节点v_a的边数，表示为k_a＝|{v_b|v_b∈V，(v_a，v_b)∈E}|。度中心性被用来来衡量节点处于中心地位的程度，度中心性是度归一化之后的公式，所述第一节点v_i的度中心性kc_i具体通过如下公式计算：

同理可以获得所述第二节点v_j的度中心性kc_j。

步骤S105，获取所述第一节点的聚类系数，以及，获取所述第二节点的聚类系数。

进一步的，获取所述第一节点的聚类系数，以及，获取所述第二节点的聚类系数，包括：

根据所述词共现网络，获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数。

根据所述第一节点的边数和所述第一相邻节点之间的边数，确定所述第一节点的聚类系数。

具体来说，节点的聚类系数体现节点相互连接的紧密程度。第一节点v_i的聚类系数cc_i通过如下公式计算：

其中，E_i表示第一节点v_i所有相邻的节点之间实际存在的边数。

同理可以获取所述第二节点v_j的聚类系数cc_j。

步骤S106，根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数，确定所述第一节点的初始权重。以及，根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数，确定所述第二节点的初始权重。

具体通过如下公式计算所述第一节点v_i的初始权重wc_i：

wc_i＝α*kc_i+β*cc_i；

其中，α、β为可调节参数，且α+β＝1。在后续对本申请实施例提供方法进行验证的过程中发现，当α＝0.8，β＝0.2时，关键词提取的准确率达到最佳效果。

同理可以获取所述第二节点v_j的初始权重wc_j

步骤S107，根据所述词共现网络，获取节点总数、第一相邻节点的集合、第二相邻节点的集合，所述第一相邻节点是指与所述第一节点相邻的节点，所述第二相邻节点是指与所述第二节点相邻的节点。

步骤S108，根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合，确定所述第一节点与所述第二节点之间的连边权重。

进一步的，所述根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合，确定所述第一节点与所述第二节点之间的连边权重，包括：

其中，w_ij表示所述第一节点v_i与所述第二节点v_j之间的连边权重，wc_i表示所述第一节点v_i的初始权重，wc_j表示所述第二节点v_j的初始权重，τ(i)表示所述第一相邻节点的集合，τ(j)表示所述第二相邻节点的集合，具体来说∑_k∈τ(i)wc_k表示将所有第一相邻节点对应的初始权重进行求和，∑_k∈τ(j)wc_k表示将所有第二相邻节点对应的初始权重进行求和。

步骤S109，根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重，确定所述第一节点的重要性分值。

在本申请的部分实施例中，首先赋给所有节点一个相同的初始值；即所述第一节点v_i的初始重要性分值S(v_i)₀，所述第二节点v_j的初始重要性分值S(v_j)₀，且S(v_i)₀＝S(v_j)₀。

进一步通过如下公式进行迭代计算：

其中，d表示阻尼系数，一般取0.85。

在进行迭代计算的过程中，所述第一节点v_i的重要性分值和所述第二节点v_j的重要性分值都是在不断更新变化的，当存在S(v_i)_n与S(v_i)_n-1之间的误差小于0.001时，便停止迭代，并输出此时第一节点v_i的重要性分值S(v_i)_n。

步骤S110，根据所述第一节点的重要性分值和预设的位置系数，确定所述第一节点的最终权重。

在文本中，词出现的位置通常也是决定词语重要性的一个重要因素，如果出现在正文部分的第一节点v_i也出现在标题里，那么第一节点v_i作为文本关键词的可能性也更大。

因此，在完成对所有节点的重要性评分后，进一步引入位置系数γ来对节点的最终权重进行调整。记第一节点v_i的最终权重为E(v_i)，则具体通过如下公式计算E(v_i)，且在本申请实施例中，位置系数γ＝0.8。

步骤S111，根据所述第一节点的最终权重，对全部节点进行降序排列并舍去单字词节点，确定所述初始文本的关键词。

具体来说，根据E(v_i)，获取词共现网络中所有节点的最终权重。依据最终权重对所有节点进行降序排列，考虑到文本的关键词一般不会是单字词，我们将统一对排序后的节点进行去单字词处理，去掉节点中的单字词。最后，取top-K节点作为词共现网络的关键节点，即文本关键词。

本申请上述实施例公开的一种改进的TextRank关键词提取方法，首先构建文本的词共现网络，接着基于词共现网络并引入节点的度中心性和聚类系数两项复杂网络统计特征，得到节点的初始权重。然后依据相邻节点对节点的重要程度将初始权重分配给两节点之间的连边，确定连边权重，从而实现对连边加权，确定每个节点的重要性分值。进一步引入位置系数来对节点的重要性分值进行调整，确定每个节点的最终权重。最后依据每个节点的最终权重对节点进行排序后，确定文本的关键词。本申请通过节点本身的度中心性和聚类系数两项特征为连边加权，并结合节点的位置特征实现文本的关键词提取，能够有效提高关键词提取的准确率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

本申请第二实施例公开了一种改进的TextRank关键词提取装置，所述改进的TextRank关键词提取装置应用于本申请第一实施例公开的一种改进的TextRank关键词提取方法，参见图3所示的结构示意图，所述改进的TextRank关键词提取装置包括：

文本获取模块201，用于获取初始文本，并对所述初始文本进行预处理，确定候选关键词总集。所述预处理是指将所述初始文本划分为多个句子，对任一句子进行分词、词性标注、词性过滤以及去停用词处理后，确定任一句子对应的候选关键词集。所述候选关键词总集包括多个候选关键词集。

词共现网络构建模块202，用于根据候选关键词总集，构建词共现网络。

节点获取模块203，用于根据所述词共现网络，获取第一节点及第二节点，所述第一节点为任一节点，所述第二节点为所述第一节点任一相邻的节点。

度中心性计算模块204，用于获取所述第一节点的度中心性，以及，获取所述第二节点的度中心性。

聚类系数计算模块205，用于获取所述第一节点的聚类系数，以及，获取所述第二节点的聚类系数。

初始权重获取模块206，用于根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数，确定所述第一节点的初始权重。以及，根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数，确定所述第二节点的初始权重。

节点参数获取模块207，用于根据所述词共现网络，获取节点总数、第一相邻节点的集合、第二相邻节点的集合，所述第一相邻节点是指与所述第一节点相邻的节点，所述第二相邻节点是指与所述第二节点相邻的节点。

连边权重获取模块208，用于根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合，确定所述第一节点与所述第二节点之间的连边权重。

重要性分值确定模块209，用于根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重，确定所述第一节点的重要性分值。

最终权重确定模块210，用于根据所述第一节点的重要性分值和预设的位置系数，确定所述第一节点的最终权重。

关键词获取模块211，用于根据所述第一节点的最终权重，对全部节点进行降序排列并舍去单字词节点，确定所述初始文本的关键词。

进一步的，所述度中心性计算模块包括：

度中心性参数获取单元，用于根据所述词共现网络，获取所述节点总数、所述第一节点的边数及第二节点的边数，所述边数是指连接所述任一节点的边的个数。

第一节点度中心性计算单元，用于根据所述节点总个数和所述第一节点的边数，确定所述第一节点的度中心性。

进一步的，所述聚类系数计算模块包括：

聚类系数参数获取单元，用于根据所述词共现网络，获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数。

第一节点聚类系数计算单元，用于根据所述第一节点的边数和所述第一相邻节点之间的边数，确定所述第一节点的聚类系数。

进一步的，所述连边权重获取模块用于通过如下公式确定所述第一节点与所述第二节点之间的连边权重：

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种改进的TextRank关键词提取方法，其特征在于，包括：

根据候选关键词总集，构建词共现网络；

2.根据权利要求1所述的改进的TextRank关键词提取方法，其特征在于，所述获取所述第一节点的度中心性，以及，获取所述第二节点的度中心性，包括：

3.根据权利要求1或2所述的改进的TextRank关键词提取方法，其特征在于，获取所述第一节点的聚类系数，以及，获取所述第二节点的聚类系数，包括：

4.根据权利要求1所述的改进的TextRank关键词提取方法，其特征在于，所述根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合，确定所述第一节点与所述第二节点之间的连边权重，包括：

5.一种改进的TextRank关键词提取装置，其特征在于，所述改进的TextRank关键词提取装置应用于权利要求1-4任一项所述的改进的TextRank关键词提取方法，所述改进的TextRank关键词提取装置包括：

6.根据权利要求5所述的改进的TextRank关键词提取装置，其特征在于，所述度中心性计算模块包括：

7.根据权利要求5所述的改进的TextRank关键词提取装置，其特征在于，所述聚类系数计算模块包括：

8.根据权利要求5所述的改进的TextRank关键词提取装置，其特征在于，所述连边权重获取模块用于通过如下公式确定所述第一节点与所述第二节点之间的连边权重：