CN109918660B

CN109918660B - 一种基于TextRank的关键词提取方法和装置

Info

Publication number: CN109918660B
Application number: CN201910160266.5A
Authority: CN
Inventors: 熊翱; 郭庆; 邱雪松; 孟洛明; 刘德荣
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2021-03-02
Anticipated expiration: 2039-03-04
Also published as: CN109918660A

Abstract

本申请实施例提供了一种基于文本排列TextRank的关键词提取方法和装置，方法包括：对待处理文本进行预处理，得到多个候选词，根据预设的扩散度计算公式，计算每两个候选词在待处理文本中的扩散度，将扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重，根据计算得到的各权重，构建多个候选词对应的文本网络，并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算，当满足预设收敛条件时，将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。基于上述处理，在共现次数的基础上，结合候选词的扩散度确定节点之间的边的权重，进而能够提高提取到的关键词的准确度。

Description

一种基于TextRank的关键词提取方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于TextRank的关键词提取方法和装置。

背景技术

随着计算机技术的快速发展，线上文本的数量呈现爆炸式增长。关键词是对文本的信息的简要概括，能够帮助用户快速理解文本的主旨，从而提高信息访问和信息搜索的效率。因此，如何快速准确地从文本中提取出关键词逐渐成为自然语言处理领域研究的一个热门方向。

相关技术中，通常基于TextRank(文本排列)算法，提取文本的关键词，方法可以包括以下步骤：对待处理文本进行预处理，得到多个候选的关键词(可以称为候选词)，针对每两个候选词，通过预设共现窗口计算该两个候选词的共现次数，然后，将每一候选词作为文本网络的一个节点，将候选词的共现次数作为对应的节点之间的边的权重，构建文本网络，并根据迭代公式(1)进行迭代计算：

其中，P_i表示候选词W_i对应的节点，1≤i≤M，M为待处理文本中所有候选词的总个数，In(P_i)表示文本网络中指向节点P_i的节点的构成的集合，P_j表示In(P_i)中的第j个节点，j小于等于In(P_i)包含的节点的个数，Out(P_j)表示文本网络中节点P_j所指向的节点构成的集合，P_k表示Out(P_j)中的第k个节点，k小于等于Out(P_j)包含的节点的个数；S(P_i)表示节点P_i的得分，S(P_j)表示节点P_j的得分；d表示阻尼因子，用于确保迭代计算能够达到收敛条件；ω_ji表示节点P_j与节点P_i之间的边的权重，ω_jk表示节点P_j与节点P_k之间的边的权重。当根据公式(1)及各节点预设的初始得分，进行迭代计算满足预设收敛条件时，可以将得分较高的节点对应的候选词，作为待处理文本的关键词。

相关技术中，仅根据候选词的共现次数提取关键词，会导致提取到的关键词的准确度较低。

发明内容

本申请实施例的目的在于提供一种基于TextRank的关键词提取方法，可以提高关键词的准确度。具体技术方案如下：

第一方面，为了达到上述目的，本申请实施例公开了一种基于TextRank的关键词提取方法，所述方法包括：

对待处理文本进行预处理，得到多个候选词；

根据预设的扩散度计算公式，计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度，其中，所述扩散度计算公式为：

d_ij表示候选词W_i与候选词W_j在所述待处理文本中的扩散度，N_i表示所述待处理文本中包含所述候选词W_i的句子的个数，N_j表示所述待处理文本中包含所述候选词W_j的句子的个数，N_ij表示所述待处理文本中同时包含所述候选词W_i和所述候选词W_j的句子的个数，N表示所述待处理文本中句子的总个数，Q表示预设平滑因子；

将所述扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重；

根据计算得到的各权重，构建所述多个候选词对应的文本网络，并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算；

当满足预设收敛条件时，将所述各节点中得分最高的预设数目个节点对应的候选词，作为所述待处理文本的关键词。

可选的，所述迭代公式为：

其中，P_i表示候选词W_i对应的节点，In(P_i)表示所述文本网络中指向节点P_i的节点的构成的集合，P_j表示In(P_i)中的第j个节点，Out(P_j)表示所述文本网络中节点P_j所指向的节点构成的集合，P_k表示Out(P_j)中的第k个节点，S(P_i)表示节点P_i的得分，S(P_j)表示节点P_j的得分，d表示阻尼因子，ω_ji表示节点P_j与节点P_i之间的边的权重，ω_jk表示节点P_j与节点P_k之间的边的权重，D表示所述待处理文本，p(W_i|D)表示候选词W_i与所述待处理文本的主题的相关度。

可选的，所述候选词W_i与所述待处理文本的主题的相关度p(W_i|D)为根据预设的相关度计算公式得到的，其中，所述相关度计算公式为：

K表示所述待处理文本包含的主题的个数，z_k表示所述待处理文本包含的第k个主题，p(W_i|z_k)表示所述候选词W_i在主题z_k中的概率，p(z_k|D)表示所述主题z_k在所述待处理文本中的概率。

可选的，在所述将所述各节点中得分最高的预设数目个节点对应的候选词，作为所述待处理文本的关键词之前，所述方法还包括：

针对所述文本网络中的每一节点，将本次计算得到的得分与上一次计算得到的得分的差值的绝对值，作为该节点对应的得分差值；

如果所述各节点对应的得分差值的平均值小于预设数值，则判定满足预设收敛条件。

第二方面，为了达到上述目的，本申请实施例公开了一种基于TextRank的关键词提取装置，所述装置包括：

预处理模块，用于对待处理文本进行预处理，得到多个候选词；

扩散度计算模块，用于根据预设的扩散度计算公式，计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度，其中，所述扩散度计算公式为：

权重计算模块，用于将所述扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重；

迭代计算模块，用于根据计算得到的各权重，构建所述多个候选词对应的文本网络，并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算；

第一处理模块，用于当满足预设收敛条件时，将所述各节点中得分最高的预设数目个节点对应的候选词，作为所述待处理文本的关键词。

可选的，所述迭代公式为：

可选的，所述装置还包括：

第二处理模块，用于针对所述文本网络中的每一节点，将本次计算得到的得分与上一次计算得到的得分的差值的绝对值，作为该节点对应的得分差值；

在本申请实施的又一方面，为了达到上述目的，本申请实施例公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的方法步骤。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的方法步骤。

在本申请实施的又一方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的方法步骤。

本申请实施例提供了一种基于TextRank的关键词提取方法，可以对待处理文本进行预处理，得到多个候选词，根据预设的扩散度计算公式，计算多个候选词中每两个候选词在待处理文本中的扩散度，将扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重，根据计算得到的各权重，构建多个候选词对应的文本网络，并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算，当满足预设收敛条件时，将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。基于上述处理，在共现次数的基础上，结合候选词的扩散度确定节点之间的边的权重，进而能够提高提取到的关键词的准确度。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于TextRank的关键词提取方法的流程图；

图2为本申请实施例提供的一种基于TextRank的关键词提取方法示例的流程图；

图3为本申请实施例提供的一种关键词提取的准确率对比图；

图4为申请本实施例提供的一种关键词提取的召回率对比图；

图5为本申请实施例提供的一种关键词提取的F1值对比图；

图6为本申请实施例提供的一种准确率-召回率曲线对比图；

图7为本申请实施例提供的一种基于TextRank的关键词提取装置的结构图；

图8为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现在技术中，仅根据候选词的共现次数确定节点之间的边的权重，构建文本网络，进而确定关键词，候选词的共现次数能够反映候选词在待处理文本中出现的概率，即，针对某一候选词，如果该候选词在待处理文本中出现的概率较大，则该候选词被确定为关键词的概率较大。然而，即使该候选词在待处理文本中出现的概率较大，该候选词也有可能不是待处理文本的关键词。可见，现有技术中，提取到的关键词的准确度较低。

为了解决上述问题，本申请实施例提供了一种基于TextRank的关键词提取方法，可以应用于电子设备，该电子设备可以是终端，也可以是服务器。

电子设备可以对待处理文本进行预处理，得到多个候选词，根据预设的扩散度计算公式，计算多个候选词中每两个候选词在待处理文本中的扩散度，将扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重，根据计算得到的各权重，构建多个候选词对应的文本网络，并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算，当满足预设收敛条件时，将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。基于上述处理，在共现次数的基础上，结合候选词在待处理文本中的扩散度确定节点之间的边的权重，进而确定关键词。扩散度能够体现候选词在待处理文本中的分布情况，因此，结合共现次数和扩散度，能够提高提取到的关键词的准确度。

参见图1，图1为本申请实施例提供的一种基于TextRank的关键词提取方法的流程图，该方法可以包括以下步骤：

S101：对待处理文本进行预处理，得到多个候选词。

其中，待处理文本即待提取关键词的文本。

在申请实施例中，电子设备可以获取待处理文本，并对待处理文本进行预处理，进而得到多个候选关键词(即候选词)。

本步骤中，电子设备可以对待处理文本包含的文本信息进行分句处理，得到多个句子。其中，电子设备可以根据标点符号对文本信息进行分句处理，例如，在待处理文本中，当检测到句号、感叹号、省略号或分号时，电子设备可以确定为一个句子的结束位置。

然后，电子设备可以对得到的每一句子进行分词处理，进而得到待处理文本包含的词。电子设备可以去除待处理文本包含的停用词，将待处理文本包含的动词、名词和英文单词作为候选词。

S102：根据预设的扩散度计算公式，计算多个候选词中每两个候选词在待处理文本中的扩散度。

扩散度计算公式为：

其中，d_ij表示候选词W_i与候选词W_j在待处理文本中的扩散度，1≤i≤M、1≤j≤M，M为待处理文本中所有候选词的总个数，N_j表示待处理文本中包含候选词W_i的句子的个数，N_j表示待处理文本中包含候选词W_j的句子的个数，N_ij表示待处理文本中同时包含候选词W_i和候选词W_j的句子的个数，N表示待处理文本中句子的总个数，Q表示预设平滑因子，Q的值可以由技术人员根据经验进行设置，例如，Q可以为0.5。可见，d_ij＝d_ji，且如果候选词W_i与W_j总是同时出现在同一句子中，则N_i＝N_j＝N_ij，d_ij的值接近于0。

在申请实施例中，在获取待处理文本的候选词之后，针对每两个候选词，电子设备都可以根据公式(2)，计算该两个候选词在待处理文本中的扩散度。

S103：将扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重。

在申请实施例中，针对每两个候选词，电子设备可以将该两个候选词在待处理文本中的扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重。

例如，电子设备可以根据公式(3)，计算该两个候选词对应的节点之间的边的权重。

ω_ij＝c_ij·d_ij (3)

其中，ω_ij表示候选词W_j对应的节点P_j与候选词W_i对应的节点P_i之间的边的权重，c_ij表示候选词W_j与候选词W_i的共现次数，d_ij表示候选词W_i与候选词W_j在待处理文本中的扩散度。

本步骤中，电子设备可以根据预设的共现窗口的长度，确定该两个候选词的共现次数，共享窗口的长度可以由技术人员根据经验进行设置，共现窗口的长度可以用L(L＞2，且L为整数)表示。在待处理文本中，针对任意两个候选词，该两个候选词出现在同一共现窗口(即该两个候选词之间的词的个数小于L-1)的次数，为该两个候选词的共现次数。

例如，待处理文本中的文本信息为：“要相信自己，但又不能只相信自己。每个人要在社会上立足，要在时代中拼搏，一定要自信，但自信不是自负。”

对上述文本信息进行分词，可以得到：要/相信/自己/但/又/不能/只/相信/自己/每个人/要/在/社会/上/立足/要/在/时代/中/拼搏/一定/要/自信/但/自信/不是/自负

若L＝5，当共现窗口向后滑动时，可以依次得到：

[要，相信，自己，但，又]

[相信，自己，但，又，不能]

......

[相信，自己，每个人，要，在]

[自己，每个人，要，在，社会]

......

[自信，但，自信，不是，自负]多个共现窗口。

在计算共现次数时，为了防止重复计算，可以以共现窗口中的第一个候选词为基准，计算该候选词与共现窗口中的其他候选词的共现次数。例如，“相信”与“自己”分别在[相信，自己，但，又，不能]和[相信，自己，每个人，要，在]内共现，则“相信”与“自己”的共现次数为2。例如，“自己”与“社会”仅在[自己，每个人，要，在，社会]内共现，则“自己”与“社会”的共现次数为1。

S104：根据计算得到的各权重，构建多个候选词对应的文本网络，并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算。

在申请实施例中，在得到每两个候选词对应的节点之间的边的权重后，电子设备可以根据得到的各边的权重，构造待处理文本包含的所有候选词对应的文本网络，进而，电子设备可以根据预设的迭代公式对文本网络中各节点的得分进行迭代计算。

本步骤中，在进行迭代计算之前，电子设备可以设置文本网络中每一节点的初始得分，初始得分的取值范围为(0，1]，节点的初始得分可以由技术人员根据经验进行设置。

一种实现方式中，如果文本网络中的节点的个数为10，则可以设置每一节点的初始得分为O.1；如果文本网络中的节点的个数为20，则可以设置每一节点的初始得分为0.05，但并不限于此。

迭代公式可以为上述公式(1)。

其中，P_i表示候选词W_i对应的节点，1≤i≤M，M为待处理文本中所有候选词的总个数，In(P_i)表示文本网络中指向节点P_i的节点的构成的集合，P_j表示In(P_i)中的第j个节点，j小于等于In(P_i)包含的节点的个数，Out(P_j)表示文本网络中节点P_j所指向的节点构成的集合，P_k表示Out(P_j)中的第k个节点，k小于等于Out(P_j)包含的节点的个数，S(P_i)表示节点P_i的得分，S(P_j)表示节点P_j的得分；d表示阻尼因子，用于确保迭代计算能够达到收敛条件；ω_ji表示节点P_j与节点P_i之间的边的权重，ω_jk表示节点P_j与节点P_k之间的边的权重。由于该文本网络是无向图，因此，In(P_i)和Out(P_i)表示同一集合。

S105：当满足预设收敛条件时，将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。

其中，预设数目可以由技术人员根据经验进行设置，例如，预设数目可以为3，也可以为5，但并不限于此。

在申请实施例中，在进行迭代计算的过程中，当电子设备判定满足预设收敛条件时，电子设备可以获取所有节点当前的得分，并将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。

预设收敛条件可以根据迭代计算的次数确定，例如，当迭代计算100次时，电子设备可以确定满足预设收敛条件，或者，当迭代计算200次时，电子设备可以确定满足预设收敛条件。满足收敛条件所需的迭代计算的次数可以由技术人员根据经验进行设置。

可选的，预设收敛条件也可以根据节点的得分确定，相应的，在S105之前，该方法还可以包括以下步骤：

步骤一，针对文本网络中的每一节点，将本次计算得到的得分与上一次计算得到的得分的差值的绝对值，作为该节点对应的得分差值。

在申请实施例中，在每次迭代计算之后，电子设备可以获取每一节点当前的得分。针对每一节点，电子设备可以获取该节点本次计算的得分与上一次计算的得分的差值的绝对值，作为该节点对应的得分差值，进而，在每次迭代计算之后，电子设备可以获取所有节点对应的得分差值。

步骤二，如果各节点对应的得分差值的平均值小于预设数值，则判定满足预设收敛条件。

其中，预设数值可以由技术人员根据节点的经验进行设置，例如，预设数值可以为0.0001，预设数值也可以为0.00001，但并不限于此。

在申请实施例中，在每次迭代计算之后，如果各节点对应的得分差值的平均值小于预设数值，电子设备可以判定当前满足预设收敛条件，进而，电子设备可以停止迭代计算，并根据各节点当前的得分，确定待处理文本的关键词。

另外，电子设备还可以结合候选词与待处理文本的主题的相关度，进行迭代计算，以提高确定出的关键词的准确度。

可选的，迭代公式可以为公式(4)：

其中，P_i表示候选词W_i对应的节点，1≤i≤M，M为待处理文本中所有候选词的总个数，In(P_i)表示文本网络中指向节点P_i的节点的构成的集合，P_j表示In(P_i)中的第j个节点，j小于等于In(P_i)包含的节点的个数，Out(P_j)表示文本网络中节点P_j所指向的节点构成的集合，P_k表示Out(P_j)中的第k个节点，k小于等于Out(P_j)包含的节点的个数，S(P_i)表示节点P_i的得分，S(P_j)表示节点P_j的得分，d表示阻尼因子，用于确保迭代计算能够达到收敛条件；ω_ji表示节点P_j与节点P_i之间的边的权重，ω_jk表示节点P_j与节点P_k之间的边的权重，D表示待处理文本，p(W_i|D)表示候选词W_i与待处理文本的主题的相关度。

公式(3)中，各候选词对应的阻尼因子相同，因此，根据公式(3)进行迭代计算，并不能体现候选词与待处理文本的主题的相关性。然而，待处理文本的关键词与待处理文本的主题具有一定的相关性，因此，可以在公式(3)的基础上，添加候选词与待处理文本的主题的相关度，得到公式(4)。

针对每一候选词，电子设备可以计算该候选词与待处理文本的主题的相关度，进而，电子设备可以根据公式(4)进行迭代计算，以确定待处理文本的关键词。

可选的，候选词W_i与待处理文本的主题的相关度p(W_i|D)可以根据预设的相关度计算公式得到。

其中，相关度计算公式可以为：

K表示待处理文本包含的主题的个数，z_k表示待处理文本包含的第k(k＝1，2，3...K)个主题，p(W_i|z_k)表示候选词W_i在主题z_k中的概率，p(z_k|D)表示主题z_k在待处理文本中的概率，p(W_i|D)表示候选词W_i与文档D的主题的相关度。

本步骤中，电子设备可以通过构建针对待处理文本的LDA(LatentDirichletAllocation，隐含狄利克雷分布)主题模型，进而确定p(W_i|z_k)和p(z_k|D)。

一种实现方式中，如果词表包括V(V＞1)个词，共计K(K≥ 1)个主题；用θ表示文本对应下的主题分布，为一个多项式分布；用

表示主题对应下的词分布，也是一个多项式分布；用z表示主题，z_k表示第k个主题；用W表示词，W_n表示第n(n≥1)个词；用α表示文本对应的主题分布的先验分布，即狄利克雷分布的超参数；用β表示主题对应的词分布的先验分布，即狄利克雷分布的超参数。则包含有N个词的文本生成的概率可以参考公式(6)：

表示在根据上述词表生成包含有N个词的文本的概率。即，从参数为β的狄利克雷先验分布中采样出每个主题下词的多项式分布

然后，从参数为α的狄利克雷先验分布中采样出文本对应的主题的多项式分布θ。对于文本的第n(n＝1，2，3…N)个词W_n，可以从文本对应的主题的多项式分布θ中采样生成词的主题z_k并从主题z_k对应的词的多项式分布

中采样出对应的词W_n。

通过Gibbs(吉布斯)抽样方法学习θ和

可以计算出文本的主题的概率分布和主题中词的概率分布。

即，在主题z_k中词W_i的概率为：

其中，

表示词W_i被赋予主题z_k的次数，

表示分配给主题z_k的所有词的次数的总和。

在文本D中主题z_k的概率为：

其中，

表示文本D被赋予主题zk的次数，

表示分配给文本D的所有主题的次数的总和。

另外，针对某一候选词，如果待处理文本对应的LDA主题模型中不存在该候选词，则电子设备可以将其他各候选词与待处理文本的主题的相关度的平均值，作为该候选词与待处理文本的主题的相关度。

参见图2，图2位本申请实施例提供的一种基于TextRank的关键词提取方法示例的流程图，该方法可以包括以下步骤：

S201：对待处理文本进行预处理，得到多个候选词。

S202：根据预设的扩散度计算公式，计算多个候选词中每两个候选词在待处理文本中的扩散度。

其中，扩散度计算公式可以参考公式(2)。

S203：将该两个候选词在待处理文本中的扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重。

S204：根据计算得到的各权重，构建多个候选词对应的文本网络，并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算。

其中，迭代公式可以参考公式(4)。

S205：针对文本网络中的每一节点，将本次计算得到的得分与上一次计算得到的得分的差值的绝对值，作为该节点对应的得分差值。

S206：当各节点对应的得分差值的平均值小于预设数值时，将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。

可见，基于本申请实施例提供的基于TextRank的关键词提取方法，可以对待处理文本进行预处理，得到多个候选词，根据预设的扩散度计算公式，计算每两个候选词在待处理文本中的扩散度，将扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重，根据计算得到的各权重，构建多个候选词对应的文本网络，并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算，当满足预设收敛条件时，将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。基于上述处理，在共现次数的基础上，结合候选词的扩散度确定节点之间的边的权重，进而能够提高提取到的关键词的准确度。

为了与现有技术中的TextRank算法进行区分，本申请实施例提出的关键词提取方法可以称为LDA-TextRank算法。经过实验发现，在相同的共现窗口的长度与阻尼因子大小下，根据LDA-TextRank算法提取关键词的准确率，高于根据TextRank算法提取关键词的准确率；根据LDA-TextRank算法提取关键词的召回率，高于根据TextRank算法提取关键词的召回率；根据LDA-TextRank算法进行关键词提取的F1值，高于根据TextRank算法进行关键词提取的F1值。

另外，当共现窗口的长度为10，阻尼因子为0.7，主题数为50时，两种算法均达到较好的效果。因此，在共现窗口的长度为10，阻尼因子大小为0.7，主题数为50时，针对关键词提取个数从1到15，对两种算法的实验结果进行对比，可以得到图3、图4和图5。

参见图3，图3为本实施例提供的一种关键词提取的准确率对比图，其中，带圆点的实线表示TextRank算法的准确率与关键词提取个数的对应关系，带线段的实线表示LDA-TextRank算法的准确率与关键词提取个数的对应关系。

参见图4，图4为本实施例提供的一种关键词提取的召回率对比图，其中，带圆点的实线表示TextRank算法的召回率与关键词提取个数的对应关系，带线段的实线表示LDA-TextRank算法的召回率与关键词提取个数的对应关系。

参见图5，图5为本实施例提供的一种关键词提取的F1值对比图，其中，带圆点的实线表示TextRank算法的F1值与关键词提取个数的对应关系，带线段的实线表示LDA-TextRank算法的F1值与关键词提取个数的对应关系。

由图3、图4和图5可见，当关键词提取个数较少时，两种算法的三个指标的实验结果几乎重叠，随着关键词提取个数的增加，基于LDA-TextRank算法的准确率、召回率以及F1值均高于TextRank。

导致上述情况的原因是：当关键词提取个数较少时，待处理文本中出现频率最高的候选词通常为文本网络的中心，同时，出现频率最高的候选词通常被作为参考候选词，导致得分最高的几个候选词趋于相同；当关键词提取个数较多时，LDA-TextRank算法能够在一定程度上提高与待处理文本的主题的相关度较高的候选词的得分，进而LDA-TextRank算法的准确率、召回率以及F1值均高于TextRank算法。

另外，F1值在关键词提取个数为5时达到峰值，这是由于通常待处理文本的关键词为5个，因此，当关键词提取个数为5时，准确率与召回率均能达到相对较高的值，使得F1值达到峰值。

参见图6，图6为本实施例提供的一种准确率-召回率曲线(P-R曲线)对比图，其中，带圆点的实线表示TextRank算法的召回率与准确率的对应关系，带线段的实线表示LDA-TextRank算法的召回率与准确率的对应关系。

其中，横坐标表示准确率，纵坐标表示召回率。

可见，TextRank算法的曲线位于LDA-TextRank算法的曲线的内侧，即，在同一准确率下，LDA-TextRank算法的召回率高于TextRank算法的召回率；在同一召回率下，LDA-TextRank算法的准确率高于TextRank算法的准确率。

与图1的方法实施例相对应，参见图7，图7为本申请实施例提供的一种基于TextRank的关键词提取装置的结构图，该装置可以包括：

预处理模块701，用于对待处理文本进行预处理，得到多个候选词；

扩散度计算模块702，用于根据预设的扩散度计算公式，计算所述多个候选词中每两个候选词在所述待处理文本中的扩散度，其中，所述扩散度计算公式为：

权重计算模块703，用于将所述扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重；

迭代计算模块704，用于根据计算得到的各权重，构建所述多个候选词对应的文本网络，并根据预设的迭代公式对所述文本网络中各节点的得分进行迭代计算；

第一处理模块705，用于当满足预设收敛条件时，将所述各节点中得分最高的预设数目个节点对应的候选词，作为所述待处理文本的关键词。

可选的，所述迭代公式为：

可选的，所述装置还包括：

可见，基于本申请实施例提供的基于TextRank的关键词提取装置，可以对待处理文本进行预处理，得到多个候选词，根据预设的扩散度计算公式，计算每两个候选词在待处理文本中的扩散度，将扩散度和该两个候选词的共现次数的乘积，作为该两个候选词对应的节点之间的边的权重，根据计算得到的各权重，构建多个候选词对应的文本网络，并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算，当满足预设收敛条件时，将各节点中得分最高的预设数目个节点对应的候选词，作为待处理文本的关键词。基于上述处理，在共现次数的基础上，结合候选词的扩散度确定节点之间的边的权重，进而能够提高提取到的关键词的准确度。

本申请实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

对待处理文本进行预处理，得到多个候选词；

上述实施例提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于TextRank的关键词提取方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于TextRank的关键词提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。