CN110489757A

CN110489757A - 一种关键词提取方法及装置

Info

Publication number: CN110489757A
Application number: CN201910789844.1A
Authority: CN
Inventors: 熊翱; 余鑫; 孟洛明; 邱雪松; 刘德荣
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-11-22

Abstract

本发明实施例提供了一种关键词提取方法及装置，可以获取待处理文本的文本类型对应的目标文本库，基于目标文本库，计算待处理文本的各候选词各自的第一权重，基于候选词图中每两个节点对应的候选词的共现次数，计算各候选词各自的第二权重，基于第一权重和第二权重，从各候选词中确定待处理文本的关键词。基于上述处理，由于目标文本库中包含的文本与待处理文本的文本类型相同，因此，根据目标文本库确定出的第一权重能够有效地体现各候选词是否能够有效地表达待处理文本的主题，另外，基于候选词的共现次数确定出的第二权重，能够体现候选词之间的关联程度，进而，基于结合第一权重和第二权重，确定出的待处理文本的关键词的准确度较高。

Description

一种关键词提取方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种关键词提取方法及装置。

背景技术

随着计算机技术的发展，互联网提供了海量的线上文本，由于关键词可以简要概括一个文本表达的主题，用户从海量线上文本中选择需要的目标文本时，可以通过关键词进行检索，进而，可以快速的从海量的线上文本中确定出需要的目标文本。

现有技术中，在确定一个文本(可以称为待处理文本)的关键词时，可以对待处理文本进行分词处理，得到多个候选词。针对多个候选词中的每一候选词，可以计算该候选词在待处理文本中的词频，计算预设文本库中包含有该候选词的文本的数目(可以称为第一数目)，并根据预设文本库包含的所有文本的数目(可以称为第二数目)，得到该候选词的逆向文本频率，该候选词的逆向文本频率为对第二数目与第一数目的比值取对数得到的。然后，可以将该候选词在待处理文本中的词频与逆向文本频率的乘积，作为该候选词的权重，进而，可以将多个候选词中的权重较高的预设数目个候选词，作为待处理文本的关键词。

然而，由于预设文本库中包含的文本与待处理文本的相关性较低，根据预设文本库，确定出的候选词的权重的有效性较低，进而，导致确定出的关键词的准确度较低。

发明内容

本发明实施例的目的在于提供一种关键词提取方法及装置，能够提高确定出的待处理文本的关键词的准确度。

第一方面，为了达到上述目的，本发明实施例提供了一种关键词提取方法，所述方法包括：

获取待处理文本的文本类型对应的目标文本库，其中，所述目标文本库中包含的文本与所述待处理文本的文本类型相同；

基于所述目标文本库，计算所述待处理文本的各候选词各自的第一权重，其中，所述第一权重为根据所述各候选词在所述待处理文本中的词频和在所述目标文本库中的逆向文本频率确定的；

基于候选词图中每两个节点对应的候选词的共现次数，计算所述各候选词各自的第二权重，其中，所述候选词图中的各节点与所述各候选词一一对应；

基于所述第一权重和所述第二权重，从所述各候选词中确定所述待处理文本的关键词。

可选的，在所述获取待处理文本的文本类型对应的目标文本库之前，所述方法还包括：

获取所述各候选词各自对应的词向量，作为候选词向量；

根据所述候选词向量和预先训练的类型预测网络模型，确定所述待处理文本的文本类型；

所述类型预测网络模型为根据预设训练集进行训练得到的，所述预设训练集中包括多个训练样本，一个训练样本包括一个样本文本的候选词对应的词向量，和该样本文本对应的类型分布向量，所述类型分布向量用于表示该样本文本的文本类型为预设各文本类型的概率。

可选的，所述基于候选词图中每两个节点对应的候选词的共现次数，计算所述各候选词各自的第二权重，包括：

根据迭代公式计算所述候选词图中的各节点的得分，其中，所述迭代公式为：

v_i表示所述候选词图中的第i个节点，S(v_i)表示所述节点v_i的得分，d表示阻尼系数，In(v_i)表示所述候选词图中指向所述节点v_i的节点的集合，Out(v_i)表示所述节点v_i在所述候选词图中所指向的节点的集合，v_j表示所述候选词图中的第j个节点，W_ij表示所述节点v_i对应的候选词与所述节点v_j对应的候选词的共现次数，S(v_j)表示所述节点v_j的得分，v_k表示Out(v_i)中的第k个节点，W_jk表示所述节点v_j对应的候选词与所述节点v_k对应的候选词的共现次数；

当满足预设收敛条件时，将所述各节点的得分，作为所述各节点对应的候选词的第二权重。

可选的，在所述将所述各节点的得分，作为所述各节点对应的候选词的第二权重之前，所述方法还包括：

针对每一节点，计算该节点本次迭代计算得到的得分与上一次迭代计算得到的得分的差值的绝对值，作为该节点的得分差值；

如果计算得到的各得分差值均小于预设数值，则判定满足预设收敛条件。

可选的，所述基于所述第一权重和所述第二权重，从所述各候选词中确定所述待处理文本的关键词，包括：

针对每一候选词，根据该候选词的第一权重、第二权重和第一预设公式，计算该候选词的目标权重，所述第一预设公式为：

W＝α×P+β×S

W表示该候选词的目标权重，P表示该候选词的第一权重，α表示第一系数，S表示该候选词的第二权重，β表示第二系数；

根据计算得到的各目标权重的大小，从所述各候选词中选取预设数目个候选词，作为所述待处理文本的关键词。

第二方面，为了达到上述目的，本发明实施例提供了一种关键词提取装置，所述装置包括：

获取模块，用于获取待处理文本的文本类型对应的目标文本库，其中，所述目标文本库中包含的文本与所述待处理文本的文本类型相同；

第一处理模块，用于基于所述目标文本库，计算所述待处理文本的各候选词各自的第一权重，其中，所述第一权重为根据所述各候选词在所述待处理文本中的词频和在所述目标文本库中的逆向文本频率确定的；

第二处理模块，用于基于候选词图中每两个节点对应的候选词的共现次数，计算所述各候选词各自的第二权重，其中，所述候选词图中的各节点与所述各候选词一一对应；

确定模块，用于基于所述第一权重和所述第二权重，从所述各候选词中确定所述待处理文本的关键词。

可选的，所述装置还包括：

第三处理模块，用于获取所述各候选词各自对应的词向量，作为候选词向量；

可选的，所述第二处理模块，具体用于根据迭代公式计算所述候选词图中的各节点的得分，其中，所述迭代公式为：

可选的，所述第二处理模块，还用于针对每一节点，计算该节点本次迭代计算得到的得分与上一次迭代计算得到的得分的差值的绝对值，作为该节点的得分差值；

可选的，所述确定模块，具体用于针对每一候选词，根据该候选词的第一权重、第二权重和第一预设公式，计算该候选词的目标权重，所述第一预设公式为：

W＝α×P+β×S

第三方面，为了达到上述目的，本发明实施例公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一关键词提取方法的步骤。

在本发明实施的又一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一关键词提取方法的步骤。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一关键词提取方法的步骤。

本发明实施例提供的一种关键词提取方法，可以获取待处理文本的文本类型对应的目标文本库，基于目标文本库，计算待处理文本的各候选词各自的第一权重，基于候选词图中每两个节点对应的候选词的共现次数，计算各候选词各自的第二权重，基于第一权重和第二权重，从各候选词中确定待处理文本的关键词。

基于上述处理，由于目标文本库中包含的文本与待处理文本的文本类型相同，因此，根据目标文本库确定出的第一权重能够有效地体现各候选词是否能够有效地表达待处理文本的主题，另外，基于候选词的共现次数确定出的第二权重，能够体现候选词之间的关联程度，进而，基于结合第一权重和第二权重，确定出的待处理文本的关键词的准确度较高。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种关键词提取方法的流程图；

图2为本发明实施例提供的一种关键词提取方法示例的流程图；

图3为本发明实施例提供的一种类型预测网络模型的结构图；

图4为本发明实施例提供的一种关键词提取方法的精准率-召回率曲线对比图；

图5为本发明实施例提供的一种关键词提取装置的结构图；

图6为本发明实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面通过具体实施例，对本发明实施例提供的关键词提取方法进行详细说明。

参见图1，图1为本发明实施例提供的一种关键词提取方法的流程图，该方法可以应用于电子设备，该电子设备可以为服务器，也可以为终端。

该方法可以包括如下步骤：

S101：获取待处理文本的文本类型对应的目标文本库。

其中，目标文本库中包含的文本与待处理文本的文本类型相同。

一个文本的文本类型用于表示该文本的文本内容所表达的主题，例如，一个文本的文本类型可以为社会新闻、也可以为娱乐新闻，或者体育新闻，但并不限于此。

电子设备可以在本地预设多个不同文本类型的文本库，每一文库中包含的所有文本的文本类型相同。电子设备可以从多个文本库中，获取与待处理文本的文本类型相同的文本库，作为目标文本库。

相应的，在获取目标文本库之前，电子设备还可以获取待处理文本的文本内容，对待处理文本的文本内容进行分析，确定待处理文本的文本类型。

另外，为了进一步提高确定的待处理文本的文本类型的准确度，电子设备可以根据类型预测网络模型，确定待处理文本的文本类型。

可选的，在S101之前，该方法还可以包括以下步骤：

步骤一：获取各候选词各自对应的词向量，作为候选词向量。

一种实现方式中，电子设备可以获取待处理文本的文本内容，对待处理文本的文本内容进行分词处理，得到待处理文本的各候选词。

电子设备可以对待处理文本的文本内容进行分句处理，得到多个句子，针对每一个句子，电子设备还可以再进行分词处理，进而，得到待处理文本包含的词(可以称为备选词)，然后，电子设备可以删除备选词中的预设停用词，得到待处理文本的候选词，预设停用词为没有实际含义的功能词，例如，“然后”、“其次”、“的”、“在”等词。可以理解的是，删除预设停用词后得到的候选词通常为名词、动词等词性的词。

进而，电子设备可以根据Word2Vec(word to vector，词到向量)模型，对各候选词进行映射处理，得到各候选词对应的词向量(即候选词向量)。

步骤二：根据候选词向量和预先训练的类型预测网络模型，确定待处理文本的文本类型。

其中，类型预测网络模型为根据预设训练集进行训练得到的，预设训练集中包括多个训练样本，一个训练样本包括一个样本文本的候选词对应的词向量，和该样本文本对应的类型分布向量，类型分布向量用于表示该样本文本的文本类型为预设各文本类型的概率。

类型预测网络模型可以为LSTM(Long Short-Term Memory，长短期记忆)网络模型，或其他用于进行分类的网络模型。

可以理解的是，样本文本为已经确定文本类型的文本。

在根据预先训练的类型预测网络模型，确定待处理文本的文本类型之前，电子设备可以对样本文本进行处理，生成预设训练集。进而，根据预设训练集，对类型预测网络模型进行训练。

一种实现方式中，电子设备可以对样本文本的文本内容进行分词处理，得到样本文本的候选词，根据Word2Vec模型对样本文本的候选词进行映射处理，得到样本文本的候选词对应的词向量，并根据样本文本的文本类型和预设各文本类型，确定样本文本对应的类型分布向量。

示例性的，预设各文本类型可以包括：文本类型A、文本类型B、文本类型C，如果样本文本的文本类型为文本类型A，则样本文本对应的类型分布向量为：[1，0，0]；如果样本文本的文本类型为文本类型B，则样本文本对应的类型分布向量为：[0，1，0]。

然后，电子设备可以将样本文本的候选词对应的词向量作为类型预测网络模型的输入参数，将该样本文本对应的类型分布向量作为对应的输出参数，对类型预测网络模型进行训练，直至类型预测网络模型达到收敛条件，得到训练好的类型预测网络模型。

进而，电子设备可以将候选词向量输入训练好的类型预测网络模型。

类型预测网络模型的全连接层可以根据np.concatenate(数组拼接)函数，对候选词向量进行拼接处理，得到候选词向量对应的多个句向量(可以称为第一句向量)，并将第一句向量传输至类型预测网络模型的隐层。

类型预测网络模型的隐层可以根据各句子在待处理文本中的先后关系，对得到的第一句向量进行处理，得到能够表示待处理文本的多个句向量(可以称为第二句向量)，并将第二句向量传输至类型预测网络模型的均值池化层。

类型预测网络模型的均值池化层可以对表示待处理文本的多个第二句向量进行均值池化处理，得到表示待处理文本的文本向量，并将文本向量传输至类型预测网络模型的输出层。

类型预测网络模型的输出层可以根据softmax(归一化)函数，对表示待处理文本的文本向量进行回归处理，得到待处理文本对应的类型分布向量。

进而，电子设备可以根据待处理文本对应的类型分布向量，将预设各文本类型中对应的概率最大的文本类型，作为待处理文本的文本类型。

示例性的，预设各文本类型可以为：文本类型A，文本类型B，文本类型C，电子设备根据待处理文本的候选词向量和类型预测网络模型，确定的待处理文本对应的类型分布向量为：[0.5，0.7，0.3]，则电子设备可以将文本类型B作为待处理文本的文本类型。

S102：基于目标文本库，计算待处理文本的各候选词各自的第一权重。

其中，第一权重为根据各候选词在待处理文本中的词频和在目标文本库中的逆向文本频率确定的。

在得到与待处理文本的文本类型对应的目标文本库之后，针对待处理文本的每一候选词，电子设备可以计算该候选词在待处理文本中的词频，另外，电子设备还可以计算该候选词在目标文本库中的逆向文本频率，进而，计算该候选词的第一权重。

一种实现方式中，针对每一候选词，电子设备可以根据词频计算公式，计算该候选词在待处理文本中的词频，其中，词频计算公式为：

tf表示该候选词的词频，n表示该候选词在待处理文本中出现的次数，m表示待处理文本的候选词的总数目，n_k表示第k个候选词在待处理文本中出现的次数，表示各候选词在待处理文本中出现的次数之和。

然后，电子设备可以根据逆向文本频率计算公式，计算该候选词在目标文本库中的词频，其中，逆向文本频率计算公式为：

t_i表示该候选词，d_j表示待处理文本，idf_i表示该候选词的逆向文本频率，|D|表示目标文本库中包含的所有文本的数目，|{j:t_i∈d_j}|表示目标文本库中的包含该候选词的文本的数目。另外，如果目标文本库中不存在包含该候选词的文本，则|{j:t_i∈d_j}|的值为零，因此，为了避免计算错误，公式(2)中的被除数设置为1+|{j:t_i∈d_j}|。

进而，电子设备可以根据第一权重计算公式，计算该候选词的第一权重，其中，第一权重计算公式为：

P＝tf×idf_i (3)

P表示该候选词的第一权重，tf表示该候选词的词频，idf_i表示该候选词的逆向文本频率。

示例性的，如果待处理文本的候选词包括：候选词A，候选词B，候选词C，候选词D，且候选词A，候选词B，候选词C，候选词D在待处理文本中出现的次数分别为：3次，7次，4次，1次，电子设备可以根据候选词A在待处理文本中出现的次数(即3)，各候选词在待处理文本中出现的次数之和(即15)，以及公式(1)，计算得到候选词A在待处理文本中的词频为：tf＝5。

如果目标文本库中包含的所有文本的数目为100，目标文本库中的包含候选词A的文本的数目为9，则电子设备可以根据目标文本库中包含的所有文本的数目(即100)，目标文本库中的包含候选词A的文本的数目(即9)，和公式(2)，计算得到候选词A在目标文本库中的逆向文本频率为：idf_i＝1。

进而，电子设备可以根据候选词A在待处理文本中的词频(即5)，候选词A在目标文本库中的逆向文本频率(即1)，以及公式(3)，计算得到候选词A的第一权重为：P＝5。

另外，为了提高计算得到的各候选词的第一权重的准确度，电子设备还可以设置更新周期，当达到更新周期时，更新目标文本库中的文本。其中，更新周期可以由技术人员根据经验设置，例如，更新周期可以为1天，更新周期也可以为2天，但并不限于此。

S103：基于候选词图中每两个节点对应的候选词的共现次数，计算各候选词各自的第二权重。

其中，候选词图中的各节点与各候选词一一对应。

在发明实施例中，电子设备可以根据预设的共现窗口的长度，确定各候选词中每两个候选词在待处理文本中的共现次数。

其中，预设的共现窗口的长度可以由技术人员根据经验设置，例如，预设的共现窗口的长度可以为8，预设的共现窗口的长度可以为10，但并不限于此。

示例性的，待处理文本的文本内容可以为：“生活需要自己去创造，需要自己去规划人生，与时俱进，我们作为人生的作家，既要倾听时代的呼声，又要心有笃守，不逾矩”。

电子设备可以对待处理文本进行分词处理，得到待处理文本的候选词包括：“生活/需要/自己/去/创造/需要/自己/去/规划/人生/与时俱进/我们/作为/人生/作家/既/要/倾听/时代/呼声/又/要/心/有/笃守/不/逾矩”。

如果预设的共现窗口的长度为10，当共现窗口向后滑动时，可以得到：

[生活，需要，自己，去，创造，需要，自己，去，规划，人生]，

[需要，自己，去，创造，需要，自己，去，规划，人生、与时俱进]，

……

[人生，作家，既，要，倾听，时代，呼声，又，要，心]

……

[倾听，时代，呼声，又，要，心，有，笃守，不，逾矩]多个共现窗口。

在计算共现次数时，为了防止重复计算，可以以共现窗口中的第一个候选词为基准，计算该候选词与共现窗口中的其他候选词的共现次数。例如，候选词“生活”与候选词“需要”在待处理文本中的共现次数为1，候选词“生活”与候选词“创造”在待处理文本中的共现次数为1。

如果各候选词中的两个候选词的共现次数不为0，则电子设备可以确定该两个候选词存在共现边，进而，电子设备可以根据各候选词的共现边，得到各候选词对应的候选词图。

可选的，电子设备可以根据各候选词中每两个候选词在待处理文本中的共现次数，计算候选词图中各节点的得分。

一种实现方式中，电子设备可以根据迭代公式计算候选词图中的各节点的得分，其中，迭代公式为：

v_i表示候选词图中的第i个节点，S(v_i)表示节点v_i的得分，d表示阻尼系数，In(v_i)表示候选词图中指向节点v_i的节点的集合，Out(v_i)表示节点v_i在候选词图中所指向的节点的集合，v_j表示候选词图中的第j个节点，W_ij表示节点v_i对应的候选词与节点v_j对应的候选词的共现次数，S(v_j)表示节点v_j的得分，v_k表示Out(v_i)中的第k个节点，W_jk表示节点v_j对应的候选词与节点v_k对应的候选词的共现次数。由于本发明实施例中构建的候选词图中为无向图，因此，In(v_i)与Out(v_i)表示同一节点集合。阻尼系数d可以取值0.85，阻尼系数d也可以取值0.7，但并不限于此。

另外，在根据迭代公式计算各节点的得分之前，电子设备还可以设置候选词图中的每一节点的初始得分，初始得分可以由技术人员根据经验设置，例如，初始得分可以为1，初始得分也可以为2，但并不限于此。

可选的，针对每一节点，电子设备可以在每次迭代计算之后，计算该节点本次迭代计算得到的得分与上一次迭代计算得到的得分的差值的绝对值，作为该节点的得分差值。电子设备可以判断各节点的得分差值是否小于预设数值，如果计算得到的各得分差值均小于预设数值，则判定满足预设收敛条件。

其中，预设数值可以由技术人员根据经验设置，例如，预设数值可以为0.0001，预设数值也可以为0.00001，但并不限于此。

当满足预设收敛条件时，将各节点的得分，作为各节点对应的候选词的第二权重。

在一次迭代计算之后，如果电子设备判定各节点的得分差值，均小于预设数值，则电子设备可以将本次迭代计算之后，各节点的得分，作为各节点对应的候选词的第二权重。

S104：基于第一权重和第二权重，从各候选词中确定待处理文本的关键词。

电子设备基于第一权重和第二权重，从各候选词中确定待处理文本的关键词的方法可以是多种多样的，可选的，S104可以包括以下步骤：

步骤一：针对每一候选词，电子设备可以根据该候选词的第一权重、第二权重和第一预设公式，计算该候选词的目标权重，第一预设公式为：

W＝α×P+β×S (5)

W表示该候选词的目标权重，P表示该候选词的第一权重，α表示第一系数，S表示该候选词的第二权重，β表示第二系数。第一系数与第二系数的和值为1。

其中，第一系数、第二系数可以由技术人员根据经验设置，例如，第一系数可以为0.4，第二系数可以为0.6，或者，第一系数可以为0.2，第二系数可以为0.8，但并不限于此。

示例性的，如果第一系数为0.4，第二系数为0.6，候选词A的第一权重为3，第二权重为1，电子设备可以根据公式(5)，计算得到候选词A的目标权重为：W_A＝1.8。

步骤二：根据计算得到的各目标权重的大小，从各候选词中选取预设数目个候选词，作为待处理文本的关键词。

其中，预设数目可以由技术人员根据经验设置，例如，预设数目可以为5，预设数目也可以为8，但并不限于此。

一种实现方式中，电子设备可以根据目标权重从大到小的顺序，对各候选词进行排序，得到候选词序列，进而，可以将候选词序列中较为靠前的预设数目个候选词，作为待处理文本的关键词。

示例性的，预设数目可以为2，如果待处理文本的候选词包括：候选词A，候选词B，候选词C，候选词D，且候选词A，候选词B，候选词C，候选词D的目标权重分别为：1.3，0.9，2，1.7。电子设备根据目标权重从大到小的顺序，对各候选词进行排序，得到的候选词序列为：候选词C，候选词D，候选词A，候选词B，则电子设备可以将候选词C和候选词D作为待处理文本的关键词。

参见图2，图2为本发明实施例提供的一种关键词提取方法示例的流程图。该方法可以包括以下步骤：

S201：对待处理文本的文本内容进行分词处理，得到待处理文本的各候选词。

S202：根据词到向量模型，对各候选词进行映射处理，得到各候选词的词向量，作为候选词向量。

S203：根据候选词向量和预先训练的类型预测网络模型，确定待处理文本的文本类型。

其中，类型预测网络模型可以为LSTM网络模型。

S204：获取待处理文本的文本类型对应的目标文本库。

S205：基于目标文本库，计算待处理文本的各候选词各自的第一权重。

S206：根据候选词图中每两个节点对应的候选词的共现次数，和迭代公式计算各节点的得分。

其中，候选词图中的各节点与各候选词一一对应，迭代公式为：

v_i表示候选词图中的第i个节点，S(v_i)表示节点v_i的得分，d表示阻尼系数，In(v_i)表示候选词图中指向节点v_i的节点的集合，Out(v_i)表示节点v_i在候选词图中所指向的节点的集合，v_j表示候选词图中的第j个节点，W_ij表示节点v_i对应的候选词与节点v_j对应的候选词的共现次数，S(v_j)表示节点v_j的得分，v_k表示Out(v_i)中的第k个节点，W_jk表示节点v_j对应的候选词与节点v_k对应的候选词的共现次数。

S207：针对每一节点，计算该节点本次迭代计算得到的得分与上一次迭代计算得到的得分的差值的绝对值，作为该节点的得分差值，如果各节点的得分差值，均小于预设数值，则判定满足收敛条件。

S208：当满足收敛条件时，将各节点的得分，作为各节点对应的候选词的第二权重。

S209：针对每一候选词，根据该候选词的第一权重、第二权重和第一预设公式，计算该候选词的目标权重。

其中，第一预设公式为：

W＝α×P+β×S

W表示该候选词的目标权重，P表示该候选词的第一权重，α表示第一系数，S表示该候选词的第二权重，β表示第二系数。

S2010：根据计算得到的各目标权重的大小，从各候选词中选取预设数目个候选词，作为待处理文本的关键词。

参见图3，图3为本发明实施例提供的一种类型预测网络模型的结构图。该类型预测网络模型包括：输入层、全连接层、隐层、均值池化层、输出层。

电子设备可以通过输入层将候选词向量输入类型预测网络模型。

全连接层可以根据np.concatenate函数，对候选词向量进行拼接处理，得到候选词向量对应的多个句向量(即第一句向量)。

隐层可以根据各句子在待处理文本中的先后关系，对得到的第一句向量进行处理，得到能够表示待处理文本的多个句向量(即第二句向量)。

均值池化层可以对表示待处理文本的多个第二句向量进行均值池化处理，得到表示待处理文本的文本向量。

输出层可以根据softmax函数，对表示待处理文本的文本向量进行回归处理，得到待处理文本对应的类型分布向量。

另外，为了与现有技术中的TF-IDF(Term Frequency-inverse documentfrequency，词频-逆向文本频率)算法、TextRank(文本排列)算法进行区分，本发明实施例提供的关键词提取算法可以称为TF-TR算法。通过同时提取100篇文本的关键词，和5人对100篇文本标注关键词的结果，进行实验。对三种算法的实验结果进行对比，可以得到图4和表1。

参见图4，图4为本发明实施例提供的一种关键词提取方法的精准率-召回率曲线对比图。其中，带五角星的实线表示TF-IDF算法的精准率-召回率与关键词提取个数的对应关系，带十字的实线表示TextRank算法的精准率-召回率与关键词提取个数的对应关系，带线段的实线表示TF-TR算法的精准率-召回率与关键词提取个数的对应关系。

精准率计算公式为：

Precision表示精准率，N表示人数，TP表示根据算法确定的关键词被第h个人判定为关键词的数量，FP表示根据算法确定的关键词被第h个人判定为非关键词的数量。

召回率计算公式为：

Recall表示召回率，N表示人数，TP表示根据算法确定的关键词被第h个人判定为关键词的数量，FN表示根据算法确定的非关键词被第h个人判定为关键词的数量。

参见表1，表1为本发明实施例提供的一种关键词提取方法的F1值对比表，F1值是用于表示准确率与召回率的均衡的参数。其中，F1值计算公式为：

Precision表示精准率，Recall表示召回率。

表1

算法	TF-IDF	TextRank	TF-TR
				F1	0.831456	0.823456	0.851383

参见图5，图5为本发明实施例提供了一种关键词提取装置，所述装置包括：

获取模块501，用于获取待处理文本的文本类型对应的目标文本库，其中，所述目标文本库中包含的文本与所述待处理文本的文本类型相同；

第一处理模块502，用于基于所述目标文本库，计算所述待处理文本的各候选词各自的第一权重，其中，所述第一权重为根据所述各候选词在所述待处理文本中的词频和在所述目标文本库中的逆向文本频率确定的；

第二处理模块503，用于基于候选词图中每两个节点对应的候选词的共现次数，计算所述各候选词各自的第二权重，其中，所述候选词图中的各节点与所述各候选词一一对应；

确定模块504，用于基于所述第一权重和所述第二权重，从所述各候选词中确定所述待处理文本的关键词。

可选的，所述装置还包括：

可选的，所述第二处理模块503，具体用于根据迭代公式计算所述候选词图中的各节点的得分，其中，所述迭代公式为：

可选的，所述确定模块504，具体用于针对每一候选词，根据该候选词的第一权重、第二权重和第一预设公式，计算该候选词的目标权重，所述第一预设公式为：

W＝α×P+β×S

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

需要说明的是，上述关键词提取方法的其他实现方式与前述方法实施例部分相同，这里不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一关键词提取方法的步骤。

具体的，上述方法包括：

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一关键词提取方法的步骤。

具体的，上述方法包括：

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种关键词提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取待处理文本的文本类型对应的目标文本库之前，所述方法还包括：

获取所述各候选词各自对应的词向量，作为候选词向量；

3.根据权利要求1所述的方法，其特征在于，所述基于候选词图中每两个节点对应的候选词的共现次数，计算所述各候选词各自的第二权重，包括：

v_i表示所述候选词图中的第i个节点，S(v_i)表示所述节点v_i的得分，d表示阻尼系数，In(v_i)表示所述候选词图中指向所述节点v_i的节点的集合，Out(v_i)表示所述节点v_j在所述候选词图中所指向的节点的集合，v_j表示所述候选词图中的第j个节点，W_ij表示所述节点v_i对应的候选词与所述节点v_j对应的候选词的共现次数，S(v_j)表示所述节点v_j的得分，v_k表示Out(v_i)中的第k个节点，W_jk表示所述节点v_j对应的候选词与所述节点v_k对应的候选词的共现次数；

4.根据权利要求3所述的方法，其特征在于，在所述将所述各节点的得分，作为所述各节点对应的候选词的第二权重之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一权重和所述第二权重，从所述各候选词中确定所述待处理文本的关键词，包括：

W＝α×P+β×S

6.一种关键词提取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述第二处理模块，具体用于根据迭代公式计算所述候选词图中的各节点的得分，其中，所述迭代公式为：

9.根据权利要求8所述的装置，其特征在于，所述第二处理模块，还用于针对每一节点，计算该节点本次迭代计算得到的得分与上一次迭代计算得到的得分的差值的绝对值，作为该节点的得分差值；

10.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于针对每一候选词，根据该候选词的第一权重、第二权重和第一预设公式，计算该候选词的目标权重，所述第一预设公式为：

W＝α×P+β×S