CN116484856B

CN116484856B - 一种文本的关键词提取方法、装置、电子设备及存储介质

Info

Publication number: CN116484856B
Application number: CN202310158775.0A
Authority: CN
Inventors: 王子易
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-11-17
Anticipated expiration: 2043-02-15
Also published as: CN116484856A

Abstract

本发明涉及一种文本的关键词提取方法、装置、电子设备及存储介质，该方法包括：获取待处理文本，待处理文本为中文文本；对待处理文本进行分词处理，得到待处理文本对应的分词结果；获取待处理文本中每个字的显著性数值和非显著性数值，对于每个字，获取该字对应的词内转移概率和词间转移概率，根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数；根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定待处理文本中的关键词并提取关键词。通过本发明的方法，基于每个字的显著性分数和非显著性分数，结合分词结果，可以准确地确定出待处理文本中的关键词并进行提取。

Description

一种文本的关键词提取方法、装置、电子设备及存储介质

技术领域

本发明涉及关键词抽取技术领域，具体而言，本发明涉及一种文本的关键词提取方法、装置、电子设备及存储介质。

背景技术

关键词抽取技术就是将一段文本中的关键词抽取出来，在文献检索、自动文摘、文本聚类等任务中有着重要的作用。当前主流的关键词抽取技术有基于TF-IDF的关键词抽取算法、基于注意力机制(attention)的关键词抽取算法和基于显著度(saliency)的关键词抽取算法，但这些算法在中文的文本上往往效果欠佳，TF-IDF并没有考虑文本的语义信息，而注意力机制和文本显著度往往是基于子词(word piece)的，不能够很好抽出中文中的词语。

因此，如何设计一个能够考虑中文文本的分词信息的关键词抽取算法是目前亟待解决的技术问题。

发明内容

基于本发明所要解决的技术问题，提供了一种文本的关键词提取方法、装置、电子设备及存储介质，旨在解决上述至少一个技术问题。

第一方面，本发明解决上述技术问题的技术方案如下：一种文本的关键词提取方法，该方法包括：

获取待处理文本，所述待处理文本为中文文本；

对所述待处理文本进行分词处理，得到所述待处理文本对应的分词结果；

获取所述待处理文本中每个字的显著性数值和非显著性数值，对于每个字，所述字的显著性数值的大小表征了该字属于关键词的概率，所述非显著性数值的大小表征了该字不属于关键词的概率；

对于每个字，获取该字对应的词内转移概率和词间转移概率，所述词内转移概率表征了该字与该字的相邻字同为显著性的字的概率，所述词间转移概率表征了该字与该字的相邻字同为非显著性的字的概率；

对于每个字，根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数；

根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词。

本发明的有益效果是：对于待处理文本，通过计算待处理文本中每个字的显著性分数和非显著性分数，可以体现出各个字之间的语义信息之间的关系，基于待处理文本中每个字的显著性分数和非显著性分数，再结合待处理文本的分词结果，可以准确的确定出待处理文本中的关键词进行提取。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，对于每个字，上述根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数，包括：

对于每个字，若该字为所述待处理文本的第一个字，则根据该字对应的显著性数值作为该字对应的显著性分数，将该字对应的非显著性数值作为该字对应的非显著性分数；

对于每个字，若该字不是所述待处理文本的第一个字，则根据该字对应的词内转移概率、词间转移概率、显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的显著性分数，根据该字对应的词内转移概率、词间转移概率、非显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的非显著性分数。

采用上述进一步方案的有益效果是，在确定一个字的显著性分数和非显著性分数的过程中，要具体考虑到该字是待处理文本中的第几个字，以及确定显著性分数和非显著性分数各自所需的参数不同，这样才可准确的确定出待处理文本中每个字的显著性分数和非显著性分数。

进一步，对于每个字，上述根据该字对应的词内转移概率、词间转移概率、显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的显著性分数，根据该字对应的词内转移概率、词间转移概率、非显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的非显著性分数，包括：

对于每个字，若该字不是所述待处理文本的第一个字，根据该字对应的词内转移概率、词间转移概率、显著性数值、该字的相邻字对应的显著性数值和非显著性数值，通过第一公式确定该字对应的显著性分数，其中，所述第一公式为：

s_score[i]＝max{score_s[i-1]*m[i-1]*score_s[i],score_n[i-1]*n[i-1]*score_s[i]}

其中，s_score[i]表示该字对应的显著性分数，s表示显著性，i表示该字为待处理文本中的第i个字，score_s[i-1]表示该字的相邻字对应的显著性数值，m[i-1]表示该字对应的词内转移概率，score_s[i]表示该字对应的显著性数值，score_n[i-1]表示该字的相邻字对应的非显著性数值，n[i-1]表示该字对应的词间转移概率；

对于每个字，若该字不是所述待处理文本的第一个字，根据该字对应的词内转移概率、词间转移概率、非显著性数值、该字的相邻字对应的显著性数值和非显著性数值，通过第二公式确定该字对应的非显著性分数，其中，所述第二公式为：

n_score[i]＝max{score_s[i-1]*m[i-1]*score_n[i],score_n[i-1]*n[i-1]*score_n[i]}

其中，n_score[i]表示该字对应的非显著性分数，score_n[i]表示该字对应的非显著性数值。

采用上述进一步方案的有益效果是，基于第一公式和第二公式可以准确的表达出一个字的相关参数与该字的显著性分数和非显著性分数之间的关系，则基于第一公式和第二公式可准确的确定出每个字的显著性分数和非显著性分数。

进一步，上述根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词，包括：

对于每个字，根据该字的显著性分数和非显著性分数，判断该字在所述待处理文本中是否为具有显著性的字；

根据所述待处理文本中每个字的显著性和所述分词结果，确定至少两个相邻的目标字，每个所述目标字在所述待处理文本中均为具有显著性的字；

将所述至少两个相邻的目标字确定为所述待处理文本中的关键词，并提取所述关键词。

采用上述进一步方案的有益效果是，对于待处理文本中的每个字，该字的显著性越明显，表示这个字为待处理文本的关键词的可能性越大，因此，基于待处理文本中每个字的显著性，可以准确的确定出待处理文本中的关键词进行提取。

进一步，对于每个字，上述根据该字的显著性分数和非显著性分数，判断该字在所述待处理文本中是否为具有显著性的字，包括：

对于每个字，若该字的显著性分数不小于该字的非显著性分数，判断该字在所述待处理文本中为具有显著性的字，若该字的显著性分数小于该字的非显著性分数，判断该字在所述待处理文本中为不具有显著性的字。

采用上述进一步方案的有益效果是，显著性分数不小于非显著性分数，表示该字在待处理文本中的显著性较为明显，则可基于显著性分数和非显著性分数之间的大小比较，准确判断出每个字在待处理文本中是否为具有显著性的字，

进一步，上述对所述待处理文本进行分词处理，得到所述待处理文本对应的分词结果，包括：

对所述待处理文本进行jieba分词处理，得到所述待处理文本对应的分词结果。

采用上述进一步方案的有益效果是，采用jieba方法进行分词处理，可使得分词的结果更加准确。

第二方面，本发明为了解决上述技术问题还提供了一种文本的关键词提取装置，该装置包括：

文本获取模块，用于获取待处理文本，所述待处理文本为中文文本；

分词模块，用于对所述待处理文本进行分词处理，得到所述待处理文本对应的分词结果；

显著性获取模块，用于获取所述待处理文本中每个字的显著性数值和非显著性数值，对于每个字，所述字的显著性数值的大小表征了该字属于关键词的概率，所述非显著性数值的大小表征了该字不属于关键词的概率；

转移概率获取模块，用于对于每个字，获取该字对应的词内转移概率和词间转移概率，所述词内转移概率表征了该字与该字的相邻字同为显著性的字的概率，所述词间转移概率表征了该字与该字的相邻字同为非显著性的字的概率；

显著性分数确定模块，用于对于每个字，根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数；

关键词确定及提取模块，用于根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词。

第三方面，本发明为了解决上述技术问题还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时实现本申请的一种文本的关键词提取方法。

第四方面，本发明为了解决上述技术问题还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请的一种文本的关键词提取方法。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。

图1为本发明一个实施例提供的一种文本的关键词提取方法的流程示意图；

图2为本发明一个实施例提供的一种文本的关键词提取方法的具体示例示意图；

图3为本发明一个实施例提供的一种文本的关键词提取装置的结构示意图；

图4为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例所提供的方案可以适用于任何需要在提取文本中的关键词的应用场景中。本发明实施例所提供的方案可以由任一电子设备执行，比如，可以是用户的终端设备，包括以下至少一项：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。

本发明实施例提供了一种可能的实现方式，如图1所示，提供了一种文本的关键词提取方法的流程图，该方案可以由任一电子设备执行，例如，可以是终端设备，或者由终端设备和服务器共同执行。为描述方便，下面将以终端设备作为执行主体为例对本发明实施例提供的方法进行说明，如图1中所示的流程图，该方法可以包括以下步骤：

步骤S110，获取待处理文本，所述待处理文本为中文文本；

步骤S120，对所述待处理文本进行分词处理，得到所述待处理文本对应的分词结果；

步骤S130，获取所述待处理文本中每个字的显著性数值和非显著性数值，对于每个字，所述字的显著性数值的大小表征了该字属于关键词的概率，所述非显著性数值的大小表征了该字不属于关键词的概率；

步骤S140，对于每个字，获取该字对应的词内转移概率和词间转移概率，所述词内转移概率表征了该字与该字的相邻字同为显著性的字的概率，所述词间转移概率表征了该字与该字的相邻字同为非显著性的字的概率；

步骤S150，对于每个字，根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数；

步骤S160，根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词。

通过本发明的方法，对于待处理文本，通过计算待处理文本中每个字的显著性分数和非显著性分数，可以体现出各个字之间的语义信息之间的关系，基于待处理文本中每个字的显著性分数和非显著性分数，再结合待处理文本的分词结果，可以准确的确定出待处理文本中的关键词进行提取。

下面结合以下具体的实施例，对本发明的方案进行进一步的说明，在该实施例中，一种文本的关键词提取方法可以包括以下步骤：

步骤S110，获取待处理文本，所述待处理文本为中文文本；

其中，待处理文本可以指的是一段需要提取关键词的句子，关键词可以指的是可以表达该句话的中心含义的词，或者一句话中具有代表性的词。

对待处理文本进行分词处理可以采用现有技术中的分词技术，可选的，在本申请方案中，可采用jieba技术对待处理文本进行分词处理，所得到的分词结果为组成待处理文本的各个词。

其中，对于每个字，该字对应的显著性数值和非显著性数值可以为归一化处理后的数值，该字对应的显著性数值和非显著性数值之和为1，显著性数值越大，对应的非显著性数值越小，显著性数值越大，表示这个字在待处理文本中越显著，成为关键词中的一部分的可能性越大，相反，显著性数值越小，即非显著性数值越大，表示这个字在待处理文本中越不显著，是常见的词，成为关键词的一部分的可能性越小。

可选的，对于每个字，该字的显著性数值可通过以下公式确定：

其中，L为分类模型的交叉熵损失函数，e为embedding层的参数，s_i代表待处理文本中的第i个字的显著度数值，||||₂表示L₂范数。

上述确定每个字的显著性数值的过程可参见以下方案：记一个句子经过embedding层之后可以得到一个尺寸为(max_len,768)的矩阵X，其中，max_len为句子长度，768为bert的特征维度，那么该矩阵经过模型后面的部分处理后，最终得到了一个(n_class)维度的向量，其中n_class为类别的个数(对应的就是标签的个数)，该向量与真实的标签(label)可以计算得到交叉熵损失函数L。

上述步骤都用的是矩阵运算，因此，可以利用L求矩阵X的梯度，梯度的尺寸也是(max_len,768)的，通过计算L2范数，便可得到(max_len)尺寸的向量，向量中的每个值对应的即是每个字的显著值。

其中，每个字对应的词内转移概率和词间转移概率可以为预先定义好的，一种可实现方式为，根据分词结果确定每个字对应的词内转移概率和词间转移概率，比如，对于两个词，第一个字为第一个词，第二个字和第三个字组成第二个词，基于分词结果，第一个字和第二个字同时为显著性的字的概率相对较小，可设为一个较小的定值(比如，0.5)，第二个字和第三个词由于组成了第二个词，那么第二个字和第三个字同时为显著性的字的概率就会相对较大，则可设为一个较大的定值(比如，0.9)。

其中，对于待处理文本中的每个字，该字的显著性分数越大，表示这个字为待处理文本的关键词的可能性越大，该字的非显著性分数越大，表示这个字为待处理文本的关键词的可能性越小。对于每个字，确定该字对应的显著性分数和非显著性分数过程中，不但考虑了该字对应的显著性数值和非显著性数值，即考虑了该字自己在待处理文本中的显著性，还考虑了该字对应的词内转移概率和词间转移概率，即考虑了该字和相邻字之间的语义信息之间的关系，从而可以准确的确定出该字对应的显著性分数和非显著性分数。

可选的，对于每个字，上述根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数，包括：

进一步的，对于每个字，上述根据该字对应的词内转移概率、词间转移概率、显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的显著性分数，根据该字对应的词内转移概率、词间转移概率、非显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的非显著性分数，包括：

s_score[i]＝max{score_s[i-1]*m[i-1]*score_s[i],score_n[i-1]*n[i-1]*score_s[i]}

n_score[i]＝max{score_s[i-1]*m[i-1]*score_n[i],score_n[i-1]*n[i-1]*score_n[i]}

其中，根据分词结果、各个字中每个字的显著性分数和非显著性分数，所确定的关键词是待处理文本中显著性最高的词。

可选的，根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词，包括：

对于每个字，根据该字的显著性分数和非显著性分数，判断该字在所述待处理文本中是否为具有显著性的字；单从字的角度，如果这个字为具有显著性的字，则表示这个字属于关键词的概率更大，相反，如果这个字不是具有显著性的字，则表示这个字不属于关键词的概率更大。

根据所述待处理文本中每个字的显著性和所述分词结果，确定至少两个相邻的目标字，每个所述目标字在所述待处理文本中均为具有显著性的字；且至少两个相邻的目标字一定对应的是分词结果中的一个词。

其中，如果一个词对应一个路径的话，上述至少两个相邻的目标字对应的路径可以称为最优路径，上述步骤S150和步骤S160的处理过程可采用viterbi算法。

进一步的，对于每个字，所述根据该字的显著性分数和非显著性分数，判断该字在所述待处理文本中是否为具有显著性的字，包括：

为了更好的说明及理解本发明所提供的方法的原理，下面结合一个可选的具体实施例对本发明的方案进行说明。需要说明的是，该具体实施例中的各步骤的具体实现方式并不应当理解为对于本发明方案的限定，在本发明所提供的方案的原理的基础上，本领域技术人员能够想到的其他实现方式也应视为本发明的保护范围之内。

在本示例中，待处理文本为：“你知道有关区块链的技术吗”。

步骤1，通过jieba技术对待处理文本进行分词处理，得到的分词结果可参见图2，图2上部每个被框在一起的表示一个词。

步骤2，采用前文描述的方式，计算待处理文本中每个字的显著性数值和非显著性数值，具体可参见图2中所示的S对应的一行中各圆圈中的数值为每个字对应的显著性数值，N对应的一行中各圆圈中的数值为每个字对应的非显著性数值；上下两行对应位置处的圆圈中的数值之和为1，即一个字的显著性数值和非显著性数值之和为1。

步骤3，基于分词结果，确定每个字对应的词内转移概率和词间转移概率，在本示例中，不属于同一个分词结果的两个字之间的词内转移概率为0.5，属于同一个分词结果的两个字之间的词内转移概率为0.9，不属于同一个分词结果的两个字之间的词间转移概率为0.5，属于同一个分词结果的两个字之间的词间转移概率为0.1。词内转移概率为图2中水平线上对应的概率值，词间转移概率为图2中交叉线上对应的概率值。

步骤4，对于待处理文本中的第一个字“你”，该第一个字的显著性分数等于该第一个字对应的显著性数值0.2，即s_score[0]＝0.2，该第一个字对应的非显著性分数等于该第一个字对应的非显著性数值0.8，即n_score[0]＝0.8。

对于待处理文本中的第二个字“知”，该第二个字的显著性分数和非显著性分数分别基于以下两个公式计算得到：

s_score[1]＝max{score_s[1-1]*m[1-1]*score_s[1],score_n[1-1]*n[1-1]*score_s[1]}＝max{0.2*0.5*0.1,0.8*0.5*0.1}＝0.04；

n_score[1]＝max{score_s[1-1]*m[1-1]*score_n[1],score_n[1-1]*n[1-1]*score_n[1]}＝max{0.2*0.5*0.9,0.8*0.5*0.9}＝0.36。

对于待处理文本中的第三个字“道”，该第三个字的显著性分数和非显著性分数分别基于以下两个公式计算得到：

s_score[2]＝max{score_s[2-1]*m[2-1]*score_s[2],score_n[2-1]*n[2-1]*score_s[2]}＝max{0.04*0.9*0.2,0.36*0.1*0.2}＝0.072；

n_score[2]＝max{score_s[2-1]*m[2-1]*score_n[2],score_n[2-1]*n[2-1]*score_n[2]}＝max{0.04*0.1*0.8,0.36*0.9*0.8}＝0.2592。

通过上述计算第二个字相同的方式，计算待处理文本中剩余的每个字的显著性分数和非显著性分数。

步骤5，对于第一个字，比较该第一个字的显著性分数和非显著性分数，由于s_score＜n_score，则第一个字为不具有显著性的字，可通过n表示，同理，通过同样的方法，比较每个字对应的显著性分数和非显著性分数，得到第二个字为不具有显著性的字，第三个字也为不具有显著性的字，最后可得到待处理文本对应的一个序列：n,n,n,n,n,s,s,s,n,n,n,n。其中，s表示的是对应的字为具有显著性的字。

根据上述序列以及分词结果，可以确定出“区块链”为待处理文本的关键词，可提取该关键词。

基于与图1中所示的方法相同的原理，本发明实施例还提供了一种文本的关键词提取装置20，如图3中所示，该一种文本的关键词提取装置20可以包括文本获取模块210、分词模块220、显著性获取模块230、转移概率获取模块240、显著性分数确定模块250和关键词确定及提取模块260，其中：

文本获取模块210，用于获取待处理文本，所述待处理文本为中文文本；

分词模块220，用于对所述待处理文本进行分词处理，得到所述待处理文本对应的分词结果；

显著性获取模块230，用于获取所述待处理文本中每个字的显著性数值和非显著性数值，对于每个字，所述字的显著性数值的大小表征了该字属于关键词的概率，所述非显著性数值的大小表征了该字不属于关键词的概率；

转移概率获取模块240，用于对于每个字，获取该字对应的词内转移概率和词间转移概率，所述词内转移概率表征了该字与该字的相邻字同为显著性的字的概率，所述词间转移概率表征了该字与该字的相邻字同为非显著性的字的概率；

显著性分数确定模块250，用于对于每个字，根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数；

关键词确定及提取模块260，用于根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词。

可选的，对于每个字，上述显著性分数确定模块250在根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数时，具体用于：

可选的，对于每个字，上述显著性分数确定模块250在根据该字对应的词内转移概率、词间转移概率、显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的显著性分数，根据该字对应的词内转移概率、词间转移概率、非显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的非显著性分数时，具体用于：

s_score[i]＝max{score_s[i-1]*m[i-1]*score_s[i],score_n[i-1]*n[i-1]*score_s[i]}

n_score[i]＝max{score_s[i-1]*m[i-1]*score_n[i],score_n[i-1]*n[i-1]*score_n[i]}

可选的，上述关键词确定及提取模块260在根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词时，具体用于：

可选的，对于每个字，上述关键词确定及提取模块260在根据该字的显著性分数和非显著性分数，判断该字在所述待处理文本中是否为具有显著性的字时，具体用于：

可选的，上述分词模块220在对所述待处理文本进行分词处理，得到所述待处理文本对应的分词结果时，具体用于：

本发明实施例的文本的关键词提取装置可执行本发明实施例所提供的文本的关键词提取方法，其实现原理相类似，本发明各实施例中的文本的关键词提取装置中的各模块、单元所执行的动作是与本发明各实施例中的文本的关键词提取方法中的步骤相对应的，对于文本的关键词提取装置的各模块的详细功能描述具体可以参见前文中所示的对应的文本的关键词提取方法中的描述，此处不再赘述。

其中，上述文本的关键词提取装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该文本的关键词提取装置为一个应用软件；该装置可以用于执行本发明实施例提供的方法中的相应步骤。

在一些实施例中，本发明实施例提供的文本的关键词提取装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的文本的关键词提取装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的文本的关键词提取方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的文本的关键词提取装置可以采用软件方式实现，图3示出了存储在存储器中的一种文本的关键词提取装置，其可以是程序和插件等形式的软件，并包括一系列的模块，包括文本获取模块210、分词模块220、显著性获取模块230、转移概率获取模块240、显著性分数确定模块250和关键词确定及提取模块260，用于实现本发明实施例提供的一种文本的关键词提取方法。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明任一实施例所示的方法。

在一个可选实施例中提供了一种电子设备，如图4所示，图4所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本发明方案的应用程序代码(计算机程序)，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备也可以是终端设备，图4示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

根据本发明的另一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种实施例实现方式中提供的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解的是，附图中的流程图和框图，图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本的关键词提取方法，其特征在于，包括以下步骤：

获取待处理文本，所述待处理文本为中文文本；

根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词；

对于每个字，所述根据该字对应的词内转移概率、词间转移概率、显著性数值和非显著性数值，确定该字对应的显著性分数和非显著性分数，包括：

2.根据权利要求1所述的方法，其特征在于，对于每个字，所述根据该字对应的词内转移概率、词间转移概率、显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的显著性分数，根据该字对应的词内转移概率、词间转移概率、非显著性数值、该字的相邻字对应的显著性数值和非显著性数值，确定该字对应的非显著性分数，包括：

s_score[i]＝max{score_s[i-1]*m[i-1]*score_s[i],score_n[i-1]*n[i-1]*score_s[i]}

n_score[i]＝max{score_s[i-1]*m[i-1]*score_n[i],score_n[i-1]*n[i-1]*score_n[i]}

3.根据权利要求1或2所述的方法，其特征在于，所述根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词，包括：

4.根据权利要求3所述的方法，其特征在于，对于每个字，所述根据该字的显著性分数和非显著性分数，判断该字在所述待处理文本中是否为具有显著性的字，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述对所述待处理文本进行分词处理，得到所述待处理文本对应的分词结果，包括：

6.一种文本的关键词提取装置，其特征在于，包括：

关键词确定及提取模块，用于根据分词结果、各个字中每个字的显著性分数和非显著性分数，确定所述待处理文本中的关键词并提取所述关键词；

7.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法。