CN108334533B

CN108334533B - 关键词提取方法和装置、存储介质及电子装置

Info

Publication number: CN108334533B
Application number: CN201710991231.7A
Authority: CN
Inventors: 杨正伟; 汤煌; 张小鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2021-12-24
Anticipated expiration: 2037-10-20
Also published as: US20200081977A1; US11194965B2; CN108334533A; WO2019076191A1

Abstract

本发明公开了一种关键词提取方法和装置、存储介质及电子装置。其中，该方法包括：获取目标文本中的候选关键词集；至少根据主题相似度候选关键词集中候选关键词的文本转换频率，确定出候选关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，从而实现通过提取度来从候选关键词集中提取出关键词，以结合候选关键词的文本转换频率和与目标文本的主题相似度至少两个维度，来确定出目标文本中待提取的关键词，实现提高关键词提取的准确性的效果。

Description

关键词提取方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种关键词提取方法和装置、存储介质及电子装置。

背景技术

关键词是当前文档内关键内容的索引词，通常用于在搜索过程中对上述关键内容进行检索定位，以便于对文档的全文内容进行快速地了解和把握，从而实现根据上述关键词进行文本文档分类、数据分析及智能匹配推荐等过程。

然而，目前相关技术常用的关键词提取方法往往都是基于统计数据，对概括性的词语进行较宽泛的提取，即，相关技术提供的关键词提取方法存在提取准确性较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种关键词提取方法和装置、存储介质及电子装置，以至少解决由于对概括性词语直接进行较宽泛地关键词提取而导致的提取准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种关键词提取方法，包括：获取目标文本中的候选关键词集；至少根据主题相似度以及上述候选关键词集中候选关键词的文本转换频率，确定出上述候选关键词的提取度，其中，上述主题相似度为上述候选关键词与上述目标文本的相似度，其中，上述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率；根据上述提取度从上述候选关键词集中提取出上述关键词。

根据本发明实施例的另一方面，还提供了一种关键词提取装置，包括：获取单元，用于获取目标文本中的候选关键词集；确定单元，用于至少根据主题相似度以及上述候选关键词集中候选关键词的文本转换频率，确定出上述候选关键词的提取度，其中，上述主题相似度为上述候选关键词与上述目标文本的相似度，其中，上述提取度用于指示上述候选关键词作为与上述目标文本匹配的关键词被提取出的概率；提取单元，用于根据上述提取度从上述候选关键词集中提取出上述关键词。

根据本发明实施例的又一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，上述程序运行时执行上述的方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器通过上述计算机程序执行上述的方法。

在本发明实施例中，采用获取目标文本中的候选关键词集，然后根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，从而实现通过上述提取度来从候选关键词集中提取出关键词，以结合候选关键词的文本转换频率和与目标文本的主题相似度至少两个维度，来确定出目标文本中待提取的关键词，而不再仅仅基于统计数据进行较宽泛的关键词提取，进而实现提高关键词提取的准确性的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的电子终端中文本数据显示示意图；

图2是根据本发明实施例的一种关键词提取方法的流程示意图；

图3是根据本发明实施例提出的一种改进文本转换频率的示意图；

图4是根据本发明实施例的一种关键词的文本标签分类的示意图；

图5是根据本发明实施例的一种关键词的账号标签分类的示意图；

图6是根据本发明实施例的一种关键词提取装置的结构示意图；

图7是根据本发明实施例提出的一种电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种关键词的提取方法，在介绍本发明实施例的技术方案之前，首先对本发明实施例的应用场景进行说明，本发明的实施例的技术方案应用于文本数据中的关键词的提取。

如图1所示，为本发明实施例中的一种关键词的提取方法的应用环境示意图，其中，终端102通过网络104与服务器106连接，在终端102中具有终端应用，用于在终端102的显示屏中显示目标文本，在终端102中获取目标文本中的候选关键词集；至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，提取度用于指示候选关键词作为与目标文本匹配的关键词被提取出的概率；根据提取度从候选关键词集中提取出关键词。

需要说明的是，上述电子终端包括但不限于移动终端、PC机等，具备存储器以及显示屏，以进行自身文本数据的存储以及文本数据的显示等，其中，为了方便说明，以下将文本数据描述成为目标文本，二者意义相同。

根据本发明实施例，提供了一种关键词的提取方法，如图2所示，该方法包括：

S202，获取目标文本中的候选关键词集；

S204，至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定出候选关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，其中，提取度用于指示候选关键词作为与目标文本匹配的关键词被提取出的概率；

S206，根据提取度从候选关键词集中提取出关键词。

本发明实施例的技术方案的应用场景包括但不限于电子终端，服务器等，用于对目标文本中关键词的获取，或者目标关键词的检索等，具体可以用于例如广告推送、新闻推送以及用户订阅的其他消息通知推送等应用场景中，以上所述应用场景仅是一种示例，本实施例不对此做任何限定。

可选地，在关键词的获取过程中，首先获取目标文本中的所有可能是关键词的候选关键词，获取目标文本中的候选关键词集，然后对候选关键词集作进一步地筛选，具体过程如下：

获取到目标文本中的候选关键词集，然后至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，提取度用于指示获选关键词作为与目标文本匹配的关键词被提出的概率，根据提取度从候选关键词集中提取出关键词，其中根据候选关键词与目标文本的主题相似度以及候选关键词的文本转换频率两点中至少一点来确定出候选关键词的提取度，任意一点也可以确定，但是为了提高关键词的准确性，采用主题相似度以及文本转换频率一起确定出候选词的提取度，以解决关键词提取条件过于宽泛的问题。

可选地，在根据提取度从候选关键词集中提取出关键词之后，还包括以下至少之一：

1)根据提取出的关键词为目标文本匹配文本标签，其中，文本标签用于标识目标文本的分类信息；根据文本标签将目标文本推送给相匹配的用户账号；

2)根据提取出的关键词为获取到目标文本的目标账号匹配账号标签，其中，账号标签用于标识目标账号的分类信息；根据账号标签为目标账号推送相匹配的文本。

在上述第一种方案中，将提取出的目标文本的关键词用于给目标文本匹配文本标签，用于区分该目标文本的类别信息，然后根据文本标签将目标文本推送给相匹配的用户账号，另外，还可以根据文本标签将目标文本进行分类保存等。

而在上述第二种方案中，则是将提取出的目标文本的关键词用于给目标文本的目标账号匹配账号标签，该账号标签用于标识目标账号的分类信息，根据账号标签为目标账号推送相匹配的文本，或根据账号标签将目标账号进行分类标注等，以便后续根据账号标签对目标账号进行相关的服务。

可选地，至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度包括但不限于：获取候选关键词的主题相似度，以及候选关键词的文本转换频率的加权结果；获取候选关键词的属性信息，其中，属性信息包括：候选关键词的词性，及候选关键词在目标文本中的词频；根据加权结果及属性信息确定提取度。例如，在获取到一份目标文本时，首先确定该目标文本中的主题，然后筛选出目标文本的候选关键词集，根据候选关键词主题相似度以及文本转换频率获取候选关键词的加权结果，用于获取候选关键词是关键词的概率。另外，获取候选关键词的属性信息中，词性包括但不限于动词、名词或形容词等，而候选关键词在目标文本中的词频则是候选关键词在目标文本中出现的次数，在获取到以上信息后，根据加权结果以及属性信息确定候选关键词的提取度。

可选地，根据加权结果及属性信息确定提取度包括但不限于：根据候选关键词的词性及候选关键词在目标文本中的位置，确定候选关键词的提取系数；获取提取系数、词频及加权结果的乘积作为提取度，其中，在加权结果中，与主题相似度匹配的第一权重，及与文本转换频率匹配的第二权重，二者的权重之和为1。在实际的应用场景中，一个目标文本数据中通常基于候选关键词的主题相似度以及候选关键词的转换频率两个评价参数来判断候选关键词的提取度，如此则候选关键词的主题相似度的第一权重的数值与文本转换频率匹配的第二权重的数值的和为1。

需要说明的是，在本实施例中，将主题相似度以及文本转换频率看作是候选关键词作为关键词的评价参数，当存在除上述评价参数(主题相似度以及候选关键词)之外的其他评价参数时，这里多个评价参数的权重的数值之和为1。本实施例中对此不做任何限定。

可选地，根据候选关键词的词性及候选关键词在目标文本中的位置，确定候选关键词的提取系数包括但不限于：

1)在候选关键词出现在与目标文本对应的标题中的情况下，确定出的提取系数大于与词性匹配的词性系数；

2)在候选关键词并未出现在与目标文本对应的标题中的情况下，确定出的提取系数等于与词性匹配的词性系数；

其中，词性系数根据候选关键词的词性确定数值，具体包括以下几种情况：

a)在词性为名词的情况下，词性系数为第一数值；

b)在词性为动词的情况下，词性系数为第二数值；

c)在词性为其他词性的词的情况下，词性系数为第三数值。

可选地，在至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度之前，还包括但不限于：获取目标文本所在语料库中的全部文本数量，与在语料库中包含候选关键词的文本数量二者之间的第一比值；获取在预设搜索平台中的总搜索条目数量，以及在预设搜索平台中包含候选关键词的搜索条目数量；根据搜索条目数量与总搜索条目数量确定二者之间的第二比值；对第一比值与第二比值二者的乘积进行取对数运算，得到候选关键词的文本转换频率。

在具体的应用场景中，在对目标文本的关键词获取过程中，通常结合已有的语料库以及引用搜索数据来协助提取关键词，其中，通过本地存储的或者存储于云端的语料库中全部文本的数量，以及包括候选关键词的文本数量之间的第一比值，即确定在语料库中候选关键词的历史占比。另一方面，通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索条目的数量之间的第二比值，即确定在搜索条目数量中候选搜索关键词的历史占比。对第一比值与第二比值二者的乘积进行取对数运算，得到候选关键词的文本转换频率，对文本转换频率进行改进，使得文本转换频率更为精确，需要说明的是，在此也可以单独引用已有的语料库或单独引用搜索数据，上述仅是一种示例。

可选地，至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度之前，还包括但不限于：获取与候选关键词匹配的第一主题分布数据，其中，第一主题分布数据用于指示在K个主题中，候选关键词为第k个主题的概率；获取与目标文本匹配的第二主题分布数据，其中，第二主题分布数据用于指示在K个主题中，目标文本为第k个主题的概率；根据第一主题分布数据及第二主题分布数据，确定候选关键词与目标文本的主题相似度，其中，主题相似度用于指示在K个主题中，候选关键词为第k个主题，且目标文本也为第k个主题的概率，k大于等于1，且小于等于K。

通过本发明提供的实施例，采用获取目标文本中的候选关键词集，然后根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，从而实现通过上述提取度来从候选关键词集中提取出关键词，以结合候选关键词的文本转换频率和与目标文本的主题相似度至少两个维度，来确定出目标文本中待提取的关键词，而不再仅仅基于统计数据进行较宽泛的关键词提取，进而实现提高关键词提取的准确性的效果。

作为一种可选的方案，根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度包括：

S1，获取候选关键词的主题相似度，以及候选关键词的文本转换频率的加权结果；

S2，获取候选关键词的属性信息，其中，属性信息包括：候选关键词的词性，及候选关键词在目标文本中的词频；

S3，根据加权结果及属性信息确定提取度。

在具体的应用场景中，在获取到一份目标文本时，首先获取目标文本的候选关键词集，根据候选关键词主题相似度以及文本转换频率IDF获取候选关键词的加权结果，用于获取候选关键词是关键词的概率。另外，获取候选关键词的属性信息中，词性包括候选关键词是否为动词、名词或形容词以及关键词的语种(例如中文、英文、日文)等，而候选关键词在目标文本中的词频则是候选关键词在目标文本中出现的次数或频率，在获取到以上信息后，根据加权结果以及属性信息确定候选关键词的提取度。

通过本实施例，获取候选关键词的主题相似度以及候选关键词的文本转换频率的加权结果，根据加权结果以及候选关键词的属性信息来确定候选关键词的提取度，解决了关键词的提取条件过于宽泛的问题。

作为一种可选的方案，根据加权结果及属性信息确定提取度包括：

S1，根据候选关键词的词性及候选关键词在目标文本中的位置，确定候选关键词的提取系数；

S2，获取提取系数、词频及加权结果的乘积作为提取度，其中，在加权结果中，与主题相似度匹配的第一权重，及与文本转换频率匹配的第二权重，二者的权重之和为1。

在具体的应用场景中，一个目标文本数据中通常基于候选关键词的主题相似度以及候选关键词的文本转换频率两个评价参数来判断候选关键词的提取度，如此则候选关键词的主题相似度的第一权重的数值与文本转换频率匹配的第二权重的数值的和为1，当存在多个候选关键词的评价参数时，例如其他多个评价参数时，候选关键词的多个评价参数的权重的数值之和为1。

另外根据加权结果及属性信息确定候选关键词的提取度，可以根据候选关键词的词性及候选关键词在目标文本中的位置来确定候选关键词的提取系数，其中，候选关键词在目标文本中的位置包括但不限于候选关键词是否处于目标文本的标题中，然后获取提取系数、词频及加权结果的乘积作为候选关键词的提取度。

例如，假设w为候选关键词，w的提取度可以按照如下方式计算获取：

weight_w＝S₁*tf*{S₂*IDF_w+(1-S2)*T}

其中，S₁为提取系数，tf为w的词频，{S₂*IDF_w+(1-S2)*T}为加权结果；其中，IDF_w为候选关键词w文本转换频率，T为主题相似度，S₂为调节IDF_w与主题相似度的参数。

通过本实施例，根据候选关键词的词性及候选关键词在目标文本中的位置，确定候选关键词的提取系数，获取提取系数、词频及加权结果的乘积作为候选关键词的提取度，提高了目标文本中关键词的提取准确度。

作为一种可选的方案，根据候选关键词的词性及候选关键词在目标文本中的位置，确定候选关键词的提取系数包括：

S1，在候选关键词出现在与目标文本对应的标题中的情况下，确定出的提取系数大于与词性匹配的词性系数；

S2，在候选关键词并未出现在与目标文本对应的标题中的情况下，确定出的提取系数等于与词性匹配的词性系数；

在具体的应用场景中，若候选关键词出现在与目标文本对应的标题中，则确定候选关键词的提取系数大于与词性匹配的词性系数，若候选关键词并未出现在与目标文本对应的标题中，则确定候选关键词的提取系数等于与词性匹配的词性系数。

其中，词性系数根据候选关键词的词性确定数值，包括：

A)在词性为名词的情况下，词性系数为第一数值；

B)在词性为动词的情况下，词性系数为第二数值；

C)在词性为其他词性的词的情况下，词性系数为第三数值。

在具体的应用场景中，候选关键词的词性不同对其词性系数产生影响，不同词性对应着不同的词性系统，具体的词性系数值根据用户的实际经验进行设置，在此不做限定。

例如，假设在一组目标文本的数据中，w为候选关键词，w的候选关键词的提取度计算方式如上所述的公式：weight_w＝S₁*tf*{S₂*IDF_w+(1-S2)*T}其中，S₂为调节候选关键词文本转换频率IDF与主题相似度的参数。提取系数S₁与w的词性以及是否出现在标题中有关。其中，如果w出现在标题中，则S₁＝2S₀，S₀为w的词性系数，否则S₁＝S₀。

通过本实施例，根据候选关键词在目标文本中的位置以及候选关键词的词性来确定对应的提取系数以及词性系数，以实现对目标文本中关键词的精确提取。

作为一种可选的方案，在至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度之前，还包括：

S1，获取目标文本所在语料库中的全部文本数量，与在语料库中包含候选关键词的文本数量二者之间的第一比值；

S2，获取在预设搜索平台中的总搜索条目数量，以及在预设搜索平台中包含候选关键词的搜索条目数量；

S3，根据搜索条目数量与总搜索条目数量确定二者之间的第二比值；

S4，对第一比值与第二比值二者的乘积进行取对数运算，得到候选关键词的文本转换频率。

在具体的应用场景中，在对目标文本的关键词获取过程中，通常结合已有的语料库以及引用搜索数据来协助提取关键词，其中，通过本地存储的或者存储于云端的语料库中全部文本的数量，以及包括候选关键词的文本数量之间的第一比值，即确定在语料库中候选关键词的历史占比。另一方面，通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索条目的数量之间的第二比值，即确定在搜索条目数量中候选搜索关键词的历史占比。对第一比值与第二比值二者的乘积进行取对数运算，得到候选关键词的文本转换频率；

或者，仅通过本地存储的或者存储于云端的语料库中全部文本的数量，以及包括候选关键词的文本数量之间的第一比值，对第一比值进行取对数运算，得到候选关键词的文本转换频率；

或者，仅通过搜索数据中的总搜索条目数量与包含搜索关键词的搜索条目的数量之间的第二比值，即确定在搜索条目数量中候选搜索关键词的历史占比，对第二比值进行取对数运算，得到候选关键词的文本转换频率。

需要说明的是，以上三种方式都是为了对候选关键词的文本转换频率的一种改进，不同的是改进后的文本转换频率的精度略有不同。

以下对上述第一中方式进行说明例如，在一篇文章里面出现了人物Y的名字“YM”，如图3所示，从语料库302以及搜索数据库304中分别获取数据，以对文本转换频率进行改进，改进后的候选关键词“YM”文本转换频率IDF如下：

其中，N表示文件总数目，n表示该词语w的文件数目。M表示搜索数据中的总搜索条目数，m表示包含候选关键词“YM”的搜索条目数，加1是为了防止m为0。

通过本实施例，引入历史数据以及搜索数据，对文本转换频率进行改进，使得文本转换频率更为精确。

作为一种可选的方案，至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度之前，还包括：

S1，获取与候选关键词匹配的第一主题分布数据，其中，第一主题分布数据用于指示在K个主题中，候选关键词为第k个主题的概率；

S2，获取与目标文本匹配的第二主题分布数据，其中，第二主题分布数据用于指示在K个主题中，目标文本为第k个主题的概率；

S3，根据第一主题分布数据及第二主题分布数据，确定候选关键词与目标文本的主题相似度，其中，主题相似度用于指示在K个主题中，候选关键词为第k个主题，且目标文本也为第k个主题的概率，k大于等于1，且小于等于K。

作为一种优选的实施方式，根据第一主题分布数据及第二主题分布数据，确定候选关键词与目标文本的主题相似度包括但不限于：通过以下公式确定候选关键词与目标文本的主题相似度：

其中，w用于表示候选关键词，d用于表示目标文本，cos(w；d)用于表示候选关键词与目标文本的主题相似度，其中“cos(w；d)”与于上述公式“weight_w＝S₁*tf*{S₂*IDF_w+(1-S2)*T}”中“T”含义相同k用于表示在K个主题中的第k个主题，P(k|d)用于表示目标文本为第k个主题的概率，p(k|w)用于表示候选关键词为第k个主题的概率。

通过本实施例，利用现有学习到的候选关键词的主题分布数据，计算出候选关键词和文档的主题分布，从而获取到关键词与目标文本的主题相似度，解决了关键词提取条件过于广泛的问题。

作为一种可选的方案，在根据提取度从候选关键词集中提取出关键词之后，还包括以下至少之一：

S1，根据提取出的关键词为目标文本匹配文本标签，其中，文本标签用于标识目标文本的分类信息；根据文本标签将目标文本推送给相匹配的用户账号；

在具体的应用场景中，如图4所示，以目标文本为新闻文本为例进行说明，假设终端401通过网络与应用服务器402连接，应用服务器402根据终端401发送新闻文本中获取的候选关键字，根据语料库403最终提取出的关键词为“航母”、“军事”，则为该新闻文本匹配文本标签“军事”，则表示该新闻为军事类新闻，然后根据该新闻文本的标签将新闻推送给相匹配终端401的用户账户。

S2，根据提取出的关键词为获取到目标文本的目标账号匹配账号标签，其中，账号标签用于标识目标账号的分类信息；根据账号标签为目标账号推送相匹配的文本。

仍以上述目标文本为新闻文本为例进行说明，如图5所示，假设终端501通过网络与应用服务器502连接，应用服务器502根据终端501发送新闻文本中获取的候选关键字，根据语料库503最终提取出的关键词为“航母”、“军事”，若之前用户A关注了该类新闻，且该用户A所在终端为终端504，则为该目标文本匹配账户标签“用户A”，根据该“用户A”账号标签为用户A的目标账号推送相匹配的新闻文本，将新闻文本发送至终端504。

通过本实施例，将提取出的目标文本关键词用于文本标签分类以及账号标签分类，以提高目标文本推送的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

根据本发明实施例，还提供了一种用于实施上述关键词提取方法的关键词提取装置，如图6所示，该装置包括：

1)获取单元602，用于获取目标文本中的候选关键词集；

2)确定单元604，用于至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定出候选关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，其中，提取度用于指示候选关键词作为与目标文本匹配的关键词被提取出的概率；

3)提取单元606，用于根据提取度从候选关键词集中提取出关键词。

获取到目标文本中的候选关键词集，然后至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定出候选关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，其中，提取度用于指示获选关键词作为与目标文本匹配的关键词被提出的概率，根据提取度从候选关键词集中提取出关键词，其中根据候选关键词与目标文本的主题相似度以及候选关键词的文本转换频率两点中至少一点来确定出候选关键词的提取度，任意一点也可以确定，但是为了提高关键词的准确性，采用主题相似度以及文本转换频率一起确定出候选词的提取度，以解决关键词提取条件过于宽泛的问题。

a)在词性为名词的情况下，词性系数为第一数值；

b)在词性为动词的情况下，词性系数为第二数值；

c)在词性为其他词性的词的情况下，词性系数为第三数值。

作为一种可选的技术方案，确定单元604包括：

1)第一获取模块，用于获取候选关键词的主题相似度，以及候选关键词的文本转换频率的加权结果；

2)第二获取模块，用于获取候选关键词的属性信息，其中，属性信息包括：候选关键词的词性，及候选关键词在目标文本中的词频；

3)第一确定模块，用于根据加权结果及属性信息确定提取度。

作为一种可选的技术方案，第一确定模块包括：

1)第一确定子模块，用于根据候选关键词的词性及候选关键词在目标文本中的位置，确定候选关键词的提取系数；

2)第一获取子模块，用于获取提取系数、词频及加权结果的乘积作为提取度，其中，在加权结果中，与主题相似度匹配的第一权重，及与文本转换频率匹配的第二权重，二者的权重之和为1。

另外根据加权结果及属性信息确定候选关键词的提取度，可以根据候选关键词的词性及候选关键词在目标文本中的位置来确定候选关键词的提取系数，其中，候选关键词在目标文本中的位置包括但不限于候选关键词是否处于目标文本的标题中，然后获取提取系数、词频及加权结果的乘积作为候选关键词的提取度。例如，假设w为候选关键词，w的提取度可以按照如下方式计算获取：

weight_w＝S₁*tf*{S₂*IDF_w+(1-S2)*T}

作为一种可选的技术方案，第一确定子模块包括：

1)第二确定子模块，用于在候选关键词出现在与目标文本对应的标题中的情况下，确定出的提取系数大于与词性匹配的词性系数；

2)第三确定子模块，用于在候选关键词并未出现在与目标文本对应的标题中的情况下，确定出的提取系数等于与词性匹配的词性系数；

其中，词性系数根据候选关键词的词性确定数值，包括：

A)在词性为名词的情况下，词性系数为第一数值；

B)在词性为动词的情况下，词性系数为第二数值；

C)在词性为其他词性的词的情况下，词性系数为第三数值。

作为一种可选的技术方案，在确定单元604还包括：

1)第三获取模块，用于在至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度之前，获取目标文本所在语料库中的全部文本数量，与在语料库中包含候选关键词的文本数量二者之间的第一比值；

2)第四获取模块，用于获取在预设搜索平台中的总搜索条目数量，以及在预设搜索平台中包含候选关键词的搜索条目数量；

3)第二确定模块，用于根据搜索条目数量与总搜索条目数量确定二者之间的第二比值；

4)第三确定模块，用于对第一比值与第二比值二者的乘积进行取对数运算，得到候选关键词的文本转换频率。

作为一种可选的技术方案，确定单元604还包括：

第五获取模块，用于在至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定关键词集中关键词的提取度之前，获取与候选关键词匹配的第一主题分布数据，其中，第一主题分布数据用于指示在K个主题中，候选关键词为第k个主题的概率；

第六获取模块，用于获取与目标文本匹配的第二主题分布数据，其中，第二主题分布数据用于指示在K个主题中，目标文本为第k个主题的概率；

第四确定模块，用于根据第一主题分布数据及第二主题分布数据，确定候选关键词与目标文本的主题相似度，其中，主题相似度用于指示在K个主题中，候选关键词为第k个主题，且目标文本也为第k个主题的概率，k大于等于1，且小于等于K。

其中，w用于表示候选关键词，d用于表示目标文本，cos(w；d)用于表示候选关键词与目标文本的主题相似度，其中“cos(w；d)”与于上述公式“weight_w＝S₁*tf*{S₂*IDF_w+(1-S2)*T}”中“T”含义相同。k用于表示在K个主题中的第k个主题，P(k|d)用于表示目标文本为第k个主题的概率，p(k|w)用于表示候选关键词为第k个主题的概率。

作为一种可选的技术方案，在提取单元606根据提取度从候选关键词集中提取出关键词之后，还包括以下至少之一：

第一推送模块，用于根据提取出的关键词为目标文本匹配文本标签，其中，文本标签用于标识目标文本的分类信息；根据文本标签将目标文本推送给相匹配的用户账号；

第二推送模块，用于根据提取出的关键词为获取到目标文本的目标账号匹配账号标签，其中，账号标签用于标识目标账号的分类信息；根据账号标签为目标账号推送相匹配的文本。

根据本发明实施例，还提供了一种用于实施上述神经网络训练方法的电子装置，如图7所示，该电子装置包括：一个或多个(图中仅示出一个)处理器702、存储器704、显示器706、用户接口708、传输装置710。其中，存储器704可用于存储软件程序以及模块，如本发明实施例中的安全关键词提取方法和装置对应的程序指令/模块，处理器702通过运行存储在存储器704内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的系统漏洞攻击的检测方法。存储器704可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器704可进一步包括相对于处理器702远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置710用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置710包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置710为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器704用于存储预设动作条件和预设权限用户的信息、以及应用程序。

本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

另一方面，本发明实施例还提供了一种存储介质，可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，获取目标文本中的候选关键词集；

S2，至少根据主题相似度以及候选关键词集中候选关键词的文本转换频率，确定出候选关键词的提取度，其中，主题相似度为候选关键词与目标文本的相似度，其中，提取度用于指示候选关键词作为与目标文本匹配的关键词被提取出的概率；

S3，根据提取度从候选关键词集中提取出关键词。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种关键词提取方法，其特征在于，包括：

获取目标文本中的候选关键词集；

根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率，获取所述候选关键词的加权结果，其中，所述主题相似度为所述候选关键词与所述目标文本的相似度，所述主题相似度用于指示在K个主题中，所述候选关键词为第k个主题，且所述目标文本也为所述第k个主题的概率，k大于等于1，且小于等于K，

获取所述候选关键词的属性信息，其中，所述属性信息包括：所述候选关键词的词性，及所述候选关键词在所述目标文本中的词频；

根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置，确定候选关键词的提取系数；获取所述提取系数、所述词频及所述加权结果的乘积，根据以下公式确定所述候选关键词的提取度：

weight_w＝S₁*tf*{S₂*IDF_w+(1-S₂)*T}；

其中，所述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率；S₁为所述提取系数，tf为所述候选关键词的词频，S₂*IDF_w+(1-S₂)*T为所述加权结果；IDF_w为所述候选关键词的文本转换频率，T为所述主题相似度，S₂为调节IDF_w与主题相似度T的参数；

根据所述提取度从所述候选关键词集中提取出所述关键词；

所述根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置，确定所述候选关键词的提取系数包括：

在所述候选关键词出现在与所述目标文本对应的标题中的情况下，确定出的所述提取系数大于与所述词性匹配的词性系数；

在所述候选关键词并未出现在与所述目标文本对应的标题中的情况下，确定出的所述提取系数等于与所述词性匹配的所述词性系数；

其中，所述词性系数根据所述候选关键词的词性确定数值，在所述词性为名词的情况下，所述词性系数为第一数值；在所述词性为动词的情况下，所述词性系数为第二数值；在所述词性为其他词性的词的情况下，所述词性系数为第三数值。

2.根据权利要求1所述的方法，其特征在于，在根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率，获取所述候选关键词的加权结果之前，还包括：

获取所述目标文本所在语料库中的全部文本数量，与在所述语料库中包含所述候选关键词的文本数量二者之间的第一比值；

获取在预设搜索平台中的总搜索条目数量，以及在所述预设搜索平台中包含所述候选关键词的搜索条目数量；

根据所述搜索条目数量与所述总搜索条目数量确定二者之间的第二比值；

对所述第一比值与所述第二比值二者的乘积进行取对数运算，得到所述候选关键词的所述文本转换频率。

3.根据权利要求1所述的方法，其特征在于，在根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率，获取所述候选关键词的加权结果之前，还包括：

获取与所述候选关键词匹配的第一主题分布数据，其中，所述第一主题分布数据用于指示在K个主题中，所述候选关键词为第k个主题的概率；

获取与所述目标文本匹配的第二主题分布数据，其中，所述第二主题分布数据用于指示在所述K个主题中，所述目标文本为所述第k个主题的概率；

根据所述第一主题分布数据及所述第二主题分布数据，确定所述候选关键词与所述目标文本的所述主题相似度。

4.根据权利要求1所述的方法，其特征在于，在所述根据所述提取度从所述候选关键词集中提取出所述关键词之后，还包括以下至少之一：

根据提取出的所述关键词为所述目标文本匹配文本标签，其中，所述文本标签用于标识所述目标文本的分类信息；根据所述文本标签将所述目标文本推送给相匹配的用户账号；

根据提取出的所述关键词为获取到所述目标文本的目标账号匹配账号标签，其中，所述账号标签用于标识所述目标账号的分类信息；根据所述账号标签为所述目标账号推送相匹配的文本。

5.一种关键词提取装置，其特征在于，包括：

获取单元，用于获取目标文本中的候选关键词集；

确定单元，用于至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率，确定出所述候选关键词的提取度，其中，所述主题相似度为所述候选关键词与所述目标文本的相似度，所述主题相似度用于指示在K个主题中，所述候选关键词为第k个主题，且所述目标文本也为所述第k个主题的概率，k大于等于1，且小于等于K，其中，所述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率；

提取单元，用于根据所述提取度从所述候选关键词集中提取出所述关键词；

所述确定单元包括：

第一获取模块，用于根据所述候选关键词的所述主题相似度、以及所述候选关键词的所述文本转换频率，获取所述候选关键词的加权结果；

第二获取模块，用于获取所述候选关键词的属性信息，其中，所述属性信息包括：所述候选关键词的词性，及所述候选关键词在所述目标文本中的词频；

第一确定模块，用于根据所述加权结果及所述属性信息确定所述提取度；

所述第一确定模块包括：

第一确定子模块，用于根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置，确定所述候选关键词的提取系数；

第一获取子模块，用于获取所述提取系数、所述词频及所述加权结果的乘积，根据以下公式确定所述候选关键词的所述提取度：

weight_w＝S₁*tf*{S₂*IDF_w+(1-S₂)*T}

其中，S₁为所述提取系数，tf为所述候选关键词的词频，S₂*IDF_w+(1-S₂)*T为所述加权结果；IDF_w为所述候选关键词的文本转换频率，T为所述主题相似度，S₂为调节IDF_w与主题相似度T的参数；

所述第一确定子模块包括：

第二确定子模块，用于在所述候选关键词出现在与所述目标文本对应的标题中的情况下，确定出的所述提取系数大于与所述词性匹配的词性系数；

第三确定子模块，用于在所述候选关键词并未出现在与所述目标文本对应的标题中的情况下，确定出的所述提取系数等于与所述词性匹配的所述词性系数；

6.根据权利要求5所述的装置，其特征在于，在所述确定单元还包括：

第三获取模块，用于在根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率，获取所述候选关键词的加权结果之前，获取所述目标文本所在语料库中的全部文本数量，与在所述语料库中包含所述候选关键词的文本数量二者之间的第一比值：

第四获取模块，用于获取在预设搜索平台中的总搜索条目数量，以及在所述预设搜索平台中包含所述候选关键词的搜索条目数量；

第二确定模块，用于根据所述搜索条目数量与所述总搜索条目数量确定二者之间的第二比值；

第三确定模块，用于对所述第一比值与所述第二比值二者的乘积进行取对数运算，得到所述候选关键词的所述文本转换频率。

7.根据权利要求5所述的装置，其特征在于，所述确定单元还包括：

第五获取模块，用于在根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率，获取所述候选关键词的加权结果之前，获取与所述候选关键词匹配的第一主题分布数据，其中，所述第一主题分布数据用于指示在K个主题中，所述候选关键词为第k个主题的概率；

第六获取模块，用于获取与所述目标文本匹配的第二主题分布数据，其中，所述第二主题分布数据用于指示在所述K个主题中，所述目标文本为所述第k个主题的概率；

第四确定模块，用于根据所述第一主题分布数据及所述第二主题分布数据，确定所述候选关键词与所述目标文本的所述主题相似度。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至4任一项中所述的方法。

9.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行所述权利要求1至4任一项中所述的方法。