CN108133045B

CN108133045B - 关键词提取方法与系统、关键词提取模型生成方法与系统

Info

Publication number: CN108133045B
Application number: CN201810033585.5A
Authority: CN
Inventors: 英高海; 朱德明; 李坤; 李冬梅
Original assignee: GCI Science and Technology Co Ltd
Current assignee: GCI Science and Technology Co Ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2020-07-24
Anticipated expiration: 2038-01-12
Also published as: CN108133045A

Abstract

本发明公开一种关键词提取方法，包括：对待提取文本进行分词预处理，将若干分词结果中的词语转化为词向量；根据聚类算法将所有词向量划分为预设数量的类簇；将类簇包含的所有词向量进行相加，以得到类簇的类簇向量，并输入预设的关键词提取模型，以得到类簇的标准关键词的词向量；将与类簇的标准关键词的词向量相似度最高的词向量所对应的词语，确定为类簇的关键词，以提取待提取文本的关键词；关键词提取模型为通过第一文本语料库中的每一类簇的类簇向量作为输入，以及标准关键词的词向量作为输出训练深度神经网络模型所生成。同时本发明还提供一种关键词提取系统、关键词提取模型生成方法与系统。采用本发明实施例，能够提高关键词提取的效率。

Description

关键词提取方法与系统、关键词提取模型生成方法与系统

技术领域

本发明涉及人工智能领域，尤其涉及关键词提取方法与系统、关键词提取模型生成方法与系统。

背景技术

关键词提取，又称主题词提取，其是自然语言处理中一个技术难度较大的领域，目前，现有的关键词提取方法主要有TF-IDF(term frequency-inverse documentfrequency，词频与逆文档法)、textrank算法等。

本发明人在实施本发明的过程中发现，现有技术至少存在以下缺点：

现有技术提供的关键词提取方法主要从语法和词频层面考察关键词的分布状况，而忽略了关键词对文本中心思想在语义层面的概括意义，因此，其提取的关键词客观性不高，难有说服力。

发明内容

本发明实施例提出关键词提取方法与系统、关键词提取模型生成方法与系统，能够提高关键词提取的客观性和准确性。

本发明一方面提供一种关键词提取方法，所述方法包括：

对待提取文本进行分词预处理，以得到所述待提取文本的若干分词结果；

分别将所述若干分词结果中的词语转化为词向量；

根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇；

将所述待提取文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

将所述任一类簇的类簇向量输入预设的关键词提取模型，以得到所述任一类簇的标准关键词的词向量；其中，所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入，以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成；

分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度，并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词；

根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。

在一种可选的实施方式中，所述将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量最相似的词向量所对应的词语，确定为所述任一类簇的关键词，包括：

分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量的距离；其中，所述距离为余弦距离或欧式距离；

将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量之间的距离最小的词向量所对应的词语，确定为所述任一类簇的关键词。

在一种可选的实施方式中，所述对待提取文本进行分词预处理，以得到所述待提取文本的若干分词结果，包括：

根据预设的词典对所述待提取文本进行分词，以得到若干初步分词结果；

根据预设的停用词表对所述若干初步分词结果进行去停用词，以得到所述待提取文本的若干分词结果。

在一种可选的实施方式中，所述方法还包括：

响应于所述关键词提取模型的生成指令，对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果；

分别将所述标准文本的若干分词结果中的词语转化为词向量；

根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇；其中，所述标准数量为所述标准文本中的标准关键词的数量；

对于所述标准文本的每一标准关键词，确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇，作为所述对应的标准关键词的词向量所属类簇；

将所述标准文本中任一类簇包含的所有词向量进行相加，作为所述标准文本中任一类簇的类簇向量；

通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型，以生成所述关键词提取模型。

在一种可选的实施方式中，所述分别将所述若干分词结果中的词语转化为词向量，包括：

通过预先获取的词向量模型将所述分词结果中的词语转化为词向量；

所述方法还包括：

响应于所述词向量模型的获取指令，获取第二文本语料库；

对所述第二文本语料库进行预处理，其中，所述预处理包括分词和去停用词；

通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练，以得到所述词向量模型。

将所述待提取文本的若干分词结果中的词语转化为具有预设维度的词向量；

所述分别将所述标准文本的若干分词结果中的词语转化为词向量，包括：

将所述标准文本的若干分词结果中的词语转化为具有所述预设维度的词向量。

本发明另一方面还提供一种关键词提取模型生成方法，所述生成方法包括：

对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果；

将所述标准文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型，以生成关键词提取模型。

在一种可选的实施方式中，所述分别将所述标准文本的若干分词结果中的词语转化为词向量，包括：

所述方法还包括：

响应于所述词向量模型的获取指令，获取第二文本语料库；

本发明另一方面还提供一种关键词提取系统，所述系统包括：

第一预处理模块，用于对待提取文本进行分词预处理，以得到所述待提取文本的若干分词结果；

第一转换模块，用于分别将所述若干分词结果中的词语转化为词向量；

第一聚类模块，用于根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇；

第一相加模块，用于将所述待提取文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

第一输入模块，用于将所述任一类簇的类簇向量输入预设的关键词提取模型，以得到所述任一类簇的标准关键词的词向量；其中，所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入，以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成；

关键词确定模块，用于分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度，并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词；

提取模块，用于根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。

本发明另一方面还提供一种关键词提取模型生成系统，所述生成系统包括：

第二预处理模块，用于对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果；

第二转换模块，用于分别将所述标准文本的若干分词结果中的词语转化为词向量；

第二划分模块，用于根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇；其中，所述标准数量为所述标准文本中的标准关键词的数量；

第一匹配模块，用于对于所述标准文本的每一标准关键词，确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇，作为所述对应的标准关键词的词向量所属类簇；

第二相加模块，用于将所述标准文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

训练模块，用于通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型，以生成关键词提取模型。

相对于现有技术，本发明具有如下突出的有益效果：本发明提供了一种关键词提取方法与系统、关键词提取模型生成方法与系统，其中，所述方法通过将非结构化的词语映射到一个词向量空间，便于用词向量空间中的点表示某一特定的词语，克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷，使得该方法提取的关键词是从语义层面获取的，而不是单纯从语法层面获取；通过聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇，即认为每个类簇包含一个关键词；将类簇包含的所有词向量进行相加，以得到类簇的类簇向量，使得类簇向量包含了所有词向量之间的空间关系；将类簇的类簇向量输入预设的关键词提取模型，以得到类簇的标准关键词的词向量，即通过预先搭建的深度神经网络模型对每个类簇进行建模所生成的关键词提取模型获取类簇的标准关键词，通过所有词向量中与类簇的标准关键词的词向量最相似的词向量所对应的词语作为类簇的关键词，从而实现对类簇的关键词的词向量的提取，充分考虑了文本词语之间的语义依赖关系，使得关键词的提取不受限于待提取文本所属领域，具有较强的通用性，克服了传统方法往往只针对特定领域文本的问题，从而通过聚类算法与深度神经网络算法的结合，克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性，提高关键词提取的准确性和客观性。

附图说明

图1是本发明提供的关键词提取方法的第一实施例的流程示意图；

图2是本发明提供的关键词提取系统的第一实施例的结构示意图；

图3是本发明提供的关键词提取模型生成方法的第一实施例的流程示意图；

图4是本发明提供的关键词提取模型生成系统的第一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，其是本发明提供的关键词提取方法的第一实施例的流程示意图，如图1所示，所述方法包括：

步骤S101、对待提取文本进行分词预处理，以得到所述待提取文本的若干分词结果；

步骤S102、分别将所述若干分词结果中的词语转化为词向量；

步骤S103、根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇；

步骤S104、将所述待提取文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

步骤S105、将所述任一类簇的类簇向量输入预设的关键词提取模型，以得到所述任一类簇的标准关键词的词向量；其中，所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入，以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成；

步骤S106、分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度，并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词；

步骤S107、根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词。

需要说明的是，所述标准关键词为所述标准文本中根据人工制定的标准所确定的关键词。所述第一文本语料库包括大量文本数据。

例如，假设所述预设数量为3；根据聚类算法将所述待提取文本的所有词向量划分为3个类簇，则每个类簇包括多个词向量；假设第一个类簇包括词向量1(a1，a2，a3)和词向量2(b1，b2，b3)，则类簇的类簇向量为(a1+b1，a2+b2，a3+b3)；需要说明的是，所述预设数量、类簇包括的词向量个数和词向量的维度仅为示例，本发明不限于该种实施方式。

即通过将非结构化的词语映射到一个词向量空间，便于用词向量空间中的点表示某一特定的词语，克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷，使得该方法提取的关键词是从语义层面获取的，而不是单纯从语法层面获取；通过聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇，即认为每个类簇包含一个关键词；将类簇包含的所有词向量进行相加，以得到类簇的类簇向量，使得类簇向量包含了所有词向量之间的空间关系；将类簇的类簇向量输入预设的关键词提取模型，以得到类簇的标准关键词的词向量，即通过预先搭建的深度神经网络模型对每个类簇进行建模所生成的关键词提取模型获取类簇的标准关键词，通过所有词向量中与类簇的标准关键词的词向量最相似的词向量所对应的词语作为类簇的关键词，从而实现对类簇的关键词的词向量的提取，充分考虑了文本词语之间的语义依赖关系，使得关键词的提取不受限于待提取文本所属领域，具有较强的通用性，克服了传统方法往往只针对特定领域文本的问题，从而通过聚类算法与深度神经网络算法的结合，克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性，提高关键词提取的准确性和客观性。

在一种可选的实施方式中，所述第一文本语料库包括目标领域的大量文本数据；其中，所述目标领域为所述待提取文本所属领域。

在一种可选的实施方式中，所述第一文本语料库的文本数据为目标领域的文本数据。

在一种可选的实施方式中，所述聚类算法为k－means聚类算法。

本发明还提供了一种关键词提取方法的第二实施例，所述方法包括上述关键词提取方法的第一实施例中的步骤S101～S107，还进一步限定了：所述将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量最相似的词向量所对应的词语，确定为所述任一类簇的关键词，包括：

需要说明的是，余弦距离，又称为余弦相似度，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。欧氏距离(欧几里得度量，euclidean metric)是一个常用的距离定义，是指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

即通过向量空间中不同点之间的距离大小来衡量待提取文本的词语与标准关键词之间的相似度，距离越小，词语与标准关键词越相似，简化相似度的计算方法，提高处理效率。

本发明还提供了一种关键词提取方法的第三实施例，所述方法包括上述关键词提取方法的第一实施例中的步骤S101～S107，还进一步限定了，所述对待提取文本进行分词预处理，以得到所述待提取文本的若干分词结果，包括：

需要说明的是，所述停用词表包括若干不具有实质性语义的词语，比如“的”、“了”等)；如果所述若干初步分词结果中包括与停用词表相同的词，则将该词从若干初步分词结果中删除。本实施例所采用的分词技术可以为本领域人员已知的分词技术，如，正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用，或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用，这些分词技术的具体实现方式为本领域技术人员可以获知，此处不再赘述。

在一种可选的实施方式中，所述词典包括现有词典中的词汇和用户自定义词汇。

本发明还提供了一种关键词提取方法的第四实施例，所述方法包括上述关键词提取方法的第一实施例中的步骤S101～S107，还进一步限定了：所述方法还包括：

即通过将非结构化的词语映射到一个词向量空间，便于用词向量空间中的点表示某一特定的词语，克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷，使得该方法提取的关键词是从语义层面获取的，而不是单纯从语法层面获取；通过聚类算法将每一标准文本的所有词向量划分为标准数量的类簇，即认为每个类簇包含一个标准关键词；将类簇包含的所有词向量进行相加，以得到类簇的类簇向量，使得类簇向量包含了所有词向量之间的语义依赖关系；通过第一文本语料库的每一标准文本的类簇的类簇向量与对应的类簇的标准关键词来训练深度神经网络，从而生成关键词提取模型，使得关键词的提取不受限于文本所属领域，具有较强的通用性，克服了传统方法往往只针对特定领域文本的问题，从而通过聚类算法与深度神经网络算法的结合，克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性，从而提高关键词提取的准确性和客观性。

在一种可选的实施方式中，所述响应于所述关键词提取模型的生成指令，对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果，包括：

根据预设的词典对所述标准文本进行分词，以得到所述标准文本的若干初步分词结果；

根据预设的停用词表对所述标准文本的若干初步分词结果进行去停用词，以得到所述标准文本的若干分词结果。

在一种可选的实施方式中，对所述标准文本进行分词所采用的词典与对所述待提取文本进行分词所采用的词典相同；对所述标准文本进行去停用词所采用的停用词表与对所述待提取文本进行去停用词所采用的停用词表相同。

本发明还提供了一种关键词提取方法的第五实施例，所述方法包括上述关键词提取方法的任一实施例中的步骤S101～S107，还进一步限定了：所述分别将所述若干分词结果中的词语转化为词向量，包括：

所述方法还包括：

响应于所述词向量模型的获取指令，获取第二文本语料库；

需要说明的是，所述第二文本语料库包括大量文本数据；所述第二文本语料库的文本数据具有多种文本类型。

在一种可选的实施方式中，所述第二文本语料库包括目标领域的大量文本数据。其中，所述目标领域为所述待提取文本所属领域。

在一种可选的实施方式中，所述第二文本语料库的文本数据为目标领域的文本数据。

本发明还提供了一种关键词提取方法的第六实施例，所述方法包括上述关键词提取方法的第四实施例中的步骤S101～S107，还进一步限定了：所述分别将所述若干分词结果中的词语转化为词向量，包括：

即通过保证待提取文本的词向量与标准文本的词向量维度相同，避免对维度不同的词向量进行处理，从而提高处理效率。

参见图2，其是本发明提供的关键词提取系统的第一实施例的结构示意图，如图2所示，所述系统包括：

第一预处理模块201，用于对待提取文本进行分词预处理，以得到所述待提取文本的若干分词结果；

第一转换模块202，用于分别将所述若干分词结果中的词语转化为词向量；

第一聚类模块203，用于根据聚类算法将所述待提取文本的所有词向量划分为预设数量的类簇；

第一相加模块204，用于将所述待提取文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

第一输入模块205，用于将所述任一类簇的类簇向量输入预设的关键词提取模型，以得到所述任一类簇的标准关键词的词向量；

关键词确定模块206，用于分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度，并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词；

提取模块207，用于根据所述待提取文本的每一类簇的关键词提取所述待提取文本的关键词；

其中，所述关键词提取模型为通过第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入，以及对应的类簇的标准关键词的词向量作为输出训练深度神经网络模型所生成。

在一种可选的实施方式中，所述关键词确定模块包括：

计算单元，用于分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量的距离；其中，所述距离为余弦距离或欧式距离；

确定单元，用于将所述任一类簇的所有词向量中与所述任一类簇的标准关键词的词向量之间的距离最小的词向量所对应的词语，确定为所述任一类簇的关键词。

在一种可选的实施方式中，所述第一预处理模块包括：

第一分词单元，用于根据预设的词典对所述待提取文本进行分词，以得到若干初步分词结果；

第一去停用词单元，用于根据预设的停用词表对所述若干初步分词结果进行去停用词，以得到所述待提取文本的若干分词结果。

在一种可选的实施方式中，所述系统还包括：

第三预处理模块，用于响应于所述关键词提取模型的生成指令，对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果；

第三转化模块，用于分别将所述标准文本的若干分词结果中的词语转化为词向量；

第三聚类模块，用于根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇；其中，所述标准数量为所述标准文本中的标准关键词的数量；

第二匹配模块，用于对于所述标准文本的每一标准关键词，确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇，作为所述对应的标准关键词的词向量所属类簇；

第三相加模块，用于将所述标准文本中任一类簇包含的所有词向量进行相加，作为所述标准文本中任一类簇的类簇向量；

第二训练模块，用于通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型，以生成所述关键词提取模型。

在一种可选的实施方式中，所述第三预处理模块包括：

第二分词单元，用于根据预设的词典对所述标准文本进行分词，以得到所述标准文本的若干初步分词结果；

第二去停用词单元，用于根据预设的停用词表对所述标准文本的若干初步分词结果进行去停用词，以得到所述标准文本的若干分词结果。

在一种可选的实施方式中，所述第三转化模块包括：

第一转化单元，用于通过预先获取的词向量模型将所述分词结果中的词语转化为词向量；

所述系统还包括：

第一获取模块，用于响应于所述词向量模型的获取指令，获取第二文本语料库；

第四预处理模块，用于对所述第二文本语料库进行预处理，其中，所述预处理包括分词和去停用词；

第一训练模块，用于通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练，以得到所述词向量模型。

在一种可选的实施方式中，所述第一转化模块包括：

第二转化单元，用于将所述待提取文本的若干分词结果中的词语转化为具有预设维度的词向量；

所述第三转化模块包括：

第三转化单元，用于将所述标准文本的若干分词结果中的词语转化为具有所述预设维度的词向量。

参见图3，其是本发明提供的关键词提取模型生成方法的第一实施例的流程示意图，如图3所示，所述生成方法包括：

步骤S301、对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果；

步骤S302、分别将所述标准文本的若干分词结果中的词语转化为词向量；

步骤S303、根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇；其中，所述标准数量为所述标准文本中的标准关键词的数量；

步骤S304、对于所述标准文本的每一标准关键词，确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇，作为所述对应的标准关键词的词向量所属类簇；

步骤S305、将所述标准文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

步骤S306、通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型，以生成关键词提取模型。

需要说明的是，所述标准关键词为所述标准文本中根据人工制定的标准所确定的关键词。

即通过将非结构化的词语映射到一个词向量空间，便于用词向量空间中的点表示某一特定的词语，克服了诸如textrank、TFIDF等传统方法无法表示语义的缺陷，使得该方法提取的关键词是从语义层面获取的，而不是单纯从语法层面获取；通过聚类算法将每一标准文本的所有词向量划分为标准数量的类簇，即认为每个类簇包含一个标准关键词；将类簇包含的所有词向量进行相加，以得到类簇的类簇向量，使得类簇向量包含了所有词向量的空间关系；通过第一文本语料库的每一标准文本的类簇的类簇向量与对应的类簇的标准关键词来训练深度神经网络，从而生成关键词提取模型，充分考虑了文本词语之间的语义依赖关系，使得关键词的提取不受限于文本所属领域，具有较强的通用性，克服了传统方法往往只针对特定领域文本的问题，从而通过聚类算法与深度神经网络算法的结合，克服了对词向量单独做聚类运算并取类簇几何中心作为关键词的武断性与局限性，利于提高关键词提取的准确性和客观性。

本发明还提供了一种关键词提取模型生成方法的第二实施例，所述方法包括上述关键词提取模型生成方法的第一实施例中的步骤S301～S306，还进一步限定了：所述分别将所述标准文本的若干分词结果中的词语转化为词向量，包括：

所述方法还包括：

响应于所述词向量模型的获取指令，获取第二文本语料库；

在一种可选的实施方式中，所述对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果，包括：

参见图4，其是本发明提供的关键词提取模型生成系统的第一实施例的结构示意图，如图4所示，所述生成系统包括：

第二预处理模块401，用于对第一文本语料库中的每一标准文本的进行分词预处理，以得到每一标准文本的若干分词结果；

第二转换模块402，用于分别将所述标准文本的若干分词结果中的词语转化为词向量；

第二划分模块403，用于根据聚类算法将所述标准文本的所有词向量划分为标准数量的类簇；其中，所述标准数量为所述标准文本中的标准关键词的数量；

第一匹配模块404，用于对于所述标准文本的每一标准关键词，确定所述标准文本的所有词向量中与对应的标准关键词的词向量最相似的词向量所属类簇，作为所述对应的标准关键词的词向量所属类簇；

第二相加模块405，用于将所述标准文本中任一类簇包含的所有词向量进行相加，作为所述任一类簇的类簇向量；

训练模块406，用于通过所述第一文本语料库中的每一标准文本的每一类簇的类簇向量作为输入以及对应的类簇的标准关键词的词向量作为输出训练所述深度神经网络模型，以生成关键词提取模型。

在一种可选的实施方式中，所述第二转换模块包括：

第四转化单元，用于通过预先获取的词向量模型将所述分词结果中的词语转化为词向量；

所述系统还包括：

第二获取模块，用于响应于所述词向量模型的获取指令，获取第二文本语料库；

第五预处理模块，用于对所述第二文本语料库进行预处理，其中，所述预处理包括分词和去停用词；

第三训练模块，用于通过word2vec算法对预处理后的所述第二文本语料库的数据进行训练，以得到所述词向量模型。

在一种可选的实施方式中，所述第二预处理模块包括：

第三分词单元，用于根据预设的词典对所述标准文本进行分词，以得到所述标准文本的若干初步分词结果；

第三去停用词单元，用于根据预设的停用词表对所述标准文本的若干初步分词结果进行去停用词，以得到所述标准文本的若干分词结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

需说明的是，以上所描述的装置或系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种关键词提取方法，其特征在于，包括：

分别将所述若干分词结果中的词语转化为词向量；

2.如权利要求1所述的关键词提取方法，其特征在于，所述分别计算所述任一类簇的每一词向量与所述任一类簇的标准关键词的词向量之间的相似度，并将所述任一类簇的所有词向量中的所述相似度最高的词向量对应的词语确定为所述任一类簇的关键词，包括：

3.如权利要求1所述的关键词提取方法，其特征在于，所述对待提取文本进行分词预处理，以得到所述待提取文本的若干分词结果，包括：

4.如权利要求1所述的关键词提取方法，其特征在于，所述方法还包括：

5.如权利要求1－4任一项所述的关键词提取方法，其特征在于，所述分别将所述若干分词结果中的词语转化为词向量，包括：

所述方法还包括：

响应于所述词向量模型的获取指令，获取第二文本语料库；

6.如权利要求4所述的关键词提取方法，其特征在于，所述分别将所述若干分词结果中的词语转化为词向量，包括：

7.一种关键词提取模型生成方法，其特征在于，包括：

8.如权利要求7所述的关键词提取模型生成方法，其特征在于，所述分别将所述标准文本的若干分词结果中的词语转化为词向量，包括：

所述方法还包括：

响应于所述词向量模型的获取指令，获取第二文本语料库；

9.一种关键词提取系统，其特征在于，包括：

10.一种关键词提取模型生成系统，其特征在于，包括：