CN112395875A

CN112395875A - 一种关键词提取方法、装置、终端以及存储介质

Info

Publication number: CN112395875A
Application number: CN202011290289.7A
Authority: CN
Inventors: 张炜
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-23

Abstract

本申请适用于计算机技术领域，提供了一种关键词提取方法、关键词提取装置、关键词提取终端及存储介质，包括：获取目标文本中的多个关键词；将多个关键词以及目标文本输入到已训练的相关性模型中处理，得到每个关键词与目标文本之间的相关程度值；基于每个关键词对应的相关程度值，确定目标文本对应的目标关键词。上述方式中，关键词提取终端基于相关性模型确定多个关键词分别与目标文本之间的相关程度值，基于相关程度值确定目标关键词，保证了筛选出来的关键词与目标文本的相关性高，使提取到的目标关键词非常准确，进而提升了关键词提取的准确率。

Description

一种关键词提取方法、装置、终端以及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种关键词提取方法、关键词提取装置、关键词提取终端以及存储介质。

背景技术

随着信息技术的快速发展，各个领域的文本信息呈爆炸式增长，如何从这些大规模的文本信息中快速准确地获取所需信息非常重要。关键词提取就是解决上述问题得有效手段，其在文本挖掘领域研究中起着非常重要的作用。

其中，关键词提取又称主题词提取，是自然语言处理中一个技术难度较大的领域。现有的关键词提取方法主要有词频-逆文档法(Term Frequency-Inverse DocumentFrequency，TF-IDF)、textrank算法等。然而，这些关键词提取方法对关键词的选择比较单一，容易遗漏重要的关键词，且无法保证筛选出来的词与原文的相关性，导致提取到的关键词不准确。

发明内容

有鉴于此，本申请实施例提供了一种关键词提取方法、关键词提取装置、关键词提取终端以及存储介质，以解决传统的关键词提取方法提取到的关键词不准确的问题。

本申请实施例的第一方面提供了一种关键词提取方法，包括：

获取目标文本中的多个关键词；

将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理，得到每个关键词与所述目标文本之间的相关程度值；所述相关性模型是基于初始相关性网络对训练样本集以及测试样本集进行训练得到；

基于每个关键词对应的相关程度值，确定所述目标文本对应的目标关键词。

本申请实施例，关键词提取终端获取目标文本中的多个关键词，基于已训练的相关性模型确定每个关键词与目标文本之间的相关程度值，基于每个关键词对应的相关程度值，确定目标文本对应的目标关键词。上述方式中，关键词提取终端预先提取出目标文本中的多个关键词，再基于相关性模型确定这些关键词分别与目标文本之间的相关程度值，选择与目标文本相关程度高的关键词作为目标关键词。其中，预先选取多个关键词保证了选取到的关键词丰富多样，不容易遗漏重要的关键词；基于相关程度值确定目标关键词保证了筛选出来的关键词与目标文本的相关性高，使提取到的目标关键词非常准确，进而提升了关键词提取的准确率。

可选地，将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理，得到每个关键词与所述目标文本之间的相关程度值，包括：

基于所述相关性模型获取每个关键词对应的词向量以及所述目标文本对应的语义向量；

确定每个词向量与所述语义向量之间的余弦相似度；

对每个余弦相似度进行归一化处理，得到每个关键词与所述目标文本之间的相关程度值。

可选地，所述获取目标文本中的多个关键词，包括：

获取所述目标文本中的初始关键词；

对所述初始关键词进行去重处理，得到所述多个关键词。

可选地，所述将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理，得到每个关键词与所述目标文本之间的相关程度值之前，所述关键词提取方法还包括：

获取所述训练样本集以及所述测试样本集；

将所述训练样本集输入所述初始相关性网络中进行训练；

当训练次数达到预设阈值时，将所述测试样本集输入训练中的初始相关性网络中进行处理，所述训练中的初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值；

根据每个测试关键词对应的相关程度值，确定所述训练中的初始相关性网络对应的准确率；

当所述训练中的初始相关性网络的损失函数以及所述准确率均收敛时，得到所述已训练的相关性模型。

可选地，所述训练样本集中包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本，所述将所述训练样本集输入所述初始相关性网络中进行训练，包括：

获取每个样本关键词对应的样本词向量，获取所述相关文本对应的第一文本向量，以及获取所述不相关文本对应的第二文本向量；

确定每个样本词向量与所述第一文本向量之间的第一余弦相似度，以及确定每个样本词向量与所述第二文本向量之间的第二余弦相似度；

对每个第一余弦相似度以及每个第二余弦相似度分别进行归一化处理，得到每个样本关键词与所述相关文本之间的第一相关程度值，以及得到每个样本关键词与所述不相关文本之间的第二相关程度值。

可选地，所述基于每个关键词对应的相关程度值，确定所述目标文本对应的目标关键词之后，所述关键词提取方法还包括：

将所述目标文本对应的目标关键词以及所述目标文本上传至区块链中。

本申请实施例的第二方面提供了一种关键词提取装置，包括：

获取单元，用于获取目标文本中的多个关键词；

处理单元，用于将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理，得到每个关键词与所述目标文本之间的相关程度值；所述相关性模型是基于初始相关性网络对训练样本集以及测试样本集进行训练得到；

确定单元，用于基于每个关键词对应的相关程度值，确定所述目标文本对应的目标关键词。

可选地，所述处理单元具体用于：

确定每个词向量与所述语义向量之间的余弦相似度；

可选地，所述获取单元具体用于：

获取所述目标文本中的初始关键词；

对所述初始关键词进行去重处理，得到所述多个关键词。

可选地，所述关键词提取装置还包括：

样本获取单元，用于获取所述训练样本集以及所述测试样本集；

训练单元，用于将所述训练样本集输入所述初始相关性网络中进行训练；

测试单元，用于当训练次数达到预设阈值时，将所述测试样本集输入训练中的初始相关性网络中进行处理，所述训练中的初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值；

准确率确定单元，用于根据每个测试关键词对应的相关程度值，确定所述训练中的初始相关性网络对应的准确率；

生成单元，用于当所述训练中的初始相关性网络的损失函数以及所述准确率均收敛时，得到所述已训练的相关性模型。

可选地，所述训练样本集中包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本，所述训练单元具体用于：

可选地，所述关键词提取装置还包括：

上传单元，用于将所述目标文本对应的目标关键词以及所述目标文本上传至区块链中。

本申请实施例的第三方面提供了一种关键词提取终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的关键词提取方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的关键词提取方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在关键词提取终端上运行时，使得关键词提取终端执行上述第一方面所述的关键词提取方法的步骤。

本申请实施例提供的一种关键词提取方法、关键词提取装置、关键词提取终端以及存储介质，具有以下有益效果：

在本申请提供的关键词提取方法中，关键词提取终端获取目标文本中的多个关键词，基于已训练的相关性模型确定每个关键词与目标文本之间的相关程度值，基于每个关键词对应的相关程度值，确定目标文本对应的目标关键词。上述方式中，关键词提取终端预先提取出目标文本中的多个关键词，再基于相关性模型确定这些关键词分别与目标文本之间的相关程度值，选择与目标文本相关程度高的关键词作为目标关键词。其中，预先选取多个关键词保证了选取到的关键词丰富多样，不容易遗漏重要的关键词；基于相关程度值确定目标关键词保证了筛选出来的关键词与目标文本的相关性高，使提取到的目标关键词非常准确，进而提升了关键词提取的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种关键词提取方法的示意流程图；

图2是本申请又一实施例提供的关键词提取方法的示意性流程图；

图3是本申请再一实施例提供的关键词提取方法的示意性流程图；

图4是本申请又一实施例提供的关键词提取方法的示意性流程图；

图5是本申请一实施例提供的一种关键词提取装置的示意图；

图6是本申请另一实施例提供的一种关键词提取终端的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

现有技术中，经常通过有词频-逆文档法(Term Frequency-Inverse DocumentFrequency，TF-IDF)、textrank算法等提取文章中的关键词。然而，这些关键词提取方法对关键词的选择比较单一，容易遗漏重要的关键词，且无法保证筛选出来的词与原文的相关性，导致提取到的关键词不准确。

有鉴于此，本申请提供了一种关键词提取方法，该方法中，关键词提取终端获取目标文本中的多个关键词，基于已训练的相关性模型确定每个关键词与目标文本之间的相关程度值，基于每个关键词对应的相关程度值，确定目标文本对应的目标关键词。上述方式中，关键词提取终端预先提取出目标文本中的多个关键词，再基于相关性模型确定这些关键词分别与目标文本之间的相关程度值，选择与目标文本相关程度高的关键词作为目标关键词。其中，预先选取多个关键词保证了选取到的关键词丰富多样，不容易遗漏重要的关键词；基于相关程度值确定目标关键词保证了筛选出来的关键词与目标文本的相关性高，使提取到的目标关键词非常准确，进而提升了关键词提取的准确率。

请参见图1，图1是本申请实施例提供的一种关键词提取方法的示意流程图。本实施例中关键词提取方法的执行主体为关键词提取终端，关键词提取终端包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、独立的服务器、分布式服务器、服务器集群或云服务器等，还可以包括台式电脑等终端。如图1所示的关键词提取方法可包括S101～S103，各个步骤的具体实现原理如下。

S101：获取目标文本中的多个关键词。

关键词提取终端获取目标文本中的多个关键词。具体地，关键词提取终端采用预设方法提取目标文本中的初始关键词，对初始关键词进行去重处理，得到多个关键词。其中，预设方法为提取关键词的方法，该预设方法中可包括多种提取关键词的方法。例如，预设方法可以包括词频-逆文档法(Term Frequency-Inverse Document Frequency，TF-IDF)、textrank算法、主题模型算法(Topic Model)等。此处仅为示例性说明，对此不做限定，即任意哪种提取关键词的方法均可。

关键词提取终端采用多种提取关键词的方法分别对目标文本进行关键词提取，得到多组关键词。即通过第一种提取关键词的方法对目标文本进行关键词提取，可得到第一组关键词；再通过第二种提取关键词的方法对目标文本进行关键词提取，可得到第二组关键词，以此类推，得到多组目标文本对应的关键词。这些多组关键词也就是目标文本对应的初始关键词。对这些初始关键词进行去重处理，即可得到目标文本中的多个关键词。

值得说明的是，关键词提取终端可采用预设方法中的所有提取关键词的方法分别对目标文本进行关键词提取，也可选取预设方法中的部分提取关键词的方法分别对目标文本进行关键词提取，对此不做限定。可以理解的是，采用的提取关键词的方法越多，提取到的关键词越丰富多样、全面，越不容易遗漏关键词。

以TF-IDF为例进行说明，TF表示词频，即一个词在目标文本中出现的次数；IDF表示逆文档频率，用于在词频的基础上给每个词分配一个重要性权重，它的大小与一个词的常见程度成反比。将词频与逆文档频率的值相乘，得到一个词的TF-IDF值，该词的TF-IDF值表示该词对目标文本的重要性，TF-IDF值越大表示该词对目标文本越重要。将TF-IDF值排在最前面的几个词作为目标文本的关键词。

具体地，关键词提取终端先对目标文本进行分词处理，得到目标文本对应的若干分词结果，进而可通过下述表达式计算每个分词对应的词频。

“词频(TF)＝某个词在目标文本的出现次数/目标文本的总词数”或“词频(TF)＝某个词在目标文本中的出现次数/该目标文本出现次数最多的词的出现次数”。

通过“逆文档频率(IDF)＝log(语料库的文本总数/包含该词的文本数+1)”计算逆文档频率(IDF)；其中，分母加1是为了避免所有文本都不包含该词导致分母为0的情况出现，log表示对得到的值取对数；若一个词越常见，则分母越大，逆文档频率就越小越接近0。通过“TF-IDF＝词频(TF)*逆文档频率(IDF)”计算该词的TF-IDF值，即该词对目标文本的重要性。计算得到每个词对应的TF-IDF值后，对TF-IDF值进行降序排列，取排在最前面的几个词作为该目标文本的关键词。即得到以TF-IDF对目标文本处理后的一组关键词。关键词提取终通过多种提取关键词的方法对目标文本进行关键词提取，得到初始关键词。对这些初始关键词进行去重处理，即可得到目标文本中的多个关键词。

在本实施方式中，关键词提取终端通过多种提取关键词的方法对目标文本进行关键词提取，可保证提取到的目标文本对应的关键词丰富多样、全面，避免遗漏重要的关键词。

请参见图2，图2是本申请又一实施例提供的关键词提取方法的示意性流程图，可选地，在一种可能的实现方式中，如图2所示，上述S101可以包括S1011～S1012，具体如下：

S1011：获取所述目标文本中的初始关键词。

关键词提取终端采用预设方法提取目标文本中的初始关键词。初始关键词为通过预设方法提取到目标文本中的所有关键词。示例性地，预设方法可以包括TF-IDF、textrank算法、Topic Model等。具体地提取方法可参考上面的描述，此处不再赘述。

S1012：对所述初始关键词进行去重处理，得到所述多个关键词。

关键词提取终端可对初始关键词进行去重处理、关键词融合处理等，进而在初始关键词中挑选出多个关键词。以关键词融合处理为例进行说明，将所有关键词(即初始关键词)进行相互比较，筛选出其中相同的关键词，将所有相同的关键词融合为一个关键词，融合后的关键词即为多个关键词中的一个。

示例性地，也可以将所有关键词(即初始关键词)相互进行比较，筛选出其中相同的关键词，对于每一组相同的关键词，保留其中任意一个关键词并作为多个关键词中的一个，删除该组中的其他关键词。也可以将所有关键词相互进行比较，筛选出其中相似度高于预设阈值的关键词，对于每一组相似度高于预设阈值的关键词，保留其中任意一个关键词并作为多个关键词中的一个，删除该组中的其他关键词。其中，预设阈值可预先设定，用于判断关键词之间是否相似度很高，若计算得到的相似度大于或等于预设阈值，则判定关键词之间相似度很高；若计算得到的相似度小于预设阈值，则判定关键词之间相似度不高。

示例性地，可以采用编辑距离算法和N元模型(N-Gram)算法计算关键词之间的相似度；也可以对要进行比较的关键词分别进行音形码编码，并对进行音形码编码后的信息计算相似度，得到关键词之间的相似度。

可选地，在一种可能的实现方式中，还可以对初始关键词进行词性过滤。例如，可以先删除初始关键词中的形容词、副词等，再进行去重处理、关键词融合处理等，最终得到多个关键词。

由于预先采用了多种提取关键词的方法在目标文本中提取初始关键词，难免会出现提取到相同或非常相近的关键词，在本实施方式中，预先对初始关键词进行了筛选(去重处理、词性过滤、关键词融合处理等)，可避免后续关键词提取终端需要频繁计算相同的关键词与目标文本之间的相关程度值，提升了确定目标关键词的速率，合理利用资源。

S102：将多个关键词以及目标文本输入到已训练的相关性模型中处理，得到每个关键词与该目标文本之间的相关程度值；该相关性模型是基于初始相关性网络对训练样本集以及测试样本集进行训练得到。

在本实施例中，关键词提取终端中预先存储有预先训练好的相关性模型。该相关性模型是使用机器学习算法，基于初始相关性网络对训练样本集以及测试样本集进行训练得到。可以理解的是，该相关性模型可以由关键词提取终端预先训练好，也可以由其他设备预先训练好后将该相关性模型对应的文件移植至关键词提取终端中。也就是说，训练该相关性模型的执行主体与使用该相关性模型的执行主体可以是相同的，也可以是不同的。

关键词提取终端将目标文本输入到已训练的相关性模型中，同时将获取到的多个关键词依次输入到已训练的相关性模型中；该相关性模型将这些关键词以及目标文本转换为其各自对应的向量，并确定每个关键词对应的向量与目标文本对应的向量之间的余弦相似度；再基于每个关键词对应的余弦相似度确定每个关键词与目标文本之间的相关程度值。

如图3所示，图3是本申请再一实施例提供的关键词提取方法的示意性流程图，可选地，在一种可能的实现方式中，上述S102可包括S1021～S1023，具体如下：

S1021：基于所述相关性模型获取每个关键词对应的词向量以及目标文本对应的语义向量。

示例性地，可先对目标文本进行预处理，该预处理包括去除目标文本中的标点、数字、停用词等，对经过预处理的目标文本进行分词处理，得到目标文本对应的多个分词。可选地，还可对多个分词进行词性过滤。已训练的相关性模型对多个分词分别进行向量转换，得到每个分词对应的向量，对这些向量进行累加，得到目标文本对应的语义向量。同时，已训练的相关性模型将每个关键词转换为其对应的词向量。

示例性地，以对任一关键词的处理为例进行说明。已训练的相关性模型中可包括输入层、多个隐藏层、多个全连接层、输出层。可先通过语言表征模型(BidirectionalEncoder Representations from Transformers，BERT)将该关键词转换为768维向量，将该768维向量输入至输入层，相关性模型中的隐藏层对该768维向量进行映射以及降维处理。例如，第一个隐藏层可将768维降到400维，第二个隐藏层可将400维降到64维，此处仅为示例性说明，对此不做限定。全连接层对降维后的向量进行特征提取，而后将结果传递至输出层，输出层输出该关键词对应的词向量。同理，对其他的关键词也进行该处理，得到每个关键词对应的词向量。其中，隐藏层为若干个非线性投影函数，其用到的激活函数可以为tanh函数、Relu函数等。

示例性地，以对目标文本的处理为例进行说明。对目标文本进行预处理，对经过预处理的目标文本进行分词处理，得到目标文本对应的多个分词。通过BERT模型将每个分词转换为其对应的768维向量，将这些768维向量输入至输入层，相关性模型中的隐藏层对该768维向量进行映射以及降维处理，得到每个分词对应的64维向量。多个全连接层依次对这些64维向量进行语义特征提取，并将提取到的每个分词对应的语义特征进行累加，得到目标文本对应的语义向量。

S1022：确定每个词向量与语义向量之间的余弦相似度。

关键词提取终端确定每个词向量与目标文本对应的语义向量之间的余弦相似度。具体地，可采用预设公式计算每个词向量与语义向量之间的余弦相似度，预设公式如下：

上述(1)式中，R(Q,D)表示某一词向量与语义向量之间的余弦相似度，y_Q表示词向量，y_D表示语义向量。

S1023：对每个余弦相似度进行归一化处理，得到每个关键词与目标文本之间的相关程度值。

通过S1022可得到每个词向量对应的余弦相似度，对每个余弦相似度进行归一化处理，可得到每个关键词与目标文本之间的相关程度值。示例性地，对每个余弦相似度进行softmax逻辑回归，使余弦相似度的值落入[0，1]中，即得到每个关键词与目标文本之间的相关程度值。其中，相关程度值越大，表示该关键词与目标文本相关程度越高；相关程度值越小，表示该关键词与该目标文本相关程度越低。

S103：基于每个关键词对应的相关程度值，确定所述目标文本对应的目标关键词。

基于每个关键词对应的相关程度值的大小对所有关键词进行排序，基于排序结果在其中挑选若干个关键词作为目标文本对应的目标关键词。例如，基于每个关键词对应的相关程度值，从大到小对所有关键词进行排序，选取排序位置靠前的若干个关键词作为目标文本对应的目标关键词。或者，基于每个关键词对应的相关程度值，从小到大对所有关键词进行排序，选取排序位置靠后的若干个关键词作为目标文本对应的目标关键词。对于目标文本对应的目标关键词的数量不做限定，可根据实际情况进行调整。例如，对于目标文本篇幅较长的，可多选择几个目标关键词，对于目标文本篇幅较短的，可少选择几个目标关键词。

本申请实施例中，关键词提取终端预先提取出目标文本中的多个关键词，再基于相关性模型确定这些关键词分别与目标文本之间的相关程度值，选择与目标文本相关程度高的关键词作为目标关键词。其中，预先选取多个关键词保证了选取到的关键词丰富多样，不容易遗漏重要的关键词；基于相关程度值确定目标关键词保证了筛选出来的关键词与目标文本的相关性高，使提取到的目标关键词非常准确，进而提升了关键词提取的准确率。

如图4所示，图4是本申请又一实施例提供的关键词提取方法的示意性流程图，可选地，在一种可能的实现方式中，如图4所示的关键词提取方法可包括S201～S208。其中，图4所示的步骤S206～S208可以参考上述对S101～S103的相关描述，为了简洁，这里不再赘述。下面将具体对步骤S201～S205进行说明。

S201：获取训练样本集以及测试样本集。

可预先在各个数据库、各大网站挑选数据，组成训练样本集以及测试样本集，并将训练样本集以及测试样本集存储至数据库或者服务器中。关键词提取终端可在数据库或者服务器中获取训练样本集以及测试样本，也可以是开发人员将训练样本集以及测试样本上传至关键词提取终端，对此不做限定。

训练样本集中包括多组训练样本，每组训练样本包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本；测试样本集中包括多组测试样本，每组测试样本包括多个测试关键词，以及多个测试关键词共同对应的测试文本。其中，与每个样本关键词对应的相关文本是指，这些样本关键词与该相关文本的相关程度很高，通过这些样本关键词可直接检索到该相关文本；与每个样本关键词对应的不相关文本是指，这些样本关键词与该不相关文本的相关程度很低，可以理解为这些样本关键词与该不相关文本没什么关系；多个测试关键词共同对应的测试文本是指，在该组测试样本中，这些测试关键词就是该测试文本对应的目标关键词。

S202：将训练样本集输入初始相关性网络中进行训练。

训练样本集中包括多组训练样本，每组训练样本包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本。针对一组训练样本，初始相关性网络确定该组训练样本中每个样本关键词与相关文本之间的相关程度值，以及确定该组训练样本中每个样本关键词与不相关文本之间的相关程度值。同理，初始相关性网络对训练样本集中的多组训练样本都进行上述处理。

可选地，在一种可能的实现方式中，上述S202可包括：S2021～S2023，具体如下：

S2021：获取每个样本关键词对应的样本词向量，获取该相关文本对应的第一文本向量，以及获取该不相关文本对应的第二文本向量。

初始相关性网络与已训练的相关性模型中的网络结构类似，基于初始相关性网络获取每个样本关键词对应的样本词向量，以及基于初始相关性网络获取相关文本对应的第一文本向量、不相关文本对应的第二文本向量的具体过程，与通过相关性模型获取每个关键词对应的词向量，以及获取所述目标文本对应的语义向量的过程类似，此处不再赘述。

值得说明的是，针对每组训练样本，该组训练样本中包含几个不相关文本，初始相关性网络就获取几个第二文本向量。例如，某组训练样本中包含若干个样本关键词、一个相关文本、四个不相关文本，初始相关性网络获取每个样本关键词对应的样本词向量，获取该相关文本对应的第一文本向量，获取这四个不相关文本各自对应的第二文本向量。

S2022：确定每个样本词向量与第一文本向量之间的第一余弦相似度，以及确定每个样本词向量与第二文本向量之间的第二余弦相似度。

确定每个样本词向量与第一文本向量之间的第一余弦相似度，以及确定每个样本词向量与第二文本向量之间的第二余弦相似度的具体过程，与确定每个词向量与语义向量之间的余弦相似度的过程类似，此处不再赘述。

值得说明的是，针对每组训练样本，该组训练样本中包含几个不相关文本，分别确定每个样本关键词与每个不相关文本之间的第二余弦相似度。例如，某组训练样本中包含若干个样本关键词、一个相关文本、四个不相关文本，经过S2021可得到每个样本关键词对应的样本词向量，该相关文本对应的第一文本向量，这四个不相关文本各自对应的第二文本向量。关键词提取终端确定每个样本词向量与第一文本向量之间的第一余弦相似度，确定每个样本词向量与每个第二文本向量之间的第二余弦相似度。

S2023：对每个第一余弦相似度以及每个第二余弦相似度分别进行归一化处理，得到每个样本关键词与相关文本之间的第一相关程度值，以及得到每个样本关键词与不相关文本之间的第二相关程度值。

对每个第一余弦相似度进行归一化处理，得到每个样本关键词与相关文本之间的第一相关程度值，对每个第二余弦相似度进行归一化处理，得到每个样本关键词与不相关文本之间的第二相关程度值的具体过程，与上述对每个余弦相似度进行归一化处理，得到每个关键词与目标文本之间的相关程度值的过程类似，此处不再赘述。

值得说明的是，针对每组训练样本，该组训练样本中包含几个不相关文本，确定每个样本关键词与每个不相关文本之间对应的第二相关程度值。

S203：当训练次数达到预设阈值时，将测试样本集输入训练中的初始相关性网络中进行处理，训练中的初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值。

预设阈值为用户设置的初始相关性网络训练的次数，用户可根据实际情况设置，对此不做限定。当初始相关性网络训练次数达到预设阈值时，将测试样本集输入训练中的初始相关性网络中进行处理，训练中的初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值。

其中，测试样本集中包括多组测试样本，每组测试样本包括多个测试关键词，以及多个测试关键词共同对应的测试文本。测试关键词对应的相关程度值用于表示该测试关键词与测试文本之间的相关程度。

针对一组测试样本中的一个测试关键词，初始相关性网络获取该测试关键词对应的向量，以及获取测试文本对应的向量，并基于两者的向量计算两者之间的余弦相似度，对该余弦相似度进行归一化处理，得到该测试关键词与测试文本之间的相关程度值。同理，初始相关性网络对每个测试关键词都进行上述处理。具体的过程可参考相关性模型对多个关键词以及目标文本的处理过程，此处不再赘述。

S204：根据每个测试关键词对应的相关程度值，确定训练中的初始相关性网络对应的准确率。

测试样本中的多个测试关键词都是与测试文本高度相关的，当初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值越高时，证明此时初始相关性网络训练的符合要求了。可以理解为，原本测试样本集中的测试关键词就是与测试文本高度相关的，初始相关性网络输出的结果也能表示测试关键词与测试文本高度相关，那么此时训练中的初始相关性网络训练的符合预期要求了。

示例性地，可预先设置一个相关程度阈值，当输出的测试关键词对应的相关程度值大于或等于该相关程度阈值时，记为判断准确；当当输出的测试关键词对应的相关程度值小于该相关程度阈值时，记为判断错误。当对测试样本集中的所有测试关键词都进行判断后，根据所有的判断结果计算训练中的初始相关性网络对应的准确率。

值得说明的是，相关性模型的训练过程是反复进行的，直至训练出最优的相关性模型(测试结果准确率达标的相关性模型)。即每当训练次数到达一次预设阈值时，便进行一次测试，若测试结果没有达标，继续进行训练，直至训练出测试结果准确率达标的相关性模型。

S205：当训练中的初始相关性网络的损失函数以及准确率均收敛时，得到已训练的相关性模型。

损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。准确率指训练中的相关性模型输出结果对应的准确度。

在本实施例中，训练相关性模型的过程中，采用的损失函数可以为0-1损失函数，绝对值损失函数，对数损失函数，指数损失函数、交叉熵损失函数、铰链损失函数等，也可以通过极大似然估计方法最小化损失函数。当损失函数以及准确率均收敛时，确定相关性模型已经训练完成，这样可以防止过拟合，使得训练出的相关性模型更准确。当损失函数以及准确率有一个未收敛时，调整初始相关性网络中的网络参数，返回上述训练过程，通过调整参数后的初始相关性网络继续对训练样本集以及测试样本集进行训练，直至损失函数以及准确率均收敛。

在本实施例中，训练相关性模型时，并未采用传统的字或词作为输入，而是对输入的关键词、文本等进行了向量化处理，将向量化处理后的信息作为输入，提高了训练相关性模型的效率，降低了训练成本。且相关程度值的计算使用了有监督的端到端的相关性模型，解决了传统关键词匹配无法解决语义相关的问题。另外，在训练过程中获取样本关键词时，使用无监督的方法进行样本关键词抽取，无须事先进行样本标注，因而实施成本较低，具有较好的实用性。

可选地，在一种可能的实现方式中，在步骤S103之后、或在步骤S208之后，还可包括：将目标文本对应的目标关键词以及目标文本上传至区块链中。

在本实施例中，将目标文本对应的目标关键词以及目标文本上传至区块链中可保证其安全性和对用户的公正透明性。且将目标文本对应的目标关键词以及目标文本上传至区块链中，借助区块链上文件无法随意篡改的特性，能够避免目标文本对应的目标关键词以及目标文本被恶意篡改，保证目标文本对应的目标关键词以及目标文本的稳定性和完整性。便于后续根据这些目标关键词准确定位目标文本。

可选地，还可将已训练的相关性模型上传至区块链中，可保证其安全性和对用户的公正透明性。借助区块链上文件无法随意篡改的特性，能够避免已训练的相关性模型的网络参数被恶意篡改，进而保证使用该相关性模型确定的目标文本对应的目标关键词一直都是准确的。

本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参见图5，图5是本申请一实施例提供的一种关键词提取装置的示意图。该关键词提取装置包括的各单元用于执行图1、图2、图3、图4对应的实施例中的各步骤。具体请参阅图1、图2、图3、图4各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图5，包括：

获取单元310，用于获取目标文本中的多个关键词；

处理单元320，用于将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理，得到每个关键词与所述目标文本之间的相关程度值；所述相关性模型是基于初始相关性网络对训练样本集以及测试样本集进行训练得到；

确定单元330，用于基于每个关键词对应的相关程度值，确定所述目标文本对应的目标关键词。

可选地，所述处理单元320具体用于：

确定每个词向量与所述语义向量之间的余弦相似度；

可选地，所述获取单元具体用于：

获取所述目标文本中的初始关键词；

对所述初始关键词进行去重处理，得到所述多个关键词。

可选地，所述关键词提取装置还包括：

请参见图6，图6是本申请另一实施例提供的一种关键词提取终端的示意图。如图6所示，该实施例的关键词提取终端4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42。所述处理器40执行所述计算机可读指令42时实现上述各个处理关键词提取方法实施例中的步骤，例如图1所示的S101至S103。或者，所述处理器40执行所述计算机可读指令42时实现上述各实施例中各单元的功能，例如图5所示单元310至330功能。

示例性地，所述计算机可读指令42可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器41中，并由所述处理器40执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令42在所述关键词提取终端4中的执行过程。例如，所述计算机可读指令42可以被分割为获取单元、处理单元以及确定单元，各单元具体功能如上所述。

所述关键词提取终端可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图6仅仅是关键词提取终端4的示例，并不构成对关键词提取终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述关键词提取终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述关键词提取终端的内部存储单元，例如关键词提取终端的硬盘或内存。所述存储器41也可以是所述关键词提取终端的外部存储终端，例如该关键词提取终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括关键词提取终端的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机可读指令以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围，均应包含在本申请的保护范围之内。

Claims

1.一种关键词提取方法，其特征在于，包括：

获取目标文本中的多个关键词；

2.如权利要求1所述的关键词提取方法，其特征在于，将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理，得到每个关键词与所述目标文本之间的相关程度值，包括：

确定每个词向量与所述语义向量之间的余弦相似度；

3.如权利要求1所述的关键词提取方法，其特征在于，所述获取目标文本中的多个关键词，包括：

获取所述目标文本中的初始关键词；

对所述初始关键词进行去重处理，得到所述多个关键词。

4.如权利要求1至3任一项所述的关键词提取方法，其特征在于，所述将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理，得到每个关键词与所述目标文本之间的相关程度值之前，所述关键词提取方法还包括：

获取所述训练样本集以及所述测试样本集；

将所述训练样本集输入所述初始相关性网络中进行训练；

5.如权利要求4所述的关键词提取方法，其特征在于，所述训练样本集中包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本，所述将所述训练样本集输入所述初始相关性网络中进行训练，包括：

6.如权利要求1所述的关键词提取方法，其特征在于，所述基于每个关键词对应的相关程度值，确定所述目标文本对应的目标关键词之后，所述关键词提取方法还包括：

7.一种关键词提取装置，其特征在于，包括：

获取单元，用于获取目标文本中的多个关键词；

8.如权利要求7所述的关键词提取装置，其特征在于，所述处理单元具体用于：

确定每个词向量与所述语义向量之间的余弦相似度；

9.一种关键词提取终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。