CN110110330B

CN110110330B - 基于文本的关键词提取方法和计算机设备

Info

Publication number: CN110110330B
Application number: CN201910360872.1A
Authority: CN
Inventors: 李钊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-08-11
Anticipated expiration: 2039-04-30
Also published as: CN110110330A

Abstract

本申请公开了一种基于文本的关键词提取方法和计算机设备，属于人工智能技术领域，用于高效的挖掘文本中的关键词。该方法采用了Seq2seq网络结构。该网络结构包括编码器和解码器以及具有注意力机制的神经网络模块对编码器的输出结果进行调整。该方法中将整个文本作为输入，使得神经网络能够了解文本的上下文信息。由于无需提取特征向量，免去了TextRank中从文本中抽象出特征的麻烦。由于无需主观的进行特征抽象，故此实现相对简单，关键词的提取在长文本和短文本中均适用，效果也比较稳定。此外，该方法输出的是向量而不是关键词，具有很好的泛化能力。进一步外，通过引入注意力机制，能够使得关键词挖掘更为准确。

Description

基于文本的关键词提取方法和计算机设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种基于文本的关键词提取方法和计算机设备。

背景技术

为了便于理解和检索，通常用一些关键词来表达文本的含义。由于不同词语表达语义的能力不同，故此不同词语对文本主旨的体现程度也不同。如何提取能够表达文本主旨的关键词是自然语言处理领域一个重要课题。同时关键词的提取，也广泛应用在内容推荐，语义搜索等领域。

相关技术中用于刻画词语重要程度的指标有TF-IDF(term frequency–inversedocument frequency，词频)，textRank(自动文摘算法)、分类等方法。其中，TF-IDF，基于对文档频率加权计算来统计词语对文本的重要性；textRank通过词汇的上下文关联统计计算词语的重要性；分类算法将对文本关键词的挖掘转化成分类问题，通过特征提取、Seq2seq神经网络训练、Seq2seq神经网络预测将文本的词语分为关键词和非关键词。然而上述方法都有各自的一些缺点，在实际应用中表现不尽人意。

发明内容

本申请实施例提供一种基于文本的关键词提取方法和计算机设备，用于智能的较为准确的提取关键。

一方面，提供一种基于文本的关键词提取方法，所述方法包括：

构造待分析文本的矩阵，该矩阵中包括按序排列的分词的词向量，其中，排列顺序为词向量在所述待分析文本中的顺序；

将待分析文本的矩阵输入给预训练的Seq2seq(sequence to sequence，序列-序列)神经网络，得到输出矩阵，所述输出矩阵中包括至少一个输出向量；其中，所述Seq2seq神经网络是根据标注有关键词的语料训练得到的，且训练时，所述Seq2seq神经网络的输入时训练文本的矩阵，输出是训练文本对应的关键词构成的矩阵；其中关键词构成的矩阵中每个向量与关键词对应；

根据输出向量和关键词的对应关系，确定所述待分析文本的关键词。

可选的，所述Seq2seq神经网络中包括编码器、解码器和带有注意力机制的神经网络模块，所述编码器和解码器均为循环神经网络，所述带有注意力机制的神经网络模块用于调整所述编码器针对每个词向量的编码结果。

可选的，将待分析文本的矩阵输入给预训练的Seq2seq神经网络，得到输出矩阵，包括：

将所述待分析文本的矩阵中的词向量按照在所述待分析文本的顺序，依次输入给所述编码器获得每个输入的词向量的状态；

将所述编码器的当前输入词向量以及所述当前输入词向量的上一词向量的状态输入给所述带有注意力机制的神经网络模块，得到所述上一词向量的权重参数；

将所述上一词向量的权重参数和所述上一词向量的状态相乘，得到调整后的所述上一词向量的状态；

将调整后的各词向量的状态依序输入给所述解码器，得到所述输出矩阵。

可选的，所述带有注意力机制的神经网络模块包括依次串联的全连接层、随机失活层和归一化层softmax；

所述全连接层用于处理输入的所述编码器的当前输入词向量以及所述当前输入词向量的上一词向量的状态；

所述随机失活层用于处理所述全连接层的处理结果；

所述softmax用于对所述随机失活层的处理结果进行归一化后得到所述上一词向量的权重参数。

可选的，构造待分析文本的矩阵，包括：

对待分析文本进行分词处理，得到各个分词；

将各分词转化为词向量；

将各分词的词向量按照分词在所述待分析文本中的顺序构造矩阵。

可选的，根据输出向量和关键词的对应关系，确定所述待分析文本的关键词，包括：

在关键词向量集合中查找与输出向量距离最近的向量；

将查找到的向量对应的关键词确定为所述待分析文本的关键词。

可选的，将查找到的向量对应的关键词确定为所述待分析文本的关键词，包括：

针对从关键词向量集合中查找到的向量对应的每个关键词，若该关键词包含在所述待分析文本中，则将该关键词确定为所述待分析文本的关键词；若该关键词不包含在所述待分析文本中，则将该关键词丢弃。

可选的，所述方法还包括：

若所述待分析文本的关键词数量大于预设数量；则从所述待分析文本的关键词中剔除部分关键词以使剩余的关键词数量等于所述预设数量。

可选的，所述方法还包括：

若所述待分析文本的关键词数量小于预设数量；则从所述关键词向量集合中查找与所述待分析文本的关键词相似的关键词；

将查找到的所述相似的关键词确定为所述待分析文本的新增关键词。

第二方面，本申请实施例还提供一种基于文本的关键词提取装置，所述装置包括：

文本矩阵构造单元，用于构造待分析文本的矩阵，该矩阵中包括按序排列的分词的词向量，其中，排列顺序为词向量在所述待分析文本中的顺序；

输出矩阵确定单元，用于将待分析文本的矩阵输入给预训练的Seq2seq神经网络，得到输出矩阵，所述输出矩阵中包括至少一个输出向量；其中，所述Seq2seq神经网络是根据标注有关键词的语料训练得到的，且训练时，所述Seq2seq神经网络的输入时训练文本的矩阵，输出是训练文本对应的关键词构成的矩阵；其中关键词构成的矩阵中每个向量与关键词对应；

关键词确定单元，用于根据输出向量和关键词的对应关系，确定所述待分析文本的关键词。

可选的，输出矩阵确定单元，用于：

所述随机失活层用于处理所述全连接层的处理结果；

可选的，文本矩阵构造单元，用于：

对待分析文本进行分词处理，得到各个分词；

将各分词转化为词向量；

可选的，关键词确定单元，用于：

在关键词向量集合中查找与输出向量距离最近的向量；

可选的，关键词确定单元，用于：

可选的，所述装置还包括：

过滤单元，用于若所述待分析文本的关键词数量大于预设数量；则从所述待分析文本的关键词中剔除部分关键词以使剩余的关键词数量等于所述预设数量。

可选的，所述装置还包括：

扩展单元，用于若所述待分析文本的关键词数量小于预设数量；则从所述关键词向量集合中查找与所述待分析文本的关键词相似的关键词；

第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，

所述处理器执行所述计算机程序时实现上述方面所述的方法步骤。

第四方面，提供一种计算机可读存储介质，

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机能够执行上述方面所述的方法。

本申请实施例提供了一种提取关键词的方法，该方法中采用了Seq2seq网络结构。该网络结构包括编码器和解码器，将整个文本作为Seq2seq神经网络的输入，使得神经网络能够了解文本的上下文信息。此外，该方法中无需提取特征向量，故而免去了TextRank中从文本中抽象出特征的麻烦。由于无需主观的进行特征抽象，故此实现相对简单，关键词的提取在长文本和短文本中均适用，效果也比较稳定。此外，该方法输出的是向量而不是关键词，具有很好的泛化能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的Seq2seq神经网络的结构示意图之一；

图2为本申请实施例提供的Seq2seq神经网络的结构示意图之二；

图3为本申请实施例提供的Seq2seq神经网络的结构示意图之三；

图4为本申请实施例提供的提取关键词的处理算法总流程图；

图5为本申请实施例提供的训练Seq2seq神经网络的流程示意图；

图6为本申请实施例提供的基于文本的关键词提取方法的流程示意图；

图7为本申请实施例提供的基于文本的关键词提取方法的另一流程示意图；

图8为本申请实施例提供的eq2seq神经网络的结构示意图之四；

图9-图11本申请实施例提供的基于文本的关键词提取方法的效果展示图；

图12为发明实施例提供的基于文本的关键词提取装置的结构示意图；

图13为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

文本：是指书面语言的表现形式，从文学角度说，通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。

关键词提取：指计算机自动提取文本的关键词的技术。

APP：application的缩写，特指安装于智能设备上的应用程序。

注意力机制(Attention Mechanism)：源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力，即敏锐度(Acuity)，只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源，人类需要选择视觉区域中的特定部分，然后集中关注它。例如，人们在阅读时，通常只有少量要被读取的词会被关注和处理。综上，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。在认知神经学中，注意力是一种人类不可或缺的复杂认知功能，指人可以在关注一些信息的同时忽略另一些信息的选择能力。在日常生活中，人们通过视觉、听觉、触觉等方式接收大量的感觉输入。但是人脑可以在这些外界的信息轰炸中还能有条不紊地工作，是因为人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理，并忽略其他信息。这种能力就叫做注意力。注意力可以体现为外部的刺激(听觉、视觉、味觉等)，也可以体现为内部的意识(思考、回忆等)。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

相关技术中，TF-IDF方法仅从词频的角度衡量那个词语可以作为文本的关键词。该方法未能结合文本的上下文信息，所以提取的关键词适用范围受限。而分类方法对文本进行特征抽象时实施起来比较困难，关键词的提取也未能考虑上下文信息。虽然TextRank结合了文本的上下文信息，但是其由于其进行特征抽象的过程实现复杂且需要主观因素参与，在短文本，语料规模小的情况下效果较差且不稳定。

有鉴于此，本申请实施例提供了一种提取关键词的方法，该方法中采用了Seq2seq(sequence to sequence，序列-序列)网络结构。该网络结构包括编码器和解码器，将整个文本作为Seq2seq神经网络的输入，使得神经网络能够了解文本的上下文信息。此外，该方法中无需提取特征向量，故而免去了TextRank中从文本中抽象出特征的麻烦。由于无需主观的进行特征抽象，故此实现相对简单，关键词的提取在长文本和短文本中均适用，效果也比较稳定。此外，该方法输出的是向量而不是关键词，具有很好的泛化能力。

在介绍完本申请实施例的设计构思之后，下面对本申请实施例的实现方法做进一步说明。

一、Seq2seq神经网络训练

该部分内容主要介绍本申请实施例中Seq2seq神经网络的构成，以及如何训练该Seq2seq神经网络使其能够进行关键词挖掘。

如图1所述为Seq2seq神经网络的结构示意图，该Seq2seq神经网络包括编码器11和解码器12。编码器用于对输入的数据进行编码，解码器用于对编码器的输出结果进行，输出向量。其中输出的向量和关键词对应。

训练过程中，首先获取标注有关键词的文本作为语料。选取的语料可包括不同长度的文本。对语料中的各训练文本构造其对应的矩阵。矩阵的具体构造可实施为先对训练文本进行分词处理，得到各个分词；然后将各分词转化为词向量；之后将各分词的词向量按照分词在所述训练文本中的顺序构造矩阵。也即矩阵中包括按序排列的分词的词向量，其中，排列顺序为词向量对应的分词在所述训练文本中的顺序。相应的，构造文本对应的关键词的矩阵。其中，文本的矩阵中一个向量对应一分词；关键词的矩阵中，一个向量对应一关键词。

然后将文本的矩阵作为Seq2seq神经网络的输入，以对应的关键词的矩阵作为Seq2seq神经网络的输出来训练Seq2seq神经网络。

进一步的，为了能够达到强化能够作为关键词的分词，弱化不能作为关键词的分词的目的。本申请实施例中还对Seq2seq神经网络引入了注意力机制。

如图2所示，该Seq2seq神经网络的另一结构示意图。包括编码器11和解码器12，和具有注意力机制的神经网络模块13。第二神经网络为具有注意力机制的神经网络，其主要作用在调整编码器的输出，使得文本中重要的词语得到强化，并弱化不重要的词语。这样，编码器的编码结果经过调整后输入给解码器时，能够更加准确的挖掘出重要的关键词。

具体实施时，如图3所示，前述带有注意力机制的神经网络模块包括依次串联的全连接层31、随机失活层32和归一化层softmax33；其中：

所述随机失活层用于处理所述全连接层的处理结果；

简言本申请实施例中的处理流程可包括如图4所述的四个阶段即：

数据预处理：即对文本进行分词并得到各分词的词向量。

Seq2seq神经网络训练：即根据标注关键词的文本对Seq2seq神经网络进行训练得到能够提取关键词的Seq2seq神经网络。

Seq2seq神经网络预测：即采用训练好的Seq2seq神经网络挖掘待分析文本的候选关键词的词向量(关于该点后文会详细介绍)。

结果后处理：即根据Seq2seq神经网络预测得到的向量，确定待分析文本的关键词。

例如，如图5所示，对于一批文本人工进行关键词标注，作为训练语料。然后，对训练语料中的每个文本进行分词处理，得到词的序列。将词的序列转化为词向量得到文本序列(标记为A)，然后经每篇文章的关键词也转化为词向量得到关键词序列(标记为B)，然后将A输入给Seq2seq神经网络进行训练，使Seq2seq神经网络能够输出文本对于的关键词序列B。

二、Seq2seq神经网络预测

该部分主要介绍如何通过前述训练的Seq2seq神经网络来提取关键词，如图6所示，为该方法的流程示意图，可包括以下步骤：

步骤601：构造待分析文本的矩阵，该矩阵中包括按序排列的分词的词向量，其中，排列顺序为词向量在所述待分析文本中的顺序。

在一个实施例中，可以对待分析文本进行分词处理，得到各个分词；然后将各分词转化为词向量；之后，将各分词的词向量按照分词在所述待分析文本中的顺序构造矩阵。

在一个实施例中，可以通过word2vec(word to vector，用来产生词向量的模型)将获得的各个分词转化为词向量。具体实施时，还可将分析得到的一些停顿词剔除，来简化待分析文本的矩阵的数据量。

步骤602：将待分析文本的矩阵输入给预训练的Seq2seq神经网络，得到输出矩阵，所述输出矩阵中包括至少一个输出向量；其中，所述Seq2seq神经网络是根据标注有关键词的语料训练得到的，且训练时，所述Seq2seq神经网络的输入时训练文本的矩阵，输出是训练文本对应的关键词构成的矩阵；其中关键词构成的矩阵中每个向量与关键词对应。

步骤603：根据输出向量和关键词的对应关系，确定所述待分析文本的关键词。

在一个实施例中，未能够更好的挖掘出关键词，如前所述，本申请实施例中引入了注意力机制。故此，如前所述，所述Seq2seq神经网络中包括编码器、解码器和带有注意力机制的神经网络模块，所述编码器和解码器均为循环神经网络，所述带有注意力机制的神经网络模块用于调整所述编码器针对每个词向量的编码结果。这样，能够强化重要信息的作用，弱化不重要信息的作用，使得关键词的挖掘更为准确。

在一个实施例，采用注意力机制的神经网络模块时，如图7所示，将待分析文本的矩阵输入给预训练的Seq2seq神经网络，得到输出矩阵，可包括以下步骤：

步骤701：将所述待分析文本的矩阵中的词向量按照在所述待分析文本的顺序，依次输入给所述编码器获得每个输入的词向量的状态；

步骤702：将所述编码器的当前输入词向量以及所述当前输入词向量的上一词向量的状态输入给所述带有注意力机制的神经网络模块，得到所述上一词向量的权重参数；

步骤703：将所述上一词向量的权重参数和所述上一词向量的状态相乘，得到调整后的所述上一词向量的状态；

步骤704：将调整后的各词向量的状态依序输入给所述解码器，得到所述输出矩阵。

例如，文本的矩阵中包括多个分词的词向量。则第一个向量输入给编码器，编码器得到该向量的状态。处理第二个向量时，第二个向量和第一个向量的状态输入给带有注意力机制的神经网络模块得到第一个向量的权重参数。第一个向量的权重参数和第一个向量的状态相乘得到输入给解码器的向量。以此类推每个向量加以处理，使得每个输入给解码器的向量能够整合上下文信息。且编码器为循环神经网络时，每个向量的状态还可以综合上一个向量的状态，使得每个向量的状态能够进一步考虑上下文信息。

在一个实施例中，得到预测出的矩阵后，针对该矩阵中的每个输出向量，可以在关键词向量集合中查找与输出向量距离最近的向量；并将查找到的向量对应的关键词确定为所述待分析文本的关键词。

当然具体实施时，可以计算输出向量和关键词向量集合中的向量之间的距离，当两者的距离小于指定距离时才可确定在向量集合中查找到对应的向量。这样，能够保证超找到较为准确的向量。

进一步的，通常情况下，提取的关键词应该包含在待分析文本中。故此，本申请实施例中，针对从关键词向量集合中查找到的向量对应的每个关键词，若该关键词包含在所述待分析文本中，则将该关键词确定为所述待分析文本的关键词；若该关键词不包含在所述待分析文本中，则将该关键词丢弃。也即，若提取的关键词不包含待分析文本中则不适用于做该文本的最终关键词，不在待分析文本中的关键词将被过滤掉。由此，使得提取的关键词更为准确。

在一个实施例中，可以根据实际需求设定关键词的数量。当解码器提取的关键词较多时，可以剔除掉一部分关键词，当解码器提取的关键词较少时，可以扩展一些关键词。该方案可实施为包括以下两方面：

1、剔除多余关键词

在一个实施例中，可以根据输出矩阵各输出向量与关键词向量集合中的向量之间的距离来确定剔除哪些关键词，例如剔除距离较大的关键词。

2、扩展类似关键词

在一个实施例中，若所述待分析文本的关键词数量小于预设数量；则从所述关键词向量集合中查找与所述待分析文本的关键词相似的关键词；将查找到的所述相似的关键词确定为所述待分析文本的新增关键词。

例如，实际需要3个关键词，通过解码器得到一个输出向量，根据该输出向量在关键词向量集合中找到一个关键词。为了扩展关键词，可以在关键词向量集合中查找距离获得的关键词其最近的向量，并将该距离最近的向量对应的关键词作为扩展的关键词。

当然，在一个实施例中，也可以将与确定的关键词语义相近的关键词作为扩展的关键词。例如，可爱和呆萌在一定程度上语义相近，可以将呆萌作为扩展的关键词。

下面对于如何采用注意力机制挖掘关键词进行详细说明。本申请实施例中，带有注意力机制的神经网络模块包括全连接层、随机失活层和softmax；如图8所示为本申请实施例提供的Seq2seq神经网络的结构示意图。其中，编码器(Encoder)和解码器(Decoder)均可采用循环神经网络，例如采用LSTM(Long Short-Term Memory，长短期记忆网络)。具有注意力机制(Attention)的神经网络的内部结构展开后如图8中的右侧所示，包括：全连接层、随机失活层和归一化层。其中，Input表示输入的词向量序列，in₁…in_n表示当前词向量，h₁……h_n表示当前词向量的上一词向量的状态，α₁……α_n表示上一词向量的权重参数。针对任意词向量而言，其权重参数的维度和该词向量的维度相同。

在进行待分析文本的关键词挖掘时，将待分析文本的词向量构成的矩阵输入给编码器，编码器依次对词向量进行处理得到各词向量的状态。当前向量和上一词向量的状态均输入给带有注意力机制的神经网络模块，由带有注意力机制的神经网络模块的全连接层处理后，交由随机失活层处理，最后交由归一化层处理得到当前词向量的上一词向量的权重参数。然后上一词向量的状态和其权重参数相乘(Multi)后输入给解码器处理。

解码器对输入的向量进行解码得到输出向量，然后在关键词向量集合中找到与各输出向量序列匹配的向量，并确定与该匹配的向量对应的关键词作为待分析文本的关键词。

有本申请实施例提供的Seq2seq神经网络提取关键词，由于输出的是关键词的向量而不是具体的关键词，因此Seq2seq神经网络具有更好的泛化能力；此外，通过过滤掉不在待分析文本中的关键词使得输出结果进行了原始文本的过滤，提升了关键词提取的鲁棒性。再者，由于提取过程中充分考虑了上下文信息，可以有效抑制歧义从而提高关键词提取的准确性。

下面结合三个实测结果对本申请实施例提供的关键词的提取方法的结果进行展示说明。

1)如图9所示，为对于王者荣耀这款App的描述文本中进行关键词挖掘时的attention模块(即带有注意力机制的神经网络)的输出。图6中颜色越浅表示权重越高，可以看出在标注的关键词(即图6中带有下划线的关键词)出现的地方权重得到了加强。故此，本申请实施例提供的Seq2seq神经网络中，attention模块能够很好的起到挖掘关键词的作用。

2)、如图10所示，为对描述游戏的文本中进行关键词提取后得到的关键词的效果图。由此可知，对于莽荒纪这款游戏，提取的关键词包括：莽荒纪、策略，rpg，修仙，这些关键词能够准确描述相应文本的内容。

针对英雄杀这款游戏，效果相同，这里不再赘述。

3)针对作为检索词的待分析文本，文本中文字量一般较小。本申请实施例提供的提取关键词的方案对于这类短小的文本也能够很好的提取关键词，并进行信息的搜索。

例如图11所示，假设输入的检索词为“适合儿童玩的游戏”通过本申请实施例提供的方案从该检索词中提取的关键词包括“儿童”和“游戏”，故此假设需要的关键词为4个，则扩展出关键词“拼图”和“益智”。由此，在进行App的检索时，可以准确定位到巧虎智力拼图作为推荐的游戏。

本申请实施例中，最终需要多少关键词可以根据实际需求确定，当需要一个关键词时，关键词的命中率可达到96％，当需要多个关键词时，关键词的命中率可达到84％，故此，本申请实施例提供的Seq2seq神经网络能够很好的提取关键词。

请参见图12，基于同一发明构思，本申请实施例还提供了一种基于文本的关键词提取装置，包括：

文本矩阵构造单元1201，用于构造待分析文本的矩阵，该矩阵中包括按序排列的分词的词向量，其中，排列顺序为词向量在所述待分析文本中的顺序；

输出矩阵确定单元1202，用于将待分析文本的矩阵输入给预训练的Seq2seq神经网络，得到输出矩阵，所述输出矩阵中包括至少一个输出向量；其中，所述Seq2seq神经网络是根据标注有关键词的语料训练得到的，且训练时，所述Seq2seq神经网络的输入时训练文本的矩阵，输出是训练文本对应的关键词构成的矩阵；其中关键词构成的矩阵中每个向量与关键词对应；

关键词确定单元1203，用于根据输出向量和关键词的对应关系，确定所述待分析文本的关键词。

可选的，输出矩阵确定单元，用于：

所述随机失活层用于处理所述全连接层的处理结果；

可选的，文本矩阵构造单元，用于：

对待分析文本进行分词处理，得到各个分词；

将各分词转化为词向量；

可选的，关键词确定单元，用于：

在关键词向量集合中查找与输出向量距离最近的向量；

可选的，关键词确定单元，用于：

可选的，所述装置还包括：

请参见图13，基于同一技术构思，本申请实施例还提供了一种计算机设备130，可以包括存储器1301和处理器1302。

所述存储器1301，用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1302，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1301和处理器1302之间的具体连接介质。本申请实施例在图13中以存储器1301和处理器1302之间通过总线1303连接，总线1303在图13中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线1303可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1301可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1301也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1301可以是上述存储器的组合。

处理器1302，用于调用所述存储器1301中存储的计算机程序时执行如图6-7中所示的实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图6-7中所示的实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于文本的关键词提取方法，其特征在于，所述方法包括：

构造待分析文本的矩阵，所述矩阵中包括按序排列的分词的词向量，其中，排列顺序为词向量在所述待分析文本中的顺序；

将待分析文本的矩阵输入给预训练的Seq2seq神经网络，得到输出矩阵，所述输出矩阵中包括至少一个输出向量；其中，所述Seq2seq神经网络是根据标注有关键词的语料训练得到的，且训练时，所述Seq2seq神经网络的输入是训练文本的矩阵，输出是训练文本对应的关键词构成的矩阵；其中关键词构成的矩阵中每个向量与关键词对应；

根据输出向量和关键词的对应关系，确定所述待分析文本的关键词；

其中，所述根据输出向量和关键词的对应关系，确定所述待分析文本的关键词，包括：

在关键词向量集合中查找与输出向量距离最近的向量；

将查找到的向量对应的关键词确定为所述待分析文本的关键词；

其中，所述Seq2seq神经网络中包括编码器、解码器和带有注意力机制的神经网络模块，所述带有注意力机制的神经网络模块包括依次串联的全连接层、随机失活层和归一化层softmax；

所述随机失活层用于处理所述全连接层的处理结果；

2.根据权利要求1所述的方法，其特征在于，所述带有注意力机制的神经网络模块用于调整所述编码器针对每个词向量的编码结果。

3.根据权利要求1所述的方法，其特征在于，将待分析文本的矩阵输入给预训练的Seq2seq神经网络，得到输出矩阵，包括：

4.根据权利要求1所述的方法，其特征在于，构造待分析文本的矩阵，包括：

对待分析文本进行分词处理，得到各个分词；

将各分词转化为词向量；

5.根据权利要求4所述的方法，其特征在于，将查找到的向量对应的关键词确定为所述待分析文本的关键词，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至7任一权利要求所述的方法步骤。