CN111611807B

CN111611807B - 一种基于神经网络的关键词提取方法、装置及电子设备

Info

Publication number: CN111611807B
Application number: CN202010418346.9A
Authority: CN
Inventors: 刘绍华; 尤焕英; 佘春东
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2022-12-09
Anticipated expiration: 2040-05-18
Also published as: CN111611807A

Abstract

本发明实施例提供了一种基于神经网络的关键词提取方法、装置及电子设备，其中方法包括：获取待提取关键词的文本；对待提取关键词的文本进行预处理，得到候选词；将待提取关键词的文本和各候选词，分别输入BERT中，得到待提取关键词的文本的第一特征向量以及各候选词的第一特征向量；将待提取关键词的文本的第一特征向量以及各候选词的第一特征向量，分别输入预先训练好的神经网络中，得到待提取关键词的文本的第二特征向量以及各候选词的第二特征向量；计算各候选词与待提取关键词的文本之间的相似度，基于计算得到的相似度，提取待提取关键词的文本中的关键词。本发明实施例，能够提高提取文本中关键词的准确程度。

Description

一种基于神经网络的关键词提取方法、装置及电子设备

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于神经网络的关键词提取方法、装置及电子设备。

背景技术

关键词是一段文本中具有代表性的文字，是一篇文章主题的简要概括。关键词能够反映一篇文档/文本的主题内容，帮助人们快速定位该文档/文本的主题与思想。除此之外，关键词在文献检索、文本分类、推荐系统等方面都有重要的应用价值。由于人工标注文档/文本的关键词非常耗时与困难，因此，关键词的自动提取已经成为NLP(NaturalLanguage Processing，自然语言处理)领域研究的一个热门方向。

现有针对文本的关键词提取方法为：使用TF-IDF(Term frequency–Inversedocument frequency，词频-逆文档频率)统计方法对文本的关键词进行提取。TF-IDF提取文本关键词的实现过程为：对待提取关键词的文本进行分词处理，然后，针对每一分词，分别计算每一分词对应的词频和逆文档频率，进而计算每一分词对应的词频和逆文档频率的乘积，并作为该分词在文本中的权重，按照权重从大到小的顺序，将排序靠前的T个分词作为要提取的目标关键词，T可以为任意大于等于一的整数。

现有使用TF-IDF统计方法对文本的关键词进行提取的方法，是基于每一分词在文本中出现的频率以及逆文档频率进行提取的，针对一些词语重复较少的文本，特别是一些短文本，可能会导致所提取的关键词与文本的匹配度比较低的情况，进而导致最终所提取的关键词不够准确。

发明内容

本发明实施例的目的在于提供一种基于神经网络的关键词提取方法、装置及电子设备，以提高提取文本中关键词的准确程度。具体技术方案如下：

第一方面，本发明实施例提供了一种基于神经网络的关键词提取方法，所述方法包括：

获取待提取关键词的文本；

对所述待提取关键词的文本进行预处理，得到所述待提取关键词的文本对应的候选词；

将所述待提取关键词的文本和各所述候选词，分别输入基于转换器的双向编码器BERT中，得到所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量；

将所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量，分别输入预先训练好的神经网络中，得到所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量；其中，所述预先训练好的神经网络是根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到的；

基于所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量，计算各所述候选词与所述待提取关键词的文本之间的相似度；

基于各所述候选词与所述待提取关键词的文本之间的相似度，提取所述待提取关键词的文本中的关键词。

可选地，所述对所述待提取关键词的文本进行预处理，得到所述待提取关键词的文本对应的候选词的步骤，包括：

对所述待提取关键词的文本进行分词处理，得到多个词语；

利用预设停用词表对所述多个词语进行过滤，得到过滤后的词语；

将所述过滤后的词语确定为候选词；

或者，将所述过滤后的词语中具有预设词性的词语确定为候选词；其中，所述预设词性包括：名词、动词和形容词。

可选地，所述神经网络的训练过程，包括：

构建初始神经网络模型；

将样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签，输入所述初始神经网络模型；

利用所述初始神经网络模型，得到各所述样本候选词对应的类别标签；

基于各所述样本候选词对应的类别标签与所述真值标签的差异，计算损失函数；

对损失函数进行最小化处理，得到最小化损失函数；

根据最小化损失函数，确定初始神经网络模型中各模块的权重参数；

基于所述权重参数对所述初始神经网络模型中的参数进行更新，训练得到所述神经网络。

可选地，所述损失函数的表达式为：

其中，t_i表示第i个待提取关键词的文本，k_i表示第i个待提取关键词的文本t_i中的关键词，

表示神经网络的结构参数，

表示基于神经网络的结构参数

的损失函数，p(k_i|t_i)表示第i个待提取关键词的文本t_i对应的关键词为k_i的概率，

表示待提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数

的相似度，k′表示待提取关键词的文本t中的非关键词，K^-表示待提取关键词的文本t的非关键词集合，

表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基于神经网络的结构参数

的相似度。

可选地，所述基于所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量，计算各所述候选词与所述待提取关键词的文本之间的相似度的步骤，包括：

基于所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量，使用如下表达式，计算各所述候选词与所述待提取关键词的文本之间的相似度：

其中，

表示候选词h与待提取关键词的文本t基于所述神经网络的结构参数

的相似度，

表示待提取关键词的文本t对应的第二特征向量，

表示候选词h对应的第二特征向量，

为

的转置。

第二方面，本发明实施例提供了一种基于神经网络的关键词提取装置，所述装置包括：

获取模块，用于获取待提取关键词的文本；

预处理模块，用于对所述待提取关键词的文本进行预处理，得到所述待提取关键词的文本对应的候选词；

第一特征提取模块，用于将所述待提取关键词的文本和各所述候选词，分别输入基于转换器的双向编码器BERT中，得到所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量；

第二特征提取模块，用于将所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量，分别输入预先训练好的神经网络中，得到所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量；其中，所述预先训练好的神经网络是根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到的；

计算模块，用于基于所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量，计算各所述候选词与所述待提取关键词的文本之间的相似度；

关键词提取模块，用于基于各所述候选词与所述待提取关键词的文本之间的相似度，提取所述待提取关键词的文本中的关键词。

可选地，所述预处理模块，包括：

分词子模块，用于对所述待提取关键词的文本进行分词处理，得到多个词语；

过滤子模块，用于利用预设停用词表对所述多个词语进行过滤，得到过滤后的词语；

第一确定子模块，用于将所述过滤后的词语确定为候选词；

第二确定子模块，用于将所述过滤后的词语中具有预设词性的词语确定为候选词；其中，所述预设词性包括：名词、动词和形容词。

可选地，所述装置还包括：

构建模块，用于构建初始神经网络模型；

第一训练模块，用于将样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签，输入所述初始神经网络模型；

第一获得模块，用于利用所述初始神经网络模型，得到各所述样本候选词对应的类别标签；

计算模块，用于基于各所述样本候选词对应的类别标签与所述真值标签的差异，计算损失函数；

第二获得模块，用于对损失函数进行最小化处理，得到最小化损失函数；

确定模块，用于根据最小化损失函数，确定初始神经网络模型中各模块的权重参数；

第二训练模块，用于基于所述权重参数对所述初始神经网络模型中的参数进行更新，训练得到所述神经网络。

可选地，所述损失函数的表达式为：

表示神经网络的结构参数，

表示基于神经网络的结构参数

的相似度。

可选地，所述计算模块，具体用于：

其中，

的相似度，

表示待提取关键词的文本t对应的第二特征向量，

表示候选词h对应的第二特征向量，

为

的转置。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的一种基于神经网络的关键词提取方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的一种基于神经网络的关键词提取方法的步骤。

本发明实施例有益效果：

本发明实施例提供的一种基于神经网络的关键词提取方法、装置及电子设备，可以在对所获取的待提取关键词的文本进行预处理，得到待提取关键词的文本对应的候选词后，将待提取关键词的文本和各候选词，分别输入BERT中，得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量，以及表示候选词初始语义的、各候选词对应的第一特征向量，然后，将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，获得更适合于关键词提取的语义向量，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，再基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，计算各候选词与待提取关键词的文本之间的相似度，在此过程中，因得到的待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，是考虑了各候选词与待提取关键词的文本之间语义关系得到的，使得基于计算得到的各候选词与待提取关键词的文本之间的相似度，提取的关键词与文本之间的匹配度更高，提高了提取文本中关键词的准确程度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于神经网络的关键词提取方法的流程示意图；

图2为本发明实施例提供的一种文本预处理的实施方式流程图；

图3为本发明实施例提供的一种网络训练实施方式流程图；

图4为本发明实施例提供的一种网络训练结构示意图；

图5为本发明实施例提供的一种基于神经网络的关键词提取装置的结构示意图；

图6为本发明实施例提供的一种文本预处理装置的结构示意图；

图7为本发明实施例提供的一种网络训练装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有使用TF-IDF统计方法对文本的关键词进行提取的方法中，可能会导致所提取的关键词与文本的匹配度比较低的情况，进而导致最终所提取的关键词不够准确的问题，本发明实施例提供了一种基于神经网络的关键词提取方法，该方法包括：

获取待提取关键词的文本；

对待提取关键词的文本进行预处理，得到待提取关键词的文本对应的候选词；

将待提取关键词的文本和各候选词，分别输入基于转换器的双向编码器BERT中，得到待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量；

将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量；其中，预先训练好的神经网络是根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到的；

基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，计算各候选词与待提取关键词的文本之间的相似度；

基于各候选词与待提取关键词的文本之间的相似度，提取待提取关键词的文本中的关键词。

本发明实施例提供的一种基于神经网络的关键词提取方法，可以在对所获取的待提取关键词的文本进行预处理，得到待提取关键词的文本对应的候选词后，将待提取关键词的文本和各候选词，分别输入BERT中，得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量，以及表示候选词初始语义的、各候选词对应的第一特征向量，然后，将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，获得更适合于关键词提取的语义向量，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，再基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，计算各候选词与待提取关键词的文本之间的相似度，在此过程中，因得到的待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，是考虑了各候选词与待提取关键词的文本之间语义关系得到的，使得基于计算得到的各候选词与待提取关键词的文本之间的相似度，提取的关键词与文本之间的匹配度更高，提高了提取文本中关键词的准确程度。

下面进行具体说明，如图1所示，图1为本发明实施例提供的一种基于神经网络的关键词提取方法流程示意图，该方法可以包括：

S101，获取待提取关键词的文本。

关键词是一段文本中具有代表性的文字，是一篇文章主题的简要概括。本发明实施例可以针对任何需要提取关键词的文本进行关键词的提取，该文本可以是具有完整、系统含义的一个句子或多个句子的组合，例如，可以是扩展名为txt、doc、docx或wps等对应的文本。

实际应用中，文本可以划分为短文本和长文本。优选地，本发明实施例提供的基于神经网络的关键词提取方法，在短文本中提取得到的关键词与文本之间的匹配度更高。

S102，对待提取关键词的文本进行预处理，得到待提取关键词的文本对应的候选词。

本发明实施例在获取待提取关键词的文本后，可以对待提取关键词的文本进行预处理，进而得到待提取关键词的文本对应的候选词。该预处理可以是对待提取关键词的文本进行分词、以及对分词的过滤等操作。

S103，将待提取关键词的文本和各候选词，分别输入基于转换器的双向编码器BERT中，得到待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量。

BERT(Bidirectional Encoder Representations from Transformers，基于转换器的双向编码器)，是一种以Transformers(转换器)为主要框架的双向编码表征模型。Transformers简单来说是一个将一组序列转换成另一组序列的黑盒子，这个黑盒子内部由编码器和解码器组成，编码器负责编码输入序列，然后解码器负责将编码器的输出转换为另一组序列。BERT是一种预训练语言表示的方法，可以在大型文本语料库上训练通用的语言理解模型，进而直接使用BERT预训练模型提取文本或文本序列的特征向量。

本发明实施例中，可以将待提取关键词的文本和各候选词，分别输入BERT预训练模型中，进而得到表示待提取关键词文本初始语义的、待提取关键词的文本对应的第一特征向量，以及表示候选词初始语义的、各候选词对应的第一特征向量。示例性的，得到的待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，都可以为1×786维的特征向量。

S104，将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量。

本发明实施例中，将得到表示待提取关键词文本初始语义的、待提取关键词的文本对应的第一特征向量，以及表示候选词初始语义的、各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，以获得更适合于关键词提取的语义向量，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量。

其中，预先训练好的神经网络是根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到的。样本候选词对应的真值标签，用于表示该候选词是否是对应样本文本的关键词。示例性的，样本候选词对应的真值标签可以使用1或0表示，例如，候选词是对应样本文本的关键词，可以使用标签1表示，候选词不是对应样本文本的关键词，可以使用标签0表示。

S105，基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，计算各候选词与待提取关键词的文本之间的相似度。

在得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量后，可以分别计算各候选词与待提取关键词的文本之间的相似度，该相似度表示了候选词与待提取关键词的文本之间的匹配程度。

作为本发明实施例一种可选的实施方式，可以基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，使用如下表达式，计算各候选词与待提取关键词的文本之间的相似度：

其中，

的相似度，

表示待提取关键词的文本t对应的第二特征向量，

表示候选词h对应的第二特征向量，

为

的转置。

和

是将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量作为输入，通过预先训练好的神经网络，得到的待提取关键词的文本t对应的语义特征向量和候选词h对应的语义特征向量，该待提取关键词的文本t对应的语义特征向量和候选词h对应的语义特征向量，是基于神经网络的结构参数

通过语义运算得到的。

具体的，计算各候选词与待提取关键词的文本之间的相似度，还可以是计算候选词对应的第二特征向量，与待提取关键词的文本对应的第二特征向量之间的欧式距离，或正切距离等等。

S106，基于各候选词与待提取关键词的文本之间的相似度，提取待提取关键词的文本中的关键词。

在计算各候选词与待提取关键词的文本之间的相似度后，可以将各候选词与待提取关键词的文本之间的相似度按照大小顺序排序，然后将排序靠前的M个候选词，确定为待提取关键词的文本对应的关键词，M可以为任意大于等于一的整数。具体M的取值，本领域技术人员可根据实际需求进行设置。

作为本发明实施例一种可选的实施方式，如图2所示，本发明实施例提供了一种对待提取关键词的文本进行预处理的实施方式，该实施方式可以包括：

S201，对待提取关键词的文本进行分词处理，得到多个词语。

实际应用中，对文本进行分词可以借助Python语言版本的开源分词工具jieba来实现，具体的分词过程可参见现有技术的实现，本发明实施例在此不再赘述。对待提取关键词的文本进行分词处理，可以得到多个词语。

S202，利用预设停用词表对多个词语进行过滤，得到过滤后的词语。

停用词指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。针对不同的用途，所需要的停用词表可能不同，停用词通常是一些出现频率很高或者无实意的词，例如：“的”，“我”，“而且”，“并”等。

在对待提取关键词的文本进行分词处理之后，得到多个词语，实际应用中所得到的词语可能存在停用词，该停用词不可能是待提取关键词文本的关键词，则需要将这些停用词过滤掉。

本发明实施例中，利用预设停用词表对多个词语进行过滤，得到过滤后的词语。该预设的停用词表可以是本领域的通用停用词表，也可以是在通用停用词表基础上根据语料或其他特点增加或删除一些词之后得到的停用词表。具体的，本领域技术人员可根据实际需求进行设置。

S203，将过滤后的词语确定为候选词。

本发明一种实施方式中，可以直接将过滤后的词语确定为候选词。

S204，将过滤后的词语中具有预设词性的词语确定为候选词。

本发明一种实施方式中，还可以将过滤后的词语中具有预设词性的词语确定为候选词，该预设词性可以包括：名词、动词和形容词。

本发明实施例中，对待提取关键词的文本进行分词处理，然后，对分词得到的词语进行过滤，进一步将过滤后的词语或过滤后的词语中具有预设词性的词语确定为候选词，缩小了关键词提取的范围，以便能够快速的提取到目标关键词。

作为本发明实施例一种可选的实施方式，如图3所示，神经网络的训练过程，可以包括：

S301，构建初始神经网络模型。

作为本发明实施例一种可选的实施方式，所构建的初始神经网络模型可以是3层ResNet(Deep Residual Network，深度残差网络)网络，包括输入层，隐藏层以及输出层。示例性的，输入层为各输入特征向量，输入特征向量的大小可以为1×786，隐藏层可以为N层，输出层可以为1×128维的输出特征向量，N的取值本领域技术人员可根据实际需求进行设置。

示例性的，将输入特征向量记为x，输出特征向量记为y，隐藏层表示为l_j，j＝2,3,…,N，N表示隐藏层的数量，W_j表示第j层隐藏层的权重矩阵，b_j表示第j层隐藏层的偏差，则神经网络结构中的第一层可以表示为：

l₁＝W₁x+b₁

其中，l₁表示第1层隐藏层，W₁表示第1层隐藏层的权重矩阵，b₁表示第1层隐藏层的偏差。

在网络传输的过程中，网络中间层(或称隐藏层)的表达式可以表示为：

l_j＝f(W_jl_j-1+b_j)+l_j-1，j＝1,2,…,N-1

网络的输出层可以表示为：

y＝f(W_Nl_N-1+b_N)

其中，W_N表示第N层隐藏层的权重矩阵，l_N-1表示第N-1层隐藏层，b_N表示第N层隐藏层的偏差，f(g)表示激活函数，示例性的，可以采用双切函数tanh作为激活函数，该激活函数可以表示为：

S302，将样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签，输入初始神经网络模型。

本发明实施例中，在训练神经网络模型时，可以预先构建样本数据集合，该样本数据集合中可以包含样本文本，样本候选词，以及样本候选词对应的真值标签，样本候选词对应的真值标签，用于表示该候选词是否是对应样本文本的关键词。然后，可以通过上述步骤S101-S103的实施方式，得到样本文本对应的第一特征向量，样本候选词对应的第一特征向量，进而根据根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到神经网络。

S303，利用初始神经网络模型，得到各样本候选词对应的类别标签。

示例性的，如图4所示，图4为本发明实施例提供的一种网络训练结构示意图。将样本文本和样本候选词，分别输入基于转换器的双向编码器BERT中，得到样本文本对应的第一特征向量，样本候选词对应的第一特征向量，特征向量的大小均为1×786维。然后，将得到的样本文本对应的第一特征向量，样本候选词对应的第一特征向量作为输入，利用初始神经网络模型，对得到的样本文本对应的第一特征向量和样本候选词对应的第一特征向量分别进行降维处理，得到1×256维的样本文本对应的第一特征向量，和1×256维的样本候选词对应的第一特征向量。进而，将1×256维的样本文本对应的第一特征向量和1×256维的样本候选词对应的第一特征向量，输入至3层ResNet网络，输出1×128维的输出特征向量，进一步计算得到P(样本候选词|样本)，即样本文本的关键词为样本候选词的概率。

S304，基于各样本候选词对应的类别标签与真值标签的差异，计算损失函数。

示例性的，在神经网络的训练过程中，预先构建的样本数据集合可以表示为：{(t₁,k₁),(t₂,k₂),…}，(t₁,k₁)表示样本文本t₁的关键词为k₁对应的关键词对，假设每个关键词对是相互独立的，那么样本数据集合的联合概率可以表示为：∏_i p(k_i|t_i)，p(k_i|t_i)表示样本文本t₁的关键词为k₁的概率，进一步的可以基于各样本候选词对应的类别标签与真值标签的差异，使用softmax函数建立概率模型，进而计算损失函数。其中，使用softmax函数建立的概率模型可以表示为：

的概率模型。

损失函数的表达式可以为：

表示神经网络的结构参数，

表示基于神经网络的结构参数

的相似度。

S305，对损失函数进行最小化处理，得到最小化损失函数。

S306，根据最小化损失函数，确定初始神经网络模型中各模块的权重参数。

S307，基于权重参数对初始神经网络模型中的参数进行更新，训练得到神经网络。

上述步骤S305～S307中，对损失函数进行最小化处理，得到最小化损失函数，根据最小化损失函数，确定初始神经网络模型中各模块的权重参数，基于权重参数对初始神经网络模型中的参数进行更新，训练得到神经网络。此过程的详细实现过程，可参见现有技术的实现，本发明实施例在此不再赘述。

相应于上述方法实施例，本发明实施例提供了一种基于神经网络的关键词提取装置，如图5所示，该装置可以包括：

获取模块401，用于获取待提取关键词的文本。

预处理模块402，用于对待提取关键词的文本进行预处理，得到待提取关键词的文本对应的候选词。

第一特征提取模块403，用于将待提取关键词的文本和各候选词，分别输入基于转换器的双向编码器BERT中，得到待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量。

第二特征提取模块404，用于将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量；其中，预先训练好的神经网络是根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到的。

计算模块405，用于基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，计算各候选词与待提取关键词的文本之间的相似度。

关键词提取模块406，用于基于各候选词与待提取关键词的文本之间的相似度，提取待提取关键词的文本中的关键词。

本发明实施例提供的一种基于神经网络的关键词提取装置，可以在对所获取的待提取关键词的文本进行预处理，得到待提取关键词的文本对应的候选词后，将待提取关键词的文本和各候选词，分别输入BERT中，得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量，以及表示候选词初始语义的、各候选词对应的第一特征向量，然后，将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，获得更适合于关键词提取的语义向量，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，再基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，计算各候选词与待提取关键词的文本之间的相似度，在此过程中，因得到的待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，是考虑了各候选词与待提取关键词的文本之间语义关系得到的，使得基于计算得到的各候选词与待提取关键词的文本之间的相似度，提取的关键词与文本之间的匹配度更高，提高了提取文本中关键词的准确程度。

需要说明的是，本发明实施例的装置是与图1所示的一种基于神经网络的关键词提取方法对应的装置，图1所示的一种基于神经网络的关键词提取方法的所有实施例均适用于该装置，且均能达到相同的有益效果。

可选地，如图6所示，上述预处理模块402，包括：

分词子模块4021，用于对待提取关键词的文本进行分词处理，得到多个词语。

过滤子模块4022，用于利用预设停用词表对多个词语进行过滤，得到过滤后的词语。

第一确定子模块4023，用于将过滤后的词语确定为候选词。

第二确定子模块4024，用于将过滤后的词语中具有预设词性的词语确定为候选词；其中，预设词性包括：名词、动词和形容词。

可选地，如图7所示，上述一种基于神经网络的关键词提取装置还可以包括：

构建模块501，用于构建初始神经网络模型。

第一训练模块502，用于将样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签，输入初始神经网络模型。

第一获得模块503，用于利用初始神经网络模型，得到各样本候选词对应的类别标签。

计算模块504，用于基于各样本候选词对应的类别标签与真值标签的差异，计算损失函数。

第二获得模块505，用于对损失函数进行最小化处理，得到最小化损失函数。

确定模块506，用于根据最小化损失函数，确定初始神经网络模型中各模块的权重参数。

第二训练模块507，用于基于权重参数对初始神经网络模型中的参数进行更新，训练得到神经网络。

可选地，上述损失函数的表达式为：

表示神经网络的结构参数，

表示基于神经网络的结构参数

的损失函数，p(k_i|t_i)表示第i个待提取关键词的文本t_i对应的关键词为ki的概率，

的相似度。

可选地，上述计算模块405，具体用于：

基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，使用如下表达式，计算各候选词与待提取关键词的文本之间的相似度：

其中，

表示候选词h与待提取关键词的文本t基于神经网络的结构参数

的相似度，

表示待提取关键词的文本t对应的第二特征向量，

表示候选词h对应的第二特征向量，

为

的转置。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现本发明实施例所提供的一种基于神经网络的关键词提取方法的步骤。

本发明实施例提供的一种电子设备，可以在对所获取的待提取关键词的文本进行预处理，得到待提取关键词的文本对应的候选词后，将待提取关键词的文本和各候选词，分别输入BERT中，得到表示文本初始语义的、待提取关键词的文本对应的第一特征向量，以及表示候选词初始语义的、各候选词对应的第一特征向量，然后，将待提取关键词的文本对应的第一特征向量，以及各候选词对应的第一特征向量，分别输入预先训练好的神经网络中，获得更适合于关键词提取的语义向量，得到待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，再基于待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，计算各候选词与待提取关键词的文本之间的相似度，在此过程中，因得到的待提取关键词的文本对应的第二特征向量，以及各候选词对应的第二特征向量，是考虑了各候选词与待提取关键词的文本之间语义关系得到的，使得基于计算得到的各候选词与待提取关键词的文本之间的相似度，提取的关键词与文本之间的匹配度更高，提高了提取文本中关键词的准确程度。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一一种基于神经网络的关键词提取方法的步骤，以达到相同的有益效果。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一一种基于神经网络的关键词提取方法，以达到相同的有益效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD(Digital Versatile Disc，数字多功能光盘))、或者半导体介质(例如SSD(Solid StateDisk，固态硬盘))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于神经网络的关键词提取方法，其特征在于，所述方法包括：

获取待提取关键词的文本；

将所述待提取关键词的文本和各所述候选词，分别输入基于转换器的双向编码器BERT中，得到所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量；其中，所述待提取关键词的文本对应的第一特征向量，用于表示待提取关键词文本的初始语义，所述候选词对应的第一特征向量，用于表示候选词的初始语义；

将所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量，分别输入预先训练好的神经网络中，得到所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量；其中，所述预先训练好的神经网络是根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到的，所述样本候选词对应的真值标签，用于表示该候选词是否是对应样本文本的关键词；

2.根据权利要求1所述的方法，其特征在于，所述对所述待提取关键词的文本进行预处理，得到所述待提取关键词的文本对应的候选词的步骤，包括：

对所述待提取关键词的文本进行分词处理，得到多个词语；

将所述过滤后的词语确定为候选词；

3.根据权利要求1或2所述的方法，其特征在于，所述神经网络的训练过程，包括：

构建初始神经网络模型；

对损失函数进行最小化处理，得到最小化损失函数；

4.根据权利要求3所述的方法，其特征在于，所述损失函数的表达式为：

其中，ti表示第i个待提取关键词的文本，ki表示第i个待提取关键词的文本ti中的关键词，

表示神经网络的结构参数，

表示基于神经网络的结构参数

的损失函数，p(k_i|t_i)表示第i个待提取关键词的文本ti对应的关键词为ki的概率，

的相似度。

5.根据权利要求1所述的方法，其特征在于，所述基于所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量，计算各所述候选词与所述待提取关键词的文本之间的相似度的步骤，包括：

其中，

的相似度，

表示待提取关键词的文本t对应的第二特征向量，

表示候选词h对应的第二特征向量，

为

的转置。

6.一种基于神经网络的关键词提取装置，其特征在于，所述装置包括：

获取模块，用于获取待提取关键词的文本；

第一特征提取模块，用于将所述待提取关键词的文本和各所述候选词，分别输入基于转换器的双向编码器BERT中，得到所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量；其中，所述待提取关键词的文本对应的第一特征向量，用于表示待提取关键词文本的初始语义，所述候选词对应的第一特征向量，用于表示候选词的初始语义；

第二特征提取模块，用于将所述待提取关键词的文本对应的第一特征向量，以及各所述候选词对应的第一特征向量，分别输入预先训练好的神经网络中，得到所述待提取关键词的文本对应的第二特征向量，以及各所述候选词对应的第二特征向量；其中，所述预先训练好的神经网络是根据样本文本对应的第一特征向量，样本候选词对应的第一特征向量，以及样本候选词对应的真值标签训练得到的，所述样本候选词对应的真值标签，用于表示该候选词是否是对应样本文本的关键词；

7.根据权利要求6所述的装置，其特征在于，所述预处理模块，包括：

第一确定子模块，用于将所述过滤后的词语确定为候选词；

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

构建模块，用于构建初始神经网络模型；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。