CN110263323A

CN110263323A - 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统

Info

Publication number: CN110263323A
Application number: CN201910379144.5A
Authority: CN
Inventors: 肖朝军; 曾国洋; 钟皓曦; 刘知远
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-09-20
Anticipated expiration: 2039-05-08
Also published as: CN110263323B

Abstract

本发明实施例提供一种基于栅栏式长短时记忆神经网络的关键词抽取方法及系统，所述方法包括：将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列；将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果；其中，所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息；其中，所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。本发明实施例可以应对智慧司法领域中的复杂输入，在不依赖分词的情况下获取词的语义信息，实现关键词抽取在智慧司法领域的性能提升。

Description

基于栅栏式长短时记忆神经网络的关键词抽取方法及系统

技术领域

本发明涉及自然语言处理以及智慧司法领域，更具体地，涉及一种基于栅栏式长短时记忆神经网络的关键词抽取方法及系统。

背景技术

关键词抽取旨在从信息化的文本中，提取出最重要的成分，通过有限个的关键词，尽可能的还原信息化文本中原本的含义。在传统的数据挖掘中，关键词抽取的方法被用在了各种各样的数据上，提取出的关键词可被用于检索、分类等多种具有实用性的任务中，并起到核心作用。可以说，关键词抽取的技术不仅可以更好的从文本中提取信息，还可以在海量的信息化文本中构建起特征的桥梁。通过关键词的提取，可以在海量的数据之间建立起基于关键信息的联系，而后在这样的基础上进行工作可以创造出更大的价值。关键词提取的技术在各行各业都有着广阔的应用场景。

虽然传统的关键词抽取方法已经被广泛应用，但是它也存在着许多不可避免的问题。在传统方法中关键词的提取通常是基于分词的，而基于分词的方法在许多领域并不可行，特别是在智慧司法领域。在智慧司法领域中，由于复杂的语言环境、司法化的特有描述、频繁出现的各式各样的人名与地名等因素，现有的所有分词方法均不能很好的处理智慧司法中信息化的文本，因此传统的基于分词的关键词提取技术也不能在智慧司法领域发挥效果。

为了在智慧司法领域进行可靠的关键词抽取，必须放弃基于分词的传统方法，放弃从词到词的关键词预测，让关键词的提取方法不依赖于分词的效果。但是如果只着眼于从字到字的关键词抽取方法也是不可行的，之前已经有不少工作在字到字的关键词预测方面做了实验，这些实验都不约而同的表明，只基于字的方法结果会比只基于词的方法效果更差。

因此，如何提供一种新的不依赖于分词的关键词抽取技术，能够应对智慧司法领域中可能出现的各种输入，例如人名、地名、法律术语等，做到在复杂的语言环境下提取文本特征，最终提高智慧司法领域关键词抽取的效果，显得尤为迫切。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于栅栏式长短时记忆神经网络的关键词抽取方法及系统。

第一方面，本发明实施例提供一种基于栅栏式长短时记忆神经网络的关键词抽取方法，包括：

将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列；

将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果；

其中，所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息；

其中，所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。

第二方面，本发明实施例提供一种基于栅栏式长短时记忆神经网络的关键词抽取系统，包括：

文本编码模块，用于将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列；

关键词识别模块，用于将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于栅栏式长短时记忆神经网络的关键词抽取方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的基于栅栏式长短时记忆神经网络的关键词抽取方法的步骤。

本发明实施例提供的基于栅栏式长短时记忆神经网络的关键词抽取方法及系统，通过采用预先训练好的文本编码模型，能够将输入文本中的语义信息、词语义信息和上下文信息编码到一个统一的连续空间中，得到包含有人名、地名以及普通词语的低维度混合特征向量，然后将这些向量作为关键词识别模型的输入，从而获得关键词抽取的结果，实现了不依赖于分词的关键词抽取，有效地提升了对智慧司法领域中的法律文本关键词抽取的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于栅栏式长短时记忆神经网络的关键词抽取方法的流程示意图；

图2为本发明实施例提供的文本编码模型的编码层网络结构示意图；

图3为本发明实施例提供的一种基于栅栏式长短时记忆神经网络的关键词抽取系统的结构示意图；

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使完全不依赖于分词的字到字的关键词抽取方法能有超过传统方法的关键词提取效果，我们提出了一种新型的基于栅栏式长短时记忆神经网络的关键词抽取方法，不仅保留了字到字关键词提取模型的特征，同时还兼顾了输入信息化文本中可能包含的词语信息。通过这种字与词语并重的方法，不仅可以保留基于分词方法得到的词语信息，还可以从输入中学习到人名、地名等传统分词方法无法处理的信息，从而在不依赖分词的基础上得到远超于传统方法的效果。

如图1所示，为本发明实施例提供的基于栅栏式长短时记忆神经网络的关键词抽取方法的流程示意图，包括：

步骤100、将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列；

具体地，给定一个智慧司法领域待抽取关键词的法律文本语料，对于所述法律文本语料中的每个字和出现的词语，采用基于栅栏式长短时记忆神经网络的文本编码模型，首先将其编码到低维度的连续空间中，从而得到对应其语义的空间嵌入表示，这些空间嵌入表示包括字向量序列和一系列词向量，由于这些向量包含了字与词语的语义信息，但是并不包含其在具体句子中的上下文相关信息，因此，还需通过所述文本编码模型对这些空间嵌入表示进行进一步编码，从而得到多个文本语义特征向量，构成文本语义特征向量序列。通常来说，对于一段长度为L的文本，文本编码模型会输出长度为L的文本语义特征向量序列。

其中，所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息。

可以理解的是，基于栅栏式长短时记忆神经网络的文本编码模型能够将待抽取关键词的法律文本语料文本中的语义信息、词语义信息和上下文信息编码到一个统一的连续空间中，文件语义特征向量序列能够较为全面地反映所述待抽取关键词的法律文本语料中所包含的语义信息。

步骤101、将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果；

具体地，在利用所述文本编码模型对待抽取关键词的法律文本语料进行特征提取，获得包含了字语义信息、词语义信息和上下文信息的文本语义特征向量序列后，将所述文本语义特征向量序列输入至关键词识别模型中，关键词识别模型能够基于述文本语义特征向量序列，有效地提取法律文本语料中的关键词。

在本发明实施例中，所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。联合训练是指文本编码模型和关键词识别模型在一个统一的连续空间中同时训练。

可以理解的是，将所述法律文本语料样本作为输入，将所述法律文本语料样本中标注的关键词作为期望的输出，对所述文本编码模型和关键词识别模型同时进行训练，训练结束后获得的文本编码模型能够有效地提取输入的法律文本语料中的字语义信息、词语义信息和上下文信息，训练结束后获得的关键词识别模型能够基于文本编码模型的输出结果有效地提取法律文本语料中的关键词。

本发明实施例提供的基于栅栏式长短时记忆神经网络的关键词抽取方法，通过采用预先训练好的文本编码模型，能够将输入文本中的语义信息、词语义信息和上下文信息编码到一个统一的连续空间中，得到包含有人名、地名以及普通词语的低维度混合特征向量，然后将这些向量作为关键词识别模型的输入，从而获得关键词抽取的结果，实现了不依赖于分词的关键词抽取，有效地提升了对智慧司法领域中的法律文本关键词抽取的效果。

基于上述实施例的内容，所述将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列的步骤，具体为：

将待抽取关键词的法律文本语料输入到文本编码模型的输入层进行预处理，获得所述法律文本语料对应的字向量序列和一系列词向量；

将所述法律文本语料对应的字向量序列和一系列词向量输入到文本编码模型的编码层进行联合编码，获得文本语义特征向量序列。

具体地，所述基于栅栏式长短时记忆神经网络的文本编码模型包括输入层和编码层。

所述文本编码模型的输入层包括用于提取字向量的BERT模型和用于提取词向量的word2vec模型。

法律文本语料中通常包含多个句子，每个句子又可以拆分为字的序列其中，为第i个字，i＝1,2,...,L，同时连续的相邻几个字还有可能会组成一个词，用表示一个由构成的词，表示由第b个字到第e个字所组成的词，D为所述字序列所组成的所有可能的词集合。输入层的功能就是将输入的法律文本语料中所包含的字序列与词信息转化为对应的低维语义向量。对于字的语义向量，可以利用预先在巨大语料库中训练好的BERT模型从所述法律文本语料中提取出字向量，用得到的k^c维度向量作为对应字的语义表示向量。对于词的向量，可以采用word2vec模型在大规模的智慧司法领域语料上提前训练，从而得到了词语的k^c维度向量作为对应词语的语义表示向量。将待抽取关键词的法律文本语料输入到文本编码模型的输入层进行预处理，可以获得所述法律文本语料对应的字向量序列和一系列词向量。

这些向量仅包含了字与词语的语义信息，但是不包含其在具体句子中的上下文相关信息，因此还需要利用编码层对这些向量进行进一步编码。将所述法律文本语料对应的字向量序列和一系列词向量输入到文本编码模型的编码层进行联合编码，从而获得包含了字语义信息、词语义信息和上下文信息的文本语义特征向量序列。

如图2所示，为本发明实施例提供的文本编码模型的编码层网络结构示意图，所述文本编码模型的编码层包括若干个词编码单元和字编码单元，其中，标记为C的圆圈表示字编码单元，标记为W的圆圈表示词编码单元。

所述词编码单元和字编码单元均采用栅栏式长短时记忆神经网络结构。根据栅栏式长短时记忆神经网络的循环单元结构，可知其计算过程如下：(1)首先利用上一时刻的外部状态h_t-1和当前时刻的输入x_t，计算出遗忘门f_t，输入门i_t和输出门o_t以及候选状态(2)结合遗忘门f_t和输入门i_t来更新记忆单元c_t；(3)结合输出门o_t，将内部状态的信息传递给外部状态h_t。

所述将所述法律文本语料对应的字向量序列和一系列词向量输入到文本编码模型的编码层进行联合编码，获得文本语义特征向量序列的步骤，具体为：

对于所述法律文本语料对应的一系列词向量中的任一词向量，将当前词向量、当前词向量的第一个字所对应的字编码单元输出结果和当前词向量的第一个字所对应的字编码循环神经元内部表示向量输入至所述词编码单元中，获取当前词向量对应的词编码循环神经元内部表示向量；

具体地，词编码单元的输入包括待编码的词向量(即当前词向量)、当前词向量的第一个字所对应的字编码单元输出和当前词向量的第一个字所对应的字编码循环神经元内部表示向量其输出可以定义为：

其中，表示两个向量之间的对位乘积，σ表示Sigmod激活函数，通常被定义为tanh表示双曲正切函数，和是词编码单元中的可学习参数，通过训练得到，为输入门，为遗忘门，为候选状态，为当前词向量对应的词编码循环神经元内部表示向量。

这里的词编码单元不直接提供最后的输出，但是其得到的循环神经单元内部表示向量将会为字编码单元提供原输入语句中词语的信息。由于考虑到了输入语句中出现的每一个可能的词语，文本编码模型可以在不依赖于分词的情况下提供词级别的语义信息，从而提升其在智慧司法领域的关键词抽取效果。

对于所述法律文本语料对应的字向量序列中的任一字向量，将当前字向量、当前字向量的前一个字向量所对应的字编码单元输出结果和以当前字向量所对应的字为结尾的词向量所对应的词编码循环神经元内部表示向量输入至所述字编码单元中，获取当前字向量对应的字编码信息和输出门信息；

具体地，对于所述法律文本语料对应的字向量序列中的任一字向量进行编码，字编码单元的输入为当前字向量当前字向量的前一个字向量所对应的字编码单元输出结果和以当前字向量所对应的字为结尾的词向量所对应的词编码循环神经元内部表示向量D为所有字组成的所有可能的词的集合。

字编码单元的输出可以定义为：

其中，σ同样表示Sigmod激活函数，tanh表示双曲正切函数，和是字编码单元中的可学习参数，通过训练得到，为输入门，为遗忘门，为输出门，为字编码信息。

计算以当前字向量所对应的字为结尾的词向量所占的权重和所述当前字向量对应的字编码信息所占的权重；

具体地，对字进行编码可以得到一个只包含字语义信息的不完整编码为了将词编码单元的输出信息融合进去，还需要在的基础上进行一些后继的处理。可以注意到，输入语句中出现的以第e个字结尾的词可能不止一个，例如“桥”、“大桥”、“长江大桥”它们都有相同的结尾，因此需要考虑到不同词对编码信息的贡献，一个词向量对字的编码的贡献被定义为如下形式：

其中，表示从第b到第j个字构成的词语对当前字向量的编码贡献，也即以当前字向量所对应的字为结尾的词向量所占的权重，表示字编码信息对当前字向量的编码贡献，也即所述当前字向量对应的字编码信息所占的权重，D为所有字组成的所有可能的词的集合，和为可学习的参数，为以当前字向量所对应的字为结尾的词向量所对应的词编码循环神经元内部表示向量。

通过计算出不同词对当前字的贡献，可以加权得到当前字循环神经元内部表示向量即根据所述以当前字向量所对应的字为结尾的词向量所占的权重以当前字向量所对应的字为结尾的词向量所对应的词编码循环神经元内部表示向量所述当前字向量对应的字编码信息所占的权重以及当前字向量对应的字编码信息加权求和获得当前字向量对应的字编码循环神经元内部表示向量具体公式如下：

根据所述当前字向量对应的字编码循环神经元内部表示向量和当前字向量对应的输出门信息计算获得当前字向量对应的字编码单元输出结果；

具体地，采用如下公式得到当前字向量对应的字编码单元输出结果

其中，为当前字向量对应的输出门信息。

将所有字向量对应的字编码单元输出结果存入一个集合中，生成文本语义特征向量序列；

文本编码模块以一段文本为输入，最终的输出即为文本编码模块的输出。输出的向量序列包含了原文中的字语义信息、词语义信息与上下文信息，这些信息将会以低维连续向量的形式传递给关键词识别模块，用于后继的关键词预测功能。

本发明实施例将所述法律文本语料对应的字向量序列和一系列词向量输入到文本编码模型的编码层进行联合编码，实现了在基于字的编码模型中引入词的语义信息，让文本编码模型可以在不依赖分词的情况下同样获取到词的语义信息，从而提升模型的稳定性，丰富了关键词特征抽取的细节，实现了关键词抽取算法在智慧司法领域的性能提升，具有良好的实用性。

基于上述实施例的内容，所述将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果的步骤，具体为：

将所述文本语义特征向量序列输入至预先训练好的条件随机场模型中，利用维特比算法求解所述条件随机场模型的最优解，获得关键词抽取结果。

具体地，关键词识别模块以文本编码模块的输出为输入。对于一段长度为L的文本，文本编码模块会输出一段长度为L的向量序列而关键词识别模块则会将这些输入的特征序列，建立条件随机场模型，通过求解条件随机场模型的最优解作为关键词识别模块的输出。

其中条件随机场模型可以表达为以下形式：对于一系列输入s＝h₁,h₂,...,h_L以及一段预测序列y＝l₁,l₂,...,l_L，定义条件概率P_θ(y|s)表示给定输入为s的情况下y是输入序列s的正确预测输出的概率，具体形式如下：

这里的y′＝l₁',l₂',...,l_L'表示任意预测序列，和是模型中的可学习参数，在训练过程中这些参数将会不断进行更新。对于上述的条件随机场模型，使用维特比算法可以寻找到y_pred使得P(y|s)达到最大，而寻找到的y_pred即是关键词识别模块的最终输出。在最终的输出y_pred＝l₁,l₂,...,l_L中，l_i有四种可能的取值：(1)非关键词，(2)关键词的第一个字，(3)关键词中间的某个字，(4)关键词的最后一个字。可以根据关键词识别模块的输出，从输入文本中选取字序列作为关键词抽取的结果，从而达到不依赖于分词的关键词抽取。

基于上述实施例的内容，在所述将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中的步骤之前，还包括：训练所述文本编码模型和关键词识别模型，其中，训练所述文本编码模型和关键词识别模型的步骤，具体为：

构建法律文本语料样本集，所述法律文本语料样本集由带有关键词标注的法律文本语料样本组成；

构建基于栅栏式长短时记忆神经网络的文本编码模型和基于条件随机场模型的关键词识别模型；

将所述法律文本语料样本输入至所述基于栅栏式长短时记忆神经网络的文本编码模型中，获得所述法律文本语料样本对应的文本语义特征向量序列；

将所述法律文本语料样本对应的文本语义特征向量序列输入至所述基于条件随机场模型的关键词识别模型中，获得关键词识别结果；

根据所述关键词识别结果和所述法律文本语料样本中标注的关键词计算损失，并通过反向传播所述损失更新所述文本编码模型的参数和关键词识别模型的参数；

判断是否达到训练结束条件，若是，则保存当前迭代所述文本编码模型的参数和关键词识别模型的参数，获得训练完成的文本编码模型和关键词识别模型，否则输入下一个法律文本语料样本进行训练。

具体地，本发明实施例设计了一个将文本编码模型与关键词识别模型进行联合学习的通用框架，对于整个联合学习框架来说，设计目的是让框架可以支持文本编码模型和关键词识别模型在一个统一的连续空间中同时训练，从而可以让文本编码模块得到的特征与关键词识别模块共享。将所有的嵌入表示以及模型中涉及的参数都定义为模型参数，并用符号θ＝{θ_W,θ_C,θ_E,θ_CRF}表示，其中，θ_W,θ_C,θ_E,θ_CRF分别表示词嵌入、字嵌入、文本编码模型和关键词识别模型的相关参数。如果将对框架的性能要求形式化描述的话，模型需要做的就是找到一组最优的参数满足：

其中P_θ(Y(x)|x)是一个定义出的条件概率，用于刻画给定文本、关键词与模型参数θ的情况下，模型对关键词特征的表达能力、拟合能力。更直观一点的表达，训练框架的任务就是找到最好的模型参数使得模型能够最大程度的拟合文本语义信息，让模型的关键词预测结果尽可能的接近正确的关键词。

在学习框架中，随机初始化模型参数θ，并采用了多轮的训练机制，将一系列人工标注好关键词的语料数据随机打乱，并划分为很多训练组。在每一轮训练中，将法律文本语料样本作为输入，从而得到P_θ(Y(x)|x)，使用对数似然函数来度量当前解到最优解的距离，通过Adam、SGD等优化方法对当前的参数θ进行修正。经过多轮修正后θ逐渐收敛到即可以认为找到了一个接近于最优参数的较优参数然后可以将较优的参数带入文本编码模块和关键词识别模块，最终进行关键词抽取。

这里P_θ(Y(x)|x)表示模型参数θ为时，将x作为文本编码模块的输入后从关键词识别模块认为Y(x)是其正确输出的概率；Y(x)表示对于智慧司法文本x的人工标注的关键词信息。

如图3所示，为本发明实施例提供的一种基于栅栏式长短时记忆神经网络的关键词抽取系统的结构示意图，包括：文本编码模块301和关键词识别模块302，其中，

文本编码模块301，用于将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列；

具体地，给定一个智慧司法领域待抽取关键词的法律文本语料，对于所述法律文本语料中的每个字和出现的词语，文本编码模块301采用基于栅栏式长短时记忆神经网络的文本编码模型，首先将其编码到低维度的连续空间中，从而得到对应其语义的空间嵌入表示，这些空间嵌入表示包括字向量序列和一系列词向量，由于这些向量包含了字与词语的语义信息，但是并不包含其在具体句子中的上下文相关信息，因此，还需通过所述文本编码模型对这些空间嵌入表示进行进一步编码，从而得到多个文本语义特征向量，构成文本语义特征向量序列。通常来说，对于一段长度为L的文本，文本编码模型会输出长度为L的文本语义特征向量序列。

关键词识别模块302，用于将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果；

具体地，在利用所述文本编码模型对待抽取关键词的法律文本语料进行特征提取，获得包含了字语义信息、词语义信息和上下文信息的文本语义特征向量序列后，关键词识别模块302将所述文本语义特征向量序列输入至关键词识别模型中，关键词识别模型能够基于述文本语义特征向量序列，有效地提取法律文本语料中的关键词。

本发明实施例提供的基于栅栏式长短时记忆神经网络的关键词抽取系统，通过采用预先训练好的文本编码模型，能够将输入文本中的语义信息、词语义信息和上下文信息编码到一个统一的连续空间中，得到包含有人名、地名以及普通词语的低维度混合特征向量，然后将这些向量作为关键词识别模型的输入，从而获得关键词抽取的结果，实现了不依赖于分词的关键词抽取，有效地提升了对智慧司法领域中的法律文本关键词抽取的效果。

基于上述实施例的内容，所述文本编码模块301具体包括：

预处理子模块，用于将待抽取关键词的法律文本语料输入到文本编码模型的输入层进行预处理，获得所述法律文本语料对应的字向量序列和一系列词向量；

编码子模块，用于将所述法律文本语料对应的字向量序列和一系列词向量输入到文本编码模型的编码层进行联合编码，获得文本语义特征向量序列。

预处理子模块和编码子模块用于执行上述方法实施例中的将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列的步骤。因此，在前述各方法实施例中的的描述和定义，可以用于本发明实施例中预处理子模块和编码子模块的理解，在此不再赘述。

图4为本发明实施例提供的电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储在存储器430上并可在处理器410上运行的计算机程序，以执行上述各方法实施例所提供的基于栅栏式长短时记忆神经网络的关键词抽取方法，例如包括：将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列；将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果；其中，所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息；其中，所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例提供的基于栅栏式长短时记忆神经网络的关键词抽取方法，例如包括：将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列；将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果；其中，所述文本语义特征向量序列包含了所述待抽取关键词的法律文本语料中的字语义信息、词语义信息和上下文信息；其中，所述文本编码模型和所述关键词识别模型是根据带有关键词标注的法律文本语料样本进行联合训练后获得的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于栅栏式长短时记忆神经网络的关键词抽取方法，其特征在于，包括：

2.根据权利要求1所述的基于栅栏式长短时记忆神经网络的关键词抽取方法，其特征在于，所述将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中，获得文本语义特征向量序列的步骤，具体为：

将待抽取关键词的法律文本语料输入到所述文本编码模型的输入层进行预处理，获得所述法律文本语料对应的字向量序列和一系列词向量；

将所述法律文本语料对应的字向量序列和一系列词向量输入到所述文本编码模型的编码层进行联合编码，获得文本语义特征向量序列。

3.根据权利要求2所述的基于栅栏式长短时记忆神经网络的关键词抽取方法，其特征在于，所述文本编码模型的输入层包括用于提取字向量的BERT模型和用于提取词向量的word2vec模型，所述文本编码模型的编码层包括词编码单元和字编码单元，所述词编码单元和字编码单元均采用栅栏式长短时记忆神经网络结构。

4.根据权利要求3所述的基于栅栏式长短时记忆神经网络的关键词抽取方法，其特征在于，所述将所述法律文本语料对应的字向量序列和一系列词向量输入到所述文本编码模型的编码层进行联合编码，获得文本语义特征向量序列的步骤，具体为：

根据所述以当前字向量所对应的字为结尾的词向量所占的权重、以当前字向量所对应的字为结尾的词向量所对应的词编码循环神经元内部表示向量、所述当前字向量对应的字编码信息所占的权重以及当前字向量对应的字编码信息，计算获得当前字向量对应的字编码循环神经元内部表示向量；

将所有字向量对应的字编码单元输出结果存入一个集合中，生成文本语义特征向量序列。

5.根据权利要求1所述的基于栅栏式长短时记忆神经网络的关键词抽取方法，其特征在于，所述将所述文本语义特征向量序列输入至关键词识别模型中，获得关键词抽取结果的步骤，具体为：

6.根据权利要求1所述的基于栅栏式长短时记忆神经网络的关键词抽取方法，其特征在于，在所述将待抽取关键词的法律文本语料输入到基于栅栏式长短时记忆神经网络的文本编码模型中的步骤之前，还包括：训练所述文本编码模型和关键词识别模型，其中，训练所述文本编码模型和关键词识别模型的步骤，具体为：

7.一种基于栅栏式长短时记忆神经网络的关键词抽取系统，其特征在于，包括：

8.根据权利要求7所述的基于栅栏式长短时记忆神经网络的关键词抽取系统，其特征在于，所述文本编码模块具体包括：

预处理子模块，用于将待抽取关键词的法律文本语料输入到所述文本编码模型的输入层进行预处理，获得所述法律文本语料对应的字向量序列和一系列词向量；

编码子模块，用于将所述法律文本语料对应的字向量序列和一系列词向量输入到所述文本编码模型的编码层进行联合编码，获得文本语义特征向量序列。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于栅栏式长短时记忆神经网络的关键词抽取方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于栅栏式长短时记忆神经网络的关键词抽取方法的步骤。