CN110119765A

CN110119765A - 一种基于Seq2seq框架的关键词提取方法

Info

Publication number: CN110119765A
Application number: CN201910313279.1A
Authority: CN
Inventors: 孟利民; 郑申文; 蒋维; 应颂翔; 林梦嫚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-08-13
Anticipated expiration: 2039-04-18
Also published as: CN110119765B

Abstract

一种基于Seq2seq框架的关键词提取方法，利用Seq2seq框架创建序列模型，引入注意力机制，提取文本中关键词的特征，并在解码端融入指针网络模型和Coverage机制来提高潜在关键词的注意力分布，然后采用softmax损失函数来训练网络模型，最终在模型预测阶段，利用Beam Search集束搜索算法生成一个最大概率的关键词序列作为关键词结果集，得到合适的关键词。本发明方法很好的考虑到长文本中的深层次语义，结合上下文信息语境，计算词语的分布概率，并更好的解决了低频词和生成式任务重复问题，提高了关键词提取的准确率。

Description

一种基于Seq2seq框架的关键词提取方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于Seq2seq框架的关键词提取方法。

背景技术

随着移动互联网技术、电子商务、以及社交媒体的迅速发展，使得现阶段的文本数据呈现爆炸式增长，据市场研究调查显示，每两年全球的数据量便翻一番，以这样惊人的速度增长，必然给人们造成信息过载的问题。目前，在这浩瀚的数据宇宙中，其组成大多数是非结构化的文本数据，如何从这些文本数据中抽取有用的信息，解决信息过载问题，已成为当前的一个迫切需求。

关键词抽取作为文本挖掘中一项重要的技术，是信息检索、文本分类以及推荐系统等的基础性和必要性的工作，已成为专家学者们的研究热点。文本关键词浓缩了整篇文档的主旨和要义，是对一篇文本的高度概括。通过从一篇文本中提取具有概括功能的词或短语，可以帮助用户快速检索到用户所需要的信息以及快速的判定文本的需要性，并有效的解决了信息过载的问题。

现阶段提取关键词的方法有很多，采用的主要方法有基于统计TF-IDF的算法、基于图模型的TextRank算法以及基于主题模型的LDA算法。但大多数是利用词频、位置等信息来作为衡量关键词的重要特征，这种方式提取的关键词不能很好的概括文本内容，无法很好的获取句子之间以及关键词之间的深层次语义联系，会造成潜在的有用关键词无法提取出来，从而使抽取的关键词的查准率和查全率都不高。

关键词抽取的词频权重特征、词图共现特征以及文档主题特征都是显式特征，随着深度学习的兴起，特别是Word2vec词向量的提出，使得词嵌入向量能够融入到通过深度学习得到的显式特征中。随着序列到序列框架的提出，利用神经网络模型去学习关键词的特征及其上下文信息，提取文章关键词，从而提高了关键词的查准率和查全率。但这种方式提取的关键词，是基于训练数据生成的词表中的词或短语，如果文本集中的词或短语不在词表中，将会用UNK符号进行标记，对于这些被标记的低频词，无法被解码器正确解码，造成关键词丢失。同时，对于基于循环神经网络模型的生成式任务，由于其自身的局限性，生成的关键词会有重复的现象。而且文本长度越长，重复现象越严重，严重的时候解码器会一直重复上一时间节点的词语。

在当前大数据的背景下，关键词提取作为一项极其重要的基础性工作，得到了大量的研究和实践。但基于神经网络模型抽取关键词的现阶段研究却很少，随着Seq2seq框架的提出，这一方法逐渐成为了研究热点。专利申请号CN201810211285.1提出了一种基于Seq2seq神经网络模型的关键词抽取方法，它在循环神经网络中引入了注意力机制和复制机制，使得该神经网络能够预测出词汇表和源文档以外的关键词，提高了关键词抽取的质量。但对于其生成的关键词的重复现象，没有给出一种解决方法。

发明内容

本发明为克服上述不足之处，提供一种基于Seq2seq框架的关键词提取方法。本发明利用Seq2seq框架创建序列模型，引入注意力机制，提取文本中关键词的特征，并在解码端融入指针网络模型和Coverage机制来提高潜在关键词的注意力分布，然后采用softmax损失函数来训练网络模型，最终在模型预测阶段，利用Beam Search集束搜索算法生成一个最大概率的关键词序列作为关键词结果集，得到合适的关键词。本发明方法很好的考虑到司法长文本中的深层次语义，结合上下文信息语境，计算词语的相关度，并更好的解决了低频词和生成式任务重复问题，提高了关键词提取的准确率。

一种基于Seq2seq框架的关键词提取方法，包括如下步骤：

(1)收集司法领域的不同类别的裁判文书数据，并对不同类别的裁判文书数据进行预处理，得到训练数据。具体步骤如下：

(1.1)收集数据：收集司法领域的不同类别的裁判文书，有婚姻家庭类、交通事故类以及劳动纠纷类等。

(1.2)数据初步预处理：由于数据文本质量对训练出的模型产生重大的影响，需对相似的文本去重，低质量文本过滤，较短的文本删除等处理。

(1.3)关键词提取：由于采用的是基于Seq2seq框架进行关键词提取，故需要在人工干预的情况下，用相关的关键词提取算法对裁判文书进行关键词提取，并对提取的关键词进行复检，形成满足训练所需的文本关键词对。

(1.4)对文本进行分词：利用结巴分词对司法文本进行中文分词，并建立停用词典和自定义词典，提高分词质量。

(1.5)统计词频并排序：统计文本内容和关键词中每个单词出现的频率，并对词频进行降序排序，生成词表。

(1.6)文本向量化：将词表中的词语转化为词向量(word embedding)的形式。其中词向量是根据步骤(1.5)得到的词表对其进行one-hot编码得到的矩阵M，利用word2vec训练词向量，构建|V|*d的向量矩阵，其中权值的矩阵用N表示，V代表词表的大小，d代表词向量的维度。最后得到每个词语的词向量：Q＝M*N。

作为优选，步骤(1.3)的关键词提取算法采用基于统计的TF-IDF算法与基于图模型的TextRank算法相结合，提取文本关键词，并进行人工复检。

作为优选，所述步骤(1.4)处理得到分词过后的文本关键词对，将它划分为三个部分，按照8:1:1的比例将其分为训练集样本A1、验证集样本A2以及测试集样本A3。

(2)采用Seq2seq框架创建序列模型，引入注意力机制，提取文本中关键词的特征，同时在解码端融入指针网络模型和Coverage机制来提高潜在关键词的注意力分布，并利用交叉熵损失函数度量神经网络的预测值，计算与实际值的差距，利用梯度下降法不断进行迭代优化，得到一个最佳的模型并保存。具体步骤如下：

(2.1)encoder-decoder框架(Seq2seq)：编码器-解码器的序列转换框架是一种应用于Sequence to Sequence这一类序列转换问题的神经网络框架，其中编码器就是将输入的文本序列转化为语义向量，解码器就是将编码器转化出的语义向量再次转化成文本序列。假设输入文本序列[w₀,w₁,…,w_n,EOS]，将该序列用词向量进行表示得到[x₀,x₁,…,x_n,EOS]，其中EOS为句末标记。循环神经网络(RNN)作为基本的神经网络对输入序列和输出序列进行学习，在编码端，RNN通过不断地将上一次的输出作为当前时刻的输入，共享神经网络单元和参数，每一个时刻使用同一个网络单元，将长度不一的输入序列转化为固定维度的向量。RNN每一个时刻神经网络单元的计算公式如下所示：

h_(t)＝f(h_(t-1),y_t-1,c) (1)

其中h_(t)为隐藏层的状态，h_(t-1)为上一时刻隐藏层的状态，y_t-1为上一时刻的输出作为当前时刻的输入，c为编码后的语义向量，f是一个非线性的激活函数，f可以是双曲正切函数tanh或者sigmoid函数(0-1之间)。

在解码端，由编码器最终输出的语义编码c和前一次生成的输出序列[y₀,y₁,…,y_t-1]计算本次的输出y_t。解码器需要经过一个输出层softmax，来计算解码时刻对应于词表中每个单词的概率。其表达式为：

P(y_t|y_t-1,y_t-2,…,y₁,c)＝g(h_(t),y_t-1,c) (2)

对于整个输入编码和解码过程中，本发明使用梯度优化算法以及最大似然条件概率为损失函数来进行模型的训练和优化。其表达式为：

其中θ为相应模型中的参数，x_n为输入序列，y_n为输出的序列。

作为优选，其中输入序列[x₀,x₁,…,x_n]作为一个batch，但输入的文本肯定会有长短不一，又要求编码成相同的文本长度，则将每个batch中的最大序列(max_seq)作为每一批次的固定文本长度，不足的文本则在样本后面用PAD进行标记，batch取值为L。

(2.2)引入注意力机制：由步骤(2.1)中编码端得到最终的语义向量c，是作为编码和解码直接的唯一桥梁，当输入序列为较长的文本向量时，在编码解码时会造成数据特征丢失严重和细节信息缺失问题，故引入注意力机制(Attention Mechanism)。假设在预测当前i时刻的词语时，在注意力机制的作用下，不仅会关注在相对应的时刻下编码最终生成的语义向量c，还会关注原输入序列所有单词，并生成每个单词c_i在相对应的时刻的概率分布。其词语权重表达式为：

e_ij＝a(s_i-1,h_j) (4)

其中s_i-1为解码器上一个隐藏层的状态，h_j为编码器端j时刻输出的向量。

所有词语权重计算出来之后，需要对其进行归一化处理，其表达式为：

最后对它们的结果进行求和传送给c_i。其表达式如下：

其中T_x代表源输入文本的长度，h_j是源输入文本中第j个单词的语义编码，a_ij代表在目标输出第i个词语时源输入文本中第j个单词的注意力分配系数，c_i为上下文向量(context vector)。

(2.3)融合解码器注意力的指针网络模型：由步骤(2.2)得到的结果，其提取的关键词局限于词表的规模，对于不在词表中且出现在原文本中词语，通常会被标记为unknownword(UNK)，这些未登录词无法被正确解码。为了解决未登录词(OOV)的问题，故融合解码器注意力的指针网络模型，将解码端最后输出预测序列的概率，分为生成模式和拷贝模式，对OOV词采用拷贝模式。解码器注意力中包含了两个部分，第一个部分是词表，用one hot向量表示，第二部分是encoder的隐藏状态，即输入的句子，之所以用隐藏状态是因为里面包含有位置信息，这个对词语生成很重要。其公式表达为：

p(y_t|h_t,y_t-1,c_t,M)＝p(y_t,c|h_t,y_t-1,c_t,M)+p(y_t,g|h_t,y_t-1,c_t,M) (7)

其中M是输入隐藏层状态的集合，c_t是注意力权重，h_t是输出的隐藏状态，g代表生成模式，c代表拷贝模式。生成模式还是拷贝模式是取决于概率大小来进行选择，加了一个简单的规则限制，如果y_t在输入中没有出现，则p(y_t,c|s_t,y_t-1,c_t,M)＝0，会选择生成模式；如果y_t在输入中有出现且词表中没有，则p(y_t,g|s_t,y_t-1,c_t,M)＝0，会选择拷贝模式。

(2.4)融合覆盖机制：由于模型的局限性，即使引入了注意力机制，也无法很好的关注到已生成的关键词，它会忘记之前的信息，会重复性的关注相同的部分，从而提取的关键词会有重复现象。对于较长的文本序列，这一现象会更加严重。为了解决关键词提取重复性问题，故融合覆盖机制，对注意力机制部分做了一些改动。其表达式如下：

其中c不是编码端最终输出的语义向量，是一个新的参数：

其中c^t是一个长度为输入长度的向量，a^t′是注意力权重。加这个参数是为了让注意力机制知道其之前生成词的信息，如果之前生成过的单词那么需要对其进行抑制，主要通过loss函数加惩罚项进行抑制实现。其表达式为：

如果该词之前出现过，则就会变得很大，为了减小loss，需要变小(因为loss是取两者间较小值)，越小即这个词的位置被关注的概率就越小。

(2.5)在训练过程中，利用交叉熵损失函数度量神经网络的预测值，计算与实际值的差距，利用梯度下降法不断的优化函数，不断的进行迭代优化，得到一个最佳的模型M_A1并保存。

作为优选，步骤(2.5)中训练模型的方法为：

(i)设置超参数，利用Adagrad梯度下降法进行优化训练。

(ii)设置为训练模式，然后模型将会使用train.bin文件作为训练数据并开始训练，由于模型复杂，数据量较大，初始化模型和训练迭代速度较慢，为了加快训练速度，将降低最大编码时间步长(max_enc_steps)和最大解码时间步长(max_dec_steps)，这样可以在模型训练的早期阶段执行更快的迭代。

(iii)经过交叉验证，为了得到较好关键词结果集，需要在训练期间增加序列长度。在本实施例的训练过程中，通过逐步增加max_enc_steps和max_dec_steps，使训练的模型更好。在增加max_enc_steps和max_dec_steps时，需要中断训练进程，设置参数后再重新启动作业。

(iv)设置并发验证评估模式，然后模型将会使用eval.bin文件作为验证数据对正在训练的模型进行验证，并记录损失值。评估模式将保存到目前为止在验证数据上获得最低损失值的模型，通过不断的迭代训练，即可保存一个最佳模型M_A1。

(3)在模型测试阶段，采用集束搜索算法(Beam Search)生成一个最大概率的关键词序列作为关键词结果集，得到合适的关键词序列。具体步骤如下：

(3.1)设置解码测试模式，然后将会加载步骤(2.5)训练得到的最佳模型M_A1，使用test.bin文件作为测试数据并开始进行测试。

(3.2)利用Beam Search算法，在每一个时间步都取出最优的前K个词语。

(3.3)生成第一个词的时候，经过softmax层计算词表中各个词语的概率后，选择概率最高的前K个单词，则当前新序列为这K个单词组成的序列。

(3.4)不断循环迭代，直至已产生结束符号序列已达到K个或者达到设定的时间步则停止循环，取概率最高的序列最为最终的关键词序列，并将生成的关键词序列写入TXT文件，否则回到步骤(3.3)。

(4)采用准确率、召回率以及F1值对提取好的关键词进行评估。准确率计算公式如下：

召回率以及F1的计算公式如下:

其中，N为文档数量，P_i为文档i所提取的关键词，T_i是由步骤(1.3)得到的关键词。F1值为准确率和召回率评估指标的调和值，用于综合反应整体指标。

本发明采用的技术方案有以下技术特点：

(1)本发明采用一种融合解码器的指针网络模型(Pointer Networks)，将解码端最后输出预测序列的概率，分为生成模式和复制模式，使其能够更好的解决未登录词问题。

(2)本发明将注意力机制(Attention Mechanism)与覆盖机制(Coveragemechanism)相结合，有效的解决了Seq2seq模型生成句子中经常有重复片段的现象。

(3)本发明能够很好的考虑到司法长文本中的深层次语义，结合上下文信息语境，计算词语的分布概率，提高了关键词提取的准确度。

(4)利用集束搜索(Beam Search)算法，选择出现概率最大的词作为输出，并将该词作为下一个时间步的输入，从而生成一个最大概率的关键词序列作为关键词结果集，提高了生成关键词的准确率。

附图说明

附图1本发明的系统结构示意图

附图2是本发明的技术方案流程示意图

附图3是本发明的编码-解码流程示意图

附图4是本发明的提取结果示意图

具体实施方式

下面结合具体的实施实例对本发明进行详细说明，但本发明的保护范围不限于下述的实施例。

如图1所示，系统的结构包括：数据采集模块、数据预处理模块、特征提取模块、网络训练模块、测试评估模块；所述的数据采集模块用于爬取裁判文书数据，并对爬取的裁判文书数据进行结构化；数据预处理模块，对低质量的数据进行去短、去重、去噪，并进行文本分词，关键词提取并进行人工复检作为训练语料，统计词频并排序，文本向量化；特征提取模块，采用Seq2seq框架创建序列模型，引入注意力机制，提取文本中关键词的特征；网络训练模块，利用循环神经网络对输入的向量进行训练，得到最终的训练模型；测试评估模块，采用BeamSearch集束搜索算法生成一个最大概率的关键词序列作为关键词结果集，得到合适的关键词，并用正确率、召回率以及F1值对提取的关键词进行评估。

如图2所示，一种基于Seq2seq框架的关键词提取方法包括如下步骤：

(1)数据预处理

(1.1)收集数据：本实施例共收集近3万的裁判文书数据集，其中裁判文书类型为20大类。

(1.2)数据初步预处理：由于数据文本质量对训练出的模型产生重大的影响，需对相似的文本去重，低质量文本过滤，较短的文本删除等处理。利用Jaccard相似度算法对于相似的文本去重，相似阈值设为0.8；将字符长度小于100个的进行删除，利用正则匹配文本噪声较大的进行删除。

(1.3)关键词提取：根据步骤(1.2)数据初步的预处理，对文本数据进行关键词提取，形成文本关键词对。主要是在人工干预的情况下，建立司法领域的专业词典，将基于统计的TF-IDF算法与基于图模型的TextRank算法相结合，提取出5个关键词，并对提取的结果进行人工复检，形成文本关键词对。

(1.4)对文本进行分词：根据步骤(1.3)处理得到的文本关键词对，利用Jieba分词对司法文本进行中文分词，并建立停用词典，移除掉语气词、标点符号、数字以及特殊符号等；建立司法领域的自定义词典，使其能够分出原始词库中没有的词以及优先分出一些词，提高分词质量。

(1.5)数据分割：根据步骤(1.4)处理得到分词过后的文本关键词对，将它划分为三个部分，按照8:1:1的比例将其分为训练集样本A1、验证集样本A2以及测试集样本A3。

(1.6)统计词频并排序：根据步骤(1.5)处理得到分词过后的训练集样本中文本关键词对，统计文本内容和关键词中每个单词出现的频率，并对词频进行降序排序，生成一个vocab.bin文件的词表，词表大小为144276，在这里选取了词频为前50K的词语，主要是因为指针网络模型有能力处理未登录词(OOV)的能力。需要构建向量的词表如下：

(1.7)文本向量化：由步骤(1.6)得到词表大小为50K，根据词表对其进行one-hot编码，得到1*50K的矩阵M。在本实施例中，将每个词表示为一个维度为128的向量，即每个词语有128个特征，那么隐藏层则为|V|*d的向量矩阵，其中隐藏层的矩阵用N表示，V代表词表的大小，d代表词向量的维度。最后得到每个词语的词向量：Q＝M*N。

(2)采用Seq2seq框架，创建序列模型，提取数据特征

(2.1)文本嵌入：在本实施例中，为方便计算机更好的识别文本，对于文本中不在词表的词语用UNK进行标记，并在每个文本的开始处用START标记，末尾用EOS进行标记。在本实施例中，将一个个输入序列[x₀,x₁,…,x_n]作为一个batch，但输入的文本肯定会有长短不一，又要求编码成相同的文本长度，则将每个batch中的最大序列(max_seq)作为每一批次的固定文本长度，不足的文本则在样本后面用PAD进行标记。其中batch取值为16。假设当前的max_seq＝300，则输入一个文本序列[w₀,w₁,w₂,…,w_n](0≤n≤max_seq)，batch的结构为：

其中w_n＝w_{max_seq}＝w₃₀₀，w_0,1,…,n的词向量为[x₀,x₁,x₂,…,x_n](n＝128)。

每一批次输入数据的大小为shape＝(batch,d)，总共要输入max_seq＝300次。以此类推，对于司法文本的训练集A1最终的文本向量空间为V∈R^{[L/batch]*max_seq*shape}，其中L为训练集A1的文本总个数。

(2.2)将步骤(2)得到的文本向量作为Seq2seq编码端的输入，每一次编码，都会有一个隐藏层的状态，由公式(1)得到的隐藏层状态不仅由当前输入的词语向量有关，而且还与上一时刻编码的隐藏层状态有关。解码器的原理和编码器类似，解码完成各个时刻文本序列的隐藏层状态，再将其语义信息进行汇总，经过公式(6)计算得到文本语义信息编码c_i。其中编码示意图如图3-1所示。

最后解码器输出的结果需经过softmax层，由公式(2)计算得到在当前时刻输入的词语向量，词表中每一个词语的权重。在编码解码过程中，本实施例使用梯度优化算法以及最大似然条件概率为损失函数来进行模型的训练和优化，通过公式(3)来提高模型的训练效率，减小每次迭代的计算开销。其中解码示意图如图3-2所示。

(2.3)注意力模型通过接收由输入序列[h₀,h₁,…,h_n]和由步骤(2.2)得到的语义向量c_i，并返回向量Z，该向量是返回y_i的加权平均值，并且权重依赖于y_i和语义向量c_i的相关性。其中语义向量c_i是上下文信息，即已经生成的词语，h_i则是代表目标输出文本i-1时刻的隐层状态。接着将使用tanh层将语义向量c_i和h_i做一次聚合，得到序列[m₀,m₁,…,m_n]，再将得到的结果经过softmax进行归一化，就得到符合概率分布取值区间的注意力分配概率分布数值。则最终得到输出值Z，公式如下：

Z＝∑_is_ih_i (14)

其中s_i是m_i进行归一化的softmax值，h_i是代表目标输出文本i-1时刻的隐层状态。输出值Z是所有的h_i加权平均值。

(2.4)指针网络模型在预测的时候使用了一个扩展词表，可分为两部分，一部分为原来预设的基本词表，另一部分是源文本中出现的OOV未登录词。拷贝模式会利用编码器注意力概率分布来预测从源文本拷贝词的位置；生成模式会利用词表的概率分布来选择生成词。其中生成超出词汇的能力是指针网络模型的主要优势。

在本实施例中，源文本单词序列[x₀,x₁,…,x_n]，目标单词序列[y₀,y₁,…,y_n]，软开关序列[z₀,z₁,…,z_n]，指针网络模型就是为了最大化目标单词的概率。由于z_i不是只有0或1两种值，而是介于0和1之间的概率，通过阈值0.5来决定是通过指向复制单词，还是从固定词表中生成词。每一时间步生成词的可能性p_gen∈[0,1]，它是通过公式(7)计算得到的，p_gen作为一个软开关，来控制是从词汇表中生成词语，还是从输入序列中根据Attention的分布p_vocab通过抽样来复制一个词。

(2.5)对于生成模型的常见重复问题，而引入覆盖机制并与注意力机制相结合，可以影响注意力机制在每一个时刻输出词表中每个词语的权重，使得接下来的每一个时刻的生成任务中会更加关注未被覆盖的部分，从而有效的解决生成式任务的重复问题。

在本实施例中，通过引入一个新的参数c^t，长度为当前批次的最长文本(max_seq)的向量，加这个参数是为了让注意力机制知道其之前生成词的信息，如果之前生成过的单词那么需要对其进行抑制，主要通过loss函数加惩罚项进行抑制实现。通过公式(10)计算loss函数，如果该词之前出现过，则就会变得很大，为了减小loss，需要变小(因为loss是取两者间较小值)，越小即这个词的位置被关注的概率就越小，从而有效的抑制了生成词语的重复现象。

(2.6)本实施例采用Encoder和Decoder的层数为1，词向量的维度为128，隐藏层的大小为256维，Batch Size为16，词表大小为50000。利用Adagrad梯度下降法进行优化训练，学习率lr为0.15，初始累加器值为0.1。

(2.7)设置为训练模式，然后模型将会使用train.bin文件作为训练数据并开始训练，由于模型复杂，数据量较大，初始化模型和训练迭代速度较慢，为了加快训练速度，将降低最大编码时间步长(max_enc_steps)和最大解码时间步长(max_dec_steps)，这样可以在模型训练的早期阶段执行更快的迭代。本实施例中max_enc_steps初始化为100，max_dec_steps初始化为40。

经过交叉验证，为了得到较好关键词结果集，需要在训练期间增加序列长度。在本实施例的训练过程中，通过逐步增加max_enc_steps和max_dec_steps，使训练的模型更好。在增加max_enc_steps和max_dec_steps时，需要中断训练进程，设置参数后再重新启动作业。

(2.8)设置并发验证评估模式，然后模型将会使用eval.bin文件作为验证数据对正在训练的模型进行验证，并记录损失值。评估模式将保存到目前为止在验证数据上获得最低损失值的模型，通过不断的迭代训练，即可保存一个最佳模型M_A1。

(3)利用集束搜索算法，在预测阶段选择最优解，其中提取的部分结果如图4所示：

(3.1)设置解码测试模式，然后将会加载步骤(2.8)训练得到的最佳模型M_A1，使用test.bin文件作为测试数据并开始进行测试。

(3.2)利用Beam Search算法，在每一个时间步都取出最优的前K个词语。在本实施例中词表大小V为50K，并经过交叉验证，beam_size取值为5的时候，生成的关键词集的查准率和查全率会更高。

(3.3)生成第一个词的时候，经过softmax层计算词表中各个词语的概率后，选择概率最高的前5个单词，则当前新序列为这5个单词组成的序列。

(3.4)将最新产生的序列继续输入神经网络，进行下一步迭代，得到5*5个组合结果，并从已生成的序列中选择出概率最高的前5个结果。

(3.5)不断循环迭代，直至已产生结束符号序列已达到5个或者达到设定的时间步则停止循环，取概率最高的序列最为最终的关键词序列，并将生成的关键词写入TXT文件，否则回到步骤(3.4)。

(3.6)由步骤(3.5)最后生成的关键词结果集TXT文件。

(4)根据公式(11)、(12)和公式(13)计算关键词的准确率(P值)、召回率(R值)以及F1值对其进行评估。。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于Seq2seq框架的关键词提取方法，包括如下步骤：

(1)收集司法领域的不同类别的裁判文书数据，并对不同类别的裁判文书数据进行预处理，得到训练数据；具体步骤如下：

(1.1)收集数据：收集司法领域的不同类别的裁判文书，有婚姻家庭类、交通事故类以及劳动纠纷类等；

(1.2)数据初步预处理：由于数据文本质量对训练出的模型产生重大的影响，需对相似的文本去重，低质量文本过滤，较短的文本删除等处理；

(1.3)关键词提取：由于采用的是基于Seq2seq框架进行关键词提取，故需要在人工干预的情况下，用相关的关键词提取算法对裁判文书进行关键词提取，并对提取的关键词进行复检，形成满足训练所需的文本关键词对；

(1.4)对文本进行分词：利用结巴分词对司法文本进行中文分词，并建立停用词典和自定义词典，提高分词质量；

(1.5)统计词频并排序：统计文本内容和关键词中每个单词出现的频率，并对词频进行降序排序，生成词表；

(1.6)文本向量化：将词表中的词语转化为词向量(word embedding)的形式；其中词向量是根据步骤(1.5)得到的词表对其进行one-hot编码得到的矩阵M，利用word2vec训练词向量，构建|V|*d的向量矩阵，其中权值的矩阵用N表示，V代表词表的大小，d代表词向量的维度；最后得到每个词语的词向量：Q＝M*N；

(2)采用Seq2seq框架创建序列模型，引入注意力机制，提取文本中关键词的特征，同时在解码端融入指针网络模型和Coverage机制来提高潜在关键词的注意力分布，并利用交叉熵损失函数度量神经网络的预测值，计算与实际值的差距，利用梯度下降法不断进行迭代优化，得到一个最佳的模型并保存；具体步骤如下：

(2.1)encoder-decoder框架(Seq2seq)：编码器-解码器的序列转换框架是一种应用于Sequence to Sequence这一类序列转换问题的神经网络框架，其中编码器就是将输入的文本序列转化为语义向量，解码器就是将编码器转化出的语义向量再次转化成文本序列；假设输入文本序列[w₀,w₁,…,w_n,EOS]，将该输入序列用词向量进行表示得到[x₀,x₁,…,x_n,EOS]，其中EOS为句末标记；循环神经网络(RNN)作为基本的神经网络对输入序列和输出序列进行学习，在编码端，RNN通过不断地将上一次的输出作为当前时刻的输入，共享神经网络单元和参数，每一个时刻使用同一个网络单元，将长度不一的输入序列转化为固定维度的向量；RNN每一个时刻神经网络单元的计算公式如下所示：

h_(t)＝f(h_(t-1),y_t-1,c) (1)

其中h_(t)为隐藏层的状态，h_(t-1)为上一时刻隐藏层的状态，y_t-1为上一时刻的输出作为当前时刻的输入，c为编码后的语义向量，f是一个非线性的激活函数，f可以是双曲正切函数tanh或者sigmoid函数(0-1之间)；

在解码端，由编码器最终输出的语义编码c和前一次生成的输出序列[y₀,y₁,…,y_t-1]计算本次的输出y_t；解码器需要经过一个输出层softmax，来计算解码时刻对应于词表中每个单词的概率；其表达式为：

P(y_t|y_t-1,y_t-2,…,y₁,c)＝g(h_(t),y_t-1,c) (2)

对于整个输入编码和解码过程中，本发明使用梯度优化算法以及最大似然条件概率为损失函数来进行模型的训练和优化；其表达式为：

其中θ为相应模型中的参数，x_n为输入序列，y_n为输出的序列；

(2.2)引入注意力机制：由步骤(2.1)中编码端得到最终的语义向量c，是作为编码和解码直接的唯一桥梁，当输入序列为较长的文本向量时，在编码解码时会造成数据特征丢失严重和细节信息缺失问题，故引入注意力机制(Attention Mechanism)；假设在预测当前i时刻的词语时，在注意力机制的作用下，不仅会关注在相对应的时刻下编码最终生成的语义向量c，还会关注原输入序列所有单词，并生成每个单词c_i在相对应的时刻的概率分布；其词语权重表达式为：

e_ij＝a(s_i-1,h_j) (4)

其中s_i-1为解码器上一个隐藏层的状态，h_j为编码器端j时刻输出的向量；

最后对它们的结果进行求和传送给c_i；其表达式如下：

其中T_x代表源输入文本的长度，h_j是源输入文本中第j个单词的语义编码，a_ij代表在目标输出第i个词语时源输入文本中第j个单词的注意力分配系数，c_i为上下文向量(contextvector)；

(2.3)融合解码器注意力的指针网络模型：由步骤(2.2)得到的结果，其提取的关键词局限于词表的规模，对于不在词表中且出现在原文本中词语，通常会被标记为unknownword(UNK)，这些未登录词无法被正确解码；为了解决未登录词(OOV)的问题，故融合解码器注意力的指针网络模型，将解码端最后输出预测序列的概率，分为生成模式和拷贝模式，对OOV词采用拷贝模式；解码器注意力中包含了两个部分，第一个部分是词表，用one hot向量表示，第二部分是encoder的隐藏状态，即输入的句子，之所以用隐藏状态是因为里面包含有位置信息，这个对词语生成很重要；其公式表达为：

p(y_t|h_t,y_t-1,c_t,M)＝p(y_t,c|h_t,yt_-1,c_t,M)+p(y_t,g|h_t,y_t-1,c_t,M) (7)

其中M是输入隐藏层状态的集合，c_t是注意力权重，h_t是输出的隐藏状态，g代表生成模式，c代表拷贝模式；生成模式还是拷贝模式是取决于概率大小来进行选择，加了一个简单的规则限制，如果y_t在输入中没有出现，则p(y_t,c|s_t,y_t-1,c_t,M)＝0，会选择生成模式；如果y_t在输入中有出现且词表中没有，则p(y_t,g|s_t,y_t-1,c_t,M)＝0，会选择拷贝模式；

(2.4)融合覆盖机制：由于模型的局限性，即使引入了注意力机制，也无法很好的关注到已生成的关键词，它会忘记之前的信息，会重复性的关注相同的部分，从而提取的关键词会有重复现象；对于较长的文本序列，这一现象会更加严重；为了解决关键词提取重复性问题，故融合覆盖机制，对注意力机制部分做了一些改动；其表达式如下：

其中c不是编码端最终输出的语义向量，是一个新的参数：

其中c^t是一个长度为输入长度的向量，a^t′是注意力权重；加这个参数是为了让注意力机制知道其之前生成词的信息，如果之前生成过的单词那么需要对其进行抑制，主要通过loss函数加惩罚项进行抑制实现；其表达式为：

如果该词之前出现过，则就会变得很大，为了减小loss，需要变小(因为loss是取两者间较小值)，越小即这个词的位置被关注的概率就越小；

(2.5)在训练过程中，利用交叉熵损失函数度量神经网络的预测值，计算与实际值的差距，利用梯度下降法不断的优化函数，不断的进行迭代优化，得到一个最佳的模型M_A1并保存；

(3)在模型测试阶段，采用集束搜索算法(Beam Search)生成一个最大概率的关键词序列作为关键词结果集，得到合适的关键词序列；具体步骤如下：

(3.1)设置解码测试模式，然后将会加载步骤(2.5)训练得到的最佳模型M_A1，使用test.bin文件作为测试数据并开始进行测试；

(3.2)利用Beam Search算法，在每一个时间步都取出最优的前K个词语；

(3.3)生成第一个词的时候，经过softmax层计算词表中各个词语的概率后，选择概率最高的前K个单词，则当前新序列为这K个单词组成的序列；

(3.4)不断循环迭代，直至已产生结束符号序列已达到K个或者达到设定的时间步则停止循环，取概率最高的序列最为最终的关键词序列，并将生成的关键词序列写入TXT文件，否则回到步骤(3.3)；

(4)采用准确率、召回率以及F1值对提取好的关键词进行评估；准确率计算公式如下：

召回率以及F1的计算公式如下:

其中，N为文档数量，P_i为文档i所提取的关键词，T_i是由步骤(1.3)得到的关键词；F1值为准确率和召回率评估指标的调和值，用于综合反应整体指标。

2.根据权利要求1所述的一种基于Seq2seq框架的关键词提取方法，其特征在于：步骤(2.1)中的输入序列[x₀,x₁,…,x_n]作为一个batch，但输入的文本肯定会有长短不一，又要求编码成相同的文本长度，则将每个batch中的最大序列(max_seq)作为每一批次的固定文本长度，不足的文本则在样本后面用PAD进行标记，batch取值为L。

3.根据权利要求1所述的一种基于Seq2seq框架的关键词提取方法，其特征在于：步骤(2.3)所述指针网络模型是为了解决未登录词的问题，故融合解码器注意力的指针网络模型，根据解码端最后输出预测序列的概率，分为生成模式和拷贝模式，对未登录词采用拷贝模式；其公式表达为：

p(y_t|h_t,y_t-1,c_t,M)＝p(y_t,c|h_t,y_t-1,c_t,M)+p(y_t,g|h_t,y_t-1,c_t,M)

其中M是输入隐藏层状态的集合，c_t是注意力权重，h_t是输出的隐藏状态，g代表生成模式，c代表拷贝模式；生成模式还是拷贝模式是取决于概率大小来进行选择，加了一个简单的规y_t则限制，如果在输入中没有出现，则p(y_t,c|s_t,y_t-1,c_t,M)＝0，会选择生成模式；如果y_t在输入中有出现且词表中没有，则p(y_t,g|s_t,y_t-1,c_t,M)＝0，会选择拷贝模式。

4.根据权利要求1所述的一种基于Seq2seq框架的关键词提取方法，其特征在于：步骤(2.4)所述覆盖机制为了解决关键词提取重复性问题，故引入覆盖机制，通过loss函数加惩罚项进行抑制实现；其表达式为：

其中c_i ^t是当前时刻i的一个长度为输入长度的向量，a_i ^t是当前时刻i的注意力权重；如果该词之前出现过，则就会变得很大，为了减小loss，需要变小(因为loss是取两者间较小值)，越小即这个词的位置被关注的概率就越小。

5.根据权利要求1所述的一种基于Seq2seq框架的关键词提取方法，其特征在于：步骤(3)所述的集束搜索算法(Beam Search)是为了生成一个最大概率的关键词序列作为关键词结果集，得到合适的关键词序列；具体步骤如下：

(5.1)设置解码测试模式，然后将会加载步骤(2.5)训练得到的最佳模型M_A1，使用test.bin文件作为测试数据并开始进行测试；

(5.2)利用Beam Search算法，在每一个时间步都取出最优的前K个词语；

(5.3)生成第一个词的时候，经过softmax层计算词表中各个词语的概率后，选择概率最高的前K个单词，则当前新序列为这K个单词组成的序列；

(5.4)不断循环迭代，直至已产生结束符号序列已达到K个或者达到设定的时间步则停止循环，取概率最高的序列最为最终的关键词序列，并将生成的关键词序列写入TXT文件，否则回到步骤(5.3)。