CN110619034A

CN110619034A - 基于Transformer模型的文本关键词生成方法

Info

Publication number: CN110619034A
Application number: CN201910567376.3A
Authority: CN
Inventors: 杨浩; 潘炎; 印鉴; 潘文杰
Original assignee: Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd; National Sun Yat Sen University
Current assignee: Sun Yat Sen University; Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd; National Sun Yat Sen University
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-12-27

Abstract

本发明提供一种基于Transformer模型的文本关键词生成方法，该方法通过引入Transformer模型，在关键词提取任务中可以生成未完整出现在文本中但语义上非常重要的关键词，同时，Transformer模型能很好地理解文本的语义信息，能快速捕获词与词之间的依赖关系，能够基于对文本语义信息的理解生成关键词而不是仅仅通过统计信息提取关键词，得到的关键词在语义上与文本更加匹配，更加优质，更符合文本的主题。在效率上，本方法虽然涉及神经网络，但其内部绝大多数运算为矩阵运算，并不涉及时序相关的运算，因此，可以很好地利用GPU等并行计算框架进行加速，计算效率上比传统的RNN等神经网络更高效。

Description

基于Transformer模型的文本关键词生成方法

技术领域

本发明涉及文本处理算法领域，更具体地，涉及一种基于Transformer模型的文本关键词生成方法。

背景技术

随着文本数据(如新闻、文献、推文等)的快速增长，对文本数据进行分析和挖掘的需求也在不断增长。其中，面向文本的关键词提取一直是自然语言处理领域的关键基础性问题，从文本中提取出优质的、能反映文本主题的关键词可广泛用于自然语言处理的其他任务，例如文档检索、文本摘要、文本分类、情感分析、问答系统等。

目前常见的文本关键词提取方法分为两个类别：有监督提取方法和无监督提取方法。无论是有监督提取方法还是无监督提取方法，其步骤都是先从文本中生成候选关键词，再从候选关键词中通过排序或分类的方法得到关键词。候选关键词生成的准确程度直接影响到关键词提取效果，生成候选关键词通常包括4步：切分文本、过滤处理、生成多元词组以及提取词干。不同的候选关键词生成方法的区别主要体现在生成多元词组环节，常见的生成多元词组的方法包括n-gram 过滤、名词短语分块、词性过滤等。

有监督关键词提取方法通常将关键词提取问题作为二分类问题来处理，通过标注训练集学习一个分类函数。提取关键词时一般分为两步，第一步是生成候选关键词，第二步是通过学习到的分类函数对候选关键词进行分类，判断候选关键词是否为关键词。常见的有监督关键词提取方法包括朴素贝叶斯、逻辑回归、 SVM、神经网络、条件随机场等。

无监督关键词提取方法也分为两步，第一步是生成候选关键词，第二步是采取各种评分指标(如TF-IDF、PageRank、位置信息、长度信息、基于词图的度中心性等)对候选关键词进行排序，然后选取排名最高的几个作为关键词。常见的无监督关键词提取方法包括TF-IDF算法、基于图的关键词提取方法、基于主题的聚类提取方法等。

上述关键词提取方法主要存在两点较大的缺陷。第一，上述方法只能提取出现在文本中的关键词，无法提取语义上非常接近但没有完整出现在文本中的关键词。许多文本的关键词是作者基于对全文语义的理解总结得到的，并不一定会完整的出现在文本中。在关键词提取任务的几个常见数据集中，未完整出现在文本中的关键词所占比例均超过30％，其中，Inspec数据集达到44.31％，Krapivin 数据集达到52.26％，NUS数据集达到32.25％，SemEval数据集达到57.99％。由此可见，上述方法的提取效果因无法提取未完整出现在文本中的关键词受到了非常大的影响，提取效果的上限仅为出现在文本中的关键词所占比例。

第二，上述方法在对候选关键词进行排序和分类时使用的特征多为TF-IDF、PageRank等统计特征，这些统计特征主要用于挖掘词的重要性信息(如词频、词共现频率等)，但无法反映词的语义信息，部分出现频率较低的关键词可能无法被提取出来，即上述方法只能基于统计信息提取关键词，无法基于语义信息提取关键词。

发明内容

本发明提供一种基于Transformer模型的文本关键词生成方法，该方法有效解决传统方法无法提取未完整出现在文本中的关键词。

为了达到上述技术效果，本发明的技术方案如下：

一种基于Transformer模型的文本关键词生成方法，包括以下步骤：

S1：对文本数据进行预处理；

S2：构建Transformer模型，对Transformer模型进行训练直到模型收敛；

S3：向Transformer模型中输入S1中预处理好的文本，通过Transformer模型的编码器提取文本的语义信息，得到输入文本的语义向量；

S4：利用S3得到的输入文本的语义向量，通过Transformer模型的解码器生成输出文本的语义向量；

S5：将S4得到的输出文本的语义向量通过全连接网络映射生成输出文本的分数向量；

S6：通过Beam Search算法对输出文本的分数向量进行柱搜索，得到若干个关键词，作为最终的关键词输出。

进一步地，所述步骤S3的具体过程是：

S31：将S1中预处理好的文本输入到编码器的embedding层，得到输入文本的词向量；

S32：将S31得到的输入文本的词向量输入到编码器的位置编码层，得到输入文本的位置向量；

S33：将S31得到的输入文本的词向量与S32得到的输入文本的位置向量相加，得到输入文本的最终词向量；

S34：将S33得到的输入文本的最终词向量输入到编码器的多头注意力子层，得到输入文本的注意力向量；

S35：将S34得到的输入文本的注意力向量输入到编码器的前向反馈子层，得到输入文本的语义向量；

S36：重复S34与S35的步骤6次，得到输入文本的最终语义向量。

进一步地，所述步骤S4的具体过程是：

S41：将输出文本初始化为一个表示开始的特殊字符；

S42：将当前的输出文本输入到解码器的embedding层，得到输出文本的词向量；

S43：将S42得到的输出文本的词向量输入到解码器的位置编码层，得到输出文本的位置向量；

S44：将S42得到的输出文本的词向量与S43得到的输出文本的位置向量相加，得到输出文本的最终词向量；

S45：将S44得到的输出文本的最终词向量输入到解码器的第一个多头注意力子层，得到输出文本的注意力向量；

S46：将S45得到的输出文本的注意力向量与S3得到的输入文本的语义向量输入到解码器的第二个多头注意力子层，得到输出文本的最终注意力向量；

S47：将S46得到的输出文本的最终注意力向量输入到解码器的前向反馈子层，得到输出文本的语义向量；

S48：重复S45到S47的步骤6次，得到输出文本的最终语义向量；

S49：利用S48得到的输出文本的最终语义向量更新当前的输出文本，判断当前的输出文本是否包含表示结束的特殊字符，若不包含，跳转到S42继续执行，若包含，则得到输出文本的最终语义向量。

进一步地，所述步骤S5的具体过程是：

S51：根据词频构建词表；

S52：根据词表大小构建全连接神经网络，训练全连接神经网络至收敛；

S53：将S4得到的输出文本的语义向量输入到全连接神经网络，得到词表大小的输出文本的分数向量。

进一步地，所述步骤S6的具体过程是：

S61：选取S5得到的输出文本的分数向量中分数最高的k个词作为第一个词，得到k个长度为1的序列；

S62：将当前k个序列作为解码器输入，每个序列得到1个分数向量，从中选取分数最高的k个词分别添加到该序列的末尾，得到k²个新序列，从中保留分数最高的k个作为当前序列；

S63：重复S62直到输出结束符号，最终得到k个分数最高的序列，即k个分数最高的关键词作为输出。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过引入Transformer模型，提出了一种更高效的文本关键词生成方法，在关键词提取任务中可以生成未完整出现在文本中但语义上非常重要的关键词，同时，Transformer模型能很好地理解文本的语义信息，能快速捕获词与词之间的依赖关系，能够基于对文本语义信息的理解生成关键词而不是仅仅通过统计信息提取关键词，得到的关键词在语义上与文本更加匹配，更加优质，更符合文本的主题。在效率上，本方法虽然涉及神经网络，但其内部绝大多数运算为矩阵运算，并不涉及时序相关的运算，因此，可以很好地利用GPU等并行计算框架进行加速，计算效率上比传统的RNN等神经网络更高效。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于Transformer模型的文本关键词生成方法，包括以下步骤：

S1：对文本数据进行预处理，包括大小写转换、去除标点符号、去除非法字符等；

S2：构建Transformer模型，利用训练集对Transformer模型进行训练直到模型收敛；

S3：输入预处理好的文本，通过Transformer模型的编码器提取文本的语义信息，得到输入文本的语义向量；

S4：利用上一步得到的输入文本的语义向量，通过Transformer模型的解码器生成输出文本的语义向量；

S5：通过全连接网络将上一步得到的输出文本的语义向量映射成输出文本的分数向量；

步骤S2中构建的Transformer模型包含编码器和解码器两个部分：编码器负责提取文本的语义信息，为文本中每个词提取一个300维的语义向量，从而得到整个文本的语义向量。解码器负责利用编码器提取的语义向量生成符合语义信息的关键词作为输出。

编码器由1个embedding层和6个编码层堆叠而成。embedding层使用的模型是斯坦福大学利用2014年维基百科语料库预训练好的GloVe模型，该模型可以将文本中的每个词映射成一个300维的向量，对于每一个文本，限制其长度为 300个词，则每个文本可以表示为一个300*300的向量。embedding层除了使用了GloVe模型外，为了充分利用词的位置信息，还加入了位置编码，将每个词通过GloVe模型得到的向量加上通过位置编码得到的向量，就是这个词最终的词向量，位置编码向量计算公式如下：

其中，pos代表词在文本中的位置，i代表位置编码向量的维度(1到300)， d_model代表GloVe模型的维度，即300。为了避免位置编码向量PE的值过度影响GloVe模型的输出向量的值，通常将GloVe模型的输出向量乘以(使向量的值变的相对较大)再加上位置编码向量PE作为词的最终词向量，词x的最终词向量的计算公式如下：

每个编码层由两个子层组成，分别是多头注意力子层和前向反馈子层。多头注意力子层先将输入向量映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出。多头注意力子层的计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O

其中，Q，K，V为多头注意力子层的输入，即词向量，W为不同子空间的映射矩阵，子空间的个数设为8，每个子空间上的注意力向量的计算方式为先将 Q和K点乘，再除以K的维度的平方根得到词向量的分数矩阵，最后通过 softmax函数将分数矩阵归一化得到权重矩阵，再乘以V得到注意力向量，计算公式如下：

注意力向量捕获了词与词之间的依赖关系，多头注意力机制通过将输入向量映射到不同的子空间再计算注意力向量可以捕获词与词在不同子空间上的依赖关系，最终得到的注意力向量能更立体更全面的捕获词与词之间的依赖关系。

前向反馈子层由两层前馈神经网络组成，第一层前馈网络先把输入向量从 d_model维度映射到4*d_model维度，激活函数为ReLU函数，第二层前馈网络再从 4*d_model维度映射回d_model维度，不使用激活函数，前向反馈子层计算公式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

多头注意力子层和前向反馈子层都包含一个残差连接结构，将子层输出与子层输入相加再做规范化作为子层最终的输出，因此，每个子层最后的输出公式为：

output＝LayerNorm(input+subLayer(input))

其中，LayerNorm为层规范化操作，input为子层输入，subLayer为子层相应的计算公式，即前面提到的MultiHead或FFN公式，output为子层输出。

编码器的输入为预处理过的文本，每个层的输出为下一层的输入，最后一个编码层的输出就是输入文本的语义向量。

解码器由1个embedding层和6个解码层堆叠而成。解码器的embedding层和编码器的embedding层完全一致，都包含GloVe模型和位置编码，计算方式也完全一样，最终每个词得到一个300维的词向量作为下一层的输入。

每个解码层由3个子层构成，分别是两个多头注意力子层和一个前向反馈子层。第一个多头注意力子层和编码层的多头注意力子层的计算方式基本一致，输入Q，K，V为词向量，先将输入向量映射到不同的子空间中，再分别在所有子空间上计算注意力向量，最后拼接起来映射到原输入空间中得到最终的注意力向量。唯一不同的地方在于，编码层的多头注意力子层计算注意力向量时会捕获任意两个词之间的依赖关系，但解码层的第一个多头注意力子层计算注意力向量时不能捕获后面位置的词的依赖关系，原因是解码器解码时我们无法得知未来的信息，即后面位置的词还没生成出来。通常会使用Mask矩阵标注哪些位置不能计算注意力向量，计算注意力向量时Mask矩阵标注的位置的值会被置为0，因此，第一个多头注意力子层通常被称为Mask多头注意力子层。

第二个多头注意力子层不需要使用Mask矩阵，计算注意力向量时可以捕获任意两个词之间的依赖关系，计算方式和编码层的多头注意力子层一致，但输入有所不同，输入Q为解码层上一个多头注意力子层的输出，输入K，V为编码器的输出，即文本的语义向量。

编码层的多头注意力子层计算的是编码器输入文本的词与词之间的依赖关系，解码层第一个多头注意力子层计算的是解码器输入文本的词与词之间的依赖关系，而解码器第二个多头注意力子层则是计算编码器输入文本的词与解码器输入文本的词之间的依赖关系，可以理解为解码器生成的关键词对编码器的输入文本中的每个词的权重关系。

解码层的前向反馈子层和编码层的前向反馈子层完全一致，都由两层前馈神经网络组成，计算方式也完全一样。

解码层每个子层同样包含残差连接结构，计算方式和编码层完全一致，将子层输出与子层输入相加再做规范化作为子层最终的输出。

解码器的输入在训练时是文本的标记数据，即文本的关键词，在预测时则是一个表示开始的特殊字符，得到输出后再将输出作为下一时刻的输入，一直循环直到输出表示结束的特殊字符为止。除此之外，解码器还需要编码器提取的语义向量作为额外输入。最终解码器的输出为输出关键词的语义向量。

Transformer模型的训练使用关键词提取任务中的KP20k开源数据集，该数据集由网上开源的科学文献组成，训练集样本的个数为56万，验证集和测试集的样本个数均为2万。学习率随训练的进行先线性增加后减小，具体的学习率调整公式如下：

其中step_num为训练次数，warmup_steps设为4000，d_model代表模型维度，即300。当训练次数小于4000时，学习率随训练次数的增加而线性增加，当训练次数大于4000时，学习率随训练次数的增加而逐步减小。

当连续10轮训练Transformer模型在验证集上的效果未得到提升时即可停止训练，并认为模型已收敛。

步骤S5中提到的全连接网络映射通常需要先构建词表，词表大小通常设为50000，取频率最高的50000个词构成词表，解码器的输出为关键词的语义向量，维度为300，全连接网络需要将300维的语义向量映射为词表大小50000维的分数向量，代表词表中每个词的分数，因此，全连接网络的权重矩阵大小为300* 50000。

步骤S6中的Beam Search算法是一种启发式搜索算法，用于对S5得到的分数向量进行柱搜索得到分数最高的前k个关键词。其搜索过程如下：

选取分数向量中分数最高的k个词作为第一个词，得到k个长度为1的序列。

将当前k个序列作为解码器输入，每个序列得到1个分数向量，从中选取分数最高的k个词分别添加到该序列的末尾，得到k²个新序列，从中保留分数最高的k个作为当前序列。

重复第2步直到输出结束符号，最终得到k个分数最高的序列，即k个分数最高的关键词。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于Transformer模型的文本关键词生成方法，其特征在于，包括以下步骤：

S1：对文本数据进行预处理；

2.根据权利要求1所述的基于Transformer模型的文本关键词生成方法，其特征在于，所述步骤S3的具体过程是：

S36：重复S34与S35的步骤6次，得到输入文本的最终语义向量。

3.根据权利要求2所述的基于Transformer模型的文本关键词生成方法，其特征在于，所述步骤S4的具体过程是：

S41：将输出文本初始化为一个表示开始的特殊字符；

S48：重复S45到S47的步骤6次，得到输出文本的最终语义向量；

4.根据权利要求3所述的基于Transformer模型的文本关键词生成方法，其特征在于，所述步骤S5的具体过程是：

S51：根据词频构建词表；

5.根据权利要求4所述的基于Transformer模型的文本关键词生成方法，其特征在于，所述步骤S6的具体过程是：