CN111897949A

CN111897949A - 一种基于Transformer的引导性文本摘要生成方法

Info

Publication number: CN111897949A
Application number: CN202010740782.8A
Authority: CN
Inventors: 刘磊; 孙应红; 侯良文; 李静
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-06
Anticipated expiration: 2040-07-28
Also published as: CN111897949B

Abstract

本发明涉及一种基于Transformer的引导性文本摘要生成方法，属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法，并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本，作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中，利用关键语义特征来修正注意力机制，使得生成模型能够生成较多富含关键信息的摘要内容，并增加了指针与覆盖机制，使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。

Description

一种基于Transformer的引导性文本摘要生成方法

技术领域

本发明属于信息处理技术领域，涉及一种基于Transformer的引导性文本摘要生成方法。

背景技术

自动文本摘要是从原文本中提取出最关键的信息，进而来构建用户所需的重要性内容的过程。自动文本摘要方法指的是利用机器自动地从大量文本数据中概括出富含关键信息的简洁可读的摘要序列。目前，自动文本摘要从构建方式来看，主要包括生成式摘要与抽取式摘要两种。抽取式摘要是通过对原文本的所有句子利用一些统计的方法进行重要性排序，然后提取出重要性靠前的几个重要句子作为该文本的摘要。生成式摘要是指模仿人对文本内容进行深层语义理解，缩减该文本，最后形成一段简洁流畅，而且包含该文本中心思想的摘要。抽取式摘要方法基于文本中各句子之间的关联性，利用句子中词的位置以及词频等信息来评估关键词的重要性，进而通过这些关键词扩展到对应的句子。但是这种方式无法很好地捕捉到关键词之间以及句子之间深层次的语义关系，并且形成的摘要富含大量的冗余信息，同时有可能丢失较多的关键信息。

而利用深度学习的生成式摘要方法可以模拟人的思维来生成较为简洁流畅的文本摘要，但是针对不同的深度学习模型，文本摘要的生成存在着各种不同的问题，例如生成的摘要句子缺乏流畅性与可读性。其次，摘要无法捕获文本的中心，而且存在较多重复的文本。这就使得生成式文本摘要方法成为文本生成任务中一项重要的研究热点。

传统的基于循环神经网络(Recurrent Neural Networks，RNN)的Seq2Seq(Sequence to Sequence)框架在每一时刻只能输入一个词，计算效率较低，并且对长文本的依赖性较差。而Transformer模型是基于自注意力机制(Self-Attention)、残差机制以及前馈网络构建的编码-解码(Encoder-Decoder)结构，Encoder与Decoder的内部结构类似，主要由多头的注意力机制、残差连接、归一化和前馈层构成。在Transformer的模型训练中包括多个待训练参数，其中主要包括W^K，W^V，W^Q。Transformer的优点在于它能够实现并行化计算，计算效率较高，而且对于较长的文本序列具有较好的依赖性。除此之外，Transformer网络能够像RNN一样更好地理解文本序列的语义，在机器翻译以及文本摘要中具有较好的应用。

因此基于现有生成式摘要的理论研究，本发明基于Transformer，结合抽取式与生成式两种摘要生成方法，并利用本发明提取的文本关键语义特征方法来引导生成摘要，进而挖掘出原文本的深层语义特征信息，捕获原文本的中心内容，生成流畅可读的文本摘要。

发明内容

本发明提出了一种基于Transformer的引导性文本摘要生成方法，结合深度学习与机器学习算法构建了一种自动文本摘要生成方法。首先将TextRank算法与TF-IDF算法进行融合来获取文本的关键词，并结合抽取的命名实体来构建文本关键语义序列。其次结合抽取式摘要方法将较长的文本转换为短文本，进而利用深度学习方法Transformer构建摘要生成模型。实验分析以摘要数据集CNN/Daily Mail为例，来说明方法的有效性。

为实现上述目的，本发明采用如下的技术方案

一种基于Transformer的引导性文本摘要生成方法，Transformer模型包括编码器Encoder和解码器Decoder，其中解码器Decoder包含注意力机制，其特征在于：对注意力机制进行了修正，并增加了指针机制，包括三个阶段，即数据预处理(步骤1-2)、模型训练(步骤3-7)、摘要生成(步骤8)，具体步骤如下：

数据预处理阶段

步骤1关键语义特征提取；

步骤1.1关键词获取：计算文本中每个词的重要性，按重要性降序排列，并提取出前N个对应单词作为的文本关键词集合，记作Set1＝{a₁,a₂,…,a_N}，其中词的重要性计算如公式1所示：

其中：v_i表示第i个单词通过TextRank算法得到的TextRank值(1≤i≤N)，u_i为第i个单词利用TF-IDF算法得到的TF-IDF值，α表示调和参数，当α＞1时，表示u_i比v_i重要，当0＜α＜1时，表示v_i比u_i重要。

步骤1.2关键语义特征提取：首选利用NLTK语言包进行命名实体识别，提取出文本中所含有的实体，记作集合Set2＝{b₁,b₂,…,b_q}，然后将Set1与Set2取并集，得到原文本的关键语义特征单元，记作Set＝{c₁,c₂,…,c_T}，最后对Set中的每个词c_i依据其在原文本中的位置进行排序并得到文本关键语义特征KI，记作：

其中

表示第i个关键语义特征单元(1≤i≤T)，T表示关键语义特征中所含单词个数；

步骤1.3将关键语义特征向量化：

首先利用词嵌入模型BERT获取关键语义特征

对应的词嵌入矩阵，记作：

其中

然后将其输入BiLSTM(双向长短记忆网络)网络来获取

的语义表示向量

其中

与

分别表示正向与反向的最后一个时刻的隐藏状态输出；

步骤2对于长度大于阈值L的文本，提取关键句，将长文本转换为短文本；

原文本记为Article＝(sentence₁,sentence₂,…,sentence_n)，sentence_i表示原文本的第i个句子(1≤i≤n)，n表示原文本所含有的句子总数，利用TextRank算法对Article中的每个句子进行重要性评估，并按重要性降序排列得到Article′＝(sentence′₁,sentence′₂,…,sentence′_n)。取Article′中前k个句子，保证前k个句子的总长度不大于阈值L，并按照句子在原文本中的出现顺序重新排序；

模型训练阶段

训练数据包括训练文本和对应的文本摘要；

步骤3利用编码器Encoder得到训练文本的语义编码H；

首先，训练文本经过步骤2得到短文本，并以词为单位表示为T′＝(w₁,w₂,…,w_m)，其中w_i为文本序列的第i个词(1≤i≤m)；然后利用词嵌入BERT模型将文本序列映射到词嵌入空间，得到每个词w_i的词向量x_i，此时文本序列T′表示为X＝(x₁,x₂,…,x_m)；然后将文本序列X输入Transformer的编码器来获取最后的隐藏输出，即H＝Transformer_Encoder(X)；

步骤4利用词嵌入BERT模型获取训练文本对应的参考摘要的词嵌入表示Y＝(y₁,y₂,…,y_n)，y_i(1≤i≤n)表示参考摘要的第i个词对应的词嵌入表示，n表示参考摘要中所含单词个数。将Y输入到Transformer模型的解码器，获取解码器第一次残差连接，归一化后得到向量H_t，即H_t＝Transformer_Decoder(Y)；

步骤5利用关键语义特征修正Attention权值

先计算矩阵Q，K，V。Q＝W^QH_t，其中W^Q为待训练参数，H_t为步骤4得到的归一化后向量；K＝W^KH，V＝W^VH，其中W^K，W^V为待训练参数，H为步骤3得到的文本语义编码。

然后利用如下公式修正Attention权值，计算文本T′中每个词的注意力分布：

Attention(Q,K,V)＝softmax(E)V (公式2)

其中，

是由文本T′的m个关键语义特征K′构成的矩阵的转置，可表示为

d_k表示Q，K矩阵的列数，Q，K的矩阵列数是相等的。

预测第t时刻的词，则将Attention(Q,K,V)的值作为第t时刻的上下文向量C_t；

步骤6基于关键语义特征修正指针机制，预测单词，具体如下：

首先，由已计算的上下文向量C_t，文本T′的关键语义特征K′，以及解码器当前时刻的解码状态S_t，构造一个摘要生成开关P_gen，具体计算公式如下：

其中：

b为待训练参数，σ表示Sigmoid函数；

然后，通过P_gen重新构造概率分布P(w)，并通过计算概率分布P(w)，确定概率分布P(w)最大的单词即为摘要中的第t个单词，P(w)计算公式如下：

其中，P_vocab(w)表示词库中单词w作为摘要中第t个单词的预测概率，由softmax函数进行计算，

是上下文向量C_t，解码状态S_t的转置拼接，V和b是待训练参数，当单词w不在词库中时，P_vocab(w)＝0；

表示关于单词w的注意力求和，其中a_i是注意力向量a中的第i个值，当单词w不在输入文本中时，

摘要生成开关P_gen用于P_vocab(w)和

的权重调节。

步骤7构造每个时刻的损失函数，当损失函数达到最小值，或满足迭代次数，模型中的参数都得到训练，得到训练好的摘要生成模型，记作TransTS；

摘要生成阶段

步骤8对需要生成文本摘要的文本T，通过步骤2获取T的短文本T′。以T′作为模型TransTS的输入，经过模型TransTS的处理，输出为由预测单词组成的文本T的文本摘要。

TransTS的内部处理过程与模型训练类似，区别在于TransTS模型中的参数都已经得到训练。过程包括：首先用词嵌入BERT模型将T′映射到词嵌入空间，通过TransTS的编码器Encoder，得到T′的语义编码；然后用词嵌入BERT模型将T映射到词嵌入空间，通过TransTS的解码器，获取经过第一次残差连接，归一化后得到向量H_t；再利用T′的关键语义特征，通过公式(2)(3)，计算文本T′中每个词的注意力分布，修正Attention权值，得到第t时刻的上下文向量C_t；最后由公式(4)(5)，计算预测词的概率分布P(w)，确定预测摘要中的第t时刻的单词。

通过上一时刻的输出作为当前时刻的输入，不断重复解码过程来预测当前时刻的词，直到出现结尾标识符，即可完成对摘要所有单词的预测，得到文本T的文本摘要。

有益效果

(1)本发明构建的文本关键语义特征提取方法，能够较好提取出文本的多元连续词组；

(2)本发明首先结合抽取式算法将较长的文本缩减较短的关键文本内容，有效减少了无关的信息对摘要生成过程造成的干扰，并减少了模型较多的计算量；

(3)本发明利用文本的关键语义特征来修正注意力机制，有效引导摘要生成模型生成摘要，使得生成的摘要富含有较多的关键信息。

附图说明

图1本发明的方法流程图；

图2摘要生成模型框架图；

具体实施方式

对本发明的具体实施方式结合图2作进一步的详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

其具体实施步骤如下：

1、一种基于Transformer的引导性文本摘要生成方法，包括以下步骤：

数据预处理阶段

步骤1关键语义特征提取

步骤1.1关键词获取：首先对数据集中的文本进行分词，分词后的原文本记为Test＝(w₁,w₂,…,w_n)，n表示文本的词数，将词数<300的文本从数据集中删除；然后分别利用TextRank算法与TF-IDF算法计算每个词w_i的TextRank值v_i与TF-IDF值u_i，最后利用如下公式计算文本中每个词的重要性k_i，并按重要性降序排列，提取出前N个对应单词作为文本的关键词集合Set1＝{a₁,a₂,…,a_N}，1≤N<20。

其中，设置α＝0.7，表示TextRank值与TF-IDF值的权值参数

本发明获取的关键词示例如下表所示：

步骤1.2关键语义特征提取，首先利用NLTK语言包对文本Text进行命名实体识别，并提取出原文本Text中所含有的实体，并记作集合Set2＝{b₁,b₂,…,b_q}，q为正整数。然后将Set1与Set2取并集，得到文本Text的关键语义特征单元，记作Set＝{c₁,c₂,…,c_T}，T＝20。最后对Set中的每个词c_i依据其在原文本中的位置进行排序并得到文本关键语义特征KI，记作：

其中

表示第i个关键语义特征单元，T表示关键语义特征中所含单词个数。本发明提取的关键语义特征如下表所示：

步骤1.3将关键语义特征向量化，首先利用词嵌入模型BERT获取关键语义特征

对应的词嵌入矩阵，记作：

其中

然后将其输入BiLSTM网络来获取

的语义特征向量

其中

与

分别表示正向与反向的最后一个时刻的隐藏状态输出。

步骤2对于长度大于阈值L的文本，提取关键句，将长文本转换为短文本

原文本记为Article＝(sentence₁,sentence₂,…,sentence_n)，利用TextRank算法对Article中的每个句子进行重要性评估，并按重要性降序排列得到Article′＝(sentence′₁,sentence′₂,…,sentence′_n)。取Article′中前k个句子，保证前k个句子的总长度不大于阈值L，并按照句子在原文本中的出现顺序重新排序；

设置L＝600，关键短文本示例如下表所示，其中n＝42,k＝21：

通过步骤2可以将较长的原文本转换为较短的关键短文本，减少较多的冗余信息，有效的避免了一些冗余信息对摘要生成过程造成的干扰，而且提高了计算效率。

模型训练阶段

训练数据包括文本以及对应的参考摘要；

步骤3利用编码器Encoder得到训练文本的语义编码H；

首先，训练文本经过步骤2得到短文本，并以词为单位表示为T′＝(w₁,w₂,…,w_m)，其中w_i为文本序列的第i个词，m＝600，如果文本长度小于600，则用符号“<PAD>”补全；然后利用词嵌入BERT模型将文本序列映射到词嵌入空间，得到每个词w_i的词向量x_i，此时文本序列T′表示为X＝(x₁,x₂,…,x_m)；然后将文本序列X输入Transformer模型的编码器来获取最后的隐藏输出，即H＝Transformer_Encoder(X)；

步骤4利用词嵌入BERT模型获取训练文本对应的参考摘要的词嵌入表示Y＝(y₁,y₂,…,y_n)，n＝100，并将Y输入到Transformer模型的解码器，获取解码器第一次残差连接，归一化后得到向量Ht，即H_t＝Transformer_Decoder(Y)；

步骤5利用关键语义特征修正Attention权值

Attention(Q,K,V)＝softmax(E)V

其中，

是由文本T^′的m个关键语义特征K′构成的矩阵的转置，可表示为

d_k表示Q，K矩阵的列数。

其中：

b为待训练参数，σ为Sigmoid函数；

然后，通过P_gen重新构造概率分布P(w)，并通过计算概率分布P(w)，概率分布P(w)最大的单词即为摘要中的第t个单词，1≤t≤100，P(w)计算公式如下：

P_vocab(w)表示当前词库中单词w作为摘要中第t个单词的预测概率，由softmax函数进行计算，

是上下文向量C_t，解码状态S_t的转置拼接，V和b是待训练参数；a_i是注意力向量a中的第i个值，i＝1,2,…,600；摘要生成开关P_gen用于P_vocab(w)和

的权重调节。

步骤7在模型的训练过程中，我们使用10万篇文本训练模型，数据集为CNN/DaliyMail摘要数据集。每个时刻使用的损失函数公式如下：

其中：P(w_t)的计算见步骤6，λ＝0.89为一个超参数，

为附加注意力惩罚项，即覆盖损失，利用该损失来惩罚在生成摘要的过程中重复出现的词，进而解决重复片段生成问题。最后整个模型利用反向传播算法更新迭代如下每个时刻的损失函数之和，进而生成完整的摘要序列。

当损失函数达到最小值，或满足迭代次数，模型训练完毕；

摘要生成阶段

步骤8为了说明本发明的有效性，待模型训练完成后，本发明在预留的10000条摘要对测试数据集上进行实验分析，将本发明构建的生式摘要模型在摘要评价指标Rouge上与其他生成式摘要模型作对比，其结果如下表所示：

以上已有模型在短文中的效果比较好，而在长文本中效果出现明显下降，而且在生成的摘要中会出现重复的片段。然而本发明构建的模型TransTS在Rouge上取得较好的结果，比一般的生成式摘要模型生成的结果好。

Claims

1.一种基于Transformer的引导性文本摘要生成方法，Transformer模型包括编码器Encoder和解码器Decoder，其中解码器Decoder包含注意力机制，其特征在于：对注意力机制进行了修正，并增加了指针机制，包括三个阶段，即数据预处理、模型训练、摘要生成，具体如下：

数据预处理阶段

步骤1提取文本关键语义特征向量K′

步骤1.1关键词获取，计算文本中每个词的重要性，按重要性降序排列，并提取出前N个对应单词作为的文本关键词集合，记作Set1＝{a₁,a₂,…,a_N}；

步骤1.2关键语义特征提取：首选对文本进行命名实体识别，提取出文本中所含有的实体，记作集合Set2＝{b₁,b₂,…,b_q}；然后将Set1与Set2取并集，得到原文本的关键语义特征单元，记作Set＝{c₁,c₂,…,c_T}；最后对Set中的每个词c_i依据其在原文本中的位置进行排序并得到文本关键语义特征KI，记作：

其中

表示第i个关键语义特征单元，T表示关键语义特征中所含单词个数；

步骤1.3将关键语义特征向量化：

首先获取关键语义特征

对应的词嵌入矩阵，记作：

K＝(k₁,k₂,…,k_T)，

然后将其输入BiLSTM网络来获取

的语义特征向量

其中

与

分别表示正向与反向的最后一个时刻的隐藏状态输出；

步骤2对于长度大于阈值L的文本，通过提取关键句，将长文本转换为短文本：

原文本记为Article＝(sentence₁,sentence₂,…,sentence_n)，sentence_i表示原文本的第i个句子(1≤i≤n)，n表示原文本所含有的句子总数，对Article中的每个句子进行重要性评估，并按重要性降序排列得到Article′＝(sentence′₁,sentence′₂,…,sentence′_n)，取Article′中前k个最重要句子，保证前k个句子的总长度不大于L，并按照句子在原文本中的出现顺序重新排序；

模型训练阶段

训练数据包括训练文本以及对应的参考摘要；

步骤3利用编码器Encoder得到训练文本的语义编码H；

首先，训练文本经过步骤2得到短文本，并以词为单位表示为T′＝(w₁,w₂,…,w_m)，其中w_i为文本序列的第i个词(1≤i≤m)；然后利用词嵌入BERT模型将文本序列映射到词嵌入空间，得到每个词w_i的词向量x_i，此时文本序列T′表示为X＝(x₁,x₂,…,x_m)；然后将文本序列X输入Transformer模型的编码器来获取最后的隐藏输出，即H＝Transformer_Encoder(X)；

步骤4利用词嵌入BERT模型获取训练文本对应的参考摘要的词嵌入表示Y＝(y₁,y₂,…,y_n)，y_i(1≤i≤n)表示参考摘要的第i个词对应的词嵌入表示，n表示参考摘要中所含单词个数；将Y输入到Transformer模型的解码器，获取解码器第一次残差连接，归一化得到向量H_t，即H_t＝Transformer_Decoder(Y)；

步骤5利用关键语义特征修正Attention权值

先计算矩阵Q，K，V：Q＝W^QH_t，其中W^Q为待训练参数，H_t为步骤4得到的归一化后向量；K＝W^KH，V＝W^VH，其中W^K，W^V为待训练参数，H为步骤3得到的文本语义编码；

再利用如下公式计算修正Attention权值，计算文本T′中每个词的注意力分布：

Attention(Q,K,V)＝softmax(E)V (公式2)

其中，

d_k表示Q，K矩阵的列数；

其中：

b为待训练参数，σ表示Sigmoid函数；

然后，通过P_gen重新构造概率分布P(w)，并通过计算概率分布P(w)，确定预测摘要中的第t个单词，P(w)计算公式如下：

摘要生成开关P_gen用于P_vocab(w)和

的权重调节。

摘要生成阶段

步骤8对需要生成文本摘要的文本T，通过步骤2获取T的短文本T′；以T′作为模型TransTS的输入，经过模型TransTS的处理，输出为由预测单词组成的文本T的文本摘要。

TransTS的内部处理过程与模型训练类似，区别在于TransTS模型中的参数都已经得到训练，过程包括：首先用词嵌入BERT模型将T′映射到词嵌入空间，通过TransTS的编码器Encoder，得到T′的语义编码；然后用词嵌入BERT模型将T映射到词嵌入空间，通过TransTS的解码器，获取经过第一次残差连接，归一化后得到向量H_t；再利用T′的关键语义特征，通过公式(2)(3)，计算文本T′中每个词的注意力分布，修正Attention权值，得到第t时刻的上下文向量C_t；最后由公式(4)(5)，计算预测词的概率分布P(w)，确定预测摘要中的第t时刻的单词。

2.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法，其特征在于：步骤1中词的重要性计算如下公式1：

其中：v_i表示第i个单词通过TextRank算法得到的TextRank值，u_i为第i个单词利用TF-IDF算法得到的TF-IDF值，α表示调和参数。

3.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法，其特征在于：步骤2中利用NLTK语言包对文本进行命名实体识别。

4.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法，其特征在于：步骤1.3利用词嵌入模型BERT获取关键语义特征

对应的词嵌入矩阵，记作：

其中

5.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法，其特征在于：步骤2.1利用TextRank算法对Article中的每个句子进行重要性评估。