CN111897949A - 一种基于Transformer的引导性文本摘要生成方法 - Google Patents

一种基于Transformer的引导性文本摘要生成方法 Download PDF

Info

Publication number
CN111897949A
CN111897949A CN202010740782.8A CN202010740782A CN111897949A CN 111897949 A CN111897949 A CN 111897949A CN 202010740782 A CN202010740782 A CN 202010740782A CN 111897949 A CN111897949 A CN 111897949A
Authority
CN
China
Prior art keywords
text
abstract
word
model
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010740782.8A
Other languages
English (en)
Other versions
CN111897949B (zh
Inventor
刘磊
孙应红
侯良文
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010740782.8A priority Critical patent/CN111897949B/zh
Publication of CN111897949A publication Critical patent/CN111897949A/zh
Application granted granted Critical
Publication of CN111897949B publication Critical patent/CN111897949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于Transformer的引导性文本摘要生成方法,属于信息处理技术领域。本发明结合深度学习算法和机器学习算法来解决大数据条件下自动获取文本摘要的问题。首先构建了一种文本关键语义特征提取方法,并用该方法来获取文本的关键语义特征。其次结合抽取式摘要方法将长文本转换为关键短文本,作为摘要模型的输入。最后利用提取的文本关键语义特征来构建基于Transformer的文本摘要生成模型。在摘要生成模型中,利用关键语义特征来修正注意力机制,使得生成模型能够生成较多富含关键信息的摘要内容,并增加了指针与覆盖机制,使得摘要生成模型能够更好地解决摘要生成过程中遇到的OOV问题与重复片段生成问题。

Description

一种基于Transformer的引导性文本摘要生成方法
技术领域
本发明属于信息处理技术领域,涉及一种基于Transformer的引导性文本摘要生成方法。
背景技术
自动文本摘要是从原文本中提取出最关键的信息,进而来构建用户所需的重要性内容的过程。自动文本摘要方法指的是利用机器自动地从大量文本数据中概括出富含关键信息的简洁可读的摘要序列。目前,自动文本摘要从构建方式来看,主要包括生成式摘要与抽取式摘要两种。抽取式摘要是通过对原文本的所有句子利用一些统计的方法进行重要性排序,然后提取出重要性靠前的几个重要句子作为该文本的摘要。生成式摘要是指模仿人对文本内容进行深层语义理解,缩减该文本,最后形成一段简洁流畅,而且包含该文本中心思想的摘要。抽取式摘要方法基于文本中各句子之间的关联性,利用句子中词的位置以及词频等信息来评估关键词的重要性,进而通过这些关键词扩展到对应的句子。但是这种方式无法很好地捕捉到关键词之间以及句子之间深层次的语义关系,并且形成的摘要富含大量的冗余信息,同时有可能丢失较多的关键信息。
而利用深度学习的生成式摘要方法可以模拟人的思维来生成较为简洁流畅的文本摘要,但是针对不同的深度学习模型,文本摘要的生成存在着各种不同的问题,例如生成的摘要句子缺乏流畅性与可读性。其次,摘要无法捕获文本的中心,而且存在较多重复的文本。这就使得生成式文本摘要方法成为文本生成任务中一项重要的研究热点。
传统的基于循环神经网络(Recurrent Neural Networks,RNN)的Seq2Seq(Sequence to Sequence)框架在每一时刻只能输入一个词,计算效率较低,并且对长文本的依赖性较差。而Transformer模型是基于自注意力机制(Self-Attention)、残差机制以及前馈网络构建的编码-解码(Encoder-Decoder)结构,Encoder与Decoder的内部结构类似,主要由多头的注意力机制、残差连接、归一化和前馈层构成。在Transformer的模型训练中包括多个待训练参数,其中主要包括WK,WV,WQ。Transformer的优点在于它能够实现并行化计算,计算效率较高,而且对于较长的文本序列具有较好的依赖性。除此之外,Transformer网络能够像RNN一样更好地理解文本序列的语义,在机器翻译以及文本摘要中具有较好的应用。
因此基于现有生成式摘要的理论研究,本发明基于Transformer,结合抽取式与生成式两种摘要生成方法,并利用本发明提取的文本关键语义特征方法来引导生成摘要,进而挖掘出原文本的深层语义特征信息,捕获原文本的中心内容,生成流畅可读的文本摘要。
发明内容
本发明提出了一种基于Transformer的引导性文本摘要生成方法,结合深度学习与机器学习算法构建了一种自动文本摘要生成方法。首先将TextRank算法与TF-IDF算法进行融合来获取文本的关键词,并结合抽取的命名实体来构建文本关键语义序列。其次结合抽取式摘要方法将较长的文本转换为短文本,进而利用深度学习方法Transformer构建摘要生成模型。实验分析以摘要数据集CNN/Daily Mail为例,来说明方法的有效性。
为实现上述目的,本发明采用如下的技术方案
一种基于Transformer的引导性文本摘要生成方法,Transformer模型包括编码器Encoder和解码器Decoder,其中解码器Decoder包含注意力机制,其特征在于:对注意力机制进行了修正,并增加了指针机制,包括三个阶段,即数据预处理(步骤1-2)、模型训练(步骤3-7)、摘要生成(步骤8),具体步骤如下:
数据预处理阶段
步骤1关键语义特征提取;
步骤1.1关键词获取:计算文本中每个词的重要性,按重要性降序排列,并提取出前N个对应单词作为的文本关键词集合,记作Set1={a1,a2,…,aN},其中词的重要性计算如公式1所示:
Figure BDA0002604964910000021
其中:vi表示第i个单词通过TextRank算法得到的TextRank值(1≤i≤N),ui为第i个单词利用TF-IDF算法得到的TF-IDF值,α表示调和参数,当α>1时,表示ui比vi重要,当0<α<1时,表示vi比ui重要。
步骤1.2关键语义特征提取:首选利用NLTK语言包进行命名实体识别,提取出文本中所含有的实体,记作集合Set2={b1,b2,…,bq},然后将Set1与Set2取并集,得到原文本的关键语义特征单元,记作Set={c1,c2,…,cT},最后对Set中的每个词ci依据其在原文本中的位置进行排序并得到文本关键语义特征KI,记作:
Figure BDA0002604964910000031
其中
Figure BDA0002604964910000032
表示第i个关键语义特征单元(1≤i≤T),T表示关键语义特征中所含单词个数;
步骤1.3将关键语义特征向量化:
首先利用词嵌入模型BERT获取关键语义特征
Figure BDA0002604964910000033
对应的词嵌入矩阵,记作:
Figure BDA0002604964910000034
其中
Figure BDA0002604964910000035
然后将其输入BiLSTM(双向长短记忆网络)网络来获取
Figure BDA0002604964910000036
的语义表示向量
Figure BDA0002604964910000037
其中
Figure BDA0002604964910000038
Figure BDA0002604964910000039
分别表示正向与反向的最后一个时刻的隐藏状态输出;
步骤2对于长度大于阈值L的文本,提取关键句,将长文本转换为短文本;
原文本记为Article=(sentence1,sentence2,…,sentencen),sentencei表示原文本的第i个句子(1≤i≤n),n表示原文本所含有的句子总数,利用TextRank算法对Article中的每个句子进行重要性评估,并按重要性降序排列得到Article′=(sentence′1,sentence′2,…,sentence′n)。取Article′中前k个句子,保证前k个句子的总长度不大于阈值L,并按照句子在原文本中的出现顺序重新排序;
模型训练阶段
训练数据包括训练文本和对应的文本摘要;
步骤3利用编码器Encoder得到训练文本的语义编码H;
首先,训练文本经过步骤2得到短文本,并以词为单位表示为T′=(w1,w2,…,wm),其中wi为文本序列的第i个词(1≤i≤m);然后利用词嵌入BERT模型将文本序列映射到词嵌入空间,得到每个词wi的词向量xi,此时文本序列T′表示为X=(x1,x2,…,xm);然后将文本序列X输入Transformer的编码器来获取最后的隐藏输出,即H=TransformerEncoder(X);
步骤4利用词嵌入BERT模型获取训练文本对应的参考摘要的词嵌入表示Y=(y1,y2,…,yn),yi(1≤i≤n)表示参考摘要的第i个词对应的词嵌入表示,n表示参考摘要中所含单词个数。将Y输入到Transformer模型的解码器,获取解码器第一次残差连接,归一化后得到向量Ht,即Ht=TransformerDecoder(Y);
步骤5利用关键语义特征修正Attention权值
先计算矩阵Q,K,V。Q=WQHt,其中WQ为待训练参数,Ht为步骤4得到的归一化后向量;K=WKH,V=WVH,其中WK,WV为待训练参数,H为步骤3得到的文本语义编码。
然后利用如下公式修正Attention权值,计算文本T′中每个词的注意力分布:
Attention(Q,K,V)=softmax(E)V (公式2)
Figure BDA0002604964910000041
其中,
Figure BDA0002604964910000042
是由文本T′的m个关键语义特征K′构成的矩阵的转置,可表示为
Figure BDA0002604964910000043
dk表示Q,K矩阵的列数,Q,K的矩阵列数是相等的。
预测第t时刻的词,则将Attention(Q,K,V)的值作为第t时刻的上下文向量Ct
步骤6基于关键语义特征修正指针机制,预测单词,具体如下:
首先,由已计算的上下文向量Ct,文本T′的关键语义特征K′,以及解码器当前时刻的解码状态St,构造一个摘要生成开关Pgen,具体计算公式如下:
Figure BDA0002604964910000044
其中:
Figure BDA0002604964910000045
b为待训练参数,σ表示Sigmoid函数;
然后,通过Pgen重新构造概率分布P(w),并通过计算概率分布P(w),确定概率分布P(w)最大的单词即为摘要中的第t个单词,P(w)计算公式如下:
Figure BDA0002604964910000051
其中,Pvocab(w)表示词库中单词w作为摘要中第t个单词的预测概率,由softmax函数进行计算,
Figure BDA0002604964910000052
是上下文向量Ct,解码状态St的转置拼接,V和b是待训练参数,当单词w不在词库中时,Pvocab(w)=0;
Figure BDA0002604964910000053
表示关于单词w的注意力求和,其中ai是注意力向量a中的第i个值,当单词w不在输入文本中时,
Figure BDA0002604964910000054
摘要生成开关Pgen用于Pvocab(w)和
Figure BDA0002604964910000055
的权重调节。
步骤7构造每个时刻的损失函数,当损失函数达到最小值,或满足迭代次数,模型中的参数都得到训练,得到训练好的摘要生成模型,记作TransTS;
摘要生成阶段
步骤8对需要生成文本摘要的文本T,通过步骤2获取T的短文本T′。以T′作为模型TransTS的输入,经过模型TransTS的处理,输出为由预测单词组成的文本T的文本摘要。
TransTS的内部处理过程与模型训练类似,区别在于TransTS模型中的参数都已经得到训练。过程包括:首先用词嵌入BERT模型将T′映射到词嵌入空间,通过TransTS的编码器Encoder,得到T′的语义编码;然后用词嵌入BERT模型将T映射到词嵌入空间,通过TransTS的解码器,获取经过第一次残差连接,归一化后得到向量Ht;再利用T′的关键语义特征,通过公式(2)(3),计算文本T′中每个词的注意力分布,修正Attention权值,得到第t时刻的上下文向量Ct;最后由公式(4)(5),计算预测词的概率分布P(w),确定预测摘要中的第t时刻的单词。
通过上一时刻的输出作为当前时刻的输入,不断重复解码过程来预测当前时刻的词,直到出现结尾标识符,即可完成对摘要所有单词的预测,得到文本T的文本摘要。
有益效果
(1)本发明构建的文本关键语义特征提取方法,能够较好提取出文本的多元连续词组;
(2)本发明首先结合抽取式算法将较长的文本缩减较短的关键文本内容,有效减少了无关的信息对摘要生成过程造成的干扰,并减少了模型较多的计算量;
(3)本发明利用文本的关键语义特征来修正注意力机制,有效引导摘要生成模型生成摘要,使得生成的摘要富含有较多的关键信息。
附图说明
图1本发明的方法流程图;
图2摘要生成模型框架图;
具体实施方式
对本发明的具体实施方式结合图2作进一步的详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
其具体实施步骤如下:
1、一种基于Transformer的引导性文本摘要生成方法,包括以下步骤:
数据预处理阶段
步骤1关键语义特征提取
步骤1.1关键词获取:首先对数据集中的文本进行分词,分词后的原文本记为Test=(w1,w2,…,wn),n表示文本的词数,将词数<300的文本从数据集中删除;然后分别利用TextRank算法与TF-IDF算法计算每个词wi的TextRank值vi与TF-IDF值ui,最后利用如下公式计算文本中每个词的重要性ki,并按重要性降序排列,提取出前N个对应单词作为文本的关键词集合Set1={a1,a2,…,aN},1≤N<20。
Figure BDA0002604964910000071
其中,设置α=0.7,表示TextRank值与TF-IDF值的权值参数
本发明获取的关键词示例如下表所示:
Figure BDA0002604964910000072
步骤1.2关键语义特征提取,首先利用NLTK语言包对文本Text进行命名实体识别,并提取出原文本Text中所含有的实体,并记作集合Set2={b1,b2,…,bq},q为正整数。然后将Set1与Set2取并集,得到文本Text的关键语义特征单元,记作Set={c1,c2,…,cT},T=20。最后对Set中的每个词ci依据其在原文本中的位置进行排序并得到文本关键语义特征KI,记作:
Figure BDA0002604964910000073
其中
Figure BDA0002604964910000074
表示第i个关键语义特征单元,T表示关键语义特征中所含单词个数。本发明提取的关键语义特征如下表所示:
Figure BDA0002604964910000075
步骤1.3将关键语义特征向量化,首先利用词嵌入模型BERT获取关键语义特征
Figure BDA0002604964910000081
对应的词嵌入矩阵,记作:
Figure BDA0002604964910000082
其中
Figure BDA0002604964910000083
然后将其输入BiLSTM网络来获取
Figure BDA0002604964910000084
的语义特征向量
Figure BDA0002604964910000085
其中
Figure BDA0002604964910000086
Figure BDA0002604964910000087
分别表示正向与反向的最后一个时刻的隐藏状态输出。
步骤2对于长度大于阈值L的文本,提取关键句,将长文本转换为短文本
原文本记为Article=(sentence1,sentence2,…,sentencen),利用TextRank算法对Article中的每个句子进行重要性评估,并按重要性降序排列得到Article′=(sentence′1,sentence′2,…,sentence′n)。取Article′中前k个句子,保证前k个句子的总长度不大于阈值L,并按照句子在原文本中的出现顺序重新排序;
设置L=600,关键短文本示例如下表所示,其中n=42,k=21:
Figure BDA0002604964910000088
通过步骤2可以将较长的原文本转换为较短的关键短文本,减少较多的冗余信息,有效的避免了一些冗余信息对摘要生成过程造成的干扰,而且提高了计算效率。
模型训练阶段
训练数据包括文本以及对应的参考摘要;
步骤3利用编码器Encoder得到训练文本的语义编码H;
首先,训练文本经过步骤2得到短文本,并以词为单位表示为T′=(w1,w2,…,wm),其中wi为文本序列的第i个词,m=600,如果文本长度小于600,则用符号“<PAD>”补全;然后利用词嵌入BERT模型将文本序列映射到词嵌入空间,得到每个词wi的词向量xi,此时文本序列T′表示为X=(x1,x2,…,xm);然后将文本序列X输入Transformer模型的编码器来获取最后的隐藏输出,即H=TransformerEncoder(X);
步骤4利用词嵌入BERT模型获取训练文本对应的参考摘要的词嵌入表示Y=(y1,y2,…,yn),n=100,并将Y输入到Transformer模型的解码器,获取解码器第一次残差连接,归一化后得到向量Ht,即Ht=TransformerDecoder(Y);
步骤5利用关键语义特征修正Attention权值
先计算矩阵Q,K,V。Q=WQHt,其中WQ为待训练参数,Ht为步骤4得到的归一化后向量;K=WKH,V=WVH,其中WK,WV为待训练参数,H为步骤3得到的文本语义编码。
然后利用如下公式修正Attention权值,计算文本T′中每个词的注意力分布:
Attention(Q,K,V)=softmax(E)V
Figure BDA0002604964910000091
其中,
Figure BDA0002604964910000092
是由文本T的m个关键语义特征K′构成的矩阵的转置,可表示为
Figure BDA0002604964910000093
dk表示Q,K矩阵的列数。
预测第t时刻的词,则将Attention(Q,K,V)的值作为第t时刻的上下文向量Ct
步骤6基于关键语义特征修正指针机制,预测单词,具体如下:
首先,由已计算的上下文向量Ct,文本T′的关键语义特征K′,以及解码器当前时刻的解码状态St,构造一个摘要生成开关Pgen,具体计算公式如下:
Figure BDA0002604964910000101
其中:
Figure BDA0002604964910000102
b为待训练参数,σ为Sigmoid函数;
然后,通过Pgen重新构造概率分布P(w),并通过计算概率分布P(w),概率分布P(w)最大的单词即为摘要中的第t个单词,1≤t≤100,P(w)计算公式如下:
Figure BDA0002604964910000103
Figure BDA0002604964910000104
Figure BDA0002604964910000105
Pvocab(w)表示当前词库中单词w作为摘要中第t个单词的预测概率,由softmax函数进行计算,
Figure BDA0002604964910000106
是上下文向量Ct,解码状态St的转置拼接,V和b是待训练参数;ai是注意力向量a中的第i个值,i=1,2,…,600;摘要生成开关Pgen用于Pvocab(w)和
Figure BDA0002604964910000107
的权重调节。
步骤7在模型的训练过程中,我们使用10万篇文本训练模型,数据集为CNN/DaliyMail摘要数据集。每个时刻使用的损失函数公式如下:
Figure BDA0002604964910000108
其中:P(wt)的计算见步骤6,λ=0.89为一个超参数,
Figure BDA0002604964910000109
为附加注意力惩罚项,即覆盖损失,利用该损失来惩罚在生成摘要的过程中重复出现的词,进而解决重复片段生成问题。最后整个模型利用反向传播算法更新迭代如下每个时刻的损失函数之和,进而生成完整的摘要序列。
Figure BDA00026049649100001010
当损失函数达到最小值,或满足迭代次数,模型训练完毕;
摘要生成阶段
步骤8为了说明本发明的有效性,待模型训练完成后,本发明在预留的10000条摘要对测试数据集上进行实验分析,将本发明构建的生式摘要模型在摘要评价指标Rouge上与其他生成式摘要模型作对比,其结果如下表所示:
Figure BDA0002604964910000111
以上已有模型在短文中的效果比较好,而在长文本中效果出现明显下降,而且在生成的摘要中会出现重复的片段。然而本发明构建的模型TransTS在Rouge上取得较好的结果,比一般的生成式摘要模型生成的结果好。

Claims (5)

1.一种基于Transformer的引导性文本摘要生成方法,Transformer模型包括编码器Encoder和解码器Decoder,其中解码器Decoder包含注意力机制,其特征在于:对注意力机制进行了修正,并增加了指针机制,包括三个阶段,即数据预处理、模型训练、摘要生成,具体如下:
数据预处理阶段
步骤1提取文本关键语义特征向量K′
步骤1.1关键词获取,计算文本中每个词的重要性,按重要性降序排列,并提取出前N个对应单词作为的文本关键词集合,记作Set1={a1,a2,…,aN};
步骤1.2关键语义特征提取:首选对文本进行命名实体识别,提取出文本中所含有的实体,记作集合Set2={b1,b2,…,bq};然后将Set1与Set2取并集,得到原文本的关键语义特征单元,记作Set={c1,c2,…,cT};最后对Set中的每个词ci依据其在原文本中的位置进行排序并得到文本关键语义特征KI,记作:
Figure FDA0002604964900000011
其中
Figure FDA0002604964900000012
表示第i个关键语义特征单元,T表示关键语义特征中所含单词个数;
步骤1.3将关键语义特征向量化:
首先获取关键语义特征
Figure FDA0002604964900000013
对应的词嵌入矩阵,记作:
K=(k1,k2,…,kT),
然后将其输入BiLSTM网络来获取
Figure FDA0002604964900000014
的语义特征向量
Figure FDA0002604964900000015
其中
Figure FDA0002604964900000016
Figure FDA0002604964900000017
分别表示正向与反向的最后一个时刻的隐藏状态输出;
步骤2对于长度大于阈值L的文本,通过提取关键句,将长文本转换为短文本:
原文本记为Article=(sentence1,sentence2,…,sentencen),sentencei表示原文本的第i个句子(1≤i≤n),n表示原文本所含有的句子总数,对Article中的每个句子进行重要性评估,并按重要性降序排列得到Article′=(sentence′1,sentence′2,…,sentence′n),取Article′中前k个最重要句子,保证前k个句子的总长度不大于L,并按照句子在原文本中的出现顺序重新排序;
模型训练阶段
训练数据包括训练文本以及对应的参考摘要;
步骤3利用编码器Encoder得到训练文本的语义编码H;
首先,训练文本经过步骤2得到短文本,并以词为单位表示为T′=(w1,w2,…,wm),其中wi为文本序列的第i个词(1≤i≤m);然后利用词嵌入BERT模型将文本序列映射到词嵌入空间,得到每个词wi的词向量xi,此时文本序列T′表示为X=(x1,x2,…,xm);然后将文本序列X输入Transformer模型的编码器来获取最后的隐藏输出,即H=TransformerEncoder(X);
步骤4利用词嵌入BERT模型获取训练文本对应的参考摘要的词嵌入表示Y=(y1,y2,…,yn),yi(1≤i≤n)表示参考摘要的第i个词对应的词嵌入表示,n表示参考摘要中所含单词个数;将Y输入到Transformer模型的解码器,获取解码器第一次残差连接,归一化得到向量Ht,即Ht=TransformerDecoder(Y);
步骤5利用关键语义特征修正Attention权值
先计算矩阵Q,K,V:Q=WQHt,其中WQ为待训练参数,Ht为步骤4得到的归一化后向量;K=WKH,V=WVH,其中WK,WV为待训练参数,H为步骤3得到的文本语义编码;
再利用如下公式计算修正Attention权值,计算文本T′中每个词的注意力分布:
Attention(Q,K,V)=softmax(E)V (公式2)
Figure FDA0002604964900000021
其中,
Figure FDA0002604964900000022
是由文本T′的m个关键语义特征K′构成的矩阵的转置,可表示为
Figure FDA0002604964900000023
dk表示Q,K矩阵的列数;
预测第t时刻的词,则将Attention(Q,K,V)的值作为第t时刻的上下文向量Ct
步骤6基于关键语义特征修正指针机制,预测单词,具体如下:
首先,由已计算的上下文向量Ct,文本T′的关键语义特征K′,以及解码器当前时刻的解码状态St,构造一个摘要生成开关Pgen,具体计算公式如下:
Figure FDA0002604964900000031
其中:
Figure FDA0002604964900000032
b为待训练参数,σ表示Sigmoid函数;
然后,通过Pgen重新构造概率分布P(w),并通过计算概率分布P(w),确定预测摘要中的第t个单词,P(w)计算公式如下:
Figure FDA0002604964900000033
其中,Pvocab(w)表示词库中单词w作为摘要中第t个单词的预测概率,由softmax函数进行计算,
Figure FDA0002604964900000034
是上下文向量Ct,解码状态St的转置拼接,V和b是待训练参数,当单词w不在词库中时,Pvocab(w)=0;
Figure FDA0002604964900000035
表示关于单词w的注意力求和,其中ai是注意力向量a中的第i个值,当单词w不在输入文本中时,
Figure FDA0002604964900000036
摘要生成开关Pgen用于Pvocab(w)和
Figure FDA0002604964900000037
的权重调节。
步骤7构造每个时刻的损失函数,当损失函数达到最小值,或满足迭代次数,模型中的参数都得到训练,得到训练好的摘要生成模型,记作TransTS;
摘要生成阶段
步骤8对需要生成文本摘要的文本T,通过步骤2获取T的短文本T′;以T′作为模型TransTS的输入,经过模型TransTS的处理,输出为由预测单词组成的文本T的文本摘要。
TransTS的内部处理过程与模型训练类似,区别在于TransTS模型中的参数都已经得到训练,过程包括:首先用词嵌入BERT模型将T′映射到词嵌入空间,通过TransTS的编码器Encoder,得到T′的语义编码;然后用词嵌入BERT模型将T映射到词嵌入空间,通过TransTS的解码器,获取经过第一次残差连接,归一化后得到向量Ht;再利用T′的关键语义特征,通过公式(2)(3),计算文本T′中每个词的注意力分布,修正Attention权值,得到第t时刻的上下文向量Ct;最后由公式(4)(5),计算预测词的概率分布P(w),确定预测摘要中的第t时刻的单词。
通过上一时刻的输出作为当前时刻的输入,不断重复解码过程来预测当前时刻的词,直到出现结尾标识符,即可完成对摘要所有单词的预测,得到文本T的文本摘要。
2.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法,其特征在于:步骤1中词的重要性计算如下公式1:
Figure FDA0002604964900000041
其中:vi表示第i个单词通过TextRank算法得到的TextRank值,ui为第i个单词利用TF-IDF算法得到的TF-IDF值,α表示调和参数。
3.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法,其特征在于:步骤2中利用NLTK语言包对文本进行命名实体识别。
4.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法,其特征在于:步骤1.3利用词嵌入模型BERT获取关键语义特征
Figure FDA0002604964900000042
对应的词嵌入矩阵,记作:
Figure FDA0002604964900000043
其中
Figure FDA0002604964900000044
5.根据权利要求1所述的一种基于Transformer的引导性文本摘要生成方法,其特征在于:步骤2.1利用TextRank算法对Article中的每个句子进行重要性评估。
CN202010740782.8A 2020-07-28 2020-07-28 一种基于Transformer的引导性文本摘要生成方法 Active CN111897949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010740782.8A CN111897949B (zh) 2020-07-28 2020-07-28 一种基于Transformer的引导性文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010740782.8A CN111897949B (zh) 2020-07-28 2020-07-28 一种基于Transformer的引导性文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN111897949A true CN111897949A (zh) 2020-11-06
CN111897949B CN111897949B (zh) 2021-10-26

Family

ID=73182333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010740782.8A Active CN111897949B (zh) 2020-07-28 2020-07-28 一种基于Transformer的引导性文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN111897949B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347242A (zh) * 2020-11-11 2021-02-09 北京沃东天骏信息技术有限公司 摘要生成方法、装置、设备及介质
CN112417139A (zh) * 2020-11-19 2021-02-26 深圳大学 一种基于预训练语言模型的摘要生成方法
CN112561038A (zh) * 2020-12-21 2021-03-26 之江实验室 一种批数据集构建方法、装置、电子设备及存储介质
CN112668338A (zh) * 2021-03-22 2021-04-16 中国人民解放军国防科技大学 澄清问题生成方法、装置和电子设备
CN112765345A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种融合预训练模型的文本摘要自动生成方法及系统
CN113111646A (zh) * 2021-03-02 2021-07-13 重庆邮电大学 一种文本摘要模型生成及文本摘要识别方法
CN113158665A (zh) * 2021-04-02 2021-07-23 西安交通大学 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113157855A (zh) * 2021-02-22 2021-07-23 福州大学 一种融合语义与上下文信息的文本摘要方法及系统
CN113434664A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 文本摘要生成方法、装置、介质及电子设备
CN113590828A (zh) * 2021-08-12 2021-11-02 杭州东方通信软件技术有限公司 一种通话关键信息的获取方法及装置
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质
CN113642296A (zh) * 2021-08-27 2021-11-12 杭州网易智企科技有限公司 文本生成方法、介质、装置和电子设备
CN114117453A (zh) * 2021-12-08 2022-03-01 深圳市辰星瑞腾科技有限公司 基于数据深度关联的计算机防御系统以及防御方法
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN114281982A (zh) * 2021-12-29 2022-04-05 中山大学 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、系统、设备及存储介质
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
WO2022156434A1 (zh) * 2021-01-22 2022-07-28 北京沃东天骏信息技术有限公司 用于生成文本的方法和装置
CN116050397A (zh) * 2023-03-07 2023-05-02 知呱呱(天津)大数据技术有限公司 一种长文本摘要生成方法、系统、设备及存储介质
CN116976290A (zh) * 2023-06-19 2023-10-31 珠海盈米基金销售有限公司 一种基于自回归模型的多场景资讯摘要生成方法以及装置
CN116992854A (zh) * 2023-04-25 2023-11-03 云南大学 基于amr对比学习的文本摘要生成的方法
CN117407051A (zh) * 2023-12-12 2024-01-16 武汉大学 一种基于结构位置感知的代码自动摘要方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN109670035A (zh) * 2018-12-03 2019-04-23 科大讯飞股份有限公司 一种文本摘要生成方法
US20190311002A1 (en) * 2017-04-14 2019-10-10 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
EP3620935A1 (en) * 2018-09-04 2020-03-11 Siemens Aktiengesellschaft System and method for natural language processing
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311002A1 (en) * 2017-04-14 2019-10-10 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
EP3620935A1 (en) * 2018-09-04 2020-03-11 Siemens Aktiengesellschaft System and method for natural language processing
CN109670035A (zh) * 2018-12-03 2019-04-23 科大讯飞股份有限公司 一种文本摘要生成方法
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO LUO: "Automatic Text Summarization Based on Transformer and Switchable Normalization", 《IEEE》 *
李晨斌等: "基于改进Encoder-Decoder模型的新闻摘要生成方法", 《计算机应用》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347242A (zh) * 2020-11-11 2021-02-09 北京沃东天骏信息技术有限公司 摘要生成方法、装置、设备及介质
CN112417139A (zh) * 2020-11-19 2021-02-26 深圳大学 一种基于预训练语言模型的摘要生成方法
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法
CN112417139B (zh) * 2020-11-19 2023-07-25 深圳大学 一种基于预训练语言模型的摘要生成方法
CN112561038A (zh) * 2020-12-21 2021-03-26 之江实验室 一种批数据集构建方法、装置、电子设备及存储介质
CN112765345A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种融合预训练模型的文本摘要自动生成方法及系统
WO2022156434A1 (zh) * 2021-01-22 2022-07-28 北京沃东天骏信息技术有限公司 用于生成文本的方法和装置
CN113157855A (zh) * 2021-02-22 2021-07-23 福州大学 一种融合语义与上下文信息的文本摘要方法及系统
CN113111646A (zh) * 2021-03-02 2021-07-13 重庆邮电大学 一种文本摘要模型生成及文本摘要识别方法
CN112668338A (zh) * 2021-03-22 2021-04-16 中国人民解放军国防科技大学 澄清问题生成方法、装置和电子设备
US11475225B2 (en) 2021-03-22 2022-10-18 National University Of Defense Technology Method, system, electronic device and storage medium for clarification question generation
CN113158665A (zh) * 2021-04-02 2021-07-23 西安交通大学 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113434664A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 文本摘要生成方法、装置、介质及电子设备
CN113590828A (zh) * 2021-08-12 2021-11-02 杭州东方通信软件技术有限公司 一种通话关键信息的获取方法及装置
CN113642296A (zh) * 2021-08-27 2021-11-12 杭州网易智企科技有限公司 文本生成方法、介质、装置和电子设备
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN114117453A (zh) * 2021-12-08 2022-03-01 深圳市辰星瑞腾科技有限公司 基于数据深度关联的计算机防御系统以及防御方法
CN114117453B (zh) * 2021-12-08 2022-08-12 深圳市辰星瑞腾科技有限公司 基于数据深度关联的计算机防御系统以及防御方法
CN114281982A (zh) * 2021-12-29 2022-04-05 中山大学 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、系统、设备及存储介质
CN114691858A (zh) * 2022-03-15 2022-07-01 电子科技大学 一种基于改进的unilm摘要生成方法
CN114691858B (zh) * 2022-03-15 2023-10-03 电子科技大学 一种基于改进的unilm摘要生成方法
CN116050397A (zh) * 2023-03-07 2023-05-02 知呱呱(天津)大数据技术有限公司 一种长文本摘要生成方法、系统、设备及存储介质
CN116050397B (zh) * 2023-03-07 2023-05-30 知呱呱(天津)大数据技术有限公司 一种长文本摘要生成方法、系统、设备及存储介质
CN116992854A (zh) * 2023-04-25 2023-11-03 云南大学 基于amr对比学习的文本摘要生成的方法
CN116976290A (zh) * 2023-06-19 2023-10-31 珠海盈米基金销售有限公司 一种基于自回归模型的多场景资讯摘要生成方法以及装置
CN116976290B (zh) * 2023-06-19 2024-03-19 珠海盈米基金销售有限公司 一种基于自回归模型的多场景资讯摘要生成方法以及装置
CN117407051A (zh) * 2023-12-12 2024-01-16 武汉大学 一种基于结构位置感知的代码自动摘要方法
CN117407051B (zh) * 2023-12-12 2024-03-08 武汉大学 一种基于结构位置感知的代码自动摘要方法

Also Published As

Publication number Publication date
CN111897949B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN110209801B (zh) 一种基于自注意力网络的文本摘要自动生成方法
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN108804495A (zh) 一种基于增强语义的自动文本摘要方法
CN111241816A (zh) 一种新闻标题自动生成方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111178053B (zh) 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN116628186B (zh) 文本摘要生成方法及系统
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN114627162A (zh) 一种基于视频上下文信息融合的多模态密集视频描述方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
Szűcs et al. Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN113626584A (zh) 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN111309896A (zh) 基于二级注意力的深度学习文本摘要生成方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant