CN112417138A - 一种结合指针生成式与自注意力机制的短文本自动摘要方法 - Google Patents

一种结合指针生成式与自注意力机制的短文本自动摘要方法 Download PDF

Info

Publication number
CN112417138A
CN112417138A CN202011284266.5A CN202011284266A CN112417138A CN 112417138 A CN112417138 A CN 112417138A CN 202011284266 A CN202011284266 A CN 202011284266A CN 112417138 A CN112417138 A CN 112417138A
Authority
CN
China
Prior art keywords
attention
self
vector
word
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011284266.5A
Other languages
English (en)
Inventor
姜志祥
闫国玉
张帆
秦蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202011284266.5A priority Critical patent/CN112417138A/zh
Publication of CN112417138A publication Critical patent/CN112417138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种结合指针生成式与自注意力机制的短文本自动摘要方法,包括:对数据集进行分词处理训练,训练得到的结果作为编码器端的输入;在编码器与解码器底部嵌入中加入位置编码;利用解码器当前时刻以及前一时刻的输出,以及注意力分布拼接得到指针生成网络的生成概率,控制复制源文本中内容生成摘要或根据注意力生成摘要,若词汇分布中不存在解码的词,则利用多头部注意力分布复制得到,若词汇分布中存在解码的词,则使用解码的词的分布式表示。本发明提升摘要效果的基础上减少训练时间,提高工作者的浏览和处理信息的效率,降低信息负载。

Description

一种结合指针生成式与自注意力机制的短文本自动摘要方法
技术领域
本发明涉及一种自然语言处理领域,特别涉及一种结合指针生成式与自注意力机制的短文本自动摘要方法。
背景技术
随着信息时代的发展,互联网信息量急剧增长,人们每天都能通过各种渠道接收到海量的文本信息,因此,从大量冗余的信息中提炼出有用的信息成为亟待解决的问题。文本摘要能够识别一个文档或一组相关文档中最重要的信息,并将其压缩为短文本以保留整体含义。自动文本摘要将源文本转化为具有相关语义的短文本,提炼信息,减少人类的阅读时间。
文本自动摘要方法通常可分为抽取式摘要和生成式摘要两种。抽取式方法在理解源文本语义的基础上,利用词库中的单词,将源文本中重要的句子和段落组合成较短的文本,生成摘要。由于抽取式摘要主要考虑单词的词频等特性,并不包含语义信息,所以无法完整的表达文本的语义信息。生成式摘要方法利用自然语言处理算法进行转述、同义替换、句子缩写等操作来获得文档的摘要。生成式摘要的质量更高,但难度较大、复杂性较高。
由于生成式摘要能更好的理解输入信息、得到更好的效果,生成式摘要已经成为主流的方法,迫切需要克服其难度较大、复杂性较高的缺陷。
发明内容
本发明的目的在于提供一种基于指针生成式与自注意力机制的短文本自动摘要方法,用于解决生成式摘要模型中难度较大、复杂性较高的问题。
本发明一种基于指针生成式与自注意力机制的短文本自动摘要方法,其中,包括:对数据集进行分词处理训练,训练得到的结果作为编码器端的输入;在编码器与解码器底部嵌入中加入位置编码;利用解码器当前时刻以及前一时刻的输出,以及注意力分布拼接得到指针生成网络的生成概率,控制复制源文本中内容生成摘要或根据注意力生成摘要,若词汇分布中不存在解码的词,则利用多头部注意力分布复制得到,若词汇分布中存在解码的词,则使用解码的词的分布式表示;编码器由自注意力层和全连接前馈神经网络层两个子层构成,子层之间的连接采用残差连接,然后进行层归一化;解码器由自注意力层、全连接前馈神经网络层以及带掩码注意力层三个子层组成,子层之间采用残差连接并进行归一化。
本发明提升摘要效果的基础上减少训练时间。提高工作者的浏览和处理信息的效率,降低信息负载。
附图说明
图1是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型示意图;
图2是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型的缩放点积注意力计算示意图;
图3是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型的多头注意力计算示意图;
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提供一种基于结合指针生成式网络与自注意力机制的短文本自动摘要方法,通过编码器对输入信息进行编码,进行自注意力计算,将对应结果矩阵输入解码器,进行解码计算,同时通过指针概率控制复制还是生成单词。最终实现自动摘要的目标。
一种基于结合指针生成式网络与自注意力机制的短文本自动摘要方法具体包括:
(1)分词以及词向量构建模块,通过预处理将每篇正文和原摘要放在同一行中,利用结巴(jieba)工具对数据集进行分词处理,对照词典,生成句子的有向无环图(DAG),找到最短路径后,直接对原句进行截取,如果某个字在字典中出现的概率为零,则使用未知(unknown,UNK)标记代替。对未登录词(out of vocabulary,OOV)词,使用隐马尔可夫模型进行新词发现,得到分词后,再使用词向量生成工具gensim进行字向量训练,训练得到的结果再作为编码器端的输入。
(2)位置编码模块,采用在编码器与解码器底部嵌入中加入位置编码,编码信息选择使用不同的正弦和余弦函数,其中,pos表示在句子中的位置,i为维度,dmodel=512。公式如下所示:
Figure BDA0002781834570000041
Figure BDA0002781834570000042
(3)以序列到序列为基础的指针式生成网络模型,指针式生成网络模型能够通过指针概率控制是从源文本复制得到摘要还是从解码器利用词典生成摘要。利用解码器当前时刻以及前一时刻的输出,以及注意力分布拼接得到指针生成网络的生成概率Pgens,该概率控制是复制源文本中内容生成摘要还是根据注意力生成摘要,若词汇分布中不存在解码的词,则直接利用多头部注意力分布复制得到,若词汇分布中存在解码的词,则使用该词的分布式表示。
(4)编码模块由6层编码器组成,编码器由自注意力层和全连接前馈神经网络层两个子层构成,子层之间的连接采用残差连接(residual connection),然后进行层归一化(layer normalization)。每个子层的输出都为LayerNorm(x+Sublayer(x)),其中,sublayer(x)是由子层本身实现的功能,为了使残差连接更加方便计算,所有子层以及嵌入层输出的维度大小dmodel都为512。
(5)解码模块由6层解码器组成,解码器由自注意力层和全连接前馈神经网络层以及带掩码注意力层三个子层组成,子层之间采用残差连接并进行归一化,所有子层以及嵌入层输出的维度大小dmodel都为512。
图1是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型示意图,如图1所示,该发明包括:
(1)分词以及词向量构建模块,通过预处理将每篇正文和原摘要放在同一行中,利用结巴(jieba)工具对数据集进行分词处理,对照词典,生成句子的有向无环图(DAG),找到最短路径后,直接对原句进行截取,如果某个字在字典中出现的概率为零,则使用未知(unknown,UNK)标记代替。对未登录词(out of vocabulary,OOV)词,使用隐马尔可夫模型进行新词发现,得到分词后,再使用词向量生成工具gensim进行字向量训练,训练得到的结果再作为编码器端的输入。
(2)位置编码模块,采用在编码器与解码器底部嵌入中加入位置编码,编码信息选择使用不同的正弦和余弦函数,其中,pos表示在句子中的位置,i为维度,dmodel=512。公式如下所示:
Figure BDA0002781834570000051
Figure BDA0002781834570000052
(3)以序列到序列为基础的指针式生成网络模型,指针式生成网络模型能够通过指针概率控制是从源文本复制得到摘要还是从解码器利用词典生成摘要。利用解码器当前时刻以及前一时刻的输出,以及注意力分布拼接得到指针生成网络的生成概率Pgens,该概率控制是复制源文本中内容生成摘要还是根据注意力生成摘要,若词汇分布中不存在解码的词,则直接利用多头部注意力分布复制得到,若词汇分布中存在解码的词,则使用该词的分布式表示。
(4)编码模块由6层编码器组成,编码器由自注意力层和全连接前馈神经网络层两个子层构成,子层之间的连接采用残差连接(residual connection),然后进行层归一化(layer normalization)。每个子层的输出都为LayerNorm(x+Sublayer(x)),其中,sublayer(x)是由子层本身实现的功能,为了使残差连接更加方便计算,所有子层以及嵌入层输出的维度大小d_model都为512。
(5)解码模块由6层解码器组成,解码器由自注意力层和全连接前馈神经网络层以及带掩码注意力层三个子层组成,子层之间采用残差连接并进行归一化,所有子层以及嵌入层输出的维度大小dmodel都为512。
如图2以及图3所示,两种注意力计算如下:
首先根据嵌入向量和加权矩阵计算得到三个向量,分别是查询向量Q、键向量K和值向量V。这三个向量的生成方式是词嵌入与三个权重矩阵((WQ,WR,WV))相乘。
Qi=QWi Q,Ki=KWi K,Vi=VWi V i=1,2,...,8
接下来使计算缩放点积注意力,计算公式如下所示,计算完成后,通过softmax传递结果,得到注意力向量就可以传递给前馈神经网络。除以dk是为了防止经过softmax后的结果变得更加集中,使得梯度更稳定。
Figure BDA0002781834570000061
headi=Attention(QWi Q,Ki=KWi K,Vi=VWi V)
计算出自注意力头部矩阵后,需要将8个矩阵拼接起来,然后与矩阵WO相乘,得到多头部自注意力向量,WO是经过联合训练的矩阵。
Multihead(Q,K,V)=Concat(headi,...,headn)n=8
多注意力网络相当于多个不同自注意力的集成,将数据X分为8个头,分别输入到8个自注意力层中,乘以各个加权矩阵,得到8个加权后的特征矩阵Z,将8个矩阵Z按列拼成一个大的特征矩阵,乘以权重矩阵Wo得到输出Z。
本发明实施过程中,方法包括:
使用jieba对文本进行分词,同时构建词典。分词结果然后利用gensim中的word2vec进行文本向量化表示,得到的向量输入到模型中。
编码器对输入的向量进行自注意力和多头部自注意力的计算,经过softmax传递结果,再经过前馈神经网络层,输出到下一个编码器,经过6层编码器计算后得到中间注意力变量输入到解码器中。
解码器对输入向量进行计算,每一步输出都会作为下一步的输入,对自注意力的计算与编码器端相同,将最后一个解码器中计算得到的多头部自注意力作为注意力分布。解码器每次解码会输出一个向量,经过线性变化层和softmax后产生当前预测在词典上的词汇分布Pvocab,Pvocab是词典中单词的概率分布。
根据词汇分布和注意力分布计算指针生成概率Pgens,最后根据生成概率和词汇分布确定是从原文本复制单词还是从词典中生成单词。
进一步的,对于一个具体实施例,该方法包括:
步骤1:分词以及词向量构建,通过预处理将每篇正文和原摘要放在同一行中,利用jieba对数据集进行分词处理,对照词典,生成句子的有向无环图(DAG),找到最短路径后,直接对原句进行截取,如果某个字在字典中出现的概率为零,则使用UNK标记代替。对未登录词,使用隐马尔可夫模型进行新词发现,得到分词后,再使用gensim进行词向量训练,训练得到的结果再作为编码器端的输入。
步骤2:位置编码,因为自注意力机制消除了卷积的同时也不会考虑输入信息的相对位置信息,因此我们采用了在编码器与解码器底部嵌入中加入位置编码,编码信息选择使用不同的正弦和余弦函数,其中pos表示在句子中的位置,i为维度,dmodel=512。公式如下所示
Figure BDA0002781834570000081
Figure BDA0002781834570000082
步骤3:两种自注意力计算,先计算放缩点积注意力,即自注意力,计算完成后通过softmax传递结果,得到注意力向量就可以传递给前馈神经网络。除以dk是为了防止经过softmax后的结果变得更加集中,使得梯度更稳定。计算出自注意力头部矩阵后,需要将8个矩阵拼接起来,然后与矩阵Wo相乘,得到多头部自注意力向量。
步骤4:计算词汇分布Pvocab以及生成概率Pgens。解码器最后会输出一个向量,经过线性变化层把向量投射到一个对数几率(logits)的向量中,向量中的每个单元格都会产生一个分数,经过softmax后会将这些变为一个概率,其中概率最高的单元格会被选中,然后对应单词会作为这一时刻的输出。利用解码器当前时刻以及前一时刻的输出以及注意力分布拼接得到指针生成网络的生成概率Pgens,该概率控制是复制源文本中内容生成摘要还是根据注意力生成摘要,若词汇表分布中不存在解码的词,则直接利用多头部注意力分布复制得到,若词汇表分布中存在分布,则使用词汇表分布。
设解码器输出为di,注意力分布为ai,t-1时刻的注意力向量为ai-1,词嵌入向量为embXi,l2为输出端最大长度,词汇分布为Pvocab。将t-1时刻注意力将其与t时刻嵌入向量进行拼接得到新向量embYi
embYi=concat[embXi,ai-1]
那么在t时刻解码器的输出即为
Figure BDA0002781834570000091
Si为解码器输出经过全连接层后的输出:
Si=FFN(di)
根据t时刻和t-1时刻解码器已经得到的摘要字符的向量。以及最新的注意力分布,利用输入供给可以计算出生成概率Pgens
Pgens=sigmod[Si-1,Si,ai]
Pvocab=softmax([Si,ai])
最终单词的概率分布为:
Figure BDA0002781834570000092
Pgens可以看作是一个开关,控制是从输入队列复制词还是生成新词,如果是未登录单词,Pvocab=0,只能通过复制得到,并保留右侧部分;如果没有出现在输入文本中时,单词只能通过模型生成,并保留左侧部分。复制网络的引用能够在很大程度上减轻未登录词问题,防止摘要对原文的描述出现细节偏差问题。
步骤5:计算损失函数。在时刻t,目标单词在此时刻被解码,那t时刻的损失函数就是该单词对应的概率分布的对数值的负数,在损失函数前面添加一个以e为底的对数。
Figure BDA0002781834570000101
在训练过程中对语料进行自动摘要训练时,并不是只需要对每一时刻计算损失函数值,还需要计算整体损失函数值的反向传播,以更新模型。设当前解码总时长为T,则对应输入序列的总体损失函数值为:
Figure BDA0002781834570000102
通过对输入文本信息进行分词、词向量建模后输入到编码器中,然后在编码器中进行自注意力的计算,经过残差连接后得到中间向量,输入到解码器中进行计算,输出向量经过线性变化层把向量投射到一个对数几率(logits)的向量中,再经过softmax后会将这些变为一个概率,通过此概率确定是从源文本复制还是生成摘要。
本发明公开了一种结合指针生成式与自注意力机制的短文本自动摘要模型,该模型包括:(1)分词以及词向量构建模块,利用jieba分词工具,gensim工具进行词向量计算;(2)位置编码模块,使用正弦和余弦函数表示输入序列的位置信息;(3)以序列到序列为基础的指针式生成网络模型;(4)编码模块,由6层编码器组成,编码器由自注意力层和全连接前馈神经网络层两个子层构成,子层之间采用残差连接;(5)解码模块,由6层相同的解码器组成,解码器由3个子层,子层之间采用残差连接并进行归一化。本发明结合以序列到序列模型为基础的指针生成式和自注意力机制,在有效提高摘要准确率的同时,还能够解决未登录词问题,防止生成摘要的过程中出现重复,使用自注意力机制代替传统的循环神经网络,能提升模型训练的并行性,消除卷积计算,减少训练时间。本发明能够通过将输入的短文本信息进行计算得到文本信息的摘要内容,可以在不改变原文本意思的情况下保留原文中心内容。本发明可以应用于科技情报领域以及信息检索领域中,进行自动摘要,获取文本重要信息,提高工作者浏览和处理信息的效率,有效降低信息负载。
与现有的序列到序列模型相比,本发明在保留原有模型优点的同时,引入自注意力机制和复制机制以及输入嵌入方法,得到一种基于指针生成式与自注意力机制的短文本自动摘要模型,模型完全消除了重复和卷积,避免了递归,具有更高的并行性,能提升训练速度,降低长时间训练导致的性能下降。与原来的混合指针式网络相比,本发明的模型能够快速降低损失函数值,减少训练时间,并提升摘要的准确度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,包括:
对数据集进行分词处理训练,训练得到的结果作为编码器端的输入;
在编码器与解码器底部嵌入中加入位置编码;
利用解码器当前时刻以及前一时刻的输出,以及注意力分布拼接得到指针生成网络的生成概率,控制复制源文本中内容生成摘要或根据注意力生成摘要,若词汇分布中不存在解码的词,则利用多头部注意力分布复制得到,若词汇分布中存在解码的词,则使用解码的词的分布式表示;
编码器由自注意力层和全连接前馈神经网络层两个子层构成,子层之间的连接采用残差连接,然后进行层归一化;
解码器由自注意力层、全连接前馈神经网络层以及带掩码注意力层三个子层组成,子层之间采用残差连接并进行归一化。
2.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,通过预处理将每篇正文和原摘要放在同一行中,利用jieba分词工具对数据集进行分词处理,对照词典,生成句子的有向无环图,找到最短路径后,对原句进行截取,如果某个字在字典中出现的概率为零,则使用未知标记代替,对未登录词,使用隐马尔可夫模型进行新词发现,得到分词后,使用词向量生成工具gensim进行字向量训练,训练得到的结果作为编码器端的输入。
3.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,采用在编码器与解码器底部嵌入中加入位置编码,编码信息选择使用不同的正弦和余弦函数,其中,pos表示在句子中的位置,i为维度,dmodel=512,公式如下所示:
Figure FDA0002781834560000021
Figure FDA0002781834560000022
4.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,编码器每个子层的输出都为LayerNorm(x+Sublayer(x)),其中,sublayer(x)是由子层本身实现的功能,所有子层以及嵌入层输出的维度大小dmodel都为512。
5.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,注意力计算包括:
根据嵌入向量和加权矩阵计算得到三个向量,分别是查询向量Q、键向量K和值向量V,三个向量的生成方式是词嵌入与三个权重矩阵((WQ,WR,WV))相乘;
Qi=QWi Q,Ki=KWi K,Vi=VWi V i=1,2,...,8;
接下来使计算缩放点积注意力,计算公式:
Figure FDA0002781834560000023
计算完成后,通过softmax传递结果,得到注意力向量就可以传递给前馈神经网络,除以dk是为了防止经过softmax后的结果变得更加集中,使得梯度更稳定;
headi=Attention(QWi Q,Ki=KWi K,Vi=VWi V);
计算出自注意力头部矩阵后,需要将8个矩阵拼接起来,然后与矩阵WO相乘,得到多头部自注意力向量,WO是经过联合训练的矩阵;
Multihead(Q,K,V)=Concat(headi,...,headn)n=8;
多注意力网络相当于多个不同自注意力的集成,将数据X分为8个头,分别输入到8个自注意力层中,乘以各个加权矩阵,得到8个加权后的特征矩阵Z,将8个矩阵Z按列拼成一个大的特征矩阵,乘以权重矩阵Wo得到输出Z。
6.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,
计算词汇分布Pvocab以及生成概率Pvocab,解码器最后输出一个向量,经过线性变化层把向量投射到一个对数几率的向量中,向量中的每个单元格都会产生一个分数,经过softmax后变为一个概率,其中概率最高的单元格会被选中,对应单词作为这一时刻的输出,利用解码器当前时刻以及前一时刻的输出以及注意力分布拼接得到指针生成网络的生成概率Pgens,控制是复制源文本中内容生成摘要还是根据注意力生成摘要,若词汇表分布中不存在解码的词,则利用多头部注意力分布复制得到,若词汇表分布中存在分布,则使用词汇表分布。
7.如权利要求6所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,
设解码器输出为di,注意力分布为ai,t-1时刻的注意力向量为ai-1,词嵌入向量为embXi,l2为输出端最大长度,词汇分布为Pvocab,将t-1时刻注意力将其与t时刻嵌入向量进行拼接得到新向量embYi
embYi=concat[embXi,ai-1];
那么在t时刻解码器的输出即为:
Figure FDA0002781834560000041
Si为解码器输出经过全连接层后的输出:
Si=FFN(di);
根据t时刻和t-1时刻解码器已经得到的摘要字符的向量,以及最新的注意力分布,利用输入供给可以计算出生成概率Pgens
Pgens=sigmod[Si-1,Si,ai];
Pvocab=softmax([Si,ai]);
最终单词的概率分布为:
Figure FDA0002781834560000042
Pgens可以看作是一个开关,控制是从输入队列复制词还是生成新词,如果是未登录单词,Pvocab=0,只能通过复制得到,并保留右侧部分;如果没有出现在输入文本中时,单词只能通过模型生成,并保留左侧部分。
8.如权利要求7所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,还包括:
计算损失函数,在时刻t,目标单词在此时刻被解码,那t时刻的损失函数就是该单词对应的概率分布的对数值的负数,在损失函数前面添加一个以e为底的对数;
Figure FDA0002781834560000043
在训练过程中对语料进行自动摘要训练时,并不是只需要对每一时刻计算损失函数值,还需要计算整体损失函数值的反向传播,以更新模型。设当前解码总时长为T,则对应输入序列的总体损失函数值为:
Figure FDA0002781834560000051
通过对输入文本信息进行分词、词向量建模后输入到编码器中,然后在编码器中进行自注意力的计算,经过残差连接后得到中间向量,输入到解码器中进行计算,输出向量经过线性变化层把向量投射到一个对数几率的向量中,再经过softmax后会将这些变为一个概率,通过此概率确定是从源文本复制还是生成摘要。
9.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,注意力计算为多头注意力计算以及缩放点积注意力计算。
10.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法,其特征在于,
使用jieba对文本进行分词,同时构建词典。分词结果然后利用gensim中的word2vec进行文本向量化表示,得到的向量输入到模型中;
编码器对输入的向量进行自注意力和多头部自注意力的计算,经过softmax传递结果,再经过前馈神经网络层,输出到下一个编码器,经过6层编码器计算后得到中间注意力变量输入到解码器中;
解码器对输入向量进行计算,每一步输出都会作为下一步的输入,对自注意力的计算与编码器端相同,将最后一个解码器中计算得到的多头部自注意力作为注意力分布,解码器每次解码会输出一个向量,经过线性变化层和softmax后产生当前预测在词典上的词汇分布Pvocab,Pvocab是词典中单词的概率分布;
根据词汇分布和注意力分布计算指针生成概率Pgens,最后根据生成概率和词汇分布确定是从原文本复制单词还是从词典中生成单词。
CN202011284266.5A 2020-11-17 2020-11-17 一种结合指针生成式与自注意力机制的短文本自动摘要方法 Pending CN112417138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011284266.5A CN112417138A (zh) 2020-11-17 2020-11-17 一种结合指针生成式与自注意力机制的短文本自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011284266.5A CN112417138A (zh) 2020-11-17 2020-11-17 一种结合指针生成式与自注意力机制的短文本自动摘要方法

Publications (1)

Publication Number Publication Date
CN112417138A true CN112417138A (zh) 2021-02-26

Family

ID=74831823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011284266.5A Pending CN112417138A (zh) 2020-11-17 2020-11-17 一种结合指针生成式与自注意力机制的短文本自动摘要方法

Country Status (1)

Country Link
CN (1) CN112417138A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN116933785A (zh) * 2023-06-30 2023-10-24 国网湖北省电力有限公司武汉供电公司 一种基于Transformer的电子档案摘要生成方法、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300400A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Deep Reinforced Model for Abstractive Summarization
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300400A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Deep Reinforced Model for Abstractive Summarization
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABIGAIL SEE 等: "Get To The Point: Summarization with Pointer-Generator Networks", 《ACL 2017》 *
ASHISH VASWANI 等: "Attention Is All You Need", 《NIPS"17》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113127631B (zh) * 2021-04-23 2022-07-01 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN116933785A (zh) * 2023-06-30 2023-10-24 国网湖北省电力有限公司武汉供电公司 一种基于Transformer的电子档案摘要生成方法、系统及介质

Similar Documents

Publication Publication Date Title
US11741109B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US11210306B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
Malmi et al. Encode, tag, realize: High-precision text editing
Yi et al. Self-attention based model for punctuation prediction using word and speech embeddings
CN110914827A (zh) 基于转移学习的多语言语义解析器
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN112199945A (zh) 一种文本纠错的方法和装置
KR20220114495A (ko) 탐색, 검색 및 순위화를 위한 상호작용 계층 신경망
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN112417138A (zh) 一种结合指针生成式与自注意力机制的短文本自动摘要方法
CN115062140A (zh) 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法
CN116151132A (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN111428518A (zh) 一种低频词翻译方法及装置
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
CN115391505A (zh) 一种基于提示的掩精确匹配密集检索方法
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114254175A (zh) 一种用于电力政策文件的生成式摘要的提取方法
CN114429144A (zh) 一种运用辅助记忆的多样性机器翻译方法
Yazar et al. Low-Resource Neural Machine Translation: A Systematic Literature Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226

RJ01 Rejection of invention patent application after publication