CN113127631B - 基于多头自注意力机制和指针网络的文本摘要方法 - Google Patents

基于多头自注意力机制和指针网络的文本摘要方法 Download PDF

Info

Publication number
CN113127631B
CN113127631B CN202110441466.5A CN202110441466A CN113127631B CN 113127631 B CN113127631 B CN 113127631B CN 202110441466 A CN202110441466 A CN 202110441466A CN 113127631 B CN113127631 B CN 113127631B
Authority
CN
China
Prior art keywords
text
attention mechanism
value
word
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110441466.5A
Other languages
English (en)
Other versions
CN113127631A (zh
Inventor
邱东
杨兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110441466.5A priority Critical patent/CN113127631B/zh
Publication of CN113127631A publication Critical patent/CN113127631A/zh
Application granted granted Critical
Publication of CN113127631B publication Critical patent/CN113127631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于多头自注意力机制和指针网络的文本摘要方法,包括步骤:首先,101将对数据集中的文本信息进行预处理操作;102建立神经网络学习模型,在神经网络模型中,建立词向量,多头自注意力机制和指针网络模型,得到每一个词的生成的分布概率以及损失函数;103反向传播,利用合适的梯度下降算法(Adam算法),进行更新模型参数和损失函数;104束搜索,使用已经训练好的模型结合束搜索,在多个结果中得到最佳的摘要生成。本发明主要是通过公开的数据集,利用神经网络模型,通过对其反向传播训练模型,在通过束搜索得到较好的摘要结果,有效的解决了摘要未登录词和摘要信息不全的问题。

Description

基于多头自注意力机制和指针网络的文本摘要方法
技术领域
本发明属于神经网络、自然语言处理领域,尤其是自然语言处理领域的文本摘要方法。
背景技术
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,从大量文本信息中快速提取重要的内容,已成为当今面对信息爆炸的一个迫切需求,因此自动文本摘要任务应运而生文本摘要的研究是自然语言处理领域的一个重要领域研究领域,文本摘要是一种从一个或多个信息源中抽取关键信息的方法,它帮助用户节省了大量时间,用户可以从摘要获取到文本的所有关键信息点而无需阅读整个文档。文本摘要是一个典型的文本压缩任务。
文本摘要的目的是从原文中提取一段内容或者生成一段新的内容,概况出原文的主要信息。即通过自动分析给定的文档或者文档集,摘取其中的要点信息,最终输出一篇短小的摘要,摘要的目的就是通过对原文进行压缩,提炼,为用户提供简明扼要的内容描述,有效的解决了信息过载的问题,降低成本。
近年来,由于抽取式摘要有内容选择错误,连贯性差,灵活性差等问题,而生成式摘要允许生成的摘要包含新的词法或短语,其灵活性更高,其中生成式文本摘要,是一个端到端的过程,这种技术方案,类似于翻译任务,随着近几年的深度学习的火热和神经网络模型的发展,其中序列到序列(Seq2Seq)模型被广泛用于生成式摘要任务,并且取得了一定的成果。生成式文本摘要己经引起多方面的关注,成为文本摘要中的一个前沿课题。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。但是序列到序列模型也存在很多的问题,为了有效的提取原始文本的信息和解决未登录词的问题,一种基于序列到序列的自注意力机制模型的方法来增强文本摘要的生成效果。
本发明提供了一种对原文本从多维度进行组合,并且能够给这些组合不同的权重,能够有效的收集原文本自身的语义信息和利用指针网络和覆盖模型来减少出现的未登录词问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种方法。本发明的技术方案如下:
一种基于多头自注意力机制和指针网络的文本摘要方法,其包括以下步骤:
101、计算机对文本语料库进行预处理,包括对CNN/DailyMail数据集进行分词,建立词典文件并且将数据集划分为训练集、测试集、验证集。读取训练数据、测试数据集、验证数据集到计算机中,将每个数据集中的样本划分为文本信息和摘要信息,建立停顿词和特殊词表,利用词典将文本信息和摘要转换为onehot向量和建立未登录词表;
102、基于序列到序列的多头自注意力机制、覆盖机制和指针网络,建立神经网络模型,将101中得到的onehot向量输入,得到整个模型的损失函数值;
103、根据Adam算法,进行梯度下降,更新神经网络模型的参数,降低损失函数值;
104、选取在验证集中损失函数最小的模型,利用束搜索,根据输入文本,生成相应的摘要内容。
进一步的,所述步骤101对语料库进行预处理操作,操作如下:
将CNN/DailyMail数据集,使用了stanford-corenlp进行分词,并且建立词典文件,并且将数据集划分3部分,分别为train,val,test;
每一部分都做如下相同的操作:对每一个样本根据@highlight来将其划分文本与摘要;将文本信息利用词典转换为onehot向量,建立未登录词表以及特殊词表['<pad>','<unk>','<start>','<stop>'],若某个词未出现词典中,则将其加入到未登录词表中,未登录词表是在每一个样本的文本输入时建立的。
进一步的,所述步骤102建立神经网络学习模型操作,主要操作如下:
1)基于序列到序列的自注意力机制、覆盖机制和指针网络建立神经网络学习模型,包括了建立编码层,解码层,多头自注意力机制,软注意力机制,生成门控制值,合成门控制值,训练层和预测模型;
2)在编码层中,将输入的onehot向量进行字嵌入,对输入的信息进行计算其mask值,然后将经过字嵌入的输入信息输入到LSTM中,得到解码层和计算Attention所需要的Output和h值;
3)将编码层得到值,进行降维,然后分别输入到多头自注意力机制中和解码层中;
4)将多头自注意力机制计算的值输入解码层中,在解码层中利用编程层的信息和解码层的输入计算软注意力机制;
5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制;
6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和,并且将未登录词表和生成词的概率进行融合,形成新的生成词概率分布;
7)根据解码层的输入,去查找对应词在概率分布的值,在利用交叉熵去求其损失值,将所有的损害值求和后平均,得到平均损失值。
进一步的,所述步骤2)中,在编码层中,将输入的onehot向量进行字嵌入,对输入的信息进行计算其mask值,然后将经过字嵌入的输入信息输入到LSTM 中,得到解码层和计算Attention所需要的Output和h值;在编码层的LSTM 的长度是固定,因此我们需要将样本文本固定为一个相同的长度,比固定长度长的文本截断,比固定长度短的文本,需要补齐,补Pad即为字典中的0。但是这样引入的0会对后面的损失函数计算时候使用的softmax造成误差,因为我们需要计算其mask(mask的长度和文本的固定长度相同),若在此位置有文本,在mask中用1表示,若此位置是0即是补的长度Pad,在mask中为0,我们使用文本补长后的文本乘以mask的值即可得到真正文本信息。Output,h=LSTM(X) X表示输入的文本。
进一步的,所述步骤4)将多头自注意力机制计算的值输入解码层中,在解码层中利用编程层的信息和解码层的输入计算软注意力机制。软注意力机制的公式如下:
Figure GDA0003613482070000041
at=softma x(et)
输入的文本信息,经过双向的LSTM后可得到编码的隐藏状态hi。在解码端,解码器是一个单向的LSTM,在时间步t时得到解码状态为st,利用hi和st计算解码时间步t在原文本中第i个词的注意力权重。其中V、Wh、Ws和battn是可学习的参数,at是当前时刻的注意力分布。
进一步的,所述步骤5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制;门控制的数学公式:
Figure GDA0003613482070000042
Pgate=σ(WyY+Wh*h*+WesSes+WdsSt+B)
σ是sigmod函数。Y是来自多头自注意力机制的上下文本向量,h*是来自软注意力机制的上下文本向量,Ses是编码层的双向LSTM输出的隐层状态值,St是解码层当前时间步t的解码的隐层状态值,xt是解码器的输入。其他参数是可学习的参数。
进一步的,所述步骤6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和,并且将未登录词表和生成词的概率进行融合,形成新的生成词概率分布,数学公式如下:
PSelf-vocab=softmax(V′(Y)+b)
Figure GDA0003613482070000043
Pwvocab=Pgate*Pvocab+(1-Pgate)*PSelf-vocab
Figure GDA0003613482070000044
PSelf-vocab是多头自注意力机制计算出的概率分布,Pvocab是软注意力机制计算出的概率分布。利用Pgate将两种概率融合。再使用pgen来融合指针网络,
Figure GDA0003613482070000051
表示原文本中的词。
进一步的,所述步骤7)根据解码层的输入,去查找对应词在概率分布的值,在利用交叉熵去求其损失值,将所有的损害值求和后平均,得到平均损失值。数学公式如下:
Figure GDA0003613482070000052
Figure GDA0003613482070000053
Figure GDA0003613482070000054
Pw为生成标签中的当前词,在概率分布中的值。
进一步的,所述步骤103根据Adam算法,进行梯度下降,更新神经网络模型的参数,具体包括:
1)使用了Adam优化器,利用梯度下降,更新模型中已有的参数。
2)为了解决过拟合问题,定期使用梯度剪裁方式。
进一步的,所述步骤104束搜索操作,具体如下:
1)根据上面训练好的模型,从中挑选验证集中损失值最小的模型。将测试集中的数据输入到已经训练好的模型中,生成需要的摘要,引入束搜索,每次选取前K个最高的概率值,来预测下一个词,然后在从这K*K个中选取得分最高的K个作为下一路扩展的K个,直到最后,将得到选取整体概率值最高的生成结果;
2)利用Rouge这个包,来对生成的摘要和标记进行对比。来评生成的摘要的效果。
本发明的优点及有益效果如下:
本发明技术方案对指针生成网络算法进行了改进,提出了多头双注意力指针网络(MDAPT)算法,引入门机制去融合文本的关键特征和文本的上下文语义信息,同时使用束搜索来生成更有效的摘要。可以获取原文本内部的语义信息和标签去找寻原文本的注意力机制相融合,使得生成的摘要能够充分获取原文本的重要特征,使生成的摘要更加的简洁。原本的指针生成网络算法,其利用的是软注意机制和指针网络来解决未登录词问题,只根据摘要标签来关注原文本的信息,而忽略了原文本自身信息,摘要是来自对原文本的总结,因此需要原文本信息的提取,为了使原文本信息和标签同时影响摘要的生成,引入门控制来平衡二者,使其生成效果更好的摘要。
附图说明
图1是本发明提供优选实施例的整体流程图;
图2是数据预处理流程图;
图3为本方法的整体架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
参考图1,图1为本发明为一种基于序列到序列的多头自注意力机制和指针网络的文本摘要方法的流程图,具体包括: 101对语料库进行预处理操作,参考图2,主要操作如下:
1)将CNN/DailyMail数据集,使用了stanford-corenlp进行分词,并且建立词典文件,并且将数据集划分3部分,分别为train,val,test;
2)将上面的三部分数据集都做如下相同的操作:对数据集每一个样本根据 @highlight来将其划分文本与摘要;将文本信息利用词典转换为onehot向量,建立未登录词表(若某个词未出现词典中,则将其加入到未登录词表中。未登录词表是在每一个样本的文本输入时建立的),以及特殊词表['<pad>', '<unk>','<start>','<stop>']。
102建立神经网络模型,参考图3,主要操作如下
1)在编码层中,将输入的onehot向量进行字嵌入,变得更加的紧凑。对输入的信息进行计算其mask值(避免在计算机softmax的时候,多个0所带来的误差),然后将经过字嵌入的输入信息输入到LSTM中,得到解码层和计算Attention所需要的Output和h值。
2)我们用X来代替output的值,我们定义了三个矩阵Wq,Wk,Wv。来计算出自注意机制的QKV的值:Q=X*Wq,K=X*Wk,V=X*Wv。则我们可以计算出自注意力机制得分:
Figure GDA0003613482070000071
为加强对原始问题信息的提取,我们使用增强的多头自注意机制,即
Figure GDA0003613482070000072
H=(head1,…,headi,…,headh)
M=WmH
Y=SUM(M)
其中Wm是可以学习到的参数,最终可以利用softmax函数来得到字典的概率分布:
PSelf-vocab=softmax(V′(Y)+b)
其中V′和b是可学习到的参数。根据字典概率分布就得到当前时间步生成的预测词:
P(w)=PSelf-vocab(W)
在训练阶段,时间步t时的损失为:
Figure GDA0003613482070000073
那么输入句子序列的整体损失为:
Figure GDA0003613482070000074
3)为了解决文本摘要中的未登录词问题和摘要生成重复问题,我们引入指针生成网络。在模型中,使用每一步解码的隐层状态与编码器状态计算权重。输入的文本信息,经过双向的LSTM后可得到编码的隐藏状态hi。在解码端,解码器是一个单向的LSTM,在时间步t时得到解码状态为st,利用hi和st计算解码时间步t在原文本中第i个词的注意力权重:
Figure GDA0003613482070000081
at=softma x(et)
其中V、Wh、Ws和battn是可学习的参数,at是当前时刻的注意力分布。在指针网络中,为解决OOV问题,选择从原文本提取出部分词来扩展词典。为了判断当前时间步的解码器生成的词是生成还是复制,引入了一个生成概率Pgen。当Pgen为1时,意味着只能使用来自词典的词,不能使用原文本中的词。当Pgen为0时,意味着只能使用来自原文本的词,不能使用词典中的词。
Figure GDA0003613482070000082
则时间步t预测词的概率分布为:
Figure GDA0003613482070000083
4)为了解决Seq2Seq带来的重复问题,将先前时间步的注意力权重加到一起得到覆盖向量ct(coverage vector),用先前的注意力权重决策来影响当前注意力权重的决策,避免在同一位置重复,从而避免重复生成文本。计算上,先计算coverage vector ct
Figure GDA0003613482070000084
在覆盖向量添加到注意力权重的计算过程中,ct用来计算
Figure GDA0003613482070000085
Figure GDA0003613482070000086
同时,为避免重复,需要一个损失函数来惩罚重复注意力,coverage loss计算方式为:
Figure GDA0003613482070000091
coverage loss是一个有界的量
Figure GDA0003613482070000092
最终的损失函数为:
Figure GDA0003613482070000093
5)使用多头自注意力机制后,发现对原文本语义提取效果比其他模型更好,并且软注意力机制可以关注文本的关键特征,我们试图将这两者机制进行融合使用,为了构建这种融合,我们在网络中引入了门机制,根据编码的隐层状态和解码的隐层状态来生成解码时每一步所需要的概率值Pgate∈[0,1],公式如下:
Pgate=σ(WyY+Wh*h*+WesSes+WdsSt+B)
Figure GDA0003613482070000094
其中Wy,Wh*,Wes,Wds和B都是可以学习到的参数,σ是sigmod函数。Y是来自多头自注意力机制的上下文本向量,h*是来自软注意力机制的上下文本向量,Ses是编码层的双向LSTM输出的隐层状态值,St是解码层当前时间步t 的解码的隐层状态值,hi是编码的隐藏状态,
Figure GDA0003613482070000095
是解码时间步t在原文本中第i个词的注意力权重。Pgate用来确定当前词的生成应该关注原文本的语义信息还是关键特征信息。因此当前词汇表生成的概率为:
Figure GDA0003613482070000096
Pwvocab=Pgate*Pvocab+(1-Pgate)*PSelf-vocab
其中V″,Vtemp,b′和b和是可以学习的参数,st来自时间步为t的解码隐层状态值,引入指针网络,我们可知当前词汇表的生成概率为:
Figure GDA0003613482070000097
103进行反向传播更新模型的参数,主要操作如下:
根据Adam算法,进行梯度下降,更新模型的参数。
104选取损失函数最小最好的模型,利用束搜索,根据输入文本,生成相应的摘要内容。
综上可知。本发明利用序列到序列模型及增强的多头自注意力机制和指针网络,来找到原始文本中的关键特征和原始文本的上下联系,来增强文本摘要的生成效果。对输入的语句进行分词预测等步骤均是计算机来执行完成的,其是具备工业运用或者产业运用的方法,并不是需要人全程参与的步骤,其是利用了自然规律来完成的技术方案,对现有的计算机文本摘要方式进行改进,因此属于技术方案。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,包括以下步骤:
101、计算机对文本语料库进行预处理,包括对CNN/DailyMail数据集进行分词,建立词典文件并且将数据集划分为训练集、测试集、验证集;读取训练数据、测试数据集、验证数据集到计算机中,将每个数据集中的样本划分为文本信息和摘要信息,建立停顿词和特殊词表,利用词典将文本信息和摘要转换为onehot向量和建立未登录词表;
102、基于序列到序列的多头自注意力机制、覆盖机制和指针网络,建立神经网络模型,将101中得到的onehot向量输入,得到整个模型的损失函数值;
103、根据Adam算法,进行梯度下降,更新神经网络模型的参数,降低损失函数值;
104、选取在验证集中损失函数最小的模型,利用束搜索,根据输入文本,生成相应的摘要内容。
2.根据权利要求1所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤101对语料库进行预处理操作,操作如下:
1)将CNN/DailyMail数据集,使用了stanford-corenlp进行分词,并且建立词典文件,并且将数据集划分3部分,分别为train,val,test;
2)将上面的三部分数据集都做如下相同的操作:对数据集每一个样本根据@highlight来将其划分文本与摘要;将文本信息利用词典转换为onehot向量,建立未登录词表以及特殊词表['<pad>','<unk>','<start>','<stop>'],若某个词未出现词典中,则将其加入到未登录词表中,未登录词表是在每一个样本的文本输入时建立的。
3.根据权利要求1所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤102建立神经网络学习模型操作,主要操作如下:
1)基于序列到序列的自注意力机制、覆盖机制和指针网络建立神经网络学习模型,包括了建立编码层,解码层,多头自注意力机制,软注意力机制,生成门控制值,合成门控制值,训练层和预测模型;
2)在编码层中,将输入的onehot向量进行字嵌入,对输入的信息进行计算其mask值,然后将经过字嵌入的输入信息输入到LSTM中,得到解码层和计算Attention所需要的Output和h值;
3)将编码层得到的值,进行降维,然后分别输入到多头自注意力机制中和解码层中;
4)将多头自注意力机制计算的值输入解码层中,在解码层中利用编程层的信息和解码层的输入计算软注意力机制;
5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制;
6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和,并且将未登录词表和生成词的概率进行融合,形成新的生成词概率分布;
7)根据解码层的输入,去查找对应词在概率分布的值,在利用交叉熵去求其损失值,将所有的损害值求和后平均,得到平均损失值。
4.根据权利要求3所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤2)中,在编码层中,将输入的onehot向量进行字嵌入,对输入的信息进行计算其mask值,然后将经过字嵌入的输入信息输入到LSTM中,得到解码层和计算Attention所需要的Output和h值;由于每次需要输入多个样本的文本,而每一个文本的长度又不完全相同,在编码层的LSTM的长度是固定,因此我们需要将样本文本固定为一个相同的长度,比固定长度长的文本截断,比固定长度短的文本,需要补齐,补Pad即为字典中的0;但是这样引入的0会对后面的损失函数计算时候使用的softmax造成误差,因为我们需要计算其mask(mask的长度和文本的固定长度相同),若在此位置有文本,在mask中用1表示,若此位置是0即是补的长度Pad,在mask中为0,我们使用文本补长后的文本乘以mask的值即可得到真正文本信息;Output,h=LSTM(X)X表示输入的文本。
5.根据权利要求4所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤4)将多头自注意力机制计算的值输入解码层中,在解码层中利用编程层的信息和解码层的输入计算软注意力机制;计算机软注意机制的公式如下:
Figure FDA0003613482060000031
at=softmax(et)
输入的文本信息,经过双向的LSTM后可得到编码的隐藏状态hi;在解码端,解码器是一个单向的LSTM,在时间步t时得到解码状态为st,利用hi和st计算解码时间步t在原文本中第i个词的注意力权重;其中V、Wh、Ws和battn是可学习的参数,at是当前时刻的注意力分布。
6.根据权利要求5所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制;两个门控公式如下:
Figure FDA0003613482060000032
Pgate=σ(WyY+Wh*h*+WesSes+WdsSt+B)
σ是sigmod函数;Y是来自多头自注意力机制的上下文本向量,h*是来自软注意力机制的上下文本向量,Ses是编码层的双向LSTM输出的隐层状态值,St是解码层当前时间步t的解码的隐层状态值,xt是解码器的输入;其他参数是可学习的参数。
7.根据权利要求6所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和,并且将未登录词表和生成词的概率进行融合,形成新的生成词概率分布,数学公式如下:
PSelf-vocab=softmax(V′(Y)+b)
Figure FDA0003613482060000046
Pwvocab=Pgate*Pvocab+(1-Pgate)*PSelf-vocab
Figure FDA0003613482060000041
PSelf-vocab是多头自注意力机制计算出的概率分布,Pvocab是软注意力机制计算出的概率分布;利用Pgate将两种概率融合;再使用pgen来融合指针网络,
Figure FDA0003613482060000042
表示原文本中的词。
8.根据权利要求6所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤7)根据解码层的输入,去查找对应词在概率分布的值,在利用交叉熵去求其损失值,将所有的损害值求和后平均,得到平均损失值,数学公式如下:
Figure FDA0003613482060000043
Figure FDA0003613482060000044
Figure FDA0003613482060000045
Pw为生成标签中的当前词,在概率分布中的值。
9.根据权利要求8所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤103根据Adam算法,进行梯度下降,更新神经网络模型的参数,具体包括:
1)使用了Adam优化器,利用梯度下降,更新模型中已有的参数;
2)为了解决过拟合问题,定期使用梯度剪裁方式。
10.根据权利要求8所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤104束搜索操作,具体如下:
1)根据上面训练好的模型,从中挑选验证集中损失值最小最好的模型;将测试集中的数据输入到已经训练好的模型中,生成需要的摘要,引入束搜索,每次选取前K个最高的概率值,来预测下一个词,然后在从这K*K个中选取得分最高的K个作为下一路扩展的K个,直到最后,将得到选取整体概率值最高的生成结果;
2)利用Rouge这个包,来对生成的摘要和标记进行对比;来评生成的摘要的效果。
CN202110441466.5A 2021-04-23 2021-04-23 基于多头自注意力机制和指针网络的文本摘要方法 Active CN113127631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110441466.5A CN113127631B (zh) 2021-04-23 2021-04-23 基于多头自注意力机制和指针网络的文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110441466.5A CN113127631B (zh) 2021-04-23 2021-04-23 基于多头自注意力机制和指针网络的文本摘要方法

Publications (2)

Publication Number Publication Date
CN113127631A CN113127631A (zh) 2021-07-16
CN113127631B true CN113127631B (zh) 2022-07-01

Family

ID=76779301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110441466.5A Active CN113127631B (zh) 2021-04-23 2021-04-23 基于多头自注意力机制和指针网络的文本摘要方法

Country Status (1)

Country Link
CN (1) CN113127631B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673241B (zh) * 2021-08-03 2024-04-09 之江实验室 一种基于范例学习的文本摘要生成框架系统及方法
CN113673219B (zh) * 2021-08-20 2022-06-07 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法
CN113704424A (zh) * 2021-08-27 2021-11-26 广东电力信息科技有限公司 一种基于指针网络的自然语言任务生成方法
CN113780454B (zh) * 2021-09-17 2023-10-24 平安科技(深圳)有限公司 模型训练及调用方法、装置、计算机设备、存储介质
CN116267025A (zh) * 2021-10-15 2023-06-20 京东方科技集团股份有限公司 仪表识别方法、装置、电子设备和存储介质
CN114547287B (zh) * 2021-11-18 2023-04-07 电子科技大学 一种生成式文本摘要方法
CN114925659B (zh) * 2022-05-18 2023-04-28 电子科技大学 动态宽度最大化解码方法、文本生成方法及存储介质
CN117527444B (zh) * 2023-12-29 2024-03-26 中智关爱通(南京)信息科技有限公司 用于训练检测登录数据风险值的模型的方法、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110442705A (zh) * 2019-04-23 2019-11-12 北京理工大学 一种基于概念指针网络的摘要自动生成方法
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN112417138A (zh) * 2020-11-17 2021-02-26 北京计算机技术及应用研究所 一种结合指针生成式与自注意力机制的短文本自动摘要方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
CN110442705A (zh) * 2019-04-23 2019-11-12 北京理工大学 一种基于概念指针网络的摘要自动生成方法
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN112417138A (zh) * 2020-11-17 2021-02-26 北京计算机技术及应用研究所 一种结合指针生成式与自注意力机制的短文本自动摘要方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dong Qiu等."Text summarization based on multi-head self-attention mechanism and pointer network".《Complex and Intelligent Systems》.2021, *
Qian Guo等."MS-Pointer Network:Abstract Text Summary Based on Multi-Head Self-Attention".《IEEE Access》.2019,第7卷 *
胡莺夕."基于深度学习的多实体关系识别及自动文本摘要方法研究与实现".《中国优秀硕士学位论文全文数据库 (信息科技辑)》.2019,(第2019年08期), *

Also Published As

Publication number Publication date
CN113127631A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113127631B (zh) 基于多头自注意力机制和指针网络的文本摘要方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN108804495B (zh) 一种基于增强语义的自动文本摘要方法
CN111897949A (zh) 一种基于Transformer的引导性文本摘要生成方法
Kumar et al. Automating reading comprehension by generating question and answer pairs
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN112215013B (zh) 一种基于深度学习的克隆代码语义检测方法
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN110717843A (zh) 一种可复用的法条推荐框架
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN113032568A (zh) 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114139497A (zh) 一种基于bertsum模型的文本摘要提取方法
CN112732862B (zh) 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN112633007B (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN116432653A (zh) 一种多语种数据库的构建方法、装置、存储介质及设备
CN112287687B (zh) 基于案件属性感知的案件倾向性抽取式摘要方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN113139050B (zh) 基于命名实体识别附加标签和先验知识的文本摘要生成方法
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant