CN110209801B - 一种基于自注意力网络的文本摘要自动生成方法 - Google Patents

一种基于自注意力网络的文本摘要自动生成方法 Download PDF

Info

Publication number
CN110209801B
CN110209801B CN201910400865.XA CN201910400865A CN110209801B CN 110209801 B CN110209801 B CN 110209801B CN 201910400865 A CN201910400865 A CN 201910400865A CN 110209801 B CN110209801 B CN 110209801B
Authority
CN
China
Prior art keywords
word
layer
attention
vector
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910400865.XA
Other languages
English (en)
Other versions
CN110209801A (zh
Inventor
张宇
郑冬云
郭炜强
郑波
关健创
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910400865.XA priority Critical patent/CN110209801B/zh
Publication of CN110209801A publication Critical patent/CN110209801A/zh
Application granted granted Critical
Publication of CN110209801B publication Critical patent/CN110209801B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自注意力网络的文本摘要自动生成方法,包括步骤:1)将输入文本进行分词,得到词序列;2)将词序列进行词嵌入产生相应的词向量序列;3)使用自注意力网络编码器对词向量序列进行编码;4)使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要。本发明方法具有模型计算速度快,训练效率高,生成摘要质量高,模型的泛化性能好等优点。

Description

一种基于自注意力网络的文本摘要自动生成方法
技术领域
本发明涉及自然语言处理的技术领域,尤其是指一种基于自注意力网络的文本摘要自动生成方法。
背景技术
文本摘要是指从源文本中经过提炼总结得到的一个或一段语句,能够充分反映出文本的主旨,并且简练易读。文本摘要自动生成是指使用计算机来自动生成文本摘要的技术,文本摘要自动生成的目标就是:使用计算机科学技术和自然语言处理技术从原始文本中提取出重要内容,然后再将文本重要内容按照用户需求的形式重新呈现给用户。
现有的文本摘要自动生成模型有基于循环神经网络的序列到序列模型、循环神经网络与注意力结合网络、基于长短时记忆网络(LSTM)的与的序列到序列模型、长短时记忆网络(LSTM)注意力结合网络、Pointer Generator等。
基于循环神经网络的序列到序列模型是指编码器和解码器都是只由一层循环神经网络组成的网络,循环神经网络与注意力结合网络是指编码器和解码器只由循环神经网络组成的网络,不同的是,解码器将使用注意力机制计算输入文本中各个词对解码步骤的输出的关注权重以实现提取深层特征。同样的,基于长短时记忆网络(LSTM)的序列到序列模型是指编码器和解码器都是只由一层长短时记忆网络(LSTM)组成的网络,长短时记忆网络(LSTM)与注意力结合网络是指编码器和解码器只由长短时记忆网络组成的网络,不同的是,解码器将使用注意力机制计算输入文本中各个词对解码步骤的输出的关注权重以实现提取深层特征。
Pointer Generator是目前文本摘要自动生成中的最新研究成果,PointerGenerator整体结构为由长短时记忆网络组成的编码器对输入文本编码,编码器中使用了一层长短时记忆网络。随后将编码向量传入同样由长短时记忆网络组成的解码器进行解码,在解码步骤中,将使用注意力机制计算原始输入文本中各个词对应的隐层状态对该解码步骤的解码输出的关注权重并进行加权求和,随后使用指针网络来综合计算解码输出的分布概率。
上述的这几个不同的方法均存在着不足,首先,以上的几种文本摘要生成网络模型都是基于循环神经网络,循环神经网络存在的一个问题是无法并行计算。因为循环神经网络是依次循环地编码输入词向量,当编码后面的词时需要依赖前面的词的编码结果,因此循环神经网络只能一个一个地编码输入词。同理的,使用循环神经网络组成的解码器也只能一个一个的解码输出单词,因此训练和计算速度慢。虽然可以采用使用较小维度的权重矩阵,但这样将面临神经网络对输入文本中的信息编码不够,导致生成的摘要质量不高。
其次,在文本摘要生成任务中,存在着一个未登录词(Out-Of-Vocabulary)无法生成的问题。未登录词是指在训练过程中词表中没有收录到的词,自然语言生成模型的解码器是通过计算生成单词在词表中的分布概率来选择生成单词,因此没有出现在训练词表中的词也就无法通过模型生成。但是文本摘要中往往要出现一些人名、地名等稀有词,这些稀有词对于生成摘要的质量是很重要的。因此,通过以上的方法自动生成文本摘要存在生成摘要质量差、模型计算效率低的问题
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于自注意力网络的文本摘要自动生成方法,可以通过模型生成出高质量的文本摘要,并且神经网络可通过并行计算优化使得模型计算速度高效。
具体地,通过使用自注意力机制来提取输入文本词之间的长距离依赖关系,使用多头自注意力来增加模型对文本特征的表示空间,然后通过叠加多头自注意力模块来组建深层网络提高模型特征提取能力,最后结合指针网络来解决未登录词的生成问题。
为实现上述目的,本发明所提供的技术方案为:一种基于自注意力网络的文本摘要自动生成方法,包括以下步骤:
1)将输入文本进行分词,得到词序列;
2)将词序列进行词嵌入产生相应的词向量序列;
3)使用自注意力网络编码器对词向量序列进行编码;
4)使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要。
在步骤1)中,将输入文本进行分词,具体是:英文文本将使用Stanford提出的CoreNLP工具进行分词,中文文本将使用结巴分词工具进行分词,在经过分词后,原始文本就转换成为一个由多个词组成的词序列。
在步骤2)中,将词序列进行词嵌入产生相应的词向量序列,具体如下:
原始文本经过分词后成为一个词序列,但深度学习神经网络模型无法直接处理词,因此需要将文本中的词向量化;词向量就是用于在深度神经网络中表示词的向量,也能够认为是词的特征向量或表征;采用的词嵌入方法是在模型训练时首先以随机初始化的方式生成词表中的所有词的词向量,然后由模型在训练过程中更新词表的词向量;在验证和测试阶段,模型直接使用由训练得到的词嵌入向量;这种方法的缺点是模型需要学习的参数更多了,但优势是针对特定任务的数据集中时,词的词嵌入表示质量更高,对模型性能表现更好。
在步骤3)中,使用自注意力网络编码器对词向量序列进行编码,具体如下:
编码器的输入是输入序列经分词后的词嵌入向量序列;当词嵌入向量序列传入模型中计算时首先进行位置编码;由于自注意力计算中输入的每个词都会和输入序列中其它所有词都计算相关性,自注意力层中不同位置上的相同词计算后得到的将是相同的输出向量;此时即使将输入文本的词的顺序打乱也不会影响注意力层的输出,即纯粹的完全自注意力网络无法对序列元素的顺序特征进行特征表示;因此,在自注意力层计算之前,选择将输入序列中的词的位置信息添加到词的词嵌入向量中,将使用正弦位置编码的计算方法来进行序列元素的位置编码,这种方式的优点是没有需要学习的训练参数,减少模型计算量;
当输入词向量与位置编码融合后,传入自注意力层进行计算;编码器的每个自注意力层包含8个注意力头,编码器共包含6个自注意力层;当计算每个注意力头时,首先针对输入向量计算自注意力分布,随后将自注意力层计算得到的自注意力分布和输入向量进行残差连接,再进行Dropout计算,随后进行层归一化计算;
残差连接的作用是为了能够帮助构建更深层的网络,并且能够缓解梯度消失/爆炸的问题;Dropout计算是基于Dropout概率来舍弃网络模型的部分参数,是能够有效避免模型过拟合的技术;层归一化是在批归一化的基础上优化而提出来的技术,它通过对模型同一层的数据输入进行汇总,计算平均值和方差,然后对该层的数据进行归一化计算,使得该层的数据分布能够调整到一个大小合适的范围内,以避免数据分布范围过广后导致某些数据对结果影响过大或无法影响结果;
前面的输出在进行层归一化计算之后再将输出传入一个前馈神经网络层,该神经网络层中包含有模型需要学习的参数;编码器输入向量和输出向量的维度都是512,而前馈神经网络中的权重矩阵的第二个维度是2048;之后,前馈神经网络层的输出与输入也进行残差连接,并进行层归一化后再传入下一个编码器模块,或最顶层计算结果传入解码器进行解码计算;在经过编码器处理输入序列后,最顶层的编码器模块输出将会转变为输入文本经过编码后计算得到的隐层状态向量,该向量后续将用于解码器中的编码器-解码器自注意力层,用于解码器计算解码时刻中关注输入序列中每个元素的权重。
在步骤4)中,使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要,具体如下:
在解码阶段,每个解码步骤的解码器要计算出最终的输出序列中的一个词,同时每个解码步骤的输出提供给下一步骤的解码器更新输入,然后下一步骤解码器再输出对应的解码结果,接下来重复这个步骤直到遇到解码终止符号;因此,在自注意力网络中,编码器只需要进行一次计算,而解码器需要循环解码,多次计算;解码器中自注意力模块的计算与编码器中类似,不同的是,在解码器中的自注意力模块计算完成之后,结果将传入一个编码-解码注意力层,这层与普通的自注意力层的计算类似,唯一的区别是这层从解码器自注意力层的输出来计算查询向量,而从编码器的输出来计算键向量和值向量;同样的,编码-解码注意力层输出与输入也进行残差连接及层归一化计算,再传入一个前馈神经网络层,这个网络层与编码器中的前馈神经网路层结构一样;
为解决未登录词的生成问题,决定将自注意力网络与指针网络结合;解码器输出的单词分布将是一个生成单词在扩展词表上的分布概率;这个扩展词表既包含训练词表,也包含了当前计算的文本中的未登录词;在解码器的最顶层,将输出一个维度与解码器输入维度相同的实数向量,接下来使用一个线性变换层将该实数向量转换为输出单词在训练词表上的分布概率;线性变换层是一个全连接网络层,这个全连接网络层的作用是将解码器输出的向量投射到一个维度为输出词表大小的向量中,这个向量也被叫做对数几率向量(logits),该向量中的每一个值表示词表中对应词在该解码步骤的分数;接下来,使用一层softmax层将这个分数变成概率;而指针网络将使用解码器当前解码的最顶层隐层状态与编码器最顶层的隐层向量计算注意力,得到生成单词在输入文本中的分布概率,然后将两个分布概率进行相加得到生成单词在扩展词表上的分布;在训练阶段直接选择概率大的词作为该解码步骤的输出单词,然后当解码出解码终止字符向量后,与相应训练序列的参考摘要进行比较,然后计算交叉熵作为模型损失函数;随后模型根据损失函数使用参数优化方法进行反向传播计算,然后进行模型参数更新;当模型参数更新后,模型根据训练参数读取训练数据集中的下一批次输入序列进行计算,训练模型,直到经过完成指定参数的训练次数作为模型训练完成;当模型经过训练后,即能够用训练后的模型在验证集上验证模型效果,以及用于测试集或实际使用文本的进行提取生成摘要;在验证和测试阶段,模型解码时将使用集束搜索技术来进一步提高模型生成摘要的质量;在测试和验证阶段使用集束搜索,根据集束宽度按照生成词分布概率排序选择最高的指定个词作为该解码步骤的输出。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明采用自注意力层组建神经网络用于文本摘要自动生成,自注意力机制可以有效提取输入文本的单词之间的长距离依赖关系,使得模型生成的文本摘要质量高。
2、本发明采用自注意力网络结合指针网络来处理文本摘要自动生成问题,指针网络能够有效处理词表中的未登录词生成问题,进一步提高模型的生成摘要的质量。
3、本发明使用叠加自注意力层来组建网络,由于自注意力机制可以并行计算,组建深层模型时计算速度快,训练效率高。
附图说明
图1是本发明方法的一个文本摘要生成流程图。
图2是多头自注意力计算的一个展示图。
图3是本发明方法提出的网络的编码器的结构图。
图4是本发明方法提出的网络的解码器解码模块的结构图。
图5是本发明方法提出的网络结构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于自注意力网络的文本摘要自动生成方法,输入一段文本进行生成。所进行生成摘要的完整流程如图1所示,所设计的文本摘要自动生成的完整神经网络结构如图5所示。在预处理输入文本时,使用分词算法将所要处理的文本分割成一个个语义独立的词,并视输入文本长度进行填充空字符或截断处理;随后,根据词嵌入算法,将输入文本的词序列中的词对应成一个个的相应的词向量序列;接下来,使用编码器对输入文本的词向量序列进行编码;最后,使用解码器根据解码器输入与模型输入的编码进行循环解码生成摘要。该方法具体如下:
1、输入文本预处理:首先,根据输入文本的语言使用相应的分词算法进行分词得到相应输入文本词序列,随后根据分词后的输入文本词序列的长度进行如下处理:如果词序列长度小于400,则将词序列中的不满400个词的部分填充为“UNK”单词;如果词序列的长度大于400,则将词序列中超过400个词的部分进行舍弃处理。因此,经过输入文本预处理后,所要处理的文本序列的长度均为400个词。
2、词嵌入。在模型训练开始时,对训练集上所有输入分词后的词进行收集处理出一个词频表,这个词表根据词在训练集文本中的出现次数进行排序,随后将词表进行截断,选择出现次数排名前50000的词参与训练,同时词表将额外添加4个辅助词,“START”、“END”、“UNK”、“PAD”。在模型训练、验证和测试阶段时,将使用同一个词表进行词嵌入。在本方法中,在模型训练时先通过随机初始化的方式生成词表对应的词向量的词表。词向量的维度为512维,然后根据词找到对应的词向量,最终得到输入文本词序列对应的词向量序列,作为神经网络的输入。
3、编码器编码的计算过程如图3所示。编码器的输入是输入序列经分词后的词嵌入向量序列。当词嵌入向量序列传入模型中计算时首先要进行位置编码。当输入词向量与位置编码融合后,传入自注意力层进行计算。编码器将使用6层自注意力层进行对输入文本的编码,编码器中的自注意力层中的单独一个自注意力头的计算结构如图2所示。在本方法中编码器的每个自注意力层包含8个注意力头,编码器共包含6个自注意力层。当计算每个注意力头时,首先针对输入向量计算自注意力分布,随后将自注意力层计算得到的自注意力分布与自注意力层计算的输入向量进行残差连接,然后再进行Dropout计算以及层归一化计算。
在前面的输出在进行层归一化计算之后再讲输出传入一个前馈神经网络层,该神经网络层中包含有模型需要学习的参数。在本方法中,编码器输入向量和输出向量的维度都是512,而前馈神经网络中的权重矩阵的第二个维度是2048。之后,前馈神经网络层的输出与输入也进行残差连接并进行层归一化再传入下一个编码器模块或最顶层计算结果传入解码器进行解码计算。在经过编码器处理输入序列后,最顶层的编码器模块输出将会转变为包含输入文本经过编码后计算得到的一个维度为512的隐层向量。
4、解码器解码生成输出词的计算过程如图4所示。在解码阶段,每个解码步骤解码器要计算出最终的输出序列中的一个词,同时每个解码步骤的输出提供给下一步骤的解码器更新输入,然后下一步骤解码器再输出对应的解码结果,接下来重复这个步骤直到遇到解码终止符号。因此,在自注意力网络中,编码器只需要进行一次计算,而解码器需要循环解码,多次计算。解码器中自注意力模块的计算与编码器中类似,不同的是,在解码器中的自注意力模块计算完成之后,结果将传入一个编码-解码注意力层,这层与普通的自注意力层的计算类似,唯一的区别是这层从解码器自注意力层的输出来计算查询向量,而从编码器的输出来计算键向量和值向量。同样的,编码-解码注意力层输出与输入也进行残差连接及层归一化计算,再传入一个前馈神经网络层,这个网络层与编码器中的前馈神经网路层结构一样。
当与一个指针网络结合后,解码器输出的单词分布将是一个生成单词在扩展词表上的分布概率。这个扩展词表既包含训练词表,也包含了当前计算的文本中的未登录词。在解码器的最顶层,将输出一个维度与解码器输入维度相同的实数向量,接下来使用一个线性变换层将该实数向量转换为输出单词在训练词表上的分布概率。线性变换层是一个全连接网络层,这个全连接网络层的作用是将解码器输出的向量投射到一个维度为输出词表大小的向量中,这个向量也被叫做对数几率向量(logits),该向量中的每一个值表示词表中对应词在该解码步骤的分数。接下来,使用一层softmax层将这个分数变成概率。而指针网络将使用解码器当前解码的最顶层隐层状态与编码器最顶层的隐层向量计算注意力,得到生成单词在输入文本中的分布概率,然后将两个分布概率进行相加得到生成单词在扩展词表上的分布。在训练阶段直接选择概率大的词作为该解码步骤的输出单词,然后当解码出解码终止字符向量后,作为模型生成摘要结束。最终,根据解码器生成的摘要,得到不同文本的生成摘要。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种基于自注意力网络的文本摘要自动生成方法,其特征在于,包括以下步骤:
1)将输入文本进行分词,得到词序列;
2)将词序列进行词嵌入产生相应的词向量序列;
3)使用自注意力网络编码器对词向量序列进行编码;
4)使用自注意力网络解码器对输入文本编码向量进行解码,生成文本摘要,具体如下:
在解码阶段,每个解码步骤的解码器要计算出最终的输出序列中的一个词,同时每个解码步骤的输出提供给下一步骤的解码器更新输入,然后下一步骤解码器再输出对应的解码结果,接下来重复这个步骤直到遇到解码终止符号;因此,在自注意力网络中,编码器只需要进行一次计算,而解码器需要循环解码,多次计算;解码器中自注意力模块的计算与编码器中类似,不同的是,在解码器中的自注意力模块计算完成之后,结果将传入一个编码-解码注意力层,这层与普通的自注意力层的计算类似,唯一的区别是这层从解码器自注意力层的输出来计算查询向量,而从编码器的输出来计算键向量和值向量;同样的,编码-解码注意力层输出与输入也进行残差连接及层归一化计算,再传入一个前馈神经网络层,这个网络层与编码器中的前馈神经网路层结构一样;
为解决未登录词的生成问题,决定将自注意力网络与指针网络结合;解码器输出的单词分布将是一个生成单词在扩展词表上的分布概率;这个扩展词表既包含训练词表,也包含了当前计算的文本中的未登录词;在解码器的最顶层,将输出一个维度与解码器输入维度相同的实数向量,接下来使用一个线性变换层将该实数向量转换为输出单词在训练词表上的分布概率;线性变换层是一个全连接网络层,这个全连接网络层的作用是将解码器输出的向量投射到一个维度为输出词表大小的向量中,这个向量也被叫做对数几率向量logits,该向量中的每一个值表示词表中对应词在该解码步骤的分数;接下来,使用一层softmax层将这个分数变成概率;而指针网络将使用解码器当前解码的最顶层隐层状态与编码器最顶层的隐层向量计算注意力,得到生成单词在输入文本中的分布概率,然后将两个分布概率进行相加得到生成单词在扩展词表上的分布;在训练阶段直接选择概率大的词作为该解码步骤的输出单词,然后当解码出解码终止字符向量后,与相应训练序列的参考摘要进行比较,然后计算交叉熵作为模型损失函数;随后模型根据损失函数使用参数优化方法进行反向传播计算,然后进行模型参数更新;当模型参数更新后,模型根据训练参数读取训练数据集中的下一批次输入序列进行计算,训练模型,直到经过完成指定参数的训练次数作为模型训练完成;当模型经过训练后,即能够用训练后的模型在验证集上验证模型效果,以及用于测试集或实际使用文本的进行提取生成摘要;在验证和测试阶段,模型解码时将使用集束搜索技术来进一步提高模型生成摘要的质量;在测试和验证阶段使用集束搜索,根据集束宽度按照生成词分布概率排序选择最高的指定个词作为该解码步骤的输出。
2.根据权利要求1所述的一种基于自注意力网络的文本 摘要自动生成方法,其特征在于,在步骤1)中,将输入文本进行分词,具体是:英文文本将使用CoreNLP工具进行分词,中文文本将使用结巴分词工具进行分词,在经过分词后,原始文本就转换成为一个由多个词组成的词序列。
3.根据权利要求1所述的一种基于自注意力网络的文本 摘要自动生成方法,其特征在于,在步骤2)中,将词序列进行词嵌入产生相应的词向量序列,具体如下:
原始文本经过分词后成为一个词序列,但深度学习神经网络模型无法直接处理词,因此需要将文本中的词向量化;词向量就是用于在深度神经网络中表示词的向量,也能够认为是词的特征向量或表征;采用的词嵌入方法是在模型训练时首先以随机初始化的方式生成词表中的所有词的词向量,然后由模型在训练过程中更新词表的词向量;在验证和测试阶段,模型直接使用由训练得到的词嵌入向量;这种方法的缺点是模型需要学习的参数更多了,但优势是针对特定任务的数据集中时,词的词嵌入表示质量更高,对模型性能表现更好。
4.根据权利要求1所述的一种基于自注意力网络的文本 摘要自动生成方法,其特征在于:在步骤3)中,使用自注意力网络编码器对词向量序列进行编码,具体如下:
编码器的输入是输入序列经分词后的词嵌入向量序列;当词嵌入向量序列传入模型中计算时首先进行位置编码;由于自注意力计算中输入的每个词都会和输入序列中其它所有词都计算相关性,自注意力层中不同位置上的相同词计算后得到的将是相同的输出向量;此时即使将输入文本的词的顺序打乱也不会影响注意力层的输出,即纯粹的完全自注意力网络无法对序列元素的顺序特征进行特征表示;因此,在自注意力层计算之前,选择将输入序列中的词的位置信息添加到词的词嵌入向量中,将使用正弦位置编码的计算方法来进行序列元素的位置编码,这种方式的优点是没有需要学习的训练参数,减少模型计算量;
当输入词向量与位置编码融合后,传入自注意力层进行计算;编码器的每个自注意力层包含8个注意力头,编码器共包含6个自注意力层;当计算每个注意力头时,首先针对输入向量计算自注意力分布,随后将自注意力层计算得到的自注意力分布和输入向量进行残差连接,再进行Dropout计算,随后进行层归一化计算;
残差连接的作用是为了能够帮助构建更深层的网络,并且能够缓解梯度消失/爆炸的问题;Dropout计算是基于Dropout概率来舍弃网络模型的部分参数,是能够有效避免模型过拟合的技术;层归一化是在批归一化的基础上优化而提出来的技术,它通过对模型同一层的数据输入进行汇总,计算平均值和方差,然后对该层的数据进行归一化计算,使得该层的数据分布能够调整到一个大小合适的范围内,以避免数据分布范围过广后导致某些数据对结果影响过大或无法影响结果;
前面的输出在进行层归一化计算之后再将输出传入一个前馈神经网络层,该神经网络层中包含有模型需要学习的参数;编码器输入向量和输出向量的维度都是512,而前馈神经网络中的权重矩阵的第二个维度是2048;之后,前馈神经网络层的输出与输入也进行残差连接,并进行层归一化后再传入下一个编码器模块,或最顶层计算结果传入解码器进行解码计算;在经过编码器处理输入序列后,最顶层的编码器模块输出将会转变为输入文本经过编码后计算得到的隐层状态向量,该向量后续将用于解码器中的编码器-解码器自注意力层,用于解码器计算解码时刻中关注输入序列中每个元素的权重。
CN201910400865.XA 2019-05-15 2019-05-15 一种基于自注意力网络的文本摘要自动生成方法 Expired - Fee Related CN110209801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910400865.XA CN110209801B (zh) 2019-05-15 2019-05-15 一种基于自注意力网络的文本摘要自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910400865.XA CN110209801B (zh) 2019-05-15 2019-05-15 一种基于自注意力网络的文本摘要自动生成方法

Publications (2)

Publication Number Publication Date
CN110209801A CN110209801A (zh) 2019-09-06
CN110209801B true CN110209801B (zh) 2021-05-14

Family

ID=67785911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910400865.XA Expired - Fee Related CN110209801B (zh) 2019-05-15 2019-05-15 一种基于自注意力网络的文本摘要自动生成方法

Country Status (1)

Country Link
CN (1) CN110209801B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021064907A1 (ja) * 2019-10-02 2021-04-08 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム
CN111078865B (zh) * 2019-12-24 2023-02-21 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111078866B (zh) * 2019-12-30 2023-04-28 华南理工大学 一种基于序列到序列模型的中文文本摘要生成方法
CN111159394B (zh) * 2019-12-31 2023-04-28 重庆觉晓科技有限公司 一种文本摘要生成方法和装置
CN112364643B (zh) * 2019-12-31 2024-04-16 北京京东尚科信息技术有限公司 用于生成自然语言文本的方法、装置、电子设备和介质
CN111178041B (zh) * 2019-12-31 2023-04-07 北京妙笔智能科技有限公司 一种智能的文本复述系统和方法
CN111209468B (zh) * 2020-01-03 2023-11-14 创新工场(广州)人工智能研究有限公司 一种用于生成关键词的方法与设备
CN111309896B (zh) * 2020-01-20 2023-04-07 华南理工大学 基于二级注意力的深度学习文本摘要生成方法
CN111325000B (zh) 2020-01-23 2021-01-26 北京百度网讯科技有限公司 语言生成方法、装置及电子设备
CN111460135B (zh) * 2020-03-31 2023-11-07 北京百度网讯科技有限公司 用于生成文本摘要的方法和装置
CN111507726B (zh) * 2020-04-07 2022-06-24 支付宝(杭州)信息技术有限公司 一种报文生成方法、装置及设备
CN111563148B (zh) * 2020-04-17 2023-06-20 华南理工大学 一种基于词组多样性的对话生成方法
CN111666759B (zh) * 2020-04-17 2024-03-26 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质
CN111680494B (zh) * 2020-04-27 2023-05-12 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN111538831B (zh) * 2020-06-05 2023-04-18 支付宝(杭州)信息技术有限公司 一种文本生成方法、装置及电子设备
CN111460126B (zh) * 2020-06-12 2020-09-25 支付宝(杭州)信息技术有限公司 一种用于人机对话系统的回复生成方法、装置及电子设备
CN111797225B (zh) * 2020-06-16 2023-08-22 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN113824624B (zh) * 2020-06-19 2023-10-17 阿里巴巴集团控股有限公司 一种邮件标题生成模型的训练方法及邮件标题生成方法
CN111753497B (zh) * 2020-06-29 2023-11-03 西交利物浦大学 基于多文本利用分阶层Transformer生成摘要的方法及系统
CN111753523B (zh) * 2020-06-29 2023-11-03 西交利物浦大学 基于注意力分布已知的抽象式神经网络生成摘要的方法
CN112560456B (zh) * 2020-11-03 2024-04-09 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
CN112733498B (zh) * 2020-11-06 2024-04-16 北京工业大学 一种改进中文自动文本摘要自注意力计算的方法
CN112417092B (zh) * 2020-11-11 2022-10-28 南京邮电大学 基于深度学习的智能化文本自动生成系统及其实现方法
CN112417138A (zh) * 2020-11-17 2021-02-26 北京计算机技术及应用研究所 一种结合指针生成式与自注意力机制的短文本自动摘要方法
CN112417139B (zh) * 2020-11-19 2023-07-25 深圳大学 一种基于预训练语言模型的摘要生成方法
CN112434525A (zh) * 2020-11-24 2021-03-02 平安科技(深圳)有限公司 模型推理加速方法、装置、计算机设备及存储介质
CN112487274B (zh) * 2020-12-02 2023-02-07 重庆邮电大学 一种基于文本点击率的搜索结果推荐方法及系统
CN112560652B (zh) * 2020-12-09 2024-03-05 第四范式(北京)技术有限公司 文本识别方法和系统以及文本识别模型训练方法和系统
CN112990434B (zh) * 2021-03-09 2023-06-20 平安科技(深圳)有限公司 机器翻译模型的训练方法及相关装置
CN112804558B (zh) * 2021-04-14 2021-06-25 腾讯科技(深圳)有限公司 视频拆分方法、装置及设备
CN113127631B (zh) * 2021-04-23 2022-07-01 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113157910B (zh) * 2021-04-28 2024-05-10 北京小米移动软件有限公司 商品描述文本生成方法、装置及存储介质
CN113434664A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 文本摘要生成方法、装置、介质及电子设备
CN114020900B (zh) * 2021-11-16 2024-03-26 桂林电子科技大学 基于融合空间位置注意力机制的图表英语摘要生成方法
CN114547287B (zh) * 2021-11-18 2023-04-07 电子科技大学 一种生成式文本摘要方法
CN114271831B (zh) * 2022-03-07 2022-05-27 合肥心之声健康科技有限公司 心音图信号转换心电图信号的方法、系统以及设备
CN114996514A (zh) * 2022-05-31 2022-09-02 北京达佳互联信息技术有限公司 文本生成方法、装置、计算机设备及介质
CN117436073B (zh) * 2023-12-21 2024-04-16 福建极数网络科技有限公司 一种基于智能标签的安全日志告警方法、介质和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502985A (zh) * 2016-10-20 2017-03-15 清华大学 一种用于生成标题的神经网络建模方法及装置
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021549B (zh) * 2016-11-04 2019-08-13 华为技术有限公司 序列转换方法及装置
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN107357789B (zh) * 2017-07-14 2020-10-02 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
US10671918B2 (en) * 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502985A (zh) * 2016-10-20 2017-03-15 清华大学 一种用于生成标题的神经网络建模方法及装置
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Attention is All you Need;Ashish Vaswani等;《Neural Information Processing Systems》;20170630;1-15页 *
Get To The Point: Summarization with Pointer-Generator networks;Abigail See等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170804;1073-1083页 *
Self-Attention with Relative Position Reprensentions;Peter Shaw等;《arXiv:Computation and Language》;20180412;1-5页 *
基于注意力机制的评论摘要生成;苏放等;《北京邮电大学学报》;20180615;第41卷(第3期);7-13页 *

Also Published As

Publication number Publication date
CN110209801A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110209801B (zh) 一种基于自注意力网络的文本摘要自动生成方法
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN109522403B (zh) 一种基于融合编码的摘要文本生成方法
CN111639175B (zh) 一种自监督的对话文本摘要方法及系统
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111078866B (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN112560456B (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN113515619A (zh) 一种基于显著性信息门控机制的关键词生成方法
CN113987129A (zh) 基于变分自动编码器的数字媒体保护文本隐写方法
CN114691858B (zh) 一种基于改进的unilm摘要生成方法
CN111008277B (zh) 一种自动文本摘要方法
CN112417089B (zh) 一种基于深度学习的高并行性阅读理解的方法
Zhang Polyphone Disambiguation in Chinese by Using FLAT.
CN115906845B (zh) 一种电商商品标题命名实体识别方法
CN115470799B (zh) 一种用于网络边缘设备的文本传输和语义理解一体化方法
CN114548090B (zh) 基于卷积神经网络和改进级联标注的快速关系抽取方法
CN116069924A (zh) 一种融合全局和局部语义特征的文本摘要生成方法及系统
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210514