CN110795556A - 一种基于细粒度插入式解码的摘要生成方法 - Google Patents

一种基于细粒度插入式解码的摘要生成方法 Download PDF

Info

Publication number
CN110795556A
CN110795556A CN201911060930.5A CN201911060930A CN110795556A CN 110795556 A CN110795556 A CN 110795556A CN 201911060930 A CN201911060930 A CN 201911060930A CN 110795556 A CN110795556 A CN 110795556A
Authority
CN
China
Prior art keywords
word
vector
decoding
layer
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911060930.5A
Other languages
English (en)
Other versions
CN110795556B (zh
Inventor
苏勤亮
李腾龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201911060930.5A priority Critical patent/CN110795556B/zh
Publication of CN110795556A publication Critical patent/CN110795556A/zh
Application granted granted Critical
Publication of CN110795556B publication Critical patent/CN110795556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于细粒度插入式解码的摘要生成方法,该方法将训练目标分解成信息提取压缩和自然语言抽象生成两部分,由内容框架提取器负责信息提取压缩部分,使得神经网络语言模型生成器专注于学习摘要文风技巧;预先提取的内容框架构成上下文信息能指导生成过程,相比于从零产生的自左向右解码方式,内容框架能提供给下一个待生成的词丰富的上下文信息;减少了解码步骤,相对加快了自回归解码过程,缓解了基于自注意力网络解码速度比循环神经网络慢的缺陷,同时一定程度缓解了序列到序列模型的暴露偏差(Expose Bias)问题。

Description

一种基于细粒度插入式解码的摘要生成方法
技术领域
本发明涉及文本处理方法领域,更具体地,涉及一种基于细粒度插入式解码的摘要生成方法。
背景技术
随着互联网技术的高速发展,每天都会产生海量的新闻、博客、评论等文本信息。自动文本摘要的任务是将长文本输入转化为相对简练的短文本作为输出,与此同时要保证短文本摘要忠于原文的中心思想和囊括原文的核心信息,并具有可读连贯性。通过自动文本摘要可以让人们浏览网页内容时快速了解到各信息的关键内容,有助于筛选信息并节省阅读时间。
自动文本摘要的生成主要有两种方式:抽取式和生成式。抽取式摘要的目标是从原文中抽取最能代表全文中心思想的几个句子或短句作为摘要;生成式的方法则是模拟人类的写作方式,总结文章内容然后逐词逐字生成出一段文本作为摘要。相对而言,抽取式摘要方法比较稳定高效,是在工业界中成熟可用的方法。因其直接从原文中抽取句子作为摘要,能保证最终摘要句子的信息可靠性和忠实度。但该方法同时也会引入冗余信息,难以维持既要还原文章关键信息又要简洁精炼的平衡。除此之外,因抽取出的句子在原文当中大部分并不相邻,因为最终摘要句子之间的连贯性欠佳。近年来随着深度神经网络的兴起,基于长短期记忆网络(LSTM)、基于自注意力网络的转换器(Transformer)等神经网络的生成式摘要方法得到快速发展。其通常使用序列到序列框架实现,其中编码器负责处理源文本输入,理解内在语义信息,最终提取出高层次的特征作为解码器的输入。解码器根据编码器输出的原文语义特征和当前已产生的解码输出,依次生成摘要文字。生成式摘要方法得到的摘要连贯性更强,流畅性更好,相对抽取式方法来说上限更高。
考虑到高质量有效的摘要中会出现大部分内容(实体、事实)直接节选来源于原文段落,结合上抽取式的生成式摘要方法能使效果更稳定可观。当前的一些结合手段包括引入复制机制、抽取重写机制、写作模板机制等等。但这些方法各自存在一些缺陷。复制机制能使摘要生成过程中下一个字词的产生既可以从固定大小的词表中选取也可以从原文中选取,如此做法令训练目标复杂化,实际易表现出滥用复制机制导致模型趋向于退化为纯抽取式方法;抽取重写机制先使用抽取式方法从原文抽选几个句子,然后将这些句子代替原文全文作为生成式方法的输入,虽然该方法能有效压缩原文信息,但摘要生成过程可获取的上下文信息非常局限。写作模板机制从过往预存摘要库里挑选出与当前原文语义最相近一段模板摘要,作为额外信息指导摘要生成过程,但引入的模板摘要属于其他文章的信息压缩总结,与当前文章在内容上同时存在一定的相似性与相斥性。
发明内容
本发明提供一种基于细粒度插入式解码的摘要生成方法,该方法避免了产生如抽取重写机制或写作模板机制的冗余表达。
为了达到上述技术效果,本发明的技术方案如下:
一种基于细粒度插入式解码的摘要生成方法,包括以下步骤:
S1:对输入文件进行预处理;
S2:通过编码器对S1中处理的文本进行编码;
S3:内容框架提取器分析编码后的文本;
S4:解码器对内容框架提取器处理后的文本进行处理得到文本摘要。
进一步地,所述步骤S1的具体过程是:
S11:对原始输入文本分词得到词序列,为避免计算复杂度过高,将文章序列按一定长度截断处理,只保留每篇文章前400个词;
S12:在词表中检索文中每一个词,获得每个词对应词表的独热编号,词表通过统计语料库中词频排序取前30000个获得,同时额外添加4个辅助词:“PAD”、“UNK”、“BOS”、“EOS”,其中“PAD”代表空缺填充,“UNK”用于代替词表中未出现的词,“BOS”和“EOS”分别用于引导摘要生成过程的开始与终止;
S13:获得每个词的词嵌入,首先构建一个词向量矩阵,大小为30000×512,即词表大小×模型隐藏层大小,创建后随机初始化,训练过程将不断更新该矩阵参数,除此之外,该矩阵同时也用于模型输出层以确定下一个要生成的词,通过上一步骤的独热编码从词向量矩阵中获得对应行的词向量;
S14:计算位置嵌入,因基于自注意力网络的转换器不具备时序特征,使用三角函数对位置信息编码嵌入:
其中pos代表当前词的位置,i代表位置嵌入的维度,dmodel代表模型隐藏层大小;
S15:将词嵌入与位置嵌入叠加,X=TE(x)+PE(posx),得到包含位置信息的词向量,作为步骤S2和步骤S3编码器和解码器的输入。
进一步地,编码器对S1得到的词嵌入序列输入进行编码,编码器包含6个基于自注意力网络的转换器单元层叠得到,转换器单元包含自注意力层和前馈全连接层,具体编码过程是:
S21:每个转换器单元的输入是上一个单元的编码输出,第一个转换器单元的输入则是步骤1得到的词向量;
S22:在转换器单元内部,输入首先传入自注意力层,使得每一个词对应的向量能感知上下文信息,捕捉当前词与其他词的依赖与联系,自注意力层包含8个参数不同的注意力头,拓展了模型关注不同位置的能力,每一个注意力头包括三个权重矩阵,分别是查询Query、键Key、值Value,中间向量Z通过
Figure BDA0002257932480000032
获得;
S23:将中间向量Z按位置分别传入前馈全连接层,得到该转换器单元的输出,为提高模型表示能力和稳定性,引入残差连接Residual Connections、层归一化机制LayerNormalization、随机丢弃机制Dropout,自注意力层计算得到的中间向量与自注意力层计算的输入向量进行残差连接,然后再进行随机丢弃以及层归一化,同样的操作也应用于前馈全连接层的输出与中间向量的残差连接。
进一步地,步骤S3中,内容框架提取器分析原文各词的关键程度,决定原文中哪些词作为摘要的一部分,并成为解码器初始输入的一部分,由步骤S2中编码层叠转换器单元得到的输出,即对应原文每一个词的高层级语义向量,将其接入二分类输出层,以Sigmoid函数作为激活函数,将输出映射到0到1之间,设定阈值为0.5,输出值大于0.5对应的词被挑选作为内容框架。
进一步地,所述步骤S4中,解码器结合编码器输出和当前已产生的解码序列作为输入,产生下一个词加入已解码序列,具体街码过程是:
S41:以句子的起始标志“BOS”,再加上步骤S3提取的内容框架,作为解码器初始输入;
S42:根据解码器当前输入,执行词嵌入操作,与步骤S12-S15过程相同,获得解码器的输入词向量;
S43:对于解码器的每个转换器单元,计算过程与步骤S21-S23相似,但在每一个转换器单元的内部引入编码-解码注意力层,以编码器输出作为额外记忆,该部分的自注意层与普通的自注意力层计算原理相同,唯一的区别在于将额外记忆作为键向量和值向量,即用于捕捉解码序列中每一个词与原文每一个词的联系,在得到解码器自注意力层与编码-解码注意力层的输出后,也进行残差连接及层归一化计算,并传入前馈全连接层,得到转换器单元的输出向量;
S44:通过层叠的转换器单元得到当前时刻高层级的隐藏状态向量Zdec,在内容框架基础上,首先需要决定下一个词在已解码序列中的插入位置,使用指针(Pointer)向量q与隐藏状态向量Zdec进行点积寻址操作,得到插入位置的概率分布Pinsert(l)=softmax(Zdec·q),选择概率最大的位置li作为待插入位置;
S45:取第i个位置的隐藏状态向量传入全连接的线性变换层,将该隐藏状态向量投射到维度为输出词表大小的向量中,又称对数几率向量,对应每个词被选取的概率分布可以用
Figure BDA0002257932480000042
表示;
S46:选择概率最大的词作为该解码步骤的输出单词,若该输出单词不为终止字符“EOS”,则将该词按其插入位置i插入当前解码序列,更新后的解码序列作为解码器下一时刻输入,重复步骤S42-S46,直到输出“EOS”,作为模型生成摘要结束,得到该长文本的短文本摘要。
与现有技术相比,本发明技术方案的有益效果是:
本发明将训练目标分解成信息提取压缩和自然语言抽象生成两部分,由内容框架提取器负责信息提取压缩部分,使得神经网络语言模型生成器专注于学习摘要文风技巧;预先提取的内容框架构成上下文信息能指导生成过程,相比于从零产生的自左向右解码方式,内容框架能提供给下一个待生成的词丰富的上下文信息;减少了解码步骤,相对加快了自回归解码过程,缓解了基于自注意力网络解码速度比循环神经网络慢的缺陷,同时一定程度缓解了序列到序列模型的暴露偏差(Expose Bias)问题。
附图说明
图1是本发明的整体流程图;
图2是本发明方法中的转换器单元模型图;
图3是本发明中基于细粒度插入式解码的摘要生成的总体框架图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1-3所示,本实施例提出一种基于细粒度插入式解码的摘要生成方法,该方法的具体步骤是:
步骤1.输入预处理。预处理操作包括分词、截断、词嵌入。
步骤1.1对原始输入文本分词得到词序列,为避免计算复杂度过高,将文章序列按一定长度截断处理,只保留每篇文章前400个词。
步骤1.2在词表中检索文中每一个词,获得每个词对应词表的独热(One-hot)编号。词表通过统计语料库中词频排序取前30000个获得,同时额外添加4个辅助词:“PAD”、“UNK”、“BOS”、“EOS”,其中“PAD”代表空缺填充,“UNK”用于代替词表中未出现的词(Out ofVocabulary),“BOS”和“EOS”分别用于引导摘要生成过程的开始与终止。
步骤1.3获得每个词的词嵌入(Token Embedding)。首先构建一个词向量矩阵,大小为30000×512,即词表大小×模型隐藏层大小,创建后随机初始化,训练过程将不断更新该矩阵参数。除此之外,该矩阵同时也用于模型输出层以确定下一个要生成的词。通过上一步骤的独热编码从词向量矩阵中获得对应行的词向量。
步骤1.4计算位置嵌入(Position Embedding)。因基于自注意力网络的转换器不具备时序特征,使用三角函数对位置信息编码嵌入,
Figure BDA0002257932480000051
Figure BDA0002257932480000052
其中pos代表当前词的位置,i代表位置嵌入的维度,dmodel代表模型隐藏层大小。
步骤1.5将词嵌入与位置嵌入叠加,X=TE(x)+PE(posx),得到包含位置信息的词向量,作为步骤2和步骤3编码器和解码器的输入。
步骤2.编码器(Encoder)对词嵌入序列输入进行编码。编码器包含6个基于自注意力网络的转换器单元(Transformer Block)层叠得到。转换器单元包含自注意力层和前馈全连接层。
步骤2.1每个转换器单元的输入是上一个单元的编码输出,第一个转换器单元的输入则是步骤1得到的词向量。
步骤2.2在转换器单元内部,输入首先传入自注意力层,使得每一个词对应的向量能感知上下文信息,捕捉当前词与其他词的依赖与联系。自注意力层包含8个参数不同的注意力头,拓展了模型关注不同位置的能力。每一个注意力头包括三个权重矩阵,分别是查询(Query)、键(Key)、值(Value),中间向量Z通过
Figure BDA0002257932480000061
获得。
步骤2.3将中间向量Z按位置分别传入前馈全连接层,得到该转换器单元的输出。为提高模型表示能力和稳定性,引入残差连接(Residual Connections)、层归一化机制(Layer Normalization)、随机丢弃机制(Dropout)。自注意力层计算得到的中间向量与自注意力层计算的输入向量进行残差连接,然后再进行随机丢弃以及层归一化。同样的操作也应用于前馈全连接层的输出与中间向量的残差连接。
步骤3内容框架提取器(Content Selector)分析原文各词的关键程度,决定原文中哪些词作为摘要的一部分,并成为解码器初始输入的一部分。由步骤2中编码层叠转换器单元得到的输出,即对应原文每一个词的高层级语义向量,将其接入二分类输出层,以Sigmoid函数作为激活函数,将输出映射到0到1之间,设定阈值为0.5,输出值大于0.5对应的词被挑选作为内容框架。
步骤4解码器(Decoder)结合编码器输出和当前已产生的解码序列作为输入,产生下一个词加入已解码序列。
步骤4.1以句子的起始标志“BOS”,再加上步骤3提取的内容框架,作为解码器初始输入。
步骤4.2根据解码器当前输入,执行词嵌入操作,与步骤1.2-1.5过程相同,获得解码器的输入词向量。
步骤4.3对于解码器的每个转换器单元,计算过程与步骤2.1-2.3相似,但在每一个转换器单元的内部引入编码-解码注意力层,以编码器输出作为额外记忆(ExternalMemories),该部分的自注意层与普通的自注意力层计算原理相同,唯一的区别在于将额外记忆作为键向量和值向量,即用于捕捉解码序列中每一个词与原文每一个词的联系。在得到解码器自注意力层与编码-解码注意力层的输出后,也进行残差连接及层归一化计算,并传入前馈全连接层,得到转换器单元的输出向量。
步骤4.4通过层叠的转换器单元得到当前时刻高层级的隐藏状态向量Zdec。在内容框架基础上,首先需要决定下一个词在已解码序列中的插入位置。使用指针(Pointer)向量q与隐藏状态向量Zdec进行点积寻址操作,得到插入位置的概率分布Pinsert(l)=softmax(Zdec·q),选择概率最大的位置li作为待插入位置。
步骤4.5取第i个位置的隐藏状态向量
Figure BDA0002257932480000071
传入全连接的线性变换层,将该隐藏状态向量投射到维度为输出词表大小的向量中,又称对数几率向量(logits),对应每个词被选取的概率分布可以用表示。
步骤4.6选择概率最大的词作为该解码步骤的输出单词,若该输出单词不为终止字符“EOS”,则将该词按其插入位置i插入当前解码序列,更新后的解码序列作为解码器下一时刻输入,重复步骤4.2-4.6,直到输出“EOS”,作为模型生成摘要结束,得到该长文本的短文本摘要。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于细粒度插入式解码的摘要生成方法,其特征在于,包括以下步骤:
S1:对输入文件进行预处理;
S2:通过编码器对S1中处理的文本进行编码;
S3:内容框架提取器分析编码后的文本;
S4:解码器对内容框架提取器处理后的文本进行处理得到文本摘要。
2.根据权利要求1所述的基于细粒度插入式解码的摘要生成方法,其特征在于,所述步骤S1的具体过程是:
S11:对原始输入文本分词得到词序列,为避免计算复杂度过高,将文章序列按一定长度截断处理,只保留每篇文章前400个词;
S12:在词表中检索文中每一个词,获得每个词对应词表的独热编号,词表通过统计语料库中词频排序取前30000个获得,同时额外添加4个辅助词:“PAD”、“UNK”、“BOS”、“EOS”,其中“PAD”代表空缺填充,“UNK”用于代替词表中未出现的词,“BOS”和“EOS”分别用于引导摘要生成过程的开始与终止;
S13:获得每个词的词嵌入,首先构建一个词向量矩阵,大小为30000×512,即词表大小×模型隐藏层大小,创建后随机初始化,训练过程将不断更新该矩阵参数,除此之外,该矩阵同时也用于模型输出层以确定下一个要生成的词,通过上一步骤的独热编码从词向量矩阵中获得对应行的词向量;
S14:计算位置嵌入,因基于自注意力网络的转换器不具备时序特征,使用三角函数对位置信息编码嵌入:
Figure FDA0002257932470000011
其中pos代表当前词的位置,i代表位置嵌入的维度,dmodel代表模型隐藏层大小;
S15:将词嵌入与位置嵌入叠加,X=TE(x)+PE(posx),得到包含位置信息的词向量,作为步骤S2和步骤S3编码器和解码器的输入。
3.根据权利要求2所述的基于细粒度插入式解码的摘要生成方法,其特征在于,编码器对S1得到的词嵌入序列输入进行编码,编码器包含6个基于自注意力网络的转换器单元层叠得到,转换器单元包含自注意力层和前馈全连接层,具体编码过程是:
S21:每个转换器单元的输入是上一个单元的编码输出,第一个转换器单元的输入则是步骤1得到的词向量;
S22:在转换器单元内部,输入首先传入自注意力层,使得每一个词对应的向量能感知上下文信息,捕捉当前词与其他词的依赖与联系,自注意力层包含8个参数不同的注意力头,拓展了模型关注不同位置的能力,每一个注意力头包括三个权重矩阵,分别是查询Query、键Key、值Value,中间向量Z通过
Figure FDA0002257932470000021
获得;
S23:将中间向量Z按位置分别传入前馈全连接层,得到该转换器单元的输出,为提高模型表示能力和稳定性,引入残差连接Residual Connections、层归一化机制LayerNormalization、随机丢弃机制Dropout,自注意力层计算得到的中间向量与自注意力层计算的输入向量进行残差连接,然后再进行随机丢弃以及层归一化,同样的操作也应用于前馈全连接层的输出与中间向量的残差连接。
4.根据权利要求3所述的基于细粒度插入式解码的摘要生成方法,其特征在于,步骤S3中,内容框架提取器分析原文各词的关键程度,决定原文中哪些词作为摘要的一部分,并成为解码器初始输入的一部分,由步骤S2中编码层叠转换器单元得到的输出,即对应原文每一个词的高层级语义向量,将其接入二分类输出层,以Sigmoid函数作为激活函数,将输出映射到0到1之间,设定阈值为0.5,输出值大于0.5对应的词被挑选作为内容框架。
5.根据权利要求4所述的基于细粒度插入式解码的摘要生成方法,其特征在于,所述步骤S4中,解码器结合编码器输出和当前已产生的解码序列作为输入,产生下一个词加入已解码序列,具体街码过程是:
S41:以句子的起始标志“BOS”,再加上步骤S3提取的内容框架,作为解码器初始输入;
S42:根据解码器当前输入,执行词嵌入操作,与步骤S12-S15过程相同,获得解码器的输入词向量;
S43:对于解码器的每个转换器单元,计算过程与步骤S21-S23相似,但在每一个转换器单元的内部引入编码-解码注意力层,以编码器输出作为额外记忆,该部分的自注意层与普通的自注意力层计算原理相同,唯一的区别在于将额外记忆作为键向量和值向量,即用于捕捉解码序列中每一个词与原文每一个词的联系,在得到解码器自注意力层与编码-解码注意力层的输出后,也进行残差连接及层归一化计算,并传入前馈全连接层,得到转换器单元的输出向量;
S44:通过层叠的转换器单元得到当前时刻高层级的隐藏状态向量Zdec,在内容框架基础上,首先需要决定下一个词在已解码序列中的插入位置,使用指针(Pointer)向量q与隐藏状态向量Zdec进行点积寻址操作,得到插入位置的概率分布Pinsert(l)=softmax(Zdec·q),选择概率最大的位置li作为待插入位置;
S45:取第i个位置的隐藏状态向量
Figure FDA0002257932470000031
传入全连接的线性变换层,将该隐藏状态向量投射到维度为输出词表大小的向量中,又称对数几率向量,对应每个词被选取的概率分布可以用表示;
S46:选择概率最大的词作为该解码步骤的输出单词,若该输出单词不为终止字符“EOS”,则将该词按其插入位置i插入当前解码序列,更新后的解码序列作为解码器下一时刻输入,重复步骤S42-S46,直到输出“EOS”,作为模型生成摘要结束,得到该长文本的短文本摘要。
CN201911060930.5A 2019-11-01 2019-11-01 一种基于细粒度插入式解码的摘要生成方法 Active CN110795556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911060930.5A CN110795556B (zh) 2019-11-01 2019-11-01 一种基于细粒度插入式解码的摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911060930.5A CN110795556B (zh) 2019-11-01 2019-11-01 一种基于细粒度插入式解码的摘要生成方法

Publications (2)

Publication Number Publication Date
CN110795556A true CN110795556A (zh) 2020-02-14
CN110795556B CN110795556B (zh) 2023-04-18

Family

ID=69442498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911060930.5A Active CN110795556B (zh) 2019-11-01 2019-11-01 一种基于细粒度插入式解码的摘要生成方法

Country Status (1)

Country Link
CN (1) CN110795556B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753497A (zh) * 2020-06-29 2020-10-09 西交利物浦大学 基于多文本利用分阶层Transformer生成摘要的方法及系统
CN111859954A (zh) * 2020-07-01 2020-10-30 腾讯科技(深圳)有限公司 目标对象识别方法、装置、设备及计算机可读存储介质
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112463956A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 基于对抗学习和分层神经网络的文本摘要生成系统和方法
CN112541350A (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种变种文本还原方法、装置以及设备
CN112560456A (zh) * 2020-11-03 2021-03-26 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
CN112580370A (zh) * 2020-12-24 2021-03-30 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN112836485A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于神经机器翻译的相似病历预测方法
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113496121A (zh) * 2020-04-03 2021-10-12 北京金山数字娱乐科技有限公司 一种病症实体的抽取方法及装置
CN113628630A (zh) * 2021-08-12 2021-11-09 科大讯飞股份有限公司 一种信息转换方法和装置、电子设备
CN113722471A (zh) * 2021-08-30 2021-11-30 上海明略人工智能(集团)有限公司 一种文本摘要生成方法、系统、电子设备及介质
CN113808583A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种语音识别方法、装置及系统
CN113836923A (zh) * 2021-08-27 2021-12-24 山西清众科技股份有限公司 一种基于多级上下文特征提取的命名实体识别方法
CN115577118A (zh) * 2022-09-30 2023-01-06 南京信息工程大学 一种基于混合分组排序和动态实体记忆规划的文本生成方法
CN117407051A (zh) * 2023-12-12 2024-01-16 武汉大学 一种基于结构位置感知的代码自动摘要方法
CN113808583B (zh) * 2020-06-16 2024-05-28 浙江未来精灵人工智能科技有限公司 一种语音识别方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496121A (zh) * 2020-04-03 2021-10-12 北京金山数字娱乐科技有限公司 一种病症实体的抽取方法及装置
CN113808583B (zh) * 2020-06-16 2024-05-28 浙江未来精灵人工智能科技有限公司 一种语音识别方法、装置及系统
CN113808583A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种语音识别方法、装置及系统
CN111753497A (zh) * 2020-06-29 2020-10-09 西交利物浦大学 基于多文本利用分阶层Transformer生成摘要的方法及系统
CN111753497B (zh) * 2020-06-29 2023-11-03 西交利物浦大学 基于多文本利用分阶层Transformer生成摘要的方法及系统
CN111859954A (zh) * 2020-07-01 2020-10-30 腾讯科技(深圳)有限公司 目标对象识别方法、装置、设备及计算机可读存储介质
CN112069397A (zh) * 2020-08-21 2020-12-11 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112069397B (zh) * 2020-08-21 2023-08-04 三峡大学 自注意力机制与生成对抗网络相结合的谣言检测方法
CN112560456A (zh) * 2020-11-03 2021-03-26 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
CN112560456B (zh) * 2020-11-03 2024-04-09 重庆安石泽太科技有限公司 一种基于改进神经网络的生成式摘要生成方法和系统
CN112463956B (zh) * 2020-11-26 2022-08-23 重庆邮电大学 基于对抗学习和分层神经网络的文本摘要生成系统和方法
CN112463956A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 基于对抗学习和分层神经网络的文本摘要生成系统和方法
CN112541350A (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种变种文本还原方法、装置以及设备
CN112580370A (zh) * 2020-12-24 2021-03-30 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN112580370B (zh) * 2020-12-24 2023-09-26 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN112836485B (zh) * 2021-01-25 2023-09-19 中山大学 一种基于神经机器翻译的相似病历预测方法
CN112836485A (zh) * 2021-01-25 2021-05-25 中山大学 一种基于神经机器翻译的相似病历预测方法
CN113128229B (zh) * 2021-04-14 2023-07-18 河海大学 一种中文实体关系联合抽取方法
CN113128229A (zh) * 2021-04-14 2021-07-16 河海大学 一种中文实体关系联合抽取方法
CN113628630A (zh) * 2021-08-12 2021-11-09 科大讯飞股份有限公司 一种信息转换方法和装置、电子设备
CN113628630B (zh) * 2021-08-12 2023-12-01 科大讯飞股份有限公司 基于编解码网络的信息转换方法和装置、电子设备
CN113836923A (zh) * 2021-08-27 2021-12-24 山西清众科技股份有限公司 一种基于多级上下文特征提取的命名实体识别方法
CN113722471A (zh) * 2021-08-30 2021-11-30 上海明略人工智能(集团)有限公司 一种文本摘要生成方法、系统、电子设备及介质
CN115577118A (zh) * 2022-09-30 2023-01-06 南京信息工程大学 一种基于混合分组排序和动态实体记忆规划的文本生成方法
CN117407051A (zh) * 2023-12-12 2024-01-16 武汉大学 一种基于结构位置感知的代码自动摘要方法
CN117407051B (zh) * 2023-12-12 2024-03-08 武汉大学 一种基于结构位置感知的代码自动摘要方法

Also Published As

Publication number Publication date
CN110795556B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN109522403B (zh) 一种基于融合编码的摘要文本生成方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN110929587A (zh) 一种基于层次注意力机制的双向重构网络视频描述方法
Xue et al. A better way to attend: Attention with trees for video question answering
CN111241816A (zh) 一种新闻标题自动生成方法
CN110222338B (zh) 一种机构名实体识别方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
CN115361595B (zh) 一种视频弹幕生成方法
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN112765316A (zh) 一种引入胶囊网络的文本生成图像方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114049501A (zh) 融合集束搜索的图像描述生成方法、系统、介质及设备
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN115455955A (zh) 基于局部和全局字符表征增强的中文命名实体识别方法
CN114444488B (zh) 一种少样本机器阅读理解方法、系统、设备及存储介质
CN114254657B (zh) 一种翻译方法及其相关设备
CN112464673B (zh) 融合义原信息的语言含义理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant