CN109635284A

CN109635284A - 基于深度学习结合累积注意力机制的文本摘要方法及系统

Info

Publication number: CN109635284A
Application number: CN201811416029.2A
Authority: CN
Inventors: 鄂海红; 宋美娜; 胡莺夕
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-04-16

Abstract

本发明公开了一种基于深度学习结合累积注意力机制的文本摘要方法及系统，其中，该方法包括以下步骤：通过编解码框架对原始文本进行阅读以生成摘要信息，并通过累积注意力机制定位当前时刻的关键信息；通过指针生成网络从原始文本拷贝关键信息；通过覆盖度损失机制对重复输出进行抑制，以得到原始文本的最终摘要。该方法通过结合累积注意力机制和覆盖度损失机制，使生成的摘要轻松抓住文章中心，且摘要具有连贯性和可读性，不存在重复现象。

Description

基于深度学习结合累积注意力机制的文本摘要方法及系统

技术领域

本发明涉及文本信息挖掘技术领域，特别涉及一种基于深度学习结合累积注意力机制的文本摘要方法及系统。

背景技术

在当今互联网的环境下，铺天盖地的网络流量充斥着我们的生活，其中具有代表性的文本信息量的爆炸性增长，使得信息负担过重，庞大的信息使得人们在浏览阅读时花费大量时间。如何解决信息过载、快速提取文本数据中的关键信息已成为迫切需求。文本摘要是文档内容的精髓缩影，是提高用户查找与阅读理解效率的重要工具，但传统摘要由人工产生，成本过高且效率低地下，由此自动文本摘要技术应运而生。

根据Radev的定义，摘要是将一篇或多篇文本中包含的重要关键信息提取概括成一段文字，其长度不超过或远少于原文本的一半。自动文本摘要技术旨在通过机器将长文本概括成凝练简洁的摘要，可从海量文本数据中快速地获取所需信息，以有效解决信息过载地问题。根据文摘和原文匹配程度，现有文摘技术的研究集中在抽取式和生成式。其中，抽取式摘要通过对原文句子进行重要性排序，选取一定比例的句子作为摘要，关于抽取式摘要技术目前已经进行了大量研究，而近几年来深度学习神经网络重新掀起一股热潮，已经在图像，语音领域取得了前所未有的成就，也为生成式文摘提供了新思路，基于深度学习的生成式摘要已是自然语言处理领域的重要课题。生成式摘要对原始文本进行深层语义理解，特征表示，实现原文本内容重新表述，对中心思想形成更简洁凝练的概括，相比抽取式摘要具有更灵活、更符合人类生成习惯等特点因此成为研究热点。

前者通过对原文句子进行重要性排序，选取一定比例的句子作为摘要；后者对原文本进行深层语义理解，特征表示，实现原文本内容重新表述，对中心思想形成更简洁凝练的概括。生成式摘要更贴近人产生摘要的过程，但依然面对生成的句子缺乏连贯性和可读性等等问题，而抽取式摘要照搬原文，会产生较大冗余，同时丢是关键信息的可能性比较大。

比如，第一种相关技术中采用了一种融合语义聚类的文本自动摘要方法，通过计算词频形成关键词贡献度矩阵，再对文本矩阵进行奇异值分解的到语义模型，最后对语义模型进行聚类实现关键词的选择，因此也是一种基于抽取式的模型。第二种相关技术中的专利公开了一种基于短语主题建模的多文档自动摘要生成方法，该方法重点是在多文档的出路部分，进行多文档的分词和词频计算，再采用LDA(Latent Dirichlet Allocation，文档主题生成模型)主题模型为基础计算文档的联合概率分布并集合Gibbs(吉布斯效应)采样算法对短语主题模型中的隐参数进行参数估计，的到主题在单词上的概率分布，对被测文档进行分词处理，计算获得句子的主题权重和词频权重，加权后的到句子的最终权重，根据最终权重得到摘要内容。第三种相关技术中的专利基于潜在语义分析的自动摘要抽取方法及系统，使用一个较大的语料库来构造潜在语义分析模型，根据模型计算待抽取文本和待抽取语义单元的语义相似度，考虑了词语在文档中的贡献信息和语义信息，而不是简单基于词频或句子间的相互“推荐”而进行句子选择，使得生成摘要能更好反应文档所表述的主题。第四种相关技术中的专利提出一种基于网页的藏文文本自动摘要生成方法，通过主题词表去匹配文章原文中的句子，并对句子的权重进行计算，根据句子权重进行排序，选取文章句子总数的百分比作为摘要句，将提取的句子按照句子在原文中的顺序进行重新排序，将句子进行拼接生成摘要。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习结合累积注意力机制的文本摘要方法，该方法生成的摘要能准确抓住文章中心，且句子具有连贯性、可读性，不存在重复详细。

本发明的另一个目的在于提出一种基于深度学习结合累积注意力机制的文本摘要系统。

为达到上述目的，本发明一方面提出了基于深度学习结合累积注意力机制的文本摘要方法，包括以下步骤：通过编解码框架对原始文本进行阅读以生成摘要信息，并通过累积注意力机制定位当前时刻的关键信息；通过指针生成网络从所述原始文本拷贝所述关键信息；以及通过覆盖度损失机制对重复输出进行抑制，以得到所述原始文本的最终摘要。

本发明实施例的基于深度学习结合累积注意力机制的文本摘要方法，通过以深度学习为基础，结合累积注意力机制和pointer-network指针生成网络等特性，构建encoder-decoder编解码器模型，挖掘文本的深层特征，使得实现文本摘要的自动生成，且可以准确抓住具有连贯性和可读性的文章中心，并不存在重复现象。

另外，根据本发明上述实施例的基于深度学习结合累积注意力机制的文本摘要方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述通过编解码框器对原始文本进行阅读以生成摘要信息，并通过累计注意力机制定位当前时刻的关键信息，进一步包括：将源序列根据预设顺序依次输入到所述编解码框架的编码器中；通过非线性变化输出表征源序列信息的语义向量，并将所述语义向量传到所述编解码框架的解码器中，以通过所述解码器根据所述语义向量和历史序列预测当前时刻的单词，直到获得最终的摘要序列。

进一步地，在本发明的一个实施例中，所述累积注意力机制通过预测当前时刻的单词，生成对应时刻关于所述原始文本所有单词的注意力分布，以分配不同的焦点权重。

进一步地，在本发明的一个实施例中，所述累积注意力机制将所述解码器的信息加入所述编码器中，指导所述原始文本对所述信息的关注，以产生不同的上下文语境向量。

进一步地，在本发明的一个实施例中，所述通过指针生成网络从所述原始文本拷贝所述关键信息，进一步包括：假设所述注意力机制产生的注意力向量为at，上下文向量为H，设定一个平衡系数P_gen，则

其中，b_ptr均为超参数，S_t是进行平衡的系数，代表从所述源序列中拷贝得到所述当前时刻的单词输出或预定义词表的单词输出。

进一步地，在本发明的一个实施例中，还包括：

最终的单词输出为：

其中，若所述当前时刻的单词未在所述源序列中出现过，则为0，若所述当前时刻的单词在所述预定义词表是一个未登录词，则P_vocab(w)为0。

进一步地，在本发明的一个实施例中，所述通过覆盖度损失机制对重复输出进行抑制，以得到所述原始文本的最终摘要，进一步包括：所述覆盖度损失机制是维护一个向量c^t，所述向量c^t是所有时刻对所述源序列的注意力向量的累加和，如

其中，c⁰是0时刻的注意力向量，被初始化为全零向量。同时，将已关注的信息作为输入直接加入到输入端的注意力机制，以引导对所述原始文本的关注。

进一步地，在本发明的一个实施例中，还包括：引入额外的损失函数，获取当前关注度和历史累加关注度的最小值，其中，所述损失函数为：

所述当前时刻对单词i的关注度高时，即值大，且历史所有时刻对单词i的关注度高时，即值大，使得covloss_t变大，从而所述单词i被抑制，其中，中，P表示根据模型输出得到概率，wt*表示当前单词。

可选地，在本发明的一个实施例中，在输出所述摘要序列时需要在生成的路径中查看是否存在重复的三元组，若存在，则将所述路径的概率置为0。

为达到上述目的，本发明另一方面提出了一种基于深度学习结合累积注意力机制的文本摘要系统，包括：定位模块，用于通过编解码框架对原始文本进行阅读以生成摘要信息，并通过累积注意力机制定位当前时刻的关键信息；拷贝模块，用于通过指针生成网络从所述原始文本拷贝所述关键信息；获取模块，用于通过覆盖度损失机制对重复输出进行抑制，以得到所述原始文本的最终摘要。

本发明实施例的基于深度学习结合累积注意力机制的文本摘要系统，通过以深度学习为基础，结合累积注意力机制和pointer-network指针生成网络等特性，构建encoder-decoder编解码器模型，挖掘文本的深层特征，使得实现文本摘要的自动生成，且可以准确抓住具有连贯性和可读性的文章中心，并不存在重复现象。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于深度学习结合累积注意力机制的文本摘要方法的模型整体框架图；

图2是本发明一个实施例的基于深度学习结合累积注意力机制的文本摘要方法流程图；

图3是本发明一个实施例的基于深度学习结合累积注意力机制的文本摘要方法中编解码器框架图；

图4是本发明一个实施例的基于深度学习结合累积注意力机制的文本摘要方法中累积注意力机制框架图；

图5是本发明一个实施例的基于深度学习结合累积注意力机制的文本摘要系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

相关技术中，已经被广泛研究的抽取式摘要其缺陷在长文本中更凸显出来，尤其在多篇文档中。文本的中心思想通常在句子之间的相互联系中体现，而抽取式摘要一般利用词频，位置等信息来衡量关键词的重要性，进而扩展到整个句子，这样的方式无法很好的获取文本中句子之间以及关键词之间的深层次语义联系。关于抽取式摘要技术目前已经进行了大量研究，而近几年来深度学习神经网络重新掀起一股热潮，已经在图像，语音领域取得了前所未有的成就，也为生成式文摘提供了新思路，基于深度学习的生成式摘要已是自然语言处理领域的重要课题。

生成式摘要相比抽取式摘要具有更灵活、更符合人类生成习惯等特点成为研究热点。随着深度学习技术的发展更是极大地推动了生成式摘要的研究，长短期记忆网络具有处理长距离依赖关系的优越性，成为生成式摘要的重要方法。然而，生成式摘要依然面临许多困难，比如：(1)生成的句子缺乏连贯性、可读性；(2)摘要无法抓住文章中心；(3)存在许多重复现象。因此，本发明实施例针对生成式摘要进行研究，以深度学习为基础，结合注意力机制和pointer-network指针生成网络等特性，构建encoder-decoder编解码框架模型，挖掘文本的深层特征，获取语义信息，实现文本摘要的自动生成，在文本摘要任务的各项指标上实现提升，对上述提到的目前面临的三个问题都有一定程度的解决。

下面参照附图描述根据本发明实施例提出的基于深度学习结合累积注意力机制的文本摘要方法及系统，首先将参照附图描述根据本发明实施例提出的基于深度学习结合累积注意力机制的文本摘要方法。

如图1所示，本发明实施例的文本摘要方法是基于编解码框架实现通过阅读长的原始文本，生成不定长摘要。结合累计注意力的机制更好的定位当前时刻的关键信息，一定程度上避免重复输出并且提高生成摘要和原文本的相关性。同时还采用指针网络给予模型从原始文本拷贝关键信息的能力，这种拷贝原文内容的方法能从一定程度上解决未登录词的问题，同时也在一定程度上降低了模型的学习难度。最后，模型还采用了覆盖度损失机制对模型重复输出进行抑制。

图2是本发明一个实施例的基于深度学习结合累积注意力机制的文本摘要方法流程图。

如图2所示，该基于深度学习结合累积注意力机制的文本摘要方法包括以下步骤：

在步骤S101中，通过编解码框架对原始文本进行阅读以生成摘要信息，并通过累积注意力机制定位当前时刻的关键信息。

其中，步骤S101进一步包括：

将源序列根据预设顺序依次输入到编解码框架的编码器中；

通过非线性变化输出表征源序列信息的语义向量，并将语义向量传到编解码框架的解码器中，以通过解码器根据语义向量和历史序列预测当前时刻的单词，直到获得最终的摘要序列。

需要说明的是，累积注意力机制通过预测当前时刻的单词，生成对应时刻关于原始文本所有单词的注意力分布，以分配不同的焦点权重，并将解码器的信息加入编码器中，指导原始文本对信息的关注，以产生不同的上下文语境向量。

具体而言，自动文摘任务可以看作是序列到序列的过程，这样的模型框架也叫做编解码框架，其框架如图3所示。

框架结构最大的特点是输入和输出的长度是可变的。对于自动文本摘要任务，输入是一篇文档，输出则是一段文摘。将源序列按照顺序依次输入到编码器中，经过非线性变化，输出一个表征源序列信息的语义向量，再将它传到解码器中，解码器通过语义向量和已经生成的历史序列来预测当前i时刻的单词，直到获得最终的摘要序列，具体实现如下列公式所示。

Source＝(x₁,x₂,...x_N)

Target＝(y₁,y₂,...y_N)

C＝f(x₁,x₂,...x_N)

y_i＝g(C,y₁,y₂,...y_i)

其中，Source表示输入的原始文档，由x₁,x₂,...x_N共N个单词构成，Target表示输出的目标序列，由y₁,y₂,...y_M共M个单词构成，C表示编码端对输入序列的语义建模中间向量，y_i表示最终的输出序列。

需要说明的是，最原始的encoder-decoder编解码器模型把所有的上下文信息编码到一个固定维数的语义向量中，解码预测每个词的时候使用同一个语境向量，随着序列增长，信息损失越来越大，这样的设计显然过于简单。为了优化模型，引入了注意力机制，从人类的视觉注意力机制中得到的启发，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的信息细节，从而抑制其他无用信息。对于文本摘要任务来说，解码器在预测每一个单词的时候，对于原始文本的各个单词关注度是不同的，应该分配不同的权重。

如图4所示，基于encoder-decoder编解码器框架引入全局注意力机制后，在预测当前i时刻的单词时，会生成对应时刻关于原文本所有单词的注意力分布，也就是由原来固定的语境向量u变成Ui。

因此，在生成每个词的时候都对应着一个概率分布，决定了在生成当前词语是，对于源序列各单词的关注程度，也就是在预测摘要的时候，告诉模型，原文的哪些信息更加重要，由此产生不同的上下文语境向量。本发明实施例提出的cumulative attention累积注意力机制希望能将解码端的信息更多地加入到编码端，指导对原始信息的关注。具体来说，就是在解码端也构造一个内部的注意力机制，生成一个针对解码端的上下文语境向量，更直接的表示出模型已经输出过的内容，并且将这一部分语境向量加入到编码端的注意力机制中，具体步骤如下：

其中，a^t′表示当前′时刻的注意力机制分布，c^t表示直到当前t时刻注意力分布的累加和；W_h、h_i、W_s和W_c都是需要学习的参数，表示t和t’时刻在decoder端的注意力值，表示当前注意力值除上累积注意力值的结果，表示在Decoder端的上下文向量，s_t′表示新的隐藏状态，表示新的encoder端的注意力权重。

在步骤S102中，通过指针生成网络从原始文本拷贝关键信息。

其中，步骤S102进一步包括：假设注意力机制产生的注意力向量为at，上下文向量为H，设定一个平衡系数P_gen，则

其中，b_ptr均为超参数，S_t是进行平衡的系数，代表从源序列中拷贝得到当前时刻的单词输出或预定义词表的单词输出。

最终的单词输出为：

其中，若当前时刻的单词未在源序列中出现过，则为0，若当前时刻的单词在预定义词表是一个未登录词，则P_vocab(w)为0。

引入额外的损失函数，获取当前关注度和历史累加关注度的最小值，其中，损失函数为：

当前时刻对单词i的关注度高时，即值大，且历史所有时刻对单词i的关注度高时，即值大，使得covloss_t变大，从而单词i被抑制，其中，中，P表示根据softmax模型输出得到概率，wt*表示当前单词。

具体而言，Vinyals等人在2015年提出的指针网络能从原始输入中通过位置拷贝信息。考虑到在自动文本摘要任务中也经常会遇到关键信息直接存在于原始文本中的场景，比如“西班牙队于昨日2-0战胜了巴西队”一句话中“2-0”显然是一个关键信息，但是如果用传统的基于预定义词表的生成方法来做是不能输出“2-0”这样的词语的，因为预定义词表中难存在“2-0”这样的低频词，所以大量的关键未登录词不能得到有效处理。因此，本方案采用了pointer-generator指针生成网络的方法，混合了传统的设计与预定义词表的生成式模型和基于指针网络的拷贝模型，让模型自动实现生成和抽取的平衡。换言之，假设注意力机制产生的注意力向量为at，上下文向量为H，设定一个平衡系数P_gen。

其中b_ptr都是超参数，S_t是用来进行平衡的系数，它代表着是从原始文本中拷贝得到当前时刻的输出，还是从预定义词表中生成。因此最终的单词输出为：

具体来说，如果当前的单词是一个未登录词，那么P_vocab(w)就是0，同样的，如果当前的单词没有在原文本中出现过，那么就是0。

在步骤S103中，通过覆盖度损失机制对重复输出进行抑制，以得到原始文本的最终摘要。

其中，步骤S103进一步包括：覆盖度损失机制是维护一个向量c^t，向量c^t是所有时刻对源序列的注意力向量的累加和，如

c⁰是0时刻的注意力向量，被初始化为全零向量。同时，将已关注的信息作为输入直接加入到输入端的注意力机制，以引导对原始文本的关注。

具体来讲，针对生成式摘要普遍存在的重复输出的问题。本发明实施例通过该机制可以在一定程度上实现对重复输出的抑制。覆盖度损失机制是维护一个向量c^t，这个向量c^t是历史所有时刻对原始文本的注意力向量的累加和。

其中，c⁰是0时刻的注意力向量，被初始化为全零向量。并且将这种已经关注过的信息作为输入直接加入到输入端的注意力机制中，希望能更直观的引导对原始文本的关注。此外，在损失函数的部分，还引入了一个额外的损失函数，具体公式如下，采用这种对当前关注度和历史累加关注度的最小值，实现对原始文本的有效关注。

显然，只有当当前时刻对单词i的关注度很高，即很大，且历史所有时刻对单词i的关注度也很高的时候，即很大，才会使得covloss很大，从而被抑制。因为我们希望抑制这种以前被强烈关注并且现在又要重复强烈关注的情况。所以最终的损失函数如下所示。

进一步地，在本发明的一个实施例中，在输出摘要序列时需要在生成的路径中查看是否存在重复的三元组，若存在，则将路径的概率置为0。

简单来讲，在预测输出的时候，增加了一个规则限制，即如果发现在beam search生成的路径中存在重复的三元组，就将这条路径的概率置为0。这样的规则限制能有效的保证生成的摘要不包含重复三元组。

综上所述，如表1所示，在多个指标上本文提出的模型都有显著的提升。我们对模型的效果进行了比较充分的评测，包括采用文本摘要领域关键指标ROUGE值，具体有ROUGE-1，ROUGE-2和ROUGE-L的F1值。其中ROUGE-1是针对生成摘要和原始文本的一元重叠评测函数、ROUGE-2是针对生成摘要和原始文本的二元重叠评测函数、ROUGE-L是针对生成摘要和原始文本的最长子序列重叠评测函数。此外我们还采用了METEOR、CIDER指标进行评测。此外针对Lead-3的基准输出进行测试，即将原始文本的前三句话直接作为摘要进行输出。对于抽取式模型也进行了比对。目前的同时，比对模型还包括目前目前最好的抽取式模型和基于强化学习的模型。其中抽取式模型来自Ramesh Nallapati，强化学习模型来自RomainPaulus。

表1

从表格中可以看出，本发明实施例在多个指标上都优于以前的模型。可以看到最开始的seq2seq结合attention的模型并没有取得比较好的效果，推测是因为对未登录词的处理不够完善。采用了pointer-network机制后自各项指标上都有显著的提升，可以明显的感受到能更好的处理未登录词的问题，同时对关键事实的抓取也更精准。再加入了cumulative attention之后，可以看到在各项指标上有进一步的提升，尤其是在cider指标上，考虑到CIDER指标更倾向于评测文本之间的内容相似性，所以可以从指标上看到本文提出的模型在关键信息的抓取上有更好的表现。

对比相关技术有较好表现的抽取式模型而言，本发明实施例也有比较明显的优势。但是也可以针对目前加入了强化学习的模型而言表现稍有不足，也进行了相应的实验，实验发现如果加入强化学习方法就会明显的增加训练时长，训练时间将会是不加强化学习算法的20倍。因此综合而言，本发明实施例的算法在训练时间较短的情况下能达到目前的最好表现，并且在多项指标包括CIDER等多个指标上有比较明显的提升。

根据本发明实施例提出的基于深度学习结合累积注意力机制的文本摘要方法，通过以深度学习为基础，结合累积注意力机制和pointer-network指针生成网络等特性，构建encoder-decoder编解码器模型，挖掘文本的深层特征，使得实现文本摘要的自动生成，且可以准确抓住具有连贯性和可读性的文章中心，并不存在重复现象。

其次参照附图描述根据本发明实施例提出的基于深度学习结合累积注意力机制的文本摘要系统。

如图5所示，该文本摘要系统10包括：定位模块100、拷贝模块200和获取模块300。

其中，定位模块用于通过编解码框架对原始文本进行阅读以生成摘要信息，并通过累积注意力机制定位当前时刻的关键信息。拷贝模块用于通过指针生成网络从原始文本拷贝关键信息。获取模块用于通过覆盖度损失机制对重复输出进行抑制，以得到原始文本的最终摘要。

需要说明的是，前述对基于深度学习结合累积注意力机制的文本摘要方法实施例的解释说明也适用于该系统，此处不再赘述。

根据本发明实施例提出的基于深度学习结合累积注意力机制的文本摘要系统，通过以深度学习为基础，结合累积注意力机制和pointer-network指针生成网络等特性，构建encoder-decoder编解码器模型，挖掘文本的深层特征，使得实现文本摘要的自动生成，且可以准确抓住具有连贯性和可读性的文章中心，并不存在重复现象。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，包括以下步骤：

通过编解码框架对原始文本进行阅读以生成摘要信息，并通过累积注意力机制定位当前时刻的关键信息；

通过指针生成网络从所述原始文本拷贝所述关键信息；以及

通过覆盖度损失机制对重复输出进行抑制，以得到所述原始文本的最终摘要。

2.根据权利要求1所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，所述通过编解码框器对原始文本进行阅读以生成摘要信息，并通过累计注意力机制定位当前时刻的关键信息，进一步包括：

将源序列根据预设顺序依次输入到所述编解码框架的编码器中；

通过非线性变化输出表征源序列信息的语义向量，并将所述语义向量传到所述编解码框架的解码器中，以通过所述解码器根据所述语义向量和历史序列预测当前时刻的单词，直到获得最终的摘要序列。

3.根据权利要求1所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，所述累积注意力机制通过预测当前时刻的单词，生成对应时刻关于所述原始文本所有单词的注意力分布，以分配不同的焦点权重。

4.根据权利要求3所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，所述累积注意力机制将所述解码器的信息加入所述编码器中，指导所述原始文本对所述信息的关注，以产生不同的上下文语境向量。

5.根据权利要求1所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，所述通过指针生成网络从所述原始文本拷贝所述关键信息，进一步包括：

假设所述注意力机制产生的注意力向量为at，上下文向量为H，设定一个平衡系数P_gen，则

6.根据权利要求5所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，还包括：

最终的单词输出为：

7.根据权利要求1所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，所述通过覆盖度损失机制对重复输出进行抑制，以得到所述原始文本的最终摘要，进一步包括：

所述覆盖度损失机制是维护一个向量c^t，所述向量c^t是所有时刻对所述源序列的注意力向量的累加和，如

8.根据权利要求7所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，还包括：

引入额外的损失函数，获取当前关注度和历史累加关注度的最小值，其中，所述损失函数为：

9.根据权利要求1所述的基于深度学习结合累积注意力机制的文本摘要方法，其特征在于，在输出所述摘要序列时需要在生成的路径中查看是否存在重复的三元组，若存在，则将所述路径的概率置为0。

10.一种基于深度学习结合累积注意力机制的文本摘要系统，其特征在于，采用权利要求1-9任一项所述的基于深度学习结合累积注意力机制的文本摘要方法，其中，该系统包括：

定位模块，用于通过编解码框架对原始文本进行阅读以生成摘要信息，并通过累积注意力机制定位当前时刻的关键信息；

拷贝模块，用于通过指针生成网络从所述原始文本拷贝所述关键信息；以及

获取模块，用于通过覆盖度损失机制对重复输出进行抑制，以得到所述原始文本的最终摘要。