CN110287490A

CN110287490A - 一种突显核心内容的文本自动摘要方法

Info

Publication number: CN110287490A
Application number: CN201910552023.6A
Authority: CN
Inventors: 李志欣; 彭智; 唐素勤; 张灿龙
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27
Anticipated expiration: 2039-06-25
Also published as: CN110287490B

Abstract

本发明公开了一种突显核心内容的文本自动摘要方法，包括如下步骤：(一)将数据集中的文本合并成一个文档，进行分词处理，生成词汇表；（二）进行关键信息获取；（三）进行双注意指针网络摘要生成。本发明可以有效地避免会偏离核心内容的问题，得到更好的生成效果，得到原始文本的最终摘要，准确地减少重复的出现，具有良好的可读性。

Description

一种突显核心内容的文本自动摘要方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种突显核心内容的文本自动摘要方法。

背景技术

文本自动摘要是为了顺应信息化时代的发展而演变出的一种技术。信息爆炸导致了文本的飞速增加，现在我们需要对海量数据内容进行提炼与总结，以简洁、直观的摘要来概括用户所关注的主要内容，方便用户快速了解与浏览。文本摘要是文档内容的精髓缩影，是提高用户查找与阅读理解效率的重要工具，但传统摘要由人工产生，成本过高且效率低地下，由此自动文本摘要技术应运而生。

现有的文本摘要技术主要分为两类，一类是抽取式，一类是生成式。其中抽取式通过对文档中重要信息的提取来组成摘要，生成式则是通过重写内容来形成摘要。抽取式的方法更多地依靠源文本进行选择，其主要任务就变成了找到文本中重要的几句话进行排列组合。然而更多的时候是摘要的生成需要以人的理解的方式来生成原创的句子。

深度学习的出现，它模仿人脑的机制来解释数据特点使得生成式摘要得到长足的发展。文字是一串单词序列，具有时间上的信息。因此使用循环神经网络(RecurrentNeural Network,RNN)这种能够执行序列数据的计算的神经网络作为自然语言处理任务的标准方法。生成式摘要也使用循环神经网络作为基础，同时引入序列到序列模型(Sequence-to-Sequence，Seq2Seq)的解决了文本与摘要间的序列不统一问题。随后又融入了注意力机制(Attention Mechanism)来突显上下文语义，最后生成的摘要比之前非神经网络的模型效果好，能很好地概括源文本的内容。

但是目前技术生成出来的摘要很容易出现信息冗余和总结出非关键信息等缺点。具有注意力的序列到序列模型会不准确的产生事实类细节，特别是对于词汇集之外词(OutOf Vocabulary，OOV)来说。并且模型有时候没有去聚焦于源文本的核心内容，反而概括一些不太重要的信息。同时，由于注意力机制的引入，生成摘要时容易出现重复问题。如何在生成文本摘要中概括其信息的同时又不缺失关键信息，并准确地减少重复的出现，是一个十分值得研究的问题。

发明内容

针对现有技术的不足，本发明所解决的问题是如何在生成文本摘要中概括其信息的同时又不缺失关键信息，并准确地减少重复的出现。

为解决上述技术问题，本发明采用的技术方案是一种突显核心内容的文本自动摘要方法，包括如下步骤：

(一)将数据集中的文本合并成一个文档，进行分词处理，生成词汇表；

(二)进行关键信息获取，具体分步骤如下：

(1)对数据集中的单个文本进行分词处理，对经过分词处理后的单词进行向量化表示得到词向量；

(2)将得到的每个文本的全部词向量按顺序输入一个由双向的循环神经网络构成的编码器，得到输入每个词后的文本状态向量；其中，最后一个状态向量代表该文本的状态向量；

所述文本的状态向量包括：将第i个所述词向量和第i-1所述词向量对应文本的状态向量输入到第i个循环神经网络模块中，经过第i个循环神经网络模块处理得到输入第i个词向量后文本的状态向量。

所述循环神经网络为LSTM是长短期记忆网络，虽然结构相同，但是参数不同。

(3)利用自注意机制将编码器的状态向量互相匹配，求得各个状态向量的注意力分布，以分配不同的焦点权重；将得到的权重对状态向量进行加权和计算，得到关键信息向量；

(三)进行双注意指针网络摘要生成，具体分步骤如下：

(1)将所述输入文本的状态向量输入一个由单向的循环神经网络构成的解码器进行解码，得到摘要文档的第一个状态向量；

(2)将得到的摘要文档的第一个状态向量、覆盖向量和输入文本的状态向量一起进行软注意计算，得到原始文本所有单词的软注意力分布，以分配不同的焦点权重；所述覆盖向量来自解码器先前的状态向量对应的所有注意力权重的总和，如果是第一个状态向量，则覆盖向量为0。

(3)将得到的权重对编码器的状态向量进行加权和计算，得到上下文信息向量；

(4)将上下文信息向量和所述的关键信息向量通过门机制进行融合，得到混合信息向量；

(5)将混合信息向量与摘要文档的第一个状态向量进行拼接，做两层线性变换，得到一个词汇表长度大小的一维向量；

(6)将得到一维向量和软注意力分布的权重通过门机制和指针网络进行融合与扩展，获取词汇表和文本中词汇表之外词构成的词典中的每个词成为摘要信息的概率，选择其中概率最高的词作为所得摘要的第一个生成词；所述指针网络是将软注意力分布的权重作为指向输入单词的指针，不考虑输入元素，而是以概率的值作为指针指向输入元素的位置。

(7)将得到的所述第一个生成词和得到的摘要文档的第一个状态向量输入到解码器中，重复分步骤(1)到分步骤(6)，得到摘要的第二个生成词和摘要文档的第二个状态向量；将得到的新单词和得到该新的摘要文档的状态向量循环输入到上述的重复步骤中，直到摘要生成完毕。

与现有技术相比，本发明有益效果：

(1)添加了关键信息，通过使用自注意机制让编码器中的文本状态向量同自身匹配，动态地搜集文本中关键信息，最后生成的摘要可以有效地避免会偏离核心内容的问题；

(2)构建双注意指针网络，利用门机制进行混合摘要生成，得到从不同的方向生成的摘要。自注意机制得到文中的关键信息，软注意机制得到上下文语义信息，指针网络能获得词汇表之外词成为摘要信息的概率，通过两个门机制对这3种信息进行融合，得到更好的生成效果。

(3)针对最后生成的摘要存在的重复问题，用于通过覆盖率机制中的覆盖向量对重复的摘要进行抑制，以得到所述原始文本的最终摘要，准确地减少重复的出现，具有良好的可读性。

附图说明

图1为本发明流程图；

图2为本发明结构示意图；

图3为本发明自注意力机制框架图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明，但不是对本发明的限定。

图1示出了一种突显核心内容的文本自动摘要方法，包括如下步骤：

词汇表的生成是为了确定数据集中的文本单词的位置。事先设置一个词汇表的大小，这里我们设置大小为50000。随后将数据集中的文本全部合并到一个文本中去。对于英文数据，由于英语的基本组成单位就是词，在英文中，单词之间是以空格作为自然分界符组成语句，语句之间再利用标点分隔组成大篇幅文本，所以我们可以简单的利用标点进行分句处理，利用空格进行分词处理。

对于中文数据，需要说明的是，分词处理是将文本中的字符串切分成合理的、符合语境意义的词语序列的过程，它是自然语言理解和文本信息处理的关键技术和难点之一，也是自动生成摘要研究框架中的一个重要处理环节。中文的词语切分问题比较复杂，其原因在于词语之间没有明显的标记，词语的使用灵活、变化多样、语义丰富，容易产生歧义。而通过现有的分词工具可以明显降低这些错误，因此，对于中文数据本发明的方法采用分词工具对文本进行分词，进而降低错误率。

在分词处理后，统计文本中每个词出现的个数，并做一个从大到小排序，取其中大小为前50000的单词作为词汇表中的单词来构建一个词汇表，作为原始数据的所有文本的词汇表。这样是为了确保在进行摘要生成中的运算速度，以及原始数据单个文本中99％的词都能出现在词汇表中。当然为了使得每个文本中的单词都能参与运算，除了创建一个50000单词大小的词汇表。在摘要的生成过程中，我们还为每个文本的词汇表之外词构建一个另外的临时的词汇表，在当前的文本生成完摘要之后，这个词汇表会消失不见。因此，每个文本的摘要的生成，都会存在由相同一个词汇表和不同文本中词汇表之外词构成的词典。

(二)进行关键信息获取，具体分步骤如下：

对原始数据中的单个文本进行上述步骤中的分词处理，处理后的数据，按照单词序列的顺序分别进行向量化(word embedding)表示。词向量主要有两种形式，分别是稀疏向量和密集向量。所谓稀疏向量，又称为one-hot representation，就是用一个很长的向量来表示一个词，向量的长度为词典的大小N，向量的分量只有一个1，其他全为0，1的位置对应该词在词典中的索引。举例来说，如果有一个词典[“桌子”,”椅子”,”飞机”]，那么“桌子”对应的词向量就是[1,0,0]，“椅子”对应的词向量就是[0,1,0]。这种表示方法不需要繁琐的计算，简单易得，但是缺点也不少，比如长度过长。如果单个文本中有1000个单词，那么维度会变成1000×1000，维度会变的很大。至于密集向量，又称distributedrepresentation，即分布式表示。基本思路是通过训练将每个词映射成一个固定长度的短向量，所有这些向量就构成一个词向量空间，每一个向量可视为该空间上的一个点。此时向量长度可以自由选择，与词典规模无关。还是用之前的例子[“桌子”,”椅子”,”飞机”]，经过训练后，“桌子”对应的向量可能是[1,0,1,1,0],而“椅子”对应的可能是[1,0,1,0,0]，而“飞机”对应的可能是[0,1,0,0,1]。这个时候单个文本中有1000个单词，那么维度会变成1000×4。可以看到维度缩小了很多，这是非常大的优势。因此，本方法采用密集向量，单个文本中的每个单词需要用一个数字去表示他，这一步已经在词典的生成时完成了，每个词典中词对应着文本中单词的数字。当一个单词输入到编码器时，根据它的数字给与每个词一个固定长度的短向量。最后构成了一个词向量矩阵，它的大小是文本的单词数×词向量的维度，这个词向量矩阵代表了单个文本的所有单词。注意这里的词向量的建立只是初始的词向量，并没有经过任何修改优化，需要建立神经网络通过训练的办法修改词向量里面的参数使得词向量每一个词向量能够表示每一个不同的词。

在本方法的关键信息获取中，首先需要的得到该文本中每个词对应时刻的状态向量。通过采用长短期记忆网络来获取，该网络的计算公式如下：

f_t＝σ(W_fx_t+W_fh_t-1)

i_t＝σ(W_ix_t+W_ih_t-1)

O_t＝σ(W_Ox_t+W_Oh_t-1)

h_t＝O_t*tanh(C_t)

上述公式中t代表t时刻，x_t为时刻t时输入词的词向量，h_t-1为t时刻的上一时刻的词向量输入后得到的文本的状态向量，h_t为x_t输入后得到的文本的状态向量。f_t、i_t和O_t是经过x_t和h_t-1计算的三个门机制，输出0到1之间的数值，前2个门用来处理输入的信息，第3个门用来处理冗余信息。C_t-1是t时刻的上一个时刻词向量输入后得到的未经过O_t处理的文本的状态向量。是t时刻h_t-1和x_t的信息的整合。C_t是t时刻包含了冗余信息的文本的状态向量。需要说明的是，向量的处理顺序是按时间展开的，即，每个时刻对应着一个单词。

结合图1和图2可知，词向量在长短期记忆网络完成其状态向量的表示，具体的计算过程是将第i个词向量和第i-1个词向量对应文本的状态向量输入到第i个长短期记忆网络中，经过第i个长短期记忆网络中处理得到输入第i个词向量后文本的状态向量。由上述的计算过程可知，在本发明的方法中，由于通过循环神经网络对文本进行建模，使得t时刻输入单词后对应文本的状态向量理论上包含了该时刻之前的所有单词的信息，也就是说，输入最后一个词后得到的文本的状态向量h_n包含了整个文本的所有信息，因此，h_n代表了整个文本的状态向量。

需要注意的是，编码器的长短期记忆网络是双向的。因为在有些问题中，当前时刻的输出不仅和之前的状态向量有关系，也和之后的状态向量相关。这时就需要双向长短期记忆网络来解决这类问题。例如预测一个语句中缺失的单词不仅需要根据前文来判断，也需要根据后面的内容，这时双向长短期记忆网络就可以发挥它的作用。在每一个时刻t，输入会同时提供给这两个方向相反的长短期记忆网络，而输出则是由这两个单向长短期记忆网络的状态向量拼接而成。

在获得文本输入编码器的每个时刻的状态向量集合H后。如图3自注意力机制框架图中所示，利用自注意计算编码器的状态向量与各个时刻的状态向量的相似度的值，通过比较每个时刻的相似度值的大小。可以突出文本中的一些关键信息。其中，自注意的计算公式如下：

H＝{h₁,h₂,...,h_n}

f_i ^j(h_i,h_j)＝v^Ttanh(W₁h_i+W₂h_j+b_attn1)

e_i＝∑_nf_i ⁿ；a'＝softmax(e)

z＝∑a'H

状态向量集合H是由编码器中的双向长短期记忆网络每个时刻输出的状态向量构成的。h_i代表了第i个时刻的状态向量，h_j代表了第i个时刻的状态向量，通过f(h_i,h_j)来获取第i个时刻与第j个时刻的状态向量的相似度。再将第i个时刻与编码器中所有状态向量的相似度的累加和后经过归一化得到的值作为自注意中第i个时刻的权重系数。最后，所有时刻的状态向量与其权重系数相乘的累加和作为文本的关键信息向量z,它代表了整篇文档的中的关键信息。

本发明的方法通过双向长短期记忆网络与自注意得到的关键信息向量与该文本中的关键单词相关，从而使得最终得到的文本摘要能聚焦于文本的核心内容，没有文本中的冗余信息的干扰。

(三)进行双注意指针网络摘要生成，具体分步骤如下：

由于自注意机制只关注于文本内部信息，注意力固定，这使得生成的摘要不能生成含有上下文语义，只会存在重复且分散的词语。因此，利用软注意力机制与自注意力机制结合。通过软注意力机制产生的上下文向量来补充遗漏的上下文内容，保持生成的摘要的连贯性。

在双注意指针网络摘要生成阶段，共用关键信息获取阶段的编码器的状态向量，以此减少参数的计算，提高摘要生成的速度。在经过编码器处理的得到的文本的状态向量，输入到由单向的长短期记忆网络构成的解码器中进行解码，从而得到每个时刻的解码器的状态向量，第t个时刻解码器的状态向量记为s_t。摘要文档的第一个状态向量记为s₁。

(2)将得到的摘要文档的第一个状态向量、覆盖向量和输入文本的状态向量一起进行软注意计算，得到原始文本所有单词的软注意力分布，以分配不同的焦点权重；

将s_t参与到软注意力机制的计算中，这里因为为第一个实例，所以t的值为1。这样在预测当前t时刻的单词时，会生成对应时刻关于原文本所有单词的注意力分布。也就是在预测摘要的时候，告诉模型，原文的哪些信息更加重要，由此产生不同的上下文语境向量。软注意力机制计算公式如下：

a^t＝softmax(e^t)

a^t是当前时刻的注意力分布，其中是第i个编码器状态向量对应的覆盖向量的权重。覆盖向量是译码器中先前时刻的所有注意力的总和，用来消除重复出现的词汇。需要注意的是，自注意不会加入这个计算，因为它是固定的。k^t记录着模型已经关注过原文的哪些词，因为不同词的注意力权重系数都是不同的，在词没有重复的情况下，系数可以分隔存放在一个向量中。让这个覆盖向量影响当前时刻的注意力计算。这样做的目的在于，在模型进行当前时刻注意力计算的时候，告诉它之前它已经关注过的词，希望避免出现连续注意力到某几个词上的情形。

由于软注意力机制为全局的，为了提高覆盖的精度，在覆盖向量中加入截断参数β，过滤其他非主要关注词，并以一个极小的数ε来代替这些词权重，避免在不断累加后，主要目标的生成受到影响。改进后的第i个状态向量的覆盖权重计算算法如表1所示：

获取步骤(2)中的注意力权重，与编码器的状态向量进行加权和计算，计算公式如下：

c_t是编码器状态向量的加权和，代表了从文中读取的内容，称这个向量为上下文向量。这里因为为第一个实例，所以t的值为1。

在获取了上下文向量后，在网络中引入门机制，获取解码中每一步需要关键信息的概率。在t时刻，这里因为为第一个实例，所以t的值为1。通过关键信息向量z、解码器的状态s_t和解码器上一时刻生成的摘要单词词向量计算得到：

o_t＝(1-g_m)c_t+g_m z

g_m用来选择关键信息向量，还是上下文向量。通过门机制融合的关键信息向量和上下文向量，称为混合信息向量o_t。

随后将混合信息向量与摘要文档的第一个状态向量进行拼接，做两层线性变换，得到一个词汇表长度大小的一维向量。词汇表有50000个词，即生成摘要的每一个词从这50000个词中进行候选，则这个一维向量大小为(1，50000)，对这个向量进行归一化处理，选出一个最大的概率，对应词汇表中该位置的词，代表普通生成的词。一维向量的计算公式如下：

P_vocab＝softmax(V₄(V₃[s_t,o_t]+b₃)+b₄)

P_vocab为普通生成时词汇表中每一个词的概率。

(6)将得到一维向量和软注意力分布的权重通过门机制和指针网络进行融合与扩展，获取词汇表和文本中词汇表之外词构成的词典中的每个词成为摘要信息的概率，选择其中概率最高的词作为所得摘要的第一个生成词；

指针机制用来找出文本中词汇表之外词，并把词汇表之外词直接复制到摘要中。有利于摘要信息直接包含文本中的细节信息，且能避免词汇表中不存在词的未知词问题。指针机制是每个文本的词汇表之外词构建一个临时的词汇表，由软注意力的权重分布产生这个临时词汇表的概率分布。同时通过将混合信息向量与当前时刻的状态变量和输入词向量量做非线性变换，产生一个当前时刻下p_gen值作为摘要是普通生成词的概率阀值，则1-p_gen为摘要词从原文中复制词的概率：

每一个时刻的o_t，s_t，x_t是变化的，依据每一时刻的编码、解码信息，求出普通生成词的概率。这样，对于文本中的每一个词都存在一个复制概率，结合软注意机制求出的当前原文中每个词的重要度a^t，也是从原文中复制重要信息的依据，即表示机器生成的摘要中那些能从原文中拷贝出来的词。最后得到的p(w)是两个词汇表的合并的一个概率分布，其长度是词汇表长度加上源文本中未出现在词表中的单词个数。选择其中概率最高的词为当前时刻的摘要的生成词。

以上结合附图对本发明的实施方式做出了详细说明，但本发明不局限于所描述的实施方式。对于本领域技术人员而言，在不脱离本发明的原理和精神的情况下，对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

Claims

1.一种突显核心内容的文本自动摘要方法，其特征在于，包括如下步骤：

(一) 将数据集中的文本合并成一个文档，进行分词处理，生成词汇表；

（二）进行关键信息获取，具体分步骤如下：

（1）对数据集中的单个文本进行分词处理，对经过分词处理后的单词进行向量化表示得到词向量；

（2）将得到的每个文本的全部词向量按顺序输入一个由双向的循环神经网络构成的编码器，得到输入每个词后的文本状态向量；其中，最后一个状态向量代表该文本的状态向量；

（3）利用自注意机制将编码器的状态向量互相匹配，求得各个状态向量的注意力分布，以分配不同的焦点权重；将得到的权重对状态向量进行加权和计算，得到关键信息向量；

（三）进行双注意指针网络摘要生成，具体分步骤如下：

（1）将所述输入文本的状态向量输入一个由单向的循环神经网络构成的解码器进行解码，得到摘要文档的第一个状态向量；

（2）将得到的摘要文档的第一个状态向量、覆盖向量和输入文本的状态向量一起进行软注意计算，得到原始文本所有单词的软注意力分布，以分配不同的焦点权重；所述覆盖向量来自解码器先前的状态向量对应的所有注意力权重的总和，如果是第一个状态向量，则覆盖向量为0；

（3）将得到的权重对编码器的状态向量进行加权和计算，得到上下文信息向量；

（4）将上下文信息向量和所述的关键信息向量通过门机制进行融合，得到混合信息向量；

（5）将混合信息向量与摘要文档的第一个状态向量进行拼接，做两层线性变换，得到一个词汇表长度大小的一维向量；

（6）将得到一维向量和软注意力分布的权重通过门机制和指针网络进行融合与扩展，获取词汇表和文本中词汇表之外词构成的词典中的每个词成为摘要信息的概率，选择其中概率最高的词作为所得摘要的第一个生成词；

（7）将得到的所述第一个生成词和得到的摘要文档的第一个状态向量输入到解码器中，重复分步骤（1）到分步骤（6），得到摘要的第二个生成词和摘要文档的第二个状态向量；将得到的新单词和得到该新的摘要文档的状态向量循环输入到上述的重复步骤中，直到摘要生成完毕。

2.根据权利要求1所述的突显核心内容的文本自动摘要方法，其特征在于，步骤（二）分步骤（2）中，所述文本的状态向量包括：将第i个所述词向量和第i-1所述词向量对应文本的状态向量输入到第i个循环神经网络模块中，经过第i个循环神经网络模块处理得到输入第i个词向量后文本的状态向量。

3.根据权利要求1所述的突显核心内容的文本自动摘要方法，其特征在于，步骤（二）分步骤（2）中，所述循环神经网络为LSTM是长短期记忆网络，虽然结构相同，但是参数不同。

4.根据权利要求1所述的突显核心内容的文本自动摘要方法，其特征在于，步骤（三）分步骤（1）中，所述循环神经网络为LSTM是长短期记忆网络，虽然结构相同，但是参数不同。

5.根据权利要求1所述的突显核心内容的文本自动摘要方法，其特征在于，步骤（三）分步骤（6）中，所述指针网络是将软注意力分布的权重作为指向输入单词的指针，不考虑输入元素，而是以概率的值作为指针指向输入元素的位置。