CN110390010A

CN110390010A - 一种自动文本摘要方法

Info

Publication number: CN110390010A
Application number: CN201910699308.2A
Authority: CN
Inventors: 李建平; 顾小丰; 胡健; 李伟; 于腾秋; 孙睿男; 李顺利
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-10-29
Anticipated expiration: 2039-07-31
Also published as: CN110390010B

Abstract

本发明公开了一种自动文本摘要方法，将卷积神经网络CNN、自注意力机制self‑attention、信息选择门和Maxout网络进行结合使用，在信息编码阶段控制原文信息的流入，以选择重要信息；同时在解码阶段进一步使用Maxout网络选取最重要的解码信息作为输出。本发明有效的解决了生成摘要词重复问题，并能够在保留原文重要信息的基础上，尽可能的过滤掉无用信息。

Description

一种自动文本摘要方法

技术领域

本发明属于文本信息处理技术领域，具体涉及一种自动文本摘要方法的设计。

背景技术

目前国内外常用的自动文本摘要技术可以分为三种，根据摘要产生的不同方法分为：抽取式、压缩式和生成式。

抽取式方法实现简单，只是从文档中抽取已有的句子形成摘要，可以保留文档中完整的句子，生成的摘要可读性良好，可看作一个组合优化问题。早年抽取式方法应用较为广泛，发展至今，抽取式摘要已经是一种比较成熟的方案，其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词，之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小于0.0001，再对上述方法得到的关键语句进行排序，即可获得摘要，然而抽取式摘要主要考虑单词词频，并没有过多的语义信息。

压缩式方法是同时对原文的句子进行抽取与压缩或抽取与融合，可以有效提高ROUGE值，但会牺牲句子的可读性。ILP是经典的压缩式方法：将摘要看做一个带约束的优化问题，基于整数线性规划进行求解，同时进行句子抽取与冗余去除。

而生成式方法通常需要自然语言理解技术来执行文本的语法和语义分析，融合信息，并使用自然语言生成技术生成新的摘要句子。随着2005年神经网络的二次兴起，深度学习在人工智能领域崛起，基于深度学习的生成式文本摘要方法在摘要生成质量和流畅度上都有了质的飞跃，也成为了摘要生成的主流研究方向。

相比自然语言处理任务中的情感分析、机器翻译、对话系统等热门领域，文本摘要起初在国内并没有受到足够的重视，但是在后期也有了快速发展。至于生成式的文本摘要起始于2006年，当时深度学习再次掀起学术研究热潮并走向了工业应用，促进了其在自然语言处理领域的尝试。2014年Bengio提出Sequence to Sequence(seq2seq)模型并应用于机器翻译中，在当时取得了超越人类的水平的成果。机器翻译和文本摘要一样是端到端文本生成任务，因此研究者们尝试将seq2seq的思想应用到文本摘要上，由此端到端文本摘要生成的研究自此开始。2016年Google开源了新闻标题生成任务的tensorflow代码：textSum，该任务基于seq2seq注意模型，自此，众多研究者基于这个现有的模型进行了一系列序列到序列摘要模型的研究，生成式自动文本摘要技术得到迅速的发展。

由此可知，随着深度学习和自然语言处理技术的发展，生成式自动文本摘要技术也在不断地前进和完善。但是，迄今为止，生成式文本摘要技术仍然存在生成的摘要中存在重复词、语义无关等问题。

发明内容

本发明的目的是为了解决现有的自动文本摘要技术生成的摘要存在摘要重复和语义无关的问题，提出了一种自动文本摘要方法，能够在保留原文重要信息的基础上，尽可能的过滤无用信息，从而使生成的摘要避免出现重复摘要词且语义相关。

本发明的技术方案为：一种自动文本摘要方法，包括以下步骤：

S1、基于卷积神经网络和自注意力机制对文本信息的上下文进行全局编码，并采用信息选择门对全局编码结果进行过滤，得到编码输出结果。

S2、基于注意力机制和Maxout网络对编码输出结果进行解码，生成文本摘要。

进一步地，步骤S1包括以下分步骤：

S11、采用双向LSTM网络得到两个方向的LSTM输出串联结果h_i。

S12、将LSTM输出串联结果h_i输入卷积神经网络，得到表示矩阵g_i。

S13、对表示矩阵g_i进行自注意力机制计算，得到全局相关性表示矩阵g′_i。

S14、采用信息选择门对LSTM输出串联结果h_i和全局相关性表示矩阵g′_i进行过滤计算，得到编码输出结果

进一步地，步骤S11中两个方向的LSTM输出串联结果h_i表示为：

其中表示采用LSTM网络得到的第i个上下文信息正向输出结果，表示采用LSTM网络得到的第i个上下文信息反向输出结果，i＝1,2,...,n，n为全局编码的上下文信息个数。

进一步地，步骤S12中的卷积神经网络包括并联的三个卷积单元和一个拼接层；

第一个卷积单元包括依次连接的三个卷积层，其卷积核k的大小分别为k＝1,k＝3,k＝3；

第二个卷积单元包括依次连接的两个卷积层，其卷积核k的大小分别为k＝1,k＝3；

第三个卷积单元包括一个卷积层，其卷积核k的大小为k＝1；

拼接层用于将三个卷积单元的输出结果进行拼接，得到表示矩阵g_i，拼接公式为：

g_i＝ReLU(W[h_i-k/2,...,h_i+k/2]+b)

其中ReLU(·)表示ReLU函数，W表示拼接权重矩阵，b表示拼接偏置向量。

进一步地，步骤S13中自注意力机制计算的计算公式为：

其中Attention(·)表示自注意力机制计算函数，Q,V均为卷积神经网络生成的表示矩阵g_i，K＝W_attV，W_att为可学习矩阵，softmax(·)为softmax函数，d_k表示卷积核k的表示维度。

进一步地，步骤S14中的信息选择门具体为：

其中σ(·)表示sigmoid函数。

进一步地，步骤S2包括以下分步骤：

S21、通过最后一个编码输出结果初始化LSTM网络的隐藏状态，并通过LSTM网络计算得到当前时间步长t的隐藏状态向量s_t。

S22、通过注意力机制计算当前时间步长t的上下文向量c_t。

S23、根据隐藏状态向量s_t和上下文向量c_t预测得到下一个摘要生成词。

S24、重复步骤S21～S23得到所有摘要生成词，将所有摘要生成词进行信息融合，并使用自然语言生成方法生成文本摘要。

进一步地，步骤S21中隐藏状态向量s_t的计算公式为：

s_t＝LSTM(y_t-1,c_t-1,s_t-1)

其中LSTM(·)表示LSTM网络操作，y_t-1表示前一个摘要词的词向量，c_t-1表示前一个上下文向量，s_t-1表示前一个隐藏状态向量，初始隐藏状态向量s₀为：

其中tanh(·)表示双曲正切函数，为最后一个编码输出结果，W_d表示可训练的隐藏状态权重矩阵，b_d表示隐藏状态偏置向量。

进一步地，步骤S22中上下文向量c_t的计算公式为：

其中表示第i个编码输出结果，i＝1,2,...,n，n为全局编码的上下文信息个数，a_t,i表示当前时间步长t第i个编码输入的注意力权重，其计算公式为：

其中exp(·)表示指数函数，e_t,i表示当前时间步长t隐藏状态向量s_t和编码输出结果的相似分数，其计算公式为：

其中s_t-1表示前一个隐藏状态向量，W_a为可训练的权重矩阵参数。

进一步地，步骤S23包括以下分步骤：

S231、对前一个摘要词的词向量y_t-1、当前上下文向量c_t和隐藏状态向量s_t进行线性组合，得到读出状态向量r_t：

r_t＝W_ry_t-1+U_rc_t+V_rs_t

其中W_r、U_r和V_r均为可训练的权重矩阵参数。

S232、将读出状态向量r_t输入Maxout网络，对读出状态向量r_t中每两个数字进行选取最大值操作，得到d维向量m_t：

其中r_t,2j-1,r_t,2j分别表示读出状态向量r_t中的第2j-1个数字和第2j个数字。

S233、将向量m_t输入softmax层进行词汇表中的单词条件概率计算，计算公式为：

p(y_t|y₁,...,y_t-1)＝softmax(W_om_t)

其中p(y_t|y₁,...,y_t-1)表示当之前时刻生成摘要词的词向量分别为y₁,...,y_t-1时，当前时间步长t生成摘要词的词向量为y_t的概率，softmax(·)为softmax函数，W_o为可训练的权重矩阵参数。

S234、选取单词条件概率最大的摘要词向量作为下一个摘要生成词。

本发明的有益效果是：本发明结合卷积神经网络CNN、自注意力机制self-attention和Maxout网络，有效的解决了生成摘要词重复问题。由于卷积神经网络可以提取整个原文本的n-gram特征，并且自注意机制学习输入原文本序列的词与词之间的长期相关性，所以信息选择门可以对文本信息执行全局编码。此外，基于CNN和自注意力机制的输出，sigmoid函数在每个维度上输出一个介于0和1之间的值向量，如果该值接近0，信息选择门将删除源表示的相应维度上的大部分信息，如果该值接近1，信息选择门将保留大部分信息，以此来控制编码阶段流向解码阶段的信息，进而有效解决了生成摘要词的重复问题。同时本发明在解码阶段采用Maxout网络进一步在预测摘要词之前过滤噪音，进一步强化了摘要效果。

附图说明

图1所示为本发明实施例提供的一种自动文本摘要方法流程图。

图2所示为本发明实施例提供的步骤S1的分步骤流程图。

图3所示为本发明实施例提供的卷积神经网络结构示意图。

图4所示为本发明实施例提供的步骤S2的分步骤流程图。

图5所示为本发明实施例提供的Maxout网络结构示意图。

图6所示为本发明实施例提供的步骤S23的分步骤流程图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种自动文本摘要方法，如图1所示，包括以下步骤S1～S2：

如图2所示，步骤S1包括以下分步骤S11～S14：

S11、采用双向LSTM网络得到两个方向的LSTM输出串联结果h_i：

本发明实施例中，如图3所示，卷积神经网络包括并联的三个卷积单元和一个拼接层。

其中，第一个卷积单元包括依次连接的三个卷积层，其卷积核k的大小分别为k＝1,k＝3,k＝3。本发明实施例中，使用两个k＝3的卷积操作来代替一个k＝5的卷积操作，以避免卷积核过大，减少特征的表征性瓶颈。一般来说，当卷积小幅度改变输入的维度时，神经网络可能会执行地更好，过多地减少维度可能会造成信息的损失，这也称为“表征性瓶颈”。此外，将k＝5的卷积分解为两个k＝3的卷积运算可以在不改变感受野大小的同时减少参数提升计算速度。因为一个5×5的卷积操作在计算成本上是一个3×3卷积操作的2.78倍，所以在一维卷积上叠加两个k＝3的卷积实际上在性能上会有所提升。

第二个卷积单元包括依次连接的两个卷积层，其卷积核k的大小分别为k＝1,k＝3。

第三个卷积单元包括一个卷积层，其卷积核k的大小为k＝1。

最后的拼接层用于将三个卷积单元的输出结果进行拼接，得到表示矩阵g_i，拼接公式为：

g_i＝ReLU(W[h_i-k/2,...,h_i+k/2]+b)

本发明实施例使用了三层卷积神经网络，因此使用前面所提到的ReLU激活函数。卷积核的参数共享使模型能够提取某些类型的特征，特别是n-gram特征。

与图像相似，语言也包含局部相关性，例如短语结构的内部相关性。卷积神经网络可以提取句子中的这些共同特征，并指示原文中词与词之间的相关性。此外，为了进一步加强全局信息，本发明实施例采用自注意力机制来挖掘某个时间步的词表示与其它词表示的关系。因此，基于CNN和自注意力机制的信息选择门能够找出常见的n-gram特征和全局相关性。

S13、对表示矩阵g_i进行自注意力机制计算，得到全局相关性表示矩阵g′_i，计算公式为：

对卷积神经网络CNN生成的表示矩阵g_i进行自注意力机制计算，以便挖掘出全局相关性。自注意力机制激励模型学习长期相关性，并且不会产生太多计算复杂性，因此针对每个时间步的信息和全局信息之间的联系，实现了它的放缩点积注意力计算。

本发明实施例中，信息选择门具体为：

其中σ(·)表示sigmoid函数。由于卷积神经网络CNN可以提取整个源文本的n-gram特征，并且自注意力机制学习输入文本之间的长期相关性，所以这个信息选择门可以对编码器的输出执行全局编码。基于CNN和自注意力机制的输出，sigmoid函数输出一个向量，这个向量的每个维度上的值都介于0和1之间，如果该值接近0，信息选择门将删除源表示的相应维度上的大部分信息，如果该值接近1，信息选择门将保留大部分信息，借此实现核心信息的选择。

本发明实施例中，信息选择门主要是通过卷积神经网络CNN和自注意力机制来对原文上下文执行全局编码。由于CNN的参数共享，信息选择门基于全局上下文来过滤每个编码器的输出，以便在考虑全局上下文的情况下重新定义每个时间步的表示，控制从编码阶段到解码阶段的信息流，以达到选择核心信息的作用。

如图4所示，步骤S2包括以下分步骤S21～S24：

S21、通过最后一个编码输出结果初始化LSTM网络的隐藏状态，并通过LSTM网络计算得到当前时间步长t的隐藏状态向量s_t，计算公式为：

s_t＝LSTM(y_t-1,c_t-1,s_t-1)

S22、通过注意力机制计算当前时间步长t的上下文向量c_t，计算公式为：

本发明实施例中，通过Maxout网络进行下一个摘要生成词的预测。如图5所示，Maxout网络是一个简单的前馈架构，例如多层感知机或深度卷积神经网络，也可以将它看作是一种新型的激活函数：Maxout单元。

Maxout在网络中充当激活函数的作用，激活函数的一个特点是非线性，这样可以使网络逼近任意的函数，而Maxout是一个分段函数，每个激活函数都可以通过Maxout在局部空间内取最大值得到。因此，本发明实施例通过Maxout网络的特性进一步在解码阶段进行信息选择和噪音过滤。

如图6所示，步骤S23包括以下分步骤S231～S234：

r_t＝W_ry_t-1+U_rc_t+V_rs_t

其中W_r、U_r和V_r均为可训练的权重矩阵参数，读出状态向量r_t为二维向量。

p(y_t|y₁,...,y_t-1)＝softmax(W_om_t)

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种自动文本摘要方法，其特征在于，包括以下步骤：

S1、基于卷积神经网络和自注意力机制对文本信息的上下文进行全局编码，并采用信息选择门对全局编码结果进行过滤，得到编码输出结果；

2.根据权利要求1所述的自动文本摘要方法，其特征在于，所述步骤S1包括以下分步骤：

S11、采用双向LSTM网络得到两个方向的LSTM输出串联结果h_i；

S12、将LSTM输出串联结果h_i输入卷积神经网络，得到表示矩阵g_i；

S13、对表示矩阵g_i进行自注意力机制计算，得到全局相关性表示矩阵g′_i；

3.根据权利要求2所述的自动文本摘要方法，其特征在于，所述步骤S11中两个方向的LSTM输出串联结果h_i表示为：

4.根据权利要求2所述的自动文本摘要方法，其特征在于，所述步骤S12中的卷积神经网络包括并联的三个卷积单元和一个拼接层；

第三个卷积单元包括一个卷积层，其卷积核k的大小为k＝1；

所述拼接层用于将三个卷积单元的输出结果进行拼接，得到表示矩阵g_i，拼接公式为：

g_i＝ReLU(W[h_i-k/2,...,h_i+k/2]+b)

5.根据权利要求2所述的自动文本摘要方法，其特征在于，所述步骤S13中自注意力机制计算的计算公式为：

6.根据权利要求2所述的自动文本摘要方法，其特征在于，所述步骤S14中的信息选择门具体为：

其中σ(·)表示sigmoid函数。

7.根据权利要求1所述的自动文本摘要方法，其特征在于，所述步骤S2包括以下分步骤：

S21、通过最后一个编码输出结果初始化LSTM网络的隐藏状态，并通过LSTM网络计算得到当前时间步长t的隐藏状态向量s_t；

S22、通过注意力机制计算当前时间步长t的上下文向量c_t；

S23、根据隐藏状态向量s_t和上下文向量c_t预测得到下一个摘要生成词；

8.根据权利要求7所述的自动文本摘要方法，其特征在于，所述步骤S21中隐藏状态向量s_t的计算公式为：

s_t＝LSTM(y_t-1,c_t-1,s_t-1)

9.根据权利要求7所述的自动文本摘要方法，其特征在于，所述步骤S22中上下文向量c_t的计算公式为：

10.根据权利要求7所述的自动文本摘要方法，其特征在于，所述步骤S23包括以下分步骤：

r_t＝W_ry_t-1+U_rc_t+V_rs_t

其中W_r、U_r和V_r均为可训练的权重矩阵参数；

其中r_t,2j-1,r_t,2j分别表示读出状态向量r_t中的第2j-1个数字和第2j个数字；

p(y_t|y₁,...,y_t-1)＝softmax(W_om_t)

其中p(y_t|y₁,...,y_t-1)表示当之前时刻生成摘要词的词向量分别为y₁,...,y_t-1时，当前时间步长t生成摘要词的词向量为y_t的概率，softmax(·)为softmax函数，W_o为可训练的权重矩阵参数；