CN111563160B

CN111563160B - 基于全局语义的文本自动摘要方法、装置、介质及设备

Info

Publication number: CN111563160B
Application number: CN202010293653.9A
Authority: CN
Inventors: 姜小波; 杨博睿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2023-03-31
Anticipated expiration: 2040-04-15
Also published as: CN111563160A

Abstract

本发明提供了一种基于全局语义的文本自动摘要方法、装置、介质及设备。其中方法包括如下步骤：将原始文本的内容进行预处理，按照字节进行划分，并对其中的大写字母替换成小写字母，得到文本信息；编码器基于卷积神经网络和自注意力机制对文本信息进行全局编码，并经过一个控制单元进行筛选，得到最终编码输出结果；解码器基于重复惩罚机制对编码输出结果进行解码，并生成文本摘要。本发明通过在编码器中加上卷积过滤器，并在解码器部分使用重复惩罚机制对重复词进行进一步抑制；可提高摘要文本语义的通顺度，重复惩罚机制可以对已经出现过的词的进行极大的抑制，减少生成摘要的重复性问题从而提高生成摘要的可读性。

Description

基于全局语义的文本自动摘要方法、装置、介质及设备

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种基于全局语义的文本自动摘要方法、装置、介质及设备。

背景技术

随着互联网的高速发展，如何快速准确的阅读大量信息使得自动文本摘要技术的深入研究成为必要需求。自动文本摘要作为一种可以缓解信息过量的技术，在实践中有着广泛的应用，如自动生成新闻文章和技术文章的摘要、自动生成搜索引擎检索结果的快照、自动写稿机器人等等。

自动文本摘要技术就是利用计算机自动地从原始文章中提取中心思想和关键内容，并进行语义分析和处理，生成一段能全面准确地反映某一文献地简单连贯的短文。

目前国内外最常用的自动文本摘要方法根据摘要内容的生成方式分为两种：抽取式摘要和生成式摘要。而生成式摘要是自动文本摘要的主流研究方向。由于2014年Bengio等人提出的Sequence to Sequence(seq2seq)模型在机器翻译上的巨大成功，再加上文本摘要和机器翻译同为端对端的文本生成任务，研究者就尝试在文本摘要上使用seq2seq模型，并取得了一定的进展。在同一年Bahdanau等人提出了Attention模型，并结合seq2seq模型一起应用在机器翻译任务中，进一步推动了文本摘要的发展。

鉴于机器翻译的成功应用，基于seq2seq模型自动文本摘要成为了自然语言处理的研究热点。然而，生成式文本摘要目前还存在很多问题，比如语义不通顺，语法错误，上下文出现重复词等。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于全局语义的文本自动摘要方法、装置、介质及设备；通过在编码器中加上卷积过滤器，并在解码器部分使用重复惩罚机制对重复词进行进一步抑制；可提高摘要文本语义的通顺度，重复惩罚机制可以对已经出现过的词的进行极大的抑制，减少生成摘要的重复性问题从而提高生成摘要的可读性。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于全局语义的文本自动摘要方法，其特征在于：包括如下步骤：

S1，将原始文本的内容进行预处理，按照字节进行划分，并对其中的大写字母替换成小写字母，得到文本信息；

S2，编码器基于卷积神经网络和自注意力机制对文本信息进行全局编码，并经过一个控制单元进行筛选，得到最终编码输出结果；

S3，解码器基于重复惩罚机制对编码输出结果进行解码，并生成文本摘要。

优选地，所述步骤S2包括以下分步骤：

S21，顺序地从文本信息接收每个字的字嵌入，导入到一个双向LSTM网络，并在每个时间节点t上输出结果

i＝0,1,2…n，n为编码信息个数；

S22，将双向LSTM网络的输出结果

输入到卷积神经网络中，得到输出矩阵gi；

S23，在每个时间节点t上，对卷积神经网络的输出矩阵gi进行自注意力计算，得到结果gi′；

S24，基于自注意力计算后的结果gi′和双向LSTM网络的生成结果

根据设定的开关/>

对该时间节点t的信息编码结果进行筛选。

优选地，所述步骤S21中，输出结果

为：

其中，

为异或运算，/>

为双向LSTM网络得到的第i个文本的正向输出结果，/>

为双向LSTM网络得到的第i个文本的反向输出结果；

所述步骤S22中，卷积神经网络的结构包含三个并联的卷积层和连接在三个卷积层后的一个拼接结果层：

其中，第一个卷积层有两个卷积核k大小分别为1和5的一维卷积单元；

第二个卷积层有两个卷积核k大小分别为1和3的一维卷积单元；

第三个卷积层有一个卷积核k大小为1的一维卷积单元；

拼接结果层是先将三个卷积层的输出进行列向拼接为矩阵Hi，然后导入全连接网络并输出一个列向大小为输出1/3的输出矩阵gi；输出矩阵gi生成公式为：

gi＝ReLU(W*Hi+b)；

其中，ReLU为ReLU激活函数，W为拼接结果层的权重矩阵，b为拼接结果层的偏置矩阵；

所述步骤S23中，自注意力计算公式为：

其中，Q,V都是卷积神经网络生成的表示矩阵，K＝W_aV，W_a为可学习的矩阵，softmax()为归一化函数，d_k为卷积核k的大小；

所述步骤S24中，设定的开关

其中，

为S21得到的双向LSTM网络的输出结果，σ()为sigmoid函数，b_h为偏置向量。这个sigmoid函数在每个输入维度上生成一个0到1的值向量，如果值接近于0，则这个输入信息的LSTM编码结果将被删除大部分信息，如果接近1，则保留大部分信息。

优选地，所述步骤S3包括以下分步骤：

S31，将编码器隐藏状态的最后一层

作为解码器的初始状态/>

S32，将原始文本在训练集中对应的人为摘要序列

中的元素/>

先输入到解码器的词嵌入层得到w_t，然后将w_t和前一时间节点解码器的隐藏状态/>

一起输入到解码器的神经网络中得到当前时间节点t解码器的隐藏状态/>

其中解码器使用LSTM的变体网络作为循环网络单元；

S33，对于编码层中卷积神经网络的输出的状态序列h^e中的每一个元素

计算其与解码器隐藏状态/>

之间的注意力得分/>

和注意力分配/>

S34，根据注意力得分

计算状态序列h^e上的注意力分布/>

S35，根据注意力分布

和状态序列h^e计算上下文向量x_t，计算对应的词汇表分布

S36，根据词汇表分布

选择概率最大的词汇作为当前时间节点t解码器输出的预测摘要词y_t；

S37，重复步骤S31至S36，直至得到生成摘要序列y＝(y₀,y₁,y₂,…y_n)。

优选地，所述步骤S31中，解码器的初始状态

为：

其中，tanh为激活函数，W_d为权重矩阵，b_d为偏置向量；

所述步骤S33中，注意力得分

和注意力分配/>

为：

其中，tanh为激活函数，softmax为归一化函数，v为权重向量，W_d，W_e和W_c都为权重矩阵，b_e为偏置向量，参数都可通过神经网络学习到；

是一个长度为输入长度的向量：

是之前时间节点输入第i个词的注意力权重的叠加和；加这个参数的目的是为了给注意力机制之前生成的词的信息，如果之前生成过这个词，那么后续要抑制，而抑制操作通过在loss函数加惩罚项实现：

受loss函数约束；

其中y是参考文本摘要，

是生成文本摘要，x是原文本，λ是一个可调整的参数；loss函数前半段为训练过程的损失函数，后半段为惩罚项，如果之前该词出现过，那么它的

会很大，为了减少loss，就需要/>

变小，而/>

变小意味着这个位置被注意的概率就减少。/>

所述步骤S34中，注意力分布

为：

所述步骤S35中，上下文向量x_t为：

所述步骤S36中，词汇表分布

其中，softmax为归一化函数，W_h和W_h′为权重矩阵，b_p′和b_p为偏置向量。

一种基于全局语义的文本自动摘要装置，其特征在于：包括：

预处理模块，用于将原始文本的内容进行预处理，按照字节进行划分，并对其中的大写字母替换成小写字母，得到文本信息；

编码器，用于基于卷积神经网络和自注意力机制对文本信息进行全局编码，并经过一个控制单元进行筛选，得到最终编码输出结果；

解码器，用于基于重复惩罚机制对编码输出结果进行解码，并生成文本摘要。

一种存储介质，其特征在于：其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述基于全局语义的文本自动摘要方法。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于：所述处理器执行存储器存储的程序时，实现权利要求上述基于全局语义的文本自动摘要方法。

与现有技术相比，本发明具有如下优点与有益效果：

本发明在编码器到解码器的信息流中，设置一个控制开关，它由一个卷积控制单元组成，利用卷积网络的特性在编码输出时考虑上下文语义,对信息进行筛选，不符合语义或重复词语的信息将被删除。而解码器部分，结合重复惩罚机制，进一步缓解生成词重复问题，使得生成的摘要语义更加通顺。

本发明在基于注意力机制的seq2seq模型上，构建了一种基于全局语义的自动文本摘要模型，它通过在编码器中加上卷积过滤器，并在解码器部分使用重复惩罚机制对重复词进行进一步抑制。一方面，卷积过滤器使用的是卷积神经网络，它可以提取原文本的n-gram特征，并结合自注意力机制起到对全局语义的把控，提高了摘要文本语义的通顺度。另一方面，重复惩罚机制可以对已经出现过的词的进行极大的抑制，减少了生成摘要的重复性问题从而提高生成摘要的可读性。

附图说明

图1是本发明的一种基于全局语义的文本自动摘要方法的步骤流程图；

图2是本发明编码器结构示意图；

图3是本发明编码器中的卷积控制单元结构示意图；

图4是本发明解码生成摘要词的原理图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

本实施例一种基于全局语义的文本自动摘要方法，其流程如图1所示，包括如下步骤：

S1，将原始文本的内容进行预处理，编写脚本将原始文本按照字节进行划分，并对其中的大写字母替换成小写字母，得到文本信息。

S2，将预处理后的文本信息输入到编码器，编码器基于卷积神经网络和自注意力机制对文本信息进行全局编码，并经过一个控制单元进行筛选，得到最终编码输出结果，如图2所示。

具体地说，步骤S2包括以下分步骤：

i＝0,1,2…n，n为编码信息个数。

输出结果

为：/>

其中，

为异或运算，/>

为双向LSTM网络得到的第i个文本的正向输出结果，/>

为双向LSTM网络得到的第i个文本的反向输出结果。

S22，将双向LSTM网络的输出结果

输入到卷积神经网络中，如图3所示。

卷积神经网络的结构包含三个并联的卷积层和连接在三个卷积层后的一个拼接结果层：

第三个卷积层有一个卷积核k大小为1的一维卷积单元；

gi＝ReLU(W*Hi+b)；

其中，ReLU为ReLU激活函数，W为拼接结果层的权重矩阵，b为拼接结果层的偏置矩阵。

S23，在每个时间节点t上，对卷积神经网络的输出矩阵gi进行自注意力计算，得到结果gi′。

自注意力计算公式为：

其中，Q,V都是卷积神经网络生成的表示矩阵，K＝W_aV，W_a为可学习的矩阵，softmax()为归一化函数，d_k为卷积核k的大小。

根据设定的开关/>

对该时间节点t的信息编码结果进行筛选。/>

设定的开关

为：

其中，

S3，将编码器输出结果导入解码器，解码器基于重复惩罚机制对编码输出结果进行解码，并生成文本摘要，解码器结果如图4所示。

具体地说，步骤S3包括以下分步骤：

S31，将编码器隐藏状态的最后一层

作为解码器的初始状态/>

解码器的初始状态

为：

其中，tanh为激活函数，W_d为权重矩阵，b_d为偏置向量。

S32，将原始文本在训练集中对应的人为摘要序列

中的元素/>

其中解码器使用LSTM的变体网络作为循环网络单元。

计算其与解码器隐藏状态/>

之间的注意力得分/>

和注意力分配/>

注意力得分

和注意力分配/>

为：

是一个长度为输入长度的向量：

受loss函数约束；

/>

其中y是参考文本摘要，

会很大，为了减少loss，就需要/>

变小，而/>

变小意味着这个位置被注意的概率就减少。

S34，根据注意力得分

计算状态序列h^e上的注意力分布/>

注意力分布

为：

S35，根据注意力分布

和状态序列h^e计算上下文向量x_t，计算对应的词汇表分布

上下文向量x_t为：

词汇表分布

为：

S36，根据词汇表分布

选择概率最大的词汇作为当前时间节点t解码器输出的预测摘要词y_t。

为实现本实施例基于全局语义的文本自动摘要方法，本实施例还提供了一种基于全局语义的文本自动摘要装置，包括：

实施例二

本实施例一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于全局语义的文本自动摘要方法。

实施例三

本实施例一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现实施例一所述的基于全局语义的文本自动摘要方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于全局语义的文本自动摘要方法，其特征在于：包括如下步骤：

S3，解码器基于重复惩罚机制对编码输出结果进行解码，并生成文本摘要；

所述步骤S3包括以下分步骤：

S31，将编码器隐藏状态的最后一层

作为解码器的初始状态/>

解码器的初始状态

为：

其中，tanh为激活函数，W_d为权重矩阵，b_d为偏置向量；

S32，将原始文本在训练集中对应的人为摘要序列

中的元素/>

其中解码器使用LSTM的变体网络作为循环网络单元；

i＝0,1,2…n，n为编码信息个数；计算其与解码器隐藏状态/>

之间的注意力得分/>

和注意力分配/>

注意力得分

和注意力分配/>

为：

其中，tanh为激活函数，softmax为归一化函数，v为权重向量，W_d，W_e和W_c都为权重矩阵，b_e为偏置向量；

是一个长度为输入长度的向量：

是之前时间节点输入第i个词的注意力权重的叠加和；

受loss函数约束；

其中y是参考文本摘要，

是生成文本摘要，x是原文本，λ是一个可调整的参数；

S34，根据注意力得分

计算状态序列h^e上的注意力分布/>

注意力分布

为：/>

S35，根据注意力分布

和状态序列h^e计算上下文向量x_t，计算对应的词汇表分布

上下文向量x_t为：

词汇表分布

为：

其中，softmax为归一化函数，W_h和W_h′为权重矩阵，b_p′和b_p为偏置向量；

S36，根据词汇表分布

2.根据权利要求1所述的基于全局语义的文本自动摘要方法，其特征在于：所述步骤S2包括以下分步骤：

i＝0,1,2…n，n为编码信息个数；

S22，将双向LSTM网络的输出结果

输入到卷积神经网络中，得到输出矩阵gi；

S24，基于自注意力计算后的结果gi′和双向LSTM网络的生成结果hi，根据设定的开关

对该时间节点t的信息编码结果进行筛选。

3.根据权利要求2所述的基于全局语义的文本自动摘要方法，其特征在于：所述步骤S21中，输出结果

为：

其中，

为双向LSTM网络得到的第i个文本的正向输出结果，/>

为双向LSTM网络得到的第i个文本的反向输出结果；

第三个卷积层有一个卷积核k大小为1的一维卷积单元；

gi＝ReLU(W*Hi+b)；

所述步骤S23中，自注意力计算公式为：

所述步骤S24中，设定的开关

为：

其中，

为S21得到的双向LSTM网络的输出结果，σ()为sigmoid函数，b_h为偏置向量。

4.一种基于全局语义的文本自动摘要装置，其特征在于：包括：

解码器，用于基于重复惩罚机制对编码输出结果进行解码，并生成文本摘要；

所述解码器包括以下分步骤：

S31，将编码器隐藏状态的最后一层

作为解码器的初始状态/>

解码器的初始状态

为：

其中，tanh为激活函数，W_d为权重矩阵，b_d为偏置向量；

S32，将原始文本在训练集中对应的人为摘要序列

中的元素/>

其中解码器使用LSTM的变体网络作为循环网络单元；

i＝0,1,2…n，n为编码信息个数；计算其与解码器隐藏状态/>

之间的注意力得分/>

和注意力分配/>

注意力得分

和注意力分配/>

为：

是一个长度为输入长度的向量：

是之前时间节点输入第i个词的注意力权重的叠加和；/>

受loss函数约束；

其中y是参考文本摘要，

是生成文本摘要，x是原文本，λ是一个可调整的参数；

S34，根据注意力得分

计算状态序列h^e上的注意力分布/>

注意力分布

为：

S35，根据注意力分布

和状态序列h^e计算上下文向量x_t，计算对应的词汇表分布

上下文向量x_t为：

词汇表分布

为：

S36，根据词汇表分布

5.一种存储介质，其特征在于：其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-3中任一项所述的基于全局语义的文本自动摘要方法。

6.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于：所述处理器执行存储器存储的程序时，实现权利要求1-3中任一项所述的基于全局语义的文本自动摘要方法。