CN111708877B

CN111708877B - 基于关键信息选择和变分潜在变量建模的文本摘要生成法

Info

Publication number: CN111708877B
Application number: CN202010312799.3A
Authority: CN
Inventors: 黄晓; 滕蔚; 林嘉良; 保延翔
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-05-09
Anticipated expiration: 2040-04-20
Also published as: CN111708877A

Abstract

本发明提供一种基于关键信息选择和变分潜在变量建模的文本摘要生成法，该方法在编码器和解码器之间设置关键信息选择网络，控制编码器和解码器之间信息流的传递，达到选择核心的关键信息，提高编码器效率，并且过滤掉冗余信息，减轻解码器负担。同时，关键信息选择网络选择出对生成摘要核心的关键信息，以提高注意力的权重，减轻生成摘要的词语重复问题以及缓解未登录词问题，大幅提高了生成摘要的质量。利用VAE对变分潜在变量建模，获取摘要句子深层次潜在特征。通过在KL散度项之前加一个超参数系数β对VAE损失函数进行再平衡，消除VAE在训练过程中KL散度项消失，有效防止VAE网络退化，使得模型生成更精确的摘要。

Description

基于关键信息选择和变分潜在变量建模的文本摘要生成法

技术领域

本发明涉及自然语言处理的自动文摘领域，更具体地，涉及一种基于关键信息选择和变分潜在变量建模的文本摘要生成法。

背景技术

文本摘要生成是自然语言处理中一项重要的研究任务。随着科技的发展，微博、微信公众号等社交工具兴起，现在社会已经进入到文字信息爆炸时代，人们如何能迅速从一段文字中获取有效信息已经成为一个迫切需求。自动文摘技术是指给定一段源文本，将源文本的主要内容和关键信息自动归纳，提炼出一句概括源文本内容的句子作为摘要。

自动文摘技术主要包括提取式和生成式两个方面。提取式的自动文摘是从源文本中直接抽取相关短语或者相关句子组成一个句子作为摘要。生成式的自动文摘则是根据源文本的关键信息重新生成一个新的句子作为摘要。生成式自动文摘一般都采用序列到序列模型。序列到序列模型自动生成简单的摘要，但是生成出来的摘要质量不高，一般存在着生成摘要语序混乱，存在着未登陆词和重复问题，严重影响生成摘要的质量。

发明内容

本发明提供一种编码器效率高的基于关键信息选择和变分潜在变量建模的文本摘要生成法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于关键信息选择和变分潜在变量建模的文本摘要生成法，包括以下步骤：

S1：将输入的源文本X＝{x₁,x₂,…,x_T}首先映射成随机初始化的词向量，其中T为输入文本的长度，按顺序输入Bi-GRU经过的编码；

S2：设置关键信息选择网络，选择出编码器输出中有效的关键信息内容；

S3：在解码阶段引入变分思想对变分潜在变量建模，并且对损失函数再平衡，提取摘要句子的全局潜在信息来生成摘要。

进一步地，所述步骤S1的具体过程是：

将输入的源文本X＝{x₁,x₂,…,x_T}首先映射成随机初始化的词向量，其中T为输入文本的长度，按顺序输入Bi-GRU经过的编码，Bi-GRU包括了前向传播和反向传播：

其中，h→_t为前向方向输出的隐藏层状态，h←_t为后向方向输出的隐藏层状态；

将每个时刻的两个方向的输出连接得到编码器每个时刻的隐藏层状态：

进一步地，所述步骤S2中，设置关键信息选择网络，选择出编码器输出中有效的关键信息内容。在关键信息选择网络中，根据编码阶段输出的隐藏层状态向量

和句子表征向量S设计出控制信息流的门控单元

来对原本编码器的输出隐藏层状态

进行信息选择，指定有效的信息范围，得到经过信息选择后的隐藏层变量

句子表征向量S是由编码器的前向传播的最后一个词的隐藏层状态和后向传播的第一个词的隐藏层状态拼接成一个固定长度的句子表征向量，这样拼接使得句子的关键信息压缩成一个固定的向量，S的表示如下：

其中，

为编码器的前向传播的最后一个词的隐藏层状态，

后向传播的第一个词的隐藏层状态。

进一步地，所述步骤S2中，将编码阶段输出的隐藏层状态向量

和句子表征向量S作为选择阶段的输入，计算出门控单元向量

其中，

为i时刻的编码阶段输出的隐藏层状态向量，S为句子表征向量，

和

为可训练的权重矩阵，b_s为偏置向量，sigmoid(·)是激活函数；

接下来，将编码阶段的输出

经过

进行关键信息选择，得到一个新的隐藏层状态：

其中，⊙为点积，

为i时刻的编码阶段输出的隐藏层状态向量，

为i时刻的门控单元向量。

进一步地，

的取值范围介于0和1之间；如果取值接近0，选择门将过滤掉对应隐层状态上的大部分信息；如果取值接近1，选择门将保留大部分信息，以达到对核心的关键信息的选择和无效信息的过滤。

进一步地，在解码阶段引入变分思想对变分潜在变量建模，并且对损失函数再平衡，提取摘要句子的全局潜在信息来生成摘要；解码器采用两层Bi-GRU，第一层隐藏层状态

计算方式如下：

其中，y_t-1为前一个时刻解码器的输出，

为前一个时刻第一层隐藏层状态；

通过注意力机制获取上下文语义向量C_t。利用当前时刻的第一层隐藏层状态状态

与选择阶段得到的隐藏层状态

进行匹配，计算获取各个结点隐藏层状态的注意力权重，将获得的注意力权重经过归一化，并进行加权求和得到当前时刻上下文语义向量C_t，注意力机制的计算方式如下：

其中，

和

为权重矩阵，b_a为偏置。

进一步地，所述步骤S3中，与第一层不同的是，第二层隐藏层状态

是将前一个时刻解码器的输出y_t-1、前一个时刻第二层隐藏层状态

和上下文语义向量C_t作为输入来计算：

其中，y_t-1为前一个时刻解码器的输出，

为前一个时刻第二层隐藏层状态，C_t为上下文语义向量；

变分潜在变量建模实际是一个变分编码过程，利用t时刻之前解码器的输出y_＜t和潜在变量z_＜t得到一个后验分布

并假设这个分布为正态分布。用

来近似真实的后验分布

并从

采样出潜在变量z_t，由于采样的过程不可导，采样的结果可导，为了保证模型训练，采用重构参数技巧获得新的潜在变量z_t：

其中，ε～N(0,I)为噪声变量，高斯参数μ_t和σ_t分别为变分均值和标准差。

进一步地，所述步骤S3中，在生成摘要的过程中引入句子全局潜在信息，将潜在变量z_t和第二层隐藏层状态

结合作为最终的解码器的隐藏层状态

其中，

和

为可训练的权重矩阵，

为偏置向量，tanh(·)为激活函数；

将最终解码器的隐藏层状态

经过线性变换后输入至softmax层获得目标词汇y_t的概率分布，计算方式如下：

其中，

为可训练的权重矩阵，

为偏置向量。

进一步地，通过最小化损失函数来训练模型和优化参数，损失函数由生成摘要目标词汇的负的对数似然和变分潜在变量建模时VAE的损失函数组成；生成摘要目标词汇的负的对数似然表示如下：

变分潜在变量建模时VAE的损失函数由KL散度和重构误差两部分组成：

由于VAE网络在训练时，轻视了重构误差的严重性，两个损失处于不平衡状态，这样会导致严重的KL散度项消失问题，使得VAE网络退化，因此对VAE损失函数进行再平衡，在KL散度项之前加一个超参数系数β来修复这种不平衡：

其中，，0≤β<1，最终的损失函数为：

loss＝loss_word+loss_VAE′。

与现有技术相比，本发明技术方案的有益效果是：

本发明在编码器和解码器之间设置关键信息选择网络，控制编码器和解码器之间信息流的传递，达到选择核心的关键信息，提高编码器效率，并且过滤掉冗余信息，减轻解码器负担。同时，关键信息选择网络选择出对生成摘要核心的关键信息，以提高注意力的权重，减轻生成摘要的词语重复问题以及缓解未登录词问题，大幅提高了生成摘要的质量。利用VAE对变分潜在变量建模，获取摘要句子深层次潜在特征。通过在KL散度项之前加一个超参数系数β对VAE损失函数进行再平衡，消除VAE在训练过程中KL散度项消失，有效防止VAE网络退化，使得模型生成更精确的摘要。

附图说明

图1本方法整体架构图；

图2数据预处理流程图；

图3选择门网络结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于关键信息选择和变分潜在变量建模的文本摘要生成方法，即对于给定的源文本序列X＝{x₁,x₂,…,x_T}作为输入，生成目标摘要句子Y＝{y₁,y₂,…,y_n}。方法的整体框架图如图1，总共包含三部分：编码部分，关键信息选择部分，解码部分。该方法的编码器采用双向的门控循环单元(Bidirectional-Gated Recurrent Unit,Bi-GRU)作为基本编码器对输入序列的进行建模。在编码器和解码器之间设置关键信息选择网络，控制关键信息流在编码器和解码器之间的传递。该方法的解码器由两部分组成。解码器的第一部分是GRU解码部分，采用两层Bi-GRU，第一层主要用于注意力机制权重的计算以及之后隐变量的建模；第二层则引入注意力机制的结果，用于计算并得到GRU解码部分的隐藏层的确定变量。解码器的第二部分是变分潜在变量建模部分，对第一层Bi-GRU每个时间点输出利用VAE重新构造一个隐变量作为变分变量，以挖掘句子的特征和全局信息。变分变量和确定变量共同映射成一个新变量作为整个模型最终输出的变量解码输出，生成语序通顺，语义精确的文本摘要。另外，在训练过程中通过对损失函数再平衡，消除KL散度项消失的情况，解决VAE退化问题。这里以哈工大公开的新浪微博大规模中文短文本摘要数据集(Large-scaleChinese Short Text Summarization,LCSTS)为例进行阐述。

首先进行数据预处理，如图2所示。原始LCSTS数据集是源文本-源摘要句子对这样的形式。从里边提取出源文本和源摘要，分别写入源文件和源摘要文件。源文本和源摘要都会含有一些类似于标点符号，日期等特殊字符，这里采取删除的方式进行处理。接下来将处理过的文本，以字为单位进行分词，分别构建源文本词典和源摘要词典，以字为单位的好处就是避免分词错误带来的误差。最后，采用随机初始化词向量的方法将词典里的词映射成词向量的形式，得到向量化的源文本词典和源摘要词典。

然后，根据输入的源文本内容X＝{x₁,x₂,…,x_T}，在词典里索引分别获得对应的词向量，词向量的形式按顺序输入Bi-GRU经过的编码。Bi-GRU包括了前向传播和反向传播，如下所示：

其中，

为前向方向输出的隐藏层状态，

为后向方向输出的隐藏层状态。

接下来进入关键信息选择阶段，设置关键信息选择网络，选择出编码器输出中有效的关键信息内容。在关键信息选择网络中，根据编码阶段输出的隐藏层状态向量

和句子表征向量S设计出控制信息流的门控单元

来对原本编码器的输出隐藏层状态

如图3所示。

句子表征向量S是由编码器的前向传播的最后一个词的隐藏层状态和后向传播的第一个词的隐藏层状态拼接成一个固定长度的句子表征向量。这样拼接使得句子的关键信息压缩成一个固定的向量。S的表示如下：

其中，

为编码器的前向传播的最后一个词的隐藏层状态，

后向传播的第一个词的隐藏层状态。

将编码阶段输出的隐藏层状态向量

和句子表征向量S作为输入，计算出门控单元向量

其中，

和

为可训练的权重矩阵，b_s为偏置向量，sigmoid(·)是激活函数。

接下来，将编码阶段的输出

经过

进行关键信息选择，得到一个新的隐藏层状态：

其中，⊙为点积，

为i时刻的编码器输出的隐藏层状态向量，

为i时刻的门控单元向量。

的取值范围介于0和1之间。如果取值接近0，选择门将过滤掉对应隐层状态上的大部分信息；如果取值接近1，选择门将保留大部分信息，以达到对核心的关键信息的选择和无效信息的过滤。

再接下来进入解码阶段引入变分思想对变分潜在变量建模，并且对损失函数再平衡，提取摘要句子的全局潜在信息来生成摘要。

的解码器采用两层Bi-GRU，第一层隐藏层状态

计算方式如下：

其中，y_t-1为前一个时刻解码器的输出，

为前一个时刻第一层隐藏层状态。

与选择阶段得到的隐藏层状态

进行匹配，计算获取各个结点隐藏层状态的注意力权重。将获得的注意力权重经过归一化，并进行加权求和得到当前时刻上下文语义向量C_t，注意力机制的计算方式如下：

其中，

和

为权重矩阵，b_a为偏置。

与第一层不同的是，第二层隐藏层状态

和上下文语义向量C_t作为输入来计算：

其中，y_t-1为前一个时刻解码器的输出，

为前一个时刻第二层隐藏层状态，C_t为上下文语义向量。

并假设这个分布为正态分布。用

来近似真实的后验分布

并从

采样出潜在变量z_t。由于采样的过程不可导，采样的结果可导，为了保证模型训练，采用重构参数技巧获得新的潜在变量z_t：

为了在提高生成摘要的质量，在生成摘要的过程中引入句子全局潜在信息，将潜在变量z_t和第二层隐藏层状态

结合作为最终的解码器的隐藏层状态

其中，

和

为可训练的权重矩阵，

为偏置向量，tanh(·)为激活函数。

最后，将最终解码器的隐藏层状态

其中，

为可训练的权重矩阵，

为偏置向量。

这个方法通过最小化损失函数来训练模型和优化参数，损失函数由生成摘要目标词汇的负的对数似然和变分潜在变量建模时VAE的损失函数组成。

生成摘要目标词汇的负的对数似然表示如下：

变分潜在变量建模时VAE的损失函数由KL散度和重构误差损失两部分组成：

所以最终的损失函数为：

loss＝loss_word+loss_VAE′

综上所述，本发明提供了一种基于关键信息选择和变分潜在变量建模的文本摘要生成方法。该方法基于序列到序列框架下，结合变分自编码器(Variational Auto-Encoder,VAE)和选择机制的思想对摘要句子进行建模提取摘要句子潜在特征，设计关键信息选择网络，选择有效的关键信息流进行传播。该方法主要包括编码器、关键信息选择网络和解码器。该方法的编码器采用双向的门控循环单元(Bidirectional-Gated RecurrentUnit,Bi-GRU)作为基本编码器对输入序列的进行建模。在编码器和解码器之间设置关键信息选择网络，控制关键信息流在编码器和解码器之间的传递。该方法的解码器由两部分组成。解码器的第一部分是GRU解码部分，采用两层Bi-GRU，第一层主要用于注意力机制权重的计算以及之后隐变量的建模；第二层则引入注意力机制的结果，用于计算并得到GRU解码部分的隐藏层的确定变量。解码器的第二部分是变分潜在变量建模部分，对第一层Bi-GRU每个时间点输出利用VAE重新构造一个隐变量作为变分变量，以挖掘句子的特征和全局信息。变分变量和确定变量共同映射成一个新变量作为整个模型最终输出的变量解码输出，生成语序通顺，语义精确的文本摘要。另外，在训练阶段通过对损失函数再平衡，消除KL散度项消失的情况，解决VAE退化问题。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。