CN110705313A

CN110705313A - 一种基于特征抽取和语义增强的文本摘要生成方法

Info

Publication number: CN110705313A
Application number: CN201910952077.1A
Authority: CN
Inventors: 白宇; 缪湾湾; 蔡东风
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-17
Anticipated expiration: 2039-10-09
Also published as: CN110705313B

Abstract

本发明公开一种基于特征抽取和语义增强的文本摘要生成方法，包括以下步骤：引入特征提取器，使用特征提取器获取原文的特征向量；将特征向量与编码器的输出结果分别以部分连接和全连接的方式相连，过滤噪声；使用语义增强器获取句子内部的长距离依赖，进一步加强语义关联；使用卷积神经网络对源序列进行特征提取，特征提取器直接作用在源序列的词向量，同时保持该词向量层参数与编码器的词向量层参数相同，以保证编码器的编码过程和特征提取器的特征提取过程作用于相同的语义层面。本发明使用特征提取器先提取句子的特征再进一步与编码器的结果融合，不仅有利于句子整体结构分析，而且也能过滤掉文本中的噪声，找到关键信息。

Description

一种基于特征抽取和语义增强的文本摘要生成方法

技术领域

本发明涉及一种文本摘要生成方法，具体为一种基于特征抽取和语义增强的文本摘要生成方法。

背景技术

自动文本摘要是自然语言处理(Nature Language Process，NLP)领域的主要研究任务之一，它是指将一段相对较长的文章压缩成包含文章主要内容的相对较短的版本。按照实现方式，自动文本摘要可以分为抽取式(Extractive)和生成式(Abstractive)两类。抽取式文本摘要是直接从原文中选择能表达文章关键内容的句子作为摘要，而生成式文本摘要是通过生成未在文章中出现过的新的句子来表达原文内容。可见生成式文本摘要对模型的要求更高，实现起来更复杂，因此早期的文本摘要模型都是基于抽取式的方法。随着互联网的高速发展，存在大量的文本信息，如何快速的阅读，并提取人们需要的信息成为一个亟待解决的问题，这就使如何过滤文本，找到关键变得尤为重要。最近，随着深度神经网络的发展，近期有许多基于注意力机制(Attention Mechanism)的序列到序列(Sequence-to-Sequence，Seq2Seq)的生成式文本摘要模型被提出，都取得了不错的效果。

尽管取得了这些成功，但基线模型(基于注意力机制的序列到序列模型)生成的文本摘要存在重复和关键信息丢失的问题，即其生成的结果虽然与原文中部分内容相关，但其并不是原文表述的关键信息。

发明内容

针对现有技术中序列到序列模型普遍存在的重复问题，同时也考虑到生成的文本摘要中关键信息丢失或捕获错误的问题，本发明要解决的问题是提供一种接近于人工撰写的基于特征抽取和语义增强的文本摘要生成方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于特征抽取和语义增强的文本摘要生成方法，包括以下步骤：

1)引入特征提取器，使用特征提取器获取原文的特征向量；

2)将特征向量与编码器的输出结果分别以部分连接和全连接的方式相连，过滤噪声；

3)使用语义增强器获取句子内部的长距离依赖，进一步加强语义关联。

步骤1)中引入特征提取器，使用特征提取器获取原文的特征向量为：使用卷积神经网络对源序列进行特征提取，特征提取器直接作用在源序列的词向量，同时保持该词向量层参数与编码器的词向量层参数相同，以保证编码器的编码过程和特征提取器的特征提取过程作用于相同的语义层面；

对于一个长度为s的序列，其词向量矩阵表示为W＝(w₁,w₂,…,w_S)，将其作为特征提取器第一层输入W⁰，则第l层的第j个特征图

表示为：

其中，M_j代表输入图的集合，

表示卷积核，

是一个表示偏差的标量。

步骤2)中将特征向量与编码器的输出结果分别以部分连接和全连接的方式相连为：

201)部分连接，将最后一层卷积的输出W³经过变形后连接到源序列的语义表示，即编码器的最后一个隐状态h_s，首先将特征图W³展平，得到向量F_flatten；再将展平后的向量放入一个线性函数，线性函数输出的结果即为源序列的特征向量F_partial；最后特征向量F_partial与语义表示h_s共同作用，得到源序列新的语义表示h_partial：

F_partial＝W₁F_flatten+b₀

h_partial＝W₂([F_partial,h_S])+b₁

其中，W₀、W₁、b₀、b₁均为可学习的参数；

202)全连接，将特征向量与编码器的全部隐状态H＝(h₁,h₂,…,h_s)相连，

首先对最后一层卷积输出的特征图W³按列切分，则特征向量F_full表示为F_full＝(f₁,f₂,…,f_s)，其中f_i代表输入序列中第i个元素的特征向量；再将每一个特征向量f_i和对应的编码器隐状态h_i依次相连，得到新的编码器隐状态H′＝(h′₁,h′₂,…,h′_S)：

H′＝W₀([F_full,H])+b₂

其中，W₀是权重矩阵，b₂为一个标量。

步骤3)使用语义增强器获取句子内部的长距离依赖，进一步加强语义关联为：

设置一个基于自注意力机制的语义增强器以捕获句子的长距离依赖，进一步加强语义关联减少重复；

对注意力机制的计算过程做如下描述：给定一个查询query，该查询与每个键值key进行相似度比较，计算得到相应的权重；

对各个键值对应的值value进行归一化的加权求和，得到注意力向量。

查询query、键值key和value分别被封装成矩阵Q，K和V，同时计算整个序列的注意力向量；

当上述过程中的Q，K和V相同时，即为自注意力向量的计算过程，采用以下公式实现：

其中，d_k表示隐状态的维度，当采用部分连接时，Q，K，V三者都是编码器的全部隐状态H；当采用全连接时，Q，K，V三者都是由特征向量F_full和隐状态H连接后得到的新隐状态H′。

本发明具有以下有益效果及优点：

1.本发明使用特征提取器先提取句子的特征再进一步与编码器的结果融合，不仅有利于句子整体结构分析，而且也能过滤掉文本中的噪声，找到关键信息。

2.本发明中句子的可读性也是文本摘要的一个重要评价指标，为解决重复问题提到句子流畅度，在特征提取后又引入语义增强器提高语义关联减小重复。因此，引入特征提取和语义增强可以有效的改进文本摘要的生成结果。

3.本发明提出一种引入特征提取器和语义增强器的文本摘要模型，该模型是由一个基于卷积神经网络的特征提取器和一个基于自注意力机制的语义增强器组成，旨在通过提取句子特征过滤噪声，以更精准地捕获关键信息，再应用语义增强器寻找句子长距离依赖，提高语义关联。

4.本发明在自动文本摘要ROUGE分值上都获得了一定的提升，相比于基线系统，部分连接模型的ROUGE-1、ROUGE-2和ROUGE-L分别提高了3.8、3.8和3.7，全连接模型的ROUGE-1、ROUGE-2和ROUGE-L分别提高了3.5、4.2和4.1，通过本发明方法生成的文本摘要相比于抽取式的方法，更灵活，生成的摘要也更具多样性，更接近于人工撰写的摘要。

附图说明

图1为本发明涉及的部分连接模型结构图；

图2为本发明涉及的全连接模型结构图；

图3为本发明涉及的相关度评分箱线图；

图4为发明涉及的n-gram重复比例图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

1)引入特征提取器，使用特征提取器获取原文的特征向量；

基于注意力机制的序列到序列模型是基于编码-解码(Encoder-Decoder)结构的神经网络生成模型，编码器先将输入序列转化成一个固定长度的语义表示，解码器再根据该语义表示，解码输出结果。本发明选用长短时记忆网络(Long Short Term Memory，LSTM)作为模型的基本单元，其中编码器为双向LSTM，解码器为单向LSTM。对于源序列x＝(x₁,x₂,…,x_s)，编码器依次根据当前的输入x_i和前一时刻的隐状态h_i-1计算得到当前时刻的隐状态h_i，直到将源序列全部编码完成。选用编码器的最后一个隐状态h_s作为源序列的语义表示，解码器根据该语义表示解码生成目标序列y＝(y₁,y₂,…,y_T)。

对于解码过程的每个时间步t，解码器根据前一步的输出y_t-1和前一步的隐状态s_t-1计算得到当前步的隐状态s_t。由s_t和源序列隐状态(h₁,h₂,…,h_S)的共同作用得到注意力权重α_t，使用α_t对(h₁,h₂,…,h_S)进行加权求和得到注意力向量c_t。注意力向量c_t的计算过程如式下。

α_t,i＝softmax(e_t,i)

其中，W_a表示权重矩阵。注意力向量的引入使得解码时可以根据当前输入关注到原文的不同位置，将其与解码器隐状态s_t进行连接，根据连接结果得到目标词y_t的概率分布P_vocab：

P_vocab＝softmax(f([s_t,c_t]))

其中，f(.)是一个非线性函数，P_vocab是一个基于目标词表的概率分布。解码器依据该分布递归地生成下一个词，直到遇到句子的结束标志。

本发明针对序列到序列模型普遍存在的重复和信息获取不准确的问题，引入了特征提取器和语义增强器，其中，特征提取器是一个3层的卷积神经网络(ConvolutionNeural Network，CNN)，语义增强器使用的是自注意力(Self-Attention)机制。首先，使用特征提取器获取原文的特征向量。再将该特征向量连接到编码器的输出，以达到过滤噪声的目的，从而实现对原文更精准地编码。关于特征向量与编码器输出的连接，本发明尝试了两种连接方式，分别为部分连接和全连接。为进一步加强语义关联，最后使用语义增强器获取句子内部的长距离依赖。

本发明使用一个3层的卷积神经网络对源序列进行特征提取，以缓解社交媒体文本中的噪声给编码过程带来的困难。特征提取器直接作用在源序列的词向量，同时保持该词向量层参数与编码器的词向量层参数相同，以保证编码器的编码过程和特征提取器的特征提取过程作用于相同的语义层面。对于一个长度为s的序列，其词向量矩阵可表示为W＝(w₁,w₂,…,w_s)，将其作为特征提取器第一层输入W⁰，则第l层的第j个特征图可表示为：

其中，M_j代表输入图的集合，

表示卷积核，是一个表示偏差的标量。*对应MATLAB中“same”的边界处理方式，即每次卷积过程保证输出特征图的尺寸与输入特征图的尺寸相同。最后一层卷积的输出特征图W³即为输入源序列的特征提取结果，将其连接到编码器的输出，以辅助解码器进行精准地解码。本发明采用了两种不同的连接方式，部分连接和全连接。

如图1所示，部分连接是将最后一层卷积的输出W³经过变形后连接到源序列的语义表示，即编码器的最后一个隐状态h_s。首先将特征图W³展平，得到向量F_flatten，再将展平后的向量放入一个线性函数，线性函数输出的结果即为源序列的特征向量F_partial。最后特征向量F_partial与语义表示h_s共同作用，得到源序列新的语义表示h_partial：

F_partial＝W₁F_flatten+b₀

h_partial＝W₂([F_partial,h_s])+b₁

其中，W₀、W₁、b₀、b₁都为可学习的参数。

如图2所示，全连接是将特征向量与编码器的全部隐状态H＝(h₁,h₂,…,h_s)相连。首先对最后一层卷积输出的特征图w³按列切分，则特征向量F_full可表示为F_full＝(f₁,f₂,…,f_s)，其中f_i代表输入序列中第i个元素的特征向量。再将每一个特征向量f_i和对应的编码器隐状态h_i依次相连，得到新的编码器隐状态H′＝(h′₁,h′₂,…,h′_s)：

H′＝W₀([F_full,H])+b₂

其中，w₀是权重矩阵，b₀为一个标量。

关键信息获取不准确和重复是序列到序列模型的共性问题(如表1所示)，虽然引入注意力机制后会在一定程度上缓解该问题，但并没有得到很好的解决。

表1：摘要生成结果

本发明在特征提取后又设置了一个基于自注意力机制的语义增强器以捕获句子的长距离依赖，从而进一步加强语义关联减少重复。自注意力机制的计算过程与一般注意力机制的计算过程类似，对注意力机制的计算过程做如下描述：给定一个查询query，该查询与每个键值key进行相似度比较，计算得到相应的权重，最后对各个键值对应的值value进行归一化的加权求和，得到注意力向量。在实际应用中，query，key和value分别被封装成矩阵Q，K和V，使得整个序列的注意力向量可以同时计算，以提高运算速度。当上述过程中的Q，K和V相同时，即为自注意力向量的计算过程。本发明选用缩放点乘注意力(Scaled Dot-Product Attention)计算自注意力向量：

其中，d_k表示隐状态的维度。在本发明中，当采用部分连接时，Q，K，V三者都是编码器的全部隐状态H。当采用全连接时，Q，K，V三者都是由特征向量F_full和隐状态H连接后得到的新隐状态H′。

模型训练过程：

给定一个由N个句子对组成的训练数据和参数θ，其中

和

分别代表原文和摘要。则训练过程是不断调整参数θ，使生成y_i的条件概率不断增大的过程。生成摘要表示为

则模型的损失函数如下：

其中，θ是网络模型中的参数；P为在条件

下生成的y_i,t概率。

本实施例一个完整应用示例如下：

原文：昨天下午，江苏扬州一女白领走在路上突然倒地不起，送医抢救无效死亡。医生介绍，女子初步诊断为爆发性心肌炎，发病可能与平日休息不好有关系。医生提醒，年轻人不要仗着年轻力壮总熬夜，多喝水、清淡饮食，要尽量保证充足的睡眠。

摘要：扬州女白领路上猝死疑因熬夜多引发心肌炎

本发明方法针对中文文本摘要的生成任务。本实施例中，实验语料来自新浪微博的中文社交媒体文本摘要。数据集包含了240万真实的中文文本数据和每个文本作者给出的摘要。数据集由3部分组成，第一部分包含2,400,591对数据，第二部分包含10,666对数据，第3部分包含1,106对数据。其中第二部分和第三部分带有人工标注，依据摘要和原文的相关程度评1～5分，分数越高，代表两者之间的相关程度越高。

图3中，为了证实模型捕获关键信息的能力，采用人工评价的方法对生成的摘要进行打1-5分，分数越高表示语义越相关。为防止不同人对原文中关键信息理解不同，在评价时直接选用参考答案作为打分标准。3个人对同样的文档分别对参考答案与基线模型和参考答案与本发明中的模型结果进行评分，最后通过计算平均值，得到每个句子的最终评分。对评分结果进行统计，画出箱线图。

图3中实线表示平均数，虚线为中位数。从中可以看出，对比基线模型，本发明模型的结果有明显的提升。基线模型的分数集中分布在2-3分，其中1-2的比例也较高。结果中1-2明显减少，同时4-5所占的比例也有明显的提高。由此说明，本发明模型提高了关键信息捕获的精确性。

如表2所示，实验结果表明，本专利在自动文本摘要ROUGE分值上都获得了一定的提升，相比于基线系统，部分连接模型的ROUGE-1、ROUGE-2和ROUGE-L分别提高了3.8、3.8和3.7(将该模型的结果减去基线(Baseline)模型的结果)，全连接模型的ROUGE-1、ROUGE-2和ROUGE-L分别提高了3.5、4.2和4.1，通过本发明方法生成的文本摘要相比于抽取式的方法，更灵活，生成的摘要也更具多样性，更接近于人工撰写的摘要。

表2：实验结果

在句子级别统计了句子中1-gram～4-gram重复所占的比例，并画出柱状图，如图4所示)。n-gram重复比例图是在句子级别统计了句子中1gram～4-gram重复所占的比例，其中纵坐标表示重复所占的百分比。从图4中看出，模型生成的摘要重复率明显低于基线模型，同时与参考答案的重复率相近。

Claims

1.一种基于特征抽取和语义增强的文本摘要生成方法，其特征在于包括以下步骤：

1)引入特征提取器，使用特征提取器获取原文的特征向量；

2.根据权利要求1所述的基于特征抽取和语义增强的文本摘要生成方法，其特征在于步骤1)中引入特征提取器，使用特征提取器获取原文的特征向量为：使用卷积神经网络对源序列进行特征提取，特征提取器直接作用在源序列的词向量，同时保持该词向量层参数与编码器的词向量层参数相同，以保证编码器的编码过程和特征提取器的特征提取过程作用于相同的语义层面；

对于一个长度为s的序列，其词向量矩阵表示为w＝(w₁，w₂，…，w_s)，将其作为特征提取器第一层输入W⁰，则第l层的第j个特征图