CN111008277B

CN111008277B - 一种自动文本摘要方法

Info

Publication number: CN111008277B
Application number: CN201911047825.8A
Authority: CN
Inventors: 花福军; 陆文斌; 周正斌; 廖文绪; 张应福
Original assignee: Creative Information Technology Co ltd
Current assignee: Creative Information Technology Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-11-03
Anticipated expiration: 2039-10-30
Also published as: CN111008277A

Abstract

本发明公开了一种自动文本摘要方法，一种自动文本摘要方法，包括：文本预处理，建立文本字符到数字编号的映射，将文本字符转化成用于计算的向量编码；编解码器预训练，训练出能将长文本编码并解码为短文本的编解码器初始化网络；生成对抗网络优化，优化编解码网络中的编码器参数；解码器优化，当编码器优化后，重复多次训练编解码网络以优化解码器，提高生成文本的BLEU值。本发明能适应多种语言场景下的文本摘要任务，生成的摘要具有良好的可读性。

Description

一种自动文本摘要方法

技术领域

本发明涉及自然语言处理技术，特别是涉及一种自动文本摘要方法。

背景技术

互联网技术让信息的采集和传播更加快速，使人们进入了一个信息爆炸的时代。丰富多样的信息资源一方面给人们的生活带来极大便利，但海量的信息也给人们带来很大困扰，如何从互联网中数以万亿的信息中快速取得自己想要的信息，成为一件具有挑战的事情。一般来说，未经处理的原文冗余信息过多，需要花费长时间阅读，真正需要的信息被无关信息覆盖，造成用户信息获取困难。在这个信息高速增长的互联网时代，研究一种可以用于提取文本中关键信息的自动文本摘要方法，可以提高用户的信息查询效率和阅读效率，方便人们的工作和生活。

自动文本摘要，目前的方法集中在以下几个方面：

1.基于统计学的方法

基于统计学的方法，对文章进行抽取式摘要，统计学方法通过“词频”这一文本特征来进行句子的选取，文中出现频率高的词语与文章表达主题的关系相对比较密切，可以根据在文章中出现的频率计算词语权重。基于词语权重、句子的位置特征等多个文本特征结合计算出句子权重，选择权重较大的句子作为文章的摘要。

这种方法的优点算法简单，且不会破坏单个句子的可读性，但往往由多个句子组合出来的摘要整体不连贯，概括性不好。

2.基于机器学习的方法

基于传统机器学习的方法一般是通过朴素贝叶斯分类模型的新方法判定文档中的某一个句子是否应该被选取作为摘要。或者基于隐马尔可夫模型，对文档中的一些特征计算句子得分，根据句子得分生成文本摘要。或者使用线性回归模型建模生成文本摘要。

同基于统计学的方法相比，基于机器学习的方法泛化能力更强，扩展性和算法性能更好。但机器学习的方法还是从原文中抽取内容拼接成文本摘要，同样具备概括性不好的缺点。

3.基于深度学习的方法

随着计算机性能的不断增长，深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向：首先寻求文本在指定维数空间内的语义表示，然后再应用到不同的任务中。深度学习应用于文本摘要的生成，可以基于Sequence-to-Sequence模型，将卷积模型应用于对原文档进行编码，然后利用上下文之间的注意力前馈神经网络生成摘要。深度学习的方法更接近于人工的摘要方式：理解内容之后生成概括，目前效果最好，但是需要大量人工标注的样本，训练成本很高。

发明内容

本发明的目的在于实现一种自动文本摘要方法，能适应多种语言场景下的文本摘要任务，生成的摘要具有良好的可读性，同时可以提高生成文本BLEU分值。

一种自动文本摘要方法，包括：

文本预处理，建立文本字符到数字编号的映射，将文本字符转化成用于计算的向量编码；

编解码器预训练，训练出能将长文本编码并解码为短文本的编解码器初始化网络；

生成对抗网络优化，优化编解码网络中的编码器参数；

解码器优化，当编码器优化后，重复多次训练编解码网络以优化解码器，提高生成文本的BLEU值。

进一步地，所述文本预处理，包括以下步骤：

S11：获取训练集，每一条训练数据包括长文本原文和目标摘要文本；

S12:：从数据库中提取出训练集的所有文本，进行数据预处理，以字符为基本单位，去除标点符号和出现次数小于min_count的字符，其中，min_count取值为32；

S13：按字符出现的顺序依次进行编号，建立字符和数字编号的映射字典，并将字典保存到本地文件中；

进一步地，所述编解码器预训练，包括以下步骤：

S21：搭建编解码器模型，编码器采用双层双向LSTM，解码器采用双层单向LSTM，采用交叉熵误差作为loss，解码算法采用beam search算法；

S22：从全部训练集中抽取若干样本作为抽样训练集A，抽样训练集A的数量取值为全部训练集的20％；

S23：训练数据的长文本原文作为Input，目标摘要文本作为Label，文本数据通过文本预处理获得的字典由字符转换成数字编号，再转换成One-Hot向量，训练编解码器模型k个epoch，k取值为10。

S24：训练完成后，计算出训练集A所有样本的BLEU值，对于每一个样本的，BLEU值计算公式如下：

BLEU＝BP×exp(logP_n)

其中，Pn为n-gram精度分数,BP为简洁惩罚因子，c为生成的文本长度，r为有效参考语料库长度,一般取对应Label长度，计算公式如下：

进一步地，所述生成对抗网络优化包括以下步骤：

S31：搭建Wasserstein GAN，用于生成对抗网络，此处选用WGAN-div，生成对抗网络中的生成器是在上一步预训练后编解码器网络中的编码器，判别器选择加了FM层的三层全连接二分类器；

S32：以抽样训练集A中BLEU值大小排名前10％的样本通过编码器转化为特征向量后作为真实分布集合B；

S33：冻结解码器的参数。从A集合中采样数据通过编码器E得到generate data，从B集合中采样得到true data，作为输入训练WGAN-div，交替训练WGAN-div中的生成器和判别器共k个epoch，此处k取值为100，以此优化编码器E的参数；

进一步地，所述解码器优化，包括以下步骤：

S41：重新从全部训练集中抽取若干样本作为抽样训练集A，抽样训练集A的数量取值为全部训练集的20％；

S42：冻结编码器E的参数，解冻解码器D的参数，训练数据的长文本原文作为Input，目标摘要文本作为Label，文本数据通过第2步获得的字典由字符转换成数字编号，再转换成One-Hot向量，训练编解码器模型k个epoch，k一般取值为10；

S43：训练完成后，计算出训练集A所有样本的BLEU值；

S44：返回生成对抗网络优化步骤，重复N次直至训练完成；

本发明的有益效果是：

(1)添加FM层到WGAN的判别器中，可以提高判别器的学习速度和准确率，以此提高编解码模型中编码器E的性能；

(2)提出了一种新的编解码模型优化方式，增加WGAN参与到编解码器的训练过程中，此方式相对于传统的端到端训练方式效果有很好的提升，可以提高生成文本的BLEU分值；

附图说明

图1为本发明一种自动文本摘要方法的流程图。

图2为本发明一种自动文本摘要方法的编解码模型结构框图。

图3为本发明一种自动文本摘要方法的WGAN优化模型结构框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种自动文本摘要方法，包括文本预处理，编解码器预训练，生成对抗网络优化编码器，解码器优化；

所述文本预处理，用于建立文本字符到数字编号的映射，从而可以将文本字符转化成可以用于计算的向量编码；

所述编解码器预训练，用于训练出能将长文本编码并解码为短文本的编解码器初始化网络；

所述生成对抗网络优化，用于优化编解码网络中的编码器参数；

所述解码器优化，用于当编码器优化后，再次训练编解码网络以优化解码器，提高生成文本的BLEU值；

所述文本预处理，其特征在于：包括以下步骤：

S11：获取训练集，每一条训练数据由两部分组成：(1)长文本原文，(2)目标摘要文本；

S2：从数据库中提取出训练集的所有文本，进行数据预处理，以字符为基本单位，去除标点符号和出现次数小于min_count的字符，min_count一般取值为32；

S13：按字符出现的顺序依次进行编号，建立字符和数字编号的映射字典，将字典保存到本地文件中，如json格式文件，以便后续从本地读入使用；

所述编解码器预训练，其特征在于：包括以下步骤：

S21：搭建编解码器模型，编码器采用双层双向LSTM，解码器采用双层单向LSTM，以下简称编码器为E,解码器为D，采用交叉熵误差作为loss，解码算法采用beam search；

S22：从全部训练集中抽取若干样本作为抽样训练集A，抽样训练集A的数量一般取值为全部训练集的20％；

S23：训练数据的长文本原文作为Input，目标摘要文本作为Label，文本数据通过第2步获得的字典由字符转换成数字编号，再转换成One-Hot向量。训练编解码器模型k个epoch，k一般取值为10。

S4.训练完成后，计算出训练集A所有样本的BLEU值，对于每一个样本的，BLEU值计算公式如下：

BLEU＝BP×exp(logP_n)

其中Pn为n-gram精度分数,其中BP是简洁惩罚因子，c为生成的文本长度，r为有效参考语料库长度,一般取对应Label长度，计算公式如下：

所述生成对抗网络优化，其特征在于：包括以下步骤：

S1.搭建Wasserstein GAN(Wasserstein生成对抗网络)，此处选用WGAN-div。生成对抗网络中的生成器是在上一步预训练后编解码器网络中的编码器E，判别器选择加了FM层的三层全连接二分类器；

S2.以抽样训练集A中BLEU值大小排名前10％的样本通过编码器转化为特征向量后作为真实分布集合B；

S3.冻结解码器D的参数。从A集合中采样数据通过编码器E得到generate data，从B集合中采样得到true data，作为输入训练WGAN-div，交替训练WGAN-div中的生成器和判别器共k个epoch，此处k一般取值为100，以此优化编码器E的参数；

所述解码器优化，其特征在于：包括以下步骤：

S1.重新从全部训练集中抽取若干样本作为抽样训练集A，抽样训练集A的数量一般取值为全部训练集的20％；

S2.冻结编码器E的参数，解冻解码器D的参数，训练数据的长文本原文作为Input，目标摘要文本作为Label，文本数据通过第2步获得的字典由字符转换成数字编号，再转换成One-Hot向量。训练编解码器模型k个epoch，k一般取值为10；

S3.训练完成后，计算出训练集A所有样本的BLEU值；

S3.返回生成对抗网络优化步骤，重复N次直至训练完成；

如图2所示，输入一个字符序列，如(a,b,c,d,e)，依次通过编码器后转化为特征向量，将全部特征向量连接成一个序列编码特征向量，该向量是编码器提供给解码器的序列整体信息。将序列的特征向量输入解码器，解码器循环预测生成下一个字符，得到生成字符序列(Q,W,E,R),直至预测生成<e>结束标识符。

图3为本发明一种自动文本摘要方法的WGAN优化模型结构框图。如图3所示，输入一个采样自训练集的字符序列，如(a,b,c,d,e)，依次通过编码器(生成器)后转化为特征向量，将全部特征向量连接成一个序列编码特征向量，作为一次采样生成的generate data。从真实分布集合采样得到true data。将generate data和true data交替输入判别器，判别器是一个二分类器，判别当前输入的data是generate data还是true data，误差将反馈到编码器(生成器)，从而同时优化了判别器和编码器(生成器)。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种自动文本摘要方法，其特征在于,包括：

生成对抗网络优化，优化编解码网络中的编码器参数；

解码器优化，当编码器优化后，重复多次训练编解码网络以优化解码器，提高生成文本的BLEU值；

所述编解码器预训练，包括以下步骤：

S23：训练数据的长文本原文作为Input，目标摘要文本作为Label，文本数据通过文本预处理获得的字典由字符转换成数字编号，再转换成One-Hot向量，训练编解码器模型k个epoch，k取值为10；

BLEU＝BP×exp(logP_n)

其中，P_n为n-gram精度分数，BP为简洁惩罚因子，c为生成的文本长度，r为有效参考语料库长度,取对应Label长度，计算公式如下：

所述生成对抗网络优化包括以下步骤：

S33：冻结解码器的参数，从A集合中采样数据通过编码器E得到generate data，从B集合中采样得到true data，作为输入训练WGAN-div，交替训练WGAN-div中的生成器和判别器共k个epoch，此处k取值为100，以此优化编码器E的参数；

所述解码器优化，包括以下步骤：

S42：冻结编码器E的参数，解冻解码器D的参数，训练数据的长文本原文作为Input，目标摘要文本作为Label，文本数据通过文本预处理获得的字典由字符转换成数字编号，再转换成One-Hot向量，训练编解码器模型k个epoch，k取值为10；

S43：训练完成后，计算出训练集A所有样本的BLEU值；

S44：返回生成对抗网络优化步骤，重复N次直至训练完成。

2.根据权利要求1所述的一种自动文本摘要方法，其特征在于，所述文本预处理，包括以下步骤：

S12：从数据库中提取出训练集的所有文本，进行数据预处理，以字符为基本单位，去除标点符号和出现次数小于min_count的字符，其中，min_count取值为32；

S13：按字符出现的顺序依次进行编号，建立字符和数字编号的映射字典，并将字典保存到本地文件中。