CN111061861B

CN111061861B - 一种基于XLNet的文本摘要自动生成方法

Info

Publication number: CN111061861B
Application number: CN201911277060.7A
Authority: CN
Inventors: 尚凡华; 沈雄杰; 刘红英; 张怀宇; 陈孙虎; 王钟书
Original assignee: Xi'an Elloman Digital Technology Co ltd
Current assignee: Xi'an Elloman Digital Technology Co ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-09-01
Anticipated expiration: 2039-12-12
Also published as: CN111061861A

Abstract

本发明公开了一种基于XLNet的文本摘要自动生成方法，主要解决文本摘要自动生成过程中，句子流畅性和准确性不高的问题。其实现过程是：获取成对的文本、摘要数据，构建训练集；构建一个包含所有常见词汇和字符的词典；用预训练的XLNet作为编码器，Transformer‑XL作为解码器搭建主干网络；将训练集中的文本数据进行分词并编码为向量，得到网络输入，微调网络；将测试文本分词、编码后送入训练好的网络N中，得到摘要结果。本发明生成的摘要的具有较好的准确性和语言流畅性，具有一定的实用价值。

Description

一种基于XLNet的文本摘要自动生成方法

技术领域

本发明属于文本处理技术领域，具体涉及一种基于XLNet的文本摘要自动生成方法。

背景技术

随着计算机信息技术的飞速发展，互联网上的文本信息正以指数级的速度爆炸式增长。在这个效率至上的社会，如何从这巨大的信息海洋中获得快速获取我们所需要的信息变得至关重要。因此，近年来自动文本摘要逐渐成了自然语言处理领域的研究热点，该技术旨在利用计算机自动地提取文本重要信息、压缩文章内容从而提高用户获取信息的效率，在新闻网站、搜索引擎、业务分析、市场评估等许多领域都有非常大应用前景。

自动摘要生成的方法主要可分为两种：抽取式和生成式。前者通过提取文档中存在的关键词或关键句生成摘要，后者挖掘文本的抽象语义表示，并使用自然语言生成方法来生成。目前，抽取式已经比较成熟，但是抽取质量及内容的流畅度却差强人意。

伴随着深度学习的研究，生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型，它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的RNN(Recurrent Neural Network)组成，负责把原文编码为一个向量；解码器负责从这个向量中提取信息，获取语义并生成文本摘要。但是由于长距离依赖问题的存在，基于RNN的生成式模型往往很难处理长文本摘要。另外，RNN的递归机制使得它无法并行计算，从而限制了生成摘要的速度。

2017年6月，Google团队提出了一种完全基于注意力机制的网络模块Transformer，它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(Bidirectional Encoder Representations from Transformers)横空出世，横扫各大排行榜，并引领一股预训练加微调的迁移学习热潮。但是Transformer仍然不够完美，在语言建模中仍然受到固定长度上下文的限制。针对此问题，Dai等人引入了段间循环机制，并将绝对位置编码改为相对位置编码，提出了Transformer-XL。实验表明，Transformer-XL可以学习到比RNN多80％，比Transformer多450％的距离依赖关系，而且速度更是Transformer的1800多倍。随后，基于Transformer-XL构建的XLNet在各项任务的表现都超越了Bert，成为了目前性能最好的自然语言处理模型。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于XLNet的文本摘要自动生成方法，获取成对的文本、摘要数据，构建训练集；构建一个包含所有常见词汇和字符的词典；用预训练的XLNet作为编码器，Transformer-XL作为解码器搭建主干网络；将训练集中的文本数据进行分词并编码为向量，得到网络输入，微调网络；将测试文本分词、编码后送入训练好的网络N中，得到摘要结果。

本发明采用以下技术方案：

一种基于XLNet的文本摘要自动生成方法，包括以下步骤：

S1、获取成对的文本、摘要数据，构建训练集T；

S2、构建一个包含所有常见词汇和字符的词典D；

S3、用预训练的XLNet作为编码器，Transformer-XL作为解码器构建主干网络N；

S4、将训练集T中的文本数据进行分词并编码为向量，得到网络输入E_S，微调网络N；

S5、将测试文本分词、编码后送入训练好的网络N中，并使用Beam Search算法，得到最终的摘要结果。

具体的，步骤S2中，词典D中每一行为一个词或字符。

具体的，步骤S3具体为：

S301、搭建编码器网络XLNet，设定网络最大输入长度L_in为512，并使用公开的预训练权重初始化XLNet；

S302、用4层的Transformer-XL模块作为解码器，设定Transformer-XL的最大输出长度L_out为512。

具体的，步骤S4具体为：

S401、将训练集文本S分词处理得到词组S₁、S₂...S_m，S_i表示输入文本的第i个词，m表示S的长度；

S402、根据词组中每个词S_i在词典D中的行数得到字符编码并拼接在一起得到字符编码/>然后按照Transformer-XL的处理方式分别得到句子编码向量/>和相对位置编码向量/>最后通过求和得到最终的输入向量E_S；

S403、将E^S输入网络，并使用交叉熵损失函数训练网络，微调网络参数。

进一步的，步骤S401中，若m小于网络最大输入长度L_in，则使用特殊字符#填补至最大长度；若m大于最大输入长度L_in，则截去多余的词。

更进一步的，步骤S402中，最终的输入向量E_S为：

更进一步的，句子编码向量为：

相对位置编码向量为：

字符编码为：

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于XLNet的文本摘要自动生成方法，利用XLNet作为编码器，相比RNN和Bert具有更好的语言表征能力，更易于处理长文本中的长距离依赖问题；通过加载预训练模型，引入了外部语料信息，减少了网络对大数据的依赖；提出的网络结构具有很好的可并行性，并且相比Bert具有更快的前向推导速度。

进一步的，以预训练XLNet作为编码器的好处：相比RNN和Bert具有更好的语言表征能力，更易于处理长文本中的长距离依赖问题；通过加载预训练模型，引入了外部语料信息，减少了网络对大数据的依赖。

综上所述，本发明提出的基于XLNet的自动摘要生成算法能更好的处理长文本，并能生成更为准确、流畅的摘要。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的总流程图。

具体实施方式

本发明提供了一种基于XLNet的文本摘要自动生成方法，主要解决文本摘要自动生成过程中，句子流畅性和准确性不高的问题。其实现过程是：获取成对的文本、摘要数据，构建训练集；构建一个包含所有常见词汇和字符的词典；用预训练的XLNet作为编码器，Transformer-XL作为解码器搭建主干网络；将训练集中的文本数据进行分词并编码为向量，得到网络输入，微调网络；将测试文本分词、编码后送入训练好的网络N中，得到摘要结果。本发明生成的摘要具有较好的准确性和语言流畅性，具有一定的实用价值。

实施过程主要包括两个步骤：用成对的文本、摘要数据(大约2W条短新闻和对应摘要)训练网络；然后，使用训练好的模型对新数据进行测试。

请参阅图1，本发明一种基于XLNet的文本摘要自动生成方法，包括以下步骤：

S1、获取成对的文本、摘要数据，构建训练集T；

S2、构建一个包含所有常见词汇和字符的词典D，每一行为一个词(或字符)；

S301、搭建编码器网络XLNet，设定网络最大输入长度(最大单词数)L_in为512，并使用公开的预训练权重初始化XLNet；

S302、用4层的Transformer-XL模块作为解码器，设定Transformer-XL的最大输出长度(最大单词数)L_out为512；

S401、将训练集文本S分词处理得到词组S₁、S₂...S_m，其中S_i表示输入文本的第i个词，m表示S的长度。

若m小于网络最大输入长度L_in，则使用特殊字符“#”填补至最大长度。若m大于最大输入长度L_in，则截去多余的词；

S402、根据词组中每个词S_i在词典D中的行数得到字符编码并拼接在一起得到/>然后按照Transformer-XL的处理方式分别得到句子编码向量/>和相对位置编码向量最后通过求和得到最终的输入向量

S403、将E^S输入网络，并使用交叉熵损失函数训练网络，微调网络参数；

S5、用训练好的网络对测试样本进行摘要生成。

在测试本地样本时，将其分词、编码后送入训练好的网络N中，并使用Beam Search算法，即得到最终的摘要结果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一种基于XLNet的文本摘要自动生成方法，为了说明本发明的有效性和适应性，实验所使用的数据集来自于公开文本摘要数据集LCSTS(A Large Scale ChineseShort Text Summarization Dataset)，并随机抽选其中的2W条短新闻和对应摘要作为训练集，1W条新闻作为测试集。按照本发明提出的方法进行训练和测试后得到测试结果。为定量分析本方法的有效性，本发明使用文本摘要任务常用评价指标Rouge-1、Rouge-2、Rouge-L对测试结果进行了评估，并与基准方法RNN做了对比。

表一本发明与基准方法RNN实验结果对比

方法	Rouge-1	Rouge-2	Rouge-L
				RNN	0.220	0.142	0.228
本发明	0.319	0.151	0.291

通过实验结果可以看出本发明文本摘要生成任务能达到比较满意的效果，同时，在各项指标上均超过基准方法。

综上所述，本发明使用预训练的XLNet作为编码器，有效的引入了外部语料，减少了网络对大数据的依赖，并依靠XLNet强大的语言表征能力和超长上下文建模能力，使得生成的摘要更加准确、流畅。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于XLNet的文本摘要自动生成方法，其特征在于，包括以下步骤：

S1、获取成对的文本、摘要数据，构建训练集T；

S2、构建一个包含所有常见词汇和字符的词典D；

S4、将训练集T中的文本数据进行分词并编码为向量，得到网络输入E_S，微调网络N，具体为：

S401、将训练集文本S分词处理得到词组S₁、S₂...S_m，S_i表示输入文本的第i个词，m表示S的长度，若m小于网络最大输入长度L_in，则使用特殊字符#填补至最大长度；若m大于最大输入长度L_in，则截去多余的词，最终的输入向量E_S为：

句子编码向量为：

相对位置编码向量为：

字符编码为：

2.根据权利要求1所述的基于XLNet的文本摘要自动生成方法，其特征在于，步骤S2中，词典D中每一行为一个词或字符。

3.根据权利要求1所述的基于XLNet的文本摘要自动生成方法，其特征在于，步骤S3具体为：