CN112765345A

CN112765345A - 一种融合预训练模型的文本摘要自动生成方法及系统

Info

Publication number: CN112765345A
Application number: CN202110088451.5A
Authority: CN
Inventors: 邓维斌; 李云波; 胡峰; 王崇宇; 朱坤; 彭露
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-07

Abstract

本发明涉及一种融合预训练模型的文本摘要自动生成方法及系统，属于文本摘要自动生成技术领域。该系统在传统Sequence‑to‑Sequence模型和Transformer框架的基础上，使用BERT作为编码器来获取原始文本的上下文语义特征，同时加入卷积神经网络作为门控，对特征向量进行关键词和关键短语的筛选。在解码器阶段使用Transformer Decoder的基础上，增加了指针机制，使得摘要生成模型能够更好地解决生成过程中遇到的词汇不足OOV问题，从而提高生成摘要的可读性，最后生成阶段采用beam search的方法生成最好的摘要法律文本。

Description

一种融合预训练模型的文本摘要自动生成方法及系统

本发明属于文本摘要自动生成技术领域，涉及一种融合预训练模型的文本摘要自动生成方法及系统。

背景技术

随着互联网上大量的文本内容，新闻，论文，法律文件等各种文档以指数形式增长，自动文本摘要变得越来越重要。人工摘要需要耗费大量的时间、精力和成本，在文本内容庞大的情况下变得不切实际，因此，对各类文本进行一个“降维”处理显得非常必要。

文本摘要是自然语言处理以及自然语言生成的重要任务，其目的是使用抽取或生成的方式获取给定文档的简短版本，同时保留给定文档的显著信息。当前的自动摘要方法要么是抽取式的、生成式的，要么是混合的。抽取摘要方法选择输入文档中最重要的句子，然后将它们连接起来形成摘要。生成式摘要方法通过编码器分析文本语义，然后使用解码器生成能够表达文本中心思想的摘要。混合摘要方法结合了抽取式方法和生成式方法。尽管已经存在各种方法，但生成的摘要仍然离人工书写的摘要相距甚远。目前抽取式摘要方法技术比较成熟，也在业界被方法的使用，抽取的摘要文本在语法、句法、流畅性和保存更加完整的原始信息上有一定保证。但是，在句子之间的流畅性和文本的冗余信息还存在不足。

随着大规模数据集的出现，计算机硬件新能的提升，同时，深度学习的研究发展，生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型，它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的RNN(Recurrent Neural Network)或者CNN(Convolutional Neural Network)组成，负责把原文编码为一个向量；解码器负责从这个向量中提取信息，获取语义并生成文本摘要。但是由于长距离依赖问题的存在，基于RNN或者CNN的生成式模型往往很难处理长文本摘要。

2018年，预训练模型BERT(Bidirectional Encoder Representations fromTransformers)横空出世，并横扫了各种自然语言理解任务中的排行榜。BERT基于Transformer模型构建，有着Transformer模型在于可以学习文本中长距离依赖关系和全局语义信息的优点，同时通过预训练加微调，在语义理解方面达到更优。

发明内容

有鉴于此，本发明的目的在于提供一种融合预训练模型的文本摘要自动生成方法及系统，该系统获取成对的文本和摘要数据，构建训练集，使用BERT自带的词表构建序列token，用预训练BERT作为编码器，使用卷积神经网络构建卷积门控单元，对BERT的输出进行关键短语的筛选，使用Transformer的Decoder作为预训练文本摘要自动生成模型的编码器，同时，加入指针机制和beam search算法生成最优摘要结果。

为达到上述目的，本发明提供如下技术方案：

一种融合预训练模型的文本摘要自动生成方法及系统，其特征在于：该方法包括以下步骤：

S1、获取法律文本数据集，构建法律文本的训练数据集合T并对数据集进行预处理；

S2、对法律文本进行语句的筛选；

S3、将训练集利用BERT自带的字表进行分字并编码为向量，得到网络的输入序列；

S4、用预训练BERT作为编码器，使用卷积神经网络构建门控单元，对BERT的输出进行关键短语的筛选；使用Transformer的Decoder部分和指针生成网络作为模型的编码器；

S5、将测试文本分字并编码后，放入已经训练好的网络模型，使用Beam Search算法进行摘要生成，最终得到法律文书摘要结果。

可选地，步骤S1中预处理包括提取文本信息，清除特殊字符，将数据集以summarization-article的数据对形式整理并切分为训练集和测试集。

可选地，步骤S2具体为：使用正则表达式的方式对法律文本进行语句的筛选，筛选包含有关键信息的句子，过滤对于摘要没有贡献的句子。

可选地，步骤S3具体为：

S31、将训练集文本S分字处理得到词组S₁、S₂…S_m，S_i表示输入文本的第i个字，m表示S的长度，若m小于网络最大输入长度512，则使用特殊字符‘PAD’填补至最大长度；若m大于最大输入长度512，则截去多余的字符；

S32、根据词组中每个词S_i在词典D中的行数得到字符编码E_token，并拼接在一起的字符编码E_position，然后按照Transformer的处理方式分别得到句子编码向量E_sentence和相对位置编码向量E_position，最后通过求和得到最终的输入向量E_s为

字符编码为：

句子编码向量

为：

相对位置编码向量

为：

S33、将E_s输入网络，并使用交叉墒损失函数训练网络。

可选地，步骤S4具体为：

S41、搭建编码器网络BERT，设定网络的最大输入长度为512字符，并使用公开的预训练权重初始化BERT，下载BERT-chinese-wwm作为预训练语料；

S42、卷积门控单元包括一个inception结构的CNN和self-attention机制，用于解决模型生成的摘要会出现字词重复、语义不对应、语法错误和不能反映原文本的主要内容；

S43、利用12层Transformer Decoder模块作为模型的解码器，设定Transformer的最大输出长度为130字符；

S44、使用改进的基于RNN的指针生成器，作为本次模型的生成器。

可选地，步骤S42具体为：

(1)CNN使用inception的结构，卷积核的参数共享使模型能够提取某些类型的特征，与图像局部特征相似，文本信息也有局部或者n-gram的特征；

CNN提取句子中的这些共同特征，或者文本的上下文语义关系；模型使用1核，3核和5核分别提取1-gram、3-gram和5-gram的特征，并把三个特征拼接起来或者最终的特征；

(2)在卷积模块的输出部分，加入self-attention，使得模型能够进一步学习每一个时间步的token与其它时间步的token的关系，为了减少计算量，使用点乘的方式去表示每个时间步的信息和全局信息之间的关联：

其中Q和V是CNN的输出，K＝W_attV，其中W_att是一个可学习的参数矩阵；

(3)CNN和self-attention机制共同组合成卷积门控单元g，在每个时间步骤的g_i：

g_i＝ReLU(W[h_i-k/2，…，h_i+k/2]+b)

其中，ReLU是指线性整流函数，先调用CNN做局部特征信息的提取，和使用ReLU函数生成一个新的输出结果，然后调用self-attention机制获取全局的相关性，将它们的输出结果用矩阵表示，再调用Sigmoid函数设置为一个门控，门控的值在0到1之间，0表示移除信息，1表示保留信息。

可选地，步骤S44具体为：

指针生成器是基于RNN的结构设计，所以生成概率p_gen、RNN的解码器中的隐藏状态s_t和上下文语义向量

与解码器的输入y_t有关：

其中，

和标量b_gen均为学习的参数，σ函数时Sigmoid函数；

由于RNN与BERT和transformer的结构不相同，将编码器的输出结果作为语义向量

解码器的输出结果作为隐藏状态s_t；

复制机制将上下文向量、当前时刻解码器状态和当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用Sigmoid函数获得生成单词来源的开关p_gen，0＜p_gen＜1，将p_gen与词汇标概率分布相乘，(1-p_gen)与注意力分布相乘，并将两个相乘的结果相加到最终的词汇表概率分布：

根据最终词汇表概率分布使用beam search在每一时刻输出若干概率较高的字，并将这些字作为输入，使得解码器生成下一刻的字，直到生成结束字符<SEP>或者达到最大限制摘要文本长度；模型生成摘要结束后，从候选的句子中选择质量最高的句子作为最终生成摘要。

可选地，该系统包括数据集构建与预处理模块、基于正则表达式的句子抽取模块、网络输入模块、融合预训练模型的文本摘要网络模块和测试文本自动生成摘要模块；

该数据集构建与预处理模块与基于正则表达式的句子抽取模块信号连接；

该基于正则表达式的句子抽取模块与网络输入模块信号连接；

该网络输入模块与融合预训练模型的文本摘要网络模块信号连接；

该融合预训练模型的文本摘要网络模块与测试文本自动生成摘要模块信号连接。

本发明的有益效果在于：

1、本发明利用BERT作为编码器，相比RNN和CNN具有更好的理解文本上下文语义信息的能力，同时能够继承transformer的不依赖过去隐藏状态来捕获对先验单词的依赖性的优点；

2、通过使用BERT、Transformer和指针生成器，使得模型结构具有很好的并行计算能力，能够减少训练时间，减少由于长期依赖性而导致的性能下降；

3、另外，使用卷积门控单元，解决模型生成的摘要会出现字词重复，语义不对应，语法错误，不能反映原文本的主要内容等问题，保证输入的摘要具有通顺的语义。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的流程示意图；

图2为模型输入示意图；

图3为本发明的结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，为一种融合预训练模型的文本摘要自动生成方法及系统。

本发明属于文本摘要自动生成技术领域，涉及基于BERT预训练模型和卷积神经网络自动摘要模型，是指在给定法律文本的条件下，利用训练产生的模型自动生成简短摘要。该模型在传统Sequence-to-Sequence模型和Transformer框架的基础上，使用BERT作为编码器来获取原始文本的上下文语义特征，同时加入卷积神经网络作为门控，对特征向量进行关键词和关键短语的筛选。在解码器阶段使用Transformer Decoder的基础上，并增加了指针机制，使得摘要生成模型能够更好地解决生成过程中遇到的词汇不足OOV问题，从而提高生成摘要的可读性，最后生成阶段采用beam search的方法生成最好的摘要法律文本。

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于预训练的文本摘要自动生成方法，获取成对的文本、摘要数据，构建训练集；使用BERT自带的词表构建序列token；用预训练BERT作为编码器；使用卷积神经网络构建卷积门控单元，对BERT的输出进行关键短语的筛选；使用Transformer的Decoder作为预训练文本摘要自动生成模型的编码器，同时，加入指针机制和beam search算法生成最优摘要结果。

本发明采用以下技术方案：

一种融合预训练的文本摘要自动生成方法，该方法包括以下步骤：

S2、对法律文本进行语句的筛选；

S3、将训练集利用预训练模型BERT自带的字表进行分字并编码为向量，得到网络的输入序列；

S4、用预训练模型BERT作为编码器，使用卷积神经网络构建门控单元，对预训练模型BERT的输出进行关键短语的筛选；使用Transformer的Decoder部分和指针生成网络作为模型的编码器；