CN113128214B

CN113128214B - 一种基于bert预训练模型的文本摘要生成方法

Info

Publication number: CN113128214B
Application number: CN202110287084.1A
Authority: CN
Inventors: 文凯; 周玲玉; 杨航; 王宗文
Original assignee: Chongqing Information Technology Designing Co ltd; Chongqing University of Post and Telecommunications
Current assignee: Chongqing Information Technology Designing Co ltd; Chongqing University of Post and Telecommunications
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-05-06
Anticipated expiration: 2041-03-17
Also published as: CN113128214A

Abstract

本发明请求保护一种基于BERT预训练模型的文本摘要生成方法。该方法包括：将中文短本文数据集进行预处理；利用BERT双向编码特性能更好地获取全局信息，将数据送入BERT预训练模型中进行训练；将实际需要获得摘要的原文本输入BERT预训练模型，使用训练好的参数进行训练，获得最佳词向量；将得到的高质量字向量送入改进后的LeakGAN模型；文本在改进的LeakGAN中进行训练，最终得到摘要输出。本发明使生成器生成更加准确的摘要，提高了摘要的准确性和流畅性。

Description

一种基于BERT预训练模型的文本摘要生成方法

技术领域

本发明属于自然语言处理文本生成领域，涉及一种基于BERT预训练模型的摘要生成方法。

背景技术

随着时代的进步及信息技术的发展，互联网已经成为人类生活中越来越重要的社交、娱乐乃至工作平台，是人们获取各种知识资源的主要渠道。互联网越来越成为人们生活必不可少的一部分，并且渗透到生活的方方面面。

然而，互联网在为人类提供方便快捷服务的同时，也带来了不可避免的信息过载问题。随着信息数据量急剧增长，信息形式也呈现了多样化的趋势，主要包含文本、声音、图像等。作为互联网最基本的信息形式，文本数据以其占用资源少、方便传输等优点，一直占据互联网信息传播的重要地位。各种领域各种形式的文本信息日益膨胀，使得人们在查阅文献或资料时，即使在使用搜索引擎后，得到的也是过于庞大冗余的备选信息，需要付出大量的时间和精力去筛选。这给知识的获取过程造成了巨大的障碍。如何将庞大冗余的文本数据以一种简洁明了的方式呈现给用户，从而帮助用户快速有效的获取到需要的信息成为了目前亟待解决的问题。

实现文本的自动摘要是解决此问题的一种有效途径。它能自动从电子文本中提取出能够涵盖原始文本核心思想的重要内容，用浓缩的文摘表示原始冗长的文本而不丢失源文档任何重要的含义和信息，为人们快速浏览信息、锁定自己的兴趣点提供了有效、快捷的方式。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种能够改善文本摘要生成的准确度和流畅度的基于BERT预训练模型的文本摘要生成方法。本发明的技术方案如下：

一种基于BERT预训练模型的文本摘要生成方法，其包括以下步骤：

步骤一：对文本数据集进行去除特殊字符、动画表情进行转换、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理；

步骤二：对预处理后的数据进行BERT预训练；

步骤三：将BERT预训练得到的句向量转化成词向量；

步骤四：对LeakGAN模型进行优化，判别器中加入注意力机制，将词向量输入加入了注意力机制的LeakGAN模型进行训练，生成摘要。

进一步的，所述步骤一对文本数据集进行去除特殊字符、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理，具体为：

(1)特殊字符：去除特殊字符，主要包括标点符号以及常用停用语气词和转折词，包括：“「，」,￥,…”啊阿哎而且；

(2)将括号里的标签内容转换成词语，如【开心】，因为数据来源微博，会有很多动画表情，以这种形式存在；

(3)日期标签替换：将所有日期替换为TAG_DATE；

(4)超链接URL：替换为标签TAG_URL；

(5)替换数字：TAG_NUMBER；

(6)英文标签替换：替换英文单词为标签TAG_NAME_EN。

进一步的，所述步骤二中BERT模型由12层隐藏层(隐藏层大小为768)，12个注意力层，大小为110M的参数构成。在BERT的输入部分，在每个句子的开头都加上[CLS]标签，句子之间用分隔符[SEP]进行间隔，并将每个句子的向量存储在[CLS]中，每个句子的文本信息都转化为字在字典中所对应的编号，对于字典中不存在的字，将它视为字典中的“[UNK]”，找到“[UNK]”在字典中所对应的编号，得到令牌嵌入(Token Embeddings)。

进一步的，所述对预处理后的数据进行BERT预训练具体包括：

文本数据通过BERT模型的输入层得到令牌嵌入(Token Embeddings)、段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings)，再将三者相加，最终得到输入层的输出向量；

通过输入层后，进入到BERT模型的隐藏层。每个隐藏层由Transformer构成，每个Transformer又由注意力层、中间层和输出层构成。本文使用的注意力机制为12头(heads)的多头注意力机制。对于每一个head，先通过注意力机制的query、key和value的权重矩阵来求对应的query、key和value向量，再将query与key的向量相乘，之后放缩，得到初步的注意力机制权重矩阵；

将注意力层的输出接入一个全连接层，再通过激活函数GELU得到中间层的输出：

GELU(x)＝xP(X＜＝x) (10)

x是变量，P(X＜＝x)决定x中有多少信息保留下来，而且X是服从高斯分布，符合现实生活中大部分数据的分布情况，也满足了非线性特点。经过全连接层，然后经过Dropout层，最后通过Norm层得到整个Transformer的输出，本次使用的是12层隐藏层，所以循环12次上述隐藏层操作，最终得到BERT模型的输出。

进一步的，所述步骤三将BERT预训练得到的句向量转化成词向量，具体包括：将中文拆成一个个的字来做学习，接全连接、softmax层做分类，生成词向量。

进一步的，所述步骤四对LeakGAN模型进行优化，判别器中加入注意力机制，具体包括：

在判别器层前后引入了注意力机制，注意力机制(假设有三个向量query、key和value，那么由一个query到一系列key-value对的映射就可以表示成注意力机制，也就是计算value加权求和的机制。主要作用是让神经网络把“注意力”放在一部分输入上)，在卷积层前使用自注意力机制对输入数据进行语义特征信息的筛选提取，自注意力机制(自注意力机制也叫内部注意力，其实是指q＝k＝v)在卷积层后对提取的特征图捕捉全局和局部信息，进行语法结构信息的筛选和融合。

进一步的，所述判别器包含输入层、卷积层、池化层和分类层，其中

输入层用于对输入序列做向量化处理，将输入序列中每个词转化为低维的向量表，输入序列长度为n，则被转化为n*h的输入矩阵；

卷积前注意力层使用放缩点积注意力机制，对词的语义信息进行筛选与融合，其中涉及到放缩参数，放缩参数设为词向量的维度h，经过注意力层处理后的矩阵大小不变，依然是n*h；

卷积层最主要的是卷积核，在这里卷积核用来提取短语的语义信息，如果卷积核的大小与输入序列的长度一致，也能够提取全局信息；卷积核的大小类似l*h、3*h的形式，而不是常见的1*1、3*3，在这里卷积核的宽度固定为输入序列的维度，卷积后的输出，一般会经过Relu激活函数，会把输出张量中小于0的位置对应的元素变为0；

卷积后的注意力层这里的操作与前一个卷积有些不同，假设卷积层的卷积核的大小为c*h，卷积核的数量为m，那么每一类的卷积核卷积后特征向量的结果可以拼接成一张特征图大小为(n-c+l)*m，需要对每一类的卷积核作自注意力机制处理，其放缩参数的大小设为m，这里的特征图处理后的大小也不变；

池化层主要负责降维，减少参数，防止过拟合，通过对注意力层处理后的特征向量做最大池化处理，然后把最后的结果拼接在一起，大小为所有卷积核数量的总和；接着通过一个dropout层，也是防止过拟合操作，得到的特征向量传递给分类层，在对抗训练中，这个特征向量会作为反馈信息指导生成器生成文本；最后的分类层，把传递来的特征向量做softmax分类，得到的结果，作为奖励值传递给生成器，接着输出真或假的类别。

进一步的，判别器的训练过程是有监督的训练，通过对生成器G_θ采样获得生成数据集S_G，真实数据集为S，将生成数据和真实数据标签化后，训练判别器；

训练的目标函数如下：

其中，

表示的是输入序列是真标签的概率值，在固定判别器训练生成器的时候，要求真实数据输出的概率尽可能的接近1，生成数据输出的概率尽可能接近0；

在生成器的训练中，判别器的行为有：

sigmoid(z)＝1/1+e^-z，

是判别器的特征提取层输出的高维特征向量，s是生成序列。

当生成器准备生成下一个词的时候，生成器会把当前生成的部分序列，使用蒙特卡洛树搜索补充为完整的输入序列s，传递给判别器，帮助Manager模块获得指导下一个词生成的高维特征向量；

判别器获得输入序列s后，在经过特征提取层后，得到高维特征向量，然后，判别器不仅把高维特征向量传递到下一步的分类层，还将高维特征向量反馈给生成器的Manager模块用来指导文本生成；

之后当高维特征向量传递到分类层后，还会向生成器反馈一个奖励值标量，表明当初生成词的好坏，用来生成器的参数优化：

y_t表示当前生成的序列，Y_1:t-1表示之前生成的序列，MC^G(Y_1:T；N)表示把当前生成的部分序列使用蒙特卡洛树搜索补充成完整的文本序列。

进一步的，使用全零的隐藏状态初始化Manager模块和Worker模块的

和

接下来的每一时间步，Manager模块结合当前的隐藏状态和判别器

传递的特征向量f_t输出目标向量g_t：

G^M(·)表示模块的LSTM网络结构，h^M表示Manager模块LSTM网络的每个时间步的隐藏状态，θ_M表示Manager模块LSTM网络的相关参数，a_t表示Manager模块LSTM网络的每个时间步的输出。

对Manager模块输出的目标向量做线性变换操作，于是对最近输出的n个目标向量g_t先进行和操作，然后使用权重矩阵W_c做线性变换，最后输出k维的目标嵌入向量v_t：

Manager模块输出的目标嵌入向量v_t传递给Worker模块，并与Worker模块LSTM网络的输出向量O_t做点乘操作，然后把点乘的结果输入到softmax函数进行归一化操作，输出一个字典大小的分布；

G_θ(·|S_t)＝softmax(O_t·v_t) (18)

G^W(·)表示Worker模块的LSTM网络结构，x_t代表当前的词，h^W表示Worker模块LSTM网络的隐藏状态，θ_W代表Worker模块LSTM网络的相关参数，O_t表示Worker模块LSTM网络的输出向量，大小为|V|×k的矩阵，s_t表示当前生成的部分序列。

生成器继续通过蒙特卡洛树搜索将当前生成的部分序列补充完整，传递给判别器对当前生成的单词进行评分同时也会得到指导接下来生成过程的高维特征向量，进行下一个词的生成。

本发明的优点及有益效果如下：

1、本发明的创新主要是基于权利要求1的步骤2、步骤3和步骤4结合，通过使用BERT预训练模型，利用BERT输入部分的优势，可以动态地生成词向量，使得模型输出的词向量信息更加全面。在BERT模型的基础上使用了LeakGAN模型，同时在该模型的判别器部分加入了注意力机制，用以更好地提取输入内容的语法结构和语义信息，提升反馈信息的质量，进一步提升生成的文本质量。对比生成式摘要基本的序列到序列模型，本发明的BERT+改进LeakGAN模型提高了生成摘要的准确性和流畅性。

本发明的创新主要是权利要求1的步骤四和整体的模型方法，将BERT与LeakGAN进行结合，同时改进了LeakGAN本身。在文本摘要领域，生成式方法所得的自动摘要，使用本方法可以取得更加优异的成绩，在实际的应用的价值方面，也得到了提升。

附图说明

图1是本发明提供优选实施例流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

在本实施例中，一种基于BERT预训练模型的摘要生成方法是按如下步骤进行的。

步骤一：对文本数据集进行(去除特殊字符、动画表情进行转换、日期标签替换、超链接URL、替换数字、英文标签替换在内的)预处理；

(3)日期标签替换：将所有日期替换为TAG_DATE；

(4)超链接URL：替换为标签TAG_URL；

(5)替换数字：TAG_NUMBER；

(6)英文标签替换：替换英文单词为标签TAG_NAME_EN。

步骤二：对预处理后的数据进行BERT(中文)预训练；

BERT模型由12层隐藏层(隐藏层大小为768)，12个注意力层，大小为110M的参数构成。在BERT的输入部分，在每个句子的开头都加上[CLS]标签，句子之间用分隔符[SEP]进行间隔，并将每个句子的向量存储在[CLS]中，每个句子的文本信息都转化为字在字典中所对应的编号，对于字典中不存在的字，将它视为字典中的“[UNK]”，找到“[UNK]”在字典中所对应的编号，得到令牌嵌入(Token Embeddings)。

GELU(x)＝xP(X＜＝x) (19)

步骤三：将BERT预训练得到的句向量转化成词向量；

将中文拆成一个个的字来做学习，接全连接、softmax层做分类，生成词向量。

判别器包含输入层、卷积层、池化层和分类层，其中：

判别器的训练过程是有监督的训练，通过对生成器G_θ采样获得生成数据集S_G，真实数据集为S，将生成数据和真实数据标签化后，训练判别器；

训练的目标函数如下：

其中，

在生成器的训练中，判别器的行为有：

sigmoid(z)＝1/1+e^-z，

是判别器的特征提取层输出的高维特征向量，s是生成序列。

使用全零的隐藏状态初始化Manager模块和Worker模块的

和

传递的特征向量f_t输出目标向量g_t：

G_θ(·|S_t)＝softmax(O_t·v_t) (27)

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于BERT预训练模型的文本摘要生成方法，其特征在于，包括以下步骤：

步骤二：对预处理后的数据进行BERT预训练；

步骤三：将BERT预训练得到的句向量转化成词向量；

步骤四：对LeakGAN模型进行优化，判别器中加入注意力机制，将词向量输入加入了注意力机制的LeakGAN模型进行训练，生成摘要；

训练的目标函数如下：

其中，

在生成器的训练中，判别器的行为有：

sigmoid(z)＝(1/1+e^-z)，

是判别器的特征提取层输出的高维特征向量，s是生成序列；

y_t表示当前生成的序列，Y_1:t-1表示之前生成的序列，MC^G(Y_1:T；N)表示把当前生成的部分序列使用蒙特卡洛树搜索补充成完整的文本序列；

使用全零的隐藏状态初始化Manager模块和Worker模块的

和

传递的特征向量f_t输出目标向量g_t：

G^M(·)表示模块的LSTM网络结构，h^M表示Manager模块LSTM网络的每个时间步的隐藏状态，θ_M表示Manager模块LSTM网络的相关参数，a_t表示Manager模块LSTM网络的每个时间步的输出；

G_θ(·|S_t)＝softmax(O_t·v_t) (9)

G^W(·)表示Worker模块的LSTM网络结构，x_t代表当前的词，h^W表示Worker模块LSTM网络的隐藏状态，θ_W代表Worker模块LSTM网络的相关参数，O_t表示Worker模块LSTM网络的输出向量，大小为|V|×k的矩阵，S_t表示当前生成的部分序列；

2.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法，其特征在于，所述步骤一对文本数据集进行去除特殊字符、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理，具体为：

(3)日期标签替换：将所有日期替换为TAG_DATE；

(4)超链接URL：替换为标签TAG_URL；

(5)替换数字：TAG_NUMBER；

(6)英文标签替换：替换英文单词为标签TAG_NAME_EN。

3.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法，其特征在于，所述步骤二对预处理后的数据进行BERT预训练，具体为：

BERT模型由12层隐藏层，隐藏层大小为768，12个注意力层，大小为110M的参数构成，在BERT的输入部分，在每个句子的开头都加上[CLS]标签，句子之间用分隔符[SEP]进行间隔，并将每个句子的向量存储在[CLS]中，每个句子的文本信息都转化为字在字典中所对应的编号，对于字典中不存在的字，将它视为字典中的“[UNK]”，找到“[UNK]”在字典中所对应的编号，得到令牌嵌入(Token Embeddings)。

4.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法，其特征在于，所述对预处理后的数据进行BERT预训练具体包括：

文本数据通过BERT模型的输入层得到令牌嵌入Token Embeddings、段嵌入SegmentEmbeddings和位置嵌入Position Embeddings，再将三者相加，最终得到输入层的输出向量；

通过输入层后，进入到BERT模型的隐藏层；每个隐藏层由Transformer构成，每个Transformer又由注意力层、中间层和输出层构成；本文使用的注意力机制为12头heads的多头注意力机制；对于每一个head，先通过注意力机制的query、key和value的权重矩阵来求对应的query、key和value向量，再将query与key的向量相乘，之后放缩，得到初步的注意力机制权重矩阵；

GELU(x)＝xP(X＜＝x) (1)

x是变量，P(X＜＝x)决定x中有多少信息保留下来，而且X是服从高斯分布，符合现实生活中大部分数据的分布情况，也满足了非线性特点；经过全连接层，然后经过Dropout层，最后通过Norm层得到整个Transformer的输出，本次使用的是12层隐藏层，所以循环12次隐藏层操作，最终得到BERT模型的输出。

5.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法，其特征在于，所述步骤三将BERT预训练得到的句向量转化成词向量，具体包括：将中文拆成一个个的字来做学习，接全连接、softmax层做分类，生成词向量。

6.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法，其特征在于，所述步骤四对LeakGAN模型进行优化，判别器中加入注意力机制，具体包括：

在判别器层前后引入了注意力机制，注意力机制假设有三个向量query、key和value，那么由一个query到一系列key-value对的映射就可以表示成注意力机制，也就是计算value加权求和的机制，主要作用是让神经网络把“注意力”放在一部分输入上，在卷积层前使用自注意力机制对输入数据进行语义特征信息的筛选提取，自注意力机制也叫内部注意力，其实是指q＝k＝v，在卷积层后对提取的特征图捕捉全局和局部信息，进行语法结构信息的筛选和融合。

7.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法，其特征在于，所述判别器包含输入层、卷积层、池化层和分类层，其中：

卷积层最主要的是卷积核，在这里卷积核用来提取短语的语义信息，如果卷积核的大小与输入序列的长度一致，也能够提取全局信息；卷积核的大小类似l*h、3*h的形式，而不是常见的1*1、3*3，在这里卷积核的宽度固定为输入序列的维度，卷积后的输出，会经过Relu激活函数，会把输出张量中小于0的位置对应的元素变为0；