CN114139497A

CN114139497A - 一种基于bertsum模型的文本摘要提取方法

Info

Publication number: CN114139497A
Application number: CN202111519931.9A
Authority: CN
Inventors: 王移兵; 艾冰; 季良; 尹佳; 刘文涛; 王婷; 贾崟; 张壁君; 高珊; 张晓宇
Original assignee: Big Data Center Of State Grid Corp Of China
Current assignee: Big Data Center Of State Grid Corp Of China
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-04

Abstract

本发明属于文本摘要提取技术领域，尤其为一种基于BERTSUM模型的文本摘要提取方法先对需要提取摘要的文本进行预处理，然后将预处理后的数据输入改进的BERT模型进行处理，判断出应该出现在摘要中的句子，BERT模型的改进过程中，在BERT模型原本的损失函数中增加一个余弦相似度损失，避免了数据处理中过度拟合，使得获得的摘要更加准确；另外，通过加入余弦相似性约束，使得BERT模型在训练早期，获得的结果的损失能够更快的下降，提高数据处理的速度；BERT模型的改进方面还包括加入融合指针网络的UniLM模型，通过融合指针网络的UniLM模型对文本下游生成任务进行微调，提前获取文本中的关键信息词，提高文本摘要的获得速度。

Description

一种基于BERTSUM模型的文本摘要提取方法

技术领域

本发明属于文本摘要提取技术领域，具体涉及一种基于BERTSUM模型的文本摘要提取方法。

背景技术

随着我国新一代5G通信技术的快速发展，用户的信息数据已经呈指数级的增长，如何从海量的日常生活信息中快速有效地提取出用户需要的有用信息，已成为当下亟待解决的问题。

文本自动摘要技术是指在保证保留原文关键信息的情况下，快速地精简源文本，并根据其主要内容来生成短文本摘要，为人们快速获取信息提供了很大的便利。

文本摘要技术按照摘要的实现方式可分为抽取型摘要和生成型摘要，抽取式摘要方法主要通过对原文中的词句进行排序组合，抽取出能够代表原文主要信息的短语、句子以形成摘要，BERTSUM模型属于抽取型获取摘要的模型。

使用现有的BERTSUM模型，在小数据集的抽取摘要任务中，容易出现过拟合的现象，导致得到的结果并不稳定，也就是多次处理获得的摘要不一致，为此，有必要对现有的BERTSUM模型进行改进，以提高文本提取摘要的稳定性和提取的摘要的质量。

发明内容

本发明旨在提供一种基于BERTSUM模型的文本摘要提取方法，解决现有技术中通过BERTSUM模型提取文本摘要稳定性和质量不高的技术问题。

为解决上述技术问题，本发明采用以下技术方案：

提供一种基于BERTSUM模型的文本摘要提取方法，包括：

(1)对需要提取摘要的文本进行预处理：在文本中插入标签，插入的标签包括[CLS]标签和[SEP]标签，[CLS]标签用于放在文本中每个句子的首位，[SEP]标签用于分开两个文本中相邻的句子；

(2)将步骤(1)中预处理后的数据输入改进的BERT模型进行处理，判断出应该出现在摘要中的句子；

在所述步骤(2)中，所述改进的BERT模型的改进方面包括：对BERT模型的损失函数的改进，在BERT模型原本的损失函数中增加一个余弦相似度损失。

优选的，所述改进的BERT模型的改进方面还包括：加入融合指针网络的UniLM模型，通过融合指针网络的UniLM模型对输入的数据进行处理，从文本中直接复制关键信息词，降低数据处理工作量。

优选的，所述改进的BERT模型的改进方面还包括：在所述融合指针网络的UniLM模型中引入覆盖机制，以避免生成的词语发生重复。

优选的，所述损失函数改进后如下：

l_i＝-w_i[y_i·logx_i+(1-y_i)·log(1-x_i)]+αCSⁱ¹

式中，参数x_i是BERT对应某句子中[CLS]标签的输出向量；

y_i是第i句子的正确标签，该标签用于确定第i句子是否应该在摘要中；

α是损失函数中余弦相似性项权重的超参数；

l_i是第i个句子的损失值；

CS^il表示余弦相似性。

优选的，所述融合指针网络的UniLM模型具体如下：

p(w)为t时刻预测的单词w的分布概率；

p_gen为指针；

p_vocab为指针网络模型；

t为时间；

α^t是文本序列对解码器t时刻预测的单词的注意力分布权重；

i为第i个预测的句子；

w为第i个句子中的预测词；

若预测的单词w是未登录单词，则p_vocab(w)为零。

优选的，参数α^t通过解码器提取摘要获取的Q特征矩阵与编码器提取文本中得到的K、V特征矩阵计算而得，计算方式如下所示：

e^t＝v^T tanh(W_QQ_t+W_KK_t+W_vV_t+b_attn)

α^t＝softmax(e^t)

式中，Q、K、V为特征矩阵；

W、b_attn为BERT模型的训练参数；

Softmax是一个数学函数，用于对0和1之间的值进行归一化；

通过覆盖机制对指针生成网络模型进行改进，能够有效减少生成摘要中的重复，向量c^t公式如下：

式中，c^t表示目前为止单词从注意力机制中获得的覆盖程度，使用覆盖向量c^t影响注意力分布，重新得到注意力分布：

式中，W、b_attn为BERT模型的训练参数；

e^t _i为第i句子的注意力分布值；

然后重新计算文本序列对解码器t时刻某预测的单词的注意力分布权重α^t。

与现有技术相比，本发明的有益效果是：

1、本发明基于BERTSUM模型的文本摘要提取方法，在BERT模型的损失函数中加入了一个余弦相似性约束，避免了数据处理中过度拟合，使得获得的摘要更加准确。

2、通过加入余弦相似性约束，使得BERT模型在训练早期，获得的结果的损失能够更快的下降，提高数据处理的速度。

3、通过融合指针网络的UniLM模型对文本下游生成任务进行微调，提前获取文本中的关键信息词，提高文本摘要的获得速度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1-(a)和图1-(b)分别为本发明基于BERTSUM模型的文本摘要提取方法一实施例中BERT模型的架构图与输出示意图。

图2为本发明基于BERTSUM模型的文本摘要提取方法一实施例中BERT模型处理过程中的文本结构示意图。

图3为本发明基于BERTSUM模型的文本摘要提取方法一实施例中BERT模型不同层之间输出组合的策略。

图4为本发明基于BERTSUM模型的文本摘要提取方法一实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在描述本发明基于BERTSUM模型的文本摘要提取方法的具体实施例之前，有必要对BERTSUM模型进行说明：BERT模型是可以用于文本提取摘要的模型，BERTSUM模型是对BERT模型的改进。BERTSUM模型通过对文本抽取获取摘要，抽取式方法是对文本信息抽取文本摘要，即从原文本中选取关键词、关键句组成摘要。BERTSUM模型与BERT模型的区别在于，在BERTSUM模型中，在文本的每个句子之前均插入[CLS]标签，[CLS]标签是一个无明显语义信息的符号，用于代表整句话的语义；而在BERT模型中，无论文本中句子的数量是多少，在整个输入文本之前只插入一个[CLS]标签，因此，BERTSUM模型能够对整个文本提取摘要，而BERT模型适于对一个句子提取摘要。BERTSUM在对文本插入标签处理后，再通过BERT模型对标签处理后的文本进行处理。

本发明基于BERTSUM模型的文本摘要提取方法的具体实施例如下：

本发明基于BERTSUM模型的文本摘要提取方法，对BERTSUM模型进行改进，对BERTSUM模型的改进具体体现在以下几方面：

(1)对BERT模型损失函数的改进：在原本的损失函数中增加了一个余弦相似度损失。

损失函数是用于判断BERT模型输出的真实值与正确值之间的误差，损失函数在BERT模型中被定义为二值交叉熵损失。

BERT模型原来的损失函数为：

l_i＝-w_i[y_i·logx_i+(1-y_i)·log(1-x_i)] (1)

该损失函数的含义为本领域技术人员熟知，这里不再对其进行详细说明。

BERT模型迭代训练对输出结果校正过程中，在BERT模型训练的初始阶段，交叉熵损失值有一个快速的梯度下降，然后梯度下降变慢，同时，如果增加训练步数，BERT模型的预测精度迅速下降，因此，在原本的损失函数中增加了一个余弦相似度损失。

本发明使用Hermann的分割标准进改进后的损失函数如下：

l_i＝-w_i[y_i·logx_i+(1-y_i)·log(1-x_i)]+αCSⁱ¹ (2)

其中，公式(2)为BERT模型原本的损失函数，公式(3)为余弦相似度损失函数。

公式(2)、(3)中，参数x_i是BERT对应某句子中[CLS]标签的输出向量；y_i是第i句子的正确标签，该标签用于确定第i句子是否应该在摘要中；α是损失函数中余弦相似性项权重的超参数；l_i是第i个句子的损失值，CS^il表示余弦相似性。

(2)BERT模型中解码器的改进为融合指针网络的UniLM模型的解码器。

融合指针网络模型的解码器，可以通过指针p_gen选择从文本中直接复制关键信息词。

现有BERT模型中解码器解码时，每一个时刻t通过复制指针p_gen控制预测的句子是从词表中生成还是从文本中复制，指针p_gen计算方式如下所示:

式(4)含义为本领域技术人员熟知，这里不再对其进行详细说明。

本发明将BERT模型中解码器的改进为融合指针网络模型的解码器：

融合指针网络模型的解码器，可以通过指针p_gen选择从文本中直接复制关键信息词，具体如下：计算词表的分布概率前，先将文本中的未登录词提取出来扩充到词表中构建新的词表，然后再计算t时刻预测的单词w的分布概率。计算方式如下所示：

p(w)为t时刻预测的单词w的分布概率；

p_gen为指针；

p_vocab为指针网络模型；

t为时间；

i为第i个预测的句子；

w为第i个句子中的预测词；

若预测的单词w是未登录单词，p_vocab(w)则为零；

另外，因文本中可能存在多个w_i都为预测的单词w的情况，因此，计算词表概率时需要将所有预测的单词w的注意力权重进行累加。

式(4)中，α^t是文本序列对解码器t时刻预测的单词的注意力分布权重，通过解码器提取摘要获取的Q特征矩阵与编码器提取文本中得到的K、V特征矩阵计算而得。计算方式如下所示：

e^t＝v^Ttanh(W_QQ_t+W_KK_t+W_vV_t+b_attn)

α^t＝softmax(e^t) (6)

式中，Q、K、V为特征矩阵；W、b_attn为BERT模型的训练参数；Softmax是一个数学函数，用于对0和1之间的值进行归一化。

(3)为了解决生成词语重复的问题，引入覆盖机制，通过覆盖机制对指针生成网络模型进行改进，能够有效减少生成摘要中的重复，向量c^t公式如下：

式中，α^t是文本序列对解码器t时刻某预测的单词的注意力分布权重；

c^t表示目前为止单词从注意力机制中获得的覆盖程度；

为了使得在计算能力有限的情况下，BERT模型将计算资源分配给更重要的任务，在BERT模型中引入注意力机制(Attention Mechanism)。

c^t表示目前为止单词从注意力机制中获得的覆盖程度，使用覆盖向量c^t影响注意力分布，重新得到注意力分布：

式中，W、b_attn为BERT模型的训练参数；e^t _i为第i句子的注意力分布值；然后重新计算文本序列对解码器t时刻某预测的单词的注意力分布权重α^t。

本实施例基于上述改进的BERTSUM模型进行文本摘要的提取，具体包括以下步骤：

(1)文本预处理：假如X代表整个文本，如X＝[E₁,E₂，…，E_n]，E_i为词向量，代表输入文本中的每个词组，在文本中插入标签进行预处理，插入的标签包括[CLS]和[SEP]标签，[CLS]标签用于放在每个句子的首位，经过BERT模型处理后得到的的表征向量可以用于后续的分类任务；[SEP]标签用于分开两个输入的句子，例如输入句子A和B，要在句子A、B后面分别增加[SEP]标志，这样，文本X被表示为一系列标签。

(2)通过BERT模型将预处理后的词向量进行处理，判断出应该出现在摘要中的句子：

(2.1)将预处理后的文本X输入到BERT模型：

图1-(a)为BERT模型的架构图，如图1-(a)所示，BERT模型具有多层的双向Transformer模型(T(rm))，Transformer模型为特征提取器，用于语义特征等关于句子特征的提取，输入文本经过BERT模型中多层的双向Transformer模型处理，最后一层对应输出T₁，T₂，…，T_N的词向量，T_i对应于各输入向量E_i的输出；Transformer模型如下：

其中，h代表词向量；LN(layer normalization)是归一化模型；MHAtt是输出合并模型；FFN是一个双层神经网络。

BERT模型工作方式：图1-(b)为BERT模型的输出示意图，BERT模型处理过程中，共有五层输出的向量，如图3所示，图1-(a)六个Transformer模型功能分别如下：模型0(model0)使用[CLS]经过BERT模型处理后最后一层输出的向量；模型3使用倒数第2层和最后一层输出的与[CLS]相对应的向量；模型1和模型4表明，我们将分别对应于[CLS]和[SEP]的两个输出向量拼接起来，以表示一个句子；模型2和模型5使用与[CLS]对应的向量的平均值；再将BERT的最后4层与[CLS]对应的向量拼接起来；该BERT模型可以从句子嵌入中提取尽可能多的信息并且模型训练难度较低。

在输入文本经过BERT模型处理过程中，每一个输入的标签都会得到相应的嵌入处理，结合图2所示，图2中的Text为图1-(a)中最后一层相应的词向量T_i，提取出所有句子的[CLS]对应的嵌入处理后的数据，输入到线性分类器(Linear Classifier)中得到每个[CLS]的分数，来最终决定[CLS]所对应的句子是否应该出现在摘要中。

如图4所示，以改进的BERT模型对“青海省林业厅野生动植物和自然保护区管理局”这句话的处理为例：(1)先将预处理的词向量输入BERT模型，BERT模型的隐藏层中的编码器和解码器对输入的词向量进行处理，之后对编码器和解码器输出的词向量进行注意力分布处理，然后根据上下文向量决定该句子是否应该出现在摘要中，如果应当出现在摘要中，则该句子进入词表分布中，最后获得扩展词表分布，扩展词表分布为词表分布基础上获得的语义完整的摘要。

需要说明的是，在本文中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解，在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于BERTSUM模型的文本摘要提取方法，其特征在于，包括：

2.根据权利要求1所述的基于BERTSUM模型的文本摘要提取方法，其特征在于：所述改进的BERT模型的改进方面还包括：加入融合指针网络的UniLM模型，通过融合指针网络的UniLM模型对输入的数据进行处理，从文本中直接复制关键信息词，降低数据处理工作量。

3.根据权利要求2所述的基于BERTSUM模型的文本摘要提取方法，其特征在于：所述改进的BERT模型的改进方面还包括：在所述融合指针网络的UniLM模型中引入覆盖机制，以避免生成的词语发生重复。

4.根据权利要求1所述的基于BERTSUM模型的文本摘要提取方法，其特征在于：

所述损失函数改进后如下：

l_i＝-w_i[y_i·log x_i+(1-y_i)·log(1-x_i)]+αCSⁱ¹

式中，参数x_i是BERT对应某句子中[CLS]标签的输出向量；

α是损失函数中余弦相似性项权重的超参数；

l_i是第i个句子的损失值；

CS^il表示余弦相似性。

5.根据权利要求3所述的基于BERTSUM模型的文本摘要提取方法，其特征在于：

所述融合指针网络的UniLM模型具体如下：

p(w)为t时刻预测的单词w的分布概率；

p_gen为指针；

p_vocab为指针网络模型；

t为时间；

i为第i个预测的句子；

w为第i个句子中的预测词；

若预测的单词w是未登录单词，则p_vocab(w)为零。

6.根据权利要求5所述的基于BERTSUM模型的文本摘要提取方法，其特征在于：

参数α^t通过解码器提取摘要获取的Q特征矩阵与编码器提取文本中得到的K、V特征矩阵计算而得，计算方式如下所示：

e^t＝v^Ttanh(W_QQ_t+W_KK_t+W_vV_t+b_attn)

α^t＝soft max(e^t)

式中，Q、K、V为特征矩阵；

W、b_attn为BERT模型的训练参数；

Softmax是一个数学函数，用于对0和1之间的值进行归一化；

式中，W、b_attn为BERT模型的训练参数；

e^t _i为第i句子的注意力分布值；