CN112883722B

CN112883722B - 一种基于云数据中心分布式文本摘要方法

Info

Publication number: CN112883722B
Application number: CN202110241947.1A
Authority: CN
Inventors: 沈鸿; 黄观杰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2023-04-21
Anticipated expiration: 2041-03-04
Also published as: CN112883722A

Abstract

本发明提供一种基于云数据中心分布式文本摘要方法，该方法使用无监督学习的方法进行摘要生成，节省了在大规模数据集中收集标签数据所需的巨大人力成本；其次，获得句子向量表示的方法使用层级的BERT模型，即通过单词级别的BERT模型和句子级别的BERT模型来训练得到具有单词和句子两重上下文语义的句子向量，相较于绝大多数通过平均词向量得到句子向量的方法而言，具有更丰富的语义信息，能更好地进行文本摘要生成；使用基于云数据中心的分布式训练方法，流水线的模型并行方法，大大提高了BERT模型训练的速度。

Description

一种基于云数据中心分布式文本摘要方法

技术领域

本发明涉及人工智能自然语言处理和并行分布式计算领域，更具体地，涉及一种基于云数据中心分布式文本摘要方法。

背景技术

文本摘要生成是自然语言处理中的一个任务，目的是对长文本中的关键信息和内容进行提取，生成保留尽可能多的关键信息的短文本。文本摘要技术能够提取长文本中最关键的信息，在商品页面展示、新闻、资讯、科学研究等领域有着重要的作用，显著缩短人们获取信息的时间。

现有的文本摘要生成方法中，训练神经网络模型往往使用有监督学习方法，该方法需要标签数据，即人工生成的摘要。为了提高神经网络模型的性能，需要使用数据量更大的数据集，这就要求每一个数据样本都需要有对应的人工生成摘要，由于文本摘要对人有较高的语言组织能力要求，使得获取标签数据需要消耗巨大的人力资源。

而且，无监督学习的文本摘要生成方法需要借助句子的向量表示来进行，绝大多数获取句子向量的方法是通过平均词向量所得，这种方法仅仅了保留单词级别的语义，却丢失了文档中句子之间的语义信息，从而降低了无监督摘要生成的效果。

另外，现有的文本摘要方法使用预训练模型得到的单词表示来进一步学习从而生成摘要，例如近年来被证实在多个自然语言处理任务中效果拔群的BERT预训练模型。该神经网络模型结构复杂，层数颇多，即使在顶尖的单机硬件上训练，也要花费数周的时间。

发明内容

本发明提供一种基于云数据中心分布式文本摘要方法，该方法可实现不需要人工生成的摘要作为参考，直接从原文本中进行学习，生成摘要。

为了达到上述技术效果，本发明的技术方案如下：

一种基于云数据中心分布式文本摘要方法，包括以下步骤：

S1：获得单词向量表示；

S2：获得句子向量表示；

S3：无监督文本摘要生成；

S4：ROUGE指标评价摘要的质量。

进一步地，所述步骤S1的具体过程是：

利用HuggingFace的单词分割器对文章中的单词进行分割，分割的过程把多余的标点符号去除，同时把单词映射到HuggingFace的BERT模型中的词汇表中，获得每个单词在词汇表中的序号，根据序号，匹配到HuggingFace已经预训练好的单词向量表示，进而获得文档中所有单词的单词向量表示。

进一步地，所述步骤S2的具体过程是：

1)、在步骤S1得到单词表示

后，得到初级的句子向量：

将句子中所有的单词向量取平均得到：

其中S_i表示文档中第i个句子，|S_i|表示第i个句子所含的单词数量，

表示第i个句子的初级向量表示；

2)、获取句子位置信息以及句子级别的遮掩令牌，将得到的句子的初级向量表示、句子位置信息以及句子级别的遮掩令牌输入到经过重新设计的句子级别BERT模型中进行训练，将得到富含上下文语义信息的高级句子向量表示

进一步地，单词级别BERT模型设置“随机单词挖空”预训练任务，15％的单词会被挖空，其中这些挖空的单词80％用遮掩令牌代替，10％用随机单词代替，10％维持原有单词，目标是预测出那些被挖空的单词，可以学习到单词的前后语义连贯性。

进一步地，单词级别BERT模型设置“下一句子预测”预训练任务，输入两个句子，后输入的句子50％几率是前一个输入的句子的连续句子，50％是文档中的随机句子，目标是判断这两个句子是否是连续句子，用于学习句子上下文的连贯性。

进一步地，在句子级别BERT模型中设置不同句子的遮掩令牌相隔0.1以区分不同句子的输入。

进一步地，句子级别BERT模型设计了“随机互换句子顺序恢复”预训练任务，把输入句子随机调换顺序，目标是恢复各个句子所在的正确位置，使模型能够感知句子的次序关系。

进一步地，句子级别BERT模型设计了“随机挖空句子”预训练任务，随机挖空输入句子，目标是对挖空句子进行预测，概率设置同单词级别的“随机挖空单词”，该任务可以使模型学习到全局上下文语义信息。

进一步地，所述步骤S3的具体过程是：

1)、采用KMeans聚类算法进行文本摘要生成：定义生成的摘要中句子数量

|S_summary|为摘要中的句子数量，|S_document|为文档中的句子数量，这个值同时为聚类算法中的类别个数；

2)、从文档中随机选择|S_summary|个句子作为中心句子，然后计算除中心句子外的其他句子与各个中心句子的距离，距离哪一个中心句子最近，就归属到哪一个类别，这里使用的距离度量是余弦相似度，即

3)、对于每一个类别下的各组句子计算他们的类别中心：对取该类别下所有句子向量的平均值，即

其中

表示该类别新的中心句子，|S_category|表示该类别所含的句子数量，重新计算除新的中心句子之外的其他句子到各个中心句子的距离，进行重新归类，经过K轮，中心句子不再变化时，认为聚类算法收敛；经过KMeans聚类算法后，得到|S_summary|个中心句子，这些中心句子将作为最终摘要生成的内容，按照句子在文中的相对顺序进行排序，得到最终生成的摘要。

进一步地，所述步骤S4的具体过程是：

用ROUGE评价指标来评价生成的摘要和参考摘要的匹配度，得分越高越好。

进一步地，所述的ROUGE评价指标使用ROUGE-1，ROUGE-2，ROUGE-L这三个指标。

与现有技术相比，本发明技术方案的有益效果是：

1、本发明使用无监督学习的方法进行摘要生成，节省了在大规模数据集中收集标签数据所需的巨大人力成本；其次，获得句子向量表示的方法使用层级的BERT模型，即通过单词级别的BERT模型和句子级别的BERT模型来训练得到具有单词和句子两重上下文语义的句子向量，相较于绝大多数通过平均词向量得到句子向量的方法而言，具有更丰富的语义信息，能更好地进行文本摘要生成；使用基于云数据中心的分布式训练方法，流水线的模型并行方法，大大提高了BERT模型训练的速度；

2、本发明采用的分布式的无监督文本摘要生成方法，配备层级的句子向量表示，使得模型在CNN/Daily数据集上的ROUGE得分较好，表现出生成的摘要的质量较现有的一些方案更好；其次，由于采用无监督学习的生成方法，将该方法迁移到更大规模的数据集上较为容易，表现出更强的迁移能力和规模化能力。最后，基于云数据中心的分布式训练方法相较于单机训练而言，能够大幅降低BERT模型的训练时间。

附图说明

图1为本发明方法流程图；

图2为本发明方法采用的模型结构图；

图3为本发明方法进行文本摘要的一个样本数据及结果。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于云数据中心分布式文本摘要方法，包括以下步骤：获得单词向量表示、获得句子向量表示、无监督文本摘要生成、ROUGE指标评价摘要的质量。

所谓单词向量表示，指的是一个单词可以用一个向量进行表示，这个向量每一维的数值都蕴含着该单词的语义信息。单词向量之间可以进行运算，比如计算两个单词向量的余弦值大小表示两个单词之间的语义相似度。由于近年来BERT词向量预训练模型被证实在多个自然语言处理任务中都取得较好的效果，其预训练得到的单词向量具有很强的通用性，又因为BERT预训练模型对硬件资源要求很高，实验者单独训练的时间很长，因此本发明所需要的单词向量直接采用HuggingFace团队的实现，该团队的BERT预训练词向量方案已被众多学者所采用，是公认的BERT预训练模型的良好实现。

原始的BERT预训练模型需要三个输入：初始化的单词向量、单词的位置信息、遮掩令牌(Mask Token)。以下用数学符号表示上述过程：上标w'表示初始化单词，上标w表示学习后的单词，下标i表示第i个索引，e表示embedding，即向量表示。初始化的单词向量是用给定分布进行随机初始化，其值会在后续的学习中不断调整，记为

位置信息p^w引用原始BERT模型中的三角函数定义。遮掩令牌mask^w的作用是为了区分不同的输入句子，例如原始BERT中允许输入最多两个句子用于预训练任务，假设两个句子分别包含a和b个单词，则mask^w＝[0,0,...,0,1,1,...,1]，前面a个0，后面b个1。最后，BERT模型的输入为mask^w、p^w和

的加和。原始BERT预训练模型采用两个预训练任务，一个为“随机单词挖空”，15％的单词会被挖空，其中这些挖空的单词80％用MASK特殊令牌代替，10％是随机单词，10％维持原有单词，任务是预测出那些被挖空的单词，目的是为了学习单词的前后语义连贯性，预测挖空单词的极大似然函数为损失函数。另外一个任务是“下一句子预测”，输入两个句子，第二个句子50％几率是第一个句子的连续句子，50％是文档中的随机句子，任务是要判断这两个句子是否是连续句子，用于学习句子上下文的连贯性。

经过单词级别的BERT预训练模型学习后，得到单词向量表示

接着要进一步得到文档中所有句子的向量表示。句子向量定义类似于单词向量，用向量来表示一个句子，该向量蕴含句子的语义信息。获取句子向量的目的是为了进行无监督的摘要生成。本发明获得句子向量的方法是采用另外一个BERT预训练模型来学习得到，相对于单词级别的BERT预训练模型，该BERT预训练模型是句子级别，最终学习得到的是句子向量。句子级别的BERT预训练模型需要对原始BERT模型的输入、预训练任务进行改造以适应句子级别的训练。在上一步得到通用的单词表示

后，先得到初级的句子向量，方法是将句子中所有的单词向量取平均得到：

表示第i个句子的初级向量表示。句子级别的BERT模型的输入变成初级的句子向量、句子位置信息以及句子级别的遮掩令牌，其中句子位置信息p^s定义与p^w类似，均为三角函数定义，而句子级别的遮掩令牌由于输入是多个句子向量，同时为了避免遮掩令牌之间值相差太大而引起训练不稳定的问题，设置不同句子的遮掩令牌相隔0.1，例如5个句子的遮掩令牌，mask^w＝[0,0.1,0.2,0.3,0.4]以区分不同句子的输入。预训练任务改为“随机乱排句子的顺序恢复”任务，即把输入句子随机调换顺序，任务是恢复各个句子所在的正确位置，该任务能够使模型学习到句子位置的语义信息。此外，还设计了“随机挖空句子的预测”任务，任务是预测出挖空句子，概率设置同单词级别BERT模型中的单词挖空任务。经过句子级别的BERT模型训练后，将得到富含上下文语义信息的高级句子向量表示

该句子向量不仅考虑了单词语义信息、单词位置信息、单词语义对句子语义的贡献比重(来自于BERT模型中的自注意力机制)、句子位置信息以及句子之间的语义关系，相较于绝大多数词向量平均法得到的句子向量而言，多考虑了句子级别的语义信息，更高层的语义信息有助于文本摘要生成任务。

在得到高级句子向量

后，可以进行无监督学习的文本摘要生成。本发明将采用KMeans聚类算法进行文本摘要生成：定义生成的摘要中句子数量

接着对于每一个类别下的各组句子计算他们的类别中心，方法是对取该类别下所有句子向量的平均值，即

其中

表示该类别新的中心句子，|S_category|表示该类别所含的句子数量，然后重新计算除新的中心句子之外的其他句子到各个中心句子的距离，进行重新归类。经过K轮，中心句子不再变化时，认为聚类算法收敛。经过KMeans聚类算法后，得到|S_summary|个中心句子，这些中心句子将作为最终摘要生成的内容。按照句子在文中的相对顺序进行排序，得到最终生成的摘要。可见，在此过程中不需要人工生成的摘要作为参考信息，直接从文档生成摘要。

经过以上步骤后，将得到机器生成的摘要。本发明选取CNN/DailyMail数据集作为训练数据集，该数据集含有标签数据，目的是为了方便评价机器生成的摘要和人工生成的摘要之间差异程度，以此来判定本发明设计的模型的性能表现。本发明将采用ROUGE评价指标，该指标的工作原理是通过比较两段文本之间单词重叠程度来计算它们之间的相似性，比如常用的ROUGE-1就是单个单词的重叠比较，ROUGE-2就是两个单词的重叠比较，ROUGE-L就是两个句子的最长连续单词重叠比较。可见，这个评价适用于抽取式的摘要生成，即摘要的生成是通过一定的策略对原文中的部分内容进行抽取然后组成摘要而非用自己的语言进行组织，这种方法天然符合语法规则，也较容易操作，本发明中所用的聚类算法摘要生成是抽取式的，因此使用ROUGE评价指标使用于本发明。

以上为本发明进行文本摘要生成涉及的主要过程。此外，本发明在句子级别的BERT模型的实现上将采用分布式的训练方法。原始的BERT模型中有基础版(BERT-base)和增大版(BERT-large)两种，现以基础版为例，基础版的BERT模型Transformer层数为12。由于模型庞大且复杂，因此本发明采用基于云数据中心模型并行的方法把该BERT模型进行分解，将每一个Transformer层部署到不同的机器上进行训练。由于BERT中的Transformer层是堆叠式的结构，每一层必须等待上一层计算完毕才能进行计算，是序列化的过程。因此，简单地将各层部署到不同的机器上并不能产生加速的效果，各个机器仍然需要互相等待。所以，本发明将采用流水线的方式将其改造，以产生并行训练的效果。由于在训练时会将数据集划分成多个小批次，每个批次依次进入模型来训练，所以将原来的逐批次训练改成多批次同时训练，在整个分布式训练达到稳定状态时，在某个时刻每个机器都有前传或反传的计算任务，大大提高了模型的并行度，大幅降低模型的训练时间。

从某数据集中选一篇文章为例，该样本的文档有6个句子，摘要有2个句子，文档及摘要如附图3中所示。现按照附图1的总体流程及附图2的总体模型，介绍该样本数据经过附图2的模型训练及附图1的流程后，生成摘要的过程。

首先进行A步骤，利用HuggingFace团队实现的单词分割器(Tokenizer)，对文章中的单词进行分割。分割的过程会把多余的标点符号去除，同时把单词映射到该团队实现的BERT模型中的词汇表中，获得每个单词在词汇表中的序号。接着进行B步骤，根据该序号，可以匹配到该团队已经预训练好的单词向量表示。这一步，将获得文档中所有单词的单词向量表示。

接着进行C步骤。首先获取文档中6个句子的初级句子向量表示，由S2步骤得到的文档中所有的单词向量，根据句子所含单词的单词向量取平均

得到初级句子向量，加上位置信息p^s和遮掩令牌mask^w＝[0,0.1,0.2,0.3,0.4,0.5]，输入到句子级别的BERT模型中。预训练任务为“随机乱排句子的顺序复原”和“随机挖空句子的预测”，则预训练时的目标函数为最大化乱排句子顺序复原的极大似然概率和挖空句子预测的极大似然概率。与此同时，利用F1方法，即附图3中的流水线式的模型并行方法来训练，把BERT模型中的12个Transformer层部署到12个机器上进行并行训练。在句子级别的BERT模型训练结束后，得到富含语义信息的句子向量。

接着进行D步骤。设定生成的摘要中含有

个句子，也即聚类算法中定义为2个类，设定K＝3轮中心句子不变即视聚类算法收敛。算法开始，随机选择句子1和句子2作为中心句子，计算句子3-6分别到句子1和句子2的余弦相似度，发现句子3和5距离句子1比较近，句子4和6距离句子2比较近，因此，第一轮得到两个类分别含有句子1、3、5和句子2、4、6。接着重新计算两个类别的中心句子，得到新的中心句子为句子1和句子4。第二轮，计算句子2、3、5、6到两个中心句子的距离，得到两个类别，句子1、2、3和句子3、4、5，继续计算新的中心句子，发现仍为句子1和句子4。在第三轮和第四轮中结果仍然不变，即聚类算法收敛，摘要中由句子1和句子4构成。

根据D步骤选出的中心句子，附图1中的E步骤根据中心句子在原文档的相对顺序，得到生成摘要，由句子1和句子4构成。

F步骤，用ROUGE评价指标来评价机器生成的摘要和参考摘要的匹配度，得分越高越好，这里使用ROUGE-1，ROUGE-2，ROUGE-L这三个常用指标，得到ROUGE-1的F1值为0.416，ROUGE-2的F1值为0.187，ROUGE-L的F1值为0.353，流程结束。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于云数据中心分布式文本摘要方法，其特征在于，包括以下步骤：

S1：获得单词向量表示；

S2：获得句子向量表示；

S3：无监督文本摘要生成；

S4：ROUGE指标评价摘要的质量；

所述步骤S1的具体过程是：

利用HuggingFace的单词分割器对文章中的单词进行分割，分割的过程把多余的标点符号去除，同时把单词映射到HuggingFace的BERT模型中的词汇表中，获得每个单词在词汇表中的序号，根据序号，匹配到HuggingFace已经预训练好的单词向量表示，进而获得文档中所有单词的单词向量表示；

所述步骤S2的具体过程是：

1)、在步骤S1得到单词表示

后，得到初级的句子向量：

将句子中所有的单词向量取平均得到：

表示第i个句子的初级向量表示；

在句子级别的BERT模型的实现上将采用分布式的训练方法；采用基于云数据中心模型并行的方法把该BERT模型进行分解，将每一个Transformer层部署到不同的机器上进行训练；

将采用流水线的方式，以产生并行训练的效果；在训练时将数据集划分成多个小批次，每个批次依次进入模型来训练，所以将原来的逐批次训练改成多批次同时训练，在整个分布式训练达到稳定状态时，在某个时刻每个机器都有前传或反传的计算任务。

2.根据权利要求1所述的基于云数据中心分布式文本摘要方法，其特征在于，单词级别BERT模型设置随机单词挖空预训练任务，15％的单词会被挖空，其中这些挖空的单词80％用遮掩令牌代替，10％用随机单词代替，10％维持原有单词，预测出那些被挖空的单词，学习到单词的前后语义连贯性。

3.根据权利要求2所述的基于云数据中心分布式文本摘要方法，其特征在于，单词级别BERT模型设置下一句子预测预训练任务，输入两个句子，后输入的句子50％几率是前一个输入的句子的连续句子，50％是文档中的随机句子，目标是判断这两个句子是否是连续句子，用于学习句子上下文的连贯性。

4.根据权利要求3所述的基于云数据中心分布式文本摘要方法，其特征在于，在句子级别BERT模型中设置不同句子的遮掩令牌相隔0.1以区分不同句子的输入。

5.根据权利要求4所述的基于云数据中心分布式文本摘要方法，其特征在于，句子级别BERT模型设计了随机互换句子顺序恢复预训练任务，把输入句子随机调换顺序，目标是恢复各个句子所在的正确位置，使模型能够感知句子的次序关系。

6.根据权利要求5所述的基于云数据中心分布式文本摘要方法，其特征在于，句子级别BERT模型设计了随机挖空句子预训练任务，随机挖空输入句子，对挖空句子进行预测，概率设置同单词级别的随机挖空单词，该任务使模型学习到全局上下文语义信息。

7.根据权利要求6所述的基于云数据中心分布式文本摘要方法，其特征在于，所述步骤S3的具体过程是：

1)、采用K-Means聚类算法进行文本摘要生成：定义生成的摘要中句子数量

3)、对于每一个类别下的各组句子计算他们的类别中心：取该类别下所有句子向量的平均值，即

其中

表示该类别新的中心句子，|S_category|表示该类别所含的句子数量，重新计算除新的中心句子之外的其他句子到各个中心句子的距离，进行重新归类；经过K轮，中心句子不再变化时，认为聚类算法收敛；经过KMeans聚类算法后，得到|S_summary|个中心句子，这些中心句子将作为最终摘要生成的内容，按照句子在文中的相对顺序进行排序，得到最终生成的摘要。

8.根据权利要求7所述的基于云数据中心分布式文本摘要方法，其特征在于，所述步骤S4的具体过程是：

用ROUGE评价指标来评价生成的摘要和参考摘要的匹配度，得分越高越好；所述的ROUGE评价指标使用ROUGE-1，ROUGE-2，ROUGE-L这三个指标。