CN113626582A

CN113626582A - 基于内容选择和融合的两阶段摘要生成方法及系统

Info

Publication number: CN113626582A
Application number: CN202110775512.5A
Authority: CN
Inventors: 周刚; 章梦礼; 黄宁博; 卢记仓; 兰明敬; 陈烨
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-11-09
Anticipated expiration: 2041-07-08
Also published as: CN113626582B

Abstract

本发明属于自然语言处理技术领域，特别涉及一种基于内容选择和融合的两阶段摘要生成方法及系统，统计文档文本数据集，通过滑动窗口提取单句及相邻句子对，组成实例集合；依据参考摘要，选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型；针对目标文档，通过滑动窗口提取由单句及相邻句子对组成的目标实例集合，并利用训练优化后的编码解码器模型生成目标文档的摘要信息。本发明从输入文本中提取单个句子和相邻若干个句子来组成实例集合，并利用微调的BERT分类器去选择具有高信息性和事实正确性的实例作为摘要候选通过编码解码器模型生成摘要句子，显著提高生成摘要的效率、可读性、简洁性和事实正确性。

Description

基于内容选择和融合的两阶段摘要生成方法及系统

技术领域

本发明属于自然语言处理技术领域，特别涉及一种基于内容选择和融合的两阶段摘要生成方法及系统。

背景技术

随着互联网的普及和发展，网上的文本数据不断累积，信息过载问题变得越来越严重，如何快速，完整和准确地从大规模数据中搜索所需信息，并快速获取信息要点成为一个迫在眉睫的问题。因此，对各类文本数据进行“降维”处理成为必要。在大数据时代，自动摘要系统为大规模文本数据的快速处理提供了有效的解决方案。

自动文本摘要系统的主要目的是在保留原始输入的主旨的同时，生成简洁、可读性强和事实正确的摘要。目前主要存在两种自动文本摘要技术：抽取式和生成式。抽取式文本摘要技术直接从原文中选择重要的句子或者短语来构成摘要，可以看作是对原文的简单压缩。生成式文本摘要技术在充分理解原文的基础上，来进行总结和生成，能够生成原文中不存在的新单词和短语。与抽取式方法相比，生成式方法更接近人类撰写摘要的方式。因此，近年来随着深度学习和神经网络技术的发展，生成式摘要逐渐成为主流。但是，生成式摘要也带来了更多的挑战。它必须首先完全理解输入文本的语义信息，然后裁剪、压缩、修改和融合原始文本中的句子，这对于机器来说仍然是一项非常困难的工作。因此，由机器生成的摘要经常存在与原文事实不一致的内容，并且研究发现由生成式系统生成的摘要中有大约30％的摘要存在事实性错误。事实上，对于自然语言处理领域的下游任务，例如数据挖掘、推荐系统和信息检索等，如果生成的摘要中存在如此多的事实性错误，那么将会是毫无用处的。然而，早先的研究主要专注于从语言学上优化模型，以提高生成的摘要的信息性(包含原文中的主旨)，这固然取得了较高的ROUGE得分，但是摘要中的一些事实却与原文相悖，这直接决定了生成的摘要的可用性。

近年来，在自然语言生成领域，基于关键信息提取的内容选择方法和基于强化学习的训练方法取得了很好的效果，得到了广泛关注。前者能够直接从输入文本中选择出包含原文主旨的内容以供下游任务使用，后者通过在损失函数中增加奖励得分来控制模型的生成方向。但是，一方面目前在进行内容选择时仍然没有考虑所选择的内容包含的事实是否是原文所关注的事实，导致引入了冗余事实；另一方面，事实性得分奖励的设计和构造在强化学习中仍然是一个难点。综上所述，如何在生成式摘要模型中融合这两种方法的优点，并且设计一个高效的事实正确性得分函数是未来一个重要的研究方向。

发明内容

为此，本发明提供一种基于内容选择和融合的两阶段摘要生成方法及系统，以提高生成的摘要的可读性、简洁性和事实正确性，便于在大数据、人工智能等领域中数据提炼总结处理。

按照本发明所提供的设计方案，一种基于内容选择和融合的两阶段摘要生成方法，包含：

统计文档文本数据集，通过滑动窗口提取单句及相邻句子对，组成实例集合；

依据参考摘要，选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型；

针对目标文档，通过滑动窗口提取由单句及相邻句子对组成的目标实例集合，并利用训练优化后的编码解码器模型生成目标文档的摘要信息。

作为本发明基于内容选择和融合的两阶段摘要生成方法，进一步地，提取单句及相邻句子对中，通过设定滑动窗口尺寸大小，从目标文档文本数据集中提取多个相邻句子，并通过移动滑动窗口来获取若干相邻句子对；并依次增加单句来提取目标文档文本数据集中所有单句的相邻句子对。

作为本发明基于内容选择和融合的两阶段摘要生成方法，进一步地，选取候选摘要实例中，利用实例集合中实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合，并利用带标签的实例集合优化BERT分类器；利用优化后的BERT分类器从摘要-实例对集合中选取候选摘要实例。

作为本发明基于内容选择和融合的两阶段摘要生成方法，进一步地，利用实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合，依据得分函数从实例集合中选取与参考摘要得分最高的实例，并从参考摘要句子中删除该得分最高的实例中的单词，生成新的参考摘要；基于新的参考摘要和得分情况依次从实例集合中选取下一个实例，最终得到摘要-实例对集合，并依据实例能否生成摘要来获取带标签的实例集合。

作为本发明基于内容选择和融合的两阶段摘要生成方法，进一步地，得分函数表示为：f(I_i,s_m)＝λ₁R(I_i,s_m)+λ₂E(I_i,s_m)，其中，R(I_i,s_m)表示ROUGE得分，E(I_i,s_m)是蕴含得分，λ₁∈[0,1]、λ₂∈[0,1]表示信息性和事实正确性的平衡因子，并且λ₁+λ₂＝1，I_i表示实例集合中选择的序号为i的实例，s_m表示参考摘要句子。

作为本发明基于内容选择和融合的两阶段摘要生成方法，进一步地，选取候选摘要实例中，采用最大边缘相关性MMR原则选择得分最高的实例，其中，选择得分计算公式表示为：

P(I)表示BERT分类器输出得分，μ表示平衡因子，

由事实冗余和n-gram冗余组成的冗余分数，且

是候选实例I和部分参考摘要

之间的余弦相似性，

候选实例I和部分参考摘要

之间的事实一致性得分。

作为本发明基于内容选择和融合的两阶段摘要生成方法，进一步地，编码解码器模型训练优化中，利用强化学习策略优化编码解码器模型的混合目标学习函数，其中，混合目标学习函数表示为：

λ表示缩放因子且λ∈[0,1]，

作为条件语言模型来控制生成摘要的可读性，

通过奖励函数控制生成摘要的信息性，

通过奖励函数控制生成摘要的事实一致性。

进一步地，本发明还提供一种基于内容选择和融合的两阶段摘要生成系统，包含：实例提取模块、模型训练模块及摘要生成模块，其中，

实例提取模块，用于统计文档文本数据集，通过滑动窗口提取单句及相邻句子对，组成实例集合；

模型训练模块，用于依据参考摘要，选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型；

摘要生成模块，用于针对目标文档，通过滑动窗口提取由单句及相邻句子对组成的目标实例集合，并利用训练优化后的编码解码器模型生成目标文档的摘要信息。

本发明的有益效果：

本发明从输入文本中提取单个句子和相邻若干个句子来组成实例集合，并利用微调的BERT分类器去选择具有高信息性和事实正确性的实例作为摘要候选，将选择的实例输入到精心构造的基于Transformer的编码解码器生成式摘要模型中去生成摘要句子，显著提高生成摘要的可读性、简洁性和事实正确性，便于用户直观清楚了解文本信息，提升用户体验度，具有较好的应用前景。

附图说明：

图1为实施例中基于内容选择和融合的两阶段摘要生成流程示意；

图2为实施例中两阶段摘要生成原理示意；

图3为实施例中基于滑动窗口的实例提取示意；

图4为实施例中基于BERT的分类器示意；

图5为实施例中基于Transformer的生成式摘要模型示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

本发明实施例，提供一种基于内容选择和融合的两阶段摘要生成方法，参见图1所示，包含：

S101、统计文档文本数据集，通过滑动窗口提取单句及相邻句子对，组成实例集合；

S102、依据参考摘要，选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型；

S103、针对目标文档，通过滑动窗口提取由单句及相邻句子对组成的目标实例集合，并利用训练优化后的编码解码器模型生成目标文档的摘要信息。

本发明从输入文本中提取单个句子和相邻若干个句子来组成实例集合，并利用微调的BERT分类器去选择具有高信息性和事实正确性的实例作为摘要候选，消除事实冗余，将选择的实例输入到精心构造的基于Transformer的编码解码器生成式摘要模型中去生成摘要句子，显著提高生成摘要的效率、可读性、简洁性和事实正确性，便于用户直观清楚了解文本信息，提升用户体验度，降低设备运行负荷。

在具体实施中，可参见图2所示，内容选择模块用于利用滑动窗口提取由单句和相邻句子对组成的实例集合、利用所提取的实例和参考摘要之间的蕴含得分和ROUGE得分来构造两个ground-truth训练集、利用构造的数据集来训练基于BERT的内容选择器；摘要生成模块用于将从原文中选择的单句和句子对作为输入，利用基于Transformer的生成式摘要模型对输入进行识别和总结，来生成原文的简短摘要；策略学习模块用于通过构造一个混合目标学习函数来采用强化学习的方法联合训练基于Transformer的摘要生成模型，使模型具有感知事实的能力。

作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法，进一步地，提取单句及相邻句子对中，通过设定滑动窗口尺寸大小，从目标文档文本数据集中提取多个相邻句子，并通过移动滑动窗口来获取若干相邻句子对；并依次增加单句来提取目标文档文本数据集中所有单句的相邻句子对。滑动窗口大小根据实际使用情况可设定为3，用来提取原文中的单句和相邻句子对组成实例训练集。

对文本数据集进行统计分析过程中，可发现在同一个文档中相隔较远的句子，它们相关性往往比较低，这意味着在生成摘要时它们不会被合并。因此，本案实施例中，通过对相邻句子的融合和压缩并基于中心句子创建用于训练的实例集合。为了实现这一目标，设定维持一个尺寸为3的滑动窗口，来从输入文档

中提取多个相邻句子，如图3所示。通过移动滑动窗口，能够得到N-2个相邻的句子对。最后，通过增加所有单个句子，得到输入文档的完整的实例集合

总共包含2N-2个实例。

作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法，进一步地，选取候选摘要实例中，利用实例集合中实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合，并利用带标签的实例集合优化BERT分类器；利用优化后的BERT分类器从摘要-实例对集合中选取候选摘要实例。进一步地，利用实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合，依据得分函数从实例集合中选取与参考摘要得分最高的实例，并从参考摘要句子中删除该得分最高的实例中的单词，生成新的参考摘要；基于新的参考摘要和得分情况依次从实例集合中选取下一个实例，最终得到摘要-实例对集合，并依据实例能否生成摘要来获取带标签的实例集合。

为了进行更加细粒度的内容选择和摘要生成，本案实施例中利用实例和参考摘要之间的蕴含关系和ROUGE-2得分去构造训练集合。目的是找到与每个参考摘要句子s_m相关联的原始输入句子，他们可作为实例集合的子集

这些实例就是组成摘要句子s_m的“原料”。为此，本案实施例中通过构造了一个得分函数，来充分考虑所选实例的信息性和事实一致性，构造的得分函数f(·)表示为：

f(I_i,s_m)＝λ₁R(I_i,s_m)+λ₂E(I_i,s_m)

其中，R(I_i,s_m)是ROUGE-2得分，E(I_i,s_m)是蕴含得分，通过事实一致性检测模型FactCC计算得到。λ₁∈[0,1]，λ₂∈[0,1]是信息性和事实正确性的平衡因子，并且λ₁+λ₂＝1。I_i表示选择的实例，s_m表示参考摘要句子。首先，选择具有最高得分的实例

为了尽可能避免冗余，从s_m中删除所有出现在

中的单词，生成一个新的参考摘要句子s′_m，从而有效地删除了所有已经被实例捕获的信息。类似地，基于新的参考摘要句子s′_m来选择第二个实例

然后，得到了一个ground-truth摘要-实例对集合

其中

为了训练模型，可限制

为两个单句或者一个长度为3的相邻句子对，这几乎包含了所有的情况。此外，也移除所有空的ground-truth集合。最终，得到两个训练集：带标签的实例集合，对于所有实例，如果它能够作为生成摘要的“原材料”则标记为1，否则标记为0，这个实例集合被用于微调BERT分类器；摘要-实例对集合，由摘要句子和它对应的原始输入句子组成，被用于训练摘要生成模型。

作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法，进一步地，选取候选摘要实例中，采用最大边缘相关性MMR原则选择得分最高的实例。

利用构造的带标签的ground-truth实例集合去微调BERT分类器，如图4所示。这些实例是输入文档中的单个句子或多个句子，能够表达输入文档的关键信息。在测试时，给定输入文档D，可首先提取它的所有实例集合，然后使用微调好的BERT分类器计算每个实例的得分。在进行实例选择时，采用最大边缘相关性(MMR)原则选择得分最高的实例，能够避免冗余。每一个候选实例的得分计算公式可表示为：

其中，P(I)是BERT的输出得分，μ是平衡因子，

是由事实冗余和n-gram冗余组成的冗余分数，计算为：

其中，

是候选实例I和部分参考摘要

之间的余弦相似性，

它们之间的事实一致性得分。依次重复迭代，直到生成终止令牌或达到最大摘要长度为止。通过这种方式，能够避免摘要系统生成冗余的事实描述和重复的摘要句子。

作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法，进一步地，编码解码器模型训练优化中，利用强化学习策略优化编码解码器模型的混合目标学习函数。

基于Transformer的编解码器模型架构中，利用内容选择模块生成的摘要句子-实例对来训练模型，如图5所示，编解码器模型可采用6层的Transformer块，12个头。

策略学习中，对输入文档进行细粒度的内容选择，用选择的内容来生成更符合人类习惯的摘要。训练时，不对文档-摘要进行训练，仅仅训练通过内容选择模块得到的ground-truth摘要句子-实例对，这些实例是生成摘要句子的原材料。因此，对于每个摘要句子-实例对

需要评估生成的摘要句子s′_m和参考摘要句子s_m之间的事实正确性。本案实施例中可利用事实一致性检测模型FactCC去评估生成的摘要的事实正确性。FactCC模型与其他同类的事实评估模型相比在(文档，句子)和(句子，句子)场景中表现更好，这与本案需求相吻合。在构建ground-truth实例时，去比较句子对和摘要句子，并且在评估事实正确性时，也需要比较两个单独的摘要句子。

进一步地，本案实施例中，尝试从不同的角度来优化基于Transformer的编码解码器摘要生成模型。因此，可采用强化学习策略，共同优化一个混合目标学习函数，提高所产生的摘要的信息性和事实正确性。在图2中，将摘要模型看作一个代理，其接收输入实例

然后生成摘要句子s′_m。为了全面评估生成的摘要句子s′_m的质量，本案实施例可为代理的行为设计不同的奖励函数r(s′_m)。在训练时，代理根据奖励来优化模型的参数θ，直到收到最大预期奖励为止。

进一步地，本案实施例可采用self-critical训练策略来训练摘要生成模型。具体地，在完成模型的每个训练迭代后，构建两个独立的输出序列：y_s，通过对输出概率分布p(y_t|y₁,…,y_t-1；x,θ)进行采样得到；

作为基线输出是一个贪婪的解码序列。因此，得到如下学习策略：

其中，r(y)是一个奖励函数，用于计算输出序列的奖励得分。

基于此，可定义一个奖励函数r为：

r＝r_R+r_S

其中，r_R∈[0,1]是ROUGE奖励，通过计算生成的摘要句子和参考摘要句子之间的ROUGE-2分数来得到。r_S∈[0,1]是事实一致性奖励，通过FactCC模型计算得到。为此，本案实施例中，混合目标学习函数可表示为：

其中，λ∈[0,1]是一个缩放因子。本发明的混合目标学习函数能够从以下三个方面共同优化生成的摘要：

作为条件语言模型来控制生成的摘要的可读性；

通过鼓励模型生成具有高ROUGE得分的句子来优化生成的摘要的信息性；S鼓励模型生成与原文事实一致的句子，来优化摘要的事实正确性。

进一步地，基于上述的方法，本发明实施例还提供一种基于内容选择和融合的两阶段摘要生成系统，包含：实例提取模块、模型训练模块及摘要生成模块，其中，

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法和/或系统，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

基于上述的方法和/或系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于内容选择和融合的两阶段摘要生成方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于内容选择和融合的两阶段摘要生成方法，其特征在于，提取单句及相邻句子对，通过设定滑动窗口尺寸大小，从目标文档文本数据集中提取多个相邻句子，并通过移动滑动窗口来获取若干相邻句子对；并依次增加单句来提取目标文档文本数据集中所有单句的相邻句子对。

3.根据权利要求1或2所述的基于内容选择和融合的两阶段摘要生成方法，其特征在于，选取候选摘要实例中，利用实例集合中实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合，并利用带标签的实例集合优化BERT分类器；利用优化后的BERT分类器从摘要-实例对集合中选取候选摘要实例。

4.根据权利要求3所述的基于内容选择和融合的两阶段摘要生成方法，其特征在于，利用实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合，依据得分函数从实例集合中选取与参考摘要得分最高的实例，并从参考摘要句子中删除该得分最高的实例中的单词，生成新的参考摘要；基于新的参考摘要和得分情况依次从实例集合中选取下一个实例，最终得到摘要-实例对集合，并依据实例能否生成摘要来获取带标签的实例集合。

5.根据权利要求4所述的基于内容选择和融合的两阶段摘要生成方法，其特征在于，得分函数表示为：f(I_i,s_m)＝λ₁R(I_i,s_m)+λ₂E(I_i,s_m)，其中，R(I_i,s_m)表示ROUGE得分，E(I_i,s_m)是蕴含得分，λ₁∈[0,1]、λ₂∈[0,1]表示信息性和事实正确性的平衡因子，并且λ₁+λ₂＝1，I_i表示实例集合中选择的序号为i的实例，s_m表示参考摘要句子。

6.根据权利要求3所述的基于内容选择和融合的两阶段摘要生成方法，其特征在于，选取候选摘要实例中，采用最大边缘相关性MMR原则选择得分最高的实例，其中，选择得分计算公式表示为：