CN116150348B

CN116150348B - 用于长文本的混合无监督摘要生成方法

Info

Publication number: CN116150348B
Application number: CN202310436622.8A
Authority: CN
Inventors: 魏建香; 周钰锦; 陈佳华; 陈宇行; 陈之航
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-14
Anticipated expiration: 2043-04-23
Also published as: CN116150348A

Abstract

本发明提供了一种用于长文本的混合无监督摘要生成方法，首先利用自然语言处理分析工具对源文本进行分句，重组分段。然后通过文本生成模型生成中心文本片段集合。之后利用重复单词块阻断技术消除中心文本片段的文本冗余度，并且获得与每个中心文本片段关联的权重集。最后通过计算源文本句子与中心文本片段之间的相似度分数InfoLMScore，最后根据得分提取摘要。本发明对源文本进行分句，将分句后的文本进行分段重组为几个短文本片段，有利于拓展用于任何长度的源文本数据集，提高模型的普适性。

Description

用于长文本的混合无监督摘要生成方法

技术领域

本发明涉及一种用于长文本的混合无监督摘要生成方法，属于计算机应用技术领域。

背景技术

文本摘要技术帮助读者从新闻文章、小说、书籍、法律文件、生物医学文献和科学论文等档案中获取必要信息。此前的研究侧重于短文本可用文本领域，例如新闻和短对话。如今，大数据时代的信息增长速度已导致处理和汇总文档的长度和数量呈指数级增长。因此，现如今对长文档摘要领域的详尽研究有着强烈的需求。

目前，长文档摘要的方法可分为以下两种：基于transformer的方法和基于图的方法。尽管第一种方法在获取语义知识方面取得了重大进展，但在获取源文本长度方面也引入了新的限制。现有研究用于处理长文本输入规则的标准方法是将输入减少为短文本，这可以通过截断输入或使用检索式汇总管道来实现。然而，这些方法打破了上下文依赖性，减少了模型可以读取的单词数量，即模型的接受域。其次，为了解决上述问题，有人提出了一种分层学习方法。但其中大多数是有监督的学习方法，需要大量标记的数据，而这些数据的生成和获取往往耗时且昂贵。第二种方法是一种典型的无监督方法，通过经典的图结构将源文档内容映射到图网络。现有研究将基于图和基于transformer的技术结合在扩展文本摘要中。然而，这些无监督的基于图形的方法在有效呈现源文本事实方面存在缺陷。现有的长文本摘要技术不能很好的获取源文本全部内容，无法较好的捕捉源文的语义信息，并且不能有效的呈现源文本的事实和关键信息。

有鉴于此，确有必要提出一种用于长文本的混合无监督摘要生成方法，以解决上述问题。

发明内容

本发明的目的在于提供一种用于长文本的混合无监督摘要生成方法，用以解决获取标记数据困难、长文本输入限制、难以捕捉长文本语义信息等问题。

为实现上述目的，本发明提供了一种用于长文本的混合无监督摘要生成方法，主要包括以下步骤：

步骤1、文本段落分割：对源文本D先分句，分句后源文本

，然后将分割的句子按顺序组成为多个短文本片段，每个短文本片段包含的句子数量少于M个，在进行段落重组后，源文本/>

，其中m为短文本片段的个数，每个短文本片段包含相同的句子数目；

步骤2、中心文本片段生成：在中心文本片段生成阶段，将步骤1中文本分割生成的m个短文本片段作为生成模型的输入，生成模型会为每个短文本片段生成相同数量的k个中心文本片段，最后将这些中心文本片段组合得到

，mk为中心文本片段的总数；

步骤3、中心文本片段权重生成：利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度，获得新的中心文本片段

，所述中心文本片段是步骤2中心文本片段C的子集，此外利用重复单词块技术计算每个中心文本片段的文本冗余度，为每个中心文本片段生成权重，中心文本片段权重集

；

步骤4、计算源文本每个句子的信息分数InfoLMScore：

步骤5、生成摘要：通过步骤4计算得到每个句子的信息分数InfoLMScore之后，选取分数排名前几的源文本的句子，然后按照源文本顺序对这些句子进行重组生成最终摘要。

作为本发明的进一步改进，步骤1中，利用自然语言处理分析工具对源长文本D进行分句，分句处理后源长文本

，n为源长文本包含句子总数，然后对句子在源文本出现的顺序进行重组分段，得到最多包含M个句子的短段落，句子重组分段后源文本/>

，m为段落的总数。

作为本发明的进一步改进，步骤2具体包括以下步骤：首先调用T5文本生成模型，然后将分段后的每个短文本片段作为文本生成模型的输入，文本生成模型会为每个短文本片段生成相同数量的k个代表每个短文本片段中心思想的中心文本片段，最后将每个短文本片段对应的中心文本片段重组得到中心文本片段集合

。

作为本发明的进一步改进，所述T5文本生成模型为doc2query/S2ORC-t5-base-v1。

作为本发明的进一步改进，步骤3具体包括以下步骤：首先选择重复单词块阻断技术的重复单词块包含单词数目N，然后对每个中心文本片段前N个单词进行匹配，若有多个中心文本片段前N个单词数量，则将这些重复的单词块进行删除，最后得到剩余的中心文本片段集合

，所述中心文本片段集合是步骤2中获得的中心文本片段C的子集。

作为本发明的进一步改进，步骤3还包括以下步骤：利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度，获得新的中心文本片段

，所述中心文本片段是步骤2中心文本片段C的子集，并利用重复单词块技术计算每个中心文本片段的文本冗余度，为每个中心文本片段生成权重，中心文本片段权重集/>

。

作为本发明的进一步改进，所述信息分数InfoLMScore包括

分数和/>

分数。

作为本发明的进一步改进，所述

分数和所述

分数分别为：

，

，

其中，wl表示每个第l个中心文本片段的权重，

表示源文第i个句子和第l个中心文本片段的AB分歧分数，/>

表示源文第i个句子和第l个中心文本片段的/>

距离分数。

作为本发明的进一步改进，步骤4具体包括以下步骤：将每个中心文本片段与源文本的每个句子进行匹配，调用InfoLM类，分别求得源文本每个句子的

分数或/>

距离分数，然后利用相应中心文本片段的权重与之某一分数相乘就得到了该句子对应得信息分数InfoLMScore。

作为本发明的进一步改进，步骤5具体包括以下步骤：源文本中每个句子与每个中心文本片段得到一个信息分数InfoLMScore，对每个句子所得的l个信息分数InfoLMScore进行求和求平均，然后对每个句子的信息分数InfoLMScore的平均值从高到低进行排序，依次选择排名前q的句子，对选择出来的句子按照其在源文本出现的顺序进行排序重组，生成源文本的最终摘要。

本发明的有益效果是：本发明对源文本进行分句，将分句后的文本进行分段重组为几个短文本片段，有利于拓展用于任何长度的源文本数据集，提高模型的普适性。

附图说明

图1为本发明用于长文本的混合无监督摘要生成方法的技术路线图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

另外，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

如图1所示，本发明提供了提供一种用于长文本的混合无监督摘要方法，首先利用自然语言处理分析工具Stanford CoreNLP对源文本进行分句，重组分段。然后通过文本生成模型生成中心文本片段集合。之后利用重复单词块阻断技术消除中心文本片段的文本冗余度，并且获得与每个中心文本片段关联的权重集。最后通过计算源文本句子与中心文本片段之间的相似度分数InfoLMScore，最后根据得分提取摘要，主要包括以下步骤：

步骤1、文本段落分割：对源文本D先分句，分句后源文本

步骤2、中心文本片段生成：在中心文本片段生成阶段，将步骤1中文本分割生成的m个短文本片段作为生成模型doc2query/S2ORC-t5-base-v1的输入。生成模型会为每个短文本片段生成相同数量的k个中心文本片段。最后将这些中心文本片段组合得到

，mk为中心文本片段的总数；

，所述中心文本片段是步骤2中心文本片段C的子集。此外利用重复单词块技术计算每个中心文本片段的文本冗余度，为每个中心文本片段生成权重，中心文本片段权重集

；

步骤4、计算源文本每个句子的信息分数InfoLMScore：信息分数InfoLMScore包含两种，

分数和/>

分数，/>

针对于科学文献效果好，/>

针对于生物医药文献效果好，分数定义公式如下：

，

，

其中，wl表示每个第l个中心文本片段的权重，

表示源文第i个句子和第l个中心文本片段的AB分歧分数，/>

表示源文第i个句子和第l个中心文本片段的/>

距离分数；

步骤5、生成摘要：通过步骤4计算得到每个句子的InfoLMScore分数之后，选取分数排名前几的源文本的句子，然后按照源文本顺序对这些句子进行重组生成最终摘要。

以下将对步骤1-5进行详细说明。

步骤1中，所述文本段落分割步骤利用自然语言处理分析工具Stanford CoreNLP对源长文本D进行分句，分句处理后源长文本

，m为段落的总数。

步骤2中的中心文本片段生成步骤具体为：首先调用T5文本生成模型doc2query/S2ORC-t5-base-v1，然后将分段后的每个短文本片段作为文本生成模型的输入，文本生成模型会为每个短文本片段生成相同数量的k个代表每个短文本片段中心思想的中心文本片段，最后将每个短文本片段对应的中心文本片段重组得到中心文本片段集合

。

步骤3中的文本冗余度消除步骤具体为：首先选择重复单词块阻断技术的重复单词块包含单词数目N，然后对每个中心文本片段前N个单词进行匹配，若有多个中心文本片段前N个单词数量，则将这些重复的单词块进行删除，最后得到剩余的中心文本片段集合

以下表1是通过文本冗余度消除之后获得的某一篇文章的中心文本片段：

表1

。

步骤4中的计算源文本每个句子的信息分数InfoLMScore步骤具体为：将每个中心文本片段与源文本的每个句子进行匹配，调用InfoLM类，分别求得源文本每个句子的

分数或/>

步骤5生成摘要的步骤具体为：源文本中每个句子与每个中心文本片段得到一个信息分数InfoLMScore，对每个句子所得的l个信息分数InfoLMScore进行求和求平均，然后对每个句子的信息分数InfoLMScore的平均值从高到低进行排序，依次选择排名前q的句子，对选择出来的句子按照其在源文本出现的顺序进行排序重组，生成源文本的最终摘要。

以下表2是通过打分后按照InfoLMScore选择的分数排名前9的句子，生成源文本的最终摘要：

表2

综上所述，本发明对源文本进行分句，将分句后的文本进行分段重组为几个短文本片段，有利于拓展用于任何长度的源文本数据集，提高模型的普适性。同时也能捕捉源文本的所有语义信息；利用无监督文本生成模型可以不用获取大量的标记数据对模型进行训练，节约时间，节省人力物力财力；利用重复单词块技术消除中心文本片段的重复单词块有利于消除文本的冗余度和增加文本关键信息的覆盖度，同时也能有一个相应的权重用于后续量化两文本相似度，计算信息分数InfoLMScore；利用中心文本片段和源文本匹配，指导最终摘要的生成，有利于生成的摘要保证与源文本的事实一致性。同时中心文本片段包含每个短文本片段的关键信息，生成的摘要能够包含源文本所有的关键信息；利用两种信息分数InfoLMScore分别进行文本相似度的量化，其中

相较于科学文献生成摘要的事实一致性和连贯性较好，而/>

相较于生物医药类文献生成摘要的流利性较好，因此使用两种分数量化能够让模型适用于更广领域的摘要，用户也可以对不同分数生成摘要的好坏进行判断，选择较好的摘要。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种用于长文本的混合无监督摘要生成方法，其特征在于，主要包括以下步骤：

步骤1、文本段落分割：对源文本D先分句，分句后源文本

，mk为中心文本片段的总数；

，所述中心文本片段是步骤2中心文本片段C的子集，此外利用重复单词块技术计算每个中心文本片段的文本冗余度，为每个中心文本片段生成权重，中心文本片段权重集/>

；

步骤4、计算源文本每个句子的信息分数InfoLMScore，首先我们分别计算中心文本片段和源文本每一个句子的AB-Divergences和Fisher-Rao distance分数，这两个度量都能够提高文本的覆盖率和鲁棒性，然后将源文本的每个句子的分数进行平均，作为量化两个文本之间的相似性分数，最后通过对这些分数进行加权，得出源文本每一个句子的信息分数InfoLMScore：

2.根据权利要求1所述的用于长文本的混合无监督摘要生成方法，其特征在于：步骤1中，利用自然语言处理分析工具对源长文本D进行分句，分句处理后源长文本

，n为源长文本包含句子总数，然后对句子在源文本出现的顺序进行重组分段，得到最多包含M个句子的短段落，句子重组分段后源文本

，m为段落的总数。

3.根据权利要求1所述的用于长文本的混合无监督摘要生成方法，其特征在于：步骤2具体包括以下步骤：首先调用T5文本生成模型，然后将分段后的每个短文本片段作为文本生成模型的输入，文本生成模型会为每个短文本片段生成相同数量的k个代表每个短文本片段中心思想的中心文本片段，最后将每个短文本片段对应的中心文本片段重组得到中心文本片段集合

。

4.根据权利要求3所述的用于长文本的混合无监督摘要生成方法，其特征在于：所述T5文本生成模型为doc2query/S2ORC-t5-base-v1。

5.根据权利要求1所述的用于长文本的混合无监督摘要生成方法，其特征在于：步骤3具体包括以下步骤：首先选择重复单词块阻断技术的重复单词块包含单词数目N，然后对每个中心文本片段前N个单词进行匹配，若有多个中心文本片段前N个单词数量，则将这些重复的单词块进行删除，最后得到剩余的中心文本片段集合

6.根据权利要求5所述的用于长文本的混合无监督摘要生成方法，其特征在于：步骤3还包括以下步骤：利用重复单词块阻断技术消除步骤2中获得的中心文本片段的文本冗余度，获得新的中心文本片段

。

7.根据权利要求1所述的用于长文本的混合无监督摘要生成方法，其特征在于：所述信息分数InfoLMScore包括

分数和/>

分数。

8.根据权利要求7所述的用于长文本的混合无监督摘要生成方法，其特征在于：所述

分数和所述/>

分数分别为：

，

，

其中，wl表示每个第l个中心文本片段的权重，

表示源文第i个句子和第l个中心文本片段的AB分歧分数，/>

表示源文第i个句子和第l个中心文本片段的/>

距离分数。

9.根据权利要求8所述的用于长文本的混合无监督摘要生成方法，其特征在于：步骤4具体包括以下步骤：将每个中心文本片段与源文本的每个句子进行匹配，调用InfoLM类，分别求得源文本每个句子的

分数或/>

距离分数，然后利用相应中心文本片段的权重与之某一分数相乘就得到了该句子对应得InfoLMScore分数。

10.根据权利要求1所述的用于长文本的混合无监督摘要生成方法，其特征在于：步骤5具体包括以下步骤：源文本中每个句子与每个中心文本片段得到一个信息分数InfoLMScore，对每个句子所得的l个信息分数InfoLMScore进行求和求平均，然后对每个句子的信息分数InfoLMScore的平均值从高到低进行排序，依次选择排名前q的句子，对选择出来的句子按照其在源文本出现的顺序进行排序重组，生成源文本的最终摘要。