CN115905510A

CN115905510A - 一种文本摘要生成方法及系统

Info

Publication number: CN115905510A
Application number: CN202211392513.2A
Authority: CN
Inventors: 刘铭; 张鹤; 李沄沨; 许若华; 田阳杰; 吴冠昊; 崔赫; 候学杰; 蔡欣达
Original assignee: Cetc Digital Intelligence Technology Beijing Co ltd
Current assignee: Cetc Digital Intelligence Technology Beijing Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-04-04

Abstract

本发明是关于一种文本摘要生成方法及系统。该方法包括：对文本进行预处理；提取所述文本中的关键词；采用BERTopic方法预训练类标签分类器，提取所述文本的类标签；根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句；结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要。本发明提供的技术方案，基于信息论中的信息瓶颈技术，通过融合关键词提取，聚类和预训练语言模型的表示学习，对长文本进行自动通顺摘要生成。不仅对任何领域的长文档都有效，包括学术文章政府报告等，同时不需要人工构建训练语料，且不依赖于文本的语言种类。

Description

一种文本摘要生成方法及系统

技术领域

本发明涉及文本处理领域，尤其涉及一种文本摘要生成方法及系统。

背景技术

在自然语言处理快速发展的今天，文本自动摘要已经被应用在各种场景：例如新闻题目标题生成，学术摘要撰写等。可靠的文本摘要模型需要多个要素：准确的文本表示，覆盖上下文的分析，篇章结构信息的提取和通顺的自然语言生成。

随着数字信息技术的发展，越来越多的文献检索机构希望可以使用计算机自动总结刊论文中的文本信息。现有文本技术分为两种：一种抽取式文本摘要，即忽略输入文本的结构信息，对文本进行分句后提取全文的关键句，典型算法有TextRank；另一种是生成式摘要，即采用序列到序列的训练方法，构造大规模的篇章摘要训练对，依赖Transformer模型进行端对端的训练，典型的模型有T5，BART。

基于抽取式的方法将文本摘要转换成了信息检索的任务，对输入文本的所有句子进行排序后选择排名靠前的关键句子作为最终的摘要。然而，用这种方法输出的摘要通畅性较差，而且这些关键局的数量选择也难以把控，很大程度上依赖于输入文本的长度。

基于生成式方案则高度依赖序列到序列的训练模型。利用这种方法主要有两个缺点；首先需要构造大规模的训练语料，目前这些语料大多来源于新闻领域，人工构造这些语料难度大时间成本高。其次是序列到序列的模型不能很好地对长文本进行建模，目前利用Transformer编码器最长可支持4096个单词输入，对更长的文本输入的学习表示难以用Transformer模型进行训练学习。

发明内容

为克服相关技术中存在的问题，本发明提供一种文本摘要生成方法及系统。

根据本发明实施例的第一方面，提供一种文本摘要生成方法，包括：

对文本进行预处理；

提取所述文本中的关键词；

采用BERTopic方法预训练类标签分类器，提取所述文本的类标签；

根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句；

结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要。

进一步，所述对文本进行预处理，具体包括：

将输入文本的所有句子进行切分，只保留句子长度大于预设长度的句子。

进一步，所述提取所述文本中的关键词，具体包括：

采用RAKE算法进行关键词提取，基于停用词和标点符号对所有句子进行分词处理，进而提取所有的实体词汇短语；

构建所述实体词汇短语的共现频度矩阵；

根据所述共现频度矩阵计算每个所述实体词汇短语的关键值；

通过对所述关键值的排序从所述实体词汇短语中抽取出排名靠前的关键词。

进一步，所述采用BERTopic方法预训练类标签分类器，提取所述文本的类标签，具体包括：

将预训练语言模型BERT在所述文本上进行微调；

利用微调好的BERT对所述文本进行向量表示；

利用UMAP降维算法对所有文本向量进行降维处理，然后利用DBSCAN算法对降维后的文本向量进行聚类；

根据聚类结果提取每个簇下面tfidf值超过预设阈值的词语作为每个簇的类标签。

进一步，所述根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句，具体包括：

循环判断所述文本中每个句子含有所述关键词的数量并进行平滑操作得到的第一概率值，以及所述句子输入所述类标签分类器得到对应正确类标签的第二概率值，将所述第一概率值和第二概率值相乘得到该句子的选择值；

提取选择值排名靠前的句子作为关键句。

进一步，所述结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要，具体包括：

从位置靠前的句子依次向位置靠后的句子进行滑动，通过BERT计算每两个位置之间的句子连贯值，该连贯值是BERT中下句话预测策略的附属输出结果；

基于所有的连贯值进行beam检索，得出不同的检索路径；

对beam检索的结果进行排序，挑选出排名最靠前的句子路径；

按照挑选出的句子路径输出相应的句子，作为所述文本的摘要。

根据本发明实施例的第二方面，提供一种文本摘要生成系统，包括：

文本预处理模块，用于对文本进行预处理；

关键词提取模块，用于提取所述文本中的关键词；

类标签提取模块，用于采用BERTopic方法预训练类标签分类器，提取所述文本的类标签；

关键句提取模块，用于根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句；

摘要输出模块，用于结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要。

进一步，所述类标签提取模块，具体用于：

将预训练语言模型BERT在所述文本上进行微调；

利用微调好的BERT对所述文本进行向量表示；

进一步，所述关键句提取模块，具体用于：

提取选择值排名靠前的句子作为关键句。

进一步，所述摘要输出模块，具体用于：

基于所有的连贯值进行beam检索，得出不同的检索路径；

对beam检索的结果进行排序，挑选出排名最靠前的句子路径；

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明基于信息论中的信息瓶颈技术，通过融合关键词提取，聚类和预训练语言模型的表示学习，对长文本进行自动通顺摘要生成。不仅对任何领域的长文档都有效，包括学术文章政府报告等，同时不需要人工构建训练语料，且不依赖于文本的语言种类。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1是根据本发明一示例性实施例示出的一种文本摘要生成方法的流程示意图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本发明旨在对长文本(例如科研文献，政府报告等)进行自动摘要生成。针对当前抽取式摘要准确率低，序列到序列式生成式摘要可靠性差的缺点，本发明从信息论角度出发，通过融合多角度信息瓶颈理论，关键词提取，语言模型和聚类四项技术，多输入长文本进行压缩提取，输出通顺且符合原文的摘要。

本发明依托于多角度信息瓶颈理论，信息瓶颈理论的核心是把信息从一个瓶颈中挤压出去一般，去除掉那些含有无关细节的噪音输入数据，只保留与通用概念最相关的特征。将该原理迁移到长文本摘要中，则是去掉那些无关紧要的句子或短语，只保留与原文核心思想最相关的句子。本发明则基于多角度的信息瓶颈理论，其公式如下：

其中D代表输入的长文本，S代表将要输出的摘要，t代表能覆盖原文信息的关键句，Y1和Y2代表输入长文本的两种角度(关键词和文章类标签)，I表示互信息。公式所传递的主要思想是：通过检索输入文本中的关键句，以使得这些关键句既包含足够多的关键词，又能基于这些关键句有效的预测原文的类标签。原文的两种角度可以预先提供，也可以通过无监督学习的方法来得到。

以下结合附图详细描述本发明实施例的技术方案。

参见图1，该方法包括：

110、对文本进行预处理；

具体的，在文本预处理阶段，可对输入文档的所有句子进行切分处理，另外还可对句子长度进行筛选，例如，只保留句子长度大于5的句子。

120、提取所述文本中的关键词；

具体的，该步骤属于关键词提取阶段，可采用RAKE(Rapid Automatic KeywordExtraction)算法进行关键词提取，基于停用词和标点符号对所有句子进行分词处理，进而提取所有的实体词汇短语，然后构建这些实体短语的共现频度矩阵，最终依托该共现频度矩阵对每个实体词汇短语计算其关键值，通过对关键值的排序抽取出排名靠前的关键词。

130、采用BERTopic方法预训练类标签分类器，提取所述文本的类标签；

具体的，该步骤为类标签提取阶段，该步骤采用采用BERTopic方法对所有的文本进行类标签提取。首先要将预训练语言模型BERT在目标文本上进行微调，接着利用微调好的BERT对每篇文章进行向量表示，利用UMAP降维算法对所有文本向量进行降维处理，然后利用DBSCAN算法对降维后的文本向量进行聚类，根据聚类结果提取每个簇下面的高频度tfidf值的词语作为每个簇的类标签。

140、根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句；

具体的，该步骤包括文本选择和流畅处理两个阶段。

文本选择阶段为初步提取长文本排名靠前的关键句，具体通过循环每个句子，主要判断句子中含有步骤120中的关键词数量并进行平滑操作得到关键词概率值，同时得到句子独立输入一个在步骤130中预训练好的类标签分类器中所得到的对应正确类标签的概率值。将以上两个概率值相乘得到最终的句子的选择值，选择值越高的句子越有可能作为最终的摘要。

流畅处理阶段为对文本选择阶段中排名靠前的句子，结合每句话在原文中的位置信息进行重新位置排序。利用步骤130中微调好的BERT模型对这些排名靠前的句子进行流畅度增强处理，具体操作方法为从位置靠前的句子依次向位置靠后的句子进行滑动，通过BERT计算每两个位置之间的句子连贯值，该连贯值是BERT中下句话预测策略的附属输出结果，然后基于所有的连贯值进行beam检索，得出不同的检索路径。

150、结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要。

具体的，对步骤为最终的摘要输出阶段，具体是对步骤140中beam检索的结果进行排序，挑选出排名最靠前的句子路径，将这些句子输出即可作为最终的摘要。

可选地，在该实施例中，步骤110具体包括：

可选地，在该实施例中，步骤120具体包括：

1201、采用RAKE算法进行关键词提取，基于停用词和标点符号对所有句子进行分词处理，进而提取所有的实体词汇短语；

1202、构建所述实体词汇短语的共现频度矩阵；

1203、根据所述共现频度矩阵计算每个所述实体词汇短语的关键值；

1204、通过对所述关键值的排序从所述实体词汇短语中抽取出排名靠前的关键词。

可选地，在该实施例中，步骤130具体包括：

1301、将预训练语言模型BERT在所述文本上进行微调；

1302、利用微调好的BERT对所述文本进行向量表示；

1303、利用UMAP降维算法对所有文本向量进行降维处理，然后利用DBSCAN算法对降维后的文本向量进行聚类；

1304、根据聚类结果提取每个簇下面tfidf值超过预设阈值的词语作为每个簇的类标签。

可选地，在该实施例中，步骤140具体包括：

1401、循环判断所述文本中每个句子含有所述关键词的数量并进行平滑操作得到的第一概率值，以及所述句子输入所述类标签分类器得到对应正确类标签的第二概率值，将所述第一概率值和第二概率值相乘得到该句子的选择值；

1402、提取选择值排名靠前的句子作为关键句。

可选地，在该实施例中，步骤150具体包括：

1501、从位置靠前的句子依次向位置靠后的句子进行滑动，通过BERT计算每两个位置之间的句子连贯值，该连贯值是BERT中下句话预测策略的附属输出结果；

1502、基于所有的连贯值进行beam检索，得出不同的检索路径；

1503、对beam检索的结果进行排序，挑选出排名最靠前的句子路径；

1504、按照挑选出的句子路径输出相应的句子，作为所述文本的摘要。

与上述方法实施例相对应地，本发明实施例提供一种文本摘要生成系统，包括：

文本预处理模块，用于对文本进行预处理；

关键词提取模块，用于提取所述文本中的关键词；

进一步，所述类标签提取模块，具体用于：

将预训练语言模型BERT在所述文本上进行微调；

利用微调好的BERT对所述文本进行向量表示；

进一步，所述关键句提取模块，具体用于：

提取选择值排名靠前的句子作为关键句。

进一步，所述摘要输出模块，具体用于：

基于所有的连贯值进行beam检索，得出不同的检索路径；

对beam检索的结果进行排序，挑选出排名最靠前的句子路径；

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

实施例：

本发明的流程主要分为6个步骤：文本预处理，关键词提取，类标签提取，文本选择，流畅处理和摘要输出。

各阶段对应的伪代码流程图如下，其中，文本预处理步骤对应伪代码流程图第1行。关键词提取步骤对应伪代码流程图第2行。类标签提取步骤对应伪代码流程图第3行。文本选择步骤对应伪代码流程图第4-11行。流畅处理步骤对应伪代码流程图的第12-18行。摘要输出步骤对应伪代码流程图的第19-21行。

本发明融合最新的自然语言处理技术，涵盖预训练语言模型，信息抽取，主题模型，分类模型多个方面，基于多角度信息瓶颈技术进行长文本摘要生成，主要优点为全程无监督自动化处理，不需要额外的人工标注和语料采集工作；同时每个阶段对应的功能模块相对独立，每个功能模块内部灵活性强，可以根据最新自然语言处理技术及时更新模块内部的算法。

上文中已经参考附图详细描述了本发明的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。另外，可以理解，本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种文本摘要生成方法，其特征在于，包括：

对文本进行预处理；

提取所述文本中的关键词；

2.根据权利要求1所述的方法，其特征在于，所述对文本进行预处理，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述文本中的关键词，具体包括：

构建所述实体词汇短语的共现频度矩阵；

4.根据权利要求1所述的方法，其特征在于，所述采用BERTopic方法预训练类标签分类器，提取所述文本的类标签，具体包括：

将预训练语言模型BERT在所述文本上进行微调；

利用微调好的BERT对所述文本进行向量表示；

5.根据权利要求4所述的方法，其特征在于，所述根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句，具体包括：

提取选择值排名靠前的句子作为关键句。

6.根据权利要求5所述的方法，其特征在于，所述结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要，具体包括：

基于所有的连贯值进行beam检索，得出不同的检索路径；

对beam检索的结果进行排序，挑选出排名最靠前的句子路径；

7.一种文本摘要生成系统，其特征在于，包括：

文本预处理模块，用于对文本进行预处理；

关键词提取模块，用于提取所述文本中的关键词；

8.根据权利要求7所述的系统，其特征在于，所述类标签提取模块，具体用于：

将预训练语言模型BERT在所述文本上进行微调；

利用微调好的BERT对所述文本进行向量表示；

9.根据权利要求8所述的系统，其特征在于，所述关键句提取模块，具体用于：

提取选择值排名靠前的句子作为关键句。

10.根据权利要求9所述的系统，其特征在于，所述摘要输出模块，具体用于：

基于所有的连贯值进行beam检索，得出不同的检索路径；

对beam检索的结果进行排序，挑选出排名最靠前的句子路径；