CN111241268B

CN111241268B - 一种文本摘要自动生成方法

Info

Publication number: CN111241268B
Application number: CN202010070964.9A
Authority: CN
Inventors: 缪弘; 甘露
Original assignee: Shanghai Qiyin Information Technology Co ltd
Current assignee: Shanghai Qiyin Information Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-04-14
Anticipated expiration: 2040-01-21
Also published as: CN111241268A

Abstract

本发明公开的一种文本摘要自动生成方法，包括以下步骤：接收需要生成摘要的文章；对接收到的文章进行分句处理，以将该文章分成若干句子；使用TextRank算法计算每一句子的内容相关度权重；根据预设的规则，计算每一句子的规则权重；使用滑动窗口的方法对计算得到的每一句子的内容相关度权重和规则权重进行处理，以计算在滑动窗口内每一句子的权重和；选取权重和最大的滑动窗口内的句子，并将选取的句子拼凑按照一定顺序拼凑形成该文章的摘要。本发明能够防止摘要中出现断句的情况，提升摘要的质量和通顺程度。

Description

一种文本摘要自动生成方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本摘要自动生成方法。

背景技术

参见图1，图中给出的是现有的文本摘要生成方法，包括以下步骤：1.文本摘要系统接收到需要生成摘要的文章；2.直接截取文章的前100个字；3.将截取的字段作为该文章的摘要并返回。但是，这种方法存在以下两方面的缺陷：1.直接截取文章的前100个字，截取到的可能并不是一个完整的句子，影响摘要的通顺程度；2.截取文章的前100个字所生成的摘要，可能并不能概括该文章的主要内容，使得文章生成的摘要质量不高。

为此，本申请人经过有益的探索和研究，找到了解决上述问题的方法，下面将要介绍的技术方案便是在这种背景下产生的。

发明内容

本发明所要解决的技术问题在于：针对现有技术的不足而提供一种文本摘要自动生成方法，以防止所生成的摘要中出现断句的情况，提供摘要的质量和通顺程度。

本发明所要解决的技术问题可以采用如下技术方案来实现：

一种文本摘要自动生成方法，包括以下步骤：

接收需要生成摘要的文章；

对接收到的文章进行分句处理，以将该文章分成若干句子；

使用TextRank算法计算每一句子的内容相关度权重；

根据预设的规则，计算每一句子的规则权重；

使用滑动窗口的方法对计算得到的每一句子的内容相关度权重和规则权重进行处理，以计算在滑动窗口内每一句子的权重和；

选取权重和最大的滑动窗口内的句子，并将选取的句子拼凑按照一定顺序拼凑形成该文章的摘要。

在本发明的一个优选实施例中，所述使用TextRank算法计算每一句子的内容相关度权重，包括以下步骤：

对文章中的每一句子进行分词处理；

计算相邻两个句子之间的相似程度；

以句子作为节点，相邻两个句子之间的相似程度作为边的权重，构建一个无向图；

在无向图上运行PageRank算法，迭代地计算每个节点的权重；

每个节点的权重即为对应的句子的内容相关度权重。

在本发明的一个优选实施例中，所述预设的规则包括以下方面：

(1)越靠近开头或结尾的句子，该句子的规则权重越高；

(2)若句子是以副词或连词开头的，该句子的规则权重降低。

由于采用了如上技术方案，本发明的有益效果在于：本发明通过对文章先进行分句处理，能够防止摘要中出现断句的情况；使用TextRank算法，能够选出与文章内容相关程度更高的句子作为摘要，提升摘要的质量；使用预设的规则，能进一步提升摘要的质量与通顺程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有的文本摘要生成方法的流程示意图。

图2是本发明的文本摘要自动生成方法的流程示意图。

图3是本发明的计算句子内容的相关度权重的流程示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

参见图2，图中给出的是一种文本摘要自动生成方法，包括以下步骤：

步骤S10，接收需要生成摘要的文章。

步骤S20，对接收到的文章进行分句处理，以将该文章分成若干句子。对文章进行分句处理可有效地防止摘要中出现断句的情况。

步骤S30，使用TextRank算法计算每一句子的内容相关度权重。使用TextRank算法能够计算出每一句子与文章整体内容的相关程度，从而能选取出更能概况文章内容的句子作为摘要，提高摘要的质量。

步骤S40，根据预设的规则，计算每一句子的规则权重。预设的规则包括以下方面：(1)越靠近开头或结尾的句子，该句子的规则权重越高；(2)若句子是以副词或连词开头的，该句子的规则权重降低。由于一般文章的开头或结尾，都会有总结性的句子，所以更适合作为文章的摘要，通过规则(1)能增大这些句子的规则权重，提升摘要的质量；通过规则(2)，能防止选出的摘要因不包含文章中的上下文信息而变得不通顺，提升摘要的通顺程度。

步骤S50，使用滑动窗口的方法对计算得到的每一句子的内容相关度权重和规则权重进行处理，以计算在滑动窗口内每一句子的权重和。使用滑动窗口的方法，能保证选取出的摘要在文章内部是连续的，进一步保证生成的摘要的通顺程度。

步骤S60，选取权重和最大的滑动窗口内的句子，并将选取的句子拼凑按照一定顺序拼凑形成该文章的摘要。

步骤S70，返回该文章的摘要。

在步骤S30中，使用TextRank算法计算每一句子的内容相关度权重，包括以下步骤：

步骤S31，对文章中的每一句子进行分词处理；

步骤S32，计算相邻两个句子之间的相似程度；

步骤S33，以句子作为节点，相邻两个句子之间的相似程度作为边的权重，构建一个无向图；

步骤S34，在无向图上运行PageRank算法，迭代地计算每个节点的权重；

步骤S35，每个节点的权重即为对应的句子的内容相关度权重。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种文本摘要自动生成方法，其特征在于，包括以下步骤：