CN107977420A

CN107977420A - 一种演进式文档的摘要提取方法、装置及可读存储介质

Info

Publication number: CN107977420A
Application number: CN201711183752.6A
Authority: CN
Inventors: 李志�; 关毅江; 郭瀚阳; 沈云辉; 张俊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-05-01

Abstract

本发明公开了一种演进式文档的摘要提取方法，首先获取用户从搜索引擎输入的目标信息，然后根据该目标信息确定与目标信息对应的多个目标文档，最后从各目标文档中提取与各目标文档对应的目标摘要。对于演进式文档，在时间跨度较长时，会包含大量的文档，因此，本方案中，当用户输入目标信息后，得到与用户输入的目标信息的多个目标文档，并一次能提取多个目标文档的文档摘要，从而方便用户更快的了解演进式文档的内容，提高了用户对演进式文档的阅读体验。本发明实施例还公开了一种演进式文档的摘要提取装置及可读存储介质，同样能实现上述技术效果。

Description

一种演进式文档的摘要提取方法、装置及可读存储介质

技术领域

本发明涉及计算机应用领域，特别涉及一种演进式文档的摘要提取方法、装置及可读存储介质。

背景技术

随着互联网的快速发展，用户通过智能移动设备每天都会接收到来自四面八方的新闻，若是热点新闻，各大媒体都会争相报道，相关的文章数量就会急剧增加，而对于演进式新闻更是如此，所谓演进式，即这种新闻是一种逐渐演变的新闻类型，该种类型的新闻会在一个较长的时间跨度内，有多家不同的媒体进行持续的跟踪报道，因此会产生大量的新闻文档，大量的文章一方面能帮助用户更全面的了解某一事件的发展历程，但另一方面，大量的文章会使得用户难以选择，同时，大量相似的文章会使用户难以发现每家媒体报道的关注点。

新闻文档的摘要提取方法大部分都是抽取类型，即从给定的文章中，抽取关键的句子或短语，并重新拼接成一小段摘要。传统的新闻文档的摘要提取一次只能对单篇文档的摘要进行提取，并且对于提取出来的文档摘要不能进行时间整合。因此，对于一个较长时间跨度内的演进式文档，无法一次提取演进式文档中的多篇文档的文档摘要，同时，也不能对提取出的文档摘要进行整合。

因此，如何对演进式新闻文档的摘要进行提取是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种演进式文档的摘要提取方法、装置及可读存储介质，解决了对演进式新闻文档的摘要进行提取的问题。

为实现上述目的，本发明实施例公开了如下技术方案：

一方面，本发明实施例公开了一种演进式文档的摘要提取方法，包括：

获取用户从搜索引擎输入的目标信息；

根据所述目标信息确定与所述目标信息对应的多个目标文档；

从各所述目标文档中提取与各所述目标文档对应的文档摘要。

优选的，所述根据所述目标信息确定与所述目标信息对应的多个目标文档包括：

通过网络爬虫从所述搜索引擎中确定与所述目标信息对应的多个网站；

从多个所述网站中确定目标网站；

通过所述网络爬虫从所述目标网站中提取与所述目标信息对应的所述目标文档。

优选的，所述通过所述网络爬虫从所述目标网站中提取与所述目标信息对应的所述目标文档包括：

通过所述网络爬虫从所述目标网站中提取与所述目标信息对应的多个标准文档；

以第一预定义规则从多个所述标准文档中选取所述目标文档。

优选的，所述以第一预定义规则从多个所述标准文档中选取所述目标文档包括：

从多个所述标准文档中提取与各所述标准文档对应的标准关键句；

从各所述标准关键句中选取相似度小于目标阈值的标准关键句作为目标关键句；

将与所述目标关键句对应的标准文档作为所述目标文档。

确定与各所述标准文档对应的文档标识；

将与所述标准文档对应的所述文档标识与预设标识进行比对；

若比对成功，则将与所述预设标识对应的标准文档作为所述目标文档。

优选的，所述从各所述目标文档中提取与各所述目标文档对应的文档摘要之后，还包括：

对各所述文档摘要以第二预定义规则进行排序。

优选的，所述对各所述文档摘要以第二预定义规则进行排序包括：

确定与各所述文档摘要对应的目标文档的发布时间；

根据所述发布时间对各所述文档摘要进行排序。

另一方面，本发明实施例公开了一种演进式文档的摘要提取装置，包括：

目标信息获取模块，用于获取用户从搜索引擎输入的目标信息；

目标文档确定模块，用于根据所述目标信息获取与所述目标信息对应的多个目标文档；

文档摘要提取模块，用于从各所述目标文档中提取与各所述目标文档对应的文档摘要。

另一方面，本发明实施例公开了另一种演进式文档的摘要提取装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序以实现上任一项所述的演进式文档的摘要提取方法的步骤。

最后，本发明实施例公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上任一项所述的演进式文档的摘要提取方法的步骤。

可见，本发明实施例公开的一种演进式文档的摘要提取方法，首先获取用户从搜索引擎输入的目标信息，然后根据该目标信息确定与目标信息对应的多个目标文档，最后从各目标文档中提取与各目标文档对应的目标摘要。对于演进式文档，在时间跨度较长时，会包含大量的文档，因此，本方案中，当用户输入目标信息后，得到与用户输入的目标信息的多个目标文档，并一次能提取多个目标文档的文档摘要，从而方便用户更快的了解演进式文档的内容，提高了用户对演进式文档的阅读体验。本发明实施例还公开了一种演进式文档的摘要提取装置及可读存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种演进式文档的摘要提取方法流程示意图；

图2为本发明实施例公开的一种演进式文档的摘要提取装置结构示意图；

图3为本发明实施例公开的另一种演进式文档的摘要提取装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种演进式文档的摘要提取方法、装置及可读存储介质，解决了对演进式新闻文档的摘要进行提取的问题。

请参见图1，图1为本发明实施例公开的一种演进式文档的摘要提取方法流程示意图，包括：

S101、获取用户从搜索引擎输入的目标信息。

具体的，本实施例中，搜索引擎可以为百度、搜狗等，目标信息为用户输入的新闻关键词、新闻关键句等，例如，用户想了解关于苹果手机发布会的新闻，则在百度搜索引擎中输入“苹果手机发布会”，从而将“苹果手机发布会”作为目标信息；当然，本实施例中的搜索引擎的类型与目标信息的内容在此不作限定。

S102、根据目标信息确定与目标信息对应的多个目标文档。

具体的，本实施例中，目标文档为与目标信息相关的文档，其是对目标信息相关的文档进行筛选后得到；其中，目标文档可以来自于同一个网站，也可以是不同的网站；目标文档可以包括以下两种类型，其一，目标文档为可以进行有效访问的文档，其二，目标文档是从多篇相似文档中筛选过后的文档。例如，用户从百度输入“苹果手机发布会”作为目标信息，则对应“苹果手机发布会”这一关键词，在网页上显示来自不同网站的多个文档，如驱动之家网站显示的“一张图看懂苹果2017新品发布会”、爱范儿网站显示的“苹果iphone发布会超全记录”等，此时，爱范儿网站可以进行有效访问以阅读“一张图看懂苹果2017新品发布会”文档，而驱动之家网站显示的“一张图看懂苹果2017新品发布会”并不能进行有效访问，即该网站不存在；则将爱范儿网站显示的“苹果iphone发布会超全记录”作为目标文档。当然，目标文档的选取规则根据具体的应用环境确定，在此并不作限定。

进一步，作为演进式新闻，目标文档为一段时间跨度内的多个文档，即目标文档可以为不同时间点的文档，例如，从2017年11月10号发生的投毒案件，用户从搜索引擎输入投毒案件后，显示的文档为2017年11月10号至当前时间的所有文档。再从显示的所有文档中选取符合要求的文档作为目标文档。

S103、从各目标文档中提取与各目标文档对应的文档摘要。

具体的，本实施例中，文档摘要为体现目标文档中心思想的简短语言段落。其中，文档摘要可以通过TextRank从目标文档中生成的关键词以及提取的中心句组成。

利用TextRank提取关键词其主要过程如下：将目标文档以句号为标识拆分成句子，将每个句子中与目标信息无关的单词进行过滤，从而得到句子的集合和单词的集合。

将每个单词作为PageRank中的一个节点，设定窗口大小为k，假设一个句子依次由以下单词组成：

单词w1，单词w2，单词w3，单词w4，单词w5，...，单词wn；

则单词w1，单词w2...，单词wk、单词w2，单词w3，...，单词wk+1、单词w3，单词w4，...，单词wk+2等都是一个窗口；其中，在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。

基于PageRank构成的有向图，可以计算出每个单词节点的重要性。则将重要性最高的若干单词作为关键词。其中，PageRank用来计算网页的重要性，整个网页便可以看做一张有向图，节点是网页。

利用TextRank提取中心句的主要过程如下：将目标文档中的每个句子看成PageRank构成的有向图中的一个节点，若两个句子之间有相似性，认为对应的两个节点之间有一个无向有权边，权值是相似度。

通过PageRank计算得到的重要性最高的若干句子作为中心句。

因此，通过TextRank提取出关键词与中心句后进行组合生成目标文档的文档摘要。

可见，本实施例公开的一种演进式文档的摘要提取方法，首先通过获取用户从搜索引擎输入的目标信息，然后根据该目标信息确定与目标信息对应的多个目标文档，最后从各目标文档中提取与各目标文档对应的目标摘要。，对于演进式文档，在时间跨度较长时，会包含大量的文档，因此，本方案中，当用户输入目标信息后，得到与用户输入的目标信息的多个目标文档，并一次能提取多个目标文档的文档摘要，从而方便用户更快的了解演进式文档的内容，提高了用户对演进式文档的阅读体验。需要说明的是，针对演进式文档的文档摘要的提取，根据实际应用环境，也可以通过其他方式进行提取，在此并不作限定。

基于上述实施例，在本实施例中，根据目标信息确定与目标信息对应的多个目标文档包括：

通过网络爬虫从搜索引擎中确定与目标信息对应的多个网站。

从多个网站中确定目标网站。

通过网络爬虫从目标网站中提取与目标信息对应的目标文档。

具体的，本实施例中，当用户输入目标信息后，通过网络爬虫确定与该目标信息相关的网站，其中，网络爬虫爬取的多个网站中，可能会存在无效或者无法被识别的网站，因此，将无效网站或者无法被识别的网站进行筛选，将筛选后符合标准的网站作为目标网站。其中，目标网站至少为一个，对应每一个目标网站可以有至少一个目标文档。

基于上述实施例，在本实施例中，通过网络爬虫从目标网站中提取与目标信息对应的目标文档包括：

通过网络爬虫从目标网站中提取与目标信息对应的多个标准文档。

以第一预定义规则从多个标准文档中选取目标文档。

具体的，本实施例中，标准文档为与目标信息相关的所有文档，目标文档为与目标信息相关的符合要求的文档。

进一步，第一预定义规则可以为根据相似度选取，其次，也可以对标准文档所发布的网站进行筛选，例如，当用户输入“苹果手机发布会”后，对应出现新浪网站、凤凰网站、腾讯网站、网易网站，其中，新浪网站与凤凰网站中的文档相似度较高，则从相似度较高的文档中选取具有代表性的文档作为目标文档，其次，若预先设定优先使用的网站为网易网站和凤凰网站，则当用户输入“苹果手机发布会后”，从新浪网站、凤凰网站、腾讯网站、网易网站四个网站中的标准文档中，则选取网易网站和凤凰网站的文档作为目标文档。

可见，本实施例中，通过从目标网站中确定的多个标准文档中，选取符合要求的目标文档，从而避免了其他无效或相似文档对提取文档摘要的效率产生影响。

基于上述实施例，在本实施例中，以第一预定义规则从多个标准文档中选取目标文档包括：

从多个标准文档中提取与各标准文档对应的标准关键句。

从各标准关键句中选取相似度小于目标阈值的标准关键句作为目标关键句。

将与目标关键句对应的标准文档作为目标文档。

具体的，本实施例中，标准关键句为代表标准文档的中心思想的关键句，相似度为各标准关键句之间的相似程度，选取各个关键句之间的相似度小于目标阈值的关键句作为目标关键句，当其中几个标准关键句的相似度超过目标阈值时，可以直接舍弃相似度超过目标阈值的对应的标准关键句，也可以从相似度超过目标阈值的标准关键句中筛选出具有代表性的标准关键句对应的标准文档作为目标文档。

基于上述实施例，在本实施例中，以第一预定义规则从多个标准文档中选取所述目标文档包括：

确定与各标准文档对应的文档标识。

将与标准文档对应的文档标识与预设标识进行比对。

若比对成功，则将与预设标识对应的标准文档作为目标文档。

具体的，本实施例中，文档标识为各标准文档所在的网站的标识，预设标识为预先设定的待选取的网站的标识信息，当用户由搜索引擎输入目标信息后，由网络爬虫从目标网站中获取标准文档，由标准文档所在的网站确定标准文档标识，若该标识与预设标识对应，则该标准文档则为目标文档。

基于上述实施例，在本实施例中，从各目标文档中提取与各目标文档对应的文档摘要之后，还包括：

对各文档摘要以第二预定义规则进行排序。

具体的，本实施例中，第二预定义规则可以为各文档摘要对应的目标文档的发布时间，也可以是各文档摘要对应的目标文档的来源网站，例如，从各目标文档中提取与各目标文档对应的文档摘要后，按照各目标文档的发布时间顺时排序，当然，也可以按照时间顺序逆时排序。

可见，本实施例中，当从大量的目标文档中提取出文档摘要后，对各文档摘要按照第二预定义规则进行排序，从而避免了由于大量无序的文档摘要影响用户的阅读体验。

基于上述实施例，在本实施例中，对各文档摘要以第二预定义规则进行排序包括：

确定与各文档摘要对应的目标文档的发布时间。

根据发布时间对各文档摘要进行排序。

具体的，本实施例中。各文档摘要按照发布时间进行排序的顺序可以是顺时排序，也可以逆时排序，在此并不作限定。

请参见图2，图2为本发明实施例公开的一种演进式文档的摘要提取装置结构示意图，包括：

目标信息获取模块100，用于获取用户从搜索引擎输入的目标信息。

目标文档确定模块200，用于根据目标信息获取与目标信息对应的多个目标文档。

文档摘要提取模块300，用于从各目标文档中提取与各目标文档对应的文档摘要。

本发明实施例公开的一种演进式文档的摘要提取装置，首先通过目标信息获取模块获取用户从搜索引擎输入的目标信息，然后目标文档确定模块根据该目标信息确定与目标信息对应的多个目标文档，最后目标摘要提取模块从各目标文档中提取与各目标文档对应的目标摘要。对于演进式文档，在时间跨度较长时，会包含大量的文档，因此，本方案中，当用户输入目标信息后，得到与用户输入的目标信息的多个目标文档，并一次能提取多个目标文档的文档摘要，从而方便用户更快的了解演进式文档的内容，提高了用户对演进式文档的阅读体验。

基于上述实施例，在本实施例中，目标文档确定模块200包括：

网站确定单元，用于通过网络爬虫从搜索引擎中确定与目标信息对应的多个网站。

目标网站确定单元，用于从多个所述网站中确定目标网站。

目标文档提取单元，用于通过网络爬虫从目标网站中提取与目标信息对应的目标文档。

基于上述实施例，在本实施例中，目标文档提取单元包括：

标准文档提取单元，用于通过网络爬虫从目标网站中提取与目标信息对应的多个标准文档。

目标文档选取单元，用于以第一预定义规则从多个标准文档中选取目标文档。

基于上述实施例，在本实施例中，目标文档选取单元包括：

标准关键句提取子单元，用于从多个标准文档中提取与各标准文档对应的标准关键句。

目标关键句确定子单元，用于从各所述标准关键句中选取相似度小于目标阈值的标准关键句作为目标关键句。

将与所述目标关键句对应的标准文档作为所述目标文档。

基于上述实施例，在本实施例中，目标文档选取单元包括：

文档标识确定子单元，用于确定与各所述标准文档对应的文档标识。

比对子单元，用于将与标准文档对应的文档标识与预设标识进行比对。

目标文档确定子单元，用于比对子单元中的与标准文档对应的文档标识与预设标识比对成功时，则将与预设标识对应的标准文档作为目标文档。

基于上述实施例，在本实施例中，还包括：

文档摘要排序模块，用于对各文档摘要以第二预定义规则进行排序。

基于上述实施例，在本实施例中，文档摘要排序模块包括：

发布时间确定单元，用于确定与各文档摘要对应的目标文档的发布时间。

文档摘要排序单元，用于根据发布时间对各文档摘要进行排序。

请参见图3，图3为本发明实施例提供的另一种演进式文档的摘要提取装置结构示意图，包括：

存储器10，用于存储计算机程序。

处理器20，用于执行所述存储器中存储的计算机程序以实现以上任一项提到的演进式文档的摘要提取方法的步骤。

为了更好地理解本方案，本发明实施例提供的一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上任一项提到的演进式文档的摘要提取方法的步骤。

以上对本申请所提供的一种演进式文档的摘要提取方法、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种演进式文档的摘要提取方法，其特征在于，包括：

获取用户从搜索引擎输入的目标信息；

2.根据权利要求1所述的演进式文档的摘要提取方法，其特征在于，所述根据所述目标信息确定与所述目标信息对应的多个目标文档包括：

从多个所述网站中确定目标网站；

3.根据权利要求2所述的演进式文档的摘要提取方法，其特征在于，所述通过所述网络爬虫从所述目标网站中提取与所述目标信息对应的所述目标文档包括：

4.根据权利要求3所述的演进式文档的摘要提取方法，其特征在于，所述以第一预定义规则从多个所述标准文档中选取所述目标文档包括：

将与所述目标关键句对应的标准文档作为所述目标文档。

5.根据权利要求3所述的演进式文档的摘要提取方法，其特征在于，所述以第一预定义规则从多个所述标准文档中选取所述目标文档包括：

确定与各所述标准文档对应的文档标识；

6.根据权利要求1-5任意一项所述的演进式文档的摘要提取方法，其特征在于，所述从各所述目标文档中提取与各所述目标文档对应的文档摘要之后，还包括：

对各所述文档摘要以第二预定义规则进行排序。

7.根据权利要求6所述的演进式文档的摘要提取方法，其特征在于，所述对各所述文档摘要以第二预定义规则进行排序包括：

确定与各所述文档摘要对应的目标文档的发布时间；

根据所述发布时间对各所述文档摘要进行排序。

8.一种演进式文档的摘要提取装置，其特征在于，包括：

9.一种演进式文档的摘要提取装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序以实现如权利要求1至7任一项所述的演进式文档的摘要提取方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以现如权利要求1至7任一项所述的演进式文档的摘要提取方法的步骤。