CN112784035A

CN112784035A - 一种多篇文档重点信息提取方法

Info

Publication number: CN112784035A
Application number: CN202011623567.6A
Authority: CN
Inventors: 王小华; 焦璐璐; 易传润; 王宇琦; 韩锋
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11

Abstract

本发明涉及文档信息处理领域，具体涉及一种多篇文档重点信息提取方法。包括以下步骤：S1、构建学习模型，通过神经网络Seq2Seq框架对大规模语料进行学习，得到模型；S2、输入选定文档，将所需处理的文档输入S1中得到的模型中，并输出相应的主题句；S3、生成重点信息，通过系统分析，对S2中主题句进行合理的组织，提炼得到多篇文档重点信息总结论述；S4、评价分析，对生成的多篇文档重点信息总结进行评价，判定是否符合需要。本发明设计巧妙，通过计算机辅助操作人员对多篇文档进行处理，有效提高文档阅读效率，适合广泛推广使用。

Description

一种多篇文档重点信息提取方法

技术领域

本发明涉及文档信息处理领域，具体涉及一种多篇文档重点信息提取方法。

背景技术

随着信息时代的发展，网络飞速发展的同时也导致网络文章呈爆炸式增长，互联网已经成为了人们发布信息，获取信息的主要渠道，然而，网络在给人们提供丰富信息的同时，也带来了信息过载方面的问题。如何从大量的新闻文档中提取重要的信息，即从一篇或多篇长篇大论的文档中提取出重要信息，已经成为当下迫切需要解决的一个问题。

发明内容

针对上述技术问题，本发明提供了一种多篇文档重点信息提取方法，利用深度学习神经网络Seq2Seq框架构建模型并进行处理，可同时对多篇电子文档快速地浓缩、提炼，使用户快速获取重要文档信息，本发明采用的技术方案如下：

一种多篇文档重点信息提取方法，其特征在于：包括以下步骤：

S1、构建学习模型，通过神经网络Seq2Seq框架对大规模语料进行学习，得到模型；

S2、输入选定文档，将所需处理的文档输入S1中得到的模型中，并输出相应的主题句；

S3、生成重点信息，通过系统分析，对S2中主题句进行合理的组织，提炼得到多篇文档重点信息总结论述；

S4、评价分析，对生成的多篇文档重点信息总结进行评价，判定是否符合需要。

S1步骤中，构建学习模型过程中引入注意力机制。

所述学习模型基于深度学习神经网络Seq2Seq框架构建，包括输入端与输出端，其中输入端用于输入多篇文档并将输入的原文档编码成多个表征符，输出端则从所有的表征符中提取重要的信息并进行加工。

在S3中引入知识图谱，对S2中生成的主题句与知识图谱进行对应，并进行逻辑分析与提炼，输出符合逻辑习惯的总结句。

采用ROUGE评价方法对S3中生成的重点信息总结论述进行评价。

与现有技术相比，本发明所具有的有益效果为：

1、本发明通过深度学习神经网络Seq2Seq框架构建学习模型，对多篇文档进行快速处理，使用户通过阅读重点信息陈述而不是阅读全文，能够极大的加快信息过滤的速度，并进一步加快信息处理速度。

2、本发明中的神经网络Seq2Seq框架中引入注意力机制，可有效提高提高总结文档重点信息的准确度，使得经由本方法总结提炼的重点信息具有更高的准确度。

3、本发明采用ROUGE评价方法对生成的重点信息总结论述进行评价，得出对应结果的准确性评估，帮助用户决定是否采纳或采信该重点信息，进一步提高准确性。

综上，本发明设计巧妙，通过计算机辅助操作人员对多篇文档进行处理，有效提高文档阅读效率，适合广泛推广使用。

附图说明

图1为本发明处理流程图；

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明提供了一种多篇文档重点信息提取方法，包括以下步骤：

S1步骤中，构建学习模型过程中引入注意力机制。

采用ROUGE评价方法对S3中生成的重点信息总结论述进行评价。

本发明所涉及的原理为：

首先，通过神经网络Seq2Seq框架对大规模语料进行学习并构建学习模型，该过程包括两步：

第一步：建立模型。将所在领域包含所有文档作为数据集进行统计，统计每个字出现的频次，根据频次将数据集中的字排序，取出前4000个字作为学习模型，每个字都对应一个编号。

第二步：将待处理的多篇文档中的所有句子使用建立的学习模型对句子进行编码，统计该篇文档中出现的高频字并输出作为主题句；

作为优选地实施例，本实施例中在神经网络Seq2Seq框架对大规模语料进行学习的过程中加入注意力机制，注意力机制的设计原理类似于人在总结文档时生成文档主题句的过程，在总结文档的中心思想时，人们经常会回头查阅原文的某些词或是片段，来提高总结文档中心思想的准确度。注意力机制亦是如此。

在系统分析步骤中引入知识图谱，2012年谷歌提出知识图谱的概念，利用知识图谱来描述现实世界中存在的实体或者概念以及其关系，依赖于知识图谱强大的语义处理能力和开放的组织能力，能够有效地将互联网中结构松散的数据组织起来，知识图谱使用节点和节点的关系组成了图谱，它可以在各种场景中建模，通过不同的知识关联性得到网状的知识体系，将上一步骤中生成的主题句依据本领域的知识图谱进行逻辑分析，可以输出符合逻辑的重点句论述。

最后通过评价过程，判断所输出的重点句是否符合需要。本发明中采用的判断方法为ROUGE(RecallOriented UnderStudy for Gisting Evaluation)，是 ISI的Chin-YewLin在2004年提出的一种文档摘要的评价方法，可以用于本发明中重点句的判定。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种多篇文档重点信息提取方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种多篇文档重点信息提取方法，其特征在于：S1步骤中，构建学习模型过程中引入注意力机制。

3.根据权利要求1或2所述的一种多篇文档重点信息提取方法，其特征在于：所述学习模型基于深度学习神经网络Seq2Seq框架构建，包括输入端与输出端，其中输入端用于输入多篇文档并将输入的原文档编码成多个表征符，输出端则从所有的表征符中提取重要的信息并进行加工。

4.根据权利要求1或2所述的一种多篇文档重点信息提取方法，其特征在于：在S3中引入知识图谱，对S2中生成的主题句与知识图谱进行对应，并进行逻辑分析与提炼，输出符合逻辑习惯的总结句。

5.根据权利要求1或2所述的一种多篇文档重点信息提取方法，其特征在于：采用ROUGE评价方法对S3中生成的重点信息总结论述进行评价。