CN112784035A - 一种多篇文档重点信息提取方法 - Google Patents

一种多篇文档重点信息提取方法 Download PDF

Info

Publication number
CN112784035A
CN112784035A CN202011623567.6A CN202011623567A CN112784035A CN 112784035 A CN112784035 A CN 112784035A CN 202011623567 A CN202011623567 A CN 202011623567A CN 112784035 A CN112784035 A CN 112784035A
Authority
CN
China
Prior art keywords
key information
extracting
document
documents
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011623567.6A
Other languages
English (en)
Inventor
王小华
焦璐璐
易传润
王宇琦
韩锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202011623567.6A priority Critical patent/CN112784035A/zh
Publication of CN112784035A publication Critical patent/CN112784035A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文档信息处理领域,具体涉及一种多篇文档重点信息提取方法。包括以下步骤:S1、构建学习模型,通过神经网络Seq2Seq框架对大规模语料进行学习,得到模型;S2、输入选定文档,将所需处理的文档输入S1中得到的模型中,并输出相应的主题句;S3、生成重点信息,通过系统分析,对S2中主题句进行合理的组织,提炼得到多篇文档重点信息总结论述;S4、评价分析,对生成的多篇文档重点信息总结进行评价,判定是否符合需要。本发明设计巧妙,通过计算机辅助操作人员对多篇文档进行处理,有效提高文档阅读效率,适合广泛推广使用。

Description

一种多篇文档重点信息提取方法
技术领域
本发明涉及文档信息处理领域,具体涉及一种多篇文档重点信息提取方法。
背景技术
随着信息时代的发展,网络飞速发展的同时也导致网络文章呈爆炸式增长,互联网已经成为了人们发布信息,获取信息的主要渠道,然而,网络在给人们提供丰富信息的同时,也带来了信息过载方面的问题。如何从大量的新闻文档中提取重要的信息,即从一篇或多篇长篇大论的文档中提取出重要信息,已经成为当下迫切需要解决的一个问题。
发明内容
针对上述技术问题,本发明提供了一种多篇文档重点信息提取方法,利用深度学习神经网络Seq2Seq框架构建模型并进行处理,可同时对多篇电子文档快速地浓缩、提炼,使用户快速获取重要文档信息,本发明采用的技术方案如下:
一种多篇文档重点信息提取方法,其特征在于:包括以下步骤:
S1、构建学习模型,通过神经网络Seq2Seq框架对大规模语料进行学习,得到模型;
S2、输入选定文档,将所需处理的文档输入S1中得到的模型中,并输出相应的主题句;
S3、生成重点信息,通过系统分析,对S2中主题句进行合理的组织,提炼得到多篇文档重点信息总结论述;
S4、评价分析,对生成的多篇文档重点信息总结进行评价,判定是否符合需要。
S1步骤中,构建学习模型过程中引入注意力机制。
所述学习模型基于深度学习神经网络Seq2Seq框架构建,包括输入端与输出端,其中输入端用于输入多篇文档并将输入的原文档编码成多个表征符,输出端则从所有的表征符中提取重要的信息并进行加工。
在S3中引入知识图谱,对S2中生成的主题句与知识图谱进行对应,并进行逻辑分析与提炼,输出符合逻辑习惯的总结句。
采用ROUGE评价方法对S3中生成的重点信息总结论述进行评价。
与现有技术相比,本发明所具有的有益效果为:
1、本发明通过深度学习神经网络Seq2Seq框架构建学习模型,对多篇文档进行快速处理,使用户通过阅读重点信息陈述而不是阅读全文,能够极大的加快信息过滤的速度,并进一步加快信息处理速度。
2、本发明中的神经网络Seq2Seq框架中引入注意力机制,可有效提高提高总结文档重点信息的准确度,使得经由本方法总结提炼的重点信息具有更高的准确度。
3、本发明采用ROUGE评价方法对生成的重点信息总结论述进行评价,得出对应结果的准确性评估,帮助用户决定是否采纳或采信该重点信息,进一步提高准确性。
综上,本发明设计巧妙,通过计算机辅助操作人员对多篇文档进行处理,有效提高文档阅读效率,适合广泛推广使用。
附图说明
图1为本发明处理流程图;
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明提供了一种多篇文档重点信息提取方法,包括以下步骤:
S1、构建学习模型,通过神经网络Seq2Seq框架对大规模语料进行学习,得到模型;
S2、输入选定文档,将所需处理的文档输入S1中得到的模型中,并输出相应的主题句;
S3、生成重点信息,通过系统分析,对S2中主题句进行合理的组织,提炼得到多篇文档重点信息总结论述;
S4、评价分析,对生成的多篇文档重点信息总结进行评价,判定是否符合需要。
S1步骤中,构建学习模型过程中引入注意力机制。
所述学习模型基于深度学习神经网络Seq2Seq框架构建,包括输入端与输出端,其中输入端用于输入多篇文档并将输入的原文档编码成多个表征符,输出端则从所有的表征符中提取重要的信息并进行加工。
在S3中引入知识图谱,对S2中生成的主题句与知识图谱进行对应,并进行逻辑分析与提炼,输出符合逻辑习惯的总结句。
采用ROUGE评价方法对S3中生成的重点信息总结论述进行评价。
本发明所涉及的原理为:
首先,通过神经网络Seq2Seq框架对大规模语料进行学习并构建学习模型,该过程包括两步:
第一步:建立模型。将所在领域包含所有文档作为数据集进行统计,统计每个字出现的频次,根据频次将数据集中的字排序,取出前4000个字作为学习模型,每个字都对应一个编号。
第二步:将待处理的多篇文档中的所有句子使用建立的学习模型对句子进行编码,统计该篇文档中出现的高频字并输出作为主题句;
作为优选地实施例,本实施例中在神经网络Seq2Seq框架对大规模语料进行学习的过程中加入注意力机制,注意力机制的设计原理类似于人在总结文档时生成文档主题句的过程,在总结文档的中心思想时,人们经常会回头查阅原文的某些词或是片段,来提高总结文档中心思想的准确度。注意力机制亦是如此。
在系统分析步骤中引入知识图谱,2012年谷歌提出知识图谱的概念,利用知识图谱来描述现实世界中存在的实体或者概念以及其关系,依赖于知识图谱强大的语义处理能力和开放的组织能力,能够有效地将互联网中结构松散的数据组织起来,知识图谱使用节点和节点的关系组成了图谱,它可以在各种场景中建模,通过不同的知识关联性得到网状的知识体系,将上一步骤中生成的主题句依据本领域的知识图谱进行逻辑分析,可以输出符合逻辑的重点句论述。
最后通过评价过程,判断所输出的重点句是否符合需要。本发明中采用的判断方法为ROUGE(RecallOriented UnderStudy for Gisting Evaluation),是 ISI的Chin-YewLin在2004年提出的一种文档摘要的评价方法,可以用于本发明中重点句的判定。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (5)

1.一种多篇文档重点信息提取方法,其特征在于:包括以下步骤:
S1、构建学习模型,通过神经网络Seq2Seq框架对大规模语料进行学习,得到模型;
S2、输入选定文档,将所需处理的文档输入S1中得到的模型中,并输出相应的主题句;
S3、生成重点信息,通过系统分析,对S2中主题句进行合理的组织,提炼得到多篇文档重点信息总结论述;
S4、评价分析,对生成的多篇文档重点信息总结进行评价,判定是否符合需要。
2.根据权利要求1所述的一种多篇文档重点信息提取方法,其特征在于:S1步骤中,构建学习模型过程中引入注意力机制。
3.根据权利要求1或2所述的一种多篇文档重点信息提取方法,其特征在于:所述学习模型基于深度学习神经网络Seq2Seq框架构建,包括输入端与输出端,其中输入端用于输入多篇文档并将输入的原文档编码成多个表征符,输出端则从所有的表征符中提取重要的信息并进行加工。
4.根据权利要求1或2所述的一种多篇文档重点信息提取方法,其特征在于:在S3中引入知识图谱,对S2中生成的主题句与知识图谱进行对应,并进行逻辑分析与提炼,输出符合逻辑习惯的总结句。
5.根据权利要求1或2所述的一种多篇文档重点信息提取方法,其特征在于:采用ROUGE评价方法对S3中生成的重点信息总结论述进行评价。
CN202011623567.6A 2020-12-31 2020-12-31 一种多篇文档重点信息提取方法 Pending CN112784035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011623567.6A CN112784035A (zh) 2020-12-31 2020-12-31 一种多篇文档重点信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011623567.6A CN112784035A (zh) 2020-12-31 2020-12-31 一种多篇文档重点信息提取方法

Publications (1)

Publication Number Publication Date
CN112784035A true CN112784035A (zh) 2021-05-11

Family

ID=75754389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011623567.6A Pending CN112784035A (zh) 2020-12-31 2020-12-31 一种多篇文档重点信息提取方法

Country Status (1)

Country Link
CN (1) CN112784035A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN111813923A (zh) * 2019-11-29 2020-10-23 北京嘀嘀无限科技发展有限公司 文本摘要方法、电子设备及存储介质
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN111813923A (zh) * 2019-11-29 2020-10-23 北京嘀嘀无限科技发展有限公司 文本摘要方法、电子设备及存储介质
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
符悦 等: "基于Seq2Seq框架和领域知识图谱的新闻简报生成", 《沈阳航空航天大学学报》 *

Similar Documents

Publication Publication Date Title
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN100595760C (zh) 一种获取口语词条的方法、装置以及一种输入法系统
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
US10713302B2 (en) Search processing method and device
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103778200A (zh) 一种报文信息源抽取方法及其系统
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN101556596A (zh) 一种输入法系统及智能组词的方法
CN101187924A (zh) 一种从双语句对获取词对译文的方法及系统
Devika et al. A semantic graph-based keyword extraction model using ranking method on big social data
CN108133014B (zh) 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN111460162A (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN106649338B (zh) 信息过滤策略生成方法及装置
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
Divya et al. Text summarization using deep learning
CN111782810A (zh) 一种基于主题增强的文本摘要生成方法
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN112784035A (zh) 一种多篇文档重点信息提取方法
Sha et al. Resolving entity morphs based on character-word embedding
CN115757776A (zh) 一种基于sq-lda主题模型的交通安全舆情分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210511