CN105183710A - 一种文档摘要自动生成的方法 - Google Patents

一种文档摘要自动生成的方法 Download PDF

Info

Publication number
CN105183710A
CN105183710A CN201510348595.4A CN201510348595A CN105183710A CN 105183710 A CN105183710 A CN 105183710A CN 201510348595 A CN201510348595 A CN 201510348595A CN 105183710 A CN105183710 A CN 105183710A
Authority
CN
China
Prior art keywords
chapters
text
document
sections
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510348595.4A
Other languages
English (en)
Inventor
江潮
马强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510348595.4A priority Critical patent/CN105183710A/zh
Publication of CN105183710A publication Critical patent/CN105183710A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文档摘要自动生成的方法,包括:将文档按照其内的章节进行分片化处理,获取所述文档中各个章节文本;从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段;将找出的所述文本片段进行合并,生成文档摘要。本发明自动生成文档摘要,可以降低人工阅读的成本,确定文档的关键内容,帮助管理人员和管理系统提高管理效率。

Description

一种文档摘要自动生成的方法
技术领域
本发明属于电子文档管理技术领域,尤其涉及一种文档摘要自动生成的方法。
背景技术
学校和企业单位在日常中会面临查找大量的论文及文档资料的工作,如果单纯依靠人去审阅需要耗费大量的人力物力。
文档摘要在文献管理中是必不可少的部分,是对文档的简短陈述。具有不读原文就知全文的特点,传统做法由人为处理然后录入,但是这样做不仅容易出错,而且对于海量文档数据需要大量专职人员来处理。这样无疑增加了人工成本和时间成本。
发明内容
本发明的目的之一是提供一种文档摘要自动生成的方法,以解决现有技术中的文档管理人工成本、时间成本高的问题。
在一些说明性实施例中,所述文档摘要自动生成的方法,包括:将文档按照其内的章节进行分片化处理,获取所述文档中各个章节文本;从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段;将找出的所述文本片段进行合并,生成文档摘要。
与现有技术相比,本发明的说明性实施例包括以下优点:
本发明自动生成文档摘要,可以降低人工阅读的成本,确定文档的关键内容,帮助管理人员和管理系统提高管理效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是按照本发明的说明性实施例的流程图;
图2是按照本发明的说明性实施例的流程图;
图3是按照本发明的说明性实施例的TextRank算法的示意图;
图4是按照本发明的说明性实施例的流程图。
具体实施方式
在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
为了解决人工成本和时间成本高,效率低的问题,本发明专门针对这些问题,彻底解放人为设置,只要根据所需预先设定目录文档标识出每个目录章节所归纳的关键字信息,之后程序会自动根据关键字信息去根据文档库中每个文档的所有段落进行相关性匹配,将相关性最高的段落合并后,再根据TextRank算法生成摘要信息,这时该章节和摘要信息就得到了关联。
下面对本发明的说明性实施例进行详细说明:如图1所示,公开了一种文档摘要自动生成的方法,包括:
S11、将文档按照其内的章节进行分片化处理,获取所述文档中各个章节文本;
其中,该章节文本可以是文档内容中的大标题划分的章节,或者是根据用户定义的章节;
S12、从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段;
其中,文本片段可以是由一个或多个句子组成的文本。
S13、将找出的所述文本片段进行合并,生成文档摘要。
本发明自动生成文档摘要,可以降低人工阅读的成本,确定文档的关键内容,帮助管理人员和管理系统提高管理效率。
如图2所示,在一些说明性实施例中,所述从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段,具体包括:
S21、对每个所述章节文本进行分段处理,去除其中的停用词,获取该章节文本中各个文本片段;
其中,所述停用词是指不具备实际含义的功能词,例如英语中的“the、a、an、that、和those”,将其删除不会影响原文含义的词。
S22、将该章节文本中的各个文本片段与该章节文本所对应的关键词进行相似度分析;
S23、将结果大于预先设定的阈值的文本片段作为该关键词所关联的文本片段。
在一些说明性实施例中,所述将找出的所述文本片段进行合并,生成文档摘要,具体包括:将找出的所述文本片段进行多种组合,得到至少两个候选摘要;分别分析出每个所述候选摘要的权重值,将权重值最高的所述候选摘要作为所述文档摘要;其中,所述权重值用于表示候选摘要的句式、语义的合理程度。
在一些说明性实施例中,所述分别分析出每个所述候选摘要的权重值,将权重值最高的所述候选摘要作为所述文档摘要的过程中,包括:利用TextRank算法计算出每个所述候选摘要的权重值。
在此,对TextRank算法进行简要说明,其用于将文本进行分段,每一个分段的句子作为图3中一个顶点,而每个句子中存在的词指向关系看做是一个边,以进行图计算来完成处理得到每个句子权重值得分排名得分越高说明当前句子对整个文本贡献度越高,越有可能成为摘要。
在一些说明性实施例中,所述利用TextRank算法计算出每个所述候选摘要的权重值,具体包括:
按照如下公式计算出每个所述候选摘要的权重值:
W S ( v i ) = ( 1 - d ) + d * Σ v j ∈ I n ( V i ) w j i Σ v k ∈ O u t ( V j ) w j k W S ( V j )
其中,WS(Vi)为句子Vi的权重值,d为阻尼系数,句子Vj为链入句子Vi的一个句子,In(Vi)为句子Vi的链入集合,Out(Vj)为句子Vj的链出集合,wji为句子Vj和句子Vi的相似度,wjk为句子Vj和句子Vk的相似度,WS(Vj)为上一次迭代产生的各个句子的权重值,i用于表示选定计算权重值的句子,j用于表示句子Vi的入链,k为句子Vj的出链,i、j、k∈N+,i≠j≠k。
在一些说明性实施例中,所述将该章节文本中的各个文本片段与该章节文本所对应的关键词进行相似度分析的过程中,包括:利用BM25算法计算出文本片段与关键词之间的关联程度。
其中,wji为句子Vj和句子Vi的相似度,wjk为句子Vj和句子Vk的相似度也可以通过BM25算法进行计算获得。
其中,所述利用BM25算法计算出文本片段与关键词之间的关联程度,具体包括:
按照如下公式进行计算,结果作为所述关联程度;
Σ t ∈ Q , D l n N - d f + 0.5 d f + 0.5 . ( k 1 + 1 ) t f ( k 1 ( 1 - b ) + b d l a v d l ) + t f . ( k 3 + 1 ) q t f k 3 + q t f
其中,tf表示一篇文档中出现的词频,qtf表示查询文档中出现的词频,N表示文档集合中文档的总数量,df表示文档频率,dl表示文档的长度,avdl表示在集合中文档的平均长度。
此公式是用来计算文档的相似度得分,通过查询文档和文档库中的目标文档进行得分比对,来获取得分,排序越高即越相似。
在一些说明性实施例中,在所述从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段之前,还包括:识别所述文档中各个章节中的标记内容,作为该章节的关键词。
其工作流程例如:
S31、扫描文档,确定文档中的各章节,且为每个章节建立章节目录;
其中,章节目录用于划分文档章节并存储关键词;
S32、扫描设定标记,将文档各章节中的设定标记所指示的词语作为关键词,放入相应的章节目录中;
待分析时调用。
在一些说明性实施例中,可以通过架设服务器,将多台终端设备联网,一台设备上的任务,可以拆解成若干项,并根据当前网络终端空闲状况分配给空闲终端进行分布式任务处理,从而充分利用处理资源,提高工作效率。
其中,空闲状况可以根据终端设备的任务量、任务优先级进行分析,筛选出任务量较小,和/或,执行任务优先级较低的终端设备进行使用。
再或者,其工作在各设定终端的后台自动运行。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种文档摘要自动生成的方法,其特征在于,包括:
将文档按照其内的章节进行分片化处理,获取所述文档中各个章节文本;
从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段;
将找出的所述文本片段进行合并,生成文档摘要。
2.根据权利要求1所述的方法,其特征在于,所述从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段,具体包括:
对每个所述章节文本进行分段处理,将所述章节文本中不具有实际含义的功能词作为停用词去除,得到该章节文本中的各个文本片段;
将该章节文本中的各个文本片段与该章节文本所对应的关键词进行相似度分析;
将结果大于预先设定的阈值的文本片段作为该关键词所关联的文本片段。
3.根据权利要求1所述的方法,其特征在于,所述将找出的所述文本片段进行合并,生成文档摘要,具体包括:
将找出的所述文本片段进行多种组合,得到至少两个候选摘要;
分别分析出每个所述候选摘要的权重值,将权重值最高的所述候选摘要作为所述文档摘要;
其中,所述权重值用于表示候选摘要的句式、语义的合理程度。
4.根据权利要求3所述的方法,其特征在于,所述分别分析出每个所述候选摘要的权重值,将权重值最高的所述候选摘要作为所述文档摘要的过程中,包括:
利用TextRank算法计算出每个所述候选摘要的权重值。
5.根据权利要求4所述的方法,其特征在于,所述利用TextRank算法计算出每个所述候选摘要的权重,具体包括:
按照如下公式计算出每个所述候选摘要的权重值:
W S ( v i ) = ( 1 - d ) + d * Σ v j ∈ I n ( V i ) w j i Σ v k ∈ O u t ( V j ) w j k W S ( V j )
其中,WS(Vi)为句子Vi的权重值,d为阻尼系数,句子Vj为链入句子Vi的一个句子,In(Vi)为句子Vi的链入集合,Out(Vj)为句子Vj的链出集合,wji为句子Vj和句子Vi的相似度,wjk为句子Vj和句子Vk的相似度,WS(Vj)为上一次迭代产生的各个句子的权重值,i用于表示选定计算权重值的句子,j用于表示句子Vi的入链,k为句子Vj的出链,i、j、k∈N+,i≠j≠k。
6.根据权利要求2所述的方法,其特征在于,所述将该章节文本中的各个文本片段与该章节文本所对应的关键词进行相似度分析的过程中,包括:
利用BM25算法计算出文本片段与关键词之间的关联程度。
7.根据权利要求6所述的方法,其特征在于,所述利用BM25算法计算出文本片段与关键词之间的关联程度,具体包括:按照如下公式进行计算,结果作为所述关联程度;
Σ t ∈ Q , D l n N - d f + 0.5 d f + 0.5 . ( k 1 + 1 ) t f ( k 1 ( 1 - b ) + b d 1 a v d 1 ) + t f · ( k 3 + 1 ) q t f k 3 + q t f
其中,tf表示一篇文档中出现的词频,qtf表示查询文档中出现的词频,N表示文档集合中文档的总数量,df表示文档频率,dl表示文档的长度,avdl表示在集合中文档的平均长度。
8.根据权利要求1所述的方法,其特征在于,在所述从各个章节文本中找出与该文档的发布者设定的各章节的关键词所关联的文本片段之前,还包括:
识别所述文档中各个章节中的标记内容,作为该章节的关键词。
CN201510348595.4A 2015-06-23 2015-06-23 一种文档摘要自动生成的方法 Pending CN105183710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510348595.4A CN105183710A (zh) 2015-06-23 2015-06-23 一种文档摘要自动生成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510348595.4A CN105183710A (zh) 2015-06-23 2015-06-23 一种文档摘要自动生成的方法

Publications (1)

Publication Number Publication Date
CN105183710A true CN105183710A (zh) 2015-12-23

Family

ID=54905799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510348595.4A Pending CN105183710A (zh) 2015-06-23 2015-06-23 一种文档摘要自动生成的方法

Country Status (1)

Country Link
CN (1) CN105183710A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622046A (zh) * 2017-09-01 2018-01-23 广州慧睿思通信息科技有限公司 一种根据关键词抽取文本摘要的算法
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109670047A (zh) * 2018-11-19 2019-04-23 内蒙古大学 一种抽象笔记生成方法、计算机装置及可读存储介质
CN110245230A (zh) * 2019-05-15 2019-09-17 北京思源智通科技有限责任公司 一种图书分级方法、系统、存储介质和服务器
CN110334192A (zh) * 2019-07-15 2019-10-15 河北科技师范学院 文本摘要生成方法及系统、电子设备及存储介质
CN110888976A (zh) * 2019-11-14 2020-03-17 北京香侬慧语科技有限责任公司 一种文本摘要生成方法和装置
CN111859950A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种自动化生成讲稿的方法
US10929452B2 (en) 2017-05-23 2021-02-23 Huawei Technologies Co., Ltd. Multi-document summary generation method and apparatus, and terminal
CN116681042A (zh) * 2023-08-01 2023-09-01 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、系统及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187919A (zh) * 2006-11-16 2008-05-28 北大方正集团有限公司 一种对文档集进行批量单文档摘要的方法及系统
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN102314448A (zh) * 2010-07-06 2012-01-11 株式会社理光 一种在文档中获得一个或多个关键元素的设备和方法
CN103136224A (zh) * 2011-11-24 2013-06-05 百度时代网络技术(北京)有限公司 一种关键词的推荐方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187919A (zh) * 2006-11-16 2008-05-28 北大方正集团有限公司 一种对文档集进行批量单文档摘要的方法及系统
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN102314448A (zh) * 2010-07-06 2012-01-11 株式会社理光 一种在文档中获得一个或多个关键元素的设备和方法
CN103136224A (zh) * 2011-11-24 2013-06-05 百度时代网络技术(北京)有限公司 一种关键词的推荐方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王继成 等: "一种篇章结构指导的中文Web文档自动摘要方法", 《计算机研究与发展》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929452B2 (en) 2017-05-23 2021-02-23 Huawei Technologies Co., Ltd. Multi-document summary generation method and apparatus, and terminal
CN107622046A (zh) * 2017-09-01 2018-01-23 广州慧睿思通信息科技有限公司 一种根据关键词抽取文本摘要的算法
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109255022B (zh) * 2018-08-08 2021-11-23 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109670047A (zh) * 2018-11-19 2019-04-23 内蒙古大学 一种抽象笔记生成方法、计算机装置及可读存储介质
CN109670047B (zh) * 2018-11-19 2022-09-20 内蒙古大学 一种抽象笔记生成方法、计算机装置及可读存储介质
CN110245230A (zh) * 2019-05-15 2019-09-17 北京思源智通科技有限责任公司 一种图书分级方法、系统、存储介质和服务器
CN110334192B (zh) * 2019-07-15 2021-09-24 河北科技师范学院 文本摘要生成方法及系统、电子设备及存储介质
CN110334192A (zh) * 2019-07-15 2019-10-15 河北科技师范学院 文本摘要生成方法及系统、电子设备及存储介质
CN110888976A (zh) * 2019-11-14 2020-03-17 北京香侬慧语科技有限责任公司 一种文本摘要生成方法和装置
CN110888976B (zh) * 2019-11-14 2023-06-20 北京香侬慧语科技有限责任公司 一种文本摘要生成方法和装置
CN111859950A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种自动化生成讲稿的方法
CN116681042A (zh) * 2023-08-01 2023-09-01 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、系统及介质
CN116681042B (zh) * 2023-08-01 2023-10-10 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、系统及介质

Similar Documents

Publication Publication Date Title
CN105183710A (zh) 一种文档摘要自动生成的方法
CN102819604B (zh) 基于内容相关性的文件涉密内容检索、密级判定及标注方法
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
Ding et al. Entity discovery and assignment for opinion mining applications
US9589072B2 (en) Discovering expertise using document metadata in part to rank authors
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
Chawla et al. Product opinion mining using sentiment analysis on smartphone reviews
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN107102993B (zh) 一种用户诉求分析方法和装置
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN103838756A (zh) 一种确定推送信息的方法及装置
CN104850554A (zh) 一种搜索方法和系统
CN102722709A (zh) 一种垃圾图片识别方法和装置
CN108959203A (zh) 一种文挡录入并比对的方法
Hasan et al. TwitterNews: Real time event detection from the Twitter data stream
CN103678412A (zh) 一种文档检索的方法及装置
CN103577462A (zh) 一种文档分类方法及装置
CN106503266A (zh) 文档分类方法及装置
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
KR101179613B1 (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
Reddy et al. An efficient approach for web document summarization by sentence ranking
Yang et al. A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN114461748A (zh) 标签抽取方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223