CN111241268B - 一种文本摘要自动生成方法 - Google Patents
一种文本摘要自动生成方法 Download PDFInfo
- Publication number
- CN111241268B CN111241268B CN202010070964.9A CN202010070964A CN111241268B CN 111241268 B CN111241268 B CN 111241268B CN 202010070964 A CN202010070964 A CN 202010070964A CN 111241268 B CN111241268 B CN 111241268B
- Authority
- CN
- China
- Prior art keywords
- sentence
- weight
- article
- abstract
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的一种文本摘要自动生成方法,包括以下步骤:接收需要生成摘要的文章;对接收到的文章进行分句处理,以将该文章分成若干句子;使用TextRank算法计算每一句子的内容相关度权重;根据预设的规则,计算每一句子的规则权重;使用滑动窗口的方法对计算得到的每一句子的内容相关度权重和规则权重进行处理,以计算在滑动窗口内每一句子的权重和;选取权重和最大的滑动窗口内的句子,并将选取的句子拼凑按照一定顺序拼凑形成该文章的摘要。本发明能够防止摘要中出现断句的情况,提升摘要的质量和通顺程度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本摘要自动生成方法。
背景技术
参见图1,图中给出的是现有的文本摘要生成方法,包括以下步骤:1.文本摘要系统接收到需要生成摘要的文章;2.直接截取文章的前100个字;3.将截取的字段作为该文章的摘要并返回。但是,这种方法存在以下两方面的缺陷:1.直接截取文章的前100个字,截取到的可能并不是一个完整的句子,影响摘要的通顺程度;2.截取文章的前100个字所生成的摘要,可能并不能概括该文章的主要内容,使得文章生成的摘要质量不高。
为此,本申请人经过有益的探索和研究,找到了解决上述问题的方法,下面将要介绍的技术方案便是在这种背景下产生的。
发明内容
本发明所要解决的技术问题在于:针对现有技术的不足而提供一种文本摘要自动生成方法,以防止所生成的摘要中出现断句的情况,提供摘要的质量和通顺程度。
本发明所要解决的技术问题可以采用如下技术方案来实现:
一种文本摘要自动生成方法,包括以下步骤:
接收需要生成摘要的文章;
对接收到的文章进行分句处理,以将该文章分成若干句子;
使用TextRank算法计算每一句子的内容相关度权重;
根据预设的规则,计算每一句子的规则权重;
使用滑动窗口的方法对计算得到的每一句子的内容相关度权重和规则权重进行处理,以计算在滑动窗口内每一句子的权重和;
选取权重和最大的滑动窗口内的句子,并将选取的句子拼凑按照一定顺序拼凑形成该文章的摘要。
在本发明的一个优选实施例中,所述使用TextRank算法计算每一句子的内容相关度权重,包括以下步骤:
对文章中的每一句子进行分词处理;
计算相邻两个句子之间的相似程度;
以句子作为节点,相邻两个句子之间的相似程度作为边的权重,构建一个无向图;
在无向图上运行PageRank算法,迭代地计算每个节点的权重;
每个节点的权重即为对应的句子的内容相关度权重。
在本发明的一个优选实施例中,所述预设的规则包括以下方面:
(1)越靠近开头或结尾的句子,该句子的规则权重越高;
(2)若句子是以副词或连词开头的,该句子的规则权重降低。
由于采用了如上技术方案,本发明的有益效果在于:本发明通过对文章先进行分句处理,能够防止摘要中出现断句的情况;使用TextRank算法,能够选出与文章内容相关程度更高的句子作为摘要,提升摘要的质量;使用预设的规则,能进一步提升摘要的质量与通顺程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有的文本摘要生成方法的流程示意图。
图2是本发明的文本摘要自动生成方法的流程示意图。
图3是本发明的计算句子内容的相关度权重的流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
参见图2,图中给出的是一种文本摘要自动生成方法,包括以下步骤:
步骤S10,接收需要生成摘要的文章。
步骤S20,对接收到的文章进行分句处理,以将该文章分成若干句子。对文章进行分句处理可有效地防止摘要中出现断句的情况。
步骤S30,使用TextRank算法计算每一句子的内容相关度权重。使用TextRank算法能够计算出每一句子与文章整体内容的相关程度,从而能选取出更能概况文章内容的句子作为摘要,提高摘要的质量。
步骤S40,根据预设的规则,计算每一句子的规则权重。预设的规则包括以下方面:(1)越靠近开头或结尾的句子,该句子的规则权重越高;(2)若句子是以副词或连词开头的,该句子的规则权重降低。由于一般文章的开头或结尾,都会有总结性的句子,所以更适合作为文章的摘要,通过规则(1)能增大这些句子的规则权重,提升摘要的质量;通过规则(2),能防止选出的摘要因不包含文章中的上下文信息而变得不通顺,提升摘要的通顺程度。
步骤S50,使用滑动窗口的方法对计算得到的每一句子的内容相关度权重和规则权重进行处理,以计算在滑动窗口内每一句子的权重和。使用滑动窗口的方法,能保证选取出的摘要在文章内部是连续的,进一步保证生成的摘要的通顺程度。
步骤S60,选取权重和最大的滑动窗口内的句子,并将选取的句子拼凑按照一定顺序拼凑形成该文章的摘要。
步骤S70,返回该文章的摘要。
在步骤S30中,使用TextRank算法计算每一句子的内容相关度权重,包括以下步骤:
步骤S31,对文章中的每一句子进行分词处理;
步骤S32,计算相邻两个句子之间的相似程度;
步骤S33,以句子作为节点,相邻两个句子之间的相似程度作为边的权重,构建一个无向图;
步骤S34,在无向图上运行PageRank算法,迭代地计算每个节点的权重;
步骤S35,每个节点的权重即为对应的句子的内容相关度权重。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (2)
1.一种文本摘要自动生成方法,其特征在于,包括以下步骤:
接收需要生成摘要的文章;
对接收到的文章进行分句处理,以将该文章分成若干句子;
使用TextRank算法计算每一句子的内容相关度权重;
根据预设的规则,计算每一句子的规则权重;所述预设的规则包括以下方面:(1)越靠近开头或结尾的句子,该句子的规则权重越高;(2)若句子是以副词或连词开头的,该句子的规则权重降低;
使用滑动窗口的方法对计算得到的每一句子的内容相关度权重和规则权重进行处理,以计算在滑动窗口内每一句子的权重和;
选取权重和最大的滑动窗口内的句子,并将选取的句子拼凑按照一定顺序拼凑形成该文章的摘要。
2.如权利要求1所述的文本摘要自动生成方法,其特征在于,所述使用TextRank算法计算每一句子的内容相关度权重,包括以下步骤:
对文章中的每一句子进行分词处理;
计算相邻两个句子之间的相似程度;
以句子作为节点,相邻两个句子之间的相似程度作为边的权重,构建一个无向图;
在无向图上运行PageRank算法,迭代地计算每个节点的权重;
每个节点的权重即为对应的句子的内容相关度权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010070964.9A CN111241268B (zh) | 2020-01-21 | 2020-01-21 | 一种文本摘要自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010070964.9A CN111241268B (zh) | 2020-01-21 | 2020-01-21 | 一种文本摘要自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241268A CN111241268A (zh) | 2020-06-05 |
CN111241268B true CN111241268B (zh) | 2023-04-14 |
Family
ID=70864304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010070964.9A Active CN111241268B (zh) | 2020-01-21 | 2020-01-21 | 一种文本摘要自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241268B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013167985A (ja) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
CN103617158A (zh) * | 2013-12-17 | 2014-03-05 | 苏州大学张家港工业技术研究院 | 一种对话文本情感摘要的生成方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106844341A (zh) * | 2017-01-10 | 2017-06-13 | 北京百度网讯科技有限公司 | 基于人工智能的新闻摘要提取方法及装置 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107423281A (zh) * | 2017-04-23 | 2017-12-01 | 四川用联信息技术有限公司 | 改进的小世界模型提取文本特征的算法 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
-
2020
- 2020-01-21 CN CN202010070964.9A patent/CN111241268B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013167985A (ja) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
CN103617158A (zh) * | 2013-12-17 | 2014-03-05 | 苏州大学张家港工业技术研究院 | 一种对话文本情感摘要的生成方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106844341A (zh) * | 2017-01-10 | 2017-06-13 | 北京百度网讯科技有限公司 | 基于人工智能的新闻摘要提取方法及装置 |
CN107423281A (zh) * | 2017-04-23 | 2017-12-01 | 四川用联信息技术有限公司 | 改进的小世界模型提取文本特征的算法 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
Non-Patent Citations (2)
Title |
---|
Alok Ranjan Pal et al.."An approach to automatic text summarization using WordNet".《IEEE International Advance Computing Conference》.2014,第1169-1173页. * |
曲阜平 等."一种基于滑动窗口的数据流摘要构造算法".《万方数据知识服务平台》.2013,第17-21页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111241268A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599721B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
US11620450B2 (en) | Deep learning based text classification | |
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
Sterckx et al. | Topical word importance for fast keyphrase extraction | |
US20170147682A1 (en) | Automated text-evaluation of user generated text | |
EP3805945A1 (en) | Search infrastructure | |
US20180165328A1 (en) | Apply Corrections to an Ingested Corpus | |
OA10805A (en) | Evaluation of the content of a data set using multiple and/or complex queries | |
CA2554951A1 (en) | Systems and methods for clustering data objects | |
US9336186B1 (en) | Methods and apparatus related to sentence compression | |
CN107357777B (zh) | 提取标签信息的方法和装置 | |
EP3724835A1 (en) | Split mapping for dynamic rendering and maintaining consistency of data processed by applications | |
CN113326420B (zh) | 问题检索方法、装置、电子设备和介质 | |
CN111126060A (zh) | 一种主题词的提取方法、装置、设备及存储介质 | |
CN104978332A (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN109063184A (zh) | 多语言新闻文本聚类方法、存储介质及终端设备 | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN111241268B (zh) | 一种文本摘要自动生成方法 | |
CN113408660A (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN109918661A (zh) | 同义词获取方法及装置 | |
CN111737461B (zh) | 文本的处理方法、装置、电子设备及计算机可读存储介质 | |
CN111639099A (zh) | 全文索引方法及系统 | |
CN112966505B (zh) | 一种从文本语料中提取持续性热点短语的方法、装置及存储介质 | |
CN116401305A (zh) | 一种信息处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |