CN107622046A - 一种根据关键词抽取文本摘要的算法 - Google Patents
一种根据关键词抽取文本摘要的算法 Download PDFInfo
- Publication number
- CN107622046A CN107622046A CN201710777298.0A CN201710777298A CN107622046A CN 107622046 A CN107622046 A CN 107622046A CN 201710777298 A CN201710777298 A CN 201710777298A CN 107622046 A CN107622046 A CN 107622046A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- paragraph
- text
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种根据关键词抽取文本摘要的算法,包括下列步骤:S1、将文本拆分成不同的段落,保存到一个集合中;S2、针对不同的段落,依次确定关键词在段落中的起始位置;S3、用关键词将段落拆分为不含关键词的段落集合;S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;S5、将抽取的摘要放入集合中;S6、判断每个段落是否完成摘要抽取,若否,则转至步骤S2,若是,则结束算法。该算法对大量文本在没有必要或没有时间进行仔细阅读的情况下,可以根据关键词抽取出部分摘要信息进行概要阅读,如果发现本文有仔细阅读价值,再进行详细阅读。该根据关键词抽取文本摘要的算法特别适合在大量文本中提取自己关注的内容。
Description
技术领域
本发明涉及文本内容的抽取技术领域,具体涉及一种根据关键词抽取文本摘要的算法。
背景技术
随着信息时代的发展,电子文档的数量正急剧增长。面对越来越多的文本资料,人们对文本进行选择性阅读的需求越来越高。根据关键词自动准确地抽取文本中的摘要内容是提高获取关键信息或选择性阅读的一种重要手段。
文本关键词自动提取算法已经有几十年的发展历史,目前大多数算法只关注待提取关键词的文本本身,但由于文本其本身的信息量有限,文本关键词的提取准确率受到了极大的限制。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种根据关键词抽取文本摘要的算法。
本发明的目的可以通过采取如下技术方案达到:
一种根据关键词抽取文本摘要的算法,所述的算法包括下列步骤:
S1、对文本进行段落拆分,将文本拆分成不同的段落,保存到一个集合中;
S2、针对不同的段落,依次确定关键词在段落中的起始位置;
S3、用关键词将段落拆分为不含关键词的段落集合;
S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;
S5、将抽取的摘要放入集合中;
S6、判断每个段落是否完成摘要抽取,若否,则转至步骤S2,若是,则结束算法。
进一步地,所述的步骤S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体包括下列子步骤:
S401、获取关键词前的所有文字字符;
S402、判断关键词前的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词前的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S403、获取关键词后的所有文字字符;
S404、判断关键字后的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词后的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S405、将关键词前抽取的摘要内容、关键词及关键词后抽取的摘要内容进行组合。
进一步地,所述的关键词可根据需要选定。
进一步地,所述的关键词前后待抽取文字长度可设置,用于调整到最合适的抽取效果。
进一步地,所述的步骤S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体如下:
在段落中,截取关键词后指定个数的文字,当关键词后指定个数文字中又出现了新的关键词,则再往后抽取指定个数个文字,以此类推,直到该段落没有关键词为止;而如果同一段落中关键字之间相差超过指定个数个文字,超过的部分用省略号代替。
本发明相对于现有技术具有如下的优点及效果:
根据本发明提出的一种根据关键词抽取文本摘要的算法,对大量文本,在没有必要或没有时间进行仔细阅读的情况下,可以根据关键词抽取出部分摘要信息进行概要阅读,如果发现本文有仔细阅读价值,再进行详细阅读。该根据关键词抽取文本摘要的算法特别适合在大量文本中提取自己关注的内容。
附图说明
图1是本发明公开的一种根据关键词抽取文本摘要的算法的总体流程图;
图2是本发明中根据关键词对段落进行摘要抽取的子步骤流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种根据关键词抽取文本摘要的算法,本算法的目的是解决如何快速从文本中获取所关注的内容。
如图1所示,图1公开了一种根据关键词抽取文本摘要的算法的总体流程图,具体包括下列步骤:
S1、对文本进行段落拆分,用回车换行符将文本拆分成不同的段落,保存到一个集合中;
S2、针对不同的段落,依次确定关键词在段落中的起始位置;
S3、用关键词将段落拆分为不含关键词的段落集合;
S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;
S5、将抽取的摘要放入集合中;
S6、判断每个段落是否完成摘要抽取,若否,则转至步骤S2,若是,则结束算法。
执行结束后即获得了指定关键词前后指定长度的文本摘要。
其中,附图2中给出了步骤S4、根据关键词对段落进行摘要抽取的子步骤流程图,如图2所示,步骤S4具体包括下列子步骤:
S401、获取关键词前的所有文字字符;
S402、获取关键词后的所有文字字符;
S403、判断关键词前的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词前的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S404、判断关键字后的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词后的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S405、将关键词前抽取的摘要内容、关键词及关键词后抽取的摘要内容进行组合。
其中,关键词可根据需要选定,关键词前后待抽取文字长度可设置,用于调整到最合适的抽取效果。
在段落中,截取关键词后指定个数的文字,当关键词后指定个数文字中又出现了新的关键词,则再往后抽取指定个数个文字,以此类推,直到该段落没有关键词为止。而如果同一段落中关键字之间相差超过指定个数个文字,超过的部分用省略号代替。
综上所述,上述根据关键词抽取文本摘要的算法,对大量文本,在没有必要或没有时间进行仔细阅读的情况下,可以根据关键词抽取出部分摘要信息进行概要阅读,如果发现本文有仔细阅读价值,再进行详细阅读。该根据关键词抽取文本摘要的算法特别适合在大量文本中提取自己关注的内容。同时,上述算法支持多种语言文本的文字抽取,比如,常用的中文、英文、法文等等,同样是由选定关键词,比如中文是几个字符,然后指定关键词前后待抽取文字长度是文字的若干个数;比如英文可以是一个单词或者几个单词,指定关键词前后待抽取文字长度是单词的若干个数或者拉丁字母的若干个数。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种根据关键词抽取文本摘要的算法,其特征在于,所述的算法包括下列步骤:
S1、对文本进行段落拆分,将文本拆分成不同的段落,保存到一个集合中;
S2、针对不同的段落,依次确定关键词在段落中的起始位置;
S3、用关键词将段落拆分为不含关键词的段落集合;
S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取;
S5、将抽取的摘要放入集合中;
S6、判断每个段落是否完成摘要抽取,若否,则转至步骤S2,若是,则结束算法。
2.根据权利要求1所述的一种根据关键词抽取文本摘要的算法,其特征在于,所述的步骤S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体包括下列子步骤:
S401、获取关键词前的所有文字字符;
S402、获取关键词后的所有文字字符;
S403、判断关键词前的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词前的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S404、判断关键字后的文字长度是否小于等于待抽取文字的长度,如果小于等于则将关键词后的文字作为摘要内容,否则,抽取指定长度的文字作为摘要内容;
S405、将关键词前抽取的摘要内容、关键词及关键词后抽取的摘要内容进行组合。
3.根据权利要求1或2所述的一种根据关键词抽取文本摘要的算法,其特征在于,所述的关键词可根据需要选定。
4.根据权利要求1或2所述的一种根据关键词抽取文本摘要的算法,其特征在于,所述的关键词前后待抽取文字长度可设置,用于调整到最合适的抽取效果。
5.根据权利要求1或2所述的一种根据关键词抽取文本摘要的算法,其特征在于,所述的步骤S4、根据关键词和关键词前后待抽取文字长度对段落进行摘要抽取具体如下:
在段落中,截取关键词后指定个数的文字,当关键词后指定个数文字中又出现了新的关键词,则再往后抽取指定个数个文字,以此类推,直到该段落没有关键词为止;而如果同一段落中关键字之间相差超过指定个数个文字,超过的部分用省略号代替。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710777298.0A CN107622046A (zh) | 2017-09-01 | 2017-09-01 | 一种根据关键词抽取文本摘要的算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710777298.0A CN107622046A (zh) | 2017-09-01 | 2017-09-01 | 一种根据关键词抽取文本摘要的算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107622046A true CN107622046A (zh) | 2018-01-23 |
Family
ID=61089343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710777298.0A Pending CN107622046A (zh) | 2017-09-01 | 2017-09-01 | 一种根据关键词抽取文本摘要的算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622046A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110238A (zh) * | 2019-03-14 | 2019-08-09 | 厦门天锐科技股份有限公司 | 一种敏感信息展示方法及装置 |
CN110381204A (zh) * | 2019-07-16 | 2019-10-25 | 维沃移动通信有限公司 | 一种信息显示方法及移动终端 |
CN111783420A (zh) * | 2020-06-19 | 2020-10-16 | 上海交通大学 | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101063975A (zh) * | 2007-02-15 | 2007-10-31 | 刘二中 | 电子文本处理与检索的方法和系统 |
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
CN106528534A (zh) * | 2016-11-09 | 2017-03-22 | 天津赛因哲信息技术有限公司 | 基于专有名词的关联词提取方法 |
US20170228457A1 (en) * | 2016-02-09 | 2017-08-10 | Yahoo! Inc. | Scalable and effective document summarization framework |
-
2017
- 2017-09-01 CN CN201710777298.0A patent/CN107622046A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101063975A (zh) * | 2007-02-15 | 2007-10-31 | 刘二中 | 电子文本处理与检索的方法和系统 |
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
US20170228457A1 (en) * | 2016-02-09 | 2017-08-10 | Yahoo! Inc. | Scalable and effective document summarization framework |
CN106528534A (zh) * | 2016-11-09 | 2017-03-22 | 天津赛因哲信息技术有限公司 | 基于专有名词的关联词提取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110238A (zh) * | 2019-03-14 | 2019-08-09 | 厦门天锐科技股份有限公司 | 一种敏感信息展示方法及装置 |
CN110381204A (zh) * | 2019-07-16 | 2019-10-25 | 维沃移动通信有限公司 | 一种信息显示方法及移动终端 |
CN111783420A (zh) * | 2020-06-19 | 2020-10-16 | 上海交通大学 | 基于bert模型的抗诉书要素抽取方法、系统、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9705761B2 (en) | Opinion information display system and method | |
CN103077164B (zh) | 文本分析方法及文本分析器 | |
CN102262625B (zh) | 网页关键词提取方法及装置 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN107622046A (zh) | 一种根据关键词抽取文本摘要的算法 | |
CN102436454A (zh) | 一种浏览器的输入法切换方法和系统 | |
CN107391499A (zh) | 自动导入翻译方法、文字显示终端及计算机可读存储介质 | |
US9716767B2 (en) | Method, system, computer storage medium, and apparatus for pushing input resources | |
CN108268668A (zh) | 一种基于话题多样性的文本数据观点摘要挖掘方法 | |
CN103955450A (zh) | 一种新词自动提取方法 | |
US20120271624A1 (en) | Processing geographical location data in a document | |
CN105320734A (zh) | 一种网页核心内容提取方法 | |
TW201741908A (zh) | 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法 | |
CN105117107A (zh) | 应用程序图标管理方法及系统 | |
CN105959811B (zh) | 一种视频网站弹幕合并方法及装置 | |
US10970489B2 (en) | System for real-time expression of semantic mind map, and operation method therefor | |
CN103902596B (zh) | 高频页面内容聚类方法和系统 | |
CN110222234B (zh) | 一种视频分类方法和装置 | |
CN102194503B (zh) | 一种播放器及字幕文件的字符编码检测方法和装置 | |
CN106168946A (zh) | 一种识别用户名缩写现象的方法 | |
WO2015024429A1 (zh) | 获取网页中影视主体的方法及装置 | |
WO2014189400A1 (en) | A method for diacritisation of texts written in latin- or cyrillic-derived alphabets | |
CN105148519A (zh) | 一种游戏程序中的文字渲染方法及系统 | |
CN103440231A (zh) | 用于比较文本的设备和方法 | |
CN105930468B (zh) | 一种基于规则的信息相关性判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180123 |