CN103279506A - 一种基于电力技术杂志论文非结构化数据提取的方法 - Google Patents
一种基于电力技术杂志论文非结构化数据提取的方法 Download PDFInfo
- Publication number
- CN103279506A CN103279506A CN2013101796517A CN201310179651A CN103279506A CN 103279506 A CN103279506 A CN 103279506A CN 2013101796517 A CN2013101796517 A CN 2013101796517A CN 201310179651 A CN201310179651 A CN 201310179651A CN 103279506 A CN103279506 A CN 103279506A
- Authority
- CN
- China
- Prior art keywords
- text message
- index
- paper
- find
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于电力技术杂志论文非结构化数据提取的方法,用户输入论文的标题及对应的论文的路径,数据提取模块将论文转换为文本信息,再从文本信息内容中判断是否具备提取条件,具备提取条件之后就开始提取作者信息、摘要、关键字信息,提取之后转换成结构化数据并存入网站的新系统的存储单元。本发明实现了可以快速高效地从电力技术杂志网站的老系统的论文中提取相关信息并转化成结构化数据,并录入到网站的新系统的存储单元中,使其能够在新系统中按需求检索,最大程度地提升工作效率,减轻工作量。
Description
技术领域
本发明涉及一种非结构化数据提取的方法,尤其涉及一种基于电力技术杂志论文非结构化数据提取的方法。
背景技术
在《云南电力技术》杂志网站的老系统中,采用的工作方式是人工手动操作,周期长,效率低,工作繁琐,且出错率高,结构化信息不完善、不准确,因而给新版《云南电力技术》杂志网站的迁移工作带来了很大的困难。在《云南电力技术》编辑部网站系统中,新老系统交替过程中,在新系统中检索老系统里的论文时,传统方式只能由人工操作,因而工作量大、检索到的信息不准确很容易出错。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于电力技术杂志论文非结构化数据提取的方法,实现了能够快速准确抓取信息,最大程度地提升工作效率,减轻工作量。
实现上述目的的技术方案是:
一种基于电力技术杂志论文非结构化数据提取的方法,其中,包括步骤:
步骤S1、用户输入论文的标题及论文路径;
步骤S2、判断是否成功转化为文本信息:判断是否包含所示文本信息"!第\“#卷$%&年'月电力技术()*+,-./0123456789:;<收稿日期=”、“!第\"#卷$%年月电力技术&'()*+,-./0123456789收稿日期:”,如有说明该论文为乱码,无法截取所需信息,则返回;
步骤S3、从文本信息中清除代替空格的"郾"、"暋"、"摇"三个错误转码字;
步骤S4、提取作者信息,包括以下步骤:
S41.判断文本信息中是否含有"摘要"或"摘要:"字样,如有则继续,没有就跳转步骤S7点;
S42.根据用户输入的论文的标题,找到论文的标题在上述文本信息中的最后一个字的索引;
S43.从文本信息中找到"摘要"或"摘要:"的第一个字的索引;
S44.截取两个索引【S42、S43】之间的文本信息;
S45.做完非空判断之后,这段文本信息中的第一行即为作者名称,剩下的内容即为作者单位;
步骤S5、提取摘要,包括以下步骤:
S51.判断文本信息中是否含有"关键词"字样,如有则继续,没有就跳转步骤S7;
S52.从文本信息中找到"摘要"或"摘要:"的最后一个字的索引;
S53.在文本信息中找到"关键词"字样的第一个字的索引;
S54.截取两个索引【S52、S53】之间的文本信息;
S55.做完非空判断之后,即为摘要的内容;
步骤S6、提取关键字,包括以下步骤:
S61.判断文本信息中是否含有"中图分类号"字样,如有则继续,没有就跳转步骤S7;
S62.从文本信息中找到"关键词"字样的最后一个字的索引;
S63.从文本信息中找到"中图分类号"字样的第一个字的索引;
S64.截取两个索引【S62、S63】之间的文本信息;
S65.做完非空判断之后,即为关键字的内容;
步骤S7、特殊情况,包括以下步骤:
S71.直接判断文本信息中是否含有"中图分类号"字样,如有则继续,没有则提取失败;
S72.根据用户输入的论文的标题,找到论文的标题在上述文本信息中的最后一个字的索引;
S73.从文本信息中找到"中图分类号"字样的第一个字的索引;
S74.截取两个索引【S72、S73】之间的文本信息;
S75.做完非空判断之后,这段文本信息中的第一行即为作者名称,剩下的内容即为作者单位;
步骤S8、结构化存储:将上述步骤中提取到的所述作者信息、摘要、关键字存储到存储单元。
本发明的有益效果是:本发明提供一种基于电力技术杂志论文非结构化数据提取的方法,实现了可以快速高效地从电力技术杂志网站老系统中的论文中提取作者信息、摘要、关键字等信息并转化成结构化数据,并录入到网站的新系统的存储单元中,使其能够在新系统中按需求检索,最大程度地提升工作效率,减轻工作量。
附图说明
图1是本发明的一种基于电力技术杂志PDF格式论文非结构化数据提取的方法的原理图;
图2是本发明的一种基于电力技术杂志PDF格式论文非结构化数据提取的方法的工作流程图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1和图2,本发明的一种基于电力技术杂志论文非结构化数据提取的方法,本实施例以《云南电力技术杂志》网站老系统中的PDF格式论文为例,在输入单元1中用户输入PDF格式论文5的标题4及对应的PDF论文5的路径6,数据提取模块2先将PDF格式论文5转换为文本信息,再从文本信息内容中判断是否具备提取条件,具备提取条件之后就开始提取作者信息6(包括作者名称、作者单位)、摘要、关键字等信息,并将提取的信息转化为结构化数据并存入网站的新系统的数据存储单元3。
针对《云南电力技术》杂志网站中的老系统的PDF格式和word格式的论文转换为结构化的数据,开发了相应的实施工具,以下以PDF格式的论文为例实现方式和具体步骤说明如下:
步骤S1、用户输入PDF论文5的标题及PDF论文5路径;
步骤S2、判断是否成功转化为文本信息:判断是否包含所示文本信息"!第\“#卷$%&年'月云南电力技术()*+,-./0123456789:;<收稿日期=”、“!第\"#卷$%年月云南电力技术&'()*+,-./0123456789收稿日期:”,如有说明该PDF论文为乱码,无法截取所需信息,则返回;
步骤S3、从文本信息中清除代替空格的"郾"、"暋"、"摇"三个错误转码字;
步骤S4、提取作者信息,包括以下步骤:
S41.判断文本信息中是否含有"摘要"或"摘要:"字样,如有则继续,没有就跳转步骤S7;
S42.根据用户输入的PDF论文的标题,找到PDF论文的标题在上述文本信息中的最后一个字的索引;
S43.从文本信息中找到"摘要"或"摘要:"的第一个字的索引;
S44.截取两个索引【S42、S43】之间的文本信息;
S45.做完非空判断之后,这段文本信息中的第一行即为作者名称,剩下的内容即为作者单位;
步骤S5、提取摘要,包括以下步骤:
S51.判断文本信息中是否含有"关键词"字样,如有则继续,没有就跳转步骤S7;
S52.从文本信息中找到"摘要"或"摘要:"的最后一个字的索引;
S53.在文本信息中找到"关键词"字样的第一个字的索引;
S54.截取两个索引【S52、S53】之间的文本信息;
S55.做完非空判断之后,即为摘要的内容;
步骤S6、提取关键字,包括以下步骤:
S61.判断文本信息中是否含有"中图分类号"字样,如有则继续,没有就跳转步骤S7;
S62.从文本信息中找到"关键词"字样的最后一个字的索引;
S63.从文本信息中找到"中图分类号"字样的第一个字的索引;
S64.截取两个索引【S62、S63】之间的文本信息;
S65.做完非空判断之后,即为关键字的内容;
步骤S7、特殊情况,包括以下步骤:
S71.直接判断文本信息中是否含有"中图分类号"字样,如有则继续,没有则提取失败;
S72.根据用户输入的PDF论文的标题,找到PDF论文的标题在上述文本信息中的最后一个字的索引;
S73.从文本信息中找到"中图分类号"字样的第一个字的索引;
S74.截取两个索引【S72、S73】之间的文本信息;
S75.做完非空判断之后,这段文本信息中的第一行即为作者名称,剩下的内容即为作者单位;
步骤S8、结构化存储:将上述步骤中提取到的所述作者信息、摘要、关键字存储到存储单元。
需要特别说明的是:以上步骤S4、步骤S5、步骤S6跳转步骤S7,属于特殊情况,无法提取摘要和关键字,步骤S7只执行提取作者信息并在在步骤S8中直接存储。)
电力技术杂志论文包括PDF格式和word格式的论文,本发明的一种基于电力技术杂志论文非结构化数据提取的方法,对电力技术杂志word格式的论文也适用,因此基于电力技术杂志word格式的论文的非结构化数据提取的方法同样按照以上步骤执行。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。
Claims (1)
1.一种基于电力技术杂志论文非结构化数据提取的方法,其特征在于:包括步骤:
步骤S1、用户输入论文的标题及论文路径;
步骤S2、判断是否成功转化为文本信息:判断是否包含所示文本信息"!第\“#卷$%&年'月电力技术()*+,-./0123456789:;<收稿日期=”、“!第\"#卷$%年月电力技术&'()*+,-./0123456789收稿日期:”,如有说明该论文为乱码,无法截取所需信息,则返回;
步骤S3、从文本信息中清除代替空格的"郾"、"暋"、"摇"三个错误转码字;
步骤S4、提取作者信息,包括以下步骤:
S41.判断文本信息中是否含有"摘要"或"摘要:"字样,如有则继续,没有就跳转步骤S7;
S42.根据用户输入的论文的标题,找到论文的标题在上述文本信息中的最后一个字的索引;
S43.从文本信息中找到"摘要"或"摘要:"的第一个字的索引;
S44.截取两个索引【S42、S43】之间的文本信息;
S45.做完非空判断之后,这段文本信息中的第一行即为作者名称,剩下的内容即为作者单位;
步骤S5、提取摘要,包括以下步骤:
S51.判断文本信息中是否含有"关键词"字样,如有则继续,没有就跳转步骤S7;
S52.从文本信息中找到"摘要"或"摘要:"的最后一个字的索引;
S53.在文本信息中找到"关键词"字样的第一个字的索引;
S54.截取两个索引【S52、S53】之间的文本信息;
S55.做完非空判断之后,即为摘要的内容;
步骤S6、提取关键字,包括以下步骤:
S61.判断文本信息中是否含有"中图分类号"字样,如有则继续,没有就跳转步骤S7;
S62.从文本信息中找到"关键词"字样的最后一个字的索引;
S63.从文本信息中找到"中图分类号"字样的第一个字的索引;
S64.截取两个索引【S62、S63】之间的文本信息;
S65.做完非空判断之后,即为关键字的内容;
步骤S7、特殊情况,包括以下步骤:
S71.直接判断文本信息中是否含有"中图分类号"字样,如有则继续,没有则提取失败;
S72.根据用户输入的论文的标题,找到论文的标题在上述文本信息中的最后一个字的索引;
S73.从文本信息中找到"中图分类号"字样的第一个字的索引;
S74.截取两个索引【S72、S73】之间的文本信息;
S75.做完非空判断之后,这段文本信息中的第一行即为作者名称,剩下的内容即为作者单位;
步骤S8、结构化存储:将上述步骤中提取到的所述作者信息、摘要、关键字存储到存储单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101796517A CN103279506A (zh) | 2013-05-15 | 2013-05-15 | 一种基于电力技术杂志论文非结构化数据提取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101796517A CN103279506A (zh) | 2013-05-15 | 2013-05-15 | 一种基于电力技术杂志论文非结构化数据提取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103279506A true CN103279506A (zh) | 2013-09-04 |
Family
ID=49062026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101796517A Pending CN103279506A (zh) | 2013-05-15 | 2013-05-15 | 一种基于电力技术杂志论文非结构化数据提取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279506A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573060A (zh) * | 2015-01-23 | 2015-04-29 | 徐立水 | 应用于医学网站的批量生成医生信息的方法及装置 |
CN104750801A (zh) * | 2015-03-24 | 2015-07-01 | 华迪计算机集团有限公司 | 一种结构化文档的生成方法和系统 |
CN108228664A (zh) * | 2016-12-22 | 2018-06-29 | 中国移动通信集团上海有限公司 | 非结构化数据处理方法及装置 |
CN108874990A (zh) * | 2018-06-12 | 2018-11-23 | 亓富军 | 一种基于电力技术杂志论文非结构化数据提取的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346730A (zh) * | 2010-07-30 | 2012-02-08 | 汉王科技股份有限公司 | 电子阅读器中显示目录的方法和装置 |
CN102693244A (zh) * | 2011-03-23 | 2012-09-26 | 日电(中国)有限公司 | 用于识别非结构化文本中的信息的方法和装置 |
-
2013
- 2013-05-15 CN CN2013101796517A patent/CN103279506A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346730A (zh) * | 2010-07-30 | 2012-02-08 | 汉王科技股份有限公司 | 电子阅读器中显示目录的方法和装置 |
CN102693244A (zh) * | 2011-03-23 | 2012-09-26 | 日电(中国)有限公司 | 用于识别非结构化文本中的信息的方法和装置 |
Non-Patent Citations (2)
Title |
---|
刘力: "《科技文档信息抽取与格式化技术研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈建国: "《基于特征的传统科技论文结构化析取关键技术研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573060A (zh) * | 2015-01-23 | 2015-04-29 | 徐立水 | 应用于医学网站的批量生成医生信息的方法及装置 |
CN104573060B (zh) * | 2015-01-23 | 2018-07-10 | 徐立水 | 应用于医学网站的批量生成医生信息的方法及装置 |
CN104750801A (zh) * | 2015-03-24 | 2015-07-01 | 华迪计算机集团有限公司 | 一种结构化文档的生成方法和系统 |
CN108228664A (zh) * | 2016-12-22 | 2018-06-29 | 中国移动通信集团上海有限公司 | 非结构化数据处理方法及装置 |
CN108874990A (zh) * | 2018-06-12 | 2018-11-23 | 亓富军 | 一种基于电力技术杂志论文非结构化数据提取的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104331446A (zh) | 一种基于内存映射的海量数据预处理方法 | |
CN103279454A (zh) | 文档自动生成方法、装置及系统 | |
CN104063519B (zh) | 基于excel的bpa电网数据解析及管理方法及系统 | |
CN105718218B (zh) | 一种适用于电能表或集中器负荷记录的压缩存储方法及系统 | |
CN103279506A (zh) | 一种基于电力技术杂志论文非结构化数据提取的方法 | |
CN105320734A (zh) | 一种网页核心内容提取方法 | |
CN101661468B (zh) | 一种从论坛帖子列表页面中抽取帖子元数据的方法 | |
CN102117289A (zh) | 一种从网页中抽取评论内容的方法和装置 | |
CN103856365B (zh) | 客户终端接入设备自动测试方法和系统 | |
CN102624770A (zh) | 信息摘录方法及基于云计算的摘录信息网络存储管理系统 | |
CN101609466B (zh) | 海量数据查重的方法和系统 | |
CN101639840A (zh) | 网络信息语义结构识别方法和装置 | |
CN103377225A (zh) | 知识库系统的构建方法和设备 | |
CN106649461A (zh) | 一种自动化清理维护ElasticSearch日志索引文件的方法 | |
CN102819595A (zh) | 网页分类方法、装置及网络设备 | |
CN102591931A (zh) | 基于树权值的网页数据记录识别和抽取方法 | |
CN107832374A (zh) | 标准知识库的构建方法、电子装置及存储介质 | |
CN108319695A (zh) | 水电站故障数据处理方法、装置、计算机设备和存储介质 | |
CN107291938A (zh) | 订单查询系统及方法 | |
CN106257457A (zh) | 一种舆情收集整理方法 | |
CN111625596A (zh) | 新能源实时消纳调度的多源数据同步共享方法及系统 | |
CN106372042A (zh) | 一种文档内容获取方法和装置 | |
CN105740406A (zh) | 一种信息标引和检索方法 | |
CN103116607B (zh) | 一种新的基于汉语拼音的全文检索系统 | |
CN102831135A (zh) | 一种新型的中文新闻页面增量采集的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130904 |