CN103279506A

CN103279506A - 一种基于电力技术杂志论文非结构化数据提取的方法

Info

Publication number: CN103279506A
Application number: CN2013101796517A
Authority: CN
Inventors: 黄星; 周年荣; 张征容; 潘侃; 杨晴; 张志生; 邓安明; 尹福荣; 陈达; 崔俊; 张成伟
Original assignee: Guangzhou Zhixun Information Science & Technology Co Ltd; Yunnan Electric Power Experimental Research Institute Group Co Ltd of Electric Power Research Institute; Kunming Enersun Technology Co Ltd
Current assignee: Guangzhou Zhixun Information Science & Technology Co Ltd; Yunnan Electric Power Experimental Research Institute Group Co Ltd of Electric Power Research Institute; Kunming Enersun Technology Co Ltd
Priority date: 2013-05-15
Filing date: 2013-05-15
Publication date: 2013-09-04

Abstract

本发明公开了一种基于电力技术杂志论文非结构化数据提取的方法，用户输入论文的标题及对应的论文的路径，数据提取模块将论文转换为文本信息，再从文本信息内容中判断是否具备提取条件，具备提取条件之后就开始提取作者信息、摘要、关键字信息，提取之后转换成结构化数据并存入网站的新系统的存储单元。本发明实现了可以快速高效地从电力技术杂志网站的老系统的论文中提取相关信息并转化成结构化数据，并录入到网站的新系统的存储单元中，使其能够在新系统中按需求检索，最大程度地提升工作效率，减轻工作量。

Description

一种基于电力技术杂志论文非结构化数据提取的方法

技术领域

本发明涉及一种非结构化数据提取的方法，尤其涉及一种基于电力技术杂志论文非结构化数据提取的方法。

背景技术

在《云南电力技术》杂志网站的老系统中，采用的工作方式是人工手动操作，周期长，效率低，工作繁琐，且出错率高，结构化信息不完善、不准确，因而给新版《云南电力技术》杂志网站的迁移工作带来了很大的困难。在《云南电力技术》编辑部网站系统中，新老系统交替过程中，在新系统中检索老系统里的论文时，传统方式只能由人工操作，因而工作量大、检索到的信息不准确很容易出错。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于电力技术杂志论文非结构化数据提取的方法，实现了能够快速准确抓取信息，最大程度地提升工作效率，减轻工作量。

实现上述目的的技术方案是：

一种基于电力技术杂志论文非结构化数据提取的方法，其中，包括步骤：

步骤S1、用户输入论文的标题及论文路径；

步骤S2、判断是否成功转化为文本信息:判断是否包含所示文本信息"!第\“#卷$%&年'月电力技术()*+,-./0123456789:;<收稿日期=”、“!第\"#卷$%年月电力技术&'()*+,-./0123456789收稿日期:”，如有说明该论文为乱码，无法截取所需信息，则返回；

步骤S3、从文本信息中清除代替空格的"郾"、"暋"、"摇"三个错误转码字；

步骤S4、提取作者信息,包括以下步骤：

S41．判断文本信息中是否含有"摘要"或"摘要:"字样，如有则继续，没有就跳转步骤S7点;

S42.根据用户输入的论文的标题，找到论文的标题在上述文本信息中的最后一个字的索引;

S43.从文本信息中找到"摘要"或"摘要:"的第一个字的索引;

S44.截取两个索引【S42、S43】之间的文本信息;

S45.做完非空判断之后，这段文本信息中的第一行即为作者名称，剩下的内容即为作者单位;

步骤S5、提取摘要,包括以下步骤：

S51.判断文本信息中是否含有"关键词"字样，如有则继续，没有就跳转步骤S7;

S52.从文本信息中找到"摘要"或"摘要:"的最后一个字的索引;

S53.在文本信息中找到"关键词"字样的第一个字的索引;

S54.截取两个索引【S52、S53】之间的文本信息;

S55.做完非空判断之后，即为摘要的内容;

步骤S6、提取关键字，包括以下步骤：

S61.判断文本信息中是否含有"中图分类号"字样，如有则继续，没有就跳转步骤S7;

S62.从文本信息中找到"关键词"字样的最后一个字的索引;

S63.从文本信息中找到"中图分类号"字样的第一个字的索引;

S64.截取两个索引【S62、S63】之间的文本信息;

S65.做完非空判断之后，即为关键字的内容;

步骤S7、特殊情况，包括以下步骤：

S71.直接判断文本信息中是否含有"中图分类号"字样，如有则继续，没有则提取失败;

S72.根据用户输入的论文的标题，找到论文的标题在上述文本信息中的最后一个字的索引;

S73.从文本信息中找到"中图分类号"字样的第一个字的索引;

S74.截取两个索引【S72、S73】之间的文本信息;

S75.做完非空判断之后，这段文本信息中的第一行即为作者名称，剩下的内容即为作者单位;

步骤S8、结构化存储：将上述步骤中提取到的所述作者信息、摘要、关键字存储到存储单元。

本发明的有益效果是：本发明提供一种基于电力技术杂志论文非结构化数据提取的方法，实现了可以快速高效地从电力技术杂志网站老系统中的论文中提取作者信息、摘要、关键字等信息并转化成结构化数据，并录入到网站的新系统的存储单元中，使其能够在新系统中按需求检索，最大程度地提升工作效率，减轻工作量。

附图说明

图1是本发明的一种基于电力技术杂志PDF格式论文非结构化数据提取的方法的原理图；

图2是本发明的一种基于电力技术杂志PDF格式论文非结构化数据提取的方法的工作流程图。

具体实施方式

下面将结合附图对本发明作进一步说明。

请参阅图1和图2，本发明的一种基于电力技术杂志论文非结构化数据提取的方法，本实施例以《云南电力技术杂志》网站老系统中的PDF格式论文为例，在输入单元1中用户输入PDF格式论文5的标题4及对应的PDF论文5的路径6，数据提取模块2先将PDF格式论文5转换为文本信息，再从文本信息内容中判断是否具备提取条件，具备提取条件之后就开始提取作者信息6（包括作者名称、作者单位）、摘要、关键字等信息，并将提取的信息转化为结构化数据并存入网站的新系统的数据存储单元3。

针对《云南电力技术》杂志网站中的老系统的PDF格式和word格式的论文转换为结构化的数据，开发了相应的实施工具，以下以PDF格式的论文为例实现方式和具体步骤说明如下：

步骤S1、用户输入PDF论文5的标题及PDF论文5路径；

步骤S2、判断是否成功转化为文本信息:判断是否包含所示文本信息"!第\“#卷$%&年'月云南电力技术()*+,-./0123456789:;<收稿日期=”、“!第\"#卷$%年月云南电力技术&'()*+,-./0123456789收稿日期:”，如有说明该PDF论文为乱码，无法截取所需信息，则返回；

步骤S4、提取作者信息,包括以下步骤：

S41．判断文本信息中是否含有"摘要"或"摘要:"字样，如有则继续，没有就跳转步骤S7;

S42.根据用户输入的PDF论文的标题，找到PDF论文的标题在上述文本信息中的最后一个字的索引;

S43.从文本信息中找到"摘要"或"摘要:"的第一个字的索引;

S44.截取两个索引【S42、S43】之间的文本信息;

步骤S5、提取摘要,包括以下步骤：

S52.从文本信息中找到"摘要"或"摘要:"的最后一个字的索引;

S53.在文本信息中找到"关键词"字样的第一个字的索引;

S54.截取两个索引【S52、S53】之间的文本信息;

S55.做完非空判断之后，即为摘要的内容;

步骤S6、提取关键字，包括以下步骤：

S62.从文本信息中找到"关键词"字样的最后一个字的索引;

S63.从文本信息中找到"中图分类号"字样的第一个字的索引;

S64.截取两个索引【S62、S63】之间的文本信息;

S65.做完非空判断之后，即为关键字的内容;

步骤S7、特殊情况，包括以下步骤：

S72.根据用户输入的PDF论文的标题，找到PDF论文的标题在上述文本信息中的最后一个字的索引;

S73.从文本信息中找到"中图分类号"字样的第一个字的索引;

S74.截取两个索引【S72、S73】之间的文本信息;

需要特别说明的是：以上步骤S4、步骤S5、步骤S6跳转步骤S7，属于特殊情况，无法提取摘要和关键字，步骤S7只执行提取作者信息并在在步骤S8中直接存储。）

电力技术杂志论文包括PDF格式和word格式的论文，本发明的一种基于电力技术杂志论文非结构化数据提取的方法，对电力技术杂志word格式的论文也适用，因此基于电力技术杂志word格式的论文的非结构化数据提取的方法同样按照以上步骤执行。

以上结合附图实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种基于电力技术杂志论文非结构化数据提取的方法，其特征在于：包括步骤：

步骤S1、用户输入论文的标题及论文路径；

步骤S4、提取作者信息,包括以下步骤：

S43.从文本信息中找到"摘要"或"摘要:"的第一个字的索引;

S44.截取两个索引【S42、S43】之间的文本信息;

步骤S5、提取摘要,包括以下步骤：

S52.从文本信息中找到"摘要"或"摘要:"的最后一个字的索引;

S53.在文本信息中找到"关键词"字样的第一个字的索引;

S54.截取两个索引【S52、S53】之间的文本信息;

S55.做完非空判断之后，即为摘要的内容;

步骤S6、提取关键字，包括以下步骤：

S62.从文本信息中找到"关键词"字样的最后一个字的索引;

S63.从文本信息中找到"中图分类号"字样的第一个字的索引;

S64.截取两个索引【S62、S63】之间的文本信息;

S65.做完非空判断之后，即为关键字的内容;

步骤S7、特殊情况，包括以下步骤：

S73.从文本信息中找到"中图分类号"字样的第一个字的索引;

S74.截取两个索引【S72、S73】之间的文本信息;