CN107992567A - 数据采集方法及数据采集系统 - Google Patents

数据采集方法及数据采集系统 Download PDF

Info

Publication number
CN107992567A
CN107992567A CN201711229307.9A CN201711229307A CN107992567A CN 107992567 A CN107992567 A CN 107992567A CN 201711229307 A CN201711229307 A CN 201711229307A CN 107992567 A CN107992567 A CN 107992567A
Authority
CN
China
Prior art keywords
data
information
access
file
bivariate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711229307.9A
Other languages
English (en)
Inventor
刘抒平
张仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongtai Tianjian Technology Co Ltd
Original Assignee
Beijing Tongtai Tianjian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongtai Tianjian Technology Co Ltd filed Critical Beijing Tongtai Tianjian Technology Co Ltd
Priority to CN201711229307.9A priority Critical patent/CN107992567A/zh
Publication of CN107992567A publication Critical patent/CN107992567A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据采集方法及数据采集系统,该数据采集方法包括:获取表结构信息,并根据所述表结构信息建立数据库表;获取待取数据文件的取数范围信息,所述取数范围信息包括头信息数据的取数范围和二维表数据的取数范围;获取信息表取数规则和二维表取数规则;根据所述头信息数据的取数范围以及所述信息表取数规则从待取数据文件采集头信息数据,并将采集的头信息数据存储至所述信息表,根据所述二维表数据的取数范围以及所述二维表取数规则从待取数据文件采集二维表数据,并将采集的二维表数据存储至所述数据表。本发明提供的数据采集方法,可以从多种格式的文本或Excel中采集数据。

Description

数据采集方法及数据采集系统
技术领域
本发明涉及计算机技术领域,具体涉及一种数据采集方法及数据采集系统。
背景技术
文本和Excel中的数据是企业软件非常重要的数据来源,但同时文本和Excel的特点是不利于对其中的数据进行利用和分析,将文本和Excel的数据转化为数据库的结构化数据,是一种非常切实有效的利用和分析数据的手段,目前常用方法是:获得一个具体的文本或Excel文件,根据所需要采集的数据来建立相应的数据库表,然后使用程序读取该文本或Excel文件中需要采集的数据保存到相应的数据库表中。
对于上述方法,一方面如果有多种格式类型的文本或Excel文件,就需要对每种类型开发一套程序,现实情况中,我们往往会面对几十、甚至上百种,或是更多不同格式的文本或Excel文件,这样的话,开发程序的工作量是巨大的。另一方面,如果文本或Excel文件的格式改变了,就需要修改原有的程序,程序的可适应性就很差。
发明内容
本发明的目的在于提供一种数据采集方法及数据采集系统,可以从多种格式的文本或Excel中采集数据。
为实现上述目的,本发明的技术方案提供了一种数据采集方法,包括:
获取表结构信息,并根据所述表结构信息建立数据库表,所述数据库表包括用于存储头信息数据的信息表以及用于存储二维表数据的数据表;
获取待取数据文件的取数范围信息,所述取数范围信息包括头信息数据的取数范围和二维表数据的取数范围;
获取信息表取数规则和二维表取数规则;
根据所述头信息数据的取数范围以及所述信息表取数规则从待取数据文件采集头信息数据,并将采集的头信息数据存储至所述信息表,根据所述二维表数据的取数范围以及所述二维表取数规则从待取数据文件采集二维表数据,并将采集的二维表数据存储至所述数据表。
进一步地,所述待取数据文件为文本文件或Excel文件。
进一步地,所述待取数据文件为文本文件,所述二维表数据的取数范围包括行结束标识信息、列间标识信息以及要取数据所在单元格的位置信息。
进一步地,所述待取数据文件为Excel文件,所述二维表数据的取数范围包括要取数据所在的sheet页信息以及要取数据所在单元格的位置信息。
为实现上述目的,本发明的技术方案还提供了一种数据采集系统,包括:
构建模块,用于获取表结构信息,并根据所述表结构信息建立数据库表,所述数据库表包括用于存储头信息数据的信息表以及用于存储二维表数据的数据表;
第一获取模块,用于获取待取数据文件的取数范围信息,所述取数范围信息包括头信息数据的取数范围和二维表数据的取数范围;
第二获取模块,用于获取信息表取数规则和二维表取数规则;
采集模块,用于根据所述头信息数据的取数范围以及所述信息表取数规则从待取数据文件采集头信息数据,并将采集的头信息数据存储至所述信息表,以及根据所述二维表数据的取数范围以及所述二维表取数规则从待取数据文件采集二维表数据,并将采集的二维表数据存储至所述数据表。
进一步地,所述待取数据文件为文本文件或Excel文件。
进一步地,所述待取数据文件为文本文件,所述二维表数据的取数范围包括行结束标识信息、列间标识信息以及要取数据所在单元格的位置信息。
进一步地,所述待取数据文件为Excel文件,所述二维表数据的取数范围包括要取数据所在的sheet页信息以及要取数据所在单元格的位置信息。
本发明提供的数据采集方法,可以从多种格式的文本或Excel中采集数据,对格式的适应性只需要进行相应的配置即可,进而可以大大的节省了程序的开发量和极大提高了程序的可适应性。
附图说明
图1是本发明实施方式提供的一种数据采集方法的流程图;
图2是本发明实施方式提供的一种文本数据样例示意图;
图3是根据图2所示的文本数据样例建立的数据表的示意图;
图4是本发明实施方式提供的一种Excel数据样例示意图;
图5是本发明实施方式提供的另一种Excel数据样例示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1,图1是本发明实施方式提供的一种数据采集方法的流程图,该数据采集方法包括:
步骤S1:获取表结构信息,并根据所述表结构信息建立数据库表,所述数据库表包括用于存储头信息数据的信息表以及用于存储二维表数据的数据表;
步骤S2:获取待取数据文件的取数范围信息,所述取数范围信息包括头信息数据的取数范围和二维表数据的取数范围;
其中,所述待取数据文件可以为文本文件或Excel文件;
步骤S3:获取信息表取数规则和二维表取数规则;
步骤S4:根据所述头信息数据的取数范围以及所述信息表取数规则从待取数据文件采集头信息数据,并将采集的头信息数据存储至所述信息表,根据所述二维表数据的取数范围以及所述二维表取数规则从待取数据文件采集二维表数据,并将采集的二维表数据存储至所述数据表。
本发明实施方式提供的数据采集方法,可以从多种格式的文本或Excel中采集数据,对格式的适应性只需要进行相应的配置即可,进而可以大大的节省了程序的开发量和极大提高了程序的可适应性。
例如,在本发明实施方式中,所述待取数据文件为文本文件,所述二维表数据的取数范围包括行结束标识信息、列间标识信息以及要取数据所在单元格的位置信息。
例如,在本发明实施方式中,所述待取数据文件为Excel文件,所述二维表数据的取数范围包括要取数据所在的sheet页信息以及要取数据所在单元格的位置信息。
本发明中,待取数据文件为仪器设备(如光谱分析仪、浓度检测仪或酸度检测仪)输出的文件,如输出的检测结果文件、检测过程文件或者原始记录文件,其可以为文本文件(如TXT格式),也可以为Excel文件。
例如,本发明提供的数据采集方法可以包括如下步骤:
步骤101:首先对某一类型的文本或Excel建立规则,确定是文本文件,还是Excel文件;
步骤102:先行分析并确定该类型文件需要采集哪些数据,确定信息表和数据表,其中,每个采集规则采集的数据都是由一张信息表和一张数据表存储的,信息表用于存储离散的头信息数据,数据表用于存储二维表数据,信息表和数据表的表结构由需要采集的文本或Excel中的数据项确定,信息表和数据表可以均只存在一张,也可以同时存在多张,建表的方式可以为立即建立,即动态建表,此外,信息表和数据表也可以是已有的表;
如图2所示,“监测项目、监测对象、监测时长、监测间隔”是信息表的内容,因此可以将“监测对象、监测时长”采集到信息表,将第5行之后的两列数据采集到数据表,通过这个分析,可以在数据库中建立数据库表(如图3所示),也可以使用程序动态建立库表,可以极大降低使用的技术门槛;
步骤S103:获取待取数据文件的取数范围信息,包括头信息数据的取数范围和二维表数据的取数范围:
例如,若所述待取数据文件为文本文件,所述二维表数据的取数范围包括行结束标识信息、列间标识信息以及要取数据所在单元格的位置信息;若所述待取数据文件为Excel文件,所述二维表数据的取数范围包括要取数据所在的sheet页信息以及要取数据所在单元格的位置信息;
其中,要取数据所在单元格的位置信息可以采用如下四种方式:
a)横向取数:针对二维表数据,以行作为循环条件,按列取数;
b)纵向取数:针对二维表数据,以列作为循环条件,按行取数;
c)迭代信息取数:头信息和二维表数据构成一个数据块,从上到下有多个数据块,从每个数据块中分别取得对应单元格的数据构成一列数据,即可以从每一个数据块中相同位置的单元格中取得数据,构成一列数据;
d)迭代数据取数:头信息和二维表数据构成一个数据块,从上到下有多个数据块,从每个数据块中的二维表中用户指定某一列或者某一行的单元格中取得数据,作为列数据;
例如,图2的数据可以采用“横向取数”的方式,即二维表中以监测时间行循环取数,数据库表的列与文本中的列对应,图4的数据可以采用“纵向取数”的方式,数据库表的列与Excel中的行对应;对于图5中的数据,其包括两个数据块,分别为数据块HT166-1和数据块HT166-2,对于数据块HT166-1中位于虚线区域内5个单元格中的数据以及数据块HT166-2中位于虚线区域内5个单元格中的数据,由于两个数据块中要取数据所在单元格在其数据块的位置相同,因此可以采用“迭代信息取数”方式取数,那么每个数据块对应位置的虚线区域内单元格与数据库表的列对应,而图5中D列和E列单元格中的数据,可以采用“迭代数据取数”方式取数,那么每个数据块对应位置的上述两列与数据库表的列对应;
步骤S104:获取信息表取数规则和二维表取数规则;
对于信息表取数规则,信息表的字段与文本或Excel中数据的单元格一一对应,也就是一个文件在信息表中只有一行数据,那么同样格式的文件在数据表中就有多行数据;
对于二维表取数规则,数据表的字段与文本或Excel中数据的单元格一一对应,依据取数方式的不同,以单元格坐标为起点的取数运算方式不同;
步骤S105:在传入需要取数的文件(即待取数据文件)后,按上述设定的规则执行数据采集,其中,执行过程可以多个规则批量执行,既可以手工执行,也可以自动执行采集数据;
其中,对于文本内容,可以根据行符号(即行结束标识信息)按行扫描,再根据列符号(即列间标识信息)按列分解;对于Excel内容,可以使用相应的Office控件对象定位Sheet页、ROW和COL。
此外,本发明实施方式还提供了一种数据采集系统,包括:
构建模块,用于获取表结构信息,并根据所述表结构信息建立数据库表,所述数据库表包括用于存储头信息数据的信息表以及用于存储二维表数据的数据表;
第一获取模块,用于获取待取数据文件的取数范围信息,所述取数范围信息包括头信息数据的取数范围和二维表数据的取数范围;
第二获取模块,用于获取信息表取数规则和二维表取数规则;
采集模块,用于根据所述头信息数据的取数范围以及所述信息表取数规则从待取数据文件采集头信息数据,并将采集的头信息数据存储至所述信息表,以及根据所述二维表数据的取数范围以及所述二维表取数规则从待取数据文件采集二维表数据,并将采集的二维表数据存储至所述数据表。
其中,所述待取数据文件为文本文件或Excel文件。
其中,所述待取数据文件为文本文件,所述二维表数据的取数范围包括行结束标识信息、列间标识信息以及要取数据所在单元格的位置信息。
其中,所述待取数据文件为Excel文件,所述二维表数据的取数范围包括要取数据所在的sheet页信息以及要取数据所在单元格的位置信息。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种数据采集方法,其特征在于,包括:
获取表结构信息,并根据所述表结构信息建立数据库表,所述数据库表包括用于存储头信息数据的信息表以及用于存储二维表数据的数据表;
获取待取数据文件的取数范围信息,所述取数范围信息包括头信息数据的取数范围和二维表数据的取数范围;
获取信息表取数规则和二维表取数规则;
根据所述头信息数据的取数范围以及所述信息表取数规则从待取数据文件采集头信息数据,并将采集的头信息数据存储至所述信息表,根据所述二维表数据的取数范围以及所述二维表取数规则从待取数据文件采集二维表数据,并将采集的二维表数据存储至所述数据表。
2.根据权利要求1所述的数据采集方法,其特征在于,所述待取数据文件为文本文件或Excel文件。
3.根据权利要求2所述的数据采集方法,其特征在于,所述待取数据文件为文本文件,所述二维表数据的取数范围包括行结束标识信息、列间标识信息以及要取数据所在单元格的位置信息。
4.根据权利要求2所述的数据采集方法,其特征在于,所述待取数据文件为Excel文件,所述二维表数据的取数范围包括要取数据所在的sheet页信息以及要取数据所在单元格的位置信息。
5.一种数据采集系统,其特征在于,包括:
构建模块,用于获取表结构信息,并根据所述表结构信息建立数据库表,所述数据库表包括用于存储头信息数据的信息表以及用于存储二维表数据的数据表;
第一获取模块,用于获取待取数据文件的取数范围信息,所述取数范围信息包括头信息数据的取数范围和二维表数据的取数范围;
第二获取模块,用于获取信息表取数规则和二维表取数规则;
采集模块,用于根据所述头信息数据的取数范围以及所述信息表取数规则从待取数据文件采集头信息数据,并将采集的头信息数据存储至所述信息表,以及根据所述二维表数据的取数范围以及所述二维表取数规则从待取数据文件采集二维表数据,并将采集的二维表数据存储至所述数据表。
6.根据权利要求5所述的数据采集系统,其特征在于,所述待取数据文件为文本文件或Excel文件。
7.根据权利要求6所述的数据采集系统,其特征在于,所述待取数据文件为文本文件,所述二维表数据的取数范围包括行结束标识信息、列间标识信息以及要取数据所在单元格的位置信息。
8.根据权利要求6所述的数据采集系统,其特征在于,所述待取数据文件为Excel文件,所述二维表数据的取数范围包括要取数据所在的sheet页信息以及要取数据所在单元格的位置信息。
CN201711229307.9A 2017-11-29 2017-11-29 数据采集方法及数据采集系统 Pending CN107992567A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711229307.9A CN107992567A (zh) 2017-11-29 2017-11-29 数据采集方法及数据采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711229307.9A CN107992567A (zh) 2017-11-29 2017-11-29 数据采集方法及数据采集系统

Publications (1)

Publication Number Publication Date
CN107992567A true CN107992567A (zh) 2018-05-04

Family

ID=62034203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711229307.9A Pending CN107992567A (zh) 2017-11-29 2017-11-29 数据采集方法及数据采集系统

Country Status (1)

Country Link
CN (1) CN107992567A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384341A (zh) * 2022-12-16 2023-07-04 西安航天动力试验技术研究所 一种发动机试验数据处理方法、存储介质、设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174098A1 (en) * 2001-05-04 2002-11-21 Lasmsoft Corporation Method and system for providing a dynamic and real-time exchange between heterogeneous database systems
CN102045209A (zh) * 2009-10-20 2011-05-04 中兴通讯股份有限公司 一种网络应用监测方法及系统
CN102710513A (zh) * 2012-05-24 2012-10-03 华为技术有限公司 报文镜像方法及设备
CN103020024A (zh) * 2012-12-27 2013-04-03 北京经纬恒润科技有限公司 一种文件格式转换方法
CN103500196A (zh) * 2013-09-22 2014-01-08 成都交大光芒科技股份有限公司 多并发大数据量环境下excel数据导出方法及其导出装置
CN103678339A (zh) * 2012-09-06 2014-03-26 阿里巴巴集团控股有限公司 数据回流、关系型数据库中的数据访问方法及系统
US20150149274A1 (en) * 2013-11-27 2015-05-28 William Conrad Internet marketing-advertising system
CN104750814A (zh) * 2015-03-30 2015-07-01 大连理工大学 基于多传感器的多元异构数据流自动入库方法
CN105095240A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 数据库的数据样本采集
CN105426456A (zh) * 2015-11-12 2016-03-23 上海新储集成电路有限公司 一种在大数据挖掘中传感器采集非结构化数据的方法
CN105989167A (zh) * 2015-03-04 2016-10-05 北大方正集团有限公司 基于新闻客户端的数据采集方法及装置
CN106776843A (zh) * 2016-11-28 2017-05-31 浪潮软件集团有限公司 一种基于xml解析的导入excel文件的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174098A1 (en) * 2001-05-04 2002-11-21 Lasmsoft Corporation Method and system for providing a dynamic and real-time exchange between heterogeneous database systems
CN102045209A (zh) * 2009-10-20 2011-05-04 中兴通讯股份有限公司 一种网络应用监测方法及系统
CN102710513A (zh) * 2012-05-24 2012-10-03 华为技术有限公司 报文镜像方法及设备
CN103678339A (zh) * 2012-09-06 2014-03-26 阿里巴巴集团控股有限公司 数据回流、关系型数据库中的数据访问方法及系统
CN103020024A (zh) * 2012-12-27 2013-04-03 北京经纬恒润科技有限公司 一种文件格式转换方法
CN103500196A (zh) * 2013-09-22 2014-01-08 成都交大光芒科技股份有限公司 多并发大数据量环境下excel数据导出方法及其导出装置
US20150149274A1 (en) * 2013-11-27 2015-05-28 William Conrad Internet marketing-advertising system
CN105095240A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 数据库的数据样本采集
CN105989167A (zh) * 2015-03-04 2016-10-05 北大方正集团有限公司 基于新闻客户端的数据采集方法及装置
CN104750814A (zh) * 2015-03-30 2015-07-01 大连理工大学 基于多传感器的多元异构数据流自动入库方法
CN105426456A (zh) * 2015-11-12 2016-03-23 上海新储集成电路有限公司 一种在大数据挖掘中传感器采集非结构化数据的方法
CN106776843A (zh) * 2016-11-28 2017-05-31 浪潮软件集团有限公司 一种基于xml解析的导入excel文件的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384341A (zh) * 2022-12-16 2023-07-04 西安航天动力试验技术研究所 一种发动机试验数据处理方法、存储介质、设备

Similar Documents

Publication Publication Date Title
US10860848B2 (en) Multi-page document recognition in document capture
US9619455B2 (en) Table format multi-dimensional data translation method and device
CN105138312A (zh) 一种表格生成方法及装置
CN104317948A (zh) 页面数据抓取方法和系统
CN111258903A (zh) 测试用例文件转换方法、装置及存储介质
CN112528602A (zh) 一种医药文档结构化内容分析方法、系统和存储介质
CN112559453A (zh) 一种数据入库方法、装置、电子设备和存储介质
CN101425070A (zh) 一种死锁定位的方法、死锁定位装置和数据系统
Goloboff et al. Comparative cladistics: identifying the sources for differing phylogenetic results between competing morphology-based datasets
CN111581217B (zh) 数据检测方法、装置、计算机设备和存储介质
Lees et al. Mandrake: visualizing microbial population structure by embedding millions of genomes into a low-dimensional representation
CN110688315A (zh) 接口代码检测报告生成方法、电子装置及存储介质
CN107992567A (zh) 数据采集方法及数据采集系统
CN103530369A (zh) 一种去重方法及系统
CN111695330B (zh) 生成表格的方法、装置、电子设备及计算机可读存储介质
CN113850265A (zh) Pdf文档的解析方法、装置、电子设备及存储介质
US10824803B2 (en) System and method for logical identification of differences between spreadsheets
CN115691656A (zh) 大型系统进化树的加速方法及装置
CN115169578A (zh) 一种基于元宇宙数据标记的ai模型生产方法及系统
Catalano et al. A guide for the analysis of continuous and landmark characters in TNT (Tree Analysis using New Technologies)
CN105893603A (zh) 一种基于etl的字段级别血统分析方法及装置
CN110427541A (zh) 一种网页内容提取方法、系统、电子设备及介质
CN113761034B (zh) 一种数据处理方法及其装置
JP7360000B1 (ja) 汚染場所の同一媒体のバッチデータに基づく統合統計システムおよび方法
LU502685B1 (en) An Analysis and Calculation Device and Method of Coal Geological Composition Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180504

RJ01 Rejection of invention patent application after publication