CN105786912A - 数据采集转换方法及装置 - Google Patents

数据采集转换方法及装置 Download PDF

Info

Publication number
CN105786912A
CN105786912A CN201410827646.7A CN201410827646A CN105786912A CN 105786912 A CN105786912 A CN 105786912A CN 201410827646 A CN201410827646 A CN 201410827646A CN 105786912 A CN105786912 A CN 105786912A
Authority
CN
China
Prior art keywords
data
parameter field
file
file destination
source file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410827646.7A
Other languages
English (en)
Other versions
CN105786912B (zh
Inventor
韩军
李美平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanguang Software Co Ltd
Original Assignee
Yuanguang Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuanguang Software Co Ltd filed Critical Yuanguang Software Co Ltd
Priority to CN201410827646.7A priority Critical patent/CN105786912B/zh
Publication of CN105786912A publication Critical patent/CN105786912A/zh
Application granted granted Critical
Publication of CN105786912B publication Critical patent/CN105786912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种数字采集转换方法及装置,该方法包括数据采集步骤,采集源文件的数据,并分析源文件的参数字段,提取每一参数字段的数据;其中,该方法还包括字段设置步骤,设置源文件的参数字段与目标文件的参数字段的对应关系;数据转换步骤,根据所设置的源文件的参数字段与目标文件的参数字段的对应关系,将源文件的参数字段的数据匹配至目标文件对应的参数字段;目标文件生成步骤,应用匹配到目标文件参数字段的数据生成目标文件。该装置包括数据采集模块、字段设置模块、数据转换模块以及目标文件生成模块,并实现上述的数字采集方法。本发明能让使用者自行设置源文件的参数字段与目标文件的参数字段的对应关系,使用更加灵活、方便。

Description

数据采集转换方法及装置
技术领域
本发明涉及数据处理及显示领域,尤其是一种用于数据自动采集并转换的方法以及实现这种方法的装置。
背景技术
随着计算机技术与网络技术的发展,人们开发出越来越多的软件以及数据库,不同软件与不同数据库所生成的文件的格式往往不相同。而目前生产应用、商业智能分析、第三方系统接口开发等等领域往往需要使用多个不同数据源的数据,并且需要将数据处理、分析后才能使用,因此,人们首先需要对多个源文件的数据进行采集,并且将采集的数据进行处理、转换。
现有的数据采集、转换方法一般有:数据文件读取采集方法以及数据库环境采集方法,通过上述方法来对外部文件或数据库的数据进行采集。但目前此类数据采集方法大多需要人工干预,且数据转换、加工不够自动、智能化,而且往往不能兼容较多的源文件格式、数据库类型,影响数据采集的效率。
为了实现对数据的处理并转换成目标文件,人们开发出各种的ETL(Extract-Transform-Load,数据抽取、转换、装载)软件用于将不同格式的文件的数据进行处理,并且将处理后的数据转换成另一种格式的文件。然而,现有的ETL软件往往不能根据实际使用需要个性化地设置源文件与目标文件之间的各个参数字段的匹配关系,导致ETL软件的应用受到限制。
发明内容
本发明的主要目的是提供一种可由使用者自行定义源文件与目标文件参数字段匹配关系的数据采集转换方法。
本发明的另一目的是提供一种应用范围广且使用灵活的数据采集转换装置。
为了实现上述的主要目的,本发明提供的数据采集转换方法包括数据采集步骤,采集源文件的数据,并分析源文件的参数字段,提取每一参数字段的数据;其中,该方法还包括字段设置步骤,设置源文件的参数字段与目标文件的参数字段的对应关系;数据转换步骤,根据所设置的源文件的参数字段与目标文件的参数字段的对应关系,将源文件的参数字段的数据匹配至目标文件对应的参数字段;目标文件生成步骤,应用匹配到目标文件参数字段的数据生成目标文件。
由上述方案可见,对数据进行采集后,使用者可以根据实际使用需要自己设置源文件的参数字段与目标文件的参数字段的对应关系并由此生成目标文件,数据的采集转换更为灵活。
一个优选的方案是,数据转换步骤中,将源文件的参数字段的数据匹配至目标文件对应的参数字段的步骤包括将一个或多个源文件的参数字段的数据进行计算和/或判断后,生成匹配至目标文件对应的参数字段的数据。
由此可见,使用者可以根据使用的需要将一个或多个源文件的参数字段进行特殊的处理,如进行合并计算、逻辑计算或者进行特定的条件判断进而生成目标文件的参数字段的数据,使得数据的采集转换更加实用。
进一步的方案是,生成目标文件的数据时,对源文件的数据计算和/或判断后生成中间表并写入中间表中,生成目标文件后,删除中间表的数据。
可见,在需要对源文件的数据进行较为复杂的计算或者判断时,先将初步处理的数据写入到中间表中,并且在将中间表的数据处理完毕并生成目标文件后,将中间表的数据删除,这样的操作可以更为有效地提高数据处理的准确性。
进一步的方案是,执行字段设置步骤时,显示图形化窗口,在图形化窗口内显示所设置的源文件的参数字段与目标文件的参数字段。
由此可见,通过图形化窗口显示所设置的源文件的参数字段与目标文件的参数字段,有利于使用者直观地了解所操作的源文件的参数字段与目标文件的参数字段,参数字段匹配关系的设置更为方便。
为实现上述的另一目的,本发明提供的数据采集转换装置包括数据采集模块,采集源文件的数据,并分析源文件的参数字段,提取每一参数字段的数据;其中,该装置还包括字段设置模块,设置源文件的参数字段与目标文件的参数字段的对应关系;数据转换模块,根据所设置的源文件的参数字段与目标文件的参数字段的对应关系,将源文件的参数字段的数据匹配至目标文件对应的参数字段;目标文件生成模块,应用匹配到目标文件参数字段的数据生成目标文件。
由上述方案可见,使用者可以按照实际使用的需要设置源文件的参数字段与目标文件的参数字段的匹配关系,数据采集转换装置按照设置后的匹配关系对数据进行转换处理并生成目标文件。因此,数据采集转换装置更加贴合实际使用需要,使用者的使用更为灵活、方便。
附图说明
图1是本发明数据采集转换装置实施例的结构框图。
图2是本发明数据采集转换方法实施例的流程图。
图3是本发明数据采集转换方法实施例所生成的窗口的示意图。
以下结合附图及实施例对本发明作进一步说明。
具体实施方式
本发明的数据采集转换方法用于对来自多个源文件的数据进行自动采集,并且将采集获得的数据进行转换,并生成另一种格式的目标文件,优选地,源文件可以是多个格式的文件或者数据库的文件,如后缀为txt、txp、excel、doc、dbf等格式的文件,所生成的目标文件也可以是多种后缀格式的文件或者数据库文件。本发明的数据采集装置是运行在计算机行并实现上述的数据采集转换方法的软件程序。
作为一个优选的方案,本发明的数据采集方法是基于Kettle实现的数据采集转换方法。Kettle是一个ETL的工具集,它为用户管理来自不同数据库的数据,描述要执行的数据操作并提供图形化的操作界面,且数据抽取高效稳定。Kettle工具集中有两种脚本文件,分别是transformation和job,其中transformation用于完成针对数据的基础转换,job用于完成整个工作流的控制。本发明的方案通过使用者自行定义并且设置采集转换方案,实现适配器可插拔,当源、目标数据源发生变动时,只需配置调整采集方案即可。
另外,本方面的方案需要采用图形用户界面,例如使用Spoo作为一个可选的图形用户界面,它允许运行转换任务,其中转换是用Pan工具运行,任务是用Kitchen运行。Pan是一个数据转换引擎,它可以执行多种功能,例如从不同的数据源的文件中读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。
参见图1,本发明的数据采集转换装置包括数据采集模块10、字段设置模块12、数据转换模块14以及目标文件生成模块16,其中数据采集模块10包括自动采集模块11,字段设置模块12包括窗口显示模块13,数据转换模块14包括中间表模块15。
数据采集模块10用于采集源文件的数据,即从源文件中识别不同的参数字段,并且提取每一参数字段相应的数据。优选地,数据采集模块10应用自动采集模块11自动地接收源文件所上传的数据。例如,数据采集模块10采集燃料管理系统所上传的数据,在燃料管理系统中,每一个电厂均实时采集电厂燃煤使用量的数据,如燃煤的供应量、消耗量、库存余量等数据。自动采集模块11自动地接收燃煤管理系统所上传的每一电厂的燃煤使用数据。
并且,自动采集模块11根据所接收的数据,分析所接收的数据中不同的参数字段,如燃煤的供应量、消耗量等,并且将每一个参数字段的相应的数据提取出来。
字段设置模块12用于设置源文件的参数字段与目标文件的参数字段的对应关系。例如,源文件中包含有多个电厂的燃煤供应量、消耗量等数据,目标文件也需要生成多个电厂的燃煤供应量、消耗量等数据,则可以将源文件中的某一电厂的燃煤供应量作为参数字段与目标文件的该电厂的燃煤供应量作为参数字段并进行匹配。
优选地,为了让使用者直观地了解所设置的源文件参数字段与目标文件参数字段的匹配关系,字段设置模块12通过窗口显示模块13显示图形化窗口,如图3所示。并且,使用者可以在图形化窗口内编辑不同的源文件参数字段与目标文件参数字段的对应关系,以更贴近实际使用需要。
数据转换模块14根据所设置的源文件的参数字段与目标文件的参数字段对数据进行转换,如需要将源文件的参数字段的数据从表格形式转换成图表形式,或者将源文件的参数字段的数据进行处理,如进行运算、逻辑判断后,生成目标文件相应参数字段的数据。
如源文件为燃料管理系统,源文件的参数字段为某一电厂的燃煤库存量的数据,目标文件的参数字段为该电厂的燃煤库存量是否低于警戒煤量,因此,数据转换模块14需要执行逻辑判断,判断源文件中燃煤库存量的数据是否低于警戒煤量,并且由此生成高于警戒煤量或者低于警戒煤量的结果。
当然,数据转换模块14还可以对多个源文件的参数字段的数据进行计算后再执行逻辑判断,例如,源文件的数据包含多个电厂的燃煤库存量的数据,目标文件需要判断多个电厂的燃煤库库存总量是否低于警戒煤量,则数据转换模块14首先将多个电厂的燃煤库存量的数据相加得到库存总量的数据,再与警戒煤量进行对比,获得比较结果。
由于数据转换模块14的计算、判断较为复杂,因此需要生成中间表以记录中间计算过程的数据。数据转换模块14的中间表模块15用于生成一个中间表,并且将数据转换模块14中间计算过程的数据写入中间表中,并且在生成目标文件后,将中间表的数据删除。
目标文件生成模块16在数据转换模块14将数据转换完毕后,应用转换完毕的数据生成目标文件,也就是按照目标文件的格式、对各个字段参数的定义生成预订格式的目标文件。
下面结合图2介绍数据采集转换方法的流程。首先,数据采集模块11执行步骤S1,采集源文件的数据。如源文件是使用者手工导入的文件,则数据采集模块11在使用者导入文件后分析源文件的各个参数字段,并且提取各个参数字段的数据。如源文件为实时更新并且不断上传文件的数据库等,如燃料管理系统,则数据采集模块11需要自动采集所上传的数据。
然后,设置源文件的参数字段与目标文件参数字段的对应关系,首先执行步骤S2,显示图形化窗口,然后执行步骤S3,在图形化窗口内显示可以选择的源文件的参数字段与目标文件的参数字段,并有使用者根据实际使用的需要,自行设置源文件的参数字段与目标文件的参数字段之间的对应关系。
接着,执行步骤S4,根据步骤S3所设置的源文件的参数字段与目标文件的参数字段的匹配关系,将源文件的参数字段的数据进行计算、逻辑判断,如进行数据合并、判断等。同时,执行步骤S5,判断是否需要生成中间表,如需要生成中间表,则执行步骤S6,生成一个中间表,并且将数据处理过程中的中间数据写入到中间表中。如不需要生成中间表,则执行步骤S7,应用转换后的数据生成目标文件,即根据目标文件的格式要求,将计算、判断后的数据填写到目标文件对应的参数字段的位置,按照目标文件的格式生成目标文件。最后,输出目标文件。
生成目标文件后,判断是否需要删除中间表的数据,即执行步骤S8,如需要删除中间表的数据,则执行步骤S9,删除中间表的数据,避免中间表占用大量的存储空间。
可见,字段设置模块12允许使用者根据实际应用的需要自行设置源文件的各个参数字段与目标文件的参数字段的对应关系,并且所设置的源文件的参数字段的数据可以经过特定的运算、处理等方式,生成目标文件的参数字段对应的文件,由此生成目标文件的各个参数字段的数据,并最终生成目标文件。数据采集转换装置更为实用,更加贴近实际使用需要,并且应用非常方便。
最后需要强调的是,本发明不限于上述实施方式,如数据采集步骤所采集数据的目标文件的格式的改变、数据转换步骤中对数据运算、判断方法的改变等变化也应该包括在本发明权利要求的保护范围内。

Claims (10)

1.数据采集转换方法,包括
数据采集步骤,采集源文件的数据,并分析所述源文件的参数字段,提取每一参数字段的数据;
其特征在于:
字段设置步骤,设置源文件的参数字段与目标文件的参数字段的对应关系;
数据转换步骤,根据所设置的所述源文件的参数字段与所述目标文件的参数字段的对应关系,将所述源文件的参数字段的数据匹配至所述目标文件对应的参数字段;
目标文件生成步骤,应用匹配到所述目标文件参数字段的数据生成目标文件。
2.根据权利要求1所述的数据采集转换方法,其特征在于:
所述数据转换步骤中,将所述源文件的参数字段的数据匹配至所述目标文件对应的参数字段的步骤包括将一个或多个所述源文件的参数字段的数据进行计算和/或判断后,生成匹配至所述目标文件对应的参数字段的数据。
3.根据权利要求2所述的数据采集转换方法,其特征在于:
生成所述目标文件的数据时,对所述源文件的数据计算和/或判断后生成中间表并写入所述中间表中;
生成所述目标文件后,删除所述中间表的数据。
4.根据权利要求1至3任一项所述的数据采集转换方法,其特征在于:
执行所述字段设置步骤时,显示图形化窗口,在所述图形化窗口内显示所设置的所述源文件的参数字段与所述目标文件的参数字段。
5.根据权利要求1至3任一项所述的数据采集转换方法,其特征在于:
所述数据采集步骤中,采集源文件的数据的步骤是自动接收外部所传输的所述源文件的数据。
6.数据采集转换装置,包括
数据采集模块,采集源文件的数据,并分析所述源文件的参数字段,提取每一参数字段的数据;
其特征在于:
字段设置模块,设置源文件的参数字段与目标文件的参数字段的对应关系;
数据转换模块,根据所设置的所述源文件的参数字段与所述目标文件的参数字段的对应关系,将所述源文件的参数字段的数据匹配至所述目标文件对应的参数字段;
目标文件生成模块,应用匹配到所述目标文件参数字段的数据生成目标文件。
7.根据权利要求6所述的数据采集转换装置,其特征在于:
所述数据转换模块还用于将一个或多个所述源文件的参数字段的数据进行计算和/或判断后,生成匹配至所述目标文件对应的参数字段的数据。
8.根据权利要求7所述的数据采集转换装置,其特征在于:
所述数据转换模块还包括中间表模块,在对所述源文件的数据计算和/或判断后生成中间表并写入所述中间表中,并在生成所述目标文件后,删除所述中间表的数据。
9.根据权利要求6至8任一项所述的数据采集转换装置,其特征在于:
所述字段设置模块还包括窗口显示模块,用于显示图形化窗口,并在所述图形化窗口内显示所设置的所述源文件的参数字段与所述目标文件的参数字段。
10.根据权利要求6至8任一项所述的数据采集转换装置,其特征在于:
所述数据采集模块包括自动采集模块,用于自动接收外部所传输的所述源文件的数据。
CN201410827646.7A 2014-12-25 2014-12-25 数据采集转换方法及装置 Active CN105786912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410827646.7A CN105786912B (zh) 2014-12-25 2014-12-25 数据采集转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410827646.7A CN105786912B (zh) 2014-12-25 2014-12-25 数据采集转换方法及装置

Publications (2)

Publication Number Publication Date
CN105786912A true CN105786912A (zh) 2016-07-20
CN105786912B CN105786912B (zh) 2019-05-10

Family

ID=56388856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410827646.7A Active CN105786912B (zh) 2014-12-25 2014-12-25 数据采集转换方法及装置

Country Status (1)

Country Link
CN (1) CN105786912B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227710A (zh) * 2016-07-26 2016-12-14 浪潮通用软件有限公司 一种基于excel的数据文件转换配置方法
CN107066431A (zh) * 2017-05-10 2017-08-18 北京精真估信息技术有限公司 一种车型数据的存储方法及存储处理设备
CN107463409A (zh) * 2017-08-11 2017-12-12 深圳乐信软件技术有限公司 一种接口转换方法、接口转换器、存储介质及电子终端
CN108257013A (zh) * 2016-12-28 2018-07-06 平安科技(深圳)有限公司 保险产品定义方法及装置
CN108735275A (zh) * 2018-05-28 2018-11-02 重庆浩雅宇殊科技有限公司 一种自动报告生成系统及报告生成方法
CN108959545A (zh) * 2018-07-02 2018-12-07 山东汇贸电子口岸有限公司 一种Oracle数据处理方法
CN109710571A (zh) * 2018-12-27 2019-05-03 腾讯音乐娱乐科技(深圳)有限公司 一种文件解析方法、设备及存储介质
CN109710613A (zh) * 2018-12-26 2019-05-03 深圳乐信软件技术有限公司 字段的管理方法、装置、服务器和存储介质
CN110633269A (zh) * 2019-08-02 2019-12-31 国家电网公司华东分部 基于Tableau的设备参数数据标准化方法
CN114168544A (zh) * 2021-11-17 2022-03-11 浙江太美医疗科技股份有限公司 临床试验数据处理方法、装置、计算机设备和存储介质
CN115729998A (zh) * 2022-11-23 2023-03-03 北京泰策科技有限公司 一种任意数据混合优化的大规模处理分析系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504662A (zh) * 2009-03-13 2009-08-12 北大方正集团有限公司 一种转换数据的方法及装置
CN101539931A (zh) * 2009-04-21 2009-09-23 中国民航大学 一种航班动态信息数据整合器及处理方法
CN102004777A (zh) * 2010-11-19 2011-04-06 中国科学院软件研究所 一种可定制的Web信息集成方法及系统
CN103412956A (zh) * 2013-08-30 2013-11-27 北京中科江南软件有限公司 异构数据源的数据加工处理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504662A (zh) * 2009-03-13 2009-08-12 北大方正集团有限公司 一种转换数据的方法及装置
CN101539931A (zh) * 2009-04-21 2009-09-23 中国民航大学 一种航班动态信息数据整合器及处理方法
CN102004777A (zh) * 2010-11-19 2011-04-06 中国科学院软件研究所 一种可定制的Web信息集成方法及系统
CN103412956A (zh) * 2013-08-30 2013-11-27 北京中科江南软件有限公司 异构数据源的数据加工处理方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227710A (zh) * 2016-07-26 2016-12-14 浪潮通用软件有限公司 一种基于excel的数据文件转换配置方法
CN108257013A (zh) * 2016-12-28 2018-07-06 平安科技(深圳)有限公司 保险产品定义方法及装置
CN107066431A (zh) * 2017-05-10 2017-08-18 北京精真估信息技术有限公司 一种车型数据的存储方法及存储处理设备
CN107463409A (zh) * 2017-08-11 2017-12-12 深圳乐信软件技术有限公司 一种接口转换方法、接口转换器、存储介质及电子终端
CN108735275A (zh) * 2018-05-28 2018-11-02 重庆浩雅宇殊科技有限公司 一种自动报告生成系统及报告生成方法
CN108959545A (zh) * 2018-07-02 2018-12-07 山东汇贸电子口岸有限公司 一种Oracle数据处理方法
CN109710613A (zh) * 2018-12-26 2019-05-03 深圳乐信软件技术有限公司 字段的管理方法、装置、服务器和存储介质
CN109710571A (zh) * 2018-12-27 2019-05-03 腾讯音乐娱乐科技(深圳)有限公司 一种文件解析方法、设备及存储介质
CN109710571B (zh) * 2018-12-27 2023-06-23 腾讯音乐娱乐科技(深圳)有限公司 一种文件解析方法、设备及存储介质
CN110633269A (zh) * 2019-08-02 2019-12-31 国家电网公司华东分部 基于Tableau的设备参数数据标准化方法
CN114168544A (zh) * 2021-11-17 2022-03-11 浙江太美医疗科技股份有限公司 临床试验数据处理方法、装置、计算机设备和存储介质
CN114168544B (zh) * 2021-11-17 2023-10-27 上海太美数字科技有限公司 临床试验数据处理方法、装置、计算机设备和存储介质
CN115729998A (zh) * 2022-11-23 2023-03-03 北京泰策科技有限公司 一种任意数据混合优化的大规模处理分析系统

Also Published As

Publication number Publication date
CN105786912B (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN105786912A (zh) 数据采集转换方法及装置
You et al. Integration of industry 4.0 related technologies in construction industry: a framework of cyber-physical system
Lobet et al. Root system markup language: toward a unified root architecture description language
Strandgard et al. Estimating harvester productivity in Pinus radiata plantations using StanForD stem files
CN104572895B (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN104461671A (zh) 代码修改汇报的定时管理方法及系统
KR20140121145A (ko) Bim기반 건설데이터 통합관리 시스템
CN104834826A (zh) 基于数据挖掘和图论技术的临床路径建立和优化方法及系统
CN110275927A (zh) 一种基于MySQL的流式实时数据同步系统
CN104679827A (zh) 一种基于大数据的公开信息关联方法及挖掘引擎
CN103903086A (zh) 一种基于业务模型驱动的管理信息系统开发方法及系统
CN104395845A (zh) 控制装置
CN105159831A (zh) 一种软件代码质量自动监控方法
CN104463355A (zh) 一种基于测试模型的小卫星测试规划系统
CN109376153A (zh) 一种基于NiFi的数据写入图数据库的系统及方法
CN104598570A (zh) 资源的抓取方法及装置
CN105975489A (zh) 一种基于元数据的在线sql代码补全方法
CN105204834A (zh) 一种构造软件模型的可视软件建模编辑器
CN113806429A (zh) 基于大数据流处理框架的画布式日志分析方法
CN104573074A (zh) 基于医院数据的高速计算分析方法
KR20150110063A (ko) 빅데이터 처리를 위한 맵리듀스를 통합하는 장치 및 방법
CN115330420B (zh) 基于标准的宝玉石追溯方法及系统
CN117056308A (zh) 一种基于OpenLineage数据库生成金融大数据血缘关系的方法
CN109933622A (zh) 一种数据可视化系统及实现方法
CN104199675A (zh) 一种基于数据库参数利用的系统快速开发的系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant