CN111625300A - 一种高效的数据采集加载方法及系统 - Google Patents

一种高效的数据采集加载方法及系统 Download PDF

Info

Publication number
CN111625300A
CN111625300A CN202010514096.9A CN202010514096A CN111625300A CN 111625300 A CN111625300 A CN 111625300A CN 202010514096 A CN202010514096 A CN 202010514096A CN 111625300 A CN111625300 A CN 111625300A
Authority
CN
China
Prior art keywords
data
loading
acquisition
task
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010514096.9A
Other languages
English (en)
Other versions
CN111625300B (zh
Inventor
刘魁
曹亮
邓羽平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202010514096.9A priority Critical patent/CN111625300B/zh
Publication of CN111625300A publication Critical patent/CN111625300A/zh
Application granted granted Critical
Publication of CN111625300B publication Critical patent/CN111625300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种高效的数据采集加载方法及系统,方法通过对数据的采集和加载两个步骤进行高度的集成化,用户只需要通过可视化页面选择一些必要的参数就能够实现数据采集到数据加载整个数据生命周期运行,实现从不同数据源将数据加载到GreenPlum简化了复杂的采集和加载步骤,自动化的采集和加载流程更加严格的控制了数据从初始地到目标地的安全性,提供的日志和实时监控可以更有效地对流程进行管理。本发明还提供一种高效的数据采集加载系统。通过本方案大幅度减少了用户的操作,通过自动化的方式来调度任务和监控,减少了运维的压力。

Description

一种高效的数据采集加载方法及系统
技术领域
本发明涉及数据采集处理领域,尤其涉及一种高效的数据采集加载方法及系统。
背景技术
随着信息化的日渐发展,在数据中蕴含的价值逐渐被人们所挖掘发现,数据的采集成了目前最热门的话题之一,业内已经有许多成熟的定向采集软件,其实现方法基本上都是基于模板配 置来实现的,这些基于模板配置的数据抽取方法一般是正则匹配法,标记截取法,Xpath抽取法,插件定制法等。
其中,关于正则匹配法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据,并且,该类抽取方法专业性较强,需要熟练掌握正则表达式;关于标记截取法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于Xpath抽取法:网页内容必须是结构化的,并且,该类抽取方法专业性较强,需要熟练掌握Xpath语法;另外,部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于插件定制法:频繁修改数据抽取规则代码都需要重新编译,显得比较麻烦,且专业性强。
目前对于数据采集方式大多数操作较为繁琐、流程长,需要单独配置数据加载信息,无法快速高效的为用户提供数据采集服务。
发明内容
本发明的目的在于克服现有技术的不足,提供一种高效的数据采集加载方法及系统,通过一体化管理的思想,将数据采集和数据加载,任务调度,实时监控等进行自动化整合来构建高效快捷的数据从采集到加载的工作的一体化。
本发明的目的是通过以下技术方案来实现的:
一种高效的数据采集加载方法,方法包括以下步骤:
S1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;
S2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;
S3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;
S4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。
具体的,所述步骤S1中可视化采集任务信息配置还包括以下子步骤:
S101,用户选择符合采集任务需求的表或表中的指定字段与分隔符;
S102,用户选择需要加载的表信息;
S103,用户可以添加相关的sql查询语句条件;
S104,用户选择数据采集的数据存储格式。
具体的,所述步骤S2中获取数据源信息过程还包括以下子步骤:
S201,获取数据源的字段类型、数据分割符;
S202,获取目标表的表名及字段信息;
S203,获取相关sql查询语句。
具体的,所述步骤S2中执行采集任务具体包括以下子步骤:
S301,开始运行采集任务,根据采集任务配置采集所需数据存储到指定目录下;
S302,将获取的数据源字段类型、分隔符、目标表等信息加载到.yml模板中生成新的.yml模板文件存储到指定目录下。
一种高效的数据采集加载系统,包括
数据存储模块,用于存储用户配置的采集任务信息、采集的数据和生成文件;
数据采集模块,根据用户配置的采集任务采集指定数据存储到数据存储模块,并将采集数据放入模板生成模板文件也存储到数据存储模块;
数据加载模块,用于获取数据源信息,结合模板文件生成脚本自动从数据存储模块中加载数据。
本发明的有益效果:本方案大幅度减少了用户的操作,用户只需要配置一些简单的采集配置信息,就可以实现数据的采集和加载,通过自动化的方式来调度任务和监控,减少了运维的压力。
附图说明
图1是本发明的方法流程图。
图2是本发明的采集任务的执行示意图。
图3是本发明的任务采集加载执行流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,如图1所示,一种高效的数据采集加载方法,方法包括以下步骤:
步骤1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置。具体的采集任务配置信息包括用户选择符合采集任务需求的表或表中的指定字段、分隔符、数据存储格式,以及需要加载的表信息,同时用户可以在添加相关的SQL查询语句和条件。
步骤2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息数据源的字段类型、数据分割符、目标表的表名及字段信息,以及sql查询语句。完成后开始执行采集任务,根据采集任务配置采集所需数据存储到指定目录下,将获取的数据源字段类型、分隔符、目标表等信息加载到.yml模板中生成新的.yml模板文件存储到指定目录下。
步骤3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后,自动运行shell脚本运行gpload加载数。
步骤4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。若加载成功返回成功状态,若加载失败则返回异常代码。
本实施例中,如图2和图3所示,用户只需要通过可视化页面选择一些必要的参数就能够实现数据采集到数据加载整个数据生命周期运行。在数据采集模块中,用户只需在界面上根据业务需求进行数据源、目标数据、映射关系等进行配置,具体实现方式用户不需要关心。当采集任务执行时,程序会从用户的配置信息中读取相关信息,通过选择的数据库类型和目标数据映射关系等,通过JDBC与SQL结合的方式对数据库支持的查询方式进行生成,完成数据的采集。其中,数据采集和加载过程中,通过实时监控方式来反馈数据数据的采集加载进程,可以提高数据采集和加载的执行效率。
当数据采集任务开始执行时,就会开始数据加载准备工作。所有的数据加载配置信息都来自于数据采集模块,不需要用户再去配置数据加载模块。数据加载前会先获取数据源的表结构信息、列信息与分隔符等必要信息,随后利用模板技术将数据与事先准备好的模板文件进行融合,形成对应的脚本。之后程序自动调用该脚本,达到高度自动化的脚本运行。
本发明将采集任务的执行分离出来,提供统一HTTP方式的任务管理,实现任务的注册、配置、启动、停止、修改、删除等操作,提供多种执行策略,实现数据采集和数据发送的分离与高效执行。
本实施例中,还提供一种高效的数据采集加载系统,包括数据存储模块、数据采集模块和数据加载模块。其中,数据存储模块用于存储用户配置的采集任务信息、采集的数据和生成文件。
数据采集模块用于根据用户配置的采集任务采集指定数据存储到数据存储模块,并将采集数据放入模板生成模板文件也存储到数据存储模块。
数据加载模块用于获取数据源信息,结合模板文件生成脚本自动从数据存储模块中加载数据。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种高效的数据采集加载方法,其特征在于,方法包括以下步骤:
S1,可视化采集任务信息配置,用根据业务需求在可视化页面上进行数据源、目标数据、映射关系进行配置;
S2,执行采集任务,根据用户配置的采集任务信息,获取数据源信息并执行采集任务,将数据采集到指定目录下方,同时将采集数据加载到模板中生成模板文件;
S3,自动化数据加载,在采集任务开始时,获取数据源的表结构信息、列信息和分隔符,从指定目录中获取模板文件,并利用模板技术将获取的数据与模板文件进行融合,形成对应的脚本,在采集任务完成后自动运行脚本加载数据;
S4,日志解析,对数据加载日志进行解析,快速返回数据加载任务结果。
2.根据权利要求1所述的一种高效的数据加载方法,其特征在于,所述步骤S1中可视化采集任务信息配置还包括以下子步骤:
S101,用户选择符合采集任务需求的表或表中的指定字段与分隔符;
S102,用户选择需要加载的表信息;
S103,用户可以添加相关的sql查询语句条件;
S104,用户选择数据采集的数据存储格式。
3.根据权利要求1所述的一种高效的数据采集加载方法,其特征在于,所述步骤S2中获取数据源信息过程还包括以下子步骤: S201,获取数据源的字段类型、数据分割符;
S202,获取目标表的表名及字段信息;
S203,获取相关sql查询语句。
4.根据权利要求1所述的一种高效的数据采集加载方法,其特征在于,所述步骤S2中执行采集任务具体包括以下子步骤:
S301,开始运行采集任务,根据采集任务配置采集所需数据存储到指定目录下;
S302,将获取的数据源字段类型、分隔符、目标表等信息加载到.yml模板中生成新的.yml模板文件存储到指定目录下。
5.一种高效的数据采集加载系统,其特征在于,包括
数据存储模块,用于存储用户配置的采集任务信息、采集的数据和生成文件;
数据采集模块,根据用户配置的采集任务采集指定数据存储到数据存储模块,并将采集数据放入模板生成模板文件也存储到数据存储模块;
数据加载模块,用于获取数据源信息,结合模板文件生成脚本自动从数据存储模块中加载数据。
CN202010514096.9A 2020-06-08 2020-06-08 一种高效的数据采集加载方法及系统 Active CN111625300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010514096.9A CN111625300B (zh) 2020-06-08 2020-06-08 一种高效的数据采集加载方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010514096.9A CN111625300B (zh) 2020-06-08 2020-06-08 一种高效的数据采集加载方法及系统

Publications (2)

Publication Number Publication Date
CN111625300A true CN111625300A (zh) 2020-09-04
CN111625300B CN111625300B (zh) 2023-03-24

Family

ID=72271386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010514096.9A Active CN111625300B (zh) 2020-06-08 2020-06-08 一种高效的数据采集加载方法及系统

Country Status (1)

Country Link
CN (1) CN111625300B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110251A (zh) * 2021-05-19 2021-07-13 重庆忽米网络科技有限公司 一种用于物联网设备数据采集的数据配置方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279838A1 (en) * 2013-03-15 2014-09-18 Amiato, Inc. Scalable Analysis Platform For Semi-Structured Data
US20170212732A1 (en) * 2016-01-12 2017-07-27 Kavi Associates, Llc Multi-technology visual integrated data management and analytics development and deployment environment
CN108446145A (zh) * 2018-03-21 2018-08-24 苏州提点信息科技有限公司 一种分布式文件自动加载mpp数据库方法
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN110413701A (zh) * 2019-08-08 2019-11-05 江苏满运软件科技有限公司 分布式数据库入库方法、系统、设备及存储介质
CN111190597A (zh) * 2019-12-27 2020-05-22 天津浪淘科技股份有限公司 一种数据ue可视化设计系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279838A1 (en) * 2013-03-15 2014-09-18 Amiato, Inc. Scalable Analysis Platform For Semi-Structured Data
US20170212732A1 (en) * 2016-01-12 2017-07-27 Kavi Associates, Llc Multi-technology visual integrated data management and analytics development and deployment environment
CN108446145A (zh) * 2018-03-21 2018-08-24 苏州提点信息科技有限公司 一种分布式文件自动加载mpp数据库方法
CN109582722A (zh) * 2018-11-30 2019-04-05 珠海市新德汇信息技术有限公司 公安资源数据服务系统
CN110413701A (zh) * 2019-08-08 2019-11-05 江苏满运软件科技有限公司 分布式数据库入库方法、系统、设备及存储介质
CN111190597A (zh) * 2019-12-27 2020-05-22 天津浪淘科技股份有限公司 一种数据ue可视化设计系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110251A (zh) * 2021-05-19 2021-07-13 重庆忽米网络科技有限公司 一种用于物联网设备数据采集的数据配置方法

Also Published As

Publication number Publication date
CN111625300B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN107040578B (zh) 数据同步方法、装置和系统
CN104133772A (zh) 一种自动生成测试数据的方法
US9471651B2 (en) Adjustment of map reduce execution
CN103092589A (zh) 一种基于ssh框架的代码自动生成方法
CN112817876B (zh) 一种代码诊断方法、装置、服务端、用户设备及存储介质
US20170060974A1 (en) Automated conversion tool for facilitating migration between data integration products
CN114741375A (zh) 一种多源异构数据库快速自动数据迁移系统及方法
CN104536987A (zh) 一种查询数据的方法及装置
CN103631590A (zh) 自动化测试脚本的编辑方法
CN113672628A (zh) 数据血缘分析方法、终端设备及介质
CN111880853A (zh) 一种集群化服务的启动方法、系统及相关装置
CN111625300B (zh) 一种高效的数据采集加载方法及系统
CN106919374B (zh) 一种脚本生成方法和装置
CN115146000A (zh) 一种数据库数据同步方法、装置、电子设备及存储介质
CN111460021B (zh) 数据导出方法及装置
CN109189468B (zh) 一种审批数据源配置化接入及xml映射配置化系统
CN115469849A (zh) 一种业务处理系统、方法、电子设备和存储介质
CN104731597A (zh) 将sql语句应用于工程软件编辑平台的方法
CN114064601B (zh) 存储过程转换方法、装置、设备和存储介质
CN113094122A (zh) 数据处理脚本的执行方法和装置
CN112685435A (zh) 一种基于Vue和Mybatis的表格查询方法及系统
CN112764829A (zh) 一种用于Linux系统的指标监控方法
CN112860248A (zh) 源代码生成方法及装置
CN110309128B (zh) Oracle备份文件自动导入装置及其实现方法、利用该装置进行备份文件导入的方法
CN116991420A (zh) 一种工业控制系统组态云编译方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant