CN110032594A - 可定制化的多源数据库的数据抽取方法、装置及存储介质 - Google Patents

可定制化的多源数据库的数据抽取方法、装置及存储介质 Download PDF

Info

Publication number
CN110032594A
CN110032594A CN201910218315.6A CN201910218315A CN110032594A CN 110032594 A CN110032594 A CN 110032594A CN 201910218315 A CN201910218315 A CN 201910218315A CN 110032594 A CN110032594 A CN 110032594A
Authority
CN
China
Prior art keywords
data
pick
extraction
acquisition
data pick
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910218315.6A
Other languages
English (en)
Other versions
CN110032594B (zh
Inventor
阮崇鹤
高爽
朱海勇
吴鸿伟
周成祖
鄢小征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201910218315.6A priority Critical patent/CN110032594B/zh
Publication of CN110032594A publication Critical patent/CN110032594A/zh
Application granted granted Critical
Publication of CN110032594B publication Critical patent/CN110032594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种可定制化的多源数据库的数据抽取方法、装置及存储介质,该方法包括:获取数据抽取系统的当前时间,作为数据抽取的开始时间;从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点;接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源;在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。本发明提出了数据抽取系统,租户向该平台提交数据抽取需求后,经管理员审批通过,所述服务服务提供商完成数据的抽取并反馈至租户,这样租户就不再需要维护独立的数据抽取系统,提高了系统性能,且数据的抽取过程可通过审批机制提高数据系统的安全性。

Description

可定制化的多源数据库的数据抽取方法、装置及存储介质
技术领域
本发明涉及数据库处理技术领域,特别是可定制化的多源数据库的数据抽取方法、装置及存储介质。
背景技术
数据抽取(ETL)包括数据的抽取、转换和加载三方面。它既可以离线执行,也可以在线执行。不仅在数据仓库的建立领域、数据库的迁移、数据共享等研究和应用领域,ETL也有重要作用。
数据源即数据的来源,通常是一个数据库,也可以是普通的数据文件。常见的数据源有Oracle,SQL Server,DB2,Access数据库以及SAS系统,Excel电子表格,文本文件等。不同的数据库主要表现在:
1)数据库管理系统的异构,即数据模型和数据语言的不同。
2)数据的异构,例如同一数据在不同数据源,数据的类型、精度、计量单位的不同。
依据访问数据源的位置可分为基于服务器端方案和基于客户端方案两大类。多数据库系统如DB2的中央数据库,Oracle的透明网关,SQL Server的链接服务器以及DTS主要提供跨数据库访问,也提供ETL功能,但成本高,实现比较复杂,不适合海量大数据规模的应用。基于客户端方案是采用数据库前端开发工具研制出ETL工具软件,由ETL工具软件访问数据元并抽取数据。国外专业ETL厂商的产品如Ascential DataStage XE等功能强大,但价格高昂,不适应特定需求的项目应用。
在实践中,数据抽取通常有基于模板的抽取、不基于模板的自动抽取以及定制化抽取等几种方式。基于模板的抽取是针对不同数据格式以及数据结构编写不同的抽取模板,数据抽取中通过使用模板中指定的抽取信息,对原始数据进行抽取;不基于模板的抽取是利用机器学习等方法自动训练抽取模型,针对不同的原始数据,其能自动定位需要抽取内容;定制化抽取主要是针对某一数据中特定的格式,在程序内部编写固定的抽取方法。
一般的抽取系统为了性能考虑,数据抽取步骤通常在一个单独数据抽取模块中实现。而在一个数据采集项目中,通常都需要多个子系统,才能完成数据采集的需求,比如新闻定向子系统,电子公告牌系统(Bulletin Board System,简称BBS)定向采集子系统以及非定向网页采集系统等。多套采集子系统也就意味着有多套数据抽取子模块,而这些子模块系统通常会占用不同的机器物理资源,如果某个子系统负载比较小,那么就会导致其占用的资源不能被有效的利用,而且抽取子系与系统中其它模块通常是紧耦合的,不能有效实现子模块的复用。在许多企业或机构中,都已经存在着业务系统,而且往往存在着不止一个业务系统。比如,ERP系统,CRM系统,人力资源系统,电子商务系统,等等。虽然各个系统都有一些自己的查询、分析、报表等功能,但如果想要集中地对数据进行管理和分析,就很不方便。
进一步地,从管理者的角度往往还不止是需要简单地看到各个业务系统的数据,而是需要对这些数据进行综合的汇总、分析、监测等等。比如,负责山东地区的销售代表人均销售额是多少,销售收入与成本比是多少,可能数据就要分别来自ERP系统、CRM系统、HR系统。
可以现有的数据抽取系统都是各单位、企业自己在自己的数据库系统中设计的,在数据抽取时严重影响系统的性能,且不能跨平台、领域等等完成数据的采集,迫切需要一种综合性数据采集平台,满足大规模数据及用户定制化数据的采集需求。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种可定制化的多源数据库的数据抽取方法,该方法包括:
获取时间戳步骤,获取数据抽取系统的当前时间,作为数据抽取的开始时间;
抽取数据起始点获取步骤,从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点;
接收步骤,接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源;
抽取步骤,在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。
更进一步地,所述数据抽取策略为全部复制、增量复制、数据转换、远程复制或定制复制。
更进一步地,所述数据抽取系统的用户包括租户、服务提供商和管理员,所述租户提交资源需求作为定制复制的数据抽取策略至服务服务提供商,所述服务服务提供商接收到提交资源需求后生成数据采集工单,并基于待抽取的数据源配置数据抽取任务,服务服务提供商基于数据抽取任务完成数据的抽取,并将数据的抽取结果反馈至所述租户,所述租户签收所述数据采集任务。
更进一步地,所述租户还可以修改资源需求、查看采集任务列表、修改采集任务状态、上报采集任务结果和资源需求审批结果查询;所述服务服务提供商还可以修改工单状态、关闭工单申请、任务调度管理、查看任务监控、元数据配置管理、报表管理和对账管理;所述管理员可以资源需求列表查询、资源需求审批、打开采集工单、查看采集工单进度、关闭采集工单、制定采集计划、发布采集任务和查看采集结果。
更进一步地,所述数据抽取系统包括查询GP集群和服务PG集群,分别用于提供数据查询和数据服务,所述数据抽取系用于数据资产管理、元数据管理、数据质量管理、数据对象分析、数据报表和数据标准化管理,所述数据抽取系统还用于任务调度管理、任务监控和安全管理,从而实现数据抽取任务的自动化运行,对数据抽取任务的运行状态进行监控,保障任务的正常运行。
本发明还提出了一种可定制化的多源数据库的数据抽取装置,该装置包括:
获取时间戳单元,用于获取数据抽取系统的当前时间,作为数据抽取的开始时间;
抽取数据起始点获取单元,用于从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点;
接收单元,用于接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源;
抽取单元,用于在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。
更进一步地,所述数据抽取策略为全部复制、增量复制、数据转换、远程复制或定制复制。
更进一步地,所述数据抽取系统的用户包括租户、服务提供商和管理员,所述租户提交资源需求作为定制复制的数据抽取策略至服务服务提供商,所述服务服务提供商接收到提交资源需求后生成数据采集工单,并基于待抽取的数据源配置数据抽取任务,服务服务提供商基于数据抽取任务完成数据的抽取,并将数据的抽取结果反馈至所述租户,所述租户签收所述数据采集任务。
更进一步地,所述租户还可以修改资源需求、查看采集任务列表、修改采集任务状态、上报采集任务结果和资源需求审批结果查询;所述服务服务提供商还可以修改工单状态、关闭工单申请、任务调度管理、查看任务监控、元数据配置管理、报表管理和对账管理;所述管理员可以资源需求列表查询、资源需求审批、打开采集工单、查看采集工单进度、关闭采集工单、制定采集计划、发布采集任务和查看采集结果。
更进一步地,所述数据抽取系统包括查询GP集群和服务PG集群,分别用于提供数据查询和数据服务,所述数据抽取系用于数据资产管理、元数据管理、数据质量管理、数据对象分析、数据报表和数据标准化管理,所述数据抽取系统还用于任务调度管理、任务监控和安全管理,从而实现数据抽取任务的自动化运行,对数据抽取任务的运行状态进行监控,保障任务的正常运行。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果为:本发明提出了一种可定制化的多源数据库的数据抽取方法,该方法包括:获取时间戳步骤,获取数据抽取系统的当前时间,作为数据抽取的开始时间;抽取数据起始点获取步骤,从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点;接收步骤,接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源;抽取步骤,在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。本发明提出了统一的数据抽取平台(即数据抽取系统),租户向该平台提交数据抽取需求后,经管理员审批通过,所述服务服务提供商完成数据的抽取并反馈至租户,这样租户就不再需要维护独立的数据抽取系统,提高了系统性能,且数据的抽取过程可通过审批机制提高数据系统的安全性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种可定制化的多源数据库的数据抽取方法的流程图。
图2是根据本发明的实施例的一种可定制化的多源数据库的数据抽取装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种可定制化的多源数据库的数据抽取方法,该方法包括以下步骤:
获取时间戳步骤S101,获取数据抽取系统的当前时间,作为数据抽取的开始时间。可以使用函数SET_START_DATE得到系统当前的时间,作为抽取的开始时间。
抽取数据起始点获取步骤S102,从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点。可以使用函数GET_MINETLFLAG从ETL的日志表中的到当前的最小FLAG,一般为时间戳抽取数据起始点,即在该点之前的数据都是已经抽取好的,只需要从该点进行抽取即可。
接收步骤S103,接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源。本数据抽取系统可以支持从多种异构的数据库中进行数据抽取,包括ORACLE、DB2、SQLSERVER、LOTUS NOTES等等,也可以从其他数据来源如文件、应用系统接口中获取数据,因此,在抽取策略中需要指定抽取的数据源。
抽取步骤S104,在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。使用函数GET_TAREGT_TABLE_CHANGE得到插入、更新等数据库操作的数量,后面记录到日志表中。抽取完成的数据可以发送至客户进行使用。
在一个实施例中,所述数据抽取策略为全部复制、增量复制、数据转换、远程复制或定制复制。本数据抽取系统可以针对实际情况的不同,采取不同的数据抽取策略,比如全部复制、增量复制、数据转换等,这是常规的数据抽取方式。
在实际应用中,甚至还有更复杂的情况,可能用户的数据分布在不同的地点,比如有多个数据中心,或者在下级机构有自己的数据库。本系统可以提供远程取数模块,实现异地对数据的抽取和通过广域网、互联网甚至邮件或其他半脱机方式的数据传送。本数据抽取系统还可以帮助客户在抽取和采集数据过程中进行更好的规划,从而实现数据分析过程的便捷高效。
本数据抽取系统还提供了其他多样化的数据获取能力,可以分别支持定期和随时的数据报送,灵活定义下发填报任务,可以由用户灵活定义对数据的导入方式和校验规则从而轻松地利用存在于地方的数据,即定制化的数据抽取。这些功能与数据抽取和采集功能紧密配合,实现了全面的数据获取方案,为数据管理与分析提供了坚实的基础,这是本发明的重要发明点,下面将详细介绍。
在一个实施例中,所述数据抽取系统的用户包括租户(也称为客户)、服务提供商和管理员,所述租户提交资源需求作为定制复制的数据抽取策略至服务服务提供商,所述服务服务提供商接收到提交资源需求后生成数据采集工单,并基于待抽取的数据源配置数据抽取任务,服务服务提供商基于数据抽取任务完成数据的抽取,并将数据的抽取结果反馈至所述租户,所述租户签收所述数据采集任务。优选的,在一个实施例中,管理员可以对租户提交的资源需求进行审批,审批通过后,所述服务服务提供商才可以进行数据的抽取工作。
为了方便租户,在一个实施例中,所述租户还可以进行修改资源需求,即租户可以对提交的资源需求进行修改,使得抽取出来的数据满足自己的需求,通过查看采集任务列表功能,租户可以查看提交的多少个数据抽取任务,租户还可以修改采集任务状态,并上报采集任务结果,还可以进行资源需求审批结果查询。
所述服务服务提供商还可以修改工单状态、关闭工单申请、任务调度管理、查看任务监控、元数据配置管理、报表管理和对账管理;所述管理员可以资源需求列表查询、资源需求审批、打开采集工单、查看采集工单进度、关闭采集工单、制定采集计划、发布采集任务和查看采集结果。
在一个实施例,所述数据抽取系统基于Greenplum集群实现,其存储和计算能力实现海量数据处理,该系统包括查询GP集群和服务PG集群,分别用于提供数据查询和数据服务,所述数据抽取系用于数据资产管理、元数据管理、数据质量管理、数据对象分析、数据报表和数据标准化管理,所述数据抽取系统还用于任务调度管理、任务监控和安全管理,从而实现数据抽取任务的自动化运行,对数据抽取任务的运行状态进行监控,保障任务的正常运行。即本发明提出了统一的数据抽取平台,租户向该平台提交数据抽取需求后,经管理员审批通过,所述服务服务提供商完成数据的抽取并反馈至租户,这样租户就不再需要维护独立的数据抽取系统,提高了系统性能,且数据的抽取过程可通过审批机制提高数据系统的安全性,这是本发明的重要发明点。
进一步参考图2,作为对上述图1所示方法的实现,本申请提供了一种可定制化的多源数据库的数据抽取装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以包含于各种电子设备或通过网络连接的多个电子设备中。
图2示出了本发明的一种可定制化的多源数据库的数据抽取装置,该装置包括以下步骤:
获取时间戳单元201,用于获取数据抽取系统的当前时间,作为数据抽取的开始时间。可以使用函数SET_START_DATE得到系统当前的时间,作为抽取的开始时间。
抽取数据起始点获取单元202,用于从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点。可以使用函数GET_MINETLFLAG从ETL的日志表中的到当前的最小FLAG,一般为时间戳抽取数据起始点,即在该点之前的数据都是已经抽取好的,只需要从该点进行抽取即可。
接收单元203,用于接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源。本数据抽取系统可以支持从多种异构的数据库中进行数据抽取,包括ORACLE、DB2、SQLSERVER、LOTUS NOTES等等,也可以从其他数据来源如文件、应用系统接口中获取数据,因此,在抽取策略中需要指定抽取的数据源。
抽取单元204,用于在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。使用函数GET_TAREGT_TABLE_CHANGE得到插入、更新等数据库操作的数量,后面记录到日志表中。抽取完成的数据可以发送至客户进行使用。
在一个实施例中,所述数据抽取策略为全部复制、增量复制、数据转换、远程复制或定制复制。本数据抽取系统可以针对实际情况的不同,采取不同的数据抽取策略,比如全部复制、增量复制、数据转换等,这是常规的数据抽取方式。
在实际应用中,甚至还有更复杂的情况,可能用户的数据分布在不同的地点,比如有多个数据中心,或者在下级机构有自己的数据库。本系统可以提供远程取数模块,实现异地对数据的抽取和通过广域网、互联网甚至邮件或其他半脱机方式的数据传送。本数据抽取系统还可以帮助客户在抽取和采集数据过程中进行更好的规划,从而实现数据分析过程的便捷高效。
本数据抽取系统还提供了其他多样化的数据获取能力,可以分别支持定期和随时的数据报送,灵活定义下发填报任务,可以由用户灵活定义对数据的导入方式和校验规则从而轻松地利用存在于地方的数据,即定制化的数据抽取。这些功能与数据抽取和采集功能紧密配合,实现了全面的数据获取方案,为数据管理与分析提供了坚实的基础,这是本发明的重要发明点,下面将详细介绍。
在一个实施例中,所述数据抽取系统的用户包括租户(也称为客户)、服务提供商和管理员,所述租户提交资源需求作为定制复制的数据抽取策略至服务服务提供商,所述服务服务提供商接收到提交资源需求后生成数据采集工单,并基于待抽取的数据源配置数据抽取任务,服务服务提供商基于数据抽取任务完成数据的抽取,并将数据的抽取结果反馈至所述租户,所述租户签收所述数据采集任务。优选的,在一个实施例中,管理员可以对租户提交的资源需求进行审批,审批通过后,所述服务服务提供商才可以进行数据的抽取工作。
为了方便租户,在一个实施例中,所述租户还可以进行修改资源需求,即租户可以对提交的资源需求进行修改,使得抽取出来的数据满足自己的需求,通过查看采集任务列表功能,租户可以查看提交的多少个数据抽取任务,租户还可以修改采集任务状态,并上报采集任务结果,还可以进行资源需求审批结果查询。
所述服务服务提供商还可以修改工单状态、关闭工单申请、任务调度管理、查看任务监控、元数据配置管理、报表管理和对账管理;所述管理员可以资源需求列表查询、资源需求审批、打开采集工单、查看采集工单进度、关闭采集工单、制定采集计划、发布采集任务和查看采集结果。
在一个实施例,所述数据抽取系统基于Greenplum集群实现,其存储和计算能力实现海量数据处理,该系统包括查询GP集群和服务PG集群,分别用于提供数据查询和数据服务,所述数据抽取系用于数据资产管理、元数据管理、数据质量管理、数据对象分析、数据报表和数据标准化管理,所述数据抽取系统还用于任务调度管理、任务监控和安全管理,从而实现数据抽取任务的自动化运行,对数据抽取任务的运行状态进行监控,保障任务的正常运行。即本发明提出了统一的数据抽取平台,租户向该平台提交数据抽取需求后,经管理员审批通过,所述服务服务提供商完成数据的抽取并反馈至租户,这样租户就不再需要维护独立的数据抽取系统,提高了系统性能,且数据的抽取过程可通过审批机制提高数据系统的安全性。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1.一种可定制化的多源数据库的数据抽取方法,其特征在于,该方法包括:
获取时间戳步骤,获取数据抽取系统的当前时间,作为数据抽取的开始时间;
抽取数据起始点获取步骤,从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点;
接收步骤,接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源;
抽取步骤,在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。
2.根据权利要求1所述的方法,其特征在于,所述数据抽取策略为全部复制、增量复制、数据转换、远程复制或定制复制。
3.根据权利要求2所述的方法,其特征在于,所述数据抽取系统的用户包括租户、服务提供商和管理员,所述租户提交资源需求作为定制复制的数据抽取策略至服务服务提供商,所述服务服务提供商接收到提交资源需求后生成数据采集工单,并基于待抽取的数据源配置数据抽取任务,服务服务提供商基于数据抽取任务完成数据的抽取,并将数据的抽取结果反馈至所述租户,所述租户签收所述数据采集任务。
4.根据权利要求3所述的方法,其特征在于,所述租户还可以修改资源需求、查看采集任务列表、修改采集任务状态、上报采集任务结果和资源需求审批结果查询;所述服务服务提供商还可以修改工单状态、关闭工单申请、任务调度管理、查看任务监控、元数据配置管理、报表管理和对账管理;所述管理员可以资源需求列表查询、资源需求审批、打开采集工单、查看采集工单进度、关闭采集工单、制定采集计划、发布采集任务和查看采集结果。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述数据抽取系统包括查询GP集群和服务PG集群,分别用于提供数据查询和数据服务,所述数据抽取系用于数据资产管理、元数据管理、数据质量管理、数据对象分析、数据报表和数据标准化管理,所述数据抽取系统还用于任务调度管理、任务监控和安全管理,从而实现数据抽取任务的自动化运行,对数据抽取任务的运行状态进行监控,保障任务的正常运行。
6.一种可定制化的多源数据库的数据抽取装置,其特征在于,该装置包括:
获取时间戳单元,用于获取数据抽取系统的当前时间,作为数据抽取的开始时间;
抽取数据起始点获取单元,用于从ETL的日志表中的到当前的最小FLAG作为抽取数据起始点;
接收单元,用于接收输入的数据抽取策略,所述抽取策略包括待抽取的数据源;
抽取单元,用于在待抽取的数据源中从抽取数据起始点基于数据抽取策略进行数据的抽取,抽取完成后将抽取记录到日志表。
7.根据权利要求6所述的装置,其特征在于,所述数据抽取策略为全部复制、增量复制、数据转换、远程复制或定制复制。
8.根据权利要求7所述的装置,其特征在于,所述数据抽取系统的用户包括租户、服务提供商和管理员,所述租户提交资源需求作为定制复制的数据抽取策略至服务服务提供商,所述服务服务提供商接收到提交资源需求后生成数据采集工单,并基于待抽取的数据源配置数据抽取任务,服务服务提供商基于数据抽取任务完成数据的抽取,并将数据的抽取结果反馈至所述租户,所述租户签收所述数据采集任务。
9.根据权利要求8所述的装置,其特征在于,所述租户还可以修改资源需求、查看采集任务列表、修改采集任务状态、上报采集任务结果和资源需求审批结果查询;所述服务服务提供商还可以修改工单状态、关闭工单申请、任务调度管理、查看任务监控、元数据配置管理、报表管理和对账管理;所述管理员可以资源需求列表查询、资源需求审批、打开采集工单、查看采集工单进度、关闭采集工单、制定采集计划、发布采集任务和查看采集结果。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述数据抽取系统包括查询GP集群和服务PG集群,分别用于提供数据查询和数据服务,所述数据抽取系用于数据资产管理、元数据管理、数据质量管理、数据对象分析、数据报表和数据标准化管理,所述数据抽取系统还用于任务调度管理、任务监控和安全管理,从而实现数据抽取任务的自动化运行,对数据抽取任务的运行状态进行监控,保障任务的正常运行。
11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。
CN201910218315.6A 2019-03-21 2019-03-21 可定制化的多源数据库的数据抽取方法、装置及存储介质 Active CN110032594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910218315.6A CN110032594B (zh) 2019-03-21 2019-03-21 可定制化的多源数据库的数据抽取方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910218315.6A CN110032594B (zh) 2019-03-21 2019-03-21 可定制化的多源数据库的数据抽取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110032594A true CN110032594A (zh) 2019-07-19
CN110032594B CN110032594B (zh) 2022-04-29

Family

ID=67236468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910218315.6A Active CN110032594B (zh) 2019-03-21 2019-03-21 可定制化的多源数据库的数据抽取方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110032594B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110660461A (zh) * 2019-09-23 2020-01-07 广州市番禺区中心医院(广州市番禺区人民医院、广州市番禺区心血管疾病研究所) 一种基于人工智能的跨平台医疗数据信息上传系统
CN112597242A (zh) * 2020-12-16 2021-04-02 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112860776A (zh) * 2021-01-20 2021-05-28 山东众阳健康科技集团有限公司 一种多种数据抽取调度方法及系统
CN117421337A (zh) * 2023-09-26 2024-01-19 东土科技(宜昌)有限公司 数据采集方法、装置、设备及计算机可读介质
CN117421337B (zh) * 2023-09-26 2024-05-28 东土科技(宜昌)有限公司 数据采集方法、装置、设备及计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893529A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
US20180089303A1 (en) * 2016-09-26 2018-03-29 Splunk Inc. Clustering events based on extraction rules
CN109101521A (zh) * 2018-06-12 2018-12-28 江苏开拓信息与系统有限公司 基于大数据的数据自动抽取系统
CN109286681A (zh) * 2018-11-08 2019-01-29 合肥帧讯软件有限公司 数据交换服务软件

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893529A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
US20180089303A1 (en) * 2016-09-26 2018-03-29 Splunk Inc. Clustering events based on extraction rules
CN109101521A (zh) * 2018-06-12 2018-12-28 江苏开拓信息与系统有限公司 基于大数据的数据自动抽取系统
CN109286681A (zh) * 2018-11-08 2019-01-29 合肥帧讯软件有限公司 数据交换服务软件

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110660461A (zh) * 2019-09-23 2020-01-07 广州市番禺区中心医院(广州市番禺区人民医院、广州市番禺区心血管疾病研究所) 一种基于人工智能的跨平台医疗数据信息上传系统
CN110660461B (zh) * 2019-09-23 2023-03-24 广州市番禺区中心医院(广州市番禺区人民医院、广州市番禺区心血管疾病研究所) 一种基于人工智能的跨平台医疗数据信息上传系统
CN112597242A (zh) * 2020-12-16 2021-04-02 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112597242B (zh) * 2020-12-16 2023-06-06 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112860776A (zh) * 2021-01-20 2021-05-28 山东众阳健康科技集团有限公司 一种多种数据抽取调度方法及系统
CN112860776B (zh) * 2021-01-20 2022-12-06 众阳健康科技集团有限公司 一种多种数据抽取调度方法及系统
CN117421337A (zh) * 2023-09-26 2024-01-19 东土科技(宜昌)有限公司 数据采集方法、装置、设备及计算机可读介质
CN117421337B (zh) * 2023-09-26 2024-05-28 东土科技(宜昌)有限公司 数据采集方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
CN110032594B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
US10282197B2 (en) Open application lifecycle management framework
US20080235041A1 (en) Enterprise data management
CN107767070B (zh) 用于信息推广的方法及装置
CN110032594A (zh) 可定制化的多源数据库的数据抽取方法、装置及存储介质
US11580096B2 (en) System for uploading information into a metadata repository
CN105868956A (zh) 一种数据处理方法及装置
CN104573885A (zh) 基于互联网云计算服务功能的审计业务工作平台
Aglibar et al. Ticketing system: A descriptive research on the use of ticketing system for project management and issue tracking in it companies
CN109947797B (zh) 一种数据检查装置及方法
Gordon et al. Evaluation of freely available data profiling tools for health data research application: a functional evaluation review
US20110289041A1 (en) Systems and methods for managing assignment templates
Iqbal et al. Use of software for automation of academic libraries in Sialkot
Moly et al. An advanced ETL technique for error free data in data warehousing environment
Khasanah et al. IT-Helpdesk System Design With Waterfall Model (Case Study: Agung Podomoro Group): IT-Helpdesk System Design With Waterfall Model (Case Study: Agung Podomoro Group)
CN113515494B (zh) 基于分布式文件系统的数据库处理方法和电子设备
Aghazada Arrangement and Modulation of ETL Process in the Storage
CN114066170A (zh) 一种面向政府数据开放共享的问题反馈处理系统及方法
Zhu et al. Research on Crisis Warning Process of China-Myanmar Cooperative Hydropower Project
BABU et al. AUTOMATION OF REMEDY TICKETS CATEGORIZATION USING BUSINESS INTELLIGENCE TOOLS
CN114841707A (zh) 核账规则提取方法、装置、设备、存储介质和程序产品
CN117707695A (zh) 仿真平台及仿真管理系统
CN117312268A (zh) 基于多源多库的流批一体化主数据治理方法、装置及可读介质
CN116303720A (zh) 数据流转方法、装置、设备、介质及产品
CN117271360A (zh) 前后端联调方法、装置、设备、介质和程序产品
CN114612057A (zh) 客户数据处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant