CN109997126A - 事件驱动提取、变换、加载(etl)处理 - Google Patents

事件驱动提取、变换、加载(etl)处理 Download PDF

Info

Publication number
CN109997126A
CN109997126A CN201780073040.0A CN201780073040A CN109997126A CN 109997126 A CN109997126 A CN 109997126A CN 201780073040 A CN201780073040 A CN 201780073040A CN 109997126 A CN109997126 A CN 109997126A
Authority
CN
China
Prior art keywords
etl
data
trigger event
data object
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780073040.0A
Other languages
English (en)
Other versions
CN109997126B (zh
Inventor
G·S·迈弗尔森
M·A·沙赫
P·D·达姆莱
G·杜迪
A·W·古普塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN109997126A publication Critical patent/CN109997126A/zh
Application granted granted Critical
Publication of CN109997126B publication Critical patent/CN109997126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提取、变换、加载(ETL)处理可由检测到的事件启动。触发事件可与ETL过程相关联,所述ETL过程将一种或多种变换应用于源数据对象。可针对所述ETL过程检测所述触发事件,并相对于所述ETL过程的一个或多个执行条件评估所述触发事件。如果满足所述ETL过程的所述执行条件,则可执行所述ETL过程。可获得所述源数据对象中的至少一些,可应用所述ETL过程的一种或多种变换,并且可存储一个或多个变换的数据对象。

Description

事件驱动提取、变换、加载(ETL)处理
背景技术
随着组织创建、跟踪和保留信息的技术能力不断提高,已经开发出用于管理和存储不断增长的信息浪潮的各种不同技术。例如,数据库系统为客户端提供许多不同的专用或定制的硬件和软件配置来管理存储的信息。组织必须存储和管理的数据量越来越多,常常对应地增加了数据存储和管理技术(如数据库系统)的规模和复杂性,这继而增加了维护信息的成本。新技术试图通过引入提供不同处理或维护能力的不同数据格式来降低维护数据的复杂性和存储要求。然而,引入多种数据格式并非没有代价。数据通常由不同系统处理,所述系统可不支持数据的当前数据格式。因此,期望执行在不同格式或位置之间提取、变换和加载数据的技术的能力。
附图说明
图1示出根据一些实施例的事件驱动提取、变换、加载(ETL)处理的逻辑框图。
图2是根据一些实施例的示出提供不同服务的提供商网络的框图,所述服务包含执行事件驱动提取、变换、加载(ETL)处理的ETL服务。
图3是根据一些实施例的示出执行事件驱动ETL处理的ETL服务的框图。
图4是根据一些实施例的示出ETL作业管理的逻辑框图。
图5是根据一些实施例的示出用于执行ETL作业的交互的逻辑框图。
图6示出根据一些实施例的用于注册ETL作业的触发事件的实例交互。
图7是根据一些实施例的示出用于实施事件驱动ETL处理的方法和技术的高级流程图。
图8示出根据一些实施例的配置成实施本文描述的各种方法、技术和系统的实例系统。
尽管本文通过实例的方式针对若干实施例和说明性附图描述了实施例,但是本领域技术人员将认识到,实施例不限于所描述的实施例或附图。应当理解,附图和对其的详细描述并非旨在将实施例限制于所公开的特定形式,而是相反,其意图为覆盖落入由所附权利要求限定的精神和范围内的所有修改、等同物和替代物。本文使用的标题仅用于组织目的,并非意指用于限制说明书或权利要求的范围。如在整个本申请中所使用的,词语“可”以允许的意义使用(即,意指具有潜在的意义),而不是强制意义(即,意指必须)。类似地,词语“包含(include)”、“包含(including)”和“包含(includes)”意指包含但不限于。
还应当理解,尽管术语第一、第二等可在本文中用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一种元件与另一种元件。举例来说,在不脱离本发明的范围的情况下,第一触点可被称为第二触点,并且类似地,第二触点可被称为第一触点。第一触点和第二触点两者都为触点,但它们不是相同的触点。
具体实施方式
本文描述了事件驱动提取、变换和加载(ETL)处理的各种实施例。ETL处理通过促进跨不同数据存储库和数据模式或格式的移动数据,为数据管理员、利益相关者、生产者或消费者提供利用不同数据格式、存储系统或存储位置的能力。举例来说,收集网站交互的使用和其它分析(例如,访问者点击和其它动作)的数据产生器可生成呈大日志文件或其它半结构化数据格式的存储的分析数据。然而,为了对分析数据执行各种分析操作或查询,可执行ETL过程以提取期望的数据,将期望的数据变换为分析引擎(如数据库系统)可用的格式,并将提取的数据以适当的数据模式和格式加载到适当的存储系统中。
典型的ETL处理技术依赖于按时间顺序的机制来启动ETL处理的执行。ETL过程可被安排为每晚执行,或在某一天的某个时间每周执行一次。然而,由于ETL处理作业与数据交互并变换数据,因此可最佳地使执行ETL处理作业的定时与数据或关于数据的事件的改变对准,因为数据并非始终按调度创建、更新、修改或删除,也不会以相同的方式创建、更新、修改或删除。举例来说,可在数据存储库中创建或存储新数据对象以添加另一天的销售价值数据,或可将新数据对象存储为较大数据集的校正。事件驱动ETL处理可区分最佳ETL执行情境和非最佳ETL执行情境,以解决数据变化的不同性质。
图1示出根据一些实施例的事件驱动提取、变换、加载(ETL)处理的逻辑框图。数据存储库110可代表一个或多个客户端存储数据对象。数据对象可以是任何形式的数据或数据结构(例如,文件、目录、数据库表、日志、块、分区、组块或字节范围)。各种数据事件120可相对于存储的数据对象在数据存储库中发生。举例来说,数据创建事件122可由存储新数据对象产生。例如,数据产生器可将新的日志文件上载到数据存储库120中,从而创建新数据对象。在另一个实例中,可添加用于数据库表的新分区。当数据被更新或变换以创建其它数据对象时,可发生数据修改事件124。举例来说,可执行聚合操作以访问存储在数据对象中的原始数据,聚合不同字段的值,并将聚合值存储在另一个数据对象中(例如,从存储每日交易的数据对象计算总销售额并且存储收入表中新条目中当天的总销售额)。可发生数据删除事件126以从数据存储库110存档、移动或移除数据对象。举例来说,一旦创建了数据对象的清理版本,就可丢弃原始数据对象。
如图1所示,不同的数据事件120可用作用于由ETL作业处理130执行的ETL过程150的触发事件。举例来说,触发事件(例如,由指定的数据事件120触发)可与ETL过程相关联(例如,在触发事件注册表中,如下面关于图4所讨论的)。ETL作业处理130可检测触发事件150的发生,并确定是否应该使用为ETL过程指定的执行标准来执行ETL过程。举例来说,ETL作业处理可包含执行标准分析140,以将用于ETL过程的源数据对象的各种属性与不同标准进行比较(例如,具有阈值执行大小的源数据对象的大小、在源数据对象内具有行阈值的项目(如行)数等)。可评估其它执行标准,如下面关于图4、图6和图7所讨论的标准,包含用于评估其它ETL过程的状态的标准。
如果满足执行标准,则ETL作业处理130可执行触发的ETL过程160。举例来说,ETL作业处理130可获得数据存储库110中的源数据对象的部分;应用不同的变换作为ETL处理的一部分,如将从源数据获得的数据值转换、组合或以其它方式修改的变换、将从源数据对象获得的数据值移除、过滤或略除,或将从源数据对象获得的数据值重建、重新排列或重定位。所应用的变换的结果可包含在一个或多个变换的数据对象中,所述变换的数据对象可存储在数据存储库110中。ETL作业处理130可创建不同的数据事件作为执行ETL过程的结果,因此可启动后续的ETL处理。
请注意,事件驱动ETL处理的先前描述是逻辑说明,因此不应被解释为限制用于实施数据存储库或ETL作业处理的架构。
本说明书以提供商网络的一般描述开始,所述提供商网络实施提取、变换、加载(ETL)服务,所述服务识别、变换和移动存储在提供商网络或外部数据存储库中的数据。接着讨论包含可作为实施ETL服务的一部分采用的不同组件/模块或组件/模块的布置的ETL服务的各种实例。然后讨论用于实施事件驱动ETL处理的多种不同方法和技术,其中一些在所附流程图中说明。最后,提供可在其上实施各种组件、模块、系统、装置和/或节点的实例计算系统的描述。在整个说明书中提供各种实例。
图2是根据一些实施例的示出提供不同服务的提供商网络的框图,所述服务包含执行事件驱动ETL处理的提取、变换、加载(ETL)服务。提供商网络200可为专用或封闭系统,或可由如公司或公共部门组织的实体建立,以向客户端250提供经由因特网和/或其它网络可访问的一种或多种服务(如各种类型的基于云的存储)。提供商网络200可在单个位置实施,或可包含托管各种资源池的众多数据中心,如物理和/或虚拟化计算机服务器、存储装置、网络设备等的集合(例如,下文关于图8描述的计算系统1000),需要这些数据中心以实施和分布由提供商网络200提供的基础设施和存储服务。在一些实施例中,提供商网络200可实施各种计算资源或服务,如数据存储服务210(例如,对象存储服务、基于块的存储服务或数据仓库存储服务)、ETL服务220,以及其它服务230,所述其它服务可包含虚拟计算服务、数据处理服务(例如,地图缩减、数据流和/或其它大规模数据处理技术),和/或任何其它类型的基于网络的服务(其可包含未示出的各种其它类型的存储、处理、分析、通信、事件操纵、可视化和安全服务)。
在各种实施例中,图2所示出的组件可直接在计算机硬件内作为可由计算机硬件(例如,微处理器或计算机系统)直接或间接执行的指令实施,或使用这些技术的组合实施。举例来说,图2的组件可由包含多个计算节点(或简称为节点)的系统实施,每个计算节点可类似于图8中示出并在下文描述的计算机系统实施例。在各种实施例中,给定系统或服务组件(例如,数据存储服务230的组件)的功能可由特定节点实施,或可分布在若干节点上。在一些实施例中,给定节点可实施多于一个服务系统组件(例如,多于一个数据存储组件)的功能。
数据存储服务210可实施用于代表客户端250存储、访问和管理数据的不同类型的数据存储库,作为基于网络的服务,其使得客户端250能够在云或网络计算环境中操作数据存储系统。举例来说,数据存储服务210可包含各种类型的数据库存储服务(关系和非关系)或用于存储、查询和更新数据的数据仓库。这些服务可以是可缩放和可扩展的企业级数据库系统。查询可针对分布在多个物理资源上的数据存储服务210中的数据库或数据仓库,并且数据库系统可根据需要按比例放大或缩小。在不同的实施例中,数据库系统可有效地与各种类型和/或组织的数据库模式一起工作。在一些实施例中,客户端/订户可以多种方式提交查询,例如,通过SQL接口以交互方式向数据库系统提交。在其它实施例中,外部应用和程序可使用开放式数据库连接(ODBC)和/或Java数据库连接(JDBC)驱动程序接口向数据库系统提交查询。
数据存储服务210还可包含用于放置、更新和获取数据对象或文件(其可包含未知文件类型的数据文件)的各种对象或文件数据存储库。可经由编程接口(例如,API)或图形用户接口来访问这类数据存储服务210。数据存储服务210可提供基于虚拟块的存储,用于将数据维护为数据卷的一部分,所述数据卷可类似于基于本地块的存储装置(例如,硬盘驱动器、固态驱动器等)被安装或访问,并且可利用基于块的数据存储协议或接口(如因特网小型计算机接口(iSCSI))来访问。
在一些实施例中,ETL服务220可跨各种数据存储服务210创建并动态地更新代表提供商网络200中的客户端存储的数据目录,如下文关于图3详细讨论的。举例来说,以非关系数据库格式存储的数据库可与在基于对象的数据存储库中存储对象的容器一起被识别为两者都代表提供商网络200的同一客户存储。ETL服务220还可执行从各种数据存储服务210中的一个或多个提取、变换和加载到另一位置的ETL作业。举例来说,ETL服务220可向客户端提供资源以创建、维护和编排数据加载作业,所述数据加载作业采取一种或多种数据集,执行各种变换操作,并且存储变换的数据以供进一步处理(例如,通过数据处理服务中的一种或多种)。ETL服务220可访问由ETL服务220生成的数据目录,以便执行ETL操作(例如,将数据对象从一种文件类型转换为一种或多种不同文件类型的其它数据对象的作业)。如下文关于图3至图5详细讨论的,ETL服务220可代表客户端自动生成变换工作流。
其它服务230可包含各种类型的数据处理服务以执行不同功能(例如,异常检测、机器学习、查询或任何其它类型的数据处理操作)。举例来说,在至少一些实施例中,数据处理服务可包含地图缩减服务,其创建对存储在数据存储服务210中的一个中的数据实施地图缩减功能的处理节点的集群。各种其它分布式处理架构和技术可通过数据处理服务(例如,网格计算、分片、分布式散列等)来实施。注意,在一些实施例中,数据处理操作可实施为数据存储服务210的一部分(例如,查询引擎处理对指定数据的请求)。数据处理服务可以是ETL服务220的客户端,以便调用ETL作业的执行以使数据可用于在不同位置或数据格式中进行处理,从而执行各种关于存储在数据存储服务210中的数据集的处理操作。
一般来说,客户端250可涵盖可配置为经由网络260向提供商网络200提交基于网络的请求的任何类型的客户端,所述基于网络的请求包含对存储服务的请求(例如,创建、读取、写入、获得或修改数据存储服务210中的数据的请求、在ETL服务220处生成ETL作业的请求等)。举例来说,给定客户端250可包含合适版本的web浏览器,或可包含插件模块或其它类型的代码模块,其配置成作为web浏览器提供的执行环境的扩展或在所述执行环境内执行。替代地,客户端250可涵盖应用,如数据库应用(或其用户接口)、媒体应用、办公室应用或可利用数据存储服务210中的存储资源来存储和/或访问数据以实施各种应用的任何其它应用。在一些实施例中,这类应用可包含足够的协议支持(例如,用于合适版本的超文本传输协议(HTTP)),用于生成和处理基于网络的服务请求,而不必实施对所有类型的基于网络的数据的完全浏览器支持。也就是说,客户端250可为配置成直接与提供商网络200交互的应用。在一些实施例中,客户端250可配置成根据代表性状态传输(REST)风格的基于网络的服务架构、基于文档或消息的基于网络的服务架构或另一合适的基于网络的服务架构来生成基于网络的服务请求。
在一些实施例中,客户端250可配置成以对其它应用透明的方式向那些应用提供对提供商网络200的访问。举例来说,客户端250可配置成与操作系统或文件系统集成,以在数据存储服务210中的一个(例如,基于块的存储服务)上提供存储。然而,操作系统或文件系统可向应用提供不同的存储接口,如文件、目录和/或文件夹的传统文件系统层次结构。在这类实施例中,可不需要修改应用来利用存储系统服务模型。相反,介接到数据存储服务210的细节可由客户端250和操作系统或文件系统代表在操作系统环境内执行的应用来协调。
客户端250可经由网络260向提供商网络200传达基于网络的服务请求(例如,针对数据存储服务210中的数据的访问请求、操作、任务或作业,作为其它服务230的一部分执行,或与ETL服务220交互)且接收来自提供商网络200的响应。在各种实施例中,网络260可涵盖在客户端250和提供商网络200之间建立基于网络的通信所必需的联网硬件和协议的任何合适的组合。举例来说,网络260通常可涵盖共同实施因特网的各种电信网络和服务提供商。网络260还可包含专用网络,如局域网(LAN)或广域网(WAN)以及公共或专用无线网络。举例来说,给定客户端250和提供商网络200两者可分别在具有它们自身内部网络的企业内提供。在这类实施例中,网络260可包含在给定客户端250和因特网之间以及因特网和提供商网络200之间建立网络链路所必需的硬件(例如,调制解调器、路由器、交换机、负载平衡器、代理服务器等)和软件(例如,协议栈、计费软件、防火墙/安全软件等)。注意,在一些实施例中,客户端250可使用专用网络而不是公共因特网与提供商网络200通信。
图3是根据一些实施例的示出执行事件驱动ETL处理的ETL服务的框图。ETL服务220可经由接口310提供对数据目录360和ETL作业(用于创建、管理和执行)的访问,在各种实施例中,接口310可以是编程接口(例如,应用编程接口(API))、命令行接口和/或图形用户接口。
ETL服务220可实施ETL作业创建320以通过手动作业创建(例如,创建、编辑或上载ETL代码或创建或编辑ETL作业的图形)或通过自动作业创建来操纵ETL作业的创建。ETL作业创建320可操纵自动ETL作业创建和手动ETL作业创建的请求。举例来说,ETL作业创建320可接收作业生成请求,所述作业生成请求可指定用于ETL作业的数据对象和目标数据格式。其它作业信息(如访问凭证,触发事件或执行ETL作业的任何其它信息)可作为创建请求的一部分或作为触发事件注册请求的一部分包含在内,如下面关于图6所讨论的。ETL作业创建320可通过确定数据对象的源数据格式和数据对象的目标数据格式来自动生成ETL代码以执行ETL作业。举例来说,在一个实施例中,源和目标数据格式来自数据目录360。在另一实施例中,数据格式识别可执行数据格式辨识技术,或访问其它数据存储库(例如,如存储在关系数据库中的数据目录)以检索数据格式信息。然后,ETL作业创建320可比较源数据格式和目标数据格式或模式,以选择应用于源数据对象的变换来实现目标数据格式。然后,ETL作业创建320可生成用于所选择变换的代码并构造用于执行所选择变换的源代码。用于ETL作业的代码可存储在ETL作业存储库350中以供后续执行。
ETL作业创建320还可实施ETL作业的手动创建。举例来说,可通过图形用户接口手动选择、组合或组装变换操作,以定义要应用的变换的工作流。对应于工作流的代码可被生成(或由用户供应)、编辑和存储以供随后作为ETL作业存储库350的一部分执行。
ETL服务220可实施ETL作业管理330以向客户端提供管理、编辑、删除或以其它方式改变ETL作业的能力。还可为ETL作业定义触发事件(如下面关于图6所讨论的)。ETL作业管理330可监测触发事件并请求ETL作业的执行,如下面关于图4所讨论的。
ETL服务220可实施ETL作业执行340以提供执行平台ETL作业。在一些实施例中,ETL作业执行340可提供无服务器架构(从客户端的角度),以便供应适当数量的资源(例如,来自执行ETL作业代码的虚拟计算服务的虚拟计算实例)以便满足客户端或ETL服务220提供的性能要求、目的或目标。在一些实施例中,ETL作业执行340可自动执行作业,而无需任何用户编辑来自ETL作业创建320的自动生成的ETL代码的改变。在一些实施例中,ETL作业执行340可执行被修改的自动生成的ETL作业。ETL作业执行340可响应于检测到的ETL作业的触发事件(其可由ETL作业管理或用于触发事件条件的另一系统或服务监测来检测)来执行作业,如下面关于图5所讨论的。
ETL服务220可维护描述数据集(存储在提供商网络200中或外部存储位置中)的数据目录360。ETL服务220可识别未知数据对象,识别未知数据对象的数据格式,并将数据格式存储在未知数据对象的数据目录中。ETL服务220允许目录用户、所有者或其它利益相关者修改或以其它方式管理数据目录。举例来说,ETL服务220可处理和执行针对数据目录360的访问请求(例如,组合、删除或拆分目录中的元数据表或编辑为数据目录确定的元数据的请求)。ETL服务220可实施数据目录的访问或控制策略(例如,针对经授权用户限制对数据目录的访问)。ETL服务220可实施数据保留或生命周期策略以确定维护数据目录(或较旧版本的数据目录)的时间。ETL服务220可操纵用于创建新数据目录的数据中的存储资源的供应。ETL服务220还可执行负载平衡、热管理、故障恢复和其它资源管理技术(例如,实施持久性要求)以确保客户端的数据目录的可用性。
用于数据目录360的存储可由一个或多个存储节点、服务或计算装置(例如,下文关于图8讨论的系统1000)来实施,以为由数据目录服务200生成的数据目录提供持久存储。这类存储节点(或用于数据目录360的存储的其它存储组件)可实施各种查询处理引擎或其它请求操纵组件,以根据经由接口310接收的请求提供对数据目录的访问。举例来说,在一个实施例中,数据目录存储可实施为非关系数据库,其存储表中的数据对象的文件类型和其它元数据。在一些实施例中,代表单个用户帐户跨不同存储服务210存储的各种数据对象的元数据集合可一起存储在可使客户端可访问的单个元数据目录中。
图4是根据一些实施例的示出ETL作业管理的逻辑框图。ETL作业管理330可监测ETL作业的触发事件并请求执行满足ETL作业的执行标准的ETL作业。在各种实施例中,ETL作业管理330可实施触发事件注册表430。触发事件注册表430可以是数据存储库(如数据库),或跟踪启用了监测的触发事件432的其它数据存储系统,以及用于评估是否可执行ETL作业的执行标准434。触发事件注册表430可由请求470更新以注册或更新触发事件,如下面关于图6详细讨论的。举例来说,用于注册触发事件的请求470可识别ETL作业、触发事件的类型,以及要应用于确定在检测到触发事件时甚至执行ETL作业是否继续的执行标准。
ETL作业管理330可实施触发事件监测410以检测ETL作业的触发事件。举例来说,触发事件监测410可实施等待和识别指定ETL作业的事件的监听器或其它进程。举例来说,触发事件监测410可通过将监听器配置为在提供给ETL作业管理330的更新通知中识别对数据源X的更新440来启用对数据源X进行操作的ETL作业的监听器。在一些实施例中,触发事件监测410可监测、获取或评估向数据目录360提供440的数据对象更新450。举例来说,ETL服务220可使到数据目录360的接口可用,使得当访问数据存储库中的数据对象的数据产生器、修改器或其它进程执行动作时,更新的描述或对数据对象元数据或数据模式所产生的更新经由接口被提供440到数据目录360(例如,通过API请求来报告更新)。触发事件监测410可订阅更新的馈送或流(例如,特定于数据目录中的数据对象或整个数据目录),以便监测触发事件的数据对象更新。对于其它类型的触发事件,触发事件监测可实施其它监听器、扫描器或操纵器,以例如检索有关ETL过程执行状态的信息,或实施基于时间的触发事件的调度。
执行标准评估420可查找用于检测到的触发事件454的执行标准434,以确定是否应该执行用于触发的ETL作业。举例来说,在各种实施例中,执行标准可包含关于ETL作业的源数据对象的标准(例如,数据对象的大小、数据值或其它元数据或属性)。执行标准评估420可从数据目录360获得所需信息,如数据对象属性460(例如,数据对象大小、添加的行数等)以评估执行标准。尽管未示出,但是在不同的实施例中,可获得用于评估其它执行标准(例如,通过直接访问ETL作业状态信息或数据对象)的信息,以评估执行标准。对于那些被评估并满足执行标准的触发事件,可向ETL作业执行服务340提供ETL作业执行请求480以执行由请求480识别的作业。
图5是根据一些实施例的示出用于执行ETL作业的交互的逻辑框图。ETL作业执行340可实施ETL作业执行协调器510,所述ETL作业执行协调器510将ETL作业512分配给一个或多个ETL作业执行工作器520,所述ETL作业执行工作器520可访问源数据存储库530和目标数据存储库540以获得数据524,应用变换,并且存储变换的数据526。ETL作业执行请求502可识别要执行的作业(例如,通过包含作业名称或其它标识符)。ETL作业执行协调器510可确定执行ETL作业所需的资源并将ETL作业分配给一个或多个ETL作业执行工作器520。
ETL作业执行工作器520可从ETL作业存储库350获得用于ETL作业的信息522(包含可执行代码、调用的操作或变换,以及执行所识别的ETL作业的其它信息)。然后,ETL作业执行工作器520可以并行或串行方式执行ETL作业,从而从源数据存储库530(其可以是提供商网络200的数据存储服务210)获得数据524。举例来说,ETL作业执行工作器520可建立连接以从源数据存储库530传输数据并发送一个或多个请求以获得一些或全部源数据对象(例如,通过对源数据存储库的API请求,或通过存储或传输协议,如安全文件传输协议(SFTP)或互联网小型计算机系统接口(iSCSI))。然后,作业执行工作器520可将由ETL作业指定的各种变换或其它操作应用于所获得的数据。
各种变换可由ETL作业执行工作器520应用,并且可包含但不限于:从源数据对象中略除一个或多个字段、值或项目;将数据变换为关系数据格式(例如,将列表、项目或属性转换为具有相应列值的行条目);重命名列、字段或属性;从数据对象中选择特定字段,或将字段拆分为两个不同的帧、位置、字段或属性;将行、条目或项目拆分成不同的行、条目或项目;拆箱或装箱数据值,如字符串;聚合或组合数据值;通过转换、舍入、舍项或修改数据值来降低数据值的保真度,或辨识和生成自定义数据值(例如,组合多种不同类型的值)。
ETL作业执行工作器520可建立连接以通过对目标数据存储库540的API请求或通过存储或传输协议(如SFTP或iSCSI)将变换的数据526存储到目标数据存储库540(其可与源数据存储库530相同或不同)中。ETL作业执行工作器520还可访问和更新具有作业执行状态528的ETL作业执行日志550。举例来说,ETL作业执行工作器可识别ETL作业的进度(例如,处理的源表中的Y行总数中的X行)。以这种方式,可通过访问ETL作业执行日志550恢复ETL作业执行工作器520的故障,以确定源数据对象的最后处理的部分。在一些实施例中,可在ETL作业执行日志550中记录ETL作业的错误和其它事件。在一些实施例中,ETL作业执行工作器520可向ETL作业管理330发送指示ETL作业完成的触发事件562,其可以是用于其它ETL作业的触发事件或执行标准。
图6示出根据一些实施例的用于注册ETL作业的触发事件的实例交互。如上所述,接口310可以是基于网络的、图形的和/或编程接口(例如,API),其允许客户端,如客户端610(其可类似于上面关于图2讨论的客户端250)访问ETL服务220。客户端610可经由接口310向ETL作业管理330提交注册触发事件610的请求。注册触发事件请求610可作为创建ETL作业或过程以执行的请求的一部分发送,或单独发送。不同的信息可包含在注册请求610中(或可包含在单独的请求中,未示出)。
举例来说,注册触发事件请求620可包含用于识别ETL过程可针对而执行的源数据对象的信息。可使用对象标识符、名称、文件路径或其它位置来指定源数据对象。在一些实施例中,可识别多个源数据对象。注册触发事件请求620可识别目标数据对象以存储变换的数据对象,作为执行ETL过程的一部分。举例来说,可通过指向如文件目录的位置或数据对象来识别目标数据对象,以将目标数据对象添加到(例如,作为新分区)。
在各种实施例中,注册触发事件请求620可识别触发事件应用的ETL过程。举例来说,注册请求可包含作业标识符,如作业名称、指针、索引条目或可检索要执行的ETL过程的其它位置。注册触发事件620可识别ETL过程的触发事件的类型。举例来说,触发事件可被识别为由与数据(无论数据是源数据对象还是另一数据对象)相关联的事件触发的事件,包含数据的创建、修改或删除。举例来说,当存储新数据对象时,新数据的到达可触发事件。另一触发事件类型可基于另一ETL作业或过程的执行或完成。举例来说,完成创建过滤数据集的ETL过程可触发执行使用过滤数据集作为源数据集的ETL过程。触发事件也可以是基于时间的事件。举例来说,基于时间的触发事件可在一天的特定时间、一周中的某天、一个月中的某天或一年中的某天调度ETL过程的执行。
注册触发事件请求620还可包含可针对触发事件评估的各种执行标准。举例来说,执行标准可通过指定数据值、字段、行、元数据(包含标记、标签、大小或其它数据对象属性)以及用于评估执行标准的不同的计算和/或比较来评估ETL过程所针对而执行的源数据对象。举例来说,可评估数据大小阈值,允许或拒绝根据源数据对象的大小执行ETL过程。在另一实例中,执行标准可确定并比较作为源数据对象的一部分添加的行或属性的数量与行阈值。执行标准可包含其它标准,如其它ETL过程的执行状态的评估、基于时间的评估(例如,自上次执行ETL过程以来经过的时间),或允许或拒绝执行ETL过程的任何其它评估。
在一些实施例中,注册触发事件请求620可提供用于执行ETL过程的另外的信息,如访问凭证(例如,以获得对数据存储库的访问)、用于ETL过程的日志记录的配置(例如,识别日志存储库或用于存储ETL过程的执行的文件),以及其它执行配置信息(例如,如果ETL过程失败则重试尝试,尝试访问数据存储库的超时时间段等)。
客户端610还可经由接口310向ETL作业管理330发送修改触发事件630的请求。举例来说,可改变触发事件类型(从基于数据的触发事件到基于时间的触发事件或基于过程的触发事件)。可对执行标准进行改变。举例来说,可改变阈值或条件,添加附加执行标准或移除执行标准。可修改执行标准以改变必须满足哪些执行标准以便执行ETL作业。举例来说,执行标准最初可要求满足标准A、B和C以执行ETL作业。修改请求630可改变执行标准以要求满足标准A以及标准B或C中的至少一个。
客户端610还可经由接口310向ETL作业管理330发送删除触发事件640的请求。触发事件的删除可不删除ETL作业、源数据对象或目标数据对象。但是可禁用对ETL作业的触发事件的监测。
尽管已经在ETL服务的上下文中描述和示出了图2至图6,但在不同的实施例中,在图2至图6中示出和描述的各种技术和组件可容易地应用于其它数据访问或管理系统,这可促进ETL处理操作。独立ETL处理系统是可在专用网络或系统中实施以执行与上述类似的技术的另一实施例的实例。因此,图2至图6不希望相对于可实施事件驱动ETL处理的系统的其它实施例具有限制性。图7是根据一些实施例的示出用于实施事件驱动ETL处理的方法和技术的高级流程图。各种不同的系统和装置可单独地或一起工作地实施下面描述的各种方法和技术。举例来说,如上文关于图2至图6所描述的ETL服务可配置成实施各种方法。替代地,不同系统和装置的组合(如管理对存储在直接附接的存储装置中的数据的访问的存储子系统)可使用ETL处理(以下技术)来变换数据。因此,上面的实例和/或被称为执行所说明的方法的任何其它系统或装置并不旨在限制其它不同的组件、模块、系统或系统和装置的配置。
如在710处所指示,在一些实施例中,可接收请求以注册将变换应用于第一数据存储库中的源数据对象的提取、变换、加载(ETL)过程的触发事件。请求可通过编程接口(如上面根据图6所讨论的)接收,并可指示与触发事件相关联或配置触发事件的各种信息。举例来说,请求可指示或指定从其获得数据并且所针对而执行ETL处理的源数据对象(或多个源数据对象)、作为ETL处理的结果而生成的目标数据对象(例如,表的新分区或目录中的新文件)、触发事件的类型(例如,数据到达、数据创建、数据更新等)、执行标准(例如,关于源数据对象的标准、关于触发事件的定时的标准、关于其它ETL处理作业的执行状态的标准)、用于执行ETL过程的访问凭证(例如,身份令牌、用户名/密码信息、安全角色或访问源或目标数据对象的其它信息)、日志记录配置(例如,识别ETL过程的事件日志的位置),或执行配置(例如,指示在发生故障时执行ETL过程的尝试次数)。
如在720处所指示,响应于接收到请求,可针对触发事件启用监测。举例来说,在一个实施例中,可创建监测代理或监听器以接收对源数据对象的更新或状态改变(例如,如对源数据对象的数据目录的更新,如上面关于图4所讨论的)。可监测更新以检测触发事件。在另一个实施例中,可关于源数据对象执行周期性(或非周期性)扫描、轮询或其它检查。举例来说,可读取源数据对象的头部或其它元数据以确定自上次检查以来源数据对象是否已被修改。对于不同类型的触发事件,可不同地启用对触发事件的监测。对于由时间触发的触发事件(例如,每日,每周或每月过程调度,或自启动、尝试或完成上次ETL过程以来经过的时间),监测可包含实施计时器或其它机制以确定触发事件是否发生。
如在730处所指示,在一些实施例中可检测到触发事件。举例来说,新数据对象可存储在数据存储库中的位置中,或可相对于数据存储库中的数据对象执行数据的添加或修改。在至少一些实施例中,源数据对象可以是包含多个分区的表或其它数据对象,并且检测到的触发事件可以是表的附加分区的到达。
如在740处所指示,可相对于ETL过程的执行标准评估触发事件。如上所述,执行标准可允许数据管理员将ETL过程的执行定制到数据的不同环境或事件,如数据生命周期中的各个阶段。执行标准可包含允许或拒绝执行ETL过程的任何条件。举例来说,执行标准可用于评估源数据对象,如大小、格式或其它属性。在一个实施例中,执行标准可拒绝对大小小于512兆字节的源数据对象执行ETL过程。
在至少一些实施例中,可关于执行标准评估如用户定义的标记、标签或其它描述符的元数据。举例来说,标记为“测试”或“校正”的数据对象可与一组标记(例如,“生产”,“完成”或“结果”)进行比较。如果标记与组中的一个标记匹配,则可满足执行标准。在一些实施例中,可关于数据值标准评估源数据对象内的数据值。举例来说,可针对数据对象(例如,表格)的一列或多列中的字段值计算平均值或标准偏差。如果平均值或标准偏差大于阈值,则可满足执行标准。在至少一些实施例中,执行标准可包含对其它ETL过程的评估,如ETL过程的执行状态(例如,失败、完成、暂停等)。举例来说,一个执行标准可以是关于应用于源数据对象(或另一数据对象)的ETL过程是否成功完成的评估。
可为触发事件指定执行标准的不同组合。在一些实施例中,可在注册触发事件的请求中指定执行标准。在其它实施例中,可将默认执行标准(例如,取决于触发事件类型)分配给触发事件。在一些实施例中,可满足或不满足执行标准的组合,并且仍然可允许执行ETL过程。举例来说,如果满足更大的执行标准组中的两个或更多个执行标准,则执行标准可包含允许执行ETL过程的另外的标准。
如果不满足执行标准,如从750的否定退出所指示的,则可继续监测触发事件。对于满足执行标准的触发事件,可执行ETL过程。举例来说,如在760处所指示,可从第一数据存储库获得源数据对象的至少一部分。可从第一数据存储库读取不同的记录、文件、分区或其它部分以进行处理。如在770处所指示,可根据ETL过程将变换应用于所获得的部分,以便生成一个或多个变换的数据对象。举例来说,可执行用于过滤、修改、重新排列、组合、删除、转换以及对所述部分的任何其它改变的不同变换以生成变换的数据对象。变换的数据可拆分成多个数据对象或存储在单个变换的数据对象中。在一些实施例中,变换的数据对象可以是对现有数据集的分区或其它添加(例如,现有表的分区)。
一旦生成了变换的数据对象,就可将变换的数据对象存储在第二数据存储库中,如在780处所指示。举例来说,变换的数据对象可存储在不同的存储系统或服务中(例如,与第一数据存储库不同的数据库系统)。在一些实施例中,第二数据存储库可与第一数据存储库相同。举例来说,变换的数据对象可存储在第一数据存储库中的不同位置中(例如,在不同的文件目录中)。在至少一些实施例中,可通过将变换的数据对象存储在第二数据存储库中来触发事件。举例来说,事件可以是另一个ETL过程的另一个触发事件。可发送请求以更新可检测到的变换的数据对象的数据目录,从而触发另一个触发事件。
在一些实施例中,可为ETL过程实施重试配置或阈值。举例来说,如果允许ETL过程执行(在满足执行标准之后)但是失败(例如,尝试从源数据对象获得数据,将变换应用于源数据对象,或存储变换的数据对象),则重试配置可指示一个或多个后续尝试来执行ETL过程。以这种方式,可在不等待检测到另一个触发事件的情况下执行ETL过程,这在ETL过程链取决于先前ETL过程的完成的情境下可以是有益的。
在各种实施例中,本文描述的方法可通过硬件和软件的任何组合来实施。举例来说,在一个实施例中,所述方法可由计算机系统(例如,如图8中的计算机系统)实施,所述计算机系统包含执行存储在联接到处理器的计算机可读存储介质上的程序指令的一个或多个处理器。程序指令可配置成实施本文描述的功能(例如,实施本文描述的基于网络的虚拟计算资源提供者的各种服务器和其它组件的功能)。如附图中所说明和本文描述的各种方法表示方法的实例实施例。可改变任何方法的顺序,并且可添加、重新排序、组合、省略、修改等各种元件。
如本文描述的事件驱动ETL处理的实施例可在一个或多个计算机系统上执行,所述计算机系统可与各种其它装置交互。图8示出了一种这类计算机系统。在不同的实施例中,计算机系统1000可是各种类型的装置中的任何一种,包含但不限于:个人计算机系统、台式计算机、膝上型计算机、笔记本或上网本计算机、大型计算机系统、手持式计算机、工作站、网络计算机、相机、机顶盒、移动装置、消费者装置、视频游戏控制台、手持式视频游戏装置、应用服务器、存储装置、如交换机、调制解调器、路由器之类的外围装置,或通常任何类型的计算节点、计算装置或电子装置。
在所说明的实施例中,计算机系统1000包含经由输入/输出(I/O)接口1030耦合到系统存储器1020的一个或多个处理器1010。计算机系统1000另外包含耦合到I/O接口1030的网络接口1040,以及一个或多个输入/输出装置1050,如光标控制装置1060、键盘1070和显示器1080。显示器1080可包含标准计算机监测器和/或其它显示系统、技术或装置。在至少一些实施方式中,输入/输出装置1050还可包含触摸或多触摸使能装置,如触摸板或平板电脑,经由所述触摸板或平板电脑用户经由触控笔型装置和/或一个或多个数字进入输入。在一些实施例中,预期可使用计算机系统1000的单个实例来实施实施例,而在其它实施例中,多个这类系统或构成计算机系统1000的多个节点可配置成托管实施例的不同部分或实例。举例来说,在一个实施例中,可经由计算机系统1000的一个或多个节点来实施一些元件,所述节点不同于实施其它元件的那些节点。
在各个实施例中,计算装置1000可为包含一个处理器1010的单处理器系统,或包含若干处理器1010(例如,两个、四个、八个或另一合适数量)的多处理器系统。处理器1010可为能够执行指令的任何合适的处理器。举例来说,在各个实施例中,处理器1010可为实施各种指令集架构(ISA)中的任何一种的通用或嵌入式处理器,如x86、PowerPC、SPARC或MIPSISA或任何其它合适的ISA。在多处理器系统中,处理器1010中的每一个可共同但不一定实施相同的ISA。
在一些实施例中,至少一个处理器1010可为图形处理单元。图形处理单元或GPU可被视为个人计算机、工作站、游戏控制台或其它计算或电子装置的专用图形渲染装置。现代GPU在操纵和显示计算机图形方面可非常有效,并且它们高度并行的结构可使它们比一系列复杂图形算法的典型CPU更有效。举例来说,图形处理器可比用主机中央处理单元(CPU)直接绘制到屏幕上更快地执行它们的方式实施多个图形基元操作。在各种实施例中,图形渲染可至少部分地由配置用于在这类GPU中的一个上执行或在这类GPU中的两个或更多个上并行执行的程序指令来实施。GPU可实施允许程序员调用GPU的功能性的一个或多个应用编程接口(API)。合适的GPU可从如辉达公司(NVIDIA Corporation)、治天科技公司(现美国超微半导体公司)(ATI Technologies(AMD))等供应商商购获得。
系统存储器1020可配置成存储由处理器1010可访问的程序指令和/或数据。在各个实施例中,系统存储器1020可使用任何合适的存储器技术来实施,如静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/闪存型存储器或任何其它类型的存储器。在所说明的实施例中,实施如上面描述的那些的所期望功能的程序指令和数据被示为分别作为程序指令1025和数据存储件1035存储在系统存储器1020中。在其它实施例中,可在不同类型的计算机可访问介质上或与系统存储器1020或计算机系统1000分离的类似介质上接收、发送或存储程序指令和/或数据。一般来说,非暂时性计算机可读存储介质可包含存储介质或存储器介质(如磁性或光学介质),例如经由I/O接口1030耦合到计算机系统1000的磁盘或DVD/CD-ROM。经由计算机可读介质存储的程序指令和数据可由传送介质或信号,如电信号、电磁信号或数字信号传送,所述信号可经由通信介质,如网络和/或无线链路传达,如可经由网络接口1040实施。
在一个实施例中,I/O接口1030可配置成协调处理器1010、系统存储器1020和装置中的任何外围装置之间的I/O业务量,包含网络接口1040或如输入/输出装置1050的其它外围接口。在一些实施例中,I/O接口1030可执行任何必要的协议、定时或其它数据变换,以将来自一个组件(例如,系统存储器1020)的数据信号变换成适合于由另一组件(例如,处理器1010)使用的格式。在一些实施例中,I/O接口1030可包含对通过各种类型的外围总线附接的装置的支持,例如,如外围组件互连(PCI)总线标准或通用串行总线(USB)标准的变体。在一些实施例中,I/O接口1030的功能可分成两个或更多个单独的组件,例如北桥和南桥。另外,在一些实施例中,I/O接口1030的一些或全部功能性,如到系统存储器1020的接口可直接并入到处理器1010中。
网络接口1040可配置成允许在计算机系统1000和附接到网络的其它装置(如其它计算机系统)之间或在计算机系统1000的节点之间交换数据。在各种实施例中,网络接口1040可支持经由有线或无线通用数据网络,例如,如任何类型的以太网;经由如模拟语音网络或数字光纤通信网络的电信/电话网络;经由如光纤通道SAN的存储区域网络或经由任何其它合适类型的网络和/或协议的通信。
在一些实施例中,输入/输出装置1050可包含一个或多个显示终端、键盘、小键盘、触摸板、扫描装置、语音或光学辨识装置,或适合于由一个或多个计算机系统1000输入或检索数据的任何其它装置。多个输入/输出装置1050可存在于计算机系统1000中,或可分布在计算机系统1000的各个节点上。在一些实施例中,类似的输入/输出装置可与计算机系统1000分离,并且可通过有线或无线连接(例如通过网络接口1040)与计算机系统1000的一个或多个节点交互。
如图8所示,存储器1020可包含:程序指令1025,其配置成实施如本文所描述的各种方法和技术;以及数据存储件1035,其包括由程序指令1025可访问的各种数据。在一个实施例中,程序指令1025可包含如本文所描述并如图中所示的实施例的软件要素。数据存储件1035可包含可在实施例中使用的数据。在其它实施例中,可包含其它或不同的软件元件和数据。
本领域技术人员将理解,计算机系统1000仅为说明性的,并不旨在限制本文所描述的技术的范围。具体地,计算机系统和装置可包含可执行所指示功能的硬件或软件的任何组合,包含计算机、个人计算机系统、台式计算机、膝上型计算机、笔记本或上网本计算机、大型计算机系统、手持式计算机、工作站、网络计算机、相机、机顶盒、移动装置、网络装置、因特网器具、PDA、无线手机、寻呼机、消费者装置、视频游戏控制台、手持视频游戏装置、应用服务器、存储装置、外围装置(如交换机、调制解调器、路由器)或通常任何类型的计算或电子装置。计算机系统1000还可连接到未说明的其它装置,或替代地可作为独立系统操作。另外,在一些实施例中,由所说明的组件提供的功能性可组合在更少的组件中或分布在附加组件中。类似地,在一些实施例中,可不提供所说明的组件中的一些的功能性和/或可使用其它附加功能。
本领域技术人员还将理解,虽然各种项目被说明为在使用时存储在存储器中或存储库上,但是为了存储器管理和数据完整性的目的,这些项目或它们的一部分可在存储器和其它存储装置之间传输。替代地,在其它实施例中,软件组件中的一些或所有可在另一装置上的存储器中执行,并经由计算机间通信与所说明的计算机系统通信。系统组件中的一些或所有或数据结构也可存储(例如,作为指令或结构化数据)在计算机可访问介质或便携式物品上,以由适当的驱动器读取,其各种实例在上面进行描述。在一些实施例中,存储在与计算机系统1000分离的非暂时性计算机可访问介质上的指令可经由传送介质或经由通信介质(如网络和/或无线链路)传达的信号(如电信号、电磁信号或数字信号)传送到计算机系统1000上。各个实施例可另外包含在计算机可访问介质上接收、发送或存储根据前述描述实施的指令和/或数据。因此,可用其它计算机系统配置来实施本发明。
注意,本文描述的任何分布式系统实施例或它们的组件中的任何可实施为一个或多个web服务。举例来说,ETL系统内的节点可将ETL服务作为基于网络的服务呈现给客户端。在一些实施例中,基于网络的服务可由设计用于支持网络上的可互操作的机器到机器交互的软件和/或硬件系统来实施。基于网络的服务可具有以机器-可处理格式描述的接口,如Web服务描述语言(WSDL)。其它系统可基于网络的服务的接口的描述所规定的方式与web服务交互。举例来说,基于网络的服务可定义其它系统可调用的各种操作,并且可定义特定应用编程接口(API),当请求各种操作时,可期望其它系统以符合所述特定应用编程接口。
在各种实施例中,可通过使用包含与基于网络的服务请求相关联的参数和/或数据的消息来请求或调用基于网络的服务。可根据如可扩展标记语言(XML)的特定标记语言来格式化这类消息,和/或可使用如简单对象访问协议(SOAP)的协议来封装这类消息。为了执行web服务请求,基于网络的服务客户端可使用基于因特网的应用层传输协议(如超文本传输协议(HTTP))汇编包含所述请求的消息,并将所述消息传达到对应于web服务的可寻址端点(如,统一资源定位符(URL))。
在一些实施例中,可使用代表性状态传输(“RESTful”)技术而不是基于消息的技术来实施web服务。举例来说,可通过HTTP方法(如PUT、GET或DELETE)内包含的参数来调用根据RESTful技术实施的web服务,而不是封装在SOAP消息中。
如附图中所说明和本文描述的各种方法表示方法的实例实施例。所述方法可用软件、硬件或其组合来实施。可改变方法的顺序,并且可添加、重新排序、组合、省略、修改等各种元件。
可进行各种修改和改变,这对于受益于本公开的本领域技术人员来说为显而易见的。本发明旨在涵盖所有这类修改和变化,并且因此,以上描述被认视为说明性的而不是限制性的。

Claims (20)

1.一种系统,其包括:
至少一个处理器;
存储器,其用于存储程序指令,所述程序指令在被执行的情况下使所述至少一个处理器执行方法,所述方法包括:
检测触发事件以执行提取、变换、加载(ETL)过程,所述ETL过程包括要应用于存储在第一数据存储库中的源数据对象的一种或多种变换;
评估所述触发事件以确定所述触发事件是否满足用于所述ETL过程的一个或多个执行标准;
响应于确定所述触发事件满足所述执行标准:
从所述第一数据存储库获得所述源数据对象的至少一部分;
根据所述ETL过程将所述一种或多种变换应用于所述源数据对象的所述获得部分,以生成一个或多个变换的数据对象;并且
将所述变换的数据对象存储在第二数据存储库中。
2.根据权利要求1所述的系统,其中所述方法还包括:
接收注册所述ETL过程的所述触发事件的请求;以及
根据所述触发事件的所述注册启用对所述触发事件的监测,其中所述监测检测所述触发事件。
3.根据权利要求1所述的系统,其中检测所述触发事件以执行所述ETL过程包括检测所述源数据对象的数据目录的更新。
4.根据权利要求3所述的系统,其中所述至少一个处理器和所述存储器实施为由提供商网络提供的ETL服务的部分,其中所述数据目录被维持作为所述ETL服务的部分,其中经由用于所述ETL服务的基于网络的接口接收所述数据目录的所述更新,并且其中所述第一数据库和所述第二数据存储库实施为由所述提供商网络提供的一个或多个数据存储服务的部分。
5.一种方法,其包括:
检测触发事件以执行提取、变换、加载(ETL)过程,所述ETL过程包括要应用于存储在第一数据存储库中的源数据对象的一种或多种变换;
评估所述触发事件以确定所述触发事件是否满足用于所述ETL过程的一个或多个执行标准;
响应于确定所述触发事件满足所述执行标准:
从所述第一数据存储库获得所述源数据对象的至少一部分;
根据所述ETL过程将所述一种或多种变换应用于所述源数据对象的所述获得部分,以生成一个或多个变换的数据对象;并且
将所述变换的数据对象存储在第二数据存储库中。
6.根据权利要求5所述的方法,其中所述方法还包括:
接收注册所述ETL过程的所述触发事件的请求;以及
根据所述触发事件的所述注册启用对所述触发事件的监测,其中所述监测检测所述触发事件。
7.根据权利要求5所述的方法,其中所述ETL过程的所述触发事件指示所述源数据对象是存储在所述第一数据存储库中的新数据对象。
8.根据权利要求5所述的方法,其中检测所述触发事件以执行所述ETL过程包括检测所述源数据对象的数据目录的更新。
9.根据权利要求5所述的方法,其中评估所述触发事件包括确定所述源数据对象的标记属性是否与允许执行所述ETL处理的一个或多个标记的属性值匹配。
10.根据权利要求5所述的方法,其中评估所述触发事件包括相对于所述一个或多个执行标准的数据值标准评估所述源数据对象的一个或多个数据值。
11.根据权利要求5所述的方法,其中评估所述触发事件包括评估针对所述源数据对象或另一数据对象执行的先前启动的ETL过程的状态。
12.根据权利要求5所述的方法,其中所述一个或多个执行标准是相对于所述触发事件评估的多个执行标准中的一些,其中相对于所述触发事件,所述多个执行标准中的至少一个不满足。
13.根据权利要求5所述的方法,其中所述第一数据存储库和所述第二数据存储库实施为由提供商网络提供的一个或多个数据存储服务的部分,其中所述检测所述触发事件、所述评估所述触发事件、所述获得所述源数据对象的所述部分、应用变换以及所述存储所述变换的数据对象是由所述提供商网络提供的ETL服务执行的。
14.一种非暂时性计算机可读存储介质,其存储程序指令,所述程序指令当由一个或多个计算装置执行时使所述一个或多个计算装置实施:
检测触发事件以执行提取、变换、加载(ETL)过程,所述ETL过程包括要应用于存储在第一数据存储库中的源数据对象的一种或多种变换;
评估所述触发事件以确定所述触发事件是否满足用于所述ETL过程的一个或多个执行标准;
响应于确定所述触发事件满足所述执行标准:
从所述第一数据存储库获得所述源数据对象的至少一部分;
根据所述ETL过程将所述一种或多种变换应用于所述源数据对象的所述获得部分,以生成一个或多个变换的数据对象;并且
将所述变换的数据对象存储在第二数据存储库中。
15.根据权利要求14所述的非暂时性计算机可读存储介质,其中所述源数据对象是表格,并且其中所述ETL过程的所述触发事件指示所述表格的数据的新分区存储在所述第一数据存储库中。
16.根据权利要求14所述的非暂时性计算机可读存储介质,其中在检测到所述触发事件以执行所述ETL过程中,所述程序指令使所述一个或多个计算装置实施检测所述源数据对象的数据目录的更新。
17.根据权利要求14所述的非暂时性计算机可读存储介质,其中评估所述触发事件包括评估所述源数据对象相对于作为所述一个或多个执行标准中的一个的大小阈值的大小。
18.根据权利要求14所述的非暂时性计算机可读存储介质,其中所述程序指令使所述一个或多个计算装置还实施:
接收注册所述ETL过程的所述触发事件的请求;以及
响应于接收到注册所述触发事件的所述请求,启用对所述触发事件的监测,其中所述监测检测所述触发事件。
19.根据权利要求18所述的非暂时性计算机可读存储介质,其还包括:
在执行所述获得、所述应用和所述存储之前,尝试执行所述ETL过程,其中执行所述ETL过程的所述尝试失败;
根据所述ETL过程的重试配置执行所述获得、所述应用和所述存储,其中所述重试配置指示执行所述ETL过程的一次或多次进一步尝试,而不检测所述ETL过程的另一个触发事件。
20.根据权利要求14所述的非暂时性计算机可读存储介质,其中所述程序指令使所述一个或多个计算装置还实施:
在完成所述ETL过程时,触发针对所述源数据对象或所述变换的数据对象执行的另一ETL过程的另一个触发事件。
CN201780073040.0A 2016-11-27 2017-11-27 事件驱动提取、变换、加载(etl)处理 Active CN109997126B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662426574P 2016-11-27 2016-11-27
US62/426,574 2016-11-27
US15/385,787 2016-12-20
US15/385,787 US11481408B2 (en) 2016-11-27 2016-12-20 Event driven extract, transform, load (ETL) processing
PCT/US2017/063271 WO2018098429A1 (en) 2016-11-27 2017-11-27 Event driven extract, transform, load (etl) processing

Publications (2)

Publication Number Publication Date
CN109997126A true CN109997126A (zh) 2019-07-09
CN109997126B CN109997126B (zh) 2024-01-23

Family

ID=62190254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780073040.0A Active CN109997126B (zh) 2016-11-27 2017-11-27 事件驱动提取、变换、加载(etl)处理

Country Status (4)

Country Link
US (2) US11481408B2 (zh)
EP (1) EP3545431A1 (zh)
CN (1) CN109997126B (zh)
WO (1) WO2018098429A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659116A (zh) * 2019-08-15 2020-01-07 中国科学院计算机网络信息中心 一种大数据etl任务的调度方法
CN110795479A (zh) * 2019-10-08 2020-02-14 中国建设银行股份有限公司 基于数据的分布式etl调度的方法和装置
CN111695812A (zh) * 2020-06-11 2020-09-22 中航物业管理有限公司 一种物业管理中的标准模板管理方法
CN112860778A (zh) * 2021-03-22 2021-05-28 平安商业保理有限公司 桌面应用程序的数据库管理方法、装置、设备和介质
WO2022029516A1 (en) * 2020-08-05 2022-02-10 International Business Machines Corporation Automated etl workflow generation

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10261763B2 (en) * 2016-12-13 2019-04-16 Palantir Technologies Inc. Extensible data transformation authoring and validation system
US11687567B2 (en) * 2017-09-21 2023-06-27 Vmware, Inc. Trigger based analytics database synchronization
US10565034B2 (en) * 2017-12-29 2020-02-18 Futurewei Technologies, Inc. Event-driven serverless function orchestration
US10521280B2 (en) * 2017-12-29 2019-12-31 Futurewei Technologies, Inc. Event-driven serverless function orchestration
US10866960B2 (en) * 2018-02-20 2020-12-15 Sap Se Dynamic execution of ETL jobs without metadata repository
DE102018207175A1 (de) * 2018-05-08 2019-11-14 Robert Bosch Gmbh Verfahren und Vorrichtung zum Aktivieren von Tasks in einem Betriebssystem
US10810224B2 (en) * 2018-06-27 2020-10-20 International Business Machines Corporation Computerized methods and programs for ingesting data from a relational database into a data lake
US11354330B2 (en) * 2018-12-14 2022-06-07 Sisense Ltd. System and method for partitioning data based on authorization rules
GB201821248D0 (en) 2018-12-27 2019-02-13 Palantir Technologies Inc Data pipeline management system and method
US11232113B2 (en) * 2019-03-12 2022-01-25 Sap Se Metadata-driven data maintenance
US11614976B2 (en) 2019-04-18 2023-03-28 Oracle International Corporation System and method for determining an amount of virtual machines for use with extract, transform, load (ETL) processes
US11803798B2 (en) 2019-04-18 2023-10-31 Oracle International Corporation System and method for automatic generation of extract, transform, load (ETL) asserts
US10848451B1 (en) 2020-01-31 2020-11-24 Capital One Services, Llc Systems and methods for context development
US10902011B1 (en) 2020-01-31 2021-01-26 Capital One Services, Llc Systems and methods for context development
US11119990B1 (en) * 2020-04-14 2021-09-14 Bank Of America Corporation Systems for extracting data from XML-based digital process automation and management platforms to databases
CN111930814B (zh) * 2020-05-29 2024-02-27 武汉达梦数据库股份有限公司 一种基于etl系统的文件事件的调度方法和etl系统
US11734238B2 (en) 2021-05-07 2023-08-22 Bank Of America Corporation Correcting data errors for data processing fault recovery
US11789967B2 (en) 2021-05-07 2023-10-17 Bank Of America Corporation Recovering from data processing errors by data error detection and correction
JP2022186543A (ja) * 2021-06-04 2022-12-15 株式会社日立製作所 データ管理システム及びデータ管理方法
US20230023084A1 (en) * 2021-07-21 2023-01-26 Sap Se Transferring data to backup data repositories
US11928125B2 (en) * 2022-07-05 2024-03-12 Capital One Services, Llc Cleaning and organizing schemaless semi-structured data for extract, transform, and load processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388038A (zh) * 2008-10-28 2009-03-18 杭州华三通信技术有限公司 数据抽取、转换和加载的执行方法和装置
CN102609435A (zh) * 2010-12-20 2012-07-25 微软公司 使用实时处理器的大规模事件评估
US20160314175A1 (en) * 2015-04-24 2016-10-27 International Business Machines Corporation Distributed balanced optimization for an extract, transform, and load (etl) job

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590644B2 (en) 1999-12-21 2009-09-15 International Business Machine Corporation Method and apparatus of streaming data transformation using code generator and translator
US20020059566A1 (en) 2000-08-29 2002-05-16 Delcambre Lois M. Uni-level description of computer information and transformation of computer information between representation schemes
US8788931B1 (en) 2000-11-28 2014-07-22 International Business Machines Corporation Creating mapping rules from meta data for data transformation utilizing visual editing
US6983455B2 (en) 2002-04-10 2006-01-03 Sun Microsystems, Inc. Mechanism for profiling computer code
US7058615B2 (en) 2003-04-24 2006-06-06 International Business Machines Corporation Scheduling for data warehouse ETL processing and data mining execution
US20040249644A1 (en) * 2003-06-06 2004-12-09 International Business Machines Corporation Method and structure for near real-time dynamic ETL (extraction, transformation, loading) processing
US7840949B2 (en) 2003-11-03 2010-11-23 Ramal Acquisition Corp. System and method for data transformation using dataflow graphs
US20050283622A1 (en) 2004-06-17 2005-12-22 International Business Machines Corporation System for managing security index scores
CN100489818C (zh) 2004-11-26 2009-05-20 松下电器产业株式会社 处理器和安全处理系统
US8270941B2 (en) 2006-02-24 2012-09-18 Qualcomm Incorporated System and method for downloading user interface components to wireless devices
US8307012B2 (en) 2006-02-28 2012-11-06 Sap Ag Schema mapping and data transformation on the basis of a conceptual model
US7565335B2 (en) * 2006-03-15 2009-07-21 Microsoft Corporation Transform for outlier detection in extract, transfer, load environment
US20110107383A1 (en) 2006-05-04 2011-05-05 Feedgazer, Llc Method and system for celebrity display of web feed content
US7721091B2 (en) 2006-05-12 2010-05-18 International Business Machines Corporation Method for protecting against denial of service attacks using trust, quality of service, personalization, and hide port messages
US7548905B2 (en) 2006-10-30 2009-06-16 Teradata Us, Inc. Refreshing an execution plan for a query
US8849746B2 (en) * 2006-12-19 2014-09-30 Teradata Us, Inc. High-throughput extract-transform-load (ETL) of program events for subsequent analysis
EP2079020B1 (en) 2008-01-03 2013-03-20 Accenture Global Services Limited System amd method for automating ETL applications
US8296301B2 (en) * 2008-01-30 2012-10-23 Commvault Systems, Inc. Systems and methods for probabilistic data classification
US9547589B2 (en) * 2008-06-18 2017-01-17 Super Talent Technology, Corp. Endurance translation layer (ETL) and diversion of temp files for reduced flash wear of a super-endurance solid-state drive
US8136158B1 (en) 2008-07-21 2012-03-13 Google Inc. User-level segmentation mechanism that facilitates safely executing untrusted native code
US8370796B2 (en) 2008-08-26 2013-02-05 International Business Machines Corporation Development tooling enablement for audit event generation
US8380657B2 (en) 2008-09-19 2013-02-19 Oracle International Corporation Techniques for performing ETL over a WAN
US8631046B2 (en) * 2009-01-07 2014-01-14 Oracle International Corporation Generic ontology based semantic business policy engine
US9672478B2 (en) * 2009-02-26 2017-06-06 Oracle International Corporation Techniques for semantic business policy composition
US20100274750A1 (en) 2009-04-22 2010-10-28 Microsoft Corporation Data Classification Pipeline Including Automatic Classification Rules
US20100280990A1 (en) * 2009-04-30 2010-11-04 Castellanos Maria G Etl for process data warehouse
US8473901B1 (en) 2009-06-12 2013-06-25 The Mathworks, Inc. Non-literal representation of programming language code
US20110023028A1 (en) 2009-07-27 2011-01-27 Alcatel-Lucent Usa Inc. Virtualization software with dynamic resource allocation for virtual machines
US9684785B2 (en) 2009-12-17 2017-06-20 Red Hat, Inc. Providing multiple isolated execution environments for securely accessing untrusted content
CN102971706B (zh) 2010-05-10 2016-08-10 思杰系统有限公司 将信息从安全虚拟机重定向到不安全虚拟机
US8752047B2 (en) 2010-05-28 2014-06-10 Bromium, Inc. Automated management of virtual machines to process untrusted data based on client policy information
US8572677B2 (en) 2010-07-14 2013-10-29 William G. Bartholomay Devices, systems, and methods for enabling reconfiguration of services supported by a network of devices
US8769269B2 (en) 2010-08-12 2014-07-01 International Business Machines Corporation Cloud data management
US20120102007A1 (en) * 2010-10-22 2012-04-26 Alpine Consulting, Inc. Managing etl jobs
US8528083B2 (en) 2011-03-10 2013-09-03 Adobe Systems Incorporated Using a call gate to prevent secure sandbox leakage
US9430114B1 (en) 2011-11-03 2016-08-30 Pervasive Software Data transformation system, graphical mapping tool, and method for creating a schema map
US8577833B2 (en) * 2012-01-04 2013-11-05 International Business Machines Corporation Automated data analysis and transformation
CN102768676B (zh) 2012-06-14 2014-03-12 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置
WO2014083672A1 (ja) * 2012-11-30 2014-06-05 株式会社日立製作所 管理装置、管理方法及びプログラムを格納する記録媒体
GB2509090A (en) * 2012-12-20 2014-06-25 Ibm An extract-transform-load (ETL) processor controller indicates a degree of preferredness of a proposed placement of data
US9576036B2 (en) * 2013-03-15 2017-02-21 International Business Machines Corporation Self-analyzing data processing job to determine data quality issues
US9892178B2 (en) * 2013-09-19 2018-02-13 Workday, Inc. Systems and methods for interest-driven business intelligence systems including event-oriented data
US9582556B2 (en) 2013-10-03 2017-02-28 International Business Machines Corporation Automatic generation of an extract, transform, load (ETL) job
US20150286701A1 (en) 2014-04-04 2015-10-08 Quantum Corporation Data Classification Aware Object Storage
US9600547B2 (en) * 2014-05-30 2017-03-21 International Business Machines Corporation System and method of consuming and integrating with rest-based cloud and enterprise services
US10007790B2 (en) 2014-06-06 2018-06-26 Empire Technology Development Llc Secure application development and execution
US9552401B2 (en) * 2014-06-23 2017-01-24 International Business Machines Corporation ETL tool interface for remote mainframes
WO2016018289A1 (en) 2014-07-30 2016-02-04 Hewlett-Packard Development Company, L.P. Security risk scoring of an application
JP6205066B2 (ja) 2014-09-04 2017-09-27 株式会社日立製作所 ストリームデータ処理方法、ストリームデータ処理装置及び記憶媒体
US9898515B1 (en) 2014-10-29 2018-02-20 Jpmorgan Chase Bank, N.A. Data extraction and transformation method and system
US10083295B2 (en) 2014-12-23 2018-09-25 Mcafee, Llc System and method to combine multiple reputations
US9733967B2 (en) 2015-02-04 2017-08-15 Amazon Technologies, Inc. Security protocols for low latency execution of program code
US9471775B1 (en) 2015-02-04 2016-10-18 Amazon Technologies, Inc. Security protocols for low latency execution of program code
US9727725B2 (en) 2015-02-04 2017-08-08 Amazon Technologies, Inc. Security protocols for low latency execution of program code
US10089313B2 (en) 2015-02-19 2018-10-02 Bank Of America Corporation Conversion of data integration system files
US9785413B2 (en) 2015-03-06 2017-10-10 Intel Corporation Methods and apparatus to eliminate partial-redundant vector loads
US10051082B2 (en) 2015-06-05 2018-08-14 International Business Machines Corporation Cost determination to provide software as a service
EP3110161B1 (en) 2015-06-23 2019-10-09 Nokia Technologies Oy Method, apparatus and computer program product for controlling access to concurrently captured images
US10607442B2 (en) * 2015-09-25 2020-03-31 Bally Gaming, Inc. Unified digital wallet
CA2946775C (en) 2015-10-29 2024-05-07 Subodh Kumar Automated server workload management using machine learning
US20170154019A1 (en) 2015-11-30 2017-06-01 Open Text Sa Ulc Template-driven transformation systems and methods
CN108293092B (zh) 2015-11-30 2020-07-28 惠普发展公司有限责任合伙企业 基于强度变化的参数调整
US11853313B2 (en) * 2015-12-03 2023-12-26 Oracle International Corporation System and method for load plan intelligent run in a multidimensional database
US10725993B1 (en) * 2015-12-30 2020-07-28 Amazon Technologies, Inc. Indexing data sources using a highly available ETL for managed search
US11593342B2 (en) 2016-02-01 2023-02-28 Smartshift Technologies, Inc. Systems and methods for database orientation transformation
US10374903B2 (en) * 2016-04-22 2019-08-06 Schneider Electric Software, Llc Consolidating manufacturing intelligence event queue items
US10152360B2 (en) * 2016-04-22 2018-12-11 Schneider Electric Software, Llc Coordinating event-driven object execution
US10089103B2 (en) 2016-08-03 2018-10-02 Smartshift Technologies, Inc. Systems and methods for transformation of reporting schema
US10175978B2 (en) 2016-11-04 2019-01-08 International Business Machines Corporation Monitoring code sensitivity to cause software build breaks during software project development
US11277494B1 (en) 2016-11-27 2022-03-15 Amazon Technologies, Inc. Dynamically routing code for executing
US10621210B2 (en) 2016-11-27 2020-04-14 Amazon Technologies, Inc. Recognizing unknown data objects
US10963479B1 (en) 2016-11-27 2021-03-30 Amazon Technologies, Inc. Hosting version controlled extract, transform, load (ETL) code
US11138220B2 (en) 2016-11-27 2021-10-05 Amazon Technologies, Inc. Generating data transformation workflows
US10268825B2 (en) 2016-12-01 2019-04-23 International Business Machines Corporation Amalgamating code vulnerabilities across projects
US10496638B2 (en) 2016-12-07 2019-12-03 City University Of Hong Kong Systems and methods for privacy-assured similarity joins over encrypted datasets
US10545979B2 (en) 2016-12-20 2020-01-28 Amazon Technologies, Inc. Maintaining data lineage to detect data events

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388038A (zh) * 2008-10-28 2009-03-18 杭州华三通信技术有限公司 数据抽取、转换和加载的执行方法和装置
CN102609435A (zh) * 2010-12-20 2012-07-25 微软公司 使用实时处理器的大规模事件评估
US20160314175A1 (en) * 2015-04-24 2016-10-27 International Business Machines Corporation Distributed balanced optimization for an extract, transform, and load (etl) job

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659116A (zh) * 2019-08-15 2020-01-07 中国科学院计算机网络信息中心 一种大数据etl任务的调度方法
CN110795479A (zh) * 2019-10-08 2020-02-14 中国建设银行股份有限公司 基于数据的分布式etl调度的方法和装置
CN111695812A (zh) * 2020-06-11 2020-09-22 中航物业管理有限公司 一种物业管理中的标准模板管理方法
WO2022029516A1 (en) * 2020-08-05 2022-02-10 International Business Machines Corporation Automated etl workflow generation
US11334593B2 (en) 2020-08-05 2022-05-17 International Business Machines Corporation Automated ETL workflow generation
CN112860778A (zh) * 2021-03-22 2021-05-28 平安商业保理有限公司 桌面应用程序的数据库管理方法、装置、设备和介质
CN112860778B (zh) * 2021-03-22 2024-04-05 平安商业保理有限公司 桌面应用程序的数据库管理方法、装置、设备和介质

Also Published As

Publication number Publication date
WO2018098429A1 (en) 2018-05-31
EP3545431A1 (en) 2019-10-02
CN109997126B (zh) 2024-01-23
US20230169086A1 (en) 2023-06-01
US11941017B2 (en) 2024-03-26
US20180150529A1 (en) 2018-05-31
US11481408B2 (en) 2022-10-25

Similar Documents

Publication Publication Date Title
CN109997126A (zh) 事件驱动提取、变换、加载(etl)处理
Muniswamaiah et al. Big data in cloud computing review and opportunities
US11941016B2 (en) Using specified performance attributes to configure machine learning pipepline stages for an ETL job
US9158843B1 (en) Addressing mechanism for data at world wide scale
CN110168522B (zh) 维护数据沿袭以检测数据事件
CN110431545A (zh) 针对结构化数据和非结构化数据执行查询
CN109690524A (zh) 分布式事件处理系统中的数据序列化
US9747127B1 (en) Worldwide distributed job and tasks computational model
US8555018B1 (en) Techniques for storing data
US9317542B2 (en) Declarative specification of data integration workflows for execution on parallel processing platforms
US10255364B2 (en) Analyzing a query and provisioning data to analytics
CN107766568A (zh) 使用列式数据库中的直方图进行有效查询处理
US10769175B1 (en) Real-time hosted system analytics
US10083061B2 (en) Cloud embedded process tenant system for big data processing
Achari Hadoop essentials
CN103810272A (zh) 一种数据处理方法和系统
Lee et al. Hands-On Big Data Modeling: Effective database design techniques for data architects and business intelligence professionals
CN114547204A (zh) 数据同步方法、装置、计算机设备和存储介质
Chauhan et al. Introducing Microsoft Azure HDInsight
US11615061B1 (en) Evaluating workload for database migration recommendations
US10169083B1 (en) Scalable method for optimizing information pathway
US10963479B1 (en) Hosting version controlled extract, transform, load (ETL) code
US20140149186A1 (en) Method and system of using artifacts to identify elements of a component business model
Suh et al. SuperMan: a novel system for storing and retrieving scientific-simulation provenance for efficient job executions on computing clusters
Taori et al. Big Data Management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant