CN101533417B - 一种实现etl调度的方法及系统 - Google Patents

一种实现etl调度的方法及系统 Download PDF

Info

Publication number
CN101533417B
CN101533417B CN2009101375278A CN200910137527A CN101533417B CN 101533417 B CN101533417 B CN 101533417B CN 2009101375278 A CN2009101375278 A CN 2009101375278A CN 200910137527 A CN200910137527 A CN 200910137527A CN 101533417 B CN101533417 B CN 101533417B
Authority
CN
China
Prior art keywords
task
application server
qualifications
program code
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101375278A
Other languages
English (en)
Other versions
CN101533417A (zh
Inventor
蒋杰
陈荣松
蒋萃林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2009101375278A priority Critical patent/CN101533417B/zh
Publication of CN101533417A publication Critical patent/CN101533417A/zh
Priority to HK10102716.7A priority patent/HK1136060A1/xx
Application granted granted Critical
Publication of CN101533417B publication Critical patent/CN101533417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种ETL调度的实现方法,该方法为:根据预设的任务配置文件确定当前需要执行的至少一个任务,所述任务配置文件包括完成ETL调度所需执行的各任务以及各任务之间的依赖关系;获取各应用服务器的资源信息,并将其与针对所述至少一个任务预设的限定条件进行比较,以及根据比较结果对各应用服务器进行筛选,选定用于执行所述至少一个任务的应用服务器;将所述至少一个任务分配至选定的应用服务器,并指示该应用服务器根据设定的程序代码执行所述至少一个任务。这样,便实现了应用服务器资源的统一管理,使系统中的应用服务器资源可以得到合理分配,从而实现了系统的负载均衡。本申请同时公开了一种管理系统。

Description

一种实现ETL调度的方法及系统
技术领域
本申请涉及计算机领域,特别涉及一种实现ETL调度的方法及系统。
背景技术
数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是一个独立的数据环境,而数据抽取、转换和加载(Extraction-Transformation-Loading,ETL)是构建数据仓库的重要一环。
ETL用于将分布的、异构数据源中的数据(例如,关系数据、平面数据文件等)抽取到临时中间层后进行清洗、转换和集成,最后按照预先定义好的数据仓库模型,将数据加载到数据仓库中,使构建的数据仓库成为联机分析处理和数据挖掘的基础。在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面。通常,数据仓库中的数据不要求与联机事务处理系统中的数据实时同步,因此,ETL可以定时进行,但多个ETL的操作时间、顺序和成败对数据仓库中数据的有效性有着至关重要的影响,从而直接影响到联机分析处理结果和数据挖掘结果的质量。
参阅图1所示,现有技术下,在数据仓库中执行ETL调度时,需要规划出多个任务流程,例如,如图1所示,过程A、过程B、过程C......即是规划出的多个任务流程;每个任务流程是由一个或多个原子级任务(以下简称为任务)组成,例如,如图1所示,过程A中的抽取任务、清洗任务和加载任务即是原子级任务。其中,归属于同一任务流程的各任务之间,存在前后依赖关系的各任务按照其依赖关系串行运行,而不存在前后依赖关系的各任务则可以并行运行;同理,存在前后依赖关系的各任务流程按照其依赖关系串行运行,而不存在前后依赖关系的各任务流程则可以并行运行。
但是,现有技术下,程序代码分散配置在各个应用服务器上,一台应用服务器根据配置的程序代码内容仅能执行固定的任务流程,因此,归属于同一任务流程的所有任务必须分配至同一应用服务器进行处理,这样,便使得系统中的应用服务器资源难以得到合理分配,容易出现部分应用服务器空闲,而部分应用服务器负荷过重的现象,从而造成严重的系统负载不均衡,并且也不利于应用服务器数量的进一步扩展;另一方面,将每台应用服务器设置为一个独立运行单元会给后期维护带来不便,因为当应用服务器出现运行错误时需维护人员登录每一台应用服务器进行维护,从而会耗费大量的人力物力,增加了维护成本。
发明内容
本申请实施例提供一种实现ETL调度的方法及系统,用以提高ETL调度的执行效率,减少误操作概率,以及实现应用服务器资源的负载均衡。
本申请实施例提供的具体技术方案如下:
一种数据抽取、转换和加载ETL调度的实现方法,包括:
根据预设的任务配置文件确定当前需要执行的至少一个任务,所述任务配置文件包括完成ETL调度所需执行的各任务,以及各任务之间的依赖关系,所述任务为原子级的任务,为ETL调度针对的后台程序;
获取各应用服务器的资源信息,并将所述资源信息与针对所述至少一个任务预设的限定条件进行比较,获得比较结果,所述资源信息包括应用服务器当前执行的进程数、应用服务器当前数据库表内剩余的存储空间和应用服务器当前的CPU使用率中的一种或任意组合;
根据所述比较结果对各应用服务器进行筛选,若确定存在符合预设的限定条件的应用服务器,选定用于执行所述至少一个任务的应用服务器;若确定不存在符合预设的限定条件的应用服务器,则将所述至少一个任务保存至缓冲池中,定时提取所述至少一个任务,并判断当前是否存在符合所述限定条件的应用服务器,并在确定存在符合所述限定条件的应用服务器时,选定用于执行所述至少一个任务的应用服务器;
将所述至少一个任务分配至选定的应用服务器,并指示该应用服务器根据设定的程序代码执行所述至少一个任务。
一种管理系统,包括:
知识库单元,用于保存任务配置文件、针对各任务预设的限定条件和执行各任务时所需的程序代码,所述任务配置文件用以定义完成数据抽取、转换和加载ETL调度所需执行的各任务之间的依赖关系,所述任务为原子级的任务,为ETL调度针对的后台程序;
控制单元,用于对各应用服务器的运行状态进行监测,获得各应用服务器的资源信息,所述资源信息包括应用服务器当前执行的进程数、应用服务器当前数据库表内剩余的存储空间和应用服务器当前的CPU使用率中的一种或任意组合;
调度单元,用于解析所述任务配置文件以确定当前需要执行的至少一个任务,并指示代理单元执行所述至少一个任务;
代理单元,用于从所述控制单元获取各应用服务器的资源信息,从所述知识库单元获取针对所述至少一个任务预设的限定条件,并将两者进行比较,获得比较结果,以及根据所述比较结果对各应用服务器进行筛选,若确定存在符合预设的限定条件的应用服务器,选定用于执行所述至少一个任务的应用服务器,并将所述至少一个任务分配至选定的应用服务器,指示该应用服务器根据设定的程序代码执行所述至少一个任务;若确定不存在符合预设的限定条件的应用服务器,则将所述至少一个任务保存至缓冲池中,定时提取所述至少一个任务,并判断当前是否存在符合所述限定条件的应用服务器,并在确定存在符合所述限定条件的应用服务器时,选定用于执行所述至少一个任务的应用服务器,并将所述至少一个任务分配至选定的应用服务器,指示该应用服务器根据设定的程序代码执行所述至少一个任务。
本申请实施例中,用于实现ETL调度的管理系统在分配每个任务之前,按照针对各任务预设的限定条件,选择执行能力最适合的应用服务器来完成当前任务的执行工作,这样,便实现了应用服务器资源的统一管理,使系统中的应用服务器资源可以得到合理分配,有效避免了部分应用服务器空闲,而部分应用服务器负荷过重的现象,从而实现了系统的负载均衡;同时,管理系统将执行各任务所需的程序代码统一保存在知识库单元中,这便于在执行各任务时进行统一调度,避免了因程序代码分散保存而导致的代码版本混乱现象,也降低了后期维护工作的难度,从而在很大程度上避免了人力物力的浪费,节省了维护成本。
附图说明
图1为现有技术下ETL调度流程示意图;
图2A为本申请实施例中执行ETL调度的管理系统功能结构示意图;
图2B为本申请实施例中代理单元功能结构示意图;
图3为本申请实施例中管理装置执行ETL调度流程图。
具体实施方式
为了提高ETL调度的执行效率,减少误操作率,以及实现应用服务器资源的负载均衡,本申请实施例中,在执行ETL调度时,根据预设的任务配置文件确定当前需要执行的至少一个任务,所述任务配置文件包括完成ETL调度所需执行的各任务,以及各任务之间的依赖关系;获取各应用服务器的资源信息,并将所述资源信息与针对所述至少一个任务预设的限定条件进行比较,获得比较结果;根据所述比较结果对各应用服务器进行筛选,选定用于执行所述至少一个任务的应用服务器;将所述至少一个任务分配至选定的应用服务器,并指示该应用服务器根据设定的程序代码执行所述至少一个任务。
本实施例中,所谓任务,是指原子级的任务,即是指ETL调度针对的后台程序,如ETL程序,联机分析处理(On-Line Analytical Processing,OLAP)程序,而任务流程是ETL调度的基本单元,由一个或多个原子任务组成。
简言之,本实施例中,管理系统对应用服务器资源、任务流程、程序代码和日志都做到了统一管理,可以自动均衡应用服务器资源,并提高了应用服务器扩容的便利性,也降低了维护人员的工作难度。
下面结合附图对本申请优选的实施方式进行详细说明。
参阅图2A所示,本申请实施例中,用于执行ETL调度的管理系统包括知识库单元20、调度单元21、代理单元22和控制单元23,其中,
知识库单元20,用于保存任务配置文件、针对各任务预设的限定条件和执行各任务时所需的程序代码;以及各应用服务器的地址、可运行的任务内容以及执行能力等信息,是任务信息、程序信息、应用服务器信息、被访问数据库信息(如数据库的连接地址,用户名,密码)的存储库;这样,便实现了应用服务器资源的统一、透明化管理,便于应用服务器资源在系统内的共享。
控制单元23,用于对各应用服务器的运行状态进行监测,获得各应用服务器的资源信息;以及用于提供用户接口,向用户呈现操作平台,使用户得以对整个ETL调度流程的运行状态和执行结果进行监控。
调度单元21,用于解析所述任务配置文件以确定当前需要执行的至少一个任务,并指示代理单元执行所述至少一个任务;本实施例中,调度单元21,使用工作流的形式,根据预设的任务配置文件确定各任务之间的依赖关系,并向代理单元22发送任务执行请求报文。
代理单元22,用于对任务执行请求报文进行路由转发,从而实现应用服务器资源的均衡分配,此过程包括:从所述控制单元获取各应用服务器的资源信息,从所述知识库单元获取针对所述至少一个任务预设的限定条件,并将两者进行比较,获得比较结果,以及根据所述比较结果对各应用服务器进行筛选,选定用于执行所述至少一个任务的应用服务器,并将所述至少一个任务分配至选定的应用服务器,指示该应用服务器根据设定的程序代码执行所述至少一个任务。
如图2A所示,整个系统中,除管理系统外,还包括应用服务器和数据库服务器,其中,
应用服务器,用于执行分配到的各任务,本实施例中,应用服务器可以是ORACLE服务器、JAVA虚拟机或LIUX服务器等等。
数据库服务器,一般通过调用数据库服务器中存储过程(procduce)来执行具体应用过程(相当于一个应用程序的执行)。
参阅图2B所示,上述代理单元22进一步包括缓冲池220,定时处理单元221和获取通知单元222,其中
缓冲池220,用于缓存各任务,当代理单元对各应用服务器进行筛选时,若确定不存在符合预设的限定条件的应用服务器,则将所述至少一个任务保存至缓冲池中;
定时处理单元221,用于定时提取缓冲池220中的至少一个任务,并判断当前是否存在符合所述限定条件的应用服务器,以及在确定存在符合所述限定条件的应用服务器时,将所述至少一个任务分配至该应用服务器;或者,在确定所述至少一个任务在缓冲池中保存的时间长度超过设定阈值时,将所述至少一个任务终止或挂起。
获取通知单元222,用于在指示选定的应用服务器根据设定的程序代码执行分配到的至少一个任务时,从所述知识库单元的指定存储位置获取执行所述至少一个任务所需的程序代码,并将该程序代码发送至选定的应用服务器,或者,将所述程序代码在知识库单元中的指定存储位置通知选定的应用服务器,由该选定的应用服务器自行获取。
上述各功能单元既可以是单独的功能实体,也可以是集成在至少一个功能实体中的功能模块;其中,各功能单元可以通过软件或/和硬件方式实现,
本实施例中,用于执行ETL调度的管理系统内,各功能单元是基于分布式结构建立的,因此,需要设置控制单元23对整个的ETL调度进行管理。控制单元23不仅作为系统资源和任务流程的监控平台,也是整个管理系统与用户交互的平台,控制单元23执行的程序分为前台程序和后台程序,其中
前台程序包括:
1)日志管理,用于提供任务执行状态的查询。用户可以通过客户端查询当前正在的执行的任务、等待执行的任务、执行错误的任务以及错误信息、执行完成的任务等等。用户还可以对出错的任务进行重做、跳过、挂起(即暂停)和恢复(即结束暂停)等操作。
2)将接受到的任务执行结果,以不同方式通知绑定该任务的用户。
3)提供基于浏览器的可视化任务流程定义和管理。
4)知识库信息管理。
后台程序包括:
1)对所有应用服务器资源进行监控。
2)对各应用服务器执行任务的状况进行监控。
基于上述ETL调度模式,本实施例中,假设任务流程1中包含的各任务为任务1、任务2、任务3......,那么,参阅图3所示,管理系统/装置执行ETL调度模式,将任务1分配至相应的应用服务器进行处理的详细流程如下:
步骤300:调度单元21读取预设的任务配置文件,并根据任务配置文件的设置内容启动任务流程1,并将任务流程1中的第一个任务(以下称为任务1)发送给代理单元22请求执行。
步骤301:代理单元22从知识库单元20获取当前可用于执行任务1的各应用服务器的相关信息,该相关信息至少包含各应用服务器的地址。参阅图2所示,本实施例中,假设系统内存在三个应用服务器,分别为应用服务器A、应用服务器B和应用服务器C。
步骤302:代理单元22从控制单元23获取当前可用于执行任务1的各应用服务器的资源信息。
本实施例中,控制单元23用于对各应用服务器的运行情况进行监控,因此,各应用服务器当前的资源信息可从控制单元23获得,而一个应用服用器的资源信息包含但不限于:应用服务器当前执行的进程数、当前数据库表内剩余的存储空间以及当前的CPU使用率等等,可以是其中的一种或任意组合;代理单元22可以根据上述资源信息确定出最适合执行任务1的应用服务器。
步骤303:代理单元22根据获得的资源信息以及预设的限定条件,选定由应用服务器B执行任务1。
本实施例中,代理单元22可以根据预设的限定条件对各应用服务器进行筛选。例如,执行任务1的应用服务器需要符合的限定条件可以是以下限定条件中的一种或任意组合:
1、应用服务器当前执行的进程数据不能超过20;
2、应用服务器的数据库表的存储空间占用率不能超过90%;
3、应用服务器当前的CPU使用率不能超过80%。
上述限定条件仅为举例,实际应用中可以根据具体应用环境自行设置相应的限定条件,并且针对不同任务所设置的限定条件可以相同,也可以不同,视具体应用环境而定,在此不再赘述。
若当前存在两个或两个以上符合预设的限定条件的应用服务器,则从中随机选定一个应用服务器;或者,选择当前执行进程数最少/CPU使用率最低/数据库表的存储空间占用率最低的应用服务器。当然,实际应用中,选择的方式并不限于上述几种举例,在此不再赘述。
若当前所有可用的应用服务器均不满足预设的限定条件,则当前待分配的任务1会被保存至缓冲池中,代理单元22会定时从缓存池中提取任务1,并判断当前是否存在符合上述预设的限定条件的应用服务器,直到将任务1分配出去为止。
步骤304:代理单元22将任务1发送至应用服务器B,指示其执行任务1。
在实际应用中,代理单元22在指示应用服务器B执行任务1时,可以从知识库单元20中获取任务1的程序代码并将其发送至应用服务器B,或者,将任务1的程序代码在知识库单元20中的存储位置通知应用服务器B,由选定的应用服务器B自行获取。
步骤305:应用服务器B根据知识库单元20中保存的针对任务1的程序代码,将任务1解析为可执行程序,并执行该可执行程序以完成任务1。
步骤306、应用服务器B将任务1的执行结果返回给控制单元23,本实施例中,应用服务器B以日志形式向控制单元23返回任务1的执行结果。
在实际应用中,应用服务器B在执行任务1的过程中会出现调用第三方服务器的情况,例如,应用服务器B为JAVA虚拟机,它通过Java数据库连接(Java Database Connectivity,JDBC)访问数据库服务器,因此,为了避免增加第三方服务器的运行负荷,应用服务器B在执行需要调用第三方服务器的任务之前,必须通过代理单元22获得访问第三方服务器的令牌(即访问权限,如用户名、密码等等认证信息)后才能执行调用程序。
在上述步骤303中,被放入缓冲池中的任务,允许用户终止或挂起,例如,任务1在缓冲池中保存的时间长度超过设定阈值,则代理单元33将任务1终止或挂起。任务1终止或挂起后,依赖任务1的其他任务应暂停,由人工干预后续处理,例如,指示忽略任务1的错误继续执行后续任务;又例如,指示重新执行任务1,若执行成功则继续执行后续任务,否则,停止任务1。
另一方面,在上述实施例中,控制单元23接收到任务1的执行结果后,会判断任务流程1的继续执行是否需要人工干预,若是,则通过系统消息将当前情况告知用户并暂停向调度单元21发送任务1的执行结果;否则,控制单元23记录任务1的执行结果并将其发送给调度单元21,调度单元21接收到任务1的执行结果后会将依赖于任务1的下一任务(如,任务2)发送给代理服务器22进行相应处理,相关的处理流程同步骤300-步骤306,在此不再赘述。
当然,若当前系统中存在两个或两个以上的可以并行处理的任务,则可以同时触发相应数目的如步骤300-步骤306记载的操作流程,来处理上述多个并行的任务,例如,任务2和任务3为并行关系,则在任务1完成后,同时触发任务2和任务3的处理流程,以及在任务2和任务3处理完毕后,再继续触发后续任务的处理流程,直至任务流程1处理完毕,在此不再赘述。
综上所述,本申请实施例中,用于实现ETL调度的管理系统在分配每个任务之前,按照针对各任务预设的限定条件,选择执行能力最适合的应用服务器来完成当前任务的执行工作,这样,便实现了应用服务器资源的统一管理,使系统中的应用服务器资源可以得到合理分配,有效避免了部分应用服务器空闲,而部分应用服务器负荷过重的现象,从而实现了系统的负载均衡;同时,管理系统将执行各任务所需的程序代码统一保存在知识库单元中,这便于在执行各任务时进行统一调度,避免了因程序代码分散保存而导致的代码版本混乱现象,便于应用服务器日后的扩容,也降低了后期维护工作的难度,从而在很大程度上避免了人力物力的浪费,节省了维护成本。
为了描述的方便,以上所述管理系统的各部分以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件或硬件中实现。
显然,本领域的技术人员可以对本申请中的实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例中的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请中的实施例也意图包含这些改动和变型在内。

Claims (9)

1.一种数据抽取、转换和加载ETL调度的实现方法,其特征在于,包括:
根据预设的任务配置文件确定当前需要执行的至少一个任务,所述任务配置文件包括完成ETL调度所需执行的各任务,以及各任务之间的依赖关系,所述任务为原子级的任务,为ETL调度针对的后台程序;
获取各应用服务器的资源信息,并将所述资源信息与针对所述至少一个任务预设的限定条件进行比较,获得比较结果,所述资源信息包括应用服务器当前执行的进程数、应用服务器当前数据库表内剩余的存储空间和应用服务器当前的CPU使用率中的一种或任意组合;
根据所述比较结果对各应用服务器进行筛选,若确定存在符合预设的限定条件的应用服务器,选定用于执行所述至少一个任务的应用服务器;若确定不存在符合预设的限定条件的应用服务器,则将所述至少一个任务保存至缓冲池中,定时提取所述至少一个任务,并判断当前是否存在符合所述限定条件的应用服务器,并在确定存在符合所述限定条件的应用服务器时,选定用于执行所述至少一个任务的应用服务器;
将所述至少一个任务分配至选定的应用服务器,并指示该应用服务器根据设定的程序代码执行所述至少一个任务。
2.如权利要求1所述的方法,其特征在于,对各应用服务器进行筛选时,若确定存在两个或两个以上符合所述限定条件的应用服务器,则从中随机选定一个应用服务器。
3.如权利要求1所述的方法,其特征在于,所述至少一个任务在缓冲池中保存的时间长度超过设定阈值时,将所述至少一个任务终止或挂起。
4.如权利要求1-3任一项所述的方法,其特征在于,指示选定的应用服务器根据设定的程序代码执行分配到的至少一个任务时,从指定存储位置获取执行所述至少一个任务所需的程序代码并将该程序代码发送至选定的应用服务器,或者,将所述程序代码的指定存储位置通知选定的应用服务器,由该选定的应用服务器自行获取。
5.如权利要求4所述的方法,其特征在于,接收到所述选定的应用服务器返回的所述至少一个任务的执行结果后,根据所述任务配置文件确定存在依赖所述至少一个任务的另一任务时,指示触发所述另一任务的执行流程。
6.一种管理系统,其特征在于,包括:
知识库单元,用于保存任务配置文件、针对各任务预设的限定条件和执行各任务时所需的程序代码,所述任务配置文件包括完成数据抽取、转换和加载ETL调度所需执行的各任务之间的依赖关系,所述任务为原子级的任务,为ETL调度针对的后台程序;
控制单元,用于对各应用服务器的运行状态进行监测,获得各应用服务器的资源信息,所述资源信息包括应用服务器当前执行的进程数、应用服务器当前数据库表内剩余的存储空间和应用服务器当前的CPU使用率中的一种或任意组合;
调度单元,用于解析所述任务配置文件以确定当前需要执行的至少一个任务,并指示代理单元执行所述至少一个任务;
代理单元,用于从所述控制单元获取各应用服务器的资源信息,从所述知识库单元获取针对所述至少一个任务预设的限定条件,并将两者进行比较,获得比较结果,以及根据所述比较结果对各应用服务器进行筛选,若确定存在符合预设的限定条件的应用服务器,选定用于执行所述至少一个任务的应用服务器,并将所述至少一个任务分配至选定的应用服务器,指示该应用服务器根据设定的程序代码执行所述至少一个任务;若确定不存在符合预设的限定条件的应用服务器,则将所述至少一个任务保存至缓冲池中,定时提取所述至少一个任务,并判断当前是否存在符合所述限定条件的应用服务器,并在确定存在符合所述限定条件的应用服务器时,选定用于执行所述至少一个任务的应用服务器,并将所述至少一个任务分配至选定的应用服务器,指示该应用服务器根据设定的程序代码执行所述至少一个任务。
7.如权利要求6所述的管理系统,其特征在于,所述定时处理单元确定所述至少一个任务在缓冲池中保存的时间长度超过设定阈值时,将所述至少一个任务终止或挂起。
8.如权利要求6或7所述的管理系统,其特征在于,所述代理单元还包括一个获取通知单元,用于在指示选定的应用服务器根据设定的程序代码执行分配到的至少一个任务时,从所述知识库单元的指定存储位置获取执行所述至少一个任务所需的程序代码,并将该程序代码发送至选定的应用服务器,或者,将所述程序代码在知识库单元中的指定存储位置通知选定的应用服务器,由该选定的应用服务器自行获取。
9.如权利要求8所述的管理系统,其特征在于,所述控制单元接收到选定的应用服务器返回的所述至少一个任务的执行结果后,将该执行结果通知所述调度单元,所述调度单元根据所述任务配置文件确定存在依赖所述至少一个任务的另一任务时,指示触发所述另一任务的执行流程。
CN2009101375278A 2009-04-28 2009-04-28 一种实现etl调度的方法及系统 Active CN101533417B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2009101375278A CN101533417B (zh) 2009-04-28 2009-04-28 一种实现etl调度的方法及系统
HK10102716.7A HK1136060A1 (en) 2009-04-28 2010-03-16 Method for implementing etl schedule and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101375278A CN101533417B (zh) 2009-04-28 2009-04-28 一种实现etl调度的方法及系统

Publications (2)

Publication Number Publication Date
CN101533417A CN101533417A (zh) 2009-09-16
CN101533417B true CN101533417B (zh) 2012-04-18

Family

ID=41104021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101375278A Active CN101533417B (zh) 2009-04-28 2009-04-28 一种实现etl调度的方法及系统

Country Status (2)

Country Link
CN (1) CN101533417B (zh)
HK (1) HK1136060A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013524386A (ja) 2010-04-13 2013-06-17 イーティー インターナショナル,インコーポレイティド ランスペース方法、システムおよび装置
CN102236580B (zh) * 2010-04-26 2013-03-20 阿里巴巴集团控股有限公司 为etl任务分配节点的方法和调度系统
CN101882161B (zh) * 2010-06-23 2012-07-04 中国工商银行股份有限公司 应用级异步任务调度系统和方法
US10620988B2 (en) 2010-12-16 2020-04-14 Et International, Inc. Distributed computing architecture
CN102724105B (zh) * 2011-03-30 2016-03-09 腾讯科技(深圳)有限公司 一种负载均衡方法和装置
CN102750179B (zh) * 2011-04-22 2014-10-01 中国移动通信集团河北有限公司 云计算平台与数据仓库间任务的调度方法与装置
CN102799467B (zh) * 2011-05-27 2017-07-21 金蝶软件(中国)有限公司 一种任务分配的方法及系统
CN102270235A (zh) * 2011-08-01 2011-12-07 中国民生银行股份有限公司 数据仓库的查询处理方法及装置
CN103150213B (zh) * 2011-12-06 2016-06-22 北大方正集团有限公司 负载平衡方法和装置
CN102855157A (zh) * 2012-07-19 2013-01-02 浪潮电子信息产业股份有限公司 一种综合性调度服务器负载的方法
CN103593232B (zh) * 2012-08-15 2017-07-04 阿里巴巴集团控股有限公司 一种数据仓库的任务调度方法及装置
CN102929929B (zh) * 2012-09-24 2016-09-14 深圳市网信联动通信技术股份有限公司 一种数据汇总方法和装置
CN103853719B (zh) * 2012-11-28 2018-05-22 勤智数码科技股份有限公司 易扩展海量数据采集系统
CN103853713B (zh) * 2012-11-28 2018-04-24 勤智数码科技股份有限公司 海量数据高效入库方法
CN103902574A (zh) * 2012-12-27 2014-07-02 中国移动通信集团内蒙古有限公司 一种基于数据流技术的实时数据加载方法和装置
CN103034554B (zh) * 2012-12-30 2015-11-18 焦点科技股份有限公司 一种纠错重启以及自动判断启动的etl调度系统及方法
CN103226590B (zh) * 2013-04-12 2017-03-01 中国银行股份有限公司 作业之间的触发方法
CN103309746A (zh) * 2013-05-13 2013-09-18 百度在线网络技术(北京)有限公司 调研环境的搭建方法及装置
CN105095042B (zh) * 2014-05-06 2017-09-29 中国电信股份有限公司 管理信息系统及其业务处理方法
CN105095327A (zh) * 2014-05-23 2015-11-25 深圳市珍爱网信息技术有限公司 一种分布式etl系统及调度方法
CN104008178B (zh) * 2014-06-09 2017-07-14 中国工商银行股份有限公司 一种数据的动态加载处理方法及系统
CN104484167B (zh) * 2014-12-05 2018-03-09 广州华多网络科技有限公司 任务处理方法及装置
CN104580194B (zh) * 2014-12-31 2017-11-24 北京四达时代软件技术股份有限公司 面向视频应用的虚拟化资源管理方法及装置
CN104933202A (zh) * 2015-07-15 2015-09-23 北京京东尚科信息技术有限公司 一种数据抽取、转换、加载etl的方法和设备
CN105183949B (zh) * 2015-08-13 2019-03-19 中国铁道科学研究院 一种铁路主数据的清洗方法
CN105138666B (zh) * 2015-09-06 2019-04-26 深圳市创梦天地科技有限公司 一种数据处理的方法及终端
CN106569878A (zh) * 2015-10-08 2017-04-19 北京奇虎科技有限公司 一种分布式定时任务管理方法和系统
CN105653365A (zh) * 2016-02-22 2016-06-08 青岛海尔智能家电科技有限公司 任务处理方法及装置
CN106293937A (zh) * 2016-08-02 2017-01-04 合肥奇也信息科技有限公司 一种用于分配数据处理资源给数据处理的方法
CN106293920A (zh) * 2016-08-15 2017-01-04 北京票之家科技有限公司 任务调度方法及装置
CN107145576B (zh) * 2017-05-08 2020-06-23 科技谷(厦门)信息技术有限公司 一种支持可视化和流程化的大数据etl调度系统
CN109213743B (zh) * 2017-06-30 2021-10-15 北京京东尚科信息技术有限公司 一种数据查询方法和装置
CN107423149A (zh) * 2017-07-31 2017-12-01 武汉斗鱼网络科技有限公司 任务处理方法及装置
CN108228708B (zh) * 2017-11-29 2020-08-11 贝壳找房(北京)科技有限公司 大数据etl系统及其调度方法
CN108182111B (zh) * 2018-01-23 2022-07-15 百度在线网络技术(北京)有限公司 任务调度系统、方法和装置
CN108613681A (zh) * 2018-05-14 2018-10-02 河海大学常州校区 大数据环境下基于迭代计算的路径规划分布式计算方法
CN110825342B (zh) * 2018-08-10 2023-04-04 昆仑芯(北京)科技有限公司 存储调度器件和用于处理信息的系统、方法及装置
CN109408241B (zh) * 2018-10-31 2021-05-11 百度在线网络技术(北京)有限公司 负载均衡方法、装置、设备和存储介质
US11487776B2 (en) 2020-02-26 2022-11-01 International Business Machines Corporation Managing extract-transform-load operations
CN111427943A (zh) * 2020-03-27 2020-07-17 北京明略软件系统有限公司 一种etl系统中任务管理方法和装置
CN111580944A (zh) * 2020-04-17 2020-08-25 拉扎斯网络科技(上海)有限公司 任务分配方法、装置、可读存储介质和电子设备
CN112291312B (zh) * 2020-10-15 2022-07-01 杭州数梦工场科技有限公司 Etl数据同步方法及装置、电子设备、存储介质
CN114527962A (zh) * 2020-11-23 2022-05-24 中国移动通信集团重庆有限公司 流程自动化处理装置、方法及计算设备
CN113419859A (zh) * 2021-06-30 2021-09-21 中国银行股份有限公司 主机作业均衡调度处理的方法及装置
CN113590634A (zh) * 2021-08-18 2021-11-02 深圳鼎盛电脑科技有限公司 业务数据处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN101388844A (zh) * 2008-11-07 2009-03-18 东软集团股份有限公司 一种数据流程的处理方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN101388844A (zh) * 2008-11-07 2009-03-18 东软集团股份有限公司 一种数据流程的处理方法和系统

Also Published As

Publication number Publication date
HK1136060A1 (en) 2010-06-18
CN101533417A (zh) 2009-09-16

Similar Documents

Publication Publication Date Title
CN101533417B (zh) 一种实现etl调度的方法及系统
EP3522013B1 (en) Method and system for migration of containers in a container orchestration platform between compute nodes
KR100509794B1 (ko) 데이터베이스 관리시스템을 이용하는 작업들의 실시간 처리를 위한 스케줄링 방법
US7810098B2 (en) Allocating resources across multiple nodes in a hierarchical data processing system according to a decentralized policy
JP7161262B2 (ja) 自動化プロセスの処理の分散を最適化するシステム
US8112526B2 (en) Process migration based on service availability in a multi-node environment
CN107688322A (zh) 一种容器化管理系统
US20070233837A1 (en) Job assigning device, job assigning method, and computer product
WO2006123177A1 (en) Data processing network
JP2008527513A (ja) グリッド環境にサブミットされたグリッド・ジョブによる使用の前のリソース機能の検査
CN104750549A (zh) 计算任务处理装置、方法及系统
CN1975655B (zh) 用于管理对存储装置的访问的方法和设备
JPWO2007072544A1 (ja) 情報処理装置、計算機、リソース割り当て方法及びリソース割り当てプログラム
KR101091325B1 (ko) 철강 공정 제어를 위한 미들웨어 및 그 미들웨어에서의 서비스 제공 방법
US20030110232A1 (en) Distributing messages between local queues representative of a common shared queue
CN111258726B (zh) 任务调度方法和装置
CN113157411A (zh) 一种基于Celery的可靠可配置任务系统及装置
CN103186536A (zh) 一种调度数据共享装置的方法及系统
JP2005309838A (ja) 情報管理システムと情報管理方法、及び、そのための情報管理サブシステム
CN109766131B (zh) 基于多线程技术实现软件智能化自动升级的系统及方法
JP2007286703A (ja) 親子ライセンス管理方法、親子ライセンス管理方法及び親子ライセンス管理プログラム
CN1701527A (zh) 存储区域网中的异步消息传送
JP2007199829A (ja) 計算機制御方法、情報処理システム、運用管理装置、計算機および計算機制御プログラム
CN100473065C (zh) 一种面向网格的机群作业管理系统及其实现方法
CN111913784A (zh) 任务调度方法及装置、网元、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1136060

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1136060

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20191209

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co., Ltd

Address before: Greater Cayman Islands, British Cayman Islands

Patentee before: Alibaba Group Holding Co., Ltd.

TR01 Transfer of patent right