CN109656692B - 一种大数据任务管理方法、装置、设备及存储介质 - Google Patents
一种大数据任务管理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109656692B CN109656692B CN201710946808.2A CN201710946808A CN109656692B CN 109656692 B CN109656692 B CN 109656692B CN 201710946808 A CN201710946808 A CN 201710946808A CN 109656692 B CN109656692 B CN 109656692B
- Authority
- CN
- China
- Prior art keywords
- task
- cleaning
- metadata
- data
- computing cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 67
- 238000004140 cleaning Methods 0.000 claims abstract description 194
- 238000000034 method Methods 0.000 claims abstract description 8
- 238000013523 data management Methods 0.000 claims description 23
- 230000001419 dependent effect Effects 0.000 claims description 18
- 238000013500 data storage Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 8
- 238000011161 development Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000012544 monitoring process Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45562—Creating, deleting, cloning virtual machine instances
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5021—Priority
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种大数据任务管理方法、装置、设备及存储介质,涉及信息技术中大数据处理领域,所述方法包括:接收客户端为计算集群配置的任务算法元数据;根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。本发明实施例通过元数据描述接口,获取业务开发人员配置的任务相关元数据,根据所述元数据,分析任务间依赖关系、实例化任务、统一管理资源,并根据依赖关系,将任务提交到计算集群执行,业务开发人员只需要关注业务的数据结构和业务逻辑即可,降低了业务开发的门槛。
Description
技术领域
本发明涉及信息技术中大数据处理领域,特别涉及一种大数据任务管理方法、装置、设备及存储介质。
背景技术
大数据作为信息时代的热词,已经开始从概念走向价值,成为数据价值化热点,带动学科融合、行业结合、跨领域应用产生综合价值。互联网、金融、健康持续保持对大数据的热度,智慧城市、企业数据化、工业大数据慢慢成为新的大数据增长点。大数据开始朝民生、政策、多样性转化,多学科与数据科学共存融合,开源成为大数据技术生态主流。
大数据的本质在于利用海量数据进行数据清洗和挖掘找到或者预测客户的目的数据,例如电信运营商监控掉话率、预测用户离网,医疗卫生利用大数据基于医学数据和专业知识分析患者病症,提供个性化治疗方案,预测疾病发展趋势等等。大数据一个清洗任务通常包括用户算法开发、分析数据的导入、数据清洗、数据展示等几个部分。一个数据集群可能包含成千上万数据清洗任务,各个任务的执行条件、需要的资源各不相同。有些任务存在依赖关系,有些任务需要定时执行,有必要让这些任务在计算集群中有序的运行。
一般大数据系统都会提供一个大数据任务管理系统,业务开发人员在算法开发完成后,在客户端生成一个数据清洗任务,并提交到大数据任务管理系统进行统一管理。这种系统管理的缺点是业务开发人员需要了解计算集群的结构,并且不同客户之间的任务依赖关系需要业务开发人员自行保证,因此大数据清洗任务难以及时有效执行。
发明内容
本发明实施例提供的一种大数据任务管理方法、装置、设备及存储介质,解决现有大数据清洗任务难以及时有效执行的问题。
根据本发明实施例提供的一种大数据任务管理方法,包括:
接收客户端为计算集群配置的任务算法元数据;
根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;
当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。
优选地,所述任务算法元数据包括算法管理元数据和数据管理元数据,所述接收客户端为计算集群配置的任务算法元数据包括:
通过算法元数据接口,接收所述客户端根据业务的数据结构和业务逻辑为所述计算集群配置的包括算法元数据和算法实现的算法管理元数据;
通过数据元数据接口,接收所述客户端根据业务的数据结构为所述计算集群配置的包含数据元数据和数据结构定义的数据管理元数据。
优选地,所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务包括:
根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息。
优选地,在所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务之后,还包括:
通过分析所述任务算法元数据,确定每个清洗任务的输入和输出信息,并根据所述每个清洗任务的输入和输出信息,确定各个清洗任务之间的依赖关系。
优选地,所述任务提交条件包括清洗条件和调度条件,当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群包括:
根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件;
根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件;
若确定所述清洗任务满足所述清洗条件和所述调度条件,则将所述清洗任务提交到所述计算集群。
优选地,所述根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件包括:
根据各个清洗任务之间的依赖关系,确定所述清洗任务是否有依赖的其它清洗任务;
当确定所述清洗任务有依赖的其它清洗任务时,若所述依赖的其它清洗任务已执行完毕,且所述依赖的其它清洗任务的输出数据已到达所述计算集群,则确定所述清洗任务满足清洗条件;
当确定所述清洗任务没有依赖的其它清洗任务时,若查询到所述清洗任务的输入数据已到达所述计算集群,则确定所述计算集群上的数据满足清洗条件。
优选地,所述根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件包括:
若所述清洗任务所需的资源小于所述计算集群的可用资源,则确定所述清洗任务是否满足调度条件。
根据本发明实施例提供的一种大数据任务管理装置,包括:
用户接口模块,用于接收客户端为计算集群配置的任务算法元数据;
任务生成模块,用于根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;
任务提交模块,用于当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。
根据本发明实施例提供的一种大数据任务管理设备,所述设备包括:处理器,以及与所述处理器耦接的存储器;所述存储器上存储有可在所述处理器上运行的大数据任务管理程序,所述大数据任务管理程序被所述处理器执行时实现上述的大数据任务管理方法的步骤。
根据本发明实施例提供的一种存储介质,其上存储有大数据任务管理程序,所述大数据任务管理程序被处理器执行时实现上述的大数据任务管理方法的步骤。
本发明实施例提供的技术方案具有如下有益效果:
本发明实施例通过元数据描述接口,获取业务开发人员配置的如算法描述、任务描述等任务相关元数据,根据所述元数据,分析任务间依赖关系、实例化任务、统一管理资源,并根据依赖关系,将任务提交到计算集群执行,业务开发人员只需要关注业务的数据结构和业务逻辑,而不需要关心集群的部署、资源和任务提交命令等,降低了业务开发的门槛。
附图说明
图1是本发明实施例提供的大数据任务管理方法流程图;
图2是本发明实施例提供的大数据任务管理装置框图;
图3是本发明实施例的大数据任务管理设备框图;
图4是本发明实施例的任务管理模块示意图;
图5是本发明实施例的接口模块元数据管理示意图;
图6是本发明实施例的任务管理模块的任务元数据与任务实例化示意图;
图7是本发明实施例的任务状态管理示意图;
图8是本发明实施例的基于元数据的大数据任务管理系统示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是本发明实施例提供的大数据任务管理方法流程图,如图1所示,步骤包括:
步骤S101:接收客户端为计算集群配置的任务算法元数据。
步骤S101包括:
通过算法元数据接口,接收所述客户端为所述计算集群配置的算法管理元数据,其中,所述算法管理元数据包括算法元数据和算法实现,是所述客户端根据业务的数据结构和业务逻辑而配置的;
通过数据元数据接口,接收所述客户端为所述计算集群配置的数据管理元数据,其中,所述数据管理元数据包括数据元数据和数据结构定义,是所述客户端根据业务的数据结构而配置的。
步骤S102:根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务。
步骤S102包括:根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息。
在步骤S102之后,通过分析所述任务算法元数据,确定每个清洗任务的输入和输出信息,并根据所述每个清洗任务的输入和输出信息,确定各个清洗任务之间的依赖关系。例如,清洗任务2依赖于清洗任务1,此时清洗任务2的输入数据是清洗任务1的输出数据,因此清洗任务2应当在清洗任务1执行完毕后,才能调度并提交到计算集群。
步骤S103:当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。
步骤S103包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件,并根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件,若确定所述清洗任务满足所述清洗条件和所述调度条件,则将所述清洗任务提交到所述计算集群。
其中,根据各个清洗任务之间的依赖关系,确定所述清洗任务是否有依赖的其它清洗任务,当确定所述清洗任务有依赖的其它清洗任务时,若所述依赖的其它清洗任务已执行完毕,且所述依赖的其它清洗任务的输出数据已到达所述计算集群,则确定所述清洗任务满足清洗条件;当确定所述清洗任务没有依赖的其它清洗任务时,若查询到所述清洗任务的输入数据已到达所述计算集群,则确定所述计算集群上的数据满足清洗条件。
其中,若所述清洗任务所需的资源小于所述计算集群的可用资源,则确定所述清洗任务是否满足调度条件。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中。进一步说,本发明还可以提供一种存储介质,其上存储有大数据任务管理程序,所述大数据任务管理程序被处理器执行时实现上述的大数据任务管理方法的步骤。其中,所述的存储介质可以包括ROM/RAM、磁碟、光盘、U盘。
图2是本发明实施例提供的大数据任务管理装置框图,如图2所示,包括:
用户接口模块,用于接收客户端为计算集群配置的任务算法元数据;
任务生成模块,用于根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;
任务提交模块,用于当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。
所述装置的工作流程如下:任务生成模块根据用户接口模块接收的任务算法元数据,生成用于清洗业务大数据的清洗任务。当所述清洗任务的输入数据已到达计算集群且所述计算集群的可用资源足够时,所述任务提交模块将所述清洗任务提交至所述计算集群,并等待所述计算集群的任务执行结果。
图3是本发明实施例的大数据任务管理设备框图,如图3所示,本实施例提供一种大数据任务管理设备,所述设备包括:处理器,以及与所述处理器耦接的存储器;所述存储器上存储有可在所述处理器上运行的大数据任务管理程序,所述大数据任务管理程序被所述处理器执行时实现上述的大数据任务管理方法的步骤。
概括地说,本发明实施例定义了大数据清洗任务的元数据,根据用户填写的元数据实例化任务,将任务有序、适时地提交到计算集群进行数据清洗,以达到提高资源利用率、保证任务及时有效运行的目的。为达到上述目的,本发明实施例提供一种基于元数据的大数据任务管理方法和系统
其中,大数据任务管理系统包括用户接口模块、任务管理、数据管理、调度和提交、监控几个部分。
其中,本发明实施例提供的大数据任务管理方法通过本发明实施例提供的大数据任务管理系统的各模块来实现,具体如下:
用户接口模块提供任务算法元数据接口(即算法管理接口)、数据元数据接口(即数据管理接口),用户接口模块根据用户配置将算法管理和数据管理的元数据写到对应文件(即本地文件)中,并将算法实现和配置上传到计算集群。
算法元数据管理包括算法元数据描述和算法实现两部分。其中,算法元数据描述包括但不限于算法名称、版本、执行周期、算法信息、输入信息、输出信息、计算资源等。算法信息包括但不限于算法路径及算法依赖的配置路径等。算法元数据是算法实例化的根本依据,包含算法的所有元数据信息。算法实现则是算法的具体实现,是提交到计算集群中的执行逻辑。
数据元数据管理包括汇总表和表两部分元数据信息。其中,汇总表是关于数据来源、存储方式、创建时间、位置、分类、保存时间的元数据。表是数据保存时的实际结构。
任务管理模块定时读取接口模块生成的元数据文件,生成具体清洗任务,根据算法的执行周期一个算法元数据配置可以多个清洗任务,任务管理为每个任务实例化生成不同的任务ID和任务名称以便于用户查看和管理。
任务管理模块实例化任务后,将实例化任务的输入和输出数据的元数据加入数据管理模块,数据管理模块检查计算集群上的数据是否满足条件,如满足清洗条件则设置数据到达标志。
调度模块检定时查询任务执行的依赖条件(例如是否到达任务执行时间、数据是否到达等),如果满足条件则将任务提交到计算集群,并等待任务执行结果。集群任务清洗完成后,设置任务状态标志任务完成,以便后续有依赖的算法运行。
为了便于用户查看任务的实例化、提交、执行情况,本发明实施例为系统设计一个监控模块,监控系统任务状态。
图4是本发明实施例的任务管理模块示意图,如图4所示,提供一种利用算法元数据和数据元数据描述算法,任务管理模块通过解析元数据实例化任务,数据模块进行数据到达检查,最后通过调度提交模块将任务提交到计算集群进行数据清洗。达到降低用户大数据开发难度、提高资源利用率、保证任务即时有效运行的目的。本方法包括接口模块、任务管理模块、数据管理模块、调度提交模块和监控模块几个部分。
具体的,图5是本发明实施例的接口模块元数据管理示意图,如图5所示,用户接口模块统提供任务算法元数据接口、数据元数据接口。用户根据算法元数据接口提交算法元数据和算法实现文件,使用数据元数据接口提交数据元数据和数据表结构定义。接口模块根据用户配置将算法管理和数据管理的元数据写到对应文件中,并将算法实现和配置上传到计算集群。
特别的,当有多个相关的任务组成一个功能时,用户可以将多个任务定义为一个虚拟任务一起提交。系统可以将虚拟任务中的各个任务单独实例化,并且识别用户算法元数据识别任务间的依赖关系,根据依赖关系先后提交对应的实例化任务到计算集群。
具体地,图6是本发明实施例的任务管理模块的任务元数据与任务实例化示意图,如图6所示。任务管理模块每天凌晨读取算法元数据和数据元数据文件,实例化对应的清洗任务,每个任务实例化生成不同的任务id和任务名称,以便于用户查看和管理。
特别的,有些算法执行周期可以用定时调度表达式配置为月、周、天、小时等,对于月、周任务,任务管理模块判断当天是否为需要执行的日期,如果为执行日期则实例化对应的任务。例如,如果是天任务,则每天实例化一次;如果为小时任务,则每天凌晨时实例化多个任务。
具体地,任务管理模块实例化任务时,将任务对应的元数据信息加入到数据管理模块,数据管理模块对加入模块的所有数据进行管理,给每个数据输入分派一张牌,如果输入数据已到达,则数据翻牌状态设置为到达。
特别的,根据数据元数据的设计,用户可以设置数据分区为月、周、天、小时等。根据算法需要,每一个分区都可以对应生成一张牌。
具体地,调度模块定时检查任务是否满足调度条件,满足条件后将任务加入调度队列,根据优先级和集群资源进行调度。调度模块根据提交到集群的任务的运行情况,计算集群资源,当调度任务需要的资源小于集群的可用资源时,则任务提交。
具体地,图7是本发明实施例的任务状态管理示意图,如图7所示,任务实例化后每一步处理都设置对应任务状态,监控模块查看实例化任务状态,便于用户查询和故障定位。凌晨任务实例化后,任务状态为初始状态(initial),若数据管理模块判断数据到达,则修改任务状态为准备状态(ready)。调度与提交模块将任务提交到集群后,任务状态为执行(executing)。任务提交到集群后,系统会获取任务在集群的执行结果,并更新任务状态。如果任务执行成功则任务状态设为成功(success),如果任务执行失败则任务状态为结果失败(submittedresultfail),如果长时间不返回结果则设置为系统超时(waittimeout)。
特别的,当任务提交失败时,任务状态设置为提交失败(submittedfail),如果是连接系统失败则设置状态为(submittedtimeout),如果是用户终止任务执行则设置状态为终止(submittedterminated)。
图8是本发明实施例的基于元数据的大数据任务管理系统示意图,如图8所示,包括:第一至第四处理模块,以及第一监控模块。其中,第一处理模块为用户接口模块,第二处理模块为任务管理模块,第三处理模块为数据管理模块,第四处理模块为调度与提交模块,第一监控模块用于查看任务的实例化与执行状态。
综上所述,本发明的实施例具有以下技术效果:
本发明实施例提供元数据描述接口给业务人员配置任务相关的元数据,如算法描述、任务描述等。元数据任务管理系统根据业务人员配置的元数据,分析任务间依赖关系、实例化任务、统一管理资源,并根据依赖关系提交任务到计算集群并返回任务清洗结果,因此业务开发人员只需要关注业务的数据结构和业务逻辑,而不需要关心集群的部署、资源、任务管理和任务提交命令等,降低业务开发的门槛。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。
Claims (7)
1.一种大数据任务管理方法,其特征在于,包括:
接收客户端为计算集群配置的任务算法元数据;
根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;
当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务;
其中,所述任务算法元数据包括算法管理元数据和数据管理元数据,所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务包括:根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息;
其中,所述任务提交条件包括清洗条件和调度条件,当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件;根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件;若确定所述清洗任务满足所述清洗条件和所述调度条件,则将所述清洗任务提交到所述计算集群;其中,所述根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否有依赖的其它清洗任务;当确定所述清洗任务有依赖的其它清洗任务时,若所述依赖的其它清洗任务已执行完毕,且所述依赖的其它清洗任务的输出数据已到达所述计算集群,则确定所述清洗任务满足清洗条件;当确定所述清洗任务没有依赖的其它清洗任务时,若查询到所述清洗任务的输入数据已到达所述计算集群,则确定所述计算集群上的数据满足清洗条件。
2.根据权利要求1所述的方法,其特征在于,所述接收客户端为计算集群配置的任务算法元数据包括:
通过算法元数据接口,接收所述客户端根据业务的数据结构和业务逻辑为所述计算集群配置的包括算法元数据和算法实现的算法管理元数据;
通过数据元数据接口,接收所述客户端根据业务的数据结构为所述计算集群配置的包含数据元数据和数据结构定义的数据管理元数据。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务之后,还包括:
通过分析所述任务算法元数据,确定每个清洗任务的输入和输出信息,并根据所述每个清洗任务的输入和输出信息,确定各个清洗任务之间的依赖关系。
4.根据权利要求1所述的方法,其特征在于,所述根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件包括:
若所述清洗任务所需的资源小于所述计算集群的可用资源,则确定所述清洗任务是否满足调度条件。
5.一种大数据任务管理装置,其特征在于,所述装置包括:
用户接口模块,用于接收客户端为计算集群配置的任务算法元数据;
任务生成模块,用于根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;
任务提交模块,用于当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务;
其中,所述任务算法元数据包括算法管理元数据和数据管理元数据,所述任务生成模块还用于:根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息;
其中,所述任务提交条件包括清洗条件和调度条件,任务提交模块还用于:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件;根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件;若确定所述清洗任务满足所述清洗条件和所述调度条件,则将所述清洗任务提交到所述计算集群;其中,所述根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否有依赖的其它清洗任务;当确定所述清洗任务有依赖的其它清洗任务时,若所述依赖的其它清洗任务已执行完毕,且所述依赖的其它清洗任务的输出数据已到达所述计算集群,则确定所述清洗任务满足清洗条件;当确定所述清洗任务没有依赖的其它清洗任务时,若查询到所述清洗任务的输入数据已到达所述计算集群,则确定所述计算集群上的数据满足清洗条件。
6.一种大数据任务管理设备,其特征在于,所述设备包括:处理器,以及与所述处理器耦接的存储器;所述存储器上存储有可在所述处理器上运行的大数据任务管理程序,所述大数据任务管理程序被所述处理器执行时实现如权利要求1至4中任一项所述的大数据任务管理方法的步骤。
7.一种存储介质,其特征在于,存储有大数据任务管理程序,所述大数据任务管理程序被处理器执行时实现如权利要求1至4中任一项所述的大数据任务管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946808.2A CN109656692B (zh) | 2017-10-12 | 2017-10-12 | 一种大数据任务管理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946808.2A CN109656692B (zh) | 2017-10-12 | 2017-10-12 | 一种大数据任务管理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109656692A CN109656692A (zh) | 2019-04-19 |
CN109656692B true CN109656692B (zh) | 2023-04-21 |
Family
ID=66109175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710946808.2A Active CN109656692B (zh) | 2017-10-12 | 2017-10-12 | 一种大数据任务管理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109656692B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555019B (zh) * | 2019-09-12 | 2023-03-24 | 成都中科大旗软件股份有限公司 | 一种基于业务端的数据清洗方法 |
CN110837412B (zh) * | 2019-11-15 | 2022-08-26 | 中国建设银行股份有限公司 | 一种作业就绪状态判断方法、装置、设备和存储介质 |
CN112181779A (zh) * | 2020-09-28 | 2021-01-05 | 北京云歌科技有限责任公司 | 一种ai元数据的综合处理方法和系统 |
CN113485817A (zh) * | 2021-08-02 | 2021-10-08 | 重庆忽米网络科技有限公司 | 基于多数据源的任务调度方法与多任务协作处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469149A (zh) * | 2015-08-14 | 2017-03-01 | 广东电网有限责任公司惠州供电局 | 一种配网自动化规划设计关联数据抽取与归集方法 |
CN106708719A (zh) * | 2015-08-04 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 业务功能的测试方法和装置 |
CN107169073A (zh) * | 2017-05-09 | 2017-09-15 | 北京智行创远信息科技有限公司 | 一种数据管理方法与管理平台 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9164806B2 (en) * | 2011-01-28 | 2015-10-20 | Oracle International Corporation | Processing pattern framework for dispatching and executing tasks in a distributed computing grid |
-
2017
- 2017-10-12 CN CN201710946808.2A patent/CN109656692B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708719A (zh) * | 2015-08-04 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 业务功能的测试方法和装置 |
CN106469149A (zh) * | 2015-08-14 | 2017-03-01 | 广东电网有限责任公司惠州供电局 | 一种配网自动化规划设计关联数据抽取与归集方法 |
CN107169073A (zh) * | 2017-05-09 | 2017-09-15 | 北京智行创远信息科技有限公司 | 一种数据管理方法与管理平台 |
Also Published As
Publication number | Publication date |
---|---|
CN109656692A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Peng et al. | Optimus: an efficient dynamic resource scheduler for deep learning clusters | |
Reuther et al. | Scalable system scheduling for HPC and big data | |
Tantalaki et al. | A review on big data real-time stream processing and its scheduling techniques | |
CN109656692B (zh) | 一种大数据任务管理方法、装置、设备及存储介质 | |
US7779298B2 (en) | Distributed job manager recovery | |
US8914805B2 (en) | Rescheduling workload in a hybrid computing environment | |
US8739171B2 (en) | High-throughput-computing in a hybrid computing environment | |
Soualhia et al. | Task scheduling in big data platforms: a systematic literature review | |
Mei et al. | Fault-tolerant dynamic rescheduling for heterogeneous computing systems | |
Bridi et al. | A constraint programming scheduler for heterogeneous high-performance computing machines | |
Machi et al. | Scalable epidemiological workflows to support covid-19 planning and response | |
Liu et al. | A survey of scheduling frameworks in big data systems | |
Chandrashekar | Robust and fault-tolerant scheduling for scientific workflows in cloud computing environments. | |
Sahoo et al. | Efficient data and CPU-intensive job scheduling algorithms for healthcare cloud | |
Davami et al. | Fog-based architecture for scheduling multiple workflows with high availability requirement | |
Galleguillos et al. | AccaSim: a customizable workload management simulator for job dispatching research in HPC systems | |
Patan et al. | A novel performance aware real-time data handling for big data platforms on Lambda architecture | |
CN114896049A (zh) | 电力人工智能平台作业任务调度方法、系统、设备及介质 | |
Thain et al. | Abstractions for cloud computing with condor | |
Kraemer et al. | Reducing the number of response time service level objective violations by a cloud‐HPC convergence scheduler | |
Shehloo et al. | Factors affecting cloud data-center efficiency: a scheduling algorithm-based analysis | |
Mian et al. | Managing data-intensive workloads in a cloud | |
Seethalakshmi et al. | Job scheduling in big data-a survey | |
Banavar et al. | A formal model of service delivery | |
Ding et al. | Implement the grid workflow scheduling for data intensive applications with csf4 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231008 Address after: Building 8, ZTE Changsha R&D and Production Base, No. 103, Wanglong Road, Changsha High-tech Development Zone, Changsha, Hunan Province, 410000 Patentee after: Changsha Zhongxing Software Co.,Ltd. Address before: 518057 Zhongxing building, science and technology south road, Nanshan District hi tech Industrial Park, Guangdong, Shenzhen Patentee before: ZTE Corp. |