CN105955820A - 作业流控制方法、装置和系统 - Google Patents

作业流控制方法、装置和系统 Download PDF

Info

Publication number
CN105955820A
CN105955820A CN201610248931.2A CN201610248931A CN105955820A CN 105955820 A CN105955820 A CN 105955820A CN 201610248931 A CN201610248931 A CN 201610248931A CN 105955820 A CN105955820 A CN 105955820A
Authority
CN
China
Prior art keywords
job stream
control device
flow control
data
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610248931.2A
Other languages
English (en)
Inventor
肖华飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunhong Xinda Information Technology Co Ltd
Original Assignee
Beijing Yunhong Xinda Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunhong Xinda Information Technology Co Ltd filed Critical Beijing Yunhong Xinda Information Technology Co Ltd
Priority to CN201610248931.2A priority Critical patent/CN105955820A/zh
Publication of CN105955820A publication Critical patent/CN105955820A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种作业流控制方法,用于分布式作业流控制装置集群中的作业流控制装置,在接收作业流启动请求后,获取作业流模板数据和作业流初始化数据,然后根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据,之后,将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。通过本发明,任何一个作业流控制装置异常时,其他作业流控制装置可以从所述分布式内存集群中读取异常的作业流控制装置存储于所述分布式内存集群中的数据,并复原、执行其作业流,保证作业流顺利执行,以避免由于一个作业流控制装置异常就导致整个任务失败的问题。

Description

作业流控制方法、装置和系统
技术领域
本发明数据处理技术领域,具体涉及一种作业流控制方法,一种作业流控制装置,以及一种作业流控制系统。
背景技术
复杂作业流包括大量的作业及作业间的依赖关系。复杂作业流的控制需要占用大量系统资源,现有基于分布式架构实现复杂作业流控制的技术方案。但现有方案中,每个节点均需配置数据库,用于保存本节点在作业流执行过程中所需的数据,一旦有作业流控制节点发生异常,失去工作能力,就会导致其处理的任务失败,且无法挽回。
发明内容
针对现有技术中的上述缺陷,本发明提供一种作业流控制方法、一种作业流控制装置、以及一种作业流控制系统,以解决单一作业流控制节点发生异常导致的整个任务失败的问题。
第一方面,本申请提供一种作业流控制方法,用于分布式作业流控制装置集群中的作业流控制装置,包括:
接收作业流启动请求;
根据所述作业流启动请求,获取作业流模板数据和作业流初始化数据;
根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据;
将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。
可选的,在所述根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据后,还包括:
在作业流执行过程中,实时生成作业流实时状态数据;
将所述作业流实时状态数据发送给所述分布式内存集群进行存储。
可选的,所述作业流控制方法,还包括:
向负载控制装置或其他作业流控制装置发送心跳信息。
可选的,所述作业流控制方法,还包括:
获取所述分布式作业流控制装置集群中其他作业流控制装置的状态信息;
在根据所述状态信息获知所述分布式作业流控制装置集群中有至少一个异常的作业流控制装置后,与所述分布式作业流控制装置集群中的其他正常的作业流控制装置共同通过选举方式选举出至少一个正常的作业流控制装置接续所述异常的作业流控制装置的作业流。
可选的,所述作业流控制方法,还包括:
在被选举为接续所述异常的作业流控制装置的作业流的作业流控制装置后,从所述分布式内存集群中读取所述异常的作业流控制装置存储的数据;
根据所述数据复原所述异常的作业流控制装置的作业流并继续执行所述作业流。
第二方面,本发明提供一种作业流控制装置,包括:
启动请求接收模块,用于接收作业流启动请求;
初始数据获取模块,用于根据所述作业流启动请求,获取作业流模板数据和作业流初始化数据;
实例化模块,用于根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据;
数据发送模块,用于将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。
可选的,所述作业流控制装置,还包括:
实时数据生成模块,用于在作业流执行过程中,实时生成作业流实时状态数据;
实时数据发送模块,用于将所述作业流实时状态数据发送给所述分布式内存集群进行存储。
可选的,所述作业流控制装置,还包括:
心跳信息发送模块,用于向负载控制装置或其他作业流控制装置发送心跳信息。
可选的,所述作业流控制装置,还包括:
状态信息获取模块,用于获取所述分布式作业流控制装置集群中其他作业流控制装置的状态信息;
选举模块,用于在根据所述状态信息获知所述分布式作业流控制装置集群中有至少一个异常的作业流控制装置后,与所述分布式作业流控制装置集群中的其他正常的作业流控制装置共同通过选举方式选举出至少一个正常的作业流控制装置接续所述异常的作业流控制装置的作业。
第三方面,本发明提供一种作业流控制系统,包括:分布式作业流控制装置集群和分布式内存集群;
所述分布式作业流控制装置集群中包括多个作业流控制装置,所述分布式内存集群中包括多个内存,所述多个作业流控制装置与所述多个内存一一对应连接;
其中,所述作业流控制装置执行本发明提供的任一项所述的作业流控制方法。
与现有技术相比,本发明具有以下优点:
本发明提供的作业流控制方法,用于分布式作业流控制装置集群中的作业流控制装置,在接收作业流启动请求后,获取作业流模板数据和作业流初始化数据,然后根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据,之后,将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。相较于现有的将数据储存于为每个作业流控制装置单独配置的数据库中的方式,本发明中,将数据存储于分布式内存集群中,由于分布式内存集群的特性之一在于数据同时储存于多个内存中,且所述作业流模板数据、作业流初始化数据和作业流实例数据等是足以能够复原所述作业流控制装置执行的作业流的数据,因此,任何一个作业流控制装置异常时,其他作业流控制装置可以从所述分布式内存集群中读取异常的作业流控制装置存储于所述分布式内存集群中的数据,并复原、执行其作业流,保证作业流顺利执行,以避免由于一个作业流控制装置异常就导致整个任务失败的问题。
进一步的,通过在作业流执行过程中将作业流实时状态数据发送给所述分布式内存集群,可以保证当某一作业流控制装置异常时,其他作业流控制装置可以根据所述作业流实时状态数据复原异常的所述作业流控制装置的作业流至最新状态,避免从作业流初始状态开始执行而导致的系统资源浪费,以及提高任务执行效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。
图1示出了本发明提供的一种作业流控制方法实施例的流程图;
图2示出了本发明提供的一种作业流控制装置实施例的结构示意图;
图3示出了本发明提供的一种作业流控制系统第一实施例的结构示意图;
图4示出了本发明提供的一种作业流控制系统第二实施例的结构示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
现有基于分布式架构实现复杂作业流控制的技术方案中,每个节点均需配置数据库(分布式构架中的节点是指具有独立运算能力的处理装置,如处理器、计算机、服务器等都可称为节点),用于保存本节点在作业流执行过程中所需的数据,一旦有作业流控制节点发生异常,失去工作能力,就会导致其处理的任务失败(多个作业流整体上可以视为任务),且无法挽回,鉴于上述问题,本发明提供一种作业流控制方法、一种作业流控制装置、以及一种作业流控制系统,以解决单一作业流控制节点发生异常导致的整个任务失败的问题,下面结合附图对本发明的实施例进行说明。
请参考图1,其为本发明提供的一种作业流控制方法实施例的流程图,该方法的执行主体为分布式作业流控制装置集群中的作业流控制装置,所述作业流控制方法包括以下步骤:
步骤S101:接收作业流启动请求;
本步骤,作业流控制装置接收作业流启动请求,以根据所述作业流启动请求启动相应的作业流,所述作业流由一组互相依赖、关联的作业组成,所述作业本质上是可供处理器处理的业务。本发明中,所述作业流启动请求可以由任务管理单元如负载控制装置等发送,负载控制装置根据任务的运算量和各个作业流控制装置的负载情况,将任务分解为多个任务流发送到多个作业流控制装置进行处理。
步骤S102:根据所述作业流启动请求,获取作业流模板数据和作业流初始化数据。
本步骤,作业流控制装置根据所述作业流启动请求,获取执行作业流所需的作业流模板数据和作业流初始化数据,其中,作业流模板是根据业务处理的需求,将不同的业务处理定义为不同的作业,根据业务处理的流程,将不同作业之间的接续、依赖、关联等关系使用DAG(有向无环图)的方式进行表述而形成的模板,所述作业流模板数据即为用于描述所述作业流模板的数据,可以采用JSON格式进行表述;所述作业流初始化数据是对所述作业流模板的输入数据,例如:输入文件路径、输入业务参数、作业调度时间、作业调度策略参数等。
在本申请提供的一个实施例中,所述作业流启动请求中包含有所述作业流模板数据和作业流初始化数据,在本步骤中,解析所述作业流启动请求,即可获取所述作业流模板数据和作业流初始化数据。
以上实施例中提供了一种获取作业流模板数据和作业流初始化数据的实施方式,容易想到的是,所述作业流模板数据和作业流初始化数据也可以不随所述作业流启动请求传输,也可以是在所述作业流启动请求中携带所述作业流模板数据和作业流初始化数据的线索信息,所述作业流控制装置根据所述线索信息,到相应的数据库中调取相应的作业流模板数据和作业流初始化数据。以上为本申请的变更实施方式,除此之外,现有技术中其他的变更实施方式,也在本申请的保护范围之内,此处不再一一赘述。
步骤S103:根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据。
在通过步骤S102,获取作业流模板数据和作业流初始化数据后,所述作业流控制装置即可根据所述作业流初始化数据对所述作业流模板数据进行实例化,在实例化过程中,会产生作业流实例数据,如作业流实例标识号、作业流模板中的每个作业模板的实例化数据,例如作业实例标识号、作业类型、作业执行参数、作业执行策略等数据。
步骤S104:将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。
所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据共同构成了作业流在所述作业流控制装置中执行时的初始完整信息,此时,将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储,由于分布式内存集群的特性之一在于数据同时储存于多个内存中,如此,若所述作业流控制装置在执行所述作业流时异常,失去工作能力,所述分布式作业流控制装置集群中其他正常的作业流控制装置即可从所述分布式内存集群中读取上述数据,并根据上述数据完整的复原所述作业流,并执行所述作业流,从而保证所有作业流能够全部完成,解决现有技术中一个作业流控制节点异常就会导致整个任务失败的问题。
其中,所述分布式内存集群是通过虚拟化技术,将多个位于不同计算机或服务器上的内存集中起来组成的内存资源池。同一数据在所述分布式内存集群中会保存多份,任何一台计算机或服务器故障,其他计算机或服务器上还有备份数据,不用担心数据丢失,而且一般会有磁盘数据作为备份。
至此,通过步骤S101至步骤S104,完成了本发明提供的一种作业流控制方法实施例的流程。
相较于现有的将数据储存于为每个作业流控制装置单独配置的数据库中的方式,本发明中,将数据存储于分布式内存集群中,由于分布式内存集群的特性之一在于数据同时储存于多个内存中,且所述作业流模板数据、作业流初始化数据和作业流实例数据等是足以能够复原所述作业流控制装置执行的作业流的数据,因此,任何一个作业流控制装置异常时,其他作业流控制装置可以从所述分布式内存集群中读取异常的作业流控制装置存储于所述分布式内存集群中的数据,并复原、执行其作业流,保证作业流顺利执行,以避免由于一个作业流控制装置异常就导致整个任务失败的问题。
考虑到通过上述步骤S101至步骤S104,只能将作业流复原到作业流执行初始阶段,对于作业流执行过程中作业流控制装置异常的情形,在复原后只能重新执行,这样会存在较大的资源浪费,同时降低整个任务的执行效率,因此,在本申请提供的一个实施例中,在所述根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据后,还包括:
在作业流执行过程中,实时生成作业流实时状态数据;
将所述作业流实时状态数据发送给所述分布式内存集群进行存储。
其中,所述作业流实时状态数据,包括作业流正在执行的作业节点标识、当前作业的执行状态信息、以及已经执行完成的作业状态信息等。
这样,通过在作业流执行过程中将作业流实时状态数据发送给所述分布式内存集群,可以保证当某一作业流控制装置异常时,其他作业流控制装置可以根据所述作业流实时状态数据复原异常的所述作业流控制装置的作业流至最新状态,避免从作业流初始状态开始执行而导致的系统资源浪费,以及提高任务执行效率。
为了在所述分布式作业流控制装置集群中的某一个或多个作业流控制装置异常时,其他正常的作业流控制装置能够获知异常信息进而复原、接续其作业流,在本申请提供的一个实施例中,所述作业流控制装置通过心跳保持机制传递其状态信息如异常、掉线等,所述的作业流控制方法,还包括:
向负载控制装置或其他作业流控制装置发送心跳信息。
以上提供了两种实施方式,一种是在有负载控制装置的情形下,向所述负载控制装置发送心跳信息,所述心跳信息是每隔预定时间间隔发送的信息,所述负载控制装置根据所述心跳信息判断所述作业流控制装置的状态,如,在设定的时间阈值内不能接收到某一作业流控制装置的心跳信息,即可判断所述作业流控制装置掉线或异常,所述负载控制装置在获知某一作业流控制装置异常时,即可通知一个正常的作业流控制装置复原、接续其作业流;另一种是不通过所述负载控制装置,由所述分布式作业流控制装置集群中的作业流控制装置接收心跳信息,并根据所述心跳信息判断是否有作业流控制装置异常。以上仅示例性提供了两种实施方式,此外,现有技术中其他的变更实施方式,也在本申请的保护范围之内,此处不再一一赘述。
当所述分布式作业流控制装置集群中的某一个或多个作业流控制装置异常时,需要其他正常的作业流控制装置复原、接续其工作流,在本申请提供的一个实施例中,所述作业流控制方法,还包括:
获取所述分布式作业流控制装置集群中其他作业流控制装置的状态信息;
在根据所述状态信息获知所述分布式作业流控制装置集群中有至少一个异常的作业流控制装置后,与所述分布式作业流控制装置集群中的其他正常的作业流控制装置共同通过选举方式选举出至少一个正常的作业流控制装置接续所述异常的作业流控制装置的作业流。
其中,所述获取所述分布式作业流控制装置集群中其他作业流控制装置的状态信息,可以是从所述负载控制装置获取,也可以是根据接收的心跳信息进行判断获知,所述分布式作业流控制装置集群通过选举方式选举出正常的作业流控制装置进行接续,其中,所述选举方式可以通过分布式选举算法实施,如bully算法、环算法等,此均为现有技术中的成熟技术,此处不再一一赘述,其均在本申请的保护范围之内。
在本申请提供的一个实施例中,所述作业流控制方法,还包括:
在被选举为接续所述异常的作业流控制装置的作业流的作业流控制装置后,从所述分布式内存集群中读取所述异常的作业流控制装置存储的数据;
根据所述数据复原所述异常的作业流控制装置的作业流并继续执行所述作业流。本实施例示例性说明了所述作业流控制装置接续其他作业流控制装置的作业流的方式,其中,所述异常的作业流控制装置存储的数据包括作业流模板数据、作业流初始化数据、作业流实例数据和作业流实时状态数据等,所述作业流控制装置根据上述数据即可复原相应的作业流并接续执行所述作业流。
在上述的实施例中,提供了一种作业流控制方法,与之相对应的,本申请还提供一种作业流控制装置。请参考图2,其为本发明提供的一种作业流控制装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本发明提供的一种作业流控制装置实施例,包括:启动请求接收模块101,用于接收作业流启动请求;
初始数据获取模块102,用于根据所述作业流启动请求,获取作业流模板数据和作业流初始化数据;
实例化模块103,用于根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据;
数据发送模块104,用于将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。
在本申请提供的一个实施例中,所述作业流控制装置,还包括:
实时数据生成模块,用于在作业流执行过程中,实时生成作业流实时状态数据;
实时数据发送模块,用于将所述作业流实时状态数据发送给所述分布式内存集群进行存储。
在本申请提供的一个实施例中,所述作业流控制装置,还包括:
心跳信息发送模块,用于向负载控制装置或其他作业流控制装置发送心跳信息。
在本申请提供的一个实施例中,所述作业流控制装置,还包括:
状态信息获取模块,用于获取所述分布式作业流控制装置集群中其他作业流控制装置的状态信息;
选举模块,用于在根据所述状态信息获知所述分布式作业流控制装置集群中有至少一个异常的作业流控制装置后,与所述分布式作业流控制装置集群中的其他正常的作业流控制装置共同通过选举方式选举出至少一个正常的作业流控制装置接续所述异常的作业流控制装置的作业。
在本申请提供的一个实施例中,所述作业流控制装置,还包括:
数据读取模块,用于在被选举为接续所述异常的作业流控制装置的作业流的作业流控制装置后,从所述分布式内存集群中读取所述异常的作业流控制装置存储的数据;
作业流复原模块,用于根据所述数据复原所述异常的作业流控制装置的作业流并继续执行所述作业流。
以上,为本发明提供的一种作业流控制装置实施例说明。
本发明还提供一种作业流控制系统,包括:分布式作业流控制装置集群和分布式内存集群;
所述分布式作业流控制装置集群中包括多个作业流控制装置,所述分布式内存集群中包括多个内存,所述多个作业流控制装置与所述多个内存一一对应连接;
其中,所述作业流控制装置执行本申请提供的任一项作业流控制方法。
请参考图3和图4,其分别为本发明提供的一种作业流控制系统第一实施例的结构示意图和本发明提供的一种作业流控制系统第二实施例的结构示意图,两者的差别在于第二实施例中含有负载控制装置,用于根据任务的运算量和各个作业流控制装置的负载情况,进行任务的分解、作业流的分配等,所述作业流控制装置可以是CPU等处理器,由于所述作业流控制装置执行本申请提供的任一项作业流控制方法,因此,相关之处不再赘述,请参考上述作业流控制方法实施例的说明进行理解。
需要说明的是,本发明附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的作业流控制装置可以是计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种作业流控制方法,用于分布式作业流控制装置集群中的作业流控制装置,其特征在于,包括:
接收作业流启动请求;
根据所述作业流启动请求,获取作业流模板数据和作业流初始化数据;
根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据;
将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。
2.根据权利要求1所述的作业流控制方法,其特征在于,在所述根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据后,还包括:
在作业流执行过程中,实时生成作业流实时状态数据;
将所述作业流实时状态数据发送给所述分布式内存集群进行存储。
3.根据权利要求1或2所述的作业流控制方法,其特征在于,还包括:
向负载控制装置或其他作业流控制装置发送心跳信息。
4.根据权利要求1或2所述的作业流控制方法,其特征在于,还包括:
获取所述分布式作业流控制装置集群中其他作业流控制装置的状态信息;
在根据所述状态信息获知所述分布式作业流控制装置集群中有至少一个异常的作业流控制装置后,与所述分布式作业流控制装置集群中的其他正常的作业流控制装置共同通过选举方式选举出至少一个正常的作业流控制装置接续所述异常的作业流控制装置的作业流。
5.根据权利要求4所述的作业流控制方法,其特征在于,还包括:
在被选举为接续所述异常的作业流控制装置的作业流的作业流控制装置后,从所述分布式内存集群中读取所述异常的作业流控制装置存储的数据;
根据所述数据复原所述异常的作业流控制装置的作业流并继续执行所述作业流。
6.一种作业流控制装置,其特征在于,包括:
启动请求接收模块,用于接收作业流启动请求;
初始数据获取模块,用于根据所述作业流启动请求,获取作业流模板数据和作业流初始化数据;
实例化模块,用于根据所述作业流初始化数据对所述作业流模板数据进行实例化,并生成作业流实例数据;
数据发送模块,用于将所述作业流模板数据、所述作业流初始化数据和所述作业流实例数据发送给分布式内存集群进行存储。
7.根据权利要求6所述的作业流控制装置,其特征在于,还包括:
实时数据生成模块,用于在作业流执行过程中,实时生成作业流实时状态数据;
实时数据发送模块,用于将所述作业流实时状态数据发送给所述分布式内存集群进行存储。
8.根据权利要求6或7所述的作业流控制装置,其特征在于,还包括:
心跳信息发送模块,用于向负载控制装置或其他作业流控制装置发送心跳信息。
9.根据权利要求6或7所述的作业流控制装置,其特征在于,还包括:
状态信息获取模块,用于获取所述分布式作业流控制装置集群中其他作业流控制装置的状态信息;
选举模块,用于在根据所述状态信息获知所述分布式作业流控制装置集群中有至少一个异常的作业流控制装置后,与所述分布式作业流控制装置集群中的其他正常的作业流控制装置共同通过选举方式选举出至少一个正常的作业流控制装置接续所述异常的作业流控制装置的作业。
10.一种作业流控制系统,其特征在于,包括:分布式作业流控制装置集群和分布式内存集群;
所述分布式作业流控制装置集群中包括多个作业流控制装置,所述分布式内存集群中包括多个内存,所述多个作业流控制装置与所述多个内存一一对应连接;
其中,所述作业流控制装置执行权利要求1至权利要求5任一项所述的作业流控制方法。
CN201610248931.2A 2016-04-20 2016-04-20 作业流控制方法、装置和系统 Pending CN105955820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610248931.2A CN105955820A (zh) 2016-04-20 2016-04-20 作业流控制方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610248931.2A CN105955820A (zh) 2016-04-20 2016-04-20 作业流控制方法、装置和系统

Publications (1)

Publication Number Publication Date
CN105955820A true CN105955820A (zh) 2016-09-21

Family

ID=56917766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610248931.2A Pending CN105955820A (zh) 2016-04-20 2016-04-20 作业流控制方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105955820A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228328A (zh) * 2018-01-05 2018-06-29 北京奇艺世纪科技有限公司 一种流任务实现方法、装置及电子设备
CN109101191A (zh) * 2018-06-21 2018-12-28 东软集团股份有限公司 数据存储方法、装置和存储介质以及电子设备
CN109117285A (zh) * 2018-07-27 2019-01-01 高新兴科技集团股份有限公司 支持高并发的分布式内存计算集群系统
CN110321209A (zh) * 2019-06-28 2019-10-11 北京奇艺世纪科技有限公司 一种任务数据处理方法、装置及电子设备
CN111782389A (zh) * 2020-06-22 2020-10-16 中科边缘智慧信息科技(苏州)有限公司 机动边缘信息服务网络下的任务调度系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467411A (zh) * 2010-11-19 2012-05-23 金蝶软件(中国)有限公司 一种工作流处理及工作流代理方法、装置和系统
CN102929709A (zh) * 2011-08-08 2013-02-13 阿里巴巴集团控股有限公司 任务流异常的处理方法及装置
CN104102949A (zh) * 2014-06-27 2014-10-15 北京奇艺世纪科技有限公司 一种分布式工作流装置及其处理工作流的方法
CN105183738A (zh) * 2015-03-23 2015-12-23 江苏南开之星软件技术有限公司 一种基于血统和检测点技术的分布式内存文件系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467411A (zh) * 2010-11-19 2012-05-23 金蝶软件(中国)有限公司 一种工作流处理及工作流代理方法、装置和系统
CN102929709A (zh) * 2011-08-08 2013-02-13 阿里巴巴集团控股有限公司 任务流异常的处理方法及装置
CN104102949A (zh) * 2014-06-27 2014-10-15 北京奇艺世纪科技有限公司 一种分布式工作流装置及其处理工作流的方法
CN105183738A (zh) * 2015-03-23 2015-12-23 江苏南开之星软件技术有限公司 一种基于血统和检测点技术的分布式内存文件系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228328A (zh) * 2018-01-05 2018-06-29 北京奇艺世纪科技有限公司 一种流任务实现方法、装置及电子设备
CN108228328B (zh) * 2018-01-05 2020-11-06 北京奇艺世纪科技有限公司 一种流任务实现方法、装置及电子设备
CN109101191A (zh) * 2018-06-21 2018-12-28 东软集团股份有限公司 数据存储方法、装置和存储介质以及电子设备
CN109101191B (zh) * 2018-06-21 2021-07-16 东软集团股份有限公司 数据存储方法、装置和存储介质以及电子设备
CN109117285A (zh) * 2018-07-27 2019-01-01 高新兴科技集团股份有限公司 支持高并发的分布式内存计算集群系统
CN109117285B (zh) * 2018-07-27 2021-12-28 高新兴科技集团股份有限公司 支持高并发的分布式内存计算集群系统
CN110321209A (zh) * 2019-06-28 2019-10-11 北京奇艺世纪科技有限公司 一种任务数据处理方法、装置及电子设备
CN111782389A (zh) * 2020-06-22 2020-10-16 中科边缘智慧信息科技(苏州)有限公司 机动边缘信息服务网络下的任务调度系统及方法

Similar Documents

Publication Publication Date Title
CN105955820A (zh) 作业流控制方法、装置和系统
US8959509B1 (en) Techniques for virtual machine backup scheduling
AU2011299337B2 (en) Controlled automatic healing of data-center services
CN107943555B (zh) 一种云计算环境下的大数据存储和处理平台及处理方法
US8862933B2 (en) Apparatus, systems and methods for deployment and management of distributed computing systems and applications
CN110888719A (zh) 一种基于web服务的分布式任务调度系统及方法
CN107407918A (zh) 利用app扩展可编程逻辑控制器
CN113569987A (zh) 模型训练方法和装置
CN106572137B (zh) 一种分布式服务资源管理方法和装置
CN105912387A (zh) 数据处理作业调度方法及装置
Ladj et al. IPro-GA: an integrated prognostic based GA for scheduling jobs and predictive maintenance in a single multifunctional machine
CN110611707A (zh) 一种任务调度的方法及装置
CN115297124B (zh) 一种系统运维管理方法、装置及电子设备
US8332069B2 (en) Fault tolerance method and apparatus for robot software component
CN111158800B (zh) 基于映射关系构建任务dag的方法及装置
WO2009045526A1 (en) A method for implementing highly available parallel operations on a computational grip
CN110114732A (zh) 可编程控制器、管理装置和控制系统
CN105893122A (zh) 数据处理作业调度方法、装置及系统
CN113312147B (zh) 一种对象存储跨集群海量数据迁移方法及系统
CN110019144A (zh) 一种大数据平台数据运维的方法和系统
CN112580816A (zh) 机器学习训练资源管理
CN106598726A (zh) 一种多任务管理系统及其分布式部署方法
US8291419B2 (en) Fault tolerant system for execution of parallel jobs
WO2021220616A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに分散学習システム
CN113342499B (zh) 分布式任务调用方法、装置、设备、存储介质、程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160921

RJ01 Rejection of invention patent application after publication