CN107025136A - 一种去中心化资源调度方法及系统 - Google Patents

一种去中心化资源调度方法及系统 Download PDF

Info

Publication number
CN107025136A
CN107025136A CN201610063947.6A CN201610063947A CN107025136A CN 107025136 A CN107025136 A CN 107025136A CN 201610063947 A CN201610063947 A CN 201610063947A CN 107025136 A CN107025136 A CN 107025136A
Authority
CN
China
Prior art keywords
resource
node
scheduling
decentralization
regulating method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610063947.6A
Other languages
English (en)
Inventor
孙利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610063947.6A priority Critical patent/CN107025136A/zh
Priority to PCT/CN2016/076997 priority patent/WO2017128507A1/zh
Publication of CN107025136A publication Critical patent/CN107025136A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种去中心化资源调度方法及系统,其中,去中心化资源调度方法包括:利用集群接入节点接收作业;利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息;若不存在与所述资源调度节点信息相对应的资源调度节点,则生成所述资源调度节点,利用所述资源调度节点为所述作业调度资源。本方案通过动态生成资源调度节点,能消除作业并发容量的限制,达到比集群联合更强的作业承载能力;并且由于资源调度节点是动态生成的,所以可以根据集群实际资源总量,数据本地性,租户特定等情况动态调整,实现动态负载均衡,性能及租户特性等需求,较好的解决了现有技术中大量作业并发的问题。

Description

一种去中心化资源调度方法及系统
技术领域
本发明涉及并行计算技术领域,特别是指一种去中心化资源调度方法及系统。
背景技术
当前已经进入了大数据时代,大数据不光带来了信息产业的创新,还推动了传统产业自我价值的重新定位。
目前的大数据计算,主要有Yarn,Spark,Storm等。这些计算框架大部分都是主从结构。为了解决单点故障问题,会启动一个备资源调度节点以便主资源调度节点发生故障时能接管服务。但目前的架构中,同一时间,主备资源调度节点只有一个能正常提供服务。这样一来就会存在一个问题:当大量的作业需要在计算框架中并发运行时,资源调度节点面临的冲击将会很大,很可能出现内存溢出,作业资源调度异常等各种问题。
从大数据平台的应用发展趋势来看,目前主要有两种方向:一是基于开源的基础上自研大数据平台供内部使用;二是实现数据平台的物理支撑,以租户的方式提供大数据服务给众多的小厂商。这两种方向都会遇到上述的大量作业并发运行的问题。对于内部使用的数据平台来说还可以通过限制作业并发运行的数目来避免问题,但是对于以服务方式提供的数据平台来说,大量作业并发运行将是系统所必备的功能。
大量作业并发运行的问题尚未在各大数据计算框架中引起足够的重视,但是随着提供服务的大数据平台的推广,使用服务的租户的增长,大量作业并发的问题将很快成为一个亟待解决的问题。目前暂时也没有发现完整、系统化的方案提出,大概可行的方案有如下几种:
现有方法1:提升资源调度节点的机器性能,扩大资源调度角色的CPU,内存,网络资源。这样可以有限地提升资源调度节点的数据吞吐能力。
缺点:为了满足硬件的高配置要求,代价将会很高昂。而当并发作业数上万时,该节点的负载将会非常高,很容易出现异常,且主备切换也需要花费更多的时间。
现有方法2:使用多个大数据集群联合,在其上封装一个接口层,将作业负载均衡地分配到各集群上。该方法能较好地实现集群能力的横向扩展。
缺点:由于集群之间资源是隔离的,租户最多只能获得一个集群的所有资源,而集群联合的总资源往往是远远大于某一个集群的。
集群的数据源(通常是HDFS)往往是采用联邦方式实现的横向扩展。当作业需要处理的数据是跨越多个集群时,作业由于只在一个集群上得到资源调度,对于集群外的数据全都需要远程获取,本地性不够,加大网络负载。
由于存在多个集群,租户的资源使用率不好控制,普通租户和Vip租户的资源使用率如何避免集群差异的影响会比较复杂。
现有方法3:使用多个大数据集群联合,并提供一个作业控制模块。当收到提交的作业时将作业按策略分解为多个作业并分发到相应的数据集群进行计算。由于多个集群联合,资源调度模块有多个,作业的并发能力得到扩展。
缺点:作业控制模块对作业的分解将依赖于作业的具体业务,导致作业控制模块的逻辑有依赖性。
作业由于被分解成了多个子作业,如果业务逻辑还需要对数据进行汇总的话,势必还要一个汇总作业。复杂性比较高。
发明内容
本发明的目的在于提供一种去中心化资源调度方法及系统,解决现有技术中大量作业并发的问题。
为了解决上述技术问题,本发明实施例提供一种去中心化资源调度方法,包括:
利用集群接入节点接收作业;
利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息;
若不存在与所述资源调度节点信息相对应的资源调度节点,则生成所述资源调度节点,利用所述资源调度节点为所述作业调度资源。
可选地,在所述利用集群接入节点接收作业之前,所述去中心化资源调度方法还包括:
配置预设数量预启动的所述资源调度节点;
在系统启动时,启动配置的所述预设数量的所述资源调度节点。
可选地,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:
若预设时间段内生成的所述资源调度节点没有为另一作业调度资源,则自动关闭生成的所述资源调度节点。
可选地,所述利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息的步骤包括:
根据所述作业特征得到所述作业的数据本地性较好的资源调度节点集合;
根据所述用户特征得到资源的限制约束;
根据预设策略,结合所述当前资源负载情况、资源调度节点集合和资源的限制约束得到对应的资源调度节点信息。
可选地,所述生成所述资源调度节点的步骤包括:
利用所述资源调度策略节点随机选取一个隶属于所述资源调度节点的作业运算节点,并通知该作业运算节点启动一个容器来运行所述资源调度节点。
可选地,所述利用所述资源调度节点为所述作业调度资源的步骤包括:
利用所述资源调度节点向资源汇报节点进行注册,并接收所述资源汇报节点根据预定规则汇报的空闲资源;
利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度。
可选地,在所述利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度之前,所述去中心化资源调度方法还包括:
利用所述资源调度节点通知与所述空闲资源对应的作业运算节点启动容器运行所述作业控制节点。
可选地,所述去中心化资源调度方法还包括:
利用资源调度概览节点实时获取资源负载情况。
可选地,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:
利用作业控制节点将调度的资源分配给所述作业中具体的任务,并通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务。
可选地,在所述通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务之后,所述去中心化资源调度方法还包括:
在所述容器中的任务执行完毕后,利用所述作业运算节点通知所述作业控制节点关闭所述容器。
可选地,在所述利用所述作业运算节点通知所述作业控制节点关闭所述容器之后,所述去中心化资源调度方法还包括:
在所述作业中的所有任务均执行完毕后,利用所述作业控制节点通知所述资源调度节点资源释放,并向所述资源调度节点申请关闭所述作业控制节点。
可选地,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:
在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系。
可选地,所述在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系的步骤包括:
在所述资源重启后,启动所述资源的作业控制节点和资源汇报节点;
利用所述资源汇报节点通知所述资源调度概览节点所述资源可用;
利用所述资源调度概览节点依据所述资源的限制约束查找到对应的所述资源调度节点;
利用所述资源调度节点向所述资源的资源汇报节点进行注册,并接收所述资源的资源汇报节点根据预定规则汇报的空闲资源。
本发明还提供了一种去中心化资源调度系统,包括:
接收模块,用于利用集群接入节点接收作业;
第一处理模块,用于利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息;
第二处理模块,用于若不存在与所述资源调度节点信息相对应的资源调度节点,则生成所述资源调度节点,利用所述资源调度节点为所述作业调度资源。
可选地,所述去中心化资源调度系统还包括:
配置模块,用于在所述接收模块执行操作之前,配置预设数量预启动的所述资源调度节点;
启动模块,用于在系统启动时,启动配置的所述预设数量的所述资源调度节点。
可选地,所述去中心化资源调度系统还包括:
关闭模块,用于在所述第二处理模块执行操作之后,若预设时间段内生成的所述资源调度节点没有为另一作业调度资源,则自动关闭生成的所述资源调度节点。
可选地,所述第一处理模块包括:
第一处理子模块,用于根据所述作业特征得到所述作业的数据本地性较好的资源调度节点集合;
第二处理子模块,用于根据所述用户特征得到资源的限制约束;
第三处理子模块,用于根据预设策略,结合所述当前资源负载情况、资源调度节点集合和资源的限制约束得到对应的资源调度节点信息。
可选地,所述第二处理模块包括:
第四处理子模块,用于利用所述资源调度策略节点随机选取一个隶属于所述资源调度节点的作业运算节点,并通知该作业运算节点启动一个容器来运行所述资源调度节点。
可选地,所述第二处理模块包括:
第五处理子模块,用于利用所述资源调度节点向资源汇报节点进行注册,并接收所述资源汇报节点根据预定规则汇报的空闲资源;
调度子模块,用于利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度。
可选地,所述去中心化资源调度系统还包括:
第一通知模块,用于所述调度子模块执行操作之前,利用所述资源调度节点通知与所述空闲资源对应的作业运算节点启动容器运行所述作业控制节点。
可选地,所述去中心化资源调度系统还包括:
获取模块,用于利用资源调度概览节点实时获取资源负载情况。
可选地,所述去中心化资源调度系统还包括:
第三处理模块,用于所述第二处理模块执行操作之后,利用作业控制节点将调度的资源分配给所述作业中具体的任务,并通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务。
可选地,所述去中心化资源调度系统还包括:
第二通知模块,用于所述第三处理模块执行操作之后,在所述容器中的任务执行完毕后,利用所述作业运算节点通知所述作业控制节点关闭所述容器。
可选地,所述去中心化资源调度系统还包括:
第四处理模块,用于所述第二通知模块执行操作之后,在所述作业中的所有任务均执行完毕后,利用所述作业控制节点通知所述资源调度节点资源释放,并向所述资源调度节点申请关闭所述作业控制节点。
可选地,所述去中心化资源调度系统还包括:
建立模块,用于所述第二处理模块执行操作之后,在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系。
可选地,所述建立模块包括:
启动子模块,用于在所述资源重启后,启动所述资源的作业控制节点和资源汇报节点;
通知子模块,用于利用所述资源汇报节点通知所述资源调度概览节点所述资源可用;
查找子模块,用于利用所述资源调度概览节点依据所述资源的限制约束查找到对应的所述资源调度节点;
第六处理子模块,用于利用所述资源调度节点向所述资源的资源汇报节点进行注册,并接收所述资源的资源汇报节点根据预定规则汇报的空闲资源。
本发明的上述技术方案的有益效果如下:
上述方案中,所述去中心化资源调度方法通过动态生成资源调度节点,能消除作业并发容量的限制,达到比集群联合更强的作业承载能力;并且由于资源调度节点是动态生成的,所以可以根据集群实际资源总量,数据本地性,租户特定等情况动态调整,实现动态负载均衡,性能及租户特性等需求,较好的解决了现有技术中大量作业并发的问题。
附图说明
图1为本发明实施例一的去中心化资源调度方法流程示意图;
图2为本发明实施例一的各节点连接关系示意图;
图3为本发明实施例一的作业提交到动态资源调度节点流程示意图;
图4为本发明实施例一的资源汇报节点向多个资源调度节点汇报空闲资源流程示意图;
图5为本发明实施例一的宕机资源重启参与调度流程示意图;
图6为本发明实施例一的资源调度节点高可用性流程示意图;
图7为本发明实施例二的去中心化资源调度系统构成示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的技术中大量作业并发的问题,提供了多种解决方案,具体如下:
实施例一
如图1所示,本发明实施例一提供的去中心化资源调度方法包括:
步骤11:利用集群接入节点接收作业;
步骤12:利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息;
步骤13:若不存在与所述资源调度节点信息相对应的资源调度节点,则生成所述资源调度节点,利用所述资源调度节点为所述作业调度资源。
本发明实施例一提供的所述去中心化资源调度方法通过动态生成资源调度节点,能消除作业并发容量的限制,达到比集群联合更强的作业承载能力;并且由于资源调度节点是动态生成的,所以可以根据集群实际资源总量,数据本地性,租户特定等情况动态调整,实现动态负载均衡,性能及租户特性等需求,较好的解决了现有技术中大量作业并发的问题。
为了进一步提高运行性能,节省时间,在所述利用集群接入节点接收作业之前,所述去中心化资源调度方法还包括:配置预设数量预启动的所述资源调度节点;在系统启动时,启动配置的所述预设数量的所述资源调度节点。
进一步的,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:若预设时间段内生成的所述资源调度节点没有为另一作业调度资源,则自动关闭生成的所述资源调度节点。
具体的,所述利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息的步骤包括:根据所述作业特征得到所述作业的数据本地性较好的资源调度节点集合;根据所述用户特征得到资源的限制约束;根据预设策略,结合所述当前资源负载情况、资源调度节点集合和资源的限制约束得到对应的资源调度节点信息。
其中,所述生成所述资源调度节点的步骤包括:利用所述资源调度策略节点随机选取一个隶属于所述资源调度节点的作业运算节点,并通知该作业运算节点启动一个容器来运行所述资源调度节点。
考虑到本申请中一个作业运算节点可能对应于多个资源调度节点,本发明实施例中,所述利用所述资源调度节点为所述作业调度资源的步骤包括:利用所述资源调度节点向资源汇报节点进行注册,并接收所述资源汇报节点根据预定规则(涉及各资源调度节点的负载、权重)汇报的空闲资源;利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度。
进一步的,在所述利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度之前,所述去中心化资源调度方法还包括:利用所述资源调度节点通知与所述空闲资源对应的作业运算节点启动容器运行所述作业控制节点。
为了便于得到当前资源负载情况,本发明实施例中,所述去中心化资源调度方法还包括:利用资源调度概览节点实时获取资源负载情况。
为了方案的完整性,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:利用作业控制节点将调度的资源分配给所述作业中具体的任务,并通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务。
进一步的,在所述通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务之后,所述去中心化资源调度方法还包括:在所述容器中的任务执行完毕后,利用所述作业运算节点通知所述作业控制节点关闭所述容器。
更进一步的,在所述利用所述作业运算节点通知所述作业控制节点关闭所述容器之后,所述去中心化资源调度方法还包括:在所述作业中的所有任务均执行完毕后,利用所述作业控制节点通知所述资源调度节点资源释放,并向所述资源调度节点申请关闭所述作业控制节点。
考虑到资源可能出现宕机的情况,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系。
具体的,所述在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系的步骤包括:在所述资源重启后,启动所述资源的作业控制节点和资源汇报节点;利用所述资源汇报节点通知所述资源调度概览节点所述资源可用;利用所述资源调度概览节点依据所述资源的限制约束查找到对应的所述资源调度节点;利用所述资源调度节点向所述资源的资源汇报节点进行注册,并接收所述资源的资源汇报节点根据预定规则(涉及各资源调度节点的负载、权重)汇报的空闲资源。
下面对本发明实施例一提供的去中心化资源调度方法进行具体说明。
其中,主要涉及如下三个功能:
1.集群拓扑的维护:
集群新引入了集群接入代理角色。集群接入代理角色收集集群中所有的计算节点角色的信息,从而维护集群的拓扑结构。计算节点角色是通过心跳和集群接入代理角色保持连接的。集群接入代理角色还承担作业提交端的接入功能,当收到提交的作业时,根据作业特点和租户特点将作业提交到已存在的资源调度节点上或新建相应的资源调度节点。
2.资源调度节点的动态创建:
在现有的系统中资源调度节点是静态配置的,在系统启动时就运行起来。而本发明的系统中资源调度节点是动态创建的。
当集群接入代理角色发现需要新建资源调度节点时,其会根据该资源调度节点所属的计算节点角色列表中随机抽取一个节点,通知该节点启动一个容器来运行资源调度节点。资源调度节点运行后可以设置策略决定是否在空闲一段时间后自行销毁。
3.计算节点资源状态的选择性汇报:
一个计算节点可能归属于多个资源调度节点,为此其资源状态不能全部汇报给所有的资源调度节点。而应该根据资源调度节点之间的权重,分别汇报不同数量的资源。
主要涉及如下节点:
首先是现有资源调度方案运行中的已有节点:
1.资源调度节点:
为作业的运行提供资源调度的功能。该节点获取属下节点的资源汇报节点上报的资源,并根据既定的策略规则调度给作业运行。
2.作业控制节点:
资源调度节点收到作业请求后一旦有空闲资源,将会在资源对应的节点上启动一个作业控制节点。后续作业中任务的资源请求,任务的执行和容错等都由该作业控制节点完成。引入该节点的原因是为了降低资源调度节点的负荷,并且可以支持多种多样的作业类型。当作业完成后,该节点可在汇报资源调度节点后销毁。
3.作业运算节点:
负责接收作业控制节点的任务运算请求,并在申请的资源容器中运行。
为了实现资源调度角色的动态创建和销毁,及对作业提交端的屏蔽,本方案还需要如下节点:
4.集群接入节点:
负责收集集群中所有作业运算节点的服务可用状态,并在收到作业提交端请求时,根据作业特点和租户特点将作业提交到已存在的资源调度角色上或新建相应的资源调度角色。
5.资源调度概览节点:
负责获取当前运行中的所有资源调度节点的使用状况,并汇总为整个集群的使用信息。
6.资源调度策略节点:
负责根据作业特点和租户特点,并结合当前各资源调度节点的负载计算作业所对应的资源调度节点,如果该资源调度节点不存在,则先通知作业运算节点去创建一个。
7.资源汇报节点:
在现有的方案中资源汇报是由作业运算节点代为实现的,但是现在对于同一个作业运算节点来说,可能对应着多个资源调度节点,所以资源应该汇报给哪个资源调度节点将是需要决策的事情。为此本方案采用资源汇报节点结合各资源调度节点的负载,权重等策略方式将资源拆分汇报给各资源调度节点。
各节点角色之间的串联关系,如图2所示:
集群接入节点,资源调度概览节点,资源调度策略节点这三个节点存在于集群接入代理角色中。不考虑高可用的话,该角色可以只有一个。资源调度预览节点收集资源汇报节点的服务状态,了解计算节点的服务是否可用,从而得到集群总拓扑图。另外其还接收当前运行中的资源调度节点上报的该调度节点的使用信息,从而汇总得到集群总资源使用情况,和各租户的使用情况。集群接入节点收到作业提交请求,并提交给资源调度策略节点。资源调度策略节点将结合资源调度概览节点反馈的资源负载情况,作业特点及租户特点为作业分配已有的资源调度节点或新建资源调度节点。
资源汇报节点和作业运算节点处于计算节点角色中,且集群中的每个节点上都有一个该角色。资源汇报节点可以和资源调度概览节点交互,以告知该节点服务可用;还可以和多个资源调度节点交互,根据一定的策略将节点上的可用资源汇报给某个资源调度节点,以供其分配到具体的作业。作业运算节点负责接收容器运行请求,以请求中申请的资源运行一个容器,并在容器中运行作业的任务,或作业控制节点,或资源调度节点。
资源调度节点和作业控制节点一般都是临时的,有生命周期的。这两个节点都可以启动多个,并都是在作业运算节点启动的容器中运行。作业被提交后将通过集群接入节点,资源调度策略节点后转交到资源调度节点。资源调度节点再通知作业运算节点启动一个容器来运行作业控制节点,接下来就只负责资源的申请和分配。而作业控制节点运行后将负责作业中任务的运行依赖及容错等一系列事宜。
当作业提交端提交一个作业后,作业的运行流程主要包括以下步骤:
第一步:各节点的资源汇报节点向资源调度概览节点汇报节点服务可用情况,资源调度概览节点汇总得到集群的资源拓扑图。
第二步:集群接入节点收到作业提交请求,将检查作业的特点,获得其数据本地性较好的节点集合,再检查租户的特点,获得资源的限制约束,然后资源调度策略节点结合资源调度概览节点的资源使用情况,将作业分配到相应的资源调度节点上。如该调度节点不存在,资源调度策略节点随机选取该调度节点属下某个节点的作业运算节点,通知其启动一个容器来运行该资源调度节点。启动成功后,作业被转交到资源调度节点,且之后的作业提交端将直接和该资源调度节点联系,以减少集群接入节点的压力。
具体如图3所示,包括:
步骤31:作业提交;
步骤32:集群接入节点收到作业提交请求;
步骤33:资源调度策略节点根据作业特点、租户特点和当前资源负载状况计算出合适的资源调度节点;
步骤34:判断计算出的资源调度节点是否已存在,若是,进入步骤35,若否,进入步骤36;
步骤35:作业提交到合适的资源调度节点;
步骤36:通知该资源调度节点属下某一资源的作业运算节点启动容器来运行资源调度节点;
步骤37:判断该资源调度节点是否运行成功,若是,进入步骤38,若否,返回步骤36;
步骤38:通知资源调度策略节点,进入步骤35。
第三步:资源调度节点运行后向其属下的各资源汇报节点注册,各资源汇报节点在节点上有空闲资源时根据负载策略向其上注册的各资源调度节点汇报部分空闲资源。
具体如图4所示,包括:
步骤41:资源有空闲;
步骤42:判断资源是否归属于已有的资源调度节点,若否,进入步骤43,若是,进入步骤44;
步骤43:不处理,结束流程;
步骤44:计算各级资源调度列表的已满足资源比例;
步骤45:根据不同级别的权重换算为统一的已满足资源比例;
步骤46:选择已满足资源比例最小的队列分配资源;
步骤47:计算该级别队列中各资源调度节点的已满足资源比例;
步骤48:选择已满足资源比例最小的资源调度节点分配资源;
步骤49:判断是否仍有资源空闲,若是,返回步骤44,若否,结束流程。
第四步:资源调度节点在收到属下节点汇报的空闲资源时,将通知该资源对应节点的作业运算节点启动一个容器运行作业控制节点。
第五步:作业控制节点将根据切分的任务向资源调度节点申请资源。
第六步:资源调度节点在收到作业控制节点发来的资源请求时,一旦属下节点有空闲资源,将会将资源分配给作业控制节点。
第七步:作业控制节点收到资源后将分配到具体的任务,并通知该资源对应节点的作业运算节点启动容器来运行任务。
第八步:作业运算节点启动的容器中任务运行完毕后将会通知作业控制节点,并关闭容器。
第九步:作业的所有任务运行完毕后作业控制节点将会通知资源调度节点,并向调度节点申请关闭作业控制节点。
第十步:资源调度节点上的作业全部运行完成后,如是临时资源调度节点,且在一段时间内没有执行新的作业,将会自行关闭。
对于资源宕机的情况,本方案提供如图5所示的措施,包括:
步骤51:有资源加入;
步骤52:该资源的作业控制节点和资源汇报节点启动;
步骤53:资源汇报节点通知资源调度概览节点新资源服务可用;
步骤54:判断属下是否有资源调度节点规模不足;若否,进入步骤55,若是,进入步骤56;
步骤55:该资源等待资源调度概览节点分配给新的资源调度节点;
步骤56:判断该资源是否可归属于已有的资源调度节点,若是,进入步骤57,若否,返回步骤55;
步骤57:对应的资源调度节点去新增资源的资源汇报节点注册;
步骤58:新增资源向对应的资源调度节点汇报可用资源。
为了实现资源调度节点的高可用性,本方案提供如图6所示的措施,包括:
步骤61:作业提交;
步骤62:集群接入节点收到作业提交请求;
步骤63:资源调度策略节点根据作业特点、租户特点和当前资源负载状况计算出合适的主资源调度节点;
步骤64:在主资源调度节点不存在时,先启动该主资源调度节点;
步骤65:将作业提交到该主资源调度节点;
步骤66:判断对应的备资源调度节点是否正常,若是,进入步骤67,若否,进入步骤68;
步骤67:与主资源调度节点同步作业状态,并在主资源调度节点出现问题时,提供服务,升级为主资源调度节点,启用下一对应备资源调度节点,返回步骤66;
步骤68:在不同机房的资源上启动另一备用资源调度节点,返回步骤66。
综上可知,采用本发明实施例提供的方案,与现有方案相比,节点的扩展性更强,人工干预少,节点动态增加减少可以不停服务;集群计算的本地性较好,可以计算数据所在的节点群归属于一个资源调度节点进行计算;集群的资源利用率高,支持集中集群所有的资源来运行作业;集群的资源控制比较容易实现对多租户的支持。
下面继续对本发明实施例一提供的去中心化资源调度方法可实现的功能进行举例说明。
举例1:多租户资源约束
整个计算集群作为一个服务平台对外提供,可以在其上新建许多租户。租户之间可以有不同的优先级(如普通租户,VIP租户等),不同的优先级租户见资源的使用限制不同。比如限定普通租户最多使用10个节点的资源,VIP租户最多使用100个节点的资源。
当普通租户提交作业时,经过资源调度策略节点获得的资源调度节点属下最多只有10个节点。当VIP租户提交作业时,经过资源调度策略节点获得的资源调度节点属下最多只有100个节点。这样就可以保证VIP租户所能运行的最大资源要比普通租户大得多。甚至可以新建一种最高优先级的租户其提交作业可以使用到集群中所有节点的资源。而且由于资源调度节点属下的节点数目是可以动态增删的,很容易就可以扩展各租户可用资源最大限制。
由于运行中资源调度节点可能是很多个,因此其所属的节点很有可能存在重复,即一个计算节点对应多个资源调度节点。此时为了实现租户见得资源均衡,可以让计算节点的资源汇报节点在有空闲资源时拆分开向资源调度节点汇报。优先级相同的资源调度节点,保证其分配的资源量大致均衡,高优先级的资源调度节点将比低优先级的获得更多的资源分配量。
举例2:跨机房跨地域的集群部署
从整个集群的容错性考虑,将集群的硬件设备跨机房甚至跨地域部署,可以避免类似于停电,断网等一系列的故障,提升整个集群的健壮性。
为此可以考虑集群接入节点部署多个,作业端提交作业时轮询这几个接入节点的负载,一旦发现某个接入节点可用,且负载最小,就往该接入节点上提交作业。
由于接入节点只是用来接收作业申请,并通过资源调度策略节点按照一致的策略分配作业到某个资源调度节点。接入节点之间并不会相互影响,所以多个接入节点的引入不会对集群造成影响,且还能提升集群的接入能力。
当一个机房发生故障后,其他机房不受影响,仍能正常提供服务。该机房节点中可能有运行资源调度节点,这些资源调度节点保证高可用的方法如下:资源调度策略节点给作业分配资源调度节点时,同时选择一个不在同一机房的节点上启动一个备用资源调度节点,备用资源调度节点同步主资源调度节点中的作业状态,当主资源调度节点崩溃时接管过其下所有的作业,同时再向资源调度策略节点申请一个新的资源调度节点作为备用,且该备用资源调度节点在另外的机房节点上。
举例3:固定资源调度节点数目的大数据计算系统
由于资源调度节点如果是系统运行中动态生成的话,将会消耗一定的节点启动时间。如果对性能要求较高时,可以考虑固定资源调度节点的数目,并在系统启动时将所有资源调度节点全部运行起来。这样的话可以提升一些作业运行的性能,尤其是小作业的性能。
资源调度节点的数目可以是通过配置文件或命令的方式设置,并能动态生效。这样集群硬件扩容时可以不停服务很轻易地就实现集群的扩容。
举例4:支持多样化的资源调度节点
目前的大数据集群支持的资源调度节点只是固定好的一个,最多支持调度策略以插件的方式引入。而随着大数据技术的发展,目前已经出现了各种各样的资源调度节点能够在某些方面得到优化。而这些多样化地资源调度节点之前是无法同时运行于一个大数据集群的。现在通过资源调度节点动态创建功能,可以将多样化地调度节点同时运行起来。客户可以按照自己的喜好去使用相应的资源调度节点。
综上所述,本发明是要克服现有技术中存在的大量作业并发问题,提升集群的横向扩展能力和作业量扩展能力,并尽可能提供资源的利用率,负载的均衡性。
因此,提供了一种动态生成资源调度角色的方法,通过该角色的动态生成,能消除作业并发容量的限制,达到比集群联合更强的作业承载能力;并且由于资源调度角色是动态生成的,所以可以根据集群实际资源总量,数据本地性,租户特定等情况动态调整,实现动态负载均衡,性能及租户特性等需求。
实施例二
如图7所示,本发明实施例二提供的去中心化资源调度系统包括:
接收模块71,用于利用集群接入节点接收作业;
第一处理模块72,用于利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息;
第二处理模块73,用于若不存在与所述资源调度节点信息相对应的资源调度节点,则生成所述资源调度节点,利用所述资源调度节点为所述作业调度资源。
本发明实施例二提供的所述去中心化资源调度系统通过动态生成资源调度节点,能消除作业并发容量的限制,达到比集群联合更强的作业承载能力;并且由于资源调度节点是动态生成的,所以可以根据集群实际资源总量,数据本地性,租户特定等情况动态调整,实现动态负载均衡,性能及租户特性等需求,较好的解决了现有技术中大量作业并发的问题。
为了进一步提高运行性能,节省时间,所述去中心化资源调度系统还包括:配置模块,用于在所述接收模块执行操作之前,配置预设数量预启动的所述资源调度节点;启动模块,用于在系统启动时,启动配置的所述预设数量的所述资源调度节点。
进一步的,所述去中心化资源调度系统还包括:关闭模块,用于在所述第二处理模块执行操作之后,若预设时间段内生成的所述资源调度节点没有为另一作业调度资源,则自动关闭生成的所述资源调度节点。
具体的,所述第一处理模块包括:第一处理子模块,用于根据所述作业特征得到所述作业的数据本地性较好的资源调度节点集合;第二处理子模块,用于根据所述用户特征得到资源的限制约束;第三处理子模块,用于根据预设策略,结合所述当前资源负载情况、资源调度节点集合和资源的限制约束得到对应的资源调度节点信息。
其中,所述第二处理模块包括:第四处理子模块,用于利用所述资源调度策略节点随机选取一个隶属于所述资源调度节点的作业运算节点,并通知该作业运算节点启动一个容器来运行所述资源调度节点。
考虑到本申请中一个作业运算节点可能对应于多个资源调度节点,本发明实施例中,所述第二处理模块包括:第五处理子模块,用于利用所述资源调度节点向资源汇报节点进行注册,并接收所述资源汇报节点根据预定规则(涉及各资源调度节点的负载、权重)汇报的空闲资源;调度子模块,用于利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度。
进一步的,所述去中心化资源调度系统还包括:第一通知模块,用于所述调度子模块执行操作之前,利用所述资源调度节点通知与所述空闲资源对应的作业运算节点启动容器运行所述作业控制节点。
为了便于得到当前资源负载情况,本发明实施例中,所述去中心化资源调度系统还包括:获取模块,用于利用资源调度概览节点实时获取资源负载情况。
为了方案的完整性,所述去中心化资源调度系统还包括:第三处理模块,用于所述第二处理模块执行操作之后,利用作业控制节点将调度的资源分配给所述作业中具体的任务,并通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务。
进一步的,所述去中心化资源调度系统还包括:第二通知模块,用于所述第三处理模块执行操作之后,在所述容器中的任务执行完毕后,利用所述作业运算节点通知所述作业控制节点关闭所述容器。
更进一步的,所述去中心化资源调度系统还包括:第四处理模块,用于所述第二通知模块执行操作之后,在所述作业中的所有任务均执行完毕后,利用所述作业控制节点通知所述资源调度节点资源释放,并向所述资源调度节点申请关闭所述作业控制节点。
考虑到资源可能出现宕机的情况,所述去中心化资源调度系统还包括:建立模块,用于所述第二处理模块执行操作之后,在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系。
具体的,所述建立模块包括:启动子模块,用于在所述资源重启后,启动所述资源的作业控制节点和资源汇报节点;通知子模块,用于利用所述资源汇报节点通知所述资源调度概览节点所述资源可用;
查找子模块,用于利用所述资源调度概览节点依据所述资源的限制约束查找到对应的所述资源调度节点;第六处理子模块,用于利用所述资源调度节点向所述资源的资源汇报节点进行注册,并接收所述资源的资源汇报节点根据预定规则(涉及各资源调度节点的负载、权重)汇报的空闲资源。
其中,上述去中心化资源调度方法的所述实现实施例均适用于该去中心化资源调度系统的实施例中,也能达到相同的技术效果。
需要说明的是,此说明书中所描述的许多功能部件都被称为模块/子模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块/子模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (26)

1.一种去中心化资源调度方法,其特征在于,包括:
利用集群接入节点接收作业;
利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息;
若不存在与所述资源调度节点信息相对应的资源调度节点,则生成所述资源调度节点,利用所述资源调度节点为所述作业调度资源。
2.如权利要求1所述的去中心化资源调度方法,其特征在于,在所述利用集群接入节点接收作业之前,所述去中心化资源调度方法还包括:
配置预设数量预启动的所述资源调度节点;
在系统启动时,启动配置的所述预设数量的所述资源调度节点。
3.如权利要求1所述的去中心化资源调度方法,其特征在于,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:
若预设时间段内生成的所述资源调度节点没有为另一作业调度资源,则自动关闭生成的所述资源调度节点。
4.如权利要求1所述的去中心化资源调度方法,其特征在于,所述利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息的步骤包括:
根据所述作业特征得到所述作业的数据本地性较好的资源调度节点集合;
根据所述用户特征得到资源的限制约束;
根据预设策略,结合所述当前资源负载情况、资源调度节点集合和资源的限制约束得到对应的资源调度节点信息。
5.如权利要求1所述的去中心化资源调度方法,其特征在于,所述生成所述资源调度节点的步骤包括:
利用所述资源调度策略节点随机选取一个隶属于所述资源调度节点的作业运算节点,并通知该作业运算节点启动一个容器来运行所述资源调度节点。
6.如权利要求1所述的去中心化资源调度方法,其特征在于,所述利用所述资源调度节点为所述作业调度资源的步骤包括:
利用所述资源调度节点向资源汇报节点进行注册,并接收所述资源汇报节点根据预定规则汇报的空闲资源;
利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度。
7.如权利要求6所述的去中心化资源调度方法,其特征在于,在所述利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度之前,所述去中心化资源调度方法还包括:
利用所述资源调度节点通知与所述空闲资源对应的作业运算节点启动容器运行所述作业控制节点。
8.如权利要求1所述的去中心化资源调度方法,其特征在于,所述去中心化资源调度方法还包括:
利用资源调度概览节点实时获取资源负载情况。
9.如权利要求1所述的去中心化资源调度方法,其特征在于,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:
利用作业控制节点将调度的资源分配给所述作业中具体的任务,并通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务。
10.如权利要求9所述的去中心化资源调度方法,其特征在于,在所述通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务之后,所述去中心化资源调度方法还包括:
在所述容器中的任务执行完毕后,利用所述作业运算节点通知所述作业控制节点关闭所述容器。
11.如权利要求10所述的去中心化资源调度方法,其特征在于,在所述利用所述作业运算节点通知所述作业控制节点关闭所述容器之后,所述去中心化资源调度方法还包括:
在所述作业中的所有任务均执行完毕后,利用所述作业控制节点通知所述资源调度节点资源释放,并向所述资源调度节点申请关闭所述作业控制节点。
12.如权利要求1所述的去中心化资源调度方法,其特征在于,在所述利用所述资源调度节点为所述作业调度资源之后,所述去中心化资源调度方法还包括:
在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系。
13.如权利要求12所述的去中心化资源调度方法,其特征在于,所述在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系的步骤包括:
在所述资源重启后,启动所述资源的作业控制节点和资源汇报节点;
利用所述资源汇报节点通知所述资源调度概览节点所述资源可用;
利用所述资源调度概览节点依据所述资源的限制约束查找到对应的所述资源调度节点;
利用所述资源调度节点向所述资源的资源汇报节点进行注册,并接收所述资源的资源汇报节点根据预定规则汇报的空闲资源。
14.一种去中心化资源调度系统,其特征在于,包括:
接收模块,用于利用集群接入节点接收作业;
第一处理模块,用于利用资源调度策略节点根据当前资源负载情况和所述作业中的作业特征和用户特征得到对应的资源调度节点信息;
第二处理模块,用于若不存在与所述资源调度节点信息相对应的资源调度节点,则生成所述资源调度节点,利用所述资源调度节点为所述作业调度资源。
15.如权利要求14所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
配置模块,用于在所述接收模块执行操作之前,配置预设数量预启动的所述资源调度节点;
启动模块,用于在系统启动时,启动配置的所述预设数量的所述资源调度节点。
16.如权利要求14所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
关闭模块,用于在所述第二处理模块执行操作之后,若预设时间段内生成的所述资源调度节点没有为另一作业调度资源,则自动关闭生成的所述资源调度节点。
17.如权利要求14所述的去中心化资源调度系统,其特征在于,所述第一处理模块包括:
第一处理子模块,用于根据所述作业特征得到所述作业的数据本地性较好的资源调度节点集合;
第二处理子模块,用于根据所述用户特征得到资源的限制约束;
第三处理子模块,用于根据预设策略,结合所述当前资源负载情况、资源调度节点集合和资源的限制约束得到对应的资源调度节点信息。
18.如权利要求14所述的去中心化资源调度系统,其特征在于,所述第二处理模块包括:
第四处理子模块,用于利用所述资源调度策略节点随机选取一个隶属于所述资源调度节点的作业运算节点,并通知该作业运算节点启动一个容器来运行所述资源调度节点。
19.如权利要求14所述的去中心化资源调度系统,其特征在于,所述第二处理模块包括:
第五处理子模块,用于利用所述资源调度节点向资源汇报节点进行注册,并接收所述资源汇报节点根据预定规则汇报的空闲资源;
调度子模块,用于利用所述资源调度节点对作业控制节点根据切分的所述作业申请的资源进行调度。
20.如权利要求19所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
第一通知模块,用于所述调度子模块执行操作之前,利用所述资源调度节点通知与所述空闲资源对应的作业运算节点启动容器运行所述作业控制节点。
21.如权利要求14所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
获取模块,用于利用资源调度概览节点实时获取资源负载情况。
22.如权利要求14所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
第三处理模块,用于所述第二处理模块执行操作之后,利用作业控制节点将调度的资源分配给所述作业中具体的任务,并通知与调度的所述资源相对应的作业运算节点启动容器运行所述任务。
23.如权利要求22所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
第二通知模块,用于所述第三处理模块执行操作之后,在所述容器中的任务执行完毕后,利用所述作业运算节点通知所述作业控制节点关闭所述容器。
24.如权利要求23所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
第四处理模块,用于所述第二通知模块执行操作之后,在所述作业中的所有任务均执行完毕后,利用所述作业控制节点通知所述资源调度节点资源释放,并向所述资源调度节点申请关闭所述作业控制节点。
25.如权利要求14所述的去中心化资源调度系统,其特征在于,所述去中心化资源调度系统还包括:
建立模块,用于所述第二处理模块执行操作之后,在所述资源重启后,利用资源调度概览节点根据所述资源的限制约束重新与对应的所述资源调度节点建立关系。
26.如权利要求25所述的去中心化资源调度系统,其特征在于,所述建立模块包括:
启动子模块,用于在所述资源重启后,启动所述资源的作业控制节点和资源汇报节点;
通知子模块,用于利用所述资源汇报节点通知所述资源调度概览节点所述资源可用;
查找子模块,用于利用所述资源调度概览节点依据所述资源的限制约束查找到对应的所述资源调度节点;
第六处理子模块,用于利用所述资源调度节点向所述资源的资源汇报节点进行注册,并接收所述资源的资源汇报节点根据预定规则汇报的空闲资源。
CN201610063947.6A 2016-01-29 2016-01-29 一种去中心化资源调度方法及系统 Pending CN107025136A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610063947.6A CN107025136A (zh) 2016-01-29 2016-01-29 一种去中心化资源调度方法及系统
PCT/CN2016/076997 WO2017128507A1 (zh) 2016-01-29 2016-03-22 一种去中心化资源调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610063947.6A CN107025136A (zh) 2016-01-29 2016-01-29 一种去中心化资源调度方法及系统

Publications (1)

Publication Number Publication Date
CN107025136A true CN107025136A (zh) 2017-08-08

Family

ID=59397227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610063947.6A Pending CN107025136A (zh) 2016-01-29 2016-01-29 一种去中心化资源调度方法及系统

Country Status (2)

Country Link
CN (1) CN107025136A (zh)
WO (1) WO2017128507A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590001A (zh) * 2017-09-08 2018-01-16 北京京东尚科信息技术有限公司 负载均衡方法及装置、存储介质、电子设备
CN109656706A (zh) * 2018-12-25 2019-04-19 江苏满运软件科技有限公司 分布式任务调度方法、系统、设备以及介质
CN109814998A (zh) * 2019-01-22 2019-05-28 中国联合网络通信集团有限公司 一种多进程任务调度的方法及装置
CN109947556A (zh) * 2017-12-21 2019-06-28 北京比特大陆科技有限公司 任务分配方法
CN110381134A (zh) * 2019-07-18 2019-10-25 湖南快乐阳光互动娱乐传媒有限公司 调度方法、系统、调度器及cdn系统
CN110647400A (zh) * 2019-09-29 2020-01-03 成都安恒信息技术有限公司 一种基于正反馈的节点预热方法
CN110730238A (zh) * 2019-10-21 2020-01-24 中国民航信息网络股份有限公司 一种集群的调用系统、方法及装置
CN110928645A (zh) * 2019-11-21 2020-03-27 网易(杭州)网络有限公司 服务器维护方法、装置、存储介质、处理器及电子装置
CN111459641A (zh) * 2020-04-08 2020-07-28 广州欢聊网络科技有限公司 一种跨机房的任务调度和任务处理的方法及装置
CN111459666A (zh) * 2020-03-26 2020-07-28 北京金山云网络技术有限公司 任务派发方法、装置、任务执行系统和服务器
CN112968897A (zh) * 2021-02-25 2021-06-15 浙江清华长三角研究院 一种在去中心化系统中运行的容器计算方法
CN113806052A (zh) * 2021-09-24 2021-12-17 四川新网银行股份有限公司 一种去中心化的分布式定时任务处理方法
CN113849303A (zh) * 2021-08-30 2021-12-28 浪潮电子信息产业股份有限公司 一种多级联邦yarn集群的资源分配方法、装置、设备
WO2022105138A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 去中心化的任务调度方法、装置、设备及介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597614B (zh) * 2018-06-12 2023-11-21 阿里巴巴集团控股有限公司 一种资源调整方法及装置
CN112328383A (zh) * 2020-11-19 2021-02-05 湖南智慧畅行交通科技有限公司 基于优先权的作业并发控制及调度算法
CN112732437B (zh) * 2020-12-30 2023-08-22 科来网络技术股份有限公司 一种高效的动态均衡分布式任务调度方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930948B2 (en) * 2012-06-21 2015-01-06 Vmware, Inc. Opportunistically proactive resource management using spare capacity
CN102857577B (zh) * 2012-09-24 2015-10-28 北京联创信安科技有限公司 一种集群存储自动负载均衡的系统及方法
CN103812895A (zh) * 2012-11-12 2014-05-21 华为技术有限公司 调度方法、管理节点以及云计算集群
CN103414761B (zh) * 2013-07-23 2017-02-08 北京工业大学 一种基于Hadoop架构的移动终端云资源调度方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590001A (zh) * 2017-09-08 2018-01-16 北京京东尚科信息技术有限公司 负载均衡方法及装置、存储介质、电子设备
CN107590001B (zh) * 2017-09-08 2020-12-22 北京京东尚科信息技术有限公司 负载均衡方法及装置、存储介质、电子设备
CN109947556A (zh) * 2017-12-21 2019-06-28 北京比特大陆科技有限公司 任务分配方法
CN109656706A (zh) * 2018-12-25 2019-04-19 江苏满运软件科技有限公司 分布式任务调度方法、系统、设备以及介质
CN109814998A (zh) * 2019-01-22 2019-05-28 中国联合网络通信集团有限公司 一种多进程任务调度的方法及装置
CN110381134A (zh) * 2019-07-18 2019-10-25 湖南快乐阳光互动娱乐传媒有限公司 调度方法、系统、调度器及cdn系统
CN110647400B (zh) * 2019-09-29 2022-04-22 成都安恒信息技术有限公司 一种基于正反馈的节点预热方法
CN110647400A (zh) * 2019-09-29 2020-01-03 成都安恒信息技术有限公司 一种基于正反馈的节点预热方法
CN110730238A (zh) * 2019-10-21 2020-01-24 中国民航信息网络股份有限公司 一种集群的调用系统、方法及装置
CN110730238B (zh) * 2019-10-21 2022-07-05 中国民航信息网络股份有限公司 一种集群的调用系统、方法及装置
CN110928645A (zh) * 2019-11-21 2020-03-27 网易(杭州)网络有限公司 服务器维护方法、装置、存储介质、处理器及电子装置
CN111459666A (zh) * 2020-03-26 2020-07-28 北京金山云网络技术有限公司 任务派发方法、装置、任务执行系统和服务器
CN111459641A (zh) * 2020-04-08 2020-07-28 广州欢聊网络科技有限公司 一种跨机房的任务调度和任务处理的方法及装置
CN111459641B (zh) * 2020-04-08 2023-04-28 广州欢聊网络科技有限公司 一种跨机房的任务调度和任务处理的方法及装置
WO2022105138A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 去中心化的任务调度方法、装置、设备及介质
CN112968897A (zh) * 2021-02-25 2021-06-15 浙江清华长三角研究院 一种在去中心化系统中运行的容器计算方法
CN113849303A (zh) * 2021-08-30 2021-12-28 浪潮电子信息产业股份有限公司 一种多级联邦yarn集群的资源分配方法、装置、设备
CN113806052A (zh) * 2021-09-24 2021-12-17 四川新网银行股份有限公司 一种去中心化的分布式定时任务处理方法
CN113806052B (zh) * 2021-09-24 2023-06-06 四川新网银行股份有限公司 一种去中心化的分布式定时任务处理方法

Also Published As

Publication number Publication date
WO2017128507A1 (zh) 2017-08-03

Similar Documents

Publication Publication Date Title
CN107025136A (zh) 一种去中心化资源调度方法及系统
CN111966500B (zh) 资源调度方法、装置、电子设备及存储介质
CN109885389A (zh) 一种基于容器的并行深度学习调度训练方法及系统
CN101014036B (zh) 用于节点簇的分散应用程序资源分配的方法与系统
CN103778031B (zh) 一种云环境下的分布式系统多级故障容错方法
JP4304535B2 (ja) 情報処理装置及びこのプログラムと、モジュラー型システムの運用管理システムと、コンポーネント選択方法
CN111160873B (zh) 基于分布式架构的跑批处理装置及方法
CN103744734A (zh) 一种任务作业处理方法、装置及系统
CN103188161B (zh) 分布式数据加载调度方法与系统
CN104508634A (zh) 虚拟机的动态资源分配
CN114138434B (zh) 一种大数据任务调度系统
CN109739640A (zh) 一种基于申威架构的容器资源管理系统
CN105005506B (zh) 一种虚拟化云中容错资源供给方法
CN104977875A (zh) 具有同级间冗余性的控制器系统和操作该系统的方法
CN116777182B (zh) 半导体晶圆制造执行任务派工方法
WO2019056771A1 (zh) 分布式存储系统升级管理的方法、装置及分布式存储系统
CN110297867B (zh) 基于国产cpu和分布式容器集群的数据库集群运行方法及系统
US20160203026A1 (en) Processing a hybrid flow associated with a service class
CN112395269B (zh) MySQL高可用组的搭建方法及装置
CN116860463A (zh) 一种分布式自适应星载中间件系统
CN117909061A (zh) 基于gpu混合集群的模型任务处理系统和资源调度方法
CN101390056A (zh) 应用系统智能优化器
CN115250227A (zh) 一种边缘计算场景下实现故障迁移的调度系统
CN114546644A (zh) 集群资源调度方法、装置、软件程序、电子设备及存储介质
CN112416538B (zh) 一种分布式资源管理框架的多层次架构和管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170808

WD01 Invention patent application deemed withdrawn after publication