CN110636103A - 一种多异构集群作业统一调度方法及api接口 - Google Patents

一种多异构集群作业统一调度方法及api接口 Download PDF

Info

Publication number
CN110636103A
CN110636103A CN201910663907.9A CN201910663907A CN110636103A CN 110636103 A CN110636103 A CN 110636103A CN 201910663907 A CN201910663907 A CN 201910663907A CN 110636103 A CN110636103 A CN 110636103A
Authority
CN
China
Prior art keywords
job
cluster
user
scheduling
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910663907.9A
Other languages
English (en)
Other versions
CN110636103B (zh
Inventor
李江
钟康游
郭贵鑫
杜量
曹鹏
赵帅帅
杜云飞
卢宇彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201910663907.9A priority Critical patent/CN110636103B/zh
Publication of CN110636103A publication Critical patent/CN110636103A/zh
Application granted granted Critical
Publication of CN110636103B publication Critical patent/CN110636103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Stored Programmes (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种多异构集群作业统一调度方法,包括:S1、在多个集群上部署作业代理服务,作业代理服务统一不同作业调度系统的输入输出数据格式,提供统一数据接口视图;S2、在集群上层部署作业服务网关,其汇总管理多个作业代理服务,统一管理多个集群;S3、用户获得作业代理服务授权,并通过作业代理服务实现对集群的统一访问;S4、用户提交作业,作业服务网关按规则分配作业至特定集群,作业文件通过作业代理服务在本地和集群间或集群和集群间传输;S5、作业代理服务将请求转为集群内作业调度系统的命令执行,将结果转为统一的作业管理信息返回。实现了在多异构集群上的作业统一调度,简化了多异构集群作业调度的操作,充分利用了计算资源。

Description

一种多异构集群作业统一调度方法及API接口
技术领域
本发明涉及计算机领域,更具体地,涉及一种多异构集群作业统一调度方法及API接口。
背景技术
传统的高性能计算领域的调度系统主要是对单个集群的作业进行管理,用户通过命令行等工具将作业提交到指定的计算资源,由SLURM,PBS,LFS等调度系统为作业分配计算资源并提交计算。
但目前由于计算资源丰富程度和复制程度的提高,单个计算中心会存在多个不同结构的集群,且计算中心会持续的进行更新升级和购置新的集群,用户也会同时使用自己私有的计算集群和公共计算中心的资源。一方面,由于这些不同的计算集群采用不同配置或不同类型的作业调度系统,即多异构集群,在操作上给使用者增加复杂程度。且难以实现有针对性的利用已有的计算资源,造成了集群计算资源的浪费。另一方面,传统的命令行式的使用方式需要用户对每个计算集群和作业调度系统都有相当深入的了解才能有效的提交计算任务,在使用不同计算集群的过程中,操作的技术难度显著增加,多异构集群组成的计算中心难以被广泛应用,无法实现计算资源的充分利用,限制了计算资源利用技术的发展,阻碍了计算机处理、集群计算、计算机通信技术的发展。
发明内容
本发明旨在克服上述现有技术的至少一种不足,提供一种多异构集群作业统一调度方法,实现了在多异构集群上的作业统一调度,简化了多异构集群作业调度的操作,充分利用了计算资源;本发明的另一目的是提供了一种API接口,所述API接口应用于多异构集群的作业调度。
本发明采取的技术方案是,一种多异构集群作业统一调度方法,包括:
S1、在多个集群上部署作业代理服务,具体的,作业代理服务需部署于可以提交作业到对应集群的物理机或虚拟机上,作业代理服务统一不同作业调度系统的输入输出数据格式,并提供统一的数据接口视图;为了实现高效的作业执行,作业调度系统都会根据自身的调度算法对数据输入输出格式做规范化,而集群内或集群间并不一定采用统一的作业调度系统,其对应的数据输入输出格式也可能存在不同,所以不同作业调度系统之间的作业调度也会存在困难,为此,需要先采用作业代理服务统一不同作业调度系统的输入输出数据格式,方便集群内或集群间进行不同作业调度系统的数据传输。即通过在每个集群上部署作业代理服务,可以通过统一的API接口进行集群作业的创建和管理,避免不同数据格式、不同作业调度系统引起的兼容性问题。
S2、在集群的上层部署作业服务网关,所述作业服务网关汇总管理多个作业代理服务,实现多个集群的统一管理;所述作业代理服务是部署与单个集群上的,作为一种基础单元,在集群的上层部署作业服务网关,所述作业服务网关连接有多个作业代理服务,通过作业服务网关能够初步分配用户的作业,通过用户作业的需求或用户指定,作业服务网关根据集群状态信息以及对应的作业代理服务进行分配,从而实现对多个作业代理服务的统一管理和利用;作业服务网关中配置了所有可用的作业代理服务的信息,用户可以直接通过请求作业服务网关来调用所有可用的作业代理服务提供的接口,在实际处理用户请求的集群可以由用户指定,也可以由服务网关按照用户的需求进行筛选。作业服务网关除了能够路由多个作业代理服务的请求外,还可以在服务网关上配置用户的请求限流、负载均衡、请求审计、状态监控等辅助功能。
S3、用户获得作业代理服务授权,授权后的用户通过作业代理服务实现对各个集群的统一访问;若用户为多异构集群外的节点,则在提交作业前获得多异构集群内任意的作业代理服务授权或提交作业后获得特定集群内的作业代理服务授权。若用户为多异构集群其中一个集群的节点,则在提交作业请求前后均可通过当前集群的作业代理服务获得授权,或待分配后获得特定集群的作业代理服务授权。用户通过作业代理服务的授权后,由于作业代理服务的入口的统一性,授权用户得到暂时或永久的权限,以进行各个作业代理服务的访问,间接的对各个集群进行访问,达到了统一访问的效果,不需要每个集群单独授权。
S4、用户提交作业,作业服务网关按照特定规则将作业分配至特定集群,作业文件则通过作业代理服务在本地和集群之间或集群和集群之间传输;用户提交作业后,由于不同的集群具有不同的计算机资源、调度算法等,为了满足用户需求、实现高效的处理过程,需要根据特定规则选择对应的集群;在集群内特定节点的用户提交作业后,通过该集群下的作业代理服务,作业请求被提交至作业服务网关,同时,通过作业代理服务实现本地文件上传至服务器,在作业服务网关根据特定规则分配后,作业相关文件则通过作业代理服务之间的文件传输进入至分配处理作业的特定集群中。
S5、特定集群的作业代理服务将作业请求转换成集群内作业调度系统的命令执行,并将执行结果转换为统一的作业管理信息返回。特定集群的作业代理服务接收作业请求和文件,将该作业请求转换成集群内部作业调度系统的命令,并开始执行作业;作业处理完成后,基于作业代理服务统一作业调度系统的输入输出数据,需要将执行结果转换为统一的作业管理信息最终返回给用户。
步骤S1中每个集群部署有一个以上的作业代理服务,通过这种部署方式可以提高作业服务的可靠性,避免单点故障。同时,在部署过程中,不同集群的作业代理服务在配置存在不同,在配置过程中需要指定所代理的作业调度程序的类型、可用的存储系统、用户信息获取方案等,有助于每个集群上的作业代理服务对对应集群的顺利调度。同时,集群之间的作业代理服务能够进行相互通信和文件传输。
步骤S2中集群的上层部署有一个以上的作业服务网关,当多个集群需要统一管理时,至少需要部署一个作业服务网关,作业服务网关中配置了所有可用的作业代理服务的信息,用户可以直接通过请求作业服务网关来调用所有可用的作业代理服务提供的接口。在作业提交过程中,作业服务网关可以根据用户指定的集群进行分配,也可以按照用户的需求进行筛选并分配。在多个集群形成的单个集群组合上布置多个作业服务网关能够提高计算机资源入口的可靠性;在多个集群形成的多个集群组合上布置多个作业服务网关能够实现每个作业服务网关的单独管理以及对所有作业服务网关的统一管理,提供了向上扩充的可能性。
步骤S4中特定规则包括指定规则或/和自动选择规则;指定规则为用户提交作业并指定需要的计算集群,服务网关将作业分配至指定集群;自动选择规则为用户提交作业但不指定需要的计算集群,服务网关根据作业的需求和各个集群的信息进行计算集群的自动选择。所述特定规则包括指定规则或自动选择规则或两者兼具,作业提交时,用户需要填入特征信息,包括作业自身的参数,如果特定规则为指定规则,则用户还需要填写所需的特定集群信息,由网关服务转发到对应的代理服务上,并转换成对应的作业调度系统的命令进行执行,命令返回的信息则转换成统一的作业管理信息返回;如果特定规则为自动选择规则,则用户还需填写包括控制运行环境的参数、作业所需的调度算法、作业的完成时间、计算任务需求的资源特性、作业的调度策略等,有助于筛选符合要求的集群;如果特定规则包括指定规则和自动选择规则,则在用户提交时检验是否指定集群,如果未指定则进入自动选择集群的过程,选择集群后的执行逻辑与指定规则的作业提交一致。
所述自动选择具体步骤包括:初选,去除不满足硬性条件的集群,即根据处理作业所需的硬性条件进行筛选,包括作业处理所需的计算容量、计算速度等;优选,从多个方面对集群进行打分,包括集群的资源定价、资源空闲程度、资源可靠性,然后按照用户的选择倾向,即作业的资源需求描述,对集群不同方面的分数进行加权求和,再依据特定调度算法获得特定集群;
所述特定算法包括:时效性优先算法,指的是优先选择能最先完成计算任务资源分配即拥堵率较低的集群;经济性优先算法,指的是优先选择完成该计算任务花费的资费较低即集群定价较低的集群;可靠性优先算法,指的是优先选择对应的作业故障率最低的集群;平衡加权算法,指的是按照特定的拥堵率、定价、故障率加权来进行集群的选择。根据集群的资源信息和用户选择倾向对集群进行多个方面的打分,对不同方面的分数进行加权求和后,按照用户指定或作业服务网关的特定调度算法获得集群,为用户提供了一种智能的计算集群资源选择方案。
所述作业代理服务包括:
用户授权模块,对用户身份进行认证和授权,授权的用户通过作业代理服务实现对各个集群的统一访问;用户需要获得作业代理服务的授权访问其他集群,提高统一调度系统的安全性,授权后的用户以已识别的身份访问其他作业代理服务以及对应集群,从而实现对各个集群的统一访问。
文件传输模块,为用户提供本地和集群之间或集群与集群之间的文件传输接口;所述文件传输模块提供了本地和服务器之间的文件传输接口,供用户上传输入文件和下载计算结果,同时也提供了集群与集群之间的文件传输,因为不同的集群可能使用不同的存储系统,使用文件模块接口可以完成集群间文件的传输。
命令执行模块,辅助用户执行作业代理服务所在集群内的系统命令,对集群的整体系统进行简单操作。
作业管理模块,为用户针对不同作业调度系统提供统一的调度接口,通过配置将作业请求转换成为对应的作业调度系统的命令执行,并将执行结果整理为统一的数据结构和作业管理信息返回给用户。
所述作业代理服务统一处理多种不同的作业调度系统的作业提交请求,包括SLURM,PBS,LFS,conda等多种不同的作业调度系统;
所述作业代理服务进行无状态的分布式部署,每个作业请求都直接返回结果;
所述作业代理服务搭配消息队列等其他工具可以实现异步处理用户的作业请求。
一种API接口,包括:
授权模块:用于用户获取API的调用权限信息,对用户身份进行认证和授权,授予用户调用API的权限;
文件模块:用于用户在特定集群间或集群和本地进行文件移动,提供文件传输的接口;
命令模块:用于用户在特定集群上执行指定的命令,辅助用户执行特定集群的系统命令;
作业模块:用于用户在特定集群上执行和管理作业,接收作业请求并转换为特定集群内作业调度系统的命令执行,将执行结果整理为统一的作业管理信息返回给用户;
状态模块:用于获取特定集群的状态信息,并保存集群的状态信息。
优选的,所述API接口的授权模块采用基于LDAP用户身份认证的账号密码登录和基于JWT格式的令牌认证;授权模块中的用户信息可以采用LDAP服务进行支持或使用本地的用户信息,认证用户身份后,授权模块会通过对称加密算法生成并返回包含用户身份信息的JWT(JSON Web Token)格式的令牌,即Token,后续用户对其他接口的访问在请求头中包含此Token即可让用户安全的访问相应资源,通过令牌可以实现各个集群的统一访问。同时,实现了在作业请求过程中不需要传输和处理用户的密钥或密码等敏感信息,避免了用户权限的泄漏
与现有技术相比,本发明的有益效果为:部署方式更加灵活和安全,上层服务的开发人员不需要去关心不同作业调度系统的差异性细节,可以通过统一的数据视图去处理用户的作业请求。通过作业服务网关提供集群的分配,并设置有多个规则供用户选择集群,即作业服务网关根据资源匹配算法智能的帮用户选择合适的集群进行作业的提交,减小集群的选择过程,加快计算资源对作业的处理过程。通过部署作业代理服务可以屏蔽不同集群的差异性,统一各个集群的输入输出数据格式等,有助于统一访问各个集群,同时,还能在屏蔽差异性的同时安全处理用户的作业请求;作业代理服务还提供多个功能模块,多个功能模块实现了辅助用户在特定集群内执行作业、将作业请求转换为对应的作业调度系统命令、对用进行安全性的认证授权等功能。通过部署上层的作业服务网关和集群内的作业代理服务,实现了多异构集群作业的统一调度,使得多异构集群的资源服务复杂度得到降低,管理成本也相应的降低,为后续进一步开发面向领域应用的计算服务平台提供核心调度方法。此外,由于采用了基于JWT的用户授权方式和接口调用认证,在作业请求过程中不需要传输和处理用户的密钥或密码等敏感信息,避免了用户权限的泄漏,提高了多异构集群整体系统的安全性。
附图说明
图1为实施例的部署示意图;
图2为实施例的作业代理服务模块示意图;
图3为实施例的作业提交过程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供了一种不同集群的作业通过统一Restful API调度的系统,如图1所示,为集群及其他服务的部署示意图。集群1和集群2各自采用不同的作业调度系统,分别在集群1和集群2上部署作业代理服务,并在集群的上层部署作业服务网关,所述作业服务网关汇总管理两个集群的作业代理服务。
如图2所示,所述作业代理服务具有四个功能模块,用户授权、文件传输、命令执行、作业管理模块,所述用户授权模块,对用户身份进行认证和授权,授权的用户通过作业代理服务实现对各个集群的统一访问,所述用户授权模块可以采用基于JWT格式的令牌认证;文件传输模块,为用户提供本地和集群之间或集群与集群之间的文件传输接口;命令执行模块,辅助用户执行对应集群内的系统命令;作业管理模块,为不同作业调度系统提供统一的调度接口,通过配置将作业请求转换成为对应的作业调度系统的命令执行,并将执行结果整理为统一的作业管理信息返回给用户。
在部署作业服务网关、作业代理服务后,用户提交作业的过程如图3所示,用户通过作业代理服务的用户授权模块获取到多异构集群统一调度系统的令牌标识(Token),在后续的流程中,Token作为认证信息随各个请求发出用于标示用户的有效身份;
在获得用户授权和令牌后,用户填写作业信息并提交,用户需要填写作业自身的参数和集群选择所需的信息,所述集群选择包括指定选择和自动选择,当用户提交作业请求的同时填写了指定的集群,将进入指定选择,作业将被作业服务网关转发至到指定集群;当用户未填写指定集群时则需要填写控制运行环境的参数、作业所需的调度算法、作业的完成时间、计算任务需求的资源特性、作业的调度策略等,将进入自动选择,由作业服务网关根据填写的信息进行筛选并分配至特定集群。
填写完成后并提交请求后,作业服务网关根据用户填写的参数选择匹配的特定集群,并将作业参数转发到特定集群的作业代理服务上;同时,特定集群内的作业代理服务利用文件模块接收作业相关文件,并根据所在集群的作业调度系统的类型生成作业脚本并提交作业,在生成作业脚本的过程中,作业代理服务还利用了其命令执行模块将作业请求转换为内部的作业调度系统执行命令,进而利用已有的作业参数、作业文件开始作业。
待内部的作业调度系统执行完成后,通过作业代理服务并将执行结果转换为统一的作业管理信息,返回给用户。
以图1中的集群1、2部署为例,终端用户通过连接作业服务网关后,填写作业信息并指定集群2后将请求提交至作业服务网关,作业服务网关依据指定规则选择集群2,并转发作业请求至集群2的作业代理服务,集群2内的作业代理服务通过用户授权模块对用户进行认证和授权,并利用作业代理服务的文件模块接收作业相关文件,作业代理服务的命令模块则辅助用户执行集群2内部的系统命令,帮助用户通过简单的命令操作集群2,同时,作业代理服务通过作业模块将作业请求转换为所在集群内的作业调度系统命令,控制作业的执行。所述终端用户为集群1、2外的计算机用户或集群1内部的计算机节点用户。
下面对本发明实施例提供的API接口进行介绍,下文描述的API接口与上文描述的多异构集群作业统一调度方法可相互对应参照。
所述API接口的接口模块包括授权模块、文件模块、命令模块、作业模块、状态模块,所述API的授权模块用于认证、授予、保存用户调用API的权限,所述文件模块保证用户的作业文件在不同结构的集群之间、集群和本地之间即服务器与本地之间的文件传输,所述命令模块用于辅助用户执行所在集群内的系统命令,所述作业模块用于将作业请求转换为集群内作业调度系统的命令、统一作业文件的输入输出数据格式、将结果转换为统一的管理信息并返回给用户;所述状态模块用于将当前的集群状态、参数反馈给上层服务。
所述API接口用于实现本实施例中作业代理服务的用户授权、文件传输、命令执行、作业管理功能模块。
本实施例中的授权模块采用基于LDAP用户身份认证的账号密码登录和基于JWT格式的令牌认证。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种多异构集群作业统一调度方法,其特征在于,包括:
S1、在多个集群上部署作业代理服务,作业代理服务统一不同作业调度系统的输入输出数据格式,并提供统一的数据接口视图;
S2、在集群的上层部署作业服务网关,所述作业服务网关汇总管理多个作业代理服务,实现多个集群的统一管理;
S3、用户获得作业代理服务授权,授权后的用户通过作业代理服务实现对各个集群的统一访问;
S4、用户提交作业,作业服务网关按照特定规则将作业分配至特定集群,作业文件则通过作业代理服务在本地和集群之间或集群和集群之间传输;
S5、特定集群的作业代理服务将作业请求转换成集群内作业调度系统的命令执行,并将执行结果转换为统一的作业管理信息返回。
2.根据权利要求1所述的一种多异构集群作业统一调度方法,其特征在于,步骤S1中每个集群部署有一个以上的作业代理服务。
3.根据权利要求1所述的一种多异构集群作业统一调度方法,其特征在于,步骤S2中集群的上层部署有一个以上的作业服务网关。
4.根据权利要求1所述的一种多异构集群作业统一调度方法,其特征在于,步骤S4中特定规则包括指定规则或/和自动选择规则;
指定规则为用户提交作业并指定需要的计算集群,服务网关将作业分配至指定集群;
自动选择规则为用户提交作业但不指定需要的计算集群,服务网关根据作业的需求和各个集群的信息进行计算集群的自动选择。
5.根据权利要求4所述的一种多异构集群作业统一调度方法,其特征在于,所述自动选择具体步骤包括:
1)初选,去除不满足硬性条件的集群;
2)优选,从多个方面对集群进行打分,包括集群的资源定价、资源空闲程度、资源可靠性,然后按照用户的选择倾向对集群不同项目的分数进行加权求和,依据特定调度算法获得特定集群。
6.根据权利要求5所述的一种多异构集群作业统一调度方法,其特征在于,所述特定调度算法包括:
时效性优先算法,指的是优先选择能最先完成计算任务资源分配即拥堵率较低的集群;
经济性优先算法,指的是优先选择完成该计算任务花费的资费较低即集群定价较低的集群;
可靠性优先算法,指的是优先选择对应的作业故障率最低的集群;
平衡加权算法,指的是按照特定的拥堵率、定价、故障率加权来进行集群的选择。
7.根据权利要求1所述的一种多异构集群作业统一调度方法,其特征在于,所述作业代理服务包括:
用户授权模块,对用户身份进行认证和授权,授权的用户通过作业代理服务实现对各个集群的统一访问;
文件传输模块,为用户提供本地和集群之间或集群与集群之间的文件传输接口;
命令执行模块,辅助用户执行所在集群内的系统命令;
作业管理模块,为不同作业调度系统提供统一的调度接口,通过配置将作业请求转换成为对应的作业调度系统的命令执行,并将执行结果整理为统一的作业管理信息返回给用户。
8.根据权利要求1所述的一种多异构集群作业统一调度方法,其特征在于,
所述作业代理服务统一处理多种不同的作业调度系统的作业提交请求;
所述作业代理服务进行无状态的分布式部署,每个作业请求都直接返回结果;
所述作业代理服务异步处理用户的作业请求。
9.一种API接口,其特征在于,包括:
授权模块:用于用户获取API的调用权限信息;
文件模块:用于用户在特定集群间或集群和本地进行文件移动;
命令模块:用于用户在特定集群上执行指定的命令;
作业模块:用于用户在特定集群上执行和管理作业;
状态模块:用于获取特定集群的状态信息。
10.根据权利要求9所述的一种API接口,其特征在于,授权模块采用基于LDAP用户身份认证的账号密码登录和基于JWT格式的令牌认证。
CN201910663907.9A 2019-07-22 2019-07-22 一种多异构集群作业统一调度方法及api接口 Active CN110636103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910663907.9A CN110636103B (zh) 2019-07-22 2019-07-22 一种多异构集群作业统一调度方法及api接口

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910663907.9A CN110636103B (zh) 2019-07-22 2019-07-22 一种多异构集群作业统一调度方法及api接口

Publications (2)

Publication Number Publication Date
CN110636103A true CN110636103A (zh) 2019-12-31
CN110636103B CN110636103B (zh) 2021-06-04

Family

ID=68969178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910663907.9A Active CN110636103B (zh) 2019-07-22 2019-07-22 一种多异构集群作业统一调度方法及api接口

Country Status (1)

Country Link
CN (1) CN110636103B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506367A (zh) * 2020-04-20 2020-08-07 东云睿连(武汉)计算技术有限公司 多集群式人工智能在线服务方法及系统
CN111698324A (zh) * 2020-06-12 2020-09-22 北京奇艺世纪科技有限公司 一种数据请求方法、装置及系统
CN112187728A (zh) * 2020-09-08 2021-01-05 灵犀科技有限公司 一种基于统一用户权限的网关代理管理方法及装置
CN112445590A (zh) * 2020-10-15 2021-03-05 北京仿真中心 一种计算资源接入及调度系统和方法
CN112559519A (zh) * 2020-12-09 2021-03-26 北京红山信息科技研究院有限公司 一种大数据集群管理系统
CN112751938A (zh) * 2020-12-30 2021-05-04 上海赋算通云计算科技有限公司 一种基于多集群作业的实时数据同步系统,实现方法以及存储介质
CN112948118A (zh) * 2021-03-12 2021-06-11 上海哔哩哔哩科技有限公司 边缘计算方法、平台、计算机设备和可读存储介质
CN113065848A (zh) * 2021-04-02 2021-07-02 东云睿连(武汉)计算技术有限公司 一种支持多类集群后端的深度学习调度系统及调度方法
CN113093768A (zh) * 2021-03-10 2021-07-09 中国人民解放军海军潜艇学院 一种水下航行器集群控制系统及其控制方法
CN113395365A (zh) * 2020-03-12 2021-09-14 中国移动通信集团山东有限公司 微服务系统视图集成方法、装置、计算机设备和存储介质
CN113553166A (zh) * 2020-04-26 2021-10-26 广州汽车集团股份有限公司 一种跨平台高性能计算集成方法及系统
CN113778709A (zh) * 2021-08-25 2021-12-10 北京达佳互联信息技术有限公司 接口调用方法、装置、服务器及存储介质
CN114257583A (zh) * 2021-12-22 2022-03-29 贵州东彩供应链科技有限公司 一种解决jwt授权的安全下载方法
CN114610449A (zh) * 2022-03-23 2022-06-10 上海道客网络科技有限公司 基于统一请求入口的多集群资源操作方法和系统
CN115988078A (zh) * 2022-11-28 2023-04-18 中国联合网络通信集团有限公司 通信方法、系统、电子设备及存储介质
CN116455911A (zh) * 2023-03-28 2023-07-18 安超云软件有限公司 一种异构集群互通方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645022A (zh) * 2009-08-28 2010-02-10 曙光信息产业(北京)有限公司 用于多个集群的作业调度管理系统及方法
CN108469988A (zh) * 2018-02-28 2018-08-31 西北大学 一种基于异构Hadoop集群的任务调度方法
CN108920260A (zh) * 2018-05-16 2018-11-30 成都淞幸科技有限责任公司 一种异构系统的交互方法及其装置
US10223165B2 (en) * 2013-05-20 2019-03-05 International Business Machines Corporation Scheduling homogeneous and heterogeneous workloads with runtime elasticity in a parallel processing environment
CN109710414A (zh) * 2018-12-29 2019-05-03 北京三快在线科技有限公司 一种作业调度方法、装置、设备及存储介质
US20190220310A1 (en) * 2012-06-20 2019-07-18 International Business Machines Corporation Job distribution within a grid environment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645022A (zh) * 2009-08-28 2010-02-10 曙光信息产业(北京)有限公司 用于多个集群的作业调度管理系统及方法
US20190220310A1 (en) * 2012-06-20 2019-07-18 International Business Machines Corporation Job distribution within a grid environment
US10223165B2 (en) * 2013-05-20 2019-03-05 International Business Machines Corporation Scheduling homogeneous and heterogeneous workloads with runtime elasticity in a parallel processing environment
CN108469988A (zh) * 2018-02-28 2018-08-31 西北大学 一种基于异构Hadoop集群的任务调度方法
CN108920260A (zh) * 2018-05-16 2018-11-30 成都淞幸科技有限责任公司 一种异构系统的交互方法及其装置
CN109710414A (zh) * 2018-12-29 2019-05-03 北京三快在线科技有限公司 一种作业调度方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG LIU,HUANLE XU,WING CHEONG LAU: ""Online Job Scheduling with Resource Packing on a Cluster of Heterogeneous Servers"", 《IEEE INFOCOM 2019 - IEEE CONFERENCE ON COMPUTER COMMUNICATIONS》 *
田野: ""异构环境下Hadoop作业调度算法的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113395365A (zh) * 2020-03-12 2021-09-14 中国移动通信集团山东有限公司 微服务系统视图集成方法、装置、计算机设备和存储介质
CN113395365B (zh) * 2020-03-12 2022-11-15 中国移动通信集团山东有限公司 微服务系统视图集成方法、装置、计算机设备和存储介质
CN111506367A (zh) * 2020-04-20 2020-08-07 东云睿连(武汉)计算技术有限公司 多集群式人工智能在线服务方法及系统
CN111506367B (zh) * 2020-04-20 2023-09-22 东云睿连(武汉)计算技术有限公司 多集群式人工智能在线服务方法及系统
CN113553166A (zh) * 2020-04-26 2021-10-26 广州汽车集团股份有限公司 一种跨平台高性能计算集成方法及系统
CN111698324A (zh) * 2020-06-12 2020-09-22 北京奇艺世纪科技有限公司 一种数据请求方法、装置及系统
CN112187728A (zh) * 2020-09-08 2021-01-05 灵犀科技有限公司 一种基于统一用户权限的网关代理管理方法及装置
CN112445590A (zh) * 2020-10-15 2021-03-05 北京仿真中心 一种计算资源接入及调度系统和方法
CN112559519A (zh) * 2020-12-09 2021-03-26 北京红山信息科技研究院有限公司 一种大数据集群管理系统
CN112751938A (zh) * 2020-12-30 2021-05-04 上海赋算通云计算科技有限公司 一种基于多集群作业的实时数据同步系统,实现方法以及存储介质
CN112751938B (zh) * 2020-12-30 2023-04-07 上海赋算通云计算科技有限公司 一种基于多集群作业的实时数据同步系统,实现方法以及存储介质
CN113093768A (zh) * 2021-03-10 2021-07-09 中国人民解放军海军潜艇学院 一种水下航行器集群控制系统及其控制方法
CN112948118A (zh) * 2021-03-12 2021-06-11 上海哔哩哔哩科技有限公司 边缘计算方法、平台、计算机设备和可读存储介质
CN112948118B (zh) * 2021-03-12 2024-01-16 上海哔哩哔哩科技有限公司 边缘计算方法、平台、计算机设备和可读存储介质
CN113065848A (zh) * 2021-04-02 2021-07-02 东云睿连(武汉)计算技术有限公司 一种支持多类集群后端的深度学习调度系统及调度方法
CN113778709A (zh) * 2021-08-25 2021-12-10 北京达佳互联信息技术有限公司 接口调用方法、装置、服务器及存储介质
CN113778709B (zh) * 2021-08-25 2024-03-12 北京达佳互联信息技术有限公司 接口调用方法、装置、服务器及存储介质
CN114257583A (zh) * 2021-12-22 2022-03-29 贵州东彩供应链科技有限公司 一种解决jwt授权的安全下载方法
CN114610449A (zh) * 2022-03-23 2022-06-10 上海道客网络科技有限公司 基于统一请求入口的多集群资源操作方法和系统
CN115988078A (zh) * 2022-11-28 2023-04-18 中国联合网络通信集团有限公司 通信方法、系统、电子设备及存储介质
CN116455911A (zh) * 2023-03-28 2023-07-18 安超云软件有限公司 一种异构集群互通方法
CN116455911B (zh) * 2023-03-28 2024-03-22 安超云软件有限公司 一种异构集群互通方法

Also Published As

Publication number Publication date
CN110636103B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN110636103B (zh) 一种多异构集群作业统一调度方法及api接口
Zhang et al. Adaptive interference-aware VNF placement for service-customized 5G network slices
US9307017B2 (en) Member-oriented hybrid cloud operating system architecture and communication method thereof
CN103384237B (zh) 一种共享IaaS业务云账号的方法、及共享平台和网络装置
CN108062248B (zh) 异构虚拟化平台的资源管理方法、系统、设备及存储介质
US9268584B2 (en) Methods and systems for dynamically managing requests for computing capacity
US8606897B2 (en) Systems and methods for exporting usage history data as input to a management platform of a target cloud-based network
Kapadia et al. PUNCH: An architecture for web-enabled wide-area network-computing
Al-Ali et al. Analysis and provision of QoS for distributed grid applications
BRPI0707220A2 (pt) métodos e sistemas para fornecer acesso a um ambiente de computação
CN109962940A (zh) 一种基于云平台的虚拟化实例调度系统及调度方法
KR20070006906A (ko) Hpc 환경에서의 토폴로지-인식 작업 스케쥴링 및백필링을 위한 시스템 및 방법
US10237252B2 (en) Automatic creation and management of credentials in a distributed environment
WO2008083914A1 (en) Method, apparatus, and computer program product for data upload in a computing system
Ali et al. A cost and energy efficient task scheduling technique to offload microservices based applications in mobile cloud computing
CN113821268A (zh) 一种与OpenStack Neutron融合的Kubernetes网络插件方法
CN107347089A (zh) 一种电信级别的云计算系统的资源分配方法
CN109213567B (zh) 一种管理vnf实例化的方法和设备
CN110198364B (zh) 基于指定dns解析的容器云上分布式训练数据通信的方法
CN114616807A (zh) 用于管理和控制通信网络的方法和系统
US10986098B2 (en) Reverse identity federation in distributed cloud systems
CN110300192B (zh) 一种根据ip分配表更新分布式训练任务连接参数的方法
CN109542816A (zh) 一种基于分布式系统的服务总线构造方法
WO2014052826A1 (en) Routing job submissions between disparate compute environments
Insley et al. Using dynamic accounts to enable access to advanced resources through science gateways

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant