CN111459653B - 集群调度方法、装置和系统以及电子设备 - Google Patents

集群调度方法、装置和系统以及电子设备 Download PDF

Info

Publication number
CN111459653B
CN111459653B CN201910060367.5A CN201910060367A CN111459653B CN 111459653 B CN111459653 B CN 111459653B CN 201910060367 A CN201910060367 A CN 201910060367A CN 111459653 B CN111459653 B CN 111459653B
Authority
CN
China
Prior art keywords
storage device
task
computing
computing resource
currently available
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910060367.5A
Other languages
English (en)
Other versions
CN111459653A (zh
Inventor
贺荣徽
何万青
田永军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910060367.5A priority Critical patent/CN111459653B/zh
Publication of CN111459653A publication Critical patent/CN111459653A/zh
Application granted granted Critical
Publication of CN111459653B publication Critical patent/CN111459653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种集群调度方法、装置和系统以及电子设备。该方法包括:解析用户提交的任务信息,获取相应任务的负载需求;确定一个当前可用的满足所述负载需求的计算资源;将所述任务的任务数据发送至所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备。本发明实施例通过综合考虑任务的负载需求与计算节点的计算能力,寻找能够满足任务所需负载需求的单个计算节点,将任务数据调度到最靠近该计算节点的存储设备,从而能够利用单节点的高速传输特性来降低网络传输对计算性能的影响,以提高任务的计算效率。

Description

集群调度方法、装置和系统以及电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种集群调度方法、装置和系统以及电子设备。
背景技术
集群是指相互独立的、通过高速网络互联的一组计算资源(计算节点),以统一的模式进行管理的系统。例如,高性能计算(High Performance Computing;简称:HPC)集群,是一种用于科学工程领域的大规模并行计算集群。
在并行计算时,不同的计算资源(计算节点)对计算任务的不同部分进行计算。因此,为了确保数据的一致性,需要将任务数据保存在共享文件中,各计算资源(计算节点)通过访问共享文件来获取相应的任务数据。
发明人在实现本发明的过程中,发现现有技术至少存在如下问题:在现有技术中,各计算节点与用于存储共享文件的服务器之间通过网络进行数据传输,网络传输的性能影响整个计算任务的计算性能,极大地降低了任务的计算效率。
发明内容
本发明实施例提供一种集群调度方法、装置和系统以及电子设备,以解决现有技术中,网络传输的性能影响整个计算任务的计算性能的缺陷。
为达到上述目的,本发明实施例提供了一种集群调度方法,包括:
解析用户提交的任务信息,获取相应任务的负载需求;
根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源;
当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,其中,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备;
将所述任务的任务数据发送至所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作。
本发明实施例还提供了一种集群调度装置,包括:
解析模块,用于解析用户提交的任务信息,获取相应任务的负载需求;
判断模块,用于根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源;
确定模块,用于当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,其中,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备;
第一调度模块,用于将所述任务的任务数据发送至所述确定模块确定的所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作。
本发明实施例还提供一种集群调度系统,包括:
集群调度器,用于解析用户提交的任务信息,获取相应任务的负载需求;
集群资源管理组件,用于根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源,当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,将所述任务的任务数据发送至所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
解析用户提交的任务信息,获取相应任务的负载需求;
根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源;
当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,其中,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备;
将所述任务的任务数据发送至所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作。
本发明实施例提供的集群调度方法、装置和系统以及电子设备,通过综合考虑任务的负载需求与计算节点的计算能力,寻找能够满足任务所需负载需求的单个计算节点,将任务数据调度到最靠近该计算节点的存储设备,从而能够利用单节点的高速传输特性来降低网络传输对计算性能的影响,从而能够提高任务的计算效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明提供的集群调度系统实施例的系统框图;
图2为本发明提供的集群调度系统实施例的时序图;
图3为本发明提供的集群调度方法一个实施例的流程图;
图4为本发明提供的集群调度方法另一个实施例的流程图;
图5为本发明提供的集群调度装置一个实施例的结构示意图;
图6为本发明提供的集群调度装置另一个实施例的结构示意图;
图7为本发明提供的电子设备实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
现有技术中,集群中的各计算节点与用于存储共享文件的服务器之间通过网络进行数据传输,网络传输的性能影响整个计算任务的计算性能,极大地降低了任务的计算效率。因此,针对现有技术的缺陷,本申请提出了一种集群调度方案,其主要原理是:在进行任务调度时,将任务(作业)的负载需求与计算节点的计算能力结合起来考虑,判断是否存在当前可用的满足任务的负载需求的单个计算资源,寻找能够满足任务所需负载需求的单个计算节点,将任务数据调度到最靠近该计算节点的存储设备,从而能够利用单节点的高速传输特性来降低网络传输对计算性能的影响,以提高任务的计算效率。
上述实施例是对本发明实施例的技术原理的说明,下面通过多个实施例来进一步对本发明实施例具体技术方案进行详细描述。
实施例一
图1为本发明提供的集群调度系统实施例的系统框图,图1所示的结构仅仅是本发明的技术方案可以应用的业务系统的示例之一。本发明实施例所提供的集群调度系统可应用于传统的HPC集群,也可以应用于集群化的云计算服务场景中。如图1所示,本发明实施例提供的集群调度系统包括:集群资源管理组件11和集群调度器12。
其中,集群调度器12用于解析用户提交的任务信息,获取相应任务的负载需求;集群资源管理组件11用于根据负载需求,判断是否存在当前可用的满足该负载需求的单个计算资源,当存在当前可用的满足该负载需求的单个计算资源时,确定一个当前可用的满足上述负载需求的计算资源以及该计算资源的最近存储设备,将任务的任务数据发送至该计算资源的最近存储设备,使得该计算资源通过访问其最近存储设备来对任务进行计算操作。
在本发明实施例中,最近存储设备是指在传输距离上与计算资源最接近的、容量大于任务数据的数据量的存储设备。在进行任务调度时,首先,由集群调度器12解析用户提交的任务信息,获取相应任务的负载需求,并将该任务所需的资源信息通知给集群资源管理组件11;然后,集群资源管理组件11在当前可用的计算资源中判断是否存在当前可用的满足该负载需求的单个计算资源,当存在当前可用的满足该负载需求的单个计算资源时,确定一个满足上述负载需求的计算资源,并将该任务的任务数据发送至该计算资源的最近存储设备,使得该计算资源通过访问其最近存储设备来对任务进行计算操作。
在本发明实施例中,集群资源管理组件11可以负责整个集群的资源创建、删除、计算资源的加入、退出等生命周期的管理。集群资源管理组件11与集群调度器12交互,通知集群调度器12计算资源(计算实例)的加入、退出,以便集群调度器12能够确定或更新调度策略。集群资源管理组件11可专门用于集群资源(例如,计算、存储、网络等)的动态管理。当然,在本发明实施例中,集群资源管理组件11可以是独立部署的系统,也可以与集群调度器12一起部署,还可以作为集群调度器12的一个内部组件。
集群调度器12可以负责接收用户提交的计算作业(计算任务),根据不同的调度策略,将任务分配到计算集群的具体计算资源(计算实例)上进行计算,并监控任务运行状态,以得到计算执行结果。不同的任务会配置有不同的资源需求、优先级、执行时间等参数,集群调度器12一般都可以针对不同任务的配置参数,采用不同的调度策略。当计算实例上的任务较多时,集群调度器12可以进行任务排队及队列管理。集群调度器12也会监视任务执行结果,执行失败的任务可以重新提交执行。
计算集群则负责执行具体的计算任务。集群的计算资源上部署高性能计算应用环境,如气象、力学、分子动力学等科学计算软件等。
具体地,在本发明实施例中,计算资源的最近存储设备可以为该计算资源的本地物理存储设备,即该计算资源所在服务器硬件上直接附加的物理存储设备(本地存储);也可以为申请云计算实例时直接与实例绑定的云盘等虚拟存储设备。
进一步地,在本发明实施例中,集群资源管理组件11还可以用于当不存在当前可用的满足负载需求的单个计算资源时,确定当前可用的可联合满足负载需求的数个计算资源,并将任务的任务数据发送至共享存储设备,使得数个计算资源通过访问该共享存储设备来对任务进行计算操作。
在本发明实施例中,集群资源管理组件11根据集群调度器12提供的任务信息,判断是否能通过单个计算实例来满足任务的负载需求。举例说明,假设计算某任务需要56核并行处理,而当前可用的计算实例包含56核的实例,则将该任务的任务数据发送到该实例的最近存储设备,(如,本地物理存储设备),以进行单节点作业。如果当前可用的计算实例中最大只有28核,则确定可联合满足负载需求的数个计算资源,即,数个计算资源并行处理可满足该任务的负载需求,并将该任务的任务数据发送到共享存储存储,以使得数个计算资源并行进行多节点作业。
更进一步地,集群资源管理组件11还可以用于,当存在多个当前可用的满足所述负载需求的单个计算资源时,从多个计算资源中选择与其最接近存储设备的传输距离最小的计算资源。也就是说,如果有多个计算资源满足条件,则选择存储设备最近的一个,以尽可能地降低网络传输对计算性能的影响,从而进一步提高任务的计算效率。
另外,在本发明实施例中,集群调度系统中还可设置数据存储设备,以用于存储用户提交的任务数据。并且,当存在当前可用的满足负载需求的计算资源时,根据集群资源管理组件11的指示,将用户提交的任务数据发送至所确定的计算资源的最近存储设备;当不存在当前可用的满足负载需求的计算资源时,将用户提交的任务数据发送至共享存储设备。
图2为本发明提供的集群调度系统实施例的时序图。如图2所示,在本发明实施例所提供的集群调度系统中,各组件、设备可以按照如下时序执行相应操作:
S201、在用户登录并提交任务至集群调度器以及相应的任务数据至数据存储设备(例如,可以为对象存储服务器,或NAS(网络附属存储)服务器等)后,集群调度器解析任务信息,将相应任务的负载需求提供给集群资源管理组件。
S202、集群资源管理组件根据集群调度器提供的负载需求进行判断,当存在当前可用的满足该负载需求的单个计算资源时,将任务数据调度至该计算资源的本地存储设备。同时,集群调度器在计算资源上启动计算任务。
S203、当用户提交新的任务时,集群调度器解析任务信息,将相应任务的负载需求提供给集群资源管理组件。
S204、集群资源管理组件根据集群调度器提供的负载需求进行判断,当不存在当前可用的满足所述负载需求的单个计算资源时,将任务数据调度至共享存储设备。同时,集群调度器在计算资源上启动计算任务。
在本发明实施例中,整个集群可以不断接受用户提交的计算任务并执行。
本发明实施例提供的集群调度系统,通过综合考虑任务的负载需求与计算节点的计算能力,判断是否存在能够满足任务所需负载需求的单个计算节点,如果存在则将任务数据调度到该计算节点的本地存储设备,若不存在,则采用多节点并行作业,从而能够尽大限度地利用单节点的高速传输特性来降低网络传输对计算性能的影响,从而能够提高任务的计算效率。
实施例二
图3为本发明提供的集群调度方法一个实施例的流程图,该方法的执行主体可以为上述集群调度系统,也可以为具有集群调度功能的各种终端或服务器设备,也可以为集成在这些设备上的系统或芯片。如图3所示,该集群调度方法包括如下步骤:
S301,解析用户提交的任务信息,获取相应任务的负载需求。
S302,根据负载需求,判断是否存在当前可用的满足该负载需求的单个计算资源。
S303,当存在当前可用的满足该负载需求的单个计算资源时,确定一个当前可用的满足该负载需求的单个计算资源以及该计算资源的最近存储设备。
在本发明实施例中,在进行任务调度时,首先,需要解析用户提交的任务信息,以获取相应任务的负载需求。然后,根据该任务的负载需求信息,以及当前可用计算资源的计算能力,在当前可用的计算资源中判断是否存在当前可用的满足该负载需求的单个计算资源;当存在当前可用的满足该负载需求的单个计算资源时,确定一个满足上述负载需求的计算资源。
S304,将上述任务的任务数据发送至该计算资源的最近存储设备,使得该计算资源通过访问其最近存储设备来对任务进行计算操作。
在本发明实施例中,最近存储设备为在传输距离上与计算资源最接近的存储设备。在确定了满足负载需求条件的计算资源后,将该任务的任务数据发送至该计算资源的最近存储设备,使得该计算资源通过访问其最近存储设备来对任务进行计算操作。
具体地,在本发明实施例中,计算资源的最近存储设备可以为该计算资源的本地物理存储设备,即该计算资源所在服务器硬件上直接附加的物理存储设备(本地存储);也可以为申请云计算实例时直接与实例绑定的云盘等虚拟存储设备。
本发明实施例提供的集群调度方法,通过综合考虑任务的负载需求与计算节点的计算能力,寻找能够满足任务所需负载需求的单个计算节点,将任务数据调度到最靠近该计算节点的存储设备,从而能够利用单节点的高速传输特性来降低网络传输对计算性能的影响,从而能够提高任务的计算效率。
实施例三
图4为本发明提供的集群调度方法另一个实施例的流程图。如图4所示,在上述图3所示实施例的基础上,本实施例提供的集群调度方法还可以包括以下步骤:
S401,解析用户提交的任务信息,获取相应任务的负载需求。
S402,判断是否存在当前可用的满足负载需求的单个计算资源,若存在,则执行步骤S403至S405,否则,执行步骤S406。
在本发明实施例中,当进行任务调度时,首先,解析用户提交的任务信息,以获取相应任务的负载需求。然后,判断是否存在当前可用的满足该负载需求的单个计算资源。若存在,则进行后续确定计算资源的操作;若不存在,则采用多计算资源并行的方式对任务进行计算操作。
S403,确定一个当前可用的满足该负载需求的单个计算资源。
在本发明实施例中,如果只存在一个满足条件的计算资源,则将该计算资源确定为计算该任务的计算节点,进行单节点作业;如果存在多个当前可用的满足该负载需求的单个计算资源时,则可以从多个计算资源中选择与其最接近存储设备的传输距离最小的计算资源,以作为计算该任务的计算节点,以尽可能地降低网络传输对计算性能的影响,从而进一步提高任务的计算效率。
S404,将在传输距离上与该计算资源最接近的虚拟存储设备绑定为该计算资源的最近存储设备。
在本发明实施例中,计算资源的最近存储设备可以为申请云计算实例时直接与实例绑定的云盘等虚拟存储设备。
S405,将上述任务的任务数据发送至该计算资源的最近存储设备,使得该计算资源通过访问其最近存储设备来对任务进行计算操作。
S406,确定当前可用的可联合满足该负载需求的数个计算资源,并将任务的任务数据发送至共享存储设备,使得数个计算资源通过访问共享存储设备来对该任务进行计算操作。
确定可联合满足该负载需求的数个计算资源,也就是说,数个计算资源并行处理可满足该任务的负载需求,可进行多节点作业。
本发明实施例提供的集群调度方法,通过综合考虑任务的负载需求与计算节点的计算能力,判断是否存在能够满足任务所需负载需求的单个计算节点,如果存在则将任务数据调度到该计算节点的本地存储设备,若不存在,则采用多节点并行作业,从而能够尽大限度地利用单节点的高速传输特性来降低网络传输对计算性能的影响,从而能够提高任务的计算效率。
实施例四
图5为本发明提供的集群调度装置一个实施例的结构示意图,可用于执行如图3所示的方法步骤。如图5所示,本发明实施例提供的集群调度装置包括:解析模块51、确定模块52、第一调度模块53和判断模块54。
其中,解析模块51用于解析用户提交的任务信息,获取相应任务的负载需求;判断模块54用于根据该负载需求,判断是否存在当前可用的满足该负载需求的单个计算资源;确定模块52用于当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足该负载需求的单个计算资源以及该计算资源的最近存储设备;第一调度模块53用于将任务的任务数据发送至确定模块52确定的计算资源的最近存储设备,使得该计算资源通过访问其最近存储设备来对该任务进行计算操作,该最近存储设备为在传输距离上与计算资源最接近的存储设备。
在本发明实施例中,在进行任务调度时,首先,由解析模块51解析用户提交的任务信息,以获取相应任务的负载需求。然后,判断模块54根据解析模块51解析出的该任务的负载需求,判断是否存在当前可用的满足该负载需求的单个计算资源。当存在当前可用的满足负载需求的单个计算资源时,确定模块52根据该任务的负载需求信息,以及当前可用计算资源的计算能力,在当前可用的计算资源中确定一个满足上述负载需求的单个计算资源。在确定模块52确定了满足负载需求条件的计算资源后,第一调度模块53将该任务的任务数据发送至该计算资源的最近存储设备,使得该计算资源通过访问其最近存储设备来对任务进行计算操作。
具体地,在本发明实施例中,计算资源的最近存储设备可以为该计算资源的本地物理存储设备,即该计算资源所在服务器硬件上直接附加的物理存储设备(本地存储);也可以为申请云计算实例时直接与实例绑定的云盘等虚拟存储设备。
本发明实施例提供的集群调度装置,通过综合考虑任务的负载需求与计算节点的计算能力,寻找能够满足任务所需负载需求的单个计算节点,将任务数据调度到最靠近该计算节点的存储设备,从而能够利用单节点的高速传输特性来降低网络传输对计算性能的影响,从而能够提高任务的计算效率。
实施例五
图6为本发明提供的集群调度装置另一个实施例的结构示意图。如图6所示,在上述图5所示实施例的基础上,本实施例提供的集群调度装置,还可以包括:绑定模块61。该绑定模块61可以用于将在传输距离上与计算资源最接近的虚拟存储设备绑定为该计算资源的最近存储设备。
在本发明实施例中,计算资源的最近存储设备可以为申请云计算实例时直接与实例绑定的云盘等虚拟存储设备。
另外,本实施例提供的集群调度装置,还可以包括:第二调度模块62。
该第二调度模块62可以用于在不存在当前可用的满足该负载需求的单个计算资源的情况下,确定当前可用的可联合满足该负载需求的数个计算资源,并将该任务的任务数据发送至共享存储设备,使得数个计算资源通过访问共享存储设备来对该任务进行计算操作。确定模块52则可以用于在存在当前可用的满足该负载需求的计算资源的情况下,执行确定一个当前可用的满足该负载需求的计算资源的操作。
在本发明实施例中,当进行任务调度时,首先,由解析模块51解析用户提交的任务信息,以获取相应任务的负载需求。然后,判断模块54判断是否存在当前可用的满足该负载需求的单个计算资源。若存在,则确定模块52进行后续确定计算资源的操作;若不存在,则第二调度模块62采用多计算资源并行的方式对任务进行计算操作。
进一步地,上述确定模块52还可以用于,在存在多个当前可用的满足该负载需求的单个计算资源的情况下,从多个计算资源中选择与其最接近存储设备的传输距离最小的计算资源。
在本发明实施例中,如果只存在一个满足条件的计算资源,则确定模块52将该计算资源确定为计算该任务的计算节点,进行单节点作业;如果存在多个当前可用的满足该负载需求的单个计算资源时,则确定模块52可以从多个计算资源中选择与其最接近存储设备的传输距离最小的计算资源,以作为计算该任务的计算节点,以尽可能地降低网络传输对计算性能的影响,从而进一步提高任务的计算效率。
本发明实施例提供的集群调度装置,通过综合考虑任务的负载需求与计算节点的计算能力,判断是否存在能够满足任务所需负载需求的单个计算节点,如果存在则将任务数据调度到该计算节点的本地存储设备,若不存在,则采用多节点并行作业,从而能够尽大限度地利用单节点的高速传输特性来降低网络传输对计算性能的影响,从而能够提高任务的计算效率。
实施例六
以上描述了集群调度系统的内部功能和结构,该系统可实现为一种电子设备。图7为本发明提供的电子设备实施例的结构示意图。如图7所示,该电子设备包括存储器71和处理器72。
存储器71,用于存储程序。除上述程序之外,存储器71还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器72,与存储器71耦合,执行存储器71所存储的程序,以用于:
解析用户提交的任务信息,获取相应任务的负载需求;
根据该负载需求,判断是否存在当前可用的满足该负载需求的单个计算资源;
当存在当前可用的满足该负载需求的单个计算资源时,确定一个当前可用的满足该负载需求的单个计算资源以及该计算资源的最近存储设备,其中,最近存储设备为在传输距离上与该计算资源最接近的存储设备;
将该任务的任务数据发送至该计算资源的最近存储设备,使得该计算资源通过访问该最近存储设备来对该任务进行计算操作。
进一步,如图7所示,电子设备还可以包括:通信组件73、电源组件74、音频组件75、显示器76等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。
通信组件73被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件73经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件73还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件74,为电子设备的各种组件提供电力。电源组件74可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件75被配置为输出和/或输入音频信号。例如,音频组件75包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器71或经由通信组件73发送。在一些实施例中,音频组件75还包括一个扬声器,用于输出音频信号。
显示器76包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种集群调度方法,其特征在于,包括:
解析用户提交的任务信息,获取相应任务的负载需求;
根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源;
当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,其中,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备;
将所述任务的任务数据发送至所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作;
其中,所述方法还包括:
当不存在当前可用的满足所述负载需求的单个计算资源时,确定当前可用的可联合满足所述负载需求的数个计算资源,并将所述任务的任务数据发送至共享存储设备,使得所述数个计算资源通过访问所述共享存储设备来对所述任务进行计算操作。
2.根据权利要求1所述的集群调度方法,其特征在于,所述计算资源的最近存储设备为所述计算资源的本地物理存储设备。
3.根据权利要求1所述的集群调度方法,其特征在于,在所述将所述任务的任务数据发送至所述计算资源的最近存储设备之前,还包括:
将在传输距离上与所述计算资源最接近的虚拟存储设备绑定为所述计算资源的最近存储设备。
4.根据权利要求1所述的集群调度方法,其特征在于,所述确定一个当前可用的满足所述负载需求的单个计算资源,包括:
当存在多个当前可用的满足所述负载需求的单个计算资源时,从多个所述计算资源中选择与其最接近存储设备的传输距离最小的所述计算资源。
5.一种集群调度装置,其特征在于,包括:
解析模块,用于解析用户提交的任务信息,获取相应任务的负载需求;
判断模块,用于根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源;
确定模块,用于当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,其中,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备;
第一调度模块,用于将所述任务的任务数据发送至所述确定模块确定的所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作;
其中,所述装置还包括:
第二调度模块,用于在不存在当前可用的满足所述负载需求的单个计算资源的情况下,确定当前可用的可联合满足所述负载需求的数个计算资源,并将所述任务的任务数据发送至共享存储设备,使得所述数个计算资源通过访问所述共享存储设备来对所述任务进行计算操作。
6.根据权利要求5所述的集群调度装置,其特征在于,所述计算资源的最近存储设备为所述计算资源的本地物理存储设备。
7.根据权利要求5所述的集群调度装置,其特征在于,还包括:
绑定模块,用于将在传输距离上与所述计算资源最接近的虚拟存储设备绑定为所述计算资源的最近存储设备。
8.根据权利要求5所述的集群调度装置,其特征在于,所述确定模块还用于,在存在多个当前可用的满足所述负载需求的单个计算资源的情况下,从多个所述计算资源中选择与其最接近存储设备的传输距离最小的所述计算资源。
9.一种集群调度系统,其特征在于,包括:
集群调度器,用于解析用户提交的任务信息,获取相应任务的负载需求;
集群资源管理组件,用于根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源,当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,将所述任务的任务数据发送至所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备;
其中,所述集群资源管理组件还用于,当不存在当前可用的满足所述负载需求的单个计算资源时,确定当前可用的可联合满足所述负载需求的数个计算资源,并将所述任务的任务数据发送至共享存储设备,使得所述数个计算资源通过访问所述共享存储设备来对所述任务进行计算操作。
10.根据权利要求9所述的集群调度系统,其特征在于,所述集群资源管理组件还用于,当存在多个当前可用的满足所述负载需求的单个计算资源时,从多个所述计算资源中选择与其最接近存储设备的传输距离最小的所述计算资源。
11.根据权利要求9至10中任一权利要求所述的集群调度系统,其特征在于,还包括:
数据存储设备,用于存储用户提交的所述任务数据。
12.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
解析用户提交的任务信息,获取相应任务的负载需求;
根据所述负载需求,判断是否存在当前可用的满足所述负载需求的单个计算资源;
当存在当前可用的满足所述负载需求的单个计算资源时,确定一个当前可用的满足所述负载需求的单个计算资源以及所述计算资源的最近存储设备,其中,所述最近存储设备为在传输距离上与所述计算资源最接近的存储设备;
将所述任务的任务数据发送至所述计算资源的最近存储设备,使得所述计算资源通过访问所述最近存储设备来对所述任务进行计算操作;
其中,所述处理器还用于:
当不存在当前可用的满足所述负载需求的单个计算资源时,确定当前可用的可联合满足所述负载需求的数个计算资源,并将所述任务的任务数据发送至共享存储设备,使得所述数个计算资源通过访问所述共享存储设备来对所述任务进行计算操作。
CN201910060367.5A 2019-01-22 2019-01-22 集群调度方法、装置和系统以及电子设备 Active CN111459653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910060367.5A CN111459653B (zh) 2019-01-22 2019-01-22 集群调度方法、装置和系统以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910060367.5A CN111459653B (zh) 2019-01-22 2019-01-22 集群调度方法、装置和系统以及电子设备

Publications (2)

Publication Number Publication Date
CN111459653A CN111459653A (zh) 2020-07-28
CN111459653B true CN111459653B (zh) 2023-05-05

Family

ID=71683103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910060367.5A Active CN111459653B (zh) 2019-01-22 2019-01-22 集群调度方法、装置和系统以及电子设备

Country Status (1)

Country Link
CN (1) CN111459653B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445590A (zh) * 2020-10-15 2021-03-05 北京仿真中心 一种计算资源接入及调度系统和方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541652A (zh) * 2010-12-09 2012-07-04 上海杉达学院 集群系统的业务调度方法
CN103530182A (zh) * 2013-10-22 2014-01-22 海南大学 一种作业调度方法和装置
CN103763378A (zh) * 2014-01-24 2014-04-30 中国联合网络通信集团有限公司 基于分布式流式计算系统的任务处理方法、系统及节点
CN104618506A (zh) * 2015-02-24 2015-05-13 庄奇东 一种众包的内容分发网络系统、方法与装置
CN106933669A (zh) * 2015-12-29 2017-07-07 伊姆西公司 用于数据处理的装置和方法
CN108519911A (zh) * 2018-03-23 2018-09-11 上饶市中科院云计算中心大数据研究院 一种基于容器的集群管理系统中资源的调度方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996902B2 (en) * 2012-10-23 2015-03-31 Qualcomm Incorporated Modal workload scheduling in a heterogeneous multi-processor system on a chip

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541652A (zh) * 2010-12-09 2012-07-04 上海杉达学院 集群系统的业务调度方法
CN103530182A (zh) * 2013-10-22 2014-01-22 海南大学 一种作业调度方法和装置
CN103763378A (zh) * 2014-01-24 2014-04-30 中国联合网络通信集团有限公司 基于分布式流式计算系统的任务处理方法、系统及节点
CN104618506A (zh) * 2015-02-24 2015-05-13 庄奇东 一种众包的内容分发网络系统、方法与装置
CN106933669A (zh) * 2015-12-29 2017-07-07 伊姆西公司 用于数据处理的装置和方法
CN108519911A (zh) * 2018-03-23 2018-09-11 上饶市中科院云计算中心大数据研究院 一种基于容器的集群管理系统中资源的调度方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯琳 ; 付勇 ; 陈康 ; 郑纬民 ; .TDDS:基于虚拟集群系统的任务部署与调度.计算机研究与发展.2013,50(05),全文. *

Also Published As

Publication number Publication date
CN111459653A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
US11294714B2 (en) Method and apparatus for scheduling task, device and medium
JP7197612B2 (ja) オンデマンドネットワークコード実行システム上での補助機能の実行
CN111406250B (zh) 无服务器计算环境中的使用经预取的数据的配设
US20200137151A1 (en) Load balancing engine, client, distributed computing system, and load balancing method
CN111950988B (zh) 分布式工作流调度方法、装置、存储介质及电子设备
CN105787077B (zh) 数据同步方法和装置
US10491535B2 (en) Adaptive data synchronization
CN111800443B (zh) 数据处理系统和方法、装置以及电子设备
KR20190020073A (ko) 가속 자원 처리 방법 및 장치, 및 네트워크 기능 가상화 시스템
JP2009541848A (ja) コンピュータマイクロジョブを中断せずに実行するようスケジュールするための方法、システムおよび装置
CN112799854A (zh) 任务处理方法、装置、电子设备及可读存储介质
CN108337127B (zh) 应用性能监控方法、系统、终端及计算机可读存储介质
CN110708377A (zh) 一种数据传输方法、装置和存储介质
EP3058705B1 (en) Data classification for adaptive synchronization
CN111338779B (zh) 资源分配方法、装置、计算机设备和存储介质
CN112395107A (zh) 税控设备控制的方法、装置、存储介质及电子设备
CN111459653B (zh) 集群调度方法、装置和系统以及电子设备
CN112799851B (zh) 多方安全计算中的数据处理方法和相关装置
CN104184817A (zh) 一种下载优化方法及装置、终端
CN114598665A (zh) 资源调度方法、装置和计算机可读存储介质及电子设备
CN117724852A (zh) 一种云电脑计算资源分配方法及装置
US20110047553A1 (en) Apparatus and method for input/output processing of multi-thread
US11720414B2 (en) Parallel execution controller for partitioned segments of a data model
CN114564249A (zh) 推荐调度引擎、推荐调度方法及计算机可读存储介质
CN114138444A (zh) 一种任务调度方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40034092

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant