CN109951558A - 一种超算资源的云调度方法、云调度中心和系统 - Google Patents

一种超算资源的云调度方法、云调度中心和系统 Download PDF

Info

Publication number
CN109951558A
CN109951558A CN201910238089.8A CN201910238089A CN109951558A CN 109951558 A CN109951558 A CN 109951558A CN 201910238089 A CN201910238089 A CN 201910238089A CN 109951558 A CN109951558 A CN 109951558A
Authority
CN
China
Prior art keywords
supercomputing
center
supercomputing center
resource
control centre
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910238089.8A
Other languages
English (en)
Inventor
吴广辉
杨昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PARATERA TECHNOLOGY Co Ltd
Original Assignee
BEIJING PARATERA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PARATERA TECHNOLOGY Co Ltd filed Critical BEIJING PARATERA TECHNOLOGY Co Ltd
Priority to CN201910238089.8A priority Critical patent/CN109951558A/zh
Publication of CN109951558A publication Critical patent/CN109951558A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种超算资源的云调度方法,适于在云调度中心中执行,该云调度中心与客户端、超级计算中心和其它云调度中心相相连接,超级计算中心包括至少一个计算节点和一个资源计算节点,该方法包括:接收来自客户端的作业提交指令,该指令包含所提交作业的属性信息和要执行所述作业的性能指标;根据所述性能指标检索出至少一个超级计算中心;从所检索到的各超级计算中心的资源计算节点处获取该超级计算中心的资源使用信息;结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心;以及将作业提交至所匹配的超级计算中心。本发明还公开了相应的云调度中心和系统。

Description

一种超算资源的云调度方法、云调度中心和系统
技术领域
本发明涉及云计算技术领域,尤其是超算资源的云调度方法、云调度中心和系统。
背景技术
近年来,随着互联网技术和高性能计算机技术的发展,利用超级计算中心强大的硬件资源和云计算技术,用户可以随时随地获取想要的各种计算服务、平台服务和软件服务等。因此,充分发挥超级计算中心资源的优势和性能,拥有良好调度策略的作业管理系统势在必行,以提高管理计算资源和用户作业的效率。然而目前在分配超算资源时,通常是直接给用户分配其所属的超级计算中心上的资源,当该超级计算中心上没有空闲的超算资源或者所剩的空闲超算资源不多、而要提交作业的用户又较多时,用户就得排队等待。这不仅会造成不好的用户体验,还会带来超算资源的浪费。
因此,需要一种方便、高效的超算资源的调度方法,能够自动合理地匹配出合适的超算资源,保证作业的正常执行。
发明内容
为此,本发明提供了超算资源的云调度方法、云调度中心和系统,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种超算资源的云调度方法,适于在云调度中心中执行,该云调度中心与客户端、超级计算中心和其他云调度中心相连接,其中每个超级计算中心包括至少一个计算节点和一个资源计算节点,该方法包括步骤:接收来自客户端的作业提交指令,该作业提交指令包含所提交作业的属性信息和要执行所述作业的性能指标;根据该性能指标检索出至少一个超级计算中心;从所检索到的各超级计算中心的资源计算节点处获取该超级计算中心的资源使用信息;结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心;以及将作业提交至所匹配的超级计算中心。
可选地,在根据本发明的云调度方法中,根据作业的性能指标检索出至少一个超级计算中心的步骤包括:根据该性能指标,发送查询请求给与云调度中心相连的超级计算中心和其它云调度中心;接收超级计算中心和其它云调度中心返回的检索结果,该检索结果中包含至少一个超级计算中心。
可选地,在根据本发明的云调度方法中,作业的属性信息包括:作业类型、作业规模、作业所需节点数和作业的处理模式,以及所述结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心的步骤包括:获取作业的处理模式;当作业的处理模式是排队处理模式时,根据所获取的资源使用信息,按照所提交作业的作业类型、作业规模、作业所需节点数,从所检索到的超级计算中心中选取至少一个超级计算中心;计算所选取的至少一个超级计算中心的排队时间和运行成本;选取排队时间和运行成本综合最优的超级计算中心,作为用于执行该作业的超级计算中心。
可选地,在根据本发明的云调度方法中,结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心的步骤还包括:当作业的处理模式是立即处理模式时,根据所述资源使用信息确定当前空闲节点数满足作业所需节点数的超级计算中心,并将该作业分派给其中运行成本最低的超级计算中心进行处理。
可选地,在根据本发明的云调度方法中,资源使用信息包括当前空闲节点、总节点数量,以及运行中的作业规模、作业处理速率和作业所占节点数中的至少一种。
可选地,在根据本发明的云调度方法中,计算所选取的至少一个超级计算中心的排队时间的步骤包括:基于所选取的超级计算中心的运行中的作业规模和作业处理速率,来确定超级计算中心执行完所述运行中的作业所需的时间,作为排队时间。。
可选地,在根据本发明的云调度方法中,性能指标包括浮点运算单元、浮点运算能力、CPU主频、CPU插座、CPU核、CPU超线程、内存容量、内存主频、文件系统、存储介质、存储接口、网络类型、网络速率、网络带宽和网络延迟中的至少一种。
可选地,在根据本发明的云调度方法中,运行成本包括超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用、运营费用中的至少一种。
可选地,在根据本发明的云调度方法中,运行成本通过将超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用和运营费用进行加权求和得到。
可选地,在根据本发明的云调度方法中,选取排队时间和运行成本综合最优的超级计算中心的步骤包括:将排队时间和运行成本均按从小到大的顺序进行排序,对应得到第一排序和第二排序;以及选取第一排序和第二排序的总名次最小的超级计算中心,作为用于执行该作业的超级计算中心。
根据本发明的另一方面,提供了一种适于执行超算资源云调度方法的云调度中心,该云调度中心与客户端、超级计算中心和其他云调度中心相连接,其中每个超级计算中心包括至少一个计算节点和一个资源计算节点,所述方法包括步骤:指令接收模块,适于接收来自客户端的作业提交指令,所述作业提交指令包含所提交作业的属性信息和要执行作业的性能指标;检索模块,适于根据该性能指标检索出至少一个超级计算中心;信息获取模块,适于从所检索到的各超级计算中心的资源计算节点处获取该超级计算中心的资源使用信息;匹配模块,适于结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心;以及作业提交模块,适于将作业提交至所匹配的超级计算中心。
可选地,在根据本发明的云调度中心中,检索模块适于根据以下方法检索出至少一个超级计算中心的步骤包括:根据该性能指标,发送查询请求给与云调度中心相连的超级计算中心和其它云调度中心;接收超级计算中心和其它云调度中心返回的检索结果,该检索结果中包含至少一个超级计算中心。
可选地,在根据本发明的云调度中心中,作业的属性信息包括:作业类型、作业规模、作业所需节点数和作业的处理模式,以及匹配模块适于根据以下方法从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心:获取作业的处理模式;当作业的处理模式是排队处理模式时,根据所获取的资源使用信息,按照所提交作业的作业类型、作业规模、作业所需节点数,从所检索到的超级计算中心中选取至少一个超级计算中心;计算所获取的至少一个超级计算中心的排队时间和运行成本;选取排队时间和运行成本综合最优的超级计算中心,作为用于执行该作业的超级计算中心。
可选地,在根据本发明的云调度中心中,资源使用信息包括当前空闲节点、总节点数量,以及运行中的作业规模、作业处理速率和作业所占节点数中的至少一种。
可选地,在根据本发明的云调度中心中,性能指标包括浮点运算单元、浮点运算能力、CPU主频、CPU插座、CPU核、CPU超线程、内存容量、内存主频、文件系统、存储介质、存储接口、网络类型、网络速率、网络带宽和网络延迟中的至少一种。
可选地,在根据本发明的云调度中心中,运行成本包括超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用、运营费用中的至少一种。
根据本发明的又一方面,还提供了一种超算资源的云调度系统,包括:至少一个如上所述的云调度中心;客户端,适于响应于用户提交作业的请求,发送作业提交指令给云调度中心;以及多个超级计算中心,其中,各超级计算中心包括多个计算节点和一个资源计算节点,计算节点适于运行客户端提交的作业。
根据本发明的超算资源的云调度方案,先根据作业的性能指标,检索出至少一个适合运行该作业的超级计算中心,接着,再结合作业的属性信息和所检索的各超级计算中心的资源使用信息,匹配到最适合运行该作业、且性价比最高的超级计算中心,来运行该作业。而调度的整体是分布在各个地理区域的超级计算中心,通过相互连接的云调度中心来转发作业提交指令,这种方法在保证高效匹配的同时,避免了资源的浪费。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的超算资源的云调度系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的结构框图;
图3示出了根据本发明一个实施例的超算资源的云调度方法300的流程图;以及
图4示出了根据本发明一个实施例的适于执行超算资源云调度方法的云调度中心400的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的超算资源的云调度系统100的示意图。如图1所示,该系统100可包括多个超级计算中心110、多个云调度中心120和多个客户端130,其中,对于每个超级计算中心110,均有一个云调度中心120与其建立连接,且云调度中心120之间相互连接,客户端130分别与多个云调度中心120连接。根据本发明的实施方式,不同的超级计算中心110可布置于不同的地理位置。应当理解,图1所示的云调度系统100仅是示例性的,在具体实现中可以有不同数量的超级计算中心110、云调度中心120和客户端130,本发明对超级计算中心110、云调度中心120和客户端130的数量和部署不做限制。
根据一种实现方式,每个超级计算中心110包含至少一个队列,每个队列又包括多个计算节点,超级计算中心110通过这些计算节点运行各种作业(或应用),完成计算任务。另外,每个超级计算中心110中还包括一个资源计算节点,用于计算及记录该超级计算中心的计算资源,具体可计算及记录该超级计算中心上每个队列的计算资源、以及在该超级计算中心上运行的每个作业的处理情况。例如,资源计算节点可记录其所属的超级计算中心的资源使用情况以及空闲节点、总节点、CPU、内存、网络、存储,硬件资源配置信息、节点性能数据、节点应用作业数据、节点进程数据和函数级数据、以及,在该超级计算中心上运行的每个作业的作业标识、作业规模、作业类型、作业所占节点数、作业处理速率、执行作业的队列标识等。可选地,还可以记录处理该作业的计算节点列表信息、计算节点的CPU核数、节点配置(计算节点的物理配置信息)、作业执行时是否独占计算节点等信息。
云调度中心120可以分别部署于多个地理位置,其可以实现为单个计算设备也可以实现为集群。可选地,云调度中心120中还可存储与其相连接的超级计算中心110的运行成本的第一排序,并进行定期更新。当然该运行成本也可以不预先存储,例如,云调度中心120上仅存储与其相连的超级计算中心110所在区域的电费、机房托管费、维护费用等,在每次分配作业时再进行实时计算该超级计算中心的运行成本,本发明对此不作限制。其中,运行成本包括超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用、运营费用中的至少一种。进一步地,运行成本可通过将超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用和运营费用进行加权求和得到。关于各单项的权重值,本领域技术人员可以根据需要自行设定,本发明对此不作限制。
客户端130响应于用户提交作业的请求,发送作业提交指令给云调度中心120。根据一种实施例,客户端130将作业提交指令发送给与其相连的一个云调度中心120上,作业提交指令中包含所提交作业的属性信息和要执行该作业的性能指标(换句话说,符合用户要求的允许执行该作业的超级计算中心的性能指标)。云调度中心120在接收到该作业提交指令后,选择合适的超级计算中心对该作业进行分配。
假设在一个云调度系统100中,云调度中心A与超级计算中心A相连,云调度中心B与超级计算中心B相连,且云调度中心A和云调度中心B相连,客户端110同时连接到云调度中心A和云调度中心B。以下示出根据本发明实施方式的选择合适的超级计算中心的过程。
根据一种实施例,云调度中心A在接收到来自客户端110的作业提交请求时,会向超级计算中心A发送查询请求;同时,云调度中心A将该作业提交请求转发给云调度中心B,由云调度中心B向超级计算中心B发送查询请求(以便超级计算中心B返回查询的结果给云调度中心B)。而后,云调度中心A会接收到超级计算中心A返回的查询结果,以及,由云调度中心B转发的超级计算中心B返回的查询结果云调度中心A再根据所获取的这些查询结果,判断将作业提交到超级计算中心A还是超级计算中心B上去执行。这样,执行作业的可能是与云调度中心直接相连的超级计算中心,也可能是其他超级计算中心。
通常,云调度中心A会先接收到来自超级计算中心A的查询结果,再接收到来自云调度中心B的查询结果。考虑到选择超级计算中心的效率等因素,根据另一种实施例,云调度中心A先将作业提交请求发送给超级计算中心A,以接收超级计算中心A的查询结果。若云调度中心A依据该查询结果判断后,确定可以将作业提交到超级计算中心A(例如,结合作业的属性信息和所获取的资源使用信息,确定利用超级计算中心A运行作业可以满足条件),则将作业提交至超级计算中心A。若云调度中心A依据该查询结果判断后,确定不可以将作业提交到超级计算中心A(或者说,仅利用超级计算中心A无法完全运行作业,不限于此),则将作业提交请求转发给云调度中心B,由云调度中心B将其发送至超级计算中心B,并将接收到的超级计算中心B的查询结果返回给云调度中心A,由云调度中心A继续依据查询结果进行判断,直到匹配出合适的超级计算中心为止。
通常,每个作业都具有一个作业配置文件,该作业配置文件中包含了要执行该作业的性能指标。性能指标包括浮点运算单元、浮点运算能力、CPU主频、CPU插座、CPU核、CPU超线程、内存容量、内存主频、文件系统、存储介质、存储接口、网络类型、网络速率、网络带宽和网络延迟等。用户在提交作业前,可以选择一种或几种性能指标,写入作业配置文件。这样,云调度中心通过读取作业配置文件,获取到要执行该作业的性能指标。而后,对作业进行分析,如识别程序文件中指令(即函数符号)的作业程序分析,以及识别作业数据大小和规模的作业数据分析,确定作业可以运行在哪个超级计算中心(更具体地,超级计算中心的哪个队列)上。
在超算云调度模式下,调度的整体是分布在各个地理区域的超级计算中心,调度的资源有CPU、内存、存储、网络,调度的基本模块是应用(也可以称之为作业,比如vasp、fluent)。下表示出了根据本发明一个实施例的示例超级计算中心的示例属性(部分):
根据本发明的实施方式,上述云调度系统100中的各种部件(如超级计算中心和云调度中心),可以通过诸如局域网(LAN)或者如因特网的广域网(WAN)的一个或多个网络进行通信。其中,超级计算中心中的每个计算节点、云调度中心、客户端均可以通过如下所述的计算设备200来实现。
图2示出了根据本发明一个实施例的计算设备200的示意图。如图3所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器304可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中,应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。程序数据224包括指令,在根据本发明的计算设备200中,程序数据224包含用于执行超算资源的云调度方法300的指令。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器360,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备362通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备200可以实现为服务器,例如数据库服务器、应用程序服务器和WEB服务器等,也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在根据本发明的实施例中,计算设备200被配置为执行根据本发明的超算资源的云调度方法300。
图3示出了根据本发明一个实施例的超算资源的云调度方法300的流程图,该方法适于在如上所述的云调度中心120中执行。以下将结合图1中所描述的系统100,对云调度方法300进行描述。
如图3所示,该方法始于步骤S310。
在步骤S310中,接收来自客户端130的作业提交指令,该作业提交指令包含所提交作业的属性信息和要执行该作业的性能指标。
根据一个实施例,作业的属性信息包含作业类型、作业规模、作业所需节点数、作业的处理模式,其中作业的处理模式包括立即处理模式和排队处理模式。如前文所述,用户会为其作业设置性能指标的要求,其中性能指标包括浮点运算单元、浮点运算能力、CPU主频、CPU插座、CPU核、CPU超线程、内存容量、内存主频、文件系统、存储介质、存储接口、网络类型、网络速率、网络带宽和网络延迟中的至少一种。如用户可要求浮点运算能力的最小值、CPU核的最小值,等等。
具体地,浮点运算单元FPU(FPU:Floating-Point Unit)是专用于浮点运算的处理单元,是处理器中专门进行浮点算术运算的电路单元。浮点运算能力是每秒浮点运算次数,用来估算电脑的执行效能。CPU主频即CPU内核工作的时钟频率。CPU插座(CPU socket)即独立CPU,一颗CPU中可能有很多核,一个核中有1个或2个超线程。内存主频使用来表示内存的速度,它代表着该内存所能达到的最高工作频率。文件系统是操作系统中负责管理和存储文件信息的软件机构称为文件管理系统。存储接口即硬盘与主机系统间的连接部件,作用是在硬盘缓存和主机内存之间传输数据。例如IDE、SATA、SCSI、光纤等。存储介质:存储媒介,例如固态硬盘(SSD盘)、机器硬盘(HDD盘)、混合硬盘(HHD盘)等。网络类型即网络介质种类,比如以太网洛、Infiniband网络等。网络速率即每秒钟传输的二进制数的位数。网络延迟:网络延时指一个数据包从用户的计算机发送到网站服务器,然后再立即从网站服务器返回用户计算机的来回时间。
随后,在步骤S320中,根据作业的性能指标检索出至少一个超级计算中心。也就是检索符合用户性能指标要求的超级计算中心。具体地,可以根据该性能指标,发送查询请求给与云调度中心相连的超级计算中心和其它云调度中心;接收超级计算中心和其它云调度中心返回的检索结果,该检索结果中包含至少一个超级计算中心。其中,云调度中心发送查询请求时,可以将查询请求发送给对应超级计算中心的资源计算节点,如查询对应超级计算中心的网络带宽、网络延迟等,并接收该资源计算节点返回的查询结果。
随后,在步骤S330中,从所检索到的各超级计算中心的资源计算节点处获取各超级计算中心的资源使用信息。进一步可获取各超级计算中心下各队列的资源使用信息,具体可包括各队列下各计算节点的资源使用信息和各队列下各作业的资源占用信息。
根据一个实施例,资源使用信息包括当前空闲节点、总节点数量,以及运行中的作业规模、作业处理速率和作业所占节点数中的至少一种。当然,还可以包括任意与资源使用和作业处理有关的信息,如作业标识、处于该作业的队列标识、该队列的当前空闲节点,等等,本发明对此不作限制。
随后,在步骤S340中,结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心。
具体地,该步骤可以获取作业的处理模式;当作业的处理模式是排队处理模式时,根据所获取的资源使用信息,按照所提交作业的作业类型、作业规模、作业所需节点数,从所检索到的超级计算中心中选取至少一个超级计算中心;计算所选取的至少一个超级计算中心的排队时间和运行成本;选取排队时间和运行成本综合最优的超级计算中心,作为用于执行该作业的超级计算中心。其中排队时间可认为是从所检索出的超级计算中心中,空闲出作业所需节点数所需要的时间(即,作业要等待多长时间可以被该超级计算中心所执行),运行成本则可以实时获取当前各单项费用进行加权求和,或者可以选用云调度中心所存储的各单项费用进行处理。
需要说明的是,各超级计算中心的排队时间和运行成本可以由与各超级计算中心分别直连的云调度中心计算,再统一汇总于用户所提交的云调度中心A。其中,对于与云调度中心A直接相连的超级计算中心A,其资源使用信息、排队时间和运行成本可以由云调度中心A进行获取和计算。而其他超级计算中心的排队时间和运行成本则可以通过与该超级计算中心直连的云调度中心来计算,并发送给云调度中心A。这里,其他云调度中心获取与之相连的超级计算中心的资源使用信息,并根据该资源使用信息计算其对应的排队时间和运行成本后发送给云调度中心A。
基于此,方法300还可以包括步骤:从与该云调度中心连接的超级计算中心处获取该超级计算中心的资源使用信息,并根据该资源使用信息计算该超级计算中心的排队时间和运行成本;以及从其他云调度中心处获取与各云调度中心分别相连的其他超级计算中心的排队时间和运行成本,其中其他云调度中心适于通过获取对应超级计算中心的资源使用信息来计算其排队时间和运行成本。
根据另一个实施例,计算排队时间时,基于所选取的超级计算中心的运行中的作业规模和作业处理速率,来确定超级计算中心执行完所述运行中的作业所需的时间,作为排队时间。应当了解,当超级计算中心上的空闲节点数足够大,完全满足作业所需节点数时,排队时间为0。当超级计算中心上的空闲节点数小于作业所需节点数时,可以根据超级计算中心的当前空闲节点数和作业所需节点数,来计算出差额节点数(即,还差多少个节点可以运行该作业),再根据当前超级计算中心运行的作业中,运行中的作业所占节点数、作业规模和作业处理速率等,确定出该超级计算中心执行完运行中的一个或多个作业(释放出的节点数正好不小于差额节点数时)所需的时间,作为排队时间。
进一步地,排队时间还可以直接定位到队列层级,此时可以获取各超级计算中心中各队列的总节点数满足作业所需节点数的队列;根据各超级计算中心各队列的当前空闲节点数和作业所需节点数计算当前所需节点数;获取对应超级计算中心中各队列所运行的作业中作业所占节点数满足当前所需节点数的作业,并根据该作业的作业规模和作业处理速率计算完成该作业的所需的排队时间。这样就可以知道超级计算中心中每个队列空闲出作业所需节点数的时间,进而将各队列的排队时间进行升序排序。
根据一个实施例,选取排队时间和运行成本综合最优的超级计算中心的步骤可以包括:将排队时间和运行成本均按从小到大的顺序进行排序,对应得到第一排序和第二排序;选取第一排序和第二排序的总名次最小的至少一个超级计算中心,作为用于执行该作业的超级计算中心。其中,总名次最小是指第一排序的名次和第二排序的名次之和最小。
进一步地,若第一排序和第二排序均以超级计算中心为最小单元,则直接对两个排序名次求和即可,得到超级计算中心的总名次。这样就可把作业分配给对应的超级计算中心,并由基础作业调度系统(如,slurm、LSF)进行调度。当然,若第一排序以各超级计算中心的队列为最小单元,第二排序以超级计算中心为最小单元,则在确定综合排序时,取队列的第一排序名次和队列所属的超级计算中心的第二排序名次,得到队列的总名次。这样就可把作业分配给综合排序最优的队列中,具体地,先提交作业到该队列所属的超级计算中心,再提交到该超级计算中心下的该队列。
根据本发明的又一个实施例,结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心的步骤还可以包括:当作业的处理模式为立即处理模式时,根据资源使用信息确定当前空闲节点数满足作业所需节点数的超级计算中心,并将该作业分派给其中计算费用最低的超级计算中心进行处理。
同理,立即处理模式下也可以直接定位到超级计算中心下的队列级,也就是根据各超级计算中心下各队列的资源使用信息确定当前空闲节点数满足作业所需节点数的队列,确定各队列所属超级计算中心及该超级计算中心的运行成本,确定其中运行成本最低的超级计算中心,并将作业分配给该超级计算中心下当前空闲节点数最多的队列进行处理。
随后,在步骤S350中,将作业提交至所匹配的超级计算中心进行处理,进一步地可将作业提交至所匹配的超级计算中心的队列进行处理。
根据本发明的另一个实施例,超级计算中心的计算节点状态可能会随时发生变化,为保证性能匹配的准确度和有效性,资源计算节点会实时监测超级计算中心的计算节点状态,故在统计当前空闲节点数和总节点数时,还可以过滤掉状态异常的计算节点。可选地,计算节点状态异常包括:计算节点关机、计算节点没有联网、计算节点已被占用、计算节点资源利用率高于预定值、计算节点温度过高、计算节点磁盘空间已满等。
根据本发明的又一个实施例,用户还可以自主选择超算调度方案,在方案同样可包括排队模式和立即模式。其中,排队模式可分为对等调度模式(区域调度模式)和主从调度模式(联合调度模式)。对等调度模式下,云调度中心接收用户登录后,由用户选择地理区域的超级计算中心并上传作业,云调度中心将作业分派到所选择的超级计算中心,并进一步检索该超级计算中心下的队列资源,选择性价比最高的队列进行提交作业,并由该队列运行作业。主从调度模式下,云调度中心接收用户登录后,由用户检索队列资源并选择心仪的队列上传作业,之后云调度中心将作业分派到该队列所属超级计算中心,并提交作业后进行运行。立即运行模式下,接收用户登录后,会检索队列是否有空闲资源,若是则提交作业,并由云调度中心分派到对应超级计算中心,上传作业并运行;反之则等待一定时间重新检索是否有空闲资源。
根据本发明的又一个实施例,云调度中心还可以将作业所需节点数发送给与之相连的超级计算中心和其他云调度中心,并由其给他云调度中心发送给对应的超级计算中心。之后,各超级计算中心的资源计算节点对本超级计算中心的资源使用情况进行统计,当某队列满足作业所需节点数时就向对应的云调度中心发送通知信息,以便云调度中心响应于该通知进行后续处理。
图4示出了根据本发明一个实施例的云调度中心400(对应于系统100中的云调度中心120)的示意图,该云调度中心与客户端、超级计算中心和其他云调度中心相连接,其中每个超级计算中心包括至少一个计算节点和一个资源计算节点,资源计算节点用于计算该超级计算中心的计算资源。
如图4所示,云调度中心400包括指令接收模块410、检索模块420、信息获取模块430、匹配模块440和作业提交模块450。另外,云调度中心400中还可存储各超级计算中心的运行成本及该运行成本的第一排序,其运行成本包括超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用、运营费用中的至少一种。根据一个实施例,运行成本可以通过各单项加权求和得到。
指令接收模块410适于接收客户端提交的作业提交指令,作业提交指令包含作业的属性信息和要执行该作业的性能指标,其中属性信息包括作业类型、作业规模、作业所需节点数和作业的处理模式,作业的处理模式包括立即处理模式和排队处理模式。性能指标包括浮点运算单元、浮点运算能力、CPU主频、CPU插座、CPU核、CPU超线程、内存容量、内存主频、文件系统、存储介质、存储接口、网络类型、网络速率、网络带宽和网络延迟中的至少一种。
检索模块420适于根据作业的性能指标检索出至少一个超级计算中心。具体地,检索模块420适于根据以下方法检索出至少一个超级计算中心的步骤包括:根据性能指标,发送查询请求给与云调度中心相连的超级计算中心和其它云调度中心;接收超级计算中心和其它云调度中心返回的检索结果,该检索结果中包含至少一个超级计算中心。
信息获取模块430从所检索到的各超级计算中心的资源计算节点处获取各超级计算中心的资源使用信息。具体地,可获取各超级计算中心下各队列的资源使用信息,及各队列下各计算节点的资源使用信息。其中资源使用信息包括当前空闲节点、总节点数量,以及运行中的作业规模、作业处理速率和作业所占节点数中的至少一种。
匹配模块440适于结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心。
根据一个实施例,匹配模块440适于根据以下方法从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心:获取作业的处理模式;当作业的处理模式是排队处理模式时,根据所获取的资源使用信息,按照所提交作业的作业类型、作业规模、作业所需节点数,从所检索到的超级计算中心中选取至少一个超级计算中心;计算所选取的至少一个超级计算中心的排队时间和运行成本;选取排队时间和运行成本综合最优的超级计算中心,作为用于执行该作业的超级计算中心。进一步地,匹配模块440可以将排队时间和运行成本均按从小到大的顺序进行排序,对应得到第一排序和第二排序,并选取第一排序和第二排序的总名次最小的超级计算中心,作为用于执行该作业的超级计算中心。
根据一个实施例,匹配模块440可以根据以下方法计算排队时间;基于所选取的超级计算中心的运行中的作业规模和作业处理速率,来确定超级计算中心执行完所述运行中的作业所需的时间,作为排队时间。具体地,获取对应超级计算中心中所运行的作业中作业所占节点数满足当前所需节点数的作业,并根据该作业的作业规模和作业处理速率计算完成该作业的所需的排队时间。进一步地,匹配模块440可以获取各超级计算中心中各队列的总节点数满足作业所需节点数的队列;根据各超级计算中心各队列的当前空闲节点数和作业所需节点数计算当前所需节点数;获取对应超级计算中心中各队列所运行的作业中作业所占节点数满足当前所需节点数的作业,并根据该作业的作业规模和作业处理速率计算完成该作业的所需的排队时间,从而可知道超级计算中心中每个队列空闲出作业所需节点数的时间,进而将各队列的排队时间进行排序。
根据本发明的一个实施例,匹配模块440还适于在立即处理模式下,根据资源使用信息确定当前空闲节点数满足作业所需节点数的超级计算中心,并将该作业分派给其中计算费用最低的超级计算中心进行处理。进一步地,立即处理模块可以根据各超级计算中心下各队列的资源使用信息确定当前空闲节点数满足作业所需节点数的队列,确定各队列所属超级计算中心及该超级计算中心的计算费用,确定其中计算费用最低的超级计算中心,并将作业分配给该超级计算中心下当前空闲节点数最多的队列进行处理。
作业提交模块450适于将作业提交至所匹配的超级计算中心,其进一步可以将作业提交至所匹配的队列,之后可由传统的基础调度系统进行调度,这里不再赘述。例如可获取该队列中满足作业所需节点数量的计算节点,可以优选计算性能比较优异的计算节点,把作业分派给这些计算节点进行处理。
根据本发明的技术方案,不采用传统的用户位于哪个超级计算中心分区就将其提交的作业分配到对应的超级计算中心的方式,而是自适应地为用户选择最适合用户且性价比最高的超级计算中心,以提高作业计算效率,提升用户体验。超算云中心作业调度的调度模式可以划分为主动运行模式(用户可以自主选择作业运行方式)和自动运行模式(云超级计算中心自动调度作业。在自动运行模式下,能够根据用户所选择的排队模式和立即模式,自动地匹配出能够运行所提交作业、且性价比最优的超级计算中心及队列。进一步地,本发明还可以监测每个计算节点的状态,过滤掉性能太差或者状态异常的计算节点,以确保执行作业的计算节点性能最优。
A9、如A8所述的方法,其中,所述运行成本通过将超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用和运营费用进行加权求和得到。
A10、如A1-A9中任一项所述的方法,其中所述选取排队时间和运行成本综合最优的超级计算中心的步骤包括:将所述排队时间和运行成本均按从小到大的顺序进行排序,对应得到第一排序和第二排序;以及选取第一排序和第二排序的总名次最小的超级计算中心,作为用于执行该作业的超级计算中心。
B12、如B11所述的云调度中心,其中,所述检索模块适于根据以下方法检索出至少一个超级计算中心的步骤包括:根据所述性能指标,发送查询请求给与所述云调度中心相连的超级计算中心和其它云调度中心;接收所述超级计算中心和其它云调度中心返回的检索结果,该检索结果中包含至少一个超级计算中心。
B13、如B11所述的云调度中心,其中,作业的属性信息包括:作业类型、作业规模、作业所需节点数和作业的处理模式,以及所述匹配模块适于根据以下方法从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心:获取作业的处理模式;当作业的处理模式是排队处理模式时,根据所获取的资源使用信息,按照所提交作业的作业类型、作业规模、作业所需节点数,从所检索到的超级计算中心中选取至少一个超级计算中心;计算所获取的至少一个超级计算中心的排队时间和运行成本;选取排队时间和运行成本综合最优的超级计算中心,作为用于执行该作业的超级计算中心。
B14、如B11所述的云调度中心,其中,所述资源使用信息包括当前空闲节点、总节点数量,以及运行中的作业规模、作业处理速率和作业所占节点数中的至少一种。
B15、如B11-B14中任一项所述的云调度中心,其中,性能指标包括浮点运算单元、浮点运算能力、CPU主频、CPU插座、CPU核、CPU超线程、内存容量、内存主频、文件系统、存储介质、存储接口、网络类型、网络速率、网络带宽和网络延迟中的至少一种。
B16、如B11-B15中任一项所述的云调度中心,其中,所述运行成本包括超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用、运营费用中的至少一种。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的超算资源的云调度方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种超算资源的云调度方法,适于在云调度中心中执行,所述云调度中心分别与客户端、超级计算中心和其它云调度中心相连接,其中超级计算中心包括至少一个计算节点和一个资源计算节点,所述方法包括步骤:
接收来自客户端的作业提交指令,所述作业提交指令包含所提交作业的属性信息和要执行所述作业的性能指标;
根据所述性能指标检索出至少一个超级计算中心;
从所检索到的各超级计算中心的资源计算节点处获取该超级计算中心的资源使用信息;
结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心;以及
将作业提交至所匹配的超级计算中心。
2.如权利要求1所述的方法,其中,所述根据性能指标检索出至少一个超级计算中心的步骤包括:
根据所述性能指标,发送查询请求给与所述云调度中心相连的超级计算中心和其它云调度中心;
接收所述超级计算中心和其它云调度中心返回的查询结果,该查询结果中包含所检索到的至少一个超级计算中心。
3.如权利要求1所述的方法,其中,作业的属性信息包括:作业类型、作业规模、作业所需节点数和作业的处理模式,以及
所述结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心的步骤包括:
获取作业的处理模式;
当作业的处理模式是排队处理模式时,根据所获取的资源使用信息,按照所提交作业的作业类型、作业规模、作业所需节点数,从所检索到的超级计算中心中选取至少一个超级计算中心;
计算所选取的至少一个超级计算中心的排队时间和运行成本;
选取排队时间和运行成本综合最优的超级计算中心,作为用于执行该作业的超级计算中心。
4.如权利要求3所述的方法,其中,所述结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心的步骤还包括:
当作业的处理模式是立即处理模式时,根据所述资源使用信息确定当前空闲节点数满足作业所需节点数的超级计算中心,并将该作业分派给其中运行成本最低的超级计算中心进行处理。
5.如权利要求1-4中任一项所述的方法,其中,所述资源使用信息包括当前空闲节点、总节点数量,以及运行中的作业规模、作业处理速率和作业所占节点数中的至少一种。
6.如权利要求5所述的方法,其中,计算所选取的至少一个超级计算中心的排队时间的步骤包括:
基于所选取的超级计算中心的运行中的作业规模和作业处理速率,来确定超级计算中心执行完所述运行中的作业所需的时间,作为排队时间。
7.如权利要求1-6中任一项所述的方法,其中,性能指标包括浮点运算单元、浮点运算能力、CPU主频、CPU插座、CPU核、CPU超线程、内存容量、内存主频、文件系统、存储介质、存储接口、网络类型、网络速率、网络带宽和网络延迟中的至少一种。
8.如权利要求1-7中任一项所述的方法,其中,所述运行成本包括超级计算中心的资源折旧率、当地电费、机房托管费、网络运营商费用、维护费用、运营费用中的至少一种。
9.一种适于执行超算资源云调度方法的云调度中心,所述云调度中心与客户端、超级计算中心和其它云调度中心相连接,其中超级计算中心包括至少一个计算节点和一个资源计算节点,所述装置包括:
指令接收模块,适于接收来自客户端的作业提交指令,所述作业提交指令包含所提交作业的属性信息和要执行所述作业的性能指标;
检索模块,适于根据所述性能指标检索出至少一个超级计算中心;
信息获取模块,适于从所检索到的各超级计算中心的资源计算节点处获取该超级计算中心的资源使用信息;
匹配模块,适于结合作业的属性信息和所获取的资源使用信息,从所检索到的超级计算中心中匹配出至少一个用于执行该作业的超级计算中心;以及
作业提交模块,适于将作业提交至所匹配的超级计算中心。
10.一种超算资源的云调度系统,包括:
至少一个如权利要求9所述的云调度中心;
客户端,适于响应于用户提交作业的请求,发送作业提交指令给所述云调度中心;以及
多个超级计算中心,其中,各超级计算中心包括多个计算节点和一个资源计算节点,所述计算节点适于运行所述客户端提交的作业。
CN201910238089.8A 2019-03-27 2019-03-27 一种超算资源的云调度方法、云调度中心和系统 Pending CN109951558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910238089.8A CN109951558A (zh) 2019-03-27 2019-03-27 一种超算资源的云调度方法、云调度中心和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910238089.8A CN109951558A (zh) 2019-03-27 2019-03-27 一种超算资源的云调度方法、云调度中心和系统

Publications (1)

Publication Number Publication Date
CN109951558A true CN109951558A (zh) 2019-06-28

Family

ID=67012056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910238089.8A Pending CN109951558A (zh) 2019-03-27 2019-03-27 一种超算资源的云调度方法、云调度中心和系统

Country Status (1)

Country Link
CN (1) CN109951558A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737521A (zh) * 2019-10-14 2020-01-31 中国人民解放军32039部队 基于任务调度中心的容灾方法和装置
CN110806928A (zh) * 2019-10-16 2020-02-18 北京并行科技股份有限公司 一种作业提交方法及系统
CN111061553A (zh) * 2019-12-17 2020-04-24 湖南大学 一种用于超级计算中心的并行任务调度方法和系统
CN111309491A (zh) * 2020-05-14 2020-06-19 北京并行科技股份有限公司 一种作业协同处理方法及系统
CN112817713A (zh) * 2021-01-27 2021-05-18 广州虎牙科技有限公司 作业调度方法、装置和电子设备
CN112882851A (zh) * 2021-03-24 2021-06-01 国家超级计算天津中心 一种基于超级计算机的云交互系统
CN113157403A (zh) * 2020-01-07 2021-07-23 中科寒武纪科技股份有限公司 作业处理的方法、装置、计算机设备及可读存储介质
CN113254201A (zh) * 2021-05-17 2021-08-13 清华大学 超算云计算平台化管理方法和管理平台
CN114048027A (zh) * 2021-10-21 2022-02-15 中国科学技术大学 一种应用于超算集群调度的作业运行参数优化方法
CN114610474A (zh) * 2022-05-12 2022-06-10 之江实验室 一种异构超算环境下多策略的作业调度方法及系统
CN114664384A (zh) * 2022-03-22 2022-06-24 山东省计算中心(国家超级计算济南中心) 一种基于超算互联网的生物信息分析系统及方法
WO2023237115A1 (zh) * 2022-06-10 2023-12-14 华为技术有限公司 数据处理方法、装置、设备和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469023A (zh) * 2010-11-19 2012-05-23 中国移动通信集团公司 基于云计算的调度方法、单元及系统
CN102917077A (zh) * 2012-11-20 2013-02-06 无锡城市云计算中心有限公司 云计算系统中的资源分配方法
CN103299279A (zh) * 2011-12-29 2013-09-11 华为技术有限公司 一种资源调度方法及设备
CN103812895A (zh) * 2012-11-12 2014-05-21 华为技术有限公司 调度方法、管理节点以及云计算集群
US8930948B2 (en) * 2012-06-21 2015-01-06 Vmware, Inc. Opportunistically proactive resource management using spare capacity
CN106790529A (zh) * 2016-12-20 2017-05-31 北京并行科技股份有限公司 计算资源的调度方法、调度中心及调度系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469023A (zh) * 2010-11-19 2012-05-23 中国移动通信集团公司 基于云计算的调度方法、单元及系统
CN103299279A (zh) * 2011-12-29 2013-09-11 华为技术有限公司 一种资源调度方法及设备
US8930948B2 (en) * 2012-06-21 2015-01-06 Vmware, Inc. Opportunistically proactive resource management using spare capacity
CN103812895A (zh) * 2012-11-12 2014-05-21 华为技术有限公司 调度方法、管理节点以及云计算集群
CN102917077A (zh) * 2012-11-20 2013-02-06 无锡城市云计算中心有限公司 云计算系统中的资源分配方法
CN106790529A (zh) * 2016-12-20 2017-05-31 北京并行科技股份有限公司 计算资源的调度方法、调度中心及调度系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐高潮、胡亮等: "《分布计算系统》", 31 January 2004 *
李光凤: "《基于网络技术的中小企业供应链融资服务平台研究》", 31 July 2016 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737521A (zh) * 2019-10-14 2020-01-31 中国人民解放军32039部队 基于任务调度中心的容灾方法和装置
CN110806928A (zh) * 2019-10-16 2020-02-18 北京并行科技股份有限公司 一种作业提交方法及系统
CN111061553B (zh) * 2019-12-17 2023-10-10 湖南大学 一种用于超级计算中心的并行任务调度方法和系统
CN111061553A (zh) * 2019-12-17 2020-04-24 湖南大学 一种用于超级计算中心的并行任务调度方法和系统
CN113157403A (zh) * 2020-01-07 2021-07-23 中科寒武纪科技股份有限公司 作业处理的方法、装置、计算机设备及可读存储介质
CN111309491A (zh) * 2020-05-14 2020-06-19 北京并行科技股份有限公司 一种作业协同处理方法及系统
CN111309491B (zh) * 2020-05-14 2020-11-06 北京并行科技股份有限公司 一种作业协同处理方法及系统
CN112817713A (zh) * 2021-01-27 2021-05-18 广州虎牙科技有限公司 作业调度方法、装置和电子设备
CN112817713B (zh) * 2021-01-27 2023-10-13 广州虎牙科技有限公司 作业调度方法、装置和电子设备
CN112882851A (zh) * 2021-03-24 2021-06-01 国家超级计算天津中心 一种基于超级计算机的云交互系统
CN113254201A (zh) * 2021-05-17 2021-08-13 清华大学 超算云计算平台化管理方法和管理平台
CN114048027B (zh) * 2021-10-21 2022-05-13 中国科学技术大学 一种应用于超算集群调度的作业运行参数优化方法
CN114048027A (zh) * 2021-10-21 2022-02-15 中国科学技术大学 一种应用于超算集群调度的作业运行参数优化方法
CN114664384A (zh) * 2022-03-22 2022-06-24 山东省计算中心(国家超级计算济南中心) 一种基于超算互联网的生物信息分析系统及方法
CN114610474A (zh) * 2022-05-12 2022-06-10 之江实验室 一种异构超算环境下多策略的作业调度方法及系统
WO2023237115A1 (zh) * 2022-06-10 2023-12-14 华为技术有限公司 数据处理方法、装置、设备和系统

Similar Documents

Publication Publication Date Title
CN109951558A (zh) 一种超算资源的云调度方法、云调度中心和系统
CN103399796B (zh) 利用存储负载信息来平衡集群虚拟机
Abd Elaziz et al. IoT workflow scheduling using intelligent arithmetic optimization algorithm in fog computing
CN103092683B (zh) 用于数据分析的基于启发式的调度
CN107748696B (zh) 一种任务调度的方法及终端设备
Babukartik et al. Hybrid Algorithm using the advantage of ACO and Cuckoo Search for Job Scheduling
CN110163474A (zh) 一种任务分配的方法及设备
CN107003887A (zh) Cpu超载设置和云计算工作负荷调度机构
CN106790529B (zh) 计算资源的调度方法、调度中心及调度系统
CN109885452A (zh) 性能监控方法、装置及终端设备
US20090282413A1 (en) Scalable Scheduling of Tasks in Heterogeneous Systems
CN100465901C (zh) 网络系统、管理计算机以及集群管理方法
Min-Allah et al. Cost efficient resource allocation for real-time tasks in embedded systems
CN105868008B (zh) 基于关键资源和数据预处理的资源调度方法及识别系统
KR20110060849A (ko) 고성능 컴퓨팅 클러스터에서의 데이터 분배 방법 및 시스템
CN110288232A (zh) 订单调度方法及装置
CN111813524B (zh) 一种任务执行方法、装置、电子设备和存储介质
Vaishnawi et al. Optimal cost analysis for discrete-time recurrent queue with Bernoulli feedback and emergency vacation
Zamiri Marvizadeh et al. Entropy-based dispatching for automatic guided vehicles
Maashi et al. Elevating Survivability in Next-Gen IoT-Fog-Cloud Networks: Scheduling Optimization With the Metaheuristic Mountain Gazelle Algorithm
CN117331668A (zh) 一种作业调度方法、装置、设备及存储介质
CN107729218A (zh) 一种监控处理计算资源设备的系统及方法
CN113760176A (zh) 数据存储方法和装置
Yang et al. Trust-based scheduling strategy for cloud workflow applications
CN116795553A (zh) 算力资源的调度方法及装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628

RJ01 Rejection of invention patent application after publication