CN106790529A - 计算资源的调度方法、调度中心及调度系统 - Google Patents

计算资源的调度方法、调度中心及调度系统 Download PDF

Info

Publication number
CN106790529A
CN106790529A CN201611187442.7A CN201611187442A CN106790529A CN 106790529 A CN106790529 A CN 106790529A CN 201611187442 A CN201611187442 A CN 201611187442A CN 106790529 A CN106790529 A CN 106790529A
Authority
CN
China
Prior art keywords
calculate node
performance
job run
record
calculation scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611187442.7A
Other languages
English (en)
Other versions
CN106790529B (zh
Inventor
王政委
陈健
黄新平
王振丰
赫俊宝
王亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING PARATERA TECHNOLOGY Co Ltd
Original Assignee
BEIJING PARATERA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PARATERA TECHNOLOGY Co Ltd filed Critical BEIJING PARATERA TECHNOLOGY Co Ltd
Priority to CN201611187442.7A priority Critical patent/CN106790529B/zh
Publication of CN106790529A publication Critical patent/CN106790529A/zh
Application granted granted Critical
Publication of CN106790529B publication Critical patent/CN106790529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种计算资源的调度系统,包括:超级计算中心,适于运行客户端提交的作业;性能计算中心,适于根据作业运行的性能数据计算作业运行性能特征值,生成作业性能表,其中作业性能表适于关联存储作业标识、作业类型、执行作业的超级计算中心标识、执行作业的集群标识、作业计算规模、计算节点信息和作业运行性能特征值,作为一条作业运行性能记录;客户端,适于响应于用户提交作业的请求,发送提交指令给调度中心,提交指令中包含作业类型和计算规模;调度中心,适于根据所提交作业的作业类型从作业性能表中匹配出至少一条记录,将作业提交至至少一条记录包含的计算节点上。本发明还一并公开了相应的调度中心和调度方法。

Description

计算资源的调度方法、调度中心及调度系统
技术领域
本发明涉及云计算技术领域,尤其是计算资源的调度方法、调度中心及调度系统。
背景技术
近年来,伴随着高性能计算机技术逐渐发展成熟,在科研、生产、教育等领域高性能计算需求快速增长,越来越多用户使用超算资源提交作业,在这种情况下,如何合理地分配云端计算资源就成为一个关键的问题。
目前较为常见的调度算法是基于私有计算资源,根据现有资源空闲节点数、核数、内存、CPU型号等一些常见的硬件资源配置,让用户在提交作业时自行选择资源。然而用户群大都只关注作业的运行性能和结果,为了快速得到作业计算结果,在提交作业时会选择多核资源,这就造成了资源浪费、作业提交参数配置不合理,作业提交(运行)失败等不良后果。另一方面,用户自行选择计算资源时,需要用户具备超级计算知识,学习成本太高。
因此,需要一种方便、高效的超算资源的调度方法,能够自动合理地匹配出合适的计算资源,保证作业的正常执行。
发明内容
为此,本发明提供了计算资源的调度方法、调度中心及调度系统,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种计算资源的调度方法,该方法在调度中心中执行,调度中心与性能计算中心、超级计算中心和客户端相连接,以便进行计算资源调度,包括步骤:接收由客户端发送的提交指令,其中提交指令是客户端响应于用户提交作业的请求而生成的,提交指令包含所提交作业的作业类型和计算规模;根据所提交作业的作业类型,从作业性能表中检索作业类型相同的第一数目条作业运行性能记录,其中,作业性能表包括多条作业运行性能记录,每条作业运行记录由性能计算中心根据超级计算中心中运行的作业的性能数据计算生成,且每条作业运行性能记录包括作业标识、作业类型、执行作业的超级计算中心标识、执行作业的集群标识、作业计算规模、计算节点信息和作业运行性能特征值,第一数目条作业运行性能记录按照作业运行性能特征值从高到低的顺序排序;从第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录,至少一条记录包含的作业计算规模总和满足所提交作业的计算规模;以及将作业提交至所述至少一条记录包含的计算节点信息所指示的计算节点。
可选地,在根据本发明的调度方法中,从第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录的步骤包括:根据所提交作业的计算规模,针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和,直到具有相同集群标识的至少一条记录的作业计算规模总和满足所提交作业的计算规模为止。
可选地,在根据本发明的调度方法中,作业运行性能记录还包括执行作业的计算节点的单节点核数,针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和的步骤包括:根据所提交作业的计算规模和每条作业运行性能记录中计算节点的单节点核数,计算出在相应集群提交该作业所需的计算节点数目;以及累计所计算得到的计算节点数目,直到具有相同集群标识的至少一条记录的计算节点数目总和不少于该集群提交该作业所需的计算节点数目为止。
可选地,在根据本发明的调度方法中,在计算出相应集群所需的计算节点数目之后、累计所计算得到的计算节点数目之前,还包括步骤:根据作业运行性能记录中执行作业的计算节点每秒所执行的浮点运算次数判断每个计算节点的性能;若某个计算节点的性能低于阈值,则从第一数目条记录中删除该计算节点。
可选地,在根据本发明的调度方法中,还包括步骤:实时监测超级计算中心的计算节点状态;当监测到第一数目条记录中某一计算节点状态异常时,从第一数目条记录中删除该计算节点。
可选地,在根据本发明的调度方法中,计算节点状态异常包括:计算节点关机、计算节点没有联网、计算节点已被占用、计算节点资源利用率高于预定值。
可选地,在根据本发明的调度方法中,还包括步骤:若第一数目条记录中具有相同集群标识的至少一条记录所包含的作业计算规模总和不满足所提交作业的计算规模,则在第一数目条作业运行性能记录的基础上,继续从作业性能表中检索出第二数目条作业运行性能记录,重复上述选取、提交的步骤。
可选地,在根据本发明的调度方法中,第一数目为10。
可选地,在根据本发明的调度方法中,从作业性能表中检索作业类型相同的第一数目条作业运行性能记录的步骤还包括:从作业性能表中检索作业类型相同、且计算规模相同的第一数目条作业运行记录。
根据本发明的另一方面,提供了一种适于执行计算资源调度方法的调度中心,调度中心与性能计算中心、超级计算中心和客户端相连接,以便进行计算资源调度,调度中心包括:连接管理模块,适于接收由客户端发送的提交指令,其中提交指令是客户端响应于用户提交作业的请求而生成的,提交指令包含所提交作业的作业类型和计算规模;检索模块,适于根据所提交作业的作业类型,从作业性能表中检索作业类型相同的第一数目条作业运行性能记录,第一数目条作业运行性能记录按照作业运行性能特征值从高到低的顺序排序,其中,作业性能表包括多条作业运行性能记录,每条作业运行性能记录由所述性能计算中心根据超级计算中心中运行的作业的性能数据计算生成,且每条作业运行性能记录包括作业标识、作业类型、执行作业的超级计算中心标识、集群标识、作业计算规模、计算节点信息和作业运行性能特征值;匹配模块,适于从第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录,至少一条记录包含的作业计算规模总和满足所提交作业的计算规模;以及连接管理模块还适于将作业提交至所述至少一条记录包含的计算节点信息所指示的计算节点。
可选地,在根据本发明的调度中心中,匹配模块还适于根据所提交作业的计算规模,针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和,直到具有相同集群标识的至少一条记录的作业计算规模总和满足所提交作业的计算规模为止。
可选地,在根据本发明的调度中心中,作业运行性能记录还包括执行作业的计算节点的单节点核数,匹配模块还包括:计算单元,适于根据所提交作业的计算规模和每条作业运行性能记录中计算节点的单节点核数,计算出在相应集群提交该作业所需的计算节点数目;以及匹配模块还适于累计所计算得到的计算节点数目,直到具有相同集群标识的至少一条记录的计算节点数目总和不少于该集群提交该作业所需的计算节点数目为止。
可选地,在根据本发明的调度中心中,匹配模块还包括:性能判断单元,适于根据作业运行性能记录中执行作业的计算节点每秒所执行的浮点运算次数判断每个计算节点的性能;匹配模块还适于在某个计算节点的性能低于阈值时,从所述第一数目条记录中删除该计算节点。
可选地,在根据本发明的调度中心中,还包括:集群监控模块,适于实时监测超级计算中心的计算节点状态;匹配模块还适于在监测到第一数目条记录中某一计算节点状态异常时,从第一数目条记录中删除该计算节点。
可选地,在根据本发明的调度中心中,计算节点状态异常包括:计算节点关机、计算节点没有联网、计算节点已被占用、计算节点资源利用率高于预定值。
可选地,在根据本发明的调度中心中,检索模块还适于在第一数目条记录中具有相同集群标识的至少一条记录所包含的作业计算规模总和不满足所提交作业的计算规模时,在第一数目条作业运行性能记录的基础上,继续从作业性能表中检索出第二数目条作业运行性能记录;匹配模块还适于从第一数目和第二数目条作业运行性能记录的总和中选取具有相同集群标识的至少一条记录,至少一条记录包含的作业计算规模总和满足所提交作业的计算规模。
可选地,在根据本发明的调度中心中,第一数目为10。
可选地,在根据本发明的调度中心中,检索模块还适于从作业性能表中检索作业类型相同、且计算规模相同的第一数目条作业运行记录。
根据本发明的又一方面,还提供了一种计算资源的调度系统,包括:超级计算中心,具有至少一个集群,适于运行客户端提交的作业;性能计算中心,适于根据作业运行的性能数据计算作业运行性能特征值,生成作业性能表,其中作业性能表适于关联存储作业标识、作业类型、执行作业的超级计算中心标识、执行作业的集群标识、作业计算规模、计算节点信息和作业运行性能特征值,作为一条作业运行性能记录;客户端,适于响应于用户提交作业的请求,发送提交指令给调度中心,其中提交指令中包含作业类型和计算规模;以及如上所述的调度中心。
可选地,在根据本发明的调度系统中,计算节点信息还包括计算节点的单节点核数。
可选地,在根据本发明的调度系统中,性能计算中心还适于实时采集超级计算中心中作业运行的原始数据,以实时计算作业运行的性能数据。
可选地,在根据本发明的调度系统中,作业运行性能数据是以该作业占用的所有计算节点每秒所执行的浮点运算次数为主、结合CPU或GPU、内存、磁盘、IO、微架构数据的使用率计算得出。
可选地,在根据本发明的调度系统中,根据作业运行的性能数据计算作业运行性能特征值的步骤包括:选取作业运行的性能数据的中值作为该作业运行性能特征值。
根据本发明的计算资源的调度方案,基于超级计算中心上各集群历史运行作业的性能记录进行计算资源的分配,同时参照所提交的待运行作业的作业类型和计算规模,能够快速检索到性能良好且能够正好运行该作业的计算节点,在保证高效匹配的同时,避免了资源的浪费。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算资源的调度系统100的示意图;
图2示出了根据本发明一个实施例的计算资源的调度方法200的流程图;以及
图3示出了根据本发明一个实施例的调度中心130的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的计算资源的调度系统100的示意图。如图1所示,该系统100包括多个超级计算中心110、性能计算中心120、调度中心130和多个客户端140,且超级计算中心110分别与性能计算中心120和调度中心130相连接,性能计算中心120和调度中心130相连接,调度中心130和多个客户端140相连接。
根据一种实现方式,每个超级计算中心110包含至少一个集群,每个集群又包括多个计算节点,超级计算中心110通过这些计算节点运行各种作业(或应用),完成计算任务。
性能计算中心120包括数据采集模块和性能分析模块,如图1所示。
数据采集模块适于实时采集超级计算中心110中作业运行的原始数据,例如,硬件资源配置信息、节点性能数据、节点应用作业数据、节点进程数据以及函数级数据。而后交由性能分析模块。
性能分析模块适于根据采集到的原始数据实时计算作业运行的性能数据,然后将该性能数据与作业标识、作业类型、执行作业的超级计算中心标识、执行作业的集群标识、作业计算规模、计算节点信息等关联存储。可选地,计算节点信息除了表征执行该作业的计算节点(计算节点个数、计算节点列表)及计算节点的单节点核数外,还可以包括计算节点的节点配置(计算节点的物理配置信息)、作业执行时是否独占计算节点等信息。
其中,作业运行性能数据是以该作业占用的所有计算节点每秒所执行的浮点运算次数(Flops)为主、结合CPU或GPU、内存、磁盘、IO、微架构数据的使用率计算得出,作业运行性能数据的值越高,表明作业运行的性能越好。根据本发明的一个实施例,微架构数据包括例如实时每秒浮点运算次数、每秒浮点运算次数的峰值、CPU浮点有效计算率、X87指令集执行比率、代码向量化比率、256位AVX指令集执行比率、每指令执行的周期、最后一级缓存未命中的比率、IOPS数据分析、PCIe流量分析、内存读写速率、每块Ethernet网卡的接收速率、每块Ethernet网卡的发送速率等。
当一个作业运行结束时,性能分析模块根据实时记录地若干性能数据计算出该作业运行的性能特征值,并与上述信息(即,作业标识、作业类型、执行作业的超级计算中心标识、执行作业的集群标识、作业计算规模、计算节点信息等)一并关联存储,作为一条作业运行性能记录。由多条作业运行的运行记录组成作业性能表。根据本发明的实施例,选取实时记录的性能数据的中值作为该作业运行性能特征值。其中,中值也称中位数,即将n个数据按值的大小升序或者降序排列,当n为偶数时,中值为第n/2位数和第(n+2)/2位数的平均数;当n为奇数时,中值为第(n+1)/2位数的值。例如,若有5个数据为:2,3,5,4,1,那么这5个数据的中值为3;若有6个数据为:2,3,5,4,6,1,那么这6个数据的中值为3.5。
可选地,根据实时记录的性能数据分析出作业运行的性能数据的最大值、最小值,一并记录在该条作业运行性能记录中。如表1示例性地示出了作业性能表(应当注意,下表数据仅是示意性的,并不代表实际应用中作业运行数据):
表1作业性能表示例
客户端140适于响应于用户提交作业的请求,发送提交指令给调度中心130,其中,提交指令中包含作业类型和计算规模。
调度中心130在接收到来自客户端140的提交指令后,根据作业类型和计算规模,按照一系列规则从性能计算中心120的作业性能表中匹配出符合要求的作业运行性能记录,并将该作业提交至匹配到的记录所指示的计算节点上。
综上,本调度系统基于超级计算中心上历史运行作业的性能记录进行计算资源的分配,同时参照所提交的待运行作业的作业类型和计算规模,能够快速检索到性能良好且能够正好运行该作业的计算节点,在保证高效匹配的同时,避免了资源的浪费。
下面将重点介绍调度中心130执行计算资源调度方法的过程,该方法200的执行流程如图2所示。
该方法始于步骤S210,接收由客户端140发送的提交指令,如前所述,该提交指令包含所提交作业的作业类型和计算规模。可选地,提交指令还可以包含其他设置信息,如用户可以设置该作业运行时是否独占计算节点。
随后在步骤S220中,根据所提交作业的作业类型,从作业性能表中检索作业类型相同的第一数目(如,10)条作业运行性能记录。根据本发明的实施例,将作业类型相同的多条作业运行性能记录按照作业运行性能特征值从高到低的顺序排序,从中选取前10条记录。
优选地,也可以从作业性能表中直接检索作业类型相同、且计算规模相同的第一数目条作业运行记录,在牺牲一些计算节点运行性能的前提下,缩小匹配范围,以期提高后续匹配计算节点的效率。
随后在步骤S230中,从第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录,至少一条记录包含的作业计算规模总和满足所提交作业的计算规模。
由于不同的集群具有不同的单节点核数,故提交作业至不同的集群所需的计算节点数也不同,因而,要先根据所提交作业的计算规模和每条作业运行性能记录中计算节点的单节点核数,计算出在相应集群提交该作业所需的计算节点数目。根据本发明的实施例,用所提交作业的计算规模除以每条作业运行性能记录中计算节点的单节点核数(即,每个集群的单节点核数),并将算出的值向上取整,就得到相应集群提交该作业所需的计算节点的数目。例如,设所提交作业的计算规模为100,某一集群的单节点核数为12,则算得该集群提交该作业所需的计算节点数目为9。
然后,针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和,也就是累计每个集群的计算节点数目,直到具有相同集群标识的至少一条记录的计算节点数目总和不少于该集群提交该作业所需的计算节点数目,就认为具有相同集群标识的至少一条记录的作业计算规模总和满足所提交作业的计算规模。
如表2所示,假设表2列出了第一数目条作业运行性能记录,设待提交作业的作业类型为T1,计算规模为120,那么根据表2中的记录,可以得出,若在超级计算中心1的集群A上提交该作业,需10(120/12)个计算节点,而第一条记录中共9个计算节点,依序往下,第三条记录与第一条记录具有相同的集群标识,故累计第一条记录和第三条记录的计算节点数目,共16个计算节点,大于10,就判断此时具有相同集群标识的两条记录的作业计算规模总和满足所提交作业的计算规模。
表2第一数目条作业运行性能记录示例
根据本发明的实施例,考虑到在检索出的第一数目条作业运行性能记录中,会存在性能特征值很大,但性能数据最小值很小的情况,如表1中第3条记录所示,这种情况下,可能执行该作业的单个计算节点的性能过低,故在上述累计每个集群的计算节点数目的步骤之前,还包括从第一数目条记录中过滤掉性能较低的计算节点的步骤:
可选地,根据作业运行性能记录中执行作业的计算节点每秒所执行的浮点运算次数判断每个计算节点的性能,若某个计算节点的性能低于阈值,则从第一数目条记录中删除该计算节点。
根据本发明的又一实施例,超级计算中心的计算节点状态可能会随时发生变化,为保证性能匹配的准确度和有效性,会实时监测超级计算中心的计算节点状态,故除了上述从第一数目条记录中过滤掉性能较低的计算节点的步骤外,还可以包括从第一数目条记录中过滤掉状态异常的计算节点的步骤:
当监测到第一数目条记录中某一计算节点状态异常时,从第一数目条记录中删除该计算节点。可选地,计算节点状态异常包括:计算节点关机、计算节点没有联网、计算节点已被占用、计算节点资源利用率高于预定值、计算节点温度过高、计算节点磁盘空间已满等。
根据本发明的实施方式,若第一数目条记录中具有相同集群标识的至少一条记录所包含的作业计算规模总和不满足所提交作业的计算规模,则在第一数目条作业运行性能记录的基础上,继续从作业性能表中检索出第二数目条作业运行性能记录(即,重复步骤S220),可选地,第二数目也可以设为10。例如,从作业运行性能记录中依序选取第11-20条记录,与之前的10条记录合并,重新执行步骤S230,直到选取出满足所提交作业的计算规模的至少一条记录为止。
随后在步骤S240中,将该作业提交至所选取的至少一条记录包含的计算节点信息所指示的计算节点上。
根据一种实施方式,若作业性能表中正好存在相同作业类型、相同计算规模的至少一条记录,且至少一条记录的作业运行性能特征值不低,可以优先检索出所述记录,经计算节点过滤后,若至少一条记录中的计算节点数目总和不少于对应集群提交该作业所需的计算节点数目,则可以确定上述计算节点为执行该作业的计算节点。
参照上文所述,根据该调度方法200,能够根据超级计算中心各集群运行作业的运行性能特征值,结合用户提交作业的作业类型和计算规模,自动地匹配出能够运行所提交作业、且性能良好的计算节点。进一步地,监测每个计算节点的状态,过滤掉性能太差或者状态异常的计算节点,以确保执行作业的计算节点性能最优。
图3示出了根据本发明一个实施例的调度中心130的示意图。如图3所示,调度中心130包括:连接管理模块132、检索模块134和匹配模块136。其中,连接管理模块132分别与检索模块134和匹配模块136相耦接,检索模块134与匹配模块136相耦接。各模块所执行的操作如下所述。
连接管理模块132适于接收由客户端140发送的提交指令,如前文所示,提交指令是客户端响应于用户提交作业的请求而生成的,提交指令包含所提交作业的作业类型和计算规模。可选地,提交指令还可以包含其他设置信息,如用户可以设置该作业运行时是否独占计算节点。
检索模块134适于根据所提交作业的作业类型,从性能计算中心120的作业性能表(如表1所示)中检索作业类型相同的第一数目条作业运行性能记录(根据本发明的实施例,第一数目为10),第一数目条作业运行性能记录按照作业运行性能特征值从高到低的顺序排序。
优选地,检索模块134还适于从作业性能表中检索作业类型相同、且计算规模相同的第一数目条作业运行记录,在牺牲一些计算节点运行性能的前提下,缩小匹配范围,以期提高后续匹配计算节点的效率。
匹配模块136适于从第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录,且至少一条记录包含的作业计算规模总和满足所提交作业的计算规模。
根据本发明的实施方式,匹配模块136被配置为根据所提交作业的计算规模,针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和。具体地,匹配模块136还包括计算单元1362(如图3所示),计算单元1362适于根据所提交作业的计算规模和每条作业运行性能记录中计算节点的单节点核数,计算出在相应集群提交该作业所需的计算节点数目。根据本发明的一个实施例,用所提交作业的计算规模除以每条作业运行性能记录中计算节点的单节点核数(即,每个集群的单节点核数),并将算出的值向上取整,就得到相应集群提交该作业所需的计算节点的数目。例如,设所提交作业的计算规模为120,某一集群的单节点核数为13,则算得该集群提交该作业所需的计算节点数目为10。
计算单元1362算出计算节点数目后,匹配模块136还适于累计所计算得到的计算节点数目,直到具有相同集群标识的至少一条记录的计算节点数目总和不少于该集群提交该作业所需的计算节点数目为止,就认为具有相同集群标识的至少一条记录的作业计算规模总和满足所提交作业的计算规模。关于匹配模块136匹配记录的过程,可见上文中关于表3的描述,此处不再赘述。
根据本发明的实施例,考虑到在检索出的第一数目条作业运行性能记录中,会存在性能特征值很大,但性能数据最小值很小的情况,如表1中第3条记录所示,这种情况下,可能执行该作业的单个计算节点的性能过低,故匹配模块136还包括性能判断单元1364。性能判断单元1364适于判断每个计算节点的性能,例如根据作业运行性能记录中执行作业的计算节点每秒所执行的浮点运算次数(Flops)来判断每个计算节点的性能。并将性能判断的结果返回给匹配模块136,匹配模块136适于在某个计算节点的性能低于阈值时,就从第一数目条记录中删除该计算节点。
根据本发明的又一实施例,超级计算中心110中的计算节点状态可能会随时发生变化。举一个例子,计算节点node1在执行作业1时Flops值很高,即,计算节点node1的性能很好,但是在作业1执行完毕后,因为某些原因计算节点node1关机了,若性能计算中心120上的作业性能表未及时更新,调度中心130端就有可能误匹配到node1,影响作业执行的效率。故,调度中心130还包括集群监控模块138,与匹配模块136相耦接,如图3所示。
该集群监控模块138适于实时监测超级计算中心110的计算节点状态,并将监测到的状态结果反馈给匹配模块136。
匹配模块136还适于在接收到由集群监控模块138反馈的第一数目条记录中某一计算节点状态异常的消息时,就从第一数目条记录中删除该计算节点。
可选地,计算节点状态异常包括:计算节点关机、计算节点没有联网、计算节点已被占用、计算节点资源利用率高于预定值、计算节点温度过高、计算节点磁盘空间已满等。
当第一数目条记录中具有相同集群标识的至少一条记录所包含的作业计算规模总和不满足所提交作业的计算规模时,检索模块134适于在第一数目条作业运行性能记录的基础上,继续从作业性能表中检索出第二数目条作业运行性能记录。根据本发明的实施例,第二数目可以继续设为10。
匹配模块136适于从第一数目和第二数目条作业运行性能记录的总和(也就是前20条记录)中选取具有相同集群标识的至少一条记录,且至少一条记录包含的作业计算规模总和满足所提交作业的计算规模。
连接管理模块132还适于将该作业提交至匹配模块136最终选取出的至少一条记录包含的计算节点信息所指示的计算节点。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明还一并公开了:
A5、如A4所述的方法,还包括步骤:实时监测超级计算中心的计算节点状态;当监测到第一数目条记录中某一计算节点状态异常时,从第一数目条记录中删除该计算节点。
A6、如A5所述的方法,其中,计算节点状态异常包括:计算节点关机、计算节点没有联网、计算节点已被占用、计算节点资源利用率高于预定值。
A7、如A1-6中任一项所述的方法,还包括步骤:若第一数目条记录中具有相同集群标识的至少一条记录所包含的作业计算规模总和不满足所提交作业的计算规模,则在第一数目条作业运行性能记录的基础上,继续从作业性能表中检索出第二数目条作业运行性能记录,重复上述选取、提交的步骤。
A8、如A1-7中任一项所述的方法,其中,第一数目为10。
A9、如A1-8中任一项所述的调度方法,其中从作业性能表中检索作业类型相同的第一数目条作业运行性能记录的步骤还包括:从作业性能表中检索作业类型相同、且计算规模相同的第一数目条作业运行记录。
B14、如B13所述的调度中心,还包括:集群监控模块,适于实时监测超级计算中心的计算节点状态;匹配模块还适于在监测到第一数目条记录中某一计算节点状态异常时,从第一数目条记录中删除该计算节点。
B15、如B14所述的调度中心,其中,计算节点状态异常包括:计算节点关机、计算节点没有联网、计算节点已被占用、计算节点资源利用率高于预定值。
B16、如B10-15中任一项所述的调度中心,其中,检索模块还适于在第一数目条记录中具有相同集群标识的至少一条记录所包含的作业计算规模总和不满足所提交作业的计算规模时,在第一数目条作业运行性能记录的基础上,继续从作业性能表中检索出第二数目条作业运行性能记录;匹配模块还适于从第一数目和第二数目条作业运行性能记录的总和中选取具有相同集群标识的至少一条记录,至少一条记录包含的作业计算规模总和满足所提交作业的计算规模。
B17、如B10-16中任一条所述的调度中心,其中,述第一数目为10。
B18、如B10-17中任一项所述的调度中心,其中,检索模块还适于从作业性能表中检索作业类型相同、且计算规模相同的第一数目条作业运行记录。
C21、如C19或20所述的调度系统,其中,性能计算中心还适于实时采集超级计算中心中作业运行的原始数据,以实时计算作业运行的性能数据。
C22、如C19-21中任一项所述的调度系统,其中,作业运行性能数据是以该作业占用的所有计算节点每秒所执行的浮点运算次数为主、结合CPU或GPU、内存、磁盘、IO、微架构数据的使用率计算得出。
C23、如C19-22中任一项所述的调度系统,其中,根据作业运行的性能数据计算作业运行性能特征值的步骤包括:选取作业运行的性能数据的中值作为该作业运行性能特征值。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种计算资源的调度方法,所述方法在调度中心中执行,所述调度中心与性能计算中心、超级计算中心和客户端相连接,以便进行计算资源调度,所述方法包括步骤:
接收由所述客户端发送的提交指令,其中所述提交指令是客户端响应于用户提交作业的请求而生成的,所述提交指令包含所提交作业的作业类型和计算规模;
根据所提交作业的作业类型,从作业性能表中检索作业类型相同的第一数目条作业运行性能记录,其中,所述作业性能表包括多条作业运行性能记录,每条作业运行记录由所述性能计算中心根据超级计算中心中运行的作业的性能数据计算生成,且每条作业运行性能记录包括作业标识、作业类型、执行作业的超级计算中心标识、执行作业的集群标识、作业计算规模、计算节点信息和作业运行性能特征值,所述第一数目条作业运行性能记录按照作业运行性能特征值从高到低的顺序排序;
从所述第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录,所述至少一条记录包含的作业计算规模总和满足所提交作业的计算规模;以及
将所述作业提交至所述至少一条记录包含的计算节点信息所指示的计算节点。
2.如权利要求1所述的调度方法,其中所述从所述第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录的步骤包括:
根据所提交作业的计算规模,针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和,直到具有相同集群标识的至少一条记录的作业计算规模总和满足所提交作业的计算规模为止。
3.如权利要求2所述的调度方法,其中所述作业运行性能记录还包括执行作业的计算节点的单节点核数,
所述针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和的步骤包括:
根据所提交作业的计算规模和每条作业运行性能记录中计算节点的单节点核数,计算出在相应集群提交该作业所需的计算节点数目;以及
累计所计算得到的计算节点数目,直到具有相同集群标识的至少一条记录的计算节点数目总和不少于该集群提交该作业所需的计算节点数目为止。
4.如权利要求3所述的方法,其中,在计算出相应集群所需的计算节点数目之后、累计所计算得到的计算节点数目之前,还包括步骤:
根据作业运行性能记录中执行作业的计算节点每秒所执行的浮点运算次数判断每个计算节点的性能;
若某个计算节点的性能低于阈值,则从所述第一数目条记录中删除该计算节点。
5.一种适于执行计算资源调度方法的调度中心,所述调度中心与性能计算中心、超级计算中心和客户端相连接,以便进行计算资源调度,所述调度中心包括:
连接管理模块,适于接收由所述客户端发送的提交指令,其中所述提交指令是客户端响应于用户提交作业的请求而生成的,所述提交指令包含所提交作业的作业类型和计算规模;
检索模块,适于根据所提交作业的作业类型,从作业性能表中检索作业类型相同的第一数目条作业运行性能记录,所述第一数目条作业运行性能记录按照作业运行性能特征值从高到低的顺序排序,其中,所述作业性能表包括多条作业运行性能记录,每条作业运行性能记录由所述性能计算中心根据超级计算中心中运行的作业的性能数据计算生成,且每条作业运行性能记录包括作业标识、作业类型、执行作业的超级计算中心标识、集群标识、作业计算规模、计算节点信息和作业运行性能特征值;
匹配模块,适于从所述第一数目条作业运行性能记录中选取具有相同集群标识的至少一条记录,所述至少一条记录包含的作业计算规模总和满足所提交作业的计算规模;以及
所述连接管理模块还适于将所述作业提交至所述至少一条记录包含的计算节点信息所指示的计算节点。
6.如权利要求5所述的调度中心,其中,所述匹配模块还适于根据所提交作业的计算规模,针对集群标识来逐条作业运行性能记录地累计作业计算规模的总和,直到具有相同集群标识的至少一条记录的作业计算规模总和满足所提交作业的计算规模为止。
7.如权利要求6所述的调度中心,其中,所述作业运行性能记录还包括执行作业的计算节点的单节点核数,
所述匹配模块还包括:
计算单元,适于根据所提交作业的计算规模和每条作业运行性能记录中计算节点的单节点核数,计算出在相应集群提交该作业所需的计算节点数目;以及
所述匹配模块还适于累计所计算得到的计算节点数目,直到具有相同集群标识的至少一条记录的计算节点数目总和不少于该集群提交该作业所需的计算节点数目为止。
8.如权利要求7所述的调度中心,其中所述匹配模块还包括:
性能判断单元,适于根据作业运行性能记录中执行作业的计算节点每秒所执行的浮点运算次数判断每个计算节点的性能;
所述匹配模块还适于在某个计算节点的性能低于阈值时,从所述第一数目条记录中删除该计算节点。
9.一种计算资源的调度系统,包括:
超级计算中心,具有至少一个集群,适于运行客户端提交的作业;
性能计算中心,适于根据作业运行的性能数据计算作业运行性能特征值,生成作业性能表,其中所述作业性能表适于关联存储作业标识、作业类型、执行作业的超级计算中心标识、执行作业的集群标识、作业计算规模、计算节点信息和作业运行性能特征值,作为一条作业运行性能记录;
客户端,适于响应于用户提交作业的请求,发送提交指令给调度中心,其中所述提交指令中包含作业类型和计算规模;以及
如权利要求5-8中任一项所述的调度中心。
10.如权利要求9所述的调度系统,其中,
所述计算节点信息还包括计算节点的单节点核数。
CN201611187442.7A 2016-12-20 2016-12-20 计算资源的调度方法、调度中心及调度系统 Active CN106790529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611187442.7A CN106790529B (zh) 2016-12-20 2016-12-20 计算资源的调度方法、调度中心及调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611187442.7A CN106790529B (zh) 2016-12-20 2016-12-20 计算资源的调度方法、调度中心及调度系统

Publications (2)

Publication Number Publication Date
CN106790529A true CN106790529A (zh) 2017-05-31
CN106790529B CN106790529B (zh) 2019-07-02

Family

ID=58896433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611187442.7A Active CN106790529B (zh) 2016-12-20 2016-12-20 计算资源的调度方法、调度中心及调度系统

Country Status (1)

Country Link
CN (1) CN106790529B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268349A (zh) * 2018-01-08 2018-07-10 青岛雷神科技股份有限公司 一种基于intel avx指令集的浮点峰值计算吞吐测试算法
CN108616424A (zh) * 2018-04-26 2018-10-02 新华三技术有限公司 一种资源调度方法、计算机设备和系统
CN109032892A (zh) * 2018-07-25 2018-12-18 浪潮(北京)电子信息产业有限公司 一种性能曲线图的绘制方法、装置、设备及介质
CN109951558A (zh) * 2019-03-27 2019-06-28 北京并行科技股份有限公司 一种超算资源的云调度方法、云调度中心和系统
CN109992404A (zh) * 2017-12-31 2019-07-09 中国移动通信集团湖北有限公司 集群计算资源调度方法、装置、设备及介质
CN110928659A (zh) * 2019-11-20 2020-03-27 哈尔滨工程大学 一种具有自适应功能的数值水池系统远程多平台接入方法
CN111309491A (zh) * 2020-05-14 2020-06-19 北京并行科技股份有限公司 一种作业协同处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309208A (zh) * 2008-06-21 2008-11-19 华中科技大学 一种适用于网格环境的基于可靠性代价的作业调度系统
CN102567086A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种任务调度的方法、设备和系统
CN103092698A (zh) * 2012-12-24 2013-05-08 中国科学院深圳先进技术研究院 云计算应用自动部署系统及方法
CN103713935A (zh) * 2013-12-04 2014-04-09 中国科学院深圳先进技术研究院 一种在线管理Hadoop集群资源的方法和装置
CN103838632A (zh) * 2012-11-21 2014-06-04 阿里巴巴集团控股有限公司 数据查询方法及装置
WO2016122714A1 (en) * 2015-01-30 2016-08-04 Hewlett Packard Enterprise Development Lp Job scheduling in an infiniband network based hpc cluster

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309208A (zh) * 2008-06-21 2008-11-19 华中科技大学 一种适用于网格环境的基于可靠性代价的作业调度系统
CN102567086A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种任务调度的方法、设备和系统
CN103838632A (zh) * 2012-11-21 2014-06-04 阿里巴巴集团控股有限公司 数据查询方法及装置
CN103092698A (zh) * 2012-12-24 2013-05-08 中国科学院深圳先进技术研究院 云计算应用自动部署系统及方法
CN103713935A (zh) * 2013-12-04 2014-04-09 中国科学院深圳先进技术研究院 一种在线管理Hadoop集群资源的方法和装置
WO2016122714A1 (en) * 2015-01-30 2016-08-04 Hewlett Packard Enterprise Development Lp Job scheduling in an infiniband network based hpc cluster

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992404A (zh) * 2017-12-31 2019-07-09 中国移动通信集团湖北有限公司 集群计算资源调度方法、装置、设备及介质
CN109992404B (zh) * 2017-12-31 2022-06-10 中国移动通信集团湖北有限公司 集群计算资源调度方法、装置、设备及介质
CN108268349A (zh) * 2018-01-08 2018-07-10 青岛雷神科技股份有限公司 一种基于intel avx指令集的浮点峰值计算吞吐测试算法
CN108268349B (zh) * 2018-01-08 2021-05-18 青岛雷神科技股份有限公司 一种基于intel avx指令集的浮点峰值计算吞吐测试方法
CN108616424A (zh) * 2018-04-26 2018-10-02 新华三技术有限公司 一种资源调度方法、计算机设备和系统
CN109032892A (zh) * 2018-07-25 2018-12-18 浪潮(北京)电子信息产业有限公司 一种性能曲线图的绘制方法、装置、设备及介质
CN109951558A (zh) * 2019-03-27 2019-06-28 北京并行科技股份有限公司 一种超算资源的云调度方法、云调度中心和系统
CN110928659A (zh) * 2019-11-20 2020-03-27 哈尔滨工程大学 一种具有自适应功能的数值水池系统远程多平台接入方法
CN110928659B (zh) * 2019-11-20 2022-12-06 哈尔滨工程大学 一种具有自适应功能的数值水池系统远程多平台接入方法
CN111309491A (zh) * 2020-05-14 2020-06-19 北京并行科技股份有限公司 一种作业协同处理方法及系统
CN111309491B (zh) * 2020-05-14 2020-11-06 北京并行科技股份有限公司 一种作业协同处理方法及系统

Also Published As

Publication number Publication date
CN106790529B (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
CN106790529B (zh) 计算资源的调度方法、调度中心及调度系统
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
CN104424339B (zh) 数据分析的方法、装置及系统
WO2021012930A1 (zh) 投票节点配置方法及系统
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN109992404A (zh) 集群计算资源调度方法、装置、设备及介质
CN109951558A (zh) 一种超算资源的云调度方法、云调度中心和系统
Mondal et al. Scheduling of time-varying workloads using reinforcement learning
US11709834B2 (en) Method and database system for sequentially executing a query and methods for use therein
CN106022631B (zh) 一种指标权重分析方法
CN113037800B (zh) 作业调度方法以及作业调度装置
CN106796533A (zh) 自适应地选择执行模式的系统和方法
CN108846695A (zh) 终端更换周期的预测方法及装置
CN110825522A (zh) Spark参数自适应优化方法及系统
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN113391913A (zh) 一种基于预测的分布式调度方法和装置
CN110119399A (zh) 基于机器学习的业务流程优化方法
CN106708609B (zh) 一种特征生成方法及系统
CN117149392A (zh) 资源处理方法、装置、服务器及存储介质
CN115391047A (zh) 资源调度方法及装置
CN114678114A (zh) 应用于智慧医疗的大数据挖掘评估方法及大数据挖掘系统
CN113837368A (zh) 一种在联邦学习中评估各参与方数据价值的控制方法及装置
CN107784032A (zh) 一种数据查询结果的渐进式输出方法、装置及系统
JP2023519292A (ja) モデリング方法及び装置
CN112508250B (zh) 指挥信息系统生成方案增量分析方法、系统、介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant