CN115495224B - 基于优先级的超算节点使用方法、电子设备和存储介质 - Google Patents

基于优先级的超算节点使用方法、电子设备和存储介质 Download PDF

Info

Publication number
CN115495224B
CN115495224B CN202211443356.3A CN202211443356A CN115495224B CN 115495224 B CN115495224 B CN 115495224B CN 202211443356 A CN202211443356 A CN 202211443356A CN 115495224 B CN115495224 B CN 115495224B
Authority
CN
China
Prior art keywords
task
calculation
computation
calculated
super
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211443356.3A
Other languages
English (en)
Other versions
CN115495224A (zh
Inventor
李健增
孟祥飞
张振伟
张士岩
刘金明
冯源
孙娜
唐斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linyi Tianhe Technology Co ltd
Original Assignee
Tianhe Supercomputing Huaihai Sub Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianhe Supercomputing Huaihai Sub Center filed Critical Tianhe Supercomputing Huaihai Sub Center
Priority to CN202211443356.3A priority Critical patent/CN115495224B/zh
Publication of CN115495224A publication Critical patent/CN115495224A/zh
Application granted granted Critical
Publication of CN115495224B publication Critical patent/CN115495224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于优先级的超算节点使用方法、电子设备和存储介质,涉及大数据处理领域。所述方法包括:S100,在检测到存在未处理的计算任务时,执行S200;S200,基于当前未处理的计算任务和预设超算节点使用优先级信息表,获取按优先级从高到低的顺序排列的待计算文件集C;S300,获取可使用超算节点,并利用获取到的可使用超算节点对C中的待计算任务依次进行处理。本发明在出现任务排队时,能够基于用户提供的计算任务的数量、平均单个任务的计算耗时和任务紧急情况来分配超算节点,从而能够使得超算节点的使用变得更加合理。

Description

基于优先级的超算节点使用方法、电子设备和存储介质
技术领域
本发明涉及大数据处理领域,特别是涉及一种基于优先级的超算节点使用方法、电子设备和存储介质。
背景技术
随着超级计算的应用与推广,超算用户的逐年增加,超算上提交的任务量也越来越多。虽然超级计算有强大的计算能力和巨量的计算资源,但计算资源并非无穷多,为使有限的计算资源,满足日益增长的计算任务需求,需要对超算资源进行科学的统筹分配,以达到超算资源高效利用的目的。用户使用超算资源的需求存在差异,资源需求场景具有多样性:有时,用户计算任务数量不多,但是单个计算任务的计算量非常大;有时,用户计算任务数量非常多,但是单个计算任务的计算量不大;有时,用户虽然计算数量不多,且单个计算任务计算量不大,但是计算任务非常紧急,需要快速分配计算资源;有时客户计算任务多,计算量大,且计算紧急等。面对计算资源多场景使用需求,如果对用户使用资源没有优先级或其他限定,就会导致计算资源分配不合理:一些任务占用大量计算节点,但是任务并不紧急,但是一些需要紧急计算的任务,却因为节点被大量占用而不能及时分配计算节点。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供一种基于优先级的超算节点使用方法,包括以下步骤:
S100,在检测到存在未处理的计算任务时,执行S200。
S200,基于当前未处理的计算任务和m个预设超算节点使用优先级信息表,获取按优先级从高到低的顺序排列的待计算任务组集C=(C1,C2,…,Ck,…,CL);其中,第i个预设超算节点使用优先级信息表的第j行包括(Wij,Aij,Tij,Eij),Wij为第i个预设超算节点使用优先级信息表中的第j个任务类型,Aij为Wij对应的任务量,Tij为Wij对应的平均单个任务计算耗时,Eij为Wij对应的任务属性, Wij对应的优先级为Pi,i的取值为1到m,j的取值为1到f(i),f(i)为第i个预设超算节点使用优先级信息表的任务类型数量;P1>P2>…>Pj>…>Pm;第k个任务组Ck=(Ck1,Ck2,…,Ckr,…,Ckf(k)), Ckr为Ck中的第r个待计算任务集,Ckr=(IDCkr,RCkr1,RCkr2,…,RCkrb,…,RCkrh(k,r)),IDCkr为Ckr对应的用户ID,RCkrb为Ckr中的第b个待计算任务,Ckr的优先级为Gk,Ckr的执行顺序为r,k的取值为1到L,L为C中的待计算任务组的数量,L≤m;r的取值为1到f(k),f(k)为Ck中的待计算任务集的数量,b的取值为1到h(k,r),h(k,r)为Ckr中的待计算任务的数量。
S300,获取可使用超算节点,并利用获取到的可使用超算节点对C中的待计算任务依次进行处理。
S300具体包括:
S310,获取从任务计算节点中释放的超算节点,得到可使用超算节点;
S320,如果当前处理的Ckr对应的任务量和平均单个任务计算耗时满足第一设定条件,执行S330;如果满足第二设定条件,执行S340;否则,执行S360;
S330,如果Ckr中已计算的任务数量Q(k,r)<D1,则利用可使用超算节点继续计算Ckr中的D1-Q(k,r)个待计算任务,执行S350;如果Q(k,r)=D1,执行S350;D1为第一设定阈值;
S340,如果Ckr中已计算的任务数量Q(k,r)<D2,则利用可使用超算节点继续计算Ckr中的D1-Q(k,r)个待计算任务,执行S350;如果Q(k,r)=D2,执行S350;D2为第二设定阈值;
S350,将Ckr的执行顺序调整为f(k),并将Ck中除Ckr之外的待计算任务集的执行顺序分别增加1;执行S370;
S360,利用可使用超算节点对Ckr中的待计算任务进行计算,在Ckr中的所有待计算任务计算完后,执行S370;
S370,设置r=r+1;如果r≤f(k),执行S320,否则,执行S380;
S380,设置k=k+1;如果k≤L,执行S320;否则,退出控制程序。
本发明实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。
本发明实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明实施例提供的基于优先级的超算节点使用方法,在出现任务排队时,能够基于用户提供的计算任务的数量、平均单个任务的计算耗时和任务紧急情况来分配超算节点,从而能够使得超算节点的使用变得更加合理。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于优先级的超算节点使用方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于优先级的超算节点使用方法,会基于用户发送的待计算任务和当前可使用超算节点,为每个任务分配超算节点。在超算节点充足的情况下,会根据计算任务的提交时间,按照先提交先计算的原则分配超算节点。在当前可使用超算节点不足时,即出现待计算任务处于排队状态时,会基于设定的优先级机制分配节点资源。具体地,如图1所示,所述方法可包括如下步骤:
S100,在检测到存在未处理的计算任务时,执行S200。
在本发明实施例中,首次出现未处理的计算任务的情况可包括:当前可使用超算节点的数量小于当前接收到的待计算任务所需的超算节点数量,或者,当前可使用超算节点数量为0。
S200,基于当前未处理的计算任务和m个预设超算节点使用优先级信息表,获取按优先级从高到低的顺序排列的待计算任务组集C=(C1,C2,…,Ck,…,CL)。
在本发明实施例中,第i个预设超算节点使用优先级信息表的第j行包括(Wij,Aij,Tij,Eij),Wij为第i个预设超算节点使用优先级信息表中的第j个任务类型,Aij为Wij对应的任务量,Tij为Wij对应的平均单个任务计算耗时,Eij为Wij对应的任务属性,Wij对应的优先级为Pi,i的取值为1到m,j的取值为1到f(i),f(i)为第i个预设超算节点使用优先级信息表的任务类型数量;P1>P2>…>Pi>…>Pm,即m个预设超算节点使用优先级信息表按照优先级由高到低的顺序依次排列。
第k个任务组Ck=(Ck1,Ck2,…,Ckr,…,Ckf(k)), Ckr为Ck中的第r个待计算任务集,Ckr=(IDCkr,RCkr1,RCkr2,…,RCkrb,…,RCkrh(k,r)),IDCkr为Ckr对应的用户ID,RCkrb为Ckr中的第b个待计算任务,Ckr的优先级为Gk∈(P1,P2,…,Pj,…,Pm),Ckr的执行顺序为r,Ck中的待计算任务的执行顺序按照提交时间的先后顺序进行排列,即先提交的任务的执行顺序大于后提交的任务的执行顺序,k的取值为1到L,L为C中的待计算文件的数量,L≤m;r的取值为1到f(k),f(k)为Ck中的待计算任务集的数量,b的取值为1到h(k,r),h(k,r)为Ckr中的待计算任务的数量。
在本发明实施例中,任务属性可基于实际需要进行设置,在一个示意性实施例中,可包括重点紧急、重点不紧急、非重点紧急、非重点不紧急等四种情况。其中,重点是指计算任务为国家重大专项、企业重点研究项目。紧急为用户急需计算的任务。在该实施例中,可包括3个预设超算节点使用优先级信息表,即m=3,具体地,第一预设超算节点使用优先级信息表可如下表1所示:
表1 第一预设超算节点使用优先级信息表
Figure 29766DEST_PATH_IMAGE002
其中,D为设定任务数量阈值,可基于实际情况进行确定,例如,D为大于10的数。T为设定的单个任务计算耗时阈值,可基于实际情况进行确定,例如,T为大于12小时的数。
第二预设超算节点使用优先级信息表可如下表2所示:
表2 第二预设超算节点使用优先级信息表
Figure 9224DEST_PATH_IMAGE004
第三预设超算节点使用优先级信息表可如下表3所示:
表3 第三预设超算节点使用优先级信息表
Figure 851278DEST_PATH_IMAGE006
在本发明另一个示意性实施例中,所述任务属性可包括锁定计算、重点紧急、重点不紧急、非重点紧急、非重点不紧急等五种情况。其中,锁定计算是指需要使用锁定节点进行计算的项目。在该实施例中,可包括4个预设超算节点使用优先级信息表,即m=4,具体地,第一预设超算节点使用优先级信息表可如下表4所示:
表4 第一预设超算节点使用优先级信息表
Figure 308804DEST_PATH_IMAGE008
也就是说,不管用户的任务量和平均单个任务计算耗时为多少,只要任务属性为锁定计算,则为第一优先级。在本发明实施例中,锁定计算需要用户向超算平台进行申请。在一个示例中,每个用户申请的锁定计算仅适用于申请用户。在另一个示例中,每个用户申请的锁定计算可适用于该用户本身及其关联用户,需要在申请时进行说明。
在本发明实施例中,任务属性可在用户向超算平台提交任务时进行说明。
在本发明实施例中,Ckr中待计算任务按照提交时间由早到晚进行排序。在本发明实施例中,处理器每次接收到新的节点的时候,会将新的节点加入到C中以更新当前的C,以确保后提交的优先级高的任务能够得到及时处理。
在S200中,Gk基于如下步骤得到:
S201,从当前正在计算的任务中获取属于IDCkr的计算任务数量h1(k,r)以及从当前未计算的任务中获取属于IDCkr的计算任务数量h(k,r)。
S202,获取IDCkr对应的当前任务属性E(k,r)、IDCkr提交的总计算任务的任务量d(k,r)以及IDCkr的平均单个任务计算耗时t(k,r),其中,d(k,r)=h1(k,r)+h(k,r),t(k,r)=(
Figure 919914DEST_PATH_IMAGE010
)/d(k,r),t(k,r)u为IDCkr当前提交的总计算任务中的第u个计算任务的计算耗时。
在本发明实施例中,t(k,r)u基于设定的计算耗时预测模型得到。具体地,可包括:
S2020,获取IDCkr当前提交的总计算任务中的第u个计算任务的时间控制要素和计算使用资源;
S2021,将第u个计算任务的时间控制要素和计算使用资源输入到所述设定的计算耗时预测模型中,得到对应的预测计算耗时tc(k,r)u
在本发明实施例中,t(k,r)u=tc(k,r)u
在本发明实施例中,当超算中心接收到用户提交的新的计算任务时,会从该计算任务中提取时间控制要素和计算使用资源。
在本发明实施例中,时间控制要素可包括模型求解器类型、模型网格数量、网格类型、非线性求解设置、计算精度设置等,这些时间影响因素都可以根据对应的软件的控制文件的特点在计算任务的控制文件中直接提取得到。计算使用资源为使用的超算资源,可包括节点数和核数,计算使用资源和计算耗时可以在超算中心后台获取得到。
在本发明实施例中,设定的计算耗时预测模型基于已经计算成功的N个计算任务的时间控制要素、计算使用资源和计算耗时构建。
在本发明实施例中,N个计算任务可包括不同工业软件不同版本的计算任务。在本发明实施例中,计算任务为完整的仿真任务。计算使用资源的单位为核小时。在本发明实施例中,核小时(core time)可为本领域通常定义,例如,为用来运行模拟或者渲染的处理器单元(核心)的数量乘以计算工作的持续时间(小时数)。例如,使用100台各具有8个核心的计算机跑上100小时,或200台各具有4个核心的计算机跑上100小时,都是80000核小时。
在本发明实施例中,可通过汇总得到每个计算任务的时间控制要素、计算使用资源和任务最终的计算耗时。基于大数据分析技术,对汇总数据进行数据分析,建立时间控制要素、计算使用资源、计算耗时之间的联系,以实现当时间要素和计算使用资源确定的情况下,可以分析出计算任务的计算耗时。
进一步地,可基于任一工业软件的任一版本的计算任务控制要素、计算使用资源和计算耗时构建对应的计算耗时预测模型。计算耗时预测模型可为经过训练的AI模型。
具体地,可通过如下步骤构建每个工业软件的每个版本的计算耗时预测模型:
S21,构建不同工业软件不用版本的仿真任务时长与其影响因素的数据库。具体地,对于任一工业软件v的任一版本p,可构建对应的数据库,数据库的第q行可包括(Tq vp,Cq vp,Uq vp),Tq vp,Cq vp, Uq vp分别为工业软件v的版本p对应的计算任务中的第q个计算任务的计算耗时、时间控制要素和计算使用资源;v的取值为1到N,N为工业软件的数量;p的取值为1到f(v),f(v)为工业软件v的版本数量;q的取值为1到N(v,p),N(v,p)为工业软件v的版本p对应的计算任务的数量。
其中,Cq vp=(Cq1 vp,Cq2 vp,…,Cqs vp,…,Cqt(q) vp),Cqs vp为Cq vp的第s个参数,s的取值为1到t(q),t(q)为Cq vp中的参数数量;在一个示例中,t(q)可等于5,Cq1 vp,Cq2 vp,…,Cqs vp,…,Cqt (q) vp可分别为模型求解器类型、模型网格数量、网格类型、非线性求解设置、计算精度设置。Uq vp=(Uq1 vp,Uq2 vp),参数Uq1 vp可为节点数,参数Uq2 vp可为核数。
本领域技术人员知晓,构建数据库使用的数据为经过数据清洗筛选后的数据。本领域技术人员知晓,数据清洗筛选可采用现有方法。
S22,对构建的数据库中的多维度数据进行降维处理。
在本发明实施例中,可采用PCA主成分分析对构建的数据库中的多维度数据进行降维,以降低后续拟合任务难度。
具体地,对于时间控制要素和计算使用资源中的各个参数,可基于各个参数相对于计算耗时的权重进行降维处理,以舍弃对计算耗时影响很小的参数,降低后续拟合任务难度。各个参数相对于计算耗时的权重可基于大数据统计分析得到。
本领域技术人员知晓,基于各个参数相对于计算耗时的权重进行降维处理可采用现有方法实现。
S23,基于N(v,p)获取适配的神经网络深度,构建预测模型M(v,p)。
本领域技术人员知晓,N(v,p)越大,所需要的神经网络深度即神经网络层就越多,具体选择方式可采用现有方法。在一个示意性实施例中,神经网络可为卷积神经网络。
S24,将经过S22处理后的工业软件v的版本p的数据库中的数据作为训练集输入到M(v,p)中进行训练,得到训练后的M(v,p)作为工业软件v的版本p的计算耗时预测模型。
本领域技术人员知晓,将经过S22处理后的工业软件v的版本p的数据库中的数据作为训练集输入到M(v,p)中进行训练,得到训练后的M(v,p)作为工业软件v的版本p的计算耗时预测模型可通过现有方法实现。
在提取时间控制要素和计算使用资源后,会基于计算任务对应的软件和版本名称,选择对应的计算耗时预测模型。然后,将提取的时间控制要素和计算使用资源输入到对应的计算耗时预测模型中,得到对应的预测计算耗时。
S203,基于E(k,r)、d(k,r)和t(k,r),从预设超算节点使用优先级信息表中获取对应的优先级作为Gk
具体地,遍历m个预设超算节点使用优先级信息表,如果某个预设超算节点使用优先级信息表的某行包括E(k,r)、d(k,r)和t(k,r),则将该行对应的优先级作为Gk
S300,获取可使用超算节点,并利用获取到的可使用超算节点对C中的待计算任务依次进行处理。
进一步地,在本发明一实施例中,S300可具体包括:
S310,获取从任务计算节点中释放的超算节点,得到可使用超算节点。
在本发明实施例中,S310可按照设定时间周期执行,可在任务计算的整个过程中执行。
S320,如果当前处理的Ckr对应的IDCkr对应的总任务量和平均单个任务计算耗时满足第一设定条件,即当前处理的Ckr所属的用户ID对应的总任务量和平均单个任务计算耗时满足第一设定条件,执行S330;如果满足第二设定条件,执行S340;否则,执行S360。
在本发明实施例中,IDCkr对应的总任务量包括已计算的任务量和待计算的任务量。
在本发明实施例中,第一设定条件可为任务量大于D,平均单个任务耗时小于T。第二设定条件可为任务量大于D,平均单个任务耗时大于T。
S330,如果Ckr中已计算的任务数量Q(k,r)<D1,则利用可使用超算节点继续计算Ckr中D1-Q(k,r)个待计算任务,执行S350;如果Q(k,r)=D1,执行S350;D1为第一设定阈值。
在本发明实施例中,D1可基于实际需要进行设置,在一个示例中,D1可为固定值,例如D1=8~10,优选,D1=10。在另一个示例中,D1=⌊k1*d(k,r)⌋,0<k1<0.5,优选,0<k1<0.3,⌊ ⌋表示向下取整。
本领域技术人员知晓,如果存在当前可使用超算节点不够继续计算Ckr中当前需要计算的一个待计算任务的情况时,例如,当前可使用超算节点为5,而当前需要计算的待计算任务需要的节点数为6,则可继续等待释放的节点,直到满足所需节点即可。
S340,如果Ckr中已计算的任务数量Q(k,r)<D2,则利用可使用超算节点继续计算Ckr中的D2-Q(k,r)个待计算任务,执行S350;如果Q(k,r)=D2,执行S350;D2为第二设定阈值。
在本发明实施例中,D2可基于实际需要进行设置,在一个示例中,D2可为固定值,例如D1=3~5,优选,D1=10。在另一个示例中,D2=⌊k2*d(k,r)⌋,0<k2<0.3,优选,0<k2<0.1。
S350,将Ckr的执行顺序调整为f(k),并将Ck中除Ckr之外的待计算任务集的执行顺序分别增加1,即将Ckr之后的任务集处理后再处理Ckr;执行S370。
S330至S350的技术效果在于,对于处于同一优先级的包括任务量多和任务量少的多个任务类型,对于提交时间早的任务量多的任务类型,如果在等该任务类型全部计算完之后再处理其它任务类型,由于任务量多所需的超算节点和计算耗时相应大,这对具有相同优先级的任务少的任务类型会显得不合理,因此,对于这种情况,可先对先提交的任务量多的任务类型计算设定数量的待计算任务,然后计算其它任务类型的任务,这样,能够使得任务量少且紧急的任务得到及时处理,能够确保超算节点尽可能更合理的使用。
S360,利用可使用超算节点对Ckr中的待计算任务进行计算,在Ckr中的待计算任务计算完后,执行S370。
在S360中,对于任务量少的任务类型,由于任务量少,可在所有待计算任务计算完后才进行下一个任务类型的任务计算。
S370,设置r=r+1;如果r≤f(k),执行S330,否则,进行下一个任务类型的任务计算,即执行S380。
S380,设置k=k+1;如果k≤L,执行S320;否则,退出当前控制程序,即结束排队状态的节点优先级分配机制。
在本发明另一实施例中,在S310之前还包括:
S312,如果当前处理的Ckr的任务属性为设定属性,执行S314;否则,执行S320。
在本发明一具体示例中,设定属性可为锁定计算。
S314,基于Ckr需要的超算节点数量,从可使用超算节点中获取对应数量的超算节点作为Ckr的锁定节点;在Ckr中的待计算任务计算完后,执行S370。
S314的技术效果在于,使得任务属性为锁定计算的任务类型,具有最高优先级,能够得到及时处理。
在本实施例与前述实施例相比,由于增加了任务属性锁定计算,能够使得优先级类型更多,使得用户选择更多,用户体验更好。
综上,本发明实施例提供的基于优先级的超算节点使用方法,在出现任务排队时,能够基于用户提供的计算任务的数量、平均单个任务的计算耗时和任务紧急情况来分配超算节点,从而能够使得超算节点的使用变得更加合理。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims (10)

1.一种基于优先级的超算节点使用方法,其特征在于,所述方法包括:
S100,在检测到存在未处理的计算任务时,执行S200;
S200,基于当前未处理的计算任务和m个预设超算节点使用优先级信息表,获取按优先级从高到低的顺序排列的待计算任务组集C=(C1,C2,...,Ck,…,CL);其中,第i个预设超算节点使用优先级信息表的第j行包括(Wij,Aij,Tij,Eij),Wij为第i个预设超算节点使用优先级信息表中的第j个任务类型,Aij为Wij对应的任务量,Tij为Wij对应的平均单个任务计算耗时,Eij为Wij对应的任务属性,Wij对应的优先级为Pi,i的取值为1到m,j的取值为1到f(i),f(i)为第i个预设超算节点使用优先级信息表的任务类型数量;P1>P2>…>Pi>…>Pm;第k个待计算任务组Ck=(Ck1,Ck2,...,Ckr,…,Ckf(k)), Ckr为Ck中的第r个待计算任务集,Ckr=(IDCkr,RCkr1,RCkr2,...,RCkrb,...,RCkrh(k,r)),IDCkr为Ckr对应的用户ID,RCkrb为Ckr中的第b个待计算任务,Ckr的优先级为Gk,Ckr的执行顺序为r,k的取值为1到L,L为C中的待计算任务组的数量,L≤m;r的取值为1到f(k),f(k)为Ck中的待计算任务集的数量,b的取值为1到h(k,r),h(k,r)为Ckr中的待计算任务的数量,Gk∈{P1,P2,...,Pm};
S300,获取可使用超算节点,并利用获取到的可使用超算节点对C中的待计算任务依次进行处理;
S300具体包括:
S310,获取从任务计算节点中释放的超算节点,得到可使用超算节点;
S320,如果当前处理的Ckr对应IDCkr对应的总任务量和平均单个任务计算耗时满足第一设定条件,执行S330;如果满足第二设定条件,执行S340;否则,执行S360;其中,第一设定条件为任务量大于设定任务数量阈值,平均单个任务耗时小于设定的单个任务计算耗时阈值,第二设定条件为任务量大于设定任务数量阈值,平均单个任务耗时大于设定的单个任务计算耗时阈值;
S330,如果Ckr中已计算的任务数量Q(k,r)<D1,则利用可使用超算节点继续计算Ckr中的(D1- Q(k,r))个待计算任务,执行S350;如果Q(k,r)=D1,执行S350;D1为第一设定阈值;
S340,如果Ckr中已计算的任务数量Q(k,r)<D2,则利用可使用超算节点继续计算Ckr中的(D2-Q(k,r))个待计算任务,执行S350;如果Q(k,r)=D2,执行S350;D2为第二设定阈值;
S350,将Ckr的执行顺序调整为f(k),并将Ck中除Ckr之外的待计算任务集的执行顺序分别增加1;执行S370;
S360,利用可使用超算节点对Ckr中的待计算任务进行计算,在Ckr中的所有待计算任务计算完后,执行S370;
S370,设置r=r+1;如果r≤f(k),执行S320,否则,执行S380;
S380,设置k=k+1;如果k≤L,执行S320;否则,退出控制程序。
2.根据权利要求1所述的方法,其特征在于,在S200中,Gk基于如下步骤得到:
S201,从当前正在计算的任务中获取属于IDCkr的计算任务数量h1(k,r)以及从当前待计算的任务中获取属于IDCkr的计算任务数量h(k,r);
S202,获取IDCkr对应的当前任务属性E(k,r)、IDCkr提交的总计算任务的任务量d(k,r)以及IDCkr的平均单个任务计算耗时t(k,r),其中,d(k,r)=h1(k,r)+h(k,r),t(k,r)=(∑d(k,r) u=1 t(k,r)u)/d(k,r),t(k,r)u为IDCkr当前提交的总计算任务中的第u个计算任务的计算耗时;
S203,基于E(k,r)、d(k,r)和t(k,r),从m个预设超算节点使用优先级信息表中获取对应的优先级作为Gk
3.根据权利要求2所述的方法,其特征在于,t(k,r)u基于设定的计算耗时预测模型得到。
4.根据权利要求3所述的方法,其特征在于,所述设定的计算耗时预测模型基于已经计算成功的N个计算任务的时间控制要素、计算使用资源和计算耗时构建。
5.根据权利要求4所述的方法,其特征在于,t(k,r)u基于如下步骤得到:
S2020,获取第u个计算任务的时间控制要素和计算使用资源;
S2021,将第u个计算任务的时间控制要素和计算使用资源输入到所述设定的计算耗时预测模型中,得到对应的预测计算耗时tc(k,r)u
S2022,获取t(k,r)u=tc(k,r)u
6.根据权利要求1所述的方法,其特征在于,在S310之前还包括:
S312,如果当前处理的Ckr的任务属性为设定属性,执行S314;否则,执行S320;
S314,基于Ckr需要的超算节点数量,从可使用超算节点中获取对应数量的超算节点作为Ckr的锁定节点;在Ckr中的待计算任务计算完后,执行S370。
7.根据权利要求1所述的方法,其特征在于,所述任务属性包括重点紧急、重点不紧急、非重点紧急、非重点不紧急。
8.根据权利要求1所述的方法,其特征在于,所述任务属性包括锁定计算、重点紧急、重点不紧急、非重点紧急、非重点不紧急。
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中所述的非瞬时性计算机可读存储介质。
CN202211443356.3A 2022-11-18 2022-11-18 基于优先级的超算节点使用方法、电子设备和存储介质 Active CN115495224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211443356.3A CN115495224B (zh) 2022-11-18 2022-11-18 基于优先级的超算节点使用方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211443356.3A CN115495224B (zh) 2022-11-18 2022-11-18 基于优先级的超算节点使用方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115495224A CN115495224A (zh) 2022-12-20
CN115495224B true CN115495224B (zh) 2023-03-24

Family

ID=85116196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211443356.3A Active CN115495224B (zh) 2022-11-18 2022-11-18 基于优先级的超算节点使用方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115495224B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328399A (zh) * 2020-11-17 2021-02-05 中国平安财产保险股份有限公司 一种集群资源调度方法、装置、计算机设备及存储介质
CN113687938A (zh) * 2021-10-27 2021-11-23 之江实验室 一种医疗数据计算任务智能调度方法及系统
CN114610474A (zh) * 2022-05-12 2022-06-10 之江实验室 一种异构超算环境下多策略的作业调度方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239534B1 (en) * 2003-07-14 2012-08-07 Lockheed Martin Corporation Precedence adjusted resource allocation
US9785522B2 (en) * 2014-11-14 2017-10-10 Cisco Technology, Inc. Adaptive datacenter topology for distributed frameworks job control through network awareness
CN106326003B (zh) * 2016-08-11 2019-06-28 中国科学院重庆绿色智能技术研究院 一种作业调度和计算资源分配方法
CN107291545B (zh) * 2017-08-07 2019-12-10 星环信息科技(上海)有限公司 计算集群中多用户的任务调度方法及设备
CN111176852B (zh) * 2020-01-15 2024-04-16 上海依图网络科技有限公司 资源分配方法、装置、芯片及计算机可读存储介质
CN112882810B (zh) * 2021-02-25 2023-02-07 国家超级计算天津中心 基于超级计算机的高通量任务处理方法
CN113448714B (zh) * 2021-07-14 2022-03-04 华能吉林发电有限公司 基于云平台的计算资源控制系统
CN115292016A (zh) * 2022-08-09 2022-11-04 中国平安财产保险股份有限公司 基于人工智能的任务调度方法及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328399A (zh) * 2020-11-17 2021-02-05 中国平安财产保险股份有限公司 一种集群资源调度方法、装置、计算机设备及存储介质
CN113687938A (zh) * 2021-10-27 2021-11-23 之江实验室 一种医疗数据计算任务智能调度方法及系统
CN114610474A (zh) * 2022-05-12 2022-06-10 之江实验室 一种异构超算环境下多策略的作业调度方法及系统

Also Published As

Publication number Publication date
CN115495224A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN104317658B (zh) 一种基于MapReduce的负载自适应任务调度方法
Mansouri et al. Cost-based job scheduling strategy in cloud computing environments
CN110347504B (zh) 众核计算资源调度方法及装置
WO2019152230A1 (en) Predictive model-based intelligent system for automatically scaling and managing provisioned computing resources
CN112764936B (zh) 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN114610474B (zh) 一种异构超算环境下多策略的作业调度方法及系统
CN114237869B (zh) 基于强化学习的Ray双层调度方法、装置和电子设备
Shojaee et al. A new cat swarm optimization based algorithm for reliability-oriented task allocation in distributed systems
CN111782359B (zh) 分布式计算系统任务分配方法及相关设备
CN112732444A (zh) 一种面向分布式机器学习的数据划分方法
Nanda et al. Racc: resource-aware container consolidation using a deep learning approach
CN115495224B (zh) 基于优先级的超算节点使用方法、电子设备和存储介质
Miao et al. Efficient flow-based scheduling for geo-distributed simulation tasks in collaborative edge and cloud environments
CN112036831A (zh) 人力管理系统控制方法、装置、可读存储介质及终端设备
CN114816690A (zh) 一种任务分配方法、装置、设备及存储介质
CN116880968A (zh) 一种作业调度方法及调度系统
CN115599522A (zh) 一种云计算平台任务调度方法、装置和设备
CN115686865B (zh) 一种基于多场景应用的超算节点资源分配系统
Zhou et al. Stability property of clouds and cooperative scheduling policies on multiple types of resources in cloud computing
Li et al. Encoding for reinforcement learning driven scheduling
CN109344463A (zh) 电子产品应力云仿真平台的两阶段调度方法
CN111857988B (zh) 一种基于任务管理系统的容器任务调度方法及装置
Dhok et al. Using pattern classification for task assignment in mapreduce
Paduraru et al. Task Scheduling: A Reinforcement Learning Based Approach.
Mokhtari et al. Improving completion time and execution time using FSMPIA: A case study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240111

Address after: Expert Apartment West, No. 5, Applied Science City, Liuqing Street, Lanshan District, Linyi City, Shandong Province, 276000

Patentee after: Linyi Tianhe Technology Co.,Ltd.

Address before: 276000 3rd floor, the landlord's side corner room of Linyi north railway station, Lanshan District, Linyi City, Shandong Province

Patentee before: Tianhe supercomputing Huaihai sub center