CN117675526A - 一种算力可用性和计算能力的监测与抑制系统和方法 - Google Patents

一种算力可用性和计算能力的监测与抑制系统和方法 Download PDF

Info

Publication number
CN117675526A
CN117675526A CN202311650854.XA CN202311650854A CN117675526A CN 117675526 A CN117675526 A CN 117675526A CN 202311650854 A CN202311650854 A CN 202311650854A CN 117675526 A CN117675526 A CN 117675526A
Authority
CN
China
Prior art keywords
power
computing
service
computing power
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311650854.XA
Other languages
English (en)
Inventor
艾定军
陶鸿飞
卢彦魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Eastcom Software Technology Co ltd
Original Assignee
Hangzhou Eastcom Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Eastcom Software Technology Co ltd filed Critical Hangzhou Eastcom Software Technology Co ltd
Priority to CN202311650854.XA priority Critical patent/CN117675526A/zh
Publication of CN117675526A publication Critical patent/CN117675526A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明实施例提供的一种算力可用性和计算能力的监测与抑制系统,应用于算力网络中,包括算力可用性监测模块,算力差异性监测模块、算力调度模块,算力可用性监测模块,被配置为将大于预设算力震荡上限阈值的算力资源/服务记入算力震荡列表;算力差异性监测模块,被配置为基于所述算力震荡评估值和实际算力震荡评估值,得到差异性振荡值,基于所述差异性振荡值创建算力实际服务震荡列表;算力调度模块,被配置为基于所述算力震荡列表和算力实际服务震荡列表,减少列表中记录的算力资源/服务在所述算力网络选路算法中被选中的概率。本申请从算力方面考虑算力供给的震荡以及算力实际服务过程中计算能力的震荡对算力网络的影响并给予抑制。

Description

一种算力可用性和计算能力的监测与抑制系统和方法
技术领域
本发明属于网络通信技术领域,尤其涉及一种算力可用性和计算能力的监测与抑制系统和方法。
背景技术
算力网络是一种新型的网络技术,通过控制平面获取计算、存储、网络等资源信息,在全网算力感知和集中管理的基础上,通过对算力和网络资源的协同调度,将不同的应用沿最优路径,调度到最优算力节点,实现业务服务质量最优的同时,保证网络资源和计算资源的利用率最优化。
算力由芯片、存储等计算资源及在其上运行的操作系统和软件组成,算力资源和服务也会因为各种各样的原因导致不稳定性,导致算力资源和服务不稳定性的因素有很多,比如硬件过热导致的问题、软件的间歇性响应速度问题,还有负载等问题导致的备案的计算能力与实际表现不符的问题,这些间歇性算力资源服务的不稳定性我们统称为算力震荡。算力震荡会严重影响算力网络服务的可靠性和稳定性,采用一定的手段和技术抑制不稳定算力对外提供算力服务,也就是抑制算力震荡,对提高算力网络服务的可用性有重大意义。
发明内容
针对算力震荡引起的算力网络服务的可靠性和稳定性问题。本申请实施例提供了一种算力可用性和计算能力的监测与抑制系统和方法。
第一方面,本申请提供了一种算力可用性和计算能力的监测与抑制系统,该系统包括:算力可用性监测模块,被配置为在预设观察时间段内,记录所述算力网络中算力资源/服务出现的不可用次数,并基于所述不可用次数计算算力震荡惩罚值,在所述观察时间段结束后,基于所述算力震荡惩罚值,将大于预设算力震荡上限阈值的所述算力资源/服务记入算力震荡列表;算力评估模块,被配置为基于算力资源/服务的算力类型对所述算力资源/服务进行算力评估,得到所述算力资源/服务的算力评估值;数据库备案模块,被配置为记录所述算力资源/服务的算力初始值;算力差异性监测模块,被配置为基于所述算力资源/服务的算力评估值和算力初始值,计算得出算力震荡评估值;基于所述算力震荡评估值和实际算力震荡评估值,得到差异性振荡值,基于所述差异性振荡值创建算力实际服务震荡列表;所述实际算力震荡评估值为所述算力资源和服务实际服务过程中,基于同一算力任务在所述算力资源/服务上历史若干次运行时间的平均值作为基准值判定得出;算力调度模块,被配置为基于所述算力震荡列表和算力实际服务震荡列表,减少列表中记录的算力资源/服务在所述算力网络选路算法中被选中的概率。
在一个实施例中,所述减少列表中记录的算力资源/服务在所述算力网络选路算法中被选中的概率,包括:接收目标算力任务的算力调度请求,通过将算力震荡列表中的所述算力震荡惩罚值作为选路时的参考权重,以及对算力实际服务震荡列表中记录的算力资源/服务添加惩罚因子作为选路时的参考权重;从而确定用于执行目标算力任务的算力资源/服务。
在一个实施例中,所述系统还包括:算力资源/服务获取模块,被配置为获取所述算力网络的资源/服务状态;算力计算能力请求模块,被配置为发送算力评估请求。
在一个实施例中,首次获取到所述算力网络的资源/服务状态为不可用时,添加所述资源/服务到所述算力震荡观察列表,并赋予初始惩罚值。
在一个实施例中,在所述预设观察时间段内,每记录一次算力资源/服务的不可用次数,所述算力资源/服务的惩罚值增加预设的第一常量;以及在所述预设观察时间段内,每记录一次算力资源/服务的可用次数,所述算力资源/服务的奖赏值增加预设的第二常量;在所述预设观察时间段结束后,基于所述初始惩罚值、惩罚值和奖赏值,计算所述预设观察时间段内所述算力资源和服务的综合奖赏值,在所述综合奖赏值小于设定的第一算力震荡下限阈值时,将所述算力资源/服务从所述算力震荡观察列表中移除;在所述综合奖赏值不大于所述第一算力震荡上限阈值且不小于所述第一算力震荡下限阈值时,将所述算力资源/服务继续保留在算力震荡观察列表中进行震荡监控;在所述综合奖赏值大于设定的第一算力震荡上限阈值时,将所述算力资源/服务加入所述算力震荡列表。
在一个实施例中,当目标任务所属的任务类型对应服务稳定性要求高等级并且所述任务类型对应性能稳定性要求普通等级时,从所述算力资源/服务列表中,确定至少一个没有出现在算力震荡列表中的第一候选算力资源/服务,以及从至少一个第一候选算力资源/服务中选择用于执行目标任务的算力服务;所述第一候选算力资源/服务为没有出现在算力震荡列表中的算力资源/服务;当所述任务类型对应服务稳定性要求高等级并且所述任务类型对应性能稳定性要求高等级时,从所述算力资源/服务列表中确定至少一个没有出现在算力实际服务震荡列表、算力震荡列表中任意一个的第三候选算力资源/服务,以及从至少一个第三候选算力资源/服务中选择用于执行目标任务的算力资源/服务;所述第三候选算力资源/服务为没有出现在算力震荡列表和算力实际服务震荡列表的算力资源/服务。
在一个实施例中,所述算力计算能力请求模块,被配置为获取所述算力网络的算力评估值,包括:由所述算力计算能力请求模块发起算力评估请求,或者在算力资源/服务首次接入所述算力网络时,由所述算力计算能力请求模块发起算力评估请求;在发起算力评估请求之后,还包括:确定算力类型,基于所述算力类型,准备算力评估工具和环境进行算力评估;将评估结果记入算力评估结果数据库;基于所述评估结果,所述评估工具计算出算力评估值。
在一个实施例中,所述实际算力震荡评估值的获得包括:获取连续的多次利用目标算力资源/服务完成相应算力任务中每一次利用目标算力资源/服务完成相应任务的第一时长;根据获取的多个第一时长,确定所述实际算力震荡评估值;或者,获取由多个与目标算力资源/服务属于相同算力等级的其他算力资源/服务、目标算力资源/服务组成的算力服务组合中每个算力资源/服务的完成相应任务的第二时长,其中,所述每个算力资源/服务各自完成的相应任务的计算量属于同一计算量等级;根据获取的每个第二时长和所述每个算力资源/服务的备案算力值,确定所述实际算力震荡评估值。
另一方面,本申请实施例提供了一种算力可用性和计算能力的监测与抑制方法,应用于上述系统,该方法包括:在预设观察时间段内,记录算力资源/服务出现的不可用次数,并基于所述不可用次数计算算力震荡惩罚值,在所述观察时间段结束后,基于所述算力震荡惩罚值,将大于预设算力震荡上限阈值的所述算力资源和服务记入算力震荡列表;基于所述算力网络中算力资源/服务的算力评估值和算力初始值,计算得出算力震荡评估值;基于所述算力震荡评估值和实际算力震荡评估值,得到差异性振荡值,基于所述差异性振荡值创建算力实际服务震荡列表;所述实际算力震荡评估值为所述算力资源/服务实际服务过程中,基于同一算力任务在所述算力资源/服务历史若干次运行时间的平均值作为基准值判定得出;其中基于算力资源/服务的算力类型对所述算力资源和服务进行算力评估,得到所述算力资源/服务的算力评估值;所述算力资源/服务的算力初始值记录在数据库中;基于所述算力震荡列表和算力实际服务震荡列表,减少列表中记录的算力资源/服务在所述算力网络选路算法中被选中的概率。
在一个实施例中,算力震荡列表和算力实际服务震荡列表的创建、增添和删除不限定于所述步骤执行顺序。
本申请实施例提供的一种算力可用性和计算能力的监测与抑制系统和方法,接收针对目标任务的算力服务调度请求,并且根据算力震荡列表、算力震荡观察列表和算力实际服务震荡列表,从目标任务所需的算力资源/服务集合中,选择用于这行目标任务的算力服务,以及调度用于执行目标任务的算力资源/服务来执行所述目标任务。使得相比于非振荡算力服务,震荡算力服务更难被选择为用于执行目标任务的算力资源/服务。所述震荡算力服务出现在上述三个列表最终至少一个列表中,非震荡算力服务没有出现在上述三个列表中任意一个列表,同时考虑了算力资源/服务的稳定性和性能的稳定性。在调度算力资源/服务时,算力资源/服务不稳定和/或算力资源/服务的性能不稳定的算力资源/服务更难被选择为用于执行目标任务的算力资源/服务。算力资源/服务不稳定和/或算力资源/服务的性能不稳定的算力资源/服务被选择为用于执行目标任务的算力资源/服务的概率更低,从而,在一些情况下可以避免由于向用户提供的算力资源/服务不稳定而造成的算力服务质量较低,提升向用户提供的算力服务的质量。
附图说明
图1是本申请实施例提供的算力选路结构示意图;
图2是本申请实施例提供的算力可用性和算力计算能力的监测与抑制系统结构示意图;
图3示出本申请实施例提供的算力可用性震荡监测流程图;
图4是本申请实施例提供的算力计算能力差异性震荡监测流程图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
针对算力震荡引起的问题,本发明实施例提供了一种算力可用性和计算能力的监测与抑制系统和方法。
图1是本申请实施例提供的算力选路结构示意图,如图1所示,下面对本申请的一种可能的应用场景进行说明。终端用户发起算力请求,算力网络控制器接收到该请求后进行算力选路确定算力资源和服务列表,基于本申请提供的算力震荡列表和算力实际服务震荡列表,优先从上述列表以外的算力资源和服务中选择,完成全局路径规划。
本申请所提及系统可以设置于网络管理设备,网络监控设备,网络代理服务器,还可以为其他具有路由设备参数信息处理能力的网络设备,具体此处不做限定,在一个实施例中,在算力资源的边缘建立算力资源网关,在算力池内建立代理服务器,所述算力可用性和算力计算能力监测与抑制系统可以设置于代理服务器中,通过算力监测代理服务器向算力网关通告算力资源信息和状态。
在一些实施例中,算力资源信息节点包括CPU、GPU等通用计算资源,FPGA、ASIC等专用计算资源,以及存储资源等基础计算资源,也包括应用、服务、算法等服务类资源。各种算力资源构成多个算力资源池等节点集合概念。节点集合亦是一种可视化对象元素。此外还包括算力控制器、算力请求方的虚拟抽象化节点、承载算力网络的云网相关网络资源等。图2是本申请实施例提供的算力可用性和算力计算能力的监测与抑制系统结构示意图,如图2所示,本申请实施例提供的算力可用性和算力计算能力监测与抑制系统60包括算力可用性检测模块10,算力差异性检测模块20,算力评估模块30,数据库备案模块40和算力调度模块50。
算力可用性监测模块10,被配置为在预设观察时间段内,记录算力资源和服务出现的不可用性次数,并计算其综合奖惩值,在所述观察时间段结束后,将大于预设上限阈值的所述算力资源和服务记入算力震荡列表.
算力评估模块30,被配置为基于算力资源的算力类型对所述算力资源进行算力评估。
数据库备案模块40,被配置为记录所述算力资源的算力初始值。
算力差异性监测模块20,被配置为基于所述算力网络中算力资源的算力评估值和算力初始值,计算得出算力震荡评估值;所述算力评估值由所述算力评估模块获得;基于所述算力震荡评估值和实际算力震荡评估值,得到差异性振荡值,基于所述差异性振荡值创建算力实际服务震荡列表;所述实际算力震荡评估值为所述算力实际服务过程的算力震荡评估值,其根据历史运行时间数据作为基准值判定得出。
算力调度模块50,被配置为基于所述算力震荡列表和算力实际服务震荡列表,减少列表中记录的算力资源和服务在所述算力网络选路算法中被选中的概率。
在一些实施例中,本申请还包括算力资源/服务获取模块,获取算力网络的资源/服务状态,
在一些实施例中,本申请还包括算力计算能力请求模块,被配置为发送所述算力网络的算力评估请求。算力可用性和算力计算能力监测与抑制系统60对算力资源/服务进行监控,并将发生算力震荡的算力资源和服务记录到震荡列表中,为算路调度模块50提供参考。本申请所指的算力震荡为算力资源服务不稳定性引起的算力服务的不稳定性,算力震荡会严重影响算力网络服务的可靠性和稳定性,本申请采用一定的手段和技术抑制不稳定算力对外提供算力服务,也就是抑制算力震荡,提高算力网络服务的可用性。
对资源/服务的不稳定可用性震荡,本申请引入算力监测机制和方法,持续对可用性监控,并根据其趋势提供相应抑制或缓释手段。图3示出本申请实施例提供的算力可用性震荡监测流程图,如图3所示,
在对监测区域内的算力资源/服务一次算力震荡评估开始之后,统计算力资源/服务在一次算力震荡评估的统计时间段内提供服务成功的次数和提供服务失败的次数,该统计时间段的时长为预设时长,该统计时间段的起始时刻可以为对算力资源/服务的一次算力震荡评估的开始时间,该统计时间段的结束时刻可以为与该开始时刻的时间间隔为预设时长的时间。根据统计的次数,确定算力资源/服务的算力震荡惩罚值。当算力资源/服务的算力震荡惩罚值小于第一算力震荡下限阈值时,将目标算力资源/服务从算力震荡观察列表中删除,当算力震荡惩罚值大于或等于第一算力震荡下限阈值并且算力震荡惩罚值小于或等于第一算力震荡上限阈值时,确定将该算力资源和服务保留在算力震荡观察列表中,其中,算力震荡下限阈值小于第一算力震荡上限阈值,当算力震荡惩罚值大于第一算力震荡上限阈值时,将该算力资源/服务从算力震荡观察列表移动到算力震荡列表中。
在一个实施例中,本申请所指算力资源可以为包括CPU、GPU等通用计算资源,FPGA、ASIC等专用计算资源,以及存储资源等基础计算资源,也包括应用、服务、算法等服务类资源,所指算力服务可以为服务方式提供的算力资源,例如可以为API调用的方式,在一个具体的实施例中,一个算力服务以restful方式提供(比如:http://<ip>:<port>/service)。
若算力资源/服务开始执行任务的时间、算力资源/服务完成该任务的时间均在统计时间段内,则可以确定算力资源/服务在该统计时间段内的一次提供服务成功。目标算力资源/服务开始执行该任务的时间、目标算力资源/服务由于故障而中止执行该任务的时间均在统计时间段i内,则可以确定目标算力资源/服务在该统计时间段i内的一次提供服务失败。
对计算能力偏差引起的震荡,本申请提供计算能力评估流程和技术,通过运用标准算力测量任务主动评估,和在实际算力服务过程中数据汇总、统计、分析和比较等手段来监测计算能力偏差的震荡,并根据震荡趋势提供相应的抑制或缓释手段。图4是本申请实施例提供的算力计算能力差异性震荡监测流程图,如图4所示,差异性震荡值是根据算力震荡评估值和实际算力震荡评估值得到的。其中,为了得到算力震荡评估值,利用算力评测工具对目标算力服务的算力资源进行算力值评估,得到目标算力服务的实际算力值,根据目标算力服务的实际算力值与算力备案数据库中目标算力服务的备案算力值,得到算力震荡评估值。为了得到实际算力震荡评估值,算力差异性监测模块20可以获取连续的多次利用目标算力资源/服务完成相应任务中每一次利用目标算力资源/服务完成相应任务的第一时长或由多个与目标算力资源/服务属于相同算力等级的其他算力资源/服务、目标算力资源/服务组成的算力资源/服务组合中每个算力资源/服务的完成相应任务的第二时长,实际算力震荡评估值至少根据获取的多个时长,确定实际算力震荡评估值。
在一个实施例中,计算算力资源/服务包括:计算算力资源/服务在该算力震荡评估的统计时间段内提供服务失败的次数与第一预设值的乘积,得到第一值,以及计算目标算力资源/服务在算力震荡评估的统计时间段内提供服务成功的次数与第二预设值的乘积,得到目标算力资源/服务的第二值;根据预设初始值、目标资源/算力服务的第一值、目标资源/算力服务的第二值,得到目标算力服务的算力震荡惩罚值。其中,目标算力资源/服务的算力震荡惩罚值=预设资源/服务初始值+目标算力资源/服务的第一值-目标资源/算力服务的第二值。其中,预设资源/服务初始值、第一预设值、第二预设值均为正数,可选的,预设初始值为1,第一预设值为1,第二预设值为1。当目标算力资源/服务的算力震荡惩罚值小于第二算力震荡下限阈值时,将目标算力资源/服务从算力震荡观察列表中删除;当目标算力资源/服务的算力震荡评估值大于或等于第二算力震荡下限阈值并且算力震荡评估值小于或等于第二算力震荡上限阈值时,确定将目标算力资源/服务保留在算力震荡观察列表中,其中,第二算力震荡下限阈值小于第二算力震荡上限阈值;当目标算力资源/服务的算力震荡惩罚值大于第二算力震荡上限阈值时,将目标算力资源/服务从算力震荡观察列表移动到算力震荡列表中。
在一个实施例中,对算力资源/服务进行计算能力评估,根据算力资源/服务的算力资源的实际算力值和备案算力值,计算算力资源/服务的算力震荡评估值,以及当所述算力震荡评估值大于第二算力震荡阈值时,将所述算力资源和服务加入到算力实际服务震荡列表中,
在一个实施例中,算力资源/服务首次接入算力网络、在所述目标算力资源/服务的没有在算力实际服务震荡列表中时接收到针对所述目标算力资源/服务的算力评估请求。
在一个实施例中,该算力评估请求由算力计算能力请求模块发送。
根据目标算力资源/服务的算力资源的实际算力值与算力备案数据库中目标算力资源/服务的算力资源的备案算力值,得到目标算力资源/服务的算力震荡评估值,其中,目标算力资源/服务的算力资源的实际算力值是利用算力评测工具对目标算力服务的算力资源进行算力值评估得到的;
其中,对于目标算力资源/服务的算力资源,利用可以适合对该算力资源资源/进行评估的算力评测工具对目标算力服务的算力资源进行算力值评估,得到目标算力服务的算力资源的算力评估值,将目标算力服务的算力资源的算力评估值作为目标算力服务的算力资源的实际算力值。举例而言,目标算力资源/服务的算力资源为CPU资源,利用适合对CPU计算能力进行评估的算力评测工具SPEC CPU对目标算力服务的算力资源进行算力值评估,得到目标算力服务的实际算力值。继续举例,目标算力服务的算力资源为服务器,利用适用于评估对服务器的算力值评估工具SPEC Power对目标算力服务的算力资源进行算力值评估,得到目标算力服务的算力资源的实际算力值。
备案算力值可以理解为在利用算力资源/服务执行任务之前,对算力资源进行测试而确定出的算力值,备案算力值可以由算力资源的开发人员提供。当根据目标算力服务的实际算力值与算力备案数据库中目标算力资源/服务的备案算力值,得到目标算力资源/服务的算力震荡评估值时,可以通过以下公式得到目标算力资源/服务的算力震荡评估值Wv:Wv=(Va-Vr)/Vr。其中,Va为目标算力服资源/务的算力资源的实际算力值,Vr为目标算力资源/服务的算力资源的备案算力值。
在一个实施例中,实际算力震荡评估值的获取为:获取连续的多次利用目标算力资源/服务完成相应任务中每一次利用目标算力资源/服务完成相应任务的第一时长;根据获取的多个第一时长,确定目标算力资源/服务的实际算力震荡评估值。
其中,连续的多次利用目标算力资源/服务完成相应任务包括:第t次利用目标算力资源/服务完成相应任务…第t-n-1次利用目标算力资源/服务完成相应任务。n为该多次包括的次数。第t次利用目标算力资源/服务完成相应任务可以为最近一次利用目标算力资源/服务完成相应任务。其中,最近一次是相对于该任务的开始时间而言的,最近一次利用目标算力资源/服务完成相应任务的开始时间与第一操作的开始时间之间的时间间隔小于最近一次之前的先前次利用目标算力资源/服务完成相应任务的开始时间与第一操作的开始时间之间的时间间隔。
对于任务i,完成任务i的时长可以是指完成任务i所需的时长,也就是说,完成任务i的时长指示完成任务需要花费多长时间。任务i的计算量指示完成任务i所需的计算量。第j次利用目标算力资源/服务完成的相应的任务为任务j,第k次利用目标算力资源/服务完成的相应任务为任务k。任务j与任务k可能不同,也可能相同。任务j的计算量、任务k的计算量属于同一等级。第j次、第k次为上述连续的多次中任意两次。
当根据获取的多个第一时长,确定目标算力资源/服务的实际算力震荡评估值时,可以通过以下公式,确定目标算力资源/服务的实际算力震荡评估值Wr:Wr=Tc/[(T1+T2+...+Tm)/m],其中,Tc表示第t次利用目标算力资源/服务完成相应任务的第一时长,T1+T2+...+Tm表示m次利用目标算力资源/服务完成任务中每次利用目标算力资源/服务完成任务的第一时长的和。m次为连续的多次的一部分,m次中每次在第t次之前。
在一个实施例中,取过去三次服务时间为平均值,也就是比如T1为10秒,T2为15秒,T3为20秒,那么3次平均的服务时间为15秒,那么15秒为基准值,如果本次的服务时间为15秒,这Wr=1,相当于说算力振荡为0。如果本次服务时间为18秒,那么Wr=18秒/15秒=1.2,这个相当于算力振荡为+0.2,当然,取其他值也可能为-0.2。
在另一个实施例中,实际算力震荡评估值的获取为:获取由多个与目标算力资源/服务属于相同算力等级的其他算力资源/服务、目标算力资源/服务组成的算力资源/务组合中每个算力资源/服务的完成相应任务的第二时长,其中,该每个算力资源/服务各自完成的相应任务的计算量属于同一计算量等级;根据获取的每个第二时长和该每个算力资源/服务的备案算力值,确定目标算力资源/服务的实际算力震荡评估值。
当根据获取的每个第二时长和该每个算力资源/服务的备案算力值,确定目标算力资源/服务的实际算力震荡评估值时,可以根据以下公式确定目标算力资源/务的实际算力震荡评估值Wr:Wr=(Tc/Pc)/[(T1/P1+...To/Po)/o],其中,Tc表示目标算力资源/服务完成相应任务的第二时长,Pc表示目标算资源/力服务的备案算力值,o表示该算力资源/服务组合中与目标算力资源/服务属于相同算力等级的其他算力资源/服务的数量,T1表示第1个其他算力资源/服务完成相应任务的第二时长,P1表示第1个其他算力资源/服务的备案算力值,To表示第o个其他算力资源/服务完成相应任务的第二时长,Po表示第o个其他算力资源/服务的备案算力值,T1/P1+...To/Po表示每个其他算力资源/服务的相关商的和,其他算力资源/服务的相关商为:该其他算力资源/服务完成相应任务的第二时长除其他算力资源/服务的备案算力值。举例而言,每个其他算力资源/服务的备案算力值分别为P1、P2、P3,每个其他算力资源/服务的完成相应任务的时长分别为T1、T2、T3,Wr=(Tc/Pc)/[(T1/P1+T2/P2+T3/P3)/3]。在一个实施例中,针对目标算力资源/任务,算力网络控制器会根据算力网络资源和服务信息制定算力路径,该算力路径包括完成目标任务需要的算力资源/服务列表,该列表中每个算力服务均可以用于执行目标任务。也就是说,该列表可以由算力资源/服务集中满足对应于目标任务的条件的所有算力资源/服务组成。对应于目标任务的条件可以为:算力资源/服务类型与完成目标任务所需的算力资源/服务的类型相同并且算力资源/服务的算力资源/服务的算力值大于或等于完成目标任务所需的算力值。
在一个实施例中,完成目标任务需要的算力资源/服务基于至少一个算力震荡观察列表、算力震荡列表和算力实际服务震荡列表确定。
相比于非震荡算力服务,震荡算力服务更难被选择为用于执行目标任务的算力服务可以理解为:震荡算力服务被选择为用于执行目标任务的算力服务的难度大于非震荡算力服务选择为用于执行目标任务的算力服务的难度。也可以理解为:震荡算力服务被选择为用于执行目标任务的算力服务的概率小于非震荡算力服务选择为用于执行目标任务的算力服务的概率。
此外,在相应情况下,算力资源/服务的算力震荡惩罚值越大,越不利于该算力资源/服务被选择为用于执行目标任务的算力资源/服务。在相应情况下,算力资源/服务的差异性震荡值越大,越不利于算力资源/服务被选择为用于执行目标任务的算力服务。在相应情况下,算力震荡评估值和实际算力震荡评估值之和越大,越不利于震荡算力服务被选择为用于执行目标任务的算力服务。
下面说明算力调度模块如何从算力资源和服务列表中选择用于执行目标任务的算力资源/服务,将满足目标任务的算力资源/服务构成的集合称为子集,包括步骤4031a-4031c。
需要说明的是,在本申请中,算力服务不稳定和/或算力服务的性能不稳定的算力资源/服务可以叫做震荡算力服务,除了震荡算力服务之外的算力资源/服务可以叫做非震荡算力服务。在算力调度模块50选择用于执行目标任务的算力资源/服务时,算力调度模块50可以根据可以反映哪些算力资源/服务不稳定和/或哪些算力资源/服务的性能不稳定的列表集,确定哪些算力资源/服务不稳定和/或哪些算力资源/服务的性能不稳定。
在步骤4031a,若该子集中每个算力资源/服务均为震荡算力服务,将该子集中综合算力震荡评估值最小的震荡算力资源/服务选择为用于执行目标任务的算力资源/服务。其中,震荡算力服务i的综合算力震荡评估值可以为:震荡算力服务i的算力震荡惩罚值值与震荡算力服务i的差异性算力震荡评估值的和。
根据步骤4031a可知,若该子集中每个算力资源/服务均为震荡算力服务,其综合算力震荡评估值为最小的综合算力震荡评估值的震荡算力服务被选择为用于执行目标任务的算力资源/服务,震荡算力服务的综合算力震荡评估值越大,越不利于震荡算力服务被选择为用于执行目标任务的算力资源/服务。
在步骤4031b,若该子集包括至少一个震荡算力服务和至少一个非震荡算力服务,生成子集对应的算力资源/服务序列,该算力资源/服务序列包括该子集中每个算力资源/服务。其中,该子集包括n1个算力服务。该算力服务序列中前m1个算力服务中每个算力服务均为非震荡算力服务,m为非震荡算力服务的数量,n1>m 1,也就是说,将该子集中所有非震荡算力服务作为该算力资源/服务序列中前m1个算力资源/服务,该算力资源/服务序列中前m1个算力服务组成非震荡算力服务子序列1,非震荡算力服务子序列1中非震荡算力服务在非震荡算力资源/服务子序列1中的位置可以是以随机方式确定的。该算力资源/服务序列中后n1-m1个算力服务中每个算力服务均为震荡算力服务。该子集中每个震荡算力服务组成震荡算力服务子序列1。每个震荡算力服务在震荡算力服务子序列1中的位置是通过按照震荡算力服务的综合算力震荡评估值从小至大,对该子集中所有震荡算力服务进行排序确定的。震荡算力服务子序列1中第一个震荡算力服务为综合算力震荡评估值最小的震荡算力服务。在该算力服务序列中,该第一个震荡算力服务为该非震荡算力服务子序列1中最后一个非震荡算力服务的后一个算力服务。其中,若该算力资源/服务序列中非震荡算力服务的数量大于或等于预设数量q,从非震荡算力服务子序列1中随机选择一个算力服务,将随机选择的一个非震荡算力服务作为用于执行目标任务的算力服务。若该算力服务序列中非震荡算力服务的数量小于预设数量q并且该算力服务序列中算力服务的数量小于预设数量q,可以从该算力服务序列中随机选择一个算力服务,将随机选择的一个算力服务作为用于执行目标任务的算力服务。若该算力服务序列中非震荡算力服务的数量小于q并且该算力资源/服务序列中算力服务的数量大于或等于q,从该算力资源/服务序列中前q个算力服务中随机选择一个算力服务,将随机选择的一个算力服务作为用于执行目标任务的算力服务。
在步骤403c,若对应于目标任务的子集中的每个算力服务均为非震荡算力服务,从该子集中随机选择一个非震荡算力服务,将随机选择的非震荡算力服务作为用于执行目标任务的算力服务。
在另一个可能的实现方式中,可以预先设置以下服务稳定性要求等级:服务稳定性要求高等级、服务稳定性要求普通等级。预先设置以下性能稳定性要求等级:性能稳定性要求高等级、性能稳定性要求普通等级。其中,对于多个任务类型中每个任务类型,预先设置与该任务类型对应的服务稳定性要求等级、与该任务类型对应的性能稳定性要求等级。以下所说算力服务包括算力资源或者服务。对于任务类型i,任务类型i对应服务稳定性要求高等级可以指示期望稳定性较高的算力服务来执行任务类型i的任务,任务类型i对应服务稳定性要求普通等级可以指示对用于执行任务类型i的任务的算力服务的稳定性没有要求。对于任务类型i,任务类型i对应性能稳定性要求高等级可以指示期望性能稳定性较高的算力服务来执行任务类型i的任务,任务类型i对应性能稳定性要求普通等级可以指示对用于执行任务类型i的任务的算力服务的性能稳定性没有要求。根据列表集,从对应于目标任务的子集中选择用于执行目标任务的算力服务包括步骤4032a-4032d。需要说明的是,在本申请中,将该子集中没有出现在算力震荡列表中的算力服务称为第一候选算力服务,举例而言,对于该子集中的算力服务i,若算力服务i没有出现在算力震荡列表中,则算力服务i作为一个第一候选算力服务。在本申请中,将该子集中没有出现在算力震荡观察列表中的算力服务称为第二候选算力服务。举例而言,对于该子集中的算力服务i,若算力服务i没有出现在算力实际服务震荡列表中,则算力服务i作为一个第二候选算力服务。在本申请中,将没有出现在算力实际服务震荡列表、算力震荡列表中任意一个的算力服务称为第三候选算力服务。
在步骤4032a,当目标任务所属的任务类型对应服务稳定性要求高等级并且对应性能稳定性要求普通等级时,从对应于目标任务的子集中确定至少一个没有出现在算力震荡列表中的第一候选算力服务,以及从至少一个第一候选算力服务中选择用于执行目标任务的算力服务。
在步骤4032a,若第一候选算力服务的数量为一个,将确定的一个候选算力服务选择为用于执行目标任务的算力服务。
在步骤4032a,若第一候选算力服务的数量为多个并且每个第一候选算力服务均为震荡算力服务,将所有第一候选算力服务中其综合算力震荡评估值最小的第一候选算力服务选择为用于执行目标任务的算力服务。
在步骤4032a,若所有第一候选算力服务包括至少一个震荡算力服务和至少一个非震荡算力服务,生成对应于所有第一候选算力服务的算力服务序列,该算力服务序列包括所有第一候选算力服务。其中,第一候选算力服务的数量为n2个。该算力服务序列中前m2个算力服务中每个第一候选算力服务均为非震荡算力服务,m2为所有第一候选算力服务中非震荡算力服务的数量,n2>m2,也就是说,将所有第一候选算力服务中所有非震荡算力服务作为该算力服务序列中前m2个算力服务,该算力服务序列中前m2个第一候选算力服务组成非震荡算力服务子序列2,非震荡算力服务子序列2中第一候选算力服务在非震荡算力服务子序列2中的位置可以是以随机方式确定的。该后n2-m2个算力服务中每个第一候选算力服务均为震荡算力服务,也就是说,将所有第一候选算力服务中所有震荡算力服务作为该算力服务序列中后n2-m2个算力服务,后n2-m2个算力服务中每个第一候选算力服务组成震荡算力服务子序列2。震荡算力服务子序列2中每个第一候选算力服务在震荡算力服务子序列2中的位置是通过按照震荡算力服务的综合算力震荡评估值从小至大,对该所有第一候选算力服务中所有震荡算力服务进行排序确定的。
震荡算力服务子序列2中第一个第一候选算力服务为综合算力震荡评估值最小的第一候选算力服务。震荡算力服务子序列2中最后一个第一候选算力服务为该算力服务序列中第n2个算力服务,震荡算力服务子序列2中最后一个第一候选算力服务综合算力震荡评估值最大的第一候选算力服务。在该算力服务序列中,震荡算力服务子序列2中第一个第一候选算力服务为非震荡算力服务子序列2中最后一个第一候选算力服务的后一个第一候选算力服务。
在步骤4032a,若非震荡算力服务子序列2中第一候选算力服务的数量大于q,可以从非震荡算力服务子序列2中随机选择一个第一候选算力服务,将随机选择的一个第一候选算力服务作为用于执行目标任务的算力服务。若非震荡算力服务子序列2中第一候选算力服务的数量小于q并且该算力服务序列中第一候选算力服务的数量小于q,从该算力服务序列中随机选择一个第一候选算力服务,将随机选择的一个第一候选算力服务作为用于执行目标任务的算力服务。若非震荡算力服务子序列2中第一候选算力服务的数量小于q并且该算力服务序列中第一候选算力服务的数量大于或等于q,从该算力服务序列中前q个第一候选算力服务中随机选择一个第一候选算力服务,将随机选择的一个第一候选算力服务作为用于执行目标任务的算力服务。
根据步骤4032a可知,若目标任务所属的任务类型对应服务稳定性要求高等级并且对应性能稳定性要求普通等级,当选择目标算力服务时,排除了算力震荡列表中所属的算力震荡服务,算力震荡列表中所属的算力震荡服务没有机会被选择为用于执行目标任务的算力服务。同时,算力震荡观察列表列表中标识所属的算力震荡服务、算力实际服务震荡列表中标识所属的算力震荡服务只有在算力服务序列中非震荡算力服务的数量小于q时才有机会成为用于执行目标任务的算力服务。因此,震荡算力服务被选择为用于执行目标任务的算力服务的概率小于非震荡算力服务被选择为用于执行目标任务的算力服务的概率,相比于非震荡算力服务,震荡算力服务更难被选择为用于执行目标任务的算力服务。
根据步骤4032a还可知,由于当选择用于执行目标任务的算力服务时,排除了算力震荡列表中的算力震荡服务,因此,相比于算力震荡观察列表中的震荡算力服务,算力震荡列表中的震荡算力服务更难被选择为用于执行目标任务的算力服务。
在步骤4032b,当目标任务所属的任务类型对应性能稳定性要求普通等级并且对应服务稳定性要求高等级时,从该子集中确定至少一个没有出现在算力实际服务震荡列表中的第二候选算力服务,以及从至少一个第二候选算力服务中选择用于执行目标任务的算力服务。
在步骤4032b,若第二候选算力服务的数量为一个,将确定的一个第二候选算力服务选择为用于执行目标任务的算力服务。
在步骤4032b,若第二候选算力服务的数量为多个并且每个第二候选算力服务均为震荡算力服务,将所有第二候选算力服务中其算力震荡惩罚值最小的震荡算力服务选择为用于执行目标任务的算力服务。
在步骤4032b,若所有第二候选算力服务包括至少一个震荡算力服务和至少一个非震荡算力服务,生成对应于所有第二候选算力服务的算力服务序列,该算力服务序列包括所有第二候选算力服务。其中,第二候选算力服务的数量为n3个。该算力服务序列中前m3个算力服务中每个第二候选算力服务均为非震荡算力服务,m3为所有第二候选算力服务中非震荡算力服务的数量,n3>m3,也就是说,将所有第二候选算力服务中所有非震荡算力服务作为该算力服务序列中前m3个算力服务,该算力服务序列中前m3个第二候选算力服务组成非震荡算力服务子序列3,非震荡算力服务子序列3中第二候选算力服务在非震荡算力服务子序列3中的位置可以是以随机方式确定的。该后n3-m3个算力服务中每个第二候选算力服务均为震荡算力服务,也就是说,将所有第二候选算力服务中所有震荡算力服务作为该算力服务序列中后n3-m3个算力服务,后n3-m3个算力服务中每个第二候选算力服务组成震荡算力服务子序列3。震荡算力服务子序列3中每个第二候选算力服务在震荡算力服务子序列3中的位置是通过按照震荡算力服务的算力震荡惩罚值从小至大,对该所有第二候选算力服务中所有震荡算力服务进行排序确定的。
震荡算力服务子序列3中第一个第二候选算力服务为算力震荡惩罚值最小的第二候选算力服务。在该算力服务序列中,震荡算力服务子序列3中第一个第二候选算力服务为非震荡算力服务子序列3中最后一个第二候选算力服务的后一个第二候选算力服务。
在步骤4032b,若非震荡算力服务子序列3中第二候选算力服务的数量大于q,可以从非震荡算力服务子序列3中随机选择一个第二候选算力服务,将随机选择的一个第二候选算力服务作为用于执行目标任务的算力服务。若非震荡算力服务子序列3中第二候选算力服务的数量小于q并且该算力服务序列中第二候选算力服务的数量小于q,从该算力服务序列中随机选择一个第二候选算力服务,将随机选择的一个第二候选算力服务作为用于执行目标任务的算力服务。若非震荡算力服务子序列3中第二候选算力服务的数量小于q并且该算力服务序列中第二候选算力服务的数量大于或等于q,从该算力服务序列中前q个第二候选算力服务中随机选择一个第二候选算力服务,将随机选择的一个第二候选算力服务作为用于执行目标任务的算力服务。
根据步骤4032b可知,若目标任务所属的任务类型对应性能稳定性要求普通等级并且对应服务稳定性要求高等级,当选择用于执行目标任务的算力服务时,排除了算力实际服务震荡列表中的算力震荡服务,算力实际服务震荡列表中的算力震荡服务没有机会被选择为用于执行目标任务的算力服务。同时,算力震荡观察列表中的算力震荡服务、算力震荡列表中的算力震荡服务只有在算力服务序列中非震荡算力服务的数量小于q时才有机会成为目标算力资源。因此,震荡算力服务被选择为用于执行目标任务的算力服务的概率小于非震荡算力服务被选择为用于执行目标任务的算力服务的概率,相比于震荡算力服务,非震荡算力服务更容易被选择为用于执行目标任务的算力服务。
在步骤4032c,当目标任务所属的任务类型对应服务稳定性要求高等级并且该任务类型对应性能稳定性要求高等级时,从该子集中确定至少一个没有出现在算力实际服务震荡列表、算力震荡列表中任意一个的第三候选算力服务,以及从至少一个第三候选算力服务中选择用于执行目标任务的算力服务。
在步骤4032c,若第三候选算力服务的数量为一个,将确定的一个第三候选算力服务选择为用于执行目标任务的算力服务。
在步骤4032c,若第三候选算力服务的数量为多个并且每个第三候选算力服务均为震荡算力服务,将所有第三候选算力服务中其算力震荡惩罚值最小的震荡算力服务选择为用于执行目标任务的算力服务。
在步骤4032c,若所有第三候选算力服务包括至少一个震荡算力服务和至少一个非震荡算力服务,生成对应于所有第三候选算力服务的算力服务序列,该算力服务序列包括所有第三候选算力服务。其中,第三候选算力服务的数量为n4个。该算力服务序列中前m4个算力服务中每个第三候选算力服务均为非震荡算力服务,m4为所有第三候选算力服务中非震荡算力服务的数量,n4>m4,也就是说,将所有第三候选算力服务中所有非震荡算力服务作为该算力服务序列中前m4个算力服务,该算力服务序列中前m4个第三候选算力服务组成非震荡算力服务子序列4,非震荡算力服务子序列4中第三候选算力服务在非震荡算力服务子序列4中的位置可以是以随机方式确定的。该后n4-m4个算力服务中每个第三候选算力服务均为震荡算力服务,也就是说,将所有第三候选算力服务中所有震荡算力服务作为该算力服务序列中后n4-m4个算力服务,后n4-m4个算力服务中每个第三候选算力服务组成震荡算力服务子序列4。震荡算力服务子序列4中每个第三候选算力服务在震荡算力服务子序列4中的位置是通过按照震荡算力服务的第一算力震荡评估值从小至大,对该所有第三候选算力服务中所有震荡算力服务进行排序确定的。
震荡算力服务子序列4中第一个第三候选算力服务为算力震荡惩罚值最小的第三候选算力服务。在该算力服务序列中,震荡算力服务子序列4中第一个第三候选算力服务为非震荡算力服务子序列4中最后一个第三候选算力服务的后一个第三候选算力服务。
在步骤4032c,若非震荡算力服务子序列4中第三候选算力服务的数量大于预设数量q,可以从非震荡算力服务子序列4中随机选择一个第三候选算力服务,将随机选择的一个第三候选算力服务作为用于执行目标任务的算力服务。若非震荡算力服务子序列4中第三候选算力服务的数量小于q并且该算力服务序列中第三候选算力服务的数量小于q,从该算力服务序列中随机选择一个第三候选算力服务,将随机选择的一个第三候选算力服务作为用于执行目标任务的算力服务。若非震荡算力服务子序列4中第三候选算力服务的数量小于q并且该算力服务序列中第三候选算力服务的数量大于或等于q,从该算力服务序列中前q个第三候选算力服务中随机选择一个第三候选算力服务,将随机选择的一个第三候选算力服务作为用于执行目标任务的算力服务。
根据步骤4032c可知,若目标任务所属的任务类型对应服务稳定性要求高等级并且对应性能稳定性要求高等级,当选择用于执行目标任务的算力服务时,排除了算力实际服务震荡列表中的算力震荡服务、算力震荡列表中的算力震荡服务,算力实际服务震荡列表中的算力震荡服务、算力震荡列表中的算力震荡服务均没有机会被选择为用于执行目标任务的算力服务。同时,算力震荡观察列表中的算力震荡服务只有在算力服务序列中非震荡算力服务的数量小于q时才有机会成为用于执行目标任务的算力服务。因此,震荡算力服务被选择为用于执行目标任务的算力服务的概率小于非震荡算力服务被选择为用于执行目标任务的算力服务的概率,相比于非震荡算力服务,震荡算力服务更难被选择为用于执行目标任务的算力服务。
根据步骤4032c还可知,由于当选择用于执行目标任务的算力服务时,排除了算力震荡列表中的算力震荡服务,因此,相比于算力震荡观察列表中的震荡算力服务,算力震荡列表中的震荡算力服务更难被选择为用于执行目标任务的算力服务。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种算力可用性和计算能力的监测与抑制系统,应用于算力网络中,包括:
算力可用性监测模块,被配置为在预设观察时间段内,记录所述算力网络中算力资源/服务出现的不可用次数,并基于所述不可用次数计算算力震荡惩罚值,在所述观察时间段结束后,基于所述算力震荡惩罚值,将大于预设算力震荡上限阈值的所述算力资源/服务记入算力震荡列表;
算力评估模块,被配置为基于算力资源/服务的算力类型对所述算力资源/服务进行算力评估,得到所述算力资源/服务的算力评估值;
数据库备案模块,被配置为记录所述算力资源/服务的算力初始值;
算力差异性监测模块,被配置为基于所述算力资源/服务的算力评估值和算力初始值,计算得出算力震荡评估值;基于所述算力震荡评估值和实际算力震荡评估值,得到差异性振荡值,基于所述差异性振荡值创建算力实际服务震荡列表;所述实际算力震荡评估值为所述算力资源和服务实际服务过程中,基于同一算力任务在所述算力资源/服务上历史若干次运行时间的平均值作为基准值判定得出;
算力调度模块,被配置为基于所述算力震荡列表和算力实际服务震荡列表,减少列表中记录的算力资源/服务在所述算力网络选路算法中被选中的概率。
2.根据权利要求1所述的系统,其特征在于,所述减少列表中记录的算力资源/服务在所述算力网络选路算法中被选中的概率,包括:
接收目标算力任务的算力调度请求,通过将算力震荡列表中的所述算力震荡惩罚值作为选路时的参考权重,以及对算力实际服务震荡列表中记录的算力资源/服务添加惩罚因子作为选路时的参考权重;从而确定用于执行目标算力任务的算力资源/服务。
3.根据权利要求1所述的系统,其特征在于,所述系统还包括:
算力资源/服务获取模块,被配置为获取所述算力网络的资源/服务状态;
算力计算能力请求模块,被配置为发送算力评估请求。
4.根据权利要求1所述的算力可用性和计算能力的监测与抑制系统,其特征在于,首次获取到所述算力网络的资源/服务状态为不可用时,添加所述资源/服务到所述算力震荡观察列表,并赋予初始惩罚值。
5.根据权利要求1所述的系统,其特征在于,在所述预设观察时间段内,每记录一次算力资源/服务的不可用次数,所述算力资源/服务的惩罚值增加预设的第一常量;以及
在所述预设观察时间段内,每记录一次算力资源/服务的可用次数,所述算力资源/服务的奖赏值增加预设的第二常量;
在所述预设观察时间段结束后,基于所述初始惩罚值、惩罚值和奖赏值,计算所述预设观察时间段内所述算力资源和服务的综合奖赏值,
在所述综合奖赏值小于设定的第一算力震荡下限阈值时,将所述算力资源/服务从所述算力震荡观察列表中移除;
在所述综合奖赏值不大于所述第一算力震荡上限阈值且不小于所述第一算力震荡下限阈值时,将所述算力资源/服务继续保留在算力震荡观察列表中进行震荡监控;
在所述综合奖赏值大于设定的第一算力震荡上限阈值时,将所述算力资源/服务加入所述算力震荡列表。
6.根据权利要求2所述的系统,其特征在于,
当目标任务所属的任务类型对应服务稳定性要求高等级并且所述任务类型对应性能稳定性要求普通等级时,从所述算力资源/服务列表中,确定至少一个没有出现在算力震荡列表中的第一候选算力资源/服务,以及从至少一个第一候选算力资源/服务中选择用于执行目标任务的算力服务;所述第一候选算力资源/服务为没有出现在算力震荡列表中的算力资源/服务;
当所述任务类型对应服务稳定性要求高等级并且所述任务类型对应性能稳定性要求高等级时,从所述算力资源/服务列表中确定至少一个没有出现在算力实际服务震荡列表、算力震荡列表中任意一个的第三候选算力资源/服务,以及从至少一个第三候选算力资源/服务中选择用于执行目标任务的算力资源/服务;所述第三候选算力资源/服务为没有出现在算力震荡列表和算力实际服务震荡列表的算力资源/服务。
7.根据权利要求1所述的系统,其特征在于,所述算力计算能力请求模块,被配置为获取所述算力网络的算力评估值,包括:由所述算力计算能力请求模块发起算力评估请求,或者在算力资源/服务首次接入所述算力网络时,由所述算力计算能力请求模块发起算力评估请求;
在发起算力评估请求之后,还包括:
确定算力类型,基于所述算力类型,准备算力评估工具和环境进行算力评估;
将评估结果记入算力评估结果数据库;
基于所述评估结果,所述评估工具计算出算力评估值。
8.根据权利要求1所述的系统,其特征在于,所述实际算力震荡评估值的获得包括:
获取连续的多次利用目标算力资源/服务完成相应算力任务中每一次利用目标算力资源/服务完成相应任务的第一时长;根据获取的多个第一时长,确定所述实际算力震荡评估值;
或者,获取由多个与目标算力资源/服务属于相同算力等级的其他算力资源/服务、目标算力资源/服务组成的算力服务组合中每个算力资源/服务的完成相应任务的第二时长,其中,所述每个算力资源/服务各自完成的相应任务的计算量属于同一计算量等级;
根据获取的每个第二时长和所述每个算力资源/服务的备案算力值,确定所述实际算力震荡评估值。
9.一种算力可用性和计算能力的监测与抑制方法,应用于权利要求1-9任一项所述系统,其特征在于,包括:
在预设观察时间段内,记录算力资源/服务出现的不可用次数,并基于所述不可用次数计算算力震荡惩罚值,在所述观察时间段结束后,基于所述算力震荡惩罚值,将大于预设算力震荡上限阈值的所述算力资源和服务记入算力震荡列表;
基于所述算力网络中算力资源/服务的算力评估值和算力初始值,计算得出算力震荡评估值;基于所述算力震荡评估值和实际算力震荡评估值,得到差异性振荡值,基于所述差异性振荡值创建算力实际服务震荡列表;所述实际算力震荡评估值为所述算力资源/服务实际服务过程中,基于同一算力任务在所述算力资源/服务历史若干次运行时间的平均值作为基准值判定得出;其中基于算力资源/服务的算力类型对所述算力资源和服务进行算力评估,得到所述算力资源/服务的算力评估值;所述算力资源/服务的算力初始值记录在数据库中;基于所述算力震荡列表和算力实际服务震荡列表,减少列表中记录的算力资源/服务在所述算力网络选路算法中被选中的概率。
CN202311650854.XA 2023-12-04 2023-12-04 一种算力可用性和计算能力的监测与抑制系统和方法 Pending CN117675526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311650854.XA CN117675526A (zh) 2023-12-04 2023-12-04 一种算力可用性和计算能力的监测与抑制系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311650854.XA CN117675526A (zh) 2023-12-04 2023-12-04 一种算力可用性和计算能力的监测与抑制系统和方法

Publications (1)

Publication Number Publication Date
CN117675526A true CN117675526A (zh) 2024-03-08

Family

ID=90080254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311650854.XA Pending CN117675526A (zh) 2023-12-04 2023-12-04 一种算力可用性和计算能力的监测与抑制系统和方法

Country Status (1)

Country Link
CN (1) CN117675526A (zh)

Similar Documents

Publication Publication Date Title
Calheiros et al. Workload prediction using ARIMA model and its impact on cloud applications’ QoS
CN107015892B (zh) 一种压力测试方法、装置和系统
Javadi et al. Discovering statistical models of availability in large distributed systems: An empirical study of seti@ home
Sanders et al. A unified approach for specifying measures of performance, dependability and performability
Ghosh et al. End-to-end performability analysis for infrastructure-as-a-service cloud: An interacting stochastic models approach
JP4654707B2 (ja) ボトルネック検出システム、測定対象サーバ、ボトルネック検出方法およびプログラム
TWI426393B (zh) 雲端計算資源排程方法與應用之系統
EP2541419A1 (en) Characterizing web workloads for quality of service prediction
US10305974B2 (en) Ranking system
US20110172963A1 (en) Methods and Apparatus for Predicting the Performance of a Multi-Tier Computer Software System
Samir et al. A controller architecture for anomaly detection, root cause analysis and self-adaptation for cluster architectures
CN109728981A (zh) 一种云平台故障监测方法及装置
CN113360270B (zh) 一种数据清洗任务处理方法及装置
Andrade et al. Performability evaluation of a cloud-based disaster recovery solution for IT environments
Khan et al. Modeling the autoscaling operations in cloud with time series data
CN116166443A (zh) 一种游戏任务系统的负载优化方法及系统
CN110796591A (zh) 一种gpu卡的使用方法及相关设备
CN113158435A (zh) 基于集成学习的复杂系统仿真运行时间预测方法与设备
CN113419852A (zh) 微服务的请求响应方法、装置、设备及存储介质
JP6467365B2 (ja) 故障解析装置、故障解析プログラムおよび故障解析方法
CN117675526A (zh) 一种算力可用性和计算能力的监测与抑制系统和方法
Iglesias et al. A methodology for online consolidation of tasks through more accurate resource estimations
US10749942B2 (en) Information processing system and method
Mostafavi et al. Data-driven end-to-end delay violation probability prediction with extreme value mixture models
CN111506422B (zh) 事件分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination