CN116775439A - 一种ai云计算资源池评估系统 - Google Patents

一种ai云计算资源池评估系统 Download PDF

Info

Publication number
CN116775439A
CN116775439A CN202311036257.8A CN202311036257A CN116775439A CN 116775439 A CN116775439 A CN 116775439A CN 202311036257 A CN202311036257 A CN 202311036257A CN 116775439 A CN116775439 A CN 116775439A
Authority
CN
China
Prior art keywords
evaluation
indexes
task
cloud computing
resource pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311036257.8A
Other languages
English (en)
Other versions
CN116775439B (zh
Inventor
吕超星
丁鹏
吴清忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wanjie Data Technology Co ltd Wuhan Branch
Beijing Wanjie Data Technology Co ltd
Original Assignee
Beijing Wanjie Data Technology Co ltd Wuhan Branch
Beijing Wanjie Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wanjie Data Technology Co ltd Wuhan Branch, Beijing Wanjie Data Technology Co ltd filed Critical Beijing Wanjie Data Technology Co ltd Wuhan Branch
Priority to CN202311036257.8A priority Critical patent/CN116775439B/zh
Publication of CN116775439A publication Critical patent/CN116775439A/zh
Application granted granted Critical
Publication of CN116775439B publication Critical patent/CN116775439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种AI云计算资源池评估系统,涉及计算资源管理领域。本发明通过设置评估任务对AI云计算资源池进行测试评估,通过多维监控模块采集测试时各硬件设备的多维监测数据,并针对硬件设备构建多维评估模型;将多维监测数据输入至多维评估模型中,以得到在该评估任务下各硬件设备的综合评估分数;最后再汇总AI云计算资源池各硬件设备的综合评估分数,便得到当前池架构对应评估任务的资源池综合评估分数,通过资源池综合评估分数能定量反映当前池架构在应对评估任务时的表现,便于在对不同池架构进行横向比较时有量化依据。

Description

一种AI云计算资源池评估系统
技术领域
本发明涉及计算资源管理领域,尤其涉及一种AI云计算资源池评估系统。
背景技术
随着科技的进步和数字化水平的提高,越来越多的场景需要使用AI计算;其中,AI计算主要设计AI模型的训练计算,需要消耗大量的算力拟合训练模型;然而,进行本地硬件部署需要消耗大量人力、物力和资金;为此,AI云计算平台孕育而生。
AI云计算平台是指基于硬件资源和软件资源的AI计算服务,提供计算、网络和存储能力,从而完成AI计算任务的处理。其中,AI云计算资源池主要包括计算资源池(cpu、gpu)、网络资源池(设备间网络)和存储资源池(内存、硬盘),并通过某架构整合到一起形成AI云计算资源池;这些资源池都会影响AI云计算资源池的整体性能,他们之间也会产生相互影响,这就构成了一个NP问题。
为此,申请号为:CN201410478570.1的发明专利便提出一种基站资源池物理层基带信号处理算法封装方案的性能统计评估方法,来解决对不同封装方案这一侧进行性能评估;但是该申请未提出如何对各架构的AI云计算资源池进行综合评估的方法,现有技术也未针对这一问题进行解决。
因此,有必要提供一种AI云计算资源池评估系统来解决上述技术问题。
发明内容
为解决上述技术问题,本发明提供的一种AI云计算资源池评估系统,部署在AI云计算资源池中,所述AI云计算资源池包括若干硬件设备,通过如下步骤对AI云计算资源池进行评估:
步骤1:池架构及任务设置,设置AI云计算资源池的池架构和评估任务的测试类型;其中,在对不同池架构进行横向比较时,均设置相同的测试类型的评估任务;
步骤2:部署多维监控模块,在AI云计算资源池的各硬件设备上,分别设置多维监控模块;其中,所述多维监控模块通过监控程序进行部署,得到与多维评价指标相对应的多维监测数据;
步骤3:建立多维评估模型,建立针对硬件设备的多维度评估模型;其中,所述多维度评估模型由多维评价指标和评价权重矩阵组成;
步骤4:硬件设备综合评估,各多维监控模块上传硬件设备对应监测数据,并根据多维监测数据对各硬件设备进行综合评估,获取综合评估分数;
步骤5:AI资源池综合评估,汇总AI云计算资源池各硬件设备的综合评估分数,得到当前池架构对应评估任务的资源池综合评估分数。
作为更进一步的解决方案,在步骤1中,所述评估任务的测试类型由模型类型和训练类型相互组合得到,并模拟对应的AI云计算事件;其中,所述模型类型用于描述测试用AI云计算的模型特征,包括大模型训练类、小模型训练类和混合模型训练类;所述训练类型用于描述测试用AI云计算的训练特征,包括高并发训练类、多松散训练类和长时间训练类。
作为更进一步的解决方案,在步骤2中,所述多维监控模块包括BMC监测模块、任务监测模块、内存监测模块、硬盘监测模块、GPU监测模块、CPU监测模块和网卡监测模块;其中,所述BMC监测模块用于监测硬件设备的实时用电情况;所述任务监测模块用于监测硬件设备的任务处理情况;所述内存监测模块用于监测硬件设备的内存占用情况;所述硬盘监测模块用于监测硬件设备的硬盘读写情况;所述GPU监测模块用于监测硬件设备的GPU使用情况;所述CPU监测模块用于监测硬件设备的CPU使用情况;所述网卡监测模块用于监测硬件设备的网络占用情况。
作为更进一步的解决方案,在步骤3中,所述多维评价指标包括一级评价指标和二级评价指标;其中,所述一级评价指标包括运行能耗指标、任务处理指标、网络负载指标、存储负载指标和计算负载指标;所述运行能耗指标对应的二级评价指标包括设备功率指标、设备温度指标和风扇转速指标;所述任务处理指标对应的二级评价指标包括任务执行时间指标、任务队列长度指标和待处理任务饱和度指标;所述网络负载指标对应的二级评价指标包括带宽占用指标、网络延迟指标和网络速率指标;所述存储负载指标对应的二级评价指标包括RAM内存占用比指标、GPU显存占用比指标和存储硬盘占用比指标;所述计算负载指标对应的二级评价指标包括CPU计算负载指标和GPU计算负载指标。
作为更进一步的解决方案,在步骤3中,所述评价权重矩阵包括一级评价权重矩阵和二级评价权重矩阵;其中,所述一级评价权重矩阵为N*N矩阵,N为一级评价指标数量;所述二级评价权重矩阵为M*M,M为二级评价指标数量;其中,在评价矩阵中:各元素为每个评价指标对于同级别其他评价指标的相对重要性,并通过层次分析进行确定且满足一致性检查。
作为更进一步的解决方案,在步骤4中,在进行指标计算前:通过评价矩阵确定各评价指标的权重向量,并对权重向量进行归一化处理;在计算二级评价指标时:将多维监测数据代入至二级权重向量中,得到二级评价指标值;在计算一级评价指标时:将二级评价指标值代入至对应一级权重向量中,得到一级评价指标值;在计算综合评估分数时:将各一级评价指标值相加,得到硬件设备对应的综合评估分数。
作为更进一步的解决方案,还通过对用户历史数据进行分析,得到用户偏好的模型类型和训练类型,并整合为偏好评估任务;将偏好评估任务进行设置并执行步骤1至步骤5,得到当前池架构对应偏好评估任务的资源池综合评估分数;改变当前池架构,并重新获取不同池架构对应偏好评估任务的资源池综合评估分数;筛选出分数最高的池架构,将该池架构作为与用户偏好对应的最优架构进行输出。
作为更进一步的解决方案,还通过对硬件设备的综合评估分数进行排序,得到计算任务优先分配序列;在进行计算任务分配时,优先向综合评估分数高的硬件设备分配任务;其中,所述硬件设备的分配任务表示为:
其中,X表示当前硬件设备,表示在硬件设备X所分配的待处理任务总数,/>表示硬件设备X的综合评估分数,n表示硬件设备总数,/>表示求和编号变量,/>表示当前编号/>下硬件设备的综合评估分数;/>表示AI云计算平台当前待处理任务总数。
与相关技术相比较,本发明提供的一种AI云计算资源池评估系统具有如下有益效果:
本发明通过设置评估任务对AI云计算资源池进行测试评估,通过多维监控模块采集测试时各硬件设备的多维监测数据,并针对硬件设备构建多维评估模型;将多维监测数据输入至多维评估模型中,以得到在该评估任务下各硬件设备的综合评估分数;最后再汇总AI云计算资源池各硬件设备的综合评估分数,便得到当前池架构对应评估任务的资源池综合评估分数,通过资源池综合评估分数能定量反映当前池架构在应对评估任务时的表现,便于在对不同池架构进行横向比较时有量化依据。
附图说明
图1为本发明提供的一种AI云计算资源池评估系统的较佳示意图;
图2为本发明实施例一种多维评估模型的较佳结构图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
如图1所示,本实施例提供的一种AI云计算资源池评估系统,部署在AI云计算资源池中,所述AI云计算资源池包括若干硬件设备,通过如下步骤对AI云计算资源池进行评估:
步骤1:池架构及任务设置,设置AI云计算资源池的池架构和评估任务的测试类型;其中,在对不同池架构进行横向比较时,均设置相同的测试类型的评估任务;
步骤2:部署多维监控模块,在AI云计算资源池的各硬件设备上,分别设置多维监控模块;其中,所述多维监控模块通过监控程序进行部署,得到与多维评价指标相对应的多维监测数据;
步骤3:建立多维评估模型,建立针对硬件设备的多维度评估模型;其中,所述多维度评估模型由多维评价指标和评价权重矩阵组成;
步骤4:硬件设备综合评估,各多维监控模块上传硬件设备对应监测数据,并根据多维监测数据对各硬件设备进行综合评估,获取综合评估分数;
步骤5:AI资源池综合评估,汇总AI云计算资源池各硬件设备的综合评估分数,得到当前池架构对应评估任务的资源池综合评估分数。
需要说明的是:不同的池架构有着不同的性能特点,这些池架构在具体的业务场景中有着不同的表现;现有技术缺乏对AI云计算资源池的整体评估方法,无法得到量化的资源池评估得分,导致无法进行各不同池架构之间的横向量化比较;因此,现有的AI云计算资源池大多依靠架构师根据用户的普遍需求并结合经验判断,选择合适的池架构进行构建。
为此,本实施例通过设置评估任务对AI云计算资源池进行测试评估,通过多维监控模块采集测试时各硬件设备的多维监测数据,并针对硬件设备构建多维评估模型;将多维监测数据输入至多维评估模型中,以得到在该评估任务下各硬件设备的综合评估分数;最后再汇总AI云计算资源池各硬件设备的综合评估分数,便得到当前池架构对应评估任务的资源池综合评估分数,通过资源池综合评估分数能定量反映当前池架构在应对评估任务时的表现,便于在对不同池架构进行横向比较时有量化依据。
作为更进一步的解决方案,在步骤1中,所述评估任务的测试类型由模型类型和训练类型相互组合得到,并模拟对应的AI云计算事件;其中,所述模型类型用于描述测试用AI云计算的模型特征,包括大模型训练类、小模型训练类和混合模型训练类;所述训练类型用于描述测试用AI云计算的训练特征,包括高并发训练类、多松散训练类和长时间训练类。
需要说明的是:评估任务的设备会决定池架构的得分,因此,我们需要针对需求场景设置合适的评估任务;其中,在真实的需求场景下,我们通过要针对模型类型和训练类型;模型类型主要是一些大模型场景,这时要求池架构具备高拓展性和分布处理能力;小模型训练需求则需要池架构提供高效经济利用率高的分发能力,混合模型场景则是考验池架构的综合调度能力和兼容性。高并发训练场景是考验池架构并行处理能力,多松散训练场景是考验池架构最优任务分发能力,长时间训练场景则是考验池架构负载均衡能力。
如图2所示,作为更进一步的解决方案,在步骤2中,所述多维监控模块包括BMC监测模块、任务监测模块、内存监测模块、硬盘监测模块、GPU监测模块、CPU监测模块和网卡监测模块;其中,所述BMC监测模块用于监测硬件设备的实时用电情况;所述任务监测模块用于监测硬件设备的任务处理情况;所述内存监测模块用于监测硬件设备的内存占用情况;所述硬盘监测模块用于监测硬件设备的硬盘读写情况;所述GPU监测模块用于监测硬件设备的GPU使用情况;所述CPU监测模块用于监测硬件设备的CPU使用情况;所述网卡监测模块用于监测硬件设备的网络占用情况。
需要说明的是:多维监控模块是评价数据的来源所在,现有的硬件设备(机组)都具备这些监测硬件基础,因此仅需构建对应的程序监测模块,即可实现相关数据的提取采集。
如图2所示,作为更进一步的解决方案,在步骤3中,所述多维评价指标包括一级评价指标和二级评价指标;其中,所述一级评价指标包括运行能耗指标、任务处理指标、网络负载指标、存储负载指标和计算负载指标;所述运行能耗指标对应的二级评价指标包括设备功率指标、设备温度指标和风扇转速指标;所述任务处理指标对应的二级评价指标包括任务执行时间指标、任务队列长度指标和待处理任务饱和度指标;所述网络负载指标对应的二级评价指标包括带宽占用指标、网络延迟指标和网络速率指标;所述存储负载指标对应的二级评价指标包括RAM内存占用比指标、GPU显存占用比指标和存储硬盘占用比指标;所述计算负载指标对应的二级评价指标包括CPU计算负载指标和GPU计算负载指标。
需要说明的是:选择这些指标主要是能从各方面衡量资源池性能,我们知道,决定资源池性能的不只是GPU的性能,还依赖于网络支持,CPU性能等等,还需要散热支持,存储支持等等,因此我们针对这些影响因素,针对性选择对应指标来综合衡量资源池。
作为更进一步的解决方案,在步骤3中,所述评价权重矩阵包括一级评价权重矩阵和二级评价权重矩阵;其中,所述一级评价权重矩阵为N*N矩阵,N为一级评价指标数量;所述二级评价权重矩阵为M*M,M为二级评价指标数量;其中,在评价矩阵中:各元素为每个评价指标对于同级别其他评价指标的相对重要性,并通过层次分析进行确定且满足一致性检查。
需要说明的是:衡量硬件设备的综合性能需要多维指标,这些指标之间又存在相互影响,为了定量衡量他们相互影响关系,本实施例引入了评价权重矩阵,并对各指标进行分层评价,通过不同层级的指标进行数据汇总,得到更上层级的指标,从而达到通过多维数据衡量整体的效果。通过层次分析进行相对重要性的衡量,该方法是现有分析统计最为常见方法之一,在此不做赘述。在一个具体的实施例中 ,每个比较对应的权重矩阵元素赋予相对重要性的值,使用1到9的标度,其中,1表示两个指标之间具有相同的重要性,2到8表示递增的重要性,9表示一个指标相对于另一个指标极端重要;我们便能针对一级评价指标得到如下一级评价权重矩阵:
表1:一级评价权重矩阵
我们选取其中运行能耗进行说明(其他指标的权重矩阵也具备相似的结构),运行能耗对应的二级评价权重矩阵如下所述:
表2:二级评价权重矩阵(运行能耗)
如图2所示,作为更进一步的解决方案,在步骤4中,在进行指标计算前:通过评价矩阵确定各评价指标的权重向量,并对权重向量进行归一化处理;在计算二级评价指标时:将多维监测数据代入至二级权重向量中,得到二级评价指标值;在计算一级评价指标时:将二级评价指标值代入至对应一级权重向量中,得到一级评价指标值;在计算综合评估分数时:将各一级评价指标值相加,得到硬件设备对应的综合评估分数。
需要说明的是:在表1的基础上,我们能得到各评价指标的权重向量,把柄计算得到对应权重值:
运行能耗权重 = (1 + 1/3 + 1/3 + 1/2 + 1/4) / 5 ≈ 0.483
任务处理权重 = (3 + 1 + 1/2 + 1 + 1/3) / 5 ≈ 1.166
网络负载权重 = (3 + 2 + 1 + 2 + 1/2) / 5 ≈ 1.700
存储负载权重 = (2 + 1 + 1/2 + 1 + 1/3) / 5 ≈ 0.966
计算负载权重 = (4 + 3 + 2 + 3 + 1) / 5 ≈ 2.600
对其进行归一化处理:
运行能耗权重 = 0.483 / (0.483 + 1.166 + 1.700 + 0.966 + 2.600 ) ≈0.070
任务处理权重 = 1.166 / (0.483 + 1.166 + 1.700 + 0.966 + 2.600 ) ≈0.169
网络负载权重 = 1.700 / (0.483 + 1.166 + 1.700 + 0.966 + 2.600 ) ≈0.246
存储负载权重 = 0.966 / (0.483 + 1.166 + 1.700 + 0.966 + 2.600 ) ≈0.140
计算负载权重 = 2.600 / (0.483 + 1.166 + 1.700 + 0.966 + 2.600 ) ≈0.375
相应的二级权重向量也通过该步骤进行处理。通过计算出每个指标的权重向量,可以评估每个指标在给定条件下的重要性,根据具体需求与情况,将权重向量与实际数据相结合,对每个指标进行评估和比较,以得出最终的评价结果;因此,每个评价指标之间是相互影响的,当同时发生不同事件时,当前事件对整体目标的影响程度将不同。
作为更进一步的解决方案,还通过对用户历史数据进行分析,得到用户偏好的模型类型和训练类型,并整合为偏好评估任务;将偏好评估任务进行设置并执行步骤1至步骤5,得到当前池架构对应偏好评估任务的资源池综合评估分数;改变当前池架构,并重新获取不同池架构对应偏好评估任务的资源池综合评估分数;筛选出分数最高的池架构,将该池架构作为与用户偏好对应的最优架构进行输出。
需要说明的是:我们可以通过用户历史数据分析用户的偏好,如用户偏好对小模型进行训练并且训练时间集中,那么我们选择的模型类型便是小模型训练类,选择的训练类型是高并发训练类,这样我们就能得到偏好评估任务;在执行偏好评估任务时,我们便能采集各池架构的多维监测数据,并分析得到各池架构的资源池综合评估分数,通过资源池综合评估分数我们就能选出最适合用户偏好的池架构,以便更好地为用户提供服务。
作为更进一步的解决方案,还通过对硬件设备的综合评估分数进行排序,得到计算任务优先分配序列;在进行计算任务分配时,优先向综合评估分数高的硬件设备分配任务;其中,所述硬件设备的分配任务表示为:
其中,X表示当前硬件设备,表示在硬件设备X所分配的待处理任务总数,/>表示硬件设备X的综合评估分数,n表示硬件设备总数,/>表示求和编号变量,/>表示当前编号/>下硬件设备的综合评估分数;/>表示AI云计算平台当前待处理任务总数。
需要说明的是:各硬件设备的综合评估分数不仅能用于评价资源池状况,还能协调资源池内部的任务分配优先等级,并结合分数占比,分配与综合评估分数成正比的任务数量,以实现择优分配的效果。此外,由于这些数据是实时采集并计算综合评估分数,在完成一次分配后,我们对综合评估分数进行更新,又能基于新的综合评估分数进行分配,从而实现动态均衡的效果。
以上仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种AI云计算资源池评估系统,部署在AI云计算资源池中,所述AI云计算资源池包括若干硬件设备,其特征在于,通过如下步骤对AI云计算资源池进行评估:
步骤1:池架构及任务设置,设置AI云计算资源池的池架构和评估任务的测试类型;其中,在对不同池架构进行横向比较时,均设置相同的测试类型的评估任务;
步骤2:部署多维监控模块,在AI云计算资源池的各硬件设备上,分别设置多维监控模块;其中,所述多维监控模块通过监控程序进行部署,得到与多维评价指标相对应的多维监测数据;
步骤3:建立多维评估模型,建立针对硬件设备的多维度评估模型;其中,所述多维度评估模型由多维评价指标和评价权重矩阵组成;
步骤4:硬件设备综合评估,各多维监控模块上传硬件设备对应监测数据,并根据多维监测数据对各硬件设备进行综合评估,获取综合评估分数;
步骤5:AI资源池综合评估,汇总AI云计算资源池各硬件设备的综合评估分数,得到当前池架构对应评估任务的资源池综合评估分数。
2.根据权利要求1所述的一种AI云计算资源池评估系统,其特征在于,在步骤1中,所述评估任务的测试类型由模型类型和训练类型相互组合得到,并模拟对应的AI云计算事件;其中,所述模型类型用于描述测试用AI云计算的模型特征,包括大模型训练类、小模型训练类和混合模型训练类;所述训练类型用于描述测试用AI云计算的训练特征,包括高并发训练类、多松散训练类和长时间训练类。
3.根据权利要求1所述的一种AI云计算资源池评估系统,其特征在于,在步骤2中,所述多维监控模块包括BMC监测模块、任务监测模块、内存监测模块、硬盘监测模块、GPU监测模块、CPU监测模块和网卡监测模块;其中,所述BMC监测模块用于监测硬件设备的实时用电情况;所述任务监测模块用于监测硬件设备的任务处理情况;所述内存监测模块用于监测硬件设备的内存占用情况;所述硬盘监测模块用于监测硬件设备的硬盘读写情况;所述GPU监测模块用于监测硬件设备的GPU使用情况;所述CPU监测模块用于监测硬件设备的CPU使用情况;所述网卡监测模块用于监测硬件设备的网络占用情况。
4.根据权利要求1所述的一种AI云计算资源池评估系统,其特征在于,在步骤3中,所述多维评价指标包括一级评价指标和二级评价指标;其中,所述一级评价指标包括运行能耗指标、任务处理指标、网络负载指标、存储负载指标和计算负载指标;所述运行能耗指标对应的二级评价指标包括设备功率指标、设备温度指标和风扇转速指标;所述任务处理指标对应的二级评价指标包括任务执行时间指标、任务队列长度指标和待处理任务饱和度指标;所述网络负载指标对应的二级评价指标包括带宽占用指标、网络延迟指标和网络速率指标;所述存储负载指标对应的二级评价指标包括RAM内存占用比指标、GPU显存占用比指标和存储硬盘占用比指标;所述计算负载指标对应的二级评价指标包括CPU计算负载指标和GPU计算负载指标。
5.根据权利要求1所述的一种AI云计算资源池评估系统,其特征在于,在步骤3中,所述评价权重矩阵包括一级评价权重矩阵和二级评价权重矩阵;其中,所述一级评价权重矩阵为N*N矩阵,N为一级评价指标数量;所述二级评价权重矩阵为M*M,M为二级评价指标数量;其中,在评价矩阵中:各元素为每个评价指标对于同级别其他评价指标的相对重要性,并通过层次分析进行确定且满足一致性检查。
6.根据权利要求1所述的一种AI云计算资源池评估系统,其特征在于,在步骤4中,在进行指标计算前:通过评价矩阵确定各评价指标的权重向量,并对权重向量进行归一化处理;在计算二级评价指标时:将多维监测数据代入至二级权重向量中,得到二级评价指标值;在计算一级评价指标时:将二级评价指标值代入至对应一级权重向量中,得到一级评价指标值;在计算综合评估分数时:将各一级评价指标值相加,得到硬件设备对应的综合评估分数。
7.根据权利要求2所述的一种AI云计算资源池评估系统,其特征在于,还通过对用户历史数据进行分析,得到用户偏好的模型类型和训练类型,并整合为偏好评估任务;将偏好评估任务进行设置并执行步骤1至步骤5,得到当前池架构对应偏好评估任务的资源池综合评估分数;改变当前池架构,并重新获取不同池架构对应偏好评估任务的资源池综合评估分数;筛选出分数最高的池架构,将该池架构作为与用户偏好对应的最优架构进行输出。
8.根据权利要求1所述的一种AI云计算资源池评估系统,其特征在于,还通过对硬件设备的综合评估分数进行排序,得到计算任务优先分配序列;在进行计算任务分配时,优先向综合评估分数高的硬件设备分配任务;其中,所述硬件设备的分配任务表示为:
其中,X表示当前硬件设备,表示在硬件设备X所分配的待处理任务总数,/>表示硬件设备X的综合评估分数,n表示硬件设备总数,/>表示求和编号变量,/>表示当前编号/>下硬件设备的综合评估分数;/>表示AI云计算平台当前待处理任务总数。
CN202311036257.8A 2023-08-17 2023-08-17 一种ai云计算资源池评估系统 Active CN116775439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311036257.8A CN116775439B (zh) 2023-08-17 2023-08-17 一种ai云计算资源池评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311036257.8A CN116775439B (zh) 2023-08-17 2023-08-17 一种ai云计算资源池评估系统

Publications (2)

Publication Number Publication Date
CN116775439A true CN116775439A (zh) 2023-09-19
CN116775439B CN116775439B (zh) 2023-11-14

Family

ID=88013734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311036257.8A Active CN116775439B (zh) 2023-08-17 2023-08-17 一种ai云计算资源池评估系统

Country Status (1)

Country Link
CN (1) CN116775439B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160142338A1 (en) * 2014-11-14 2016-05-19 International Business Machines Corporation Application placement through multiple allocation domain agents and flexible cloud scheduler framework
CN114548641A (zh) * 2021-11-19 2022-05-27 国网浙江省电力有限公司湖州供电公司 一种考虑多能源协调的配电网弹性指标评估方法
WO2023019986A1 (zh) * 2021-08-19 2023-02-23 北京邮电大学 基于组合赋权与模糊灰色聚类的科技服务质量评估方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160142338A1 (en) * 2014-11-14 2016-05-19 International Business Machines Corporation Application placement through multiple allocation domain agents and flexible cloud scheduler framework
WO2023019986A1 (zh) * 2021-08-19 2023-02-23 北京邮电大学 基于组合赋权与模糊灰色聚类的科技服务质量评估方法和装置
CN114548641A (zh) * 2021-11-19 2022-05-27 国网浙江省电力有限公司湖州供电公司 一种考虑多能源协调的配电网弹性指标评估方法

Also Published As

Publication number Publication date
CN116775439B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN110096349B (zh) 一种基于集群节点负载状态预测的作业调度方法
CN107360026B (zh) 分布式消息中间件性能预测与建模方法
CN114240019A (zh) 适用新能源电力系统的灵活资源价值评估方法及装置
CN103677960A (zh) 一种能耗约束的虚拟机博弈重放置方法
CN106354616A (zh) 监测应用执行性能的方法、装置及高性能计算系统
CN106779272A (zh) 一种风险预测方法和设备
CN117573373B (zh) 一种基于云计算的cpu虚拟化调度方法及系统
CN117170848B (zh) 一种资源调度方法及装置
CN111507565A (zh) 一种储能电站在调频应用场景下的性能评价方法及系统
CN106611021B (zh) 一种数据处理方法和设备
CN108132840A (zh) 一种分布式系统中的资源调度方法及装置
CN111404974B (zh) 一种云计算效能评估方法、装置及评估设备
CN113158435B (zh) 基于集成学习的复杂系统仿真运行时间预测方法与设备
CN113568759A (zh) 一种基于云计算的大数据处理方法及其系统
CN116775439B (zh) 一种ai云计算资源池评估系统
CN114186789A (zh) 综合能源市场成熟度评价及发展阶段划分方法、系统及存储介质
CN116521335A (zh) 一种倾斜影像模型生产的分布式任务调度方法及系统
Ismaeel et al. A systematic cloud workload clustering technique in large scale data centers
CN113850346B (zh) Mec环境下多维属性感知的边缘服务二次聚类方法及系统
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
CN112882805A (zh) 一种任务资源约束的利润优化调度方法
CN108898890B (zh) 空管运行效率等级评估方法及其装置
CN107562534B (zh) 一种加权最小数据量负载均衡方法
CN112836959B (zh) 一种基于服务质量的数据中心能效评估方法
CN116155835B (zh) 一种基于排队论的云资源服务质量评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant