CN113127194A - 一种管理芯片资源自适应分配方法、装置及介质 - Google Patents

一种管理芯片资源自适应分配方法、装置及介质 Download PDF

Info

Publication number
CN113127194A
CN113127194A CN202110324924.7A CN202110324924A CN113127194A CN 113127194 A CN113127194 A CN 113127194A CN 202110324924 A CN202110324924 A CN 202110324924A CN 113127194 A CN113127194 A CN 113127194A
Authority
CN
China
Prior art keywords
mode
topological
performance index
management chip
topological mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110324924.7A
Other languages
English (en)
Other versions
CN113127194B (zh
Inventor
刘永敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110324924.7A priority Critical patent/CN113127194B/zh
Publication of CN113127194A publication Critical patent/CN113127194A/zh
Application granted granted Critical
Publication of CN113127194B publication Critical patent/CN113127194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种管理芯片资源自适应分配方法,应用于多管理芯片服务器,包括以下步骤:设置拓扑模式、更新周期、性能指标参数变化的阈值以及性能指标参数的权重信息;监测背板上管理芯片的性能指标参数,根据性能指标参数和阈值执行模式选择流程;在所更新周期内根据所述权重信息、性能指标参数以及拓扑模式进行加权计算,根据加权计算的结果选择拓扑模式,将选择的拓扑模式记为第四拓扑模式;当加权计算的时间达到更新周期时,比较第四拓扑模式,根据比较结果将第四拓扑模式记为第五拓扑模式;控制背板切换为第五拓扑模式;本发明能够根据业务量最大限度的利用显卡资源,直接自动控制切换,节省人力资源并减少显卡资源的浪费,提高运算能力。

Description

一种管理芯片资源自适应分配方法、装置及介质
技术领域
本发明涉及资源分配领域,特别是涉及一种管理芯片资源自适应分配方法、装置及介质。
背景技术
目前随着AI技术的发展,图像和图像相关的运算以及深度学习的算法日益增多,服务器中对于显卡功能的需求越来越迫切,使得服务器中安装多个显卡。
但是目前服务器中CPU和显卡的处理任务中存在几方面的问题,一方面,由于CPU处理的任务以及进程繁多,需要进行内存管理、输入响应等非3D图形的处理工作,因此在实际进行运算时性能会较差,并且常常出现显卡等待CPU发送处理数据的情况;另一种方面,显卡当中GPU是图像和图形相关运算工作的微处理器,且GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。
因此,对于多显卡的服务器中如何根据当前的任务量高效分配多个显卡的资源,使得显卡与CPU之间以及CPU与GPU之间在进行处理任务时达到最高效的处理效率显得尤为重要,并且目前具有功能模块的管理芯片进行处理任务时同样会出现上述问题。
发明内容
本发明主要解决的是具有功能模块的管理芯片与CPU之间进行处理任务时无法达到最高的处理效率的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种管理芯片资源自适应分配方法,应用于多管理芯片服务器,包括以下步骤:
设置拓扑模式、更新周期、性能指标参数变化的阈值以及性能指标参数的权重信息;
BMC监测背板上管理芯片的性能指标参数,根据所述性能指标参数和所述阈值执行模式选择流程;
所述模式选择流程为:
在所述更新周期内根据所述权重信息、所述性能指标参数以及所述拓扑模式进行加权计算,根据所述加权计算的结果选择所述拓扑模式,将选择的所述拓扑模式记为第四拓扑模式;
当所述加权计算的时间达到所述更新周期时,比较所述第四拓扑模式,根据比较结果将所述第四拓扑模式记为第五拓扑模式;
所述BMC控制所述背板切换为所述第五拓扑模式。
优选的,所述拓扑模式包括第一拓扑模式、第二拓扑模式和第三拓扑模式;
所述第一拓扑模式为:所述多管理芯片服务器中若干管理芯片通过所述背板上切换芯片的PCIe链路与所述多管理芯片服务器中若干CPU连接;
所述第二拓扑模式为:所述多管理芯片服务器中若干管理芯片通过所述背板上切换芯片的PCIe链路与所述多管理芯片服务器中第一CPU连接;
所述第三拓扑模式为:所述多管理芯片服务器中第一管理芯片通过所述背板上切换芯片的PCIe链路与所述多管理芯片服务器中第二CPU连接。
优选的,所述根据所述权重信息、所述性能指标参数以及所述拓扑模式进行加权计算的步骤进一步包括:将所述多管理芯片服务器中CPU和所述管理芯片的连接方式切换为所述第一拓扑模式;通过所述权重信息、所述性能指标参数以及加权计算公式进行加权计算,得到所述第一拓扑模式的参数值,并记为第一参数值;
将所述多管理芯片服务器中CPU和所述管理芯片的连接方式切换为所述第二拓扑模式;通过所述权重信息、所述性能指标参数以及加权计算公式进行加权计算,得到所述第二拓扑模式的参数值,并记为第二参数值;
将所述多管理芯片服务器中CPU和所述管理芯片的连接方式切换为所述第三拓扑模式;通过所述权重信息、所述性能指标参数以及加权计算公式进行加权计算,得到所述第三拓扑模式的参数值,并记为第三参数值。
优选的,所述根据所述加权计算的结果选择所述拓扑模式,将选择的所述拓扑模式记为第四拓扑模式的步骤进一步包括:比较所述第一参数值、第二参数值和第三参数值;
将所述第一参数值、第二参数值和第三参数值的数值最大的记为第四参数值,将与所述第四参数值对应的所述拓扑模式记为第四拓扑模式。
优选的,所述比较所述第四拓扑模式,根据比较结果将所述第四拓扑模式记为第五拓扑模式的步骤进一步包括:判断所述第四拓扑模式中所述第一拓扑模式、所述第二拓扑模式和所述第三拓扑模式的数量;
对所述第一拓扑模式、所述第二拓扑模式和所述第三拓扑模式的数量进行降序排列,找到排名第一的所述拓扑模式,记为第五拓扑模式。
优选的,所述控制所述背板切换为所述第五拓扑模式的步骤进一步包括:所述BMC控制扩展板的输入输出端口,通过所述输入输出端口通知所述背板,并控制所述背板中的切换芯片的固件以及所述切换芯片的PCIe端口的上行和下行链路,使所述背板切换为所述第五拓扑模式。
优选的,所述根据所述性能指标参数和所述阈值执行模式选择流程进一步包括:当所述性能指标参数变化时,判断所述性能指标参数的变化值是否超过所述性能指标参数变化的阈值,若超过所述性能指标参数变化的阈值,则执行所述模式选择流程。
本发明还提供一种管理芯片资源自适应分配装置,包括:CPU、BMC和背板;
所述背板上设有switch芯片和若干管理芯片;若干所述管理芯片分别与switch芯片连接;
所述BMC和所述背板连接,用于检测所述管理芯片的性能指标参数以及控制所述switch芯片切换拓扑模式;
所述CPU通过switch芯片与所述管理芯片连接,用于分配资源至所述管理芯片。
作为本发明一种管理芯片资源自适应分配装置的进一步改进,所述BMC中包括设置模块、计算模块、选择模块、判断模块和比较模块;
所述设置模块用于设置拓扑模式、更新周期、性能指标参数变化阈值和所述性能指标参数的权重信息;
所述计算模块用于在所述更新周期内根据所述权重信息、所述性能指标参数以及所述拓扑模式进行加权计算;
所述判断模块用于当所述性能指标参数变化时,判断所述性能指标参数的变化值是否超过所述性能指标参数变化阈值;
所述选择模块用于根据所述加权计算的结果选择所述拓扑模式,将选择的所述拓扑模式记为第四拓扑模式;
所述比较模块用于比较所述第四拓扑模式,并根据比较结果将所述第四拓扑模式记为第五拓扑模式。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的一种管理芯片资源自适应分配方法的步骤。
本发明的有益效果是:
1、本发明所述的一种管理芯片资源自适应分配方法,可以实现通过BMC监测业务运行时的显卡运行参数,根据用户的输入指标权重及更新时间,计算出最优拓扑模式,之后根据计算出的拓扑模式进行切换,实现根据业务量进行自适应调节显卡资源的功能,可以根据业务量最大限度的利用显卡资源,节省人力资源并减少显卡资源的浪费,提高运算能力,增加产品性能。
2、本发明所述的一种管理芯片资源自适应分配装置,可以实现不需要开机盖变化线缆或者替换GPU板完成切换,通过switch芯片进行切换拓扑模式直接自动控制切换,能够增加资源分配的处理效率,并且无需通过BMC中的模块进行计算最优拓扑模式,提高了各个CPU与管理芯片处理业务的效率。
3、本发明所述的一种计算机可读存储介质,可以实现通过加权公式进行计算得到不同的参数值,根据参数值进行比较,从而确定最终的拓扑模式,因为不同性能指标参数的权重信息反映了当前显卡的业务处理量,所以根据此加权公式计算出的值可以更好的针对业务处理量进行高效分配资源,提高了各个CPU以及管理芯片之间处理业务量的效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述的一种管理芯片资源自适应分配方法示意图;
图2是本发明实施例2所述的一种管理芯片资源自适应分配装置架构示意图;
图3是本发明实施例2所述的一种管理芯片资源自适应分配装置中BMC架构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”、“第四”、“第五”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“拓扑模式”、“更新周期”、“性能指标参数”、“权重信息”、“加权计算”、“第一拓扑模式”、“第二拓扑模式”、“第三拓扑模式”、“第四拓扑模式”、“第五拓扑模式”、“管理芯片”、“切换芯片”、“PCIe链路”、“参数值”、“第一参数值”、“第二参数值”、“第三参数值”、“第四参数值”、“输入输出端口”应做广义理解,此外,术语“设有”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在本发明的描述中
BMC(Baseboard Management Controller)是基板管理控制器。
GPU(Graphics Processing Unit)是图形处理器。
CPU(central processing unit,简称CPU)是中央处理器,作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。
NVLink,是英伟达(NVIDIA)开发并推出的一种总线及其通信协议,NVLink采用点对点结构、串列传输,用于中央处理器(CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。
FW(Firmware)是固件,一般指硬件中程序或者配置文件。
PCIe(peripheral component interconnect express)是一种高速串行计算机扩展总线标准。
Switch芯片为切换芯片。
Expander为扩展板。
实施例1
本发明实施例提供一种管理芯片资源自适应分配方法,应用于多显卡服务器或者多管理芯片服务器,请参阅图1,在本实施例中以显卡为例,包括以下步骤:
S10,设置拓扑模式、更新周期、性能指标参数变化的阈值以及不同性能指标参数的权重信息,BMC实时监测背板GPU Board上显卡的不同性能指标参数,具体步骤为:BMC通过物理通道实时从显卡中获取到各种不同的性能指标参数,不同性能指标参数包括:显卡中显存的使用率、浮动的GPU内核使用率、显卡的性能状态、显卡的功耗使用和NVLink带宽吞吐量等参数。
需要说明的是,物理通道可以为总线或者通信协议。
在本实施例BMC通过IIC总线检测显卡不同性能参数指标;
拓扑模式包括第一拓扑模式-Balance模式、第二拓扑模式-Common模式和第三拓扑模式-Cascade模式;
第一拓扑模式-Balance模式为多显卡服务器中若干显卡通过背板GPU Board上的Switch芯片的PCIe链路与多显卡服务器中若干不同CPU连接;
第二拓扑模式-Common模式为多显卡服务器中若干显卡通过背板GPU Board上的Switch芯片的PCIe链路连接到多显卡服务器中一个CPU,这个CPU为第一CPU;
第三拓扑模式-Cascade模式为多显卡服务器中第一显卡通过背板GPU Board上的Switch芯片的PCIe链路连接到多显卡服务器中一个CPU,这个CPU为第二CPU;
需要说明的是,在这里面的第一显卡为根据多显卡服务器中的显卡数量进行定义的,例如当多显卡服务器中显卡数量为8个时,第一显卡的数量为4个。
需要说明的是,更新周期为人设定,可以为任何时间。
S20,根据所述性能指标参数和所述阈值执行模式选择流程;当性能指标参数变化时,判断性能指标参数的变化值是否超过所述性能指标参数变化的阈值,若超过,则执行模式选择流程;
模式选择流程步骤具体为:S21,通过BMC的接口将不同性能指标参数的权重信息以及更新周期发送至BMC,在更新周期的时间内BMC通过加权计算公式以及权重信息对不同性能指标参数进行加权计算,并根据加权计算结果选择拓扑模式,得到第四拓扑模式;
加权计算公式为:
Figure BDA0002994199630000081
其中i为显卡的数目计数、j为显卡的参数计数,a为权重因子,x为性能参数;
具体步骤为:将多显卡服务器中CPU和显卡的连接切换为第一拓扑模式-Balance模式时,通过不同性能指标参数的权重信息以及加权计算公式进行计算第一拓扑模式-Balance模式的参数值,记为第一参数值;
将多显卡服务器中CPU和显卡的连接切换为第二拓扑模式-Common模式时,通过不同性能指标参数的权重信息以及加权计算公式进行计算第二拓扑模式-Common模式的参数值,记为第二参数值;
将多显卡服务器中CPU和显卡的连接切换为第三拓扑模式-Cascade模式时,通过不同性能指标参数的权重信息以及加权计算公式进行计算第三拓扑模式-Cascade模式的参数值,记为第三参数值;
对比第一参数值、第二参数值和第三参数值,选择参数值最大记为第四参数值,找到与第四参数值的对应的拓扑模式,为最优拓扑模式,并记为第四拓扑模式;
S22,比较所述第四拓扑模式,根据比较结果将所述第四拓扑模式记为第五拓扑模式;
具体步骤为:在更新周期的时间内进行若干次的计算,并保存每次计算的第四拓扑模式的结果,当计算时间达到更新周期时,比较第四拓扑模式中第一拓扑模式-Balance模式、第二拓扑模式-Common模式和第三拓扑模式-Cascade模式出现的次数或者数量,并按照出现的次数或者数量进行升序或者降序排序,出现次数或数量最多的拓扑模式,记为第五拓扑模式;第五拓扑模式为最终确定的拓扑模式;
第四拓扑模式可以根据支持在任何时刻由用户查看,然后进行计算此时的第五拓扑模式,用户可以进行切换为此时的第五拓扑模式,而不必等到达到更新周期时,再进行切换拓扑;
因为不同性能指标参数的权重信息反映了当前显卡的业务处理量,所以根据此加权公式计算出的值可以更好的针对业务处理量进行高效分配资源,提高了各个CPU以及显卡之间处理业务量的效率。
S30,当达到更新周期时,且计算出第五拓扑模式后,BMC控制具有记忆功能的Expander的输入输出端口,通过输入输出端口通知背板GPU Board,控制背板GPU Board中Switch芯片的固件,并变更硬件GPU Board上Switch芯片上的配置文件,使其实现对PCIe不同端口的上下行链路的控制,使其切换到第五拓扑模式,从而实现显卡资源的不同分配。
需要说明的是,本发明管理芯片的不仅适用于显卡资源的最适应分配,还适用于加速卡等具有功能模块的管理芯片资源的分配情况,在本实施例中只是以显卡进行说明,显卡也可替换为加速卡等具有功能模块的管理芯片。
实施例2
本发明实施例还提供一种管理芯片资源自适应分配装置,请参阅图2和图3,包括:CPU、BMC和背板;
所述背板上设有switch芯片和若干管理芯片;若干管理芯片分别与switch芯片连接;所述BMC和所述背板连接,用于检测所述管理芯片的性能指标参数以及控制所述switch芯片切换拓扑模式;
所述CPU通过switch芯片上的PCIe链路与所述管理芯片连接,用于分配资源至所述管理芯片;
所述BMC中包括设置模块、计算模块、选择模块、判断模块和比较模块;
设置模块用于设置拓扑模式、更新周期、所述性能指标参数的权重信息以及性能指标参数变化阈值;
计算模块用于在所述更新周期内根据所述权重信息、所述性能指标参数以及所述拓扑模式进行加权计算;
判断模块用于当所述性能指标参数变化时,判断所述性能指标参数的变化值是否超过所述性能指标参数变化阈值;
选择模块用于根据所述加权计算的结果选择所述拓扑模式,将选择的所述拓扑模式记为第四拓扑模式;
比较模块于比较所述第四拓扑模式,根据比较结果将所述第四拓扑模式记为第五拓扑模式。
实施例3
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序,计算机程序被处理器执行时,实现上述一种管理芯片资源自适应分配方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,监控软件的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种管理芯片资源自适应分配方法,应用于多管理芯片服务器,其特征在于,所述方法包括以下步骤:
设置拓扑模式、更新周期、性能指标参数变化的阈值以及性能指标参数的权重信息;
BMC监测背板上管理芯片的性能指标参数,根据所述性能指标参数和所述阈值执行模式选择流程;
所述模式选择流程为:
在所述更新周期内根据所述权重信息、所述性能指标参数以及所述拓扑模式进行加权计算,根据所述加权计算的结果选择所述拓扑模式,将选择的所述拓扑模式记为第四拓扑模式;
当所述加权计算的时间达到所述更新周期时,比较所述第四拓扑模式,根据比较结果将所述第四拓扑模式记为第五拓扑模式;
所述BMC控制所述背板切换为所述第五拓扑模式。
2.根据权利要求1所述的一种管理芯片资源自适应分配方法,其特征在于:所述拓扑模式包括第一拓扑模式、第二拓扑模式和第三拓扑模式;
所述第一拓扑模式为:所述多管理芯片服务器中若干管理芯片通过所述背板上切换芯片的PCIe链路与所述多管理芯片服务器中若干CPU连接;
所述第二拓扑模式为:所述多管理芯片服务器中若干管理芯片通过所述背板上切换芯片的PCIe链路与所述多管理芯片服务器中第一CPU连接;
所述第三拓扑模式为:所述多管理芯片服务器中第一管理芯片通过所述背板上切换芯片的PCIe链路与所述多管理芯片服务器中第二CPU连接。
3.根据权利要求2所述的一种管理芯片资源自适应分配方法,其特征在于:所述根据所述权重信息、所述性能指标参数以及所述拓扑模式进行加权计算的步骤进一步包括:将所述多管理芯片服务器中CPU和所述管理芯片的连接方式切换为所述第一拓扑模式;通过所述权重信息、所述性能指标参数以及加权计算公式进行加权计算,得到所述第一拓扑模式的参数值,并记为第一参数值;
将所述多管理芯片服务器中CPU和所述管理芯片的连接方式切换为所述第二拓扑模式;通过所述权重信息、所述性能指标参数以及加权计算公式进行加权计算,得到所述第二拓扑模式的参数值,并记为第二参数值;
将所述多管理芯片服务器中CPU和所述管理芯片的连接方式切换为所述第三拓扑模式;通过所述权重信息、所述性能指标参数以及加权计算公式进行加权计算,得到所述第三拓扑模式的参数值,并记为第三参数值。
4.根据权利要求3所述的一种管理芯片资源自适应分配方法,其特征在于:所述根据所述加权计算的结果选择所述拓扑模式,将选择的所述拓扑模式记为第四拓扑模式的步骤进一步包括:比较所述第一参数值、第二参数值和第三参数值;
将所述第一参数值、第二参数值和第三参数值的数值最大的记为第四参数值,将与所述第四参数值对应的所述拓扑模式记为第四拓扑模式。
5.根据权利要求2所述的一种管理芯片资源自适应分配方法,其特征在于:所述比较所述第四拓扑模式,根据比较结果将所述第四拓扑模式记为第五拓扑模式的步骤进一步包括:判断所述第四拓扑模式中所述第一拓扑模式、所述第二拓扑模式和所述第三拓扑模式的数量;
对所述第一拓扑模式、所述第二拓扑模式和所述第三拓扑模式的数量进行降序排列,找到排名第一的所述拓扑模式,记为第五拓扑模式。
6.根据权利要求1所述的一种管理芯片资源自适应分配方法,其特征在于:所述控制所述背板切换为所述第五拓扑模式的步骤进一步包括:所述BMC控制扩展板的输入输出端口,通过所述输入输出端口通知所述背板,并控制所述背板中的切换芯片的固件以及所述切换芯片的PCIe端口的上行和下行链路,使所述背板切换为所述第五拓扑模式。
7.根据权利要求1所述的一种管理芯片资源自适应分配方法,其特征在于:所述根据所述性能指标参数和所述阈值执行模式选择流程进一步包括:当所述性能指标参数变化时,判断所述性能指标参数的变化值是否超过所述性能指标参数变化的阈值,若超过所述性能指标参数变化的阈值,则执行所述模式选择流程。
8.一种管理芯片资源自适应分配装置,其特征在于,包括:CPU、BMC和背板;
所述背板上设有switch芯片和若干管理芯片;若干所述管理芯片分别与switch芯片连接;
所述BMC和所述背板连接,用于检测所述管理芯片的性能指标参数以及控制所述switch芯片切换拓扑模式;
所述CPU通过switch芯片与所述管理芯片连接,用于分配资源至所述管理芯片。
9.根据权利要求8所述的一种管理芯片资源自适应分配装置,其特征在于:所述BMC中包括设置模块、计算模块、选择模块、判断模块和比较模块;
所述设置模块用于设置拓扑模式、更新周期、性能指标参数变化阈值和所述性能指标参数的权重信息;
所述计算模块用于在所述更新周期内根据所述权重信息、所述性能指标参数以及所述拓扑模式进行加权计算;
所述判断模块用于当所述性能指标参数变化时,判断所述性能指标参数的变化值是否超过所述性能指标参数变化阈值;
所述选择模块用于根据所述加权计算的结果选择所述拓扑模式,将选择的所述拓扑模式记为第四拓扑模式;
所述比较模块用于比较所述第四拓扑模式,并根据比较结果将所述第四拓扑模式记为第五拓扑模式。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-7任一项所述的一种管理芯片资源自适应分配方法的步骤。
CN202110324924.7A 2021-03-26 2021-03-26 一种管理芯片资源自适应分配方法、装置及介质 Active CN113127194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110324924.7A CN113127194B (zh) 2021-03-26 2021-03-26 一种管理芯片资源自适应分配方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110324924.7A CN113127194B (zh) 2021-03-26 2021-03-26 一种管理芯片资源自适应分配方法、装置及介质

Publications (2)

Publication Number Publication Date
CN113127194A true CN113127194A (zh) 2021-07-16
CN113127194B CN113127194B (zh) 2023-08-08

Family

ID=76773847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110324924.7A Active CN113127194B (zh) 2021-03-26 2021-03-26 一种管理芯片资源自适应分配方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113127194B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778666A (zh) * 2021-08-13 2021-12-10 济南浪潮数据技术有限公司 一种监控设备所需资源的动态分配方法、装置及介质
CN113836068A (zh) * 2021-09-30 2021-12-24 北京金山云网络技术有限公司 PCIe显卡的控制方法、装置、服务器及电子设备
CN116841358A (zh) * 2023-06-09 2023-10-03 启朔(深圳)科技有限公司 服务器刷机方法、刷机结构、系统、计算机设备及介质
CN117319716A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 基板管理控制芯片的资源调度方法及基板管理控制芯片

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2778003A1 (fr) * 1998-04-23 1999-10-29 Ismael Ghalimi Dispositif informatique materiel et logiciel pour utiliser en parallele des cartes graphiques tridimensionnelles conventionnelles
US20070211940A1 (en) * 2005-11-14 2007-09-13 Oliver Fluck Method and system for interactive image segmentation
DE102010012693A1 (de) * 2009-09-04 2011-03-17 Hirschmann Automation And Control Gmbh Anordnung und Verfahren zur automatisierten Erfassung und nachfolgenden Verfügbarkeitsberechnung einer Netzwerkstruktur mit aktiven Vermittlungsknoten für industrielle Anwendungen
CN103996069A (zh) * 2013-02-20 2014-08-20 百度在线网络技术(北京)有限公司 一种基于多gpu的bpnn训练方法和装置
US20190188386A1 (en) * 2018-12-27 2019-06-20 Intel Corporation Protecting ai payloads running in gpu against main cpu residing adversaries
US20200112903A1 (en) * 2018-10-05 2020-04-09 Comcast Cable Communications, Llc Systems and methods for call management
CN211628241U (zh) * 2019-10-12 2020-10-02 苏州浪潮智能科技有限公司 一种通过软件切换拓扑的pcie总线结构
CN111737184A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 一种ai服务器计算单元架构及实现方法
CN112181888A (zh) * 2020-08-28 2021-01-05 苏州浪潮智能科技有限公司 一种cpu拓扑装置、电子设备及拓扑切换方法
CN112256623A (zh) * 2020-10-26 2021-01-22 曙光信息产业(北京)有限公司 一种基于异构系统的处理性能优化方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2778003A1 (fr) * 1998-04-23 1999-10-29 Ismael Ghalimi Dispositif informatique materiel et logiciel pour utiliser en parallele des cartes graphiques tridimensionnelles conventionnelles
US20070211940A1 (en) * 2005-11-14 2007-09-13 Oliver Fluck Method and system for interactive image segmentation
DE102010012693A1 (de) * 2009-09-04 2011-03-17 Hirschmann Automation And Control Gmbh Anordnung und Verfahren zur automatisierten Erfassung und nachfolgenden Verfügbarkeitsberechnung einer Netzwerkstruktur mit aktiven Vermittlungsknoten für industrielle Anwendungen
CN103996069A (zh) * 2013-02-20 2014-08-20 百度在线网络技术(北京)有限公司 一种基于多gpu的bpnn训练方法和装置
US20200112903A1 (en) * 2018-10-05 2020-04-09 Comcast Cable Communications, Llc Systems and methods for call management
US20190188386A1 (en) * 2018-12-27 2019-06-20 Intel Corporation Protecting ai payloads running in gpu against main cpu residing adversaries
CN211628241U (zh) * 2019-10-12 2020-10-02 苏州浪潮智能科技有限公司 一种通过软件切换拓扑的pcie总线结构
CN111737184A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 一种ai服务器计算单元架构及实现方法
CN112181888A (zh) * 2020-08-28 2021-01-05 苏州浪潮智能科技有限公司 一种cpu拓扑装置、电子设备及拓扑切换方法
CN112256623A (zh) * 2020-10-26 2021-01-22 曙光信息产业(北京)有限公司 一种基于异构系统的处理性能优化方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778666A (zh) * 2021-08-13 2021-12-10 济南浪潮数据技术有限公司 一种监控设备所需资源的动态分配方法、装置及介质
CN113778666B (zh) * 2021-08-13 2024-05-24 郑州浪潮数据技术有限公司 一种监控设备所需资源的动态分配方法、装置及介质
CN113836068A (zh) * 2021-09-30 2021-12-24 北京金山云网络技术有限公司 PCIe显卡的控制方法、装置、服务器及电子设备
CN113836068B (zh) * 2021-09-30 2024-04-26 北京金山云网络技术有限公司 PCIe显卡的控制方法、装置、服务器及电子设备
CN116841358A (zh) * 2023-06-09 2023-10-03 启朔(深圳)科技有限公司 服务器刷机方法、刷机结构、系统、计算机设备及介质
CN117319716A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 基板管理控制芯片的资源调度方法及基板管理控制芯片
CN117319716B (zh) * 2023-11-28 2024-02-27 苏州元脑智能科技有限公司 基板管理控制芯片的资源调度方法及基板管理控制芯片

Also Published As

Publication number Publication date
CN113127194B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN113127194B (zh) 一种管理芯片资源自适应分配方法、装置及介质
CN111858025B (zh) 一种基于gpu卡显存的混合调度方法、装置、设备和介质
CN103210382B (zh) 基于总线装置健康信息和相关功率管理而仲裁通信总线上的总线事务
CN105205014A (zh) 一种数据存储方法和装置
CN105808328A (zh) 任务调度的方法、装置和系统
CN111427835B (zh) 一种基于混合路由算法的片上网络设计方法和装置
TW201717026A (zh) 用於逐頁記憶體通道交錯之系統及方法
US11940915B2 (en) Cache allocation method and device, storage medium, and electronic device
JP2009520298A (ja) スケジュールに基づくキャッシュ/メモリの電力最小化技術
TW201729113A (zh) 使用滑動臨限值位址用於記憶體通道交錯之系統及方法
US11023825B2 (en) Platform as a service cloud server and machine learning data processing method thereof
CN114900699A (zh) 视频编解码卡虚拟化方法、装置、存储介质及终端
TW201717025A (zh) 用於逐頁記憶體通道交錯之系統及方法
CN115604269A (zh) 一种服务器的负载均衡方法、装置、电子设备及存储介质
TWI763158B (zh) 記憶體共享
CN112433844B (zh) 一种资源分配方法、系统、设备及计算机可读存储介质
CN117255396A (zh) 根据基站能耗调整ai算力硬件计算资源分配的方法和装置
CN115840649A (zh) 划分容量块式虚拟资源分配方法及装置、存储介质和终端
CN106326001A (zh) 一种信息处理方法及电子设备
CN114661431A (zh) 一种任务调度方法、存储介质及终端设备
CN117995255B (zh) 存储器自测试动态分组方法及装置
CN117891618B (zh) 人工智能模型训练平台的资源任务处理方法及装置
CN116107926B (zh) 缓存替换策略的管理方法、装置、设备、介质和程序产品
CN112416548B (zh) 内核调度方法、设备、终端和存储介质
WO2023151465A1 (zh) 一种ssd的规格参数的调节方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant