CN114546666B

CN114546666B - 基于多运算设备的功耗分配方法

Info

Publication number: CN114546666B
Application number: CN202210438220.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Muxi Technology Beijing Co ltd
Current assignee: Muxi Technology Beijing Co ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-19
Anticipated expiration: 2042-04-25
Also published as: CN114546666A

Abstract

本发明涉及一种基于多运算设备的功耗分配方法，包括骤C1、G_i向master发送静态功耗参数，master为G_i设置初始分配功耗；步骤C2、每隔第一时间间隔，获取G_i当前的{U_i,I_i,T_i,F_i}，结合当前分配功耗PA_i进行运算设备内部功耗调节；步骤C3、G_i每隔第二时间间隔，基于{U_i,I_i,T_i,F_i}生成{UV_i,IV_i,TV_i,FV_i}，发送给master；步骤C4、master基于服务器的预设功耗总量、{UV_i,IV_i,TV_i,FV_i}、静态功耗参数生成PA_i ^’，更新PA_i=PA_i ^’。本发明提高了多个运算设备的功耗利用率。

Description

基于多运算设备的功耗分配方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于多运算设备的功耗分配方法。

背景技术

服务器中的GPU、FPGA、DSP、AI加速器等AI运算设备在正常运行过程中需要使得功耗维持在散热设计功耗（Thermal Design Power，简称TDP）附近，现有的服务器或服务器集群中通常包括多个运算设备，在多个运算设备运行过程中，如何合理为多个运算设备合理分配功耗至关重要。现有技术中，通常在多个运算设备中选定一个master（主运算设备），通过master来为多个运算设备分配功耗。但是现有技术中至少存在以下缺点：（1）现有技术通常随机选定master，可能会导致部分运算设备与master的距离远，延迟大，影响功耗分配的效率，即便初始选定时，考虑到各个运算设备的延迟，但是，由于运算设备的数量是可能发生变化的，运算设备的数量变化以后原来的master也无法再保证合理延迟，进而也会影响多个运算设备之间的功耗分配。（2）现有技术在为多个运算设备进行功耗分配过程中，通常仅基于运算设备的TDP值进行静态分配，而没有充分考虑每个运算设备的实时工作状态，因此会造成功耗浪费，功耗利用率低。由此可知，如何在多个运算设备中确定合理的master，以及如何在多个运算设备之间合理分配功耗成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种基于多运算设备的功耗分配方法，通过运算设备内部细粒度调整运算设备内部功耗，通过master粗粒度调整多个运算设备之间的动态功耗分配，且功耗分配反作用于每一运算设备的内部功耗调整，避免功耗浪费，提高了多个运算设备的功耗利用率。

本发明提供了一种基于多运算设备的功耗分配方法，包括：

步骤C1、当服务器上电时，所有G_i向master发送静态功耗参数，所述master为每一G_i设置初始分配功耗，所述master为服务器对应的多个运算设备中的其中一个运算设备，G_i为服务器中第i个运算设备，i的取值范围为1到N，N为服务器中运算设备的总数；

步骤C2、G_i每隔预设的第一时间间隔，获取G_i当前的{U_i,I_i,T_i,F_i}，G_i基于当前的{U_i,I_i,T_i,F_i}以及当前分配功耗PA_i进行运算设备内部功耗调节,其中，U_i表示G_i当前的电压值，I_i表示G_i当前的电流值，T_i表示G_i当前的温度值，F_i表示G_i当前的频率值；

步骤C3、G_i每隔预设的第二时间间隔，基于当前时刻之前的历史时间窗内的{U_i,I_i,T_i,F_i}生成{UV_i,IV_i,TV_i,FV_i}，并发送给所述master，UV_i表示G_i的当前周期电压值，IV_i表示G_i的当前周期电流值，TV_i表示G_i的当前周期温度值，FV_i表示G_i的当前周期频率值，所述第二时间间隔大于第一时间间隔；

步骤C4、所述master基于服务器的预设功耗总量、每一G_i的{UV_i,IV_i,TV_i,FV_i}、每一G_i的静态功耗参数生成每一G_i的当前分配功耗PA_i ^’，更新PA_i= PA_i ^’。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种基于多运算设备的功耗分配方法可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明通过运算设备内部细粒度调整运算设备内部功耗，并结合master粗粒度调整多个运算设备之间的动态功耗分配，且功耗分配反作用于每一运算设备的内部功耗调整，提高了多个运算设备的功耗利用率，避免了功耗浪费，实现了多个运算设备之间功耗的实时合理分配。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的多运算设备的master选择方法流程图；

图2为本发明实施例提供的基于多运算设备的功耗分配方法流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种基于多运算设备的master选择方法的具体实施方式及其功效，详细说明如后。

实施例一、

实施例一提供了一种基于多运算设备的master选择方法，如图1所示，包括：

步骤S1、当服务器上电时，获取运算设备拓扑结构信息{G₁，G₂，…G_N}，若G₁，G₂，…G_N依次连接构成线性拓扑结构，则执行步骤S2；

其中，服务器上电时，即服务器启动时，当服务器内部的运算设备需要在增加、减少或者调整拓扑结构时，需要关闭服务器，调整完运算设备的数量后再重新上电，上电后，本实施例所述方法也能基于当前最新的运算设备数量、运算设备拓扑结构来自适应确定最佳的master。服务器具体为单个服务器，或多个服务器组成的集群，服务器中的CPU可以连接一个运算设备，也可以连接多个运算设备，服务器对应的所有运算设备按照预设的拓扑结构连接，拓扑结构可以为线性拓扑结构、全互联拓扑结构或环形拓扑结构。

步骤S2、每一G_i生成请求数据包R_i，R_i包括G_i的id，G_i将R_i沿线性拓扑结构的第一方向从G_i-1依次传递至G₁，G_i将R_i沿线性拓扑结构的第二方向从G_i+1依次传递至G_N；G_j在收到R_i后，生成回复数据包Q_i ^j，Q_i ^j包括G_j的id以及G_j目标参数，G_j沿着线性结构将Q_i ^j传递给G_i，i和j的取值范围均为1到N，N为服务器中运算设备的总数，i≠j；

可以理解的是，第一方向和第二方向为相反的方向，以运算设备的id从大到小为第一方向，从小到大为第二方向为例，当i=1时，G_i仅能延第二方向传递R_i，当i=n时，G_i仅能延第一方向传递R_i。目标参数根据具体应用场景确定，例如选择master用于多个运算设备之间的功耗分配，那么对应的目标参数为静态功耗参数，静态功耗参数具体可以包括运算设备的峰值功率（peak power）和散热设计功耗（Thermal Design Power，简称）值，运算设备的峰值功率为运算设备的最大功率，TDP值为运算设备正常工作下的功率，同行运算设备正常工作过后才能中，功率会维持在TDP附近，偶尔可能会达到峰值功率，但也会快速回落到TDP。但是，受运算设备负载工作等因素的影响，实际工作过程中，运算设备工作所需的功率是可能小于TDP，也可能处于TDP和峰值功率之间的，因此，需要基于运算设备的工作状态，及时调整运算设备的功耗分配，避免功耗浪费。

步骤S3、获取每一G_i接收到的沿线性拓扑结构的第一方向发出的R_i所收到的Q_i ^j的数量M_i1以及沿线性拓扑结构的第二方向发出的R_i所收到的Q_i ^j的数量M_i2，若M_i1= M_i2，或者M_i1+1= M_i2，则将G_i确定为master。

本领域技术人员可以理解的是，服务器上电后，步骤S1-S3是能够迅速执行完毕的，能够快速确定master。此外，需要说明的是，实施例一确定master不仅限于多个运算设备功耗分配的场景，其他需要选择master的场景也在本申请的保护范围之内，运算设备具体可包括GPU、FPGA、DSP、AI加速器等AI运算设备。

实施例一所述方法能够在服务器每次上电时，多个运算设备选择位置居中的master，使得各运算设备之间进行信息交互的延迟最小，提高了多个运算设备之间的信息交互效率，且由于运算设备数量的增加或减少后，一定会重新上电，本发明能够在每次上电时，基于当前的运算设备数量和连接结构自适应确定master。

作为一种实施例，所述步骤S1中，若G₁，G₂，…G_N组成全互联拓扑结构，则直接将预设的G_x确定为master,x为预设值，x=1、2、…或N。需要说明的是，由于全互联结构任何两个运算设备之间均存在连接，因此任意选择一个运算设备延迟效果均一致，作为优选示例，可以直接设置x的取值为1。

作为一种实施例，所述步骤S1中，若G₁，G₂，…G_N组成环形拓扑结构，则设置G_y和G_y+1之间不直接传送请求数据包和回复数据包，将G₁，G₂，…G_N转换成线性拓扑结构，然后执行步骤S2，其中，y的取值范围为1到N，且当y=N时，将y+1设置为1。通过将环形结构转换为线性拓扑结构，后续直接基于步骤S2和步骤S3确定master即可。需要说明的是，将环形拓扑结构转换为线性拓扑结构并非直接将G_y和G_y+1之间的物理连接断开，只是在确定master的过程中，设置G_y和G_y+1之间不直接传送请求数据包和回复数据包，起到暂时断开的效果，G_y和G_y+1之间传输其他数据包是不受影响的。

作为一种实施例，所述步骤S2中，每一G_i生成请求数据包R_i，包括：

步骤S21、每一G_i基于第一数据包格式生成请求数据包R_i，所述第一数据包格式包括第一包头段和第一数据段，所述包头段包括预设的请求标识，所述第一数据段包括G_i的id。

需要说明的是，当每一G_i收到一端连接的G_i发来的请求数据包，识别预设的请求标识后即自动向另一端逐个传递。

作为一种实施例，所述步骤S2中，G_j在收到R_i后，生成回复数据包Q_i ^j，包括：

步骤S22、G_j在收到R_i后，解析R_i，获取预设的请求标识和R_i对应的G_i的id；

步骤S23、G_j按照预设的第二数据包格式生成回复数据包Q_i ^j，所述第二数据包格式包括第二包头段和第二数据段，所述第二包头段包括与所述预设的请求标识对应的回复标识，所述第二数据段包括R_i对应的G_i的id、生成Q_i ^j的G_j的id、以及生成Q_i ^j的G_j的目标参数。

需要说明的是，运算设备的id可不仅仅包括运算设备的标识信息，例如还可包括运算设备的接收地址信息等，所述接收地址信息可为用于接收master参数的目标地址，可直接供后续第三数据包和/或第四数据包使用，但可以理解的是，第三数据包和/或第四数据包也可以根据具体需求生成对应的运算设备的id使用。此外，G_j生成R_i对应的回复数据包Q_i ^j后，即沿着线性结构传递，每一运算设备收到Q_i ^j后，识别预设的请求标识后即沿着线性结构传递自动下一运算设备，直至传递给G_i，这样最终使得每一G_i能收到所有G_j的回复数据包。

当运算设备数量过大时，直接选择一个master，距离master较远的运算设备延迟依然比较大，作为一种实施例，所述步骤S1中，若N≥N₁，N₁表示第一预设阈值，第一预设阈值根据具体应用需求，结合具体运算设备参数来定，例如，可以设置为16。所述方法还包括：

步骤S10、将G₁，G₂，…G_N切分为S个分组{L₁，L₂，…L_S},L_s表示第s组，s的取值范围为1到S，U_s表示L_s中运算设备的运算设备的数量，max(U_s)≤N₂，N₂表示第二预设阈值, N₂<N₁；

需要说明的是，作为优选的实施例，尽量将G₁，G₂，…G_N均分为S个分组，例如N=32，N₁=16，N₂=8，那么将G₁，G₂，…G_N切分为四组，每组8个运算设备。

步骤S20、获取每一G_i对应的M_i1和M_i2, 以及G_i所属的分组号h，h的取值范围为1到S,基于M_i1、M_i2、h、U_s获取G_i对应的第一中间参数MA_i1和第二中间参数MA_i2：

；

其中，具体基于步骤S2和步骤S3获取M_i1和M_i2,在此不再赘述。

步骤S30、将每一分组L_s中，满足MA_i1= MA_i2，或者MA_i1+1= MA_i2的G_i确定为L_s对应的第二master，将步骤S3获取的master确定为第一master，所述第一master为所述第二master的主master。

作为一种实施例，具体可以先通过步骤S3确定第一master，然后通过第一master向每一G_i发送S和U_s, G_i根据S和U_s可确定出G_i所属的分组号h，例如可采用以下方式确定h:当h满足 M_i1 > sum(U_s),其中，s取值范围为[1,h-1], 且 M_i2 >= sum(U_s),其中，s取值范围为[h+1,S]时，h即为Gi所属的分组号,其中，sum(U_s)表示U_s对应取值的总和。需要说明的是，上述仅是一种确定h 的算法，并不仅限于此。此外，还可在分组时，直接唯一G_i设置对应的组号标识，直接根据组号标识确定对应的h值。

需要说明的是，仍以功耗分配为例，第一master先对所有的第二master进行功耗分配，每一第二master在基于所分配到的功耗在组内对多个运算设备进行功耗分配，提高功耗分配的效率，减少信息传递的延时。

作为一种实施例，所述方法还包括：

步骤S4、所述master按照预设的第三数据包格式生成master通知数据包，所述第三数据包格式包括第三包头段和第三数据段，所述第三包头段包括预设的master通知标识，所述第三数据段包括master对应的G_i的id。

可以理解的是，每一运算设备收到master通知数据包之后，均会朝着背向master的方向的运算设备逐个传递，在此不再赘述。

通过步骤S4可以让每一运算设备获取master的运算设备id，从而后续向所述master上报对应的信息。

可以理解的是，如果所述方法还经过了步骤S10-步骤S30的分组和分级别确定master的操作，那么通过步骤S4所述方法，将第一master的运算设备id发送至每一第二master，每一第二master将其对应的运算设备id发送给组内的运算设备即可，实现细节与步骤S4一致，在此不再赘述。

除了多个运算设备之间的目标参数传递外，相连接的运算设备之间还可传递其他交互信息，作为一种实施例，所述方法还包括：

步骤S100、G_i按照预设的第四数据包格式生成信息交互数据包，所述第四数据报格式包括第四包头段和第四数据段，所述第四包头段包括信息交互标识，所述第四数据段包括发起端id、接收端id和目标交互信息，所述发起端id用于存储生成信息交互数据包的G_i的id，所述接收端id用于存储信息交互数据包的G_i的id 需要说明的是，如果前序回复数据包和/或master通知数据包中的G_i的id中已经包含了供第四数据包使用的地址信息，则此处可以不在第四数据包中添加对应的接收端id，直接基于对应的接收端地址信息进行发送即可。

步骤S200、G_i将所述信息交互数据包发送给接收端运算设备。

实施例一所述的master可以直接应用于实施例二所述的基于多运算设备的功耗分配方法中，也可适用于其他需要选择master的应用场景。

实施例二、

实施例二提供了一种基于多运算设备的功耗分配方法，如图2所示，包括：

其中，初始分配功率可以基于G_i的静态功耗参数、以及服务器的功耗总量直接分配，也可以直接设置默认值，由于上电后可以很快确定master，很快进入到动态分配功耗的过程，因此，设置合理的初始分配功耗即可，后续所述方法是连续采集动态数据，连续调整功耗分配的，因此初始值对后需调整不会造成影响。

需要说明的是，所述master满足所有G_i传输信息至所述master的时延总和为最小值。master可以直接设定，也可以按照实施例一所述的方法自适应选择master，在此不再赘述。

可以理解的是，通过U_i,I_i可以确定瞬时功率，T_i,F_i均与G_i的功耗成正比。

其中，需要说明的是，每一历史时间窗对应一个周期，历史时间窗大于等于第二时间间隔，优选的，历史时间窗等于第二时间间隔。

实施例二通过运算设备内部细粒度调整运算设备内部功耗，并结合master粗粒度调整多个运算设备之间的动态功耗分配，且功耗分配反作用于每一G的内部功耗调整，提高了多个运算设备的功耗利用率，避免了功耗浪费，实现了多个运算设备之间功耗的实时合理分配。

作为一种实施例，所述步骤C2中，G_i基于当前的{U_i,I_i,T_i,F_i}以及当前分配功耗PA_i进行运算设备内部功耗调节，包括：

步骤C21、若U_i*I_i-PA_i>PX_i，PX_i为G_i对应的功耗浮动阈值，则控制降低G_i的T_i和/或F_i，若PA_i-U_i*I_i >PX_i，则控制升高G_i的T_i和/或F_i，其中，温度调整具体可通过调整风扇或者冷却设备来实现。

可以理解的是，正常情况下，G_i应该在当前分配功耗PA_i的附近工作，但由于每一G_i工作量等情况的实时变化，会造成G_i的当前与PA_i相差较大，因此可通过步骤C21来调整温度和/或频率来控制G_i的功耗，但可以理解的是，功耗调整会有一个过程，且每一G_i工作量等情况的可能实时变化，因此，还需通过master基于所有运算设备的功耗状态来实时动态分配，从而提高功耗利用率，避免功耗浪费。

作为一种实施例，所述步骤C3中，基于当前时刻之前的历史时间窗内的{U_i,I_i,T_i,F_i}生成{UV_i,IV_i,TV_i,FV_i}，包括：

将当前时刻之前的历史时间窗内的所有U_i的均值确定为UV_i，所有I_i的均值确定为IV_i，所有T_i的均值确定为TV_i，所有F_i的均值确定为FV_i。

作为另一种实施例，所述步骤C3中，基于当前时刻之前的历史时间窗内的{U_i,I_i,T_i,F_i}生成{UV_i,IV_i,TV_i,FV_i}，包括：

将当前时刻之前的历史时间窗内的所有U_i中的最大值确定为UV_i，所有I_i中的最大值确定为IV_i，所有T_i中的最大值确定为TV_i，所有F_i中的最大值确定为FV_i。

可以理解的是，上述取均值或最大值的方式仅为两种实施例，也可根据应用需求基于{U_i,I_i,T_i,F_i}取其他合理的数值，生成{UV_i,IV_i,TV_i,FV_i}，在此不再一一罗列。

作为一种实施例，所述步骤C4包括：

步骤C41、若UV_i*IV_i-PA_i≥PB_i，PB_i为功耗分配浮动阈值，则设置G_i的动态调整系数k_i=(UV_i*IV_i-PA_i)/ PA_i，若PA_i-UV_i*IV_i≥PB_i,则设置k_i=-(PA_i-UV_i*IV_i)/ UV_i*IV_i，若│UV_i*IV_i-PA_i│< PB,则设置k_i=0;

步骤C42、根据当前动态调整步长λ以及G_i的动态调整系数获取G_i的当前分配功耗 PA_i ^’=PA_i+k_i*λ，λ满足

≤0，更新PA_i= PA_i ^’。

通过步骤C41-步骤C42能够在保证不超过总功耗的情况下，将当前分配功耗有余量的G_i的当前分配功耗降低，将当前分配功耗可以更高的G_i的当前分配功耗升高，提高了功耗的利用率，此外，由于设备能够在功耗允许的范围内运行达到最高的频率，从而能更快的完成设备上的任务，提高了设备性能。

作为一种实施例，所述第一时间间隔设置为毫秒级，所述第一时间间隔内，G_i的温度变化小于预设的温度变化阈值，例如，第一时间间隔取1ms。所述第二时间间隔设置为秒级，例如第二时间间隔设置为1s。

需要说明的是，已经在实施例一种展开描述的相同技术细节，在实施例二中不再赘述，实施例一和实施例二的相关技术细节可以结合使用。

需要说明的是，实施例一和实施例二中一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，其中很多步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例还提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行本发明实施例所述的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机指令用于执行本发明实施例所述的方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于多运算设备的功耗分配方法，其特征在于，包括：

步骤C4、所述master基于服务器的预设功耗总量、每一G_i的{UV_i,IV_i,TV_i,FV_i}、每一G_i的静态功耗参数生成每一G_i的当前分配功耗PA_i ^’，更新PA_i= PA_i ^’；

所述步骤C4包括：

步骤C42、根据当前动态调整步长λ以及G_i的动态调整系数获取G_i的当前分配功耗PA_i ^’=PA_i+k_i*λ，λ满足

≤0，更新PA_i= PA_i ^’。

2.根据权利要求1所述的方法，其特征在于，

所述步骤C2中，G_i基于当前的{U_i,I_i,T_i,F_i}以及当前分配功耗PA_i进行运算设备内部功耗调节，包括：

步骤C21、若U_i*I_i-PA_i>PX_i，PX_i为G_i对应的功耗浮动阈值，则控制降低G_i的T_i和/或F_i，若PA_i-U_i*I_i >PX_i，则控制升高G_i的T_i和/或F_i。

3.根据权利要求1所述的方法，其特征在于，

所述步骤C3中，基于当前时刻之前的历史时间窗内的{U_i,I_i,T_i,F_i}生成{UV_i,IV_i,TV_i,FV_i}，包括：

4.根据权利要求1所述的方法，其特征在于，

5.根据权利要求1所述的方法，其特征在于，

所述第一时间间隔设置为毫秒级，所述第一时间间隔内，G_i的温度变化小于预设的温度变化阈值。

6.根据权利要求1所述的方法，其特征在于，

所述第二时间间隔设置为秒级。

7.根据权利要求1所述的方法，其特征在于，

所述master满足所有G_i传输信息至所述master的时延总和为最小值。