CN118113561A - 一种通过动态和静态信息融合的gpu能源效率优化方法 - Google Patents

一种通过动态和静态信息融合的gpu能源效率优化方法 Download PDF

Info

Publication number
CN118113561A
CN118113561A CN202410533884.0A CN202410533884A CN118113561A CN 118113561 A CN118113561 A CN 118113561A CN 202410533884 A CN202410533884 A CN 202410533884A CN 118113561 A CN118113561 A CN 118113561A
Authority
CN
China
Prior art keywords
gpu
dynamic
static information
performance
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410533884.0A
Other languages
English (en)
Inventor
王强
李来仪
施少怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202410533884.0A priority Critical patent/CN118113561A/zh
Publication of CN118113561A publication Critical patent/CN118113561A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Power Sources (AREA)

Abstract

本发明公开了一种通过动态和静态信息融合的GPU能源效率优化方法,包括:基于GPU性能分析工具获取GPU运行的动态信息;根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息;通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。本发明利用DCGM工具的硬件状态信息和PTX解析器的GPU内核详细信息,实现最佳的动态电压和频率配置,提高了基于GPU动态电压和频率调节方案的效率和精度。

Description

一种通过动态和静态信息融合的GPU能源效率优化方法
技术领域
本发明涉及计算机技术领域,尤其涉及的是一种通过动态和静态信息融合的GPU能源效率优化方法。
背景技术
随着图形处理单元(GPU)的流行,在需要大量计算能力的领域(如深度学习训练和生物计算)中,能源消耗已成为这些应用的一个重要限制因素。为了解决这一问题,动态电压和频率调节方案(DVFS)已经成为一种有前途的技术,它可以调整设备到更低的性能/功率状态。动态电压和频率调节方案主要是通过调整电压和频率水平来优化GPU性能和功耗,提供了可观的能源节约效果,并且对性能影响很小,可以在保持GPU应用的服务质量(QoS)的同时节省能源。
现有的基于GPU的动态电压和频率调节的能源解决方案要么依赖于动态信息(由于需要运行时分析而效率低),要么依赖于静态信息(由于缺乏运行时信息而精度低),这阻碍了它们被采纳到实际的电源管理方案中。
第一类技术依赖于GPU性能分析工具提供的运行时信息,比如:Nvidia GPU(某公司GPU)的nvprof工具。这些工具已被证明在不同动态电压和频率设置下对性能和功耗的变化进行建模方面是有效的,因为每个GPU子组件的性能计数器与执行时间与功耗之间具有很高的相关性。然而,两个缺点阻碍了它们的实际在线使用。首先,与这些工具相关的分析开销通常是显著的,因为这些分析工具通常需要对目标应用程序进行多次重放,导致重大的计算成本。其次,其中一些工具需要对应用程序源代码进行修改,这对用户来说操作不便,并且可能无法用于在线提交的作业。因此,这限制了这些工具在实际场景中的适用性。
第二类技术依赖于静态信息建模,涉及检查GPU低级汇编代码,如PTX代码(一种CUDA汇编语言)和SASS代码(一种CSS扩展语言)。这种方法依赖于使用内核的GPU汇编代码,可以在编译时获取,也可以通过反汇编工具获取。这种方法的一个优点是,它不需要修改用户的应用程序或预先执行它们以收集运行时信息。此外,这种静态建模引入了新的使用场景,例如:促进评估源代码变更如何影响应用程序的动态电压和频率调节方案(DVFS)行为。然而,由于缺乏GPU运行时信息(如缓存命中率和计算资源占用率等),导致执行时间的预测误差通常很高。
因此,现有技术还有待改进。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种通过动态和静态信息融合的GPU能源效率优化方法,以解决现有的基于GPU动态电压和频率调节的能源解决方案效率低及精度低的问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供通过动态和静态信息融合的GPU能源效率优化方法,包括:
基于GPU性能分析工具获取GPU运行的动态信息;
根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息;
通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。
在一种实现方式中,所述基于GPU性能分析工具获取GPU运行的动态信息,包括:
收集每个GPU在所有可用频率设置下的数据样本,通过线性回归拟合功耗模型,并通过分段线性回归拟合性能模型;
训练神经网络估计拟合的模型参数,通过所述拟合的模型参数估计能效,得到训练后的GPU动态电压和频率调节模型。
在一种实现方式中,所述基于GPU性能分析工具获取GPU运行的动态信息,包括:
基于所述GPU性能分析工具获取所述GPU运行的周期比率参数和循环比率参数,得到所述动态信息。
在一种实现方式中,所述根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息,包括:
解析指令类型、数据类型以及内存空间的GPU汇编代码,获取每种指令类型的数量;
将每种指令类型的数量除以同一类别中所有指令的总和,每个值进行归一化,构建所述静态信息模型;
根据所述静态信息模型获取所述GPU运行的静态信息。
在一种实现方式中,所述通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,包括:
基于所述GPU动态电压和频率调节模型,利用所述动态信息和所述静态信息预测GPU运行时功耗和程序性能;
根据所述GPU运行时功耗、所述程序性能以及目标成本函数计算得到所述能源与性能优化参数。
在一种实现方式中,所述利用所述动态信息和所述静态信息预测GPU运行时功耗和程序性能,包括:
预测某一给定配置下的GPU运行时功耗:
其中,,/>,/>分别表示GPU供应核电压、GPU核心频率和GPU内存频率;
表示静态功耗;
表示动态功耗;
表示GPU系统的常数功耗;
表示为执行GPU应用程序维持供应电压所需的功耗;
表示与硬件特征相关的系数;
系数和/>分别表示依赖于硬件特征和具体考虑的应用程序的常数值;
预测某一给定配置下的程序性能:
其中,表示GPU应用程序执行时间中的常量部分;
表示应用程序对GPU内存频率缩放的敏感性;
表示对GPU核心频率缩放的敏感性。
在一种实现方式中,所述根据所述GPU运行时功耗、所述程序性能以及目标成本函数计算得到所述能源与性能优化参数,包括:
根据所述GPU运行时功耗和所述程序性能计算处理一个任务所消耗的GPU能量
根据计算得到的GPU能量和所述目标成本函数计算得到所述能源与性能优化参数:
其中,表示能源效率和训练性能的相对重要性;
表示GPU支持的最大功率限制。
第二方面,本发明提供一种通过动态和静态信息融合的GPU能源效率优化装置,包括:
动态信息获取模块,用于基于GPU性能分析工具获取GPU运行的动态信息;
静态信息获取模块,用于根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息;
能源与性能优化模块,用于通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。
第三方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有通过动态和静态信息融合的GPU能源效率优化程序,所述通过动态和静态信息融合的GPU能源效率优化程序被所述处理器执行时用于实现如第一方面所述的通过动态和静态信息融合的GPU能源效率优化方法的操作。
第四方面,本发明还提供一种介质,所述介质为计算机可读存储介质,所述介质存储有通过动态和静态信息融合的GPU能源效率优化程序,所述通过动态和静态信息融合的GPU能源效率优化程序被处理器执行时用于实现如第一方面所述的通过动态和静态信息融合的GPU能源效率优化方法的操作。
本发明采用上述技术方案具有以下效果:
本发明基于GPU性能分析工具获取GPU运行的动态信息,以及根据内核的GPU汇编代码获取GPU运行的静态信息,可通过GPU动态电压和频率调节模型对动态信息和静态信息进行分析,得到能源与性能优化参数,从而根据能源与性能优化参数进行动态配置。本发明利用DCGM工具的硬件状态信息和PTX解析器的GPU内核详细信息,实现最佳的动态电压和频率配置,提高了基于GPU动态电压和频率调节方案的效率和精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明中通过动态和静态信息融合的GPU能源效率优化方法的流程图。
图2是本发明中GPU动态电压和频率调节模型的工作原理图。
图3是本发明中与GPU核心活动最相关的八个指标的示意图。
图4是本发明中PTX指令的指令类型的示意图。
图5是本发明的一种实现方式中终端的功能原理图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
示例性方法
现有的基于GPU的动态电压和频率调节的能源解决方案要么依赖于动态信息(由于需要运行时分析而效率低),要么依赖于静态信息(由于缺乏运行时信息而精度低),这阻碍了它们被采纳到实际的电源管理方案中。
针对以上的技术问题,本发明实施例中提供了一种通过动态和静态信息融合的GPU能源效率优化方法,该方法基于GPU性能分析工具获取GPU运行的动态信息,以及根据内核的GPU汇编代码获取GPU运行的静态信息,可通过GPU动态电压和频率调节模型对动态信息和静态信息进行分析,得到能源与性能优化参数,从而根据能源与性能优化参数进行动态配置。因此,本发明实施例利用DCGM工具的硬件状态信息和PTX解析器的GPU内核详细信息,实现最佳的动态电压和频率配置,提高了基于GPU动态电压和频率调节方案的效率和精度。
如图1所示,本发明实施例提供一种通过动态和静态信息融合的GPU能源效率优化方法,包括以下步骤:
步骤S100,基于GPU性能分析工具获取GPU运行的动态信息。
在本实施例中,使用一个参数化优化模型,如图2所示,即图2中的GPU动态电压和频率调节模型;该模型结合了GPU动态电压和频率调节的影响,并平衡了性能和能效之间的权衡,通过考虑这些因素来提高能效。
为了准确高效地预测模型参数,本实施例中采用了机器学习方法,利用了来自DCGM工具(DCGM是用于管理和监控基于Linux系统的英伟达GPU大规模集群的一体化工具)的硬件状态信息和来自PTX解析器的GPU内核详细信息。利用这些输入,可以对模型参数进行预测。一旦确定了这些参数,就可以从理论上推导出最佳的动态电压和频率调节配置。为了实现动态电压和频率调节配置,GPU动态电压和频率调节控制器利用了英伟达管理库提供的API(应用程序编程接口)。这些API能够设置所需的电压和频率的目标,从而根据计算出的参数实现最佳的动态电压和频率调节配置。
具体地,在本实施例的一种实现方式中,步骤S100之前包括以下步骤:
步骤S001,收集每个GPU在所有可用频率设置下的数据样本,通过线性回归拟合功耗模型,并通过分段线性回归拟合性能模型;
步骤S002,训练神经网络估计拟合的模型参数,通过所述拟合的模型参数估计能效,得到训练后的GPU动态电压和频率调节模型。
在本实施例中,在对GPU动态电压和频率调节之前,需要根据预先设置的样本参数对构建的GPU动态电压和频率调节模型进行训练。
与直接预测绝对值或缩放因子的方法不同,本实施例中主要是通过GPU动态电压和频率调节模型估计GPU运行时的动态参数以及静态参数;其中,所述动态参数包括:GPU供应核电压、GPU核心频率和GPU内存频率,所述静态参数包括:GPU系统的常数功耗以及执行GPU应用程序维持供应电压所需的功耗。
根据所述GPU动态电压和频率调节模型估计的参数,可推导出最佳配置。因此,本实施例通过神经网络来学习动态参数以及静态参数,但预计其他机器学习算法也能提供准确的估计。在实践中,为了获得动态参数以及静态参数,需要收集每个GPU在所有可用频率设置下的样本数据(其中,样本数据中的电压由GPU驱动程序自动配置),然后通过线性回归拟合功耗模型,通过分段线性回归拟合性能模型;其中,平均回归绝对百分比误差在2%以内。之后,训练神经网络来估计这些拟合的模型参数。最后通过拟合的模型参数来估计能效,根据设置的损失估计模型的性能,得到训练后的GPU动态电压和频率调节模型。
本实施例中通过DCGM工具收集动态信息和GPU PTX静态代码分析的方法,相比于其他工具开销更少。通过预测模型参数,进而通过模型找出最佳的动态电压和频率调节配置,提高了最佳的动态电压和频率的准确率。
具体地,在本实施例的一种实现方式中,步骤S100包括以下步骤:
步骤S101,基于所述GPU性能分析工具获取所述GPU运行的周期比率参数和循环比率参数,得到所述动态信息。
在本实施例中,基于所述GPU性能分析工具获取所述GPU运行的周期比率参数和循环比率参数;即从DCGM性能分析工具中选择与GPU核心活动最相关的八个指标,如图3所示。这些指标都是比率,它们的值介于0和1之间。这些指标涵盖了GPU性能建模所必需的关键因素。
作为一个示例,所述GPU性能分析工具是指DCGM工具,通过DCGM工具可以获取如图3所示的周期比率参数和循环比率参数,从而得到所述动态信息;所述周期比率参数和循环比率参数包括:SMACT参数,即至少有一个warp(某公司GPU架构中的线程)分配给一个SM的周期比;SMOCC参数,即一个SM(某公司GPU架构中处理指令的硬件单元)上驻留的warp数量的比率;TENSO参数,即任何张量流水线处于活动状态的周期比率;DRAMA参数,即设备内存接口发送或接收数据时处于活动状态的周期比率;FP64A参数,即FP64(一种双精度浮点数格式)流水线处于活动状态的周期比率;FP32A参数,即FP32流水线处于活动状态的周期比率;FP16A参数,即FP16流水线处于活动状态的周期比率;INTAC参数,即整型流水线处于活动状态的周期比率。
本实施例基于DCGM性能分析工具可以获取与GPU核心活动最相关的多个动态信息,可将这些动态信息和PTX指令获取的与GPU内核详细信息相关的静态信息输入GPU动态电压和频率调节模型,预测GPU运行时功耗和程序性能。
如图1所示,在本发明实施例的一种实现方式中,通过动态和静态信息融合的GPU能源效率优化方法还包括以下步骤:
步骤S200,根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息。
具体地,在本实施例的一种实现方式中,步骤S200包括以下步骤:
步骤S201,解析指令类型、数据类型以及内存空间的GPU汇编代码,获取每种指令类型的数量;
步骤S202,将每种指令类型的数量除以同一类别中所有指令的总和,每个值进行归一化,构建所述静态信息模型;
步骤S203,根据所述静态信息模型获取所述GPU运行的静态信息。
在本实施例中,根据内核的GPU汇编代码获取所述GPU运行的静态信息;其中,所述内核的GPU汇编代码是指PTX指令,PTX指令包括指令类型、数据类型和内存空间的指令。
如图4所示,作为一个示例,所述指令类型包括PTX ISA3中定义的已知项,例如:add、mul、ld、st等。所述数据类型包括指令操作数的基本类型,例如:整数、单精度浮点数、双精度浮点数等。内存空间包括GPU内存层次结构中所有可用的类型,例如:全局内存、共享内存、寄存器等。
在本实施例中,对于PTX指令,首先解析PTX源代码以获取每种指令类型的数量。然后,将每种指令类型的数量除以同一类别中所有指令的总和,以此来对每个值进行归一化,从而获取所述GPU运行的静态信息。
如图1所示,在本发明实施例的一种实现方式中,通过动态和静态信息融合的GPU能源效率优化方法还包括以下步骤:
步骤S300,通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。
具体地,在本实施例的一种实现方式中,步骤S300包括以下步骤:
步骤S301,基于所述GPU动态电压和频率调节模型,利用所述动态信息和所述静态信息预测GPU运行时功耗和程序性能。
在本实施例的一种实现方式中,步骤S301包括以下步骤:
步骤S301a,预测某一给定配置下的GPU运行时功耗;
步骤S301b,预测某一给定配置下的程序性能。
在本实施例中,可以使用如下公式来预测某一给定配置下的GPU运行时功耗:
(1);
其中,,/>,/>分别表示GPU供应核电压、GPU核心频率和GPU内存频率。功耗由两部分组成,静态部分/>和动态部分/>;其中,静态部分包括/>,它表示GPU系统的常数功耗,与GPU电压/频率缩放无关,以及包括/>,它表示为执行GPU应用程序维持供应电压所需的功耗,/>表示与硬件特征相关的系数,例如,芯片设计中晶体管的数量和单个晶体管的漏电流。
至于动态部分,系数和/>是依赖于硬件特征和具体考虑的应用程序的常数值。这些系数表示功耗对内存频率缩放和核电压/频率缩放的敏感性。在本实施例中,根据预设测量样本的平均运行时功耗确定了用于特定应用程序功耗建模的参数。通过使用这些参数,可以有效地模拟和分析应用程序的功耗行为。
在本实施例中,可以使用如下公式来预测某一给定配置下的程序性能:
(2);
其中,表示GPU应用程序执行时间中的常量部分,/>是一个常量因子,表示该应用程序对GPU内存频率缩放的敏感性,/>是一个常量因子,表示对GPU核心频率缩放的敏感性。通过设置不同的/>,/>和/>值,该模型能够模拟各种应用程序的动态电压和频率调节效应。
具体地,在本实施例的一种实现方式中,步骤S300还包括以下步骤:
步骤S302,根据所述GPU运行时功耗、所述程序性能以及目标成本函数计算得到所述能源与性能优化参数。
在本实施例的一种实现方式中,步骤S302包括以下步骤:
步骤S302a,根据所述GPU运行时功耗和所述程序性能计算处理一个任务所消耗的GPU能量;
步骤S302b,根据计算得到的GPU能量和所述目标成本函数计算得到所述能源与性能优化参数。
在本实施例中,根据上述GPU动态电压和频率调节功耗和性能公式(即公式(1)和公式(2)),即可计算处理一个任务所消耗的GPU能量;其中,所述处理一个任务所消耗的GPU能量/>是指运行时功耗和执行时间的乘积,计算方式如下所示:
(3);
在本实施例中,使用一个简单的目标成本函数来权衡性能和能量消耗,所述目标成本函数如下所示:
(4);
其中,是由用户指定的参数,用于表示能源效率和训练性能(吞吐量)的相对重要性。当/>时,只优化时间消耗,而当/>时,只优化能量消耗。/>是GPU支持的最大功率限制,是引入的一个常量,用于统一成本度量的单位。
待确定的参数是与功率相关的和与性能相关的/>。虽然,它们可以根据从不同动态电压和频率调节设置中采样的数据点进行拟合,但本实施例中通过DCGM工具的指标和静态代码信息直接预测它们,这样就不需要预先使用不同动态电压和频率调节设置来执行目标GPU应用程序。
本实施例直接预测性能和功耗,或者相对于默认动态电压和频率调节设置值的缩放比率。本实施例通过机器学习算法根据DCGM工具的指标(动态信息)和PTX指令(静态信息)来估计模型参数。
本实施例构建了一个参数化的GPU能源效率模型,明确考虑了动态电压和频率调节的影响,同时协同优化性能和能效。本实施例利用了开销可以忽略不计的轻量化信息收集工具收集动态信息,采用了机器学习技术,利用收集的动态信息和来自PTX的静态信息来估计模型参数,与单独使用其中任何一个相比,提高了预测精度。
在两个现代GPU(图灵和伏特)上验证的表明,本实施例基于基准训练的模型在未见过的实际GPU应用程序上实现了准确的结果。此外,本实施例还提供了根据具体要求调整性能和能效之间优先级的灵活性。通过利用本实施例预测的最佳配置,在现代高端GPU的能源效率平均可以提高近20%,而性能降低不超过5%。
本实施例通过上述技术方案达到以下技术效果:
本实施例基于GPU性能分析工具获取GPU运行的动态信息,以及根据内核的GPU汇编代码获取GPU运行的静态信息,可通过GPU动态电压和频率调节模型对动态信息和静态信息进行分析,得到能源与性能优化参数,从而根据能源与性能优化参数进行动态配置。本实施例利用DCGM工具的硬件状态信息和PTX解析器的GPU内核详细信息,实现最佳的动态电压和频率配置,提高了基于GPU动态电压和频率调节方案的效率和精度。
示例性设备
基于上述实施例,本发明还提供一种通过动态和静态信息融合的GPU能源效率优化装置,包括:
动态信息获取模块,用于基于GPU性能分析工具获取GPU运行的动态信息;
静态信息获取模块,用于根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息;
能源与性能优化模块,用于通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。
本实施例通过上述技术方案达到以下技术效果:
本实施例基于GPU性能分析工具获取GPU运行的动态信息,以及根据内核的GPU汇编代码获取GPU运行的静态信息,可通过GPU动态电压和频率调节模型对动态信息和静态信息进行分析,得到能源与性能优化参数,从而根据能源与性能优化参数进行动态配置。本实施例利用DCGM工具的硬件状态信息和PTX解析器的GPU内核详细信息,实现最佳的动态电压和频率配置,提高了基于GPU动态电压和频率调节方案的效率和精度。
基于上述实施例,本发明还提供一种终端,其原理框图可以如图5所示。
该终端包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,该终端的处理器用于提供计算和控制能力;该终端的存储器包括存储介质以及内存储器;该存储介质存储有操作系统和计算机程序;该内存储器为存储介质中的操作系统和计算机程序的运行提供环境;该接口用于连接外部设备;该显示屏用于显示相应的信息;该通讯模块用于与云端服务器或其他设备进行通讯。
该计算机程序被处理器执行时用以实现通过动态和静态信息融合的GPU能源效率优化方法的操作。
本领域技术人员可以理解的是,图5中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,存储器存储有通过动态和静态信息融合的GPU能源效率优化程序,通过动态和静态信息融合的GPU能源效率优化程序被处理器执行时用于实现如上的通过动态和静态信息融合的GPU能源效率优化方法的操作。
在一个实施例中,提供了一种存储介质,其中,存储介质存储有通过动态和静态信息融合的GPU能源效率优化程序,通过动态和静态信息融合的GPU能源效率优化程序被处理器执行时用于实现如上的通过动态和静态信息融合的GPU能源效率优化方法的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器。
综上,本发明提供了一种通过动态和静态信息融合的GPU能源效率优化方法,包括:基于GPU性能分析工具获取GPU运行的动态信息;根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息;通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。本发明利用DCGM工具的硬件状态信息和PTX解析器的GPU内核详细信息,实现最佳的动态电压和频率配置,提高了基于GPU动态电压和频率调节方案的效率和精度。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种通过动态和静态信息融合的GPU能源效率优化方法,其特征在于,包括:
基于GPU性能分析工具获取GPU运行的动态信息;
根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息;
通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。
2.根据权利要求1所述的通过动态和静态信息融合的GPU能源效率优化方法,其特征在于,所述基于GPU性能分析工具获取GPU运行的动态信息,包括:
收集每个GPU在所有可用频率设置下的数据样本,通过线性回归拟合功耗模型,并通过分段线性回归拟合性能模型;
训练神经网络估计拟合的模型参数,通过所述拟合的模型参数估计能效,得到训练后的GPU动态电压和频率调节模型。
3.根据权利要求1所述的通过动态和静态信息融合的GPU能源效率优化方法,其特征在于,所述基于GPU性能分析工具获取GPU运行的动态信息,包括:
基于所述GPU性能分析工具获取所述GPU运行的周期比率参数和循环比率参数,得到所述动态信息。
4.根据权利要求1所述的通过动态和静态信息融合的GPU能源效率优化方法,其特征在于,所述根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息,包括:
解析指令类型、数据类型以及内存空间的GPU汇编代码,获取每种指令类型的数量;
将每种指令类型的数量除以同一类别中所有指令的总和,每个值进行归一化,构建所述静态信息模型;
根据所述静态信息模型获取所述GPU运行的静态信息。
5.根据权利要求1所述的通过动态和静态信息融合的GPU能源效率优化方法,其特征在于,所述通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,包括:
基于所述GPU动态电压和频率调节模型,利用所述动态信息和所述静态信息预测GPU运行时功耗和程序性能;
根据所述GPU运行时功耗、所述程序性能以及目标成本函数计算得到所述能源与性能优化参数。
6.根据权利要求5所述的通过动态和静态信息融合的GPU能源效率优化方法,其特征在于,所述利用所述动态信息和所述静态信息预测GPU运行时功耗和程序性能,包括:
预测某一给定配置下的GPU运行时功耗:
其中,,/>,/>分别表示GPU供应核电压、GPU核心频率和GPU内存频率;
表示静态功耗;
表示动态功耗;
表示GPU系统的常数功耗;
表示为执行GPU应用程序维持供应电压所需的功耗;
表示与硬件特征相关的系数;
系数和/>分别表示依赖于硬件特征和具体考虑的应用程序的常数值;
预测某一给定配置下的程序性能:
其中,表示GPU应用程序执行时间中的常量部分;
表示应用程序对GPU内存频率缩放的敏感性;
表示对GPU核心频率缩放的敏感性。
7.根据权利要求5所述的通过动态和静态信息融合的GPU能源效率优化方法,其特征在于,所述根据所述GPU运行时功耗、所述程序性能以及目标成本函数计算得到所述能源与性能优化参数,包括:
根据所述GPU运行时功耗和所述程序性能计算处理一个任务所消耗的GPU能量
根据计算得到的GPU能量和所述目标成本函数计算得到所述能源与性能优化参数:
其中,表示能源效率和训练性能的相对重要性;
表示GPU支持的最大功率限制。
8.一种通过动态和静态信息融合的GPU能源效率优化装置,其特征在于,包括:
动态信息获取模块,用于基于GPU性能分析工具获取GPU运行的动态信息;
静态信息获取模块,用于根据内核的GPU汇编代码构建静态信息模型,并根据所述静态信息模型获取所述GPU运行的静态信息;
能源与性能优化模块,用于通过GPU动态电压和频率调节模型对所述动态信息和所述静态信息进行分析,得到能源与性能优化参数,并根据所述能源与性能优化参数进行动态配置。
9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有通过动态和静态信息融合的GPU能源效率优化程序,所述通过动态和静态信息融合的GPU能源效率优化程序被所述处理器执行时用于实现如权利要求1-7中任意一项所述的通过动态和静态信息融合的GPU能源效率优化方法的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有通过动态和静态信息融合的GPU能源效率优化程序,所述通过动态和静态信息融合的GPU能源效率优化程序被处理器执行时用于实现如权利要求1-7中任意一项所述的通过动态和静态信息融合的GPU能源效率优化方法的操作。
CN202410533884.0A 2024-04-30 2024-04-30 一种通过动态和静态信息融合的gpu能源效率优化方法 Pending CN118113561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410533884.0A CN118113561A (zh) 2024-04-30 2024-04-30 一种通过动态和静态信息融合的gpu能源效率优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410533884.0A CN118113561A (zh) 2024-04-30 2024-04-30 一种通过动态和静态信息融合的gpu能源效率优化方法

Publications (1)

Publication Number Publication Date
CN118113561A true CN118113561A (zh) 2024-05-31

Family

ID=91212729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410533884.0A Pending CN118113561A (zh) 2024-04-30 2024-04-30 一种通过动态和静态信息融合的gpu能源效率优化方法

Country Status (1)

Country Link
CN (1) CN118113561A (zh)

Similar Documents

Publication Publication Date Title
Witt et al. Predictive performance modeling for distributed batch processing using black box monitoring and machine learning
CN112396172A (zh) 用于管理深度学习加速器系统的功率的方法与装置
US7957948B2 (en) System and method for capacity planning for systems with multithreaded multicore multiprocessor resources
US20230035451A1 (en) Resource usage prediction for deep learning model
US20190095796A1 (en) Methods and arrangements to determine physical resource assignments
JP6193393B2 (ja) 分散コンピューティングシステムのための電力の最適化
US20150039753A1 (en) System and method for capacity planning for systems with multithreaded multicore multiprocessor resources
US20050102398A1 (en) System and method for allocating server resources
Li et al. Sculptor: Flexible approximation with selective dynamic loop perforation
CN108205469B (zh) 一种基于MapReduce的资源分配方法及服务器
Kamthe et al. A stochastic approach to estimating earliest start times of nodes for scheduling DAGs on heterogeneous distributed computing systems
Guerreiro et al. GPU static modeling using PTX and deep structured learning
da Silva et al. Characterizing, modeling, and accurately simulating power and energy consumption of i/o-intensive scientific workflows
Nadeem et al. Optimizing execution time predictions of scientific workflow applications in the grid through evolutionary programming
CN106030453A (zh) 支持图形处理单元频率的动态调整的方法和装置
Tiwari et al. Predicting optimal power allocation for cpu and dram domains
Bird et al. {PACORA}: Performance Aware Convex Optimization for Resource Allocation
CN111897706A (zh) 服务器性能预测方法、装置、计算机系统和介质
Moradi et al. Adaptive performance modeling and prediction of applications in multi-tenant clouds
Zhang et al. Autrascale: an automated and transfer learning solution for streaming system auto-scaling
Gu et al. Energy-Efficient GPU Clusters Scheduling for Deep Learning
Bader et al. Lotaru: Locally predicting workflow task runtimes for resource management on heterogeneous infrastructures
CN118113561A (zh) 一种通过动态和静态信息融合的gpu能源效率优化方法
Tu et al. Unveiling energy efficiency in deep learning: Measurement, prediction, and scoring across edge devices
CN112764509B (zh) 计算核、计算核温度调整方法、设备、介质、芯片和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination