CN115097923A - Ai加速卡的电压频率管控方法、装置及ai硬件加速平台 - Google Patents

Ai加速卡的电压频率管控方法、装置及ai硬件加速平台 Download PDF

Info

Publication number
CN115097923A
CN115097923A CN202210706525.1A CN202210706525A CN115097923A CN 115097923 A CN115097923 A CN 115097923A CN 202210706525 A CN202210706525 A CN 202210706525A CN 115097923 A CN115097923 A CN 115097923A
Authority
CN
China
Prior art keywords
frequency
voltage
mapping table
task execution
execution subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210706525.1A
Other languages
English (en)
Inventor
费钱超
侯兴怀
李想
夏厚燃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Enflame Technology Co ltd
Original Assignee
Shanghai Enflame Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Enflame Technology Co ltd filed Critical Shanghai Enflame Technology Co ltd
Priority to CN202210706525.1A priority Critical patent/CN115097923A/zh
Publication of CN115097923A publication Critical patent/CN115097923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种AI加速卡的电压频率管控方法、装置及AI硬件加速平台,电压频率管控方法包括:根据任务端下发的任务确定任务执行子系统对应的资源组信息;根据任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表;其中频率电压映射表存储单元中存储有多个频率电压映射表;将初始运行频率电压映射表下发给电源管理MCU芯片,以控制任务执行子系统按照初始运行频率电压映射表运行;在任务执行子系统运行过程中周期性获取实际负载特征信息,并根据实际负载特征信息切换匹配给任务执行子系统的频率电压映射表,优化了AI加速卡的能耗比,提升了AI加速卡的性能,提高了硬件的有效算力。

Description

AI加速卡的电压频率管控方法、装置及AI硬件加速平台
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种AI加速卡的电压频率管控方法、装置及AI硬件加速平台。
背景技术
随着人工智能产业的迅速发展,使用AI加速卡来进行算法加速的应用场景越来越多。为了响应数字经济下的新型数据中心的建设目标,减小电源使用效率(PUE,PowerUsage Effectiveness)值,节省能源消耗,因此AI加速卡的性能与能耗参数显得尤为重要。
插有AI加速卡的硬件加速平台基于标定的电压频率曲线管控AI加速卡的电压频率。但是,目前的AI硬件加速平台在电压频率管控时存在以下不足:1、部分AI硬件加速平台上层软件无法感知到下发任务的负载。2、资源组不支持多套电压频率映射表以适应不同负载与使用资源,从而无法达到最优能耗比。3、由于使用一个保守的电压频率映射表,当前大部分推理模型均触及到了热设计功耗(TDP,Thermal Design Power),导致硬件出现了降频,损失了性能。因此,如何优化能耗比,提升AI加速卡的性能,提高硬件的有效算力,是本领域技术人员目前需要解决的问题。
发明内容
本发明实施例提供了一种AI加速卡的电压频率管控方法、装置及AI硬件加速平台,以优化AI加速卡的能耗比,提升AI加速卡的性能,提高硬件的有效算力。
根据本发明的一方面,提供了一种AI加速卡的电压频率管控方法,包括:
获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,所述资源组信息至少包括所使用的硬件资源数量、应用模型类型、运行前静态温度和应用数据类型;
根据所述任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表;其中所述频率电压映射表存储单元中存储有多个频率电压映射表;
将所述初始运行频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行;
在所述任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并在实时获取实际负载特征信息后,根据所述实际负载特征信息切换匹配给所述任务执行子系统的频率电压映射表,以动态管控所述任务执行子系统运行的电压和/或频率;其中不同任务执行子系统可同时运行。
可选的,所述实际负载特征信息包括子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种;
根据所述实际负载特征信息切换匹配给所述任务执行子系统的频率电压映射表,以动态调节所述任务执行子系统运行的电压和/或频率,包括:
根据所述任务执行子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种,并结合所述资源组信息,从所述频率电压映射表存储单元中重新匹配并获取频率电压映射表;
将重新匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制所述任务执行子系统按照重新匹配到的频率电压映射表运行。
可选的,所述AI加速卡的电压频率管控方法还包括:
在所述任务执行子系统运行过程中,通过异常处理单元监测所述任务执行子系统的运行是否异常,并在接收到所述异常处理单元发送的运行异常信息后对所述任务执行子系统进行重置调整,以及为重置调整后的任务执行子系统重新匹配频率电压映射表。
可选的,所述根据任务端下发的任务确定任务执行子系统对应的资源组信息,包括:
根据任务端下发的任务确定完成任务所需的硬件资源;
根据完成任务所需的硬件资源的数量以及类型,确定所述任务执行子系统所使用的硬件资源数量、应用模型类型和应用数据类型;
获取应用环境温度,将应用环境温度作为任务执行子系统运行前的静态温度;
根据所述硬件资源数量、应用模型类型、应用环境温度和应用数据类型确定所述资源组信息。
可选的,所述根据所述任务执行子系统的资源组信息,从频率电压映射表存储单元中获取匹配的初始运行频率电压映射表之前,还包括:
根据AI硬件加速平台不同的应用场景,确定多种拟定子系统;
根据不同拟定子系统的硬件资源数量、数据类型和负载特征调试出多套能效比高于预设值的频率电压对应关系组合;
将确定出的多套所述频率电压对应关系组合存储于所述频率电压映射表存储单元中;其中每套频率电压对应关系组合作为一个频率电压映射表。
可选的,每次将匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的频率电压映射表运行之后,还包括:
接收所述电源管理MCU芯片反馈的调整完成信息,以确定频率电压映射表调整完成。
根据本发明的另一方面,提供了一种AI加速卡的电压频率管控装置,用于执行本发明任一实施例所述的AI加速卡的电压频率管控方法,包括:
资源组信息确定模块,用于在每次获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,所述资源组信息至少包括所使用的硬件资源数量、应用模型类型、应用环境温度和应用数据类型;不同任务执行子系统可同时运行;
频率电压映射表匹配模块,用于根据所述任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表,以及用于将匹配到的初始运行频率电压映射表下发给电源管理MCU芯片;其中所述频率电压映射表存储单元中存储有多个频率电压映射表,所述电源管理MCU芯片用于控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行;
负载特征信息确定模块,用于在所述任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并将每次获取的实际负载特征信息发送给频率电压映射表匹配模块;
频率电压映射表匹配模块还用于根据所述实际负载特征信息切换匹配给所述任务执行子系统的频率电压映射表,以动态管控所述任务执行子系统运行的电压和/或频率。
可选的,所述频率电压映射表匹配模块包括:
频率电压映射表获取子模块,用于根据所述任务执行子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种,并结合所述资源组信息,从所述频率电压映射表存储单元中重新匹配并获取频率电压映射表;
频率电压映射表发送子模块,用于将匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制所述任务执行子系统按照重新匹配到的频率电压映射表运行。
可选的,所述频率电压映射表匹配模块还用于在所述任务执行子系统运行过程中,通过异常处理单元监测所述任务执行子系统的运行是否异常,并在接收到所述异常处理单元发送的运行异常信息后对所述任务执行子系统进行重置调整,以及为重置调整后的任务执行子系统重新匹配频率电压映射表。
根据本发明的另一方面,提供了一种AI硬件加速平台,包括:具有频率电压映射表存储单元的AI加速卡、电源管理MCU芯片、异常处理单元和上层驱动单元;其中,所述上层驱动单元包括权利要求7~9任一所述的AI加速卡的电压频率管控装置,所述频率电压映射表存储单元存储有多个频率电压映射表。
本发明提供的技术方案,根据AI硬件加速平台的不同应用场景,将AI加速卡中的硬件资源分为多种硬件资源组,每种硬件资源组即作为一种任务执行子系统;在各个任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并在实时获取实际负载特征信息后,根据实际负载特征信息切换匹配给任务执行子系统的频率电压映射表,拆解了原有AI加速卡整套硬件使用一套电压频率曲线进行动态电压频率调整,以一个子系统为最小颗粒度来动态分配电压频率组合,达到优化能耗比的效果,提高了性能与能效,从而提高了AI加速卡中硬件的有效算力。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
图1是本发明实施例提供的一种AI加速卡的电压频率管控方法的流程图;
图2是本发明实施例提供的一种含有多条频率电压拟合曲线的坐标图;
图3是本发明实施例提供的另一种AI加速卡的电压频率管控方法的流程图;
图4是本发明实施例提供的另一种AI加速卡的电压频率管控方法的流程图;
图5是本发明实施例提供的一种AI加速卡的电压频率管控装置的结构框图;
图6是本发明实施例提供的一种AI硬件加速平台的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种AI加速卡的电压频率管控方法,图1是本发明实施例提供的一种AI加速卡的电压频率管控方法的流程图,参考图1,AI加速卡的电压频率管控方法包括:
S110、获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,资源组信息至少包括所使用的硬件资源数量、应用模型类型、运行前静态温度和应用数据类型。
具体的,云端或客户端用户下达任务后,AI硬件加速平台的上层驱动对任务进行拆解,确定完成任务所需的硬件资源。完成任务所需硬件资源的组合即为任务执行子系统。完成任务所需硬件资源的数量、应用模型类型和应用数据类型等相关信息即为任务执行子系统对应的资源组信息。示例性的,AI加速卡中有10个运算单元,根据任务端下发的任务确定完成该任务需其中的3个运算单元,则被选中的3个运算单元构成完成任务的任务执行子系统。
S120、根据任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表;其中频率电压映射表存储单元中存储有多个频率电压映射表。
具体的,提取到任务执行子系统对应的资源组信息后,根据任务执行子系统的资源组信息,从频率电压映射表存储单元中获取匹配的初始运行频率电压映射表。其中频率电压映射表存储单元中存储有多个预先确定好的频率电压映射表。每个频率电压映射表中的电压频率关系可以映射为一条电压频率曲线。
在早期产品定义阶段,根据AI硬件加速平台不同的应用场景确定多种拟定子系统;根据不同拟定子系统的硬件资源数量、应用模型类型、应用数据类型和负载特征调试出多套能效比高于预设值的频率电压对应关系组合;将确定出的多套频率电压对应关系组合存储于频率电压映射表存储单元中。可以理解为,在早期产品定义阶段,调优出不同子系统以及同一子系统在不同负载特征下所对应的电压频率映射表,以构成一个完备的量产导入技术积累前提。在实际运行过程中,根据任务执行子系统的资源组信息,从频率电压映射表存储单元中获取匹配频率电压映射表,则可以使得该子系统的能效比高于预设值。
S130、将初始运行频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行。
具体的,在子系统初次运行时,还无法获取例如子系统功耗、功耗变化斜率、运行温度和内部IP运行状况等负载信息;则可以根据硬件资源数量、应用模型类型、应用数据类型、应用环境温度等资源组信息先匹配一套相对保守的电压频率映射表作为初始电压频率映射表进行模型负载学习。相对保守的电压频率映射表可以理解为在每一工作频率下给定的工作电压足够的大,以满足子系统可以先正常运行起来的需要。
S140、在任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并在实时获取实际负载特征信息后,根据实际负载特征信息切换匹配给任务执行子系统的频率电压映射表,以动态管控任务执行子系统运行的电压和/或频率;其中不同任务执行子系统可同时运行。
具体的,AI硬件加速平台部分应用场景下不同的任务可在不同的子系统中同时运行,实现不同子系统同时运行多套频率电压映射表。在各个任务执行子系统运行过程中,周期性实时获取不同时刻的实际负载特征信息,以对正在运行的不同任务执行子系统进行实时的应用特征行为分析。将实际负载特征信息并结合资源组信息,与早期定义的多个电压频率映射表进行匹配,从而获取适配的电压频率关系,每一任务执行子系统能够持续自适应的电压频率表调节以获得最优配置,从而使得各个任务执行子系统在运行时均可以达到优化能耗比的工作状态。示例性的,图2是本发明实施例提供的一种含有多条频率电压拟合曲线的坐标图,参考图2,示例性的画出了A~F六条频率电压拟合曲线,其中每条频率电压拟合曲线即对应一个频率电压映射表。若上次调整频率电压映射表后,一任务执行子系统按照频率电压拟合曲线A中的频率电压对应关系运行;获取当前任务执行子系统的实际负载特征信息后,根据实际负载特征信息匹配后调整为按照频率电压拟合曲线C中的频率电压对应关系运行。任务执行子系统的工作频率为P1,按照频率电压拟合曲线A中的频率电压对应关系,P1对应的电压为V2;按照频率电压拟合曲线C中的频率电压对应关系,P1对应的电压为V1,而V2大于V1,即可以节约(V2-V1)的电压,可以通过省下来的功耗提高性能。
而现有技术中只设有一个电压频率映射表,每个频率对应的电压都是一个固定值,即所有的任务执行子系统都按照同一个电压频率预设表运行。为了保证所给定的电压能够跑过所有的模型,所以每个频率对应的电压设定的会比较大。但是任务执行子系统在以一频率运行过程中,实际需要的电压可能低于电压频率预设表中设定的电压,因此当前大部分应用模型均触及到了TDP,导致硬件出现了降频,损失了性能。
本发明提供的AI加速卡的电压频率管控方法,获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;根据任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表,其中频率电压映射表存储单元中存储有多个频率电压映射表;将初始运行频率电压映射表下发给电源管理MCU芯片,通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行;并且在各个任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并在实时获取实际负载特征信息后,根据实际负载特征信息切换匹配给任务执行子系统的频率电压映射表。将AI加速卡中的硬件资源分为多种硬件资源组,每种硬件资源组即作为一种任务执行子系统;拆解了原有AI加速卡整套硬件使用一套电压频率曲线进行动态电压频率调整,以一个子系统为最小颗粒度来动态分配电压频率组合,从而达到优化能耗比的效果,提高了性能与能效,从而提高了AI加速卡中硬件的有效算力。
图3是本发明实施例提供的另一种AI加速卡的电压频率管控方法的流程图,参考图3,AI加速卡的电压频率管控方法包括:
S210、获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,资源组信息至少包括所使用的硬件资源数量、应用模型类型、运行前静态温度和应用数据类型。
可选的,根据任务端下发的任务确定任务执行子系统对应的资源组信息,包括:
根据任务端下发的任务确定完成任务所需的硬件资源;
根据完成任务所需的硬件资源的数量以及类型,确定任务执行子系统所使用的硬件资源数量、应用模型类型和应用数据类型;
获取应用环境温度,将应用环境温度作为运行前静态温度,根据硬件资源数量、应用模型类型、应用环境温度和应用数据类型确定资源组信息。
可以理解为,将应用环境温度作为任务执行子系统未运行前的静态温度,在步骤S220中,根据硬件资源数量、应用模型类型和应用数据类型并结合应用环境温度匹配初始运行频率电压映射表时,可以提高获取的初始运行频率电压表的适配性。
S220、根据任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表;其中频率电压映射表存储单元中存储有多个频率电压映射表。
S230、将初始运行频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行。
S240、在任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,根据任务执行子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种,并结合资源组信息,从频率电压映射表存储单元中重新匹配并获取频率电压映射表。
S250、将每次重新匹配到的频率电压映射表下发给电源管理MCU芯片,并通过电源管理MCU芯片控制任务执行子系统按照重新匹配到的频率电压映射表运行。
S260、每次重新匹配到的频率电压映射表下发给电源管理MCU芯片之后,接收电源管理MCU芯片反馈的调整完成信息,以确定频率电压映射表调整完成。
具体的,每次将匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的频率电压映射表运行之后,还包括接收电源管理MCU芯片反馈的调整完成信息,可以确定频率电压映射表调整完成。若后续任务执行子系统的运行出现异常,可以判断是否为调整后的频率电压映射表导致系统的运行出现异常。
本发明实施例提供的AI加速卡的电压频率管控方法,根据任务端下发的任务确定任务执行子系统对应的资源组信息过程中,将应用环境温度作为任务执行子系统未运行前的静态温度,根据硬件资源数量、应用模型类型、应用数据类型并结合应用环境温度匹配初始运行频率电压映射表,可以进一步的缩小初始运行频率电压映射表的选取范围,并可以提高获取的初始运行频率电压表的适配性。并且,每次将匹配到的频率电压映射表下发给电源管理MCU芯片之后,还包括接收电源管理MCU芯片反馈的调整完成信息,可以确定频率电压映射表调整完成。若后续系统的运行出现异常,可以判断是否为调整后的频率电压映射表导致系统的运行出现异常。
图4是本发明实施例提供的另一种AI加速卡的电压频率管控方法的流程图,参考图4,AI加速卡的电压频率管控方法包括:
S310、获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,资源组信息至少包括所使用的硬件资源数量、应用模型类型、运行前静止温度和应用数据类型。
S320、根据资源组信息从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表;其中频率电压映射表存储单元中存储有多个频率电压映射表。
S330、将初始运行频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行。
S340、获取任务执行子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种,以确定任务执行子系统的实际负载特征信息。
S350、根据执行子系统的实际负载特征信息并结合资源组信息,从频率电压映射表存储单元中重新匹配并获取频率电压映射表。
S360、将重新匹配的频率电压映射表下发给电源管理MCU芯片,并通过电源管理MCU芯片控制对应的任务执行子系统按照重新匹配到的频率电压映射表运行。
S370、根据电源管理MCU芯片反馈的调整完成信息,确定频率电压映射表调整完成。
S380、通过异常处理单元监测任务执行子系统的运行是否异常,若执行子系统的运行出现异常,则执行步骤S390;若执行子系统的运行正常,则执行步骤S3100。
S390、对任务执行子系统进行重置调整,并返回执行步骤S320。
具体的,例如一些硬件资源在运行过程中,因为给的电压可能过低,而实际负载比预设的要大,导致模型没有办法正常再往下运行,则此时异常处理单元监测任务执行子系统的运行出现异常,并上报信息给上层驱动。上层驱动经过判断后下发信息给硬件进行模块级别重置。模块级别重置可以理解为以一个资源组作为单位进行重置,重置过程中不影响其他资源组的使用。
为重置调整后的任务执行子系统重新匹配的频率电压映射表,可以为相对保守的频率电压映射表,以使任务执行子系统可以正常运行。因此通过异常处理单元监测任务执行子系统的运行出现异常时,则对任务执行子系统进行重置调整后返回执行步骤S320。可以在每一工作频率下给定任务执行子系统的工作电压足够的大,以满足任务执行子系统可以先正常运行起来。再次在任务执行子系统运行过程中,实时对其进行应用特征行为分析,并调节电压频率映射表以获得最优配置。从而可以不断调整频率电压映射表,以达成功能闭环。
S3100、判断执行子系统是否完成任务,若完成则执行步骤S3110;若未完成则返回执行步骤S340。
S3110、控制执行子系统停止运行。
本发明实施例提供的AI加速卡的电压频率管控方法,在任务执行子系统运行过程中,还通过异常处理单元监测任务执行子系统的运行是否异常,并在接收到异常处理单元发送的运行异常信息后对任务执行子系统进行重置调整,以及为重置调整后的任务执行子系统重新匹配频率电压映射表,在完成功耗优化的同时,能进行异常处理以确保系统的安全。
本发明实施例提供了一种AI加速卡的电压频率管控装置,用于执行上述任意实施例所述的AI加速卡的电压频率管控方法,图5是本发明实施例提供的一种AI加速卡的电压频率管控装置的结构框图,参考图5,AI加速卡的电压频率管控装置包括:
资源组信息确定模块10,用于在每次获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,资源组信息至少包括所使用的硬件资源数量、应用模型类型、应用环境温度和应用数据类型;不同任务执行子系统可同时运行;
频率电压映射表匹配模块20,用于根据任务执行子系统的资源组信息,从频率电压映射表存储单元301中匹配并获取初始运行频率电压映射表,以及用于将匹配到的初始运行频率电压映射表下发给电源管理MCU芯片200;其中频率电压映射表存储单元301中存储有多个频率电压映射表,电源管理MCU芯片200用于控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行;
负载特征信息确定模块30,用于在任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并将每次获取的实际负载特征信息发送给频率电压映射表匹配模块20;
频率电压映射表匹配模块20还用于根据实际负载特征信息切换匹配给任务执行子系统的频率电压映射表,以动态管控任务执行子系统运行的电压和/或频率。
本发明实施例提供的AI加速卡的电压频率管控装置,包括资源组信息确定模块、频率电压映射表匹配模块、负载特征信息确定模块。资源组信息确定模块获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息。频率电压映射表匹配模块获取资源组信息后,可根据任务执行子系统的资源组信息从频率电压映射表存储单元中获取匹配的初始运行频率电压映射表,并将初始运行频率电压映射表下发给电源管理MCU芯片;其中频率电压映射表存储单元中存储有多个频率电压映射表。将AI加速卡中的硬件资源分为多种硬件资源组,每种硬件资源组即作为一种任务执行子系统;拆解了原有AI加速卡整套硬件使用一套电压频率曲线进行动态电压频率调整,以一个子系统为最小颗粒度来动态分配电压频率组合;同时在各个任务执行子系统运行过程中,负载特征信息确定模块可以周期性实时获取不同时刻的实际负载特征信息,并将实际负载特征信息发送给频率电压映射表匹配模块,负载特征信息确定模块根据实际负载特征信息切换匹配给任务执行子系统的频率电压映射表,能够根据当前在工作的硬件资源组的实际负载特征,动态地调整频率电压组合,从而达到优化能耗比的效果,提高了性能与能效,从而提高了AI加速卡中硬件的有效算力。
可选的,频率电压映射表匹配模块包括:
频率电压映射表获取子模块,用于根据任务执行子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种,并结合资源组信息,从频率电压映射表存储单元中重新匹配并获取频率电压映射表;
频率电压映射表发送子模块,用于将匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制任务执行子系统按照重新匹配到的频率电压映射表运行。
可选的,频率电压映射表匹配模块还用于在任务执行子系统运行过程中,通过异常处理单元监测任务执行子系统的运行是否异常,并在接收到异常处理单元发送的运行异常信息后对任务执行子系统进行重置调整,以及为重置调整后的任务执行子系统重新匹配频率电压映射表。
本发明实施例还提供了一种AI硬件加速平台1,图6是本发明实施例提供的一种AI硬件加速平台的结构框图,参考图6,AI硬件加速平台1包括:具有频率电压映射表存储单元301的AI加速卡300、电源管理MCU芯片200、异常处理单元400和上层驱动单元100。AI硬件加速平台1可以是单卡平台,也可以是单台服务器,也可以是一个服务器集群。
其中,上层驱动单元100包括上述任意实施例所述的AI加速卡的电压频率管控装置,频率电压映射表存储单元300存储有多个频率电压映射表。即上述任意实施例所述的AI加速卡的电压频率管控方法是通过上层驱动单元100统一监控、管理、调度硬件去协同完成的,可以提高运行效率、实现集成化和产品化。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种AI加速卡的电压频率管控方法,其特征在于,包括:
获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,所述资源组信息至少包括所使用的硬件资源数量、应用模型类型、运行前静态温度和应用数据类型;
根据所述任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表;其中所述频率电压映射表存储单元中存储有多个频率电压映射表;
将所述初始运行频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行;
在所述任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并在实时获取实际负载特征信息后,根据所述实际负载特征信息切换匹配给所述任务执行子系统的频率电压映射表,以动态管控所述任务执行子系统运行的电压和/或频率;其中不同任务执行子系统可同时运行。
2.根据权利要求1所述的AI加速卡的电压频率管控方法,其特征在于,所述实际负载特征信息包括子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种;
根据所述实际负载特征信息切换匹配给所述任务执行子系统的频率电压映射表,以动态调节所述任务执行子系统运行的电压和/或频率,包括:
根据所述任务执行子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种,并结合所述资源组信息,从所述频率电压映射表存储单元中重新匹配并获取频率电压映射表;
将重新匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制所述任务执行子系统按照重新匹配到的频率电压映射表运行。
3.根据权利要求1所述的AI加速卡的电压频率管控方法,其特征在于,还包括:
在所述任务执行子系统运行过程中,通过异常处理单元监测所述任务执行子系统的运行是否异常,并在接收到所述异常处理单元发送的运行异常信息后对所述任务执行子系统进行重置调整,以及为重置调整后的任务执行子系统重新匹配频率电压映射表。
4.根据权利要求1所述的AI硬件卡的电压频率管控方法,其特征在于,所述根据任务端下发的任务确定任务执行子系统对应的资源组信息,包括:
根据任务端下发的任务确定完成任务所需的硬件资源;
根据完成任务所需的硬件资源的数量以及类型,确定所述任务执行子系统所使用的硬件资源数量、应用模型类型和应用数据类型;
获取应用环境温度,将应用环境温度作为任务执行子系统运行前的静态温度,根据所述硬件资源数量、应用模型类型、应用环境温度和应用数据类型确定所述资源组信息。
5.根据权利要求1所述的AI加速卡的电压频率管控方法,其特征在于,所述根据所述任务执行子系统的资源组信息,从频率电压映射表存储单元中获取匹配的初始运行频率电压映射表之前,还包括:
根据AI硬件加速平台不同的应用场景,确定多种拟定子系统;
根据不同拟定子系统的硬件资源数量、数据类型和负载特征调试出多套能效比高于预设值的频率电压对应关系组合;
将确定出的多套所述频率电压对应关系组合存储于所述频率电压映射表存储单元中;其中每套频率电压对应关系组合作为一个频率电压映射表。
6.根据权利要求1所述的AI加速卡的电压频率管控方法,其特征在于,每次将匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制对应的任务执行子系统按照匹配到的频率电压映射表运行之后,还包括:
接收所述电源管理MCU芯片反馈的调整完成信息,以确定频率电压映射表调整完成。
7.一种AI加速卡的电压频率管控装置,其特征在于,用于执行权力要求1~6任一所述的AI加速卡的电压频率管控方法,包括:
资源组信息确定模块,用于在每次获取任务端下发的任务后,根据任务端下发的任务确定任务执行子系统对应的资源组信息;其中,所述资源组信息至少包括所使用的硬件资源数量、应用模型类型、应用环境温度和应用数据类型;不同任务执行子系统可同时运行;
频率电压映射表匹配模块,用于根据所述任务执行子系统的资源组信息,从频率电压映射表存储单元中匹配并获取初始运行频率电压映射表,以及用于将匹配到的初始运行频率电压映射表下发给电源管理MCU芯片;其中所述频率电压映射表存储单元中存储有多个频率电压映射表,所述电源管理MCU芯片用于控制对应的任务执行子系统按照匹配到的初始运行频率电压映射表运行;
负载特征信息确定模块,用于在所述任务执行子系统运行过程中周期性实时获取不同时刻的实际负载特征信息,并将每次获取的实际负载特征信息发送给频率电压映射表匹配模块;
频率电压映射表匹配模块还用于根据所述实际负载特征信息切换匹配给所述任务执行子系统的频率电压映射表,以动态管控所述任务执行子系统运行的电压和/或频率。
8.根据权利要求7所述的AI加速卡的电压频率管控装置,其特征在于,所述频率电压映射表匹配模块包括:
频率电压映射表获取子模块,用于根据所述任务执行子系统的功耗、功耗变化斜率、运行温度和内部IP运行状况中的至少一种,并结合所述资源组信息,从所述频率电压映射表存储单元中重新匹配并获取频率电压映射表;
频率电压映射表发送子模块,用于将匹配到的频率电压映射表下发给电源管理MCU芯片,以通过电源管理MCU芯片控制所述任务执行子系统按照重新匹配到的频率电压映射表运行。
9.根据权利要求7所述的AI加速卡的电压频率管控装置,其特征在于,
所述频率电压映射表匹配模块还用于在所述任务执行子系统运行过程中,通过异常处理单元监测所述任务执行子系统的运行是否异常,并在接收到所述异常处理单元发送的运行异常信息后对所述任务执行子系统进行重置调整,以及为重置调整后的任务执行子系统重新匹配频率电压映射表。
10.一种AI硬件加速平台,其特征在于,包括:具有频率电压映射表存储单元的AI加速卡、电源管理MCU芯片、异常处理单元和上层驱动单元;其中,所述上层驱动单元包括权利要求7~9任一所述的AI加速卡的电压频率管控装置,所述频率电压映射表存储单元存储有多个频率电压映射表。
CN202210706525.1A 2022-06-21 2022-06-21 Ai加速卡的电压频率管控方法、装置及ai硬件加速平台 Pending CN115097923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210706525.1A CN115097923A (zh) 2022-06-21 2022-06-21 Ai加速卡的电压频率管控方法、装置及ai硬件加速平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210706525.1A CN115097923A (zh) 2022-06-21 2022-06-21 Ai加速卡的电压频率管控方法、装置及ai硬件加速平台

Publications (1)

Publication Number Publication Date
CN115097923A true CN115097923A (zh) 2022-09-23

Family

ID=83292492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210706525.1A Pending CN115097923A (zh) 2022-06-21 2022-06-21 Ai加速卡的电压频率管控方法、装置及ai硬件加速平台

Country Status (1)

Country Link
CN (1) CN115097923A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112467978A (zh) * 2019-09-06 2021-03-09 中兴通讯股份有限公司 开关电源的工作频率调整方法及装置
CN113672073A (zh) * 2021-07-20 2021-11-19 睿识科技南京有限责任公司 异构计算硬件能耗和性能优化方法、系统和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112467978A (zh) * 2019-09-06 2021-03-09 中兴通讯股份有限公司 开关电源的工作频率调整方法及装置
CN113672073A (zh) * 2021-07-20 2021-11-19 睿识科技南京有限责任公司 异构计算硬件能耗和性能优化方法、系统和存储介质

Similar Documents

Publication Publication Date Title
CN108322345B (zh) 一种故障修复数据包的发布方法及服务器
US8473768B2 (en) Power control apparatus and method for cluster system
US9037880B2 (en) Method and system for automated application layer power management solution for serverside applications
US9069618B1 (en) Updating kernal affinity for applications executing in a multiprocessor system
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN111324460B (zh) 一种基于云计算平台的电力监测控制系统及方法
CN113672345A (zh) 一种基于io预测的云虚拟化引擎分布式资源调度方法
Song et al. A deep reinforcement learning-based task scheduling algorithm for energy efficiency in data centers
EP4027241A1 (en) Method and system for optimizing rack server resources
CN114281479A (zh) 一种容器管理方法及装置
CN105357026A (zh) 一种资源信息收集方法和计算节点
CN116028193B (zh) 一种混部集群的大数据任务动态高能效调度方法和系统
CN115097923A (zh) Ai加速卡的电压频率管控方法、装置及ai硬件加速平台
CN114880079A (zh) 基于强化学习的Kubernetes集群规模调整方法、系统及设备
Mann et al. Auto-adjusting self-adaptive software systems
CN113904940A (zh) 资源调整方法、装置、电子设备和计算机可读存储介质
Naeen Cost reduction using SLA-aware genetic algorithm for consolidation of virtual machines in cloud data centers
CN116048791B (zh) 一种测试节点的调控方法、装置、电子设备以及存储介质
Skulysh et al. Management of multiple stage queuing systems
CN117579626B (zh) 基于分布式实现边缘计算下的优化方法及系统
US11874719B2 (en) Management of performance and power consumption of edge devices
CN112948206B (zh) 基于云计算的时序日志管理系统及包含该系统的电子设备
CN117591382B (zh) 服务器故障智能监测方法、装置、设备及介质
US11256316B2 (en) Automated device power conservation using machine learning techniques
Tirado et al. Reconciling dynamic system sizing and content locality through hierarchical workload forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room a-522, 188 Yesheng Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201306

Applicant after: Shanghai Suiyuan Technology Co.,Ltd.

Address before: Room a-522, 188 Yesheng Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 201306

Applicant before: SHANGHAI ENFLAME TECHNOLOGY Co.,Ltd.

Country or region before: China

CB02 Change of applicant information