CN115495702A - 一种模型训练能耗计算方法、装置、系统及可读存储介质 - Google Patents

一种模型训练能耗计算方法、装置、系统及可读存储介质 Download PDF

Info

Publication number
CN115495702A
CN115495702A CN202211430795.0A CN202211430795A CN115495702A CN 115495702 A CN115495702 A CN 115495702A CN 202211430795 A CN202211430795 A CN 202211430795A CN 115495702 A CN115495702 A CN 115495702A
Authority
CN
China
Prior art keywords
model training
energy consumption
equipment
server
carbon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211430795.0A
Other languages
English (en)
Other versions
CN115495702B (zh
Inventor
王丽
郭振华
赵雅倩
曹芳
高开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202211430795.0A priority Critical patent/CN115495702B/zh
Publication of CN115495702A publication Critical patent/CN115495702A/zh
Application granted granted Critical
Publication of CN115495702B publication Critical patent/CN115495702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/80Management or planning
    • Y02P90/84Greenhouse gas [GHG] management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及模型训练技术领域,公开了一种模型训练能耗计算方法、装置、系统及可读存储介质,方法包括:获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,并获取服务器对应的碳电信息;采集模型训练的过程中各类设备的运行参数;根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。本申请公开的技术方案,通过获取用于进行模型训练的服务器中参与模型训练的各类设备的个数、服务器对应的碳电信息,采集模型训练的过程中各类设备的运行参数,根据各类设备的个数、各类设备的运行参数及碳电信息,实现快速、有效地计算模型训练对应的能耗数据,以为模型训练以及大规模计算产生的能耗评估提供技术参考。

Description

一种模型训练能耗计算方法、装置、系统及可读存储介质
技术领域
本申请涉及模型训练技术领域,更具体地说,涉及一种模型训练能耗计算方法、装置、系统及可读存储介质。
背景技术
随着人工智能的兴起和深度学习技术的突破,超大规模神经网络模型在一系列领域中取得了成功。例如,BERT(具有340 Million参数)、GPT-3(具有175 Billion参数)等超大规模语言模型在多项自然语言处理任务中取得了重大突破,在计算机视觉领域Transformer Vision(具有632 Million参数)及其变种模型已经得到广泛应用。然而,随着模型复杂度增加、模型参数成倍增加,训练模型带来的能源消耗和二氧化碳排放当量已经成为不可忽视的因素。
目前,对于模型训练的过程中的能耗评估计算还处于起步阶段,且目前业界主要关注具体设备实体的核算问题,缺少针对软件AI(Artificial Intelligence,人工智能)模型能耗测量和核算指南。
综上所述,如何对模型训练的能耗进行计算,以为模型训练以及大规模计算产生的能耗评估提供技术参考,是目前本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的是提供一种模型训练能耗计算方法、装置、系统及可读存储介质,用于对模型训练的能耗进行计算,以为模型训练以及大规模计算产生的能耗评估提供技术参考。
为了实现上述目的,本申请提供如下技术方案:
一种模型训练能耗计算方法,包括:
获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数,并获取所述服务器对应的碳电信息;
采集所述模型训练的过程中各类所述设备的运行参数;
根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据。
优选的,采集所述模型训练的过程中各类所述设备的运行参数,包括:
每隔预设时间间隔采集所述模型训练的过程中各类所述设备的功率、运行时长及设备线程占用率;
根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据,包括:
计算各类所述设备的平均功率、设备线程平均占用率;
根据各类所述设备的个数、各类所述设备的平均功率、各类所述设备的设备线程平均占用率、各类所述设备的运行时长及所述碳电信息,计算所述模型训练对应的能耗数据。
优选的,根据各类所述设备的个数、各类所述设备的平均功率、各类所述设备的设备线程平均占用率、各类所述设备的运行时长及所述碳电信息,计算所述模型训练对应的能耗数据,包括:
利用
Figure 116451DEST_PATH_IMAGE001
,计算所述模型训练对应的能耗开销
Figure 502433DEST_PATH_IMAGE002
利用
Figure 751012DEST_PATH_IMAGE004
,计算所述模型训练对应的碳排放当量
Figure 612133DEST_PATH_IMAGE005
其中,
Figure 895347DEST_PATH_IMAGE006
为第i类设备的个数,
Figure 186651DEST_PATH_IMAGE007
为第i类设备的设备线程平均占用率,
Figure 922526DEST_PATH_IMAGE008
为第i类设备的平均功率,
Figure 324688DEST_PATH_IMAGE009
为第i类设备的运行时长,
Figure 462409DEST_PATH_IMAGE010
为所述服务器对应的电源使用效率,
Figure 924614DEST_PATH_IMAGE011
为所述服务器对应的碳强度,
Figure 147785DEST_PATH_IMAGE012
为数据中心碳抵消系数。
优选的,当所述设备包括CPU和/或GPU时,则每隔预设时间间隔采集所述模型训练的过程中各类所述设备的功率、运行时长及设备线程占用率,包括:
每隔预设时间间隔调用CPU和/或GPU对应第三方工具,利用CPU和/或GPU对应的第三方工具采集所述模型训练的过程中相应设备的功率、运行时长及设备线程占用率。
优选的,获取所述服务器对应的碳电信息,包括:
在线获取所述服务器的地理位置信息;
根据所述服务器的地理位置信息获取所述服务器对应的碳电信息。
优选的,在线获取所述服务器的地理位置信息,包括:
利用geojs API通过获取所述服务器的地理位置信息。
优选的,获取所述服务器对应的碳电信息,包括:
预先将地理位置信息、数据中心信息与碳电信息的映射关系存储在本地;
获取所述服务器的地理位置信息,或者,获取所述服务器的地理位置信息及所述服务器所在的数据中心的信息;
根据存储在本地的所述映射关系及所述服务器的地理位置信息,或者根据存储在本地的所述映射关系、所述服务器的地理位置信息及所述服务器所在的数据中心的信息,获取所述服务器对应的碳电信息。
优选的,还包括:
获取各类所述设备的静态信息;所述静态信息包括所述设备的名称、型号、额定功率、额定计算性能。
优选的,还包括:
获取所述模型训练对应的模型参数信息,根据所述模型参数信息得到模型的总计算量;
根据所述模型的总计算量及各类所述设备的额定计算性能,得到完成所述模型的总计算量的预估时间;
根据各类所述设备的个数、各类所述设备的额定功率、各类所述设备的设备线程理论占用率、所述预估时间及所述碳电信息,计算所述模型训练的预测能耗数据。
优选的,根据各类所述设备的个数、各类所述设备的额定功率、各类所述设备的设备线程理论占用率、所述预估时间及所述碳电信息,计算所述模型训练的预测能耗数据,包括:
利用
Figure 353638DEST_PATH_IMAGE014
,计算所述模型训练对应的预测能耗开销
Figure 345865DEST_PATH_IMAGE015
利用
Figure 41289DEST_PATH_IMAGE017
,计算所述模型训练对应的碳排放当量
Figure 955018DEST_PATH_IMAGE018
其中,
Figure 495721DEST_PATH_IMAGE019
为第i类设备的个数,
Figure 608033DEST_PATH_IMAGE020
为第i类设备的设备线程理论占用率,
Figure 412041DEST_PATH_IMAGE021
为第i类设备的额定功率,
Figure 609804DEST_PATH_IMAGE022
为所述预估时间,
Figure 157460DEST_PATH_IMAGE023
为所述服务器对应的电源使用效率,
Figure 121350DEST_PATH_IMAGE024
为所述服务器对应的碳强度,
Figure 565101DEST_PATH_IMAGE025
为数据中心碳抵消系数。
优选的,还包括:
获取所述服务器的操作系统版本、python版本及所述服务器的内存大小。
优选的,还包括:
获取所述模型训练对应的进程号、所述服务器中参与所述模型训练的设备的设备号;
获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数,包括:
当接收到能耗计算指令时,根据所述设备号获取所述服务器中参与所述模型训练的各类所述设备的个数;
采集所述模型训练的过程中各类所述设备的运行参数,包括:
根据所述进程号,采集所述模型训练的过程中各类所述设备的运行参数。
一种模型训练能耗计算装置,包括:
第一获取模块,用于获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数,并获取所述服务器对应的碳电信息;
采集模块,用于采集所述模型训练的过程中各类所述设备的运行参数;
第一计算模块,用于根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据。
一种模型训练能耗计算系统,包括:
设备信息收集器,用于获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数;
碳排放信息收集器,用于获取所述服务器对应的碳电信息;
硬件设备实时采样器,用于采集所述模型训练的过程中各类所述设备的运行参数;
碳排放/能耗信息输出器,用于根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据。
一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的模型训练能耗计算方法的步骤。
本申请提供了一种模型训练能耗计算方法、装置、系统及可读存储介质,其中,该方法包括:获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,并获取服务器对应的碳电信息;采集模型训练的过程中各类设备的运行参数;根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。
本申请公开的上述技术方案,通过获取用于进行模型训练的服务器中参与模型训练的各类设备的个数、服务器对应的碳电信息,采集模型训练的过程中各类设备的运行参数,根据各类设备的个数、各类设备的运行参数及碳电信息,实现快速、有效地计算模型训练对应的能耗数据,以为模型训练以及大规模计算产生的能耗评估提供技术参考,对促进节能减排,实现碳达峰、碳中和具有重要意义。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种模型训练能耗计算方法的流程图;
图2为本申请实施例提供的模型训练能耗计算系统进行能耗计算的流程图;
图3为本申请实施例提供的获取服务器对应的碳电信息的实现示意图;
图4为本申请实施例提供的模型训练能耗计算系统应用示例图;
图5为本申请实施例提供的一种模型训练能耗计算装置的结构示意图;
图6为本申请实施例提供的一种模型训练能耗计算系统的结构示意图;
图7为本申请实施例提供的模型训练能耗计算系统各器件逻辑关系及执行流程示意图。
具体实施方式
随着模型复杂度增加、模型参数成倍增加,训练模型带来的能源消耗和二氧化碳排放当量已经成为不可忽视的因素,如何快速、有效地评估神经网络模型训练的能耗开销,已经成为业界关注的热点问题。
为此,本申请提供一种模型训练能耗计算方法、装置、系统及可读存储介质,用于对模型训练的能耗进行计算,以为模型训练以及大规模计算产生的能耗评估提供技术参考。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,其示出了本申请实施例提供的一种模型训练能耗计算方法的流程图,本申请实施例提供的一种模型训练能耗计算方法,可以包括:
S11:获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,并获取服务器对应的碳电信息。
在进行模型训练能耗计算时,模型训练能耗计算系统可以获取用于进行模型训练的服务器中参与模型训练的各类设备的个数。其中,这里提及的模型具体可为神经网络模型,且各类设备可以包括CPU(Central Processing Unit / Processor,中央处理器)、GPU(Graphics Processing Unit,图形处理器)、内存等,具体可以根据模型训练的需求而进行确定,各类设备的个数也可以预先由相关人员根据模型结构等进行指定。
另外,还可以获取服务器对应的PUE(Power Usage Effectiveness,电源使用效率)、CI(Carbon intensity,碳强度)等关键的碳电信息。其中,PUE是数据中心消耗的所有能源与IT(Internet Technology,互联网技术)负载消耗的能源的比值,PUE=数据中心总设备能耗/IT设备能耗,无单位;CI是指单位GDP(Gross Domestic Product,国内生产总值)的二氧化碳排放量,计算公式为CI=二氧化碳排放总量/GDP,碳强度高低不表明效率高低,单位:kgCO2e/KWh。
通过获取服务器中参与模型训练的各类设备的个数以及服务器所对应的碳电信息而使得这两类信息可以参与到模型训练的能耗计算中,以提高模型训练能耗计算的有效性和准确性。
S12:采集模型训练的过程中各类设备的运行参数。
其中,在模型训练能耗计算中,可以开启多线程同时启动模型训练过程和模型训练能耗计算系统,具体可以参见图2,其示出了本申请实施例提供的模型训练能耗计算系统进行能耗计算的流程图,通过开启多线程可以便于一边进行模型训练,一边进行各类设备的运行参数采集以及模型训练能耗计算。
在模型训练过程中,模型训练能耗计算系统可以采集在模型训练的过程中服务器中参与模型训练的各类设备的运行参数。前述提及的运行参数具体指的是对模型训练的能耗有影响的运行参数,以通过采集这些运行参数而使得这些运行参数参与到模型训练的能耗计算中,从而提高模型训练能耗计算的有效性和准确性。
其中,模型训练能耗计算可以采集从模型训练开始到模型训练结束这一过程中各类设备的运行参数,以便于基于采集到的整个模型训练过程的运行参数计算整个模型训练过程对应的能耗数据,也可以采集从模型训练开始到模型训练到一定阶段(例如60%、80%等)的运行参数,以便于基于这一阶段的运行参数计算模型训练在这一阶段对应的能耗数据等。
S13:根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。
在步骤S11和步骤S12的基础上,模型训练能耗计算系统可以根据服务器中参与模型训练的各类设备的个数、采集到的各类设备在模型训练过程中的运行参数以及服务器对应的碳电信息来计算模型训练对应的能耗数据,以实现快速、有效地评估计算模型训练的能耗开销。
另外,在计算得到模型训练对应的能耗数据之后,还可以生成模型训练能耗报告,并可以输出模型训练能耗报告。其中,该模型训练能耗报告中可以包括采集各类设备运行参数的阶段(具体为整个模型训练过程,还是从模型训练开始到模型训练到一定阶段,或者是其他情况等)及对应的能耗数据,当然,还可以包括模型的相关信息等,以便于相关人员可以通过模型训练能耗报告得到模型训练的相关能耗开销等。
本申请公开的上述技术方案,通过获取用于进行模型训练的服务器中参与模型训练的各类设备的个数、服务器对应的碳电信息,采集模型训练的过程中各类设备的运行参数,根据各类设备的个数、各类设备的运行参数及碳电信息,实现快速、有效地计算模型训练对应的能耗数据,以为模型训练以及大规模计算产生的能耗评估提供技术参考,对促进节能减排,实现碳达峰、碳中和具有重要意义。
本申请实施例提供的一种模型训练能耗计算方法,采集模型训练的过程中各类设备的运行参数,可以包括:
每隔预设时间间隔采集模型训练的过程中各类设备的功率、运行时长及设备线程占用率;
根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据,可以包括:
计算各类设备的平均功率、设备线程平均占用率;
根据各类设备的个数、各类设备的平均功率、各类设备的设备线程平均占用率、各类设备的运行时长及碳电信息,计算模型训练对应的能耗数据。
在本申请中,模型训练能耗计算系统具体可以每隔预设时间间隔采集模型训练的过程中各类设备的功率(具体为各类设备在采样时刻的实际功率)、各类设备从模型训练开始到采样时刻的运行时长以及各类设备在采样时刻的设备线程占用率,也即模型训练能耗计算系统可以按照设定的预设时间间隔进行周期性的采样。其中,设备线程占用率中的线程指的是模型训练对应的线程,设备线程占用率具体为模型训练对应的线程对相应设备的占用率,预设时间间隔的大小可以根据实际需求等进行设定,例如可以为5s等。
在上述基础上,可以对采集的各类设备的功率、运行时长及设备线程占用率进行汇总统计(例如计算采样均值、方差等统计量)。具体地,可以分别对采集到的各类设备在模型训练过程中的功率进行平均计算,以分别得到各类设备的平均功率,并可以分别对采集到的各类设备的设备线程占用率进行平均计算,以分别得到各类设备的设备线程平均占用率,且可以得到各类设备的运行时长。之后,则可以根据各类设备的个数、各类设备的平均功率、各类设备的设备线程平均占用率、各类设备的运行时长以及服务器对应的碳电信息,计算模型训练对应的能耗数据,也即采用均值法计算模型训练对应的能耗数据,以提高模型训练能耗开销计算的通用性和有效性。
当然,也可以对每个设备的功率、设备线程占用率进行平均,并根据每个设备的平均功率、每个设备的设备线程平均占用率、每个设备的运行时长及服务器对应的碳电信息,计算模型对应的能耗数据。
本申请实施例提供的一种模型训练能耗计算方法,根据各类设备的个数、各类设备的平均功率、各类设备的设备线程平均占用率、各类设备的运行时长及碳电信息,计算模型训练对应的能耗数据,可以包括:
利用
Figure 656684DEST_PATH_IMAGE026
,计算模型训练对应的能耗开销
Figure 8031DEST_PATH_IMAGE002
利用
Figure 829357DEST_PATH_IMAGE003
,计算模型训练对应的碳排放当量
Figure 240747DEST_PATH_IMAGE005
其中,
Figure 881944DEST_PATH_IMAGE006
为第i类设备的个数,
Figure 36981DEST_PATH_IMAGE007
为第i类设备的设备线程平均占用率,
Figure 978393DEST_PATH_IMAGE008
为第i类设备的平均功率,
Figure 560684DEST_PATH_IMAGE009
为第i类设备的运行时长,
Figure 954756DEST_PATH_IMAGE010
为服务器对应的电源使用效率,
Figure 647905DEST_PATH_IMAGE011
为服务器对应的碳强度,
Figure 175314DEST_PATH_IMAGE012
为数据中心碳抵消系数。
在本申请中,具体可以利用
Figure 928506DEST_PATH_IMAGE027
计算模型训练对应的能耗开销
Figure 809875DEST_PATH_IMAGE002
,并可以利用
Figure 41136DEST_PATH_IMAGE028
,计算模型训练对应的碳排放当量
Figure 691560DEST_PATH_IMAGE005
,碳排放当量即为每吨二氧化碳当量。其中,
Figure 350075DEST_PATH_IMAGE029
,也即设备类型具体为CPU、GPU、RAM(Random AccessMemory,随机存取存储器,也叫内存)等不同的硬件设备类型,
Figure 718739DEST_PATH_IMAGE006
为第i类设备的个数,
Figure 753691DEST_PATH_IMAGE007
为第i类设备的设备线程平均占用率,
Figure 524201DEST_PATH_IMAGE008
为第i类设备的平均功率,
Figure 353617DEST_PATH_IMAGE009
为第i类设备的运行时长。
Figure 209577DEST_PATH_IMAGE010
为服务器对应的电源使用效率,
Figure 48220DEST_PATH_IMAGE011
为服务器对应的碳强度,PUE和CI是数据中心关于能耗和碳排放的两个系数,对于给定的数据中心(服务器所在的数据中心)一般为常数,其中,PUE值越接近于1,表示一个数据中心的绿色化程度越高,当前,国外先进的数据中心机房PUE值通常小于2,而我国的大多数数据中心的PUE值在2-3之间,CI的数值越小表明该国家/地区能源利用效率越高,2019年我国碳强度接近0.7。
Figure 204395DEST_PATH_IMAGE012
为数据中心(服务器所在的数据中心)碳抵消系数,一般为1.0,但也有设置为0.85的工作。
通过采用上述计算方式可以实现对模型训练对应的能耗开销的有效计算,并提高模型训练对应的能耗开销计算的准确性。
为了更清楚地对上述实施例进行说明,则举例如下:某AI模型训练阶段始于模型参数初始化,经过一系列梯度计算和梯度反向传递过程,到模型参数与训练数据拟合完毕,AI模型训练结束。训练阶段的清单数据主要包含训练过程中的能源消耗。某AI模型产品训练过程中相关硬件设备使用信息如下表所示:
表1 某AI模型产品训练过程中相关硬件设备使用信息表
编号 设备名称 数量 平均设备运行功率 平均设备运行时长 平均设备占用率
1 CPU 8 100瓦 120小时 45%
2 GPU 2 60瓦 100小时 95%
3 内存 1 40瓦 120小时 20%
则上述AI模型训练对应的能耗消耗为:
Figure 673554DEST_PATH_IMAGE031
Figure 16810DEST_PATH_IMAGE032
本申请实施例提供的一种模型训练能耗计算方法,当设备包括CPU和/或GPU时,则每隔预设时间间隔采集模型训练的过程中各类设备的功率、运行时长及设备线程占用率,可以包括:
每隔预设时间间隔调用CPU和/或GPU对应第三方工具,利用CPU和/或GPU对应的第三方工具采集模型训练的过程中相应设备的功率、运行时长及设备线程占用率。
在本申请中,当服务器中参与模型训练的设备中包括CPU和/或GPU时,则对于参与模型训练的CPU和/或GPU而言,则在进行相应运行参数采集时,可以每隔预设时间间隔调用CPU和/或GPU对应第三方工具,并利用CPU和/或GPU对应的第三方工具采集模型训练的过程中相应设备的功率、运行时长及设备线程占用率,也即对于CPU,则每隔预设时间间隔调用CPU对应的第三方工具,利用CPU对应的第三方工具采集模型训练的过程中CPU的功率、运行时长及设备线程占用率;对于GPU,则每隔预设时间间隔调用GPU对应的第三方工具,利用GPU对应的第三方工具采集模型训练的过程中GPU的功率、运行时长及设备线程占用率。
其中,这里提及的CPU和/或GPU对应第三方工具具体可以由相应厂商进行提供,例如对于Intel CPU,则采用 Intel RAPL、Intel Power Gadget等工具,对于Nvida GPU,则采用Pynvml and NVML 以及NVIDIA-smi获取相关功率、能耗信息。
对于CPU和GPU,通过借助第三方工具可以提高这些设备的运行参数获取的便利性和准确性,以便于快速、准确地计算模型训练的能耗数据。
需要说明的是,当服务器中参与模型训练的设备包括内存时,对于内存在模型训练过程中的运行参数采集,可以直接利用模型训练能耗计算系统的指令进行查看获取。
具体可以参见图3,其示出了本申请实施例提供的获取服务器对应的碳电信息的实现示意图。本申请实施例提供的一种模型训练能耗计算方法,获取服务器对应的碳电信息,可以包括:
在线获取服务器的地理位置信息;
根据服务器的地理位置信息获取服务器对应的碳电信息。
由于PUE、CI等碳电信息是和国家、地区有关的,因此,在获取服务器对应的碳电信息时,可以先在线获取服务器的地理位置信息,然后,可以根据服务器的地理位置信息获取服务器对应的碳电信息,以实现进行在线数据的获取,并提高碳电信息获取的准确性,从而提高模型训练对应的能耗开销计算的准确性。
本申请实施例提供的一种模型训练能耗计算方法,在线获取服务器的地理位置信息,可以包括:
利用geojs API通过获取服务器的地理位置信息。
在本申请中,具体可以利用geojs API通过request(请求)方法获取ip地址的实际物理地址,并通过实际物理地址得到服务器的地理位置信息,以实现在线获取服务器的地址位置信息,从而便于根据地址位置信息得到服务器对应的碳电信息。
其中,geojs旨在对科学和地理空间位置感知数据集进行高性能可视化和交互式数据探索,它请求访问浏览器的地理位置API(Application Program Interface,应用程序界面),并使用返回的数据向公共API发出请求,以获取诸如地址、邮政编码、邻里、市镇等信息。
本申请实施例提供的一种模型训练能耗计算方法,获取服务器对应的碳电信息,可以包括:
预先将地理位置信息、数据中心信息与碳电信息的映射关系存储在本地;
获取服务器的地理位置信息,或者,获取服务器的地理位置信息及服务器所在的数据中心的信息;
根据存储在本地的映射关系及服务器的地理位置信息,或者根据存储在本地的映射关系、服务器的地理位置信息及服务器所在的数据中心的信息,获取服务器对应的碳电信息。
模型训练能耗计算系统除了支持在线获取碳电信息外,还可以通过本地静态数据获取碳电信息。具体地,模型训练能耗计算系统可以预先将地理位置信息、数据中心信息与碳电信息的映射关系存储在本地。由于服务器所在数据中心不同,碳电信息也会有所不同,因此,在进行本地存储时,也可以将数据中心信息与碳电信息的映射关系进行存储。另外,还可以对硬件设备信息进行本地存储。
当进行模型训练能耗数据计算时,模型训练能耗计算系统可以获取服务器的地理位置信息,或者可以获取服务器的地理位置信息以及服务器所在的数据中心的信息,然后,可以根据预先存储在本地的地理位置信息、数据中心信息与碳电信息的映射关系以及获取到的服务器的地理位置信息,或者可以根据预先存储在本地的地理位置信息、数据中心信息与碳电信息的映射关系、获取到的服务器的地理位置信息及服务器所在的数据中心的信息,得到服务器对应的碳电信息。其中,根据服务器的地理位置信息及服务器所在的数据中心的信息进行服务器对应的碳电信息获取的准确性要比仅根据服务器的地理位置信息进行服务器对应的碳电信息获取的准确性高,模型训练能耗计算系统可以根据实际情况而选择使用。
本申请实施例提供的一种模型训练能耗计算方法,还可以包括:
获取各类设备的静态信息;静态信息可以包括设备的名称、型号、额定功率、额定计算性能。
模型训练能耗计算系统还可以获取服务器中参与模型训练的各类设备的静态信息,其中,这里提及的静态信息可以包括设备的名称、设备的型号、设备的额定功率、设备的额定计算性能(FLOP/s)等,以便于可以将各类设备的静态信息也写入模型训练能耗报告中,从而便于相关人员进行相关信息的获取,且便于进行模型训练的预测能耗数据的计算。
其中,对于CPU和GPU的静态信息,可以通过相应的第三方工具进行获取,例如对于Intel CPU,则采用 Intel RAPL、Intel Power Gadget等工具,对于Nvida GPU,则采用Pynvml and NVML 以及NVIDIA-smi获取相关功率、能耗信息。
本申请实施例提供的一种模型训练能耗计算方法,还可以包括:
获取模型训练对应的模型参数信息,根据模型参数信息得到模型的总计算量;
根据模型的总计算量及各类设备的额定计算性能,得到完成模型的总计算量的预估时间;
根据各类设备的个数、各类设备的额定功率、各类设备的设备线程理论占用率、预估时间及碳电信息,计算模型训练的预测能耗数据。
在本申请中,模型训练能耗计算系统除了可以计算模型在实际训练过程中对应的能耗数据外,还可以计算模型训练对应的预测能耗数据,以便于相关人员可以在模型训练之前能够大致获取模型训练对应的能耗数据等。
具体地,模型训练能耗计算系统可以获取模型训练对应的模型参数信息,并根据模型参数信息计算得到模型的总计算量C,然后,可以根据模型的总计算量C以及各类设备的额定计算性能,利用
Figure 393565DEST_PATH_IMAGE033
计算得到完成模型的总计算量的预估时间
Figure 669826DEST_PATH_IMAGE034
,其中,
Figure 103694DEST_PATH_IMAGE035
为参与模型训练的所有设备的额定计算性能的总和。之后,可以根据各类设备的个数、各类设备的额定功率、各类设备的设备线程理论占用率、预估时间以及碳电信息计算模型训练的预测能耗数据。其中,设备线程理论占用率中的线程同样指的是模型训练对应的线程,设备线程理论占用率具体为模型训练对应的线程对相应设备的理论占用率。
本申请实施例提供的一种模型训练能耗计算方法,根据各类设备的个数、各类设备的额定功率、各类设备的设备线程理论占用率、预估时间及碳电信息,计算模型训练的预测能耗数据,可以包括:
利用
Figure 403088DEST_PATH_IMAGE036
,计算模型训练对应的预测能耗开销
Figure 583534DEST_PATH_IMAGE015
利用
Figure 714301DEST_PATH_IMAGE037
,计算模型训练对应的碳排放当量
Figure 321999DEST_PATH_IMAGE018
其中,
Figure 374269DEST_PATH_IMAGE019
为第i类设备的个数,
Figure 92826DEST_PATH_IMAGE020
为第i类设备的设备线程理论占用率,
Figure 546941DEST_PATH_IMAGE021
为第i类设备的额定功率,
Figure 59962DEST_PATH_IMAGE022
为预估时间,
Figure 599528DEST_PATH_IMAGE023
为服务器对应的电源使用效率,
Figure 121776DEST_PATH_IMAGE024
为服务器对应的碳强度,
Figure 227136DEST_PATH_IMAGE025
为数据中心碳抵消系数。
在本申请中,对于模型训练的预测能耗数据的计算可以采用与模型训练对应的能耗数据计算相类似的方式。具体地,对于模型训练的预测能耗数据的计算,可以利用
Figure 379899DEST_PATH_IMAGE038
计算模型训练对应的预测能耗开销
Figure 937920DEST_PATH_IMAGE015
,并可以利用
Figure 263859DEST_PATH_IMAGE039
计算模型训练对应的碳排放当量
Figure 426987DEST_PATH_IMAGE018
。其中,
Figure 547390DEST_PATH_IMAGE019
为第i类设备的个数,
Figure 61548DEST_PATH_IMAGE020
为第i类设备的设备线程理论占用率,
Figure 922669DEST_PATH_IMAGE021
为第i类设备的额定功率,
Figure 940303DEST_PATH_IMAGE022
为预估时间,
Figure 231607DEST_PATH_IMAGE023
为服务器对应的电源使用效率,
Figure 967482DEST_PATH_IMAGE024
为服务器对应的碳强度,
Figure 635224DEST_PATH_IMAGE025
为数据中心碳抵消系数。
通过上述方式可以实现对模型训练的预测能耗数据的准确计算。
本申请实施例提供的一种模型训练能耗计算方法,还可以包括:
获取服务器的操作系统版本、python版本及服务器的内存大小。
在本申请中,模型训练能耗计算系统还可以获取服务器的操作系统版本、python版本及服务器的内存大小,以便于将这些信息也写入到模型训练能耗报告中。
其中,操作系统版本信息可以依赖python package import platform实现;python是实现模型训练的软件,操作系统版本和python版本的获取可以便于相关人员获知模型具体是在何种环境下进行训练的,从而便于给训练完成的模型的应用带来参考;内存大小等相关信息的获取依赖python package import psutil实现,内存大小的获取可以便于相关人员获取服务器内存情况等。
本申请实施例提供的一种模型训练能耗计算方法,还可以包括:
获取模型训练对应的进程号、服务器中参与模型训练的设备的设备号;
获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,可以包括:
当接收到能耗计算指令时,根据设备号获取服务器中参与模型训练的各类设备的个数;
采集模型训练的过程中各类设备的运行参数,可以包括:
根据进程号,采集模型训练的过程中各类设备的运行参数。
具体可以参见图4,其示出了本申请实施例提供的模型训练能耗计算系统应用示例图。在本申请中,模型训练能耗计算系统实现模型训练能耗计算的程序可以直接嵌入在模型训练的脚本中,在模型训练脚本中启动多进程同时启动模型训练能耗计算的程序和模型训练的过程。也即在此情况下,在模型训练开始时,模型训练能耗计算系统可以同时开始获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,并获取服务器对应的碳电信息,且开始采集模型训练的过程中各类设备的运行参数,以进行模型训练能耗计算。
当然,模型训练能耗计算的程序也可以独立于模型训练脚本使用,在此情况下,在模型训练的过程中,需要进行模型训练能耗计算时,则需要进行人为手动启动模型训练能耗计算系统,也即需要像模型训练能耗计算系统发送能耗计算指令,以使得模型训练能耗计算系统进行模型训练对应的能耗数据的计算。且,为了成功进行模型训练对应的能耗数据的计算,则模型训练脚本需要向模型训练能耗计算系统发送模型训练对应的进程号、服务器中国参与模型训练的设备的设备号,以便于基于这些信息进行模型训练对应的能耗数据的计算。具体地,模型训练能耗计算系统可以获取模型训练对应的进程号、服务器中参与所述模型训练的设备的设备号。相应地,在此情况下,模型训练能耗计算系统在获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数时,具体可以当接收到能耗计算指令时,根据设备号获取服务器中参与模型训练的各类设备的个数,且,在采集模型训练的过程中各类设备的运行参数时,具体可以根据进程号采集模型训练的过程中各类设备的运行参数。
本申请实施例还提供了一种模型训练能耗计算装置,参见图5,其示出了本申请实施例提供的一种模型训练能耗计算装置的结构示意图,可以包括:
第一获取模块51,用于获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,并获取服务器对应的碳电信息;
采集模块52,用于采集模型训练的过程中各类设备的运行参数;
第一计算模块53,用于根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。
本申请实施例提供的一种模型训练能耗计算装置,采集模块52可以包括:
第一采集单元,用于每隔预设时间间隔采集模型训练的过程中各类设备的功率、运行时长及设备线程占用率;
第一计算模块53可以包括:
第一计算单元,用于计算各类设备的平均功率、设备线程平均占用率;
第二计算单元,用于根据各类设备的个数、各类设备的平均功率、各类设备的设备线程平均占用率、各类设备的运行时长及碳电信息,计算模型训练对应的能耗数据。
本申请实施例提供的一种模型训练能耗计算装置,第二计算单元可以包括:
第一计算子单元,用于利用
Figure 507365DEST_PATH_IMAGE040
,计算模型训练对应的能耗开销
Figure 235150DEST_PATH_IMAGE002
第二计算子单元,用于利用
Figure 458320DEST_PATH_IMAGE028
,计算模型训练对应的碳排放当量
Figure 664174DEST_PATH_IMAGE005
其中,
Figure 656401DEST_PATH_IMAGE006
为第i类设备的个数,
Figure 555086DEST_PATH_IMAGE007
为第i类设备的设备线程平均占用率,
Figure 796712DEST_PATH_IMAGE008
为第i类设备的平均功率,
Figure 806256DEST_PATH_IMAGE009
为第i类设备的运行时长,
Figure 918569DEST_PATH_IMAGE010
为服务器对应的电源使用效率,
Figure 722577DEST_PATH_IMAGE011
为服务器对应的碳强度,
Figure 654761DEST_PATH_IMAGE012
为数据中心碳抵消系数。
本申请实施例提供的一种模型训练能耗计算装置,当设备包括CPU和/或GPU时,采集单元可以包括:
采集子单元,用于每隔预设时间间隔调用CPU和/或GPU对应第三方工具,利用CPU和/或GPU对应的第三方工具采集模型训练的过程中相应设备的功率、运行时长及设备线程占用率。
本申请实施例提供的一种模型训练能耗计算装置,第一获取模块51可以包括:
第一获取单元,用于在线获取服务器的地理位置信息;
第二获取单元,用于根据服务器的地理位置信息获取服务器对应的碳电信息。
本申请实施例提供的一种模型训练能耗计算装置,第一获取单元可以包括:
获取子单元,用于利用geojs API通过获取服务器的地理位置信息。
本申请实施例提供的一种模型训练能耗计算装置,第一获取模块51可以包括:
存储单元,用于预先将地理位置信息、数据中心信息与碳电信息的映射关系存储在本地;
第三获取单元,用于获取服务器的地理位置信息,或者,获取服务器的地理位置信息及服务器所在的数据中心的信息;
第四获取单元,用于根据存储在本地的映射关系及服务器的地理位置信息,或者根据存储在本地的映射关系、服务器的地理位置信息及服务器所在的数据中心的信息,获取服务器对应的碳电信息。
本申请实施例提供的一种模型训练能耗计算装置,还可以包括:
第二获取模块,用于获取各类设备的静态信息;静态信息可以包括设备的名称、型号、额定功率、额定计算性能。
本申请实施例提供的一种模型训练能耗计算装置,还可以包括:
第三获取模块,用于获取模型训练对应的模型参数信息,根据模型参数信息得到模型的总计算量;
得到模块,用于根据模型的总计算量及各类设备的额定计算性能,得到完成模型的总计算量的预估时间;
第二计算模块,用于根据各类设备的个数、各类设备的额定功率、各类设备的设备线程理论占用率、预估时间及碳电信息,计算模型训练的预测能耗数据。
本申请实施例提供的一种模型训练能耗计算装置,第二计算模块可以包括:
第三计算单元,用于利用
Figure 202417DEST_PATH_IMAGE041
,计算模型训练对应的预测能耗开销
Figure 455323DEST_PATH_IMAGE015
第四计算单元,用于利用
Figure 164653DEST_PATH_IMAGE043
,计算模型训练对应的碳排放当量
Figure 584133DEST_PATH_IMAGE018
其中,
Figure 935480DEST_PATH_IMAGE019
为第i类设备的个数,
Figure 960067DEST_PATH_IMAGE020
为第i类设备的设备线程理论占用率,
Figure 168195DEST_PATH_IMAGE021
为第i类设备的额定功率,
Figure 278233DEST_PATH_IMAGE022
为预估时间,
Figure 167692DEST_PATH_IMAGE023
为服务器对应的电源使用效率,
Figure 109103DEST_PATH_IMAGE024
为服务器对应的碳强度,
Figure 425815DEST_PATH_IMAGE025
为数据中心碳抵消系数。
本申请实施例提供的一种模型训练能耗计算装置,还可以包括:
第四获取模块,用于获取服务器的操作系统版本、python版本及服务器的内存大小。
本申请实施例提供的一种模型训练能耗计算装置,还可以包括:
第五获取模块,用于获取模型训练对应的进程号、服务器中参与模型训练的设备的设备号;
第一获取模块51可以包括:
第五获取单元,用于当接收到能耗计算指令时,根据设备号获取服务器中参与模型训练的各类设备的个数;
采集模块52可以包括:
第二采集单元,用于根据进程号,采集模型训练的过程中各类设备的运行参数。
本申请实施例还提供了一种模型训练能耗计算系统,参见图6,其示出了本申请实施例提供的一种模型训练能耗计算系统的结构示意图,可以包括:
设备信息收集器,用于获取用于进行模型训练的服务器中参与模型训练的各类设备的个数;
碳排放信息收集器,用于获取服务器对应的碳电信息;
硬件设备实时采样器,用于采集模型训练的过程中各类设备的运行参数;
碳排放/能耗信息输出器,用于根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。
本申请所提供的模型训练能耗计算系统可以包括设备信息收集器、碳排放信息收集器、硬件设备实时采样器(sampler模块)及碳排放/能耗信息输出器,其中,设备信息收集器主要负责收集设备的静态信息,设备信息收集器,用于获取用于进行模型训练的服务器中参与模型训练的各类设备的个数;碳排放信息收集器,用于获取服务器对应的碳电信息;硬件设备实时采样器,用于采集模型训练的过程中各类设备的运行参数;碳排放/能耗信息输出器,用于根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。系统各器件主要逻辑和执行流程如图7所示,其示出了模型训练能耗计算系统各器件逻辑关系及执行流程示意图。在进行模型训练能耗计算时,首先为设备信息收集器和碳排放信息收集器配置相关静态参数,然后,开启多进程同时启动模型训练和模型训练能耗计算系统。
本申请实施例提供的一种模型训练能耗计算系统,硬件设备实时采样器,具体用于每隔预设时间间隔采集模型训练的过程中各类设备的功率、运行时长及设备线程占用率;计算各类设备的平均功率、设备线程平均占用率;
碳排放/能耗信息输出器,具体用于根据各类设备的个数、各类设备的平均功率、各类设备的设备线程平均占用率、各类设备的运行时长及碳电信息,计算模型训练对应的能耗数据。
其中,硬件设备实时采样器可按照设置的预设时间间隔(例如5秒间隔)进行周期性采样,并完成采样数据的汇总统计,在模型训练过程结束后,硬件设备实时采样器结束采样,并将汇总的数据传输给碳排放/能耗信息输出器,最后碳排放/能耗信息输出器计算并输出模型训练的能耗数据。具体地,硬件设备实时采样器主要负责监测各类设备,对重要信息进行采样(具体为功率、运行时长及设备线程占用率等)。
本申请实施例提供的一种模型训练能耗计算系统,碳排放/能耗信息输出器,具体用于利用
Figure 819887DEST_PATH_IMAGE044
,计算模型训练对应的能耗开销
Figure 513037DEST_PATH_IMAGE002
;利用
Figure 105692DEST_PATH_IMAGE028
,计算模型训练对应的碳排放当量
Figure 858884DEST_PATH_IMAGE005
;其中,
Figure 740253DEST_PATH_IMAGE006
为第i类设备的个数,
Figure 968584DEST_PATH_IMAGE007
为第i类设备的设备线程平均占用率,
Figure 619008DEST_PATH_IMAGE008
为第i类设备的平均功率,
Figure 277523DEST_PATH_IMAGE009
为第i类设备的运行时长,
Figure 646187DEST_PATH_IMAGE010
为服务器对应的电源使用效率,
Figure 681139DEST_PATH_IMAGE011
为服务器对应的碳强度,
Figure 982808DEST_PATH_IMAGE012
为数据中心碳抵消系数。
在本申请中,碳排放/能耗信息输出器可以通过上述提及的能耗评估理论计算模型计算并输出模型训练对应的能耗开销
Figure 281065DEST_PATH_IMAGE002
和碳排放当量
Figure 933763DEST_PATH_IMAGE005
本申请实施例提供的一种模型训练能耗计算系统,当设备包括CPU和/或GPU时,硬件设备实时采样器,具体用于每隔预设时间间隔调用CPU和/或GPU对应第三方工具,利用CPU和/或GPU对应的第三方工具采集模型训练的过程中相应设备的功率、运行时长及设备线程占用率。
硬件设备实时采样器主要包含硬件信息采样器以及采样调度器两部分,其中,硬件信息采样器调用设备信息收集器对应的第三方工具实时获取硬件设备运行功率、运行时长、占用率等相关信息;采样调度器负责处理采样频率,主要用于周期性调度硬件信息采样器进行采样,并计算采样均值、方差等统计量。也即,硬件设备实时采样器主要使用硬件设备相关工具对重要信息进行采样,并处理采样频率,计算采样均值、方差等统计量。
本申请实施例提供的一种模型训练能耗计算系统,碳排放信息收集器,具体用于在线获取服务器的地理位置信息;根据服务器的地理位置信息获取服务器对应的碳电信息。
本申请实施例提供的一种模型训练能耗计算系统,碳排放信息收集器,具体用于利用geojs API通过获取服务器的地理位置信息。
本申请实施例提供的一种模型训练能耗计算系统,碳排放信息收集器,具体用于预先将地理位置信息、数据中心信息与碳电信息的映射关系存储在本地;获取服务器的地理位置信息,或者,获取服务器的地理位置信息及服务器所在的数据中心的信息;根据存储在本地的映射关系、服务器的地理位置信息,或者根据存储在本地的映射关系、服务器的地理位置信息及服务器所在的数据中心的信息,获取服务器对应的碳电信息。
在本申请中,碳排放信息收集器支持使用两类数据收集碳电信息:在线数据和本地静态数据,其中,在线数据指支持在线获取地理位置信息,主要依赖geojs API通过request方法获取ip地址的实际物理地址;本地静态数据主要包括硬件设备信息、数据中心相关信息和地理位置相关信息与碳电信息的对应关系,存储于本地。基于本地数据可以实现地理位置信息到碳电信息的映射,从而获取此次模型训练的碳电信息。
本申请实施例提供的一种模型训练能耗计算系统,设备信息收集器,还用于获取各类设备的静态信息;静态信息可以包括设备的名称、型号、额定功率、额定计算性能。
本申请实施例提供的一种模型训练能耗计算系统,碳排放/能耗信息输出器,还用于获取模型训练对应的模型参数信息,根据模型参数信息得到模型的总计算量;根据模型的总计算量及各类设备的额定计算性能,得到完成模型的总计算量的预估时间;根据各类设备的个数、各类设备的额定功率、各类设备的设备线程理论占用率、预估时间及碳电信息,计算模型训练的预测能耗数据。
本申请实施例提供的一种模型训练能耗计算系统,碳排放/能耗信息输出器,具体用于利用
Figure DEST_PATH_IMAGE046
,计算模型训练对应的预测能耗开销
Figure 975669DEST_PATH_IMAGE015
;利用
Figure 335106DEST_PATH_IMAGE047
,计算模型训练对应的碳排放当量
Figure 601002DEST_PATH_IMAGE018
;其中,
Figure 678680DEST_PATH_IMAGE019
为第i类设备的个数,
Figure 321013DEST_PATH_IMAGE020
为第i类设备的设备线程理论占用率,
Figure 597274DEST_PATH_IMAGE021
为第i类设备的额定功率,
Figure 34072DEST_PATH_IMAGE022
为预估时间,
Figure 599045DEST_PATH_IMAGE023
为服务器对应的电源使用效率,
Figure 513911DEST_PATH_IMAGE024
为服务器对应的碳强度,
Figure 110590DEST_PATH_IMAGE025
为数据中心碳抵消系数。
在本申请中,碳排放/能耗信息输出器可以实现模型训练能耗数据预测和能耗数据监测两种功能,其中,预测模式不需要真正执行模型训练任务,仅需要输入相关数据即可完成计算;监测模式需要执行模型训练的代码,详细测量模型训练的相关数据,并根据相关数据进行计算,具有较强的准确率。
本申请实施例提供的一种模型训练能耗计算系统,设备信息收集器,还用于获取服务器的操作系统版本、python版本及服务器的内存大小。
本申请实施例提供的一种模型训练能耗计算系统,设备信息收集器,还用于获取模型训练对应的进程号、服务器中参与模型训练的设备的设备号;并具体用于当接收到能耗计算指令时,根据设备号获取服务器中参与模型训练的各类设备的个数;
硬件设备实时采样器,具体用于根据进程号,采集模型训练的过程中各类设备的运行参数。
本申请实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,并获取服务器对应的碳电信息;采集模型训练的过程中各类设备的运行参数;根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。
该可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的一种模型训练能耗计算装置、系统及可读存储介质中相关部分的说明可以参见本申请实施例提供的一种模型训练能耗计算方法中相关部分的详细说明,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种模型训练能耗计算方法,其特征在于,包括:
获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数,并获取所述服务器对应的碳电信息;
采集所述模型训练的过程中各类所述设备的运行参数;
根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据。
2.根据权利要求1所述的模型训练能耗计算方法,其特征在于,采集所述模型训练的过程中各类所述设备的运行参数,包括:
每隔预设时间间隔采集所述模型训练的过程中各类所述设备的功率、运行时长及设备线程占用率;
根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据,包括:
计算各类所述设备的平均功率、设备线程平均占用率;
根据各类所述设备的个数、各类所述设备的平均功率、各类所述设备的设备线程平均占用率、各类所述设备的运行时长及所述碳电信息,计算所述模型训练对应的能耗数据。
3.根据权利要求2所述的模型训练能耗计算方法,其特征在于,根据各类所述设备的个数、各类所述设备的平均功率、各类所述设备的设备线程平均占用率、各类所述设备的运行时长及所述碳电信息,计算所述模型训练对应的能耗数据,包括:
利用
Figure DEST_PATH_IMAGE001
,计算所述模型训练对应的能耗开销
Figure 947638DEST_PATH_IMAGE002
利用
Figure 555337DEST_PATH_IMAGE003
,计算所述模型训练对应的碳排放当量
Figure 466661DEST_PATH_IMAGE004
其中,
Figure 185218DEST_PATH_IMAGE005
为第i类设备的个数,
Figure 763967DEST_PATH_IMAGE006
为第i类设备的设备线程平均占用率,
Figure 339305DEST_PATH_IMAGE007
为第i类设备的平均功率,
Figure 878871DEST_PATH_IMAGE008
为第i类设备的运行时长,
Figure 24288DEST_PATH_IMAGE009
为所述服务器对应的电源使用效率,
Figure 332910DEST_PATH_IMAGE010
为所述服务器对应的碳强度,
Figure 141466DEST_PATH_IMAGE011
为数据中心碳抵消系数。
4.根据权利要求2所述的模型训练能耗计算方法,其特征在于,当所述设备包括CPU和/或GPU时,则每隔预设时间间隔采集所述模型训练的过程中各类所述设备的功率、运行时长及设备线程占用率,包括:
每隔预设时间间隔调用CPU和/或GPU对应第三方工具,利用CPU和/或GPU对应的第三方工具采集所述模型训练的过程中相应设备的功率、运行时长及设备线程占用率。
5.根据权利要求1所述的模型训练能耗计算方法,其特征在于,获取所述服务器对应的碳电信息,包括:
在线获取所述服务器的地理位置信息;
根据所述服务器的地理位置信息获取所述服务器对应的碳电信息。
6.根据权利要求5所述的模型训练能耗计算方法,其特征在于,在线获取所述服务器的地理位置信息,包括:
利用geojs API通过获取所述服务器的地理位置信息。
7.根据权利要求1所述的模型训练能耗计算方法,其特征在于,获取所述服务器对应的碳电信息,包括:
预先将地理位置信息、数据中心信息与碳电信息的映射关系存储在本地;
获取所述服务器的地理位置信息,或者,获取所述服务器的地理位置信息及所述服务器所在的数据中心的信息;
根据存储在本地的所述映射关系及所述服务器的地理位置信息,或者根据存储在本地的所述映射关系、所述服务器的地理位置信息及所述服务器所在的数据中心的信息,获取所述服务器对应的碳电信息。
8.根据权利要求1所述的模型训练能耗计算方法,其特征在于,还包括:
获取各类所述设备的静态信息;所述静态信息包括所述设备的名称、型号、额定功率、额定计算性能。
9.根据权利要求8所述的模型训练能耗计算方法,其特征在于,还包括:
获取所述模型训练对应的模型参数信息,根据所述模型参数信息得到模型的总计算量;
根据所述模型的总计算量及各类所述设备的额定计算性能,得到完成所述模型的总计算量的预估时间;
根据各类所述设备的个数、各类所述设备的额定功率、各类所述设备的设备线程理论占用率、所述预估时间及所述碳电信息,计算所述模型训练的预测能耗数据。
10.根据权利要求9所述的模型训练能耗计算方法,其特征在于,根据各类所述设备的个数、各类所述设备的额定功率、各类所述设备的设备线程理论占用率、所述预估时间及所述碳电信息,计算所述模型训练的预测能耗数据,包括:
利用
Figure 902748DEST_PATH_IMAGE012
,计算所述模型训练对应的预测能耗开销
Figure DEST_PATH_IMAGE013
利用
Figure 618900DEST_PATH_IMAGE014
,计算所述模型训练对应的碳排放当量
Figure 782028DEST_PATH_IMAGE015
其中,
Figure 27065DEST_PATH_IMAGE016
为第i类设备的个数,
Figure 275644DEST_PATH_IMAGE017
为第i类设备的设备线程理论占用率,
Figure 765793DEST_PATH_IMAGE018
为第i类设备的额定功率,
Figure 580165DEST_PATH_IMAGE019
为所述预估时间,
Figure 137049DEST_PATH_IMAGE020
为所述服务器对应的电源使用效率,
Figure 997557DEST_PATH_IMAGE021
为所述服务器对应的碳强度,
Figure 399720DEST_PATH_IMAGE022
为数据中心碳抵消系数。
11.根据权利要求1所述的模型训练能耗计算方法,其特征在于,还包括:
获取所述服务器的操作系统版本、python版本及所述服务器的内存大小。
12.根据权利要求1所述的模型训练能耗计算方法,其特征在于,还包括:
获取所述模型训练对应的进程号、所述服务器中参与所述模型训练的设备的设备号;
获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数,包括:
当接收到能耗计算指令时,根据所述设备号获取所述服务器中参与所述模型训练的各类所述设备的个数;
采集所述模型训练的过程中各类所述设备的运行参数,包括:
根据所述进程号,采集所述模型训练的过程中各类所述设备的运行参数。
13.一种模型训练能耗计算装置,其特征在于,包括:
第一获取模块,用于获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数,并获取所述服务器对应的碳电信息;
采集模块,用于采集所述模型训练的过程中各类所述设备的运行参数;
第一计算模块,用于根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据。
14.一种模型训练能耗计算系统,其特征在于,包括:
设备信息收集器,用于获取用于进行模型训练的服务器中参与所述模型训练的各类设备的个数;
碳排放信息收集器,用于获取所述服务器对应的碳电信息;
硬件设备实时采样器,用于采集所述模型训练的过程中各类所述设备的运行参数;
碳排放/能耗信息输出器,用于根据各类所述设备的个数、各类所述设备的运行参数及所述碳电信息,计算所述模型训练对应的能耗数据。
15.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的模型训练能耗计算方法的步骤。
CN202211430795.0A 2022-11-16 2022-11-16 一种模型训练能耗计算方法、装置、系统及可读存储介质 Active CN115495702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211430795.0A CN115495702B (zh) 2022-11-16 2022-11-16 一种模型训练能耗计算方法、装置、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211430795.0A CN115495702B (zh) 2022-11-16 2022-11-16 一种模型训练能耗计算方法、装置、系统及可读存储介质

Publications (2)

Publication Number Publication Date
CN115495702A true CN115495702A (zh) 2022-12-20
CN115495702B CN115495702B (zh) 2023-04-07

Family

ID=85115815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211430795.0A Active CN115495702B (zh) 2022-11-16 2022-11-16 一种模型训练能耗计算方法、装置、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN115495702B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974772A (zh) * 2023-09-21 2023-10-31 阿里云计算有限公司 一种针对大语言模型的资源优化和碳减排方法及设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009030124A1 (fr) * 2007-09-06 2009-03-12 Huawei Technologies Co., Ltd. Procede, dispositif et systeme de recherche de modele multimedia
US20170077701A1 (en) * 2015-09-11 2017-03-16 Paul Joseph Meier Modeling system for energy systems
CN108595301A (zh) * 2018-03-26 2018-09-28 中国科学院计算技术研究所 一种基于机器学习的服务器能耗预测方法和系统
WO2021051945A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质
US20210248523A1 (en) * 2020-02-10 2021-08-12 Cascadia Carbon Inc. Distributed ledger platform for tracking crowdsourced and individual-based carbon offsets in real time
WO2022053794A2 (en) * 2020-09-08 2022-03-17 Measurable Ltd Power socket for reducing wastage of electrical energy and related aspects
WO2022101658A1 (en) * 2020-11-11 2022-05-19 Telefonaktiebolaget Lm Ericsson (Publ) Estimating a total energy consumption of a user equipment
CN114881165A (zh) * 2022-05-24 2022-08-09 大连理工大学 一种基于随机森林的碳强度关键影响因子识别方法
CN115145709A (zh) * 2022-07-19 2022-10-04 华南师范大学 低碳大数据人工智能方法和医康养生态系统
US20220343229A1 (en) * 2021-04-27 2022-10-27 Gevo, Inc. Systems and methods for automatic carbon intensity calculation and tracking
CN115310770A (zh) * 2022-07-12 2022-11-08 中国电力科学研究院有限公司 一种计及碳交易机制的新型混合储能优化配置方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799850A (zh) * 2021-02-26 2021-05-14 重庆度小满优扬科技有限公司 模型的训练方法、模型的预测方法以及模型的控制系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009030124A1 (fr) * 2007-09-06 2009-03-12 Huawei Technologies Co., Ltd. Procede, dispositif et systeme de recherche de modele multimedia
US20170077701A1 (en) * 2015-09-11 2017-03-16 Paul Joseph Meier Modeling system for energy systems
CN108595301A (zh) * 2018-03-26 2018-09-28 中国科学院计算技术研究所 一种基于机器学习的服务器能耗预测方法和系统
WO2021051945A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质
US20210248523A1 (en) * 2020-02-10 2021-08-12 Cascadia Carbon Inc. Distributed ledger platform for tracking crowdsourced and individual-based carbon offsets in real time
WO2022053794A2 (en) * 2020-09-08 2022-03-17 Measurable Ltd Power socket for reducing wastage of electrical energy and related aspects
WO2022101658A1 (en) * 2020-11-11 2022-05-19 Telefonaktiebolaget Lm Ericsson (Publ) Estimating a total energy consumption of a user equipment
US20220343229A1 (en) * 2021-04-27 2022-10-27 Gevo, Inc. Systems and methods for automatic carbon intensity calculation and tracking
CN114881165A (zh) * 2022-05-24 2022-08-09 大连理工大学 一种基于随机森林的碳强度关键影响因子识别方法
CN115310770A (zh) * 2022-07-12 2022-11-08 中国电力科学研究院有限公司 一种计及碳交易机制的新型混合储能优化配置方法及系统
CN115145709A (zh) * 2022-07-19 2022-10-04 华南师范大学 低碳大数据人工智能方法和医康养生态系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MAAMRI MOKHTAR等: "Reduction of the CO2 emission in an electrical network by the integration of renewable resources to protect the environment", 《2016 7TH INTERNATIONAL RENEWABLE ENERGY CONGRESS (IREC)》 *
傅翠娇等: "采用机器学习算法的软件能耗感知模型及其应用", 《西安交通大学学报》 *
崔盼盼等: "中国省域隐含碳排放及其驱动机理时空演变分析", 《自然资源学报》 *
张英杰等: "基于滚动时间窗的PSO-LSSVM的通信基站能耗建模", 《湖南大学学报(自然科学版)》 *
邓维等: "云计算数据中心的新能源应用:研究现状与趋势", 《计算机学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974772A (zh) * 2023-09-21 2023-10-31 阿里云计算有限公司 一种针对大语言模型的资源优化和碳减排方法及设备
CN116974772B (zh) * 2023-09-21 2024-02-27 阿里云计算有限公司 一种针对大语言模型的资源优化和碳减排方法及设备

Also Published As

Publication number Publication date
CN115495702B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Anthony et al. Carbontracker: Tracking and predicting the carbon footprint of training deep learning models
US20110191773A1 (en) System and Method for Datacenter Power Management
CN109461023B (zh) 流失用户挽回方法及装置、电子设备、存储介质
CN105184394B (zh) 基于配电网cps在线数据挖掘的优化控制方法
CN109243619B (zh) 预测模型的生成方法、装置及计算机可读存储介质
CN115495702B (zh) 一种模型训练能耗计算方法、装置、系统及可读存储介质
CN113296905B (zh) 调度方法、装置、电子设备、存储介质及软件产品
Yao et al. EAIS: Energy-aware adaptive scheduling for CNN inference on high-performance GPUs
CN110569190B (zh) 交易压力测试方法和装置、以及电子设备和可读存储介质
Cao et al. Data-driven flexibility assessment for internet data center towards periodic batch workloads
CN110147315A (zh) 并发性能测试方法、装置、计算机设备及存储介质
CN115543608A (zh) 有序用电用户基准负荷快速核算方法及装置
WO2015196885A1 (zh) 云计算系统的性能数据的采集与存储方法及装置
CN107368351B (zh) 一种虚拟机配置自动升级扩容方法和装置
US20140214826A1 (en) Ranking method and system
CN116307886A (zh) 一种企业生产状态的实时监测方法及装置
CN115358737A (zh) 一种云服务的计量计费方法、装置、设备及可读存储介质
Amaral et al. Kepler: A framework to calculate the energy consumption of containerized applications
CN103530190A (zh) 一种负载预测方法及装置
CN110955513A (zh) 一种服务资源的调度方法及系统
CN114416812A (zh) 数据统计方法、装置、电子设备及存储介质
CN113434034A (zh) 利用深度学习调整计算任务cpu频率的大型集群节能方法
CN113626340A (zh) 测试需求识别方法、装置、电子设备及存储介质
Colmant et al. Improving the energy efficiency of software systems for multi-core architectures
CN114138095B (zh) 互联网数据中心idc的功耗处理方法、设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant