CN115511186A - 一种深度学习训练时长的预测管理方法、装置及设备 - Google Patents

一种深度学习训练时长的预测管理方法、装置及设备 Download PDF

Info

Publication number
CN115511186A
CN115511186A CN202211196478.7A CN202211196478A CN115511186A CN 115511186 A CN115511186 A CN 115511186A CN 202211196478 A CN202211196478 A CN 202211196478A CN 115511186 A CN115511186 A CN 115511186A
Authority
CN
China
Prior art keywords
training
training duration
data
duration data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211196478.7A
Other languages
English (en)
Inventor
张书博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211196478.7A priority Critical patent/CN115511186A/zh
Publication of CN115511186A publication Critical patent/CN115511186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种深度学习训练时长的预测管理方法、装置及设备,所述方法用于预测管理深度学习GPU芯片的训练时长,包括步骤:获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据。通过上述技术方案,可解决目前目前人工智能云平台无法提供模型训练时长预测功能、深度学习GPU芯片算力空间伪占满的问题。

Description

一种深度学习训练时长的预测管理方法、装置及设备
技术领域
本发明涉及深度学习技术领域,尤其是指一种深度学习训练时长的预测管理方法、装置及设备。
背景技术
人工智能云平台可用于深度学习训练,在训练深度学习模型时,用户端希望云平台为用户提供模型训练时长预测的功能,这有助于用户计算使用时长与计费、了解模型本身的训练情况等,并希望对模型进行评判,以便对训练结果是否达到预期以及是否需要调优进行提示。
对于人工智能云平台,深度学习算力资源是比较贵重的,类似于GA100的GPU芯片的新型算力更为稀缺。目前对于深度学习训练模型的算力监控主要停留于传统算力GPU的指标项,比如GPU利用率、显存利用率、功率等。但对于新型算力GA100所提供的更细粒度的计算单元,目前一般无法做到更精确的监控,导致传统指标项超标时(比如利用率已经达到90%以上),但芯片实际还有很大的算力使用空间。
实际进行加压实验中,GRACT(即Graphics Engine图形引擎)指标项活跃度升高,GPU的利用率(即GPUTL)和功率(即POWER)等指标都能够达到很高数值,但真正进行计算工作的SM(即SMACT)和TensorCore(即TENSO)却没有利用起来;也就是说,图形输入进去、但参数计算并没有完全利用起来,从而出现伪占满情况导致资源浪费。
此外,实际加压实验中,对SM和TC这两个指标项加压时,此前的指标项仍处于较高状态,也验证了上述伪占满情形。
发明内容
为了解决上述技术问题,本发明提供了一种深度学习训练时长的预测管理方法、装置、设备和存储介质,所述深度学习训练时长的预测管理方法用于解决目前人工智能云平台无法提供模型训练时长预测功能、深度学习GPU芯片算力空间伪占满的问题。
为实现上述目的,本发明提供一种深度学习训练时长的预测管理方法,用于预测管理深度学习GPU芯片的训练时长,所述方法包括步骤:
获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;
获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
进一步的,所述卡尔曼滤波算法的公式为:
最终值=p*观察值+(1-p)预测值;
其中,观察值为所述实际监控训练时长数据,预测值为所述第一迭代训练时长数据,最终值为所述第二迭代训练时长数据,p为可调优的卡尔曼增益参数。
进一步的,所述方法还包括:
根据所述第二迭代训练时长数据获取所述LSTM预测模型的模型迭代准确度、平稳累积迭代数,所述平稳累积迭代数为损失函数不下降的累积迭代数;
对所述模型迭代准确度、所述平稳累积迭代数、所述第二迭代训练时长数据进行加权计算、生成加权打分分数;
根据所述加权打分分数、初始设置模型分数阈值判断是否触发模型调优。
进一步的,对所述模型迭代准确度、所述平稳累积迭代数、所述第二迭代训练时长数据进行加权计算、生成加权打分分数,具体包括:
获取准确度权重值a、训练时长权重值b、累积迭代数权重值c;其中,a+b+c=1,且a>b>c;
根据a、b、c三个权重值分别对所述模型迭代准确度、所述第二迭代训练时长数据、所述平稳累积迭代数进行加权计算,以生成所述加权打分分数。
进一步的,获取训练时长权重值b,具体包括:
根据所述第二迭代训练时长数据获取所述LSTM预测模型的模型参数与训练步长合理性数值、资源利用率数值;
根据所述模型参数与训练步长合理性数值、所述资源利用率数值获取所述训练时长权重值b。
进一步的,获取所述GPU芯片的实际训练时长数据集,具体包括:
获取数据中心GPU管理器对所述GPU芯片的实际监控数据训练集;
根据所述实际监控数据训练集生成所述实际训练时长数据集。
进一步的,根据所述实际监控数据训练集生成所述实际训练时长数据集,具体包括:
根据所述LSTM预测模型的数据分类信息将所述实际监控数据训练集存储到时间序列数据库中;
根据所述实际监控数据训练集获取所述GPU芯片的历史实际训练时长数据;
根据所述LSTM预测模型的LSTM模型框架、训练数据参数量级对所述历史实际训练时长数据进行分组、生成所述实际训练时长数据集。
本发明还提供一种深度学习训练时长的预测管理装置,用于实现前述所述的深度学习训练时长的预测管理方法,所述装置包括:
预测模型生成模块,用于获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
预测训练时长生成模块,用于根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;
训练时长修正模块,用于获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
本发明又提供一种计算机设备,包括存储器、处理器及计算机程序,所述计算机程序存储在所述存储器上并可在所述处理器上运行,所述处理器执行所述计算机程序时实现以下步骤:
获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;
获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
本发明再提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;
获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
本发明的上述技术方案,相比现有技术具有以下技术效果:
本发明中,预测管理方法用于预测管理深度学习GPU芯片的训练时长;其中,先获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;当进行深度学习模型训练时,首先根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;接着,获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据;
由此,可将第一次模型训练的训练时长预测值与GPU芯片的实际训练时长真实值按照权重进行调优,来尽量减少预测结果的误差与噪声,使预测值更加趋近真实、也能更好地作为入参传入到下一次的LSTM预测模型中进行迭代训练、预测下一次的深度学习训练时长;
此外,还可对模型准确度、训练时长、损失函数趋于稳定的迭代数进行加权打分,根据打分值来判断LSTM预测模型是否需要调优,以此得到准确度较高的训练模型,来减少深度学习资源与时间的浪费。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例一中深度学习训练时长的预测管理方法的流程示意图;
图2是本发明实际实施例中预测管理方法的系统架构图;
图3是本发明实际实施例中模型预测训练时长的流程示意图;
图4是本发明实施例二中深度学习训练时长的预测管理装置的结构框图;
图5为本发明实施例二中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一:
如图1所示,本发明实施例提供一种深度学习训练时长的预测管理方法,用于预测管理深度学习GPU芯片的训练时长,方法包括步骤:
S11获取GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
S12根据第一迭代训练时长数据、LSTM预测模型生成预测训练时长数据;
S2获取GPU芯片的实际监控训练时长数据,基于实际监控训练时长数据通过卡尔曼滤波算法对预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
在具体实施例中,预测管理方法用于预测管理深度学习GPU芯片的训练时长;其中,先获取GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;当进行深度学习模型训练时,首先根据第一迭代训练时长数据、LSTM预测模型生成预测训练时长数据;接着,获取GPU芯片的实际监控训练时长数据,基于实际监控训练时长数据通过卡尔曼滤波算法对预测训练时长数据进行修正计算、生成第二迭代训练时长数据;
由此,可将第一次模型训练的训练时长预测值与GPU芯片的实际训练时长真实值按照权重进行调优,来尽量减少预测结果的误差与噪声,使预测值更加趋近真实、也能更好地作为入参传入到下一次的LSTM预测模型中进行迭代训练、预测下一次的深度学习训练时长;
此外,还可对模型准确度、训练时长、损失函数趋于稳定的迭代数进行加权打分,根据打分值来判断LSTM预测模型是否需要调优,以此得到准确度较高的训练模型,来减少深度学习资源与时间的浪费。
在实际中,LSTM为长短期记忆网络。
TIGK为云环境监控解决方案,是Telegraf、Influx、Grafana、Kapacitor四种组件的组合。
telegraf为用于收集和报告指标的插件驱动服务器代理,其可安装在云中的所有主机中。
influxdb为一种时间序列数据库。
DCGM(即Data Center GPU Manager)为数据中心GPU管理器,是一种NVIDIA提供的GPU管理监控工具。
GA100为NVIDIATESLA-A100型号的GPU卡,其能够开启MIG模式的新型算力。
在一个优选的实施方式中,S2中,卡尔曼滤波算法的公式为:
最终值=p*观察值+(1-p)预测值;
其中,观察值为实际监控训练时长数据,预测值为第一迭代训练时长数据,最终值为第二迭代训练时长数据,p为可调优的卡尔曼增益参数。
在具体实施例中,卡尔曼滤波可简单理解为:最终值=p*观察值+(1-p)预测值,其中观察值为获取到的实际值,预测值为LSTM模型的预测值,p为卡尔曼增益,p是一个可以不断调优的参数,使最终值可以根据观察值与预测值得到更为趋近于真实的结果。
在一个优选的实施方式中,方法还包括:
S31根据第二迭代训练时长数据获取LSTM预测模型的模型迭代准确度、平稳累积迭代数,平稳累积迭代数为损失函数不下降的累积迭代数;
S32对模型迭代准确度、平稳累积迭代数、第二迭代训练时长数据进行加权计算、生成加权打分分数;
S33根据加权打分分数、初始设置模型分数阈值判断是否触发模型调优。
在具体实施例中,可对模型迭代准确度、平稳累积迭代数、第二迭代训练时长数据进行加权计算打分;若分数未达到预期,则触发调优提示。
由此,根据权重对模型进行打分来触发调优,以得到又快又好的模型结果,如模型的训练时长短、资源利用率高、模型准确度高,且减少资源与时间的浪费。
在一个优选的实施方式中,S32具体包括:
S321获取准确度权重值a、训练时长权重值b、累积迭代数权重值c;其中,a+b+c=1,且a>b>c;
S322根据a、b、c三个权重值分别对模型迭代准确度、第二迭代训练时长数据、平稳累积迭代数进行加权计算,以生成加权打分分数。
在实际实施例中,模型迭代准确度、平稳累积迭代数、第二迭代训练时长数据三个参数的权重值如下:
1)50%-准确度:准确度才是真正检查一个模型是否合格并投入使用的关键,准确度也会有瓶颈,需要事先设置准确度的可接受范围;
2)35%-训练时长:该训练时长为预测值,其中包含两个维度;一个维度是模型本身的参数与训练步长的合理性,其中参数与步长还会对准确度造成影响;另一个维度是对资源的利用情况,通过DCGM检测算力是否为伪占满,时长在物理上是否还有进一步缩短空间;
3)15%-损失函数趋于平稳的累积迭代数:损失函数趋于平稳意味着模型收敛接近完成,过早或过晚结束训练都可能由于欠拟合或过拟合对准确度造成影响,也会对训练时长以及资源是否浪费造成影响。
在一个优选的实施方式中,S321中,获取训练时长权重值b,具体包括:
根据第二迭代训练时长数据获取LSTM预测模型的模型参数与训练步长合理性数值、资源利用率数值;
根据模型参数与训练步长合理性数值、资源利用率数值获取训练时长权重值b。
在具体实施例中,第二迭代训练时长数据的训练时长权重值b包含两个维度;一个维度是模型本身的参数与训练步长的合理性,其中参数与步长还会对准确度造成影响;另一个维度是对资源的利用情况,通过DCGM检测算力是否为伪占满,时长在物理上是否还有进一步缩短空间。
在一个优选的实施方式中,S11中,获取GPU芯片的实际训练时长数据集,具体包括:
S111获取数据中心GPU管理器对GPU芯片的实际监控数据训练集;
S112根据实际监控数据训练集生成实际训练时长数据集。
在具体实施例中,通过DCGM对GA100的分析指标数据进行收集,主要包括:功率、GPU利用率、显存利用率、Graphics Engine、SM、TC等指标数据,以获得实际监控数据训练集。
在一个优选的实施方式中,S112具体包括:
S1121根据LSTM预测模型的数据分类信息将实际监控数据训练集存储到时间序列数据库中;
S1122根据实际监控数据训练集获取GPU芯片的历史实际训练时长数据;
S1123根据LSTM预测模型的LSTM模型框架、训练数据参数量级对历史实际训练时长数据进行分组、生成实际训练时长数据集。
在具体实施例中,可先配置influxdb(即时间序列数据库),按照模型数据分类将监控数据存储到influxdb中;
然后,再使用过去采集并存储的历史训练时长数据,按照模型的框架与参数量级进行分组、作为原始数据集,通过LSTM网络训练来得到预测模型。
综上,本发明实施例提供了一种深度学习训练时长预测调优的功能,通过引入DCGM(即数据中心GPU管理器)对GA100的监控值,来更精确地预测模型训练时长,并根据时长、利用率、准确度对模型进行相应调优。其可通过DCGM监控数据采集模块、初始设置管理模块、LSTM模型预测模块、模型调优模块等模块来实现。
具体的,先使用过去采集并存储的GA100卡训练时长数据按照模型的框架与参数量级进行分组作为原始数据集,通过LSTM网络训练得到预测模型;再根据采集到的DCGM对GA100的监控分析指标数据、迭代训练时长数据和训练好的LSTM模型,使用卡尔曼滤波算法对LSTM模型预测出的训练时长进行修正,计算出下个训练迭代的较优时长预测数据;接着,将当前迭代的模型准确度和损失函数不下降的累积迭代数与初始设置的阈值进行对比,按照训练时长与模型准确度进行加权打分,通过分数判断是否触发调优。
主要步骤包括:
1)GA100的训练数据集的收集,包括:模型框架、参数量级、算力数量、训练时长;
2)DCGM对GA100的分析指标数据进行收集,包括:功率、GPU利用率、显存利用率、Graphics Engine、SM、TC等;
3)对数据集进行训练,得到LSTM模型;
4)将训练好的LSTM模型投入训练时长预测,通过之前的时长预测出下一迭代的时长预测值;
5)使用卡尔曼滤波,结合预测值与实际监控值,对预测值进行修正,并传入到下一迭代的LSTM计算中;
6)将获取到的训练时长预测值与模型当前迭代准确度、损失函数不下降的累积迭代数做加权打分;
7)若分数未达到预期,则触发调优提示。
上述深度学习训练时长的预测管理方法面向云平台GA100算力深度学习训练、基于DCGM监控细粒度计算单元的提示功能,可预测模型训练时长,并可加权打分判断是否调优。
具体的,通过使用DCGM对GA100算力细粒度计算单元使用情况的监控,来减少算力伪占满的情况,提高算力使用率、降低模型训练时长。可对模型训练时长进行预测,通过对模型准确度、训练时长、损失函数趋于稳定的迭代数加权打分,判断模型是否需要调优,在得到模型较高准确度的前提下,减少资源与时间的浪费。
在实际实施例中,深度学习训练时长的预测管理方法的实现,包括监控数据收集、监控数据存储、训练LSTM模型、设置配置项、LSTM预测、卡尔曼滤波修正、加权打分等步骤。
具体实施过程如下:
1.系统架构
1)在集群内所有需要监控的节点上安装telegraf组件、完成配置,并启动telegraf服务,收集DCGM对GA100的监控数据;
2)配置influxdb(即时间序列数据库),按照模型数据分类,将监控数据存储到influxdb中;
3)用训练好的模型对训练时长进行预测并展示公告;
4)对训练时长、模型准确度、损失函数不下降的累积迭代数进行加权打分。
上述系统架构图详见图2。
2.训练LSTM模型并预测训练时长
1)收集模型数据与监控数据
模型数据包括神经网络框架与参数量级。
监控项主要包括DCGM提供的GA100的分析指标,具体为:power_usage,gpu_ulitization,mem_copy_utilization,gr_engine_active,sm_active,sm_occupancy,tensor_active,dram_active。其中功率、GPU利用率、显存利用率为普通的监控项,Graphics Engine、SM活跃度、TC活跃度等是DCGM特有的对GA100的监控指标,可对真正进行深度学习计算的GPU细粒度单元的利用率进行评测。
2)使用LSTM神经网络,对采集到的监控数据训练集按照每种类型的框架和参数量级对时长结果进行训练,得到预测模型。
3)将训练得出的模型投入使用,依据当前迭代的DCGM监控数据均值与训练时长,对即将到来的下一迭代的训练时长进行预测,得到预测值。
4)以模型训练迭代为轴,将模型的时长预测值和到达下一迭代时得到的真实值代入卡尔曼滤波算法中,得到修正后的该迭代的最优预测值。同时卡尔曼增益可代入到之后其他数据集中继续使用。
选择卡尔曼滤波的目的,是为了将本轮的预测值与真实值按照权重调优,尽量减少预测结果的误差与噪声,使预测值更加趋近真实、也能更好地作为入参传入到下一轮的LSTM网络中进行预测。
其中,卡尔曼滤波可简单理解为:最终值=p*观察值+(1-p)预测值,其中观察值为获取到的实际值,预测值为LSTM模型的预测值,p为卡尔曼增益,p是一个可以不断调优的参数,使最终值可以根据观察值与预测值得到更为趋近于真实的结果。
5)将第4)步中得到的最优预测值作为输入、传入LSTM模型中,对下一迭代进行预测,通过迭代不断注入修正过的预测值和真实监控值,来得到更为准确的训练时长预测数据。
6)将预测时长展示给用户进行公告,并作为判断是否还有提升利用率、降低时长空间的指标,传入加权打分中。
上述训练LSTM模型并预测的实施流程详见图3。
3.加权打分
按照权重对模型进行打分,以得到又快又好的模型结果,如模型的训练时长短、资源利用率高、模型准确度高,且减少资源与时间的浪费。
1)50%-准确度:准确度才是真正检查一个模型是否合格并投入使用的关键,准确度也会有瓶颈,需要事先设置准确度的可接受范围。
2)35%-训练时长:该训练时长为预测值,其中包含两个维度;一个维度是模型本身的参数与训练步长的合理性,其中参数与步长还会对准确度造成影响;另一个维度是对资源的利用情况,通过DCGM检测算力是否为伪占满,时长在物理上是否还有进一步缩短空间。
3)15%-损失函数趋于平稳的累积迭代数:损失函数趋于平稳意味着模型收敛接近完成,过早或过晚结束训练都可能由于欠拟合或过拟合对准确度造成影响,也会对训练时长以及资源是否浪费造成影响。
需要注意的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二:
如图4所示,本发明实施例还提供一种深度学习训练时长的预测管理装置,用于实现前述的深度学习训练时长的预测管理方法,装置包括:
预测模型生成模块,用于获取GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
预测训练时长生成模块,用于根据第一迭代训练时长数据、LSTM预测模型生成预测训练时长数据;
训练时长修正模块,用于获取GPU芯片的实际监控训练时长数据,基于实际监控训练时长数据通过卡尔曼滤波算法对预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
在一个优选的实施方式中,训练时长修正模块包括卡尔曼滤波算法模块,卡尔曼滤波算法的公式为:
最终值=p*观察值+(1-p)预测值;
其中,观察值为实际监控训练时长数据,预测值为第一迭代训练时长数据,最终值为第二迭代训练时长数据,p为可调优的卡尔曼增益参数。
在一个优选的实施方式中,装置还包括:
加权打分参数获取模块,用于根据第二迭代训练时长数据获取LSTM预测模型的模型迭代准确度、平稳累积迭代数,平稳累积迭代数为损失函数不下降的累积迭代数;
加权打分计算模块,用于对模型迭代准确度、平稳累积迭代数、第二迭代训练时长数据进行加权计算、生成加权打分分数;
调优判断模块,用于根据加权打分分数、初始设置模型分数阈值判断是否触发模型调优。
在一个优选的实施方式中,加权打分计算模块包括加权打分参数权重值获取模块,其用于获取准确度权重值a、训练时长权重值b、累积迭代数权重值c;其中,a+b+c=1,且a>b>c;
加权打分计算模块还用于根据a、b、c三个权重值分别对模型迭代准确度、第二迭代训练时长数据、平稳累积迭代数进行加权计算,以生成加权打分分数。
在一个优选的实施方式中,加权打分参数权重值获取模块包括训练时长权重值获取模块,其用于:
根据第二迭代训练时长数据获取LSTM预测模型的模型参数与训练步长合理性数值、资源利用率数值;
以及根据模型参数与训练步长合理性数值、资源利用率数值获取训练时长权重值b。
在一个优选的实施方式中,预测模型生成模块包括实际训练时长数据集获取模块,其包括:
实际监控数据训练集获取模块,用于获取数据中心GPU管理器对GPU芯片的实际监控数据训练集;
实际训练时长数据集生成模块,用于根据实际监控数据训练集生成实际训练时长数据集。
在一个优选的实施方式中,实际训练时长数据集生成模块包括:
训练集存储模块,用于根据LSTM预测模型的数据分类信息将实际监控数据训练集存储到时间序列数据库中;
历史实际训练时长数据获取模块,用于根据实际监控数据训练集获取GPU芯片的历史实际训练时长数据;
实际训练时长数据集生成模块还用于根据LSTM预测模型的LSTM模型框架、训练数据参数量级对历史实际训练时长数据进行分组、生成实际训练时长数据集。
关于上述装置的具体限定,可以参见上文中对于方法的限定,在此不再赘述。
上述深度学习训练时长的预测管理装置的有益效果如下:
构建了一套完整的云平台深度学习训练时长预测与调优装置,通过使用训练LSTM模型结合卡尔曼滤波,对云平台训练时长进行预测,获取模型下一迭代训练时长;
通过对模型准确度、训练时长、损失函数趋于稳定的迭代数加权打分,判断模型是否需要调优,可提高算力的使用率,在得到模型较高准确度的前提下,可减少资源与时间的浪费。
上述装置中的各个模块,可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于、或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
其中,如图5所示,上述计算机设备可以是终端,其包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
可以理解的是,上述图中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例三:
本发明实施例又提供一种计算机设备,包括存储器、处理器及计算机程序,计算机程序存储在存储器上并可在处理器上运行,处理器执行计算机程序时实现以下步骤:
S11获取GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
S12根据第一迭代训练时长数据、LSTM预测模型生成预测训练时长数据;
S2获取GPU芯片的实际监控训练时长数据,基于实际监控训练时长数据通过卡尔曼滤波算法对预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
在一个优选的实施方式中,处理器执行计算机程序时还实现以下步骤:
S2中,通过如下卡尔曼滤波算法公式对预测训练时长数据进行修正计算:最终值=p*观察值+(1-p)预测值;其中,观察值为实际监控训练时长数据,预测值为第一迭代训练时长数据,最终值为第二迭代训练时长数据,p为可调优的卡尔曼增益参数。
在一个优选的实施方式中,处理器执行计算机程序时还实现以下步骤:
S31根据第二迭代训练时长数据获取LSTM预测模型的模型迭代准确度、平稳累积迭代数,平稳累积迭代数为损失函数不下降的累积迭代数;S32对模型迭代准确度、平稳累积迭代数、第二迭代训练时长数据进行加权计算、生成加权打分分数;S33根据加权打分分数、初始设置模型分数阈值判断是否触发模型调优。
在一个优选的实施方式中,处理器执行计算机程序时还实现以下步骤:
S32具体包括:S321获取准确度权重值a、训练时长权重值b、累积迭代数权重值c;其中,a+b+c=1,且a>b>c;S322根据a、b、c三个权重值分别对模型迭代准确度、第二迭代训练时长数据、平稳累积迭代数进行加权计算,以生成加权打分分数。
在一个优选的实施方式中,处理器执行计算机程序时还实现以下步骤:
S321中,获取训练时长权重值b,具体包括:根据第二迭代训练时长数据获取LSTM预测模型的模型参数与训练步长合理性数值、资源利用率数值;根据模型参数与训练步长合理性数值、资源利用率数值获取训练时长权重值b。
在一个优选的实施方式中,处理器执行计算机程序时还实现以下步骤:
S11中,获取GPU芯片的实际训练时长数据集,具体包括:S111获取数据中心GPU管理器对GPU芯片的实际监控数据训练集;S112根据实际监控数据训练集生成实际训练时长数据集。
在一个优选的实施方式中,处理器执行计算机程序时还实现以下步骤:
S112具体包括:S1121根据LSTM预测模型的数据分类信息将实际监控数据训练集存储到时间序列数据库中;S1122根据实际监控数据训练集获取GPU芯片的历史实际训练时长数据;S1123根据LSTM预测模型的LSTM模型框架、训练数据参数量级对历史实际训练时长数据进行分组、生成实际训练时长数据集。
实施例四:
本发明实施例再提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
S11获取GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
S12根据第一迭代训练时长数据、LSTM预测模型生成预测训练时长数据;
S2获取GPU芯片的实际监控训练时长数据,基于实际监控训练时长数据通过卡尔曼滤波算法对预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
在一个优选的实施方式中,计算机程序被处理器执行时还实现以下步骤:
S2中,通过如下卡尔曼滤波算法公式对预测训练时长数据进行修正计算:最终值=p*观察值+(1-p)预测值;其中,观察值为实际监控训练时长数据,预测值为第一迭代训练时长数据,最终值为第二迭代训练时长数据,p为可调优的卡尔曼增益参数。
在一个优选的实施方式中,计算机程序被处理器执行时还实现以下步骤:
S31根据第二迭代训练时长数据获取LSTM预测模型的模型迭代准确度、平稳累积迭代数,平稳累积迭代数为损失函数不下降的累积迭代数;S32对模型迭代准确度、平稳累积迭代数、第二迭代训练时长数据进行加权计算、生成加权打分分数;S33根据加权打分分数、初始设置模型分数阈值判断是否触发模型调优。
在一个优选的实施方式中,计算机程序被处理器执行时还实现以下步骤:
S32具体包括:S321获取准确度权重值a、训练时长权重值b、累积迭代数权重值c;其中,a+b+c=1,且a>b>c;S322根据a、b、c三个权重值分别对模型迭代准确度、第二迭代训练时长数据、平稳累积迭代数进行加权计算,以生成加权打分分数。
在一个优选的实施方式中,计算机程序被处理器执行时还实现以下步骤:
S321中,获取训练时长权重值b,具体包括:根据第二迭代训练时长数据获取LSTM预测模型的模型参数与训练步长合理性数值、资源利用率数值;根据模型参数与训练步长合理性数值、资源利用率数值获取训练时长权重值b。
在一个优选的实施方式中,计算机程序被处理器执行时还实现以下步骤:
S11中,获取GPU芯片的实际训练时长数据集,具体包括:S111获取数据中心GPU管理器对GPU芯片的实际监控数据训练集;S112根据实际监控数据训练集生成实际训练时长数据集。
在一个优选的实施方式中,计算机程序被处理器执行时还实现以下步骤:
S112具体包括:S1121根据LSTM预测模型的数据分类信息将实际监控数据训练集存储到时间序列数据库中;S1122根据实际监控数据训练集获取GPU芯片的历史实际训练时长数据;S1123根据LSTM预测模型的LSTM模型框架、训练数据参数量级对历史实际训练时长数据进行分组、生成实际训练时长数据集。
可以理解的是,上述实施例方法中的全部或部分流程的实现,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要注意的是,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其它等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种深度学习训练时长的预测管理方法,其特征在于,用于预测管理深度学习GPU芯片的训练时长,所述方法包括步骤:
获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;
获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
2.根据权利要求1所述的深度学习训练时长的预测管理方法,其特征在于,所述卡尔曼滤波算法的公式为:
最终值=p*观察值+(1-p)预测值;
其中,观察值为所述实际监控训练时长数据,预测值为所述第一迭代训练时长数据,最终值为所述第二迭代训练时长数据,p为可调优的卡尔曼增益参数。
3.根据权利要求2所述的深度学习训练时长的预测管理方法,其特征在于,所述方法还包括:
根据所述第二迭代训练时长数据获取所述LSTM预测模型的模型迭代准确度、平稳累积迭代数,所述平稳累积迭代数为损失函数不下降的累积迭代数;
对所述模型迭代准确度、所述平稳累积迭代数、所述第二迭代训练时长数据进行加权计算、生成加权打分分数;
根据所述加权打分分数、初始设置模型分数阈值判断是否触发模型调优。
4.根据权利要求3所述的深度学习训练时长的预测管理方法,其特征在于,对所述模型迭代准确度、所述平稳累积迭代数、所述第二迭代训练时长数据进行加权计算、生成加权打分分数,具体包括:
获取准确度权重值a、训练时长权重值b、累积迭代数权重值c;其中,a+b+c=1,且a>b>c;
根据a、b、c三个权重值分别对所述模型迭代准确度、所述第二迭代训练时长数据、所述平稳累积迭代数进行加权计算,以生成所述加权打分分数。
5.根据权利要求4所述的深度学习训练时长的预测管理方法,其特征在于,获取训练时长权重值b,具体包括:
根据所述第二迭代训练时长数据获取所述LSTM预测模型的模型参数与训练步长合理性数值、资源利用率数值;
根据所述模型参数与训练步长合理性数值、所述资源利用率数值获取所述训练时长权重值b。
6.根据权利要求1所述的深度学习训练时长的预测管理方法,其特征在于,获取所述GPU芯片的实际训练时长数据集,具体包括:
获取数据中心GPU管理器对所述GPU芯片的实际监控数据训练集;
根据所述实际监控数据训练集生成所述实际训练时长数据集。
7.根据权利要求1所述的深度学习训练时长的预测管理方法,其特征在于,根据所述实际监控数据训练集生成所述实际训练时长数据集,具体包括:
根据所述LSTM预测模型的数据分类信息将所述实际监控数据训练集存储到时间序列数据库中;
根据所述实际监控数据训练集获取所述GPU芯片的历史实际训练时长数据;
根据所述LSTM预测模型的LSTM模型框架、训练数据参数量级对所述历史实际训练时长数据进行分组、生成所述实际训练时长数据集。
8.一种深度学习训练时长的预测管理装置,其特征在于,用于实现如权利要求1-7任一项所述的深度学习训练时长的预测管理方法,所述装置包括:
预测模型生成模块,用于获取所述GPU芯片的实际训练时长数据集,并通过LSTM网络训练生成LSTM预测模型;
预测训练时长生成模块,用于根据第一迭代训练时长数据、所述LSTM预测模型生成预测训练时长数据;
训练时长修正模块,用于获取所述GPU芯片的实际监控训练时长数据,基于所述实际监控训练时长数据通过卡尔曼滤波算法对所述预测训练时长数据进行修正计算、生成第二迭代训练时长数据。
9.一种计算机设备,包括存储器、处理器及计算机程序,所述计算机程序存储在所述存储器上并可在所述处理器上运行,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的深度学习训练时长的预测管理方法的步骤。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的深度学习训练时长的预测管理方法的步骤。
CN202211196478.7A 2022-09-29 2022-09-29 一种深度学习训练时长的预测管理方法、装置及设备 Pending CN115511186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211196478.7A CN115511186A (zh) 2022-09-29 2022-09-29 一种深度学习训练时长的预测管理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211196478.7A CN115511186A (zh) 2022-09-29 2022-09-29 一种深度学习训练时长的预测管理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN115511186A true CN115511186A (zh) 2022-12-23

Family

ID=84507628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211196478.7A Pending CN115511186A (zh) 2022-09-29 2022-09-29 一种深度学习训练时长的预测管理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115511186A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720544A (zh) * 2023-08-04 2023-09-08 浪潮电子信息产业股份有限公司 基于异构计算系统的模型训练耗时预测方法、设备及系统
CN117192063A (zh) * 2023-11-06 2023-12-08 山东大学 基于耦合卡尔曼滤波数据同化的水质预测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720544A (zh) * 2023-08-04 2023-09-08 浪潮电子信息产业股份有限公司 基于异构计算系统的模型训练耗时预测方法、设备及系统
CN116720544B (zh) * 2023-08-04 2023-11-07 浪潮电子信息产业股份有限公司 基于异构计算系统的模型训练耗时预测方法、设备及系统
CN117192063A (zh) * 2023-11-06 2023-12-08 山东大学 基于耦合卡尔曼滤波数据同化的水质预测方法及系统
CN117192063B (zh) * 2023-11-06 2024-03-15 山东大学 基于耦合卡尔曼滤波数据同化的水质预测方法及系统

Similar Documents

Publication Publication Date Title
CN115511186A (zh) 一种深度学习训练时长的预测管理方法、装置及设备
US20230222362A1 (en) Data real-time monitoring method and apparatus based on machine learning
EP4080416A1 (en) Adaptive search method and apparatus for neural network
EP4080419A1 (en) Model training method and apparatus
CN111667010A (zh) 基于人工智能的样本评估方法、装置、设备及存储介质
CN113762486B (zh) 换流阀故障诊断模型的构建方法、装置和计算机设备
CN115356639B (zh) 一种双向锂离子电池智能健康监控方法及系统
CN112564951B (zh) 一种规避告警风暴的方法、装置、计算机设备和存储介质
CN115829297B (zh) 装配式建筑的工作包生成方法、装置、终端及存储介质
CN112132278A (zh) 模型压缩方法、装置、计算机设备及存储介质
CN112766724A (zh) 一种业务监控方法、装置及设备
CN114528688A (zh) 可靠性数字孪生体模型构建方法、装置和计算机设备
CN116489038A (zh) 网络流量的预测方法、装置、设备和介质
CN115964258A (zh) 基于多时序分析的物联网卡异常行为分级监测方法及系统
CN111311014A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN111078500A (zh) 运行配置参数的调整方法、装置、计算机设备和存储介质
CN112651172B (zh) 一种降雨峰值类型划分方法、装置、设备和存储介质
CN110704773B (zh) 基于频繁行为序列模式的异常行为检测方法及系统
CN113566831A (zh) 基于人机交互的无人机集群导航方法、装置和设备
CN117474091A (zh) 一种知识图谱构建方法、装置、设备及存储介质
CN102436535B (zh) 计算机辅助设计过程中创意拐点的识别方法及系统
CN115603955B (zh) 异常访问对象识别方法、装置、设备和介质
CN111679970A (zh) 机器人软件系统运行环境状态预测方法
CN116523001A (zh) 电网薄弱线路识别模型构建方法、装置和计算机设备
US20220243347A1 (en) Determination method and determination apparatus for conversion efficiency of hydrogen production by wind-solar hybrid electrolysis of water

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination