CN115953738A

CN115953738A - 一种图像识别分布式训练的监控方法、装置、设备及介质

Info

Publication number: CN115953738A
Application number: CN202310187259.0A
Authority: CN
Inventors: 廖金龙; 吴长平; 孙家飞
Original assignee: Shanghai Enflame Technology Co ltd
Current assignee: Shanghai Suiyuan Technology Co ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-04-11
Anticipated expiration: 2043-03-02
Also published as: CN115953738B

Abstract

本发明公开了图像识别分布式训练的监控方法、装置、设备及介质。包括采集每次图像识别分布式训练的时序数据；对时序数据进行时序特征提取获取初始样本数据；根据初始样本数据获取训练样本数据；根据训练样本数据构建图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控。通过对采集图像识别分布式训练过程中的样本建立图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控，预测当前图像识别分布式训练是否能顺利完成，在预测失败的情况下及时终止训练，根据所获取的故障类型及时进行调整，以提高图像识别分布式训练效率和训练的稳定性、可靠性，避免大量算力浪费在失败的训练中。

Description

一种图像识别分布式训练的监控方法、装置、设备及介质

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种图像识别分布式训练的监控方法、装置、设备及介质。

背景技术

由于加速卡的存储和算力受限，训练图像识别大模型时需要采用多张加速卡进行长时间的分布式训练。但在分布式训练模型过程中，任何因素的故障或者异常都会导致分布式训练的失败或中断。

但是针对目前的图像识别分布式训练过程，故障和异常通常难以排查定位从而影响训练效率，而分布式训练又需要训练较长时间才能收敛达到业务使用所需要的精度，如果无法完成长时间的训练会影响实际生产使用，也会导致大量的算力浪费在失败的训练中。

发明内容

本发明实施例提供一种图像识别分布式训练的监控方法、装置、设备及介质，以提高图像识别分布式训练过程的稳定性和可靠性。

第一方面，本发明实施例提供了一种图像识别分布式训练的监控方法，包括：采集每次图像识别分布式训练的时序数据；

对所述时序数据进行时序特征提取获取初始样本数据，其中，所述初始样本数据中包含多个时间步，并且各所述时间步中包含类型相同的时序特征；

根据所述初始样本数据获取训练样本数据，其中，所述训练样本数据中标注有每次图像识别分布式训练的训练结果；

根据所述训练样本数据构建图像识别分布式训练的监控模型，并采用所述监控模型对当前图像识别分布式训练过程进行监控。

第二方面，本发明实施例还提供了一种图像识别分布式训练的监控装置，包括：时序数据采集模块，用于采集每次图像识别分布式训练的时序数据；

时序特征提取模块，用于对所述时序数据进行时序特征提取获取初始样本数据，其中，所述初始样本数据中包含多个时间步，并且各所述时间步中包含类型相同的时序特征；

训练样本数据获取模块，用于根据所述初始样本数据获取训练样本数据，其中，所述训练样本数据中标注有每次图像识别分布式训练的训练结果；

图像识别分布式训练监控模块，用于根据所述训练样本数据构建图像识别分布式训练的监控模型，并采用所述监控模型对当前图像识别分布式训练过程进行监控。

第四方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如本发明任一实施例所述的方法。

第五方面，本发明实施例还提供了一种计算机可执行指令的存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明任一实施例所述的方法。

本发明通过对采集图像识别分布式训练过程中的样本建立图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控，预测当前图像识别分布式训练是否能顺利完成，在预测失败的情况下及时终止训练，根据所获取的故障类型及时进行调整，以提高图像识别分布式训练效率和训练的稳定性、可靠性，避免大量算力浪费在失败的训练中。

附图说明

图1是本发明实施一提供的一种的图像识别分布式训练的监控方法的流程图；

图2是本发明实施二提供的一种的图像识别分布式训练的监控方法的流程图；

图3是本发明实施例三提供的一种图像识别分布式训练的监控装置的结构示意图；

图4是本发明实施例四中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种图像识别分布式训练的监控方法的流程图，本实施例可适用于对图像识别分布式训练过程进行监控的情况，该方法可以由图像识别分布式训练的监控装置来执行，该装置可以由软件，和/或硬件（固件）的方式实现，具体包括如下步骤：

步骤S101，采集每次图像识别分布式训练的时序数据。

可选的，采集每次图像识别分布式训练的时序数据，包括：确定与图像识别分布式训练所关联的硬件运行日志、软件运行日志和算法运行日志；在硬件运行日志、软件运行日志和算法运行日志中设置数据埋点；通过数据埋点针对图像识别分布式训练按照指定时间步长进行数据采集获取时序数据，其中，时序数据中包括硬件数据、软件数据和算法数据。

具体的说，本实施方式中的图像识别分布式训练的主要目的是采用多张加速卡进行图像识别模型的训练，但这个训练过程通常会非常长，因此可以通过采用图像识别分布式训练过程中的所采集的样本数据构建出监控模型，以对后续图像识别分布式训练的结果进行预测，从而能够在预测出训练结果失败的情况下，即时终止训练过程，并针对预测所获得的故障原因进行调整，从而避免无效的图像识别分布式训练消耗过长的时间和训练资源的浪费。并且本实施方式中可以是以单台服务器配置8张GPU加速卡，使用pytorch框架进行图像识别分布式训练，也可以是以单台服务器配置8张T20加速卡，使用tensorflow框架进行图像识别分布式训练，因此本实施方式中并不对图像识别分布式训练所采用的加速卡类型以及框架类型进行具体限定。

其中，针对每次图像识别分布式训练过程可以采集所对应的时序数据，在采集每次训练过程的时序数据时，需要预先确定图像识别分布式训练所关联的硬件运行日志、软件运行日志和算法运行日志，并在不同类型的日志中设置数据埋点，从而通过预先所设置的数据埋点对分布式训练按照指定时间步长进行数据采集，其中，采样的时间步长可以是1s，当然本实施方式中仅是举例说明，具体可以根据用户的实际需求进行设置，并且当时间步长设置为1s时，则构建的时序特征为每1s内的时序特征，从而最终所获取的监控模型可以用于监控分布式训练并1s内得出一次预测结果，即每秒刷新一次监控结果，因此用户可以根据监控的精度确定采样的时间步长，本申请实施方式中并不对采样的时间步长具体数值进行限定。

需要说明的是，硬件数据包括加速卡存储占用量、加速卡通信吞吐量、CPU占用量、硬盘占用量和网卡吞吐量；软件数据包括硬件对应的软件驱动异常探测、分布式通信相关的通信监控和运行监控；算法数据包括算法框架类型、算法代码的关键参数值。当然，本实施方式中仅是举例说明，而并不对所采集的时序数据的具体内容进行限定。

另外，本实施方式中将一次训练过程作为一份样本，可以将训练过程统一设置为10分钟，当时长步长设置为1s时，则针对每次训练过程可以包括600个时间步。当然，本实施方式还可以限制训练过程的时长，并使其在10分钟和60分钟不等，则针对每次训练过程所包括的时间步在600至3600之间。因此本实施方式中所获取的时序数据包括两种情况，第一种是针对统一设置训练时长的情况，则针对每次图像识别分布式训练所获取的时序数据包含相同数量的时间步；第二种是针对非统一设置训练时长的情况，则针对每次图像识别分布式训练所获取的时序诗句包含的时间步的数量是不相等的。

步骤S102，对时序数据进行时序特征提取获取初始样本数据。

可选的，对时序数据进行时序特征提取获取初始样本数据，包括：获取每次图像识别分布式训练的时序数据所对应的训练时长；根据训练时长和指定时间步长，确定时序数据中所对应的时间步，其中，每个时间步中分别包含时序数据片段；针对每个时间步中所包含的时序数据片段分别进行时序特征提取，根据提取结果获取初始样本数据，其中，时序特征包括硬件时序特征、软件时序特征和算法数据特征。

具体的说，本实施方式中针对每次图像识别分布式训练获取到对应的时序数据之后，可以获取每次图像识别分布式训练的时序数据所对应的训练时长，根据训练时长和指定时间步长，确定时序数据中所对应的时间步，而在每个时间步中分别包含时序数据片段，并具体是针对每个时间步中所包含的时序数据片段分别进行时序特征提取的。例如，针对一次图像识别分布式训练，训练时长为10分钟，则该次训练过程包括600个时间步，而针对该训练过程所采集的时序数据拆分成600个时序数据片段，每个时序数据片段则分别对应一个时间步。因此在对时序数据进行时序特征提取时，具体是针对每个时间步中所包含的时序数据片段分别进行时序特征提取，并且针对一次训练过程所确定的时间步中，各时间步中包含类型相同的时序特征，并根据提取结果获取初始样本数据。

其中，本实施方式中的时序特征包括硬件时序特征、软件时序特征和算法数据特征，而硬件时序特征具体包括加速卡存储占用率、加速卡通信吞吐率、加速卡异常监控、CPU占用率、硬盘占用率和网卡吞吐率；软件时序特征包括硬件对应的软件驱动运行监控、分布式通信的运行监控、运行的分布式算子类型和运行个数；算法数据特征包括框架类型、前向传播状态、反向传播状态、参数更新状态、运行的迭代次数、学习率大小、高带宽存储器HBM占用率。而针对每个时间步中的时序数据片段进行时序特征提取时，具体是通过对时序数据片段中的硬件数据进行提取处理获取硬件时序特征，对软件数据进行提取处理获取软件时序特征，对算法数据进行提取处理获取算法数据特征。例如，针对硬件数据来说，当获取到加速卡存储占用量之后，可以计算加速卡存储占占用量与加速卡存储占用总量的比值，以获取硬件时序特征加速卡存储占用率。当然，本实施方式中仅是以获取加速卡存储占用率为例进行说明，对于获取其它时序特征的方式大致相同，本实施方式中不再进行赘述。并且针对上述的600个时间步，针对每个时间步都可计算出在该时间步内的多个时序特征，同时不同的时间步中又包含类型相同的时序特征。

步骤S103，根据初始样本数据获取训练样本数据。

可选的，根据初始样本数据获取训练样本数据，包括：获取每次图像识别分布式训练的训练结果，其中，训练结果包括图像识别分布式训练成功或图像识别分布式训练失败的故障类型；将训练结果作为标签添加到所对应的初始样本数据中，以获取与各初始样本数据匹配的训练样本数据。

具体的说，本实施方式中在获取到每次图像识别分布式训练所对应的初始样本数据后，还会获取每次图像识别分布式训练的训练结果，其中，训练结果包括图像识别分布式训练成功，或者图像识别分布式训练失败的故障类型，例如故障类型包括加速卡存储占用率不足或CPU占用率不足等，当然，本实施方式中仅是举例说明，而并不对图像识别分布式训练失败的故障类型进行具体限定。并且会将所获取的训练结果作为标签添加到所对应的初始样本数据中，以获取与各初始样本数据匹配的训练样本数据。当然，本实施方式中仅是针对一次图像识别分布式训练获取一个训练样本数据的过程进行具体说明，而实际用于监控模型构建所使用的训练样本数据通常是大量的，本实施方式中并不对所获取的训练样本数据的具体数量进行限定。

步骤S104，根据训练样本数据构建图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控。

可选的，根据训练样本数据构建图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控，包括：对各训练样本数据按照指定方式进行处理，获取处理后的训练样本数据，其中，指定方式包括缺失数据的删除操作、连续数据的标准化操作和离散数据的嵌入操作；对处理后的训练样本数据进行数据裁剪获取标准训练样本，其中，各标准训练样本中包含相同数量的时间步；根据标准训练样本采用时间序列模型构建出分布式训练的图像识别监控模型，其中，时间序列模型包括循环神经网络RNN或长短期记忆人工神经网络LSTM；获取当前图像识别的分布式训练运行数据，将运行数据输入监控模型，以获取当前图像识别分布式训练的的训练结果。

其中，本实施方式在获取训练样本数据之后，可以对训练样本数据进行预处理，并采用预处理后的训练样本数据基于时间序列模型构建出分布式训练的图像识别监控模型，而时间序列模型可以包括循环神经网络（Recurrent Neural Network，RNN）或长短期记忆人工神经网络（longshort-term memory，LSTM）等具有时间序列的模型，本实施方式中并不限定时间序列模型的具体类型。并且在构建出图像识别监控模型后，在当前图像识别的分布式训练运行过程中，可以采集当前图像识别的分布式训练运行数据，并将运行数据输入监控模型，以从而直接获取当前图像识别分布式训练的训练结果。

本申请通过对采集图像识别分布式训练过程中的样本建立图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控，预测当前图像识别分布式训练是否能顺利完成，在预测失败的情况下及时终止训练，根据所获取的故障类型及时进行调整，以提高图像识别分布式训练效率和训练的稳定性、可靠性，避免大量算力浪费在失败的训练中。

实施例二

图2为本发明实施例二提供的一种图像识别分布式训练的监控方法的流程图，本实施例以上述实施例为基础，主要对步骤S104进行具体说明，方法包括：

步骤S201，对各训练样本数据按照指定方式进行处理，获取处理后的训练样本数据。

具体的说，本实施方式在获取到训练样本数据之后，会针对每次图像识别分布式训练所对应的训练样本数据按照指定方式进行初步处理，具体是判断各训练样本数据中是否存在明显缺少特征数据的样本数据，如果存在则将明显缺值的数据进行删除，以避免无效数据影响图像识别分布式训练的监控模型构建精度。在将明显缺值的无效数据删除之后，由于在训练样本数据中包含连续值，或者离线值，为了保证数据的统一性，则会对连续值进行标准化处理，并对离散值进行embedding嵌入处理，并通过上述操作后获取处理后的训练样本数据。当然，本实施方式中仅是举例说明，而并不对指定方式的具体操作类型进行限定。

步骤S202，对处理后的训练样本数据进行数据裁剪获取标准训练样本，其中，各标准训练样本中包含相同数量的时间步。

其中，不同的训练样本有不同的时间步n，根据样本情况，设定标准时间步n0，将所有训练样本数据统一成具有相同标准时间步的样本，对于超出该时标准间步的样本，可顺序截取n0个时间步作为样本，样本标签和原始样本标签保持一致。对于不足标准时间步的，在样本起始时间步之前开始补（n0-n）个时间步，此时增补的时间步下的所有时序特征均设置为0。

在一个具体实现中，当时序数据是按照统一设置的训练时长，例如600s所获取时，由于各个训练样本数据的时长和时间步均一致，因此在这种情况下是无需第各训练样本数据进行裁剪的，因此所设定的标准时间步为600，并将各包含600时间步的训练样本数据作为标准训练样本。

在另一个具体实现中，当时序数据不是按照统一设置的训练时长，例如，限制训练时长在10分钟和60分钟不等，则针对每次训练过程所包括的时间步在600至3600之间。由于这对不同的图像识别分布式训练过程，所获取的训练样本数据有不同的时间步，则根据样本情况，可以设定标准时间步为1000，将各训练样本数据统一成具有标准时间步的样本，对于超出该标准时间步的训练样本数据如包含3600时间步的训练样本数据，可顺序截取0~1000、1000~2000、2000~3000各1000时间步作为样本，样本标签和原始样本标签保持一致。对于不足标准时间步的如600时间步的样本，在样本起始时间步之前增补400个时间步，增补的时间步下的所有时序特征均设置为0。从而将包含1000时间步训练样本数据作为标准训练样本，因此在各标准训练样本中包含相同数量的时间步。当然，本实施方式中仅是举例说明，而并不对训练样本数据的具体裁剪方式进行具体限定，只要所获取的各标准训练样本中包含相同数量的时间步，则都是在本申请的保护范围内，本实施方式中不再对其进行限定。

步骤S203，根据标准训练样本采用时间序列模型构建出分布式训练的图像识别监控模型。

其中，本实施方式中在获取出标准训练样本之后，具体是将所获取的标准训练样本数据基于时间序列模型构建出分布式训练的图像识别监控模型。其中，时间序列模型包括循环神经网络RNN或长短期记忆人工神经网络LSTM。

需要说明的是，为了保证所构建的监控模型的准确性，还可以将标准训练样本划分为训练集和验证集，例如，在采用时间序列模型LSTM构建监控模型时，设置LSTM模型隐藏层维度为1024，隐藏层数为3，输入的张量维度为时序特征经过标准化和embedding化后的总维度，序列长度为标准时间步即为1000，使用pytorch的torch.nn.LSTM构建分布式训练的图像识别监控模型。然后采用验证集对所构建的分布式训练的图像识别监控模型进行验证，以保证所构建的分布式训练的图像识别监控模型的准确性。

步骤S204，获取当前图像识别的分布式训练运行数据，将运行数据输入监控模型，以获取当前图像识别分布式训练的的训练结果。

其中，在构建出图像识别监控模型后，在当前图像识别的分布式训练运行过程中，可以采集当前图像识别的分布式训练运行数据，并将运行数据输入监控模型，从而直接获取当前图像识别分布式训练的训练结果。例如，在当通过监控模型所预测的训练结果为当前图像识别分布式训练成功，则无需对训练过程进行中断；而当通过监控模型所预测的训练结果为当前图像识别分布式训练失败的故障类型为加速卡存储占用率过低，则为了避免长时间的无效训练，则可以根据故障类型确定出了异常来源，并将所获取的当前图像识别分布式训练模型进行保存，并根据异常来源对加速卡存储容量进行调整，并且在调整完之后在之前所获取的当前图像识别分布式训练模型的基础上继续进行训练，从而提高了图像识别分布式训练效率，以及分布式训练的稳定性和可靠性。

实施例三

图3为本发明实施例三提供的一种图像识别分布式训练的监控装置的结构示意图，该装置可以执行上述各实施例中涉及到的图像识别分布式训练的监控方法。该装置可采用软件和/或硬件的方式实现，如图3所示，装置包括时序数据采集模块310、时序特征提取模块320、训练样本数据获取模块330和图像识别分布式训练监控模块340。

时序数据采集模块310，用于采集每次图像识别分布式训练的时序数据；

时序特征提取模块320，用于对时序数据进行时序特征提取获取初始样本数据，其中，初始样本数据中包含多个时间步，并且各时间步中包含类型相同的时序特征；

训练样本数据获取模块330，用于根据初始样本数据获取训练样本数据，其中，训练样本数据中标注有每次图像识别分布式训练的训练结果；

图像识别分布式训练监控模块340，用于根据训练样本数据构建图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控。

可选的，时序数据采集模块，用于确定与图像识别分布式训练所关联的硬件运行日志、软件运行日志和算法运行日志；

在硬件运行日志、软件运行日志和算法运行日志中设置数据埋点；

通过数据埋点针对图像识别分布式训练按照指定时间步长进行数据采集获取时序数据，其中，时序数据中包括硬件数据、软件数据和算法数据。

可选的，硬件数据包括加速卡存储占用量、加速卡通信吞吐量、CPU占用量、硬盘占用量和网卡吞吐量；

软件数据包括硬件对应的软件驱动异常探测、分布式通信相关的通信监控和运行监控；

算法数据包括算法框架类型、算法代码的关键参数值。

可选的，时序特征提取模块，用于获取每次图像识别分布式训练的时序数据所对应的训练时长；

根据训练时长和指定时间步长，确定时序数据中所对应的时间步，其中，每个时间步中分别包含时序数据片段；

针对每个时间步中所包含的时序数据片段分别进行时序特征提取，根据提取结果获取初始样本数据，其中，时序特征包括硬件时序特征、软件时序特征和算法数据特征。

可选的，硬件时序特征包括加速卡存储占用率、加速卡通信吞吐率、加速卡异常监控、CPU占用率、硬盘占用率和网卡吞吐率；

软件时序特征包括硬件对应的软件驱动运行监控、分布式通信的运行监控、运行的分布式算子类型和运行个数；

算法数据特征包括框架类型、前向传播状态、反向传播状态、参数更新状态、运行的迭代次数、学习率大小、高带宽存储器HBM占用率。

可选的，训练样本数据获取模块，用于获取每次图像识别分布式训练的训练结果，其中，训练结果包括图像识别分布式训练成功或图像识别分布式训练失败的故障类型；

将训练结果作为标签添加到所对应的初始样本数据中，以获取与各初始样本数据匹配的训练样本数据。

可选的，图像识别分布式训练监控模块，用于对各训练样本数据按照指定方式进行处理，获取处理后的训练样本数据，其中，指定方式包括缺失数据的删除操作、连续数据的标准化操作和离散数据的嵌入操作；

对处理后的训练样本数据进行数据裁剪获取标准训练样本，其中，各标准训练样本中包含相同数量的时间步；

根据标准训练样本采用时间序列模型构建出分布式训练的图像识别监控模型，其中，时间序列模型包括循环神经网络RNN或长短期记忆人工神经网络LSTM；

获取当前图像识别的分布式训练运行数据，将运行数据输入监控模型，以获取当前图像识别分布式训练的的训练结果。

本发明实施例所提供的图像识别分布式训练的监控装置可执行本发明任意实施例所提供的图像识别分布式训练的监控方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种计算机设备的结构示意图，如图4所示，该计算机设备包括处理器410、存储器420、输入装置430和输出装置440；计算机设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；计算机设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的图像识别分布式训练的监控方法对应的程序指令/模块（例如，循环神经网络的参数量化装置中的循环神经网络获取模块410、量化尺度计算模块420、量化参数计算模块430以及后训练量化网络生成模块440）以及本发明实施例中的图像识别分布式训练的监控方法对应的程序指令/模块（例如，量化网络中的推断装置中的输入数据序列获取模块510、量化输入序列输入模块520以及网络计算模块530）。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的图像识别分布式训练的监控方法。

图像识别分布式训练的监控方法包括：采集每次图像识别分布式训练的时序数据；对时序数据进行时序特征提取获取初始样本数据，其中，初始样本数据中包含多个时间步，并且各时间步中包含类型相同的时序特征；

根据初始样本数据获取训练样本数据，其中，训练样本数据中标注有每次图像识别分布式训练的训练结果；根据训练样本数据构建图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种图像识别分布式训练的监控方法；

图像识别分布式训练的监控方法包括：采集每次图像识别分布式训练的时序数据；

对时序数据进行时序特征提取获取初始样本数据，其中，初始样本数据中包含多个时间步，并且各时间步中包含类型相同的时序特征；

根据初始样本数据获取训练样本数据，其中，训练样本数据中标注有每次图像识别分布式训练的训练结果；

根据训练样本数据构建图像识别分布式训练的监控模型，并采用监控模型对当前图像识别分布式训练过程进行监控。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作，还可以执行本发明任意实施例所提供的图像识别分布式训练的监控方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-OnlyMemory, ROM）、随机存取存储器（RandomAccess Memory, RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

值得注意的是，上述循环神经网络的参数量化装置以及量化网络中的推断装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像识别分布式训练的监控方法，其特征在于，包括：

采集每次图像识别分布式训练的时序数据；

2.根据权利要求1所述的方法，其特征在于，所述采集每次图像识别分布式训练的时序数据，包括：

确定与所述图像识别分布式训练所关联的硬件运行日志、软件运行日志和算法运行日志；

在所述硬件运行日志、所述软件运行日志和所述算法运行日志中设置数据埋点；

通过所述数据埋点针对图像识别分布式训练按照指定时间步长进行数据采集获取所述时序数据，其中，所述时序数据中包括硬件数据、软件数据和算法数据。

3.根据权利要求2所述的方法，其特征在于，所述硬件数据包括加速卡存储占用量、加速卡通信吞吐量、CPU占用量、硬盘占用量和网卡吞吐量；

所述软件数据包括硬件对应的软件驱动异常探测、分布式通信相关的通信监控和运行监控；

所述算法数据包括算法框架类型、算法代码的关键参数值。

4.根据权利要求2所述的方法，其特征在于，所述对所述时序数据进行时序特征提取获取初始样本数据，包括：

获取每次图像识别分布式训练的时序数据所对应的训练时长；

根据所述训练时长和所述指定时间步长，确定所述时序数据中所对应的时间步，其中，每个时间步中分别包含时序数据片段；

针对每个时间步中所包含的时序数据片段分别进行时序特征提取，根据提取结果获取所述初始样本数据，其中，所述时序特征包括硬件时序特征、软件时序特征和算法数据特征。

5.根据权利要求4所述的方法，其特征在于，所述硬件时序特征包括加速卡存储占用率、加速卡通信吞吐率、加速卡异常监控、CPU占用率、硬盘占用率和网卡吞吐率；

所述软件时序特征包括硬件对应的软件驱动运行监控、分布式通信的运行监控、运行的分布式算子类型和运行个数；

所述算法数据特征包括框架类型、前向传播状态、反向传播状态、参数更新状态、运行的迭代次数、学习率大小、高带宽存储器HBM占用率。

6.根据权利要求1所述的方法，其特征在于，所述根据所述初始样本数据获取训练样本数据，包括：

获取每次图像识别分布式训练的训练结果，其中，所述训练结果包括图像识别分布式训练成功或图像识别分布式训练失败的故障类型；

将所述训练结果作为标签添加到所对应的初始样本数据中，以获取与各初始样本数据匹配的所述训练样本数据。

7.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本数据构建图像识别分布式训练的监控模型，并采用所述监控模型对当前图像识别分布式训练过程进行监控，包括：

对各所述训练样本数据按照指定方式进行处理，获取处理后的训练样本数据，其中，所述指定方式包括缺失数据的删除操作、连续数据的标准化操作和离散数据的嵌入操作；

根据所述标准训练样本采用时间序列模型构建出分布式训练的图像识别监控模型，其中，所述时间序列模型包括循环神经网络RNN或长短期记忆人工神经网络LSTM；

获取当前图像识别的分布式训练运行数据，将所述运行数据输入所述监控模型，以获取当前图像识别分布式训练的的训练结果。

8.一种图像识别分布式训练的监控装置，其特征在于，包括：

时序数据采集模块，用于采集每次图像识别分布式训练的时序数据；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可执行指令的存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。