CN116450486A

CN116450486A - 多元异构计算系统内节点的建模方法、装置、设备及介质

Info

Publication number: CN116450486A
Application number: CN202310714547.7A
Authority: CN
Inventors: 唐轶男; 赵雅倩; 李仁刚; 郭振华; 王丽; 曹芳; 高开
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-07-18
Anticipated expiration: 2043-06-16
Also published as: CN116450486B

Abstract

本申请公开了一种多元异构计算系统内节点的建模方法、装置、设备及介质，涉及计算机技术领域。该方法包括：利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。能够低成本并准确地实现算子级别的工作时间线预测。

Description

多元异构计算系统内节点的建模方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，特别涉及一种多元异构计算系统内节点的建模方法、装置、设备及介质。

背景技术

目前，大型神经网络模型的优势逐渐体现，学界业界开始大量投入研究参数量更大的神经网络模型，这也使大型神经网络模型的训练难度快速增长。为了解决大型神经网络训练的问题，业界学界普遍使用分布式训练的方式，将训练数据或大型网络模型进行拆分，并将拆分后的数据与子训练任务部署到多个计算芯片上，使大模型的训练成为可能。在多元异构计算系统中，不同计算性能的异构算力会被接入到同一个分布式计算系统中，并用于协同进行分布式训练大型神经网络模型。但由于大型神经网络训练十分耗时、耗能源，如何合理进行训练任务的配置使多个异构算力高效协同进行计算，成为了大型神经网络训练任务执行前需要研究的重点问题。针对该问题，相关技术中，通过仿真建模的方式，在实际部署之前对多元异构计算系统中训练任务的配置进行评估测试。对多元异构计算系统进行建模主要包括两部分，一是需要对其中的异构计算节点进行建模，二是对其中工作节点之间的互联进行建模。其中，异构计算节点建模难度较大，这是由于不同厂商计算芯片的硬件设计、优化程度、软硬件生态均不一样，导致不同厂商计算芯片的计算能力、计算流程均不相同，难以用一致的建模表示，也难以模拟其实际的工作流程。因此，如何准确地对多元异构计算系统内的异构计算节点进行建模，模拟其实际的工作流程是目前亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种多元异构计算系统内节点的建模方法、装置、设备及介质，能够低成本并准确地实现算子级别的工作时间线预测。其具体方案如下：

第一方面，本申请公开了一种多元异构计算系统内节点的建模方法，包括：

利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；

构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。

可选的，所述构建所述异构计算节点对应的初始模型，包括：

按照嵌入层、多层人工神经网络、输出层的顺序构建得到初始模型。

可选的，所述利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，包括：

以训练数据中的训练任务特征和算子特征为训练输入，以训练数据中的计算算子的计算耗时为标签，对所述初始模型进行训练，以得到以训练任务特征和算子特征为输入，以计算算子的计算耗时为输出的异构计算节点模型。

可选的，所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线之前，还包括：

通过特征获取模块获取所述待预测训练任务对应的特征参数；所述特征参数包括训练任务特征、算子计算顺序和算子特征；所述特征获取模块与所述异构计算节点具有相同的人工智能计算框架。

可选的，所述通过特征获取模块获取所述待预测训练任务对应的特征参数，包括：

根据所述待预测训练任务的任务信息和所述特征获取模块的人工智能计算框架，确定出算子计算顺序和算子特征。

根据所述待预测训练任务的任务信息提取得到所述训练任务特征；

或，获取用户输入的训练任务特征信息，以得到所述训练任务特征。

可选的，所述训练任务特征包括单次训练样本个数、输入数据尺寸、输入数据存储类型和模型数据精度中的任意一项或多项。

可选的，所述算子特征包括算子名称、算子内部特征、算子输入尺寸特征、算子输出尺寸特征中的任意一项或多项。

获取待预测训练任务；所述待预测训练任务为针对完整神经网络的训练任务，或针对部分神经网络的训练任务。

可选的，所述利用测试数据对多元异构计算系统内的异构计算节点进行性能测试，包括：

利用数据生成模块生成多个人工智能训练任务，以得到测试任务集；

利用所述测试任务集对异构计算节点进行性能测试。

可选的，所述利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据，包括：

利用测试数据分别对每种类型对应的异构计算节点进行性能测试，得到不同类型的异构计算节点对应的测试结果数据，并从所述测试结果数据中提取出不同类型的异构计算节点对应的训练数据；

相应的，所述构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，包括：

构建不同类型的异构计算节点对应的初始模型，并利用所述训练数据对相应的初始模型进行训练以得到不同类型的异构计算节点对应的异构计算节点模型。

可选的，所述测试结果数据包括训练任务特征，以及每个计算算子的计算耗时、算子特征。

可选的，所述利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型之后，还包括：

获取待模拟的目标异构计算节点的节点参数，根据所述节点参数从模型库中确定出对应的目标异构计算节点模型；所述模型库内包含不同类型的异构计算节点对应的异构计算节点模型。

可选的，所述节点参数包括数据处理单元类型、人工智能加速器类型、人工智能计算框架和人工智能计算框架版本。

可选的，所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线，包括：

根据所述特征参数利用异构计算节点模型，模拟异构计算节点运行所述待预测训练任务时每个算子的耗时；所述特征参数包括训练任务特征、算子计算顺序和算子特征；

基于每个算子的耗时，预测运行所述待预测训练任务时生成的算子级的训练时间线。

可选的，所述根据所述特征参数利用异构计算节点模型，模拟异构计算节点运行所述待预测训练任务时每个算子的耗时，包括：

根据所述训练任务特征和所述算子特征，预测异构计算节点运行所述待预测训练任务时每个算子的耗时。

可选的，所述基于每个算子的耗时，预测运行所述待预测训练任务时生成的算子级的训练时间线，包括：

根据每个算子的耗时和所述算子计算顺序，预测运行所述待预测训练任务时生成的算子级的训练时间线。

第二方面，本申请公开了一种多元异构计算系统内节点的建模装置，包括：

性能测试模块，用于利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；

模型构建模块，用于构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的多元异构计算系统内节点的建模方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的多元异构计算系统内节点的建模方法。

本申请中，利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。

可见，通过对多元异构计算系统内的异构计算节点进行性能测试，根据测试结果数据提取得到训练数据，利用训练数据对初始模型进行训练得到对应的异构计算节点模型，利用该异构计算节点模型可以在不实际运行异构计算节点的情况下，模拟该节点运行不同训练任务时的算子级的训练任务时间线，即模拟训练任务运行过程中每个算子启动与结束的具体时刻，低成本并准确地实现算子级别的工作时间线预测，从而辅助多元异构计算系统的整体建模，同时也可以辅助多元异构计算系统进行任务切分、集群部署等工作。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种多元异构计算系统内节点的建模方法流程图；

图2为本申请提供的一种具体的多元异构计算系统示意图；

图3为本申请提供的一种具体的异构计算节点模型结构示意图；

图4为本申请提供的一种具体的多元异构计算系统内节点的建模及应用架构示意图；

图5为本申请提供的一种具体的多元异构计算系统内节点的建模方法流程图；

图6为本申请提供的一种具体的算子计算顺序示意图；

图7为本申请提供的一种具体的多元异构计算系统内节点的建模方法流程图；

图8为本申请提供的一种多元异构计算系统内节点的建模装置结构示意图；

图9为本申请提供的一种电子设备结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，异构计算节点建模难度较大，这是由于不同厂商计算芯片的硬件设计、优化程度、软硬件生态均不一样，导致不同厂商计算芯片的计算能力、计算流程均不相同，难以用一致的建模表示，也难以模拟其实际的工作流程。为了克服上述技术问题，本申请提出一种多元异构计算系统内节点的建模及应用方法，能够模拟异构计算节点运行不同训练任务时的算子级别的训练任务时间线。

本申请实施例公开了一种多元异构计算系统内节点的建模方法，参见图1所示，该方法可以包括以下步骤：

步骤S11：利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时。

本实施例中，首先利用测试数据对多元异构计算系统内的异构计算节点进行性能测试，得到性能测试后输出的测试结果数据，然后从上述测试结果数据中提取出训练数据，其中，训练数据可以包括算子特征、节点训练任务特征和算子的计算耗时。

可以理解的是，例如图2所示为一种具体的多元异构计算系统示意图，包括多个异构计算节点，如异构计算节点1、异构计算节点2、异构计算节点3、异构计算节点4，以及不同异构计算节点之间的通信，其中，通信可以是服务器内，也可以是服务器间。图2还包括本实施例提供的一种异构计算节点，由于异构计算节点处理训练任务的性能受到数据I/O（Input/Output，输入/输出）、硬件性能、软件优化等多方面影响，因此一个异构计算节点包括数据处理单元、人工智能加速器（AI加速器）、以及部署的人工智能框架（AI框架）。在实际部署中，一个服务器可以包含一个异构计算节点，也可以包含多个异构计算节点，而一个异构计算系统可以由一个或多个服务器组成。其中，数据处理单元可以为XPU（ProcessingUnit，多种处理器，CPU、DPU等的统称），AI加速器可以为CPU（CentralProcessingUnit，中央处理器）、FPGA（FieldProgrammableGateArray，现场可编程逻辑门阵列）、GPU（GraphicsProcessingUnit，图形处理器）。

本实施例中，所述利用测试数据对多元异构计算系统内的异构计算节点进行性能测试，可以包括：利用数据生成模块生成多个人工智能训练任务，以得到测试任务集；利用所述测试任务集对异构计算节点进行性能测试。即数据生成模块生成由一批AI训练任务组成的测试任务集，并将这些训练任务逐个输入到异构计算节点；具体生成测试任务的方法可以使用预先定义好的测试任务集合，生成的目标是尽量多地测试异构计算节点对于不同神经网络层、计算算子的计算性能。异构计算节点逐个执行测试任务，并将需要收集的结果作为测试结果数据。

本实施例中，所述利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据，可以包括：利用测试数据分别对每种类型对应的异构计算节点进行性能测试，得到不同类型的异构计算节点对应的测试结果数据，并从所述测试结果数据中提取出不同类型的异构计算节点对应的训练数据；相应的，所述构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，可以包括：构建不同类型的异构计算节点对应的初始模型，并利用所述训练数据对相应的初始模型进行训练以得到不同类型的异构计算节点对应的异构计算节点模型。可以理解的是，针对多元异构计算系统内的多个异构计算节点，由于节点的性能受到节点内数据处理单元种类、AI加速器种类、AI框架与AI框架版本的影响，因此本实施例中基于上述因素对异构计算节点进行分类；也就是说，数据处理单元种类、AI加速器种类、AI框架与版本三者标识了同一类异构计算节点，若三者中有任一者不同，则不是同一类异构计算节点。然后，通过利用测试数据对每种类型的异构计算节点进行性能测试，得到不同类型的异构计算节点对应的测试结果数据，以便利用测试结果数据训练不同模型以构建不同类型的异构计算节点对应的异构计算节点模型。

本实施例中，所述测试结果数据包括训练任务特征，以及每个计算算子的计算耗时、算子特征。即对异构计算节点进行测试时主要收集训练任务特征，以及每个计算算子的计算耗时和算子特征。这是由于这些特征是构建异构计算节点模型的主要特征，通过这些特征进行模型构建能够使构建得到的模型与实际异构计算节点拥有相同的特征。其中测试结果数据的收集可以使用AI框架自带的剖析工具profiler进行收集检测，也可以自行编写程序进行收集，即通过剖析工具收集异构计算节点对不同计算算子的计算耗时，并收集相应的算子特征、训练任务特征，对收集的特征进行储存作为训练数据；当测试完成后，测试结果数据收集模块将全部训练数据用于对异构计算节点的模型进行训练。

步骤S12：构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。

本实施例中，得到训练数据后，利用训练数据构建异构计算节点对应的异构计算节点模型，即利用训练数据进行训练，可以获得对该异构计算节点的建模模型，该模型可以预测该异构计算节点运行各种算子的耗时，然后异构计算节点的模型会被存入异构计算节点模型库，便于之后的应用。

本实施例中，所述构建所述异构计算节点对应的初始模型，可以包括：按照嵌入层、多层人工神经网络、输出层的顺序构建得到初始模型；通过对所述初始模型进行模型训练，得到所述异构计算节点模型。其中，上述异构计算节点模型的训练依赖于测试结果数据，训练使用的模型结构可以如图3所示，需要说明的是，模型具体使用的模块和使用的数量这里不做限定，具体的，以上述训练数据为训练输入特征经过嵌入层（embedding层）获取特征的高维向量，然后经过多层人工神经网络，上述多层人工神经网络可以为多层MLP多层感知机(MLP，MultilayerPerceptron)或多层transformerencoder（transformer编码器），最后经过输出层（如MLP输出层）获取算子耗时。

本实施例中，所述通利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，可以包括：以训练数据中的训练任务特征和算子特征为训练输入，以训练数据中的计算算子的计算耗时为标签，对所述初始模型进行训练，以得到以训练任务特征和算子特征为输入，以计算算子的计算耗时为输出的异构计算节点模型。即对初始模型进行训练时，是以训练数据中的训练任务特征和算子特征为训练输入，以训练数据中的计算算子的计算耗时为标签，通过多次迭代训练，得到以训练任务特征和算子特征为输入，以计算算子的计算耗时为输出的异构计算节点模型。

本实施例中，获取待预测训练任务对应的特征参数，其中，特征参数包括训练任务特征、算子计算顺序和算子特征。可以理解的是，待预测训练任务即为想要在实际异构计算节点上进行实际训练的任务。

本实施例中，所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线之前，还可以包括：获取待预测训练任务；所述待预测训练任务为针对完整神经网络的训练任务，或针对部分神经网络的训练任务。即本实施例中，上述待预测训练任务可以是针对一个完整神经网络的训练任务，也可以是针对部分神经网络的训练任务，如由神经网络中的几个卷积层组成的虚拟训练任务。

本实施例中，得到待预测训练任务对应的特征参数后，将该特征参数输入至异构计算节点模型，异构计算节点即为想要模拟的异构计算节点，以便模拟异构计算节点运行待预测训练任务时的算子级的训练时间线，即以算子为指标的时间线，形成按照时间的算子计算顺序，以及每个算子计算的耗时。可以理解的是，深度学习算法由一个个计算单元组成，称这些计算单元为算子（Operator，简称OP）。由此，通过测试获取异构计算节点的建模，在进行大规模训练任务的策略优化时可以使用该建模而不再需要实际部署，大幅降低成本。

本实施例中，所述利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型之后，还可以包括：获取待模拟的目标异构计算节点的节点参数，根据所述节点参数从模型库中确定出对应的目标异构计算节点模型；所述模型库内包含不同类型的异构计算节点对应的异构计算节点模型。即先判断已构建的所有异构计算节点模型中是否存在需要的目标异构计算节点模型，目标异构计算节点即为想要模拟的异构计算节点，若存在直接获取即可，若不存在，则需要根据上述模型构建顺序进行构建。

本实施例中，所述节点参数包括数据处理单元类型、人工智能加速器类型、人工智能计算框架和人工智能计算框架版本。人工智能计算框架可以为例如TensorFlow、PyTorch、Caffe等人工智能计算框架。也即按照异构计算节点的分类标准进行异构计算节点模型的选择。

由上可见，本实施例中利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。可见，通过对多元异构计算系统内的异构计算节点进行性能测试，根据测试结果数据提取得到训练数据，利用训练数据对初始模型进行训练得到对应的异构计算节点模型，利用该异构计算节点模型可以在不实际运行异构计算节点的情况下，模拟该节点运行不同训练任务时的算子级的训练任务时间线，即模拟训练任务运行过程中每个算子启动与结束的具体时刻，低成本并准确地实现算子级别的工作时间线预测，从而辅助多元异构计算系统的整体建模，同时也可以辅助多元异构计算系统进行任务切分、集群部署等工作。

本申请实施例公开了一种具体的多元异构计算系统内节点的建模及应用架构，参见图4所示，该架构可以包括5个模块，其中前三个模块属于异构计算节点的模型建立流程，后两个模块属于异构计算节点的模型应用流程。各模块的名称与作用如下：1.测试数据生成模块，用于生成训练数据，并将数据输入异构计算节点以便测试异构计算节点的性能。2.测试结果数据收集模块，用于收集对异构计算节点的测试结果数据，收集的数据包括算子特征、节点训练任务特征和算子的计算耗时。3.训练建模模块，用于利用测试结果数据对异构计算节点进行建模，获取异构计算节点的模型，并将所述训练得到的异构计算节点的模型存储至异构计算节点模型库。4.算子顺序与特征获取模块，用于根据实际待预测训练任务，获取节点训练任务特征，以及实际应用该异构计算节点的算子计算顺序，并获取每个算子的算子特征，这里不包括算子计算耗时。5.耗时预测模块，用于提取所需异构计算节点对应的模型，根据算子计算顺序、算子特征、节点训练任务特征，模拟异构计算节点运行各种不同训练任务的算子级别的神经网络训练时间线，即将目标异构计算节点模型传输给耗时预测模块后利用耗时预测模块进行耗时预测，得到最终的算子级时间线模拟结果，并将该结果输出给有需求的各种应用。

本申请实施例公开了一种具体的多元异构计算系统内节点的建模方法，参见图5所示，该方法可以包括以下步骤：

步骤S21：利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时。

步骤S22：构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型。

步骤S23：通过特征获取模块获取待预测训练任务对应的特征参数；所述特征获取模块包含与所述异构计算节点具有相同的人工智能计算框架；所述特征参数包括训练任务特征、算子计算顺序和算子特征。

本实施例中，特征参数获取具体可以通过预先构建的特征获取模块，根据待预测训练任务获取对应的特征参数，其中，特征获取模块包含与异构计算节点具有相同的人工智能计算框架，即特征获取模块除了处理器外，还需要包含与异构计算节点具有相同的人工智能计算框架，由此才能保证提取得到的特征参数为待预测训练任务在异构计算节点下的特征。其中，特征参数包括训练任务特征、算子计算顺序和算子特征。

也即，特征获取模块根据实际训练任务获取算子计算顺序、算子特征、节点训练任务特征，并将其输入到耗时预测模块。具体来说，特征获取模块也是一个可以独立运行的计算节点，其可以是一个没有AI加速器的服务器，或者是一个配置了任意AI加速器的服务器，其作用只是为了获取算子的计算顺序、算子特征、节点训练任务特征，但不会获取算子的计算耗时。算子顺序与特征的获取依赖于部署与异构计算节点相同的AI计算框架，这样才能确保算子的计算顺序和特征与原始的异构计算节点一致。

以人工智能计算框架为pytorch下的某待预测训练任务的算子计算顺序获取为例，具体采用人工智能计算框架pytorch的后端算子库（aten）中的各种算子，以箭头方向为时间t顺序方向，算子计算顺序获取例如图6所示，分别为前向传输算子的算子计算顺序（前向二维卷积层算子、前向批归一化层算子、前向线性整流函数（relu）激活算子、前向加和算子、前向二维卷积层算子），以及反向传输算子的算子计算顺序（反向二维卷积算子、反向加和算子、反向线性整流函数（relu）激活算子、反向批归一化层算子、反向二维卷积层算子）。对于不同的人工智能计算框架，算子库不同，且经过计算框架优化后的算子计算顺序也可能不同。

本实施例中，所述通过特征获取模块获取所述待预测训练任务对应的特征参数，可以包括：根据所述待预测训练任务的任务信息和所述特征获取模块的人工智能计算框架，确定出算子计算顺序和算子特征。本实施例中，所述算子特征包括算子名称、算子内部特征、算子输入尺寸特征、算子输出尺寸特征中的任意一项或多项。例如全连接算子，只有输入输出的尺寸特征，而没有算子内部特征，其输入特征、输出特征均为一维向量的尺寸。例如二维卷积算子，除了输入输出的尺寸特征，还包含算子内部特征，其输入特征为输入数据的长、宽、通道数的尺寸，输出特征是输出数据的输入数据的长、宽、通道数的尺寸，其算子内部特征包括卷积核尺寸、卷积核数量、卷积步长、填充方式。包含算子内部特征的还有池化层算子、批归一化层算子等等，他们都各自有自己的特殊内部特征。即结合待预测训练任务的任务信息和特征获取模块的人工智能计算框架，确定出算子计算顺序和算子特征、算子特征可以包括但不限于算子名称，算子内部特征，算子输入尺寸特征，算子输出尺寸特征。

本实施例中，所述通过特征获取模块获取所述待预测训练任务对应的特征参数，可以包括：根据所述待预测训练任务的任务信息提取得到所述训练任务特征；或，获取用户输入的训练任务特征信息，以得到所述训练任务特征。即节点训练任务特征则可以直接从训练任务中获取，或基于手动输入获取。本实施例中，所述训练任务特征包括单次训练样本个数（batch_size）、输入数据尺寸、输入数据存储类型和模型数据精度中的任意一项或多项。

步骤S24：所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。

其中，关于上述步骤S21、步骤S22、步骤S24的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

由上可见，本实施例中利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型；通过特征获取模块获取待预测训练任务对应的特征参数；所述特征获取模块包含与所述异构计算节点具有相同的人工智能计算框架；所述特征参数包括训练任务特征、算子计算顺序和算子特征；所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。可见，通过具有与异构计算节点具有相同的人工智能计算框架的特征获取模块，获取待预测训练任务对应的特征参数，并将该特征参数作为输入发送至异构计算节点模型，得到异构计算节点模型输出的算子级的训练时间线，低成本并准确地实现算子级别的工作时间线预测，从而辅助多元异构计算系统的整体建模，同时也可以辅助多元异构计算系统进行任务切分、集群部署等工作。

本申请实施例公开了一种具体的多元异构计算系统内节点的建模方法，参见图7所示，该方法可以包括以下步骤：

步骤S31：利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时。

步骤S32：构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型。

步骤S33：所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时每个算子的耗时；所述特征参数包括训练任务特征、算子计算顺序和算子特征。

本实施例中，所述根据所述特征参数利用异构计算节点模型，模拟异构计算节点运行所述待预测训练任务时每个算子的耗时，可以包括：根据所述训练任务特征和所述算子特征，预测异构计算节点运行所述待预测训练任务时每个算子的耗时。即具体根据训练任务特征和算子特征预测每个算子的耗时。

步骤S34：基于每个算子的耗时，预测运行所述待预测训练任务时生成的算子级的训练时间线。

本实施例中，得到每个算子的耗时后，基于每个算子的耗时预测运行所述待预测训练任务时生成的算子级的训练时间线。即根据算子计算顺序、算子特征、节点训练任务特征，使用获取的异构计算节点模型，耗时预测模块会将逐个算子的耗时进行预测最后获得该异构计算节点对于任一训练任务的算子级别的训练任务时间线作为最终输出。

本实施例中，所述基于每个算子的耗时，预测运行所述待预测训练任务时生成的算子级的训练时间线，可以包括：根据每个算子的耗时和所述算子计算顺序，预测运行所述待预测训练任务时生成的算子级的训练时间线。即模型的作用是预测异构计算节点对目标训练任务中的每一个算子的计算耗时，最终构建出整个训练任务的时间线。例如一个训练任务的算子计算顺序为OP1->OP2->OP3，通过提取的算子特征以及节点训练任务特征，模型可以预测出每个算子的计算耗时，最终可以模拟算子级别的神经网络训练时间线为OP1(t1)->OP2(t2)->OP3(t3)。

其中，关于上述步骤S31、步骤S32的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

由上可见，本实施例中利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型基于所述测试数据构建所述异构计算节点对应的异构计算节点模型；所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时每个算子的耗时；所述特征参数包括训练任务特征、算子计算顺序和算子特征获取待预测训练任务对应的特征参数；所述特征参数包括训练任务特征、算子计算顺序和算子特征；基于每个算子的耗时，预测运行所述待预测训练任务时生成的算子级的训练时间线。可见，通过计算每个算子的耗时，预测待预测训练任务时生成的算子级的训练时间线，实现低成本并准确地预测算子级别的工作时间线。

基于上述实施例，本申请实施例还公开了一种完整神经网络的时间线模拟过程，若神经网络是由二维卷积、二维batchnorm（批规范化）、pooling（池化层）、MLP、transformerEncoder（transformer编码）等神经网络层构成的神经网络，模拟的节点训练任务特征为batch_size=32、输入数据尺寸=32x32、输入数据存储类型为jpge、模型数据精度为float32。其中异构计算节点的三部分包括：数据处理单元为Applem2芯片cpu部分；AI加速器为Applem2芯片gpu部分；AI框架为pytorch1.13.1。异构计算节点模型构建具体流程如下：

1.测试数据生成模块基于NASdataset生成包括各种算子的训练任务。

2.异构计算节点执行来自测试数据生成模块的测试任务，并将测试结果数据收集模块需要的结果发送至测试结果数据收集模块。

3.测试结果数据收集模块使用性能分析器（PytorchProfiler）收集异构计算节点对不同计算算子的计算耗时、算子特征、节点训练任务特征，并储存起来作为训练数据。

4.模型训练模块利用训练数据进行训练，可以获得对该异构计算节点的建模模型，该模型可以预测该异构计算节点运行各种算子的耗时。然后异构计算节点的模型会被存入异构计算节点模型库，便于之后的应用。

基于以上建模，可以在不实际运行异构计算节点的情况下，模拟该异构计算节点运行各种不同训练任务的算子级别的训练任务时间线，具体流程如下：

5.算子顺序与特征获取模块根据实际训练任务获取算子计算顺序、算子特征、节点训练任务特征，并将其输入到耗时预测模块。对于该模块，本实施例用的是一个普通的CPU服务器，安装了AI框架：pytorch1.13.1。在该服务器中，部署了与待预测模型相同的训练任务，然后用较低的batchsize快速进行了少数步（step）的训练，最后使用PytorchProfiler获取了算子的计算顺序与算子特征。对于节点训练任务特征的获取，本实施例使用的是手工输入。

6.根据想要模拟的异构计算节点，即数据处理单元：Applem2芯片cpu部分，AI加速器Applem2芯片gpu部分，AI框架：pytorch1.13.1；异构计算节点模型库会将该异构计算节点的异构计算节点模型传输给耗时预测模块。

7.根据算子计算顺序、算子特征与节点训练任务特征，使用获取的异构计算节点模型，耗时预测模块将逐个算子的耗时进行预测，最后获得该异构计算节点对于上述神经网络训练任务的算子级别的训练任务时间线，作为本实施例的最终输出。

上述实施例描述了如何通过本实施例公开的多元异构计算系统内节点的建模方法，来模拟异构计算节点训练一个完整神经网络，并生成算子级的训练时间线。可见，本实施例面向多元异构计算系统内单节点测试与建模，使用AI技术实现在多元异构计算系统中对异构计算节点的性能进行准确建模，进而使对整个多元异构计算系统进行建模成为可能，并解决以往相关工作的缺陷。可以准确地建模异构计算节点的对于任一训练任务的工作性能，该建模不仅可以准确预测异构计算节点运行不同训练任务中的算子的计算耗时，还可以预测异构计算节点对各种没有见过的神经网络的训练总体耗时。

除了模拟完整神经网络外，还可以用来模拟异构计算节点训练一个完整神经网络中的几层（例如神经网络的几个卷积层），并生成算子级的训练时间线。本实施例可以用于后续模拟分布式训练任务中的模型并行或流水并行。该实施例与前一个实施例的区别在于异构计算节点模型应用流程中的步骤5，即模拟部分神经网络时，将前一个实施例步骤5修改如下：

5.算子顺序与特征获取模块根据实际训练任务获取算子计算顺序、算子特征、节点训练任务特征，并将其输入到耗时预测模块。对于该模块，本实施例用的是一个普通的CPU服务器，安装了pytorch1.13.1。在该服务器中，部署了由待预测的几层组成的虚拟训练任务，然后用较低的batchsize快速进行了少数step的训练，最后使用PytorchProfiler获取了算子的计算顺序与算子特征。

相应的，本申请实施例还公开了一种多元异构计算系统内节点的建模装置，参见图8所示，该装置包括：

性能测试模块11，用于利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；

模型构建模块12，用于构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。

在一些具体实施例中，所述模型构建模块12具体可以包括：

初始模型构建单元，用于按照嵌入层、多层人工神经网络、输出层的顺序构建得到初始模型。

在一些具体实施例中，所述模型构建模块12具体可以包括：

模型训练单元，用于以训练数据中的训练任务特征和算子特征为训练输入，以训练数据中的计算算子的计算耗时为标签，对所述初始模型进行训练，以得到以训练任务特征和算子特征为输入，以计算算子的计算耗时为输出的异构计算节点模型。

在一些具体实施例中，所述多元异构计算系统内节点的建模装置具体可以包括：

特征参数获取单元，用于通过特征获取模块获取所述待预测训练任务对应的特征参数；所述特征参数包括训练任务特征、算子计算顺序和算子特征；所述特征获取模块与所述异构计算节点具有相同的人工智能计算框架。

在一些具体实施例中，所述特征参数获取单元具体可以包括：

算子计算顺序确定单元，用于根据所述待预测训练任务的任务信息和所述特征获取模块的人工智能计算框架，确定出算子计算顺序和算子特征。

第一训练任务特征获取单元，用于根据所述待预测训练任务的任务信息提取得到所述训练任务特征；

第二训练任务特征获取单元，获取用户输入的训练任务特征信息，以得到所述训练任务特征。

在一些具体实施例中，所述训练任务特征具体可以包括单次训练样本个数、输入数据尺寸、输入数据存储类型和模型数据精度中的任意一项或多项。

在一些具体实施例中，所述算子特征具体可以包括算子名称、算子内部特征、算子输入尺寸特征、算子输出尺寸特征中的任意一项或多项。

训练任务获取单元，用于获取待预测训练任务；所述待预测训练任务为针对完整神经网络的训练任务，或针对部分神经网络的训练任务。

在一些具体实施例中，所述性能测试模块11具体可以包括：

训练任务生成单元，用于利用数据生成模块生成多个人工智能训练任务，以得到测试任务集；

性能测试单元，用于利用所述测试任务集对异构计算节点进行性能测试。

在一些具体实施例中，所述性能测试模块11具体可以包括：

性能测试单元，用于利用测试数据分别对每种类型对应的异构计算节点进行性能测试，得到不同类型的异构计算节点对应的测试结果数据，并从所述测试结果数据中提取出不同类型的异构计算节点对应的训练数据；

相应的，所述模型构建模块12，包括：

模型构建单元，用于构建不同类型的异构计算节点对应的初始模型，并利用所述训练数据对相应的初始模型进行训练以得到不同类型的异构计算节点对应的异构计算节点模型。

在一些具体实施例中，所述测试结果数据具体可以包括训练任务特征，以及每个计算算子的计算耗时、算子特征。

节点参数获取单元，用于获取待模拟的目标异构计算节点的节点参数，根据所述节点参数从模型库中确定出对应的目标异构计算节点模型；所述模型库内包含不同类型的异构计算节点对应的异构计算节点模型。

在一些具体实施例中，所述节点参数具体可以包括数据处理单元类型、人工智能加速器类型、人工智能计算框架和人工智能计算框架版本。

在一些具体实施例中，所述模型构建模块12具体可以包括：

算子耗时计算单元，用于根据所述特征参数利用目标异构计算节点模型，模拟目标异构计算节点运行所述待预测训练任务时每个算子的耗时；所述特征参数包括训练任务特征、算子计算顺序和算子特征；

训练时间线预测单元，用于基于每个算子的耗时，预测运行所述待预测训练任务时生成的算子级的训练时间线。

在一些具体实施例中，所述算子耗时计算单元具体可以用于根据所述训练任务特征和所述算子特征，预测目异构计算节点运行所述待预测训练任务时每个算子的耗时。

在一些具体实施例中，所述训练时间线预测单元具体可以用于根据每个算子的耗时和所述算子计算顺序，预测运行所述待预测训练任务时生成的算子级的训练时间线。

进一步的，本申请实施例还公开了一种电子设备，参见图9所示，图中的内容不能被认为是对本申请的使用范围的任何限制。

图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的多元异构计算系统内节点的建模方法中的相关步骤。

优选的，所述计算机程序执行时实现以下步骤：利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。可见，通过对多元异构计算系统内的异构计算节点进行性能测试，根据测试结果数据提取得到训练数据，利用训练数据对初始模型进行训练得到对应的异构计算节点模型，利用该异构计算节点模型可以在不实际运行异构计算节点的情况下，模拟该节点运行不同训练任务时的算子级的训练任务时间线，即模拟训练任务运行过程中每个算子启动与结束的具体时刻，低成本并准确地实现算子级别的工作时间线预测，从而辅助多元异构计算系统的整体建模，同时也可以辅助多元异构计算系统进行任务切分、集群部署等工作。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及包括测试数据在内的数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的多元异构计算系统内节点的建模方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的多元异构计算系统内节点的建模方法步骤。

优选的，所述计算机可执行指令执行时实现以下步骤：利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据；所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时；构建所述异构计算节点对应的初始模型，并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，以便所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。可见，通过对多元异构计算系统内的异构计算节点进行性能测试，根据测试结果数据提取得到训练数据，利用训练数据对初始模型进行训练得到对应的异构计算节点模型，利用该异构计算节点模型可以在不实际运行异构计算节点的情况下，模拟该节点运行不同训练任务时的算子级的训练任务时间线，即模拟训练任务运行过程中每个算子启动与结束的具体时刻，低成本并准确地实现算子级别的工作时间线预测，从而辅助多元异构计算系统的整体建模，同时也可以辅助多元异构计算系统进行任务切分、集群部署等工作。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种多元异构计算系统内节点的建模方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多元异构计算系统内节点的建模方法，其特征在于，包括：

2.根据权利要求1所述的多元异构计算系统内节点的建模方法，其特征在于，所述构建所述异构计算节点对应的初始模型，包括：

3.根据权利要求2所述的多元异构计算系统内节点的建模方法，其特征在于，所述利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型，包括：

4.根据权利要求1所述的多元异构计算系统内节点的建模方法，其特征在于，所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线之前，还包括：

5.根据权利要求4所述的多元异构计算系统内节点的建模方法，其特征在于，所述通过特征获取模块获取所述待预测训练任务对应的特征参数，包括：

6.根据权利要求4所述的多元异构计算系统内节点的建模方法，其特征在于，所述通过特征获取模块获取所述待预测训练任务对应的特征参数，包括：

7.根据权利要求4所述的多元异构计算系统内节点的建模方法，其特征在于，所述训练任务特征包括单次训练样本个数、输入数据尺寸、输入数据存储类型和模型数据精度中的任意一项或多项。

8.根据权利要求4所述的多元异构计算系统内节点的建模方法，其特征在于，所述算子特征包括算子名称、算子内部特征、算子输入尺寸特征、算子输出尺寸特征中的任意一项或多项。

9.根据权利要求1所述的多元异构计算系统内节点的建模方法，其特征在于，所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线之前，还包括：

10.根据权利要求1所述的多元异构计算系统内节点的建模方法，其特征在于，所述利用测试数据对多元异构计算系统内的异构计算节点进行性能测试，包括：

利用所述测试任务集对异构计算节点进行性能测试。

11.根据权利要求1所述的多元异构计算系统内节点的建模方法，其特征在于，所述利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据，并从所述测试结果数据中提取出训练数据，包括：

12.根据权利要求1所述的多元异构计算系统内节点的建模方法，其特征在于，所述测试结果数据包括训练任务特征，以及每个计算算子的计算耗时、算子特征。

13.根据权利要求1所述的多元异构计算系统内节点的建模方法，其特征在于，所述利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型之后，还包括：

14.根据权利要求13所述的多元异构计算系统内节点的建模方法，其特征在于，所述节点参数包括数据处理单元类型、人工智能加速器类型、人工智能计算框架和人工智能计算框架版本。

15.根据权利要求1至14任一项所述的多元异构计算系统内节点的建模方法，其特征在于，所述异构计算节点模型根据待预测训练任务对应的特征参数，模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线，包括：

16.根据权利要求15所述的多元异构计算系统内节点的建模方法，其特征在于，所述根据所述特征参数利用异构计算节点模型，模拟异构计算节点运行所述待预测训练任务时每个算子的耗时，包括：

17.根据权利要求15所述的多元异构计算系统内节点的建模方法，其特征在于，所述基于每个算子的耗时，预测运行所述待预测训练任务时生成的算子级的训练时间线，包括：

18.一种多元异构计算系统内节点的建模装置，其特征在于，包括：

19.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至17任一项所述的多元异构计算系统内节点的建模方法。

20.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中计算机程序被处理器执行时实现如权利要求1至17任一项所述的多元异构计算系统内节点的建模方法。