CN115543911B

CN115543911B - 一种异构计算设备计算能力测算的方法

Info

Publication number: CN115543911B
Application number: CN202211320824.8A
Authority: CN
Inventors: 董建; 鲍薇; 徐洋; 杨雨泽; 刘祥龙
Original assignee: China Electronics Standardization Institute
Current assignee: China Electronics Standardization Institute
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-08-01
Anticipated expiration: 2042-10-26
Also published as: CN115543911A

Abstract

本发明提供了一种异构计算设备计算能力测算的方法，适用于不同款芯片、相同款芯片、多芯片之间的精度测算；针对于不同芯片的标称值相同，但实际计算能力也不等同的问题，提出芯片标称算力的测算方法，y＝f(x)，提高了计算的准确率；本发明的异构计算设备计算能力测算的方法算法简单，可应用于同一款芯片、不同款芯片、多芯片多种模式，应用性好。

Description

一种异构计算设备计算能力测算的方法

技术领域

本发明算力技术领域，尤其涉及一种异构计算设备计算能力测算的方法。

背景技术

标称算力是随附在人工智能计算设备出厂说明上的，对计算设备每秒能够实施的操作数的理论估算值；计算设备含有多个芯片时，一般采用加和的方法，累计所有参与人工智能计算的芯片的每秒总操作数；

一般的算力皆有精度作为辅助说明，常见的精度包含：FP32，FP16，INT8等；对于浮点运算，使用FP32或FP16，标称算力单位为FLOPS(记为如256FLOPS@FP16)；对于整形计算采用INT8，标称算力单位TOPS(记为如256TOPS@INT8)；对于有多个不同精度下计算能力的芯片或计算设备，一般罗列算力(如XX计算设备支持128FLOPS@FP32，256FLOPS@FP16，64TOPS@INT8)；计算精度的测算可以使用2倍率，如1FLOPS@FP16＝2TOPS@INT8，1FLOPS@FP32＝4TOPS@INT8，但此法准确率不高。

现有技术当中，标称算力在芯片厂商内部的估计方法是：使用待测芯片计算非全零矩阵乘加，统计完成乘加的次数，再测算成OPS；而在实际业务当中，不单是仅乘加这么单一，因而这种方法仍然不准；同样的，因为算子种类多，有些需要特别处理过程；一般都会优化乘加计算，因为用量大；下游厂商的实验未做优化，1000多种算子的行效率可能不与乘加算子一致；

即便不同芯片的标称值一样，其微架构不同，完成同一计算的效率不一致；因而，到目前为止，找到芯片标称算力的测算方法，是待解决的缺陷问题；

因此，本领域的技术人员致力于开发一种异构计算设备计算能力测算的方法，以解决上述现有技术的不足。

发明内容

有鉴于现有技术的上述缺陷，本发明的目的是提供一种异构计算设备计算能力测算的方法，找到芯片标称算力的测算方法；

为实现上述目的，本发明一种异构计算设备计算能力测算的方法，本发明一种异构计算设备计算能力测算的方法，包括如下步骤，

步骤1、选取各类典型场景的深度学习模型集合S，芯片集合N，对于各类芯片统计时长和操作数；

步骤2、选取表中的两列，针对推理所得数据，基于S，在坐标系中绘制相应的点；

步骤3、根据步骤2所得结果，获得同一芯片不同精度间、不同芯片相同精度间计算能力的测算比例集合，总结出相应规律；

进一步地，所述步骤1中，所述对于过程中计算量的统计，应包含前向过程(模型计算量)和后向过程(参数更新计算量)；

进一步地，所述步骤1中，所述各类芯片包括不同款芯片、相同款芯片、多芯片；

进一步地，所述步骤1中，所述对于相同款芯片统计时长和操作数为，在同一芯片n∈N上，对在不同精度下统计时长和操作数；

进一步地，所述步骤1中，所述对于不同款芯片统计时长和操作数为，在不同模型、相同精度下统计时长和操作数；

进一步地，所述步骤1中，所述多芯片包括不同款芯片、相同款芯片，并将模型数量增大到S^*以上，芯片款型增加到N^*以上；

进一步地，所述步骤1中，所述多芯片精度测量还包括以下步骤，

步骤1-1、按芯片种类进行如下编码，以获得全面的数据表，

对于定义元组

n＝(t,id)

其中t为芯片种类，id为款型；

步骤1-2、将元组n与表中的任意一列数据作为输入，另外任一列作为输出，构建神经网络；所述神经网络可采用全连接或其他结构；所述其他结构由NAS过程筛选而得；所述神经网络即可对新数据给出准确预测；

进一步地，所述步骤1-1中，所述芯片种类包括1-GPU，2-NPU等；

进一步地，所述步骤1-1中，所述规律为根据所得的结果绘图，得到A、B两种结果；

进一步地，所述步骤1-1中，所述A结果为FLOPS@INT16与TOPS@INT8有稳定的测算关系；所述A结果应取包络的质心的斜率作为比例；

进一步地，所述步骤1-1中，所述B结果为无稳定的测算关系；

进一步地，所述步骤1-2中，所述网络也可通过NAS寻找网络结构；所述网络结构应能以不小于67％的精度，将任意款型、任意精度的芯片的标称算力，测算为其他任意款型、任意精度的芯片的标称算力；

采用以上方案，本发明公开的一种异构计算设备计算能力测算的方法，具有以下优点：

(1)本发明的一种异构计算设备计算能力测算的方法，针对于不同芯片的标称值即便一样，但实际计算能力也不等同的缺陷问题，找到芯片标称算力的测算方法，y＝f(x)，提高了计算的准确率；

(2)本发明的一种异构计算设备计算能力测算的方法，算法简单，可应用于同一款芯片、不同款芯片、多芯片多种模式，应用性好；

综上所述，本发明公开的一种异构计算设备计算能力测算的方法，针对于不同芯片的标称值即便一样，但实际计算能力也不等同的缺陷问题，找到芯片标称算力的测算方法，y＝f(x)，提高了计算的准确率；算法简单，可应用于同一款芯片、不同款芯片、多芯片多种模式，应用性好。

以下将结合具体实施方式对本发明的构思、具体技术方案及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明一种异构计算设备计算能力测算的方法实施例1中，同一款芯片精度测算实验结果；

图2是本发明一种异构计算设备计算能力测算的方法实施例2中，不同芯片精度测算实验结果；

具体实施方式

以下介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，这些实施例为示例性描述，本发明的保护范围并非仅限于文中提到的实施例。

实施例1、训练场景下，同一款芯片在不同模型、精度下进行精度测算

步骤1、选取各类典型场景的深度学习模型集合S，芯片集合N，在同一芯片n∈N上，对在不同精度下统计时长和操作数；如表1、表2所示；

其中，T_s1-FP32-T、OPS_s1-FP32-T分别表示芯片在训练场景下，模型为s1，精度为FP32时的训练时长和操作数；T_s1-FP16-I、OPS_s1-FP16-I分别表示芯片在推理场景下，模型为s1，精度为FP16时的推理时长和操作数；

对于训练过程计算量的统计，应包含前向过程(模型计算量)和后向过程(参数更新计算量)，推理过程仅包含前向；

表1训练场景下同一芯片在不同模型、精度下的实验

表2推理场景下同一芯片在不同模型、精度下的实验

步骤2、选取表中的两列(如FP16，INT8)，针对推理所得数据，基于S，在坐标系(横坐标FP16下的FLOPS，纵坐标INT8下的TOPS)中绘制相应的点，如图1所示；可能存在如下A、B两种情况，其中：

A：FLOPS@INT16与TOPS@INT8有稳定的测算关系。此种情况，应取包络的质心的斜率作为比例；

B：无稳定的测算关系；

结果数据：经本发明实施例1实验后，所得本此实验的相同款芯片的实验结果为A类，可知该类相同款芯片的测算关系为比率：0.91；

实施例2、训练场景下，不同款芯片在不同模型、精度下进行精度测算

步骤1、选取各类典型场景的深度学习模型集合S，芯片集合N，在不同模型、相同精度下统计时长和操作数，如表3、表4所示；其中，T_n1-s1-FP64-T、OPS_n1-s1-FP64-T分别表示芯片n1在训练场景下，模型为s1，精度为FP64时的训练时长和操作数；

T_n1-s1-FP16-I、OPS_n1-s1-FP16-I分别表示芯片n1在推理场景下，模型为s1，精度为FP16时的推理时长和操作数；

表3训练场景下不同芯片在相同精度下的实验

表4推理场景下不同芯片在相同精度下的实验

步骤2、依据不同款芯片n1，n2相同实验(如相同精度，如都在INT8下的对同一模型s^*∈S的推理)的结果绘图，获得相同精度、不同芯片间的算力测算关系；如图2所示；

可能存在如下A、B两种情况，其中：

A：FLOPS@INT16与TOPS@INT8有稳定的测算关系；此种情况，应取包络的质心的斜率作为比例；

B：无稳定的测算关系；

结果数据：经本发明实施例2实验后，所得不同款芯片n1，n2的实验结果为A类，可知不同款芯片n1，n2的测算关系为比率：0.88；

实施例3、训练场景下，多芯片在不同模型、精度下进行精度测算

步骤1、选取各类典型场景的深度学习模型集合S，芯片集合N，分别对于不同款芯片、相同款芯片统计时长和操作数；

步骤1-1、训练场景下，同一款芯片在不同模型、精度下进行精度测算

选取各类典型场景的深度学习模型集合S，芯片集合N，在同一芯片n∈N上，对在不同精度下统计时长和操作数；如表1、表2所示；

步骤1-2、训练场景下，不同款芯片在不同模型、精度下进行精度测算

选取各类典型场景的深度学习模型集合S，芯片集合N，在不同模型、相同精度下统计时长和操作数，如表3、表4所示；其中，T_n1-s1-FP64-T、OPS_n1-s1-FP64-T分别表示芯片n1在训练场景下，模型为s1，精度为FP64时的训练时长和操作数；T_n1-s1-FP16-I、OPS_n1-s1-FP16-I分别表示芯片n1在推理场景下，模型为s1，精度为FP16时的推理时长和操作数；

步骤2-1、对于相同芯片实验所得数据，选取表中的两列(如FP16，INT8)，针对推理所得数据，基于S，在坐标系(横坐标FP16下的FLOPS，纵坐标INT8下的TOPS)中绘制相应的点，如图1所示；

步骤2-2、对于不同芯片实验所得数据，依据不同款芯片n1，n2相同实验(如相同精度，如都在INT8下的对同一模型s^*∈S的推理)的结果绘图，获得相同精度、不同芯片间的算力测算关系；如图2所示；

所得图像可能存在如下A、B两种结果情况，其中：

B：无稳定的测算关系；

由图1可知，图1中相同芯片精度测算实验结果为A类；

由图2可知，图2中不同芯片精度测算实验结果为A类；

步骤4、根据步骤1、2的实验，获得全面的数据表，将实验的模型数量增大到S^*

(100)以上，芯片款型增加到N^*(10)以上，并按芯片种类进行如下编码：

对定义元组

n＝(t,id)

其中，t为芯片种类(1-GPU，2-NPU等)，id为款型(1-X厂Y型芯片)；

步骤5、将元组n与表中的任意一列数据作为输入，另外任一列作为输出，构建神经网络；所述神经网络可采用全连接或其他结构；所述其他结构由NAS过程筛选而得；，所述神经网络即可对新数据给出准确预测，也可通过NAS寻找网络结构；所述网络结构应能以不小于67％的精度，将任意款型、任意精度的芯片的标称算力，测算为其他任意款型、任意精度的芯片的标称算力；

结果数据：经本发明实施例3实验后，所得多芯片在不同模型、精度下进行精度测算的实验结果为A类，可知多芯片的测算关系为比率：0.83；

综上所述，本专利技术方案，针对于不同芯片的标称值即便一样，但实际计算能力也不等同的缺陷问题，找到芯片标称算力的测算方法，y＝f(x)，提高了计算的准确率；算法简单，可应用于同一款芯片、不同款芯片、多芯片多种模式，应用性好。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种异构计算设备计算能力测算的方法，其特征在于，包括如下步骤，

所述步骤1中，

对于过程中计算量的统计，应包含前向过程中的模型计算量和后向过程中的参数更新计算量；

所述步骤1中，

所述各类芯片包括不同款芯片、相同款芯片、多芯片；

所述步骤1中，

对于所述相同款芯片统计时长和操作数为，在同一芯片上，对同一模型/>在不同精度下统计时长和操作数；

所述n为芯片；

所述N为步骤1选取的芯片集合；

所述s为深度学习模型；

所述S为步骤1选取的深度学习模型集合；对于所述不同款芯片统计时长和操作数为，在不同模型、相同精度下统计时长和操作数；

所述步骤1中，

所述多芯片包括不同款芯片、相同款芯片，并将模型数量增大到S^*以上，芯片款型增加到N^*以上；

所述步骤1中，

对所述多芯片进行测算还包括以下步骤，

步骤1-1、按芯片种类进行如下编码，以获得全面的数据表，

对于定义元组

n＝(t,id)

其中t为芯片种类，id为款型；

所述步骤1-1中，

所述芯片种类包括1-GPU，2-NPU；

所述规律为根据所得的结果绘图，得到A、B两种结果；

A结果为FLOPS@INT16与TOPS@INT8有稳定的测算关系；A结果应取包络的质心的斜率作为比例；

B结果为无稳定的测算关系。

2.如权利要求1所述异构计算设备计算能力测算的方法，其特征在于，所述步骤1-2中，

所述网络也可通过NAS寻找网络结构；所述网络结构应能以不小于67％的精度，将任意款型、任意精度的芯片的标称算力，测算为其他任意款型、任意精度的芯片的标称算力。