CN115543911B - 一种异构计算设备计算能力测算的方法 - Google Patents

一种异构计算设备计算能力测算的方法 Download PDF

Info

Publication number
CN115543911B
CN115543911B CN202211320824.8A CN202211320824A CN115543911B CN 115543911 B CN115543911 B CN 115543911B CN 202211320824 A CN202211320824 A CN 202211320824A CN 115543911 B CN115543911 B CN 115543911B
Authority
CN
China
Prior art keywords
chip
precision
chips
calculating
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211320824.8A
Other languages
English (en)
Other versions
CN115543911A (zh
Inventor
董建
鲍薇
徐洋
杨雨泽
刘祥龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Standardization Institute
Original Assignee
China Electronics Standardization Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Standardization Institute filed Critical China Electronics Standardization Institute
Priority to CN202211320824.8A priority Critical patent/CN115543911B/zh
Publication of CN115543911A publication Critical patent/CN115543911A/zh
Application granted granted Critical
Publication of CN115543911B publication Critical patent/CN115543911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7803System on board, i.e. computer system on one or more PCB, e.g. motherboards, daughterboards or blades
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种异构计算设备计算能力测算的方法,适用于不同款芯片、相同款芯片、多芯片之间的精度测算;针对于不同芯片的标称值相同,但实际计算能力也不等同的问题,提出芯片标称算力的测算方法,y=f(x),提高了计算的准确率;本发明的异构计算设备计算能力测算的方法算法简单,可应用于同一款芯片、不同款芯片、多芯片多种模式,应用性好。

Description

一种异构计算设备计算能力测算的方法
技术领域
本发明算力技术领域,尤其涉及一种异构计算设备计算能力测算的方法。
背景技术
标称算力是随附在人工智能计算设备出厂说明上的,对计算设备每秒能够实施的操作数的理论估算值;计算设备含有多个芯片时,一般采用加和的方法,累计所有参与人工智能计算的芯片的每秒总操作数;
一般的算力皆有精度作为辅助说明,常见的精度包含:FP32,FP16,INT8等;对于浮点运算,使用FP32或FP16,标称算力单位为FLOPS(记为如256FLOPS@FP16);对于整形计算采用INT8,标称算力单位TOPS(记为如256TOPS@INT8);对于有多个不同精度下计算能力的芯片或计算设备,一般罗列算力(如XX计算设备支持128FLOPS@FP32,256FLOPS@FP16,64TOPS@INT8);计算精度的测算可以使用2倍率,如1FLOPS@FP16=2TOPS@INT8,1FLOPS@FP32=4TOPS@INT8,但此法准确率不高。
现有技术当中,标称算力在芯片厂商内部的估计方法是:使用待测芯片计算非全零矩阵乘加,统计完成乘加的次数,再测算成OPS;而在实际业务当中,不单是仅乘加这么单一,因而这种方法仍然不准;同样的,因为算子种类多,有些需要特别处理过程;一般都会优化乘加计算,因为用量大;下游厂商的实验未做优化,1000多种算子的行效率可能不与乘加算子一致;
即便不同芯片的标称值一样,其微架构不同,完成同一计算的效率不一致;因而,到目前为止,找到芯片标称算力的测算方法,是待解决的缺陷问题;
因此,本领域的技术人员致力于开发一种异构计算设备计算能力测算的方法,以解决上述现有技术的不足。
发明内容
有鉴于现有技术的上述缺陷,本发明的目的是提供一种异构计算设备计算能力测算的方法,找到芯片标称算力的测算方法;
为实现上述目的,本发明一种异构计算设备计算能力测算的方法,本发明一种异构计算设备计算能力测算的方法,包括如下步骤,
步骤1、选取各类典型场景的深度学习模型集合S,芯片集合N,对于各类芯片统计时长和操作数;
步骤2、选取表中的两列,针对推理所得数据,基于S,在坐标系中绘制相应的点;
步骤3、根据步骤2所得结果,获得同一芯片不同精度间、不同芯片相同精度间计算能力的测算比例集合,总结出相应规律;
进一步地,所述步骤1中,所述对于过程中计算量的统计,应包含前向过程(模型计算量)和后向过程(参数更新计算量);
进一步地,所述步骤1中,所述各类芯片包括不同款芯片、相同款芯片、多芯片;
进一步地,所述步骤1中,所述对于相同款芯片统计时长和操作数为,在同一芯片n∈N上,对在不同精度下统计时长和操作数;
进一步地,所述步骤1中,所述对于不同款芯片统计时长和操作数为,在不同模型、相同精度下统计时长和操作数;
进一步地,所述步骤1中,所述多芯片包括不同款芯片、相同款芯片,并将模型数量增大到S*以上,芯片款型增加到N*以上;
进一步地,所述步骤1中,所述多芯片精度测量还包括以下步骤,
步骤1-1、按芯片种类进行如下编码,以获得全面的数据表,
对于定义元组
n=(t,id)
其中t为芯片种类,id为款型;
步骤1-2、将元组n与表中的任意一列数据作为输入,另外任一列作为输出,构建神经网络;所述神经网络可采用全连接或其他结构;所述其他结构由NAS过程筛选而得;所述神经网络即可对新数据给出准确预测;
进一步地,所述步骤1-1中,所述芯片种类包括1-GPU,2-NPU等;
进一步地,所述步骤1-1中,所述规律为根据所得的结果绘图,得到A、B两种结果;
进一步地,所述步骤1-1中,所述A结果为FLOPS@INT16与TOPS@INT8有稳定的测算关系;所述A结果应取包络的质心的斜率作为比例;
进一步地,所述步骤1-1中,所述B结果为无稳定的测算关系;
进一步地,所述步骤1-2中,所述网络也可通过NAS寻找网络结构;所述网络结构应能以不小于67%的精度,将任意款型、任意精度的芯片的标称算力,测算为其他任意款型、任意精度的芯片的标称算力;
采用以上方案,本发明公开的一种异构计算设备计算能力测算的方法,具有以下优点:
(1)本发明的一种异构计算设备计算能力测算的方法,针对于不同芯片的标称值即便一样,但实际计算能力也不等同的缺陷问题,找到芯片标称算力的测算方法,y=f(x),提高了计算的准确率;
(2)本发明的一种异构计算设备计算能力测算的方法,算法简单,可应用于同一款芯片、不同款芯片、多芯片多种模式,应用性好;
综上所述,本发明公开的一种异构计算设备计算能力测算的方法,针对于不同芯片的标称值即便一样,但实际计算能力也不等同的缺陷问题,找到芯片标称算力的测算方法,y=f(x),提高了计算的准确率;算法简单,可应用于同一款芯片、不同款芯片、多芯片多种模式,应用性好。
以下将结合具体实施方式对本发明的构思、具体技术方案及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明一种异构计算设备计算能力测算的方法实施例1中,同一款芯片精度测算实验结果;
图2是本发明一种异构计算设备计算能力测算的方法实施例2中,不同芯片精度测算实验结果;
具体实施方式
以下介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,这些实施例为示例性描述,本发明的保护范围并非仅限于文中提到的实施例。
实施例1、训练场景下,同一款芯片在不同模型、精度下进行精度测算
步骤1、选取各类典型场景的深度学习模型集合S,芯片集合N,在同一芯片n∈N上,对在不同精度下统计时长和操作数;如表1、表2所示;
其中,Ts1-FP32-T、OPSs1-FP32-T分别表示芯片在训练场景下,模型为s1,精度为FP32时的训练时长和操作数;Ts1-FP16-I、OPSs1-FP16-I分别表示芯片在推理场景下,模型为s1,精度为FP16时的推理时长和操作数;
对于训练过程计算量的统计,应包含前向过程(模型计算量)和后向过程(参数更新计算量),推理过程仅包含前向;
表1训练场景下同一芯片在不同模型、精度下的实验
表2推理场景下同一芯片在不同模型、精度下的实验
步骤2、选取表中的两列(如FP16,INT8),针对推理所得数据,基于S,在坐标系(横坐标FP16下的FLOPS,纵坐标INT8下的TOPS)中绘制相应的点,如图1所示;可能存在如下A、B两种情况,其中:
A:FLOPS@INT16与TOPS@INT8有稳定的测算关系。此种情况,应取包络的质心的斜率作为比例;
B:无稳定的测算关系;
结果数据:经本发明实施例1实验后,所得本此实验的相同款芯片的实验结果为A类,可知该类相同款芯片的测算关系为比率:0.91;
实施例2、训练场景下,不同款芯片在不同模型、精度下进行精度测算
步骤1、选取各类典型场景的深度学习模型集合S,芯片集合N,在不同模型、相同精度下统计时长和操作数,如表3、表4所示;其中,Tn1-s1-FP64-T、OPSn1-s1-FP64-T分别表示芯片n1在训练场景下,模型为s1,精度为FP64时的训练时长和操作数;
Tn1-s1-FP16-I、OPSn1-s1-FP16-I分别表示芯片n1在推理场景下,模型为s1,精度为FP16时的推理时长和操作数;
表3训练场景下不同芯片在相同精度下的实验
表4推理场景下不同芯片在相同精度下的实验
步骤2、依据不同款芯片n1,n2相同实验(如相同精度,如都在INT8下的对同一模型s*∈S的推理)的结果绘图,获得相同精度、不同芯片间的算力测算关系;如图2所示;
可能存在如下A、B两种情况,其中:
A:FLOPS@INT16与TOPS@INT8有稳定的测算关系;此种情况,应取包络的质心的斜率作为比例;
B:无稳定的测算关系;
结果数据:经本发明实施例2实验后,所得不同款芯片n1,n2的实验结果为A类,可知不同款芯片n1,n2的测算关系为比率:0.88;
实施例3、训练场景下,多芯片在不同模型、精度下进行精度测算
步骤1、选取各类典型场景的深度学习模型集合S,芯片集合N,分别对于不同款芯片、相同款芯片统计时长和操作数;
步骤1-1、训练场景下,同一款芯片在不同模型、精度下进行精度测算
选取各类典型场景的深度学习模型集合S,芯片集合N,在同一芯片n∈N上,对在不同精度下统计时长和操作数;如表1、表2所示;
其中,Ts1-FP32-T、OPSs1-FP32-T分别表示芯片在训练场景下,模型为s1,精度为FP32时的训练时长和操作数;Ts1-FP16-I、OPSs1-FP16-I分别表示芯片在推理场景下,模型为s1,精度为FP16时的推理时长和操作数;
对于训练过程计算量的统计,应包含前向过程(模型计算量)和后向过程(参数更新计算量),推理过程仅包含前向;
步骤1-2、训练场景下,不同款芯片在不同模型、精度下进行精度测算
选取各类典型场景的深度学习模型集合S,芯片集合N,在不同模型、相同精度下统计时长和操作数,如表3、表4所示;其中,Tn1-s1-FP64-T、OPSn1-s1-FP64-T分别表示芯片n1在训练场景下,模型为s1,精度为FP64时的训练时长和操作数;Tn1-s1-FP16-I、OPSn1-s1-FP16-I分别表示芯片n1在推理场景下,模型为s1,精度为FP16时的推理时长和操作数;
步骤2、选取表中的两列,针对推理所得数据,基于S,在坐标系中绘制相应的点;
步骤2-1、对于相同芯片实验所得数据,选取表中的两列(如FP16,INT8),针对推理所得数据,基于S,在坐标系(横坐标FP16下的FLOPS,纵坐标INT8下的TOPS)中绘制相应的点,如图1所示;
步骤2-2、对于不同芯片实验所得数据,依据不同款芯片n1,n2相同实验(如相同精度,如都在INT8下的对同一模型s*∈S的推理)的结果绘图,获得相同精度、不同芯片间的算力测算关系;如图2所示;
所得图像可能存在如下A、B两种结果情况,其中:
A:FLOPS@INT16与TOPS@INT8有稳定的测算关系;此种情况,应取包络的质心的斜率作为比例;
B:无稳定的测算关系;
步骤3、根据步骤2所得结果,获得同一芯片不同精度间、不同芯片相同精度间计算能力的测算比例集合,总结出相应规律;
由图1可知,图1中相同芯片精度测算实验结果为A类;
由图2可知,图2中不同芯片精度测算实验结果为A类;
步骤4、根据步骤1、2的实验,获得全面的数据表,将实验的模型数量增大到S*
(100)以上,芯片款型增加到N*(10)以上,并按芯片种类进行如下编码:
定义元组
n=(t,id)
其中,t为芯片种类(1-GPU,2-NPU等),id为款型(1-X厂Y型芯片);
步骤5、将元组n与表中的任意一列数据作为输入,另外任一列作为输出,构建神经网络;所述神经网络可采用全连接或其他结构;所述其他结构由NAS过程筛选而得;,所述神经网络即可对新数据给出准确预测,也可通过NAS寻找网络结构;所述网络结构应能以不小于67%的精度,将任意款型、任意精度的芯片的标称算力,测算为其他任意款型、任意精度的芯片的标称算力;
结果数据:经本发明实施例3实验后,所得多芯片在不同模型、精度下进行精度测算的实验结果为A类,可知多芯片的测算关系为比率:0.83;
综上所述,本专利技术方案,针对于不同芯片的标称值即便一样,但实际计算能力也不等同的缺陷问题,找到芯片标称算力的测算方法,y=f(x),提高了计算的准确率;算法简单,可应用于同一款芯片、不同款芯片、多芯片多种模式,应用性好。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (2)

1.一种异构计算设备计算能力测算的方法,其特征在于,包括如下步骤,
步骤1、选取各类典型场景的深度学习模型集合S,芯片集合N,对于各类芯片统计时长和操作数;
步骤2、选取表中的两列,针对推理所得数据,基于S,在坐标系中绘制相应的点;
步骤3、根据步骤2所得结果,获得同一芯片不同精度间、不同芯片相同精度间计算能力的测算比例集合,总结出相应规律;
所述步骤1中,
对于过程中计算量的统计,应包含前向过程中的模型计算量和后向过程中的参数更新计算量;
所述步骤1中,
所述各类芯片包括不同款芯片、相同款芯片、多芯片;
所述步骤1中,
对于所述相同款芯片统计时长和操作数为,在同一芯片上,对同一模型/>在不同精度下统计时长和操作数;
所述n为芯片;
所述N为步骤1选取的芯片集合;
所述s为深度学习模型;
所述S为步骤1选取的深度学习模型集合;对于所述不同款芯片统计时长和操作数为,在不同模型、相同精度下统计时长和操作数;
所述步骤1中,
所述多芯片包括不同款芯片、相同款芯片,并将模型数量增大到S*以上,芯片款型增加到N*以上;
所述步骤1中,
对所述多芯片进行测算还包括以下步骤,
步骤1-1、按芯片种类进行如下编码,以获得全面的数据表,
对于定义元组
n=(t,id)
其中t为芯片种类,id为款型;
步骤1-2、将元组n与表中的任意一列数据作为输入,另外任一列作为输出,构建神经网络;所述神经网络可采用全连接或其他结构;所述其他结构由NAS过程筛选而得;所述神经网络即可对新数据给出准确预测;
所述步骤1-1中,
所述芯片种类包括1-GPU,2-NPU;
所述规律为根据所得的结果绘图,得到A、B两种结果;
A结果为FLOPS@INT16与TOPS@INT8有稳定的测算关系;A结果应取包络的质心的斜率作为比例;
B结果为无稳定的测算关系。
2.如权利要求1所述异构计算设备计算能力测算的方法,其特征在于,所述步骤1-2中,
所述网络也可通过NAS寻找网络结构;所述网络结构应能以不小于67%的精度,将任意款型、任意精度的芯片的标称算力,测算为其他任意款型、任意精度的芯片的标称算力。
CN202211320824.8A 2022-10-26 2022-10-26 一种异构计算设备计算能力测算的方法 Active CN115543911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211320824.8A CN115543911B (zh) 2022-10-26 2022-10-26 一种异构计算设备计算能力测算的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211320824.8A CN115543911B (zh) 2022-10-26 2022-10-26 一种异构计算设备计算能力测算的方法

Publications (2)

Publication Number Publication Date
CN115543911A CN115543911A (zh) 2022-12-30
CN115543911B true CN115543911B (zh) 2023-08-01

Family

ID=84718675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211320824.8A Active CN115543911B (zh) 2022-10-26 2022-10-26 一种异构计算设备计算能力测算的方法

Country Status (1)

Country Link
CN (1) CN115543911B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239844A (zh) * 2021-11-01 2022-03-25 中国电子科技集团公司第十五研究所 算力的计算方法、装置、终端设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254584A (zh) * 2020-09-23 2022-03-29 长鑫存储技术有限公司 芯片产品的对比方法、建模方法、装置及存储介质
CN112600919B (zh) * 2020-12-10 2022-06-21 中国科学院深圳先进技术研究院 一种基于PoW共识机制的设备算力评价方法及系统
CN113032195B (zh) * 2021-03-24 2023-05-23 上海西井信息科技有限公司 芯片仿真验证方法、系统、设备及存储介质
CN114355175A (zh) * 2021-12-02 2022-04-15 成都鲁易科技有限公司 芯片性能的测评方法及装置、存储介质、计算机设备
CN114492742A (zh) * 2022-01-12 2022-05-13 共达地创新技术(深圳)有限公司 神经网络结构搜索、模型发布方法、电子设备和存储介质
CN114816740A (zh) * 2022-04-13 2022-07-29 浪潮通信信息系统有限公司 一种服务器算力计算方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239844A (zh) * 2021-11-01 2022-03-25 中国电子科技集团公司第十五研究所 算力的计算方法、装置、终端设备和存储介质

Also Published As

Publication number Publication date
CN115543911A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
US20200401873A1 (en) Hardware architecture and processing method for neural network activation function
CN110363281A (zh) 一种卷积神经网络量化方法、装置、计算机和存储介质
CN104484703B (zh) 一种基于列梅兹逼近算法的sigmoid函数拟合硬件电路
CN107273090A (zh) 面向神经网络处理器的近似浮点乘法器及浮点数乘法
CN110008952B (zh) 一种目标识别方法及设备
CN111612147A (zh) 深度卷积网络的量化方法
CN113741858B (zh) 存内乘加计算方法、装置、芯片和计算设备
CN112434801B (zh) 一种按照比特精度进行权重拆分的卷积运算加速方法
WO2021073196A1 (zh) 基于高精度取舍方式的误差可控的数据处理系统及方法
JP7292297B2 (ja) 確率的丸めロジック
CN110109646A (zh) 数据处理方法、装置和乘加器及存储介质
CN111240746A (zh) 一种浮点数据反量化及量化的方法和设备
CN115543911B (zh) 一种异构计算设备计算能力测算的方法
CN110503182A (zh) 深度神经网络中的网络层运算方法及装置
CN110210611A (zh) 一种用于卷积神经网络计算的动态自适应数据截断方法
CN110222815A (zh) 适用于深度学习硬件加速器的可配置激活函数装置及方法
CN112200299B (zh) 神经网络计算装置、数据处理方法及装置
Mauchly The Use of High Speed Vacuum Tube Devices for Calculating: [August 1942]
Moroz et al. Algorithms for calculating the square root and inverse square root based on the second-order householder's method
CN114580345B (zh) 电路仿真方法、装置、计算机设备及计算机可读存储介质
CN111026879B (zh) 多维度价值导向的针对意图的面向对象数值计算方法
CN104317861A (zh) 一种基于互信息的区间数据的属性选择方法
CN112182805A (zh) 机械产品可靠性确定方法及系统、终端、存储介质
CN112800669B (zh) 专用加速器中基于概率图模型的多种近似技术误差评估方法
CN114463592B (zh) 一种应用于depthwise卷积的量化计算方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant