CN116795508A - 一种平铺加速器资源调度方法及系统 - Google Patents
一种平铺加速器资源调度方法及系统 Download PDFInfo
- Publication number
- CN116795508A CN116795508A CN202310685736.6A CN202310685736A CN116795508A CN 116795508 A CN116795508 A CN 116795508A CN 202310685736 A CN202310685736 A CN 202310685736A CN 116795508 A CN116795508 A CN 116795508A
- Authority
- CN
- China
- Prior art keywords
- scheduling
- layer
- cut
- accelerator
- resource allocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000010410 layer Substances 0.000 claims abstract description 174
- 238000013468 resource allocation Methods 0.000 claims abstract description 110
- 239000011229 interlayer Substances 0.000 claims abstract description 67
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000002922 simulated annealing Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000005457 optimization Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 230000001965 increasing effect Effects 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000006872 improvement Effects 0.000 abstract description 12
- 230000009467 reduction Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 19
- 239000000872 buffer Substances 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 230000008901 benefit Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 235000008694 Humulus lupulus Nutrition 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 210000000538 tail Anatomy 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010923 batch production Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000364483 Lipeurus epsilon Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001609 comparable effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 235000021476 total parenteral nutrition Nutrition 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种平铺加速器资源调度方法及系统,属于资源调度技术领域,包括:接收DNN相关任务的任务请求、DNN工作负载和硬件参数;响应任务请求,基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,调度流程分为自上而下的层间调度和层内调度;所述层间调度采用基于资源分配树表示法的调度方法,确定每一层的计算顺序和分配资源,将计算顺序和分配资源解析为相应的资源分配方案、HW‑tiles之间以及HW‑tiles和DRAM之间的数据流;所述层内调度将每一层映射到分配的HW‑tile组上;调度结果经过翻译生成加速器芯片指令。本发明可以同时实现性能提升1.78倍,能效成本降低13.2%。
Description
技术领域
本发明所属领域是资源调度技术领域,具体涉及一种平铺加速器资源调度方法与系统。
背景技术
现有技术已经通过创建了广泛的深度神经网络(DNN)来解决许多领域的现实问题,例如图像识别、对象检测和自然语言处理。随着对更高精度和更好的复杂场景适应性的追求,深度神经网络越来越深,结构也越来越复杂。
在这种趋势下,许多规模从几十平方毫米到甚至整个晶圆的大型加速器被开发出来,以加速这种日益复杂的DNN的推理周期。考虑到单个大型HW-tile的利用率和能效较低,这些大型加速器主要采用平铺架构,其中每个HW-tile包括一个处理元件(PE)阵列和一个全局缓冲区,并通过片上网络(NoC)互连。
然而,平铺架构本身并不能轻易保证高利用率和能效。如何有效地将海量计算和存储资源转化为实际性能仍然是一个悬而未决的挑战。解决这一挑战的关键在于调度,调度可分为层内调度和层间调度。
层内调度研究如何将单个层映射到一个或多个HW-tile。它的空间已被许多表示法描述,并通过各种方法进行了探索。
层间调度研究如何在加速器上调度DNN中所有层的计算顺序和分配资源,这也显着影响加速器的能效和性能。例如,Fused-layer为不同的层分配不同的计算资源,并以层流水线(LP)的方式编排层,与逐层计算的基本版本的层顺序(LS)模式相比,DRAM访问减少了95%逐层计算。而且,加速器规模越大,层间调度的影响越大。例如,七巧板提出了优化的LP和LS技术,在32×32-tile加速器上实现了67%的节能,而在4×4-tile加速器上节能不到20%。
尽管层间调度在保持平铺加速器的高利用率和能效方面发挥着越来越重要的作用,但其研究存在重大缺陷:大多数工作继续优化现有的启发式算法模式、LP和LS,但没有提出新的模式,更不用说清楚和系统地定义平铺加速器上的层间调度空间。缺乏对层间调度空间的明确定义极大地限制了优化平铺加速器的性能和能效的机会。此外,缺乏系统的定义阻碍了人们理解不同的层间调度选择如何影响不同的硬件行为以及这些行为如何进一步影响加速器的能效和性能。
随着DNN加速器规模的不断扩大,研究DNN中各层计算资源分配和各层计算顺序的层间调度对保持DNN推理加速器的高利用率和能效发挥着越来越重要的作用。然而,目前的层间调度主要是基于一些启发式模式进行的。层间调度的空间尚未明确定义,导致优化机会显着受限,并且缺乏对不同层间调度选择及其后果的理解。
发明内容
为了解决现有技术中存在的问题,本发明提供了一种平铺加速器资源调度方法及系统。本方法可以同时实现性能提升1.78倍,能效成本降低13.2%。
为达到上述目的,本发明采用以下技术方案予以实现:
第一方面,本发明提供一种平铺加速器资源调度方法,包括:
接收DNN相关任务的任务请求、DNN工作负载和硬件参数;
响应任务请求,基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,调度流程分为自上而下的层间调度和层内调度;所述层间调度采用基于资源分配树表示法的调度方法,确定每一层的计算顺序和分配资源,将计算顺序和分配资源解析为相应的资源分配方案、HW-tiles之间以及HW-tiles和DRAM之间的数据流;所述层内调度将每一层映射到分配的HW-tile组上;
调度结果经过翻译生成加速器芯片指令。
作为本发明进一步改进,所述资源分配树表示法有三种类型的Nodes:Leaf、S Cut和T Cut;
每一个Leaf位于资源分配树的末端,表示单层的计算;
每一个Cut节点位于资源分配树的非末端,表示一层或几层的计算;
S Cut和T Cut具有两个层次的表示意义;从父节点来看,代表其子节点包含的所有层的处理;从子节点的角度来看,子节点的计算空间资源以及计算时间资源由父节点进行分配;其中S Cut负责计算资源的空间分配,每个S Cut的子节点分配到不同的计算资源,TCut负责计算资源的计算时间分配,其不同的子节点使用同一计算资源的不同时间段;
每一个资源分配树都代表一个层间调度方案,以层次化的方式对其进行分析,最终解析为具体的每个层的资源分配方案和HW-tile之间以及HW-tile与DRAM之间的数据流。
作为本发明进一步改进,所述每个Node拥有一个或几个层,表示一层或几层的计算顺序;
每个Node拥有一组HW-tiles,称为HW-tile组,用于计算Node的工作负载;HW-tile组中HW-tile的数量称为HW-tile组大小;
每个节点都有批大小,是节点对其总批数进行拆分之后每次处理的样本数;
每个Node包含依赖信息,记录其包含的层在DNN中依赖关系。
作为本发明进一步改进,所述将DNN调度到目标平铺加速器上,通过优化算法探索层间调度空间,基于穷举搜索的方法探索层内调度空间;所述优化算法包括随机搜索、模拟退火或基因算法,每一次迭代需要对树进行操作变化。
作为本发明进一步改进,所述每一次迭代需要对树进行操作变化采用算子包括:
OP1:随机选择两个相邻的Leaves,然后交换;
OP2:随机选择一个Leaf并将其移动到另一个共享相同上一级节点或上上级节点的Cut。
作为本发明进一步改进,所述每一次迭代需要对树进行操作变化采用算子包括:
OP3:随机选择一个Cut,然后随机选择一组连续的子批次构成一个新的Cut;
OP4:随机选择一个非根Cut并将其删除,然后将其子节点Cut放入其上一级Cut;
作为本发明进一步改进,所述每一次迭代需要对树进行操作变化采用算子包括:
OP5:随机选择一个Cut并随机增加其子批次编号;
OP6:随机选择一个Cut并随机减少其子批次编号。
第二方面,本发明提供一种平铺加速器资源调度系统,包括:
接收模块,用于接收DNN相关任务的任务请求、DNN工作负载和硬件参数;
调度模块,用于响应任务请求,基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,调度流程分为自上而下的层间调度和层内调度;所述层间调度采用基于资源分配树表示法的调度方法,确定每一层的计算顺序和分配资源,将计算顺序和分配资源解析为相应的资源分配方案、HW-tiles之间以及HW-tiles和DRAM之间的数据流;所述层内调度将每一层映射到分配的HW-tile组上;
发送模块,用于调度结果经过翻译生成加速器芯片指令。
第三方面,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述平铺加速器资源调度方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述平铺加速器资源调度方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明在平铺加速器资源调度中,首先提出了一种统一和系统的表示法,即资源分配树表示法,该方法给出表示不同的层间调度方案并定义层间调度的整体空间。基于该资源分配树表示法,随后深入分析了不同的层间调度选择如何逐步影响加速器的性能和能效。此外,本发明实施例展示了如何在本发明实施例的表示法中表示现有模式并分析它们的特征,与最先进的(SOTA)开源七巧板框架相比,应用在SET时,平均可以同时实现性能提升1.78倍,能效成本降低13.2%。
附图说明
图1为本发明一种平铺加速器资源调度方法流程图;
图2为绘制了不同表示法定义的层内调度空间之间的包含关系示意图;左:从DNN图到加速器的部署流程。右:在平铺加速器上调度DNN的两个空间,包括未定义的层间调度空间和明确定义的层内调度空间;
图3为资源分配树的依赖关系图,(a)示例的资源分配树。(b)左侧资源分配树的自上而下的层次分析流程。最下面的是左边资源分配树对应的S-TGraph。为简单起见,资源分配树的依赖关系仅绘制在该图中;
图4为具体ofmap分配策略示意图;
图5为用资源分配树表示法表示LP和LS示意图。DNN拓扑与图3中的相同。如果节点的深度(到根节点的距离)为n,则该节点称为“深度n节点”。“最大深度”是指资源分配树中节点的最大深度;
图6为不同切割和DNN拓扑背后的权衡示意图。第一行显示了一个id附加示例。LS方案中的深度一割(如果有的话)应该是T割;
图7为两种方案的实际比较示意图:一种在本发明实施例的资源分配树定义的空间内探索(缩写为SET方案),另一种通过类类七巧板策略探索,主要属于LP模式(缩写为LP)方案)。两个资源分配树的实际执行图都是由16-tile加速器的周期精确模拟器绘制的。其中,(a)Inception-ResNet-v1的两个块,(b)LP方案的资源分配树;(c)SET方案的资源分配树瓷砖ID时间(周期);(d)LP方案执行图;TileID时间(周期);(e)SET方案执行图;
图8为SET调度框架概述。实线箭头表示SA迭代循环,虚线箭头表示从每个引擎对评估器的本地调用;
图9为SA运营商示意图,两种节点分别代表未更改和更改的节点;
图10为LP、LS和SET与不同批次大小(BS)、工作负载和硬件平台的比较。每行采用相同的平台,每列采用相同的工作负载;
图11:与七巧板的比较示意图;
图12为SET改进的方差示意图;SA算法在每个设置上评估10次,每次评估的EDP及其平均值绘制在上面。Y轴是归一化的EDP,其中七巧板的EDP被归一化为1;
图13为调度空间描述示意图;每个彩色点代表云平台下的一棵资源分配树,批次大小为8。(a)随机资源分配树和SA搜索路径上资源分配树的平均树深。深度是所有Leaves的深度的平均值。(b)随机资源分配树的DRAM访问和片上网络跳数。(c)DRAM时间(在第6.1(2)节中定义)与随机资源分配树的总延迟的比例。所有“随机”数字都显示了同一组方案,但表现出不同的特征;
图14为本发明提供的平铺加速器资源调度系统示意图;
图15为本发明提供的一种电子设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
术语解释:
HW-tiles:计算核心/chiplet;
Fmap:feature map特征图;
Ofmaps:output feature map输出特征图;
Ifmaps:input feature maps输入特征图;
SA:Simulated Annealing模拟退火。
如图1所示,本发明提供一种平铺加速器资源调度方法,包括:
S100,接收DNN相关任务的任务请求、DNN工作负载和硬件参数;
S200,响应任务请求,基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,调度流程分为自上而下的层间调度和层内调度;所述层间调度采用基于资源分配树表示法的调度方法,确定每一层的计算顺序和分配资源,将计算顺序和分配资源解析为相应的资源分配方案、HW-tiles之间以及HW-tiles和DRAM之间的数据流;所述层内调度将每一层映射到分配的HW-tile组上;
S300,调度结果经过翻译生成加速器芯片指令。
其中,图2为硬件模板示意图;硬件资源参数包括:HW-tile的数量,片上网络的长宽,以用来进行具体HW-tile的分配;以及HW-tile的计算单元(PE)数量,以用来计算处理各层的时间。
其中,层间调度采用资源分配树描述每一层内每个样本的空间和时间资源的分配,确定HW-tiles的数量及其每一层内每个样本的使用持续时间。
本发明实施例引入了统一和系统的资源分配树表示法来描述层间调度的空间,用于在具有各种体系结构的平铺加速器上推理具有各种结构的DNN。
基于DNN工作负载和硬件参数产生最终的调度策略;树是一个数据结构,应该是依赖这个数据结构的表达能力,对优化空间进行搜索。确定每一层的时间上的计算顺序和空间上的计算资源分配。
该表示法包括Temporal Cut和Spatial Cut,前者为其每个子节点分配相同的HW-tile组和不同的计算时间间隔,后者为其每个子节点分配不同的HW-tile组。每个资源分配树都是Cuts和Leaf节点(DNN的层)的分层组织。然后,本发明实施例详细说明了如何将树结构解析为相应的资源分配方案以及HW-tiles之间的数据流。
资源分配树表示法有三种类型的Nodes:Leaf、S Cut和T Cut;
每一个Leaf位于资源分配树的末端,表示单层的计算;
每一个Cut节点位于资源分配树的非末端,表示一层或几层的计算;
Cut(包含S Cut和T Cut)具有两个层次的表示意义;从上一级节点(父节点)来看,代表其子节点包含的所有层的处理;从子节点的角度来看,子节点的计算资源以及计算时间资源由父节点进行分配;其中S(Spatial)Cut负责计算资源的空间分配,即每个S Cut的子节点分配到不同的计算资源,T(Temporal)Cut负责计算资源的计算时间分配,其不同的子节点使用同一计算资源的不同时间段。
每一个资源分配树都代表一个层间调度方案,以层次化的方式对其进行分析,最终解析为具体的每个层的资源分配方案和HW-tile之间以及HW-tile与DRAM之间的数据流。
每个Node的基本属性为:
每个Node拥有一个或几个层,表示一层或几层的计算顺序
每个Node拥有一组HW-tiles,称为HW-tile组,用于计算Node的工作负载;HW-tile组中HW-tile的数量称为HW-tile组大小;
每个节点都有批大小,是节点对其总批数进行拆分之后每次处理的样本数(即每个节点计算每个层或层组的粒度);
每个Node包含依赖信息,记录其包含的层在DNN中依赖关系。
其中,基于资源分配树表示法,本发明实施例彻底分析了不同的层间调度选择如何影响硬件行为以及这些行为如何影响加速器性能和能效。此外,本发明实施例在本发明实施例的表示法中表示现有的LS和LP模式并分析它们的特征。
为了彻底探索各种平铺加速器和工作负载的层间调度空间,本发明实施例开发了一个端到端和高度可移植的调度框架SET。结合以上内容,本发明实施例开发了一个端到端且高度可移植的调度框架SET,以自动探索平铺加速器的整个DNN调度空间。为了有效地探索巨大的新定义的层间调度空间,本发明实施例为SET配备了基于模拟退火的算法,该算法具有6个专门设计的运算符。SET只需稍作修改即可移植到各种平铺加速器上,具有良好的可移植性。本发明实施例已经为本发明实施例的测试芯片开发了一个端到端的SET部署流程。
以下结合具体实施例对本发明进行详细说明。
2.1平铺加速器
“平铺加速器”(也称为“空间加速器”Spatial Accelerators)在DNN加速中非常流行。工业界和学术界开发了许多平铺DNN加速器。基于这些现有的平铺加速器,本发明实施例旨在抽象出一个基本的硬件要求(或硬件模板)来支持本发明实施例的层间调度研究,正如在层内调度中所做的那样。
在深入研究层间调度的硬件需求之前,本发明实施例可以先抽象出层间调度与层内调度相比的不同硬件行为。这些行为包括:
(1)在不同的HW-tile上并行执行不同的层,这需要对每个HW-tile进行独立控制,并且需要有效支持对DRAM的并发访问;
(2)HW-tiles或HW-tile与DRAM之间的生产者-消费者数据通信,需要灵活的片上网络和对缓冲区并发访问的高效支持。
虽然大多数现有的平铺加速器都有效地支持了上述层间调度行为,但它们的架构细节,如控制逻辑、片上网络架构等,因设计目标和考虑不同而有所不同。尽管如此,从层间调度的角度来看,本发明实施例可以清楚地识别出这些加速器的共同特征。基于这些共同的特征,本发明实施例给出了本公开提到的平铺加速器的定义,这也是本发明实施例表示法的首要硬件需求,如下:
·平铺加速器的基本组件包括片上网络、一些HW-tiles、DRAMPHY和控制器,以及其它输入输出设备(图2(b))。片上网络应该能够连接HW-tile、DRAM和其它组件。此外,每个HW-tile都可以通过片上网络访问其它HW-tile的任意全局缓冲区或加速器的DRAM。
·HW-tile的基本组件包括统一缓冲区、片上网络路由器和PE。HW-tile可以在不同的时间分配给不同的层,但不能同时计算多个层的工作负载。值得一提的是,HW-tile并不等同于本发明实施例定义中的核心。任何满足上述定义的计算单元,例如封装中的Simbachiplet,都可以被视为HW-tile。
总之,本发明实施例的资源分配树表示法适用于满足上述基本要求的所有平铺加速器,无需指定分片内或片上网络架构,这就是SET可移植性的来源。
2.2平铺加速器的调度
调度对于在具有高利用率和能效的加速器上部署DNN起着至关重要的作用。本发明实施例将DNN调度分为层间调度和层内调度,它们自上而下的关系。当本发明实施例将DNN调度到目标平铺加速器上时,层间调度首先决定每一层的计算顺序和分配资源,然后层内调度决定如何将层映射到分配的HW-tile组上。
具体而言,层内调度研究如何在空间上映射并行计算单元上的层,将工作负载平铺成小块以适应每层内存的容量,并控制每个小工作负载的计算顺序。在早期,提出了许多启发式层内调度模式,例如输出平稳(OS)模式,权重平稳(WS)模式、输入固定(IS)模式和行固定(RS)模式。本发明实施例称这个阶段为“启发式时期”。随着研究者认识的深入,层内调度进入“自动化时期”。在此期间,提出了各种表示法,例如以计算为中心的表示法、以数据为中心的表示法和以关系为中心的表示法,以指定层内调度的整体空间并做彻底探索(图2(c))。
在层间调度中,主要存在两种启发式模式,层顺序和层流水线。LS使用所有计算资源逐层处理每一层,而LP将不同组的HW-tile分配给不同的层,并以流水线方式编排这些层。现有方法要么优化LS或LP本身,要么针对各种应用程序或硬件优化它们。然而,如果本发明实施例将层间调度的发展与层内调度进行比较,本发明实施例认为层间调度仍处于“启发式时期”。层间调度的空间尚未明确定义、深入探索或完全理解。这种情况促使本发明实施例提出一种表示法来指定层间调度的空间,然后利用该表示法彻底探索空间并分析不同层间调度选择的影响。
3.1资源分配树表示法
如图3(a)所示,本发明实施例开发了一个统一的表示法,资源分配树来描述层间调度方案。在本公开中,本发明实施例提供资源分配树中组件的定义和属性,以演示如何从任意资源分配树生成其相应的层间调度方案。本发明实施例的SET框架能生成不同资源分配树的方法。
3.1.1资源分配树表示法的总体介绍如下:
资源分配树表示法的中心主题围绕着资源分配。本发明实施例确定了两种资源类型:空间资源,即总计算资源,以及时间资源,即计算资源的使用持续时间。本发明实施例的资源分配树表示法是一种结构化和递归表示法,用于描述每一层内每个样本的空间和时间资源的分配,即确定HW-tiles的数量及其每一层内每个样本的使用持续时间。
在本公开中,空间计算资源分配的粒度是在HW-tiles级别定义的(如图2左下角所示),包括所有缓冲区和其中的PE阵列。但是,一般来说,粒度可以更粗也可以更细,这取决于计算资源是否可以独立控制来计算不同的层。例如,在本公开中,PE阵列不能被独立控制,必须协同工作来计算分配给每个HW-tile的同一层的分区工作负载,这也是当今众多平铺加速器采用的控制粒度。但是,如果可以独立控制HW-tile中的每个PE来计算不同的层,则可以将本发明实施例的资源分配树的分配粒度调整到PE级别。
为了更好地理解资源分配树所代表的方案,本发明实施例还引入了时空图(S-TGraph)来直观地展示两种资源的分配情况。S-T图用于解释这项工作中的资源分配树示例,对于本发明实施例的SET框架不是必需的。图3(b)的底部图说明了对应于图3(a)的S-T图。两个轴对应于资源类型:X轴是时间线,Y轴是加速器上的HW-tiles。每个矩形对应于具有特定批次样本的层的处理。矩形的高度表示哪些HW-tiles处理该层,宽度是处理的时间段。每个矩形都标有其对应的图层和批次样本。例如,“L1[0,1]”表示层L1的处理,样本为0到1,批次大小为2。
3.1.2节点的基本属性和编码信息。本发明实施例首先给出资源分配树的表示法定义,然后解释定义中的术语和规则。
将L表示为DNN模型中的层集,HWT表示加速器上的HW-tiles集,btot表示一批工作负载中的样本数(也表示为总批次大小)。资源分配树R是一组节点:R={N1,N2,...,Nm},其中每个节点Ni的形式为:
Ni=(typei,Ci,Li,TGi,bi,sbi,FROMi,TOi);
其中,typei∈{Leaf,SCut,TCut}, (1)
是树结构中Ni的子集,(2)
bi,sbi∈Z+,bi%sbi=0, (4)
(l→l′意味着l′需要l的ofmaps)
当typei=Leaf时:|Li|=1,sbi=1 (7)
当typei≠Leaf时:
当
如果Nr是树的根,Lr=L,TGr=HWT,br=btot。
如typei中的编码,资源分配树有三种类型的Nodes:Leaf、S Cut和T Cut,后两者统称为Cuts(式(1))。一个Leaf(图3(a)中的非灰色矩形)表示单层(公式(7)中Li中的层)的处理,该层被标记在Leaf上(例如图3(a)中粉红色矩形上的L1)。Leaf的数量等于DNN中的层数。Cut在资源分配树中用灰色矩形表示(例如,图3(a)中的T1、S1、T2),具有两个级别的表示。从它的上一级节点来看,它代表了它下面的所有层的处理(公式(8)中的Li),它们被标记在Cut Node的第二行。比如从T1的角度来看,S1代表了对L1、L2、L3的处理。从它的子级的角度,说明了时空资源为他们分配的情况。例如,从T2和L3的角度来看,S1代表了它们的空间HW-tile分配方案。
每个Node拥有一组HW-tiles,称为HW-tile组(式(3)中的),负责计算Node的工作负载。本发明实施例将HW-tile组中HW-tile的数量称为HW-tile组大小。例如,在图3中,L1的HW-tile组包含HW-tile{1,2},大小为2,而S1的HW-tile组包含HW-tile{1,2,3}大小为3。本发明实施例用于确定HW-tile组的大小和物理位置的策略在后面详细说明。
具体是从根节点开始,展开为矩形,每个矩形对应于具有特定批次样本的层的处理。
每个节点都有自己的批次大小(公式(4)中的bi),这是节点每次处理的样本数(由图3(b)中的一个彩色矩形表示)。对于图中的每个Leaf,其批次大小在括号中标记(例如,在图3中L1和L4的批次大小为2和4)。对于每个Cut,一个批次被分成一个或几个子批次,其大小为其每个子批次的批次大小。(见公式(8)中的bj)所有图中每个Cut中的批次大小bi和子批次的个数sbi以(bi/sbi)的形式标注。一个Leaf Node不需要划分子批次,所以它的子批次个数sbi=1。(公式(7))
每个Node还包含依赖信息(公式(5),(6)),如果DNN中存在依赖关系l→l′,并且l∈Li,l′∈Lj,那么本发明实施例在资源分配树中构造依赖关系Ni→Nj。节点Ni将被记录在中,节点Nj将被记录在TOi中。依赖关系可以分为DNN中的原始依赖关系和推导的依赖关系(均在图3(a)中标记)。例如,在图3(a)中,没有从L1或L2到L3的依赖关系,因此没有从T2到L3的依赖关系。然而,由于依赖关系L1→L4存在,推导出的依赖关系T2→L4也存在。对于有效的资源分配树,本发明实施例要求Leaves之间的所有依赖关系都是从左到右(即Leaves在DNN中形成拓扑顺序)以确保数据的消费者在生产者之后处理。请注意,此要求保证所有依赖关系,无论是原始的还是推导的,都是从左到右的。
3.1.3S(空间上)Cut和T(时间上)Cut的属性。在本发明实施例将介绍S和T Cut如何为每个子批次分配空间和时间资源。
S Cut为每个子批次分配不同的HW-tile组(公式(9),(10))。
主要原理为先分配资源,决定计算顺序,确定计算的数据。
在S Cut中,所有子进程并行或经流水线处理,由它们之间的依赖关系决定。具体来说,每个子批次按顺序处理其子批次,如果子批次B对子批次A有依赖性,则子批次B必须在至少一个子批次之后开始以获得子批次A的输出特征图(ofmaps)。
例如,在图5LP中,L1和L2上面的S Cut有两个批次大小为2的子批次,因此L1和L2必须在不同的HW-tile组上顺序处理大小为2的两个批次,并且由于有从L1到L2的依赖关系(如图3(a)所示),L2从L1的第二批开始;而在图3中,从T2到L3没有依赖关系,因此两个节点可以并行启动(参见图3(b)中的第三张图)。
T Cut为每个子批次分配相同HW-tile的不同使用持续时间(公式(9))。T Cut的每个子节点都以子批次为单位顺序处理(串行处理)。具体来说,第一个子批次由Cut的children按照从左到右的顺序处理,然后处理第二个子批次,然后是第三个,…,直到处理完最后一个。
例如,图3(b)中的底部图说明了CutT2的子批处理:处理L1的第一个子批,然后处理L2的第一个子批,然后处理L1和L2的第二个子批。
简而言之,S/T Cut为其子节点分配空间/时间资源。
目前,资源分配树表示法和以下的SET框架专注于DNN推理场景。鉴于训练过程也可以被视为具有一些特定运算符和限制的图,资源分配树表示法也有可能用于训练场景。将来,本发明实施例会将把本发明实施例的表示法和框架扩展到DNN训练场景。
3.2空间大小分析
本发明实施例的层间调度空间由满足上述定义的所有资源分配树组成。空间的大小是巨大的:对于n层DNN,如果本发明实施例只考虑树结构和两种Cut类型,则已经有个候选类型;为了计算空间的总大小,本发明实施例需要乘以DNN网络的拓扑阶数,并考虑每个Cut的不同子批次大小,进一步增加整个空间大小。
3.3资源分配树分析
在本公开中,本发明实施例将详细说明如何将资源分配树解析为每一层的资源分配方案以及加速器组件之间的数据流。值得一提的是,资源分配树表示法与本公开介绍的策略无关。资源分配树是一种通用的表示法,允许替换缓冲区管理、数据流管理和核心分配策略以适应各种场景。
3.3.1数据流。本发明实施例在这里将数据流定义为加速器组件之间每一层的输入特征图(ifmaps)、权重和ofmaps的流动。
对于特征图(fmap),如果依赖关系存在于根T Cut的不同子级下的两层之间,则相应的fmap将被发送到DRAM。否则,有两种情况:(1)如果前一层的ofmaps立即被后一层消费,它们将通过片上网络直接发送到消费HW-tiles。(2)如果前一层的ofmaps没有立即被后一层消费,则将其发送到DRAM进行临时缓冲。对于图3中的示例,L1的ofmaps将立即被L2消耗。因此L1的ofmaps可以直接发送到L2的HW-tile组。由于S1Cut和L4是根TCut的不同子级,因此S1Cut下层的ofmaps将首先发送到DRAM。然后L4将从DRAM加载这些图。具体ofmap分配策略可以参照图4。
对于权重,如果根节点是T Cut,则每个子节点下的所有层的权重将从DRAM加载,并为每个子节点批次固定在芯片上。如果根节点是s Cut,所有权重将始终固定在芯片上。
3.3.2 HW-tiles分配。如上所述,HW-tiles分配仅在每个S Cut发生,因为T Cut的每个子级都使用T Cut的所有HW-tiles。具体来说,S Cut的资源分配是决定S Cut的每个子节点应该拥有多少和哪些计算资源的过程,下面将对此进行介绍。掌握单个S Cut的资源分配策略后,可以递归分析每个资源分配树的资源分配情况。
为了均衡每个子批次的处理时间并减少气泡开销,最直接的方法是使分配给每个子批次的HW-tiles数量与子批次的总操作数(ops)成正比,即属于它的所有层中的操作数的总和。然而,本发明实施例观察到使用总操作数来表示处理时间是不准确的,因为有两个问题:(1)由于HW-tile微架构的固有特征,不同类型或形状的层对同一HW-tile可能具有不同的利用率,即使他们有相同数量的操作。例如,如果本发明实施例在Simba tile上安排Res Net-50中的第一层,本发明实施例只能在一个向量中使用8个MAC中的3个,并且利用率上限为37.5%。(2)当层在S Cut中具有依赖性时,它们对应的样本批次不能同时开始,从而产生填充和排空开销(参见图5LP中的L1和L2)。理想情况下,利用率的减少是B/(B+S),其中B是子批次的数量,S是第一个和最后一个子批次之间的开始时间差。例如,图5LP中S Cut的B/(B+S)等于2/(2+1)。
为了解决这两个问题,本发明实施例为每个节点引入了一个属性“标准化处理时间”(NPT)。一层(Leaf节点)的NPT是通过在HW-tile上用一个样本模拟该层来计算的。对于一个T Cut,本发明实施例只需要将它的子批次的NPT相加就可以得到它的NPT。对于S Cut,总和除以上一段问题(2)中定义的B/(B+S),得到该Cut的NPT。那么本发明实施例可以自下而上的方式递归定义每个Node的NPT。剩下的问题是:如何将S Cut的HW-tile组划分为其子组的子组,以便这些子组的大小与子组的NTP成正比?由于每个子组的大小必须是整数,在大多数情况下,不能严格按比例划分,导致不同子组之间的不平衡,从而产生气泡并降低利用率。本发明实施例将在下文中将此缺陷称为“气泡开销”。这个问题的严重性随着层数和多样性的增加而增加,甚至会导致利用率下降几十个百分点。因此,本发明实施例提出了一种最优的HW-tile分配算法来尽可能地缓解这个问题,并正式证明了该算法的最优性。
在确定了每个HW-tile组中的HW-tile数量之后,本发明实施例还需要确定该HW-tile组对应于哪些物理HW-tile。首先,每个HW-tile都应该附有一个id用于分配。id-附加策略可以根据加速器的特性任意替换,比如片上网络拓扑。对于实验中使用的默认网格片上网络,本发明实施例采用修改后的基于条带的id附加策略,如七巧板,以确保与其进行公平比较。例如,蓝色的HW-tiles将按照从左到右和自下而上的顺序分配1到8的ID(图6中的第一行)。然后,每个S Cut的子级将按左右顺序获取Cut拥有的物理HW-tiles。对于图3中的示例,S1Cut拥有id为1到3的HW-tiles。T1Cut和L3将分别获取id为1和2以及id为3的HW-tiles。
3.4LP和LS的表示对比
在本公开中,本发明实施例首先展示如何使用本发明实施例的资源分配树表示法来表示现有的LP和LS模式(图5),然后分析它们的特征。
由于片上缓冲区容量和HW-tile数量的限制,现有工作优化的当前LP和LS倾向于将DNN分成多个段并一一处理。因此,在资源分配树表示法中,他们方案的根Cut是TCut,每个子级对应一个段。对于每个段,LP为不同的层分配不同的HW-tile组,因此LP方案中的depth-one Cuts,如果有的话,应该是S Cuts。相比之下,LS处理具有所有HW-tiles的段中的每一层,并通过片上缓冲区切换具有依赖性的层的fmap,而无需访问DRAM。
因此,LS方案中的深度一割(如果有的话)应该是T割。从上面的分析,LP和LS模式的调度空间可以计算为O(2n)1,大约是本发明实施例定义的空间的然而,大多数现有工作只涉及LS或LP调度空间的一小部分,这进一步显示了探索本发明实施例定义的广泛调度空间的巨大潜力。
3.5权衡分析
在本公开中,本发明实施例借助资源分配树表示法揭示了不同层间调度选择背后的复杂权衡。可以通过分析一个简单的例子来研究基本的权衡,其中两个相同的卷积层和批次大小为2的工作负载被安排映射到具有网状片上网络的16-tile加速器上(大多数以下分析对片上网络拓扑不敏感)。下面的分析适用于大多数类型的层,例如全连接层、一般的矩阵到矩阵乘法等等。理论上可以类似地分析其它类型的层。更复杂的树结构背后的权衡可以看作是这些基本权衡的层次组合。
如图6所示,当比较1与2和3与4时,可以分析s和T Cuts带来的权衡。从上面的分析,LP和LS模式的调度空间可以计算为O(2n)1,大约是定义的空间的然而,大多数现有工作只涉及LS或LP调度空间的一小部分,这进一步显示了探索定义的广泛调度空间的巨大潜力。如图6第二列所示,每一层的HW-tile组大小在S Cut下比在T Cut下的对应物要少,这是一个核心的贡献因素。层的较小HW-tile组带来以下好处:(1)更少的数据重复:将层划分为任何维度的多个HW-tile需要复制部分数据。因此,较小的HW-tile组意味着较少的数据重复。例如,如果本发明实施例将输出通道维度划分为8个HW-tile,则每个HW-tile需要个权重和整个ifmap。当HW-tile组大小缩放到16时,系统会为该层缓存一份权重和16份ifmaps;(2)更大的Tile内探索空间:每一层都需要先划分,然后通过intra-tile调度进行优化。因此,较小的HW-tile组意味着每个HW-tile的工作负载更大,从而促进了intra-tile调度以利用并行计算资源和数据局部性。根据以上分析,较小的HW-tile组由于(1)减少了片上网络通信成本,由于(1)减少了DRAM访问时间,并由于(2)提高了Tile内利用率和数据再利用。
S Cut也有一些缺点:(1)填充和排空开销:当层共享顺序依赖时,一些资源在填充和排空期间会空闲,这可以通过比较图6的第一行和第三行的子图来观察。(2)气泡开销。这些缺陷可能会恶化性能。T Cut和S Cut的优缺点在很大程度上是互补的。(3)可能的数据获取开销:如果较小的HW-tile组不能再缓冲层的所有数据,它必须额外从DRAM中获取数据,从而导致DRAM访问和片上网络通信成本增加。
通过比较1和3,2和4,可以分析子批次带来的权衡。较小的子批次大小带来以下好处:(1)较少的填充和排空开销:当层具有顺序依赖性并被S Cut切割时,较小的子批次大小可以减少填充和排空的开销;(2)更少的片上缓冲区使用:更小的子批次大小意味着每个HW-tile组需要缓冲更少的ifmaps,这也会带来与更小的HWtile组的第二个好处相同的好处。较小的子批次大小也会影响层内调度效果:较小的子批次大小意味着层内调度的探索空间较小,这可能会降低层内调度方案的利用率和能效。
应用实例
在这个案例研究中,本发明实施例使用本发明实施例的循环精确模拟器来显示在本发明实施例的资源分配树定义的空间内探索的方案(缩写为SET方案)与SOTA七巧板like策略探索的方案之间的实际比较,其主要属于图7中的LP模式(简称LP方案)。工作负载、批次大小和硬件平台分别是两个Inception-ResNet-v1块2和一个16-tile加速器。本发明实施例利用这个案例研究生动地展示了结合S和T切割的巧妙组合的资源分配树方案如何优于LP方案。
在图7中,本发明实施例展示了方案的资源分配树及其对应的加速器上所有HW-tile的执行图。一旦所有必需的数据可用,每个HW-tile都可以启动计算,而无需与处理同一层的其它HW-tiles同步。因此,计算同一层的不同HW-tiles可能会在不同的时间开始或结束它们的计算。图7中的空白区域表示各个HW-tile的空闲状态。
总体而言,SET方案比LP方案节省了41.1%的延迟和31.5%的能效。特别是,DRAM访问和片上网络通信成本分别降低了61.1%和35.3%,这有助于降低大部分能效成本。通过比较图7(d)和图7(e),可以直观地观察到SET方案的工作负载执行更加紧凑且紧密对齐。下面,本发明实施例将首先分析LP方案相对稀疏的工作负载执行背后的原因,然后继续讨论SET方案如何有效缓解这些问题。
对于LP方案:确保分配到多个层的HW-tiles按比例分布以保持合理的气泡开销是一项具有挑战性的任务。因此,我们观察到LP方案很难同时在s切割下放置超过四层,如图7(b)所示。这种限制极大地限制了可能的生产者-消费者再利用机会,从而导致更多的DRAM访问。此外,管线中各层之间的依赖关系会引入大量的填充和排空开销。因此,填充和排空开销(例如,在大约0-7000个周期和45000-65000个周期的间隔期间的空白区域)以及增加的DRAM和片上网络带宽压力(例如,在大约35000-45000个周期的间隔期间的空白区域)有助于LP方案中的稀疏工作负载执行,如图7(d)所示。
对于SET方案:如图7(c)和(e)所示,具有共享依赖关系的层往往在相同的T Cut下,因此利用相同的计算集群进行计算(例如、L5→L7、L8→L9L11→L14、L13→L15)。因此,来自生产者层的ofmaps可以快速地在本地传输到消费者层,从而降低片上网络通信成本。此外,及时消耗这些ofmaps提高了缓冲区的使用效率。同时,如图7(e)所示,表现出平行关系的层倾向于参与不同的集群(例如,L5和L6、L10和L12、L11和L13以及L14和L15),利用较小集群的优势,而不产生填充和排空费用。此外,S Cut和T Cut的策略组合使得更容易平衡S Cut的子级的HW-tile分配,从而显着减轻与S Cut相关的气泡成本。例如在图7(c)中,如果我们将L10~L15置于S1 Cut(标记为红色)下,气泡成本将非常巨大。然而,如图7中(c)和(e)所示,通过组合多个S和T Cut,我们可以在不影响并行机会和生产者-消费者的情况下,在S1 Cut的子级之间的HW-tile分配中取得良好的平衡再利用机会
简而言之,SET方案可以通过巧妙的方式组合s Cut和T Cut的优点。
如图8所示,SET是一个端到端的DNN调度框架。SET输入:(1)由Pytorch等高级框架生成的NN模型描述文件;(2)硬件配置(片上网络、DRAM、HW-tile等);(3)框架设置(优化目标和约束、超参数等)。调度完成后,SET输出:(1)能效成本和性能报告;(2)详细的调度方案(3)说明(可选)。
SET的优化目标可以设置为Energyn×Delaym,其中n和m可以设置为任意数字,代表对功耗和性能的不同关注程度。这里的能效和延迟是一批样本的总能效成本和延迟。因此,对于以延迟为中心和以吞吐量为中心的场景,可以分别使用小批量和大批量来测试SET的有效性。
整个调度过程可以分为探索阶段和后处理阶段两个阶段。探索阶段探索在目标平铺加速器上部署目标DNN的广阔调度空间。然后将结果发送到IR和指令生成的后处理阶段。
在探索阶段,通过模拟退火(SA)算法探索层间调度空间,通过基于穷举搜索的方法探索层内调度空间。
具体来说,Model Parser引擎首先解析DNN的描述文件,抽象出DNN的图拓扑信息和DNN中各层的信息进行探索。
SA中的初始资源分配树是通过将所有Leafs按拓扑顺序放在根T Cut下生成的。在调度L层网络时,SA算法进行N=βL迭代,其中β是超参数。在迭代n中,温度为其中T0是初始温度,α是冷却速度。设计保证最终温度TN为0。在每次迭代中,SA控制器将随机选择一个操作(图9)并使用该操作将原始资源分配树更改为新的资源分配树。然后将新的资源分配树发送给资源分配树分析器,用于分析数据流和每一层的HW-tile分配方案。每个层的类型和维度信息及其分配的HW-tile组将被发送到层内调度引擎。然后,层内调度引擎将通过搜索所有分区、平铺和循环顺序候选来探索层内调度空间(图8中的虚线箭头)。最后,层内调度引擎探索出的最优解连同资源分配树分析器分析的信息将被发送给评估器进行整体评估,其结果将发送给SA控制器。如果新成本c′高于之前资源分配树的成本c,方案将以概率/>被接受,其中Tn是当前迭代的温度;否则修改后的资源分配树将始终被接受。
鉴于资源分配树分析器已介绍,下面只介绍SA运算符和层内调度引擎。
4.2.1SA运营商。开发了六个运算符来在每次迭代中更改资源分配树。有了这些算子,这个空间中的任意两棵树都可以在有限步骤内相互转化,这是确保模拟退火能够找到接近最优方案的重要性质。
想要探索层间优化空间就需要对树进行变化,这些算子就很重要,具体的优化算法可以是随机搜索、模拟退火、基因算法等,本发明实施例以模拟退火为例,但不作为限定,不限制优化算法,但是需要依靠这些算子进行变化均可以实现本发明的方法均可。
如图9所示,OP1-OP2是一组对树的变换操作,每次迭代随机选择一个进行变化。变换操作的算子介绍如下:
OP1:随机选择两个相邻的Leaves,然后交换。此操作要求两层没有直接或传递依赖性。这里的邻接是指按顺序遍历中所有层的顺序邻接。
OP2:随机选择一个Leaf并将其移动到另一个共享相同上一级节点或上上级节点的Cut。
OP3:随机选择一个Cut,然后随机选择一组连续的子批次构成一个新的Cut。Cut的属性是随机生成的。
OP4:随机选择一个非根Cut并将其删除,然后将其子节点Cut放入其上一级Cut。
OP5和OP 6:随机选择一个Cut并随机增加/减少其子批次编号。结果,它的子批次的批次大小将以相同的比例减少/增加。
这六个运算符确保新生成的资源分配树不会违反引入的依赖限制。
4.2.2层内调度引擎。由于现有工作已经很好地研究了层内调度,在这部分采用经典策略。首先,采用灵活的分区策略来探索如何将每一层划分为更小的工作负载,并将它们分配到相应HW-tile组中的每个HW-tile。其次,对于每个分区方案,采用基于搜索的Tile内数据流探索策略来探索循环顺序和tiling大小。
采用评价器进行评估
默认的评价器基本上基于具有网状片上网络和NVDLA风格的HW-tiles的可扩展架构模板,这也是本发明实施例下面提到的测试芯片的架构。评估器可以使用不同生成的调度方案来估算在不同配置的平铺加速器上部署不同DNN的成本。
具体来说,基于层间调度方案,评估器可以分析所有HW-tile的工作负载分布以及HW-tile之间或HW-tile与DRAM之间的数据依赖关系。然后,它可以计算出片上网络每条链路上的数据传输量和DRAM的访问模式。基于层内调度方案,其可以计算出各级缓冲区的访问次数和每个HW-tile中不同精度的MAC的操作次数。根据分析结果,通过快速模拟器评估延迟;总能效成本Etot的计算公式为
EDj表示每次读取或写入DRAM的能效成本。ADi,j表示第i个DRAM的读写次数。Ehop表示将一小段数据从一个路由器传输到其相邻路由器的每跳能效成本。Nk表示通过第k个链接的flits的数量。ETl表示第lth HW-tile的能耗,包括各缓冲区的访问能耗,不同精度的MAC,以及tile内通信。
正在设计一个4-tile测试芯片来验证本发明实施例的可扩展架构、硬件系统设计和编译流程,为设计更大规模的加速器做准备。基于这个测试芯片,本发明实施例还开发了一个可扩展的周期精确模拟器。由于周期精确模拟器比探索阶段使用的快速模拟器慢得多,因此不能用于探索广阔的调度空间。本发明实施例使用这个周期精确的模拟器来展示介绍的实际调度示例。
后处理阶段和SET可移植性具体说明如下:
资源分配树表示法可应用于具有满足基本要求的不同体系结构的平铺加速器。因此,SET也被设计成高度可移植的,以充分利用表示法的普遍性潜力。
将SET移植到新的平铺加速器时,应替换评估器和指令生成器。评估器只需要满足调度引擎的调用接口,给出方案的评估结果即可。此外,为了降低指令生成器的更换难度,本发明实施例开发了IR生成引擎。该引擎首先解析探索的方案并进行一些分析,然后为每个HW-tile生成一个工作负载列表。列表的每一项记录:(1)工作负载的属性,如数据维度、层信息、缓冲区需求等;(2)数据来源和目的地;(3)Tile内计算信息。SETtile内优化工具允许用户探索经典架构,例如NVDLA-styleHW-tile和Eyeriss-styleHW-tile。如果用户想要定制一个新的HW-tile架构,则tile内调度引擎,即层内调度引擎的一部分,也需要替换。为本发明实施例的测试芯片和未来更大规模的加速器开发了基于SET的整个部署流程。
基于上述介绍和说明,现在对本发明实施例公开的方法进行评价,具体方法如下:
5.1.1硬件配置。为了彻底测试SET的效果,本发明实施例在评估中考虑了两个硬件平台:一个16-tile(4×4)边缘平台和一个144-tile(12×12)云或自动驱动平台。边缘和云平台的优化目标分别是E2D和ED2,以分别显示他们对功率和性能的优先关注。两个实验平台均采用台积电12nm工艺,运行频率为1GHz。两个平台共享相同的NVDLA风格的HW-tile,具有1024个int8MAC和1MB全局缓冲区。每个平台的默认总DRAM带宽设置为每1TOPs0.5GB/s。
用于能效成本评估的不同操作的单位能效成本在介绍如下。网状片上网络跳跃和8位MAC估计为0.7pJ/bit和0.018pJ/op。从数据表中提取的DRAM能效成本为7.5pJ/bit。对于不同容量的寄存器文件和SRAM缓冲区,本发明实施例使用内存编译器生成它们的模块并直接获取它们的每次访问能效成本。
5.1.2工作负载。为了彻底测试SET效果并分析不同跨层调度方案背后的权衡,本发明实施例将批次大小从1扩展到64,涵盖延迟敏感场景到以吞吐量为中心的场景。在本发明实施例的实验中,ResNet-50、GoogLeNet、Inception-ResNet-v1、PNASNet[36]和Transformer作为工作负载。
5.1.3基线。本发明实施例选择SOTA开源七巧板调度框架作为本发明实施例的第一个基线。对于层间调度,七巧板首先采用动态规划(DP)算法将DNN切割成LP模式下的段。在整个实验过程中,七巧板中的所有优化选项都已打开,并且两个框架的所有硬件配置都保持不变(本发明实施例在评估器中实现了Eyeriss风格的HW-tile)。
5.1.4SA超参数。对于4.2节中提到的SA超参数,本发明实施例在后面的实验中设置T0=0.07,α=8,β=100。增加SA算法的T0和β将产生更好的资源分配树,但代价是搜索时间更长。因此可以根据具体场景的时间预算来确定超参数。
为了更好地研究每个单独模式的优缺点,本发明实施例使用SET分别探索LS和LP并将它们设置为另一个基线。与此类基线的比较可以更好地证明探索整个层间调度空间的好处,并提供对LS、LP和新定义的层间调度空间的广泛见解。
5.2与七巧板的比较
由于七巧板不支持Inception-Res Net、PNAS Net和Transformer,因此将对其余工作负载进行比较。此外,七巧板不支持E2D和ED2优化目标。因此本发明实施例选择EDP作为两个平台比较的优化目标。
5.2.1验证。为了保证两个框架之间层间优化效果比较的公平性,本发明实施例首先通过分别处理DNN的每一层来测试两个框架的层内调度引擎和评估器。结果表明,对于所有工作负载和批次大小,EDP的平均误差为3%。考虑到SET相对于七巧板的改进,本发明实施例认为这个错误是可以接受的。
5.2.2结果。图11显示了七巧板和SET之间的整体比较。平均而言,在所有平台、批次大小和工作负载中,与七巧板相比,SET同时实现性能提升1.78倍和能效成本降低13.2%,总EDP降低了51.2%。下面一步一步对比两个框架。在层内调度方面,这两个框架中层内调度引擎的可比效果已在第5.2.1节中进行了演示。对于层间调度,SET使用SA算法探索具有O(9.899n)方案(在第3.2节中已计算)的空间,而七巧板使用DP算法穷举探索作为LS空间子集的空间和LP模式,这些模式包含的方案要少得多(O(2n),在第3.4节中已计算)。由于DP算法能够详尽地探索空间,因此在相同空间中DP算法比SA更有可能产生更好的解决方案。上述分析和比较表明:(1)本发明实施例的资源分配树表示法所描绘的更大的调度空间,包含更高效的调度方案,是实现性能和能效增益的决定性因素;(2)尽管这个极大的空间不再允许SET使用DP等穷举搜索算法,但本发明实施例专门设计的SA算法仍然可以保证对空间的有效探索并产生好的解决方案。
这也是LP在GoogLeNet和Inception-ResNet上比并行层数更少的ResNet表现更好的原因。尽管PNASNet和Transformer也有许多并行层,但由于S Cut的另一个主要缺点,气泡开销,LP在它们上的表现不佳。它们的层更小且更多样化,因此即使使用本发明实施例的优化分配算法3.3.2,LP也很难为一大组层找到均衡的HW-tile分配方案。因此,流水线长度受到很大限制,片上缓冲区不能得到很好的利用,性能和能效变差。随着HW-tiles数量的增加,可以大大缓解这个问题的严重性,这体现在LP在云平台上的性能优于边缘平台。以上分析也是LP随着批次大小的增加在边缘端平台调度PNASNet和Transformer时表现比LS差的原因。
5.3.3LS分析。观察到LS在云平台上的表现比边缘平台差很多,这是因为LS的缺点,(这也是LP的优点)在云平台上更严重。如图10所示,使用云平台中的所有HW-tile来计算每一层会导致显着的片上网络通信和DRAM访问开销,从而降低性能和能效。而且每层的并行维度也有限,导致LS难以使用云平台上的大量并行资源,性能进一步恶化。
在这个案例研究中,本发明实施例使用SET框架来分析整个调度空间的结构。如图13所示,本发明实施例从调度空间中随机选择方案,并使用SET来评估几个指标,包括树深度、DRAM访问、片上网络跳数和DRAM时间比例。为了比较,本发明实施例还在图13(a)的右侧绘制了本发明实施例的SA算法的搜索路径。从图中,本发明实施例做出以下观察:
(1)如图13(a)所示,具有更深资源分配树的方案往往能耗更少,但具有更大方差和更小延迟下限。原因如下:
由于不同方案之间的Tile内能效非常接近(如图10所示),总能效的变化由DRAM访问和片上网络跳数的成本决定。更深的资源分配树可以在其结构中捕获更多的片上再利用,显着减少DRAM访问时间和片上网络跳数(见图13(a)和(b)),从而减少很多能效。
然而,方案的延迟不仅受DRAM和片上网络带宽的限制,而且还受到介绍的S Cuts中的填充和排空以及气泡开销的影响。虽然更深的树可以降低DRAM和片上网络带宽压力,但随机使用S Cuts会增加在方案中引入更多填充和排空成本和气泡的风险。因此,与具有较浅资源分配树的方案相比,只有能够很好地平衡工作负载的深资源分配树才能同时具有更少的DRAM和片上网络使用、更少的填充和排空开销以及气泡,并获得更少的延迟。如图13的右侧所示,本发明实施例的SA成功地找到了延迟低得多的更深的资源分配树,证明了本发明实施例的SA算法的有效性。
(2)在ResNet-50和Transformer-Large中,图中都存在一个“DRAM边界”,其中所有的点都在这个边界之上(见图13中的虚线)。这标志着DRAM带宽的界限。为了证明这一点,本发明实施例引入了每个方案的“DRAM时间”,它是通过将总DRAM访问除以DRAM带宽计算得出的。这是DRAM的理想总存取时间。如图13(c)所示,本发明实施例研究了“DRAM时间”在每个方案的总延迟中所占的比例。接近1的比例意味着DRAM带宽在大部分时间都被充分利用,并且该方案接近DRAM边界。从图13(c)可以看出,靠近虚线的点的DRAM时间比例最大,范围从0.8到0.98。这标志着虚线正上方的方案充分利用了DRAM,其延迟不能再往下走并通过这条线,这就是所谓“DRAM边界”的意思。
现有关于平铺加速器层间调度的工作主要集中在优化LS和LP模式,这是本发明实施例定义的空间的一小部分。对于LS,高效调度和NASA研究了如何将DNN图切割成段以充分利用片上缓冲区并减少DRAM访问时间。对于LP,Tangram(七巧板)和Atomic(ShixuanZheng,Xianjue Zhang,Leibo Liu,Shaojun Wei,and Shouyi Yin.2022.Atomic Dataflowbased Graph-Level Workload Orchestration for Scalable DNN Accelerators.InIEEE International Symposium on High-Performance Computer Architecture,HPCA2022,Seoul,South Korea)采用不同的方法来实现更细粒度的层管线,优化LP的填充和排出开销。事实上,这些针对LS或LP的特定优化大多与SET兼容,可以用来优化S Cut或TCut的属性,进一步提升SET效果。然而,这些工作没有明确定义层间调度空间,极大地限制了优化机会,阻碍了对层间调度选择和相应后果的理解。
综上所述,本发明提出的一种通用表示法来定义平铺加速器上层间调度的问题和探索空间。具体来说,这项工作首先提出了一种通用表示法资源分配树,然后深入研究将表示法与硬件行为联系起来,并分析了不同调度选择背后的复杂权衡。基于上述空间定义,本发明实施例开发了一个端到端且高度可移植的框架SET,以探索平铺加速器的整个调度空间。本发明实施例对不同的DNN、批次大小和加速器规模进行了大量实验。结果表明SET比SOTA七巧板调度框架和现有模式实现了显着的能效和性能改进。
如图14所示,本发明提供一种平铺加速器资源调度系统,主要包括:
接收模块,用于接收DNN相关任务的任务请求、DNN工作负载和硬件参数;
调度模块,用于响应任务请求,基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,调度流程分为自上而下的层间调度和层内调度;所述层间调度采用基于资源分配树表示法的调度方法,确定每一层的计算顺序和分配资源,将计算顺序和分配资源解析为相应的资源分配方案、HW-tiles之间以及HW-tiles和DRAM之间的数据流;所述层内调度将每一层映射到分配的HW-tile组上;
发送模块,用于调度结果经过翻译生成加速器芯片指令。
如图15所示,本发明第三方面是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述计及多互动功能时延特性的平铺加速器资源调度方法的步骤。
本发明第四方面是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述计及多互动功能时延特性的平铺加速器资源调度方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种平铺加速器资源调度方法,其特征在于,包括:
接收DNN相关任务的任务请求、DNN工作负载和硬件参数;
响应任务请求,基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,调度流程分为自上而下的层间调度和层内调度;所述层间调度采用基于资源分配树表示法的调度方法,确定每一层的计算顺序和分配资源,将计算顺序和分配资源解析为相应的资源分配方案、HW-tiles之间以及HW-tiles和DRAM之间的数据流;所述层内调度将每一层映射到分配的HW-tile组上;
调度结果经过翻译生成加速器芯片指令。
2.根据权利要求1所述的一种平铺加速器资源调度方法,其特征在于,所述资源分配树表示法有三种类型的Nodes:Leaf、S Cut和T Cut;
每一个Leaf位于资源分配树的末端,表示单层的计算;
每一个Cut节点位于资源分配树的非末端,表示一层或几层的计算;
S Cut和T Cut具有两个层次的表示意义;从父节点来看,代表其子节点包含的所有层的处理;从子节点的角度来看,子节点的计算空间资源以及计算时间资源由父节点进行分配;其中,S Cut负责计算资源的空间分配,每个S Cut的子节点分配到不同的计算资源,TCut负责计算资源的计算时间分配,其不同的子节点使用同一计算资源的不同时间段;
每一个资源分配树都代表一个层间调度方案,以层次化的方式对其进行分析,最终解析为具体的每个层的资源分配方案和HW-tile之间以及HW-tile与DRAM之间的数据流。
3.根据权利要求2所述的一种平铺加速器资源调度方法,其特征在于,所述每个Node拥有一个或几个层,表示一层或几层的计算顺序;
每个Node拥有一组HW-tiles,为HW-tile组,用于计算Node的工作负载;HW-tile组中HW-tile的数量为HW-tile组大小;
每个节点都有批大小,是节点对总批数进行拆分之后每次处理的样本数;
每个Node包含依赖信息,记录包含的层在DNN中依赖关系。
4.根据权利要求2所述的一种平铺加速器资源调度方法,其特征在于,所述基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,通过优化算法探索层间调度空间,基于穷举搜索的方法探索层内调度空间;所述优化算法包括随机搜索、模拟退火或基因算法,每一次迭代需要对树进行操作变化。
5.根据权利要求4所述的一种平铺加速器资源调度方法,其特征在于,所述每一次迭代需要对树进行操作变化采用算子包括:
OP1:随机选择两个相邻的Leaves,然后交换;
OP2:随机选择一个Leaf并将其移动到另一个共享相同上一级节点或上上级节点的Cut。
6.根据权利要求4所述的一种平铺加速器资源调度方法,其特征在于,所述每一次迭代需要对树进行操作变化采用算子包括:
OP3:随机选择一个Cut,然后随机选择一组连续的子批次构成一个新的Cut;
OP4:随机选择一个非根Cut并将其删除,然后将其子节点Cut放入其上一级Cut。
7.根据权利要求4所述的一种平铺加速器资源调度方法,其特征在于,所述每一次迭代需要对树进行操作变化采用算子包括:
OP5:随机选择一个Cut并随机增加其子批次编号;
OP6:随机选择一个Cut并随机减少其子批次编号。
8.一种平铺加速器资源调度系统,其特征在于,包括:
接收模块,用于接收DNN相关任务的任务请求、DNN工作负载和硬件参数;
调度模块,用于响应任务请求,基于硬件参数对DNN工作负载在目标平铺加速器上进行调度,调度流程分为自上而下的层间调度和层内调度;所述层间调度采用基于资源分配树表示法的调度方法,确定每一层的计算顺序和分配资源,将计算顺序和分配资源解析为相应的资源分配方案、HW-tiles之间以及HW-tiles和DRAM之间的数据流;所述层内调度将每一层映射到分配的HW-tile组上;
发送模块,用于调度结果经过翻译生成加速器芯片指令。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述平铺加速器资源调度方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述平铺加速器资源调度方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685736.6A CN116795508A (zh) | 2023-06-09 | 2023-06-09 | 一种平铺加速器资源调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685736.6A CN116795508A (zh) | 2023-06-09 | 2023-06-09 | 一种平铺加速器资源调度方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116795508A true CN116795508A (zh) | 2023-09-22 |
Family
ID=88042962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310685736.6A Pending CN116795508A (zh) | 2023-06-09 | 2023-06-09 | 一种平铺加速器资源调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116795508A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117742971A (zh) * | 2023-12-29 | 2024-03-22 | 广东全芯半导体有限公司 | 一种主控芯片加速运算的优化方法及系统 |
-
2023
- 2023-06-09 CN CN202310685736.6A patent/CN116795508A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117742971A (zh) * | 2023-12-29 | 2024-03-22 | 广东全芯半导体有限公司 | 一种主控芯片加速运算的优化方法及系统 |
CN117742971B (zh) * | 2023-12-29 | 2024-05-03 | 广东全芯半导体有限公司 | 一种主控芯片加速运算的优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8296711B2 (en) | Method and apparatus for using entropy in ant colony optimization circuit design from high level synthesis | |
CN109918199B (zh) | 基于gpu的分布式图处理系统 | |
Song et al. | DFSynthesizer: Dataflow-based synthesis of spiking neural networks to neuromorphic hardware | |
Xiao et al. | Plasticity-on-chip design: Exploiting self-similarity for data communications | |
CN111639054B (zh) | 一种海洋模式与资料同化的数据耦合方法、系统及介质 | |
Lin et al. | Communication-aware heterogeneous multiprocessor mapping for real-time streaming systems | |
CN116795508A (zh) | 一种平铺加速器资源调度方法及系统 | |
Russo et al. | MEDEA: A multi-objective evolutionary approach to DNN hardware mapping | |
Celik et al. | A novel simulated annealing-based optimization approach for cluster-based task scheduling | |
Wang et al. | Exploiting dark cores for performance optimization via patterning for many-core chips in the dark silicon era | |
Antunes et al. | Partitioning and dynamic mapping evaluation for energy consumption minimization on NoC-based MPSoC | |
Saleem et al. | A Survey on Dynamic Application Mapping Approaches for Real-Time Network-on-Chip-Based Platforms | |
Fraccaroli et al. | Network synthesis for distributed embedded systems | |
US20030037319A1 (en) | Method and apparatus for partitioning and placement for a cycle-based simulation system | |
US8296713B2 (en) | Method and apparatus for synthesizing pipelined input/output in a circuit design from high level synthesis | |
CN103140853A (zh) | 在根据高级综合的蚁群优化电路设计中使用熵的方法和装置 | |
Nematpour et al. | Enhanced genetic algorithm with some heuristic principles for task graph scheduling | |
Bytyn et al. | Dataflow aware mapping of convolutional neural networks onto many-core platforms with network-on-chip interconnect | |
Dousti et al. | Squash 2: a hierarchical scalable quantum mapper considering ancilla sharing | |
Papa et al. | Automatic large-scale integrated circuit synthesis using allocation-based scheduling algorithm | |
Kaur et al. | A survey on mapping and scheduling techniques for 3D Network-on-chip | |
Cai et al. | Gemini: Mapping and Architecture Co-exploration for Large-scale DNN Chiplet Accelerators | |
Zheng et al. | Path Merging Based Betweenness Centrality Algorithm in Delay Tolerant Networks | |
Thepayasuwan et al. | Layout conscious approach and bus architecture synthesis for hardware/software codesign of systems on chip optimized for speed | |
US11449254B1 (en) | Managed bulk memory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |