CN115481718A - 一种基于精简算子集的深度学习图算一体优化器 - Google Patents

一种基于精简算子集的深度学习图算一体优化器 Download PDF

Info

Publication number
CN115481718A
CN115481718A CN202211122282.3A CN202211122282A CN115481718A CN 115481718 A CN115481718 A CN 115481718A CN 202211122282 A CN202211122282 A CN 202211122282A CN 115481718 A CN115481718 A CN 115481718A
Authority
CN
China
Prior art keywords
operator
sub
operators
tensor
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211122282.3A
Other languages
English (en)
Inventor
史晓华
孙明利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211122282.3A priority Critical patent/CN115481718A/zh
Publication of CN115481718A publication Critical patent/CN115481718A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明为一种基于精简算子集的深度学习图算一体优化器,涉及计算机、编译器等技术领域。本发明包括:引入子算子,构建精简算子集,子算子的输入和输出张量均用索引变量表示;将算子表示为子算子序列集合;基于子算子的代数优化实现算子优化模块,对计算图进行代数优化;基于子算子的算子融合实现算子融合模块,再对简化的计算图中多个子算子进行融合;将优化后的计算图转化为后端代码。本发明可以隐藏算子层级的变化,减少图优化的模式匹配规则数目,通过子算子可以使上层模型在部署时相对稳定,相对于常规的图优化技术有更好的优化效果,尤其在一些复杂的网络结构中。

Description

一种基于精简算子集的深度学习图算一体优化器
技术领域
本发明涉及计算机、编译器、以及深度学习神经网络等技术领域,具体涉及一种基于精简算子集的深度学习图算一体优化器。
背景技术
目前深度学习神经网络被应用在众多场景中解决问题,如图像分类、目标检测、语音识别、机器翻译、故障识别等等。深度神经网络(DNN)框架管理深度学习应用所需的大规模数据和模型,负责计算设备的调度和资源申请。深度神经网络框架将神经结构表示为一个计算图,其中每个节点称之为一个张量算子,例如,矩阵乘法、卷积等。通过优化算子可以改进深度神经网络的计算效率,提高计算图运行性能。为了提高计算图的运行时性能,最常见对深度神经网络框架的优化形式是代数优化和算子融合。代数优化是将匹配特定模式的子图替换为具有改进性能的功能等效子图。算子融合是将前后相邻的几个算子融合成一个算子,减少中间变量传递带来的耗时。现有的DNN框架是由领域专家手动设计的算子级别的模式匹配规则来进行代数优化和算子融合,也有例如TVM将算子分类然后根据算子类别进行算子融合的方法。
以开放神经网络交换ONNX为例,深度学习的算子有接近200个,而且算子的计算方式和接口会产生变化或者算子产生不同的变种,例如卷积已经有深度卷积,分组卷积,转置卷积,逐点卷积等,同时算子的数量随着深度学习的发展也会不断增加。由此,基于算子级别的模式匹配规则也需要针对每个算子及其变种增加规则,增加了大量的工程工作,可维护性差,对于新算子和算子新的变种扩展性也比较差;同时这些手工设计的算子级别的模式匹配规则形式上比较复杂,也容易出错。最后,图优化之后一般需要再对算子进行循环优化之类的算子优化,将图优化和算子优化分开考虑可能会丧失一些协同优化的优化机会。
另一方面,深度学习算子虽然数量很多,但是可以从逻辑上将算子分为更小单元的组合。现有深度学习框架和深度学习编译框架中有类似将算子分为更小单元的技术,例如Jittor中的元算子概念,MindSpore中的图算融合技术,但是这些框架大多将拆解的更小单元进行循环融合等算子优化技术,而这种算子优化技术仍存在工程量大、可维护性差、扩展性差、易出错等问题。
发明内容
目前,深度神经网络框架中提高计算图性能,对张量算子进行优化时存在工程量大、可维护性差、扩展性差、易出错等问题;而深度学习的算子可以从逻辑层表示为基本算子集的组合,执行层不会执行完一个子算子才去执行下一个,而是会做一定的并行化调度;由此,计算图的节点变成子算子,进行代数优化时,只需要设计基于子算子的模式匹配规则,而子算子的数量以及增长数量都是远少于算子数量的,由此带来的基于子算子的模式匹配规则也是远少于基于算子的。同时,由于子算子的数学形式要比算子简单,所以模式匹配规则也不容易出错。因此,本发明提供了一种基于精简算子集的深度学习图算一体优化器,将这些更小的单元称为精简算子集,每一个元素称为子算子,例如包括基本运算:加法add,乘法multiply,规约运算min max sum,数据搬运类等等,通过设计子算子的模式匹配规则,利用图算一体进行图优化,从而可以直接对接到算子优化的后端,解决了现有问题。
本发明实现的一种基于精简算子集的深度学习图算一体优化器,包括如下部分:
(1)引入子算子,构建子算子的集合——精简算子集;子算子的输入张量和输出张量均用索引变量来表示;子算子对应一个嵌套循环结构,输出张量的索引变量代表嵌套循环结构的循环变量;不允许一个张量的索引变量重复。
(2)将算子采用子算子表示;根据算子的性质进行计算描述,表示为子算子序列的集合。
(3)基于子算子的代数优化方法实现算子优化模块;算子优化模块中存储子算子之间的模式匹配规则,模式匹配规则是子算子间的代数优化表示;算子优化模块对计算图中的每个子算子搜索匹配规则,对子算子申请所有的模式匹配规则,如果有规则得到应用,继续在新的计算图上搜索匹配规则,直到计算图中的所有子算子都没有搜索匹配到规则,则搜索过程结束,得到经代数优化的简化的计算图。
(4)基于子算子的算子融合技术实现算子融合模块;算子融合模块将前后相邻的多个子算子进行融合,在一个CPU或者GPU上,融合算子只包含一个规约类型的子算子,将规约类型的子算子作为融合算子的边界。
(5)将经过算子优化模块和算子融合模块优化后的计算图转化为后端代码。
所述(1)的精简算子集中,子算子的输入张量的个数为一个或两个,输出张量的个数固定为一个;其中,除assign外的子算子的输出张量的索引变量由输入张量的索引变量自动推导得到:一元子算子的输出张量的索引变量就是输入张量的索引变量;二元子算子的输出张量的索引变量需要两个输入张量的索引变量的超集,同时满足两个输入张量的索引变量的顺序关系;一元plus子算子中规约类型的子算子的输出张量的索引变量由输入张量的索引变量减去规约轴得到;cond的输出张量的索引变量为输入张量在对应的拼接轴拼接后的索引变量。
所述(2)中,对无法继续做下一次子算子运算的输出张量的索引变量进行调整,调整前后的索引变量的上下界相同,调整后的输出张量能继续做下一次子算子运算;记录索引变量的调整替换过程。
所述(3)中,对计算图中的常量,在编译时进行预计算;若子算子的所有输入都是常量,则该子算子的输出也是常量;采用递归算法对计算图进行预计算,从计算图的最上层子算子开始,若子算子是可计算的且所有输入变量已经计算完毕,则按照计算描述将子算子展开成for循环进行计算;若输入变量没有计算,则先计算该输入变量的值,由此递归下去;当子算子的输入为模型参数时,递归过程终止;由此计算到计算图中的所有常量。
本发明的优点与积极效果在于:
(1)本发明实现的优化器通过将算子lower到子算子,将算子表示为子算子序列集合,可以隐藏算子层级的变化,减少图优化的模式匹配规则数目,并且通过子算子可以使上层模型在部署时相对稳定。
(2)本发明的优化器采用基于索引变量的子算子,以及基于子算子的模式匹配规则以及子算子融合方法进行计算图优化,相对于常规的图优化技术有更好的优化效果,尤其在一些复杂的网络结构中。
(3)本发明的优化器进行基于子算子的算子融合就是确定一个交给硬件执行单元的边界,确定边界后将两个边界之间的子算子交给算子调优模块并且生成代码,相较于现有的算子融合实现简单,能有效对计算图进行优化。
附图说明
图1是本发明的基于精简算子集的深度学习图算一体优化器的实现框架图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明实施例实现的基于精简算子集的深度学习图算一体优化器,实现包括五部分,如图1所示,具体为:(1)构建精简算子集;(2)将算子转换为子算子集合表示;(3)基于子算子的代数优化方法实现算子优化模块;(4)基于子算子的算子融合技术实现算子融合模块;(5)后端代码生成。下面分别说明各部分的实现。
第一部分,首先说明本发明引入的子算子。子算子是从逻辑上将算子分成的更小单元。
本发明引入的子算子与现有方法的一个主要区别是,使用索引变量shape来表示子算子的输入和输出的张量,输出张量的索引变量本身指代的是循环结构的循环变量,也就是说每个子算子可以对应一个嵌套循环,所以不允许一个张量的索引变量重复。
子算子的输入张量的个数为一个或两个,输出张量的个数固定为一个。
为了表示的一致性,本发明将标量表示为0D的张量。
子算子表示形式如t[m,l,n]=multiply(a[m,l],b[l,n]),等式左端为子算子的输出张量t[m,l,n],右端为子算子名称multiply以及子算子的输入张量a[m,l],b[l,n],每一个张量都用索引变量来表示,索引变量要求在一个张量中不重复,具体名称如m,l,n无所谓,只要求满足索引变量shape推导。索引变量包含的上下界信息没有在等式中展示。
子算子的分类可以从两个角度进行分类,一个是按照输入变量的数量可以分为一元,二元,一元plus,二元plus。子算子除了输入的张量之外还需要一些额外的信息,这些额外的信息作为plus的信息。
(1)一元子算子包括:neg,rec,log,exp,nop,reshape。
一元算子的输入张量为一个,输出张量为一个。其中,neg为对张量逐元素取反;rec为对张量逐元素取倒数;log和exp分别对张量逐个元素求对数和求幂,一般不会直接对应底层指令,但一般可以对应到函数库log和exp;nop表示什么操作都不做,设置这个算子的原因是一些模式匹配规则可能会生成nop,nop同时继续匹配对应的模式匹配规则消去,所以最终得到的子算子序列是不包含nop的;reshape对输入张量的索引变量shape进行重赋值,这一过程并不涉及张量元素的搬运以及计算,所以这一子算子不会对应任何的硬件指令。
(2)二元的子算子有add,multiply,smax。
add和multiply(可以简写为mul)分别表示加法和乘法,既可以表示逐元素(elementwise)的加法、乘法,也可以表示扩展(broadcast)的加法、乘法,例如t[m,l,n]=multiply(a[m,l],b[l,n])即表示一个扩展乘法,从子算子角度,张量并没进行扩展,只是在循环中重复读取一些元素进行数据复用。
同时为了减少指令集的个数以及对应的模式匹配规则数量,不设置减法和除法子算子,可以通过加法和取反操作得到减法,通过乘法和取倒数操作得到除法。
Smax表示从两个张量中对应的两个元素中取一个较大的值,同样子算子的两个输入张量既可以是element wise类型也可以是broadcast类型的。在深度学习算子中取最大值的操作较多,而取最小值的操作较少,所以目前的系统没有取最小值的子算子smin,当然增加一个smin算子并不困难,而且其对应的模式匹配规则也与取最大值的子算子smax一致。
(3)一元plus子算子包括sum,max和assign。
Sum和max都是规约类型(reduce type)的子算子,即将输入张量在一个或多个轴上进行累积操作,所累积的具体操作可以是add、smax或multiply。如果具体操作是add,规约类型即为sum;如果是smax,则规约类型为max;如果是multiply,规约类型是product,这一操作在深度学习算子中并不常见,所以在目前的系统中未实现。规约类型的子算子,输出张量相对于输入张量来说减少了一个或几个维度,需要的额外信息就是规约轴(reduceaxis)。
Assign子算子代表的含义是:从输入张量中取出一部分或者全部,按照一定的方式写入到输出张量。所以assign输入张量的每个维度都需要一个映射表达式(mappingexpression)来表明输入张量中的元素是写入到输出张量的哪一个位置。Assign子算子可以表达转置transpose,深度到空间(dense2space,将数据从深度重新排列为空间数据块),空间到深度(space2dense,将数据从空间重新排列为深度数据块)等,同时本发明扩展了assign的语义,如果映射表达式不合法,例如填充算子pad,也可以使用assign表示,不合法的部分默认为0。综上,assign需要的额外信息plus是输入张量的维度的映射表达式。
(4)二元plus子算子只有一个cond。
cond可以认为是连接算子concatenate的二元形式,表示将两个输入张量在对应的拼接轴(concat axis)进行拼接,算子cond要求两个张量除拼接轴的大小可以不一样外其他维度大小都需要一样。Cond需要的额外信息plus就是拼接轴。当对多个输入张量进行拼接时,先拼接两个张量,得到的张量再和第三个张量进行拼接,以此类推下去。实际执行时这种执行方式可能不如直接对多个张量进行拼接,本发明将利用算子优化模块进行优化,还原到多个张量直接进行拼接。
另一方面,子算子也可以按照实际进行的操作划分为:基本运算类,包含add,multiply,neg,smax;规约运算类,包含sum,max;内存搬运类,包含assign,cond;非线性类,包含rec,log,exp,smax;伪子算子类,包含nop,reshape。值得注意的是,smax执行的操作是做比较选择较大者,这通常是通过做减法实现的,所以smax视为基本运算类,另一方面,smax可以被用来描述relu,其一个输入张量为零维张量零,所以smax也可以视为非线性类。
所有子算子组成精简算子集。上述子算子组合成本发明实施例目前实现的精简算子集,实际上,可以根据需要增加如smin子算子,或者出现新的子算子时,将其加入精简算子集。
子算子的输出结果的索引变量shape除assign之外都可以自动推导。shape推导具体如下:
一元子算子一般来说是elementwise的,所以输出shape即为输入shape。二元子算子可以表示elementwise,也可以表示broadcast,所以结果shape需要两个输入shape的超集,同时满足两个输入shape的顺序关系。例如子算子multiply,两个输入张量为a[i,k],b[k,j],则推导的结果变量shape为[i,k,j]。对于规约类型如sum、max,将输入shape减去规约轴即是输出shape。对于cond,拼接轴替换为拼接之后的轴,即输入张量在对应的拼接轴拼接后的索引变量就是输出结果shape。
assign的输出张量shape是手工指定的,这是由assign本身的逻辑确定的。
随着神经网络的发展,经常会增加一些新算子或者算子的变体,新算子如果用现有的子算子可以表达则不需要增加任何人力成本,否则需要增加子算子,但是可以确定的是子算子增加的速度要远低于算子增加的速度。
第二部分,设置算子转换模块,将算子转换为子算子集合表示。
这个过程需要用户根据算子的性质进行计算描述,包括输入输出算子的属性等信息,例如:
卷积convolution2d可以理解为先按照滑动窗口进行取数,然后与参数做逐元素的乘法,最后累加到一起,所以表示的子算子序列为assign,multiply,sum;
矩阵乘matmul可以理解为两个矩阵做broadcast的乘法然后在一个轴上做累加,对应表示的子算子序列可以指定为multiply,sum;
最大池化maxpooling2d可以理解为按照滑动窗口取数,然后取最大值;对应的子算子序列可以指定为assign,max。
需要注意的是,本发明将子算子的输入输出用索引变量表示,输出张量的索引变量有可能无法继续做下一次子算子运算,于是需要对输出张量的索引变量进行微调,例如,对输入数据data[n,c,h,w]卷积,权重为weight[oc,c,kh,kw],卷积输出shape为[n,oc,h,w]的张量,假设oc和c上下界相同,此时就需要将oc调整为c,因此得到一个结果shape为[n,c,h,w]的张量,这个张量可以继续进行运算。同时需要记录索引变量的替换过程,为后续的优化和代码生成提供信息。
如表1所示为一个卷积的子算子表示。
表1卷积的子算子表示
Figure BDA0003846962690000061
其中,输入数据为data[n,c,h,w],n,c,h,w为输入张量的索引变量;
算子中权重为weight[oc,c,kh,kw],oc,c,kh,kw为张量的索引变量;
sh和sw为两个方向上的stride(步幅),ph和pw为两个方向上的padding(填充量)。
卷积输出索引变量为n,oc,h,w的张量。
如下表2所示为矩阵乘的子算子表示。
表2矩阵乘的子算子表示
Figure BDA0003846962690000062
上述两个输入分别为data[n,l]和weight[l,m]。n,l为第一个输入的索引变量,可对应为矩阵的行和列。l,m为第二个输入的索引变量。两个输入有一个索引变量相同,这是矩阵乘法的限制。此处的l为字符L的小写形式。矩阵乘输出索引变量为n,m的张量。
如下表3所述为最大池化的子算子表示。
表3最大池化的子算子表示
Figure BDA0003846962690000063
输入为data[n,c,h,w],sh和sw为两个方向上的stride,ph和pw为两个方向上的padding。最大池化输出索引变量为n,c,oh,ow的张量。kh和kw为最大池化的核大小(kernelsize)在两个维度上的变量。
第三步,基于子算子的代数优化实现算子优化模块。
代数优化是基于子算子之间的模式匹配规则。子算子本身的含义是表示一个嵌套的循环,最内层可以认为只有一个语句,所以可以从代数角度得到这些模式匹配规则,目前的规则大多数是两层的规则,基本可以分为交换律(指两个子算子的顺序可以交换),结合律,分配律,几何律。例如乘法对加法的分配律,乘法、加法自身的结合律等。同时为解决深度学习中一些特有的优化,本发明还提出多层的模式匹配规则,解决这些特有的优化规则无法全部用子算子的规则组合表示的问题,例如添加单位卷积(identity convolution)的优化。对模式匹配规则的命名上,上层的子算子在前面,下一层的子算子在其后,并根据下层的数量和位置添加后缀_both,_single,_left。其中,both代表上层有两个输入张量,其都是由下层子算子产生的;single代表上层有一个输入张量,其是由下层子算子产生的;left代表上层有两个输入张量,但只有第一个输入张量是由下层子算子产生的,第二个输入张量的类型不受限制。以下表4为子算子之间的模式匹配规则的示例,值得注意的是,模式匹配规则是有其限制条件的,只有满足限制条件,才会适用此条规则,具体限制不在本发明中描述。
表4子算子之间的模式匹配规则示例
Figure BDA0003846962690000071
Figure BDA0003846962690000081
由表4,本发明增加了多层规则的模式匹配规则,以解决如在加法、乘法、拼接操作中添加单位卷积的情况。
代数优化的核心思路就是找到一个规则的序列,对由子算子构成的计算图进行变换,使得得到的计算图能够得到简化。
首先规则本身大部分是有可逆的规则与之对应的,对所有的规则进行搜索时,可能在两个可逆的规则中不断变换,无法停止。为此,本发明根据规则本身的特点将规则分为三类,cost上升,cost下降,cost不变。衡量标准主要是变换前后的子算子数目以及子算子类型的变换。例如,乘法对加法的分配律和逆分配律,分配律由两个子算子变为三个子算子,认为是cost上升,逆分配律则相反,认为是cost下降。对于cost下降的优化,本发明认为一定可以执行这条规则,而对于cost不变或者上升的,需要在满足一定条件下才可以执行,例如规则可以将常量部分合在一起。本发明的算子优化模块中预先存储cost下降的模式匹配规则,也可以存储上附带执行条件的cost不变或者上升的模式匹配规则。
解决完这个问题之后,本发明就可以对计算图中的每个子算子搜索匹配规则,对每个子算子申请(apply)所有的规则,如果规则得到应用(applied),就在新的计算图上继续这个搜索匹配规则过程,所以这个搜索过程是不回溯的、不记录之前状态的一种搜索方式。当所有子算子都没有apply到任何一条规则时就认为搜索过程结束,结束之后就可以得到简化之后的计算图。
计算图中往往包含常量的部分,所以本发明可以在编译时计算常量,而不是将其发射到后端中去。当子算子的所有输入都是常量时,就认为此时的子算子的输出也是常量,可以在编译时进行预计算,预计算的过程主要是将子算子按照子算子的计算描述展开成for循环,然后在CPU端,编译时进行计算。
为了保证所有常量都会被计算,这里采用一个递归算法进行计算。从计算图的最上层子算子开始,如果它是可计算的(常量)并且所有输入都已经计算完毕,则取出输入和计算描述展开成for循环进行计算。如果输入变量没有计算,则先计算这个输入变量的值,由此递归下去。当子算子的输入为模型的参数(初始常量)时,递归过程终止。由此可以计算到所有常量,在接下来的融合中不再考虑常量部分的子算子,将它们的结果视为一个常量交给算子融合模块。
第四步,基于子算子的算子融合实现算子融合模块。
经过代数优化之后,常量被组合到一起,就可以在编译期对常量进行预计算,对于常量预计算完之后的计算图(由子算子构成),本发明可以将若干个子算子合在一起交给后端做进一步处理,在CPU或者GPU上可以认为一个融合算子不会包含两个规约(reduce)类型的子算子,因为会带来程序局部性的降低,所以采用基于贪心的融合策略即可以将若干个子算子融合成只包含一个reduce类型的算子。可以将reduce类型的子算子作为融合算子的边界,因为reduce类型的输出张量的shape是较小的,将其作为边界,其数据交换量是最少的。而对于不同架构的NPU(神经网络处理器)来说,情况可能不一致,可以包含两个及以上的reduce类型,本发明可以根据硬件的体系结构修改融合策略,或者使用自动调优的方式来自动搜索融合算子的大小。
第五步,后端代码生成。
由于子算子表示的是嵌套的for循环结构,在自动融合之后得到的算子是子算子的组合,所以融合算子中只包含算子的计算描述而不包含其他信息,如卷积的stride和padding等,所以不能调用硬件厂商提供的深度学习加速库如cudnn和mkl-dnn等。目前后端选择有三个,一是TVM的tensor expression特定域语言,简称te,也称为Halide IR,利用TVM中的auto-scheduler(也称为Ansor)不需要写调度模板就可以进行自动调优,自动选择出最佳的调度生成代码并执行,同时AKG(Automatic Kernel Generator,自动内核生成器)也是支持te输入的,本发明方法可以利用AKG做算子调度优化和代码生成。二是利用现有的多面体模型提取工具pet,本发明方法生成c语言代码,由pet生成多面体模型,并利用MLIR(Multi-Level Intermediate Representation,多级中间表示)或者PPCG(PolyhedralParallel Code Generator,源到源的并行代码生成器)做调度优化和代码生成。三是本发明直接利用多面体模型的库ISL生成多面体模型,然后进行调度优化,生成AST(抽象语法树),最后由AST进行代码生成。由于TVM接受度高而且社区比较活跃,所以本发明实施例将TVM方案作为衡量性能的主要方案。
表5 对网络Resnet50优化的试验结果
Time(ms)
本发明优化器(ansor) 5.11
Relay(topi) 6.18
Relay(ansor) 6.16
Relay(autotvm) 4.62
表5中Relay是TVM的图优化工具,括号内部为TVM算子调优的后端,topi是默认的手写的调度,autotvm是手写的调度模板进行自动调优,ansor是自动生成调度模板并进行自动调优。由表5可以看出,采用本发明优化器进行计算图优化能取得较好的优化效果,尽管比Relay(autotvm)略慢,但是明显优于Relay(ansor)和Relay(topi),由于Relay(autotvm)采用了手写算子模板加上算子自动调优的机制,实际上要比本机制花费更多的人力成本和时间代价,而与本机制都采用一样的ansor自动调度模板的Relay(ansor)比较,本机制有约20%的性能提升。
表6 对Transformer网络优化的试验结果
类别 Time(ms)
本发明优化器(ansor) 0.263
Relay(topi) 1.171
Relay(ansor) 1.200
Relay(autotvm) 0.947
Taso(cudnn) 0.575
其中Taso是另外一种图优化工具,适用GPU的深度学习库cudnn作为后端。由表6可以看出,采用本发明优化器能取得最好的试验效果。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述,以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式,在本发明技术方案的基础上,本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

Claims (9)

1.一种基于精简算子集的深度学习图算一体优化器,用于深度神经网络框架中,其特征在于,所述优化器包括:
(1)引入子算子,构建子算子的集合,得到精简算子集;
所述子算子的输入和输出均为张量数据,输入张量和输出张量均用索引变量来表示;子算子对应一个嵌套循环结构,输出张量的索引变量代表嵌套循环结构的循环变量,一个张量的索引变量不允许重复;
(2)将算子表示为子算子的集合;
根据算子的性质进行计算描述,表示为子算子序列的集合;
(3)基于子算子的代数优化实现算子优化模块;
所述算子优化模块中存储子算子之间的模式匹配规则,模式匹配规则是子算子间的代数优化表示;算子优化模块对计算图中的每个子算子搜索匹配规则,对子算子申请所有的模式匹配规则,如果有规则得到应用,继续在新的计算图上搜索匹配规则,直到计算图中的所有子算子都没有搜索匹配到规则,则搜索过程结束,得到经代数优化的简化的计算图;
(4)基于子算子的算子融合技术实现算子融合模块;
所述算子融合模块将前后相邻的多个子算子进行融合,在一个CPU或者GPU上,融合算子只包含一个规约类型的子算子,将规约类型的子算子作为融合算子的边界;
(5)将经过算子优化模块和算子融合模块优化后的计算图转化为后端代码。
2.根据权利要求1所述的深度学习图算一体优化器,其特征在于,所述(1)中,精简算子集中包含的子算子,根据输入变量的数量分为一元、二元、一元plus和二元plus四种,plus中记录除输入张量外的额外信息;
其中,一元子算子包括:对张量逐元素取反neg;对张量逐元素取倒数rec;对张量逐元素求对数log;对张量逐元素求幂exp;什么操作都不做nop;对输入张量的索引变量重新赋值reshape;
二元子算子包括:加法add,乘法multiply,smax;smax是从两个张量中对应的两个元素中取一个较大的值;
一元plus子算子包括:sum,max和assign;sum和max均表示将输入张量在规约轴上进行累积操作,操作为add对应的子算子为sum,操作为smax对应的子算子为max;sum和max的额外信息是规约轴;assign表示从输入张量中取出一部分或者全部,按照约定方式写入到输出张量,assign的额外信息是约定的输入张量的维度的映射表达式,记录输入张量中元素写入到的输出张量的位置;若映射表达式不合法,使用assign表示时,将不合法的部分默认为0;
二元plus子算子包括cond;cond表示将两个输入张量在对应的拼接轴进行拼接,cond的额外信息是拼接轴。
3.根据权利要求2所述的深度学习图算一体优化器,其特征在于,所述(1)中,子算子的输入张量的个数为一个或两个,输出张量的个数固定为一个;其中,除assign外的子算子的输出张量的索引变量由输入张量的索引变量自动推导得到:一元子算子的输出张量的索引变量就是输入张量的索引变量;二元子算子的输出张量的索引变量需要两个输入张量的索引变量的超集,同时满足两个输入张量的索引变量的顺序关系;一元plus子算子中规约类型的子算子的输出张量的索引变量由输入张量的索引变量减去规约轴得到;cond的输出张量的索引变量为输入张量在对应的拼接轴拼接后的索引变量。
4.根据权利要求1所述的深度学习图算一体优化器,其特征在于,所述(2)中,对无法继续做下一次子算子运算的输出张量的索引变量进行调整,调整前后的索引变量的上下界相同,调整后的输出张量能继续做下一次子算子运算;记录索引变量的调整替换过程。
5.根据权利要求2所述的深度学习图算一体优化器,其特征在于,所述(2)中,将卷积convolution2d表示为子算子序列assign,multiply,sum;将矩阵乘matmul表示为子算子序列multiply,sum;将最大池化maxpooling2d表示为子算子序列assign,max。
6.根据权利要求1所述的深度学习图算一体优化器,其特征在于,所述(3)中,模式匹配规则的命名方式为:上层的子算子在下一层子算子的前面,并根据下层子算子产生的上层子算子的输入张量个数添加后缀:both、single或left;其中,both代表上层子算子的两个输入张量都是由下层子算子产生,single代表上层子算子有一个输入张量由下层子算子产生,left代表上层子算子有两个输入张量,但只有第一个输入张量由下层子算子产生,第二个输入张量的类型不受限制。
7.根据权利要求1或6所述的深度学习图算一体优化器,其特征在于,所述(3)中,对计算图中的常量,在编译时进行预计算;若子算子的所有输入都是常量,则该子算子的输出也是常量;采用递归算法对计算图进行预计算,从计算图的最上层子算子开始,若子算子是可计算的且所有输入变量已经计算完毕,则按照计算描述将子算子展开成for循环进行计算;若输入变量没有计算,则先计算该输入变量的值,由此递归下去;当子算子的输入为模型参数时,递归过程终止;由此计算到计算图中的所有常量。
8.根据权利要求1或6所述的深度学习图算一体优化器,其特征在于,所述(4)中,算子融合模块,在CPU或者GPU上,采用基于贪心的融合策略将多个子算子融合成只包含一个规约类型的算子。
9.根据权利要求1所述的深度学习图算一体优化器,其特征在于,所述(5)中,后端代码的实现方式包括:(1)优化的计算图用tensor expression特定域语言描述,利用TVM的auto-scheduler进行自动调优,选择出最佳的调度生成代码并执行;(2)优化的计算图用c语言代码描述,利用多面体模型提取工具pet生成多面体模型,利用多级中间表示MLIR或者源到源的并行代码生成器PPCG进行调度优化和代码生成;(3)对优化的计算图,利用多面体模型的库ISL生成多面体模型,再进行调度优化,生成抽象语法树AST,由AST进行代码生成。
CN202211122282.3A 2022-09-15 2022-09-15 一种基于精简算子集的深度学习图算一体优化器 Pending CN115481718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211122282.3A CN115481718A (zh) 2022-09-15 2022-09-15 一种基于精简算子集的深度学习图算一体优化器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211122282.3A CN115481718A (zh) 2022-09-15 2022-09-15 一种基于精简算子集的深度学习图算一体优化器

Publications (1)

Publication Number Publication Date
CN115481718A true CN115481718A (zh) 2022-12-16

Family

ID=84423757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211122282.3A Pending CN115481718A (zh) 2022-09-15 2022-09-15 一种基于精简算子集的深度学习图算一体优化器

Country Status (1)

Country Link
CN (1) CN115481718A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879504A (zh) * 2022-12-30 2023-03-31 珠海市欧冶半导体有限公司 一种layernorm算子拆分量化装置及方法
CN117492766A (zh) * 2023-12-27 2024-02-02 深圳市九天睿芯科技有限公司 编译方法、编译器、神经网络加速器、芯片及电子设备
WO2024178522A1 (zh) * 2023-02-27 2024-09-06 华为技术有限公司 一种计算图拆分方法以及相关设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879504A (zh) * 2022-12-30 2023-03-31 珠海市欧冶半导体有限公司 一种layernorm算子拆分量化装置及方法
CN115879504B (zh) * 2022-12-30 2023-08-29 珠海市欧冶半导体有限公司 一种layernorm算子拆分量化装置及方法
WO2024178522A1 (zh) * 2023-02-27 2024-09-06 华为技术有限公司 一种计算图拆分方法以及相关设备
CN117492766A (zh) * 2023-12-27 2024-02-02 深圳市九天睿芯科技有限公司 编译方法、编译器、神经网络加速器、芯片及电子设备

Similar Documents

Publication Publication Date Title
CN110764744B (zh) 用于神经网络计算的中间表示生成方法和装置
CN110321999B (zh) 神经网络计算图优化方法
CN110766147B (zh) 神经网络编译器架构及编译方法
CN115481718A (zh) 一种基于精简算子集的深度学习图算一体优化器
CN112579063B (zh) 一种用于深度学习编译器中探索优化空间的加速方法
US20160342888A1 (en) Memory efficiency for convolutional neural networks operating on graphics processing units
US10901715B1 (en) Lazy compilation and kernel fusion in dynamic computation graphs
US6064819A (en) Control flow and memory management optimization
US5442790A (en) Optimizing compiler for computers
US11500959B2 (en) Multiple output fusion for operations performed in a multi-dimensional array of processing units
US5742814A (en) Background memory allocation for multi-dimensional signal processing
CN115543639A (zh) 分布式执行深度学习任务的优化方法和分布式系统
Li et al. MPFFT: An auto-tuning FFT library for OpenCL GPUs
CN114168154B (zh) 模型数据处理方法、装置、电子设备及存储介质
CN112836787A (zh) 通过高效混合并行化减少深度神经网络训练次数
Zheng et al. Chimera: An analytical optimizing framework for effective compute-intensive operators fusion
Bondhugula et al. Affine transformations for communication minimal parallelization and locality optimization of arbitrarily nested loop sequences
CN115904394B (zh) 一种面向众核架构的神经网络增量编译方法和装置
Mu et al. A collaborative framework for FPGA-based CNN design modeling and optimization
KR102460217B1 (ko) 인공지능 기반의 예측 판결문 생성 장치, 방법 및 프로그램
Bai et al. Gtco: Graph and tensor co-design for transformer-based image recognition on tensor cores
Chang et al. Deep neural networks compiler for a trace-based accelerator
Gazzarri et al. A tool to support FastFlow program design
US11809849B1 (en) Global modulo allocation in neural network compilation
EP4443289A1 (en) Method, device and electronic apparatus for generating instructions of artificial intelligence accelerator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination