CN113420865A

CN113420865A - 一种基于多算子融合的深度神经网络推理加速方法和系统

Info

Publication number: CN113420865A
Application number: CN202110660174.0A
Authority: CN
Inventors: 傅家庆; 杨非; 叶娇娇; 钟昊文; 陈岱渊; 单海军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-21

Abstract

本发明涉及一种基于多算子融合的深度神经网络推理加速方法和系统，该方法具体为：首先输入神经网络计算图，获取神经网络计算逻辑图，依据神经网络算子间计算关系，获取完整的神经网络前向计算的符号表达式；然后使用可融合算子搜索方法，利用算子符号表达式自动简化系统，化简神经网络前向计算的符号表达式，获取最简的符号表达式，实现多算子融合；再依据多算子融合结果，根据获得的最简符号表达式，构建新的神经网络计算推理逻辑图，解耦最简符号表达式，离线计算并存储为新的模型参数，构建相应的神经网络模型结构；最后加载新的模型参数实现推理加速。本发明能够减少算子执行间隙的开销，提升设备计算资源利用率，优化网络整体推理速度。

Description

一种基于多算子融合的深度神经网络推理加速方法和系统

技术领域

本发明属于人工智能技术领域，涉及一种基于多算子融合的深度神经网络推理加速方法和系统。

背景技术

在人工智能领域，深度神经网络通常是一个很深的神经网络，包含很多网络参数，例如ResNet-101 包含101层的网络结构，以及2300多万的网络参数。这使得在部署推理阶段，深度神经网络的推理速度受到很大的挑战。算子融合是一种神经网络推理加速技术。算子融合是通过分析和优化现有网络计算图逻辑，对原有计算逻辑进行拆分、重组、融合等操作，以减少算子执行间隙的开销并且提升设备计算资源利用率，从而实现网络整体执行时间的优化。

当前的算子融合技术主要针对少量的算子（2-3个算子），且算子的类型相对固定，如卷积、BN等，这就限制了算子融合的扩展以及推理性能的提升。并且，当前的算子融合技术仅仅基于用户的手推公式，来实现简单的算子融合，这就限制了算子数量的增加，对于复杂的深度网络也很难应用同样的方法，缺乏一种自动化的推理工具。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于多算子融合的深度神经网络推理加速方法，以解决目前的算子融合技术缺乏自动化推理工具、算子融合不彻底不深入的问题，提升模型推理的速度，其具体技术方案如下：

一种基于多算子融合的深度神经网络推理加速方法，包括如下步骤：

首先输入神经网络计算图，加载神经网络模型，获取神经网络计算逻辑图，依据神经网络算子间计算关系，获取完整的神经网络前向计算的符号表达式；

然后使用可融合算子搜索方法，完成可融合算子搜索，利用算子符号表达式自动简化系统，化简神经网络前向计算的符号表达式，获取最简的符号表达式，实现多算子融合；

再依据多算子融合结果，根据获得的最简符号表达式，构建新的神经网络计算推理逻辑图，利用算子符号表达式自动简化系统解耦最简符号表达式，将只包含模型参数、而不含输入的复合符号表达式解耦出来，离线计算并存储为新的模型参数，并构建相应的神经网络模型结构；

最后加载新的模型参数实现推理加速。

优选的，所述获取神经网络前向计算的符号表达式的具体方式为：

加载神经网络计算逻辑图，采用广度优先遍历，利用有向无环图遍历算法，遍历逻辑图每一层算子，并转换为单算子符号表达式，然后嵌套调用单算子符号表达式，得到完整的神经网络前向计算的符号表达式。

优选的，所述可融合算子搜索方法采用分治算法，所述分治算法具体包括：

分解：将神经网络分为N个重复的cell结构，每个子计算表达式表示一个cell结构，分别对其进行算子融合；

求解：对于每个cell，判断是否可将当前算子与待融合算子融合在一起，如果可以融合，利用算子符号表达式自动简化系统进行算子融合；

合并：逐个合并每个cell的算子融合结果，得到最终的算子融合结果。

优选的，所述判断是否可将当前算子与待融合算子融合在一起，具体为：

构建算子融合白名单，将可以融合的算子制成索引，当发现当前算子与待融合算子在算子融合白名单中，即判断可以将当前算子与待融合算子融合在一起。

优选的，所述算子符号表达式自动简化系统利用算子符号计算表达式的语法规则构造算子计算的语法树，再利用语义规则，对可融合算子的符号计算表达式进行简化，具体的，包括以下步骤：

第一步，将算子符号表达式输入到语法分析器，利用语法分析器标记出算子符号表达式中符号的结构，即根据算子符号表达式的语法规则，生成反映该结构的抽象语法树。

第二步，利用遍历工具遍历该抽象语法树，如果存在简化规则，使得遍历到的节点符合该规则，则表示该算子可以利用该规则进行简化。

第三步，将可简化的表达式输入符合表达式转换器，利用简化规则对该表达式进行简化，并返回新的抽象语法树。

最后，如不存在可简化的表达式，表示该算子表达式简化完成，返回简化结果。

优选的，所述算子符号表达式自动简化系统，包括：

可融合算子搜索方法中符号表达式的语法集合：基于此语法集合，利用语法分析器标记出符号表达式中符号的结构，并构造能够反映该结构的语法树；

符号语义推导规则集合：即根据符号表达式的计算逻辑，进行符号简化所需的语义推导规则的集合，该集合中的语义推导规则满足：当符号表达式满足语义推导的前置条件时，其语义等价于根据该规则推导简化后的表达式的语义；当某个符号表达式可以简化时，该集合中一定存在语义推导规则，使得该符号表达式满足语义推导规则的前置条件，并能根据该推导规则进行简化；

自动简化引擎：所述自动简化引擎的输入为待简化的符号计算表达式，输出为根据符号语义推导规则简化后的符号计算表达式，该自动简化引擎包括：符号计算表达式的语法分析器，用于标记出符号表达式的符号结构，并构造反映该结构的语法树；符号表达式语法树的遍历工具，用于遍历语法树，并找到符合语义推导规则的子表达式；符号表达式的转换工具，用于将符合某条语义推导规则的子表达式转换为简化后的子表达式。

优选的，所述加载新的模型参数实现推理加速的具体方式为：

利用深度学习框架，完成构建新的神经网络，其中网络参数仅包括解耦后的新的模型参数，利用深度学习框架api完成模型加载和模型推理。

一种基于多算子融合的深度神经网络推理加速系统，包括底层的框架层、中间的接口层和上层的优化层；所述框架层，包含深度神经网络训练和推理所需要的深度学习框架和深度学习推理引擎，所述深度学习框架包括但不限于TensorFlow，Pytorch，MXNet，PaddlePaddle，MindSpore，OneFlow，用于深度神经网络的搭建，计算图生成和训练，同时，对于每一种深度学习框架，选取支持该框架相应的推理引擎，用于模型的推理服务；中间的接口层，包含深度神经网络计算图到计算符号表达式的互转工具，该转换工具将待优化的计算图转换为计算符号表达式，用于算子融合，并且将简化完成的计算符号表达式转换为优化后的计算图，用于模型推理；上层的优化层，包含可融合算子搜索引擎和计算表达式的自动简化工具，分别用于搜索并生成可以简化的子表达式和根据表达式简化规则进行表达式自动简化。

本发明的有益效果：

本发明通过分析和优化现有网络计算图逻辑，对原有计算逻辑进行拆分、重组、融合等操作，以减少算子执行间隙的开销并且提升设备计算资源利用率，从而实现网络整体推理速度的优化。

附图说明

图1是本发明的系统框架图；

图2是本发明的方法的流程图；

图3是本发明方法的可融合算子搜索方法原理图；

图4是本发明方法的算子符号表达式自动简化系统原理图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1所示，一种基于多算子融合的深度神经网络推理加速系统，该系统分为三层：底层的框架层，包含了深度神经网络训练和推理所需要的深度学习框架和深度学习推理引擎，所述深度学习框架包括但不限于TensorFlow，Pytorch，MXNet，PaddlePaddle，MindSpore，OneFlow等，这些深度学习框架用于深度神经网络的搭建，计算图生成和训练，同时，对于每一种深度学习框架，选取支持该框架相应的推理引擎，用于模型的推理服务；中间的接口层，包含了一个深度神经网络计算图到计算符号表达式的互转工具，该转换工具将待优化的计算图转换为计算符号表达式，用于算子融合，并且将简化完成的计算符号表达式转换为优化后的计算图，用于模型推理；上层的优化层，包含了可融合算子搜索引擎和计算表达式的自动简化工具，分别用于搜索并生成可以简化的子表达式和根据表达式简化规则进行表达式自动简化。

如图2所示，一种基于多算子融合的深度神经网络推理加速方法：

首先系统输入为待推理加速的神经网络计算图，系统加载神经网络模型，获取神经网络计算逻辑图。鉴于深度神经网络可以用有向无环图表示计算逻辑，故采用有向无环图遍历算法，考虑到神经网络逻辑计算顺序，采用广度优先遍历，依据有向无环图遍历算法，遍历逻辑图每一层算子，并转换为单算子符号表达式，然后嵌套调用单算子符号表达式，得到完整的神经网络前向计算的符号表达式。下一步利用可融合算子搜索方法，完成可融合算子的搜索，如果待融合算子列表不为空，则表示存在可融合算子，将可融合算子的符号表达式输入算子符号表达式自动简化系统，得到简化后的算子符号表达式，然后返回上一步继续搜索可融合算子。以上循环直到待融合算子列表为空，表示不存在可融合算子，退出循环，利用简化后的算子符号表达式构造新的计算图。最后将新的计算图加载到深度神经网络推理引擎，完成推理。

如图3所示，所述可融合算子搜索方法，具体为：在得到完整的深度神经网络前向计算表达式后，化简神经网络前向计算符号计算表达式，尽可能获取最简的符号计算表达式，采用分治算法完成可融合算子的搜索，高效地完成针对于包含重复结构深度神经网络的化简，判断是否可将当前算子与待融合算子融合在一起，当判断图中所有邻接算子两两之间都不能实现算子融合，即达到“尽可能获取最简符号计算表达”条件。

所述判断是否可将当前算子与待融合算子融合在一起，具体为：构建算子融合白名单，例如W*X+W*Y=W*(X+Y)，等号左边是待化简的表达式，等号右边是化简后表达式，通过化简，将两次矩阵乘法与一次向量加法化简为一次矩阵乘法与一次向量加法，降低了浮点运算次数FLOP；对等号左边的表达式构建索引，以加快检索效率，当发现当前算子与待融合算子在算子融合白名单中，即判断可以将当前算子与待融合算子融合在一起。

例如，对于ResNet网络，其主要由重复的cell结构组成，对于Bert网络主要由重复Transfomer 结构组成，对于这样的类cell结构，按照cell结构将其分解为子计算表达式，每个子计算表达式表示一个cell结构，对于每个子计算表达式，先判断是否可将当前算子与待融合算子融合在一起，判断的过程即从所构建的算子融合白名单检索是否存在可融合的算子，如果存在，则返回“是”，每个子计算表达式的可融合算子作为返回的待融合算子列表。否则返回“否”,判断整个前向计算表达式是否存在可融合算子，判断的方法仍然是查询算子融合白名单，如果可以，返回相应的待融合算子列表，如果不可以，证明无可融合的算子列表，算子融合流程结束。即采用分治算法：分解-求解-合并。分解：将神经网络分为N个重复的cell结构，以便分别对其进行算子融合；求解：对于每个cell，先判断是否可将当前算子与待融合算子融合在一起，如果可以融合，利用自动推理机进行算子融合；合并：逐个合并每个cell的算子融合结果，得到最终的算子融合结果，合并方法仍然由自动推理机完成。

依据多算子融合的结果，根据获得的最简的符号计算表达式，构建新的神经网络前向计算逻辑图，所述最简化的表达式指的是该符号计算表达式的浮点运算次数FLOP最少，例如乘法加法等，利用自动推理机实现最简符号表达式的解耦，尽可能将神经网络模型参数与模型输入解耦开来，将只包含模型参数、而不包含输入的复合符号表达式视为新的模型参数，离线计算并存储。这样就相当于把实时推理需要进行的浮点运算，转移到离线计算完成，从而优化了推理耗时。

同时，构建新的神经网络前向计算推理逻辑图，加载新的模型参数并进行前向计算，利用深度学习框架，如tensorflow、pytorch等，完成构建新的神经网络，其中网络参数仅包括解耦后的新模型参数，利用深度学习框架api完成模型加载和模型推理，实现推理加速。

如图4所示，所述自动推理机指的是利用符号计算规则，简化多算子融合算法中算子符号表达式的自动简化系统，其利用算子符号计算表达式的语法规则构造算子计算的语法树，再利用语义规则，对可融合算子的符号计算表达式进行简化，具体的包括如下步骤：

所述算子符号表达式的自动简化系统，包括：

可融合算子搜索方法中符号表达式的语法集合：基于此语法集合，可以利用语法分析器标记出符号表达式中符号的结构，并构造一颗能够反映该结构的语法树；

符号语义推导规则集合：即根据符号表达式的计算逻辑，进行符号简化所需的语义推导规则的集合。该集合中的语义推导规则应满足：当符号表达式满足语义推导的前置条件时，其语义等价于根据该规则推导简化后的表达式的语义，即保证了语义推导规则集合的正确性。该集合中的语义推导规则还应满足：当某个符号表达式可以简化时，该集合中一定存在语义推导规则，使得该符号表达式满足语义推导规则的前置条件，并能根据该推导规则进行简化，即保证了语义推导规则集合的完备性；

自动简化引擎：所述自动简化引擎的输入为一个待简化的符号计算表达式，输出为一个根据符号语义推导规则简化后的符号计算表达式，该自动简化引擎包括：一个符号计算表达式的语法分析器，用于标记出符号表达式的符号结构，并构造一颗能够反映该结构的语法树。该自动简化引擎还包括：一个符号表达式语法树的遍历工具：用于遍历语法树，并找到符合语义推导规则的子表达式。该自动简化引擎还包括：一个符号表达式的转换工具，用于将符合某条语义推导规则的子表达式转换为简化后的子表达式。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多算子融合的深度神经网络推理加速方法，其特征在于，包括如下步骤：

再依据多算子融合结果，根据获得的最简符号表达式，构建新的神经网络计算逻辑图，利用算子符号表达式自动简化系统解耦最简符号表达式，将只包含模型参数、而不含输入的复合符号表达式解耦出来，离线计算并存储为新的模型参数，并构建相应的神经网络模型结构；

最后加载新的模型参数实现推理加速。

2.根据权利要求1所述的一种基于多算子融合的深度神经网络推理加速方法，其特征在于，所述获取神经网络前向计算的符号表达式的具体方式为：

3.根据权利要求1所述的一种基于多算子融合的深度神经网络推理加速方法，其特征在于，所述可融合算子搜索方法采用分治算法，所述分治算法具体包括：

4.根据权利要求3所述的一种基于多算子融合的深度神经网络推理加速方法，其特征在于，所述判断是否可将当前算子与待融合算子融合在一起，具体为：

5.根据权利要求3所述的一种基于多算子融合的深度神经网络推理加速方法，其特征在于，所述算子符号表达式自动简化系统利用算子符号计算表达式的语法规则构造算子计算的语法树，再利用语义规则，对可融合算子的符号计算表达式进行简化，具体的，包括以下步骤：

第一步，将算子符号表达式输入到语法分析器，利用语法分析器标记出算子符号表达式中符号的结构，即根据算子符号表达式的语法规则，生成反映该结构的抽象语法树；

第二步，利用遍历工具遍历该抽象语法树，如果存在简化规则，使得遍历到的节点符合该规则，则表示该算子可以利用该规则进行简化；

第三步，将可简化的表达式输入符合表达式转换器，利用简化规则对该表达式进行简化，并返回新的抽象语法树；

6.根据权利要求5所述的一种基于多算子融合的深度神经网络推理加速方法，其特征在于，所述算子符号表达式自动简化系统，包括：

7.根据权利要求1所述的一种基于多算子融合的深度神经网络推理加速方法，其特征在于，所述加载新的模型参数实现推理加速的具体方式为：

8.一种基于多算子融合的深度神经网络推理加速系统，其特征在于，包括底层的框架层、中间的接口层和上层的优化层；所述框架层，包含深度神经网络训练和推理所需要的深度学习框架和深度学习推理引擎，所述深度学习框架包括但不限于TensorFlow，Pytorch，MXNet，PaddlePaddle，MindSpore，OneFlow，用于深度神经网络的搭建，计算图生成和训练，同时，对于每一种深度学习框架，选取支持该框架相应的推理引擎，用于模型的推理服务；中间的接口层，包含深度神经网络计算图到计算符号表达式的互转工具，该转换工具将待优化的计算图转换为计算符号表达式，用于算子融合，并且将简化完成的计算符号表达式转换为优化后的计算图，用于模型推理；上层的优化层，包含可融合算子搜索引擎和计算表达式的自动简化工具，分别用于搜索并生成可以简化的子表达式和根据表达式简化规则进行表达式自动简化。