CN116991564A

CN116991564A - 面向异构双核mcu的算子内并行加速方法

Info

Publication number: CN116991564A
Application number: CN202311272689.9A
Authority: CN
Inventors: 李超
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-11-03
Anticipated expiration: 2043-09-28
Also published as: CN116991564B

Abstract

本发明公开一种面向异构双核MCU的算子内并行加速方法，其包括：通过深度学习模型的计算图构建有向无环图G；统计所述有向无环图G中的算子信息；基于得到的算子信息，为每类算子构建相应的算子时延模型，以此预测算子在不同工作负载下的推理时间；基于步骤三得到的算子时延模型，为深度学习模型的每个算子选择一种最优的划分策略，即划分维度和划分比例；基于步骤四得到的算子划分策略，在编译器编译深度学习模型生成相应代码的过程中嵌入步骤四得到的划分策略，以此加速神经网络模型的推理。本发明通过充分利用硬件资源和优化计算任务分配，提高推理性能、降低能源消耗和延迟，并满足实时性和隐私性等要求。

Description

面向异构双核MCU的算子内并行加速方法

技术领域

本发明涉及神经网络应用领域，尤其涉及一种面向异构双核MCU的算子内并行加速方法。

背景技术

AIoT（人工智能物联网）的快速发展使得深度学习成为其关键技术之一。深度学习通过神经网络模型的训练和推理，能够处理和分析大量的传感器数据，从而实现智能化的决策和应用。在AIoT领域，典型的应用包括机械振动监测以预测故障、视觉任务的检测与识别、自动驾驶系统、智能家居和工业自动化等。

过去，这些AIoT应用通常依赖于丰富的云端或雾端计算资源来满足实时响应的需求。数据从边缘设备上传到云端进行处理和分析，然后再将结果返回给设备。然而，云端或雾端推理引入的延迟、能源和通信访问开销使得这种方式变得不切实际。特别是随着AIoT应用的迅速增长，这种方式的成本越来越高并且无法满足实时性的要求。因此，将深度学习推理引入到边缘设备成为一种趋势，这可以通过在嵌入式设备上进行模型推理来实现。

异构双核MCU的出现为在MCU设备上进行深度学习模型推理提供了可能。异构双核MCU结合了高性能和低功耗的特点，具备了在资源有限的边缘设备上进行深度学习推理的能力。利用低成本、低功耗和高性能的异构双核MCU，可以实现在边缘设备上进行深度学习推理，从而满足实时性和隐私性等要求。

然而，现有的深度学习推理框架（如TF-Lite Micro、μTensor和CMSIS-NN）在模型推理方面采用了核友好的优化技术（如剪枝、量化、循环优化等），以及数据并行方法来减少推理时延。虽然这些优化方法在提高推理性能方面取得了显著的改进，但它们并没有充分利用异构双核MCU的硬件资源来加速深度学习模型的推理。特别是对于大多数数据量小且对实时性要求高的AIoT应用而言，现有的优化方法在性能上受限于单核处理能力。因此，如何充分利用异构双核MCU的硬件资源来加速深度学习模型中的单个算子推理，以满足AIoT应用对实时性能的需求，成为一个重要的问题。

发明内容

针对现有技术的不足，本发明提出一种面向异构双核MCU的算子内并行加速方法。该方法通过算子延迟预测器寻找出每个算子最佳的划分维度和划分比例，进而均衡分配每个算子的计算任务给异构双核MCU的两个核心进行并行计算，以此充分利用硬件资源来提高推理性能。通过将计算任务均衡地分配到两个核心上，减少推理时间和延迟，从而提高整体的推理效率，以此满足现有稀疏数据的AIoT应用的实时性需求。

本发明的目的是通过以下技术方案来实现：

一种面向异构双核MCU的算子内并行加速方法，包括以下步骤：

步骤一：通过深度学习模型的计算图构建有向无环图G；

步骤二：统计所述有向无环图G中的算子信息，包括算子类型、算子的输入输出信息和算子的超参数信息；

步骤三：基于步骤二得到的算子信息，为每类算子构建相应的算子时延模型，以此预测算子在不同工作负载下的推理时间；

步骤四：基于步骤三得到的算子时延模型，为深度学习模型的每个算子选择一种最优的划分策略，即划分维度和划分比例；

步骤五：基于步骤四得到的算子划分策略，在编译器编译深度学习模型生成相应代码的过程中嵌入步骤四得到的划分策略，以此加速神经网络模型的推理。

进一步地，所述步骤二包括如下子步骤：

统计深度学习模型内算子的输入输出信息和超参数；所述输入输出信息包括输入的高IH、输入的宽IW、输入通道数IC、输出的高OH、输出的宽OW、输出的通道数OC；所述超参数包括卷积算子的卷积核大小(KH^SC,KW^SC)、卷积步长（SH^SC,SW^SC）、卷积填充（PH^SC,PW^SC）、卷积膨胀率和池化层的窗口大小(KH^POOL,KW^POOL)、池化层步长(SH^POOL,SW^POOL)、池化层填充(PH^POOL,PW^POOL)。

进一步地，所述步骤三中，首先为每个算子构建单核时延模型，然后基于每个算子的单核时延模型构建异构双核算子时延模型；

所述异构双核算子时延模型和单核时延模型的关系为：

其中，T_mult表示异构双核的时延，T_i表示在给定划分维度和划分比例/>下单个算子划分后的负载在对应核上推理时延。

进一步地，所述单核时延模型包括标准卷积算子的单核时延模型、全连接算子的单核时延模型、深度卷积算子的单核时延模型、最大池化算子的单核时延模型、平均池化算子的单核时延模型、算数加算子的单核时延模型、布局转换算子的单核时延模型。

进一步地，所述标准卷积算子的单核时延模型为：

M=OH×OW

K=KH×KW×IC

N=OC

MK=M×K

KN=K×N

MN=M×N

MKN=M×K×N

其中，SC表示标准卷积算子；T_SC表示标准卷积算子的推理时延；表示标准卷积算子的相关系数，这些相关系数通过数据集线性拟合所得。

进一步地，所述全连接算子的单核时延模型为：

其中，FC表示全连接算子；T_FC表示全连接算子的推理时延；为全连接算子的相关系数，这些相关系数通过数据集线性拟合所得。

进一步地，所述深度卷积算子、最大池化算子和平均池化算子的单核时延模型的计算公式相同，各自代入对应的相关系数即可；

T= T_BEU×FLOPs/Size_BEU

FLOPs=2×OH×OW×OC×KH×KW

其中，T表示算子的推理时间，T_BEU表示一个基本执行单元的运行时间，FLOPs/Size_BEU表示算子中基本执行单元的运算次数，Size_BEU表示基本执行单元的浮点运算次数，FLOPs表示算子的浮点运算次数；为基本执行单元的相关系数。

进一步地，所述算数加算子的单核时延模型为：

size_Add= IH×IW×IC

其中，为相关系数，通过线性拟合方法得到；/>表示算数运算量；表示算数加算子的推理时延；

所述布局转换算子的单核时延模型为：

其中，是相关系数，通过线性拟合方法得到；/>表示布局转换算子的推理时间。

进一步地，所述步骤四通过以下步骤来实现：

(4.1)将算子按照IH维度进行划分，将划分后的算子任务量IH1×IW×IC×OC和IH2×IW×IC×OC分别分配给两个异构核；或者，将算子按照OC维度进行划分，将划分后的算子任务量IH×IW×IC×OC1和IH×IW×IC×OC2分别分配给两个异构核；

其中，在IH维度进行拆分时，IH1=IH×ρ+pad，IH2=IH×(1-ρ)+pad；

在OC维度进行拆分时，OC1=OC×ρ，OC2=OC×(1-ρ)；

(4.2)枚举每个算子的划分维度，并选择相应的最优划分比例ρ，进而得到每个算子在每种划分维度下对应的推理时延；

(4.3)基于步骤(4.2)为每个算子选择一种最优的划分维度，以及该划分维度对应的划分比例，使得算子总的推理时延最短。

一种面向异构双核MCU的算子内并行加速装置，包括一个或多个处理器，用于实现面向异构双核MCU的算子内并行加速方法。

本发明的有益效果如下：

本发明的面向异构双核MCU的算子内并行加速方法为在资源有限的边缘设备上进行深度学习模型推理提供了一种高效的解决方案，通过充分利用硬件资源和优化计算任务分配，提高推理性能、降低能源消耗和延迟，并满足实时性和隐私性等要求。随着AIoT应用的不断发展和普及，异构双核MCU的算子内并行加速方法将在推动边缘计算和边缘人工智能的发展方面发挥重要作用，这将加速深度学习落地MCU等边缘设备。

附图说明

图1为一个图像处理神经网络构成的有向无环图G，它是MobileNetV2的一个block。

图2为沿IH维度进行算子内并行的示例图。

图3为沿OC维度进行算子内并行的示例图。

图4为STM32H745架构图。

图5为采用异构双核MCU的算子内并行加速方法加速效果图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

技术术语解释：

CMSIS:Cortex Microcontroller Software Interface Standard，Cortex微处理器软件接口标准；

AIoT: Artificial Internet-of-Things，人工智能物联网；

TF-Lite Micro: Tensorflow Lite Micro；

MCU:Microcontroller Unit，微控制器单元；

CMSIS-NN: ARM Cortex-M系列的芯片的神经网络推理库

FLASH:一种非易失性存储器；

DMA: Direct Memory Access，直接内存访问；

BUS: 总线；

SRAM: Static Random-Access Memory，静态随机存取存储器；

SC: Standard Convolutionoperator，标准卷积算子；

DC: Depth-wise Convolution operator，深度卷积算子；

BEU: Basic Execution Unit，基本执行单元；

FLOPs: Floating Point Operations，浮点运算次数；

Trans: Transform operator，转换算子；

Multi: Muti-core，多核MCU；

Add: Add operator，逐元素加算子；

GEMM:General Matrix Multiplication，通用矩阵乘法；

MaxP: Max Pooling operator，最大池化算子；

AvgP: Average Pooling operator，平均池化算子；

IOPOpt:Intra-Operator Parallelism Optimization，算子内并行优化。

步骤一：通过深度学习模型的计算图构建有向无环图G。

使用主流的深度学习框架（例如tensorflow、pytorch、MXNet等）将所构建的深度学习模型通过框架内的保存功能，将其保存成.tflite、.pb、.onnx等格式。这些文件格式中包含着神经网络的有向无环图G。

有向无环图G包含点集V和边集E，即G=(V,E)，其中，

V={v₁,v₂,…,v_n}

点集V中每个元素为一个节点，代表一个算子，比如标准卷积算子、深度卷积算子、全连接算子、算数加算子、最大池化算子和最小池化算子等；边集E的每个元素e代表G中的一条边，e_ik=(v_i,v_k)表示v_k算子在算数运算时使用v_i节点的运算结果作为输入，v_i为该边的源节点，v_k为该边的目标节点。定义划分维度空间和划分比例空间。其中，维度空间中的IH（或OC）表示单个算子的计算任务按照算子的输入维度IH维度划分（或按照算子的权重维度OC进行划分）。划分比例空间描述的是算子按照选择的维度以相应的比例划分算子的计算任务，例如图2表述的是按照输入的IH维度以ρ的比例划分算子的计算任务，图3描述的是按照权重维度OC以ρ的比例划分算子的计算任务。

步骤二：统计所述有向无环图G中的算子信息，包括算子类型、算子的输入输出信息和算子的超参数信息。

输入输出信息包括输入的高IH、输入的宽IW、输入通道数IC、输出的高OH、输出的宽OW、输出的通道数OC；超参数包括卷积算子的卷积核大小(KH^SC,KW^SC)、卷积步长（SH^SC,SW^SC）、卷积填充（PH^SC,PW^SC）、卷积膨胀率和池化层的窗口大小(KH^POOL,KW^POOL)、池化层步长(SH^POOL,SW^POOL)、池化层填充(PH^POOL,PW^POOL)。

其中，对于保存为.tflite和.onnx格式的有向无环图（计算图）描述信息，很容易得到算子的输入信息（IH、IW和IC）和输出信息（OH、OW和OC），以及超参数信息（例如卷积算子的卷积核大小（KH、KW）、步长（SH、SW）和填充大小（PH、PW）），详细信息如图2所示。

对于保存为.pd格式的计算图描述信息，无法从这些描述中直接获得每个算子的具体输入输出信息，而是需要通过一个trace过程收集这些信息，这主要是因为pytroch的计算图是一种动态图。

步骤三：基于步骤二得到的算子信息，为每类算子构建相应的算子时延模型，以此预测算子在不同工作负载下的推理时间。

步骤三具体为：首先为每个算子构建单核时延模型，然后基于每个算子的单核时延模型构建异构双核算子时延模型。单核时延模型包括标准卷积算子的单核时延模型、全连接算子的单核时延模型、深度卷积算子的单核时延模型、最大池化算子的单核时延模型、平均池化算子的单核时延模型、算数加算子的单核时延模型、布局转换算子的单核时延模型。

为每类算子构建的时延模型与硬件类型和算子库相关，即不同的硬件平台和算子库的时延模型也是不一样的。比如硬件平台STM32H745和算子库CMSIS-NN相关的时延模型与STM32WL55和算子库CMSIS-NN相关的时延模型是不一样的。

通过分析TF-Lite Micro,μTensor和CMSIS-NN等主流部署框架，我们发现标准卷积算子是基于通用矩阵乘来实现的，而现有相关研究表明通用矩阵乘的单核时延模型如下：

T_GEMM=β₁M+β₂K+β₃N+β₀

其中，β₀~β₃为相关系数；GEMM表示通用矩阵乘法；T_GEMM表示通用矩阵乘的推理时延；M、K表示通用矩阵乘法A[M×K]×B[K×N]中的A矩阵的高和宽；N表示通用矩阵乘法A[M×K]×B[K×N]中的B矩阵的宽。

（3.1）标准卷积算子的单核时延模型

基于通用矩阵乘的算子时延模型，并且在给定超参数卷积核大小(KH,KW)和步长(SH,SW)的条件下，标准卷积算子的单核时延模型为：

M=OH×OW

K=KH×KW×IC

N=OC

MK=M×K

KN=K×N

MN=M×N

MKN=M×K×N

（3.2）全连接算子的单核时延模型

对于全连接算子，其公式描述为[M×K]×[K×1]。从公式描述可以得知全连接算子是一种特殊的N=1的通用矩阵乘算子。由于通用矩阵乘的单核时延模型中的β₀、β₁、β₂和β₃是相关系数(常数)，因此可以把β₀和β₃规约成β₀，从而得到其单核时延模型如下：

（3.3）深度卷积算子的单核时延模型

对于深度卷积算子，它与标准卷积算子不同的是其直接基于基本执行单元，如CMSIS-NN基于SMLAD指令，因此构建基本执行单元的平均执行时延为：

其中，BEU表示基本执行单元，例如ARMV7-M架构的STM32H745中指令SMLAD；T_BEU表示一个基本执行单元的运行时间；为基本执行单元的相关系数，并且可以通过数据集中的数据线性拟合得到。

假定一个深度卷积算子执行FLOPs次浮点运算，而基本执行单元进行Size_BEU次浮点运算，其中

FLOPs=2×OH×OW×OC×KH×KW

因此，在给定超参数卷积核大小(KH,KW)和步长大小(SH,SW)的条件下，可以得到深度卷积算子的单核时延模型如下：

T_DC= T_BEU×FLOPs/Size_BEU

其中，FLOPs表示一个深度卷积算子的浮点运算次数；Size_BEU表示基本执行单元的浮点运算次数；FLOPs/Size_BEU表示深度卷积算子中基本执行单元的运算次数；T_DC表示深度卷积的推理时延。

（3.4）最大池化算子的单核时延模型

对于最大池化算子，其实现上类似于深度卷积算子，都是一种逐通道算子，并且都是基于基本执行单元实现。因此，在给定超参数卷积核大小(KH,KW)和步长大小(SH,SW)，建模最大池化算子的单核时延模型如下：

FLOPs=2×OH×OW×OC×KH×KW

其中，FLOPs表示的最大池化算子的算术运算量；Size_BEU表示基本执行单元的算数运算量；T_BEU表示一个基本执行单元的平均运算时间；FLOPs/Size_BEU表示最大池化算子中基本执行单元的数量；T_MaxP表示大池化算子的推理时间；为基本执行单元的相关系数,可以通过数据集中的数据线性拟合得到。

（3.5）平均池化算子的单核时延模型

对于平均池化算子，其实现上类似于深度卷积算子，都是一种逐通道算子，并且都是基于基本执行单元实现。因此，在给定超参数卷积核大小(KH,KW)和步长大小(SH,SW)，我们建模平均池化算子的单核时延模型如下：

FLOPs=2×OH×OW×OC×KH×KW

T_AvgP= T_BEU×FLOPs/Size_BEU

其中，FLOPs表示平均池化算子的算术运算量；Size_BEU表示基本执行单元的算数运算量；T_BEU表示基本执行单元的平均运算时间；FLOPs/Size_BEU表示平均池化算子中基本执行单元的数量；T_AvgP表示平均池化算子的推理时间；为相关系数，并且可以通过数据集中的数据线性拟合得到。

（3.6）算数加算子的单核时延模型

size_Add= IH×IW×IC

其中，为相关系数，通过线性拟合方法得到；/>表示算数运算量；表示算数加算子的推理时延。

（3.7）布局转换算子的单核时延模型为：

对于布局转换算子，其主要作用是把两个布局为HWC的张量按照C维度进行合并。我们建模布局转换算子的单核时延模型如下：

上述给出MCU平台常见部署模型中的算子的单核时延模型，基于这些算子的单核时延模型，我们得到异构双核的时延模型如下：

步骤四：基于步骤三得到的算子时延模型，为深度学习模型的每个算子选择一种最优的划分策略，即划分维度和划分比例。

步骤四通过以下步骤来实现：

其中，在IH维度进行拆分时，IH1=IH×ρ+pad，IH2=IH×(1-ρ)+pad；

在OC维度进行拆分时，OC1=OC×ρ，OC2=OC×(1-ρ)；

实施例1

考虑在STM32H745边缘设备上进行边缘计算推理的过程，以常用深度学习模型MobileNetV2为例。STM32H745边缘设备的架构图如图4所示，STM32H745边缘设备包括cortex-M7核和cortex-M4核，还包括总线BUS，以及静态随机存取存储器SRAM、非易失性存储器FLASH和直接内存访问DMA。

由于MobileNetV2由多个堆叠的block组成，本实施例将重点关注其中一个block的推理过程。如下图1所示，该block可以用一个有向无环图G来描述，其中包含节点集V和边集E，即G = (V, E)。每个block主要由标准卷积算子、深度卷积算子和算数加算子组成。为实现加速block模块的推理，采用本发明的面向异构双核MCU的算子内并行加速方法均衡地分配每个算子的计算任务给STM32H745的cortex-M7核和cortex-M4核。

该实施例中，首先为每个核构建算子时延模型；为训练单核时延模型而制作的数据集的IH，IW，IC，OC，KH，KW，SH，SW范围分别是(1,176), (3, 176), (3,576), (1, 576),(1,7), (1,7), (1,2) 和 (1,2)，并且使用70%的样本作为训练集，30%的样本作为测试集，其中数据集中还包括算子在给定IH、IW、IC、OC、KH、KW、SH和SW时算子的推理时延T。

该实施例中，在CMSIS-NN和STM32H745上为每类算子构建时延模型，因此得到三类算子时延模型：标准卷积算子、深度卷积算子和算数加算子以及布局转换算子的时延模型。

（1）标准卷积算子的时延模型

由于标准卷积算子在CMSIS-NN中由通用矩阵乘（[M×K]×[K×N]）和im2col算子组成，因此本实施例构建的单核算子的时延模型如下：

在给定超参数卷积核大小(1,1)和步长大小(1,1)情况下，变化标准卷积的输入IH、IW、IC和OC的大小，从而采集这些标准卷积算子分别在cortex-M4和cortex-M7的推理时延和/>。基于这些数据，通过下述公式得到与IH、IW和IC对应的M、K和N的大小。

基于M、K和N以及和/>，可以采用线性拟合的方法求出cortex-M4核对应的标准卷积算子的时延模型的相关系数/>的值和cortex-M7核对应的标准卷积算子的时延模型的相关系数/>的值，最后得到两个核的标准卷积算子的时延模型，如下所示：

（2）深度卷积算子的时延模型

在给定超参数卷积核大小（3，3）和步长大小（1，1）的条件下，本实施例变化IH、IW和IC的大小，并采集这些深度卷积算子分别在cortex-M4核和cortex-M7核的推理时延和/>，因此可以通过下述公式得到相应的OH、OW、OC（=IC）、/>和/>

基于上述采样得到的数据，通过线性拟合方法拟合出cortex-M4核对应的深度卷积算子的时延模型的相关系数的值和cortex-M7核对应的深度卷积算子对应的时延模型的相关系数/>的值，最后得到两个核的基本执行单元的时延模型如下：

其中，由于CMSIS-NN中深度卷积算子的基本执行单元是SMLAD指令，此指令每次执行三个浮点运算，因此Size_BEU=3。本实施例通过下述公式得到M7核和M4核的深度卷积算子在不同工作负载下的推理时延：

（3）算数加算子的单核时延模型

通过变化IH、IW和IC，并采集这些算数加算子分别在cortex-M4核和cortex-M7核的推理时延和/>。基于这些数据，通过线性拟合方法得出cortex-M4核对应的算数加算子的时延模型的相关系数/>和/>的值以及cortex-M7核对应的算数加算子的时延模型的相关系数/>和/>的值。因此最后的两个核的算数加时延模型如下:

（4）布局转换算子的单核时延模型

对于数据布局转换算子，其主要作用是对于算子采用OC维度进行算子内并行时导致的布局不连续的两个输出张量按照C维度进行合并。

通过变化通过变化IH、IW和IC的大小，进而收集到这些布局转换算子分别在cortex-M4核和cortex-M7核的推理时延和/>。基于上述收集到的数据，通过线性拟合方法得到cortex-M4核对应的布局转换算子的时延模型的相关系数/>的值以及cortex-M7核对应的布局转换布局算子的时延模型的相关系数/>的值。因此，本实施例得到两个核最终的时延模型如下：

基于上述算子的单核时延模型，得到异构双核的时延模型。然后基于异构双核时延模型，进而求解出每个算子最优的划分维度和划分比例。具体包括以下子步骤：

图1的有向无环图的算子按照IH维度进行划分时，则其算子最优的划分比例和相应的执行时延为：{(0.3, 10.549942677186278),(0.3, 16.263874741820608),(0.3,56.62789514002111), (0.3, 10.549942677186278), (0.2, 5.258008108502709)}。

其中数据项格式是{(划分比例ρ，依据IH维度按ρ划分算子对应的算子推理时延)}。图2描述了算子按IH维度进行划分的示例。

图1的有向无环图的算子按照OC维度进行划分时，则其算子最优的划分比例和相应的执行时延为：{(0.3,11.791758027585248),(0.3,16.40238991047682),(0.3,55.791796570199175),(0.3,11.791758027585248),(0.2,4.9489445521356705)}。

其中，数据项格式是{(划分比例ρ，依据OC维度按ρ划分算子对应的算子推理时延)}。图3描述了算子按照OC维度进行划分的示例。

由于算子采用OC维度划分之后会导致输出张量布局不连续，需要在其后引入布局转换算子，如果算子全按照OC维度划分引入的开销如下：{(0.3,0.8811137877174913),(0.3,3.2635589719669578),(0.3,3.2635589719669578),(0.3,0.8811137877174913),(0.3,0.8811137877174913)}。

其中，数据项格式是{(划分比例ρ，对应的布局转换算子的推理时延}。

基于上述步骤，本实施例得到图1中的有向无环图的算子在STM32H745上最优的划分比例和划分维度以及相应的推理时延是

{(IH, 0.3, 10.549942677186278), (IH, 0.3, 16.263874741820608),

(IH, 0.3, 56.62789514002111), (IH, 0.3, 10.549942677186278),

(IH, 0.2,5.258008108502709)}

其中数据项格式是{(划分维度d, 划分比例ρ，依据d维度按ρ比例划分算子时对应的算子推理时延)}。因此本实施例可以得到有向无环图2的最优推理时延是99.3ms，上述推理时延的单位为ms。

此外，我们在SmallCifar、MobileNetV2、Proxyless和MnasNet四个模型上对比现有推理方案（仅采用cortex-M7核进行推理）和算子内并行加速方法。如图5所示，算子内并行加速方法可以实现平均1.43倍左右的加速，其中CMSIS-NN（M7）表示模型采用现有方法的推理时间，IOP Opt表示模型采用算子内并行加速方法的推理时间。

另一方面，本发明实施例还给出一种面向异构双核MCU的算子内并行加速装置，包括一个或多个处理器，用于实现面向异构双核MCU的算子内并行加速方法。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种面向异构双核MCU的算子内并行加速方法，其特征在于，包括以下步骤：

步骤一：通过深度学习模型的计算图构建有向无环图G；

2.根据权利要求1所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述步骤二包括如下子步骤：

3.根据权利要求1所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述步骤三中，首先为每个算子构建单核时延模型，然后基于每个算子的单核时延模型构建异构双核算子时延模型；

所述异构双核算子时延模型和单核时延模型的关系为：

；

4.根据权利要求3所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述单核时延模型包括标准卷积算子的单核时延模型、全连接算子的单核时延模型、深度卷积算子的单核时延模型、最大池化算子的单核时延模型、平均池化算子的单核时延模型、算数加算子的单核时延模型、布局转换算子的单核时延模型。

5.根据权利要求4所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述标准卷积算子的单核时延模型为：

；

M=OH×OW

K=KH×KW×IC

N=OC

MK=M×K

KN=K×N

MN=M×N

MKN=M×K×N

6.根据权利要求4所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述全连接算子的单核时延模型为：

；

7.根据权利要求4所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述深度卷积算子、最大池化算子和平均池化算子的单核时延模型的计算公式相同，各自代入对应的相关系数即可；

T= T_BEU×FLOPs/Size_BEU

；

FLOPs=2×OH×OW×OC×KH×KW

8.根据权利要求4所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述算数加算子的单核时延模型为：

；

size_Add= IH×IW×IC

其中，为相关系数，通过线性拟合方法得到；/>表示算数运算量；/>表示算数加算子的推理时延；

所述布局转换算子的单核时延模型为：

；

9.根据权利要求2所述的面向异构双核MCU的算子内并行加速方法，其特征在于，所述步骤四通过以下步骤来实现：

其中，在IH维度进行拆分时，IH1=IH×ρ+pad，IH2=IH×(1-ρ)+pad；

在OC维度进行拆分时，OC1=OC×ρ，OC2=OC×(1-ρ)；

10.一种面向异构双核MCU的算子内并行加速装置，其特征在于，包括一个或多个处理器，用于实现权利要求1~9中任一项所述的面向异构双核MCU的算子内并行加速方法。