CN112256440A

CN112256440A - 神经网络推理的内存管理方法及装置

Info

Publication number: CN112256440A
Application number: CN202011532175.9A
Authority: CN
Inventors: 梁军
Original assignee: Shanghai Qigan Electronic Information Technology Co ltd
Current assignee: Shanghai Qigan Electronic Information Technology Co ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-01-22
Anticipated expiration: 2040-12-23
Also published as: CN112256440B

Abstract

神经网络推理的内存管理方法及装置，所述方法包括：将内存空间划分为第一类区域和第二类区域，所述第一类区域只会被用于存储生命周期为1的FM数据，所述第二类区域能够被用于存储任意生命周期的FM数据；对待分配内存空间的神经网络进行分析，根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域；从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间。本发明根据神经网络的结构来自适应选择合适的内存管理策略，最优化内存使用。本发明使用贪婪算法逐层搜索最优化的内存分配方案，能够降低神经网络推理的内存占用，尽可能的最小化内存使用。

Description

神经网络推理的内存管理方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种神经网络推理的内存管理方法及装置。

背景技术

得益于深度神经网络的高效性和准确性，尤其在检测、识别分类等任务中表现优异，近几年，深度神经网络在生活中的应用不断扩展和发散。由此，各类嵌入式神经网路处理器（NPU）应运而生。

但是，深度神经网络通常会占用大量的内存，这就提高了对硬件的要求，也会直接导致硬件的生产成本提高。因此，如何降低深度神经网络的内存占用是目前亟需解决的问题，能够大幅降低深度神经网络对硬件的要求，并节约成本。

现有的神经网路推理都是假设神经网络的输入、输出以及中间层的数据都不会相互干扰，并没有针对性的内存分配和优化，而是直接交给操作系统来做。那么在此情况下，神经网络的输入、输出及中间层的输入、输出所需要占用的内存大小与平铺的方式所需要占用的内存大小一样。

上述方式占用的内存过于巨大，尤其是对于边缘计算设备而言，在此情况下，对于中间层数据比较大的神经网络（比如vgg19），甚至不能在边缘计算设备的处理器上运行。

相关术语解释

FM（Feature Map），特征图；

IFM（Input Feature Map），输入特征图；

OFM（Output Feature Map），输出特征图。

发明内容

本发明解决的技术问题是：如何降低神经网络推理的内存占用，以降低硬件消耗和运行神经网络所需的硬件成本。

为了解决上述技术问题，本发明实施例提供一种神经网络推理的内存管理方法，包括：

对内存空间进行划分，划分后的内存空间至少包括第一类区域和第二类区域；其中，所述第一类区域只会被用于存储生命周期为1的FM数据，所述第二类区域能够被用于存储任意生命周期的FM数据；

对待分配内存空间的神经网络进行分析，得出该神经网络中存在多输入的层的数量；

根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域；

从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间；其中，在从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间的过程中，尽可能的最小化当前第二类区域的内存总和、且尽可能的最大化第二类区域的内存复用。

可选的，所述对待分配内存空间的神经网络进行分析，得出该神经网络中存在多输入的层的数量包括：

对待分配内存空间的神经网络中每一层的所有输入IFMs进行统计，得出每一层的FM和生命周期终止点；

根据待分配内存空间的神经网络中每一层的FM和生命周期终止点，统计得出该神经网络中存在多输入的层的数量。

可选的，所述根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域包括：

若该神经网络中所有层都不存在多输入的情况，则启用第一类区域进行内存分配，不启用第二类区域，该神经网络中所有层的FM数据的存储空间都从第一类区域中分配；

若该神经网络中存在多输入的层的数量占该神经网络的总层数的比例不超过预定的第一阈值，则启用第一类区域和第二类区域进行内存分配；

若该神经网络中存在多输入的层的数量占该神经网络的总层数的比例超过预定的第一阈值，则启用第二类区域进行内存分配，不启用第一类区域，该神经网络中所有层的FM数据的存储空间都从第二类区域中分配。

可选的，所述第一阈值为10%。

可选的，所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间包括：

初始化第一类区域；

计算并统计该神经网络在各时刻最大需要占用的第一类区域的内存空间大小；

从第一类区域中，为需要存放在第一类区域的各个网络层分配内存空间；其中，若flag为真，则从第一类区域的左侧开始分配内存空间，若flag为假，则从第一类区域的zoo1.size–x.size位置开始分配内存空间，所述zoo1.size表示该神经网络在各时刻最大需要占用的第一类区域的内存空间大小，x.size表示当前待分配内存FM的大小。

可选的，所述计算该神经网络总共需要占用的第一类区域的内存空间大小包括：采用以下方式来计算该神经网络总共需要占用的第一类区域的内存空间大小：

其中，zoo1表示该神经网络总共需要占用的第一类区域的内存空间大小，FM_n表示第n层FM所需要占用的内存空间大小，FM_n+1表示第n+1层FM所需要占用的内存空间大小，L表示该神经网络中所有需要存放在第一类区域的网络层的数量。

初始化第二类区域，设定tail=0，zoo2.size=0，候选区列表为空；其中，所述tail用于记录和指示第二类区域中当前已分配的内存空间中最后内存块的地址；

从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间。

可选的，所述从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间包括：

在候选区列表中，筛选出合适的内存块用于存放当前待分配内存空间的网络层；其中，筛选出的内存块满足以下条件：b.size>x.size并且minimize（b.size-x.size)。其中，b.size表示筛选出的内存块的大小，x.size表示当前待分配内存空间的网络层所需要占用的内存空间大小；

根据筛选出的内存块，为当前待分配内存空间的网络层分配地址。

可选的，所述根据筛选出的内存块，为当前待分配内存空间的网络层分配地址包括：采用以下方式来为当前待分配内存空间的网络层分配地址：

其中，x.addr表示为当前待分配内存空间的网络层所分配的地址，b.addr表示筛选出的内存块的地址，b.size表示筛选出的内存块的大小，x.size表示当前待分配内存空间的网络层所需要占用的内存空间大小。

可选的，所述从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间还包括：

根据网络层被分配到的地址，检查该网络层的所有IFMs的生命周期，判断各个IFM的生命周期是否终止；如果是，则释放该IFM所在网络层在第二类区域中所占用的内存空间，并记录这部分内存空间的状态为可用；

在第二类区域中对于每个可释放内存空间的IFM，检查该IFM左右相邻的内存块是否为可用状态；如果该IFM左右相邻的内存块均不是可用状态，则将该IFM加入候选区列表；如果该IFM左右相邻的内存块中存在可用状态的内存块，则将该IFM所占用的内存块与该可用状态的内存块合并后作为一个新的内存块加入侯选列表。

可选的，如果该IFM左右相邻的内存块均是可用状态的内存块，则将对应的连续可用状态的所有内存块合并。

可选的，若未能找到合适的内存块用于存放当前待分配内存空间的网络层，则分配当前待分配内存空间的网络层的地址为tail+1，并更新tail的地址。

可选的，如果内存中最后的内存块被标记为可用状态，则在其和左边可用状态的内存合并后，更新tail的地址为tail = tail – xx.size，其中，xx.size表示内存末尾连续的可用内存和并购后的内存块的大小。

为了解决上述技术问题，本发明实施例还提供一种神经网络推理的内存管理装置，包括：

处理器，适于加载并执行软件程序的指令；

存储器，适于存储软件程序，所述软件程序包括用于执行以下步骤的指令：

初始化第一类区域；

与现有技术相比，本发明的技术方案具有以下有益效果：

将内存空间划分为第一类区域和第二类区域，所述第一类区域只会被用于存储生命周期为1的FM数据，所述第二类区域能够被用于存储任意生命周期的FM数据；对待分配内存空间的神经网络进行分析，根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域；从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间，从而根据神经网络的结构来自适应选择合适的内存管理策略，最优化内存使用。本发明使用贪婪算法逐层搜索最优化的内存分配方案，能够降低神经网络推理的内存占用（且包含了对中间层的内存优化），尽可能的最小化内存使用。

进一步的，对于第一类区域和第二类区域分别设计了内存分配策略，采用贪婪算法寻找每一步最优的规划选择，从而优化整个神经网络推理所需要占用的内存空间。

进一步的，对于第二类区域，通过检查并合并相邻的可用内存块，使得内存空间的复用率进一步提升。

附图说明

图1为本发明实施例中神经网络推理的内存管理方法流程图；

图2为本发明实施例中第一类区域内存分配实例实施过程示意图；

图3为本发明实施例中第二类区域内存分配流程图；

图4为本发明实施例中第二类区域内存分配实例实施过程示意图。

具体实施方式

根据背景技术部分的分析可知，现有技术中，神经网络推理所占用的内存过于巨大，难以在边缘计算设备上实施。

发明人经研究后发现，神经网络推理的内存优化方案主要是在优化输入和输出的数据，并没有把中间层数据考虑在内，且内存复用的利用率不高。

具体的，现有技术中，把神经网络向前推理所需要的输入、输出及中间层数据（blobs）抽象为N个block。每个block包含了所需要占用的内存大小、和该block内的各个节点（层或者layer）。每个block需要占用一块内存，且每块block不能相互干扰，这里的干扰指的是两个block的节点交集为0，这样才能保证推理结果正确。

现有技术中，判断后一个block能不能复用前一个block的内存，如果不可以复用，那么分配新的内存。假如有block[B1, B2, B3]所需要占用的内存大小依次为10MB、1MB、5MB。B2和B3均可复用B1的内存，但B3不能复用B2的内存。那么系统会先为B1分配10MB，B2会复用B1的内存。由于B2已经复用了B1的内存，所以B3不可以复用B1的内存，只能新开辟5MB内存。这样总内存为15MB，与平铺模式所需要占用的总内存16MB相比提升不多。

上述过程中内存复用的条件是：内存复用不会导致推理的正确性受到影响。判断是否会影响推理的正确性的条件是，判断blockBx和Bn的交集是否为0。如果交集为0，说明前一个block的生命周期结束，占用它的数据不会对后续的推理结果造成影响。

目前在神经网络推理方面，现有技术（参考CN110597616A）公开了一种神经网络的内存分配方法及装置，对输入、输出及中间层数据内存进行优化，该方案使用了基于排序和内存复用的内存管理方法，简单来说包括以下3个步骤：

步骤a）按照block占用的内存，从大到小进行排序。即优先分配占用内存最大的block。比如排序后的内存块为[B1, B2, B3, B4, B5]，且假设他们对应的OFM也是由前向后排列的。

步骤b）分配占用内存最大的内存block, 即B1。

步骤c）依次分配排序后的block。举例，如果B2和B1没有交集那么B2可以复用B1的内存空间。如果B3和B2有交集，那么需要对B3新分配内存空间。依次排列所有的block。

该方案能够提高内存复用率，减少新开辟内存的大小，且可以优化中间层的数据的分配。

发明人经研究后发现，该方案对于内存的复用并不充分，举例来说，假设B1需要10MB内存，B2需要3MB，B3需要5MB，且B2和B3均与B1没有交集，B2和B3有交集。那么在此情况下，采用上述方案从大到小进行排序后，只有B3可以复用B1的部分内存。即B3用了B1内存的5MB, 尚有5MB空余，而B2不能复用B1的剩下的5GB未用的内存，此时需要为B2新分配内存空间。

本发明将内存空间划分为第一类区域和第二类区域，所述第一类区域只会被用于存储生命周期为1的FM数据，所述第二类区域能够被用于存储任意生命周期的FM数据；对待分配内存空间的神经网络进行分析，根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域；从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间，从而根据神经网络的结构来自适应选择合适的内存管理策略，最优化内存使用。本发明使用贪婪算法逐层搜索最优化的内存分配方案，能够降低神经网络推理的内存占用（且包含了对中间层的内存优化），尽可能的最小化内存使用。

采用本发明的方案，就上述实例而言，先为B1分配10MB内存，由于B2可以复用B1，所以B1的生命周期结束时，B2会占用B1中的靠右边的5MB，B3会占用B1的剩下的5 MB的内存块中的靠右边的3MB内存，这样总内存只需要10MB，可见本发明的方案能够更大限度地复用内存。

为使本领域技术人员更好地理解和实现本发明，以下参照附图，通过具体实施例进行详细说明。

实施例一

如下所述，本发明实施例提供一种神经网络推理的内存管理方法。

参照图1所示的神经网络推理的内存管理方法流程图，以下通过具体步骤进行详细说明：

S101，对内存空间进行划分，划分后的内存空间至少包括第一类区域和第二类区域。

其中，所述第一类区域只会被用于存储生命周期为1的FM数据，所述第二类区域能够被用于存储任意生命周期的FM数据。

在另一些实施例中，划分后的内存空间至少包括第一类区域和第二类区域其中一种。

第一类区域的写入方式是：

此内存区域用于储存生命周期只有1的FM数据，即神经网络第n层的OFM数据只会被它的下一层用到，所以接下来网络会开始计算它的后一层即第n+1层的FM，计算完成后第n层的OFM便没有作用，该内存空间可以被抹去或者覆盖。

其中，下标范围从0开始，即采用和计算机软件一致的表示方式，比如0表示10MB内存中的第一块 1MB 内存，1 表示第二块1MB内存空间。

第二类区域的写入方式是：

把FM内存块写入第二类区域一块连续的、不和其他内存块重叠的、空间大小和自身一样大的内存空间里面，随着网络的前向推理，保留将回收生命周期终止的内存块，作为候选内存给后来的FM使用。

因为第二类区域可以管理和分配所有FM的数据，无关它们的生命周期，所以我们的内存管理方案可以自适应的选择一个最佳的管理策略以达到更好的内存管理效果减少内存使用。

以下通过一个具体的实例来作进一步的说明：假设当前有一个需要5MB的FM，且有3个内存候选地址可供写入，分别为2MB、6MB和8MB。那么2MB空间不够存放新的FM所以排除，6MB和8MB的候选空间都足够存放新FM，那么选择的标准是和目标FM大小最接近的内存块，所以目标FM将占用原6MB候选块的后5MB内存，前1MB内存将作为新的候选块供后来的FM选择或者和相邻的候选块合并为一个大的候选块。

S102，对待分配内存空间的神经网络进行分析，得出该神经网络中存在多输入的层的数量。

在一些实施例中，所述对待分配内存空间的神经网络进行分析，得出该神经网络中存在多输入的层的数量具体可以包括：

本实施例的方案采用了贪婪算法和内存回收技术。具体的，在本实施例的方案中，贪婪算法被用于快速搜索适合目标FM的内存地址、或者说是候选内存块；内存回收的含义是当一个FM的生命周期终止的时候，其所占有的内存空间会被内存管理器回收及合并，以便分配给后来的FM；如前所述，第一类区域只用于存放和管理生命周期只有1的内存块，第二类区域用于存放所有的内存块。那么，为了达到最佳的内存分配方案，我们的内存管理系统可以针对不同的网络自适应选择分配策略。

S103，根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域。

在一些实施例中，所述根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域具体可以包括：

其中，所述第一阈值可以是10%。

S104，从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间。

其中，在第二类区域中分配内存过程中，根据最小化当前第二类区域总内存原则和最大化第二类区域内存的复用原则分配内存，也即尽可能的最小化当前第二类区域的内存总和、且尽可能的最大化第二类区域的内存复用。

在一些实施例中，第一类区域（也可采用自定义术语，称为刷新区）内存分配流程图，所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间具体可以包括：

初始化第一类区域；

从第一类区域中，为需要存放在第一类区域的各个网络层分配内存空间；其中，若flag为真，则从第一类区域的左侧开始分配内存空间，若flag为假，则从第一类区域的zoo1.size-x.size位置开始分配内存空间，所述zoo1.size表示该神经网络在各时刻最大需要占用的第一类区域的内存空间大小，x.size表示当前待分配内存FM的大小（起始位置为左flag真，下一个生命周期为1的FM分配在对立侧即右flag为真，以此类推）。

所述计算该神经网络总共需要占用的第一类区域的内存空间大小具体可以采用以下方式来计算该神经网络总共需要占用的第一类区域的内存空间大小：

以下通过一个具体的实例来作进一步的说明：假设第一类区域的大小为8MB，下标范围为0-7，如果第一块数据FM₀是1MB，参考图2所示的第一类区域（即刷新区）内存分配实例实施过程示意图，从左边（L）开始向右写，即占用第一类区域1MB的内存空间，第二块数据FM₁大小为5MB，从 6=8-2开始写，即占用第6-7范围内存，因为它们的生命周期只有1，所以第三个输出FM₂将从L开始写入，且会覆盖FM₀，类似的，FM₃会从4 = 8-4开始写，即占用第4-7内存块。

所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间具体可以包括：

从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间，具体的，在候选区列表中，筛选出合适的内存块用于存放当前待分配内存空间的网络层，筛选出的内存块满足以下条件：b.size>x.size并且选择能够最小化（b.size-x.size)的候选内存块，即通过搜索每一层的最优化内存分配以达到优化整个神经网络推理所需要的内存大小。其中，b.size表示筛选出的内存块的大小，x.size表示当前待分配内存空间的网络层所需要占用的内存空间大小；根据筛选出的内存块，为当前待分配内存空间的网络层分配地址。

可用内存块的拆分方式可以是：如果候选内存块大小大于待分配内存FM的大小，那么依据靠右分配原则将候选块分为左右两个内存块，左边的内存块仍然包留的候选列表中，右边的内存块大小和待分配内存FM的大小一致，用于分配给该待分配FM。

所述根据筛选出的内存块，为当前待分配内存空间的网络层分配地址具体可以采用以下方式来为当前待分配内存空间的网络层分配地址：

即采用靠右分配原则：在实际的实验中，我们发现如果在内存复用中靠右分配内存优化效果略高于靠左分配。因为左边的未使用的内存块可以有更多的机会和其它的可用内存块合并。

所述从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间还可以进一步包括：

其中，如果该IFM左右相邻的内存块均是可用状态的内存块，则将对应的连续可用状态的所有内存块合并。

若未能找到合适的内存块用于存放当前待分配内存空间的网络层，则分配当前待分配内存空间的网络层的地址为tail+1，并更新tail的地址。

进一步的，如果内存中最后的内存块被标记为可用状态，则在其和左边可用状态的内存合并后（没有则跳过），更新tail的地址为tail = tail – xx.size，其中，xx.size表示内存末尾连续的可用内存和并购后的内存块的大小。

参考图3所示的第二类区域（也可采用自定义术语，称为保留区）内存分配流程图：

a1）初始化保存区，设定tail=0，保存区的大小zoo.size = 0，候选列表L为空。tail的作用是记录指示当前内存却的最后内存块的地址。如果要开辟新的内存空间，应该从tail+1的地方开始。

a2）循环，对每一个第二类区域的层FM_x进行分配内存；

a3）在候选列表L中寻找合适的内存块用于存放x。筛选的方式是从后向前寻找，筛选的条件是b.size>x.size，即候选块b的大小大于x的大小、以及minimize（b.size-x.size)，即选择和x的大小最接近的块。判断是否存在符合上述2个条件的b。

a4）如果存在，把b分为两瓣b1, b2。x的地址就是b2的地址，就是

那么b1的地址就是b的地址。我们用b1这个块替换L中的b。

a5）x分配到地址后，检查x的所有IFM(s)的生命周期，判断IFM的生命周期是否终止。

a6）如果终止那么释放它的内存，状态变成free。

a7）如果IFM是最后的一个内存块，那么什么都不用做。

a8）如果不是最后一个，自动检查它的相邻的内存块是否是free状态的。

a9）如果它的左右相邻的内存块都不是free的，那么把它插入候选区列表L中。

a10）如果存在free的相邻的内存块，那么把它们合并成一个新的内存块，合并方式是向地址更小的块合并。

a11）在步骤a），如果不存在，那么就在就把tail+1地址分配给x，更新tail地址。

a12）如果新的tail地址+1大于当前第二类区域的大小，那么更新第二类区域的大小为tail+1。

a13）重复步骤a5）至 a10）。

以下通过一个具体的实例来作进一步的说明，参考图4所示的第二类区域（即保留区）内存分配实例实施过程示意图：

S0）内存初始状态为空，没有数据占用内存。

S1）将网络的输入数据FM₀放在内存的第一块地址，FM₀= 1MB。

S2）由于没有可以复用的内存块，所以在FM₀之后（即tail+1）新开辟内存输出FM₁，FM₁=1MB。Tail变成3。FM₀生命周期终止，所以其内存被回收，变为free状态，可以被复用。

S3a）输出FM₂，释放FM₁。

S3b）FM₁内存释放后，会自动感知其左右相邻的内存块是否是free状态，如果是free状态，那么会和相邻的free的内存合并成一个大的free内存块。步骤S3a）和步骤S3b）是一起做的，所有在接下来的内存中，输出数据和合并free内存会直接写成一步。不再单独描述两个相邻的free内存空间合并过程。

S4）输出FM₃，释放FM₂，由于FM₂后没有non-free的内存块，所以此free的内存块不会被收集到候选内存块中。当前的tail是2，即FM₃的末尾。

S5）由于没有大小符合条件的free内存候选空间，所以FM₄将会在tail+1 （指最后一个non-free FM的后面）开始写入，tail变成5。由于FM₃和FM₄都是FM₅的IFM，所以FM₃生命周期尚未结束，不可释放内存。

S6）在tail+1新开辟内存输出FM₅，tail变成9。同时释放FM₃和FM₄的内存，因为他们的生命周期都在FM₅时候结束。

S7）输出FM₆，由于FM₆占用内存大小为4MB，而当前最接近4MB的free内存为6MB，所以FM₆的占用的内存地址范围是[2,5]，即第2块到第5块的内存空间。[0,1]内存没有使用，仍是free状态，FM₅内存释放。由于FM₅后面没有non-free的内存块，所以不会被收集到候选内存块集合中，tail= 5。

S8）FM₇= 3MB，由于当前没有找到能够存放FM₇的free候选内存块，所以FM₇在tail+1处开始写入，Tail变成8。

在上述过程中，第二类区域所需要的总内存大小为记录的最大的tail的值加1，在上述实例中最大的tail是9，所以总内存大小为10。

通过以上对技术方案的描述可以看出：本实施例中，将内存空间划分为第一类区域和第二类区域，所述第一类区域只会被用于存储生命周期为1的FM数据，所述第二类区域能够被用于存储任意生命周期的FM数据；对待分配内存空间的神经网络进行分析，根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域；从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间，从而根据神经网络的结构来自适应选择合适的内存管理策略，最优化内存使用。本发明使用贪婪算法逐层搜索最优化的内存分配方案，能够降低神经网络推理的内存占用（且包含了对中间层的内存优化），尽可能的最小化内存使用。

已经过实验、模拟，表明本实施例的方案对于不同的网络内存优化效果不同。

较好的情况，对于inception_resnet_v2结构的网络可以节省约96%的内存，和Sequential的方案相比。Sequential的方案相当于没有内存管理而是由操作系统进行内存分配和管理。

较差的情况，对于ypr结构的网络可以节省约66%的内存。

各种不同类型的网络累加起来平均内存节省率约为84%，可见是极大的降低了神经网络所需占用的内存。

实施例二

如下所述，本发明实施例提供一种神经网络推理的内存管理装置。

所述神经网络推理的内存管理装置包括：

处理器，适于加载并执行软件程序的指令；

在一些实施例中，所述根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域包括：

在一些实施例中，所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间包括：

初始化第一类区域；

本领域普通技术人员可以理解，上述实施例的各种方法中，全部或部分步骤是可以通过程序指令相关的硬件来完成的，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种神经网络推理的内存管理方法，其特征在于，包括：

2.如权利要求1所述的神经网络推理的内存管理方法，其特征在于，所述对待分配内存空间的神经网络进行分析，得出该神经网络中存在多输入的层的数量包括：

3.如权利要求1所述的神经网络推理的内存管理方法，其特征在于，所述根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域包括：

4.如权利要求3所述的神经网络推理的内存管理方法，其特征在于，所述第一阈值为10%。

5.如权利要求1所述的神经网络推理的内存管理方法，其特征在于，所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间包括：

初始化第一类区域；

6.如权利要求5所述的神经网络推理的内存管理方法，其特征在于，所述计算该神经网络总共需要占用的第一类区域的内存空间大小包括：采用以下方式来计算该神经网络总共需要占用的第一类区域的内存空间大小：

7.如权利要求1所述的神经网络推理的内存管理方法，其特征在于，所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间包括：

8.如权利要求1所述的神经网络推理的内存管理方法，其特征在于，所述从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间包括：

在候选区列表中，筛选出合适的内存块用于存放当前待分配内存空间的网络层；其中，筛选出的内存块满足以下条件：b.size>x.size并且minimize（b.size-x.size)；其中，b.size表示筛选出的内存块的大小，x.size表示当前待分配内存空间的网络层所需要占用的内存空间大小；

9.如权利要求8所述的神经网络推理的内存管理方法，其特征在于，所述根据筛选出的内存块，为当前待分配内存空间的网络层分配地址包括：采用以下方式来为当前待分配内存空间的网络层分配地址：

10.如权利要求8所述的神经网络推理的内存管理方法，其特征在于，所述从第二类区域中，为需要存放在第二类区域的各个网络层分配内存空间还包括：

11.如权利要求10所述的神经网络推理的内存管理方法，其特征在于，如果该IFM左右相邻的内存块均是可用状态的内存块，则将对应的连续可用状态的所有内存块合并。

12.如权利要求8所述的神经网络推理的内存管理方法，其特征在于，若未能找到合适的内存块用于存放当前待分配内存空间的网络层，则分配当前待分配内存空间的网络层的地址为tail+1，并更新tail的地址。

13.如权利要求8所述的神经网络推理的内存管理方法，其特征在于，如果内存中最后的内存块被标记为可用状态，则在其和左边可用状态的内存合并后，更新tail的地址为tail = tail – xx.size，其中，xx.size表示内存末尾连续的可用内存和并购后的内存块的大小。

14.一种神经网络推理的内存管理装置，其特征在于，包括：

处理器，适于加载并执行软件程序的指令；

15.如权利要求14所述的神经网络推理的内存管理装置，其特征在于，所述根据该神经网络中存在多输入的层的数量与该神经网络的总层数，来确定是否启用第一类区域、以及是否启用第二类区域包括：

16.如权利要求14所述的神经网络推理的内存管理装置，其特征在于，所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间包括：

初始化第一类区域；

17.如权利要求14所述的神经网络推理的内存管理装置，其特征在于，所述从第一类区域和/或第二类区域中为该神经网络中各个层的FM数据分配内存空间包括：