CN114638350A - 用于神经网络执行期间的存储器分配的方法 - Google Patents
用于神经网络执行期间的存储器分配的方法 Download PDFInfo
- Publication number
- CN114638350A CN114638350A CN202111534114.0A CN202111534114A CN114638350A CN 114638350 A CN114638350 A CN 114638350A CN 202111534114 A CN202111534114 A CN 202111534114A CN 114638350 A CN114638350 A CN 114638350A
- Authority
- CN
- China
- Prior art keywords
- buffer
- placement
- defining
- temporary
- heap memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0223—User address space allocation, e.g. contiguous or non contiguous base addressing
- G06F12/023—Free address space management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1041—Resource optimization
- G06F2212/1044—Space efficiency improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/20—Employing a main memory using a specific memory technology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Neurology (AREA)
- Human Computer Interaction (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Devices For Executing Special Programs (AREA)
- Memory System (AREA)
Abstract
本公开涉及用于神经网络执行期间的存储器分配的方法。根据一个方面,提出了一种用于定义在人工神经网络的执行期间使用的临时暂存缓冲在易失性存储器中的放置的方法,该方法包括:确定神经网络的层的执行次序;根据层的执行次序,定义由每层生成的中间结果缓冲在易失性存储器的堆存储器区中的放置;在层的执行上确定堆存储器区的至少一个自由区域,根据层的执行次序,定义临时暂存缓冲在堆存储器区的至少一个自由区域中的放置。
Description
相关申请的交叉引用
本申请要求于2020年12月16日提交的法国申请第2013373号的优先权,该申请通过引用被整体并入本文中。
技术领域
本公开总体上涉及人工神经网络,并且在具体实施例中,涉及神经网络映射期间的存储器分配。
背景技术
人工神经网络可以由诸如微控制器的集成电路来实现。人工神经网络通常包括一系列神经元层。人工神经网络将数据集合作为第一层的输入,并且将最终结果作为最后一层的输出来传递。被布置在第一层与最后一层之间的每层在其输出处生成中间结果数据的块,也称为张量数据。其他层将这些中间结果数据作为输入,并且由此生成对应的中间结果数据。
在神经网络的执行期间,每个中间结果被临时存储在集成电路的存储器的存储区域(称为全局存储器区域)中。然而,集成电路具有有限大小的存储器。限制存储由神经网络层生成的中间结果所需的大小将是有利的。
方法用于在神经网络的执行期间定义中间结果缓冲在存储器中的放置,以限制用于存储中间结果的存储器的大小。
例如,以编号EP3663987公开的欧洲专利申请或以编号No.2004337提交的法国专利申请公开了这样的方法。
除此之外,层的执行可能需要将暂存(scratch)数据临时存储在存储器中。暂存数据是仅由给定层使用的临时层内数据,并且仅在该给定层的执行期间需要被分配。
例如,暂存数据可以是权重、与层相关的临时中间结果或查找表的副本。暂存数据也可以是针对计算密集型任务(诸如循环展开)的层内数据。然而,这种暂存数据的临时存储通常没有被优化。为了使神经网络的推理时间最小化,暂存数据的临时存储通常导致RAM或闪速存储器损失。
提供一种用于有效地分配和放置暂存数据的方法将是有利的。
发明内容
根据一个方面,提出了一种用于定义在人工神经网络的执行期间使用的临时暂存缓冲在易失性存储器中的放置的方法。根据一个实施例,该方法包括:确定神经网络的层的执行次序;根据层的执行次序,定义由每层生成的中间结果缓冲在易失性存储器的堆存储器区中的放置。该方法还包括:在层的执行上确定堆存储器区的至少一个自由区域;以及根据层的执行次序,定义临时暂存缓冲在堆存储器区的至少一个自由区域中的放置。
在实施例中,根据神经网络的层的执行次序,中间结果缓冲的放置确定用于分配这些中间结果缓冲所需的堆存储器区的限制。
在实施例中,只要层的执行需要中间结果缓冲,就在堆存储器区中分配它们。当用于层的执行的中间结果缓冲具有比堆存储器区的大小更小的累积大小时,在堆存储器区中出现自由区域。这种方法允许用于分配中间结果缓冲的堆存储器区的可用自由区域也被用于分配暂存缓冲。
暂存缓冲可以用于层内级优化。例如,暂存缓冲用于将层的权重从闪速存储器移动到随机存取存储器(RAM)。暂存缓冲也可以用于针对计算密集型任务的循环展开。使用堆存储器区的自由区域来分配暂存缓冲使得可以在不增加RAM或闪速存储器的大小的情况下优化推理时间。该方法还允许降低用于神经网络的执行的功耗。
对神经网络的层的执行次序的确定可以通过深度优先搜索算法(例如,通过使用有向无环图(Directed Acyclic Graphs))来执行。
以编号EP3663987出版的欧洲专利申请或以编号n20.04337提交的法国专利申请所公开的方法可以用于定义中间结果缓冲在堆存储器区中的放置。
在一个实施例中,该方法包括针对每层:将与该层相关联的临时暂存缓冲从最大缓冲到最小缓冲进行排序,将可变大小暂存缓冲排列在最小缓冲之后,以及遵循它们的次序来定义临时暂存缓冲的放置。
在一个实施例中,所定义的暂存缓冲的放置是暂存缓冲在至少一个自由区域的顶部的放置。
在一个实施例中,所定义的暂存缓冲的放置是暂存缓冲在至少一个自由区域的底部的放置。
在一个实施例中,所定义的暂存缓冲的放置是暂存缓冲在另一暂存缓冲上的放置。
在一个实施例中,该方法包括,针对暂存缓冲的放置:修改堆存储器区的顶部,以在堆存储器区的顶部获得具有暂存缓冲的大小的自由区域,以及定义暂存缓冲在堆存储器区的顶部的自由区域中的放置。
在一个实施例中,该方法包括,针对暂存缓冲的放置:修改堆存储器区的底部,以在堆存储器区的底部获得具有暂存缓冲的大小的自由区域,以将暂存缓冲放置在堆存储器区的底部的自由区域中。
在一个实施例中,在定义具有固定大小的暂存缓冲的放置之后,在堆存储器区的至少一个剩余自由区域中定义针对具有可变大小的暂存缓冲的放置。有利的是,当存在若干剩余自由区域可用于具有可变大小的暂存缓冲的放置时,选择这些剩余自由区域中的最大自由区域以用于放置该暂存缓冲。
优选地,该方法包括:将针对层的自由区域存储在列表中,并且在暂存缓冲的每个放置定义之后更新该列表。
在一个实施例中,提出了一种计算机程序产品,该计算机程序产品包括指令,当该程序由计算机执行时,该指令使得计算机执行上述方法。
在一个实施例中,提出了一种集成电路,该集成电路具有:被配置为存储神经网络的非易失性存储器、易失性存储器和处理器。处理器被配置为:确定神经网络的层的执行次序;根据层的执行次序,定义由每层生成的中间结果缓冲在易失性存储器的堆存储器区中的放置;在层的执行上确定堆存储器区的至少一个自由区域;以及根据层的执行次序,定义临时暂存缓冲在堆存储器区的至少一个自由区域中的放置。
在一个实施例中,处理器还被配置为,针对每层:将与该层相关联的临时暂存缓冲从最大缓冲到最小缓冲进行排序;将可变大小暂存缓冲排列在最小缓冲之后;以及遵循它们的次序,定义临时暂存缓冲的放置。
在一个实施例中,处理器被配置为:定义暂存缓冲在至少一个自由区域的顶部的放置。
在一个实施例中,处理器被配置为:定义暂存缓冲在至少一个自由区域的底部的放置。
在一个实施例中,处理器被配置为:定义暂存缓冲另一暂存缓冲上的放置。
有利地,处理器被配置为,针对暂存缓冲的放置:修改堆存储器区的顶部,以便在堆存储器区的顶部获得具有暂存缓冲的大小的自由区域;以及定义暂存缓冲在堆存储器区的顶部的自由区域中的放置。
在一个实施例中,处理器被配置为,针对暂存缓冲的放置:修改堆存储器区的底部,以便在堆存储器区的底部获得具有暂存缓冲的大小的自由区域;以及将暂存缓冲放置在堆存储器区的底部的自由区域中。
优选地,处理器被配置为:在定义具有固定大小的暂存缓冲的放置之后,定义具有可变大小的暂存缓冲在堆存储器区的至少一个剩余自由区域中的放置。有利地,处理器被配置为:当存在若干剩余自由区域可用于具有可变大小的暂存缓冲的放置时,选择这些剩余自由区域中的最大自由区域以用于放置该暂存缓冲。
在一个实施例中,处理器被配置为:将针对给定层的自由区域存储在列表中,在暂存缓冲的每个放置定义之后更新列表。
附图说明
本发明的其他优点和特征将出现在实施例和实施方式的详细描述中,但不是限制性的,并且在附图中:
图1是实施例集成电路的框图;
图2是实施例方法的流程图;
图3是随时间推移的实施例中间结果缓冲放置的示意图;
图4是实施例方法的流程图;以及
图5是中间结果缓冲和暂存缓冲的实施例放置的图。
具体实施方式
图1示出了集成电路(CI)。该集成电路(CI)可以是例如微控制器、代码生成器或可以包含板上(on-board)或硬件软件架构的任何其他对象。
集成电路(CI)被配置为实现神经网络。神经网络包括一系列层。
集成电路(CI)包括非易失性存储器(MNV),该非易失性存储器被配置为存储对神经网络的架构进行定义的各种参数(如其层的配置以及其权重和参数)。
集成电路(CI)还包括易失性存储器(MV),例如RAM存储器(针对“随机存取存储器”)。易失性存储器(MV)被配置为存储神经网络的执行代码以及用于执行神经网络的程序。易失性存储器(MV)还包括被称为堆存储器区的区(zone),该区可以被动态分配以用于在神经网络的执行期间使用的数据的存储。如下文将详细描述的,这些数据可以是由层生成的中间结果或用于给定层的执行的暂存缓冲数据。
堆存储器区可以呈现较快存储器部分和较慢存储器部分。对较快存储器部分的访问比对较慢存储器部分的访问执行得更快。
集成电路(CI)还包括处理器(UT)。处理器(UT)包括例如微处理器。处理器(UT)耦合到易失性存储器(MV)。处理器被配置为在神经网络的执行期间分配易失性存储器(MV)的堆存储器区来存储数据。
为了在这些神经网络的执行期间优化存储器的分配,在网络的执行之前,实现一种用于定义缓冲在易失性存储器中的放置的方法。
处理器(UT)被配置为实现这样的方法。具体地,处理器(UT)可以执行包括指令的计算机程序,当该程序由处理器执行时,该指令使得处理器执行该方法。
该方法如图2所示。该方法包括步骤20,其中处理器(UT)确定神经网络的层的执行次序。这允许获得神经网络的层的执行时间表。
更具体地,对神经网络的层的执行次序的确定可以通过深度优先搜索算法(例如通过使用本领域技术人员公知的有向无环图)来执行。
然后,该方法包括步骤21,其中根据层的执行次序,处理器(UT)定义中间结果缓冲(也称为张量缓冲)在存储器中的放置。
具体地,中间结果缓冲用于存储中间结果(也称为张量数据)。中间结果是由除最后一层之外的每层根据在该层的输入处接收的数据计算出的数据。由一个层计算的中间结果在该层的输出上被传递,并且被之后执行的其他层所使用。中间结果需要被存储在存储器中,直到使用它们的层被执行。对中间结果缓冲的放置的定义允许对存储中间结果所需的易失性存储器的堆存储器区的大小的优化。
具体地,以编号EP3663987出版的欧洲专利申请或以编号No.2004337提交的法国专利申请所公开的方法可以用于定义中间结果缓冲在堆存储器区中的放置。
图3示出了针对每层的随时间推移的中间结果缓冲放置。图3在y轴(纵坐标)上示出了中间结果缓冲在堆存储器区(HMZ)中的放置,并且在x轴(横坐标)上示出了作为层1至层N的处理的结果的执行时间。
例如,在一些层的执行时间期间,中间结果缓冲TB1、TB2、TB3被放置在堆存储器区中。
堆存储器区(HMZ)的大小由针对中间结果缓冲而选择的放置来定义。例如,在图3中,堆存储器区的大小sz等于sz=topz-botz,其中topz是堆存储器区的顶部地址,并且botz是堆存储器区的底部地址。如图所示,在大多数层的执行期间,堆存储器区的实际大小没有被完全分配。在大多数层的执行期间,堆存储器区的某些区域是自由的。例如,在图3中,区域FA1、FA2、FA3是自由的。
该方法利用堆存储器区的自由区域来分配临时暂存缓冲。具体地,该方法允许对在堆存储器区中的临时暂存缓冲放置的定义。
暂存缓冲可以用于存储用于层级优化的暂存数据。在实施例中,暂存缓冲用于将层的权重从闪速存储器移动到RAM。在一些实施例中,暂存缓冲也可以用于针对计算密集型任务的循环展开。
暂存数据是针对神经网络的给定层的执行而定义的。因此,每个暂存缓冲与神经网络的给定层相关联。
暂存缓冲可以具有固定大小或可变大小。可变暂存缓冲是在神经网络的执行之前具有未知大小的暂存缓冲。具有可变大小的暂存缓冲可能需要最小大小,也可能不需要。
具体地,该方法包括步骤22,其中处理器(UT)在层的执行上确定堆存储器区的自由区域。更具体地,堆存储器区的自由区域是针对每层的执行时间而确定的。
例如,在图3中,为了继续执行第10层,处理器(UT)需要中间结果缓冲TB2和TB3中所存储的数据。这些中间结果缓冲仅占用堆存储器区中的给定区域。因此,在第10层的执行时间处,区域FA1和FA2是自由的。在实施例中,所确定的自由区域被存储在列表中。
然后,该方法包括用于根据层的执行次序来定义临时暂存缓冲在堆存储器区的自由区域中的放置的过程。临时暂存缓冲的放置是根据层的执行时间表而逐个执行的。
具体地,在步骤23,根据执行时间表将要放置的临时暂存缓冲存储在队列中。在实施例中,与相同层相关联的临时暂存缓冲从最大到最小被存储在队列中,具有可变大小的暂存缓冲被排列在最小暂存缓冲之后。如下所述,在定义暂存缓冲的放置之后,从队列删除该暂存缓冲。
用于定义暂存缓冲的放置的过程包括步骤24,其中处理器(UT)检查队列是否为空。如果队列不为空,则这意味着仍然存在至少一个暂存缓冲要放置。在这种情况下,下一步骤为步骤25。
如果队列为空,则这意味着没有暂存缓冲要放置。在这种情况下,该方法在步骤28结束。
当队列不为空时,在步骤25,处理器(UT)恢复队列中的第一个暂存缓冲,以将其放入堆存储器区。
具体地,在步骤26,处理器(UT)检查在与步骤25恢复的暂存缓冲相关联的层的执行时间处可用的堆存储器区的自由区域。该检查根据在层的执行时间处可用的自由区域的列表来执行。
然后,在步骤27,处理器(UT)根据暂存缓冲的约束和可允许移动来定义暂存缓冲的放置。
图4示出了用于定义暂存缓冲在堆存储器区中的放置的过程。
更具体地,在步骤40,处理器(UT)检查针对暂存缓冲是否需要延迟优化。如果需要延迟优化,则处理器(UT)在步骤41选择堆存储器区的较快存储器部分作为堆存储器区中将放置暂存缓冲的部分。接下来,处理器(UT)根据与暂存缓冲相关联的层的执行时间从自由区域列表中提取较快存储器部分的自由区域。
如果不需要延迟优化,则处理器(UT)在步骤42选择堆存储器区中较慢存储器部分作为堆存储器区中将放置暂存缓冲的部分。接下来,处理器(UT)根据与暂存缓冲相关联的层的执行时间从自由区域列表中提取较慢存储器部分的自由区域。
然后,在步骤43,处理器(UT)评估是否有可能将暂存缓冲放置在从列表中提取的自由区域中。
具体地,处理器(UT)将暂存缓冲的大小与从列表中提取的每个自由区域的大小进行比较。当提取的自由区域的大小大于或等于暂存缓冲的大小时,该提取的自由区域被适配为接收暂存缓冲。
如果存在至少一个自由区域被适配为接收暂存缓冲,则处理器(UT)直接进行步骤44,其中处理器(UT)定义暂存缓冲的放置。
如果不存在被适配为接收暂存缓冲的自由区域,则在步骤44,处理器(UT)增加堆存储器区中暂存缓冲必须被放置在其中的部分的大小。
在实施例中,处理器(UT)增加堆存储器区的顶部或底部,以在堆存储器区的顶部或底部获得具有被适配为接收暂存缓冲的大小的自由区域。
在实施例中,当分别在全局存储器大小的顶部和底部不存在自由区域时,处理器(UT)分别修改堆存储器区的顶部地址和底部地址,以便获得大小等于暂存缓冲大小的自由区域。
然而,当分别在堆存储器区的顶部和底部存在自由区域时,处理器(UT)分别修改顶部地址和底部地址,以便将自由区域的大小增加暂存缓冲的大小与自由区域的初始大小之间的差。
然后,处理器(UT)进行步骤45。在步骤45,处理器(UT)定义暂存缓冲的放置。在实施例中,如果暂存缓冲具有固定大小,则处理器(UT)选择从列表中提取的最小自由区域来放置暂存缓冲,该最小自由区域的大小被适配为接收暂存缓冲。然后,处理器(UT)可以根据不同的可能放置来放置具有固定大小的暂存缓冲。
针对固定大小暂存缓冲的第一种放置包括:为了使最终堆大小最小化并且当特定层实现请求时,将暂存缓冲放置为与另一暂存缓冲叠加以用于层的执行。在实施例中,将暂存缓冲放置在大小大于或等于要放置的暂存缓冲的、已经放置的暂存缓冲上。当存在与大小小于要放置的暂存缓冲的、已经放置的暂存缓冲相邻的自由区域,该自由区域的大小大于或等于要放置的暂存缓冲与已经放置的暂存缓冲之间的差时,也可以将暂存缓冲放置在该已经放置的暂存缓冲上。在实施例中,该自由区域是与已经放置的暂存缓冲的底部相邻的自由区域。
针对固定大小暂存缓冲的第二种放置包括:将暂存缓冲放置在大小被适配为接收暂存缓冲的最小自由区域的顶部。
针对固定大小暂存缓冲的第三种放置包括:将暂存缓冲放置在大小被适配为接收暂存缓冲的最小自由区域的底部。
在实施例中,当定义了与相同层相关联的具有固定大小的暂存缓冲的所有可能放置时,处理器进行对与相同层相关联的具有可变大小的暂存缓冲的放置的定义。
为了放置具有可变大小的暂存缓冲,处理器(UT)选择列表中剩余的最大自由区域集合来放置暂存缓冲。在实施例中,剩余的自由区域按照递减的大小来排序。
如果要放置的具有可变大小的暂存缓冲的数目小于或等于剩余自由区域的数目,则每个暂存缓冲可以被放置在以递减的大小次序进行排序的给定的剩余自由区域中。在这种情况下,所定义的暂存缓冲的大小等于其中暂存缓冲被放置的剩余自由区域的大小。
然而,如果要放置的具有可变大小的暂存缓冲的数目大于剩余自由区域的数目,则处理器计算要放置在剩余自由区域中的暂存缓冲的数目的平均值。因此,具有可变大小的暂存缓冲可以与具有可变大小的至少一个其他暂存缓冲一起被放置在剩余的自由区域中。在实施例中,所定义的要放置的暂存缓冲的大小等于其中暂存缓冲被放置的剩余自由区域的大小除以要放置在该剩余自由区域中的暂存缓冲的数目。
此外,在具有可变大小的暂存缓冲需要比每个剩余自由区域的大小更大的最小大小的情况下。在步骤44,可以增加堆存储器区的顶部或底部,以在堆存储器区的顶部或底部获得大小等于该暂存缓冲所需的最小大小的自由区域。然后,将暂存缓冲放在该自由区域中。
在暂存缓冲的放置之后,更新自由区域列表,并且从队列中删除暂存缓冲。
然后,从步骤24开始重复该过程,以便在队列中放置下一个暂存缓冲,直到队列为空。当队列为空时,没有更多暂存缓冲要放置。该方法在步骤28结束。
然而,可以重复用于定义暂存缓冲的放置的过程,以尝试针对每个暂存缓冲的不同放置。这允许为暂存缓冲找到优化的放置。具体地,可以根据给定的标准来优化放置。例如,标准可以是为了避免由中间结果缓冲的放置所定义的堆存储器区的增加。另一标准可以是为了保持放置方案允许获得最小大小的堆存储器区。备选地,另一标准可以是为了保持放置方案允许获得最少碎片化的存储器区。另一标准可以是为了保持放置方案允许使暂存缓冲在堆存储器区的较快存储器部分中的放置最大化,以加速神经网络的执行。
图5示出了中间结果缓冲和暂存缓冲的放置的最终方案的示例。中间结果缓冲的放置与图3中的相同(例如,缓冲TB1、TB2和TB3)。因此,中间结果缓冲的放置定义了地址botz与topz之间的堆存储器区。
在实施例中,一些暂存缓冲被放置在一些自由区域的顶部或底部。例如,暂存缓冲SB1被放置在自由区域的顶部。暂存缓冲SB2被放置在自由区域的底部。
在实施例中,一些其他暂存缓冲被放置在已经放置的暂存缓冲上。例如,暂存缓冲SB3被放置在已经放置在自由区域的顶部的暂存缓冲上。另一暂存缓冲SB4被放置在暂存缓冲SB3上。
在实施例中,为了在没有自由区域可用时放置一些暂存缓冲,增加堆存储器区的顶部或底部。
例如,为了放置暂存缓冲SB5,将堆存储器区的顶部的地址增加到地址i_topz,以便在堆存储器区的顶部获得暂存缓冲SB5的大小的自由区域。然后,将暂存缓冲SB5放置在该自由区域中。
此外,为了放置暂存缓冲SB6,将堆存储器区的底部的地址修改为地址f_botz,以在堆存储器区的底部获得暂存缓冲SB6的大小的自由区域。然后,将暂存缓冲SB6放置在该自由区域中。
为了放置暂存缓冲SB7,将堆存储器区的顶部增加到地址f_topz,因为在暂存缓冲SB6的放置之前所定义的堆存储器区的顶部的自由区域的大小小于暂存缓冲SB7。在实施例中,将堆存储器区的顶部增加暂存缓冲SB7的大小与在暂存缓冲SB7的放置之前所定义的堆存储器区的顶部的自由区域的大小之间的差。
最后,将最终的堆存储器区FHMZ定义在地址f_topz和地址f_botz之间。
在定义了中间结果缓冲和暂存缓冲的放置之后,处理器(UT)可以执行神经网络。当处理器(UT)执行神经网络时,根据所定义的中间结果缓冲的放置和所定义的暂存缓冲的放置来分配存储器。
上述方法允许使用堆存储器区中用于分配中间结果缓冲以转而分配暂存缓冲的可用自由区域。
通过使用堆存储器区的自由区域来分配暂存缓冲,可以优化推理时间,而几乎不会影响RAM或闪速存储器的大小。
该方法还允许降低神经网络的执行的功耗。
尽管已经详细描述了该描述,但是应当理解,在不脱离由所附权利要求限定的本公开的精神和范围的情况下,可以进行各种改变、替换和变更。在不同的附图中,相同的元素用相同的附图标记表示。此外,本公开的范围并不旨在限于本文描述的特定实施例,因为本领域普通技术人员将从本公开中容易地理解,当前存在的或以后将开发的过程、机器、制造、物质组成、部件、方法或步骤可以执行与本文描述的相应实施例基本相同的功能或实现基本相同的结果。相应地,所附权利要求旨在将这些过程、机器、制造、物质组成、部件、方法或步骤包括在其范围内。
相应地,说明书和附图被简单地视为由所附权利要求限定的本公开的说明,并且被预期为覆盖落入本公开范围内的任何和所有修改、变化、组合或等同物。
Claims (20)
1.一种方法,包括:
确定人工神经网络的层的执行次序;
在易失性存储器的堆存储器区中,根据所述层的所述执行次序,定义由每层生成的中间结果缓冲的放置;
针对每层的执行,确定所述堆存储器区的自由区域;以及
在所述堆存储器区的所述自由区域中,基于所述层的所述执行次序,定义临时暂存缓冲的放置。
2.根据权利要求1所述的方法,还包括:
将与相应层相关联的所述临时暂存缓冲从最大缓冲到最小缓冲进行排序;以及
在定义所述临时暂存缓冲的放置之前,将可变大小暂存缓冲排列在所述最小缓冲之后。
3.根据权利要求1所述的方法,其中定义所述放置包括:定义所述临时暂存缓冲在所述堆存储器区的所述自由区域的顶部的放置。
4.根据权利要求1所述的方法,其中定义所述放置包括:定义所述临时暂存缓冲在所述堆存储器区的所述自由区域的底部的放置。
5.根据权利要求1所述的方法,其中定义所述放置包括:定义所述临时暂存缓冲代替另一临时暂存缓冲的放置。
6.根据权利要求1所述的方法,还包括:
针对所述临时暂存缓冲的放置,修改所述堆存储器区的顶部,以在所述堆存储器区的顶部获得具有所述临时暂存缓冲的大小的自由区域;以及
针对所述临时暂存缓冲的放置,定义所述临时暂存缓冲在所述堆存储器区的顶部的所述自由区域中的放置。
7.根据权利要求1所述的方法,还包括:
针对所述临时暂存缓冲的放置,修改所述堆存储器区的底部,以在所述堆存储器区的底部获得具有所述临时暂存缓冲的大小的自由区域;以及
针对所述临时暂存缓冲的放置,定义所述临时暂存缓冲在所述堆存储器区的底部的所述自由区域中的放置。
8.根据权利要求1所述的方法,其中定义所述放置包括:在定义具有固定大小的所述临时暂存缓冲的放置之后,定义具有可变大小的所述临时暂存缓冲在所述堆存储器区的剩余自由区域中的放置。
9.根据权利要求1所述的方法,还包括:
将所述堆存储器区的所述自由区域存储在列表中;以及
在临时暂存缓冲的每个放置定义之后更新所述列表。
10.一种存储计算机指令的非瞬态计算机可读介质,当所述计算机指令由一个或多个处理器执行时,使得所述处理器执行:
确定人工神经网络的层的执行次序;
在易失性存储器的堆存储器区中,根据所述层的所述执行次序,定义由每层生成的中间结果缓冲的放置;
针对每层的执行,确定所述堆存储器区的自由区域;以及
在所述堆存储器区的所述自由区域中,基于所述层的所述执行次序,定义临时暂存缓冲的放置。
11.根据权利要求10所述的存储计算机指令的非瞬态计算机可读介质,当所述计算机指令由一个或多个处理器执行时,使得所述处理器执行:
将与相应层相关联的所述临时暂存缓冲从最大缓冲到最小缓冲进行排序;以及
在定义所述临时暂存缓冲的放置之前,将可变大小暂存缓冲排列在所述最小缓冲之后。
12.根据权利要求10所述的存储计算机指令的非瞬态计算机可读介质,其中定义所述放置包括:定义所述临时暂存缓冲在所述堆存储器区的所述自由区域的顶部的放置。
13.根据权利要求10所述的存储计算机指令的非瞬态计算机可读介质,其中定义所述放置包括:定义所述临时暂存缓冲在所述堆存储器区的所述自由区域的底部的放置。
14.根据权利要求10所述的存储计算机指令的非瞬态计算机可读介质,其中定义所述放置包括:定义所述临时暂存缓冲代替另一临时暂存缓冲的放置。
15.根据权利要求10所述的存储计算机指令的非瞬态计算机可读介质,当所述计算机指令由一个或多个处理器执行时,使得所述处理器执行:
针对所述临时暂存缓冲的放置,修改所述堆存储器区的顶部,以在所述堆存储器区的顶部获得具有所述临时暂存缓冲的大小的自由区域;以及
针对所述临时暂存缓冲的放置,定义所述临时暂存缓冲在所述堆存储器区的顶部的所述自由区域中的放置。
16.一种集成电路,包括:
非易失性存储器存储装置,包括人工神经网络指令;
易失性存储器存储装置;以及
处理器,耦合到所述非易失性存储器存储装置和所述易失性存储器存储装置,其中所述处理器被配置为执行所述人工神经网络指令以:
确定人工神经网络的层的执行次序,
在所述易失性存储器存储装置的堆存储器区中,根据所述层的所述执行次序,定义由每层生成的中间结果缓冲的放置,
针对每层的执行,确定所述堆存储器区的自由区域,以及
在所述堆存储器区的所述自由区域中,根据所述层的所述执行次序,定义临时暂存缓冲的放置。
17.根据权利要求16所述的集成电路,其中所述处理器被配置为执行所述人工神经网络指令以:
将与相应层相关联的所述临时暂存缓冲从最大缓冲到最小缓冲进行排序;以及
在定义所述临时暂存缓冲的放置之前,将可变大小暂存缓冲排列在所述最小缓冲之后。
18.根据权利要求16所述的集成电路,其中定义所述放置包括:定义所述临时暂存缓冲在所述堆存储器区的所述自由区域的顶部的放置。
19.根据权利要求16所述的集成电路,其中定义所述放置包括:定义所述临时暂存缓冲在所述堆存储器区的所述自由区域的底部的放置。
20.根据权利要求16所述的集成电路,其中定义所述放置包括:定义所述临时暂存缓冲代替另一临时暂存缓冲的放置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2013373A FR3117626B1 (fr) | 2020-12-16 | 2020-12-16 | Procédé d’allocation de mémoire pendant l’exécution d’un réseau de neurones |
FR2013373 | 2020-12-16 | ||
US17/455,770 US20220188610A1 (en) | 2020-12-16 | 2021-11-19 | Method for memory allocation during execution of a neural network |
US17/455,770 | 2021-11-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638350A true CN114638350A (zh) | 2022-06-17 |
Family
ID=75438898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111534114.0A Pending CN114638350A (zh) | 2020-12-16 | 2021-12-15 | 用于神经网络执行期间的存储器分配的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220188610A1 (zh) |
EP (1) | EP4016311B1 (zh) |
CN (1) | CN114638350A (zh) |
FR (1) | FR3117626B1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240020897A1 (en) * | 2022-07-12 | 2024-01-18 | Nvidia Corporation | Neural network-based image lighting |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1768002A1 (de) | 1968-03-20 | 1972-03-16 | Hoechst Ag | Harnstoffderivate,ihre Herstellung sowie Anwendung als Herbicide |
US10699186B2 (en) * | 2015-12-02 | 2020-06-30 | Google Llc | Determining orders of execution of a neural network |
KR102561261B1 (ko) * | 2017-11-14 | 2023-07-28 | 삼성전자주식회사 | 커널을 이용한 컨볼루션 연산 처리 방법 및 장치 |
FR3089649A1 (fr) | 2018-12-06 | 2020-06-12 | Stmicroelectronics (Rousset) Sas | Procédé et dispositif de détermination de la taille mémoire globale d’une zone mémoire globale allouée aux données d’un réseau de neurones |
FR3094104A1 (fr) * | 2019-03-20 | 2020-09-25 | Stmicroelectronics (Rousset) Sas | Procédé et dispositif de détermination de la taille mémoire globale d’une zone mémoire globale allouée aux données d’un réseau de neurones compte tenu de sa topologie |
CN110162338B (zh) * | 2019-05-31 | 2020-08-04 | 中科寒武纪科技股份有限公司 | 运算方法、装置及相关产品 |
-
2020
- 2020-12-16 FR FR2013373A patent/FR3117626B1/fr active Active
-
2021
- 2021-11-19 US US17/455,770 patent/US20220188610A1/en active Pending
- 2021-12-02 EP EP21211915.0A patent/EP4016311B1/en active Active
- 2021-12-15 CN CN202111534114.0A patent/CN114638350A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
FR3117626B1 (fr) | 2023-12-01 |
FR3117626A1 (fr) | 2022-06-17 |
US20220188610A1 (en) | 2022-06-16 |
EP4016311B1 (en) | 2024-05-01 |
EP4016311A1 (en) | 2022-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5304251B2 (ja) | 並列ソート装置、方法、およびプログラム | |
US8161467B2 (en) | Compiling method and storage medium therefor | |
KR20130087257A (ko) | Gpu의 자원 할당을 위한 방법 및 장치 | |
EP0780762A2 (en) | Method and system for wrapper routine optimization | |
CN111861412A (zh) | 面向完成时间优化的科学工作流调度方法及系统 | |
CN114638350A (zh) | 用于神经网络执行期间的存储器分配的方法 | |
KR20220089383A (ko) | 이더리움 샤딩 환경에서의 트랜잭션 수행 시간을 기반으로 한 부하 분산 방법 및 이더리움 샤딩 시스템 | |
Yang et al. | Efficient GPU memory management for nonlinear DNNs | |
CN114995971A (zh) | 实现kubernetes中pod批量调度方法及系统 | |
US12007974B2 (en) | Memory processing optimisation | |
CN117319373A (zh) | 数据传输方法、装置、电子设备和计算机可读存储介质 | |
CN113452546A (zh) | 深度学习训练通信的动态服务质量管理 | |
CN112597076A (zh) | 一种面向Spark的基于数据感知的缓存替换方法及系统 | |
US8037256B2 (en) | Programmable address processor for graphics applications | |
US20060195662A1 (en) | Method for deterministic cache partitioning | |
US20220019873A1 (en) | Elastic bottleneck architectures for variable convolution operations | |
CN115421851A (zh) | 一种微服务伸缩方法、系统、云服务器及存储介质 | |
CN114327897A (zh) | 一种资源分配方法、装置及电子设备 | |
CN112598112A (zh) | 一种基于图神经网络的资源调度方法 | |
JP7253140B2 (ja) | メモリ制御装置、メモリ制御方法及びそのプログラム | |
CN117480491A (zh) | 用于融合不同模型的多个层的方法和装置 | |
CN111930520B (zh) | 面向云计算任务资源的预测关联迭代调配方法与系统 | |
Wei et al. | Workflow task offloading mechanism based on A3C under computing network integration | |
CN114296872A (zh) | 用于容器集群管理系统的调度方法及装置 | |
CN118819771A (zh) | 针对大模型的请求调度方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |