CN116893904A - 神经网络模型的内存管理方法、装置、设备、介质及产品 - Google Patents

神经网络模型的内存管理方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN116893904A
CN116893904A CN202311165933.1A CN202311165933A CN116893904A CN 116893904 A CN116893904 A CN 116893904A CN 202311165933 A CN202311165933 A CN 202311165933A CN 116893904 A CN116893904 A CN 116893904A
Authority
CN
China
Prior art keywords
memory
size
memory block
tensor
allocated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311165933.1A
Other languages
English (en)
Other versions
CN116893904B (zh
Inventor
周刘成
蒋荣琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311165933.1A priority Critical patent/CN116893904B/zh
Publication of CN116893904A publication Critical patent/CN116893904A/zh
Application granted granted Critical
Publication of CN116893904B publication Critical patent/CN116893904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Neurology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种神经网络模型的内存管理方法、装置、设备、介质及产品,属于内存管理技术领域。该方法包括:获取神经网络模型对应的计算图;基于所述计算图,确定待分配至所述网络层算子的内存大小;从空闲内存块列表中的空闲内存块中获取与所述内存大小匹配的分配内存块,将所述分配内存块分配给所述网络层算子;其中,所述空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块,所述分配内存块是指被分配给所述网络层算子用于存储数据的内存块。通过利用空闲内存块列表中的空闲内存块,为网络层算子分配到与内存大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。

Description

神经网络模型的内存管理方法、装置、设备、介质及产品
技术领域
本申请实施例涉及内存管理技术领域,特别涉及一种神经网络模型的内存管理方法、装置、设备、介质及产品。
背景技术
随着计算机深度学习技术的发展,神经网络模型的应用越来越频繁。为了取得更好的算法精度,神经网络模型变得越来越复杂,硬件能力限制了神经网络向更深的方向发展。
相关技术中,通过获取神经网络模型中各个网络层需要占用的内存,然后按照整个神经网络模型运行顺序,为整个神经网络模型分配内存。例如,神经网络模型在运行过程中,依次需要占用100M的内存块、10M的内存块和50M的内存块,10M的内存块和50M的内存块的存储周期存在交叉,即,10M的内存块和50M的内存块的被占用时间存在交集。当神经网络模型申请100M的内存块时,可为神经网络分配100M的内存块,然后当神经网络模型申请10M的内存块时,可判断一下该10M的内存块申请是否可用复用上述已分配的100M内存块,如果可以,则不再为所申请的10M内存块分配新的内存块,而使该10M内存块申请复用上述100M内存块,同理,当神经网络模型申请50M的内存块时,也判断一下该50M的内存块申请是否可复用上述已分配的100M内存块,且如果可复用,则分配该50M的内存块复用上述已分配的100M内存块,否则,为该50M内存块申请分配一新的50M内存块。
由上述相关技术可知,当神经网络模型申请一内存块时,由于申请的10M的内存块和申请的50M的内存块的存储周期存在交叉,在申请的10M内存块复用已分配的100M内存块后,申请的50M内存块将不能再复用已分配的100M内存块,需要另外申请分配一新的50M内存块,因此整个神经网络模型需共占用150M的内存块,导致整个神经网络模型占用的内存较大。因此,如何合理地管理神经网络模型占用的内存,提高内存的利用率,是亟待解决的重要问题。
发明内容
本申请提供了一种神经网络模型的内存管理方法、装置、设备、介质及产品,所述技术方案如下所述内容。
根据本申请的一方面,提供了一种神经网络模型的内存管理方法,所述方法包括以下步骤。
获取神经网络模型对应的计算图,所述计算图中包括至少两个网络层算子,所述网络层算子用于表示所述神经网络模型中的网络层。
基于所述计算图,确定待分配至所述网络层算子的内存大小,所述内存大小用于表示所述网络层算子在所述神经网络模型运行时需要占用的内存大小。
从空闲内存块列表中的空闲内存块中获取与所述内存大小匹配的分配内存块,将所述分配内存块分配给所述网络层算子。
其中,所述空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块,所述分配内存块是指被分配给所述网络层算子用于存储数据的内存块。
根据本申请的一方面,提供了一种神经网络模型的内存管理装置,所述装置包括以下步骤。
获取模块,用于获取神经网络模型对应的计算图,所述计算图中包括至少两个网络层算子,所述网络层算子用于表示所述神经网络模型中的网络层。
确定模块,用于基于所述计算图,确定待分配至所述网络层算子的内存大小,所述内存大小用于表示所述网络层算子在所述神经网络模型运行时需要占用的内存大小。
分配模块,用于从空闲内存块列表中的空闲内存块中获取与所述内存大小匹配的分配内存块,将所述分配内存块分配给所述网络层算子。
其中,所述空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块,所述分配内存块是指被分配给所述网络层算子用于存储数据的内存块。
根据本申请的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的神经网络模型的内存管理方法。
根据本申请的另一方面,提供了一种计算机存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的神经网络模型的内存管理方法。
根据本申请的另一方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行如上方面所述的神经网络模型的内存管理方法。
本申请提供的技术方案带来的有益效果至少包括以下内容。
通过获取神经网络模型对应的计算图;基于计算图,确定待分配至网络层算子的内存大小;基于内存大小,通过从空闲内存块列表中的空闲内存块中获取与内存大小匹配的分配内存块,将分配内存块分配给网络层算子。本申请通过利用空闲内存块列表中的空闲内存块,为网络层算子分配到与内存大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的一种神经网络模型的内存管理方法的示意图;
图2是本申请一个示例性实施例提供的计算机系统的架构示意图;
图3是本申请一个示例性实施例提供的神经网络模型的内存管理方法的流程图;
图4是本申请一个示例性实施例提供的另一神经网络模型的内存管理方法的流程图;
图5是本申请一个示例性实施例提供的计算图的示意图;
图6是本申请一个示例性实施例提供的分配内存块的确定方法的示意图;
图7是本申请一个示例性实施例提供的另一分配内存块的确定方法的示意图;
图8是本申请一个示例性实施例提供的未分配内存的示意图;
图9是本申请一个示例性实施例提供的释放内存块的示意图;
图10是本申请一个示例性实施例提供的形状重塑算子进行重塑的示意图;
图11是本申请一个示例性实施例提供的拼接算子进行拼接的示意图;
图12是本申请一个示例性实施例提供的分裂算子进行分裂的示意图;
图13是本申请一个示例性实施例提供的另一拼接算子进行拼接的示意图;
图14是本申请一个示例性实施例提供的另一分裂算子进行分裂的示意图;
图15是本申请一个示例性实施例提供的再一神经网络模型的内存管理方法的流程图;
图16是本申请一个示例性实施例提供的神经网络模型的内存管理装置的框图;
图17是本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
本申请实施例提供了一种神经网络模型的内存管理方法的示意图,如图1所示,该方法可以由计算机设备执行,计算机设备可以是终端或服务器,具体地,该方法可以由计算机设备中的内存管理单元执行。
示例性地,计算机设备获取神经网络模型对应的计算图10;计算机设备基于计算图10,确定待分配至网络层算子40的内存大小;计算机设备从空闲内存块列表20中的空闲内存块中获取与内存大小匹配的分配内存块,将分配内存块分配给网络层算子40。
计算图10用以表示神经网络模型的计算过程。
可选地,计算图10中包括至少两个网络层算子40和至少两个网络层算子之间的边50,网络层算子40用于表示神经网络模型中的网络层,边50用于表示网络层之间的数据流动。
如图1所示,计算机设备获取神经网络模型对应的计算图10,计算图10中包括至少三个网络层算子40,分别为:网络层算子G0、网络层算子G1和网络层算子G2,在神经网络模型运行时,网络层算子40的运算顺序为网络层算子G0-网络层算子G1-网络层算子G2。其中,待分配至网络层算子G0的内存大小为16M,即,网络层算子G0在运行时需要占用16M的内存;待分配至网络层算子G1的内存大小为10M,即,网络层算子G1在运行时需要占用10M的内存;待分配至网络层算子G2的内存大小为5M,即,网络层算子G2在运行时需要占用5M的内存。
可选地,神经网络模型包括深度学习神经网络模型(Deep Neural Network,DNN)、卷积神经网络模型(Convolutional Neural Network,CNN)、极限学习机模型(ExtremeLearning Machine,ELM)或其他的神经网络模型中的至少一种,但不限于此,本申请实施例对此不作具体限定。
内存大小用于表示网络层算子40在神经网络模型运行时需要占用的内存大小。
空闲内存块列表20用于存放已被分配但被解除占用后的空闲内存块。
分配内存块是指被分配给网络层算子40用于存储数据的内存块。
内存大小包括输入张量的大小和/或输出张量的大小。
输入张量用以表示输入至网络层算子40中的多维数组。
输出张量用以表示从网络层算子40输出的多维数组。
在一些实施例中,计算机设备基于计算图10,还可以确定网络层算子40的输入张量和输出张量对应的存储周期。
存储周期用于表示张量在内存块中占用的时间,即,在当前网络层算子执行完后,且不会被其他网络层算子调用后,该张量结束存储周期,该张量占用的内存块便可被释放。
示例性地,计算机设备获取网络层算子40的排列顺序;计算机设备在网络层算子40对应的输入张量的大小大于张量大小阈值的情况下,从空闲内存块列表20中获取与输入张量匹配的分配内存块,并按照排列顺序将分配内存块分配给网络层算子用于存储输入张量。
排列顺序用于表示网络层算子40在神经网络模型运行时的执行顺序。
在一些实施例中,分配内存块的确定方式包括以下方式中的至少一种,但不限于此。
(1)在网络层算子40对应的输入张量的大小小于或等于张量大小阈值的情况下,直接从未分配内存中获取与输入张量的大小匹配的分配内存块。
(2)在输入张量的大小大于张量大小阈值,且空闲内存块列表20中的空闲内存块的大小大于或等于输入张量的大小的情况下,从空闲内存块列表20中获取与输入张量的大小匹配的分配内存块。
(3)在输入张量的大小大于张量大小阈值,且空闲内存块列表20中的空闲内存块的大小小于输入张量的大小的情况下,从空闲内存块列表20和未分配内存中获取与输入张量的大小匹配的分配内存块。
(4)在输入张量的大小大于张量大小阈值,且空闲内存块列表20中没有空闲内存块的情况下,从未分配内存中划分出与输入张量的大小匹配的内存块作为分配内存块。
未分配内存是指存储空间中未被分配占用过的内存。
张量大小阈值是指能够进行内存复用的最小的内存块的大小。
可选地,张量大小阈值可采用自定义值、默认值中的至少一种,但不限于此,本申请实施例对此不作具体限定。
示例性地,在网络层算子40对应的输入张量的大小小于或等于张量大小阈值的情况下,直接从未分配内存中获取与输入张量的大小匹配的分配内存块,从而避免产生内存碎片。
示例性地,在输入张量的大小大于张量大小阈值,且空闲内存块列表中包括与输入张量的大小相同第一空闲内存块的情况下,直接将第一空闲内存块作为分配内存块分配给对应的网络层算子40用于存储输入张量。
在输入张量的大小大于张量大小阈值,且空闲内存块列表20中包括大于输入张量的大小的第二空闲内存块的情况下,从第二空闲内存块中分割出与输入张量的大小匹配的第三内存块,并将第三内存块作为分配内存块分配给对应的网络层算子20用于存储输入张量。
例如,如图1所示出的分配内存块的确定方法,如图1中的(a)图所示,图中阴影部位为正在运行的网络层算子40,即当前运行的网络层算子40为网络层算子G0,网络层算子G0的输入张量需要占用的内存大小为16M,则,计算机设备向网络层算子G0分配16M内存块,分配后在已分配内存块列表30中显示已分配的16M内存块,此时,空闲内存块列表20中显示为空。如图1中的(b)图所示,在网络层算子G0运行完成后,网络层算子G0占用的16M内存块被释放,此时,空闲内存块列表20中显示被释放的16M内存块。
如图1中的(c)图所示,在网络层算子G1和网络层算子G2同时运行时,按照排列顺序先给网络层算子G1分配内存块,后给网络层算子G2分配内存块。此处假设张量大小阈值为4M,在网络层算子G1和网络层算子G2的输入张量的大小均大于张量大小阈值(4M)的情况下,进一步判断是否可从空闲内存块列表20中获取分配内存块。
在网络层算子G1的输入张量的大小(10M)大于张量大小阈值(4M),且空闲内存块列表20中的空闲内存块的大小(16M)大于网络层算子G1的输入张量的大小(10M)的情况下,从空闲内存块列表20中获取与网络层算子G1对应的输入张量的大小(10M)匹配的分配内存块,即,获取的网络层算子G1对应的分配内存块为(10M)。在网络层算子G2的输入张量的大小(5M)大于张量大小阈值(4M),且空闲内存块列表20中的剩余的空闲内存块的大小(6M)大于网络层算子G2的输入张量的大小(5M)的情况下,从空闲内存块列表20中获取与网络层算子G2对应的输入张量的大小(5M)匹配的分配内存块,即,获取的网络层算子G2对应的分配内存块为(5M)。此时,在空闲内存块列表20中显示被复用剩下的1M内存块,在已分配内存块列表30中显示网络层算子G1已分配的内存块(10M)和网络层算子G2已分配的内存块(6M)。
在一些实施例中,在输入张量的大小大于张量大小阈值,且空闲内存块列表20中包括小于输入张量的大小的第四空闲内存块的情况下,将第四空闲内存块与合并内存块进行合并,得到分配内存块。
合并内存块是从未分配内存中划分得到的内存块,合并内存块的大小为输入张量的大小与第四空闲内存块的大小的差值。
例如,当前输入张量的大小为10MB,空闲内存块列表中有两块大小分别为2MB和4MB的空闲内存块,其中,4MB的空闲内存块在空闲内存块列表的末尾,则取出4MB大小的空闲内存块并从未分配内存中划分出6MB大小的内存块进行合并,生成一个10MB大小的内存块作为分配内存块分配给对应的网络层算子40用于存储输入张量。
综上所述,本实施例提供的方法,通过获取神经网络模型对应的计算图;基于计算图,确定待分配至网络层算子的内存大小;基于内存大小,通过从空闲内存块列表中的空闲内存块中获取与内存大小匹配的分配内存块,将分配内存块分配给网络层算子。本申请通过利用空闲内存块列表中的空闲内存块,为网络层算子分配到与内存大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。
图2示出了本申请一个实施例提供的计算机系统的架构示意图。该计算机系统可以包括:终端100和服务器200。
终端100可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、个人计算机(Personal Computer,PC)、车载终端、飞行器、无人售货终端等电子设备。终端100中可以安装运行目标应用程序的客户端,该目标应用程序可以是参考神经网络模型的内存管理的应用程序,也可以是提供有神经网络模型的内存管理功能的其他应用程序,本申请对此不作限定。另外,本申请对该目标应用程序的形式不作限定,包括但不限于安装在终端100中的应用程序(Application,App)、小程序等,还可以是网页形式。
服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工掌部图像识别平台等基础云计算服务的云服务器。服务器200可以是上述目标应用程序的后台服务器,用于为目标应用程序的客户端提供后台服务。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
终端100和服务器200之间可以通过网络进行通信,如有线或无线网络。
本申请实施例提供的神经网络模型的内存管理方法,各步骤的执行主体可以是计算机设备,计算机设备是指具备数据计算、处理和存储能力的电子设备。以图2所示的方案实施环境为例,可以由终端100执行神经网络模型的内存管理方法(如终端100中安装运行的目标应用程序的客户端执行神经网络模型的内存管理方法),也可以由服务器200执行该神经网络模型的内存管理方法,或者由终端100和服务器200交互配合执行,本申请对此不作限定。
图3是本申请一个示例性实施例提供的神经网络模型的内存管理方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括以下步骤。
步骤302:获取神经网络模型对应的计算图。
计算图用以表示神经网络模型的计算过程。
可选地,计算图中包括至少两个网络层算子和至少两个网络层算子之间的边,网络层算子对应神经网络模型中的网络层,一个网络层算子对应一个网络层,边用于表示网络层之间的数据流动。
可选地,神经网络模型包括深度学习神经网络模型(Deep Neural Network,DNN)、卷积神经网络模型(Convolutional Neural Network,CNN)、极限学习机模型(ExtremeLearning Machine,ELM)或其他的神经网络模型中的至少一种,但不限于此,本申请实施例对此不作具体限定。
步骤304:基于计算图,确定待分配至网络层算子的内存大小。
内存大小用于表示网络层算子在神经网络模型运行时需要占用的内存大小。
示例性地,计算机设备基于计算图,确定待分配至网络层算子的内存大小。
可选地,内存大小包括输入张量的大小和/或输出张量的大小。
输入张量用以表示输入至网络层算子中的多维数组。
输出张量用以表示从网络层算子输出的多维数组。
步骤306:从空闲内存块列表中的空闲内存块中获取与内存大小匹配的分配内存块,将分配内存块分配给网络层算子。
空闲内存块是指已被分配但被解除占用后的内存块。
空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块。
分配内存块是指被分配给网络层算子用于存储数据的内存块。
示例性地,计算机设备通过重新利用空闲内存块列表中的空闲内存块,将空闲内存块列表中的空闲内存块进行调整,得到与内存大小匹配的分配内存块。
综上所述,本实施例提供的方法,通过获取神经网络模型对应的计算图;基于计算图,确定待分配至网络层算子的内存大小;基于内存大小,通过从空闲内存块列表中的空闲内存块中获取与内存大小匹配的分配内存块,将分配内存块分配给网络层算子。本申请通过复用空闲内存块列表中的空闲内存块,为网络层算子分配到与内存大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。
图4是本申请一个示例性实施例提供的神经网络模型的内存管理方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括以下步骤。
步骤401:获取神经网络模型对应的计算图。
计算图用以表示神经网络模型的计算过程。
可选地,计算图中包括至少两个网络层算子和至少两个网络层算子之间的边,网络层算子用于表示神经网络模型中的网络层,边用于表示网络层之间的数据流动。
示例性的,深度学习框架或者图编译设备对输入的神经网络模型进行解析并生成对应的计算图。
可选地,神经网络模型包括DNN、CNN、ELM或其他的神经网络模型中的至少一种,但不限于此,本申请实施例对此不作具体限定。
步骤402:基于计算图,确定待分配至网络层算子的内存大小。
内存大小用于表示网络层算子在神经网络模型运行时需要占用的内存大小。
示例性地,计算机设备基于计算图,确定待分配至网络层算子的内存大小。
可选地,内存大小包括输入张量的大小和/或输出张量的大小。
输入张量用以表示输入至网络层算子中的多维数组。
输出张量用以表示从网络层算子输出的多维数组。
以输入张量为例,比如,输入张量A对应的多维数组为[512,32,32],假设输入张量A的数据类型都为Float 32,即每个元素占用4Bytes,则输入张量A的大小为:512*32*32*4=2MB。
在本申请实施例中,神经网络模型中的张量(Tensor)是一个多维数组,以开放神经网络交换格式(Open Neural Network Exchange,ONNX)标准为例,张量以(秩(rank)、形状(shape)、数据类型(date type))三元组来表示。例如,张量以三元组来表示时,张量的三元组如表1所示。
表1 张量的三元组
如表1中第3行中的例子,张量=[9,10],表示一个9行10列的二维矩阵。
如表1所示,张量是一个多维数组,在张量的三元组中,秩用以表示张量的维度,形状是张量的一种表现样式,数据类型用以表示张量形状中的元素数据的类型。
以张量=[9,10]为例,该张量共有9*10=90个元素,该张量是Float 32类型,即每个元素占用4Bytes,则该张量的大小为9*10*4=360B=0.35KB。
张量一个多维数组,张量可以以数组的形式表示,也可以形状来表示,本申请实施例中以形状表示张量。
张量的形状为[],意为维度为0的标量;张量的形状为[10],意为维度为1的向量;张量的形状为[9,10],意为维度为2的矩阵,第一维有9个元素,第二维有10个元素,表示为9行10列的二维矩阵。
形状中的数字的个数用以表示张量的维度,比如,[D0,D1,D2,D3]中有4个数字,则表示该张量为4维张量。张量的形状中的数字用以表示张量在该维度的元素个数。
进一步地,通过元素的个数及单个元素占用的比特的乘积,最终得到张量的大小。
在一些实施例中,计算机设备基于计算图,还可确定网络层算子对应的排列顺序。
排列顺序用于表示网络层算子在神经网络模型运行时的执行顺序。
示例性地,计算机设备获取网络层算子的排列顺序;计算机设备在网络层算子对应的输入张量的大小大于张量大小阈值的情况下,从空闲内存块列表中获取与输入张量匹配的分配内存块,并按照排列顺序将分配内存块分配给网络层算子用于存储输入张量。
例如,如图5所示出的计算图的示意图,计算图中包括G0,G1,G2,G3,G4共5个网络层算子,以G0算子的输出T1为例,T1共2*3*4=24个元素(假设T1是Float 32类型,即T1每个元素占用4Bytes),可以知道T1需要24*4=96Bytes的存储空间,此外T1被G1和G3作为输入张量,所以T1在G3执行完之后存储周期结束,可知T1的存储周期为[G0,G3],其它输入张量的大小和生命周期获取同T1相同。按照执行顺序对网络层算子进行排序的结果为:[G0,G1,G2,G3,G4],按照该排序结果将分配内存块分配给网络层算子用于存储输入张量。比如,计算机设备按照G0-G1-G2-G3-G4的排序结果进行内存块的分配,第一,为G0算子分配96B的内存块一用以存储T0,在G0算子执行完成后,释放内存块一;第二,为G1算子分配96B的内存块二用以存储T1,由于T1的存储周期为[G0,G3],因此在G1算子执行完成后,不释放内存块二;第三,为G2算子分配96B的内存块三用以存储T2,在G2算子执行完成后,释放内存块三;第四,G3算子开始执行,在G3算子执行完成后,释放内存块二;第五,为G4算子分配96B的内存块四用以存储T3,在G4算子执行完成后,释放内存块五。
步骤403:判断输入张量的大小是否小于张量大小阈值。
张量大小阈值是指能够进行内存复用的最小的内存块的大小。
可选地,张量大小阈值可采用自定义值、默认值中的至少一种,但不限于此,本申请实施例对此不作具体限定。
示例性地,在输入张量的大小小于张量大小阈值的情况下,执行步骤409;在输入张量的大小大于或等于张量大小阈值的情况下,执行步骤404。
步骤404:判断空闲内存块列表中是否有空闲内存块。
示例性地,在空闲内存块列表中包括空闲内存块的情况下,执行步骤405;在空闲内存块列表中没有空闲内存块的情况下,执行步骤408。
步骤405:判断空闲内存块的大小是否小于输入张量的大小。
示例性地,在空闲内存块的大小小于输入张量的大小的情况下,执行步骤407;在空闲内存块的大小大于或等于输入张量的大小的情况下,执行步骤406。
步骤406:从空闲内存块列表中获取与输入张量的大小匹配的分配内存块。
在一些实施例中,在输入张量的大小大于张量大小阈值,且空闲内存块列表中的空闲内存块的大小大于或等于输入张量的大小的情况下,从空闲内存块列表中获取与输入张量的大小匹配的分配内存块。
示例性地,在输入张量的大小大于张量大小阈值,且空闲内存块列表中包括第一空闲内存块的情况下,直接将第一空闲内存块作为分配内存块;其中,第一空闲内存块的大小与输入张量的大小相同。
或,在输入张量的大小大于张量大小阈值,且空闲内存块列表中包括第二空闲内存块的情况下,从第二空闲内存块中分割出与输入张量的大小匹配的第三内存块,将第三内存块作为分配内存块;第二空闲内存块的大小大于输入张量的大小。
例如,如图6所示出的分配内存块的确定方法的示意图,如图6中的(a)图所示,输入张量601为2MB,空闲内存块列表602中有一个10MB的空闲内存块,空闲内存块是指已分配但被释放了的内存块,则,计算机设备将10MB的空闲内存块分割成2MB和8MB的两个内存块,并将2MB大小的内存块作为分配内存块分配给对应的网络层算子用于存储输入张量601,即,如图6中的(b)图所示,将2MB大小的内存块放于已分配内存块列表603中,并将8MB的内存块放回空闲内存块列表602。图中具有阴影效果的内存块为空闲内存块。
步骤407:从空闲内存块列表和未分配内存中获取与输入张量的大小匹配的分配内存块。
未分配内存是指存储空间中未被分配占用过的内存。
在一些实施例中,在输入张量的大小大于张量大小阈值,且空闲内存块列表中的空闲内存块的大小小于输入张量的大小的情况下,从空闲内存块列表和未分配内存中获取与输入张量的大小匹配的分配内存块。
示例性地,在输入张量的大小大于张量大小阈值,且空闲内存块列表中包括第四空闲内存块的情况下,将第四空闲内存块与合并内存块进行合并,得到分配内存块。
第四空闲内存块的大小小于输入张量的大小。
合并内存块是从未分配内存中划分得到的内存块。
合并内存块的大小为输入张量的大小与第四空闲内存块的大小的差值。
在一些实施例中,在输入张量的大小大于张量大小阈值,且空闲内存块列表中包括处于末尾的第四空闲内存块的情况下,将第四空闲内存块与合并内存块进行合并,得到分配内存块。
例如,如图7所示出的分配内存块的确定方法的示意图,如图7中的(a)图所示,输入张量701为10MB,空闲内存块列表702中有一个2MB的空闲内存块和一个4MB的空闲内存块,计算机设备将4MB的空闲内存块从空闲内存块列表702中取出,并从未分配内存中划分得到一个6MB的合并内存块,计算机设备将来自空闲内存块列表702中的4MB的空闲内存块和来自未分配内存中的6MB的合并内存块进行合并后得到的内存块作为分配内存块分配给对应的网络层算子用于存储输入张量701,即,如图7中的(b)图所示,将4MB大小的内存块和6MB的合并内存块进行合并后得到的10MB的分配内存块放入已分配内存块列表703中。图中具有阴影效果的内存块为空闲内存块。
步骤408:从未分配内存中划分出与输入张量的大小匹配的内存块作为分配内存块。
未分配内存包括一级未分配内存和二级未分配内存,一级未分配内存的分配优先级高于二级未分配内存的分配优先级。
在一些实施例中,在输入张量的大小大于张量大小阈值,且空闲内存块列表中没有空闲内存块的情况下,从未分配内存中划分出与输入张量的大小匹配的内存块作为分配内存块。
例如,如图8所示出的未分配内存的示意图,神经网络模型运行在处理器上,处理器分布在不同的计算机群组,比如,计算机群组一801和计算机群组二802,处理器为了加速访存,通常会采用多级存储的架构,距离处理器近的存储层级拥有更大的数据传输带宽,但硬件成本更高,所以存储空间较为有限,本申请实施例中称为一级未分配内存803或L2存储空间,距离处理器远的存储层级数据传输带宽相小,但是硬件成本低,存储空间较大,本申请实施例中称为二级未分配内存804或L3存储空间。
需要说明的是,一级未分配内存和二级未分配内存各自拥有了一个已分配内存块列表和空闲内存块列表,初始状态下这两个列表中的内存块均为空。
可选地,空闲内存块列表中的内存块从小到大依次进行排序,最大的内存块会排列在末尾。计算机设备获取空闲内存块列表中的最大内存块,在最大内存块位于末尾的情况下,则说明空闲内存块列表中有内存块;在最大内存块没有位于末尾的情况下,则说明空闲内存块列表中没有内存块。
示例性地,在输入张量的大小大于张量大小阈值,且空闲内存块列表中没有空闲内存块的情况下,从一级未分配内存或二级未分配内存中划分与输入张量的大小匹配的内存块作为分配内存块。
在一些实施例中,在输入张量的大小大于张量大小阈值,空闲内存块列表中没有空闲内存块,且一级未分配内存中的剩余内存大于或等于输入张量的大小的情况下,从一级未分配内存中划分与输入张量的大小匹配的内存块作为分配内存块。
在一些实施例中,在输入张量的大小大于张量大小阈值,空闲内存块列表中没有空闲内存块,且一级未分配内存中的剩余内存小于输入张量的大小的情况下,从二级未分配内存中划分与输入张量的大小匹配的内存块作为分配内存块。
步骤409:从未分配内存中获取与输入张量的大小匹配的分配内存块。
在一些实施例中,在网络层算子对应的输入张量的大小小于或等于张量大小阈值的情况下,从未分配内存中获取与输入张量的大小匹配的分配内存块。
示例性地,在网络层算子对应的输入张量的大小小于或等于张量大小阈值的情况下,不进行内存块的复用,直接从未分配内存中获取与输入张量的大小匹配的分配内存块。如果一级未分配内存能够划分出与输入张量的大小匹配的内存块,则优先从一级未分配内存上分配,反之,则从二级未分配内存上分配。
其中,张量大小阈值的设定用于减少较小的输入张量对应的内存块的产生。
在一些实施例中,基于计算图,确定网络层算子的输入张量和输出张量对应的存储周期;计算机设备响应于已分配内存块列表中的内存块的存储时间达到存储周期,释放内存块,并将内存块放入空闲内存块列表。
已分配内存块列表用于存放已被占用的内存块。
存储周期用于表示张量在内存块中占用的时间,即,在当前网络层算子执行完后,且不会被其他网络层算子调用后,该张量结束存储周期。
示例性地,计算机设备响应于已分配内存块列表中的内存块的存储时间达到存储周期,释放内存块;在当前释放内存块的相邻位置存在已释放内存块的情况下,将当前释放内存块与已释放内存块进行合并,得到合并释放内存块;将合并释放内存块放入空闲内存块列表。
合并释放内存块是指当前释放内存块和已释放内存块进行合并得到的内存块。
例如,如图9所示出的释放内存块的示意图,如图9中的(a)图所示,一级/二级空闲内存块列表901中包括两个空闲内存块,分别为2M和6M,图中单阴影线的内存块为已释放内存块(包括2M已释放内存块的和6M已释放内存块),图中双阴影线的内存块为当前释放内存块(包括2M当前释放内存块)。如图9中的(b)图所示,在2M当前释放内存块的相邻位置存在2M已释放内存块的和6M已释放内存块的情况下,在一级/二级已分配内存块列表902中将2M当前释放内存块与2M、6M已释放内存块进行合并,得到10M合并释放内存块;将10M合并释放内存块放入空闲内存块列表,在一级/二级已分配内存块列表902中仅剩下两个空闲内存块,分别为2M和4M。
在一些实施例中,网络层算子包括数据处理层算子。
数据处理层算子用于调整神经网络模型中的数据格式。数据处理层算子对应的网络层称为数据变换层。
数据处理层算子包括形状重塑Reshape算子、拼接Concat算子及分裂Split算子中的至少一种,但不限于此,本申请实施例对此不作具体限定。
形状重塑算子用于对输入张量的形状进行重塑,以将输入张量的形状重塑为目标形状,但是在重塑数据的过程中,不改变数据包含的元素个数和元素在数据中的排布情况。例如,输入形状重塑算子的输入张量以矩阵的形式表示,如图10所示出的形状重塑算子进行重塑的示意图,输入形状重塑算子的矩阵的尺寸为[2,3,4],即输入形状重塑算子的矩阵为2×3×4的张量,形状重塑算子输出的矩阵的尺寸为[6,4],也即是形状重塑算子用于将尺寸为[2,3,4]的矩阵变换为尺寸为[6,4]的矩阵。
拼接算子用于将至少两个输入张量进行拼接。例如,输入拼接算子的输入张量以矩阵的形式表示,如图11所示出的拼接算子进行拼接的示意图,输入拼接算子的矩阵的尺寸为:张量A=[1,3,2],张量B=[2,3,2],拼接算子输出的矩阵的尺寸为:张量C=[3,3,2],也即是拼接算子用于将尺寸为[1,3,2]、[2,3,2]的两个张量拼接为[3,3,2]的矩阵。
分裂算子用于将输入张量按照分裂维度进行分裂,分裂为至少两个子输入张量,该分裂算子可以理解为拼接算子的一个逆过程。分裂维度为最高维度或者首个元素个数不为1的维度,则分裂算子的输出张量复用输入张量占用的内存块。比如,以张量A=[1,128,32,32]为例,其最高维度为维度0,即元素个数为1的维度;首个元素个数不为1的维度指的是维度1,即元素个数为128的维度。例如,输入分裂算子的输入张量以矩阵的形式表示,如图12所示出的分裂算子进行分裂的示意图,输入分裂算子的矩阵的尺寸为:张量C=[3,3,2],分裂算子输出的矩阵的尺寸为:张量A=[1,3,2],张量B=[2,3,2],也即是分裂算子用于将尺寸为[3,3,2]的张量分裂为[1,3,2]、[2,3,2]的矩阵。
示例性地,计算机设备获取数据处理层算子对应的输入张量和输出张量;示例性地,计算机设备基于输入张量占用的分配内存块,使输出张量复用输入张量占用的分配内存块。
可选地,数据处理层算子包括形状重塑算子,输出张量包括形状重塑张量。计算机设备基于输入张量占用的分配内存块,将输入张量占用的分配内存块分配给形状重塑张量。
形状重塑算子用于调整输入张量的形状,但不会改变输入张量中的数据,形状重塑张量是指形状重塑算子输出的张量。
形状重塑算子是对输入张量的形状进行重塑,并不会改变输入张量在内存块中的数据,所以形状重塑算子在神经网络模型运行时是将输入张量的内存数据拷贝到输出张量所在的内存(也即是下一层网络层的输入张量所在的内存)。在本申请实施例中,计算机设备可以通过使形状重塑算子的输出张量复用形状重塑算子的输入张量占用的内存块,来消除神经网络模型运行时形状重塑算子对应的数据拷贝操作。例如,张量A=[1,1,512,32,32]经过形状重塑算子,将张量A中的维度3和维度4合并,输出张量B=[1,512,1024](假设张量A、张量B数据类型都为Float 32),如果计算机设备为形状重塑算子的输入张量 A分配了512*32*32*4=2MB的内存块A,那么计算机设备为形状重塑算子的输出张量B分配内存是将内存块A分配给张量B,神经网络模型运行时该场景的形状重塑算子就无需做任何数据搬运操作,进而节省了处理器的资源。
可选地,数据处理层算子包括拼接算子。计算机设备确定输出张量占用的分配内存块;计算机设备基于输出张量占用的分配内存块,使至少两个输入张量偏移复用输出张量占用的分配内存块。
拼接算子是对2个或者以上的输入张量按照拼接维度进行拼接。
拼接维度为最高维度或者首个元素个数不为1的维度。在本申请实施例中,如果拼接算子指定的拼接维度为最高维度或者首个元素个数不为1的维度,则拼接算子的输出张量和输入张量可复用同一内存块。计算机设备可以通过使拼接算子的多个输入张量按偏移复用拼接算子的输出张量占用的内存块,来消除神经网络模型运行时拼接算子对应的数据拷贝操作。例如,如图13所示出的拼接算子进行拼接的示意图,张量A=[512,32,32],张量B=[256,32,32],假设经过拼接维度为0的拼接算子,将张量A和张量B拼接为张量C=[768,32,32](假设张量A、张量B和张量C的数据类型都为Float 32),如果计算机设备为拼接算子的输入张量A分配了768*32*32*4=3MB的内存块C,那么将内存块C根据输入张量A和张量B的大小划分为大小分别为2MB和1MB的两个子内存块A和子内存块B,并将子内存块A和子内存块B分别用于存储张量A和张量B,那么神经网络模型运行时,拼接算子就无需做任何数据搬运操作,进而节省了处理器的资源。
可选地,数据处理层算子包括分裂算子,输出张量包括至少两个子输出张量。计算机设备将输入张量占用的分配内存块进行分割,得到至少两个子输入张量各自对应的子内存块;计算机设备将子内存块分配给至少两个子输出张量。
分裂算子用于将输入张量分裂为至少两个子输入张量,子输出张量是指数据处理层算子输出的张量。
分裂算子可以理解为拼接算子的逆运算,分裂算子是将输入张量按照分裂维度进行分裂,生成多个输出张量。如果分裂算子指定的分裂维度为最高维度或者首个元素个数不为1的维度,则分裂算子的输出张量复用输入张量占用的内存块。在本申请实施例中,计算机设备可以通过使分裂算子的多个张量按偏移复用分裂算子的输出张量占用的内存块来消除神经网络模型运行时,分裂算子对应的数据拷贝填充操作。例如,如图14所示出的分裂算子进行分裂的示意图,张量C=[768,32,32],假设张量C经过分裂维度为0的分裂算子,维度0由768分裂为512和256,对应输出张量A=[512,32,32],张量B=[256,32,32](假设张量A、张量B和张量C的数据类型都为Float 32),如果计算机设备为分裂算子的输入张量A分配了768*32*32*4=3MB的内存块C,那么将内存块C根据输入张量A、张量B的大小划分为大小分别为2MB和1MB的两个子内存块A和子内存块B,并将子内存块A和子内存块B分别分配给张量A和张量B,那么神经网络模型运行时,该场景的分裂算子就无需做任何数据搬运操作,进而节省了处理器的资源。
综上所述,本实施例提供的方法,通过获取神经网络模型对应的计算图;基于计算图,确定待分配至网络层算子的内存大小;基于内存大小,通过从空闲内存块列表中的空闲内存块中获取与内存大小匹配的分配内存块,将分配内存块分配给网络层算子。本申请通过复用空闲内存块列表中的空闲内存块,为网络层算子分配到与内存大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。
本实施例提供的方法,通过判断输入张量的大小与张量大小阈值之间的大小,从而确定不同的获取方式;基于不同的获取方式从空闲内存块列表中获取与输入张量的大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。
本实施例提供的方法,通过从空闲内存块列表和未分配内存中组合获取与输入张量的大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。
本实施例提供的方法,在输入张量的大小小于或等于张量大小阈值的情况下,直接从未分配内存中获取与输入张量的大小匹配的分配内存块,避免了小的内存块的产生,提高了内存的利用率。
本实施例提供的方法,在释放内存块时,将当前释放内存块与已释放内存块进行合并,得到大的合并释放内存块,并将合并释放内存块放入空闲内存块列表。通过上述方法将零散的空闲内存块进行合并,从而使得空闲内存块列表中的空闲内存块可以应用于多种分配场景,提高了内存块的分配效率。
本实施例提供的方法,针对神经网络模型中的数据处理层算子,使数据处理层算子的输入和输出复用同一个内存块,减少了神经网络模型运行时的数据搬运开销,提高了内存的利用率。
图15是本申请一个示例性实施例提供的神经网络模型的内存管理方法的流程图。该方法可以由计算机设备执行,计算机设备可以是终端或服务器。该方法包括以下步骤。
步骤1501:获取待分配至当前网络层算子的输入张量的大小。
输入张量用以表示输入至网络层算子中的多维数组。
以ONNX标准为例,张量以(秩(rank)、形状(shape)、节点类型(date type))三元组来表示。
输入张量的大小用于表示网络层算子的输入数据在神经网络模型运行时需要占用的内存大小。
示例性地,计算机设备基于计算图,确定待分配至网络层算子的输入张量的大小。
步骤1502:判断输入张量的大小是否小于张量大小阈值。
张量大小阈值是指能够进行内存复用的最小的内存块的大小。
计算机设备判断输入张量的大小是否小于张量大小阈值,在输入张量的大小小于张量大小阈值的情况下,执行步骤1508;在输入张量的大小大于或等于张量大小阈值的情况下,执行步骤1503。
步骤1503:获取空闲内存块列表中最大的空闲内存块。
空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块。
示例性地,在输入张量的大小大于或等于张量大小阈值的情况下,计算机设备获取空闲内存块列表中最大的空闲内存块。
步骤1504:判断最大的空闲内存块是否大于或等于输入张量的大小。
示例性地,在获取空闲内存块列表中最大的空闲内存块后,计算机设备判断最大的空闲内存块是否大于或等于输入张量的大小,在最大的空闲内存块大于或等于输入张量的大小的情况下,执行步骤1505;在最大的空闲内存块小于输入张量的大小的情况下,执行步骤1506。
步骤1505:将最大的空闲内存块分割成两个内存块,一个与输入张量的大小匹配,分配至网络层算子,另一个放回至空闲内存块列表。
示例性地,在最大的空闲内存块大于或等于输入张量的大小的情况下,计算机设备将最大的空闲内存块分割成两个内存块,一个与输入张量的大小进行匹配,得到与输入张量的大小匹配的分配内存块,并将分配内存块分配至网络层算子;另一个放回至空闲内存块列表,以备下次使用。
步骤1506:判断最大的空闲内存块是否处于末尾。
空闲内存块列表中的空闲内存块由小到大依次排列。
示例性地,在最大的空闲内存块小于输入张量的大小的情况下,判断最大的空闲内存块是否处于末尾,即判断空闲内存块列表中是否具有空闲内存块;在最大的空闲内存块处于末尾的情况下,执行步骤1507;在最大的空闲内存块未处于末尾的情况下,执行步骤1508。
步骤1507:取出最大的空闲内存块,并从未分配内存中划分得到合并内存块,将最大的空闲内存块和合并内存块合并后,分配至网络层算子。
示例性地,在最大的空闲内存块处于末尾的情况下,取出最大的空闲内存块,并从未分配内存中划分得到合并内存块,将最大的空闲内存块和合并内存块合并后,分配至网络层算子。
步骤1508:判断一级未分配内存中的剩余内存是否大于/等于输入张量的大小。
示例性地,在最大的空闲内存块未处于末尾的情况下,进一步判断一级未分配内存中的剩余内存是否大于/等于输入张量的大小,在一级未分配内存中的剩余内存大于/等于输入张量的大小的情况下,执行步骤1509;在一级未分配内存中的剩余内存小于输入张量的大小的情况下,执行步骤1510。
步骤1509:从一级未分配内存中划分与输入张量的大小匹配的内存块作为分配内存块,分配至网络层算子。
示例性地,在一级未分配内存中的剩余内存大于/等于输入张量的大小的情况下,直接从一级未分配内存中划分与输入张量的大小匹配的内存块作为分配内存块,并分配至网络层算子。
步骤1510:从二级未分配内存中划分与输入张量的大小匹配的内存块作为分配内存块,分配至网络层算子。
示例性地,在一级未分配内存中的剩余内存小于输入张量的大小的情况下,从二级未分配内存中划分与输入张量的大小匹配的内存块作为分配内存块,分配至网络层算子。
综上所述,本实施例提供的方法,通过获取神经网络模型对应的计算图;基于计算图,确定待分配至网络层算子的内存大小;基于内存大小,通过从空闲内存块列表中的空闲内存块中获取与内存大小匹配的分配内存块,将分配内存块分配给网络层算子。本申请通过复用空闲内存块列表中的空闲内存块,为网络层算子分配到与内存大小匹配的分配内存块,从而减少神经网络模型在运行过程中分配的内存,提高了内存的利用率。
图16示出了本申请一个示例性实施例提供的神经网络模型的内存管理装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分,该装置包括以下模块。
获取模块1601,用于获取神经网络模型对应的计算图,所述计算图中包括至少两个网络层算子,所述网络层算子用于表示所述神经网络模型中的网络层。
确定模块1602,用于基于所述计算图,确定待分配至所述网络层算子的内存大小,所述内存大小用于表示所述网络层算子在所述神经网络模型运行时需要占用的内存大小。
分配模块1603,用于从空闲内存块列表中的空闲内存块中获取与所述内存大小匹配的分配内存块,将所述分配内存块分配给所述网络层算子。
其中,所述空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块,所述分配内存块是指被分配给所述网络层算子用于存储数据的内存块。
在一些实施例中,获取模块1601,用于获取所述网络层算子的排列顺序,所述排列顺序用于表示所述网络层算子在所述神经网络模型运行时的执行顺序。
在一些实施例中,分配模块1603,用于在所述网络层算子对应的所述输入张量的大小大于张量大小阈值的情况下,从所述空闲内存块列表中获取与所述输入张量的大小匹配的所述分配内存块。
在一些实施例中,分配模块1603,用于按照所述排列顺序将所述分配内存块分配给所述网络层算子用于存储所述输入张量。
其中,所述输入张量是指输入至所述网络层算子中的多维数组。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中的所述空闲内存块的大小大于或等于所述输入张量的大小的情况下,从所述空闲内存块列表中获取与所述输入张量的大小匹配的所述分配内存块。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中包括第一空闲内存块的情况下,将所述第一空闲内存块作为所述分配内存块。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中包括第二空闲内存块的情况下,从所述第二空闲内存块中分割出与所述输入张量的大小匹配的第三内存块,将所述第三内存块作为所述分配内存块。
其中,所述第一空闲内存块的大小与所述输入张量的大小相同,所述第二空闲内存块的大小大于所述输入张量的大小。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中的所述空闲内存块的大小小于所述输入张量的大小的情况下,从所述空闲内存块列表和未分配内存中获取与所述输入张量的大小匹配的所述分配内存块。
其中,所述未分配内存是指存储空间中未被分配占用过的内存。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中包括第四空闲内存块的情况下,将所述第四空闲内存块与合并内存块进行合并,得到所述分配内存块。
其中,所述第四空闲内存块的大小小于所述输入张量的大小,所述合并内存块是从所述未分配内存中划分得到的内存块,所述合并内存块的大小为所述输入张量的大小与所述第四空闲内存块的大小的差值。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中没有空闲内存块的情况下,从所述未分配内存中划分出与所述输入张量的大小匹配的内存块作为所述分配内存块。
所述未分配内存包括一级未分配内存和二级未分配内存,所述一级未分配内存的分配优先级高于所述二级未分配内存的分配优先级。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中没有空闲内存块的情况下,从所述一级未分配内存或所述二级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,所述空闲内存块列表中没有空闲内存块,且所述一级未分配内存中的剩余内存大于或等于所述输入张量的大小的情况下,从所述一级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块。
在一些实施例中,分配模块1603,用于在所述输入张量的大小大于所述张量大小阈值,所述空闲内存块列表中没有空闲内存块,且所述一级未分配内存中的剩余内存小于所述输入张量的大小的情况下,从所述二级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块。
在一些实施例中,分配模块1603,用于在所述网络层算子对应的所述输入张量的大小小于或等于张量大小阈值的情况下,从所述未分配内存中获取与所述输入张量的大小匹配的所述分配内存块。
在一些实施例中,确定模块1602,用于基于所述计算图,确定所述网络层算子的输入张量和输出张量对应的存储周期,所述存储周期用于表示所述网络层算子占用内存块的时间。
在一些实施例中,所述装置还包括释放模块1604,释放模块1604用于响应于已分配内存块列表中的内存块的存储时间达到所述存储周期,释放所述内存块,并将所述内存块放入所述空闲内存块列表。
其中,所述已分配内存块列表用于存放已被占用的内存块。
在一些实施例中,释放模块1604,用于响应于所述已分配内存块列表中的内存块的存储时间达到所述存储周期,释放所述内存块。
在一些实施例中,所述装置还包括合并模块1605,合并模块1605,用于在当前释放内存块的相邻位置存在已释放内存块的情况下,将所述当前释放内存块与所述已释放内存块进行合并,得到合并释放内存块。
在一些实施例中,合并模块1605,用于将所述合并释放内存块放入所述空闲内存块列表。
在一些实施例中,获取模块1601,用于获取所述数据处理层算子对应的输入张量和输出张量。
在一些实施例中,所述装置还包括复用模块1606,复用模块1606,用于基于所述输入张量占用的所述分配内存块,使所述输出张量复用所述输入张量占用的所述分配内存块。
在一些实施例中,复用模块1606,用于基于所述输入张量占用的所述分配内存块,将所述输入张量占用的所述分配内存块分配给所述形状重塑张量。
其中,所述形状重塑算子用于调整所述输入张量的形状,但不会改变所述输入张量中的数据,所述形状重塑张量是指所述形状重塑算子输出的张量。
在一些实施例中,复用模块1606,用于将所述输入张量占用的所述分配内存块进行分割,得到所述至少两个子输入张量各自对应的子内存块;将子内存块分配给所述至少两个子输出张量。
其中,所述分裂算子用于将所述输入张量分裂为至少两个子输入张量,所述子输出张量是指所述数据处理层算子输出的张量。
在一些实施例中,复用模块1606,用于确定所述输出张量占用的所述分配内存块;基于所述输出张量占用的所述分配内存块,使至少两个所述输入张量偏移复用所述输出张量占用的所述分配内存块。
其中,所述拼接算子用于将至少两个所述输入张量进行拼接。
图17示出了本申请一示例性实施例示出的计算机设备1700的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1700包括中央处理单元(Central Processing Unit,CPU)1701、包括随机存取存储器(Random Access Memory,RAM)1702和只读存储器(Read-Only Memory,ROM)1703的系统存储器1704,以及连接系统存储器1704和中央处理单元1701的系统总线1705。所述计算机设备1700还包括用于存储操作系统1709、应用程序1710和其他程序模块1711的大容量存储设备1706。
所述大容量存储设备1706通过连接到系统总线1705的大容量存储控制器(未示出)连接到中央处理单元1701。所述大容量存储设备1706及其相关联的计算机可读介质为计算机设备1700提供非易失性存储。也就是说,所述大容量存储设备1706可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1704和大容量存储设备1706可以统称为存储器。
可选地,存储器包括一级未分配内存(未示出)和二级未分配内存(未示出),中央处理单元1701为了加速访存,通常会采用多级存储的架构,一级未分配内存距离处理器近的存储层级拥有更大的数据传输带宽,但硬件成本更高,所以存储空间较为有限;二级未分配内存距离处理器远的存储层级数据传输带宽相小,但是硬件成本低,存储空间较大。
根据本公开的各种实施例,所述计算机设备1700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1700可以通过连接在所述系统总线1705上的网络接口单元1707连接到网络1708,或者说,也可以使用网络接口单元1707来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一段计算机程序,所述至少一段计算机程序存储于存储器中,中央处理器1701通过执行该至少一段程序来实现上述各个实施例所示的神经网络模型的内存管理方法中的全部或部分步骤。
本申请实施例还提供一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序,该至少一条程序由处理器加载并执行以实现上述各方法实施例提供的神经网络模型的内存管理方法。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述各方法实施例提供的神经网络模型的内存管理方法。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行,使得所述计算机设备执行以实现上述各方法实施例提供的神经网络模型的内存管理方法。
可以理解的是,在本申请的具体实施方式中,涉及到的数据,历史数据,以及画像等与用户身份或特性相关的用户数据处理等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种神经网络模型的内存管理方法,其特征在于,所述方法包括:
获取神经网络模型对应的计算图,所述计算图中包括至少两个网络层算子,所述网络层算子用于表示所述神经网络模型中的网络层;
基于所述计算图,确定待分配至所述网络层算子的内存大小,所述内存大小用于表示所述网络层算子在所述神经网络模型运行时需要占用的内存大小;
从空闲内存块列表中的空闲内存块中获取与所述内存大小匹配的分配内存块,将所述分配内存块分配给所述网络层算子;
其中,所述空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块,所述分配内存块是指被分配给所述网络层算子用于存储数据的内存块。
2.根据权利要求1所述的方法,其特征在于,所述内存大小包括所述网络层算子对应的输入张量的大小;
所述从空闲内存块列表中的空闲内存块中获取与所述内存大小匹配的分配内存块,将所述分配内存块分配给所述网络层算子,包括:
获取所述网络层算子的排列顺序,所述排列顺序用于表示所述网络层算子在所述神经网络模型运行时的执行顺序;
在所述网络层算子对应的所述输入张量的大小大于张量大小阈值的情况下,从所述空闲内存块列表中获取与所述输入张量的大小匹配的所述分配内存块;
按照所述排列顺序将所述分配内存块分配给所述网络层算子用于存储所述输入张量;
其中,所述输入张量是指输入至所述网络层算子中的多维数组。
3.根据权利要求2所述的方法,其特征在于,所述在所述网络层算子对应的所述输入张量的大小大于张量大小阈值的情况下,从所述空闲内存块列表中获取与所述输入张量的大小匹配的所述分配内存块,包括:
在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中的空闲内存块的大小大于或等于所述输入张量的大小的情况下,从所述空闲内存块列表中获取与所述输入张量的大小匹配的所述分配内存块。
4.根据权利要求3所述的方法,其特征在于,所述在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中的空闲内存块的大小大于或等于所述输入张量的大小的情况下,从所述空闲内存块列表中获取与所述输入张量的大小匹配的所述分配内存块,包括:
在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中包括第一空闲内存块的情况下,将所述第一空闲内存块作为所述分配内存块;
或,在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中包括第二空闲内存块的情况下,从所述第二空闲内存块中分割出与所述输入张量的大小匹配的第三内存块,将所述第三内存块作为所述分配内存块;
其中,所述第一空闲内存块的大小与所述输入张量的大小相同,所述第二空闲内存块的大小大于所述输入张量的大小。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中的所述空闲内存块的大小小于所述输入张量的大小的情况下,从所述空闲内存块列表和未分配内存中获取与所述输入张量的大小匹配的所述分配内存块;
其中,所述未分配内存是指存储空间中未被分配占用过的内存。
6.根据权利要求5所述的方法,其特征在于,所述在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中的所述空闲内存块的大小小于所述输入张量的大小的情况下,从所述空闲内存块列表和未分配内存中获取与所述输入张量的大小匹配的所述分配内存块,包括:
在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中包括第四空闲内存块的情况下,将所述第四空闲内存块与合并内存块进行合并,得到所述分配内存块;
其中,所述第四空闲内存块的大小小于所述输入张量的大小,所述合并内存块是从所述未分配内存中划分得到的内存块,所述合并内存块的大小为所述输入张量的大小与所述第四空闲内存块的大小的差值。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中没有空闲内存块的情况下,从未分配内存中划分出与所述输入张量的大小匹配的内存块作为所述分配内存块。
8.根据权利要求7所述的方法,其特征在于,所述未分配内存包括一级未分配内存和二级未分配内存,所述一级未分配内存的分配优先级高于所述二级未分配内存的分配优先级;
所述在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中没有空闲内存块的情况下,从所述未分配内存中划分出与所述输入张量的大小匹配的内存块作为所述分配内存块,包括:
在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中没有空闲内存块的情况下,从所述一级未分配内存或所述二级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块。
9.根据权利要求8所述的方法,其特征在于,所述在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中没有空闲内存块的情况下,从所述一级未分配内存或所述二级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块,包括:
在所述输入张量的大小大于所述张量大小阈值,所述空闲内存块列表中没有空闲内存块,且所述一级未分配内存中的剩余内存大于或等于所述输入张量的大小的情况下,从所述一级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块。
10.根据权利要求8所述的方法,其特征在于,所述在所述输入张量的大小大于所述张量大小阈值,且所述空闲内存块列表中没有空闲内存块的情况下,从所述一级未分配内存或所述二级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块,包括:
在所述输入张量的大小大于所述张量大小阈值,所述空闲内存块列表中没有空闲内存块,且所述一级未分配内存中的剩余内存小于所述输入张量的大小的情况下,从所述二级未分配内存中划分与所述输入张量的大小匹配的内存块作为所述分配内存块。
11.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述网络层算子对应的所述输入张量的大小小于或等于张量大小阈值的情况下,从未分配内存中获取与所述输入张量的大小匹配的所述分配内存块。
12.根据权利要求1至11任一所述的方法,其特征在于,所述方法还包括:
基于所述计算图,确定所述网络层算子的输入张量和输出张量对应的存储周期,所述存储周期用于表示所述网络层算子占用内存块的时间;
响应于已分配内存块列表中的内存块的存储时间达到所述存储周期,释放所述内存块,并将所述内存块放入所述空闲内存块列表;
其中,所述已分配内存块列表用于存放已被占用的内存块。
13.根据权利要求12所述的方法,其特征在于,所述响应于已分配内存块列表中的内存块的存储时间达到所述存储周期,释放所述内存块,并将所述内存块放入所述空闲内存块列表,包括:
响应于所述已分配内存块列表中的内存块的存储时间达到所述存储周期,释放所述内存块;
在当前释放内存块的相邻位置存在已释放内存块的情况下,将所述当前释放内存块与所述已释放内存块进行合并,得到合并释放内存块;
将所述合并释放内存块放入所述空闲内存块列表。
14.根据权利要求1至11任一所述的方法,其特征在于,所述网络层算子包括数据处理层算子,所述数据处理层算子用于调整所述神经网络模型中的数据格式;所述方法还包括:
获取所述数据处理层算子对应的输入张量和输出张量;
基于所述输入张量占用的所述分配内存块,使所述输出张量复用所述输入张量占用的所述分配内存块。
15.根据权利要求14所述的方法,其特征在于,所述数据处理层算子包括形状重塑算子,所述输出张量包括形状重塑张量;
所述基于所述输入张量占用的所述分配内存块,使所述输出张量复用所述输入张量占用的所述分配内存块,包括:
基于所述输入张量占用的所述分配内存块,将所述输入张量占用的所述分配内存块分配给所述形状重塑张量;
其中,所述形状重塑算子用于调整所述输入张量的形状,但不会改变所述输入张量中的数据,所述形状重塑张量是指所述形状重塑算子输出的张量。
16.根据权利要求14所述的方法,其特征在于,所述数据处理层算子包括分裂算子,所述输出张量包括至少两个子输出张量;
所述基于所述输入张量占用的所述分配内存块,使所述输出张量复用所述输入张量占用的所述分配内存块,包括:
将所述输入张量占用的所述分配内存块进行分割,得到所述至少两个子输入张量各自对应的子内存块;
将所述子内存块分配给所述至少两个子输出张量;
其中,所述分裂算子用于将所述输入张量分裂为至少两个子输入张量,所述子输出张量是指所述数据处理层算子输出的张量。
17.根据权利要求14所述的方法,其特征在于,所述数据处理层算子包括拼接算子;所述方法还包括:
确定所述输出张量占用的所述分配内存块;
基于所述输出张量占用的所述分配内存块,使至少两个所述输入张量偏移复用所述输出张量占用的所述分配内存块;
其中,所述拼接算子用于将至少两个所述输入张量进行拼接。
18.一种神经网络模型的内存管理装置,其特征在于,所述装置包括:
获取模块,用于获取神经网络模型对应的计算图,所述计算图中包括至少两个网络层算子,所述网络层算子用于表示所述神经网络模型中的网络层;
确定模块,用于基于所述计算图,确定待分配至所述网络层算子的内存大小,所述内存大小用于表示所述网络层算子在所述神经网络模型运行时需要占用的内存大小;
分配模块,用于从空闲内存块列表中的空闲内存块中获取与所述内存大小匹配的分配内存块,将所述分配内存块分配给所述网络层算子;
其中,所述空闲内存块列表用于存放已被分配但被解除占用后的空闲内存块,所述分配内存块是指被分配给所述网络层算子用于存储数据的内存块。
19.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条计算机程序,至少一条所述计算机程序由所述处理器加载并执行以实现如权利要求1至17中任一项所述的神经网络模型的内存管理方法。
20.一种计算机存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如权利要求1至17中任一项所述的神经网络模型的内存管理方法。
CN202311165933.1A 2023-09-11 2023-09-11 神经网络模型的内存管理方法、装置、设备、介质及产品 Active CN116893904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311165933.1A CN116893904B (zh) 2023-09-11 2023-09-11 神经网络模型的内存管理方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311165933.1A CN116893904B (zh) 2023-09-11 2023-09-11 神经网络模型的内存管理方法、装置、设备、介质及产品

Publications (2)

Publication Number Publication Date
CN116893904A true CN116893904A (zh) 2023-10-17
CN116893904B CN116893904B (zh) 2023-12-26

Family

ID=88309762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311165933.1A Active CN116893904B (zh) 2023-09-11 2023-09-11 神经网络模型的内存管理方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN116893904B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785759A (zh) * 2024-02-28 2024-03-29 北京壁仞科技开发有限公司 数据存储方法、数据读取方法、电子设备和存储介质
CN117892769A (zh) * 2024-03-15 2024-04-16 之江实验室 神经网络训练方法、显存调度方法、系统、设备和产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140325177A1 (en) * 2013-04-24 2014-10-30 International Business Machines Corporation Heap management using dynamic memory allocation
CN110597616A (zh) * 2018-06-13 2019-12-20 华为技术有限公司 一种神经网络的内存分配方法及装置
CN114298294A (zh) * 2021-12-28 2022-04-08 杭州雄迈集成电路技术股份有限公司 一种基于硬件加速器的神经网络内存优化方法和装置
CN114327844A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 内存分配方法、相关设备及计算机可读存储介质
WO2023134361A1 (zh) * 2022-01-13 2023-07-20 哲库科技(上海)有限公司 一种数据处理方法、装置、神经网络加速器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140325177A1 (en) * 2013-04-24 2014-10-30 International Business Machines Corporation Heap management using dynamic memory allocation
CN110597616A (zh) * 2018-06-13 2019-12-20 华为技术有限公司 一种神经网络的内存分配方法及装置
CN114327844A (zh) * 2020-09-29 2022-04-12 华为技术有限公司 内存分配方法、相关设备及计算机可读存储介质
CN114298294A (zh) * 2021-12-28 2022-04-08 杭州雄迈集成电路技术股份有限公司 一种基于硬件加速器的神经网络内存优化方法和装置
WO2023134361A1 (zh) * 2022-01-13 2023-07-20 哲库科技(上海)有限公司 一种数据处理方法、装置、神经网络加速器及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785759A (zh) * 2024-02-28 2024-03-29 北京壁仞科技开发有限公司 数据存储方法、数据读取方法、电子设备和存储介质
CN117785759B (zh) * 2024-02-28 2024-04-23 北京壁仞科技开发有限公司 数据存储方法、数据读取方法、电子设备和存储介质
CN117892769A (zh) * 2024-03-15 2024-04-16 之江实验室 神经网络训练方法、显存调度方法、系统、设备和产品
CN117892769B (zh) * 2024-03-15 2024-06-11 之江实验室 神经网络训练方法、显存调度方法、系统、设备和产品

Also Published As

Publication number Publication date
CN116893904B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN116893904B (zh) 神经网络模型的内存管理方法、装置、设备、介质及产品
WO2022037337A1 (zh) 机器学习模型的分布式训练方法、装置以及计算机设备
KR20200139780A (ko) 그래프 데이터 처리 방법, 그래프 데이터 계산 태스크들을 공개하는 방법 및 디바이스, 저장 매체 및 컴퓨터 장치
KR102499076B1 (ko) 그래프 데이터 기반의 태스크 스케줄링 방법, 디바이스, 저장 매체 및 장치
WO2016123808A1 (zh) 数据处理系统、计算节点和数据处理的方法
CN114327844A (zh) 内存分配方法、相关设备及计算机可读存储介质
KR20180125734A (ko) 파라미터 공유 장치 및 방법
CN105159610A (zh) 大规模数据处理系统及方法
CN111488177A (zh) 数据处理方法、装置、计算机设备和存储介质
US11842220B2 (en) Parallelization method and apparatus with processing of neural network model for manycore system
CN110795226B (zh) 利用计算机系统处理任务的方法、电子设备和存储介质
CN114035936A (zh) 一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质
CN112163601A (zh) 图像分类方法、系统、计算机设备及存储介质
CN114580606A (zh) 数据处理方法、装置、计算机设备和存储介质
CN111400555A (zh) 图数据查询任务处理方法、装置、计算机设备和存储介质
CN113569511A (zh) 一种量子电路的模拟方法及装置
CN116302461A (zh) 深度学习内存分配优化方法和系统
CN114896068A (zh) 资源分配方法、资源分配装置、电子设备及存储介质
CN113723443A (zh) 一种视觉大模型分布式训练方法及系统
CN112732601B (zh) 数据预处理方法、装置、计算机设备和存储介质
CN117785490B (zh) 一种图神经网络模型的训练架构、方法、系统及服务器
CN113672375A (zh) 资源分配预测方法、装置、设备及存储介质
CN115114005A (zh) 业务调度控制方法、装置、设备及计算机可读存储介质
CN114580607A (zh) 数据处理方法、装置和存储介质
CN118312327B (zh) 硬件资源分配方法、电子设备与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant