CN115878332B - 深度学习网络中的内存资源分配方法、装置、设备及介质 - Google Patents

深度学习网络中的内存资源分配方法、装置、设备及介质 Download PDF

Info

Publication number
CN115878332B
CN115878332B CN202310108152.2A CN202310108152A CN115878332B CN 115878332 B CN115878332 B CN 115878332B CN 202310108152 A CN202310108152 A CN 202310108152A CN 115878332 B CN115878332 B CN 115878332B
Authority
CN
China
Prior art keywords
memory
tensor
resource block
determining
allocated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310108152.2A
Other languages
English (en)
Other versions
CN115878332A (zh
Inventor
段国栋
朱剑丘
刘宝琦
陆正杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Suiyuan Intelligent Technology Co ltd
Original Assignee
Beijing Suiyuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Suiyuan Intelligent Technology Co ltd filed Critical Beijing Suiyuan Intelligent Technology Co ltd
Priority to CN202310108152.2A priority Critical patent/CN115878332B/zh
Publication of CN115878332A publication Critical patent/CN115878332A/zh
Application granted granted Critical
Publication of CN115878332B publication Critical patent/CN115878332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例公开了一种深度学习网络中的内存资源分配方法、装置、设备及介质。该方法包括:获取深度学习网络中的至少一个待分配内存张量,并根据深度学习网络对应的计算图,确定各待分配内存张量的生命周期关系;根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;计算目标内存张量分配至备选内存资源块的通信消耗,并根据通信消耗在所备选内存资源块中确定目标内存资源块;将目标内存张量分配至目标内存资源块。该方法可以合理地对各内存张量进行分配,从而避免数据交换冲突,提高深度学习网络任务执行效率,以及内存资源利用率。

Description

深度学习网络中的内存资源分配方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种深度学习网络中的内存资源分配方法、装置、设备及介质。
背景技术
随着人工智能(Artificial Intelligence,AI)处理器的演进和发展,处理器内部数据的存储需求越来越大。在深度学习网络中,运算中产生的内存张量需要分配至内存资源进行存储。
但是,由于运算的复杂性,在深度学习网络中各内存张量可能需要被多次调用,导致数据交换极易发生冲突。如果内存张量所分配的内存资源块冲突率高,还会导致深度学习网络任务操作开销大、执行效率低、以及资源利用率低等问题。
因此,亟待提供一种深度学习网络中的内存资源分配方法,进行合理内存分配,避免数据交换冲突,提高任务执行效率以及资源利用率。
发明内容
本发明提供了一种深度学习网络中的内存资源分配方法、装置、设备及介质,以合理地对各内存张量进行分配,提高任务执行效率,以及内存资源利用率。
根据本发明的一方面,提供了一种深度学习网络中的内存资源分配方法,该方法包括:
获取深度学习网络中的至少一个待分配内存张量,并根据所述深度学习网络对应的计算图,确定各所述待分配内存张量的生命周期关系;
根据当前进行内存分配的目标内存张量,所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;
计算所述目标内存张量分配至所述备选内存资源块的通信消耗,并根据所述通信消耗在所备选内存资源块中确定目标内存资源块;
将所述目标内存张量分配至所述目标内存资源块。
根据本发明的另一方面,提供了一种深度学习网络中的内存资源分配装置,该装置包括:
生命周期关系确定模块,用于获取深度学习网络中的至少一个待分配内存张量,并根据所述深度学习网络对应的计算图,确定各所述待分配内存张量的生命周期关系;
备选内存资源块确定模块,用于根据当前进行内存分配的目标内存张量,所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;
目标内存资源块确定模块,用于计算所述目标内存张量分配至所述备选内存资源块的通信消耗,并根据所述通信消耗在所备选内存资源块中确定目标内存资源块;
资源分配模块,用于将所述目标内存张量分配至所述目标内存资源块。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的深度学习网络中的内存资源分配方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的深度学习网络中的内存资源分配方法。
本发明实施例的技术方案,通过获取深度学习网络中的至少一个待分配内存张量,并根据深度学习网络对应的计算图,确定各待分配内存张量的生命周期关系;根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;计算目标内存张量分配至备选内存资源块的通信消耗,并根据通信消耗在所备选内存资源块中确定目标内存资源块;将目标内存张量分配至目标内存资源块,解决了深度学习网络中的内存资源分配问题,可以合理地对各内存张量进行分配,从而避免数据交换冲突,提高深度学习网络任务执行效率,以及内存资源利用率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是根据本发明实施例一提供的一种深度学习网络中的内存资源分配方法的流程图;
图1b是根据本发明实施例一提供的一种计算图的结构示意图;
图1c是根据本发明实施例提供的一种多阶生命周期干涉图的结构示意图;
图1d是根据本发明实施例一提供的一种内存张量的内存分配示意图;
图2a是根据本发明实施例二提供的一种深度学习网络中的内存资源分配方法的流程图;
图2b是根据本发明实施例二提供的又一种深度学习网络中的内存资源分配方法的流程图;
图3是根据本发明实施例三提供的一种深度学习网络中的内存资源分配装置的结构示意图;
图4是实现本发明实施例的深度学习网络中的内存资源分配方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1a是根据本发明实施例一提供的一种深度学习网络中的内存资源分配方法的流程图,本实施例可适用于深度学习网络中对运算过程中的内存张量进行存储的情况,该方法可以由深度学习网络中的内存资源分配装置来执行,该深度学习网络中的内存资源分配装置可以采用硬件和/或软件的形式实现,该深度学习网络中的内存资源分配装置可配置于电子设备如计算机中。如图1a所示,该方法包括:
步骤110、获取深度学习网络中的至少一个待分配内存张量,并根据深度学习网络对应的计算图,确定各待分配内存张量的生命周期关系。
其中,内存张量可以理解为在深度学习网络中算子进行运算时产生的矩阵。在本实施例中,获取内存张量可以是:在编译期,根据初始输入以及算子确定矩阵维度,通过矩阵维度对内存张量进行描述。即本实施例的技术方案可以在编译期实现内存张量的内存分配,而无需根据内存张量的实际数据进行内存分配。
计算图可以是深度学习网络计算过程的图形化表示。生命周期关系可以理解为内存张量的访问时间顺序、存储时间顺序、以及调用时间顺序等。根据计算图可以确定深度学习网络的算子计算前后顺序,数据调用关系等。即根据计算图可以确定深度学习网络计算过程中的内存张量以及内存张量的生命周期关系。
图1b是根据本发明实施例一提供的一种计算图的结构示意图。图1b为计算梯度模的计算图。图1b中,带箭头实线表示计算执行依赖,带圆点实线为读操作,带圆点虚线为写操作。根据图1b可知,该计算过程中各内存张量的生命周期。首先,获取图像、梯度x和梯度y的计算均需要读内存张量1;然后,梯度x写内存张量2,同时梯度y写内存张量3;之后,绝对值计算需要读内存张量2和3;最后,绝对值计算写内存张量4。
具体的,在本实施例中,确定内存张量的生命周期关系可以是采用别名分析算法,收集深度学习网络中的所有待分配资源的内存张量;并根据计算图确定内存张量的生命周期关系。其中,同一算子中出现的多个内存张量,被认为其生命周期存在重叠。
步骤120、根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块。
其中,内存张量进行资源分配时,可以存在一定的分配顺序。该分配顺序可以有多种确定方式。例如,可以对内存张量设定权重,根据权重逐个将未进行内存分配的内存张量确定为目标内存张量进行内存分配。又如,可以根据内存张量的产生顺序进行内存分配。再如,可以根据内存张量的调用顺序进行内存分配。还如,可以随机对内存张量进行内存分配。
在本实施例中,对内存张量进行分配时,需要考虑生命周期之间的重叠情况。可以采用最小化内存资源块(bank)最小化冲突原则,从而可以降低内存访问冲突,提高资源利用率,以及计算速度。本实施例中的最小化冲突原则可以理解为:两个内存张量的生命周期不存在重叠时,可以将这两个内存张量放置在同一bank中;而两个内存张量生命周期存在重叠时,尽量将这两个内存张量放置在不同的bank中。而受限于,bank的数量限制,在内存张量生命周期存在重叠时,可能不得不将内存张量分配在重复的bank中。
因此,在本实施例中,对目标内存张量进行内存分配时,可以考虑在先已经分配的内存张量所分配的bank,以及生命周期是否与在先已经分配的内存张量存在重叠。如果目标内存张量的生命周期与多个已分配内存张量存在不重叠的情况,则可以将在不重叠的已分配内存张量所分配的bank,以及空闲bank作为备选内存资源块。如果目标内存张量的生命周期与多个已分配内存张量均重叠,则可以将空闲bank作为备选内存资源块;如果不存在空闲bank,则可以将已分配内存张量所分配的bank均作为备选内存资源块。
实际中,生命周期存在重叠时,可能存在多种复杂情况。为了提供更好的内存分配方案,可以根据多阶生命周期干涉图确定备选内存资源块。具体的,可以对各内存张量进行生命周期分析,生成多阶生命周期干涉图。多阶生命周期干涉图可以表示内存张量是否存在重叠。构建多阶生命周期干涉图的方式可以是:以算子为最小粒度,检查内存张量之间的生命周期关系,即同一算子中出现的多个内存张量,被认为其生命周期存在重叠。图1c是根据本发明实施例提供的一种多阶生命周期干涉图的结构示意图。如图1c所示,图中节点为内存张量,如果内存张量存在生命周期重叠,则可以在内存张量之间增加一条边。
如图1c所示,一阶生命周期干涉内存张量可以与目标内存张量直接存在生命周期重叠。二阶生命周期干涉内存张量可以与目标内存张量更外一层相邻内存张量存在生命周期重叠。在本实施例中,可以考虑多阶生命周期干涉内存张量进行目标内存张量的内存分配。下述以考虑二阶生命周期干涉为例进行说明。
在本发明实施例的一个可选实施方式中,根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块,包括:根据目标内存张量以及生命周期关系,确定与目标内存张量对应的一阶生命周期干涉内存张量和二阶生命周期干涉内存张量;将一阶生命周期干涉内存张量和二阶生命周期干涉内存张量,与各内存资源块中的已分配内存张量进行匹配,分别确定对应的一阶内存资源块和二阶内存资源块;根据一阶内存资源块和二阶内存资源块,确定备选内存资源块。
其中,一阶生命周期干涉内存张量和二阶生命周期干涉内存张量可以根据如图1c所示的多阶生命周期干涉图确定。一阶内存资源块可以是一阶生命周期干涉内存张量所分配的bank,二阶内存资源块可以是二阶生命周期干涉内存张量所分配的bank。根据一阶内存资源块和二阶内存资源块确定备选内存资源块,可以采用下述原则:将目标内存张量分配至与一阶内存资源块不同的bank上;并且如果bank不冲突,可以将目标内存张量分配至与二阶内存资源块不同的bank上;如果bank冲突,可以将目标内存张量分配至二阶内存资源块上。本实施例考虑多阶生命周期干涉图进行内存资源分配的方式,可以保证算子需求,降低bank冲突率,提高带宽利用率及运算性能。
示例性的,图1d是根据本发明实施例一提供的一种内存张量的内存分配示意图。如图1d所示,内存张量0和内存张量1存在生命周期重叠,算法1需要将内存张量0和内存张量1分在不同的bank上;而内存张量1和内存张量4存在生命周期重叠,算法2需要将内存张量1和内存张量4分在不同的bank上。
根据本发明实施例提供的考虑多阶生命周期干涉图的内存分配方案,内存张量4分配时可以考虑内存张量1以及内存张量0。因为如果分配顺序是内存张量0,内存张量4,内存张量1的顺序;那么极有可能是内存张量0分配在bank0,内存张量4分配在bank1,那么内存张量1则无法同时满足两个算子的需求(即分配在bank0及bank1均不行)。
此时,根据本发明实施例提供的考虑多阶生命周期干涉图的内存分配方案,除了考虑生命周期相交叠的内存张量,也会考虑更外一层相邻内存张量,即二阶生命周期干涉内存张量。尽可能将目标内存张量与二阶生命周期干涉内存张量分在同样的bank,因为他们分在同一个bank并不会相互影响,也不会影响性能。即在分配内存张量4时,会更加优先选择内存张量0所在的bank,这样内存张量1就可以同时和内存张量0及内存张量4分开,进而同时满足两个算子的需求。
在实际应用中,内存张量是被计算引擎访问进行运算的。计算引擎和bank之间物理硬件距离的不同,会造成运算性能有所差异。计算引擎与bank之间的这种关系,称为亲和性。与计算引擎更近的bank作为其亲和的bank。为了更进一步提高内存分配的合理性,提高运算性能,在进行内存分配时,可以考虑计算引擎与bank之间的亲和性。
具体的,在本发明实施例的一个可选实施方式中,根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块,包括:根据目标内存张量,确定与目标内存张量对应的计算引擎;并确定计算引擎与各内存资源块的亲和性;根据亲和性、目标内存张量、生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块。
其中,根据目标内存张量确定计算引擎可以是,确定目标内存张量被哪一计算引擎读或写。根据亲和性确定备选内存资源块时,可以根据极值法,拒绝将内存张量分配至与对应的计算引擎不亲和的bank上。
示例性的,内存张量0,只被计算引擎0读写访问。计算引擎0亲和的bank为bank 0和bank 1。那么,在对内存张量0进行内存分配时,除bank 0和bank 1以外的其他bank(bank2至bank 7)则不会选择,这样可以达到更高性能,同时对其他计算引擎访问的内存张量影响更小。
步骤130、计算目标内存张量分配至备选内存资源块的通信消耗,并根据通信消耗在所备选内存资源块中确定目标内存资源块。
其中,通信耗时会受到bank冲突影响,在编译期,根据内存张量的维度及已知bank分配情况,可以计算目标内存张量分配至各备选内存资源块的通信消耗。可以将通信耗时最短的备选内存资源块确定为目标内存资源块。
示例性的,可以根据与目标内存张量生命周期有交叠的已分配内存张量所分配的bank情况,将目标内存张量分配至各个bank,并进行通信耗时权重评估。权重评估可以根据已分配内存张量的大小或者冲突率进行计算,bank冲突率越大通信耗时越长。
图1d中,如待分配的是内存张量1,并且只允许分配在bank0和bank1(此时,其他bank权重可以设置为极大值);此时与内存张量1存在生命周期重叠的已分配内存张量为:内存张量0,内存张量3及内存张量4;且分别被分配在bank1,bank0及bank1上。此时根据与内存张量1存在生命周期重叠的内存张量的分配情况进行权重评估可以是:bank0上通信耗时的权重为,内存张量3的大小;而bank1上通信耗时的权重为,内存张量0与内存张量4的大小累加和。以此来评估bank冲突率,选择冲突率更低的bank,即权重更小的bank。如果此时两个bank的权重相同,则可以确定各bank中已分配的全部内存张量(包括与内存张量1存在生命周期重叠,以及与内存张量1不存在生命周期重叠的内存张量)的大小累加和,选择累加和更小值即内存使用更小所对应的bank。为内存张量1分配bank后,可以更新内存即各bank的使用情况。
步骤140、将目标内存张量分配至目标内存资源块。
其中,执行步骤140之后,可以重新根据预设顺序,在待分配内存张量中确定当前进行内存分配的目标内存张量,并返回执行步骤120,直至所有待分配内存张量全部分配完毕。
本实施例的技术方案,通过获取深度学习网络中的至少一个待分配内存张量,并根据深度学习网络对应的计算图,确定各待分配内存张量的生命周期关系;根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;计算目标内存张量分配至备选内存资源块的通信消耗,并根据通信消耗在所备选内存资源块中确定目标内存资源块;将目标内存张量分配至目标内存资源块,解决了深度学习网络中的内存资源分配问题,可以合理地对各内存张量进行分配,从而避免数据交换冲突,提高深度学习网络任务执行效率,以及内存资源利用率。
实施例二
图2a是根据本发明实施例二提供的一种深度学习网络中的内存资源分配方法的流程图,本实施例是对上述技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2a所示,该方法包括:
步骤210、获取深度学习网络中的至少一个待分配内存张量,并根据深度学习网络对应的计算图,确定各待分配内存张量的生命周期关系。
步骤220、根据计算图以及待分配内存张量的维度,确定各待分配内存张量的权重。
其中,权重确定有多种方式。例如,可以根据内存张量的维度、访问频次、以及内存张量的读写顺序中的一项或者多项确定。
具体的,在本发明实施例的一个可选实施方式中,根据计算图以及待分配内存张量的维度,确定各待分配内存张量的权重,包括:根据深度学习网络中各计算引擎的访问数据量、计算图以及待分配内存张量的维度,确定待分配内存张量的访问频次;根据访问频次以及待分配内存张量的维度,确定各待分配内存张量的权重。
其中,计算引擎的访问数据量可以是计算引擎每次进行读或写时的可处理数据大小。根据计算图可以确定计算引擎对内存张量所需要进行的访问。根据内存张量的维度,可以确定内存张量的大小。从而,根据计算引擎的访问数据量、计算图以及内存张量的维度,可以确定计算引擎对内存张量的访问频次。例如,访问频次=所需进行的访问次数×内存张量的大小÷计算引擎的访问数据量。内存张量权重=w1×(该内存张量被各个计算引擎所访问的访问频次总和/被访问的计算引擎个数)+ w2 ×该内存张量内存大小。其中,w1与w2是可调系数,如都可以选择0.5。通过上述方式确定权重,可以对更重要的内存张量优先进行分配,可以避免较大内存张量无法分配至内存,引起bank冲突,同时也可以提高内存张量分配速度。
步骤230、根据权重对待分配内存张量进行排序,并根据各待分配内存张量的内存分配情况以及排序结果,确定当前进行内存分配的目标内存张量。
其中,根据权重对待分配内存张量进行排序,可以是优先对权重大的内存张量进行分配;并根据排序以及待分配内存张量的分配完成情况,更新当前进行内存分配的目标内存张量,保证全部待分配内存张量均进行内存分配。
步骤240、根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块。
在本发明实施例的一个可选实施方式中,根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块,包括:根据目标内存张量以及生命周期关系,确定与目标内存张量对应的一阶生命周期干涉内存张量和二阶生命周期干涉内存张量;将一阶生命周期干涉内存张量和二阶生命周期干涉内存张量,与各内存资源块中的已分配内存张量进行匹配,分别确定对应的一阶内存资源块和二阶内存资源块;根据一阶内存资源块和二阶内存资源块,确定备选内存资源块。
在上述实施方式的基础上,可选的,根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块,包括:根据目标内存张量,确定与目标内存张量对应的计算引擎;并确定计算引擎与各内存资源块的亲和性;根据亲和性、目标内存张量、生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块。
其中,在本实施例中,考虑亲和性、生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块,以及考虑多阶生命周期干涉内存张量确定备选内存资源块的方式可以相结合。即在本实施例中,可以根据一阶内存资源块、二阶内存资源块、以及计算引擎与各内存资源块的亲和性,确定备选内存资源块。
示例性的,确定目标内存张量对应的备选内存资源块可以采用下述原则:优先选择与目标内存张量对应的二阶内存资源块相同,与对应的一阶内存资源块不同,与对应的计算引擎亲和的bank。
步骤250、计算目标内存张量分配至备选内存资源块的通信消耗,并根据通信消耗在所备选内存资源块中确定目标内存资源块。
步骤260、检测到目标内存资源块满足预设资源调配条件时,根据生命周期关系,确定目标内存张量的处理时刻。
其中,预设资源调配条件可以有多种情况。例如,内存存储空间不足,或者,存储空间使用不均衡时,可以对目标内存资源进行资源调配。或者,对各目标内存张量均可以进行资源调配。又或者,对生命周期长且不频繁使用的目标内存张量均可以进行资源调配。
具体的,在本发明实施例的一个可选实施方式中,目标内存资源块满足预设资源调配条件,包括:目标内存资源块的剩余存储空间小于预设存储空间容量,或者,目标内存资源块的存储空间使用不满足预设均衡条件。即在内存存储空间不足,或者计算图中对多个存储空间使用不均衡时,可以确定目标内存张量的处理时刻,从而确定是否对目标内存张量进行资源调配。
步骤270、如果当前时刻未到达处理时刻时,则将目标内存张量交换至CPU端;并在当前时刻到达处理时刻时,将目标内存张量从CPU端加载至目标内存资源块中。
其中,资源调配可以理解为在内存存储空间不足,或者计算图中对多个存储空间使用不均衡时,且当前时刻未达到目标内存张量的处理时刻时,将目标内存张量交换至CPU端;在当前时刻到达处理时刻时,将目标内存张量从CPU端加载至目标内存资源块中。将目标内存张量交换至CPU端,可以是采用内存交换技术,例如采用协处理器将目标内存张量交换至CPU端。通过上述资源调配可以缓解内存压力,达到负载均衡,提高并行度以及执行效率。
本发明实施例的技术方案,通过获取深度学习网络中的至少一个待分配内存张量,并根据深度学习网络对应的计算图,确定各待分配内存张量的生命周期关系;根据计算图以及待分配内存张量的维度,确定各待分配内存张量的权重;根据权重对待分配内存张量进行排序,并根据各待分配内存张量的内存分配情况以及排序结果,确定当前进行内存分配的目标内存张量;根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;计算目标内存张量分配至备选内存资源块的通信消耗,并根据通信消耗在所备选内存资源块中确定目标内存资源块;检测到目标内存资源块满足预设资源调配条件时,根据生命周期关系,确定目标内存张量的处理时刻;如果当前时刻未到达处理时刻时,则将目标内存张量交换至CPU端;并在当前时刻到达处理时刻时,将目标内存张量从CPU端加载至目标内存资源块中,解决了深度学习网络中的内存资源分配问题,可以合理并快速地对各内存张量进行分配,从而避免数据交换冲突,提高负载均衡率、深度学习网络任务执行效率,以及内存资源利用率。
图2b是根据本发明实施例二提供的又一种深度学习网络中的内存资源分配方法的流程图。如图2b所示,本发明实施例所提供的技术方案的一个使用流程可以是:根据别名分析算法,收集计算图中所有的待分配内存张量;分析各待分配内存张量的访问频次及相互生命周期关系;根据访问频次以及待分配内存张量的维度,确定各待分配内存张量的权重;根据权重对待分配内存张量进行排序,并根据各待分配内存张量的内存分配情况以及排序结果,确定当前进行内存分配的目标内存张量;确定目标内存张量的多阶生命周期干涉图,并根据多阶生命周期干涉图确定一阶生命周期干涉内存张量和二阶生命周期干涉内存张量,进而确定一阶内存资源块和二阶内存资源块;根据一阶内存资源块、二阶内存资源块和目标内存张量匹配的计算引擎与各内存资源块的亲和性,确定备选内存资源块;根据目标内存张量分配至备选内存资源块的通信消耗,确定目标内存资源块;在内存不足或者计算图中使用内存不均衡时,将生命周期长且使用不频繁的内存张量交换到CPU端存储空间,并在使用前提前将内存张量加载到设备存储空间中。
本发明实施例的技术方案,通过选择与二阶生命周期干涉内存张量存储相同、一阶生命周期干涉内存张量存储不同、更亲和、通信耗时更少的bank,对内存张量进行内存分配;可以最小化bank冲突率、最大并行度、以最亲和的方式提高内存资源利用率,达到内存资源的负载均衡,避免数据交换冲突,提高内存分配速率以及深度学习网络任务执行效率。
实施例三
图3是根据本发明实施例三提供的一种深度学习网络中的内存资源分配装置的结构示意图。如图3所示,该装置包括:生命周期关系确定模块310,备选内存资源块确定模块320,目标内存资源块确定模块330,和资源分配模块340。其中:
生命周期关系确定模块310,用于获取深度学习网络中的至少一个待分配内存张量,并根据深度学习网络对应的计算图,确定各待分配内存张量的生命周期关系;
备选内存资源块确定模块320,用于根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;
目标内存资源块确定模块330,用于计算目标内存张量分配至备选内存资源块的通信消耗,并根据通信消耗在所备选内存资源块中确定目标内存资源块;
资源分配模块340,用于将目标内存张量分配至目标内存资源块。
可选的,该装置,还包括:
权重确定模块,用于在根据当前进行内存分配的目标内存张量,生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块之前,根据计算图以及待分配内存张量的维度,确定各待分配内存张量的权重;
内存张量排序模块,用于根据权重对待分配内存张量进行排序,并根据各待分配内存张量的内存分配情况以及排序结果,确定当前进行内存分配的目标内存张量。
可选的,权重确定模块,包括:
访问频次确定单元,用于根据深度学习网络中各计算引擎的访问数据量、计算图以及待分配内存张量的维度,确定待分配内存张量的访问频次;
权重确定单元,用于根据访问频次以及待分配内存张量的维度,确定各待分配内存张量的权重。
可选的,备选内存资源块确定模块320,包括:
干涉内存张量确定单元,用于根据目标内存张量以及生命周期关系,确定与目标内存张量对应的一阶生命周期干涉内存张量和二阶生命周期干涉内存张量;
干涉内存资源块确定单元,用于将一阶生命周期干涉内存张量和二阶生命周期干涉内存张量,与各内存资源块中的已分配内存张量进行匹配,分别确定对应的一阶内存资源块和二阶内存资源块;
第一备选内存资源块确定单元,用于根据一阶内存资源块和二阶内存资源块,确定备选内存资源块。
可选的,备选内存资源块确定模块320,包括:
亲和性确定单元,用于根据目标内存张量,确定与目标内存张量对应的计算引擎;并确定计算引擎与各内存资源块的亲和性;
第二备选内存资源块确定单元,用于根据亲和性、目标内存张量、生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块。
可选的,资源分配模块340,包括:
处理时刻确定单元,用于检测到目标内存资源块满足预设资源调配条件时,根据生命周期关系,确定目标内存张量的处理时刻;
目标内存张量加载单元,用于如果当前时刻未到达处理时刻时,则将目标内存张量交换至CPU端;并在当前时刻到达处理时刻时,将目标内存张量从CPU端加载至目标内存资源块中。
可选的,目标内存资源块满足预设资源调配条件,包括:目标内存资源块的剩余存储空间小于预设存储空间容量,或者,目标内存资源块的存储空间使用不满足预设均衡条件。
本发明实施例所提供的深度学习网络中的内存资源分配装置可执行本发明任意实施例所提供的深度学习网络中的内存资源分配方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如深度学习网络中的内存资源分配方法。
在一些实施例中,深度学习网络中的内存资源分配方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的深度学习网络中的内存资源分配方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度学习网络中的内存资源分配方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (9)

1.一种深度学习网络中的内存资源分配方法,其特征在于,所述方法,包括:
获取深度学习网络中的至少一个待分配内存张量,并根据所述深度学习网络对应的计算图,确定各所述待分配内存张量的生命周期关系;
根据当前进行内存分配的目标内存张量,所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;
计算所述目标内存张量分配至所述备选内存资源块的通信消耗,并根据所述通信消耗在所备选内存资源块中确定目标内存资源块;
将所述目标内存张量分配至所述目标内存资源块;
其中,根据当前进行内存分配的目标内存张量,所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块,包括:
根据所述目标内存张量,确定与所述目标内存张量对应的计算引擎;并确定所述计算引擎与各所述内存资源块的亲和性;
根据所述亲和性、所述目标内存张量、所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块。
2.根据权利要求1所述的方法,其特征在于,在根据当前进行内存分配的目标内存张量,所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块之前,还包括:
根据所述计算图以及所述待分配内存张量的维度,确定各所述待分配内存张量的权重;
根据所述权重对所述待分配内存张量进行排序,并根据各所述待分配内存张量的内存分配情况以及排序结果,确定当前进行内存分配的目标内存张量。
3.根据权利要求2所述的方法,其特征在于,根据所述计算图以及所述待分配内存张量的维度,确定各所述待分配内存张量的权重,包括:
根据深度学习网络中各计算引擎的访问数据量、所述计算图以及所述待分配内存张量的维度,确定所述待分配内存张量的访问频次;
根据所述访问频次以及所述待分配内存张量的维度,确定各所述待分配内存张量的权重。
4.根据权利要求1所述的方法,其特征在于,根据当前进行内存分配的目标内存张量,所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块,包括:
根据所述目标内存张量以及所述生命周期关系,确定与所述目标内存张量对应的一阶生命周期干涉内存张量和二阶生命周期干涉内存张量;
将所述一阶生命周期干涉内存张量和所述二阶生命周期干涉内存张量,与各内存资源块中的已分配内存张量进行匹配,分别确定对应的一阶内存资源块和二阶内存资源块;
根据所述一阶内存资源块和所述二阶内存资源块,确定备选内存资源块。
5.根据权利要求1所述的方法,其特征在于,将所述目标内存张量分配至所述目标内存资源块,包括:
检测到所述目标内存资源块满足预设资源调配条件时,根据所述生命周期关系,确定所述目标内存张量的处理时刻;
如果当前时刻未到达所述处理时刻时,则将所述目标内存张量交换至CPU端;并在所述当前时刻到达所述处理时刻时,将所述目标内存张量从所述CPU端加载至所述目标内存资源块中。
6.根据权利要求5所述的方法,其特征在于,所述目标内存资源块满足预设资源调配条件,包括:
所述目标内存资源块的剩余存储空间小于预设存储空间容量,或者,所述目标内存资源块的存储空间使用不满足预设均衡条件。
7.一种深度学习网络中的内存资源分配装置,其特征在于,所述装置包括:
生命周期关系确定模块,用于获取深度学习网络中的至少一个待分配内存张量,并根据所述深度学习网络对应的计算图,确定各所述待分配内存张量的生命周期关系;
备选内存资源块确定模块,用于根据当前进行内存分配的目标内存张量,所述生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块;
目标内存资源块确定模块,用于计算所述目标内存张量分配至所述备选内存资源块的通信消耗,并根据所述通信消耗在所备选内存资源块中确定目标内存资源块;
资源分配模块,用于将所述目标内存张量分配至所述目标内存资源块;
其中,所述备选内存资源块确定模块,包括:
亲和性确定单元,用于根据目标内存张量,确定与目标内存张量对应的计算引擎;并确定计算引擎与各内存资源块的亲和性;
第二备选内存资源块确定单元,用于根据亲和性、目标内存张量、生命周期关系以及各内存资源块中的已分配内存张量,确定备选内存资源块。
8. 一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的深度学习网络中的内存资源分配方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的深度学习网络中的内存资源分配方法。
CN202310108152.2A 2023-02-14 2023-02-14 深度学习网络中的内存资源分配方法、装置、设备及介质 Active CN115878332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310108152.2A CN115878332B (zh) 2023-02-14 2023-02-14 深度学习网络中的内存资源分配方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310108152.2A CN115878332B (zh) 2023-02-14 2023-02-14 深度学习网络中的内存资源分配方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115878332A CN115878332A (zh) 2023-03-31
CN115878332B true CN115878332B (zh) 2023-05-26

Family

ID=85761087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310108152.2A Active CN115878332B (zh) 2023-02-14 2023-02-14 深度学习网络中的内存资源分配方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115878332B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168349A (zh) * 2021-03-26 2021-07-23 珠海全志科技股份有限公司 Ai处理器的内存分配方法、计算机装置及计算机可读存储介质
CN113791882B (zh) * 2021-08-25 2023-10-20 北京百度网讯科技有限公司 多任务的部署方法、装置、电子设备及存储介质
CN113961351B (zh) * 2021-10-28 2022-12-30 北京百度网讯科技有限公司 深度学习模型的分布式训练方法、装置、设备及存储介质
CN114358267A (zh) * 2022-01-05 2022-04-15 浙江大学 一种降低深度神经网络训练过程中gpu内存占用的方法
CN114862656B (zh) * 2022-05-18 2023-05-05 北京百度网讯科技有限公司 基于多gpu的分布式深度学习模型训练代价的获取方法
CN115374232A (zh) * 2022-09-01 2022-11-22 安谋科技(中国)有限公司 张量分配方法、介质、电子设备和程序产品
CN115269204B (zh) * 2022-09-27 2022-12-30 之江实验室 一种用于神经网络编译的内存优化方法及装置

Also Published As

Publication number Publication date
CN115878332A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
US8799916B2 (en) Determining an allocation of resources for a job
US9575810B2 (en) Load balancing using improved component capacity estimation
US10977086B2 (en) Workload placement and balancing within a containerized infrastructure
US20180123912A1 (en) Intelligently suggesting computing resources to computer network users
US10102033B2 (en) Method and system for performance ticket reduction
US20130219068A1 (en) Predicting datacenter performance to improve provisioning
US20180060128A1 (en) System, method and computer program product for resource management in a distributed computation system
CN113095474A (zh) 深度学习模型的资源使用情况预测
WO2012105969A1 (en) Estimating a performance characteristic of a job using a performance model
US10942784B2 (en) Database resource scaling
CN112559163A (zh) 优化张量计算性能的方法及装置
US9218198B2 (en) Method and system for specifying the layout of computer system resources
JP2022538897A (ja) コンテナベースのアプリケーション
US10990519B2 (en) Multi-tenant cloud elastic garbage collector
CN112000460A (zh) 一种基于改进贝叶斯算法的服务扩缩容的方法及相关设备
US20110191094A1 (en) System and method to evaluate and size relative system performance
CN115878332B (zh) 深度学习网络中的内存资源分配方法、装置、设备及介质
CN116361205A (zh) 数据处理装置、确定张量存储地址的方法、设备和介质
US20230091753A1 (en) Systems and methods for data processing unit aware workload migration in a virtualized datacenter environment
CN115098269A (zh) 一种资源分配方法、装置、电子设备及存储介质
CN115438007A (zh) 一种文件合并方法、装置、电子设备及介质
US11556387B2 (en) Scheduling jobs
CN110247802B (zh) 针对云服务单机环境的资源配置方法及装置
CN117519946A (zh) 深度学习网络中的内存资源调度方法、装置、设备及介质
WO2020019315A1 (zh) 一种基于图数据的计算运行调度方法、系统、计算机可读介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant