CN115794400A - 深度学习模型的内存管理方法、装置、设备及存储介质 - Google Patents
深度学习模型的内存管理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115794400A CN115794400A CN202211530327.0A CN202211530327A CN115794400A CN 115794400 A CN115794400 A CN 115794400A CN 202211530327 A CN202211530327 A CN 202211530327A CN 115794400 A CN115794400 A CN 115794400A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- learning model
- storage
- storage space
- deployed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种深度学习模型的内存管理方法、装置、设备及存储介质。方法包括:在待部署设备上获取多个存储空间;使用预设的存储函数,建立各存储空间之间的通信接口连接,以实现不同存储空间之间的数据传输;在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项;根据所述个性化拓展选项和通信接口,在所述待部署设备上部署所述深度学习模型。通过个性化的设置模型所需的张量信息,从而降低了内存占用。大大降低了部署人员的工作量,使得部署工作更加的方便和快捷。
Description
技术领域
本申请涉及模型部署技术领域,具体涉及一种深度学习模型的内存管理方法、装置、设备及存储介质。
背景技术
深度神经网络需要大量的计算和内存,其中GPU是目前最流行的训练设备选择。越来越深、越来越宽的神经网络的训练对GPU的内存构成了巨大的挑战。由于一般计算机的内存大小非常有限,加之GPU或CPU会设置多个通用依赖库,严重压缩内存。因此在将比较大的深度学习模型部署到计算机上时,面临的一个问题常常是内存的不足,从而导致模型无法部署。因此,需要一种深度学习模型的内存管理方法、装置、设备及存储介质。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种深度学习模型的内存管理方法、装置、设备及存储介质,以解决现有的深度学习模型部署到设备时,由于通用依赖库过多,导致存储空间无法容纳深度学习模型的技术问题。
本发明提供的深度学习模型的内存管理方法,用于在设备上部署深度学习模型,包括:
在待部署设备上获取多个存储空间;
使用预设的存储函数,建立各存储空间之间的通信接口连接,以实现不同存储空间之间的数据传输;
在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项;
根据所述个性化拓展选项和通信接口,在所述待部署设备上部署所述深度学习模型。
于本发明的一实施例中,所述在待部署设备上获取多个存储空间之后,还包括:
判断各存储空间是否能容纳所述待部署的深度学习模型;
若各存储空间均能容纳所述待部署的深度学习模型,则建立各存储空间之间的通信接口连接;
若存在至少一个存储空间无法容纳所述待部署的深度学习模型,则删除无法容纳所述深度学习模型的存储空间中,与所述深度学习模型无关的外部依赖库。
于本发明的一实施例中,所述存储空间的类型包括CPU存储空间和GPU存储空间。
于本发明的一实施例中,所述使用预设的存储函数,建立各存储空间之间的通信接口连接,包括:
根据所述存储空间的类型,获取各存储空间对应的存储函数;
将各存储空间的接口信息输入对应的存储函数中,使用存储函数建立不同存储空间之间的通信接口连接。
于本发明的一实施例中,所述在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项,包括:
基于所述深度学习模型的特性,获取所述深度学习模型所需的张量数据;
将所述张量数据以算子或函数的形式部署在对应的存储空间中,构成个性化拓展选项。
于本发明的一实施例中,所述在待部署设备上获取多个存储空间之后,还包括:在各存储空间中加入cuda流,以实现数据同步传输。
于本发明的一实施例中,所述在所述待部署设备上部署所述深度学习模型之后,还包括:对所述待部署设备进行测试,以保证深度学习模型的正常运行。
于本发明的一实施例中,还提供一种深度学习模型的内存管理装置,所述装置包括:
存储空间获取模块,配置为在待部署设备上获取多个存储空间;
通信接口部署模块,配置为使用预设的存储函数,建立各存储空间之间的通信接口连接,以实现不同存储空间之间的数据传输;
个性化拓展选项部署模块,配置为在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项;
深度学习模型部署模块,配置为根据所述个性化拓展选项和通信接口,在所述待部署设备上部署所述深度学习模型。
于本发明的一实施例中,还提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述任一项所述的深度学习模型的内存管理方法。
于本发明的一实施例中,还提供一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述任一项所述的深度学习模型的内存管理方法。
本发明的有益效果:本发明中通过在待部署设备上为深度学习模型分配多个存储空间,并根据预设的存储函数,以各存储空间的相关接口为参数,建立不同存储空间之间的数据传输。从而实现在不同存储空间之间数据的正常传输。然后针对需要部署的深度学习模型的特性,在各存储空间中添加与该深度学习模型特性相关的张量数据的算法,从而配置完深度学习模型的个性化拓展选项。然后根据个性化拓展选项和通信接口,在待部署设备上部署深度学习模型,从而完成深度学习模型的部署工作。本发明中,先对深度学习模型部署进行梳理,对深度学习存储的需求有整体的认识,最后结合相关存储理论对整体存储结构进行代码化处理,实现模型的部署工作。对于不同的深度学习模型,个性化的设置其所需的张量信息,从而降低了内存占用。整个深度学习部署步骤简单清晰,大大降低了部署人员的工作量,使得部署工作更加的方便和快捷。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出的深度学习模型的内存管理方法的实施环境示意图;
图2是本申请的一示例性实施例示出的深度学习模型的内存管理方法的流程图;
图3是图2所示实施例中的微服务架构通信在一示例性的实施例中的流程图;
图4是图2所示实施例中的通信接口连接建立过程在一示例性的实施例中的流程图;
图5是图2所示实施例中的个性化拓展选项部署在一示例性的实施例中的流程图;
图6是本申请的一示例性实施例示出的深度学习模型的内存管理装置的框图;
图7出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
图1是本申请的一示例性实施例示出的深度学习模型的内存管理方法的实施环境示意图。图1所示的智能终端110可以是智能手机、车载电脑、平板电脑、笔记本电脑或者可穿戴设备等任意支持安装深度学习模型的内存管理终端设备,但并不限于此。图1所示的填充服务端120是导航服务器,例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云信息库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大信息和人工智能平台等基础云计算服务的云服务器,在此也不进行限制。智能终端110可以通过3G(第三代的移动信息技术)、4G(第四代的移动信息技术)、5G(第五代的移动信息技术)等无线网络与导航服务端220进行通信,本处也不对此进行限制。
请参阅图2,图2是本申请的一示例性实施例示出的深度学习模型的内存管理方法的流程图。该方法可以应用于图1所示的实施环境,并由该实施环境中的智能终端110具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
如图2所示,在一示例性的实施例中,深度学习模型的内存管理方法至少包括步骤S210至步骤S240,详细介绍如下:
步骤S210,在待部署设备上获取多个存储空间。
待部署设备是用于部署该深度学习模型的设备,包括但不限于服务器、客户端电脑等,考虑到深度学习模型具有一定的大小,因此首先需要确定待部署设备的内存是否可以满足该深度学习模型的大小。当内存足够容纳深度学习模型时,说明深度学习模型可以在该待部署设备上运行,可以将该深度学习模型部署到待部署设备上。进一步地,考虑到深度学习模型通常会涉及到处理图像或音频、文本等数据,需要进行并行的数据运算。但由于深度学习模型也会涉及到对串行数据进行处理,为了提升运行效率,因此,在本发明一实施例中,待部署设备上的存储空间的类型包括CPU(central processing unit,中央处理器)和GPU(graphics processing unit,图形处理器)。其中,CPU擅长处理逻辑复杂、串行的计算任务,CPU可以用来处理非常复杂的控制逻辑,对于预测分支、乱序执行、多级流水等做得很好;GPU擅长的是大规模的数据并行的计算任务,如纹理、点阵等。需要说明的是,CPU和GPU的数量不做限定,即待部署设备上,可以有多个CPU和多个GPU,也可以只有一个或多个CPU,还可以只有一个或多个GPU,可根据深度学习模型的具体应用做相关部署,在此不做要求。通过在CPU和GPU上为深度学习模型分配适当的内存,使得深度学习模型产生的数据能够在不同的存储空间上交换,并在交换完成后在该存储空间上运行。
步骤S220,使用预设的存储函数,建立各存储空间之间的通信接口连接,以实现不同存储空间之间的数据传输。
由于在GPU上使用cuda(Compute Unified Device Architecture)作为并行运算的计算引擎,即通过cuda实现CPU与GPU之间的信息交互。具体地,在cuda架构中,cuda会将深度学习模型的主程序分配给CPU运行,当遇到需要并行处理的数据时,cuda会将该部分编译成GPU能执行的程序,传送给GPU处理。在此过程中,由于涉及到不同存储空间,即GPU向GPU、GPU向CPU、CPU向GPU、CPU向CPU传送数据,因此需要建立各存储空间之间的通信接口连接,使得数据通过通信接口在不同的存储空间进行交互。具体地,可使用cuda中的相关存储函数,以所需连接的两个存储空间的接口作为存储函数的相关参数,建立两个存储空间之间的通信接口连接。从而实现不同存储空间之间数据的正常传输,实现不同存储空间之间的数据拷贝迁移的正常运行。
步骤S230,基于在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项。
考虑到应用场景不同,对应的深度学习模型也不同。为了实现深度学习模型的准确部署,因此需要针对待部署的深度学习模型进行一系列的个性化设置。具体地,可根据具体的深度学习模型,在各存储空间中加入不同的张量数据,例如维度转换、排序、筛选、差异转换等,构建个性化拓展选项。其中,所述个性化拓展选项是基于所述张量数据,在所述存储空间构建的开放式接口函数,需要将深度学习模型部署到存储空间时,本领域技术人员可根据深度学习模型的特性,选择对应的接口函数,以实现数据的正常流通。示例性地,需要部署的深度学习模型是一种关于图像处理的模型,对应的张量数据可以是图像像素构成的不同大小的矩阵,相关的张量数据的算法可以是对像素矩阵进行掩码处理、锐化、转置,排序,筛选,并行处理等。与此对应的,涉及的算法函数可以是permute,sort,index,mask等操作。将这些算法函数加入深度学习模型的相关参数后,加入到存储空间中,形成个性化拓展选项。部署这个图像处理类型的深度学习模型时,可以选择与该深度学习模型相关的一个或多个个性化拓展选项,以实现数据的正常流通。需要说明的是,每次部署深度学习模型前,可以自定义设置一个或多个与该深度学习模型相关的个性化拓展选项。也可以是预先设置一个或多个通用的个性化拓展选项,然后根据当前深度学习模型特性,从设置好的个性化拓展选项中选择适于该深度学习模型的个性化拓展选项,并可根据实际需要做适应性删减或加入的修改,具体方式在此不做限定。
步骤S240,根据所述个性化拓展选项和通信接口,在所述待部署设备上部署所述深度学习模型。
根据前述,各存储空间已经针对该深度学习模型完成了一系列的部署工作,此时的存储空间更加适于部署该深度学习模型。因此,可在部署深度学习模型时,将深度学习模型程序中的接口设置为对应的通信接口,将对应的张量算法所需的参数设置为深度学习的参数。同时在cuda中修改对应的参数,以保证数据的正常流通。从而完成深度学习模型的部署工作。
如图3所示,图3是图2所示实施例中的微服务架构通信在一示例性的实施例中的流程图。在步骤S210中,所述在待部署设备上获取多个存储空间之后,还包括:
步骤S310,判断各存储空间是否能容纳所述待部署的深度学习模型;
步骤S320,若各存储空间能容纳所述待部署的深度学习模型,则建立各存储空间之间的通信接口连接;
步骤S330,若存在至少一个存储空间无法容纳所述待部署的深度学习模型,则删除无法容纳所述深度学习模型的存储空间中,与所述深度学习模型无关的外部依赖库。
由于存储空间的大小并不是唯一不变的,因此在将深度学习模型部署到存储空间之前,应先判断各存储空间是否大于或等于该深度学习模型的占用空间。若存储空间大于或等于深度学习模型的占用空间,说明各存储空间足以容纳该深度学习模型,可以进行后续的部署工作。若存在一个或多个存储空间小于深度学习模型的占用空间,则说明这些存储空间无法容纳该深度学习模型,暂时不能进行模型的部署工作。由于存储空间中会自带有多个外部依赖库,为了提升存储空间的内存。因此,需要删除存储空间中自带的一些与该深度学习模型无关的外部依赖库,保留与该深度学习模型相关的外部依赖库,并进行二次封装,从而提升存储空间的容量,以容纳该深度学习模型。
如图4所示,图4是图2所示实施例中的通信接口连接建立过程在一示例性的实施例中的流程图。在步骤S220中,所述使用预设的存储函数,建立各存储空间之间的通信接口连接,包括:
步骤S410,根据所述存储空间的类型,获取各存储空间对应的存储函数;
步骤S420,将各存储空间的接口信息输入对应的存储函数中,使用存储函数建立不同存储空间之间的通信接口连接。
由于存储空间分为CPU和GPU,因此,可根据存储空间的类型不同,获取GPU的存储函数cudamalloc和CPU的存储函数malloc。然后将存储空间的接口信息作为参数,输入至对应的存储函数中,从而实现不同存储空间之间通信接口连接的建立。然后采用cuda相关存储函数保证CPU到GPU,GPU到CPU,GPU到GPU,CPU到CPU能够正常进行数据拷贝迁移。
如图5所示,图5是图2所示实施例中的个性化拓展选项部署在一示例性的实施例中的流程图。在步骤S230中,所述在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项,包括:
步骤S510,基于所述深度学习模型的特性,获取所述深度学习模型所需的张量数据;
步骤S520,将所述张量数据以算子或函数的形式部署在对应的存储空间中,构成个性化拓展选项。
由于深度学习模型不同,所需的张量数据也各不相同,因此,首先需要针对当前的深度学习模型,获取其所需的张量数据。例如对于图像处理类模型,其所需的张量数据可能是对像素矩阵进行排序、筛选、差异转换等,对于高维文本到低维文本转换的模型,其所需的张量数据可能是高维数据、低维数据、文本序列等。然后将各张量数据以算子或函数的形式,写入存储空间中,以构成适于当前深度学习模型的个性化拓展选项。例如,针对于张量数据的处理方式,如转置,排序,筛选,并行处理等,对应选择相关的算子或函数,这些算子或函数可以是permute,sort,index,mask等操作。其中,permute函数是对矩阵维数进行交换,sort函数是对元素进行排序,index函数是返回指定类型的数据,mask函数是对矩阵进行掩码处理等。
在本发明一实施例中,所述在待部署设备上获取多个存储空间之后,还包括:在各存储空间中加入cuda流,以实现数据同步传输。cuda流表示一个GPU操作队列,该队列中的操作将以添加到流中的先后顺序而依次执行。可以将一个流看做是GPU上的一个任务,不同任务可以并行执行。可以根据不同存储空间同步的需求,加入对应的cuda流,从而实现数据的同步处理和传输,避免由于数据传输不同步导致模型处理效果不准确的问题。进一步地,在本发明一实施例中,在各存储空间中加入cuda流之后,还包括:在各存储空间中加入置零和拷贝操作接口。考虑到深度学习模型运行一次后,会在存储空间中留下日志文件等数据,占用内存。为了减小内存不必要的占用量,因此,部署深度学习模型之前,先加入置零接口。当深度学习模型在该存储空间中运行一段时间后,启动置零接口,即可将存储空间的内存置零,从而提升存储空间的容量。拷贝接口是为了在深度学习模型运行时,产生的数据在不同存储空间之间传输,需要对该数据进行拷贝,然后将此数据搬运到其他存储空间中。
在本发明一实施例中,所述在所述待部署设备上部署所述深度学习模型之后,还包括:对所述待部署设备进行测试,以保证深度学习模型的正常运行。为了验证模型是否能在待部署设备上正常运行,因此,部署完深度学习模型之后,还需要进行相关的测试工作。并在测试不通过时发出预警信息,以便于操作人员及时处理相关问题。从而保证不同功能的健全性,使得整个深度学习部署步骤简单清晰,大大降低了部署人员的工作量,使得部署工作更加的方便和快捷。
需要说明的是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,比如可基于不同的操作系统:包括但不限于linux、qnx等操作系统,基于不同的硬件平台:包括但不限于x86、xavier、orin等硬件平台。
本发明中通过在待部署设备上为深度学习模型分配多个存储空间,并根据预设的存储函数,以各存储空间的相关接口为参数,建立不同存储空间之间的数据传输。从而实现在不同存储空间之间数据的正常传输。然后针对需要部署的深度学习模型的特性,在各存储空间中添加与该深度学习模型特性相关的张量数据的算法,从而配置完深度学习模型的个性化拓展选项。然后根据个性化拓展选项和通信接口,在待部署设备上部署深度学习模型,从而完成深度学习模型的部署工作。本发明中,先对深度学习模型部署进行梳理,对深度学习存储的需求有整体的认识,最后结合相关存储理论对整体存储结构进行代码化处理,实现模型的部署工作。对于不同的深度学习模型,个性化的设置其所需的张量信息,从而降低了内存占用。整个深度学习部署步骤简单清晰,大大降低了部署人员的工作量,使得部署工作更加的方便和快捷。通过数据在不同存储空间之间交互,搭配的相关方法给深度学习相关的部署打下了基础,同时简化了传统存储所需耗费的大量空间,更加适合深度学习在嵌入式模型上的部署。
图6是本申请的一示例性实施例示出的深度学习模型的内存管理装置的框图。该装置可以应用于图2所示的实施环境,并具体配置在智能终端210中。该装置也可以适用于其它的示例性实施环境,并具体配置在其它设备中,本实施例不对该装置所适用的实施环境进行限制。
如图6所示,该示例性的深度学习模型的内存管理装置600包括:
存储空间获取模块601,配置为在待部署设备上获取多个存储空间;通信接口部署模块602,配置为使用预设的存储函数,建立各存储空间之间的通信接口连接,以实现不同存储空间之间的数据传输;个性化拓展选项部署模块603,配置为在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项;深度学习模型部署模块604,配置为根据所述个性化拓展选项和通信接口,在所述待部署设备上部署所述深度学习模型。
在另一示例性的实施例中,存储空间获取模块601包括:
存储空间判断单元,配置为判断各存储空间是否均大于或等于所述待部署的深度学习模型的大小;
通信接口建立单元,配置为若各存储空间大于或等于所述待部署的深度学习模型的大小,则建立各存储空间之间的通信接口连接;
依赖库删除单元,配置为若存在所述存储空间小于所述待部署的深度学习模型的大小,则删除所述存储空间中与所述深度学习模型无关的外部依赖库。
在另一示例性的实施例中,通信接口部署模块602包括:
单元存储函数获取单元,配置为根据所述存储空间的类型,获取各存储空间对应的存储函数;
接口连接单元,配置为将各存储空间的接口信息输入对应的存储函数中,使用存储函数建立不同存储空间之间的通信接口连接。
在另一示例性的实施例中,个性化拓展选项部署模块603包括:
张量获取单元,配置为基于所述深度学习模型的特性,获取所述深度学习模型所需的张量数据;
个性化拓展选项获取单元,配置为将所述张量数据以算子或函数的形式部署在对应的存储空间中,构成个性化拓展选项。
需要说明的是,上述实施例所提供的,深度学习模型的内存管理装置与上述实施例所提供的,深度学习模型的内存管理方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的深度学习模型的内存管理装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的深度学习模型的内存管理方法。
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(Central Processing Unit,CPU)701,其可以根据存储在只读存储器(Read-Only Memory,ROM)702中的程序或者从储存部分708加载到随机访问存储器(Random Access Memory,RAM)703中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output,I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707;包括硬盘等的储存部分708;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入储存部分708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前所述的深度学习模型的内存管理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的深度学习模型的内存管理方法。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种深度学习模型的内存管理方法,其特征在于,用于在设备上部署深度学习模型,所述方法包括:
在待部署设备上获取多个存储空间;
使用预设的存储函数,建立各存储空间之间的通信接口连接,以实现不同存储空间之间的数据传输;
在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项;
根据所述个性化拓展选项和通信接口,在所述待部署设备上部署所述深度学习模型。
2.根据权利要求1所述的深度学习模型的内存管理方法,其特征在于,所述在待部署设备上获取多个存储空间之后,还包括:
判断各存储空间是否能容纳所述待部署的深度学习模型;
若各存储空间均能容纳所述待部署的深度学习模型,则建立各存储空间之间的通信接口连接;
若存在至少一个存储空间无法容纳所述待部署的深度学习模型,则删除无法容纳所述深度学习模型的存储空间中,与所述深度学习模型无关的外部依赖库。
3.根据权利要求1所述的深度学习模型的内存管理方法,其特征在于,所述存储空间的类型包括CPU存储空间和GPU存储空间。
4.根据权利要求3所述的深度学习模型的内存管理方法,其特征在于,所述使用预设的存储函数,建立各存储空间之间的通信接口连接,包括:
根据所述存储空间的类型,获取各存储空间对应的存储函数;
将各存储空间的接口信息输入对应的存储函数中,使用存储函数建立不同存储空间之间的通信接口连接。
5.根据权利要求1所述的深度学习模型的内存管理方法,其特征在于,所述在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项,包括:
基于所述深度学习模型的特性,获取所述深度学习模型所需的张量数据;
将所述张量数据以算子或函数的形式部署在对应的存储空间中,构成个性化拓展选项。
6.根据权利要求1所述的深度学习模型的内存管理方法,其特征在于,所述在待部署设备上获取多个存储空间之后,还包括:在各存储空间中加入cuda流,以实现数据同步传输。
7.根据权利要求1所述的深度学习模型的内存管理方法,其特征在于,所述在所述待部署设备上部署所述深度学习模型之后,还包括:对所述待部署设备进行测试,以保证深度学习模型的正常运行。
8.一种深度学习模型的内存管理装置,其特征在于,所述装置包括:
存储空间获取模块,配置为在待部署设备上获取多个存储空间;
通信接口部署模块,配置为使用预设的存储函数,建立各存储空间之间的通信接口连接,以实现不同存储空间之间的数据传输;
个性化拓展选项部署模块,配置为在各存储空间中,添加与所述深度学习模型相关联的张量数据的算法,配置所述深度学习模型的个性化拓展选项;
深度学习模型部署模块,配置为根据所述个性化拓展选项和通信接口,在所述待部署设备上部署所述深度学习模型。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述的深度学习模型的内存管理方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的深度学习模型的内存管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211530327.0A CN115794400A (zh) | 2022-11-30 | 2022-11-30 | 深度学习模型的内存管理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211530327.0A CN115794400A (zh) | 2022-11-30 | 2022-11-30 | 深度学习模型的内存管理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115794400A true CN115794400A (zh) | 2023-03-14 |
Family
ID=85444501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211530327.0A Pending CN115794400A (zh) | 2022-11-30 | 2022-11-30 | 深度学习模型的内存管理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794400A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306856A (zh) * | 2023-05-17 | 2023-06-23 | 之江实验室 | 一种基于搜索的深度学习模型部署方法及装置 |
-
2022
- 2022-11-30 CN CN202211530327.0A patent/CN115794400A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306856A (zh) * | 2023-05-17 | 2023-06-23 | 之江实验室 | 一种基于搜索的深度学习模型部署方法及装置 |
CN116306856B (zh) * | 2023-05-17 | 2023-09-05 | 之江实验室 | 一种基于搜索的深度学习模型部署方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7029554B2 (ja) | 深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
JP7087079B2 (ja) | 深層学習アプリケーションのための堅牢な勾配重み圧縮方式 | |
CN110795219A (zh) | 适用于多种计算框架的资源调度方法及系统 | |
CN103997544A (zh) | 一种资源下载的方法和设备 | |
CN108829518B (zh) | 用于推送信息的方法和装置 | |
JP2017111791A (ja) | シミュレートされたオペレータ・トレーニング・システムに対するクラウド・ベースのコンピューティング・クラスタのための方法、システムおよびコンピュータ・プログラム | |
WO2022022571A1 (en) | Resource allocation for tuning hyperparameters of large-scale deep learning workloads | |
CN109766319B (zh) | 压缩任务处理方法、装置、存储介质及电子设备 | |
CN113742014A (zh) | 界面渲染方法、装置、电子设备及存储介质 | |
CN110868324A (zh) | 一种业务配置方法、装置、设备和存储介质 | |
CN116028025A (zh) | 一种汽车服务化模型框架生成方法、装置、设备及介质 | |
CN114237587A (zh) | 一种基于IDEA技术服务SmartFlow的管控方法及系统 | |
CN115794400A (zh) | 深度学习模型的内存管理方法、装置、设备及存储介质 | |
CN114238237A (zh) | 任务处理方法、装置、电子设备和计算机可读存储介质 | |
Lazzaroni et al. | Employing an IoT framework as a generic serious games analytics engine | |
CN117076335A (zh) | 一种模型测试方法、系统、介质及电子设备 | |
CN117055913A (zh) | 一种感知系统环境搭建方法、装置、设备及介质 | |
CN111506393A (zh) | 一种基于arm的虚拟化装置及其使用方法 | |
CN116962807A (zh) | 视频渲染方法、装置、设备及存储介质 | |
CN115378937A (zh) | 任务的分布式并发方法、装置、设备和可读存储介质 | |
CN112817581A (zh) | 一种轻量级智能服务构建和运行支撑方法 | |
CN114741092B (zh) | 传统应用的多租户部署方法、装置、设备及存储介质 | |
Fiaidhi et al. | Empowering extreme automation via zero-touch operations and GPU parallelization | |
CN116755714B (zh) | 深度神经网络模型的运行方法、装置、设备和存储介质 | |
CN113778905B (zh) | Ui设计验收方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |