CN113835887A

CN113835887A - 显存的分配方法、装置、电子设备及可读存储介质

Info

Publication number: CN113835887A
Application number: CN202111094185.3A
Authority: CN
Inventors: 李子恒; 吴志全; 于佃海; 杨嘉义; 陈凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-24

Abstract

本公开提供了一种显存的分配方法、装置、电子设备及可读存储介质，涉及计算机领域，尤其涉及芯片技术领域。具体实现方案为：响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息；基于显存占用信息为目标进程分配显存资源。基于本方案，能够根据显存占用信息对显存资源进行合理分配，避免造成不同进程之间的相互影响。

Description

显存的分配方法、装置、电子设备及可读存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及芯片技术领域，具体而言，本公开涉及一种显存的分配方法、装置、电子设备及可读存储介质。

背景技术

图形处理器(Graphic Processing Unit，GPU)，是专门为处理图形任务而产生的芯片。GPU因其具有强大的计算能力，常被用于深度学习模型的开发调试以及部署使用。

为了提升GPU的利用率，一个GPU上可以运行多个进程，但如果不能对多个进程所使用的显存资源进行合理分配，就可能会造成不同进程之间的相互影响，因此，如何对显存资源进行合理分配成为了一个重要问题。

发明内容

本公开为了解决上述缺陷中的至少一项，提供了一种显存的分配方法、装置、电子设备及可读存储介质。

根据本公开的第一方面，提供了一种显存的分配方法，该方法包括：

响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息；

基于显存占用信息为目标进程分配显存资源。

根据本公开的第二方面，提供了一种模型的部署方法，该方法包括：

确定目标进程的显存资源，目标进程用于部署目标模型，显存资源是根据上述显存的分配方法确定的；

基于显存资源部署目标模型。

根据本公开的第三方面，提供了一种显存的分配装置，该装置包括：

显存占用信息获取模块，用于响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息；

显存分配模块，用于基于显存占用信息为目标进程分配显存资源。

根据本公开的第四方面，提供了一种模型的部署装置，该装置包括：

显存资源确定模块，用于确定目标进程的显存资源，目标进程用于部署目标模型，显存资源是根据上述显存的分配方法确定的；

模型部署模块，用于基于显存资源部署目标模型。

根据本公开的第五方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与上述至少一个处理器通信连接的存储器；其中，

存储器存储有可被上述至少一个处理器执行的指令，指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行上述显存的分配方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使计算机执行上述显存的分配方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述显存的分配方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种显存的分配方法的流程示意图；

图2是本公开实施例提供的主机的结构系统图；

图3是本公开实施例提供的共享内存的结构系统图；

图4是本公开实施例提供的显存的分配方法的一种具体实施方式的流程示意图；

图5是本公开实施例提供的一种模型的部署方法的流程示意图；

图6是本公开实施例提供的一种模型的部署方式的结构示意图

图7是根据本公开提供的一种显存的分配装置的结构示意图；

图8是根据本公开提供的一种模型的部署装置的结构示意图；

图9是用来实现本公开实施例的显存的分配方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，深度学习模型的开发调试以及部署使用中，GPU通常是独占的，有可能会导致GPU的利用率较低。

在深度学习模型的开发调试阶段，由于深度学习模型的模型开发调试通常是一个不断迭代的过程，迭代过程中涉及到开发人员对模型参数的反复修改调整，这使得开发调试过程中GPU大部分时间会处于低负载状态，导致GPU的利用率较低。

在深度学习模型的部署使用阶段中，若深度学习模型的调用量较少，也会造成GPU大部分时间处于低负载状态，导致GPU的利用率较低。

为了提升GPU的利用率，可以采用在一个GPU上运行多个进程的方式，但如果不能对多个进程所使用的显存资源进行合理分配，就可能会造成不同进程之间的相互影响，因此，如何对显存资源进行合理分配成为了一个重要问题。

本申请实施例提供的显存的分配方法、装置、电子设备及可读存储介质，旨在解决现有技术的如上技术问题中的至少一个。

图1示出了本公开实施例提供的一种显存的分配方法的流程示意图，如图1中所示，该方法主要可以包括：

步骤S110：响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息；

步骤S120：基于显存占用信息为目标进程分配显存资源。

本公开实施例提供方法可以应用于搭载GPU的主机，共享内存为主机上的一块内存，可以用于在各进程之间传递消息。本方案中的共享内存可以用于在各进程之间传递显存占用信息。

本公开实施例中，显存占用信息可以包括但是不限于进程上下文信息，进程上下文信息中保存进程的诸多详细信息。

本公开实施例中，根据显存占用信息能够获知GPU的显存资源使用情况，根据显存占用信息为进程分配显存资源，能够避免不同进程所使用显存资源出现冲突，实现对显存资源的合理分配。

本公开实施例提供的方法，通过响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息，从而基于显存占用信息为目标进程分配显存资源。基于本方案，能够根据显存占用信息对显存资源进行合理分配，避免造成不同进程之间的相互影响。

本公开实施例中，通过共享内存保存显存占用信息，使得在为目标进程分配显存时，能够快速获取显存占用信息，相较于采用其他方式获取显存占用信息更为快速便捷。

本公开实施例中，通过为多个进程合理分配显存资源，实现了对多个进程的合理管控，使得一个GPU能够支持多进程的运行，由于多进程的存在，能够避免GPU长时间处于低负载状态，提升GPU的利用率。

在实际使用中，本公开实施例提供的方案可以与GPU自带资源复用机制(如时分机制或者空分机制)配合使用，在GPU自带资源复用机制的基础上结合本公开实施例提供的方案，能够大幅提升GPU的利用率。

本公开的一种可选方式中，共享内存被设置有读锁，共享内存中获取显存占用信息，包括：

确定共享内存的读锁是否处于解锁状态；

响应于共享内存的读锁处于解锁状态，从共享内存中获取显存占用信息。

本公开实施例中，多个进程都需要从共享内存中读取显存占用信息，为保证对显存占用信息的正常获取，可以为共享内存设置读锁，当共享内存的读锁处于解锁状态时，可以从共享内存中获取显存占用信息。

本公开实施例中，读锁可以被配置为支持多个线程并发读取共享内存中的显存占用信息。

本公开的一种可选方式中，在基于显存占用信息为目标进程分配显存资源之后，上述方法还包括：

将目标进程的显存占用信息写入共享内存。

本公开实施例中，在为目标进程分配显存资源之后，显存占用信息发生了变化，这时可以将目标进程的显存占用信息写入共享内存，以实现对显存占用信息的更新。

通过对显存占用信息的及时更新，能够为对后续进程合理分配显存资源提供基础。

本公开的一种可选方式中，共享内存被设置有写锁，将目标进程的显存占用信息写入共享内存，包括：

确定共享内存的写锁是否处于解锁状态；

响应于共享内存的写锁处于解锁状态，从将目标进程的显存占用信息写入共享内存。

本公开实施例中，可以通过为共享内存设置写锁，来保证同时只能有一个进程在向共享内存写入数据。当共享内存的读锁处于解锁状态时，可以认为当前没有进程在向共享内存写入数据，目标进程可以向共享内存中写入显存占用信息。

本公开实施例中，通过为共享内存配置读写锁，保证可以对共享内存进行并发读取和独占写入，即同时只能有一个进程在向共享内存写入数据，或者多个进程在向共享内存并发读取数据。

本公开实施例中，读写锁可以基于信号量实现。

本公开的一种可选方式中，上述方法还包括：

创建虚拟显存资源；

基于显存占用信息为目标进程分配显存资源，包括：

基于显存占用信息为目标进程分配虚拟显存资源。

本公开实施例中，在通过GPU处理任务的过程中，GPU可以处于低负载情况，可以通过创建虚拟显存资源来实现显存的超发，使得GPU能够承载更多的任务，以提升GPU的利用率。

本公开实施例中，可以为目标进程分配虚拟显存资源，共享内存中的显存占用信息也与虚拟显存资源相对应。

作为一个示例，可以将目标进程所分配显存资源的统一虚拟寻址(unifiedvirtual addressing，UVA)存储至共享内存中。

本公开的一种可选方式中，创建虚拟显存资源，包括：

基于物理内存资源以及物理显存资源，创建虚拟显存资源。

其中，物理内存资源可以为主机CPU的内存资源，物理显存资源可以为主机搭载的GPU的显存资源。

本公开实施例中，可以将物理内存资源与物理显存资源共同映射为虚拟显存资源，此时，虚拟显存资源的资源量为物理内存资源与物理显存资源之和，从而实现了显存的超发。

作为一个示例，物理显存资源的资源量为24G，物理内存资源的资源量为24G，创建出的虚拟显存资源的资源量为48G。

显卡厂商NVIDIA推出了统一计算设备架构(Compute Unified DeviceArchitecture，CUDA)，可以通过CUDA中提供的统一内存(Unified Memory，UM)创建虚拟显存资源。

本公开的一种可选方式中，基于显存占用信息为目标进程分配显存资源，包括：

基于显存占用信息确定当前的显存使用量；

响应于显存使用量不大于预设阈值，基于显存占用信息为目标进程分配显存资源。

本公开实施例中，可以通过显存使用量的预设阈值，来控制对显存资源的分配。具体而言，可以在当前的显存使用量小于预设阈值时，认为仍存在可用的显存资源，这时可以为目标进程分配显存资源。

在实际使用中，可以预设阈值可以配置为虚拟显存资源的资源总量，即为物理内存资源与物理显存资源之和。

作为一个示例，可以将物理显存的资源量设置为第一阈值，将虚拟显存资源的资源总量设置为第二阈值，当显存使用量大于第一阈值小于第二阈值时，将当前的工作模式指定为软限超发模式，即显存使用量大于实际的物理显存的资源量，基于虚拟显存资源实现显存的超发，此模式下仍可继续为进程分配显存资源。当显存使用量不小于第二阈值时，将当前的工作模式指定为硬限超发模式，即显存使用量已大于虚拟显存资源的资源总量，此模式下不可继续为进程分配显存资源。

本公开的一种可选方式中，检测目标进程的显存分配请求，包括：

当检测到目标进程通过调用CUDA驱动发起的显存分配请求，劫持显存分配请求。

本公开实施例中，可以根据本例中的显存分配方法的逻辑开发动态链接库(Dynamic Link Library，DLL)，将DLL注入目标进程，使得当检测到目标进程通过调用CUDA驱动发起的显存分配请求时，通过钩子(hook)劫持显存分配请求，执行本例中的显存分配方法。

通过将本例中的显存分配方法开发DLL，使得本方案部署简单，直接拷贝动态链接库即可。同时，通过DLL实现本方案，使得本方案的处理过程都发生在业务程序启动之后，无需修改业务代码，整个过程对业务无感。

本公开的一种可选方式中，上述方法还包括：

响应于接收到对目标显存占用信息的查询请求，从共享内存中查询目标显存占用信息。

本公开实施例中，当外部其他进程如nvidia-smi命令调用CUDA驱动的查询接口，查询显存占用信息时，可以从共享内存中进行查询，能够屏蔽底层的显存调度细节，实现对显存占用信息的快速查询。

作为一个示例，图2中示出了本公开实施例提供的主机的结构系统图，其中，主机系统即主机。CUDA应用即CUDA应用程序，CUDA Library、。CUDA Runtime、CUDA Driver hook以及CUDA Driver为CUDA应用程序的各组成部分。其中，CUDA Library为CUDA包括的库。CUDA Runtime为CUDA运行时。CUDA Driver hook为本方案中开发的DLL中实现显存分配方法的部分。CUDA Driver即CUDA驱动。

如图2中所示，CUDA Driver hook在CUDA Driver的上层，即会将调用CUDA驱动发起的显存分配请求劫持至CUDA Driver hook，执行本方案中显存分配方法的相应步骤。

作为一个示例，图3中示出了本公开实施例提供的共享内存的结构系统图，其中，CUDA进程1、CUDA进程2与CUDA进程3为当前运行的各进程。信号量读写锁，即本方案中基于信号量实现的共享内存的读写锁。使用共享内存记录进程信息，即使用共享内存保存显存占用信息。显存占用信息以进程识别号(Process Identification，PID)1：上下文信息、PID2：上下文信息、PID3：上下文信息的形式存储。nvidia-smi，即通过vidia-smi命令调用CUDA驱动的查询接口返回显存占用信息。

本例中，共享内存可以存在于操作系统的用户空间，或者Docker容器中等隔离环境中。

作为一个示例，图4中示出了本公开实施例提供的显存分配方法的一种具体实施方式的流程示意图。

如图4中所示，CUDA驱动接口(CUDA Driver Interface)，包括初始化应用程序接口(Application Programming Interface，API),显存分配API以及显存占用查询API。

CUDA应用程序通过初始化API发起对目标进程的初始化请求，而后在共享内存中对目标进程进行初始化，并创建目标进程的显存占用信息。

CUDA应用程序通过显存分配API发起对目标进程的显存分配请求，而后获取共享内存中显存占用信息，并在软限超发模式或者硬限模式下为目标进程分配显存资源。在完成目标视频的显存资源分配后，更新共享内存中的显存占用信息。

CUDA应用程序通过显存占用查询API发起对显存占用信息查询请求，而后在共享内存中查询显存占用信息，并通过显存占用查询API返回。

图5示出了本公开实施例提供的一种模型的部署方法的流程示意图，如图5中所示，该方法主要可以包括：

步骤S510：确定目标进程的显存资源，目标进程用于部署目标模型，显存资源是基于上述显存的分配方法确定的；

步骤S520：基于显存资源部署目标模型。

本公开实施例中，目标模型可以为一个或多个，显存资源可以为一张GPU上的显存资源。在通过GPU部署模型时，为提升显存资源的利用率，可以在一张GPU上部署多个模型。

本公开实施例中，可以通过上述的显存的分配方法为用于部署目标模型的目标进程分配显存资源，以便在存在多个目标模型时，对多个目标模型所占用的显存资源进行合理分配。

本公开实施例提供的方法，通过基于上述显存的分配方法确定用于部署目标模型的目标进程的显存资源，而后基于显存资源部署目标模型。基于本方案，能够实现在部署模型时对显存资源进行合理分配。

本公开实施例中，可以将部分调用量较低，时延要求不高的模型集中部署于同一张GPU，并创建该GPU的虚拟显存资源用于对模型的部署。

本公开的一种可选实施方式中，上述方法还包括：

当接收到模型调用请求时，确定模型调用请求是否满足预设条件；

若满足，则通过目标模型对模型调用请求进行处理。

本公开实施例中，部署于同一张GPU的多个目标模型可以用于服务容灾，即在各目标模型分别独占一张GPU的基础上，将多个目标模型通过本例中的方式部署于同一张GPU。这种部署方式中，常规情况下可以由独占GPU的模型提供服务，而当一些极端情况下，如对模型调用量较高时，可以由本例中共同部署于一张GPU中的模型提供服务。

本公开实施例中，可以将预设时长作为周期，统计各周期内的模型的调用量，预设条件可以为在接收到模型调用请求的前一个周期内模型的条用量大于预设值。当模型调用请求满足预设条件时，可以认为当前的模型调用量较高，可以通过目标模型提供服务。

图6中示出了本公开实施例提供的一种模型的部署方式的结构示意图。如图6中所示，GPU1上部署有模型1，GPU2上部署有模型2，GPU3上部署有模型3。常规流量，即常规情况下模型调用量较低时。常规流量下可以将模型调用请求调度至独占GPU的模型进行处理。

GPU4上同时部署有模型1、模型2以及模型3，并且GPU4上通过创建虚拟显存实现对模型1、模型2以及模型3的部署。应急流量，即极端情况下下模型调用量较高时，这时各独占显卡上部署的模型的负载可能已经饱和，这时可以将模型调用请求调度至GPU4上部署的模型进行处理。

通过本例中提供的模型的部署方式，实现了对服务的容灾，满足了极端情况下模型调用需求，同时能够提升GPU的利用率。

基于与图1中所示的方法相同的原理，图7示出了本公开实施例提供的一种显存的分配装置的结构示意图，如图7所示，该显存的分配装置70可以包括：

显存占用信息获取模块710，用于响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息；

显存分配模块720，用于基于显存占用信息为目标进程分配显存资源。

本公开实施例提供的装置，通过响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息，从而基于显存占用信息为目标进程分配显存资源。基于本方案，能够根据显存占用信息对显存资源进行合理分配，避免造成不同进程之间的相互影响。

可选地，共享内存被设置有读锁，显存占用信息获取模块在从共享内存中获取显存占用信息时，具体用于：

确定共享内存的读锁是否处于解锁状态；

可选地，上述装置还包括：

共享内存写入模块，用于在基于显存占用信息为目标进程分配显存资源之后，将目标进程的显存占用信息写入共享内存。

可选地，共享内存被设置有写锁，共享内存写入模块在将目标进程的显存占用信息写入共享内存时，具体用于：

确定共享内存的写锁是否处于解锁状态；

可选地，上述装置还包括：

虚拟显存创建模块，用于创建虚拟显存资源；

显存分配模块具体用于：

基于显存占用信息为目标进程分配虚拟显存资源。

可选地，虚拟显存创建模块具体用于：

基于物理内存资源以及物理显存资源，创建虚拟显存资源。

可选地，显存分配模块具体用于：

基于显存占用信息确定当前的显存使用量；

可选地，显存占用信息获取模块在检测目标进程的显存分配请求时，具体用于：

响应于检测到目标进程通过调用CUDA驱动发起的显存分配请求，劫持显存分配请求。

可选地，上述装置还包括：

显存占用信息查询模块，用于响应于接收到对目标显存占用信息的查询请求，从共享内存中查询目标显存占用信息。

可以理解的是，本公开实施例中的显存的分配装置的上述各模块具有实现图1中所示的实施例中的显存的分配方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述显存的分配装置的各模块的功能描述具体可以参见图1中所示实施例中的显存的分配方法的对应描述，在此不再赘述。

基于与图5中所示的方法相同的原理，图8示出了本公开实施例提供的一种模型的部署装置的结构示意图，如图8所示，该模型的部署装置80可以包括：

显存资源确定模块810，用于确定目标进程的显存资源，目标进程用于部署目标模型，显存资源是根据上述的显存的分配方法确定的；

模型部署模块820，用于基于显存资源部署目标模型。

可选地，上述装置还包括：

模型调用请求接收模块，用于在接收到模型调用请求时，确定模型调用请求是否满足预设条件；

模型调用请求处理模块，用于在模型调用请求满足预设条件时，通过目标模型对模型调用请求进行处理。

可以理解的是，本公开实施例中的模型的部署装置的上述各模块具有实现图5中所示的实施例中的模型的部署方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述模型的部署装置的各模块的功能描述具体可以参见图5中所示实施例中的模型的部署方法的对应描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例提供的显存的分配方法。

该电子设备与现有技术相比，通过响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息，从而基于显存占用信息为目标进程分配显存资源。基于本方案，能够根据显存占用信息对显存资源进行合理分配，避免造成不同进程之间的相互影响。

该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例提供的显存的分配方法。

该可读存储介质与现有技术相比，通过响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息，从而基于显存占用信息为目标进程分配显存资源。基于本方案，能够根据显存占用信息对显存资源进行合理分配，避免造成不同进程之间的相互影响。

该计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例提供的显存的分配方法。

该计算机程序产品与现有技术相比，通过响应于检测到目标进程的显存分配请求，从共享内存中获取显存占用信息，从而基于显存占用信息为目标进程分配显存资源。基于本方案，能够根据显存占用信息对显存资源进行合理分配，避免造成不同进程之间的相互影响。

图9示出了可以用来实施本公开的实施例的示例电子设备2000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备2000包括计算单元2010，其可以根据存储在只读存储器(ROM)2020中的计算机程序或者从存储单元2080加载到随机访问存储器(RAM)2030中的计算机程序，来执行各种适当的动作和处理。在RAM 2030中，还可存储设备2000操作所需的各种程序和数据。计算单元2010、ROM 2020以及RAM 2030通过总线2040彼此相连。输入/输出(I/O)接口2050也连接至总线2040。

设备2000中的多个部件连接至I/O接口2050，包括：输入单元2060，例如键盘、鼠标等；输出单元2070，例如各种类型的显示器、扬声器等；存储单元2080，例如磁盘、光盘等；以及通信单元2090，例如网卡、调制解调器、无线通信收发机等。通信单元2090允许设备2000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元2010可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元2010的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元2010执行本公开实施例中所提供的显存的分配方法。例如，在一些实施例中，执行本公开实施例中所提供的显存的分配方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元2080。在一些实施例中，计算机程序的部分或者全部可以经由ROM 2020和/或通信单元2090而被载入和/或安装到设备2000上。当计算机程序加载到RAM 2030并由计算单元2010执行时，可以执行本公开实施例中所提供的显存的分配方法的一个或多个步骤。备选地，在其他实施例中，计算单元2010可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开实施例中所提供的显存的分配方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种显存的分配方法，包括：

响应于检测到目标进程的显存分配请求，从共享内存中获取所述显存占用信息；

基于所述显存占用信息为所述目标进程分配显存资源。

2.根据权利要求1所述的方法，其中，所述共享内存被设置有读锁，所述共享内存中获取所述显存占用信息，包括：

确定所述共享内存的读锁是否处于解锁状态；

响应于所述共享内存的读锁处于解锁状态，从共享内存中获取所述显存占用信息。

3.根据权利要求1或2所述的方法，在所述基于所述显存占用信息为所述目标进程分配显存资源之后，所述方法还包括：

将所述目标进程的显存占用信息写入所述共享内存。

4.根据权利要求3所述的方法，所述共享内存被设置有写锁，所述将所述目标进程的显存占用信息写入所述共享内存，包括：

确定所述共享内存的写锁是否处于解锁状态；

响应于所述共享内存的写锁处于解锁状态，从将所述目标进程的显存占用信息写入所述共享内存。

5.根据权利要求1-4中任一项所述的方法，还包括：

创建虚拟显存资源；

所述基于所述显存占用信息为所述目标进程分配显存资源，包括：

基于所述显存占用信息为所述目标进程分配虚拟显存资源。

6.根据权利要求5所述的方法，所述创建虚拟显存资源，包括：

基于物理内存资源以及物理显存资源，创建虚拟显存资源。

7.根据权利要求1-6中任一项所述的方法，所述基于所述显存占用信息为所述目标进程分配显存资源，包括：

基于所述显存占用信息确定当前的显存使用量；

响应于所述显存使用量不大于预设阈值，基于所述显存占用信息为所述目标进程分配显存资源。

8.根据权利要求1-7中任一项所述的方法，检测目标进程的显存分配请求，包括：

响应于检测到目标进程通过调用统一计算设备架构CUDA驱动发起的显存分配请求，劫持所述显存分配请求。

9.根据权利要求1-7中任一项所述的方法，还包括：

响应于接收到对目标显存占用信息的查询请求，从所述共享内存中查询所述目标显存占用信息。

10.一种模型的部署方法，包括：

确定目标进程的显存资源，所述目标进程用于部署目标模型，所述显存资源是基于权利要求1-9中任一项所述的方法确定的；

基于所述显存资源部署所述目标模型。

11.根据权利要求10所述的方法，还包括：

当接收到模型调用请求时，确定所述模型调用请求是否满足预设条件；

若满足，则通过所述目标模型对所述模型调用请求进行处理。

12.一种显存的分配装置，包括：

显存占用信息获取模块，用于响应于检测到目标进程的显存分配请求，从共享内存中获取所述显存占用信息；

显存分配模块，用于基于所述显存占用信息为所述目标进程分配显存资源。

13.根据权利要求12所述的装置，还包括：

虚拟显存创建模块，用于创建虚拟显存资源；

所述显存分配模块具体用于：

基于所述显存占用信息为所述目标进程分配虚拟显存资源。

14.根据权利要求13所述的装置，所述虚拟显存创建模块具体用于：

基于物理内存资源以及物理显存资源，创建虚拟显存资源。

15.根据权利要求12-14中任一项所述的装置，显存占用信息获取模块在检测目标进程的显存分配请求时，具体用于：

响应于检测到目标进程通过调用CUDA驱动发起的显存分配请求，劫持所述显存分配请求。

16.一种模型的部署装置，包括：

显存资源确定模块，用于确定目标进程的显存资源，所述目标进程用于部署目标模型，所述显存资源是根据权利要求1-9中任一项所述的方法确定的；

模型部署模块，用于基于所述显存资源部署所述目标模型。

17.根据权利要求16所述的装置，还包括：

模型调用请求接收模块，用于在接收到模型调用请求时，确定所述模型调用请求是否满足预设条件；

模型调用请求处理模块，用于在所述模型调用请求满足预设条件时，通过所述目标模型对所述模型调用请求进行处理。

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。