CN116385255A

CN116385255A - 一种基于gpu资源的模型调度方法、装置、设备及介质

Info

Publication number: CN116385255A
Application number: CN202310372260.0A
Authority: CN
Inventors: 朱国华
Original assignee: Shenzhen Lichi Semiconductor Technology Co ltd
Current assignee: Shenzhen Lichi Semiconductor Technology Co ltd
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-07-04

Abstract

本公开提供了一种基于GPU资源的模型调度方法、装置、设备及介质，所述方法包括：接收服务器发送的推理模型部署文件；基于模型部署文件针对目标推理模型执行模型推理，确定目标推理模型的各个节点的推理性能数据，并将各个节点的推理性能数据发送至所述服务器；接收服务器基于推理性能数据和芯片的GPU当前剩余资源对目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件；若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在目标推理模型中的排列顺序依次调用目标部署文件中的子推理模型，并针对子推理模型执行模型推理。采用该方法可以将更多的GPU资源用于执行图形渲染保证图形渲染帧率稳定。

Description

一种基于GPU资源的模型调度方法、装置、设备及介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种基于GPU资源的模型调度方法、装置、设备及介质。

背景技术

GPU(Graphics Processing Unit，图形处理器)是一种专门在个人电脑、工作站、游戏机和一些移动设备上执行图像运算工作的微处理器。GPU中可以执行的图像运算工作包括但不限于图形渲染任务和模型推理计算任务。

在GPU本身资源有限且GPU需要同时执行图形渲染任务和模型推理计算任务的情况下，虽然计算机驱动端可以实现图形渲染任务和模型推理计算任务的并发操作，但如果模型推理计算任务占用过多GPU资源，由于目前GPU执行模型推理计算任务时每次必须推理完整的模型，如果模型推理计算时间过长，则模型推理计算任务会一直占用GPU的资源，则会导致GPU分配给图形渲染任务的资源减少，进而导致计算机的图形渲染性能大幅下降。

因此，在GPU需要同时执行图形渲染任务和模型推理计算任务的情况下，如何保证计算机的图形渲染性能成为了一个亟待解决的问题。

发明内容

本公开提供了一种基于GPU资源的模型调度方法、装置、设备及介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种基于GPU资源的模型调度方法，应用于芯片，所述方法包括：

接收服务器发送的推理模型部署文件，其中，所述推理模型部署文件为所述服务器对目标推理模型进行编译得到的文件；

基于所述推理模型部署文件针对所述目标推理模型执行模型推理，确定所述目标推理模型的各个节点的推理性能数据，并将所述推理性能数据发送至所述服务器；

接收所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件；

若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

在一可实施方式中，所述方法还包括：

若监测到新的图形渲染任务需要执行，则在执行完当前的子推理模型后，执行所述新的图形渲染任务；

返回所述若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型的步骤，直至所述目标部署文件中的子推理模型均被调用完毕。

在一可实施方式中，所述方法还包括：

每调用所述目标部署文件中的一个子推理模型时，确定子推理模型的调用计数加1；

当所述调用计数等于所述目标部署文件中的子推理模型的总数时，确定模型推理完成。

在一可实施方式中，所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件，包括：

所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，并根据所述模型分割配置文件中的待分割节点信息对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件。

在一可实施方式中，所述目标推理模型的每个节点的推理性能数据包括该节点所消耗的GPU资源；

所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，包括：

所述服务器针对所述目标推理模型的每个节点，若该节点对应的第一节点组中各节点所消耗的GPU资源之和不大于所述芯片的GPU当前剩余资源，且，该节点对应的第二节点组中各节点所消耗的GPU资源之和大于所述芯片的GPU当前剩余资源，则将该节点的信息确定为待分割节点信息，得到模型分割配置文件，其中，该节点对应的第一节点组包括该节点和该节点与在该节点之前的待分割节点之间各个节点，该节点对应的第二节点组包括该节点、该节点与在该节点之前的待分割节点之间各个节点以及该节点之后的一个节点。

在一可实施方式中，在所述若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型之前，所述方法还包括：

获取所述目标推理模型的各个节点的带宽信息；

根据所述带宽信息重新对所述目标推理模型进行分割，并用分割后的文件更新所述目标部署文件。

根据本公开的第二方面，提供了一种基于GPU资源的模型调度方法，应用于服务器，所述方法包括：

对目标推理模型进行编译，确定推理模型部署文件，并将所述推理模型部署文件发送至芯片；

接收所述芯片基于所述推理模型部署文件确定出的所述目标推理模型的各个节点的推理性能数据；

基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件；

将所述目标部署文件发送至所述芯片，以使所述芯片在当前执行的图形渲染任务完成且未监测到新的图形渲染任务时，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

在一可实施方式中，所述基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件，包括：

基于所述推理性能数据和所述芯片的GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，其中，所述模型分割配置文件包括多个待分割节点信息；

根据所述待分割节点信息对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件。

所述基于所述推理性能数据和所述芯片的GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，包括：

针对所述目标推理模型的每个节点，若该节点对应的第一节点组中各节点所消耗的GPU资源之和不大于所述芯片的GPU当前剩余资源，且，该节点对应的第二节点组中各节点所消耗的GPU资源之和大于所述芯片的GPU当前剩余资源，则将该节点的信息确定为待分割节点信息，得到模型分割配置文件，其中，该节点对应的第一节点组包括该节点和该节点与在该节点之前的待分割节点之间各个节点，该节点对应的第二节点组包括该节点、该节点与在该节点之前的待分割节点之间各个节点以及该节点之后的一个节点。

根据本公开的第三方面，提供了一种基于GPU资源的模型调度装置，应用于芯片，所述装置包括：

第一文件接收模块，用于接收服务器发送的推理模型部署文件，其中，所述推理模型部署文件为所述服务器对目标推理模型进行编译得到的文件；

性能数据确定模块，用于基于所述推理模型部署文件针对所述目标推理模型执行模型推理，确定所述目标推理模型的各个节点的推理性能数据，并将所述推理性能数据发送至所述服务器；

第二文件接收模块，用于接收所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件；

任务处理模块，用于若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

在一可实施方式中，所述任务处理模块，还用于若监测到新的图形渲染任务需要执行，则在执行完当前的子推理模型后，执行所述新的图形渲染任务；返回所述若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型的步骤，直至所述目标部署文件中的子推理模型均被调用完毕。

根据本公开的第四方面，提供了一种基于GPU资源的模型调度装置，应用于服务器，所述装置包括：

模型编译模块，用于对目标推理模型进行编译，确定推理模型部署文件，并将所述推理模型部署文件发送至芯片；

性能数据接收模块，用于接收所述芯片基于所述推理模型部署文件确定出的所述目标推理模型的各个节点的推理性能数据；

部署文件确定模块，用于基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件；

部署文件发送模块，用于将所述目标部署文件发送至所述芯片，以使所述芯片在当前执行的图形渲染任务完成且未监测到新的图形渲染任务时，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的基于GPU资源的模型调度方法、装置、设备及介质，接收服务器发送的推理模型部署文件；基于模型部署文件针对目标推理模型执行模型推理，确定目标推理模型的各个节点的推理性能数据，并将各个节点的推理性能数据发送至所述服务器；接收服务器基于推理性能数据和芯片的GPU当前剩余资源对目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件；若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在目标推理模型中的排列顺序依次调用目标部署文件中的子推理模型，并针对子推理模型执行模型推理。即可以通过对目标推理模型进行分割，得到多个子推理模型，这样在GPU需要同时执行图形渲染任务和模型推理计算任务时，GPU每次可以只调用一个子推理模型，将更多的GPU资源用于执行图形渲染，保证图形渲染帧率稳定。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例提供的基于GPU资源的模型调度方法的一种实现流程示意图；

图2示出了本公开实施例提供的一种服务器与芯片之间的数据交互示意图；

图3示出了本公开实施例提供的目标部署文件确定示意图；

图4示出了本公开实施例提供的一种芯片GPU调用子推理模型示意图；

图5示出了一种采用本公开实施例提供的基于GPU资源的模型调度方法的芯片GPU执行任务示意图；

图6示出了本公开实施例提供的基于GPU资源的模型调度方法的另一种实现流程示意图；

图7示出了本公开实施例提供的应用于芯片的一种基于GPU资源的模型调度装置的一种结构示意图；

图8示出了本公开实施例提供的应用于服务器的一种基于GPU资源的模型调度装置的一种结构示意图；

图9示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

GPU的资源可以分为计算模块和图形处理模块。计算模块可以用于执行模型推理计算任务，图形处理模块可以用于执行图形渲染任务。由于目前GPU执行模型推理计算任务时每次必须推理完整的模型，如果模型推理计算时间过长，则模型推理计算任务会一直占用GPU的资源，则会导致GPU分配给图形渲染任务的资源减少，进而导致计算机的图形渲染性能大幅下降。基于此，为了在GPU需要同时执行图形渲染任务和模型推理计算任务的情况下，保证计算机的图形渲染性能，本公开提供了一种基于GPU资源的模型调度方法、装置、设备及介质。本公开提供的基于GPU资源的模型调度方法可以应用于芯片和服务器等电子设备。

下面将结合本公开实施例中的附图，对本公开实施例的技术方案进行描述。

图1示出了本公开实施例提供的基于GPU资源的模型调度方法的一种实现流程示意图。如图1所示，该方法应用于芯片，该芯片可以是SoC(System on Chip，片上系统)芯片，所述方法包括：

S101，接收服务器发送的推理模型部署文件。

其中，所述推理模型部署文件为所述服务器对目标推理模型进行编译得到的文件。目标推理模型可以是需要芯片GPU的计算模块执行计算处理的任何模型。

本公开中，服务器和芯片都开启了RPC(Remote Procedure Call Protocol，远程过程调用协议)服务，服务器和芯片之间可以通过RPC服务进行数据传输。因此，芯片可以通过RPC服务接收服务器发送的推理模型部署文件。

S102，基于所述推理模型部署文件针对所述目标推理模型执行模型推理，确定所述目标推理模型的各个节点的推理性能数据，并将所述推理性能数据发送至所述服务器。

芯片GPU的计算模块可以根据所述推理模型部署文件调用目标推理模型并执行模型推理任务。GPU在执行模型推理任务时，可以记录目标推理模型的每个节点所消耗的GPU资源，即推理时长，作为该节点的推理性能数据。当目标推理模型被推理完毕后，芯片可以将记录的目标推理模型的各个节点的推理性能数据通过RPC发送给服务器。

S103，接收所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件。

本公开中，服务器在接收到芯片发送的目标推理模型的各个节点的推理性能数据后，可以基于所述目标推理模型的各个节点的推理性能数据和芯片GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，其中，所述模型分割配置文件包括目标推理模型对应的各个子推理模型的待分割节点信息。然后，服务器可以根据所述模型分割配置文件中的待分割节点信息对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件。

具体的，在一可实施方式中，所述目标推理模型的每个节点的推理性能数据包括该节点所消耗的GPU资源，则服务器可以针对所述目标推理模型的每个节点，若该节点对应的第一节点组中各节点所消耗的GPU资源之和不大于所述芯片的GPU当前剩余资源，且，该节点对应的第二节点组中各节点所消耗的GPU资源之和大于所述芯片的GPU当前剩余资源，则将该节点的信息确定为待分割节点信息，得到模型分割配置文件，其中，该节点对应的第一节点组包括该节点和该节点与在该节点之前的待分割节点之间各个节点，该节点对应的第二节点组包括该节点、该节点与在该节点之前的待分割节点之间各个节点以及该节点之后的一个节点。举例说明，目标推理模型的节点按照推理顺序可以包括节点a、节点b、节点c和节点d，每个节点的推理性能数据为该节点所消耗的GPU资源，具体可以为该节点所对应的推理时长。每个节点所对应的推理时长是指对目标推理模型中该节点与该节点的前一节点之间的模型部分执行模型推理所消耗的模型推理时长。若节点a、节点b、节点c和节点d分别对应的推理时长为6毫秒、7毫秒、10毫秒和11毫秒，且GPU当前剩余资源可以用于执行模型推理的时长为15毫秒，则可以确定节点a不存在对应的第一节点组，节点a对应的第二节点组中各节点所消耗的GPU资源之和不大于所述芯片的GPU当前剩余资源，因此节点a不能被确定为分割节点，即节点a的信息不能被确定为待分割节点信息；节点b对应的第一节点组包括节点a和节点b，节点b对应的第二节点组包括节点a、节点b和节点c，则可以确定该节点b对应的第一节点组中各节点所消耗的GPU资源之和不大于GPU当前剩余资源，且，节点b对应的第二节点组中各节点所消耗的GPU资源之和大于GPU当前剩余资源，因此，可以将节点b确定为待分割节点，即将节点b的信息确定为待分割节点信息；同理，还可以确定出节点c的信息为待分割节点信息，节点d的信息为待分割节点信息，得到模型分割配置文件。

具体的，在另一可实施方式中，可以将所述目标推理模型的每个节点的信息均确定为待分割节点信息，得到模型分割配置文件。

图2示出了本公开实施例提供的一种服务器与芯片之间的数据交互示意图。如图2所示，“电脑”是指服务器，“模型”是指目标推理模型。服务器和芯片之间通过RPC服务实现数据交互。服务器编译模型然后生成模型部署文件，通过RPC服务将生成的模型部署文件发送到芯片。芯片接收到服务器发送的模型部署文件后，可以通过模型部署文件调用模型，并对模型执行模型推理操作，得到模型每个节点的推理性能数据。然后，芯片可以将模型每个节点的推理性能数据通过RPC发送给服务器，服务器在接收到模型每个节点的推理性能数据后，可以根据每个节点所消耗的GPU资源以及GPU当前剩余资源，生成模型分割配置文件。

图3示出了本公开实施例提供的目标部署文件确定示意图。图3中“电脑”是指服务器，“模型”是指目标推理模型。在图2所示的服务器生成模型分割配置文件的基础上，如图3所示，服务器还可以根据模型分割配置文件对目标推理模型进行编译，通过编译操作生成目标部署文件。生成的目标部署文件中包括：按照模型分割配置文件中的待分割节点信息对目标推理模型进行分割后得到的多个推理模型。

S104，若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

本公开中，在芯片GPU执行完当前的图形渲染任务后，若监测到了新的图形渲染任务，为了保证计算机的图形渲染性能，芯片可以优先执行新的图形渲染任务，若没有监测到新的图形渲染任务，芯片可以按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

由于除了第一个子推理模型之外，每个子推理模型在被执行时需要前一个子推理模型执行完成所输出的执行结果数据，因此，芯片需要按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型。其中，每个子推理模型对应存在一个排列序号，芯片可以根据每个子推理模型的排列序号确定每次需要调用的子推理模型。例如，芯片调用了所述目标推理模型的子推理模型中排列序号为1的子推理模型1，在执行完子推理模型1后得到子推理模型1的输出结果数据1，然后，若当前没有监测到新的图形渲染任务，则芯片可以继续调用所述目标推理模型的子推理模型中排列序号为2的子推理模型2，利用输出结果数据1对子推理模型2执行推理，得到子推理模型2的输出结果数据2，并将输出结果数据2用于对下一个子推理模型的推理中。

采用本公开的基于GPU资源的模型调度方法，接收服务器发送的推理模型部署文件；基于模型部署文件针对目标推理模型执行模型推理，确定目标推理模型的各个节点的推理性能数据，并将各个节点的推理性能数据发送至所述服务器；接收服务器基于推理性能数据和芯片的GPU当前剩余资源对目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件；若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在目标推理模型中的排列顺序依次调用目标部署文件中的子推理模型，并针对子推理模型执行模型推理。即可以通过对目标推理模型进行分割，得到多个子推理模型，这样在GPU需要同时执行图形渲染任务和模型推理计算任务时，GPU每次可以只调用一个子推理模型，将更多的GPU资源用于执行图形渲染，保证图形渲染帧率稳定。

在一可实施方式中，在所述若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型之前，所述方法还可以包括步骤A1-A2：

步骤A1，获取所述目标推理模型的各个节点的带宽信息。

步骤A2，根据所述带宽信息重新对所述目标推理模型进行分割，并用分割后的文件更新所述目标部署文件。

具体的，可以从服务器获取目标推理模型的各个节点的带宽信息。由于节点的带宽信息反映了需要从该节点搬运的数据大小，为了减少从各个自推理模型的节点所搬运的数据大小，提高推理效率，则在所述服务器基于节点的推理性能数据和芯片的GPU当前剩余资源对目标推理模型进行分割得到包括多个子推理模型的目标部署文件后，还可以利用节点的带宽信息，确定所分割的自推理模型的节点的带宽信息是否满足预设带宽要求，进而重新对目标推理模型进行分割。

举例说明，若目标推理模型包括节点a、节点b、节点c和节点d，则可以从服务器中获取节点a、节点b、节点c和节点d每个节点对应的带宽信息。且服务器基于节点的推理性能数据和芯片的GPU当前剩余资源，确定出节点b、节点c和节点d均为待分割节点。则可以确定每个待分割节点的带宽是否小于预设带宽阈值，如果是，保留之前分割的子推理模型，如果存在待分割节点的带宽不小于预设带宽阈值，重新确定目标推理模型的各个待分割节点，使得每个待分割节点的带宽小于预设带宽阈值。例如，若预设带宽阈值为10MB，节点a、节点b、节点c和节点d的带宽分别为5MB、15MB、5MB和8MB，其中，节点b、节点c和节点d均为待分割节点，则可以确定存在待分割节点的带宽不小于预设带宽阈值(节点b的带宽不小于预设带宽阈值)，则可以重新确定节点a、节点c和节点d为待分割节点，重新各个待分割节点的带宽均小于预设带宽阈值。则可以按照节点a、节点c和节点d对目标推理模型进行分割，得到包括多个子推理模型的分割后的文件，并用包括多个子推理模型的分割后的文件更新目标部署文件，采用更新后的目标部署文件执行S104。

在一可实施方式中，芯片可以设置计数器，用于调用数量进行计数，调用数量是指芯片调用的子推理模型的数量。在芯片开始调用目标推理模型的子推理模型之前，将计数器的初始值设置为0。当芯片按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型时，每调用所述目标部署文件中的一个子推理模型时，确定子推理模型的调用计数加1；当所述调用计数等于所述目标部署文件中的子推理模型的总数时，确定模型推理完成。

如果所述调用计数等于所述目标部署文件中的子推理模型的总数，表示目标推理模型被分割后得到的各个自推理模型均被芯片调用了，当排列序号最大的一个子模型被执行完毕后，表示目标推理模型被执行完毕，则可以确定模型推理完成。

举例说明，图4示出了本公开实施例提供的一种芯片GPU调用子推理模型示意图。图4中“推理接口”是指芯片调用子推理模型所使用的接口，“计数”是指调用计数，“子图”是指目标推理模型对应的各个子推理模型。如图4所示，当芯片调用子图1时计数等于1，当芯片调用子图2时计数等于2，当芯片调用子图n时计数等于n，其中1-n就是子推理模型在目标推理模型中的排列顺序。

在一可实施方式中，所述基于GPU资源的模型调度方法还可以包括如下步骤B1-B2

步骤B1，若监测到新的图形渲染任务需要执行，则在执行完当前的子推理模型后，执行所述新的图形渲染任务。

芯片在执行每个子推理模型的同时，可以实时监测是否有新的图形渲染任务出现，如果监测到有新的图形渲染任务出现，需要在执行完当前的子推理模型后优先执行新的图形渲染任务。

步骤B2，返回所述若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型的步骤，直至所述目标部署文件中的子推理模型均被调用完毕。

举例说明，芯片调用了所述目标推理模型的子推理模型中排列序号为1的子推理模型1，在执行子推理模型1时监测到了新的图形渲染任务，则芯片在执行完子推理模型1后得到子推理模型1的输出结果数据1后，直接执行新的图形渲染任务，而不是继续调用所述目标推理模型的子推理模型中排列序号为2的子推理模型2。当芯片执行完新的图形渲染任务后，可以返回S204，监测是否又有新的图形渲染模型，如果没有监测到新的图形渲染任务，芯片可以继续调用所述目标推理模型的子推理模型中排列序号为2的子推理模型2，利用输出结果数据1对子推理模型2执行推理，得到子推理模型2的输出结果数据2，并将输出结果数据2用于对下一个子推理模型的推理中，直至所述目标部署文件中的子推理模型均被调用完毕。

例如，图5示出了一种采用本公开实施例提供的基于GPU资源的模型调度方法的芯片GPU执行任务示意图。图5中“子图”是指子推理模型，“计数”是指调用计数，调用计数的初始值设置为0，“T1”是指时间段。

如图5所示，芯片在t1时刻执行完图形渲染任务1后未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序，调用了目标部署文件中的子推理模型1(即子图1)，同时，调用计数加1后等于1，然后对子推理模型1执行模型推理。当子推理模型1被执行模型推理后，在t2时刻，监测到了图形渲染任务2，则芯片优先执行图形渲染任务2，执行完图形渲染任务2后若没有新的图形渲染任务可以继续调用下一个子推理模型，目标部署文件中的子推理模型均被调用完毕。

采用本公开的基于GPU资源的模型调度方法，可以通过对目标推理模型进行分割，得到多个子推理模型，这样在GPU需要同时执行图形渲染任务和模型推理计算任务时，GPU每次可以只调用一个子推理模型，将更多的GPU资源用于执行图形渲染，保证图形渲染帧率稳定。并且，子推理模型之间可以共享内存避免了中间数据的搬运，从而保证了模型推理的准确性。

图6示出了本公开实施例提供的基于GPU资源的模型调度方法的另一种实现流程示意图。如图6所示，该方法应用于服务器，所述方法包括：

S601，对目标推理模型进行编译，确定推理模型部署文件，并将所述推理模型部署文件发送至芯片。

服务器和芯片都开启了RPC服务，服务器和芯片之间可以通过RPC服务进行数据传输，因此服务器可以通过RPC将所述推理模型部署文件发送至芯片。

S602，接收所述芯片基于所述推理模型部署文件确定出的所述目标推理模型的各个节点的推理性能数据。

芯片在接收到所述推理模型部署文件后，芯片GPU的计算模块可以根据所述推理模型部署文件调用目标推理模型并执行模型推理任务。GPU在执行模型推理任务时，可以记录目标推理模型的每个节点所消耗的GPU资源和推理时长，作为该节点的推理性能数据。当目标推理模型被推理完毕后，芯片可以将记录的目标推理模型的各个节点的推理性能数据通过RPC发送给服务器。

S603，基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件。

其中，所述目标部署文件包括对所述目标推理模型进行分割所得到的多个子推理模型。

具体的，服务器在接收到芯片发送的目标推理模型的各个节点的推理性能数据后，可以基于所述目标推理模型的各个节点的推理性能数据和芯片GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，其中，所述模型分割配置文件包括目标推理模型对应的各个子推理模型的待分割节点信息。然后，服务器可以根据所述模型分割配置文件中的待分割节点信息对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件。

在一可实施方式中，所述目标推理模型的每个节点的推理性能数据包括该节点所消耗的GPU资源；则所述基于所述推理性能数据和所述芯片的GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，具体可以包括步骤C1：

步骤C1，针对所述目标推理模型的每个节点，若该节点对应的第一节点组中各节点所消耗的GPU资源之和不大于所述芯片的GPU当前剩余资源，且，该节点对应的第二节点组中各节点所消耗的GPU资源之和大于所述芯片的GPU当前剩余资源，则将该节点的信息确定为待分割节点信息，得到模型分割配置文件，其中，该节点对应的第一节点组包括该节点和该节点与在该节点之前的待分割节点之间各个节点，该节点对应的第二节点组包括该节点、该节点与在该节点之前的待分割节点之间各个节点以及该节点之后的一个节点。

本步骤的具体实现方式可以参考S103，此处不再赘述。

S604，将所述目标部署文件发送至所述芯片，以使所述芯片在当前执行的图形渲染任务完成且未监测到新的图形渲染任务时，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

采用本公开提供的该方法，服务器可以基于推理性能数据和芯片的GPU当前剩余资源对目标推理模型进行分割，从而确定出包括多个子推理模型的目标部署文件，并将推理模型部署文件发送给芯片。这使得芯片在需要同时执行图形渲染任务和模型推理计算任务时，GPU每次可以只调用一个子推理模型，将更多的GPU资源用于执行图形渲染，保证图形渲染帧率稳定。

基于同一发明构思，根据本公开上述实施例提供的应用于芯片的基于GPU资源的模型调度方法，相应地，本公开另一实施例还提供了应用于芯片的一种基于GPU资源的模型调度装置，其结构示意图如图7所示，具体包括：

第一文件接收模块701，用于接收服务器发送的推理模型部署文件，其中，所述推理模型部署文件为所述服务器对目标推理模型进行编译得到的文件；

性能数据确定模块702，用于基于所述推理模型部署文件针对所述目标推理模型执行模型推理，确定所述目标推理模型的各个节点的推理性能数据，并将所述推理性能数据发送至所述服务器；

第二文件接收模块703，用于接收所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件；

任务处理模块704，用于若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

采用本公开的基于GPU资源的模型调度装置，接收服务器发送的推理模型部署文件；基于模型部署文件针对目标推理模型执行模型推理，确定目标推理模型的各个节点的推理性能数据，并将各个节点的推理性能数据发送至所述服务器；接收服务器基于推理性能数据和芯片的GPU当前剩余资源对目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件；若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在目标推理模型中的排列顺序依次调用目标部署文件中的子推理模型，并针对子推理模型执行模型推理。即可以通过对目标推理模型进行分割，得到多个子推理模型，这样在GPU需要同时执行图形渲染任务和模型推理计算任务时，GPU每次可以只调用一个子推理模型，将更多的GPU资源用于执行图形渲染，保证图形渲染帧率稳定。

在一可实施方式中，所述任务处理模块704，还用于若监测到新的图形渲染任务需要执行，则在执行完当前的子推理模型后，执行所述新的图形渲染任务；返回所述若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型的步骤，直至所述目标部署文件中的子推理模型均被调用完毕。

在一可实施方式中，所述任务处理模块704，还用于每调用所述目标部署文件中的一个子推理模型时，确定子推理模型的调用计数加1；当所述调用计数等于所述目标部署文件中的子推理模型的总数时，确定模型推理完成。

在一可实施方式中，所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，并根据所述模型分割配置文件中的待分割节点信息对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件。

在一可实施方式中，所述目标推理模型的每个节点的推理性能数据包括该节点所消耗的GPU资源；所述服务器针对所述目标推理模型的每个节点，若该节点对应的第一节点组中各节点所消耗的GPU资源之和不大于所述芯片的GPU当前剩余资源，且，该节点对应的第二节点组中各节点所消耗的GPU资源之和大于所述芯片的GPU当前剩余资源，则将该节点的信息确定为待分割节点信息，得到模型分割配置文件，其中，该节点对应的第一节点组包括该节点和该节点与在该节点之前的待分割节点之间各个节点，该节点对应的第二节点组包括该节点、该节点与在该节点之前的待分割节点之间各个节点以及该节点之后的一个节点。

在一可实施方式中，所述装置还包括：

文件更新模块(图中未示出)，用于获取所述目标推理模型的各个节点的带宽信息；根据所述带宽信息重新对所述目标推理模型进行分割，并用分割后的文件更新所述目标部署文件。

采用本公开的基于GPU资源的模型调度装置，可以通过对目标推理模型进行分割，得到多个子推理模型，这样在GPU需要同时执行图形渲染任务和模型推理计算任务时，GPU每次可以只调用一个子推理模型，将更多的GPU资源用于执行图形渲染，保证图形渲染帧率稳定。并且，子推理模型之间可以共享内存避免了中间数据的搬运，从而保证了模型推理的准确性。

基于同一发明构思，根据本公开上述实施例提供的应用于服务器的基于GPU资源的模型调度方法，相应地，本公开另一实施例还提供了应用于服务器的一种基于GPU资源的模型调度装置，其结构示意图如图8所示，具体包括：

模型编译模块801，用于对目标推理模型进行编译，确定推理模型部署文件，并将所述推理模型部署文件发送至芯片；

性能数据接收模块802，用于接收所述芯片基于所述推理模型部署文件确定出的所述目标推理模型的各个节点的推理性能数据；

部署文件确定模块803，用于基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件；

部署文件发送模块804，用于将所述目标部署文件发送至所述芯片，以使所述芯片在当前执行的图形渲染任务完成且未监测到新的图形渲染任务时，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型，并针对所述子推理模型执行模型推理。

在一可实施方式中，所述部署文件确定模块803，具体用于基于所述推理性能数据和所述芯片的GPU当前剩余资源，确定针对所述目标推理模型的模型分割配置文件，其中，所述模型分割配置文件包括多个待分割节点信息；根据所述待分割节点信息对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件。

所述部署文件确定模块803，具体用于针对所述目标推理模型的每个节点，若该节点对应的第一节点组中各节点所消耗的GPU资源之和不大于所述芯片的GPU当前剩余资源，且，该节点对应的第二节点组中各节点所消耗的GPU资源之和大于所述芯片的GPU当前剩余资源，则将该节点的信息确定为待分割节点信息，得到模型分割配置文件，其中，该节点对应的第一节点组包括该节点和该节点与在该节点之前的待分割节点之间各个节点，该节点对应的第二节点组包括该节点、该节点与在该节点之前的待分割节点之间各个节点以及该节点之后的一个节点。

采用本公开提供的该装置，服务器可以基于推理性能数据和芯片的GPU当前剩余资源对目标推理模型进行分割，从而确定出包括多个子推理模型的目标部署文件，并将推理模型部署文件发送给芯片。这使得芯片在需要同时执行图形渲染任务和模型推理计算任务时，GPU每次可以只调用一个子推理模型，将更多的GPU资源用于执行图形渲染，保证图形渲染帧率稳定。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元1006，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如基于GPU资源的模型调度方法。例如，在一些实施例中，基于GPU资源的模型调度方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的基于GPU资源的模型调度方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于GPU资源的模型调度方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于GPU资源的模型调度方法，其特征在于，应用于芯片，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述服务器基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割所得到的包括多个子推理模型的目标部署文件，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标推理模型的每个节点的推理性能数据包括该节点所消耗的GPU资源；

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述若当前执行的图形渲染任务完成且未监测到新的图形渲染任务，按照各个子推理模型在所述目标推理模型中的排列顺序依次调用所述目标部署文件中的子推理模型之前，所述方法还包括：

获取所述目标推理模型的各个节点的带宽信息；

7.一种基于GPU资源的模型调度方法，其特征在于，应用于服务器，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述推理性能数据和所述芯片的GPU当前剩余资源对所述目标推理模型进行分割，得到包括多个子推理模型的目标部署文件，包括：

9.根据权利要求8所述的方法，其特征在于，所述目标推理模型的每个节点的推理性能数据包括该节点所消耗的GPU资源；

10.一种基于GPU资源的模型调度装置，其特征在于，应用于芯片，所述装置包括：

11.一种基于GPU资源的模型调度装置，其特征在于，应用于服务器，所述装置包括：

12.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6或7-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行根据权利要求1-6或7-9中任一项所述的方法。