CN112231054B

CN112231054B - 基于k8s集群的多模型推理服务部署方法及装置

Info

Publication number: CN112231054B
Application number: CN202011077010.7A
Authority: CN
Inventors: 陈清山
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-07-08
Anticipated expiration: 2040-10-10
Also published as: CN112231054A

Abstract

本发明公开了基于k8s集群的多模型推理服务部署方法及装置。所述方法包括：在k8s集群的最小调度单位中部署调度服务，并为所述调度服务配置内存、计算资源和调度策略；根据调度服务的内存部署多个模型推理服务，并将每个模型推理服务配置为使用所述调度服务的计算资源，以及配置为与所述调度服务相关联；调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务。本发明的方案实现了多个模型推理服务共享最小调度单位的能力，并且多模型推理服可以随服务负载进行弹性伸缩，部署操作较为简单。

Description

基于k8s集群的多模型推理服务部署方法及装置

技术领域

本发明属于云计算领域，尤其涉及一种基于k8s集群的多模型推理服务部署方法、装置、计算机设备及存储介质。

背景技术

随着机器学习方法在实际生产中被越来越广泛地应用，生产系统中需要部署的模型数量也是越来越多。例如机器学习应用程序提供个性化的体验往往需要训练很多模型；举例来说，新闻分类服务会训练于新闻类别的定制模型，推荐模型可以训练每个用户的使用情况历史以个性化其建议；分别训练如此多的模型主要原因是保护用户的模型和数据隐私安全。

在K8S集群中，POD资源是有数量限制的(默认情况下，每个Node可以启动110个POD实例)，在默认情况下，在100个Node规模的集群中，最多也只能部署11000推理服务，因而在现有模型数量越来越多的情况下，在一个系统中部署成千上万个模型是一个很具有挑战性的任务。此外，越来越多的模型都是基于神经网络的，此种类型的模型需要部署在GPU服务器上才能体现出较好的性能。目前部署多模型的主要方式是在系统中部署支持多模型加载的服务，例如Tensor Flow Serving、Trion Serving、AWS Multi-Model Serving，但是此类服务都是传统服务，不支持在集群中的弹性伸缩，并且操作复杂。

发明内容

有鉴于此，有必要针对以上技术问题，提供一种基于k8s集群的多模型推理服务部署方法、装置、计算机设备及存储介质。

根据本发明的一方面，提供了一种基于k8s集群的多模型推理服务部署方法，所述方法包括：

在k8s集群的最小调度单位中部署调度服务，并为所述调度服务配置内存、计算资源和调度策略；

根据调度服务的内存部署多个模型推理服务，并将每个模型推理服务配置为使用所述调度服务的计算资源，以及配置为与所述调度服务相关联；

若接收到推理任务请求，则调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务。

在其中一个实施例中，所述在k8s集群的最小调度单位中部署调度服务，并为所述调度服务配置内存、计算资源和调度策略的步骤包括：

配置所述调度服务的名称、内存大小和调度策略类型；

获取k8s集群的最小调度单位的CPU和GPU，并将所述调度服务配置为使用最小调度单位的CPU和GPU。

在其中一个实施例中，所述调度策略类型包括内存方式和服务并发方式。

在其中一个实施例中，所述根据调度服务的内存部署多个模型推理服务，并将每个模型推理服务配置为使用所述调度服务的计算资源，以及配置为与所述调度服务相关联的步骤包括：

获取每个模型推理服务所需的内存，并基于所需的内存将所述调度服务的内存分配给每个模型推理服务，其中，每个模型推理服务占用不同的内存地址；

取消每个模型推理服务的调度策略配置，以使每个模型推理服务继承所述调度服务的调度策略；

利用所述调度服务的名称将每个模型推理服务注册到所述调度服务下。

在其中一个实施例中，所述方法还包括：

利用所述调度服务从任务发送端接收推理任务请求，并通过解析确定所述任务请求对应的内存地址。

在其中一个实施例中，所述调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务的步骤包括：

所述调度服务将所述任务请求对应的内存地址与每个模型推理服务的内存地址进行匹配以确定目标模型推理服务；

所述调度服务利用所述调度策略将所述任务请求发送给所述目标模型推理服务；

利用所述目标模型推理服务响应所述任务请求以生成处理结果，并将所述处理结果返回至所述调度服务。

在其中一个实施例中，所述方法还包括：

利用所述调度服务将所述处理结果返回至所述任务发送端。

根据本发明的另一方面，提供了一种基于k8s集群的多模型推理服务部署装置，所述装置包括：

调度服务配置模块，用于在k8s集群的最小调度单位中部署调度服务，并为所述调度服务配置内存、计算资源和调度策略；

模型推理服务配置模块，用于根据调度服务的内存部署多个模型推理服务，并将每个模型推理服务配置为使用所述调度服务的计算资源，以及配置为与所述调度服务相关联；

任务处理模块，用于在接收到推理任务请求时，则调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务。

根据本发明的又一方面，还提供了一种计算机设备，包括：至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，所述处理器进行所述程序时进行前述的基于k8s集群的多模型推理服务部署方法。

根据本发明的再一方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器进行时进行前述的基于k8s集群的多模型推理服务部署方法。

上述一种基于k8s集群的多模型推理服务部署方法、装置、计算机设备及存储介质，通过最小调度单位(pod)中部署调度服务，利用调度服务的内存部署多个模型推理服务，将每个模型推理服务配置为使用调度服务的计算资源，以及配置为与所调度服务相关联，从而实现了多个模型推理服务共享pod的能力，并且多模型推理服可以随服务负载进行弹性伸缩，部署操作较为简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明一个实施中的一种基于k8s集群的多模型推理服务部署方法的流程示意图；

图2为本发明又一个实施例中的调度服务和多个模型推理服务的关系示意图；

图3为本发明又一个实施例中的一种基于k8s集群的多模型推理服务部署装置结构示意图；

图4为本发明另一个实施例中算机设备的内部结构图。

具体实施方式

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在一个实施例中，请参照图1所示，本发明提供了一种基于k8s集群的多模型推理服务部署方法，该方法具体包括以下步骤：

S100，在k8s集群的最小调度单位中部署调度服务，并为所述调度服务配置内存、计算资源和调度策略；其中，最小调度单位即为pod；

S200，根据调度服务的内存部署多个模型推理服务，并将每个模型推理服务配置为使用所述调度服务的计算资源，以及配置为与所述调度服务相关联；较佳的模型推理服务采用的是基于神经元网络的模型。

S300，若接收到推理任务请求，则调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务。

上述一种基于k8s集群的多模型推理服务部署方法，通过最小调度单位(pod)中部署调度服务，利用调度服务的内存部署多个模型推理服务，将每个模型推理服务配置为使用调度服务的计算资源，以及配置为与所调度服务相关联，从而实现了多个模型推理服务共享pod的能力，并且多模型推理服可以随服务负载进行弹性伸缩，部署操作较为简单。

在又一个实施例中，上述步骤S100具体包括以下子步骤：

S110，配置所述调度服务的名称、内存大小和调度策略类型；优选的，所述调度策略类型包括内存方式和服务并发方式

S120，获取k8s集群的最小调度单位的CPU和GPU，并将所述调度服务配置为使用最小调度单位的CPU和GPU。

在具体实施过程中，可采用CRD(Custom Resource Definition，用户资源定义)部署调度服务，例如以下示出的调度服务的CRD代码：

以上的调度服务的CRD中，都有一个schedulingStrategy属性，这个属性表示该调度服务的调度策略，目前支持的策略有两种，memory和qps。其中memory代表内存，qps代表服务并发数量。调度服务的CRD具有如下特点：①只有调度服务含有schedulingStrategy；调度服务里面一般不包含storage_url，如果包含的话，则表示该服务不支持Child注册。

在又一个实施例中前述步骤S200具体包括以下子步骤：

S210，获取每个模型推理服务所需的内存，并基于所需的内存将所述调度服务的内存分配给每个模型推理服务，其中，每个模型推理服务占用不同的内存地址；

S220，取消每个模型推理服务的调度策略配置，以使每个模型推理服务继承所述调度服务的调度策略；

S230，利用所述调度服务的名称将每个模型推理服务注册到所述调度服务下。

在具体实施过程中，同理部署模型推理服务可采用如下模型推理服务CRD代码：

模型推理服务的CRD特点为：①模型推理服务的CRD没有schedulingStrategy属性，模型推理服务继承它所属的调度服务的属性②只有模型推理服务包含multiModelService属性，该属性与它所属的调度服务的名称对应；③只有模型推理服务有storageUri属性，storageUri表示模型位置。

为了便于理解本发明的技术方案，请参照图2所示，创建步骤如下：首先，需要在pod1中部署一个调度服务即(Parent1)，为Parent1服务分配好内存和计算资源；然后，部署多个模型推理服务(即Child1-Childn)Child与Parent1进行关联(通过名称)。Parent1在计算它能容纳的Child个数是通过memory进行计算的，比如，Parent1有10GB内存，每个Child需要10MB内存才能进行计算，那么这个Parent1就可以容纳1024个Child。如果达到Parent1上限的话，只需在pod2中会创建一个新Parent2的实例，以供更多的Child进行注册。需要说明的是，调度服务的内存大小、以及模型推理服务计算所需内存均用于举例说明，不应理解为本发明方法的限制。

在又一实施例中，本发明方法还包括：

S400，利用所述调度服务从任务发送端接收推理任务请求，并通过解析确定所述任务请求对应的内存地址。

优选地，前述步骤300具体包括以下子步骤：

S310，所述调度服务将所述任务请求对应的内存地址与每个模型推理服务的内存地址进行匹配以确定目标模型推理服务；

S320，所述调度服务利用所述调度策略将所述任务请求发送给所述目标模型推理服务；

S330，利用所述目标模型推理服务响应所述任务请求以生成处理结果，并将所述处理结果返回至所述调度服务。

优选的，所述方法还包括：

S500，利用所述调度服务将所述处理结果返回至所述任务发送端。

上述一种基于k8s集群的多模型推理服务部署方法，调度服务(即Parent)会将他所有包含的模型推理服务(即Child)同时加载到内存中，)当发送端有请求来时，Parent通过解析请求地址找到需要的Child，然后将请求发送给Child处理，拿到处理结果后再返回给发送端，因此在同一个Parent里面的Child是共享相同的计算资源(即CPU和GPU)，但并不共享内存，实现了在一个最小调度单元中部署多个模型，并且多个模型能够共享计算资源。

在又一个实施例中，请参照图3所示，本发明提供了一种基于k8s集群的多模型推理服务部署装置60，该装置包括：

调度服务配置模块61，用于在k8s集群的最小调度单位中部署调度服务，并为所述调度服务配置内存、计算资源和调度策略；

模型推理服务配置模块62，用于根据调度服务的内存部署多个模型推理服务，并将每个模型推理服务配置为使用所述调度服务的计算资源，以及配置为与所述调度服务相关联；

任务处理模块63，用于调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务。

需要说明的是，关于基于k8s集群的多模型推理服务部署装置的具体限定可以参见上文中对于基于k8s集群的多模型推理服务部署方法的限定，在此不再赘述。上述基于k8s集群的多模型推理服务部署装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

根据本发明的另一方面，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图请参照图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的基于k8s集群的多模型推理服务部署方法。

根据本发明的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上所述的基于k8s集群的多模型推理服务部署方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于k8s集群的多模型推理服务部署方法，其特征在于，所述方法包括：

若接收到推理任务请求，则调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务；

其中，所述在k8s集群的最小调度单位中部署调度服务，并为所述调度服务配置内存、计算资源和调度策略的步骤包括：

配置所述调度服务的名称、内存大小和调度策略类型；

获取k8s集群的最小调度单位的CPU和GPU，并将所述调度服务配置为使用所述最小调度单位的CPU和GPU；

所述根据调度服务的内存部署多个模型推理服务，并将每个模型推理服务配置为使用所述调度服务的计算资源，以及配置为与所述调度服务相关联的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述调度策略类型包括内存方式和服务并发方式。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务的步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

利用所述调度服务将所述处理结果返回至所述任务发送端。

6.一种基于k8s集群的多模型推理服务部署装置，其特征在于，所述装置包括：

任务处理模块，用于在接收到推理任务请求时，则调度服务根据所述调度策略调用所述多个模型推理服务以处理推理任务；

其中，调度服务配置模块进一步用于：

配置所述调度服务的名称、内存大小和调度策略类型；

所述模型推理服务配置模块进一步用于：

7.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器中运行的计算机程序，所述处理器执行所述程序时执行权利要求1-5任意一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行权利要求1-5任意一项所述的方法。