CN112015521B

CN112015521B - 推理服务的配置方法、装置、电子设备及存储介质

Info

Publication number: CN112015521B
Application number: CN202011061260.1A
Authority: CN
Inventors: 胡在斌; 李盼盼; 张恒华; 黄凯文; 骆宝童; 李振国
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-06-07
Anticipated expiration: 2040-09-30
Also published as: CN112015521A

Abstract

本申请公开了推理服务的配置方法、装置、电子设备及存储介质，涉及云计算领域，具体实现方案为：通过根据包括有地域需求以及资源需求的推理服务的配置请求，在云平台中对推理服务的物理节点进行配置，使得推理服务的运算资源可在云平台的物理节点中进行运行，从而实现了将推理服务部署在云平台中。与现有的两种服务配置方式相比，采用基于云平台的推理服务的配置方式一方面能够使得预设的云平台的GPU资源得到有效的利用，另一方面，依赖于推理服务在云平台的配置和发布，其适用范围大大得到拓展。

Description

推理服务的配置方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术中的云计算，尤其涉及一种推理服务的配置方法、装置、电子设备及存储介质。

背景技术

对推理服务进行服务配置是将算法模型应用到实际业务的最后环节。随着AI技术的发展，越来越多的用户需要配置符合自身业务需求的推理服务，以为实现自业务功能提供有效支持。

在现有技术中，对推理服务进行服务配置一般通过如下两种方式：

其一，通过物理机对推理服务进行配置，在该方式下，通过将推理服务的程序安装包安装在单独的物理机上，以使物理机可执行基于推理服务的业务功能；但是，为推理服务单独配置物理机以支撑其服务运行的方式，会使得物理机中的大量GPU资源被浪费，其资源利用率较低。

其二，通过虚拟机对推理服务进行配置，在该方式下，通过将标准的安装包程序部署在虚拟机平台上，以使虚拟机可执行基于推理服务的业务功能；但是，由于虚拟机是一种私有化的部署方式，部署在虚拟机上的推理服务仅能在虚拟机平台内部进行使用，其适用范围受到限制。

基于上述情况，如何提供一种更为有效的推理服务的配置方式成为研究重点。

发明内容

本申请提供了一种推理服务的配置方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种推理服务的配置方法，包括：

调用云平台的接口层获取推理服务的配置请求，所述配置请求包括地域需求以及资源需求；

根据所述地域需求和所述资源需求，调用云平台的资源配置层在云平台中为所述推理服务分配可用于运行推理服务的物理节点；

在所述物理节点中运行所述推理服务的运算资源。

根据本申请的另一方面，提供了一种推理服务的配置的装置，包括：

第一请求调用单元，用于调用云平台的接口层获取推理服务的配置请求，所述配置请求包括地域需求以及资源需求；

配置调用单元，用于根据所述地域需求和所述资源需求，调用云平台的资源配置层在云平台中为所述推理服务分配可用于运行推理服务的物理节点；

运行单元，用于在所述物理节点中运行所述推理服务的运算资源。

根据本申请的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任一项所述的方法。

根据本申请的又一方面，提供了一种推理服务的配置的装置，包括：存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述任一项所述的方法。

根据本申请的最后一方面，提供了一种计算机程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行如第一方面所述的方法。

本申请提供的推理服务的配置方法、装置、电子设备及存储介质，通过根据包括有地域需求以及资源需求的推理服务的配置请求，在云平台中对推理服务的物理节点进行配置，使得推理服务的运算资源可在云平台的物理节点中进行运行，从而实现了将推理服务部署在云平台中。与现有的两种服务配置方式相比，采用基于云平台的推理服务的配置方式一方面能够使得预设的云平台的GPU资源得到有效的利用，另一方面，依赖于推理服务在云平台的配置和发布，其适用范围大大得到拓展。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请提供的一种网络架构示意图；

图2为本申请提供的一种推理服务的配置方法的流程示意图；

图3为本申请提供的另一种推理服务的配置方法的流程示意图；

图4为本申请提供的GPU算力配置流程的示意图；

图5为本申请提供的一种推理服务的配置装置的结构示意图；

图6是用来实现本申请实施例推理服务的配置方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着AI技术的逐步发展，在各种业务中利用AI的模型算法进行数据运算和数据处理成为发展趋势。对于每一个AI的算法模型来说，将算法应用到实际业务中将包括如下环节：对算法模型的构建、对算法模型进行训练以及将完成训练的算法模型进行推理服务的部署。

其中，对算法模型的构建是指从无到有建立模型的过程，一般的需要由包括算法工程师在内的用户根据业务需求对模型本身进行建立。

对算法模型进行训练是指利用大量训练数据对模型算法进行多次包括正向推理和反向传播等在内的训练过程，在训练过程中算法模型将逐步完善，直至能够实现对于预设目标的输出。

将对算法模型的推理服务进行服务配置，是将算法模型应用到实际业务的最后环节。随着AI技术的发展，越来越多的用户需要配置符合自身业务需求的推理服务，以为实现自业务功能提供有效支持。

基于上述情况，如何提供一种更为有效的推理服务的配置方式成为研究重点。面对该问题，发明人发现，通过在云平台的所布设的物理节点中配置上述的推理服务能够在提高资源利用率的同时，进一步扩大服务的适用范围。其中，由于云平台可承载多个推理服务，其云平台所预先布设的物理节点的GPU资源将会被合理分配和使用在各推理服务的配置上，李同时，云平台的云计算是一种基于公共平台的计算服务，通过开源的云平台使得各用户均可在云平台上进行推理服务的配置和部署，其用户集群不受限制，大大提高了推理服务的配置方法适用范围。+

基于上述内容，图1为本申请提供的一种网络架构示意图，在图1所示架构中，包括有云平台1以及终端2。

其中，云平台1是指具有云计算能力的一体式平台，其实体可为布设在多地的物理机房，各物理机房的资源可在控制下进行统筹管理和协同作业。一般的，根据物理机房的分布，可按照地域分布对物理机房进行一定地域划分，使得将若干物理机房赋予同一地域属性。通过这样的方式，能够使得每一地域属性的若干物理机房的集群可用于支撑一个或多个用户在该地域需求下的推理服务的配置和使用。

云平台1中架设有推理服务的配置装置，该配置装置可根据本申请提供的推理服务的配置方法对待配置的推理服务进行配置。

具体来说，该推理服务的配置装置包括有接口层、任务执行层以及资源配置层。其中，接口层可架设在任务执行层与上层应用之间，用于与上层应用进行交互，以接收终端2通过上层应用向云平台1发起的各类操作并建立相应的操作任务。任务执行层架设在接口层和资源配置层之间，用于接收由接口层创建的各类操作任务，并根据操作任务的不同调用不同的任务逻辑，以使不同的任务逻辑执行相应的任务。资源配置层架设在整个配置装置的底层，其具体用于执行操作任务，其将接受任务执行层的任务逻辑的调度，按照预设的执行方式执行相应的操作。在本申请中，该资源配置层用于执行对于推理服务进行配置操作的任务逻辑，以实现对推理服务的部署和资源分配。

其中，在本申请提供的方案中，资源配置层具体采用Kubernetes(K8S集群)的容器编排引擎，以执行本申请提供的配置方法。

此外，云平台1中还架设有上层应用，该上层应用具体可为视频中台或PaddleCloud等协同式的一站服务平台，该上层应用会将终端2发送的配置请求转发至推理服务的配置装置，以供推理服务的配置装置执行配置逻辑。

终端2具体包括可用于与用户进行交互的硬件设备，其包括但不限于智能手机、平板电脑、台式电脑等。通过网络，终端2可将与上层应用建立连接，并通过上层应用发起对于推理服务的配置、实例管理、访问等不同类型的请求。

实施例一

图2为本申请提供的一种推理服务的配置方法的流程示意图，如图2所示的，该方法包括：

步骤101、调用云平台的接口层获取推理服务的配置请求，所述配置请求包括地域需求以及资源需求；

步骤102、根据所述地域需求和所述资源需求，调用云平台的资源配置层在云平台中为所述推理服务分配可用于运行推理服务的物理节点；

步骤103、在所述物理节点中运行所述推理服务的运算资源。

需要说明的是，本申请实施例提供的配置方法的执行主体为图1所示的云平台中所承载的推理服务的配置装置。

具体来说，终端通过与上层应用的交互，向云平台发送对于推理服务的配置请求，在该配置请求中，将包括有配置推理服务时的地域需求以及资源需求。

一方面来说，地域需求具体可理解为在将推理服务部署在云平台时，对于其物理节点所属于的地域的限定。由于云平台中预设有大量的部署在各个地域的物理机，为了便于用户配置方便，在本申请提供的配置方法中，在云平台中，将承载有逻辑机房的概念，该逻辑机房包括有属于一定地域范围内的多个物理机房，举例来说，若某一逻辑机房为“华北机房”，那么该逻辑机房包括的物理机房可能为“北京机房”、“天津机房”等等。

因此，在本申请提供的方案中，为了能够使得推理服务可顺利部署在云平台上，用户无需再通过输入物理机房的地址完成对于推理服务所承载的物理机房的选取，而是通过直接输入逻辑机房的方式，向配置装置的接口层提出包括有逻辑机房标识的地域需求即可。

接口层获取到地域需求时，将根据地域需求确定相应的逻辑机房，并基于预存的逻辑机房与物理机房的关联关系，为所述配置服务分配相应的物理机房，而每一个物理机房将作为一个物理节点用于对推理服务的配置和承载。

另一方面来说，资源需求可表示用户在配置推理服务时，推理服务运行所需要的资源信息，一般来说，在资源需求中将包括有对于需要GPU算力的需求，还包括有实例数量等需求。

当配置装置获取到推理服务的资源需求时，资源配置层将按照预设的配置逻辑为该推理服务进行资源的分配和资源调度，完成对于服务实例的建立、GPU算力资源的调度、运行环境的部署等，以使得该推理服务可顺利部署在云平台中。

最后，当完成对于推理服务的配置和部署后，推理服务将在其相应的物理节点上运行，以使得其所基于的运算资源用于推理服务的运算处理。

在其他可选实施方式中，配置装置还可包括鉴权服务组件，以用于对发起推理服务的配置请求的用户进行权限认证。当权限认证通过后，该配置请求将被执行，当权限认证未通过，该配置请求将被拒绝，并向终端返回权限不足的提示。

本申请提供的推理服务的配置方法，通过根据包括有地域需求以及资源需求的推理服务的配置请求，在云平台中对推理服务的物理节点进行配置，使得推理服务的运算资源可在云平台的物理节点中进行运行，从而实现了将推理服务部署在云平台中。与现有的两种服务配置方式相比，采用基于云平台的推理服务的配置方式一方面能够使得预设的云平台的GPU资源得到有效的利用，另一方面，依赖于推理服务在云平台的配置和发布，其适用范围大大得到拓展。

实施例二

在将推理服务部署在云平台的物理节点上时，为了使得资源能够得到合理的分配，本申请还提供了确定物理节点的过程。具体的，图3为本申请提供的另一种推理服务的配置方法的流程示意图，如图3所示的，该方法包括：

步骤201、调用云平台的接口层获取推理服务的配置请求，所述配置请求包括地域需求以及资源需求。

步骤202、根据所述地域需求，调用所述接口层在满足所述地域需求的若干候选物理节点中，选中至少一个物理节点以作为用于运行推理服务的物理节点。

步骤203、根据所述资源需求调用所述资源配置层为所述至少一个物理节点分配相应的运算资源。

步骤204、在所述物理节点中运行所述推理服务的运算资源。

具体来说，本申请实施例提供的配置方法的执行主体为图1所示的云平台中所承载的推理服务的配置装置。

与前述实施例类似的是，首先，终端通过与上层应用的交互，向配置装置中的接口层发送对于推理服务的配置请求，在该配置请求中，将包括有配置推理服务时的地域需求以及资源需求。

而与前述实施例不同的是，当接口层接收到配置请求之后，首先，会根据其中的地域需求为推理服务分配至少一个物理节点。举例来说，若用户的地域需求为“配置华北地域的推理服务”，那么此时，接口层将根据云平台中各逻辑机房对应的地域属性，找到与“华北地域”相匹配的“华北地域”的逻辑机房，然后从属于“华北地域”的逻辑机房的若干物理机房中，选出至少一个物理机房以作为物理节点，用于对本次推理服务进行配置。

其中，在从“逻辑机房”对应的若干物理机房中选出至少一个物理机房以作为物理节点的过程，可采用负载均衡原则。换句话说，上述的步骤202具体可为根据每个候选物理节点的节点利用率，调用所述接口层从各候选物理节点中选中至少一个物理节点以作为用于运行推理服务的物理节点。

当接口层完成对于物理节点的确定之后，资源配置层将按照配置请求中的资源需求为每个物理节点分配相应的运算资源。

也就是说，上述步骤203中，具体可包括：调用所述接口层根据所述资源需求，创建每个物理节点对应的资源配置任务，并将各资源配置任务存储至任务列表；其中，所述资源配置任务包括有每个物理节点相应的资源配置信息；调用云平台的任务执行层从所述任务列表中选中当前待处理的配置任务，并调用云平台的任务执行层根据所述资源配置信息为所述当前待处理的配置任务中的物理节点分配运算资源。

具体来说，接口层在完成对于物理节点的确定之后，还会根据资源需求，创建每个物理节点对应的资源配置任务，并将创建的资源配置任务放入数据库(图1未示)的任务列表中，即每个资源配置任务中将包括有物理节点标识以及对应的资源配置信息。随后，由任务执行层从数据库的任务列表中依次读取资源配置任务，并将资源配置任务下发至资源配置层，以触发资源配置层执行配置逻辑。

在上述过程中，对于任务执行层从数据库的任务列表中依次读取是基于任务列表中任务的存储顺序而定的，一般采用先进先出的原则。

此外，接口层在创建资源配置任务时会按照物理节点情况对资源需求进行一定的拆分，以将拆分得到的资源配置信息携带在资源配置任务中，一并存储在任务列表里。

其中，对于同一推理任务的配置请求所对应的多个资源配置任务来说，其每个资源配置任务中的资源配置信息的总和应与配置请求中的资源需求相符，即当资源配置层按照资源配置任务执行配置逻辑时，完成配置的各物理节点将能够满足用户对于推理服务的配置需求。

如前所述的，每个资源配置任务中将携带有接口层为其分配的资源配置信息。

在可选实施方式中，所述资源配置信息可包括实例数量；相应的，执行根据所述资源配置信息为所述当前待处理的配置任务中的物理节点分配运算资源时，具体可包括：根据所述资源配置信息中的实例数量，调用所述资源配置层在所述当前待处理的配置任务中的物理节点上创建与所述实例数量相一致的服务实例。

也就是说，在资源配置层执行配置任务时，将根据其实例数量，在任务指示的物理节点上建立相应数量的服务实例。

此外，在其中另一种可选实施方式中，所述资源配置信息包括GPU算力配置。相应的，执行根据所述资源配置信息为所述当前待处理的配置任务中的物理节点分配运算资源时，具体可包括：调用所述资源配置层对当前待处理的配置任务中的物理节点的GPU资源进行拆分，获得多个GPU细粒度资源；确定各GPU细粒度资源的实时算力，并根据所述资源配置信息中的GPU算力配置，从各GPU细粒度资源中选出符合所述GPU算力配置的GPU细粒度资源；将选出的GPU细粒度资源的运算资源分配至当前待处理的配置任务中的物理节点。

也就是说，对于每一物理节点来说，其对应有一定算力的GPU运算资源，该GPU运算资源具体可用于密集型多并行计算。为了便于算力的配置，在本申请中，可采用GPU共享调度和隔离的方式。

图4为本申请提供的GPU算力配置流程的示意图。如图4所示的，当资源配置层完成实例的创建之后，利用GPU资源管理组件可对物理节点中的GPU资源进行一定的拆分和调度，以使得GPU算力资源能够有效被分配。

具体的，首先可确定GPU资源的相关信息(板卡信息、占用情况等)，然后对GPU资源基于细粒度(如以一个单卡作为细粒度的单位)进行拆分，获得GPU细粒度资源。

然后，可通过实时监控的方式，获取各GPU细粒度资源的实时算力，并结合资源配置任务中需要的GUP算力配置，对GPU细粒度资源进行调度。其中的调度包括但不限于对GPU显存、算力甚至进程的控制，以使运算资源实现算力共享和算力隔离。

最后，在完成对于配置请求对应的各资源配置任务的配置之后，该推理服务将完成在物理节点的部署，此时，可在物理节点运行所述推理服务的运算资源。

本实施例提供的方法，在前述实施例的基础上，一方面能够满足用户的配置需求，为用户提供更快速，更便利的配置流程，另一方面，能够使得云平台中的物理节点之间进行相互协作，有效提高云平台中各物理节点的资源利用率。

实施例三

为了进一步为用户提供一体式的推理服务的配置体验，本申请实施例提供的推理服务的配置方法在前述各实施例的基础上，还为用户提供了更多的服务功能，下面将针对各实现方式一一进行介绍：

在上述各实施方式的基础上，为了便于用户基于地域进行推理服务的访问，该方法还包括：调用所述接口层获取用户对待访问的推理服务的访问请求；对所述访问请求中的访问路由进行路由解析，确定运行所述待访问的推理服务的运算资源的待访问的物理节点，并将所述待访问的物理节点的节点标识反馈至用户。

具体来说，在资源配置层还设置有路由接口服务，该路由接口服务可用来管理来自外部的访问。其中，为了使得用户在后续访问时能够快速访问到推理服务所承载的物理节点，在该路由接口服务将监听获取到用户对待访问的推理服务的访问请求，并对其中的访问路由进行路由解析，将得到的待访问的物理节点的节点标识反馈至用户。此时，用户的终端将利用“http”的方式，结合该物理节点的节点标识、推理服务的服务名称等信息，实现对于推理服务的访问。

在上述各实施方式的基础上，为了便于用户对推理服务中的实例进行扩容、删除、修改等管理，该方法还包括：

调用所述接口层获取推理服务的实例管理请求；根据实例管理请求的请求内容，调用所述资源配置层在预设的镜像库中确定相应的镜像；其中，所述镜像是通过模型文件和推理逻辑预先生成并存储在镜像库中的；运行所述镜像以对服务实例进行管理。

具体来说，配置装置还支持对于镜像的使用和构建，其中，在配置装置中可预先建立镜像库，通过模型文件和自定义推理逻辑自动生成推理服务的镜像，通过单算子和DAG算子(其中单算子即提供单一服务的算子，DAG算子即存在多个算子)的协同使用和相互调用，共同为用户提供相应的服务。举例来说，用户可以变更推理服务的实例数，来实现对推理服务的横向扩缩容。具体实现上，可依据资源配置层的部署资源中的副本控制器来实现实例的创建、删除、更新等机制。

在上述各实施方式的基础上，为了便于用户对推理服务进行升级操作，该方法还包括：调用所述接口层获取推理服务的升级请求；确定推理服务的实例升级比例，并调用所述资源配置层根据所述实例升级比例采用灰度升级的方式，对所述服务推理进行升级。

具体来说，灰度升级也可称为“金丝雀部署”，其具体可理解为先上线一个新版本，从老版本中切分一部分线上流量到新版本，观察新版本可行后再增加切换的比例，直到全部切换完成。

在上述各实施方式的基础上，为了便于用户对推理服务的相关信息进行有效获取和监控，该方法还包括：确定推理服务的服务运行状态，和/或，确定运行所述推理服务的物理节点的资源状态；展示所述确定推理服务的服务运行状态，和/或，确定推理服务的物理节点的资源状态。

具体来说，利用资源监控接口和服务监控接口可实现对于推理服务的相关信息进行有效获取和监控。

其中，资源监控接口可基于Prometheus(一套开源的监控监控报警系统和时序列数据库TSDB)实现。通过资源监控接口获取资源配置层中各资源指标，如，cpu利用率、磁盘利用率、内存利用率、IO、GPU利用率等资源指标。可选的，用户还可通过配置资源报警条件，以使在资源指标符合资源报警条件时，向用户提供短信和邮件的资源报警功能。

其中，服务监控接口用于在完成对推理服务的配置之后，对推理服务进行跟踪分布式访问，通过对于服务监控可实现对于每个服务请求的链路的获取。可选的，这些获取的链路还可通过可视化界面的方式向用户进行展示。

本申请实施例提供的推理服务的配置方法，应用于计算机领域中的云计算，在通过根据包括有地域需求以及资源需求的推理服务的配置请求，在云平台中对推理服务的物理节点进行配置，使得推理服务的运算资源可在云平台的物理节点中进行运行，从而实现了将推理服务部署在云平台中。与现有的两种服务配置方式相比，采用基于云平台的推理服务的配置方式一方面能够使得预设的云平台的GPU资源得到有效的利用，另一方面，依赖于推理服务在云平台的配置和发布，其适用范围大大得到拓展。

实施例四

图5为本申请提供的一种推理服务的配置装置的结构示意图。如图5所示的，该装置包括：第一请求调用单元10、配置调用单元20以及运行单元30。

第一请求调用单元10，用于调用云平台的接口层获取推理服务的配置请求，所述配置请求包括地域需求以及资源需求；

配置调用单元20，用于根据所述地域需求和所述资源需求，调用云平台的资源配置层在云平台中为所述推理服务分配可用于运行推理服务的物理节点；

运行单元30，用于在所述物理节点中运行所述推理服务的运算资源。

可选实施例中，所述配置调用单元20包括：节点选中模块以及资源分配模块；

所述节点选中模块，用于根据所述地域需求，调用所述接口层在满足所述地域需求的若干候选物理节点中，选中至少一个物理节点以作为用于运行推理服务的物理节点；

所述资源分配模块，根据所述资源需求调用所述资源配置层为所述至少一个物理节点分配相应的运算资源。

可选实施例中，所述节点选中模块，具体用于根据每个候选物理节点的节点利用率，调用所述接口层从各候选物理节点中选中至少一个物理节点以作为用于运行推理服务的物理节点。

可选实施例中，所述资源分配模块包括：任务创建子模块、任务调度子模块以及任务执行子模块；

所述任务创建子模块，用于调用所述接口层根据所述资源需求，创建每个物理节点对应的资源配置任务，并将各资源配置任务存储至任务列表；其中，所述资源配置任务包括有每个物理节点相应的资源配置信息；

所述任务调度子模块，用于调用云平台的任务执行层从所述任务列表中选中当前待处理的配置任务；

所述任务执行子模块，用于调用所述资源配置层根据所述资源配置信息为所述当前待处理的配置任务中的物理节点分配运算资源。

可选实施例中，所述资源配置信息包括实例数量；

所述任务执行子模块，具体用于根据所述资源配置信息中的实例数量，调用所述资源配置层在所述当前待处理的配置任务中的物理节点上创建与所述实例数量相一致的服务实例。

可选实施例中，所述资源配置信息包括GPU算力配置；

所述任务执行子模块，具体用于调用所述资源配置层对当前待处理的配置任务中的物理节点的GPU资源进行拆分，获得多个GPU细粒度资源；以及，确定各GPU细粒度资源的实时算力，并根据所述资源配置信息中的GPU算力配置，从各GPU细粒度资源中选出符合所述GPU算力配置的GPU细粒度资源；以及，将选出的GPU细粒度资源的运算资源分配至当前待处理的配置任务中的物理节点。

可选实施例中，该装置还包括：第二请求调用单元以及路由解析单元；

所述第二请求调用单元，用于调用所述接口层获取用户对待访问的推理服务的访问请求；

所述路由解析单元，用于对所述访问请求中的访问路由进行路由解析，确定运行所述待访问的推理服务的运算资源的待访问的物理节点，并将所述待访问的物理节点的节点标识反馈至用户。

可选实施例中，该装置还包括：第三请求调用单元以及实例管理单元；

所述第三请求调用单元，用于调用所述接口层获取推理服务的实例管理请求；

所述实例管理单元，用于根据实例管理请求的请求内容，调用所述资源配置层在预设的镜像库中确定相应的镜像；其中，所述镜像是通过模型文件和推理逻辑预先生成并存储在镜像库中的；以及运行所述镜像以对服务实例进行管理。

可选实施例中，该装置还包括：第四请求调用单元以及升级单元；

所述第四请求调用单元，用于调用所述接口层获取推理服务的升级请求；

所述升级单元，用于确定推理服务的实例升级比例，并调用所述资源配置层根据所述实例升级比例采用灰度升级的方式，对所述服务推理进行升级。

可选实施例中，该装置还包括：采集单元以及展示单元；

所述采集单元，用于确定推理服务的服务运行状态，和/或，确定运行所述推理服务的物理节点的资源状态；

所述展示单元，用于展示所述确定推理服务的服务运行状态，和/或，确定推理服务的物理节点的资源状态。

本申请提供的配置装置可以执前述所示方法实施例的技术方案，其实现原理和技术效果前述方法实施例类似，在此不再一一赘述。

本申请提供的推理服务的配置装置，通过根据包括有地域需求以及资源需求的推理服务的配置请求，在云平台中对推理服务的物理节点进行配置，使得推理服务的运算资源可在云平台的物理节点中进行运行，从而实现了将推理服务部署在云平台中。与现有的两种服务配置方式相比，采用基于云平台的推理服务的配置方式一方面能够使得预设的云平台的GPU资源得到有效的利用，另一方面，依赖于推理服务在云平台的配置和发布，其适用范围大大得到拓展。

实施例五

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质以及相关的程序产品。根据本申请的实施例，本申请提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述相应的任一实施例提供的方案。

如图6所示，是根据本申请实施例的推理服务的配置方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、云平台、刀片式云平台、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为云平台阵列、一组刀片式云平台、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的推理服务的配置方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的推理服务的配置方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的推理服务的配置方法对应的程序指令/模块。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行云平台的各种功能应用以及数据处理，即实现上述方法实施例中的推理服务的配置方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

推理服务的配置方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据云平台)、或者包括中间件部件的计算系统(例如，应用云平台)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和云平台。客户端和云平台一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-云平台关系的计算机程序来产生客户端和云平台的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种推理服务的配置方法，包括：

在所述物理节点中运行所述推理服务的运算资源；

所述根据所述地域需求和所述资源需求，调用云平台的资源配置层在云平台中为所述推理服务分配可用于运行推理服务的物理节点，包括：

根据所述地域需求，调用所述接口层在满足所述地域需求的若干候选物理节点中，选中至少一个物理节点以作为用于运行推理服务的物理节点；

调用所述接口层根据所述资源需求，创建每个物理节点对应的资源配置任务，并将各资源配置任务存储至任务列表；其中，所述资源配置任务包括有每个物理节点相应的资源配置信息；

调用云平台的任务执行层从所述任务列表中选中当前待处理的配置任务，并调用所述资源配置层根据所述资源配置信息为所述当前待处理的配置任务中的物理节点分配运算资源；

所述资源配置信息包括GPU算力配置；

相应的，所述调用所述资源配置层根据所述资源配置信息为所述当前待处理的配置任务中的物理节点分配运算资源，包括：

调用所述资源配置层对当前待处理的配置任务中的物理节点的GPU资源进行拆分，获得多个GPU细粒度资源；以及，

确定各GPU细粒度资源的实时算力，并根据所述资源配置信息中的GPU算力配置，从各GPU细粒度资源中选出符合所述GPU算力配置的GPU细粒度资源；以及，

将选出的GPU细粒度资源的运算资源分配至当前待处理的配置任务中的物理节点。

2.根据权利要求1所述的方法，所述调用所述接口层在满足所述地域需求的若干候选物理节点中，选中至少一个物理节点以作为用于运行推理服务的物理节点，包括：

根据每个候选物理节点的节点利用率，调用所述接口层从各候选物理节点中选中至少一个物理节点以作为用于运行推理服务的物理节点。

3.根据权利要求1所述的方法，所述资源配置信息包括实例数量；

根据所述资源配置信息中的实例数量，调用所述资源配置层在所述当前待处理的配置任务中的物理节点上创建与所述实例数量相一致的服务实例。

4.根据权利要求1-3任一项所述的方法，还包括：

调用所述接口层获取用户对待访问的推理服务的访问请求；

对所述访问请求中的访问路由进行路由解析，确定运行所述待访问的推理服务的运算资源的待访问的物理节点，并将所述待访问的物理节点的节点标识反馈至用户。

5.根据权利要求1-3任一项所述的方法，还包括：

调用所述接口层获取推理服务的实例管理请求；

根据实例管理请求的请求内容，调用所述资源配置层在预设的镜像库中确定相应的镜像；其中，所述镜像是通过模型文件和推理逻辑预先生成并存储在镜像库中的；

运行所述镜像以对服务实例进行管理。

6.根据权利要求1-3任一项所述的方法，还包括：

调用所述接口层获取推理服务的升级请求；

确定推理服务的实例升级比例，并调用所述资源配置层根据所述实例升级比例采用灰度升级的方式，对所述服务推理进行升级。

7.根据权利要求1-3任一项所述的方法，还包括：

确定推理服务的服务运行状态，和/或，确定运行所述推理服务的物理节点的资源状态；

展示所述确定推理服务的服务运行状态，和/或，确定推理服务的物理节点的资源状态。

8.一种推理服务的配置装置，包括：

运行单元，用于在所述物理节点中运行所述推理服务的运算资源；

所述配置调用单元包括：节点选中模块以及资源分配模块；

所述资源分配模块包括：任务创建子模块、任务调度子模块以及任务执行子模块；

所述任务执行子模块，用于调用所述资源配置层根据所述资源配置信息为所述当前待处理的配置任务中的物理节点分配运算资源；

所述资源配置信息包括GPU算力配置；

9.根据权利要求8所述的装置，所述节点选中模块，具体用于根据每个候选物理节点的节点利用率，调用所述接口层从各候选物理节点中选中至少一个物理节点以作为用于运行推理服务的物理节点。

10.根据权利要求8所述的装置，所述资源配置信息包括实例数量；

11.根据权利要求8-10任一项所述的装置，还包括：第二请求调用单元以及路由解析单元；

12.根据权利要求8-10任一项所述的装置，还包括：第三请求调用单元以及实例管理单元；

13.根据权利要求8-10任一项所述的装置，还包括：第四请求调用单元以及升级单元；

14.根据权利要求8-10任一项所述的装置，还包括：采集单元以及展示单元；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。