CN114237902A

CN114237902A - 一种服务部署方法、装置、电子设备及计算机可读介质

Info

Publication number: CN114237902A
Application number: CN202111574896.0A
Authority: CN
Inventors: 李维嘉
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-25

Abstract

本申请公开了服务部署方法、装置、电子设备及计算机可读介质，涉及人工智能技术领域，该方法包括：接收服务部署请求，确定对应的特殊部署需求服务，获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表；根据服务排他性列表确定对应的排他服务，根据服务器亲和性列表确定目标服务器；判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。根据服务器亲和性、服务亲和性和服务排他性在各服务器上进行有特殊部署需求的服务的部署，从而保证服务的多并发和高可用，保证服务的正常运转的同时提高服务器资源的利用率。

Description

一种服务部署方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种服务部署方法、装置、电子设备及计算机可读介质。

背景技术

随着人工智能应用的发展，人工智能(Artificial Intelligence，AI)服务如何容器化编排部署作为AI工程化方法正面临越来越大的挑战。AI服务如何容器化编排部署，涉及到不同方面的资源分配，如GPU资源，CPU资源，内存，网络等，并涉及到业务的并发，更需要根据业务情况分时复用，开发难度大，不易维护。AI项目服务中，AI模型较多，并发请求大，但云端计算资源，GPU资源，配置资源较为分散，AI项目服务不合理，导致GPU服务器资源浪费。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：

AI项目服务中，AI模型较多，并发请求大，但云端计算资源，GPU资源，配置资源较为分散，AI项目服务不合理，导致GPU服务器资源浪费。

发明内容

有鉴于此，本申请实施例提供一种服务部署方法、装置、电子设备及计算机可读介质，能够解决现有的AI项目服务中，AI模型较多，并发请求大，但云端计算资源，GPU资源，配置资源较为分散，AI项目服务不合理，导致GPU服务器资源浪费的问题。

为实现上述目的，根据本申请实施例的一个方面，提供了一种服务部署方法，包括：

接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表；

根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器；

判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。

可选地，在将亲和服务部署于目标服务器之后，方法还包括：

确定服务部署请求对应的各常规部署服务所需的服务器资源对应的资源占比；

基于资源占比，确定各常规部署服务对应的服务优先级；

确定各服务器的资源剩余量，进而基于资源剩余量确定对应的服务器优先级；

基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务。

可选地，基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务，包括：

遍历各服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；

确定目标服务对应的目标排他服务，进而判断最大服务器优先级对应的服务器上是否部署有目标排他服务，若否则将目标服务部署于最大服务器优先级对应的服务器，若是则将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，直至最大服务器优先级对应的服务器上没有部署目标排他服务，将目标服务部署于最大服务器优先级对应的服务器；

将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，进而迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

将目标服务部署于最大服务器优先级对应的服务器，将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

确定最大服务器优先级对应的服务器的数量，响应于数量大于1，任选2个最大服务器优先级对应的服务器作为待部署服务器；响应于数量等于1，将最大服务器优先级对应的服务器和最大服务器优先级对应的下一级服务器优先级对应的服务器确定为待部署服务器；

确定目标服务对应的目标排他服务，进而判断待部署服务器上是否部署有目标排他服务，若否则将目标服务分别部署于各待部署服务器，若是则将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，直至待部署服务器上没有部署目标排他服务，将目标服务分别部署于各待部署服务器；

将目标服务分别部署于各待部署服务器，将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，进而迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

可选地，方法还包括：

确定各常规部署服务中的并发服务，将各并发服务部署于不同的服务器中。

另外，本申请还提供了一种服务部署装置，包括：

接收单元，被配置成接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表；

目标服务器确定单元，被配置成根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器；

服务部署单元，被配置成判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。

可选地，服务部署单元进一步被配置成：

基于资源占比，确定各常规部署服务对应的服务优先级；

可选地，服务部署单元进一步被配置成：

另外，本申请还提供了一种服务部署电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述的服务部署方法。

另外，本申请还提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述的服务部署方法。

为实现上述目的，根据本申请实施例的又一个方面，提供了一种计算机程序产品。

本申请实施例的一种计算机程序产品，包括计算机程序，程序被处理器执行时实现本申请实施例提供的服务部署方法。

上述发明中的一个实施例具有如下优点或有益效果：本申请通过接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表；根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器；判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。根据服务器亲和性、服务亲和性和服务排他性在各服务器上进行有特殊部署需求的服务的部署，从而保证服务的多并发和高可用，保证服务的正常运转的同时提高GPU服务器资源的利用率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本申请，不构成对本申请的不当限定。其中：

图1是根据本申请第一实施例的服务部署方法的主要流程的示意图；

图2是根据本申请第二实施例的服务部署方法的主要流程的示意图；

图3是根据本申请第三实施例的服务部署方法的应用场景示意图；

图4是根据本申请实施例的服务部署方法的资源最大分配流程处理示意图；

图5是根据本申请实施例的服务部署方法的桶群排他性处理示意图；

图6是根据本申请实施例的服务部署装置的主要单元的示意图；

图7是本申请实施例可以应用于其中的示例性系统架构图；

图8是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

图1是根据本申请第一实施例的服务部署方法的主要流程的示意图，如图1所示，服务部署方法包括：

步骤S101，接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表。

本实施例中，服务部署方法的执行主体(例如，可以是服务器)可以通过有线连接或无线连接的方式，接收服务部署请求。部署的服务，例如可以是AI模型服务。本申请实施例将服务部署在服务器中，具体为将服务器中的GPU显存资源进行分配：大量AI模型服务需要使用GPU，GPU的显存资源需要根据AI模型服务进行资源统一分配。GPU中允许多任务和多进程并行。AI模型服务在使用GPU服务中，需要占用固定的显存进行运算，由于GPU的显存资源有限，需要通过合理的编排分配GPU显存资源。

资源分配前的AI服务配置信息，在模型服务分配前，需要压力测试或者了解各个AI服务所需要的GPU显存资源(通常GPU显存资源为一个固定的数值)，CPU最大Top核数，Memory内存的消耗以及响应时间。示例的，如下表1所示：

表1

根据此服务的压力测试的结果，执行主体可以确定每个服务所需要的GPU显存，CPU使用峰值，内存使用量和QPS(QPS即每秒查询率)以及响应时间和来保证高可用性所需要的副本数等。根据这些信息，加上业务的流程顺序，可以得到业务的潮汐或者并发情况并及时响应处理相对应的业务。ICR为异步操作，NLP服务为同步并发操作，所以所有的NLP的服务尽量分布在不同的机器上，需要设置不同的排他性，保证各个服务的负载均衡和高可用性。同时，NLP模型训练时，需要多张GPU显卡保证其训练速度，所以在亲和性上，需要保证其和所满足的服务器进行亲和性的绑定，同时不同服务之间有网络访问需求，可能需要部署在同一台机器上。

本申请实施例可以应用于对特殊部署需求服务进行部署的场景。特殊部署需求服务可以是具有服务器亲和性需求、具有服务亲和性需求和服务排他性需求的服务。

在服务部署时，要兼顾AI服务亲和性编排：AI的服务算法多数为多模型结构，甚至多模型对网络，GPU卡数，GPU位置等有特殊需求，需要特殊的服务器进行部署，需要对这些AI服务性进行亲和性部署。

具体地，AI服务在部署过程中有两种亲和需求：不同的AI服务有可能有特殊的服务器需求。例如，某个AI服务需要显卡为V100的服务器，或者某个服务需要GPU显卡为第二个的特殊需求。不同AI服务可能由于网络访问问题需要，对某些其他AI服务有部署在同一机器的需求。此为AI服务的亲和性需求。

为了方便后面算法的处理，执行主体可以生成两个列表(数组)存储每个AI服务的亲和性需求，分别为服务器亲和性需求列表(例如服务1需要对应部署于GPU服务器1、GPU服务器3、GPU服务器4、GPU服务器5上，则GPU服务器1、GPU服务器3、GPU服务器4、GPU服务器5组成的列表即为服务1对应的服务器亲和性需求列表)和AI服务亲和性列表(例如，服务1、服务2需要共同部署在同一服务器上，则服务1和服务2组成的列表即为AI服务亲和性列表)。示例的，一个AI服务部署需要部署在GPU1，GPU3和GPU4中，同时需要和AI服务中的NLP-DRAFT和NLP-INV部署在一起。当执行主体调用自动化算法统一做AI资源分配时，算法会遍历服务器亲和性列表(将与这个服务有亲和性的服务器找出)，将与该AI服务有亲和性的服务部署在同一Node节点，即同一服务器上。

在服务部署时要兼顾AI服务排他性编排：AI服务上线时，需要一定的并发服务，例如同一个AI模型服务尽量满足并发，不放在同一台服务器中，避免并发时，服务器负载太大造成资源使用集中造成响应时间变长。

具体地，排他性是指，AI服务在部署过程中一般只有AI服务互斥部署的排他性需求：不同的AI服务有可能有特殊的AI服务分布的部署需求。例如，各个NLP的业务由于同时并发量较大。需要分布在不同的机器上以保持服务的高可用性和负载均衡。执行主体可以使用桶分类的方法，将不同互斥的服务合理分布在不同的机器上。

如图5所示为桶群排他性处理示意图，本申请实施例中每一个“桶”代表一个服务器，每一个“桶群”，代表一个服务器集群。如图5中的桶群1所示，共有4个不同的桶a、b、c、d，分别放置不同的AI服务(NLP-DRAFT-1、NLP-INV-1、NLP-DRAFT-2、NLP-INV-2)，剩下的AI服务(例如，ICR-TEXT、ICR-STAMP等)不放入任何桶中，表示没有互斥性。如图5所示，NLP业务由于同时并发，所以NLP-Draft，NLP-INV，NLP-BILL和NLP-GOODS要分属4个桶中，不能同时部署在同一个机器中。在后面流程部署过程中，会按照各个桶的内容结构进行遍历，最终让所有容器可以正常，高并发部署。如果排他性有两种类，则将第一个“桶”化为群，再构建第二个桶群，例如桶群2或桶群3等。其中，桶群2中可以包括两个“桶”，即两个服务器e、f，分别部署服务ICR-STAMP-1、ICR-STAMP-2；桶群3中可以包括两个“桶”，即两个服务器g、h，分别部署服务ICR-TEXT-1、ICR-TEXT-2。

本申请实施例解决了AI服务模型多部署编排问题，兼顾容器编排的GPU显存分配、亲和性配置和排他性配置。从而能够保证AI服务稳定快速上线。

步骤S102，根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器。

相同服务之间也需要建立排他性“桶群”。例如图5中的桶群1、桶群2、桶群3互为排他性桶群。

本申请实施例中，服务排他性列表可以从服务配置信息中获取，本申请实施例对服务排他性列表的获取来源和获取方式不做限定。如图5所示，桶群1中，例如，当前要部署的服务为NLP-DRAFT-1，则图5的桶群1中的NLP-INV-1、NLP-DRAFT-2、NLP-INV-2，以及桶群2中的ICR-STAMP-1、ICR-STAMP-2，以及桶群3中的ICR-TEXT-1、ICR-TEXT-2均为当前要部署的服务的排他服务。

示例的，根据服务器亲和性列表确定目标服务器，目标服务器即为当前要部署的服务指定要部署于的服务器，即在服务器亲和性列表中与当前要部署的服务关联的服务器。示例的，服务器亲和性列表服务1-服务器1-服务器2-服务器3，则服务器1、服务器2、服务器3即为服务1要部署的目标服务器。

步骤S103，判断目标服务器上是否部署有排他服务。

在目标服务器部署服务之前，执行主体可以判断目标服务器上是否部署有与待部署的特殊部署需求服务互斥的排他服务，以保证服务的高可用。

步骤S104，若是则返回请求失败。

若在目标服务器上部署有与待部署的特殊部署需求服务(例如NLP-DRAFT-1)互斥的排他服务，则不在该目标服务器上部署该特殊部署需求服务(例如NLP-DRAFT-1)，返回服务部署请求失败的信息，例如返回一个失败标识，可以是0或1，本申请实施例对返回的失败信息的具体内容和表现形式不做限定。

步骤S105，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。

当目标服务器上没有部署与待部署的特殊部署需求服务互斥的排他服务，则执行主体可以将该特殊部署需求服务(例如NLP-DRAFT-1)部署于目标服务器，然后遍历该特殊部署需求服务(例如NLP-DRAFT-1)对应的亲和性列表，得到各对应的亲和服务，然后将各对应的亲和服务也部署于目标服务器中，以保证目标服务器上部署的各服务高可用、高并发，提升业务处理能力。

本实施例通过接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表；根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器；判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。根据服务器亲和性、服务亲和性和服务排他性在各服务器上进行有特殊部署需求的服务的部署，从而保证服务的多并发和高可用，保证服务的正常运转的同时提高GPU服务器资源的利用率，提升业务处理能力。

图2是根据本申请第二实施例的服务部署方法的主要流程示意图，如图2所示，服务部署方法包括：

步骤S201，接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表。

步骤S202，根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器。

步骤S203，判断目标服务器上是否部署有排他服务

步骤S204，若是则返回请求失败。

步骤S201～步骤S204的原理与步骤S101～步骤S104的原理类似，此处不再赘述。

步骤S205，若否则将待部署服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。

示例的，当目标服务器只有一个时，执行主体可以直接将亲和服务部署于该唯一的目标服务器上；当目标服务器有多个时，执行主体可以将亲和服务部署于每个目标服务器上，以保证服务的高可用性。

步骤S206，确定服务部署请求对应的各常规部署服务所需的服务器资源对应的资源占比。

服务部署请求，可以包括对常规服务进行部署的请求和对有特殊部署需求的服务进行部署的请求。

将没有特殊部署需求的服务确定为常规服务。具体可以是将所需GPU资源最大的AI服务首先部署。具体地，执行主体可以确定各常规部署服务所需的服务器上GPU资源的占比。例如，NLP-DRAFT-1、NLP-INV-1、NLP-DRAFT-2、NLP-INV-2所需的GPU资源分别为1G、2G、3G、4G，则对应的资源占比分别为：1/10、2/10、3/10、4/10。

步骤S207，基于资源占比，确定各常规部署服务对应的服务优先级。

执行主体可以将资源占比最大的服务对应的服务优先级设置为最高。则基于资源占比，确定各常规部署服务对应的服务优先级的排序分别为：4/10-对应服务NLP-INV-2、3/10-对应服务NLP-DRAFT-2、2/10-对应服务NLP-INV-1、1/10–对应服务NLP-DRAFT-1。

步骤S208，确定各服务器的资源剩余量，进而基于资源剩余量确定对应的服务器优先级。如图3所示，初始的各服务器的显存容量如图3中的①所示，各为12G，当部署服务ICR-STAMP-1、ICR-STAMP-2后，各服务器的资源剩余量如图3中的②所示，分别为7.6G、7.6G、12G、12G。图3中的每一个“矩形”代表一个服务器及对应的显存容量。则基于资源剩余量确定的对应的服务器的优先级的排序为：服务器G＝服务器H>(服务器E＝服务器F)。

再例如，图4中，在服务器A、B、C、D分别部署完服务1、2、3、4后，根据资源剩余量确定的各服务器的优先级为：服务器D＝服务器C>服务器B>服务器A。

步骤S209，基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务。

当兼顾排他服务，即可能有排他服务部署于最大服务器优先级对应的服务器上且最大服务器优先级对应的服务器只有一个时，具体地，基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务，包括：

遍历各服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；确定目标服务对应的目标排他服务，进而判断最大服务器优先级对应的服务器上是否部署有目标排他服务，若否则将目标服务部署于最大服务器优先级对应的服务器，若是则将最大服务器优先级对应的下一级服务器优先级(在本申请中，最大服务器优先级对应的下一级服务器优先级即按照服务器优先级排序，当前最大的服务器优先级对应的下一个服务器优先级)确定为最大服务器优先级，直至最大服务器优先级对应的服务器上没有部署目标排他服务，将目标服务部署于最大服务器优先级对应的服务器(可以理解的是，目标排他服务就是与目标服务互斥的服务，二者不能部署于同一服务器)；将最大的服务优先级对应的下一级服务优先级(在本申请中，最大的服务优先级对应的下一级服务优先级即按照服务优先级排序，当前最大的服务优先级对应的下一个服务优先级)确定为最大服务优先级，进而更新目标服务，进而迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署(即根据服务优先级，将已经部署的服务剔除，将按照服务优先级的顺序的下一个常规部署服务确定为目标服务，如此循环，直至到达按照服务优先级的顺序排列的最后一个常规部署服务，该最后一个常规部署服务部署完成后结束服务部署)。

当确定各常规部署服务没有对应的排他性列表且最大服务器优先级对应的服务器只有一个时，具体地，基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务，包括：

当有高可用的部署，即一个服务分同样的两份部署在两个服务器，且有可能有对应的排他性列表的情况时，并且最大服务器优先级对应的服务器只有一个或存在多个时，具体地，基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务，包括：

当有高可用的部署，即一个服务分同样的两份部署在两个服务器，且确定没有对应的排他性列表的情况时，并且最大服务器优先级对应的服务器只有一个或存在多个时，具体地，基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务，包括：

遍历各服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；确定最大服务器优先级对应的服务器的数量，响应于数量大于1，任选2个最大服务器优先级对应的服务器作为待部署服务器；响应于数量等于1，将最大服务器优先级对应的服务器和最大服务器优先级对应的下一级服务器优先级对应的服务器确定为待部署服务器；将目标服务分别部署于各待部署服务器，将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，进而迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

具体地，服务部署方法还包括：确定各常规部署服务中的并发服务，将各并发服务部署于不同的服务器中。

图3是根据本申请第三实施例的服务部署方法的应用场景示意图。本申请实施例的服务部署方法，可以应用于当AI项目服务中，AI模型较多，并发请求大，但云端计算资源，GPU资源，配置资源较为分散的场景。如图3所示，示例的，现有一群AI的模型服务需要部署，这里配置信息通过如下表2模拟展示：

表2

服务名称<sub></sub>	所需GPU资源<sub></sub>
		NLP-DRAFT<sub></sub>	4.3G<sub></sub>
NLP-INV<sub></sub>	5.6G<sub></sub>
		ICR-STAMP<sub></sub>	4.4G<sub></sub>
ICR-TEXT<sub></sub>	3.2G<sub></sub>
		MSG-45<sub></sub>	2.2G<sub></sub>
MSG-46<sub></sub>	1.3G<sub></sub>

示例的，共有4台服务器，各有12GB的显存。同时由于NLP业务常常并发，需要分开部署。由于ICR-TEXT传输给NLP-INV的数据量比较大，需要部署在一起。同时ICR-STAMP由于是多卡部署，需要部署在服务器1或2上。其他没有特殊需求。同时为了满足高可用性，需要满足每个服务需要两份部署，以结尾-1和-2来区分。例如NLP-DRAFT-1和NLP-DRAFT-2。

接下来执行主体可以进行亲和性处理，服务ICR-STAMP需要部署在服务器1或2上，则ICR-STAMP的服务器亲和性列表(本申请对列表的形式不做限定)为：服务ICR-STAMP-服务器E-服务器F。服务ICR-TEXT传输给服务NLP-INV的数据量比较大，所以需要部署在一起。则服务ICR-TEXT的服务亲和性列表为：服务ICR-TEXT-服务NLP-INV。

接下来执行主体可以进行排他性处理，同时由于NLP业务常常并发，需要分开部署，则需要建立一个NLP的桶群，同时各个相同服务之间也需要建立排他性“桶群”。排他性桶群如图5所示。

在上述亲和性处理和排他性处理完成后，执行主体可以进行资源最大化流程处理。具体地，首先，4台服务器的显卡资源都为12GB，如图3中的①所示。执行主体可以首先遍历服务器亲和性列表，发现ICR-STAMP有特殊服务器需求，则优先分配服务器亲和性列表，同时分别部署时，判断排他性，如图3中的②所示。所需GPU资源最大的AI服务为NLP-INV-1和NLP-INV-2(同时为了满足高可用性，需要满足每个服务需要两份部署，目前以结尾-1和-2来区分)，为5.6GB，则分配服务器资源E和F给NLP-INV-1和NLP-INV-2，如图3中的③所示。分配过后，执行主体根据亲和性列表，确定需要部署服务ICR-TEXT，则在同时满足排他性的情况下，分别分配ICR-TEXT-1和ICR-TEXT-2，如图3中的④所示。执行主体进行服务器资源分配后，响应于没有检测到服务器亲和性列表，回归到按GPU资源分配部署服务NLP-DRAFT-1、NLP-DRAFT-2，如图3中的⑤所示。然后，执行主体响应于没有检测到亲和性列表和排他性桶或桶群，则执行完全按资源分配部署服务MSG-45-1、MSG-45-2、MSG-46-1、MSG-46-2，进而最终按最大GPU资源分配部署服务结果如图3中的⑥所示。图3中，每个矩形柱下方的数字(例如图3中的②的服务器E对应的矩形柱下方的7.6G为服务器E的GPU剩余资源，其余服务器对应的矩形框下方数字的含义类似，在此不再赘述)为服务器的GPU剩余资源量。

具体地，执行主体在执行完全按资源分配部署服务时，遵循如图4所示的服务器资源分配方法，示例的，整个编排服务为10个服务，共有4台服务器，每个服务器所拥有的GPU显卡资源为细矩形柱，每个服务所需的GPU显卡资源为加粗矩形柱。每个服务所需要的资源，按照编号从1到10排好序。当4个服务器资源一开始使用时，都剩余相同的GPU资源。此时，1、2、3、4个服务分别部署在4台服务器中。当第二轮开始时，4所在的服务器GPU所剩下的资源最多，则将第5个服务部署在服务4所在的服务器中，按此方法依次编排。第三轮时，3和6所在的服务器所剩的GPU资源更多。则将服务9编排在3和6的服务器上，最后服务10部署在4和5的服务器中。最终10个服务部署在4台AI服务器中，达到了AI服务部署的GPU资源最为均衡，整个编排效率最高。资源使用在服务器中需要达到尽量均衡才能导致最终AI服务发挥最大的效能，使其效率提高，响应时间缩短。

本申请实施例通过亲和性和排他性配置信息来记录AI服务部署的特异性方法。其中亲和性分为两种，一种为服务器亲和性，一种为服务亲和性。其中服务器亲和性的优先级最高，在每次服务部署之前遍历，满足特殊服务器编排。服务器亲和性在每次编排完之后遍历相关的服务亲和性，优先级高于GPU显存资源编排。排他性为服务排他性，在每次服务编排之前进行行排他性确认。通过资源最大化流程处理配合亲和性和排他性方法。通过编排每个服务时的优先级和服务器资源剩余量的排序，为下一个编排服务提供优先级。通过在业务层由开发人员根据业务情况，并发方法指定亲和性，排他性，最大化流程编排方法。通过亲和性和排他性配置实现AI服务部署的特异性方法。根据业务，高可用对每个AI服务进行压力测试和亲和性、排他性放置。确认编排的特异性，保证业务并发和高可用，保证业务的正常运转。通过资源最大化流程处理配合亲和性和排他性进行AI服务编排方法。使得在满足业务具体分配需求的基础上，对GPU显存资源再分配，最终达到GPU显存资源均匀分配，不会出现并发堵塞，拥塞的情况。

图6是根据本申请实施例的服务部署装置的主要单元的示意图。如图6所示，服务部署装置包括接收单元601、目标服务器确定单元602和服务部署单元603。

接收单元601，被配置成接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表。

目标服务器确定单元602，被配置成根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器。

服务部署单元603，被配置成判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。

在一些实施例中，服务部署单元603进一步被配置成：确定服务部署请求对应的各常规部署服务所需的服务器资源对应的资源占比；基于资源占比，确定各常规部署服务对应的服务优先级；确定各服务器的资源剩余量，进而基于资源剩余量确定对应的服务器优先级；基于各服务优先级和各服务器优先级，在各服务器上部署各常规部署服务。

在一些实施例中，服务部署单元603进一步被配置成：遍历各服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；确定目标服务对应的目标排他服务，进而判断最大服务器优先级对应的服务器上是否部署有目标排他服务，若否则将目标服务部署于最大服务器优先级对应的服务器，若是则将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，直至最大服务器优先级对应的服务器上没有部署目标排他服务，将目标服务部署于最大服务器优先级对应的服务器；将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，进而迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

在一些实施例中，服务部署单元603进一步被配置成：遍历各服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；将目标服务部署于最大服务器优先级对应的服务器，将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

在一些实施例中，服务部署单元603进一步被配置成：遍历各服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；确定最大服务器优先级对应的服务器的数量，响应于数量大于1，任选2个最大服务器优先级对应的服务器作为待部署服务器；响应于数量等于1，将最大服务器优先级对应的服务器和最大服务器优先级对应的下一级服务器优先级对应的服务器确定为待部署服务器；确定目标服务对应的目标排他服务，进而判断待部署服务器上是否部署有目标排他服务，若否则将目标服务分别部署于各待部署服务器，若是则将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，直至待部署服务器上没有部署目标排他服务，将目标服务分别部署于各待部署服务器；将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，进而迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

在一些实施例中，服务部署单元603进一步被配置成：遍历各服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；确定最大服务器优先级对应的服务器的数量，响应于数量大于1，任选2个最大服务器优先级对应的服务器作为待部署服务器；响应于数量等于1，将最大服务器优先级对应的服务器和最大服务器优先级对应的下一级服务器优先级对应的服务器确定为待部署服务器；将目标服务分别部署于各待部署服务器，将最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，将最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新目标服务，进而迭代执行在各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

在一些实施例中，服务部署单元603进一步被配置成：确定各常规部署服务中的并发服务，将各并发服务部署于不同的服务器中。

需要说明的是，在本申请服务部署方法和服务部署装置在具体实施内容上具有相应关系，故重复内容不再说明。

图7示出了可以应用本申请实施例的服务部署方法或服务部署装置的示例性系统架构700。

如图7所示，系统架构700可以包括终端设备701、702、703，网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备701、702、703通过网络704与服务器705交互，以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备701、702、703可以是具有服务部署处理屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器705可以是提供各种服务的服务器，例如对用户利用终端设备701、702、703所提交的服务部署请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表；根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器；判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。根据服务器亲和性、服务亲和性和服务排他性在各服务器上进行有特殊部署需求的服务的部署，从而保证服务的多并发和高可用，保证服务的正常运转的同时提高GPU服务器资源的利用率。

需要说明的是，本申请实施例所提供的服务部署方法一般由服务器705执行，相应地，服务部署装置一般设置于服务器705中。

应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图8，其示出了适于用来实现本申请实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有计算机系统800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、目标服务器确定单元和服务部署单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备接收服务部署请求，确定对应的特殊部署需求服务，进而获取对应的服务器亲和性列表、服务亲和性列表和服务排他性列表；根据服务排他性列表确定对应的排他服务，并根据服务器亲和性列表确定目标服务器；判断目标服务器上是否部署有排他服务，若是则返回请求失败，若否则将特殊部署需求服务部署于目标服务器，进而基于服务亲和性列表确定对应的亲和服务，将亲和服务部署于目标服务器。

本申请的计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本申请实施例中的服务部署方法。

根据本申请实施例的技术方案，通过根据服务器亲和性、服务亲和性和服务排他性在各服务器上进行有特殊部署需求的服务的部署，从而保证服务的多并发和高可用，保证服务的正常运转的同时提高GPU服务器资源的利用率。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种服务部署方法，其特征在于，包括：

根据所述服务排他性列表确定对应的排他服务，并根据所述服务器亲和性列表确定目标服务器；

判断所述目标服务器上是否部署有所述排他服务，若是则返回请求失败，若否则将所述特殊部署需求服务部署于所述目标服务器，进而基于所述服务亲和性列表确定对应的亲和服务，将所述亲和服务部署于所述目标服务器。

2.根据权利要求1所述的方法，其特征在于，在所述将所述亲和服务部署于所述目标服务器之后，所述方法还包括：

确定所述服务部署请求对应的各常规部署服务所需的服务器资源对应的资源占比；

基于所述资源占比，确定各所述常规部署服务对应的服务优先级；

确定各服务器的资源剩余量，进而基于所述资源剩余量确定对应的服务器优先级；

基于各所述服务优先级和各所述服务器优先级，在所述各服务器上部署各所述常规部署服务。

3.根据权利要求2所述的方法，其特征在于，所述基于各所述服务优先级和各所述服务器优先级，在所述各服务器上部署各所述常规部署服务，包括：

遍历各所述服务优先级对应的常规部署服务，将最大的服务优先级对应的常规部署服务确定为目标服务；

确定所述目标服务对应的目标排他服务，进而判断最大服务器优先级对应的服务器上是否部署有所述目标排他服务，若否则将所述目标服务部署于所述最大服务器优先级对应的服务器，若是则将所述最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，直至所述最大服务器优先级对应的服务器上没有部署所述目标排他服务，将所述目标服务部署于所述最大服务器优先级对应的服务器；

将所述最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新所述目标服务，进而迭代执行在所述各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

4.根据权利要求2所述的方法，其特征在于，所述基于各所述服务优先级和各所述服务器优先级，在所述各服务器上部署各所述常规部署服务，包括：

将所述目标服务部署于所述最大服务器优先级对应的服务器，将所述最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，将所述最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新所述目标服务，迭代执行在所述各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

5.根据权利要求2所述的方法，其特征在于，所述基于各所述服务优先级和各所述服务器优先级，在所述各服务器上部署各所述常规部署服务，包括：

确定最大服务器优先级对应的服务器的数量，响应于所述数量大于1，任选2个最大服务器优先级对应的服务器作为待部署服务器；响应于所述数量等于1，将所述最大服务器优先级对应的服务器和所述最大服务器优先级对应的下一级服务器优先级对应的服务器确定为待部署服务器；

确定所述目标服务对应的目标排他服务，进而判断所述待部署服务器上是否部署有所述目标排他服务，若否则将所述目标服务分别部署于各所述待部署服务器，若是则将所述最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，直至所述待部署服务器上没有部署所述目标排他服务，将所述目标服务分别部署于各所述待部署服务器；

6.根据权利要求2所述的方法，其特征在于，所述基于各所述服务优先级和各所述服务器优先级，在所述各服务器上部署各所述常规部署服务，包括：

将所述目标服务分别部署于各所述待部署服务器，将所述最大服务器优先级对应的下一级服务器优先级确定为最大服务器优先级，将所述最大的服务优先级对应的下一级服务优先级确定为最大服务优先级，进而更新所述目标服务，进而迭代执行在所述各服务器上的服务部署，直至最后一个服务部署完成，结束服务部署。

7.根据权利要求2-6中任一项所述的方法，其特征在于，所述方法还包括：

确定所述各常规部署服务中的并发服务，将各所述并发服务部署于不同的服务器中。

8.一种服务部署装置，其特征在于，包括：

目标服务器确定单元，被配置成根据所述服务排他性列表确定对应的排他服务，并根据所述服务器亲和性列表确定目标服务器；

服务部署单元，被配置成判断所述目标服务器上是否部署有所述排他服务，若是则返回请求失败，若否则将所述特殊部署需求服务部署于所述目标服务器，进而基于所述服务亲和性列表确定对应的亲和服务，将所述亲和服务部署于所述目标服务器。

9.根据权利要求8所述的装置，其特征在于，所述服务部署单元进一步被配置成：

10.根据权利要求9所述的装置，其特征在于，所述服务部署单元进一步被配置成：

11.根据权利要求9所述的装置，其特征在于，所述服务部署单元进一步被配置成：

12.根据权利要求9所述的装置，其特征在于，所述服务部署单元进一步被配置成：

13.根据权利要求9所述的装置，其特征在于，所述服务部署单元进一步被配置成：

14.一种服务部署电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。