CN111782185A

CN111782185A - 人工智能开发平台的管理方法及设备、介质

Info

Publication number: CN111782185A
Application number: CN202010624194.8A
Authority: CN
Inventors: 袁正雄; 施恩; 谢永康; 胡鸣人; 钱正宇; 褚振方
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16
Anticipated expiration: 2040-06-30
Also published as: KR102556186B1; JP2021121921A; EP3817339B1; US20210211361A1; CN111782185B; EP3817339A2; US11455173B2; EP3817339A3; KR20210034558A; JP7161560B2

Abstract

本公开提供一种人工智能开发平台的管理方法及设备、介质，涉及人工智能技术领域。所述人工智能开发平台上部署有多个模型服务的实例，并且每一个模型服务具有一个或多个实例。所述管理方法包括：获取至少一个模型服务的调用信息；根据所述调用信息，确定所述至少一个模型服务的活跃程度；以及响应于所确定的活跃程度满足第一条件，至少删除所述至少一个模型服务的所有实例。

Description

人工智能开发平台的管理方法及设备、介质

技术领域

本公开涉及人工智能技术领域，特别涉及一种人工智能开发平台的管理方法及设备、介质。

背景技术

随着人工智能(artificial intelligence，简称“AI”)技术在各行业的应用落地，具有AI技术能力的公司通过AI开发平台为用户定制化模型提供自动化部署与服务方案。海量的AI模型服务对AI开发平台的模型部署和在线推理提出了挑战。

发明内容

根据本公开的一方面，提供一种人工智能开发平台的管理方法，所述人工智能开发平台上部署有多个模型服务的实例，并且每一个模型服务具有一个或多个实例，其中，所述管理方法包括：获取至少一个模型服务的调用信息；根据所述调用信息，确定所述至少一个模型服务的活跃程度；以及响应于所确定的活跃程度满足第一条件，至少删除所述至少一个模型服务的所有实例。

根据本公开的另一方面，还提供一种人工智能开发平台系统，包括：云端服务器，被配置用于部署有多个模型服务的实例，并且每一个模型服务具有一个或多个实例；调用信息收集模块，被配置用于获取至少一个模型服务的调用信息；检测模块，被配置用于根据所述调用信息，确定所述至少一个模型服务的活跃程度；执行模块，被配置用于响应于所确定的活跃程度满足第一条件，至少删除所述至少一个模型服务的所有实例。

根据本公开的另一方面，还提供一种电子设备，包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述的管理方法。

根据本公开的另一方面，还提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据上述的管理方法。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据示例性实施例的人工智能开发平台的管理方法的流程图；

图2是示出根据示例性实施例的至少删除模型服务的所有实例的流程图；

图3是示出根据示例性实施例的人工智能开发平台的管理方法的流程图；

图4是示出根据示例性实施例的人工智能开发平台系统的示意性组成框图；

图5是示出能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

对于AI开发平台，AI模型尤其是深度学习模型的网络结构极为复杂，单个模型服务实例部署所需的内存空间较大(GB级别)。AI开发平台须要支撑数以万计的模型服务，需要提供海量的内存资源，机器成本很高，并且存在大量模型服务长时间无调用的情况，资源利用率较低。另外，大量服务接入对AI开发平台的接入层造成压力，例如，海量的流量路由规则配置、频繁的路由规则变动，易造成接入层性能问题，从而引发在线推理服务整体的性能下降。

相关技术中，解决海量的AI模型服务引发的上述问题，主要有以下两种方案：

第一种、基于多集群方案，拆分单个大集群为多个中等规模的集群，通过制定分层路由规则减轻单个集群的路由负载；

第二种、基于serverless(无服务器)方案，根据流量特征自动调整服务实例数。

但是，第一种方案没有从根本上解决海量模型占用内存资源的问题，扩容仍需大量机器资源。另外，还会引入集群间协同的问题，网络拓扑复杂，网络问题容易造成多个集群之间状态不同步。第二种方案在AI开发平台上不部署任何模型服务实例，根据流量特征自动调整服务实例数，AI模型服务初始化所需耗时较高，复杂模型可高达分钟级别。因此，serverless方案通过保持流量并转发的自动唤醒机制无法起效，易造成在线推理请求超时。serverless方案还需引入服务网格框架，存量服务的迁移过程较繁琐，增加了平台改造成本。因此，亟需一种有效的技术来解决AI模型服务引发的上述问题。

基于此，本公开提供一种人工智能开发平台的管理方法，通过获取模型服务的调用信息，基于调用信息来确定模型服务的活跃程度。可以设定策略规则，响应于确定模型服务的活跃程度满足第一条件，删除模型服务在开发平台上部署的所有实例，释放机器CPU和内存等资源。从而能够提高资源利用率，降低对AI开发平台的机器资源要求。另外，基于模型服务的调用活跃程度来删除模型服务实例，能够克服serverless自动唤醒机制易造成在线推理请求超时的问题，并且不需要引入服务网格框架，对AI开发平台的改造成本很低。

本公开中响应于接收到模型服务的模型推理流量，由模型服务的一个实例执行在线推理。模型服务的调用信息实际上是模型服务的所有实例的调用信息。

以下将结合附图对本公开的人工智能开发平台的管理方法进行进一步描述。

AI开发平台为用户提供自动化部署与服务方案。AI开发平台上可部署有多个模型服务的实例。模型服务实例可响应于接收到模型服务的模型推理流量执行在线推理，实现一定的功能，例如，图像分类、物体检测、文本识别、语音识别、自然语言处理等等。每一个模型服务可具有一个或多个实例，每一个实例即是该模型服务的一个副本，所述一个或多个实例执行在线推理能够实现相同功能。用户可以根据各自的实际需求来选择模型服务实例的部署数量。

需要说明的是，除特殊声明外，本公开中的模型服务均是指用户在AI开发平台上部署了实例的模型，能够实现一定的功能。用户可以调用自己部署在AI开发平台上的模型服务实例，也可以调用其它用户部署在AI开发平台上的模型服务实例。

图1是示出根据本公开示例性实施例的人工智能开发平台的管理方法的流程图。如图1所示，所述管理方法可以包括：步骤S101、获取至少一个模型服务的调用信息；步骤S102、根据所述调用信息，确定所述至少一个模型服务的活跃程度；以及步骤S103、响应于所确定的活跃程度满足第一条件，至少删除所述至少一个模型服务的所有实例。从而能够提高机器资源利用率。

根据一些实施例，可以确定部署在AI平台上的所有存量模型服务的活跃程度，对活跃程度满足所述第一条件的至少一个模型服务执行删除其所有实例。

所述调用信息例如可以包括模型服务的创建时间，以及以下信息中的至少其中之一：最近调用时间、预定时间窗口内调用次数和预定时间窗口内的调用时刻分布。从而能够基于所述调用信息确定模型服务的活跃程度(即调用活跃程度)。

根据一些实施例，可以但不限于将模型服务的活跃程度划分为两个等级：活跃和低活跃。在这种情况下，可以响应于所确定的活跃程度为低活跃级别，至少删除所述至少一个模型服务的所有实例。

在一些示例性实施例中，基于模型服务的调用信息，若确定该模型服务近期具有稳定的调用，则可确定该模型服务不满足第一条件，不删除该模型服务的实例，从而能够保证该模型服务在线推理请求的时效性。若确定该模型服务近期未被调用，但是在长期时间尺度(例如，自模型服务的创建时间至当前时间这一时间尺度)上具有稳定的调用，则可确定该模型服务满足第一条件，删除该模型服务的所有实例。

根据一些实施例，对于已删除实例的至少一个模型服务，可以响应于确定已删除实例的所述至少一个模型服务在预定的时期内未被调用，删除所述至少一个模型服务在所述平台接入层中的路由配置。即，针对已删除实例的模型服务，进一步判断其在预设的时间窗口内是否未被调用，若是，则对已删除实例的模型服务进一步删除对应的路由规则。从而能够减轻流量路由规则配置和频繁的路由规则变动对平台接入层造成的压力，提升在线推理服务的性能。

在上述的策略规则中，基于调用信息来确定模型服务近期是否被调用并且是否具有稳定的调用，从而将模型服务划分为活跃服务和低活跃服务。响应于确定模型服务的活跃程度为低活跃级别(即满足第一条件)，删除模型服务的所有实例。然后确定已删除实例的模型服务在预设的时间窗口内是否被调用，若未被调用，则继续删除已删除实例的模型服务对应的路由规则。从而能够在实现资源利用率提升的同时，减轻过多的路由规则对业务服务带来的性能损耗。

可以理解的是，也可以按照其它策略规则来设定不同于上述的第一条件，并响应于确定模型服务的活跃程度满足设定的第一条件，至少删除模型服务的所有实例。例如，也可以基于调用信息将模型服务划分为活跃服务、低活跃服务和不活跃服务。响应于确定模型服务的活跃程度为活跃，不执行删除模型服务的实例；响应于确定模型服务的活跃程度为低活跃，仅删除模型服务的所有实例；响应于确定模型服务的活跃程度为不活跃，删除模型服务的所有实例和路由规则。也就是说，所述第一条件还可以包括不同的子条件，根据不同的子条件执行至少删除模型服务的所有实施例。该示例性实施例中，活跃服务例如可以为自模型服务的创建时间至当前时间这一时间尺度上均具有稳定调用的服务；低活跃服务例如可以为近期未被调用，但在较长的时间窗口内具有稳定调用的服务；不活跃服务例如可以为在较长的时间窗口内未被调用的服务。

根据一些实施例，如图2所示，步骤S103、所述至少删除所述至少一个模型服务的所有实例可以包括：步骤S1031、确定所述至少一个模型服务是否存在于所述人工智能开发平台的集群中；以及步骤S1032、响应于确定所述至少一个模型服务存在于所述集群中，将所述至少一个模型服务的后端切换至流量承接模块。其中，所述流量承接模块用于接收针对已删除实例的模型服务的模型推理流量。从而能够实现仅是至少删除模型服务在AI开发平台上部署的所有实施例(即所有副本)，而不删除模型服务本身，以便于后续能够恢复模型服务的实例部署。

用户在AI开发平台创建模型服务之后，模型服务可以存储在专有的存储系统(例如云存储系统)中，并且可以根据用户的需求部署一定数量的实例，用以执行在线推理。

根据一些实施例，步骤S103还可以包括：步骤S1033、将所述至少一个模型服务的原始数据信息继续存储在所述集群中。其中，所述原始数据信息至少包括所述至少一个模型服务在被删除实例之前部署在所述开发平台上的实例的第一数量。从而能够在已删除实例的模型服务被调用时能够恢复模型服务的所有实例，不影响用户的在线推理需求。

所述原始数据信息例如还可以包括已删除实例的模型服务所需的计算资源(例如，处理器的类别和型号等)，从而在恢复已删除模型服务的所有实例后，能够保证模型服务的在线推理性能。

所述人工智能开发平台可以但不限于为单集群。从而能够保证在删除模型服务的实例后，模型服务的原始数据信息存在于并且可仍继续存储在所述集群中，以便于后续能够恢复模型服务的实例部署。

在AI开发平台为单集群的情况下，可以响应于删除模型服务的所有实例，直接执行将已删除实例的模型服务的后端切换至流量承接模块，所述流量承接模块用于接收针对已删除实例的模型服务的模型推理流量。

根据一些实施例，如图3所示，所述管理方法还可以包括：步骤S104、响应于所述流量承接模块接收到针对已删除实例的所述至少一个模型服务的模型推理流量，触发对所述至少一个模型服务的唤醒操作。所述唤醒操作可以包括：在所述人工智能开发平台上恢复所述至少一个模型服务的所述第一数量的实例，并且轮询已恢复的实例的状态直到所述第一数量的实例全部启动完成；以及将所述至少一个模型服务的后端切换回已恢复的第一数量的实例。从而能够在用户调用已删除实例的模型服务时，在AI开发平台上恢复模型服务的所有实例，并执行在线推理。另外，在恢复已删除模型服务的所有实例后，将模型服务的后端切换回模型服务实例，便于后续对该模型服务的调用，避免出现对该模型服务的在线推理请求延时的问题。

在所述至少一个模型服务在所述平台接入层中的路由配置已被删除的情况下，所述唤醒操作还可以包括：重新配置所述至少一个模型服务对应的路由规则。从而接入层在接收到已恢复实例的所述至少一个模型服务的模型推理流量时，能够根据路由规则建立用户端与模型服务实例之间的连接。

在一个示例性实施例中，所述流量承接模块可以具有多个实例，并且其中，当所述流量承接模块的多个实例中的第一实例首先接收到对已删除实例的所述至少一个模型服务的模型推理流量时，所述第一实例获得分布式锁资源并触发所述唤醒操。其中，所述第一实例在持有所述分布式锁资源时能够阻止所述流量承接模块的多个实例中的其他实例触发所述唤醒操作。由此，通过设置分布式锁资源能够避免重复唤醒已删除实例的模型服务，避免不必要地占用机器资源。

本公开的技术方案基于模型服务的调用信息来确定模型服务的调用活跃程度，通过设定策略规则，可以响应于模型服务的活跃程度满足预设的第一条件，至少删除模型服务的所有实施例，从而能够提高机器资源的利用效率，降低对平台的机器资源要求，还能够提升在线推理的性能。

上面内容中已经给出能够表征模型服务被调用的活跃程度的调用信息可以包括模型服务的创建时间，以及模型服务的以下信息中的至少其中之一：最近调用时间、预定时间窗口内调用次数和预定时间窗口内的调用时刻分布。从而能够基于所述调用信息确定模型服务的调用活跃程度。

也就是说，步骤S101、获取所述至少一个模型服务的调用信息可以包括：获取所述至少一个模型服务的创建时间，以及获取所述至少一个模型服务的以下信息中的至少其中之一：最近调用时间、预定时间窗口内调用次数和预定时间窗口内的调用时刻分布。

根据一些实施例，可以通过分析与所述至少一个模型服务的所有实例有关的流量日志，获取所述至少一个模型服务的以下信息中的至少其中之一：最近调用时间、预定时间窗口内调用次数和预定时间窗口内的调用时刻分布。例如，可以通过平台接入层获取与所述至少一个模型服务的所有实例有关的流量日志，通过分析流量日志获取所述至少一个模型服务的上述信息。可以定时执行获取与所述至少一个模型服务的所有实例有关的流量日志，例如，当天获取前一天所述至少一个模型服务的所有实例有关的流量日志。可以汇聚平台接入层所有实施例的流量日志，解析日志中的每一条推理流量请求，获取每一个模型服务的调用信息。通过平台接入层的流量日志可以获取AI开发平台的所有存量模型服务的所有实例的调用信息，从而能够通过解析流量日志获取每一个存量模型服务的调用信息，并基于调用信息确定每一个存量模型服务的调用活跃程度。

本公开的另一方面，还提供一种人工智能开发平台系统。如图4所示，人工智能开发平台系统100可以包括：云端服务器1001，被配置用于部署有多个模型服务的实例，并且每一个模型服务具有一个或多个实例；调用信息收集模块101，被配置用于获取至少一个模型服务的调用信息；检测模块102，被配置用于根据所述调用信息，确定所述至少一个模型服务的活跃程度；执行模块103，被配置用于响应于所确定的活跃程度满足第一条件，至少删除所述至少一个模型服务的所有实例。从而能够提高机器资源利用率。

根据一些实施例，调用信息收集模块101可被配置用于获取所述至少一个模型服务的创建时间，以及通过分析与所述至少一个模型服务的所有实例有关的流量日志，获取所述至少一个模型服务的以下信息中的至少其中之一：最近调用时间、预定时间窗口内调用次数和预定时间窗口内的调用时刻分布。可以理解的是，所述调用信息还可以包括其它信息，只要能够表征所述至少一个模型服务的调用活跃程度即可，在此不作限定。

根据一些实施例，执行模块103还可被配置用于响应于确定已删除实例的所述至少一个模型服务在预定的时期内未被调用，删除所述至少一个模型服务在平台接入层105中的路由配置。从而能够减轻流量路由规则配置和频繁的路由规则变动对平台接入层造成的压力，提升在线推理服务的性能。

根据一些实施例，人工智能开发平台系统100还可以包括流量承接模块104，并且其中，响应于所确定的活跃程度满足第一条件，执行模块103还可被配置为：确定所述至少一个模型服务是否存在于所述人工智能开发平台系统的集群中；以及响应于确定所述至少一个模型服务存在于所述集群中，将所述至少一个模型服务的后端切换至流量承接模块104，其中，流量承接模块104用于接收针对已删除实例的模型服务的模型推理流量。

根据一些实施例，执行模块103还可被配置为：将所述至少一个模型服务的原始数据信息继续存储在所述集群中，其中，所述原始数据信息至少包括所述至少一个模型服务在被删除实例之前部署在云端服务器1001上的实例的第一数量。从而能够在已删除实例的模型服务被调用时能够恢复模型服务的所有实例，不影响用户的在线推理需求。

所述人工智能开发平台系统可以但不限于为单集群，从而能够保证在删除模型服务的实例后，模型服务的原始数据信息存在于并且可仍继续存储在所述集群中，以便于后续能够恢复模型服务的实例部署。

根据一些实施例，人工智能开发平台系统100还可以包括服务唤醒模块106，服务唤醒模块106可被配置用于：响应于流量承接模块104接收到针对已删除实例的所述至少一个模型服务的模型推理流量，在云端服务器1001上恢复所述至少一个模型服务的所述第一数量的实例，并且轮询已恢复的实例的状态直到所述第一数量的实例全部启动完成；以及将所述至少一个模型服务的后端切换回已恢复的第一数量的实例。从而能够在用户调用已删除实例的模型服务时，在AI开发平台系统的云端服务器上恢复模型服务的所有实例，并执行在线推理。另外，在恢复已删除模型服务的所有实例后，将模型服务的后端切换回模型服务实例，便于后续对该模型服务的调用，避免出现对该模型服务的在线推理请求延时的问题。

在所述至少一个模型服务在所述平台接入层中的路由配置已被删除的情况下，服务唤醒模块106还可被配置用于重新配置所述至少一个模型服务对应的路由规则。从而接入层在接收到所述至少一个模型服务的模型推理流量时，能够根据路由规则建立用户端与模型服务实例之间的连接。

在一个示例性实施例中，流量承接模块104可以具有多个实例，并且其中，当流量承接模块104的多个实例中的第一实例首先接收到对已删除实例的所述至少一个模型服务的模型推理流量时，所述第一实例获得分布式锁资源并触发所述唤醒操作，其中，所述第一实例在持有所述分布式锁资源时能够阻止所述流量承接模块的多个实例中的其他实例触发所述唤醒操作。由此，通过设置分布式锁资源能够避免重复唤醒已删除实例的模型服务，避免不必要地占用机器资源。

参见图5所示，现将描述计算设备2000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述管理方法可以全部或至少部分地由计算设备2000或类似设备或系统实现。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙^TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中，并且上述管理方法可以通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地，上述管理方法中，步骤S101-步骤S103可以例如通过处理器2004执行具有步骤S101-步骤S103的指令的应用程序2018而实现。此外，上述管理方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中，并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种人工智能开发平台的管理方法，所述人工智能开发平台上部署有多个模型服务的实例，并且每一个模型服务具有一个或多个实例，其中，所述管理方法包括：

获取至少一个模型服务的调用信息；

根据所述调用信息，确定所述至少一个模型服务的活跃程度；以及

响应于所确定的活跃程度满足第一条件，至少删除所述至少一个模型服务的所有实例。

2.如权利要求1所述的管理方法，还包括：

响应于确定已删除实例的所述至少一个模型服务在预定的时期内未被调用，删除所述至少一个模型服务在平台接入层中的路由配置。

3.如权利要求1或2所述的管理方法，其中，所述至少删除所述至少一个模型服务的所有实例包括：

确定所述至少一个模型服务是否存在于所述人工智能开发平台的集群中；以及

响应于确定所述至少一个模型服务存在于所述集群中，将所述至少一个模型服务的后端切换至流量承接模块，其中，所述流量承接模块用于接收针对已删除实例的模型服务的模型推理流量。

4.如权利要求3所述的管理方法，其中，所述至少删除所述至少一个模型服务的所有实例还包括：

将所述至少一个模型服务的原始数据信息继续存储在所述集群中，其中，所述原始数据信息至少包括所述至少一个模型服务在被删除实例之前部署在所述人工智能开发平台上的实例的第一数量。

5.如权利要求4所述的管理方法，还包括：

响应于所述流量承接模块接收到针对已删除实例的所述至少一个模型服务的模型推理流量，触发对所述至少一个模型服务的唤醒操作，所述唤醒操作包括：

在所述人工智能开发平台上恢复所述至少一个模型服务的所述第一数量的实例，并且轮询已恢复的实例的状态直到所述第一数量的实例全部启动完成；以及

将所述至少一个模型服务的后端切换回已恢复的第一数量的实例。

6.如权利要求5所述的管理方法，其中，在所述至少一个模型服务在所述平台接入层中的路由配置已被删除的情况下，所述唤醒操作还包括：

重新配置所述至少一个模型服务对应的路由规则。

7.如权利要求5或6中所述的管理方法，其中，所述流量承接模块具有多个实例，并且其中，

当所述流量承接模块的多个实例中的第一实例首先接收到对已删除实例的所述至少一个模型服务的模型推理流量时，所述第一实例获得分布式锁资源并触发所述唤醒操作，其中，所述第一实例在持有所述分布式锁资源时能够阻止所述流量承接模块的多个实例中的其他实例触发所述唤醒操作。

8.如权利要求1所述的管理方法，其中，获取所述至少一个模型服务的调用信息包括：

获取所述至少一个模型服务的创建时间；

通过分析与所述至少一个模型服务的所有实例有关的流量日志，获取所述至少一个模型服务的以下信息中的至少其中之一：最近调用时间、预定时间窗口内调用次数和预定时间窗口内的调用时刻分布。

9.如权利要求1所述的管理方法，其中，所述人工智能开发平台为单集群。

10.一种人工智能开发平台系统，包括：

云端服务器，被配置用于部署有多个模型服务的实例，并且每一个模型服务具有一个或多个实例；

调用信息收集模块，被配置用于获取至少一个模型服务的调用信息；

检测模块，被配置用于根据所述调用信息，确定所述至少一个模型服务的活跃程度；

执行模块，被配置用于响应于所确定的活跃程度满足第一条件，至少删除所述至少一个模型服务的所有实例。

11.如权利要求10所述的人工智能开发平台系统，其中，所述执行模块还被配置用于响应于确定已删除实例的所述至少一个模型服务在预定的时期内未被调用，删除所述至少一个模型服务在平台接入层中的路由配置。

12.如权利要求10或11所述的人工智能开发平台系统，其中，所述人工智能开发平台系统还包括流量承接模块，并且其中，

响应于所确定的活跃程度满足第一条件，所述执行模块还被配置为：

确定所述至少一个模型服务是否存在于所述人工智能开发平台系统的集群中；以及

响应于确定所述至少一个模型服务存在于所述集群中，将所述至少一个模型服务的后端切换至所述流量承接模块，其中，所述流量承接模块用于接收针对已删除实例的模型服务的模型推理流量。

13.如权利要求12所述的人工智能开发平台系统，其中，所述执行模块还被配置为：

将所述至少一个模型服务的原始数据信息继续存储在所述集群中，其中，所述原始数据信息至少包括所述至少一个模型服务在被删除实例之前部署在所述云端服务器上的实例的第一数量。

14.如权利要求13所述的人工智能开发平台系统，其中，所述人工智能开发平台系统还包括服务唤醒模块，所述服务唤醒模块被配置用于：

响应于所述流量承接模块接收到针对已删除实例的所述至少一个模型服务的模型推理流量，在所述云端服务器上恢复所述至少一个模型服务的所述第一数量的实例，并且轮询已恢复的实例的状态直到所述第一数量的实例全部启动完成；以及将所述至少一个模型服务的后端切换回已恢复的第一数量的实例。

15.如权利要求14所述的人工智能开发平台系统，其中，在所述至少一个模型服务在所述平台接入层中的路由配置已被删除的情况下，所述服务唤醒模块还被配置用于重新配置所述至少一个模型服务对应的路由规则。

16.如权利要求14或15中所述的人工智能开发平台系统，其中，所述流量承接模块具有多个实例，并且其中，

17.如权利要求10所述的人工智能开发平台系统，其中，所述调用信息收集模块被配置用于获取所述至少一个模型服务的创建时间，以及通过分析与所述至少一个模型服务的所有实例有关的流量日志，获取所述至少一个模型服务的以下信息中的至少其中之一：最近调用时间、预定时间窗口内调用次数和预定时间窗口内的调用时刻分布。

18.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的管理方法。

19.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-9中任一项所述的管理方法。