CN114090516B

CN114090516B - 推理应用中模型文件的管理方法及装置

Info

Publication number: CN114090516B
Application number: CN202010669862.9A
Authority: CN
Inventors: 杨志龙
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2023-02-03
Anticipated expiration: 2040-07-13
Also published as: WO2022012305A1; EP4163798A4; CN114090516A; US20230153100A1; EP4163798A1

Abstract

为了解决需要在训练设备上额外部署管理模块，在推理设备上额外部署管理模块代理，从而实现模型文件管理，导致管理复杂度较高的问题，本申请提供了一种推理应用中模型文件的管理方法，包括：监控目标模型管理对象的状态，根据推理应用的预设字段确定与目标模型管理对象匹配的目标推理应用，其中，推理应用的预设字段用于标识推理应用中模型文件对应的模型管理对象，然后根据目标模型管理对象的状态对目标推理应用中模型文件进行管理。如此，无需额外部署管理模块或管理模块代理即可实现模型文件的统一管理，而且也不要求训练应用和推理应用采用相同的框架，具有较高可用性。

Description

推理应用中模型文件的管理方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种推理应用中模型文件的管理方法、装置、设备以及计算机可读存储介质。

背景技术

目前，在图像处理、文本识别、语言处理等较多领域采用了深度学习(deeplearning)。所谓深度学习是指通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示，进而对数据进行分类、回归等等。深度学习一般分成两个阶段：训练(training)和推理(inference)。训练是赋予模型具有某种能力的过程。训练的结果通常是一个或多个深度学习模型，模型可以应用到新的数据中，得到预测、评价等结果。推理则是利用这种能力在真实环境中做出某些决策的过程，也就是模型应用的过程。

将训练获得的模型部署到正式生产环境中可以进行推理服务。在实际应用时，可以通过容器编排引擎等进行自动化部署。以容器编排引擎为kubernetes为例，训练设备的训练应用完成训练，生成模型文件后，需要通知推理应用加载模型文件，推理应用加载推理文件进行模型部署，从而实现对外提供推理服务。

然而，通知推理应用加载模型文件需要在训练设备部署一个管理模块，并在推理设备上额外部署管理模块代理，增加了模型文件管理的复杂度。基于此，业界亟需提供一种更为简单、高效的模型文件的管理方法，以简化模型部署的复杂度。

发明内容

本申请提供了一种推理应用中模型文件的管理方法，该方法通过利用推理应用的预设字段将推理应用与模型文件通过模型管理对象进行关联，由此实现对推理应用中模型文件的管理，无需额外部署管理模块或管理模块代理，简化了模型文件的管理过程，提高了管理效率，进而降低了模型部署的复杂度。本申请还提供了上述方法对应的装置、设备、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供了一种推理应用中模型文件的管理方法。在该方法中，针对模型文件创建有描述该模型文件的模型管理对象。本申请实施例提及的模型管理对象也可以称作模型管理器(model manager)。推理应用的预设字段标识有该推理应用中模型文件对应的模型管理对象。基于此，可以监控目标模型管理对象的状态，根据推理应用的预设字段确定与目标模型管理对象匹配的目标推理应用，根据目标模型管理对象的状态对目标推理应用中模型文件进行管理。

该方法中无需额外部署管理模块和管理模块代理，即可实现对目标推理应用中模型文件的统一管理，降低了模型文件管理的复杂度，进而降低了模型部署的复杂度。并且，该方法也不要求推理应用部署深度学习框架，如TF Serving，更不要求训练应用使用与推理应用相同生态的框架，如tensor flow，具有较高可用性。

在一些可能的实现方式中，当目标模型管理对象的状态表征目标模型管理对象被删除时，可以通知目标推理应用删除模型文件，由此实现对目标推理应用中模型文件的管理。该方法无需借助管理模块、管理模块代理通知目标推理应用，也无需基于深度学习框架通知目标推理应用，而是通过原生的管理机制进行统一管理，降低了管理复杂度，提高了管理效率。

在一些可能的实现方式中，当目标模型管理对象的状态表征目标模型管理对象被更新时，可以通知目标推理应用更新模型文件，从而实现对目标推理应用中模型文件的管理。该方法无需借助管理模块、管理模块代理通知目标推理应用，也无需基于深度学习框架通知目标推理应用，而是通过原生的管理机制进行统一管理，降低了管理复杂度，提高了管理效率。

在一些可能的实现方式中，推理应用的预设字段包括标签(lable)或注解(annotation)。label具有严格的命名规则，通常用于定义kubernetes对象(如推理应用)的元数据(metadata)，并且用于标签选择器(label selector)。annotation则是用户任意定义的“附加”信息，可以包括lable不允许使用的字符，以便于外部工具进行查找。预设字段用于标识推理应用中模型文件对应的模型管理对象。当模型管理对象的标识比较规律时，可以采用lable标识模型文件对应的模型管理对象，当模型管理对象的标识包括比较丰富的信息时，可以采用annotation标识模型文件对应的模型管理对象。

在一些可能的实现方式中，目标模型管理对象为通过资源自定义(customresource definition，CRD)接口创建得到。kubernetes提供了CRD接口，用户可以通过该接口自定义新类型的资源对象，从而实现无需修改kubernetes源码即可扩展kubernetes的应用程序编程接口(application programming interface，API)，大大提高了kubernetes的扩展能力。

具体实现时，用户可以通过客户端例如集成开发环境(integrated developmentenvironment，IDE)在kubernetes中注册资源类型，例如注册model manager类型，该资源类型主要用于描述模型文件。当训练应用生成模型文件时，用户还可以通过IDE，利用已注册的model manager类型创建model manager实例。其中，model manager实例用于描述具体的模型文件，通常情况下，一个模型文件对应一个model manager实例(可以简称为modelmanager)。

在一些可能的实现方式中，目标推理应用被部署在kubernetes集群，该方法具体可以由模型控制器(model controller)执行。模型控制器实质上是一个进程，该进程可以是手动编写具有相应功能的代码，然后执行上述代码所生成。该进程运行于kubernetes集群的主节点(Master)，用于对部署在kubernetes集群的工作节点(Node)的目标推理应用中模型文件进行统一管理。

第二方面，本申请提供了一种推理应用中模型文件的管理方法。其中，推理应用的预设字段用于标识推理应用中模型文件对应的模型管理对象。推理应用可以接收管理通知，该管理通知是根据模型管理对象的状态生成的，该管理通知用于指示推理应用对模型文件进行管理，然后推理应用可以根据上述管理通知对模型文件进行管理。

在上述方法中，推理应用的预设字段将推理应用与模型文件通过模型管理对象进行关联，因此，模型控制器监控模型管理对象的状态时，如果监控到模型文件被删除或者被更新，可以向对应的推理应用发送管理通知，指示推理应用删除或更新模型文件，由此实现了对模型文件的统一管理，无需借助额外部署的管理模块或管理模块代理，也无需训练应用和推理应用采用相同生态的框架。

在一些可能的实现方式中，管理通知用于指示推理应用对模型文件进行删除，对应地，推理应用可以根据管理通知删除模型文件。如此简化了删除模型文件的过程，降低了模型文件管理的复杂度。

在一些可能的实现方式中，管理通知用于指示推理应用对模型文件进行更新，对应地，推理应用可以获取新版本的模型文件，加载新版本的模型文件，以更新模型文件。如此简化了更新模型文件的过程，降低了模型文件管理的复杂度。

第三方面，本申请提供了一种推理应用中模型文件的管理装置。该装置包括：

监控单元，用于监控目标模型管理对象的状态；

确定单元，用于根据推理应用的预设字段确定与目标模型管理对象匹配的目标推理应用，推理应用的预设字段用于标识推理应用中模型文件对应的模型管理对象；

管理单元，用于根据目标模型管理对象的状态对目标推理应用中模型文件进行管理。

在一些可能的实现方式中，管理单元具体用于：

当目标模型管理对象的状态表征目标模型管理对象被删除时，通知目标推理应用删除模型文件。

在一些可能的实现方式中，管理单元具体用于：

当目标模型管理对象的状态表征目标模型管理对象被更新时，通知目标推理应用更新模型文件。

在一些可能的实现方式中，推理应用的预设字段包括标签或注解。

在一些可能的实现方式中，目标模型管理对象为通过资源自定义CRD接口创建得到。

在一些可能的实现方式中，目标推理应用被部署在kubernetes集群，推理应用中模型文件的管理装置为模型控制器。

第四方面，本申请提供了一种推理应用中模型文件的管理装置。推理应用的预设字段用于标识推理应用中模型文件对应的模型管理对象，装置包括：

通信单元，用于接收管理通知，管理通知是根据模型管理对象的状态生成的，管理通知用于指示推理应用对模型文件进行管理；

管理单元，用于根据管理通知对模型文件进行管理。

在一些可能的实现方式中，管理通知用于指示推理应用对模型文件进行删除；

管理单元具体用于：

删除模型文件。

在一些可能的实现方式中，管理通知用于指示推理应用对模型文件进行更新；

管理单元具体用于：

获取新版本的模型文件；

加载新版本的模型文件，以更新模型文件。

第五方面，本申请提供一种计算设备，该计算设备包括处理器和存储器。处理器、存储器进行相互的通信。处理器用于执行存储器中存储的指令，以使得计算设备执行如第一方面或第二方面的任一种实现方式中的推理应用中模型文件的管理方法。

第六方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，该指令指示计算设备执行上述第一方面或第二方面的任一种实现方式的推理应用中模型文件的管理方法。

第七方面，本申请提供了一种包含指令的计算机程序产品，当其在计算设备上运行时，使得计算设备执行上述第一方面或第二方面的任一种实现方式中的推理应用中模型文件的管理方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种推理应用中模型文件管理的方法的系统架构图；

图2为本申请实施例提供的一种推理应用中模型文件管理的方法的应用环境图；

图3为本申请实施例提供的一种推理应用中模型文件管理的方法的交互流程图；

图4为本申请实施例提供的一种推理应用中模型文件管理的装置的结构示意图；

图5为本申请实施例提供的一种推理应用中模型文件管理的装置的结构示意图；

图6为本申请实施例提供的一种计算设备的结构示意图；

图7为本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

首先对本申请实施例中所涉及到的一些技术术语进行介绍。

应用(application，APP)，是针对用户的某种特殊应用目的所撰写的计算机程序的集合，具体可以是单一的应用程序或者多个应用程序的集合形成的应用软件。例如，应用可以是产品、订单、用户等多个应用程序的集合形成的电商系统。又例如，应用可以是编辑器等应用程序。

随着人工智能(artificial intelligence，AI)技术的不断发展，业界提出了一种基于AI模型的应用构建方法。AI模型具体可以通过深度学习(deep learning)方法训练得到。其中，深度学习一般分成两个阶段：训练(training)和推理(inference)。训练是赋予模型具有某种能力的过程。训练的结果通常是一个或多个深度学习模型，模型可以应用到新的数据中，得到预测、评价等结果。推理则是利用这种能力在真实环境中做出某些决策的过程，也就是模型应用的过程。

训练设备上的训练应用对模型进行训练。当训练应用完成训练时，可以生成模型文件。该模型文件用于构建应用。在一些实现方式中，模型文件中可以包括模型的各个神经元的权重形成的权重矩阵。推理设备上的推理应用可以加载上述模型文件，进行模型部署，从而实现对外提供推理服务。

上述训练设备和推理设备可以是集群中的设备。具体地，集群中包括至少一个训练设备和至少一个推理设备。此外，集群中还可以包括至少一个管理设备。管理设备用于对训练设备和推理设备进行管理。其中，多个训练设备、多个推理设备可以进行负载均衡，多个管理设备可以实现灾备。当训练设备上的训练应用生成新版本的模型文件时，推理设备上的推理应用难以感知到新版本的模型文件，需要通知推理应用加载该新版本的模型文件，以更新模型。

目前，业界提出了一些方法实现对推理应用中模型文件的管理。例如，在训练设备上额外部署管理模块，在推理设备上额外部署管理模块代理，当训练设备上的训练应用生成新版本的模型文件时，管理模块通知管理模块代理，接着由管理模块代理通知推理应用，从存储设备中获取新版本的模型文件，加载该模型文件，从而更新模型。其中，存储设备可以是集群中的设备，也可以是集群挂载的外部设备。然而，这种方法需要额外部署管理模块和管理模块代理，增加了模型文件管理的复杂度，进而增加了模型部署的复杂度。

有鉴于此，本申请实施例提供了一种推理应用中模型文件的管理方法。在该方法中，针对模型文件创建有描述该模型文件的模型管理对象。本申请实施例提及的模型管理对象也可以称作模型管理器(model manager)。推理应用的预设字段标识有该推理应用中模型文件对应的模型管理对象。基于此，可以监控目标模型管理对象的状态，根据推理应用的预设字段确定与目标模型管理对象匹配的目标推理应用，根据目标模型管理对象的状态对目标推理应用中模型文件进行管理。

为了使得本申请的技术方案更加清楚、易于理解，下面先结合附图对推理应用中模型文件的管理方法的系统架构进行介绍。

参见图1所示的推理应用中模型文件的管理方法的系统架构图，如图1所示，集群为kubernetes(也可以简称为k8s)集群，k8s集群将集群中的设备(物理机)或设备上运行的虚拟机划分为主节点(Master)和工作节点(Node)。

集群中的管理设备或者该管理设备上运行的虚拟机为Master。Master上运行有与集群管理相关的一组进程，例如接口服务器(kube-apiserver)、kube控制器管理器(kube-controller-manager)和调度器(kube-scheduler)等进程。Master通过这些进程可以实现对整个集群的资源管理、容器组调度、弹性伸缩、安全控制、系统监控和纠错等管理能力。

集群中用于训练模型的训练设备或者该训练设备上运行的虚拟机，以及集群中用于应用模型进行推理的推理设备或者该推理设备上运行的虚拟机为Node。如图1所示，至少一个Node上运行训练应用，至少一个Node上运行推理应用。运行训练应用的Node和运行推理应用的Node通常是不同的。

k8s集群还挂载有存储节点。该存储节点用于存储模型文件。在一些可能的实现方式中，存储节点也可以是k8s集群中的节点，例如可以是k8s集群中独立的存储节点，或者是k8s集群中兼有存储模型文件功能的Node。

具体地，训练应用对模型进行训练，当训练完成时，训练应用生成模型文件，然后将该模型文件存储在存储节点中。Master上生成有针对该模型文件的模型管理对象。在该示例中，n个训练应用分别生成模型文件，每个模型文件对应一个模型管理对象，为了便于描述，将这n个模型管理对象记作model manager 1，…，model manager n。其中，n为正整数。

在Node上创建推理应用时，还可以在针对该推理应用的预留字段写入该推理应用加载的模型文件所对应的模型管理对象的标识。例如，一个推理应用的预留字段的字段值可以为model manager i的标识，其中，1≤i≤n。

Master上还运行有模型控制器(model controller)。模型控制器实质上是一个进程，该进程可以是手动编写具有相应功能的代码，然后执行上述代码所生成。具体地，模型控制器可以监控目标model manager的状态。其中，目标model manager可以是modelmanager中的任意一个或多个。模型控制器根据推理应用的预设字段确定与上述目标模型管理对象匹配的目标推理应用。然后，模型控制器可以根据目标model manager的状态对上述目标推理应用中模型文件进行管理。

在图1的示例中，目标model manager可以是model manager i，1≤i≤n。模型控制器可以确定预设字段的字段值为model manager i的标识的推理应用为目标推理引用。模型控制器根据model manager i的状态对目标推理应用中的模型文件进行管理。

在一些情况下，运行训练应用的Node和运行推理应用的Node也可以是同一Node。进一步地，Node上还可以运行多个应用。例如，Node上可以运行一个训练应用以及另一个推理应用。又例如，Node上可以运行不同的训练应用(或者不同的推理应用)。还例如，Node上可以运行一个训练应用以及与该训练应用对应的推理应用。

图1是以k8s集群包括一个Master和两个Node进行示例说明。在本申请实施例其他可能的实现方式中，Node的数量也可以是多个，将应用分布式地部署在多个Node可以实现负载均衡。Master的数量也可以是多个，多个Master可以实现灾备，保障整个系统的可靠性。

进一步地，推理应用也可以部署于除k8s集群之外的其他集群，k8s集群仅仅是本申请的一个示例，并不构成对本申请技术方案的限定。对应地，上述方法不限于由模型控制器执行，例如还可以由其他具有监控model manager状态，以及根据model manager状态对相应的推理应用中模型文件进行管理的功能的应用或者功能模块执行。

图1主要对推理应用中模型文件的管理方法的系统架构进行了详细说明，接下来结合附图对推理应用中模型文件的管理方法的应用环境进行详细说明。

如图2所示，Master和Node可以是云环境中的物理机或虚拟机。云环境具体为包括至少一个云计算设备(例如中心服务器)的计算集群。在一些实现方式中，Master和Node也可以是边缘环境中的物理机或者虚拟机。边缘环境具体为包括至少一个边缘计算设备(例如边缘服务器)的计算集群。在另一些实现方式中，Master和Node还可以是端设备或者是端设备上的虚拟机。

需要说明的是，Master和Node可以是相同环境中的物理机或虚拟机，也可以是不同环境中的物理机或虚拟机，例如Master可以是云环境中的物理机，Node可以是边缘环境中的物理机。

接下来，仍以kubernetes集群场景为例，对本申请实施例提供的推理应用中模型文件的管理方法进行详细说明。

参见图3所示的推理应用中模型文件的管理方法的流程图，该方法包括：

S302：模型控制器监控目标model manager的状态。

目标model manager中的任意一个或多个。model manager是用于描述模型文件的一种对象。当训练应用生成模型文件时，在master上生成有与该模型文件对应的modelmanager。其中，model manager实质是一种自定义的资源对象。该资源对象具体可以通过资源自定义(custom resource definition，CRD)接口创建得到。

kubernetes提供了CRD接口，用户可以通过该接口自定义新类型的资源对象，从而实现无需修改kubernetes源码即可扩展kubernetes的应用程序编程接口(applicationprogramming interface，API)，大大提高了kubernetes的扩展能力。

model manager是一种资源对象，资源对象一般可以包括被删除、被更新等多种状态。模型控制器监控目标model manager的状态具体是监控目标model manager是否被删除，或者是否被更新。

在一些可能的实现方式中，模型控制器可以监控针对目标model manager的更新消息、删除消息，从而实现监控目标model manager的状态。例如，模型控制器监控到针对目标model manager的更新消息时，则表明目标model manager的状态为目标model manager被更新。又例如，模型控制器监控到针对目标model manager的删除消息时，则表明目标model manager的状态为目标model manager被删除。

S304：模型控制器根据推理应用的预设字段确定与目标model manager匹配的目标推理应用。

推理应用实质是一种资源对象，kubernetes提供有至少一种属性字段用于描述该资源对象。预设字段可以是kubernetes提供的至少一种属性字段中的一个或多个。该预设字段可以用于标识推理应用中模型文件对应的model manager。基于此，预设字段的字段值可以设置为推理应用中模型文件对应的model manager的标识，如model manager的编号、model manager的名称等等。

在一些实现方式中，预设字段可以是标签(lable)，或者是注解(annotation)。其中，lable的长度通常是固定的，annotation的长度可以是固定的，也可以是不固定的。因此，model manager的标识的长度不固定时，预设字段可以为annotation，model manager的标识的长度固定时，预设字段可以为annotation或者lable。

模型控制器可以获取至少一个推理应用的预设字段的字段值，根据该字段值确定与目标model manager匹配的目标推理应用。为了便于理解，下面结合一具体示例进行说明。在该示例中，model manager的标识为model manger的名称。其中，目标model manager的名称是resNet50。模型控制器获取到多个推理应用的预设字段的字段值，如lable字段的字段值，具体为vggnet64、resNet50、resNet128等等。然后模型控制器将目标modelmanager的名称“resNet50”与模型控制器获取的字段值“vggnet64”、“resNet50”、“resNet128”等进行匹配，确定lable的字段值为“resNet50”的推理应用为目标推理应用。

需要说明的是，上述S302和S304可以同时执行，也可以按照设定的先后顺序，如先执行S302再执行S304，或者先执行S304再执行S302的顺序执行，本申请实施例对此不作限定。

S306：目标model manager的状态表征目标model manager被更新时，模型控制器通知目标推理应用更新模型文件。

模型控制器根据目标model manager的状态生成管理通知，该管理通知用于指示目标推理应用对模型文件进行管理。根据目标model manager的状态不同，上述管理通知可以是不同的。

具体地，目标model manager的状态表征目标model manager被更新时，模型控制器生成的管理通知可以是通知目标推理应用更新模型文件的通知消息。模型控制器向目标推理应用发送该通知消息，从而通知目标推理应用更新模型文件。

S308：目标推理应用更新模型文件。

目标推理应用可以从存储设备获取新版本的模型文件，然后加载该新版本的模型文件，从而覆盖旧版本的模型文件，以实现更新模型文件。在一些实现方式中，目标推理应用也可以先删除旧版本的模型文件，然后将获取的新版本的模型文件，加载该新版本的模型文件，以实现更新模型文件。

在一些可能的实现方式中，目标推理应用在加载新版本的模型文件时，也可以重启该目标推理应用，以加载新版本的模型文件。

S310：目标model manager的状态表征目标model manager被删除时，模型控制器通知目标推理应用删除模型文件。

具体地，目标model manager的状态表征目标model manager被删除时，模型控制器生成的管理通知可以是通知目标推理应用删除模型文件的通知消息。模型控制器向目标推理应用发送该通知消息，从而通知目标推理应用删除模型文件。

S312：目标推理应用删除模型文件。

具体地，目标推理应用接收到删除模型文件的通知消息时，直接删除该目标推理应用中模型文件。

需要说明的是，上述306至S308或者上述S310至S312均为模型控制器根据目标model manager的状态对目标推理应用中模型文件进行管理的一种实现方式。模型控制器可以择一执行，例如在执行S302、S304之后执行S306至S308，或者在执行S302、S304之后执行S310、S12。

在一些可能的实现方式中，模型控制器也可以执行S306至S308和S310至S312。例如，模型控制器可以在执行S302、S304之后执行S306、S308，然后执行S310、S312。又例如，模型控制器也可以在执行S302、S304之后执行S310、S312，然后执行S306、308。

在一些可能的实现方式中，用户还可以通过查看model manager的状态，从而实现查看模型文件的状态。具体地，用户可以通过客户端如IDE调用kubernetes接口，查看modelmanager的状态，对应地，Master可以返回该model manager描述的模型文件的状态。

基于上述内容描述，本申请实施例提供了一种推理应用中模型文件的管理方法。该方法利用推理应用的预设字段将推理应用与模型文件对应的model manager进行关联，如此，模型控制器可以基于上述关联关系确定目标model manager对应的目标推理应用，模型控制器通过监控目标model manager的状态确定模型文件是否被更新或被删除，然后根据目标model manager的状态通知目标推理应用更新或者删除该目标推理应用中模型文件，从而实现对目标推理应用中模型文件的管理。模型文件统一由kubernetes管理，通过模型控制器自动通知推理应用更新或删除模型文件，无需额外部署管理模块、管理模块推理，也不要求训练应用和推理应用使用相同生态下的框架，降低了模型文件的管理难度，进而降低了模型部署难度。

图3所示实施例从交互的角度，对本申请实施例提供的推理应用中模型文件管理的方法进行了详细介绍，接下来结合一具体示例，对本申请实施例提供的推理应用中模型文件管理的方法进行详细说明。

具体地，本申请实施例提供的推理应用中模型文件管理的方法可以包括如下步骤：

1、用户通过客户端如IDE在kubernetes中注册model manager类型，用于描述模型文件。

具体代码如下所示：

其中，apiVersion和kind用于声明API版本和采用CRD创建model manager。metadata中定义model manager的各种属性，包括name、spec、version等等。

2、用户通过客户端如IDE创建model manager实例描述具体的模型文件，一个模型文件对应一个model manager，如创建名称为resNet50的model manager描述名称为resNet50的模型文件：

在该示例中，model manager的标识为model manager的名称，如“resNet50”。

3、用户还可以通过客户端创建推理应用，在该推理应用的label上添加目标模型管理对象的标识，具体如下所示：

在该示例中，推理应用的lable的字段值为“resNet50”。

4、用户通过客户端如IDE，利用kubernetes controller机制创建模型控制器，用于处理ModelManager的更新、删除。

5、模型控制器监控名称为“resNet50”的model manager的状态。

6、当名称为“resNet50”的model manager的状态表征该model manager被更新时，模型控制器通知lable的字段值为“resNet50”的推理应用更新模型文件。

7、当名称为“resNet50”的model manager的状态表征该model manager被删除时，模型控制器通知lable的字段值为“resNet50”的推理应用删除模型文件。

其中，步骤6、7为可选步骤，在一些可能的实现方式中也可以不执行上述步骤6或步骤7。

上文结合图1至图3对本申请实施例提供的推理应用中模型文件的管理方法进行了详细介绍，下面将结合附图对本申请实施例提供的装置、设备进行介绍。

参见图4所示的推理应用中模型文件的管理装置的结构示意图，该装置400包括：

监控单元402，用于监控目标模型管理对象的状态；

确定单元404，用于根据推理应用的预设字段确定与目标模型管理对象匹配的目标推理应用，推理应用的预设字段用于标识推理应用中模型文件对应的模型管理对象；

管理单元406，用于根据目标模型管理对象的状态对目标推理应用中模型文件进行管理。

在一些可能的实现方式中，管理单元具体406用于：

在一些可能的实现方式中，管理单元406具体用于：

根据本申请实施例的推理应用中模型文件的管理装置400可对应于执行本申请实施例中描述的方法，并且推理应用中模型文件的管理装置400的各个模块/单元的上述和其它操作和/或功能分别为了实现图3所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了另一种推理应用中模型文件的管理装置。下面结合附图对该装置进行详细进行说明。

参见图5所示的推理应用中模型文件的管理装置的结构示意图，其中，推理应用的预设字段用于标识推理应用中模型文件对应的模型管理对象，该装置500包括：

通信单元502，用于接收管理通知，管理通知是根据模型管理对象的状态生成的，管理通知用于指示推理应用对模型文件进行管理；

管理单元504，用于根据管理通知对模型文件进行管理。

管理单元504具体用于：

删除模型文件。

管理单元504具体用于：

获取新版本的模型文件；

加载新版本的模型文件，以更新模型文件。

根据本申请实施例的推理应用中模型文件的管理装置500可对应于执行本申请实施例中描述的方法，并且推理应用中模型文件的管理装置500的各个模块/单元的上述和其它操作和/或功能分别为了实现图3所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算设备600。该计算设备600可以是笔记本电脑、台式机等端侧设备，也可以是云环境或边缘环境中的计算机集群。该计算设备600具体用于实现如图4所示实施例中推理应用中模型文件的管理400的功能。

图6提供了一种计算设备600的结构示意图，如图6所示，计算设备600包括总线601、处理器602、通信接口603和存储器604。处理器602、存储器604和通信接口603之间通过总线601通信。

总线601可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器602可以为中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

通信接口603用于与外部通信。例如，向推理应用发送管理通知，从而指示推理应用对该推理应用中模型文件进行删除或更新。

存储器604可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器604还可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘驱动器(hard diskdrive，HDD)或固态驱动器(solid state drive，SSD)。

存储器604中存储有可执行代码，处理器602执行该可执行代码以执行前述推理应用中模型文件的管理方法。

具体地，在实现图4所示实施例的情况下，且图4实施例中所描述的推理应用中模型文件的管理装置400的各单元为通过软件实现的情况下，执行图4中的监控单元402、确定单元404、管理单元406功能所需的软件或程序代码存储在存储器604中。处理器602执行存储器604中存储的各单元对应的程序代码，如执行监控单元402对应的程序代码，以执行监控目标模型管理对象的状态的操作，执行确定单元404对应的程序代码，以执行根据推理应用的预设字段确定与目标模型管理对象匹配的目标推理应用的操作，接着执行管理单元406对应的程序代码，以执行根据目标模型管理对象的状态对目标推理应用中模型文件进行管理的步骤。

在一些可能的实现方式中，处理器602执行管理单元406对应的程序代码，具体用于执行下述步骤：

当所述目标模型管理对象的状态表征所述目标模型管理对象被删除时，通知所述目标推理应用删除模型文件。

当所述目标模型管理对象的状态表征所述目标模型管理对象被更新时，通知所述目标推理应用更新模型文件。

在一些可能的实现方式中，所述推理应用的预设字段包括标签或注解。

在一些可能的实现方式中，所述目标模型管理对象为通过资源自定义CRD接口创建得到。

在一些可能的实现方式中，所述目标推理应用被部署在kubernetes集群，所述方法应用于模型控制器。

本申请实施例还提供了一种计算设备700。该计算设备700可以是笔记本电脑、台式机等端侧设备，也可以是云环境或边缘环境中的计算机集群。该计算设备700具体用于实现如图5所示实施例中推理应用中模型文件的管理500的功能。

图7提供了一种计算设备700的结构示意图，如图7所示，计算设备700包括总线701、处理器702、通信接口703和存储器704。处理器702、存储器704和通信接口703之间通过总线701通信。其中，总线701、处理器702、通信接口703、存储器704的具体实现参见图6所示实施例相关内容描述，在此不再赘述。

通信接口703用于与外部通信。例如接收管理通知，该管理通知是根据模型管理对象的状态生成的，该管理通知用于指示推理应用对模型文件进行管理。

存储器704中存储有可执行代码，处理器702执行该可执行代码以执行前述推理应用中模型文件的管理方法。

具体地，在实现图5所示实施例的情况下，且图5实施例中所描述的推理应用中模型文件的管理装置500的各单元为通过软件实现的情况下，执行图5中的管理单元504功能所需的软件或程序代码存储在存储器704中。通信单元502功能通过通信接口703实现。通信接口703接收管理通知，具体是接收来自于模型控制器的管理通知，然后将该管理通知通过总线传输至处理器，处理器702执行存储器704中存储的各单元对应的程序代码，如执行管理单元504对应的程序代码，以执行根据上述管理通知对模型文件进行管理的操作。

在一些可能的实现方式中，管理通知用于指示推理应用对模型文件进行删除时，处理器702执行管理单元504对应的程序代码，具体用于执行下述步骤：

删除模型文件。

在一些可能的实现方式中，管理通知用于指示推理应用对模型文件进行更新时，处理器702执行管理单元504对应的程序代码，具体用于执行下述步骤：

获取新版本的模型文件；

加载新版本的模型文件，以更新模型文件。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种推理应用中模型文件的管理方法，其特征在于，应用于集群，所述集群包括主节点和工作节点，所述主节点中创建有至少一个模型管理对象，并存储所述至少一个模型管理对象的标识，所述至少一个模型管理对象中的每个模型管理对象对应一个模型文件，所述主节点中还包括模型控制器，所述方法包括：

所述模型控制器根据训练应用发送的针对目标模型管理对象的更新消息、删除消息，监控目标模型管理对象的状态，所述目标模型管理对象为所述至少一个模型管理对象中的任意一个；

所述模型控制器根据所述目标模型管理对象的标识以及所述工作节点中的至少一个推理应用的预设字段，从所述至少一个推理应用中确定与所述目标模型管理对象匹配的目标推理应用，所述推理应用的预设字段用于标识所述推理应用中模型文件对应的模型管理对象；

所述模型控制器根据所述目标模型管理对象的状态，通知所述目标推理应用对所述目标推理应用中模型文件进行管理。

2.根据权利要求1所述的方法，其特征在于，所述模型控制器根据所述目标模型管理对象的状态，通知所述目标推理应用对所述目标推理应用中模型文件进行管理，包括：

当所述目标模型管理对象的状态表征所述目标模型管理对象被删除时，所述模型控制器通知所述目标推理应用删除模型文件。

3.根据权利要求1所述的方法，其特征在于，所述模型控制器根据所述目标模型管理对象的状态，通知所述目标推理应用对所述目标推理应用中模型文件进行管理，包括：

当所述目标模型管理对象的状态表征所述目标模型管理对象被更新时，所述模型控制器通知所述目标推理应用更新模型文件。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述推理应用的预设字段包括标签或注解。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述目标模型管理对象为通过资源自定义CRD接口创建得到。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述目标推理应用被部署在kubernetes集群。

7.一种推理应用中模型文件的管理装置，其特征在于，应用于集群，所述集群包括主节点和工作节点，所述主节点中创建有至少一个模型管理对象，并存储所述至少一个模型管理对象的标识，所述至少一个模型管理对象中的每个模型管理对象对应一个模型文件，所述主节点中还包括模型控制器，所述装置部署在所述模型控制器，所述装置包括：

监控单元，用于根据训练应用发送的针对目标模型管理对象的更新消息、删除消息，监控目标模型管理对象的状态，所述目标模型管理对象为所述至少一个模型管理对象中的任意一个；

确定单元，用于根据所述目标模型管理对象的标识以及所述工作节点中的至少一个推理应用的预设字段，从所述至少一个推理应用中确定与所述目标模型管理对象匹配的目标推理应用，所述推理应用的预设字段用于标识所述推理应用中模型文件对应的模型管理对象；

管理单元，用于根据所述目标模型管理对象的状态，通知所述目标推理应用对所述目标推理应用中模型文件进行管理。

8.根据权利要求7所述的装置，其特征在于，所述管理单元具体用于：

9.根据权利要求7所述的装置，其特征在于，所述管理单元具体用于：

10.根据权利要求7至9任一项所述的装置，其特征在于，所述推理应用的预设字段包括标签或注解。

11.根据权利要求7至9任一项所述的装置，其特征在于，所述目标模型管理对象为通过资源自定义CRD接口创建得到。

12.根据权利要求7至9任一项所述的装置，其特征在于，所述目标推理应用被部署在kubernetes集群。

13.一种计算设备，其特征在于，所述计算设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述计算设备执行如权利要求1至6中任一项所述的方法。