CN113112023A - 一种推理平台的推理服务管理方法、装置、系统及介质 - Google Patents

一种推理平台的推理服务管理方法、装置、系统及介质 Download PDF

Info

Publication number
CN113112023A
CN113112023A CN202110659833.9A CN202110659833A CN113112023A CN 113112023 A CN113112023 A CN 113112023A CN 202110659833 A CN202110659833 A CN 202110659833A CN 113112023 A CN113112023 A CN 113112023A
Authority
CN
China
Prior art keywords
service
inference
record
reasoning
processing module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110659833.9A
Other languages
English (en)
Other versions
CN113112023B (zh
Inventor
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110659833.9A priority Critical patent/CN113112023B/zh
Publication of CN113112023A publication Critical patent/CN113112023A/zh
Application granted granted Critical
Publication of CN113112023B publication Critical patent/CN113112023B/zh
Priority to PCT/CN2021/121909 priority patent/WO2022262148A1/zh
Priority to US18/271,867 priority patent/US20240036990A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/63Image based installation; Cloning; Build to order

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Facsimiles In General (AREA)

Abstract

本发明公开了一种推理平台的推理服务管理方法、装置、系统及介质,该方法包括:根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则根据推理服务记录对相应的推理服务进行恢复;本发明中通过根据数据库中的推理服务记录对服务器中的推理服务进行检测,判断服务器中是否存在与该推理服务记录对应的推理服务,当不存在时,说明推理服务记录与真实的推理服务不一致,则可以根据该推理服务记录对相应的推理服务进行恢复,本发明能够在推理服务记录与真实的推理服务不一致时,自动根据推理服务记录对推理服务进行恢复,提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。

Description

一种推理平台的推理服务管理方法、装置、系统及介质
技术领域
本发明实施例涉及计算机技术领域,特别是涉及一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质。
背景技术
AIStation推理平台支持多种推理服务的创建,包括多种类型,并且推理服务在创建、运行过程中,依赖于各种组件,而组件发生故障时,通常需要通过重新部署的方式来修复,重新部署组件会导致依赖于组件的推理服务被清除,此外,集群的操作、运维人员可能在服务器后台误操作,会导致推理服务被删除。
通常AIStation推理平台在推理服务创建过后,会在数据库中记录分配给推理服务的资源和推理服务参数,数据库中的推理服务记录和后端运行的推理服务存在一一对应关系。但是,由于组件发生故障或者用户在后端误操作而导致推理服务被清除时,数据库中的推理服务记录还会存在,而为了保持数据库中的推理服务记录和真实推理服务的一致性,现有技术中通过人工手动在服务器后台查看是否有推理服务被删除,且推理服务记录还保存在数据库中情况,如果有,则需要手动清空数据库中所有记录项,并删除所有的推理服务,不仅比较繁琐、耗费时间,而且一旦有不一致将所有记录项和所以推理服务删除,代价很大。
鉴于此,如何提供一种解决上述技术问题的推理平台的推理服务管理方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质,在使用过程中能够提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
为解决上述技术问题,本发明实施例提供了一种推理平台的推理服务管理方法,包括:
根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则根据所述推理服务记录对相应的推理服务进行恢复;其中:
根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
当所述推理服务类型为通用模型,则对应的恢复过程为:
解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为应用部署,则对应的恢复过程为:
解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理服务;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为GPU共享,则对应的恢复过程为:
解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模块;根据所述实例模块和所述服务模块创建对应的推理服务;
当所述推理服务类型为原生部署,则对应的恢复过程为:
对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
当所述推理服务类型为边缘推理,则对应的恢复过程为:
对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
可选的,在所述根据所述推理服务记录对相应的推理服务进行恢复之前,还包括:
判断与所述推理服务记录对应的异常值是否达到预设阈值;
若达到,则执行所述根据所述推理服务记录对相应的推理服务进行恢复的步骤;若未达到,则按照预设增量对所述异常值进行更新。
可选的,在所述根据所述推理服务记录对相应的推理服务进行恢复之后,还包括:
检测所述推理服务是否恢复成功,若是,则将与所述推理服务记录对应的异常值置零。
可选的,所述根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务的过程为:
对所述数据库中的每个推理服务记录进行轮询;
根据当前的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务。
本发明实施例还提供了一种推理平台的推理服务管理装置,包括:
检测模块,用于根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则触发恢复模块;
所述恢复模块,用于根据所述推理服务记录对相应的推理服务进行恢复;其中:
根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
当所述推理服务类型为通用模型,则对应的恢复过程为:
解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为应用部署,则对应的恢复过程为:
解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理服务;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为GPU共享,则对应的恢复过程为:
解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模块;根据所述实例模块和所述服务模块创建对应的推理服务;
当所述推理服务类型为原生部署,则对应的恢复过程为:
对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
当所述推理服务类型为边缘推理,则对应的恢复过程为:
对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
可选的,还包括:
判断模块,用于判断与所述推理服务记录对应的异常值是否达到预设阈值;
若达到,则触发所述恢复模块;若未达到,则触发更新模块;
所述更新模块,用于按照预设增量对所述异常值进行更新。
本发明实施例还提供了一种推理平台的推理服务管理系统,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述所述推理平台的推理服务管理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述推理平台的推理服务管理方法的步骤。
本发明实施例提供了一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质,该方法包括:根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则根据推理服务记录对相应的推理服务进行恢复。
可见,本发明实施例中通过根据数据库中的推理服务记录对服务器中的推理服务进行检测,判断服务器中是否存在与该推理服务记录对应的推理服务,当不存在时,说明推理服务记录与真实的推理服务不一致,则可以根据该推理服务记录对相应的推理服务进行恢复,本发明实施例在使用过程中能够在推理服务记录与真实的推理服务不一致时,自动根据推理服务记录对推理服务进行恢复,提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种推理平台的推理服务管理方法的流程示意图;
图2为本发明实施例提供的一种推理平台的推理服务管理装置的结构示意图。
具体实施方式
本发明实施例提供了一种推理平台的推理服务管理方法、装置、系统及计算机可读存储介质,在使用过程中能够提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种推理平台的推理服务管理方法的流程示意图。该方法包括:
S110:根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则进入S120;
需要说明的是,本发明实施例中提供的方法具体可以用于但不仅限于用于AIStation推理平台,具体的可以在推理服务平台启动后获取对数据库中的推理服务记录,并根据该推理服务记录来检测服务器中是否存在与该推理服务记录对应的推理服务。
S120:根据推理服务记录对相应的推理服务进行恢复。
具体的,当服务器中不存在与该推理服务记录对应的推理服务时,说明此时推理服务记录与推理服务不一致,说明对应的推理服务被删除,则根据该推理服务记录对相应的推理服务进行恢复,也即将对应的推理服务恢复至服务器中,从而可以保持推理服务记录与推理服务的一致性。
进一步的,上述S120中根据推理服务记录对相应的推理服务进行恢复的过程,具体可以为:
预先建立推理服务类型与恢复过程的对应关系;
根据推理服务记录获取对应的推理服务类型;
依据推理服务记录及与推理服务类型对应的恢复过程对推理服务进行恢复。
也即,针对不同的推理服务类型,恢复过程可能不同,因此可以预先确定出每种推理服务类型的恢复过程,并且建立推理服务类型与恢复过程的对应关系,然后在根据当前的推理服务记录获取对应的推理服务类型后,即可根据对应关系得到与该推理服务类型对应的恢复过程,然后根据推理服务记录及恢复过程对相应的推理服务进行恢复。
进一步的,本发明实施例中的推理服务类型具体可以为通用模型、应用部署、GPU共享、原生部署或边缘推理。当然,还可以为其他具体的类型,具体是哪种类型,本发明实施例不做特殊限定。
需要说明的是,当推理服务类型为通用模型,则对应的恢复过程具体可以为:
解析推理服务记录得到对应的框架类型、模型地址及模型类名;解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址及模型类名创建对应的推理模块;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务。也即,先根据是否存在批量处理模块记录来确定具体如何创建推理模块,然后再根据是否存在数据处理模块记录进一步确定具体如何创建对应的推理服务。
其中,框架类型为PyTorch、Tensorflow、Triton、sklearn、onnx、xgboost中的一种,并且在框架类型具体为PyTorch时,当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址及模型类名创建对应的推理模块;当框架类型具体为Tensorflow、Triton、sklearn、onnx、xgboost时,则当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址创建对应的推理模块。
当推理服务类型为应用部署,则对应的恢复过程具体可以为:
解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块,若存在,则创建数据处理模块;解析推理服务记录得到镜像地址,当存在批量处理模块记录时,根据批量处理模块和镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据镜像地址创建对应的推理模块;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务。
当推理服务类型为GPU共享,则对应的恢复过程具体可以为:
解析推理服务记录得到镜像地址,根据镜像地址创建实例模块;解析推理服务记录得到服务信息地址,根据服务信息地址创建服务模块;根据实例模块和服务模块创建对应的推理服务。
当推理服务类型为原生部署,则对应的恢复过程具体可以为:
对推理服务记录进行解析,得到对应的业务类型;依据业务类型对推理服务进行解析,得到业务信息;根据业务信息创建对应的推理服务。
具体的,业务类型包括Deployment、DaemonSet、Service、ConfigMap,其中,当业务类型Deployment和DaemonSet时,业务信息包括镜像地址、资源、端口信息;当业务类型为Service时,则业务信息包括选择标签、节点端口、协议、目标端口、内部端口信息;当业务类型为ConfigMap时,业务信息包括数据信息。
当推理服务类型为边缘推理,则对应的恢复过程具体可以为:
对推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息;根据镜像地址、节点名称及端口映射信息,创建对应的推理服务。
进一步的,在上述根据推理服务记录对相应的推理服务进行恢复之前,该方法还包括:
判断与推理服务记录对应的异常值是否达到预设阈值;
若达到,则执行根据推理服务记录对相应的推理服务进行恢复的步骤;若未达到,则按照预设增量对异常值进行更新。
需要说明的是,由于在实际应用中用户在对推理服务平台进行管理时,可能会根据需求将服务器中的推理服务主动删除,在还没有来得及将数据库中与该推理服务对应的推理服务记录进行删除时,会导致推理服务记录与推理服务的不一致,而这种不一致为正常的不一致,也即,这种不一致不是因为组件故障或用户误操作导致推理服务被删除造成的,因此认为是正常的不一致,对于这种情况可以不对推理服务进行恢复。本发明实施例中为了不对用户正常删除的推理服务进行恢复,可以设置预设阈值,在检测到服务器中不存在对应的推理服务时,可以获取与该推理服务对应的异常值,若该异常值达到预设阈值,则说明该推理服务为异常不一致,也即是由于组件故障或用户误操作导致推理服务被删除,此时需要根据推理服务记录来对相应的推理服务进行恢复。
其中,异常值具体可以为异常时长,也即可以设置检测时间间隔,每次检测到异常时更新异常时长,对应的预设阈值为时长阈值,从而可以在推理服务异常时长达到预设时长时,说明该推理服务不是用户因正常需要所删除的推理服务,则需要对其进行恢复;若本次检测到该推理服务记录,并且对应的异常时长没有达到预设阈值,下一次检测则没有检测到该推理服务记录,则说明用户在将推理服务删除后,又将相应的推理服务记录从数据库中删除;异常值具体还可以为异常检测次数,同样相应的预设阈值为预设次数阈值,在检测到推理服务记录的异常次数没有达到预设次数阈值时,可以对该推理服务记录的异常次数加一,直至异常次数达到预设次数阈值后对相应的推理服务进行恢复,或者直至检测不到该推理服务记录。具体采用哪种方式可以根据实际需要进行确定,本发明实施例不做特殊限定。
进一步的,在根据推理服务记录对相应的推理服务进行恢复之后,该方法还可以包括:
检测推理服务是否恢复成功,若是,则将与推理服务记录对应的异常值置零。
也即,在对相应的推理服务进行恢复后,可以进一步检测服务器中是否存在该推理服务,若存在则说明恢复成功,此时可以将与该推理服务对应的推理服务记录的异常值置为0,以便下一次出现异常时重新计数;当服务器中不存在该推理服务时,说明没有恢复成功,此时可以等待下一次检测,并且在下一次检测时若仍旧检测出对应的推理服务记录,则再次对相应的推理服务进行恢复。
进一步的,上述S110中根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务的过程,具体可以为:
对数据库中的每个推理服务记录进行轮询;
根据当前的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务。
也即,在实际应用中可以对数据库中的所有推理服务记录进行轮询,并根据当前轮询到的推理服务记录,检测服务器中是否存在对应的推理服务,并在不存在时根据对应的异常值确定是否需要对相应的推理服务进行恢复,并且需要对相应的推理服务进行恢复时,执行恢复操作。
可见,本发明实施例中通过根据数据库中的推理服务记录对服务器中的推理服务进行检测,判断服务器中是否存在与该推理服务记录对应的推理服务,当不存在时,说明推理服务记录与真实的推理服务不一致,则可以根据该推理服务记录对相应的推理服务进行恢复,本发明实施例在使用过程中能够在推理服务记录与真实的推理服务不一致时,自动根据推理服务记录对推理服务进行恢复,提高推理服务管理效率,更好地保障推理服务记录与推理服务的一致性。
在上述实施例的基础上,本发明实施例还提供了一种推理平台的推理服务管理装置,具体请参照图2,该装置包括:
检测模块21,用于根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则触发恢复模块;
恢复模块22,用于根据推理服务记录对相应的推理服务进行恢复;其中:
根据推理服务记录获取对应的推理服务类型,并依据推理服务记录及与推理服务类型对应的恢复过程对推理服务进行恢复;
当推理服务类型为通用模型,则对应的恢复过程为:
解析推理服务记录得到对应的框架类型、模型地址及模型类名;解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在批量处理模块记录时,根据批量处理模块、框架类型、模型地址及模型类名创建对应的推理模块,或当不存在批量处理模块记录时,根据框架类型、模型地址及模型类名创建对应的推理模块;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务;
当推理服务类型为应用部署,则对应的恢复过程为:
解析推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析推理服务记录得到镜像地址,当存在批量处理模块记录时,根据批量处理模块和镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据镜像地址创建对应的推理服务;当存在数据处理模块记录时,根据推理模块和数据处理模块创建对应的推理服务,或当不存在数据处理模块记录时,根据推理模块创建对应的推理服务;
当推理服务类型为GPU共享,则对应的恢复过程为:
解析推理服务记录得到镜像地址,根据镜像地址创建实例模块;解析推理服务记录得到服务信息地址,根据服务信息地址创建服务模块;根据实例模块和服务模块创建对应的推理服务;
当推理服务类型为原生部署,则对应的恢复过程为:
对推理服务记录进行解析,得到对应的业务类型,依据业务类型对推理服务进行解析,得到业务信息,并根据业务信息创建对应的推理服务;
当推理服务类型为边缘推理,则对应的恢复过程为:
对推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据镜像地址、节点名称及端口映射信息,创建对应的推理服务。
进一步的,该装置还可以包括:
判断模块,用于判断与推理服务记录对应的异常值是否达到预设阈值;
若达到,则触发恢复模块22;若未达到,则触发更新模块;
更新模块,用于按照预设增量对异常值进行更新。
在上述实施例的基础上,本发明实施例还提供了一种推理平台的推理服务管理系统,该系统包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述推理平台的推理服务管理方法的步骤。
例如,本发明实施例中的处理器具体可以用于实现根据数据库中的推理服务记录,检测服务器中是否存在与推理服务记录对应的推理服务;若不存在,则根据推理服务记录对相应的推理服务进行恢复。
在上述实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述推理平台的推理服务管理方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种推理平台的推理服务管理方法,其特征在于,包括:
根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则根据所述推理服务记录对相应的推理服务进行恢复;其中:
根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
当所述推理服务类型为通用模型,则对应的恢复过程为:
解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为应用部署,则对应的恢复过程为:
解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理服务;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为GPU共享,则对应的恢复过程为:
解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模块;根据所述实例模块和所述服务模块创建对应的推理服务;
当所述推理服务类型为原生部署,则对应的恢复过程为:
对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
当所述推理服务类型为边缘推理,则对应的恢复过程为:
对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
2.根据权利要求1所述的推理平台的推理服务管理方法,其特征在于,在所述根据所述推理服务记录对相应的推理服务进行恢复之前,还包括:
判断与所述推理服务记录对应的异常值是否达到预设阈值;
若达到,则执行所述根据所述推理服务记录对相应的推理服务进行恢复的步骤;若未达到,则按照预设增量对所述异常值进行更新。
3.根据权利要求2所述的推理平台的推理服务管理方法,其特征在于,在所述根据所述推理服务记录对相应的推理服务进行恢复之后,还包括:
检测所述推理服务是否恢复成功,若是,则将与所述推理服务记录对应的异常值置零。
4.根据权利要求1所述的推理平台的推理服务管理方法,其特征在于,所述根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务的过程为:
对所述数据库中的每个推理服务记录进行轮询;
根据当前的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务。
5.一种推理平台的推理服务管理装置,其特征在于,包括:
检测模块,用于根据数据库中的推理服务记录,检测服务器中是否存在与所述推理服务记录对应的推理服务;若不存在,则触发恢复模块;
所述恢复模块,用于根据所述推理服务记录对相应的推理服务进行恢复;其中:
根据所述推理服务记录获取对应的推理服务类型,并依据所述推理服务记录及与所述推理服务类型对应的恢复过程对所述推理服务进行恢复;
当所述推理服务类型为通用模型,则对应的恢复过程为:
解析所述推理服务记录得到对应的框架类型、模型地址及模型类名;解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;当存在所述批量处理模块记录时,根据所述批量处理模块、所述框架类型、所述模型地址及所述模型类名创建对应的推理模块,或当不存在所述批量处理模块记录时,根据所述框架类型、所述模型地址及所述模型类名创建对应的推理模块;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为应用部署,则对应的恢复过程为:
解析所述推理服务记录判断是否存在批量处理模块记录,若存在,则创建批量处理模块;解析所述推理服务记录判断是否存在数据处理模块记录,若存在,则创建数据处理模块;解析所述推理服务记录得到镜像地址,当存在批量处理模块记录时,根据所述批量处理模块和所述镜像地址创建对应的推理模块,或当不存在批量处理模块记录时,根据所述镜像地址创建对应的推理服务;当存在所述数据处理模块记录时,根据所述推理模块和所述数据处理模块创建对应的推理服务,或当不存在所述数据处理模块记录时,根据所述推理模块创建对应的推理服务;
当所述推理服务类型为GPU共享,则对应的恢复过程为:
解析所述推理服务记录得到镜像地址,根据所述镜像地址创建实例模块;解析所述推理服务记录得到服务信息地址,根据所述服务信息地址创建服务模块;根据所述实例模块和所述服务模块创建对应的推理服务;
当所述推理服务类型为原生部署,则对应的恢复过程为:
对所述推理服务记录进行解析,得到对应的业务类型,依据所述业务类型对推理服务进行解析,得到业务信息,并根据所述业务信息创建对应的推理服务;
当所述推理服务类型为边缘推理,则对应的恢复过程为:
对所述推理服务记录进行解析,得到镜像地址、节点名称及端口映射信息,并根据所述镜像地址、所述节点名称及所述端口映射信息,创建对应的推理服务。
6.根据权利要求5所述的推理平台的推理服务管理装置,其特征在于,还包括:
判断模块,用于判断与所述推理服务记录对应的异常值是否达到预设阈值;
若达到,则触发所述恢复模块;若未达到,则触发更新模块;
所述更新模块,用于按照预设增量对所述异常值进行更新。
7.一种推理平台的推理服务管理系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述推理平台的推理服务管理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述推理平台的推理服务管理方法的步骤。
CN202110659833.9A 2021-06-15 2021-06-15 AIStation推理平台的推理服务管理方法和装置 Active CN113112023B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110659833.9A CN113112023B (zh) 2021-06-15 2021-06-15 AIStation推理平台的推理服务管理方法和装置
PCT/CN2021/121909 WO2022262148A1 (zh) 2021-06-15 2021-09-29 一种推理平台的推理服务管理方法、装置、系统及介质
US18/271,867 US20240036990A1 (en) 2021-06-15 2021-09-29 Inference service management method, apparatus and system for inference platform, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110659833.9A CN113112023B (zh) 2021-06-15 2021-06-15 AIStation推理平台的推理服务管理方法和装置

Publications (2)

Publication Number Publication Date
CN113112023A true CN113112023A (zh) 2021-07-13
CN113112023B CN113112023B (zh) 2021-08-31

Family

ID=76723486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110659833.9A Active CN113112023B (zh) 2021-06-15 2021-06-15 AIStation推理平台的推理服务管理方法和装置

Country Status (3)

Country Link
US (1) US20240036990A1 (zh)
CN (1) CN113112023B (zh)
WO (1) WO2022262148A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022262148A1 (zh) * 2021-06-15 2022-12-22 苏州浪潮智能科技有限公司 一种推理平台的推理服务管理方法、装置、系统及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802143A (zh) * 2011-05-26 2012-11-28 华为软件技术有限公司 一种业务恢复方法、相关装置以及系统
US8984536B1 (en) * 2011-08-30 2015-03-17 Emc Corporation Heterogeneous data from multiple sources
CN107154960A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 用于确定分布式存储系统的服务可用性信息的方法与设备
CN108629526A (zh) * 2018-05-28 2018-10-09 国网福建省电力有限公司 一种基于电网调度自动化系统的事故简报方法
CN109144670A (zh) * 2018-08-20 2019-01-04 郑州云海信息技术有限公司 一种资源调度方法及装置
CN109582497A (zh) * 2018-11-19 2019-04-05 杭州信核数据科技股份有限公司 一种基于动态数据增量快速应急启动方法
CN111324457A (zh) * 2020-02-15 2020-06-23 苏州浪潮智能科技有限公司 一种gpu集群中发布推理服务的方法、装置、设备和介质
CN111857949A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 模型发布方法、装置、设备及存储介质
CN112099989A (zh) * 2020-08-28 2020-12-18 中国—东盟信息港股份有限公司 一种Kubernetes云原生应用灾备、迁移与恢复的方法
CN112214357A (zh) * 2020-10-30 2021-01-12 上海爱数信息技术股份有限公司 一种hdfs数据备份恢复系统及备份恢复方法
CN112231055A (zh) * 2020-10-10 2021-01-15 苏州浪潮智能科技有限公司 一种镜像管理方法和装置
CN112291299A (zh) * 2020-09-18 2021-01-29 苏州浪潮智能科技有限公司 基于AI Station推理平台的同步方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11252260B2 (en) * 2017-04-17 2022-02-15 Petuum Inc Efficient peer-to-peer architecture for distributed machine learning
US20200125722A1 (en) * 2018-10-18 2020-04-23 Denso International America, Inc. Systems and methods for preventing runaway execution of artificial intelligence-based programs
JP7326903B2 (ja) * 2019-06-14 2023-08-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN110808881B (zh) * 2019-11-05 2021-10-15 广州虎牙科技有限公司 模型部署方法和装置、目标监测方法和装置、设备及系统
CN112015521A (zh) * 2020-09-30 2020-12-01 北京百度网讯科技有限公司 推理服务的配置方法、装置、电子设备及存储介质
CN112579303A (zh) * 2020-12-30 2021-03-30 苏州浪潮智能科技有限公司 一种深度学习开发平台资源的分配方法及设备
CN113112023B (zh) * 2021-06-15 2021-08-31 苏州浪潮智能科技有限公司 AIStation推理平台的推理服务管理方法和装置
CN113442948B (zh) * 2021-07-09 2024-01-23 深圳元戎启行科技有限公司 基于云端推理服务的自动驾驶方法、装置和计算机设备
CN116820663A (zh) * 2022-03-22 2023-09-29 三六零科技集团有限公司 镜像构建方法、设备、存储介质及装置
CN115470061A (zh) * 2022-10-10 2022-12-13 中电云数智科技有限公司 一种分布式存储系统i/o亚健康智能检测和恢复方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802143A (zh) * 2011-05-26 2012-11-28 华为软件技术有限公司 一种业务恢复方法、相关装置以及系统
US8984536B1 (en) * 2011-08-30 2015-03-17 Emc Corporation Heterogeneous data from multiple sources
CN107154960A (zh) * 2016-03-02 2017-09-12 阿里巴巴集团控股有限公司 用于确定分布式存储系统的服务可用性信息的方法与设备
CN108629526A (zh) * 2018-05-28 2018-10-09 国网福建省电力有限公司 一种基于电网调度自动化系统的事故简报方法
CN109144670A (zh) * 2018-08-20 2019-01-04 郑州云海信息技术有限公司 一种资源调度方法及装置
CN109582497A (zh) * 2018-11-19 2019-04-05 杭州信核数据科技股份有限公司 一种基于动态数据增量快速应急启动方法
CN111324457A (zh) * 2020-02-15 2020-06-23 苏州浪潮智能科技有限公司 一种gpu集群中发布推理服务的方法、装置、设备和介质
CN111857949A (zh) * 2020-06-30 2020-10-30 苏州浪潮智能科技有限公司 模型发布方法、装置、设备及存储介质
CN112099989A (zh) * 2020-08-28 2020-12-18 中国—东盟信息港股份有限公司 一种Kubernetes云原生应用灾备、迁移与恢复的方法
CN112291299A (zh) * 2020-09-18 2021-01-29 苏州浪潮智能科技有限公司 基于AI Station推理平台的同步方法、装置、设备及存储介质
CN112231055A (zh) * 2020-10-10 2021-01-15 苏州浪潮智能科技有限公司 一种镜像管理方法和装置
CN112214357A (zh) * 2020-10-30 2021-01-12 上海爱数信息技术股份有限公司 一种hdfs数据备份恢复系统及备份恢复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YURI BREITBART 等: "Reliable Transaction Management in a Multidatabase System", 《ACM》 *
梁雯 等: "主动数据库及在DSS中的应用研究", 《微机发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022262148A1 (zh) * 2021-06-15 2022-12-22 苏州浪潮智能科技有限公司 一种推理平台的推理服务管理方法、装置、系统及介质

Also Published As

Publication number Publication date
CN113112023B (zh) 2021-08-31
WO2022262148A1 (zh) 2022-12-22
US20240036990A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
CN113760476B (zh) 任务依赖处理方法及相关装置
CN113112023B (zh) AIStation推理平台的推理服务管理方法和装置
CN114328029B (zh) 一种应用资源的备份方法、装置、电子设备及存储介质
CN113204383B (zh) 一种bmc配置参数存储的方法、装置、系统及存储介质
CN108958980B (zh) 防止Activity生命周期异常的方法、电子装置及计算机可读存储介质
CN110784358A (zh) 网络调用关系拓扑图的构建方法及装置
CN112650624B (zh) 一种集群升级方法、装置、设备及计算机可读存储介质
CN108256311B (zh) 一种授权认证方法、装置及电子设备
CN106911508B (zh) Dns配置的恢复方法和装置
CN111130856A (zh) 一种服务器配置方法、系统、设备及计算机可读存储介质
WO2023240944A1 (zh) 数据恢复方法、装置、电子设备及存储介质
CN113688021B (zh) 一种负载均衡服务处理方法、装置、设备及可读存储介质
CN114625515A (zh) 一种任务管理方法、装置、设备及存储介质
CN111226200A (zh) 为分布式应用创建一致性快照的方法、装置和分布式系统
CN111090491B (zh) 虚拟机任务状态的恢复方法、装置及电子设备
CN110289977B (zh) 物流仓库系统的故障检测方法及系统、设备和存储介质
CN114138528A (zh) 远程调用容错处理方法、终端设备及存储介质
CN114281628A (zh) 一种系统故障检测方法、装置、电子设备及存储介质
CN114281769A (zh) 磁盘上文件管理方法、装置、计算机设备及存储介质
CN111274208B (zh) 锁定文件的方法和装置
CN115460271B (zh) 一种基于边缘计算的网络控制方法及装置、存储介质
CN114443354A (zh) 文件恢复方法、装置、电子设备和存储介质
CN110008114B (zh) 配置信息维护方法、装置、设备及可读存储介质
CN109471597B (zh) 存储设备的系统重置方法、装置、系统及可读存储介质
CN110569120B (zh) 一种定时任务的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant