CN111144578A - 一种分布式环境下的人工智能模型管理系统及管理方法 - Google Patents

一种分布式环境下的人工智能模型管理系统及管理方法 Download PDF

Info

Publication number
CN111144578A
CN111144578A CN201911375051.1A CN201911375051A CN111144578A CN 111144578 A CN111144578 A CN 111144578A CN 201911375051 A CN201911375051 A CN 201911375051A CN 111144578 A CN111144578 A CN 111144578A
Authority
CN
China
Prior art keywords
model
artificial intelligence
management system
service
rollback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911375051.1A
Other languages
English (en)
Other versions
CN111144578B (zh
Inventor
徐辉
闫威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ainnovation Chongqing Technology Co ltd
Original Assignee
Ainnovation Chongqing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ainnovation Chongqing Technology Co ltd filed Critical Ainnovation Chongqing Technology Co ltd
Priority to CN201911375051.1A priority Critical patent/CN111144578B/zh
Publication of CN111144578A publication Critical patent/CN111144578A/zh
Application granted granted Critical
Publication of CN111144578B publication Critical patent/CN111144578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种人工智能模型管理系统、方法,其中系统包括:注册信息添加模块,用于添加模型数据以及使用该模型的在线服务的服务信息;模型上传模块,用于上传模型文件并存储;模型数据获取模块,用于获取模型数据;特征值计算模块,用于根据模型数据,计算得到一特征值;存储模块,用于根据特征值,并通过Hash算法将模型文件存储至存储集群中的对应的存储节点中;服务信息查询模块,用于根据特征值,查询使用该模型的服务信息;模型推送指令生成模块,用于在查询到服务信息后形成一模型推送指令并输出;模型推送模块,用于根据模型推送指令,将存储于存储节点中的模型文件推送给对应的在线服务,本发明解决了人工部署模型容易出错的问题。

Description

一种分布式环境下的人工智能模型管理系统及管理方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种分布式环境下的人工智能模型管理系统及管理方法。
背景技术
在人工智能图像识别技术领域,现阶段通常采用集中训练一次识别模型,然后将该识别模型通过人为部署方式部署给需要的服务项目,以实现对图像的识别检测。上述的人为部署方式对于单个或为数不多的模型是可行的,但当一个机器学习服务平台所要支撑的项目较多需要多个模型或者模型需要经常更新的情况下,针对模型的人为部署方式就变得繁杂又容易出错,所以需要一种模型智能管理系统,以对模型进行智能管理,以满足不同的服务平台对模型使用的不同需求。
发明内容
本发明的目的在于提供一种分布式环境下的人工智能模型管理系统,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种分布式环境下的人工智能模型管理系统,用于对机器学习服务平台所使用的模型进行更新管理,所述人工智能模型管理系统包括:
注册信息添加模块,用于提供给用户添加所述模型的模型数据以及使用所述模型的在线服务的服务信息,并将所述用户添加的所述模型数据和所述服务信息存储于一数据库中;
模型上传模块,用于提供给所述用户将更新后的所述模型对应的模型文件上传至一模型库中存储;
模型数据获取模块,连接所述数据库,用于从所述数据库中获取关联于所述模型的所述模型数据;
特征值计算模块,连接所述模型数据获取模块,用于根据所获取的关联于所述模型的所述模型数据,计算得到一可用于表示所述模型的特征值;
存储模块,分别连接所述特征值计算模块和所述模型库,用于根据所述特征值,并通过Hash算法将暂存于所述模型库中的关联于所述模型的所述模型文件存储至存储集群中的对应的存储节点中;
服务信息查询模块,分别连接所述数据库和所述特征值计算模块,用于根据所计算的关联于所述模型的所述特征值,在所述数据库中查询使用所述模型的所述服务信息;
模型推送指令生成模块,连接所述服务信息查询模块,用于在查询到所述服务信息后形成一模型推送指令并输出;
模型推送模块,连接各所述存储节点和所述模型推送指令生成模块,用于根据所述模型推送指令,将存储于所述存储节点中的所述模型文件推送给对应的所述在线服务,所述在线服务根据新接收的所述模型文件完成对服务模型的更新。
作为本发明的一种优选方案,所述人工智能模型管理系统还包括:
回滚模块,通信连接各所述在线服务、所述数据库和所述模型库,用于在需要从各所述在线服务中回退所述模型时,提供给所述用户输入需要回滚的所述模型的所述模型数据,并根据所输入的所述模型数据生成模型回退指令发送给对应的所述在线服务,所述在线服务根据接收到的所述模型回退指令将所述模型回滚到模型更新前的状态;
所述回滚模块中具体包括:
回滚模型信息输入单元,用于提供给所述用户输入需要回滚的所述模型对应的所述模型数据;
服务信息查询单元,连接所述回滚模型信息输入单元,用于根据所述用户输入的所述模型数据在所述数据库中查询使用所述模型的所述在线服务对应的所述服务信息;
模型回退指令生成单元,连接所述服务信息查询单元,用于在查询到所述服务信息后生成所述模型回退指令;
模型回退指令发送单元,连接所述模型回退指令生成单元,用于将所述模型回退指令发送给对应的所述在线服务;所述在线服务在接收到所述模型回退指令后将所述模型回滚到模型更新前的状态,并将模型回滚结果反馈给一模型文件删除单元;
所述模型文件删除单元,连接所述模型库,用于在确认所述模型回滚结果为回滚成功后,在所述模型库中删除所述在线服务曾使用的模型更新文件。
作为本发明的一种优选方案,所述模型数据包括应用所述模型的所述在线服务的服务编号、所述模型的模型版本号、所述模型采用的模型框架以及所述模型使用的核心算法名称。
作为本发明的一种优选方案,所述服务信息包括所述在线服务的服务名称或服务代号、接收所述模型对应的模型文件的接口或地址以及所述在线服务当前使用的所述模型的所述模型文件及所述模型的模型版本号。
作为本发明的一种优选方案,当所述模型文件的文件大小大于或等于一存储数据量、和/或所述在线服务对于所述模型的访问频率小于一频率阈值时,所述人工智能模型管理系统以第一粒度分片方式将所述模型文件存储于对应的所述存储节点中;
当所述模型文件的文件大小小于所述存储数据量、和/或所述在线服务对于所述模型的访问频率大于或等于所述频率阈值时,所述人工智能模型管理系统以第二粒度分片方式将所述模型文件存储于对应的所述存储节点中。
本发明还提供了一种人工智能模型管理方法,通过应用所述人工智能模型管理系统实现,该方法包括一模型更新过程,所述模型更新过程具体包括如下步骤:
步骤S1,所述人工智能模型管理系统接收所述用户添加的所述模型的所述模型数据以及使用所述模型的在线服务的所述服务信息,并将所述模型数据和所述服务信息上传并存储于所述数据库中;
步骤S2,所述人工智能模型管理系统接收所述用户上传的经更新后的所述模型的模型文件并存储至所述模型库中;
步骤S3,所述人工智能模型管理系统从所述数据库中获取关联于所述模型的所述模型数据;
步骤S4,所述人工智能模型管理系统根据所获取的关联于所述模型的所述模型数据,计算得到一可用于表示所述模型的所述特征值;
步骤S5,所述人工智能模型管理系统根据所述特征值,并通过Hash算法将暂存于所述模型库中的关联于所述模型的所述模型文件存储至所述存储集群中的对应的存储节点中;
步骤S6,所述人工智能模型管理系统根据所计算的关联于所述模型的所述特征值,在所述数据库中查询使用所述模型的所述服务信息;
步骤S7,所述人工智能模型管理系统在查询到所述服务信息后形成所述模型推送指令;
步骤S8,所述人工智能模型管理系统根据所述模型推送指令,将存储于所述存储节点中的模型文件推送给对应的在线服务,所述在线服务根据新接收的所述模型文件完成对服务模型的更新。
作为本发明的一种优选方案,所述方法还包括一模型回滚过程,所述模型回滚过程具体包括如下步骤:
步骤L1,所述人工智能模型管理系统接收所述用户输入的需要回滚的所述模型对应的所述模型数据;
步骤L2,所述人工智能模型管理系统根据所述用户输入的所述模型数据在所述数据库中查询使用所述模型的所述在线服务对应的所述服务信息;
步骤L3,所述人工智能模型管理系统在查询到所述服务信息后生成模型回退指令;
步骤L4,所述人工智能模型管理系统将所述模型回退指令发送给对应的所述在线服务,所述在线服务在接收到所述模型回退指令后将所述模型回滚到模型更新前的状态,并输出模型回滚结果;
步骤L5,所述人工智能模型管理系统在确认所述模型回滚结果为回滚成功后,在所述模型库中删除所述在线服务曾使用的模型更新文件。
本发明支持对大量的模型的智能管理,能够同时服务大量的在线项目,保证每个项目所需的模型都能够及时更新,解决了模型人工部署方式容易出错的技术问题,可以极大程度上降低开发和运维人员的工作量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例所述的分布式环境下的人工智能模型管理系统的结构示意图;
图2是本发明一实施例所述的分布式环境下的人工智能模型管理系统的框架原理图;
图3是本发明一实施例所述的分布式环境下的人工智能模型管理系统中的回滚模块的结构示意图;
图4是本发明一实施例所述的人工智能模型管理方法中的更新所述在线服务使用的所述模型的方法步骤图;
图5是本发明一实施例所述的人工智能模型管理方法中的回滚所述在线服务使用的所述模型的方法步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的分布式环境下的人工智能模型管理系统,用于对机器学习服务平台所使用的模型进行更新管理,请参照图1,该系统包括:
注册信息添加模块1,用于提供给用户添加模型的模型数据以及使用模型的在线服务的服务信息,并将用户添加的模型数据和服务信息存储于一数据库100中;
模型上传模块2,用于提供给用户将更新后的模型对应的模型文件上传至一模型库200中;
模型数据获取模块3,连接数据库100,用于从数据库100中获取关联于该模型的模型数据;
特征值计算模块4,连接模型数据获取模块3,用于根据所获取的关联于该模型的模型数据,计算得到一可用于表示该模型的特征值;
存储模块5,分别连接特征值计算模块4和模型库200,用于根据特征值,并通过Hash算法将暂存于模型库中的关联于该模型的模型文件存储至存储集群中的对应的存储节点中;
服务信息查询模块6,分别连接数据库100和特征值计算模块4,用于根据所计算的关联于该模型的特征值,在数据库中查询使用该模型的服务信息;
模型推送指令生成模块7,连接服务信息查询模块6,用于在查询到服务信息后形成一模型推送指令并输出;
模型推送模块8,连接各存储节点和模型推送指令生成模块7,用于根据模型推送指令,将存储于存储节点中的模型文件推送给对应的在线服务,在线服务根据新接收的模型文件完成对服务模型的更新。
上述技术方案中,在线服务为机器学习服务平台。
上述技术方案中,模型数据包括应用模型的在线服务的服务编号、模型的模型版本号、模型采用的模型框架以及模型使用的核心算法名称等。
服务信息包括在线服务的服务名称或服务代号、接收模型对应的模型文件的接口或地址以及在线服务当前实用的模型的模型文件以及模型的模型版本号。
上述的模型数据和服务信息以及模型文件构成了在线服务的注册信息。
上述技术方案中,请参照图2,
在一种较佳的实施例中,当模型文件的文件大小不小于一存储数据量、和/或在线服务对应该模型的访问频率小于一频率阈值时,人工智能模型管理系统以第一粒度分片方式将模型文件存储于对应的存储节点中;
当模型文件的文件大小小于该存储数据量、和/或在线服务对于模型的访问频率不小于该频率阈值时,人工智能模型管理系统以第二粒度分片方式将模型文件存储于对应的存储节点中。
第一粒度分片方式优选采用较大粒度的分片将模型文件存储于对应的存储节点,有利用节省传输模型文件时的网络资源。第二粒度方式优选采用小粒度的分片将模型文件存储于对应的存储节点中,有利于提高模型文件传输效率。
请参照图2,存储集群实为上述的存储模块5,存储集群的存储节点由主节点51和多个连接主节点51的子节点52构成。主节点51负责支持整体的运行逻辑,主节点51主要提供如下服务:
(1)负责提供用户交互界面,方便运维人员添加新的模型数据和应用人工智能技术的在线服务的服务信息,并存储在数据库100中。
(2)提供接口方便算法工程师更新模型与回滚模型。
(3)当模型更新时,主节点51查询该模型的模型数据和使用该模型的在线服务的服务信息,并找到存储在线服务所需的模型的子节点52(即目标节点),使该目标节点与对应的目标在线服务后端建立连接,并将存储于对应子节点52中的模型下发给目标在线服务。
(4)模型回滚时,直接由主节点51通知对应的在线服务。
较佳的实施例中,当有新的模型和在线服务需要维护时,运维人员首先添加模型的模型数据和在线服务的服务信息。系统接收更新指令中的注册信息,根据用户发送的更新指令中包含的模型数据处理得到相应的特征值,并根据特征值获取存储节点的地址,将更新指令中的模型文件发送至目标节点后,在目标节点和在线服务之间建立通信连接,控制存储节点将对应更新指令的模型文件发送至在线服务以更新该在线服务的服务模型。
当已有的模型有更新时,根据用户发送的更新指令中包含的模型数据处理得到相应的特征值,并根据特征值获取存储节点的地址,将更新指令中的模型文件发送至存储节点更新存储节点中已存储的模型文件后,在存储节点和在线服务之间建立通信连接控制存储节点将对应更新指令的模型文件发送至在线服务以更新该在线服务的服务模型。
请参照图1,本实施例提供的人工智能模型管理系统还包括:
回滚模块9,通信连接各在线服务、数据库100和模型库200,用于在需要从各在线服务中回退模型时,提供给用户输入需回滚的模型的模型数据,并根据所输入的模型数据生成模型回退指令发送给对应的在线服务,在线服务根据接收到的模型回退指令将模型回滚到模型更新前的状态;
请参照图3,回滚模块9中具体包括:
回滚模型信息输入单元91,用于提供给用户输入需要回滚的模型对应的模型数据;
服务信息查询单元92,连接回滚模型信息输入单元91,用于根据用户输入的模型数据在数据库中查询使用该模型的在线服务对应的服务信息;
模型回退指令生成单元93,连接服务信息查询单元92,用于在查询到服务信息后生成模型回退指令;
模型回退指令发送单元94,连接模型回退指令生成单元93,用于将模型回退指令发送给对应的在线服务;在线服务在接收到模型回退指令后将模型回滚到模型更新前的状态,并将模型回滚结果反馈给一模型文件删除单元;
模型文件删除单元95,连接模型库200,用于在确认模型回滚结果为回滚成功后,在模型库中删除在线服务曾使用的模型更新文件。
当模型需要回滚时,本实施例通过的人工智能模型管理系统将需要回滚的模型标记为隔离,并回退当前版本号,修改模型版本号,修改服务使用的版本号,并通知在线服务回退模型。模型回滚时,直接由主节点通知对应的在线服务。模型下线时,运维人员通过交互界面删除模型数据。
本发明还提供了一种人工智能模型管理方法,通过应用上述的人工智能模型管理系统实现,该人工智能模型管理方法包括一模型更新过程,请参照图4,该模型更新过程具体包括如下步骤:
步骤S1,人工智能模型管理系统接收用户添加的模型对应的模型数据以及使用该模型的在线服务对应的服务信息,并将模型数据和服务信息上传并存储于数据库中;
步骤S2,人工智能模型管理系统接收用户上传的经更新后的模型对应的模型文件并存储至模型库中;
步骤S3,人工智能模型管理系统从数据库中获取关联于模型的模型数据;
步骤S4,人工智能模型管理系统根据所获取的关联于模型的模型数据,计算得到一可用于表示模型的特征值;
步骤S5,人工智能模型管理系统根据特征值,并通过Hash(哈希)算法将暂存于模型库中的关联于模型的模型文件存储至存储集群中的对应的存储节点中;
步骤S6,人工智能模型管理系统根据所计算的关联于模型的特征值,在数据库中查询使用该模型的服务信息;
步骤S7,人工智能模型管理系统在查询到服务信息后形成模型推送指令;
步骤S8,人工智能模型管理系统根据模型推送指令,将存储于存储节点中的模型文件推送给对应的在线服务,在线服务根据新接收的模型文件完成对服务模型的更新。
步骤S4中,系统根据模型数据计算用于表示该模型的特征值的方法为现有技术,所以特征值的具体计算过程在此不作阐述。
本发明提供的人工智能模型管理方法中还包括一模型回滚过程,请参照图5,模型回滚过程具体包括如下步骤:
步骤L1,人工智能模型管理系统接收用户输入的需要回滚的模型对应的模型数据;
步骤L2,人工智能模型管理系统根据用户输入的模型数据在数据库中查询使用该模型的在线服务对应的服务信息;
步骤L3,人工智能模型管理系统在查询到服务信息后生成模型回退指令;
步骤L4,人工智能模型管理系统将模型回退指令发送给对应的在线服务,在线服务在接收到模型回退指令后将模型回滚到模型更新前的状态,并输出模型回滚结果;
步骤L5,人工智能模型管理系统在确认模型回滚结果为回滚成功后,在模型库中删除在线服务曾使用的模型更新文件。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (7)

1.一种分布式环境下的人工智能模型管理系统,用于对机器学习服务平台所使用的模型进行更新管理,其特征在于,所述人工智能模型管理系统包括:
注册信息添加模块,用于提供给用户添加所述模型的模型数据以及使用所述模型的在线服务的服务信息,并将所述用户添加的所述模型数据和所述服务信息存储于一数据库中;
模型上传模块,用于提供给所述用户将更新后的所述模型对应的模型文件上传至一模型库中存储;
模型数据获取模块,连接所述数据库,用于从所述数据库中获取关联于所述模型的所述模型数据;
特征值计算模块,连接所述模型数据获取模块,用于根据所获取的关联于所述模型的所述模型数据,计算得到一可用于表示所述模型的特征值;
存储模块,分别连接所述特征值计算模块和所述模型库,用于根据所述特征值,并通过Hash算法将暂存于所述模型库中的关联于所述模型的所述模型文件存储至存储集群中的对应的存储节点中;
服务信息查询模块,分别连接所述数据库和所述特征值计算模块,用于根据所计算的关联于所述模型的所述特征值,在所述数据库中查询使用所述模型的所述服务信息;
模型推送指令生成模块,连接所述服务信息查询模块,用于在查询到所述服务信息后形成一模型推送指令并输出;
模型推送模块,连接各所述存储节点和所述模型推送指令生成模块,用于根据所述模型推送指令,将存储于所述存储节点中的所述模型文件推送给对应的所述在线服务,所述在线服务根据新接收的所述模型文件完成对服务模型的更新。
2.如权利要求1所述的人工智能模型管理系统,其特征在于,还包括:
回滚模块,通信连接各所述在线服务、所述数据库和所述模型库,用于在需要从各所述在线服务中回退所述模型时,提供给所述用户输入需要回滚的所述模型的所述模型数据,并根据所输入的所述模型数据生成模型回退指令发送给对应的所述在线服务,所述在线服务根据接收到的所述模型回退指令将所述模型回滚到模型更新前的状态;
所述回滚模块中具体包括:
回滚模型信息输入单元,用于提供给所述用户输入需要回滚的所述模型对应的所述模型数据;
服务信息查询单元,连接所述回滚模型信息输入单元,用于根据所述用户输入的所述模型数据在所述数据库中查询使用所述模型的所述在线服务对应的所述服务信息;
模型回退指令生成单元,连接所述服务信息查询单元,用于在查询到所述服务信息后生成所述模型回退指令;
模型回退指令发送单元,连接所述模型回退指令生成单元,用于将所述模型回退指令发送给对应的所述在线服务;所述在线服务在接收到所述模型回退指令后将所述模型回滚到模型更新前的状态,并将模型回滚结果反馈给一模型文件删除单元;
所述模型文件删除单元,分别连接所述模型回退指令发送单元和所述模型库,用于在确认所述模型回滚结果为回滚成功后,在所述模型库中删除所述在线服务曾使用的模型更新文件。
3.如权利要求1所述的人工智能模型管理系统,其特征在于,所述模型数据包括应用所述模型的所述在线服务的服务编号、所述模型的模型版本号、所述模型采用的模型框架以及所述模型使用的核心算法名称。
4.如权利要求1所述的人工智能模型管理系统,其特征在于,所述服务信息包括所述在线服务的服务名称或服务代号、接收所述模型对应的模型文件的接口或地址以及所述在线服务当前使用的所述模型的所述模型文件及所述模型的模型版本号。
5.如权利要求1所述的人工智能模型管理系统,其特征在于,当所述模型文件的文件大小大于或等于一存储数据量、和/或所述在线服务对于所述模型的访问频率小于一频率阈值时,所述人工智能模型管理系统以第一粒度分片方式将所述模型文件存储于对应的所述存储节点中;
当所述模型文件的文件大小小于所述存储数据量、和/或所述在线服务对于所述模型的访问频率大于或等于所述频率阈值时,所述人工智能模型管理系统以第二粒度分片方式将所述模型文件存储于对应的所述存储节点中。
6.一种人工智能模型管理方法,通过应用如权1-5任意一项的所述人工智能模型管理系统实现,其特征在于,包括一模型更新过程,所述模型更新过程具体包括如下步骤:
步骤S1,所述人工智能模型管理系统接收所述用户添加的所述模型的所述模型数据以及使用所述模型的在线服务的所述服务信息,并将所述模型数据和所述服务信息上传并存储于所述数据库中;
步骤S2,所述人工智能模型管理系统接收所述用户上传的经更新后的所述模型的模型文件并存储至所述模型库中;
步骤S3,所述人工智能模型管理系统从所述数据库中获取关联于所述模型的所述模型数据;
步骤S4,所述人工智能模型管理系统根据所获取的关联于所述模型的所述模型数据,计算得到一可用于表示所述模型的所述特征值;
步骤S5,所述人工智能模型管理系统根据所述特征值,并通过Hash算法将暂存于所述模型库中的关联于所述模型的所述模型文件存储至所述存储集群中的对应的存储节点中;
步骤S6,所述人工智能模型管理系统根据所计算的关联于所述模型的所述特征值,在所述数据库中查询使用所述模型的所述服务信息;
步骤S7,所述人工智能模型管理系统在查询到所述服务信息后形成所述模型推送指令;
步骤S8,所述人工智能模型管理系统根据所述模型推送指令,将存储于所述存储节点中的模型文件推送给对应的在线服务,所述在线服务根据新接收的所述模型文件完成对服务模型的更新。
7.如权利要求6所述的人工智能模型管理方法,其特征在于,还包括一模型回滚过程,所述模型回滚过程具体包括如下步骤:
步骤L1,所述人工智能模型管理系统接收所述用户输入的需要回滚的所述模型对应的所述模型数据;
步骤L2,所述人工智能模型管理系统根据所述用户输入的所述模型数据在所述数据库中查询使用所述模型的所述在线服务对应的所述服务信息;
步骤L3,所述人工智能模型管理系统在查询到所述服务信息后生成模型回退指令;
步骤L4,所述人工智能模型管理系统将所述模型回退指令发送给对应的所述在线服务,所述在线服务在接收到所述模型回退指令后将所述模型回滚到模型更新前的状态,并输出模型回滚结果;
步骤L5,所述人工智能模型管理系统在确认所述模型回滚结果为回滚成功后,在所述模型库中删除所述在线服务曾使用的模型更新文件。
CN201911375051.1A 2019-12-27 2019-12-27 一种分布式环境下的人工智能模型管理系统及管理方法 Active CN111144578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911375051.1A CN111144578B (zh) 2019-12-27 2019-12-27 一种分布式环境下的人工智能模型管理系统及管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911375051.1A CN111144578B (zh) 2019-12-27 2019-12-27 一种分布式环境下的人工智能模型管理系统及管理方法

Publications (2)

Publication Number Publication Date
CN111144578A true CN111144578A (zh) 2020-05-12
CN111144578B CN111144578B (zh) 2023-07-28

Family

ID=70520863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911375051.1A Active CN111144578B (zh) 2019-12-27 2019-12-27 一种分布式环境下的人工智能模型管理系统及管理方法

Country Status (1)

Country Link
CN (1) CN111144578B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966382A (zh) * 2020-08-28 2020-11-20 上海寻梦信息技术有限公司 机器学习模型的在线部署方法、装置及相关设备
WO2022087351A1 (en) * 2020-10-23 2022-04-28 Vinsa, Inc. Apparatus and methods for artificial intelligence model management

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682096A (zh) * 2012-04-27 2012-09-19 北京航空航天大学 一种仿真资源信息与模型源码协同管理装置及其方法
CN104239594A (zh) * 2014-06-13 2014-12-24 中国人民解放军装备学院 人工环境模型、Agent模型及其建模方法
CN104391723A (zh) * 2014-12-03 2015-03-04 山东中创软件工程股份有限公司 模型打包和部署方法及装置
US20170124487A1 (en) * 2015-03-20 2017-05-04 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism
CN109286653A (zh) * 2017-07-21 2019-01-29 埃森哲环球解决方案有限公司 智能云工程平台
CN109801438A (zh) * 2019-01-18 2019-05-24 创新奇智(南京)科技有限公司 一种基于人脸识别和语音交互的智能售货柜
CN110061838A (zh) * 2019-04-28 2019-07-26 广州大学 一种dns资源记录的去中心化存储系统及其实现、信息检索方法
CN110162414A (zh) * 2019-02-01 2019-08-23 腾讯科技(深圳)有限公司 基于微服务架构实现人工智能服务的方法及装置
CN110430260A (zh) * 2019-08-02 2019-11-08 哈工大机器人(合肥)国际创新研究院 一种基于大数据云计算支撑的机器人云平台及工作方法
CN110471916A (zh) * 2019-07-03 2019-11-19 平安科技(深圳)有限公司 数据库的查询方法、装置、服务器及介质
CN110515944A (zh) * 2019-08-16 2019-11-29 出门问问(苏州)信息科技有限公司 基于分布式数据库的数据存储方法、存储介质和电子设备
CN110516815A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 人工智能推荐模型的特征处理方法、装置及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682096A (zh) * 2012-04-27 2012-09-19 北京航空航天大学 一种仿真资源信息与模型源码协同管理装置及其方法
CN104239594A (zh) * 2014-06-13 2014-12-24 中国人民解放军装备学院 人工环境模型、Agent模型及其建模方法
CN104391723A (zh) * 2014-12-03 2015-03-04 山东中创软件工程股份有限公司 模型打包和部署方法及装置
US20170124487A1 (en) * 2015-03-20 2017-05-04 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism
CN109286653A (zh) * 2017-07-21 2019-01-29 埃森哲环球解决方案有限公司 智能云工程平台
CN109801438A (zh) * 2019-01-18 2019-05-24 创新奇智(南京)科技有限公司 一种基于人脸识别和语音交互的智能售货柜
CN110162414A (zh) * 2019-02-01 2019-08-23 腾讯科技(深圳)有限公司 基于微服务架构实现人工智能服务的方法及装置
CN110061838A (zh) * 2019-04-28 2019-07-26 广州大学 一种dns资源记录的去中心化存储系统及其实现、信息检索方法
CN110471916A (zh) * 2019-07-03 2019-11-19 平安科技(深圳)有限公司 数据库的查询方法、装置、服务器及介质
CN110430260A (zh) * 2019-08-02 2019-11-08 哈工大机器人(合肥)国际创新研究院 一种基于大数据云计算支撑的机器人云平台及工作方法
CN110515944A (zh) * 2019-08-16 2019-11-29 出门问问(苏州)信息科技有限公司 基于分布式数据库的数据存储方法、存储介质和电子设备
CN110516815A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 人工智能推荐模型的特征处理方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966382A (zh) * 2020-08-28 2020-11-20 上海寻梦信息技术有限公司 机器学习模型的在线部署方法、装置及相关设备
WO2022087351A1 (en) * 2020-10-23 2022-04-28 Vinsa, Inc. Apparatus and methods for artificial intelligence model management

Also Published As

Publication number Publication date
CN111144578B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN101313495B (zh) 数据同步方法、系统及装置
CN104965726A (zh) 配置更新方法、装置及系统
CN107426309A (zh) 一种信息同步方法、装置及系统
CN102291416A (zh) 一种客户端与服务器端双向同步的方法及系统
CN103152398A (zh) 一种多终端文件间的文件同步方法及系统
CN101741830A (zh) 实现多客户端数据同步的方法、系统、客户端及服务器
CN111144578A (zh) 一种分布式环境下的人工智能模型管理系统及管理方法
CN104796445A (zh) 服务器节点进行资源同步的方法、装置
CN103379140A (zh) 一种日志处理规则同步方法及相关设备和系统
CN102891768A (zh) 网络管理的方法和网元
CN105868196A (zh) 一种服务器端工业数据报表生成方法
CN105760272A (zh) 基于插件的监控后台业务定制方法及其系统
CN110417876B (zh) 会话方法、分布式系统中的节点服务器及主控设备
CN103491522A (zh) 终端适配方法和装置
EP1843520B1 (en) A method and device for controlling the configuration of configuration parameter set of the remote device
CN104158899A (zh) 基于面向服务架构的移动终端信息推送方法、装置及系统
WO2017045345A1 (zh) 一种资源管理方法、装置及多模软基站统一网管
CN107968798A (zh) 一种网管资源标签获取方法、缓存同步方法、装置及系统
CN101426220A (zh) 一种基站割接的方法、装置及系统
US8422357B1 (en) System, method, and computer program product for updating an inventory of network devices based on an unscheduled event
KR101746934B1 (ko) 최적의 델타 업데이트를 지원 및 제공하기 위한 관리 서버, 텔레메틱스 단말기 및 그 동작 방법
CN110727457B (zh) 组件管理方法、装置、存储介质及电子设备
CN112800081A (zh) 关联用户获取方法和装置
CN103457984A (zh) 一种自动同步升级控制的方法及系统
CN116566846B (zh) 模型的管理方法、系统以及共享节点、网络节点

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant