CN110765077B - 基于分布式文件系统统一管理ai模型的方法及系统 - Google Patents
基于分布式文件系统统一管理ai模型的方法及系统 Download PDFInfo
- Publication number
- CN110765077B CN110765077B CN201911081366.5A CN201911081366A CN110765077B CN 110765077 B CN110765077 B CN 110765077B CN 201911081366 A CN201911081366 A CN 201911081366A CN 110765077 B CN110765077 B CN 110765077B
- Authority
- CN
- China
- Prior art keywords
- model
- file system
- distributed file
- information
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开基于分布式文件系统统一管理AI模型的方法及系统,基于分布式文件系统,增设模型迭代管理模块提取预设好的模型文件信息,包括模型名称、模型版本、模型创建时间、模型是否上线公开、是否脏模型等信息,在元数据表内新增该AI模型记录,同时根据预设模型存放路径将模型存储在模型仓库中,以构建一个由元数据表与模型仓库组合成的AI模型管理系统。新增模型读取模块分析用户输入的数据提取模型信息,与元数据表内记录匹配,提取表内元数据项,查看模型是否已上线,若已上线,则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息。用户既可实时使用也可以优化模型并再次上传有利于模型的优化更新。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及基于分布式文件系统统一管理AI模型的方法及系统。
背景技术
目前,应用于生成预测模型的方法多种多样。数据科学家和工程人员可以选择各种语言来构建AI预测模型。例如使用Python语言调用scikit-learn框架构建预测模型,使用Java或Scala语言调用Spark MLlib框架构建预测模型,等等。众多的构建方法产生了各种环境下的专用模型。近期随着深度学习的广泛使用,TensorFlow、Pytorch等框架支持通过REST或gRPC方式上线公开机器学习模型,但传统机器学习框架,例如scikit-learn、gensim、xgboost等,尚不支持。还有,使用REST或gRPC方式需要部署tensorflow serving,但是搭建serving环境是非常复杂且繁琐的事情。亟需一种有效的模型管理方法,方便上线公开其模型。另外,随着流行编程语言数量、框架种类的增加,管理这些各种各样的模型也变得十分困难。目前常用的管理方式是使用ONNX或PMML通用格式,将各种版本的模型转化为ONNX或PMML文件。然而这种方法存在着许多不足,例如TensorFlow的专有模型转为PMML格式模型转换过程繁琐,转换后出来模型文件普遍变大,且需要安装对应插件才能读取,增加了部署难度;并且PMML的统一模型并不记录各框架的独特优化,运行速度慢。还有就是转化后的模型与原模型的预测值可能存在偏差。
发明内容
本发明的目的在于提供基于分布式文件系统统一管理AI模型的方法及系统。
本发明采用的技术方案是:
基于分布式文件系统统一管理AI模型的方法,其包括以下步骤:
步骤1:模型迭代管理模块接收传送来的新增或更新的模型,提取模型文件信息,依据文件信息查找元数据表并自动创建对应数据记录元数据表项;
步骤2:根据模型迭代管理模块传送的模型与存储路径,调用分布式文件系统将模型存储至对应位置;
步骤3:当模型需要读取调用时模型读取模块根据调用信息查找元数据表并响应调用消息;
当查找元数据表不存在该模型记录时,则返回“该模型不存在”,并结束调用;
当查找元数据表存在该模型记录时,则执行步骤4;
步骤4,查询该模型是否为上线公开;是则,将对应元数据项送给分布式文件系统读取模型文件并挂载并执行步骤5;否则,返回“该应用无上线模型,请先设置”并结束调用;
步骤5,模型读取模块将该模型对应的元数据项和从分布式文件系统内调取对应模型文件形成完整目标模型信息一起返回。
进一步地,其中元数据表包括如下表项:ModelId、模型名称、模型版本号、模型创建时间、模型的存储文件名、模型的存储路径、Online标识、Dirty标识和模型的评估信息;
ModelId由数据库自动生成,是标识模型的唯一序列号;模型名称、模型版本号和模型创建时间构成模型存储在分布式文件系统上的命名规则;模型的存储路径为对应模型仓库的分布式文件系统上的具体路径;Online标识表示模型是否上线公开;Dirty标识表示是否脏模型,其通常由外部AI训练平台根据“已有新的待训数据到达”时间并结合模型创建时间判断;模型的评估信息包含准确度、F1值等体现该模型质量。
进一步地,步骤1中将不同平台构建的AI模型按照时间标提取模型信息。
进一步地,步骤2的具体步骤为:当为新增模型时,则创建对应文件夹并存储;当为更新模型,则将模型存入已有文件夹。
进一步地,命名规则为:ModelName_ModelVersion_CreateTime。路径格式为:“hdfs://user/public/AppName/ModelName_ModelVersion_CreateTime”。
进一步地,步骤3的模型读取模块支持通过挂载方式访问模型仓库并接收机器学习框架发送的模型调用消息。
进一步地,步骤5中该模型对应的元数据项包括模型的创建时间、肮模型状态、评估信息。
基于分布式文件系统统一管理AI模型的系统,其包括模型迭代管理模块、模型读取模块、元数据表和分布式文件系统,模型迭代管理模块的输出端分别连接元数据表和分布式文件系统,模型读取模块分别连接元数据表和分布式文件系统,
模型迭代管理模块用于接收传送来的新增或更新的模型,提取模型文件信息,依据文件信息查找元数据表并自动创建对应数据记录元数据表项;
模型读取模块用于分析用户输入的数据提取模型信息,与元数据表内记录匹配,提取表内元数据项,查看模型是否已上线,若已上线,则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息;
元数据表用于提供并存储各个模型记录的元数据表项信息;
分布式文件系统用于存储模型文件。
进一步地,模型迭代管理模块将不同平台构建的AI模型按照时间标提取模型信息。
进一步地,模型迭代管理模块将模型打包并存储在分布式文件系统的节点上。
本发明采用以上技术方案,基于分布式文件系统的模型仓库及元数据,实现兼容各种机器学习框架构建的AI模型的统一管理方法及系统。本发明提供支持传统机器学习框架及专用模型格式的通用已管理模型的分布式存储与上线公开方式,且无需搭建serving,使用方便。本发明规避了PMML和ONNX转化模型文件难以解决的优化消失,文件大加载慢或者难以转化的问题,降低跨机器学习框架使用模型的工作量。本发明根据调用信息提取,元数据表里记录了模型的脏模型状态、评估信息等利于模型管理的完整信息并支持扩展定制,用户既可实时使用也可以优化模型并再次上传,有利于模型的优化更新。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明基于分布式文件系统统一管理AI模型的方法的流程示意图;
图2为本发明的系统架构示意图。
具体实施方式
目前业界缺少对各种机器学习框架构建AI模型的有效统一管理。适用于SparkMLlib模型的转化为PMML(预测模型标记语言)模型文件的方式不仅适用范围有限,而且还存在着优化、存储的不足之处。ONNX作为开放式神经网络交换格式,适用于TensorFlow、Pytorch等模型,同样存在模型转化时难以避免的优化缺失,预测结果偏差的问题。使用REST或gRPC方式需要搭建serving环境,部署工作量大且无法支持如scikit-learn、gensim、xgboost等传统机器学习框架。本发明基于分布式文件系统的模型仓库,新增能录入各种框架构建的AI模型的模型迭代管理模块,可以提取预设好的模型文件信息,包括模型名称、模型版本、模型创建时间、模型是否上线公开、是否脏模型(类似数据库的“脏读”,已有新的待训数据到达,使得模型可能无法完备的推理预测)等等信息,在元数据表内新增该AI模型记录,同时根据预设模型存放路径将模型存储在模型仓库中,从而构建出一个由元数据表与模型仓库组合成的AI模型管理系统。新增模型读取模块分析用户输入的数据提取模型信息,与元数据表内记录匹配,提取表内元数据项,查看模型是否已上线,若已上线,则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息。
如图1所示,本发明公开了基于分布式文件系统统一管理AI模型的方法,其包括以下步骤:
步骤1:模型迭代管理模块接收传送来的新增或更新的模型,提取模型文件信息,依据文件信息查找元数据表并自动创建对应数据记录元数据表项;
步骤2:根据模型迭代管理模块传送的模型与存储路径,调用分布式文件系统将模型存储至对应位置;
步骤3:当模型需要读取调用时模型读取模块根据调用信息查找元数据表并响应调用消息;
当查找元数据表不存在该模型记录时,则返回“该模型不存在”,并结束调用;
当查找元数据表存在该模型记录时,则执行步骤4;
步骤4,查询该模型是否为上线公开;是则,将对应元数据项送给分布式文件系统读取模型文件并挂载并执行步骤5;否则,返回“该应用无上线模型,请先设置”并结束调用;
步骤5,模型读取模块将该模型对应的元数据项和从分布式文件系统内调取对应模型文件形成完整目标模型信息一起返回。
进一步地,其中元数据表包括ModelId、模型名称、模型版本号、模型创建时间、模型的存储文件名、模型的存储路径、Online标识、Dirty标识和模型的评估信息;具体地如表1所示。
表1:元数据表
其中,ModelId由数据库自动生成,是标识模型的唯一序列号;模型名称、模型版本号和模型创建时间构成模型存储在分布式文件系统上的命名规则;模型的存储路径为对应模型仓库的分布式文件系统上的具体路径;Online标识表示模型是否上线公开;Dirty标识表示是否脏模型,其通常由外部AI训练平台根据“已有新的待训数据到达”时间并结合模型创建时间判断;模型的评估信息包含准确度、F1值等体现该模型质量。
进一步地,步骤1中将不同平台构建的AI模型按照时间标提取模型信息。
进一步地,步骤2的具体步骤为:当为新增模型时,则创建对应文件夹并存储;当为更新模型,则将模型存入已有文件夹。
进一步地,命名规则为:ModelName_ModelVersion_CreateTime。路径格式为:“hdfs://user/public/AppName/ModelName_ModelVersion_CreateTime”。
进一步地,步骤3的模型读取模块支持通过挂载方式访问模型仓库并接收机器学习框架发送的模型调用消息。
进一步地,步骤5中该模型对应的元数据项包括模型的创建时间、肮模型状态、评估信息。
基于分布式文件系统统一管理AI模型的系统,其包括模型迭代管理模块、模型读取模块、元数据表和分布式文件系统,模型迭代管理模块的输出端分别连接元数据表和分布式文件系统,模型读取模块分别连接元数据表和分布式文件系统,
模型迭代管理模块用于接收传送来的新增或更新的模型,提取模型文件信息,依据文件信息查找元数据表并自动创建对应数据记录元数据表项;
模型读取模块用于分析用户输入的数据提取模型信息,与元数据表内记录匹配,提取表内元数据项,查看模型是否已上线,若已上线,则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息;
元数据表用于提供并存储各个模型记录的元数据表项信息;
分布式文件系统用于存储模型文件。
进一步地,模型迭代管理模块将不同平台构建的AI模型按照时间标提取模型信息。
进一步地,模型迭代管理模块将模型打包并存储在分布式文件系统的节点上。
本发明采用以上技术方案,基于分布式文件系统的模型仓库及元数据,实现兼容各种机器学习框架构建的AI模型的统一管理方法及系统。本发明提供支持传统机器学习框架及专用模型格式的通用已管理模型的分布式存储与上线公开方式,且无需搭建serving,使用方便。本发明规避了PMML和ONNX转化模型文件难以解决的优化消失,文件大加载慢或者难以转化的问题,降低跨机器学习框架使用模型的工作量。本发明根据调用信息提取,元数据表里记录了模型的脏模型状态、评估信息等利于模型管理的完整信息并支持扩展定制,用户既可实时使用也可以优化模型并再次上传,有利于模型的优化更新。
Claims (8)
1.基于分布式文件系统统一管理AI模型的方法,采用的系统其包括模型迭代管理模块、模型读取模块、元数据表和分布式文件系统,模型迭代管理模块的输出端分别连接元数据表和分布式文件系统,模型读取模块分别连接元数据表和分布式文件系统,其特征在于:方法包括以下步骤:
步骤1:模型迭代管理模块接收传送来的新增或更新的模型,提取模型文件信息,依据文件信息查找元数据表并自动创建对应数据记录元数据表项;
步骤2:根据模型迭代管理模块传送的模型与存储路径,调用分布式文件系统将模型存储至对应位置;
步骤3:当模型需要读取调用时模型读取模块根据调用信息查找元数据表并响应调用消息;
当查找元数据表不存在该模型记录时,则返回“该模型不存在”,并结束调用;
当查找元数据表存在该模型记录时,则执行步骤4;
步骤4,查询该模型是否为上线公开;是则,将对应元数据项送给分布式文件系统读取模型文件并挂载并执行步骤5;否则,返回“该应用无上线模型,请先设置”并结束调用;
步骤5,模型读取模块将该模型对应的元数据项和从分布式文件系统内调取对应模型文件形成完整目标模型信息一起返回。
2.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法,其特征在于:元数据表包括如下表项:ModelId、模型名称、模型版本号、模型创建时间、模型的存储文件名、模型的存储路径、Online标识、Dirty标识和模型的评估信息;
ModelId由数据库自动生成,是标识模型的唯一序列号;模型名称、模型版本号和模型创建时间构成模型存储在分布式文件系统上的命名规则;模型的存储路径为对应模型仓库的分布式文件系统上的具体路径;Online标识表示模型是否上线公开;Dirty标识表示是否脏模型;模型的评估信息包含体现该模型质量的准确度和F1值。
3.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法,其特征在于:步骤1中将不同平台构建的AI模型按照时间标提取模型文件信息。
4.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法,其特征在于:步骤2的具体步骤为:当为新增模型时,则创建对应文件夹并存储;当为更新模型,则将模型存入已有文件夹。
5.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法,其特征在于:步骤3的模型读取模块支持通过挂载方式访问模型仓库并接收机器学习框架发送的模型调用消息。
6.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法,其特征在于:步骤5中该模型对应的元数据项包括模型的创建时间、脏模型状态、评估信息。
7.基于分布式文件系统统一管理AI模型的系统,其特征在于:其包括模型迭代管理模块、模型读取模块、元数据表和分布式文件系统,模型迭代管理模块的输出端分别连接元数据表和分布式文件系统,模型读取模块分别连接元数据表和分布式文件系统,
模型迭代管理模块用于接收传送来的新增或更新的模型,提取模型文件信息,依据文件信息查找元数据表并自动创建对应数据记录元数据表项;
模型读取模块用于分析用户输入的数据提取模型信息,与元数据表内记录匹配,提取表内元数据项,查看模型是否已上线,若已上线,则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息;
元数据表用于提供并存储各个模型记录的元数据表项信息;
分布式文件系统用于存储模型文件;
模型迭代管理模块将模型打包并存储在分布式文件系统的节点上。
8.根据权利要求7所述的基于分布式文件系统统一管理AI模型的系统,其特征在于:模型迭代管理模块将不同平台构建的AI模型按照时间标提取模型文件信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911081366.5A CN110765077B (zh) | 2019-11-07 | 2019-11-07 | 基于分布式文件系统统一管理ai模型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911081366.5A CN110765077B (zh) | 2019-11-07 | 2019-11-07 | 基于分布式文件系统统一管理ai模型的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765077A CN110765077A (zh) | 2020-02-07 |
CN110765077B true CN110765077B (zh) | 2022-06-28 |
Family
ID=69336777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911081366.5A Active CN110765077B (zh) | 2019-11-07 | 2019-11-07 | 基于分布式文件系统统一管理ai模型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765077B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111290782A (zh) * | 2020-03-19 | 2020-06-16 | 中国建设银行股份有限公司 | 模型管理方法及系统 |
CN111966382A (zh) * | 2020-08-28 | 2020-11-20 | 上海寻梦信息技术有限公司 | 机器学习模型的在线部署方法、装置及相关设备 |
CN112965936B (zh) * | 2021-02-26 | 2022-12-23 | 苏宁金融科技(南京)有限公司 | 一种异构分布式模型的处理方法、装置、设备和存储介质 |
CN115150287A (zh) * | 2021-03-30 | 2022-10-04 | 华为技术有限公司 | 网络模型管理方法和装置 |
CN113296766B (zh) * | 2021-05-31 | 2022-10-11 | 中电福富信息科技有限公司 | 基于Seldon的AI模型发布方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855239A (zh) * | 2011-06-28 | 2013-01-02 | 清华大学 | 一种分布式地理文件系统 |
CN108667850A (zh) * | 2018-05-21 | 2018-10-16 | 济南浪潮高新科技投资发展有限公司 | 一种人工智能服务系统及其实现人工智能服务的方法 |
CN109408591A (zh) * | 2018-10-12 | 2019-03-01 | 北京聚云位智信息科技有限公司 | 支持sql驱动的ai与特征工程的决策型分布式数据库系统 |
CN109635948A (zh) * | 2018-12-19 | 2019-04-16 | 北京达佳互联信息技术有限公司 | 在线训练方法、装置、系统及计算机可读存储介质 |
CN110378463A (zh) * | 2019-07-15 | 2019-10-25 | 北京智能工场科技有限公司 | 一种人工智能模型标准化训练平台及自动化系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190042488A1 (en) * | 2017-12-28 | 2019-02-07 | Intel Corporation | Shared memory controller in a data center |
-
2019
- 2019-11-07 CN CN201911081366.5A patent/CN110765077B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855239A (zh) * | 2011-06-28 | 2013-01-02 | 清华大学 | 一种分布式地理文件系统 |
CN108667850A (zh) * | 2018-05-21 | 2018-10-16 | 济南浪潮高新科技投资发展有限公司 | 一种人工智能服务系统及其实现人工智能服务的方法 |
CN109408591A (zh) * | 2018-10-12 | 2019-03-01 | 北京聚云位智信息科技有限公司 | 支持sql驱动的ai与特征工程的决策型分布式数据库系统 |
CN109635948A (zh) * | 2018-12-19 | 2019-04-16 | 北京达佳互联信息技术有限公司 | 在线训练方法、装置、系统及计算机可读存储介质 |
CN110378463A (zh) * | 2019-07-15 | 2019-10-25 | 北京智能工场科技有限公司 | 一种人工智能模型标准化训练平台及自动化系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110765077A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765077B (zh) | 基于分布式文件系统统一管理ai模型的方法及系统 | |
CN101059695B (zh) | 对控制器结构和变量名称的可编程访问 | |
US20210405629A1 (en) | System and method for interoperable communication of an automation system component with multiple information sources | |
CN102375826B (zh) | Sql脚本解析方法、装置及系统 | |
JP2001313639A (ja) | ネットワーク構成データ管理システム及び方法並びに記録媒体 | |
EP2289028A1 (en) | Automatic data mining process control | |
CN108540351B (zh) | 分布式大数据服务的自动化测试方法 | |
CN101675415B (zh) | 程序模式分析装置、模式出现状况信息产生方法、模式信息生成装置及程序 | |
CN106503214A (zh) | 一种基于Redis内存数据库的复杂规则匹配方法 | |
US11880740B2 (en) | Facilitating machine learning configuration | |
CN113868252A (zh) | 数据库模式匹配方法及装置、sql查询语句生成方法 | |
CN111144123B (zh) | 一种工业互联网标识解析数据字典构建方法 | |
CN114860727A (zh) | 拉链表更新方法及装置 | |
Graube et al. | Integrating industrial middleware in linked data collaboration networks | |
CN104636265A (zh) | 一种cimxml文档的高效内存模型组织的访问方法 | |
CN101968747B (zh) | 一种机群应用管理系统及其应用管理方法 | |
CN101635711B (zh) | 可编程字符通讯方法 | |
CN101719159A (zh) | 一种数据管理方法及装置 | |
CN116150236A (zh) | 数据同步方法及装置、电子设备、计算机可读存储介质 | |
CN114547060A (zh) | 一种政务事项数据交换方法及系统 | |
JP7381290B2 (ja) | 計算機システム及びデータの管理方法 | |
CN106372121A (zh) | 服务器及数据处理方法 | |
KR101926165B1 (ko) | 웹 기반 hmi 솔루션의 문서 편집 시스템 및 그 방법 | |
CN110851130B (zh) | 一种数据处理的方法和装置 | |
JP2007072965A (ja) | データ処理装置およびデータ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230302 Address after: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian. Patentee after: CHINATELECOM FUFU INFORMATION TECHNOLOGY Co.,Ltd. Patentee after: Tianyiyun Technology Co.,Ltd. Address before: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian. Patentee before: CHINATELECOM FUFU INFORMATION TECHNOLOGY Co.,Ltd. |