CN110765077B

CN110765077B - 基于分布式文件系统统一管理ai模型的方法及系统

Info

Publication number: CN110765077B
Application number: CN201911081366.5A
Authority: CN
Inventors: 连城; 张恩赐; 刘威
Original assignee: China Telecom Fufu Information Technology Co Ltd
Current assignee: China Telecom Fufu Information Technology Co Ltd; Tianyi Cloud Technology Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2022-06-28
Anticipated expiration: 2039-11-07
Also published as: CN110765077A

Abstract

本发明公开基于分布式文件系统统一管理AI模型的方法及系统，基于分布式文件系统，增设模型迭代管理模块提取预设好的模型文件信息，包括模型名称、模型版本、模型创建时间、模型是否上线公开、是否脏模型等信息，在元数据表内新增该AI模型记录，同时根据预设模型存放路径将模型存储在模型仓库中，以构建一个由元数据表与模型仓库组合成的AI模型管理系统。新增模型读取模块分析用户输入的数据提取模型信息，与元数据表内记录匹配，提取表内元数据项，查看模型是否已上线，若已上线，则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息。用户既可实时使用也可以优化模型并再次上传有利于模型的优化更新。

Description

基于分布式文件系统统一管理AI模型的方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及基于分布式文件系统统一管理AI模型的方法及系统。

背景技术

目前，应用于生成预测模型的方法多种多样。数据科学家和工程人员可以选择各种语言来构建AI预测模型。例如使用Python语言调用scikit-learn框架构建预测模型，使用Java或Scala语言调用Spark MLlib框架构建预测模型，等等。众多的构建方法产生了各种环境下的专用模型。近期随着深度学习的广泛使用，TensorFlow、Pytorch等框架支持通过REST或gRPC方式上线公开机器学习模型，但传统机器学习框架，例如scikit-learn、gensim、xgboost等，尚不支持。还有，使用REST或gRPC方式需要部署tensorflow serving，但是搭建serving环境是非常复杂且繁琐的事情。亟需一种有效的模型管理方法，方便上线公开其模型。另外，随着流行编程语言数量、框架种类的增加，管理这些各种各样的模型也变得十分困难。目前常用的管理方式是使用ONNX或PMML通用格式，将各种版本的模型转化为ONNX或PMML文件。然而这种方法存在着许多不足，例如TensorFlow的专有模型转为PMML格式模型转换过程繁琐，转换后出来模型文件普遍变大，且需要安装对应插件才能读取，增加了部署难度；并且PMML的统一模型并不记录各框架的独特优化，运行速度慢。还有就是转化后的模型与原模型的预测值可能存在偏差。

发明内容

本发明的目的在于提供基于分布式文件系统统一管理AI模型的方法及系统。

本发明采用的技术方案是：

基于分布式文件系统统一管理AI模型的方法，其包括以下步骤：

步骤1：模型迭代管理模块接收传送来的新增或更新的模型，提取模型文件信息，依据文件信息查找元数据表并自动创建对应数据记录元数据表项；

步骤2：根据模型迭代管理模块传送的模型与存储路径，调用分布式文件系统将模型存储至对应位置；

步骤3：当模型需要读取调用时模型读取模块根据调用信息查找元数据表并响应调用消息；

当查找元数据表不存在该模型记录时，则返回“该模型不存在”，并结束调用；

当查找元数据表存在该模型记录时，则执行步骤4；

步骤4，查询该模型是否为上线公开；是则，将对应元数据项送给分布式文件系统读取模型文件并挂载并执行步骤5；否则，返回“该应用无上线模型，请先设置”并结束调用；

步骤5，模型读取模块将该模型对应的元数据项和从分布式文件系统内调取对应模型文件形成完整目标模型信息一起返回。

进一步地，其中元数据表包括如下表项：ModelId、模型名称、模型版本号、模型创建时间、模型的存储文件名、模型的存储路径、Online标识、Dirty标识和模型的评估信息；

ModelId由数据库自动生成，是标识模型的唯一序列号；模型名称、模型版本号和模型创建时间构成模型存储在分布式文件系统上的命名规则；模型的存储路径为对应模型仓库的分布式文件系统上的具体路径；Online标识表示模型是否上线公开；Dirty标识表示是否脏模型，其通常由外部AI训练平台根据“已有新的待训数据到达”时间并结合模型创建时间判断；模型的评估信息包含准确度、F1值等体现该模型质量。

进一步地，步骤1中将不同平台构建的AI模型按照时间标提取模型信息。

进一步地，步骤2的具体步骤为：当为新增模型时，则创建对应文件夹并存储；当为更新模型，则将模型存入已有文件夹。

进一步地，命名规则为：ModelName_ModelVersion_CreateTime。路径格式为：“hdfs://user/public/AppName/ModelName_ModelVersion_CreateTime”。

进一步地，步骤3的模型读取模块支持通过挂载方式访问模型仓库并接收机器学习框架发送的模型调用消息。

进一步地，步骤5中该模型对应的元数据项包括模型的创建时间、肮模型状态、评估信息。

基于分布式文件系统统一管理AI模型的系统，其包括模型迭代管理模块、模型读取模块、元数据表和分布式文件系统，模型迭代管理模块的输出端分别连接元数据表和分布式文件系统，模型读取模块分别连接元数据表和分布式文件系统，

模型迭代管理模块用于接收传送来的新增或更新的模型，提取模型文件信息，依据文件信息查找元数据表并自动创建对应数据记录元数据表项；

模型读取模块用于分析用户输入的数据提取模型信息，与元数据表内记录匹配，提取表内元数据项，查看模型是否已上线，若已上线，则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息；

元数据表用于提供并存储各个模型记录的元数据表项信息；

分布式文件系统用于存储模型文件。

进一步地，模型迭代管理模块将不同平台构建的AI模型按照时间标提取模型信息。

进一步地，模型迭代管理模块将模型打包并存储在分布式文件系统的节点上。

本发明采用以上技术方案，基于分布式文件系统的模型仓库及元数据，实现兼容各种机器学习框架构建的AI模型的统一管理方法及系统。本发明提供支持传统机器学习框架及专用模型格式的通用已管理模型的分布式存储与上线公开方式，且无需搭建serving，使用方便。本发明规避了PMML和ONNX转化模型文件难以解决的优化消失，文件大加载慢或者难以转化的问题，降低跨机器学习框架使用模型的工作量。本发明根据调用信息提取，元数据表里记录了模型的脏模型状态、评估信息等利于模型管理的完整信息并支持扩展定制，用户既可实时使用也可以优化模型并再次上传，有利于模型的优化更新。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明基于分布式文件系统统一管理AI模型的方法的流程示意图；

图2为本发明的系统架构示意图。

具体实施方式

目前业界缺少对各种机器学习框架构建AI模型的有效统一管理。适用于SparkMLlib模型的转化为PMML(预测模型标记语言)模型文件的方式不仅适用范围有限，而且还存在着优化、存储的不足之处。ONNX作为开放式神经网络交换格式，适用于TensorFlow、Pytorch等模型，同样存在模型转化时难以避免的优化缺失，预测结果偏差的问题。使用REST或gRPC方式需要搭建serving环境，部署工作量大且无法支持如scikit-learn、gensim、xgboost等传统机器学习框架。本发明基于分布式文件系统的模型仓库，新增能录入各种框架构建的AI模型的模型迭代管理模块，可以提取预设好的模型文件信息，包括模型名称、模型版本、模型创建时间、模型是否上线公开、是否脏模型(类似数据库的“脏读”，已有新的待训数据到达，使得模型可能无法完备的推理预测)等等信息，在元数据表内新增该AI模型记录，同时根据预设模型存放路径将模型存储在模型仓库中，从而构建出一个由元数据表与模型仓库组合成的AI模型管理系统。新增模型读取模块分析用户输入的数据提取模型信息，与元数据表内记录匹配，提取表内元数据项，查看模型是否已上线，若已上线，则根据元数据在分布式文件系统的节点上提取并返回给用户包含脏模型状态在内的完整目标模型信息。

如图1所示，本发明公开了基于分布式文件系统统一管理AI模型的方法，其包括以下步骤：

当查找元数据表存在该模型记录时，则执行步骤4；

进一步地，其中元数据表包括ModelId、模型名称、模型版本号、模型创建时间、模型的存储文件名、模型的存储路径、Online标识、Dirty标识和模型的评估信息；具体地如表1所示。

表1：元数据表

其中，ModelId由数据库自动生成，是标识模型的唯一序列号；模型名称、模型版本号和模型创建时间构成模型存储在分布式文件系统上的命名规则；模型的存储路径为对应模型仓库的分布式文件系统上的具体路径；Online标识表示模型是否上线公开；Dirty标识表示是否脏模型，其通常由外部AI训练平台根据“已有新的待训数据到达”时间并结合模型创建时间判断；模型的评估信息包含准确度、F1值等体现该模型质量。

元数据表用于提供并存储各个模型记录的元数据表项信息；

分布式文件系统用于存储模型文件。

Claims

1.基于分布式文件系统统一管理AI模型的方法，采用的系统其包括模型迭代管理模块、模型读取模块、元数据表和分布式文件系统，模型迭代管理模块的输出端分别连接元数据表和分布式文件系统，模型读取模块分别连接元数据表和分布式文件系统，其特征在于：方法包括以下步骤：

当查找元数据表存在该模型记录时，则执行步骤4；

2.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法，其特征在于：元数据表包括如下表项：ModelId、模型名称、模型版本号、模型创建时间、模型的存储文件名、模型的存储路径、Online标识、Dirty标识和模型的评估信息；

ModelId由数据库自动生成，是标识模型的唯一序列号；模型名称、模型版本号和模型创建时间构成模型存储在分布式文件系统上的命名规则；模型的存储路径为对应模型仓库的分布式文件系统上的具体路径；Online标识表示模型是否上线公开；Dirty标识表示是否脏模型；模型的评估信息包含体现该模型质量的准确度和F1值。

3.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法，其特征在于：步骤1中将不同平台构建的AI模型按照时间标提取模型文件信息。

4.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法，其特征在于：步骤2的具体步骤为：当为新增模型时，则创建对应文件夹并存储；当为更新模型，则将模型存入已有文件夹。

5.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法，其特征在于：步骤3的模型读取模块支持通过挂载方式访问模型仓库并接收机器学习框架发送的模型调用消息。

6.根据权利要求1所述的基于分布式文件系统统一管理AI模型的方法，其特征在于：步骤5中该模型对应的元数据项包括模型的创建时间、脏模型状态、评估信息。

7.基于分布式文件系统统一管理AI模型的系统，其特征在于：其包括模型迭代管理模块、模型读取模块、元数据表和分布式文件系统，模型迭代管理模块的输出端分别连接元数据表和分布式文件系统，模型读取模块分别连接元数据表和分布式文件系统，

元数据表用于提供并存储各个模型记录的元数据表项信息；

分布式文件系统用于存储模型文件；

模型迭代管理模块将模型打包并存储在分布式文件系统的节点上。

8.根据权利要求7所述的基于分布式文件系统统一管理AI模型的系统，其特征在于：模型迭代管理模块将不同平台构建的AI模型按照时间标提取模型文件信息。