CN115330200A

CN115330200A - 用于运营人工智能模型的装置、系统及方法

Info

Publication number: CN115330200A
Application number: CN202210974398.3A
Authority: CN
Inventors: 尹亮; 叶志远
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-11-11

Abstract

本申请公开了一种用于运营人工智能模型的装置、系统及方法。该装置与大数据平台通信，该装置包括：数据接入模块，与大数据平台通信，被配置成接收大数据平台发送的多源数据；能力服务运营模块，被配置成根据多源数据进行能力服务运营闭环；数据管理与标注模块，被配置成对多源数据进行分类标注与管理；模型开发与训练模块，被配置成对预设模型进行开发与训练，以得到目标模型；模型服务化模块，被配置成对目标模型进行封装、部署和监控，以得到目标模型服务。本申请对于人工智能模型的开发、训练和运行支持不同层次用户的使用习惯，提供统一、开放的接入能力以及统一模型封装和评估能力，延伸了通用领域能力，利于多个领域的推广。

Description

用于运营人工智能模型的装置、系统及方法

技术领域

本申请涉及计算机技术领域，具体涉及一种用于运营人工智能模型的装置、系统及方法。

背景技术

随着应用场景的扩大，碎片化的人工智能能力与研发模式难以满足大规模、高质量的人工智能能力的诉求，亟需强化人工智能应用基础支撑能力，提升人工智能服务水平，实现工程化的人工智能能力供给。目前，在模型落地时需要专门的环境，专人实现资源管理、模型管理、运维等复杂的功能，耗时耗力。人工智能正处于风口，应用有大规模的人工智能落地需求或潜在的需求。自研对人员知识背景要求较高，既需要掌握人工智能算法原理，又要有工程实践能力，同时还能针对业务场景进行自主建模，不利于大范围推广。因此，现有技术中，人工智能模型的开发、训练和运行具有局限性，不利于多个领域的推广。

发明内容

本申请实施例的目的是提供一种用于运营人工智能模型的装置、系统及方法，用以解决现有技术中人工智能模型的开发、训练和运行具有局限性的问题。

为了实现上述目的，本申请第一方面提供一种用于运营人工智能模型的装置，该装置与大数据平台通信，该装置包括：

数据接入模块，与大数据平台通信，被配置成接收大数据平台发送的多源数据；

能力服务运营模块，与数据接入模块通信，被配置成根据多源数据进行能力服务运营闭环；

数据管理与标注模块，与能力服务运营模块通信，被配置成对多源数据进行分类标注与管理；

模型开发与训练模块，与数据管理与标注模块通信，被配置成根据标注后的多源数据对预设模型进行开发与训练，以得到目标模型；

模型服务化模块，分别与模型开发与训练模块以及能力服务运营模块通信，被配置成对目标模型进行封装、部署和监控，以得到目标模型服务。

在本申请实施例中，能力服务运营模块包括：

在线评估单元，与数据接入模块通信，被配置成对多源数据进行在线评估；

数据回流单元，分别与在线评估单元和数据管理与标注模块通信，被配置成通过数据回流的方式将在线评估后的多源数据发送至数据管理与标注模块；

服务发布单元，与模型服务化模块通信，被配置成接收模型服务化模块发送的目标模型服务，并对目标模型服务进行灰度发布。

在本申请实施例中，数据管理与标注模块包括：

数据加工单元，被配置成对多源数据进行降维，以得到特征变量；

数据标注单元，被配置成对多源数据进行标注；

数据订阅单元，被配置成对多源数据进行订阅。

在本申请实施例中，数据标注单元包括图像标注单元、语音标注单元、文本标注单元和视频标注单元。

在本申请实施例中，模型开发与训练模块包括：

模型开发单元，被配置成根据托拉拽指令调出预设模型中的初始模型；

模型训练单元，与模型开发单元通信，被配置成根据标注后的多源数据对初始模型进行训练，以得到目标模型。

在本申请实施例中，预设模型包括预设建模框架、预设算子和预设模板。

在本申请实施例中，模型服务化模块包括：

模型管理单元，被配置成提供模型仓库；

模型封装单元，与模型管理单元通信，被配置成根据模型仓库对目标模型进行封装；

模型部署单元，与模型封装单元通信，被配置成对目标模型进行部署，以得到目标模型服务。

在本申请实施例中，目标模型服务包括以下中的至少一者：

在线服务部署、批量服务部署、模型服务监控和模型服务测试。

本申请第二方面提供一种用于运营人工智能模型的系统，包括：

大数据平台；

上述的用于运营人工智能模型的装置，与大数据平台通信。

本申请第三方面提供一种用于运营人工智能模型的方法，应用于用于运营人工智能模型的装置，该装置包括数据接入模块、能力服务运营模块、数据管理与标注模块、模型开发与训练模块以及模型服务化模块，能力服务运营模块分别与数据接入模块、数据管理与标注模块通信和模型服务化模块通信，数据管理与标注模块与模型开发与训练模块通信，模型开发与训练模块与所述模型服务化模块通信，该方法包括：

通过数据接入模块获取数据接入模块发送的多源数据，多源数据通过大数据平台获取；

通过数据管理与标注模块对多源数据进行分类标注与管理；

通过模型开发与训练模块根据标注后的多源数据对预设模型进行开发与训练，以得到目标模型；

通过模型服务化模块对目标模型进行封装、部署和监控，以得到目标模型服务；

通过能力服务运营模块根据多源数据进行能力服务运营闭环。

在本申请实施例中，通过能力服务运营模块根据多源数据进行能力服务运营闭环包括：

对多源数据进行在线评估；

通过数据回流的方式将在线评估后的多源数据发送至数据管理与标注模块；

接收模型服务化模块发送的所述目标模型服务；

对目标模型服务进行灰度发布。

通过上述技术方案，提供一种与大数据平台通信的用于运营人工智能模型的装置，通过数据接入模块接收大数据平台发送的多源数据，通过能力服务运营模块进行能力服务运营闭环，通过数据管理与标注模块对多源数据进行分类标注与管理，通过模型开发与训练模块对预设模型进行开发与训练，以得到目标模型，再通过模型服务化模块对目标模型进行封装、部署和监控，以得到目标模型服务，成功打造了统一的人工智能基于模型开发和训练的数字化运营支持，包括客户可以自主接入、人工智能能力运维、人工智能产品能力运维、系统管理等多个不同角色的完整功能，通过算力资源的统一管理、人工智能服务、模型、数据集的链条式统一管理和人工智能赋能业务场景的统一管理，实现了0代码接入，有效支撑人工智能研发，拉新促活平台用户，支持数据集的建设和模型建设，以及支撑各个业务场景的服务化建设，综上，本申请对于人工智能模型的开发、训练和运行支持不同层次用户的使用习惯，提供统一、开放的接入能力以及统一模型封装和评估能力，延伸了通用领域能力，利于多个领域的推广。

本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请实施例，但并不构成对本申请实施例的限制。在附图中：

图1示意性示出了根据本申请一实施例的一种用于运营人工智能模型的装置的结构图；

图2示意性示出了根据本申请另一实施例的一种用于运营人工智能模型的装置的结构图；

图3示意性示出了根据本申请实施例的一种模型开发与训练模块的预置结构图；

图4示意性示出了根据本申请实施例的一种用于运营人工智能模型的系统的结构图；

图5示意性示出了根据本申请实施例的一种用于运营人工智能模型的方法的流程图；

图6示意性示出了根据本申请一具体实施例的一种用于运营人工智能模型的方法的流程图；

图7示意性示出了根据本申请实施例的一种模型开发与训练的数字化运营体系的示意图。

附图标记说明

100 用于运营人工智能模型的装置

102 数据接入模块 104 能力服务运营模块

106 数据管理与标注模块 108 模型开发与训练模块

110 模型服务化模块 1041 在线评估单元

1042 数据回流单元 1043 服务发布单元

1061 数据加工单元 1062 数据标注单元

1063 数据订阅单元 1081 模型开发单元

1082 模型训练单元 1101 模型管理单元

1102 模型封装单元 1103 模型部署单元

200 大数据平台

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1示意性示出了根据本申请一实施例的一种用于运营人工智能模型的装置的结构图。如图1所示，在本申请一实施例中，提供一种用于运营人工智能模型的装置100，该装置与大数据平台通信，该装置可以包括：

数据接入模块102，与大数据平台通信，被配置成接收大数据平台发送的多源数据；

能力服务运营模块104，与数据接入模块102通信，被配置成根据多源数据进行能力服务运营闭环；

数据管理与标注模块106，与能力服务运营模块104通信，被配置成对多源数据进行分类标注与管理；

模型开发与训练模块108，与数据管理与标注模块106通信，被配置成根据标注后的多源数据对预设模型进行开发与训练，以得到目标模型；

模型服务化模块110，分别与模型开发与训练模块108以及能力服务运营模块104通信，被配置成对目标模型进行封装、部署和监控，以得到目标模型服务。

在本申请实施例中，人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学。目前，碎片化的人工智能能力与研发难以满足逐渐扩大的应用场景，因此，亟需强化人工智能应用基础支撑能力，提高人工智能服务水平，实现工程化的AI能力供给。本申请实施例提供了一种用于运营人工智能模型的装置100，即AI平台，该平台打造工程化人工智能能力，扭转碎片化的竖井式应用建设布局，解决模型资产无法重复利用的问题，提升了研发效率，降低了研发门槛，提供统一流程管理，加速AI场景落地，减少后期维护成本。

目前在需要使用一些业务数据进行模型训练时，获取数据的方式是复杂且漫长的，需要通过版本投产的形式，在投产日当天，将数据接入到AI平台，这大大降低了模型的研发效率。因此，在本申请实施例中，将数据接入模块102与大数据平台通信，数据接入模块102具备多源数据接入功能，全面覆盖包括但不限于云化数仓和大数据云等。本申请实施例的数据获取的方式是基于AI平台和大数据平台的协作互通，通过openAPI的方式，实现两个平台的数据同步。用户在任何时候，只需要在AI平台页面上进行一些点击操作，便可以获取到训练需要的数据，真正实现了数据敏捷接入高效互通的目标。

在本申请实施例中，能力服务运营模块104与数据接入模块102通信，可以根据多源数据进行能力服务运营闭环，从而对AI应用运维更好地进行监控。能力服务运营即各种AI应用服务能力的效果运营，并提供完备的数据运营视图，包含数据类型、数据大小、数量和数据变化趋势等运营指标，可以让管理者对AI平台上的数据了如指掌。在一个示例中，能力服务运营模块104可以包括在线评估、数据回流和服务发布等功能。数据回流是通过对线上真实场景数据进行数据采集、加工和预处理形成新的数据集，持续扩充训练数据集，方便持续对模型进行迭代优化，同时也支持对回流的数据进行再次加工，重新标注，满足模型再训练等要求。在线评估是对真实的用户行为数据进行在线评估，在线评估产生的badcase数据可以通过数据回流方式接入到数据加工空间，进行数据的预处理和清洗等工作。数据服务支持全量数据的展示及已反馈数据筛选，包含图片预览等功能，方便快速定位问题，并做出针对性优化和精度提升。数据进入AI平台后，处理器先通过能力服务运营模块进行在线评估和数据回流，以将数据发送至数据管理与标注模块106。

在本申请实施例中，数据管理与标注模块106与能力服务运营模块104通信。在接收到能力服务运营模块104发送的多源数据后，可以对多源数据进行分门别类的处理和管理，告别数据脏乱差。数据管理与标注模块106具备标注任务全生命周期管理功能，包括任务创建、标签设置、人员分配、预标注、进度跟踪和生成标注结果等功能。其中，标注工具可以为集图像、视频、文本、语音于一体的数据标注工具，可以实现图像、视频、语音和文本四大类标注，支持了标注中心的标注工作。对数据进行处理和管理后，处理器可以将数据输入模型开发与训练模块108，以对模型进行开发和训练。

在本申请实施例中，模型开发与训练模块108与数据管理与标注模块106通信。在接收到标注好的数据之后，可以对预设模型进行开发与训练，以得到目标模型。本申请实施例的模型开发与训练模块108可以为AI开发者提供一站式AI模型开发、训练以及评估环境。通过可视化托拉拽建模，预置AI建模框架、算子和模板，帮助用户实现零代码可视化快速建模。其中AI框架可以包括但不限于Tensorflow、Pytorch、H2O、Spark、Scikit-Learn在内的5种AI建模框架。Tensorflow是一个基于数据流编程的负荷数学系统，被广泛应用于各类机器学习算法的编程实现。Pytorch是一个开源的Python机器学习库，基于Torch，用于自然语言等应用程序。H2O是一个用于分布式、可扩展机器学习的内存平台。Scikit-Learn是一个知名的Python机器学习库，广泛地应用于统计分析和机器学习建模等数据科学领域。通过预置200+个各类可视化建模算子，可覆盖通用AI建模、智能风控、智能推荐等建模场景。预置模板可以包括但不限于机器学习、深度学习、智能风控和推荐等10余个建模模板。模型开发与训练模块108支持交互式即时运行调试，提供AutoML自动建模模式。集成多种主流机器学习和深度学习框架，预置多种算法，支持多机多卡大规模分布式训练。支持Notebook模式、可视化模式、本地代码模式等7种模型开发模式，基于云原生和微服务框架自主研发，使得算法池化、分布式和云原生，实现零代码接入，提高模型训练的效率和应用广度。

训练好模型之后可以对模型进行服务化。本申请实施例中，模型服务化模块110分别与模型开发与训练模块108以及能力服务运营模块104通信，可以对目标模型进行封装、部署和监控，以得到目标模型服务，再将目标模型服务发送至能力服务运营模块104，以便能力服务运营模块104对服务化后的模型进行灰度发布。模型服务化模块110可以包含模型管理、模型封装、模型部署3个单元，并具备MLOps能力。MLOPs是一门工程学科，旨在统一ML系统开发(dev)和ML系统部署(ops)，以标准化过程生产高性能模型的持续交付。模型管理是指提供模型仓库，支持模型注册、模型元数据管理，并提供评估、转换工具，提升模型治理能力。模型封装是指提供模型封装框架、支持基础镜像封装、支持模型镜像封装、具备模型编排能力，加速机器学习生命周期。模型部署是指支持模型在线服务部署、批量服务部署、模型服务监控、模型服务测试功能，提升模型服务治能力。本申请实施例中的模型服务化模块110具备持续封装、部署、监控的MLOp。处理器可以通过提供封装流水线模板，支持向导式配置流水线，并根据流水线自动生成构建脚本，自动生成构建镜像的元数据信息，维护模型镜像与模型包、代码仓库、基础镜像的关系进行持续封装，使封装过程规范化、自动化。处理器还可以通过版本化管理部署yaml来进行持续部署，使部署过程可审计，支持基于GitOps的自动部署，简化开发测试环境下的部署过程。GitOps是一套使用Git来管理基础架构和应用配置的时间，而Git指的是一个开源版控制系统。同时，处理器还能对已部署的模型服务进行持续监控，持续请求日志记录。

本申请实施例在对数据进行标注，对模型进行开发、训练、封装和部署之后，能力服务运营模块104还可以接收封装和部署后的目标服务模型，再对目标服务模型进行灰度发布。这样，可以通过能力服务运营模块104对AI能力服务进行运营闭环，实时采集数据，更新模型，使得用户可以根据需求高效获取需要的运营模型。

图2示意性示出了根据本申请另一实施例的一种用于运营人工智能模型的装置的结构图，图2中的连接关系未示出。如图2所示，在本申请实施例中，能力服务运营模块104可以包括：

在线评估单元1041，与数据接入102模块通信，被配置成对多源数据进行在线评估；

数据回流单元1042，分别与在线评估单元1041和数据管理与标注模块106通信，被配置成通过数据回流的方式将在线评估后的多源数据发送至数据管理与标注模块106；

服务发布单元1043，与模型服务化模块110通信，被配置成接收模型服务化模块110发送的目标模型服务，并对目标模型服务进行灰度发布。

在本申请实施例中，能力服务运营模块104与数据接入模块102通信，可以根据多源数据进行能力服务运营闭环，从而对AI应用运维更好地进行监控。能力服务运营即各种AI应用服务能力的效果运营，并提供完备的数据运营视图，包含数据类型、数据大小、数量和数据变化趋势等运营指标，可以让管理者对AI平台上的数据了如指掌。

在本申请实施例中，能力服务运营模块104可以包括在线评估单元1041、数据回流单元1042和服务发布单元1043。在线评估单元1041是对真实的用户行为数据进行在线评估，在线评估产生的badcase数据可以通过数据回流方式接入到数据加工空间，进行数据的预处理和清洗等工作。数据服务支持全量数据的展示及已反馈数据筛选，包含图片预览等功能，方便快速定位问题，并做出针对性优化和精度提升。数据回流单元1042是通过对线上真实场景数据进行数据采集、加工和预处理形成新的数据集，持续扩充训练数据集，方便持续对模型进行迭代优化，同时也支持对回流的数据进行再次加工，重新标注，满足模型再训练等要求。数据进入AI平台后，处理器先通过能力服务运营模块进行在线评估和数据回流，以将数据发送至数据管理与标注模块106。

本申请实施例在对数据进行标注、对模型进行开发、训练、封装和部署之后，能力服务运营模块104还可以接收封装和部署后的目标服务模型，再对目标服务模型进行灰度发布。这样，可以通过能力服务运营模块104对AI能力服务进行运营闭环，实时采集数据，更新模型，使得用户可以根据需求高效获取需要的运营模型。

如图2所示，在本申请实施例中，数据管理与标注模块106可以包括：

数据加工单元1061，被配置成对多源数据进行降维，以得到特征变量；

数据标注单元1062，被配置成对多源数据进行标注；

数据订阅单元1063，被配置成对多源数据进行订阅。

在本申请实施例中，数据管理与标注模块106与能力服务运营模块104通信。在接收到能力服务运营模块104发送的多源数据后，可以对多源数据进行分门别类的处理和管理，告别数据脏乱差。数据管理与标注模块106具备标注任务全生命周期管理功能，包括任务创建、标签设置、人员分配、预标注、进度跟踪和生成标注结果等功能。

在本申请实施例中，数据管理与标注模块106可以包括数据加工单元1061、数据标注单元1062和数据订阅单元1063。数据加工单元1061用于对多源数据进行降维，以得到特征变量。数据订阅单元1063用于对多源数据进行订阅。数据标注单元1062可以实现图像、视频、语音和文本四大类标注。在本申请实施例中，数据标注单元可以包括图像标注单元、语音标注单元、文本标注单元和视频标注单元、标注管理和预标注。标注管理支持向导式标注任务创建、灵活的标注-审核-质检流程配置，以及动态的标签创建方式，并提供实时的任务进度监督页面，实现标注任务的全生命周期管理。预标注是将AI平台发布的服务反向赋能平台自身，作为预标注的模型服务，助力传统的人工打标，支持高频票据识别和外呼对话识别的预标注场景，有效提升标注效率。图像标注提供矩形、多边形、关键点、折线、立方体等丰富的标注绘制工具，支撑业内主流的图像标注场景。文本标注支持文本多元关系标注(多元组关系)、文本叠加和重叠标注、多层级分类标注，支撑业内主流的NLP标注场景。本申请实施例通过数据管理与标注模块106对数据进行处理和管理后，处理器可以将数据输入模型开发与训练模块108，以对模型进行开发和训练。

如图2所示，在本申请实施例中，模型开发与训练模块108可以包括：

模型开发单元1081，被配置成根据托拉拽指令调出预设模型中的初始模型；

模型训练单元1082，与模型开发单元1081通信，被配置成根据标注后的多源数据对初始模型进行训练，以得到目标模型。

在本申请实施例中，模型开发与训练模块108与数据管理与标注模块106通信。处理器在接收到标注好的数据之后，可以对预设模型进行开发与训练，以得到训练好的目标模型。本申请实施例的模型开发与训练模块108可以为AI开发者提供一站式AI模型开发、训练以及评估环境。

图3示意性示出了根据本申请实施例的一种模型开发与训练模块的预置结构图。如图3所示，在本申请实施例中，预设模型可以包括预设建模框架、预设算子和预设模板。通过可视化托拉拽建模，预置AI建模框架、算子和模板，帮助用户实现零代码可视化快速建模。其中AI框架可以包括但不限于Tensorflow、Pytorch、H2O、Spark、Scikit-Learn在内的5种AI建模框架。通过预置200+个各类可视化建模算子，可覆盖通用AI建模、智能风控、智能推荐等建模场景。预置模板可以包括但不限于机器学习、深度学习、智能风控和推荐等10余个建模模板。因此，模型开发与训练模块108包括多种预设模型，每个预设模型包括预置框架、算子和模板。处理器在接收到托拉拽指令的情况下，可以调出预设模型中的初始模型，再根据标注后的多源数据对初始模型进行训练，从而得到训练好的目标模型。模型开发与训练模块108支持交互式即时运行调试，提供AutoML自动建模模式。集成多种主流机器学习和深度学习框架，预置多种算法，支持多机多卡大规模分布式训练。支持Notebook模式、可视化模式、本地代码模式等7种模型开发模式，基于云原生和微服务框架自主研发，使得算法池化、分布式和云原生，实现零代码接入，提高模型训练的效率和应用广度。

如图2所示，在本申请实施例中，模型服务化模块110可以包括：

模型管理单元1101，被配置成提供模型仓库；

模型封装单元1102，与模型管理单元通信，被配置成根据模型仓库对目标模型进行封装；

模型部署单元1103，与模型封装单元通信，被配置成对目标模型进行部署，以得到目标模型服务。

在本申请实施例中，模型服务化模块110分别与模型开发与训练模块108以及能力服务运营模块104通信，可以对目标模型进行封装、部署和监控，以得到目标模型服务，再将目标模型服务发送至能力服务运营模块104，以便能力服务运营模块104对服务化后的模型进行灰度发布。

在本申请实施例中，模型服务化模块110可以包含模型管理单元1101、模型封装单元1102和模型部署单元1103，并具备MLOps能力。

模型管理单元1101可以提供模型仓库，支持模型注册、模型元数据管理，并提供评估、转换工具，提升模型治理能力。模型封装单元1102可以提供模型封装框架、支持基础镜像封装、支持模型镜像封装、具备模型编排能力，加速机器学习生命周期。

在本申请实施例中，目标模型服务可以包括以下中的至少一者：在线服务部署、批量服务部署、模型服务监控和模型服务测试。模型部署单元1103可以支持模型在线服务部署、批量服务部署、模型服务监控、模型服务测试功能，提升模型服务治能力。

本申请实施例中的模型服务化模块110具备持续封装、部署、监控的MLOp。处理器可以通过提供封装流水线模板，支持向导式配置流水线，并根据流水线自动生成构建脚本，自动生成构建镜像的元数据信息，维护模型镜像与模型包、代码仓库、基础镜像的关系进行持续封装，使封装过程规范化、自动化。处理器还可以通过版本化管理部署yaml来进行持续部署，使部署过程可审计，支持基于GitOps的自动部署，简化开发测试环境下的部署过程。GitOps是一套使用Git来管理基础架构和应用配置的时间，而Git指的是一个开源版控制系统。同时，处理器还能对已部署的模型服务进行持续监控，持续请求日志记录。

图4示意性示出了根据本申请实施例的一种用于运营人工智能模型的系统的结构图。如图4所示，本申请实施例提供一种用于运营人工智能模型的系统，可以包括：

大数据平台200；

上述的用于运营人工智能模型的装置100，与大数据平台200通信。

本申请实施例提供了一种用于运营人工智能模型的系统，包括大数据平台和用于运营人工智能模型的装置，即AI平台，AI平台打造工程化人工智能能力，扭转碎片化的竖井式应用建设布局，解决模型资产无法重复利用的问题，提升了研发效率，降低了研发门槛，提供统一流程管理，加速AI场景落地，减少后期维护成本。

目前在需要使用一些业务数据进行模型训练时，获取数据的方式是复杂且漫长的，需要通过版本投产的形式，在投产日当天，将数据接入到AI平台，这大大降低了模型的研发效率。因此，在本申请实施例中，将与大数据平台通信，AI平台具备多源数据接入功能，全面覆盖包括但不限于云化数仓和大数据云等。本申请实施例的数据获取的方式是基于AI平台和大数据平台的协作互通，通过openAPI的方式，实现两个平台的数据同步。用户在任何时候，只需要在AI平台页面上进行一些点击操作，便可以获取到训练需要的数据，真正实现了数据敏捷接入高效互通的目标。

图5示意性示出了根据本申请实施例的一种用于运营人工智能模型的方法的流程图。如图5所示，本申请实施例提供一种用于运营人工智能模型的方法，应用于用于运营人工智能模型的装置，该装置可以包括数据接入模块、能力服务运营模块、数据管理与标注模块、模型开发与训练模块以及模型服务化模块，能力服务运营模块分别与数据接入模块、数据管理与标注模块通信和模型服务化模块通信，数据管理与标注模块与模型开发与训练模块通信，模型开发与训练模块与所述模型服务化模块通信，该方法可以包括以下步骤：

步骤502、通过数据接入模块获取数据接入模块发送的多源数据，多源数据通过大数据平台获取；

步骤504、通过数据管理与标注模块对多源数据进行分类标注与管理；

步骤506、通过模型开发与训练模块根据标注后的多源数据对预设模型进行开发与训练，以得到目标模型；

步骤508、通过模型服务化模块对目标模型进行封装、部署和监控，以得到目标模型服务；

步骤510、通过能力服务运营模块根据多源数据进行能力服务运营闭环。

本申请实施例提供了一种用于运营人工智能模型的装置，即AI平台，该平台打造工程化人工智能能力，扭转碎片化的竖井式应用建设布局，解决模型资产无法重复利用的问题，提升了研发效率，降低了研发门槛，提供统一流程管理，加速AI场景落地，减少后期维护成本。该装置包括数据接入模块、能力服务运营模块、数据管理与标注模块、模型开发与训练模块和数据服务化模块。

在本申请实施例中，将数据接入模块与大数据平台通信，数据接入模块具备多源数据接入功能，全面覆盖包括但不限于云化数仓和大数据云等。本申请实施例的数据获取的方式是基于AI平台和大数据平台的协作互通，通过openAPI的方式，实现两个平台的数据同步。用户在任何时候，只需要在AI平台页面上进行一些点击操作，便可以获取到训练需要的数据，真正实现了数据敏捷接入高效互通的目标。

在本申请实施例中，能力服务运营模块与数据接入模块通信，可以根据多源数据进行能力服务运营闭环，从而对AI应用运维更好地进行监控。能力服务运营即各种AI应用服务能力的效果运营，并提供完备的数据运营视图，包含数据类型、数据大小、数量和数据变化趋势等运营指标，可以让管理者对AI平台上的数据了如指掌。

能力服务运营模块可以包括在线评估、数据回流和服务发布等功能。在线评估是对真实的用户行为数据进行在线评估，在线评估产生的badcase数据可以通过数据回流方式接入到数据加工空间，进行数据的预处理和清洗等工作。数据服务支持全量数据的展示及已反馈数据筛选，包含图片预览等功能，方便快速定位问题，并做出针对性优化和精度提升。数据回流是通过对线上真实场景数据进行数据采集、加工和预处理形成新的数据集，持续扩充训练数据集，方便持续对模型进行迭代优化，同时也支持对回流的数据进行再次加工，重新标注，满足模型再训练等要求。数据进入AI平台后，处理器先通过能力服务运营模块进行在线评估和数据回流，以将数据发送至数据管理与标注模块。

在本申请实施例中，数据管理与标注模块与能力服务运营模块通信。在接收到能力服务运营模块发送的多源数据后，可以对多源数据进行分门别类的处理和管理，告别数据脏乱差。数据管理与标注模块具备标注任务全生命周期管理功能，包括任务创建、标签设置、人员分配、预标注、进度跟踪和生成标注结果等功能。其中，标注工具可以为集图像、视频、文本、语音于一体的数据标注工具，可以实现图像、视频、语音和文本四大类标注，支持了标注中心的标注工作。对数据进行处理和管理后，处理器可以将数据输入模型开发与训练模块，以对模型进行开发和训练。

在本申请实施例中，模型开发与训练模块与数据管理与标注模块通信。在接收到标注好的数据之后，可以对预设模型进行开发与训练，以得到目标模型。本申请实施例的模型开发与训练模块可以为AI开发者提供一站式AI模型开发、训练以及评估环境。通过可视化托拉拽建模，预置AI建模框架、算子和模板，帮助用户实现零代码可视化快速建模。其中AI框架可以包括但不限于Tensorflow、Pytorch、H2O、Spark、Scikit-Learn在内的5种AI建模框架。Tensorflow是一个基于数据流编程的负荷数学系统，被广泛应用于各类机器学习算法的编程实现。Pytorch是一个开源的Python机器学习库，基于Torch，用于自然语言等应用程序。H2O是一个用于分布式、可扩展机器学习的内存平台。Scikit-Learn是一个知名的Python机器学习库，广泛地应用于统计分析和机器学习建模等数据科学领域。通过预置200+个各类可视化建模算子，可覆盖通用AI建模、智能风控、智能推荐等建模场景。预置模板可以包括但不限于机器学习、深度学习、智能风控和推荐等10余个建模模板。模型开发与训练模块支持交互式即时运行调试，提供AutoML自动建模模式。集成多种主流机器学习和深度学习框架，预置多种算法，支持多机多卡大规模分布式训练。支持Notebook模式、可视化模式、本地代码模式等7种模型开发模式，基于云原生和微服务框架自主研发，使得算法池化、分布式和云原生，实现零代码接入，提高模型训练的效率和应用广度。

训练好模型之后可以对模型进行服务化。本申请实施例中，模型服务化模块110分别与模型开发与训练模块以及能力服务运营模块通信，可以对目标模型进行封装、部署和监控，以得到目标模型服务，再将目标模型服务发送至能力服务运营模块，以便能力服务运营模块对服务化后的模型进行灰度发布。模型服务化模块可以包含模型管理、模型封装、模型部署3个单元，并具备MLOps能力。MLOPs是一门工程学科，旨在统一ML系统开发(dev)和ML系统部署(ops)，以标准化过程生产高性能模型的持续交付。模型管理是指提供模型仓库，支持模型注册、模型元数据管理，并提供评估、转换工具，提升模型治理能力。模型封装是指提供模型封装框架、支持基础镜像封装、支持模型镜像封装、具备模型编排能力，加速机器学习生命周期。模型部署是指支持模型在线服务部署、批量服务部署、模型服务监控、模型服务测试功能，提升模型服务治能力。本申请实施例中的模型服务化模块具备持续封装、部署、监控的MLOp。处理器可以通过提供封装流水线模板，支持向导式配置流水线，并根据流水线自动生成构建脚本，自动生成构建镜像的元数据信息，维护模型镜像与模型包、代码仓库、基础镜像的关系进行持续封装，使封装过程规范化、自动化。处理器还可以通过版本化管理部署yaml来进行持续部署，使部署过程可审计，支持基于GitOps的自动部署，简化开发测试环境下的部署过程。GitOps是一套使用Git来管理基础架构和应用配置的时间，而Git指的是一个开源版控制系统。同时，处理器还能对已部署的模型服务进行持续监控，持续请求日志记录。

本申请实施例在对数据进行标注，对模型进行开发、训练、封装和部署之后，能力服务运营模块还可以接收封装和部署后的目标服务模型，再对目标服务模型进行灰度发布。这样，可以通过能力服务运营模块对AI能力服务进行运营闭环，实时采集数据，更新模型，使得用户可以根据需求高效获取需要的运营模型。

在本申请实施例中，步骤510、通过能力服务运营模块根据多源数据进行能力服务运营闭环可以包括：

对多源数据进行在线评估；

接收模型服务化模块发送的所述目标模型服务；

对目标模型服务进行灰度发布。

具体地，能力服务运营模块与数据接入模块通信，可以根据多源数据进行能力服务运营闭环，从而对AI应用运维更好地进行监控。能力服务运营即各种AI应用服务能力的效果运营，并提供完备的数据运营视图，包含数据类型、数据大小、数量和数据变化趋势等运营指标，可以让管理者对AI平台上的数据了如指掌。

在本申请实施例中，能力服务运营模块可以包括在线评估单元、数据回流单元和服务发布单元。在线评估单元是对真实的用户行为数据进行在线评估，在线评估产生的badcase数据可以通过数据回流方式接入到数据加工空间，进行数据的预处理和清洗等工作。数据服务支持全量数据的展示及已反馈数据筛选，包含图片预览等功能，方便快速定位问题，并做出针对性优化和精度提升。数据回流单元是通过对线上真实场景数据进行数据采集、加工和预处理形成新的数据集，持续扩充训练数据集，方便持续对模型进行迭代优化，同时也支持对回流的数据进行再次加工，重新标注，满足模型再训练等要求。数据进入AI平台后，处理器先通过能力服务运营模块进行在线评估和数据回流，以将数据发送至数据管理与标注模块。

本申请实施例在对数据进行标注、对模型进行开发、训练、封装和部署之后，能力服务运营模块还可以接收封装和部署后的目标服务模型，再对目标服务模型进行灰度发布。这样，可以通过能力服务运营模块对AI能力服务进行运营闭环，实时采集数据，更新模型，使得用户可以根据需求高效获取需要的运营模型。

图6示意性示出了根据本申请一具体实施例的一种用于运营人工智能模型的方法的流程图。如图6所示，以应用场景为对公外汇审单业务为例，用于运营人工智能模型的方法可以包括以下步骤：

步骤S1、在对公外汇审单业务系统中，外汇识别功能调用外汇审单识别能力；

步骤S2、外汇审单应用服务请求流量通过KAFKA采集在线评估；

步骤S3、业务员在外汇审单业务系统中发现识别效果有偏差时可以在线进行用户反馈；将有利于提升模型迭代的数据反馈到在线评估；

步骤S4、在线评估产生的能力badcase数据，通过数据回流方式接入到数据加工空间，进行数据预处理、清洗等工作；

步骤S5、数据标注；

步骤S6、模型训练；

步骤S7、将迭代后的模型注册到模型仓库，用于模型封装和部署测试；

步骤S8、更新迭代后的模型镜像到镜像仓库；

步骤S9、迭代后到模型服务进行灰度发布，从而更新AI能力。

上述整个流程是基于模型开发和训练的数字化运营，实时采集数据，工程化研发流程，建立数字化运营体系。

图7示意性示出了根据本申请实施例的模型开发与训练的数字化运营体系的示意图。如图7所示，第一模块为业务需求模块：业务部门提出业务需求，应用项目组明确AI技术指标，提供训练所需的数据，算法pm和算法工程师公共同协商确定AI解决方案并输出。第二模块为数据处理模块：数据运营根据数据回流和业务系统，准备算法数据，数据运营和算法工程师形成标注需求，提出标注后的格式，然后试标数据，标注竞标(如果是众包)，标注数据，算法工程师做标注质检工作(按照训练数据集和测试数据集分开)，然后数据运营分拆数据。第三模块为模型研发模块：算法工程师针对训练数据集研发模型训练，针对测试数据集做算法测试、再算法工程化。第四模块为工程研发模块领域pm设计业务场景解决方案，再通过api接口、sdk、H5等进行模块封装，再通过连通性测试、压力测试、鲁棒性测试等模块测试，然后在领域pm验收工作。第五模块为运营监控模块：AI应用运维做好模型灰度发布，模型评估与验证(业务指标和技术指标)，然后业务部门同意模型全流量发布。

基于模型开发与训练的数字化运营建设具有以下成效：

1、GPU支持数据标注训练算力、推理算力；

2、实现了可视化、Notebook、镜像、IDE和终端模式等建模交互模式；

3、实现了图像、视频、语音、文本四大类标注能力，支持了标注中心标注工作；

4、算力池化、分布式和云原生；

5、通过OpenAPI实现与大数据平台的对接；

6、成功打造了统一的AI人工智能基于模型开发和训练的数字化运营支持，包括了客户自助接入、AI能力运维、AI产品能力运维、系统管理等多个不同角色的完整功能，实现0代码接入；

7、有效支撑人工智能研发，拉新促活平台用户，支持数据集建设、模型建设，支撑各个业务场景的服务化建设。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于运营人工智能模型的装置，其特征在于，所述装置与大数据平台通信，所述装置包括：

数据接入模块，与所述大数据平台通信，被配置成接收所述大数据平台发送的多源数据；

能力服务运营模块，与所述数据接入模块通信，被配置成根据所述多源数据进行能力服务运营闭环；

数据管理与标注模块，与所述能力服务运营模块通信，被配置成对所述多源数据进行分类标注与管理；

模型开发与训练模块，与所述数据管理与标注模块通信，被配置成根据标注后的多源数据对预设模型进行开发与训练，以得到目标模型；

模型服务化模块，分别与所述模型开发与训练模块以及所述能力服务运营模块通信，被配置成对所述目标模型进行封装、部署和监控，以得到目标模型服务。

2.根据权利要求1所述的装置，其特征在于，所述能力服务运营模块包括：

在线评估单元，与所述数据接入模块通信，被配置成对所述多源数据进行在线评估；

数据回流单元，分别与所述在线评估单元和所述数据管理与标注模块通信，被配置成通过数据回流的方式将在线评估后的多源数据发送至数据管理与标注模块；

服务发布单元，与所述模型服务化模块通信，被配置成接收所述模型服务化模块发送的目标模型服务，并对所述目标模型服务进行灰度发布。

3.根据权利要求1所述的装置，其特征在于，所述数据管理与标注模块包括：

数据加工单元，被配置成对所述多源数据进行降维，以得到特征变量；

数据标注单元，被配置成对所述多源数据进行标注；

数据订阅单元，被配置成对所述多源数据进行订阅。

4.根据权利要求3所述的装置，其特征在于，所述数据标注单元包括图像标注单元、语音标注单元、文本标注单元和视频标注单元。

5.根据权利要求1所述的装置，其特征在于，所述模型开发与训练模块包括：

模型训练单元，与所述模型开发单元通信，被配置成根据标注后的多源数据对所述初始模型进行训练，以得到所述目标模型。

6.根据权利要求5所述的装置，其特征在于，所述预设模型包括预设建模框架、预设算子和预设模板。

7.根据权利要求1所述的装置，其特征在于，所述模型服务化模块包括：

模型管理单元，被配置成提供模型仓库；

模型封装单元，与所述模型管理单元通信，被配置成根据所述模型仓库对所述目标模型进行封装；

模型部署单元，与所述模型封装单元通信，被配置成对所述目标模型进行部署，以得到目标模型服务。

8.根据权利要求7所述的装置，其特征在于，所述目标模型服务包括以下中的至少一者：

9.一种用于运营人工智能模型的系统，其特征在于，包括：

大数据平台；

根据权利要求1至8中任一项所述的用于运营人工智能模型的装置，与所述大数据平台通信。

10.一种用于运营人工智能模型的方法，其特征在于，应用于用于运营人工智能模型的装置，所述装置包括数据接入模块、能力服务运营模块、数据管理与标注模块、模型开发与训练模块以及模型服务化模块，所述能力服务运营模块分别与所述数据接入模块、所述数据管理与标注模块通信和所述模型服务化模块通信，所述数据管理与标注模块与所述模型开发与训练模块通信，所述模型开发与训练模块与所述模型服务化模块通信，所述方法包括：

通过所述数据接入模块获取所述数据接入模块发送的多源数据，所述多源数据通过大数据平台获取；

通过所述数据管理与标注模块对所述多源数据进行分类标注与管理；

通过所述模型开发与训练模块根据标注后的多源数据对预设模型进行开发与训练，以得到目标模型；

通过模型服务化模块对所述目标模型进行封装、部署和监控，以得到目标模型服务；

通过能力服务运营模块根据所述多源数据进行能力服务运营闭环。

11.根据权利要求10所述的方法，其特征在于，所述通过能力服务运营模块根据所述多源数据进行能力服务运营闭环包括：

对所述多源数据进行在线评估；

通过数据回流的方式将在线评估后的多源数据发送至所述数据管理与标注模块；

接收所述模型服务化模块发送的所述目标模型服务；

对所述目标模型服务进行灰度发布。