CN113191502A

CN113191502A - 一种人工智能模型在线训练方法及系统

Info

Publication number: CN113191502A
Application number: CN202110428701.5A
Authority: CN
Inventors: 周浩
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-30
Also published as: WO2022222558A1

Abstract

本发明公开了一种人工智能模型在线训练系统，包括：推理系统，属于AI模型应用的业务系统，负责模型的编排及推理运行，包括AI编排器、服务级AI引擎及服务级AI数据池；终端，属于推理系统管理以及协同的对象，同时与网管协同进行智能化的网络运维，包括终端级AI引擎及终端级AI数据池；训练预发系统，负责模型的开发、训练以及模型验证预发，包括预发环境、AI模型开发及平台级AI数据池。本发明通过构建一种人工智能模型在线训练方法及系统，使得人工智能模型在训练时可以准确的度量真实的准确率和安全性，同时在推理时通过在线训练机制持续保持模型的准确率降低升级模型成本。本发明还提供了相应的人工智能模型在线训练方法。

Description

一种人工智能模型在线训练方法及系统

技术领域

本发明属于人工智能技术领域，更具体地，涉及一种人工智能模型在线训练方法及系统。

背景技术

人工智能模型从应用上看，主要分为训练和推理两大阶段。在训练阶段使用特定场景下大量已发生的历史数据对模型进行调优、训练得到符合预期的预训练模型。在生产环境中推理阶段向预训练模型输入实时发生的数据得到模型的推理结果。但从实际应用来看，特定场景下的情景、数据也是时刻变化的，基于历史结构和数据的预训练模型也存在“保鲜期”的问题，如果模型长久不更新推理准确率势必越来越差。例如人脸识别模型，随着人年龄的增长，脸型特征也会逐渐发生变化，如果模型长久不更新则准确率会越来越低，最终可能达不到使用要求。同时，对于电信、金融等领域更会带来未验证的安全性等问题。

数字孪生技术的出现，为AI(Artificial Intelligence，人工智能)模型真实准确率和安全性等问题的度量提供了一种良好的解决手段。数字孪生是充分利用物理模型、传感器更新、运行历史等数据，集成多学科、多物理量、多尺度、多概率的仿真过程，在虚拟空间中完成映射，从而反映相对应的实体装备的全生命周期过程。数字孪生环境下可以产生现实由于伦理、成本、安全等因素限制难以观测到的数据。因此，在数字孪生环境中对AI预训练模型进行推理验证，就可以得到与真实场景下完全一致，甚至更加优异的模型。

保持模型持续准确率，有效提升模型真实准确率及安全性是本领域人员亟需解决的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种人工智能模型在线训练方法及系统，解决人工智能领域模型在训练、推理过程中的推理持续准确率，训练真实准确率和安全性等问题。

为实现上述目的，按照本发明的一个方面，提供了一种人工智能模型在线训练系统，包括推理系统、终端及训练预发系统，其中：

所述推理系统，属于AI模型应用的业务系统，负责模型的编排及推理运行，包括AI编排器、服务级AI引擎及服务级AI数据池；

所述终端，属于推理系统管理以及协同的对象，同时与网管协同进行智能化的网络运维，包括终端级AI引擎及终端级AI数据池；

所述训练预发系统，负责模型的开发、训练以及模型验证预发，包括预发环境、AI模型开发及平台级AI数据池。

本发明的一个实施例中，所述AI编排器，用于管理AI模型的采集策略和应用策略，并且编排AI应用实例的处理流程，每类AI应用有专门的策略来定义其应该收集的数据、所选择的模型以及AI引擎推理结果的应用策略。

本发明的一个实施例中，所述服务级AI引擎和终端级AI引擎，用于进行AI模型管理，提供AI应用的推理服务，针对特定的AI应用完成数据处理、推理、在线训练、模型评估以及模型发布的过程；服务级AI引擎在推理系统层面部署，终端级AI引擎在终端层面部署，推理系统中的服务级AI引擎从终端以及推理系统中进行AI应用所需数据的处理，终端上的终端级AI引擎基于终端上的管理信息库处理数据。

本发明的一个实施例中，所述服务级AI数据池、终端级AI数据池和平台级AI数据池，用于进行AI数据采集和数据处理；其中数据采集负责从推理系统、终端或者其它的数据系统采集所需训练数据，形成基础的数据集；数据处理包括数据清洗和聚合，用于将数据处理成所选定的AI算法能够直接使用的训练或推理数据。

本发明的一个实施例中，所述预发环境，用于对模型和训练结果进行验证、预演和更新，在评估模型在预发环境下的效果后，将验证后的模型发布到推理系统，并接收来自推理系统的反馈。

本发明的一个实施例中，所述AI模型开发，用于负责AI模型全生命周期的开发管理，基于AI数据池的能力完成数据处理生成训练集和验证集，然后调度硬件资源进行模型的单机或并行分布式训练，对训练的模型完成评估后存放在知识库汇中，并且择优与预发环境进行交互，完成模型的评估与验证，验证通过的模型发布到推理系统中。。

按照本发明的另一方面，还提供了一种人工智能模型在线训练方法，包括：

S1：从AI数据池中获取AI模型对应的全量历史数据，使用全量历史数据进行模型开发和训练；开发和训练过程包括数据预处理、模型代码编辑、模型调试、模型单机训练和模型分布式并行训练；所述AI数据池包括服务级AI数据池、终端级AI数据池和平台级AI数据池；

S2：在孪生网络中对预训练模型进行验证预发，符合要求后发布到推理系统；使用孪生模型模拟各种场景数据，对开发、训练得到的模型进行应用验证，评估各种场景下模型的准确性和安全性；达到预期目标的模型存储到AI模型开发系统的知识库当中，并发布到推理系统中的知识库中；

S3：使用实时数据进行模型推理及评估；在推理系统中，根据AI编排器的采集和应用策略从AI数据池中获得推理数据，使用预训练模型得到推理结果，并且根据在线训练策略对模型进行评估；

S4：使用实时增量数据进行模型在线训练及评估发布；根据AI编排器的采集和应用策略从AI数据池中获得实时的增量训练数据，根据在线训练策略对模型进行增量在线训练及评估，对满足预定目标的模型自动发布到AI引擎中的知识库中，所述AI引擎包括服务级AI引擎和终端级AI引擎。

本发明的一个实施例中，所述步骤S1中包含以下步骤：

S11：从AI数据池中获取历史的全量原始数据；全量的原始数据规模取决于模型开发的需求；

S12：在AI数据池中对原始数据进行处理，生成训练集和验证集；AI数据池具备大数据处理能力，支持对原始数据进行数据清洗、补全和归一化处理，根据模型需求生成、存储训练集和验证集；

S13：基于训练集进行AI模型开发；在训练集的基础上，根据具体的应用场景，使用合适的开发语言进行AI模型代码的开发、调试，得到合适的模型代码；

S14：基于训练集进行AI模型训练；使用合适的计算框架，向模型输入训练集，对模型进行训练；

S15：基于验证集对AI模型进行评估，得到预训练模型；模型训练完成后，使用验证集对AI模型进行准确率的评估；符合预期目标的模型存储到知识库中供后续使用，否则继续进行参数调整和再次训练。

本发明的一个实施例中，所述步骤S2中包含以下步骤：

S21：将预训练模型发布到预发环境；在验证集上进行评估，将评估结果符合预期的预训练模型发布到预发环境中；

S22：使用孪生网络生成目标网络实时数据；使用孪生网络中的孪生体生成目标网络的实时运行数据；

S23：使用孪生网络实时数据进行预发环境中的预训练模型推理；将孪生体生成的目标网络实时运行数据输入到所述预训练模型中，得到AI模型推理结果；

S24：评估模型在孪生网络中的准确率及安全性；将各种场景下的推理数据汇总，得到最终的准确率，并且记录推理结果对孪生体的影响；对满足预定准确率和孪生体影响结果的模型做通过处理，否则做不通过处理；

S25：得到孪生网络验证后的安全训练模型；将通过验证的模型存储到知识库中并发布到推理系统中，不通过的模型将结果反馈到AI模型开发系统中，进行参数调整及重新训练。

本发明的一个实施例中，所述步骤S3中包含以下步骤：

S31：AI数据池根据采集策略，获取终端实时运行数据；在推理系统中，AI数据池根据AI编排器的采集策略，从终端或者其它的数据系统采集训练所需的实时运行数据并进行安全的存储；

S32：对实时运行数据清洗处理后存储为实时原始数据；采集到的实时运行数据一般存在脏数据、缺失数据等问题；需要根据AI编排器的采集策略对数据进行清洗处理并存储为实时的原始数据；

S33：根据应用策略，对实时原始数据进行处理，生成推理数据；根据AI编排器的应用策略，AI引擎使用AI数据池的大数据处理能力，对已存储或实时发生的原始数据进行处理，得到符合AI模型要求的推理数据；

S34：使用推理数据应用适用的模型进行推理；AI引擎将符合模型要求的推理数据输入到模型中，得到所需的推理结果；

S35：根据应用策略，定时或实时对所述模型进行精度评估；

S36：得到所述模型是否需要进行再次训练的判断；对不符合预定目标的模型做需要增量训练状态记录，否则不进行增量训练状态记录。

本发明的一个实施例中，所述步骤S4中包含以下步骤：

S41：从服务级AI数据池中获取实时增量数据；对需要做增量训练的模型，根据AI编排器的采集策略获取已存储或实时的增量运行数据；

S42：根据应用策略，对实时增量数据进行处理，生成实时增量训练数据集及验证集；基于服务级AI数据池的大数据处理能力，服务级AI引擎根据AI编排器的应用策略对增量数据进行处理，生成实时的增量训练数据集及验证集；

S43：使用实时增量训练数据集对模型进行在线增量训练；服务级AI引擎运行模型增量训练代码，使用增量训练数据集对模型进行在线训练；

S44：使用实时增量验证数据集对模型进行在线评估，得到重训练模型；训练完成后，使用增量验证数据集对重训练模型进行评估；符合预定目标的重训练模型标记为可用，否则标记为不可用；

S45：将重训练模型发布到知识库，供推理使用；将标记为可用的模型存储到知识库中，并更新当前的推理模型。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

本发明通过构建一种人工智能模型在线训练方法及系统，使得人工智能模型在训练时可以准确的度量真实的准确率和安全性，同时在推理时通过在线训练机制持续保持模型的准确率降低升级模型成本。

附图说明

图1为本发明实施例中一种人工智能模型在线训练系统的结构框图；

图2为本发明实施例中一种人工智能模型在线训练方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例提供一种人工智能模型在线训练系统，包括：推理系统、终端及训练预发系统。

所述推理系统，属于AI模型应用的业务系统，在电信领域可以表现为网管系统，负责模型的编排及推理运行，包括AI编排器、服务级AI引擎及服务级AI数据池；

所述终端，属于推理系统管理以及协同的对象，在电信领域可以表现为网元，负责业务转发等功能，同时与网管协同进行智能化的网络运维，包括终端级AI引擎及终端级AI数据池；

其中，所述AI编排器，用于管理AI模型的采集策略和应用策略，并且编排AI应用实例的处理流程，其中每类AI应用有专门的策略来定义其应该收集的数据、所选择的模型以及AI引擎推理结果的应用策略等。

所述服务级AI引擎和终端级AI引擎，用于进行AI模型管理，提供AI应用的推理服务，针对特定的AI应用完成数据处理、推理、在线训练、模型评估以及模型发布的过程；服务级AI引擎在推理系统层面部署，终端级AI引擎在终端层面部署，推理系统中的服务级AI引擎从终端以及推理系统中进行AI应用所需数据的处理，终端上的终端级AI引擎基于终端上的管理信息库处理数据。特别的，在推理系统中，AI引擎可以根据重训练策略对AI模型进行监控并启动再训练。

所述服务级AI数据池、终端级AI数据池和平台级AI数据池，用于进行AI数据采集和数据处理。其中数据采集负责从推理系统、终端或者其它的数据系统采集所需训练数据，形成基础的数据集；数据处理包括数据清洗、聚合等数据处理，目的是将数据处理成所选定的AI算法能够直接使用的训练和推理数据。

所述预发环境，用于对模型和训练结果进行验证、预演和更新。在评估模型在预发环境下的效果后，将验证后的模型发布到推理系统，并接收来自推理系统的反馈。为了保证推理系统的稳健运行，在将算法(模型)训练结果正式部署到推理系统上之前，需要对模型进行不同等级的评估与验证，例如模型本身的验证，以及与不同等级的生产环境仿真相结合，需要在预发系统对模型和训练结果进行验证、预演和更新。

所述AI模型开发，用于负责AI模型全生命周期的开发管理。基于AI数据池的能力完成数据处理生成训练集和验证集，然后调度硬件资源进行模型的单机或并行分布式训练。对训练的模型完成评估后存放在知识库汇中，并且择优与预发环境进行交互，完成模型的评估与验证，验证通过的模型发布到推理系统中(可提供在线的IDE(IntegratedDevelopment Environment，集成开发环境)进行模型代码的编辑和调试等工作)。

参见图2所示，本发明的实施例还提供了一种人工智能模型在线训练方法，该方法包括以下步骤：

S1：从AI数据池中获取AI模型对应的全量历史数据，使用全量历史数据进行模型开发和训练。开发和训练过程包括但不限于：数据预处理、模型代码编辑、模型调试、模型单机训练和模型分布式并行训练。

S2：在孪生网络中对预训练模型进行验证预发，符合要求后发布到推理系统。使用孪生模型模拟各种场景数据，对开发、训练得到的模型进行应用验证，评估各种场景下模型的准确性和安全性。达到预期目标的模型存储到AI模型开发系统的知识库当中，并发布到推理系统中的知识库中。

S3：使用实时数据进行模型推理及评估。在推理系统中，根据AI编排器的采集和应用策略从AI数据池中获得推理数据，使用预训练模型得到推理结果，并且根据在线训练策略对模型进行评估。

S4：使用实时增量数据进行模型在线训练及评估发布。根据AI编排器的采集和应用策略从AI数据池中获得实时的增量训练数据，根据在线训练策略对模型进行增量在线训练及评估，对满足预定目标的模型自动发布到AI引擎中的知识库中。

在上述方案的基础上，所述步骤S1中，具体包含以下步骤：

S11：从AI数据池中获取全量历史数据。全量历史数据规模取决于模型开发的需求。

其中，AI数据池可基于大数据产品进行构建，例如，非结构化的处理可以基于Hadoop构建，面向OLAP(On-Line Analytical Processing，联机分析处理)类型的数据可以基于GreenPlum构建。

S12：在AI数据池中对全量历史数据进行处理，生成训练集和验证集。AI数据池具备大数据处理能力，支持对全量历史数据进行数据清洗、补全和归一化等处理，根据模型需求生成、存储训练集和验证集。

其中，数据预处理一般步骤包括：缺失值处理、特征规范化、离散与连续化及去噪。不同的大数据产品或多或少支持数据预处理方法，不支持的处理可以通过插件化或模型内部编程处理。训练集和验证集一般按8:2的比例进行分配，该分配比例可配置。

S13：基于训练集进行AI模型开发。在训练集的基础上，根据具体的应用场景，使用合适的开发语言进行AI模型代码的开发与调试，得到合适的模型代码。常用的AI模型开发语言为python，使用python可以方便、快捷的构建AI模型。

S14：基于训练集进行AI模型训练。使用合适的计算框架，向模型输入训练集，对模型进行训练。

AI数据池可以提供HTTP、RPC或本地读取等方式的服务接口，供AI模型读取训练集。对于深度学习模型，可以使用TensorFlow、pytorch等计算框架，机器学习模型可以使用scikit-learn等计算框架。

S15：基于验证集对AI模型进行评估，得到预训练模型。模型训练完成后，使用验证集对AI模型进行准确率的评估。符合预期目标的模型存储到知识库中供后续使用，否则继续进行参数调整和再次训练。

模型的准确率可以包括：平均数、召回率、精确率及准确率。具体含义如下，

基于tensorflow框架的深度学习AI模型可以在知识库中存储为pb格式的模型文件。

在上述方案的基础上，所述步骤S2中，具体包含以下步骤：

S21：将预训练模型发布到预发环境。在验证集上进行评估，将评估结果符合预期的预训练模型发布到预发环境中。

对符合预期(如满足模型的准确率要求)的预训练模型，如果基于tensorflow计算框架，则将pb格式的模型文件在预发环境中重新载入。

S22：使用孪生网络生成目标网络实时数据。使用孪生网络中的孪生体生成目标网络的实时运行数据。

S23：使用孪生网络实时数据进行预发环境中的预训练模型推理。将孪生体生成的目标网络实时运行数据输入到所述预训练模型中，得到模型推理结果。

在使用tensorflow计算框架的情况下，将孪生体生成的目标网络实时运行数据可以通过如下3中方式加载数据：Preloaded data(预加载数据)、Feeding:(Python产生数据，再把数据喂给后端)、Reading from file(从文件中直接读取)；

S24：评估模型在孪生网络中的准确率及安全性。将各种场景下的推理数据汇总，得到最终的准确率，并且记录推理结果对孪生体的影响。对满足预定准确率和孪生体影响结果的模型做通过处理，否则做不通过处理。

模型的安全性主要通过孪生体的影响结果来判断。例如：对于电信网络业务孪生体，业务中断的结果则表示为不安全，业务流量大于端口速率的情况也视为不安全。

S25：得到孪生网络验证后的安全训练模型。将通过验证的模型存储到知识库中并发布到推理系统中，不通过的模型将结果反馈到AI模型开发系统中，进行参数调整及重新训练。

推理系统提供RPC或FTP等形式的服务接口，允许其他系统在授权的情况下向知识库中写入AI模型文件。训练预发系统通过推理系统提供的RPC或FTP等形式的接口，将AI模型写入推理系统知识库中。

在上述方案的基础上，所述步骤S3中，具体包含以下步骤：

S31：AI数据池根据采集策略，获取终端实时运行数据。在推理系统中，AI数据池根据AI编排器的采集策略，从终端或者其它的数据系统采集训练所需的实时运行数据并进行安全的存储。

其中，采集策略可表示如下，应符合json schema：

S32：对实时运行数据清洗处理后存储为实时原始数据。采集到的实时运行数据一般存在脏数据、缺失数据等问题。需要根据AI编排器的采集策略对数据进行清洗处理并存储为实时的原始数据。

S33：根据应用策略，对实时原始数据进行处理，生成推理数据。根据AI编排器的应用策略，AI引擎使用AI数据池的大数据处理能力，对已存储或实时发生的原始数据进行处理，得到符合AI模型要求的推理数据。

其中，应用策略可表示如下，应符合json schema：

S34：使用推理数据应用适用的模型进行推理。AI引擎将符合模型要求的推理数据输入到模型中，得到所需的推理结果。

S35：根据应用策略，定时或实时对所述模型进行精度评估。

其中，应用策略的定时或实时训练可表示如下，应符合json schema：

S36：得到所述模型是否需要进行再次训练的判断。对不符合预定目标的模型做需要增量训练状态记录，否则不进行增量训练状态记录。

在上述方案的基础上，所述步骤S4中，具体包含以下步骤：

S41：从服务级AI数据池中获取实时增量数据，对需要做增量训练的模型，根据AI编排器的采集策略获取已存储或实时的增量运行数据；

S42：根据应用策略，对实时增量数据进行处理，生成实时增量训练数据集及验证集，基于服务级AI数据池的大数据处理能力，服务级AI引擎根据AI编排器的应用策略对增量数据进行处理，生成实时的增量训练数据集及验证集；

S43：使用实时增量训练数据集对模型进行在线增量训练，服务级AI引擎运行模型增量训练代码，使用增量训练数据集对模型进行在线训练；

S44：使用实时增量验证数据集对模型进行在线评估，得到重训练模型，训练完成后，使用增量验证数据集对重训练模型进行评估，符合预定目标的重训练模型标记为可用，否则标记为不可用；

S45：将重训练模型发布到知识库，供推理使用，将标记为可用的AI模型存储到知识库中，并更新当前的推理模型。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人工智能模型在线训练系统，其特征在于，包括推理系统、终端及训练预发系统，其中：

2.如权利要求1所述的人工智能模型在线训练系统，其特征在于，所述AI编排器，用于管理AI模型的采集策略和应用策略，并且编排AI应用实例的处理流程，每类AI应用有专门的策略来定义其应该收集的数据、所选择的模型以及AI引擎推理结果的应用策略。

3.如权利要求1或2所述的人工智能模型在线训练系统，其特征在于，所述服务级AI引擎和终端级AI引擎，用于进行AI模型管理，提供AI应用的推理服务，针对特定的AI应用完成数据处理、推理、在线训练、模型评估以及模型发布的过程；服务级AI引擎在推理系统层面部署，终端级AI引擎在终端层面部署，推理系统中的服务级AI引擎从终端以及推理系统中进行AI应用所需数据的处理，终端上的终端级AI引擎基于终端上的管理信息库处理数据。

4.如权利要求1或2所述的人工智能模型在线训练系统，其特征在于，所述服务级AI数据池、终端级AI数据池和平台级AI数据池，用于进行AI数据采集和数据处理；其中数据采集负责从推理系统、终端或者其它的数据系统采集所需训练数据，形成基础的数据集；数据处理包括数据清洗和聚合，用于将数据处理成所选定的AI算法能够直接使用的训练或推理数据。

5.如权利要求1或2所述的人工智能模型在线训练系统，其特征在于，所述预发环境，用于对模型和训练结果进行验证、预演和更新，在评估模型在预发环境下的效果后，将验证后的模型发布到推理系统，并接收来自推理系统的反馈。

6.如权利要求1或2所述的人工智能模型在线训练系统，其特征在于，所述AI模型开发，用于负责AI模型全生命周期的开发管理，基于AI数据池的能力完成数据处理生成训练集和验证集，然后调度硬件资源进行模型的单机或并行分布式训练，对训练的模型完成评估后存放在知识库汇中，并且择优与预发环境进行交互，完成模型的评估与验证，验证通过的模型发布到推理系统中。

7.一种人工智能模型在线训练方法，其特征在于，包括：

8.如权利要求7所述的人工智能模型在线训练方法，其特征在于，所述步骤S1中包含以下步骤：

9.如权利要求7或8所述的人工智能模型在线训练方法，其特征在于，所述步骤S2中包含以下步骤：

10.如权利要求7或8所述的人工智能模型在线训练方法，其特征在于，所述步骤S3中包含以下步骤：

S35：根据应用策略，定时或实时对所述模型进行精度评估；

11.如权利要求7或8所述的人工智能模型在线训练方法，其特征在于，所述步骤S4中包含以下步骤：