CN117371943A - 一种基于数据驱动的ai中台模型管理方法及ai中台系统 - Google Patents
一种基于数据驱动的ai中台模型管理方法及ai中台系统 Download PDFInfo
- Publication number
- CN117371943A CN117371943A CN202311347178.9A CN202311347178A CN117371943A CN 117371943 A CN117371943 A CN 117371943A CN 202311347178 A CN202311347178 A CN 202311347178A CN 117371943 A CN117371943 A CN 117371943A
- Authority
- CN
- China
- Prior art keywords
- model
- specific service
- data
- simulation
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 22
- 238000004088 simulation Methods 0.000 claims abstract description 142
- 238000011156 evaluation Methods 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000005457 optimization Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000012544 monitoring process Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 9
- 230000018109 developmental process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013070 change management Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于数据驱动的AI中台模型管理方法及AI中台系统;所述方法包括:采集各种业务的实时数据,生成数据流;针对数据流进行特征提取、数据标注获取多种业务数据集;构建特定业务对应AI模型并进行完成模型训练;基于特定业务创建多种仿真场景与仿真数据对特定业务对应AI模型进行仿真测试与评估,获得仿真性能评估结果;判断仿真性能评估结果是否达到预期值,若达到,按照预设部署方式完成特定业务对应AI模型的部署;若未达到,则对特定业务对应AI模型进行模型优化,直至达到预期值时停止模型优化,按照预设部署方式完成优化后的特定业务对应AI模型的部署。本申请能够实现灵活的AI模型开发、训练与监控,部署适应性强的AI模型。
Description
技术领域
本申请涉及信息技术领域,具体是涉及一种基于数据驱动的AI中台模型管理方法及AI中台系统。
背景技术
AI中台是一个综合性的平台,旨在支持企业在人工智能领域的各种需求。它通常由多个组成部分组成,主要包括AI技术服务、AI研发平台、智能计算支持等。其中,AI技术服务中包括一些通用的AI技术,如:计算机视觉、智能语音、知识图谱;AI研发平台包括数据服务、模型开发,如:数据管理(数据采集、数据清洗、数据存储)、数据标注、特征工程、AI模型管理(模型开发和训练、模型部署、模型监控等)。
AI中台有潜力提高业务流程的效率和自动化,但也面临着复杂性、数据质量、技能要求、成本、变更管理等一系列挑战。主要存在以下缺点:
1、灵活性差:现有的AI中台是基于流程的AI中台,在进行AI模型开发与发布通常需要定义明确的工作流程,这种刚性的流程不够灵活,难以应对快速变化的需求;当业务需求发生变化时,需要重新定义和修改流程,造成时间和资源浪费。
2、复杂程度高:由于业务本身存在复杂性、合规性要求、审批流程等原因,为了满足这些需求,流程可能需要许多分支和条件,基于流程的AI中台的工作流程变得非常复杂,特别是在处理复杂业务逻辑或多层嵌套的工作流程时。
3、实时性差:这是由于流程的本质,它们通常需要等待步骤的完成才能继续下一步,这会导致延迟;基于流程的AI中台通常适合批处理和离线任务,不太适合需要实时决策和响应的应用。
4、适应性差:不能适应快速变化的市场和技术环境,因为它们需要在系统中进行大规模的修改。
5、维护成本高:流程需要不断调整、优化和扩展,维护复杂的基于流程的中台系统会变得非常昂贵和耗时。
综上,基于流程的AI中台面对快速变化、实时性的场景或复杂业务逻辑时会面临出现问题。如何设计AI中台架构,实现灵活的AI模型开发与发布,并且发布的AI模型具有良好的适应性。
发明内容
为了实现灵活的AI模型开发、训练与监控,部署适应性强的AI模型,本申请提供一种基于数据驱动的AI中台模型管理方法及AI中台系统。
第一方面,一种基于数据驱动的AI中台模型管理方法,具体包括:
采集各种业务的实时数据,生成数据流;
针对数据流进行特征提取、数据标注,获取多种业务数据集;
基于业务数据集中的特定业务类型构建对应AI模型,利用特定业务数据集对对应的AI模型进行模型训练,训练完成生成特定业务对应AI模型;
基于特定业务创建多种仿真场景,获取特定业务应用的各场景下的历史业务数据作为仿真数据;应用创建的多种仿真场景和仿真数据对特定业务对应AI模型进行仿真测试,获取仿真结果;根据仿真结果进行模型性能评估,获得仿真性能评估结果;
判断仿真性能评估结果是否达到预期值,若达到预期值,则按照预设部署方式完成特定业务对应AI模型的部署;若未达到预期值,则对特定业务对应AI模型进行模型优化,对优化后的特定业务对应AI模型重新进行仿真测试与模型性能评估,直至仿真性能评估结果达到预期值时停止模型优化,输出优化后的特定业务对应AI模型;按照预设部署方式完成优化后的特定业务对应AI模型的部。
通过采用上述方案,采集各种业务的实时数据,生成连续的数据流,数据流中的数据被持续性处理,无需等待批处理的作用完成,为灵活性的生成AI模型提供基础。根据获取的业务数据集实现特定业务的AI模型构建与训练,采用仿真技术验证生成的AI模型在不同场景和条件下的性能,根据仿真性能评估不断的优化AI模型以适应多种场景与复杂业务,提高模型的适应性、可靠性,降低成本。
优选的,所述方法还包括:
监测特定业务对应AI模型进行的n次优化操作;
每监测到一次对特定业务对应AI模型进行优化操作,获取本次优化过程中用于模型训练的业务数据集以及本次优化后生成的特定业务对应AI模型,对应创建Git版本标签;
基于Git版本标签查询第m次优化操作对应的业务数据集与生成的特定业务对应AI模型;所述n、m取0或正常数。
通过采用上述方案,针对特定业务对应AI模型优化操作进行实时监控,获取多个版本的AI模型以及每个版本对应的训练数据并对应创建Git版本标签,通过创建Git版本标签查询能够查询到特定版本的AI模型、算法及对应的数据集,有助于了解AI模型和训练数据的演化,为下一次优化提供基础信息。
优选的,还包括:
监控应用于实际特定业务场景中特定业务对应AI模型的运行情况,获取运行数据并进行实际性能评估;判断实际性能评估结果是否达到预期值,若达到预期值,则保留当前部署的特定业务对应AI模型;
若未达到预期值,则根据Git版本标签查询当前部署的特定业务对应AI模型对应的用于训练的业务数据集,调整业务数据集对当前部署的特定业务对应AI模型进行模型优化,直至优化后的特定业务对应AI模型对应的仿真性能评估结果与实际性能评估结果均达到预期值。
通过采用上述方案,监控在实际业务场景中AI模型运行的情况,能够发现运行的潜在问题以保证业务的顺利运行;对获取AI模型运行数据进行实际性能评估,利用标签查询并调整训练业务数据集对未达到实际性能的要求的AI模型进行优化,保证部署的AI模型性能优良。
优选的,所述基于业务数据集中的特定业务类型构建对应AI模型,利用特定业务数据集对对应的AI模型进行模型训练,训练完成生成特定业务对应AI模型具体包括:
基于业务数据集中的特定业务类型设计多种类型的AI模型;
将特定业务数据集划分为训练集与验证集;
分别采用训练集中的特定业务数据对每种类型的AI模型进行模型训练,获得每种类型对应的训练好的初始特定业务对应AI模型;
将验证集的数据分别输入多个初始特定业务对应AI模型,对每个初始特定业务对应AI模型的输出结果进行评估测试,获取评估结果最优的初始特定业务对应AI模型作为生成的特定业务对应AI模型。
通过采用上述方案,每种特定业务可以设计多种AI模型,通过比较生成的AI模型的结果,选择最优类型的AI模型更好的满足业务需求。
优选的,所述根据仿真结果进行模型性能评估达到预期值包括:超过75%的仿真场景下仿真测试对应仿真结果达到预期值。
通过采用上述方案,超过75%的仿真场景下仿真结果能够达到预期值能够说明该特定业务对应AI模型具有良好的适应性能。
优选的,还包括:基于多个特定业务创建多个仿真任务,建立分布式仿真环境以使得多个特定业务对应AI模型的仿真测试同步运行。
通过采用上述方案,当存在大规模数据流需要进行处理与仿真时,采用分布式仿真技术支持大规模仿真任务。
第二方面,本申请提供一种基于数据驱动的AI中台系统,包括:
数据采集模块,用于采集各种业务的实时数据,生成数据流;
数据处理模块,用于针对数据流进行特征提取、数据标注获取多种业务数据集;
AI模型构建与训练模块,用于基于业务数据集中的特定业务类型构建对应AI模型,利用特定业务数据集对对应的AI模型进行模型训练,训练完成生成特定业务对应AI模型;还用于获取仿真模块输出的仿真性能评估结果,判断仿真性能评估结果是否达到预期值,若达到预期值,则将特定业务对应AI模型传输至AI模型部署模块;若未达到预期值,则对特定业务对应AI模型进行模型优化,对优化后的特定业务对应AI模型重新进行仿真测试与模型性能评估,直至仿真性能评估结果达到预期值时停止模型优化,输出优化后的特定业务对应AI模型,将当前优化后的特定业务对应AI模型传输至AI模型部署模块;
仿真模块,用于基于特定业务创建多种仿真场景,获取特定业务应用的各场景下的历史业务数据作为仿真数据;应用创建的多种仿真场景和仿真数据对特定业务对应AI模型进行仿真测试,获取仿真结果;根据仿真结果进行模型性能评估,获得仿真性能评估结果;
AI模型部署模块,用于按照预设部署方式完成特定业务对应AI模型的部署。
通过采用上述方案,AI中台可以处理实时产生的数据流,使得对数据的分析和应用更加及时;针对不同业务数据灵活生成对应的AI模型,基于实时数据流能够对AI模型性能进行优化使得生成的AI模型在多种仿真环境具有良好的性能,保证部署至特定的业务场景中AI模型具有良好的适应性。
优选的,还包括:
AI模型监测模块,用于监测特定业务对应AI模型进行的n次优化操作;
每监测到一次对特定业务对应AI模型进行优化操作,获取本次优化过程中用于模型训练的业务数据集以及本次优化后生成的特定业务对应AI模型,对应创建Git版本标签;基于Git版本标签查询第m次优化操作对应的业务数据集与生成的特定业务对应AI模型。
通过采用上述方案,通过AI模型监测模块监控AI模型的性能,能够简单的回溯和找到特定版本的AI模型以及对应的业务数据集。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的方法。
第四方面,本申请提供一种计算机设备,存储器、处理器及在所述存储器上存储并可运行的程序,所述程序被处理器执行时实现如上述方法的步骤。
综上,本申请具有以下有益效果为:
1、通过对产生的数据流进行持续处理,能够灵活的对多种业务进行AI模型的生成、训练以及更新;
2、将仿真技术集成到AI中台中可以增强AI模型的训练、测试和验证过程,从而更好地适应多种复杂性应用场景。
附图说明
图1为具体实施例中所述一种基于数据驱动的AI中台模型管理方法的流程图;
图2为具体实施例中所述一种基于数据驱动的AI中台模型管理方法中数据走向图;
图3为具体实施例中所述一种基于数据驱动的AI中台系统的结构示意图;
图4为具体实施例中所述一种基于数据驱动的AI中台系统中数据闭环的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
如图1所示,本申请实施例公开一种基于数据驱动的AI中台模型管理方法,具体包括:
S1、采集各种业务的实时数据,生成数据流。
具体的,通过API接口采集多种业务的实时数据,包括结构化数据(如数据库数据)、半结构化数据(如日志文件)和非结构化数据(如文本、图像、音频等);对采集的数据进行清洗与预处理,包括去除噪声、过滤无用信息、解析数据格式等;基于预处理后的数据生成连续不断的数据流。
S2、针对数据流进行数据处理获取多种业务数据集。
具体的,持续对数据流中数据进行特征提取,对提取的特征数据进行类型标记,获取多种业务的数据集。
生成的多种业务数据集被持久化存储,以供后续离线分析、报告和历史数据查询使用。这些数据通常存储在数据湖、数据仓库或数据库中。
S3、基于业务数据集中的特定业务类型构建对应AI模型并完成模型训练,生成特定业务对应AI模型。
具体的,基于业务数据集中的特定业务类型构建对应的多种类型的AI模型;所述多种类型的AI模型包括:机器学习模型、神经网络模型、规则模型等;
将特定业务数据集划分为训练集与验证集,本实施例中验证集与数据集的比例设定为3:7;
分别采用训练集中的特定业务数据对每种类型的AI模型进行模型训练,获得每种类型对应的训练好的初始特定业务对应AI模型;
利用验证集的数据输入分别多个初始特定业务对应AI模型,对每个初始特定业务对应AI模型的输出结果进行评估测试,获取评估结果最优的初始特定业务对应AI模型作为生成的特定业务对应AI模型;所述评估测试中评估性能指标可为包括准确率、召回率、F1分数、均方误差等。
S4、完成特定业务对应AI模型的仿真。
具体的,创建API或其他接口将多个特定业务对应AI模型进行集成到仿真实验室中,所述的仿真实验室提供分布式仿真环境,多个特定业务对应AI模型的仿真测试同步运行。
针对特定业务对应AI模型的仿真测试具体包括:
创建多种仿真场景;如:智能聊天机器人设置多种应用场景:问答场景、产品推荐场景、行政服务场景等;自动驾驶AI设置多种虚拟城市应用场景:A城市、B城市等。
获取特定业务应用的各场景下的历史业务数据作为仿真数据;所述仿真数据可以是从历史数据中采样、合成的,或者是根据模拟场景和分布生成的;如:获取历史产品推荐场景下用户对于产品的询问数据作为仿真数据。
应用创建的多种仿真场景和仿真数据对特定业务对应AI模型进行仿真测试,获取仿真结果;具体包括:将特定业务对应AI模型加载到创建的仿真环境中,将仿真数据注入特定业务对应AI模型中,特定业务对应AI模型对注入的仿真数据进行推断,产生模拟的预测或输出,即仿真结果;
根据仿真结果进行模型性能评估,获得仿真性能评估结果;模型性能评估对应的性能指标可以包括准确率、召回率、F1分数、均方误差等,具体取决于仿真任务类型。
判断仿真性能评估结果是否达到预期值,若达到预期值,则转至S5;若未达到预期值,则对特定业务对应AI模型进行模型优化;所述模型优化可以为调整模型的超参数、调整训练数据、调整模型架构等;针对优化后的特定业务对应AI模型重新进行仿真测试,直至仿真性能评估结果达到预期值时停止模型优化,输出优化后的特定业务对应AI模型,转至S5。
本实施例中,所述判断仿真性能评估结果达到预期值是指超过75%的仿真场景下仿真测试对应仿真结果达到预期值;AI模型的仿真还可以提供反馈循环,将仿真结果对应的数据用以不断改进模型性能;随着新的仿真数据生成,模型可以周期性地进行仿真测试和改进。
S5、按照预设部署方式完成特定业务对应AI模型的部署。
具体的,所述预设部署方式包括本地部署(AI模型直接部署在本地环境)、服务端部署(将AI模型部署为可调用的API,以供应用程序使用)、容器化部署(将模型打包为容器,以便在容器化平台上部署)以及无服务器部署(利用无服务器计算平台来部署AI模型)等方式。
如图2所示,本申请公开的方法以数据为核心,采集数据,完成数据处理,利用处理后的数据进行模型训练,生成AI模型;对于生成的AI模型进行仿真,最终根据仿真结果完成模型的发布与部署。
此外,本申请实施例公开一种基于数据驱动的AI中台模型管理方法,还包括:通过Git版本管理,监控AI中台模型生成过程中业务数据、模型结构等。
监测特定业务对应AI模型进行的n次优化操作;
每监测到一次对特定业务对应AI模型进行优化操作,获取本次优化过程中输入的用于模型训练的业务数据集以及本次优化后生成的特定业务对应AI模型,对应创建Git版本标签;即每次优化操作前后都分别对应一个版本的特定业务对应AI模型和业务数据集;备份Git版本标签,以防止数据丢失。
基于Git版本标签可查询第m次优化操作对应的业务数据集与生成的特定业务对应AI模型;其中,n、m取0或正常数。
此外,本申请实施例公开一种基于数据驱动的AI中台模型管理方法,还包括:
监控应用于实际特定业务场景中特定业务对应AI模型的运行情况,获取运行数据并进行实际性能评估;判断实际性能评估结果是否达到预期值,若达到预期值,则保留当前部署的特定业务对应AI模型;
若未达到预期值,则根据Git版本标签查询所有版本的特定业务对应AI模型依次替换当前部署的特定业务对应AI模型,若存在一个版本的特定业务对应AI模型对应的实际性能评估结果大于预期值,则以该版本的特定业务对应AI模型替换当前部署的特定业务对应AI模型;
若不存在一个版本的特定业务对应AI模型对应的实际性能评估大于预期值,则根据Git版本标签查询初始部署的特定业务对应AI模型对应的业务数据集,调整业务数据集对初始部署的特定业务对应AI模型进行模型优化,直至优化后的特定业务对应AI模型对应的仿真性能评估结果与实际性能评估结果均达到预期值;调整业务数据集可为增量训练,使用在线学习算法,如递增式梯度下降。
上述AI模型部署的原理为:对于应用于实际特定业务场景中AI模型进行评估测试,若评估测试不满足预期值,则说明在仿真环境中拥有良好性能的AI模型在实际的应用中仍然存在问题;考虑到每个版本的AI模型可能在不同仿真环境中有着不同的效能,例如:第三个版本的AI模型对于产品推荐场景下具有良好的效能,而实际特定业务场景中产品推荐场景被应用的最多;即应用所有版本AI模型发现第三个版本的AI模型对应的实际性能评估大于预期值,则将第三个版本的AI模型替换当前部署的特定业务对应AI模型;若在实际场景中应用了既有的所有版本AI模型,仍然不存在一个版本的特定业务对应AI模型对应的实际性能评估大于预期值,则对初始部署的AI模型进行优化,生成仿真性能评估结果与实际性能评估结果均达到预期值的AI模型。
如图3所示,本申请实施例公开一种基于数据驱动的AI中台系统,包括:数据服务模块101、AI模型服务模块102、仿真模块103。
数据服务模块101包括数据采集模块201、数据处理模块202;
数据采集模块201,用于采集各种业务的实时数据,生成数据流;
数据处理模块202,用于对针对数据流进行特征提取、数据标注获取多种业务数据集。
具体的,数据服务模块101具有音频标注、视频标注、点云标注、指标标注、分类标注、分割标注、图像合成、数据增强、数据描述等功能。
AI模型服务模块102包括AI模型构建与训练模块301、AI模型部署模块302、AI模型监测模块303。
AI模型构建与训练模块301,用于基于业务数据集中的特定业务类型构建对应AI模型,并利用特定业务数据集对对应的AI模型进行模型训练,训练完成生成特定业务对应AI模型;还用于获取仿真模块103输出的仿真性能评估结果,判断仿真性能评估结果是否达到预期值,若达到预期值,则将特定业务对应AI模型传输至AI模型部署模块302;若未达到预期值,则对特定业务对应AI模型进行模型优化,对优化后的特定业务对应AI模型重新进行仿真测试与模型性能评估,直至仿真性能评估结果达到预期值时停止模型优化,输出当前优化后的特定业务对应AI模型,将优化后的特定业务对应AI模型传输至AI模型部署模块302;
AI模型部署模块302,用于按照预设部署方式完成特定业务对应AI模型的部署;
AI模型监测模块303,用于监测特定业务对应AI模型进行的n次优化操作;每监测到一次对特定业务对应AI模型进行优化操作,获取本次优化过程中输入的用于模型训练的业务数据集以及本次优化后生成的特定业务对应AI模型,对应创建Git版本标签;基于Git版本标签查询第m次优化操作对应的业务数据集与生成的特定业务对应AI模型;还用于监测应用于实际特定业务场景中特定业务对应AI模型的运行情况,根据运行情况不断优化AI模型。
具体的,AI模型服务模块102具有模型创建、模型训练、模型迭代、模型部署等功能;
仿真模块103,用于基于特定业务创建多种仿真场景,获取创建仿真场景下对应的历史数据作为仿真数据;应用创建的多种仿真场景和仿真数据对特定业务对应AI模型进行仿真测试,获取仿真结果并生成仿真报告;根据仿真结果进行模型性能评估,获得仿真性能评估结果。
具体的,仿真模块103具有数字孪生、仿真测试、仿真回放、生成仿真报告、场景管理、场景挖掘、场景模拟、指标评估等功能。
如图4所示,本申请实施例公开一种基于数据驱动的AI中台系统以数据为核心,实现了业务闭环与数据闭环;其中,业务闭环要求数据闭环,数据闭环反哺业务闭环。
具体的,针对数据的采集与处理:
业务闭环体现: AI中台系统能够采集和处理各种业务相关的数据,包括用户行为、交易记录、设备数据等;这些数据作为业务闭环的基础,用于监测和了解业务过程;数据闭环反哺业务闭环体现:数据采集不仅仅是为了监测,还可以反哺业务闭环。通过对数据的实时分析和洞察,AI中台可以提供有关业务趋势、用户行为、市场反馈等信息,这些信息可以用于业务决策和优化。
针对模型开发和训练:
业务闭环体现: AI中台支持模型的开发和训练,这些模型通常用于解决特定的业务问题,如推荐、预测、欺诈检测等;数据闭环反哺业务闭环体现: 训练模型需要大量的数据,而业务数据通常是用于模型训练的主要来源之一。通过将业务数据用于训练,AI中台可以不断改进和优化模型。
针对模型部署和监控:
业务闭环体现: 部署模型到生产环境后,AI中台需要监控模型的性能,确保它们在实际业务中表现良好;数据闭环反哺业务闭环体现:监控数据的收集和分析是业务闭环的一部分,通过监控模型在生产环境中的表现,AI中台可以及时检测到潜在问题并采取行动,以保持业务的顺利运行。
针对业务决策和优化:
业务闭环体现:AI中台的目标是通过提供洞察和智能建议来影响业务决策和优化,以改善业务效率和效果;数据闭环反哺业务闭环体现:数据闭环通过提供实时数据分析和洞察,为业务决策提供支持;AI中台可以自动化部分决策过程,也可以为决策者提供数据驱动的建议,以便更好地理解和响应业务需求。
本申请实施例还公开一种计算机可读存储介质。
具体来说,该计算机可读存储介质,其存储有能够被处理器加载并执行如上述基于数据驱动的AI中台模型管理方法的计算机程序,该计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还公开一种计算机设备。
具体来说,计算机设备包括存储器和处理器,存储器上存储有能够被处理器加载并执行上述基于数据驱动的AI中台模型管理方法的计算机程序。
Claims (10)
1.一种基于数据驱动的AI中台模型管理方法,其特征在于,包括:
采集各种业务的实时数据,生成数据流;
针对数据流进行特征提取、数据标注,获取多种业务数据集;
基于业务数据集中的特定业务类型构建对应AI模型,利用特定业务数据集对对应的AI模型进行模型训练,训练完成生成特定业务对应AI模型;
基于特定业务创建多种仿真场景,获取特定业务应用的各场景下的历史业务数据作为仿真数据;应用创建的多种仿真场景和仿真数据对特定业务对应AI模型进行仿真测试,获取仿真结果;根据仿真结果进行模型性能评估,获得仿真性能评估结果;
判断仿真性能评估结果是否达到预期值,若达到预期值,则按照预设部署方式完成特定业务对应AI模型的部署;若未达到预期值,则对特定业务对应AI模型进行模型优化,对优化后的特定业务对应AI模型重新进行仿真测试与模型性能评估,直至仿真性能评估结果达到预期值时停止模型优化,输出优化后的特定业务对应AI模型;按照预设部署方式完成优化后的特定业务对应AI模型的部署。
2.根据权利要求1所述的基于数据驱动的AI中台模型管理方法,其特征在于,还包括:
监测特定业务对应AI模型进行的n次优化操作;
每监测到一次对特定业务对应AI模型进行优化操作,获取本次优化过程中用于模型训练的业务数据集以及本次优化后生成的特定业务对应AI模型,对应创建Git版本标签;
基于Git版本标签查询第m次优化操作对应的业务数据集与生成的特定业务对应AI模型;所述n、m取0或正常数。
3.根据权利要求2所述的基于数据驱动的AI中台模型管理方法,其特征在于,还包括:
监控应用于实际特定业务场景中特定业务对应AI模型的运行情况,获取运行数据并进行实际性能评估;判断实际性能评估结果是否达到预期值,若达到预期值,则保留当前部署的特定业务对应AI模型;
若未达到预期值,则根据Git版本标签查询当前部署的特定业务对应AI模型对应的用于训练的业务数据集,调整业务数据集对当前部署的特定业务对应AI模型进行模型优化,直至优化后的特定业务对应AI模型对应的仿真性能评估结果与实际性能评估结果均达到预期值。
4.根据权利要求1所述的基于数据驱动的AI中台模型管理方法,其特征在于,所述基于业务数据集中的特定业务类型构建对应AI模型,利用特定业务数据集对对应的AI模型进行模型训练,训练完成生成特定业务对应AI模型具体包括:
基于业务数据集中的特定业务类型设计多种类型的AI模型;
将特定业务数据集划分为训练集与验证集;
分别采用训练集中的特定业务数据对每种类型的AI模型进行模型训练,获得每种类型对应的训练好的初始特定业务对应AI模型;
将验证集的数据分别输入多个初始特定业务对应AI模型,对每个初始特定业务对应AI模型的输出结果进行评估测试,获取评估结果最优的初始特定业务对应AI模型作为生成的特定业务对应AI模型。
5.根据权利要求1所述的基于数据驱动的AI中台模型管理方法,其特征在于,所述根据仿真结果进行模型性能评估达到预期值包括:超过75%的仿真场景下仿真测试对应仿真结果达到预期值。
6.根据权利要求1所述的基于数据驱动的AI中台模型管理方法,其特征在于, 还包括:基于多个特定业务创建多个仿真任务,建立分布式仿真环境以使得多个特定业务对应AI模型的仿真测试同步运行。
7.一种基于数据驱动的AI中台系统,其特征在于,包括:
数据采集模块,用于采集各种业务的实时数据,生成数据流;
数据处理模块,用于针对数据流进行特征提取、数据标注获取多种业务数据集;
AI模型构建与训练模块,用于基于业务数据集中的特定业务类型构建对应AI模型,并利用特定业务数据集对对应的AI模型进行模型训练,训练完成生成特定业务对应AI模型;
还用于获取仿真模块输出的仿真性能评估结果,判断仿真性能评估结果是否达到预期值,若达到预期值,则将特定业务对应AI模型传输至AI模型部署模块;若未达到预期值,则对特定业务对应AI模型进行模型优化,对优化后的特定业务对应AI模型重新进行仿真测试与模型性能评估,直至仿真性能评估结果达到预期值时停止模型优化,输出优化后的特定业务对应AI模型,将优化后的特定业务对应AI模型传输至AI模型部署模块;
仿真模块,用于基于特定业务创建多种仿真场景,获取特定业务应用的各场景下的历史业务数据作为仿真数据;应用创建的多种仿真场景和仿真数据对特定业务对应AI模型进行仿真测试,获取仿真结果;根据仿真结果进行模型性能评估,获得仿真性能评估结果;
AI模型部署模块,用于按照预设部署方式完成特定业务对应AI模型的部署。
8.根据权利要求7所述的基于数据驱动的AI中台系统,其特征在于,还包括:
AI模型监测模块,用于监测特定业务对应AI模型进行的n次优化操作;
每监测到一次对特定业务对应AI模型进行优化操作,获取本次优化过程中用于模型训练的业务数据集以及本次优化后生成的特定业务对应AI模型,对应创建Git版本标签;基于Git版本标签查询第m次优化操作对应的业务数据集与生成的特定业务对应AI模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的方法。
10.一种计算机设备,其特征在于,存储器、处理器及在所述存储器上存储并可运行的程序,所述程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311347178.9A CN117371943A (zh) | 2023-10-17 | 2023-10-17 | 一种基于数据驱动的ai中台模型管理方法及ai中台系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311347178.9A CN117371943A (zh) | 2023-10-17 | 2023-10-17 | 一种基于数据驱动的ai中台模型管理方法及ai中台系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117371943A true CN117371943A (zh) | 2024-01-09 |
Family
ID=89392375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311347178.9A Pending CN117371943A (zh) | 2023-10-17 | 2023-10-17 | 一种基于数据驱动的ai中台模型管理方法及ai中台系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117371943A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191502A (zh) * | 2021-04-21 | 2021-07-30 | 烽火通信科技股份有限公司 | 一种人工智能模型在线训练方法及系统 |
CN114428748A (zh) * | 2022-03-30 | 2022-05-03 | 北京数腾软件科技有限公司 | 一种用于真实业务场景的模拟测试方法及系统 |
US20220207397A1 (en) * | 2019-09-16 | 2022-06-30 | Huawei Cloud Computing Technologies Co., Ltd. | Artificial Intelligence (AI) Model Evaluation Method and System, and Device |
CN114880305A (zh) * | 2022-05-25 | 2022-08-09 | 北京明易达科技股份有限公司 | 一种基于数据中台的ai算法建模的方法及系统 |
-
2023
- 2023-10-17 CN CN202311347178.9A patent/CN117371943A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220207397A1 (en) * | 2019-09-16 | 2022-06-30 | Huawei Cloud Computing Technologies Co., Ltd. | Artificial Intelligence (AI) Model Evaluation Method and System, and Device |
CN113191502A (zh) * | 2021-04-21 | 2021-07-30 | 烽火通信科技股份有限公司 | 一种人工智能模型在线训练方法及系统 |
CN114428748A (zh) * | 2022-03-30 | 2022-05-03 | 北京数腾软件科技有限公司 | 一种用于真实业务场景的模拟测试方法及系统 |
CN114880305A (zh) * | 2022-05-25 | 2022-08-09 | 北京明易达科技股份有限公司 | 一种基于数据中台的ai算法建模的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Friederich et al. | A framework for data-driven digital twins of smart manufacturing systems | |
Symeonidis et al. | MLOps-definitions, tools and challenges | |
John et al. | Towards an AI‐driven business development framework: A multi‐case study | |
CN111949795A (zh) | 工单自动分类方法及装置 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN115730947A (zh) | 银行客户流失预测方法及装置 | |
US20210326761A1 (en) | Method and System for Uniform Execution of Feature Extraction | |
CN113609393B (zh) | 一种基于数据服务和数据管理的数字化平台 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
Francis et al. | Towards data-driven digital twins for smart manufacturing | |
Ulrich et al. | Operator timing of task level primitives for use in computation-based human reliability analysis | |
Riedelsheimer et al. | Feedback to design with digital lifecycle-twins: literature review and concept presentation | |
CN117371943A (zh) | 一种基于数据驱动的ai中台模型管理方法及ai中台系统 | |
CN115330200A (zh) | 用于运营人工智能模型的装置、系统及方法 | |
CN115271637A (zh) | 基于智能合约和人工智能的审批系统及方法 | |
Chopade et al. | Effective bug triage with Prim's algorithm for feature selection | |
CN111382191A (zh) | 一种基于深度学习的机器学习识别方法 | |
Kurilenko et al. | Virtual Employee Implementation Using Temporal Case-based Reasoning | |
CN116475081B (zh) | 一种基于云边协同的工业产品分拣控制方法、装置及系统 | |
CN112968941B (zh) | 一种基于边缘计算的数据采集和人机协同标注方法 | |
CN111861404B (zh) | 基于智能机器的数据处理方法及装置、电子设备 | |
US11507728B2 (en) | Click to document | |
Walia | Application of machine learning for GUI test automation | |
Dominique et al. | FactSheets for Hardware-Aware AI Models: A Case Study of Analog In Memory Computing AI Models | |
US20230075067A1 (en) | Systems and Methods for Resource Analysis, Optimization, or Visualization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |