CN114880305B - 一种基于数据中台的ai算法建模的方法及系统 - Google Patents

一种基于数据中台的ai算法建模的方法及系统 Download PDF

Info

Publication number
CN114880305B
CN114880305B CN202210574923.2A CN202210574923A CN114880305B CN 114880305 B CN114880305 B CN 114880305B CN 202210574923 A CN202210574923 A CN 202210574923A CN 114880305 B CN114880305 B CN 114880305B
Authority
CN
China
Prior art keywords
data
training
model
algorithm
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210574923.2A
Other languages
English (en)
Other versions
CN114880305A (zh
Inventor
张华强
王猛
乔石鹏
曹刊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mingyida Technology Co ltd
Original Assignee
Beijing Mingyida Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mingyida Technology Co ltd filed Critical Beijing Mingyida Technology Co ltd
Priority to CN202210574923.2A priority Critical patent/CN114880305B/zh
Publication of CN114880305A publication Critical patent/CN114880305A/zh
Application granted granted Critical
Publication of CN114880305B publication Critical patent/CN114880305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于数据中台的AI算法建模的方法及系统,属于数据处理技术领域,以方法的实现为例,包括采集业务数据;清洗业务数据;针对清洗后的业务数据训练AI算法模型,得到最优AI算法模型;将所述最优AI算法模型上线应用;本发明解决了目前人工建立的数据分析模型上线后效果无法达到预期或无法上线等问题,提高了业务数据分析的准确率和更新频率,实现了各系统业务数据分析需求的智能化。

Description

一种基于数据中台的AI算法建模的方法及系统
技术领域
本发明属于数据处理技术领域,具体涉及一种基于数据中台的AI算法建模的方法及系统。
背景技术
“互联网+”时代下,人工智能、大数据、云计算和区块链等技术不断为传统产业带来变革与挑战,各行各业受到了前所未有的冲击,传统盈利模式受到巨大挑战,竞争格局的变化与技术的革新,不断催生着各企业自身的转型与升级。
对于企业而言,如何理解数字化转型,如何重构企业竞争模式,将是其思考的焦点。基于当前政策、市场、技术的背景与趋势看,通过数据中台技术实现企业业务线上化、数字化、智能化是企业数字化转型的必由之路,而数据中台智能化是线上化、数字化的最终的目标,也是发展的必然趋势。
现有构建数据中台的技术方案是通过数据采集将各个应用系统中的业务数据汇集至数据仓库,然后将数据进行清洗处理得到符合分析指标的无噪声数据,通过数据分析员的经验来设计算法与模型,通过专家对模型的评估来决定是否上线。但是由于数据中台对接的业务系统较多且系统建设供应商不同,采用的数据标准不同,数据处理标准难以统一,在人工处理的过程容易出现数据混淆、效率低下的问题;由于数据分析员的经验有限、数据缺乏标准与规范以及专家以黑盒模式进行评估等原因,此过程对从业人员经验要求较高且耗时耗力;其次数据分析工作对数据分析人员的业务理解能力要求较高,且数据分析结果完全依赖分析人员对业务数据的取数、分析、建模工作,造成结果往往准确率和更新频率难以到达前端业务需求,分析模型上线后效果无法达到预期或无法上线。目前还没有方法解决上述问题。
发明内容
为解决现有技术中的不足,本发明提出了一种基于数据中台的AI算法建模的方法及系统。
第一方面,本发明提出了一种基于数据中台的AI算法建模的方法,包括如下步骤:
步骤S1:采集业务数据,并将业务数据汇集至数据仓库;
步骤S2:清洗所述业务数据,得到无噪声数据源;
步骤S3:针对所述无噪声数据源,训练AI算法模型,得到最优AI算法模型;
步骤S4:将所述最优AI算法模型上线应用。
所述训练AI算法模型包括如下步骤:
步骤S3.1:设置预测目标;
步骤S3.2:根据所述预测目标,对无噪声数据源进行切分,得到数据集;步骤S3.3:选择一个或多个AI算法模型;
步骤S3.4:采用所述数据集,对所选择的AI算法模型进行训练;
步骤S3.5:对训练结果进行评分,选择评分最高的模型为最优AI算法模型。
所述对无噪声数据源进行切分,得到数据集,包括:将无噪声数据源按照一定比例切分为训练集、测试集、验证集。
AI算法模型为系统内置或系统外置。
所述训练集、测试集、验证集,其训练分别计时,计时结果采用不同字母表示,且计时单位一致。
所述对训练结果进行评分,采用如下公式:
Figure 395809DEST_PATH_IMAGE001
,其中,S为评分结果,n为无噪声数据源的数据数量,y为修正参数,训练集、测试集、验证集数据数量比例值分别为:k1、k2、k3,m1为训练集训练用时,m2为测试集训练用时,m3为验证集训练用时。
所述选择评分最高的模型为最优AI算法模型,包括:若所选择AI算法模型为一个,则该AI算法模型为最优AI算法模型;若所选择AI算法模型为多个,则将多个AI算法模型的评分结果进行排序,评分最高的即为最优AI算法模型。
所述清洗所述业务数据,是通过ETL(Extract-Transform-Load,数据抽取-数据转换-数据装载)工具进行清洗。
第二方面,本发明提出了一种基于数据中台的AI算法建模的系统,包括数据采集模块、数据清洗模块、模型训练模块、模型应用模块,各模块依次顺序连接;
所述数据采集模块用于采集业务数据,并将业务数据汇集至数据仓库;
所述数据清洗模块用于清洗所述业务数据,得到无噪声数据源;
所述模型训练模块用于针对所述无噪声数据源,训练AI算法模型,得到最优AI算法模型;
所述模型应用模块用于将所述最优AI算法模型上线应用。
所述模型训练模块包括目标设置单元、数据源切分单元、模型选择单元、模型训练单元、模型筛选单元,各单元依次顺序连接;
所述目标设置单元用于设置预测目标;
所述数据源切分单元用于根据所述预测目标,对无噪声数据源进行切分,得到数据集;
所述模型选择单元用于选择一个或多个AI算法模型;
所述模型训练单元采用所述数据集,对所选择的AI算法模型进行训练;
所述模型筛选单元用于对训练结果进行评分,选择评分最高的模型为最优AI算法模型。
有益技术效果:
在目前数据中台构建过程中,人工建立的数据分析模型效果无法达到预期或无法上线应用情况下,本发明提出的一种基于数据中台的AI算法建模的方法及系统,提高了业务数据分析的准确率和更新频率,实现了各系统业务数据分析需求的智能化。
附图说明
图1为本发明实施例的一种基于数据中台的AI算法建模的方法流程图;
图2为现有构建数据中台的技术方案流程原理示意图;
图3为本发明实施例的训练AI算法模型流程图;
图4为本发明实施例的一种基于数据中台的AI算法建模的系统原理框图;
图5为本发明实施例的模型训练模块内部结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
现有构建数据中台的技术方案,如图2所示,是通过数据采集将各个应用系统中的业务数据汇集至数据仓库,然后将数据进行清洗处理得到符合分析指标的无噪声数据,通过数据分析员的经验来设计算法与模型,通过专家对模型的评估来决定是否上线。本发明提出的一种基于数据中台的AI算法建模的方法及系统,提供了AI算法模型,可以更加智能、高效的对大数据进行自动化处理,通过多模型同步计算、训练测试加验证的过程,让预测的准确度大幅提高,减少了因个人经验原因造成的效率低下、模型不合理的情况。
第一方面,本发明提出一种基于数据中台的AI算法建模的方法,如图1所示,步骤如下:
步骤S1:采集业务数据,并将业务数据汇集至数据仓库;
步骤S2:清洗所述业务数据,得到无噪声数据源;
具体为:在通过数据采集将各个应用系统中的业务数据汇集至数据仓库后,通过ETL工具等将数据进行清洗处理得到符合分析指标的无噪声数据源n。业务数据采集以及清洗的过程属于本领域技术人员公知的常规技术方案,其具体过程本发明不再赘述。
步骤S3:针对所述无噪声数据源,训练AI算法模型,得到最优AI算法模型;
步骤S4:将所述最优AI算法模型上线应用。
所述训练AI算法模型,如图3所示,包括如下步骤:
步骤S3.1:设置预测目标;
即设置要进行预测的目标字段X。目标字段X与无噪声数据源n具有一定的函数关系,目标字段X为无噪声数据源n的某一字段,无噪声数据源n为历史数据。
步骤S3.2:根据所述预测目标,对无噪声数据源进行切分,得到数据集;
即针对预测目标X之前的无噪声数据源进行切分,得到数据集,包括:将之前的无噪声数据源按照如下的比例分为三个数据集,训练集:测试集:验证集=k1:k2:k3,其中,训练集、测试集、验证集数据数量比例值分别为:k1、k2、k3。
步骤S3.3:选择一个或多个AI算法模型;
本实施例选择系统内置的AI算法模型对所述数据集进行训练。
步骤S3.4:采用所述数据集,对所选择的AI算法模型进行训练;
设定用任一AI算法模型对所述数据集训练得到训练集用时分钟数m1,测试集用时分钟数m2,验证集用时分钟数m3。
步骤S3.5:对训练结果进行评分,选择评分最高的模型为最优AI算法模型。对训练结果进行评分,采用如下评分计算公式:
Figure 679023DEST_PATH_IMAGE001
,其中,S为评分结果,n为无噪声数据源的数据数量,y为修正参数,训练集、测试集、验证集数据数量比例值分别为:k1、k2、k3,m1为训练集训练用时,m2为测试集训练用时,m3为验证集训练用时,并且m1、m2、m3的单位需一致。
选择评分最高的模型为最优AI算法模型,包括:若所选择AI算法模型为一个,则该AI算法模型为最优AI算法模型;若所选择AI算法模型为多个,则将多个AI算法模型的评分结果S 1 S 2 …S i …S P 从高到低进行排序,评分最高的即为最优AI算法模型,其中,P为AI算法模型的个数,S i 为第i个AI算法模型的评分结果,i取值为1到P之间的自然数。
仿真结果如表1所示:
表1准确率及用时对比表
Figure 767065DEST_PATH_IMAGE002
从表1可以看出本发明的AI算法建模方法在业务数据预测中具有更高的准确率和更少用时。
第二方面,本发明提出了一种基于数据中台的AI算法建模的系统,如图4所示:包括数据采集模块、数据清洗模块、模型训练模块、模型应用模块,各模块依次顺序连接;
所述数据采集模块用于采集业务数据,并将业务数据汇集至数据仓库;
所述数据清洗模块用于清洗所述业务数据,得到无噪声数据源;
所述模型训练模块用于针对所述无噪声数据源,训练AI算法模型,得到最优AI算法模型;所述AI算法模型应用模块用于将所述最优AI算法模型上线应用。
所述模型训练模块,如图5所示,包括目标设置单元、数据源切分单元、模型选择单元、模型训练单元、模型筛选单元,各单元依次顺序连接;
所述目标设置单元用于设置预测目标;
所述数据源切分单元用于根据所述预测目标,对无噪声数据源进行切分,得到数据集;
所述模型选择单元用于选择一个或多个AI算法模型;
所述模型训练单元采用所述数据集,对所选择的AI算法模型进行训练;
所述模型筛选单元用于对训练结果进行评分,选择评分最高的模型为最优AI算法模型。
本发明发明人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (5)

1.一种基于数据中台的AI算法建模的方法,其特征在于,包括如下步骤:
步骤S1:采集业务数据,并将业务数据汇集至数据仓库;
步骤S2:清洗所述业务数据,得到无噪声数据源;
步骤S3:针对所述无噪声数据源,训练AI算法模型,得到最优AI算法模型;
步骤S4:将所述最优AI算法模型上线应用;
所述训练AI算法模型包括如下步骤:
步骤S3.1:设置预测目标;
步骤S3.2:根据所述预测目标,对无噪声数据源进行切分,得到数据集;
步骤S3.3:选择多个AI算法模型;
步骤S3.4:采用所述数据集,对所选择的AI算法模型进行训练;
步骤S3.5:对训练结果进行评分,选择评分最高的模型为最优AI算法模型;
所述对无噪声数据源进行切分,得到数据集,包括:将无噪声数据源按照一定比例切分为训练集、测试集、验证集;
所述训练集、测试集、验证集,其训练分别计时,计时结果采用不同字母表示,且计时单位一致;
所述对训练结果进行评分,采用如下公式:
Figure FDA0004079490080000011
其中,S为评分结果,n为无噪声数据源的数据数量,y为修正参数,训练集、测试集、验证集数据数量比例值分别为:k1、k2、k3,m1为训练集训练用时,m2为测试集训练用时,m3为验证集训练用时。
2.根据权利要求1所述的基于数据中台的AI算法建模的方法,其特征在于,AI算法模型为系统内置或系统外置。
3.根据权利要求1所述的基于数据中台的AI算法建模的方法,其特征在于,所述选择评分最高的模型为最优AI算法模型,包括:将多个AI算法模型的评分结果进行排序,评分最高的即为最优AI算法模型。
4.根据权利要求1所述的基于数据中台的AI算法建模的方法,其特征在于,所述清洗所述业务数据,是通过ETL工具进行清洗。
5.一种基于数据中台的AI算法建模的系统,其特征在于,包括数据采集模块、数据清洗模块、模型训练模块、模型应用模块,各模块依次顺序连接;
所述数据采集模块用于采集业务数据,并将业务数据汇集至数据仓库;
所述数据清洗模块用于清洗所述业务数据,得到无噪声数据源;
所述模型训练模块用于针对所述无噪声数据源,训练AI算法模型,得到最优AI算法模型;
所述模型应用模块用于将所述最优AI算法模型上线应用;
所述模型训练模块包括目标设置单元、数据源切分单元、模型选择单元、模型训练单元、模型筛选单元,各单元依次顺序连接;
所述目标设置单元用于设置预测目标;
所述数据源切分单元用于根据所述预测目标,对无噪声数据源进行切分,得到数据集;
所述模型选择单元用于选择多个AI算法模型;
所述模型训练单元采用所述数据集,对所选择的AI算法模型进行训练;
所述模型筛选单元用于对训练结果进行评分,选择评分最高的模型为最优AI算法模型;
所述对无噪声数据源进行切分,得到数据集,包括:将无噪声数据源按照一定比例切分为训练集、测试集、验证集;
所述训练集、测试集、验证集,其训练分别计时,计时结果采用不同字母表示,且计时单位一致;
所述对训练结果进行评分,采用如下公式:
Figure FDA0004079490080000021
其中,S为评分结果,n为无噪声数据源的数据数量,y为修正参数,训练集、测试集、验证集数据数量比例值分别为:k1、k2、k3,m1为训练集训练用时,m2为测试集训练用时,m3为验证集训练用时。
CN202210574923.2A 2022-05-25 2022-05-25 一种基于数据中台的ai算法建模的方法及系统 Active CN114880305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210574923.2A CN114880305B (zh) 2022-05-25 2022-05-25 一种基于数据中台的ai算法建模的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210574923.2A CN114880305B (zh) 2022-05-25 2022-05-25 一种基于数据中台的ai算法建模的方法及系统

Publications (2)

Publication Number Publication Date
CN114880305A CN114880305A (zh) 2022-08-09
CN114880305B true CN114880305B (zh) 2023-06-20

Family

ID=82677458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210574923.2A Active CN114880305B (zh) 2022-05-25 2022-05-25 一种基于数据中台的ai算法建模的方法及系统

Country Status (1)

Country Link
CN (1) CN114880305B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371943A (zh) * 2023-10-17 2024-01-09 江苏润和软件股份有限公司 一种基于数据驱动的ai中台模型管理方法及ai中台系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263939A (zh) * 2019-06-24 2019-09-20 腾讯科技(深圳)有限公司 一种表示学习模型的评估方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620691A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 电信业自动化数据挖掘平台
US10417528B2 (en) * 2018-02-18 2019-09-17 Sas Institute Inc. Analytic system for machine learning prediction model selection
CN109978062B (zh) * 2019-03-28 2020-02-14 北京九章云极科技有限公司 一种模型在线监控方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263939A (zh) * 2019-06-24 2019-09-20 腾讯科技(深圳)有限公司 一种表示学习模型的评估方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114880305A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN106779223B (zh) 一种光伏系统发电功率实时预测方法及装置
CN109271374B (zh) 一种基于机器学习的数据库健康度打分方法和打分系统
CN103577694B (zh) 一种基于多尺度分析的水产养殖水质短期组合预测方法
CN111563893B (zh) 基于航拍图像的均压环缺陷检测方法、装置、介质和设备
CN114444986B (zh) 产品分析方法及系统及装置及介质
CN109583474B (zh) 一种用于工业大数据处理的训练样本生成方法
CN114880305B (zh) 一种基于数据中台的ai算法建模的方法及系统
CN109948522A (zh) 一种基于深度神经网络的x光片手骨成熟度判读方法
CN114492675B (zh) 一种电容式电压互感器故障原因智能诊断方法
CN112396234A (zh) 一种基于时域卷积神经网络的用户侧负荷概率预测方法
CN109543693A (zh) 基于正则化标签传播的弱标注数据降噪方法
CN113269680A (zh) 一种基于排序学习和孪生神经网络的图像修复质量评价方法
CN113554213A (zh) 一种天然气需求预测方法、系统、存储介质及设备
CN114638442A (zh) 面向个体差异的飞行训练方案生成系统、方法及设备
CN111178605A (zh) 一种基于特征选择的配网工程项目工期预测方法
CN108427742B (zh) 一种基于低秩矩阵的配电网可靠性数据修复方法及系统
CN114580517A (zh) 一种图像识别模型的确定方法及装置
CN115687788A (zh) 一种智能化商机推荐方法和系统
CN115936196A (zh) 基于时序卷积网络的月降水模型预测方法
CN114860788A (zh) 一种技术推广信息服务系统及方法
CN109409424B (zh) 一种外观缺陷检测模型建模方法和装置
CN113761777A (zh) 一种基于hp-ovmd的超短期光伏功率预测方法
CN111488968A (zh) 综合能源计量数据特征提取方法及系统
CN112700335B (zh) 一种利用模拟环境重构投融资行为的方法
CN114912846B (zh) 在线学习的综合能源客户价值挖掘能效评估方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant