CN114880305B

CN114880305B - 一种基于数据中台的ai算法建模的方法及系统

Info

Publication number: CN114880305B
Application number: CN202210574923.2A
Authority: CN
Inventors: 张华强; 王猛; 乔石鹏; 曹刊
Original assignee: Beijing Mingyida Technology Co ltd
Current assignee: Beijing Mingyida Technology Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-06-20
Anticipated expiration: 2042-05-25
Also published as: CN114880305A

Abstract

本发明公开了一种基于数据中台的AI算法建模的方法及系统，属于数据处理技术领域，以方法的实现为例，包括采集业务数据；清洗业务数据；针对清洗后的业务数据训练AI算法模型，得到最优AI算法模型；将所述最优AI算法模型上线应用；本发明解决了目前人工建立的数据分析模型上线后效果无法达到预期或无法上线等问题，提高了业务数据分析的准确率和更新频率，实现了各系统业务数据分析需求的智能化。

Description

一种基于数据中台的AI算法建模的方法及系统

技术领域

本发明属于数据处理技术领域，具体涉及一种基于数据中台的AI算法建模的方法及系统。

背景技术

“互联网+”时代下，人工智能、大数据、云计算和区块链等技术不断为传统产业带来变革与挑战，各行各业受到了前所未有的冲击，传统盈利模式受到巨大挑战，竞争格局的变化与技术的革新，不断催生着各企业自身的转型与升级。

对于企业而言，如何理解数字化转型，如何重构企业竞争模式，将是其思考的焦点。基于当前政策、市场、技术的背景与趋势看，通过数据中台技术实现企业业务线上化、数字化、智能化是企业数字化转型的必由之路，而数据中台智能化是线上化、数字化的最终的目标，也是发展的必然趋势。

现有构建数据中台的技术方案是通过数据采集将各个应用系统中的业务数据汇集至数据仓库，然后将数据进行清洗处理得到符合分析指标的无噪声数据，通过数据分析员的经验来设计算法与模型，通过专家对模型的评估来决定是否上线。但是由于数据中台对接的业务系统较多且系统建设供应商不同，采用的数据标准不同，数据处理标准难以统一，在人工处理的过程容易出现数据混淆、效率低下的问题；由于数据分析员的经验有限、数据缺乏标准与规范以及专家以黑盒模式进行评估等原因，此过程对从业人员经验要求较高且耗时耗力；其次数据分析工作对数据分析人员的业务理解能力要求较高，且数据分析结果完全依赖分析人员对业务数据的取数、分析、建模工作，造成结果往往准确率和更新频率难以到达前端业务需求，分析模型上线后效果无法达到预期或无法上线。目前还没有方法解决上述问题。

发明内容

为解决现有技术中的不足，本发明提出了一种基于数据中台的AI算法建模的方法及系统。

第一方面，本发明提出了一种基于数据中台的AI算法建模的方法，包括如下步骤：

步骤S1：采集业务数据，并将业务数据汇集至数据仓库；

步骤S2：清洗所述业务数据，得到无噪声数据源；

步骤S3：针对所述无噪声数据源，训练AI算法模型，得到最优AI算法模型；

步骤S4：将所述最优AI算法模型上线应用。

所述训练AI算法模型包括如下步骤：

步骤S3.1：设置预测目标；

步骤S3.2：根据所述预测目标，对无噪声数据源进行切分，得到数据集；步骤S3.3：选择一个或多个AI算法模型；

步骤S3.4：采用所述数据集，对所选择的AI算法模型进行训练；

步骤S3.5：对训练结果进行评分，选择评分最高的模型为最优AI算法模型。

所述对无噪声数据源进行切分，得到数据集，包括：将无噪声数据源按照一定比例切分为训练集、测试集、验证集。

AI算法模型为系统内置或系统外置。

所述训练集、测试集、验证集，其训练分别计时，计时结果采用不同字母表示，且计时单位一致。

所述对训练结果进行评分，采用如下公式：

，其中，S为评分结果，n为无噪声数据源的数据数量，y为修正参数，训练集、测试集、验证集数据数量比例值分别为：k1、k2、k3，m1为训练集训练用时，m2为测试集训练用时，m3为验证集训练用时。

所述选择评分最高的模型为最优AI算法模型，包括：若所选择AI算法模型为一个，则该AI算法模型为最优AI算法模型；若所选择AI算法模型为多个，则将多个AI算法模型的评分结果进行排序，评分最高的即为最优AI算法模型。

所述清洗所述业务数据，是通过ETL（Extract-Transform-Load，数据抽取-数据转换-数据装载）工具进行清洗。

第二方面，本发明提出了一种基于数据中台的AI算法建模的系统，包括数据采集模块、数据清洗模块、模型训练模块、模型应用模块，各模块依次顺序连接；

所述数据采集模块用于采集业务数据，并将业务数据汇集至数据仓库；

所述数据清洗模块用于清洗所述业务数据，得到无噪声数据源；

所述模型训练模块用于针对所述无噪声数据源，训练AI算法模型，得到最优AI算法模型；

所述模型应用模块用于将所述最优AI算法模型上线应用。

所述模型训练模块包括目标设置单元、数据源切分单元、模型选择单元、模型训练单元、模型筛选单元，各单元依次顺序连接；

所述目标设置单元用于设置预测目标；

所述数据源切分单元用于根据所述预测目标，对无噪声数据源进行切分，得到数据集；

所述模型选择单元用于选择一个或多个AI算法模型；

所述模型训练单元采用所述数据集，对所选择的AI算法模型进行训练；

所述模型筛选单元用于对训练结果进行评分，选择评分最高的模型为最优AI算法模型。

有益技术效果：

在目前数据中台构建过程中，人工建立的数据分析模型效果无法达到预期或无法上线应用情况下，本发明提出的一种基于数据中台的AI算法建模的方法及系统，提高了业务数据分析的准确率和更新频率，实现了各系统业务数据分析需求的智能化。

附图说明

图1为本发明实施例的一种基于数据中台的AI算法建模的方法流程图；

图2为现有构建数据中台的技术方案流程原理示意图；

图3为本发明实施例的训练AI算法模型流程图；

图4为本发明实施例的一种基于数据中台的AI算法建模的系统原理框图；

图5为本发明实施例的模型训练模块内部结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

现有构建数据中台的技术方案，如图2所示，是通过数据采集将各个应用系统中的业务数据汇集至数据仓库，然后将数据进行清洗处理得到符合分析指标的无噪声数据，通过数据分析员的经验来设计算法与模型，通过专家对模型的评估来决定是否上线。本发明提出的一种基于数据中台的AI算法建模的方法及系统，提供了AI算法模型，可以更加智能、高效的对大数据进行自动化处理，通过多模型同步计算、训练测试加验证的过程，让预测的准确度大幅提高，减少了因个人经验原因造成的效率低下、模型不合理的情况。

第一方面，本发明提出一种基于数据中台的AI算法建模的方法，如图1所示，步骤如下：

步骤S1：采集业务数据，并将业务数据汇集至数据仓库；

步骤S2：清洗所述业务数据，得到无噪声数据源；

具体为：在通过数据采集将各个应用系统中的业务数据汇集至数据仓库后，通过ETL工具等将数据进行清洗处理得到符合分析指标的无噪声数据源n。业务数据采集以及清洗的过程属于本领域技术人员公知的常规技术方案，其具体过程本发明不再赘述。

步骤S4：将所述最优AI算法模型上线应用。

所述训练AI算法模型，如图3所示，包括如下步骤：

步骤S3.1：设置预测目标；

即设置要进行预测的目标字段X。目标字段X与无噪声数据源n具有一定的函数关系，目标字段X为无噪声数据源n的某一字段，无噪声数据源n为历史数据。

步骤S3.2：根据所述预测目标，对无噪声数据源进行切分，得到数据集；

即针对预测目标X之前的无噪声数据源进行切分，得到数据集，包括：将之前的无噪声数据源按照如下的比例分为三个数据集，训练集：测试集：验证集=k1：k2：k3，其中，训练集、测试集、验证集数据数量比例值分别为：k1、k2、k3。

步骤S3.3：选择一个或多个AI算法模型；

本实施例选择系统内置的AI算法模型对所述数据集进行训练。

设定用任一AI算法模型对所述数据集训练得到训练集用时分钟数m1，测试集用时分钟数m2，验证集用时分钟数m3。

步骤S3.5：对训练结果进行评分，选择评分最高的模型为最优AI算法模型。对训练结果进行评分，采用如下评分计算公式：

，其中，S为评分结果，n为无噪声数据源的数据数量，y为修正参数，训练集、测试集、验证集数据数量比例值分别为：k1、k2、k3，m1为训练集训练用时，m2为测试集训练用时，m3为验证集训练用时，并且m1、m2、m3的单位需一致。

选择评分最高的模型为最优AI算法模型，包括：若所选择AI算法模型为一个，则该AI算法模型为最优AI算法模型；若所选择AI算法模型为多个，则将多个AI算法模型的评分结果S ₁，S ₂ …S _i …S _P从高到低进行排序，评分最高的即为最优AI算法模型，其中，P为AI算法模型的个数，S _i为第i个AI算法模型的评分结果，i取值为1到P之间的自然数。

仿真结果如表1所示：

表1准确率及用时对比表

从表1可以看出本发明的AI算法建模方法在业务数据预测中具有更高的准确率和更少用时。

第二方面，本发明提出了一种基于数据中台的AI算法建模的系统，如图4所示：包括数据采集模块、数据清洗模块、模型训练模块、模型应用模块，各模块依次顺序连接；

所述模型训练模块用于针对所述无噪声数据源，训练AI算法模型，得到最优AI算法模型；所述AI算法模型应用模块用于将所述最优AI算法模型上线应用。

所述模型训练模块，如图5所示，包括目标设置单元、数据源切分单元、模型选择单元、模型训练单元、模型筛选单元，各单元依次顺序连接；

所述目标设置单元用于设置预测目标；

所述模型选择单元用于选择一个或多个AI算法模型；

本发明发明人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于数据中台的AI算法建模的方法，其特征在于，包括如下步骤：

步骤S1：采集业务数据，并将业务数据汇集至数据仓库；

步骤S2：清洗所述业务数据，得到无噪声数据源；

步骤S4：将所述最优AI算法模型上线应用；

所述训练AI算法模型包括如下步骤：

步骤S3.1：设置预测目标；

步骤S3.3：选择多个AI算法模型；

步骤S3.5：对训练结果进行评分，选择评分最高的模型为最优AI算法模型；

所述对无噪声数据源进行切分，得到数据集，包括：将无噪声数据源按照一定比例切分为训练集、测试集、验证集；

所述训练集、测试集、验证集，其训练分别计时，计时结果采用不同字母表示，且计时单位一致；

所述对训练结果进行评分，采用如下公式：

其中，S为评分结果，n为无噪声数据源的数据数量，y为修正参数，训练集、测试集、验证集数据数量比例值分别为：k1、k2、k3，m1为训练集训练用时，m2为测试集训练用时，m3为验证集训练用时。

2.根据权利要求1所述的基于数据中台的AI算法建模的方法，其特征在于，AI算法模型为系统内置或系统外置。

3.根据权利要求1所述的基于数据中台的AI算法建模的方法，其特征在于，所述选择评分最高的模型为最优AI算法模型，包括：将多个AI算法模型的评分结果进行排序，评分最高的即为最优AI算法模型。

4.根据权利要求1所述的基于数据中台的AI算法建模的方法，其特征在于，所述清洗所述业务数据，是通过ETL工具进行清洗。

5.一种基于数据中台的AI算法建模的系统，其特征在于，包括数据采集模块、数据清洗模块、模型训练模块、模型应用模块，各模块依次顺序连接；

所述模型应用模块用于将所述最优AI算法模型上线应用；

所述目标设置单元用于设置预测目标；

所述模型选择单元用于选择多个AI算法模型；

所述模型筛选单元用于对训练结果进行评分，选择评分最高的模型为最优AI算法模型；

所述对训练结果进行评分，采用如下公式：