CN110717535A

CN110717535A - 一种基于数据分析处理系统的自动建模方法及系统

Info

Publication number: CN110717535A
Application number: CN201910941885.8A
Authority: CN
Inventors: 舒兰; 路明奎; 吴楠京
Original assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Current assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-21
Anticipated expiration: 2039-09-30
Also published as: CN110717535B

Abstract

本发明提供一种基于数据分析处理系统的自动建模方法及系统，涉及数据处理技术领域，所述方法包括：显示用户界面，所述用户界面用于供用户设置用于创建时序预测模型的数据集；获取用户在所述用户界面上设置的数据集；根据所述数据集的数据特性，确定对应的时序预测场景；根据所述数据特性和所述时序预测场景，确定建模策略；其中，所述建模策略包括以下至少之一：建模算法、算法评估方法和算法的参数调优方法；根据确定出的所述建模策略创建所述时序预测模型。本发明的方案降低了对用户的专业水平的要求，使得非专业人士也能够实现一键建模并得到较优的预测结果，提高了用户体验。

Description

一种基于数据分析处理系统的自动建模方法及系统

技术领域

本发明涉及大数据处理技术领域，尤其是涉及一种基于数据分析处理系统的自动建模方法及系统。

背景技术

现有技术中，在进行时序预测模型建模时，需要建模人员与数据分析处理系统进行多次信息交互，逐个选择建模过程中需要的多种参数，若用户选择的参数不合适，则会出现建模失败或预测结果不准确的问题。因此，现有技术存在的不足之处为：建模过程复杂无法实现自动化且对用户的专业水平要求较高。

发明内容

本发明的目的在于提供一种基于数据分析处理系统的自动建模方法及系统，从而解决现有技术中建模过程复杂无法实现自动化且对用户的专业水平要求较高的问题。

为了达到上述目的，本发明提供一种基于数据分析处理系统的自动建模方法，包括：

显示用户界面，所述用户界面用于供用户设置用于创建时序预测模型的数据集；

获取用户在所述用户界面上设置的数据集；

根据所述数据集的数据特性，确定对应的时序预测场景；

根据所述数据特性和所述对应的时序预测场景，确定建模策略；其中，所述建模策略包括以下至少之一：建模算法、算法评估方法和算法的参数调优方法；

根据确定出的所述建模策略创建所述时序预测模型。

优选地，所述建模策略至少还包括：与建模算法对应的数据处理方法。

优选地，所述与建模算法对应的数据处理方法包括以下至少之一：数据清洗处理、数据平滑去噪处理、缺失值填充、归一化、随机采样、特征工程处理和取对数。

优选地，在获取用户在所述用户界面上设置的数据集之后，所述方法还包括：

基于所述建模策略中的所述与建模算法对应的数据处理方法，对所述数据集进行处理，获取目标数据集。

优选地，所述数据特性包括以下至少之一：数据列基本信息和数据特征信息。

优选地，所述数据列基本信息包括以下至少之一：特征列信息和目标列信息；

所述数据特征信息包括以下至少之一：数据规整度、数据维度、数据自相关性、数据平稳性、时间数据粒度和数据周期性。

优选地，所述时序预测场景包括：对应分类算法的子场景、对应回归算法的子场景和对应聚类算法的子场景。

优选地，根据所述数据集的数据特性，确定对应的时序预测场景的步骤包括：

若所述特征列信息中包含时间列，则确定所述预测场景为时序预测场景；

在所述预测场景为时序预测场景时，根据所述目标列信息确定所述时序预测场景中的子场景。

优选地，根据所述目标列信息确定所述时序预测场景中的子场景的步骤包括：

若目标列的数据类型为长整型、双精度、浮点型或小数型，则确定所述子场景为对应回归算法的子场景；

若目标列的数据类型为整型、短整型或布尔型，则确定所述子场景为对应分类算法的子场景；

或者，

若目标列的数据类型为短整型、整型或布尔型，且所述目标列的数据的数量小于预设数量，则确定所述子场景为对应聚类算法的子场景。

优选地，当所述时序预测场景为对应分类算法的子场景时，所述建模算法包括以下至少之一：设置有静态阈值的零均值规范化、设置有静态阈值的变化比例空间算法、三次指数平滑、设置有静态阈值的灰度预测、深度神经网络、长短期记忆网络、孤立森林、轻量级梯度提升机；所述算法评估方法包括以下至少之一：感受性曲线、感受性曲线下的面积、召回率、精准率和F1值；所述算法的参数调优方法包括以下至少之一：网格搜索、随机网格搜索和贝叶斯优化搜索。

优选地，当所述时序预测场景为对应回归算法的子场景时，所述建模算法包括以下至少之一：自回归算法、移动平均算法、自回归滑动平均算法、差分自回归移动平均算法、预言者算法、三次指数平滑、灰度预测、深度神经网络、长短期记忆网络和轻量级梯度提升机；所述算法评估方法包括以下至少之一：均方误差、平均绝对误差和均方根误差；所述算法的参数调优方法包括以下至少之一：网格搜索、随机网格搜索和贝叶斯优化搜索。

优选地，当所述时序预测场景为对应聚类算法的子场景时，所述建模算法包括以下至少之一：K均值聚类算法、K中位数聚类算法、基于密度的空间聚类算法、凝聚的层次聚类算法和分裂的层次聚类算法；所述算法评估方法包括以下至少之一：轮廓系数、戴维森堡丁指数、邓恩指数；所述算法的参数调优方法包括以下至少之一：随机网格搜索、网格搜索、贝叶斯优化搜索和肘部准则。

优选地，所述根据确定出的所述建模策略创建所述时序预测模型的步骤包括：

根据所述建模策略中的所述算法评估方法对所述时序预测模型进行评估，获取评估结果；

基于所述评估结果，获取满足预设条件的目标时序预测模型。

优选地，所述基于所述评估结果，获取满足预设条件的目标时序预测模型的步骤包括：

判断所述评估结果是否符合预设的业务需求和/或标称评估指标；若不符合，则根据所述建模策略中的所述算法的参数调优方法对所述时序预测模型进行调优。

优选地，在所述根据确定出的所述建模策略创建所述时序预测模型的步骤之后，所述方法还包括：

运行创建完成的所述时序预测模型。

优选地，在所述运行创建完成的所述时序预测模型的步骤之后，所述方法还包括：

显示运行完成的所述时序预测模型的模型信息；其中，所述模型信息包括下述至少之一：模型名称、模型评分、模型超参数和模型运行结果。

优选地，在所述模型信息为所述模型运行结果时，所述显示运行完成的所述时序预测模型的模型信息的步骤包括：

显示数据的真实值和与预测值相对应的预测曲线，并根据所述真实值标注所述预测曲线中的异常预测值。

优选地，在所述确定建模策略的步骤之后，所述方法还包括：

在所述用户界面上显示确定出的所述建模策略。

优选地，在所述用户界面上显示确定出的所述建模策略的步骤之后，所述方法还包括：

接收用户在所述用户界面输入的建模策略的调整操作；

响应于所述调整操作，将确定出的所述建模策略更新为用户调整后的建模策略。

本发明实施例还提供一种数据分析处理系统，包括：

显示模块，用于显示用户界面，所述用户界面用于供用户设置用于创建时序预测模型的数据集；

第一获取模块，用于获取用户在所述用户界面上设置的数据集；

第一确定模块，用于根据所述数据集的数据特性，确定对应的时序预测场景；

第二确定模块，用于根据所述数据特性和所述对应的时序预测场景，确定建模策略；其中，所述建模策略包括以下至少之一：建模算法、算法评估方法和算法的参数调优方法；

创建模块，用于根据确定出的所述建模策略创建所述时序预测模型。

优选地，所述数据分析处理系统还包括：

第二获取模块，用于基于所述建模策略中的所述与建模算法对应的数据处理方法，对所述数据集进行处理，获取目标数据集。

优选地，所述第一确定模块包括：

第一确定子模块，用于若所述特征列信息中包含时间列，则确定所述预测场景为时序预测场景；

第二确定子模块，用于在所述预测场景为时序预测场景时，根据所述目标列信息确定所述时序预测场景中的子场景。

优选地，所述第一确定子模块具体用于：

若目标列的数据类型为整型、短整型或布尔型，则确定所述子场景为对应分类算法的子场景；或者，

优选地，所述创建模块包括：

评估子模块，用于根据所述建模策略中的所述算法评估方法对所述时序预测模型进行评估，获取评估结果；

获取子模块，用于基于所述评估结果，获取满足预设条件的目标时序预测模型。

优选地，所述获取子模块具体用于：

优选地，所述数据分析处理系统还包括：

运行模块，用于运行创建完成的所述时序预测模型。

优选地，所述显示模块还用于：

在所述运行模块运行创建完成的所述时序预测模型之后，显示运行完成的所述时序预测模型的模型信息；其中，所述模型信息包括下述至少之一：模型名称、模型评分、模型超参数和模型运行结果。

优选地，在所述模型信息为所述模型运行结果时，所述显示模块具体用于：

优选地，所述显示模块还用于：

在所述第一确定模块确定所述建模策略之后，在所述用户界面上显示确定出的所述建模策略。

优选地，所述数据分析处理系统还包括：

接收模块，用于接收用户在所述用户界面输入的建模策略的调整操作；

更新模块，用于响应于所述调整操作，将确定出的所述建模策略更新为用户调整后的建模策略。

本发明实施例还提供一种数据分析处理系统，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述基于数据分析处理系统的自动建模方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述自动建模方法的步骤。

本发明的上述技术方案至少具有如下有益效果：

本发明实施例中，用户仅需要在用户界面上设置数据集，数据分析处理系统能够根据所述数据集的数据特性确定对应的时序预测场景，进一步根据所述数据特性和所述时序预测场景，自动确定建模策略，避免了人机交互的次数，简化了建模过程，实现了一键自动建模，降低了对用户的专业水平的要求，使得非专业的建模人员也能够完成建模并获得较优的预测效果。

附图说明

图1为本发明实施例的基于数据分析处理系统的自动建模方法的流程示意图；

图2为本发明实施例中场景一的对建模算法的评估结果的示意图；

图3为本发明实施例中场景一的训练预测结果及异常标注的示意图；

图4为本发明实施例中场景二的时间序列预测时序图；

图5为本发明一实施例的数据分析处理系统的示意图；

图6为本发明另一实施例的数据分析处理系统的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例的基于数据分析处理系统的自动建模方法的流程示意图，所述自动建模方法包括：

步骤S101，显示用户界面，所述用户界面用于供用户设置用于创建时序预测模型的数据集；

需要说明的是，本实施例中用于创建时序预测模型的数据集至少包括特征列；对于用于创建有监督学习的时序预测模型的数据集，其还包括目标列。其中，特征列为时序预测模型的输入特征，而目标列为时序预测模型的目标输出(或标签)。

例如，在有监督的异常检测场景中，该数据集包括特征列和目标列，其中，数据集的特征列包括时间列(timestamp)、数值列(value列)和指标列(metric)，其中，时间列、所述数值列和所述指标列组合起来表示某个指标在某个时间的值。其中，所述指标列可以包括：交易量、CPU使用率、网络吞吐量、磁盘访问速度和内存用情况等。该数据集的目标列则表示某个指标在某个时间的值是否为异常值。

步骤S102，获取用户在所述用户界面上设置的数据集；

例如，数据集可以是用户在所述用户界面上的“选择数据模块”的输入框中设置用于创建时序预测模型的数据。

步骤S103，根据所述数据集的数据特性，确定对应的时序预测场景。

步骤S104，根据所述数据特性和所述对应的时序预测场景，确定建模策略；其中，所述建模策略包括以下至少之一：建模算法、算法评估方法和算法的参数调优方法。

步骤S105，根据确定出的所述建模策略创建所述时序预测模型。

本步骤中，所述建模策略至少包括建模算法、算法评估方法和算法的参数调优方法，数据处理分析系统可以基于确定的所述建模算法、所述算法评估方法和所述算法的参数调优方法自动创建并训练模型。

本发明实施例中，数据分析处理系统能够根据用户设置的用于创建时序预测模型的数据集的数据特性，自动确定时序预测场景，根据确定的所述时序预测场景和所述数据集的数据特性，自动确定所述建模策略，并根据确定出的所述建模策略创建所述时序预测模型。在创建时序预测模型过程中，减少了人机交互的过程，简化了建模过程，实现了一键建模，提高了数据分析处理系统的自动化程度，使得非专业的建模人员也能够根据所述数据集创建时序预测模型，提高了用户体验。

在本发明的一些优选实施例中，所述建模策略至少还包括与建模算法对应的数据处理方法。数据分析处理系统根据所述与建模算法对应的数据处理方法对所述数据集进行处理，从而获得目标数据集。

具体的，所述与建模算法对应的数据处理方法包括但不限于下述至少之一：数据清洗处理、数据平滑去噪处理、缺失值填充、归一化、随机采样、特征工程处理和取对数。

在本发明实施例中，所述数据列基本信息包括以下至少之一：特征列信息和目标列信息。本发明实施例中的根据所述数据集的数据特性，确定对应的时序预测场景的步骤包括：根据所述数据列基本信息确定对应的时序预测场景。具体为，根据数据列基本信息中的特征列信息确定是否为时序预测场景；当确定为时序预测场景时，则进一步根据所述数据列基本信息中的目标列信息确定对应的时序预测场景。

其中，所述特征列信息包括：列数、每列的类型和是否有时间列等，根据所述特征列信息确定预测场景是否为时序预测场景的步骤具体为：根据所述特征列信息是否包含时间列，确定预测场景是否为时序预测场景，若所述特征列信息中包含时间列，则确定所述预测场景为时序预测场景，否则，确定所述预测场景为非时序预测场景。

另外，需要说明的是，在确定所述预测场景为非时序预测场景时，也可以进一步确定非时序预测场景的子场景，从而基于确定的非时序预测场景的子场景和数据特性最终确定对应的建模策略，由于创建非时序预测场景的模型与创建时序预测场景的模型过程原理相同，相关人员可以参考本发明阐述的时序预测场景的建模过程，创建非时序预测场景的模型，因此，对于创建非时序预测场景的模型相关内容在此不再详述。

所述目标列信息包括：目标列的列数和每个目标列的数据类型、目标列的数据的数量等。其中，目标列的数据类型包括：整型、长整型、短整型、双精度、浮点型、小数型、布尔型和时间型等。因此，在所述预测场景为时序预测场景时，根据所述目标列信息确定所述时序预测场景中的子场景的步骤包括：根据目标列的数据类型和/或目标列的列数和/或目标列的数据的数量，确定所述时序预测场景中的子场景。

具体的，若目标列的数据类型为长整型、双精度、浮点型或小数型，则确定所述子场景为对应回归算法的子场景；若目标列的数据类型为整型、短整型或布尔型，则确定所述子场景为对应分类算法的子场景；或者，

举例来说，对应回归算法的子场景例如可以包括：访问量预测和风机的功率预测、光伏功率预测等；对应分类算法的子场景例如可以包括：有监督的异常检测、无监督的异常检测和客户流失预测等；对应聚类算法的子场景例如可以包括：恶意流量识别、保险投保者分组、网站关键词来源聚类整合等。

本发明实施例中，根据所述数据特性和所述时序预测场景，确定建模策略的步骤具体为：根据所述数据特征信息和所述对应的时序预测场景中的子场景，确定所述建模策略。其中，所述数据特征信息包括但不限于下述至少之一：数据规整度、数据维度、数据自相关性、数据平稳性、时间数据粒度和数据周期性。

本发明实施例中，在所述对应的时序预测场景为对应分类算法的子场景时，根据所述数据特征信息和所述时序预测场景，确定建模策略的具体过程为：若所述数据维度为低维，则上述建模算法均适用，优先推荐的建模算法包括：设置有静态阈值的零均值规范化、设置有静态阈值的变化比例空间算法、三次指数平滑、设置有静态阈值的灰度预测；此外，所述算法评估方法优选感受性曲线下的面积的算法；所述算法调优方法优选随机网格搜索。若所述数据维度为高维，则推荐的所述建模算法包括：深度神经网络(DNN)、长短期记忆网(LSTM)和轻量级梯度提升机(lightGBM)；另外，所述算法评估方法优选感受性曲线下的面积的算法；所述算法调优方法优选随机网格搜索。

这里需要说明的是，若所述数据的维度为低维，使用深度神经网络(DNN)、长短期记忆网(LSTM)或轻量级梯度提升机(lightGBM)时，需要对所述数据集进行特征衍生，使所述数据集的维度成为高维后，再按照所述建模算法进行建模，从而确保预测结果的准确性更高。

优选地，当所述时序预测场景为对应回归算法的子场景时，所述建模算法包括以下至少之一：自回归算法、移动平均算法、自回归滑动平均算法、差分自回归移动平均算法、预言者算法、三次指数平滑、灰度预测、深度神经网络、长短期记忆网络和轻量级梯度提升机；所述算法评估方法包括以下至少之一：均方误差(MSE)、平均绝对误差(MAE)和均方根误差(RMSE)；所述算法的参数调优方法包括以下至少之一：网格搜索、随机网格搜索和贝叶斯优化搜索。

本发明实施例中，在所述对应的时序预测场景为对应回归算法的子场景时，根据所述数据特征信息和所述时序预测场景，确定建模策略的具体过程为：若所述数据的平稳性为平稳，则仅自回归滑动平均算法不可以选用，其他的建模算法均适用；若所述数据的平稳性为抖动，则可以选用的建模算法包括：自回归滑动平均算法、灰度预测算法、自回归算法和移动平均算法；若所述数据规整度为不规整(即数据有缺失)，或者，所述时间数据粒度大于一预设值，则所述建模算法优先推荐预言者算法；所述算法评估方法优选平均绝对误差；所述算法的参数调优方法优选随机网格搜索。

优选地，当所述时序预测场景为对应聚类算法的子场景时，所述建模算法包括以下至少之一：K均值聚类算法、K中位数聚类算法、基于密度的空间聚类算法、凝聚的层次聚类算法和分裂的层次聚类算法；所述算法评估方法包括以下至少之一：轮廓系数、戴维森堡丁(DB)指数、邓恩(Dunn)指数；所述算法的参数调优方法包括以下至少之一：随机网格搜索、网格搜索、贝叶斯优化搜索和肘部准则。

本发明实施例中，在所述对应的时序预测场景为对应聚类算法的子场景时，上述建模算法优选地是K均值聚类算法，所述算法评估方法优选轮廓系数，所述算法的参数调优方法优选随机网格搜索。

进一步的，根据确定出的所述建模策略创建所述时序预测模型的步骤包括：

需要说明的是，根据所述数据集的数据特性能够从多个建模算法中筛选出适用的建模算法，每一建模算法均会生成一个时序预测模型，因此，为了减少构建时序预测模型过程中对模型进行训练时占用的资源，需要对多个时序预测模型进行评估，从而选择最优的时序预测模型。基于此，本发明实施例中，根据确定出的建模策略构建时序预测模型具体包括：根据多个建模算法分别构建每个算法对应的初始时序预测模型；基于算法评估方法，分别对每个初始时序预测模型进行评估，得到每个初始时序预测模型对应的评估结果；从而，对每个评估结果进行比较，并基于比较结果，确定出一最优的初始时序预测模型；进而，对该最优的初始时序预测模型进行训练，完成时序预测模型的构建。

其中，预设条件包括但不限于下述至少之一：预设的业务需求和标称评估指标。

更进一步的，在基于所述评估结果，获取满足预设条件的目标时序预测模型还包括：

判断所述评估结果是否符合所述预设的业务需求和/或标称评估指标；若不符合，则根据所述建模策略中的所述算法的参数调优方法对所述时序预测模型进行调优。

需要说明的是，在判断所述评估结果符合所述预设的业务需求和/或评估指标时，建模完成，所述目标时序预测模型可以上线，在所述时序预测模型上线后，也可以根据检测到的用户在所述用户界面输入的模型评估和/或模型调整操作，对上线后的所述时序预测模型进行评估和/或调整。

本发明实施例中对所述时序预测模型进行调优，一般首先基于确定的建模算法确定与所述建模算法对应的超参集，然后，根据模型的评估结果和/或模型的预测结果分布，采用确定的所述算法的参数调优方法对所述超参数进行优化调整。

这里，需要说明的是，与轻量级梯度提升机算法对应的超参集包括但不限于下述至少之一：学习率、迭代次数、早停机制、树的最大深度、L1正则化、L2正则化、决策树上的叶子数、特征个数比例、一个叶子上数据的最小数量、执行切分的最小增益、最大直方图数目；与长短期记忆网络算法对应的超参集包括但不限于下述至少之一：学习率、迭代次数、梯度裁剪、早停机制、激活函数的选择、隐藏层层数、隐藏层的神经元个数、L2正则化；与深度神经网络对应的超参集包括但不限于下述至少之一：学习率、迭代次数、隐藏层层数、隐藏层的神经元个数、激活函数的选择、早停机制；与预言者模型对应的超参集包括但不限于下述至少之一：先验变点影响强度(changepoint_prior_scale)、季节性、先验季节影响强度(seasonality_prior_scale)、先验节假日影响强度(holiday_prior_scale)；与三次指数平滑算法对应的超参集包括但不限于下述至少之一：数据平滑因子(α)，0<α<1；趋势平滑因子(β)，0<β<1；季节改变平滑因子(γ)，0<γ<1；与设置有静态阈值的零均值规范化对应的超参数包括但不限于下述至少之一：前面多少个周期数k，前后点的个数m；与设置有静态阈值的变化比例空间算法对应的超参数包括但不限于下述至少之一：前后点的个数；与自回归滑动平均模型算法/差分自回归移动平均模型算法对应的超参数包括但不限于下述至少之一：模型的最佳阶数；与灰度预测模型对应的超参数包括但不限于下述至少之一：m阶、N个变量；与移动平均模型对应的超参数包括但不限于下述至少之一：模型的最佳阶数q；与自回归模型算法对应的超参数包括但不限于下述至少之一：模型的阶数；与基于密度的空间聚类算法对应的超参数包括但不限于下述至少之一：领域半径、在领域中的最少个数；与凝聚的层次聚类算法对应的超参数包括但不限于下述至少之一：簇的个数、合并点的选择和簇距离；与分裂的层次聚类算法对应的超参数包括但不限于下述至少之一：簇的个数、分割点的选择和簇距离；与K均值聚类算法对应的超参数包括但不限于下述至少之一：K值；与K中位数聚类算法对应的超参数包括但不限于下属至少之一：K值。

这里，需要说明的是，设置有静态阈值的灰度预测、设置有静态阈值的零均值规范化和设置有静态阈值的变化比例空间中的静态阈值为：均值与k*标准差的和，其中，0<k<1，k为搜索值。

在对采用自回归算法创建的时序预测模型进行优化时，可以采用AIC准则(Akaikeinformation criterion，赤池信息量准则)判断出模型的最佳阶数；在对采用移动平均算法创建的时序预测模型进行优化时，可以采用BIC定阶准则(Bayesian informationcriterion，贝叶斯信息量准则)判断出模型的最佳阶数；在对采用自回归滑动平均算法/差分自回归移动平均算法创建的时序预测模型进行优化时，采用AIC、BIC准则判断出模型的最佳阶数。

根据模型的评估结果和/或模型的预测结果分布，采用确定的所述算法的参数调优方法对所述超参数进行优化调整的过程具体为：首先，基于模型的评估结果和/或模型的预测结果分布，确定模型的拟合度；其次，基于确定出的模型的拟合度，采用建模策略中的所述算法的参数调优方法，调整所述模型的超参数。

更具体的，若所述模型为过拟合，即：模型在训练集上预测结果的分布与真值分布一致或者与真值差异小，但预测集上数据分布于真值分布不一致或者预测结果的分布于真值分布差异较大，则基于算法的参数调优方法，通过降低模型的复杂度，如：减少迭代次数、设置早停机制和增加正规则等方式，实现对所述模型进行调优。

其中，对于分类子场景过拟合是指：训练集的评估指标较高，预测集的评估指标低，如训练集的感受性曲线下的面积(AUC值)、精准率、召回率高，预测集的AUC值、精准率、召回率低；对于回归子场景过拟合是指，训练集的评估指标较低，预测集的评估指标高，如训练集的RMSE、MSE较低等，预测集的RMSE、MSE高等。

若所述模型为欠拟合，即模型在训练集和验证集各自对应的预测结果的分布与真值分布均不一致，或者，训练集和验证集各自对应的预测结果的分布与真值分布差异均较大，则基于算法的参数调优方法，通过提高模型的复杂度，如：增加迭代次数和减低正则项的权重等方式，实现对所述模型进行调优。

其中，对于分类子场景欠拟合是指，训练集和预测集的评估指标都较低，如AUC值、精准率、召回率低；对于回归子场景欠拟合是指，训练集和预测集的评估指标都较高，如RMSE、MSE较高等。

优选地，根据确定出的所述建模策略创建所述时序预测模型的步骤之后，所述方法还包括：

运行创建完成的所述时序预测模型。

需要说明的是，本发明实施例中，所述数据分析处理系统可以自动运行创建完成的所述时序预测模型，也可以在检测到用户执行用于运行创建完成的所述时序预测模型的操作时，运行所述时序预测模型。

优选地，运行创建完成的所述时序预测模型的步骤之后，所述方法还包括：

具体的，在所述模型信息为所述模型运行结果时，所述显示运行完成的所述时序预测模型的模型信息的步骤包括：

其中，该步骤具体包括：在模型输出预测结果后，展示真实值和预测值。标注的具体实现为：将预测值和真实值进行逐个对比，如果两个值的差值大于预设阈值或者预测值不再预设区间内，则认为该时间点为异常值。如果在某个时间点的预测值为异常值则会对该时间点的预测值进行标注，其标注的意义主要在于可以便捷的定位到异常点，以便于用户了解模型预测情况。

优选地，在确定建模策略之后，所述方法还包括：

在所述用户界面上显示确定的所述建模策略。

在所述用户界面上显示确定的所述建模策略之后，所述方法还包括：

接收用户在所述用户界面输入的建模策略的调整操作；

需要说明的是，本发明实施例在确保能够实现一键建模的基础上，还增加了根据用户的操作调整自动选择的建模策略，从而确保预测结果的准确性更高。

下面，结合具体的场景对本发明实施例的基于数据分析处理系统的自动建模方法进行说明。

场景一：单指标异常检测

步骤1，在用户界面上输入用于创建的模型的数据集，进一步的，对该数据集进行数据处理，包括：数据清洗处理、数据平滑去噪处理、缺失值填充、归一化、随机采样等，以获取目标数据集，即数据处理后的数据集；

步骤2，基于目标数据集的特征列中的时间列，推断场景为时序预测场景；基于数据特性中的目标列的数据类型和数据的数量，如：该场景中目标列的取值只有两个值，0或1，确定为时序预测场景中的对应分类算法的子场景；

步骤3，基于推断的分类子场景和数据特征信息，推荐建模算法、算法评估方法和算法的参数调优方法；如：该场景中数据特征信息包括时间数据粒度、数据规整性；

具体的，基于时序预测场景中的对应分类算法的子场景，确定所述建模算法为上述对应分类算法的子场景对应的算法集；进一步的，该场景中数据集的特征列的时间数据粒度为1天、数据为非规整数据，推荐所述建模算法为：极端随机树算法、DNN算法，孤立森林算法，lightGBM算法，LSTM算法。

进一步的基于时序预测场景中的分类子场景，确定算法评估方法。本发明优选的是，基于感受性曲线下的面积(AUC值)评估指标进行评估。

进一步的，基于推荐的算法，确定每种算法对应的调优方法和对应的超参集。

步骤4，基于推荐的这五种算法，分别进行特征工程，得到特征衍生，然后进行训练；

步骤5，再分别评估训练后的五种模型，得到如图2所示的五种模型的AUC值，基于这五种模型的AUC值，确定最优模型为DNN算法对应的模型；

步骤6，自动计算该DNN模型的最佳阈值，并得出该最佳阈值对应的精准率、召回率，进一步基于该精准率、召回率，计算F1值；进一步地，判断该DNN模型的最佳阈值对应的F1分值是否大于0.5。若大于，完成构建，将构建完成的模型上线，以便用户使用；若小于或等于，执行步骤7进一步调优。

步骤7，若不符合，还可以进一步进行调优，具体的，基于DNN算法对应的调优方法和对应的超参集，调整超参。如调整增加神经元个数、神经网络的深度、调整样本权重、选择激活函数、调整dropout层(丢弃层，用于防止过拟合)比例等超参；

步骤8，若符合，运行构建完成的模型，并展示如图3所示的预测结果及其标注异常信息。

场景二：预测手机银行每天登陆用户数

步骤1，在用户界面上输入用于创建的模型的数据集，进一步的，进行数据预处理，例如：过滤、缺失值填充、取对数等，获取目标数据集；

步骤2，基于目标数据集的特征列中的时间列，推断场景为时序预测场景；基于目标列的数据类型，确定为对应回归算法的子场景；

步骤3，基于推断的子场景和数据特征信息，推荐建模算法、算法评估方法和算法的参数调优方法：如：该场景的数据特征信息包括：时间数据粒度、预测时长；

具体的，基于时序预测场景中的对应回归算法的子场景，确定算法为上述对应回归算法的子场景对应的算法集；进一步的，该场景中的数据集的时间数据粒度为1天、预测时长为未来90天，由于预测时长除以时间数据粒度大于阈值5(其中，该阈值为用于区分时序预测为长期时间时序预测和短期时间时序预测的阈值)，认为是长期时间时序预测，进而，系统推荐该算法为回归子场景对应的算法集中的预言者(prophet)算法；

进一步的，基于时序预测场景中的对应回归算法的子场景，确定算法评估方法，本发明优选的是，基于均方根误差进行评估。

进一步的，基于确定出的prophet算法，确定调优方法以及该prophet算法对应的超参集。其中，该prophet算法对应的超参集包括但不限于下述至少之一：预测曲线类型、马尔科夫蒙特卡洛取样值、突变点的比例、转折点数量等超参。

步骤4，导入第一日历表以及特殊事件日预设表格，系统自动标注节假日和特殊事件日等，得到标注有节假日和特殊事件日的目标日历表。

步骤5，利用目标数据集和标注有节假日和特殊事件日的目标日历表，基于推荐prophet的进行训练，得到训练模型；并展示如图4所示的时间预测时序图；

步骤6，基于推荐的适用对应回归算法的子场景的算法评估方法对该训练模型进行评估，得到均方根误差除以目标列的均值得到评估结果，并判断该评估结果是否满足预设的业务需求和/或标称评估指标，若不满足，执行步骤7；否则，执行步骤8。在该场景中，假设该评估结果为0.18，此处的标称评估指标为均方根误差除以目标列的均值小于0.2，故满足，执行步骤8。

步骤7，若不满足，进一步地用网格搜索来调整超参数，如预测曲线类型、马尔科夫蒙特卡洛取样值、突变点的比例、转折点数量等，重复上述评估和调优操作，直到评估的模型达到预设的业务需求和/或标称评估指标。

步骤8，若满足，运行构建完成的模型，并展示如图4所示的时间序列预测时序图。

请参考图5，本发明实施例还提供一种数据分析处理系统50，包括：

显示模块501，用于显示用户界面，所述用户界面用于供用户设置用于创建时序预测模型的数据集；

第一获取模块502，用于获取用户在所述用户界面上设置的数据集；

第一确定模块503，用于根据所述数据集的数据特性，确定对应的时序预测场景；

第二确定模块504，用于根据所述数据特性和所述对应的时序预测场景，确定建模策略；其中，所述建模策略包括以下至少之一：建模算法、算法评估方法和算法的参数调优方法；

创建模块505，用于根据确定出的所述建模策略创建所述时序预测模型。

进一步的，所述建模策略至少还包括：与建模算法对应的数据处理方法。

具体的，所述与建模算法对应的数据处理方法包括以下至少之一：数据清洗处理、数据平滑去噪处理、缺失值填充、归一化、随机采样、特征工程处理和取对数。

进一步的，所述数据分析处理系统50还包括：

其中，所述数据特性包括以下至少之一：数据列基本信息和数据特征信息。

具体的，

所述数据列基本信息包括以下至少之一：特征列信息和目标列信息；

具体的，所述第一确定模块503包括：

更具体的，所述第一确定子模块具体用于：

或者，

优选地，当所述时序预测场景为对应分类算法的子场景时，所述建模算法包括以下至少之一：设置有静态阈值的零均值规范化、设置有静态阈值的变化比例空间算法、三次指数平滑、设置有静态阈值的灰度预测、深度神经网络、长短期记忆网络、孤立森林、轻量级梯度提升机；所述算法评估方法包括以下至少之一：感受性曲线、感受性曲线下的面积、召回率、精准率和F1值；所述算法的参数调优方法包括以下至少之一：网格搜索、随机网格搜索和贝叶斯优化搜索；

当所述时序预测场景为对应回归算法的子场景时，所述建模算法包括以下至少之一：自回归算法、移动平均算法、自回归滑动平均算法、差分自回归移动平均算法、预言者算法、三次指数平滑、灰度预测、深度神经网络、长短期记忆网络和轻量级梯度提升机；所述算法评估方法包括以下至少之一：均方误差、平均绝对误差和均方根误差；所述算法的参数调优方法包括以下至少之一：网格搜索、随机网格搜索和贝叶斯优化搜索；

当所述时序预测场景为对应聚类算法的子场景时，所述建模算法包括以下至少之一：K均值聚类算法、K中位数聚类算法、基于密度的空间聚类算法、凝聚的层次聚类算法和分裂的层次聚类算法；所述算法评估方法包括以下至少之一：轮廓系数、戴维森堡丁指数、邓恩指数；所述算法的参数调优方法包括以下至少之一：随机网格搜索、网格搜索、贝叶斯优化搜索和肘部准则。

进一步的，所述创建模块505包括：

更具体的，所述获取子模块具体用于：

优选地，所述数据分析处理系统50还包括：

运行模块，用于在根据确定出的所述建模策略创建所述时序预测模型后，运行创建完成的所述时序预测模型。

其中，所述显示模块501还用于：

具体的，在所述模型信息为所述模型运行结果时，所述显示模块501具体用于：

优选地，所述显示模块501还用于：在所述第一确定模块确定所述建模策略之后，在所述用户界面上显示确定出的所述建模策略。

进一步的，所述数据分析处理系统50还包括：

请参阅图6，图6为本发明又一实施例的数据分析处理系统的结构示意图，所述数据分析处理系统60包括：处理器601和存储器602。在本发明实施例中，所述数据分析处理系统60还包括：存储在存储器602上并可在处理器601上运行的计算机程序，所述计算机程序被所述处理器601执行时实现如下步骤：

获取用户在所述用户界面上设置的数据集；

根据所述数据集的数据特性，确定对应的时序预测场景；

根据确定出的所述建模策略创建所述时序预测模型。

处理器601负责管理总线架构和通常的处理，存储器602可以存储处理器601在执行操作时所使用的数据。

进一步的，所述计算机程序被所述处理器601执行时还可实现如下步骤：在获取用户在所述用户界面上设置的数据集之后，还包括：

具体的，所述数据特性包括以下至少之一：数据列基本信息和数据特征信息。

更具体的，

其中，所述时序预测场景包括：对应分类算法的子场景、对应回归算法的子场景和对应聚类算法的子场景。

优选地，所述计算机程序被所述处理器601执行时还可实现如下步骤：根据所述数据集的数据特性，确定对应的时序预测场景的步骤包括：

具体的，所述计算机程序被所述处理器601执行时还可实现如下步骤：根据所述目标列信息确定所述时序预测场景中的子场景的步骤包括：

或者，

当所述时序预测场景为对应回归算法的子场景时，所述建模算法包括以下至少之一：自回归算法、移动平均算法、自回归滑动平均算法、差分自回归移动平均算法、预言者算法、三次指数平滑、灰度预测、深度神经网络、长短期记忆网络和轻量级梯度提升机；所述算法评估方法包括以下至少之一：均方误差、平均绝对误差和均方根误差；所述算法的参数调优方法包括以下至少之一：网格搜索、随机网格搜索和贝叶斯优化搜索。

进一步的，所述计算机程序被所述处理器601执行时还可实现如下步骤：根据确定出的所述建模策略创建所述时序预测模型的步骤包括：

更进一步的，所述计算机程序被所述处理器601执行时还可实现如下步骤：所述基于所述评估结果，获取满足预设条件的目标时序预测模型的步骤包括：

其中，所述计算机程序被所述处理器601执行时还可实现如下步骤：在所述根据确定出的所述建模策略创建所述时序预测模型的步骤之后，还包括：

运行创建完成的所述时序预测模型。

进一步的，所述计算机程序被所述处理器601执行时还可实现如下步骤：在运行创建完成的所述时序预测模型的步骤之后，还包括：

具体的，所述计算机程序被所述处理器601执行时还可实现如下步骤：在所述模型信息为所述模型运行结果时，所述显示运行完成的所述时序预测模型的模型信息的步骤包括：

优选地，所述计算机程序被所述处理器601执行时还可实现如下步骤：在确定建模策略的步骤之后，还包括：

在所述用户界面上显示确定出的所述建模策略。

进一步的，所述计算机程序被所述处理器601执行时还可实现如下步骤：在所述用户界面上显示确定出的所述建模策略的步骤之后，还包括：

接收用户在所述用户界面输入的建模策略的调整操作；

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述自动建模方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于数据分析处理系统的自动建模方法，其特征在于，包括：

获取用户在所述用户界面上设置的数据集；

根据所述数据集的数据特性，确定对应的时序预测场景；

根据确定出的所述建模策略创建所述时序预测模型。

2.根据权利要求1所述的自动建模方法，其特征在于，所述数据特性包括以下至少之一：数据列基本信息和数据特征信息。

3.根据权利要求2所述的自动建模方法，其特征在于，

4.根据权利要求3所述的自动建模方法，其特征在于，根据所述数据集的数据特性，确定对应的时序预测场景的步骤包括：

5.根据权利要求4所述的自动建模方法，其特征在于，根据所述目标列信息确定所述时序预测场景中的子场景的步骤包括：

6.一种数据分析处理系统，其特征在于，包括：

7.根据权利要求6所述的数据分析处理系统，其特征在于，所述数据特性包括以下至少之一：数据列基本信息和数据特征信息。

8.根据权利要求7所述的数据分析处理系统，其特征在于，

9.根据权利要求8所述的数据分析处理系统，其特征在于，所述第一确定模块包括：

10.根据权利要求9所述的数据分析处理系统，其特征在于，所述第一确定子模块具体用于：