CN113609779B

CN113609779B - 分布式机器学习的建模方法、装置及设备

Info

Publication number: CN113609779B
Application number: CN202110936432.3A
Authority: CN
Inventors: 赵振崇; 薛鹏
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2024-04-09
Anticipated expiration: 2041-08-16
Also published as: CN113609779A

Abstract

一种分布式机器学习的建模方法、装置及设备，通过对获取的训练数据集设置对应的目标建模单元，目标建模单元为以下一项：分类建模单元、回归建模单元或聚类建模单元；为目标建模单元包括的各建模算法配置参数选择模式和验证模式，得到多个初始建模算法和多组训练子集和验证子集；将各组中的训练子集分别输入各初始建模算法中，并根据分布式任务调度策略得到各初始建模算法的预测模型；根据评价参数对各预测模型进行评估，得到满足预设条件的目标初始建模算法；根据训练数据集对目标初始建模算法进行训练得到目标预测模型，并通过目标预测模型对待预测数据进行预测，减少了自动建模的时间和降低了对分析人员的技能要求，使得机器学习更加智能。

Description

分布式机器学习的建模方法、装置及设备

技术领域

本发明涉及自动化机器学习技术领域，具体涉及一种分布式机器学习的建模方法、装置及设备。

背景技术

随着大数据的发展，机器学习应用已经在和行业结合逐步落地，但在机器学习的研究及应用过程中，机器学习算法需要针对每个不同的现实场景进行配置和优化，数据分析人员通常需要将大量的时间和精力放在模型调参中，也增加了对数据分析人员的技能要求。如果可以自动的确定哪些模型结构会产生更好的效果，而无须使用人力去尝试不同的算法及针对算法进行调参，这无疑会增进研究的效率。基于这样的想法，自动化机器学习逐渐称为成为目前热点研究方向。如果算法选择和模型参数调优是自动化的，那么部署过程将更加高效，并且人们可以关注更重要的任务，例如模型可解释性、道德规范和业务结果。因此，机器学习模型构建过程的自动化具有重要的现实意义。

在当前大数据背景下，Apache Spark是专为大规模数据处理而设计的快速通用的分布式计算引擎，目前已经在业界广泛应用。当前主流厂家也提出很多成熟的自动机器学习技术，但都是针对特定的计算框架，并不适用于当前的分布式机器学习。

发明内容

本发明实施例提供一种分布式机器学习的建模方法、装置及设备，用以实现智能化的分布式机器学习。

根据第一方面，一种实施例中提供一种分布式机器学习的建模方法，包括：

获取训练数据集，并对所述训练数据集设置对应的目标建模单元，所述目标建模单元为以下一项：分类建模单元、回归建模单元或者聚类建模单元，每种建模单元包括多种建模算法、多种验证模式、多种参数选择模式和多种评价参数，其中，所述分类建模单元应用于分类预测场景，所述回归建模单元应用于回归预测场景以及所述聚类建模单元应用于聚类预测场景；

为所述目标建模单元包括的各所述建模算法，配置对应的参数选择模式和验证模式，得到多个具有不同算法参数组合的初始建模算法和各所述初始建模算法对应的多组训练子集和验证子集；

将各组中的所述训练子集分别输入对应的各所述初始建模算法中，并根据分布式任务调度策略，得到各所述初始建模算法的预测模型；

根据评价参数，通过各组中的所述验证子集对各所述初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法；

根据所述训练数据集，对所述目标初始建模算法进行训练，得到目标预测模型，并通过所述目标预测模型，对待预测数据进行预测。

可选的，所述根据评价参数，通过各组中的所述验证子集对各所述初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法，包括：

根据评价参数，得到各所述初始建模算法的预测模型的评价指标结果；

将所述评价指标结果位于预设排名的各所述初始建模算法，确定为目标初始建模算法；

所述对所述目标初始建模算法进行训练，得到目标预测模型，并通过所述目标预测模型，对待预测数据进行预测，包括：

分别对位于预设排名的各所述目标初始建模算法进行训练，得到对应数量的目标预测模型，并通过所述对应数量的目标预测模型，对待预测数据进行预测。

可选的，所述根据分布式任务调度策略，得到各所述初始建模算法的预测模型，包括：

通过spark计算框架，生成执行各训练任务的有向无环图DAG；

根据所述DAG，得到各所述初始建模算法的预测模型。

可选的，当所述目标建模单元为分类建模单元时，所述建模算法包括：逻辑回归分类算法、决策树分类算法、梯度提升树分类算法、极端梯度提升分类算法、随机森林分类算法、朴素贝叶斯分类算法、支持向量机分类算法、多层感知机分类算法、基于直方图的决策树分类算法LightGBM、因子分解机分类算法、自适应提升分类算法AdaBoost和最邻近分类算法；所述验证模式包括：固定划分和交叉验证；所述参数选择模式包括：网格搜索、随机搜索、贝叶斯优化、树状结构Parzen估计方法TPE和模拟退火算法；所述评价参数包括：F值、加权精确率、加权召回率和精度。

可选的，当所述目标建模单元为回归建模单元时，所述建模算法包括：线性回归算法、决策树回归算法、梯度提升树回归算法、保序回归算法、极端梯度提升回归算法、随机森林回归算法、广义线性回归算法、基于直方图的决策树回归算法LightGBM、因子分解机回归算法、自适应提升回归算法AdaBoost和最邻近回归算法；所述验证模式包括：固定划分和交叉验证；所述参数选择模式包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；所述评价参数包括：平均绝对误差、均方误差、均方根差、和R平方值。

可选的，当所述目标建模单元为聚类建模单元时，所述建模算法包括：K均值聚类算法KMeans、二分K均值聚类算法、高斯混合模型算法、模糊C均值聚类算法、Canopy聚类算法、CanopyKmeans聚类算法和DBScan聚类算法；所述验证模式包括：固定划分和交叉验证；所述参数选择模式包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；所述评价参数包括：轮廓系数。

根据第二方面，一种实施例中提供一种分布式机器学习的建模装置，包括：

设置模块，用于获取训练数据集，并对所述训练数据集设置对应的目标建模单元，所述目标建模单元为以下一项：分类建模单元、回归建模单元或者聚类建模单元，每种建模单元包括多种建模算法、多种验证模式、多种参数选择模式和多种评价参数，其中，所述分类建模单元应用于分类预测场景，所述回归建模单元应用于回归预测场景以及所述聚类建模单元应用于聚类预测场景；

配置模块，用于为所述目标建模单元包括的各所述建模算法，配置对应的参数选择模式和验证模式，得到多个具有不同算法参数组合的初始建模算法和各所述初始建模算法对应的多组训练子集和验证子集；

第一获取模块，用于将各组中的所述训练子集分别输入对应的各所述初始建模算法中，并根据分布式任务调度策略，得到各所述初始建模算法的预测模型；

第二获取模块，用于根据评价参数，通过各组中的所述验证子集对各所述初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法；

预测模块，用于根据所述训练数据集，对所述目标初始建模算法进行训练，得到目标预测模型，并通过所述目标预测模型，对待预测数据进行预测。

可选的，所述第二获取模块，具体用于根据评价参数，得到各所述初始建模算法的预测模型的评价指标结果；将所述评价指标结果位于预设排名的各所述初始建模算法，确定为目标初始建模算法；

所述预测模块，具体用于分别对位于预设排名的各所述目标初始建模算法进行训练，得到对应数量的目标预测模型，并通过所述对应数量的目标预测模型，对待预测数据进行预测。

可选的，所述第一获取模块，具体用于通过spark计算框架，生成执行各训练任务的有向无环图DAG；根据所述DAG，得到各所述初始建模算法的预测模型。

根据第三方面，一种实施例中提供一种电子设备，包括：存储器，用于存储程序；处理器，用于通过执行所述存储器存储的程序以实现上述第一方面中任一项所述的分布式机器学习的建模方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现上述第一方面中任一项所述的分布式机器学习的建模方法。

本发明实施例提供一种分布式机器学习的建模方法、装置及设备，通过获取训练数据集，并对训练数据集设置对应的目标建模单元，目标建模单元为以下一项：分类建模单元、回归建模单元或者聚类建模单元，每种建模单元包括多种建模算法、多种验证模式、多种参数选择模式和多种评价参数；为目标建模单元包括的各建模算法，配置对应的参数选择模式和验证模式，得到多个具有不同算法参数组合的初始建模算法和各初始建模算法对应的多组训练子集和验证子集；将各组中的训练子集分别输入对应的各初始建模算法中，并根据分布式任务调度策略，得到各初始建模算法的预测模型；根据评价参数，通过各组中的验证子集对各初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法；根据训练数据集，对目标初始建模算法进行训练，得到目标预测模型，并通过目标预测模型，对待预测数据进行预测，无需分析人员了解机器学习算法及参数，就可以实现分布式的自动算法选择和自动模型调优，减少了自动建模的时间和降低了对分析人员的技能要求，使得机器学习更加智能。

附图说明

图1为本发明实施例提供的一种分布式机器学习的建模方法的实施例一的流程示意图；

图2为本发明实施例提供的一种自动分类参数设置的示意图；

图3为本发明实施例提供的一种自动回归参数设置的示意图；

图4为本发明实施例提供的一种自动聚类参数设置的示意图；

图5为本发明实施例提供的一种自动建模装置的结构示意图；

图6为本发明实施例提供的一种分布式机器学习的建模方法的实施例二的流程示意图；

图7为本发明实施例提供的一种分布式机器学习的建模方法的实施例三的流程示意图；

图8为本发明实施例提供的一种分布式机器学习的建模装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

由于现有技术中，当前主流厂家提出的很多成熟的自动机器学习技术，都是针对特定的计算框架，并不适用于当前的分布式机器学习。为了实现智能化的分布式机器学习，本发明实施例提供了一种分布式机器学习的建模方法、装置及设备，以下分别进行详细说明。

图1为本发明实施例提供的一种分布式机器学习的建模方法的实施例一的流程示意图，本发明实施例的执行主体为任意具有处理能力的设备。如图1所示，本实施例提供的分布式机器学习的建模方法可以包括：

S101，获取训练数据集，并对训练数据集设置对应的目标建模单元。

其中，目标建模单元可以为以下一项：分类建模单元、回归建模单元或者聚类建模单元，每种建模单元可以包括内置的多种建模算法、多种验证模式、多种参数选择模式和多种评价参数，其中，分类建模单元可以应用于分类预测场景，回归建模单元可以应用于回归预测场景以及聚类建模单元可以应用于聚类预测场景。

具体实现时，当目标建模单元为分类建模单元时，对应的建模算法可以包括：逻辑回归分类算法、决策树分类算法、梯度提升树分类算法、极端梯度提升分类算法(ExtremeGradient Boosting，XGBoost)、随机森林分类算法、朴素贝叶斯分类算法、支持向量机分类算法、多层感知机分类算法、基于直方图的决策树分类算法LightGBM、因子分解机分类算法、自适应提升分类算法AdaBoost和最邻近分类算法(K-Nearest Neighbor，KNN)；验证模式可以包括：固定划分和交叉验证；参数选择模式可以包括：网格搜索、随机搜索、贝叶斯优化、树状结构Parzen估计方法(Tree-structured Parzen Estimator，TPE)和模拟退火算法(Simulate Anneal Algorithm，SAA)；评价参数可以包括：F值、加权精确率、加权召回率和精度。

具体实现时，当目标建模单元为回归建模单元时，对应的建模算法可以包括：线性回归算法、决策树回归算法、梯度提升树回归算法、保序回归算法、极端梯度提升回归算法XGBoost、随机森林回归算法、广义线性回归算法、基于直方图的决策树回归算法LightGBM、因子分解机回归算法、自适应提升回归算法AdaBoost和最邻近回归算法KNN；验证模式可以包括：固定划分和交叉验证；参数选择模式可以包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；评价参数可以包括：平均绝对误差(Mean Absolute Error，MAE)、均方误差(Mean-Squared_Error，MSE)、均方根差(Root-Mean-Square Error，RMSE)、和R平方值。

具体实现时，当目标建模单元为聚类建模单元时，对应的建模算法可以包括：K均值聚类算法KMeans、二分K均值聚类算法、高斯混合模型算法、模糊C均值聚类算法、Canopy聚类算法、CanopyKmeans聚类算法和DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)聚类算法；验证模式可以包括：固定划分和交叉验证；参数选择模式可以包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；评价参数可以包括：轮廓系数。

S102，为目标建模单元包括的各建模算法，配置对应的参数选择模式和验证模式，得到多个具有不同算法参数组合的初始建模算法和各初始建模算法对应的多组训练子集和验证子集。

具体实现时，可以从上述设置好的目标建模单元内置的多种验证模式、多种参数选择模式和多种评价参数中，针对每一个建模算法，选择出该建模算法对应的一种验证模式和一种参数选择模式，并为各建模算法设置一种统一的评价参数。

具体的，针对每一个建模算法，通过选择的参数选择模式，为该建模算法配置了多个不同算法参数组合，从而得到了多个初始建模算法。同时，针对每一个建模算法，通过选择的验证模式对训练数据集进行划分，得到多组训练子集和验证子集。例如，当验证模式为“固定划分”时，可以将训练数据集划分成两个互斥子集：训练子集和验证子集，可以将训练子集和验证子集的比例选取为7：3；当验证模式为“交叉验证”时，可以将训练数据集均分为K组，得到K个子集，将每个子集数据分别做一次验证子集，其余的K-1组子集数据作为训练子集，这样会得到K个模型，用这K个模型最终的验证子集的分类准确率的平均数作为该分类器的性能指标。

图2为本发明实施例提供的一种自动分类参数设置的示意图，如图2所示，当建模类型为分类时，可以设置并显示以下内容：算子名称为“自动分类”，评价参数为“f1”(即F值)，验证模式为“固定划分”，训练集占比为“0.7”，参数选择模式为“随机搜索”，迭代次数为“20”次。

图3为本发明实施例提供的一种自动回归参数设置的示意图，如图3所示，当建模类型为回归时，可以设置并显示以下内容：算子名称为“自动回归”，评价参数为“mse”(即均方误差)，验证模式为“固定划分”，训练集占比为“0.7”，参数选择模式为“随机搜索”，迭代次数为“20”次。

图4为本发明实施例提供的一种自动聚类参数设置的示意图，如图4所示，当建模类型为聚类时，可以设置并显示以下内容：算子名称为“自动聚类”，评价参数为“Silhouette”(即轮廓系数)，验证模式为“固定划分”，训练集占比为“0.7”，参数选择模式为“随机搜索”，迭代次数为“20”次。

S103，将各组中的训练子集分别输入对应的各初始建模算法中，并根据分布式任务调度策略，得到各初始建模算法的预测模型。

具体实现时，可以通过spark计算框架，生成执行各训练任务的有向无环图(Directed acyclic graph，DAG)；再根据该DAG图，得到各初始建模算法的预测模型。

S104，根据评价参数，通过各组中的验证子集对各初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法。

根据评价参数，通过各组中的验证子集对各预测模型进行评估后，可以得到各预测模型的评价指标结果。可选的，将最优评价结果的预测模型对应的初始建模算法作为目标初始建模算法。进一步地，为了增加模型的泛化能力和预测准确度，也可以将评价指标结果位于预设排名的各初始建模算法，确定为目标初始建模算法，例如，将排名在前三的各初始建模算法，确定为目标初始建模算法。此时，这些目标初始建模算法已经确定了建模算法和对应的算法参数(超参数)。

S105，根据训练数据集，对目标初始建模算法进行训练，得到目标预测模型，并通过目标预测模型，对待预测数据进行预测。

通过全量的训练数据集对目标初始建模算法进行训练，可以得到预测结果更加准确的目标预测模型，从而可以通过得到的目标预测模型，对待预测数据进行预测。具体实现时，可以将得到的目标预测模型，应用于生活中有关分类、回归或者聚类的预测场景。例如，当需要预测房价走势时，可以由分析人员选定回归建模单元后，通过上述目标预测模型进行自动预测，无需分析人员了解机器学习算法及参数，就可以实现房价的预测；或者，当需要对众多客户进行用户级别划分时，可以由分析人员选定聚类建模单元后，通过上述目标预测模型进行自动预测，得到众多客户中的VIP用户和非VIP用户，无需分析人员了解机器学习算法及参数，就可以实现不同级别用户的聚类；或者，当需要对鲜花进行分类时，可以由分析人员选定分类建模单元后，通过上述目标预测模型进行自动分类，无需分析人员了解机器学习算法及参数，就可以确定各个待预测鲜花的类别。本实施例提供的目标预测模型可以应用于通用的分类、回归和聚类预测场景，在此不做一一列举。

本发明实施例提供的分布式机器学习的建模方法，通过获取训练数据集，并对训练数据集设置对应的目标建模单元，目标建模单元为以下一项：分类建模单元、回归建模单元或者聚类建模单元，每种建模单元包括多种建模算法、多种验证模式、多种参数选择模式和多种评价参数；为目标建模单元包括的各建模算法，配置对应的参数选择模式和验证模式，得到多个具有不同算法参数组合的初始建模算法和各初始建模算法对应的多组训练子集和验证子集；将各组中的训练子集分别输入对应的各初始建模算法中，并根据分布式任务调度策略，得到各初始建模算法的预测模型；根据评价参数，通过各组中的验证子集对各初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法；根据训练数据集，对目标初始建模算法进行训练，得到目标预测模型，并通过目标预测模型，对待预测数据进行预测，无需分析人员了解机器学习算法及参数，就可以实现分布式的自动算法选择和自动模型调优，减少了自动建模的时间和降低了对分析人员的技能要求，使得机器学习更加智能。

作为一种可以实现的方式，图5为本发明实施例提供的一种自动建模装置的结构示意图，该自动建模装置可以包括：管理层、解析层、执行层和运行环境。其中，管理层包括自动分类子装置(即上述实施例中的分类建模单元)、自动回归子装置(即上述实施例中的回归建模单元)和自动聚类子装置(即上述实施例中的聚类建模单元)，具体实现时，预先分别为自动分类子装置、自动回归子装置和自动聚类子装置内置多种建模算法、多种验证模式、多种参数选择模式和多种评价参数。解析层包括一个调参系统。执行层可以包括：Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)和SPARK计算引擎。运行环境可以包括：服务器、服务器集群和云主机集群等。

具体的，可以通过上述图5所示的自动建模装置，实现图6所示的本发明实施例二提供的分布式机器学习的建模方法，如图6所示，本实施例提供的分布式机器学习的建模方法可以包括：

S601，用户根据业务类型选择管理层中的一个子装置。

S602，将预处理后的数据输入选择的子装置中。

S603，由自动建模装置加载内置的基分类器，设置调参算法类型、算法评估指标、需要调整的算法参数列表及算法参数范围。

基分类器即为建模算法对应的分类器。

S604，由自动建模装置解析算法类型，解析参数，划分训练数据集，并生成调参的模型训练的DAG图。

S605，由自动建模装置根据DAG图，调度和监控每批次训练任务的执行，获取执行结果。

其中，执行结果即为通过算法评估指标计算得到的各基分类器的算法评估结果，各基分类器即为上述实施例中的初始预测模型。例如，上述基分类器有十个，针对每一个基分类器的参数组合有十组，并且通过验证模式得到的训练子集有十个，那么经上述步骤的执行，可以得到500个执行结果。

S606，由自动建模装置在所有训练任务成功后，根据设置的算法评估指标，选择最优参数组合，使用最优参数组合在全量数据集上再次训练模型，得到复合最优模型。

上述复合最优模型为算法评估结果位于预设排名的多个独立的算法模型。例如，可以在全量数据集上对500个执行结果中位于前三的初始预测模型进行再次训练，得到复合最优模型。

S607，使用复合最优模型进行数据的预测任务。

图7为本发明实施例提供的一种分布式机器学习的建模方法的实施例三的流程示意图，如图7所示，由用户向管理层发送建模请求，管理层将数据和参数传递至参数选择客户端Client，参数选择客户端Client向参数选择服务端Server发送学习信息，参数选择服务端Server向Spark集群发送任务Job，待Spark集群分配好任务并行执行顺序后，执行各任务，并将得到的模型和对应指标返回给参数选择服务端Server，参数选择服务端Server将模型和对应指标返回给参数选择客户端Client，参数选择客户端Client将模型和对应指标返回至管理层，管理层将最优模型返回至用户。

图8为本发明实施例提供的一种分布式机器学习的建模装置的结构示意图，如图8所示，该建模装置80可以包括：

设置模块810，可以用于获取训练数据集，并对训练数据集设置对应的目标建模单元，目标建模单元为以下一项：分类建模单元、回归建模单元或者聚类建模单元，每种建模单元包括多种建模算法、多种验证模式、多种参数选择模式和多种评价参数，其中，分类建模单元可以应用于分类预测场景，回归建模单元可以应用于回归预测场景以及聚类建模单元可以应用于聚类预测场景。

配置模块820，可以用于为目标建模单元包括的各建模算法，配置对应的参数选择模式和验证模式，得到多个具有不同算法参数组合的初始建模算法和各初始建模算法对应的多组训练子集和验证子集。

第一获取模块830，可以用于将各组中的训练子集分别输入对应的各初始建模算法中，并根据分布式任务调度策略，得到各初始建模算法的预测模型。

第二获取模块840，可以用于根据评价参数，通过各组中的验证子集对各初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法。

预测模块850，可以用于根据训练数据集，对目标初始建模算法进行训练，得到目标预测模型，并通过目标预测模型，对待预测数据进行预测。

本发明实施例提供的分布式机器学习的建模装置，通过设置模块，获取训练数据集，并对训练数据集设置对应的目标建模单元，目标建模单元为以下一项：分类建模单元、回归建模单元或者聚类建模单元，每种建模单元包括多种建模算法、多种验证模式、多种参数选择模式和多种评价参数；通过配置模块，为目标建模单元包括的各建模算法，配置对应的参数选择模式和验证模式，得到多个具有不同算法参数组合的初始建模算法和各初始建模算法对应的多组训练子集和验证子集；通过第一获取模块，将各组中的训练子集分别输入对应的各初始建模算法中，并根据分布式任务调度策略，得到各初始建模算法的预测模型；通过第二获取模块根据评价参数，通过各组中的验证子集对各初始建模算法的预测模型进行评估，得到满足预设条件的目标初始建模算法；通过预测模块，根据训练数据集，对目标初始建模算法进行训练，得到目标预测模型，并通过目标预测模型，对待预测数据进行预测，无需分析人员了解机器学习算法及参数，就可以实现分布式的自动算法选择和自动模型调优，减少了自动建模的时间和降低了对分析人员的技能要求，使得机器学习更加智能。

可选的，上述第二获取模块840，可以具体用于根据评价参数，得到各初始建模算法的预测模型的评价指标结果；将评价指标结果位于预设排名的各初始建模算法，确定为目标初始建模算法；此时，上述预测模块850，可以具体用于分别对位于预设排名的各目标初始建模算法进行训练，得到对应数量的目标预测模型，并通过对应数量的目标预测模型，对待预测数据进行预测。

可选的，上述第一获取模块830，可以具体用于通过spark计算框架，生成执行各训练任务的有向无环图DAG；根据DAG，得到各初始建模算法的预测模型。

可选的，当目标建模单元为分类建模单元时，对应的建模算法可以包括：逻辑回归分类算法、决策树分类算法、梯度提升树分类算法、极端梯度提升分类算法、随机森林分类算法、朴素贝叶斯分类算法、支持向量机分类算法、多层感知机分类算法、LightGBM分类算法、因子分解机分类算法、AdaBoost分类算法和最邻近分类算法；验证模式可以包括：固定划分和交叉验证；参数选择模式可以包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；评价参数可以包括：F值、加权精确率、加权召回率和精度。

可选的，当目标建模单元为回归建模单元时，对应的建模算法可以包括：线性回归算法、决策树回归算法、梯度提升树回归算法、保序回归算法、极端梯度提升回归算法、随机森林回归算法、广义线性回归算法、LightGBM回归算法、因子分解机回归算法、AdaBoost回归算法和最邻近回归算法；验证模式可以包括：固定划分和交叉验证；参数选择模式可以包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；评价参数可以包括：平均绝对误差、均方误差、均方根差、和R平方值。

可选的，当目标建模单元为聚类建模单元时，对应的建模算法可以包括：KMeans聚类算法、二分K均值聚类算法、高斯混合模型算法、模糊C均值聚类算法、Canopy聚类算法、CanopyKmeans聚类算法和DBScan聚类算法；验证模式可以包括：固定划分和交叉验证；参数选择模式可以包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；评价参数可以包括：轮廓系数。

另外，相应于上述实施例所提供的分布式机器学习的建模方法，本发明实施例还提供了一种电子设备，该电子设备可以包括：存储器，用于存储程序；处理器，用于通过执行存储器存储的程序以实现本发明实施例提供的分布式机器学习的建模方法的所有步骤。

另外，相应于上述实施例所提供的分布式机器学习的建模方法，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时实现本发明实施例的分布式机器学习的建模方法的所有步骤。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种分布式机器学习的建模方法，其特征在于，包括：

根据所述训练数据集，分别对位于预设排名的各所述目标初始建模算法进行训练，得到对应数量的目标预测模型，并通过所述对应数量的目标预测模型，对待预测数据进行预测。

2.如权利要求1所述的方法，其特征在于，所述根据分布式任务调度策略，得到各所述初始建模算法的预测模型，包括：

通过spark计算框架，生成执行各训练任务的有向无环图DAG；

根据所述DAG，得到各所述初始建模算法的预测模型。

3.如权利要求1所述的方法，其特征在于，当所述目标建模单元为分类建模单元时，所述建模算法包括：逻辑回归分类算法、决策树分类算法、梯度提升树分类算法、极端梯度提升分类算法、随机森林分类算法、朴素贝叶斯分类算法、支持向量机分类算法、多层感知机分类算法、基于直方图的决策树分类算法LightGBM、因子分解机分类算法、自适应提升分类算法AdaBoost和最邻近分类算法；所述验证模式包括：固定划分和交叉验证；所述参数选择模式包括：网格搜索、随机搜索、贝叶斯优化、树状结构Parzen估计方法TPE和模拟退火算法；所述评价参数包括：F值、加权精确率、加权召回率和精度。

4.如权利要求1所述的方法，其特征在于，当所述目标建模单元为回归建模单元时，所述建模算法包括：线性回归算法、决策树回归算法、梯度提升树回归算法、保序回归算法、极端梯度提升回归算法、随机森林回归算法、广义线性回归算法、基于直方图的决策树回归算法LightGBM、因子分解机回归算法、自适应提升回归算法AdaBoost和最邻近回归算法；所述验证模式包括：固定划分和交叉验证；所述参数选择模式包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；所述评价参数包括：平均绝对误差、均方误差、均方根差、和R平方值。

5.如权利要求1所述的方法，其特征在于，当所述目标建模单元为聚类建模单元时，所述建模算法包括：K均值聚类算法KMeans、二分K均值聚类算法、高斯混合模型算法、模糊C均值聚类算法、Canopy聚类算法、CanopyKmeans聚类算法和DBScan聚类算法；所述验证模式包括：固定划分和交叉验证；所述参数选择模式包括：网格搜索、随机搜索、贝叶斯优化、TPE和模拟退火算法；所述评价参数包括：轮廓系数。

6.一种分布式机器学习的建模装置，其特征在于，包括：

设置模块，用于获取训练数据集，并对所述训练数据集设置对应的目标建模单元，所述目标建模单元为以下一项：分类建模单元、回归建模单元和聚类建模单元，每种建模单元包括多种建模算法、多种验证模式、多种参数选择模式和多种评价参数，其中，所述分类建模单元应用于分类预测场景，所述回归建模单元应用于回归预测场景以及所述聚类建模单元应用于聚类预测场景；

第二获取模块，用于根据评价参数，得到各所述初始建模算法的预测模型的评价指标结果；

预测模块，用于根据所述训练数据集，分别对位于预设排名的各所述目标初始建模算法进行训练，得到对应数量的目标预测模型，并通过所述对应数量的目标预测模型，对待预测数据进行预测。

7.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述介质上存储有程序，所述程序能够被处理器执行以实现如权利要求1-5中任一项所述的方法。