CN108268460A

CN108268460A - 一种基于大数据的自动选择最优模型的方法

Info

Publication number: CN108268460A
Application number: CN201611254038.7A
Authority: CN
Inventors: 邹立斌; 李青海; 侯大勇; 简宋全
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10

Abstract

本发明提供一种基于大数据的自动选择最优模型的方法，包括：步骤S1对挖掘目标进行分类；步骤S2利用信息增益对整个数据集进行快速特征选择；步骤S3建立训练集和验证集；步骤S4选择有效的数据挖掘算法及其参数组合；步骤S5利用贝叶斯优化方法选择各算法有效的参数组合；步骤S6选出最优的数据挖掘算法K；步骤S7利用交叉验证选择并确定数据挖掘算法K的参数取值组合得出最后的模型；步骤S8若模型得出的结果比较差，则重复步骤S2‑S7，重新选择最优模型直到模型结果满意为止；若比较满意，则输出该模型。本发明能节省之后自动建模所耗费的时间，提高了建模效率；而且能快速地从大量的算法中搜索出最优算法，利用交叉验证来选择最优算法里面的参数组合。

Description

一种基于大数据的自动选择最优模型的方法

技术领域

本发明涉及数据挖掘领域，特别是一种基于大数据的自动选择最优模型的方法。

背景技术

大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。在“大数据”时代情况下，面对海量的数据，迫切需要将这些数据转换成有用的信息和知识，而获取到的信息和知识可以广泛应用在商务管理、市场分析等各行各业。数据挖掘包含大量不同的算法，从问题的属性来划分可分为分类、聚类和回归三类；从数据集的角度来划分可分为有监督、半监督和无监督三类。当数据量非常大的时候，能自动高效地选择合适的数据挖掘算法以及自动设置该算法涉及到的参数是非常困难的，因此将建模和选择模型过程设计成一个自动完成的过程，这对于提高数据挖掘的效率具有非常重要的意义。虽然现在也有一些自动选择最优模型的算法，但是耗时非常的长，因此很有必要对这些算法进行优化。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种基于大数据的自动选择最优模型的方法，其包括以下步骤：

步骤S1：对挖掘目标进行分类；

步骤S2：利用信息增益对整个数据集进行快速特征选择；

步骤S3：从所述数据集中抽取少量数据建立训练集和验证集；

步骤S4：初步选择有效的数据挖掘算法及其参数组合；

步骤S5：扩充所述训练集的样本，利用贝叶斯优化方法选择各算法有效的参数组合；

步骤S6：扩充所述训练集的样本到整个数据集，选出最优的数据挖掘算法K；

步骤S7：利用交叉验证选择并确定数据挖掘算法K的参数取值组合，得出最后的模型；

步骤S8：若模型得出的结果比较差，则步骤重复步骤S2-S7，重新选择最优模型直到模型结果满意为止；若模型得出的结果比较满意，则输出该模型，结束自动选择模型过程。

较佳的，所述步骤S1具体包括：对挖掘目标进行分类，确定该挖掘目标属于哪一个分类，列出可能用到数据挖掘算法。

较佳的，所述步骤S2具体包括：在进行数据挖掘过程之前，先利用信息增益对整个数据集进行快速地特征选择，把其中一些对之后数据挖掘过程没关联的特征剔除在外。

较佳的，所述步骤S4包括以下步骤：

步骤S41：根据给定的挖掘目标，对于每一个数据挖掘算法给出20对合理的参数取值组合，并分别对所述训练集建立模型，利用所述验证集计算每一个模型的误差率；

步骤S42：将每一个模型的误差率与提前设定好的误差率阈值ε做比较，若误差率比阈值ε高，则舍弃该参数组合；若误差率比阈值ε低，则保留该参数组合；若某一个数据挖掘算法的所有参数取值组合计算得到的误差率都比阈值ε高，则把该算法舍弃，即之后的数据挖掘自动建模过程不会用到该算法。

较佳的，所述步骤S5具体包括：扩充所述步骤S3中训练集的样本到原来的两倍，对步骤S4中保留下来的数据挖掘算法，利用贝叶斯优化方法选择各算法有效的参数组合，进而舍弃掉所述步骤S4中保留下来的不好的参数组合或数据挖掘算法。

较佳的，所述步骤S6具体包括：把训练集的样本扩充到整个数据集，利用所述步骤S5中保留下来的数据挖掘算法有效的参数组合训练模型，并用所述步骤S3中的验证集计算误差率ε_k来评估模型的优劣，从而选出最优的数据挖掘算法K；其中，所述整个数据集不包括所述步骤S3中的验证集。

与现有技术相比，本发明提供的一种基于大数据的自动选择最优模型的方法，利用了信息增益来选择特征，这也能大大节省之后自动建模所耗费的时间，提高了建模效率；而且本方法能快速地从大量的算法中搜索出最优算法，为了避免过拟合的情况发生，利用交叉验证来选择最优算法里面的参数组合。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明的一种基于大数据的自动选择最优模型的方法的流程图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

如图1所示，为本发明提供的一种基于大数据的自动选择最优模型的方法的流程图，该方法包括以下步骤：

步骤S1：对挖掘目标进行分类。

具体的，对挖掘目标进行分类，确定该挖掘目标属于哪一个分类，列出可能用到数据挖掘算法。

步骤S2：利用信息增益对整个数据集进行快速特征选择，并剔除对数据挖掘过程没关联的特征。

具体的，在进行数据挖掘过程之前，先利用信息增益对整个数据集进行快速地特征选择，把其中一些对之后数据挖掘过程没关联的特征剔除在外。

步骤S3：从所述数据集中抽取少量数据建立训练集和验证集。

步骤S4：初步选择有效的数据挖掘算法及其参数组合。

具体的包括以下步骤：

步骤S41：根据给定的挖掘目标，对于每一个数据挖掘算法给出20对合理的参数取值组合，并分别对所述训练集建立模型，利用所述验证集计算每一个模型的误差率。

步骤S5：扩充所述训练集的样本，利用贝叶斯优化方法选择各算法有效的参数组合。

具体的，扩充步骤S3中训练集的样本到原来的两倍，对步骤S4中保留下来的数据挖掘算法，利用贝叶斯优化方法选择各算法有效的参数组合，进而舍弃掉步骤S4中保留下来的不好的参数组合或数据挖掘算法。

步骤S6：扩充所述训练集的样本到整个数据集，选出最优的数据挖掘算法K。

具体的，把训练集的样本扩充到整个数据集(不包括S3中的验证集)，利用步骤S5中保留下来的数据挖掘算法有效的参数组合训练模型，并用步骤S3中的验证集计算误差率ε_k来评估模型的优劣，从而选出最优的数据挖掘算法K。

步骤S7：利用交叉验证选择并确定数据挖掘算法K的参数取值组合，得出最后的模型。

本发明提供的一种基于大数据的自动选择最优模型的方法，利用了信息增益来选择特征，这也能大大节省之后自动建模所耗费的时间，提高了建模效率；而且本方法能快速地从大量的算法中搜索出最优算法，为了避免过拟合的情况发生，利用交叉验证来选择最优算法里面的参数组合。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于大数据的自动选择最优模型的方法，其特征在于，其包括以下步骤：

步骤S1：对挖掘目标进行分类；

步骤S2：利用信息增益对整个数据集进行快速特征选择；

步骤S4：初步选择有效的数据挖掘算法及其参数组合；

2.根据权利要求1所述的一种基于大数据的自动选择最优模型的方法，其特征在于，所述步骤S1具体包括：对挖掘目标进行分类，确定该挖掘目标属于哪一个分类，列出可能用到数据挖掘算法。

3.根据权利要求2所述的一种基于大数据的自动选择最优模型的方法，其特征在于，所述步骤S2具体包括：在进行数据挖掘过程之前，先利用信息增益对整个数据集进行快速地特征选择，把其中一些对之后数据挖掘过程没关联的特征剔除在外。

4.根据权利要求3所述的一种基于大数据的自动选择最优模型的方法，其特征在于，所述步骤S4包括以下步骤：

5.根据权利要求4所述的一种基于大数据的自动选择最优模型的方法，其特征在于，所述步骤S5具体包括：扩充所述步骤S3中训练集的样本到原来的两倍，对步骤S4中保留下来的数据挖掘算法，利用贝叶斯优化方法选择各算法有效的参数组合，进而舍弃掉所述步骤S4中保留下来的不好的参数组合或数据挖掘算法。

6.根据权利要求5所述的一种基于大数据的自动选择最优模型的方法，其特征在于，所述步骤S6具体包括：把训练集的样本扩充到整个数据集，利用所述步骤S5中保留下来的数据挖掘算法有效的参数组合训练模型，并用所述步骤S3中的验证集计算误差率ε_k来评估模型的优劣，从而选出最优的数据挖掘算法K；其中，所述整个数据集不包括所述步骤S3中的验证集。