CN110110858B

CN110110858B - 一种基于强化学习的自动化机器学习方法

Info

Publication number: CN110110858B
Application number: CN201910359211.7A
Authority: CN
Inventors: 黄宜华; 顾荣; 朱光辉; 王磊
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-03-28
Anticipated expiration: 2039-04-30
Also published as: CN110110858A

Abstract

本发明公开了一种基于强化学习的自动化机器学习方法，包括以下步骤：使用统一的API接口，屏蔽不同的机器学习算法库之间的异构性，以Python作为编程语言，在Python语言中调用不同机器学习算法库中的算法；将自动化机器学习问题建模为强化学习问题，对候选机器学习算法进行状态空间划分，确定状态间的转移关系，并采用Q‑Learning算法完成搜索机器学习流水线的过程；对数据集进行元特征提取，搜索最相似数据集，并利用所述最相似数据集上的运行信息来加速自动化机器学习的收敛过程。本发明解决了现有的自动化机器学习系统收敛速度慢、可扩展性差以及最终预测性能达不到预期的问题。

Description

一种基于强化学习的自动化机器学习方法

技术领域

本发明涉及自动化机器学习领域，尤其涉及一种基于强化学习的自动化机器学习方法。

背景技术

机器学习领域中可以选择的算法众多，每种算法均有各自的适用场景。对普通数据分析师而言，如何根据具体应用场景选择最优的算法模型是一项技术门槛较高的任务。

大部分机器学习应用可以表示为端到端的机器学习流水线，其不仅包含算法选择阶段，还包含数据预处理和特征选择阶段。每个阶段又包含很多种可选的处理方法。因此，如何设计高效的机器学习流水线具有更高的技术挑战性。

网格搜索和随机搜索是最初的自动化方法。因其简单的特性，知名的机器学习库中都有这两种方法的实现。然而网格搜索和随机搜索并不能利用历史信息来指导之后的自动化机器学习过程，所以效率较低。而使用遗传算法的自动化机器学习算法虽然改进了这个不足之处，但是遗传算法其需要大量的迭代并且结果具有很大的不确定性，使得基于遗传算法的自动化机器学习算法效率仍有改进之处。

随着深度学习的发展，深度神经网络模型的性能调优变得愈加重要。由于深度神经网络模型的训练时间长并且超参数对最终预测性能影响大，随机搜索的效率已经满足不了实际需求，这样的现象使得自动化机器学习效率的重要性愈发凸显。

面对上述需求，基于贝叶斯优化的自动化机器学习算法展现出较优的性能。贝叶斯优化算法原本应用于寻找黑盒函数的极值点，其主要思想是基于代理概率模型来探索真实模型。但是贝叶斯优化的搜索效率依赖先验概率模型的准确性。并且代理模型需要样本进行训练，通常的做法是随机采样d+1个样本进行评估，其中d为超参数空间的维度，在得到评估信息后使用这d+1个样本来训练代理模型。这就使得当超参数空间维度较高时，贝叶斯优化需要预热的时间就越长。

同时已有的相关工作支持的任务类型不够全面，只支持分类任务和回归任务，而不支持聚类任务。同时缺少可扩展性，在自动化学习过程中，用户只能从系统已有的算法中选取部分算法作为候选算法集合，这就导致当新的机器学习算法出现时，系统无法使用新算法的问题。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明提供一种基于强化学习的自动化机器学习方法，解决了现有的自动化机器学习系统收敛速度慢、可扩展性差以及最终预测性能达不到预期的问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于强化学习的自动化机器学习方法，包括以下步骤：

(1)使用统一的API接口，屏蔽不同的机器学习算法库之间的异构性，以Python作为编程语言，在Python语言中去调用不同机器学习算法库中的算法，并在指定时间额度内完成自动化机器学习任务，并返回一个最终模型；

(2)通过对数据集进行元特征提取，基于数据集的元特征搜索最相似数据集，并利用已有最相似数据集上的运行信息作为初始化信息来加速自动化机器学习任务的收敛过程；

(3)将自动化机器学习问题建模为强化学习问题，根据候选机器学习算法进行机器学习流水线的状态划分，确定状态间的转移关系，使用所述步骤(2)提供的初始化信息来初始化强化学习算法，然后基于强化学习算法来完成机器学习流水线的搜索过程；

(4)所述步骤(3)中的搜索过程将多个完成训练的机器学习流水线保存在磁盘上，从完成训练的机器学习流水线中选择部分性能优秀的机器学习流水线构成最终模型集合，将所述最终模型集合中的多个机器学习流水线进行集成得到最终模型。

进一步地，所述步骤(1)中，在Python中通过包的形式提供自动化机器学习API，所述自动化机器学习API封装并可以调用不同机器学习库中的算法，在指定时间额度内完成自动化机器学习任务，并返回一个最终模型。

进一步地，所述步骤(2)中，首先数据集之间的相似度通过数据集元特征间的欧式距离来衡量。然后使用最近邻算法在已有数据集中寻找与当前数据集最相似的数据集。

进一步的，所述步骤(3)中，采用适应时间额度的策略来完成机器学习流水线的构建，每次使用所述策略选择向机器学习流水线中加入的算法，并根据加入的算法转移到特定状态，直至转移到结束状态完成机器学习流水线的构建；训练所述机器学习流水线得到预测性能，并将所述预测性能作为回报，使用Q-Learning算法来更新状态之间转移的优劣程度以指导下一次机器学习流水线的构建。

更进一步地，所述步骤(3)中，适应时间额度的策略是decayingε-greedy策略，随着剩余时间额度的减少而对贪心率进行平滑地调整，所述decayingε-greedy策略使用logits函数接受剩余时间额度作为输入来确定每个时间点的贪心率，并且确保贪心率不超过特定阈值，使得贪心率最终会稳定在特定值。所述decayingε-greedy策略调整贪心率的特点使得整个自动化机器学习过程前期更偏向于探索新的模型，而后期更偏向于利用已知性能较优的模型。

进一步地，所述步骤(3)中，初始Q-Table使用元学习阶段提供的信息来进行初始化。Q-Table每一列代表候选算法集合中的一个算法，每一行代表加入到当前机器学习流水线中的最后一个算法。在机器学习流水线构建完成后，在验证集上训练所述机器学习流水线得到预测性能。使用所述预测性能作为回报，并使用Q-Learning算法来更新Q-Table中对应的Q值。

进一步地，所述步骤(4)中，对所述步骤(3)中完成训练的机器学习流水线进行集成以提升最终模型的预测性能和鲁棒性。本发明使用Stacking方法来进行集成，其中元学习器的选取对最终性能影响很大，而固定元学习器不能很好的适应不同数据集。为了解决上述问题，本发明选取步骤(3)中预测性能最佳的机器学习流水线作为Stacking方法的元学习器。

有益效果：本发明能够高效地进行自动化机器学习，在限定的时间额度内能够构建预测性能优秀的机器学习流水线：第一，设计自动化机器学习API，为用户提供了黑盒的视角来使用机器学习算法来解决相关领域问题，暴露给用户完成自动化机器学习任务的API封装了不同机器学习库，实现了机器学习算法候选集合的可选择性；第二，设计了加速自动化机器学习过程的元学习阶段。使用相似数据集的运行信息来初始化当前的自动化机器学习任务，实现自动化机器学习任务的热启动；第三，设计了自动构建机器学习流水线的强化学习阶段。通过将自动化机器学习问题建模为强化学习问题，提出了适应时间额度的动作选择策略来构建机器学习流水线，并基于Q-Learning算法来更新相应的Q值；第四，设计了提升模型预测性能的集成学习阶段。使用Stacking方法集成强化学习阶段中完成训练的多个机器学习流水线，为了提高通用性，使用强化学习阶段中预测性能最佳的机器学习流水线作为Stacking中的元学习器。

附图说明

图1为本发明的方法总体框架示意图；

图2为本发明中元学习阶段的执行流程示意图；

图3为本发明中集成学习阶段中Stacking方法的执行流程示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的完整流程包括元学习阶段、强化学习阶段以及集成学习阶段三个部分。具体的实施方式分别说明如下：

元学习阶段的具体实施方式：元学习阶段的主要思想是相似的数据集往往来自同一个领域或者相关领域，在相似数据集上表现优秀的机器学习模型同样也会有很大概率在该数据集上有着优秀的表现。元学习阶段使用已有数据集的历史运行信息来初始化现有数据集上的自动化机器学习任务，以加速当前任务的收敛过程。如图2所示，元学习阶段的整体流程包括离线训练子阶段和在线预测子阶段。

离线训练子阶段首先收集一定数量的公开数据集，数据来源包括UCI、LibSVM和OpenML。然后提取数据集的元特征，包括统计特征(样本数量、特征数量、类别熵、类别特征的数量以及各个类别中包含实例最多的类别所占的比例)和Landmark特征(决策树桩在该数据集上的预测性能和朴素贝叶斯在该数据集上的预测性能)。数据集经过元特征提取后，可以基于元特征来计算数据集间的相似性。接着在所有数据集上直接运行强化学习阶段的算法，得到强化学习阶段的运行信息(Q-Table)。最后将数据集的元特征和运行信息组合为元数据保存在元数据库中。

当处理新的数据集时，在线预测阶段根据新数据集的元特征在离线数据集仓库中匹配最为相似的数据集。数据集间的相似度以数据集的元特征间的欧式距离来衡量。通过最近邻算法从元数据库中搜索与当前数据集最相似的数据集并提取所述最相似数据集的运行信息(Q-Table)作为本次自动化机器学习任务中强化阶段的初始Q-Table。元学习阶段通过使用离线数据集仓库中最相似数据集的Q-Table替代随机Q-Table作为初始Q-Table,以此来加速强化学习阶段的收敛过程。

强化学习阶段的具体实施方式：机器学习流水线是对机器学习算法组合的抽象，机器学习流水线中的每一个算法(除了第一个算法)接受前一个算法的输出作为输入。强化学习阶段的任务是自动完成探索最优机器学习流水线的任务。根据用户配置的候选算法集合(包括数据预处理算法、特征工程算法以及分类算法)，本发明将构造一个二维表格(Q-Table)，表格中每一行以及每一列都代表特定的机器学习算法或组合，例如，逻辑回归、缺失值填充等算法。每一行表示一个状态，代表当前选择加入流水线中的算法，每一列表示一个动作，代表当前状态下可以继续选择加入机器学习流水线中的算法，表格中每一个数字为Q值，表示在选择了当前行所代表的算法后选择当前列所代表的算法的优劣程度。

强化学习阶段将机器学习流水线(简称流水线)划分为五个状态，包括开始状态、数据预处理状态、特征工程状态、分类状态以及结束状态。当构建机器学习流水线时，系统一开始会处于开始状态，随后系统会根据Q-Table以及动作选择策略选择执行相应的动作并转移到下一个状态。当跳转到数据预处理状态时，系统会选择一个或多个数据预处理算法加入到流水线中，而当跳转到特征工程状态或分类状态时，系统只会选择一个特征工程算法或者分类算法加入到最终的流水线中。当完成当前状态的任务后，系统会继续跳转，直至跳转到结束状态，完成机器学习流水线的构建。在构建机器学习流水线的过程中，并不会实际执行加入到机器学习流水线中的算法，而只是以字符串的形式保存已经加入到机器学习流水线中的模型名称。当完成机器学习流水线的构建后才会设置其超参数并开始训练。在得到实际预测性能后，使用所述预测性能作为回馈信号并通过Q-Learning算法来更新Q-Table中对应的Q值。

Q-Learning算法中的动作选择策略直接影响自动化学习任务的最终性能，针对自动化机器学习任务中时间资源受限的场景，本发明提出了适应时间额度的decayingε-greedy策略。在所述decayingε-greedy策略中，将当前自动化机器学习任务剩余的时间额度作为参数输入到logits函数中得到当前时间点的贪心率。与传统Q-Learning算法中贪心率保持不变的方式不同，所述decayingε-greedy策略使得在自动化机器学习任务的初始阶段的探索率很大，系统会尽可能尝试不同的算法模型。随着训练的模型数量增多，收集到的信息越来越全面，系统对各个模型的性能有大致的判断，系统应该适当增大贪心率，更多地尝试训练已知性能较优的机器学习流水线。而所述decayingε-greedy策略也会随着时间额度的减少以平滑的速率逐渐增大贪心率并最终收敛到特定值。

集成学习阶段的具体实施方式：完成训练的模型会被保存在磁盘中，为了利用这些模型以提升最终预测性能和鲁棒性，本发明使用Stacking方法从这些完成训练的模型选择部分性能优秀的机器学习流水线进行集成得到最终模型。如图3所示，在训练阶段，初级学习器是被挑选出来的机器学习流水线，因为保存在磁盘中，可直接从磁盘读取。次级训练集是利用初级学习器产生的，若直接使用初级学习器的训练集来产生次级训练集，则会增大最终模型的过拟合风险，因此本发明使用交叉验证的方式来生成次级数据集。如图3所示，初始训练集D＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)}被随机划分为3个集合D1，D2，D3。每个集合包含的样本数量大致相等。令Dj表示第j折的测试集，

表示第j折的训练集，其中j＝1,2,3。假设强化学习阶段中保存了T个模型，初级学习器/>

是通过在/>

上使用第t个模型训练而得，t＝1,2...T。对Dj中的每个样本xi，令/>

表示/>

在样本xi上的预测值，其中下标i代表预测样本是xi，下标t代表预测模型为/>

上标j为xi所在的数据集Dj的下标。则由xi所产生的次级训练样本z_i是所有初级学习器对xi的预测结果，即z_i＝(z_i1,z_i2,…,z_iT)，其中z_i1代表第一个模型对xi的预测值，依此类推。于是，在整个交叉验证过程结束后，从这T个初级学习器产生的次级训练集使用z_i作为特征，yi作为标签，将z_i和yi进行组合得到数据(z_i,y_i),则对于有m个样本的数据集来说，次级训练集D′＝{(z₁,y₁),(z₂,y₂),…,(z_m,y_m)}，然后将D′作为新的训练数据并用于训练元学习器。

元学习器的性能则直接影响了集成模型的最终预测性能，如何选取元学习器是Stacking方法的一个重要问题。实际应用中，使用逻辑回归作为元学习器的情况较多，然而固定住元学习器显然不能处理自动化机器学习任务。由于自动化机器学习任务会面临各种不同的数据集，针对这样的场景，本发明使用强化学习阶段中在验证集上表现最佳的模型作为集成学习阶段的元学习器。

本发明基于已有的一些机器学习库(scikit-learn、Xgboost以及LightGBM)实现了一个原型系统。通过多个公开数据集对本发明实现的原型系统进行测试，并选择现有主流自动化机器学习系统Auto-Sklearn作为对比。所有的自动化机器学习任务的时间额度为1200秒，并且运行10次取中位数来代表最终性能。表1展示了在分类数据集上的预测性能对比结果，表2展示了在回归数据集上的预测性能对比结果。从表格可以看出，在大部分数据集上，本发明达到的预测性能要由于已有的成熟自动化机器学习方法。综上所述，实验结果证明了本发明提出的方法对于自动化机器学习任务的有效性，验证了本发明的有益效果。

表1：本发明基于强化学习的自动化机器学习方法在分类数据集上与Auto-Sklearn的预测性能对比

表2：本发明基于强化学习的自动化机器学习方法在回归数据集上与Auto-Sklearn的预测性能对比

/>

Claims

1.一种基于强化学习的自动化机器学习方法，包括以下步骤：

2.根据权利要求1所述一种基于强化学习的自动化机器学习方法，其特征在于：使用统一的API接口，在Python语言中通过包的形式提供自动化机器学习API，所述自动化机器学习API能够封装调用不同机器学习算法库中的算法操作，方便用户选择不同机器学习算法库中的算法作为候选算法集合。

3.根据权利要求1所述一种基于强化学习的自动化机器学习方法，其特征在于：所述步骤(2)中，所述元特征包括统计特征和Landmark特征；同时，保留数据集的历史运行信息；数据集之间的相似度使用欧式距离来衡量；当处理新数据集时，通过最近邻算法从已有的数据集中搜索最相似数据集，并提取所述最相似数据集上的运行信息来提供初始化信息。

4.根据权利要求1所述一种基于强化学习的自动化机器学习方法，其特征在于：所述步骤(3)中，将候选机器学习算法划分为数据预处理算法、特征工程算法以及模型分析算法；将机器学习流水线划分为多个状态：开始状态、数据预处理状态、特征工程状态、模型分析状态以及结束状态；所述状态之间的转移通过向机器学习流水线中加入算法来完成，且状态间的转移关系具有拓扑关系。

5.根据权利要求1所述一种基于强化学习的自动化机器学习方法，其特征在于：所述步骤(3)中，采用适应时间额度的策略来完成机器学习流水线的构建，每次使用所述策略选择向机器学习流水线中加入的算法，并根据加入的算法转移到特定状态，直至转移到结束状态完成机器学习流水线的构建；训练所述机器学习流水线得到预测性能，并将所述预测性能作为回报，使用Q-Learning算法来更新状态之间转移的优劣程度以指导下一次机器学习流水线的构建。

6.根据权利要求1所述一种基于强化学习的自动化机器学习方法，其特征在于：所述步骤(4)中，使用集成学习方法从多个完成训练的机器学习流水线中选取部分机器学习流水线构成最终模型集合；使用所述最终模型集合中的每一个模型对数据集进行预测，并集成每个模型的结果作为次级训练集和次级测试集，使用次级训练集训练元学习器，最终使用元学习器在次级测试集上的预测结果作为最终的预测结果。