CN111459988B

CN111459988B - 一种机器学习流水线自动化设计的方法

Info

Publication number: CN111459988B
Application number: CN202010446642.XA
Authority: CN
Inventors: 朱光辉; 黄宜华; 方鑫
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-09-05
Anticipated expiration: 2040-05-25
Also published as: CN111459988A

Abstract

本发明公开了一种机器学习流水线自动化设计方法，将机器学习流水线的构建过程分为两部分：结构搜索和超参调优，将结构搜索过程建模为强化学习问题，使用强化学习算法学习搜索策略；在确定了机器学习流水线的超参数后，再使用贝叶斯优化对其进行超参配置，强化学习过程和超参调优过程是交替进行的，并在此基础上实现了两种并行化方法。本发明相比于以前方法，可处理特征类型多样，提升了流水线的性能，并且扩展性更强。

Description

一种机器学习流水线自动化设计的方法

技术领域

本发明属于自动化机器学习领域，具体涉及一种机器学习流水线自动化设计的方法，更具体涉及一种结合强化学习和贝叶斯优化的机器学习流水线自动化设计的方法。

背景技术

随着信息技术的迅猛发展和普及应用，各行各业的应用数据呈现出爆炸性的增长。信息技术已经进入大数据与人工智能时代，互联网行业、金融行业、传统制造业、政务民生等各行各业都在积极向人工智能领域转型升级，利用人工智能先进技术提升智能分析和辅助决策能力，释放隐藏在行业大数据背后的潜在价值。

自动化机器学习作为一项能够帮助AI快速落地的关键技术，已经得到了国内外学术界和工业界的广泛关注。经过近几年的研究发展，AutoML在基本技术方法和任务上，已经取得显著的进展和成果。然而，已有的AutoML学习方法尚不能很好地解决全流程数据分析场景以及终身学习场景下的自动化建模任务。

大部分实际应用的模型往往是端到端的机器学习流水线。典型的数据分析流程涉及到多个阶段，包括数据预处理、特征工程、算法选择、模型评估及超参数(简称超参)优化等，而且每个分析阶段又包含了多种方法。数据分析人员需要了解每个阶段中每个方法的适用场景、运行原理以及超参数调优技巧，并通过不断尝试各种算法模型，反复迭代和试错，最终针对实际业务数据特征设计性能优异的机器学习流水线。因此，开发一个高效的全流程的数据分析模型具有技术难度大、严重依赖专家经验、周期较长等困难。目前主流的贝叶斯优化方法将机器学习流水线自动化设计问题抽象成模型选择和超参数调优的联合高维优化问题。然而，大部分贝叶斯优化方法在高维场景下性能较差。另外，基于遗传算法的自动化设计算法又面临着计算效率较低、耗时过长的问题。因此，需要研究高效的机器学习流水线自动化设计方法，支持全流程数据分析场景下的自动化建模。

Auto-WEKA首次使用贝叶斯优化方法解决CASH问题，Auto-WEKA是基于机器学习算法软件包WEKA实现的，包含了WEKA中的39种分类算法，3种特征搜索方法，8种特征评估方法，最后将CASH问题建模为超参调优问题后，超参空间的维度为786维，使用SMAC算法进行求解；auto-sklearn是基于scikit-learn实现的自动化机器学习系统，基本原理与Auto-WEKA相同，均采用了贝叶斯优化算法。auto-sklearn进一步细化了机器学习流水线中的组成部分，包括数据预处理与分类(回归)算法两部分，并且增加了元学习功能，进一步提高系统性能，但是基于贝叶斯优化的方法在高维场景下性能欠佳；TPOT基于遗传学习优化机器学习流水线的工具，其构建出的机器学习流水线呈树状，使用Stacking技术进行特征合并操作。由于缺乏对机器学习流水线的约束，它所构建的机器学习流水线可能不合法。另外，TPOT的计算开销较大，当数据量为中等规模时常常无法返回有效结果。基于贝叶斯优化和遗传学习的自动化机器学习系统均需要多轮迭代才有可能获得较好的效果，不能高效地解决机器学习流水线自动化设计问题。而且，已有系统的扩展性较差，仅支持单一计算平台，如WEKA或者scikit-learn，并仅能处理单一类型的特征。除此之外，目前尚无支持并行计算的自动化机器学习系统，无法有效利用集群计算资源。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种机器学习流水线自动化设计方法，解决当前自动化机器学习系统可扩展性较差，性能表现无法达到预期的问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种机器学习流水线自动化设计方法，包括以下步骤：

(1)将机器学习流水线的结构搜索问题建模为强化学习问题，首先定义一种由5阶段组成的机器学习流水线，包含数据预处理、特征选择、最终算法三部分，所述数据预处理包括针对离散特征的处理方法、针对离散特征和连续特征的方法以及针对连续特征的处理方法；所述最终算法包括分类算法、回归算法或者聚类算法中的一种；

(2)将机器学习流水线搜索问题分为两部分，这两部分分别是结构搜索和超参调优，使用树结构表示机器学习流水线的整体超参空间，用树的节点依赖关系刻画超参数之间的依赖关系，整体超参空间包括结构搜索空间和具体算法的超参调优空间；

(3)结构搜索和超参调优交替优化，将结构搜索空间映射为机器学习流水线的整体超参空间中的01序列，每个二进制位代表机器学习流水线其中一个阶段的一种算法，所述算法的超参调优空间是否启用依赖于01序列中的二进制位的取值，当且仅当二进制位为1时，才启用这个二进制位所对应算法的超参空间；

(4)使用贝叶斯优化算法对机器学习流水线的整体超参空间进行调优，整体超参空间中的01序列由强化学习方法确定，剩余具体算法的超参由贝叶斯优化方法进行超参调优确定；

(5)使用Python语言实现所述机器学习流水线的自动化设计工具包。

进一步地，所述自动化设计工具包的总体架构包括算法库层、候选算法层、机器学习流水线自动化设计层、机器学习任务层和应用层。

有益效果：本发明提供一种结合强化学习和贝叶斯优化的机器学习流水线自动化设计方法，用户可以自行控制时间预算和内存预算，通过调用编程API接口，只需指定输入数据、任务类型和评估指标，应用提供的python编程接口就可以自动构建机器学习流水线，易用性高，适合非专业人员使用；通过合理的抽象，用户可以自定义候选算法集合和每个算法的超参空间，适合专业人员利用自己的经验知识对搜索空间进行限定。本发明在使用强化学习搜索结构的同时，使用贝叶斯优化对不同结构的机器学习流水线进行超参调优，设计的在固定部分超参下对剩余超参进行局部与随机混合搜索的方法，使本发明能够使用同一贝叶斯优化模型对不同结构的机器学习流水线进行超参调优，减少了计算开销；将机器学习流水线搜索问题分为结构搜索和超参调优两部分，利用了结构搜索过程的马尔可夫决策性质，以及贝叶斯优化在超参调优领域的优异表现。

附图说明

图1为本发明的整体框架示意图；

图2为本发明中机器学习流水线搜索问题的整体超参空间示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明一种机器学习流水线自动化设计方法，包括以下步骤：

(1)定义一种由5阶段组成的机器学习流水线，包括数据预处理、特征选择和最终算法三部分，最终算法根据任务类型确定，因为不同类型的特征所适合的数据预处理方法不同，所以本发明对离散型特征和连续型特征分别处理，通过用户指定某列特征类型，自动对不同类型的特征使用对应的数据预处理方法；

(2)将机器学习流水线搜索问题分为机器学习流水线结构搜索和超参调优两部分，使用强化学习对流水线的结构进行搜索，使用贝叶斯优化对机器学习流水线的整体超参空间进行调优；

(3)将01序列作为强化学习中的状态描述，根据下一步所选算法更新01序列中对应的二进制位，进行状态转移，并在01序列末尾增加一位标志位用来表示是否达到了终止状态，即确定了机器学习流水线的结构；

(4)将5阶段机器学习流水线的结构映射为01序列，其中每一位对应一个算法，为1的话表示对应的算法被选中，否则未选中；

(5)设计一种树状结构的超参空间，用树中父节点与子节点的依赖关系表示某些参数之间的依赖关系，然后将整体搜索空间映射为整体超参空间，机器学习流水线的结构搜索空间映射为整体超参空间中的01参数，并设置依赖关系，当且仅当01参数中对应算法的参数取值为1时，对应算法的超参空间被启用；

(6)整体超参空间中对应机器学习流水线结构的超参数由强化学习确定，剩余超参数由贝叶斯优化方法确定。强化学习确定了结构后得到了结构所对应的01序列，将01序列映射到整体超参空间中的01类别参数。根据01类别参数可得被启用的超参空间，接着使用贝叶斯优化优化整体超参空间，最后，便可以评估这个机器学习流水线，以此不断交替优化；

(7)通过本发明设计的自动化设计工具包，用户可以使用统一接口，调用针对分类、回归和聚类任务的自动化机器学习流水线构建方法，设置候选算法集合，可选地配置每个算法的超参空间，如果不配置超参空间会根据默认超参空间进行搜索，用户指定时间预算和内存预算，在规定时间结束后，返回找到的在验证集上性能最佳的机器学习流水线。

进一步地，所述步骤(1)中的5阶段机器学习流水线的数据预处理阶段具体细分为3个子阶段：一是针对离散特征的预处理阶段，仅处理离散特征；二是针对所有特征的预处理阶段，同时处理离散特征和连续特征；三是针对连续特征的预处理阶段，仅处理连续型特征。在这3个子阶段过程中，在结束时，每一阶段的变换后特征会和原始输入特征进行合并，然后进入下一子阶段。

进一步地，所述步骤(4)中，将步骤(1)中定义的机器学习流水线的结构映射为01序列，本发明使用强化学习进行结构搜索，强化学习中的状态表示为01序列，该状态序列在表示结构的01序列的基础上，在末尾增加一位用来表示终止状态，最后一位为1的话表示已经到达终止状态，否则还未到达终止状态。强化学习中的动作空间为：在当前状态(即结构)下可选的算法，比如当前状态已经包含了特征选择算法，那么下一步就是选择分类算法(以分类任务为例)。强化学习的奖赏函数为到目前为止，当前结构下的机器学习流水线在验证集上的最优性能表现。

进一步地，所述步骤(5)中，将整体搜索空间(包括机器学习流水线结构搜索和超参搜索)抽象为整体超参空间，将机器学习流水线的结构抽象为类别超参数，该超参数有两种取值：0和1，0表示该算法没有被选中，即不包含在此次机器学习流水线中，1表示其对应的算法被选中了，利用超参空间提供的依赖关系，算法的具体超参数如学习率等超参数依赖于这个类别参数的取值，如此当机器学习流水线结构确定时，对应的算法的超参空间也就确定了。

进一步地，所述步骤(6)中，当机器学习流水线结构确定后，整体超参空间中的被启用的算法超参空间也就确定了，接下来需要对整体超参空间进行超参调优。对整体超参空间进行超参调优时，本发明实现了一种在固定部分超参的情况下，对剩余超参数进行随机与局部混合搜索的方法，此方法使本方法可以使用同一个贝叶斯模型对不同结构的机器学习流水线进行超参调优。

进一步地，所述步骤(7)中，本发明设计的自动化设计工具包架构由5层构成。自下而上的5层分别是算法库层、候选算法层、机器学习流水线自动化设计层、机器学习任务层和应用层。应用层和机器学习任务层为不同类型的机器学习任务提供服务，具体的服务包括设置机器学习流水线自动化设计层中关于强化学习和贝叶斯优化的超参数、候选算法集合和候选算法的超参空间定义，候选算法层则负责接入算法库层中的算法和提供超参空间定义接口，算法库层中包括了第三方机器学习算法库，如scikit-learn。

如图1所示，本发明主体分为两个部分，分别是机器学习流水线结构搜索和机器学习流水线的超参调优，通过这两个部分的交替优化，不断搜索新的机器学习流水线。具体的实施方式如下：

本发明所设计机器学习流水线是一种由5阶段构成的机器学习流水线，主体包括三大部分，分别是数据预处理、特征选择和最终算法(分类、回归或聚类算法)，最终算法依据具体任务而定，数据预处理部分分为3个子阶段：针对离散特征处理阶段、同时处理所有类型特征阶段、针对连续型特征处理阶段。其中在数据预处理部分的3个子阶段中，每个子阶段的原始输入会和子阶段变换后的特征进行合并，然后再进入下一阶段。

在机器学习流水线结构搜索部分使用的方法是强化学习，以下将从强化学习的三个关键部分：状态空间设计、动作空间设计和奖赏函数设计来阐述这部分的具体实施方式:

强化学习的状态空间表示了机器学习流水线的结构，具体做法是：将机器学习流水线的结构表示为01序列，每一位表示一个机器学习算法，机器学习流水线结构搜索的目标是找到一个序列m＝(m₁,…,_l)，m表示了流水线依次由m₁,…,_l所代表的算法组成，因此强化学习的状态空间是由组合候选空间确定的。由图1可以看出，机器学习流水线的最大长度为5，但是由于可能使用多个数据预处理算法，最终使用的算法数量完全可能超过5。实际上，其中某些算法可能选不到，比如不做任何预处理，直接使用分类算法训练，这样的流水线长度只是1。充分考虑各种可能的组合情况，本发明设计的状态空间表示方法是将组合候选空间中的每种组合通过编码表示成唯一的01序列，每一位代表一个算法，用S表示状态集合。为了能够表示‘终止状态’，需要在01序列的末尾增加一位，以此表示是否达到终止状态。因此整个01序列的长度为/>其中0表示该位置所代表的算法未被选中，1代表该位置所代表的算法被选中。

机器学习流水线结构搜索的问题中，所有可能动作构成的集合的大小为即选择所有算法中的任意一个和评估流水线的动作。而在不同状态下，强化学习中的智能体(agent)选的动作集合是不一样的，比如当前的机器学习流水线的最后一个算法处在数据预处理阶段，并且选择的数据预处理算法达到了规定的上限，那么此时候选的动作集合就是M_f∪M_c。如果当前的机器学习流水线已经包含了M_c中的某个分类算法，那么此时的候选动作就只有评估流水线这一个动作。因为本发明设计的机器学习流水线不允许出现“环”结构，所以在不同的状态下需要设计不同的候选动作集合，避免不合理的流水线结构。

奖赏函数实际上描述了agent该如何在环境中行动。由于机器学习流水线的性能表现与它的超参数有关，而在本发明的建模下，强化学习部分并未考虑超参数的影响。因此，为了减小不同超参数带来的噪声影响，强化学习阶段使用的奖赏值是指到目前为止，机器学习流水线结构为s时所评估过的最优性能表现。

在使用强化学习确定了机器学习流水线的结构后，再使用贝叶斯优化确定机器学习流水线的超参数。对于一个结构为m＝(m₁,…,_l)的机器学习流水线，需要在它的超参空间Θ(m)＝Θ(m₁)×…×Θ(m_l)中选出一组超参数(₁,…,_l)。目前，贝叶斯优化是优化超参数配置的有效方法，但是为每一种流水线结构训练一个贝叶斯模型计算上是不可行的，本发明提出了一种使用公共贝叶斯模型来优化不同机器学习流水线结构下的超参数。

本发明使用的贝叶斯优化方法遵循SMBO算法框架，将整体搜索空间映射为整体超参空间，机器学习流水线的性能看作是在这个整体超参空间的任意一组配置的黑盒函数，使用随机森林作为代理模型，期望提升作为获得函数，下面介绍贝叶斯优化的具体实施方式：

首先定义整体超参空间，超参数的类型非常多样，而且参数之间存在依赖关系，所以使用树结构来描述超参空间。在机器学习流水线结构搜索中，将强化学习的状态空间定义为01序列，每一个二进制位代表了一个机器学习算法。由此，我们根据超参空间的要求，将每个二进制位视为一个类别参数，它的可选值为0和1。再添加条件依赖，使得当且仅当该参数取值为1时，该二进制位所代表的机器学习算法的超参空间才会作为整个机器学习流水线超参空间的一部分。其中的01序列由机器学习流水线结构搜索过程确定，通过强化学习，当环境进入终止状态时，可由终止状态序列确定机器学习流水线的结构。以图2中间的二进制位为例，当其取值为0时，它的子节点的超参空间为None；当其取值为1时，它的子节点的超参空间是该位置所代表的AdaBoost算法的超参空间，它的超参数为“学习率(learning rate)”、“estimators(数量)”和“最大深度(max depth)”。

从图2可以看出，表示机器学习流水线结构的01序列也映射到了贝叶斯优化的超参空间中。但是，机器学习流水线的结构是由强化学习所确定的，也就是说这部分表示流水线结构的参数并不是由贝叶斯优化确定的。这就要求贝叶斯优化过程中，在选取下一轮要评估的候选超参配置时，需要在固定部分参数(即机器学习流水线结构)下进行搜索，再通过获得函数最大化确定下一轮评估点。

本发明基于scikit-learn库实现了机器学习流水线自动化设计工具包，并且OpenML-CC18中的45个数据集上与auto-sklearn做了对比实验，实验的时间预算分别为1小时、4小时和8小时，内存最大限制为18G，所有的实验均进行了3次重复实验，取平均性能进行比较。表1展示了在平均性能上，使用不同的强化学习算法(Q-learning，Deep Q-learning，Policy Gradient)，本发明在验证集和测试集上优于auto-sklearn的个数；表2展示了不同时间预算下，各方法平均每小时下每种方法尝试的机器学习流水线次数，虽然本发明尝试次数不如auto-sklearn，但是最终效果要好于auto-sklearn。综上所述，本发明在搜索效率，性能表现上优于auto-sklearn，具有良好的易用性、实用性和可扩展性。

表1:本发明性能优于auto-sklearn的数据集个数统计表(验证集上，测试集上)

表2:平均每小时尝试机器学习流水线次数

Claims

1.一种机器学习流水线自动化设计方法，包括以下步骤：

(1)将机器学习流水线的结构搜索问题建模为强化学习问题，首先定义一种由5阶段组成的机器学习流水线，包含数据预处理、特征选择、最终算法三部分，所述数据预处理包括针对离散特征的处理方法、针对离散特征和连续特征的处理方法以及针对连续特征的处理方法；所述最终算法包括分类算法、回归算法或者聚类算法中的一种；

(3)结构搜索和超参调优交替优化，将结构搜索空间映射为机器学习流水线的整体超参空间中的01序列，每个二进制位代表机器学习流水线其中一个阶段的一种算法，所述算法的超参调优空间是否启用依赖于01序列中的二进制位的取值；

2.根据权利要求1所述一种机器学习流水线自动化设计的方法，其特征在于：所述步骤(5)中，使用统一的Python语言编程接口，通过pypi包提供自动化机器学习的API，所述API允许用户自行设置候选算法集合，指定搜索时间和内存最大限制；用户通过应用层API指定机器学习任务类型后，系统自动调用底层算法库中的机器学习算法。

3.根据权利要求1所述一种机器学习流水线自动化设计的方法，其特征在于：所述步骤(1)中，所述数据预处理针对离散型特征和连续型特征进行分开处理，先针对离散型特征进行预处理，然后对离散型特征和连续型特征进行预处理，最后对连续型特征进行预处理。

4.根据权利要求1所述一种机器学习流水线自动化设计的方法，其特征在于：将所述机器学习流水线的结构映射为01序列，然后将所述01序列作为强化学习问题的状态表示，执行的动作包括选择一个算法和评估流水线动作。

5.根据权利要求1所述一种机器学习流水线自动化设计的方法，其特征在于：利用树的父子节点关系刻画不同参数之间的依赖关系，将所述机器学习流水线的搜索空间表示为整体超参空间。

6.根据权利要求4所述一种机器学习流水线自动化设计的方法，其特征在于：将所述01序列映射为整体超参空间中的多个类别参数，每个所述类别参数可选值为0或1，0表示对应的算法未被选中，1表示对应的算法被选中，然后启用所述类别参数所对应的算法的超参空间，从整体搜索空间中选择出符合当前机器学习流水线结构的超参数，对当前机器学习流水线进行评估。