CN113312855A

CN113312855A - 基于搜索空间分解的机器学习优化方法、电子设备及介质

Info

Publication number: CN113312855A
Application number: CN202110854074.1A
Authority: CN
Inventors: 崔斌; 黎洋; 沈彧; 江淮钧
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-08-27
Anticipated expiration: 2041-07-28
Also published as: CN113312855B

Abstract

本发明涉及一种基于搜索空间分解的机器学习优化方法、电子设备及介质，本方法包括：构造模块抽象，用于固定搜索空间中部分超参数的取值，优化所述搜索空间中剩余的超参数，以最小化评价指标，从而求解子空间优化问题；其中根据固定的不同的超参数，所述构造模块抽象的实例包括联合模块，条件模块和交替模块。本发明通过使用构造模块抽象以及三种构造模块抽象的实例，可以将庞大的空间拆分成多个子空间，使用构造模块拆分空间将问题转化为每次优化迭代选择待优化子空间，并在相对较小的子空间中选择配置，从而提升了机器学习配置的搜索效率。

Description

基于搜索空间分解的机器学习优化方法、电子设备及介质

技术领域

本发明涉及搜索空间分解与搜索空间优化等自动化机器学习领域，尤其涉及一种基于搜索空间分解的机器学习优化方法、电子设备及介质。

背景技术

机器学习（Machine Learning）是一种常用的数据分析方法，在金融分析，广告推荐，文本挖掘，人工驾驶等领域有极其广泛的应用。然而，机器学习应用的效果很大程度上依赖于流程配置超参数的选择，例如特征工程，算法选择等。这个特性导致机器学习应用的开发门槛高，周期长。为了解决这一难点，自动化机器学习优化框架应运而生。现有的框架以数据集和评价指标作为输入，向用户提供端到端的服务，即不需用户进一步交互的情况下返回在该数据集上使评价指标达到最优的机器学习流程。

近几年来具有代表性自动化机器学习优化框架的工作有：① Feurer, M.;Klein, A.; Eggensperger, K.; Springenberg, J. T.; Blum, M.; Hutter, F. 2019.Auto-sklearn: efficient and robust automated machine learning. AutomatedMachine Learning. Springer, Cham, 113-134. 以及 ② Olson, R. S.; Moore, J. H.2016. TPOT: A tree-based pipeline optimization tool for automating machinelearning. In Workshop on automatic machine learning. PMLR, 66-74. 其中Auto-sklearn,即相关工作①，将特征工程，算法选择，算法超参数优化合并成一个搜索空间，并使用贝叶斯优化的方法在搜索空间中寻找最优配置。TPOT，即相关工作②，构造了与Auto-Sklearn类似的搜索空间，但使用遗传算法的方式寻找最优配置。尽管这些现有的工作能够自动化并且端到端地给出最优的机器学习配置，但在实际应用场景中，由于搜索空间极其庞大（Auto-sklearn的搜索空间具有110个待调超参数），加之每个机器学习配置的验证代价大，在有限的时间预算下往往无法达到理想的效果。

发明内容

本发明的目的是提供一种基于搜索空间分解的机器学习优化方法、电子设备及介质，用以解决现有技术中存在的问题。

第一方面，本发明提供一种基于搜索空间分解的机器学习流程优化方法，包括：

构造模块抽象，用于固定搜索空间中部分超参数的取值，优化所述搜索空间中剩余的超参数，以最小化评价指标，从而求解子空间优化问题；

其中根据固定的不同的超参数，所述构造模块抽象的实例包括联合模块，条件模块和交替模块。

进一步地，所述构造模块抽象包括五个接口：

第一接口为初始化接口，用于输入给定数据集、评价指标以及固定的超参数集合及其赋值，所述第一接口返回对应的第一构造模块；

第二接口用于输入第二构造模块，返回所述第二构造模块下当前最佳的观察；

第三接口用于输入第三构造模块，使所述第三构造模块进行优化迭代；

第四接口用于输入第四构造模块和时间预算，返回所述第四构造模块在满足所述时间预算的将执行的优化中可达到的评价指标的上下界；

第五接口用于输入第五构造模块，返回所述第五构造模块在将执行的优化中可达到的评价指标的下降的期望

进一步地，所述使所述第三构造模块进行优化迭代包括：

给定每个子构造模块的优化迭代次数，对所述每个子构造模块进行所述优化迭代次数的优化迭代；

根据所述子构造模块的预期评价指标的上下界删除不符合预定子构造模块；其中对于评价指标的最小化，当所述子构造模块的下界大于任意剩余子构造模块的上界，则删除所述子构造模块。

进一步地，所述联合模块使用优化算法对输入的未固定超参数子空间进行优化。

进一步地，所述条件模块选择输入的未固定超参数中一个离散超参数，根据所述离散超参数的取值个数，通过固定所述离散超参数，生成子构造模块。

进一步地，所述交替模块将输入的未固定的超参数集合切分成两个集合，通过固定一个集合的取值为另一集合生成子构造模块，共生成两个子构造模块。

进一步地，所述交替模块进行的优化迭代包括：

记所述交替模块的所述两个子构造模块为

，记

的评价指标下降的期望为

；

若

大于等于

，

则使用当前

当前最优配置为

中固定的超参数重新赋值，并优化迭代

；

否则使用当前

当前最优配置为

中固定的超参数重新赋值，并优化迭代

。

进一步地，还包括：

使用所述条件模块将对应于算法选择的超参数根据取值拆分成子构造模块；

使用所述交替模块将对应于特征工程和算法及算法超参数拆分成两个子构造模块。

第二方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现根据第一方面所述基于搜索空间分解的机器学习流程优化方法的步骤。

第三方面，本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现根据第一方面所述基于搜索空间分解的机器学习流程优化方法的步骤。

由上面技术方案可知，本发明提供的基于搜索空间分解的机器学习优化方法、电子设备及介质，通过使用构造模块抽象以及三种构造模块抽象的实例，可以将庞大的空间拆分成多个子空间，使用构造模块拆分空间将问题转化为每次优化迭代选择待优化子空间，并在相对较小的子空间中选择配置，从而提升了机器学习配置的搜索效率，也即在给定的时间预算下，本方法能够较现有方法搜索到更好的配置。

附图说明

图1是根据本发明实施例的基于搜索空间分解的机器学习优化方法的流程图；

图2是根据本发明实施例的根据三种构造模块实例提出的五种执行方案；

图3是根据本发明实施例的执行方案5在30个分类数据集上对比TPOT的平衡准确率提升；

图4是根据本发明实施例的执行方案5在30个分类数据集上对比Auto-sklearn的平衡准确率提升；

图5是根据本发明实施例的执行方案5在20个回归数据集上对比TPOT的相对均方误差下降；

图6是根据本发明实施例的执行方案5在20个回归数据集上对比Auto-sklearn的相对均方误差下降；

图7是根据本发明实施例的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明试图从搜索空间切分的角度解决现有技术的局限性。其核心思想是，通过对庞大的搜索空间进行合理切分，并在切分后的子空间上进行轮转式地搜索优化，相对现有技术提升搜索效率。基于上述思想，本发明提出了一种基于搜索空间分解的自动化机器学习优化框架，利用三种抽象的构造模块分解搜索空间，并进而对每个构造模块进行优化。实验表明，在给定相同的时间预算下，本框架相对现有技术能够搜索得到更好的机器学习配置。

术语解释：

超参数：指影响机器学习流程的需要在运行流程前给定的参数，例如机器学习算法的选择，或是随机森林（某个特定算法）的树的个数等。本发明中的超参数包含特征工程操作，算法选择以及算法超参数三个方面。

搜索空间：指由超参数以及其取值范围构造而成的空间。

配置：指对机器学习流程中每一超参数的一种特定的赋值。从搜索空间中采样一个点即为一个配置。

观察结果：一个观察结果指一个配置以及这个配置经过验证的指标构成的二元对。

机器学习配置优化：设机器学习配置优化问题中包含n个超参数

，且每个超参数

对应的取值范围为

。给定输入数据集D，以及评价指标

（不妨设评价指标越小越好，下同），机器学习配置优化问题的目标为寻找配置以最小化评价指标，即

。

代理模型：由于无法使用通过实际验证以外的方式得到一个配置的真实结果，为了降低对实际验证的依赖，贝叶斯优化使用代理模型拟合观察结果，即使用代理模型预测一组配置的真实结果。

采集函数：贝叶斯优化针对代理模型定义一个采集函数，每一轮推荐能够使得采集函数最大的配置。

贝叶斯优化：一种被广泛使用的优化算法。通过使用代理模型拟合现有的观察结果进行拟合，并通过优化采集函数的方式推荐需要实际验证的配置。

多臂老虎机问题：多臂老虎机问题（Multi-armed Bandit）是概率论经典问题。设想一个赌徒，面前有多个老虎机，但他不知道每台老虎机的具体收益。MAB问题研究如何根据每次玩老虎机的收益选择下次的策略（玩哪台老虎机或是停止），从而最大化收益。

执行方案：给定搜索空间，并给定搜索空间的切分方式，系统运行的流程即为执行方案。现有方法由于不进行搜索空间切分，因此仅有一种执行方案。

针对目前存在的搜索空间过于庞大导致配置搜索效率低下的问题，本发明通过对庞大的搜索空间进行合理切分，并在切分后的子空间上进行轮转式地搜索优化，相对现有方法提升搜索效率。基于上述思想，本发明提出了一种基于搜索空间分解的自动化机器学习优化框架，利用三种抽象的构造模块分解搜索空间，并进而对每个构造模块进行优化。

图1是根据本发明实施例的基于搜索空间分解的机器学习优化方法的流程图，参考图1，本发明提供的方法包括：

步骤110：构造模块抽象，用于固定搜索空间中部分超参数的取值，优化所述搜索空间中剩余的超参数，以最小化评价指标，从而求解子空间优化问题；其中根据固定的不同的超参数，所述构造模块抽象的实例包括联合模块，条件模块和交替模块。

具体地，本发明的方法包括如下部分：

A. 一种构造模块的抽象

本发明提出构造模块的抽象，每个模块完成一个机器学习配置优化的子问题，即固定某些超参数的取值，优化剩余超参数以最小化评价指标。其数学定义如下：

设机器学习配置优化问题中包含n个超参数

，且每个超参数

对应的取值范围为

。已固定超参数子集

，且

拥有赋值

。记不在固定超参数集合中的超参数集合为

。子问题的优化目标为

。

本发明提出的构造模块抽象具有以下五个接口：

1.

本接口为初始化接口。通过给定数据集，评价指标以及固定的超参数集合及其赋值，接口返回一个对应的构造模块。

2.

给定一个构造模块，本接口返回这个构造模块下当前最佳的观察。

3.

给定一个构造模块，本接口要求该构造模块进行一轮优化迭代。其中“！”表示可能构造模块内涉及内部状态的状态改变。

4.

给定一个构造模块以及一定的预算（秒），本接口返回该构造模块在给定预算的未来优化中可能达到的评价指标的上下界。

5.

给定一个构造模块，本接口返回该构造模块在未来优化中能够带来的评价指标的下降的期望。

B. 三种构造模块的实例

根据子问题中固定取值的超参数集合不同，本发明提出三种构造模块，分别为联合（Joint）模块，条件（Conditioning）模块，以及交替（Alternating）模块。

B1. 联合模块

联合模块直接对给定的子空间进行优化。作为一种优选方案，联合模块的do_ next!的实现为贝叶斯优化算法。即每次调用联合模块的do_next!接口时进行贝叶斯优化，从子空间中得到一组

的配置，并与固定的超参数

的赋值

组成完整的机器学习配置，进行实际验证。

B2. 条件模块

条件模块对输入的空间进行了切分。令未固定的输入超参数集合为

，条件模块将超参数切分成两部分

，其中

是一个类别型超参数，取值范围

为离散集合。条件模块在生成时会对每个可能的取值

生成一个子构造模块，每个子构造模块的优化目标为

。因此，将生成

个子构造模块。

作为一种优选方案，条件模块将优化多个子模块并搜索最优配置建模为多臂老虎机问题。其do_next!的算法流程如下：

1.给定预算

，以及每个子模块的迭代次数

，令本条件模块下的子模块为

；

2.

在1到

中循环；

3.

在 1 到

中循环；

4.do_next!(

)；

5.

在 1 到

中循环；

6.

；

7.基于上下界，删除被其它子模块支配的子模块。

B3. 交替模块

交替模块也对输入的空间进行切分。令未固定的输入超参数集合为

，交替模块将超参数切分成两部分

。交替模块在生成时会对两个部分各自生成子模块。子模块中另一切分的超参数赋值可能发生变化，在交替模块中使用set_var方法实现。例如，对

构造的子模块

，可以使用

将另一切分中的超参数集合

的赋值改为

。生成交替模块的init方法的流程如下：

1.给定每个子模块的迭代次数

，以及对

的一种切分

；

2.使用默认值

对超参数集合

赋值；

3.

；

4.

；

5.

在1到

中循环；

6.

；

7.

；

8.

；

9.

；

10.

；

11.

；

作为一种优选方案，交替模块将优化多个子模块并搜索最优配置建模为多臂老虎机问题。其do_next!的算法流程如下：

1.

；

2.

；

3.如果

大于等于

，则

4.

；

5.

；

6.

；

7.否则

8.

；

9.

；

10.

；

通过本发明所提供的构造模块的抽象以及三种构造模块的实例，可以将庞大的空间拆分成多个子空间。相比现有的方法每轮优化迭代中直接在庞大的搜索空间选择配置，使用构造模块拆分空间将问题转化为每次优化迭代选择待优化子空间，并在相对较小的子空间中选择配置，从而提升了机器学习配置的搜索效率，也即在给定的时间预算下，本方法能够较现有方法搜索到更好的配置。

给定数据集，评价指标，以及搜索时间预算，本发明使用上述的三种构造模块对机器学习流程优化问题的搜索空间进行切分。具体来说，本发明针对离散型超参数“算法选择”，构造条件模块；针对包含特征工程和算法及算法超参数的空间，构造联合模块拆分成特征工程和算法超参数两个子空间。使用构造模块对空间进行切分得到的树形空间结构即为机器学习流程优化问题的一个执行方案。

图2展示了本发明使用上述切分方法设计的五种执行方案。其中方案1未进行空间分解，只使用了联合模块对原搜索空间进行优化，此方案即为现有方法的执行方案。方案2首先针对算法选择构造了条件模块，其子模块均为联合模块。方案3针对特征与算法及算法超参数，构造交替模块，其子模块均为联合模块。方案4首先针对特征与算法及算法超参数，构造交替模块，其子模块中特征工程部分为联合模块。另一子模块针对算法选择构造条件模块，其子模块均为联合模块。方案5首先针对算法选择构造了条件模块。其子模块再针对特征与算法超参数，构造交替模块，其子模块均为联合模块。其中方案5是经过量化实验验证的机器学习流程优化的问题的优选方案。量化实验如下：

（一）执行方案间的对比

本发明对五种执行方案进行了验证，其原搜索空间和Auto-sklearn保持相同的基础上。实验中数据集被切分为训练集，验证集与测试集三部分。实验使用训练集训练优化迭代中给出的机器学习流程配置，并反馈配置在验证机上的评价指标，最终汇报搜索完毕后最优配置在测试机上的评价指标。实验中使用的评价指标为分类——平衡准确率，回归——均方误差。数据集为OpenML网站开源的机器学习数据集，数据集样本量的范围为1000到12000条，包含20个分类数据集以及10个回归数据集。给定每个执行方案的搜索时间预算为分类——1800秒和回归——5400秒。验证结果如下：

可以看出，方案5在回归和分类上的平均排名显著优于其它方案。

（二）与现有方法对比

本发明将上述执行方案5与现有技术进行对比。实验中数据集被切分为训练集，验证集与测试集三部分。实验使用训练集训练优化迭代中给出的机器学习流程配置，并反馈配置在验证机上的评价指标，最终汇报搜索完毕后最优配置在测试机上的评价指标。数据集为OpenML网站开源的机器学习数据集，数据集样本量的范围为1000到12000条，包含30个分类数据集以及20个回归数据集。给定每个执行方案的搜索时间预算为分类——1800秒和回归——5400秒。验证结果汇报本发明相对于现有技术的提升，分类为平衡准确率的提升，回归为相对的均方误差下降。验证结果如图3，4，5，6所示，其中x轴的ID号为数据集在OpenML网站上的数据集编号。可以观察到，本发明执行方案5在大多数数据集上的表现优于现有方法。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于搜索空间分解的机器学习优化方法，该方法包括构造模块抽象，用于固定搜索空间中部分超参数的取值，优化所述搜索空间中剩余的超参数，以最小化评价指标，从而求解子空间优化问题；其中根据固定的不同的超参数，所述构造模块抽象的实例包括联合模块，条件模块和交替模块。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于搜索空间分解的机器学习优化方法，该方法包括：构造模块抽象，用于固定搜索空间中部分超参数的取值，优化所述搜索空间中剩余的超参数，以最小化评价指标，从而求解子空间优化问题；其中根据固定的不同的超参数，所述构造模块抽象的实例包括联合模块，条件模块和交替模块。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于搜索空间分解的机器学习优化方法，该方法包括：构造模块抽象，用于固定搜索空间中部分超参数的取值，优化所述搜索空间中剩余的超参数，以最小化评价指标，从而求解子空间优化问题；其中根据固定的不同的超参数，所述构造模块抽象的实例包括联合模块，条件模块和交替模块。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个、三个等，除非另有明确具体的限定。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。