CN111553482B

CN111553482B - 机器学习模型超参数的调优方法

Info

Publication number: CN111553482B
Application number: CN202010276428.4A
Authority: CN
Inventors: 王宏志; 王春楠
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2023-08-08
Anticipated expiration: 2040-04-09
Also published as: CN111553482A

Abstract

机器学习模型超参数的调优方法，本发明涉及超参数的调优方法。本发明的目的是为了解决现有超参数优化调优方法准确率低、效率慢，费用高的问题。过程为：一、构建已知经验信息；从Λ_PN中随机选取N/2个超参数配置进行评估，并将评估信息存入ExpInfo中；二、将已知经验信息转化为分类数据集；三、从所有超参数中挑选出关键超参数；四、利用KeyPars推测出Num组最优超参数配置；五、评估ExpNew中的超参数配置并更新已知经验信息；六、重复执行二至五t次，最后输出已知经验信息中最佳的超参数配置推荐给用户。本发明用于超参数的调优领域。

Description

机器学习模型超参数的调优方法

技术领域

本发明涉及超参数的调优方法。

背景技术

超参数是机器学习模型里面的框架参数，比如聚类算法里类的个数，或者神经网络模型里学习率和滤波器的大小，都称为超参数。它们跟训练过程中学习得到的参数(权重)不同，无法从数据里面得到，通常需要靠手工设定，不断试错调整。超参数的选择对机器学习模型最终的效果有极大的影响。比如，复杂的神经网络模型可能有更好的表达能力来处理不同类别的数据，但也可能因为层数太多导致梯度消失无法训练，又如其学习率过大可能导致收敛效果差，过小又可能导致收敛速度过慢。为了显著减少机器学习所耗费的人力需求，同时有效提升机器学习算法的性能，人们定义了超参数调优问题进行深入研究。

给定数据集D，机器学习模型A和n个超参数PN＝{P₁，...，P_n}，超参数调优(Hyperparameter Optimization，HPO)问题旨在找到n个超参数的最佳配置，从而使得模型A在数据集D中的性能最大化。机器学习模型超参数调优一般认为是一个黑盒优化问题(大部分模型超参数符合这个场景)，即在调优过程中只看到模型的输入和输出，无法获取模型训练过程的梯度信息，也无法假设模型超参数和最终指标符合凸优化条件。否则，就可以直接通过求导或者凸优化方法得到最优解。此外，模型的参数评估代价通常十分昂贵，一组超参数通常要训练一个模型需要几分钟、几小时、几天甚至几个月的时间，无法通过快速计算获取大量样本。因此需要非常准确和高效的方法来调优超参数。

鉴于超参数调优问题的重要性及复杂性，目前已有较多的算法来解决复杂的超参数调优问题，如网格搜索(Grid Search)，随机搜索(Random Search)，贝叶斯优化(Bayesian Optimization)，进化算法以及强化学习，这些方法大多是基于在配置空间中大量的搜索或反复的迭代优化后找到模型所需的较好的超参数，进而提升机器学习算法的性能。

最开始为了找到一个好的超参数，通常都是靠人工试错的方式找到最优超参数。但是这种方式效率太慢，所以相继提出了网格搜索和随机搜索。但是这两种方法总归是盲目地搜索，所以贝叶斯优化算法，和基于进化算法以及强化学习的超参数调优算法闪亮登场。这些算法能很好地吸取之前的超参数的经验，更快更高效地最下一次超参数的组合进行选择。但是它们存在一些不足，具体如下：对于具有未知平滑度和有噪声的高维、非凸函数，贝叶斯优化算法往往很难对其进行拟合和优化，而且通常贝叶斯优化算法都有很强的假设条件，而这些条件一般又很难满足。基于进化算法以及强化学习的超参数调优技术，它们假定在遍历了大量超参数配置后可以为用户提供一个表现优异的超参数配置结果，然而模型的参数评估代价通常十分昂贵，使用者通常无法承担大量配置评估所带来的高额花费。

已有超参数调优技术尚存在不足之处，我们克服了它们的缺陷，提出一种更为有效的方法来帮助用户在有限资源条件下快速的找到最佳超参数配置。

发明内容

本发明的目的是为了解决鸢尾属植物数据集分类准确率低的问题，而提出机器学习模型超参数的调优方法。

机器学习模型超参数的调优方法具体过程为：

步骤一、给定数据集D，机器学习模型A，n个超参数PN＝{P₁，P₂,…，P_n}和整数N；

构建已知经验信息{<λ_i,f(λ_i,A,D)>|i＝1,2,…,N/2,λ_i∈Λ_PN},记为ExpInfo；

式中，λ_i为机器学习模型A的超参数配置，表示步骤一中随机选取的N/2个超参数配置，f(λ_i,A,D)为当超参数配置为λ_i时机器学习模型A在数据集D上的性能评分，N为步骤一至步骤六所需测试的超参数配置总数，i为测试的超参数配置的编号，Λ_PN为超参数配置的搜索空间；

表示超参数P_i的取值范围；

从Λ_PN中随机选取N/2个超参数配置进行评估，并将评估信息存入ExpInfo中；

所述评估使用十折交叉验证法进行评估，利用数据集D验证模型A在给定超参数配置下的得分；

所述评估信息具体为：N/2组超参数配置及该配置的得分信息；

N/2组超参数配置为N/2组<λ,f(λ,A,D)>信息，其中λ为选取的N/2组超参数配置；

步骤二、将已知经验信息ExpInfo转化为分类数据集；

步骤三、利用随机森林算法从所有超参数PN中挑选出关键超参数，记为KeyPars；

步骤四、利用KeyPars推测出Num组最优超参数配置，记为ExpNew；

步骤五、评估ExpNew中的超参数配置并将评估后的ExpNew中的超参数配置加入到已知经验信息ExpInfo中，更新已知经验信息ExpInfo；

步骤六、重复执行步骤二至步骤五t次，最后输出已知经验信息ExpInfo中最佳的超参数配置推荐给用户，已知经验信息ExpInfo中最佳的超参数配置记为λ*。

本发明的有益效果为：

本发明采用剪枝法，利用随机森林对特征重要度的强大评估能力来缩小超参数配置空间，从而提高了寻找最优配置的机会。当大多数给定的超参数是多余的或不重要时，该方法优势尤为突出。此外，需要注意的是，在本发明中随机森林算法多次被调用：随着调用次数的增长，积累的经验信息会增多，随机森林算法对超参数重要性的评估结果也会变得更加可靠，提供的候选配置更有可能是最优的。本发明通过不断调用随机森林，不断调整关键超参数KeyPars并提升其可信度，从而逐步接近最优配置。该过程模拟了人类成长进程，随着年龄的增长，人类积累了更丰富的经验，解决问题的能力更强，提供的解决方法也得到了改进。这种方式可以避免单次预测的偏见，提高预测的准确性及有效性。

本发明引入随机森林技术，采取剪枝思想并模拟人类成长进程，从而有效解决了受约束的超参数调优问题。不同于现有超参数调优技术，本发明不存在假设条件，且可以在资源很少的情况下(即评估超参数配置的机会很少的条件下)，充分利用有限经验，快速获取交优的超参数配置。

资源受限是现实生活中不可忽视的重要问题，本发明提出的受约束的超参数调优问题相交传统的超参数调优问题研究价值及实用性更高。此外，与现有的经典的超参数调优技术：网格搜索、随机搜索、贝叶斯优化算法相比，本发明的方案能够在较短时间内利用有限资源(即有效超参数评估次数)，获取更优的超参数配置；解决现有超参数优化调优方法准确率低、效率慢，费用高的问题。实验结果表明，其有效性及时间性能均高于网格搜索、随机搜索、贝叶斯优化算法。

附图说明

图1为本发明方法整体框架图；

图2为本发明随机森林的整体框架图。

具体实施方式

具体实施方式一：本实施方式机器学习模型超参数的调优方法具体过程为：

本发明的关键点在于提出并定义了受约束的超参数调优问题，并提出了一种有效且高效的解决方案。本发明的方案的设计较为新颖，创新性的引入了随机森林技术，采取剪枝思想并模拟人类成长进程，从而有效解决了受约束的超参数调优问题。此外，不同于现有超参数调优技术，本发明的方案不存在任何假设条件，且可以在资源很少的情况下(即评估超参数配置的机会很少的条件下)，充分利用有限经验，快速获取交优的超参数配置。其有效性及实用性高于现有超参数调优技术。

资源受限是现实生活中不可忽视的重要问题，本发明将资源受限条件加入到传统的超参数调优问题中，提出并定义了受约束的超参数调优问题(定义1)。该问题更符合实际情况，其研究价值及实用性更高。

定义1(受约束的超参数调优问题)：假设表示超参数P_i的取值范围，表示完整的超参数配置空间，f(λ,A,D)表示当超参数配置为λ时模型A在数据集D上的性能评分；给定数据集D，机器学习模型A，n个超参数PN＝{P₁，...，P_n}和整数N；受约束的超参数调优问题旨在从Λ_PN中找到使得模型A性能最大化的超参数配置λ^*；

本发明的目的是提出高效的算法来解决受约束的超参数调优问题，使得提出的算法能够克服现有超参数调优技术的缺陷，并能更为有效的帮助用户在有限资源条件下快速的找到最佳超参数配置。

本发明旨在提出高效的算法来解决受约束的超参数调优问题，即利用有限的超参数评估机会，最大可能地帮助用户快速得到所期望的最优超参数配置。本发明的主要思想是充分利用已有经验(即已知的“超参数配置-性能”信息)，挑选出对模型性能影响较大的超参数，然后对超参数配置空间Λ_PN进行剪枝，集中关注挑选出的关键超参数，忽略不重要或冗余的超参数，从而避免在无用的超参数配置上浪费时间，继而可利用尽可能多的资源来探索更多表现优异且更加有用的超参数配置。实现该思想的关键是合理判断超参数的重要性。众所周知，随机森林算法具有很强的识别分类数据集中特征重要性的能力。因此，在本发明中试图将已有经验数据转化为分类数据集，然后引入随机森林技术，来有效判断各个超参数对模型性能的重要性。具体流程如下。

步骤一、给定数据集D(数据集由用户给定，其类型由给定的机器学习模型A确定。例如：A为决策树分类模型，则D为一个分类数据集。数据集结构：特征值+目标值，例如：鸢尾属植物数据集。特征值为：花萼长度，花萼宽度，花瓣长度，花瓣宽度；目标值为植物类别标签。该数据集是一个分类数据集。)，机器学习模型A，n个超参数PN＝{P₁，P₂,…，P_n}和整数N；

式中，λ_i为机器学习模型A的超参数配置，表示步骤一中随机选取的N/2个超参数配置(机器学习模型一般存在很多超参数，不同超参数配置下模型的性能差异很大。机器学习模型需要先对超参数进行配置，然后才可以处理具体任务。)，f(λ_i,A,D)为当超参数配置为λ_i时机器学习模型A在数据集D上的性能评分，N为步骤一至步骤六所需测试的超参数配置总数，i为测试的超参数配置的编号，Λ_PN为超参数配置的搜索空间(可理解为超参数配置的值域。)；

表示超参数P_i的取值范围；

说明：模型A在不同超参数配置下性能不同。

步骤二、将已知经验信息ExpInfo转化为分类数据集；

步骤四、利用KeyPars推测出Num组最优超参数配置，记为ExpNew；

步骤五、评估ExpNew中的超参数配置并将评估后的ExpNew中的超参数配置加入到已知经验信息ExpInfo中，更新已知经验信息ExpInfo(将新的评估信息加入到ExpInfo中。)；

步骤六、重复执行步骤二至步骤五t次，最后输出已知经验信息ExpInfo中最佳的超参数配置推荐给用户，已知经验信息ExpInfo中最佳的超参数配置记为λ^*。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中评估使用十折交叉验证法进行评估，利用数据集D验证模型A在给定超参数配置下的得分；具体过程为：

A为决策树分类模型，D为分类数据集，利用十折交叉验证法将D划分为10组测试集和10组验证集，使用测试集训练A，并利用验证集测试A的分类准确性，进行10轮后即得到10个分类准确性值，最终取10个准确性值的平均数，作为A在给定超参数配置下的得分。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤二中将已知经验信息ExpInfo转化为分类数据集；具体过程为：

步骤二一、对ExpInfo中的超参数配置λ_i的得分由大到小进行排序；

说明：ExpInfo中每一项里，第一个值是超参数配置，第二个值是给定模型在该超参数配置下在给定数据集上的性能得分，简称：该配置的得分。

步骤二二、将排序后的超参数配置λ_i均分为三类(数值大的为高，中间的为中，小的为低)：

高性能超参数配置，标记为3；

中性能超参数配置，标记为2；

低性能超参数配置，标记为1；

这样，ExpInfo中的每个超参数配置都有一个与其性能相关的类别标签，假设lab_j表示λ_j对应的标签值，则ExpInfo转化为一个分类数据集：{<λ_j,lab_j>|j＝1,2,…,|Expinfo|}，记为ExpInfoClass；

式中，|ExpInfo|为ExpInfo中超参数配置个数(或可理解为信息)，j为超参数配置的下标，λ_j表示ExpInfo中的第j个超参数配置(或可理解为ExpInfo中的第j条信息中的超参数配置)。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中利用随机森林算法从所有超参数PN中挑选出关键超参数，记为KeyPars；具体过程为：

步骤三一、使用ExpInfoClass对随机森林模型进行训练，训练后随机森林模型会根据每个超参数在随机森林中的每颗树上做出的贡献获取其重要性；

具体过程为：

在随机森林中某个超参数X的重要性的计算方法如下：

1)：对于随机森林中的每一颗决策树，使用相应的袋外数据来计算每一颗决策树的袋外数据误差，记为errOOB1；

袋外数据包含输入值X和正确输出值Yreal，把袋外数据的X输入到决策树中得到决策树的输出值Ypredict，Ypredict相对Yreal的误差即为袋外误差；

袋外数据的含义如下：随机森林在构建每棵决策树时，会从训练集中抽取部分训练实例构建决策树。对于每棵决策树而言，没有使用到的训练实例，就称为该棵决策树的袋外数据样本。

2)：随机地对袋外数据所有样本的超参数X加入噪声干扰，再次计算决策树(1)中提到的决策树)的袋外数据误差，记为errOOB2；

3)：假设随机森林中有Ntree棵树，那么特征X的重要性＝∑(errOOB2-errOOB1)/Ntree。

步骤三二、重要性估值越大表明该超参数的取值对超参数配置的性能影响越大，从PN中挑选出重要性从大到小排列的前一半数量的超参数作为关键超参数KeyPars。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述步骤四中利用KeyPars推测出Num组最优超参数配置，记为ExpNew；具体过程为；

对于关键超参数KeyPars，随机生成Num组新的超参数配置，即Num组最优超参数配置，记为ExpNew；

Num＝N/(2*t)

其中t为步骤二至步骤四迭代的次数；

对于非关键超参数，非关键超参数的配置与已知经验信息ExpInfo中最佳性能的配置相同；

机器学习模型必须所有超参数都配置好才可以正常运行。对于非关键超参数，虽然它们对模型的性能影响不大，但仍需要进行设置。本专利中，我们参照ExpInfo中性能最佳的配置，对非关键超参数进行配置，以保证配置的合理性。

ExpInfo中性能最佳的一个超参数配置，包含所有超参数的设定值。所有非关键超参数都按照它进行配置。

所述ExpInfo中最佳性能的配置即ExpInfo中得分最高的超参数配置；

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述步骤五中评估ExpNew中的超参数配置并将评估后的ExpNew中的超参数配置加入到已知经验信息ExpInfo中，更新已知经验信息ExpInfo(将新的评估信息加入到ExpInfo中。)；具体过程为：

更新已知经验信息ExpInfo的方式如下所示：

ExpInfo＝ExpInfo∪{<λ,f(λ，A，D)>|λ∈ExpNew}

所述评估ExpNew中的超参数配置为使用十折交叉验证法，利用数据集D验证模型A在给定超参数配置下的得分。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述步骤六中重复执行步骤二至步骤五t次，最后输出已知经验信息ExpInfo中最佳的超参数配置推荐给用户，已知经验信息ExpInfo中最佳的超参数配置记为λ^*；表达式为：

<λ^*，f^*>＝argmax<λ,f(λ，A，D)>∈ExpInfof(λ，A，D)

式中，f^*为ExpInfo中得分最高的超参数配置的得分；

所述已知经验信息ExpInfo中最佳的超参数配置为已知经验信息ExpInfo中得分最高的超参数配置。

其它步骤及参数与具体实施方式一至六之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

将本发明方法与其他三个经典的超参数优化方法：随机搜索方法、网格搜索方法和贝叶斯优化方法，进行比较，本发明提出的方法能提供更优的结果(本方法最终推荐的超参数配置更优秀，性能得分更高)。该实例中机器学习模型A为XGBoost机器学习算法，XGBoost的n个超参数(PN)具体见表1；数据集及性能比较详见表2。其中，表2中N的含义是：某超参数优化方法在运行过程中评估的超参数配置总数，N越大超参数优化方法提供的结果会越好。表2中的百分数指的是某超参数优化算法最终推荐的超参数配置的得分相对XGBoost在默认超参数配置下的得分的提升比例。该百分数越大，超参数优化方法的性能越高。

表1XGBoost的7个超参数

表2四个超参数优化方法在XGBoost实例上的性能比较

表格中的百分数指的是某超参数优化算法最终推荐的超参数配置的得分相对XGBoost在默认超参数配置下的得分的提升比例。该百分数越大，超参数优化方法的性能越高。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.机器学习模型超参数的调优方法，其特征在于：所述方法具体过程为：

其中机器学习模型A为决策树分类模型，数据集D为分类数据集，数据集结构为：特征值+目标值；

所述分类数据集为鸢尾属植物数据集；

鸢尾属植物数据集特征值为：花萼长度，花萼宽度，花瓣长度，花瓣宽度；

鸢尾属植物数据集目标值为：植物类别标签；

式中，λ_i为机器学习模型A的超参数配置，f(λ_i,A,D)为当超参数配置为λ_i时机器学习模型A在数据集D上的性能评分，N为步骤一至步骤六所需测试的超参数配置总数，i为测试的超参数配置的编号，Λ_PN为超参数配置的搜索空间；

表示超参数P_i的取值范围；

步骤二、将已知经验信息ExpInfo转化为分类数据集；

步骤四、利用KeyPars推测出Num组最优超参数配置，记为ExpNew；

2.根据权利要求1所述机器学习模型超参数的调优方法，其特征在于：所述步骤一中评估使用十折交叉验证法进行评估，利用数据集D验证模型A在给定超参数配置下的得分；具体过程为：

3.根据权利要求1或2所述机器学习模型超参数的调优方法，其特征在于：所述步骤二中将已知经验信息ExpInfo转化为分类数据集；具体过程为：

步骤二二、将排序后的超参数配置λ_i均分为三类：

高性能超参数配置，标记为3；

中性能超参数配置，标记为2；

低性能超参数配置，标记为1；

式中，|ExpInfo|为ExpInfo中超参数配置个数，j为超参数配置的下标，λ_j表示ExpInfo中的第j个超参数配置。

4.根据权利要求3所述机器学习模型超参数的调优方法，其特征在于：所述步骤三中利用随机森林算法从所有超参数PN中挑选出关键超参数，记为KeyPars；具体过程为：

步骤三二、从PN中挑选出重要性从大到小排列的前一半数量的超参数作为关键超参数KeyPars。

5.根据权利要求4所述机器学习模型超参数的调优方法，其特征在于：所述步骤四中利用KeyPars推测出Num组最优超参数配置，记为ExpNew；具体过程为；

Num＝N/(2*t)

其中t为步骤二至步骤四迭代的次数；

所述ExpInfo中最佳性能的配置即ExpInfo中得分最高的超参数配置。

6.根据权利要求5所述机器学习模型超参数的调优方法，其特征在于：所述步骤五中评估ExpNew中的超参数配置并将评估后的ExpNew中的超参数配置加入到已知经验信息ExpInfo中，更新已知经验信息ExpInfo；具体过程为：

更新已知经验信息ExpInfo的方式如下所示：

ExpInfo＝ExpInfo∪{<λ,f(λ，A，D)>|λ∈ExpNew}

7.根据权利要求6所述机器学习模型超参数的调优方法，其特征在于：所述步骤六中重复执行步骤二至步骤五t次，最后输出已知经验信息ExpInfo中最佳的超参数配置推荐给用户，已知经验信息ExpInfo中最佳的超参数配置记为λ^*；表达式为：

<λ^*，f^*>＝argmax_{<λ,f(λ，A，D)>∈ExpInfo}f(λ，A，D)

式中，f^*为ExpInfo中得分最高的超参数配置的得分；