CN113312855A - 基于搜索空间分解的机器学习优化方法、电子设备及介质 - Google Patents

基于搜索空间分解的机器学习优化方法、电子设备及介质 Download PDF

Info

Publication number
CN113312855A
CN113312855A CN202110854074.1A CN202110854074A CN113312855A CN 113312855 A CN113312855 A CN 113312855A CN 202110854074 A CN202110854074 A CN 202110854074A CN 113312855 A CN113312855 A CN 113312855A
Authority
CN
China
Prior art keywords
search space
module
optimization
machine learning
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110854074.1A
Other languages
English (en)
Other versions
CN113312855B (zh
Inventor
崔斌
黎洋
沈彧
江淮钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110854074.1A priority Critical patent/CN113312855B/zh
Publication of CN113312855A publication Critical patent/CN113312855A/zh
Application granted granted Critical
Publication of CN113312855B publication Critical patent/CN113312855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于搜索空间分解的机器学习优化方法、电子设备及介质,本方法包括:构造模块抽象,用于固定搜索空间中部分超参数的取值,优化所述搜索空间中剩余的超参数,以最小化评价指标,从而求解子空间优化问题;其中根据固定的不同的超参数,所述构造模块抽象的实例包括联合模块,条件模块和交替模块。本发明通过使用构造模块抽象以及三种构造模块抽象的实例,可以将庞大的空间拆分成多个子空间,使用构造模块拆分空间将问题转化为每次优化迭代选择待优化子空间,并在相对较小的子空间中选择配置,从而提升了机器学习配置的搜索效率。

Description

基于搜索空间分解的机器学习优化方法、电子设备及介质
技术领域
本发明涉及搜索空间分解与搜索空间优化等自动化机器学习领域,尤其涉及一种基于搜索空间分解的机器学习优化方法、电子设备及介质。
背景技术
机器学习(Machine Learning)是一种常用的数据分析方法,在金融分析,广告推荐,文本挖掘,人工驾驶等领域有极其广泛的应用。然而,机器学习应用的效果很大程度上依赖于流程配置超参数的选择,例如特征工程,算法选择等。这个特性导致机器学习应用的开发门槛高,周期长。为了解决这一难点,自动化机器学习优化框架应运而生。现有的框架以数据集和评价指标作为输入,向用户提供端到端的服务,即不需用户进一步交互的情况下返回在该数据集上使评价指标达到最优的机器学习流程。
近几年来具有代表性自动化机器学习优化框架的工作有:① Feurer, M.;Klein, A.; Eggensperger, K.; Springenberg, J. T.; Blum, M.; Hutter, F. 2019.Auto-sklearn: efficient and robust automated machine learning. AutomatedMachine Learning. Springer, Cham, 113-134. 以及 ② Olson, R. S.; Moore, J. H.2016. TPOT: A tree-based pipeline optimization tool for automating machinelearning. In Workshop on automatic machine learning. PMLR, 66-74. 其中Auto-sklearn,即相关工作①,将特征工程,算法选择,算法超参数优化合并成一个搜索空间,并使用贝叶斯优化的方法在搜索空间中寻找最优配置。TPOT,即相关工作②,构造了与Auto-Sklearn类似的搜索空间,但使用遗传算法的方式寻找最优配置。尽管这些现有的工作能够自动化并且端到端地给出最优的机器学习配置,但在实际应用场景中,由于搜索空间极其庞大(Auto-sklearn的搜索空间具有110个待调超参数),加之每个机器学习配置的验证代价大,在有限的时间预算下往往无法达到理想的效果。
发明内容
本发明的目的是提供一种基于搜索空间分解的机器学习优化方法、电子设备及介质,用以解决现有技术中存在的问题。
第一方面,本发明提供一种基于搜索空间分解的机器学习流程优化方法,包括:
构造模块抽象,用于固定搜索空间中部分超参数的取值,优化所述搜索空间中剩余的超参数,以最小化评价指标,从而求解子空间优化问题;
其中根据固定的不同的超参数,所述构造模块抽象的实例包括联合模块,条件模块和交替模块。
进一步地,所述构造模块抽象包括五个接口:
第一接口为初始化接口,用于输入给定数据集、评价指标以及固定的超参数集合及其赋值,所述第一接口返回对应的第一构造模块;
第二接口用于输入第二构造模块,返回所述第二构造模块下当前最佳的观察;
第三接口用于输入第三构造模块,使所述第三构造模块进行优化迭代;
第四接口用于输入第四构造模块和时间预算,返回所述第四构造模块在满足所述时间预算的将执行的优化中可达到的评价指标的上下界;
第五接口用于输入第五构造模块,返回所述第五构造模块在将执行的优化中可达到的评价指标的下降的期望
进一步地,所述使所述第三构造模块进行优化迭代包括:
给定每个子构造模块的优化迭代次数,对所述每个子构造模块进行所述优化迭代次数的优化迭代;
根据所述子构造模块的预期评价指标的上下界删除不符合预定子构造模块;其中对于评价指标的最小化,当所述子构造模块的下界大于任意剩余子构造模块的上界,则删除所述子构造模块。
进一步地,所述联合模块使用优化算法对输入的未固定超参数子空间进行优化。
进一步地,所述条件模块选择输入的未固定超参数中一个离散超参数,根据所述离散超参数的取值个数,通过固定所述离散超参数,生成子构造模块。
进一步地,所述交替模块将输入的未固定的超参数集合切分成两个集合,通过固定一个集合的取值为另一集合生成子构造模块,共生成两个子构造模块。
进一步地,所述交替模块进行的优化迭代包括:
记所述交替模块的所述两个子构造模块为
Figure 311235DEST_PATH_IMAGE001
,记
Figure 353141DEST_PATH_IMAGE001
的评价指标下降的期 望为
Figure 181419DEST_PATH_IMAGE002
Figure 775212DEST_PATH_IMAGE003
大于等于
Figure 56151DEST_PATH_IMAGE004
则使用当前
Figure 901748DEST_PATH_IMAGE005
当前最优配置为
Figure 584533DEST_PATH_IMAGE006
中固定的超参数重新赋值,并优化迭代
Figure 490172DEST_PATH_IMAGE006
否则使用当前
Figure 383042DEST_PATH_IMAGE006
当前最优配置为
Figure 501170DEST_PATH_IMAGE005
中固定的超参数重新赋值,并优化迭代
Figure 306971DEST_PATH_IMAGE005
进一步地,还包括:
使用所述条件模块将对应于算法选择的超参数根据取值拆分成子构造模块;
使用所述交替模块将对应于特征工程和算法及算法超参数拆分成两个子构造模块。
第二方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现根据第一方面所述基于搜索空间分解的机器学习流程优化方法的步骤。
第三方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据第一方面所述基于搜索空间分解的机器学习流程优化方法的步骤。
由上面技术方案可知,本发明提供的基于搜索空间分解的机器学习优化方法、电子设备及介质,通过使用构造模块抽象以及三种构造模块抽象的实例,可以将庞大的空间拆分成多个子空间,使用构造模块拆分空间将问题转化为每次优化迭代选择待优化子空间,并在相对较小的子空间中选择配置,从而提升了机器学习配置的搜索效率,也即在给定的时间预算下,本方法能够较现有方法搜索到更好的配置。
附图说明
图1是根据本发明实施例的基于搜索空间分解的机器学习优化方法的流程图;
图2是根据本发明实施例的根据三种构造模块实例提出的五种执行方案;
图3是根据本发明实施例的执行方案5在30个分类数据集上对比TPOT的平衡准确率提升;
图4是根据本发明实施例的执行方案5在30个分类数据集上对比Auto-sklearn的平衡准确率提升;
图5是根据本发明实施例的执行方案5在20个回归数据集上对比TPOT的相对均方误差下降;
图6是根据本发明实施例的执行方案5在20个回归数据集上对比Auto-sklearn的相对均方误差下降;
图7是根据本发明实施例的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明试图从搜索空间切分的角度解决现有技术的局限性。其核心思想是,通过对庞大的搜索空间进行合理切分,并在切分后的子空间上进行轮转式地搜索优化,相对现有技术提升搜索效率。基于上述思想,本发明提出了一种基于搜索空间分解的自动化机器学习优化框架,利用三种抽象的构造模块分解搜索空间,并进而对每个构造模块进行优化。实验表明,在给定相同的时间预算下,本框架相对现有技术能够搜索得到更好的机器学习配置。
术语解释:
超参数:指影响机器学习流程的需要在运行流程前给定的参数,例如机器学习算法的选择,或是随机森林(某个特定算法)的树的个数等。本发明中的超参数包含特征工程操作,算法选择以及算法超参数三个方面。
搜索空间:指由超参数以及其取值范围构造而成的空间。
配置:指对机器学习流程中每一超参数的一种特定的赋值。从搜索空间中采样一个点即为一个配置。
观察结果:一个观察结果指一个配置以及这个配置经过验证的指标构成的二元对。
机器学习配置优化:设机器学习配置优化问题中包含n个超参数
Figure 117932DEST_PATH_IMAGE007
,且每 个超参数
Figure 498098DEST_PATH_IMAGE008
对应的取值范围为
Figure 419918DEST_PATH_IMAGE009
。给定输入数据集D,以及评价指标
Figure 342874DEST_PATH_IMAGE010
(不妨设评价指标越 小越好,下同),机器学习配置优化问题的目标为寻找配置以最小化评价指标,即
Figure 324737DEST_PATH_IMAGE011
代理模型:由于无法使用通过实际验证以外的方式得到一个配置的真实结果,为了降低对实际验证的依赖,贝叶斯优化使用代理模型拟合观察结果,即使用代理模型预测一组配置的真实结果。
采集函数:贝叶斯优化针对代理模型定义一个采集函数,每一轮推荐能够使得采集函数最大的配置。
贝叶斯优化:一种被广泛使用的优化算法。通过使用代理模型拟合现有的观察结果进行拟合,并通过优化采集函数的方式推荐需要实际验证的配置。
多臂老虎机问题:多臂老虎机问题(Multi-armed Bandit)是概率论经典问题。设想一个赌徒,面前有多个老虎机,但他不知道每台老虎机的具体收益。MAB问题研究如何根据每次玩老虎机的收益选择下次的策略(玩哪台老虎机或是停止),从而最大化收益。
执行方案:给定搜索空间,并给定搜索空间的切分方式,系统运行的流程即为执行方案。现有方法由于不进行搜索空间切分,因此仅有一种执行方案。
针对目前存在的搜索空间过于庞大导致配置搜索效率低下的问题,本发明通过对庞大的搜索空间进行合理切分,并在切分后的子空间上进行轮转式地搜索优化,相对现有方法提升搜索效率。基于上述思想,本发明提出了一种基于搜索空间分解的自动化机器学习优化框架,利用三种抽象的构造模块分解搜索空间,并进而对每个构造模块进行优化。
图1是根据本发明实施例的基于搜索空间分解的机器学习优化方法的流程图,参考图1,本发明提供的方法包括:
步骤110:构造模块抽象,用于固定搜索空间中部分超参数的取值,优化所述搜索空间中剩余的超参数,以最小化评价指标,从而求解子空间优化问题;其中根据固定的不同的超参数,所述构造模块抽象的实例包括联合模块,条件模块和交替模块。
具体地,本发明的方法包括如下部分:
A. 一种构造模块的抽象
本发明提出构造模块的抽象,每个模块完成一个机器学习配置优化的子问题,即固定某些超参数的取值,优化剩余超参数以最小化评价指标。其数学定义如下:
设机器学习配置优化问题中包含n个超参数
Figure 67565DEST_PATH_IMAGE012
,且每个超参数
Figure 917709DEST_PATH_IMAGE008
对应的取 值范围为
Figure 429593DEST_PATH_IMAGE009
。已固定超参数子集
Figure 582357DEST_PATH_IMAGE013
,且
Figure 809551DEST_PATH_IMAGE014
拥有赋值
Figure 338753DEST_PATH_IMAGE015
。记 不在固定超参数集合中的超参数集合为
Figure 829777DEST_PATH_IMAGE016
。子问题的优化目标为
Figure 153442DEST_PATH_IMAGE017
本发明提出的构造模块抽象具有以下五个接口:
1.
Figure 870862DEST_PATH_IMAGE018
本接口为初始化接口。通过给定数据集,评价指标以及固定的超参数集合及其赋值,接口返回一个对应的构造模块。
2.
Figure 938175DEST_PATH_IMAGE019
给定一个构造模块,本接口返回这个构造模块下当前最佳的观察。
3.
Figure 424652DEST_PATH_IMAGE020
给定一个构造模块,本接口要求该构造模块进行一轮优化迭代。其中“!”表示可能构造模块内涉及内部状态的状态改变。
4.
Figure 309431DEST_PATH_IMAGE021
给定一个构造模块以及一定的预算(秒),本接口返回该构造模块在给定预算的未来优化中可能达到的评价指标的上下界。
5.
Figure 248568DEST_PATH_IMAGE022
给定一个构造模块,本接口返回该构造模块在未来优化中能够带来的评价指标的下降的期望。
B. 三种构造模块的实例
根据子问题中固定取值的超参数集合不同,本发明提出三种构造模块,分别为联合(Joint)模块,条件(Conditioning)模块,以及交替(Alternating)模块。
B1. 联合模块
联合模块直接对给定的子空间进行优化。作为一种优选方案,联合模块的do_ next!的实现为贝叶斯优化算法。即每次调用联合模块的do_next!接口时进行贝叶斯优化, 从子空间中得到一组
Figure 853993DEST_PATH_IMAGE023
的配置,并与固定的超参数
Figure 209624DEST_PATH_IMAGE014
的赋值
Figure 265305DEST_PATH_IMAGE024
组成完整的机器学习配 置,进行实际验证。
B2. 条件模块
条件模块对输入的空间进行了切分。令未固定的输入超参数集合为
Figure 426159DEST_PATH_IMAGE025
,条件模块 将超参数切分成两部分
Figure 100854DEST_PATH_IMAGE026
,其中
Figure 296343DEST_PATH_IMAGE027
是一个类别型超参数,取值范围
Figure 398291DEST_PATH_IMAGE028
为离散 集合。条件模块在生成时会对每个可能的取值
Figure 436654DEST_PATH_IMAGE029
生成一个子构造模块,每个子构造 模块的优化目标为
Figure 649461DEST_PATH_IMAGE030
。因此,将生成
Figure 699456DEST_PATH_IMAGE031
个子构造模块。
作为一种优选方案,条件模块将优化多个子模块并搜索最优配置建模为多臂老虎机问题。其do_next!的算法流程如下:
1.给定预算
Figure 972306DEST_PATH_IMAGE032
,以及每个子模块的迭代次数
Figure 232386DEST_PATH_IMAGE033
,令本条件模块下的子模块为
Figure 245954DEST_PATH_IMAGE034
2.
Figure 681614DEST_PATH_IMAGE035
在1到
Figure 859786DEST_PATH_IMAGE033
中循环;
3.
Figure 748107DEST_PATH_IMAGE036
在 1 到
Figure 427351DEST_PATH_IMAGE037
中循环;
4.do_next!(
Figure 451938DEST_PATH_IMAGE038
);
5.
Figure 801011DEST_PATH_IMAGE036
在 1 到
Figure 911050DEST_PATH_IMAGE037
中循环;
6.
Figure 393984DEST_PATH_IMAGE039
7.基于上下界,删除被其它子模块支配的子模块。
B3. 交替模块
交替模块也对输入的空间进行切分。令未固定的输入超参数集合为
Figure 273078DEST_PATH_IMAGE025
,交替模块 将超参数切分成两部分
Figure 61561DEST_PATH_IMAGE040
。交替模块在生成时会对两个部分各自生成子模块。子 模块中另一切分的超参数赋值可能发生变化,在交替模块中使用set_var方法实现。例如, 对
Figure 924475DEST_PATH_IMAGE041
构造的子模块
Figure 820887DEST_PATH_IMAGE042
,可以使用
Figure 944700DEST_PATH_IMAGE043
将另一切分中的超参数集合
Figure 901155DEST_PATH_IMAGE044
的赋值改为
Figure 720207DEST_PATH_IMAGE045
。生成交替模块的init方法的流程如下:
1.给定每个子模块的迭代次数
Figure 420309DEST_PATH_IMAGE033
,以及对
Figure 398630DEST_PATH_IMAGE025
的一种切分
Figure 525986DEST_PATH_IMAGE040
2.使用默认值
Figure 97912DEST_PATH_IMAGE046
对超参数集合
Figure 333197DEST_PATH_IMAGE047
赋值;
3.
Figure 166024DEST_PATH_IMAGE048
4.
Figure 464281DEST_PATH_IMAGE049
5.
Figure 257925DEST_PATH_IMAGE035
在1到
Figure 299830DEST_PATH_IMAGE033
中循环;
6.
Figure 393688DEST_PATH_IMAGE050
7.
Figure 721901DEST_PATH_IMAGE051
8.
Figure 268420DEST_PATH_IMAGE052
9.
Figure 848437DEST_PATH_IMAGE053
10.
Figure 531223DEST_PATH_IMAGE054
11.
Figure 295916DEST_PATH_IMAGE055
作为一种优选方案,交替模块将优化多个子模块并搜索最优配置建模为多臂老虎机问题。其do_next!的算法流程如下:
1.
Figure 320942DEST_PATH_IMAGE056
2.
Figure 704650DEST_PATH_IMAGE057
3.如果
Figure 507521DEST_PATH_IMAGE003
大于等于
Figure 318482DEST_PATH_IMAGE004
,则
4.
Figure 433069DEST_PATH_IMAGE058
5.
Figure 620468DEST_PATH_IMAGE059
6.
Figure 277845DEST_PATH_IMAGE050
7.否则
8.
Figure 259708DEST_PATH_IMAGE060
9.
Figure 861590DEST_PATH_IMAGE061
10.
Figure 587101DEST_PATH_IMAGE053
通过本发明所提供的构造模块的抽象以及三种构造模块的实例,可以将庞大的空间拆分成多个子空间。相比现有的方法每轮优化迭代中直接在庞大的搜索空间选择配置,使用构造模块拆分空间将问题转化为每次优化迭代选择待优化子空间,并在相对较小的子空间中选择配置,从而提升了机器学习配置的搜索效率,也即在给定的时间预算下,本方法能够较现有方法搜索到更好的配置。
给定数据集,评价指标,以及搜索时间预算,本发明使用上述的三种构造模块对机器学习流程优化问题的搜索空间进行切分。具体来说,本发明针对离散型超参数“算法选择”,构造条件模块;针对包含特征工程和算法及算法超参数的空间,构造联合模块拆分成特征工程和算法超参数两个子空间。使用构造模块对空间进行切分得到的树形空间结构即为机器学习流程优化问题的一个执行方案。
图2展示了本发明使用上述切分方法设计的五种执行方案。其中方案1未进行空间分解,只使用了联合模块对原搜索空间进行优化,此方案即为现有方法的执行方案。方案2首先针对算法选择构造了条件模块,其子模块均为联合模块。方案3针对特征与算法及算法超参数,构造交替模块,其子模块均为联合模块。方案4首先针对特征与算法及算法超参数,构造交替模块,其子模块中特征工程部分为联合模块。另一子模块针对算法选择构造条件模块,其子模块均为联合模块。方案5首先针对算法选择构造了条件模块。其子模块再针对特征与算法超参数,构造交替模块,其子模块均为联合模块。其中方案5是经过量化实验验证的机器学习流程优化的问题的优选方案。量化实验如下:
(一)执行方案间的对比
本发明对五种执行方案进行了验证,其原搜索空间和Auto-sklearn保持相同的基础上。实验中数据集被切分为训练集,验证集与测试集三部分。实验使用训练集训练优化迭代中给出的机器学习流程配置,并反馈配置在验证机上的评价指标,最终汇报搜索完毕后最优配置在测试机上的评价指标。实验中使用的评价指标为分类——平衡准确率,回归——均方误差。数据集为OpenML网站开源的机器学习数据集,数据集样本量的范围为1000到12000条,包含20个分类数据集以及10个回归数据集。给定每个执行方案的搜索时间预算为分类——1800秒和回归——5400秒。验证结果如下:
Figure 96055DEST_PATH_IMAGE062
Figure 248819DEST_PATH_IMAGE063
可以看出,方案5在回归和分类上的平均排名显著优于其它方案。
(二)与现有方法对比
本发明将上述执行方案5与现有技术进行对比。实验中数据集被切分为训练集,验证集与测试集三部分。实验使用训练集训练优化迭代中给出的机器学习流程配置,并反馈配置在验证机上的评价指标,最终汇报搜索完毕后最优配置在测试机上的评价指标。数据集为OpenML网站开源的机器学习数据集,数据集样本量的范围为1000到12000条,包含30个分类数据集以及20个回归数据集。给定每个执行方案的搜索时间预算为分类——1800秒和回归——5400秒。验证结果汇报本发明相对于现有技术的提升,分类为平衡准确率的提升,回归为相对的均方误差下降。验证结果如图3,4,5,6所示,其中x轴的ID号为数据集在OpenML网站上的数据集编号。可以观察到,本发明执行方案5在大多数数据集上的表现优于现有方法。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于搜索空间分解的机器学习优化方法,该方法包括构造模块抽象,用于固定搜索空间中部分超参数的取值,优化所述搜索空间中剩余的超参数,以最小化评价指标,从而求解子空间优化问题;其中根据固定的不同的超参数,所述构造模块抽象的实例包括联合模块,条件模块和交替模块。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于搜索空间分解的机器学习优化方法,该方法包括:构造模块抽象,用于固定搜索空间中部分超参数的取值,优化所述搜索空间中剩余的超参数,以最小化评价指标,从而求解子空间优化问题;其中根据固定的不同的超参数,所述构造模块抽象的实例包括联合模块,条件模块和交替模块。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于搜索空间分解的机器学习优化方法,该方法包括:构造模块抽象,用于固定搜索空间中部分超参数的取值,优化所述搜索空间中剩余的超参数,以最小化评价指标,从而求解子空间优化问题;其中根据固定的不同的超参数,所述构造模块抽象的实例包括联合模块,条件模块和交替模块。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个、三个等,除非另有明确具体的限定。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于搜索空间分解的机器学习流程优化方法,其特征在于,包括:
构造模块抽象,用于固定搜索空间中部分超参数的取值,优化所述搜索空间中剩余的超参数,以最小化评价指标,从而求解子空间优化问题;
其中根据固定的不同的超参数,所述构造模块抽象的实例包括联合模块,条件模块和交替模块。
2.根据权利要求1所述的基于搜索空间分解的机器学习流程优化方法,其特征在于,所述构造模块抽象包括五个接口:
第一接口为初始化接口,用于输入给定数据集、评价指标以及固定的超参数集合及其赋值,所述第一接口返回对应的第一构造模块;
第二接口用于输入第二构造模块,返回所述第二构造模块下当前最佳的观察;
第三接口用于输入第三构造模块,使所述第三构造模块进行优化迭代;
第四接口用于输入第四构造模块和时间预算,返回所述第四构造模块在满足所述时间预算的将执行的优化中可达到的评价指标的上下界;
第五接口用于输入第五构造模块,返回所述第五构造模块在将执行的优化中可达到的评价指标的下降的期望。
3.根据权利要求2所述的基于搜索空间分解的机器学习流程优化方法,其特征在于,所述使所述第三构造模块进行优化迭代包括:
给定每个子构造模块的优化迭代次数,对所述每个子构造模块进行所述优化迭代次数的优化迭代;
根据所述子构造模块的预期评价指标的上下界删除不符合预定子构造模块;其中对于评价指标的最小化,当所述子构造模块的下界大于任意剩余子构造模块的上界,则删除所述子构造模块。
4.根据权利要求3所述的基于搜索空间分解的机器学习流程优化方法,其特征在于,所述联合模块使用优化算法对输入的未固定超参数子空间进行优化。
5.根据权利要求3所述的基于搜索空间分解的机器学习流程优化方法,其特征在于,所述条件模块选择输入的未固定超参数中一个离散超参数,根据所述离散超参数的取值个数,通过固定所述离散超参数,生成子构造模块。
6.根据权利要求3所述的基于搜索空间分解的机器学习流程优化方法,其特征在于,所述交替模块将输入的未固定的超参数集合切分成两个集合,通过固定一个集合的取值为另一集合生成子构造模块,共生成两个子构造模块。
7.根据权利要求6所述的基于搜索空间分解的机器学习流程优化方法,其特征在于,所述交替模块进行的优化迭代包括:
记所述交替模块的所述两个子构造模块为
Figure 413351DEST_PATH_IMAGE001
,记
Figure 412531DEST_PATH_IMAGE001
的评价指标下降的期望为
Figure 368986DEST_PATH_IMAGE002
Figure 453616DEST_PATH_IMAGE003
大于等于
Figure 12774DEST_PATH_IMAGE004
则使用当前
Figure 132039DEST_PATH_IMAGE005
当前最优配置为
Figure 259395DEST_PATH_IMAGE006
中固定的超参数重新赋值,并优化迭代
Figure 831322DEST_PATH_IMAGE006
否则使用当前
Figure 66607DEST_PATH_IMAGE006
当前最优配置为
Figure 899434DEST_PATH_IMAGE005
中固定的超参数重新赋值,并优化迭代
Figure 197691DEST_PATH_IMAGE005
8.根据权利要求4至7任一项所述的基于搜索空间分解的机器学习流程优化方法,其特征在于,还包括:
使用所述条件模块将对应于算法选择的超参数根据取值拆分成子构造模块;
使用所述交替模块将对应于特征工程和算法及算法超参数拆分成两个子构造模块。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1至8任一项所述基于搜索空间分解的机器学习流程优化方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1至8任一项所述基于搜索空间分解的机器学习流程优化方法的步骤。
CN202110854074.1A 2021-07-28 2021-07-28 基于搜索空间分解的机器学习优化方法、电子设备及介质 Active CN113312855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854074.1A CN113312855B (zh) 2021-07-28 2021-07-28 基于搜索空间分解的机器学习优化方法、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854074.1A CN113312855B (zh) 2021-07-28 2021-07-28 基于搜索空间分解的机器学习优化方法、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113312855A true CN113312855A (zh) 2021-08-27
CN113312855B CN113312855B (zh) 2021-12-10

Family

ID=77381996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854074.1A Active CN113312855B (zh) 2021-07-28 2021-07-28 基于搜索空间分解的机器学习优化方法、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113312855B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992253A (zh) * 2023-07-24 2023-11-03 中电金信软件有限公司 与目标业务关联的目标预测模型中超参数的取值确定方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242105A (zh) * 2018-08-17 2019-01-18 第四范式(北京)技术有限公司 机器学习模型中超参数的调优方法、装置、设备及介质
CN110188862A (zh) * 2019-04-12 2019-08-30 北京迈格威科技有限公司 用于数据处理的模型超参数的搜索方法、装置、系统
US20190392353A1 (en) * 2018-06-21 2019-12-26 International Business Machines Corporation Job Merging for Machine and Deep Learning Hyperparameter Tuning
CN110770764A (zh) * 2018-10-30 2020-02-07 深圳市大疆创新科技有限公司 超参数的优化方法及装置
US20200057944A1 (en) * 2018-08-20 2020-02-20 Samsung Sds Co., Ltd. Hyperparameter optimization method and apparatus
CN111291894A (zh) * 2018-11-21 2020-06-16 第四范式(北京)技术有限公司 超参数优化过程中的资源调度方法、装置、设备及介质
CN111459988A (zh) * 2020-05-25 2020-07-28 南京大学 一种机器学习流水线自动化设计的方法
CN112771545A (zh) * 2020-12-30 2021-05-07 南方科技大学 一种循环神经网络精度和分解秩的自动搜索方法和装置
KR102251807B1 (ko) * 2019-11-28 2021-05-12 광운대학교 산학협력단 하이퍼파라미터 최적화 알고리즘 추천 방법 및 최적화 알고리즘 추천 시스템
CN112990196A (zh) * 2021-03-16 2021-06-18 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190392353A1 (en) * 2018-06-21 2019-12-26 International Business Machines Corporation Job Merging for Machine and Deep Learning Hyperparameter Tuning
CN109242105A (zh) * 2018-08-17 2019-01-18 第四范式(北京)技术有限公司 机器学习模型中超参数的调优方法、装置、设备及介质
US20200057944A1 (en) * 2018-08-20 2020-02-20 Samsung Sds Co., Ltd. Hyperparameter optimization method and apparatus
CN110770764A (zh) * 2018-10-30 2020-02-07 深圳市大疆创新科技有限公司 超参数的优化方法及装置
CN111291894A (zh) * 2018-11-21 2020-06-16 第四范式(北京)技术有限公司 超参数优化过程中的资源调度方法、装置、设备及介质
CN110188862A (zh) * 2019-04-12 2019-08-30 北京迈格威科技有限公司 用于数据处理的模型超参数的搜索方法、装置、系统
KR102251807B1 (ko) * 2019-11-28 2021-05-12 광운대학교 산학협력단 하이퍼파라미터 최적화 알고리즘 추천 방법 및 최적화 알고리즘 추천 시스템
CN111459988A (zh) * 2020-05-25 2020-07-28 南京大学 一种机器学习流水线自动化设计的方法
CN112771545A (zh) * 2020-12-30 2021-05-07 南方科技大学 一种循环神经网络精度和分解秩的自动搜索方法和装置
CN112990196A (zh) * 2021-03-16 2021-06-18 北京大学 基于超参数搜索和二阶段训练的场景文字识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MERCY PRASANNA RANJIT等: "Efficient Deep Learning Hyperparameter Tuning Using Cloud Infrastructure: Intelligent Distributed Hyperparameter Tuning with Bayesian Optimization in the Cloud", 《2019 IEEE 12TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING (CLOUD)》 *
杨欢 等: "侧信道多层感知器攻击中基于贝叶斯优化的超参数寻优", 《计算机应用与软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992253A (zh) * 2023-07-24 2023-11-03 中电金信软件有限公司 与目标业务关联的目标预测模型中超参数的取值确定方法

Also Published As

Publication number Publication date
CN113312855B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
US20190362222A1 (en) Generating new machine learning models based on combinations of historical feature-extraction rules and historical machine-learning models
US11403554B2 (en) Method and apparatus for providing efficient testing of systems by using artificial intelligence tools
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
CN102855259B (zh) 大规模数据聚类分析的并行化
US20160253596A1 (en) Geometry-directed active question selection for question answering systems
US20160162793A1 (en) Method and apparatus for decision tree based search result ranking
CA3116782C (en) Multiobjective coevolution of deep neural network architectures
US10963802B1 (en) Distributed decision variable tuning system for machine learning
Gnägi et al. A matheuristic for large-scale capacitated clustering
CN113312855B (zh) 基于搜索空间分解的机器学习优化方法、电子设备及介质
Akhiat et al. A new graph feature selection approach
Wagner et al. Improving local search in a minimum vertex cover solver for classes of networks
Suppa et al. A clustered approach for fast computation of betweenness centrality in social networks
CN115730507A (zh) 模型引擎的构建、核函数处理方法、设备及存储介质
Cenamor et al. Mining IPC-2011 results
US20230195607A1 (en) System For Automatic Identification and Selection of Optimization Metrics and Accompanying Models in Experiimentation Platforms
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
Leprêtre et al. Multi-armed bandit for stratified sampling: Application to numerical integration
CN115455426A (zh) 基于漏洞分析模型开发的业务错误分析方法及云端ai系统
Ben Slimane et al. Mjolnir: A framework agnostic auto-tuning system with deep reinforcement learning
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
US11409821B1 (en) Recommending content to subscribers
CN110753913A (zh) 基于样本的多维数据克隆
Al-Najdi et al. Multiple consensuses clustering by iterative merging/splitting of clustering patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Cui Bin

Inventor after: Li Yang

Inventor after: Shen Yu

Inventor after: Jiang Huaijun

Inventor before: Cui Bin

Inventor before: Li Yang

Inventor before: Shen Yu

Inventor before: Jiang Huaijun

CB03 Change of inventor or designer information