CN110796268A - 确定业务处理模型超参数的方法和装置 - Google Patents

确定业务处理模型超参数的方法和装置 Download PDF

Info

Publication number
CN110796268A
CN110796268A CN202010007914.6A CN202010007914A CN110796268A CN 110796268 A CN110796268 A CN 110796268A CN 202010007914 A CN202010007914 A CN 202010007914A CN 110796268 A CN110796268 A CN 110796268A
Authority
CN
China
Prior art keywords
hyper
parameter
value
parameters
combinations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010007914.6A
Other languages
English (en)
Inventor
张雅淋
李龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010007914.6A priority Critical patent/CN110796268A/zh
Publication of CN110796268A publication Critical patent/CN110796268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种确定业务处理模型超参数的方法和装置,所述方法包括:基于多个超参数的当前取值空间,获取预定数目个超参数组合;获取业务处理模型的训练样本集和测试样本集;获取与各个超参数组合对应的业务处理模型的性能值;从所述预定数目个超参数组合中确定第一正组合和多个负组合;基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间,以使得所述多个超参数的更新取值空间中包括所述第一正组合、且不包括所述多个负组合,所述多个超参数的更新取值空间用于确定所述业务处理模型的超参数取值。

Description

确定业务处理模型超参数的方法和装置
技术领域
本说明书实施例涉及机器学习技术领域,更具体地,涉及一种确定业务处理模型超参数的方法和装置。
背景技术
在互联网的应用场景中,每天会有大量的业务数据需要分析,而机器学习作为一种技术手段,正在越来越多的场景中发挥着作用。对于给定的任务,建立并部署有效的模型通常包括两个主要的部分,其一是选择合适的模型,其二则是针对该模型选择合适的超参数,从而为模型的性能提供保障,其中,超参数为在模型训练前预先设定的参数。
在当前的方案中,最基本且使用最为广泛的是两种搜索的方法,即网格搜索(GridSearch)和随机搜索(RandomSearch),在这两种方法中,在给定搜索范围内搜索较优的超参数。对上述搜索方案的改进方案包括遗传算法(Genetic Algorithm)方案或差分进化(Differential Evolution)方案,其中,遗传算法方案适用于离散的参数,差分进化方案适用于连续的参数。除此之外,贝叶斯优化方案基于高斯过程拟合历史参数的“参数-性能”曲线,从而去指导下一轮的参数选择。
因此,需要一种更有效的确定业务处理模型的超参数的方案。
发明内容
本说明书实施例旨在提供一种更有效的确定业务处理模型的超参数的方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种确定业务处理模型超参数的方法,所述模型包括多个超参数,所述多个超参数具有当前取值空间,所述方法包括:
基于所述多个超参数的当前取值空间,获取预定数目个超参数组合,每个所述组合包括所述多个超参数各自的值;
获取业务处理模型的训练样本集和测试样本集;
基于所述训练样本集和所述测试样本集,获取与各个超参数组合对应的业务处理模型的性能值;
基于与各个超参数组合对应的业务处理模型的性能值,从所述预定数目个超参数组合中确定第一正组合和多个负组合;
基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间,以使得所述多个超参数的更新取值空间中包括所述第一正组合、且不包括所述多个负组合,所述多个超参数的更新取值空间用于确定所述业务处理模型的超参数取值。
在一个实施例中,所述当前取值空间为所述多个超参数的初始取值空间。
在一个实施例中,所述当前取值空间为在对所述方法的上一次循环中确定的所述多个超参数的更新取值空间。
在一个实施例中,所述当前取值空间以第一预定概率为在对所述方法的上一次循环中确定的所述多个超参数的更新取值空间,以第二预定概率为初始取值空间。
在一个实施例中,基于与各个超参数组合对应的业务处理模型的性能值,从所述预定数目个超参数组合中确定第一正组合和多个负组合包括,将所述预定数目个超参数组合中对应的模型性能最好的K个超参数组合确定为正组合,将其它超参数组合确定为负组合,从K个正组合中随机选取一个正组合作为所述第一正组合,其中K为小于所述预定数目的自然数。
在一个实施例中,基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间包括:
从多个负组合中选取第一负组合;
从多个超参数中的可选超参数中选取第一超参数,所述第一正组合的第一超参数的值为第一值,所述第一负组合的第一超参数的值为第二值,其中,所述可选超参数的取值范围中包括至少两个值;
在所述取值空间中的所述第一超参数的取值范围为连续取值范围的情况中,从第一值和第二值之间的取值范围中随机选取一个值,以用于更新第一超参数的取值范围。
在一个实施例中,在所述第一超参数的取值范围包括多个离散值的情况中,将所述第一超参数的取值范围限定为所述第一值。
在一个实施例中,所述方法循环多次,在结束对所述方法的循环之后,将所述多次循环中性能值最优的超参数组合确定为所述业务处理模型的超参数值。
在一个实施例中,所述训练样本和测试样本与网络平台中的以下任一对象相关:用户、商户、商品、交易。
本说明书另一方面提供一种确定业务处理模型超参数的装置,所述模型包括多个超参数,所述多个超参数具有当前取值空间,所述装置包括:
第一获取单元,配置为,基于所述多个超参数的当前取值空间,获取预定数目个超参数组合,每个所述组合包括所述多个超参数各自的值;
第二获取单元,配置为,获取业务处理模型的训练样本集和测试样本集;
第三获取单元,配置为,基于所述训练样本集和所述测试样本集,获取与各个超参数组合对应的业务处理模型的性能值;
第一确定单元,配置为,基于与各个超参数组合对应的业务处理模型的性能值,从所述预定数目个超参数组合中确定第一正组合和多个负组合;
更新单元,配置为,基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间,以使得所述多个超参数的更新取值空间中包括所述第一正组合、且不包括所述多个负组合,所述多个超参数的更新取值空间用于确定所述业务处理模型的超参数取值。
在一个实施例中,所述确定单元包括,确定子单元,配置为,将所述预定数目个超参数组合中对应的模型性能最好的K个超参数组合确定为正组合,将其它超参数组合确定为负组合,选取子单元,配置为,从K个正组合中随机选取一个正组合作为所述第一正组合,其中K为小于所述预定数目的自然数。
在一个实施例中,所述更新单元包括:
第一选取子单元,配置为,从多个负组合中选取第一负组合;
第二选取子单元,配置为,从多个超参数中的可选超参数中选取第一超参数,所述第一正组合的第一超参数的值为第一值,所述第一负组合的第一超参数的值为第二值,其中,所述可选超参数的取值范围中包括至少两个值;
更新子单元,配置为,在所述取值空间中的所述第一超参数的取值范围为连续取值范围的情况中,从第一值和第二值之间的取值范围中随机选取一个值,以用于更新第一超参数的取值范围。
在一个实施例中,所述更新单元还包括,限定子单元,配置为,在所述第一超参数的取值范围包括多个离散值的情况中,将所述第一超参数的取值范围限定为所述第一值。
在一个实施例中,所述装置循环多次部署,所述装置还包括,第二确定单元,配置为,将所述多次部署中的性能值最优的超参数组合确定为所述业务处理模型的超参数值。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
在根据本说明书实施例的确定业务处理模型超参数的方案中,将参数的可选择范围映射为多维取值空间,基于好的参数和差的参数来收缩参数取值空间,并继续从更新的参数取值空间中采样新的参数,从而保证更新的参数取值空间足够好,并且保证新采样的参数效果更好,同时计算复杂度低,并且对于连续参数和离散参数都适用,从而可高效地进行调参。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出根据本说明书实施例的确定业务处理模型的超参数的方法示意图;
图2示出了在第②阶段进行多次小循环的示意图;
图3示出根据本说明书一个实施例的确定业务处理模型超参数的方法流程图;
图4示出根据本说明书另一实施例的确定业务处理模型超参数的方法流程图;
图5示出根据本说明书实施例的一种确定业务处理模型超参数的装置500。
具体实施方式
下面将结合附图描述本说明书实施例。
根据本说明书实施例的确定模型超参数的方案可应用于各种业务处理模型中。所述业务处理模型例如为XGBoost模型,该模型例如基于与网络平台中多个用户分别对应的多个样本进行训练,从而可用于对用户进行分类,以便于进行业务处理,或者该模型例如基于网络平台中多个交易分别对应的多个样本进行训练,从而可用于对交易进行分类,以便于进行业务处理,等等。可以理解,所述业务处理模型不限于为XGBoost模型,而可以为各种分类模型、回归模型、神经网络模型、树模型等等,在此不作限定。所述模型针对的预测对象也不限于为用户、交易等,而可以为网络平台中的各类对象,如商户、商品、影视作品等等。下文中将以XGBoost模型为例进行描述。
在训练上述XGBoost模型之前,通常需要确定多个超参数,如eta、max_depth、subsample、colsample_bytree、num_round等等,为了便于描述,在下文中,将分别使用参数a、b、c、d、e与其顺序对应。其中,例如,参数a~c为连续参数,其分别具有初始取值范围,a:[0.1,0.3],b:[0.6,1],c:[0.6,1],参数d和e为离散参数,其初始可选值分别为,d:{4,5,6,7},e:{100,200,300}。各个超参数的初始取值范围构成了5维的取值空间,在该取值空间中的点即为XGBoost模型的一种可能的超参数组合,该超参数组合可以表示为维度为5的向量x,如x=[0.1,0.6,0.6,4,100],通过用训练样本集训练具有该超参数组合x的XGBoost模型,并使用测试样本集对该训练的模型进行测试,可获取该模型的测试性能值y。其中,所述测试性能值y可以为多种参数的值,如准确率、精确率、召回率、AUC、各种参数的组合,等等,在此不作限定。从而在通过本说明书实施例的方案确定多个向量x1,x2…xn之后,可基于与各个向量对应的XGBoost模型的性能值y1,y2…yn,进行对多个向量的选取,从而最终确定XGBoost模型的较优的超参数组合(xi)。
图1示出根据本说明书实施例的确定业务处理模型的超参数的方法示意图。如图1中所示,该方法循环多次,为了与图2中的循环相区分,将图1中的循环称为大循环,将图2中的循环称为小循环。在每次大循环中,在第①阶段,基于模型的各个超参数的参数空间,选取多个超参数向量。之后,在第②阶段,基于选取的超参数向量来收缩当前的参数空间,以获取更新的参数空间。
图2示出了在第②阶段进行多次小循环的示意图。具体是,在进入第②阶段之后,可在多个超参数向量中确定一个高性能向量和多个低性能向量,所述高性能向量对应的模型性能y较优,所述低性能向量对应的模型性能y较差。如图2中所示,白色圆对应于高性能向量,黑色圆对应于低性能向量。图2中最外围的框内的区域表示在本次大循环之前的参数空间,图2中包括白色圆的最小框内的区域表示在本次大循环之后更新的参数空间。图2中大框内的每条线对应于对参数空间的一次收缩(即一次小循环)。例如,右侧的竖线代表第1次小循环,通过该次循环将两个低性能向量(
Figure 136900DEST_PATH_IMAGE002
Figure 662691DEST_PATH_IMAGE003
)移出参数空间,左侧的横线代表第2次小循环,通过该次循环将另外三个低性能向量(
Figure 321205DEST_PATH_IMAGE004
Figure 814503DEST_PATH_IMAGE005
)移出参数空间,左侧的竖线代表第3次小循环,通过该次循环将最后两个低性能向量(
Figure 492402DEST_PATH_IMAGE007
)移出参数空间。可以理解,在图2中,将参数空间示意地画成二维空间,并且以直线表示对参数空间的一次收缩,这仅仅是示意性的。实际中,参数空间是一个多维度的空间,对参数空间的划分将不是以直线划分,而是以参数空间中的面对空间进行划分。从而,在第②阶段中,可基于所述高性能向量和多个低性能向量多次收缩当前的参数空间,以使得在每次收缩时从当前的参数空间排除出至少一个低性能向量,并使得参数空间朝向高性能向量靠近,以最终将全部低性能向量排除到参数空间之外,从而获取更新的参数空间。在该过程中,参数空间近似以高性能向量(即图中的白色圆)为轴进行收缩,例如,在上述第1次小循环中,以向量
Figure 771253DEST_PATH_IMAGE001
的某个维度的值为轴,使得参数空间在该维度上的取值逼近该轴,因此该过程也可以称为轴收缩。
下文中将详细描述上述过程。
图3示出根据本说明书一个实施例的确定业务处理模型超参数的方法流程图。该方法包括以下步骤。
步骤S302,从当前参数空间获取n个超参数向量。例如,n=10。
在图3所示方法为图1中的第1次大循环的情况中,在执行该方法之前,如上文所述,XGBoost模型的5个超参数a~e的初始取值范围分别为a:[0.1,0.3]、b:[0.6,1]、c:[0.6,1]、d:{4,5,6,7}、e:{100,200,300},各个超参数的取值范围构成了5个超参数的初始取值空间。从而可从该初始取值空间中获取10个超参数向量。
在一个实施例中,可从所述初始取值空间随机获取10个超参数向量。具体是,在获取其中一个向量的过程中,对于每个超参数,可从其取值范围中随机获取一个值作为该超参数的值,从而随机获取5个超参数各自的值,以构成一个超参数向量。通过将该过程重复10次,从而可获取10个超参数向量x1,x2…x10。例如,如果该超参数为连续参数,则从该超参数的取值范围中随机采样一个值作为该超参数的值,如果该超参数为离散参数,则从该参数的可选值中随机选择一个值作为该超参数的值。
在一个实施例中,可将所述初始取值空间分为10个子空间,并从每个子空间中随机获取一个超参数向量。本实施例中对于获取超参数向量的方法不作限定。
步骤S304,获取模型的训练样本集和测试样本集。
所述模型如上文所述例如为XGBoost模型,所述训练样本集和测试样本集中的样本例如与用户相对应,包括用户的各个特征的特征值和该用户的标签值。
步骤S306,基于所述训练样本集和所述测试样本集,获取与每个超参数向量对应的业务处理模型的性能值。
具体是,对于每个超参数向量xi,使用训练样本集训练与该超参数向量对应的XGBoost模型,并使用测试样本集对该训练好的XGBoost模型进行测试,以获取该XGBoost模型的性能值yi,从而可获取10对向量-性能对(xi,yi)。
步骤S308,判断是否进行下一次大循环。具体是,确定大循环的循环次数是否到达预定次数,或者确定该次大循环中获取的超参数向量对应的模型性能y是否足够好。如果判断还需要进行下一次大循环,则流程进入步骤S310。如果判断不需要进行下一次大循环,则流程进入步骤S318。
步骤S310,基于与各个超参数向量对应的模型性能值,从所述n个超参数向量中确定一个高性能向量和多个低性能向量。
在一个实施例中,可从10个向量中确定对应的模型性能最好的3个向量,并从该3个向量中随机选取一个向量作为高性能向量,并将10个向量中的其它7个向量作为低性能向量。例如,确定该高性能向量为x2
在一个实施例中,可将10个向量中对应的模型性能最好的向量作为所述高性能向量,对此不作限定。
步骤S312,从当前参数空间内的多个低性能向量中确定一个低性能向量。例如,如图2所示,假设在第1次大循环的第1次小循环中,可从上述确定的7个低性能向量中随机确定一个低性能向量,该随机确定的低性能向量例如为x5。或者,可按照预定顺序从多个低性能向量中确定一个低性能向量,例如,按照向量编号顺序等等。
步骤S314,基于所述高性能向量x2和低性能向量各自的一个可选超参数的取值,更新该超参数的取值范围,以使得将低性能向量在更新的取值空间之外,并使得更新后的取值空间包括向量x2。其中,所述可选超参数即为取值范围包括两个以上取值的超参数。
例如,在第1次大循环的第1次小循环中,所述多个(例如5个)超参数的每个的取值范围都包括两个以上的值,因此,该多个超参数中的每个超参数都是可选超参数。该一个超参数可从所述多个超参数中顺序选取,或者从多个超参数中随机选取,对此不作限定。
在一个实施例中,所述选取的超参数例如为连续参数。例如,该超参数为上述5个参数中的参数a。下文中,将向量x2的参数a的值表示为a2,将向量x5的参数a的值表示为a5。如上文所述,参数a的范围为[0.1,0.3],在一种情况中,a2<a5,例如,a2=0.18,a5=0.24,从而可在a2和a5之间随机采样一个值,例如0.22,并将参数a的范围修改为[0.1,0.22]。由于通过修改参数a的范围,使得a的取值范围中不包括向量x5的a值,也即将向量x5移出更新后的参数空间了。同时,更新后的参数空间也朝向向量x2进行了收缩。在另一种情况中,a2>a5,例如,a2=0.24,a5=0.18,类似地,可在a2和a5之间随机采样一个值,例如0.22,并将参数a的范围修改为[0.22,0.3]。该参数空间的更新具有同样的效果,即,将向量x5移出更新后的参数空间,并使得更新后的参数空间朝向向量x2进行收缩。
在一个实施例中,所述选取的超参数例如为离散参数。例如,该超参数为上述5个参数中的e。下文中,将向量x2的参数e的值表示为e2,将向量x5的参数e的值表示为e5。如上文所述,参数e的可选值包括{100,200,300},假设e2=200,e5=300,则将参数e的可选值限定为e2的值200,并将该参数设定为不可选参数,从可选参数列表中移除,即,在后续的小循环中,将不再对参数e调整范围。通过该方式,同样地,将向量移出参数空间,并使得参数空间向向量x2收缩。
步骤S316,判断更新后的参数空间是否将全部低性能向量排除在外。例如,如图2所示,在如右侧竖线所示更新了参数空间之后,可判断更新后的参数空间内是否还有低性能向量。显然,在该第1次小循环之后更新的参数空间中还包括5个低性能向量。
在该情况中,流程进入下一个小循环,即第1次大循环的第2次小循环,具体是,如图3所示,流程回到步骤S312并顺序执行步骤S312~步骤S316。其中,在该第2次小循环中,在步骤S312,从第1次小循环之后的当前参数空间内的多个低性能向量中确定一个低性能向量。如图2中所示,当前参数空间内包括低性能向量
Figure 703754DEST_PATH_IMAGE008
Figure 922694DEST_PATH_IMAGE005
Figure 299449DEST_PATH_IMAGE006
,因此,可在这5个低性能向量中随机选取一个,例如为x7。在步骤S314,与第1次小循环类似地,可从当前可选的超参数中随机选取或按照预定顺序确定一个超参数以用于更新参数空间。例如,如果在第1次小循环中的步骤S314中将参数e设为不可选参数,则,在本次小循环中的步骤S314中,所述选取的超参数只能从参数a、b、c、d中选取。在进行该第2次小循环之后,参数空间例如变为图2中左侧横线之上的部分。在步骤S316,可确定,在当前的参数空间中仍包括低性能向量
Figure 778972DEST_PATH_IMAGE007
Figure 12507DEST_PATH_IMAGE008
,从而可再次执行步骤S312~步骤S316,以进行第3次小循环。
如图2中所示,在开始第3次小循环之后,在第3次小循环的步骤S316中可判断更新后的参数空间内没有低性能向量,则如图3中所示,流程进入第2次大循环,即再次进入步骤S302。此时,如图2所示,当前参数空间变成了图2中的包括向量
Figure 311901DEST_PATH_IMAGE001
的更新参数空间,从而,在该更新参数空间中再次获取n个超参数向量,以进行第2次大循环。
在步骤S318,如果在S308中判断不再进行下一次大循环,则将对该流程的多次循环中获取的多个超参数向量中性能值y最好的超参数向量作为模型的超参数值,以用于基于该超参数向量,获取性能较好的XGBoost模型。
在该流程图中,可以理解,判断循环是否结束的步骤不限于放在图中步骤S308的位置,例如,也可以在S316之后,在判断更新后的参数空间中没有低性能向量之后,判断大循环是否结束。
在另一个实施例中,例如,当在上述第1次大循环的第3次小循环中确定参数空间中已经不包括低性能向量之后,则开始执行图4所示的流程,以进行第2次大循环。图4示出根据本说明书另一实施例的确定业务处理模型超参数的方法流程图。该方法包括下步骤。
步骤S402,获取预定数值范围内的随机值。例如,可获取0到1之间的随机值。
步骤S404,确定随机值是否小于预定值。例如,确定随机值是否小于0.1。在随机值小于0.1的情况中,进入步骤S406,即从多个超参数的初始取值空间(即图2中的外框表示的参数空间)中获取n个超参数向量,例如z1,z2…z10。。在随机值大于等于0.1的情况中,则进入步骤S408,即从多个超参数的在上一次循环中确定的更新取值空间(即图2中的更新参数空间)获取n个超参数向量。也就是说,以10%的概率从初始参数空间中获取向量,以90%的概率从更新参数空间中获取向量,通过这样,平衡了对超参数空间的探索和利用,所述“利用”就是基于以往尝试过的比较好的方向去继续挖掘,所述“探索”就是不考虑已有的尝试,而是去整个可能的空间更随机的游走,以发现之前没有探索过的可能更好的区域。
步骤410,获取模型的训练样本集和测试样本集。
步骤412,对于n个超参数向量中的每个超参数向量,基于所述训练样本集和所述测试样本集,获取与该超参数向量对应的业务处理模型的性能值。
步骤S414,判断是否进行下一次大循环。类似地,如果进行下一次循环,则流程进入步骤S416,如果不进行下一次循环,则流程进入步骤S424。
步骤S416,基于与各个超参数向量对应的模型性能值,从所述多个超参数向量中确定一个高性能向量和多个低性能向量。例如,确定该高性能向量为z1
步骤S418,从当前参数空间内的多个低性能向量中确定一个低性能向量。例如,随机确定低性能向量z3
步骤S420,基于所述高性能向量z1和低性能向量各自的一个可选超参数的取值,更新该超参数的取值范围,以使得将该低性能向量在排除更新的取值空间之外,并使得更新后的取值空间中包括向量z1,也即,更新后的取值空间朝向向量z1收缩了。
步骤S422,判断当前的参数空间是否将全部低性能向量排除在外。
类似地,如果参数空间中还包括至少一个低性能向量,则进入下一个小循环,即,回到步骤S418。如果参数空间中已经不包括低性能向量,则如图1所示,可进入下一个大循环。即进入步骤S402。
在步骤S424,如果在S414中判断不再进行下一次大循环,则将对该方法的多次循环中获取的多个超参数向量中性能值y最好的超参数向量作为模型的超参数值,以用于基于该超参数值,获取性能较好的XGBoost模型。
图5示出根据本说明书实施例的一种确定业务处理模型超参数的装置500,所述模型包括多个超参数,所述多个超参数具有当前取值空间,所述装置包括:
第一获取单元51,配置为,基于所述多个超参数的当前取值空间,获取预定数目个超参数组合,每个所述组合包括所述多个超参数各自的值;
第二获取单元52,配置为,获取业务处理模型的训练样本集和测试样本集;
第三获取单元53,配置为,基于所述训练样本集和所述测试样本集,获取与各个超参数组合对应的业务处理模型的性能值;
第一确定单元54,配置为,基于与各个超参数组合对应的业务处理模型的性能值,从所述预定数目个超参数组合中确定第一正组合和多个负组合;
更新单元55,配置为,基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间,以使得所述多个超参数的更新取值空间中包括所述第一正组合、且不包括所述多个负组合,所述多个超参数的更新取值空间用于确定所述业务处理模型的超参数取值。
在一个实施例中,所述第一确定单元54包括,确定子单元541,配置为,将所述预定数目个超参数组合中对应的模型性能最好的K个超参数组合确定为正组合,将其它超参数组合确定为负组合,选取子单元542,配置为,从K个正组合中随机选取一个正组合作为所述第一正组合,其中K为小于所述预定数目的自然数。
在一个实施例中,所述更新单元55包括:
第一选取子单元551,配置为,从所述多个超参数的当前取值空间中的至少一个负组合中选取第一负组合;
第二选取子单元552,配置为,从多个超参数中的可选超参数中选取第一超参数,所述第一正组合的第一超参数的值为第一值,所述第一负组合的第一超参数的值为第二值,其中,所述可选超参数的取值范围中包括至少两个值;
更新子单元553,配置为,在所述取值空间中的所述第一超参数的取值范围为连续取值范围的情况中,从第一值和第二值之间的取值范围中随机选取一个值,以用于更新第一超参数的取值范围。
在一个实施例中,所述更新单元55还包括,限定子单元554,配置为,在所述第一超参数的取值范围包括多个离散值的情况中,将所述第一超参数的取值范围限定为所述第一值。
在一个实施例中,所述装置循环多次部署,所述装置还包括,第二确定单元56,配置为,将所述多次部署中的性能值最优的超参数组合确定为所述业务处理模型的超参数值。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
在根据本说明书实施例的确定业务处理模型超参数的方案中,将参数的可选择范围映射为多维取值空间,基于好的参数和差的参数来收缩参数取值空间,并继续从更新的参数取值空间中采样新的参数,从而保证更新的参数取值空间足够好,并且保证新采样的参数效果更好,同时计算复杂度低,并且对于连续参数和离散参数都适用,从而可高效地进行调参。
需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种确定业务处理模型超参数的方法,所述模型包括多个超参数,所述多个超参数具有当前取值空间,所述方法包括:
基于所述多个超参数的当前取值空间,获取预定数目个超参数组合,每个所述组合包括所述多个超参数各自的值;
获取业务处理模型的训练样本集和测试样本集;
基于所述训练样本集和所述测试样本集,获取与各个超参数组合对应的业务处理模型的性能值;
基于与各个超参数组合对应的业务处理模型的性能值,从所述预定数目个超参数组合中确定第一正组合和多个负组合;
基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间,以使得所述多个超参数的更新取值空间中包括所述第一正组合、且不包括所述多个负组合,所述多个超参数的更新取值空间用于确定所述业务处理模型的超参数取值。
2.根据权利要求1所述的方法,其中,所述当前取值空间为所述多个超参数的初始取值空间。
3.根据权利要求1所述的方法,其中,所述当前取值空间为在对所述方法的上一次循环中确定的所述多个超参数的更新取值空间。
4.根据权利要求1所述的方法,其中,所述当前取值空间以第一预定概率为在对所述方法的上一次循环中确定的所述多个超参数的更新取值空间,以第二预定概率为所述多个超参数的初始取值空间。
5.根据权利要求1所述的方法,其中,基于与各个超参数组合对应的业务处理模型的性能值,从所述预定数目个超参数组合中确定第一正组合和多个负组合包括,将所述预定数目个超参数组合中对应的模型性能最好的K个超参数组合确定为正组合,将其它超参数组合确定为负组合,从K个正组合中随机选取一个正组合作为所述第一正组合,其中K为小于所述预定数目的自然数。
6.根据权利要求1所述的方法,其中,基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间包括:
从所述多个超参数的当前取值空间中的至少一个负组合中选取第一负组合;
从多个超参数中的可选超参数中选取第一超参数,所述第一正组合的第一超参数的值为第一值,所述第一负组合的第一超参数的值为第二值,其中,所述可选超参数的取值范围中包括至少两个值;
在所述当前取值空间中的所述第一超参数的取值范围为连续取值范围的情况中,从第一值和第二值之间的取值范围中随机选取一个值,以用于更新第一超参数的取值范围。
7.根据权利要求6所述的方法,在所述第一超参数的取值范围包括多个离散值的情况中,将所述第一超参数的取值范围限定为所述第一值。
8.根据权利要求1所述的方法,所述方法循环多次,在结束对所述方法的循环之后,将所述多次循环中性能值最优的超参数组合确定为所述业务处理模型的超参数值。
9.根据权利要求1所述的方法,其中,所述训练样本和测试样本与网络平台中的以下任一对象相关:用户、商户、商品、交易。
10.一种确定业务处理模型超参数的装置,所述模型包括多个超参数,所述多个超参数具有当前取值空间,所述装置包括:
第一获取单元,配置为,基于所述多个超参数的当前取值空间,获取预定数目个超参数组合,每个所述组合包括所述多个超参数各自的值;
第二获取单元,配置为,获取业务处理模型的训练样本集和测试样本集;
第三获取单元,配置为,基于所述训练样本集和所述测试样本集,获取与各个超参数组合对应的业务处理模型的性能值;
第一确定单元,配置为,基于与各个超参数组合对应的业务处理模型的性能值,从所述预定数目个超参数组合中确定第一正组合和多个负组合;
更新单元,配置为,基于所述第一正组合和多个负组合各自的超参数值,更新所述多个超参数的取值空间,以使得所述多个超参数的更新取值空间中包括所述第一正组合、且不包括所述多个负组合,所述多个超参数的更新取值空间用于确定所述业务处理模型的超参数取值。
11.根据权利要求10所述的装置,其中,所述当前取值空间为所述多个超参数的初始取值空间。
12.根据权利要求10所述的装置,其中,所述当前取值空间为在对所述方法的上一次循环中确定的所述多个超参数的更新取值空间。
13.根据权利要求10所述的装置,其中,所述当前取值空间以第一预定概率为在对所述方法的上一次循环中确定的所述多个超参数的更新取值空间,以第二预定概率为所述多个超参数的初始取值空间。
14.根据权利要求10所述的装置,其中,所述确定单元包括,确定子单元,配置为,将所述预定数目个超参数组合中对应的模型性能最好的K个超参数组合确定为正组合,将其它超参数组合确定为负组合,选取子单元,配置为,从K个正组合中随机选取一个正组合作为所述第一正组合,其中K为小于所述预定数目的自然数。
15.根据权利要求10所述的装置,其中,所述更新单元包括:
第一选取子单元,配置为,从所述多个超参数的当前取值空间中的至少一个负组合中选取第一负组合;
第二选取子单元,配置为,从多个超参数中的可选超参数中选取第一超参数,所述第一正组合的第一超参数的值为第一值,所述第一负组合的第一超参数的值为第二值,其中,所述可选超参数的取值范围中包括至少两个值;
更新子单元,配置为,在所述当前取值空间中的所述第一超参数的取值范围为连续取值范围的情况中,从第一值和第二值之间的取值范围中随机选取一个值,以用于更新第一超参数的取值范围。
16.根据权利要求15所述的装置,所述更新单元还包括,限定子单元,配置为,在所述第一超参数的取值范围包括多个离散值的情况中,将所述第一超参数的取值范围限定为所述第一值。
17.根据权利要求10所述的装置,所述装置循环多次部署,所述装置还包括,第二确定单元,配置为,将所述多次部署中的性能值最优的超参数组合确定为所述业务处理模型的超参数值。
18.根据权利要求10所述的装置,其中,所述训练样本和测试样本与网络平台中的以下任一对象相关:用户、商户、商品、交易。
19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。
20.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
CN202010007914.6A 2020-01-06 2020-01-06 确定业务处理模型超参数的方法和装置 Pending CN110796268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010007914.6A CN110796268A (zh) 2020-01-06 2020-01-06 确定业务处理模型超参数的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010007914.6A CN110796268A (zh) 2020-01-06 2020-01-06 确定业务处理模型超参数的方法和装置

Publications (1)

Publication Number Publication Date
CN110796268A true CN110796268A (zh) 2020-02-14

Family

ID=69448502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010007914.6A Pending CN110796268A (zh) 2020-01-06 2020-01-06 确定业务处理模型超参数的方法和装置

Country Status (1)

Country Link
CN (1) CN110796268A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445025A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 确定业务模型超参数的方法和装置
CN113052248A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113326660A (zh) * 2021-06-17 2021-08-31 广西路桥工程集团有限公司 基于GA-XGBoost模型的隧道围岩挤压变形预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976311A (zh) * 2010-11-22 2011-02-16 北京航空航天大学 基于漂移布朗运动模型的加速退化试验贝叶斯评估方法
CN102236898A (zh) * 2011-08-11 2011-11-09 魏昕 基于无限成分数的t混合模型的图像分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976311A (zh) * 2010-11-22 2011-02-16 北京航空航天大学 基于漂移布朗运动模型的加速退化试验贝叶斯评估方法
CN102236898A (zh) * 2011-08-11 2011-11-09 魏昕 基于无限成分数的t混合模型的图像分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万智: "基于正交设计下SVM滑坡变形时序回归预测的超参数选择", 《岩土力学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445025A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 确定业务模型超参数的方法和装置
CN111445025B (zh) * 2020-06-12 2020-12-01 支付宝(杭州)信息技术有限公司 确定业务模型超参数的方法和装置
CN113052248A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113326660A (zh) * 2021-06-17 2021-08-31 广西路桥工程集团有限公司 基于GA-XGBoost模型的隧道围岩挤压变形预测方法

Similar Documents

Publication Publication Date Title
CN111126564B (zh) 一种神经网络结构搜索方法、装置及设备
CN111914944B (zh) 基于动态样本选择和损失一致性的物体检测方法和系统
CN110796268A (zh) 确定业务处理模型超参数的方法和装置
van der Herten et al. A fuzzy hybrid sequential design strategy for global surrogate modeling of high-dimensional computer experiments
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
CN112200296A (zh) 网络模型量化方法、装置、存储介质及电子设备
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN117635418B (zh) 生成对抗网络的训练方法、双向图像风格转换方法和装置
JP2020027436A (ja) 学習装置および学習方法
CN111160459A (zh) 超参数的优化装置和方法
CN111325284A (zh) 一种基于多目标动态分布自适应学习方法及装置
CN111445025B (zh) 确定业务模型超参数的方法和装置
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN117253071B (zh) 基于多级伪标签增强的半监督目标检测方法及系统
CA2330878A1 (en) Pre-processing and post-processing for enhancing knowledge discovery using support vector machines
CN110210523B (zh) 一种基于形状图约束的模特穿着衣物图像生成方法及装置
CN111126617B (zh) 一种选择融合模型权重参数的方法、装置及设备
CN116128044A (zh) 一种模型剪枝方法、图像处理方法及相关装置
JP2020027451A (ja) 学習装置および学習方法
CN109558883A (zh) 叶片特征提取方法及装置
KR20230065443A (ko) 포인트 클라우드 데이터 증강 방법 및 이를 이용하는 학습 방법
CN111260077A (zh) 一种确定业务处理模型超参数的方法和装置
CN113706285A (zh) 一种信用卡欺诈检测方法
CN113743593A (zh) 神经网络量化方法、系统、存储介质及终端
Sarmadian et al. Optimizing the snake model using honey-bee mating algorithm for road extraction from very high-resolution satellite images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214