CN111445025B - 确定业务模型超参数的方法和装置 - Google Patents
确定业务模型超参数的方法和装置 Download PDFInfo
- Publication number
- CN111445025B CN111445025B CN202010537635.0A CN202010537635A CN111445025B CN 111445025 B CN111445025 B CN 111445025B CN 202010537635 A CN202010537635 A CN 202010537635A CN 111445025 B CN111445025 B CN 111445025B
- Authority
- CN
- China
- Prior art keywords
- hyper
- precision
- parameter
- model
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种确定业务模型超参数的方法和装置,所述业务模型包括多个超参数,所述方法包括:获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值;从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集;使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型;测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数;使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距;基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数。
Description
技术领域
本说明书实施例涉及机器学习技术领域,更具体地,涉及一种确定业务模型超参数的方法和装置。
背景技术
在互联网的应用场景中,每天会有大量的业务数据需要分析,而机器学习作为一种技术手段,正在越来越多的场景中发挥着作用。对于给定的任务,建立并部署有效的模型通常包括两个主要的部分,其一是选择合适的模型,其二则是针对该模型选择合适的超参数,从而为模型的性能提供保障。
在当前的方案中,最基本且使用最为广泛的是两种搜索算法,即网格搜索(GridSearch)算法和随机搜索(RandomSearch)算法,在这两种算法中,在给定搜索范围内搜索较优的超参数。对上述搜索算法的改进算法包括遗传算法(Genetic Algorithm)或差分进化(Differential Evolution)算法,其中,遗传算法适用于离散的超参数,差分进化算法适用于连续的超参数。除此之外,贝叶斯优化算法基于高斯过程拟合历史超参数的“超参数-性能”曲线,从而去指导下一轮的超参数的选择。在上述各种超参数搜索算法中,为了比较各个超参数组合的优劣,通常使用全量训练样本进行模型的训练,从而基于该训练的模型进行超参数评估。因此,每一组超参数组合的验证都需要大量时间成本。而如果减少训练样本的数量以减少评估超参数的时间,基于少量训练样本获得的超参数评估结果有可能与大量训练样本下的超参数评估结果不同。
因此,需要一种更有效的确定业务模型的超参数的方案。
发明内容
本说明书实施例旨在提供一种更有效的确定业务模型的超参数的方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种确定业务模型超参数的方法,所述业务模型包括多个超参数,所述方法包括:
获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值;
从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集,其中,所述训练样本与网络平台中的以下任一对象相关:用户、商户、商品、交易;
使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型;
测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数;
使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距,其中,所述超参数组合的高精度分数为对应的高精度业务模型的性能分数,所述超参数组合对应的高精度业务模型为通过以所述第一训练样本集训练所述超参数组合对应的业务模型所获取的模型;
基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数。
在一种实施方式中,所述方法还包括,
在计算各个超参数组合的估计高精度分数之后,在当前不具有高精度分数的超参数组合中确定估计高精度分数最高的第一超参数组合;
以所述第一训练样本集训练所述第一超参数组合对应的业务模型,以获取高精度业务模型;
测试所述高精度业务模型的性能分数,作为所述第一超参数组合的高精度分数。
在一种实施方式中,所述方法还包括:
在测试所述高精度业务模型的性能分数之后,计算所述第一超参数组合的高精度分数与低精度分数的第一差距;
以所述第一超参数组合作为样本特征值、以所述第一差距作为样本标签值,训练所述拟合模型。
在一种实施方式中,所述方法还包括:
在训练所述拟合模型之后,获取当前具有低精度分数、不具有高精度分数的多个第二超参数组合;
基于所述拟合模型和各个第二超参数组合的低精度分数,计算各个第二超参数组合的估计高精度分数;
基于各个第二超参数组合的估计高精度分数、以及当前具有高精度分数的超参数组合的高精度分数,通过预定超参数搜索算法,确定对所述方法的下一次循环中处理的多个超参数组合。
在一种实施方式中,所述预定超参数搜索算法为以下任一算法:遗传算法、贝叶斯优化算法、差分进化算法、网格搜索算法、随机搜索算法。
在一种实施方式中,所述方法还包括,在获取所述第一超参数组合的高精度分数之后,将当前的具有最高高精度分数的超参数组合确定为所述业务模型的超参数组合。
在一种实施方式中,所述拟合模型为以下任一模型:随机森林模型、决策树模型、线性回归模型、逻辑回归模型。
本说明书另一方面提供一种确定业务模型超参数的装置,所述业务模型包括多个超参数,所述装置包括:
第一获取单元,配置为,获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值;
选取单元,配置为,从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集,其中,所述训练样本与网络平台中的以下任一对象相关:用户、商户、商品、交易;
第一训练单元,配置为,使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型;
第一测试单元,配置为,测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数;
拟合单元,配置为,使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距,其中,所述超参数组合的高精度分数为对应的高精度业务模型的性能分数,所述超参数组合对应的高精度业务模型为通过以所述第一训练样本集训练所述超参数组合对应的业务模型所获取的模型;
第一计算单元,配置为,基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数。
在一种实施方式中,所述装置还包括,
第一确定单元,配置为,在计算各个超参数组合的估计高精度分数之后,在当前不具有高精度分数的超参数组合中确定估计高精度分数最高的第一超参数组合;
第二训练单元,配置为,以所述第一训练样本集训练所述第一超参数组合对应的业务模型,以获取高精度业务模型;
第二测试单元,配置为,测试所述高精度业务模型的性能分数,作为所述第一超参数组合的高精度分数。
在一种实施方式中,所述装置还包括:
第二计算单元,配置为,在测试所述高精度业务模型的性能分数之后,计算所述第一超参数组合的高精度分数与低精度分数的第一差距;
第三训练单元,配置为,以所述第一超参数组合作为样本特征值、以所述第一差距作为样本标签值,训练所述拟合模型。
在一种实施方式中,所述装置还包括:
第二获取单元,配置为,在训练所述拟合模型之后,获取当前具有低精度分数、不具有高精度分数的多个第二超参数组合;
第三计算单元,配置为,基于所述拟合模型和各个第二超参数组合的低精度分数,计算各个第二超参数组合的估计高精度分数;
搜索单元,配置为,基于各个第二超参数组合的估计高精度分数、以及当前具有高精度分数的超参数组合的高精度分数,通过预定超参数搜索算法,确定对所述方法的下一次循环中处理的多个超参数组合。
在一种实施方式中,所述预定超参数搜索算法为以下任一算法:遗传算法、贝叶斯优化算法、差分进化算法、网格搜索算法、随机搜索算法。
在一种实施方式中,所述装置还包括,第二确定单元,配置为,在获取所述第一超参数组合的高精度分数之后,将当前的具有最高高精度分数的超参数组合确定为所述业务模型的超参数组合。
在一种实施方式中,所述拟合模型为以下任一模型:随机森林模型、决策树模型、线性回归模型、逻辑回归模型。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
通过根据本说明书实施例的确定业务模型超参数的方案,一方面,对于大部分超参数组合,只对其训练低精度模型,从而节省了时间成本,另一方面,通过对少量的超参数组合既训练低精度模型又训练高精度模型,从而基于这些超参数组合的高精度分数与低精度分数之差训练拟合模型,并通过拟合模型拟合每个超参数组合的估计高精度分数,并基于估计高精度分数进行模型超参数的选择,从而使得最后选择的模型超参数更优。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出根据本说明书实施例的确定业务模型超参数的方法示意图;
图2示出根据本说明书实施例的确定业务模型超参数的方法中的一次循环中的过程示意图;
图3示出根据本说明书实施例的一种确定业务模型超参数的方法流程图;
图4示出根据本说明书另一实施例的确定业务模型超参数的方法示意图;
图5示出根据本说明书另一实施例的确定业务模型超参数的方法示意图;
图6示出根据本说明书实施例的一种确定业务模型超参数的装置600。
具体实施方式
下面将结合附图描述本说明书实施例。
根据本说明书实施例的确定模型超参数的方案可应用于各种业务模型中。所述业务模型例如为XGBoost模型,该业务模型例如基于与网络平台中多个用户分别对应的多个训练样本进行训练,从而可用于对用户进行分类,以便于进行业务处理,或者该业务模型例如基于网络平台中多个交易分别对应的多个训练样本进行训练,从而可用于对交易进行分类,以便于进行业务处理,等等。可以理解,所述业务模型不限于为XGBoost模型,而可以为各种分类模型、回归模型、神经网络模型、树模型等等,在此不作限定。所述业务模型针对的预测对象也不限于为用户、交易等,而可以为网络平台中的各类对象,如商户、商品、影视作品等等。下文中将以XGBoost模型作为业务模型的示例进行描述。
在训练上述XGBoost模型之前,通常需要确定多个超参数,如eta、max_depth、subsample、colsample_bytree、num_round等等,为了便于描述,在下文中,将分别使用参数a、b、c、d、e与其顺序对应。其中,例如,参数a~c为连续参数,其分别具有如下的初始取值范围,a:[0.1,0.3],b:[0.6,1],c:[0.6,1],参数d和e为离散参数,其初始可选值分别为,d:{4,5,6,7},e:{100,200,300}。各个超参数的初始取值范围构成了5维的取值空间,在该取值空间中的任意点即为XGBoost模型的一种可能的超参数组合。该超参数组合可以表示为维度为5的向量x,如x=[0.1,0.6,0.6,4,100]。通过用训练样本集训练具有该超参数组合x的XGBoost模型,并使用测试样本集对该训练的模型进行测试,可获取该模型的测试性能分数y。其中,所述测试性能分数y可以为多种参数的值,如准确率、精确率、召回率、AUC、上述各种参数的组合,等等,在此不作限定。根据本说明书实施例的超参数搜索方案为一种在各个超参数的初始取值空间中快速搜索出性能分数y较优的超参数组合x的方法。
图1示出根据本说明书实施例的确定业务模型超参数的方法示意图。如图1中所示,该方法循环多次,每次循环包括阶段①和阶段②。其中,在第①阶段,基于当前的拟合模型和当前多个超参数组合,训练拟合模型。之后,在第②阶段,基于更新的拟合模型和当前的多个超参数组合,通过预定模型搜索算法确定下一轮循环中处理的超参数组合。
图2示出根据本说明书实施例的确定业务模型超参数的方法中的一次循环中的过程示意图。如图2所示,首先,如图2中标示“①”的虚线框中所示,执行图1中的阶段①。在阶段①中,首先使用样本集2分别训练与该次循环将处理的多个超参数组合对应的多个业务模型11(例如XGBoost模型),从而获取多个低精度业务模型。样本集2包括从样本集1中选取的部分训练样本,所述样本集1包括预先准备的全量训练样本,样本集2例如包括全量训练样本中的1/10的训练样本。通常,将基于全量训练样本得到的模型称为高精度模型(high-fidelity model),将基于少量训练样本得到的模型称为低精度模型。在图2中,以重叠在一起的三个框示意表示与多个超参数组合(例如10组)分别对应的多个初始(即尚未训练的)业务模型11。在通过样本集2对10个业务模型11分别训练之后,从而可获得10个低精度业务模型。
之后,通过预定测试样本集(图2中未示出)测试各个低精度业务模型的性能值,作为各个超参数组合的低精度分数。在现有技术中,为了在超参数搜索过程中减少由于使用全量训练样本(例如样本集1)训练高精度模型带来的时间和资源开销,通常基于少量训练样本(例如样本集2)训练与多个超参数组合分别对应的多个低精度业务模型,并在测试各个低精度业务模型的低精度分数之后,基于各个超参数组合的低精度分数,例如通过遗传算法生成下一次循环将要处理的多个超参数组合,从而完成超参数搜索的一次循环。然而,对低精度业务模型的评估效果与相同超参数的高精度业务模型的评估效果存在一定偏差,基于少量训练样本确定的表现好(即低精度分数高)的超参数组合,在全量训练样本下不一定为好的超参数组合,即该超参数组合的高精度分数不一定是高分,这里,将该超参数组合对应的高精度业务模型的性能分数称作为高精度分数。
因此,在本说明书实施例中,通过训练拟合模型12拟合超参数组合的高精度分数与低精度分数的差距,从而预测其估计高精度分数。具体是,如图2所示,将各个超参数组合输入当前的拟合模型12,从而基于拟合模型12相对于各个超参数组合的输出和各个超参数组合的低精度分数计算各个超参数组合的估计高精度分数。然后,如图2中所示,从已有的具有低精度分数、不具有高精度分数的超参数组合中确定估计高精度分数最高的超参数组合(图中以灰色框示出),使用样本集1训练该超参数组合,从而得到相应高精度业务模型的性能分数作为该超参数组合的高精度分数。然后,使用该超参数组合的高精度分数与低精度分数之差作为样本标签值、以该超参数组合作为样本特征训练拟合模型12。
在训练拟合模型12之后,进入图1中的阶段②。具体是,如图2中以“②”标示的虚线框中所示,基于拟合模型12拟合当前全部具有低精度分数、不具有高精度分数的超参数组合的修正值(即高精度分数与低精度分数的拟合差距),通过将该修正值与相应超参数组合的低精度分数相加,计算各个所述超参数组合的估计高精度分数。之后,搜索模型13基于各个超参数组合的高精度分数或估计高精度分数,根据预定搜索算法,从当前的全部超参数组合生成预定数目的新超参数组合。
在根据说明书实施例的业务模型超参数确定方案中,在参数搜索过程中,通过运行少量的对业务模型的高精度训练和大量的对业务模型的低精度训练,以拟合模型学习超参数组合在低精度训练和高精度训练下的分数差距,从而通过拟合模型基于超参数组合的低精度分数估计其高精度分数,并基于该估计高精度分数进行超参数搜索,在大大减小时间和资源开销的前提下,还使得超参数搜索结果更接近高精度训练下的结果。
可以理解,图1和图2所示的超参数搜索过程仅仅是示例性的,而不是限制性的。例如,为了对所述拟合模型12进行训练,也可以从多个业务模型11中随机选取一个进行高精度训练,以获取用于训练拟合模型12的训练样本。或者,可对多个业务模型11中的每个都进行低精度训练和高精度训练,从而可获取用于训练拟合模型12的多个训练样本。可在训练好拟合模型12之后,不再继续进行对拟合模型12的训练,而只使用拟合模型12用于获取各个超参数组合的估计高精度分数,并通过搜索模型13基于各个超参数组合的估计高精度分数确定在下一轮循环中处理的多个超参数组合。
下面将详细描述根据本说明书实施例的模型超参数搜索方案。
图3示出根据本说明书实施例的一种确定业务模型超参数的方法流程图,所述业务模型包括多个超参数,所述方法包括:
步骤S302,获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值;
步骤S304,从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集,其中,所述训练样本与网络平台中的以下任一对象相关:用户、商户、商品、交易;
步骤S306,使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型;
步骤S308,测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数;
步骤S310,使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距,其中,所述超参数组合的高精度分数为对应的高精度业务模型的性能分数,所述超参数组合对应的高精度业务模型为通过以所述第一训练样本集训练所述超参数组合对应的业务模型所获取的模型;
步骤S312,基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数。
图3所示方法可以为超参数搜索过程中的一个循环,通常,在超参数搜索过程中的每次循环中,处理预定数目个(例如10个)超参数组合,确定各个超参数组合的优劣,并基于预定搜索算法确定下一轮循环的10个超参数组合,并在循环结束时,基于已有的各个超参数组合的优劣确定业务模型的最终使用的超参数组合。图3所示方法可以为图1或图2所示的一次循环中的一部分。
首先,在步骤S302,获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值。
如果图3所示方法为超参数搜索过程中的首次循环,则可在多个超参数的取值空间中随机选取预定数目个超参数组合,以上述XGBoost模型为例,XGBoost模型例如包括a~e五个超参数,从而,其中一个超参数组合x1例如为x1=[0.1,0.6,0.6,4,100],假设将所述预定数目设定为10,则在首次循环中,共获取10个超参数组合x1~x10。如果该方法不是首次循环,例如为第2次循环,则获取在上一轮循环生成的10个超参数组合x11~x20。
在步骤S304,从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集,其中,所述训练样本与网络平台中的以下任一对象相关:用户、商户、商品、交易。
所述第一训练样本集例如为所述样本集1,所述第二训练样本集例如为所述样本集2。样本集1中包括用于训练业务模型(例如XGBoost模型)的全量训练样本。所述训练样本包含的内容与业务模型服务的对象相关。例如,所述业务模型为交易分类模型,例如用于将交易分类为正常交易和欺诈交易,从而,所述训练样本的样本特征为交易的特征,所述特征例如包括交易金额、付款方、收款方、交易时间、交易物品等等,所述训练样本的样本标签值指示该交易是否为欺诈交易。可以理解,所述业务模型还可以用于对用户、商户、商品等对象进行分类,则训练样本相应地与用户、商户、商品分别相关。样本集2为样本集1中包括的少量训练样本构成的样本集。例如,可从样本集1中随机选取其中的1/10的训练样本构成样本集2。
在步骤S306,使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型。
对于上述超参数组合x1~x10,每个超参数组合例如对应于一个作为业务模型的XGBoost模型。在确定样本集2之后,可使用样本集2分别训练超参数组合x1~x10对应的XGBoost模型,从而获取10个低精度业务模型。
在步骤S308,测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数。
在获取10个低精度业务模型之后,使用预先准备的测试集分别测试训练好的低精度业务模型的性能分数yL1~yL10,其中,性能分数中的“L”表示该性能分数为通过训练集2训练获取的低精度业务模型的低精度分数。
在步骤S310,使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距,其中,所述超参数组合的高精度分数为以所述第一训练样本集训练的所述超参数组合对应的业务模型的性能分数。
所述拟合模型例如具有模型函数φ(x),该拟合模型在经过训练之后可预测超参数组合的高精度分数与低精度分数之间的差距,例如,所述差距可以为差。通过将超参数组合x1~x10分别代入φ(x),从而可以分别拟合超参数组合x1~x10的高精度分数与低精度分数之差φ(x1)~φ(x10)。可以理解,这里以高精度分数与低精度分数之差来示例描述高精度分数与低精度分数之间的差距,然而,所述差距不限于为差,例如,其也可以为高精度分数与低精度分数的比值等等,在此不作限定。如图2中所示,超参数组合的高精度分数是以样本集1训练的高精度业务模型的性能分数。对拟合模型的函数φ(x)的训练基于超参数组合的高精度分数和低精度分数进行,该过程将在下文详细描述。
在步骤S312,基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数。
在拟合超参数组合x1~x10的高精度分数与低精度分数之差φ(x1)~φ(x10)之后,基于超参数组合x1~x10的低精度分数yL1~yL10可预测其估计高精度分数 分别为yL1+φ(x1)~yL10+φ(x10),其中,估计高精度分数中的“^”表示该分数为估计分数(即预测分数),“H”表示高精度。
在一个实施例中,如图2中所示,在获取各组超参数组合的估计高精度分数之后,还进行对拟合模型12的训练。具体是,在计算超参数组合x1~x10的估计高精度分数之后,确定所述多个超参数组合中估计高精度分数最高的超参数组合,例如x1,然后,以样本集1对具有超参数组合x1的业务模型11进行训练,并通过所述测试集测试该训练的业务模型11的性能分数yH1作为超参数组合x1的高精度分数。然后计算该超参数组合x1的高精度分数yH1与低精度分数yL1之差y1=yH1-yL1,并以(x1,y1)作为训练样本训练拟合模型12(即φ(x)),其中,y1为所述训练样本的标签值。所述拟合模型12可以选择任意复杂度较低的回归模型,例如随机森林模型、决策树模型、线性回归模型、逻辑回归模型等等。在进行该对拟合模型12的训练之后,拟合模型12的模型参数已经变化,因此,需要将已有的具有低精度分数、但是不具有高精度分数的超参数组合重新输入拟合模型12,以重新预测其估计高精度分数。例如,在第一轮循环中,x1已经具有高精度分数,因此将x2~x10输入更新的φ(x),重新预测其新的估计高精度分数,并基于yH1和重新预测的估计高精度分数,通过搜索模型13确定下一轮的新的超参数组合x11~x20。
在第二轮循环中,在基于样本集2和测试集获取超参数组合x11~x20各自的低精度分数yL11~yL20之后,将x11~x20分别输入φ(x),以预测x11~x20的估计高精度分数。然后,确定x2~x20中估计高精度分数最高的一个超参数组合,例如x12。之后,通过对超参数组合x12对应的业务模型11进行高精度训练,从而获取超参数组合x12的高精度分数,并基于x12的高精度分数和低精度分数再次训练拟合模型12。在该次训练之后,将已有的不具有高精度分数的超参数组合x2~x11和x13~x20都输入更新的φ(x),以分别重新预测其估计高精度分数,并由搜索模型13基于超参数组合x2~x11和x13~x20的新预测的估计高精度分数、和超参数组合x1和x12已有的高精度分数确定下一轮循环的超参数组合。
所述搜索模型13中例如基于遗传算法基于当前已有的全部超参数组合及其各自的高精度分数或估计高精度分数确定下一轮循环的10个超参数组合。可以理解,所述搜索模型13不限于基于遗传算法搜索超参数组合,例如搜索模型13还可以使用以下任一种超参数搜索算法:贝叶斯优化算法、差分进化算法、网格搜索算法、随机搜索算法等等。例如,在第二轮循环中,已有超参数组合x1~x20,搜索模型13对x1和x12各自的高精度分数和x2~x11和x13~x20各自的估计高精度分数进行排序,获取排序靠前的5个超参数组合,在这5个超参数组合中随机获取10对超参数组合对,对该10对超参数组合对分别进行遗传算法中的交叉和变异操作,从而获取10个新的超参数组合。
在对该如图2所示的过程循环了预定次数或者已经获取高精度分数达到预定值的超参数组合的情况中,可结束对该过程的循环,并将其中获取的具有最高高精度分数的超参数组合确定为业务模型11的最终使用的超参数组合。
图4示出根据本说明书另一实施例的确定业务模型超参数的方法示意图。在该如图4所示的实施例中,假设所述拟合模型12已经训练完成,例如,已经预先使用足够数量的超参数组合的低精度分数和高精度分数训练了拟合模型12的模型函数φ(x),以使得将任一超参数组合x输入拟合模型12之后,该拟合模型12的输出值φ(x)都足够接近该超参数组合x的高精度分数与低精度分数之差,从而,不需要边搜索超参数组合边训练拟合模型12。如图4所示,首先,与图3所示过程相同地,基于样本集2训练与超参数组合x1~x10分别对应的业务模型11,之后,通过测试集测试各个业务模型11的性能分数,从而获取超参数组合x1~x10的低精度分数。然后,将各个超参数组合输入拟合模型12,基于拟合模型12相对于各个超参数组合的输出以及各个超参数组合的低精度分数,计算超参数组合x1~x10的估计高精度分数。该估计高精度分数相比于低精度分数更加接近于实际高精度分数。之后,通过搜索模型13使用预定超参数搜索算法基于各个超参数组合的估计高精度分数搜索新的超参数组合。所述预定超参数搜索算法例如为遗传算法。具体是,搜索模型13确定估计高精度分数中的排序靠前(例如前5个)的超参数组合,通过遗传算法基于该5个超参数组合生成新的10个超参数组合,并进入超参数搜索过程的下一个循环。在循环了预定次数,或者通过图4所示方法确定的估计高精度分数达到预定值的情况中,可将已有的超参数组合中估计高精度分数最高的一组超参数组合确定为业务模型11的超参数组合。
图5示出根据本说明书另一实施例的确定业务模型超参数的方法示意图。在该实施例中,与图4所示实施例类似地,假设所述拟合模型12已经训练完成,即,不需要边搜索超参数组合边训练拟合模型12。如图5所示,首先,与图3所示过程相同地,基于样本集2训练与超参数组合x1~x10分别对应的业务模型11,通过测试集测试各个业务模型11的性能分数,从而获取超参数组合x1~x10的低精度分数。然后,将各个超参数组合输入拟合模型12,基于拟合模型12相对于各个超参数组合的输出和各个超参数组合的低精度分数,计算超参数组合x1~x10的估计高精度分数。之后,可以基于超参数组合x1~x10的估计高精度分数,确定当前估计高精度分数最高的超参数组合,例如x1。然后,以样本集1对具有超参数组合x1的业务模型11进行训练,并对该训练的业务模型11测试性能分数作为超参数组合x1的高精度分数yH1。之后,搜索模型13可基于yH1和,通过预定超参数搜索算法确定新的10个超参数组合,并进入下一个循环。也就是说,在该实施例中,对于每次循环处理的10个超参数组合中,对其中的一个超参数组合使用样本集1进行训练,使其具有高精度分数,在循环了预定次数之后,在已有的具有高精度分数的超参数组合中,选择具有最高高精度分数的超参数组合作为业务模型11的超参数组合,或者在获取的某个超参数组合的高精度分数达到预定值的情况中,以该超参数组合作为业务模型11的超参数组合。通过该实施例,基于拟合模型12的预测结果,对估计高精度分数最高的超参数组合对应的业务模型11进行高精度训练,并获取高精度分数,加快了获取较优超参数组合的过程。
图6示出根据本说明书实施例的一种确定业务模型超参数的装置600,所述业务模型包括多个超参数,所述装置600包括:
第一获取单元601,配置为,获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值;
选取单元602,配置为,从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集,其中,所述训练样本与网络平台中的以下任一对象相关:用户、商户、商品、交易;
第一训练单元603,配置为,使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型;
第一测试单元604,配置为,测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数;
拟合单元605,配置为,使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距,其中,所述超参数组合的高精度分数为对应的高精度业务模型的性能分数,所述超参数组合对应的高精度业务模型为通过以所述第一训练样本集训练所述超参数组合对应的业务模型所获取的模型;
第一计算单元606,配置为,基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数。
在一种实施方式中,所述装置600还包括,
第一确定单元607,配置为,在计算各个超参数组合的估计高精度分数之后,在当前不具有高精度分数的超参数组合中确定估计高精度分数最高的第一超参数组合;
第二训练单元608,配置为,以所述第一训练样本集训练所述第一超参数组合对应的业务模型,以获取高精度业务模型;
第二测试单元609,配置为,测试所述高精度业务模型的性能分数,作为所述第一超参数组合的高精度分数。
在一种实施方式中,所述装置600还包括:
第二计算单元610,配置为,在测试所述高精度业务模型的性能分数之后,计算所述第一超参数组合的高精度分数与低精度分数的第一差距;
第三训练单元611,配置为,以所述第一超参数组合作为样本特征值、以所述第一差距作为样本标签值,训练所述拟合模型。
在一种实施方式中,所述装置600还包括:
第二获取单元612,配置为,在训练所述拟合模型之后,获取当前具有低精度分数、不具有高精度分数的多个第二超参数组合;
第三计算单元613,配置为,基于所述拟合模型和各个第二超参数组合的低精度分数,计算各个第二超参数组合的估计高精度分数;
搜索单元614,配置为,基于各个第二超参数组合的估计高精度分数、以及当前具有高精度分数的超参数组合的高精度分数,通过预定超参数搜索算法,确定对所述方法的下一次循环中处理的多个超参数组合。
在一种实施方式中,所述装置600还包括,第二确定单元615,配置为,在获取所述第一超参数组合的高精度分数之后,将当前的具有最高高精度分数的超参数组合确定为所述业务模型的超参数组合。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
通过根据本说明书实施例的确定业务模型超参数的方案,一方面,对于大部分超参数组合,只对其训练低精度模型,从而节省了时间成本,另一方面,通过对少量的超参数组合对应的业务模型既进行低精度训练又进行高精度训练,以获取其低精度分数和高精度分数,从而基于这些超参数组合的高精度分数与低精度分数之差训练拟合模型,并通过拟合模型拟合每个超参数组合的估计高精度分数,并基于估计高精度分数进行业务模型超参数的选择,从而使得最后选择的业务模型超参数更优。
需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。其中,软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种确定业务模型超参数的方法,所述业务模型包括多个超参数,所述方法包括多次循环,每次循环包括:
获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值;
从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集,其中,所述训练样本与网络平台中的以下任一对象相关:用户、商户、商品、交易;
使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型;
测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数;
使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距,其中,所述超参数组合的高精度分数为对应的高精度业务模型的性能分数,所述超参数组合对应的高精度业务模型为通过以所述第一训练样本集训练所述超参数组合对应的业务模型所获取的模型;
基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数;
在计算各个超参数组合的估计高精度分数之后,在当前不具有高精度分数的超参数组合中确定估计高精度分数最高的第一超参数组合;
以所述第一训练样本集训练所述第一超参数组合对应的业务模型,以获取高精度业务模型;
测试所述高精度业务模型的性能分数,作为所述第一超参数组合的高精度分数;
在循环结束时,将当前的具有最高高精度分数的超参数组合确定为所述业务模型的超参数组合;
其中,所述的方法,还包括:
在测试所述高精度业务模型的性能分数之后,计算所述第一超参数组合的高精度分数与低精度分数的第一差距;
以所述第一超参数组合作为样本特征值、以所述第一差距作为样本标签值,训练所述拟合模型;
其中,所述的方法,还包括:
在训练所述拟合模型之后,获取当前具有低精度分数、不具有高精度分数的多个第二超参数组合;
基于所述拟合模型和各个第二超参数组合的低精度分数,计算各个第二超参数组合的估计高精度分数;
基于各个第二超参数组合的估计高精度分数、以及当前具有高精度分数的超参数组合的高精度分数,通过预定超参数搜索算法,确定对下一次循环中处理的多个超参数组合。
2.根据权利要求1所述的方法,其中,所述预定超参数搜索算法为以下任一算法:遗传算法、贝叶斯优化算法、差分进化算法、网格搜索算法、随机搜索算法。
3.根据权利要求1所述的方法,其中,所述拟合模型为以下任一模型:随机森林模型、决策树模型、线性回归模型、逻辑回归模型。
4.一种确定业务模型超参数的装置,所述业务模型包括多个超参数,所述装置包括:
第一获取单元,配置为,获取多个超参数组合,每个所述超参数组合包括所述多个超参数各自的值;
选取单元,配置为,从预先准备的第一训练样本集中选取部分训练样本以构成第二训练样本集,其中,所述训练样本与网络平台中的以下任一对象相关:用户、商户、商品、交易;
第一训练单元,配置为,使用所述第二训练样本集训练与所述多个超参数组合分别对应的业务模型,以获取多个低精度业务模型;
第一测试单元,配置为,测试各个低精度业务模型的性能分数,作为各个超参数组合的低精度分数;
拟合单元,配置为,使用预先训练的拟合模型拟合各个超参数组合的高精度分数与低精度分数的差距,其中,所述超参数组合的高精度分数为对应的高精度业务模型的性能分数,所述超参数组合对应的高精度业务模型为通过以所述第一训练样本集训练所述超参数组合对应的业务模型所获取的模型;
第一计算单元,配置为,基于各个超参数组合的低精度分数、及拟合的高精度分数与低精度分数的差距,计算各个超参数组合的估计高精度分数;
第一确定单元,配置为,在计算各个超参数组合的估计高精度分数之后,在当前不具有高精度分数的超参数组合中确定估计高精度分数最高的第一超参数组合;
第二训练单元,配置为,以所述第一训练样本集训练所述第一超参数组合对应的业务模型,以获取高精度业务模型;
第二测试单元,配置为,测试所述高精度业务模型的性能分数,作为所述第一超参数组合的高精度分数;
其中,所述第一获取单元,所述选取单元,所述第一训练单元,所述第一测试单元,所述拟合单元,所述第一计算单元,所述第一确定单元,所述第二训练单元和所述第二测试单元循环执行多次;
第二确定单元,配置为,在循环结束时,将当前的具有最高高精度分数的超参数组合确定为所述业务模型的超参数组合;
其中,所述的装置,还包括:
第二计算单元,配置为,在测试所述高精度业务模型的性能分数之后,计算所述第一超参数组合的高精度分数与低精度分数的第一差距;
第三训练单元,配置为,以所述第一超参数组合作为样本特征值、以所述第一差距作为样本标签值,训练所述拟合模型;
其中,所述的装置,还包括:
第二获取单元,配置为,在训练所述拟合模型之后,获取当前具有低精度分数、不具有高精度分数的多个第二超参数组合;
第三计算单元,配置为,基于所述拟合模型和各个第二超参数组合的低精度分数,计算各个第二超参数组合的估计高精度分数;
搜索单元,配置为,基于各个第二超参数组合的估计高精度分数、以及当前具有高精度分数的超参数组合的高精度分数,通过预定超参数搜索算法,确定对下一次循环中处理的多个超参数组合。
5.根据权利要求4所述的装置,其中,所述预定超参数搜索算法为以下任一算法:遗传算法、贝叶斯优化算法、差分进化算法、网格搜索算法、随机搜索算法。
6.根据权利要求4所述的装置,其中,所述拟合模型为以下任一模型:随机森林模型、决策树模型、线性回归模型、逻辑回归模型。
7.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-3中任一项的所述的方法。
8.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537635.0A CN111445025B (zh) | 2020-06-12 | 2020-06-12 | 确定业务模型超参数的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010537635.0A CN111445025B (zh) | 2020-06-12 | 2020-06-12 | 确定业务模型超参数的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111445025A CN111445025A (zh) | 2020-07-24 |
CN111445025B true CN111445025B (zh) | 2020-12-01 |
Family
ID=71652265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010537635.0A Active CN111445025B (zh) | 2020-06-12 | 2020-06-12 | 确定业务模型超参数的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445025B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101555A (zh) * | 2020-11-13 | 2020-12-18 | 支付宝(杭州)信息技术有限公司 | 多方联合训练模型的方法和装置 |
CN116167431B (zh) * | 2023-04-25 | 2023-08-04 | 之江实验室 | 一种基于混合精度模型加速的业务处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796268A (zh) * | 2020-01-06 | 2020-02-14 | 支付宝(杭州)信息技术有限公司 | 确定业务处理模型超参数的方法和装置 |
CN111144581A (zh) * | 2019-12-31 | 2020-05-12 | 杭州雅拓信息技术有限公司 | 一种机器学习超参数调节方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800884B (zh) * | 2017-11-14 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 模型参数的处理方法、装置、设备和计算机存储介质 |
CN108062587A (zh) * | 2017-12-15 | 2018-05-22 | 清华大学 | 一种无监督机器学习的超参数自动优化方法及系统 |
CN110598842A (zh) * | 2019-07-17 | 2019-12-20 | 深圳大学 | 一种深度神经网络超参数优化方法、电子设备及存储介质 |
-
2020
- 2020-06-12 CN CN202010537635.0A patent/CN111445025B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144581A (zh) * | 2019-12-31 | 2020-05-12 | 杭州雅拓信息技术有限公司 | 一种机器学习超参数调节方法及系统 |
CN110796268A (zh) * | 2020-01-06 | 2020-02-14 | 支付宝(杭州)信息技术有限公司 | 确定业务处理模型超参数的方法和装置 |
Non-Patent Citations (1)
Title |
---|
《Multi-Fidelity Automatic Hyper-Parameter Tuning via Transfer Series Expansion》;Hu Yi-Qi等;《Proceedings of the AAAI Conference on Artificial Intelligence》;20190717;第3846-3853页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111445025A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109461001B (zh) | 基于第二模型获取第一模型的训练样本的方法和装置 | |
CN105786860B (zh) | 一种数据建模中的数据处理方法及装置 | |
CN108304316B (zh) | 一种基于协同迁移的软件缺陷预测方法 | |
US20190251458A1 (en) | System and method for particle swarm optimization and quantile regression based rule mining for regression techniques | |
CN111445025B (zh) | 确定业务模型超参数的方法和装置 | |
US11481707B2 (en) | Risk prediction system and operation method thereof | |
CN112200392B (zh) | 业务预测方法及装置 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN110796268A (zh) | 确定业务处理模型超参数的方法和装置 | |
CN111626844A (zh) | 基于大数据分析的企业信用评估方法及装置 | |
Rofik et al. | The Optimization of Credit Scoring Model Using Stacking Ensemble Learning and Oversampling Techniques | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
Garcia de Alford et al. | Reducing age bias in machine learning: An algorithmic approach | |
CN115936184A (zh) | 一种适应多用户类型的负荷预测匹配方法 | |
Soepriyanto | Comparative Analysis of K-NN and Naïve Bayes Methods to Predict Stock Prices | |
CN114445656A (zh) | 多标签模型处理方法、装置、电子设备及存储介质 | |
CN111340356A (zh) | 评估模型解释工具的方法和装置 | |
CN112634268A (zh) | 一种视频质量评价方法、装置及电子设备 | |
CN112508304A (zh) | 交易对象流动性预测方法、装置、设备及存储介质 | |
CN111539536B (zh) | 一种评估业务模型超参数的方法和装置 | |
Pristyanto et al. | Ensemble model approach for imbalanced class handling on dataset | |
CN111767959A (zh) | 毛绒纤维分类方法及装置 | |
CN111260077A (zh) | 一种确定业务处理模型超参数的方法和装置 | |
CN110956528A (zh) | 一种电商平台的推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40033646 Country of ref document: HK |