CN111027579A - 超参数的确定方法、装置、设备和介质 - Google Patents

超参数的确定方法、装置、设备和介质 Download PDF

Info

Publication number
CN111027579A
CN111027579A CN201811180164.1A CN201811180164A CN111027579A CN 111027579 A CN111027579 A CN 111027579A CN 201811180164 A CN201811180164 A CN 201811180164A CN 111027579 A CN111027579 A CN 111027579A
Authority
CN
China
Prior art keywords
hyper
learning model
parameter
target learning
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811180164.1A
Other languages
English (en)
Inventor
周旭辉
徐晓飞
刘凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811180164.1A priority Critical patent/CN111027579A/zh
Publication of CN111027579A publication Critical patent/CN111027579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种超参数的确定方法、装置、设备和介质,涉及数据处理领域。该方法包括:将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,根据各目标学习模型的预测效果确定目标超参数组。本发明实施例提供的一种超参数的确定方法、装置、设备和介质,提高了基于优化的超参数的模型预测效果。

Description

超参数的确定方法、装置、设备和介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种超参数的确定方法、装置、设备和介质。
背景技术
所谓超参数,就是机器学习模型里面的框架参数,比如聚类方法里面类的个数,或者话题模型里面话题的个数等,都称为超参数。它们跟训练过程中学习的参数(权重)是不一样的,通常是手工设定,不断试错调整,或者对一系列穷举出来的参数组合一通枚举(叫做网格搜索)。通常一个学习模型对应有多个超参数,该多个超参数构成一个超参数组。
超参数的手工设定中,因为每份数据的分布不同、输入不同,造成超参数复用性不强。同时超参数有些是浮点数,而浮点数的取值是无穷尽的。这些都导致需要花大量时间对超参数进行调测。
而网格搜索中固定的搜索步长会错过一些好的超参数。又因为需要按照设定搜索步长遍历所有可能的超参数,所以基于网格搜索的超参数的训练时间长。因此,需要指定停止时间,而停止时间的指定同样可能错过一些好的超参数,从而导致基于网格搜索确定的超参数的模型预测效果并不好。
发明内容
本发明实施例提供一种超参数的确定方法、装置、设备和介质,以提高基于优化的超参数的模型预测效果。
第一方面,本发明实施例提供了一种超参数的确定方法,该方法包括:
将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;
对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;
继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
第二方面,本发明实施例还提供了一种超参数的确定装置,该装置包括:
模型训练模块,用于将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;
超参数传递模块,用于对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;
最优超参数确定模块,用于继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的超参数的确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的超参数的确定方法。
本发明实施例通过将确定的至少两组超参数组分别设置于待训练的基础学习模型中进行训练。然后对训练的模型进行测试,根据测试结果,将预测效果满足设定效果要求的超参数组传递给预测效果不满足设定效果要求的模型。并继续对模型进行训练,直至满足定训练停止条件。该过程实现了用满足要求的超参数组迭代替换掉不满要求的超参数组,也即对超参数组进行优胜劣汰。最后从保留下来的超参数组中确定出目标超参数组。上述对超参数组的迭代替换过程实现了对超参数组的优化,从而提高了基于优化的超参数的模型预测效果。
附图说明
图1为本发明实施例一提供的一种超参数的确定方法的流程图;
图2是本发明实施例二提供的一种超参数的确定方法的流程图;
图3是本发明实施例三提供的一种超参数的确定方法的流程图;
图4是本发明实施例四提供的一种超参数的确定方法的流程图;
图5是本发明实施例五提供的一种超参数的确定装置的结构示意图;
图6为本发明实施例六提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种超参数的确定方法的流程图。本实施例可适用于机器学习模型中超参数的确定情况。该方法可以由一种超参数的确定装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本实施例提供的超参数的确定方法包括:
S110、将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练。
其中,至少两组超参数组根据目标学习模型的超参数范围确定。
具体地,至少两组超参数组的确定可以为:
根据目标学习模型的超参数范围,随机确定设定组数的超参数组;或,
根据目标学习模型的超参数范围,按照设定步长,确定设定组数的超参数组。
其中,根据目标学习模型的超参数范围,按照设定步长,确定出的超参数组可以覆盖超参数所有可能取值。具体步长的设定可以根据实际需要确定,如果目标超参数组的准确率要求更高,则将步长设定的小些;如果对目标超参数组的优化用时要求更高,则将步长设定的大些。
基础学习模型可以是任意机器学习模型,可以是有监督学习模型,也可以是无监督学习模型。
目标学习模型是将确定的超参数组设置于基础学习模型中后得到的模型。
训练样本是预先确定的用于对目标学习模型进行训练的样本。训练样本的数量,以及与测试样本的数量比例可以根据经验确定。
S120、对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型。
其中,设定效果要求可以根据需要确定。设定效果要求具体可以是,预测效果位于前设定名次。
例如,超参数组的个数是100。设定效果要求是,预测效果位于前10名。如果一目标学习模型的预测效果的排名是第12名,那么确定该目标模型的预测效果不满足设定效果要求。如果一目标学习模型的预测效果的排名是第9名,那么确定该目标模型的预测效果满足设定效果要求。
具体地,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型包括:
用预测效果满足设定效果要求的目标学习模型的超参数组,替换预测效果不满足设定效果要求的目标学习模型中的超参数组。
可选地,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型还可以包括:
对预测效果满足设定效果要求的目标学习模型的超参数组进行扰动,用经过扰动的超参数组替换预测效果不满足设定效果要求的目标学习模型中的超参数组。
S130、继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,包括:
在将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型之后,返回循环执行S110中利用训练样本对各目标学习模型进行训练和S120的步骤,直至各目标学习模型满足设定训练停止条件。
设定训练停止条件可以根据实际需要设定,具体可以是设定训练次数,也可以是训练后的目标学习模型的预测效果满足设定预测效果要求,还可以是连续多轮训练后,目标学习模型的预测效果指标的提升小于设定提升阈值。
具体地,目标学习模型的预测效果可以通过预测效果指标确定,例如AUC(Areaunder the ROC curve),该指标反映的是目标学习模型的分类能力,也即预测的准确率。
典型地,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组包括:
将预测效果最好的目标学习模型的超参数组确定为目标超参数组。
本发明实施例的技术方案,通过将确定的至少两组超参数组分别设置于待训练的基础学习模型中进行训练。然后对训练的模型进行测试,根据测试结果,将预测效果满足设定效果要求的超参数组传递给预测效果不满足设定效果要求的模型。并继续对模型进行训练,直至满足定训练停止条件。该过程实现了用满足要求的超参数组迭代替换掉不满要求的超参数组,也即对超参数组进行优胜劣汰。最后从保留下来的超参数组中确定出目标超参数组。上述对超参数组的迭代替换过程实现了对超参数组的优化,从而提高了基于优化的超参数的模型预测效果。
为实现对超参数组的循环优化,所述对训练的各目标学习模型的预测效果进行测试,包括:
若目标学习模型的训练满足设定训练暂停条件,则停止对目标学习模型的训练,对训练的各目标学习模型的预测效果进行测试。
其中,设定训练暂停条件可以根据实际需要设定,可以是每设定训练次数后,或每训练设定时间后等。
例如,对目标学习模型每连续训练10次,则停止对目标学习模型的训练,对训练的各目标学习模型的预测效果进行测试,并根据测试结果将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型。
实施例二
图2是本发明实施例二提供的一种超参数的确定方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的超参数的确定方法包括:
S210、将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练。
S220、对训练的各目标学习模型的预测效果进行测试。
具体地,利用确定的测试样本对训练的各目标学习模型进行测试。其中测试样本的数量,以及与训练样本的数量比例关系可以根据经验确定。
S230、根据各目标学习模型的预测效果,从各目标学习模型的超参数组中筛选出种子超参数组。
其中,种子超参数组是预测效果满足设定效果要求的超参数组。
具体地,所述根据各目标学习模型的预测效果,从各目标学习模型的超参数组中筛选出种子超参数组,包括:
根据各目标学习模型的预测效果,对各目标学习模型进行排序;
按照排序结果取预测效果位于前设定名次的目标学习模型的超参数组,作为种子超参数组。
S240、对种子超参数组进行复制,对复制的种子超参数组中的超参数进行扰动。
其中,扰动的方式可以是,任意改变种子超参数组中的超参数的方式。
具体地,扰动方式可以是,对种子超参数组中的超参数增加或减少指定值或随机值。
典型地,对复制的种子超参数组中的超参数进行扰动的方式可以是,为复制的种子超参数组中的超参数添加扰动系数。
扰动系数可以根据目标学习模型的超参数的类型确定。如果目标学习模型的超参数类型为整数,则扰动系数也为整数。如果目标学习模型的超参数类型为小数,则扰动系数也为小数。
扰动系数可以是固定的,也可以是从可选范围中随机确定的,还可以是根据超参数的设定步长或各种子超参数组中超参数间的差值确定的。
具体地,若种子超参数组中超参数间的差值大于设定数值,则将扰动系数设置的大些;若种子超参数组中超参数间的差值小于等于设定数值,则将扰动系数设置的小些。从而尽快确定出最优的目标超参数组。
扰动系数的设定可以实现对种子超参数的变异。通过对变异后的种子超参数组的模型进行训练和测试,实现了对超参数的进一步优化。
S250、将经过扰动的种子超参数组设置于非种子超参数组的目标学习模型中,并替换非种子超参数组。
其中,非种子超参数组是预测效果不满足设定效果要求的超参数组。
S260、继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
本发明实施例的技术方案,通过对筛选出种子超参数组进行复制,并对复制的种子超参数组中的超参数进行扰动。从而实现对预测效果满足要求的超参数组的遗传和变异。而超参数在遗传和变异的过程实现优化,进而提高基于优化的超参数的模型预测效果。
实施例三
图3是本发明实施例三提供的一种超参数的确定方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3,本实施例提供的超参数的确定方法包括:
S310、将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练。
S320、对训练的各目标学习模型的预测效果进行测试。
S330、根据各目标学习模型的预测效果,从各目标学习模型的超参数组中筛选出种子超参数组。
S340、对所述种子超参数组分别进行复制,对复制的种子超参数组中的超参数进行扰动。
具体地,可以对所述种子超参数组分别进行随机次数的复制。
其中,随机次数大于等于1,且小于等于随机次数最大值,随机次数最大值是非种子超参数组数量除以种子超参数组数量的商。此处要求非种子超参数组数量大于等于种子超参数组数量,使得所述种子超参数组均可以设置于不同的目标学习模型中。
例如,有两组种子超参数组分别为:第一种子超参数组和第二种子超参数组。非种子超参数组有五个。因此,随机次数的取值范围为1至2(5除以2,商2余1).
可选地,可以按照各种子超参数组的预测效果,分别对所述种子超参数组进行复制。其中种子超参数组的预测效果越好,对该种子超参数组的复制次数越多。
例如,有两组种子超参数组分别为:第一种子超参数组和第二种子超参数组。且第一种子超参数组的预测效果大于第二种子超参数组的预测效果。非种子超参数组的目标学习模型有三个。那么对第一种子超参数组进行2次复制,对第二种子超参数组进行1次复制。
通过根据种子超参数组的预测效果,确定种子超参数的复制次数。实现对预测效果好的种子超参数组进行较多次数的复制,然后设置于较多数量的非种子超参数组的目标学习模型中进行训练。从而实现对预测效果好的超参数组进行精细调测。
S350、将经过扰动的种子超参数组设置于非种子超参数组的目标学习模型中,并替换非种子超参数组。
S360、继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
本发明实施例的技术方案,通过对所述种子超参数组分别进行复制,实现对所有种子超参数组的训练和测试。根据所有种子超参数组的训练和测试可以确定出全局最优超参数组。同时避免对所述种子超参数组进行随机复制,导致通过仅对随机选中的部分种子超参数组进行训练和测试,确定的目标超参数组为局部最优超参数组的问题。
实施例四
图4是本发明实施例四提供的一种超参数的确定方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图4,本实施例提供的超参数的确定方法包括:
S410、根据目标学习模型的超参数范围,随机确定至少两组超参数组。
S420、将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型。
S430、利用确定的训练样本对各目标学习模型进行训练;若目标学习模型的训练满足设定训练暂停条件,则停止对目标学习模型的训练,对训练的各目标学习模型的预测效果进行测试。
其中,训练样本、验证样本和测试样本,按照设定比例从确定的样本集中自动划分确定。
S440、根据各目标学习模型的预测效果,对各目标学习模型进行排序。
具体预测效果可以通过描述模型分类能力的指标确定。该指标可以是描述模型分类能力的任意指标。例如,该指标可以是AUC.
S450、按照排序结果取预测效果位于前设定名次的目标学习模型的超参数组,作为种子超参数组。
S460、从所述种子超参数组中随机选择待复制的种子超参数组,对待复制的种子超参数组进行复制,为复制的种子超参数组中的超参数添加随机扰动系数。
S470、将经过扰动的种子超参数组设置于非种子超参数组的目标学习模型中,并替换非种子超参数组。
S480、返回继续执行S430、S440、S450、S460和S470,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择预测效果最佳的目标模型的超参数组作为目标超参数组。
示例性的,上述过程可以描述为:根据目标学习模型的超参数范围,随机确定100组超参数组;将确定的100组超参数组分别设置于待训练的基础学习模型中,得到100个目标学习模型;利用确定的训练样本对各目标学习模型进行训练;因为模型训练往往需要迭代训练多轮,那么可以在每训练10轮后,利用测试样本对训练的目标学习模型的预测效果进行测试;按照预测效果从好到坏排序,保留排序结果位于前10%的模型超参数和模型当前结果;将选出的10%的模型超参数随机复制到其他的模型(其他模型指排序结果不在前10%的模型),即其他模型继承了这轮对比中相对优秀的结果,类似生物体遗传;同时对复制的超参数做一个随机扰动,随机扰动系数的范围可以为0.8至1.2之间,类似生物体变异;之后继续训练,重复上述过程;若模型指标(例如AUC)连续10轮不能提升超过0.001,则停止训练,将各目标学习模型中的最优超参数确定为目标超参数,也即最终求解超参数。
本发明实施例借鉴生物遗传的方式来优化超参数,采用自然选择的思想。通过保留模型预测效果位于前设定名次的超参数组作为一组相对优化解,基于继承机制对相对优化解进行继承,同时利用随机扰动对继承的相对优化解进行变异。从而高效率找到相对最优解。
需要说明的是,经过本实施例的技术教导,本领域技术人员有动机将上述实施例中描述的任一种实施方式进行方案的组合,以实现对超参数的确定。
实施例五
图5是本发明实施例五提供的一种超参数的确定装置的结构示意图。参见图5,本实施例提供的超参数的确定装置包括:模型训练模块10、超参数传递模块20和最优超参数确定模块30.
其中,模型训练模块10,用于将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;
超参数传递模块20,用于对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;
最优超参数确定模块30,用于继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
本发明实施例的技术方案,通过将确定的至少两组超参数组分别设置于待训练的基础学习模型中进行训练。然后对训练的模型进行测试,根据测试结果,将预测效果满足设定效果要求的超参数组传递给预测效果不满足设定效果要求的模型。并继续对模型进行训练,直至满足定训练停止条件。该过程实现了用满足要求的超参数组迭代替换掉不满要求的超参数组,也即对超参数组进行优胜劣汰。最后从保留下来的超参数组中确定出目标超参数组。上述对超参数组的迭代替换过程实现了对超参数组的优化,从而提高了基于优化的超参数的模型预测效果。进一步地,所述超参数传递模块包括:筛选单元、随机扰动单元和参数复制单元。
其中,筛选单元,用于根据各目标学习模型的预测效果,从各目标学习模型的超参数组中筛选出种子超参数组;
随机扰动单元,用于对种子超参数组进行复制,对复制的种子超参数组中的超参数进行扰动;
参数复制单元,用于将经过扰动的种子超参数组设置于非种子超参数组的目标学习模型中,并替换非种子超参数组。
进一步地,所述筛选单元具体用于:
根据各目标学习模型的预测效果,对各目标学习模型进行排序;
按照排序结果取预测效果位于前设定名次的目标学习模型的超参数组,作为种子超参数组。
进一步地,所述参数复制单元具体用于:
从所述种子超参数组中随机选择待复制的种子超参数组;
对待复制的种子超参数组进行复制。
进一步地,所述参数复制单元具体用:
将所述种子超参数组分别进行复制。
进一步地,所述装置还包括:超参数确定模块。
超参数确定模块,用于所述将确定的至少两组超参数组分别设置于类型和结构相同的至少两个目标学习模型中,并利用训练样本对各目标学习模型进行训练之前,根据目标学习模型的超参数范围,随机确定设定组数的超参数组;或,
根据目标学习模型的超参数范围,按照设定步长,确定设定组数的超参数组。
进一步地,所述超参数传递模块包括:测试单元。
其中,测试单元,用于若目标学习模型的训练满足设定训练暂停条件,则停止对目标学习模型的训练,对训练的各目标学习模型的预测效果进行测试。
本发明实施例所提供的超参数的确定装置可执行本发明任意实施例所提供的超参数的确定方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的一种设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备12的框图。图6显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的超参数的确定方法。
实施例七
本发明实施例七还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的超参数的确定方法,该方法包括:
将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;
对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;
继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种超参数的确定方法,其特征在于,包括:
将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;
对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;
继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
2.根据权利要求1所述的方法,其特征在在于,所述将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型包括:
根据各目标学习模型的预测效果,从各目标学习模型的超参数组中筛选出种子超参数组;
对种子超参数组进行复制,对复制的种子超参数组中的超参数进行扰动;
将经过扰动的种子超参数组设置于非种子超参数组的目标学习模型中,并替换非种子超参数组。
3.根据权利要求2所述的方法,其特征在于,所述根据各目标学习模型的预测效果,从各目标学习模型的超参数组中筛选出种子超参数组,包括:
根据各目标学习模型的预测效果,对各目标学习模型进行排序;
按照排序结果取预测效果位于前设定名次的目标学习模型的超参数组,作为种子超参数组。
4.根据权利要求2所述的方法,其特征在于,所述对种子超参数组进行复制,包括:
从所述种子超参数组中随机选择待复制的种子超参数组;
对待复制的种子超参数组进行复制。
5.根据权利要求2所述的方法,其特征在于,所述对种子超参数组进行复制,包括:
对所述种子超参数组分别进行复制。
6.根据权利要求1-5中任一所述的方法,其特征在于,所述将确定的至少两组超参数组分别设置于类型和结构相同的至少两个目标学习模型中,并利用训练样本对各目标学习模型进行训练之前,还包括:
根据目标学习模型的超参数范围,随机确定设定组数的超参数组;或,
根据目标学习模型的超参数范围,按照设定步长,确定设定组数的超参数组。
7.根据权利要求1所述的方法,其特征在于,所述对训练的各目标学习模型的预测效果进行测试,包括:
若目标学习模型的训练满足设定训练暂停条件,则停止对目标学习模型的训练,对训练的各目标学习模型的预测效果进行测试。
8.一种超参数的确定装置,其特征在于,包括:
模型训练模块,用于将确定的至少两组超参数组分别设置于待训练的基础学习模型中,得到至少两个目标学习模型,并利用训练样本对各目标学习模型进行训练;
超参数传递模块,用于对训练的各目标学习模型的预测效果进行测试,将预测效果满足设定效果要求的目标学习模型的超参数组,传递给预测效果不满足设定效果要求的目标学习模型;
最优超参数确定模块,用于继续对各目标学习模型进行训练,直至各目标学习模型满足设定训练停止条件,停止对各目标学习模型的训练,根据各目标学习模型的预测效果从各目标学习模型设置的超参数组中选择目标超参数组。
9.根据权利要求8所述的装置,其特征在在于,所述超参数传递模块包括:
筛选单元,用于根据各目标学习模型的预测效果,从各目标学习模型的超参数组中筛选出种子超参数组;
随机扰动单元,用于对种子超参数组进行复制,对复制的种子超参数组中的超参数进行扰动;
参数复制单元,用于将经过扰动的种子超参数组设置于非种子超参数组的目标学习模型中,并替换非种子超参数组。
10.根据权利要求9所述的装置,其特征在于,所述筛选单元具体用于:
根据各目标学习模型的预测效果,对各目标学习模型进行排序;
按照排序结果取预测效果位于前设定名次的目标学习模型的超参数组,作为种子超参数组。
11.根据权利要求9所述的装置,其特征在于,所述参数复制单元具体用于:
从所述种子超参数组中随机选择待复制的种子超参数组;
对待复制的种子超参数组进行复制。
12.根据权利要求9所述的装置,其特征在于,所述参数复制单元具体用:
将所述种子超参数组分别进行复制。
13.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的超参数的确定方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的超参数的确定方法。
CN201811180164.1A 2018-10-10 2018-10-10 超参数的确定方法、装置、设备和介质 Pending CN111027579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811180164.1A CN111027579A (zh) 2018-10-10 2018-10-10 超参数的确定方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811180164.1A CN111027579A (zh) 2018-10-10 2018-10-10 超参数的确定方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN111027579A true CN111027579A (zh) 2020-04-17

Family

ID=70192039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811180164.1A Pending CN111027579A (zh) 2018-10-10 2018-10-10 超参数的确定方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111027579A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814965A (zh) * 2020-08-14 2020-10-23 Oppo广东移动通信有限公司 超参数调整方法、装置、设备及存储介质
CN114493379A (zh) * 2022-04-08 2022-05-13 金电联行(北京)信息技术有限公司 基于政务数据的企业评价模型自动生成方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400052A (zh) * 2013-08-22 2013-11-20 武汉大学 一种风电场短期风速组合预测方法
CN106971240A (zh) * 2017-03-16 2017-07-21 河海大学 一种变量选择与高斯过程回归的短期负荷预测方法
CN107240395A (zh) * 2017-06-16 2017-10-10 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN108334439A (zh) * 2018-03-14 2018-07-27 百度在线网络技术(北京)有限公司 一种压力测试方法、装置、设备和存储介质
CN108446534A (zh) * 2018-03-13 2018-08-24 腾讯科技(深圳)有限公司 选择神经网络超参数的方法、装置和计算机可读存储介质
CN108470210A (zh) * 2018-04-02 2018-08-31 中科弘云科技(北京)有限公司 一种深度学习中超参数的优化选取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400052A (zh) * 2013-08-22 2013-11-20 武汉大学 一种风电场短期风速组合预测方法
CN106971240A (zh) * 2017-03-16 2017-07-21 河海大学 一种变量选择与高斯过程回归的短期负荷预测方法
CN107240395A (zh) * 2017-06-16 2017-10-10 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN108446534A (zh) * 2018-03-13 2018-08-24 腾讯科技(深圳)有限公司 选择神经网络超参数的方法、装置和计算机可读存储介质
CN108334439A (zh) * 2018-03-14 2018-07-27 百度在线网络技术(北京)有限公司 一种压力测试方法、装置、设备和存储介质
CN108470210A (zh) * 2018-04-02 2018-08-31 中科弘云科技(北京)有限公司 一种深度学习中超参数的优化选取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814965A (zh) * 2020-08-14 2020-10-23 Oppo广东移动通信有限公司 超参数调整方法、装置、设备及存储介质
CN114493379A (zh) * 2022-04-08 2022-05-13 金电联行(北京)信息技术有限公司 基于政务数据的企业评价模型自动生成方法、装置及系统

Similar Documents

Publication Publication Date Title
US20210209477A1 (en) Anomaly detection using a non-mirrored dimensional-reduction model
US11586811B2 (en) Multi-layer graph-based categorization
TWI433035B (zh) 按比例調整指令間隔以識別用於代表性指令追蹤的收集點
US10789149B2 (en) Duplicate bug report detection using machine learning algorithms and automated feedback incorporation
CN105095230A (zh) 确定目标数据分析应用的性能预测模型的方法及装置
CN107924360A (zh) 计算系统中的诊断框架
US11900243B2 (en) Spiking neural network-based data processing method, computing core circuit, and chip
CN113723618B (zh) 一种shap的优化方法、设备及介质
CN113065013B (zh) 图像标注模型训练和图像标注方法、系统、设备及介质
CN111401940A (zh) 特征预测方法、装置、电子设备及存储介质
CN111027579A (zh) 超参数的确定方法、装置、设备和介质
Chen et al. Auxiliary learning with joint task and data scheduling
US11157920B2 (en) Techniques for instance-specific feature-based cross-document sentiment aggregation
US20220366295A1 (en) Pre-search content recommendations
CN116662527A (zh) 用于生成学习资源的方法及相关产品
CN115329840A (zh) 模型训练方法、故障定位方法、装置及存储介质
US20230350954A1 (en) Systems and methods of filtering topics using parts of speech tagging
Wu et al. Application in Computer Software Testing Based on Artificial Intelligence Technology
US11645510B2 (en) Accelerating neuron computations in artificial neural networks by selecting input data
US11727215B2 (en) Searchable data structure for electronic documents
US20240004912A1 (en) Hierarchical topic model with an interpretable topic hierarchy
US20240061871A1 (en) Systems and methods for ad hoc analysis of text of data records
Jemai et al. Combined partitioning hardware-software algorithms
Su et al. Health Status Assessment for HDDs Based on Bi-LSTM and N-Dimensional Similarity Metric
Yet A Probabilistic Approach for Indirect Elicitation of the Preferences of a Decision Maker

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination