CN113609745A - 一种超参数寻优方法、装置及电子设备和存储介质 - Google Patents

一种超参数寻优方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN113609745A
CN113609745A CN202111156540.5A CN202111156540A CN113609745A CN 113609745 A CN113609745 A CN 113609745A CN 202111156540 A CN202111156540 A CN 202111156540A CN 113609745 A CN113609745 A CN 113609745A
Authority
CN
China
Prior art keywords
hyper
parameter
model
migration network
combinations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111156540.5A
Other languages
English (en)
Inventor
申冲
李峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111156540.5A priority Critical patent/CN113609745A/zh
Publication of CN113609745A publication Critical patent/CN113609745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/25Design optimisation, verification or simulation using particle-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种超参数寻优方法、装置及一种电子设备和计算机可读存储介质,该方法包括:在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练第一模型时的性能指标;利用第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;获取多组第二超参数组合,并利用第二超参数组合训练第二模型,得到每组第二超参数组合对应的性能指标;其中,第一模型和第二模型为相同类型的神经网络模型;利用第二超参数组合和对应的性能指标对中间迁移网络进行微调,得到训练完成的迁移网络;利用训练完成的迁移网络确定第二模型的最优超参数组合。本申请提供的超参数寻优方法,提高了超参数寻优寻优效率。

Description

一种超参数寻优方法、装置及电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种超参数寻优方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
随着大数据、人工智能浪潮的兴起,深度学习技术带来了众多的技术创新与突破。但是,无论传统机器学习模型还是现如今的深度学习模型,都需要大量的超参数调优训练才能实现较高的识别准确率。一般而言,超参数指的是模型训练之前设置值的参数,而不是通过训练得到的参数数据(常被称之为模型权重)。通常情况下,超参数可分为2类,一类定义了模型的结构,如模型的层数、每层卷积核大小和数量等;另一类则定义了模型训练所使用的算法,例如优化器、学习率、迭代次数、激活函数、批大小(BatchSize)等。针对于上述第二类超参,通常情况下,对于一个确定结构的模型,在给定数据集的情况下,选择不同的超参数,使用训练集进行训练之后,会得到不同的模型权重,在验证集上测试也就会产生不同的性能指标。超参数寻优过程,就是指从所有可能的超参组合中选择一组最优的来进行训练,以达到最优的性能指标。
常见的超参数寻优方法有网格搜索、基于模型的序列超参优化,进化算法、粒子群算法等。超参数寻优过程为在线寻优过程,也就是说,针对一个模型,寻优算法每次都要从头开始训练,积累经验,寻优效率较低。
因此,如何提高超参数寻优效率是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种超参数寻优方法、装置及一种电子设备和一种计算机可读存储介质,提高了超参数寻优效率。
为实现上述目的,本申请提供了一种超参数寻优方法,包括:
在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练所述第一模型时的性能指标;
利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;
获取多组第二超参数组合,并利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型;
利用所述第二超参数组合和对应的性能指标对所述中间迁移网络进行微调,得到训练完成的迁移网络;
利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合。
其中,所述构建超参数样本池之后,还包括:
对所述超参数样本池中的样本进行筛选。
其中,对所述超参数样本池中的第一超参数组合进行筛选,包括:
去除所述超参数样本池中重复的第一超参数组合对应的样本;
和/或,统计所述超参数样本池中所有性能指标的变化,去除不收敛的样本;
和/或,统计所述超参数样本池中连续型超参数的概率分布,保留所述连续型超参数为第一目标值的样本;其中,所述连续型超参数为所述第一目标值的概率大于第一预设值;
和/或,统计所述超参数样本池中离散型超参数的离散值的概率分布,去除所述离散型超参数为第二目标值的样本;其中,所述离散型超参数为所述第二目标值的概率小于第二预设值。
其中,还包括:
基于所述超参数样本池确定每个超参数的搜索空间。
其中,所述利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络,包括:
当所述超参数样本池中所述第一超参数组合的数量达到预设值时,利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络。
其中,获取多组第二超参数组合,包括:
在所述超参数样本池中选取多组第二超参数组合,或,在每个超参数的搜索空间中按照每个超参数的概率分布构建多组第二超参数组合。
其中,所述利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合,包括:
S1:初始化粒子群;其中,所述粒子群中的每个粒子代表一组第三超参数组合;
S2:将当前粒子群中的第三超参数组合输入所述训练完成的迁移网络中,得到每组所述第三超参数组合对应的性能指标;
S3:根据每组所述第三超参数组合对应的性能指标更新所述粒子群中粒子的位置和速度;
S4:判断所述训练完成的迁移网络输出的性能指标是否满足预设要求;若是,则输出最优超参数组合,并将所述最优超参数组合输入所述第二模型进行性能指标的评估;若否,则重新进入S2;
重复步骤S1-S4,以生成多组最优参数组合;
统计多组所述最优参数组合和多组所述第二超参数组合在所述第二模型上训练的性能指标,选择性能指标最优的模型。
为实现上述目的,本申请提供了一种超参数寻优装置,包括:
构建模块,用于在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练所述第一模型时的性能指标;
第一训练模块,用于利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;
第二训练模块,用于获取多组第二超参数组合,并利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型;
微调模块,用于利用所述第二超参数组合和对应的性能指标对所述中间迁移网络进行微调,得到训练完成的迁移网络;
确定模块,用于利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述超参数寻优方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述超参数寻优方法的步骤。
通过以上方案可知,本申请提供的一种超参数寻优方法,包括:在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练所述第一模型时的性能指标;利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;获取多组第二超参数组合,并利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型;利用所述第二超参数组合和对应的性能指标对所述中间迁移网络进行微调,得到训练完成的迁移网络;利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合。在本申请中,通过离线训练得到迁移模型,可有效使用大量的已有的超参数寻优实验,并使用神经网络来拟合超参数与指标变化的分布,学习不同超参数组合对指标变化的影响,掌握一定的人工调优经验。经过在线微调迁移网络模型之后,可结合粒子群算法进行超参数寻优,由于使用迁移模型的推理过程来拟合指标变化过程,所有可避免从头进行训练来累计经验,极大的提高超参数寻优速度、准确度,同时又可有效减少算力支出和人工干预。由此可见,本申请提供的超参数寻优方法,在已有模型的超参数调优数据的基础之上,可学到其中的人工调参经验。当需要调优其他模型时,只需要微调一下迁移模型,即可使用该迁移模型进行最优超参数的寻找。这样可以避免每次调优,都需要从头进行训练的情况,同时又可提高寻找最优超参数的速度,有效减少算力、人力成本。本申请还公开了一种超参数寻优装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种超参数寻优方法的流程图;
图2为根据一示例性实施例示出的一种迁移网络的结构图;
图3为根据一示例性实施例示出的一种LSTM网络的结构图;
图4为图1中步骤S105的细化流程图;
图5为根据一示例性实施例示出的一种超参数寻优装置的结构图;
图6为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请的申请人发现,在进行模型训练的人工超参调优时,有许多成熟的调参经验:高学习率有利于加快训练收敛速度,但不利于找到局部/全局最优点;低学习率有利于找到局部最优点,但可能使得模型无法跳出局部最优而无法获取全局最优;自适应学习率往往需要在刚开始训练时设置较大以加快收敛,在训练后期设置较小,以提高性能指标;在隐藏层的激活函数,tanh往往比sigmoid表现更好等。这些调参经验具有普遍性,几乎适用于所有模型的超参调优任务。另外,像自适应学习率,其需要初始学习率、衰减率、衰减因子等多个超参数的共同耦合才起作用,而多个超参数往往需要一定规律的耦合才有助于提高模型的指标,这对于任何模型的超参调优过程都是适用的。由此可见,针对同一类任务,其超参选择存在耦合性,某一模型的超参调优经验,可迁移到同类任务的其他模型的超参调优过程中。
因此,本申请基于迁移学习的特点,结合粒子群算法进行超参数寻优,迁移学习其实就是指在一个通用数据集中训练好模型的基本结构,当将该模型迁移到其他任务时,只需要微调就可以,不必进行从头训练,这可以极大的减少模型的训练时间。对给定任务,记录采用人工方式对第一模型调参的过程,即得到了该任务下N组超参数,及各组超参数所对应的指标变化。将上述记录统一放入一个超参样本池中,经过筛选器,自动筛选出有价值的数据。基于筛选之后的数据,构建一个超参训练集:输入为超参组合,输出为该组超参数所对应的性能指标。据此训练迁移网络模型,该迁移模型能够学到不同的超参数组合对指标变化的影响。当需要进行同一任务的第二模型来进行超参数寻优训练时,可充分利用已有的第一模型的超参数调优经验,加快最优超参数组合的寻找。
本申请实施例公开了一种超参数寻优方法,提高了超参数寻优效率。
参见图1,根据一示例性实施例示出的一种超参数寻优方法的流程图,如图1所示,包括:
S101:在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练所述第一模型时的性能指标;
需要说明的是,本实施例中的超参数为定义模型训练所使用的算法的超参数,例如优化器、学习率、迭代次数、激活函数、批大小(BatchSize)等。在具体实施中,前期人工超参数寻优过程中之所以需要一定人工经验,是因为超参数之间具有耦合性,单一超参数的变化,往往需要相对应的修改其他超参数才能得到最优结果。例如,随着epoch(使用训练集中的全部样本训练一次)数量的增加,学习率应相应的减小等。因此,在本实施例中,构建超参数样本池记录第一模型的超参数寻优过程。
在具体实施中,针对第一模型,记录采用人工方式进行调参的过程,即得到了该任务下N组超参数,及各组超参数所对应的性能指标,包括一次训练中每个batch在验证集上的性能指标,将上述记录通过脚本自动写入超参样本池中。
作为一种优选实施方式,所述构建超参数样本池之后,还包括:对所述超参数样本池中的样本进行筛选。在具体实施中,通过筛选器自动筛选超参样本池,其中,筛选器具体的筛选策略包括但不限于以下策略:
(1)去除所述超参数样本池中重复的第一超参数组合对应的样本:统计所有样本的超参组合,去除超参组合重复的训练记录;
(2)统计所述超参数样本池中所有性能指标的变化,去除不收敛的样本:遍历所有样本指标变化,只有当指标变化是逐渐下降的,且指标波动幅度在预设范围以内的进行保留,预设范围例如10%,其可以用来评价性能指标变化的震荡程度,对于不同任务可自行确定;
(3)统计所述超参数样本池中连续型超参数的概率分布,保留所述连续型超参数为第一目标值的样本;其中,所述连续型超参数为所述第一目标值的概率大于第一预设值。在具体实施中,对于连续型超参数,例如学习率等,统计其概率分布范围,以概率最高值为概率中心,只保留概率大于第一预设值的样本,此处的第一预设值可以灵活设置,例如至包括距离概率中心90%左右的样本;
(4)统计所述超参数样本池中离散型超参数的离散值的概率分布,去除所述离散型超参数为第二目标值的样本;其中,所述离散型超参数为所述第二目标值的概率小于第二预设值。在具体实施中,对于离散型超参数,例如激活函数等,统计其离散值的概率分布,去除概率小于第二预设值的样本,此处的第二预设值例如1/20,对于不同任务可自行确定。
使用筛选器进行样本自动清洗,可以解决人工超参调优缺乏记录,并且记录的样本主观性强,重复度高,无法反映超参和性能之间的真实关系的问题。通过筛选器去除训练时人工调优数据中的脏样本,可有效改善训练样本的数据分布,提高迁移网络的收敛速度。
进一步的,本实施例还包括:基于所述超参数样本池确定每个超参数的搜索空间。在具体实施中,基于超参数样本池中的超参数调优数据,统计所有实验的超参数范围,对于连续型超参数,可以确定上限和下限作为搜索空间,对于离散型超参数,使用离散序列作为其搜索空间。需要说明的是,上述只是列举了一种简单有效的搜索确定方法,还可以自行定义搜索空间的大小,本实施例不进行具体限定。在后续微调过程中,对于一些在超参数在搜索空间之外的样本,可以直接过滤掉。
S102:利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;
在具体实施中,当所述超参数样本池中所述第一超参数组合的数量达到预设值时,利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络。此处不对迁移网络模型的结构进行具体限定,可以包括LSTM(长短期记忆,Long short-termmemory)结构、注意力机制、Transfomer结构、CNN(卷积神经网络,Convolutional NeuralNetwork)等。
如图2所示,以单向双层的LSTM结构为例,输入层x为超参数。对于离散型超参数,使用n维的One-Hot向量作为输入,例如[1,0,0,0,0,0],其中每一维代表一类优化器,而后经过一个n×1全连接层将其量化为一个值。对于连续型超参数,则直接将其输入到模型中。
Norm层为归一化层,类比于自然语言处理中每个字/词具有不同的意义,组合起来的字/词即可表达完整的语义,不同超参数也具有不同的意义,针对具体模型,同一组超参数组合即可在一定程度上确定该模型的指标变化,因此本实施例使用层归一化(LayerNorm)而非Batch Norm。
Emb层为经过嵌入层(Embedding),经过归一化之后的超参数组合,通过Emb层来得到特征向量。在本实施例中,嵌入层使用简单的全连接层来实现,输入为每个超参数,输出维度应建议为8的倍数,以利于GPU加速,例如128,也就是说,针对每一个超参数,使用128维的向量来进行表征。
迁移网络模型的主体使用循环神经网络,其中循环神经网络单元使用LSTM结构如图3所示,其示出了图2中网络结构的中每个R的结构,ft为遗忘门,it为输入门。需要注意的是,只有最后一层LSTM结构的输出才有全连接层。图3中的F为全连接层,使用Sigmoid函数作为激活函数。该主体模型使用单输入多输出模式,输入为Emb层输出的特征矩阵,第一层LSTM网络结构的输出为:
Figure 407003DEST_PATH_IMAGE001
Figure 271054DEST_PATH_IMAGE002
其中,st为epoch为t时的输出向量,Ot为中间变量,Ct为LSTM中的细胞层状态向量,σ为sigmoid激活函数,取值范[0,1],tanh为双曲正切激活函数,取值范围为[-1,1],Wf、Wi、Wc、Wo和b0为参数矩阵,需要进行训练学习。
由于期望迁移网络模型能够对性能指标进行拟合,所以第二层LSTM结构的输出经过全连接层后输出,经过全连接输出的计算公式为:
Figure 960792DEST_PATH_IMAGE003
,其中,Yt为epoch为t时所对应的性能指标。
迁移网络模型的输出为估计的每个epoch在验证集上的性能指标,为让迁移网络模型能够拟合真实的性能指标,使用均方误差作为损失函数进行反向传播,其具体公式如下所示:
Figure 953894DEST_PATH_IMAGE004
其中,n为迁移模型训练时设置的BatchSize大小,m为第二层LSTM单元输出数量,Yt为LSTM单元输出的预估指标,Yreal为实际指标。
S103:获取多组第二超参数组合,并利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型;
在具体实施中,迁移网络模型可以其应用于相同类型的第二模型B的超参调优过程中。在本步骤中,使用第二模型对上述中间迁移网络进行在线微调,首先需要选取m组第二超参进行训练。作为一种可行的实施方式,可以在超参数样本池中选取多组第二超参数组合,即从上述训练迁移网络的训练样本集中随机抽取。作为另一种可行的实施方式,在每个超参数的搜索空间中按照每个超参数的概率分布构建多组第二超参数组合。另外,建议m在可承受最大实验数的1/2左右。其中,可承受最大实验数,由第二模型的大小、算力资源、时间成本确定。假设第二模型的超参调优训练,在显卡上训练一次需要2小时,而我们希望在3天内能找到效果最好的超参组合,则可承受最大实验数量为24×3/2=36。
S104:利用所述第二超参数组合和对应的性能指标对所述中间迁移网络进行微调,得到训练完成的迁移网络;
在本步骤中,利用第二超参数组合和对应的性能指标对中间迁移网络进行微调,并记录/统计每个epoch在验证集上的指标。将m组第二超参数与其对应的性能指标,作为在线数据更新到超参样本池中。
S105:利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合。
在本步骤中,训练完成的迁移网络可以用于第二模型的超参数寻优。
在本申请实施例中,通过离线训练得到迁移模型,可有效使用大量的已有的超参数寻优实验,并使用神经网络来拟合超参数与指标变化的分布,学习不同超参数组合对指标变化的影响,掌握一定的人工调优经验。经过在线微调迁移网络模型之后,可结合粒子群算法进行超参数寻优,由于使用迁移模型的推理过程来拟合指标变化过程,所有可避免从头进行训练来累计经验,极大的提高超参数寻优速度、准确度,同时又可有效减少算力支出和人工干预。由此可见,本申请实施例提供的超参数寻优方法,在已有模型的超参数调优数据的基础之上,可学到其中的人工调参经验。当需要调优其他模型时,只需要微调一下迁移模型,即可使用该迁移模型进行最优超参数的寻找。这样可以避免每次调优,都需要从头进行训练的情况,同时又可提高寻找最优超参数的速度,有效减少算力、人力成本。
本实施例将详细介绍利用训练完成的迁移网络进行第二模型的超参数寻优的过程,具体的,如图4所示,包括:
S51:初始化粒子群;其中,所述粒子群中的每个粒子代表一组第三超参数组合;
在本步骤中,随机初始化粒子群,每个粒子代表一个超参组合。粒子群的规模大小根据可承受的时间来确定。一般情况下,粒子群规模越大,越更容易获得最优参数组合,但是其相应的寻优时间也会更长,计算成本也会更高。
S52:将当前粒子群中的第三超参数组合输入所述训练完成的迁移网络中,得到每组所述第三超参数组合对应的性能指标;
在本步骤中,使用迁移网络模型来代替第二模型进行超参数寻优。将粒子群中的超参组合输入到迁移网络模型中,来进行性能指标的评估。由于此处使用的迁移网络模型的推理过程,而不必从头开始进行新模型的训练,所以可以极大的节约超参数寻优时间。
S53:根据每组所述第三超参数组合对应的性能指标更新所述粒子群中粒子的位置和速度;
在本步骤中,根据迁移网络模型推理得到的各个epoch的性能指标,来更新粒子群中粒子的位置、速度。
S54:判断所述训练完成的迁移网络输出的性能指标是否满足预设要求;若是,则进入S55;若否,则重新进入S52;
S55:输出最优超参数组合,并将所述最优超参数组合输入所述第二模型进行性能指标的评估,并重新进入S51,以生成多组最优参数组合;
在具体实施中,记录寻优过程中各个epoch的性能指标,判断其是否达到预设要求,如果达到,则输出最优参数组合,并输入到第二模型中进行评估;如果未达到指标要求,则将更新后的粒子重新输入到迁移网络模型中进行评估。如此,重复n组即可得到n组最优参数组合。需要说明的是,参数m与参数n之和,为估计的最大可承受实验数量。
S56:统计多组所述最优参数组合和多组所述第二超参数组合在所述第二模型上训练的性能指标,选择性能指标最优的模型。
在本步骤中,统计上一步骤中得到的多组最优参数组合和多组微调过程中的第二超参数组合在第二模型上训练的性能指标,选择性能指标最优的模型。
下面对本申请实施例提供的一种超参数寻优装置进行介绍,下文描述的一种超参数寻优装置与上文描述的一种超参数寻优方法可以相互参照。
参见图5,根据一示例性实施例示出的一种超参数寻优装置的结构图,如图5所示,包括:
构建模块501,用于在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练所述第一模型时的性能指标;
第一训练模块502,用于利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;
第二训练模块503,用于获取多组第二超参数组合,并利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型;
微调模块504,用于利用所述第二超参数组合和对应的性能指标对所述中间迁移网络进行微调,得到训练完成的迁移网络;
确定模块505,用于利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合。
在本申请实施例中,通过离线训练得到迁移模型,可有效使用大量的已有的超参数寻优实验,并使用神经网络来拟合超参数与指标变化的分布,学习不同超参数组合对指标变化的影响,掌握一定的人工调优经验。经过在线微调迁移网络模型之后,可结合粒子群算法进行超参数寻优,由于使用迁移模型的推理过程来拟合指标变化过程,所有可避免从头进行训练来累计经验,极大的提高超参数寻优速度、准确度,同时又可有效减少算力支出和人工干预。由此可见,本申请实施例提供的超参数寻优装置,在已有模型的超参数调优数据的基础之上,可学到其中的人工调参经验。当需要调优其他模型时,只需要微调一下迁移模型,即可使用该迁移模型进行最优超参数的寻找。这样可以避免每次调优,都需要从头进行训练的情况,同时又可提高寻找最优超参数的速度,有效减少算力、人力成本。
在上述实施例的基础上,作为一种优选实施方式,还包括:
筛选模块,用于对所述超参数样本池中的样本进行筛选。
在上述实施例的基础上,作为一种优选实施方式,所述筛选模块包括:
第一去除单元,用于去除所述超参数样本池中重复的第一超参数组合对应的样本;
在上述实施例的基础上,作为一种优选实施方式,所述筛选模块包括:
第二去除单元,用于统计所述超参数样本池中所有性能指标的变化,去除不收敛的样本;
在上述实施例的基础上,作为一种优选实施方式,所述筛选模块包括:
保留单元,用于统计所述超参数样本池中连续型超参数的概率分布,保留所述连续型超参数为第一目标值的样本;其中,所述连续型超参数为所述第一目标值的概率大于第一预设值;
在上述实施例的基础上,作为一种优选实施方式,所述筛选模块包括:
第三去除单元,用于统计所述超参数样本池中离散型超参数的离散值的概率分布,去除所述离散型超参数为第二目标值的样本;其中,所述离散型超参数为所述第二目标值的概率小于第二预设值。
在上述实施例的基础上,作为一种优选实施方式,还包括:
确定搜索空间模块,用于基于所述超参数样本池确定每个超参数的搜索空间。
在上述实施例的基础上,作为一种优选实施方式,所述第一训练模块502具体为当所述超参数样本池中所述第一超参数组合的数量达到预设值时,利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络的模块。
在上述实施例的基础上,作为一种优选实施方式,所述第二训练模块503包括:
获取单元,用于在所述超参数样本池中选取多组第二超参数组合,或,在每个超参数的搜索空间中按照每个超参数的概率分布构建多组第二超参数组合;
训练单元,用于利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块505包括:
初始化单元,用于初始化粒子群;其中,所述粒子群中的每个粒子代表一组第三超参数组合;
输入单元,用于将当前粒子群中的第三超参数组合输入所述训练完成的迁移网络中,得到每组所述第三超参数组合对应的性能指标;
更新单元,用于根据每组所述第三超参数组合对应的性能指标更新所述粒子群中粒子的位置和速度;
判断单元,用于判断所述训练完成的迁移网络输出的性能指标是否满足预设要求;若是,则启动输出单元的工作流程;若否,则重新启动输入单元的工作流程;
输出单元,用于输出最优超参数组合,并将所述最优超参数组合输入所述第二模型进行性能指标的评估,并重新启动初始化单元的工作流程,以生成多组最优参数组合;
选择单元,用于统计多组所述最优参数组合和多组所述第二超参数组合在所述第二模型上训练的性能指标,选择性能指标最优的模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图6为根据一示例性实施例示出的一种电子设备的结构图,如图6所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的超参数寻优方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种超参数寻优方法,其特征在于,包括:
在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练所述第一模型时的性能指标;
利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;
获取多组第二超参数组合,并利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型;
利用所述第二超参数组合和对应的性能指标对所述中间迁移网络进行微调,得到训练完成的迁移网络;
利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合。
2.根据权利要求1所述超参数寻优方法,其特征在于,所述构建超参数样本池之后,还包括:
对所述超参数样本池中的样本进行筛选。
3.根据权利要求2所述超参数寻优方法,其特征在于,对所述超参数样本池中的第一超参数组合进行筛选,包括:
去除所述超参数样本池中重复的第一超参数组合对应的样本;
和/或,统计所述超参数样本池中所有性能指标的变化,去除不收敛的样本;
和/或,统计所述超参数样本池中连续型超参数的概率分布,保留所述连续型超参数为第一目标值的样本;其中,所述连续型超参数为所述第一目标值的概率大于第一预设值;
和/或,统计所述超参数样本池中离散型超参数的离散值的概率分布,去除所述离散型超参数为第二目标值的样本;其中,所述离散型超参数为所述第二目标值的概率小于第二预设值。
4.根据权利要求1所述超参数寻优方法,其特征在于,还包括:
基于所述超参数样本池确定每个超参数的搜索空间。
5.根据权利要求1所述超参数寻优方法,其特征在于,所述利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络,包括:
当所述超参数样本池中所述第一超参数组合的数量达到预设值时,利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络。
6.根据权利要求1所述超参数寻优方法,其特征在于,获取多组第二超参数组合,包括:
在所述超参数样本池中选取多组第二超参数组合,或,在每个超参数的搜索空间中按照每个超参数的概率分布构建多组第二超参数组合。
7.根据权利要求1至6中任一项所述超参数寻优方法,其特征在于,所述利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合,包括:
S1:初始化粒子群;其中,所述粒子群中的每个粒子代表一组第三超参数组合;
S2:将当前粒子群中的第三超参数组合输入所述训练完成的迁移网络中,得到每组所述第三超参数组合对应的性能指标;
S3:根据每组所述第三超参数组合对应的性能指标更新所述粒子群中粒子的位置和速度;
S4:判断所述训练完成的迁移网络输出的性能指标是否满足预设要求;若是,则输出最优超参数组合,并将所述最优超参数组合输入所述第二模型进行性能指标的评估;若否,则重新进入S2;
重复步骤S1-S4,以生成多组最优参数组合;
统计多组所述最优参数组合和多组所述第二超参数组合在所述第二模型上训练的性能指标,选择性能指标最优的模型。
8.一种超参数寻优装置,其特征在于,包括:
构建模块,用于在第一模型的超参数寻优过程中,构建超参数样本池,以记录每组第一超参数组合训练所述第一模型时的性能指标;
第一训练模块,用于利用所述第一超参数组合和对应的性能指标训练迁移网络,得到中间迁移网络;
第二训练模块,用于获取多组第二超参数组合,并利用所述第二超参数组合训练第二模型,得到每组所述第二超参数组合对应的性能指标;其中,所述第一模型和所述第二模型为相同类型的神经网络模型;
微调模块,用于利用所述第二超参数组合和对应的性能指标对所述中间迁移网络进行微调,得到训练完成的迁移网络;
确定模块,用于利用所述训练完成的迁移网络确定所述第二模型的最优超参数组合。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述超参数寻优方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述超参数寻优方法的步骤。
CN202111156540.5A 2021-09-30 2021-09-30 一种超参数寻优方法、装置及电子设备和存储介质 Pending CN113609745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111156540.5A CN113609745A (zh) 2021-09-30 2021-09-30 一种超参数寻优方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111156540.5A CN113609745A (zh) 2021-09-30 2021-09-30 一种超参数寻优方法、装置及电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113609745A true CN113609745A (zh) 2021-11-05

Family

ID=78343277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111156540.5A Pending CN113609745A (zh) 2021-09-30 2021-09-30 一种超参数寻优方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113609745A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933896A (zh) * 2023-09-15 2023-10-24 上海燧原智能科技有限公司 一种超参数确定及语义转换方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933896A (zh) * 2023-09-15 2023-10-24 上海燧原智能科技有限公司 一种超参数确定及语义转换方法、装置、设备及介质
CN116933896B (zh) * 2023-09-15 2023-12-15 上海燧原智能科技有限公司 一种超参数确定及语义转换方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107679859B (zh) 一种基于迁移深度学习的风险识别方法以及系统
US11494689B2 (en) Method and device for improved classification
CN109325516B (zh) 一种面向图像分类的集成学习方法及装置
Passricha et al. PSO-based optimized CNN for Hindi ASR
CN111178486B (zh) 一种基于种群演化的超参数异步并行搜索方法
US20220156508A1 (en) Method For Automatically Designing Efficient Hardware-Aware Neural Networks For Visual Recognition Using Knowledge Distillation
JP6827911B2 (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
Mohammadi et al. Infinite impulse response systems modeling by artificial intelligent optimization methods
CN112861936A (zh) 一种基于图神经网络知识蒸馏的图节点分类方法及装置
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
EP1295252B1 (en) Apparatus for generating sequences of elements
CN115543762A (zh) 一种磁盘smart数据扩充方法、系统及电子设备
CN113609745A (zh) 一种超参数寻优方法、装置及电子设备和存储介质
US20220076121A1 (en) Method and apparatus with neural architecture search based on hardware performance
US12026624B2 (en) System and method for loss function metalearning for faster, more accurate training, and smaller datasets
US12033658B2 (en) Acoustic model learning apparatus, acoustic model learning method, and program
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
WO2019194128A1 (ja) モデル学習装置、モデル学習方法、プログラム
CN110808036A (zh) 一种增量式语音命令词识别方法
JP7438544B2 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
Hulley et al. Genetic algorithm based incremental learning for optimal weight and classifier selection
CN118228948B (zh) 基于深度学习与数学物理模型的机组组合决策方法及系统
US20220405599A1 (en) Automated design of architectures of artificial neural networks
US20240233357A1 (en) Learning apparatus and learning method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211105