CN114118414A - 一种基于稀疏响应面的深度学习算法超参数优化方法 - Google Patents

一种基于稀疏响应面的深度学习算法超参数优化方法 Download PDF

Info

Publication number
CN114118414A
CN114118414A CN202111446965.XA CN202111446965A CN114118414A CN 114118414 A CN114118414 A CN 114118414A CN 202111446965 A CN202111446965 A CN 202111446965A CN 114118414 A CN114118414 A CN 114118414A
Authority
CN
China
Prior art keywords
hyper
response surface
parameter
learning algorithm
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111446965.XA
Other languages
English (en)
Inventor
林景亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ocean University
Original Assignee
Guangdong Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ocean University filed Critical Guangdong Ocean University
Priority to CN202111446965.XA priority Critical patent/CN114118414A/zh
Publication of CN114118414A publication Critical patent/CN114118414A/zh
Priority to PCT/CN2022/099553 priority patent/WO2022199719A1/zh
Priority to ZA2022/07913A priority patent/ZA202207913B/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明针对现有技术的局限性,提出了一种基于稀疏响应面的深度学习算法超参数优化方法,该方法利用了高稀疏响应面来逼近深度学习算法超参数配置与深度神经网络识别精度的高维非线性映射关系;其总体优化效率更高,在构造超参数配置与深度神经网络识别精度的高维非线性映射关系响应面的过程中,需要评估的超参数配置的数量更少;在开发更有可能进一步提升深度神经网络识别精度的超参数配置过程中,兼顾了全局“勘探”和局部“开采”;对开发的超参数配置进一步筛选,减少了评估超参数配置性能过程中训练神经网络所需的迭代资源;在同样的迭代资源下,利用本发明优化选择的超参数配置所训练构造出的神经网络模型的识别精度更高。

Description

一种基于稀疏响应面的深度学习算法超参数优化方法
技术领域
本发明涉及深度学习技术领域,具体涉及深度学习算法超参数优化技术,更具体地,涉及一种基于稀疏响应面的深度学习算法超参数优化方法。
背景技术
深度学习是近年来被广泛关注的技术,其克服了深度神经网络难以有效训练的难题,使其能以足够深度和宽度的网络,以及大量训练数据,获取了准确表征数据中隐含的特征。目前,深度学习技术已经被广泛应用于图像识别、语音识别等领域,达到了与人脑媲美甚至某方面超越人脑的识别能力。然而,在训练神经网络之前,深度学习算法有很多超参数需预先设置,例如神经网络的隐藏层数量、隐藏层神经元数量、核大小、训练数据批量大小、训练图像分辨率、学习率、正则化因子、激活函数等。由于这些超参数的组合(即超参数配置)会影响神经网络最终的识别能力,而且人为调整选择合适的超参数配置比较耗时。因此,通过优化方法高效获取最优超参数配置至关重要。
如公开日为2020.08.25的中国发明申请:超参数搜索方法、装置、设备以及存储介质所示,利用搜索算法来获取超参数配置已经成为本领域的主流;而现有的深度学习算法超参数优化方法大致可分成三类:
第一类:直接搜索方法,如网格搜索、随机搜索和Hyperband等。此类方法是在给定搜索空间中选择超参数配置,然后按顺序验证每组超参数配置对应的深度神经网络的识别精度(即验证集上的识别精度),最后根据精度选出其中最佳。直接搜索方法具有使用简单、直观性强的优点,但无法保证获得最优配置。对于网格搜索,其优化结果依赖于对搜索空间划分的精细程度,但由于深度学习算法的超参数通常较多,配置数量随划分指数倍增长,验证所有的配置显得不太可能,因此难以获取最优配置;对于随机搜索和Hyperband,其优化结果依赖于随机产生的配置中是否包含最优配置,因此也无法保证获取最优配置。
第二类:基于响应面的优化方法,如贝叶斯优化(BO)、序列模型方法等。此类方法首先随机产生少量超参数配置并计算其对应的识别精度,然后利用响应面逼近超参数配置与识别精度之间的映射关系,最后将响应面作为先验,进一步开发新的超参数配置来提升识别精度。与网格搜索、随机搜索相比,通常具有更高的优化效率,且理论上能够获得全局最优。但是,以贝叶斯优化为代表的响应面优化方法通常需要计算方差、协方差等复杂统计量,算法比较耗时,对于高维优化问题效率低,且优化过程中的结果往往不如Hyperband。
第三类:混合优化方法,例如BOHB,即贝叶斯优化(BO)和Hyperband的组合。该方法一般是将第一类方法和第二类方法结合,旨在充分利用两者的优点。BOHB方法综合了BO和Hyperband的优点,利用BO替代Hyperband中的随机搜索部分,提升了Hyperband获得最优配置的概率。但是,BO对于高维问题计算量大的缺点依然存在,导致BOHB的总体优化效率仍有待进一步提高。
发明内容
针对现有技术的局限,本发明提出一种基于稀疏响应面的深度学习算法超参数优化方法,本发明采用的技术方案是:
一种基于稀疏响应面的深度学习算法超参数优化方法,包括以下步骤:
S1,从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置;分别根据步骤S1的采样结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;将步骤S1的采样结果以及对应的模型识别精度作为响应面构造数据集;
S2,根据所述响应面构造数据集,构造出反映超参数配置与模型识别精度映射关系的高稀疏响应面;
S3,根据所述高稀疏响应面,重新从超参数搜索空间中采样待优化深度学习算法的超参数配置;
S4,对本轮迭代中所述步骤S3的采样结果进行筛选;分别根据本轮迭代中步骤S4的筛选结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;
S5,判断预设的迭代资源是否已经耗尽:
若未耗尽,则将本轮迭代中步骤S4的筛选结果以及对应的模型识别精度合并到所述响应面构造数据集中,返回所述步骤S2进行下一轮迭代;
若已耗尽,则将当前已获得的模型识别精度最高的超参数配置作为待优化深度学习算法的超参数优化结果。
相较于现有技术,本发明利用了高稀疏响应面来逼近深度学习算法超参数配置与深度神经网络识别精度的高维非线性映射关系;其总体优化效率更高,在构造超参数配置与深度神经网络识别精度的高维非线性映射关系响应面的过程中,需要评估的超参数配置的数量更少;在开发更有可能进一步提升深度神经网络识别精度的超参数配置过程中,兼顾了全局“勘探”和局部“开采”;对开发的超参数配置进一步筛选,减少了评估超参数配置性能过程中训练神经网络所需的迭代资源;在同样的迭代资源下,利用本发明优化选择的超参数配置所训练构造出的神经网络模型的识别精度更高。
作为一种优选方案,所述步骤S2通过以下方式构造所述高稀疏响应面:
构建待求解的高稀疏响应面
Figure BDA0003384170360000031
Figure BDA0003384170360000032
其中,混合字典D为基函数
Figure BDA0003384170360000033
的矩阵形式,D=[Φ,Ψ],Φ为Legendre函数组成的子字典,Ψ为Gaussian函数组成的子字典;
Figure BDA0003384170360000034
x为n组超参数配置的向量表示,x=[x(10,…,x(n)]T
f为模型识别精度的向量表示,f=[f(x(1)),…,f(x(n))]T
θ是所述基函数
Figure BDA0003384170360000035
对应的系数{θi}i=1,2,…Nb的向量形式,θ=[α;β],α和β分别为Φ和Ψ的系数向量;
根据所述响应面构造数据集,按以下公式求解系数θ,完成稀疏响应面
Figure BDA0003384170360000036
的构造:
Figure BDA0003384170360000037
其中,
Figure BDA0003384170360000038
Figure BDA0003384170360000039
的共轭梯度解,
Figure BDA00033841703600000310
Figure BDA00033841703600000311
s0为未知系数向量的初始值,ε为误差值;p=1/2,ε=1e-3
进一步的,所述步骤S2通过以下方式求解系数θ:
利用奇异值分解方法将所述混合字典D分解为U和Λ,计算
Figure BDA00033841703600000312
Figure BDA00033841703600000313
根据所述响应面构造数据集,将θ初始化为θ0,将
Figure BDA00033841703600000314
初始化为
Figure BDA00033841703600000315
并令k=0;
重复以下步骤直至θ收敛:计算
Figure BDA00033841703600000316
按以下公式更新θ后令k=k+1:
Figure BDA0003384170360000041
更进一步的,在所述步骤S2求解系数θ的过程中,所述θ0
Figure BDA0003384170360000042
通过将所述响应面构造数据集划分为高稀疏响应面的训练集和验证集后利用K-Flod方法进行交叉验证获得。
作为一种优选方案,所述步骤S3中包括以下过程:
从所述超参数搜索空间中产生N个候选超参数配置,并计算各候选超参数配置在所述高稀疏响应面上的值
Figure BDA0003384170360000043
通过等式
Figure BDA0003384170360000044
Figure BDA0003384170360000045
转化为g(x);
根据各候选超参数配置的g(x)值对所述候选超参数配置进行降序排列,划分为K个轮廓
Figure BDA0003384170360000046
Figure BDA0003384170360000047
其中,u=N/K为整数,第一个轮廓
Figure BDA0003384170360000048
包含u个g(x)值最大的候选超参数配置,最后一个轮廓
Figure BDA0003384170360000049
包含u个g(x)值最小的候选配置;
按以下公式计算各轮廓
Figure BDA00033841703600000410
内g(x)的平均值
Figure BDA00033841703600000411
Figure BDA00033841703600000412
按以下公式计算
Figure BDA00033841703600000413
的累积分布
Figure BDA00033841703600000414
Figure BDA00033841703600000415
根据预设的权重因子r,按照
Figure BDA00033841703600000416
Figure BDA00033841703600000417
转化为
Figure BDA00033841703600000418
Figure BDA00033841703600000419
作为概率对
Figure BDA00033841703600000420
进行抽样,对被抽到的
Figure BDA00033841703600000421
内的u个候选超参数配置进行采样,作为所述步骤S3的采样结果。
进一步的,在所述步骤S1从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置,在所述步骤S3从所述超参数搜索空间中产生N个候选超参数配置以及对被抽到的
Figure BDA00033841703600000422
内的u个候选超参数配置进行采样的过程,均采用均匀随机采样方法实现。
作为一种优选方案,在所述步骤S4对本轮迭代中所述步骤S3的采样结果进行筛选的过程采用Hyperband方法实现。
本发明还提供以下内容:
一种基于稀疏响应面的深度学习算法超参数优化系统,包括响应面构造数据集获取模块、高稀疏响应面构造模块、迭代采样模块、迭代筛选模块以及迭代判断模块;所述响应面构造数据集获取模块连接所述高稀疏响应面构造模块;所述高稀疏响应面构造模块连接所述迭代采样模块以及迭代判断模块;所述迭代采样模块连接所述迭代筛选模块;所述迭代筛选模块连接所述迭代判断模块;其中:
所述响应面构造数据集获取模块用于从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置;分别根据所述响应面构造数据集获取模块的采样结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;将所述响应面构造数据集获取模块的采样结果以及对应的模型识别精度作为响应面构造数据集;
所述高稀疏响应面构造模块用于根据所述响应面构造数据集,构造出反映超参数配置与模型识别精度映射关系的高稀疏响应面;
所述迭代采样模块用于根据所述高稀疏响应面,重新从超参数搜索空间中采样待优化深度学习算法的超参数配置;
所述迭代筛选模块用于对本轮迭代中所述迭代采样模块的采样结果进行筛选;分别根据本轮迭代中所述迭代筛选模块的筛选结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;
所述迭代判断模块用于判断预设的迭代资源是否已经耗尽:
若未耗尽,则将本轮迭代中所述迭代筛选模块的筛选结果以及对应的模型识别精度合并到所述响应面构造数据集中,返回所述高稀疏响应面构造模块进行下一轮迭代;
若已耗尽,则将当前已获得的模型识别精度最高的超参数配置作为待优化深度学习算法的超参数优化结果。
一种介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述的基于稀疏响应面的深度学习算法超参数优化方法的步骤。
一种计算机设备,包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述基于稀疏响应面的深度学习算法超参数优化方法的步骤。
附图说明
图1为本发明实施例1提供的基于稀疏响应面的深度学习算法超参数优化方法的步骤示意图;
图2为本发明实施例1中高稀疏响应面构造过程的原理示意图;
图3为本发明实施例1中基于稀疏响应面的随机离散蒙特卡洛采样的流程示意图;
图4为本发明实施例1中利用Hyperband筛选超参数配置的流程示意图;
图5本发明实施例2提供的基于稀疏响应面的深度学习算法超参数优化系统示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。
为了解决现有技术的局限性,本实施例提供了一种技术方案,下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
请参考图1,一种基于稀疏响应面的深度学习算法超参数优化方法,包括以下步骤:
S1,从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置;分别根据步骤S1的采样结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;将步骤S1的采样结果以及对应的模型识别精度作为响应面构造数据集;
S2,根据所述响应面构造数据集,构造出反映超参数配置与模型识别精度映射关系的高稀疏响应面;
S3,根据所述高稀疏响应面,重新从超参数搜索空间中采样待优化深度学习算法的超参数配置;
S4,对本轮迭代中所述步骤S3的采样结果进行筛选;分别根据本轮迭代中步骤S4的筛选结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;
S5,判断预设的迭代资源是否已经耗尽:
若未耗尽,则将本轮迭代中步骤S4的筛选结果以及对应的模型识别精度合并到所述响应面构造数据集中,返回所述步骤S2进行下一轮迭代;
若已耗尽,则将当前已获得的模型识别精度最高的超参数配置作为待优化深度学习算法的超参数优化结果。
相较于现有技术,本发明利用了高稀疏响应面来逼近深度学习算法超参数配置与深度神经网络识别精度的高维非线性映射关系;其总体优化效率更高,在构造超参数配置与深度神经网络识别精度的高维非线性映射关系响应面的过程中,需要评估的超参数配置的数量更少;在开发更有可能进一步提升深度神经网络识别精度的超参数配置过程中,兼顾了全局“勘探”和局部“开采”;对开发的超参数配置进一步筛选,减少了评估超参数配置性能过程中训练神经网络所需的迭代资源;在同样的迭代资源下,利用本发明优化选择的超参数配置所训练构造出的神经网络模型的识别精度更高。
具体的,在上述步骤开始前,可以预先设置迭代资源nT×R,其中R是训练目标深度神经网络收敛所需要的最大迭代次数,nT是一个正整数。
而对于超参数搜索空间Ωm=[xL,xU]m,m是待优化深度学习算法超参数的维度,xL是搜索空间的下限,xU是搜索空间的上限;
在步骤S1中,可以采用均匀随机采样(UD)方法从超参数搜索空间Ωm产生
Figure BDA0003384170360000081
组超参数配置x(k),k=1,2,…,n:
x=[x(1),…,x(n)]T,
其中,x是n组超参数配置的向量表示;
在本实施例获取超参数配置对应的模型识别精度时,可以通过以下方式实现:初始化目标深度神经网络的参数(例如连接权重和偏置),分配迭代资源R并利用梯度下降算法(例如Adam)训练目标深度神经网络,然后计算目标深度神经网络收敛时其验证集的识别精度f(x)。n组超参数配置对应的识别精度的向量表示为:
f=[f(x(1)),…,f(x(n))]T
本实施例用验证损失f来代表模型识别精度,验证损失越小表示模型识别精度越高。
在一种优选实施例中,请参阅图2,所述步骤S2通过以下方式构造所述高稀疏响应面:
构建待求解的高稀疏响应面
Figure BDA0003384170360000082
Figure BDA0003384170360000083
其中,混合字典D为基函数
Figure BDA0003384170360000084
的矩阵形式,D=[Φ,Ψ],Φ为Legendre函数组成的子字典,Ψ为Gaussian函数组成的子字典;
Figure BDA0003384170360000085
θ是所述基函数
Figure BDA0003384170360000086
对应的系数{θi}i=1,,…的向量形式,θ=[α;β],α和β分别为Φ和Ψ的系数向量;
根据所述响应面构造数据集,按以下公式求解系数θ,完成稀疏响应面
Figure BDA0003384170360000087
的构造:
Figure BDA0003384170360000091
其中,
Figure BDA0003384170360000092
Figure BDA0003384170360000093
的共轭梯度解,
Figure BDA0003384170360000094
Figure BDA0003384170360000095
s0为未知系数向量的初始值,ε为误差值;p=1/2,ε=1e-3
具体的,所述步骤S2中可以采用CG-FOCUSS算法来求解系数θ;包括以下内容:
利用奇异值分解方法将所述混合字典D分解为U和Λ,计算
Figure BDA0003384170360000096
Figure BDA0003384170360000097
根据所述响应面构造数据集,将θ初始化为θ0,将
Figure BDA0003384170360000098
初始化为
Figure BDA0003384170360000099
并令k=0;
重复以下步骤直至θ收敛:计算
Figure BDA00033841703600000910
按以下公式更新θ后令k=k+1:
Figure BDA00033841703600000911
CG-FOCUSS是一种迭代算法,其最终得到的θ受随机产生的初值θ0
Figure BDA00033841703600000912
影响;因此,更具体的,为了提高响应面精度,在所述步骤S2求解系数θ的过程中,所述θ0
Figure BDA00033841703600000913
通过将所述响应面构造数据集划分为高稀疏响应面的训练集和验证集后利用K-Flod方法进行交叉验证获得。另外,为了提高计算效率,超参数的搜索空间、Legendre函数的系数、Gaussian函数的系数都被归一化到0和1之间。
作为一种优选实施例,请参阅图3,所述步骤S3采用随机离散蒙特卡洛采样算法进行,包括以下过程:
从所述超参数搜索空间中产生N个候选超参数配置,并计算各候选超参数配置在所述高稀疏响应面上的值
Figure BDA00033841703600000914
通过等式
Figure BDA00033841703600000915
Figure BDA00033841703600000916
转化为g(x);
根据各候选超参数配置的g(x)值对所述候选超参数配置进行降序排列,划分为K个轮廓
Figure BDA00033841703600000917
Figure BDA00033841703600000918
其中,u=N/K为整数,第一个轮廓
Figure BDA00033841703600000919
包含u个g(x)值最大的候选超参数配置,最后一个轮廓
Figure BDA00033841703600000920
包含u个g(x)值最小的候选配置;
按以下公式计算各轮廓
Figure BDA0003384170360000101
内g(x)的平均值
Figure BDA0003384170360000102
Figure BDA0003384170360000103
按以下公式计算
Figure BDA0003384170360000104
的累积分布
Figure BDA0003384170360000105
Figure BDA0003384170360000106
根据预设的权重因子r,按照
Figure BDA0003384170360000107
Figure BDA0003384170360000108
转化为
Figure BDA0003384170360000109
Figure BDA00033841703600001010
作为概率对
Figure BDA00033841703600001011
进行抽样,对被抽到的
Figure BDA00033841703600001012
内的u个候选超参数配置进行采样,作为所述步骤S3的采样结果。
具体的,在所述步骤S1从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置,在所述步骤S3从所述超参数搜索空间中产生N个候选超参数配置以及对被抽到的
Figure BDA00033841703600001013
内的u个候选超参数配置进行采样的过程,均采用均匀随机采样方法实现。
特别的,在所述步骤S3从所述超参数搜索空间中产生N个候选超参数配置以及对被抽到的
Figure BDA00033841703600001014
内的u个候选超参数配置进行采样的过程,具体为:假设要从N个候选超参数配置中抽样M个配置,则首先随机产生M个数st,st∈[0,1];当
Figure BDA00033841703600001015
则对应的第l个轮廓将被选中,然后在轮廓中随机选择一个配置;当某个轮廓被选中el>0次,则将有el个配置从
Figure BDA00033841703600001016
中产生。
通过这种方式,候选超参数配置的g(x)值被转换为其所在轮廓被抽到的概率
Figure BDA00033841703600001017
同时,在这个轮廓内的点被抽到的概率为
Figure BDA00033841703600001018
由于g(x)值大的配置所在的轮廓的
Figure BDA00033841703600001019
值亦大,假设响应面对超参数配置和识别精度映射关系的表征是准确的,则识别精度高的配置有更大的概率被采样。因为每个候选超参数配置被采样的概率
Figure BDA00033841703600001020
大于零,使得超参数搜索空间中所有配置都有可能被采样,从而避免陷入局部最优。此外,可以通过权重因子r改变
Figure BDA00033841703600001021
的值来权衡全局采样和局部采样。
作为一种优选实施例,在所述步骤S4对本轮迭代中所述步骤S3的采样结果进行筛选的过程采用Hyperband方法实现。请参阅图4,具体过程如下:
给定筛选过程中超参数配置的最大迭代资源R和下采样系数η,通常设为3或者4;计算下采样框架数量
Figure BDA00033841703600001022
和框架内总的资源B=(smax+1)R;对于任意一个框架s∈{smax,smax-1,…,0},执行:
Step1:计算所述步骤S3采样的超参数配置的数量
Figure BDA00033841703600001023
以及每个配置的初始迭代资源r=Rη-s
Step2:利用所述步骤S3采样M个超参数配置(这里利用所述步骤S3替代了原始Hyperband中利用随机搜索获取M个配置的部分),并将其有保存在
Figure BDA0003384170360000111
中;
Step3:对于任意i∈{0,...,s},执行以下筛选过程:
(1)初始化Mi=[Mη-i],以及迭代资源ri=rηi
(2)对于每组超参数配置
Figure BDA0003384170360000112
初始化目标深度神经网络参数,输入训练数据和验证数据,利用ri迭代资源训练网络并计算其验证损失f(x);
(3)对所有
Figure BDA0003384170360000113
中的配置获得的验证损失按升序排序,损失越小表示超参数配置越好;
(4)仅将最好的
Figure BDA0003384170360000114
个配置保留在
Figure BDA0003384170360000115
中。
然后将所有获得迭代资源为R的配置保存在
Figure BDA0003384170360000116
中作为所述步骤S4的筛选结果。
实施例2
一种基于稀疏响应面的深度学习算法超参数优化系统,请参阅图5,包括响应面构造数据集获取模块1、高稀疏响应面构造模块2、迭代采样模块3、迭代筛选模块4以及迭代判断模块5;所述响应面构造数据集获取模块1连接所述高稀疏响应面构造模块2;所述高稀疏响应面构造模块2连接所述迭代采样模块3以及迭代判断模块5;所述迭代采样模块3连接所述迭代筛选模块4;所述迭代筛选模块4连接所述迭代判断模块5;其中:
所述响应面构造数据集获取模块1用于从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置;分别根据所述响应面构造数据集获取模块1的采样结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;将所述响应面构造数据集获取模块1的采样结果以及对应的模型识别精度作为响应面构造数据集;
所述高稀疏响应面构造模块2用于根据所述响应面构造数据集,构造出反映超参数配置与模型识别精度映射关系的高稀疏响应面;
所述迭代采样模块3用于根据所述高稀疏响应面,重新从超参数搜索空间中采样待优化深度学习算法的超参数配置;
所述迭代筛选模块4用于对本轮迭代中所述迭代采样模块3的采样结果进行筛选;分别根据本轮迭代中所述迭代筛选模块4的筛选结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;
所述迭代判断模块5用于判断预设的迭代资源是否已经耗尽:
若未耗尽,则将本轮迭代中所述迭代筛选模块4的筛选结果以及对应的模型识别精度合并到所述响应面构造数据集中,返回所述高稀疏响应面构造模块2进行下一轮迭代;
若已耗尽,则将当前已获得的模型识别精度最高的超参数配置作为待优化深度学习算法的超参数优化结果。
实施例3
一种介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现实施例1中的基于稀疏响应面的深度学习算法超参数优化方法的步骤。
实施例4
一种计算机设备,包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现实施例1中的基于稀疏响应面的深度学习算法超参数优化方法的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于稀疏响应面的深度学习算法超参数优化方法,其特征在于,包括以下步骤:
S1,从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置;分别根据步骤S1的采样结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;将步骤S1的采样结果以及对应的模型识别精度作为响应面构造数据集;
S2,根据所述响应面构造数据集,构造出反映超参数配置与模型识别精度映射关系的高稀疏响应面;
S3,根据所述高稀疏响应面,重新从超参数搜索空间中采样待优化深度学习算法的超参数配置;
S4,对本轮迭代中所述步骤S3的采样结果进行筛选;分别根据本轮迭代中步骤S4的筛选结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;
S5,判断预设的迭代资源是否已经耗尽:
若未耗尽,则将本轮迭代中步骤S4的筛选结果以及对应的模型识别精度合并到所述响应面构造数据集中,返回所述步骤S2进行下一轮迭代;
若已耗尽,则将当前已获得的模型识别精度最高的超参数配置作为待优化深度学习算法的超参数优化结果。
2.根据权利要求1所述的基于稀疏响应面的深度学习算法超参数优化方法,其特征在于,所述步骤S2通过以下方式构造所述高稀疏响应面:
构建待求解的高稀疏响应面
Figure FDA0003384170350000011
Figure FDA0003384170350000012
其中,混合字典D为基函数
Figure FDA0003384170350000013
的矩阵形式,D=[Φ,Ψ],Φ为Legendre函数组成的子字典,Ψ为Gaussian函数组成的子字典;
Figure FDA0003384170350000014
x为n组超参数配置的向量表示,x=[x(1),…,x(n)]T
f为模型识别精度的向量表示,f=[f(x(1)),…,f(x(n))]T
θ是所述基函数
Figure FDA0003384170350000015
对应的系数{θi}i=1,2,…Nb的向量形式,θ=[α;β],α和β分别为Φ和Ψ的系数向量;
根据所述响应面构造数据集,按以下公式求解系数θ,完成稀疏响应面
Figure FDA00033841703500000222
的构造:
Figure FDA0003384170350000021
其中,
Figure FDA0003384170350000022
Figure FDA0003384170350000023
的共轭梯度解,
Figure FDA0003384170350000024
Figure FDA0003384170350000025
Π(θ)=diag(|θ1|p-2,...,|θn|p-2),s0为未知系数向量的初始值,ε为误差值;p=1/2,ε=1e-3
3.根据权利要求2所述的基于稀疏响应面的深度学习算法超参数优化方法,其特征在于,所述步骤S2通过以下方式求解系数θ:
利用奇异值分解方法将所述混合字典D分解为U和A,计算
Figure FDA0003384170350000026
Figure FDA0003384170350000027
根据所述响应面构造数据集,将θ初始化为θ0,将
Figure FDA0003384170350000028
初始化为
Figure FDA0003384170350000029
并令k=0;
重复以下步骤直至θ收敛:计算
Figure FDA00033841703500000210
按以下公式更新θ后令k=k+1:
Figure FDA00033841703500000211
4.根据权利要求3所述的基于稀疏响应面的深度学习算法超参数优化方法,其特征在于,在所述步骤S2求解系数θ的过程中,所述θ0
Figure FDA00033841703500000212
通过将所述响应面构造数据集划分为高稀疏响应面的训练集和验证集后利用K-Flod方法进行交叉验证获得。
5.根据权利要求1所述的基于稀疏响应面的深度学习算法超参数优化方法,其特征在于,所述步骤S3中包括以下过程:
从所述超参数搜索空间中产生N个候选超参数配置,并计算各候选超参数配置在所述高稀疏响应面上的值
Figure FDA00033841703500000213
通过等式
Figure FDA00033841703500000214
Figure FDA00033841703500000215
转化为g(x);
根据各候选超参数配置的g(x)值对所述候选超参数配置进行降序排列,划分为K个轮廓
Figure FDA00033841703500000216
Figure FDA00033841703500000217
其中,u=N/K为整数,第一个轮廓
Figure FDA00033841703500000218
包含u个g(x)值最大的候选超参数配置,最后一个轮廓
Figure FDA00033841703500000219
包含u个g(x)值最小的候选配置;
按以下公式计算各轮扇
Figure FDA00033841703500000220
内g(x)的平均值
Figure FDA00033841703500000221
Figure FDA0003384170350000031
按以下公式计算
Figure FDA0003384170350000032
的累积分布
Figure FDA0003384170350000033
Figure FDA0003384170350000034
根据预设的权重因子r,按照
Figure FDA0003384170350000035
Figure FDA0003384170350000036
转化为
Figure FDA0003384170350000037
Figure FDA0003384170350000038
作为概率对
Figure FDA0003384170350000039
进行抽样,对被抽到的
Figure FDA00033841703500000310
内的u个候选超参数配置进行采样,作为所述步骤S3的采样结果。
6.根据权利要求5所述的基于稀疏响应面的深度学习算法超参数优化方法,其特征在于,在所述步骤S1从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置,在所述步骤S3从所述超参数搜索空间中产生N个候选超参数配置以及对被抽到的
Figure FDA00033841703500000311
内的u个候选超参数配置进行采样的过程,均采用均匀随机采样方法实现。
7.根据权利要求1所述的基于稀疏响应面的深度学习算法超参数优化方法,其特征在于,在所述步骤S4对本轮迭代中所述步骤S3的采样结果进行筛选的过程采用Hyperband方法实现。
8.一种基于稀疏响应面的深度学习算法超参数优化系统,其特征在于,包括响应面构造数据集获取模块(1)、高稀疏响应面构造模块(2)、迭代采样模块(3)、迭代筛选模块(4)以及迭代判断模块(5);所述响应面构造数据集获取模块(1)连接所述高稀疏响应面构造模块(2);所述高稀疏响应面构造模块(2)连接所述迭代采样模块(3)以及迭代判断模块(5);所述迭代采样模块(3)连接所述迭代筛选模块(4);所述迭代筛选模块(4)连接所述迭代判断模块(5);其中:
所述响应面构造数据集获取模块(1)用于从预设的超参数搜索空间中采样待优化深度学习算法的超参数配置;分别根据所述响应面构造数据集获取模块(1)的采样结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;将所述响应面构造数据集获取模块(1)的采样结果以及对应的模型识别精度作为响应面构造数据集;
所述高稀疏响应面构造模块(2)用于根据所述响应面构造数据集,构造出反映超参数配置与模型识别精度映射关系的高稀疏响应面;
所述迭代采样模块(3)用于根据所述高稀疏响应面,重新从超参数搜索空间中采样待优化深度学习算法的超参数配置;
所述迭代筛选模块(4)用于对本轮迭代中所述迭代采样模块(3)的采样结果进行筛选;分别根据本轮迭代中所述迭代筛选模块(4)的筛选结果对目标深度神经网络进行训练以及验证,得到对应的模型识别精度;
所述迭代判断模块(5)用于判断预设的迭代资源是否已经耗尽:
若未耗尽,则将本轮迭代中所述迭代筛选模块(4)的筛选结果以及对应的模型识别精度合并到所述响应面构造数据集中,返回所述高稀疏响应面构造模块(2)进行下一轮迭代;
若已耗尽,则将当前已获得的模型识别精度最高的超参数配置作为待优化深度学习算法的超参数优化结果。
9.一种介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于稀疏响应面的深度学习算法超参数优化方法的步骤。
10.一种计算机设备,其特征在于:包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于稀疏响应面的深度学习算法超参数优化方法的步骤。
CN202111446965.XA 2021-11-30 2021-11-30 一种基于稀疏响应面的深度学习算法超参数优化方法 Pending CN114118414A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111446965.XA CN114118414A (zh) 2021-11-30 2021-11-30 一种基于稀疏响应面的深度学习算法超参数优化方法
PCT/CN2022/099553 WO2022199719A1 (zh) 2021-11-30 2022-06-17 一种基于稀疏响应面的深度学习算法超参数优化方法
ZA2022/07913A ZA202207913B (en) 2021-11-30 2022-07-15 A hyperparameter optimization method for deep learning algorithm based on sparse response surface

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111446965.XA CN114118414A (zh) 2021-11-30 2021-11-30 一种基于稀疏响应面的深度学习算法超参数优化方法

Publications (1)

Publication Number Publication Date
CN114118414A true CN114118414A (zh) 2022-03-01

Family

ID=80368741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111446965.XA Pending CN114118414A (zh) 2021-11-30 2021-11-30 一种基于稀疏响应面的深度学习算法超参数优化方法

Country Status (3)

Country Link
CN (1) CN114118414A (zh)
WO (1) WO2022199719A1 (zh)
ZA (1) ZA202207913B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022199719A1 (zh) * 2021-11-30 2022-09-29 广东海洋大学 一种基于稀疏响应面的深度学习算法超参数优化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330362B2 (en) * 2013-05-15 2016-05-03 Microsoft Technology Licensing, Llc Tuning hyper-parameters of a computer-executable learning algorithm
CN110110862A (zh) * 2019-05-10 2019-08-09 电子科技大学 一种基于适应性模型的超参数优化方法
CN110598842A (zh) * 2019-07-17 2019-12-20 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质
TWI769418B (zh) * 2019-12-05 2022-07-01 財團法人工業技術研究院 深度神經網路超參數選擇方法及電子裝置
CN111738406A (zh) * 2020-05-13 2020-10-02 广东工业大学 一种基于代理模型的深度学习算法超参数优化方法
CN114118414A (zh) * 2021-11-30 2022-03-01 广东海洋大学 一种基于稀疏响应面的深度学习算法超参数优化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022199719A1 (zh) * 2021-11-30 2022-09-29 广东海洋大学 一种基于稀疏响应面的深度学习算法超参数优化方法

Also Published As

Publication number Publication date
ZA202207913B (en) 2022-08-31
WO2022199719A1 (zh) 2022-09-29

Similar Documents

Publication Publication Date Title
US11056099B2 (en) End-to-end speech recognition with policy learning
US11295207B2 (en) Quantum deep learning
Rao et al. Classification with the sparse group lasso
Cho et al. Enhanced gradient for training restricted Boltzmann machines
CN108805167B (zh) 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法
Haefeli et al. Diffusion models for graphs benefit from discrete state spaces
US7003158B1 (en) Handwriting recognition with mixtures of Bayesian networks
CN111914728B (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
US8775345B2 (en) Recovering the structure of sparse markov networks from high-dimensional data
CN110009030B (zh) 基于stacking元学习策略的污水处理故障诊断方法
US11829869B2 (en) Multiple task transfer learning
CN110363230B (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
US20230185998A1 (en) System and method for ai-assisted system design
CN113449802A (zh) 基于多粒度互信息最大化的图分类方法及装置
Wang et al. A novel sparse boosting method for crater detection in the high resolution planetary image
CN105160598B (zh) 一种基于改进em算法的电网业务分类方法
CN109409434A (zh) 基于随机森林的肝脏疾病数据分类规则提取的方法
CN114118414A (zh) 一种基于稀疏响应面的深度学习算法超参数优化方法
CN109993208B (zh) 一种有噪声图像的聚类处理方法
CN114220164A (zh) 一种基于变分模态分解和支持向量机的手势识别方法
US20040254930A1 (en) Construction and selection of a finite mixture model for use in clustering and vector quantization
Ekmekci et al. What does your computational imaging algorithm not know?: A Plug-and-Play model quantifying model uncertainty
CN111612101A (zh) 非参数Waston混合模型的基因表达数据聚类方法、装置及设备
CN116468126B (zh) 基于量子梯度下降的求解组合优化问题的迭代量子算法
Masarotto et al. Covariance‐based soft clustering of functional data based on the Wasserstein–Procrustes metric

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination