CN111079896A - 一种超参数自适应调整方法与装置 - Google Patents
一种超参数自适应调整方法与装置 Download PDFInfo
- Publication number
- CN111079896A CN111079896A CN201911120367.6A CN201911120367A CN111079896A CN 111079896 A CN111079896 A CN 111079896A CN 201911120367 A CN201911120367 A CN 201911120367A CN 111079896 A CN111079896 A CN 111079896A
- Authority
- CN
- China
- Prior art keywords
- hyper
- parameter
- parameters
- combination
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000005070 sampling Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims abstract description 20
- 230000003044 adaptive effect Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000007704 transition Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101000662009 Homo sapiens UDP-N-acetylglucosamine pyrophosphorylase Proteins 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 102100037921 UDP-N-acetylglucosamine pyrophosphorylase Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种超参数自适应调整方法与装置包括:根据现有超参数确定最优超参数和采样方差;基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参数后验概率,直到超参数的总数量超过预定数量;由所有超参数形成超参数组合,并基于超参数组合训练模型以获得超参数组合后验概率;响应于超参数组合后验概率小于预定概率,而从超参数组合中删除超参数后验概率更低的超参数并返回第一步骤;响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定次数,而输出超参数组合并中止调整。本发明能够以较低的资源占用和耗时来自动执行超参数自适应调整,降低计算时间和空间复杂度。
Description
技术领域
本发明涉及深度学习领域,更具体地,特别是指一种超参数自适应调 整方法与装置。
背景技术
深度学习兴起后,基于神经网络的人工智能算法又逐步吸引了众多学 者和产业应用的兴趣。深度神经网络模型中超参数的设置会对模型的最终 结果有非常大的影响。选择合理、适用的超参数组合始终是算法研究人员 和算法工程师需要解决的一大难题。
目前对神经网络超参数的调整主要采用人工方式,这种方法耗时高, 且非常依赖算法工程师的个人经验,因此采用自动化的超参数调整方法对 于提高模型开发效率、降低算法成本有着极为重要意义。当前自动化调参 的方法主要为基于多模型并行的随机搜索方法,采用这种方法确定的超参 数组合的优劣完全取决于各个超参数初始化时的位置以及超参数组合的种 群规模,种群规模越大,越有可能找到最优的超参组合。但是由于每一个 超参组合都需要对其所对应的神经网络进行完整的训练,过大的种群规模 会耗费庞大的计算资源和时间成本。
针对现有技术中自动调整超参数的计算时间和空间复杂度高的问题, 目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种超参数自适应调整方法 与装置,能够以较低的资源占用和耗时来自动执行超参数自适应调整,降 低实施方法的计算时间和空间复杂度。
基于上述目的,本发明实施例的第一方面提供了一种超参数自适应调 整方法,包括执行以下步骤:
根据现有超参数确定最优超参数和采样方差;
基于最优超参数和采样方差连续采集多个新超参数并基于多个新超参 数训练模型以获得多个超参数后验概率,直到超参数的总数量超过预定数 量;
由所有超参数形成超参数组合,并基于超参数组合训练模型以获得超 参数组合后验概率;
响应于超参数组合后验概率小于预定概率,而从超参数组合中删除超 参数后验概率更低的超参数并返回第一步骤;
响应于执行上一步骤达到第一预定次数并且超参数组合在执行上一步 骤时保持稳定达到第二预定次数,而输出超参数组合并中止调整。
在一些实施方式中,根据现有超参数确定最优超参数和采样方差包括:
根据现有超参数计算超参数均值和超参数方差;
将现有超参数中超参数后验概率最大的超参数确定为最优超参数;
根据现有超参数的超参数均值、最优超参数、超参数方差、和超参数 的上下界确定采样方差。
在一些实施方式中,基于最优超参数和采样方差采集多个新超参数包 括:
以最优超参数为期望、采样方差为方差生成正态分布;
在正态分布中采集多个新样本;
使用超参数定义将多个新样本正则化,获得多个新超参数。
在一些实施方式中,基于超参数组合训练模型以获得超参数组合后验 概率包括:
对超参数组合进行前向计算获得损失函数组合,并根据损失函数组合 和多个超参数后验概率确定超参数组合当前概率;
使用预定的负定矩阵、线性加权向量、和相关性矩阵处理多个超参数 后验概率获得超参数组合状态转移概率;
根据超参数组合当前概率和超参数组合状态转移概率确定超参数组合 后验概率。
在一些实施方式中,超参数组合在执行上一步骤时保持稳定达到第二 预定次数包括:超参数组合在连续第二预定次数删除超参数后验概率更低 的超参数时,都删除且仅删除采集的新超参数。
本发明实施例的第二方面提供了一种超参数自适应调整装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行 以下步骤:
根据现有超参数确定最优超参数和采样方差;
基于最优超参数和采样方差连续采集多个新超参数并基于多个新 超参数训练模型以获得多个超参数后验概率,直到超参数的总数量超过预 定数量;
由所有超参数形成超参数组合,并基于超参数组合训练模型以获 得超参数组合后验概率;
响应于超参数组合后验概率小于预定概率,而从超参数组合中删 除超参数后验概率更低的超参数并返回第一步骤;
响应于执行上一步骤达到第一预定次数并且超参数组合在执行上 一步骤时保持稳定达到第二预定次数,而输出超参数组合并中止调整。
在一些实施方式中,根据现有超参数确定最优超参数和采样方差包括:
根据现有超参数计算超参数均值和超参数方差;
将现有超参数中超参数后验概率最大的超参数确定为最优超参数;
根据现有超参数的超参数均值、最优超参数、超参数方差、和超参数 的上下界确定采样方差。
在一些实施方式中,基于最优超参数和采样方差采集多个新超参数包 括:
以最优超参数为期望、采样方差为方差生成正态分布;
在正态分布中采集多个新样本;
使用超参数定义将多个新样本正则化,获得多个新超参数。
在一些实施方式中,基于超参数组合训练模型以获得超参数组合后验 概率包括:
对超参数组合进行前向计算获得损失函数组合,并根据损失函数组合 和多个超参数后验概率确定超参数组合当前概率;
使用预定的负定矩阵、线性加权向量、和相关性矩阵处理多个超参数 后验概率获得超参数组合状态转移概率;
根据超参数组合当前概率和超参数组合状态转移概率确定超参数组合 后验概率。
在一些实施方式中,超参数组合在执行上一步骤时保持稳定达到第二 预定次数包括:超参数组合在连续第二预定次数删除超参数后验概率更低 的超参数时,都删除且仅删除采集的新超参数。
本发明具有以下有益技术效果:本发明实施例提供的超参数自适应调 整方法与装置,通过根据现有超参数确定最优超参数和采样方差;基于最 优超参数和采样方差连续采集多个新超参数并基于多个新超参数训练模型 以获得多个超参数后验概率,直到超参数的总数量超过预定数量;由所有 超参数形成超参数组合,并基于超参数组合训练模型以获得超参数组合后 验概率;响应于超参数组合后验概率小于预定概率,而从超参数组合中删 除超参数后验概率更低的超参数并返回第一步骤;响应于执行上一步骤达 到第一预定次数并且超参数组合在执行上一步骤时保持稳定达到第二预定 次数,而输出超参数组合并中止调整的技术方案,能够以较低的资源占用 和耗时来自动执行超参数自适应调整,降低实施方法的计算时间和空间复 杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地, 下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员 来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附 图。
图1为本发明提供的超参数自适应调整方法的流程示意图;
图2为本发明提供的超参数自适应调整方法的详细流程图;
图3为本发明提供的超参数自适应调整方法基于特定模块的执行顺序 示意图;
图4为本发明提供的超参数自适应调整方法的实施例的层级结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为 了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅 为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不 再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够以较低 的资源占用和耗时来自动执行超参数自适应调整的方法的一个实施例。图1 示出的是本发明提供的超参数自适应调整方法的流程示意图。
所述超参数自适应调整方法,如图1所示,包括执行以下步骤:
步骤S101:根据现有超参数确定最优超参数和采样方差;
步骤S103:基于最优超参数和采样方差连续采集多个新超参数并基于 多个新超参数训练模型以获得多个超参数后验概率,直到超参数的总数量 超过预定数量;
步骤S105:由所有超参数形成超参数组合,并基于超参数组合训练模 型以获得超参数组合后验概率;
步骤S107:响应于超参数组合后验概率小于预定概率,而从超参数组 合中删除超参数后验概率更低的超参数并返回第一步骤;
步骤S109:响应于执行上一步骤达到第一预定次数并且超参数组合在 执行上一步骤时保持稳定达到第二预定次数,而输出超参数组合并中止调 整。
本发明实施例包括用于确定超参数取值的方法和用于存储并实现所述 方法的计算设备。神经网络模型通常除了模型参数θ外,还有一系列的超参 数ω,如批次样本数量、学习率、最大迭代次数等。本方案采用基于递归贝 叶斯的方法来优化超参数组ω,以降低模型损失,提高训练收敛速率。超参 数选择方法包括自适应采样以生成新的超参数组合并在线学习以更新超参 数生成规则,通过选择性删除机制确定采样中心和采样方差来保证超参数 组的收敛性;在训练过程中将每一批次的数据看作对所给定的超参数组的 观测采样并据此实时修改超参数选择概率。可见,本发明实施例不同于现 有的人工超参数选择和基于群体智能启发的随机搜索算法,实现了自动化 的模型超参数整定功能,可以实时地对正在训练的模型修正超参数组合而 不需要同时训练很多网络模型,另外遗忘机制在降低存储开销的同时提升 对超参数空间的局部探索能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流 程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一 计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM) 或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应 的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,根据现有超参数确定最优超参数和采样方差包括:
根据现有超参数计算超参数均值和超参数方差;
将现有超参数中超参数后验概率最大的超参数确定为最优超参数;
根据现有超参数的超参数均值、最优超参数、超参数方差、和超参数 的上下界确定采样方差。
在一些实施方式中,基于最优超参数和采样方差采集多个新超参数包 括:
以最优超参数为期望、采样方差为方差生成正态分布;
在正态分布中采集多个新样本;
使用超参数定义将多个新样本正则化,获得多个新超参数。
在一些实施方式中,基于超参数组合训练模型以获得超参数组合后验 概率包括:
对超参数组合进行前向计算获得损失函数组合,并根据损失函数组合 和多个超参数后验概率确定超参数组合当前概率;
使用预定的负定矩阵、线性加权向量、和相关性矩阵处理多个超参数 后验概率获得超参数组合状态转移概率;
根据超参数组合当前概率和超参数组合状态转移概率确定超参数组合 后验概率。
在一些实施方式中,超参数组合在执行上一步骤时保持稳定达到第二 预定次数包括:超参数组合在连续第二预定次数删除超参数后验概率更低 的超参数时,都删除且仅删除采集的新超参数。
根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程 序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被 CPU执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法 步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步 骤或单元功能的计算机程序的计算机可读存储介质实现。
图2所示出的是本发明的详细流程,如下分为样本补充和样本更新两 个部分。样本补充包括对于给定采样样本集Ω,最大采样规模Ns和ω的上下 界ωB={supω,infω},当采样数量小于最大采样规模时,通过以下方式采 样生成新的ω,直到采样数量等于最大采样规模:
②从所有ω中找出ω*=argmaxω[p(ω|Z0:t)];
③计算采样方差σk=min[d(ω*,ωB),C];
④采样M个服从N(ω*,σk)分布的新样本;
⑤对新样本按照超参数定义进行正则化,如对批样本规模、最大迭代 次数取整,超过边界截断等操作;
⑥训练M个批次数据,生成对应的M个ω的后验概率p(ω|Z0:t);
样本更新包括基于足够多的样本来使用淘汰机制执行迭代:
①当采样数量等于Ns时,根据所采样本,按照下式计算新的超参数组 合:
②采用新超参数组合ωt+1训练模型,得到其对应的后验概率 p(ωt+1|Z0:t)。;
③判断是否满足终止条件,若满足则停止模型超参数搜索,若不满足, 则继续执行后续步骤;
④按照Ω中样本对应的后验概率排序,删除M个后验概率最小的样本;
⑤重新补充样本。
样本补充和样本更新在图3中实施为“自适应采样模块”和“在线学 习模块”以实现其功能。
前述的终止条件包括:
①达到给定的最大迭代步数;
②最优超参数组合连续k次迭代不发生变化;
③根据超参数组合ω训练的模型精度满足验证集要求。
具体地,计算后验概率的详细方法见下:
本发明用p(ωt+1|Z0:t)表示t时刻预测下一时刻采用超参数组和ωt+1的 后验概率,其中Z0:t表示从初始时刻0到t时刻所获得的所有模型表现,如 损失函数值,参数梯度等。根据Chapman-Kolmogorov方程可知:
p(ωt+1|Z0:t)=p(ωt+1|ωt)p(ωt|Z0:t)/Λ
其中,p(ωt+1|ωt)表示超参数的状态转移概率,Λ用于将分子转化到概 率空间的归一化系数。由于超参数空间的取值是非连续的,因此形式上Λ可 以表示为以下级数形式:
其中Ω为所采样的超参数组的集合。
通常改变系统的超参数是应为模型损失值偏高且持久不下,且模型参 数梯度较小,因此本发明实施例使用指数平滑的自适应更新方式,在原概 率基础上,综合考虑模型参数梯度和损失值来计算状态转移概率:
其中,A为负定矩阵,表示随时间推移,模型不采用t时刻的超参数的 概率逐渐衰减;为相关性矩阵,表示每个参数的梯度以及 损失值之间是否存在相关性,若为对角阵则表示各参数梯度和损失值之间 相互独立;为线性加权向量,用于累积各参数梯度和损失值对状 态转移概率的影响。分母Λ是归一化系数,将分子归一化到概率空间。
依据贝叶斯公式,p(ωt|Z0:t)可以展开为如下形式:
p(ωt|Z0:t)=p(Zt|ωt)p(ωt|Z0:t-1)/Λ
其中,p(Zt|ωt)表示在t时刻,给定超参数ωt,观测到的模型表现为Zt的 概率。对于神经网络模型而言,当超参数确定时,通过对一个批次的n个 样本做前向计算可以得到n个对应的损失函数值,以及一组参数更新梯度。 这n个损失函数值以及一组梯度可以看做在给定超参数ωt时对模型表现的 无放回抽样,样本空间大小为n。由于对于神经网络模型而言,这n个采样 共用一组参数更新梯度。因此p(Zt|ωt)仅与损失函数值相关。对损失函数进 行softmax处理,将其映射到概率空间:
使用上述公式就可以计算后验概率p(ω|Z0:t)。
下面根据图4所示的具体实施例来进一步阐述本发明的具体实施方式。
图4中的数据层包括用于模型训练和验证的样本数据库。运算层根据 后期平台运行的实际需求确定,开发阶段采用浪潮NF5288M5 GPU服务器。 在逻辑层中包含AI算法资源池、基础模型库以及模型输出模块等结构,AI 算法资源池主要包括用于支持各类AI算法的软件包及框架,如PyTorch、 pandas、Sklearn等。基础模型库包含项目实现所需要的基础算法和模型, 如CNN、K-means、Word2Vec等开源算法,以及针对本发明所涉及的用于 超参数选择所需要的各类算法。模型输出模块将训练好的模型输出为模型 文件以备后续部署。人机接口用以实现人机交互任务。
系统的软硬件环境包括:
主机:浪潮AGX-2 AI服务器
显卡:8*Tesla V100,32G显存/卡
Ubuntu 16.04.4 LTS操作系统
Python 2.7.12
PyTorch 0.1.2
NFS文件管理系统
MySQL server 5.5.37数据库或以上版本
为了便于验证,本方案采用LeNet-5模型在MNIST手写体数据集上进 行手写体数字识别作为测试实例,以展示本发明所提技术方案在自动调节 模型超参数时的应用方法。在采用LeNet-5做手写体识别时,需要设置的 超参数及其取值范围如下表:
其中,由于学习速率在0附近更为敏感,因此在超参数搜索时本方案 在(-∞,0]内选取学习率的对数g,最终应用的学习率为lr=exp(g)。在本实 例中,可选的优化器为SGD、Momentum、RMSprop和Adam,因此优化 器的取值为0到3的整数,分别代表采用上述优化器更新模型参数。本方 案所述方法中所采用的参数如下表所示:
终止条件为当训练过程达到最大迭代次数时,终止训练。
1)根据超参数组合列表中给定的超参数取值范围生成1个超参数组 合样本;
3)计算所生成的超参数组合样本所对应的后验概率;
4)重复1)-3)过程,直到生成20个样本;
5)生成新的超参数组合样本;
6)按照新的超参数组合,执行步骤2)-3);
7)归一化所有样本对应的后验概率;
8)按照后验概率排序,返回最优样本ω*,并删除最小的10个样本;
9)根据超参数组合样本集中剩余的10个样本计算样本方差C;
10)计算采样方差σ;
11)按照N(ω*,σk)采样一个超参数样本,根据步骤2)-3)计算随机采样 的样本对应的后验概率;
12)重复步骤11),直到生成20个样本
13)当数据集中所有数据被训练过一次后,迭代次数epoch+=1;
14)当epoch达到20时,停止搜索过程,返回当前所使用的超参数组 合及模型参数。
从上述实施例可以看出,本发明实施例提供的超参数自适应调整方法, 通过根据现有超参数确定最优超参数和采样方差;基于最优超参数和采样 方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参 数后验概率,直到超参数的总数量超过预定数量;由所有超参数形成超参 数组合,并基于超参数组合训练模型以获得超参数组合后验概率;响应于 超参数组合后验概率小于预定概率,而从超参数组合中删除超参数后验概 率更低的超参数并返回第一步骤;响应于执行上一步骤达到第一预定次数 并且超参数组合在执行上一步骤时保持稳定达到第二预定次数,而输出超 参数组合并中止调整的技术方案,能够以较低的资源占用和耗时来自动执 行超参数自适应调整,降低实施方法的计算时间和空间复杂度。
需要特别指出的是,上述超参数自适应调整方法的各个实施例中的各 个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合 变换之于超参数自适应调整方法也应当属于本发明的保护范围,并且不应 将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够以较低 的资源占用和耗时来自动执行超参数自适应调整的装置的一个实施例。超 参数自适应调整装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行 以下步骤:
根据现有超参数确定最优超参数和采样方差;
基于最优超参数和采样方差连续采集多个新超参数并基于多个新 超参数训练模型以获得多个超参数后验概率,直到超参数的总数量超过预 定数量;
由所有超参数形成超参数组合,并基于超参数组合训练模型以获 得超参数组合后验概率;
响应于超参数组合后验概率小于预定概率,而从超参数组合中删 除超参数后验概率更低的超参数并返回第一步骤;
响应于执行上一步骤达到第一预定次数并且超参数组合在执行上 一步骤时保持稳定达到第二预定次数,而输出超参数组合并中止调整。
在一些实施方式中,根据现有超参数确定最优超参数和采样方差包括:
根据现有超参数计算超参数均值和超参数方差;
将现有超参数中超参数后验概率最大的超参数确定为最优超参数;
根据现有超参数的超参数均值、最优超参数、超参数方差、和超参数 的上下界确定采样方差。
在一些实施方式中,基于最优超参数和采样方差采集多个新超参数包 括:
以最优超参数为期望、采样方差为方差生成正态分布;
在正态分布中采集多个新样本;
使用超参数定义将多个新样本正则化,获得多个新超参数。
在一些实施方式中,基于超参数组合训练模型以获得超参数组合后验 概率包括:
对超参数组合进行前向计算获得损失函数组合,并根据损失函数组合 和多个超参数后验概率确定超参数组合当前概率;
使用预定的负定矩阵、线性加权向量、和相关性矩阵处理多个超参数 后验概率获得超参数组合状态转移概率;
根据超参数组合当前概率和超参数组合状态转移概率确定超参数组合 后验概率。
在一些实施方式中,超参数组合在执行上一步骤时保持稳定达到第二 预定次数包括:超参数组合在连续第二预定次数删除超参数后验概率更低 的超参数时,都删除且仅删除采集的新超参数。
从上述实施例可以看出,本发明实施例提供的超参数自适应调整装置, 通过根据现有超参数确定最优超参数和采样方差;基于最优超参数和采样 方差连续采集多个新超参数并基于多个新超参数训练模型以获得多个超参 数后验概率,直到超参数的总数量超过预定数量;由所有超参数形成超参 数组合,并基于超参数组合训练模型以获得超参数组合后验概率;响应于 超参数组合后验概率小于预定概率,而从超参数组合中删除超参数后验概 率更低的超参数并返回第一步骤;响应于执行上一步骤达到第一预定次数 并且超参数组合在执行上一步骤时保持稳定达到第二预定次数,而输出超 参数组合并中止调整的技术方案,能够以较低的资源占用和耗时来自动执 行超参数自适应调整,降低实施方法的计算时间和空间复杂度。
需要特别指出的是,上述超参数自适应调整装置的实施例采用了所述 超参数自适应调整方法的实施例来具体说明各模块的工作过程,本领域技 术人员能够很容易想到,将这些模块应用到所述超参数自适应调整方法的 其他实施例中。当然,由于所述超参数自适应调整方法实施例中的各个步 骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换 之于所述超参数自适应调整装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要 求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。 根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以 任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式 描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况, 单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和 /或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组 合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优 劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以 通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可 以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存 储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例 性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例 子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征 之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多 其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的 精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种超参数自适应调整方法,其特征在于,包括执行以下步骤:
根据现有超参数确定最优超参数和采样方差;
基于所述最优超参数和所述采样方差连续采集多个新超参数并基于所述多个新超参数训练模型以获得多个超参数后验概率,直到超参数的总数量超过预定数量;
由所有超参数形成超参数组合,并基于所述超参数组合训练模型以获得超参数组合后验概率;
响应于所述超参数组合后验概率小于预定概率,而从所述超参数组合中删除所述超参数后验概率更低的超参数并返回第一步骤;
响应于执行上一步骤达到第一预定次数并且所述超参数组合在执行上一步骤时保持稳定达到第二预定次数,而输出所述超参数组合并中止调整。
2.根据权利要求1所述的方法,其特征在于,根据现有超参数确定所述最优超参数和所述采样方差包括:
根据现有超参数计算超参数均值和超参数方差;
将现有超参数中所述超参数后验概率最大的超参数确定为所述最优超参数;
根据现有超参数的所述超参数均值、所述最优超参数、所述超参数方差、和超参数的上下界确定所述采样方差。
3.根据权利要求1所述的方法,其特征在于,基于所述最优超参数和所述采样方差采集多个新超参数包括:
以所述最优超参数为期望、所述采样方差为方差生成正态分布;
在所述正态分布中采集多个新样本;
使用超参数定义将所述多个新样本正则化,获得多个新超参数。
4.根据权利要求1所述的方法,其特征在于,基于所述超参数组合训练模型以获得所述超参数组合后验概率包括:
对所述超参数组合进行前向计算获得损失函数组合,并根据所述损失函数组合和所述多个超参数后验概率确定所述超参数组合当前概率;
使用预定的负定矩阵、线性加权向量、和相关性矩阵处理所述多个超参数后验概率获得所述超参数组合状态转移概率;
根据所述超参数组合当前概率和所述超参数组合状态转移概率确定所述超参数组合后验概率。
5.根据权利要求1所述的方法,其特征在于,所述超参数组合在执行上一步骤时保持稳定达到第二预定次数包括:
所述超参数组合在连续第二预定次数删除所述超参数后验概率更低的超参数时,都删除且仅删除采集的新超参数。
6.一种超参数自适应调整装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行以下步骤:
根据现有超参数确定最优超参数和采样方差;
基于所述最优超参数和所述采样方差连续采集多个新超参数并基于所述多个新超参数训练模型以获得多个超参数后验概率,直到超参数的总数量超过预定数量;
由所有超参数形成超参数组合,并基于所述超参数组合训练模型以获得超参数组合后验概率;
响应于所述超参数组合后验概率小于预定概率,而从所述超参数组合中删除所述超参数后验概率更低的超参数并返回第一步骤;
响应于执行上一步骤达到第一预定次数并且所述超参数组合在执行上一步骤时保持稳定达到第二预定次数,而输出所述超参数组合并中止调整。
7.根据权利要求6所述的装置,其特征在于,根据现有超参数确定所述最优超参数和所述采样方差包括:
根据现有超参数计算超参数均值和超参数方差;
将现有超参数中所述超参数后验概率最大的超参数确定为所述最优超参数;
根据现有超参数的所述超参数均值、所述最优超参数、所述超参数方差、和超参数的上下界确定所述采样方差。
8.根据权利要求6所述的装置,其特征在于,基于所述最优超参数和所述采样方差采集多个新超参数包括:
以所述最优超参数为期望、所述采样方差为方差生成正态分布;
在所述正态分布中采集多个新样本;
使用超参数定义将所述多个新样本正则化,获得多个新超参数。
9.根据权利要求6所述的装置,其特征在于,基于所述超参数组合训练模型以获得所述超参数组合后验概率包括:
对所述超参数组合进行前向计算获得损失函数组合,并根据所述损失函数组合和所述多个超参数后验概率确定所述超参数组合当前概率;
使用预定的负定矩阵、线性加权向量、和相关性矩阵处理所述多个超参数后验概率获得所述超参数组合状态转移概率;
根据所述超参数组合当前概率和所述超参数组合状态转移概率确定所述超参数组合后验概率。
10.根据权利要求6所述的装置,其特征在于,所述超参数组合在执行上一步骤时保持稳定达到第二预定次数包括:所述超参数组合在连续第二预定次数删除所述超参数后验概率更低的超参数时,都删除且仅删除采集的新超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911120367.6A CN111079896A (zh) | 2019-11-15 | 2019-11-15 | 一种超参数自适应调整方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911120367.6A CN111079896A (zh) | 2019-11-15 | 2019-11-15 | 一种超参数自适应调整方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079896A true CN111079896A (zh) | 2020-04-28 |
Family
ID=70311050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911120367.6A Pending CN111079896A (zh) | 2019-11-15 | 2019-11-15 | 一种超参数自适应调整方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079896A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139237A1 (zh) * | 2020-05-14 | 2021-07-15 | 平安科技(深圳)有限公司 | 损失函数的优化方法、装置、设备及存储介质 |
-
2019
- 2019-11-15 CN CN201911120367.6A patent/CN111079896A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139237A1 (zh) * | 2020-05-14 | 2021-07-15 | 平安科技(深圳)有限公司 | 损失函数的优化方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503192B (zh) | 资源有效的神经架构 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN109146162B (zh) | 一种基于集成循环神经网络的概率风速预测方法 | |
CN111970163A (zh) | 一种基于注意力机制的lstm模型的网络流量预测方法 | |
US20210158227A1 (en) | Systems and methods for generating model output explanation information | |
JP2018109947A (ja) | ニューラルネットワークの処理速度を向上させるための装置及び方法、並びにその応用 | |
US20220027738A1 (en) | Distributed synchronous training architecture using stale weights | |
CN110929114A (zh) | 利用动态记忆网络来跟踪数字对话状态并生成响应 | |
Pan et al. | Annealed gradient descent for deep learning | |
CN113128671B (zh) | 一种基于多模态机器学习的服务需求动态预测方法及系统 | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
CN113326852A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
CN113826125A (zh) | 使用无监督数据增强来训练机器学习模型 | |
US20210209447A1 (en) | Information processing apparatus, control method, and program | |
CN113158572A (zh) | 一种短期负荷的预测方法及装置 | |
WO2019006541A1 (en) | SYSTEM AND METHOD FOR AUTOMATIC CONSTRUCTION OF LEARNING MACHINES USING LEARNING MACHINES | |
CN113391894A (zh) | 一种基于rbp神经网络的最优超任务网优化方法 | |
CN111160000A (zh) | 作文自动评分方法、装置终端设备及存储介质 | |
CN113434683A (zh) | 文本分类方法、装置、介质及电子设备 | |
WO2022188711A1 (zh) | Svm模型的训练方法、装置、设备和计算机可读存储介质 | |
CN114817571B (zh) | 基于动态知识图谱的成果被引用量预测方法、介质及设备 | |
CN113642727B (zh) | 神经网络模型的训练方法和多媒体信息的处理方法、装置 | |
CN117973492A (zh) | 一种语言模型的微调方法、装置、电子设备及介质 | |
CN111079896A (zh) | 一种超参数自适应调整方法与装置 | |
EP4078458A1 (en) | Searching for normalization-activation layer architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |
|
RJ01 | Rejection of invention patent application after publication |