CN110866608A

CN110866608A - 一种自适应学习率计算方法

Info

Publication number: CN110866608A
Application number: CN201911056211.6A
Authority: CN
Inventors: 杨恺; 张春炯
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-06
Anticipated expiration: 2039-10-31
Also published as: CN110866608B

Abstract

本发明涉及一种自适应学习率计算方法，包括以下步骤：步骤S1：基于初始批处理数量和初始最优网络参数组合，得到二次批处理数量；步骤S2：基于二次批处理数量，得到当前的最优网络参数组合；步骤S3：基于当前的最优网络参数组合、当前的损失函数和训练数据量，得到当前的批处理数量；步骤S4：基于当前的批处理数量，得到当前的学习率；步骤S5：当前的批处理数量代替二次批处理数量，重复步骤S2‑步骤S5，直至训练模型权重收敛。与现有技术相比，避免产生劣质训练模型权重，保证所生成的训练模型权重是最优的，在围棋对弈时增加棋力，减少训练模型权重训练时间和GPU等硬件的超能损耗。

Description

一种自适应学习率计算方法

技术领域

本发明涉及深度学习领域，尤其是涉及一种自适应学习率计算方法。

背景技术

人工智能(Artificial Intelligence，AI)随着人类现实场景的诸多应用得到大力的发展，围棋方面的人工智能进展也取得巨大的成果。训练模型权重是围棋AI对弈时棋力表现的关键依据，是围棋AI通过残差网络训练生成的棋力信息。

学习率是神经网络经典超参数，也是困扰神经网络训练的问题之一，因为参数不能通过常规方法学习获得。现今众多围棋AI的残差网络中训练模型权重训练的学习率是固定值，对网络训练不能根据围棋AI的环境需要(权值初始化、网络层数、残差块、批处理、训练循环次数等)而自动调整，然而学习率太大收敛快，导致训练模型权重训练网络的梯度出现爆炸现象，使得训练模型权重在最优值附近徘徊而无法收敛。学习率太小，会造成参数更新极其缓慢，收敛也相应的十分缓慢，导致训练时间变长。关键是固定值的学习率严重影响残差网络的训练，进而导致残差网络训练数据生成劣质的围棋训练模型权重规模扩大，直至导致围棋AI对弈时的棋力迅速下降，所以学习率对于残差网络训练训练模型权重性能的表现至关重要。

一般在网络训练的初期，往往设置为较大的学习率较好，因为训练模型权重距离最优值比较远，较大的学习速率可以快速靠近最优值；而训练后期，由于已经靠近最优值，此时，采用较小的学习率较好，较大的学习率，容易导致在真实最优值附近来回波动，就是无法抵达最优值。而由训练数据生成的劣质训练模型权重，会使得围棋AI在对弈时存在许多盲点，其棋力会大打折扣，而且非自适应学习率会耗费大量的训练模型权重训练时间，以及造成GPU等硬件的超能损耗。

因此，需要一种针对围棋AI训练模型权重的自适应学习率计算方法来弥补残差网络中固定学习率这一严重不足。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种自适应学习率计算方法。

本发明的目的可以通过以下技术方案来实现：

一种自适应学习率计算方法，该方法包括以下步骤：

步骤S1：基于初始批处理数量和初始最优网络参数组合，得到二次批处理数量；

步骤S2：基于二次批处理数量，得到当前的最优网络参数组合；

步骤S3：基于当前的最优网络参数组合、当前的损失函数和训练数据量，得到当前的批处理数量；

步骤S4：基于当前的批处理数量，得到当前的学习率；

步骤S5：当前的批处理数量代替二次批处理数量，重复步骤S2-步骤S5，直至训练模型权重收敛。

所述的步骤S2包括：

步骤S21：基于二次批处理数量，通过Kolmogorov定理得到网络层个数和残差块个数；

步骤S22：基于网络层个数和残差块个数，利用随机采样交叉验证方法得到当前的最优网络参数组合。

所述的通过Kolmogorov定理得到网络层个数N的公式为：

其中，折扣因子γ＝10^-a，a为γ所在项的分子部分紧邻数的位数减去减数位数，即a＝6-4，int(·)为求整函数。

所述的通过Kolmogorov定理得到残差块个数M的公式为：

其中，折扣因子γ＝10^-a，a为γ所在项的分子部分紧邻数的位数减去减数位数，即a＝2-1。

所述的步骤S3中当前的最优网络参数组合和当前的损失函数均与当前的批处理数量呈负相关。

所述的步骤S3中赋予当前的最优网络参数组合、当前的损失函数和训练数据量以不同的重要度，得到当前的批处理数量。

所述的当前的学习率λ_now为：

λ_now＝λ₁(1/N)

λ₁＝λ-(λ_初×b^(c/d))

其中，N为当前的批处理数量，λ为前一次循环的学习率，λ_初为由初始批处理数量得到的初始学习率，b为学习率的下降倍率，c为循环次数，d为循环次数基数。

所述的训练模型权重ω_j为：

其中，F(·)为批处理数量成本函数，ω_j-1为前一次循环的训练模型权重，ω_j为当前的训练模型权重。

与现有技术相比，本发明具有以下优点：

(1)通过当前的批处理数量，自适应调节当前的学习率，避免产生劣质训练模型权重，保证所生成的训练模型权重是最优的，在围棋对弈时增加棋力，减少训练模型权重训练时间和GPU等硬件的超能损耗。

(2)通过Kolmogorov定理求解出网络层个数和残差块个数，利用随机采样交叉验证方法可以得到当前的最优网络参数组合。

(3)通过对当前的最优网络参数组合、当前的损失函数和训练数据量设置重要度，可得到合理的当前的批处理数量。

附图说明

图1为本发明的流程图；

图2为固定学习率计算方法和自适应学习率计算方法的准确率对比图；

图3为自适应学习率计算方法的损失函数结果图；

图4为自适应学习率的平方误差结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例提供一种自适应学习率计算方法，如图1所示，包括以下步骤：

步骤S4：基于当前的批处理数量，得到当前的学习率；

具体而言，本方法创新点有以下几点：

1、步骤S1和步骤S2中，得到二次批处理数量并基于二次批处理数量，通过Kolmogorov定理得到网络层个数和残差块个数；基于网络层个数和残差块个数，利用随机采样交叉验证方法得到当前的最优网络参数组合。

依据Kolmogorov定理，任何一个连续函数都可以用一个神经网络来精确实现，而给定的神经网络由其连续函数也是可以倒推其网络参数。对给定的围棋AI训练的残差网络，其初始网络层个数、初始残差块个数以及初始批处理数量均是已知的，随着训练数据量的减少，网络层个数和残差块个数可做优化调整，这样，可以保证加速网络训练，依据Kolmogorov定理的连续函数求出调整的网络层个数和残差块个数，则残差网络的其他参数也就被完全确定下来。因此，所谓确定围棋AI残差网络的参数，就是根据给定的初始网络层个数、初始残差块个数及初始批处理数量导出随着批处理数量优化调整的网络层个数及残差块个数。随机采样交叉验证是依据某种分布对参数空间采样，随即得到参数组合方案。举例而言，在残差网络中，初始网络层个数为256，残差块个数为40，训练数据量为50万chunk，初始批处理数量为8000chunk，也就是训练完8000chunk后重新调整残差网络的参数，以此类推，每进行一次批处理数量循环后重新调整残差网络的参数。

通过Kolmogorov定理得到网络层个数N的公式为：

其中，折扣因子γ＝10^-a，a为γ所在项紧邻数的位数减去减数位数，即在(500000γ-8000)项中，a＝6-4＝2，int(·)为求整函数；当训练数据量小于初始批处理量时，不再使用上式，而是按照残差网络初始最优网络参数组合训练。

通过Kolmogorov定理得到残差块个数M的公式为：

其中，折扣因子γ＝10^-a，a为γ所在项紧邻数的位数减去减数位数，即在(40γ-1)中，a＝2-1＝1。

N不能使用时，M此时亦不能使用，且N与M均为正数。N和M范围确定后，使用随机采样交叉验证方法依据高斯分布对参数空间采样，得到当前的最优参数组合方案。高斯分布描述了对应参数的所有取值情况的可能性。这里直接使用Tensorflow Sklearn库，可以用一个字典指定参数的采样范围和分布。另外，计算预算(总共要随机采样多少个参数组合或者迭代多少次)可以使用参数n_iter来指定，针对每一个参数范围内的概率，既可以使用可能取值范围内的概率分布，也可以指定一个离散的取值列表(会被均匀采样)。对于连续取值的参数，给它指定一个连续的分布非常重要，这样可以保证充分利用随机化带来的好处，增加迭代次数，n_iter将会带来非常精准的搜索。

2、步骤S3中当前的最优网络参数组合和当前的损失函数均与当前的批处理数量呈负相关，赋予当前的最优网络参数组合、当前的损失函数和训练数据量以不同的重要度，得到当前的批处理数量。

首先得到已知的训练数据量(即训练数据总量)，将训练数据以逻辑函数分配批次进行训练，其中，逻辑函数涉及当前的网络层个数、当前的残差块个数和当前的损失函数的设置。当前的网络层个数或当前的残差块个数越大，当前的批处理数量越小，反之亦然。当前的损失函数越小，当前的批处理数量越大，反之亦然。而当前的网络层个数、当前的残差块个数和当前的损失函数调整当前的批处理数量是按照设定的重要度进行，不同的重要度影响批处理数量的训练速度。举例而言，以初始的训练模型权重为-0.0009265481，由开源围棋AI Leela Zero官网上获取50万张棋谱生成24.1M的训练数据量，经参数设置，批处理数量参照17％的网络层个数比重、22％的残差块个数比重和60％的损失函数比重以及1％的折扣。

3、步骤S4中，为了能够使得围棋AI中的残差网络训练有较好的性能，需要把学习率的值设定在合适的范围内。学习率决定了训练模型权重移动到最优值的速度快慢。如果学习率过大，很可能会越过最优值；如果学习率过小，优化的效率可能过低，训练时间过长。所以自适应学习率在保证稳定训练的前提下，达到了合理的高速率，不但可以得到最优值的训练模型权重，而且减少训练时间。

通过定义残差网络训练模型，并基于当前的批处理数量调整最优的学习率。使用梯度下降法来更新训练模型权重，梯度下降法是一个可以用来最小化模型误差的训练模型权重优化算法。梯度下降法通过多次迭代，并在每一次循环中最小化成本函数来估计训练模型权重。训练模型权重更新公式表示如下：

其中，F(·)为批处理数量成本函数，ω_j-1为前一次循环的训练模型权重，ω_j为当前的训练模型权重，

是一阶导数，λ是学习率，重复上式，直到收敛为止。对于不同批处理数量，需要调节不同的学习率，而将批处理数量成本函数F(·)处理为平方误差和时，

会随着训练数据量的增多变得越来越大，准确率会下降，因此学习率需要被设定在相应更小的值上。为了解决此问题，提出一种处理方法是将学习率乘上1/N，这里的N是批处理数量。

上述内容说明学习率是训练模型权重极其重要的影响因素，在每次迭代中调节不同的学习率可以得到最优的训练模型权重。如何得到最优的训练模型权重的基本思路就是处理与训练模型权重最优值的关系。但是，问题是我们并不知道实际上的训练模型权重最优值在哪里，不知道每一次循环迭代中距离训练模型权重最优值有多远。提出的解决办法是，在每次迭代的最后，使用每次迭代得到的最小化成本函数检查误差函数的值。如果相对于上一次迭代，准确率提升，可以增大学习率，增加为训练损失值(损失函数)的10％；如果相对于上一次迭代，准确率减小(意味着跳过了最优值)，那么应该重新设置上一轮迭代ω_j的值，当前学习率是通过上轮训练的学习率减去学习率的损失值。

每次循环更新训练模型权重的公式变成下面的形式：

其中，λ_now为：

λ_now＝λ₁(1/N)

λ₁＝λ-(λ_初×b^(c/d))

其中，N为当前的批处理数量，λ为前一次循环的学习率，λ_初为由初始批处理数量得到的初始学习率，b为学习率的下降倍率，c为循环次数(即每调用一次残差网络训练模型自增1)，d为循环次数基数(设为常数)，且上式中指数部分的“/”采用整除方式。

以开源围棋AI Leela Zero官网上获取50万张棋谱生成24.1M的训练数据量为例，对上述自适应学习率进行性能评估，以准确率、损失函数和平方误差和为衡量性能的指标，训练数据检测图如图2、图3和图4所示。

图2中纵轴为准确率，横轴为循环次数，浅色曲线为固定学习率的准确率曲线，深色为自适应学习率的准确率曲线。可以看出自适应学习率的准确率是平滑上升的，说明训练稳定，所训练出的训练模型权重不会致使围棋AI对弈时出现盲点。

图3中，三角形标记曲线为测试训练数据，方形标记曲线为实际训练数据。从图3中可知实际训练数据的损失函数从开始训练到80k循环次数一直减小，表示这个训练数据生成的训练模型权重越来越接近最优值，而80k循环次数之后与测试训练数据保持一致，测试训练数据生成的训练模型权重是理想的最优训练模型权重，说明自适应学习率的网络训练生成的训练模型权重全部是最优值。

图4中三角形标记曲线为测试训练数据，圆形标记曲线为测试数据的拟合曲线，方形标记曲线为实际训练数据。从图4中知道在每次迭代的最后，使用批处理数据量的最小化成本函数检查误差函数的值逐步变小，且远远低于未使用该方法的测试训练数据误差值，说明自适应学习率满足残差网络训练的环境铺设需要，极大提升了网络训练速度且保证网络训练的稳定性。

本实施例的自适应学习率计算方法具有以下优点：通过当前的批处理数量，自适应调节当前的学习率，避免产生劣质训练模型权重，保证所生成的训练模型权重是最优的，在围棋对弈时增加棋力，减少训练模型权重训练时间和GPU等硬件的超能损耗。

劣质训练模型权重会使得围棋AI在对弈时存在许多盲点，其棋力会大打折扣。围棋AI网络模型训练好后，也即是权重的保存，在对弈时，其神经网络对权重的搜索表现在棋面上是棋力的体现，则优良的神经网络权重是围棋AI对弈时棋力的支撑体现。