CN110245742A

CN110245742A - 一种基于Keras平台的自适应深度学习模型优化方法

Info

Publication number: CN110245742A
Application number: CN201910380960.8A
Authority: CN
Inventors: 赵坤; 张挺
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-09-17

Abstract

本发明涉及一种基于Keras平台的自适应深度学习模型优化方法，该方法包括下列步骤：1)对Q值网络的参数进行优化，将动作选择与全局最优决策分离；2)利用Keras建立预测模型，并对模型进行超参数调节；3)采用Q‑Learning算法为深度Q网络提供有标签的样本数据；4)根据提供的样本数据训练深度Q网络。与现有技术相比，本发明能够降低过高估计Q值的风险，易于调试，提高已读性，使模型对于具有多个相似模型组成的系统有一定的自适能力，进而使预测模型在其他相似结构的预测效果达到人工调参精度的水平，满足不同场景的预测需求。

Description

一种基于Keras平台的自适应深度学习模型优化方法

技术领域

本发明涉及深度学习领域，尤其是涉及一种基于Keras平台的自适应深度学习模型优化方法。

背景技术

Keras是一个高层神经网络库，Keras由纯Python编写而成并基于TensorFlow或Theano。Keras为支持快速实验而生，能够把用户的idea迅速转换为结果。Keras具有简易和快速的原型设计，还具有高度模块化、极简和可扩充特性，支持CNN、RNN或二者的结合，支持任意的链接方案(包括多输入和多输出训练)，无缝CPU和GPU切换。

超参数是指深度学习模型中需要事先设定的参数，如网络层数、失活层的系数、优化方法的学习率、每一层包含的细胞数等。在不考虑时间与计算力的情况下，最简单的提高预测准确度的方法是增大训练数据的规模以及加深深度学习模型，但是实际情况中的时间与计算力以及获得的数据往往是有限的，所以需要对超参数进行一个调节以适应当前的模型更好的表达训练数据中的特性。如图1所示，最左端显示的是欠拟合即训练误差与验证误差均很大，随着模型的容量的增加，训练误差与验证误差先是慢慢缩小，但是继续扩大后训练误差持续变小，训练误差与验证误差间的差距却越来越大，即泛化能力越来越弱，这被称为过拟合，模型的深度超过了最优部分。对于深度模型的超参数而言，大部分都符合图1所示的U型特点。需要解决的问题就是找到最优部分所在的位置。在所有超参数中最重要的为学习率，学习率对模型的深度影响最大，当学习率不大不小刚刚合适时，模型的深度最佳，学习率与训练误差间也具有U形曲线。如图2所示，当学习率过大时，训练误差不仅不缩小反而会迅速增大，当学习率过小时，不仅训练速度过慢而且有可能永远停留在一个很高的训练误差上。

对并联系统而言，现有的对整个系统进行预测的方法需要较大的人力成本参与调参，且对整个系统整体进行预测的准确度不如对不同单元预测后叠加的准确度高，然而现有的预测模型尚未针对提出一种不同单元预测后叠加的方式进行优化。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Keras平台的自适应深度学习模型优化方法。

本发明的目的可以通过以下技术方案来实现：

一种基于Keras平台的自适应深度学习模型优化方法，包括以下步骤：

S1：对Q值网络的参数进行优化。

在Q值网络中采用两套不同的参数θ与θ^-。θ为将表格Q(s,a)利用函数Q(s,a,θ)映射后的函数参数。其中参数θ用以选出最大Q值的动作，参数θ^-则用以选出最优Q值的动作。两套参数将动作选择与全局最优决策分离，使得模型过高估计Q值的风险降低。目标Q值的形式如下：

上式表示动作的选择采用θ网络argmax_aQ(s′,a|θ_i)，动作评估采用θ^-，式中，r为奖励，γ为折扣因子。s′表示当前的状态，a表示当前的动作。

S2：建立预测模型，并对模型进行超参数调节。

利用Keras包装深度学习模型的每一层神经网络，并将包装好的深度学习模型应用到scikit-learn中作为预测模型。

建立预测模型后，通过DQN(Deep Q-Learing，深度Q-Learning)对超参数之一学习率进行自适应调节，使预测模型在其他相似结构的预测效果达到人工调参精度的水平，满足一个场景的预测需求。

S3：利用Q-Learning算法为深度Q网络提供有标签的样本数据。

将当前动作下的奖励与Q-Learning算法计算出来的目标Q值作为标签，令Q值趋近于目标Q值，则深度Q网络训练的损失函数为：

L(w)＝E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]

式中，参数θ为实时更新的。r+γmaxQ(s′,a′,θ)为目标Q值，Q(s,a,θ)为Q估计值。

S4：根据步骤二提供的样本数据训练深度Q网络。

采用经验回放机制(experience reply)对深度Q网络进行训练，每一次对神经网络的参数进行更新时，从数据里随机地调取小批量之前的训练结果，以辅助培训神经网络。

一个经验包含(s_i,a_i,r_i+1,s_i+1,label)^j，其中i是指时间步为i，j是指e_greed为j，label代表标签。e_greed为贪婪指数，当其值为1时模型全力探索新值来测试效果，填充Q表格内容，当为0时模型在目前已知的Q表格中选出获得奖励最大的动作系列值。这些元组储存在经验E的记忆中，除了用大部分最近的经验来更新深度Q网络，一个子集S∈E被从记忆中拉出来用于小批量的更新深度Q网络，并使用随机梯度下降算法更新参数w。训练过程中要求样本之间相互独立，使得样本之间的联系变少，使算法更加稳定。

深度Q网络采用两个神经网络，一个用于存放当前训练出来的Q值，另一个用于产生目标Q值。在一定步数后将当前Q值复制到目标Q值网络中，衡量两个网络Q值误差采用深度Q网络训练的损失函数，即：

L(w)＝E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]

目标Q值网络在一定时间内是不会变动的，使两个网络保持一定的独立性，可提升算法的稳定性。

与现有技术相比，本发明具有以下优点：

一、本发明在Q值网络中采用两套不同的参数θ与θ^-。其中参数θ选出最大Q值的动作，参数θ^-则选出最优Q值的动作，两套参数将动作选择与全局最优决策分离，与传统DQN相比降低了过高估计Q值的风险；

二、本发明对模型中的多层神经网络均采用Keras代码，可提高已读性能，使调试更为简单；

三、本发明在建立预测模型后对模型进行超参数调节，如对学习率进行调节，使模型对于具有多个相似模型组成的系统有一定的自适能力，进而使预测模型在其他相似结构的预测效果达到人工调参精度的水平，满足不同场景的预测需求。

附图说明

图1为模型容量与误差之间的关系图；

图2为模型训练误差与学习率之间的关系图；

图3为深度Q网络的训练流程示意图；

图4为本发明实施例中，学习率为0.05，贪婪指数经过50回合由1递减到0.1情况下深度Q网络的训练误差结果图；

图5为本发明实施例中，学习率为0.05，贪婪指数为0.01情况下深度Q网络的训练误差结果图；

图6为本发明实施例中预测模型的损失收敛情况；

图7为本发明方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Keras是一个用Python编写的高级神经网络API，它能够以TensorFlow，CNTK，或者Theano作为后端运行。其优点主要有：

(1)用户友好。Keras是为人类而不是为机器设计的API。它把用户体验放在首要和中心位置。Keras遵循减少认知困难的最佳实践：它提供一致且简单的API，将常见用例所需的用户操作数量降至最低，并且在用户错误时提供清晰和可操作的反馈。

(2)模块化。模型被理解为由独立的、完全可配置的模块构成的序列或图。这些模块可以以尽可能少的限制组装在一起。特别是神经网络层、损失函数、优化器、初始化方法、激活函数、正则化方法，它们都是可以结合起来构建新模型的模块。

(3)易扩展性。新的模块很容易添加(作为新的类和函数)，现有的模块已经提供了充足的示例。由于能够轻松地创建可以提高表现力的新模块，Keras更加适合高级研究。

(4)基于Python实现。Keras没有特定格式的单独配置文件。模型定义在Python代码中，这些代码紧凑，易于调试，并且易于扩展。

Scikit-learn是一个功能强大的python包。Scikit-learn建立在NumPy、SciPy和matplotlib基础上，是一个操作简单、高效的数据挖掘和数据分析模块。Scikit-learn的基本功能主要被分为六大部分：分类，回归，聚类，数据降维，模型选择和数据预处理。

DQN(Deep Q-Learing，深度Q-Learning)的强化学习的动作估值方法有策略网络与估值网络两种。Q-Learning主要思想为估值网络。Q-Learning可构建一个包含状态与动作的Q值网格，对不同的状态动作对进行Q值评估，用公式表达为：

Q(S_t,A_t)←Q(S_t,A_t)+α(R_t+1+γmaxQ(S_t+1,a)-Q(S_t,A_t))

式中，S_t表示当前的状态，A_t表示当前的动作，S_t+1表示下一个状态，γ为折扣因子，R_t+1为reward矩阵，a为动作。

由上式可以看出，公式并未将Q估计值直接赋予新的Q值，而是采用逐渐梯度下降的方式，向目标迈进一小步，这一步取决于a，能够减少估计误差造成的影响。Q-Learning的算法具体的算法步骤为：

(1)初始化Q(s,a)，任意数值，并且令目标状态与当前状态之间的差异为零，即Q(terminal—state，·)＝0；

(2)对每一节的episode重复步骤(1)；

(3)初始化当前状态S；

(4)对episode重复每一步；

(5)使用某一个policy，如(ε-greedy)，根据状态S选取一个动作执行；

(6)执行完动作后，观察reward矩阵和新的状态S′；

(7)对不同的状态动作对进行Q值评估，即：

Q(S_t,A_t)←Q(S_t,A_t)+α(R_t+1+γmaxQ(S_t+1,a)-Q(S_t,A_t))

(8)重复执行上述步骤，直到新的状态S′成为目标状态，即S←S′。

其中，ε-greedy是为了权衡智能体探索与利用的比重。探索鼓励智能体尝试不同的动作，并且会更新Q表格。而贪婪策略则鼓励智能体在当前Q表格中寻找最优策略，Q表格则不会更新，通过改变ε的数值来改变智能体的搜索与利用的倾向，一般在开始阶段由于Q表格为空白，算法鼓励智能体去尝试不同的动作，将Q表格进行填充，到一定阶段后增加利用的倾向，来获取最优策略，测试算法的有效性。

如图7所示，本发明涉及一种基于Keras平台的自适应深度学习模型优化方法，包括以下步骤：

步骤一、对Q值网络的参数进行优化。

在Q值网络中采用两套不同的参数θ与θ^-。其中参数θ用以选出最大Q值的动作，参数θ^-则用以选出最优Q值的动作。两套参数将动作选择与全局最优决策分离，使得模型过高估计Q值的风险降低。目标Q值的形式如下：

上式表示动作的选择采用θ网络argmax_aQ(s′,a|θ_i)，动作评估采用θ^-，即Y_i。

步骤二、利用Keras包装深度学习模型的每一层神经网络，并将包装好的深度学习模型应用到scikit-learn中作为预测模型。

步骤三、利用Q-Learning算法为深度Q网络提供有标签的样本数据。

将当前动作下的奖励与Q计算出来的目标Q值结合作为标签，并令Q值趋近于目标Q值，则深度Q网络训练的损失函数为：

L(w)＝E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]

步骤四、根据步骤三提供的样本数据训练深度Q网络。

在训练时采用经验回放机制(experience reply)，每一次对神经网络的参数进行更新时，就从数据里随机地调取一小批之前的训练结果，帮助培训神经网络。

由图3可看出，深度Q网络采用了两个神经网络，一个用来存放当前训练出来的Q值，另一个则产生目标Q值。在一定步数后将当前Q值复制到目标Q值网络中，衡量两个网络Q值误差采用公式L(w)＝E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]，参数θ是实时更新的。目标Q值网络在一定时间内是不会变动的，使两个网络保持一定的独立性，可提升算法的稳定性。

本实施例以风电场为例，风电场为一个典型的并联系统，风电场由很多风机组成，且风机由于地形不同，其每个风机的预测模型会有些许不同。

训练一个深度Q网络自适应前面的多层感知机模型的学习率，风速、风向、温度组成的7145条风电功率数据，验证数据为1787条。

在训练部分，采用经验回放的训练技巧。模型初始参数设置为6层全连接神经层，第一层为128个神经元，中间四层为64个神经元，最后一层1个神经元，除此之外在第5层添加了正则系数为0.01的L2正则方法。模型的优化算法为RMSProp算法，迭代步数为500步。

结果分析

在初始设定参数的情况下，深度Q网络的误差一直无法收敛，图4为学习率为0.05，贪婪指数经过50回合由1递减到0.1情况下的深度Q网络的误差，引起该误差的主要原因有两个，一是深度Q网络的学习率其二是探索参数ε的值，通常当学习速率在开始时没有正确设置(通常太大)时，损失通常会振荡(有时甚至发散)，因为它总是超过最佳点，因此永远不会收敛。就ε而言，如果它不够小，智能体将探索更多而不是利用获取的信息来为每个步骤进行更新，这使得深度Q网络不稳定。

因此，首先测试深度Q网络的不同学习率，包括0.025，0.01和0.005。这时，选择adam梯度下降法来训练深度Q网络。然而训练期间它们似乎都没有收敛。针对此情况将学习率保持在0.05并且每集减少到固定的0.01，可观察到DQN损耗的收敛，如图5所示。随后测试贪婪指数为0.07与学习率为0.02的深度Q网络训练出来的预测模型收敛情况，如图6所示，自适应调节的参数放入预测模型在十几步迭代后预测误差快速收敛，随后维持在较低水平。计算后其均方根误差RSME为8.3％，其精度可以达到接受范围。

本发明建立的预测模型均采用Keras代码，使得整体更加简洁与已读，调试更为简单；此外，通过在建立预测模型后对模型进行学习率调节，使模型对于具有多个相似模型组成的系统有一定的自适能力，进而使预测模型在其他相似结构的预测效果达到人工调参精度的水平，满足不同场景的预测需求。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，该方法包括下列步骤：

1)对Q值网络的参数进行优化，将动作选择与全局最优决策分离；

2)利用Keras建立预测模型，并对模型进行超参数调节；

3)采用Q-Learning算法为深度Q网络提供有标签的样本数据；

4)根据提供的样本数据训练深度Q网络。

2.根据权利要求1所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤1)的具体内容为：

在Q值网络中采用两套不同的用以选择动作的参数θ与θ^-，其中，参数θ用以选出最大Q值的动作，参数θ^-则用以选出最优Q值的动作，两套参数将动作选择与全局最优决策分离，θ为将表格Q(s,a)用函数Q(s,a,θ)映射后的函数参数。

3.根据权利要求1所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤2)具体包括以下步骤：

21)利用Keras包装深度学习模型的每一层神经网络，并将包装好的深度学习模型应用到scikit-learn中作为预测模型；

22)预测模型建立后，通过DQN对超学习率进行自适应调节。

4.根据权利要求2所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤3)的具体内容为：

采用Q-Learning算法计算目标Q值，并将其与当前动作下的奖励结合作为标签，样本数据的表达式为(s_i,a_i,r_i+1,s_i+1,label)^j，其中i表示时间步为i，j表示e_greed为j，label为标签，e_greed为贪婪指数，,_i+1为下一步奖励，s_i为当前步状态，s_i+1为下一步状态，a_i为当前步动作。

5.根据权利要求4所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤4)的具体内容为：

采用经验回放机制对深度Q网络进行训练，每一次对神经网络的参数进行更新时，从数据里随机地调取小批量之前的训练结果，辅助培训神经网络。

6.根据权利要求5所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤4)中，深度Q网络采用两个神经网络，一个用于存放当前训练出来的Q值，另一个用于产生目标Q值，训练过程中，在一定步数后将当前Q值复制到目标Q值网络中。

7.根据权利要求6所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，深度Q网络进行训练的损失函数为：

L(w)＝E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]

式中，+γmaxQ(s′,a′,θ)为目标Q值，r为奖励，γ为折扣因子，Q(s,a,θ)为Q估计值。