CN110245742A - 一种基于Keras平台的自适应深度学习模型优化方法 - Google Patents

一种基于Keras平台的自适应深度学习模型优化方法 Download PDF

Info

Publication number
CN110245742A
CN110245742A CN201910380960.8A CN201910380960A CN110245742A CN 110245742 A CN110245742 A CN 110245742A CN 201910380960 A CN201910380960 A CN 201910380960A CN 110245742 A CN110245742 A CN 110245742A
Authority
CN
China
Prior art keywords
network
value
keras
deep learning
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910380960.8A
Other languages
English (en)
Inventor
赵坤
张挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Electric Power
Original Assignee
Shanghai University of Electric Power
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Electric Power filed Critical Shanghai University of Electric Power
Priority to CN201910380960.8A priority Critical patent/CN110245742A/zh
Publication of CN110245742A publication Critical patent/CN110245742A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于Keras平台的自适应深度学习模型优化方法,该方法包括下列步骤:1)对Q值网络的参数进行优化,将动作选择与全局最优决策分离;2)利用Keras建立预测模型,并对模型进行超参数调节;3)采用Q‑Learning算法为深度Q网络提供有标签的样本数据;4)根据提供的样本数据训练深度Q网络。与现有技术相比,本发明能够降低过高估计Q值的风险,易于调试,提高已读性,使模型对于具有多个相似模型组成的系统有一定的自适能力,进而使预测模型在其他相似结构的预测效果达到人工调参精度的水平,满足不同场景的预测需求。

Description

一种基于Keras平台的自适应深度学习模型优化方法
技术领域
本发明涉及深度学习领域,尤其是涉及一种基于Keras平台的自适应深度学习模型优化方法。
背景技术
Keras是一个高层神经网络库,Keras由纯Python编写而成并基于TensorFlow或Theano。Keras为支持快速实验而生,能够把用户的idea迅速转换为结果。Keras具有简易和快速的原型设计,还具有高度模块化、极简和可扩充特性,支持CNN、RNN或二者的结合,支持任意的链接方案(包括多输入和多输出训练),无缝CPU和GPU切换。
超参数是指深度学习模型中需要事先设定的参数,如网络层数、失活层的系数、优化方法的学习率、每一层包含的细胞数等。在不考虑时间与计算力的情况下,最简单的提高预测准确度的方法是增大训练数据的规模以及加深深度学习模型,但是实际情况中的时间与计算力以及获得的数据往往是有限的,所以需要对超参数进行一个调节以适应当前的模型更好的表达训练数据中的特性。如图1所示,最左端显示的是欠拟合即训练误差与验证误差均很大,随着模型的容量的增加,训练误差与验证误差先是慢慢缩小,但是继续扩大后训练误差持续变小,训练误差与验证误差间的差距却越来越大,即泛化能力越来越弱,这被称为过拟合,模型的深度超过了最优部分。对于深度模型的超参数而言,大部分都符合图1所示的U型特点。需要解决的问题就是找到最优部分所在的位置。在所有超参数中最重要的为学习率,学习率对模型的深度影响最大,当学习率不大不小刚刚合适时,模型的深度最佳,学习率与训练误差间也具有U形曲线。如图2所示,当学习率过大时,训练误差不仅不缩小反而会迅速增大,当学习率过小时,不仅训练速度过慢而且有可能永远停留在一个很高的训练误差上。
对并联系统而言,现有的对整个系统进行预测的方法需要较大的人力成本参与调参,且对整个系统整体进行预测的准确度不如对不同单元预测后叠加的准确度高,然而现有的预测模型尚未针对提出一种不同单元预测后叠加的方式进行优化。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Keras平台的自适应深度学习模型优化方法。
本发明的目的可以通过以下技术方案来实现:
一种基于Keras平台的自适应深度学习模型优化方法,包括以下步骤:
S1:对Q值网络的参数进行优化。
在Q值网络中采用两套不同的参数θ与θ-。θ为将表格Q(s,a)利用函数Q(s,a,θ)映射后的函数参数。其中参数θ用以选出最大Q值的动作,参数θ-则用以选出最优Q值的动作。两套参数将动作选择与全局最优决策分离,使得模型过高估计Q值的风险降低。目标Q值的形式如下:
上式表示动作的选择采用θ网络argmaxaQ(s′,a|θi),动作评估采用θ-,式中,r为奖励,γ为折扣因子。s′表示当前的状态,a表示当前的动作。
S2:建立预测模型,并对模型进行超参数调节。
利用Keras包装深度学习模型的每一层神经网络,并将包装好的深度学习模型应用到scikit-learn中作为预测模型。
建立预测模型后,通过DQN(Deep Q-Learing,深度Q-Learning)对超参数之一学习率进行自适应调节,使预测模型在其他相似结构的预测效果达到人工调参精度的水平,满足一个场景的预测需求。
S3:利用Q-Learning算法为深度Q网络提供有标签的样本数据。
将当前动作下的奖励与Q-Learning算法计算出来的目标Q值作为标签,令Q值趋近于目标Q值,则深度Q网络训练的损失函数为:
L(w)=E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]
式中,参数θ为实时更新的。r+γmaxQ(s′,a′,θ)为目标Q值,Q(s,a,θ)为Q估计值。
S4:根据步骤二提供的样本数据训练深度Q网络。
采用经验回放机制(experience reply)对深度Q网络进行训练,每一次对神经网络的参数进行更新时,从数据里随机地调取小批量之前的训练结果,以辅助培训神经网络。
一个经验包含(si,ai,ri+1,si+1,label)j,其中i是指时间步为i,j是指e_greed为j,label代表标签。e_greed为贪婪指数,当其值为1时模型全力探索新值来测试效果,填充Q表格内容,当为0时模型在目前已知的Q表格中选出获得奖励最大的动作系列值。这些元组储存在经验E的记忆中,除了用大部分最近的经验来更新深度Q网络,一个子集S∈E被从记忆中拉出来用于小批量的更新深度Q网络,并使用随机梯度下降算法更新参数w。训练过程中要求样本之间相互独立,使得样本之间的联系变少,使算法更加稳定。
深度Q网络采用两个神经网络,一个用于存放当前训练出来的Q值,另一个用于产生目标Q值。在一定步数后将当前Q值复制到目标Q值网络中,衡量两个网络Q值误差采用深度Q网络训练的损失函数,即:
L(w)=E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]
目标Q值网络在一定时间内是不会变动的,使两个网络保持一定的独立性,可提升算法的稳定性。
与现有技术相比,本发明具有以下优点:
一、本发明在Q值网络中采用两套不同的参数θ与θ-。其中参数θ选出最大Q值的动作,参数θ-则选出最优Q值的动作,两套参数将动作选择与全局最优决策分离,与传统DQN相比降低了过高估计Q值的风险;
二、本发明对模型中的多层神经网络均采用Keras代码,可提高已读性能,使调试更为简单;
三、本发明在建立预测模型后对模型进行超参数调节,如对学习率进行调节,使模型对于具有多个相似模型组成的系统有一定的自适能力,进而使预测模型在其他相似结构的预测效果达到人工调参精度的水平,满足不同场景的预测需求。
附图说明
图1为模型容量与误差之间的关系图;
图2为模型训练误差与学习率之间的关系图;
图3为深度Q网络的训练流程示意图;
图4为本发明实施例中,学习率为0.05,贪婪指数经过50回合由1递减到0.1情况下深度Q网络的训练误差结果图;
图5为本发明实施例中,学习率为0.05,贪婪指数为0.01情况下深度Q网络的训练误差结果图;
图6为本发明实施例中预测模型的损失收敛情况;
图7为本发明方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
Keras是一个用Python编写的高级神经网络API,它能够以TensorFlow,CNTK,或者Theano作为后端运行。其优点主要有:
(1)用户友好。Keras是为人类而不是为机器设计的API。它把用户体验放在首要和中心位置。Keras遵循减少认知困难的最佳实践:它提供一致且简单的API,将常见用例所需的用户操作数量降至最低,并且在用户错误时提供清晰和可操作的反馈。
(2)模块化。模型被理解为由独立的、完全可配置的模块构成的序列或图。这些模块可以以尽可能少的限制组装在一起。特别是神经网络层、损失函数、优化器、初始化方法、激活函数、正则化方法,它们都是可以结合起来构建新模型的模块。
(3)易扩展性。新的模块很容易添加(作为新的类和函数),现有的模块已经提供了充足的示例。由于能够轻松地创建可以提高表现力的新模块,Keras更加适合高级研究。
(4)基于Python实现。Keras没有特定格式的单独配置文件。模型定义在Python代码中,这些代码紧凑,易于调试,并且易于扩展。
Scikit-learn是一个功能强大的python包。Scikit-learn建立在NumPy、SciPy和matplotlib基础上,是一个操作简单、高效的数据挖掘和数据分析模块。Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。
DQN(Deep Q-Learing,深度Q-Learning)的强化学习的动作估值方法有策略网络与估值网络两种。Q-Learning主要思想为估值网络。Q-Learning可构建一个包含状态与动作的Q值网格,对不同的状态动作对进行Q值评估,用公式表达为:
Q(St,At)←Q(St,At)+α(Rt+1+γmaxQ(St+1,a)-Q(St,At))
式中,St表示当前的状态,At表示当前的动作,St+1表示下一个状态,γ为折扣因子,Rt+1为reward矩阵,a为动作。
由上式可以看出,公式并未将Q估计值直接赋予新的Q值,而是采用逐渐梯度下降的方式,向目标迈进一小步,这一步取决于a,能够减少估计误差造成的影响。Q-Learning的算法具体的算法步骤为:
(1)初始化Q(s,a),任意数值,并且令目标状态与当前状态之间的差异为零,即Q(terminal—state,·)=0;
(2)对每一节的episode重复步骤(1);
(3)初始化当前状态S;
(4)对episode重复每一步;
(5)使用某一个policy,如(ε-greedy),根据状态S选取一个动作执行;
(6)执行完动作后,观察reward矩阵和新的状态S′;
(7)对不同的状态动作对进行Q值评估,即:
Q(St,At)←Q(St,At)+α(Rt+1+γmaxQ(St+1,a)-Q(St,At))
(8)重复执行上述步骤,直到新的状态S′成为目标状态,即S←S′。
其中,ε-greedy是为了权衡智能体探索与利用的比重。探索鼓励智能体尝试不同的动作,并且会更新Q表格。而贪婪策略则鼓励智能体在当前Q表格中寻找最优策略,Q表格则不会更新,通过改变ε的数值来改变智能体的搜索与利用的倾向,一般在开始阶段由于Q表格为空白,算法鼓励智能体去尝试不同的动作,将Q表格进行填充,到一定阶段后增加利用的倾向,来获取最优策略,测试算法的有效性。
如图7所示,本发明涉及一种基于Keras平台的自适应深度学习模型优化方法,包括以下步骤:
步骤一、对Q值网络的参数进行优化。
在Q值网络中采用两套不同的参数θ与θ-。其中参数θ用以选出最大Q值的动作,参数θ-则用以选出最优Q值的动作。两套参数将动作选择与全局最优决策分离,使得模型过高估计Q值的风险降低。目标Q值的形式如下:
上式表示动作的选择采用θ网络argmaxaQ(s′,a|θi),动作评估采用θ-,即Yi
步骤二、利用Keras包装深度学习模型的每一层神经网络,并将包装好的深度学习模型应用到scikit-learn中作为预测模型。
步骤三、利用Q-Learning算法为深度Q网络提供有标签的样本数据。
将当前动作下的奖励与Q计算出来的目标Q值结合作为标签,并令Q值趋近于目标Q值,则深度Q网络训练的损失函数为:
L(w)=E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]
步骤四、根据步骤三提供的样本数据训练深度Q网络。
在训练时采用经验回放机制(experience reply),每一次对神经网络的参数进行更新时,就从数据里随机地调取一小批之前的训练结果,帮助培训神经网络。
由图3可看出,深度Q网络采用了两个神经网络,一个用来存放当前训练出来的Q值,另一个则产生目标Q值。在一定步数后将当前Q值复制到目标Q值网络中,衡量两个网络Q值误差采用公式L(w)=E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))],参数θ是实时更新的。目标Q值网络在一定时间内是不会变动的,使两个网络保持一定的独立性,可提升算法的稳定性。
本实施例以风电场为例,风电场为一个典型的并联系统,风电场由很多风机组成,且风机由于地形不同,其每个风机的预测模型会有些许不同。
训练一个深度Q网络自适应前面的多层感知机模型的学习率,风速、风向、温度组成的7145条风电功率数据,验证数据为1787条。
在训练部分,采用经验回放的训练技巧。模型初始参数设置为6层全连接神经层,第一层为128个神经元,中间四层为64个神经元,最后一层1个神经元,除此之外在第5层添加了正则系数为0.01的L2正则方法。模型的优化算法为RMSProp算法,迭代步数为500步。
结果分析
在初始设定参数的情况下,深度Q网络的误差一直无法收敛,图4为学习率为0.05,贪婪指数经过50回合由1递减到0.1情况下的深度Q网络的误差,引起该误差的主要原因有两个,一是深度Q网络的学习率其二是探索参数ε的值,通常当学习速率在开始时没有正确设置(通常太大)时,损失通常会振荡(有时甚至发散),因为它总是超过最佳点,因此永远不会收敛。就ε而言,如果它不够小,智能体将探索更多而不是利用获取的信息来为每个步骤进行更新,这使得深度Q网络不稳定。
因此,首先测试深度Q网络的不同学习率,包括0.025,0.01和0.005。这时,选择adam梯度下降法来训练深度Q网络。然而训练期间它们似乎都没有收敛。针对此情况将学习率保持在0.05并且每集减少到固定的0.01,可观察到DQN损耗的收敛,如图5所示。随后测试贪婪指数为0.07与学习率为0.02的深度Q网络训练出来的预测模型收敛情况,如图6所示,自适应调节的参数放入预测模型在十几步迭代后预测误差快速收敛,随后维持在较低水平。计算后其均方根误差RSME为8.3%,其精度可以达到接受范围。
本发明建立的预测模型均采用Keras代码,使得整体更加简洁与已读,调试更为简单;此外,通过在建立预测模型后对模型进行学习率调节,使模型对于具有多个相似模型组成的系统有一定的自适能力,进而使预测模型在其他相似结构的预测效果达到人工调参精度的水平,满足不同场景的预测需求。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种基于Keras平台的自适应深度学习模型优化方法,其特征在于,该方法包括下列步骤:
1)对Q值网络的参数进行优化,将动作选择与全局最优决策分离;
2)利用Keras建立预测模型,并对模型进行超参数调节;
3)采用Q-Learning算法为深度Q网络提供有标签的样本数据;
4)根据提供的样本数据训练深度Q网络。
2.根据权利要求1所述的一种基于Keras平台的自适应深度学习模型优化方法,其特征在于,步骤1)的具体内容为:
在Q值网络中采用两套不同的用以选择动作的参数θ与θ-,其中,参数θ用以选出最大Q值的动作,参数θ-则用以选出最优Q值的动作,两套参数将动作选择与全局最优决策分离,θ为将表格Q(s,a)用函数Q(s,a,θ)映射后的函数参数。
3.根据权利要求1所述的一种基于Keras平台的自适应深度学习模型优化方法,其特征在于,步骤2)具体包括以下步骤:
21)利用Keras包装深度学习模型的每一层神经网络,并将包装好的深度学习模型应用到scikit-learn中作为预测模型;
22)预测模型建立后,通过DQN对超学习率进行自适应调节。
4.根据权利要求2所述的一种基于Keras平台的自适应深度学习模型优化方法,其特征在于,步骤3)的具体内容为:
采用Q-Learning算法计算目标Q值,并将其与当前动作下的奖励结合作为标签,样本数据的表达式为(si,ai,ri+1,si+1,label)j,其中i表示时间步为i,j表示e_greed为j,label为标签,e_greed为贪婪指数,,i+1为下一步奖励,si为当前步状态,si+1为下一步状态,ai为当前步动作。
5.根据权利要求4所述的一种基于Keras平台的自适应深度学习模型优化方法,其特征在于,步骤4)的具体内容为:
采用经验回放机制对深度Q网络进行训练,每一次对神经网络的参数进行更新时,从数据里随机地调取小批量之前的训练结果,辅助培训神经网络。
6.根据权利要求5所述的一种基于Keras平台的自适应深度学习模型优化方法,其特征在于,步骤4)中,深度Q网络采用两个神经网络,一个用于存放当前训练出来的Q值,另一个用于产生目标Q值,训练过程中,在一定步数后将当前Q值复制到目标Q值网络中。
7.根据权利要求6所述的一种基于Keras平台的自适应深度学习模型优化方法,其特征在于,深度Q网络进行训练的损失函数为:
L(w)=E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]
式中,+γmaxQ(s′,a′,θ)为目标Q值,r为奖励,γ为折扣因子,Q(s,a,θ)为Q估计值。
CN201910380960.8A 2019-05-08 2019-05-08 一种基于Keras平台的自适应深度学习模型优化方法 Pending CN110245742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910380960.8A CN110245742A (zh) 2019-05-08 2019-05-08 一种基于Keras平台的自适应深度学习模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910380960.8A CN110245742A (zh) 2019-05-08 2019-05-08 一种基于Keras平台的自适应深度学习模型优化方法

Publications (1)

Publication Number Publication Date
CN110245742A true CN110245742A (zh) 2019-09-17

Family

ID=67883834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910380960.8A Pending CN110245742A (zh) 2019-05-08 2019-05-08 一种基于Keras平台的自适应深度学习模型优化方法

Country Status (1)

Country Link
CN (1) CN110245742A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN112732496A (zh) * 2020-12-05 2021-04-30 西安翔腾微电子科技有限公司 一种gpu深度测试精度的评估方法
CN113568954A (zh) * 2021-08-02 2021-10-29 湖北工业大学 网络流量预测数据预处理阶段的参数最优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203809A (zh) * 2017-04-20 2017-09-26 华中科技大学 一种基于Keras的深度学习自动化调参方法及系统
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203809A (zh) * 2017-04-20 2017-09-26 华中科技大学 一种基于Keras的深度学习自动化调参方法及系统
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘庆杰等: "面向智能避障场景的深度强化学习研究", 《智能物联技术》 *
刘建伟等: "基于值函数和策略梯度的深度强化学习综述", 《计算机学报》 *
闫军威等: "基于Double-DQN的中央空调系统节能优化运行", 《华南理工大学学报(自然科学版)》 *
黄颖等: "一种基于稠密卷积网络和竞争架构的改进路径规划算法", 《计算机与数字工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN110883776B (zh) * 2019-11-29 2021-04-23 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN112732496A (zh) * 2020-12-05 2021-04-30 西安翔腾微电子科技有限公司 一种gpu深度测试精度的评估方法
CN112732496B (zh) * 2020-12-05 2024-04-12 西安翔腾微电子科技有限公司 一种gpu深度测试精度的评估方法
CN113568954A (zh) * 2021-08-02 2021-10-29 湖北工业大学 网络流量预测数据预处理阶段的参数最优化方法及系统
CN113568954B (zh) * 2021-08-02 2024-03-19 湖北工业大学 网络流量预测数据预处理阶段的参数最优化方法及系统

Similar Documents

Publication Publication Date Title
CN110245742A (zh) 一种基于Keras平台的自适应深度学习模型优化方法
Yu et al. LLR: Learning learning rates by LSTM for training neural networks
CN108932671A (zh) 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN112330487B (zh) 一种光伏发电短期功率预测方法
CN107703751A (zh) 基于蜻蜓算法的pid控制器优化方法
CN114492833A (zh) 基于梯度记忆的车联网联邦学习分层知识安全迁移方法
CN103544528A (zh) 一种基于Hadoop的BP神经网络分类方法
CN102708381A (zh) 融合最小二乘向量机回归学习思想的改进极限学习机
CN108537335A (zh) 一种自适应学习率的bp神经网络算法
CN109978283A (zh) 一种基于分支进化神经网络的光伏发电功率预测方法
CN110110380B (zh) 一种压电执行器迟滞非线性建模方法及应用
CN110428093A (zh) 基于改进的布谷鸟算法的城市轨道列车运行优化方法
CN109934422A (zh) 一种基于时间序列数据分析的神经网络风速预测方法
CN108876029A (zh) 一种基于双种群自适应混沌萤火虫的客流预测方法
WO2024016739A1 (zh) 训练神经网络模型的方法、电子设备、云端、集群及介质
CN107578101B (zh) 一种数据流负载预测方法
CN105719101A (zh) 光伏系统发电功率预测方法
Zhao et al. Knowledge distillation via module replacing for automatic speech recognition with recurrent neural network transducer
CN104216383B (zh) 一种小水电站机组运行效率优化方法
CN116300755A (zh) 基于mpc的含储热的供热系统双层优化调度方法及装置
CN117349732A (zh) 基于人工智能的高流量湿化治疗仪管理方法及系统
CN116643499A (zh) 一种基于模型强化学习的智能体路径规划方法及系统
CN118230908A (zh) 一种基于强化学习的中医大模型及偏好对齐方法
CN116758767B (zh) 基于多策略强化学习的交通信号灯控制方法
CN112202196B (zh) 一种双馈风力发电机的量子深度强化学习控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917

RJ01 Rejection of invention patent application after publication