CN110850720A - 一种基于dqn算法的区域自动发电动态控制方法 - Google Patents

一种基于dqn算法的区域自动发电动态控制方法 Download PDF

Info

Publication number
CN110850720A
CN110850720A CN201911186894.7A CN201911186894A CN110850720A CN 110850720 A CN110850720 A CN 110850720A CN 201911186894 A CN201911186894 A CN 201911186894A CN 110850720 A CN110850720 A CN 110850720A
Authority
CN
China
Prior art keywords
neural network
algorithm
value
function
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911186894.7A
Other languages
English (en)
Inventor
张志轩
李晓宇
王亮
麻常辉
张鹏飞
李文博
杨冬
蒋哲
周宁
邢鲁华
李山
刘文学
张冰
房俏
赵康
马欢
陈博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911186894.7A priority Critical patent/CN110850720A/zh
Publication of CN110850720A publication Critical patent/CN110850720A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于DQN算法的区域自动发电动态控制方法,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。本发明实施例的技术方案通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制,以深度神经网络(DNN)来代替传统Q学习中的“状态‑动作”对,直接构成电网连续状态量与奖励期望之间的映射关系;通过与深度神经网络的有机结合,不仅使Q学习算法拥有了处理复杂的连续状态量的能力,从根本上解决了维数灾问题,同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。

Description

一种基于DQN算法的区域自动发电动态控制方法
技术领域
本发明涉及一种基于DQN算法的区域自动发电动态控制方法,属于电力系统自动发电控制技术领域。
背景技术
自动发电控制(automatic generation control,AGC)作为能量管理系统(energymanagement system,EMS)的重要环节之一,主要分为2个过程:1)总功率指令的跟踪2)总功率指令的分配。通常以CPS考核合格率作为评价AGC控制性能的重要标准。传统的负荷频率控制,即狭义的自动发电控制(AGC)因为采用了负反馈控制,比例积分环节始终都可以消除误差达到稳定状态。但由于火电系统存在非线性环节,基于线性规划控制的动态性能无法让人满意。同时二次控制回路的比例积分增益系数不仅与系统结构参数有关,还与负荷变化相关,需随着系统负荷的变化实时调节,才能满足负荷变化时频率的变化要求。
CPS标准下的AGC系统可看作“不确定的随机系统”,数学模型以高斯-马尔可夫随机过程建模,功率动态分配问题可理解为一个离散时间马尔可夫决策过程。传统解析方法对电网结构、参数以及运行量测数据的精确程度依赖较高,复杂的迭代求解算法常存在鲁棒性不强的问题。以马尔可夫决策过程(MDP)为严格数学基础的强化学习(RL)算法只需对当前控制效果的评价信息做出反应,具有更高的控制实时性和鲁棒性,以及常规控制方法所不具备的渐进学习寻优能力。近年来涌现大量研究将RL算法广泛应用到电力系统运行与规划的决策之中。
专利申请号为201811407241.2的中国发明专利:“一种考虑预防策略的大规模电力系统自动发电控制方法”,提出一种将深度森林算法与强化学习算法相结合的自动发电控制方法,具有处理表征关系的能力和逐层加强表征学习的能力。深度森林算法作为基于决策树的集成算法,能减少强化学习算法带来的维度灾难;深度森林强化学习算法用于预防性策略,可预测电力系统的下一时刻状态。但该方法仅能削弱维数灾引起的计算困难,并不能从根本上解决维数灾问题。
发明内容
针对以上方法存在的不足,本发明提出了一种基于DQN算法的区域自动发电动态控制方法,其能够从根本上解决维数灾问题,能够让AGC系统在在一定范围内预测下一时刻的状态,提高AGC系统的主动控制能力,更好地实现智能化的发电控制。
本发明解决其技术问题采取的技术方案是:
本发明实施例提供的一种基于DQN算法的区域自动发电动态控制方法,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。
作为本实施例一种可能的实现方式,所述DQN算法和深度神经网络相结合的过程包括以下步骤:
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
(2)初始化以下参数:算法记忆库、具有相同结构的Q神经网络和Qt神经网络、初始状态s0、以及学习速度α和折扣因子γ;
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理;
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入算法记忆库;
(5)从算法记忆库中随机抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q神经网络,与Q神经网络具有相同结构的Qt神经网络每隔N次迭代复制一次Q神经网络参数;
(6)将DQN算法当前状态s更新至新状态s',并将迭代次数加一,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。
作为本实施例一种可能的实现方式,在步骤(1)中,DQN算法的状态量取联络线功率偏差ΔP和频率偏差Δf,动作量为各AGC机组出力设定值;奖励函数发CPS1指标指数kCPS1计算如下:
Figure BDA0002289220660000031
其中,ACEAVE-min为区域控制误差ACE在1分钟内的平均值;ΔFAVE-min为频率偏差ΔF在1分钟内的平均值;Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;nT为该考核时段的分钟数;
当kCPS1≥200%或者200%>kCPS1≥100%且|ACEAVE-10-min|≤L10时,CPS指标达到标准,奖励函数如下:
Figure BDA0002289220660000032
其中,ACEAVE-10-min是区域控制误差在10分钟内的平均值;Bs是互联神经网络中所有控制区域频率偏差的总和;ε10是CPS2指标值的目标频率范围;
Figure BDA0002289220660000033
作为本实施例一种可能的实现方式,在步骤(2)中,Q代表动作值函数,即考虑折扣因子的最大未来奖励期望,为配合单步模拟的时间差分法,根据贝尔曼最优原理写成递归形式:
Figure BDA0002289220660000034
式中,E指进行求期望的操作,s和a分别指当前状态及对应选择的控制动作,s'为环境在动作a影响下转移到的新状态,a'为新状态s'下所选择的控制动作。
作为本实施例一种可能的实现方式,在步骤(3)中,利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估;策略提升则使用最简单的贪婪原则,即认为最优策略与最优值函数相对应:
Figure BDA0002289220660000041
最优值函数a*(s)所对应的控制动作就是当前最优策略。
作为本实施例一种可能的实现方式,在步骤(5)中,利用深度学习训练深度神经网络来拟合动作值函数,看作是Q值函数的估计值与目标值之间均方差最小的最优化问题:
Figure BDA0002289220660000042
其中,Q值函数的估计值直接使用Q神经网络的输出Q(s,a),Q值函数的目标值则使用立即奖励r加上考虑折扣因子的次状态值函数Qt(s',a'),目标值中的值函数使用了Q神经网络的同结构神经网络Qt
Qt神经网络参数每迭代n步同步一次Q神经网络的参数,即:
Figure BDA0002289220660000043
通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题。作为本实施例一种可能的实现方式,在步骤(5)中,Q值函数的增量式迭代更新公式写成如下形式:
Figure BDA0002289220660000044
其中,
Figure BDA0002289220660000045
中的
Figure BDA0002289220660000046
为哈密顿算子,微分运算符号;L则对应式(5),即
Figure BDA0002289220660000047
为对式(5)进行微分运算。
本发明实施例的技术方案可以具有的有益效果如下:
本发明实施例的技术方案通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制,以深度神经网络(DNN)来代替传统Q学习中的“状态-动作”对,直接构成电网连续状态量与奖励期望之间的映射关系;通过与深度神经网络的有机结合,不仅使Q学习算法拥有了处理复杂的连续状态量的能力,从根本上解决了维数灾问题,同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。
本发明使用神经网络来近似Q值函数,使得算法具有了处理复杂场景,即高纬度状态和动作空间的潜力,同时可以一定程度上从已知状态推导未知状态,使得算法具有了处理部分可观测问题的能力。
附图说明:
图1是根据一示例性实施例示出的一种DQN算法和深度神经网络相结合的流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明实施例提供的一种基于DQN算法的区域自动发电动态控制方法,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。
图1是根据一示例性实施例示出的一种DQN算法和深度神经网络相结合的流程图。如图1所述,本发明实施例提供的一种DQN算法和深度神经网络相结合的过程包括以下步骤:
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
(2)初始化以下参数:算法记忆库、具有相同结构的Q神经网络和Qt神经网络、初始状态s0、以及学习速度α和折扣因子γ;
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理;
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入算法记忆库;
(5)从算法记忆库中随机抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q神经网络,与Q神经网络具有相同结构的Qt神经网络每隔N次迭代复制一次Q神经网络参数;
(6)将DQN算法当前状态s更新至新状态s',并将迭代次数加一,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。
本发明将DQN算法和深度神经网络相结合,以深度神经网络(DNN)来代替传统Q学习中的“状态-动作”对,直接构成电网连续状态量与奖励期望之间的映射关系;通过与深度神经网络的有机结合,不仅使Q学习算法拥有了处理复杂的连续状态量的能力,从根本上解决了维数灾问题,同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。其具体实施过程如下。
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
算法的状态量取联络线功率偏差ΔP和频率偏差Δf,动作量为各AGC机组出力设定值,因DQN算法可以处理连续的状态和动作量,此处不需离散化处理。奖励函数的设计则参考CPS控制性能标准,CPS1指标指数kCPS1计算如下:
Figure BDA0002289220660000061
其中,ACEAVE-min为区域控制误差ACE在1分钟内的平均值;ΔFAVE-min为频率偏差ΔF在1分钟内的平均值;Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;nT为该考核时段的分钟数。当kCPS1≥200%或者200%>kCPS1≥100%且|ACEAVE-10-min|≤L10时,CPS指标达到标准,由此可设计奖励函数如下:
其中,ACEAVE-10-min是区域控制误差在10分钟内的平均值;Bs是互联网络中所有控制区域频率偏差的总和;ε10是CPS2指标值的目标频率范围;
Figure BDA0002289220660000072
(2)初始化样本记忆库、具有相同结构的Q和Qt神经网络、初始状态s0、以及学习速率α和折扣因子γ等算法参数;
Q代表动作值函数,即考虑折扣因子的最大未来奖励期望,为配合单步模拟的时间差分法,通常根据贝尔曼最优原理写成递归形式:
Figure BDA0002289220660000073
传统强化学习算法采用表格形式存储每种离散状态和动作下的动作值函数Q,这使得算法在面临复杂问题时难以避免维数灾问题。为了解决这一缺点,以深度神经网络作为函数近似器将状态、动作与Q值间构建映射关系便成为了一种有效的解决方法。引入深度神经网络作为近似函数的DQN算法,面临着严峻的神经网络参数收敛性问题。深度学习要求训练样本相互独立,而强化学习处理的多阶段决策问题前后状态存在关联性。同时,基于广义策略迭代的学习框架导致强化学习算法的目标在迭代过程中一直变化,即使不发生变化,自举也会导致非平稳性,即强化学习训练过程属于变目标函数的最优化问题,近似函数的引入使得策略提升定理失效,收敛性难以保证。
针对上述问题,DQN算法建立记忆库,采取存储-随机取样的方法打破数据之间的关联性,满足了深度学习对于数据独立、同分布的要求;建立结构完全相同的Q和Qt神经网络,通过引入结构与主神经网络完全一致的辅助神经网络,阶段性时差更新目标函数网络的方式,使得算法训练过程在每个阶段都变为定目标函数的最优化问题。使用神经网络来近似Q值函数,使得DQN算法具有了处理复杂场景,即高纬度状态和动作空间的潜力。同时,近似函数的采用使得DQN算法具有了一定程度上从已知状态推导未知状态的能力,使得算法具有了处理部分可观测问题的能力。
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度等硬性约束对控制动作a进行额外处理;
利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估;另一方面,策略提升则使用最简单的贪婪原则,即认为最优策略与最优值函数相对应,最优值函数所对应的控制动作就是当前最优策略:
Figure BDA0002289220660000081
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入样本记忆库;
(5)从样本记忆库中按照一定规则抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q网络,与Q网络具有相同结构的Qt网络每隔N次迭代复制一次Q网络参数;
利用深度学习训练深度神经网络来拟合动作值函数,可以看作是Q值函数的估计值与目标值之间均方差最小的最优化问题:
Figure BDA0002289220660000082
其中,Q值函数的估计值直接使用Q网络的输出Q(s,a),Q值函数的目标值则使用立即奖励r加上考虑折扣因子的次状态值函数Qt(s',a'),目标值中的值函数使用了Q网络的同结构网络Qt网络。当Qt网络参数保持不变时,该最优化问题就变成了一般的定目标最优化问题。Qt网络参数每迭代n步同步一次Q网络的参数,即:
Figure BDA0002289220660000083
通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题,且只需优化Q网络,避免了计算量的增加。同时也解决了目标值中max操作引起的Q值过估计的问题。
因此,Q值函数的增量式迭代更新公式可以写成如下形式:
Figure BDA0002289220660000091
从样本记忆库中抽取样本可以采取随机抽取的方式,也可以借助某些标准,比如样本均方差的大小来评价样本的学习优先度,并根据学习优先度来抽取样本。
(6)将算法当前状态更新至s',并将迭代次数i=i+1,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代;否则跳转至步骤3。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视作为本发明的保护范围。

Claims (7)

1.一种基于DQN算法的区域自动发电动态控制方法,其特征是,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。
2.根据权利要求1所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,所述DQN算法和深度神经网络相结合的过程包括以下步骤:
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
(2)初始化以下参数:算法记忆库、具有相同结构的Q神经网络和Qt神经网络、初始状态s0、以及学习速度α和折扣因子γ;
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理;
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入算法记忆库;
(5)从算法记忆库中随机抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q神经网络,与Q神经网络具有相同结构的Qt神经网络每隔N次迭代复制一次Q神经网络参数;
(6)将DQN算法当前状态s更新至新状态s',并将迭代次数加一,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。
3.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(1)中,DQN算法的状态量取联络线功率偏差ΔP和频率偏差Δf,动作量为各AGC机组出力设定值;奖励函数发CPS1指标指数kCPS1计算如下:
Figure FDA0002289220650000011
其中,ACEAVE-min为区域控制误差ACE在1分钟内的平均值;ΔFAVE-min为频率偏差ΔF在1分钟内的平均值;Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;nT为该考核时段的分钟数;
当kCPS1≥200%或者200%>kCPS1≥100%且|ACEAVE-10-min|≤L10时,CPS指标达到标准,奖励函数如下:
Figure FDA0002289220650000021
其中,ACEAVE-10-min是区域控制误差在10分钟内的平均值;Bs是互联神经网络中所有控制区域频率偏差的总和;ε10是CPS2指标值的目标频率范围;
4.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(2)中,Q代表动作值函数,即考虑折扣因子的最大未来奖励期望,为配合单步模拟的时间差分法,根据贝尔曼最优原理写成递归形式:
Figure FDA0002289220650000023
式中,E指进行求期望的操作,s和a分别指当前状态及对应选择的控制动作,s'为环境在动作a影响下转移到的新状态,a'为新状态s'下所选择的控制动作。
5.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(3)中,利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估;策略提升则使用最简单的贪婪原则,即认为最优策略与最优值函数相对应:
Figure FDA0002289220650000024
式中,s和a分别指当前状态及对应选择的控制动作;
最优值函数a*(s)所对应的控制动作就是当前最优策略。
6.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(5)中,利用深度学习训练深度神经网络来拟合动作值函数,看作是Q值函数的估计值与目标值之间均方差最小的最优化问题:
Figure FDA0002289220650000031
其中,Q值函数的估计值直接使用Q神经网络的输出Q(s,a),Q值函数的目标值则使用立即奖励r加上考虑折扣因子的次状态值函数Qt(s',a'),目标值中的值函数使用了Q神经网络的同结构神经网络Qt
Qt神经网络参数每迭代n步同步一次Q神经网络的参数,即:
Figure FDA0002289220650000032
通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题。
7.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(5)中,Q值函数的增量式迭代更新公式写成如下形式:
其中,s和a分别指当前状态及对应选择的控制动作,
Figure FDA0002289220650000034
中的
Figure FDA0002289220650000035
为哈密顿算子,微分运算符号;L则对应式(5)。
CN201911186894.7A 2019-11-26 2019-11-26 一种基于dqn算法的区域自动发电动态控制方法 Pending CN110850720A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911186894.7A CN110850720A (zh) 2019-11-26 2019-11-26 一种基于dqn算法的区域自动发电动态控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911186894.7A CN110850720A (zh) 2019-11-26 2019-11-26 一种基于dqn算法的区域自动发电动态控制方法

Publications (1)

Publication Number Publication Date
CN110850720A true CN110850720A (zh) 2020-02-28

Family

ID=69605468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911186894.7A Pending CN110850720A (zh) 2019-11-26 2019-11-26 一种基于dqn算法的区域自动发电动态控制方法

Country Status (1)

Country Link
CN (1) CN110850720A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768028A (zh) * 2020-06-05 2020-10-13 天津大学 一种基于深度强化学习的gwlf模型参数调节方法
CN111864743A (zh) * 2020-07-29 2020-10-30 全球能源互联网研究院有限公司 一种电网调度控制模型的构建方法及电网调度控制方法
CN112437131A (zh) * 2020-11-10 2021-03-02 西北农林科技大学 物联网中考虑数据相关性的数据动态采集与传输方法
CN112631216A (zh) * 2020-12-11 2021-04-09 江苏晶度半导体科技有限公司 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113110052A (zh) * 2021-04-15 2021-07-13 浙大宁波理工学院 一种基于神经网络和强化学习的混合能量管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160149408A1 (en) * 2014-11-21 2016-05-26 Siemens Industry, Inc. Systems, methods and apparatus for improved management and control of energy delivery systems
CN109217306A (zh) * 2018-10-19 2019-01-15 三峡大学 一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法
CN109494766A (zh) * 2018-11-23 2019-03-19 广西大学 一种人工深度情感博弈强化学习的智能发电控制方法
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能系统调度方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160149408A1 (en) * 2014-11-21 2016-05-26 Siemens Industry, Inc. Systems, methods and apparatus for improved management and control of energy delivery systems
CN109217306A (zh) * 2018-10-19 2019-01-15 三峡大学 一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法
CN109494766A (zh) * 2018-11-23 2019-03-19 广西大学 一种人工深度情感博弈强化学习的智能发电控制方法
CN110414725A (zh) * 2019-07-11 2019-11-05 山东大学 预测决策一体化的风电场储能系统调度方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
余涛等: "基于强化学习的互联电网CPS自校正控制", 《电力系统保护与控制》 *
席磊等: "基于具有动作自寻优能力的深度强化学习的智能发电控制", 《中国科学:信息科学》 *
王立群等: "基于深度Q值网络的自动小车控制方法", 《电子测量技术》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768028A (zh) * 2020-06-05 2020-10-13 天津大学 一种基于深度强化学习的gwlf模型参数调节方法
CN111768028B (zh) * 2020-06-05 2022-05-27 天津大学 一种基于深度强化学习的gwlf模型参数调节方法
CN111864743A (zh) * 2020-07-29 2020-10-30 全球能源互联网研究院有限公司 一种电网调度控制模型的构建方法及电网调度控制方法
CN112437131A (zh) * 2020-11-10 2021-03-02 西北农林科技大学 物联网中考虑数据相关性的数据动态采集与传输方法
CN112631216A (zh) * 2020-12-11 2021-04-09 江苏晶度半导体科技有限公司 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN112861269B (zh) * 2021-03-11 2022-08-30 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113110052A (zh) * 2021-04-15 2021-07-13 浙大宁波理工学院 一种基于神经网络和强化学习的混合能量管理方法
CN113110052B (zh) * 2021-04-15 2022-07-26 浙大宁波理工学院 一种基于神经网络和强化学习的混合能量管理方法

Similar Documents

Publication Publication Date Title
CN110850720A (zh) 一种基于dqn算法的区域自动发电动态控制方法
Gao et al. Day-ahead power forecasting in a large-scale photovoltaic plant based on weather classification using LSTM
Liu et al. Remaining useful life estimation for proton exchange membrane fuel cells using a hybrid method
Ye et al. An ensemble method for short-term wind power prediction considering error correction strategy
CN108134114A (zh) 一种质子交换膜燃料电池温度控制方法
CN103730006A (zh) 一种短时交通流量的组合预测方法
CN112101669B (zh) 一种基于改进极限学习机与分位数回归的光伏功率区间预测方法
CN105160423A (zh) 一种基于马尔科夫残差修正的光伏发电预测方法
CN104036328A (zh) 自适应风电功率预测系统及预测方法
CN109599866B (zh) 一种预测辅助的电力系统状态估计方法
CN103942434A (zh) 基于sspso-grnn的水电站厂坝结构振动响应预测方法
CN111723982A (zh) 基于灰色-马尔可夫链的中长期电力负荷组合预测方法
CN114511132A (zh) 一种光伏出力短期预测方法及预测系统
CN111461466A (zh) 基于lstm时间序列的供暖户阀调节方法、系统及设备
CN107918368A (zh) 钢铁企业煤气产生量与消耗量的动态预测方法及设备
CN114841410A (zh) 一种基于组合策略的换热站负荷预测方法和系统
CN114429248A (zh) 一种变压器视在功率预测方法
CN116300755A (zh) 基于mpc的含储热的供热系统双层优化调度方法及装置
CN114971090A (zh) 一种电供暖负荷预测方法、系统、设备和介质
CN113991711A (zh) 一种光伏电站储能系统容量配置方法
CN113112085A (zh) 一种基于bp神经网络的新能源场站发电负荷预测方法
CN114219182B (zh) 一种基于强化学习的异常天气场景风电预测方法
CN116131255A (zh) 基于时间序列概念漂移的电站未来发电量预测方法及装置
Liu et al. A PSO-RBF neural network for BOD multi-step prediction in wastewater treatment process
CN116231749A (zh) 基于数字孪生的新能源电力系统调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228