CN110850720A - 一种基于dqn算法的区域自动发电动态控制方法 - Google Patents
一种基于dqn算法的区域自动发电动态控制方法 Download PDFInfo
- Publication number
- CN110850720A CN110850720A CN201911186894.7A CN201911186894A CN110850720A CN 110850720 A CN110850720 A CN 110850720A CN 201911186894 A CN201911186894 A CN 201911186894A CN 110850720 A CN110850720 A CN 110850720A
- Authority
- CN
- China
- Prior art keywords
- neural network
- algorithm
- value
- function
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000010248 power generation Methods 0.000 title claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 62
- 230000009471 action Effects 0.000 claims description 46
- 238000005457 optimization Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000004088 simulation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009194 climbing Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 101150018690 CPS2 gene Proteins 0.000 claims description 3
- 102100026422 Carbamoyl-phosphate synthase [ammonia], mitochondrial Human genes 0.000 claims description 3
- 101000855412 Homo sapiens Carbamoyl-phosphate synthase [ammonia], mitochondrial Proteins 0.000 claims description 3
- 101000983292 Homo sapiens N-fatty-acyl-amino acid synthase/hydrolase PM20D1 Proteins 0.000 claims description 3
- 101000861263 Homo sapiens Steroid 21-hydroxylase Proteins 0.000 claims description 3
- 101100020327 Salvia divinorum KPS gene Proteins 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 1
- 238000013507 mapping Methods 0.000 abstract description 4
- 230000002787 reinforcement Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于DQN算法的区域自动发电动态控制方法,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。本发明实施例的技术方案通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制,以深度神经网络(DNN)来代替传统Q学习中的“状态‑动作”对,直接构成电网连续状态量与奖励期望之间的映射关系;通过与深度神经网络的有机结合,不仅使Q学习算法拥有了处理复杂的连续状态量的能力,从根本上解决了维数灾问题,同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。
Description
技术领域
本发明涉及一种基于DQN算法的区域自动发电动态控制方法,属于电力系统自动发电控制技术领域。
背景技术
自动发电控制(automatic generation control,AGC)作为能量管理系统(energymanagement system,EMS)的重要环节之一,主要分为2个过程:1)总功率指令的跟踪2)总功率指令的分配。通常以CPS考核合格率作为评价AGC控制性能的重要标准。传统的负荷频率控制,即狭义的自动发电控制(AGC)因为采用了负反馈控制,比例积分环节始终都可以消除误差达到稳定状态。但由于火电系统存在非线性环节,基于线性规划控制的动态性能无法让人满意。同时二次控制回路的比例积分增益系数不仅与系统结构参数有关,还与负荷变化相关,需随着系统负荷的变化实时调节,才能满足负荷变化时频率的变化要求。
CPS标准下的AGC系统可看作“不确定的随机系统”,数学模型以高斯-马尔可夫随机过程建模,功率动态分配问题可理解为一个离散时间马尔可夫决策过程。传统解析方法对电网结构、参数以及运行量测数据的精确程度依赖较高,复杂的迭代求解算法常存在鲁棒性不强的问题。以马尔可夫决策过程(MDP)为严格数学基础的强化学习(RL)算法只需对当前控制效果的评价信息做出反应,具有更高的控制实时性和鲁棒性,以及常规控制方法所不具备的渐进学习寻优能力。近年来涌现大量研究将RL算法广泛应用到电力系统运行与规划的决策之中。
专利申请号为201811407241.2的中国发明专利:“一种考虑预防策略的大规模电力系统自动发电控制方法”,提出一种将深度森林算法与强化学习算法相结合的自动发电控制方法,具有处理表征关系的能力和逐层加强表征学习的能力。深度森林算法作为基于决策树的集成算法,能减少强化学习算法带来的维度灾难;深度森林强化学习算法用于预防性策略,可预测电力系统的下一时刻状态。但该方法仅能削弱维数灾引起的计算困难,并不能从根本上解决维数灾问题。
发明内容
针对以上方法存在的不足,本发明提出了一种基于DQN算法的区域自动发电动态控制方法,其能够从根本上解决维数灾问题,能够让AGC系统在在一定范围内预测下一时刻的状态,提高AGC系统的主动控制能力,更好地实现智能化的发电控制。
本发明解决其技术问题采取的技术方案是:
本发明实施例提供的一种基于DQN算法的区域自动发电动态控制方法,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。
作为本实施例一种可能的实现方式,所述DQN算法和深度神经网络相结合的过程包括以下步骤:
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
(2)初始化以下参数:算法记忆库、具有相同结构的Q神经网络和Qt神经网络、初始状态s0、以及学习速度α和折扣因子γ;
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理;
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入算法记忆库;
(5)从算法记忆库中随机抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q神经网络,与Q神经网络具有相同结构的Qt神经网络每隔N次迭代复制一次Q神经网络参数;
(6)将DQN算法当前状态s更新至新状态s',并将迭代次数加一,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。
作为本实施例一种可能的实现方式,在步骤(1)中,DQN算法的状态量取联络线功率偏差ΔP和频率偏差Δf,动作量为各AGC机组出力设定值;奖励函数发CPS1指标指数kCPS1计算如下:
其中,ACEAVE-min为区域控制误差ACE在1分钟内的平均值;ΔFAVE-min为频率偏差ΔF在1分钟内的平均值;Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;nT为该考核时段的分钟数;
当kCPS1≥200%或者200%>kCPS1≥100%且|ACEAVE-10-min|≤L10时,CPS指标达到标准,奖励函数如下:
作为本实施例一种可能的实现方式,在步骤(2)中,Q代表动作值函数,即考虑折扣因子的最大未来奖励期望,为配合单步模拟的时间差分法,根据贝尔曼最优原理写成递归形式:
式中,E指进行求期望的操作,s和a分别指当前状态及对应选择的控制动作,s'为环境在动作a影响下转移到的新状态,a'为新状态s'下所选择的控制动作。
作为本实施例一种可能的实现方式,在步骤(3)中,利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估;策略提升则使用最简单的贪婪原则,即认为最优策略与最优值函数相对应:
最优值函数a*(s)所对应的控制动作就是当前最优策略。
作为本实施例一种可能的实现方式,在步骤(5)中,利用深度学习训练深度神经网络来拟合动作值函数,看作是Q值函数的估计值与目标值之间均方差最小的最优化问题:
其中,Q值函数的估计值直接使用Q神经网络的输出Q(s,a),Q值函数的目标值则使用立即奖励r加上考虑折扣因子的次状态值函数Qt(s',a'),目标值中的值函数使用了Q神经网络的同结构神经网络Qt;
Qt神经网络参数每迭代n步同步一次Q神经网络的参数,即:
通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题。作为本实施例一种可能的实现方式,在步骤(5)中,Q值函数的增量式迭代更新公式写成如下形式:
本发明实施例的技术方案可以具有的有益效果如下:
本发明实施例的技术方案通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制,以深度神经网络(DNN)来代替传统Q学习中的“状态-动作”对,直接构成电网连续状态量与奖励期望之间的映射关系;通过与深度神经网络的有机结合,不仅使Q学习算法拥有了处理复杂的连续状态量的能力,从根本上解决了维数灾问题,同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。
本发明使用神经网络来近似Q值函数,使得算法具有了处理复杂场景,即高纬度状态和动作空间的潜力,同时可以一定程度上从已知状态推导未知状态,使得算法具有了处理部分可观测问题的能力。
附图说明:
图1是根据一示例性实施例示出的一种DQN算法和深度神经网络相结合的流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明实施例提供的一种基于DQN算法的区域自动发电动态控制方法,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。
图1是根据一示例性实施例示出的一种DQN算法和深度神经网络相结合的流程图。如图1所述,本发明实施例提供的一种DQN算法和深度神经网络相结合的过程包括以下步骤:
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
(2)初始化以下参数:算法记忆库、具有相同结构的Q神经网络和Qt神经网络、初始状态s0、以及学习速度α和折扣因子γ;
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理;
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入算法记忆库;
(5)从算法记忆库中随机抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q神经网络,与Q神经网络具有相同结构的Qt神经网络每隔N次迭代复制一次Q神经网络参数;
(6)将DQN算法当前状态s更新至新状态s',并将迭代次数加一,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。
本发明将DQN算法和深度神经网络相结合,以深度神经网络(DNN)来代替传统Q学习中的“状态-动作”对,直接构成电网连续状态量与奖励期望之间的映射关系;通过与深度神经网络的有机结合,不仅使Q学习算法拥有了处理复杂的连续状态量的能力,从根本上解决了维数灾问题,同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。其具体实施过程如下。
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
算法的状态量取联络线功率偏差ΔP和频率偏差Δf,动作量为各AGC机组出力设定值,因DQN算法可以处理连续的状态和动作量,此处不需离散化处理。奖励函数的设计则参考CPS控制性能标准,CPS1指标指数kCPS1计算如下:
其中,ACEAVE-min为区域控制误差ACE在1分钟内的平均值;ΔFAVE-min为频率偏差ΔF在1分钟内的平均值;Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;nT为该考核时段的分钟数。当kCPS1≥200%或者200%>kCPS1≥100%且|ACEAVE-10-min|≤L10时,CPS指标达到标准,由此可设计奖励函数如下:
(2)初始化样本记忆库、具有相同结构的Q和Qt神经网络、初始状态s0、以及学习速率α和折扣因子γ等算法参数;
Q代表动作值函数,即考虑折扣因子的最大未来奖励期望,为配合单步模拟的时间差分法,通常根据贝尔曼最优原理写成递归形式:
传统强化学习算法采用表格形式存储每种离散状态和动作下的动作值函数Q,这使得算法在面临复杂问题时难以避免维数灾问题。为了解决这一缺点,以深度神经网络作为函数近似器将状态、动作与Q值间构建映射关系便成为了一种有效的解决方法。引入深度神经网络作为近似函数的DQN算法,面临着严峻的神经网络参数收敛性问题。深度学习要求训练样本相互独立,而强化学习处理的多阶段决策问题前后状态存在关联性。同时,基于广义策略迭代的学习框架导致强化学习算法的目标在迭代过程中一直变化,即使不发生变化,自举也会导致非平稳性,即强化学习训练过程属于变目标函数的最优化问题,近似函数的引入使得策略提升定理失效,收敛性难以保证。
针对上述问题,DQN算法建立记忆库,采取存储-随机取样的方法打破数据之间的关联性,满足了深度学习对于数据独立、同分布的要求;建立结构完全相同的Q和Qt神经网络,通过引入结构与主神经网络完全一致的辅助神经网络,阶段性时差更新目标函数网络的方式,使得算法训练过程在每个阶段都变为定目标函数的最优化问题。使用神经网络来近似Q值函数,使得DQN算法具有了处理复杂场景,即高纬度状态和动作空间的潜力。同时,近似函数的采用使得DQN算法具有了一定程度上从已知状态推导未知状态的能力,使得算法具有了处理部分可观测问题的能力。
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度等硬性约束对控制动作a进行额外处理;
利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估;另一方面,策略提升则使用最简单的贪婪原则,即认为最优策略与最优值函数相对应,最优值函数所对应的控制动作就是当前最优策略:
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入样本记忆库;
(5)从样本记忆库中按照一定规则抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q网络,与Q网络具有相同结构的Qt网络每隔N次迭代复制一次Q网络参数;
利用深度学习训练深度神经网络来拟合动作值函数,可以看作是Q值函数的估计值与目标值之间均方差最小的最优化问题:
其中,Q值函数的估计值直接使用Q网络的输出Q(s,a),Q值函数的目标值则使用立即奖励r加上考虑折扣因子的次状态值函数Qt(s',a'),目标值中的值函数使用了Q网络的同结构网络Qt网络。当Qt网络参数保持不变时,该最优化问题就变成了一般的定目标最优化问题。Qt网络参数每迭代n步同步一次Q网络的参数,即:
通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题,且只需优化Q网络,避免了计算量的增加。同时也解决了目标值中max操作引起的Q值过估计的问题。
因此,Q值函数的增量式迭代更新公式可以写成如下形式:
从样本记忆库中抽取样本可以采取随机抽取的方式,也可以借助某些标准,比如样本均方差的大小来评价样本的学习优先度,并根据学习优先度来抽取样本。
(6)将算法当前状态更新至s',并将迭代次数i=i+1,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代;否则跳转至步骤3。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视作为本发明的保护范围。
Claims (7)
1.一种基于DQN算法的区域自动发电动态控制方法,其特征是,通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。
2.根据权利要求1所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,所述DQN算法和深度神经网络相结合的过程包括以下步骤:
(1)设计DQN算法的状态集S、动作集A和奖励函数R;
(2)初始化以下参数:算法记忆库、具有相同结构的Q神经网络和Qt神经网络、初始状态s0、以及学习速度α和折扣因子γ;
(3)求解当前状态s下的值函数Q(s,a),依据贪婪原则选择控制动作a,并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理;
(4)将处理过的控制动作a作用于电力系统仿真环境,得到反馈的系统新状态s',依据奖励函数公式计算出控制动作对应的立即奖励r,并将(s,a,r,s')作为一条样本经验存入算法记忆库;
(5)从算法记忆库中随机抽取部分样本经验,采用批量更新的方式,使用随机梯度下降法更新Q神经网络,与Q神经网络具有相同结构的Qt神经网络每隔N次迭代复制一次Q神经网络参数;
(6)将DQN算法当前状态s更新至新状态s',并将迭代次数加一,当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。
3.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法,其特征是,在步骤(1)中,DQN算法的状态量取联络线功率偏差ΔP和频率偏差Δf,动作量为各AGC机组出力设定值;奖励函数发CPS1指标指数kCPS1计算如下:
其中,ACEAVE-min为区域控制误差ACE在1分钟内的平均值;ΔFAVE-min为频率偏差ΔF在1分钟内的平均值;Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;nT为该考核时段的分钟数;
当kCPS1≥200%或者200%>kCPS1≥100%且|ACEAVE-10-min|≤L10时,CPS指标达到标准,奖励函数如下:
其中,ACEAVE-10-min是区域控制误差在10分钟内的平均值;Bs是互联神经网络中所有控制区域频率偏差的总和;ε10是CPS2指标值的目标频率范围;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911186894.7A CN110850720A (zh) | 2019-11-26 | 2019-11-26 | 一种基于dqn算法的区域自动发电动态控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911186894.7A CN110850720A (zh) | 2019-11-26 | 2019-11-26 | 一种基于dqn算法的区域自动发电动态控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110850720A true CN110850720A (zh) | 2020-02-28 |
Family
ID=69605468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911186894.7A Pending CN110850720A (zh) | 2019-11-26 | 2019-11-26 | 一种基于dqn算法的区域自动发电动态控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110850720A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768028A (zh) * | 2020-06-05 | 2020-10-13 | 天津大学 | 一种基于深度强化学习的gwlf模型参数调节方法 |
CN111864743A (zh) * | 2020-07-29 | 2020-10-30 | 全球能源互联网研究院有限公司 | 一种电网调度控制模型的构建方法及电网调度控制方法 |
CN112437131A (zh) * | 2020-11-10 | 2021-03-02 | 西北农林科技大学 | 物联网中考虑数据相关性的数据动态采集与传输方法 |
CN112631216A (zh) * | 2020-12-11 | 2021-04-09 | 江苏晶度半导体科技有限公司 | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 |
CN112861269A (zh) * | 2021-03-11 | 2021-05-28 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN113110052A (zh) * | 2021-04-15 | 2021-07-13 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160149408A1 (en) * | 2014-11-21 | 2016-05-26 | Siemens Industry, Inc. | Systems, methods and apparatus for improved management and control of energy delivery systems |
CN109217306A (zh) * | 2018-10-19 | 2019-01-15 | 三峡大学 | 一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法 |
CN109494766A (zh) * | 2018-11-23 | 2019-03-19 | 广西大学 | 一种人工深度情感博弈强化学习的智能发电控制方法 |
CN110414725A (zh) * | 2019-07-11 | 2019-11-05 | 山东大学 | 预测决策一体化的风电场储能系统调度方法及装置 |
-
2019
- 2019-11-26 CN CN201911186894.7A patent/CN110850720A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160149408A1 (en) * | 2014-11-21 | 2016-05-26 | Siemens Industry, Inc. | Systems, methods and apparatus for improved management and control of energy delivery systems |
CN109217306A (zh) * | 2018-10-19 | 2019-01-15 | 三峡大学 | 一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法 |
CN109494766A (zh) * | 2018-11-23 | 2019-03-19 | 广西大学 | 一种人工深度情感博弈强化学习的智能发电控制方法 |
CN110414725A (zh) * | 2019-07-11 | 2019-11-05 | 山东大学 | 预测决策一体化的风电场储能系统调度方法及装置 |
Non-Patent Citations (3)
Title |
---|
余涛等: "基于强化学习的互联电网CPS自校正控制", 《电力系统保护与控制》 * |
席磊等: "基于具有动作自寻优能力的深度强化学习的智能发电控制", 《中国科学:信息科学》 * |
王立群等: "基于深度Q值网络的自动小车控制方法", 《电子测量技术》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768028A (zh) * | 2020-06-05 | 2020-10-13 | 天津大学 | 一种基于深度强化学习的gwlf模型参数调节方法 |
CN111768028B (zh) * | 2020-06-05 | 2022-05-27 | 天津大学 | 一种基于深度强化学习的gwlf模型参数调节方法 |
CN111864743A (zh) * | 2020-07-29 | 2020-10-30 | 全球能源互联网研究院有限公司 | 一种电网调度控制模型的构建方法及电网调度控制方法 |
CN112437131A (zh) * | 2020-11-10 | 2021-03-02 | 西北农林科技大学 | 物联网中考虑数据相关性的数据动态采集与传输方法 |
CN112631216A (zh) * | 2020-12-11 | 2021-04-09 | 江苏晶度半导体科技有限公司 | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 |
CN112861269A (zh) * | 2021-03-11 | 2021-05-28 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN112861269B (zh) * | 2021-03-11 | 2022-08-30 | 合肥工业大学 | 一种基于深度强化学习优先提取的汽车纵向多态控制方法 |
CN113110052A (zh) * | 2021-04-15 | 2021-07-13 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
CN113110052B (zh) * | 2021-04-15 | 2022-07-26 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110850720A (zh) | 一种基于dqn算法的区域自动发电动态控制方法 | |
Gao et al. | Day-ahead power forecasting in a large-scale photovoltaic plant based on weather classification using LSTM | |
Liu et al. | Remaining useful life estimation for proton exchange membrane fuel cells using a hybrid method | |
Ye et al. | An ensemble method for short-term wind power prediction considering error correction strategy | |
CN108134114A (zh) | 一种质子交换膜燃料电池温度控制方法 | |
CN103730006A (zh) | 一种短时交通流量的组合预测方法 | |
CN112101669B (zh) | 一种基于改进极限学习机与分位数回归的光伏功率区间预测方法 | |
CN105160423A (zh) | 一种基于马尔科夫残差修正的光伏发电预测方法 | |
CN104036328A (zh) | 自适应风电功率预测系统及预测方法 | |
CN109599866B (zh) | 一种预测辅助的电力系统状态估计方法 | |
CN103942434A (zh) | 基于sspso-grnn的水电站厂坝结构振动响应预测方法 | |
CN111723982A (zh) | 基于灰色-马尔可夫链的中长期电力负荷组合预测方法 | |
CN114511132A (zh) | 一种光伏出力短期预测方法及预测系统 | |
CN111461466A (zh) | 基于lstm时间序列的供暖户阀调节方法、系统及设备 | |
CN107918368A (zh) | 钢铁企业煤气产生量与消耗量的动态预测方法及设备 | |
CN114841410A (zh) | 一种基于组合策略的换热站负荷预测方法和系统 | |
CN114429248A (zh) | 一种变压器视在功率预测方法 | |
CN116300755A (zh) | 基于mpc的含储热的供热系统双层优化调度方法及装置 | |
CN114971090A (zh) | 一种电供暖负荷预测方法、系统、设备和介质 | |
CN113991711A (zh) | 一种光伏电站储能系统容量配置方法 | |
CN113112085A (zh) | 一种基于bp神经网络的新能源场站发电负荷预测方法 | |
CN114219182B (zh) | 一种基于强化学习的异常天气场景风电预测方法 | |
CN116131255A (zh) | 基于时间序列概念漂移的电站未来发电量预测方法及装置 | |
Liu et al. | A PSO-RBF neural network for BOD multi-step prediction in wastewater treatment process | |
CN116231749A (zh) | 基于数字孪生的新能源电力系统调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |