CN114217524A - 一种基于深度强化学习的电网实时自适应决策方法 - Google Patents

一种基于深度强化学习的电网实时自适应决策方法 Download PDF

Info

Publication number
CN114217524A
CN114217524A CN202111368913.5A CN202111368913A CN114217524A CN 114217524 A CN114217524 A CN 114217524A CN 202111368913 A CN202111368913 A CN 202111368913A CN 114217524 A CN114217524 A CN 114217524A
Authority
CN
China
Prior art keywords
power grid
value
state
action
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111368913.5A
Other languages
English (en)
Other versions
CN114217524B (zh
Inventor
马世乾
陈建
商敬安
崇志强
王天昊
韩磊
吴彬
李昂
张志军
董佳
孙峤
郭凌旭
黄家凯
袁中琛
穆朝絮
韩枭赟
徐娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202111368913.5A priority Critical patent/CN114217524B/zh
Publication of CN114217524A publication Critical patent/CN114217524A/zh
Application granted granted Critical
Publication of CN114217524B publication Critical patent/CN114217524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/029Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于深度强化学习的电网实时自适应决策方法,包括如下步骤:步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程;步骤2、研究SAC算法的基础原理,求解使得步骤1中MDP模型累计奖励值最大的策略;步骤3、设计基于IL中行为克隆的神经网络预训练方案,模拟专家经验,优化原始动作空间,提出IL‑SAC算法,并基于IL‑SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体,在测试时该智能体应对不同的电网场景数据能够输出实时决策方案,实现新型电网系统的智能调控。本发明能够实时地输出电网调度策略。

Description

一种基于深度强化学习的电网实时自适应决策方法
技术领域
本发明属于深度强化学习技术领域,涉及电网实时自适应决策方法,尤其是一种基于深度强化学习的电网实时自适应决策方法。
背景技术
随着社会经济的不断发展、工业现代化的不断建设,能源需求不断增长,能源问题逐渐显露,迎合社会发展的需要,我国新能源产业发展得非常迅速.在新能源快速发展的背后,不可忽视的是新能源生产过剩的问题。在水力发电,风力发电这方面的新能源发展过程中,这些问题更为严重和突出,构建新能源消纳最大化的电网智能运行模式正成为一项超出人类专业知识的复杂任务。采用基于电网物理模型方法对电网进行实时控制有较强局限性,对于电网结构的变化和新型元素适应性不强,不能够满足电网发展需求。因此,考虑运用数据驱动方法进行优化,应用深度强化学习分析运行环境信息,自主获得智能控制策略,从而避免由于仿真过程模型简化和不确定性因素对电网控制效果的影响。
近年来,先进人工智能技术,尤其是深度强化学习技术不断进步,在多个领域如AlphaGo,AlphaStar,无人驾驶,机器人等成功应用,为解决高维度、高非线性、高时变性优化控制和决策问题提供了新的思路,同时为电网智能自主控制与决策提供了启示。深度强化学习能够学习怎么去做,怎样将状态和动作相互映射,也能够分析动作后的最大回报。深度强化学习是将深度学习和强化学习结合起来,实现从感知到动作一一对应的学习方法。深度学习主要分析环境信息,从中提取特征;强化学习将基于这些特征进一步分析环境特征,并选择对应动作,实现目标回报。
针对新型电网控制策略这一复杂决策问题,现有技术中仍存在如下的缺陷:
(1)现有技术未充分考虑新型电网在新能源随机波动情况下出现突发故障时的鲁棒性运行问题和新能源占比较高情况下的新能源消纳问题;
(2)现有技术无法解决新型电网在基于深度强化学习的自适应机组调度决策过程中爆炸性动作空间问题和电网系统在优化策略探索过程中的脆弱性问题。
经检索,未发现与本发明相同或相近似的现有技术的文献。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于深度强化学习的电网实时自适应决策方法,能够实时地输出电网调度策略。
本发明解决其现实问题是采取以下技术方案实现的:
一种基于深度强化学习的电网实时自适应决策方法,包括如下步骤:
步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程;
步骤2、研究SAC算法的基础原理,包括其5个网络即策略Actor网络、“软”V网络、2个“软”Q网络、目标V网络的更新流程和更新公式,并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α和网络宽度深度,求解使得步骤1中MDP模型累计奖励值最大的策略。
步骤3、设计基于IL中行为克隆的神经网络预训练方案,模拟专家经验,优化原始动作空间,提出IL-SAC算法,并基于IL-SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体,在测试时该智能体应对不同的电网场景数据能够输出实时决策方案,实现新型电网系统的智能调控。
而且,所述步骤1的具体步骤包括:
用4维元组描述(S,A,P,R),其中S表示该电网系统的状态集,A表示该电网系统的动作集,P:S×A×S→[0,1]表示状态转移概率,R:S×A→R表示奖励机制:
(1-1)状态变量S
状态变量的选取对强化学习的效率及泛化性有一定影响,故在构建状态空间时,既要考虑选取变量的丰富性,又要考虑必要性。因此,在t时段的Grid2Op电网系统状态st∈S如式(1)所示
Figure BDA0003361598390000031
其中,N,J,K分别表示该电网系统中有N条电力传输线,J个发电机组节点,K个负载节点;
Figure BDA0003361598390000032
分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小;
Figure BDA0003361598390000033
表示第m个新能源机组节点上下一时刻的有功出力上限预测值,M表示J个机组种有M个新能源机组,M<J;
Figure BDA0003361598390000034
分别表示第k个负载节点上的有功需求、无功需求以及电压大小;
Figure BDA0003361598390000041
表示第k个负载节点上下一时刻的有功需求预测值,以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量;Fi表示第i条电力传输线上的开断状态,是一个布尔值变量,当Fi=1时表示传输线为断开状态,当Fi=0时表示传输线为连接状态;rhoi表示第i条电力传输线上的负载率;
(1-2)动作变量A
动作变量即系统可调整变量,t时刻该系统的动作变量at∈A如式(2)所示
Figure BDA0003361598390000042
其中,X表示该电网系统有X个可控机组;
Figure BDA0003361598390000043
表示第x个机组节点上的有功出力调节值;
Figure BDA0003361598390000044
表示第x个机组节点上的电压调整值。由于机组的有功出力和电压皆是连续变化的动作,本发明欲将其离散化。设离散化的最小间隔分别为ΔDp和ΔDv,则
Figure BDA0003361598390000045
Figure BDA0003361598390000046
其中,y,z都为整数。
根据式(3)和(4),将动作变量at离散化之后可以表示为
Figure BDA0003361598390000051
(1-3)状态转移概率P
状态转移概率表示给定当前状态st∈S以及动作at∈A,状态从st变换到st+1的概率值,可以表示为
Figure BDA0003361598390000052
由于该系统受到新能源波动、随机故障的作用,状态转移概率(6)难以用精确的概率分布模型来描述,本文采用的深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布。
(1-4)奖励机制R
本发明设置了6个类型奖励r1,r2,r3,r4,r5,r6∈R,具体描述如下。
5)根据输电线路越限情况设置奖励函数r1
Figure BDA0003361598390000053
其中,rhomax表示N条传输线路上最大的rho值。
6)根据新能源机组消纳总量设置正奖励函数r2
Figure BDA0003361598390000054
其中,
Figure BDA0003361598390000055
表示新能源机组m当前时间步的实际有功出力,
Figure BDA0003361598390000056
表示新能源机组m在当前时间步的最大出力。
7)根据平衡机组功率越限情况设置负奖励r3
Figure BDA0003361598390000061
Figure BDA0003361598390000062
其中,U表示平衡机个数,
Figure BDA0003361598390000063
表示平衡机u的实际有功出力,
Figure BDA0003361598390000064
分别表示平衡机的出力的上下限。
8)根据机组运行费用设置负奖励r4
Figure BDA0003361598390000065
其中,aj,bj,cj表示为对应不同机组的发电成本曲线系数。
5)根据机组的无功出力越限情况设置负奖励r5
Figure BDA0003361598390000066
Figure BDA0003361598390000067
其中,
Figure BDA0003361598390000068
分别表示机组无功出力的上下限。
6)根据机组节点和负载节点电压越限情况设置负奖励r6
Figure BDA0003361598390000069
Figure BDA00033615983900000610
Figure BDA0003361598390000071
其中,
Figure BDA0003361598390000072
分别表示各个发电机节点和负载节点电压的上下限。
对上述奖励函数r4,r5,r6使用如下公式进行归一化处理
r=er-1 (17)
综上所述,奖励函数r1的值域为(-1,1)、r1的值域为[0,1],r3,r4,r5,r6的域值为(-1,0),奖励函数r3属于该取值范围是由于该仿真环境中U=1。故t时时刻的整体奖励函数rt∈R如下所示
rt=c1r1+c2r2+c3r3+c4r4+c51r5+c6r61 (18)
其中,ci(i=1,2,..,6)表示各奖励函数的系数,本发明将各个系数具体取值为c2=4,c3=2,c1=c4=c5,=c6=1,该取值说明了本发明模型构过程中的奖励侧重点在于新能源消纳以及有功功率平衡。
而且,所述步骤2的具体步骤包括:
(2-1)SAC算法最优策略的公式如下
Figure BDA0003361598390000073
Figure BDA0003361598390000074
其中,r(st,at)表示状态为st时进行动作at得到的奖励值;H(π(·|st))表示状态为st时控制策略π的熵值;
Figure BDA0003361598390000075
表示当状态动作对(st,at)概率分布为ρπ时的期望奖励值;α表示鼓励新策略探索的程度,被称作温度系数。
(2-2)SAC算法在构造其值函数Vψ(st)和Q函数Qθ(st,at)时,分别使用神经网络参数ψ和θ来表示。SAC算法中使用了2个值函数,其中一个值函数称为“软”值函数,基于如下公式中的误差平方值可以来更新“软”值函数神经网络的权重
Figure BDA0003361598390000081
其中,D表示先前采样状态的分布空间;
Figure BDA0003361598390000082
表示对误差平方的期望值;
Figure BDA0003361598390000083
表示控制策略πΦ下控制动作at的期望。
下一步即可使用下式来计算式(21)中的概率梯度
Figure BDA0003361598390000084
其中,
Figure BDA0003361598390000085
表示对参数ψ求梯度。
(2-3)同理,可通过最小化“软”贝尔曼残差的方式来更新“软”Q函数的神经网络权重,计算公式如下
Figure BDA0003361598390000086
Figure BDA0003361598390000087
其中,γ表示折扣因子;
Figure BDA0003361598390000088
表示满足概率分布ρ的状态st+1的期望值。
而式(23)的优化求解与(21)同理可由下式中的概率梯度进行计算
Figure BDA0003361598390000089
其中,
Figure BDA00033615983900000810
表示对参数θ求梯度;
Figure BDA00033615983900000811
表示目标值函数网络,定期更新。
(2-4)SAC算法的控制策略输出值是由平均值和协方差组成的随机高斯分布表示出来的,可以通过最小化预期Kullback-Leibler(KL)偏差来更新其控制策略的神经网络参数,以Φ作为参数的控制策略π的目标函数可以根据式(20)具体化为
Figure BDA00033615983900000812
式(26)的优化求解过程可由下式中的概率梯度计算得出
Figure BDA0003361598390000091
其中,
Figure BDA0003361598390000092
表示对参数Φ求梯度;
Figure BDA0003361598390000093
表示对参数at求梯度;εt表示输入噪声向量,fΦt,st)表示神经网络变换,是对at的重新参数化。
而且,所述步骤3的具体步骤包括:
(3-1)根据当前电网工况,在Gird2OP电网仿真环境中添加随机故障,以模拟实际运行情况,在该仿真环境进行过潮流计算之后,通过调用程序接口获取相应的观测状态空间;
在该预训练方案中首先是一个模拟专家经验的过程,从电网仿真环境中采样大量场景即大量的观测状态空间作为输入量,在本发明中是105个场景作为输入量,然后在式(5)离散化之后的动作空间中基于贪婪算法贪婪搜索最优的动作,贪婪的最优指标是在保证各条传输线路上最大rho不超过100%的情况下使得式(8)中的新能源消纳率指标最大化,在进行贪婪算法之后我们能得到一个模拟的专家动作空间,相对于原始动作空间有所缩减。
(3-2)模仿学习中行为克隆的过程,使用105个电网场景作为输入量,在专家动作空间中基于步骤(3-1)的贪婪优化准则贪婪搜索最优的动作,并将对应的电网场景状态与动作组合形成动作状态对(a,s),即给每一个状态找到一个较优的动作标签。最终应用该动作状态对设计好的深度神经网络进行监督学习预训练,并迁移至SAC算法中的Actor网络和Critic网络中。
(3-3)基于(3-2)中预训练的深度神经网络参数,构建IL-SAC算法为基础的电网调度智能体,使用105个真实电网场景数据作为智能体的输入,训练该智能体至算法参数收敛,最终将得到的电网调度智能体应用至真实电网场景数据下,能够实时输出电网调度相应的动作策略,使得新型电网稳定运行的前提下新能源消纳最大化。
本发明的优点和有益效果:
1、本发明针对新能源占比高的新型电网系统在运行过程中出现新能源波动、负荷需求剧烈变化等情况,提出了一种基于SAC算法的电网实时自适应机组调度算法,可保障新型电网系统在鲁棒运行的前提下新能源消纳最大化。并且在上述算法的基础上,本发明又设计了基于模仿学习(Imitation Learning,IL)的神经网络预训练方案,监督学习下预训练的神经网络迁移到SAC算法中的Actor-Critic网络,提出了IL-SAC算法,具有一定创新性。最终将所提出的IL-SAC算法智能体应用于Grid2Op环境中的IEEE118节点新型电网系统,根据该智能体可与电网实时运行环境进行交互,在亚秒内给出自适应控制决策,具有良好的控制效果。
2、本发明在负荷变化、参数扰动和随机故障下的电网环境下,提出一种基于强化学习的自适应调度决策的方法,通过对电网环境变化的实时感知,并且自适应的根据感知调整调度策略,实时的输出火电机组的有功出力值和电压值,在电网可靠运行的前提下完成对新能源的消纳。同时将电网历史数据和模拟专家经验作为自适应调度决策生成的先验知识和边界条件,通过这些数据帮助智能体的训练,对智能体进行不断的实时迭代训练以保证智能体能够在一个决策周期内得到最大的奖励值,并将训练好的智能体应用到指定规模的电网环境中,实时地输出电网调度策略。
总体而言,通过本发明所构思的技术方案与现有技术相比:
(1)本发明构建了具有自主决策能力的智能体,并基于SAC算法进行自适应的机组调度,充分考虑新型电网在面对突发情况时的鲁棒性问题和新能源消纳问题,极大的提升了新型电网的自主决策能力。
(2)本发明设计了一种基于IL的神经网络预训练方案,解决了新型电网自适应机组调度过程中爆炸性动作空间问题和电网系统在优化策略探索过程中的脆弱性问题,提高了神经网络参数的更新速度和算法收敛速度。
(3)本发明利用Grid2Op提供的IEEE118节点新型电网系统以及World Congresson Computational Intelligence(WCCI)会议在2020年举办Learning to Run a PowerNetwork Challenge(L2RPN)大赛时提供的真实电网场景数据,充分模拟了真实的电网环境,其仿真结果可信度高。
附图说明
图1是本发明的基于深度强化学习的电网实时自适应决策方法总体架构图;
图2是本发明的基于模仿学习的神经网络预训练方案总体流程图;
图3是本发明的IL-SAC算法智能体与SAC算法智能体训练结果对比图;
图4是本发明的IL-SAC算法智能体与PPO算法智能体、DQN算法智能体训练结果对比图;
图5是本发明的IL-SAC算法智能体与PPO算法智能体、DQN算法智能体测试结果对比图。
具体实施方式
以下对本发明实施例作进一步详述:
一种基于深度强化学习的电网实时自适应决策方法,如图1所示,包括如下步骤:
步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程(MarkovDecision Process,MDP);
所述步骤1的具体步骤包括:
用4维元组描述(S,A,P,R),其中S表示该电网系统的状态集,A表示该电网系统的动作集,P:S×A×S→[0,1]表示状态转移概率,R:S×A→R表示奖励机制;
在本实施例中,步骤1涉及MDP模型的构建,电网中的诸多控制决策问题都可以描述成MDP模型,用于解决随机动态环境下的离散时序控制问题,具体包括状态集、动作集、奖励机制等的设计。
步骤1的进一步解释包括下述环节。
(1-1)状态变量S
状态变量的选取对强化学习的效率及泛化性有一定影响,故在构建状态空间时,既要考虑选取变量的丰富性,又要考虑必要性。因此,在t时段的Grid2Op电网系统状态st∈S如式(1)所示
Figure BDA0003361598390000121
其中,N,J,K分别表示该电网系统中有N条电力传输线,J个发电机组节点,K个负载节点;
Figure BDA0003361598390000122
分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小;
Figure BDA0003361598390000123
表示第m个新能源机组节点上下一时刻的有功出力上限预测值,M表示J个机组种有M个新能源机组,M<J;
Figure BDA0003361598390000131
分别表示第k个负载节点上的有功需求、无功需求以及电压大小;
Figure BDA0003361598390000132
表示第k个负载节点上下一时刻的有功需求预测值。以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量;Fi表示第i条电力传输线上的开断状态,是一个布尔值变量,当Fi=1时表示传输线为断开状态,当Fi=0时表示传输线为连接状态;rhoi表示第i条电力传输线上的负载率。
(1-2)动作变量A
动作变量即系统可调整变量,t时刻该系统的动作变量at∈A如式(2)所示
Figure BDA0003361598390000133
其中,X表示该电网系统有X个可控机组;
Figure BDA0003361598390000134
表示第x个机组节点上的有功出力调节值;
Figure BDA0003361598390000135
表示第x个机组节点上的电压调整值。由于机组的有功出力和电压皆是连续变化的动作,本发明欲将其离散化。设离散化的最小间隔分别为ΔDp和ΔDv,则
Figure BDA0003361598390000136
Figure BDA0003361598390000137
其中,y,z都为整数。
根据式(3)和(4),将动作变量at离散化之后可以表示为
Figure BDA0003361598390000141
(1-3)状态转移概率P
状态转移概率表示给定当前状态st∈S以及动作at∈A,状态从st变换到st+1的概率值,可以表示为
Figure BDA0003361598390000142
由于该系统受到新能源波动、随机故障的作用,状态转移概率(6)难以用精确的概率分布模型来描述,本文采用的深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布。
(1-4)奖励机制R
本发明设置了6个类型奖励r1,r2,r3,r4,r5,r6∈R,具体描述如下。
9)根据输电线路越限情况设置奖励函数r1
Figure BDA0003361598390000143
其中,rhomax表示N条传输线路上最大的rho值。
10)根据新能源机组消纳总量设置正奖励函数r2
Figure BDA0003361598390000144
其中,
Figure BDA0003361598390000145
表示新能源机组m当前时间步的实际有功出力,
Figure BDA0003361598390000146
表示新能源机组m在当前时间步的最大出力。
11)根据平衡机组功率越限情况设置负奖励r3
Figure BDA0003361598390000151
Figure BDA0003361598390000152
其中,U表示平衡机个数,
Figure BDA0003361598390000153
表示平衡机u的实际有功出力,
Figure BDA0003361598390000154
分别表示平衡机的出力的上下限。
12)根据机组运行费用设置负奖励r4
Figure BDA0003361598390000155
其中,aj,bj,cj表示为对应不同机组的发电成本曲线系数。
5)根据机组的无功出力越限情况设置负奖励r5
Figure BDA0003361598390000156
Figure BDA0003361598390000157
其中,
Figure BDA0003361598390000158
分别表示机组无功出力的上下限。
6)根据机组节点和负载节点电压越限情况设置负奖励r6
Figure BDA0003361598390000159
Figure BDA00033615983900001510
Figure BDA0003361598390000161
其中,
Figure BDA0003361598390000162
分别表示各个发电机节点和负载节点电压的上下限。
对上述奖励函数r4,r5,r6使用如下公式进行归一化处理
r=er-1 (17)
综上所述,奖励函数r1的值域为(-1,1)、r1的值域为[0,1],r3,r4,r5,r6的域值为(-1,0),奖励函数r3属于该取值范围是由于该仿真环境中U=1。故t时时刻的整体奖励函数rt∈R如下所示
rt=c1r1+c2r2+c3r3+c4r4+c51r5+c6r61 (18)
其中,ci(i=1,2,..,6)表示各奖励函数的系数,本发明将各个系数具体取值为c2=4,c3=2,c1=c4=c5,=c6=1,该取值说明了本发明模型构过程中的奖励侧重点在于新能源消纳以及有功功率平衡。
步骤2、研究SAC算法的基础原理,包括其5个网络即策略Actor网络、“软”V网络、“软”Q网络(2个)、目标V网络的更新流程和更新公式,并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α、网络宽度深度等,求解使得步骤1中MDP模型累计奖励值最大的策略。
在本实施例中,步骤2涉及SAC算法的具体原理以及优化策略更新的具体流程,进一步包括下述步骤:
(2-1)SAC算法与其他深度强化学习算法最大的区别在于,同样是在使用了值函数和Q函数的情况下,SAC算法的目标在最大化预期奖励值积累的同时追求最大化的信息熵值,而其他一般深度强化学习算法的目标只是最大化预期奖励值的积累。SAC算法最优策略的公式如下
Figure BDA0003361598390000171
Figure BDA0003361598390000172
其中,r(st,at)表示状态为st时进行动作at得到的奖励值;H(π(·|st))表示状态为st时控制策略π的熵值;
Figure BDA0003361598390000173
表示当状态动作对(st,at)概率分布为ρπ时的期望奖励值;α表示鼓励新策略探索的程度,被称作温度系数。
(2-2)SAC算法在构造其值函数Vψ(st)和Q函数Qθ(st,at)时,分别使用神经网络参数ψ和θ来表示。SAC算法中使用了2个值函数,其中一个值函数称为“软”值函数,基于如下公式中的误差平方值可以来更新“软”值函数神经网络的权重
Figure BDA0003361598390000174
其中,D表示先前采样状态的分布空间;
Figure BDA0003361598390000175
表示对误差平方的期望值;
Figure BDA0003361598390000176
表示控制策略πΦ下控制动作at的期望。
下一步即可使用下式来计算式(21)中的概率梯度
Figure BDA0003361598390000177
其中,
Figure BDA0003361598390000178
表示对参数ψ求梯度。
(2-3)同理,可通过最小化“软”贝尔曼残差的方式来更新“软”Q函数的神经网络权重,计算公式如下
Figure BDA0003361598390000179
Figure BDA00033615983900001710
其中,γ表示折扣因子;
Figure BDA0003361598390000181
表示满足概率分布ρ的状态st+1的期望值。
而式(23)的优化求解与(21)同理可由下式中的概率梯度进行计算
Figure BDA0003361598390000182
其中,
Figure BDA0003361598390000183
表示对参数θ求梯度;
Figure BDA0003361598390000184
表示目标值函数网络,定期更新。
(2-4)SAC算法的控制策略输出值是由平均值和协方差组成的随机高斯分布表示出来的,可以通过最小化预期Kullback-Leibler(KL)偏差来更新其控制策略的神经网络参数,以Φ作为参数的控制策略π的目标函数可以根据式(20)具体化为
Figure BDA0003361598390000185
式(26)的优化求解过程可由下式中的概率梯度计算得出
Figure BDA0003361598390000186
其中,
Figure BDA0003361598390000187
表示对参数Φ求梯度;
Figure BDA0003361598390000188
表示对参数at求梯度;εt表示输入噪声向量,fΦt,st)表示神经网络变换,是对at的重新参数化。
步骤3、设计基于IL中行为克隆的神经网络预训练方案,模拟专家经验,优化原始动作空间,提出IL-SAC算法。
在本实施例中,步骤3涉及基于模仿学习的神经网络预训练方案的具体设计,如图1所示为基于深度强化学习的电网实时自适应决策方法总体架构,图1中包含了该预训练方案的大致设计思路,对图1进行细节化作出图2,即为该预训练方案的总体架构图。进一步解释包括下述步骤。
(3-1)根据当前电网工况,在Gird2OP电网仿真环境中添加随机故障,以模拟实际运行情况,在该仿真环境进行过潮流计算之后,通过调用程序接口获取相应的观测状态空间。
在该预训练方案中首先是一个模拟专家经验的过程,从电网仿真环境中采样大量场景即大量的观测状态空间作为输入量,在本发明中是105个场景作为输入量,然后在式(5)离散化之后的动作空间中基于贪婪算法贪婪搜索最优的动作,贪婪的最优指标是在保证各条传输线路上最大rho不超过100%的情况下使得式(8)中的新能源消纳率指标最大化。在进行贪婪算法之后我们能得到一个模拟的专家动作空间,相对于原始动作空间有所缩减。
(3-2)第2步是一个模仿学习中行为克隆的过程,仍是使用105个电网场景作为输入量,在专家动作空间中基于步骤(3-1)的贪婪优化准则贪婪搜索最优的动作,并将对应的电网场景状态与动作组合形成动作状态对(a,s),即给每一个状态找到一个较优的动作标签。最终应用该动作状态对设计好的深度神经网络进行监督学习预训练,并迁移至SAC算法中的Actor网络和Critic网络中。
(3-3)基于(3-2)中预训练的深度神经网络参数,构建IL-SAC算法为基础的电网调度智能体,使用105个真实电网场景数据作为智能体的输入,训练该智能体至算法参数收敛。最终将得到的电网调度智能体应用至真实电网场景数据下,能够实时输出电网调度相应的动作策略,使得新型电网稳定运行的前提下新能源消纳最大化。
步骤4、基于步骤3提出的IL-SAC算法以及已有SAC算法、PPO(Proximal PolicyOptimization)算法、DQN(Deep Q Network)算法,在Google提供的Grid2Op环境中的IEEE118节点新型电力系统上进行相应智能体的训练和测试,对比相应的性能指标如奖励累计值、电网存活时间步、新能源消纳率等,得出相应结论。
步骤4涉及Grid2Op中具体的仿真环境以及具体的仿真设计和对应的仿真结果。进一步解释包括下述步骤。
(4-1)Grid2Op中提供的IEEE118节点新型电网系统可以分为三个区域电网,每个区域电网的新能源发电量占比不同,其中有两个区域的新能源发电量占比都远超过60%。Grid2Op在该新型电网系统中提供的可进行操作的动作即为步骤(1-2)中所述的机组有功出力以及机组电压值,在整个系统中它提供了18组可调节的新能源机组,35组可调节的火电机组以及1组可调节的平衡机组。该系统中每条线路都有自己的输电能力,当传输功率量溢出时,会自动断开。具体来说,当100%≤rho<200%时,Grid2Op允许线路过载2个时间步,即若2个时间步内rho下降到100%以下则线路不会断开,反之过载超过2个时间步则线路断开。当200%≤rho时,该线路立即断开。Grid2Op规定所有断开线路在断开12个时间步之后才能选择是否重连。Grid2Op在模拟电网运行过程中,出现以下两种情况会使电网运行立即终止:
1)电网功率不平衡导致平衡机功率越限、潮流计算无法收敛;
2)由于智能体执行的动作使得负载、发电机或者变电站形成孤立的节点,在在有较多断开的线路时可能发生该情况。
(4-2)本发明在仿真过程中设计的随机故障规则如下:每个时间步中,设计1%的传输线停运概率,即t时刻下每条传输线出现故障的概率均为1%,相比于现实中电网实际运行情况,该故障率设计较大。在此基础上本发明又设计了两组对着实验,首先是对比了IL-SAC算法相对于SAC算法的优势,其次是都对比了都加入预训练模型后的IL-SAC算法相对于PPO算法和DQN算法的优势。具体如下所述。
1)设计IL-SAC算法智能体与SAC算法智能体进行对比时,在Grid2Op环境中设置的电网系统最高存活步数为1440个时间步,即每组场景数据代入电网时该电网最多稳定运行1440个时间步,每个时间步对应5分钟时间,1440个时间步即为5天时间。并且设置训练总步数为约5000步,即上述两个智能体在训练5000步左右时对比相应的性能。上述数据的设置情况主要是为了更快更明显的对照出本发明提出的基于IL预训练方案的优势所在。
具体的对比指标即为环境反馈的奖励值和该电网系统最终的存活步数,如图3所示(图3中阴影部分是对应算法的误差点,即为该算法在训练中脱离数据变化趋势的点)。由图3及图3中的细节放大图可以明显的看到IL-SAC算法具有更快的收敛速度,且收敛后具有更高的奖励值和存活步数。IL-SAC算法智能体比SAC算法智能体少用了近2000个训练步就达到收敛状态,且在两个算法都收敛之后IL-SAC算法下该电网系统能够多存活约14%个时间步,多获得约15%的奖励值,明显具有更优越的控制效果。值得注意的是在使用随机智能体应该该电力系统时,电力系统只能存活0到1个时间步,奖励值几乎为0。
2)设计IL-SAC算法智能体与PPO算法智能体和DQN算法智能体对比时,在Grid2Op环境中设置的电网系统最高存活步数为288个时间步,并且设置训练总步数为约106步。上述数据的设置情况主要是为了更快更明显的对照出本发明提出的IL-SAC算法的优势所在。
在该组的对比中除了训练时智能体相应指标的对比之外,还设置了测试时智能体相应指标的对比。本发明设计了分组的测试模式,充分体现测试的随机性特点,该分组模式叙述如下:总共分为10组,在每一组测试过程中从2000组场景数据随机挑选100个输入各个智能体,然后计算各个智能体在这200个场景下的平均奖励值大小和平均存活步数大小作为控制性能的指标值,另外添加了一项根据奖励函数r2计算得到的新能源消纳率比值作为对比指标。在训练中的指标仍是如1)中所述。
如图4所示(图4中阴影部分是对应算法的误差点,即为该算法在训练中脱离数据变化趋势的点)为训练时的性能对比图,图5为测试时的性能对比图(图5中IL-SAC/PPO表示该测试组中IL-SAC算法下新能源消纳率的奖励值比上PPO算法新能源消纳率的奖励值,IL-SAC/DQN则表示该测试组中IL-SAC算法下新能源消纳率的奖励值比上DQN算法新能源消纳率的奖励值)。由图4和图5可以明显的看到在PPO算法和DQN算法都加入本文的预训练模型之后,IL-SAC算法在收敛速度上并没有明显的优势,但是在收敛之后,IL-SAC算法在获得环境反馈的奖励值方面是远强于PPO算法和DQN算法的,在存活步数和稳定性方面来看IL-SAC算法和加入预训练之后的PPO算法都是远强于加入预训练之后的DQN算法的。由图5的第3个子图可以看到在新能源消纳率的提升方面,IL-SAC算法智能体也具有明显的优势,其新能源消纳率是PPO算法的1.35倍左右和DQN算法的1.75倍左右,对于最大化消纳新能源该算法优越性十分突出。
本发明考虑将深度强化方法引入电网控制策略决策中,实现从电网运行环境中提取有效信息,再结合环境信息和电网运行方式确定控制方式,实现决策控制。本发明将人工智能应用于电网,解决电网决策控制问题。深度强化学习是人工智能具体实现的载体,用于学习电网环境信息,并给出控制决策方案。
需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (4)

1.一种基于深度强化学习的电网实时自适应决策方法,其特征在于:包括如下步骤:
步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程;
步骤2、研究SAC算法的基础原理,包括其5个网络即策略Actor网络、“软”V网络、2个“软”Q网络、目标V网络的更新流程和更新公式,并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α和网络宽度深度,求解使得步骤1中MDP模型累计奖励值最大的策略;
步骤3、设计基于IL中行为克隆的神经网络预训练方案,模拟专家经验,优化原始动作空间,提出IL-SAC算法,并基于IL-SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体,在测试时该智能体应对不同的电网场景数据能够输出实时决策方案,实现新型电网系统的智能调控。
2.根据权利要求1所述的一种基于深度强化学习的电网实时自适应决策方法,其特征在于:所述步骤1的具体步骤包括:
用4维元组描述(S,A,P,R),其中S表示该电网系统的状态集,A表示该电网系统的动作集,P:S×A×S→[0,1]表示状态转移概率,R:S×A→R表示奖励机制:
(1-1)状态变量S
在t时段的Grid2Op电网系统状态st∈S如式(1)所示
Figure FDA0003361598380000021
其中,N,J,K分别表示该电网系统中有N条电力传输线,J个发电机组节点,K个负载节点;
Figure FDA0003361598380000022
分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小;
Figure FDA0003361598380000023
表示第m个新能源机组节点上下一时刻的有功出力上限预测值,M表示J个机组种有M个新能源机组,M<J;
Figure FDA0003361598380000024
分别表示第k个负载节点上的有功需求、无功需求以及电压大小;
Figure FDA0003361598380000025
表示第k个负载节点上下一时刻的有功需求预测值,以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量;Fi表示第i条电力传输线上的开断状态,是一个布尔值变量,当Fi=1时表示传输线为断开状态,当Fi=0时表示传输线为连接状态;rhoi表示第i条电力传输线上的负载率;
(1-2)动作变量A
动作变量即系统可调整变量,t时刻该系统的动作变量at∈A如式(2)所示
Figure FDA0003361598380000026
其中,X表示该电网系统有X个可控机组;
Figure FDA0003361598380000027
表示第x个机组节点上的有功出力调节值;
Figure FDA0003361598380000028
表示第x个机组节点上的电压调整值;由于机组的有功出力和电压皆是连续变化的动作,本发明欲将其离散化;设离散化的最小间隔分别为ΔDp和ΔDv,则
Figure FDA0003361598380000031
Figure FDA0003361598380000032
其中,y,z都为整数;
根据式(3)和(4),将动作变量at离散化之后可以表示为
Figure FDA0003361598380000033
(1-3)状态转移概率P
状态转移概率表示给定当前状态st∈S以及动作at∈A,状态从st变换到st+1的概率值,可以表示为
Figure FDA0003361598380000034
采用深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布;
(1-4)奖励机制R
本发明设置了6个类型奖励r1,r2,r3,r4,r5,r6∈R,具体描述如下:
1)根据输电线路越限情况设置奖励函数r1
Figure FDA0003361598380000035
其中,rhomax表示N条传输线路上最大的rho值;
2)根据新能源机组消纳总量设置正奖励函数r2
Figure FDA0003361598380000041
其中,
Figure FDA0003361598380000042
表示新能源机组m当前时间步的实际有功出力,
Figure FDA0003361598380000043
表示新能源机组m在当前时间步的最大出力;
3)根据平衡机组功率越限情况设置负奖励r3
Figure FDA0003361598380000044
Figure FDA0003361598380000045
其中,U表示平衡机个数,
Figure FDA0003361598380000046
表示平衡机u的实际有功出力,
Figure FDA0003361598380000047
分别表示平衡机的出力的上下限;
4)根据机组运行费用设置负奖励r4
Figure FDA0003361598380000048
其中,aj,bj,cj表示为对应不同机组的发电成本曲线系数;
5)根据机组的无功出力越限情况设置负奖励r5
Figure FDA0003361598380000049
Figure FDA00033615983800000410
其中,
Figure FDA00033615983800000411
分别表示机组无功出力的上下限;
6)根据机组节点和负载节点电压越限情况设置负奖励r6
Figure FDA0003361598380000051
Figure FDA0003361598380000052
Figure FDA0003361598380000053
其中,
Figure FDA0003361598380000054
分别表示各个发电机节点和负载节点电压的上下限;
对上述奖励函数r4,r5,r6使用如下公式进行归一化处理
r=er-1 (17)
综上所述,奖励函数r1的值域为(-1,1)、r1的值域为[0,1],r3,r4,r5,r6的域值为(-1,0),奖励函数r3属于该取值范围是由于该仿真环境中U=1;故t时时刻的整体奖励函数rt∈R如下所示
rt=c1r1+c2r2+c3r3+c4r4+c51r5+c6r61 (18)
其中,ci(i=1,2,..,6)表示各奖励函数的系数,本发明将各个系数具体取值为c2=4,c3=2,c1=c4=c5,=c6=1,该取值说明了本发明模型构过程中的奖励侧重点在于新能源消纳以及有功功率平衡。
3.根据权利要求1所述的一种基于深度强化学习的电网实时自适应决策方法,其特征在于:所述步骤2的具体步骤包括:
(2-1)SAC算法最优策略的公式如下
Figure FDA0003361598380000055
Figure FDA0003361598380000061
其中,r(st,at)表示状态为st时进行动作at得到的奖励值;H(π(·|st))表示状态为st时控制策略π的熵值;
Figure FDA0003361598380000062
表示当状态动作对(st,at)概率分布为ρπ时的期望奖励值;α表示鼓励新策略探索的程度,被称作温度系数;
(2-2)SAC算法在构造其值函数Vψ(st)和Q函数Qθ(st,at)时,分别使用神经网络参数ψ和θ来表示;SAC算法中使用了2个值函数,其中一个值函数称为“软”值函数,基于如下公式中的误差平方值可以来更新“软”值函数神经网络的权重
Figure FDA0003361598380000063
其中,D表示先前采样状态的分布空间;
Figure FDA0003361598380000064
表示对误差平方的期望值;
Figure FDA0003361598380000065
表示控制策略πΦ下控制动作at的期望;
下一步即可使用下式来计算式(21)中的概率梯度
Figure FDA0003361598380000066
其中,
Figure FDA0003361598380000067
表示对参数ψ求梯度;
(2-3)同理,可通过最小化“软”贝尔曼残差的方式来更新“软”Q函数的神经网络权重,计算公式如下
Figure FDA0003361598380000068
Figure FDA0003361598380000069
其中,γ表示折扣因子;
Figure FDA00033615983800000610
表示满足概率分布ρ的状态st+1的期望值;
而式(23)的优化求解与(21)同理可由下式中的概率梯度进行计算
Figure FDA00033615983800000611
其中,
Figure FDA0003361598380000071
表示对参数θ求梯度;
Figure FDA0003361598380000072
表示目标值函数网络,定期更新;
(2-4)SAC算法的控制策略输出值是由平均值和协方差组成的随机高斯分布表示出来的,通过最小化预期Kullback-Leibler(KL)偏差来更新其控制策略的神经网络参数,以Φ作为参数的控制策略π的目标函数可以根据式(20)具体化为
Figure FDA0003361598380000073
式(26)的优化求解过程可由下式中的概率梯度计算得出
Figure FDA0003361598380000074
其中,
Figure FDA0003361598380000075
表示对参数Φ求梯度;
Figure FDA0003361598380000076
表示对参数at求梯度;εt表示输入噪声向量,fΦt,st)表示神经网络变换,是对at的重新参数化。
4.根据权利要求1所述的一种基于深度强化学习的电网实时自适应决策方法,其特征在于:所述步骤3的具体步骤包括:
(3-1)根据当前电网工况,在Gird2OP电网仿真环境中添加随机故障,以模拟实际运行情况,在该仿真环境进行过潮流计算之后,通过调用程序接口获取相应的观测状态空间;
在该预训练方案中首先是一个模拟专家经验的过程,从电网仿真环境中采样大量场景即大量的观测状态空间作为输入量,在本发明中是105个场景作为输入量,然后在式(5)离散化之后的动作空间中基于贪婪算法贪婪搜索最优的动作,贪婪的最优指标是在保证各条传输线路上最大rho不超过100%的情况下使得式(8)中的新能源消纳率指标最大化,在进行贪婪算法之后能得到一个模拟的专家动作空间,相对于原始动作空间有所缩减;
(3-2)模仿学习中行为克隆的过程,使用105个电网场景作为输入量,在专家动作空间中基于步骤(3-1)的贪婪优化准则贪婪搜索最优的动作,并将对应的电网场景状态与动作组合形成动作状态对(a,s),即给每一个状态找到一个较优的动作标签;最终应用该动作状态对设计好的深度神经网络进行监督学习预训练,并迁移至SAC算法中的Actor网络和Critic网络中;
(3-3)基于(3-2)中预训练的深度神经网络参数,构建IL-SAC算法为基础的电网调度智能体,使用105个真实电网场景数据作为智能体的输入,训练该智能体至算法参数收敛,最终将得到的电网调度智能体应用至真实电网场景数据下,能够实时输出电网调度相应的动作策略。
CN202111368913.5A 2021-11-18 2021-11-18 一种基于深度强化学习的电网实时自适应决策方法 Active CN114217524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111368913.5A CN114217524B (zh) 2021-11-18 2021-11-18 一种基于深度强化学习的电网实时自适应决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111368913.5A CN114217524B (zh) 2021-11-18 2021-11-18 一种基于深度强化学习的电网实时自适应决策方法

Publications (2)

Publication Number Publication Date
CN114217524A true CN114217524A (zh) 2022-03-22
CN114217524B CN114217524B (zh) 2024-03-19

Family

ID=80697483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111368913.5A Active CN114217524B (zh) 2021-11-18 2021-11-18 一种基于深度强化学习的电网实时自适应决策方法

Country Status (1)

Country Link
CN (1) CN114217524B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662404A (zh) * 2022-04-07 2022-06-24 西北工业大学 规则数据双驱动的机器人复杂操作过程人机混合决策方法
CN114662798A (zh) * 2022-05-17 2022-06-24 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114859734A (zh) * 2022-06-15 2022-08-05 厦门大学 一种基于改进sac算法的温室环境参数优化决策方法
CN115542736A (zh) * 2022-09-28 2022-12-30 阿里巴巴达摩院(杭州)科技有限公司 设备控制方法、计算机可读存储介质以及计算机终端
CN115577647A (zh) * 2022-12-09 2023-01-06 南方电网数字电网研究院有限公司 电网故障类型识别方法与智能体构建方法
CN115759604A (zh) * 2022-11-09 2023-03-07 贵州大学 一种综合能源系统优化调度方法
CN116245334A (zh) * 2023-03-15 2023-06-09 东南大学 一种基于深度强化学习的电力系统风险感知实时调度方法
CN116307251A (zh) * 2023-04-12 2023-06-23 哈尔滨理工大学 一种基于强化学习的工作排程优化方法
WO2024022194A1 (zh) * 2022-07-26 2024-02-01 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN118070642A (zh) * 2024-01-10 2024-05-24 江苏国芯科技有限公司 一种用于核电反应堆的单片机设计系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113255936A (zh) * 2021-05-28 2021-08-13 浙江工业大学 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN113298252A (zh) * 2021-05-31 2021-08-24 浙江工业大学 一种面向深度强化学习的策略异常检测方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
US20200327411A1 (en) * 2019-04-14 2020-10-15 Di Shi Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112186811A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的agc机组动态优化方法
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113255936A (zh) * 2021-05-28 2021-08-13 浙江工业大学 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN113298252A (zh) * 2021-05-31 2021-08-24 浙江工业大学 一种面向深度强化学习的策略异常检测方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DI CAO: "Reinforcement Learning and Its Applications in Modern Power and Energy Systems: A Review", 《JOURNAL OF MODERN POWER SYSTEMS AND CLEAN ENERGY》 *
GUOYU ZUO: "Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations", 《APPLIED SOFT COMPUTING》 *
JUNHYUK OH: "Self-imitation learning", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
王坤峰: "生成式对抗网络GAN的研究进展与展望", 《自动化学报》 *
马世乾: "基于最大熵强化学习的电网自主拓扑切换控制技术", 《电力系统及其自动化学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662404B (zh) * 2022-04-07 2024-04-30 西北工业大学 规则数据双驱动的机器人复杂操作过程人机混合决策方法
CN114662404A (zh) * 2022-04-07 2022-06-24 西北工业大学 规则数据双驱动的机器人复杂操作过程人机混合决策方法
CN114662798A (zh) * 2022-05-17 2022-06-24 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114662798B (zh) * 2022-05-17 2022-09-06 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114859734A (zh) * 2022-06-15 2022-08-05 厦门大学 一种基于改进sac算法的温室环境参数优化决策方法
CN114859734B (zh) * 2022-06-15 2024-06-07 厦门大学 一种基于改进sac算法的温室环境参数优化决策方法
WO2024022194A1 (zh) * 2022-07-26 2024-02-01 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115542736A (zh) * 2022-09-28 2022-12-30 阿里巴巴达摩院(杭州)科技有限公司 设备控制方法、计算机可读存储介质以及计算机终端
CN115759604A (zh) * 2022-11-09 2023-03-07 贵州大学 一种综合能源系统优化调度方法
CN115759604B (zh) * 2022-11-09 2023-09-19 贵州大学 一种综合能源系统优化调度方法
CN115577647A (zh) * 2022-12-09 2023-01-06 南方电网数字电网研究院有限公司 电网故障类型识别方法与智能体构建方法
CN116245334B (zh) * 2023-03-15 2024-04-16 东南大学 一种基于深度强化学习的电力系统风险感知实时调度方法
CN116245334A (zh) * 2023-03-15 2023-06-09 东南大学 一种基于深度强化学习的电力系统风险感知实时调度方法
CN116307251B (zh) * 2023-04-12 2023-09-19 哈尔滨理工大学 一种基于强化学习的工作排程优化方法
CN116307251A (zh) * 2023-04-12 2023-06-23 哈尔滨理工大学 一种基于强化学习的工作排程优化方法
CN118070642A (zh) * 2024-01-10 2024-05-24 江苏国芯科技有限公司 一种用于核电反应堆的单片机设计系统
CN118070642B (zh) * 2024-01-10 2024-09-24 江苏国芯科技有限公司 一种用于核电反应堆的单片机设计系统

Also Published As

Publication number Publication date
CN114217524B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN114217524A (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN110535146B (zh) 基于深度确定策略梯度强化学习的电力系统无功优化方法
CN110837915B (zh) 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法
CN114142530A (zh) 一种基于近端策略优化算法的考虑n-1安全约束的风险调度方法
CN114725982B (zh) 一种分布式光伏集群精细化划分及建模方法
CN113722980B (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
CN113541192A (zh) 基于深度强化学习的海上风电场无功-电压协调控制方法
Zhang et al. Deep reinforcement learning for load shedding against short-term voltage instability in large power systems
CN112012875B (zh) 一种水轮机调节系统pid控制参数的优化方法
CN113255138A (zh) 一种电力系统负荷分配优化方法
CN118174355A (zh) 一种微电网能量优化调度方法
CN115313403A (zh) 一种基于深度强化学习算法的实时电压调控方法
CN114970351A (zh) 基于注意力机制和深度强化学习的电网潮流调整方法
CN117200213A (zh) 基于自组织映射神经网络深度强化学习的配电系统电压控制方法
CN114330649B (zh) 一种基于进化学习和深度强化学习的电压调节方法及系统
CN116054152A (zh) 一种考虑经济效益的风光储参与配电网源网荷储协同优化控制的方法
CN113239547B (zh) 一种基于tlbo算法的核心骨干网架构建方法
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN117893043A (zh) 一种基于ddpg算法和深度学习模型的水电站负荷分配方法
CN113517723A (zh) 一种含小型水电站的配电网系统的无功电压优化方法
Chen et al. Optimization of ADRC Parameters Based on Particle Swarm Optimization Algorithm
CN117057623A (zh) 一种综合性电网安全优化调度方法、装置、存储介质
CN112564189A (zh) 一种有功无功协调优化控制方法
CN117117989A (zh) 一种机组组合深度强化学习求解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant