CN113141012A - 基于深度确定性策略梯度网络的电网潮流调控决策推理方法 - Google Patents

基于深度确定性策略梯度网络的电网潮流调控决策推理方法 Download PDF

Info

Publication number
CN113141012A
CN113141012A CN202110444680.6A CN202110444680A CN113141012A CN 113141012 A CN113141012 A CN 113141012A CN 202110444680 A CN202110444680 A CN 202110444680A CN 113141012 A CN113141012 A CN 113141012A
Authority
CN
China
Prior art keywords
network
action
state
actor
power grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110444680.6A
Other languages
English (en)
Other versions
CN113141012B (zh
Inventor
杜友田
鹿永迪
王晨希
解圣源
郭子豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110444680.6A priority Critical patent/CN113141012B/zh
Publication of CN113141012A publication Critical patent/CN113141012A/zh
Application granted granted Critical
Publication of CN113141012B publication Critical patent/CN113141012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/04Power grid distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法,为电力网络设计其状态表征向量和动作表征向量;基于深度确定性策略梯度网络设计推理模型,将状态表征向量作为Actor网络的输入,得到多个相似的离散动作,将“状态‑动作”对向量作为Critic网络的输入,输出每一“状态‑动作”对向量的价值估计,选取估计值最高的动作作为该状态下要在环境中执行的最终动作;基于离散化的电网运行数据集仿真电网运行环境,将所述模型和仿真电网运行环境进行交互,从仿真电网运行环境中得到当前状态和要执行的最终动作,将要执行的最终动作交由仿真电网运行环境执行,本发明为电力网络实时调控提供了一种可行手段。

Description

基于深度确定性策略梯度网络的电网潮流调控决策推理方法
技术领域
本发明属于智能电网技术领域,涉及一种电力网络潮流调控的人工智能增强,特别涉及一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法。
背景技术
作为输送电力能源的管道,大电网是高维紧耦合的复杂动力学系统,保障大电网的安全运行调度与控制(调控)一直是工业界和学术界广泛关系的问题。当前,大电网调控的第一道安全防线是安全稳定的自动化装置,第二道防线是依靠人工经验对电网调控进行最终决策。由于大规模新能源的广泛接入使得电网调控具有不确定性,多类型设备互联造成电网互动开放性,故障瞬时扰动冲击形成电网运行脆弱性。因此,大电网调控面临运行方式高维化、计算分析海量化、安全稳定失配风险加剧的严峻挑战。
目前的电网调控依靠复杂动力学系统的数字仿真分析手段,更高度依赖人工对电网运行的经验认知水平。现有的调控策略往往是根据设想的“最坏”极端情况或一些典型的运行情况,通过离线仿真提前制定的“调度规范”。随着可再生能源、分布式能源、需求响应和电力市场行为的快速增长,传统的理论假设和调控规则无法适应愈加复杂时变的电网结构和特性;且由于缺乏足够的计算能力和无法实时使用的精准电网物理模型,现有自动控制系统很难对调控策略进行实时调整和改进。传统自动化装置不具备调度决策的智能化属性,当前的智能电网调控算法往往针对某一特定的检测目标而设计,在电网结构发生改变时需要重新设计和训练,需要耗费大量人力物力和时间,无法根据电网整体状况确定调控策略,难以保证电网全局决策的可靠性和敏捷性,而大电网的脆弱性对紧急控制的错误极为敏感。所以亟需发展针对现代电网调控的一套完善、有效且快速的电网调控理论和系统。
文献[Kim B G,Yu Z,Schaar M,et al.Dynamic Pricing and EnergyConsumption Scheduling With Reinforcement Learning[J].IEEE Transactions onSmart Grid,2016,7(5):2187-2198.]、[Lincoln R,Galloway S,Stephen B,etal.Comparing Policy Gradient and Value Function Based Reinforcement LearningMethods in Simulated Electrical Power Trade[J].IEEE Transactions on PowerSystems,2012,27(1):373-380.]通过开发强化学习Q值学习(Q-Learning)算法,在无需微电网相关的先验信息前提下,帮助微电网运行智能动态定价和客户的能耗调度策略,有效地平衡微电网经济管理运行和客户的能耗需求。文献[Glavic M.Design of a ResistiveBrake Controller for Power System Stability Enhancement Using ReinforcementLearning[J].IEEE Transactions on Control Systems Technology,2005,13(5):743-751.]研究了强化学习算法在电网瞬时功角稳定控制方面的应用。文献[Karimi A,Eftekharnejad S,Feliachi A.Reinforcement learning based backstepping controlof power system oscillations[J].Electric Power Systems Research,2009,79(11):1511-1520.]、[Wang D,Glavic M,Wehenkel L.Trajectory-Based SupplementaryDamping Control for Power System Electromechanical Oscillations[J].PowerSystems,IEEE Transactions on,2014,29(6):2835-2845.]提出基于强化学习的反推控制阻尼震荡稳定技术,用于利用发电机励磁系统阻尼来一直电力系统中的震荡。文献[Xu Y,Zhang W,Liu W,et al.Multiagent-Based Reinforcement Learning for OptimalReactive Power Dispatch[J].IEEE Transactions on Systems Man&Cybernetics PartC,2012,42(6):1742-1751.]研究基于多智能体(Multi-Agents)强化学习的无功分配优化策方法,该方法不需要精确的电网系统模型,并可与从零经验开始学习,在不同规模的电力系统中进行测试均非常有效,能够接近最佳的解决方案。清华大学[赵峰,孙宏斌,张伯明.基于电气分区的输电断面及其自动发现[J].电力系统自动化,2011,35(5):42-46.]开展了电网智能调度方法研究,提出关键断面自动发现、电网安全运行特征在线选择等关键技术,研发的电网智能调度系统在广东电网实现了应用。全球能源互联网美国研究院[Duan J,Shi D,Diao R,et al.Deep-Reinforcement-Learning-Based Autonomous VoltageControl for Power Grid Operations[J].IEEE Transactions on Power Systems,2019,PP(99):1-1.]基于深度强化学习技术,提出具有在线学习功能的电网自主优化控制和决策框架,即“电网脑”系统,该方案使用深度Q值学习网络(Deep Q-Learning,DQN)和深度确定性策略梯度网络(Deep Deterministic Policy Gradient Network,DDPG)两种最新DRL算法解决自动电压控制问题,在实际200节点电网系统中表现出色。
由此可见,基于传统强化学习算法的研究已逐渐无法满足迅速扩张的电网规模和复杂拓扑,而深度强化学习技术成为解决大电网高耦合非线性系统安全稳定调控问题的有效途径。为此,本发明针对深度强化学习技术应用在大电网调控中存在的高维状态空间和动作空间探索-利用问题,提出一种有效的决策推理方法,提升模型学习状态-动作映射关系的效率和在实际电网中的应用效果。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法,基于深度强化学习算法与仿真电力网络环境的交互学习,获得大量电网调控运行知识和电网状态与调控行为的映射关系,对对电力网络实时调控提供一种可行手段,并针对复杂问题存在的高维状态和动作空间进行算法设计。
为了实现上述目的,本发明采用的技术方案是:
一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法,包括如下步骤:
步骤1,为电力网络设计其状态表征向量S和动作表征向量A;
步骤2,基于深度确定性策略梯度(DDPG)网络设计推理模型,将状态表征向量S作为Actor网络的输入,输出为一个具体的连续动作空间向量,称为连续动作
Figure BDA0003036359650000031
将连续动作
Figure BDA0003036359650000032
通过映射规则映射到预定义好的离散动作空间,得到k个相似的离散动作Areal,与输入的状态表征向量S组成k组“状态-动作”对向量,将“状态-动作”对向量作为Critic网络的输入,输出每一“状态-动作”对向量的价值估计,选取估计值最高的动作作为该状态下要在环境中执行的最终动作;
步骤3,基于离散化的电网运行数据集仿真电网运行环境,将所述模型和仿真电网运行环境进行交互,收集经验样本数据,模型从仿真电网运行环境中得到当前状态和要执行的最终动作,将要执行的最终动作交由仿真电网运行环境执行,并反馈即时奖励、下一状态和是否结束信号;如果结束信号为真,则结束当前回合,重新初始化状态进行交互;否则,基于下一状态重复交互步骤;
步骤4,所述经验样本数据放入经验回放池,从经验回放池中采样经验样本数据,更新模型参数。
所述步骤1中,电力网络的状态空间和动作空间均由连续空间变量和离散空间变量组成;其中状态空间的连续空间变量包括时间、发电机发电功率和机端电压、负载功率、节点电压、线路潮流值以及电压,离散空间变量包括网络拓扑结构;动作空间的连续变量包括发电机出力调整和负载功率调整,离散变量包括传输线路通断状态和变电站节点内双母线与各元件的连接拓扑结构。
所述步骤1中,确定电力网络中包含的变电站节点、发电机节点、负载节点和传输线路数量,并进行编号,利用编号代表对应元器件,并将其对应变量放入具体位置构成一维的状态表征向量S;其中,发电机节点放入发电功率和机端电压变量,负载节点放入负载功率变量,变电站和传输线路通过编号连接代表拓扑结构。
所述将发电机出力功率调整和负载功率调整的具体增/减功率值放入一维动作向量对应编号位置,通过1、0代表传输线路通/断状态切换动作,通过0、1、2代表变电站节点内各元器件与双母线的连接状态,0表示该元器件与所有母线断开,1代表该元器件与1号母线连接,2代表该元器件与2号母线连接,得到动作表征向量A。
所述步骤2中,所述深度确定性策略梯度网络由Actor-Critic网络各复制一个Actor网络和Critic网络得到,具有两个Actor策略网络和两个Critic网络,所述两个Actor策略网络为Actor当前网络和Actor目标网络,所述两个Critic网络为Critic当前网络和Critic目标网络,推理模型设计方法如下:
首先,确定深度确定性策略梯度网络的结构参数,包括其输入层、隐藏层和输出层的神经元个数以及激活函数;
其次,以当前状态表征向量St作为Actor当前网络的输入,得到相应的连续动作
Figure BDA0003036359650000051
通过k近邻算法寻找离散动作空间的k个离散动作At,由St和At组成k组“状态St-动作”对向量,输入至Critic当前网络,得到对应的价值估计,选取价值估计最大值v(St)对应的离散动作At,在环境中执行,并得到反馈即时奖励值Rt和下一时刻状态表征向量St+1,至此实现推理模型中单一状态到多个相似动作簇的推理环节;
然后,将St+1作为Actor目标网络的输入,得到k个离散动作At+1,由St+1和At+1组成k组“状态St+1-动作”对向量,输入Critic目标网络得到St+1对应的价值估计,记最大值为v(St+1),将Rt+γv(St+1)作为(St,At)的价值估计v(St)的标签,其中γ为折扣奖励系数,γ∈[0,1];
再次,将-Rt作为Actor当前网络的损失,更新迭代Actor当前网络参数,使其输出向价值估计更高的动作方向偏移,以最大化输出动作从环境中得到的累计即时奖励值,通过v(St)-v(St+1)作为损失反向更新迭代Critic当前网络参数,使Critic当前网络对“状态-动作”对向量的价值估计更准确;
最后,参数更新后,将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络,进行下一回合的交互,由此完成推理模型中网络参数的反向更新环节。
所述单一状态到多个相似动作簇的推理环节中,选取最佳执行动作的依据,还引入了人工经验对k个动作进行价值判断。
所述Actor当前网络的更新损失函数如下:
Figure BDA0003036359650000061
所述Critic当前网络的更新损失函数如下式:
Figure BDA0003036359650000062
式中,θ为Actor当前网络参数,ω为Critic当前网络参数,πθ(φ(sj))表示当前状态表征向量sj下Actor当前网络的输出,Q为Critic当前网络对Actor当前网络输出的k组“状态St-动作”对向量的价值估计最大值,m表示从样本池单次采样的样本个数,j表示采样样本序号,
Figure BDA0003036359650000063
分别表示以m个采样样本为输入时,对Critic当前网络、Actor当前网络的输出求梯度,sj、aj表示第j个采样样本的状态表征向量、动作表征向量,yj=rj+γvω'(s'j)表示第j个采样样本中状态-动作对的目标价值,rj表示第j个采样样本的即时奖励,s'j表示第j个采样样本中sj状态下采取动作aj后的下一状态表征向量,vω'(s'j)表示以ω'为参数的目标Critic网络对s'j的价值估计输出。
所述将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络,是采用软更新方式复制,如下式:
θ'←τθ+(1-τ)θ'
ω'←τω+(1-τ)ω'
式中,τ为软更新系数,取值0.1或0.01,θ'为Actor目标网络参数,ω'为Critic目标网络参数。
与现有技术相比,本发明通过计算机自动地与电网仿真环境进行交互,自主学习电网实时运行状态到调控动作的映射关系,实现状态到动作空间的推理决策能力,该能力在高维空间下对模型的训练和收敛速度有重要影响,理论和实验证明本发明能够适用于实际复杂电网调控场景。
附图说明
图1是本发明整体流程图。
图2是本发明实施例中电力网络结构编号示意图。
图3是本发明实施例中DDPG网络结构图。
图4是本发明实施例中连续空间动作嵌入策略模型结构图。
图5是本发明实施例中电网状态空间与动作空间的多对多映射图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法,包括如下步骤:
步骤1,为电力网络设计其状态表征向量S和动作表征向量A。
电力网络的状态空间和动作空间均由连续空间变量和离散空间变量组成;一般地,状态空间的连续空间变量包括时间、发电机发电功率和机端电压、负载功率、节点电压、线路潮流值以及电压等,离散空间变量主要包括网络拓扑结构。动作空间的连续变量包括发电机出力调整和负载功率调整等,离散变量包括传输线路通断状态和变电站节点内双母线与各元件的连接拓扑结构等。
针对要应用的具体电力网络结构,如图2所示,确定网络中包含的变电站节点、发电机节点、负载节点和传输线路等的数量,并进行编号。利用编号代表对应元器件,将其对应变量放入合适位置构成一维的状态表征向量S,如发电机节点放入发电功率和机端电压变量、负载节点放入负载功率变量、变电站和传输线路通过编号连接代表拓扑结构等。将发电机出力功率调整和负载功率调整的具体增/减功率值放入一维动作向量对应编号位置,通过1、0代表传输线路通/断状态切换动作,通过0、1、2代表变电站节点内各元器件与双母线的连接状态,0表示该元器件与所有母线断开,1代表该元器件与1号母线连接,2代表该元器件与2号母线连接,得到动作表征向量A。
其中,对状态中的组成部分解释如下:
时间:电力网络运行的实时时刻,具体到年月日、时分;
发电机发电发电功率:当前时间,每台发电机发出的有功功率P;
机端电压:当前时间,每台发电机的出口电压;
负载功率:当前时间,每个负载节点(如一个用电区域等效为一个整体)的总功率(包括有功功率和无功功率);
节点电压:当前时间,每个变电站节点的电压值;
线路潮流值及电压:当前时间,每条电力传输线中的电流值及两端电压值;
网络拓扑结构:当前时间,电力网络中所有元器件的连接关系和状态。
步骤2:动作空间的降维预处理。
在实际的动作空间中,存在大量的无实际意义的行为。对于此,引入人工经验和指导探索机制对动作空间进行降维处理。具体操作是针对电网种子数据集(数据集中包含不同年份、月份、日期的离散化电网运行种子数据,每一份都是一种不同的运行场景)中的每一场景进行仿真运行,然后在任一时刻,随机执行动作空间中的某一动作,记录该动作所获取的即时奖励,重复该步骤(状态输入—动作选择—动作执行—反馈奖励和新状态),直到随机采样的动作数量达到总动作空间数量的比例n(超参数,介于0~1)为止。
基于每次执行随机动作得到的即时奖励结果,以动作编号为键值建立倒排索引库,计算每个动作在随机场景下所获得的平均奖励值。如果平均奖励值为负,则认为该动作的潜在价值为负,从动作空间中删除该动作,从而实现对动作空间的降维处理。以此可简化动作空间,提高模型的探索效率。
步骤3,基于深度确定性策略梯度(DDPG)网络设计推理模型,将状态表征向量S作为Actor网络的输入(可经过归一化等数据预处理函数φ(S)进行预处理),输出为一个具体的连续动作空间向量,称为连续动作
Figure BDA0003036359650000081
将连续动作
Figure BDA0003036359650000082
通过映射规则映射到预定义好的离散动作空间,得到k个相似的离散动作Areal,与输入的状态表征向量S组成k组“状态-动作”对向量,将“状态-动作”对向量作为Critic网络的输入,输出每一“状态-动作”对向量的价值估计,选取估计值最高的动作作为该状态下要在环境中执行的最终动作。
其中,深度确定性策略梯度网络由Actor-Critic网络各复制一个Actor网络和Critic网络得到,如图3所示模型总体结构,其具有两个Actor策略网络(Actor当前网络和Actor目标网络)和两个Critic网络(Critic当前网络和Critic目标网络),根据步骤1中设计的状态、动作向量的维度,确定Actor网络和Critic网络的输入、输出维度。其中Actor网络以状态表征向量作为输入,Critic以状态、动作对作为输入。
在高维状态、动作空间下,Actor-Critic网络通过探索学习离散空间所有状态-动作对价值的方式效果不佳,需要耗费大量的时间和算例。因此提出本发明考虑首先利用有关动作的先验信息将所有动作嵌入连续空间内,这种嵌入技术可以使Actor网络(策略网络)输出的复杂度与实际的动作空间大小解耦;其次,Actor当前网络会基于输入产生一个连续的动作输出,然后使用最近邻搜索在对数时间内找到“距离”最为接近的离散动作集合。如图4所示决策推理模型与DDPG的融合模型。
推理模型设计方法如下:
步骤3.1,确定深度确定性策略梯度网络的结构参数,如输入层、隐藏层和输出层的神经元个数、激活函数、参数初始化等超参数。
步骤3.2,以当前状态表征向量St作为Actor当前网络的输入,得到相应的连续动作
Figure BDA0003036359650000091
通过k近邻算法寻找离散动作空间的k个离散动作At,由St和At组成k组“状态St-动作”对向量,输入至Critic当前网络,得到对应的价值估计,选取价值估计最大值v(St)对应的离散动作At,在环境中执行,并得到反馈即时奖励值Rt和下一时刻状态表征向量St+1,至此实现推理模型中单一状态到多个相似动作簇的推理环节。
步骤3.3,将St+1作为Actor目标网络的输入,得到k个离散动作At+1,由St+1和At+1组成k组“状态St+1-动作”对向量,输入Critic目标网络得到St+1对应的价值估计,记最大值为v(St+1),将Rt+γv(St+1)作为(St,At)的价值估计v(St)的标签,其中γ为折扣奖励系数,γ∈[0,1]。
步骤3.4,将-Rt作为Actor当前网络的损失,更新迭代Actor当前网络参数,使其输出向价值估计更高的动作方向偏移,以最大化输出动作从环境中得到的累计即时奖励值,通过v(St)-v(St+1)作为损失反向更新迭代Critic当前网络参数,使Critic当前网络对“状态-动作”对向量的价值估计更准确。
其中,Actor当前网络的更新损失函数如下:
Figure BDA0003036359650000101
Critic当前网络的更新损失函数如下式:
Figure BDA0003036359650000102
式中,θ为Actor当前网络参数,ω为Critic当前网络参数,πθ(φ(sj))表示当前状态表征向量sj下Actor当前网络的输出,Q为Critic当前网络对Actor当前网络输出的k组“状态St-动作”对向量的价值估计最大值,m表示从样本池单次采样的样本个数,j表示采样样本序号,
Figure BDA0003036359650000103
分别表示以m个采样样本为输入时,对Critic当前网络、Actor当前网络的输出求梯度,sj、aj表示第j个采样样本的状态表征向量、动作表征向量,yj=rj+γvω'(s'j)表示第j个采样样本中状态-动作对的目标价值,rj表示第j个采样样本的即时奖励,s'j表示第j个采样样本中sj状态下采取动作aj后的下一状态表征向量,vω'(s'j)表示以ω'为参数的目标Critic网络对s'j的价值估计输出。
步骤3.5,参数更新后,将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络,进行下一回合的交互,由此完成推理模型中网络参数的反向更新环节。其中复制并非是直接复制,而是采用软更新方式复制,如下式:
θ'←τθ+(1-τ)θ'
ω'←τω+(1-τ)ω'
式中,τ为软更新系数,一般取值0.1或0.01等较小值。θ'为Actor目标网络参数,ω'为Critic目标网络参数。
以上即为推理模型的设计过程,如图3和图4所示逻辑流程。
上述模型的原理如下:
以S作为输入,在一个连续的动作嵌入空间
Figure BDA0003036359650000111
中进行动作决策的推理,然后再根据一定的选择策略
Figure BDA0003036359650000112
将推理模型输出的连续动作
Figure BDA0003036359650000113
映射到预定义的离散动作空间,如下式所示。
Figure BDA0003036359650000114
Figure BDA0003036359650000115
式中,
Figure BDA0003036359650000119
表示一个网络化的非线性映射函数,参数为π,通常用神经网络来拟合;该函数将原始状态表征向量S映射到连续动作空间,输出给定状态下一个原始的连续动作
Figure BDA0003036359650000116
该动作可能并不实际存在(实际离散动作空间没有相对应的动作),仅表示该网络参数表示的当前策略下所输出的理想动作,因此需要再将该动作以一定的策略映射到实际离散空间(如核函数等映射方法,将原始动作、连续动作都通过核函数进行映射),找到某种定义下(如最近邻等方法)相近的若干动作,可视为退而求其次的推理行为,定义如下:
Figure BDA0003036359650000117
最近邻映射:
Figure BDA0003036359650000118
式中,gk表示一个k近邻映射策略,该函数返回k个实际离散动作空间中,与原始连续动作输出相近的实际离散动作,正是该步骤代替了基于Q值方法中对所有状态-动作对价值的近似估算,大大提高了模型计算效率,且赋予模型以一定的推理能力。
由于实际问题的动作空间设计方法不同,导致在从原始连续动作输出映射到实际离散动作空间时,会产生不同的映射结果。在某些情况下,仅依靠这种映射选取k近邻或最近邻的动作并不总是会有可靠的结果,甚至映射到较差的动作上。为了减少这种情况发生的概率,通过使用Critic当前网络等策略对映射后的状态-动作对进行价值预测,排除距离相近但估计很低的“伪相似”动作,以免严重偏离正确结果,影响甚至误导策略网络的学习。除了Critic当前网络外,还可以通过指导性探索、引入人工经验等方式引导网络选择价值更好的动作,从而不断更新参数学习模仿这种择优选择策略,定义为如下式:
Figure BDA0003036359650000121
该技巧能够显著提高模型对错误性动作推理的容错能力和稳定性,平衡了模型的收敛速度和策略学习质量。
步骤4,基于离散化的电网运行数据集仿真电网运行环境,将所述模型和仿真电网运行环境进行交互,收集经验样本数据,模型从仿真电网运行环境中得到当前状态和要执行的最终动作,将要执行的最终动作交由仿真电网运行环境执行,并反馈即时奖励、下一状态和是否结束信号;如果结束信号为真,则结束当前回合,重新初始化状态进行交互;否则,基于下一状态重复交互步骤;
步骤5,经验样本数据放入经验回放池,从经验回放池中采样经验样本数据,更新模型参数。根据设计好的网络损失函数、优化目标等,使用采样的样本数据计算损失,通过梯度反向传播更新优化网络参数。并基于更新后的模型参数,继续与环境交互收集新的更加多样性的经验样本数据,直至模型收敛。
本发明中,由于电网动作空间是由发电机出力调整、负载功率调整、传输线状态调整以及变电站节点内双母线与各元件的连接拓扑结构调整等部分组成,其中发电机出力、负载功率等均为连续空间变量,后两者均为离散空间变量,因此对于前者的调整理论上为连续过程,而后者由于电网物理结构的限制,只能以固定的排列组合进行调整,不可随意增加或删除元器件以达到使拓扑结构连续更改的目的。
故而发明中作出假定:电网动作空间视为统一的连续空间,由于物理条件等某些方面的限制导致部分动作无法完全按照电网动作空间中的连续动作实施的,可将该动作映射到实际对应的离散空间中寻找最为“相近”的离散动作。
因此,本发明基于DDPG动作空间嵌入的决策推理模型在电网潮流调控问题中的应用条件便可满足——网络的输入和输出均为连续空间。而对于决策推理在电网潮流调控问题中的解释,本发明认为在实际电网调控中的某一时刻状态下,有效的调控行为并不唯一,可能存在一对多(一种状态多种调控行为均有效)的情况;反过来,一种调整动作也并不进队某一种状态有效,完全可能存在多对一(多种状态都可以采样同一调整行为产生效果)的情况。因此本发明认为,电网的状态空间与其调控动作空间存在多对多的映射关系,以三维空间为例,如图5所示。
本发明的整体流程可总结为如下算法:
输入:迭代回合数T,状态集S,动作集A,衰减系数γ,软更新系数τ,batch_size=m,Actor当前、目标网络,Critic当前、目标网络,参数分别为θ,θ',ω,ω';
输出:最优Actor当前网络参数θ,最优Critic当前网络参数ω;
初始化:随机初始化网络参数θ,ω,且θ'=θ,ω'=ω,清空经验回放池Database;
对于每个回合,循环操作:
Step 1 初始化起始状态表征S,并计算得到其预处理向量φ(S);
对当前回合的每个时步,循环操作:
Step 2 Actor当前网络输出当前状态S下的原始连续动作
Figure BDA0003036359650000131
Step 3 通过映射规则寻找对应离散动作
Figure BDA0003036359650000132
Step 4 实施动作Areal,获取奖励R和新状态S',判断是否终止状态done;
Step 5 将[φ(S),Areal,R,φ(S'),done]放入经验回放池Database;
Step 6 从经验回放池中采样m个[φ(Sj),Areal_j,Rj,φ(Sj'),donej]样本,计算当前目标Q值yj
Figure BDA0003036359650000141
Step 7 使用如下均方误差损失函数,通过梯度反向传播更新Critic当前网络参数ω:
Figure BDA0003036359650000142
Step 8 使用如下损失函数,通过梯度反向传播更新Actor当前网络参数θ:
Figure BDA0003036359650000143
Step 9 每个一定步数,更新Actor目标网络参数θ'和Critic目标网络参数ω':
θ'←τθ+(1-τ)θ'
ω'←τω+(1-τ)ω'
Step 10 进入下一时步状态S=S';
Step 11 直至到达终止状态S,结束当前回合,回到Step 1进入下一回合。

Claims (8)

1.一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,包括如下步骤:
步骤1,为电力网络设计其状态表征向量S和动作表征向量A;
步骤2,基于深度确定性策略梯度(DDPG)网络设计推理模型,将状态表征向量S作为Actor网络的输入,输出为一个具体的连续动作空间向量,称为连续动作
Figure FDA0003036359640000011
将连续动作
Figure FDA0003036359640000012
通过映射规则映射到预定义好的离散动作空间,得到k个相似的离散动作Areal,与输入的状态表征向量S组成k组“状态-动作”对向量,将“状态-动作”对向量作为Critic网络的输入,输出每一“状态-动作”对向量的价值估计,选取估计值最高的动作作为该状态下要在环境中执行的最终动作;
步骤3,基于离散化的电网运行数据集仿真电网运行环境,将所述模型和仿真电网运行环境进行交互,收集经验样本数据,模型从仿真电网运行环境中得到当前状态和要执行的最终动作,将要执行的最终动作交由仿真电网运行环境执行,并反馈即时奖励、下一状态和是否结束信号;如果结束信号为真,则结束当前回合,重新初始化状态进行交互;否则,基于下一状态重复交互步骤;
步骤4,所述经验样本数据放入经验回放池,从经验回放池中采样经验样本数据,更新模型参数。
2.根据权利要求1所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,所述步骤1中,电力网络的状态空间和动作空间均由连续空间变量和离散空间变量组成;其中状态空间的连续空间变量包括时间、发电机发电功率和机端电压、负载功率、节点电压、线路潮流值以及电压,离散空间变量包括网络拓扑结构;动作空间的连续变量包括发电机出力调整和负载功率调整,离散变量包括传输线路通断状态和变电站节点内双母线与各元件的连接拓扑结构。
3.根据权利要求2所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,所述步骤1中,确定电力网络中包含的变电站节点、发电机节点、负载节点和传输线路数量,并进行编号,利用编号代表对应元器件,并将其对应变量放入具体位置构成一维的状态表征向量S;其中,发电机节点放入发电功率和机端电压变量,负载节点放入负载功率变量,变电站和传输线路通过编号连接代表拓扑结构。
4.根据权利要求2或3所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,所述将发电机出力功率调整和负载功率调整的具体增/减功率值放入一维动作向量对应编号位置,通过1、0代表传输线路通/断状态切换动作,通过0、1、2代表变电站节点内各元器件与双母线的连接状态,0表示该元器件与所有母线断开,1代表该元器件与1号母线连接,2代表该元器件与2号母线连接,得到动作表征向量A。
5.根据权利要求1所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,所述步骤2中,所述深度确定性策略梯度网络由Actor-Critic网络各复制一个Actor网络和Critic网络得到,具有两个Actor策略网络和两个Critic网络,所述两个Actor策略网络为Actor当前网络和Actor目标网络,所述两个Critic网络为Critic当前网络和Critic目标网络,推理模型设计方法如下:
首先,确定深度确定性策略梯度网络的结构参数,包括其输入层、隐藏层和输出层的神经元个数以及激活函数;
其次,以当前状态表征向量St作为Actor当前网络的输入,得到相应的连续动作
Figure FDA0003036359640000021
通过k近邻算法寻找离散动作空间的k个离散动作At,由St和At组成k组“状态St-动作”对向量,输入至Critic当前网络,得到对应的价值估计,选取价值估计最大值v(St)对应的离散动作At,在环境中执行,并得到反馈即时奖励值Rt和下一时刻状态表征向量St+1,至此实现推理模型中单一状态到多个相似动作簇的推理环节;
然后,将St+1作为Actor目标网络的输入,得到k个离散动作At+1,由St+1和At+1组成k组“状态St+1-动作”对向量,输入Critic目标网络得到St+1对应的价值估计,记最大值为v(St+1),将Rt+γv(St+1)作为(St,At)的价值估计v(St)的标签,其中γ为折扣奖励系数,γ∈[0,1];
再次,将-Rt作为Actor当前网络的损失,更新迭代Actor当前网络参数,使其输出向价值估计更高的动作方向偏移,以最大化输出动作从环境中得到的累计即时奖励值,通过v(St)-v(St+1)作为损失反向更新迭代Critic当前网络参数,使Critic当前网络对“状态-动作”对向量的价值估计更准确;
最后,参数更新后,将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络,进行下一回合的交互,由此完成推理模型中网络参数的反向更新环节。
6.根据权利要求5所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,所述单一状态到多个相似动作簇的推理环节中,选取最佳执行动作的依据,还引入了人工经验对k个动作进行价值判断。
7.根据权利要求5所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,所述Actor当前网络的更新损失函数如下:
Figure FDA0003036359640000031
所述Critic当前网络的均方误差损失函数如下式:
Figure FDA0003036359640000032
式中,θ为Actor当前网络参数,ω为Critic当前网络参数,πθ(φ(sj))表示当前状态表征向量sj下Actor当前网络的输出,Q为Critic当前网络对Actor当前网络输出的k组“状态St-动作”对向量的价值估计最大值,m表示从样本池单次采样的样本个数,j表示采样样本序号,
Figure FDA0003036359640000033
分别表示以m个采样样本为输入时,对Critic当前网络、Actor当前网络的输出求梯度,sj、aj表示第j个采样样本的状态表征向量、动作表征向量,yj=rj+γvω'(s'j)表示第j个采样样本中状态-动作对的目标价值,rj表示第j个采样样本的即时奖励,s'j表示第j个采样样本中sj状态下采取动作aj后的下一状态表征向量,vω'(s'j)表示以ω'为参数的目标Critic网络对s'j的价值估计输出。
8.根据权利要求7所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法,其特征在于,所述将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络,是采用软更新方式复制,如下式:
θ'←τθ+(1-τ)θ'
ω'←τω+(1-τ)ω'
式中,τ为软更新系数,取值0.1或0.01,θ′'为Actor目标网络参数,ω'为Critic目标网络参数。
CN202110444680.6A 2021-04-24 2021-04-24 电网潮流调控决策推理方法 Active CN113141012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110444680.6A CN113141012B (zh) 2021-04-24 2021-04-24 电网潮流调控决策推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110444680.6A CN113141012B (zh) 2021-04-24 2021-04-24 电网潮流调控决策推理方法

Publications (2)

Publication Number Publication Date
CN113141012A true CN113141012A (zh) 2021-07-20
CN113141012B CN113141012B (zh) 2023-04-18

Family

ID=76812602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110444680.6A Active CN113141012B (zh) 2021-04-24 2021-04-24 电网潮流调控决策推理方法

Country Status (1)

Country Link
CN (1) CN113141012B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048576A (zh) * 2021-11-24 2022-02-15 国网四川省电力公司成都供电公司 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114707613A (zh) * 2022-04-24 2022-07-05 西安交通大学 基于分层的深度策略梯度网络的电网调控方法
CN113837654B (zh) * 2021-10-14 2024-04-12 北京邮电大学 一种面向多目标的智能电网分层调度方法
CN114048576B (zh) * 2021-11-24 2024-05-10 国网四川省电力公司成都供电公司 一种稳定电网输电断面潮流的储能系统智能化控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及系统
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
US20200119556A1 (en) * 2018-10-11 2020-04-16 Di Shi Autonomous Voltage Control for Power System Using Deep Reinforcement Learning Considering N-1 Contingency
CN111600851A (zh) * 2020-04-27 2020-08-28 浙江工业大学 面向深度强化学习模型的特征过滤防御方法
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及系统
US20200119556A1 (en) * 2018-10-11 2020-04-16 Di Shi Autonomous Voltage Control for Power System Using Deep Reinforcement Learning Considering N-1 Contingency
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN111600851A (zh) * 2020-04-27 2020-08-28 浙江工业大学 面向深度强化学习模型的特征过滤防御方法
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAJUN DUAN ET AL.: "Deep-Reinforcement-Learning-Based Autonomous Voltage Control for Power Grid Operations", 《IEEE TRANSACTIONS ON POWER SYSTEMS》 *
TAO QIAN ET AL.: "Enhanced Coordinated Operations of Electric Power and Transportation Networks via EV Charging Services", 《IEEE TRANSACTIONS ON SMART GRID》 *
万里鹏等: "深度强化学习理论及其应用综述", 《模式识别与人工智能》 *
吴漾等: "基于改进深度强化学习算法的电网缺陷文本挖掘模型研究", 《科技通报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837654B (zh) * 2021-10-14 2024-04-12 北京邮电大学 一种面向多目标的智能电网分层调度方法
CN114048576A (zh) * 2021-11-24 2022-02-15 国网四川省电力公司成都供电公司 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114048576B (zh) * 2021-11-24 2024-05-10 国网四川省电力公司成都供电公司 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114707613A (zh) * 2022-04-24 2022-07-05 西安交通大学 基于分层的深度策略梯度网络的电网调控方法
CN114707613B (zh) * 2022-04-24 2024-03-12 西安交通大学 基于分层的深度策略梯度网络的电网调控方法

Also Published As

Publication number Publication date
CN113141012B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
Khan et al. BAS-ADAM: An ADAM based approach to improve the performance of beetle antennae search optimizer
Juang et al. Hierarchical cluster-based multispecies particle-swarm optimization for fuzzy-system optimization
Lin et al. Model-based adversarial meta-reinforcement learning
CN113141012B (zh) 电网潮流调控决策推理方法
Chen et al. Forecasting by general type-2 fuzzy logic systems optimized with QPSO algorithms
CN105427241B (zh) 一种大视场显示设备的畸变校正方法
Saxena et al. Application of computational intelligence in emerging power systems
CN116914751B (zh) 一种智能配电控制系统
Łapa et al. Aspects of structure and parameters selection of control systems using selected multi-population algorithms
Juang et al. A self-generating fuzzy system with ant and particle swarm cooperative optimization
Peng et al. A new fuzzy adaptive simulated annealing genetic algorithm and its convergence analysis and convergence rate estimation
Na et al. A novel heuristic artificial neural network model for urban computing
CN114707613B (zh) 基于分层的深度策略梯度网络的电网调控方法
Zhou et al. Intelligent neural network with parallel salp swarm algorithm for power load prediction
Duan et al. Multi-robot dynamic virtual potential point hunting strategy based on FIS
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
Amin et al. System identification via artificial neural networks-applications to on-line aircraft parameter estimation
CN114372418A (zh) 一种风电功率时空态势描述模型建立方法
Wang et al. Design and Research of Smart Grid Based on Artificial Intelligence
Li et al. Improved teaching-learning-based optimization algorithm for modeling NOX emissions of a boiler
Lu et al. Control method based on fuzzy cognitive map and its application on district heating network
Gupta Coordinated Wide-Area Control of Multiple Controllers in a Modern Power System
Jiao et al. A novel hybrid harris hawk sine cosine optimization algorithm for reactive power optimization problem
Mahmood et al. An Intelligent Feedforward Controller Utilizing a Modified Gorilla Troops Optimization for Nonlinear Systems.
CN113837654B (zh) 一种面向多目标的智能电网分层调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211028

Address after: 710048 No. 28, Xianning Road, Xi'an, Shaanxi

Applicant after: XI'AN JIAOTONG University

Applicant after: STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Address before: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28

Applicant before: XI'AN JIAOTONG University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant