CN113141012A

CN113141012A - 基于深度确定性策略梯度网络的电网潮流调控决策推理方法

Info

Publication number: CN113141012A
Application number: CN202110444680.6A
Authority: CN
Inventors: 杜友田; 鹿永迪; 王晨希; 解圣源; 郭子豪
Original assignee: Xian Jiaotong University
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Xian Jiaotong University
Priority date: 2021-04-24
Filing date: 2021-04-24
Publication date: 2021-07-20
Anticipated expiration: 2041-04-24
Also published as: CN113141012B

Abstract

一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法，为电力网络设计其状态表征向量和动作表征向量；基于深度确定性策略梯度网络设计推理模型，将状态表征向量作为Actor网络的输入，得到多个相似的离散动作，将“状态‑动作”对向量作为Critic网络的输入，输出每一“状态‑动作”对向量的价值估计，选取估计值最高的动作作为该状态下要在环境中执行的最终动作；基于离散化的电网运行数据集仿真电网运行环境，将所述模型和仿真电网运行环境进行交互，从仿真电网运行环境中得到当前状态和要执行的最终动作，将要执行的最终动作交由仿真电网运行环境执行，本发明为电力网络实时调控提供了一种可行手段。

Description

基于深度确定性策略梯度网络的电网潮流调控决策推理方法

技术领域

本发明属于智能电网技术领域，涉及一种电力网络潮流调控的人工智能增强，特别涉及一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法。

背景技术

作为输送电力能源的管道，大电网是高维紧耦合的复杂动力学系统，保障大电网的安全运行调度与控制(调控)一直是工业界和学术界广泛关系的问题。当前，大电网调控的第一道安全防线是安全稳定的自动化装置，第二道防线是依靠人工经验对电网调控进行最终决策。由于大规模新能源的广泛接入使得电网调控具有不确定性，多类型设备互联造成电网互动开放性，故障瞬时扰动冲击形成电网运行脆弱性。因此，大电网调控面临运行方式高维化、计算分析海量化、安全稳定失配风险加剧的严峻挑战。

目前的电网调控依靠复杂动力学系统的数字仿真分析手段，更高度依赖人工对电网运行的经验认知水平。现有的调控策略往往是根据设想的“最坏”极端情况或一些典型的运行情况，通过离线仿真提前制定的“调度规范”。随着可再生能源、分布式能源、需求响应和电力市场行为的快速增长，传统的理论假设和调控规则无法适应愈加复杂时变的电网结构和特性；且由于缺乏足够的计算能力和无法实时使用的精准电网物理模型，现有自动控制系统很难对调控策略进行实时调整和改进。传统自动化装置不具备调度决策的智能化属性，当前的智能电网调控算法往往针对某一特定的检测目标而设计，在电网结构发生改变时需要重新设计和训练，需要耗费大量人力物力和时间，无法根据电网整体状况确定调控策略，难以保证电网全局决策的可靠性和敏捷性，而大电网的脆弱性对紧急控制的错误极为敏感。所以亟需发展针对现代电网调控的一套完善、有效且快速的电网调控理论和系统。

文献[Kim B G,Yu Z,Schaar M,et al.Dynamic Pricing and EnergyConsumption Scheduling With Reinforcement Learning[J].IEEE Transactions onSmart Grid,2016,7(5):2187-2198.]、[Lincoln R,Galloway S,Stephen B,etal.Comparing Policy Gradient and Value Function Based Reinforcement LearningMethods in Simulated Electrical Power Trade[J].IEEE Transactions on PowerSystems,2012,27(1):373-380.]通过开发强化学习Q值学习(Q-Learning)算法，在无需微电网相关的先验信息前提下，帮助微电网运行智能动态定价和客户的能耗调度策略，有效地平衡微电网经济管理运行和客户的能耗需求。文献[Glavic M.Design of a ResistiveBrake Controller for Power System Stability Enhancement Using ReinforcementLearning[J].IEEE Transactions on Control Systems Technology,2005,13(5):743-751.]研究了强化学习算法在电网瞬时功角稳定控制方面的应用。文献[Karimi A,Eftekharnejad S,Feliachi A.Reinforcement learning based backstepping controlof power system oscillations[J].Electric Power Systems Research,2009,79(11):1511-1520.]、[Wang D,Glavic M,Wehenkel L.Trajectory-Based SupplementaryDamping Control for Power System Electromechanical Oscillations[J].PowerSystems,IEEE Transactions on,2014,29(6):2835-2845.]提出基于强化学习的反推控制阻尼震荡稳定技术，用于利用发电机励磁系统阻尼来一直电力系统中的震荡。文献[Xu Y,Zhang W,Liu W,et al.Multiagent-Based Reinforcement Learning for OptimalReactive Power Dispatch[J].IEEE Transactions on Systems Man&Cybernetics PartC,2012,42(6):1742-1751.]研究基于多智能体(Multi-Agents)强化学习的无功分配优化策方法，该方法不需要精确的电网系统模型，并可与从零经验开始学习，在不同规模的电力系统中进行测试均非常有效，能够接近最佳的解决方案。清华大学[赵峰,孙宏斌,张伯明.基于电气分区的输电断面及其自动发现[J].电力系统自动化,2011,35(5):42-46.]开展了电网智能调度方法研究，提出关键断面自动发现、电网安全运行特征在线选择等关键技术，研发的电网智能调度系统在广东电网实现了应用。全球能源互联网美国研究院[Duan J,Shi D,Diao R,et al.Deep-Reinforcement-Learning-Based Autonomous VoltageControl for Power Grid Operations[J].IEEE Transactions on Power Systems,2019,PP(99):1-1.]基于深度强化学习技术，提出具有在线学习功能的电网自主优化控制和决策框架，即“电网脑”系统，该方案使用深度Q值学习网络(Deep Q-Learning，DQN)和深度确定性策略梯度网络(Deep Deterministic Policy Gradient Network，DDPG)两种最新DRL算法解决自动电压控制问题，在实际200节点电网系统中表现出色。

由此可见，基于传统强化学习算法的研究已逐渐无法满足迅速扩张的电网规模和复杂拓扑，而深度强化学习技术成为解决大电网高耦合非线性系统安全稳定调控问题的有效途径。为此，本发明针对深度强化学习技术应用在大电网调控中存在的高维状态空间和动作空间探索-利用问题，提出一种有效的决策推理方法，提升模型学习状态-动作映射关系的效率和在实际电网中的应用效果。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法，基于深度强化学习算法与仿真电力网络环境的交互学习，获得大量电网调控运行知识和电网状态与调控行为的映射关系，对对电力网络实时调控提供一种可行手段，并针对复杂问题存在的高维状态和动作空间进行算法设计。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法，包括如下步骤：

步骤1，为电力网络设计其状态表征向量S和动作表征向量A；

步骤2，基于深度确定性策略梯度(DDPG)网络设计推理模型，将状态表征向量S作为Actor网络的输入，输出为一个具体的连续动作空间向量，称为连续动作

将连续动作

通过映射规则映射到预定义好的离散动作空间，得到k个相似的离散动作A_real，与输入的状态表征向量S组成k组“状态-动作”对向量，将“状态-动作”对向量作为Critic网络的输入，输出每一“状态-动作”对向量的价值估计，选取估计值最高的动作作为该状态下要在环境中执行的最终动作；

步骤3，基于离散化的电网运行数据集仿真电网运行环境，将所述模型和仿真电网运行环境进行交互，收集经验样本数据，模型从仿真电网运行环境中得到当前状态和要执行的最终动作，将要执行的最终动作交由仿真电网运行环境执行，并反馈即时奖励、下一状态和是否结束信号；如果结束信号为真，则结束当前回合，重新初始化状态进行交互；否则，基于下一状态重复交互步骤；

步骤4，所述经验样本数据放入经验回放池，从经验回放池中采样经验样本数据，更新模型参数。

所述步骤1中，电力网络的状态空间和动作空间均由连续空间变量和离散空间变量组成；其中状态空间的连续空间变量包括时间、发电机发电功率和机端电压、负载功率、节点电压、线路潮流值以及电压，离散空间变量包括网络拓扑结构；动作空间的连续变量包括发电机出力调整和负载功率调整，离散变量包括传输线路通断状态和变电站节点内双母线与各元件的连接拓扑结构。

所述步骤1中，确定电力网络中包含的变电站节点、发电机节点、负载节点和传输线路数量，并进行编号，利用编号代表对应元器件，并将其对应变量放入具体位置构成一维的状态表征向量S；其中，发电机节点放入发电功率和机端电压变量，负载节点放入负载功率变量，变电站和传输线路通过编号连接代表拓扑结构。

所述将发电机出力功率调整和负载功率调整的具体增/减功率值放入一维动作向量对应编号位置，通过1、0代表传输线路通/断状态切换动作，通过0、1、2代表变电站节点内各元器件与双母线的连接状态，0表示该元器件与所有母线断开，1代表该元器件与1号母线连接，2代表该元器件与2号母线连接，得到动作表征向量A。

所述步骤2中，所述深度确定性策略梯度网络由Actor-Critic网络各复制一个Actor网络和Critic网络得到，具有两个Actor策略网络和两个Critic网络，所述两个Actor策略网络为Actor当前网络和Actor目标网络，所述两个Critic网络为Critic当前网络和Critic目标网络，推理模型设计方法如下：

首先，确定深度确定性策略梯度网络的结构参数，包括其输入层、隐藏层和输出层的神经元个数以及激活函数；

其次，以当前状态表征向量S_t作为Actor当前网络的输入，得到相应的连续动作

通过k近邻算法寻找离散动作空间的k个离散动作A_t，由S_t和A_t组成k组“状态S_t-动作”对向量，输入至Critic当前网络，得到对应的价值估计，选取价值估计最大值v(S_t)对应的离散动作A_t，在环境中执行，并得到反馈即时奖励值R_t和下一时刻状态表征向量S_t+1，至此实现推理模型中单一状态到多个相似动作簇的推理环节；

然后，将S_t+1作为Actor目标网络的输入，得到k个离散动作A_t+1，由S_t+1和A_t+1组成k组“状态S_t+1-动作”对向量，输入Critic目标网络得到S_t+1对应的价值估计，记最大值为v(S_t+1)，将R_t+γv(S_t+1)作为(S_t,A_t)的价值估计v(S_t)的标签，其中γ为折扣奖励系数，γ∈[0,1]；

再次，将-R_t作为Actor当前网络的损失，更新迭代Actor当前网络参数，使其输出向价值估计更高的动作方向偏移，以最大化输出动作从环境中得到的累计即时奖励值，通过v(S_t)-v(S_t+1)作为损失反向更新迭代Critic当前网络参数，使Critic当前网络对“状态-动作”对向量的价值估计更准确；

最后，参数更新后，将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络，进行下一回合的交互，由此完成推理模型中网络参数的反向更新环节。

所述单一状态到多个相似动作簇的推理环节中，选取最佳执行动作的依据，还引入了人工经验对k个动作进行价值判断。

所述Actor当前网络的更新损失函数如下：

所述Critic当前网络的更新损失函数如下式：

式中，θ为Actor当前网络参数，ω为Critic当前网络参数，π_θ(φ(s_j))表示当前状态表征向量s_j下Actor当前网络的输出，Q为Critic当前网络对Actor当前网络输出的k组“状态S_t-动作”对向量的价值估计最大值，m表示从样本池单次采样的样本个数，j表示采样样本序号，

分别表示以m个采样样本为输入时，对Critic当前网络、Actor当前网络的输出求梯度，s_j、a_j表示第j个采样样本的状态表征向量、动作表征向量，y_j＝r_j+γv_ω'(s'_j)表示第j个采样样本中状态-动作对的目标价值，r_j表示第j个采样样本的即时奖励，s'_j表示第j个采样样本中s_j状态下采取动作a_j后的下一状态表征向量，v_ω'(s'_j)表示以ω'为参数的目标Critic网络对s'_j的价值估计输出。

所述将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络，是采用软更新方式复制，如下式：

θ'←τθ+(1-τ)θ'

ω'←τω+(1-τ)ω'

式中，τ为软更新系数，取值0.1或0.01，θ'为Actor目标网络参数，ω'为Critic目标网络参数。

与现有技术相比，本发明通过计算机自动地与电网仿真环境进行交互，自主学习电网实时运行状态到调控动作的映射关系，实现状态到动作空间的推理决策能力，该能力在高维空间下对模型的训练和收敛速度有重要影响，理论和实验证明本发明能够适用于实际复杂电网调控场景。

附图说明

图1是本发明整体流程图。

图2是本发明实施例中电力网络结构编号示意图。

图3是本发明实施例中DDPG网络结构图。

图4是本发明实施例中连续空间动作嵌入策略模型结构图。

图5是本发明实施例中电网状态空间与动作空间的多对多映射图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法，包括如下步骤：

步骤1，为电力网络设计其状态表征向量S和动作表征向量A。

电力网络的状态空间和动作空间均由连续空间变量和离散空间变量组成；一般地，状态空间的连续空间变量包括时间、发电机发电功率和机端电压、负载功率、节点电压、线路潮流值以及电压等，离散空间变量主要包括网络拓扑结构。动作空间的连续变量包括发电机出力调整和负载功率调整等，离散变量包括传输线路通断状态和变电站节点内双母线与各元件的连接拓扑结构等。

针对要应用的具体电力网络结构，如图2所示，确定网络中包含的变电站节点、发电机节点、负载节点和传输线路等的数量，并进行编号。利用编号代表对应元器件，将其对应变量放入合适位置构成一维的状态表征向量S，如发电机节点放入发电功率和机端电压变量、负载节点放入负载功率变量、变电站和传输线路通过编号连接代表拓扑结构等。将发电机出力功率调整和负载功率调整的具体增/减功率值放入一维动作向量对应编号位置，通过1、0代表传输线路通/断状态切换动作，通过0、1、2代表变电站节点内各元器件与双母线的连接状态，0表示该元器件与所有母线断开，1代表该元器件与1号母线连接，2代表该元器件与2号母线连接，得到动作表征向量A。

其中，对状态中的组成部分解释如下：

时间：电力网络运行的实时时刻，具体到年月日、时分；

发电机发电发电功率：当前时间，每台发电机发出的有功功率P；

机端电压：当前时间，每台发电机的出口电压；

负载功率：当前时间，每个负载节点(如一个用电区域等效为一个整体)的总功率(包括有功功率和无功功率)；

节点电压：当前时间，每个变电站节点的电压值；

线路潮流值及电压：当前时间，每条电力传输线中的电流值及两端电压值；

网络拓扑结构：当前时间，电力网络中所有元器件的连接关系和状态。

步骤2：动作空间的降维预处理。

在实际的动作空间中，存在大量的无实际意义的行为。对于此，引入人工经验和指导探索机制对动作空间进行降维处理。具体操作是针对电网种子数据集(数据集中包含不同年份、月份、日期的离散化电网运行种子数据，每一份都是一种不同的运行场景)中的每一场景进行仿真运行，然后在任一时刻，随机执行动作空间中的某一动作，记录该动作所获取的即时奖励，重复该步骤(状态输入—动作选择—动作执行—反馈奖励和新状态)，直到随机采样的动作数量达到总动作空间数量的比例n(超参数，介于0～1)为止。

基于每次执行随机动作得到的即时奖励结果，以动作编号为键值建立倒排索引库，计算每个动作在随机场景下所获得的平均奖励值。如果平均奖励值为负，则认为该动作的潜在价值为负，从动作空间中删除该动作，从而实现对动作空间的降维处理。以此可简化动作空间，提高模型的探索效率。

步骤3，基于深度确定性策略梯度(DDPG)网络设计推理模型，将状态表征向量S作为Actor网络的输入(可经过归一化等数据预处理函数φ(S)进行预处理)，输出为一个具体的连续动作空间向量，称为连续动作

将连续动作

通过映射规则映射到预定义好的离散动作空间，得到k个相似的离散动作A_real，与输入的状态表征向量S组成k组“状态-动作”对向量，将“状态-动作”对向量作为Critic网络的输入，输出每一“状态-动作”对向量的价值估计，选取估计值最高的动作作为该状态下要在环境中执行的最终动作。

其中，深度确定性策略梯度网络由Actor-Critic网络各复制一个Actor网络和Critic网络得到，如图3所示模型总体结构，其具有两个Actor策略网络(Actor当前网络和Actor目标网络)和两个Critic网络(Critic当前网络和Critic目标网络)，根据步骤1中设计的状态、动作向量的维度，确定Actor网络和Critic网络的输入、输出维度。其中Actor网络以状态表征向量作为输入，Critic以状态、动作对作为输入。

在高维状态、动作空间下，Actor-Critic网络通过探索学习离散空间所有状态-动作对价值的方式效果不佳，需要耗费大量的时间和算例。因此提出本发明考虑首先利用有关动作的先验信息将所有动作嵌入连续空间内，这种嵌入技术可以使Actor网络(策略网络)输出的复杂度与实际的动作空间大小解耦；其次，Actor当前网络会基于输入产生一个连续的动作输出，然后使用最近邻搜索在对数时间内找到“距离”最为接近的离散动作集合。如图4所示决策推理模型与DDPG的融合模型。

推理模型设计方法如下：

步骤3.1，确定深度确定性策略梯度网络的结构参数，如输入层、隐藏层和输出层的神经元个数、激活函数、参数初始化等超参数。

步骤3.2，以当前状态表征向量S_t作为Actor当前网络的输入，得到相应的连续动作

通过k近邻算法寻找离散动作空间的k个离散动作A_t，由S_t和A_t组成k组“状态S_t-动作”对向量，输入至Critic当前网络，得到对应的价值估计，选取价值估计最大值v(S_t)对应的离散动作A_t，在环境中执行，并得到反馈即时奖励值R_t和下一时刻状态表征向量S_t+1，至此实现推理模型中单一状态到多个相似动作簇的推理环节。

步骤3.3，将S_t+1作为Actor目标网络的输入，得到k个离散动作A_t+1，由S_t+1和A_t+1组成k组“状态S_t+1-动作”对向量，输入Critic目标网络得到S_t+1对应的价值估计，记最大值为v(S_t+1)，将R_t+γv(S_t+1)作为(S_t,A_t)的价值估计v(S_t)的标签，其中γ为折扣奖励系数，γ∈[0,1]。

步骤3.4，将-R_t作为Actor当前网络的损失，更新迭代Actor当前网络参数，使其输出向价值估计更高的动作方向偏移，以最大化输出动作从环境中得到的累计即时奖励值，通过v(S_t)-v(S_t+1)作为损失反向更新迭代Critic当前网络参数，使Critic当前网络对“状态-动作”对向量的价值估计更准确。

其中，Actor当前网络的更新损失函数如下：

Critic当前网络的更新损失函数如下式：

步骤3.5，参数更新后，将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络，进行下一回合的交互，由此完成推理模型中网络参数的反向更新环节。其中复制并非是直接复制，而是采用软更新方式复制，如下式：

θ'←τθ+(1-τ)θ'

ω'←τω+(1-τ)ω'

式中，τ为软更新系数，一般取值0.1或0.01等较小值。θ'为Actor目标网络参数，ω'为Critic目标网络参数。

以上即为推理模型的设计过程，如图3和图4所示逻辑流程。

上述模型的原理如下：

以S作为输入，在一个连续的动作嵌入空间

中进行动作决策的推理，然后再根据一定的选择策略

将推理模型输出的连续动作

映射到预定义的离散动作空间，如下式所示。

式中，

表示一个网络化的非线性映射函数，参数为π，通常用神经网络来拟合；该函数将原始状态表征向量S映射到连续动作空间，输出给定状态下一个原始的连续动作

该动作可能并不实际存在(实际离散动作空间没有相对应的动作)，仅表示该网络参数表示的当前策略下所输出的理想动作，因此需要再将该动作以一定的策略映射到实际离散空间(如核函数等映射方法，将原始动作、连续动作都通过核函数进行映射)，找到某种定义下(如最近邻等方法)相近的若干动作，可视为退而求其次的推理行为，定义如下：

Claims

1.一种基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，包括如下步骤：

步骤1，为电力网络设计其状态表征向量S和动作表征向量A；

将连续动作

2.根据权利要求1所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，所述步骤1中，电力网络的状态空间和动作空间均由连续空间变量和离散空间变量组成；其中状态空间的连续空间变量包括时间、发电机发电功率和机端电压、负载功率、节点电压、线路潮流值以及电压，离散空间变量包括网络拓扑结构；动作空间的连续变量包括发电机出力调整和负载功率调整，离散变量包括传输线路通断状态和变电站节点内双母线与各元件的连接拓扑结构。

3.根据权利要求2所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，所述步骤1中，确定电力网络中包含的变电站节点、发电机节点、负载节点和传输线路数量，并进行编号，利用编号代表对应元器件，并将其对应变量放入具体位置构成一维的状态表征向量S；其中，发电机节点放入发电功率和机端电压变量，负载节点放入负载功率变量，变电站和传输线路通过编号连接代表拓扑结构。

4.根据权利要求2或3所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，所述将发电机出力功率调整和负载功率调整的具体增/减功率值放入一维动作向量对应编号位置，通过1、0代表传输线路通/断状态切换动作，通过0、1、2代表变电站节点内各元器件与双母线的连接状态，0表示该元器件与所有母线断开，1代表该元器件与1号母线连接，2代表该元器件与2号母线连接，得到动作表征向量A。

5.根据权利要求1所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，所述步骤2中，所述深度确定性策略梯度网络由Actor-Critic网络各复制一个Actor网络和Critic网络得到，具有两个Actor策略网络和两个Critic网络，所述两个Actor策略网络为Actor当前网络和Actor目标网络，所述两个Critic网络为Critic当前网络和Critic目标网络，推理模型设计方法如下：

6.根据权利要求5所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，所述单一状态到多个相似动作簇的推理环节中，选取最佳执行动作的依据，还引入了人工经验对k个动作进行价值判断。

7.根据权利要求5所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，所述Actor当前网络的更新损失函数如下：

所述Critic当前网络的均方误差损失函数如下式：

8.根据权利要求7所述基于深度确定性策略梯度网络的电网潮流调控决策推理方法，其特征在于，所述将Actor当前网络和Critic当前网络的最新参数分别复制给Actor目标网络和Critic目标网络，是采用软更新方式复制，如下式：

θ'←τθ+(1-τ)θ'

ω'←τω+(1-τ)ω'

式中，τ为软更新系数，取值0.1或0.01，θ′'为Actor目标网络参数，ω'为Critic目标网络参数。