CN114217524B

CN114217524B - 一种基于深度强化学习的电网实时自适应决策方法

Info

Publication number: CN114217524B
Application number: CN202111368913.5A
Authority: CN
Inventors: 马世乾; 陈建; 商敬安; 崇志强; 王天昊; 韩磊; 吴彬; 李昂; 张志军; 董佳; 孙峤; 郭凌旭; 黄家凯; 袁中琛; 穆朝絮; 韩枭赟; 徐娜
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2024-03-19
Anticipated expiration: 2041-11-18
Also published as: CN114217524A

Abstract

本发明涉及一种基于深度强化学习的电网实时自适应决策方法，包括如下步骤：步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程；步骤2、研究SAC算法的基础原理，求解使得步骤1中MDP模型累计奖励值最大的策略；步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL‑SAC算法，并基于IL‑SAC算法以及10⁵个真实电网场景数据训练相应的电网优化调度智能体，在测试时该智能体应对不同的电网场景数据能够输出实时决策方案，实现新型电网系统的智能调控。本发明能够实时地输出电网调度策略。

Description

一种基于深度强化学习的电网实时自适应决策方法

技术领域

本发明属于深度强化学习技术领域，涉及电网实时自适应决策方法，尤其是一种基于深度强化学习的电网实时自适应决策方法。

背景技术

随着社会经济的不断发展、工业现代化的不断建设，能源需求不断增长，能源问题逐渐显露，迎合社会发展的需要，我国新能源产业发展得非常迅速.在新能源快速发展的背后，不可忽视的是新能源生产过剩的问题。在水力发电,风力发电这方面的新能源发展过程中，这些问题更为严重和突出，构建新能源消纳最大化的电网智能运行模式正成为一项超出人类专业知识的复杂任务。采用基于电网物理模型方法对电网进行实时控制有较强局限性，对于电网结构的变化和新型元素适应性不强，不能够满足电网发展需求。因此，考虑运用数据驱动方法进行优化，应用深度强化学习分析运行环境信息，自主获得智能控制策略，从而避免由于仿真过程模型简化和不确定性因素对电网控制效果的影响。

近年来，先进人工智能技术，尤其是深度强化学习技术不断进步，在多个领域如AlphaGo，AlphaStar，无人驾驶，机器人等成功应用，为解决高维度、高非线性、高时变性优化控制和决策问题提供了新的思路，同时为电网智能自主控制与决策提供了启示。深度强化学习能够学习怎么去做，怎样将状态和动作相互映射，也能够分析动作后的最大回报。深度强化学习是将深度学习和强化学习结合起来，实现从感知到动作一一对应的学习方法。深度学习主要分析环境信息，从中提取特征；强化学习将基于这些特征进一步分析环境特征，并选择对应动作，实现目标回报。

针对新型电网控制策略这一复杂决策问题，现有技术中仍存在如下的缺陷：

(1)现有技术未充分考虑新型电网在新能源随机波动情况下出现突发故障时的鲁棒性运行问题和新能源占比较高情况下的新能源消纳问题；

(2)现有技术无法解决新型电网在基于深度强化学习的自适应机组调度决策过程中爆炸性动作空间问题和电网系统在优化策略探索过程中的脆弱性问题。

经检索，未发现与本发明相同或相近似的现有技术的文献。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于深度强化学习的电网实时自适应决策方法，能够实时地输出电网调度策略。

本发明解决其现实问题是采取以下技术方案实现的：

一种基于深度强化学习的电网实时自适应决策方法，包括如下步骤：

步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程；

步骤2、研究SAC算法的基础原理，包括其5个网络即策略Actor网络、“软”V网络、2个“软”Q网络、目标V网络的更新流程和更新公式，并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α和网络宽度深度，求解使得步骤1中MDP模型累计奖励值最大的策略。

步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL-SAC算法，并基于IL-SAC算法以及10⁵个真实电网场景数据训练相应的电网优化调度智能体，在测试时该智能体应对不同的电网场景数据能够输出实时决策方案，实现新型电网系统的智能调控。

而且，所述步骤1的具体步骤包括：

用4维元组描述(S,A,P,R)，其中S表示该电网系统的状态集，A表示该电网系统的动作集，P：S×A×S→[0,1]表示状态转移概率，R:S×A→R表示奖励机制：

(1-1)状态变量S

状态变量的选取对强化学习的效率及泛化性有一定影响，故在构建状态空间时，既要考虑选取变量的丰富性，又要考虑必要性。因此，在t时段的Grid2Op电网系统状态s_t∈S如式(1)所示

其中，N,J,K分别表示该电网系统中有N条电力传输线，J个发电机组节点，K个负载节点；分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小；/>表示第m个新能源机组节点上下一时刻的有功出力上限预测值，M表示J个机组种有M个新能源机组，M＜J；/>分别表示第k个负载节点上的有功需求、无功需求以及电压大小；/>表示第k个负载节点上下一时刻的有功需求预测值，以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量；F_i表示第i条电力传输线上的开断状态，是一个布尔值变量，当F_i＝1时表示传输线为断开状态，当F_i＝0时表示传输线为连接状态；rho_i表示第i条电力传输线上的负载率；

(1-2)动作变量A

动作变量即系统可调整变量，t时刻该系统的动作变量a_t∈A如式(2)所示

其中，X表示该电网系统有X个可控机组；表示第x个机组节点上的有功出力调节值；/>表示第x个机组节点上的电压调整值。由于机组的有功出力和电压皆是连续变化的动作，本发明欲将其离散化。设离散化的最小间隔分别为Δ_Dp和Δ_Dv,则

其中，y,z都为整数。

根据式(3)和(4)，将动作变量a_t离散化之后可以表示为

(1-3)状态转移概率P

状态转移概率表示给定当前状态s_t∈S以及动作a_t∈A，状态从s_t变换到s_t+1的概率值，可以表示为

由于该系统受到新能源波动、随机故障的作用,状态转移概率(6)难以用精确的概率分布模型来描述，本文采用的深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布。

(1-4)奖励机制R

本发明设置了6个类型奖励r₁,r₂,r₃,r₄,r₅,r₆∈R，具体描述如下。

5)根据输电线路越限情况设置奖励函数r₁，

其中，rho_max表示N条传输线路上最大的rho值。

6)根据新能源机组消纳总量设置正奖励函数r₂，

其中，表示新能源机组m当前时间步的实际有功出力，/>表示新能源机组m在当前时间步的最大出力。

7)根据平衡机组功率越限情况设置负奖励r₃，

其中，U表示平衡机个数，表示平衡机u的实际有功出力，/>分别表示平衡机的出力的上下限。

8)根据机组运行费用设置负奖励r₄，

其中，a_j,b_j,c_j表示为对应不同机组的发电成本曲线系数。

5)根据机组的无功出力越限情况设置负奖励r₅，

其中，分别表示机组无功出力的上下限。

6)根据机组节点和负载节点电压越限情况设置负奖励r₆，

其中，分别表示各个发电机节点和负载节点电压的上下限。

对上述奖励函数r₄,r₅,r₆使用如下公式进行归一化处理

r＝e^r-1 (17)

综上所述，奖励函数r₁的值域为(-1，1)、r₁的值域为[0,1]，r₃,r₄,r₅,r₆的域值为(-1，0)，奖励函数r₃属于该取值范围是由于该仿真环境中U＝1。故t时时刻的整体奖励函数r_t∈R如下所示

r_t＝c₁r₁+c₂r₂+c₃r₃+c₄r₄+c₅₁r₅+c₆r₆₁ (18)

其中，c_i(i＝1,2,..,6)表示各奖励函数的系数，本发明将各个系数具体取值为c₂＝4，c₃＝2，c₁＝c₄＝c₅,＝c₆＝1，该取值说明了本发明模型构过程中的奖励侧重点在于新能源消纳以及有功功率平衡。

而且，所述步骤2的具体步骤包括：

(2-1)SAC算法最优策略的公式如下

其中，r(s_t,a_t)表示状态为s_t时进行动作a_t得到的奖励值；H(π(·|s_t))表示状态为s_t时控制策略π的熵值；表示当状态动作对(s_t,a_t)概率分布为ρ_π时的期望奖励值；α表示鼓励新策略探索的程度，被称作温度系数。

(2-2)SAC算法在构造其值函数V_ψ(s_t)和Q函数Q_θ(s_t,a_t)时，分别使用神经网络参数ψ和θ来表示。SAC算法中使用了2个值函数，其中一个值函数称为“软”值函数，基于如下公式中的误差平方值可以来更新“软”值函数神经网络的权重

其中，D表示先前采样状态的分布空间；表示对误差平方的期望值；/>表示控制策略π_Φ下控制动作a_t的期望。

下一步即可使用下式来计算式(21)中的概率梯度

其中，表示对参数ψ求梯度。

(2-3)同理，可通过最小化“软”贝尔曼残差的方式来更新“软”Q函数的神经网络权重，计算公式如下

其中，γ表示折扣因子；表示满足概率分布ρ的状态s_t+1的期望值。

而式(23)的优化求解与(21)同理可由下式中的概率梯度进行计算

其中，表示对参数θ求梯度；/>表示目标值函数网络，定期更新。

(2-4)SAC算法的控制策略输出值是由平均值和协方差组成的随机高斯分布表示出来的，可以通过最小化预期Kullback-Leibler(KL)偏差来更新其控制策略的神经网络参数，以Φ作为参数的控制策略π的目标函数可以根据式(20)具体化为

式(26)的优化求解过程可由下式中的概率梯度计算得出

其中，表示对参数Φ求梯度；/>表示对参数a_t求梯度；ε_t表示输入噪声向量，f_Φ(ε_t,s_t)表示神经网络变换，是对a_t的重新参数化。

而且，所述步骤3的具体步骤包括：

(3-1)根据当前电网工况，在Gird2OP电网仿真环境中添加随机故障，以模拟实际运行情况，在该仿真环境进行过潮流计算之后，通过调用程序接口获取相应的观测状态空间；

在该预训练方案中首先是一个模拟专家经验的过程，从电网仿真环境中采样大量场景即大量的观测状态空间作为输入量，在本发明中是10⁵个场景作为输入量，然后在式(5)离散化之后的动作空间中基于贪婪算法贪婪搜索最优的动作，贪婪的最优指标是在保证各条传输线路上最大rho不超过100％的情况下使得式(8)中的新能源消纳率指标最大化，在进行贪婪算法之后我们能得到一个模拟的专家动作空间，相对于原始动作空间有所缩减。

(3-2)模仿学习中行为克隆的过程，使用10⁵个电网场景作为输入量，在专家动作空间中基于步骤(3-1)的贪婪优化准则贪婪搜索最优的动作，并将对应的电网场景状态与动作组合形成动作状态对(a,s)，即给每一个状态找到一个较优的动作标签。最终应用该动作状态对设计好的深度神经网络进行监督学习预训练，并迁移至SAC算法中的Actor网络和Critic网络中。

(3-3)基于(3-2)中预训练的深度神经网络参数，构建IL-SAC算法为基础的电网调度智能体，使用10⁵个真实电网场景数据作为智能体的输入，训练该智能体至算法参数收敛，最终将得到的电网调度智能体应用至真实电网场景数据下，能够实时输出电网调度相应的动作策略，使得新型电网稳定运行的前提下新能源消纳最大化。

本发明的优点和有益效果：

1、本发明针对新能源占比高的新型电网系统在运行过程中出现新能源波动、负荷需求剧烈变化等情况，提出了一种基于SAC算法的电网实时自适应机组调度算法，可保障新型电网系统在鲁棒运行的前提下新能源消纳最大化。并且在上述算法的基础上，本发明又设计了基于模仿学习(Imitation Learning，IL)的神经网络预训练方案，监督学习下预训练的神经网络迁移到SAC算法中的Actor-Critic网络，提出了IL-SAC算法，具有一定创新性。最终将所提出的IL-SAC算法智能体应用于Grid2Op环境中的IEEE118节点新型电网系统，根据该智能体可与电网实时运行环境进行交互，在亚秒内给出自适应控制决策，具有良好的控制效果。

2、本发明在负荷变化、参数扰动和随机故障下的电网环境下，提出一种基于强化学习的自适应调度决策的方法，通过对电网环境变化的实时感知，并且自适应的根据感知调整调度策略，实时的输出火电机组的有功出力值和电压值，在电网可靠运行的前提下完成对新能源的消纳。同时将电网历史数据和模拟专家经验作为自适应调度决策生成的先验知识和边界条件，通过这些数据帮助智能体的训练，对智能体进行不断的实时迭代训练以保证智能体能够在一个决策周期内得到最大的奖励值，并将训练好的智能体应用到指定规模的电网环境中，实时地输出电网调度策略。

总体而言，通过本发明所构思的技术方案与现有技术相比：

(1)本发明构建了具有自主决策能力的智能体，并基于SAC算法进行自适应的机组调度，充分考虑新型电网在面对突发情况时的鲁棒性问题和新能源消纳问题，极大的提升了新型电网的自主决策能力。

(2)本发明设计了一种基于IL的神经网络预训练方案，解决了新型电网自适应机组调度过程中爆炸性动作空间问题和电网系统在优化策略探索过程中的脆弱性问题，提高了神经网络参数的更新速度和算法收敛速度。

(3)本发明利用Grid2Op提供的IEEE118节点新型电网系统以及World Congresson Computational Intelligence(WCCI)会议在2020年举办Learning to Run a PowerNetwork Challenge(L2RPN)大赛时提供的真实电网场景数据，充分模拟了真实的电网环境，其仿真结果可信度高。

附图说明

图1是本发明的基于深度强化学习的电网实时自适应决策方法总体架构图；

图2是本发明的基于模仿学习的神经网络预训练方案总体流程图；

图3是本发明的IL-SAC算法智能体与SAC算法智能体训练结果对比图；

图4是本发明的IL-SAC算法智能体与PPO算法智能体、DQN算法智能体训练结果对比图；

图5是本发明的IL-SAC算法智能体与PPO算法智能体、DQN算法智能体测试结果对比图。

具体实施方式

以下对本发明实施例作进一步详述：

一种基于深度强化学习的电网实时自适应决策方法，如图1所示，包括如下步骤：

步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程(MarkovDecision Process,MDP)；

所述步骤1的具体步骤包括：

用4维元组描述(S,A,P,R)，其中S表示该电网系统的状态集，A表示该电网系统的动作集，P：S×A×S→[0,1]表示状态转移概率，R:S×A→R表示奖励机制；

在本实施例中，步骤1涉及MDP模型的构建，电网中的诸多控制决策问题都可以描述成MDP模型，用于解决随机动态环境下的离散时序控制问题，具体包括状态集、动作集、奖励机制等的设计。

步骤1的进一步解释包括下述环节。

(1-1)状态变量S

其中，N,J,K分别表示该电网系统中有N条电力传输线，J个发电机组节点，K个负载节点；分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小；表示第m个新能源机组节点上下一时刻的有功出力上限预测值，M表示J个机组种有M个新能源机组，M＜J；/>分别表示第k个负载节点上的有功需求、无功需求以及电压大小；/>表示第k个负载节点上下一时刻的有功需求预测值。以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量；F_i表示第i条电力传输线上的开断状态，是一个布尔值变量，当F_i＝1时表示传输线为断开状态，当F_i＝0时表示传输线为连接状态；rho_i表示第i条电力传输线上的负载率。

(1-2)动作变量A

其中，y,z都为整数。

根据式(3)和(4)，将动作变量a_t离散化之后可以表示为

(1-3)状态转移概率P

(1-4)奖励机制R

9)根据输电线路越限情况设置奖励函数r₁，

其中，rho_max表示N条传输线路上最大的rho值。

10)根据新能源机组消纳总量设置正奖励函数r₂，

11)根据平衡机组功率越限情况设置负奖励r₃，

12)根据机组运行费用设置负奖励r₄，

其中，a_j,b_j,c_j表示为对应不同机组的发电成本曲线系数。

5)根据机组的无功出力越限情况设置负奖励r₅，

其中，分别表示机组无功出力的上下限。

6)根据机组节点和负载节点电压越限情况设置负奖励r₆，

其中，分别表示各个发电机节点和负载节点电压的上下限。

对上述奖励函数r₄,r₅,r₆使用如下公式进行归一化处理

r＝e^r-1 (17)

r_t＝c₁r₁+c₂r₂+c₃r₃+c₄r₄+c₅₁r₅+c₆r₆₁ (18)

步骤2、研究SAC算法的基础原理，包括其5个网络即策略Actor网络、“软”V网络、“软”Q网络(2个)、目标V网络的更新流程和更新公式，并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α、网络宽度深度等，求解使得步骤1中MDP模型累计奖励值最大的策略。

在本实施例中，步骤2涉及SAC算法的具体原理以及优化策略更新的具体流程，进一步包括下述步骤：

(2-1)SAC算法与其他深度强化学习算法最大的区别在于，同样是在使用了值函数和Q函数的情况下，SAC算法的目标在最大化预期奖励值积累的同时追求最大化的信息熵值，而其他一般深度强化学习算法的目标只是最大化预期奖励值的积累。SAC算法最优策略的公式如下

下一步即可使用下式来计算式(21)中的概率梯度

其中，表示对参数ψ求梯度。

式(26)的优化求解过程可由下式中的概率梯度计算得出

步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL-SAC算法。

在本实施例中，步骤3涉及基于模仿学习的神经网络预训练方案的具体设计，如图1所示为基于深度强化学习的电网实时自适应决策方法总体架构，图1中包含了该预训练方案的大致设计思路，对图1进行细节化作出图2，即为该预训练方案的总体架构图。进一步解释包括下述步骤。

(3-1)根据当前电网工况，在Gird2OP电网仿真环境中添加随机故障，以模拟实际运行情况，在该仿真环境进行过潮流计算之后，通过调用程序接口获取相应的观测状态空间。

在该预训练方案中首先是一个模拟专家经验的过程，从电网仿真环境中采样大量场景即大量的观测状态空间作为输入量，在本发明中是10⁵个场景作为输入量，然后在式(5)离散化之后的动作空间中基于贪婪算法贪婪搜索最优的动作，贪婪的最优指标是在保证各条传输线路上最大rho不超过100％的情况下使得式(8)中的新能源消纳率指标最大化。在进行贪婪算法之后我们能得到一个模拟的专家动作空间，相对于原始动作空间有所缩减。

(3-2)第2步是一个模仿学习中行为克隆的过程，仍是使用10⁵个电网场景作为输入量，在专家动作空间中基于步骤(3-1)的贪婪优化准则贪婪搜索最优的动作，并将对应的电网场景状态与动作组合形成动作状态对(a,s)，即给每一个状态找到一个较优的动作标签。最终应用该动作状态对设计好的深度神经网络进行监督学习预训练，并迁移至SAC算法中的Actor网络和Critic网络中。

(3-3)基于(3-2)中预训练的深度神经网络参数，构建IL-SAC算法为基础的电网调度智能体，使用10⁵个真实电网场景数据作为智能体的输入，训练该智能体至算法参数收敛。最终将得到的电网调度智能体应用至真实电网场景数据下，能够实时输出电网调度相应的动作策略，使得新型电网稳定运行的前提下新能源消纳最大化。

步骤4、基于步骤3提出的IL-SAC算法以及已有SAC算法、PPO(Proximal PolicyOptimization)算法、DQN(Deep Q Network)算法，在Google提供的Grid2Op环境中的IEEE118节点新型电力系统上进行相应智能体的训练和测试，对比相应的性能指标如奖励累计值、电网存活时间步、新能源消纳率等，得出相应结论。

步骤4涉及Grid2Op中具体的仿真环境以及具体的仿真设计和对应的仿真结果。进一步解释包括下述步骤。

(4-1)Grid2Op中提供的IEEE118节点新型电网系统可以分为三个区域电网，每个区域电网的新能源发电量占比不同，其中有两个区域的新能源发电量占比都远超过60％。Grid2Op在该新型电网系统中提供的可进行操作的动作即为步骤(1-2)中所述的机组有功出力以及机组电压值，在整个系统中它提供了18组可调节的新能源机组，35组可调节的火电机组以及1组可调节的平衡机组。该系统中每条线路都有自己的输电能力，当传输功率量溢出时，会自动断开。具体来说，当100％≤rho＜200％时，Grid2Op允许线路过载2个时间步，即若2个时间步内rho下降到100％以下则线路不会断开，反之过载超过2个时间步则线路断开。当200％≤rho时，该线路立即断开。Grid2Op规定所有断开线路在断开12个时间步之后才能选择是否重连。Grid2Op在模拟电网运行过程中，出现以下两种情况会使电网运行立即终止：

1)电网功率不平衡导致平衡机功率越限、潮流计算无法收敛；

2)由于智能体执行的动作使得负载、发电机或者变电站形成孤立的节点，在在有较多断开的线路时可能发生该情况。

(4-2)本发明在仿真过程中设计的随机故障规则如下：每个时间步中，设计1％的传输线停运概率，即t时刻下每条传输线出现故障的概率均为1％，相比于现实中电网实际运行情况，该故障率设计较大。在此基础上本发明又设计了两组对着实验，首先是对比了IL-SAC算法相对于SAC算法的优势，其次是都对比了都加入预训练模型后的IL-SAC算法相对于PPO算法和DQN算法的优势。具体如下所述。

1)设计IL-SAC算法智能体与SAC算法智能体进行对比时，在Grid2Op环境中设置的电网系统最高存活步数为1440个时间步，即每组场景数据代入电网时该电网最多稳定运行1440个时间步，每个时间步对应5分钟时间，1440个时间步即为5天时间。并且设置训练总步数为约5000步，即上述两个智能体在训练5000步左右时对比相应的性能。上述数据的设置情况主要是为了更快更明显的对照出本发明提出的基于IL预训练方案的优势所在。

具体的对比指标即为环境反馈的奖励值和该电网系统最终的存活步数，如图3所示(图3中阴影部分是对应算法的误差点，即为该算法在训练中脱离数据变化趋势的点)。由图3及图3中的细节放大图可以明显的看到IL-SAC算法具有更快的收敛速度，且收敛后具有更高的奖励值和存活步数。IL-SAC算法智能体比SAC算法智能体少用了近2000个训练步就达到收敛状态，且在两个算法都收敛之后IL-SAC算法下该电网系统能够多存活约14％个时间步，多获得约15％的奖励值，明显具有更优越的控制效果。值得注意的是在使用随机智能体应该该电力系统时，电力系统只能存活0到1个时间步，奖励值几乎为0。

2)设计IL-SAC算法智能体与PPO算法智能体和DQN算法智能体对比时，在Grid2Op环境中设置的电网系统最高存活步数为288个时间步，并且设置训练总步数为约10⁶步。上述数据的设置情况主要是为了更快更明显的对照出本发明提出的IL-SAC算法的优势所在。

在该组的对比中除了训练时智能体相应指标的对比之外，还设置了测试时智能体相应指标的对比。本发明设计了分组的测试模式，充分体现测试的随机性特点，该分组模式叙述如下：总共分为10组，在每一组测试过程中从2000组场景数据随机挑选100个输入各个智能体，然后计算各个智能体在这200个场景下的平均奖励值大小和平均存活步数大小作为控制性能的指标值，另外添加了一项根据奖励函数r₂计算得到的新能源消纳率比值作为对比指标。在训练中的指标仍是如1)中所述。

如图4所示(图4中阴影部分是对应算法的误差点，即为该算法在训练中脱离数据变化趋势的点)为训练时的性能对比图，图5为测试时的性能对比图(图5中IL-SAC/PPO表示该测试组中IL-SAC算法下新能源消纳率的奖励值比上PPO算法新能源消纳率的奖励值，IL-SAC/DQN则表示该测试组中IL-SAC算法下新能源消纳率的奖励值比上DQN算法新能源消纳率的奖励值)。由图4和图5可以明显的看到在PPO算法和DQN算法都加入本文的预训练模型之后，IL-SAC算法在收敛速度上并没有明显的优势，但是在收敛之后，IL-SAC算法在获得环境反馈的奖励值方面是远强于PPO算法和DQN算法的，在存活步数和稳定性方面来看IL-SAC算法和加入预训练之后的PPO算法都是远强于加入预训练之后的DQN算法的。由图5的第3个子图可以看到在新能源消纳率的提升方面，IL-SAC算法智能体也具有明显的优势，其新能源消纳率是PPO算法的1.35倍左右和DQN算法的1.75倍左右，对于最大化消纳新能源该算法优越性十分突出。

本发明考虑将深度强化方法引入电网控制策略决策中，实现从电网运行环境中提取有效信息，再结合环境信息和电网运行方式确定控制方式，实现决策控制。本发明将人工智能应用于电网，解决电网决策控制问题。深度强化学习是人工智能具体实现的载体，用于学习电网环境信息，并给出控制决策方案。

需要强调的是，本发明所述实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于深度强化学习的电网实时自适应决策方法，其特征在于：包括如下步骤：

步骤2、研究SAC算法的基础原理，包括其5个网络即策略Actor网络、“软”V网络、2个“软”Q网络、目标V网络的更新流程和更新公式，并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α和网络宽度深度，求解使得步骤1中MDP模型累计奖励值最大的策略；

步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL-SAC算法，并基于IL-SAC算法以及10⁵个真实电网场景数据训练相应的电网优化调度智能体，在测试时该智能体应对不同的电网场景数据能够输出实时决策方案，实现新型电网系统的智能调控；

所述步骤1的具体步骤包括：

(1-1)状态变量S

在t时段的Grid2Op电网系统状态s_t∈S如式(1)所示

(1-2)动作变量A

其中，X表示该电网系统有X个可控机组；表示第x个机组节点上的有功出力调节值；/>表示第x个机组节点上的电压调整值；由于机组的有功出力和电压皆是连续变化的动作，欲将其离散化；设离散化的最小间隔分别为Δ_Dp和Δ_Dv,则

其中，y,z都为整数；

根据式(3)和(4)，将动作变量a_t离散化之后可以表示为

(1-3)状态转移概率P

采用深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布；

(1-4)奖励机制R

设置了6个类型奖励r₁,r₂,r₃,r₄,r₅,r₆∈R，具体描述如下：

1)根据输电线路越限情况设置奖励函数r₁，

其中，rho_max表示N条传输线路上最大的rho值；

2)根据新能源机组消纳总量设置正奖励函数r₂，

其中，表示新能源机组m当前时间步的实际有功出力，/>表示新能源机组m在当前时间步的最大出力；

3)根据平衡机组功率越限情况设置负奖励r₃，

其中，U表示平衡机个数，表示平衡机u的实际有功出力，/>分别表示平衡机的出力的上下限；

4)根据机组运行费用设置负奖励r₄，

其中，a_j,b_j,c_j表示为对应不同机组的发电成本曲线系数；

5)根据机组的无功出力越限情况设置负奖励r₅，

其中，分别表示机组无功出力的上下限；

6)根据机组节点和负载节点电压越限情况设置负奖励r₆，

其中，分别表示各个发电机节点和负载节点电压的上下限；

对上述奖励函数r₄,r₅,r₆使用如下公式进行归一化处理

r＝e^r-1 (17)

综上所述，奖励函数r₁的值域为(-1，1)、r₁的值域为[0,1]，r₃,r₄,r₅,r₆的域值为(-1，0)，奖励函数r₃属于该取值范围是由于该仿真环境中U＝1；故t时时刻的整体奖励函数r_t∈R如下所示

r_t＝c₁r₁+c₂r₂+c₃r₃+c₄r₄+c₅r₅+c₆r₆ (18)

其中，c_i,i＝1,2,..,6表示各奖励函数的系数，将各个系数具体取值为c₂＝4，c₃＝2，c₁＝c₄＝c₅＝c₆＝1，该取值说明了模型构建过程中的奖励侧重点在于新能源消纳以及有功功率平衡。

2.根据权利要求1所述的一种基于深度强化学习的电网实时自适应决策方法，其特征在于：所述步骤2的具体步骤包括：

(2-1)SAC算法最优策略的公式如下

其中，r(s_t,a_t)表示状态为s_t时进行动作a_t得到的奖励值；H(π(·|s_t))表示状态为s_t时控制策略π的熵值；表示当状态动作对(s_t,a_t)概率分布为ρπ时的期望奖励值；α表示鼓励新策略探索的程度，被称作温度系数；

(2-2)SAC算法在构造其值函数V_ψ(s_t)和Q函数Q_θ(s_t,a_t)时，分别使用神经网络参数ψ和θ来表示；SAC算法中使用了2个值函数，其中一个值函数称为“软”值函数，基于如下公式中的误差平方值可以来更新“软”值函数神经网络的权重

其中，D表示先前采样状态的分布空间；表示对误差平方的期望值；/>表示控制策略π_Φ下控制动作a_t的期望；

下一步即可使用下式来计算式(21)中的概率梯度

其中，表示对参数ψ求梯度；

其中，γ表示折扣因子；表示满足概率分布ρ的状态s_t+1的期望值；

其中，表示对参数θ求梯度；/>表示目标值函数网络，定期更新；

(2-4)SAC算法的控制策略输出值是由平均值和协方差组成的随机高斯分布表示出来的，通过最小化预期Kullback-Leibler(KL)偏差来更新其控制策略的神经网络参数，以Φ作为参数的控制策略π的目标函数可以根据式(20)具体化为

式(26)的优化求解过程可由下式中的概率梯度计算得出

3.根据权利要求1所述的一种基于深度强化学习的电网实时自适应决策方法，其特征在于：所述步骤3的具体步骤包括：

在该预训练方案中首先是一个模拟专家经验的过程，从电网仿真环境中采样大量场景即大量的观测状态空间作为输入量，将10⁵个场景作为输入量，然后在式(5)离散化之后的动作空间中基于贪婪算法贪婪搜索最优的动作，贪婪的最优指标是在保证各条传输线路上最大rho不超过100％的情况下使得式(8)中的新能源消纳率指标最大化，在进行贪婪算法之后能得到一个模拟的专家动作空间，相对于原始动作空间有所缩减；

(3-2)模仿学习中行为克隆的过程，使用10⁵个电网场景作为输入量，在专家动作空间中基于步骤(3-1)的贪婪优化准则贪婪搜索最优的动作，并将对应的电网场景状态与动作组合形成动作状态对(a,s)，即给每一个状态找到一个较优的动作标签；最终应用该动作状态对设计好的深度神经网络进行监督学习预训练，并迁移至SAC算法中的Actor网络和Critic网络中；

(3-3)基于(3-2)中预训练的深度神经网络参数，构建IL-SAC算法为基础的电网调度智能体，使用10⁵个真实电网场景数据作为智能体的输入，训练该智能体至算法参数收敛，最终将得到的电网调度智能体应用至真实电网场景数据下，能够实时输出电网调度相应的动作策略。