CN113852080A

CN113852080A - 一种智能电网的潮流优化方法、系统、设备及存储介质

Info

Publication number: CN113852080A
Application number: CN202110983342.XA
Authority: CN
Inventors: 蒲天骄; 乔骥; 王晓飞; 曹一凡; 刘志成; 仇超; 王新迎
Original assignee: Tianjin University; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: Tianjin University; State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-12-28

Abstract

本发明公开了一种智能电网的潮流优化方法、系统、设备及存储介质，包括：将电网划分成若干区域的子电网，其中，一个子电网对应一个智能体；设计智能体的状态、动作及奖励机制；基于异步优势演员评论家算法对智能体进行优化，通过优化后的智能体对对应的子电网进行调度及控制，完成智能电网的潮流优化，该方法、系统、设备及存储介质能够实现智能电网的动态管理，降低人力物力消耗，且调整效率较高。

Description

一种智能电网的潮流优化方法、系统、设备及存储介质

技术领域

本发明属于电力系统潮流控制领域，涉及一种智能电网的潮流优化方法、系统、设备及存储介质。

背景技术

随着电力系统的不断发展与更新，多样化的电力设备的接入带来了复杂的供需关系，对电力系统感知与决策提出了更高的要求。面对电力系统中功率流、信息流与控制流的动态实时交互，分布式的电力控制流程能够降低中心站点的决策压力，并能支持就地自治与快速响应，对智能微电网具有一定的测试与应用价值。特别地，基于人工智能的决策方法能够降低对于人工经验的依赖，有效提升电力系统自动化与智能程度。

作为智能微电网中存在的典型问题之一,潮流计算需要在给定的电力网络拓扑与供需状态等系统参数下，确定电力系统中的稳态参数，进而分析电力供应与需求的变化对整个系统安全运行的影响。然而，由于该问题涉及多个电力感知与控制设备，设备控制属性具有较为多样，控制决策的可行空间较大，以往的解决方案可能面对潮流计算难以收敛的问题，往往依赖人工经验进行试错，同时也会耗费大量的人力物力，系统调整效率较为低下。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种智能电网的潮流优化方法、系统、设备及存储介质，该方法、系统、设备及存储介质能够实现智能电网的动态管理，降低人力物力消耗，且调整效率较高。

为达到上述目的，本发明所述的智能电网的潮流优化方法，包括：

将电网划分成三个子电网，其中，一个子电网对应一个智能体，各智能体只能观测到对应子电网的电网信息，并只能控制对应子电网的电气设备。

基于异步优势演员评论家算法对智能体进行优化之前还包括：设计智能体的状态、动作及奖励机制。

智能体的状态包括子电网中各发电机的输出、各母线上无功补偿器的开关以及各变压器的状态。

智能体的动作包括有功功率调节及无功功率调节。

智能体的奖励机制为：

当优化过程中样本的潮流计算收敛，则智能体得到正回报值r₁，否则，则智能体得到负回报值r₂；

当发电机输出有功功率小于等于其最大有功功率限制，则智能体得到奖励值r₃；

当发电机输出的无功功率小于等于其最大无功功率限制，则智能体得到奖励值r₄；

当线路负载率超过其最大线路负载率限制，则智能体得到负奖励r₅；

当母线上的电压在预设电压范围内，则智能体得到正加值r₆；

当变压器的负载小于等于其最大负载限制时，则智能体得到奖励值r₇；

智能体每一步的总奖励值R为r₁、r₂、r₃、r₄、r₅、r₆及r₇的总和。

基于异步优势演员评论家算法对智能体进行优化的过程中，第i个智能体的观测空间为m(g_i+p_i+q_i)，g_i、p_i及q_i分别为第i个智能体对应子电网的发电机数量、母线数量及变压器数量；第i个智能体的动作空间为m(g_i+p_i+q_i)，g_i、p_i及q_i分别为第i个智能体对应子电网的发电机数量、母线数量及变压器数量。

本发明所述的智能电网的潮流优化系统包括：

划分模块，用于将电网划分成若干子电网，其中，一个子电网对应一个智能体；

控制模块，用于基于异步优势演员评论家算法对智能体进行优化，通过优化后的智能体对对应的子电网进行调度及控制，完成智能电网的潮流优化。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述智能电网的潮流优化方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述智能电网的潮流优化方法的步骤。

本发明具有以下有益效果：

本发明所述的智能电网的潮流优化方法、系统、设备及存储介质在具体操作时，基于多智能体深度强化学习进行智能电网的潮流优化，以实现智能电网的动态管理，提高调整效率，并且降低人力物力消耗，潮流计算容易收敛，具体的，将电网划分成若干区域的子电网，其中，一个子电网对应一个智能体，再利用异步优势演员评论家算法对智能体进行优化，然后利用优化后的智能体对对应的子电网进行调度及控制，操作方便，便于推广及应用。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为DRL模型基础框架图；

图2为基于多智能体的电网区域划分图；

图3为不同算法下智能体人平均报酬的收敛图；

图4a为区域1发电机的1号动作变化图；

图4b为区域2发电机的1号动作变化图；

图4c为区域3发电机的1号动作变化图；

图4d为区域1无功补偿器的1号动作变化图；

图4e为区域2无功补偿器的1号动作变化图；

图4f为区域3无功补偿器的1号动作变化图；

图4g为区域1变压器的1号动作变化图；

图4h为区域2变压器的1号动作变化图；

图4i为区域3变压器的1号动作变化图；

图5a为潮流调整前电网系统的负载图；

图5b为潮流调整后电网系统的负载图；

图6为不同算法下不收敛样本调整成功数的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

公知的，深度强化学习，将一个强化学习任务定义为M＝(S,A,T,r)，在每个时间步长t，智能体观测到一个状态s_t∈S，根据其策略π，在a_t∈A上选择一个动作a_t＝π(s_t)。状态转移分布T＝p(s_t+1|s_t,a_t)，表示从状态-动作对(s_t,a_t)到下一个状态的概率分布的映射，在与环境交互后，智能体到达下一个状态s_t+1，并收到一个奖励r_t＝r(s_t,a_t)。

t时刻的期望折现收益

其中，折现因子γ∈[0,1]，并且RL智能体的目标是使其长期期望收益最大化，动作值函数Q函数Q^π(s,a)＝E[R_t|s_t＝s,a_t＝a,π]，表示观察状态s并根据策略π采取动作a后的预期折现收益，最优Q函数Q^*满足:

深度强化学习由深度神经网络和强化学习组成，如图1所示，深度强化学习的目标是创建一个智能体，该智能体可以执行有效的策略，以最大限度地利用可控制的动作来实现长期任务的奖励。

深度Q学习(DQN)，DQN算法是在具有离散动作空间的环境中使用DRL的一种无模型方法，用于优化神经网络以逼近最优Q函数Q^*。在DQN中，预期体现未来回报的可能行动，预计步t和RL智能体采取行动，预计最高的回报π_Q(s_t)＝argmax_a∈AQ(s_t,a)。在训练RL智能体收集元组(s,r,s’)从其经验并将它们存储在一个经验回放记忆,这是一个关键技术，提高培训DQN算法的性能。重播内存的目的是消除智能体验到的样本之间的相关性。近似Q*(s,a)的神经网络使用小批梯度下降方法进行训练，并通过使用回放记忆中的样本(s,a,r,s’)来最小化以下损失:L＝E_s,a,r,s’[(Q(s,a)-y)]²，其中，y＝r+γmax_a’∈AQ(s’,a’)。在DQN中，RL智能体使用一个单独的目标Q网络，它的结构与原始Q网络相同，但参数被冻结。目标网络的目的是暂时固定Q值目标，因为非平稳的目标会使训练过程不稳定，降低性能。每迭代一定次数，目标Q网络θ-的参数就与原始Q网络θ的参数更新一次。对于目标Q网络的使用，损耗函数可以重新表述为:

异步优势演员评论家(A3C)，Actor-Critic(AC)算法使用两个神经网络来近似策略，其中一个是用于近似策略的神经网络，使用该网络进行动作选择的对象被称为actor，而这个近似策略的神经网络被称为策略网络，另一个神经网络用来判断actor选择的动作是好还是坏。使用这个网络，预测actor选择的动作的值的对象称为价值网络。价值网络近似于一个Q函数，它直接表示actor在特定状态下选择的动作的值。设策略网络在t时刻的权值为θ_t，在t时刻的状态为s，选择的行为为a，学习速率为α，具有参数θ的策略为π_θ。策略网络参数θ的更新方程为：

Qπ(s,a)为当前状态s下，选择动作a后，沿着策略π继续选择动作所能得到的总值，上式中，值网络近似的Q函数未归一化。因此，如果critic利用数值网络预测的Q值过大，则θ参数一次变化过大。相反，当预测值太小，则θ变化不大。使用的不是预测的Q值，而是Q值减去之前状态的值所获得的值，称为优势，该优势意味着动作a所获得的值的增量。当时间步长t的值函数为V(s_t)＝E[R_t|s_t＝s]，则优势函数为：

A(s_t，a_t)＝Q(s_t，a_t)-V(s_t)＝E[R_t|s_t，a_t]-V(s_t)

≈γV(s_t+1|s_t，a_t)+r_t-V(s_t)＝δ(s_t)

行为体的梯度为

则有：

更新值网络的损耗函数为δ(s_t)²。

A3C为由Google DeeρMind提出的一种解决Actor-Critic算法不收敛问题的算法，在DQN中很重要的经验池可以降低数据之间的相关性，从而提高收敛性。而在A3C算法为了减少内存的使用，不采用经验回访的方式，而是利用多个worker在多个环境实例上异步执行各自的训练，并且异步地更新全局网络，因此A3C可以在一定程度上提升收敛的速度。

本发明所述的智能电网的潮流优化方法，包括：

1)将电网划分成若干区域的子电网，其中，一个子电网对应一个智能体；

具体的，参考图1，将电网划分成三个区域的子电网，其中，一个子电网对应一个智能体，各智能体只能观测到对应子电网的电网信息，并只能控制对应子电网的电气设备，另外，各智能体之间能够进行通信，以实现有效调度。

2)设计智能体的状态、动作及奖励机制；

21)设计智能体的状态

智能体的状态为智能体从环境中观察到的变量，该变量会影响智能体的探索效率，因此，在状态变量的选择上，主要考虑各发电机的输出、各母线上无功补偿器的开关以及各变压器的状态，对于m个样本的数据，总的状态空间大小为m(g+p+q)，其中，g为发电机的总数，p为母线的总数，q为变压器的总数，各智能体只能观测到其所在子电网的状态信息，因此第i个智能体的观测空间为m(g_i+p_i+q_i)，g_i、p_i及q_i分别为第i个智能体所在子电网的发电机数量、母线数量及变压器数量。

22)设计智能体的动作

智能体的动作是智能体在探索过程中所采取的实际策略，是真正影响实时潮流收敛的关键，本发明考虑有功功率及无功功率两方面的调节，包括每台发电机的出力倍数、每条重载母线上的无功补偿器数及每个变压器的变比，因此，对于m个样本的数据，作用空间m(g+p+q)，第i个智能体的动作空间为m(g_i+p_i+q_i)。

23)设计智能体的奖励机制

当样本的潮流计算收敛，则得到最高的正回报值r₁，否则，则加上负回报值r₂；

根据发电机输出有功功率是否大于其最大有功功率限制，设置奖励值r₃；

根据发电机输出的无功功率是否大于其最大无功功率限制，设置奖励值r₄；

当线路负载率超过其最大线路负载率限制，则智能体获得负奖励r₅；

当母线上的电压在预设电压范围内，则增加正加值r₆；

根据变压器上的最大负载限制构成奖励值r₇；

智能体每一步的奖励值R为r₁、r₂、r₃、r₄、r₅、r₆及r₇的总和。

3)基于异步优势演员评论家算法对智能体进行优化，通过优化后的智能体对对应的子电网进行调度及控制，完成智能电网的潮流优化。

多智能体异步优势演员评论家算法(MAA3C)作为深度强化学习算法，每一个智能体均维护一个A3C结构，用其对智能体观测到的局部状态进行策略选择及策略评估。不同的智能体维护各自所在的子电网，彼此之间能够进行通信，以共同追求整个大电网的潮流收敛目标。

下一层的每个A3C都拥有多个由Actor-Critic组成的worker接受全局网络的参数更新，进行强化学习的训练，并异步对全局网络进行更新。每个Actor-Critic由两个深度神经网络组成，即策略网络和价值网络，策略网络用于探索策略，价值网络评估动作并提供critic值，有助于actor学习策略的梯度，调整其网络的参数，使更新朝着更好的方向进行。

从图3可以看出，本发明相比于其他的多智能体强化学习算法，能够更快地达到一个收敛值，并且在收敛的过程中平稳性也比其他算法要好，其很大程度依赖于A3C结构中异步更新的方法，能够降低数据之间的相关性，从而更快达到收敛。此外，本发明在所有算法中能够最终获得一个最大的奖励值，也会体现在之后的样本收敛数量的实验中，从MAA3C和A3C的对比曲线可以看出来，本发明在采用多智能体对电网进行区域划分之后，不仅在收敛速度上与集中化学习相差无几，并且在子电网只能获得到局部信息的前提下，还获得更大的奖励值，说明在面对电网这样庞大的环境时，多智能体系统可能会让电网获得比集中优化控制更好的鲁棒性。

选取在不同子电网下由不同智能体进行控制的电气设备在潮流计算不收敛调整中的动作值来反映在MAA3C算法下，各智能体做出的决策对电网实际的改变，如图4a至图4i所示，随机抽取三个子电网中的发电机、无功补偿器和变压器，分别查看其在MAA3C算法下的出力倍数，补偿器增加数量以及变压器变比改变的百分比，可以看出，基本上在300个迭代回合之后，各个电气设备都能收敛到一个具体的动作值，只是由于强化学习探索因子的存在会存在些许波动。

利用Pandapower中的电网绘图函数，随机挑选一个完成潮流不收敛调整的样本，绘制其潮流调整前后电网系统中母线、输电线路负载率。从图5a及图5b可以看出，调整前的电网存在局部输电线路负载率过重以及母线电压过低的情况，这很可能是导致潮流计算不收敛的主要原因。而从调整之后的电网可以看出局部区域输电线路的过载情况得到了很好的改善，母线电压从过低到了一个相对较高且可控的水平，于是潮流计算得以重新收敛。

为更直观地反映MAA3C算法对潮流计算不收敛电网的调整效果，从不收敛的996个样本中随机抽取了160个作为测试集，其余为训练集。通过对比不同算法下不收敛样本的调整成功数来体现MAA3C算法的优势。为尽量减小偶然因素造成的结果影响，计算10次并取10次结果的平均值。从图6可以看到，MAA3C算法的优势比较明显，无论是与集中学习的单智能体深度强化学习算法相比还是与其他多智能体深度强化学习。可以观察到，如果采用随机策略，样本不收敛调整的成功率不到百分之十。而在其他环境表现较好的MAPPO算法，在我们的场景中表现并不理想，不仅收敛速度较慢，最终样本调整的成功率也不高。

实施例二

本发明所述的智能电网的潮流优化系统包括：

划分模块，用于将电网划分成若干区域的子电网，其中，一个子电网对应一个智能体；

设计模块，用于设计智能体的状态、动作及奖励机制；

实施例三

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述智能电网的潮流优化方法的步骤，其中，所述存储器可能包含内存，例如高速随机存储器，也可能还包括非易失性存储器，例如，至少一个磁盘存储器等；处理器、网络接口、存储器通过内部总线互相连接，该内部总线可以是工业标准体系结构总线、外设部件互连标准总线、扩展工业标准结构总线等，总线可以分为地址总线、数据总线、控制总线等。存储器用于存放程序，具体地，程序可以包括程序代码、所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

实施例四

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述智能电网的潮流优化方法的步骤，具体地，所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器可以包括随机存储存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种智能电网的潮流优化方法，其特征在于，包括：

将电网划分成若干子电网，其中，一个子电网对应一个智能体；

基于异步优势演员评论家算法对智能体进行优化，通过优化后的智能体对对应的子电网进行调度及控制，完成智能电网的潮流优化。

2.根据权利要求1所述的智能电网的潮流优化方法，其特征在于，将电网划分成三个子电网，各智能体只能观测到对应子电网的电网信息，且只能控制对应子电网的电气设备。

3.根据权利要求1所述的智能电网的潮流优化方法，其特征在于，基于异步优势演员评论家算法对智能体进行优化的步骤之前还包括：设计智能体的状态、动作及奖励机制的步骤。

4.根据权利要求3所述的智能电网的潮流优化方法，其特征在于，智能体的状态包括子电网中各发电机的输出、各母线上无功补偿器的开关以及各变压器的状态。

5.根据权利要求3所述的智能电网的潮流优化方法，其特征在于，智能体的动作包括有功功率调节及无功功率调节。

6.根据权利要求4所述的智能电网的潮流优化方法，其特征在于，智能体的奖励机制为：

7.根据权利要求1所述的智能电网的潮流优化方法，其特征在于，基于异步优势演员评论家算法对智能体进行优化的过程中，第i个智能体的观测空间为m(g_i+p_i+q_i)，g_i、p_i及q_i分别为第i个智能体对应子电网的发电机数量、母线数量及变压器数量；第i个智能体的动作空间为m(g_i+p_i+q_i)。

8.一种智能电网的潮流优化系统，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述智能电网的潮流优化方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述智能电网的潮流优化方法的步骤。