CN112615379B

CN112615379B - 基于分布式多智能体强化学习的电网多断面功率控制方法

Info

Publication number: CN112615379B
Application number: CN202011451510.2A
Authority: CN
Inventors: 王灿; 徐震宇; 叶德仕; 冯雁
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-05-13
Anticipated expiration: 2040-12-10
Also published as: CN112615379A

Abstract

基于分布式多智能体强化学习的电网多断面功率自动控制方法，通过多智能体与电力仿真环境交互，能够自主学习合适的用于复杂电网的多断面功率控制策略。首先根据电网控制的需要选取N个目标断面，并依此构建强化学习方法的环境、智能体、观测状态、动作、奖励函数等基本元素；其次运行多断面功率控制任务交互环境，创造初始潮流数据集；之后，为每个智能体构造基于深度神经网络的决策网络和估值网络，构建MADDPG(多智能体深度确定性策略梯度)模型并引入分布式方法进行训练自主学习最优控制策略；最后，应用训练完成的策略网络自动断面控制。本发明的优点在于，采用多智能体强化学习方法处理复杂的电网多断面功率控制问题，具有较高的控制成功率且无需专家经验，同时引入分布式方法大幅提升了智能体训练效率。

Description

基于分布式多智能体强化学习的电网多断面功率控制方法

技术领域

本发明涉及智能电网功率控制的技术领域，特别是基于强化学习的智能电网断面功率控制技术领域。

背景技术

随着大规模现代电网的建设，电力系统的组成结构和运行环境日益复杂。为保障电力系统运行的安全性与经济性，需要密切监控电网运行状态。近年来，由于化石能源的日益短缺,风能、太阳能等可再生新能源逐渐渗透进现代电网之中，电网运行的不确定性和复杂性增加。监测和调控数量众多的电气设备成为了十分困难的挑战。因此，当代电网亟需向具有更强鲁棒性、适自应性的智能电网转变。

电网断面功率控制是电网运行状态管理的基本任务之一，其自动化程度体现了电网的智能化水平。断面功率控制任务指通过执行合适的发电机调度策略从而使目标断面功率达到预设的区间内，多断面功率控制则要求所有目标断面功率同时满足各自的目标功率区间。电网断面定义为多条规定有功流动方向的支路组成的支路集。通常，断面可以将电网分割成互不连通的两个部分，因此断面往往承担着区域间功率交换的重要任务，对断面功率的控制影响着整体电网的稳定性和安全性。

电力系统是一个复杂的非线性系统，对于单个断面功率的控制策略不一定适用于其他断面，因此多断面功率控制问题是电网自动控制领域的难题。目前生产实践中通常有电力操作员根据日常调度经验对断面功率进行修改，一方面严重依赖专家经验，另一方面难以应对复杂多变的大型电网。目前，人工智能技术在电网自动化控制上具有较高的应用潜力，尤其是以深度强化学习为代表的控制决策方法，在诸如自动电压控制、自动发电控制等问题上已经出现了较多的研究成果。然而，目前并没有成熟的基于强化学习的多断面功率控制方法，尤其是针对具有高维复杂形态数据的大型电网。因此本发明引入多智能体强化学习方法来解决多断面功率问题，来解决电网复杂状态下的控制决策问题。

发明内容

为了克服现有电网多断面功率控制方法依赖专家经验、效率低、应用场景有限的不足，本发明提出了一种自适应的、高效的、拓展性强的基于分布式多智能体强化学习的电网多断面功率控制方法。该方法通过构造多智能体与电力仿真环境交互，以离线学习的方式探索断面功率控制策略，完成训练后可以应用到其他复杂的电网潮流状态，自动给出断面功率控制策略。

基于分布式多智能体强化学习的电网多断面功率自动控制方法，该方法包括以下步骤：

1)根据电网控制需要选取N个目标断面，并构建强化学习方法的基本元素，包括环境、智能体、观测状态、动作、奖励函数；

2)运行多断面功率控制任务交互环境，创造初始潮流数据集；

3)构造深度神经网络模型，应用多智能体深度确定性策略梯度(MADDPG)算法对决策智能体进行训练，引入分布式提高训练效率；

4)利用训练完成的智能体为多断面功率控制提供决策。

步骤1)的强化学习方法基本要素构建过程如下：

(1.1)构建以电力系统仿真环境作为智能体的交互环境，为智能体提供决策参考的电网各类属性、状态值。环境根据决策中的动作，修改电网中的相关电力参数，并进行潮流计算更新电网状态和断面功率计算。

(1.2)构建N个发电机调度策略智能体。智能体同时作为决策者和学习者，与环境交互来获得经验，并从中不断学习来获得最优策略。每个智能体负责监管一个目标断面，智能体之间通过合作与竞争不断学习到最优的全局策略。

(1.3)构建观测状态。状态变量反映某一时刻电力系统的潮流运行状态。以发电机有功功率、无功功率，负荷有功功率、无功功率和输电线路上有功功率作为当前系统特征。对任一智能体，可观测状态S包括公共状态S^pub和专有状态S^spe,具体包含：

其中，S_G代表发电机的状态量，包含发电机有功出力P_G和无功出力Q_G；S_L代表负荷的状态量，包含负荷的有功消耗P_L和无功消耗Q_L；S_AC代表交流线的状态量，包含交流线的有功功率P_AC和无功功率Q_AC。专有状态S^spe包含目标断面的当前功率P^C和目标功率P^tar。

(1.4)构建基于目标功率距离和经验知识的智能体奖励函数，具体包括三类奖励函数：

距离奖励：根据断面当前目标值和目标值之间的差距给予负奖励。对于第i个智能体(关注第i个断面)，其距离奖励公式为：

其中包括D(M_i)代表每个目标断面当前时刻功率与目标功率的距离

经验奖励：根据送端、受端发电机调整量是否平衡给予引导性奖励。其中平衡情况是指送端发电机组出力增加，手段发电机组出力减少的情况。

约束奖励：根据潮流计算是否收敛给予奖励(惩罚不收敛的情况)以及平衡节点的出力变化量给予奖励。

最终每个智能体i获得的奖励为

(1.5)构建发电机有功出力调整动作动作

其中，N_G代表可调发电机的数量，A中的每一元素代表了每个可调发电机的有功出力调度变化量，对于单次调整动作，其元素大小限制在[-0.5,0.5]范围内。动作的执行则对是对各个可调发电机进行再调度，对于发电机j(1≤j≤N_G)，其有功出力P_j在调整后更新为P′_j＝P_j+a_j。若发电机属于PQ节点类型，其无功出力Q_j在调整后更新为

步骤2)的初始潮流数据集构造规则为：

(2.1)随机挑选M个负荷，负荷的有功功率和无功功率按10％的步长逐步增长增加，范围为初始值的1-4倍；

(2.2)随机挑选K个发电机，平均分配总体负荷增加量；

(2.3)筛选生成数据中潮流收敛的初始运行状态数据作为方法的训练数据

步骤3)构造深度神经网络模型方法为：

对于每个智能体，基于actor-critic(行为者-评论者)结构，首先构造actor网络(策略网络)，其输入为当前智能体的局部观测状态量，输出每个可调发电机的功率调度量；其次构造critic网络(估值网络)，其输入为全体智能体的局部观测状态量及预测动作，该状态的预估价值。网络均由若干全连接层和ReLU激活函数层组成。

步骤3)应用分布式MADDPG算法进行训练的方法为：

(3.1)构造Worker(工作者)-Learner(学习者)分布式框架，包含若干个Worker，1个Learner和1个共享经验池。每个Worker中包含N个策略网络(对应N个智能体)，负责并行地与环境交互。Leaner包含完整的N个actor-critic结构，负责从共享经验池中获取交互经验用于网络的训练。

(3.2)用Learner中的策略网络参数权重初始化所有Worker中的策略网络参数。

(3.3)对于每个Worker,重置环境获取新的初始潮流数据,智能体分别获取各自观测变量作为输入，分别输出发电机调度动作，将各个智能体的动作以算术平均的方式进行融合，传入环境执行。不同Worker通过多进程方式分布到不同CPU核上并行运算。

(3.4)执行动作后更新环境状态，依据定义的奖励函数反馈每个智能体的奖励值。将包含各智能体观测状态、动作、奖励值的交互记录存储到公共经验池中。

(3.5)重复执行步骤(3.3)、(3.4)直到达到最大预设次数。Worker每隔一定次数获取Learner中的策略网络参数更新自身的策略网络。

(3.6)对于Learner，重复地从经验池中随机采样一个批次的数据，学习并更新策略网络和估值网络。该过程与步骤(3.5)并行执行。

本发明提出了基于分布式多智能体强化学习的电网多断面功率自动控制方法，其优点在于：采用多智能体方法解决复杂的电网多断面功率控制问题，无需对复杂的电力系统建模，通过智能体自主与环境交互来学习发电机调度策略，实现了断面功率控制的自动化，相比基于专家知识的人工调整方法具有更强的自适应性；采用的多智能体强化学习方法相比单智能体方法具有更高的控制成功率；引入分布式训练框架，大幅度提升了智能体的训练效率。

附图说明

图1是本发明的总体流程图。

图2是分布式MADDPG框架的结构图。

具体实施方式

参照附图，进一步说明本发明：

一种基于分布式多智能体强化学习的电网多断面功率自动控制方法，其总体流程图参照图1，该方法包括以下步骤：

1)根据电网控制需要选取N个目标断面，并构建强化学习方法的环境、智能体、观测状态、动作、奖励函数等基本元素；

3)构造深度神经网络模型，应用MADDPG(多智能体深度确定性策略梯度)算法对决策智能体进行训练，引入分布式提高训练效率；

4)利用训练完成的智能体为多断面功率控制提供决策。

步骤1)的强化学习方法基本要素构建过程如下：

最终每个智能体i获得的奖励为

(1.5)构建发电机有功出力调整动作动作

步骤2)的初始潮流数据集构造规则为：

(2.2)随机挑选K个发电机，平均分配总体负荷增加量；

步骤3)构造深度神经网络模型方法为：

步骤3)应用分布式MADDPG算法进行训练的方法为：

通过多智能体与电力仿真环境交互，能够自主学习合适的用于复杂电网的多断面功率控制策略。首先根据电网控制的需要选取N个目标断面，并依此构建强化学习方法的环境、智能体、观测状态、动作、奖励函数等基本元素；其次运行多断面功率控制任务交互环境，创造初始潮流数据集；之后，为每个智能体构造基于深度神经网络的决策网络和估值网络，构建MADDPG(多智能体深度确定性策略梯度)模型并引入分布式方法进行训练自主学习最优控制策略；最后，应用训练完成的策略网络自动断面控制。本发明的优点在于，采用多智能体强化学习方法处理复杂的电网多断面功率控制问题，具有较高的控制成功率且无需专家经验，同时引入分布式方法大幅提升了智能体训练效率。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于分布式多智能体强化学习的电网多断面功率控制方法，包括如下步骤：

1)根据电网控制需要选取N个目标断面，并构建强化学习方法的基本元素，包括环境、智能体、观测状态、动作、奖励函数；强化学习方法基本要素构建过程如下：

11)构建以电力系统仿真环境作为智能体的交互环境，为智能体提供决策参考的电网各类属性、状态值；环境根据决策中的动作，修改电网中的相关电力参数，并进行潮流计算更新电网状态和断面功率计算；

12)构建N个发电机调度策略智能体；智能体同时作为决策者和学习者，与环境交互来获得经验，并从中不断学习来获得最优策略；每个智能体负责监管一个目标断面，智能体之间通过合作与竞争不断学习到最优的全局策略；

13)构建观测状态；状态变量反映某一时刻电力系统的潮流运行状态；以发电机有功功率、无功功率，负荷有功功率、无功功率和输电线路上有功功率作为当前系统特征；对任一智能体，可观测状态S包括公共状态S^pub和专有状态S^spe,具体包含：

其中，S_G代表发电机的状态量，包含发电机有功出力P_G和无功出力Q_G；S_L代表负荷的状态量，包含负荷的有功消耗P_L和无功消耗Q_L；S_AC代表交流线的状态量，包含交流线的有功功率P_AC和无功功率Q_AC；专有状态S^spe包含目标断面的当前功率P^C和目标功率P^tar；

14)构建基于目标功率距离和经验知识的智能体奖励函数，具体包括三类奖励函数：

距离奖励：根据断面当前目标值和目标值之间的差距给予负奖励；对于第i个智能体，其距离奖励公式为：

其中包括D(M_i)代表每个目标断面当前时刻功率与目标功率的距离；

经验奖励：根据送端、受端发电机调整量是否平衡给予引导性奖励；其中平衡情况是指送端发电机组出力增加，受端发电机组出力减少的情况；

约束奖励：根据潮流计算是否收敛给予奖励(惩罚不收敛的情况)以及平衡节点的出力变化量给予奖励；

最终每个智能体i获得的奖励为

15)构建发电机有功出力调整动作动作

其中，N_G代表可调发电机的数量，A中的每一元素代表了每个可调发电机的有功出力调度变化量，对于单次调整动作，其元素大小限制在[-0.5,0.5]范围内；动作的执行则对是对各个可调发电机进行再调度，对于发电机j，1≤j≤N_G，其有功出力P_j在调整后更新为P′_j＝P_j+

；若发电机属于PQ节点类型，其无功出力Q_j在调整后更新为

3)构造深度神经网络模型，应用多智能体深度确定性策略梯度算法，即MADDPG算法，对决策智能体进行训练，引入分布式提高训练效率；

4)利用训练完成的智能体为多断面功率控制提供决策。

2.如权利要求1所述的电网多断面功率控制方法，其特征在于步骤2)的初始潮流数据集构造规则如下：

21)随机挑选M个负荷，负荷的有功功率和无功功率按10％的步长逐步增长增加，范围为初始值的1-4倍；

22)随机挑选K个发电机，平均分配总体负荷增加量；

23)筛选生成数据中潮流收敛的初始运行状态数据作为方法的训练数据。

3.如权利要求1所述的电网多断面功率控制方法，其特征在于步骤3)的构造深度神经网络模型具体包括：

对于每个智能体，基于行为者-评论者结构，即actor-critic结构，首先构造actor网络，即策略网络，其输入为当前智能体的局部观测状态量，输出每个可调发电机的功率调度量；其次构造critic网络，即估值网络，其输入为全体智能体的局部观测状态量及预测动作，该状态的预估价值；网络均由若干全连接层和ReLU激活函数层组成。

4.如权利要求1所述的电网多断面功率控制方法，其特征在于步骤3)的应用分布式MADDPG算法训练过程如下：

31)构造工作者Worker-学习者Learner分布式框架，包含若干个Worker，1个Learner和1个共享经验池；每个Worker中包含N个策略网络，即对应N个智能体，负责并行地与环境交互；Leaner包含完整的N个actor-critic结构，负责从共享经验池中获取交互经验用于网络的训练；

32)用Learner中的策略网络参数权重初始化所有Worker中的策略网络参数；

33)对于每个Worker,重置环境获取新的初始潮流数据,智能体分别获取各自观测变量作为输入，分别输出发电机调度动作，将各个智能体的动作以算术平均的方式进行融合，传入环境执行；不同Worker通过多进程方式分布到不同CPU核上并行运算；

34)执行动作后更新环境状态，依据定义的奖励函数反馈每个智能体的奖励值；将包含各智能体观测状态、动作、奖励值的交互记录存储到公共经验池中；

35)重复执行33)、34)直到达到最大预设次数；Worker每隔一定次数获取Learner中的策略网络参数更新自身的策略网络；

36)对于Learner，重复地从经验池中随机采样一个批次的数据，学习并更新策略网络和估值网络；该过程与35)并行执行。