CN112615379B - 基于分布式多智能体强化学习的电网多断面功率控制方法 - Google Patents

基于分布式多智能体强化学习的电网多断面功率控制方法 Download PDF

Info

Publication number
CN112615379B
CN112615379B CN202011451510.2A CN202011451510A CN112615379B CN 112615379 B CN112615379 B CN 112615379B CN 202011451510 A CN202011451510 A CN 202011451510A CN 112615379 B CN112615379 B CN 112615379B
Authority
CN
China
Prior art keywords
power
agent
network
section
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011451510.2A
Other languages
English (en)
Other versions
CN112615379A (zh
Inventor
王灿
徐震宇
叶德仕
冯雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011451510.2A priority Critical patent/CN112615379B/zh
Publication of CN112615379A publication Critical patent/CN112615379A/zh
Application granted granted Critical
Publication of CN112615379B publication Critical patent/CN112615379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/04Power grid distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Power Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

基于分布式多智能体强化学习的电网多断面功率自动控制方法,通过多智能体与电力仿真环境交互,能够自主学习合适的用于复杂电网的多断面功率控制策略。首先根据电网控制的需要选取N个目标断面,并依此构建强化学习方法的环境、智能体、观测状态、动作、奖励函数等基本元素;其次运行多断面功率控制任务交互环境,创造初始潮流数据集;之后,为每个智能体构造基于深度神经网络的决策网络和估值网络,构建MADDPG(多智能体深度确定性策略梯度)模型并引入分布式方法进行训练自主学习最优控制策略;最后,应用训练完成的策略网络自动断面控制。本发明的优点在于,采用多智能体强化学习方法处理复杂的电网多断面功率控制问题,具有较高的控制成功率且无需专家经验,同时引入分布式方法大幅提升了智能体训练效率。

Description

基于分布式多智能体强化学习的电网多断面功率控制方法
技术领域
本发明涉及智能电网功率控制的技术领域,特别是基于强化学习的智能电网断面功率控制技术领域。
背景技术
随着大规模现代电网的建设,电力系统的组成结构和运行环境日益复杂。为保障电力系统运行的安全性与经济性,需要密切监控电网运行状态。近年来,由于化石能源的日益短缺,风能、太阳能等可再生新能源逐渐渗透进现代电网之中,电网运行的不确定性和复杂性增加。监测和调控数量众多的电气设备成为了十分困难的挑战。因此,当代电网亟需向具有更强鲁棒性、适自应性的智能电网转变。
电网断面功率控制是电网运行状态管理的基本任务之一,其自动化程度体现了电网的智能化水平。断面功率控制任务指通过执行合适的发电机调度策略从而使目标断面功率达到预设的区间内,多断面功率控制则要求所有目标断面功率同时满足各自的目标功率区间。电网断面定义为多条规定有功流动方向的支路组成的支路集。通常,断面可以将电网分割成互不连通的两个部分,因此断面往往承担着区域间功率交换的重要任务,对断面功率的控制影响着整体电网的稳定性和安全性。
电力系统是一个复杂的非线性系统,对于单个断面功率的控制策略不一定适用于其他断面,因此多断面功率控制问题是电网自动控制领域的难题。目前生产实践中通常有电力操作员根据日常调度经验对断面功率进行修改,一方面严重依赖专家经验,另一方面难以应对复杂多变的大型电网。目前,人工智能技术在电网自动化控制上具有较高的应用潜力,尤其是以深度强化学习为代表的控制决策方法,在诸如自动电压控制、自动发电控制等问题上已经出现了较多的研究成果。然而,目前并没有成熟的基于强化学习的多断面功率控制方法,尤其是针对具有高维复杂形态数据的大型电网。因此本发明引入多智能体强化学习方法来解决多断面功率问题,来解决电网复杂状态下的控制决策问题。
发明内容
为了克服现有电网多断面功率控制方法依赖专家经验、效率低、应用场景有限的不足,本发明提出了一种自适应的、高效的、拓展性强的基于分布式多智能体强化学习的电网多断面功率控制方法。该方法通过构造多智能体与电力仿真环境交互,以离线学习的方式探索断面功率控制策略,完成训练后可以应用到其他复杂的电网潮流状态,自动给出断面功率控制策略。
基于分布式多智能体强化学习的电网多断面功率自动控制方法,该方法包括以下步骤:
1)根据电网控制需要选取N个目标断面,并构建强化学习方法的基本元素,包括环境、智能体、观测状态、动作、奖励函数;
2)运行多断面功率控制任务交互环境,创造初始潮流数据集;
3)构造深度神经网络模型,应用多智能体深度确定性策略梯度(MADDPG)算法对决策智能体进行训练,引入分布式提高训练效率;
4)利用训练完成的智能体为多断面功率控制提供决策。
步骤1)的强化学习方法基本要素构建过程如下:
(1.1)构建以电力系统仿真环境作为智能体的交互环境,为智能体提供决策参考的电网各类属性、状态值。环境根据决策中的动作,修改电网中的相关电力参数,并进行潮流计算更新电网状态和断面功率计算。
(1.2)构建N个发电机调度策略智能体。智能体同时作为决策者和学习者,与环境交互来获得经验,并从中不断学习来获得最优策略。每个智能体负责监管一个目标断面,智能体之间通过合作与竞争不断学习到最优的全局策略。
(1.3)构建观测状态。状态变量反映某一时刻电力系统的潮流运行状态。以发电机有功功率、无功功率,负荷有功功率、无功功率和输电线路上有功功率作为当前系统特征。对任一智能体,可观测状态S包括公共状态Spub和专有状态Sspe,具体包含:
Figure GDA0003556140690000021
Figure GDA0003556140690000022
其中,SG代表发电机的状态量,包含发电机有功出力PG和无功出力QG;SL代表负荷的状态量,包含负荷的有功消耗PL和无功消耗QL;SAC代表交流线的状态量,包含交流线的有功功率PAC和无功功率QAC。专有状态Sspe包含目标断面的当前功率PC和目标功率Ptar
(1.4)构建基于目标功率距离和经验知识的智能体奖励函数,具体包括三类奖励函数:
距离奖励:根据断面当前目标值和目标值之间的差距给予负奖励。对于第i个智能体(关注第i个断面),其距离奖励公式为:
Figure GDA0003556140690000023
其中包括D(Mi)代表每个目标断面当前时刻功率与目标功率的距离
Figure GDA0003556140690000024
经验奖励:根据送端、受端发电机调整量是否平衡给予引导性奖励。其中平衡情况是指送端发电机组出力增加,手段发电机组出力减少的情况。
Figure GDA0003556140690000025
约束奖励:根据潮流计算是否收敛给予奖励(惩罚不收敛的情况)以及平衡节点的出力变化量给予奖励。
Figure GDA0003556140690000026
Figure GDA0003556140690000027
最终每个智能体i获得的奖励为
Figure GDA0003556140690000028
(1.5)构建发电机有功出力调整动作动作
Figure GDA0003556140690000029
其中,NG代表可调发电机的数量,A中的每一元素代表了每个可调发电机的有功出力调度变化量,对于单次调整动作,其元素大小限制在[-0.5,0.5]范围内。动作的执行则对是对各个可调发电机进行再调度,对于发电机j(1≤j≤NG),其有功出力Pj在调整后更新为P′j=Pj+aj。若发电机属于PQ节点类型,其无功出力Qj在调整后更新为
Figure GDA00035561406900000210
步骤2)的初始潮流数据集构造规则为:
(2.1)随机挑选M个负荷,负荷的有功功率和无功功率按10%的步长逐步增长增加,范围为初始值的1-4倍;
(2.2)随机挑选K个发电机,平均分配总体负荷增加量;
(2.3)筛选生成数据中潮流收敛的初始运行状态数据作为方法的训练数据
步骤3)构造深度神经网络模型方法为:
对于每个智能体,基于actor-critic(行为者-评论者)结构,首先构造actor网络(策略网络),其输入为当前智能体的局部观测状态量,输出每个可调发电机的功率调度量;其次构造critic网络(估值网络),其输入为全体智能体的局部观测状态量及预测动作,该状态的预估价值。网络均由若干全连接层和ReLU激活函数层组成。
步骤3)应用分布式MADDPG算法进行训练的方法为:
(3.1)构造Worker(工作者)-Learner(学习者)分布式框架,包含若干个Worker,1个Learner和1个共享经验池。每个Worker中包含N个策略网络(对应N个智能体),负责并行地与环境交互。Leaner包含完整的N个actor-critic结构,负责从共享经验池中获取交互经验用于网络的训练。
(3.2)用Learner中的策略网络参数权重初始化所有Worker中的策略网络参数。
(3.3)对于每个Worker,重置环境获取新的初始潮流数据,智能体分别获取各自观测变量作为输入,分别输出发电机调度动作,将各个智能体的动作以算术平均的方式进行融合,传入环境执行。不同Worker通过多进程方式分布到不同CPU核上并行运算。
(3.4)执行动作后更新环境状态,依据定义的奖励函数反馈每个智能体的奖励值。将包含各智能体观测状态、动作、奖励值的交互记录存储到公共经验池中。
(3.5)重复执行步骤(3.3)、(3.4)直到达到最大预设次数。Worker每隔一定次数获取Learner中的策略网络参数更新自身的策略网络。
(3.6)对于Learner,重复地从经验池中随机采样一个批次的数据,学习并更新策略网络和估值网络。该过程与步骤(3.5)并行执行。
本发明提出了基于分布式多智能体强化学习的电网多断面功率自动控制方法,其优点在于:采用多智能体方法解决复杂的电网多断面功率控制问题,无需对复杂的电力系统建模,通过智能体自主与环境交互来学习发电机调度策略,实现了断面功率控制的自动化,相比基于专家知识的人工调整方法具有更强的自适应性;采用的多智能体强化学习方法相比单智能体方法具有更高的控制成功率;引入分布式训练框架,大幅度提升了智能体的训练效率。
附图说明
图1是本发明的总体流程图。
图2是分布式MADDPG框架的结构图。
具体实施方式
参照附图,进一步说明本发明:
一种基于分布式多智能体强化学习的电网多断面功率自动控制方法,其总体流程图参照图1,该方法包括以下步骤:
1)根据电网控制需要选取N个目标断面,并构建强化学习方法的环境、智能体、观测状态、动作、奖励函数等基本元素;
2)运行多断面功率控制任务交互环境,创造初始潮流数据集;
3)构造深度神经网络模型,应用MADDPG(多智能体深度确定性策略梯度)算法对决策智能体进行训练,引入分布式提高训练效率;
4)利用训练完成的智能体为多断面功率控制提供决策。
步骤1)的强化学习方法基本要素构建过程如下:
(1.1)构建以电力系统仿真环境作为智能体的交互环境,为智能体提供决策参考的电网各类属性、状态值。环境根据决策中的动作,修改电网中的相关电力参数,并进行潮流计算更新电网状态和断面功率计算。
(1.2)构建N个发电机调度策略智能体。智能体同时作为决策者和学习者,与环境交互来获得经验,并从中不断学习来获得最优策略。每个智能体负责监管一个目标断面,智能体之间通过合作与竞争不断学习到最优的全局策略。
(1.3)构建观测状态。状态变量反映某一时刻电力系统的潮流运行状态。以发电机有功功率、无功功率,负荷有功功率、无功功率和输电线路上有功功率作为当前系统特征。对任一智能体,可观测状态S包括公共状态Spub和专有状态Sspe,具体包含:
Figure GDA0003556140690000041
Figure GDA0003556140690000042
其中,SG代表发电机的状态量,包含发电机有功出力PG和无功出力QG;SL代表负荷的状态量,包含负荷的有功消耗PL和无功消耗QL;SAC代表交流线的状态量,包含交流线的有功功率PAC和无功功率QAC。专有状态Sspe包含目标断面的当前功率PC和目标功率Ptar
(1.4)构建基于目标功率距离和经验知识的智能体奖励函数,具体包括三类奖励函数:
距离奖励:根据断面当前目标值和目标值之间的差距给予负奖励。对于第i个智能体(关注第i个断面),其距离奖励公式为:
Figure GDA0003556140690000043
其中包括D(Mi)代表每个目标断面当前时刻功率与目标功率的距离
Figure GDA0003556140690000044
经验奖励:根据送端、受端发电机调整量是否平衡给予引导性奖励。其中平衡情况是指送端发电机组出力增加,手段发电机组出力减少的情况。
Figure GDA0003556140690000045
约束奖励:根据潮流计算是否收敛给予奖励(惩罚不收敛的情况)以及平衡节点的出力变化量给予奖励。
Figure GDA0003556140690000051
Figure GDA0003556140690000052
最终每个智能体i获得的奖励为
Figure GDA0003556140690000053
(1.5)构建发电机有功出力调整动作动作
Figure GDA0003556140690000054
其中,NG代表可调发电机的数量,A中的每一元素代表了每个可调发电机的有功出力调度变化量,对于单次调整动作,其元素大小限制在[-0.5,0.5]范围内。动作的执行则对是对各个可调发电机进行再调度,对于发电机j(1≤j≤NG),其有功出力Pj在调整后更新为P′j=Pj+aj。若发电机属于PQ节点类型,其无功出力Qj在调整后更新为
Figure GDA0003556140690000055
步骤2)的初始潮流数据集构造规则为:
(2.1)随机挑选M个负荷,负荷的有功功率和无功功率按10%的步长逐步增长增加,范围为初始值的1-4倍;
(2.2)随机挑选K个发电机,平均分配总体负荷增加量;
(2.3)筛选生成数据中潮流收敛的初始运行状态数据作为方法的训练数据
步骤3)构造深度神经网络模型方法为:
对于每个智能体,基于actor-critic(行为者-评论者)结构,首先构造actor网络(策略网络),其输入为当前智能体的局部观测状态量,输出每个可调发电机的功率调度量;其次构造critic网络(估值网络),其输入为全体智能体的局部观测状态量及预测动作,该状态的预估价值。网络均由若干全连接层和ReLU激活函数层组成。
步骤3)应用分布式MADDPG算法进行训练的方法为:
(3.1)构造Worker(工作者)-Learner(学习者)分布式框架,包含若干个Worker,1个Learner和1个共享经验池。每个Worker中包含N个策略网络(对应N个智能体),负责并行地与环境交互。Leaner包含完整的N个actor-critic结构,负责从共享经验池中获取交互经验用于网络的训练。
(3.2)用Learner中的策略网络参数权重初始化所有Worker中的策略网络参数。
(3.3)对于每个Worker,重置环境获取新的初始潮流数据,智能体分别获取各自观测变量作为输入,分别输出发电机调度动作,将各个智能体的动作以算术平均的方式进行融合,传入环境执行。不同Worker通过多进程方式分布到不同CPU核上并行运算。
(3.4)执行动作后更新环境状态,依据定义的奖励函数反馈每个智能体的奖励值。将包含各智能体观测状态、动作、奖励值的交互记录存储到公共经验池中。
(3.5)重复执行步骤(3.3)、(3.4)直到达到最大预设次数。Worker每隔一定次数获取Learner中的策略网络参数更新自身的策略网络。
(3.6)对于Learner,重复地从经验池中随机采样一个批次的数据,学习并更新策略网络和估值网络。该过程与步骤(3.5)并行执行。
通过多智能体与电力仿真环境交互,能够自主学习合适的用于复杂电网的多断面功率控制策略。首先根据电网控制的需要选取N个目标断面,并依此构建强化学习方法的环境、智能体、观测状态、动作、奖励函数等基本元素;其次运行多断面功率控制任务交互环境,创造初始潮流数据集;之后,为每个智能体构造基于深度神经网络的决策网络和估值网络,构建MADDPG(多智能体深度确定性策略梯度)模型并引入分布式方法进行训练自主学习最优控制策略;最后,应用训练完成的策略网络自动断面控制。本发明的优点在于,采用多智能体强化学习方法处理复杂的电网多断面功率控制问题,具有较高的控制成功率且无需专家经验,同时引入分布式方法大幅提升了智能体训练效率。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (4)

1.基于分布式多智能体强化学习的电网多断面功率控制方法,包括如下步骤:
1)根据电网控制需要选取N个目标断面,并构建强化学习方法的基本元素,包括环境、智能体、观测状态、动作、奖励函数;强化学习方法基本要素构建过程如下:
11)构建以电力系统仿真环境作为智能体的交互环境,为智能体提供决策参考的电网各类属性、状态值;环境根据决策中的动作,修改电网中的相关电力参数,并进行潮流计算更新电网状态和断面功率计算;
12)构建N个发电机调度策略智能体;智能体同时作为决策者和学习者,与环境交互来获得经验,并从中不断学习来获得最优策略;每个智能体负责监管一个目标断面,智能体之间通过合作与竞争不断学习到最优的全局策略;
13)构建观测状态;状态变量反映某一时刻电力系统的潮流运行状态;以发电机有功功率、无功功率,负荷有功功率、无功功率和输电线路上有功功率作为当前系统特征;对任一智能体,可观测状态S包括公共状态Spub和专有状态Sspe,具体包含:
Figure FDA0003556140680000011
Figure FDA0003556140680000012
其中,SG代表发电机的状态量,包含发电机有功出力PG和无功出力QG;SL代表负荷的状态量,包含负荷的有功消耗PL和无功消耗QL;SAC代表交流线的状态量,包含交流线的有功功率PAC和无功功率QAC;专有状态Sspe包含目标断面的当前功率PC和目标功率Ptar
14)构建基于目标功率距离和经验知识的智能体奖励函数,具体包括三类奖励函数:
距离奖励:根据断面当前目标值和目标值之间的差距给予负奖励;对于第i个智能体,其距离奖励公式为:
Figure FDA0003556140680000013
其中包括D(Mi)代表每个目标断面当前时刻功率与目标功率的距离;
Figure FDA0003556140680000014
经验奖励:根据送端、受端发电机调整量是否平衡给予引导性奖励;其中平衡情况是指送端发电机组出力增加,受端 发电机组出力减少的情况;
Figure FDA0003556140680000015
约束奖励:根据潮流计算是否收敛给予奖励(惩罚不收敛的情况)以及平衡节点的出力变化量给予奖励;
Figure FDA0003556140680000016
Figure FDA0003556140680000017
最终每个智能体i获得的奖励为
Figure FDA0003556140680000018
15)构建发电机有功出力调整动作动作
Figure FDA0003556140680000021
其中,NG代表可调发电机的数量,A中的每一元素代表了每个可调发电机的有功出力调度变化量,对于单次调整动作,其元素大小限制在[-0.5,0.5]范围内;动作的执行则对是对各个可调发电机进行再调度,对于发电机j,1≤j≤NG,其有功出力Pj在调整后更新为P′j=Pj+
Figure DEST_PATH_IMAGE002
;若发电机属于PQ节点类型,其无功出力Qj在调整后更新为
Figure FDA0003556140680000022
2)运行多断面功率控制任务交互环境,创造初始潮流数据集;
3)构造深度神经网络模型,应用多智能体深度确定性策略梯度算法,即MADDPG算法,对决策智能体进行训练,引入分布式提高训练效率;
4)利用训练完成的智能体为多断面功率控制提供决策。
2.如权利要求1所述的电网多断面功率控制方法,其特征在于步骤2)的初始潮流数据集构造规则如下:
21)随机挑选M个负荷,负荷的有功功率和无功功率按10%的步长逐步增长增加,范围为初始值的1-4倍;
22)随机挑选K个发电机,平均分配总体负荷增加量;
23)筛选生成数据中潮流收敛的初始运行状态数据作为方法的训练数据。
3.如权利要求1所述的电网多断面功率控制方法,其特征在于步骤3)的构造深度神经网络模型具体包括:
对于每个智能体,基于行为者-评论者结构,即actor-critic结构,首先构造actor网络,即策略网络,其输入为当前智能体的局部观测状态量,输出每个可调发电机的功率调度量;其次构造critic网络,即估值网络,其输入为全体智能体的局部观测状态量及预测动作,该状态的预估价值;网络均由若干全连接层和ReLU激活函数层组成。
4.如权利要求1所述的电网多断面功率控制方法,其特征在于步骤3)的应用分布式MADDPG算法训练过程如下:
31)构造工作者Worker-学习者Learner分布式框架,包含若干个Worker,1个Learner和1个共享经验池;每个Worker中包含N个策略网络,即对应N个智能体,负责并行地与环境交互;Leaner包含完整的N个actor-critic结构,负责从共享经验池中获取交互经验用于网络的训练;
32)用Learner中的策略网络参数权重初始化所有Worker中的策略网络参数;
33)对于每个Worker,重置环境获取新的初始潮流数据,智能体分别获取各自观测变量作为输入,分别输出发电机调度动作,将各个智能体的动作以算术平均的方式进行融合,传入环境执行;不同Worker通过多进程方式分布到不同CPU核上并行运算;
34)执行动作后更新环境状态,依据定义的奖励函数反馈每个智能体的奖励值;将包含各智能体观测状态、动作、奖励值的交互记录存储到公共经验池中;
35)重复执行33)、34)直到达到最大预设次数;Worker每隔一定次数获取Learner中的策略网络参数更新自身的策略网络;
36)对于Learner,重复地从经验池中随机采样一个批次的数据,学习并更新策略网络和估值网络;该过程与35)并行执行。
CN202011451510.2A 2020-12-10 2020-12-10 基于分布式多智能体强化学习的电网多断面功率控制方法 Active CN112615379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011451510.2A CN112615379B (zh) 2020-12-10 2020-12-10 基于分布式多智能体强化学习的电网多断面功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011451510.2A CN112615379B (zh) 2020-12-10 2020-12-10 基于分布式多智能体强化学习的电网多断面功率控制方法

Publications (2)

Publication Number Publication Date
CN112615379A CN112615379A (zh) 2021-04-06
CN112615379B true CN112615379B (zh) 2022-05-13

Family

ID=75232995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011451510.2A Active CN112615379B (zh) 2020-12-10 2020-12-10 基于分布式多智能体强化学习的电网多断面功率控制方法

Country Status (1)

Country Link
CN (1) CN112615379B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113126498A (zh) * 2021-04-17 2021-07-16 西北工业大学 基于分布式强化学习的优化控制系统和控制方法
CN113141012B (zh) * 2021-04-24 2023-04-18 西安交通大学 电网潮流调控决策推理方法
CN113269329B (zh) * 2021-04-30 2024-03-19 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113315131A (zh) * 2021-05-18 2021-08-27 国网浙江省电力有限公司 一种电网运行方式智能调节方法及系统
CN113378456B (zh) * 2021-05-21 2023-04-07 青海大学 多园区综合能源调度方法和系统
CN113363997B (zh) * 2021-05-28 2022-06-14 浙江大学 基于多时间尺度多智能体深度强化学习无功电压控制方法
CN113485107B (zh) * 2021-07-05 2023-08-22 清华大学深圳国际研究生院 基于一致性约束建模的强化学习机器人控制方法及系统
US11892809B2 (en) * 2021-07-26 2024-02-06 Veritone, Inc. Controlling operation of an electrical grid using reinforcement learning and multi-particle modeling
CN113852080A (zh) * 2021-08-25 2021-12-28 中国电力科学研究院有限公司 一种智能电网的潮流优化方法、系统、设备及存储介质
CN113872210A (zh) * 2021-10-14 2021-12-31 广东电网有限责任公司 一种电网关键断面潮流校核方法及装置
CN113991752B (zh) * 2021-10-28 2023-08-04 中国电力科学研究院有限公司 一种电网准实时智能控制方法及系统
CN113891289B (zh) * 2021-11-02 2023-05-02 中国联合网络通信集团有限公司 功率调整方法、服务器和终端
CN114048903B (zh) * 2021-11-11 2024-03-26 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114139354B (zh) * 2021-11-12 2024-05-21 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统
CN114123178B (zh) * 2021-11-17 2023-12-19 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN114156893B (zh) * 2021-12-02 2022-07-26 中国电力科学研究院有限公司 面向新能源消纳场景的电网调度方法、装置、设备及介质
CN114362188B (zh) * 2022-01-07 2023-06-02 天津大学 基于深度强化学习的多端智能软开关电压控制方法
CN115241885B (zh) * 2022-07-26 2022-12-20 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115660324B (zh) * 2022-10-09 2023-06-13 浙江大学 基于图强化学习的电网多断面越限调控方法和系统
CN115793445B (zh) * 2022-11-16 2023-09-05 重庆大学 一种基于多智能体深度强化学习的混合动力汽车控制方法
CN116226662B (zh) * 2023-01-05 2024-02-09 哈尔滨工业大学(深圳) 一种多智能体协同强化学习方法、终端及存储介质
CN116345578B (zh) * 2023-05-26 2023-09-15 南方电网数字电网研究院有限公司 基于深度确定性策略梯度的微电网运行优化调度方法
CN117833353A (zh) * 2023-11-30 2024-04-05 国家电网有限公司华东分部 电网有功控制智能体的仿真训练方法、装置及设备
CN117578466B (zh) * 2024-01-17 2024-04-05 国网山西省电力公司电力科学研究院 一种基于优势函数分解的电力系统暂态稳定预防控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443447A (zh) * 2019-07-01 2019-11-12 中国电力科学研究院有限公司 一种基于深度强化学习调整电力系统潮流的方法及系统
CN111523737A (zh) * 2020-05-29 2020-08-11 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法
CN111626539A (zh) * 2020-03-03 2020-09-04 中国南方电网有限责任公司 一种基于q强化学习的电网运行断面动态生成方法
CN111864743A (zh) * 2020-07-29 2020-10-30 全球能源互联网研究院有限公司 一种电网调度控制模型的构建方法及电网调度控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586974B2 (en) * 2018-09-14 2023-02-21 Honda Motor Co., Ltd. System and method for multi-agent reinforcement learning in a multi-agent environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443447A (zh) * 2019-07-01 2019-11-12 中国电力科学研究院有限公司 一种基于深度强化学习调整电力系统潮流的方法及系统
CN111626539A (zh) * 2020-03-03 2020-09-04 中国南方电网有限责任公司 一种基于q强化学习的电网运行断面动态生成方法
CN111523737A (zh) * 2020-05-29 2020-08-11 四川大学 深度q网络驱动的电力系统运行方式自动趋优调整方法
CN111864743A (zh) * 2020-07-29 2020-10-30 全球能源互联网研究院有限公司 一种电网调度控制模型的构建方法及电网调度控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning-Based Tie-Line Power Adjustment Method for Power System Operation State Calculation;Huating Xu等;《IEEE Access》;20191024;全文 *
Distributed-Observer-Based Output Regulation of Heterogeneous Nonlinear Multi-Agent Systems;Xi Yang等;《IEEE Transactions on Automatic Control》;20160119;全文 *
多智能体深度强化学习研究综述;孙彧等;《计算机工程与应用》;20200214;第13-24页 *

Also Published As

Publication number Publication date
CN112615379A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
Wang et al. A data-driven multi-agent autonomous voltage control framework using deep reinforcement learning
CN111242443B (zh) 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
CN113363997A (zh) 基于多时间尺度多智能体深度强化学习无功电压控制方法
CN110518580B (zh) 一种考虑微网主动优化的主动配电网运行优化方法
CN114217524B (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN103683337B (zh) 一种互联电网cps指令动态分配优化方法
CN113935463A (zh) 一种基于人工智能控制方法的微电网控制器
CN104037761B (zh) 一种agc功率多目标随机优化分配方法
CN111555297B (zh) 一种具有三态能源单元的统一时间尺度电压控制方法
CN106026084A (zh) 一种基于虚拟发电部落的agc功率动态分配方法
Yu et al. Hierarchical correlated Q-learning for multi-layer optimal generation command dispatch
CN114139354A (zh) 基于强化学习的电力系统仿真调度方法及系统
CN103904641A (zh) 基于相关均衡强化学习的孤岛微电网智能发电控制方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN116169776A (zh) 电力系统云边协同人工智能调控方法、系统、介质及设备
Cominesi et al. A multi-layer control scheme for microgrid energy management
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN117039981A (zh) 一种面向含新能源的大规模电网优化调度方法、装置、存储介质
CN116154788A (zh) 一种电压控制方法、装置、终端设备及存储介质
Sun et al. Hybrid reinforcement learning for power transmission network self-healing considering wind power
CN114566971A (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
CN115133540B (zh) 一种配电网无模型的实时电压控制方法
CN114707613B (zh) 基于分层的深度策略梯度网络的电网调控方法
CN115333111A (zh) 多区域电网协同优化方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant