CN115085202A - 电网多区域智能功率协同优化方法、装置、设备及介质 - Google Patents

电网多区域智能功率协同优化方法、装置、设备及介质 Download PDF

Info

Publication number
CN115085202A
CN115085202A CN202210887179.1A CN202210887179A CN115085202A CN 115085202 A CN115085202 A CN 115085202A CN 202210887179 A CN202210887179 A CN 202210887179A CN 115085202 A CN115085202 A CN 115085202A
Authority
CN
China
Prior art keywords
power grid
power
intelligent
agent
evaluator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210887179.1A
Other languages
English (en)
Inventor
陆亚楠
杨胜春
李亚平
毛文博
耿建
李峰
王勇
朱克东
严嘉豪
刘建涛
钱甜甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210887179.1A priority Critical patent/CN115085202A/zh
Publication of CN115085202A publication Critical patent/CN115085202A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种电网多区域智能功率协同优化方法、装置、设备及介质。方法包括:将电网分为若干个区域,每个区域内设置有预训练好的智能体;其中,电网的每个区域内均接入有分布式可调节资源;获取电网状态的观测量;将电网状态的观测量输入到预训练好的智能体中,得到输出结果;将输出结果生成电网中分布式可调节资源的调节指令。本发明将电网分为若干个区域,每个区域内设置预训练好的智能体,通过智能体来输出分布式可调节设备的控制指令,所构建的多智能体能够显著提升调度的决策速度效率与质量,提高新能源消纳率,保障系统的安全稳定性;智能体可利用各自的观测量进行分散决策,可以适应不同决策主体观测量首先的现实量测条件。

Description

电网多区域智能功率协同优化方法、装置、设备及介质
技术领域
本发明属于电网运行优化技术领域,具体涉及一种电网多区域智能功率协同优化方法、装置、设备及介质。
背景技术
近年来,分布式光伏、电动汽车、温控负荷等灵活性资源大量接入电网。这些灵活性资源具有出力小,波动性与随机性大的特点。大量的灵活性负荷接入电网,增加了电网复杂性,给电力系统调度控制带来了很大的挑战。目前,传统的集中式调度是目前电力行业运用最为广泛的方法。这种方法将所有信息集中在调度中心进行统一运算,具有单点故障率高、模型复杂、计算成本大等缺点,难以应用在短时间尺度下的电网调度。在此背景下,为了减轻电网调度的压力,将配电网分成多个区域,研究以区域内灵活性资源自发自用,新能源就地消纳;区域间相互协同,减少主网调度压力为目的的电力系统调度控制问题很有必要。
面向海量分布式可调节资源,通过聚合,形成多个利益主体,不同主体依据自身观测的局部信息,通过合作,完成控制区域内的功率调节,实现功率平衡、电压稳定、频率稳定等电网调度控制目标,是源网荷储协同互动,提升分布式新能源消纳的重要手段。为了实现分布式资源的分区就地消纳,跨区协同互动,将配电网分成多个区域,研究以区域内灵活性资源自发自用,新能源就地消纳;区域间相互协同,减少主网调度压力为目的的电力系统调度控制问题很有必要。在多区域互联的电力系统中,采用分区域控制的方法,实现各个分区的功率平衡,同时兼顾对相邻区域的功率支援,从而实现整个交流电力系统的功率平衡。
目前常用的调度控制手段主要依赖传统数学优化模型。其中,确定性优化模型将负荷预测值、新能源出力预测值作为实际出力,由于负荷和新能源天然具有的波性、随机性及随机性,其预测值往往不准确,这使确定性优化模型的优化结果与预期值偏差较大。不确定优化模型包括鲁棒优化法等,其模型复杂度高、计算时间长,难以应用于短时间尺度的电网控制。
发明内容
本发明的目的在于提供一种电网多区域智能功率协同优化方法、装置、设备及介质。以解决现有技术中采用传统数学优化模型进行电网调度,导致复杂度高、计算时间长,难以应用于短时间尺度的电网控制的问题。
为了实现上述目的,本发明采用如下技术方案:
本发明的一方面,提供了一种电网多区域智能功率协同优化方法,包括如下步骤:
获取电网状态的观测量;
将所述电网状态的观测量输入到所述预训练好的智能体中,得到输出结果;其中,电网分为若干个区域,每个区域内设置有预训练好的智能体,每个所述区域内均接入有分布式可调节资源;
将所述输出结果生成电网中分布式可调节资源的调节指令。
作为本发明可选的一种方案,将所述输出结果生成电网中分布式可调节资源的调节指令的步骤之前,还包括步骤:
对所述输出结果进行安全校验;
当安全校验通过,将所述输出结果用于生成电网中分布式可调节资源的调节指令的步骤中;
否则,对所述输出结果进行校正,将校正后的输出结果用于生成电网中分布式可调节资源的调节指令的步骤中。
作为本发明可选的一种方案,所述每个区域内设置有所述预训练好的智能体的步骤中,所述智能体的训练方式如下:
初始化电网中所有区域的智能体的参数;其中,所述智能体包括动作器和评价器;
将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互,以累计经验;
利用MADDPG算法对所有累积经验后的智能体进行集中训练,计算策略损失以更新动作器和评价器;
依据更新后的动作器和评价器更新智能体的网络参数,得到训练好的智能体。
作为本发明可选的一种方案,所述初始化电网中所有区域的智能体的参数的步骤,具体包括:
基于预设的调度动作数据库训练所述智能体,得到所述智能体预优化后的网络参数;
将所述预优化后的网络参数复制到电网中所有区域的智能体,完成智能体参数的初始化。
作为本发明可选的一种方案,所述计算策略损失以更新动作器和评价器的步骤中,依据下式更新评价器θi
Figure BDA0003766240470000031
Figure BDA0003766240470000032
其中,Q为评价器的损失函数,
Figure BDA0003766240470000033
为评价器的学习率,
Figure BDA0003766240470000034
为对应状态
Figure BDA0003766240470000035
和动作
Figure BDA0003766240470000036
的及时奖励;N为训练过程中从经验缓冲池中抽取的样本数,
Figure BDA0003766240470000037
为状态
Figure BDA0003766240470000038
及动作
Figure BDA0003766240470000039
的价值函数;
Figure BDA00037662404700000310
为状态
Figure BDA00037662404700000311
及动作
Figure BDA00037662404700000312
的价值函数,γ为折扣因子。
作为本发明可选的一种方案,所述计算策略损失以更新动作器和评价器的步骤中,依据下式更新动作器φi
Figure BDA00037662404700000313
Figure BDA00037662404700000314
其中,
Figure BDA00037662404700000315
为动作器的损失函数,N为训练过程中从经验缓冲池中抽取的样本数,
Figure BDA00037662404700000316
为此智能体动作器的学习率;
Figure BDA00037662404700000317
为动作器参数为φ情况下的动作价值;θ为评价器参数。
作为本发明可选的一种方案,所述依据更新后的动作器和评价器更新智能体的网络参数的步骤中,智能体的网络参数包括目标评价网络的参数和目标动作网络的参数,依据下式更新智能体的网络参数:
θ‘i←τθ‘i+(1-τ)θi
φ‘i←τφ‘i+(1-τ)φi
其中,θ‘i是目标评价网络的参数,φ‘i是目标动作网络的参数,θi是评价器,φi是动作器。
本发明的二方面,提供了一种电网多区域智能功率协同优化装置,包括:
获取模块,用于获取电网状态的观测量。
结果生成模块,用于将所述电网状态的观测量输入到所述预训练好的智能体中,得到输出结果。其中,电网分为若干个区域,每个区域内设置有所述预训练好的智能体,每个所述区域内均接入有分布式可调节资源。
指令生成模块,用于将所述输出结果生成电网中分布式可调节资源的调节指令。
安全校验模块,用于对所述输出结果进行安全校验。
所述结果生成模块中,所述预训练好的智能体的训练方式如下:
初始化电网中所有区域的智能体的参数;其中,所述智能体包括动作器和评价器;
将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互,以累计经验;
利用MADDPG算法对所有累积经验后的智能体进行集中训练,计算策略损失以更新动作器和评价器;
依据更新后的动作器和评价器更新智能体的网络参数,得到训练好的智能体。
本发明的三方面,提供了一种电子设备,包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序,以实现上述的电网多区域智能功率协同优化方法。
本发明的四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现上述的电网多区域智能功率协同优化方法。
与现有技术相比较,本发明的有益效果如下:
本发明提供的多区域智能功率协同优化方法,将电网分为若干个区域,每个区域内设置有预训练好的智能体,通过智能体来输出分布式可调节设备的控制指令,所构建的多智能体能够显著提升调度的决策速度效率与质量,提高新能源消纳率,保障系统的安全稳定性;智能体可利用各自的观测量进行分散决策,可以适应不同决策主体观测量首先的现实量测条件;此外,神经网络训练方法易于理解、扩展性强,适用于地(县)层级的调度系统,具有较强的实用性。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例多区域智能功率协同优化方法流程示意图。
图2为本发明实施例中智能体的训练方式方法流程示意图。
图3为本发明实施例中预训练智能体的方法流程示意图。
图4为本发明实施例中基于MADDPG的多区域智能功率协同优化逻辑框图。
图5为本发明实施例中基于MADDPG的多区域智能功率协同优化原理图。
图6为本发明实施例一种多区域智能功率协同优化装置的结构框图。
图7为本发明实施例一种电子设备的结构框图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
实施例1
本发明实施例1提供了一种多区域智能功率协同优化方法,基于多智能体深度确定性策略梯度算法,首先将电网的每一个区域设置一个智能体,获取本区域状态的观测量;然后将本区域状态的观测量输入到训练好的智能体中;最后将训练后的智能体的输出结果作为机组调节指令,对本区域中的分布式可调节资源进行功率调节,完成电网的实时控制。
需要说明的是,本方案中所提及的分布式可调节资源可以包括:传统机组例如火电机组、新能源机组如风电和光伏、储能等分布式电源,以及负荷等。
作为示例,本实施例中的观测量可以包括当前时段机组出力、下个时段负荷有功功率预测值、下个时段相对于当前时段负荷有功功率变化值、机组出力可调范围上界、机组出力可调范围下界、该区域功率缺口等。
如图1、图4和图5所示,一种电网多区域智能功率协同优化方法,包括如下步骤:
S1、将电网分为若干个区域,每个区域内设置有预训练好的智能体;其中,电网的每个所述区域内均接入有分布式可调节资源。
如图2所示,本方案中智能体的训练方式如下:
S11、初始化电网中所有区域的智能体的参数。目的是为了仿真传统优化的行为,具体来说,是使用调度动作数据库来预训练智能体,以调整智能体的参数,通过复制此经过预先优化的网络参数来初始化智能体的网络参数。
如图3所示,本方案中,在利用MADDPG算法对所有累积经验后的智能体进行集中训练之前,利用传统优化算法进行预训练,以初始化电网中所有区域的智能体的参数,方法如下:
S110、建立机会约束优化模型:利用机会约束理论描述分布式电源出力、负荷预测误差等多种不确定性因素,建立机会约束优化模型作为传统优化模型。
S111、生成调度动作数据库:基于机会约束优化模型生成调度动作命令,并将其保存在调度动作数据库中。
S112、基于生成的调度动作数据库训练所述智能体,得到智能体预优化后的网络参数。
S113、将所述预优化后的网络参数复制到电网中其他的所有区域的智能体,完成智能体参数的初始化。
S12、将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互,以累计经验。
本方案中,构建区域电力系统数字仿真环境的方法如下:
S121、建立仿真环境数据库
本方案中,仿真环境数据库中包含的数据类型为:历史实际负荷、历史传统机组实际出力变化曲线、历史储能实际出力变化曲线、历史新能源实际出力变化曲线、历史新能源可发电容量变化曲线等。
S122、搭建合理的电网拓扑及其电气参数
本方案中,依据实际需求,设计合理的电网的拓扑及其电气参数,考虑电网潮流约束、区域耦合约束、机组爬坡约束、机组出力上下限约束等约束条件,构建以潮流计算为核心的环境迭代更新函数。
S123、构建合理的奖励函数
本方案中,基于仿真环境数据库和电网拓扑,以区域内灵活性资源自发自用、新能源就地消纳、区域间相互协同、减少主网调度压力为目的,构建多区域电力系统数字仿真环境的奖励函数。
具体来说,多区域电力系统数字仿真环境的奖励函数由三部分组成:新能源消纳率,机组运行费用和不平衡误差。
S13、利用MADDPG算法对所有累积经验后的智能体进行集中训练,计算策略损失以更新动作器和评价器。
本方案中,以MADDPG算法网络结构构建N个区域的智能体,智能体包括动作器和评价器。动作器的输入为当前智能体的局部观测状态量,输出的动作为本区域内可调资源的发电量;评价器的输入为全体智能体的局部观测量及当前动作值,输出为该动作的预估价值q。
本方案中,计算策略损失的原理为:动作器计算当前时段动作,并在数字仿真环境中执行动作a,依据定义的奖励函数反馈每个智能体的奖励值,然后利用环境迭代更新函数更新得到下一步状态。
需要说明的是,本方案中奖励值r由以下三部分组成:
(1)新能源机组消纳量r1(正奖励)
Figure BDA0003766240470000071
其中,
Figure BDA0003766240470000072
为该区域的新能源机组j在t时段的有功出力;
Figure BDA0003766240470000073
为该区域的新能源机组i在t时段的有功出力上界;Nw为该区域总的新能源场站数量;N为智能体的数量。
(2)机组运行费用r2(负奖励)
Figure BDA0003766240470000074
其中,
Figure BDA0003766240470000075
为该区域中的第i个常规机组(如火电机组)在t时段的有功出力;
Figure BDA0003766240470000076
为其发电成本;
Figure BDA0003766240470000077
为该区域总的常规机组数量;N为智能体的数量。
(3)功率不平衡误差r3(负奖励)
Figure BDA0003766240470000078
其中,N为智能体的数量;
Figure BDA0003766240470000079
为该区域总的常规机组数量;
Figure BDA00037662404700000710
为该区域中的第i个常规机组在t时段的有功出力;Nw为该区域总的新能源场站数量;
Figure BDA00037662404700000711
为该区域的新能源机组j在t时段的有功出力;
Figure BDA00037662404700000712
为第n个区域内负荷节点的数量;
Figure BDA00037662404700000713
为第n个区域内第d个负荷节点上的负荷。
本方案中,智能体进行集中训练时,先从经验缓存池中抽取N个样本,然后利用目标网络获取下一时段动作
Figure BDA00037662404700000714
所抽取的样本如下:
Figure BDA00037662404700000715
其中,
Figure BDA00037662404700000716
为智能体在t时刻机组i的状态,
Figure BDA00037662404700000717
为智能体在t+1时刻机组i的状态,
Figure BDA00037662404700000718
为智能体在t时刻机组i的动作,
Figure BDA00037662404700000719
为对应状态
Figure BDA00037662404700000720
和动作
Figure BDA00037662404700000721
的及时奖励。
依据下式计算每一个智能体评价器的损失函数Q并使用梯度更新评价器θi,即:
Figure BDA0003766240470000081
Figure BDA0003766240470000082
其中,Q为评价器的损失函数,
Figure BDA0003766240470000083
为评价器的学习率,
Figure BDA0003766240470000084
为对应状态
Figure BDA0003766240470000085
和动作
Figure BDA0003766240470000086
的及时奖励;N为训练过程中从经验缓冲池中抽取的样本数,
Figure BDA0003766240470000087
为状态
Figure BDA0003766240470000088
及动作
Figure BDA0003766240470000089
的价值函数;
Figure BDA00037662404700000810
为状态
Figure BDA00037662404700000811
及动作
Figure BDA00037662404700000812
的价值函数,γ为折扣因子,可以是预先给定的。
根据评价器构建动作器损失函数
Figure BDA00037662404700000813
并使用其梯度更新动作器φi,即:
Figure BDA00037662404700000814
Figure BDA00037662404700000815
其中,
Figure BDA00037662404700000816
为动作器的损失函数,N为训练过程中从经验缓冲池中抽取的样本数,
Figure BDA00037662404700000817
为此智能体动作器的学习率;
Figure BDA00037662404700000818
为动作器参数为φ情况下的动作价值;θ为评价器参数。
S14、依据更新后的动作器和评价器更新智能体的网络参数,得到训练好的智能体。
智能体的网络参数包括目标评价网络的参数和目标动作网络的参数,依据下式更新智能体的网络参数:
θ‘i←τθ‘i+(1-τ)θi
φ‘i←τφ‘i+(1-τ)φi
其中,θ‘i是目标评价网络的参数,φ‘i是目标动作网络的参数,θi是评价器,φi是动作器。
需要说明的是,更新智能体的网络参数所采用的方法为迭代更新,当达到最大迭代次数或者满足预设条件时,结束训练,得到最终训练好的智能体。
S2、初始化电网运行环境,获取新的初始潮流数据和电网状态的观测量。
本方案中,智能体分别获取各自观测变量作为输入;
其中,每一个智能体的状态s∈S定义为:
s=(P,W,Phigh,Plow,t)
其中,P是由智能体包含节点有功注入向量
Figure BDA0003766240470000091
组成的矩阵,W是由智能体包含节点节点无功注入向量
Figure BDA0003766240470000092
组成的矩阵,Phigh是智能体包含的机组出力可调范围上限
Figure BDA0003766240470000093
组成的矩阵,Plow是智能体包含的机组出力可调范围下限
Figure BDA0003766240470000094
组成的矩阵;t是每一个训练周期内的时间步长。需要说明的是,观测变量的数据类型可以和仿真环境数据库中的数据类型一致,区别为仿真环境数据库为历史数据,观测变量的数据为当前数据。
S3、将所述电网状态的观测量输入到所述预训练好的智能体中,得到输出结果。
S4、对所述输出结果进行安全校验;当安全校验通过,将所述输出结果生成电网中分布式可调节资源的调节指令;否则,对所述输出结果进行校正,将校正后的输出结果生成电网中分布式可调节资源的调节指令。
本发明实施例1提供的电网多区域智能功率协同优化方法,将每一个区域视为一个智能体;通过传统优化模型的结果进行一个简单的模仿学习来适当地预优化智能体的参数;将智能体与多区域电力系统数字仿真环境进行交互;累计到一定经验后,利用MADDPG算法对智能体进行集中训练,计算策略损失,更新网络参数;训练结束后,将电网状态的观测量输入到训练后的智能体中,将训练后的智能体的输出结果作为机组调节指令对电网中的各机组进行调节,以实现多区域智能功率协同。
需要说明的是,多智能体深度确定性策略梯度算法(Multi-agent deepdeterministic policy gradient):是一种针对多智能体连续动作确定性策略学习算法,具有集中式训练,分布式执行的特点。每一个智能体的观测量不同,因此可以适应不完全信息条件下的多决策主体合作对抗。本发明所采用的多智能体深度强化学习算法通过智能体与环境之间的交互获得奖励,每个智能体拥有自己的奖励函数,以最大奖励为目标提升自身策略。该方法立足于随机变化环境,兼具响应速度快、考虑长效收益等优点。多智能体深度确定性策略梯度算法(MADDPG)的特点是集中训练和分散执行,智能体一方面在互相通信的基础上获取全局信息进行集中式训练,然后根据各自的部分观测值独立分散执行策略,该模式最大的优点是允许在训练时加入额外的信息(如环境的全局状态、动作或者回报),在执行阶段这些信息无法获取,这使得神经网络训练时充分利用数据,实现快速收敛,降低实际运行中对数据的要求,提高实用性。
实施例2
如图6所示,一种电网多区域智能功率协同优化装置,包括:
获取模块,用于获取电网状态的观测量。
结果生成模块,用于将所述电网状态的观测量输入到所述预训练好的智能体中,得到输出结果。其中,电网分为若干个区域,每个区域内设置有所述预训练好的智能体,每个所述区域内均接入有分布式可调节资源。
所述结果生成模块中,所述预训练好的智能体的训练方式如下:
初始化电网中所有区域的智能体的参数;其中,所述智能体包括动作器和评价器;
具体包括:基于预设的调度动作数据库训练所述智能体,得到所述智能体预优化后的网络参数;将所述预优化后的网络参数复制到电网中所有区域的智能体,完成智能体参数的初始化。
将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互,以累计经验。
利用MADDPG算法对所有累积经验后的智能体进行集中训练,计算策略损失以更新动作器和评价器。
依据下式更新评价器θi
Figure BDA0003766240470000101
Figure BDA0003766240470000102
其中,Q为评价器的损失函数,
Figure BDA0003766240470000103
为评价器的学习率,
Figure BDA0003766240470000104
为对应状态
Figure BDA0003766240470000105
和动作
Figure BDA0003766240470000106
的及时奖励;N为训练过程中从经验缓冲池中抽取的样本数,
Figure BDA0003766240470000107
为状态
Figure BDA0003766240470000108
及动作
Figure BDA0003766240470000109
的价值函数;
Figure BDA00037662404700001010
为状态
Figure BDA00037662404700001011
及动作
Figure BDA00037662404700001012
的价值函数。
依据下式更新动作器φi
Figure BDA00037662404700001013
Figure BDA00037662404700001014
其中,
Figure BDA00037662404700001015
为动作器的损失函数,N为训练过程中从经验缓冲池中抽取的样本数,
Figure BDA00037662404700001016
为此智能体动作器的学习率;
Figure BDA0003766240470000111
为动作器参数为φ情况下的动作价值;θ为评价器参数。
依据更新后的动作器和评价器更新智能体的网络参数,得到训练好的智能体。
依据下式更新智能体的网络参数:
θ‘i←τθ‘i+(1-τ)θi
φ‘i←τφ‘i+(1-τ)φi
其中,θ‘i是目标评价网络的参数,φ‘i是目标动作网络的参数,θi是评价器,φi是动作器。
指令生成模块,用于将所述输出结果生成电网中分布式可调节资源的调节指令。
安全校验模块,用于对所述输出结果进行安全校验;当安全校验通过时,将所述输出结果用于生成电网中分布式可调节资源的调节指令的步骤;当安全校验不通过时,对所述输出结果进行校正,将校正后的输出结果用于生成电网中分布式可调节资源的调节指令的步骤。
实施例3
如图7所示,本发明还提供一种用于实现电网多区域智能功率协同优化方法的电子设备100;电子设备100包括存储器101、至少一个处理器102、存储在存储器101中并可在至少一个处理器102上运行的计算机程序103及至少一条通讯总线104。存储器101可用于存储计算机程序103,处理器102通过运行或执行存储在存储器101内的计算机程序,以及调用存储在存储器101内的数据,实现实施例1电网多区域智能功率协同优化方法步骤。
存储器101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据)等。此外,存储器101可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
至少一个处理器102可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器102可以是微处理器或者该处理器102也可以是任何常规的处理器等,处理器102是电子设备100的控制中心,利用各种接口和线路连接整个电子设备100的各个部分。
电子设备100中的存储器101存储多个指令以实现一种电网多区域智能功率协同优化方法,处理器102可执行多个指令从而实现:
获取电网状态的观测量;
将所述电网状态的观测量输入到所述预训练好的智能体中,得到输出结果;其中,电网分为若干个区域,每个区域内设置有预训练好的智能体,每个所述区域内均接入有分布式可调节资源;
将所述输出结果生成为电网中分布式可调节资源的调节指令。
实施例4
电子设备100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器及只读存储器(ROM,Read-Only Memory)。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (11)

1.一种电网多区域智能功率协同优化方法,其特征在于,包括如下步骤:
获取电网状态的观测量;
将所述电网状态的观测量输入到所述预训练好的智能体中,得到输出结果;其中,电网分为若干个区域,每个区域内设置有所述预训练好的智能体,每个所述区域内均接入有分布式可调节资源;
将所述输出结果生成为电网中分布式可调节资源的调节指令。
2.根据权利要求1所述的电网多区域智能功率协同优化方法,其特征在于,将所述输出结果生成电网中分布式可调节资源的调节指令的步骤之前,还包括步骤:
对所述输出结果进行安全校验;
当安全校验通过时,将所述输出结果用于生成电网中分布式可调节资源的调节指令的步骤;
当安全校验不通过时,对所述输出结果进行校正,将校正后的输出结果用于生成电网中分布式可调节资源的调节指令的步骤。
3.根据权利要求1所述的电网多区域智能功率协同优化方法,其特征在于,所述每个区域内设置有所述预训练好的智能体的步骤中,所述智能体的训练方式如下:
初始化电网中所有区域的智能体的参数;其中,所述智能体包括动作器和评价器;
将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互,以累计经验;
利用MADDPG算法对所有累积经验后的智能体进行集中训练,计算策略损失以更新动作器和评价器;
依据更新后的动作器和评价器更新智能体的网络参数,得到训练好的智能体。
4.根据权利要求3所述的电网多区域智能功率协同优化方法,其特征在于,所述初始化电网中所有区域的智能体的参数的步骤,具体包括:
基于预设的调度动作数据库训练所述智能体,得到所述智能体预优化后的网络参数;
将所述预优化后的网络参数复制到电网中所有区域的智能体,完成智能体参数的初始化。
5.根据权利要求3所述的电网多区域智能功率协同优化方法,其特征在于,所述计算策略损失以更新动作器和评价器的步骤中,依据下式更新评价器θi
Figure FDA0003766240460000021
Figure FDA0003766240460000022
其中,Q为评价器的损失函数,
Figure FDA0003766240460000023
为评价器的学习率,
Figure FDA0003766240460000024
为对应状态
Figure FDA0003766240460000025
和动作
Figure FDA0003766240460000026
的及时奖励;N为训练过程中从经验缓冲池中抽取的样本数,
Figure FDA0003766240460000027
为状态
Figure FDA0003766240460000028
及动作
Figure FDA0003766240460000029
的价值函数;
Figure FDA00037662404600000210
为状态
Figure FDA00037662404600000211
及动作
Figure FDA00037662404600000212
的价值函数,γ为折扣因子。
6.根据权利要求5所述的电网多区域智能功率协同优化方法,其特征在于,所述计算策略损失以更新动作器和评价器的步骤中,依据下式更新动作器φi
Figure FDA00037662404600000213
Figure FDA00037662404600000214
其中,
Figure FDA00037662404600000215
为动作器的损失函数,N为训练过程中从经验缓冲池中抽取的样本数,
Figure FDA00037662404600000216
为此智能体动作器的学习率;
Figure FDA00037662404600000217
为动作器参数为φ情况下的动作价值;θ为评价器参数。
7.根据权利要求6所述的电网多区域智能功率协同优化方法,其特征在于,所述依据更新后的动作器和评价器更新智能体的网络参数的步骤中,智能体的网络参数包括目标评价网络的参数和目标动作网络的参数,依据下式更新智能体的网络参数:
θ‘i←τθ‘i+(1-τ)θi
φ‘i←τφ‘i+(1-τ)φi
其中,θ‘i是目标评价网络的参数,φ‘i是目标动作网络的参数,θi是评价器,φi是动作器。
8.一种电网多区域智能功率协同优化装置,其特征在于,包括:
获取模块,用于获取电网状态的观测量;
结果生成模块,用于将所述电网状态的观测量输入到所述预训练好的智能体中,得到输出结果;其中,电网分为若干个区域,每个区域内设置有所述预训练好的智能体,每个所述区域内均接入有分布式可调节资源;
指令生成模块,用于将所述输出结果生成电网中分布式可调节资源的调节指令。
9.根据权利要求8所述的电网多区域智能功率协同优化装置,其特征在于,所述结果生成模块中,所述预训练好的智能体的训练方式如下:
初始化电网中所有区域的智能体的参数;其中,所述智能体包括动作器和评价器;
将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互,以累计经验;
利用MADDPG算法对所有累积经验后的智能体进行集中训练,计算策略损失以更新动作器和评价器;
依据更新后的动作器和评价器更新智能体的网络参数,得到训练好的智能体。
10.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序,以实现如权利要求1至7中任意一项所述的电网多区域智能功率协同优化方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的电网多区域智能功率协同优化方法。
CN202210887179.1A 2022-07-26 2022-07-26 电网多区域智能功率协同优化方法、装置、设备及介质 Pending CN115085202A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210887179.1A CN115085202A (zh) 2022-07-26 2022-07-26 电网多区域智能功率协同优化方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210887179.1A CN115085202A (zh) 2022-07-26 2022-07-26 电网多区域智能功率协同优化方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115085202A true CN115085202A (zh) 2022-09-20

Family

ID=83243378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210887179.1A Pending CN115085202A (zh) 2022-07-26 2022-07-26 电网多区域智能功率协同优化方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115085202A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115800322A (zh) * 2023-01-09 2023-03-14 西南大学 一种调频方法
CN116346847A (zh) * 2023-02-15 2023-06-27 深圳市超创鑫科技有限公司 一种家庭能耗数据的实时采集传输方法及系统
CN116436013A (zh) * 2023-06-13 2023-07-14 中国电力科学研究院有限公司 配电系统功率分配方法、系统、计算机设备及存储介质
CN116488154A (zh) * 2023-04-17 2023-07-25 海南大学 基于微电网的能源调度方法、系统、计算机设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115800322A (zh) * 2023-01-09 2023-03-14 西南大学 一种调频方法
CN115800322B (zh) * 2023-01-09 2023-07-04 西南大学 一种调频方法
CN116346847A (zh) * 2023-02-15 2023-06-27 深圳市超创鑫科技有限公司 一种家庭能耗数据的实时采集传输方法及系统
CN116346847B (zh) * 2023-02-15 2024-05-28 深圳市超创鑫科技有限公司 一种家庭能耗数据的实时采集传输方法及系统
CN116488154A (zh) * 2023-04-17 2023-07-25 海南大学 基于微电网的能源调度方法、系统、计算机设备及介质
CN116436013A (zh) * 2023-06-13 2023-07-14 中国电力科学研究院有限公司 配电系统功率分配方法、系统、计算机设备及存储介质
CN116436013B (zh) * 2023-06-13 2023-08-18 中国电力科学研究院有限公司 配电系统功率分配方法、系统、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109947567B (zh) 一种多智能体强化学习调度方法、系统及电子设备
CN108964042B (zh) 基于深度q网络的区域电网运行点调度优化方法
CN115085202A (zh) 电网多区域智能功率协同优化方法、装置、设备及介质
Guo Task scheduling based on ant colony optimization in cloud environment
CN104408518B (zh) 基于粒子群优化算法的神经网络学习优化方法
CN105138717A (zh) 一种动态变异粒子群优化神经网络的变压器状态评估方法
CN102856918A (zh) 一种基于小生境粒子群算法的配电网的无功优化方法
CN105023056B (zh) 基于群智能强化学习的电网最优碳能复合流获取方法
CN105631528A (zh) 一种基于nsga-ii和近似动态规划的多目标动态最优潮流求解方法
CN107516892A (zh) 基于处理有功优化约束条件提高电能质量的方法
CN115940294B (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
CN104037761A (zh) 一种agc功率多目标随机优化分配方法
CN110474353A (zh) 分层式储能系统及其参与的电网调频协调控制方法
Hu et al. Short-term hydropower generation scheduling using an improved cloud adaptive quantum-inspired binary social spider optimization algorithm
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN107069708B (zh) 一种基于极限学习机的输电网线路有功安全校正方法
CN116169776A (zh) 电力系统云边协同人工智能调控方法、系统、介质及设备
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
CN116629461A (zh) 一种主动配电网分布式优化方法、系统、设备及存储介质
CN116995682A (zh) 一种可调节负荷参与有功潮流连续调整方法与系统
CN104731709A (zh) 一种基于jcudasa_bp算法的软件缺陷预测方法
El Bourakadi et al. Multi-agent system based on the fuzzy control and extreme learning machine for intelligent management in hybrid energy system
CN111293703A (zh) 一种基于时序强化学习的电网无功电压调控方法和系统
Jasmin et al. A Reinforcement Learning algorithm to Economic Dispatch considering transmission losses
CN113991752A (zh) 一种电网准实时智能控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination