CN114725936B - 基于多智能体深度强化学习的配电网优化方法 - Google Patents

基于多智能体深度强化学习的配电网优化方法 Download PDF

Info

Publication number
CN114725936B
CN114725936B CN202210420402.1A CN202210420402A CN114725936B CN 114725936 B CN114725936 B CN 114725936B CN 202210420402 A CN202210420402 A CN 202210420402A CN 114725936 B CN114725936 B CN 114725936B
Authority
CN
China
Prior art keywords
node
power
network
agent
distribution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210420402.1A
Other languages
English (en)
Other versions
CN114725936A (zh
Inventor
滕云龙
李慧婷
元硕成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical University of Electronic Science and Technology of China
Priority to CN202210420402.1A priority Critical patent/CN114725936B/zh
Publication of CN114725936A publication Critical patent/CN114725936A/zh
Application granted granted Critical
Publication of CN114725936B publication Critical patent/CN114725936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/007Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
    • H02J3/0075Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E70/00Other energy conversion or management systems reducing GHG emissions
    • Y02E70/30Systems combining energy storage with energy generation of non-fossil origin

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Water Supply & Treatment (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于多智能体深度强化学习的配电网优化方法,包括以下步骤:S1、建立配电网电压优化模型;S2、进行马尔科夫博弈建模;S3、采用TD3算法进行离线训练。本发明考虑了分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,并采用双延迟深度确定性策略梯度算法进行求解,获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型,可根据历史数据进行离线训练,训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题,一定程度上解决了可再生能源发电的消纳问题,提升了可再生能源的利用率。

Description

基于多智能体深度强化学习的配电网优化方法
技术领域
本发明属于配网技术领域,具体涉及一种基于多智能体深度强化学习的配电网优化方法。
背景技术
环境的恶化和化石能源的枯竭使人们对可再生能源的需求日益紧迫,发展可再生能源成为共识。调整不同能源间的结构,加大清洁能源比重是缓解当下问题的主要途径。相比于传统配电网的单一电源供电,分布式电源并网有更好的降低网损、改善电压分布、消纳电力以及削峰填谷等特性。
针对于可再生能源利用问题,考虑到以清洁能源为燃料的分布式电源的不可控性,当电力需求降低时供给无法停止,电力缺少存储空间,说明需要在清洁能源并网的情况下提升配电网的灵活性。储能技术的发展使各种形式的能量可以与电能相互转化,考虑到储能装置具有充放电特性,将储能装置与可再生能源进行协同并网可以一定程度上解决可再生能源的消纳问题。
分布式电源接入配电网会改变配电网的运行状态,随着分布式电源接入配电网的规模增加,如何调度分布式电源使配电网在保证运行安全同时优化运行成为关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种建立含有光伏、风机以及储能装置的配电网电压优化模型,并采用双延迟深度确定性策略梯度算法进行求解,来获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小的基于多智能体深度强化学习的配电网优化方法。
本发明的目的是通过以下技术方案来实现的:基于多智能体深度强化学习的配电网优化方法,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
Figure GDA0004059945450000011
式中,
Figure GDA0004059945450000012
表示在t时刻在节点i的储能装置充电有功功率,
Figure GDA0004059945450000013
表示在t时刻储能装置的放电有功功率,
Figure GDA0004059945450000014
表示在t时刻储能装置的无功功率;
Figure GDA0004059945450000015
分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期;
S12、建立风机约束条件:
Figure GDA0004059945450000021
Figure GDA0004059945450000022
Figure GDA0004059945450000023
为t时刻风力发电机在节点i上的有功功率,
Figure GDA0004059945450000024
为风力发电机在节点i上的额定功率,
Figure GDA0004059945450000025
为在t时刻风力发电机在节点i上的视在功率;
S13、建立光伏约束条件:
Figure GDA0004059945450000026
Figure GDA0004059945450000027
Figure GDA0004059945450000028
为t时刻在节点i注入光伏逆变器的有功功率,
Figure GDA0004059945450000029
为节点i上光伏机组的最大额定功率,
Figure GDA00040599454500000210
为节点i上的光伏机组视在功率;
S14、建立储能装置的有功功率和无功功率输出约束:
Figure GDA00040599454500000211
Figure GDA00040599454500000212
Figure GDA00040599454500000213
Figure GDA00040599454500000214
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Figure GDA00040599454500000215
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
Figure GDA0004059945450000031
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
Figure GDA0004059945450000032
分别为t时刻平衡节点注入的有功功率和无功功率;
Figure GDA0004059945450000033
分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔可夫博弈建模;
S3、采用TD3算法进行离线训练。
进一步地,所述步骤S2具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中
Figure GDA0004059945450000034
表示t时刻智能体j观测到的状态值;
Figure GDA0004059945450000035
表示t时刻智能体j执行的动作;
Figure GDA0004059945450000036
所有智能体共享一个奖励值;
S21、定义状态量
Figure GDA0004059945450000037
为:
Figure GDA0004059945450000038
式中,Ei,t为t时刻节点i储能装置的能量;
S22、定义动作值
Figure GDA0004059945450000039
为:
Figure GDA00040599454500000310
式中,
Figure GDA00040599454500000311
为t时刻节点i储能装置的有功功率,充电时
Figure GDA00040599454500000312
放电时
Figure GDA00040599454500000313
Figure GDA00040599454500000314
为t时刻储能装置的无功功率;
S23、动作
Figure GDA00040599454500000315
在环境中执行后,所得奖励值
Figure GDA00040599454500000316
由评价综合指标与惩罚函数组成:
Figure GDA00040599454500000317
Figure GDA0004059945450000041
为配电网中所有节点在t时刻的总电压偏差,
Figure GDA0004059945450000042
为电压越限时的惩罚项;由于所有智能体共享一个奖励值,每个时刻t的每个智能体j的奖励rt j都是相同的,因此将为rk
S24、计算t时刻开始的一次探索过程的累积奖励Rt
Figure GDA0004059945450000043
式中:γ为折扣因数,γ∈(0,1);
在t时刻,智能体j根据观测值获得状态量
Figure GDA00040599454500000416
并得出动作值
Figure GDA00040599454500000417
执行动作获得奖励值
Figure GDA00040599454500000418
并转移到下一个状态,一次探索结束获得累计奖励Rt,每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值。
进一步地,所述步骤S3具体实现方法为:TD3算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S32、随机初始化Actor当前网络参数
Figure GDA0004059945450000044
Critic当前网络参数
Figure GDA0004059945450000045
并将当前网络参数拷贝给对应的Actor目标网络参数
Figure GDA0004059945450000046
和Critic目标网络参数
Figure GDA0004059945450000047
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量
Figure GDA0004059945450000048
通过当下策略得到动作值
Figure GDA0004059945450000049
在环境中执行动作并得到奖励值
Figure GDA00040599454500000419
和下一个状态
Figure GDA00040599454500000410
Figure GDA00040599454500000411
存入经验回访池中,直到经验回访池存满;
Figure GDA00040599454500000412
指的是智能体j的Actor当前网络读取t时刻状态
Figure GDA00040599454500000413
在策略函数pj下得到动作值
Figure GDA00040599454500000414
S34、从经验回访池中采样一定量的数据
Figure GDA00040599454500000415
k=1,2,...,m,开始对网络参数进行更新,具体方法为:
S341、对于Actor当前网络采用梯度更新策略:
Figure GDA0004059945450000051
Figure GDA0004059945450000052
其中
Figure GDA0004059945450000053
为梯度计算公式,表示对
Figure GDA0004059945450000054
进行梯度更新;p={p1,...pj,...,pN}表示所有智能体的策略集合,pj为智能体j的策略函数;
Figure GDA0004059945450000055
为Critic当前网络的输出,ημ是Actor当前网络学习率;
S342、对于Critic当前网络通过最小化损失函数进行更新:
Figure GDA0004059945450000056
Figure GDA0004059945450000057
式中y值通过双评价网络来计算,
Figure GDA0004059945450000058
p'j(st')和
Figure GDA0004059945450000059
分别由智能体j的Actor目标网络和Critic目标网络的输出获得,
Figure GDA00040599454500000510
选择Critic目标网络输出中较小的值来更新;ηQ是Critic当前网络学习率;
S343、使用当前网络的参数对目标网络的参数进行小幅度更新:
Figure GDA00040599454500000511
Figure GDA00040599454500000512
式中τ为软更新系数;
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
本发明的有益效果是:本发明考虑了分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,对光伏、风机进行无功控制,对储能进行有功和无功控制。并采用双延迟深度确定性策略梯度算法进行求解,来获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型,可根据历史数据进行离线训练,训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题,一定程度上解决了可再生能源发电的消纳问题,提升了可再生能源的利用率。
具体实施方式
强化学习算法是通过智能体不断与环境交互获得奖励,通过策略探索,建立起一个状态与动作之间的映射关系的自我学习机制。智能体与环境交互,通过策略得出动作值,在环境中执行动作并将得到奖励值反馈给智能体,智能体根据所得奖励值判断动作被强化或弱化。智能体可以学习到如何在环境中根据不同状态得出最高奖励值,从而得出最优控制策略。通常采用马尔可夫决策(Markov Decision Process,MDP)过程对强化学习问题进行建模。
配电网和分布式电源结构复杂,而强化学习算法的优势在于不依赖于对环境的建模,即通过判断智能体在环境中的探索奖励来得出最优策略,所以可以采用强化学习方法解决含分布式电源配电网优化问题。考虑到采用对配电网的集中控制对通信有强烈的依赖性,因此采用多智能体强化学习(multi-agent deep reinforcement learning,MADRL)方法,并以离线中心式训练和在线分布式执行为框架进行训练,使分布式电源可以根据局部信息做出决策,协同控制优化配电网。下面进一步说明本发明的技术方案。
本发明考虑分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,对光伏、风机进行无功控制,对储能进行有功和无功控制,使配电网在保证安全运行的同时电压波动最小。配电网是从输电网或发电厂接收电能并分配给用户的网络,可将配电线路上的柱上负荷看作是节点,而将配电线路和配电变压器综合看作是一种耗散元件,用户可视为负荷,分布式电源可视为外接的电能。
基于多智能体深度强化学习的配电网优化方法,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
Figure GDA0004059945450000061
式中,
Figure GDA0004059945450000062
表示在t时刻在节点i的储能装置充电有功功率,
Figure GDA0004059945450000063
表示在t时刻储能装置的放电有功功率,
Figure GDA0004059945450000064
表示在t时刻储能装置的无功功率;
Figure GDA0004059945450000065
分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期,以一天为周期则设T=24,t=1,2,…,24;节点指是配电网节点,指的是电流的汇集点或支路的汇集点。
S12、建立风机约束条件:
Figure GDA0004059945450000066
Figure GDA0004059945450000067
Figure GDA0004059945450000068
为t时刻风力发电机在节点i上的有功功率,
Figure GDA0004059945450000069
为风力发电机在节点i上的额定功率,
Figure GDA0004059945450000071
为在t时刻风力发电机在节点i上的视在功率;
S13、建立光伏约束条件:
Figure GDA0004059945450000072
Figure GDA0004059945450000073
Figure GDA0004059945450000074
为t时刻在节点i注入光伏逆变器的有功功率,
Figure GDA0004059945450000075
为节点i上光伏机组的最大额定功率,
Figure GDA0004059945450000076
为节点i上的光伏机组视在功率;
S14、建立储能装置的有功功率和无功功率输出约束:
Figure GDA0004059945450000077
Figure GDA0004059945450000078
Figure GDA0004059945450000079
Figure GDA00040599454500000710
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Figure GDA00040599454500000711
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
Figure GDA00040599454500000712
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
Figure GDA00040599454500000713
分别为t时刻平衡节点注入的有功功率和无功功率;
Figure GDA00040599454500000714
分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔可夫博弈建模;
具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中
Figure GDA0004059945450000081
表示t时刻智能体j观测到的状态值;
Figure GDA0004059945450000082
表示t时刻智能体j执行的动作;rt j∈Rt,所有智能体共享一个奖励值;
S21、定义状态量
Figure GDA0004059945450000083
为:
Figure GDA0004059945450000084
式中,Ei,t为t时刻节点i储能装置的能量;
S22、定义动作值
Figure GDA0004059945450000085
为:
Figure GDA0004059945450000086
式中,
Figure GDA0004059945450000087
为t时刻节点i储能装置的有功功率,充电时
Figure GDA0004059945450000088
放电时
Figure GDA0004059945450000089
Figure GDA00040599454500000810
为t时刻储能装置的无功功率;
S23、动作
Figure GDA00040599454500000811
在环境中执行后,所得奖励值rt j由评价综合指标与惩罚函数组成:
Figure GDA00040599454500000812
Figure GDA00040599454500000813
为配电网中所有节点在t时刻的总电压偏差,
Figure GDA00040599454500000814
为电压越限时的惩罚项;由于所有智能体共享一个奖励值,每个时刻t的每个智能体j的奖励rt j都是相同的,因此将奖励记为rk
S24、计算t时刻开始的一次探索过程的累积奖励Rt
Figure GDA00040599454500000815
式中:γ为折扣因数,γ∈(0,1);
在t时刻,智能体j根据观测值获得状态量
Figure GDA00040599454500000816
并得出动作值
Figure GDA00040599454500000817
执行动作获得奖励值rt j并转移到下一个状态,一次探索结束获得累计奖励Rt,每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值。
S3、采用TD3算法进行离线训练;具体实现方法为:TD3(双延迟深度确定性策略梯度,Twin Delayed Deep Deterministic Policy Gradient)算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;Actor-Critic框架是由Actor网络和Critic网络组成的。在原有的Actor-Critic框架基础上,对其复制,形成两个Actor-Critic框架,分别作为当前网络和目标网络。再将每个Actor-Critic框架中的Critic网络设置为两个,最终形成两个Actor网络和四个Critic网络。将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S32、随机初始化Actor当前网络参数
Figure GDA0004059945450000091
Critic当前网络参数
Figure GDA0004059945450000092
并将当前网络参数拷贝给对应的Actor目标网络参数
Figure GDA0004059945450000093
和Critic目标网络参数
Figure GDA0004059945450000094
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量
Figure GDA0004059945450000095
通过当下策略得到动作值
Figure GDA0004059945450000096
在环境中执行动作并得到奖励值rt j和下一个状态
Figure GDA0004059945450000097
Figure GDA0004059945450000098
存入经验回访池中,直到经验回访池存满;
Figure GDA0004059945450000099
指的是智能体j的Actor当前网络读取t时刻状态
Figure GDA00040599454500000910
在策略函数(即动作函数)pj下得到动作值
Figure GDA00040599454500000911
S34、从经验回访池中采样一定量的数据
Figure GDA00040599454500000912
k=1,2,...,m,开始对网络参数进行更新,具体方法为:
S341、对于Actor当前网络采用梯度更新策略:
Figure GDA00040599454500000913
Figure GDA00040599454500000914
其中
Figure GDA0004059945450000101
为梯度计算公式,表示对
Figure GDA0004059945450000102
进行梯度更新;p={p1,...pj,...,pN}表示所有智能体的策略集合,pj为智能体j的策略函数;
Figure GDA0004059945450000103
为Critic当前网络的输出,ημ是Actor当前网络学习率;
S342、对于Critic当前网络通过最小化损失函数进行更新:
Figure GDA0004059945450000104
Figure GDA0004059945450000105
式中y值通过双评价网络来计算,
Figure GDA0004059945450000106
p'j(st')和
Figure GDA0004059945450000107
分别由智能体j的Actor目标网络和Critic目标网络的输出获得,因为用于计算y的Critic网络不断进行参数更新,所以引入目标网络来稳定算法训练过程;
Figure GDA0004059945450000108
选择Critic目标网络输出中较小的值来更新,来避免过高估计的Q值而使策略失效的问题;ηQ是Critic当前网络学习率;
S343、使用当前网络的参数对目标网络的参数进行小幅度更新:
Figure GDA0004059945450000109
Figure GDA00040599454500001010
式中τ为软更新系数;
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
训练所得智能体可以读取配电网局部节点的有功无功功率的实时数据作为状态值,通过最优策略给出动作值,从而对分布式电源进行调度,对配电网全局进行优化。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (2)

1.基于多智能体深度强化学习的配电网优化方法,其特征在于,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
Figure FDA0004059945440000011
式中,
Figure FDA0004059945440000012
表示在t时刻在节点i的储能装置充电有功功率,
Figure FDA0004059945440000013
表示在t时刻储能装置的放电有功功率,
Figure FDA0004059945440000014
表示在t时刻储能装置的无功功率;
Figure FDA0004059945440000015
分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期;
S12、建立风机约束条件:
Figure FDA0004059945440000016
Figure FDA0004059945440000017
Figure FDA0004059945440000018
为t时刻风力发电机在节点i上的有功功率,
Figure FDA0004059945440000019
为风力发电机在节点i上的额定功率,
Figure FDA00040599454400000110
为在t时刻风力发电机在节点i上的视在功率;
S13、建立光伏约束条件:
Figure FDA00040599454400000111
Figure FDA00040599454400000112
Figure FDA00040599454400000113
为t时刻在节点i注入光伏逆变器的有功功率,
Figure FDA00040599454400000114
为节点i上光伏机组的最大额定功率,
Figure FDA00040599454400000115
为节点i上的光伏机组视在功率;
S14、建立储能装置的有功功率和无功功率输出约束:
Figure FDA00040599454400000116
Figure FDA00040599454400000117
Figure FDA00040599454400000118
Figure FDA00040599454400000119
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Figure FDA0004059945440000021
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
Figure FDA0004059945440000022
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
Pt s
Figure FDA0004059945440000023
分别为t时刻平衡节点注入的有功功率和无功功率;
Figure FDA0004059945440000024
分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔可夫博弈建模;具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中
Figure FDA0004059945440000025
表示t时刻智能体j观测到的状态值;
Figure FDA0004059945440000026
表示t时刻智能体j执行的动作;rt j∈Rt,所有智能体共享一个奖励值;
S21、定义状态量
Figure FDA0004059945440000027
为:
Figure FDA0004059945440000028
式中,Ei,t为t时刻节点i储能装置的能量;
S22、定义动作值
Figure FDA0004059945440000029
为:
Figure FDA00040599454400000210
式中,
Figure FDA0004059945440000031
为t时刻节点i储能装置的有功功率,充电时
Figure FDA0004059945440000032
放电时
Figure FDA0004059945440000033
Figure FDA0004059945440000034
为t时刻储能装置的无功功率;
S23、动作
Figure FDA0004059945440000035
在环境中执行后,所得奖励值rt j由评价综合指标与惩罚函数组成:
Figure FDA0004059945440000036
Figure FDA0004059945440000037
为配电网中所有节点在t时刻的总电压偏差,
Figure FDA0004059945440000038
为电压越限时的惩罚项;由于所有智能体共享一个奖励值,每个时刻t的每个智能体j的奖励rt j都是相同的,因此将奖励记为rk
S24、计算t时刻开始的一次探索过程的累积奖励Rt
Figure FDA0004059945440000039
式中:γ为折扣因数,γ∈(0,1);
在t时刻,智能体j根据观测值获得状态量
Figure FDA00040599454400000310
并得出动作值
Figure FDA00040599454400000311
执行动作获得奖励值rt j并转移到下一个状态,一次探索结束获得累计奖励Rt,每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值;
S3、采用TD3算法进行离线训练。
2.根据权利要求1所述的基于多智能体深度强化学习的配电网优化方法,其特征在于,所述步骤S3具体实现方法为:TD3算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S32、随机初始化Actor当前网络参数
Figure FDA00040599454400000312
Critic当前网络参数
Figure FDA00040599454400000313
并将当前网络参数拷贝给对应的Actor目标网络参数
Figure FDA00040599454400000314
和Critic目标网络参数
Figure FDA00040599454400000315
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量
Figure FDA00040599454400000316
通过当下策略得到动作值
Figure FDA00040599454400000317
在环境中执行动作并得到奖励值rt j和下一个状态
Figure FDA0004059945440000041
Figure FDA0004059945440000042
存入经验回访池中,直到经验回访池存满;
Figure FDA0004059945440000043
指的是智能体j的Actor当前网络读取t时刻状态
Figure FDA0004059945440000044
在策略函数pj下得到动作值
Figure FDA0004059945440000045
S34、从经验回访池中采样一定量的数据
Figure FDA0004059945440000046
开始对网络参数进行更新,具体方法为:
S341、对于Actor当前网络采用梯度更新策略:
Figure FDA0004059945440000047
Figure FDA0004059945440000048
其中
Figure FDA0004059945440000049
为梯度计算公式,表示对
Figure FDA00040599454400000410
进行梯度更新;p={p1,...pj,...,pN}表示所有智能体的策略集合,pj为智能体j的策略函数;
Figure FDA00040599454400000411
为Critic当前网络的输出,ημ是Actor当前网络学习率;
S342、对于Critic当前网络通过最小化损失函数进行更新:
Figure FDA00040599454400000412
Figure FDA00040599454400000413
式中y值通过双评价网络来计算,
Figure FDA00040599454400000414
p′j(s′t)和
Figure FDA00040599454400000415
分别由智能体j的Actor目标网络和Critic目标网络的输出获得,
Figure FDA00040599454400000416
选择Critic目标网络输出中较小的值来更新;ηQ是Critic当前网络学习率;
S343、使用当前网络的参数对目标网络的参数进行小幅度更新:
Figure FDA00040599454400000417
Figure FDA00040599454400000418
式中τ为软更新系数;
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
CN202210420402.1A 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法 Active CN114725936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210420402.1A CN114725936B (zh) 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210420402.1A CN114725936B (zh) 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法

Publications (2)

Publication Number Publication Date
CN114725936A CN114725936A (zh) 2022-07-08
CN114725936B true CN114725936B (zh) 2023-04-18

Family

ID=82245983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210420402.1A Active CN114725936B (zh) 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法

Country Status (1)

Country Link
CN (1) CN114725936B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115241885B (zh) * 2022-07-26 2022-12-20 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115133540B (zh) * 2022-07-27 2023-05-30 电子科技大学 一种配电网无模型的实时电压控制方法
CN115333152A (zh) * 2022-08-22 2022-11-11 电子科技大学 一种配电网电压分布式实时控制方法
CN115360741A (zh) * 2022-10-20 2022-11-18 中国华能集团清洁能源技术研究院有限公司 现货场景下基于深度强化学习的风储灵活控制方法和装置
CN115903457B (zh) * 2022-11-02 2023-09-08 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN115840794B (zh) * 2023-02-14 2023-05-02 国网山东省电力公司东营供电公司 一种基于gis和rl模型的光伏系统规划方法
CN117350410B (zh) * 2023-12-06 2024-02-20 中国科学院电工研究所 基于多智能体联邦强化学习的微网群协同运行优化方法
CN117394461B (zh) * 2023-12-11 2024-03-15 中国电建集团西北勘测设计研究院有限公司 用于综合能源系统的供需协同调控系统及方法
CN117713202A (zh) * 2023-12-15 2024-03-15 嘉兴正弦电气有限公司 基于深度强化学习的分布式电源自适应控制方法及系统
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117808174B (zh) * 2024-03-01 2024-05-28 山东大学 网络攻击下基于强化学习的微电网运行优化方法及系统
CN118017523A (zh) * 2024-04-09 2024-05-10 杭州鸿晟电力设计咨询有限公司 一种电力系统的电压控制方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3057192A1 (en) * 2015-02-12 2016-08-17 Northeastern University An energy internet and a hierarchical control system and a control method thereof
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN113872213A (zh) * 2021-09-09 2021-12-31 国电南瑞南京控制系统有限公司 一种配电网电压自主优化控制方法及装置
CN114362187A (zh) * 2021-11-25 2022-04-15 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7261507B2 (ja) * 2020-09-04 2023-04-20 ノース チャイナ エレクトリック パワー ユニバーシティー 電気ヒートポンプ-熱電併給システムを最適化する調整方法及びシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3057192A1 (en) * 2015-02-12 2016-08-17 Northeastern University An energy internet and a hierarchical control system and a control method thereof
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN113872213A (zh) * 2021-09-09 2021-12-31 国电南瑞南京控制系统有限公司 一种配电网电压自主优化控制方法及装置
CN114362187A (zh) * 2021-11-25 2022-04-15 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统

Also Published As

Publication number Publication date
CN114725936A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN114725936B (zh) 基于多智能体深度强化学习的配电网优化方法
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
CN109361237B (zh) 基于改进混合粒子群算法的微电网容量优化配置方法
CN110854932B (zh) 一种交直流配电网多时间尺度优化调度方法及系统
CN112507614B (zh) 一种分布式电源高渗透率地区电网综合优化方法
CN112003330B (zh) 一种基于自适应控制的微网能量优化调度方法
CN113541191A (zh) 考虑大规模可再生能源接入的多时间尺度调度方法
Zhang et al. MOEA/D-based probabilistic PBI approach for risk-based optimal operation of hybrid energy system with intermittent power uncertainty
CN112381359B (zh) 一种基于数据挖掘的多critic强化学习的电力经济调度方法
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN117039981A (zh) 一种面向含新能源的大规模电网优化调度方法、装置、存储介质
CN116995645A (zh) 基于保护机制强化学习的电力系统安全约束经济调度方法
Ebell et al. Coordinated multi-agent reinforcement learning for swarm battery control
CN115333111A (zh) 多区域电网协同优化方法、系统、设备及可读存储介质
CN110729759B (zh) 一种微电网中分布式电源配置方案的确定方法及装置
CN114330113A (zh) 基于深度强化学习的新能源电力系统弹性优化方法
Shi et al. Distribution network distributed energy storage configuration optimization method considering variance of network loss sensitivity
CN114024330A (zh) 有源配电网电池储能系统的调度方法、装置及设备
CN114398777A (zh) 一种基于巴什博弈理论的电力系统灵活性资源配置方法
Tongyu et al. Based on deep reinforcement learning algorithm, energy storage optimization and loss reduction strategy for distribution network with high proportion of distributed generation
Yuan et al. An Energy Management System Based on Adaptive Dynamic Programming for Microgrid Economic Operation
Yang et al. Multi-source scheduling method on supply side of microgrid based on reinforcement learning algorithm
CN117833285A (zh) 一种基于深度强化学习的微电网储能优化调度方法
CN117117989A (zh) 一种机组组合深度强化学习求解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant