CN114725936A - 基于多智能体深度强化学习的配电网优化方法 - Google Patents

基于多智能体深度强化学习的配电网优化方法 Download PDF

Info

Publication number
CN114725936A
CN114725936A CN202210420402.1A CN202210420402A CN114725936A CN 114725936 A CN114725936 A CN 114725936A CN 202210420402 A CN202210420402 A CN 202210420402A CN 114725936 A CN114725936 A CN 114725936A
Authority
CN
China
Prior art keywords
power
agent
node
network
distribution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210420402.1A
Other languages
English (en)
Other versions
CN114725936B (zh
Inventor
滕云龙
李慧婷
元硕成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
University of Electronic Science and Technology of China
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Yangtze River Delta Research Institute of UESTC Huzhou filed Critical University of Electronic Science and Technology of China
Priority to CN202210420402.1A priority Critical patent/CN114725936B/zh
Publication of CN114725936A publication Critical patent/CN114725936A/zh
Application granted granted Critical
Publication of CN114725936B publication Critical patent/CN114725936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/007Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
    • H02J3/0075Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E70/00Other energy conversion or management systems reducing GHG emissions
    • Y02E70/30Systems combining energy storage with energy generation of non-fossil origin

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Water Supply & Treatment (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于多智能体深度强化学习的配电网优化方法,包括以下步骤:S1、建立配电网电压优化模型;S2、进行马尔科夫博弈建模;S3、采用TD3算法进行离线训练。本发明考虑了分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,并采用双延迟深度确定性策略梯度算法进行求解,获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型,可根据历史数据进行离线训练,训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题,一定程度上解决了可再生能源发电的消纳问题,提升了可再生能源的利用率。

Description

基于多智能体深度强化学习的配电网优化方法
技术领域
本发明属于配网技术领域,具体涉及一种基于多智能体深度强化学习的配电网优化方法。
背景技术
环境的恶化和化石能源的枯竭使人们对可再生能源的需求日益紧迫,发展可再生能源成为共识。调整不同能源间的结构,加大清洁能源比重是缓解当下问题的主要途径。相比于传统配电网的单一电源供电,分布式电源并网有更好的降低网损、改善电压分布、消纳电力以及削峰填谷等特性。
针对于可再生能源利用问题,考虑到以清洁能源为燃料的分布式电源的不可控性,当电力需求降低时供给无法停止,电力缺少存储空间,说明需要在清洁能源并网的情况下提升配电网的灵活性。储能技术的发展使各种形式的能量可以与电能相互转化,考虑到储能装置具有充放电特性,将储能装置与可再生能源进行协同并网可以一定程度上解决可再生能源的消纳问题。
分布式电源接入配电网会改变配电网的运行状态,随着分布式电源接入配电网的规模增加,如何调度分布式电源使配电网在保证运行安全同时优化运行成为关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种建立含有光伏、风机以及储能装置的配电网电压优化模型,并采用双延迟深度确定性策略梯度算法进行求解,来获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小的基于多智能体深度强化学习的配电网优化方法。
本发明的目的是通过以下技术方案来实现的:基于多智能体深度强化学习的配电网优化方法,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
Figure BDA0003607337410000011
式中,
Figure BDA0003607337410000012
表示在t时刻在节点i的储能装置充电有功功率,
Figure BDA0003607337410000013
表示在t时刻储能装置的放电有功功率,
Figure BDA0003607337410000014
表示在t时刻储能装置的无功功率;
Figure BDA0003607337410000015
分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期;
S12、建立风机约束条件:
Figure BDA0003607337410000021
Figure BDA0003607337410000022
Figure BDA0003607337410000023
为t时刻风力发电机在节点i上的有功功率,
Figure BDA0003607337410000024
为风力发电机在节点i上的额定功率,
Figure BDA0003607337410000025
为在t时刻风力发电机在节点i上的视在功率;
S13、建立光伏约束条件:
Figure BDA0003607337410000026
Figure BDA0003607337410000027
Figure BDA0003607337410000028
为t时刻在节点i注入光伏逆变器的有功功率,
Figure BDA0003607337410000029
为节点i上光伏机组的最大额定功率,
Figure BDA00036073374100000210
为节点i上的光伏机组视在功率;
S14、建立储能装置的有功功率和无功功率输出约束:
Figure BDA00036073374100000211
Figure BDA00036073374100000212
Figure BDA00036073374100000213
Figure BDA00036073374100000214
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Figure BDA00036073374100000215
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
Figure BDA0003607337410000031
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
Pt s
Figure BDA0003607337410000032
分别为t时刻平衡节点注入的有功功率和无功功率;
Figure BDA0003607337410000033
分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔科夫博弈建模;
S3、采用TD3算法进行离线训练。
进一步地,所述步骤S2具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中
Figure BDA0003607337410000034
表示t时刻智能体j观测到的状态值;
Figure BDA0003607337410000035
表示t时刻智能体j执行的动作;rt j∈Rt,所有智能体共享一个奖励值;
S21、定义状态量
Figure BDA0003607337410000036
为:
Figure BDA0003607337410000037
式中,Ei,t为t时刻节点i储能装置的能量;
S22、定义动作值
Figure BDA0003607337410000038
为:
Figure BDA0003607337410000039
式中,
Figure BDA00036073374100000310
为t时刻节点i储能装置的有功功率,充电时
Figure BDA00036073374100000311
放电时
Figure BDA00036073374100000312
Figure BDA00036073374100000313
为t时刻储能装置的无功功率;
S23、动作
Figure BDA00036073374100000314
在环境中执行后,所得奖励值rt j由评价综合指标与惩罚函数组成:
Figure BDA00036073374100000315
Figure BDA0003607337410000041
为配电网中所有节点在t时刻的总电压偏差,
Figure BDA0003607337410000042
为电压越限时的惩罚项;由于所有智能体共享一个奖励值,每个时刻t的每个智能体j的奖励rt j都是相同的,因此将奖励记为rk
S24、计算t时刻开始的一次探索过程的累积奖励Rt
Figure BDA0003607337410000043
式中:γ为折扣因数,γ∈(0,1);
在t时刻,智能体j根据观测值获得状态量
Figure BDA0003607337410000044
并得出动作值
Figure BDA0003607337410000045
执行动作获得奖励值rt j并转移到下一个状态,一次探索结束获得累计奖励Rt,每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值。
进一步地,所述步骤S3具体实现方法为:TD3算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S32、随机初始化Actor当前网络参数
Figure BDA0003607337410000046
Critic当前网络参数
Figure BDA0003607337410000047
并将当前网络参数拷贝给对应的Actor目标网络参数
Figure BDA0003607337410000048
和Critic目标网络参数
Figure BDA0003607337410000049
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量
Figure BDA00036073374100000410
通过当下策略得到动作值
Figure BDA00036073374100000411
在环境中执行动作并得到奖励值rt j和下一个状态
Figure BDA00036073374100000412
Figure BDA00036073374100000413
存入经验回访池中,直到经验回访池存满;
Figure BDA00036073374100000414
指的是智能体j的Actor当前网络读取t时刻状态
Figure BDA00036073374100000415
在策略函数pj下得到动作值
Figure BDA00036073374100000416
S34、从经验回访池中采样一定量的数据
Figure BDA00036073374100000417
开始对网络参数进行更新,具体方法为:
S341、对于Actor当前网络采用梯度更新策略:
Figure BDA0003607337410000051
Figure BDA0003607337410000052
其中
Figure BDA0003607337410000053
为梯度计算公式,表示对
Figure BDA0003607337410000054
进行梯度更新;p={p1,...pj,...,pN}表示所有智能体的策略集合,pj为智能体j的策略函数;
Figure BDA0003607337410000055
为Critic当前网络的输出,ημ是Actor当前网络学习率;
S342、对于Critic当前网络通过最小化损失函数进行更新:
Figure BDA0003607337410000056
Figure BDA0003607337410000057
式中y值通过双评价网络来计算,
Figure BDA0003607337410000058
p'j(s′t)和
Figure BDA0003607337410000059
分别由智能体j的Actor目标网络和Critic目标网络的输出获得,
Figure BDA00036073374100000510
选择Critic目标网络输出中较小的值来更新;ηQ是Critic当前网络学习率;
S343、使用当前网络的参数对目标网络的参数进行小幅度更新:
Figure BDA00036073374100000511
Figure BDA00036073374100000512
式中τ为软更新系数;
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
本发明的有益效果是:本发明考虑了分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,对光伏、风机进行无功控制,对储能进行有功和无功控制。并采用双延迟深度确定性策略梯度算法进行求解,来获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型,可根据历史数据进行离线训练,训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题,一定程度上解决了可再生能源发电的消纳问题,提升了可再生能源的利用率。
具体实施方式
强化学习算法是通过智能体不断与环境交互获得奖励,通过策略探索,建立起一个状态与动作之间的映射关系的自我学习机制。智能体与环境交互,通过策略得出动作值,在环境中执行动作并将得到奖励值反馈给智能体,智能体根据所得奖励值判断动作被强化或弱化。智能体可以学习到如何在环境中根据不同状态得出最高奖励值,从而得出最优控制策略。通常采用马尔可夫决策(Markov Decision Process,MDP)过程对强化学习问题进行建模。
配电网和分布式电源结构复杂,而强化学习算法的优势在于不依赖于对环境的建模,即通过判断智能体在环境中的探索奖励来得出最优策略,所以可以采用强化学习方法解决含分布式电源配电网优化问题。考虑到采用对配电网的集中控制对通信有强烈的依赖性,因此采用多智能体强化学习(multi-agent deep reinforcement learning,MADRL)方法,并以离线中心式训练和在线分布式执行为框架进行训练,使分布式电源可以根据局部信息做出决策,协同控制优化配电网。下面进一步说明本发明的技术方案。
本发明考虑分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,对光伏、风机进行无功控制,对储能进行有功和无功控制,使配电网在保证安全运行的同时电压波动最小。配电网是从输电网或发电厂接收电能并分配给用户的网络,可将配电线路上的柱上负荷看作是节点,而将配电线路和配电变压器综合看作是一种耗散元件,用户可视为负荷,分布式电源可视为外接的电能。
基于多智能体深度强化学习的配电网优化方法,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
Figure BDA0003607337410000061
式中,
Figure BDA0003607337410000062
表示在t时刻在节点i的储能装置充电有功功率,
Figure BDA0003607337410000063
表示在t时刻储能装置的放电有功功率,
Figure BDA0003607337410000064
表示在t时刻储能装置的无功功率;
Figure BDA0003607337410000065
分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期,以一天为周期则设T=24,t=1,2,…,24;节点指是配电网节点,指的是电流的汇集点或支路的汇集点。
S12、建立风机约束条件:
Figure BDA0003607337410000066
Figure BDA0003607337410000067
Figure BDA0003607337410000068
为t时刻风力发电机在节点i上的有功功率,
Figure BDA0003607337410000069
为风力发电机在节点i上的额定功率,
Figure BDA0003607337410000071
为在t时刻风力发电机在节点i上的视在功率;
S13、建立光伏约束条件:
Figure BDA0003607337410000072
Figure BDA0003607337410000073
Figure BDA0003607337410000074
为t时刻在节点i注入光伏逆变器的有功功率,
Figure BDA0003607337410000075
为节点i上光伏机组的最大额定功率,
Figure BDA0003607337410000076
为节点i上的光伏机组视在功率;
S14、建立储能装置的有功功率和无功功率输出约束:
Figure BDA0003607337410000077
Figure BDA0003607337410000078
Figure BDA0003607337410000079
Figure BDA00036073374100000710
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Figure BDA00036073374100000711
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
Figure BDA00036073374100000712
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
Pt s
Figure BDA00036073374100000713
分别为t时刻平衡节点注入的有功功率和无功功率;
Figure BDA00036073374100000714
分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔科夫博弈建模;
具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中
Figure BDA0003607337410000081
表示t时刻智能体j观测到的状态值;
Figure BDA0003607337410000082
表示t时刻智能体j执行的动作;rt j∈Rt,所有智能体共享一个奖励值;
S21、定义状态量
Figure BDA0003607337410000083
为:
Figure BDA0003607337410000084
式中,Ei,t为t时刻节点i储能装置的能量;
S22、定义动作值
Figure BDA0003607337410000085
为:
Figure BDA0003607337410000086
式中,
Figure BDA0003607337410000087
为t时刻节点i储能装置的有功功率,充电时
Figure BDA0003607337410000088
放电时
Figure BDA0003607337410000089
Figure BDA00036073374100000810
为t时刻储能装置的无功功率;
S23、动作
Figure BDA00036073374100000811
在环境中执行后,所得奖励值rt j由评价综合指标与惩罚函数组成:
Figure BDA00036073374100000812
Figure BDA00036073374100000813
为配电网中所有节点在t时刻的总电压偏差,
Figure BDA00036073374100000814
为电压越限时的惩罚项;由于所有智能体共享一个奖励值,每个时刻t的每个智能体j的奖励rt j都是相同的,因此将奖励记为rk
S24、计算t时刻开始的一次探索过程的累积奖励Rt
Figure BDA00036073374100000815
式中:γ为折扣因数,γ∈(0,1);
在t时刻,智能体j根据观测值获得状态量
Figure BDA00036073374100000816
并得出动作值
Figure BDA00036073374100000817
执行动作获得奖励值rt j并转移到下一个状态,一次探索结束获得累计奖励Rt,每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值。
S3、采用TD3算法进行离线训练;具体实现方法为:TD3(双延迟深度确定性策略梯度,Twin Delayed Deep Deterministic Policy Gradient)算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;Actor-Critic框架是由Actor网络和Critic网络组成的。在原有的Actor-Critic框架基础上,对其复制,形成两个Actor-Critic框架,分别作为当前网络和目标网络。再将每个Actor-Critic框架中的Critic网络设置为两个,最终形成两个Actor网络和四个Critic网络。将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S32、随机初始化Actor当前网络参数
Figure BDA0003607337410000091
Critic当前网络参数
Figure BDA0003607337410000092
并将当前网络参数拷贝给对应的Actor目标网络参数
Figure BDA0003607337410000093
和Critic目标网络参数
Figure BDA0003607337410000094
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量
Figure BDA0003607337410000095
通过当下策略得到动作值
Figure BDA0003607337410000096
在环境中执行动作并得到奖励值rt j和下一个状态
Figure BDA0003607337410000097
Figure BDA0003607337410000098
存入经验回访池中,直到经验回访池存满;
Figure BDA0003607337410000099
指的是智能体j的Actor当前网络读取t时刻状态
Figure BDA00036073374100000910
在策略函数(即动作函数)pj下得到动作值
Figure BDA00036073374100000911
S34、从经验回访池中采样一定量的数据
Figure BDA00036073374100000912
开始对网络参数进行更新,具体方法为:
S341、对于Actor当前网络采用梯度更新策略:
Figure BDA00036073374100000913
Figure BDA00036073374100000914
其中
Figure BDA0003607337410000101
为梯度计算公式,表示对
Figure BDA0003607337410000102
进行梯度更新;p={p1,...pj,...,pN}表示所有智能体的策略集合,pj为智能体j的策略函数;
Figure BDA0003607337410000103
为Critic当前网络的输出,ημ是Actor当前网络学习率;
S342、对于Critic当前网络通过最小化损失函数进行更新:
Figure BDA0003607337410000104
Figure BDA0003607337410000105
式中y值通过双评价网络来计算,
Figure BDA0003607337410000106
p'j(s′t)和
Figure BDA0003607337410000107
分别由智能体j的Actor目标网络和Critic目标网络的输出获得,因为用于计算y的Critic网络不断进行参数更新,所以引入目标网络来稳定算法训练过程;
Figure BDA0003607337410000108
选择Critic目标网络输出中较小的值来更新,来避免过高估计的Q值而使策略失效的问题;ηQ是Critic当前网络学习率;
S343、使用当前网络的参数对目标网络的参数进行小幅度更新:
Figure BDA0003607337410000109
Figure BDA00036073374100001010
式中τ为软更新系数;
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
训练所得智能体可以读取配电网局部节点的有功无功功率的实时数据作为状态值,通过最优策略给出动作值,从而对分布式电源进行调度,对配电网全局进行优化。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.基于多智能体深度强化学习的配电网优化方法,其特征在于,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
Figure FDA0003607337400000011
式中,
Figure FDA0003607337400000012
表示在t时刻在节点i的储能装置充电有功功率,
Figure FDA0003607337400000013
表示在t时刻储能装置的放电有功功率,
Figure FDA0003607337400000014
表示在t时刻储能装置的无功功率;
Figure FDA0003607337400000015
分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期;
S12、建立风机约束条件:
Figure FDA0003607337400000016
Figure FDA0003607337400000017
Figure FDA0003607337400000018
为t时刻风力发电机在节点i上的有功功率,
Figure FDA0003607337400000019
为风力发电机在节点i上的额定功率,
Figure FDA00036073374000000110
为在t时刻风力发电机在节点i上的视在功率;
S13、建立光伏约束条件:
Figure FDA00036073374000000111
Figure FDA00036073374000000112
Figure FDA00036073374000000113
为t时刻在节点i注入光伏逆变器的有功功率,
Figure FDA00036073374000000114
为节点i上光伏机组的最大额定功率,
Figure FDA00036073374000000115
为节点i上的光伏机组视在功率;
S14、建立储能装置的有功功率和无功功率输出约束:
Figure FDA00036073374000000116
Figure FDA00036073374000000117
Figure FDA00036073374000000118
Figure FDA00036073374000000119
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Figure FDA0003607337400000021
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
Figure FDA0003607337400000022
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
Pt s
Figure FDA0003607337400000023
分别为t时刻平衡节点注入的有功功率和无功功率;
Figure FDA0003607337400000024
分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔科夫博弈建模;
S3、采用TD3算法进行离线训练。
2.根据权利要求1所述的基于多智能体深度强化学习的配电网优化方法,其特征在于,所述步骤S2具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中
Figure FDA0003607337400000025
表示t时刻智能体j观测到的状态值;
Figure FDA0003607337400000026
表示t时刻智能体j执行的动作;rt j∈Rt,所有智能体共享一个奖励值;
S21、定义状态量
Figure FDA0003607337400000027
为:
Figure FDA0003607337400000028
式中,Ei,t为t时刻节点i储能装置的能量;
S22、定义动作值
Figure FDA0003607337400000031
为:
Figure FDA0003607337400000032
式中,
Figure FDA0003607337400000033
为t时刻节点i储能装置的有功功率,充电时
Figure FDA0003607337400000034
放电时
Figure FDA0003607337400000035
Figure FDA0003607337400000036
为t时刻储能装置的无功功率;
S23、动作
Figure FDA0003607337400000037
在环境中执行后,所得奖励值rt j由评价综合指标与惩罚函数组成:
Figure FDA0003607337400000038
Figure FDA0003607337400000039
为配电网中所有节点在t时刻的总电压偏差,
Figure FDA00036073374000000310
为电压越限时的惩罚项;由于所有智能体共享一个奖励值,每个时刻t的每个智能体j的奖励rt j都是相同的,因此将奖励记为rk
S24、计算t时刻开始的一次探索过程的累积奖励Rt
Figure FDA00036073374000000311
式中:γ为折扣因数,γ∈(0,1);
在t时刻,智能体j根据观测值获得状态量
Figure FDA00036073374000000312
并得出动作值
Figure FDA00036073374000000313
执行动作获得奖励值rt j并转移到下一个状态,一次探索结束获得累计奖励Rt,每个智能体的目标是通过局部状态得出动作来获取最大的累计奖励值。
3.根据权利要求1所述的基于多智能体深度强化学习的配电网优化方法,其特征在于,所述步骤S3具体实现方法为:TD3算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S32、随机初始化Actor当前网络参数
Figure FDA00036073374000000314
Critic当前网络参数
Figure FDA00036073374000000315
并将当前网络参数拷贝给对应的Actor目标网络参数
Figure FDA00036073374000000316
和Critic目标网络参数
Figure FDA00036073374000000317
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量
Figure FDA0003607337400000041
通过当下策略得到动作值
Figure FDA0003607337400000042
在环境中执行动作并得到奖励值rt j和下一个状态
Figure FDA0003607337400000043
Figure FDA0003607337400000044
存入经验回访池中,直到经验回访池存满;
Figure FDA0003607337400000045
指的是智能体j的Actor当前网络读取t时刻状态
Figure FDA0003607337400000046
在策略函数pj下得到动作值
Figure FDA0003607337400000047
S34、从经验回访池中采样一定量的数据
Figure FDA0003607337400000048
开始对网络参数进行更新,具体方法为:
S341、对于Actor当前网络采用梯度更新策略:
Figure FDA0003607337400000049
Figure FDA00036073374000000410
其中
Figure FDA00036073374000000411
为梯度计算公式,表示对
Figure FDA00036073374000000412
进行梯度更新;p={p1,...pj,...,pN}表示所有智能体的策略集合,pj为智能体j的策略函数;
Figure FDA00036073374000000413
为Critic当前网络的输出,ημ是Actor当前网络学习率;
S342、对于Critic当前网络通过最小化损失函数进行更新:
Figure FDA00036073374000000414
Figure FDA00036073374000000415
式中y值通过双评价网络来计算,
Figure FDA00036073374000000416
p'j(st')和
Figure FDA00036073374000000417
分别由智能体j的Actor目标网络和Critic目标网络的输出获得,
Figure FDA00036073374000000418
选择Critic目标网络输出中较小的值来更新;ηQ是Critic当前网络学习率;
S343、使用当前网络的参数对目标网络的参数进行小幅度更新:
Figure FDA00036073374000000419
Figure FDA00036073374000000420
式中τ为软更新系数;
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
CN202210420402.1A 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法 Active CN114725936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210420402.1A CN114725936B (zh) 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210420402.1A CN114725936B (zh) 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法

Publications (2)

Publication Number Publication Date
CN114725936A true CN114725936A (zh) 2022-07-08
CN114725936B CN114725936B (zh) 2023-04-18

Family

ID=82245983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210420402.1A Active CN114725936B (zh) 2022-04-21 2022-04-21 基于多智能体深度强化学习的配电网优化方法

Country Status (1)

Country Link
CN (1) CN114725936B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115133540A (zh) * 2022-07-27 2022-09-30 电子科技大学 一种配电网无模型的实时电压控制方法
CN115241885A (zh) * 2022-07-26 2022-10-25 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115333152A (zh) * 2022-08-22 2022-11-11 电子科技大学 一种配电网电压分布式实时控制方法
CN115360741A (zh) * 2022-10-20 2022-11-18 中国华能集团清洁能源技术研究院有限公司 现货场景下基于深度强化学习的风储灵活控制方法和装置
CN115840794A (zh) * 2023-02-14 2023-03-24 国网山东省电力公司东营供电公司 一种基于gis和rl模型的光伏系统规划方法
CN115903457A (zh) * 2022-11-02 2023-04-04 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN117350410A (zh) * 2023-12-06 2024-01-05 中国科学院电工研究所 基于多智能体联邦强化学习的微网群协同运行优化方法
CN117394461A (zh) * 2023-12-11 2024-01-12 中国电建集团西北勘测设计研究院有限公司 用于综合能源系统的供需协同调控系统及方法
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117713202A (zh) * 2023-12-15 2024-03-15 嘉兴正弦电气有限公司 基于深度强化学习的分布式电源自适应控制方法及系统
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及系统
CN118017523A (zh) * 2024-04-09 2024-05-10 杭州鸿晟电力设计咨询有限公司 一种电力系统的电压控制方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3057192A1 (en) * 2015-02-12 2016-08-17 Northeastern University An energy internet and a hierarchical control system and a control method thereof
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN113872213A (zh) * 2021-09-09 2021-12-31 国电南瑞南京控制系统有限公司 一种配电网电压自主优化控制方法及装置
US20220074620A1 (en) * 2020-09-04 2022-03-10 North China Electric Power University Optimized regulating and controlling method and system for integrated electricity and heat system with heat pumps
CN114362187A (zh) * 2021-11-25 2022-04-15 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3057192A1 (en) * 2015-02-12 2016-08-17 Northeastern University An energy internet and a hierarchical control system and a control method thereof
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
US20220074620A1 (en) * 2020-09-04 2022-03-10 North China Electric Power University Optimized regulating and controlling method and system for integrated electricity and heat system with heat pumps
CN113872213A (zh) * 2021-09-09 2021-12-31 国电南瑞南京控制系统有限公司 一种配电网电压自主优化控制方法及装置
CN114362187A (zh) * 2021-11-25 2022-04-15 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115241885A (zh) * 2022-07-26 2022-10-25 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115133540A (zh) * 2022-07-27 2022-09-30 电子科技大学 一种配电网无模型的实时电压控制方法
CN115333152A (zh) * 2022-08-22 2022-11-11 电子科技大学 一种配电网电压分布式实时控制方法
CN115360741A (zh) * 2022-10-20 2022-11-18 中国华能集团清洁能源技术研究院有限公司 现货场景下基于深度强化学习的风储灵活控制方法和装置
CN115903457A (zh) * 2022-11-02 2023-04-04 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN115903457B (zh) * 2022-11-02 2023-09-08 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN115840794A (zh) * 2023-02-14 2023-03-24 国网山东省电力公司东营供电公司 一种基于gis和rl模型的光伏系统规划方法
CN115840794B (zh) * 2023-02-14 2023-05-02 国网山东省电力公司东营供电公司 一种基于gis和rl模型的光伏系统规划方法
CN117350410A (zh) * 2023-12-06 2024-01-05 中国科学院电工研究所 基于多智能体联邦强化学习的微网群协同运行优化方法
CN117350410B (zh) * 2023-12-06 2024-02-20 中国科学院电工研究所 基于多智能体联邦强化学习的微网群协同运行优化方法
CN117394461A (zh) * 2023-12-11 2024-01-12 中国电建集团西北勘测设计研究院有限公司 用于综合能源系统的供需协同调控系统及方法
CN117394461B (zh) * 2023-12-11 2024-03-15 中国电建集团西北勘测设计研究院有限公司 用于综合能源系统的供需协同调控系统及方法
CN117713202A (zh) * 2023-12-15 2024-03-15 嘉兴正弦电气有限公司 基于深度强化学习的分布式电源自适应控制方法及系统
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及系统
CN117808174B (zh) * 2024-03-01 2024-05-28 山东大学 网络攻击下基于强化学习的微电网运行优化方法及系统
CN118017523A (zh) * 2024-04-09 2024-05-10 杭州鸿晟电力设计咨询有限公司 一种电力系统的电压控制方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114725936B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN114725936B (zh) 基于多智能体深度强化学习的配电网优化方法
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
CN110518580B (zh) 一种考虑微网主动优化的主动配电网运行优化方法
CN110826880B (zh) 一种大规模电动汽车接入的主动配电网优化调度方法
CN110929964B (zh) 一种基于近似动态规划算法的含储能配电网优化调度方法
CN112507614B (zh) 一种分布式电源高渗透率地区电网综合优化方法
CN112003330B (zh) 一种基于自适应控制的微网能量优化调度方法
CN105896575B (zh) 基于自适应动态规划的百兆瓦储能功率控制方法及系统
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及系统
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN103679284A (zh) 一种消纳风电接入的定区间滚动调度方法
CN116451880B (zh) 一种基于混合学习的分布式能源优化调度方法及装置
Liu et al. Data-driven robust voltage/var control using PV inverters in active distribution networks
Ebell et al. Coordinated multi-agent reinforcement learning for swarm battery control
CN110729759B (zh) 一种微电网中分布式电源配置方案的确定方法及装置
CN117650553B (zh) 基于多智能体深度强化学习的5g基站储能电池充放电调度方法
CN117200225B (zh) 考虑涵盖电动汽车集群的配电网优化调度方法及相关装置
Yuan et al. An Energy Management System Based on Adaptive Dynamic Programming for Microgrid Economic Operation
CN117613919B (zh) 一种工商业园区用电峰谷差智能控制方法
CN117833285A (zh) 一种基于深度强化学习的微电网储能优化调度方法
Liu et al. Multi-agent Game Collaborative Planning of Complex Distribution Network Considering the Bounded Rationality of Wind Power Output
Xia et al. Multi-Agent Deep Reinforcement Learning for Photovoltaics and Battery Storage Aggregators Coordinated Operation in Active Distribution Network with Incomplete Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant