CN114725936B - 基于多智能体深度强化学习的配电网优化方法 - Google Patents
基于多智能体深度强化学习的配电网优化方法 Download PDFInfo
- Publication number
- CN114725936B CN114725936B CN202210420402.1A CN202210420402A CN114725936B CN 114725936 B CN114725936 B CN 114725936B CN 202210420402 A CN202210420402 A CN 202210420402A CN 114725936 B CN114725936 B CN 114725936B
- Authority
- CN
- China
- Prior art keywords
- node
- power
- network
- agent
- distribution network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000005457 optimization Methods 0.000 title claims abstract description 20
- 230000002787 reinforcement Effects 0.000 title claims abstract description 13
- 238000004146 energy storage Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 76
- 230000009471 action Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000003203 everyday effect Effects 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 238000010248 power generation Methods 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/007—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
- H02J3/0075—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/48—Controlling the sharing of the in-phase component
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/50—Controlling the sharing of the out-of-phase component
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/22—The renewable source being solar energy
- H02J2300/24—The renewable source being solar energy of photovoltaic origin
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/28—The renewable source being wind energy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E70/00—Other energy conversion or management systems reducing GHG emissions
- Y02E70/30—Systems combining energy storage with energy generation of non-fossil origin
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Water Supply & Treatment (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于多智能体深度强化学习的配电网优化方法,包括以下步骤:S1、建立配电网电压优化模型;S2、进行马尔科夫博弈建模;S3、采用TD3算法进行离线训练。本发明考虑了分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,并采用双延迟深度确定性策略梯度算法进行求解,获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型,可根据历史数据进行离线训练,训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题,一定程度上解决了可再生能源发电的消纳问题,提升了可再生能源的利用率。
Description
技术领域
本发明属于配网技术领域,具体涉及一种基于多智能体深度强化学习的配电网优化方法。
背景技术
环境的恶化和化石能源的枯竭使人们对可再生能源的需求日益紧迫,发展可再生能源成为共识。调整不同能源间的结构,加大清洁能源比重是缓解当下问题的主要途径。相比于传统配电网的单一电源供电,分布式电源并网有更好的降低网损、改善电压分布、消纳电力以及削峰填谷等特性。
针对于可再生能源利用问题,考虑到以清洁能源为燃料的分布式电源的不可控性,当电力需求降低时供给无法停止,电力缺少存储空间,说明需要在清洁能源并网的情况下提升配电网的灵活性。储能技术的发展使各种形式的能量可以与电能相互转化,考虑到储能装置具有充放电特性,将储能装置与可再生能源进行协同并网可以一定程度上解决可再生能源的消纳问题。
分布式电源接入配电网会改变配电网的运行状态,随着分布式电源接入配电网的规模增加,如何调度分布式电源使配电网在保证运行安全同时优化运行成为关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种建立含有光伏、风机以及储能装置的配电网电压优化模型,并采用双延迟深度确定性策略梯度算法进行求解,来获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小的基于多智能体深度强化学习的配电网优化方法。
本发明的目的是通过以下技术方案来实现的:基于多智能体深度强化学习的配电网优化方法,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
式中,表示在t时刻在节点i的储能装置充电有功功率,表示在t时刻储能装置的放电有功功率,表示在t时刻储能装置的无功功率;分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期;
S12、建立风机约束条件:
S13、建立光伏约束条件:
S14、建立储能装置的有功功率和无功功率输出约束:
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
分别为t时刻平衡节点注入的有功功率和无功功率;分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔可夫博弈建模;
S3、采用TD3算法进行离线训练。
进一步地,所述步骤S2具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中表示t时刻智能体j观测到的状态值;表示t时刻智能体j执行的动作;所有智能体共享一个奖励值;
式中,Ei,t为t时刻节点i储能装置的能量;
S24、计算t时刻开始的一次探索过程的累积奖励Rt:
式中:γ为折扣因数,γ∈(0,1);
进一步地,所述步骤S3具体实现方法为:TD3算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量通过当下策略得到动作值在环境中执行动作并得到奖励值和下一个状态将存入经验回访池中,直到经验回访池存满;指的是智能体j的Actor当前网络读取t时刻状态在策略函数pj下得到动作值
S341、对于Actor当前网络采用梯度更新策略:
S342、对于Critic当前网络通过最小化损失函数进行更新:
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
本发明的有益效果是:本发明考虑了分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,对光伏、风机进行无功控制,对储能进行有功和无功控制。并采用双延迟深度确定性策略梯度算法进行求解,来获得分布式电源的最优调度策略,使配电网在保证安全运行的同时电压波动最小。本方法不依赖精确模型,可根据历史数据进行离线训练,训练所得智能体可以根据所给状态进行在线实时优化。有效缓解了可再生能源分布式电源接入配电网引起的不稳定问题,一定程度上解决了可再生能源发电的消纳问题,提升了可再生能源的利用率。
具体实施方式
强化学习算法是通过智能体不断与环境交互获得奖励,通过策略探索,建立起一个状态与动作之间的映射关系的自我学习机制。智能体与环境交互,通过策略得出动作值,在环境中执行动作并将得到奖励值反馈给智能体,智能体根据所得奖励值判断动作被强化或弱化。智能体可以学习到如何在环境中根据不同状态得出最高奖励值,从而得出最优控制策略。通常采用马尔可夫决策(Markov Decision Process,MDP)过程对强化学习问题进行建模。
配电网和分布式电源结构复杂,而强化学习算法的优势在于不依赖于对环境的建模,即通过判断智能体在环境中的探索奖励来得出最优策略,所以可以采用强化学习方法解决含分布式电源配电网优化问题。考虑到采用对配电网的集中控制对通信有强烈的依赖性,因此采用多智能体强化学习(multi-agent deep reinforcement learning,MADRL)方法,并以离线中心式训练和在线分布式执行为框架进行训练,使分布式电源可以根据局部信息做出决策,协同控制优化配电网。下面进一步说明本发明的技术方案。
本发明考虑分布式电源出力具有不确定性,建立含有光伏、风机以及储能装置的配电网电压优化模型,对光伏、风机进行无功控制,对储能进行有功和无功控制,使配电网在保证安全运行的同时电压波动最小。配电网是从输电网或发电厂接收电能并分配给用户的网络,可将配电线路上的柱上负荷看作是节点,而将配电线路和配电变压器综合看作是一种耗散元件,用户可视为负荷,分布式电源可视为外接的电能。
基于多智能体深度强化学习的配电网优化方法,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
式中,表示在t时刻在节点i的储能装置充电有功功率,表示在t时刻储能装置的放电有功功率,表示在t时刻储能装置的无功功率;分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期,以一天为周期则设T=24,t=1,2,…,24;节点指是配电网节点,指的是电流的汇集点或支路的汇集点。
S12、建立风机约束条件:
S13、建立光伏约束条件:
S14、建立储能装置的有功功率和无功功率输出约束:
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
分别为t时刻平衡节点注入的有功功率和无功功率;分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔可夫博弈建模;
具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中表示t时刻智能体j观测到的状态值;表示t时刻智能体j执行的动作;rt j∈Rt,所有智能体共享一个奖励值;
式中,Ei,t为t时刻节点i储能装置的能量;
S24、计算t时刻开始的一次探索过程的累积奖励Rt:
式中:γ为折扣因数,γ∈(0,1);
S3、采用TD3算法进行离线训练;具体实现方法为:TD3(双延迟深度确定性策略梯度,Twin Delayed Deep Deterministic Policy Gradient)算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;Actor-Critic框架是由Actor网络和Critic网络组成的。在原有的Actor-Critic框架基础上,对其复制,形成两个Actor-Critic框架,分别作为当前网络和目标网络。再将每个Actor-Critic框架中的Critic网络设置为两个,最终形成两个Actor网络和四个Critic网络。将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量通过当下策略得到动作值在环境中执行动作并得到奖励值rt j和下一个状态将存入经验回访池中,直到经验回访池存满;
S341、对于Actor当前网络采用梯度更新策略:
S342、对于Critic当前网络通过最小化损失函数进行更新:
式中y值通过双评价网络来计算,p'j(st')和分别由智能体j的Actor目标网络和Critic目标网络的输出获得,因为用于计算y的Critic网络不断进行参数更新,所以引入目标网络来稳定算法训练过程;
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
训练所得智能体可以读取配电网局部节点的有功无功功率的实时数据作为状态值,通过最优策略给出动作值,从而对分布式电源进行调度,对配电网全局进行优化。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (2)
1.基于多智能体深度强化学习的配电网优化方法,其特征在于,包括以下步骤:
S1、建立配电网电压优化模型,包括以下子步骤:
S11、建立目标函数:
式中,表示在t时刻在节点i的储能装置充电有功功率,表示在t时刻储能装置的放电有功功率,表示在t时刻储能装置的无功功率;分别为t时刻在节点i注入光伏逆变器的无功功率、t时刻风力发电机在节点i上的无功功率;Vi,t为t时刻在节点i的电压;V0为额定电压;N为配电网中的节点总数,T为运行周期;
S12、建立风机约束条件:
S13、建立光伏约束条件:
S14、建立储能装置的有功功率和无功功率输出约束:
Si,pcsmax为储能装置的视在功率上限;
储能装置的容量平衡约束为:
Emin≤Ei,t≤Emax
Ei,t表示在t时刻储能装置电池的电量;ηch、ηdis分别为充电和放电系数;Emin、Emax分别为储能装置电池容量上限和下限;
S15、建立含分布式电源配电网的潮流约束:
节点注入功率平衡约束为:
潮流不等式约束为:
Vi,min<Vi,t<Vi,max
Pt s、分别为t时刻平衡节点注入的有功功率和无功功率;分别为负荷节点i的有功功率和无功功率;Vi,t、Vj,t分别为t时刻节点i和节点j的电压;Gij,t、Bij,t和θij,t分别为节点i,j之间的电导、电纳和相角差值;Vi,min、Vi,max为节点i电压的上限和下限;
S2、进行马尔可夫博弈建模;具体实现方法为:马尔可夫模型由元组(N,S,A1,A2,...AN,P,R1,R2,...RN,γ)表示,其中N为智能体个数,S为环境中智能体观测到的状态,Aj为智能体j的动作集合,Rj为智能体j获得的奖励,P为状态转移概率,γ为折扣因子;将配电网作为环境,分布式电源定义为能够与环境交互的智能体,其中表示t时刻智能体j观测到的状态值;表示t时刻智能体j执行的动作;rt j∈Rt,所有智能体共享一个奖励值;
式中,Ei,t为t时刻节点i储能装置的能量;
S24、计算t时刻开始的一次探索过程的累积奖励Rt:
式中:γ为折扣因数,γ∈(0,1);
S3、采用TD3算法进行离线训练。
2.根据权利要求1所述的基于多智能体深度强化学习的配电网优化方法,其特征在于,所述步骤S3具体实现方法为:TD3算法由两个Actor网络和四个Critic网络组成,Critic当前网络和Critic目标网络分别由两个Critic网络组成;将每个智能体建模为一个TD3智能体,Actor网络作为策略网络对动作函数进行拟合,通过局部信息获得动作值;Critic网络作为评价网络对评价函数进行拟合,评估全局信息(St,At)得到Q值;具体包括以下子步骤:
S31、获取配电网运行的历史数据作为离线学习样本,每天划分为24个时刻进行数据采样;
S33、设置最大迭代次数,开始进行训练;在训练的每个回合中,智能体j的Actor当前网络接收状态量通过当下策略得到动作值在环境中执行动作并得到奖励值rt j和下一个状态将存入经验回访池中,直到经验回访池存满;指的是智能体j的Actor当前网络读取t时刻状态在策略函数pj下得到动作值
S341、对于Actor当前网络采用梯度更新策略:
S342、对于Critic当前网络通过最小化损失函数进行更新:
S35、直到迭代到训练最大次数,训练结束并保存每个智能体的Actor当前网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210420402.1A CN114725936B (zh) | 2022-04-21 | 2022-04-21 | 基于多智能体深度强化学习的配电网优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210420402.1A CN114725936B (zh) | 2022-04-21 | 2022-04-21 | 基于多智能体深度强化学习的配电网优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114725936A CN114725936A (zh) | 2022-07-08 |
CN114725936B true CN114725936B (zh) | 2023-04-18 |
Family
ID=82245983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210420402.1A Active CN114725936B (zh) | 2022-04-21 | 2022-04-21 | 基于多智能体深度强化学习的配电网优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114725936B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115241885B (zh) * | 2022-07-26 | 2022-12-20 | 中国电力科学研究院有限公司 | 电网实时调度优化方法、系统、计算机设备及存储介质 |
CN115133540B (zh) * | 2022-07-27 | 2023-05-30 | 电子科技大学 | 一种配电网无模型的实时电压控制方法 |
CN115333152A (zh) * | 2022-08-22 | 2022-11-11 | 电子科技大学 | 一种配电网电压分布式实时控制方法 |
CN115360741A (zh) * | 2022-10-20 | 2022-11-18 | 中国华能集团清洁能源技术研究院有限公司 | 现货场景下基于深度强化学习的风储灵活控制方法和装置 |
CN115903457B (zh) * | 2022-11-02 | 2023-09-08 | 曲阜师范大学 | 一种基于深度强化学习的低风速永磁同步风力发电机控制方法 |
CN115840794B (zh) * | 2023-02-14 | 2023-05-02 | 国网山东省电力公司东营供电公司 | 一种基于gis和rl模型的光伏系统规划方法 |
CN117350410B (zh) * | 2023-12-06 | 2024-02-20 | 中国科学院电工研究所 | 基于多智能体联邦强化学习的微网群协同运行优化方法 |
CN117394461B (zh) * | 2023-12-11 | 2024-03-15 | 中国电建集团西北勘测设计研究院有限公司 | 用于综合能源系统的供需协同调控系统及方法 |
CN117713202A (zh) * | 2023-12-15 | 2024-03-15 | 嘉兴正弦电气有限公司 | 基于深度强化学习的分布式电源自适应控制方法及系统 |
CN117477607B (zh) * | 2023-12-28 | 2024-04-12 | 国网江西综合能源服务有限公司 | 一种含智能软开关的配电网三相不平衡治理方法及系统 |
CN117808174B (zh) * | 2024-03-01 | 2024-05-28 | 山东大学 | 网络攻击下基于强化学习的微电网运行优化方法及系统 |
CN118017523A (zh) * | 2024-04-09 | 2024-05-10 | 杭州鸿晟电力设计咨询有限公司 | 一种电力系统的电压控制方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3057192A1 (en) * | 2015-02-12 | 2016-08-17 | Northeastern University | An energy internet and a hierarchical control system and a control method thereof |
CN110365056A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 一种基于ddpg的分布式能源参与配电网调压优化方法 |
CN112117760A (zh) * | 2020-08-13 | 2020-12-22 | 国网浙江省电力有限公司台州供电公司 | 基于双q值网络深度强化学习的微电网能量调度方法 |
CN113872213A (zh) * | 2021-09-09 | 2021-12-31 | 国电南瑞南京控制系统有限公司 | 一种配电网电压自主优化控制方法及装置 |
CN114362187A (zh) * | 2021-11-25 | 2022-04-15 | 南京邮电大学 | 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7261507B2 (ja) * | 2020-09-04 | 2023-04-20 | ノース チャイナ エレクトリック パワー ユニバーシティー | 電気ヒートポンプ-熱電併給システムを最適化する調整方法及びシステム |
-
2022
- 2022-04-21 CN CN202210420402.1A patent/CN114725936B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3057192A1 (en) * | 2015-02-12 | 2016-08-17 | Northeastern University | An energy internet and a hierarchical control system and a control method thereof |
CN110365056A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 一种基于ddpg的分布式能源参与配电网调压优化方法 |
CN112117760A (zh) * | 2020-08-13 | 2020-12-22 | 国网浙江省电力有限公司台州供电公司 | 基于双q值网络深度强化学习的微电网能量调度方法 |
CN113872213A (zh) * | 2021-09-09 | 2021-12-31 | 国电南瑞南京控制系统有限公司 | 一种配电网电压自主优化控制方法及装置 |
CN114362187A (zh) * | 2021-11-25 | 2022-04-15 | 南京邮电大学 | 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114725936A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114725936B (zh) | 基于多智能体深度强化学习的配电网优化方法 | |
CN111884213B (zh) | 一种基于深度强化学习算法的配电网电压调节方法 | |
CN109361237B (zh) | 基于改进混合粒子群算法的微电网容量优化配置方法 | |
CN110854932B (zh) | 一种交直流配电网多时间尺度优化调度方法及系统 | |
CN112507614B (zh) | 一种分布式电源高渗透率地区电网综合优化方法 | |
CN112003330B (zh) | 一种基于自适应控制的微网能量优化调度方法 | |
CN113541191A (zh) | 考虑大规模可再生能源接入的多时间尺度调度方法 | |
Zhang et al. | MOEA/D-based probabilistic PBI approach for risk-based optimal operation of hybrid energy system with intermittent power uncertainty | |
CN112381359B (zh) | 一种基于数据挖掘的多critic强化学习的电力经济调度方法 | |
CN116468159A (zh) | 一种基于双延迟深度确定性策略梯度的无功优化方法 | |
CN115345380A (zh) | 一种基于人工智能的新能源消纳电力调度方法 | |
CN117039981A (zh) | 一种面向含新能源的大规模电网优化调度方法、装置、存储介质 | |
CN116995645A (zh) | 基于保护机制强化学习的电力系统安全约束经济调度方法 | |
Ebell et al. | Coordinated multi-agent reinforcement learning for swarm battery control | |
CN115333111A (zh) | 多区域电网协同优化方法、系统、设备及可读存储介质 | |
CN110729759B (zh) | 一种微电网中分布式电源配置方案的确定方法及装置 | |
CN114330113A (zh) | 基于深度强化学习的新能源电力系统弹性优化方法 | |
Shi et al. | Distribution network distributed energy storage configuration optimization method considering variance of network loss sensitivity | |
CN114024330A (zh) | 有源配电网电池储能系统的调度方法、装置及设备 | |
CN114398777A (zh) | 一种基于巴什博弈理论的电力系统灵活性资源配置方法 | |
Tongyu et al. | Based on deep reinforcement learning algorithm, energy storage optimization and loss reduction strategy for distribution network with high proportion of distributed generation | |
Yuan et al. | An Energy Management System Based on Adaptive Dynamic Programming for Microgrid Economic Operation | |
Yang et al. | Multi-source scheduling method on supply side of microgrid based on reinforcement learning algorithm | |
CN117833285A (zh) | 一种基于深度强化学习的微电网储能优化调度方法 | |
CN117117989A (zh) | 一种机组组合深度强化学习求解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |