CN116565876A - 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质 - Google Patents
一种鲁棒强化学习的配网潮流优化方法及计算机可读介质 Download PDFInfo
- Publication number
- CN116565876A CN116565876A CN202310427523.3A CN202310427523A CN116565876A CN 116565876 A CN116565876 A CN 116565876A CN 202310427523 A CN202310427523 A CN 202310427523A CN 116565876 A CN116565876 A CN 116565876A
- Authority
- CN
- China
- Prior art keywords
- node
- power
- moment
- representing
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 198
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000005457 optimization Methods 0.000 title claims abstract description 109
- 230000002787 reinforcement Effects 0.000 title claims abstract description 57
- 238000010248 power generation Methods 0.000 claims abstract description 138
- 238000004146 energy storage Methods 0.000 claims abstract description 136
- 230000009471 action Effects 0.000 claims abstract description 82
- 230000008569 process Effects 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 239000003795 chemical substances by application Substances 0.000 claims description 281
- 230000006870 function Effects 0.000 claims description 79
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 13
- 230000008901 benefit Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- FNMKZDDKPDBYJM-UHFFFAOYSA-N 3-(1,3-benzodioxol-5-yl)-7-(3-methylbut-2-enoxy)chromen-4-one Chemical compound C1=C2OCOC2=CC(C2=COC=3C(C2=O)=CC=C(C=3)OCC=C(C)C)=C1 FNMKZDDKPDBYJM-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 description 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/04—Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
- H02J3/06—Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/381—Dispersed generators
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/48—Controlling the sharing of the in-phase component
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/50—Controlling the sharing of the out-of-phase component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2113/00—Details relating to the application field
- G06F2113/04—Power grid distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Power Engineering (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Water Supply & Treatment (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了涉及一种鲁棒强化学习的配网潮流优化方法及计算机可读介质。本发明选择多节点配电网模型中多个节点作为火力发电、分布式发电、分布式储能、负荷节点。获取多个时刻每个节点的有、无功出力和最大有、无功出力,分布式储能节点的荷电状态;构建配电网的各约束条件,包括节点有功平衡、支路有、无功潮流、发电单元有、无功、分布式储能单元荷电状态和负荷单元有功约束。优化目标为最小化配电网的综合损耗;构建配电网潮流优化主智能体和攻击型智能体的状态、动作、奖励、惩罚集合;通过TA‑Lag‑TRPO算法求解主智能体和攻击型智能体的零和博弈鲁棒强化学习模型。本发明可解决配电网鲁棒性增强的潮流优化问题,提升配电网潮流优化过程中的安全性和抗干扰能力。
Description
技术领域
本申请涉及电网调度信息领域,具体涉及一种鲁棒强化学习的配网潮流优化方法及计算机可读介质。
背景技术
配电网潮流优化是配电网分析、规划与调度运行的重要基础,对保证电力系统可靠、安全、高效运行具有重要意义。传统配电网潮流优化方法包括梯度下降算法、牛顿法以及启发式算法等。传统优化方法在面对复杂配电网环境时存在计算效率低下、无法保证收敛精度的缺陷,难以应对愈发复杂的现代电力系统。近年来,大量研究利用深度强化学习有效提升了复杂配电网环境下潮流优化计算的计算效率和精度。
然而,大多数基于深度强化学习的配电网潮流优化方法都无法推广到现实配电网环境中。新能源发电和分布式储能单元的大规模集成显著加剧了复杂性、不确定性和波动性。模拟电网环境和现实电网环境之间存在一定差距,传感器观测误差或者新能源发电单元的出力预测偏差以及负荷预测偏差误差均可以被视为深度强化学习泛用问题中不可忽视的干扰。这些问题导致智能体利用深度强化学习学习到的最优策略方法无法转移到现实配电网环境中。
发明内容
针对大多数基于深度强化学习的配电网潮流优化方法都无法推广到现实配电网环境中的问题,本发明提出了一种鲁棒强化学习的配网潮流优化方法及计算机可读介质。
本发明方法的技术方案为一种鲁棒强化学习的配网潮流优化方法,包括以下步骤:
步骤1:获取配电网模型,分别选择多节点配电网模型中K1个节点作为多个火力发电节点、K2个节点作为多个分布式发电节点、K3个节点作为多个分布式储能节点、K4个节点作为多个负荷节点,获取多个时刻的每个火力发电节点出力的有功、多个时刻的每个火力发电节点出力的无功、多个时刻的每个分布式储能节点出力的有功、多个时刻的每个分布式储能节点出力的无功、多个时刻的每个负荷节点的有功、多个时刻的每个负荷节点的无功、多个时刻的每个分布式发电节点出力的最大有功、多个时刻的每个分布式发电节点出力的最大无功、多个时刻的每个分布式发电节点出力的有功、多个时刻的每个分布式发电节点出力的无功、多个时刻的每个分布式储能节点的荷电状态;
步骤2:依次构建配电网节点的有功平衡约束、配电网有功潮流约束、配电网无功潮流约束、火力发电单元的有功约束、火力发电单元的无功约束、分布式发电单元的有功约束、分布式发电单元的无功约束、分布式储能单元的荷电状态约束、负荷单元的有功约束,构建配电网综合损耗,以配电网综合损耗最小化作为潮流优化目标;
步骤3:根据每个时刻的每个火力发电节点出力的有功、每个时刻的每个分布式储能节点出力的有功、每个时刻的每个负荷节点的有功、每个时刻的每个负荷节点的无功、每个时刻的每个分布式发电节点出力的最大有功、每个时刻的每个分布式发电节点出力的最大无功、每个时刻的每个分布式储能节点的荷电状态构建每个时刻的状态集合,根据每个时刻的每个分布式发电节点的有功削减量、每个时刻的每个分布式发电节点的无功削减量、每个时刻的每个分布式储能节点的有功调节量、每个时刻的每个分布式储能节点的无功调节量构建每个时刻的主智能体动作集合,将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合,结合每个时刻的状态集合、每个时刻的主智能体动作集合分别计算每个时刻的主智能体的奖励值、每个时刻的主智能体的惩罚值,结合每个时刻的状态集合、每个时刻的攻击型智能体动作集合分别计算每个时刻的攻击型智能体的奖励值、每个时刻的攻击型智能体的惩罚值;通过多个时刻的状态集合、多个时刻的主智能体动作集合、多个时刻的主智能体奖励函数、多个时刻的主智能体惩罚函数构建配电网潮流优化主智能体;通过多个时刻的状态集合、多个时刻的攻击型智能体动作集合、多个时刻的攻击型智能体奖励函数、多个时刻的攻击型智能体惩罚函数构建配电网攻击型智能体;
步骤4:根据步骤3所述的主智能体和攻击型智能体构建双智能体零和博弈鲁棒强化学习模型,通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型,实现配电网鲁棒性增强的潮流优化。
作为优选,步骤1所述多个时刻的每个火力发电节点出力的有功,定义如下:
t∈[1,T]
tg∈[1,K1]
itg∈[1,M]
其中,T表示时刻的数量,K1表示火力发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的有功,即表示第t个时刻配电网模型中第itg个节点接入的火力发电节点的出力的有功;
步骤1所述多个时刻的每个火力发电节点出力的无功,定义如下:
t∈[1,T]
tg∈[1,K1]
itg∈[1,M]
其中,T表示时刻的数量,K1表示火力发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的无功,即表示第t个时刻配电网模型中第itg个节点接入的火力发电节点的出力的无功;
步骤1所述多个时刻的每个分布式储能节点出力的有功,定义如下:
t∈[1,T]
des∈[1,K3]
ides∈[1,M]
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的出力的有功,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的出力的有功;
作为优选,步骤1所述多个时刻的每个分布式储能节点出力的无功,定义如下:
t∈[1,T]
des∈[1,K3]
ides∈[1,M]
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的出力的无功,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的出力的无功;
步骤1所述多个时刻的每个负荷节点的有功,定义如下:
t∈[1,T]
l∈[1,K4]
il∈[1,M]
其中,T表示时刻的数量,K4表示负荷节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第l个负荷节点的出力的有功,即表示第t个时刻配电网模型中第il个节点接入的负荷节点的出力的有功;
步骤1所述多个时刻的每个负荷节点的无功,定义如下:
t∈[1,T]
l∈[1,K4]
il∈[1,M]
其中,T表示时刻的数量,K4表示负荷节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第l个负荷节点的出力的无功,即表示第t个时刻配电网模型中第il个节点接入的负荷节点的出力的无功;
步骤1所述多个时刻的每个分布式发电节点出力的最大有功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的最大有功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的最大有功;
步骤1所述多个时刻的每个分布式发电节点出力的最大无功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的最大无功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的最大无功;
步骤1所述多个时刻的每个分布式发电节点出力的有功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的有功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的有功;
步骤1所述多个时刻的每个分布式发电节点出力的无功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的无功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的无功;
步骤1所述多个时刻的每个分布式储能节点的荷电状态,定义如下:
t∈[1,T]
des∈[1,K3]
ides∈[1,M]
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的荷电状态,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的荷电状态;
作为优选,步骤2所述配电网节点的有功平衡约束,定义如下:
其中,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,K1表示火力发电节点的数量,K2表示分布式发电节点的数量,K3表示分布式储能节点的数量,K4表示负荷节点的数量;
步骤2所述配电网有功潮流约束,定义如下:
Pij=(Vi 2-ViVjcosθij)gij-ViVjbijsinθij
i∈[1,M]
j∈[1,M]
其中,Pij为节点i到节点j的有功潮流,Vi和Vj分别为节点i和节点j处的节点电压,θij为节点i到节点j的相角,gij为节点i到节点j的电导,bij为节点i到节点j的电纳,M表示配电网模型中节点的数量;
步骤2所述配电网无功潮流约束,定义如下:
Qij=-ViVjgijsinθij-(Vi 2-ViVjcosθij)bij
i∈[1,M]
j∈[1,M]
其中,Qij为节点i到节点j的无功潮流,Vi和Vj分别为节点i和节点j处的节点电压,θij和gij分别为节点电压相角和支路电导,M表示配电网模型中节点的数量;
步骤2所述火力发电单元和分布式发电单元的有功约束,定义如下:
其中,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的最大有功,的值随时间以及自然气象变化而上下浮动;M表示配电网模型中节点的数量;
步骤2所述火力发电单元和分布式发电单元的无功约束,定义如下:
其中,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的最大有功;
步骤2所述分布式储能单元的荷电状态约束,定义如下:
其中,表示第t个时刻第des个分布式储能节点的荷电状态,和分别为第t个时刻第des个分布式储能节点的最小荷电状态、第t个时刻第des个分布式储能节点的最大荷电状态,η∈[0,1]为分布式储能单元充放电效率系数,△t表示配电网络决策时刻t的变化量;
步骤2所述负荷单元的有功约束,定义如下:
其中,表示第t个时刻第l个负荷节点的出力的有功,表示第t个时刻第l个负荷节点的出力的最小有功;
步骤2所述配电网综合损耗,定义如下:
其中,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,T表示时刻的数量;
其中,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量,K1表示火力发电节点的数量,K2表示分布式发电节点的数量,K3表示分布式储能节点的数量,K4表示负荷节点的数量;
作为优选,步骤3所述每个时刻的状态集合,具体定义如下:
其中,T表示时刻的数量,st表示第t个时刻的状态集合,分别表示第t个时刻第tg个火力发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第des个分布式储能节点的出力的有功和无功,分别表示第t个时刻第l个负荷节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功,表示第t个时刻第des个分布式储能节点的荷电状态;
步骤3所述每个时刻的主智能体动作集合,具体定义如下:
其中,a1,t表示第t个时刻的主智能体动作集合;和分别代表第t个时刻第dg个分布式发电节点的有功值、无功削减值;和分别表示第t个时刻第des个分布式储能节点的有功值、无功注入值。
步骤3所述将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合,具体过程如下:
攻击型智能体的动作是对主智能体的马尔可夫观测状态施加扰动其动作集合a2,t与st形式与维度相同;
其中,a2,t表示第t个时刻的主智能体动作集合,分别表示第t个时刻第tg个火力发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第des个分布式储能节点的出力的有功、无功,分别表示第t个时刻第l个负荷节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功,表示第t个时刻第des个分布式储能节点的荷电状态;
步骤3所述计算每个时刻的主智能体的奖励值,具体过程如下:
其中,rt为即时奖励值,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗;
其中,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量。
步骤3所述计算每个时刻的主智能体的惩罚值,具体过程如下:
其中,Vi为节点i的电压值,Vi max为节点i的最大电压幅值,Vi min为节点i的最小电压幅值,M表示配电网模型中节点的数量。
其中,Sij(Sji)为节点i(j)到j(i)的功率值,为节点i到节点j的最大视在潮流,为节点i的最小视在潮流,M表示配电网模型中节点的数量。
步骤3所述计算每个时刻的攻击型智能体的奖励值,具体过程如下:
攻击型智能体的奖励值为主智能体的奖励值的相反数:
其中,rt为即时奖励值,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗;
其中,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量。
步骤3所述计算每个时刻的攻击型智能体的惩罚值,具体过程如下:
攻击型智能体的惩罚值与主智能体的惩罚值相同:
其中,Vi为节点i的电压值,Vi max为节点i的最大电压幅值,Vi min为节点i的最小电压幅值,M表示配电网模型中节点的数量。
其中,Sij(Sji)为节点i(j)到j(i)的功率值,为节点i到节点j的最大视在潮流,为节点i的最小视在潮流,M表示配电网模型中节点的数量。
作为优选,步骤4所述构建双智能体零和博弈鲁棒强化学习模型,具体如下:
主智能体通过深度强化学习算法和步骤3定义的主智能体、攻击型智能体状态集合、动作集合更新潮流优化策略μ的神经网络参数θ,策略μ使得主智能体的奖励函数期望值最大化,同时使得主智能体的惩罚函数期望值低于约束阈值K:
其中,μθ为主智能体人工神经网络参数为θ的潮流优化策略,vθ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略,st为主智能体和攻击型智能体的第t个时刻的状态集合,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合,rt为第t个时刻的奖励值,a1,t~μθ(st)表示输入为状态集合st时利用潮流优化策略μθ输出动作集合a1,t,a2,t~vθ′(st)表示输入为状态集合st时利用状态扰动策略vθ′输出动作集合a2,t,为主智能体利用潮流优化策略μθ获取到的奖励函数期望值,为主智能体利用潮流优化策略μθ获取到的惩罚函数期望值,T表示时刻的数量,c1为电压越限惩罚值,c2为潮流越限惩罚值,γ∈(0,1]为折扣因子,反映未来收益的重要程度,K为约束阈值,max表示利用潮流优化策略μθ获取最大值,E表示求期望。
攻击型智能体的目标是学习到状态扰动策略ν的最优网络参数θ’,对主智能体的观测状态进行扰动。与主智能体相反,攻击型智能体使其奖励函数期望值最小化,同时满足其惩罚函数期望值低于约束阈值K:
其中,μθ为主智能体人工神经网络参数为θ的潮流优化策略,vθ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略,st为主智能体和攻击型智能体的第t个时刻的状态集合,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合,rt为第t个时刻的奖励值,a1,t~μθ(st)表示输入为状态集合st时利用潮流优化策略μθ输出动作集合a1,t,a2,t~vθ′(st)表示输入为状态集合st时利用状态扰动策略vθ′输出动作集合a2,t,为攻击型智能体利用状态扰动策略vθ′获取到的奖励函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的惩罚函数期望值,T表示时刻的数量,c1为电压越限惩罚值,c2为潮流越限惩罚值,γ∈(0,1]为折扣因子,反映未来收益的重要程度,K为约束阈值,min表示利用状态扰动策略vθ′获取最小值,E表示求期望。
本质上,两智能体的目标、约束函数共同构成了双智能体零和博弈鲁棒强化学习模型目标约束形式:
其中,maxmin表示利用状态扰动策略vθ′获取最小值的同时利用潮流优化策略μθ获取最大值,为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的奖励函数期望值,为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的惩罚函数期望值,K为约束阈值;
将拉格朗日乘子法应用于上述目标约束优化问题,使其转换为无约束优化问题。主智能体得到无约束目标形式:
攻击智能体得到无约束目标形式:
其中,为主智能体潮流优化策略μθ的无约束优化目标,为攻击型智能体潮流优化策略vθ′的无约束优化目标,为主智能体利用潮流优化策略μθ获取到的奖励函数期望值,为主智能体利用潮流优化策略μθ获取到的惩罚函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的奖励函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的惩罚函数期望值,β为可迭代更新的拉格朗日乘子参数,λ为可迭代更新的拉格朗日乘子参数,用于权衡智能体的决策策略神经网络参数在奖励和惩罚之间的取舍更新,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合。
根据上述分析,可以将双智能体零和博弈鲁棒强化学习模型目标约束形式转化为如下双智能体零和博弈鲁棒强化学习模型无约束目标形式:
为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的无约束优化目标,得到双智能体零和博弈鲁棒强化学习模型的求解目标;
步骤4所通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型,具体如下:
构建目标函数,具体如下::
其中,argmax表示是求函数最大化的参数,E为求期望,为奖励函数的时序差分残差,将其定义为优势函数。DKL为使用KL散度来衡量新人工神经网络参数θnew和旧人工神经网络参数θ之间的更新距离,为主智能体的惩罚函数期望值,表示输入状态为s时,利用潮流优化策略输出动作a的概率,μθ(a|s)表示输入状态为s时,利用潮流优化策略μθ输出动作a的概率,δ为KL距离的阈值,K为约束阈值。
首先利用泰勒展开公式对其进行近似处理:
其中,argmax表示是求函数最大化的参数,g表示求解目标项的梯度,H表示求新人工神经网络参数θnew和旧人工神经网络参数θ之间平均KL距离的黑塞矩阵,δ为KL距离的阈值;
构建Lag-TRPO算法,具体如下:
再利用拉格朗日乘子法将带惩罚函数期望值约束项变换到求解目标项上成为无约束形式,通过人工神经网络梯度下降法使得拉格朗日乘子β自适应收敛到合适的值,从而实现有约束到无约束优化问题的等价转换;所述TA-Lag-TRPO算法具体如下:
实现的是主智能体和攻击型智能体之间的零和博弈训练过程;
固定攻击型智能体的扰动策略v,主智能体学习决策策略μ以及如何防御攻击型智能体的状态扰动攻击;在T步决策中,Lag-TRPO算法根据第n次迭代的决策参数θn、第n-1次迭代的扰动参数θ′n-1依次做出决策a1,t,a2,t,同时对训练序列日志数据{st,a1,t,a2,t,rt,ct}进行采样,评价所做决策并更新优化决策参数θn。T步决策后,固定住主智能体的调度决策策略μ,攻击型智能体学习如何攻击和干扰主智能体的决策,与上述过程相似。在T步决策中,Lag-TRPO算法根据第n次迭代的决策参数θn、第n次迭代的扰动参数θ′n依次做出决策a1,t,a2,t,同时对训练序列日志数据{st,a1,t,a2,t,rt,ct}进行采样,评价所做决策并更新扰动策略ν参数θ′n。交替进行上述过程直至循环结束,返回主智能体决策策略μ参数θN,攻击型智能体扰动策略ν参数θ'N,n≤N,N为最大迭代次数;
本发明还提供了一种计算机可读介质,所述计算机可读介质存储电子设备执行的计算机程序,当所述计算机程序在电子设备上运行时,执行所述鲁棒强化学习的配网潮流优化方法的步骤。
与现有技术相比,本发明的有益效果是:
本发明能够充分考虑模拟配电网仿真模型与现实电网环境之间的差距,建立对潮流优化主智能体施加观测状态扰动的攻击型智能体。该攻击型智能体与潮流优化主智能体交替式训练、异步执行,相互对抗博弈,形成一个基于Maximin策略的零和博弈。潮流优化主智能体在与攻击型智能体进行基于Maximin策略零和博弈训练的过程中将逐渐提升对外界干扰的鲁棒性以及外部攻击下配电网潮流优化的安全性。该方法旨在优化解决大多数基于深度强化学习的配电网潮流优化问题,提升配电网潮流优化方法的鲁棒性与安全性、保障配电网的安全运行。
充分考虑模拟电网环境和现实电网环境之间的差距,建立面向提高对外界干扰的鲁棒性以及外部攻击下的配电网电网潮流优化模型;
模拟了电网环境和现实电网环境之间的差距,重点关注因电力环境建模误差或者训练、测试输入数据误差以导致智能体利用深度强化学习算法学习到的最优策略无法转移到现实世界中的问题;
将Maximin方法用于鲁棒强化学习,并提出了一种新的基于MA-Lag-TRPO算法的Maximin学习目标。该潮流优化模型旨在优化提高配电网自动化调度、优化过程中的鲁棒性和安全性,改善配电网的安全运行可靠性、提高配电网的投资效益。
附图说明
图1:本发明实施例的方法流程图。
图2:本发明实施例的配电网环境建模示意图。
图3:本发明实施例的基于配电网潮流优化马尔可夫零和博弈模型总体框架图。
图4:本发明实施例的TA-Lag-TRPO算法流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1为本发明实施例提供的基于鲁棒强化学习的配电网潮流优化方法的流程图。如图1所示,该方法包括:
步骤1:获取配电网模型,分别选择多节点配电网模型中K1个节点作为多个火力发电节点、K2个节点作为多个分布式发电节点、K3个节点作为多个分布式储能节点、K4个节点作为多个负荷节点,获取多个时刻的每个火力发电节点出力的有功、多个时刻的每个火力发电节点出力的无功、多个时刻的每个分布式储能节点出力的有功、多个时刻的每个分布式储能节点出力的无功、多个时刻的每个负荷节点的有功、多个时刻的每个负荷节点的无功、多个时刻的每个分布式发电节点出力的最大有功、多个时刻的每个分布式发电节点出力的最大无功、多个时刻的每个分布式发电节点出力的有功、多个时刻的每个分布式发电节点出力的无功、多个时刻的每个分布式储能节点的荷电状态;
步骤1所述多个时刻的每个火力发电节点出力的有功,定义如下:
t∈[1,T]
tg∈[1,K1]
itg∈[1,M]
其中,T表示时刻的数量,K1表示火力发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的有功,即表示第t个时刻配电网模型中第itg个节点接入的火力发电节点的出力的有功;
步骤1所述多个时刻的每个火力发电节点出力的无功,定义如下:
t∈[1,T]
tg∈[1,K1]
itg∈[1,M]
其中,T表示时刻的数量,K1表示火力发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的无功,即表示第t个时刻配电网模型中第itg个节点接入的火力发电节点的出力的无功;
步骤1所述多个时刻的每个分布式储能节点出力的有功,定义如下:
t∈[1,T]
des∈[1,K3]
ides∈[1,M]
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的出力的有功,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的出力的有功;
步骤1所述多个时刻的每个分布式储能节点出力的无功,定义如下:
t∈[1,T]
des∈[1,K3]
ides∈[1,M]
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的出力的无功,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的出力的无功;
步骤1所述多个时刻的每个负荷节点的有功,定义如下:
t∈[1,T]
l∈[1,K4]
il∈[1,M]
其中,T表示时刻的数量,K4表示负荷节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第l个负荷节点的出力的有功,即表示第t个时刻配电网模型中第il个节点接入的负荷节点的出力的有功;
步骤1所述多个时刻的每个负荷节点的无功,定义如下:
t∈[1,T]
l∈[1,K4]
il∈[1,M]
其中,T表示时刻的数量,K4表示负荷节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第l个负荷节点的出力的无功,即表示第t个时刻配电网模型中第il个节点接入的负荷节点的出力的无功;
步骤1所述多个时刻的每个分布式发电节点出力的最大有功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的最大有功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的最大有功;
步骤1所述多个时刻的每个分布式发电节点出力的最大无功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的最大无功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的最大无功;
步骤1所述多个时刻的每个分布式发电节点出力的有功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的有功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的有功;
步骤1所述多个时刻的每个分布式发电节点出力的无功,定义如下:
t∈[1,T]
dg∈[1,K2]
idg∈[1,M]
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的无功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的无功;
步骤1所述多个时刻的每个分布式储能节点的荷电状态,定义如下:
t∈[1,T]
des∈[1,K3]
ides∈[1,M]
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的荷电状态,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的荷电状态;
图2是本发明实施例的配电网环境建模示意图。如图2所示:
配电网模拟环境具有包含火力发电和分布式发电的发电单元、与配电网实现能源双向流动的分布式储能单元、具有一定负荷特性的负荷单元。步骤1已经选择多节点配电网模型中K1、K2、K3、K4个节点作为火力发电、分布式发电、分布式储能、负荷节点。获取多个时刻每个节点的有、无功出力和最大有、无功出力,分布式储能节点的荷电状态。配电网潮流优化模拟环境需要考虑潮流优化目标-约束模型,步骤2依次构建各约束和目标。
步骤2:依次构建配电网节点的有功平衡约束、配电网支路有功约束、配电网无功潮流等式约束、火力发电单元的有功约束、火力发电单元的无功约束、分布式储能单元的荷电状态约束、负荷单元的有功约束,构建配电网综合损耗,以配电网综合损耗最小化作为潮流优化目标;
步骤2所述配电网节点的有功平衡约束,定义如下:
其中,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,K1表示火力发电节点的数量,K2表示分布式发电节点的数量,K3表示分布式储能节点的数量,K4表示负荷节点的数量;
步骤2所述配电网支路有功潮流约束,定义如下:
Pij=(Vi 2-ViVjcosθij)gij-ViVjbijsinθij
i∈[1,M]
j∈[1,M]
其中,Pij为节点i到节点j的有功潮流,Vi和Vj分别为节点i和节点j处的节点电压,θij为节点i到节点j的相角,gij为节点i到节点j的电导,bij为节点i到节点j的电纳,M表示配电网模型中节点的数量;
步骤2所述配电网无功潮流约束,定义如下:
Qij=-ViVjgijsinθij-(Vi 2-ViVjcosθij)bij
i∈[1,M]
j∈[1,M]
其中,Qij为节点i到节点j的无功潮流,Vi和Vj分别为节点i和节点j处的节点电压,θij和gij分别为节点电压相角和支路电导,M表示配电网模型中节点的数量;
步骤2所述火力发电单元和分布式发电单元的有功约束,定义如下:
其中,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的最大有功,的值随时间以及自然气象变化而上下浮动;M表示配电网模型中节点的数量;
步骤2所述火力发电单元和分布式发电单元的无功约束,定义如下:
布式发电单元的有功约束,定义如下:
其中,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的最大有功;
步骤2所述分布式储能单元的荷电状态约束,定义如下:
其中,表示第t个时刻第des个分布式储能节点的荷电状态,和分别为第t个时刻第des个分布式储能节点的最小荷电状态、第t个时刻第des个分布式储能节点的最大荷电状态,η∈[0,1]为分布式储能单元充放电效率系数,△t表示配电网络决策时刻t的变化量;
步骤2所述负荷单元的有功约束,定义如下:
其中,表示第t个时刻第l个负荷节点的出力的有功,表示第t个时刻第l个负荷节点的出力的最小有功;
步骤2所述配电网综合损耗,定义如下:
其中,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,T表示时刻的数量;
其中,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量,K1表示火力发电节点的数量,K2表示分布式发电节点的数量,K3表示分布式储能节点的数量,K4表示负荷节点的数量;
图3是本发明实施例的基于配电网潮流优化马尔可夫零和博弈模型总体框架图。如图3所示:
基于配电网潮流优化马尔可夫零和博弈模型主要模拟实现配电网潮流优化主智能体与攻击型智能体之间的双智能体零和博弈。其中,将配电网仿真模型与现实配网环境之间的差距建模为攻击型智能体。其训练目标是对配电网主智能体的马尔可夫观测状态施加外界扰动,企图干扰配网潮流优化过程。两智能体具有相反的奖励函数和相同的惩罚约束条件,构成零和博弈。步骤3依次构建配电网潮流优化主智能体和攻击型智能体的状态、动作、奖励、惩罚集合。
步骤3:根据每个时刻的每个火力发电节点出力的有功、每个时刻的每个分布式储能节点出力的有功、每个时刻的每个负荷节点的有功、每个时刻的每个负荷节点的无功、每个时刻的每个分布式发电节点出力的最大有功、每个时刻的每个分布式发电节点出力的最大无功、每个时刻的每个分布式储能节点的荷电状态构建每个时刻的状态集合,根据每个时刻的每个分布式发电节点的有功削减量、每个时刻的每个分布式发电节点的无功削减量、每个时刻的每个分布式储能节点的有功调节量、每个时刻的每个分布式储能节点的无功调节量构建每个时刻的主智能体动作集合,将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合,结合每个时刻的状态集合、每个时刻的主智能体动作集合分别计算每个时刻的主智能体的奖励值、每个时刻的主智能体的惩罚值,结合每个时刻的状态集合、每个时刻的攻击型智能体动作集合分别计算每个时刻的攻击型智能体的奖励值、每个时刻的攻击型智能体的惩罚值;通过多个时刻的状态集合、多个时刻的主智能体动作集合、多个时刻的主智能体奖励函数、多个时刻的主智能体惩罚函数构建配电网潮流优化主智能体;通过多个时刻的状态集合、多个时刻的攻击型智能体动作集合、多个时刻的攻击型智能体奖励函数、多个时刻的攻击型智能体惩罚函数构建配电网攻击型智能体;
步骤3所述每个时刻的状态集合,具体定义如下:
其中,T表示时刻的数量,st表示第t个时刻的状态集合,分别表示第t个时刻第tg个火力发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第des个分布式储能节点的出力的有功和无功,分别表示第t个时刻第l个负荷节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功,表示第t个时刻第des个分布式储能节点的荷电状态;
步骤3所述每个时刻的主智能体动作集合,具体定义如下:
其中,a1,t表示第t个时刻的主智能体动作集合;和分别代表第t个时刻第dg个分布式发电节点的有功值、无功削减值;和分别表示第t个时刻第des个分布式储能节点的有功值、无功注入值。
步骤3所述将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合,具体过程如下:
攻击型智能体的动作是对主智能体的马尔可夫观测状态施加扰动其动作集合a2,t与st形式与维度相同;
其中,a2,t表示第t个时刻的主智能体动作集合,分别表示第t个时刻第tg个火力发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第des个分布式储能节点的出力的有功、无功,分别表示第t个时刻第l个负荷节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功,表示第t个时刻第des个分布式储能节点的荷电状态;
步骤3所述计算每个时刻的主智能体的奖励值,具体过程如下:
其中,rt为即时奖励值,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗;
其中,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量。
步骤3所述计算每个时刻的主智能体的惩罚值,具体过程如下:
其中,Vi为节点i的电压值,Vi max为节点i的最大电压幅值,Vi min为节点i的最小电压幅值,M表示配电网模型中节点的数量。
其中,Sij(Sji)为节点i(j)到j(i)的功率值,为节点i到节点j的最大视在潮流,为节点i的最小视在潮流,M表示配电网模型中节点的数量。
步骤3所述计算每个时刻的攻击型智能体的奖励值,具体过程如下:
攻击型智能体的奖励值为主智能体的奖励值的相反数:
其中,rt为即时奖励值,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗;
其中,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量。
步骤3所述计算每个时刻的攻击型智能体的惩罚值,具体过程如下:
攻击型智能体的惩罚值与主智能体的惩罚值相同:
其中,Vi为节点i的电压值,Vi max为节点i的最大电压幅值,Vi min为节点i的最小电压幅值,M表示配电网模型中节点的数量。
其中,Sij(Sji)为节点i(j)到j(i)的功率值,为节点i到节点j的最大视在潮流,为节点i的最小视在潮流,M表示配电网模型中节点的数量。
步骤4:根据步骤3所述的主智能体和攻击型智能体构建双智能体零和博弈鲁棒强化学习模型,通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型,实现配电网鲁棒性增强的潮流优化。
步骤4所述构建双智能体零和博弈鲁棒强化学习模型,具体如下:
主智能体通过深度强化学习算法和步骤3定义的主智能体、攻击型智能体状态集合、动作集合更新潮流优化策略μ的神经网络参数θ,策略μ使得主智能体的奖励函数期望值最大化,同时使得主智能体的惩罚函数期望值低于约束阈值K:
其中,μθ为主智能体人工神经网络参数为θ的潮流优化策略,vθ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略,st为主智能体和攻击型智能体的第t个时刻的状态集合,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合,rt为第t个时刻的奖励值,a1,t~μθ(st)表示输入为状态集合st时利用潮流优化策略μθ输出动作集合a1,t,a2,t~vθ′(st)表示输入为状态集合st时利用状态扰动策略vθ′输出动作集合a2,t,为主智能体利用潮流优化策略μθ获取到的奖励函数期望值,为主智能体利用潮流优化策略μθ获取到的惩罚函数期望值,T表示时刻的数量,c1为电压越限惩罚值,c2为潮流越限惩罚值,γ∈(0,1]为折扣因子,反映未来收益的重要程度,K为约束阈值,max表示利用潮流优化策略μθ获取最大值,E表示求期望。
攻击型智能体的目标是学习到状态扰动策略ν的最优网络参数θ’,对主智能体的观测状态进行扰动。与主智能体相反,攻击型智能体使其奖励函数期望值最小化,同时满足其惩罚函数期望值低于约束阈值K:
其中,μθ为主智能体人工神经网络参数为θ的潮流优化策略,vθ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略,st为主智能体和攻击型智能体的第t个时刻的状态集合,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合,rt为第t个时刻的奖励值,a1,t~μθ(st)表示输入为状态集合st时利用潮流优化策略μθ输出动作集合a1,t,a2,t~vθ′(st)表示输入为状态集合st时利用状态扰动策略vθ′输出动作集合a2,t,为攻击型智能体利用状态扰动策略vθ′获取到的奖励函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的惩罚函数期望值,T表示时刻的数量,c1为电压越限惩罚值,c2为潮流越限惩罚值,γ∈(0,1]为折扣因子,反映未来收益的重要程度,K为约束阈值,min表示利用状态扰动策略vθ′获取最小值,E表示求期望。
本质上,两智能体的目标、约束函数共同构成了双智能体零和博弈鲁棒强化学习模型目标约束形式:
其中,maxmin表示利用状态扰动策略vθ′获取最小值的同时利用潮流优化策略μθ获取最大值,为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的奖励函数期望值,为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的惩罚函数期望值,K为约束阈值;
将拉格朗日乘子法应用于上述目标约束优化问题,使其转换为无约束优化问题。主智能体得到无约束目标形式:
攻击智能体得到无约束目标形式:
其中,为主智能体潮流优化策略μθ的无约束优化目标,为攻击型智能体潮流优化策略vθ′的无约束优化目标,为主智能体利用潮流优化策略μθ获取到的奖励函数期望值,为主智能体利用潮流优化策略μθ获取到的惩罚函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的奖励函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的惩罚函数期望值,β为可迭代更新的拉格朗日乘子参数,λ为可迭代更新的拉格朗日乘子参数,用于权衡智能体的决策策略神经网络参数在奖励和惩罚之间的取舍更新,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合。
根据上述分析,可以将双智能体零和博弈鲁棒强化学习模型目标约束形式转化为如下双智能体零和博弈鲁棒强化学习模型无约束目标形式:
为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的无约束优化目标,得到双智能体零和博弈鲁棒强化学习模型的求解目标;
步骤4所通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型,具体如下:
构建目标函数,具体如下::
其中,argmax表示是求函数最大化的参数,E为求期望,为奖励函数的时序差分残差,将其定义为优势函数。DKL为使用KL散度来衡量新人工神经网络参数θnew和旧人工神经网络参数θ之间的更新距离,为主智能体的惩罚函数期望值,表示输入状态为s时,利用潮流优化策略输出动作a的概率,μθ(a|s)表示输入状态为s时,利用潮流优化策略μθ输出动作a的概率,δ为KL距离的阈值,K为约束阈值。
首先利用泰勒展开公式对其进行近似处理:
其中,argmax表示是求函数最大化的参数,g表示求解目标项的梯度,H表示求新人工神经网络参数θnew和旧人工神经网络参数θ之间平均KL距离的黑塞矩阵,δ为KL距离的阈值;
构建Lag-TRPO算法,具体如下:
再利用拉格朗日乘子法将带惩罚函数期望值约束项变换到求解目标项上成为无约束形式,通过人工神经网络梯度下降法使得拉格朗日乘子β自适应收敛到合适的值,从而实现有约束到无约束优化问题的等价转换;
针对双智能体零和博弈鲁棒强化学习模型无约束目标形式,结合TRPO算法以及拉格朗日乘子法,提出了一种TA-Lag-TRPO算法来实现主智能体和攻击型智能体的博弈训练,求解双智能体零和博弈鲁棒强化学习模型。所述TA-Lag-TRPO算法具体如下:
图4是本发明实施例的MA-Lag-TRPO算法流程图:
具体实现的是主智能体和攻击型智能体之间的零和博弈训练过程。固定攻击型智能体的扰动策略v,主智能体学习决策策略μ以及如何防御攻击型智能体的状态扰动攻击;在T步决策中,Lag-TRPO算法根据第n次迭代的决策参数θn、第n-1次迭代的扰动参数θn'-1依次做出决策a1,t,a2,t,同时对训练序列日志数据{st,a1,t,a2,t,rt,ct}进行采样,评价所做决策并更新优化决策参数θn。T步决策后,固定住主智能体的调度决策策略μ,攻击型智能体学习如何攻击和干扰主智能体的决策,与上述过程相似。在T步决策中,Lag-TRPO算法根据第n次迭代的决策参数θn、第n次迭代的扰动参数θn'依次做出决策a1,t,a2,t,同时对训练序列日志数据{st,a1,t,a2,t,rt,ct}进行采样,评价所做决策并更新扰动策略ν参数θn'。交替进行上述过程直至循环结束,返回主智能体决策策略μ参数θN,攻击型智能体扰动策略ν参数θ'N,n≤N,N为最大迭代次数;
本发明的具体实施例还提供了一种计算机可读介质。
所述计算机可读介质为服务器工作站;
所述服务器工作站存储电子设备执行的计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行本发明实施例的鲁棒强化学习的配网潮流优化方法的步骤。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (10)
1.一种鲁棒强化学习的配网潮流优化方法,其特征在于:
获取配电网模型、分布式发电节点、分布式储能节点、火力发电节点、负荷节点出力的数据;
构建配电网综合损耗,以配电网综合损耗最小化作为潮流优化目标;
构建每个时刻的状态集合、每个时刻的主智能体动作集合、每个时刻的攻击型智能体动作集合,进一步构建配电网潮流优化主智能体、配电网攻击型智能体;
构建双智能体零和博弈鲁棒强化学习模型,通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型。
2.根据权利要求1所述的鲁棒强化学习的配网潮流优化方法,其特征在于,包括以下步骤:
步骤1:获取配电网模型,分别选择多节点配电网模型中K1个节点作为多个火力发电节点、K2个节点作为多个分布式发电节点、K3个节点作为多个分布式储能节点、K4个节点作为多个负荷节点,获取多个时刻的每个火力发电节点出力的有功、多个时刻的每个火力发电节点出力的无功、多个时刻的每个分布式储能节点出力的有功、多个时刻的每个分布式储能节点出力的无功、多个时刻的每个负荷节点的有功、多个时刻的每个负荷节点的无功、多个时刻的每个分布式发电节点出力的最大有功、多个时刻的每个分布式发电节点出力的最大无功、多个时刻的每个分布式发电节点出力的有功、多个时刻的每个分布式发电节点出力的无功、多个时刻的每个分布式储能节点的荷电状态;
步骤2:依次构建配电网节点的有功平衡约束、配电网有功潮流约束、配电网无功潮流约束、火力发电单元的有功约束、火力发电单元的无功约束、分布式发电单元的有功约束、分布式发电单元的无功约束、分布式储能单元的荷电状态约束、负荷单元的有功约束,构建配电网综合损耗,以配电网综合损耗最小化作为潮流优化目标;
步骤3:根据每个时刻的每个火力发电节点出力的有功、每个时刻的每个分布式储能节点出力的有功、每个时刻的每个负荷节点的有功、每个时刻的每个负荷节点的无功、每个时刻的每个分布式发电节点出力的最大有功、每个时刻的每个分布式发电节点出力的最大无功、每个时刻的每个分布式储能节点的荷电状态构建每个时刻的状态集合,根据每个时刻的每个分布式发电节点的有功削减量、每个时刻的每个分布式发电节点的无功削减量、每个时刻的每个分布式储能节点的有功调节量、每个时刻的每个分布式储能节点的无功调节量构建每个时刻的主智能体动作集合,将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合,结合每个时刻的状态集合、每个时刻的主智能体动作集合分别计算每个时刻的主智能体的奖励值、每个时刻的主智能体的惩罚值,结合每个时刻的状态集合、每个时刻的攻击型智能体动作集合分别计算每个时刻的攻击型智能体的奖励值、每个时刻的攻击型智能体的惩罚值;通过多个时刻的状态集合、多个时刻的主智能体动作集合、多个时刻的主智能体奖励函数、多个时刻的主智能体惩罚函数构建配电网潮流优化主智能体;通过多个时刻的状态集合、多个时刻的攻击型智能体动作集合、多个时刻的攻击型智能体奖励函数、多个时刻的攻击型智能体惩罚函数构建配电网攻击型智能体;
步骤4:根据主智能体和攻击型智能体构建双智能体零和博弈鲁棒强化学习模型,通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型,实现配电网鲁棒性增强的潮流优化。
3.根据权利要求2所述的鲁棒强化学习的配网潮流优化方法,其特征在于:
步骤1所述多个时刻的每个火力发电节点出力的有功,定义如下:
其中,T表示时刻的数量,K1表示火力发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的有功,即表示第t个时刻配电网模型中第itg个节点接入的火力发电节点的出力的有功;
步骤1所述多个时刻的每个火力发电节点出力的无功,定义如下:
其中,T表示时刻的数量,K1表示火力发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的无功,即表示第t个时刻配电网模型中第itg个节点接入的火力发电节点的出力的无功;
步骤1所述多个时刻的每个分布式储能节点出力的有功,定义如下:
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的出力的有功,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的出力的有功;
步骤1所述多个时刻的每个分布式储能节点出力的无功,定义如下:
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的出力的无功,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的出力的无功;
步骤1所述多个时刻的每个负荷节点的有功,定义如下:
其中,T表示时刻的数量,K4表示负荷节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第l个负荷节点的出力的有功,即表示第t个时刻配电网模型中第il个节点接入的负荷节点的出力的有功;
步骤1所述多个时刻的每个负荷节点的无功,定义如下:
其中,T表示时刻的数量,K4表示负荷节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第l个负荷节点的出力的无功,即表示第t个时刻配电网模型中第il个节点接入的负荷节点的出力的无功;
步骤1所述多个时刻的每个分布式发电节点出力的最大有功,定义如下:
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的最大有功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的最大有功;
步骤1所述多个时刻的每个分布式发电节点出力的最大无功,定义如下:
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的最大无功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的最大无功;
步骤1所述多个时刻的每个分布式发电节点出力的有功,定义如下:
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的有功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的有功;
步骤1所述多个时刻的每个分布式发电节点出力的无功,定义如下:
其中,T表示时刻的数量,K2表示分布式发电节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第dg个分布式发电节点的出力的无功,即表示第t个时刻配电网模型中第idg个节点接入的分布式发电节点的出力的无功;
步骤1所述多个时刻的每个分布式储能节点的荷电状态,定义如下:
其中,T表示时刻的数量,K3表示分布式储能节点的数量,M表示配电网模型中节点的数量,表示第t个时刻第des个分布式储能节点的荷电状态,即表示第t个时刻配电网模型中第ides个节点接入的分布式储能节点的荷电状态。
4.根据权利要求3所述的鲁棒强化学习的配网潮流优化方法,其特征在于:
步骤2所述配电网节点的有功平衡约束,定义如下:
其中,M表示配电网模型中节点的数量,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,K1表示火力发电节点的数量,K2表示分布式发电节点的数量,K3表示分布式储能节点的数量,K4表示负荷节点的数量;
步骤2所述配电网有功潮流约束,定义如下:
Pij=(Vi 2-ViVjcosθij)gij-ViVjbijsinθij
i∈[1,M]
j∈[1,M]
其中,Pij为节点i到节点j的有功潮流,Vi和Vj分别为节点i和节点j处的节点电压,θij为节点i到节点j的相角,gij为节点i到节点j的电导,bij为节点i到节点j的电纳,M表示配电网模型中节点的数量;
步骤2所述配电网无功潮流约束,定义如下:
Qij=-ViVjgijsinθij-(Vi 2-ViVjcosθij)bij
i∈[1,M]
j∈[1,M]
其中,Qij为节点i到节点j的无功潮流,Vi和Vj分别为节点i和节点j处的节点电压,θij和gij分别为节点电压相角和支路电导,M表示配电网模型中节点的数量;
步骤2所述火力发电单元和分布式发电单元的有功约束,定义如下:
其中,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的最大有功,的值随时间以及自然气象变化而上下浮动;M表示配电网模型中节点的数量;
步骤2所述火力发电单元和分布式发电单元的无功约束,定义如下:
其中,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的最大有功;
步骤2所述分布式储能单元的荷电状态约束,定义如下:
其中,表示第t个时刻第des个分布式储能节点的荷电状态,和分别为第t个时刻第des个分布式储能节点的最小荷电状态、第t个时刻第des个分布式储能节点的最大荷电状态,η∈[0,1]为分布式储能单元充放电效率系数,△t表示配电网络决策时刻t的变化量;
步骤2所述负荷单元的有功约束,定义如下:
其中,表示第t个时刻第l个负荷节点的出力的有功,表示第t个时刻第l个负荷节点的出力的最小有功。
5.根据权利要求4所述的鲁棒强化学习的配网潮流优化方法,其特征在于:
步骤2所述配电网综合损耗,定义如下:
其中,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,T表示时刻的数量;
其中,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量,K1表示火力发电节点的数量,K2表示分布式发电节点的数量,K3表示分布式储能节点的数量,K4表示负荷节点的数量。
6.根据权利要求5所述的鲁棒强化学习的配网潮流优化方法,其特征在于:
步骤3所述每个时刻的状态集合,具体定义如下:
其中,T表示时刻的数量,st表示第t个时刻的状态集合,分别表示第t个时刻第tg个火力发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第des个分布式储能节点的出力的有功和无功,分别表示第t个时刻第l个负荷节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功,表示第t个时刻第des个分布式储能节点的荷电状态;
步骤3所述每个时刻的主智能体动作集合,具体定义如下:
其中,a1,t表示第t个时刻的主智能体动作集合;和分别代表第t个时刻第dg个分布式发电节点的有功值、无功削减值;和分别表示第t个时刻第des个分布式储能节点的有功值、无功注入值;
步骤3所述将每个时刻的状态集合进行扰动构建每个时刻的攻击型智能体动作集合,具体过程如下:
攻击型智能体的动作是对主智能体的马尔可夫观测状态施加扰动其动作集合a2,t与st形式与维度相同;
其中,a2,t表示第t个时刻的主智能体动作集合,分别表示第t个时刻第tg个火力发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的有功、无功,分别表示第t个时刻第des个分布式储能节点的出力的有功、无功,分别表示第t个时刻第l个负荷节点的出力的有功、无功,分别表示第t个时刻第dg个分布式发电节点的出力的最大有功、无功,表示第t个时刻第des个分布式储能节点的荷电状态。
7.根据权利要求6所述的鲁棒强化学习的配网潮流优化方法,其特征在于:
步骤3所述计算每个时刻的主智能体的奖励值,具体过程如下:
其中,rt为即时奖励值,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗;
其中,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量;
步骤3所述计算每个时刻的主智能体的惩罚值,具体过程如下:
其中,Vi为节点i的电压值,Vi max为节点i的最大电压幅值,Vi min为节点i的最小电压幅值,M表示配电网模型中节点的数量;
其中,Sij(Sji)为节点i(j)到j(i)的功率值,为节点i到节点j的最大视在潮流,为节点i的最小视在潮流,M表示配电网模型中节点的数量;
步骤3所述计算每个时刻的攻击型智能体的奖励值,具体过程如下:
攻击型智能体的奖励值为主智能体的奖励值的相反数:
其中,rt为即时奖励值,表示第t个时刻分布式发电节点在削减出力过程中的能量损耗;表示第t个时刻电力线路能量损耗;表示第t个时刻分布式储能节点在储、放电能过程的电能损耗;
其中,表示第t个时刻第dg个分布式发电节点的出力的最大有功,表示第t个时刻第dg个分布式发电节点的出力的有功,表示第t个时刻第tg个火力发电节点的出力的有功,表示第t个时刻第des个分布式储能节点的出力的有功,表示第t个时刻第l个负荷节点的出力的有功,Δ表示求t到t+1时刻的变化量;
步骤3所述计算每个时刻的攻击型智能体的惩罚值,具体过程如下:
攻击型智能体的惩罚值与主智能体的惩罚值相同:
其中,Vi为节点i的电压值,Vi max为节点i的最大电压幅值,Vi min为节点i的最小电压幅值,M表示配电网模型中节点的数量;
其中,Sij(Sji)为节点i(j)到j(i)的功率值,为节点i到节点j的最大视在潮流,为节点i的最小视在潮流,M表示配电网模型中节点的数量。
8.根据权利要求7所述的鲁棒强化学习的配网潮流优化方法,其特征在于:
步骤4所述构建双智能体零和博弈鲁棒强化学习模型,具体如下:
主智能体通过深度强化学习算法和步骤3定义的主智能体、攻击型智能体状态集合、动作集合更新潮流优化策略μ的神经网络参数θ,策略μ使得主智能体的奖励函数期望值最大化,同时使得主智能体的惩罚函数期望值低于约束阈值K:
其中,μθ为主智能体人工神经网络参数为θ的潮流优化策略,vθ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略,st为主智能体和攻击型智能体的第t个时刻的状态集合,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合,rt为第t个时刻的奖励值,a1,t~μθ(st)表示输入为状态集合st时利用潮流优化策略μθ输出动作集合a1,t,a2,t~vθ′(st)表示输入为状态集合st时利用状态扰动策略vθ′输出动作集合a2,t,为主智能体利用潮流优化策略μθ获取到的奖励函数期望值,为主智能体利用潮流优化策略μθ获取到的惩罚函数期望值,T表示时刻的数量,c1为电压越限惩罚值,c2为潮流越限惩罚值,γ∈(0,1]为折扣因子,反映未来收益的重要程度,K为约束阈值,max表示利用潮流优化策略μθ获取最大值,E表示求期望;
攻击型智能体的目标是学习到状态扰动策略ν的最优网络参数θ’,对主智能体的观测状态进行扰动;与主智能体相反,攻击型智能体使其奖励函数期望值最小化,同时满足其惩罚函数期望值低于约束阈值K:
其中,μθ为主智能体人工神经网络参数为θ的潮流优化策略,vθ′为攻击型智能体人工神经网络参数为θ’的状态扰动策略,st为主智能体和攻击型智能体的第t个时刻的状态集合,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合,rt为第t个时刻的奖励值,a1,t~μθ(st)表示输入为状态集合st时利用潮流优化策略μθ输出动作集合a1,t,a2,t~vθ′(st)表示输入为状态集合st时利用状态扰动策略vθ′输出动作集合a2,t,为攻击型智能体利用状态扰动策略vθ′获取到的奖励函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的惩罚函数期望值,T表示时刻的数量,c1为电压越限惩罚值,c2为潮流越限惩罚值,γ∈(0,1]为折扣因子,反映未来收益的重要程度,K为约束阈值,min表示利用状态扰动策略vθ′获取最小值,E表示求期望;
两智能体的目标、约束函数共同构成了双智能体零和博弈鲁棒强化学习模型目标约束形式:
其中,maxmin表示利用状态扰动策略vθ′获取最小值的同时利用潮流优化策略μθ获取最大值,为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的奖励函数期望值,为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的惩罚函数期望值,K为约束阈值;
将拉格朗日乘子法应用于上述目标约束优化问题,使其转换为无约束优化问题;主智能体得到无约束目标形式:
攻击智能体得到无约束目标形式:
其中,为主智能体潮流优化策略μθ的无约束优化目标,为攻击型智能体潮流优化策略vθ′的无约束优化目标,Rμθ为主智能体利用潮流优化策略μθ获取到的奖励函数期望值,为主智能体利用潮流优化策略μθ获取到的惩罚函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的奖励函数期望值,为攻击型智能体利用状态扰动策略vθ′获取到的惩罚函数期望值,β为可迭代更新的拉格朗日乘子参数,λ为可迭代更新的拉格朗日乘子参数,用于权衡智能体的决策策略神经网络参数在奖励和惩罚之间的取舍更新,a1,t为主智能体的第t个时刻的动作集合,a2,t为攻击型智能体的第t个时刻的动作集合;
根据上述分析,可以将双智能体零和博弈鲁棒强化学习模型目标约束形式转化为如下双智能体零和博弈鲁棒强化学习模型无约束目标形式:
为主智能体潮流优化策略μθ和攻击型智能体状态扰动策略vθ′共同作用的无约束优化目标,得到双智能体零和博弈鲁棒强化学习模型的求解目标。
9.根据权利要求8所述的鲁棒强化学习的配网潮流优化方法,其特征在于:
步骤4所通过TA-Lag-TRPO算法求解双智能体零和博弈鲁棒强化学习模型,具体如下:
构建目标函数,具体如下::
其中,argmax表示是求函数最大化的参数,E为求期望,为奖励函数的时序差分残差,将其定义为优势函数;DKL为使用KL散度来衡量新人工神经网络参数θnew和旧人工神经网络参数θ之间的更新距离,为主智能体的惩罚函数期望值,表示输入状态为s时,利用潮流优化策略输出动作a的概率,μθ(a|s)表示输入状态为s时,利用潮流优化策略μθ输出动作a的概率,δ为KL距离的阈值,K为约束阈值;
首先利用泰勒展开公式对其进行近似处理:
其中,argmax表示是求函数最大化的参数,g表示求解目标项的梯度,H表示求新人工神经网络参数θnew和旧人工神经网络参数θ之间平均KL距离的黑塞矩阵,δ为KL距离的阈值;
构建Lag-TRPO算法,具体如下:
再利用拉格朗日乘子法将带惩罚函数期望值约束项变换到求解目标项上成为无约束形式,通过人工神经网络梯度下降法使得拉格朗日乘子β自适应收敛到合适的值,从而实现有约束到无约束优化问题的等价转换;所述TA-Lag-TRPO算法具体如下:
实现的是主智能体和攻击型智能体之间的零和博弈训练过程;
固定攻击型智能体的扰动策略v,主智能体学习决策策略μ以及如何防御攻击型智能体的状态扰动攻击;在T步决策中,Lag-TRPO算法根据第n次迭代的决策参数θn、第n-1次迭代的扰动参数θ′n-1依次做出决策a1,t,a2,t,同时对训练序列日志数据{st,a1,t,a2,t,rt,ct}进行采样,评价所做决策并更新优化决策参数θn。T步决策后,固定住主智能体的调度决策策略μ,攻击型智能体学习如何攻击和干扰主智能体的决策,与上述过程相似。在T步决策中,Lag-TRPO算法根据第n次迭代的决策参数θn、第n次迭代的扰动参数θ′n依次做出决策a1,t,a2,t,同时对训练序列日志数据{st ,a1,t,a2,t,rt,ct}进行采样,评价所做决策并更新扰动策略ν参数θ′n。交替进行上述过程直至循环结束,返回主智能体决策策略μ参数θN,攻击型智能体扰动策略ν参数θ'N,n≤N,N为最大迭代次数。
10.一种计算机可读介质,其特征在于,其存储电子设备执行的计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1-9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310427523.3A CN116565876A (zh) | 2023-04-20 | 2023-04-20 | 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310427523.3A CN116565876A (zh) | 2023-04-20 | 2023-04-20 | 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116565876A true CN116565876A (zh) | 2023-08-08 |
Family
ID=87495560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310427523.3A Pending CN116565876A (zh) | 2023-04-20 | 2023-04-20 | 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116565876A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808174A (zh) * | 2024-03-01 | 2024-04-02 | 山东大学 | 网络攻击下基于强化学习的微电网运行优化方法及系统 |
-
2023
- 2023-04-20 CN CN202310427523.3A patent/CN116565876A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808174A (zh) * | 2024-03-01 | 2024-04-02 | 山东大学 | 网络攻击下基于强化学习的微电网运行优化方法及系统 |
CN117808174B (zh) * | 2024-03-01 | 2024-05-28 | 山东大学 | 网络攻击下基于强化学习的微电网运行优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711620B (zh) | 一种基于gru神经网络和迁移学习的短期电力负荷预测方法 | |
CN110751318B (zh) | 一种基于ipso-lstm的超短期电力负荷预测方法 | |
CN114970362B (zh) | 一种多能源结构下的电网负荷调度预测方法及系统 | |
Zhu et al. | Coke price prediction approach based on dense GRU and opposition-based learning salp swarm algorithm | |
Meng et al. | A novel few-shot learning approach for wind power prediction applying secondary evolutionary generative adversarial network | |
CN114362175B (zh) | 基于深度确定性策略梯度算法的风电功率预测方法及系统 | |
CN117973644B (zh) | 一种考虑参考电站优化的分布式光伏功率虚拟采集方法 | |
CN114784823A (zh) | 基于深度确定性策略梯度的微电网频率控制方法及系统 | |
CN116722545B (zh) | 基于多源数据的光伏发电预测方法和相关设备 | |
CN116628510A (zh) | 一种自训练可迭代的人工智能模型训练方法 | |
CN116565876A (zh) | 一种鲁棒强化学习的配网潮流优化方法及计算机可读介质 | |
CN108960485A (zh) | 一种源-荷互动电力市场下的在线字典学习概率最优潮流方法 | |
CN115659254A (zh) | 一种双模态特征融合的配电网电能质量扰动分析方法 | |
CN112836876A (zh) | 一种基于深度学习的配电网线路负荷预测方法 | |
CN114781692A (zh) | 短期电力负荷预测方法、装置及电子设备 | |
CN115759415A (zh) | 基于lstm-svr的用电需求预测方法 | |
Guo et al. | Applying gated recurrent units pproaches for workload prediction | |
CN116432812A (zh) | 樽海鞘算法优化lstm的新能源功率预测方法 | |
CN116307211A (zh) | 一种风电消纳能力预测及优化方法及系统 | |
Zhang et al. | A method based on Lorenz disturbance and variational mode decomposition for wind speed prediction | |
Alharbi et al. | Short-term wind speed and temperature forecasting model based on gated recurrent unit neural networks | |
CN110222847A (zh) | 一种机器学习方法与装置 | |
CN117313795A (zh) | 一种基于改进dbo-lstm的智慧楼宇能耗预测方法 | |
CN116090608A (zh) | 一种基于动态加权组合的短期风电功率预测方法及系统 | |
CN115796327A (zh) | 一种基于vmd和iwoa-f-gru模型的风电功率区间预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |