CN113097994A - 基于多强化学习智能体的电网运行方式调节方法及装置 - Google Patents
基于多强化学习智能体的电网运行方式调节方法及装置 Download PDFInfo
- Publication number
- CN113097994A CN113097994A CN202110276975.7A CN202110276975A CN113097994A CN 113097994 A CN113097994 A CN 113097994A CN 202110276975 A CN202110276975 A CN 202110276975A CN 113097994 A CN113097994 A CN 113097994A
- Authority
- CN
- China
- Prior art keywords
- generator
- power grid
- load
- operation mode
- bus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000002787 reinforcement Effects 0.000 title claims abstract description 47
- 230000005540 biological transmission Effects 0.000 claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 239000003795 chemical substances by application Substances 0.000 claims description 121
- 230000009471 action Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 27
- 238000012546 transfer Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000002347 injection Methods 0.000 claims description 6
- 239000007924 injection Substances 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 239000003990 capacitor Substances 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 239000011541 reaction mixture Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000012360 testing method Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000002940 Newton-Raphson method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000035508 accumulation Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/48—Controlling the sharing of the in-phase component
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/50—Controlling the sharing of the out-of-phase component
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种多强化学习智能体的电网运行方式调节方法及装置,方法包括以下步骤:1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;4)如果存在传输线路过载,则基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。本发明针对不同种类的电网调控措施在正常运行和故障工况下,自动调整传输线路功率,满足电网运行安全需求。
Description
技术领域
本发明涉及一种电网运行方式自动调节方法及装置,属于电网调控技术领域。
背景技术
现代电网的安全经济运行是一个复杂的控制问题,需要在任何时候都满足各种电压、频率、线路潮流等安全约束。为了更好地规划未来的电网运行方式,通常使用电网模型进行大规模仿真分析,以降低在正常运行和故障(N-1或N-k)工况下的运行风险。一旦发现安全问题,可以采取相应的控制措施来缓解这些问题。然而,考虑到大电网的复杂性、非线性和高维性,要获得满足安全性和可靠性标准的最优运行方式具有很大挑战性。这通常需要电力工程师对电网模型及参数进行大量的人工调整,并进行海量仿真分析。随着可再生能源渗透率的不断增加,现代电力系统中出现了更多的动态性、不确定性和随机性,这为电力工程师寻找安全、低成本的控制措施带来了更大的挑战。
现有的电网传输线路潮流控制的方法多集中在市场运营下的区域间功率传输交易,或者是出于安全考虑的紧急调控。在大电网负荷变化和故障等各种不确定性因素下,精准、快速的潮流控制变得十分困难。
发明内容
为解决现有技术的缺陷,需要一种电网运行方式自动调节方法及装置,可以针对不同种类的电网调控措施在正常运行和故障工况下,自动调整传输线路功率,满足电网运行安全需求。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于多强化学习智能体的电网运行方式调节方法,包括以下步骤:
1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;
2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;
3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;
4)如果存在传输线路过载,则提取负荷控制的状态空间;
5)以负荷控制的状态空间为输入,利用预先训练好的负荷强化学习智能体,获取负荷转移最优控制方案;
6)基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。
在步骤1)中,所述电网模型为:
其中,和代表母线i上发电机n的有功功率输出和无功功率输出,Pij(y)和Qij(y)代表从母线i到母线j的有功功率和无功功率,Vi代表母线i的电压幅值,B代表母线集合,上标g表示发电机,上标d表示代表电网负荷,和是母线i上的发电机有功功率注入和无功功率注入,和是母线i上的负荷有功功率和无功功率,和是母线i上负荷m的有功功率和无功功率,Gi是母线i上的发电机集合,Di是母线i上的负荷集合,Bi是与母线i构成支路的母线集合,gi是母线i的自电导,bi是母线i的自电纳,y是母线电压向量。
所述电网模型需满足约束条件:
其中,和表示发电机有功上限和下限,和表示发电机无功上限和下限,G表示发电机集合,和表示母线电压幅值上限和下限,是传输线路的视在功率上限,ΩL代表传输线路集合,ΩT代表变压器集合;gij是母线i和母线j的互电导,Vj是母线j的电压幅值,θi是母线i电压相角,θj是母线j电压相角互电导,bij是母线i和母线j的互电纳,bij0是联络线电容器电纳。
在步骤2)中,以发电机控制的状态空间为输入,采用最大熵智能体强化学习算法,得到发电机智能体控制动作方法,将所述发电机智能体控制动作方法作为发电机有功控制方案。
所述发电机控制的状态空间Sg定义为:
Sg=(P,V,G),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,G表示发电机有功功率输出的矢量。
在步骤3)中,具体包括以下步骤:
31)计算发电机智能体奖励值;
32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间,利用强化学习智能体的算法更新发电机智能体网络参数;
33)迭代循环计算,直至满足电网运行状态安全评估要求。
在步骤4)中,所述负荷控制的状态空间Sd为:
Sd=(P,V,D),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,D表示负荷功率向量。
在步骤5)中,
以负荷控制的状态空间为输入,采用最大熵智能体强化学习算法,得到负荷智能体控制动作方法,将所述负荷智能体控制动作方法作为负荷转移最优控制方案。
在步骤6)中,具体包括以下步骤:
61)计算负荷智能体奖励值;
62)基于当前负荷控制的状态空间、智能体奖励值、智能体控制动作和下一负荷控制的状态空间更新智能体网络参数;
63)迭代循环计算,直至满足电网运行状态安全评估要求。
进一步的,在步骤3)和步骤6)中,所述对电网运行状态进行安全评估的方法为:
电网运行方式调节后对比联络线功率是否超过联络线运行限额,当电网运行正常运行和故障工况下,所有联络线潮流均在安全范围内,则满足安全评估要求。
在步骤3)和步骤6)中,发电机智能体奖励值与负荷智能体奖励值均包括:
r=rcon+rbase
其中,r表示奖励值,rcon表示故障奖励值,rbase表示正常运行奖励值,Pfrom和Pto是在传输线的首端和末端的有功功率测量值,Plimit是线路的有功上限,a和b分别是奖励值系数一和奖励值系数二,N是线路总数,k、l均为求和公式中的索引,竖线表示绝对值。
一种多强化学习智能体的电网运行方式自动调节装置,包括以下功能模块:
发电机控制模块,负荷控制模块和在线使用模块;
所述发电机控制模块包括第一环境组件、发电机智能体模块和第一经验池;
所述第一环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算发电机智能体奖励值;
所述发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体,输出发电机有功控制方案;
所述第一经验池,用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案;
所述负荷控制模块包括第二环境组件、负荷智能体模块和第二经验池;
所述第二环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算负荷智能体奖励值;
所述负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体,获取负荷转移控制方案;
所述第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案;
所述在线使用模块,用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件,对电网运行方式进行调节。
所述第一环境组件用于将发电机有功控制方案更新入电网运行方式文件中。
所述第二环境组件用于将负荷转移控制方案更新入电网运行方式文件中。
本发明的有益效果为:本发明通过训练集中式的最大熵智能体控制发电机有功功率输出,以控制传输线路功率;在正常运行或故障下线路功率越限问题仍然没有完全解决,通过训练分布式的SAC智能体调节局部变电站负荷,进一步寻找满足安全需求的电网运行方式。本发明可以针对不同种类的电网调控措施在正常运行和故障工况下,自动调整传输线路功率,满足电网运行安全需求。
附图说明
图1为本发明的多强化学习智能体的电网运行方式自动调节架构示意图;
图2为本发明的多强化学习智能体的电网运行方式自动调节算法实例示意图;
图3(a)为本发明实施例中第一个测试,发动机控制阶段智能体训练过程智能体迭代步骤示意图;
图3(b)为本发明实施例中第一个测试,发电机控制阶段智能体训练过程智能体训练结果示意图;
图4(a)为本发明实施例中第二个测试,负荷控制阶段智能体训练过程智能体迭代步骤示意图;
图4(b)为本发明实施例中第二个测试,负荷控制阶段智能体训练过程智能体训练结果示意图。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供一种基于多强化学习智能体的电网运行方式调节方法,分为两个阶段。第一阶段使用发电机有功调整进行集中式训练,第二阶段使用变电站负荷转移进行分布式训练。该控制问题首先被描述成马尔可夫决策过程,其中状态空间包括电网线路功率、母线电压、发电机输出和电网负荷,控制空间则由选定的发电机有功功率(第一阶段调控)和变电站负荷有功功率(第二阶调控)构成。在每个负荷转移控制空间中,所选中的变电站之间的负荷有功总和与功率因数保持不变。
实施例1
参见图1,本发明的一种基于多强化学习智能体的电网运行方式调节方法,包括以下步骤:
1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;
在步骤1)中,采用P-Q分解法、Newton-Raphson法、P-Q自动转化为YR法或者P-Q自动转化为Newton-Raphson法求解电网模型。
在步骤1)中,所述电网模型为:
其中,和代表母线i上发电机n的有功功率输出和无功功率输出,Pij(y)和Qij(y)代表从母线i到母线j的有功功率和无功功率,Vi代表母线i的电压幅值,B代表母线集合,上标g表示发电机,上标d表示代表电网负荷,和是母线i上的发电机有功功率注入和无功功率注入,和是母线i上的负荷有功功率和无功功率,和是母线i上负荷m的有功功率和无功功率,Gi是母线i上的发电机集合,Di是母线i上的负荷集合,Bi是与母线i构成支路的母线集合,gi是母线i的自电导,bi是母线i的自电纳,y是母线电压向量。
电网模型需满足以下约束条件,他们分别表示各种电力设备的物理极限,要求所有的线路潮流、发电机功率输出和电压幅值都要运行在它们的物理极限以内,
线路的有功功率Pij和无功功率Qij计算如下:
其中,gij是母线i和母线j的互电导,θi是母线i电压相角,互电导bij是母线i和母线j的互电纳,bij0是联络线电容器电纳,Vj是母线j的电压幅值,θj是母线j的电压相角。
2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;
在步骤2)中,以发电机控制的状态空间为输入,采用最大熵智能体强化学习算法,得到发电机智能体控制动作方法,将所述发电机智能体控制动作方法为发电机有功控制方案。
3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;
在步骤3)中,具体包括以下步骤:
31)计算发电机智能体奖励值;
32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间,利用强化学习智能体的算法更新发电机智能体网络参数;详见算法流程描述;
33)迭代循环计算,直至满足电网运行状态安全评估要求。
4)如果存在传输线路过载,则提取负荷控制的状态空间;
5)以负荷控制的状态空间为输入,利用预先训练好的负荷强化学习智能体,获取负荷转移最优控制方案;
在步骤5)中,以负荷控制的状态空间为输入,采用最大熵智能体强化学习算法,得到负荷智能体控制动作方法,将所述负荷智能体控制动作方法为负荷转移最优控制方案。
6)基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。
在步骤6)中,具体包括以下步骤:
61)计算负荷智能体奖励值;
62)基于当前负荷控制的状态空间、智能体奖励值、智能体控制动作和下一负荷控制的状态空间更新智能体网络参数;
63)迭代循环计算,直至满足电网运行安全评估要求。
是第本发明还提供一种基于多强化学习智能体的电网运行方式调节装置,包括:
发电机控制模块,负荷控制模块和在线使用模块。
其中,发电机控制模块包括第一环境组件,发电机智能体模块和第一经验池;
第一环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算发电机智能体奖励值;
所述电网运行状态数据存储在电网运行方式文件中,第一环境组件将发电机有功控制方案更新入电网运行方式文件中;
发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体,输出发电机有功控制方案。
第一经验池用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案;
负荷控制模块包括第二环境组件,负荷智能体模块和第二经验池;
第二环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算负荷智能体奖励值,所述电网运行状态数据存储在电网运行方式文件中,第二环境组件将负荷转移控制方案更新入电网运行方式文件中;
负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体,获取负荷转移控制方案。
第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案。
在线使用模块用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件,对电网运行方式进行调节。
使用某电网真实规划模型,用于产生未来电网运行方式。在原始电网规划模型中,有超过6500个母线,600台发电机,6000条线路和4300台变压器。为了验证本方法的有效性,在某电网分区进行了两种测试。对于第一个测试,分区电网包括224条母线、231条输电线路和7台发电机,代表第一次的运行工况。而在第二个测试中,模型文件代表第二次的电网运行工况。
在第一个测试中,使用第一阶段发电机控制,训练SAC智能体,其状态空间维数为462,动作空间维数为7。训练迭代步骤及智能体结果如图3(a)和图3(b)所示。可以看到,使用7台发电机训练出来的SAC智能体,可成功收敛,完全解决正常运行与故障工况下的线路过载问题。
在第二个测试中,使用第一阶段发电机控制,训练SAC智能体,其状态空间维数为455,动作空间维数为7。在完成第一阶段的训练后,智能体并没有达到最优策略,即仅仅调整发电机的值无法找到可行的电网运行方式。这是由于所选的7台发电机在调节区线路潮流方面的局限性。因此,需要将负载转移加入到调控手段,来解决局部未解决的问题。在第二阶段控制中,智能体同时调节6个变电站负荷,其状态空间维度为453,动作空间维度为5,第六个负荷吸收其余5个负荷的全部变化。采用负载控制后,成功地解决了局部线路过载的问题。训练迭代步骤及智能体结果如图4(a)和(b)所示。
实施例2
在步骤3)和步骤5)中,所述对电网运行状态进行安全评估的方法为:
电网运行方式调节后对比联络线功率是否超过其运行限额,当正常运行和故障工况下,所有联络线潮流均在安全范围内,则满足安全评估要求。
所述发电机控制的状态空间Sg定义为:
Sg=(P,V,G),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,G表示发电机有功功率输出的矢量。
所述负荷控制的状态空间Sd为:
Sd=(P,V,D),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,D表示负荷功率向量。
发电机控制方案的动作空间Ag定义为发电机集合G,为调节电网传输线路有功功率的控制信号。
负荷控制方案的动作空间Ad为负荷转移的控制信号。
采用最大熵强化学习算法训练发电机智能体和负荷智能体,包括:
使用强化学习方法的控制系统可被建模为马尔可夫决策过程(MDP),用于描述AI智能体与电网仿真环境的交互过程,其中MDP包括状态空间S、动作空间A、转移概率P和奖励函数R。在每一步t,智能体在状态空间S中观察一个状态st,在动作空间A中执行一个控制动作at,并获得一个标量奖励值r(st,at);智能体的行为由策略π定义,从P(A)←S中获取P(A),即控制动作集合A的转移概率,该映射关系将状态映射到控制动作的概率分布;智能体的性能好坏用Q值来描述,即施加当前控制策略后智能体对未来奖励值积累值的期待,其中γ是折扣系数,在[0,1]之间,T是控制迭代次数总数,智能体的目标是找到一个策略,可以最大化奖励的期望值,训练强化学习智能体的最终目标是找到最大化奖励值的控制方案,Rt是第t时间的奖励值。
本发明中选择最大熵强化学习算法(Soft Actor Critic,SAC),最大熵强化学习算法在样本效率和稳定性方面都具有先进的性能,具有在训练过程中最大化期望奖励和熵的独特能力。
公式(11)中给出了用于计算Q值的目标函数,θ和ψ分别代表建模软Q值(即相对平缓地更新Q值网络)函数和控制方案的参数化网络,ψ是参数化网络,Vψ,是状态值函数,α是温度参数,决定熵项与奖励值的相对重要性,从而控制最优政策的随机性。
JQ(θ)是Q值的目标函数、是策略π的目标函数、是状态st和控制动作at的奖励值期望、D[·]是状态空间、Qθ(st,at)是函数θ的值函数、Qψ是ψ的值函数、πψ是参数为ψ的控制策略、N[·]是空间分布;Vψ是神经网络参数为ψ的值函数,πφ是神经网络参数为φ的控制策略函数,~代表状态空间分布,是状态为St的期望值,D是空间分布,∈是属于,单竖线代表匹配关系;
在公式(12)中给出了策略的目标函数,在本发明中,使用正态分布,在之前的计算中,温度系数α是固定的,但是随着奖励值的变化,使用固定的温度系数进行训练会使智能体性能变得不稳定,所以需要有一个自动的温度系数,它也可以随着政策的更新而变化,以探索更多的动作空间,因此,将平均熵约束添加到原始目标函数中,同时允许熵在不同状态下发生变化。因此,公式(11)的目标函数修改为公式(13):
为了保持各个数据单位的一致性,在训练期间对状态值和动作值都应用了归一化方法。
在计算智能体奖励值过程中,奖励值是智能体在每个控制迭代中表现优劣的一个反馈,一个设计良好的奖励值不仅能指导智能体向更有效的方向更新神经网络参数,而且可以加快整个训练过程。控制目标是得到能够满足正常运行和故障条件下的电网可行运行方式,即在正常运行和故障工况下联络线潮流不越限,两个阶段的奖励值函数的是相同的,所考虑的故障是指电网中的传输线路故障,即被控区域必须能够保持正常运行和N-1故障后的安全和可靠性。
奖励值函数r定义为故障奖励和正常运行奖励之和:
r=rcon+rbase
其中,rcon表示故障奖励值,rbase表示正常运行奖励值;
故障奖励值计算为:
其中,Pfrom和Pto是在传输线的首端和末端的有功功率测量值,Plimit是该线路的有功上限,代表热极限或稳定限额,a和b分别是奖励值系数一和奖励值系数二,N是线路总数,k、l分别是求和函数的索引,竖线代表绝对值,奖励值函数代表当电网中发生N-1故障后,被控区域内剩余N-1条线路的功率越限程度总和。
正常运行奖励值计算为:
上述函数中的所有变量都与故障奖励函数中定义的变量相同,区别是正常运行奖励值的计算保证当前拓扑结构不变的前提下,检查线路功率越限的情况。
其中,Pfrom和Pto是在传输线的首端和末端的有功功率测量值,Plimit是线路的有功上限,a和b分别是奖励值系数一和奖励值系数二,N是线路总数。
图2为本发明的多强化学习智能体电网运行方式自动调节算法。第1-13行给出了在故障情况下训练SAC智能体的过程。第15-28行给出了使用发电机作为控制手段而未能完全解决安全问题后使用负荷转移的智能体训练过程。对于发电机控制,第7-10行生成马尔可夫元组用于更新策略和值函数网络。第11-13行中,当智能体收集样本数据元组大于批量大小时,策略和Q函数网络将根据公式(11)、(12)和(14)执行随机更新,这个过程与负载控制过程类似。
其它技术特征与实施例1相同。
装置实施例是与上述方法实施例对应的,上述方法实施例的实现方式均适用于该装置实施例中,并能达到相同或相似的技术效果,故不在此赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (12)
1.一种基于多强化学习智能体的电网运行方式调节方法,其特征在于,包括以下步骤:
1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;
2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;
3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;
4)如果存在传输线路过载,则提取负荷控制的状态空间;
5)以负荷控制的状态空间为输入,利用预先训练好的负荷强化学习智能体,获取负荷转移最优控制方案;
6)基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。
2.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于,在步骤1)中,所述电网模型为:
其中,和代表母线i上发电机n的有功功率输出和无功功率输出,Pij(y)和Qij(y)代表从母线i到母线j的有功功率和无功功率,Vi代表母线i的电压幅值,B代表母线集合,上标g表示发电机,上标d表示代表电网负荷,Pi g和是母线i上的发电机有功功率注入和无功功率注入,Pi d和是母线i上的负荷有功功率和无功功率,和是母线i上负荷m的有功功率和无功功率,Gi是母线i上的发电机集合,Di是母线i上的负荷集合,Bi是与母线i构成支路的母线集合,gi是母线i的自电导,bi是母线i的自电纳,y是母线电压向量;
所述电网模型需满足约束条件:
Vi min≤Vi≤Vi max,i∈B
3.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤2)中,以发电机控制的状态空间为输入,采用最大熵智能体强化学习算法,得到发电机智能体控制动作方法,将所述发电机智能体控制动作方法作为发电机有功控制方案。
4.根据权利要求3所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于,所述发电机控制的状态空间Sg定义为:
Sg=(P,V,G),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,G表示发电机有功功率输出的矢量。
5.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤3)中,具体包括以下步骤:
31)计算发电机智能体奖励值;
32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间,利用强化学习智能体的算法更新发电机智能体网络参数;
33)迭代循环计算,直至满足电网运行状态安全评估要求。
6.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤4)中,所述负荷控制的状态空间Sd为:
Sd=(P,V,D),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,D表示负荷功率向量。
7.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤5)中,
以负荷控制的状态空间为输入,采用最大熵智能体强化学习算法,得到负荷智能体控制动作方法,将所述负荷智能体控制动作方法作为负荷转移最优控制方案。
8.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤6)中,具体包括以下步骤:
61)计算负荷智能体奖励值;
62)基于当前负荷控制的状态空间、智能体奖励值、智能体控制动作和下一负荷控制的状态空间更新智能体网络参数;
63)迭代循环计算,直至满足电网运行状态安全评估要求。
9.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤3)和步骤6)中,所述对电网运行状态进行安全评估的方法为:
电网运行方式调节后对比联络线功率是否超过联络线运行限额,当电网运行正常运行和故障工况下,所有联络线潮流均在安全范围内,则满足安全评估要求。
11.一种基于多强化学习智能体的电网运行方式调节装置,其特征在于,包括以下功能模块:
发电机控制模块,负荷控制模块和在线使用模块;
所述发电机控制模块包括第一环境组件、发电机智能体模块和第一经验池;
所述第一环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算发电机智能体奖励值;
所述发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体,输出发电机有功控制方案;
所述第一经验池,用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案;
所述负荷控制模块包括第二环境组件、负荷智能体模块和第二经验池;
所述第二环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算负荷智能体奖励值;
所述负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体,获取负荷转移控制方案;
所述第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案;
所述在线使用模块,用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件,对电网运行方式进行调节。
12.根据权利要求11所述的基于多强化学习智能体的电网运行方式调节装置,其特征在于:
所述第一环境组件用于将发电机有功控制方案更新入电网运行方式文件中:
所述第二环境组件用于将负荷转移控制方案更新入电网运行方式文件中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276975.7A CN113097994A (zh) | 2021-03-15 | 2021-03-15 | 基于多强化学习智能体的电网运行方式调节方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110276975.7A CN113097994A (zh) | 2021-03-15 | 2021-03-15 | 基于多强化学习智能体的电网运行方式调节方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113097994A true CN113097994A (zh) | 2021-07-09 |
Family
ID=76667186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110276975.7A Pending CN113097994A (zh) | 2021-03-15 | 2021-03-15 | 基于多强化学习智能体的电网运行方式调节方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113097994A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113991680A (zh) * | 2021-10-25 | 2022-01-28 | 国网山东省电力公司青岛供电公司 | 一种微电网电压稳定性协调控制系统及方法 |
CN114123178A (zh) * | 2021-11-17 | 2022-03-01 | 哈尔滨工程大学 | 一种基于多智能体强化学习的智能电网分区网络重构方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104821605A (zh) * | 2015-04-13 | 2015-08-05 | 国家电网公司 | 一种基于改进粒子群混合优化算法的有功安全校正方法 |
CN106655201A (zh) * | 2016-09-20 | 2017-05-10 | 天津大学 | 一种基于安全域的电力系统热稳定安全优化控制方法 |
CN111200285A (zh) * | 2020-02-12 | 2020-05-26 | 燕山大学 | 一种基于强化学习和多智能体理论的微电网混合协调控制方法 |
-
2021
- 2021-03-15 CN CN202110276975.7A patent/CN113097994A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104821605A (zh) * | 2015-04-13 | 2015-08-05 | 国家电网公司 | 一种基于改进粒子群混合优化算法的有功安全校正方法 |
CN106655201A (zh) * | 2016-09-20 | 2017-05-10 | 天津大学 | 一种基于安全域的电力系统热稳定安全优化控制方法 |
CN111200285A (zh) * | 2020-02-12 | 2020-05-26 | 燕山大学 | 一种基于强化学习和多智能体理论的微电网混合协调控制方法 |
Non-Patent Citations (2)
Title |
---|
XIUMIN SHANG: "Reinforcement Learning-Based Solution to Power Grid Planning and Operation Under Uncertainties", 《2020 IEEE/ACM WORKSHOP ON MACHINE LEARNING IN HIGH PERFORMANCE COMPUTING ENVIRONMENTS (MLHPC) AND WORKSHOP ON ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING FOR SCIENTIFIC APPLICATIONS (AI4S)》 * |
刘威等: "基于深度强化学习的电网紧急控制策略研究", 《中国电机工程学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113991680A (zh) * | 2021-10-25 | 2022-01-28 | 国网山东省电力公司青岛供电公司 | 一种微电网电压稳定性协调控制系统及方法 |
CN114123178A (zh) * | 2021-11-17 | 2022-03-01 | 哈尔滨工程大学 | 一种基于多智能体强化学习的智能电网分区网络重构方法 |
CN114123178B (zh) * | 2021-11-17 | 2023-12-19 | 哈尔滨工程大学 | 一种基于多智能体强化学习的智能电网分区网络重构方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Hierarchically-coordinated voltage/VAR control of distribution networks using PV inverters | |
CN105226643B (zh) | 安全约束下电力系统运行模拟模型快速生成与求解方法 | |
Preece et al. | Probabilistic evaluation of damping controller in networks with multiple VSC-HVDC lines | |
CN109361242B (zh) | 一种光伏发电自动电压控制方法 | |
Abubakr et al. | Adaptive LFC incorporating modified virtual rotor to regulate frequency and tie-line power flow in multi-area microgrids | |
CA2894256A1 (en) | Methods of computing steady-state voltage stability margins of power systems | |
CN106972504A (zh) | 基于遗传算法的区间无功优化方法 | |
CN114362267B (zh) | 考虑多目标优化的交直流混合配电网分散式协调优化方法 | |
El Helou et al. | Fully decentralized reinforcement learning-based control of photovoltaics in distribution grids for joint provision of real and reactive power | |
CN113097994A (zh) | 基于多强化学习智能体的电网运行方式调节方法及装置 | |
CN110518591B (zh) | 一种不确定电力系统的潮流计算方法 | |
CN113315131A (zh) | 一种电网运行方式智能调节方法及系统 | |
CN104767207B (zh) | 基于发电机无功储备灵敏度的电压稳定预防控制方法 | |
CN113890039B (zh) | 一种多端柔性直流配电网潮流调度优化方法 | |
CN112467748A (zh) | 三相不平衡主动配电网双时标分布式电压控制方法及系统 | |
CN113872213B (zh) | 一种配电网电压自主优化控制方法及装置 | |
CN115588998A (zh) | 一种基于图强化学习的配电网电压无功优化方法 | |
Biswas et al. | Optimal power flow solutions using algorithm success history based adaptive differential evolution with linear population reduction | |
CN112531756A (zh) | 用于储能系统电量平衡的分布式控制方法及系统、设备 | |
CN113610262B (zh) | 基于Benders分解的配电网协调优化方法及装置 | |
CN113162063B (zh) | 一种抑制超低频振荡的多直流协调控制器设计方法 | |
Saadatmand et al. | Optimal fractional-order PID controller of inverter-based power plants for power systems LFO damping | |
CN115133540A (zh) | 一种配电网无模型的实时电压控制方法 | |
CN113013913B (zh) | 风电场无功电压控制系统和方法 | |
Khooban et al. | Modeling and HiL real-time simulation for the secondary LFC in time-delay shipboard microgrids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210709 |