CN113097994A - 基于多强化学习智能体的电网运行方式调节方法及装置 - Google Patents

基于多强化学习智能体的电网运行方式调节方法及装置 Download PDF

Info

Publication number
CN113097994A
CN113097994A CN202110276975.7A CN202110276975A CN113097994A CN 113097994 A CN113097994 A CN 113097994A CN 202110276975 A CN202110276975 A CN 202110276975A CN 113097994 A CN113097994 A CN 113097994A
Authority
CN
China
Prior art keywords
generator
power grid
load
operation mode
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110276975.7A
Other languages
English (en)
Inventor
叶琳
张静
刁瑞盛
尚秀敏
杨靖萍
杨滢
周正阳
周靖皓
吕勤
徐建平
周材
陈良亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Nari Technology Co Ltd
Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Nari Technology Co Ltd
Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Nari Technology Co Ltd, Jinhua Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202110276975.7A priority Critical patent/CN113097994A/zh
Publication of CN113097994A publication Critical patent/CN113097994A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/50Controlling the sharing of the out-of-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种多强化学习智能体的电网运行方式调节方法及装置,方法包括以下步骤:1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;4)如果存在传输线路过载,则基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。本发明针对不同种类的电网调控措施在正常运行和故障工况下,自动调整传输线路功率,满足电网运行安全需求。

Description

基于多强化学习智能体的电网运行方式调节方法及装置
技术领域
本发明涉及一种电网运行方式自动调节方法及装置,属于电网调控技术领域。
背景技术
现代电网的安全经济运行是一个复杂的控制问题,需要在任何时候都满足各种电压、频率、线路潮流等安全约束。为了更好地规划未来的电网运行方式,通常使用电网模型进行大规模仿真分析,以降低在正常运行和故障(N-1或N-k)工况下的运行风险。一旦发现安全问题,可以采取相应的控制措施来缓解这些问题。然而,考虑到大电网的复杂性、非线性和高维性,要获得满足安全性和可靠性标准的最优运行方式具有很大挑战性。这通常需要电力工程师对电网模型及参数进行大量的人工调整,并进行海量仿真分析。随着可再生能源渗透率的不断增加,现代电力系统中出现了更多的动态性、不确定性和随机性,这为电力工程师寻找安全、低成本的控制措施带来了更大的挑战。
现有的电网传输线路潮流控制的方法多集中在市场运营下的区域间功率传输交易,或者是出于安全考虑的紧急调控。在大电网负荷变化和故障等各种不确定性因素下,精准、快速的潮流控制变得十分困难。
发明内容
为解决现有技术的缺陷,需要一种电网运行方式自动调节方法及装置,可以针对不同种类的电网调控措施在正常运行和故障工况下,自动调整传输线路功率,满足电网运行安全需求。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于多强化学习智能体的电网运行方式调节方法,包括以下步骤:
1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;
2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;
3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;
4)如果存在传输线路过载,则提取负荷控制的状态空间;
5)以负荷控制的状态空间为输入,利用预先训练好的负荷强化学习智能体,获取负荷转移最优控制方案;
6)基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。
在步骤1)中,所述电网模型为:
Figure BDA0002977040210000021
Figure BDA0002977040210000022
Figure BDA0002977040210000023
Figure BDA0002977040210000024
Figure BDA0002977040210000025
Figure BDA0002977040210000026
其中,
Figure BDA0002977040210000031
Figure BDA0002977040210000032
代表母线i上发电机n的有功功率输出和无功功率输出,Pij(y)和Qij(y)代表从母线i到母线j的有功功率和无功功率,Vi代表母线i的电压幅值,B代表母线集合,上标g表示发电机,上标d表示代表电网负荷,
Figure BDA0002977040210000033
Figure BDA0002977040210000034
是母线i上的发电机有功功率注入和无功功率注入,
Figure BDA0002977040210000035
Figure BDA0002977040210000036
是母线i上的负荷有功功率和无功功率,
Figure BDA0002977040210000037
Figure BDA0002977040210000038
是母线i上负荷m的有功功率和无功功率,Gi是母线i上的发电机集合,Di是母线i上的负荷集合,Bi是与母线i构成支路的母线集合,gi是母线i的自电导,bi是母线i的自电纳,y是母线电压向量。
所述电网模型需满足约束条件:
Figure BDA0002977040210000039
Figure BDA00029770402100000310
Figure BDA00029770402100000311
Figure BDA00029770402100000312
Figure BDA00029770402100000313
Figure BDA00029770402100000314
其中,
Figure BDA00029770402100000315
Figure BDA00029770402100000316
表示发电机有功上限和下限,
Figure BDA00029770402100000317
Figure BDA00029770402100000318
表示发电机无功上限和下限,G表示发电机集合,
Figure BDA00029770402100000319
Figure BDA00029770402100000320
表示母线电压幅值上限和下限,
Figure BDA00029770402100000321
是传输线路的视在功率上限,ΩL代表传输线路集合,ΩT代表变压器集合;gij是母线i和母线j的互电导,Vj是母线j的电压幅值,θi是母线i电压相角,θj是母线j电压相角互电导,bij是母线i和母线j的互电纳,bij0是联络线电容器电纳。
在步骤2)中,以发电机控制的状态空间为输入,采用最大熵智能体强化学习算法,得到发电机智能体控制动作方法,将所述发电机智能体控制动作方法作为发电机有功控制方案。
所述发电机控制的状态空间Sg定义为:
Sg=(P,V,G),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,G表示发电机有功功率输出的矢量。
在步骤3)中,具体包括以下步骤:
31)计算发电机智能体奖励值;
32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间,利用强化学习智能体的算法更新发电机智能体网络参数;
33)迭代循环计算,直至满足电网运行状态安全评估要求。
在步骤4)中,所述负荷控制的状态空间Sd为:
Sd=(P,V,D),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,D表示负荷功率向量。
在步骤5)中,
以负荷控制的状态空间为输入,采用最大熵智能体强化学习算法,得到负荷智能体控制动作方法,将所述负荷智能体控制动作方法作为负荷转移最优控制方案。
在步骤6)中,具体包括以下步骤:
61)计算负荷智能体奖励值;
62)基于当前负荷控制的状态空间、智能体奖励值、智能体控制动作和下一负荷控制的状态空间更新智能体网络参数;
63)迭代循环计算,直至满足电网运行状态安全评估要求。
进一步的,在步骤3)和步骤6)中,所述对电网运行状态进行安全评估的方法为:
电网运行方式调节后对比联络线功率是否超过联络线运行限额,当电网运行正常运行和故障工况下,所有联络线潮流均在安全范围内,则满足安全评估要求。
在步骤3)和步骤6)中,发电机智能体奖励值与负荷智能体奖励值均包括:
r=rcon+rbase
Figure BDA0002977040210000051
Figure BDA0002977040210000052
其中,r表示奖励值,rcon表示故障奖励值,rbase表示正常运行奖励值,Pfrom和Pto是在传输线的首端和末端的有功功率测量值,Plimit是线路的有功上限,a和b分别是奖励值系数一和奖励值系数二,N是线路总数,k、l均为求和公式中的索引,竖线表示绝对值。
一种多强化学习智能体的电网运行方式自动调节装置,包括以下功能模块:
发电机控制模块,负荷控制模块和在线使用模块;
所述发电机控制模块包括第一环境组件、发电机智能体模块和第一经验池;
所述第一环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算发电机智能体奖励值;
所述发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体,输出发电机有功控制方案;
所述第一经验池,用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案;
所述负荷控制模块包括第二环境组件、负荷智能体模块和第二经验池;
所述第二环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算负荷智能体奖励值;
所述负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体,获取负荷转移控制方案;
所述第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案;
所述在线使用模块,用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件,对电网运行方式进行调节。
所述第一环境组件用于将发电机有功控制方案更新入电网运行方式文件中。
所述第二环境组件用于将负荷转移控制方案更新入电网运行方式文件中。
本发明的有益效果为:本发明通过训练集中式的最大熵智能体控制发电机有功功率输出,以控制传输线路功率;在正常运行或故障下线路功率越限问题仍然没有完全解决,通过训练分布式的SAC智能体调节局部变电站负荷,进一步寻找满足安全需求的电网运行方式。本发明可以针对不同种类的电网调控措施在正常运行和故障工况下,自动调整传输线路功率,满足电网运行安全需求。
附图说明
图1为本发明的多强化学习智能体的电网运行方式自动调节架构示意图;
图2为本发明的多强化学习智能体的电网运行方式自动调节算法实例示意图;
图3(a)为本发明实施例中第一个测试,发动机控制阶段智能体训练过程智能体迭代步骤示意图;
图3(b)为本发明实施例中第一个测试,发电机控制阶段智能体训练过程智能体训练结果示意图;
图4(a)为本发明实施例中第二个测试,负荷控制阶段智能体训练过程智能体迭代步骤示意图;
图4(b)为本发明实施例中第二个测试,负荷控制阶段智能体训练过程智能体训练结果示意图。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供一种基于多强化学习智能体的电网运行方式调节方法,分为两个阶段。第一阶段使用发电机有功调整进行集中式训练,第二阶段使用变电站负荷转移进行分布式训练。该控制问题首先被描述成马尔可夫决策过程,其中状态空间包括电网线路功率、母线电压、发电机输出和电网负荷,控制空间则由选定的发电机有功功率(第一阶段调控)和变电站负荷有功功率(第二阶调控)构成。在每个负荷转移控制空间中,所选中的变电站之间的负荷有功总和与功率因数保持不变。
实施例1
参见图1,本发明的一种基于多强化学习智能体的电网运行方式调节方法,包括以下步骤:
1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;
在步骤1)中,采用P-Q分解法、Newton-Raphson法、P-Q自动转化为YR法或者P-Q自动转化为Newton-Raphson法求解电网模型。
在步骤1)中,所述电网模型为:
Figure BDA0002977040210000081
Figure BDA0002977040210000082
Figure BDA0002977040210000083
Figure BDA0002977040210000084
Figure BDA0002977040210000085
Figure BDA0002977040210000086
其中,
Figure BDA0002977040210000091
Figure BDA0002977040210000092
代表母线i上发电机n的有功功率输出和无功功率输出,Pij(y)和Qij(y)代表从母线i到母线j的有功功率和无功功率,Vi代表母线i的电压幅值,B代表母线集合,上标g表示发电机,上标d表示代表电网负荷,
Figure BDA0002977040210000093
Figure BDA0002977040210000094
是母线i上的发电机有功功率注入和无功功率注入,
Figure BDA0002977040210000095
Figure BDA0002977040210000096
是母线i上的负荷有功功率和无功功率,
Figure BDA0002977040210000097
Figure BDA0002977040210000098
是母线i上负荷m的有功功率和无功功率,Gi是母线i上的发电机集合,Di是母线i上的负荷集合,Bi是与母线i构成支路的母线集合,gi是母线i的自电导,bi是母线i的自电纳,y是母线电压向量。
电网模型需满足以下约束条件,他们分别表示各种电力设备的物理极限,要求所有的线路潮流、发电机功率输出和电压幅值都要运行在它们的物理极限以内,
Figure BDA0002977040210000099
Figure BDA00029770402100000910
Figure BDA00029770402100000911
Figure BDA00029770402100000912
其中,
Figure BDA00029770402100000913
Figure BDA00029770402100000914
表示发电机有功上限和下限,
Figure BDA00029770402100000915
Figure BDA00029770402100000916
表示发电机无功上限和下限,G表示发电机集合,
Figure BDA00029770402100000917
Figure BDA00029770402100000918
表示母线电压幅值上限和下限,
Figure BDA00029770402100000919
是传输线路的视在功率上限,ΩL代表传输线路集合,ΩT代表变压器集合。
线路的有功功率Pij和无功功率Qij计算如下:
Figure BDA0002977040210000101
Figure BDA0002977040210000102
其中,gij是母线i和母线j的互电导,θi是母线i电压相角,互电导bij是母线i和母线j的互电纳,bij0是联络线电容器电纳,Vj是母线j的电压幅值,θj是母线j的电压相角。
2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;
在步骤2)中,以发电机控制的状态空间为输入,采用最大熵智能体强化学习算法,得到发电机智能体控制动作方法,将所述发电机智能体控制动作方法为发电机有功控制方案。
3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;
在步骤3)中,具体包括以下步骤:
31)计算发电机智能体奖励值;
32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间,利用强化学习智能体的算法更新发电机智能体网络参数;详见算法流程描述;
33)迭代循环计算,直至满足电网运行状态安全评估要求。
4)如果存在传输线路过载,则提取负荷控制的状态空间;
5)以负荷控制的状态空间为输入,利用预先训练好的负荷强化学习智能体,获取负荷转移最优控制方案;
在步骤5)中,以负荷控制的状态空间为输入,采用最大熵智能体强化学习算法,得到负荷智能体控制动作方法,将所述负荷智能体控制动作方法为负荷转移最优控制方案。
6)基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。
在步骤6)中,具体包括以下步骤:
61)计算负荷智能体奖励值;
62)基于当前负荷控制的状态空间、智能体奖励值、智能体控制动作和下一负荷控制的状态空间更新智能体网络参数;
63)迭代循环计算,直至满足电网运行安全评估要求。
是第本发明还提供一种基于多强化学习智能体的电网运行方式调节装置,包括:
发电机控制模块,负荷控制模块和在线使用模块。
其中,发电机控制模块包括第一环境组件,发电机智能体模块和第一经验池;
第一环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算发电机智能体奖励值;
所述电网运行状态数据存储在电网运行方式文件中,第一环境组件将发电机有功控制方案更新入电网运行方式文件中;
发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体,输出发电机有功控制方案。
第一经验池用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案;
负荷控制模块包括第二环境组件,负荷智能体模块和第二经验池;
第二环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算负荷智能体奖励值,所述电网运行状态数据存储在电网运行方式文件中,第二环境组件将负荷转移控制方案更新入电网运行方式文件中;
负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体,获取负荷转移控制方案。
第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案。
在线使用模块用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件,对电网运行方式进行调节。
使用某电网真实规划模型,用于产生未来电网运行方式。在原始电网规划模型中,有超过6500个母线,600台发电机,6000条线路和4300台变压器。为了验证本方法的有效性,在某电网分区进行了两种测试。对于第一个测试,分区电网包括224条母线、231条输电线路和7台发电机,代表第一次的运行工况。而在第二个测试中,模型文件代表第二次的电网运行工况。
在第一个测试中,使用第一阶段发电机控制,训练SAC智能体,其状态空间维数为462,动作空间维数为7。训练迭代步骤及智能体结果如图3(a)和图3(b)所示。可以看到,使用7台发电机训练出来的SAC智能体,可成功收敛,完全解决正常运行与故障工况下的线路过载问题。
在第二个测试中,使用第一阶段发电机控制,训练SAC智能体,其状态空间维数为455,动作空间维数为7。在完成第一阶段的训练后,智能体并没有达到最优策略,即仅仅调整发电机的值无法找到可行的电网运行方式。这是由于所选的7台发电机在调节区线路潮流方面的局限性。因此,需要将负载转移加入到调控手段,来解决局部未解决的问题。在第二阶段控制中,智能体同时调节6个变电站负荷,其状态空间维度为453,动作空间维度为5,第六个负荷吸收其余5个负荷的全部变化。采用负载控制后,成功地解决了局部线路过载的问题。训练迭代步骤及智能体结果如图4(a)和(b)所示。
实施例2
在步骤3)和步骤5)中,所述对电网运行状态进行安全评估的方法为:
电网运行方式调节后对比联络线功率是否超过其运行限额,当正常运行和故障工况下,所有联络线潮流均在安全范围内,则满足安全评估要求。
所述发电机控制的状态空间Sg定义为:
Sg=(P,V,G),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,G表示发电机有功功率输出的矢量。
所述负荷控制的状态空间Sd为:
Sd=(P,V,D),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,D表示负荷功率向量。
发电机控制方案的动作空间Ag定义为发电机集合G,为调节电网传输线路有功功率的控制信号。
负荷控制方案的动作空间Ad为负荷转移的控制信号。
采用最大熵强化学习算法训练发电机智能体和负荷智能体,包括:
使用强化学习方法的控制系统可被建模为马尔可夫决策过程(MDP),用于描述AI智能体与电网仿真环境的交互过程,其中MDP包括状态空间S、动作空间A、转移概率P和奖励函数R。在每一步t,智能体在状态空间S中观察一个状态st,在动作空间A中执行一个控制动作at,并获得一个标量奖励值r(st,at);智能体的行为由策略π定义,从P(A)←S中获取P(A),即控制动作集合A的转移概率,该映射关系将状态映射到控制动作的概率分布;智能体的性能好坏用Q值来描述,即施加当前控制策略后智能体对未来奖励值积累值的期待,
Figure BDA0002977040210000141
其中γ是折扣系数,在[0,1]之间,T是控制迭代次数总数,智能体的目标是找到一个策略,可以最大化奖励的期望值,训练强化学习智能体的最终目标是找到最大化奖励值的控制方案,Rt是第t时间的奖励值。
本发明中选择最大熵强化学习算法(Soft Actor Critic,SAC),最大熵强化学习算法在样本效率和稳定性方面都具有先进的性能,具有在训练过程中最大化期望奖励和熵的独特能力。
公式(11)中给出了用于计算Q值的目标函数,θ和ψ分别代表建模软Q值(即相对平缓地更新Q值网络)函数和控制方案的参数化网络,ψ是参数化网络,Vψ,是状态值函数,α是温度参数,决定熵项与奖励值的相对重要性,从而控制最优政策的随机性。
Figure BDA0002977040210000142
Figure BDA0002977040210000143
Figure BDA0002977040210000144
Figure BDA0002977040210000145
JQ(θ)是Q值的目标函数、
Figure BDA0002977040210000146
是策略π的目标函数、
Figure BDA0002977040210000147
是状态st和控制动作at的奖励值期望、D[·]是状态空间、Qθ(st,at)是函数θ的值函数、Qψ是ψ的值函数、πψ是参数为ψ的控制策略、N[·]是空间分布;Vψ是神经网络参数为ψ的值函数,πφ是神经网络参数为φ的控制策略函数,~代表状态空间分布,
Figure BDA0002977040210000155
是状态为St的期望值,D是空间分布,∈是属于,单竖线代表匹配关系;
在公式(12)中给出了策略的目标函数,在本发明中,使用正态分布,在之前的计算中,温度系数α是固定的,但是随着奖励值的变化,使用固定的温度系数进行训练会使智能体性能变得不稳定,所以需要有一个自动的温度系数,它也可以随着政策的更新而变化,以探索更多的动作空间,因此,将平均熵约束添加到原始目标函数中,同时允许熵在不同状态下发生变化。因此,公式(11)的目标函数修改为公式(13):
Figure BDA0002977040210000151
Figure BDA0002977040210000152
表示对于所有的时间t,H(πt)施加控制策略πt后的H值,s.t.是约束条件,E[·]是数学期望,T是控制迭代次数总数;H0是期望的最小熵值,而温度系数的损失函数J(α)则由公式(14)给出:
Figure BDA0002977040210000153
Figure BDA0002977040210000154
是控制动作at的奖励值期望;
为了保持各个数据单位的一致性,在训练期间对状态值和动作值都应用了归一化方法。
在计算智能体奖励值过程中,奖励值是智能体在每个控制迭代中表现优劣的一个反馈,一个设计良好的奖励值不仅能指导智能体向更有效的方向更新神经网络参数,而且可以加快整个训练过程。控制目标是得到能够满足正常运行和故障条件下的电网可行运行方式,即在正常运行和故障工况下联络线潮流不越限,两个阶段的奖励值函数的是相同的,所考虑的故障是指电网中的传输线路故障,即被控区域必须能够保持正常运行和N-1故障后的安全和可靠性。
奖励值函数r定义为故障奖励和正常运行奖励之和:
r=rcon+rbase
其中,rcon表示故障奖励值,rbase表示正常运行奖励值;
故障奖励值计算为:
Figure BDA0002977040210000161
其中,Pfrom和Pto是在传输线的首端和末端的有功功率测量值,Plimit是该线路的有功上限,代表热极限或稳定限额,a和b分别是奖励值系数一和奖励值系数二,N是线路总数,k、l分别是求和函数的索引,竖线代表绝对值,奖励值函数代表当电网中发生N-1故障后,被控区域内剩余N-1条线路的功率越限程度总和。
正常运行奖励值计算为:
Figure BDA0002977040210000162
上述函数中的所有变量都与故障奖励函数中定义的变量相同,区别是正常运行奖励值的计算保证当前拓扑结构不变的前提下,检查线路功率越限的情况。
其中,Pfrom和Pto是在传输线的首端和末端的有功功率测量值,Plimit是线路的有功上限,a和b分别是奖励值系数一和奖励值系数二,N是线路总数。
图2为本发明的多强化学习智能体电网运行方式自动调节算法。第1-13行给出了在故障情况下训练SAC智能体的过程。第15-28行给出了使用发电机作为控制手段而未能完全解决安全问题后使用负荷转移的智能体训练过程。对于发电机控制,第7-10行生成马尔可夫元组用于更新策略和值函数网络。第11-13行中,当智能体收集样本数据元组大于批量大小时,策略和Q函数网络将根据公式(11)、(12)和(14)执行随机更新,这个过程与负载控制过程类似。
其它技术特征与实施例1相同。
装置实施例是与上述方法实施例对应的,上述方法实施例的实现方式均适用于该装置实施例中,并能达到相同或相似的技术效果,故不在此赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (12)

1.一种基于多强化学习智能体的电网运行方式调节方法,其特征在于,包括以下步骤:
1)基于原始电网运行状态数据求解电网模型,并提取发电机控制的状态空间;
2)以发电机控制的状态空间为输入,利用预先训练好的发电机强化学习智能体,获取发电机最优控制方案;
3)基于发电机最优控制方案调节电网运行方式,并对电网运行状态进行安全评估;
4)如果存在传输线路过载,则提取负荷控制的状态空间;
5)以负荷控制的状态空间为输入,利用预先训练好的负荷强化学习智能体,获取负荷转移最优控制方案;
6)基于负荷最优控制方案调节电网运行方式,并对电网运行状态再次进行安全评估。
2.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于,在步骤1)中,所述电网模型为:
Figure FDA0002977040200000011
Figure FDA0002977040200000012
Figure FDA0002977040200000013
Figure FDA0002977040200000014
Figure FDA0002977040200000015
Figure FDA0002977040200000021
其中,
Figure FDA0002977040200000022
Figure FDA0002977040200000023
代表母线i上发电机n的有功功率输出和无功功率输出,Pij(y)和Qij(y)代表从母线i到母线j的有功功率和无功功率,Vi代表母线i的电压幅值,B代表母线集合,上标g表示发电机,上标d表示代表电网负荷,Pi g
Figure FDA0002977040200000024
是母线i上的发电机有功功率注入和无功功率注入,Pi d
Figure FDA0002977040200000025
是母线i上的负荷有功功率和无功功率,
Figure FDA0002977040200000026
Figure FDA0002977040200000027
是母线i上负荷m的有功功率和无功功率,Gi是母线i上的发电机集合,Di是母线i上的负荷集合,Bi是与母线i构成支路的母线集合,gi是母线i的自电导,bi是母线i的自电纳,y是母线电压向量;
所述电网模型需满足约束条件:
Figure FDA0002977040200000028
Figure FDA0002977040200000029
Vi min≤Vi≤Vi max,i∈B
Figure FDA00029770402000000210
Figure FDA00029770402000000211
Figure FDA00029770402000000212
其中,
Figure FDA00029770402000000213
Figure FDA00029770402000000214
表示发电机有功上限和下限,
Figure FDA00029770402000000215
Figure FDA00029770402000000216
表示发电机无功上限和下限,G表示发电机集合,Vi min和Vi max表示母线电压幅值上限和下限,
Figure FDA00029770402000000217
是传输线路的视在功率上限,ΩL代表传输线路集合,ΩT代表变压器集合;gij是母线i和母线j的互电导,Vj是母线j的电压幅值,θi是母线i电压相角,θj是母线j电压相角互电导,bij是母线i和母线j的互电纳,bij0是联络线电容器电纳。
3.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤2)中,以发电机控制的状态空间为输入,采用最大熵智能体强化学习算法,得到发电机智能体控制动作方法,将所述发电机智能体控制动作方法作为发电机有功控制方案。
4.根据权利要求3所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于,所述发电机控制的状态空间Sg定义为:
Sg=(P,V,G),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,G表示发电机有功功率输出的矢量。
5.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤3)中,具体包括以下步骤:
31)计算发电机智能体奖励值;
32)基于当前发电机控制的状态空间、智能体奖励值、智能体控制动作方法和下一发电机控制的状态空间,利用强化学习智能体的算法更新发电机智能体网络参数;
33)迭代循环计算,直至满足电网运行状态安全评估要求。
6.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤4)中,所述负荷控制的状态空间Sd为:
Sd=(P,V,D),构成一个向量,
其中,P表示被控区域内的线路有功功率,V表示同一区域内的母线电压幅值,D表示负荷功率向量。
7.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤5)中,
以负荷控制的状态空间为输入,采用最大熵智能体强化学习算法,得到负荷智能体控制动作方法,将所述负荷智能体控制动作方法作为负荷转移最优控制方案。
8.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤6)中,具体包括以下步骤:
61)计算负荷智能体奖励值;
62)基于当前负荷控制的状态空间、智能体奖励值、智能体控制动作和下一负荷控制的状态空间更新智能体网络参数;
63)迭代循环计算,直至满足电网运行状态安全评估要求。
9.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤3)和步骤6)中,所述对电网运行状态进行安全评估的方法为:
电网运行方式调节后对比联络线功率是否超过联络线运行限额,当电网运行正常运行和故障工况下,所有联络线潮流均在安全范围内,则满足安全评估要求。
10.根据权利要求1所述的基于多强化学习智能体的电网运行方式调节方法,其特征在于:在步骤3)和步骤6)中,发电机智能体奖励值与负荷智能体奖励值均包括:
r=rcon+rbase
Figure FDA0002977040200000051
Figure FDA0002977040200000052
其中,r表示奖励值,rcon表示故障奖励值,rbase表示正常运行奖励值,Pfrom和Pto是在传输线的首端和末端的有功功率测量值,Plimit是线路的有功上限,a和b分别是奖励值系数一和奖励值系数二,N是线路总数,k、l均为求和公式中的索引,竖线表示绝对值。
11.一种基于多强化学习智能体的电网运行方式调节装置,其特征在于,包括以下功能模块:
发电机控制模块,负荷控制模块和在线使用模块;
所述发电机控制模块包括第一环境组件、发电机智能体模块和第一经验池;
所述第一环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算发电机智能体奖励值;
所述发电机智能体模块用于采用最大熵强化学习算法训练发电机智能体,输出发电机有功控制方案;
所述第一经验池,用于存储发电机控制的状态空间、发电机智能体奖励值和发电机有功控制方案;
所述负荷控制模块包括第二环境组件、负荷智能体模块和第二经验池;
所述第二环境组件用于更新并存储电网运行状态数据,求解电网模型,以及计算负荷智能体奖励值;
所述负荷智能体模块用于采用最大熵强化学习算法训练负荷智能体,获取负荷转移控制方案;
所述第二经验池用于存储负荷控制的状态空间、负荷智能体奖励值和负荷转移控制方案;
所述在线使用模块,用于基于当前电网运行状态获取发电机有功控制方案和负荷转移控制方案并输出至电网运行方式文件,对电网运行方式进行调节。
12.根据权利要求11所述的基于多强化学习智能体的电网运行方式调节装置,其特征在于:
所述第一环境组件用于将发电机有功控制方案更新入电网运行方式文件中:
所述第二环境组件用于将负荷转移控制方案更新入电网运行方式文件中。
CN202110276975.7A 2021-03-15 2021-03-15 基于多强化学习智能体的电网运行方式调节方法及装置 Pending CN113097994A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110276975.7A CN113097994A (zh) 2021-03-15 2021-03-15 基于多强化学习智能体的电网运行方式调节方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110276975.7A CN113097994A (zh) 2021-03-15 2021-03-15 基于多强化学习智能体的电网运行方式调节方法及装置

Publications (1)

Publication Number Publication Date
CN113097994A true CN113097994A (zh) 2021-07-09

Family

ID=76667186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110276975.7A Pending CN113097994A (zh) 2021-03-15 2021-03-15 基于多强化学习智能体的电网运行方式调节方法及装置

Country Status (1)

Country Link
CN (1) CN113097994A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113991680A (zh) * 2021-10-25 2022-01-28 国网山东省电力公司青岛供电公司 一种微电网电压稳定性协调控制系统及方法
CN114123178A (zh) * 2021-11-17 2022-03-01 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104821605A (zh) * 2015-04-13 2015-08-05 国家电网公司 一种基于改进粒子群混合优化算法的有功安全校正方法
CN106655201A (zh) * 2016-09-20 2017-05-10 天津大学 一种基于安全域的电力系统热稳定安全优化控制方法
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104821605A (zh) * 2015-04-13 2015-08-05 国家电网公司 一种基于改进粒子群混合优化算法的有功安全校正方法
CN106655201A (zh) * 2016-09-20 2017-05-10 天津大学 一种基于安全域的电力系统热稳定安全优化控制方法
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIUMIN SHANG: "Reinforcement Learning-Based Solution to Power Grid Planning and Operation Under Uncertainties", 《2020 IEEE/ACM WORKSHOP ON MACHINE LEARNING IN HIGH PERFORMANCE COMPUTING ENVIRONMENTS (MLHPC) AND WORKSHOP ON ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING FOR SCIENTIFIC APPLICATIONS (AI4S)》 *
刘威等: "基于深度强化学习的电网紧急控制策略研究", 《中国电机工程学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113991680A (zh) * 2021-10-25 2022-01-28 国网山东省电力公司青岛供电公司 一种微电网电压稳定性协调控制系统及方法
CN114123178A (zh) * 2021-11-17 2022-03-01 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN114123178B (zh) * 2021-11-17 2023-12-19 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法

Similar Documents

Publication Publication Date Title
Zhang et al. Hierarchically-coordinated voltage/VAR control of distribution networks using PV inverters
CN105226643B (zh) 安全约束下电力系统运行模拟模型快速生成与求解方法
Preece et al. Probabilistic evaluation of damping controller in networks with multiple VSC-HVDC lines
CN109361242B (zh) 一种光伏发电自动电压控制方法
Abubakr et al. Adaptive LFC incorporating modified virtual rotor to regulate frequency and tie-line power flow in multi-area microgrids
CA2894256A1 (en) Methods of computing steady-state voltage stability margins of power systems
CN106972504A (zh) 基于遗传算法的区间无功优化方法
CN114362267B (zh) 考虑多目标优化的交直流混合配电网分散式协调优化方法
El Helou et al. Fully decentralized reinforcement learning-based control of photovoltaics in distribution grids for joint provision of real and reactive power
CN113097994A (zh) 基于多强化学习智能体的电网运行方式调节方法及装置
CN110518591B (zh) 一种不确定电力系统的潮流计算方法
CN113315131A (zh) 一种电网运行方式智能调节方法及系统
CN104767207B (zh) 基于发电机无功储备灵敏度的电压稳定预防控制方法
CN113890039B (zh) 一种多端柔性直流配电网潮流调度优化方法
CN112467748A (zh) 三相不平衡主动配电网双时标分布式电压控制方法及系统
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN115588998A (zh) 一种基于图强化学习的配电网电压无功优化方法
Biswas et al. Optimal power flow solutions using algorithm success history based adaptive differential evolution with linear population reduction
CN112531756A (zh) 用于储能系统电量平衡的分布式控制方法及系统、设备
CN113610262B (zh) 基于Benders分解的配电网协调优化方法及装置
CN113162063B (zh) 一种抑制超低频振荡的多直流协调控制器设计方法
Saadatmand et al. Optimal fractional-order PID controller of inverter-based power plants for power systems LFO damping
CN115133540A (zh) 一种配电网无模型的实时电压控制方法
CN113013913B (zh) 风电场无功电压控制系统和方法
Khooban et al. Modeling and HiL real-time simulation for the secondary LFC in time-delay shipboard microgrids

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210709