CN103490413A - 一种基于智能体均衡算法的智能发电控制方法 - Google Patents

一种基于智能体均衡算法的智能发电控制方法 Download PDF

Info

Publication number
CN103490413A
CN103490413A CN201310451728.1A CN201310451728A CN103490413A CN 103490413 A CN103490413 A CN 103490413A CN 201310451728 A CN201310451728 A CN 201310451728A CN 103490413 A CN103490413 A CN 103490413A
Authority
CN
China
Prior art keywords
value
intelligent body
intelligent
state
regional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310451728.1A
Other languages
English (en)
Other versions
CN103490413B (zh
Inventor
余涛
王怀智
张孝顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201310451728.1A priority Critical patent/CN103490413B/zh
Publication of CN103490413A publication Critical patent/CN103490413A/zh
Application granted granted Critical
Publication of CN103490413B publication Critical patent/CN103490413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于智能体均衡算法的智能发电控制方法,包括以下步骤:步骤1.分析系统特性,确定状态离散集S;步骤2.确定联合动作离散集A;步骤3.在每个控制周期开始时采集各个区域电网的实时运行数据:Δf、ΔP,并计算各个区域ACEi(k)的瞬时值与CPSi(k)的瞬时值;步骤4.由当前状态s,获得区域电网i的立即奖励值Ri(k);步骤5.由线性均衡和选定的均衡选择函数求取相关均衡联动策略;步骤6.对所有区域电网j执行相应操作;步骤7.在下一次控制周期到来时,返回步骤3。具有在控制过程中能找到更优的均衡点,提高了各区域电网协调发电的能力,显著提高了电力系统的稳定性与鲁棒性等优点。

Description

一种基于智能体均衡算法的智能发电控制方法
技术领域
本发明涉及一种电力系统智能发电控制技术,特别涉及一种基于智能体均衡算法的智能发电控制方法。
背景技术
现代电网已发展成为在电力市场机制的基础上多控制区域的互联系统,自动发电控制(Automatic Generation Control,AGC)作为互联电网实现功率和频率控制的主要手段,其控制效果直接影响着电网品质。互联电力系统的联络线功率偏差与频率变化随着用户侧负荷的变化而变化。如何通过控制发电机有功出力来跟踪负荷的随机变化,提高电网频率质量是当今控制领域研究的热点问题。自动发电控制是建立在利用调度监控计算机、通道、远方终端、执行(分配)装置、发电机组自动化装置等组成的闭环控制系统。它是电力系统调度自动化的主要内容之一。
目前,AGC控制策略的设计多为经典PI控制结构。然而,由于电力系统运行点随日、月、季、年的不断变化,基于传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求。神经网络方法、模糊控制、遗传方法等智能方法相继应用于AGC控制器的设计。传统PI控制和模糊控制可保证对受控对象存在的模型不确定性具有较高的鲁棒性,但在最优化设计方面还存在一定欠缺。随着间歇式新能源发电系统、电动汽车充电站和智能用户等会在未来几年内国家新能源政策大力支持下急剧增加,电网负荷发电平衡过程更接近于一个典型的非平稳强随机过程。已有理论研究表明,强化学习方法所具有的高度自学习与自寻优能力在解决调度端最优发电控制方面具有更好的协调性与鲁棒性。余涛,周斌,陈家荣在《基于Q学习的互联电网动态最优CPS控制》(中国电机工程学报)中提出了一种基于Q学习的CPS控制器设计方法,以解决系统镇定和快速收敛问题。此控制器能显著增强整个AGC系统的适应性,有效提高CPS的考核合格率。针对非马尔科夫环境下火电占优的互联电网AGC控制策略,余涛,周斌,陈家荣在《基于多步回溯Q(λ)学习的互联电网随机最优CPS控制》(电工技术学报)中提出了利用Q(λ)学习的后向估计原理解决火电机组大时滞环节带来的延时回报问题。基于平均报酬模型R(λ)模仿学习的CPS控制器避免了预学习阶段的盲目试错环节,提高了强化学习控制器在实际电力系统中的应用性。然而,这一类方法都属于单智能体学习方法,即在寻求最优策略时并未考虑其它区域电网的实际情况。
单智能体强化学习方法试错寻优在电力系统各种运行点之间表现了很好的适应性,其控制性能也优越于传统方法的固定增益控制器。但是,单智能体方法并未考虑其它区域互联电网实际情况,仅根据自身进行局部优化。当某些区域无法根据自身优化控制区域控制误差(Area Control Error,ACE)在允许范围以内时,这类方法并不能实现不同区域的协作控制。并且,智能体之间对策博弈最终结果会形成各种稳定平衡点,即均衡点,对于强随机非马尔科夫环境的区域复杂互联电网,相对于传统PI控制和单智能体强化学习控制方法,多智能体均衡强化学习方法利用相关均衡去平衡探索与利用,至少在理论上可以预见具有更好的平稳性与控制效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于多智能体均衡算法的智能发电控制方法,该方法具有由测量智能体、集中控制智能体和分散控制智能体三类智能体组成的智能发电控制框架,该控制框架采用相关均衡强化学习方法分别实现AGC的集中控制与分散控制。集中控制中信任第三方在综合各智能体状态下联合分配各智能体稳定均衡点的动作值,控制方法采用多智能体相关均衡方法(Multiagent Correlated Equilibrium Q Learning,MCEQ);分散控制中各智能体采用各自计算的均衡动作值并互不干涉。针对相关均衡方法在不同目标函数下智能发电控制效果的不同,提出了一种变参数相关均衡方法的最优CPS控制策略。该策略同时引入了资格迹回溯方法以期望累积折扣报酬最大。多智能体相关均衡方法相对于经典PI方法、Q(λ)方法在预学习阶段具有更快的收敛速度,并且在控制过程中能有效消除ACE与CPS瞬时值中的毛刺现象,显著提高电力系统的稳定性与鲁棒性。
测量智能体的数据输入为该区域的联络线功率偏差与频率偏差,输出为此区域的控制误差值和滚动CPS平均值。随后,各区域的ACE与CPS值传输到集中AGC控制器。如果各个区域的数据齐全且集中AGC控制器正常工作,则输出为各个区域的均衡动作值,采用方法为CMCEQ(Centralized MCEQ);否则,集中控制器传输所有已采集数据至各区域的分散AGC控制器。如果数据齐全,各分散AGC控制器分配各自计算的均衡动作并互不影响;如果数据不全,各分散控制器调入数据不齐全区域的上一次正常数据再行计算均衡动作值并分配动作,采用方法为DMCEQ(Decentralized MCEQ)。整个互联电网有且仅有一个集中AGC控制器,而测量智能体和分散AGC控制器在每一区域电网均有一个。
本控制框架所发明的方法MCEQ能弥补传统智能发电控制中各区域电网间缺少联动策略寻优的缺点,通过获取每一区域电网的ACE瞬时值和CPS滚动平均值,在线寻求最优联合动作策略以使CPS长期收益最大。MCEQ控制决策过程分为三个阶段:
(1)对所有智能体的状态-动作对利用相关均衡更新其Q值;
(2)对所有联合动作策略利用相关均衡求取其最优发生概率;
(3)执行随机最优联合策略,并观察系统响应,返回奖励值与当前状态。
本发明的目的通过下述技术方案实现:一种基于智能体均衡算法的智能发电控制方法,包括以下步骤:
步骤1、确定状态离散集S;
步骤2、确定联合动作离散集A;
步骤3、在每个控制周期开始时采集各个区域电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值;
步骤4、由当前状态s,获得区域电网i的立即奖励值Ri(k);
步骤5、由线性均衡约束 Σ a - i ∈ A - i π s ( a ) Q i ( s , a ) ≥ Σ a - i ∈ A - i π s ( a ) Q i ( s , ( a - i , a i ′ ) ) 和选定的均衡选择函数求取相关均衡联动策略
Figure BDA0000389022080000035
其中,A-i=∏j≠iAj,Ai为智能体i的动作集合,s为当前状态,ai为智能体i的动作,-i表示除智能体i以外其他智能体的集合,π为均衡策略,Qi(s,a)为智能体i的状态-动作值函数;
步骤6、对所有区域电网j,更新所有状态-动作对
Figure BDA0000389022080000032
的状态-动作值函数
Figure BDA0000389022080000033
值和资格迹矩阵并由更新的Q值求取当前状态s下的随机最优均衡联动策略
Figure BDA0000389022080000036
,再由
Figure BDA0000389022080000037
选择各区域协作动作,更新状态s和动作a;
步骤7、在下一次控制周期到来时,返回步骤3。
所述步骤1的状态离散集S通过控制性能标准CPS1和区域控制误差ACE值的划分来确定。
所述步骤2的联合动作离散集A的表达式为:
A=A1×A2×…×Ai×…×An
其中,Ai为智能体i的输出离散动作集,n为智能体个数。
所述步骤3中,所述各个区域电网的实时运行数据通过计算机和监控系统来采集。
所述步骤3中,所述区域i的区域控制误差ACEi(k)的瞬时值计算方法如下:
ACE=Ta-Ts-10B(Fa-Fs),
其中,Ta为联络线实际潮流值、Ts为联络线期望潮流值,B为频率偏差系数,Fa为系统实际频率值,Fs为系统期望频率值。
所述区域i的控制性能标准1的CPSi(k)的瞬时值计算方法如下:
CPS1=(2-CF1)×100%,
其中,Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;n为该考核时段的分钟数;ACEAVE-1min为区域控制误差ACE在1分钟内的平均值;ΔfAVE为频率偏差Δf在1分钟内的平均值;
所述区域i的控制性能标准2的CPSi(k)的瞬时值计算方法如下:
CPS2=(1-R)×100%,
其中, CF 2 = ACE AVE - 10 min 1.65 ϵ 10 ( - 10 B i ) · ( - 10 B net ) ,
Figure BDA0000389022080000043
ε10为互联电网对全年10分钟频率平均偏差均方根的控制目标值;Bnet为整个互联电网的频率偏差系数;ACEAVE-10min为区域控制误差ACE在10分钟内的平均值。
所述步骤4中,根据区域电网i第k步ACE和CPS1的差分值以及功率调节值的线性组合来获得所述立即奖励值Ri(k)。
所述步骤5中,采用相关均衡策略的线性约束和用于智能发电控制的均衡选择函数,控制智能体之间的协调联合动作。
所述步骤6中,所述
Figure BDA0000389022080000051
值的迭代更新公式为:
Q j ( s , a → ) = Q j ( s , a → ) + α × δ j × e j ( s , a → ) ,
式中,
Figure BDA0000389022080000053
为智能体j在状态-动作对
Figure BDA0000389022080000054
的状态-动作值函数,δj为学习偏差值,
Figure BDA0000389022080000055
为资格迹矩阵;
δ j = ( 1 - γ ) × R j ( s , a → ) + γ × V j ( s , ) - Q j ( s , a → ) , V i t + 1 ( s ) = Σ π s t ( a ) Q i t ( s , a ) ,
式中,γ为折扣因子,γ的取值范围为:0≤γ≤1,α为学习因子,α的取值范围为:0≤α≤1,为智能体j在当前状态s执行动作a后得到的奖励值,Vj(s′)为智能体j在下一状态s′的值函数,Qi t(s,a)为t时刻智能体i在状态-动作对(s,a)的状态-动作值函数,πs t(a)为均衡策略,Vi t+1(s)为t+1时刻智能体i在状态s的值函数。
所述步骤6中,所述资格迹矩阵
Figure BDA0000389022080000057
值的迭代更新公式为:
e j = ( s , a → ) = γ × λ × e j ( s , a → ) ,
式中,
Figure BDA00003890220800000513
为资格迹矩阵,γ为折扣因子,γ的取值范围为:0≤γ≤1,λ为衰减因子,λ的取值范围为:0≤λ≤1。
所述步骤6包括以下步骤:
(1)在引入资格迹情况下,对所有状态-动作对
Figure BDA00003890220800000514
的状态-动作值函数
Figure BDA0000389022080000059
值和资格迹矩阵
Figure BDA00003890220800000510
进行迭代更新;
(2)如果当前状态s和下一状态s’是同一状态,则由更新的Q值在此求取随机最优均衡联动策略;
(3)由最优均衡联动策略
Figure BDA00003890220800000515
选择各区域协作动作;
(4)令:s=s',
Figure BDA00003890220800000511
更新状态s和动作a。
本发明的工作原理:本发明是基于多智能体相关均衡的智能发电控制方法,本发明的主要工作过程如下:在一个控制周期开始时采集待控制的的区域电网的实时运行数据;基于奖励函数设定的原则,构造奖励函数,对ACE的当前值进行判断,计算出每个智能体的立即奖励值;通过线性规划求取对所有可能发生的联合动作策略的概率;计算更新每个智能体当前的Q值;再次求取对所有可能发生的联合动作策略的概率;根据策略选择区域电网最优动作。本发明可使在控制过程中找到更优的均衡点,提高各区域电网协调发电的能力,可以显著提高电力系统的稳定性与鲁棒性。整个控制方法不需要外部环境的数学模型,可以把控制系统的性能指标要求转化为一种评价指标,当系统性能指标满足要求时,得到奖励;否则,得到惩罚。控制器通过自身的学习,得到最优的控制动作,非常适用于具有不确定性和随机性的互联电网自动发电控制系统。本发明所采用的相关原理包括:
1、相关均衡;
马尔科夫决策过程中,每个智能体都在不依赖其它智能体动作概率分布的情况下最大化各自的累积奖励值,此时所形成的动态平衡状态即为纳什均衡。而相关均衡则相反,它是在每个智能体最大化自己奖励值时依赖于其它智能体的动作概率分布所形成的动态平衡点。相关均衡数学描述为:
Σ a - i ∈ A - i π ( a - i , a i ) R i ( a - i , a i ) ≥ Σ a - i ∈ A - i π ( a - i , a i ) R i ( a - i , a i ′ ) ,
式中:A-i=∏j≠iAj,π为均衡策略,Ri为智能体i的立即奖励函数。如果某一策略π对于所有智能体i、所有动作ai、a-i∈Ai(π(ai)>0)上式均成立,这一策略即为相关均衡动态平衡点。相关均衡可以通过线性规划简易求取。对于一个具有n个智能体、每个智能体有m个动作的马尔科夫对策(Markov Games,MG),其动作对总共有mn个,上式的线性约束总共nm(m-1)个。
2、多智能体相关均衡Q学习算法;
给定所有智能体i∈N,所有状态s∈S和动作a∈A(s)在时刻t的Q值:Qi t(s,a);给定均衡策略πt;给定均衡选择函数f;相关均衡条件下,由MG规则可定义时刻t+1智能体i的值函数Qi t+1(s,a)和Vi t+1(s):
Figure BDA0000389022080000062
相关均衡策略的线性约束描述为对所有智能体i、所有动作ai、a-i∈Ai(π(ai)>0)下式均成立:
Σ a - i ∈ A - i π s ( a ) Q i ( s , a ) ≥ Σ a - i ∈ A - i π s ( a ) Q i ( s , ( a - i , a i ′ ) )
满足上式的相关均衡策略随着智能体的增多而增多。
本发明相对于现有技术具有如下的优点及效果:
1、本控制方法的设计不依赖于电网模型,其在线自学习的特性非常适合于多变量、非线性、运行工况随负荷时刻变化的现代AGC系统。
2、本控制方法的收敛速度并没有随策略搜索空间的成倍增长而大幅增长,这在很大程度上决定了该算法的快速收敛性。
3、本控制方法考虑了其它区域电网环境的最优联动策略控制效果远比单一区域电网的最优策略控制效果要好,而且在控制过程中ACE与CPS实时值曲线更加平滑,显著提高电力系统的稳定性与鲁棒性。
附图说明
图1为AGC多智能体控制框架。
图2为MCEQ方法的分类模型图。
图3为CMCEQ控制方法流程图。
图4为DMCEQ控制方法流程图。
图5为南方电网负荷频率控制模型图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例是在南方电网的整体框架下,以广东电网为主要研究对象,仿真模型为广东省电力调度中心实际工程项目搭建的详细全过程动态仿真模型,详细模型参数与仿真设计原则请参阅余涛,周斌,陈家荣发表的《基于Q学习的互联电网动态最优CPS控制》(中国电机工程学报),详见图5所示。该仿真模型中南方电网分为广东、广西、贵州和云南四个区域电网,其中在广东电网和其他各省电网加以采样时间为15min、幅值不超过1500MW(对应广东电网最大单一故障——直流单极闭锁)的有限宽带白噪声负荷扰动,对南方电网各省负荷频率响应系数加入白噪声参数扰动,使用Simulink进行建模仿真研究。每个区域电网AGC控制器在综合其它区域电网ACE实时值和所采取策略的条件下各自寻求最优联合动作策略。
AGC多智能体相关均衡控制方法设计如下:
1)分析系统特性以对状态集S离散化:此实例根据广东电力调度中心CPS指标划分标准,将CPS1值划分为6个状态:(-∞,0),[0,100%),[100%,150%),[150%,180%),[180%,200%),[200%,+∞),再将ACE分成正负2个状态,由此每个智能体可以确定有12个状态。ACE的状态主要是为了区分引起CPS指标波动的原因;
2)确定联合动作离散集A,第i区域电网的动作集为Ai={-50,-20,-10,-5,0,5,10,20,50}MW,联合动作策略集为A=A1×A2×A3×A4,A为控制器的输出动作,即AGC的功率调节指令。控制步长采用AGC控制周期,取4s;
3)在每个控制周期开始时采集各个区域电网的实时运行数据:Δf、ΔP,其中Δf表示系统频率偏差,ΔP表示联络线功率偏差;根据国际通用考核办法ACE=Ta-Ts-10B(Fa-Fs)(Ta、Ts分别为联络线实际潮流值与期望潮流值;B为频率偏差系数;Fa、Fs分别为系统实际频率值与期望频率值)、(Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;n为该考核时段的分钟数)、CPS1=(2-CF1)×100%、
Figure BDA0000389022080000082
10为互联电网对全年10分钟频率平均偏差均方根的控制目标值;Bnet为整个互联电网的频率偏差系数)、
Figure BDA0000389022080000083
和式CPS2=(1-R)×100%计算各个区域的ACEi(k)与CPSi(k)瞬时值;
4)根据各个区域的ACEi(k)与CPSi(k)瞬时值确定当前状态s,再由状态s和奖励函数获得区域电网的立即奖励值Ri(k),奖励函数设计如下:
R i ( k ) = &sigma; i , &sigma; i &GreaterEqual; 0 , C CPS 1 i ( k ) &GreaterEqual; 200 R i ( k ) 5 &times; [ E ACEi ( k ) - E ACEi ( k - 1 ) ] - 0.5 &times; a i ( k ) 2 , E ACEi ( k ) &le; 0 &cup; C CPS 1 i ( k ) &Element; [ 100,200 ) R i ( k ) = 5 &times; [ E ACEi ( k - 1 ) - E ACEi ( k ) ] - 0.5 &times; a i ( k ) 2 , E ACEi ( k ) > 0 &cup; C CPS 1 i ( k ) &Element; [ 100,200 ) R i ( k ) = 10 &times; [ C CPS 1 i ( k ) - C CPS 1 i ( k - 1 ) ] - 1 &times; a i ( k ) 2 , E ACEi ( k ) &le; 0 &cup; C CPS 1 i ( k ) < 100 R i ( k ) = 10 &times; [ C CPS 1 i ( k - 1 ) - C CPS 1 i ( k ) ] - 1 &times; a i ( k ) 2 , E ACEi ( k ) > 0 &cup; C CPS 1 i ( k ) < 100
式中:σi为区域i历史奖励最大值,初始为0;EACEi(k)和CCPS1i(k)分别为区域电网i第k步迭代的CPS1和ACE瞬时值;ai(k)为区域电网i第k步的功率调节值,这一奖励分量是为限制控制器输出功率指令频繁大幅度升降调节而引起的系统振荡和经济代价;
5)由线性均衡 &Sigma; a - i &Element; A - i &pi; s ( a ) Q i ( s , a ) &GreaterEqual; &Sigma; a - i &Element; A - i &pi; s ( a ) Q i ( s , ( a - i , a i &prime; ) ) (π为状态s下的联动策略)和均衡选择函数 f = max &pi; s &Element; CE &Sigma; i &Element; N ex p | E ACEi ( k ) | &Sigma; i &Element; N | E ACEi ( k ) | &CenterDot; &Sigma; a &RightArrow; &Element; A ( s ) &pi; s ( a &RightArrow; ) Q i ( s , s &RightArrow; ) 求取相关均衡最优联动策略
Figure BDA00003890220800000911
6)对所有区域电网j,执行:
①更新状态值函数 V i t + 1 ( s ) = &Sigma; &pi; s t ( a ) Q i t ( s , a ) ;
②估计值函数误差 &delta; j = ( 1 - 0.3 ) &times; R j ( s , a &RightArrow; ) + 0.3 &times; V j ( s , ) - Q j ( s , a &RightArrow; ) ;
③更新资格迹元素
Figure BDA0000389022080000096
④对所有状态-动作对执行:
◆更新Q值函数 Q j ( s , a &RightArrow; ) = Q j ( s , a &RightArrow; ) + 0.1 &times; &delta; j &times; e j ( s , a &RightArrow; ) ;
◆更新资格迹矩阵 e j ( s , a &RightArrow; ) = 0.3 &times; 0.5 &times; e j ( s , a &RightArrow; ) ;
⑤if当前状态s和下一状态s’是同一状态,则由更新Q值在此求取随机均衡联动最优策略;
⑥由最优均衡联动策略
Figure BDA00003890220800000912
选择各区域协作动作;
⑦s=s', a &RightArrow; = a &RightArrow; &prime; ;
7)在下一次控制周期到来时,返回步骤3)。
本专利核心是奖励函数的设计、最优协作策略的求解以及每个智能体Q值的更新。其中相关均衡策略的线性约束和均衡选择函数是关键创新点,这一方法及其相关方法的实施,使多区域电网间的智能发电控制始终处于最优协调动作的状态,每个智能体的动作取决于全部智能体的状态和动作,提高了电网应对负荷扰动的能力,可以显著提高电力系统的稳定性与鲁棒性,满足多区域电网间协调最优发电控制的需要。
本发明提出的两层AGC控制框架和多智能体均衡方法CMCEQ与DMCEQ,以解决负荷发电平衡问题:第一层为集中AGC控制器,所采用方法为CMCEQ;第二层为分散AGC控制器,所采用方法为DMCEQ。仅当集中控制器出现临时故障或采集数据不全时,分散控制器才投入使用,如图1所示。图中仅展示了某一区域电网的控制结构,通过采集其它区域的状态信号ACE与CPS瞬时值,通过相关均衡求取自身的合作欲度,并寻求在此方式下的最优联动策略。迄今为止MCEQ方法的应用仅限于简单的博弈论领域,还未有例子应用到电力系统这样实时性要求很高的复杂非线性系统,其分类细则如图2所示。
本发明控制方法可完整描述如下:
1)分析系统特性确定状态离散集S,具体可以通过CPS1和ACE值的划分确定状态离散集S;
2)确定联合动作离散集A,其中A=A1×A2×…×Ai×…×An,Ai为智能体i的输出离散动作集,n为智能体个数;
3)在每个控制周期开始时采集各个区域电网的实时运行数据:Δf、ΔP,并计算各个区域的ACEi(k)与CPSi(k)瞬时值,其中Δf表示系统频率偏差,ΔP表示联络线功率偏差;
4)AGC控制智能体根据各个区域的ACEi(k)与CPSi(k)瞬时值确定当前状态s,再由状态s获得区域电网的立即奖励值Ri(k),Ri(k)的设计为区域电网i第k步ACE和CPS1的差分值以及功率调节值的线性组合。
5)由线性均衡 &Sigma; a - i &Element; A - i &pi; s ( a ) Q i ( s , a ) &GreaterEqual; &Sigma; a - i &Element; A - i &pi; s ( a ) Q i ( s , ( a - i , a i &prime; ) ) (π为状态s下的联动策略)和选定的均衡选择函数求取相关均衡最优联动策略
Figure BDA0000389022080000103
6)对所有区域电网j,执行:
①更新状态值函数 V i t + 1 ( s ) = &Sigma; &pi; s t ( a ) Q i t ( s , a ) ;
②估计值函数误差 &delta; j = ( 1 - &gamma; ) &times; R j ( s , a &RightArrow; ) + &gamma; &times; V j ( s , ) - Q j ( s , a &RightArrow; ) , 其中γ为折扣因子,0≤γ≤1;
③更新资格迹元素
Figure BDA0000389022080000112
④对所有状态-动作对
Figure BDA0000389022080000113
执行:
◆更新Q值函数 Q j ( s , a &RightArrow; ) = Q j ( s , a &RightArrow; ) + &alpha; &times; &delta; j &times; e j ( s , a &RightArrow; ) , 其中α为学习因子,0≤α≤1;
◆更新资格迹矩阵
Figure BDA0000389022080000115
其中λ为衰减因子,
0≤λ≤1;
⑤if当前状态s和下一状态s’是同一状态,则由更新Q值在此求取随机均衡联动最优策略;
⑥由最优均衡联动策略
Figure BDA0000389022080000117
选择各区域协作动作;
⑦s=s', a &RightArrow; = a &RightArrow; &prime; ;
7)在下一次控制周期到来时,返回步骤3)。
优动作都依赖于其它区域电网的均衡策略,对于集中AGC控制器所寻求最优联合动作策略,各区域电网一般不予违背。当集中AGC控制器出现故障或由于各区域电网ACE或CPS瞬时值不全时,各分散AGC控制器将会发挥二次调频功能,采用方法为DMCEQ学习方法。DMCEQ与CMCEQ方法流程类似,其方法流程框图参见图3、图4,有以下不同点:
1)某区域控制器DMCEQ所求取的最优联合动作策略仅对本区域电网有效,而CMCEQ所求取的最优策略对全系统有效。
2)DMCEQ最优联合动作策略表现为最优动作的概率分布,就算各区域分散AGC控制器所求取的是同一最优动作策略(忽略延时环节),由于各区域电网相互独立选取最优动作,最终执行的联合动作策略并不一定是最优均衡策略。而CMCEQ所执行的肯定是最优均衡策略。
3)各区域电网基于DMCEQ方法的AGC控制器不可能在同一时间更新值函数
Figure BDA0000389022080000118
矩阵,所求取的最优联合动作策略或多或少具有一定的延时性。而CMCEQ并不存在这一情况。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于智能体均衡算法的智能发电控制方法,其特征在于,包括以下步骤:
步骤1、确定状态离散集S;
步骤2、确定联合动作离散集A;
步骤3、在每个控制周期开始时采集各个区域电网的实时运行数据,所述实时运行数据包括频率偏差Δf和功率偏差ΔP,计算各个区域控制误差ACEi(k)的瞬时值与控制性能标准CPSi(k)的瞬时值;
步骤4、由当前状态s,获得区域电网i的立即奖励值Ri(k);
步骤5、由线性均衡约束 &Sigma; a - i &Element; A - i &pi; s ( a ) Q i ( s , a ) &GreaterEqual; &Sigma; a - i &Element; A - i &pi; s ( a ) Q i ( s , ( a - i , a i &prime; ) ) 和选定的均衡选择函数求取相关均衡联动策略
Figure FDA0000389022070000015
其中,A-i=∏j≠iAj,Ai为智能体i的动作集合,s为当前状态,ai为智能体i的动作,-i表示除智能体i以外其他智能体的集合,π为均衡策略,Qi(s,a)为智能体i的状态-动作值函数;
步骤6、对所有区域电网j,更新所有状态-动作对
Figure FDA0000389022070000012
的状态-动作值函数
Figure FDA0000389022070000013
值和资格迹矩阵
Figure FDA0000389022070000014
并由更新的Q值求取当前状态s下的随机最优均衡联动策略
Figure FDA0000389022070000016
,再由
Figure FDA0000389022070000017
选择各区域协作动作,更新状态s和动作a;
步骤7、在下一次控制周期到来时,返回步骤3。
2.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤1的状态离散集S通过控制性能标准CPS1和区域控制误差ACE值的划分来确定。
3.如权利要求1所述的基于多智能体均衡算法的智能发电控制方法,其特征在于,所述步骤2的联合动作离散集A的表达式为:
A=A1×A2×…×Ai×…×An
其中,Ai为智能体i的输出离散动作集,n为智能体个数。
4.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤3中,所述各个区域电网的实时运行数据通过计算机和监控系统来采集。
5.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤3中,所述区域i的区域控制误差ACEi(k)的瞬时值计算方法如下:
ACE=Ta-Ts-10B(Fa-Fs),
其中,Ta为联络线实际潮流值、Ts为联络线期望潮流值,B为频率偏差系数,Fa为系统实际频率值,Fs为系统期望频率值;
所述区域i的控制性能标准1的CPSi(k)的瞬时值计算方法如下:
CPS1=(2-CF1)×100%,
其中,
Figure FDA0000389022070000021
Bi为控制区域i的频率偏差系数;ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值;n为该考核时段的分钟数;ACEAVE-1min为区域控制误差ACE在1分钟内的平均值;ΔfAVE为频率偏差Δf在1分钟内的平均值;
所述区域i的控制性能标准2的CPSi(k)的瞬时值计算方法如下:
CPS2=(1-R)×100%,
其中, CF 2 = ACE AVE - 10 min 1.65 &epsiv; 10 ( - 10 B i ) &CenterDot; ( - 10 B net ) ,
Figure FDA0000389022070000023
ε10为互联电网对全年10分钟频率平均偏差均方根的控制目标值;Bnet为整个互联电网的频率偏差系数;ACEAVE-10min为区域控制误差ACE在10分钟内的平均值。
6.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤4中,根据区域电网i第k步ACE和CPS1的差分值以及功率调节值的线性组合来获得所述立即奖励值Ri(k)。
7.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤5中,采用相关均衡策略的线性约束和用于智能发电控制的均衡选择函数,控制智能体之间的协调联合动作。
8.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤6中,所述
Figure FDA0000389022070000031
值的迭代更新公式为:
Q j ( s , a &RightArrow; ) = Q j ( s , a &RightArrow; ) + &alpha; &times; &delta; j &times; e j ( s , a &RightArrow; ) ,
式中,为智能体j在状态-动作对
Figure FDA0000389022070000034
的状态-动作值函数,δj为学习偏差值,
Figure FDA0000389022070000035
为资格迹矩阵;
&delta; j = ( 1 - &gamma; ) &times; R j ( s , a &RightArrow; ) + &gamma; &times; V j ( s , ) - Q j ( s , a &RightArrow; ) , V i t + 1 ( s ) = &Sigma; &pi; s t ( a ) Q i t ( s , a ) ,
式中,γ为折扣因子,γ的取值范围为:0≤γ≤1,α为学习因子,α的取值范围为:0≤α≤1,
Figure FDA0000389022070000037
为智能体j在当前状态s执行动作a后得到的奖励值,Vj(s′)为智能体j在下一状态s′的值函数,Qi t(s,a)为t时刻智能体i在状态-动作对(s,a)的状态-动作值函数,πs t(a)为均衡策略,Vi t+1(s)为t+1时刻智能体i在状态s的值函数。
9.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤6中,所述资格迹矩阵
Figure FDA00003890220700000310
值的迭代更新公式为:
e j = ( s , a &RightArrow; ) = &gamma; &times; &lambda; &times; e j ( s , a &RightArrow; ) ,
式中,
Figure FDA00003890220700000312
为资格迹矩阵,γ为折扣因子,γ的取值范围为:0≤γ≤1,λ为衰减因子,λ的取值范围为:0≤λ≤1。
10.如权利要求1所述的基于智能体均衡算法的智能发电控制方法,其特征在于,所述步骤6包括以下步骤:
(1)在引入资格迹情况下,对所有状态-动作对
Figure FDA00003890220700000316
的状态-动作值函数值和资格迹矩阵
Figure FDA00003890220700000314
进行迭代更新;
(2)如果当前状态s和下一状态s是同一状态,则由更新的Q值在此求取随机最优均衡联动策略;
(3)由最优均衡联动策略
Figure FDA00003890220700000317
选择各区域协作动作;
(4)令:s=s',更新状态s和动作a。
CN201310451728.1A 2013-09-27 2013-09-27 一种基于智能体均衡算法的智能发电控制方法 Active CN103490413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310451728.1A CN103490413B (zh) 2013-09-27 2013-09-27 一种基于智能体均衡算法的智能发电控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310451728.1A CN103490413B (zh) 2013-09-27 2013-09-27 一种基于智能体均衡算法的智能发电控制方法

Publications (2)

Publication Number Publication Date
CN103490413A true CN103490413A (zh) 2014-01-01
CN103490413B CN103490413B (zh) 2015-09-02

Family

ID=49830445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310451728.1A Active CN103490413B (zh) 2013-09-27 2013-09-27 一种基于智能体均衡算法的智能发电控制方法

Country Status (1)

Country Link
CN (1) CN103490413B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103904641A (zh) * 2014-03-14 2014-07-02 华南理工大学 基于相关均衡强化学习的孤岛微电网智能发电控制方法
CN104052055A (zh) * 2014-07-02 2014-09-17 江苏大学 一种面向有源智能电网的电动汽车调频集中调度控制方法
CN104640168A (zh) * 2014-12-04 2015-05-20 北京理工大学 基于q学习的车载自组织网络路由方法
CN104898644A (zh) * 2015-04-29 2015-09-09 中国电力科学研究院 一种互联电网中各控制区的频率控制性能评价方法
CN106372366A (zh) * 2016-09-30 2017-02-01 三峡大学 一种基于狼爬山算法的智能发电控制方法
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
CN107045655A (zh) * 2016-12-07 2017-08-15 三峡大学 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法
CN107094321A (zh) * 2017-03-31 2017-08-25 南京邮电大学 一种基于多智能体q学习的车载通信mac层信道接入方法
CN107589672A (zh) * 2017-09-27 2018-01-16 三峡大学 孤岛智能配电网下虚拟狼群控制策略的智能发电控制方法
CN108092307A (zh) * 2017-12-15 2018-05-29 三峡大学 基于虚拟狼群策略的分层分布式智能发电控制方法
CN109496305A (zh) * 2018-08-01 2019-03-19 东莞理工学院 连续动作空间上的纳什均衡策略及社交网络舆论演变模型
CN109784545A (zh) * 2018-12-24 2019-05-21 深圳供电局有限公司 一种基于多智能体的分布式能源枢纽的调度方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110807230A (zh) * 2019-10-29 2020-02-18 天津大学 一种自主学习优化物联网拓扑结构鲁棒性的方法
CN111555368A (zh) * 2020-05-15 2020-08-18 广西大学 一种综合能源系统的深度生成式对抗网络调度与控制方法
CN111884251A (zh) * 2020-07-22 2020-11-03 华北电力大学 联络线控制性能评价指标预测方法及装置
CN112241814A (zh) * 2020-10-20 2021-01-19 河南大学 一种基于强化时空图神经网络的交通预测方法
CN112688345A (zh) * 2020-12-01 2021-04-20 国网湖北省电力有限公司宜昌供电公司 考虑多维度频率控制性能标准的智能频率控制方法
WO2021174918A1 (zh) * 2020-03-06 2021-09-10 国网新源张家口风光储示范电站有限公司 一种分布式储能系统二次调频控制方法及系统
CN114002957A (zh) * 2021-11-02 2022-02-01 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
TWI783826B (zh) * 2021-12-14 2022-11-11 國立中山大學 電力系統狀態的分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119029A (zh) * 2007-09-28 2008-02-06 清华大学 一种电力系统自动发电控制的超前控制方法
CN102790804A (zh) * 2012-07-29 2012-11-21 江苏大学 基于移动智能体的无结构对等网络负载均衡方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119029A (zh) * 2007-09-28 2008-02-06 清华大学 一种电力系统自动发电控制的超前控制方法
CN102790804A (zh) * 2012-07-29 2012-11-21 江苏大学 基于移动智能体的无结构对等网络负载均衡方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HASSAN BEVRANI,ET AL.: "A New Intelligent Agent-Based AGC Design With Real-Time Application", 《IEEE TRANSACTIONS ON SYSTEMS,MAN,AND CYBERNETICS-PART C:APPLICATIONS AND REVIEWS》 *
余涛等: "基于CPS统计信息自学习机理的AGC自适应控制", 《中国电机工程学报》 *
余涛等: "基于Q学习的互联电网动态最优CPS控制", 《中国电机工程学报》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103904641B (zh) * 2014-03-14 2016-05-04 华南理工大学 基于相关均衡强化学习的孤岛微电网智能发电控制方法
CN103904641A (zh) * 2014-03-14 2014-07-02 华南理工大学 基于相关均衡强化学习的孤岛微电网智能发电控制方法
CN104052055A (zh) * 2014-07-02 2014-09-17 江苏大学 一种面向有源智能电网的电动汽车调频集中调度控制方法
CN104052055B (zh) * 2014-07-02 2015-12-30 江苏大学 一种面向有源智能电网的电动汽车调频集中调度控制方法
CN104640168A (zh) * 2014-12-04 2015-05-20 北京理工大学 基于q学习的车载自组织网络路由方法
CN104898644B (zh) * 2015-04-29 2018-01-19 中国电力科学研究院 一种互联电网中各控制区的频率控制性能评价方法
CN104898644A (zh) * 2015-04-29 2015-09-09 中国电力科学研究院 一种互联电网中各控制区的频率控制性能评价方法
CN106372366A (zh) * 2016-09-30 2017-02-01 三峡大学 一种基于狼爬山算法的智能发电控制方法
CN107045655A (zh) * 2016-12-07 2017-08-15 三峡大学 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
CN107094321A (zh) * 2017-03-31 2017-08-25 南京邮电大学 一种基于多智能体q学习的车载通信mac层信道接入方法
CN107094321B (zh) * 2017-03-31 2020-04-28 南京邮电大学 一种基于多智能体q学习的车载通信mac层信道接入方法
CN107589672A (zh) * 2017-09-27 2018-01-16 三峡大学 孤岛智能配电网下虚拟狼群控制策略的智能发电控制方法
CN108092307A (zh) * 2017-12-15 2018-05-29 三峡大学 基于虚拟狼群策略的分层分布式智能发电控制方法
CN109496305A (zh) * 2018-08-01 2019-03-19 东莞理工学院 连续动作空间上的纳什均衡策略及社交网络舆论演变模型
CN109496305B (zh) * 2018-08-01 2022-05-13 东莞理工学院 一种社交网络舆论演变方法
CN109784545A (zh) * 2018-12-24 2019-05-21 深圳供电局有限公司 一种基于多智能体的分布式能源枢纽的调度方法
CN110471297A (zh) * 2019-07-30 2019-11-19 清华大学 多智能体协同控制方法、系统及设备
CN110807230A (zh) * 2019-10-29 2020-02-18 天津大学 一种自主学习优化物联网拓扑结构鲁棒性的方法
CN110807230B (zh) * 2019-10-29 2024-03-12 天津大学 一种自主学习优化物联网拓扑结构鲁棒性的方法
WO2021174918A1 (zh) * 2020-03-06 2021-09-10 国网新源张家口风光储示范电站有限公司 一种分布式储能系统二次调频控制方法及系统
CN111555368B (zh) * 2020-05-15 2022-12-06 广西大学 一种综合能源系统的深度生成式对抗网络调度与控制方法
CN111555368A (zh) * 2020-05-15 2020-08-18 广西大学 一种综合能源系统的深度生成式对抗网络调度与控制方法
CN111884251A (zh) * 2020-07-22 2020-11-03 华北电力大学 联络线控制性能评价指标预测方法及装置
CN112241814A (zh) * 2020-10-20 2021-01-19 河南大学 一种基于强化时空图神经网络的交通预测方法
CN112688345A (zh) * 2020-12-01 2021-04-20 国网湖北省电力有限公司宜昌供电公司 考虑多维度频率控制性能标准的智能频率控制方法
CN112688345B (zh) * 2020-12-01 2022-06-03 国网湖北省电力有限公司宜昌供电公司 考虑多维度频率控制性能标准的智能频率控制方法
CN114002957A (zh) * 2021-11-02 2022-02-01 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
CN114002957B (zh) * 2021-11-02 2023-11-03 广东技术师范大学 一种基于深度强化学习的智能控制方法及系统
TWI783826B (zh) * 2021-12-14 2022-11-11 國立中山大學 電力系統狀態的分析方法

Also Published As

Publication number Publication date
CN103490413B (zh) 2015-09-02

Similar Documents

Publication Publication Date Title
CN103490413B (zh) 一种基于智能体均衡算法的智能发电控制方法
CN103683337B (zh) 一种互联电网cps指令动态分配优化方法
CN107425520A (zh) 一种含节点注入功率不确定性的主动配电网三相区间状态估计方法
CN107045655A (zh) 基于多智能体随机一致博弈和虚拟发电部落的狼群部落策略方法
Wang et al. Economic load dispatch of renewable energy-based power systems with high penetration of large-scale hydropower station based on multi-agent glowworm swarm optimization
CN108092324A (zh) 一种风电参与调峰调频的agc控制系统和控制方法
CN107800157A (zh) 含聚合温控负荷和新能源的虚拟发电厂双层优化调度方法
CN107730031A (zh) 一种超短期高峰负荷预测方法及其系统
CN104037761B (zh) 一种agc功率多目标随机优化分配方法
Adinolfi et al. Pseudo-measurements modeling using neural network and Fourier decomposition for distribution state estimation
Ahmadi et al. A fuzzy inference model for short-term load forecasting
CN107612041A (zh) 一种考虑不确定性的基于事件驱动的微电网自动需求响应方法
CN103178534A (zh) 小干扰稳定预防控制策略计算方法
Jin et al. A deep neural network coordination model for electric heating and cooling loads based on IoT data
CN106372366A (zh) 一种基于狼爬山算法的智能发电控制方法
CN108053066A (zh) 工业生产用户能源管理系统中可调电力负荷的预测方法
CN107589672A (zh) 孤岛智能配电网下虚拟狼群控制策略的智能发电控制方法
Shaad et al. Aggregate load forecast with payback model of the electric water heaters for a direct load control program
CN105914752A (zh) 基于快速搜索与密度峰值聚类的主导节点选择方法
CN107846034A (zh) 一种平抑风电场爬坡率的储能出力控制方法
Liu et al. Short-term load prediction method for power distributing method based on back-propagation neural network
Farjah Proposing an efficient wind forecasting agent using adaptive MFDFA
CN116231670A (zh) 计及占用影响的集成楼宇hvac负荷群配电网优化方法
Shayeghi et al. An online Q-learning based multi-agent LFC for a multi-area multi-source power system including distributed energy resources
CN115358441A (zh) 基于联邦学习的新能源集群消纳智能调控方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant