CN108092307A

CN108092307A - 基于虚拟狼群策略的分层分布式智能发电控制方法

Info

Publication number: CN108092307A
Application number: CN201711349509.7A
Authority: CN
Inventors: 席磊; 柳浪; 陈建锋; 李玉丹; 余璐
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-29

Abstract

基于虚拟狼群策略的分层分布式智能发电控制方法，具体步骤如下：确定状态离散集S；确定联合动作离散集A；采集各个电网的实时运行数据；在当前状态s，某区域电网i获得一个短期的奖励函数信号R_i(k)；对所有区域电网，更新所有状态‑动作(s,a)对应的Q函数表格和资格迹矩阵e(s_k,a_k)；更新当前状态s下的混合策略合策略π(s_k,a_k)；选择变学习率δ；更新决策变化率Δ(s_k,a_k)和决策空间斜率值Δ²(s_k,a_k)；输出总功率参考值△P_∑i，应用一致性算法；根据AGC的目标函数，计算区域电网i中机组u的调节功率△P_i；计算一致性变量ψ_i和区域电网i中机组u的调节功率△P_i；计算功率偏差△P_error‑i；输出区域电网i中机组u的调节功率△P_iu；令k＝k+1。本发明能解决多智能体大规模激增时产生的多解问题，解决新能源大规模接入所带来的随机扰动问题。

Description

基于虚拟狼群策略的分层分布式智能发电控制方法

技术领域

本发明涉及电力系统智能发电控制技术，特别涉及一种基于虚拟狼群策略的分层分布式智能发电控制方法。

背景技术

目前由主要以煤炭为原料生产的电能在社会生产中占据主导地位，使得环境污染问题日益严重，特别是大气污染，于是越来越多的风、光等大规模清洁能源不断并入强耦合的互联电网，给互联电网带来电压越限、功率波动、频率失稳等问题，影响电网的安全运行。特别是这些能源分布较为分散，传统集中式自动发电控制(automation generationcontrol,AGC)已无法满足电力系统能源管理系统(energy management system,EMS)的要求，因而研究分布式AGC来进行最优控制是未来智能电网发展的必然趋势。

近来，许多学者致力于电网分布式控制。有文献提出了多智能体的分布式相关均衡Q(λ)方法(decentralized correlated equilibrium Q(λ)-learning，DCEQ(λ))来解决分布式能源接入后智能发电控制(smart generation control，SGC)的复杂随机动态特性和最优协调控制问题。然而，当多智能体个数增加时，DCEQ(λ)在搜索多智能体均衡解时间呈几何数增加，限制了其在更大规模系统里的应用。

因此，基于多智能体的分散式赢与快速学习爬山方法(decentralized win orlearn fast policy hill-climbing(λ)，DWoLF-PHC(λ))被提出，它利用平均混合策略取代了均衡，解决了多智能体个数增加时的多解问题，有效提高了系统动态特性，实现了对总功率指令动态优化控制。然而并没有对机组功率指令进行动态优化分配；且当多智能体大规模激增时，仍会出现多解，导致系统不稳定。因此需要探索新方法，解决多解问题的同时，对机组功率进行动态优化分配，以获得分布式控制系统的协同一致性。

在一个多智能体系统(multi-agent system，MAS)中，当智能体与临近智能体进行信息交互而取得相同目标，称为达到一致。有文献采用多智能系统协同一致性(multi-agent system collaborative consensus，MAS-CC)的理论对机组功率进行动态分配，有效地解决了多智能体个数大规模激增所带来多解问题，同时能够对机组功率进行动态优化分配。然而在追求机组功率分配具有协同一致性的同时，忽略了AGC总功率指令动态优化控制。国内外可查文献都没有对AGC总功率动态优化控制的同时对机组功率指令进行了动态优化分配，即没能从整体到分支自上而下实现真正意义的智能化。

发明内容

发明的目的在于克服现有技术的缺点与不足，提供一种基于虚拟狼群策略的分层分布式智能发电控制方法，该方法是从AGC角度来探索一种基于多智能体随机一致博弈原理，融入新输赢评判标准和资格迹的智能发电控制方法，即基于虚拟狼群策略的分层分布式结构控制方法，简称虚拟狼群策略。该策略结合了多智能体随机博弈(multi-agentsystem stochastic game，MAS-SG)和MAS-CC理论，即多智能体随机一致博弈(multi-agentsystem stochastic consensus game，MAS-SCG)原理。该方法在MAS-SG理论部分采用融合新的输赢评判标准、资格迹的PDWoLF-PHC(λ)算法，用以获得多区域SGC的均衡解，进而解决传统集中式AGC无法解决的新能源接入所带来的扰动问题。在MAS-CC理论部分的采用基于机组爬升时间的一致性算法，用以解决各个领地电网以及各个机组的功率最优分配问题。本发明可提高新能源利用率，减少碳排放，具有更快的动态优化速度和更强的鲁棒性。

本发明采取的技术方案为：

基于虚拟狼群策略的分层分布式智能发电控制方法，包括以下步骤：

步骤1、确定状态离散集S；

步骤2、确定联合动作离散集A；

步骤3、在每个控制周期开始时，采集各个电网的实时运行数据，所述实时运行数据包括频率偏差Δf和功率偏差ΔP，计算各个区域控制误差ACE_i(k)的瞬时值与控制性能标准CPS_i(k)的瞬时值，根据混合策略集合π(s_k,a_k)选择搜索动作a_k；

步骤4、在当前状态s，某区域电网i获得一个短期的奖励函数信号R_i(k)；

步骤5、对所有区域电网，更新所有状态-动作(s,a)对应的Q函数表格和资格迹e(s_k,a_k)；

步骤6、更新当前状态s下的混合策略合策略π(s_k,a_k)；

步骤7、选择变学习率δ；

步骤8、根据函数更新决策变化率Δ(s_k,a_k)和决策空间斜率值Δ²(s_k,a_k)；

步骤9、输出总功率参考值△P_∑i，应用一致性算法；

步骤10、根据AGC的目标函数，计算区域电网i中机组u的调节功率△P_iu；

步骤11、如果没有越过机组功率约束，执行步骤13；

步骤12、更新一致性变量ψ_i和计算区域电网i中机组u的调节功率△P_iu；

步骤13、计算功率偏差△P_error-i；

步骤14、如果不满足|△P_error-i|<ε_i，执行步骤9；

步骤15、输出区域电网i中机组u的调节功率△P_iu；

步骤16、令k＝k+1,并返回步骤3。

本发明一种基于虚拟狼群策略的分层分布式智能发电控制方法，有益效果如下：

(1)：本发明基于MAS-SCG原理提出了一种新颖的，具有新赢输评判标准且融入资格迹的虚拟狼群策略，以解决传统集中式AGC无法解决的大规模新能源接入电网所带来的随机扰动问题。

(2)：本发明基于MAS-SG原理，提出一种PDWoLF-PHC(λ)算法，以解决传统MAS-SG体系下智能体需要严格的知识体系的普适性问题；解决在2×2及以上博弈中，传统MAS-SG方法的赢输标准下，智能体无法进行精确计算，收敛到纳什均衡速度慢的问题。基于MAS-CC理论，采用爬升时间一致性算法对机组总功率进行动态优化分配。通过虚拟狼群策略最终获得AGC机组最优控制策略的最优解，并满足CPS要求。

(3)：本发明通过以机组碳排放和区域控制误差ACE为优化目标，选取ACE和所有机组的碳排放的加权和作为奖励函数。并通过对IEEE标准两区域LFC电力系统改进模型以及某省电网模型进行仿真，结果验证所提虚拟狼群策略的有效性。与其他传统方法相比，所提策略能够满足CPS指标、提高闭环系统性能、减少碳排放、最大程度提高能源利用率。

(4)：本发明能解决多智能体大规模激增时产生的多解问题，解决新能源大规模接入所带来的随机扰动问题，实现对分层分布式控制系统的协同控制与优化。本发明可提高新能源利用率，具有更快的动态优化速度和更强的鲁棒性。

附图说明

图1为某省电网的模型图。

图2为基于虚拟狼群策略的分层分布式智能发电控制方法的执行流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例：

本实施例是将所提策略应用到某省电网中。某省电网模型的结构如图1所示，包含了43个可调机组，总调节功率为13691.5kW，不可调机组作为负荷扰动出力。并且，每个可调机组都有对应的智能体，智能体之间的连接权重b_ij选为1。分别采用了阶跃扰动(最后幅值：1000；考核周期：86400s)、正弦扰动(振幅：1000；考核周期：86400s)和随机白噪声(噪声功率：10000；考核周期：86400s)来模拟电力系统中的负荷扰动和不确定性。使用Simulink进行建模仿真研究。每个区域电网AGC控制器在综合其它区域电网ACE实时值和所采取策略的条件下各自寻求最优联合动作策略。

1)、分析系统特性以对状态集S离散化：此实例根据某省电网调度中心CPS指标划分标准，将CPSl值划分为6个状态:(-∞，0)，[0,100％),[100％,150％),[150％,180％),[180％，200％),[200％,+∞)，再将ACE分成正负2个状态，由此每个智能体可以确定有12个状态。ACE的状态主要是为了区分引起CPS指标波动的原因。

2)、确定联合动作离散集A，第i区域电网的动作集为A_i＝[-50，-40，-30，-20，-10，0，10，20，30，40，50]MW，联合动作策略集为A＝A₁×A₂×L×A_i×L×A_n，A为控制器的输出动作，即AGC的功率调节指令。控制步长采用AGC控制周期，取4s。

3)、在每个控制周期开始时采集各个区域电网的实时运行数据:Δf，ΔP，其中Δf表示系统频率偏差，ΔP表示联络线功率偏差。根据国际通用考核办法ACE＝T_a-T_s-10B(f_a-f_s)，T_a，T_s分别为联络线实际潮流值与期望潮流值；B为频率偏差系数；f_a，f_s分别为系统实际频率值与期望频率值；B_i为控制区域i的频率偏差系数；ε₁为互联电网对全年1分钟频率平均偏差均方根的控制目标值；n为该考核时段的分钟数；Δf_AVE为频率偏差的平均值；ACE_AVE-1min为区域控制误差ACE在1分钟内的平均值；CPS2＝(1-R)×100％、ε₁₀为互联电网对全年10分钟频率平均偏差均方根的控制目标值；B_net为整个互联电网的频率偏差系数；ACE_AVE-10min为区域控制误差ACE在10分钟内的平均值；和式CPS2＝(1-R)×100％计算各个区域的ACE_i(k)与CPS_i(k)瞬间值。

4)、根据各个区域的ACE_i(k)与CPS_i(k)瞬间值确定当前状态s，并获得区域电网的立即奖励值R_i(k)，奖励函数设计如下：

式中，ΔP_iu(k)和ACE(k)分别表示在第k次迭代时区域电网i中第u个机组的调节功率瞬时值和ACE的瞬时值，η和(1-η)分别为和ACE(k)的奖励权重，这里选择η＝0.5。C_iu为区域电网i中第u个机组的碳排放强度系数。U_i为区域电网i中的机组总数。

5)、智能体在第k步迭代过程中的Q函数的表达式为：

式中，γ为折扣因子，为Q函数将来的奖励提供折扣；在热电厂为主导的负荷频率控制过程中，由于最新的奖励最重要，所以应该选取近似1的值。R(s_k,s_k+1,a_k)为在选定的动作a_k下,从状态s_k转移到状态s_k+1的智能体奖励函数；e_k(s_k,a_k)为在状态s动作a下第k步迭代的资格迹，a'为贪婪动作策略。α为Q学习率，设置为0<α<1，对Q函数的收敛速率即算法稳定性进行权衡；更大的α可以加快学习速度，而更小的α能提高系统的稳定性；在预学习过程中，选择α的初始值为0.1以获得总体的探索，然后为了逐渐提高系统的稳定性，它将以线性方式减少。Q_k(s_k,a_k)为动作a_k下，状态s_k的第k个智能体的Q函数；Q_k+1(s_k,a_k)为动作a_k下，状态s_k的第k+1个智能体的Q函数。

资格迹e_k(s_k,a_k)更新为：

式中，λ为资格迹衰减因子设置为0<λ<1，其作用是在状态动作对间分配信誉；对于长时延系统，它影响收敛速度及非马尔可夫效果，一般来说，回溯法里λ能被看作为时间标度因素，对于Q函数误差来说，小的λ意味着很少的信誉被赋予到历史状态动作对，而大的λ表明分配到了更多的信誉。γ为折扣因子，为Q函数将来的奖励提供折扣；e_k(s,a)为为在状态s动作a下第k步迭代的资格迹；e_k+1(s,a)为为在状态s动作a下第k+1步迭代的资格迹。

6)、混合策略π(s_k,a_k)更新为：

式中是策略更新时需要的增量变化量，它按照下面公式取值：

一般情况下，按照下面公式取值：

式中δ为变学习率，且δ_lose>δ_win，|A_i|为状态s下可选行动的个数。

7)、变学习率δ为：

通过引入决策变化率以及决策空间斜率值，作为评判因素，若决策变化率和决策空间斜率值的乘积小于0，游戏者便赢了，变学习率δ设置为0<δ<1，根据动作值的最大化得到一个最优策略。

更新决策变化率Δ(s_k,a_k)和决策空间斜率值Δ²(s_k,a_k)为：

式中，是策略更新时需要的增量变化量，Δ(s_k,a_k)是决策变化率，Δ²(s_k,a_k)是决策空间斜率值。通过引入增量变化量与决策变化率Δ(s_k,a_k)，更新决策空间斜率值Δ²(s_k,a_k)。

应用一致性算法为：

式中ψ_i是第i个智能体的状态；k表示离散时间序列；d_ij[k]表示行随机矩阵D＝[d_ij]∈R^n×n在离散时刻k的第(i,j)项

式中l_ij为拉普拉斯矩阵，表示为：

式中常数b_ij(b_ij≥0)代表智能体间的权重因子，在智能体之间持续的相互交流及恒定增益b_ij条件下，当且仅当有向图是强连通时，能够实现协同一致性。

功率偏差△P_error-i：

式中△P_error-i是总功率指令和所有机组总调节功率的差值。

步骤14的功率偏差：

|△P_error-i|<ε_i

式中ε_i是最大功率偏差。

在下一个周期到来时，返回步骤3)。

本发明的核心是结合MAS-SG和MAS-CC两大框架体系，对资格迹思想、SARAS(λ)算法、PDWoLF-PHC算法的融合，奖励函数的设计、混合策略和变学习率的求解及每个智能体Q值的更新。其中结合MAS-SG和MAS-CC两大框架体系和资格迹思想的融合是关键创新点。MAS主从网络理论的出现，为MAS-CC和MAS-SG两大框架的融合提供了一种途径，即在智能体数量众多的跟随者网络中采用MAS-CC框架，智能体个数相对较少的领导者之间采用MAS-SG框架，我们称之为具有同构/异构相混合复杂结构的“多智能体随机协同对策(multi-agentsystem stochastic consensus game,MAS-SCG)”。MAS-SCG的思想源于野生狼群在恶劣的自然界中捕猎过程所采取的协同一致策略，从而保证了他们的生存与繁衍生息。资格迹是一种方法，它能详细记录各联合动作策略发生的频率，并依此对各动作策略的迭代Q值进行更新。在每次迭代过程中，联合状态与动作会被记录到资格迹中，对学习过程中多步历史决策给予奖励和惩罚。Q函数与资格迹以二维状态动作对的形式被记录下来。资格迹将历史决策过程的频度及渐新度联系在一起，以获得AGC控制器的最优Q函数。

本发明方法可以完整描述如下：

1)、分析系统特性确定状态离散集S，具体可以通过CPSl和ACE值的划分；

2)、确定联合动作离散集A，其中A＝A₁×A₂×L×A_i×L×A_n，A_i为智能体i的输出离散动作集，n为智能体个数；

3)、在每个控制周期开始时，采集各个电网的实时运行数据，所述实时运行数据包括频率偏差Δf和功率偏差ΔP，各个区域的ACE_i(k)与CPS_i(k)瞬时值，其中Δf表示系统频率偏差，ΔP表示联络线功率偏差；根据混合策略集合π(s_k,a_k)选择搜索动作a_k；

4)、在当前状态s，某区域电网i获得一个短期的奖励函数信号R_i(k)，R_i(k)的设计为区域电网i第k步ACE和CPS1的差分值以及功率调节值的线性组合，公式为：

5)、智能体在第k步迭代过程中的Q函数的表达式为：

资格迹e_k(s_k,a_k)更新为：

6)、混合策略π(s_k,a_k)更新为：

一般情况下，按照下面公式取值：

7)、选择变学习率δ为：

8)、更新决策变化率Δ(s_k,a_k)和决策空间斜率值Δ²(s_k,a_k)为：

9)、输入总功率指令△P_∑i，对功率指令进行一致性计算，一致性算法为

式中l_ij为拉普拉斯矩阵，表示为：

10)、功率偏差△P_error-i：

式中△P_error-i是总功率指令和所有机组总调节功率的差值。

11)、判断机组调节功率是否越过发电约束，若越过，执行下一步骤，没有越过执行步骤9)。

12)、比较功率偏差△P_error-i，当功率误差的绝对值小于等于最大功率误差时，执行下一步骤，否则执行步骤11。

|△P_error-i|<ε_i

式中ε_i是最大功率偏差。

13)、输出区域电网i中机组u的调节功率△P_iu；

14)、在下一个周期到来时，返回步骤3)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于包括以下步骤：

步骤1、确定状态离散集S；

步骤2、确定联合动作离散集A；

步骤6、更新当前状态s下的混合策略合策略π(s_k,a_k)；

步骤7、选择变学习率δ；

步骤9、输出总功率参考值△P_∑i，应用一致性算法；

步骤11、如果没有越过机组功率约束，执行步骤13；

步骤13、计算功率偏差△P_error-i；

步骤14、如果不满足|△P_error-i|<ε_i，执行步骤9；

步骤15、输出区域电网i中机组u的调节功率△P_iu；

步骤16、令k＝k+1,并返回步骤3。

2.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤1的状态离散集S，通过控制性能标准CPS和区域控制误差ACE值的划分来确定。

3.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤2的联合动作离散集A的表达式为：

A＝A₁×A₂×…×A_j×…×A_n,

其中，A_i为智能体i的输出离散动作集，n为智能体个数。

4.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤4的短期奖励函数信号R_i(k)的表达式为：

<mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>&eta;</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>U</mi> <mi>i</mi> </msub> </munderover> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>u</mi> </mrow> </msub> <mo>&lsqb;</mo> <msub> <mi>&Delta;P</mi> <mrow> <mi>i</mi> <mi>u</mi> </mrow> </msub> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mo>/</mo> <mn>1000</mn> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&eta;</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>&lsqb;</mo> <mi>A</mi> <mi>C</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow>

5.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤5的智能体在第k步迭代过程中的Q函数的表达式为：

<mrow> <msub> <mi>Q</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>Q</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>&lsqb;</mo> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&gamma;</mi> <munder> <mi>max</mi> <mrow> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msub> <mi>Q</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>Q</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <msub> <mi>e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

资格迹e_k(s_k,a_k)更新为：

<mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&gamma;&lambda;e</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

6.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤6的混合策略π(s_k,a_k)更新为：

<mrow> <mi>&pi;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&pi;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> </mrow>

<mrow> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <msub> <mi>&delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <mi>a</mi> <mo>&NotEqual;</mo> <msub> <mi>argmax</mi> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> </msub> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <msup> <mi>a</mi> <mo>&prime;</mo> </msup> <mo>&NotEqual;</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <msub> <mi>&delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

一般情况下，按照下面公式取值：

<mrow> <msub> <mi>&delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&pi;</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> <mo>,</mo> <mfrac> <mi>&delta;</mi> <mrow> <mo>|</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

7.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤7的选择变学习率δ为：

<mrow> <mi>&delta;</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&delta;</mi> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi>&Delta;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msup> <mi>&Delta;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&delta;</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>s</mi> <mi>e</mi> </mrow> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

通过引入决策变化率Δ(s_k,a_k)以及决策空间斜率值Δ²(s_k,a_k)作为评判因素，若决策变化率和决策空间斜率值的乘积小于0，游戏者便赢了，变学习率δ设置为0<δ<1，根据动作值的最大化得到一个最优策略。

所述步骤8的更新决策变化率Δ(s_k,a_k)和决策空间斜率值Δ²(s_k,a_k)为：

<mrow> <msup> <mi>&Delta;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>-</mo> <mi>&Delta;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>&Delta;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Delta;</mi> <mrow> <msub> <mi>s</mi> <mi>k</mi> </msub> <msub> <mi>a</mi> <mi>k</mi> </msub> </mrow> </msub> </mrow>

8.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤9的应用一致性算法为：

<mrow> <msub> <mi>&psi;</mi> <mi>i</mi> </msub> <mo>&lsqb;</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>&rsqb;</mo> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> <msub> <mi>&psi;</mi> <mi>j</mi> </msub> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow>

<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> <mo>=</mo> <mo>|</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow>

式中l_ij为拉普拉斯矩阵，表示为：

<mrow> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> <mi>n</mi> </munderover> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>b</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <mo>&ForAll;</mo> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow>

9.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：所述步骤13的功率偏差△P_error-i：

<mrow> <msub> <mi>&Delta;P</mi> <mrow> <mi>e</mi> <mi>r</mi> <mi>r</mi> <mi>o</mi> <mi>r</mi> <mo>-</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&Delta;P</mi> <mrow> <mi>&Sigma;</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&Delta;P</mi> <mrow> <mi>G</mi> <mi>i</mi> </mrow> </msub> </mrow>

10.根据权利要求1所述基于虚拟狼群策略的分层分布式智能发电控制方法，其特征在于：式中ΔP_error-i是总功率指令和所有机组总调节功率的差值。