CN106899026A

CN106899026A - 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法

Info

Publication number: CN106899026A
Application number: CN201710183091.0A
Authority: CN
Inventors: 席磊; 李玉丹; 陈建峰; 柳浪
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-06-27

Abstract

基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，包括：确定状态离散集S；确定联合动作离散集A；采集各个电网的实时运行数据，计算各个区域控制误差ACE_i(k)的瞬时值与控制性能标准CPS_i(k)的瞬时值，选择搜索动作a_k；在当前状态s，某区域电网i获得一个短期的奖励函数信号R_i(k)；通过计算与估计获得值函数误差ρ_k、δ_k；更新所有状态‑动作(s,a)对应的Q函数表格和时间隧道矩阵e(s_k,a_k)；更新的Q值更新当前状态s下的混合策略合策略π(s_k,a_k)；接着更新时间隧道元素e(s_k,a_k)；选择变学习率根据函数更新决策改变率Δ(s_k,a_k)和决策空间估计斜率Δ²(s_k,a_k)。本发明以解决多区域智能发电控制的均衡问题，具有更强的适应学习率能力以及更快的学习速率比，具有更快的收敛速度以及更强的鲁棒性。

Description

基于具有时间隧道思想的多智能体强化学习的智能发电控制方法

技术领域

本发明涉及电力系统智能发电控制技术，特别涉及一种基于具有时间隧道思想的多智能体强化学习的智能发电控制方法。

背景技术

互联电网自动发电控制(Automatic Generation Control,AGC)是调节电网频率、有功功率和保证电网安全运行的重要技术手段。目前，AGC控制策略的设计多为经典PI控制结构。然而，由于电力系统运行点随日、月、季、年的不断变化，基于传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求。神经网络方法、模糊控制、遗传方法等智能方法相继应用于AGC控制器的设计。传统PI控制和模糊控制可保证对受控对象存在的模型不确定性具有较高的鲁棒性，但在最优化设计方面还存在一定欠缺。随着间歇式新能源发电系统、电动汽车充电站和智能用户等会在未来几年内国家新能源政策大力支持下急剧增加，电网负荷发电平衡过程更接近于一个典型的非平稳强随机过程。已有理论研究表明，强化学习方法所具有的高度自学习与自寻优能力在解决调度端最优发电控制方面具有更好的协调性与鲁棒性。

多智能体强化学习算法是人工智能领域的热点研究方向，其中基于经典Q学习的算法框架体系最具代表性。针对不同的博弈形式，多种基于随机博弈论的强化学习算法被学者们陆续提出，如Minimax-Q、Nash-Q、Friend-or-Foe Q和CE-Q。图1为各类均衡博弈及对应的常用算法。但由于Minimax-Q是两个Agent的零和博弈、Nash-Q需要每个Agent都获悉其余Agent的行动和报酬、FF-Q要求Agent被告知所面临的敌友关系、CE-Q的Agent必须合作来联合学习均衡策略，致使这些算法的应用范围都较为局限。Bowling于2002年提出了一种改进的Q学习算法，即WoLF-PHC算法。它采用了混合策略，并且只需维持自身的一张Q值表。然而由于WOLF在2*2博弈中，无法对赢输标准进行精确计算，致使WoLF-PHC的决策仅能取决于估值均衡奖励进行探索。因此需要探索新方法，得到更优化的智能发电控制的方法，使其满足日益复杂的电力系统对控制性能的要求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，该方法融合了PDWoLF-PHC算法、时间隧道思想和SARSA(λ)算法，以解决传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求，该方法具有更强的适应学习率能力以及更快的学习速率比，具有更快的收敛速度以及更强的鲁棒性，并且在减少CE、提升新能源利用率方面效果显著。

本发明采取的技术方案为：

基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，包括以下步骤：

步骤1、确定状态离散集S；

步骤2、确定联合动作离散集A；

步骤3、在每个控制周期开始时，采集各个电网的实时运行数据，所述实时运行数据包括频率偏差Δf和功率偏差ΔP，计算各个区域控制误差ACE_i(k)的瞬时值与控制性能标准CPS_i(k)的瞬时值，根据混合策略集合π(s_k,a_k)选择搜索动作a_k；

步骤4、在当前状态s，某区域电网i获得一个短期的奖励函数信号R_i(k)；

步骤5、通过计算与估计获得值函数误差ρ_k、δ_k；

步骤6、对所有区域电网，更新所有状态-动作(s,a)对应的Q函数表格和时间隧道矩阵e(s_k,a_k)；

步骤7、更新的Q值和更新当前状态s下的混合策略合策略π(s_k,a_k)；

步骤8、接着更新时间隧道元素e(s_k,a_k)；

步骤9、选择变学习率

步骤10、根据函数更新决策改变率Δ(s_k,a_k)和决策空间估计斜率Δ²(s_k,a_k)；

步骤11、返回步骤3。

所述步骤1的状态离散集S，通过控制性能标准CPS和区域控制误差ACE值的划分来确定。

所述步骤2的联合动作离散集A的表达式为：

A＝A₁×A₂×…×A_i×…×A_n

其中，A_i为智能体i的输出离散动作集，n为智能体个数。

所述步骤4的短期奖励函数信号R_i(k)的表达式为：

式中，σi代表的是获得的非负奖励值；CPS1和ACE的平均值可以用来表示控制区的CPS1和CPS2指标，ACE_i(k)、CPS1_i(k)分别代表控制区域i第k次迭代的1min ACE和CPS1的平均值；ΔP_i(k)是区域电网i调度中心第k次迭代功率调节值，η_1i、η_2i、μ_1i和μ_2i是区域电网i奖励函数的优化权值；ΔP_i(k)的二次项的使用是为了减少控制动作的数量以减少发电机不必要的机动；此外，为了确保分段奖励函数的一致性和公平性，权重比值η_1i/η_2i和μ_1i/μ_2i应该保持恒定不变，且它们的取值取决于状态变量CPS1/ACE和动作变量ΔP(k)的维数差异。

所述步骤5的智能体在第k步迭代过程中的Q函数误差的ρ_k和Q函数误差的评估δ_k，它们的表达式为：

δ_k＝R(s_k,s_k+1,a_k)+γQ_k(s_k+1,a_g)-Q_k(s_k,a_g)

ρ_k＝R(s_k,s_k+1,a_k)+γQ_k(s_k+1,a_g)-Q_k(s_k,a_k)，

式中，γ为折扣因子，为Q函数将来的奖励提供折扣；在热电厂为主导的LFC控制过程中，由于最新的奖励最重要，所以应该选取近似1的值。R(s_k,s_k+1,a_k)为在选定的动作a_k下,从状态s_k转移到状态s_k+1的智能体奖励函数；a_g为贪婪动作；Q(s_k,a_k)为动作a_k下，状态s_k的Q函数；Q(s_k,a_g)为贪婪动作a_g下，状态s_k的Q函数。

所述步骤6的Q函数的更新为：

Q_k+1(s_k,a_k)＝Q_k(s_k,a_k)+αδ_ke_k(s_k,a_k)

Q_k+1(s_k,a_k)＝Q_k+1(s_k,a_k)+αρ_k；

式中，e_k(s_k,a_k)为在状态s动作a下第k步迭代的时间隧道，α为Q学习率，设置为0<α<1，对Q函数的收敛速率即算法稳定性进行权衡；更大的α可以加快学习速度，而更小的α能提高系统的稳定性；在预学习过程中，选择α的初始值为0.1以获得总体的探索，然后为了逐渐提高系统的稳定性，它将以线性方式减少。ρ_k为第k步迭代过程中的Q函数误差；δ_k在第k步迭代过程中的Q函数误差的评估；Q_k(s_k,a_k)为动作a_k下，状态s_k的第k个智能体的Q函数；Q_k+1(s_k,a_k)为动作a_k下，状态s_k的第k+1个智能体的Q函数。

更新时间隧道e_k(s_k,a_k)为：

式中，λ为时间隧道衰减因子设置为0<λ<1，其作用是在状态动作对间分配信誉；对于长时延系统，它影响收敛速度及非马尔可夫效果，一般来说，回溯法里λ能被看作为时间标度因素，对于Q函数误差来说，小的λ意味着很少的信誉被赋予到历史状态动作对，而大的λ表明分配到了更多的信誉。γ为折扣因子，为Q函数将来的奖励提供折扣；e_k(s,a)为为在状态s动作a下第k步迭代的时间隧道；e_k+1(s,a)为为在状态s动作a下第k+1步迭代的时间隧道。

所述步骤7的混合策略π(s,a)更新为：

式中Δ_sa是策略更新时需要的增量变化量，它按照下面公式取值：

一般情况下，δ_sa按照下面公式取值：

式中为变学习率，且δ为学习率，|Ai|为状态s_k下可选行动的个数。

所述步骤8的更新时间隧道元素：e(s_k,a_k)←e(s_k,a_k)+1。e(s_k,a_k)为为在状态s动作a下第k步迭代的时间隧道。

通过引入决策变化率以及决策空间斜率值，作为评判因素，若决策变化率和决策空间斜率估计值的乘积小于0，游戏者便赢了，变学习率设置为根据动作值的最大化得到一个最优策略。Δ(s_k,a_k)为决策改变率；Δ²(s_k,a_k)为决策空间估计斜率。

所述步骤10的更新决策改变率Δ(s_k,a_k)和决策空间估计斜率Δ²(s_k,a_k)为：

式中，Δ_sa是策略更新时需要的增量变化量，Δ(s_k,a_k)是决策改变率，Δ²(s_k,a_k)是决策空间估计斜率。通过引入增量变化量Δ_sa与决策改变率Δ(s_k,a_k)，更新决策空间估计斜率Δ²(s_k,a_k)。引入增量变化量Δ_sa，更新决策改变率Δ(s_k,a_k)。

本发明一种基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，有益效果如下：

(1)：本发明融合了PDWoLF-PHC算法、时间隧道思想和SARSA(λ)算法，解决传统控制方法的固定增益控制器难以满足日益复杂的电力系统对控制性能的要求。

(2)：本发明解决了基于多智能体的分散式相关均衡Q(λ)方法在智能体个数增加时限制了其方法在更大规模的电网系统的广泛应用，在已有的PDWoLF算法进行改进，并结合PHC算法，该算法通过决策变化率以及决策空间斜率值的乘积小于0来设计变学习率，可以在不需要了解均衡策略的情况下，直接轻易计算出来，并且能够适应学习者在联合策略空间中瞬时位置的学习率，从而实现收敛到最优解，保证了算法的合理性，还解决了多区域SGC的均衡问题。

(3)：本发明通过经验共享动态更新Q函数以及look-up表，获得每个机组的相关性权重十分简单，因此能够适时恰当地调整控制器从而使得总控制效果最优。多智能体间的实时信息交互保证了算法的收敛速度和鲁棒性，且能实现全局最优。

附图说明

图1为各类均衡博弈及对应的常用算法流程图。

图2为具有时间隧道思想的SARSA(λ)算法流程图。

图3为基于具有时间隧道思想的多智能体强化学习的智能发电控制方法的SGC执行流程图。

图4为华中电网负荷频率控制模型图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例：

本实施例是在华中电网的整体框架下，各个控制区域通过采用高压直流输电系统和高压交流输电系统以实现互联。以湖北电网为主要研究对象，仿真模型为湖北省电力调度中心实际工程项目搭建的详细全过程动态仿真模型，该仿真模型中化华中电网分为河南、湖北、江西、湖南、重庆和四川六个区域电网，河南电网是交流/直流(AC/DC)混合输电系统满足CPS标准，SGC的控制周期为4s。河南电网、湖北电网、江西电网、湖南电网、重庆电网和四川电网的L10取值分别为：214MW、118MW、79MW、80MW、125MW和190MW。采用了脉冲负荷扰动(振幅：1000；周期：1200s；脉冲宽度：周期的50％)和随机白噪声(噪声功率：10000；检测周期：60；seed：23341)来模拟电力系统中的负荷扰动和不确定性。使用Simulink进行建模仿真研究。每个区域电网AGC控制器在综合其它区域电网ACE实时值和所采取策略的条件下各自寻求最优联合动作策略。

基于具有时间隧道思想的多智能体强化学习的智能发电控制方法的步骤：

1)、分析系统特性以对状态集s离散化:此实例根据广东电力调度中心CPS指标划分标准，将CPSl值划分为6个状态:(-∞，0)，[0,100％),[100％,150％),[150％,180％),[180％，200％),[200％,+∞)，再将ACE分成正负2个状态，由此每个智能体可以确定有12个状态。ACE的状态主要是为了区分引起CPS指标波动的原因。

2)、确定联合动作离散集A，第i区域电网的动作集为A_i＝[-50，-20，-10,-5,0,5,10,20,50]MW，联合动作策略集为,A＝A₁×A₂×…×A_i×…×A_n，A为控制器的输出动作，即AGC的功率调节指令。控制步长采用AGC控制周期，取4s。

3)、在每个控制周期开始时采集各个区域电网的实时运行数据:△f,△P,其中△f表示系统频率偏差，△P表示联络线功率偏差根据国际通用考核办法ACE＝T_a-T_s-10B(F_a-F_s)，T_a，T_s分别为联络线实际潮流值与期望潮流值；B为频率偏差系数；F_a，F_s分别为系统实际频率值与期望频率值；B_i为控制区域i的频率偏差系数；ε₁为互联电网对全年1分钟频率平均偏差均方根的控制目标值；n为该考核时段的分钟数；CPS2＝(1-R)×100％、ε₁₀为互联电网对全年10分钟频率平均偏差均方根的控制目标值；B_net为整个互联电网的频率偏差系数；ACE_AVE-10min为区域控制误差ACE在10分钟内的平均值；和式CPS2＝(1-R)×100％计算各个区域的ACE_i(k)与CPS_i(k)瞬间值。

4)、根据各个区域的ACE_i(k)与CPS_i(k)瞬间值确定当前状态s，再有状态s和奖励函数获得区域电网的立即奖励值R_i(k)，奖励函数设计如下：

式中:σi为区域i历史奖励最大值，初始为0。ACEi(k)和分别为区域电网i第k步迭代的CPS1和ACE瞬时值；η_1i、η_2i、μ_1i和μ_2i是区域电网i奖励函数的优化权值，这里取η_1i＝1，η_2i＝10、μ_1i＝1和μ_2i＝10，ΔP_i(k)为区域电网i第k步的功率调节值，这一奖励分量是为限制控制器输出功率指令频繁大幅度升降调节而引起的系统振荡和经济代价。

5)、求取在智能体在第k步迭代过程中的Q函数误差的的ρ_k和Q函数误差的评估δ_k，它们的表达式为：

δ_k＝R(s_k,s_k+1,a_k)+0.9Q_k(s_k+1,a_g)-Q_k(s_k,a_g) (2)

ρ_k＝R(s_k,s_k+1,a_k)+0.9Q_k(s_k+1,a_g)-Q_k(s_k,a_k) (3)

式中，γ为折扣因子，为Q函数将来的奖励提供折扣。在热电厂为主导的LFC控制过程中，由于最新的奖励最重要，所以应该选取近似1的值，这里γ＝0.9。R(s_k,s_k+1,a_k)为在选定的动作a_k下,从状态s_k转移到状态s_k+1的智能体奖励函数；a_g为贪婪动作；Q(s_k,a_k)为动作a_k下，状态s_k的Q函数；Q(s_k,a_g)为贪婪动作a_g下，状态s_k的Q函数。

6)、更新Q函数为：

Q_k+1(s_k,a_k)＝Q_k(s_k,a_k)+0.5×δ_k×e_k(s_k,a_k) (4)

Q_k+1(s_k,a_k)＝Q_k+1(s_k,a_k)+0.5×ρ_k (5)

式中，e_k(s_k,a_k)为在状态s动作a下第k步迭代的时间隧道，α为Q学习率，设置为0<α<1，对Q函数的收敛速率即算法稳定性进行权衡。更大的α可以加快学习速度，而更小的α能提高系统的稳定性。在预学习过程中，选择α的初始值为0.1以获得总体的探索，然后为了逐渐提高系统的稳定性，它将以线性方式减少，这里取α＝0.5。ρ_k为第k步迭代过程中的Q函数误差；δ_k在第k步迭代过程中的Q函数误差的评估；Q_k(s_k,a_k)为动作a_k下，状态s_k的第k个智能体的Q函数；Q_k+1(s_k,a_k)为动作a_k下，状态s_k的第k+1个智能体的Q函数。7)、更新时间隧道e_k(s_k,a_k)为：

式中，λ为时间隧道衰减因子设置为0<λ<1，其作用是在状态动作对间分配信誉。对于长时延系统，它影响收敛速度及非马尔可夫效果。一般来说，回溯法里λ能被看作为时间标度因素。对于Q函数误差来说，小的λ意味着很少的信誉被赋予到历史状态动作对，而大的λ表明分配到了更多的信誉，这里取λ＝γ＝0.9。γ为折扣因子，为Q函数将来的奖励提供折扣；e_k(s,a)为为在状态s动作a下第k步迭代的时间隧道；e_k+1(s,a)为为在状态s动作a下第k+1步迭代的时间隧道。

8)、混合策略π(s,a)更新为：

一般情况下，δ_sa按照下面公式取值：

9)、更新时间隧道元素；

e(s_k,a_k)←e(s_k,a_k)+1 (10)

10)、选择变学习率为:

通过引入决策变化率以及决策空间斜率值，作为评判因素，若决策变化率和决策空间斜率估计值的乘积小于0，游戏者便赢了。变学习率设置为根据动作值的最大化得到一个最优策略,这里证实会得到一个稳定的控制特性。

11)、更新决策改变率Δ(s_k,a_k)和决策空间估计斜率Δ²(s_k,a_k)为:

12)、在下一个周期到来时，返回步骤3)。

本发明的核心是在时间隧道思想、SARAS(λ)算法、PDWOLF-PHC算法的融合，奖励函数的设计、混合策略和变学习率的求解及每个智能体Q值的更新。其中时间隧道思想的融合及变学习率的求解是关键创新点，具有时变的多步回溯资格迹，可以形象的比喻为具有时间隧道思想的一种假设。时间隧道详细记录各联合动作策略发生的频率，并依此对各动作策略的迭代Q值进行更新。在每次迭代过程中，联合状态与动作会被记录到时间隧道中，对学习过程中多步历史决策给予奖励和惩罚。Q函数与时间隧道以二维状态动作对的形式被记录下来。时间隧道将历史决策过程的频度及渐新度联系在一起，以获得AGC控制器的最优Q函数。Q函数的多步信息更新机制是通过时间隧道的后向评估来获得。SARSA(λ)算法是将TD(λ)(瞬时差分)预测算法和SARSA算法结合，如图2所示。

通过引入决策变化率以及决策空间斜率值乘积小于0，作为赢的新的评判因素，这样能够适应学习者在联合策略空间中瞬时位置的学习率，具有更好的动态性能。

本发明方法可以完整描述如下：

1)、分析系统特性确定状态离散集S，具体可以通过CPSl和ACE值的划分；

2)、确定联合动作离散集A，其中A＝A₁×A₂×…×A_i×…×A_n,Ai为智能体i的输出离散动作集，n为智能体个数；

3)、在每个控制周期开始时，采集各个电网的实时运行数据，所述实时运行数据包括频率偏差Δf和功率偏差ΔP，各个区域的ACE_i(k)与CPS_i(k)瞬时值，其中△f表示系统频率偏差，△P表示联络线功率偏差；根据混合策略集合π(s_k,a_k)选择搜索动作a_k；

4)、在当前状态s，某区域电网i获得一个短期的奖励函数信号R_i(k),Ri(k)的设计为区域电网i第k步ACE和CPS1的差分值以及功率调节值的线性组合，公式为：

δ_k＝R(s_k,s_k+1,a_k)+γQ_k(s_k+1,a_g)-Q_k(s_k,a_g) (2)

ρ_k＝R(s_k,s_k+1,a_k)+γQ_k(s_k+1,a_g)-Q_k(s_k,a_k) (3)

式中，γ为折扣因子，为Q函数将来的奖励提供折扣。在热电厂为主导的LFC控制过程中，由于最新的奖励最重要，所以应该选取近似1的值。R(s_k,s_k+1,a_k)为在选定的动作a_k下,从状态s_k转移到状态s_k+1的智能体奖励函数；a_g为贪婪动作；Q(s_k,a_k)为动作a_k下，状态s_k的Q函数；Q(s_k,a_g)为贪婪动作a_g下，状态s_k的Q函数。

6)、更新Q函数为

Q_k+1(s_k,a_k)＝Q_k(s_k,a_k)+α×δ_k×e_k(s_k,a_k) (4)

Q_k+1(s_k,a_k)＝Q_k+1(s_k,a_k)+α×ρ_k (5)

式中，e_k(s_k,a_k)为在状态s动作a下第k步迭代的时间隧道，α为Q学习率，设置为0<α<1，对Q函数的收敛速率即算法稳定性进行权衡。更大的α可以加快学习速度，而更小的α能提高系统的稳定性。在预学习过程中，选择α的初始值为0.1以获得总体的探索，然后为了逐渐提高系统的稳定性，它将以线性方式减少。ρ_k为第k步迭代过程中的Q函数误差；δ_k在第k步迭代过程中的Q函数误差的评估；Q_k(s_k,a_k)为动作a_k下，状态s_k的第k个智能体的Q函数；Q_k+1(s_k,a_k)为动作a_k下，状态s_k的第k+1个智能体的Q函数。

7)、更新时间隧道e_k(s_k,a_k)为

式中，λ为时间隧道衰减因子设置为0<λ<1，其作用是在状态动作对间分配信誉。对于长时延系统，它影响收敛速度及非马尔可夫效果。一般来说，回溯法里λ能被看作为时间标度因素。对于Q函数误差来说，小的λ意味着很少的信誉被赋予到历史状态动作对，而大的λ表明分配到了更多的信誉。γ为折扣因子，为Q函数将来的奖励提供折扣；e_k(s,a)为为在状态s动作a下第k步迭代的时间隧道；e_k+1(s,a)为为在状态s动作a下第k+1步迭代的时间隧道。

8)、混合策略π(s,a)更新为：

式中Δ_sa是策略更新时需要的增量变化量，它按照下面公式取值

一般情况下，δ_sa按照下面公式取值：

9)、更新时间隧道元素：

e(s_k,a_k)←e(s_k,a_k)+1 (10)

式中e(s_k,a_k)为为在状态s动作a下第步迭代的时间隧道。

10)、选择变学习率为：

通过引入决策变化率以及决策空间斜率值，作为评判因素，若决策变化率和决策空间斜率估计值的乘积小于0，游戏者便赢了。变学习率设置为

11)、更新决策改变率Δ(s_k,a_k)和决策空间估计斜率Δ²(s_k,a_k)为

12)、在下一个周期到来时，返回步骤S3。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于包括以下步骤：

步骤1、确定状态离散集S；

步骤2、确定联合动作离散集A；

步骤5、通过计算与估计获得值函数误差ρ_k、δ_k；

步骤8、接着更新时间隧道元素e(s_k,a_k)；

步骤9、选择变学习率

步骤11、返回步骤3。

2.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤1的状态离散集S，通过控制性能标准CPS和区域控制误差ACE值的划分来确定。

3.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤2的联合动作离散集A的表达式为：

A＝A₁×A₂×…×A_i×…×A_n

其中，A_i为智能体i的输出离散动作集，n为智能体个数。

4.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：的短期奖励函数信号R_i(k)的表达式为：

\{\begin{matrix} \begin{matrix} R_{i} (s_{k - 1}, s_{k}, s_{k + 1}) = σ_{i} - μ_{1 i} {ΔP}_{i} {(k)}^{2} & C P S 1_{i} (k) &GreaterEqual; 200 \end{matrix} \\ R_{i} (s_{k - 1}, s_{k}, s_{k + 1}) = - η_{1 i} [| {ACE}_{i} (k) | - | {ACE}_{i} (k - 1) |] - μ_{1 i} {ΔP}_{i} {(k)}^{2} \\ C P S 1_{i} (k) &Element; [100, 200) \\ R_{i} (s_{k - 1}, s_{k}, s_{k + 1}) = - η_{2 i} [| C P S 1_{i} (k) - 200 | - | C P S 1_{i} (k - 1) - 200 |] - μ_{2 i} {ΔP}_{i} {(k)}^{2} \\ C P S 1_{i} (k) < 100 \end{matrix}

5.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤5的智能体在第k步迭代过程中的Q函数误差的ρ_k和Q函数误差的评估δ_k，它们的表达式为：

δ_k＝R(s_k,s_k+1,a_k)+γQ_k(s_k+1,a_g)-Q_k(s_k,a_g)

ρ_k＝R(s_k,s_k+1,a_k)+γQ_k(s_k+1,a_g)-Q_k(s_k,a_k)，

式中，γ为折扣因子，为Q函数将来的奖励提供折扣；在热电厂为主导的LFC控制过程中，由于最新的奖励最重要，所以应该选取近似1的值；R(s_k,s_k+1,a_k)为在选定的动作a_k下,从状态s_k转移到状态s_k+1的智能体奖励函数；a_g为贪婪动作；Q(s_k,a_k)为动作a_k下，状态s_k的Q函数；Q(s_k,a_g)为贪婪动作a_g下，状态s_k的Q函数。

6.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤6的Q函数的更新为：

Q_k+1(s_k,a_k)＝Q_k(s_k,a_k)+αδ_ke_k(s_k,a_k)

Q_k+1(s_k,a_k)＝Q_k+1(s_k,a_k)+αρ_k；

式中，e_k(s_k,a_k)为在状态s动作a下第k步迭代的时间隧道，α为Q学习率，设置为0<α<1，对Q函数的收敛速率即算法稳定性进行权衡；更大的α可以加快学习速度，而更小的α能提高系统的稳定性；在预学习过程中，选择α的初始值为0.1以获得总体的探索，然后为了逐渐提高系统的稳定性，它将以线性方式减少；ρ_k为第k步迭代过程中的Q函数误差；δ_k在第k步迭代过程中的Q函数误差的评估；Q_k(s_k,a_k)为动作a_k下，状态s_k的第k个智能体的Q函数；Q_k+1(s_k,a_k)为动作a_k下，状态s_k的第k+1个智能体的Q函数；

更新时间隧道e_k(s_k,a_k)为：

e_{k + 1} (s, a) = \{\begin{matrix} {γλe}_{k} (s, a) + 1, & (s, a) = (s_{k}, a_{k}) \\ {γλe}_{k} (s, a) & o t h e r w i s e \end{matrix}

式中，λ为时间隧道衰减因子设置为0<λ<1，其作用是在状态动作对间分配信誉；对于长时延系统，它影响收敛速度及非马尔可夫效果，一般来说，回溯法里λ能被看作为时间标度因素，对于Q函数误差来说，小的λ意味着很少的信誉被赋予到历史状态动作对，而大的λ表明分配到了更多的信誉；γ为折扣因子，为Q函数将来的奖励提供折扣；e_k(s,a)为为在状态s动作a下第k步迭代的时间隧道；e_k+1(s,a)为为在状态s动作a下第k+1步迭代的时间隧道。

7.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤7的混合策略π(s,a)更新为：

π (s_{k}, a_{k}) &LeftArrow; π (s_{k}, a_{k}) + Δ_{s_{k} a_{k}}

Δ_{s_{k} a_{k}} = \{\begin{matrix} - δ_{s_{k} a_{k}}, & i f a_{k} &NotEqual; \arg \max_{a_{k + 1}} Q (s_{k}, a_{k + 1}) \\ Σ δ_{s_{k} a_{k + 1,}} & o t h e r w i s e \end{matrix}

一般情况下，δ_sa按照下面公式取值：

式中为变学习率，且δ为学习率，|Ai|为状态s下可选行动的个数。

8.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤8的更新时间隧道元素：e(s_k,a_k)←e(s_k,a_k)+1；e(s_k,a_k)为在状态s动作a下第k步迭代的时间隧道。

9.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤9的选择变学习率为：

通过引入决策变化率以及决策空间斜率值，作为评判因素，若决策变化率和决策空间斜率估计值的乘积小于0，游戏者便赢了，变学习率设置为根据动作值的最大化得到一个最优策略。

10.根据权利要求1所述基于具有时间隧道思想的多智能体强化学习的智能发电控制方法，其特征在于：所述步骤10的更新决策改变率Δ(s_k,a_k)和决策空间估计斜率Δ²(s_k,a_k)为：

Δ 2 (s_{k}, a_{k}) &LeftArrow; Δ_{s_{k} a_{k}} - Δ (s_{k}, a_{k})

Δ (s_{k}, a_{k}) &LeftArrow; Δ_{s_{k} a_{k}}

式中，Δ_sa是策略更新时需要的增量变化量，Δ(s_k,a_k)是决策改变率，Δ²(s_k,a_k)是决策空间估计斜率；通过引入增量变化量Δ_sa与决策改变率Δ(s_k,a_k)，更新决策空间估计斜率Δ²(s_k,a_k),引入增量变化量Δ_sa，更新决策改变率Δ(s_k,a_k)。