CN112186811B

CN112186811B - 一种基于深度强化学习的agc机组动态优化方法

Info

Publication number: CN112186811B
Application number: CN202010972441.3A
Authority: CN
Inventors: 张沛; 李家腾; 吕晓茜; 宋秉睿; 孟祥飞
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-03-25
Anticipated expiration: 2040-09-16
Also published as: CN112186811A

Abstract

本发明提供了一种基于深度强化学习的AGC机组动态优化方法，本发明引入了强化学习中的深度Q网络(deep Q network,DQN)算法，通过智能体与环境的不断交互，根据环境反馈的奖励值，不断改进智能体的策略，实现对系统中不确定性变量的学习，避免了对系统中的不确定性变量的建模。本方法能够根据负荷和风电的预测信息，自适应学习预测带来的不确定性，使得所给出的结果，即各台AGC机组的调节量能够更加吻合电力系统实际有功缺额，有助于系统的频率稳定，解决大规模新能源并网带来的随机扰动问题。

Description

一种基于深度强化学习的AGC机组动态优化方法

技术领域

本发明属于电力系统领域，涉及一种基于深度强化学习的AGC机组动态优化方法。

背景技术

自动发电控制(automatic generation control，AGC)应用于现代大电网频率控制和互联电网之间联络线交换功率控制，是保证电网安全稳定经济运行、提高电网运行水平的重要措施之一，具有重要的研究价值。然而，随着互联电网运行新标准——CPS(controlperformancestandard，CPS)的推广应用，使得AGC控制面临新的挑战。此外，风电、光伏等新能源的大规模接入，给电力系统带来了较大的功率波动，使得电力系统的频率控制和联络线功率控制面临严峻的挑战。因此，在现有的AGC相关理论技术之上进行探索，使其能够更好地应对新能源大规模接入对电网频率造成的影响具有重要意义。

目前，国内外在AGC控制策略的研究和实践中已经取得了丰硕的理论研究成果和工程实践成果。但长期以来，AGC控制可以看作是一个负反馈系统，根据SCADA系统实时采集上来的系统实时频率偏差、联络线功率偏差及其它变量作为输入，通过某种控制策略来校正系统中实时存在的区域控制误差。其研究重点主要在于确定区域总调节功率的控制策略(文章一般称为“AGC控制器”)，以及总调节功率的指令分配策略。在生成AGC总调节功率方面，有经典PI控制、最优控制、自适应控制、基于强化的自适应控制、模型预测控制、鲁棒控制、变结构控制、以及神经网络控制、模糊控制、遗传算法等智能控制算法。功率分配策略方面最早通常按照工程经验和发电机组容量、调节特性来固定分配，但是该方法难以满足实际电网频率控制的要求。因此有学者提出将其视作AGC机组参与分配任务的优化问题，利用标准粒子群(particleswarm optimization，PSO)、以及基于强化学习的动态最优调节功率指令分配策略。

然而，从时间尺度来看，常规AGC控制是一个典型的“先有偏差再调节”的滞后控制过程，其本质是基于目前系统中的有功缺额来调整未来AGC机组的出力，没有考虑负荷未来的变化。当惯性较大的火电AGC机组达到下发的功率设定点时，系统中的负荷已经发生变化，很容易出现机组欠调、过调、频繁调节等情况，既不利于系统中频率恢复，也增加了调频成本。大规模风电、光伏等新能源的接入，将会给电力系统带来较大的随机功率波动，对系统的调频容量和机组的爬坡能力提出更高的要求。为了提高AGC机组的控制效果，有学者提出了AGC动态优化策略，其基本思想可阐述为：基于超短期负荷和新能源预测信息，综合考虑机组调节性能、系统安全约束条件及区域控制性能等因素，通过构建优化模型直接确定各AGC机组的调节功率。该种控制策略可以实现超前控制区域控制误差，又可以实现不同调节性能AGC机组之间的配合，减轻了秒级水电AGC机组的调节压力。因此，将成为AGC控制策略的一个重要研究方向。

发明内容

本发明的目的是解决现有AGC动态优化调度建模方法，难以准确获取风电预测误差的概率分布信息，降低了其优化结果的精确度。针对这一问题，本发明引入了强化学习中的深度Q网络(deep Q network,DQN)算法，通过智能体与环境的不断交互，根据环境反馈的奖励值，不断改进智能体的策略，实现对系统中不确定性变量的学习，避免了对系统中的不确定性变量的建模。本方法能够根据负荷和风电的预测信息，自适应学习预测带来的不确定性，使得所给出的结果，即各台AGC机组的调节量能够更加吻合电力系统实际有功缺额，有助于系统的频率稳定，解决大规模新能源并网带来的随机扰动问题。

一种基于深度强化学习的AGC机组动态优化方法，AGC机组动态优化方法目标函数为使优化周期内总成本最小，即：

式中，T为控制周期时长，即15min；F_R,t、F_S,t分别为AGC机组调节辅助服务费用和随机性成本；

根据上述模型，将将15分钟的控制周期分为15个阶段的马尔可夫过程，决策过程的主要变量包括：

状态空间S：状态空间包括t时刻常规机组和AGC机组的真实出力

系统中真实的频率偏差Δf_t ^r、联络线功率偏差

区域控制误差

t+1时刻系统负荷预测值

风电预测值

频率偏差

联络线功率偏差

以及区域控制误差的预测值

即：

动作空间A：为各个优化时段AGC机组有功出力，AGC机组出力用增量的形式

表示，即

考虑到AGC机组同时参与系统一次和二次调频，则各AGC机组t+1时刻的出力值为：

式中，

即第i台AGC机组相对t时刻的调节功率，也即二次调频功率；

表示第i台AGC机组相对t时刻的一次调频功率，K_Gi为第i台AGC机组的单位调节功率，

Δf_t ^r分别为t+1时刻和t时刻系统中真实的频率偏差；

对于不参与二次调频的非AGC机组，第t+1时刻的出力值为：

考虑到机组出力上下限约束，将各台AGC机组t+1时刻的实际出力限制在出力上下限之间，即

即时奖励R：由系统的总成本和惩罚组成，包括AGC机组调节辅助服务费用和随机性成本，惩罚项r_penel主要包括机组越限惩罚r₁、CPS1指标惩罚r₂、频率偏差惩罚r₃以及联络线功率偏差惩罚r₄：

式中，k₁为机组越限惩罚系数；

式中，k₂、k₃分别为ACE和CPS1指标的惩罚系数，ACE*和CPS1*分别为ACE和CPS1的理想取值，本方法取0和200％；

式中，k₄为频率偏差惩罚系数；

式中，k₅为联络线功率偏差惩罚系数；

因此，系统中总惩罚项r_penel即，

r_penel＝r₁+r₂+r₃+r₄ (24)

即时奖励r_t即，

r_t＝-(F+r_penel) (25)

式中，F为式(1)所示优化周期内的总成本。

状态转移概率P：由于本方法中下一时刻的状态值、即时奖励值必须通过与环境的交互才能得到，它们共同组成包含环境随机性的状态转移概率P；

折扣因子γ∈[0,1]表示未来时刻的奖励对当前奖励的重要性；

将上述马尔可夫过程的模型采用深度强化学习算法求解，得到最优的决策。

进一步的，将马尔可夫过程的模型采用深度Q学习算法的策略求解。

进一步的，采用深度Q学习算法的策略求解的具体过程为：

步骤1：初始化两个神经网络参数θ和θ^-；初始化环境；设置经验池容量、批训练样本数、折扣因子γ、贪心概率ε、学习率α等参数；设置训练回合M和决策周期N；

步骤2：每个回合开始时，即n＝0，初始化系统状态s₀，包括：当前时刻常规机组和AGC机组的真实出力、系统中真实的频率偏差、联络线功率偏差和区域控制误差；下一时刻系统负荷、风电预测值、频率偏差、联络线功率偏差、以及区域控制误差的预测值；

步骤3：将状态观测值s_t输入至当前神经网络中，根据ε贪婪策略选择对应的动作a_t；

步骤4：将动作a_t经公式(19)转化为t+1时刻的调度方案，即各台AGC机组出力的变化量。将该调度方案应用在t+1时刻的实时电力系统中，动作与环境交互后环境更新，得到t+1时刻的状态观测值s_t+1，根据公式(20)-(25)计算即时奖励r_t；

步骤5：将样本(s_t,a_t,r_t,s_t+1)存放到记忆单元中，并更新状态观测值s_t＝s_t+1；

步骤6：更新时间t＝t+1，更新当前值网络参数；

步骤7：循环步骤3至步骤6，若经过了C步，则对目标网络参数进行更新；当t＝N时，该回合结束；

步骤8：回合数加一，再循环步骤2至步骤7，直至所有回合均训练完毕。

进一步的，所述AGC机组调节辅助服务费用包括：

按照AGC机组的调节容量以及调节电量进行计算，优化时段t内的AGC机组调节辅助服务费用为：

式中，N_AGC为AGC机组的总台数；a₁、a₂分别为AGC机组节容量和调节电量服务补偿的价格系数，单位为元/(MWh)；

和

分别为第i台AGC机组最大和最小技术出力，P_AG,i,t和P_AG,i,t-1分别为AGC机组t时刻与t-1时刻的出力，Δt为优化时段，取为1min；

AGC机组调节随机性成本：

优化时段t内因随机性造成的系统中的功率缺额ΔP_t为：

式中，N为系统火电机组的总个数，包括AGC机组和非AGC机组，P_G,i,t为火电机组t时刻的出力，

以及

为t时刻风电实际出力、负荷实际总需求以及联络线功率,

表示系统实际的有功损耗。

假设t时刻区域A和区域B的调差系数分别为K_A和K_B，不考虑B系统本地有功功率的变化，从而可得到系统中的频率偏差Δf_t、联络线功率偏差ΔP_T,t的近似表达式，即，

区域控制误差e_ACE,t由频率偏差和联络线功率偏差两部分组成，即，

e_ACE,t＝ΔP_T,t-10B·Δf_t (6)

式中，B为控制区频率偏差系数(MW/0.1Hz，为负)；

本方法将切除负荷或者风电功率P_c,t应当合理设置为：

忽略风电的运行成本，则系统随机性成本F_S,t可表示为：

式中，c₁，c₂为相应的成本系数。

进一步的，对于式1的约束条件包括：

1)功率平衡约束

式中：P_w,t和P_L,t分别表示风电和负荷的预测值，P_T,t表示联络线功率的计划值，ΔP_T,t表示联络线功率偏差，P_loss,t表示系统的有功损耗；

2)CPS1指标的上下限约束

式中，K_cps1为CPS1指标值，K _cps1和

分别表示CPS1指标的上下限值；ε_1min表示频率控制目标，通常取互联电网上一年度1min频率平均偏差均方根的统计值；

3)CPS2指标的上下限约束

式中，E_ACE-15min为ACE在15分钟内的平均值；ε_15min通常取为互联电网上一年度15min频率平均偏差均方根的统计值，B、B_s分别为控制区、整个互联电网的频率偏差系数；

4)机组出力的上下限约束

式中，P_AG,i,t为第i台AGC机组在t时刻的出力值，

和P _AG,i分别表示其出力的上下限值；

5)机组爬坡速率约束

式中，R_AG,i,t为第i台AGC机组在t时刻的爬坡速率，

和R _AG,i分别表示其爬坡速率的上下限值；

6)联络线功率偏差的上下限约束

式中，ΔP_T,t为t时刻的联络线功率偏差，

和ΔP _T分别为联络线功率偏差的上下限值；

7)系统频率偏差的上下限约束

式中，Δf_t为t时刻的系统频率偏差，

和Δf分别为系统频率偏差的上下限值。

本发明相较于现有技术，其有益效果为：

本发明利用强化学习算法，构建考虑风电不确定性的AGC机组动态优化模型，可以避免对不确定变量的建模，利用智能体和环境的交互来提升模型的参数，自适应环境中的不确定性，且具有更高的求解效率。有利于提高AGC机组的控制性能，使电力系统能够更好地应对新能源大规模接入对系统频率造成的影响。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例描述中所需的附图作简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，这些附图直接得到的技术方案也应属于本发明的保护范围。

图1为AGC动态优化的马尔可夫决策过程示意图；

图2为基于PPO算法的动态经济调度流程图；

图3为基于DQN算法的AGC动态优化流程。

具体实施方式

AGC机组动态优化模型：

AGC动态优化的目的是在满足系统功率平衡约束、CPS1和CPS2指标、频率偏差、联络线功率偏差、AGC机组调节特性等约束条件下，根据负荷和风电出力的超短期预测值，对未来15分钟内每分钟AGC机组的基点功率进行超前优化计算。目标函数为使优化周期内总成本最小，即：

式中，T为控制周期时长，即15min；F_R,t、F_S,t分别为AGC机组调节辅助服务费用和随机性成本。

(1)AGC机组调节辅助服务费用：

和

分别为第i台AGC机组最大和最小技术出力，P_AG,i,t和P_AG,i,t-1分别为AGC机组t时刻与t-1时刻的出力，Δt为优化时段，取为1min。

(2)随机性成本：

系统中的风电及负荷出力均具有一定的随机性，现有方法多是采用某种概率分布对其随机性进行建模，然而由于随机变量的概率分布信息很难获取，因此难以实现系统随机性的精确建模。为避免对系统中复杂的随机性进行建模，与现有方法不同，可将系统中所有的风电出力等效为一个出力为随机变量

满足某种概率分布

其中ξ_w为其概率密度函数表达式包含的参数。同理，将负荷需求等效为随机变量

利用随机性变量直接表示随机性成本，进而利用强化学习算法自适应随机性的变化。

其自适应性主要体现在，采用无模型(model-free)的强化学习方法，无需知道随机性变量的具体性质，通过对历史场景的离线学习，自动更新算法模型的参数，不断迭代直到最终的优化决策结果能够满足系统中随机性变量所带来的影响。

优化时段t内因随机性造成的系统中的功率缺额ΔP_t为：

以及

为t时刻风电实际出力、负荷实际总需求以及联络线功率(向外输送为正),

表示系统实际的有功损耗。

系统中出现的功率缺额会造成系统频率变化、联络线功率变化，并出现区域控制误差(areacontrolerror，ACE)。以一个两区域的互联系统为例，该系统中包含两个区域，即区域A和区域B，两区域的控制方式为联络线功率频率偏差控制(tie-line bias frequencycontrol,TBC)。假设t时刻区域A和区域B的调差系数分别为K_A和K_B，不考虑B系统本地有功功率的变化，从而可得到系统中的频率偏差Δf_t、联络线功率偏差ΔP_T,t的近似表达式，即，

e_ACE,t＝ΔP_T,t-10B·Δf_t (6)

式中，B为控制区频率偏差系数(MW/0.1Hz，为负)。

当系统的频率偏差在正常频率带±0.2Hz以内时，按照系统中t时刻的区域控制误差计算随机性成本。当系统的频率偏差超过正常频率带时，需要采取切负荷或弃风的方式来保证系统的运行安全。一方面，为避免切除负荷或弃风导致系统频率波动过大甚至震荡；另一方面，又要避免系统频率在正常频率带附近波动导致切除操作过于频繁，因此切除负荷或者风电功率P_c,t应当合理设置，本方法将其设置为：

忽略风电的运行成本，则系统随机性成本F_S,t可表示为：

式中，c₁，c₂为相应的成本系数。

约束条件主要包括以下几个方面：

(1)功率平衡约束

式中：P_w,t和P_L,t分别表示风电和负荷的预测值，P_T,t表示联络线功率的计划值，ΔP_T,t表示联络线功率偏差，P_loss,t表示系统的有功损耗。

(2)CPS1指标的上下限约束

式中，K_cps1为CPS1指标值，K _cps1和

分别表示CPS1指标的上下限值；ε_1min表示频率控制目标，通常取互联电网上一年度1min频率平均偏差均方根的统计值。

(3)CPS2指标的上下限约束

式中，E_ACE-15min为ACE在15分钟内的平均值；ε_15min通常取为互联电网上一年度15min频率平均偏差均方根的统计值，B、B_s分别为控制区、整个互联电网的频率偏差系数。

(4)机组出力的上下限约束

式中，P_AG,i,t为第i台AGC机组在t时刻的出力值，

和P _AG,i分别表示其出力的上下限值。

(5)机组爬坡速率约束

式中，R_AG,i,t为第i台AGC机组在t时刻的爬坡速率，

和R _AG,i分别表示其爬坡速率的上下限值。

(6)联络线功率偏差的上下限约束

式中，ΔP_T,t为t时刻的联络线功率偏差，

和ΔP _T分别为联络线功率偏差的上下限值。

(7)系统频率偏差的上下限约束

式中，Δf_t为t时刻的系统频率偏差，

和Δf分别为系统频率偏差的上下限值。

4.2马尔科夫决策过程模型

强化学习是人工智能领域中机器学习方法的一个重要分支，也是基于马尔可夫决策过程随机序贯决策控制的一类重要方法。通过环境与智能体的不断交互，学习环境信息到动作行为的映射关系，使智能体在与环境的交互过程中获得最大的累积奖励。如果将AGC机组功率增减量视作智能体的动作行为，将真实的电力系统视作智能体所处的环境，那么考虑风电不确定性的AGC动态优化模型可以转化为典型的随机序贯决策问题。结合上面对模型的描述，可以将15分钟的控制周期分为15个阶段的马尔可夫过程，每15分钟为一个决策周期。总体框架如图1所示：

对图1中智能体和环境的交互过程进行说明：智能体agent从环境中获得当前时刻的观测量，然后采用深度强化学习DQN算法，根据当前时刻的观测量进行决策并选择动作，该动作作用于环境，由环境反馈下一时刻的观测量和奖励值，即可认为完成了一步决策，当完成15步决策后，该控制周期结束。

马尔可夫决策过程通常用一个元组<S,A,P,R,γ>来进行表示，其中S为状态空间、A为动作空间、P为状态转移概率、R为即时奖励，γ为折扣因子。在本问题中，各元素的定义如下：

状态空间S：状态空间应尽可能考虑会对决策产生影响的因素。针对本问题，状态空间包括t时刻常规机组和AGC机组的真实出力

系统中真实的频率偏差Δf_t ^r、联络线功率偏差

区域控制误差

t+1时刻系统负荷预测值

风电预测值

频率偏差

联络线功率偏差

以及区域控制误差的预测值

即，

动作空间A：动作空间即为优化模型中的相关决策量。本方法将其定义为各个优化时段AGC机组有功出力，考虑到式(14)机组爬坡速率的约束，将AGC机组出力用增量的形式

表示，即

式中，

即第i台AGC机组相对t时刻的调节功率，也即二次调频功率；

Δf_t ^r分别为t+1时刻和t时刻系统中真实的频率偏差。

对于不参与二次调频的非AGC机组，第t+1时刻的出力值为：

考虑到式(13)机组出力上下限约束，将各台AGC机组t+1时刻的实际出力限制在出力上下限之间，即

非AGC机组出力的变化量仅由系统一次调频引起，一般变化量不大，因此不对其进行限制。

即时奖励R：决策周期t的即时奖励r_t应考虑系统中不确定性变量带来的影响，因此应当选取当前时刻负荷、风电出力的真实值，以及系统真实的频率偏差、联络线功率偏差、区域控制误差来进行计算。由系统的总成本和惩罚组成，其中系统的总成本按照式(1)进行计算，即包括AGC机组调节辅助服务费用和随机性成本，惩罚项r_penel主要包括机组越限惩罚r₁、CPS1指标惩罚r₂、频率偏差惩罚r₃以及联络线功率偏差惩罚r₄。

式中，k₁为机组越限惩罚系数。

式中，k₂、k₃分别为ACE和CPS1指标的惩罚系数，ACE*和CPS1*分别为ACE和CPS1的理想取值，本方法取0和200％。

式中，k₄为频率偏差惩罚系数。

式中，k₅为联络线功率偏差惩罚系数。

因此，系统中总惩罚项r_penel即，

r_penel＝r₁+r₂+r₃+r₄ (24)

即时奖励r_t即，

r_t＝-(F+r_penel) (25)

式中，F为式(1)所示优化周期内的总成本。

状态转移概率P：由于本方法采用的是基于无模型的强化学习算法，智能体在下一时刻的状态值、即时奖励值必须通过与环境的交互才能得到，它们共同组成包含环境随机性的状态转移概率P。

折扣因子γ∈[0,1]表示未来时刻的奖励对当前奖励的重要性，对于AGC动态优化，当前时刻的决策对之后会产生重要影响，因此可将γ设置为较大的值，本方法取γ＝0.9。

4.3基于深度Q学习算法的策略求解

(1)DQN算法的原理

基于深度神经网络和Q-learning的DQN算法，是一种基于值函数迭代的深度强化学习算法，利用神经网络作为非线性函数逼近器来逼近状态动作值函数。值函数的参数即神经网络的权值θ，则值函数可以表示为Q(s,a；θ)，通过更新神经网络的权值来不断更新值函数，最后使得所有的状态-动作值收敛到最优值Q^*(s,a；θ)。

DQN算法采用经验回放机制，在每个时刻t，将智能体与环境交互得到的转移样本(s_t,a_t,r_t,s_t+1)存放到记忆单元中。其中s_t为t时刻系统的状态量，a_t为t时刻系统输出的动作，r_t为t时刻的奖励值，s_t+1为t+1时刻系统的状态量。在训练时从记忆单元中随机抽取一批固定数量的转移样本，并使用随机梯度下降(Stochastic Gradient Descent,SGD)算法更新神经网络的权重θ。这种方法打乱了样本之间的相关性，可以提升神经网络训练的稳定性和性能。DQN使用的网络结构如图2所示：

以当前的状态s_t作为模型的输入，输入层神经元个数与s_t的维数相同，隐含层神经元个数约为输入层神经元个数的两倍，输出层神经元个数与动作维度相同，即各个状态动作对的Q值。

DQN除了使用深度神经网络逼近状态动作值函数之外，还单独使用另一个深度神经网络来产生目标Q值。具体地，Q(s,a；θ)表示当前值网络的输出，用来评估当前状态动作的Q值；Q(s,a；θ^-)表示目标网络的输出。在DQN算法中，通常采用

来近似表示值函数的优化目标，即目标Q值。当前值网络的权重θ保持实时更新，经过C步迭代计算后，将当前值网络的参数θ赋值给目标值网络的参数θ^-。通过最小化值网络输出Q值和目标Q值之间的均方根误差来更新网络权重，损失函数的定义为

式中，r为智能体从环境中所获得的奖励值；θ_i为第i次迭代时当前值网络的参数；θ_i ^-为第i次迭代时目标网络的参数。其中，当前网络参数θ_i在每一步都进行实时更新，目标网络参数θ_i ^-每隔C次迭代后更新一次。

求取智能体输出的最优动作是在θ_i ^-保持固定的情况下，通过优化L(θ_i)来对值网络参数进行更新

θ_i ^-和θ_i的更新公式为

式中，α为学习率，取值为0.01。

4.4基于DQN算法的AGC动态优化流程

基于上述分析，本发明将AGC动态优化模型转化为序贯决策模型，并采用DQN深度强化学习算法求解。基于DQN算法的AGC动态优化流程如图3所示。

具体流程说明如下：

步骤1：初始化两个神经网络参数θ和θ^-；初始化环境；设置经验池容量、批训练样本数、折扣因子γ、贪心概率ε、学习率α等参数；设置训练回合M和决策周期N。

步骤2：每个回合开始时，即n＝0，初始化系统状态s₀。(包括当前时刻常规机组和AGC机组的真实出力、系统中真实的频率偏差、联络线功率偏差和区域控制误差；下一时刻系统负荷、风电预测值、频率偏差、联络线功率偏差、以及区域控制误差的预测值。)

步骤3：将状态观测值s_t输入至当前神经网络中，根据ε贪婪策略选择对应的动作a_t。

步骤4：将动作a_t经公式(19)转化为t+1时刻的调度方案，即各台AGC机组出力的变化量。将该调度方案应用在t+1时刻的实时电力系统中，动作与环境交互后环境更新，得到t+1时刻的状态观测值s_t+1，根据公式(20)-(25)计算即时奖励r_t。

步骤5：将样本(s_t,a_t,r_t,s_t+1)存放到记忆单元中，并更新状态观测值s_t＝s_t+1。

步骤6：更新时间t＝t+1，根据公式(27)—(28)更新当前值网络参数。

步骤7：循环步骤3至步骤6，若经过了C步，则对目标网络参数进行更新。当t＝N时，该回合结束。

步骤8：回合数加一，循环步骤2至步骤7，直至所有回合均训练完毕。

Claims

1.一种基于深度强化学习的AGC机组动态优化方法，其特征在于：

AGC机组动态优化方法目标函数为使优化周期内总成本最小，即：

根据上述模型，将15分钟的控制周期分为15个阶段的马尔可夫过程，决策过程的主要变量包括：

系统中真实的频率偏差Δf_t ^r、联络线功率偏差

区域控制误差

t+1时刻系统负荷预测值

风电预测值

频率偏差

联络线功率偏差

以及区域控制误差的预测值

即：

表示，即

式中，

即第i台AGC机组相对t时刻的调节功率，也即二次调频功率；

Δf_t ^r分别为t+1时刻和t时刻系统中真实的频率偏差；

对于不参与二次调频的非AGC机组，第t+1时刻的出力值为：

即时奖励r_t：由系统的总成本和惩罚组成，包括AGC机组调节辅助服务费用和随机性成本，惩罚项r_penel主要包括机组越限惩罚r₁、CPS1指标惩罚r₂、频率偏差惩罚r₃以及联络线功率偏差惩罚r₄：

式中，k₁为机组越限惩罚系数；

式中，k₄为频率偏差惩罚系数；

式中，k₅为联络线功率偏差惩罚系数；

因此，系统中总惩罚项r_penel即，

r_penel＝r₁+r₂+r₃+r₄ (24)

即时奖励r_t即，

r_t＝-(F+r_penel) (25)

式中，F为式(1)所示优化周期内的总成本；

折扣因子γ∈[0,1]表示未来时刻的奖励对当前奖励的重要性；

2.如权利要求1所述的一种基于深度强化学习的AGC机组动态优化方法，其特征在于，将马尔可夫过程的模型采用深度Q学习算法的策略求解。

3.如权利要求1所述的一种基于深度强化学习的AGC机组动态优化方法，其特征在于，将马尔可夫过程的模型采用Dueling DQN、Double DQN、深度确定性策略梯度算法、或近端策略优化算法求解。

4.如权利要求2所述的一种基于深度强化学习的AGC机组动态优化方法，其特征在于，采用深度Q学习算法的策略求解的具体过程为：

步骤1：初始化两个神经网络参数θ和θ^-；初始化环境；设置经验池容量、批训练样本数、折扣因子γ、贪心概率ε、学习率α；设置训练回合M和决策周期N；

步骤4：将动作a_t经公式(19)转化为t+1时刻的调度方案，即各台AGC机组出力的变化量；将该调度方案应用在t+1时刻的实时电力系统中，动作与环境交互后环境更新，得到t+1时刻的状态观测值s_t+1，根据公式(20)-(25)计算即时奖励r_t；

步骤5：将样本(s_t，a_t，r_t，s_t+1)存放到记忆单元中，并更新状态观测值s_t＝s_t+1；

步骤6：更新时间t＝t+1，更新当前值网络参数；

5.如权利要求1所述的一种基于深度强化学习的AGC机组动态优化方法，其特征在于，所述AGC机组调节辅助服务费用包括：

和

AGC机组调节随机性成本：

优化时段t内因随机性造成的系统中的功率缺额ΔP_t为：

以及

为t时刻风电实际出力、负荷实际总需求以及联络线功率,

表示系统实际的有功损耗；

e_ACE,t＝ΔP_T,t-10b·Δf_t (6)

式中，b为控制区频率偏差系数，为负值，单位为MW/0.1Hz；

本方法将切除负荷或者风电功率P_c,t应当合理设置为：

忽略风电的运行成本，则系统随机性成本F_S,t可表示为：

式中，c₁，c₂为相应的成本系数。

6.如权利要求1所述的一种基于深度强化学习的AGC机组动态优化方法，其特征在于，对于式1的约束条件包括：

1)功率平衡约束

式中：N为系统火电机组的总个数，P_w,t和P_L,t分别表示风电和负荷的预测值，P_T,t表示联络线功率的计划值，ΔP_T,t表示联络线功率偏差，P_loss,t表示系统的有功损耗；

2)CPS1指标的上下限约束

式中，e_ACE,t为区域控制误差；K_cps1为CPS1指标值，K _cps1和

分别表示CPS1指标的上下限值；ε_1min表示频率控制目标，取互联电网上一年度1min频率平均偏差均方根的统计值；

3)CPS2指标的上下限约束

式中，E_ACE-15min为ACE在15分钟内的平均值；ε_15min取互联电网上一年度15min频率平均偏差均方根的统计值，B、B_s分别为控制区、整个互联电网的频率偏差系数；

4)机组出力的上下限约束

式中，P_AG,i,t为第i台AGC机组在t时刻的出力值，

和P _AG,i分别表示其出力的上下限值；

5)机组爬坡速率约束

式中，R_AG,i,t为第i台AGC机组在t时刻的爬坡速率，

和R _AG,i分别表示其爬坡速率的上下限值；

6)联络线功率偏差的上下限约束

式中，ΔP_T,t为t时刻的联络线功率偏差，

和ΔP _T分别为联络线功率偏差的上下限值；

7)系统频率偏差的上下限约束

式中，Δf_t为t时刻的系统频率偏差，

和Δf分别为系统频率偏差的上下限值。