CN105870942A

CN105870942A - 一种基于近似动态规划算法的一次调频附加学习控制方法

Info

Publication number: CN105870942A
Application number: CN201610331091.6A
Authority: CN
Inventors: 杨水丽; 高凯; 葛延峰; 金鹏; 李建林; 侯朝勇; 胡娟; 闫涛; 许守平; 张明霞
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2016-08-17
Anticipated expiration: 2036-05-18
Also published as: CN105870942B

Abstract

本发明提供一种基于近似动态规划算法的一次调频附加学习控制方法，所述方法包括如下步骤：I、训练样本数据的收集；II、附加学习控制器的近似计算；III、附加学习控制器的优化迭代。本发明的优点在于给出了一种近似动态规划的一次调频在线学习附加学习控制方法，该方法可以检测控制器的输入和输出，包含强化学习的值函数迭代策略，能在系统运行过程中，根据系统的反馈在线对机组功率输出进行进一步的优化调整。该控制器作为附加学习控制，不需要替代原有的机组控制器，还可以利用系统原有控制器先验知识进行强化学习，提高收敛速度，并在此基础上考虑到了储能的优化运行区间。

Description

一种基于近似动态规划算法的一次调频附加学习控制方法

技术领域

本发明涉及一种电力系统的一次调频，具体讲涉及一种基于近似动态规划算法的一次调频附加学习控制方法。

背景技术

电力系统的一次调频过程指的是当各机组并网运行，在外界负荷变动影响下，电网频率发生变化时，各机组的调节系统参与调节作用，自动地增加(电网频率下降时)或减小(电网频率升高时)自身的功率，使之与外界负荷相平衡，同时尽量减少电网频率的变化的过程即为一次调频。

火电机组传统意义上的一次调频是静态时汽轮机按照与其转速之间的关系曲线出力，该关系曲线称为汽轮机控制系统的静态特性。目前，风电机组的装机容量日益增加，在局部地区渗透率很高，在北方地区电网中，作为主要调频电源的火电机组受蓄热、调节方向不宜改变等制约，影响一次调频性能。储能的响应时间能达到毫秒级，在风电功率波动情况下可以协助火电机组进行一次调频。

关于储能协调火电机组参与一次调频控制已有不少报道，申请号为201310188516.9、名为“一种超级电容储能系统参与电力一次调频的协调控制方法”的中国专利文件提出了一种超级电容储能与传统机组的协调控制策略，但并没涉及附加优化控制器。本发明采取近似动态规划算法附加学习控制的方式，一直用来解决非线性系统的最优控制问题，基本思想是通过计算近似代价函数，从而避免动态规划中的“维数灾”问题。该算法的初值选取具有随机性，实际应用过程中要经过多次学习才能收敛，因此，设计一种附加学习控制器的方式，并不替代原有控制器，而是利用原有控制器指导初值的选取，加快收敛速度，减少工程应用的难度。

发明内容

针对上述问题，本发明提出了一种基于近似动态规划算法的一次调频附加学习控制方法。

一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，所述方法包括如下步骤：

I、训练样本数据的收集；

II、附加学习控制器的近似计算；

III、附加学习控制器的优化迭代。

进一步的，所述步骤I包括对附加学习控制器的训练，得到样本状态变量x:

x＝[Δf,ΔP_g,ΔP_e,ΔP_tie]

其中Δf是区域频率偏差；ΔP_g是火电机组出力变化量；ΔP_e是储能出力变化量；ΔP_tie是联络线功率偏差量。

进一步的，所述步骤I的对附加学习控制器的训练包括：

(1)对含储能的一次调频控制系统进行离散化建模，得到一次调频控制系统状态x_k+1如下式所示：

x_k+1＝F(x_k,u_s,k),k＝0,1,2,3...... (1)

含储能的一次调频控制系统的控制变量x和控制器u_s如下式所示：

x＝[Δf,ΔP_g,ΔP_e,ΔP_tie]^T (2)

u_s＝a₁Δf+a₂ΔP_g+a₃ΔP_e+a₄ΔP_tie (3)

(2)含储能系统的一次调频控制系统代价函数U(x_k,u_s,k)如下式所示：

U (x_{k}, u_{s, k}) = R_{f} {Δf}_{k}^{2} + R_{u} u_{s, k}^{2}, k = 0, 1, 2 ..., - - - (6)

(3)采集样本数据

采样周期为1ms，收集2000个x、u_s和Q的数据作为学习样本；

其中，x_k为状态向量；u_s,k为控制向量；Q为代价函数；a₁,a₂,a₃,a₄为控制器优化权值；R_f、R_u为不同代价的权重，大于零；k代表时刻，k＝0，1，2，3......。

进一步的，步骤II包括：

(1)代价函数的逼近结构如下式所示：

含储能的一次调频系统逼近结构基函数φ(x_k,u_s,k)如下式所示：

φ(x_k,u_s,k)＝[Δf_k ²,2Δf_kΔP_g,k,2Δf_kΔP_e,k,2Δf_kΔP_tie,2Δf_ku_s,k,ΔP_g,k ²,2ΔP_g,kΔP_e,k,2ΔP_g,kΔP_tie,2ΔP_g,ku_s,k,ΔP_e,k ²,2ΔP_e,kΔP_tie,2ΔP_e,ku_s,k,ΔP_tie ²,2ΔP_tieu_s,k,u_s,k ²]^T (8)

公式(7)采用批量最小二乘法进行批量计算；

(2)获得最优控制器：

最小代价函数Q^*(x_k,u_s,k)如下式所示：

Q^{*} (x_{k}, u_{s, k}) = U (x_{k}, u_{s, k}) + \underset{u_{s, k + 1}}{m i n} Q^{*} (x_{k + 1}, u_{s, k + 1}) - - - (9)

使得最小代价函数最小的最优控制器u_s,k如下式所示：

u_{s}^{*} (x_{k}) = \underset{u_{s, k}}{argmin} Q^{*} (x_{k}, u_{s, k}) - - - (10)

其中，w_i是第i个权重向量，是基函数,L是向量的维度W是逼近结构的权值；φ(x_k,u_s,k)是基函数；Q(x_k,u_s,k)是代价函数。

进一步的，所述步骤III包括：以2s为一个周期，完成一次策略评价和策略改善的迭代，每一步迭代过程产生一个相比前一个输出的优化值，动作体向系统控制器输出控制器优化权值a₁,a₂,a₃,a₄，并给控制系统修改不同机组的状态变化量Δf,ΔP_g,ΔP_e,ΔP_tie。

进一步的，所述步骤III将系统频率偏差调节区域与储能优化运行区间SOC结合，设计了一种附加优化控制器进行一次调频优化控制，

其中，SOC是储能电池荷电状态，SOC＝Q_S/Q_R,Q_S为电池储能系统的剩余容量，Q_R为电池储能系统的标称容量。

进一步的，所述优化控制包括：

若f_sq下限＜Δf_i＜f_sq上限时，所有控制器不进行额外调节；

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_min＜SOC_i＜SOC_max，则执行体的控制器优化权值a₁,a₂,a₃,a₄直接输出给系统控制器；

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≤SOC_min，若当前的控制器的储能指令ΔP_e为正，则执行体的控制器优化权值中储能功率偏差量权重值a₃强制为0；

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≤SOC_min，若当前的控制器的储能指令ΔP_e为负，则执行体的控制器优化权值中储能功率偏差量权重值a₃强制为2a₃；

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≥SOC_max，当前的控制器的储能指令ΔP_e为正，则执行体的控制器优化权值中将储能功率偏差量权重值a₃强制为2a₃；

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≥SOC_max，前的控制器的储能指令ΔP_e为负，则执行体的控制器优化权值中将储能功率偏差量权重值a₃强制为0；

当-0.5Hz＜Δf_i≤f_q下限，关闭附加优化控制器，且SOC_i＞SOC_min，则系统的控制器优先储能进行最大出力，直到储能SOC达到0％，接替的火电机组也采取最大出力；Δf_i恢复到f_q下限以上后，储能开始恢复到SOC运行优化区间内；

当-0.5Hz＜Δf_i≤f_q下限，关闭附加优化控制器，且SOC_i＜SOC_min，则系统的控制器优先火电机组也采取最大出力，直到储能SOC达到0％；若Δf_i恢复到f_q下限以上后，储能开始恢复到SOC运行优化区间内；

当0.5Hz＞Δf_i≥f_q上限时，关闭附加优化控制器，且SOC_i＜SOC_max，则系统的控制器控制储能吸收功率，直到储能SOC达到100％,接替的火电机组也采取减出力；若Δf_i恢复到f_q上限以下后，储能开始恢复到SOC运行优化区间内；

当0.5Hz＞Δf_i≥f_q上限时，关闭附加优化控制器，且SOC_i＞SOC_max，则系统的控制器控制优先火电机组减出力，直到储能SOC达到100％；若Δf_i恢复到f_q上限以下后，储能开始恢复到SOC运行优化区间内；

当Δf_i＜-0.5Hz或Δf_i＞0.5Hz时，关闭附加优化控制器，不论储能SOC状态，系统设定所有机组都以最大出力运行，极端情况下可以减负荷，只到频率恢复到±0.5Hz以内；

其中，

Δf_i：电网第i时刻的频率数据；

f_sq上限：频率死区的上限值；

f_sq下限：频率死区的下限值；

f_q上限：附加优化控制器调节区的上限值；

f_q下限:附加优化控制器调节区的上限值；

SOC_i：在第i个采样点采样的SOC值；

SOC_min：电池储能系统优化运行区间的SOC下限；

SOC_max：电池储能系统优化运行区间的SOC上限。

进一步的，所述控制目标为：

频率偏差最大波动量在±0.5Hz以内，偏差波动范围维持在f_q下限和f_q上限之间，频率偏差波动比原有控制平缓。

与最接近的现有技术比，本发明提供的技术方案具有以下优异效果：

本发明的优点在于给出了一种近似动态规划的一次调频在线学习附加学习控制方法，该方法可以检测控制器的输入和输出，包含强化学习的值函数迭代策略，能在系统运行过程中，根据系统的反馈在线对机组功率输出进行进一步的优化调整。该控制器作为附加学习控制，不需要替代原有的机组控制器，还可以利用系统原有控制器先验知识进行强化学习，提高收敛速度，并在此基础上考虑到了储能的优化运行区间。

附图说明

图1为含储能的一次调频附加学习控制器结构图；

图2为含储能的电力系统一次调频示意图；

图3为附加学习控制器结构示意图；

图4为含附加学习控制器的电力系统一次调频结构图。

具体实施方式

下面将结合本发明技术流程图以及实施案例示意图，对本发明实施例中的技术方案进行清楚、完整地描述。

本实施例提供的含储能的一次调频系统控制示意图如图1所示，本实施例通过数据采集模块，以频率偏差Δf为控制目标。在电池储能系统功率与SOC上下限及火电机组经济运行区间约束为前提下，判断实时的电网频率偏差是否越过频率死区，若越过频率死后，将频率偏差值转换成对应的功率偏差值，得到的电网在时刻的功率差额，判断电池储能系统及火电机组分别参与电网一次频率调节的程度，给出不同的控制指令，校正电网供需平衡，阻止频率波动的加剧，维持电网频率稳定。

具体的，本实施例提供的一种基于近似动态规划算法的储能/火电机组一次调频附加学习控制方法，该控制系统作为原有控制器的一种附加学习控制器，与原有的控制器并联于系统控制中，其主要过程是，在含储能的一次调频控制系统中，若f_sq下限＜Δf_i＜f_sq上限，则系统的附加学习控制器与原有控制器均不动作；当f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时开始启用附加学习控制器进行优化控制，当Δf_i≤f_q下限或Δf_i≥f_q上限时，系统进入次紧急控制区，不使用附加学习控制，在频率偏差超过±0.5Hz情况下，系统进入紧急控制区，储能系统与机组均为最大出力模式，极端情况下可以减负荷。

对应的，本实施例提出的附加学习控制器算法结构如图3所示，这种控制器结构分为评价体和执行体两个部分，评价体包含对一次调频控制器及控制目标的评价，执行体是控制器的实际动作环节，通过执行体给出附加学习控制器的控制信号反馈给原有控制器中的一次调频系统。

具体的，含附加学习控制器的电力系统一次调频结构图如图4所示，所述方法包括如下步骤：

(1)为了能使附加学习控制器可以适应当前控制系统，首先对附加学习控制器进行训练，训练样本如下：

1)对含储能的一次调频控制系统进行离散化建模，得到一次调频控制系统状态方程如下：

x_k+1＝F(x_k,u_k),k＝0,1,2,...,(1)

对本一次调频控制系统定义其控制变量x和控制器u_s如下：

x＝[Δf,ΔP_g,ΔP_e,ΔP_tie]^T(2)

u_s＝a₁Δf+a₂ΔP_g+a₃ΔP_e+a₄ΔP_tie(3)

2)确定系统的在k时刻的瞬时代价函数，即调节的目标函数。

近似动态规划算法定义代价函数U(x_k,u_s,k)的基本形式如下：

U(x_k,u_s,k)＝W(x_k)+u^T _s,kRu_s,k,k＝0,1,2...,(4)

其中，R是正定矩阵；

总的代价函数为：

Q^{u_{s}} (x_{k}, u_{s, k}) = U (x_{k}, u_{s, k}) + Σ_{i = k + 1}^{\infty} U (x_{k}, u_{s} (x_{i})) - - - (5)

相应的将含储能系统的一次调频控制系统代价函数U(x_k,u_s,k)定义如下：

U (x_{k}, u_{s, k}) = R_{f} {Δf}_{k}^{2} + R_{u} u_{s, k}^{2}, k = 0, 1, 2 ..., - - - (6)

3)采集样本数据

在含储能一次调频系统的调节过程中，把风电功率波动当作一次调频扰动量进行输入时，一直实时收集产生频率差和不同机组的功率分配数据，选取采样周期选为1ms，以此作为学习的样本，收集2000个x、u_s、Q的数据样本。

(2)在步骤(1)的学习下，附加学习控制器已经适应了系统的现有控制，结合步骤(1)的样本数据，进行控制器的近似计算，所述方法包括如下步骤：

1)附加学习控制器评价体对系统现有的控制器和控制目标进行评价，计算系统的代价函数。为了使算法迭代速度更快，能够在线进行数据的处理，所提算法对策略评价采取一定的函数逼近结构来近似代价函数，该逼近结构基本形式如下：

其中，w_i是第i个权重向量，是基函数,L是向量的维度；

对含储能的一次调频系统逼近结构基函数φ(x_k,u_s,k)表达式如下：

φ(x_k,u_s,k)＝[Δf_k ²,2Δf_kΔP_g,k,2Δf_kΔP_e,k,2Δf_kΔP_tie,2Δf_ku_s,k,ΔP_g,k ²,2ΔP_g,kΔP_e,k,2ΔP_g,kΔP_tie,2ΔP_g,ku_s,k,ΔP_e,k ²,2ΔP_e,kΔP_tie,2ΔP_e,ku_s,k,ΔP_tie ²,2ΔP_tieu_s,k,u_s,k ²]T (8)

为了加速计算过程，对于公式7采用批量最小二乘法进行批量计算处理。

2)附加学习控制器的执行体对于评价体中得到的最小代价函数进行求解，得到最优控制器，具体步骤如下：

根据Bellman最优化准则求解代价函数方程得到最小代价函数Q^*(x_k,u_s,k)如下：

Q^{*} (x_{k}, u_{s, k}) = U (x_{k}, u_{s, k}) + \underset{u_{s, k + 1}}{m i n} Q^{*} (x_{k + 1}, u_{s, k + 1}) - - - (9)

求使得最小代价函数最小的u_s,k，得出最优控制器u_s,k

u_{s}^{*} (x_{k}) = \underset{u_{s, k}}{argmin} Q^{*} (x_{k}, u_{s, k}) - - - (10)

(3)结合步骤(2)中附加学习控制器的评价体中得到的代价函数对系统控制器进行评价，在步骤(2)的执行体中对最优控制器进行改善，控制器算法每2s完成一次策略评价和策略改善的迭代。每一步的迭代过程都会产生一个相比前一个输出的优化值，动作体把控制器优化权值a₁,a₂,a₃,a₄输出给系统控制器，反馈修改不同机组的状态变化量Δf,ΔP_g,ΔP_e,ΔP_tie，以此作为一次调频的附加学习控制器。

以上是附加学习控制器的优化迭代过程，其中附加学习控制器实施过程中具体的有如下步骤：

若f_sq下限＜Δf_i＜f_sq上限时，频率处于死区内，所有控制器不进行额外调节。

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_min＜SOC_i＜SOC_max，则执行体的控制器优化权值a₁,a₂,a₃,a₄直接输出给系统控制器。

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≤SOC_min，若当前的控制器的储能指令ΔP_e为正，则执行体的控制器优化权值中储能功率偏差量权重值a₃强制为0。

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≤SOC_min，若当前的控制器的储能指令ΔP_e为负，则执行体的控制器优化权值中储能功率偏差量权重值a₃强制为2a₃。

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≥SOC_max，当前的控制器的储能指令ΔP_e为正，则执行体的控制器优化权值中将储能功率偏差量权重值a₃强制为2a₃。

若f_q下限＜Δf_i＜f_sq下限或f_sq上限＜Δf_i＜f_q上限时，采取附加优化控制器，且SOC_i≥SOC_max，前的控制器的储能指令ΔP_e为负，则执行体的控制器优化权值中将储能功率偏差量权重值a₃强制为0。

当-0.5Hz＜Δf_i≤f_q下限，关闭附加优化控制器，且SOC_i＞SOC_min，则系统的控制器优先储能进行最大出力，直到储能SOC达到0％，接替的火电机组也采取最大出力。Δf_i恢复到f_q下限以上后，储能开始恢复到SOC运行优化区间内。

当-0.5Hz＜Δf_i≤f_q下限，关闭附加优化控制器，且SOC_i＜SOC_min，则系统的控制器优先火电机组也采取最大出力，直到储能SOC达到0％。若Δf_i恢复到f_q下限以上后，储能开始恢复到SOC运行优化区间内。

当0.5Hz＞Δf_i≥f_q上限时，关闭附加优化控制器，且SOC_i＜SOC_max，则系统的控制器控制储能吸收功率，直到储能SOC达到100％,接替的火电机组也采取减出力。若Δf_i恢复到f_q上限以下后，储能开始恢复到SOC运行优化区间内。

当0.5Hz＞Δf_i≥f_q上限时，关闭附加优化控制器，且SOC_i＞SOC_max，则系统的控制器控制优先火电机组减出力，直到储能SOC达到100％。若Δf_i恢复到f_q上限以下后，储能开始恢复到SOC运行优化区间内。

当Δf_i＜-0.5Hz或Δf_i＞0.5Hz时，关闭附加优化控制器，不论储能SOC状态，系统设定所有机组都以最大出力运行，极端情况下可以减负荷，只到频率恢复到±0.5Hz以内。

本实施例所用术语定义：

Δf_i：电网第i时刻的频率数据；

f_sq上限：频率死区的上限值；

f_sq下限：频率死区的下限值；

f_q上限：附加优化控制器调节区的上限值；

f_q下限:附加优化控制器调节区的上限值；

x_k是状态向量；

u_s,k是控制向量；

Δf是区域频率偏差；

ΔP_g是火电机组出力变化量；

ΔP_e是储能出力变化量；

ΔP_tie是联络线功率偏差量；

W是逼近结构的权值；

R_f、R_u是不同代价的权重，都大于零；

φ(x_k,u_s,k)是基函数；

Q(x_k,u_s,k)是代价函数；

k代表时刻，k＝0，1，2，...；

SOC：储能电池荷电状态，SOC＝Q_S/Q_R,Q_S为电池储能系统的剩余容量，Q_R为电池储能系统的标称容量；

SOC_i：在第i个采样点采样的SOC值；

SOC_min：电池储能系统优化运行区间的SOC下限；

SOC_max：电池储能系统优化运行区间的SOC上限

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，所述方法包括如下步骤：

I、训练样本数据的收集；

II、附加学习控制器的近似计算；

III、附加学习控制器的优化迭代。

2.如权利要求1所述一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，

所述步骤I包括对附加学习控制器的训练，得到样本状态变量x:

x＝[Δf,ΔP_g,ΔP_e,ΔP_tie]

3.如权利要求2所述一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，

所述步骤I的对附加学习控制器的训练包括：

x_k+1＝F(x_k,u_s,k),k＝0,1,2,3...... (1)

x＝[Δf,ΔP_g,ΔP_e,ΔP_tie]^T (2)

u_s＝a₁Δf+a₂ΔP_g+a₃ΔP_e+a₄ΔP_tie (3)

U (x_{k}, u_{s, k}) = R_{f} {Δf}_{k}^{2} + R_{u} u_{s, k}^{2}, k = 0, 1, 2 ..., - - - (6)

(3)采集样本数据

采样周期为1ms，收集2000个x、u_s和Q的数据作为学习样本；

其中，x_k为状态向量；u_s,k为控制向量；Q为代价函数；a₁,a₂,a₃,a₄为控制器优化权值；R_f、R_u为不同代价的权重，大于零；k代表时刻，k＝0，1，2，3……。

4.如权利要求1所述一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，

步骤II包括：

(1)代价函数的逼近结构如下式所示：

\begin{matrix} φ (x_{k}, u_{s, k}) = [{Δf}_{k}^{2}, 2 {Δf}_{k} {ΔP}_{g, k}, 2 {Δf}_{k} {ΔP}_{e, k}, 2 {Δf}_{k} {ΔP}_{t i e}, 2 {Δf}_{k} u_{s, k}, {ΔP}_{g, k}^{2}, 2 {ΔP}_{g, k} {ΔP}_{e, k}, 2 {ΔP}_{g, k} {ΔP}_{t i e}, \\ 2 {ΔP}_{g, k} u_{s, k}, {ΔP}_{e, k}^{2}, 2 {ΔP}_{e, k} {ΔP}_{t i e}, 2 {ΔP}_{e, k} u_{s, k}, {ΔP}_{t i e}^{2}, 2 {ΔP}_{t i e} u_{s, k}, {u_{s, k}}^{2}]^{T} \end{matrix} - - - (8)

公式(7)采用批量最小二乘法进行批量计算；

(2)获得最优控制器：

最小代价函数Q^*(x_k,u_s,k)如下式所示：

Q^{*} (x_{k}, u_{s, k}) = U (x_{k}, u_{s, k}) + \underset{u_{s, k + 1}}{m i n} Q^{*} (x_{k + 1}, u_{s, k + 1}) - - - (9)

使得最小代价函数最小的最优控制器u_s,k如下式所示：

u_{s}^{*} (x_{k}) = \underset{u_{s, k}}{argmin} Q^{*} (x_{k}, u_{s, k}) - - - (10)

5.如权利要求1所述一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，

所述步骤III包括：以2s为一个周期，完成一次策略评价和策略改善的迭代，每一步迭代过程产生一个相比前一个输出的优化值，动作体向系统控制器输出控制器优化权值a₁,a₂,a₃,a₄，并给控制系统修改不同机组的状态变化量Δf,ΔP_g,ΔP_e,ΔP_tie。

6.如权利要求5所述一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，所述步骤III将系统频率偏差调节区域与储能优化运行区间SOC结合，设计了一种附加优化控制器进行一次调频优化控制，

7.如权利要求6所述一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，

所述优化控制包括：

若f_sq下限＜Δf_i＜f_sq上限时，所有控制器不进行额外调节；

当Δf_i<-0.5Hz或Δf_i>0.5Hz时，关闭附加优化控制器，不论储能SOC状态，系统设定所有机组都以最大出力运行，极端情况下可以减负荷，只到频率恢复到±0.5Hz以内；

其中，

Δf_i：电网第i时刻的频率数据；

f_sq上限：频率死区的上限值；

f_sq下限：频率死区的下限值；

f_q上限：附加优化控制器调节区的上限值；

f_q下限:附加优化控制器调节区的上限值；

SOC_i：在第i个采样点采样的SOC值；

SOC_min：电池储能系统优化运行区间的SOC下限；

SOC_max：电池储能系统优化运行区间的SOC上限。

8.如权利要求7所述一种基于近似动态规划算法的一次调频附加学习控制方法，其特征在于，所述控制目标为：