CN115729109A

CN115729109A - 火力发电系统优化控制方法、装置、设备和介质

Info

Publication number: CN115729109A
Application number: CN202211477780.XA
Authority: CN
Inventors: 魏庆来; 高爱国; 尚勇; 王君; 程相; 宋睿卓
Original assignee: State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-03

Abstract

本发明提供一种火力发电系统优化控制方法、装置、设备和介质，该方法包括：构建火力发电系统的网络模型、控制网络及评价网络，在预设学习速率下迭代更新评价网络的权值，得到控制网络的最优性能指标的值函数，并基于最优性能指标的值函数迭代更新控制网络的权值，直至得到最优控制策略；在控制网络达到预设收敛精度的情况下，保留当前控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取火力发电系统的目标最优控制策略，以根据目标最优控制策略对火力发电系统进行优化控制，由此本发明利用预设学习率函数、迭代值函数和迭代控制策略进行局部迭代，有效地减轻了火力发电系统的计算负担，提高火力发电系统的控制效率和可靠性。

Description

火力发电系统优化控制方法、装置、设备和介质

技术领域

本发明深度学习技术领域，尤其涉及一种火力发电系统优化控制方法、装置、设备和介质。

背景技术

火力发电是我国主要的发电方式，随着我国火电行业的发展而发展。目前随着国内风电、光伏等新能源发电的装机容量不断增大，大部分火电厂的运行和管理同时面临快速调峰、电网考评等问题，这给火电厂的控制系统的改造以及电厂运维带来很多挑战。

传统火力发电系统最优控制方法，需要进行全局迭代，更新火力发电系统中所有的控制参数，由于控制参数繁杂，火力发电系统的计算负担很大。

发明内容

本发明提供一种火力发电系统优化控制方法、装置、设备和介质，用以解决现有技术中进行全局迭代，更新火力发电系统中所有的控制参数，导致火力发电系统的计算负担很大。

本发明提供一种火力发电系统优化控制方法，包括：

构建火力发电系统的网络模型、控制网络及评价网络，其中，所述网络模型用于根据当前时刻状态所述火力发电系统中的状态参数的第一状态数据及所述控制网络输出的所述状态参数对应的控制策略预测出下一时刻所述状态参数的第二状态数据，所述评价网络用于评估出所述控制策略的性能指标；

在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略；

在所述控制网络达到预设收敛精度的情况下，保留当前所述控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取所述火力发电系统的目标最优控制策略，以根据所述目标最优控制策略对所述火力发电系统进行优化控制。

根据本发明提供的所述的火力发电系统优化控制方法，所述在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略，包括：

将所述状态参数的所述第一状态数据及所述状态参数对应的控制策略输入所述评价网络，获取所述评价网络输出的所述控制策略的性能指标的值函数；

确定所述状态参数匹配的预设学习速率，并在所述预设学习速率下基于所述性能指标的值函数对所述评价网络的权值进行迭代更新，得到所述控制网络的最优性能指标的值函数；

在所述预设学习速率下基于所述最优性能指标的值函数对所述控制网络的权值进行迭代更新，得到所述控制网络的控制律；

基于所述控制律更新所述控制网络输出的控制策略，直至得到最优控制策略。

根据本发明提供的所述的火力发电系统优化控制方法，所述性能指标的值函数的初始函数为半正定初始函数。

根据本发明提供的所述的火力发电系统优化控制方法，所述在预设学习速率下迭代更新所述评价网络的权值之前，还包括：

判断所述状态参数是否处于目标状态空间；

在所述状态参数处于所述目标状态空间的情况下，从预设学习速率区间中选取出所述状态参数匹配的预设学习速率。

根据本发明提供的所述的火力发电系统优化控制方法，所述判断所述状态参数是否处于目标状态空间之后，还包括：

在所述状态参数不处于所述目标状态空间的情况下，停止迭代更新所述评价网络及所述控制网络。

根据本发明提供的所述的火力发电系统优化控制方法，所述在预设学习速率下迭代更新所述评价网络的权值之后，还包括：

在所述控制网络未达到预设收敛精度的情况下，返回执行所述在预设学习速率下迭代更新所述评价网络的权值的步骤，直至所述控制网络达到预设收敛精度。

初始化所述火力发电系统的目标参数、所述控制网络的权值及所述评价网络的权值；

其中，所述目标参数包括所述网络模型的模型参数及火力发电系统的状态参数。

本发明还提供一种火力发电系统优化控制装置，包括：

构建单元，用于构建待优化的火力发电系统的网络模型、控制网络及评价网络，其中，所述网络模型用于根据当前时刻所述火力发电系统的第一状态参数及所述控制网络输出的控制策略预测下一时刻所述火力发电系统的第二状态参数，所述评价网络用于评估所述控制网络的性能指标；

迭代单元，用于在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略；

控制单元，用于在所述控制网络达到预设收敛精度的情况下，保留当前所述控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取所述火力发电系统的目标最优控制策略，以根据所述目标最优控制策略对所述火力发电系统进行优化控制。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述火力发电系统优化控制方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述火力发电系统优化控制方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述火力发电系统优化控制方法。

本发明提供的一种火力发电系统优化控制方法、装置、设备和介质，通过构建火力发电系统的网络模型、控制网络及评价网络，在预设学习速率下迭代更新评价网络的权值，得到控制网络的最优性能指标的值函数，并基于最优性能指标的值函数迭代更新控制网络的权值，直至得到最优控制策略；在控制网络达到预设收敛精度的情况下，保留当前控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取火力发电系统的目标最优控制策略，以根据目标最优控制策略对火力发电系统进行优化控制，由此本发明利用预设学习率函数、迭代值函数和迭代控制策略进行局部迭代，有效地减轻了火力发电系统的计算负担，提高火力发电系统的控制效率和可靠性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的火力发电系统优化控制方法的流程示意图之一；

图2是本发明提供的火力发电系统优化控制装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的火力发电系统优化控制方法。

图1为本发明提供的火力发电系统优化控制方法的流程示意图之一，如图1所示，该方法包括：

步骤101，构建火力发电系统的网络模型、控制网络及评价网络；

火力发电一般是指利用可燃物燃烧时产生的热能来加热水，使水变成高温、高压水蒸气，然后再由水蒸气推动发电机来发电的方式的总称。火力发电系统中主要包括：燃料供给控制模块、给水控制模块、蒸汽控制模块、冷却控制模块、电气控制模块及其他一些辅助处理控制模块。

本实施例中，为了使火力发电系统及时准确的进行发电调节，需要预先确定好控制策略，进而根据所设定好的控制策略，根据实际的情况和发电状态，及时准确的进行控制策略的调整。具体地，在确定火力发电系统的控制策略时，通过对火力发电系统的自适应动态规划，实现对火力发电系统中的控制策略进行准确的优化。对于发电系统，可以进行建模，为了实现控制策略的预测，可以构建火力发电系统的网络模型、控制网络及评价网络。

控制网络用于对控制策略给予合理的控制量，使得所得到的控制策略更加贴合实际的应用场景和使用情况。

网络模型用于根据当前时刻状态火力发电系统中的状态参数的第一状态数据及控制网络输出的状态参数对应的控制策略预测出下一时刻状态参数的第二状态数据。

评价网络用于评估出控制策略的性能指标，其中，性能指标的函数定义同现有技术中的一致，在此不再赘述。

本实施例中，对于网络模型、控制网络及评价网络的网络结构，可以根据实际的需求对网络结构进行设定和调节，本实施例对此不作限制。

步骤102，在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略；

本实施例中的预设学习速率指代关于状态参数的状态向量的学习速率。

具体地，值函数和控制策略是通过迭代来更新的，其中，迭代指数i从0增加到无穷大。对于i＝0，1，...，定义

为状态参数的状态集序列。

对于任意的i＝0，1，...，定义

为火力发电系统的全部状态空间Ω_x的子集，即

对于任意的i＝0，1，...，定义{α_i(x_k)}为迭代更新时的学习速率函数，其中，x_k为状态参数的状态向量，k＝0,1,2,...。

对于任意的i和

设学习速率函数α_i(x_k)为标量函数，使得：

本实施例中，基于上述学习速率函数α_i(x_k)确定出每次迭代更新时的预设学习速率。

其中，设x_k+1＝F(x_k,u_k)，F(x_k,u_k)是系统函数；设u_k＝u(x_k)，其中u_k是控制策略的控制向量，u(x_k)是反馈的控制策略；设U(x_k,u_k)为效用函数，则对于所有的

迭代的控制策略的控制律v_i(x_k)的迭代函数为：

对于所有的

迭代的控制策略的控制律v_i(x_k)的迭代函数为：

v_i(x_k)＝v_i-1(x_k)。

对所有的x_k∈Ω_x，迭代的值函数V_i(x_k)的迭代函数为：

V_i(x_k)＝(1-α_i-1(x_k))V_i-1(x_k)+α_i-1(x_k)v_i(x_k)；

其中：

本实施例中，基于以上学习速率函数α_i(x_k)、控制律v_i(x_k)及值函数V_i(x_k)进行迭代更新，其中，本实施例中的评价网络及控制网络的迭代过程同现有技术中的一致，在此不再赘述。

步骤103，在所述控制网络达到预设收敛精度的情况下，保留当前所述控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取所述火力发电系统的目标最优控制策略，以根据所述目标最优控制策略对所述火力发电系统进行优化控制。

在完成对评价网络和控制网络的权值优化之后，进一步进行收敛判断，例如预先设定好相应的训练次数，在训练次数达到所设定的训练次数时确定收敛，此时将会对各网络的权重进行保留，反之则继续训练。

进一步地，在根据训练次数确定收敛之后，还可以对控制网络的预测精度进行收敛判断，并在预测精度满足所设定的条件时，判定达到收敛精度。

本发明提出的火力发电系统优化控制方法，通过构建火力发电系统的网络模型、控制网络及评价网络，在预设学习速率下迭代更新评价网络的权值，得到控制网络的最优性能指标的值函数，并基于最优性能指标的值函数迭代更新控制网络的权值，直至得到最优控制策略；在控制网络达到预设收敛精度的情况下，保留当前控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取火力发电系统的目标最优控制策略，以根据目标最优控制策略对火力发电系统进行优化控制，由此本发明利用预设学习率函数、迭代值函数和迭代控制策略进行局部迭代，有效地减轻了火力发电系统的计算负担，提高火力发电系统的控制效率和可靠性。

在一些实施例中，所述在预设学习速率下迭代更新所述评价网络的权值之后，还包括：

本实施例中，若未达到预设收敛精度，则返回重新选取预设学习速率，以继续进行评价网络和控制网络的训练，并重新选择最优控制策略，其中，重新训练的过程同以上实施例中的训练过程一致，在此不再赘述。

在一些实施例中，所述在预设学习速率下迭代更新所述评价网络的权值之前，还包括：

其中，火力发电系统的状态参数包括但不限于燃料供给参数、给水控制参数、蒸汽控制参数、冷却控制参数、电气控制参数及其他一些辅助参数等。

本实施例中，在初始化权值时，采用在给定的权值范围内进行随机初始化，其中，初始化步骤同现有技术中的一致，在此不再赘述。

在一些实施例中，所述在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略，包括：

其中，对于所有x_k∈Ω_x，设性能指标的值函数的初始函数V₀(x_k)为半正定初始函数Ψ(x_k)。即V₀(x_k)＝Ψ(x_k)。

具体地，对于所有

迭代的控制策略的初始控制律v₀(x_k)为：

对于所有的

迭代的控制策略的初始控制律v₀(x_k)＝0。

本实施例中，从以上设定的值函数的初始函数V₀(x_k)和初始控制律v₀(x_k)开始，按照上述实施例设定的值函数和控制律的迭代函数进行迭代更新，由于本实施例中，将火力发电系统的全部状态空间Ω_x分成

和

且设定

和

的迭代函数不同，即本实施例中仅在设定的

内迭代更新值函数和控制律，有效地减少了系统状态空间的维度，减轻了系统的计算负担，提高了控制系统的控制效率和可靠性。

判断所述状态参数是否处于目标状态空间；

具体地，状态参数处于所述目标状态空间即指代

本实施例中，当状态参数处于上述目标状态空间时，基于上述目标状态空间的学习速率区间(即0至1)中选取出状态参数匹配的预设学习速率，其中，作为一种可实施的方式，可以采用梯度下降的方法选取出此处匹配的预设学习速率。

在一些实施例中，所述判断所述状态参数是否处于目标状态空间之后，还包括：

具体地，状态参数不处于目标状态空间指代

本实施例中，状态参数不处于目标状态空间的情况下，则不在此状态参数空间下迭代更新值函数和控制律。

下面对本发明提供的火力发电系统优化控制装置进行描述，下文描述的火力发电系统优化控制装置与上文描述的火力发电系统优化控制方法可相互对应参照。

参考图2，图2是本发明提供的火力发电系统优化控制装置的结构示意图，如图2所示，所述火力发电系统优化控制装置包括：构建单元210、迭代单元220及控制单元230。

其中，构建单元210，用于构建待优化的火力发电系统的网络模型、控制网络及评价网络，其中，所述网络模型用于根据当前时刻所述火力发电系统的第一状态参数及所述控制网络输出的控制策略预测下一时刻所述火力发电系统的第二状态参数，所述评价网络用于评估所述控制网络的性能指标；

迭代单元220，用于在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略；

控制单元230，用于在所述控制网络达到预设收敛精度的情况下，保留当前所述控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取所述火力发电系统的目标最优控制策略，以根据所述目标最优控制策略对所述火力发电系统进行优化控制。

在一些实施例中，迭代单元220，还用于将所述状态参数的所述第一状态数据及所述状态参数对应的控制策略输入所述评价网络，获取所述评价网络输出的所述控制策略的性能指标的值函数；

确定所述状态参数匹配的预设学习速率，并在所述预设学习速率下基于所述性能指标的值函数对所述评价网络的权值进行迭代更新，得到所述控制网络的最优性能指标的值函数；在所述预设学习速率下基于所述最优性能指标的值函数对所述控制网络的权值进行迭代更新，得到所述控制网络的控制律；基于所述控制律更新所述控制网络输出的控制策略，直至得到最优控制策略。

在一些实施例中，所述性能指标的值函数的初始函数为半正定初始函数。

在一些实施例中，迭代单元220，还用于判断所述状态参数是否处于目标状态空间；在所述状态参数处于所述目标状态空间的情况下，从预设学习速率区间中选取出所述状态参数匹配的预设学习速率。

在一些实施例中，迭代单元220，还用于在所述状态参数不处于所述目标状态空间的情况下，停止迭代更新所述评价网络及所述控制网络。

在一些实施例中，迭代单元220，还用于在所述控制网络未达到预设收敛精度的情况下，返回执行所述在预设学习速率下迭代更新所述评价网络的权值的步骤，直至所述控制网络达到预设收敛精度。

在一些实施例中，迭代单元220，还用于初始化所述火力发电系统的目标参数、所述控制网络的权值及所述评价网络的权值；其中，所述目标参数包括所述网络模型的模型参数及火力发电系统的状态参数。

在此需要说明的是，本实施例提供的火力发电系统优化控制装置，能够实现上述火力发电系统优化控制方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行火力发电系统优化控制方法，该方法包括：构建火力发电系统的网络模型、控制网络及评价网络，其中，所述网络模型用于根据当前时刻状态所述火力发电系统中的状态参数的第一状态数据及所述控制网络输出的所述状态参数对应的控制策略预测出下一时刻所述状态参数的第二状态数据，所述评价网络用于评估出所述控制策略的性能指标；在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略；在所述控制网络达到预设收敛精度的情况下，保留当前所述控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取所述火力发电系统的目标最优控制策略，以根据所述目标最优控制策略对所述火力发电系统进行优化控制。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的火力发电系统优化控制方法，该方法包括：构建火力发电系统的网络模型、控制网络及评价网络，其中，所述网络模型用于根据当前时刻状态所述火力发电系统中的状态参数的第一状态数据及所述控制网络输出的所述状态参数对应的控制策略预测出下一时刻所述状态参数的第二状态数据，所述评价网络用于评估出所述控制策略的性能指标；在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略；在所述控制网络达到预设收敛精度的情况下，保留当前所述控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取所述火力发电系统的目标最优控制策略，以根据所述目标最优控制策略对所述火力发电系统进行优化控制。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的火力发电系统优化控制方法，该方法包括：构建火力发电系统的网络模型、控制网络及评价网络，其中，所述网络模型用于根据当前时刻状态所述火力发电系统中的状态参数的第一状态数据及所述控制网络输出的所述状态参数对应的控制策略预测出下一时刻所述状态参数的第二状态数据，所述评价网络用于评估出所述控制策略的性能指标；在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略；在所述控制网络达到预设收敛精度的情况下，保留当前所述控制网络的最优性能指标的值函数，并基于保留的最优性能指标的值函数获取所述火力发电系统的目标最优控制策略，以根据所述目标最优控制策略对所述火力发电系统进行优化控制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种火力发电系统优化控制方法，其特征在于，包括：

2.根据权利要求1所述的火力发电系统优化控制方法，其特征在于，所述在预设学习速率下迭代更新所述评价网络的权值，得到所述控制网络的最优性能指标的值函数，并基于所述最优性能指标的值函数迭代更新所述控制网络的权值，直至得到最优控制策略，包括：

3.根据权利要求2所述的火力发电系统优化控制方法，其特征在于，所述性能指标的值函数的初始函数为半正定初始函数。

4.根据权利要求1所述的火力发电系统优化控制方法，其特征在于，所述在预设学习速率下迭代更新所述评价网络的权值之前，还包括：

判断所述状态参数是否处于目标状态空间；

5.根据权利要求4所述的火力发电系统优化控制方法，其特征在于，所述判断所述状态参数是否处于目标状态空间之后，还包括：

6.根据权利要求1至5任一项所述的火力发电系统优化控制方法，其特征在于，所述在预设学习速率下迭代更新所述评价网络的权值之后，还包括：

7.根据权利要求1至5任一项所述的火力发电系统优化控制方法，其特征在于，所述在预设学习速率下迭代更新所述评价网络的权值之前，还包括：

8.一种火力发电系统优化控制装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述火力发电系统优化控制方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述火力发电系统优化控制方法。