CN110888401A

CN110888401A - 火力发电机组燃烧控制优化方法、装置及可读存储介质

Info

Publication number: CN110888401A
Application number: CN201811056855.0A
Authority: CN
Inventors: 詹仙园; 郑宇�; 徐浩然
Original assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Current assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2020-03-17
Anticipated expiration: 2038-09-11
Also published as: WO2020052413A1; CN110888401B

Abstract

本发明提供一种火力发电机组燃烧控制优化方法、装置及可读存储介质，方法包括：获取发电系统的真实特征数据集；根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；通过训练后的策略网络对发电系统进行优化。通过利用真实特征数据集进行训练，从而能够提高发电系统运行状态变化刻画可信度，进而能够提高优化效率。

Description

火力发电机组燃烧控制优化方法、装置及可读存储介质

技术领域

本发明涉及火力发电领域，尤其涉及一种火力发电机组燃烧控制优化方法、装置及可读存储介质。

背景技术

随着我国经济与工业规模的壮大，工业与经济用电量日益增长。持续多年的工业化进程背后是大量的能源依赖现象。归因于“富煤、贫油、少气”的现状，我国目前的能源消费模式仍然以煤炭等不可再生化石能源为主，其中煤炭资源占总化石燃料的70％左右，发电耗原煤占国内煤炭消费的50％左右。21世纪以来，中国的电力行业发展迅速，电力总装机容量与发电量迅猛增长，火力发电量占总发电量比例更是超过70％，可见火电作为能耗大户，对于我国能源行业节能降耗至关重要。与我国巨大的能源需求形成鲜明反差的是现阶段火电厂严重的能源浪费现象。我国燃煤用锅炉普遍较陈旧，实际燃用煤种多变且整体品质较差，操作人员多凭经验调整，工业自动化程度较低。因此导致火电机组长时间低效运行，造成大量燃煤热能损失。因此，在保证燃煤锅炉安全稳定运行的前提下，如何提高锅炉效率，并降低发电煤耗、污染排放成为普遍关注的问题。

现有的锅炉燃烧优化方法，是使用神经网络模拟以及遗传算法的方法对燃烧进行模拟优化。神经网络建模不需要对燃烧过程进行复杂的机理分析，只需要通过采集真实样本数据，设计合理的网络结构，对网络参数进行训练，使得神经元学习到隐含在数据中的内部规律，从而就可以反映出燃烧过程的真实特性。对火电燃烧建模仿真的最终目的还是为了后续的燃烧优化过程。将控制变量作为模型输入，优化目标作为输出，使用遗传算法等启发式优化算法计算出最优的控制方式。

但是采用上述锅炉燃烧优化方法，由于用于燃烧模拟仿真的实验数据集过小，算法遇到严重的过拟合问题。燃烧模拟建模选取的输入和输出变量太少，甚至许多是针对火力发电机组小规模子系统的单变量输出，单变量优化模型，与火电机组真实运行情况相去甚远，模型表示能力也很弱。遗传算法等启发式算法只是针对当前时刻进行单点优化，无法取得未来一段时间的综合最优。且遗传算法等启发式优化算法求解速度缓慢，无法满足对机组进行实时控制优化的需求。

发明内容

本发明提供一种火力发电机组燃烧控制优化方法、装置及可读存储介质，用于解决现有火力发电机组锅炉燃烧优化方法缺少对运行数据的充分利用，无法对火力发电机组进行系统级精准建模，且只能单点优化，导致优化方案效果有限且无法达得长期的综合最优的问题。

本发明的第一个方面是提供一种火力发电机组燃烧控制优化方法，包括：

获取发电系统的真实特征数据集；

根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；

通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；

通过训练后的策略网络对发电系统进行优化。

本发明的另一个方面是提供一种火力发电机组燃烧控制优化装置，包括：

真实特征数据集获取模块，用于获取发电系统的真实特征数据集；

第一训练模块，用于根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；

第二训练模块，用于通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；

优化模块，用于通过训练后的策略网络对发电系统进行优化。

本发明的又一个方面是提供一种火力发电机组燃烧控制优化装置，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如上述的火力发电机组燃烧控制优化方法。

本发明的又一个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述的火力发电机组燃烧控制优化方法。

本发明提供的火力发电机组燃烧控制优化方法、装置及可读存储介质，通过获取发电系统的真实特征数据集；根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；通过训练后的策略网络对发电系统进行优化。通过利用真实特征数据集进行训练，从而能够提高发电系统运行状态变化刻画可信度，进而能够提高优化效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的火力发电机组燃烧控制优化方法的流程示意图；

图2为本发明实施例二提供的火力发电机组燃烧控制优化方法的流程示意图；

图3为本发明实施例三提供的火力发电机组燃烧控制优化方法的流程示意图；

图4为本发明又一实施例提供的火电燃烧模拟器的结构示意图；

图5为本发明又一实施例提供的火电燃烧模拟器的结构示意图；

图6为本发明实施例四提供的火力发电机组燃烧控制优化装置的装置示意图；

图7为本发明实施例五提供的火力发电机组燃烧控制优化装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的火力发电机组燃烧控制优化方法的流程示意图，如图1所示，所述方法包括：

步骤101、获取发电系统的真实特征数据集。

在本实施方式中，由于用于燃烧模拟仿真的实验数据集过小，算法遇到严重的过拟合问题。燃烧模拟建模选取的输入和输出变量太少，甚至许多是针对火力发电机组小规模子系统的单变量输出，单变量优化模型，与火电机组真实运行情况相去甚远，模型表示能力也很弱。遗传算法等启发式算法只是针对当前时刻进行单点优化，无法取得未来一段时间的综合最优。且遗传算法等启发式优化算法求解速度缓慢，无法满足对机组进行实时控制优化的需求，为了解决上述技术问题，首先可以获取发电系统的真实特征数据集，具体地，由于发电系统在运行过程中，可以采集的数据测点较多，而其并不都与发电系统优化有关系，因此，为了提高优化效率，可以通过行业知识筛选出和燃烧优化相关的数据测点，并且提取其中火电燃烧的相关数据特征，根据火电燃烧的相关数据特征获得真实特征数据集。

步骤102、根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器。

在本实施方式中，由于深度强化学习算法对于训练数据的需求量非常大，因此需要很大的数据集作支撑，因此，为了实现对数据的扩充，在获取发电系统的真实特征数据集之后，可以根据真实特征数据集对预设的待训练火电燃烧模拟器进行训练，得到训练后的火电燃烧模拟器，从而能够根据该火电燃烧模拟器进行数据的模拟，实现数据扩充。如此既可以模拟真实的燃烧过程，同时也可以用其充分探索燃烧控制优化问题中的状态及动作空间，弥补数据集中真实历史数据的不足。具体地，训练过程中，可以随机将真实特征数据集分为训练集与测试集，通过训练集对待训练火电燃烧模拟器进行训练，通过测试集对训练结果进行测试，获得训练后的火电燃烧模拟器。

步骤103、通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络。

在本实施方式中，根据火电行业对安全性极高的需求，在原有DDPG算法有的价值网络(critic network)、策略网络(actor network)的基础上增加了高度定制化的约束网络。在约束网络中可以人工制定相应的约束惩罚函数，例如对发电负荷不达标，相邻时间步控制参数差异过大，炉膛负压为正的情况引入相应的惩罚项。具体地，将获取发电系统的真实特征数据集；根据真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器之后，可以根据真实特征数据集与以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络，从而后续能够根据该策略对发电系统进行优化。通过模拟特征数据集进行训练能够充分探索可能的状态、动作空间，通过真实特征数据集的训练避免强化学习过度依赖于通过数据拟合得到的锅炉燃烧模拟器，保障最终模型的可靠性。

步骤104、通过训练后的策略网络对发电系统进行优化。

在本实施方式中，当策略网络训练完成后，给定任一锅炉燃烧状态特征s_t，强化学习模型将给出对应的最优燃烧系统控制方案，从而能够实现通过训练后的策略网络对发电系统的优化。

本实施例提供的火力发电机组燃烧控制优化方法，通过获取发电系统的真实特征数据集；根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；通过训练后的策略网络对发电系统进行优化。通过利用真实特征数据集进行训练，从而能够提高发电系统运行状态变化刻画可信度，进而能够提高优化效率。

图2为本发明实施例二提供的火力发电机组燃烧控制优化方法的流程示意图，在上述实施例的基础上，所述发电系统包括制粉子系统、燃烧子系统以及水汽循环子系统；如图2所示，所述方法包括：

步骤201、获取发电系统中制粉子系统、燃烧子系统以及水汽循环子系统中产生的状态特征数据与动作特征数据；

步骤202、根据所述状态特征数据与动作特征数据以及预设的奖励信息生成包括制粉子系统、燃烧子系统以及水汽循环子系统状态、动作与奖励的真实特征数据集；

步骤203、根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；

步骤204、通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；

步骤205、通过训练后的策略网络对发电系统进行优化。

在本实施例中，发电系统包括制粉子系统、燃烧子系统以及水汽循环子系统，因此，为了提高优化的精准度，可以采集制粉子系统、燃烧子系统以及水汽循环子系统中的真实数据。具体地，首先通过行业知识筛选出和燃烧优化相关的数百维测点，分别采集制粉子系统、燃烧子系统以及水汽循环子系统中的状态特征数据与动作特征数据，其中，制粉子系统中的状态特征数据可以包括磨煤机出口压力、电流、料位、至燃烧器风粉温度等，这些特征用于衡量制粉系统的工作环境与制粉优劣；制粉子系统中的动作特征数据可以包括给煤机的给煤量，磨煤机冷热、容量、旁路风阀门的开度大小，一次风机动叶调节阀位大小等，这些动作特征将作为强化学习优化动作的一部分。相应地，燃烧子系统中的状态特征数据可以包括炉膛负压，锅炉氧量，排烟温度，排烟含氧量，锅炉效率，NOx含量等信息，这些状态用于充分描述燃烧系统所处的环境信息。作为强化学习模型中状态变量的一部分；燃烧子系统中的动作特征数据可以包括再热烟气挡板阀位，送、引风机执行器阀位，燃烧器C、F挡板二次风执行器阀位等，这些动作特征将和制粉系统的动作特征一起作为强化学习的输出动作特征。相应地，水汽循环子系统中的状态特征数据可以包括主、再热蒸汽温度、压力，减温水流量等，水汽循环子系统中的动作特征数据可以包括给水温度、流量，减温水流量等。进一步地，获取到制粉子系统、燃烧子系统以及水汽循环子系统中产生的状态特征数据与动作特征数据之后，可以根据制粉子系统、燃烧子系统以及水汽循环子系统中产生的状态特征数据与动作特征数据以及预设的奖励信息生成包括制粉子系统、燃烧子系统以及水汽循环子系统状态(state)、动作(action)与奖励(reward)的真实特征数据集，可以用(s_t,a_t,r_t)进行表示，其中，s_t为状态、a_t为动作、r_t为奖励。其中，奖励信息与优化目标相关，其可以为氮氧化物的含量信息或优化效率信息等，具体可以根据实际应用进行设置，本发明在此不做限制。根据真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；通过真实特征数据集以及训练后的火电燃烧模拟器根据真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；通过训练后的策略网络对发电系统进行优化。

本实施例提供的火力发电机组燃烧控制优化方法，通过获取发电系统中制粉子系统、燃烧子系统以及水汽循环子系统中产生的状态特征数据与动作特征数据；根据所述状态特征数据与动作特征数据以及预设的奖励信息生成包括制粉子系统、燃烧子系统以及水汽循环子系统状态、动作与奖励的真实特征数据集，从而能够提高优化效率与精准度。

进一步地，在上述任一实施例的基础上，所述方法包括：

获取发电系统预设时间内的真实特征数据集；

通过训练后的策略网络对发电系统进行优化。

在本实施例中，为了提高优化的灵活性与准确性，需要对增加真实特征数据集的数据量。具体地，可以获取发电系统预设时间内的真实特征数据集，以实际应用举例来说，该预设时间可以为一年半，采集发电系统一年半内的真实特征数据集，预设时间可以为一年或更长的运行时间，具体可以根据实际应用进行设置，本发明在此不做限制。根据真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；通过真实特征数据集以及训练后的火电燃烧模拟器根据真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；通过训练后的策略网络对发电系统进行优化。

本实施例提供的火力发电机组燃烧控制优化方法，通过获取发电系统预设时间内的真实特征数据集，利用长期真实历史数据进行训练，从而对锅炉运行状态变化刻画可信度高。

图3为本发明实施例三提供的火力发电机组燃烧控制优化方法的流程示意图，在上述任一实施例的基础上，如图3所示，所述方法包括：

步骤301、获取发电系统的真实特征数据集；

步骤302、根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；

步骤303、通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练；

步骤304、判断所述真实特征数据集中的数据是否全部训练完毕；

步骤305、若是，则通过所述训练后的火电燃烧模拟器根据所述真实特征数据集生成模拟特征数据集；

步骤306、通过所述模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练；

步骤307、判断所述模拟特征数据集中的数据是否全部训练完毕，若是，则返回执行通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练的步骤，直至所述策略网络收敛；

步骤308、通过训练后的策略网络对发电系统进行优化。

在本实施例中，获取发电系统的真实特征数据集；根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器之后，通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络。具体地，可以通过真实特征数据集与模拟特征数据集对该基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行交替训练。首先，可以通过真实特征数据集对基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练，判断真实特征数据集中的数据是否全部训练完毕，若训练完毕，则通过火电燃烧模拟器根据真实特征数据集生成模拟特征数据集，则通过模拟特征数据集对基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行模拟训练，相应地，若未训练完毕，则继续根据真实特征数据集对该待训练深度神经网络模型进行训练。判断模拟特征数据集中的数据是否全部训练完毕，若是，则继续通过真实特征数据集对待训练深度神经网络模型进行训练。循环执行上述步骤，直至策略网络收敛。举例来说，若真实特征数据集中包括五万组数据，那么五万组数据全部训练完毕时，则通过火电燃烧模拟器生成模拟特征数据集，通过模拟特征数据集对深度神经网络模型进行模拟训练，相应地，若模拟特征数据集中的数据全部训练完毕，则继续用真实特征数据集中的数据进行训练，直至策略网络收敛。

本实施例提供的火力发电机组燃烧控制优化方法，通过数据训练阶段和模拟训练阶段将会反复交替进行，一方面保证强化学习模型可以通过模拟数据充分探索可能的状态、动作空间，另一方面也通过真实数据的训练避免强化学习过度依赖于通过数据拟合得到的锅炉燃烧模拟器，保障最终模型的可靠性。

进一步地，在上述任一实施例的基础上，所述方法包括：

获取发电系统的真实特征数据集；

通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练；

判断所述真实特征数据集中的数据是否全部训练完毕；

若是，则将所述真实特征数据集中真实数据依次输入至策略网络中，获得与所述真实数据对应的待模拟数据；

在所述待模拟数据上添加随机噪声，根据添加噪声后的待模拟数据通过所述训练后的火电燃烧模拟器模拟下一时刻的模拟数据；

通过所述模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练；

判断所述模拟特征数据集中的数据是否全部训练完毕，若是，则返回执行通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练的步骤，直至所述策略网络收敛；

通过训练后的策略网络对发电系统进行优化。

在本实施例中，在模拟训练阶段，策略网络也被用于探索新的模拟动作变量。具体地，可以将真实特征数据集中的真实数据依次输入至策略网络中，获得与真实数据对应的待模拟数据，策略网络在待模拟数据中添加随机噪声，根据添加噪声之后的待模拟数据通过训练后的火电燃烧模拟器模拟下一刻的模拟数据。以实际应用举例来说，从真实数据中提取初始火力发电机组状态变量s，之后通过策略网络得到该状态下的输出动作变量a，在此动作变量的基础上加入适当的高斯分布或其他分布的噪音∈作为新的动作变量输入火电燃烧模拟器以预测下一时刻的状态变量，通过此种方式利用模拟器得到一系列火电燃烧过程的模拟数据。

本实施例提供的火力发电机组燃烧控制优化方法，通过将所述真实特征数据集中真实数据依次输入至策略网络中，获得与所述真实数据对应的待模拟数据；在所述待模拟数据上添加随机噪声，根据添加噪声后的待模拟数据通过所述训练后的火电燃烧模拟器模拟下一时刻的模拟数据，从而为真实特征数据集以及模拟特征数据集对待训练深度神经网络模型的训练提供了基础。

进一步地，图4为本发明又一实施例提供的火电燃烧模拟器的结构示意图，在上述任一实施例的基础上，如图4所示，所述方法包括：

获取发电系统的真实特征数据集；

判断所述真实特征数据集中的数据是否全部训练完毕；

若是，则针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实数据以及与上一时刻状态相关的隐变量添加至所述火电燃烧模拟器中，获得下一时刻的预测数据以及与当前时刻状态相关的隐变量；

通过训练后的策略网络对发电系统进行优化。

在本实施例中，火电燃烧模拟器的本质是由锅炉这一时刻的状态及动作预测下一时刻的状态，但是由于燃烧系统的大时延特性，模型状态的预测仅仅依靠上一个时间点的输入变量，是不可能得到较高精度的预测结果的。所以可以将锅炉各个时刻的状态输出当做一个动态的时间序列，使用递归神经网络RNN进行建模，并引入了特殊的燃烧模拟循环神经网络(Recurrent Neural Network，简称RNN)模块。需要说明的是，实际应用中，也可以采取其他的神经网络进行建模，网络架构也可以根据实际应用进行调整，本发明在此不做限制。该燃烧系统仿真模拟器在每一时间步t内以该时刻的状态变量s_t以及动作变量a_t，以及一个与前一时间步状态相关的隐变量h_t-1为输入,输出下一时间段的火力发电机组状态特征

和与当前状态相关的隐变量h_t。具体地，获取到发电系统的真实特征数据集之后，针对真实特征数据集中的每一时刻的数据，将当前时刻的真实数据以及与上一时刻状态相关的隐变量添加至预设的预测网络中，获得下一时刻的预测数据以及与当前时刻状态相关的隐变量，针对每一时刻的真实数据，重复上述步骤，获得该模拟特征数据集。根据所述真实特征数据集与所述模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；通过所述训练后的策略网络对发电系统进行优化。

如图4所示，火电燃烧模拟器中包括多个预测模块，将s_t，a_t输入至预测模块中，能够得到t+1时刻的预测数据以及与t时刻相关的隐变量，相应地，将与t时刻相关的隐变量以及t+1时刻的真实数据s_t+1，a_t+1输入至预测模块中，能够得到t+2时刻的预测数据以及与t+1时刻相关的隐变量。针对每一时刻的真实数据，重复上述步骤，获得该模拟特征数据集。

本实施例提供的火力发电机组燃烧控制优化方法，通过针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实数据以及与上一时刻状态相关的隐变量添加至所述火电燃烧模拟器中，获得下一时刻的预测数据以及与当前时刻状态相关的隐变量，从而能够实现对发电系统的有效优化，提高优化的效率。

进一步地，图5为本发明又一实施例提供的火电燃烧模拟器的结构示意图，在上述任一实施例的基础上，所述火电燃烧模拟器包括制粉子模块、燃烧子模块以及水汽循环子模块；所述真实特征数据集包括制粉数据集、燃烧数据集以及水汽循环数据集；所述方法包括：

获取发电系统的真实特征数据集；

判断所述真实特征数据集中的数据是否全部训练完毕；

若是，则针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实制粉数据、预设参数以及与上一时刻状态相关的隐变量添加至所述制粉子模块中，获得下一时刻制粉预测数据以及与当前时刻状态相关的隐变量；

将当前时刻的燃烧数据、下一时刻制粉预测数据以及与当前时刻状态相关的隐变量输入至所述燃烧子模块中，获得下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量；

将当前时刻的水汽循环数据、下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量输入至所述水汽循环子模块中，获得模拟特征数据以及与当前时刻状态相关的隐变量；

通过训练后的策略网络对发电系统进行优化。

实际应用中，由于在同一时刻，燃烧过程内部也具有先后影响关系，比如说外界输入的煤质和环境温度等信息会影响整个过程；而磨煤机的出力、输出煤粉质量、温度等会影响燃烧器燃烧的好坏；燃烧器二次风门的调整又会影响整体炉膛的温度高低与分布，进一步的影响排烟温度、主蒸汽压力、温度等；而其他动作例如减温水操作、再热烟气挡板、引风机阀位等又会影响再热汽温度、压力、炉膛负压等最终输出状态等，因此，为了提高火电燃烧模拟器的预测准确度，根据内部原理的先后影响关系，模块内部从上至下划分为制粉子模块、燃烧子模块以及水汽循环子模块三个子模块，相应地，真实特征数据集包括制粉数据集、燃烧数据集以及水汽循环数据集。需要说明的是，原则上燃烧模拟RNN模块可采用多种设计方案，比较简单的方案就是采用一层或者多层递归神经网络层(可使用LSTM(longshort-term memory)层或GRU(Gated recurrent unit)层)设计。上述结构是专门针对火电优化制定的一种优化后的结构，具体可以根据实际应用设置不同的网络架构，本发明在此不做限制。因此，首先可以将针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实制粉数据、预设参数以及与上一时刻状态相关的隐变量添加至所述制粉子模块中，获得下一时刻制粉预测数据以及与当前时刻状态相关的隐变量，将当前时刻的燃烧数据、下一时刻制粉预测数据以及与当前时刻状态相关的隐变量输入至所述燃烧子模块中，获得下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量；将当前时刻的水汽循环数据、下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量输入至所述水汽循环子模块中，获得最终预测数据以及与当前时刻状态相关的隐变量，针对每一真实数据，重复上述步骤，获得模拟特征数据集。

需要说明的是，如图5所示，制粉子模块、燃烧子模块输出的下一时刻制粉预测数据以及下一时刻燃烧预测数据除了输入至下一模块以外，还需要通过一层或多层全连接网络(fully-connected,简称FC)层输出下一时刻磨煤相关状态变量。水汽循环子模块和前两个略有不同，因为水汽循环子模块不需要再向下传播，所以其输出向量在经过一层或多层全连接网络层将直接输出t+1时刻水汽循环及最终输出状态变量。

本实施例提供的火力发电机组燃烧控制优化方法，通过针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实制粉数据、预设参数以及与上一时刻状态相关的隐变量添加至所述制粉子模块中，获得下一时刻制粉预测数据以及与当前时刻状态相关的隐变量；将当前时刻的燃烧数据、下一时刻制粉预测数据以及与当前时刻状态相关的隐变量输入至所述燃烧子模块中，获得下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量；将当前时刻的水汽循环数据、下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量输入至所述水汽循环子模块中，获得最终预测数据以及与当前时刻状态相关的隐变量，从而能够提高预测数据的准确度，进而能够提高优化效率与可信度。

进一步地，在上述任一实施例的基础上，所述方法包括：

获取发电系统的真实特征数据集；

根据所述真实特征数据集中的真实数据对所述价值网络与约束网络的梯度进行更新；

根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度对所述策略网络的梯度进行更新；

判断所述真实特征数据集中的数据是否全部训练完毕；

若是，则通过所述训练后的火电燃烧模拟器根据所述真实特征数据集生成模拟特征数据集；

通过训练后的策略网络对发电系统进行优化。

在本实施例中，可以根据真实特征数据集对深度神经网络中的价值网络与约束网络的梯度进行更新；根据更新后的价值网络的梯度与约束网络的梯度以及策略网络预设的梯度对策略网络的梯度进行更新，两个深度神经网络的梯度值去共同更新训练策略网络中的参数，从而保证了策略网络输出的最优动作可以在满足各种安全条件的约束下达到目标值最优。

本实施例提供的火力发电机组燃烧控制优化方法，通过根据所述真实特征数据集对所述深度神经网络中的价值网络与约束网络的梯度进行更新；根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度对所述策略网络的梯度进行更新，从而能够保证了策略网络输出的最优动作可以在满足各种安全条件的约束下达到目标值最优。

进一步地，在上述任一实施例的基础上，所述方法包括：

获取发电系统的真实特征数据集；

根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度通过Primal-dual算法对所述策略网络的梯度进行更新；

判断所述真实特征数据集中的数据是否全部训练完毕；

通过训练后的策略网络对发电系统进行优化。

在本实施例中，可以采用Primal-dual算法根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度对策略网络的梯度进行更新。需要说明的是，还可以采用任意一种能够实现梯度更新的算法对策略网络的梯度进行更新，本发明在此不做限制。

本实施例提供的火力发电机组燃烧控制优化方法，通过根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度通过Primal-dual算法对所述策略网络的梯度进行更新，从而能够实现对策略网络的有效训练，为发电系统的优化提供了基础。

图6为本发明实施例四提供的火力发电机组燃烧控制优化装置的装置示意图，如图6所示，所述装置包括：

真实特征数据集获取模块61，用于获取发电系统的真实特征数据集；

第一训练模块62，用于根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；

第二训练模块63，用于通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；

优化模块64，用于通过训练后的策略网络对发电系统进行优化。

本实施例提供的火力发电机组燃烧控制优化装置，通过获取发电系统的真实特征数据集；根据所述真实特征数据集对预设的待训练火电燃烧模拟器进行训练，获得训练后的火电燃烧模拟器；通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络；通过训练后的策略网络对发电系统进行优化。通过利用真实特征数据集进行训练，从而能够提高发电系统运行状态变化刻画可信度，进而能够提高优化效率。

进一步地，在上述任一实施例的基础上，所述发电系统包括制粉子系统、燃烧子系统以及水汽循环子系统；

相应地，所述真实特征数据集获取模块包括：

第一获取单元，用于获取发电系统中制粉子系统、燃烧子系统以及水汽循环子系统中产生的状态特征数据与动作特征数据；

生成单元，用于根据所述状态特征数据与动作特征数据以及预设的奖励信息生成包括制粉子系统、燃烧子系统以及水汽循环子系统状态、动作与奖励的真实特征数据集。

进一步地，在上述任一实施例的基础上，所述真实特征数据集获取模块包括：

第二获取单元，用于获取发电系统预设时间内的真实特征数据集。

进一步地，在上述任一实施例的基础上，所述第二训练模块包括：

第一训练单元，用于通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练；

第一判断单元，用于判断所述真实特征数据集中的数据是否全部训练完毕；

模拟特征数据集生成单元，用于若是，则通过所述训练后的火电燃烧模拟器根据所述真实特征数据集生成模拟特征数据集；

第二训练单元，用于通过所述模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练；

第二判断单元，用于判断所述模拟特征数据集中的数据是否全部训练完毕，若是，则返回执行通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练的步骤，直至所述策略网络收敛。

进一步地，在上述任一实施例的基础上，所述模拟特征数据集生成单元包括：

待模拟数据获取子单元，用于将所述真实特征数据集中真实数据依次输入至策略网络中，获得与所述真实数据对应的待模拟数据；

第一模拟子单元，用于在所述待模拟数据上添加随机噪声，根据添加噪声后的待模拟数据通过所述训练后的火电燃烧模拟器模拟下一时刻的模拟数据。

第二模拟子单元，用于针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实数据以及与上一时刻状态相关的隐变量添加至所述火电燃烧模拟器中，获得下一时刻的预测数据以及与当前时刻状态相关的隐变量。

进一步地，在上述任一实施例的基础上，所述火电燃烧模拟器包括制粉子模块、燃烧子模块以及水汽循环子模块；所述真实特征数据集包括制粉数据集、燃烧数据集以及水汽循环数据集；

相应地，所述模拟特征数据集生成单元包括：

第一输入子单元，用于针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实制粉数据、预设参数以及与上一时刻状态相关的隐变量输入至所述制粉子模块中，获得下一时刻制粉预测数据以及与当前时刻状态相关的隐变量；

第二输入子单元，用于将当前时刻的燃烧数据、下一时刻制粉预测数据以及与当前时刻状态相关的隐变量输入至所述燃烧子模块中，获得下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量；

第三输入子单元，用于将当前时刻的水汽循环数据、下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量输入至所述水汽循环子模块中，获得模拟特征数据以及与当前时刻状态相关的隐变量。

进一步地，在上述任一实施例的基础上，所述第一训练单元包括：

第一更新子单元，用于根据所述真实特征数据集中的真实数据对所述价值网络与约束网络的梯度进行更新；

第二更新子单元，用于根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度对所述策略网络的梯度进行更新。

进一步地，在上述任一实施例的基础上，所述第二更新子单元具体用于：

根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度通过Primal-dual算法对所述策略网络的梯度进行更新。

图7为本发明实施例五提供的火力发电机组燃烧控制优化装置的结构示意图，如图7所示，所述火力发电机组燃烧控制优化装置，包括：存储器71，处理器72；

存储器71；用于存储所述处理器72可执行指令的存储器71；

其中，所述处理器72被配置为由所述处理器72执行如上述的火力发电机组燃烧控制优化方法。

本发明的又一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述的火力发电机组燃烧控制优化方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种火力发电机组燃烧控制优化方法，其特征在于，包括：

获取发电系统的真实特征数据集；

通过训练后的策略网络对发电系统进行优化。

2.根据权利要求1所述的方法，其特征在于，所述发电系统包括制粉子系统、燃烧子系统以及水汽循环子系统；

相应地，所述获取发电系统的真实特征数据集，包括：

获取发电系统中制粉子系统、燃烧子系统以及水汽循环子系统中产生的状态特征数据与动作特征数据；

根据所述状态特征数据与动作特征数据以及预设的奖励信息生成包括制粉子系统、燃烧子系统以及水汽循环子系统状态、动作与奖励的真实特征数据集。

3.根据权利要求1所述的方法，其特征在于，所述获取发电系统的真实特征数据集，包括：

获取发电系统预设时间内的真实特征数据集。

4.根据权利要求1所述的方法，其特征在于，所述通过所述真实特征数据集以及所述训练后的火电燃烧模拟器根据所述真实特征数据集生成的模拟特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行训练，获得训练后的策略网络，包括：

判断所述真实特征数据集中的数据是否全部训练完毕；

判断所述模拟特征数据集中的数据是否全部训练完毕，若是，则返回执行通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练的步骤，直至所述策略网络收敛。

5.根据权利要求4所述的方法，其特征在于，所述通过所述训练后的火电燃烧模拟器根据所述真实特征数据集生成模拟特征数据集，包括：

将所述真实特征数据集中真实数据依次输入至策略网络中，获得与所述真实数据对应的待模拟数据；

在所述待模拟数据上添加随机噪声，根据添加噪声后的待模拟数据通过所述训练后的火电燃烧模拟器模拟下一时刻的模拟数据。

6.根据权利要求4所述的方法，其特征在于，所述通过所述训练后的火电燃烧模拟器根据所述真实特征数据集生成模拟特征数据集，包括：

针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实数据以及与上一时刻状态相关的隐变量添加至所述火电燃烧模拟器中，获得下一时刻的预测数据以及与当前时刻状态相关的隐变量。

7.根据权利要求4所述的方法，其特征在于，所述火电燃烧模拟器包括制粉子模块、燃烧子模块以及水汽循环子模块；所述真实特征数据集包括制粉数据集、燃烧数据集以及水汽循环数据集；

相应地，所述通过所述训练后的火电燃烧模拟器根据所述真实特征数据集生成模拟特征数据集，包括：

针对所述真实特征数据集中每一时刻的真实数据，将当前时刻的真实制粉数据、预设参数以及与上一时刻状态相关的隐变量输入至所述制粉子模块中，获得下一时刻制粉预测数据以及与当前时刻状态相关的隐变量；

将当前时刻的水汽循环数据、下一时刻燃烧预测数据以及与当前时刻状态相关的隐变量输入至所述水汽循环子模块中，获得模拟特征数据以及与当前时刻状态相关的隐变量。

8.根据权利要求4所述的方法，其特征在于，所述通过所述真实特征数据集对预设的基于深度强化学习的框架中的策略网络、价值网络以及约束网络进行数据训练，包括：

根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度对所述策略网络的梯度进行更新。

9.根据权利要求8所述的方法，其特征在于，所述根据更新后的所述价值网络的梯度与约束网络的梯度以及策略网络预设的梯度对所述策略网络的梯度进行更新，包括：

10.一种火力发电机组燃烧控制优化装置，其特征在于，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如权利要求1-9任一项所述的火力发电机组燃烧控制优化方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-9任一项所述的火力发电机组燃烧控制优化方法。