CN115526433A

CN115526433A - 一种基于集成混合模型的电厂再热烟气挡板操作预测方法

Info

Publication number: CN115526433A
Application number: CN202211378820.5A
Authority: CN
Inventors: 张超; 唐守伟; 唐金鹤; 王新; 刘海瑞
Original assignee: Jinan Pentium Times Power Technology Co ltd
Current assignee: Jinan Pentium Times Power Technology Co ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2022-12-27

Abstract

本发明公开了一种基于集成混合模型的电厂再热烟气挡板操作预测方法，包括：(1)采集历史数据、(2)数据预处理及数据离散化、(3)指标关联分析、(4)数据归一化处理，构建模型数据集、(5)搭建CNN网络结构，CNN网络数据特征提取及Flatten化处理、(6)新特征数据集输入XGBoost、随机森林模型，模型训练、(7)模型结果分析、模型评估，判断模型准确性，模型分类预测。本发明能够有效提取再热烟气挡板调节数据特征，准确预测烟气挡板调节量，对电厂运行人员具有指导性作用，有助于提高机组整体性能和人员管理水平。

Description

一种基于集成混合模型的电厂再热烟气挡板操作预测方法

技术领域

本发明涉及电厂再热烟气挡板控制技术领域，具体涉及一种基于集成混合模型的电厂再热烟气挡板操作预测方法。

背景技术

火力发电厂超超临界机组运行方式动态特性复杂、参数多变，精确并稳定地控制再热蒸汽温度对最大限度地提高蒸汽循环效率非常重要。常用的方法为通过对调节烟气挡板的结构来控制超超临界再热蒸汽温度。然而当前采用传统的烟气挡板自动调节方法难以对超超临界机组主汽温进行有效精准的控制，且在实际生产中，电厂操作人员在工作开展过程中可能呈现出误操作现象，或调温的灵敏度较差,调温幅度较小，继而影响系统运作效率。因此，准确预测烟气挡板操作量对操作人员具有指导性作用，可保证机组当前运行条件下稳定运行，有助于提高机组整体性能和人员管理水平。

现有技术中，再热蒸汽温度烟气挡板调节法是通过调节烟气挡板开度来改变流过过热器受热面和再热器受热面的烟气分配比例，从而达到调节再热汽温目的。烟气挡板操作量预测通常可通过机理模型和数理模型计算而来，机理模型是：当再热蒸汽温度较低，再热挡板开度增大，过热挡板开度减小。当再热蒸汽温度较高，再热挡板开度减小，过热挡板开度增大，调节量则通过专家经验或机理公式求得。而数理模型大多采用的是分类模型实现，数理模型大多基于历史数据利用XGBoost、CNN、SVM、RF等分类方法进行建模分析，根据当前运行数据给出烟气挡板调节量预测值，运行人员根据预测值和机理经验值进行操作，保证再热蒸汽温度稳定在设定值最优区间内。

目前，各电厂对再热烟气挡板调节手段有很多，有些电厂从系统跟踪、整合前馈信号等角度入手，采用自动调节系统进行挡板量控制，也有电厂通过手动调节手段使系统运作状态达到最佳。然而，在实际生产中，无论是自动调节还是手动调节，烟气挡板操作量都很难达到理想值。一方面由于专家经验和机理模型是根据历史数据统计得出的再热烟气挡板调节值，导致给出的调节值往往不准确。另一方面，数理模型目前大多采用回归预测模型对烟气挡板调节值进行数据预测，但是由于烟气挡板值实际生产中本身调节量在一个区间段内即可，若直接预测调节量数值结果不准确，达到的效果较差。另外，在其他领域数据预测场景时，有的学者将模型转换成分类模型进行求解。分类模型大多采用单一模型或组合模型进行建模。但从实际问题出发，再热系统是一个相对复杂的非线性系统，单一地使用传统分类模型可能并不足以提取数据中相应的非线性特征，且每种算法有不同的适用范围。比如，支持向量机能够简化分类问题，但是在大规模样本上难以实施；决策树比较适合处理有缺失属性的样本，但很容易出现过拟合；KNN在分类问题中精确度高且对数据没有什么假设条件，但是计算量大，样本出现不平衡问题时不能很好地解决。另外，传统机器学习单一模型有时提取的数据特征不能够完整表达，且模型训练容易陷入局部特征学习陷阱，很难学习到数据全面特征。

发明内容

为解决上述问题，本发明提供一种基于集成混合模型的电厂再热烟气挡板操作预测方法，该方法预测准确率高，对实现设备指标分类判别具有重要意义。

本发明技术方案如下：

本发明提供了一种基于集成混合模型的电厂再热烟气挡板操作预测方法，包括以下步骤：

步骤1、采集历史数据：根据业务应用场景选取电厂再热烟气挡板控制主指标及其相关指标，并从数据库中抽取设备相关运行历史数据；

步骤2、数据预处理及数据离散化：对历史数据进行异常值检测、缺失值填充，将烟气挡板相关数值型指标转换成离散型指标；

步骤3、指标关联分析：调节烟气挡板主要是对再热蒸汽温度进行调节，因此找出与再热蒸汽温度相关指标就是找出与烟气挡板相关的指标；根据筛选的相关指标基于数据采用皮尔逊相关性分析和互信息分析进行指标关联分析，筛选出关联度大的指标；

步骤4、数据归一化处理，构建模型数据集：对已筛选好的指标历史数据进行(0,1)归一化处理，构建模型数据集，归一化公式为：

其中X^*为数据归一化后的值，x为数据归一化前的值，min为样本数据中的最小值，max为样本数据中的最大值；

步骤5、搭建CNN网络结构，CNN网络数据特征提取及Flatten化处理：根据模型数据集特征设计CNN网络结构，将构建的模型数据集进行卷积操作，完成特征提取工作，提取特征后，将卷积操作获取的特征进行Flatten操作后与原始特征向量进行连接组成新的特征数据集；

步骤6、新特征数据集输入XGBoost、随机森林模型(RF模型)，模型训练：将新特征数据集分别输入到XGBoost和RF模型中，通过网格搜索优化两模型参数，进行模型训练；

步骤7、模型结果分析、模型评估，判断模型准确性，模型分类预测：经过XGBoost和RF模型训练后，对模型分类预测验证，并将两个模型计算的各类别概率值进行加权平均，对两模型结果进行模型评估，最后选取准确率高的模型进行分类预测，本发明能够准确预测烟气挡板调节量。

根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤2中，采用3σ法则或隔离森林算法对历史数据进行异常值检测；所述3σ法则是根据样本数据对各指标进行计算处理得到平均值μ、标准偏差σ，剔除落在(μ-3σ,μ+3σ)之外的数据；所述隔离森林算法是采用多重二分法对样本数据进行分区，通过样本的疏密程度来判断样本是否孤立；检测出的异常点用空值填充，然后再根据空值比例判断是否删除该测点或填充。

进一步的，根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤2中，采用K临近算法(KNN)或回归拟合算法对历史数据进行缺失值填充；所述K临近算法是通过找出样本中缺失值前后k个最近的值，将这些值的平均值赋给该样本，即得到该样本对应属性的值，并用该值填充；所述回归拟合算法是指根据业务规则找出和缺失值关联较大的样本，通过该关联样本的值利用拟合公式来拟合缺失值样本的值，并用该值进行填充。

根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤3中，所述皮尔逊相关性分析通过皮尔逊相关系数反应相关性，其中皮尔逊相关系数是指两个样本变量之间的协方差和标准差的商，相关系数计算公式如下：

其中，X、Y为两个样本变量，当相关系数为0时，X、Y两个样本变量不相关；当X的值增大(减小)，Y值减小(增大)，X、Y两个样本变量负相关，相关系数在-1.0到0.0之间；当X的值增大(减小)，Y值增大(减小)，X、Y两个样本变量正相关，相关系数在0.0到+1.0之间。

进一步的，根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤3中，所述互信息分析方法为：设两个随机变量(X,Y)的联合分布为p(x,y)，边缘分布分别为p(x)p(y)，互信息I(X；Y)是联合分布p(x,y)与边缘分布p(x)p(y)的相对熵，即：

根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤5中，所述CNN网络结构是在卷积神经网络基础上搭建的，CNN网络结构包括输入层、卷积层、池化层、Flatten层、全连接层、输出层。

根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤6中，所述XGBoost模型属于Boosting算法，是一种基于梯度提升决策树的改进算法，主要通过把许多树模型集成在一起构成强分类器，XGBoost的核心思想是对目标函数不断进行优化，设其目标函数定义如下公式：

其中

表示预测值

和真实值y_i的误差，Ω(f_k)表示模型复杂度的惩罚项，为了避免模型产生过拟合现象，XGBoost通过对代价函数进行了二阶泰勒展开，并提取了一阶导数和二阶导数中的信息，同时加入正则化项降低模型的复杂度。

进一步的，根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤6中，所述随机森林(RF)模型是通过Bagging方法生成相互之间有差异的不同训练样本集，采用分类回归树作为元分类器构建集成分类器，用简单多数投票结果作为分类结果。

根据本发明所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，步骤7中，所述XGBoost模型和随机森林(RF)模型计算的概率值包括准确率和召回率；概率值的加权平均计算方法如下：XGBoost模型计算{label1，label2}的概率值为{prob11，prob12}，随机森林(RF)模型计算{label1，label2}的概率值为{prob21，prob22}，则{label1，label2}概率加权平均prob＝{0.6*prob11+0.4*prob12，0.6*prob21+0.4*prob22}。

根据本发明提出的基于集成混合模型的电厂再热烟气挡板操作预测方法，具有以下优点：(1)本发明将烟气挡板指标由数值型数据预测问题转换为离散型数据分类问题，即将该问题由回归问题转换成分类问题，给出烟气挡板数值区间段，提高了数据结果精度，对实际操作更具有指导意义；(2)本发明在指标选取时分别通过业务相关指标和数理关联度分析，选取与烟气挡板指标关联度较大的指标参与建模，提高了模型特征筛选效率；(3)当分类问题决策边界过于复杂时，线性模型不能很好地反映真实情况，本发明为了得到比单一的分类器更好的分类结果和性能，采用一种深度学习和机器学习相结合的集成算法设计，由改进的CNN网络模型提取烟气挡板相关指标数据特征，然后将提取的数据特征分别利用XGBoost和RF模型进行分类预测，综合两个分类模型结果，提高了模型精度，预测准确率高。

附图说明

通过阅读下文优选实施方式的详细描述，本申请的方案和优点对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1为本发明电厂再热烟气挡板操作预测方法流程图；

图2为本发明步骤5中CNN网络结构设计图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，用于示例性的说明本发明的原理，并不被配置为限定本发明。

在本发明中，如果没有特别的说明，所描述的实施例是本发明的一部分实施例，而不是全部实施例。

在本发明中，如果没有特别的说明，本文所提到的所有实施方式以及优选实施方式可以相互组合形成新的技术方案。

在本发明中，如果没有特别的说明，本文所提到的所有技术特征以及优选特征可以相互组合形成新的技术方案。

下面结合具体实施例对本发明作进一步说明：

本实施例以某火力发电厂再热烟气挡板调节操作为研究对象，通过本实施例的详细阐述，进一步说明本发明的实施过程。具体预测实施步骤如下：

步骤1、选取主指标及其相关指标，采集历史数据：根据业务应用场景选取电厂再热烟气挡板控制主指标及其相关指标，并从数据库中抽取设备相关运行历史数据；

本实施例选取某电厂2021.1.1 00:00:00—2021.7.1 00:00:00期间6个月的数据260640条，选取了过热挡板控制指令、再热挡板控制指令、高温再热器出口温度、给水流量、总风量、再热器A侧减温水流量、再热器B侧减温水流量、主蒸汽温度、负荷指令、烟气氧量信号、过热器出口压力、再热汽压、水煤比、炉膛压力信号、校准后的总燃料量、总风量百分比、飞灰含碳量、排烟温度、引风机A电流、引风机B电流、引风机A入口电动调节动叶位置反馈及锅炉燃烧相关指标等80个指标，数据格式如下：

利用隔离森林算法对历史数据进行异常值检测，隔离森林算法是采用多重二分法对样本数据进行分区，通过样本的疏密程度来判断样本是否孤立，将检测出的异常点用空值填充，然后再根据空值比例判断是否删除该测点或填充，再利用K临近算法(KNN)对缺失值进行填充，K临近算法是通过找出样本中缺失值前后k个最近的值，将这些值的平均值赋给该样本，即得到该样本对应属性的值，并用该值填充。数据处理后将烟气挡板过热挡板控制指令、再热挡板控制指令数据转换成离散型。具体为：如过热挡板控制指令为100，将其离散化成95-100，再热挡板控制指令为33，将其离散化成30-35，再将过热挡板和再热挡板标签合并成标签，并进行所属类别编码，预处理后的数据如下：

步骤3、指标关联分析：

由于调节烟气挡板主要是对再热蒸汽温度进行调节，因此找出与再热蒸汽温度相关指标就是找出与烟气挡板相关的指标。利用皮尔逊相关系数和互信息同时计算再热蒸汽温度与相关指标的关联关系，筛选关联关系较强的指标，经数据计算后筛选了高温再热器出口温度、给水流量、总风量、主蒸汽温度、负荷指令、烟气氧量信号等64个指标；

步骤4、数据归一化处理，构建模型数据集：

对步骤3已筛选好的64个指标历史数据进行(0,1)归一化处理，构建模型数据集，归一化公式为：

其中X^*为数据归一化后的值，x为数据归一化前的值，min为样本数据中的最小值，max为样本数据中的最大值，数据结果如下：

步骤5、搭建CNN网络结构，CNN网络数据特征提取及Flatten化处理：

根据模型数据集特征设计CNN网络结构，CNN网络结构包括1个输入层、4个卷积层、4个池化层、1个Flatten层，1个全连接层、1个dropout层；将构建的模型数据集进行卷积操作，完成特征提取工作，提取特征后，将卷积操作获取的特征进行Flatten操作后与原始特征向量进行连接组成新的特征数据集；CNN网络结构如下：

步骤6、新特征数据集输入XGBoost、随机森林模型(RF模型)，模型训练：

将CNN网络提取到的新特征数据集分别输入到XGBoost和RF模型中，通过网格搜索优化两模型参数，进行模型训练；

XGBoost模型属于Boosting算法，是一种基于梯度提升决策树的改进算法，主要通过把许多树模型集成在一起构成强分类器，XGBoost的核心思想是对目标函数不断进行优化，设其目标函数定义如下公式：

其中

表示预测值

RF模型是通过Bagging方法生成相互之间有差异的不同训练样本集，采用分类回归树作为元分类器构建集成分类器，用简单多数投票结果作为分类结果。

步骤7、模型结果分析、模型评估，判断模型准确性，模型分类预测：经过XGBoost和RF模型训练后，并将两个模型计算的各类别概率值进行加权平均，对两模型结果进行模型评估，最后选取准确率高的模型进行分类预测，得到模型预测准确率为0.9256，召回率为0.8639，选取部分结果展示如下：

通过以上步骤，完成了再热烟气挡板调节量模型设计、实验过程，结果表明模型预测准确率较高，有利于指导实际生产运行。

本发明基于集成混合模型的电厂再热烟气挡板操作预测方法，能够有效提取再热烟气挡板调节数据特征，准确预测烟气挡板调节量，对电厂运行人员具有指导性作用，有助于提高机组整体性能和人员管理水平。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或增减替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，包括以下步骤：

步骤1、采集历史数据：选取电厂再热烟气挡板控制主指标及其相关指标，

从数据库中抽取设备相关运行历史数据；

步骤2、数据预处理及数据离散化：对历史数据进行异常值检测、缺失值填充，将烟气挡板数值型指标转换成离散型指标；

步骤3、指标关联分析：根据筛选的相关指标基于数据采用皮尔逊相关性分析和互信息分析进行指标关联分析，筛选出关联度大的指标；

步骤6、新特征数据集输入XGBoost、随机森林模型，模型训练：将新特征数据集分别输入到XGBoost和随机森林模型中，通过网格搜索优化两模型参数，进行模型训练；

步骤7、模型结果分析、模型评估，判断模型准确性，模型分类预测：经过XGBoost和随机森林模型训练后，对模型分类预测验证，并将两个模型计算的各类别概率值进行加权平均，对两模型结果进行模型评估，最后选取准确率高的模型进行分类预测。

2.根据权利要求1所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤2中，采用3σ法则或隔离森林算法对历史数据进行异常值检测；所述3σ法则是根据样本数据对各指标进行计算处理得到平均值μ、标准偏差σ，剔除落在(μ-3σ,μ+3σ)之外的数据；所述隔离森林算法是采用多重二分法对样本数据进行分区，通过样本的疏密程度来判断样本是否孤立。

3.根据权利要求1或2所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤2中，采用K临近算法或回归拟合算法对历史数据进行缺失值填充；所述K临近算法是通过找出样本中缺失值前后k个最近的值，将这些值的平均值赋给该样本，即得到该样本对应属性的值，并用该值填充；所述回归拟合算法是指根据业务规则找出和缺失值关联较大的样本，通过该关联样本的值利用拟合公式来拟合缺失值样本的值，并用该值进行填充。

4.根据权利要求1所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤3中，所述皮尔逊相关性分析通过皮尔逊相关系数反应相关性，其中皮尔逊相关系数是指两个样本变量之间的协方差和标准差的商，计算公式为：

5.根据权利要求1或4所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤3中，所述互信息分析方法为：设两个随机变量(X,Y)的联合分布为p(x,y)，边缘分布分别为p(x)p(y)，互信息I(X；Y)是联合分布p(x,y)与边缘分布p(x)p(y)的相对熵，即：

6.据权利要求1所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤5中，所述CNN网络结构是在卷积神经网络基础上搭建的，CNN网络结构包括输入层、卷积层、池化层、Flatten层、全连接层、输出层。

7.根据权利要求1所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤6中，所述XGBoost模型属于Boosting算法，是一种基于梯度提升决策树的改进算法，主要通过把许多树模型集成在一起构成强分类器，XGBoost的核心思想是对目标函数不断进行优化，设其目标函数定义如下公式：

其中

表示预测值

8.根据权利要求1或7所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤6中，所述随机森林模型是通过Bagging方法生成相互之间有差异的不同训练样本集，采用分类回归树作为元分类器构建集成分类器，用简单多数投票结果作为分类结果。

9.根据权利要求1所述的基于集成混合模型的电厂再热烟气挡板操作预测方法，其特征在于，步骤7中，所述XGBoost模型和随机森林模型计算的概率值包括准确率和召回率；概率值的加权平均计算方法如下：XGBoost模型计算{label1，label2}的概率值为{prob11，prob12}，随机森林模型计算{label1，label2}的概率值为{prob21，prob22}，则{label1，label2}概率加权平均prob＝{0.6*prob11+0.4*prob12，0.6*prob21+0.4*prob22}。