CN110413601A

CN110413601A - 一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法

Info

Publication number: CN110413601A
Application number: CN201910598184.9A
Authority: CN
Inventors: 潘蕾; 王钱超; 徐宏灿; 尹琦; 沈炯; 李益国
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-11-05
Anticipated expiration: 2039-07-04
Also published as: CN110413601B

Abstract

本发明公开了一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，包括分析所选辨识对象特性，得到相应的辨识参数；针对对象经验辨识结果和数据本身的分布特性，选择适量的可辨识和难以辨识的数据组成训练集；利用训练集对高斯朴素贝叶斯分类器进行训练，得到各个参数的先验概率；利用训练后的分类器对测试集进行粗分，得到多个可用数据段；利用预报误差法的模型拟合度对可用数据段进行细分，得到最优可辨识数据段，或者设置拟合度阈值，得到多个辨识较好数据段。本发明节省了大量的数据处理时间，避免了多次重复劳动，同时提高了筛选数据的精度。

Description

一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法

技术领域

本发明属于大数据技术领域，涉及一种基于高斯朴素贝叶斯分类器预报误差法相结合的发电机组辨识数据筛选方法-GaussianNB-PEM数据筛选法。

背景技术

大数据技术正在推动发电企业的科技创新。对海量实时数据进行有效性甄别和选择是大数据方法应用成功的重要环节。由于工业现场数据中包含所有影响因素，如设备大范围变工况、随机干扰、多扰动等，需要通过数据检验方法选择出符合特定应用需求的数据段。

贝叶斯算法是一种基于统计的分类算法，将分类问题转化为概率问题看，所有的概率都是从数据中计算或者估计得到。朴素贝叶斯分类算法是一种可以和决策树、神经网络分类算法相媲美的算法，不仅能够运用到大型数据库中，而且方法简单、且分类准确率高、速度快。其中引入了“属性条件独立性假设”条件，形成两个基础假设：1、对于每一个假设特征都互相独立；2、任何属性与输出结果都是有关系的，并且影响程度相等。高斯朴素贝叶斯，在处理连续数据时，假设每个分类相关的特征是连续的且按照高斯分布。

预报误差法是指利用k时刻之前的输入和输出信号计算(k+1)直到未来时刻的输出的方法。给定观测量z(k)之后，调整参数θ，使预报的均方根误差达到最小参数估计。

若能将高斯朴素贝叶斯分类器和预报误差结合，则可在训练集不完全准确的情况下，在大范围实际数据中找出能较为准确辨识的数据段，避免大量重复劳动和节约数据筛选时间，而目前尚没有相关文献和专利。

发明内容

发明目的：针对火电厂实时运行数据中不确定因素多、模型辨识数据样本难以正确筛选的问题，本发明尝试利用贝叶斯算法进行样本的统计学习，以筛选获得有效的闭环辨识数据样本。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，包括以下步骤：

(1)分析发电机组辨识对象特性，得到相应的辨识参数作为筛选法的输入参数；

(2)针对发电机组辨识对象经验辨识结果和辨识参数数据本身的分布特性，选择适量的可辨识和难以辨识的数据组成训练集；利用训练集对高斯朴素贝叶斯分类器进行训练，得到各个参数的先验概率；利用训练后的分类器对测试集进行粗分，得到多个可用数据段；

(3)利用预报误差法的模型拟合度对可用数据段进行细分，得到最优可辨识数据段，或者设置拟合度阈值，得到多个辨识较好数据段。

进一步的，步骤(1)具体为：辨识对象为发电机组内部环节，选择与辨识对象相关的主要参数，即辨识参数，作为GaussianNB-PEM数据筛选法的输入参数，包括发电机组的被控参数集合y、控制参数集合u和扰动参数集合r；每一个辨识参数均作为辨识对象的一个属性，共有d个，d为正整数；输入参数的数据分为若干个类别，某个类别用序号表示为第c个类别，c为正整数，建立在{y，u，r}属性集上，每个属性上的取值记为{x_i，i∈1～d}。

进一步的，步骤(2)具体为：根据发电机组辨识参数数据特性和辨识参数数据所需长度选择合适的可辨识参数数据和难以辨识参数数据组成训练集，将可辨识参数中的每一组数据的标签记为1，难以辨识参数中的每一组数据的标签记为2，共分两类，c＝1或c＝2，以此训练集对分类器进行训练；发电机组辨识参数的非训练集数据均属于测试集；

训练和筛选步骤如下：

(21)利用训练集计算各辨识参数的先验概率，对分类器进行训练：

其中，P(c|x)为第c个类别相对于训练样本x的类条件概率；P(x)是用于归一化的因子；P(x|c)是训练样本x相对于第c个类别的类条件概率；P(c)是先验概率；P(x_i|c)为x在第i个属性上的取值相对于第c个类别的类条件概率；x_i为x在第i个属性上的取值；d为属性数目；对于已知训练样本x，P(x)与类标记无关，基于训练集提供的信息来计算得到P(c)和P(x|c)；

(22)利用高斯朴素贝叶斯分类器对测试样本进行初步分类：

高斯朴素贝叶斯分类器，在处理连续数据时，假设每个分类相关的特征是连续的且按照高斯分布，即可得到P(x|c)：

其中，μ_c对应类别c下x_i的均值；σ² _c是方差；

(23)对测试集进行分类

将测试集代入训练好的分类器中，用已知类标记的所有可能值计算概率P_nb，并选择输出概率最大的结果所代表的类别作为最终输出：

其中，P_nb(x)是测试集数据分别在c＝1和c＝2两类标记下的概率。

进一步的，步骤(3)具体为：

(31)预报误差的协方差阵为：

其中，N为辨识参数数据长度；e(k,θ)辨识参数预报误差，θ为辨识参数估计；

利用与协方差阵有关的标量函数J² _N(θ)作为代价函数，J² _N(θ)取极小时的参数估计值θ，称为预报误差估计：

J²(θ)＝lg[detD(θ)]；

(32)用步骤(31)求得的辨识参数预报误差e(k,θ)，且得到一个最好的辨识模型：

z(k)＝f[z(k-1),...,z(1),z(0),u(k-1),...,u(1),θ]+e(k,θ)＝f[z^k-1,u^k-1,θ]+e(k,θ)；

其中，z(k-1)为k-1时刻的辨识模型输出；u(k-1)为k-1时刻的辨识模型输入；e(k,θ)表示k时刻的辨识参数预报误差；

(33)利用得到的预报误差模型的拟合度对初步分类数据段进行二次细分，得到最优可辨识数据段，或者设置拟合度阈值，得到多个辨识较好数据段。

进一步的，步骤(33)中对初步分类数据段进行二次细分得到最优可辨识数据段的具体方法为：

(a)拟合度计算公式为：

其中，y_i是实际输出；是拟合输出；是实际输出的均值；

(b)在所有的模型拟合度中选择拟合度最大的数据段作为最优可辨识数据段。

进一步的，步骤(33)中设置拟合度阈值，得到多个辨识较好数据段具体方法为：

(a)拟合度计算公式为：

其中，y_i是实际输出；是拟合输出；是实际输出的均值；

(b)设定拟合度阈值为λ，λ取值为0～100之间，在所有的模型拟合度中选择拟合度大于λ的数据段作为辨识较好的数据段。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明的数据筛选结合了辨识模型的实际数据特性，具有普适性；

(2)结合了高斯朴素贝叶斯和预报误差法二者的优点，既能够大范围筛选可用的实际数据，又能够小范围筛选并验证数据段的可用性；

(3)二级减温水系统仿真控制试验表明，利用本发明筛选出的数据进行建模相比于实际数据，更加贴近设定值且过热汽温波动较小。

附图说明

图1是本发明方法的流程图；

图2是本发明二级减温水原理图；

图3是本发明末级过热汽温辨识数据，图(a)为模型输出量与扰动量数据，图(b)为模型控制量数据；

图4是本发明阀门开度仿真与实际对比，图(a)的仿真模型由第9000-19000组数据辨识得到，图(b)的仿真模型由第105000-115000组数据辨识得到；

图5是本发明末级过热器出口蒸汽温度仿真与实际对比，图(a)的仿真模型由第9000-19000组数据辨识得到，图(b)的仿真模型由第105000-115000组数据辨识得到。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进行详细说明。

发电机组包括各种控制回路，本发明以南京某电厂二级减温水控制回路的实际数据为例，对本发明技术方案进一步详细说明：

如图1所示，本发明的一种基于高斯朴素贝叶斯分类器预报误差法相结合的发电机组辨识数据筛选方法，即GaussianNB-PEM数据筛选法，包括以下步骤：

步骤1：分析二级减温水控制回路特性，得到相应的辨识参数；

二级减温水控制回路原理图如图2所示，图中二级喷水减温控制回路采用串级PID控制。入口过热蒸汽汽温进入减温器，由减温水对其进行减温使其温度达到θ1；θ1作为反馈输入到外回路P控制中。过热蒸汽再经过末级过热器加热达到温度θ2；θ2作为反馈输入到内回路PID控制中。最终由上述串级PID控制器计算下一次喷水减温的减温水量，由执行器执行。

二级减温水控制末级过热器出口蒸汽温度一般控制在540±5℃范围内，若出口蒸汽温度降低，则整体热效率降低且安全性受到影响；出口蒸汽温度每降低5℃，整体热效率会降低约1％，如果出口蒸汽温度过高则会出现爆管或者其他设备损坏的事故；二级减温水控制回路在实际电厂中存在许多扰动。如减温水阀可能存在泄漏问题造成阀门开度偏小，或者阀门设计误差造成的震荡使得流量不稳定等。末级过热器段存在大滞后、管路腐蚀等问题。除此以外还有锅炉燃烧方式、煤质变化，磨煤机运行稳定性，火焰中心位置等均会对该回路造成扰动。

经分析得到二级减温水控制回路模型辨识所需参数选取如表1所示：

表1模型辨识所需参数

表1中7个辨识所需参数作为GaussianNB-PEM数据筛选法的输入参数，均为二级减温水控制回路的属性，以这7个属性组成属性集合，即d＝7。二级减温水回路实际数据的分类建立在此属性集合上。每个属性上的取值记为{x_i,i∈1～7}。

本发明末级过热汽温实际辨识参数数据如图3所示：由图3(a)可以看出，负荷不断变化的时，总风量因为未知扰动存在一定的突变情况；末级过热器出入口的蒸汽温度波动性较强，存在持续扰动和突变情况。由图3(b)可以看出，减温水阀门开度和对应的喷水流量存在较强的波动性，数据在某些时段存在大量未知扰动；减温水阀门进出口蒸汽温度，波动性较强。

步骤2、针对对象经验辨识结果，和辨识参数数据本身的分布特性，选择适量的可辨识和难以辨识的数据组成训练集，利用训练集对高斯朴素贝叶斯分类器进行训练，利用训练后的分类器对测试集进行粗分，得到多个可用数据段：

通过分析辨识参数数据的波动性，可以表明可用于辨识的数据段占少数，因而在选取训练样本集时选取了长度为10000组的可辨识训练样本集和长度为90000组的难以辨识训练样本集，将可辨识样本集中的每一组数据的标记设为1，难以辨识样本集中的每一组数据的标记设为2，共分两类，c＝1或c＝2。以此训练集对分类器进行训练；发电机组辨识参数的非训练集数据均属于测试集。

训练和筛选步骤如下：

1)利用训练样本集计算各辨识参数的先验概率，对分类器进行训练：

其中，P(c|x)为第c个类别相对于训练样本x的类条件概率；P(x)是用于归一化的因子；P(x|c)是训练样本x相对于第c个类别的类条件概率；P(c)是先验概率，分别为1/10和9/10；P(x_i|c)为x在第i个属性上的取值相对于第c个类别的类条件概率；x_i为x在第i个属性上的取值；d为属性数目；对于已知样本x，P(x)与类标记无关，基于训练集提供的信息来计算得到P(c)和P(x|c)。

2)利用高斯朴素贝叶斯分类器对测试样本进行初步分类：

求取训练集各个类的每个属性的均值μ_c即末级过热器进出口温度均值、主蒸汽流量均值、总风量均值、阀门进出口蒸汽温度均值、阀门开度均值。

求取训练集同一类的各属性的方差与各属性之间的协方差σ_c，以此来确定同类各辨识参数之间的线性关系。

高斯朴素贝叶斯，在处理连续数据时，假设每个分类相关的特征是连续的且按照高斯分布：

其中，μ_c对应类别c下x_i的均值；σ² _c是方差。

(3)对测试集进行分类

步骤3、利用预报误差法的模型拟合度对可用数据段进行细分，得到最优可辨识数据段，或者设置拟合度阈值，得到多个辨识较好数据段：

1)预报误差的协方差阵为：

其中，N为辨识参数数据长度；e(k,θ)辨识参数预报误差，θ为辨识参数估计。

利用与协方差阵有关的标量函数J²(θ)作为代价函数，J²(θ)取极小时的辨识参数估计值θ，称为辨识参数预报误差估计：

J²(θ)＝lg[detD(θ)]；

2)用步骤1)求得的辨识参数预报误差e(k,θ)，且得到一个最好的辨识模型：

式中：z(k-1)为k-1时刻的辨识模型输出；u(k-1)为k-1时刻的辨识模型输入；e(k,θ)表示k时刻的辨识参数预报误差。

3)利用粗分的数据段进行模型拟合，PEM模型的拟合度fit对初步分类数据段进行二次细分，得到最优可辨识数据段，或者设置拟合度阈值，得到多个辨识较好数据段。

拟合度计算公式为：

其中，y_i是实际输出；是拟合输出；是实际输出的均值。

选择拟合度最高的数据段作为最优可辨识数据段，或者设定拟合度阈值为40，选择拟合度大于40的多个数据段作为多个辨识较好数据段。

本发明GaussianNB-PEM筛选算法流程为：

可知，训练集的选取对分类器的训练至关重要，通过计算训练集中辨识参数的均值和协方差，和利用高斯函数来判定测试集中参数的可用性；

图4所示为本发明阀门开度仿真与实际对比，分别为图(a)由第9000-19000组数据辨识得到和图(b)由第105000-115000组数据辨识得到，图中虚线是实际阀门开度，实线是仿真阀门开度，可以看出，实际阀门存在较多小扰动，抗扰能力差，波动性较大，仿真值与实际值波动趋势一致。

图5本发明末级过热器出口蒸汽温度仿真与实际对比，分别为图(a)由第9000-19000组数据辨识得到和图(b)由第105000-115000组数据辨识得到，其中点画线是实际末级过热器汽温温度，虚线是仿真末级过热器汽温温度，实线为末级过热汽温设定值，可以看出，末级过热器出口汽温实际值波动较多，在设定值附近震荡；仿真值比实际值更加贴近设定值，且扰动和震荡较少。

综上所述，本发明所述一种基于高斯朴素贝叶斯分类和预报误差法相结合的发电机组辨识数据筛选方法-GaussianNB-PEM数据筛选法，结合了高斯朴素贝叶斯和预报误差法的特点，利用大数据技术，既能够快速地在庞大的实际数据中筛选出多个可用于辨识的数据段，又避免了因实际数据组成的训练集存在误差而造成的筛选错误，提高了筛选数据的精度。本发明也节省了大量的数据处理时间，避免了多次重复劳动。

Claims

1.一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，其特征在于，步骤(1)具体为：辨识对象为发电机组内部环节，选择与辨识对象相关的主要参数，即辨识参数，作为GaussianNB-PEM数据筛选法的输入参数，包括发电机组的被控参数集合y、控制参数集合u和扰动参数集合r；每一个辨识参数均作为辨识对象的一个属性，共有d个，d为正整数；输入参数的数据分为若干个类别，某个类别用序号表示为第c个类别，c为正整数，建立在{y，u，r}属性集上，每个属性上的取值记为{x_i，i∈1～d}。

3.根据权利要求1所述的一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，其特征在于，步骤(2)具体为：根据发电机组辨识参数数据特性和辨识参数数据所需长度选择合适的可辨识参数数据和难以辨识参数数据组成训练集，将可辨识参数中的每一组数据的标签记为1，难以辨识参数中的每一组数据的标签记为2，共分两类，c＝1或c＝2，以此训练集对分类器进行训练；发电机组辨识参数的非训练集数据均属于测试集；

训练和筛选步骤如下：

(22)利用高斯朴素贝叶斯分类器对测试样本进行初步分类：

其中，μ_c对应类别c下x_i的均值；σ² _c是方差；

(23)对测试集进行分类

4.根据权利要求1所述的一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，其特征在于，步骤(3)具体为：

(31)预报误差的协方差阵为：

J²(θ)＝lg[detD(θ)]；

5.根据权利要求4所述的一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，其特征在于，步骤(33)中对初步分类数据段进行二次细分得到最优可辨识数据段的具体方法为：

(a)拟合度计算公式为：

其中，y_i是实际输出；是拟合输出；是实际输出的均值；

6.根据权利要求4所述的一种基于高斯朴素贝叶斯分类器和预报误差法相结合的发电机组辨识数据筛选方法，其特征在于，步骤(33)中设置拟合度阈值，得到多个辨识较好数据段具体方法为：

(a)拟合度计算公式为：

其中，y_i是实际输出；是拟合输出；是实际输出的均值；