CN106709662B

CN106709662B - 一种电力设备运行工况划分方法

Info

Publication number: CN106709662B
Application number: CN201611263826.2A
Authority: CN
Inventors: 张忠德; 唐守伟; 于秋红; 张华伟; 潘爱兵; 赵俊
Original assignee: Shandong Luneng Software Technology Co Ltd
Current assignee: Shandong Luruan Digital Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2021-07-02
Anticipated expiration: 2036-12-30
Also published as: CN106709662A

Abstract

一种电力设备运行工况划分方法，包括构建均值聚类模型的训练数据；对训练数据进行预处理，删除无效数据，并且进行归一化处理；采用K‑means++算法确定初始聚类中心；确定聚类划分类别的上下限；循环实现多种类别的聚类过程；对聚类结果进行评价分析,确定最优的聚类类别数K值；选取最优K值模型作为最优工况划分结果等步骤，提高了效率和准确率。

Description

一种电力设备运行工况划分方法

技术领域

本发明涉及火电厂运行工况划分领域，具体涉及一种电力设备运行工况划分方法。

背景技术

我国燃煤火电厂中，锅炉汽水系统应用广泛，而高温过热器作为汽水系统的重要部件，在整个锅炉正常运行中起着重要作用。而在实际火电厂中由于高温过热器在运行中时常会出现受热面结焦超温、安装不合理等问题，长期定点吹刷，蒸汽品质长期不合格等等故障，严重威胁着发电厂的安全和经济运行。目前，国内大部分火电厂的汽水系统高温过热器的正常运行处于依靠专家或运行人员的经验来判断故障的发生，所以在当前大力提倡环保和节约能源的大趋势下，确保高温过热器对实时数据的检测过程中保持与历史相同工况下数据的对比，进而辅助专业人员通过判据实时监测运行状况，提前预测故障发生尤为重要。其中，最优工况的划分是实现这个过程的最重要的前提条件。

当前对于电厂工况划分的方法主要有两大类：基于专家经验的单指标工况划分，基于有监督的数据挖掘方法。

现有技术中已经公开的方式有：《火电厂球磨机制粉系统运行工况划分方法》，CN103301926B；《配电网线路工况分类识别方法》，CN105277852A；《基于支持向量机的风电机组运行工况划分方法》，太阳能学报，2010年第31卷第9期；《风电机组振动监测中运行工况划分方法研究》，华北电力大学，2010年；《基于小波特征的配电网线路运行工况识别》，电网与清洁能源，2010年10月；《基于数据挖掘工况分析技术的研究》，电网与清洁能源，2010年10月；《基于数据挖掘的电站运行优化理论研究与应用》，华北电力大学，2006年；《基于工况划分的火电机组运行优化规则提取》，2009年全国博士生学术会议-电站自动化信息化。

基于专家经验的单指标工况划分方法是根据某一具体的实际应用，电力专家通过自己的专业知识和多年的电厂实践经验，通过单一指标对工况进行划分。这一方法需要较高的专业知识做基础，并且在电厂中需要工作多年，积累一定量的实际经验，才能对电厂内各个系统设备的运行状况有一定的深入理解。然而，电厂发电过程本来就是一个复杂系统，单纯靠人的经验是无法精确判定设备运行状况防止故障发生的。因为，每个人的知识和经验有限，并且现场的运行人员的经验更有限，特别是一些工作年限较短的人员，即使是有丰富的经验的专家也不可能完全解决电厂运行的所有问题。并且从专家的角度来看，只能从单一指标出发，选取有代表性的某一指标进行工况划分，然后对于某些复杂过程，影响正常工况划分的指标不仅仅只有一个，而对于高维的情况只依靠专家的经验很难得到一个最优的工况划分结果。

基于有监督的数据挖掘方法是通过挖掘数据内部的规律，达到划分最优工况的目的。一般对于某些电厂的应用场景，正常的运行工况有多种，并且专业上已经给出每一类工况什么特征，把各个工况的数据作为训练样本集，通过有监督的挖掘学习，得到分类器模型，再去对测试数据进行判别测试。它相对于依靠专家经验的方法，有了质的飞跃。但对于复杂系统的需要专家花费大量的时间对各类进行标记，时间成本和人力成本较高。不过，整体上来说，它可以解决多指标的工况划分问题，不再只依靠专业人员的知识，并且可以处理高维的问题，并可以对测试数据判定是在历史运行过程中的哪一个工况。具体的算法有：支持向量机、神经网络、判别分析、贝叶斯分类器、PCA等。

基于专家经验的方法是建立在专工大量的专业知识和丰富的工作经验的基础上来进行工况划分的。然而，这在现实电厂的实际运行中是不现实的。因为，运行人员的经验不足，专业领域知识有限是很普遍的现象，所以实际的可行性较差。专业人员给出的划分标准是基于单指标来划分的，然而，这在实际电厂应用中是有很大缺陷的，因为有些复杂系统不仅仅依靠某一个指标来工况划分，对于多指标或高维的情况，各个指标之间的关联关系较复杂，仅依靠专业人员自身知识和经验解决较困难。

基于有监督的数据挖掘方法虽然跨越了维度的限制，但是还是脱离不了专业知识的人为主观因素的影响，人为的主观因素产生的误差是不可避免的。但是，如果某一个设备的运行状况专业人员给不出一个工况划分标准，从专业角度给不了指导实际生产的经验，那么，有监督的数据挖掘方法使用将意义不大；并且若是专业人员能够给出相对应的类别标记，对于大量的数据来说，花费的人力、物力也是非常大的，况且人为的操作本身就有它的不可避免的误差。一个模型的准确，源于给定的训练样本的准确性。在电厂的实际应用中，人所能理解的系统的运行状况是有限的，有很大的一部分系统运行状况远远超出了人的理解，专业更给不出有依据的知识。这也是当前急需要解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种电力设备运行工况划分方法及评价方法。它是基于无监督学习，仅对数据进行分析就可以得到最优工况结果的方法，采用聚类的思想直接对研究对象进行建模并对建模结果进行评价最终得到最优模型。因此，它可以不用依赖专业人员的知识和丰富的实践经验，从数据角度出发，挖掘出数据内部规律，找到最优工况。并且它可以对多指标划分工况，更符合实际应用要求，最终使得工况划分的准确率会更高。

本发明提供了一种电力设备运行工况划分方法，依次包括如下步骤：

步骤1：从电厂数据库中读取相关设备足够时间的历史运行状态数据，利用设定的筛选规则从历史运行状态数据中筛选出运行状态良好的健康设备数据作为构建均值聚类模型的训练数据；

步骤2：对训练数据进行预处理，删除无效数据，并且进行归一化处理；

步骤3：采用K-means++算法确定初始聚类中心；

步骤4：确定聚类划分类别的上下限；

步骤5：循环实现多种类别的聚类过程；

步骤6：对聚类结果进行评价分析,确定最优的聚类类别数K值；

步骤7：选取最优K值模型作为最优工况划分结果。

进一步地，步骤1还包括假若从一个具有N个观察指标的设备数据库截取M个时刻的设备数据作为训练数据，则在m时刻的各个观察指标数据x_mi能够看作为一个N维的向量，其中1≤i≤N，表示为：

X(t_m)＝[x_m1,x_m2,x_m3,…,x_mN]^T；

则该训练数据文件应当为M*N的矩阵形式。具体形式如下：

进一步地，步骤2具体步骤为将包含无效数据的观测向量进行删除，采用的公式为：

其中，data_u、data_l为前后边界数据，moment_l、moment_u为前后边界时间，data_n、moment_n为NaN数据及其时间；

对各个参数的测量值根据各自的极值进行归一化处理，采用如下公式对各个参数的测量值进行预处理，将各个参数的测量值全部映射到[0，1]区间内：

其中max(data)和min(data)分别表示对应测量值的最大值和最小值，data表示对应各个参数的测量值。

进一步地，步骤3中确定初始聚类中心具体步骤为：

(1)从输入的数据点集合中随机选择一个点作为第一个聚类中心；

(2)对于数据集中的每一个点x，计算它与最近聚类中心的距离D(X)；

(3)选择一个新的数据点作为新的聚类中心，选择的原则是：D(X)较大的点，被选取作为聚类中心的概率较大；

(4)重复(2)和(3)直到K个聚类中心被选出来。

进一步地，步骤5包括如下步骤：

(1)选取k-means++算法得到K个初始聚类中心：Z₁(1)，Z₂(1)，...，Z_K(1)；

(2)按最小距离原则将其余样品分配到K个聚类中心中的某一个，即：

min{||X-Z_i(k)||,i＝1,2,…,K}＝|X-Z_j(k)||＝D_j(k)，则X∈S_j(k)；

(3)计算各个聚类中心的新向量值：Z_j(k+1)j＝1,2,…,K；

N_j为第j类的样本数；

(4)如果Z_j(k+1)≠Z_j(k),j＝1,2,…,K，则回到步骤(2)，将模式样本逐个重新分类，重复迭代计算；

(5)如果Z_j(k+1)＝Z_j(k),j＝1,2,…,K，则算法收敛，计算完毕。

本发明的电力设备运行工况划分方法，可以实现：

1.本发明为无监督学习方法，能够根据数据特征自动对数据进行分析建模，不需要专业知识和经验，降低了运行人员的门槛。

2.本发明是做进一步研究运行优化的基础条件。在实际电厂应用中，每一时刻的数据对应的最优工况是不一样的，春冬和夏秋对应的外界影响因素也会有很大差距，因此，再对实时数据进行进一步分析时，首先一点先判断出其所在的最优工况是至关重要的。

3.本发明是对多指标和单指标的分析具有通用性。这更加符合实际应用的要求，对于某一设备影响工况的因素有多个时，而这时由于设备的复杂运行特性，使得专业人员没有足够的经验和知识来确定这些因素时，本发明采用的方法将解决这一棘手问题。

4.本发明为故障预警提供前提基础。电厂设备故障的预警是当前电厂最重要的一方面，而本发明通过寻求最优工况，为进一步进行预警提供先决条件，并且使得预警结果更准确，弥补预警方法的固有缺陷。

5.本发明为故障判据的标准值的确定提供一个标准。因为，从专业人员角度来说，判定当前实时值的运行情况要通过历史同工况下的运行情况来确定一个标准值，那么对于最优工况的确定将至关重要。

6.本发明是提高火电厂经济效益的重要手段。使得火电更节能更经济是当前最重要的任务之一，而最优工况的研究为大力提高电厂节能经济提供了一个更加优化的环境，使得各种方法和技术能够更加符合其使用环境，将对解决各类问题更加有意义。

附图说明

图1为建模及模型评价分析过程的步骤流程图

图2为均值聚类的流程图

图3为SIL指标最优类别流程图

图4为CH指标最优类别流程图

具体实施方式

下面详细说明本发明的具体实施，有必要在此指出的是，以下实施只是用于本发明的进一步说明，不能理解为对本发明保护范围的限制，该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整，仍然属于本发明的保护范围。

图1为本发明建立模型的流程图，整个建模及模型评价过程主要包括以下步骤：

步骤1：获取训练数据。

本发明选取的训练数据为一单设备的多指标历史健康数据，大致操作过程为：以选定的指标为准从电厂数据库中读取该相关设备足够时间的历史运行状态数据；然后利用设定的筛选规则从所有的历史数据中筛选出运行状态良好的健康设备数据作为构建均值聚类模型的训练数据。

假若从一个具有N个观察指标的设备数据库截取M个时刻的设备数据作为训练数据，则在m时刻的各个观察指标数据可看作一个N维的向量，可表示为：

X(t_m)＝[x_m1,x_m2,x_m3,…,x_mN]^T (1)

则该训练数据文件应当为M*N的矩阵形式。具体形式如下：

步骤2：数据预处理。

数据预处理需要对训练数据采取删除无效数据，归一化等预处理措施。由于数据获取过程中可能存在的问题，最初获得的原始训练数据可能存在空数据等无效数据，需要将包含无效数据的观测向量进行删除。所采用的公式为：

其中，data_u、data_l为前后边界数据，moment_l、moment_u为前后边界时间，data_n、moment_n为NaN数据及其时间。

另外，由于设备模型相关参数的量纲不同，且不同参数数据绝对值相差很大，为保证使用非线性算子正确衡量不同观测向量之间的距离，需要对各个参数的测量值根据各自的极值进行归一化处理。可采用如(3)式所示的线性归一化方式，对各参数数据进行预处理，将各参数值全部映射到[0，1]区间内：

步骤3：确定初始聚类中心。

本发明确定初始聚类中心的算法采用K-means++算法进行优化。K-means++算法选择初始聚类中心的基本思想是：初始聚类中心之间的相互距离尽可能的远。

具体步骤如下：

(4)重复(2)和(3)直到K个聚类中心被选出来；

从上面算法描述上可以看到，关键是(3)中将D(X)上的点确定为被选择的概率上，本发明采用以下方法：

(1)先从我们的数据库随机挑选K个随机点当“种子点”。

(2)对于每个点，我们都计算其和最近的一个“种子点”的距离D(X)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))。

(3)然后，再取一个随机值，用权重的方式来取计算下一个“种子点”。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random-＝D(x)，直到其D(x)＜＝0，此时的点就是下一个“种子点”。

(4)重复(2)和(3)直到K个聚类中心被选出来。

步骤4：确定聚类划分类别的上下限。

要想得到划分类别的上下限，从以下两方面考虑。

从专业角度，专工根据自身经验以及电力的实际需求给出一个大体的划分标准，譬如，对温度相关的设备，冬天和夏天差距就会较大。从专业角度，来说划分工况为一个，相对来说作用不大，当然也要根据实际应用需要，确定划分出的最优工况个数是符合实际应用需求的。

从算法人员角度，要通过对算法的研究，制定一个分类类别标准。比如，上限不可能超过样本总个数。但是，一般数据量较大时，我们不可能把所有的样本个数都试一遍，这样一来工作量太大。我们可以去掉重复的数据或近似重复的数据集，使得整个数据集样本大大减小。采用先使用系统聚类法得到一个相对粗略的最优值，确定出划分的上限。再用均值聚类从2至最大值进行循环，采用评价函数，选取最优工况划分的类别数。

步骤5：实现多种类别的聚类过程。

k-means算法也称C-均值算法，是根据函数准则进行分类的聚类算法，基于使聚类准则函数最小化。k-means算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心，然后计算其他数据距离这三个聚类中心的距离，将数据归入与其距离最近的聚类中心，之后再对这K个聚类的数据计算均值，作为新的聚类中心，继续以上步骤，直到新的聚类中心与上一次的聚类中心值相等时结束算法。

准则函数：聚类集中每一样本点到该类中心的距离平方和。对于第j个聚类集，准则函数定义为：

S_j：第j个聚类集(域)，聚类中心为Z_j；

N_j：第j个聚类集S_j中所包含的样本个数。

对所有K个模式类有：

k-means算法的聚类准则：聚类中心的选择应使准则函数J极小，即使J_j的值极小。即有：

可解得：

上式表明，S_j类的聚类中心应选为该类样本的均值。

具体描述：

min{||X-Z_i(k)||,i＝1,2,…,K}＝||X-Z_j(k)||＝D_j(k) (9)

则X∈S_j(k)。

(3)计算各个聚类中心的新向量值：Z_j(k+1)j＝1,2,…,K

N_j：第j类的样本数。

(4)如果Z_j(k+1)≠Z_j(k)j＝1,2,…,K，则回到步骤(2)，将模式样本逐个重新分类，重复迭代计算。

(5)如果Z_j(k+1)＝Z_j(k)j＝1,2,…,K，则算法收敛，计算完毕。

步骤6：对聚类结果进行分析，确定最优K值。

聚类分析的目的就是确定一个最优的聚类类别数K。那么，聚类结果的评价至关重要。

在聚类有效性研究中，评价聚类算法得到聚类结果的方法主要由三类。

外部标准：用事先判定的聚类结构来评价；它用来度量聚类算法发现的聚类结构与某种外部结构的匹配程度。它使用了不在数据集中出现的信息，也称监督的度量，即其簇的个数及每个数据项的正确的分类均为已知。主要的方法有：熵，纯度，F-度量等。

内部标准：用参与聚类的样本来评价聚类结果，比如采用各个簇的误差平方和。如果处理的数据集结构未知，聚类结果的评价就只能依赖数据集自身的特征和量值。在这种情况下，聚类分析的地量追求两个目标：紧密度和分离度。此外，还要考虑单个簇的大小，以达到均衡较好的解。上述几种方法大多是基于统计测试，计算量比较大。主要的方法有：Calinski-Harabasz(CH)指标、Davies-Bouldin(DB)指标、Weighted inter-intra(Wint)指标、Krzanowski-Lai(KL)指标、Hartigan(Hart)指标、In-Group Proportion(IGP)指标等。

本发明中，采用了Calinski-Harabasz(CH)指标和'silhouette'(Sil)指标。

相对标准：用同一种算法的不同结果来评价聚类效果，即通过与其他结果的比较来判断聚类的优劣。相对度量是在确定聚类算法的基础上，采用预定义的评价标准，针对算法不同的参数设置进行算法测试，最终选择最优的参数设置和聚类模式。主要的方法有：簇内和簇间距离的线性组合，簇内和簇间距离的非线性组合，模糊聚类度量等。

实施例

本实施例以某火力发电厂1#机组的高温过热器为对象，一次风机是锅炉汽水系统中重要的设备，它结构复杂，难以建立精确数学机理模型，且易发多发故障人工排查难度大，符合本发明适应场景。通过本实施例的详细阐述，进一步说明本发明的实施过程。

本发明实施例对某电厂高温过热器设备的工况寻优的实施步骤如下：

步骤1：选取除停机以外的高温过热器设备的相关指标共33个。包括高过入(出)口温度(℃)，高过壁温(℃)，实发功率(MW)，出口压力(kPa)等，因此该设备的观测向量为33维的向量：

从13年8月到14年7月半年的历史数据中去除异常部分以获取训练数据，共355438条数据(去掉空数据和停机数据)。

步骤2：对训练数据进行数据预处理工作。

对挑选出的训练数据进行删除无效数据和归一化等预处理措施。按照(1)式进行线性归一化方式，将各参数值全部映射到0到1的区间内。

步骤3：确定初始聚类中心。

利用k-means++算法得到的初始聚类中心，并且选取前1000组数据，以K＝2为例，部分指标结果如下表所示：

步骤4：确定聚类划分类别的上下限。

对于高温过热器指标一般都是以温度为主，从专业角度给出了可以按照季节分工况；并且每个月份的情况可能会不一样，因此，上限最高为12个。如果划分一个工况，将对实际应用没有较大意义。因此，确定最优工况范围为[2,12]。

步骤5：实现多种类别的聚类过程。

对多类别进行聚类得到聚类结果，选取K＝2，数据量为100000为例，部分结果展示如下：

步骤6：对聚类结果进行分析，确定最优K值。

由于本实施例实际应用中专工没有已知专业的知识提供，因此，适用于内部标准。本发明确定K值的过程。从以下三个角度来考虑：

(1)K值上下限：由步骤4以确定为[2,12]。

(2)数据集分别选取不同数据集进行测试，确定最优的K。按照每分钟取一条历史数据的频率取数，数据集分别选取：100,1000,10000,100000条数据。

(3)不同的评价标准；Calinski-Harabasz(CH)指标和'silhouette'(Sil)指标。

Calinski-Harabasz(CH)指标

CH指标是基于全部样本的类内离差矩阵与类间离差矩阵的测度，其最大值对应的类数作为最优的聚类个数。

其中，n表示聚类的数目，k表示当前的类，trSB(k)表示类间离差矩阵的迹，trSW(k)表示类内离差矩阵的迹。

'silhouette'(Sil)指标

设a(t)为聚类C_j中的样本t和类内所有其他样本的平均不相似度或距离，d(t,C_i)为样本t到另一个类C_j的所有仰恩的平均不相似度或距离，则b(t)＝min{d(t,C_i)},i＝1,2,…,k,i≠j。Sil指标计算每一个样本与同一聚类中样本的不相似度以及与其他聚类中样本的不相似度，其每个样本t的计算公式如下：

一般以一个数据集的所有样本的平均Sil值来评价聚类结果的质量，Sil指标越大表示聚类质量越好，其最大值对应的类别数作为最优的聚类个数。

通过图3、图4所示，数据量为1000时，两个指标的最优类别个数最高值为2，进而，得到最优工况K值最优结果2。通过不同数量级和不同指标的多类别对比试验，如下表所示：

通过多种评价标准从多维度分析，数量级100数据量较小。100000条大约两个月数据相对较合理，从专业应用角度分析，数据量也足够代表正常运行的状态。所以最终选取K＝2作为最优的工况类别数。

步骤7：选取最优K值模型作为最优工况划分结果。

本发明最终选取的最优工况的划分类别为2，较符合专业按月划分工况的要求；各个工况的最优聚类中心的部分结果如步骤5中表格所示。

尽管为了说明的目的，已描述了本发明的示例性实施方式，但是本领域的技术人员将理解，不脱离所附权利要求中公开的发明的范围和精神的情况下，可以在形式和细节上进行各种修改、添加和替换等的改变，而所有这些改变都应属于本发明所附权利要求的保护范围，并且本发明要求保护的产品各个部门和方法中的各个步骤，可以以任意组合的形式组合在一起。因此，对本发明中所公开的实施方式的描述并非为了限制本发明的范围，而是用于描述本发明。相应地，本发明的范围不受以上实施方式的限制，而是由权利要求或其等同物进行限定。