CN103440537A

CN103440537A - 基于样本相似性排序建模实时评估系统状态的方法

Info

Publication number: CN103440537A
Application number: CN2013104073967A
Authority: CN
Inventors: 周伟宁; 陈言; 罗林发
Original assignee: SHANGHAI BAIDING ELECTRONIC SCIENCE & TECHNOLOGY Co Ltd
Current assignee: SHANGHAI BAIDING ELECTRONIC SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2013-12-11

Abstract

本发明所涉及的基于样本相似性排序建模实时评估系统状态的方法，从动态系统随时间进行而产生的实时状态数据中选取正常状态时的数据；基于相似性距离排序方法对正常状态样本数据进行排序，并选取符合条件的样本数据组成正常状态样本数据库；将动态系统中任一时间点产生的一组数据与样本库中的每一个样本进行相似性计算，产生一组相似权重值；根据相似权重值及系统状态确定规则，评估在此时间点该系统的状态。在实时状态数据中，选取样本数量在状态向量变量数的3倍至4倍区间；其中所述状态向量变量数为需要监测的参数点的数据，如此确定的样本数量可以使相似性建模评估系统状态时，鲁棒性灵敏度相对折中，评估值准确性高。

Description

基于样本相似性排序建模实时评估系统状态的方法

技术领域

本发明涉及模式识别、软件开发领域，主要应用于发电站、化工工业等监控预警领域。

背景技术

随着20世纪40年代计算机的出现以及50年代人工智能的兴起，人们希望用计算机来代替或扩展人类的部分脑力劳动。

伴随着各种随身设备、互联网和云计算、云存储等技术的发展，在工厂设备的计算机自动监控系统中，所有的数据都可以被记录，包括设备本身的技术数据、设备运行的轨迹数据、设备工作时的环境数据等，数据的收集呈现出大爆炸的状态。如何挖掘利用这些海量的数据，面临着技术上的挑战。

从使用的角度来看，大数据还面临其他因素的挑战。由于各种数据的准确性不能够直观地得出，会导致数据价值大大降低。在工业设备实时数据采集的过程中，一些无法确定的因素也影响了数据的准确性。

由此计算机模式识别在20世纪60年代初迅速发展并成为一门新学科。模式识别(Pattern Recognition)是指对表征事物或现象的各种形式(数值、文字和逻辑关系)的信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类，从处理问题的性质和解决问题的方法等角度，模式识别分为有监督的分类（Supervised Classification）和无监督的分类(Unsupervised Classification)两种。二者的主要差别在于，各实验样本所属的类别是否预先已知。一般说来，有监督的分类往往需要提供大量已知类别的样本，但在实际操作过程中，存在一定困难的。

当模式识别、大数据处理等技术主要应用于发电站、化工工业等监控预警领域时，样本数量的大小将会直接影响模型对实时系统评估的鲁棒性，同时对模型估计的精确度、灵敏度也有相当的影响，因此对于样本如何压缩提取，很多方法难以在顾及鲁棒性的同时考虑模型的精确度、灵敏度。

发明内容

为解决上述问题，本发明公开一种基于样本相似性排序建模实时评估系统状态的方法，即从动态系统随时间进行而产生的实时状态数据中选取正常状态时的数据；基于相似性距离排序方法对正常状态样本数据进行排序，并选取符合条件的样本数据组成正常状态样本数据库；将动态系统中任一时间点产生的一组数据与样本库中的每一个样本进行相似性计算，产生一组相似权重值；根据相似权重值及系统状态确定规则，评估在此时间点该系统的状态。

一般从实际情况取出的正常状态样本数量N，比建立状态样本数据库所需要的样本数量M多很多，因而选取数据的方案对最后系统状态评估有很大的影响，故本发明涉及的基于样本相似性排序建模实时评估系统状态的方法，根据鲁棒性、精确性的要求确定模型中正常状态下的样本数量。

本发明所涉及的基于样本相似性排序建模实时评估系统状态的方法，采用以下步骤来解决背景技术中存在的技术问题：

1、确定取数的数量。在实时状态数据中，选取样本数量在状态向量变量数的3倍至4倍区间；其中所述状态向量变量数为需要监测的参数点的数据，如此确定的样本数量可以使相似性建模评估系统状态时，鲁棒性灵敏度相对折中，评估值准确性高。

2、由于样本空间中每一变量数量级不同，变化范围也不同，所以要将样本向量进行归一化处理。比如将向量X=[,,…]中各数值进行归一化，归一化后的值重新赋值给X，X=[,,…]。数据归一化处理方式有：

（1）、可以将每一变量的所有值相加，将此和值作为1处理，每一变量归一化后的值为该值除以和值。

Figure 2013104073967100002DEST_PATH_IMAGE001

，

Figure 2013104073967100002DEST_PATH_IMAGE002

，，···

（2）、也可以在每一变量中取最大值为1，最小值为0，变量其他值为在此变量排序中相距最大最小值的距离决定。

Figure 2013104073967100002DEST_PATH_IMAGE004

，

Figure 2013104073967100002DEST_PATH_IMAGE005

；

Figure 2013104073967100002DEST_PATH_IMAGE006

，，

Figure 2013104073967100002DEST_PATH_IMAGE008

，···

3、将样本向量通过相似性距离进行排序。

相似性距离可以用以下距离公式计算：

（设两个向量为X=(x1,…,xn)，Y=(y1,…yn)）：

（3）欧氏距离：

（4）泊松相关性相似距离：

Figure 2013104073967100002DEST_PATH_IMAGE010

（5）向量夹角距离：

。

4、样本向量依据相似性大小排序后，取第一个与最后一个样本向量作为正常状态数据库的两个向量。

其中设正常状态样本数量为N，取第一个与最后一个样本向量作为正常状态数据库的两个向量，余下N-2个向量；

如建立状态样本数据库所需要的样本数量为M，是需要监测的参数点数据的3到4倍区间，其确定M的方法为：在剩下N-2个向量中，取（M-2）个样本向量即为状态数据库中剩下的数据，设m为（N-2）/（M-2）的整数部分，从第一个数开始，取第m+1,2m+1…个样本向量，取至第(M-2)*m+1个样本向量，至此总共M个样本向量组成正常状态样本数据库。

5、将动态系统中某一时间点产生的一组数据与样本库中的每一个样本进行相似性计算，产生一组相似权重值。

6、根据相似权重值及系统状态确定规则，评估在此时间点该系统的状态。

本方法的目的在于确定样本数据库数量后，对样本数据的提取进行改进，生成正常状态样本数据库，通过相似性建模来达到提高状态预估水平、对状态变化反映快速的效果。

附图说明：

图1用相似性向量排序评估系统状态流程图；

图2 对采集的数据进行预处理的方法；

图3 实时数据评估流程图；

图4 异常状态下的数据曲线图；

其中：1、预估值；2、实时值。

具体实施方式：

下面结合实施例对本发明作进一步的描述。

将本发明所涉及的基于样本相似性排序建模实时评估系统状态的方法应用于某大型电厂，使用相似性向量排序评估系统状态流程图建立实时数据监控系统。

步骤1、从系统中获得状态数据，此时数据为整个时间段内正常状态的所有数据。

在一年的时间当中的正常运行数据，每个时间点都有机组负荷、主汽压力、主汽温度等一系列参数点的数据（负荷、压力、温度…..），在这个时间点上的数据就构成了一个样本向量。

步骤2、对采集数据进行的预处理，由于系统中各系统状态存在的时间长度不同，所获得的状态数据的数量级不同，需要对这些数据进行进一步的处理，才能保证对系统状态评估的准确与及时。

现场数据的采集，会有如传感器的转换、单位换算等因素，导致各参数存在的数量级均不尽相同。例如，主汽压力一般在10-28MPa(X)，而主汽温度则在500-600℃(Y)……，当两个数据同时读取时就存在数量级的不同，需要对各变量进行归一化处理，根据公式（1）或（2）将机组负荷、主汽温度及机组负荷等数据都变成0~1之间的数值，以消除各变量间数量级的差异，得到建模的数据负荷，压力，温度……，提高评估时的精度。

步骤3、将从步骤2中归一化后的N（一般1000左右）个样本向量根据公式（3）、（4）或（5）进行相似性距离计算，并根据计算结果进行排序。

此过程可以使所有状态放在同一顺序下，让各样本向量易于提取。N1为原样本向量空间的第一个向量，一般为第一个时间点的样本向量。排序后的第一个向量N1’为按相似性排序后的第一个样本向量，也即与其他向量相似性距离最小的样本向量。

步骤4、确定样本向量数据库中样本向量的个数，如变量个数有10个（机组负荷、主汽压力、主汽温度……），则样本向量个数M取30~40个之间，以满足鲁棒性精确性的要求。

先提取第一个与最后一个样本向量作为样本向量数据库的第一个和最后一个样本向量。然后从剩下的（ N-2）个向量中根据设定的规则提取（M-2）个样本向量。一年中的正常状态大概可以提取1000个，通过相等间距取30~40个样本向量就可以均等的涵盖此一年中正常状态的分布。

此步骤所提取的样本向量作为状态数据库，一方面正常状态涵盖范围广可以提高状态评估时的精度，同时另一方面可以缩减状态数据库中样本向量的个数，提高状态评估时的鲁棒性。保证了正常状态样本向量数据库的相对准确性，以用作评估系统当前状态的重要依据。

步骤5、对从系统实时运行过程中提取的数据进行计算。

读取当前时间点的机组负荷、主汽压力、主汽温度……等组成一个向量。将该向量与正常状态样本向量数据进行相似性计算。计算方法可以采用欧氏距离（公式3）、向量夹角距离（公式4）或泊松相关性相似距离（公式5）等相似性距离计算方法，计算出当前时间点的向量与正常状态样本向量数据库中的每一个向量之间的相似性距离，从而产生一组相似性权重值。

此权重为正常状态样本向量数据库中各向量在评估当前状态时所占的比重。距离当前状态越远，权重值越小，距离越近，则权重越大。从而使评估的准确度提高。

步骤6、根据步骤5产生的权重值组与正常样本向量数据库结合，产生当前状态的评估值。

根据以上步骤，对该大型电厂的机组负荷、主汽压力、主汽温度……等设备的运行数据进行采集、建模、评估、分析，其结果如下：

对一组实时数据进行评估时，得到的实时值为：

474.42 、4.86、372.25、372.28、338.63、346.36、4.82、520、-2.63、240.69

根据样本向量数据库计算得出评估值为：

469.85、4.85、374.14、 373.36、339.64、346.71、4.720、529、-2.27、238.36

此时，可以看出评估值与实际值相差不大，可以认为此时的系统状态为正常状态。

对另一组实时数据进行评估时，得到的实时值为：

400.52、4.03、364.18、364.27、328.09、 334.47、4.01、401、-1.65、228.91

根据样本向量数据库计算得出评估值为：

390.95、3.992、365.29、365.64、329.89、336.85、3.91、530、-2.02、226.93

根据事先确定的相似权重值及系统状态规则，变化幅度确定为15%以下为正常状态。由此可以看出，第三个变量，此为温度单位℃，变化幅度为（530-401）/401=32.4%，该温度的变化值可由图4第二个时间点看出，评估出水位已超出正常范围，此时系统为异常状态。其余系统状态参数处于正常状态中。

如此，大型化工厂中，同样可提取一系列泵的压力、流量、温度等参数组成样本向量，建模，并进行数据分析，监控设备的运行，预警设备出现运行不正常的情况。

由于样本数量的采集，在状态向量变量数的3倍至4倍区间，使相似性建模评估系统状态时，鲁棒性灵敏度相对折中，评估值准确性高。

Claims

1.一种基于样本相似性排序建模实时评估系统状态的方法，从动态系统随时间进行而产生的实时状态数据中选取正常状态时的数据；基于相似性距离排序方法对正常状态样本数据进行排序，并选取符合条件的样本数据组成正常状态样本数据库；其特征在于：将动态系统中任一时间点产生的一组数据与样本库中的每一个样本进行相似性计算，产生一组相似权重值；根据相似权重值及系统状态确定规则，评估在此时间点该系统的状态。

2.如权利要求1所述的基于样本相似性排序建模实时评估系统状态的方法，其特征在于：在实时状态数据中，选取正常状态时的数据，数量在状态向量变量数的3倍至4倍区间；其中所述状态向量变量数为需要监测的参数点的数据。

3.如权利要求1所述的基于样本相似性排序建模实时评估系统状态的方法，其特征在于：样本向量依据相似性大小排序后，取第一个与最后一个样本向量作为正常状态数据库的两个向量；其中所述状态向量变量数为需要监测的参数点的数据；

在剩下N-2个向量中，取（M-2）个样本向量即为状态数据库中剩下的数据，方法为：设m为（N-2）/（M-2）的整数部分，从第一个数开始，取第m+1,2m+1…个样本向量，取至第(M-2)*m+1个样本向量，总共M个样本向量组成正常状态样本数据库。

4.如权利要求1所述的基于样本相似性排序建模实时评估系统状态的方法，其特征在于：样本向量相似性距离计算方式包括

设两个向量为X=(x1,…,xn)，Y=(y1,…yn)：

欧氏距离：

或，泊松相关性相似距离：