CN101008936A

CN101008936A - 一种校正测量数据显著误差与随机误差的方法

Info

Publication number: CN101008936A
Application number: CNA2007100668376A
Authority: CN
Inventors: 荣冈; 李笕列; 王旭; 冯毅萍; 苏宏业
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2007-01-24
Filing date: 2007-01-24
Publication date: 2007-08-01
Anticipated expiration: 2027-01-24
Also published as: CN100440200C

Abstract

本发明公开了一种校正测量数据显著误差与随机误差的方法。该方法首先利用贝叶斯法则从历史数据中对提取测量仪表的可靠性，然后将可靠性引入显著误差检测中作为确定确定检测误差的基准。利用在显著误差检测中获得的信息，减少数据校正的计算量。本发明的优点：利用仪表的历史运行数据作为可靠性的基础，从而通过确定一批可靠性较高的仪表来减少计算量；考虑了基准中出现显著误差的情况，通过更新可靠性来处理基准中的显著误差，从而改善显著误差检出率；利用较少的计算量得到显著误差候选集，改善显著误差检测效率；通过共用关联矩阵的方法将显著误差检测与数据校正联系起来，降低数据校正步骤的计算复杂度。

Description

一种校正测量数据显著误差与随机误差的方法

技术领域

本发明涉及一种校正测量数据显著误差与随机误差的方法。

背景技术

在化工企业中，测量数据含有无法避免的随机误差和显著误差，由于这些误差的存在，使得这些测量数据往往无法满足物料和能量的平衡。因此，在利用生产数据对企业的生产和经营做出决策之前，对数据进行显著误差检测和数据协调已经成为许多企业信息化建设者的共识。过程数据中的随机误差是由各种随机因素，如仪表误差、信号转换的影响产生的，具有不可避免，满足随机分布的特点。而显著误差是由于仪表故障，操作不稳定或过程泄漏等引起的，显著误差的出现频率比随机误差要小的多，但是误差的偏差范围则要大得多。

虽然现代计算机和数据库技术的使用大大便利了过程数据的采集和处理，然而由于受到企业经济条件、仪表技术或地理位置的影响，不是所有的变量都可测，这就导致了部分数据的缺失。数据的缺失和不可避免的误差会使企业的流程控制，在线优化和经济指标考核受到不同程度的影响，而随着信息技术的发展，如何处理好数据已经成为一个不能回避的问题，显著误差检测和数据协调技术正是为了解决这一问题而产生的。

在现代化工企业中，以一个班次(8小时)或一天为周期的静态数据校正已经得到了广泛的应用。有着紧密联系的显著误差校正和数据协调技术也各自有了很大的发展，如广泛采用的数据协调投影矩阵法和零度矩阵法，以及显著误差的测量数据检测法，节点检测法和主元分析法等，然而显著误差的检测无法避免的存在漏判和误判的情况，那么如何利用历史数据提高对显著误差的检出率，对无法检测的显著误差提供人工干预同时提高数据协调的计算效率成为了一个有挑战性的命题。

发明内容

本发明的目的是提供一种校正测量数据显著误差与随机误差的方法，以实现在测量数据含有测量误差和显著误差情况下利用仪表运行历史数据和独立变量改善显著误差检出率同时改善数据协调过程计算效率。

由于显著误差的产生跟仪表的故障是紧密联系在一起的，那么每个仪表的可靠性都不同，而以往的显著误差检测方法都没有将仪表的历史运行数据作为判定仪表可靠性的方法。同时一般的显著误差和数据校正都是同时进行的，给出的结果往往通过了大量计算而且由于测量网络的结构问题将会导致有些显著误差是无法被测出的，正是基于这些问题，我们提出了将仪表的历史运行数据作为判定仪表可靠性的基础，改善显著误差的检出率，用共用关联矩阵的方式改善数据协调的计算效率，同时将显著误差以候选集的方式给出，得到测量数据的校正值

本发明的校正测量数据显著误差与随机误差的方法，其特征包括以下步骤：

1)从数据库中得到仪表历史运行数据，根据其历史运行状况，生成所有测量仪表的预期显著误差发生概率：

P_{i} (t) = 1 - \frac{Γ (l_{i} + m_{i}) Γ (m_{i} + τ_{i} (t))}{Γ (l_{i}) Γ (l_{i} + m_{i} + τ_{i} (t))}, i = 1,2, \cdot \cdot \cdot \cdot, n - - - (1)

其中l_i表示仪表S_i以前出现错误的次数，m_i表示仪表S_i正常工作的时间，τ_i(t))表示距上次检查仪表S_i的时间，Γ(·)表示Γ-分布；

2)设1-P_i(t)是预期无显著误差出现概率，定义预期无显著误差出现概率为仪表的可靠性，利用可靠性对所有测量点的值进行加权，同时将所有未测变量的权值赋为0；

3)利用Kruskal法对测量网络进行最小生成树计算，将所有的测量变量分为生成树的弦和生成树的枝两类，定义弦为独立变量，枝为非独立变量，同时获得测量变量与独立变量之间的关系矩阵：

4)根据P×CM计算得出测量变量的估计值，CM为独立变量的测量值向量，将每个非独立变量的估计值与其测量值进行比较，如果绝对误差超过根据正态分布概率选定的标准值，则将该非独立变量放入显著误差候选集中；

5)如果与某个独立变量相关的所有非独立变量都在显著误差候选集中，那么计算相关的非独立变量的综合可靠性

Rbr = 1 - \underset{i &Element; B}{Π} P_{i} (t),

其中B表示相关的非独立变量集合，若Rbr大于该独立变量的可靠性，则将该独立变量的可靠性降为0.1，而将所有不在候选集中的非独立变量的可靠性提高到1，然后回到步骤3)进行循环计算，如果Rbr小于该独立变量的可靠性或候选集中不包括与任意一独立变量相关的所有非独立变量，那么进行下一步；

6)用变量的估计值替换显著误差候选集中变量的测量值，剔除显著误差，然后根据

P^{T} QPM = P^{T} Q \tilde{F}

计算校正值，剔除测量数据中的随机误差，其中Q是测量误差的方差一协方差矩阵，M是独立变量的测量值，

即代表所要计算的校正值。

本发明的有益效果：

1)本发明采用仪表历史运行数据和贝叶斯法则来判定仪表的可靠性，将可靠性引入显著误差检测中，在改善显著误差的计算效率的同时有效的改善显著误差检出率，减少漏判和误判的情况。

2)本发明采用共用独立变量的方法来减少显著误差和数据校正中计算变量的个数，使数据校正步骤的计算效率得到提高。

3)本发明将显著误差检测和随机误差的消除分两步骤进行，在紧密联系两者的同时，能降低显著误差对校正结果的负面影响。

本发明方法可广泛用于石化，矿业等流程工业，改善测量数据的精确性，帮助企业做出更优的经营决策。

附图说明

图1是本发明的校正测量数据显著误差与随机误差的方法流程图；

图2是换热网络流程示意图；

图3是用于说明本发明方法的效率和效果的一个蒸汽系统流程图

具体实施方式

图1所示是本发明的校正测量数据显著误差与随机误差的方法流程图。

该方法过程如下：

根据工厂实际可知，除了无法避免的随机误差外，显著误差将会对测量数据的真实性造成很大影响。仪表的故障是显著误差产生的主要原因，每一个仪表的故障，都会使一段时期的测量数据形成很大的偏差，而这些仪表的故障都会和仪表的检修记录一起存放在企业的历史数据库中，我们有必要利用这些信息提高当前的显著误差检测的效率和效果。利用贝叶斯法来进行显著误差检测是由Tamhane，Jordache和Mah在1988年提出的，他们基于贝叶斯法则推导出显著误差的出现概率：

P_{i} (t) = 1 - \frac{Γ (l_{i} + m_{i}) Γ (m_{i} + τ_{i} (t))}{Γ (l_{i}) Γ (l_{i} + m_{i} + τ_{i} (t))}, i = 1,2, . . . ., n - - - (1)

其中l_i表示仪表S_i以前出现错误的次数，m_i表示仪表S_i正常工作的时间，τ_i(t)表示距上次检查仪表S_i的时间，Γ(·)表示Γ-分布。

由于P_i(t)表示的是仪表出现故障的概率，那么

R_{i} (t) = 1 - P_{i} (t) = \frac{Γ (l_{i} + m_{i}) Γ (m_{i} + τ_{i} (t))}{Γ (l_{i}) Γ (l_{i} + m_{i} + τ_{i} (t))}, i = 1,2, . . ., n - - - (2)

即表示仪表正常工作的概率，我们将之定义为仪表的可靠性。而仪表的可靠性将会在显著误差检测的过程中被用来作为基准值的选择标准。

由于仪表的可靠性不同，那么对某些可靠性比较高的仪表，在先期可以假设它们没有产生故障，以它们的测量值作为检验其他测量值是否含有显著误差的基准，本发明采用Kruskal法产生最小生成树的方法来选择作为基准的一批高可靠性仪表。

系统的流程图加上用于代表输入输出的环境节点可以形成一个连通图，生成树是连通图的一个子图，它的特点是本身不包括任何回路，而添加任意不相邻的点之间的连线就能构成一个回路。定义生成树上的边为枝，不在生成树上的边为弦，那最小生成树就是枝的权值和最小的那个生成树。由最小生成树的定义可知，枝的权值和最小，那就意味着弦的权值和最大，由于权值被定义为测量点的可靠性，那么最小生成树的弦就是可靠性较高的测量点，这些测量点就是独立变量。

本发明利用Kruskal法这个效率较高的连通图最小生成树算法来确定独立变量，假设连通图有m个节点和n条边，那么这一方法的步骤如下：

1)若连通图的边数n＝m-1，则连通图即为所求的最小生成树，否则，一定有n＞m-1。

2)将网络的n条边按权值自小到大顺序排列。

3)将连通图中的边都去掉，只留下m个孤立顶点作为初始的最小生成树，再按边的排放顺序逐个考察，若与当前边集中的边不构成回路，便将它加入到边集中，直至边集中边数满(m-1)。

边集中的边为最小生成树的枝，而连通图的不属于边集的边即为最小生成树的弦。

当独立变量被确定下来，本发明采用基本割集的概念来计算独立变量和非独立变量之间的关系，即确定关联矩阵P。连通图的割集定义为构成该连通图的支路的集合，若从连通图中移去某一条(或某一组)边，其剩余子图将成为两个孤立的连通网络，则移去的边的集合称为该网络的一个割集。一个生成树的基本割集则表示只含有一条枝的割集，由于基本割集只含有一条枝，那么这条枝(测量变量)就能被基本割集中的其他弦(独立变量)所表示，这样P矩阵就能表示成如下形式：

同时可以得到于每个独立变量相关的非独立变量个数向量Re，定义独立变量的测量值为列向量CM，那么所有测量值的估计值向量E就能由下式得出：

E＝P×CM (3)

从中可以得到所有枝的估计值向量Br_E，根据测量值的随机误差满足于正态分布的特性，定义偏差限为

St = λ \sqrt{| P | \times {(Ch_De)}^{2} + {(Br_De)}^{2}} - - - (4)

其中Ch_De和Br_De分别为独立变量和非独立变量测量仪表的标准方差，而λ由用户根据正态分布的概率自行选取。

计算非独立变量估计值Br_E与测量值Br_M的绝对差值，如果某一非独立变量测量值与估计值的绝对差值大于偏差限，并且该独立变量不在显著误差候选集中，那么将该非独立变量放入显著误差候选集，同时在Re中与该非独立变量相关的独立变量的值减去1，直到检查完所有估计值。

遍历Re中的值，如果有值为0，例独立变量x₁仅与非独立变量x₂，x₃相关而x₂，x₃都在显著误差候选集中，那么Re(1)将为0，计算相关的非独立变量综合可靠性Rbr₁＝1-P₂(t)×P₃(t)，如果Rbr₁大于1-P₁(t)，那么将所有不在候选集中的非独立变量的可靠性提高到1而将x₁的可靠性降为0.1(为了将其于未测变量区分开)，然后返回计算独立变量步骤进行计算，反之用变量的估计值替换显著误差候选集中变量的测量值，剔除显著误差，然后根据：

P^{T} QPM = P^{T} Q \tilde{F} - - - (5)

计算校正值，其中Q是测量误差的方差-协方差矩阵，M是独立变量的测量值，

即代表所要计算的协调值。

实施例1

以图2所示的某一换热网络为例，共有分流器SPL、热交换器HX、混合器MIX和阀门VAL四个装置和位于装置输入、输出端的6个测量点。表1列出了该网络测量点的真实值，测量值，标准方差和其可靠性。

表1

测量点编号	真实值	1#测量值	2#测量值	标准方差	可靠性
测量点编号	真实值	1#测量值	2#测量值	标准方差	可靠性	F₁	100	160.91*	100.91	4.2	0.8
F₂	64	44.45*	64.45	2.8	0.8	F₁	100	160.91*	100.91	4.2	0.8
F₂	64	44.45*	64.45	2.8	0.8	F₃	36	34.65	84.65*	1.75	0.9
F₄	64	64.25	24.20*	2.8	0.9	F₃	36	34.65	84.65*	1.75	0.9
F₄	64	64.25	24.20*	2.8	0.9	F₅	36	36.44	36.44	1.75	0.8
F₆	100	98.88	98.88	4.2	0.8	F₅	36	36.44	36.44	1.75	0.8

注：*--测量数据含有显著误差

在1#测量值中，因为测量点F₃和F₄的可靠性比其它的测量点高，他们被选为独立变量，则计算P矩阵为：

{[\begin{matrix} 1 & 1 & 0 & 1 & 0 & 1 \\ 1 & 0 & 1 & 0 & 1 & 1 \end{matrix}]}^{T}

P×CM＝[99.89，65.24，34.65，65.24，34.65，99.89]，由于F₁和F₂含有显著误差，F₁和F₂与它们估计值的绝对差分别为62.02和20.79，大于根据方差确定的标准值，所以F₁和F₂的显著误差将会在第一轮检测中被检测出来。

在2#测量值中，F₁，F₃中含有显著误差，第一轮关联矩阵和独立变量的选择将会相同。但由于F₃含有显著误差，那么与F₃相关的F₁，F₅，F₆都会被加入显著误差候选集。但是由于F₁，F₅，F₆的综合可靠性是1-(1-0.8)³＝0.992大于F³的可靠性，那么F₃将替代F₁，F₅，F₆进入显著误差候选集，同时F₃的可靠性被降为0.1，由于F₂和F₄被确认为不含显著误差，它们的可靠性将被提高到1。因此F₂和F₅将会在下一循环被选独立变量，同时P矩阵变为：

P = {[\begin{matrix} 1 & 0 & 1 & 0 & 1 & 1 \\ 1 & 1 & 0 & 1 & 0 & 1 \end{matrix}]}^{T}

那么F₁和F₃的显著误差将会在第二轮中被检测出来。

剔除显著误差后，根据公式

P^{T} QPM = P^{T} Q \tilde{F}

得到的校正结果如表2所示

表2

测量点编号	真实值	1#测量值	1#校正值	2#测量值	2#校正值
测量点编号	真实值	1#测量值	1#校正值	2#测量值	2#校正值	F₁	100	160.91*	98.9904	100.91	99.8939
F₂	64	44.45*	64.0240	64.45	63.4475	F₁	100	160.91*	98.9904	100.91	99.8939
F₂	64	44.45*	64.0240	64.45	63.4475	F₃	36	34.65	34.9664	84.65*	36.4464
F₄	64	64.25	64.0240	24.20*	63.4475	F₃	36	34.65	34.9664	84.65*	36.4464
F₄	64	64.25	64.0240	24.20*	63.4475	F₅	36	36.44	34.9664	36.44	36.4464
F₆	100	98.88	98.9904	98.88	99.8939	F₅	36	36.44	34.9664	36.44	36.4464

注：*--测量数据含有显著误差

实施例2

以附图3所示的含有11个节点和28条流股的蒸汽系统作为实例对本发明进行检验，引进国际上被广泛采用的标准：

对显著误差检测的效果进行了评价。表3给出了应用的效果及与常用的MIMT显著误差检测方法的比较。

表3.显著误差检测效果

仿真次数	显著误差数	虚警个数	OP		AVTI
仿真次数	显著误差数	虚警个数	OP		AVTI	100	425	143	0.685		1.24
一次校正所需CPU时间								143	0.685		1.24
一次校正所需CPU时间				0.036s
显著误差数	仿真次数	显著误差检出率		0.036s				显著误差检出率
显著误差数	仿真次数	显著误差检出率		12345	2020202020	8087.566.761.2552		显著误差检出率		7070635452

由表3可以看出，该方法的显著误差检出率比MIMT方法有了比较高的提高，共用关联矩阵的方法使得数据校正同时受益，提高了数据校正的效率。

Claims

1、一种校正测量数据显著误差与随机误差的方法，其特征包括以下步骤：

\begin{matrix} P_{i} (t) = 1 - \frac{Γ (l_{i} + m_{i}) Γ (m_{i} + τ_{i} (t))}{Γ (l_{i}) Γ (l_{i} + m_{i} + τ_{i} (t))} & i = 1,2, \cdot \cdot \cdot \cdot, n - - - (1) \end{matrix}

其中l_i表示仪表S_i以前出现错误的次数，m_i表示仪表S_i正常工作的时间，τ_i(t)表示距上次检查仪表S_i的时间，Γ(·)表示Γ-分布；

Rbr = 1 - \underset{i &Element; B}{Π} P_{i} (t)

，其中B表示相关的非独立变量集合，若Rbr大于该独立变量的可靠性，则将该独立变量的可靠性降为0.1，而将所有不在候选集中的非独立变量的可靠性提高到1，然后回到步骤3)进行循环计算，如果Rbr小于该独立变量的可靠性或候选集中不包括与任意一独立变量相关的所有非独立变量，那么进行下一步；

P^{T} QPM = P^{T} Q \tilde{F}

计算校正值，剔除测量数据中的随机误差，其中Q是测量误差的方差．协方差矩阵，M是独立变量的测量值，

即代表所要计算的校正值。