CN101620619B

CN101620619B - 一种基于聚类方法的测量数据粗大误差处理系统及处理方法

Info

Publication number: CN101620619B
Application number: CN2009100903731A
Authority: CN
Inventors: 路辉; 郎荣玲; 路倩
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2009-08-07
Filing date: 2009-08-07
Publication date: 2012-06-06
Anticipated expiration: 2029-08-07
Also published as: CN101620619A

Abstract

本发明公开了一种基于聚类方法的测量数据粗大误差处理系统及处理方法，该系统包括测量数据获取模块、测量数据库模块、特征提取模块、特征库模块、聚类方法选择模块、聚类结果模块、规则提取模块、规则库模块和报告生成模块。本发明方法首先从采集系统获取数据；然后选择剔除粗大误差的模式，利用已有规则或采用聚类方法直接处理；最后显示处理结果。本发明分析了目前各种测量数据的特点，解决了传统统计方法的不足，在无需知道数据集分布的情况下对数据进行处理，同时提供对多维测量数据的处理过程，对大规模数据同样适用，不仅使得可检测的范围扩大，同时提高了粗大误差处理的效率，同时该系统具有可扩展性。

Description

一种基于聚类方法的测量数据粗大误差处理系统及处理方法

技术领域

本发明属于测量数据分析和处理领域，具体涉及一种基于聚类方法的测量数据粗大误差处理系统及方法。

背景技术

目前自动测试系统和各种形式的数据采集系统在各行各业得到了广泛的应用，随着计算机技术、微电子技术、通信技术以及信息技术的发展，各种智能系统越来越广泛地应用于测试系统，传统的电子测量仪器将逐渐被智能电子测量仪器所代替。智能电子测量系统中一般是应用微处理器(Microprocessing Unit，简称为MPU)通过模数(Alalog/Digital，简称为A/D)转换器对被测信号进行多次重复采样，然后对采样数据进行处理，如数字滤波、傅立叶变换、频谱分析。为了获得比较准确的测量结果，必须保证采样数据的准确性。但实际测量过程中，不可避免地会受到测量工具、方法、环境因素的影响从而产生测量误差。寻找测量误差的来源，分析和研究其规律，对减少误差，提高测量准确度是十分重要的。

粗大误差是指由于测量人员的主观原因或客观外界条件的原因而引起的歪曲测量结果的数据。为了通过测量数据而获得被测量真值的正确估计，在对测量数据进行数据处理前，必须剔除其中含有粗大误差的数据。

目前，判别粗大误差的方法主要是基于统计学原理的方法，常用粗大误差的判定准则有：莱特准则、肖维勒准则、格罗布斯准则、罗曼诺夫斯基准则，这些方法在实际工程和理论分析过程中占据了主要地位。但对于实际测量数据来说，往往不能保证其满足某种概率分布，若此时仍采用统计方法来判别其是否含有粗大误差，则不一定会获得可靠的判别结果。针对以上情况，相继出现了采用信息熵判别法和灰色判别法的非统计方法来对测量数据中的粗大误差进行判别。

另外，测量系统获得的数据量是非常丰富的，如果采用上述的各种方法进行计算的话，是一种不可取的方法，同时目前的智能仪器和数据采集系统往往同时获取多个参数的信息，需要充分考虑各个参数的特性，来进行粗大误差数据的剔除工作。

通过上述分析，可以发现传统的剔除粗大误差的方法一般都是对于单维、小数据量的处理过程，即对单个参数单独进行测量、单独进行分析，忽略了多个参数之间的耦合关系，即对于多维数据具有一定的局限性，同时对于每次测量过程都需要进行计算、分析，没有形成相应的误差判定规则，大多数依靠测量人员的人工分析，处理过程时间复杂度很高，这与目前测量仪器的发展趋势和技术水平严格不符，目前的仪器一般都属于智能仪器的范畴，与计算机间具有通讯接口，因此可以直接将测量数据输入计算机，由相应的误差分析系统进行处理。

聚类是将物理或抽象对象的集合分成相似的对象类的过程，也是形成若干个簇的过程，簇是数据对象的集合，这些对象与同一个簇中的对象彼此相似，而与其它簇中的对象相异。聚类可以在没有任何先验知识的前提下，得到数据间的类别关系，同时与其它方法相比该方法适用于多维数据和海量数据，所以又把聚类称为数据分割，因为它根据数据的相似性把大型数据集合划分为组。聚类方法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法，其中k-means即k均值方法是一种最基本的方法。目前聚类已经广泛应用于许多应用领域，包括市场研究、模式识别和图像处理，根据聚类方法的特性，可以将其应用在误差分析方面。

发明内容

本发明的目的是提出一种基于聚类方法的粗大误差处理系统，系统可以融合目前各种数据采集和测试系统的特点，同时不需考虑数据的分布情况，因此相对于传统的粗大误差处理方法具有更广泛的意义。本发明的系统既适用于传统的采集系统处理过程，也就是对同一参数进行多次测量后进行人工分析的过程，更适用于目前的广义采集系统的处理过程，即对多个测量参数进行多次测量的过程；同时根据处理结果可以采用自学习的机制，获取相应的粗大误差判定规则。

所述的基于聚类方法的粗大误差处理系统包括：测量数据获取模块、测量数据库模块、特征提取模块、特征库模块、聚类方法选择模块、聚类结果模块、规则提取模块、规则库模块和报告生成模块，其中测量数据获取模块用于从采集系统获取相应的测量数据，并将数据提供给测量数据库模块。

系统包括两种工作模式。一种是利用聚类方法直接进行粗大误差处理，首先特征提取模块根据测量数据的维数采用降维处理，获取最能够体现粗大误差特性的参数作为聚类方法的输入特征；另外根据测量数据源特性的不同，聚类方法选择模块提供了不同的处理方法，用户可以进行选择，选择了特定的聚类方法后，得到相应的类别结果，此时可以直接将没有归属的数据点划归为含有粗大误差的数据，直接剔除。同时类别结果作为规则提取模块的输入参数，利用规则自动获取方法得到粗大误差判定规则，并将规则存入规则库模块，报告生成模块将具体过程形成检测报告并输出，并在人机界面上进行显示。

另外用户可以直接根据已有的规则进行粗大误差的处理，测量数据获取模块获取当前的测量数据，同时系统从规则库模块中提取相应的粗大误差判定规则，根据相应的判定规则剔除含有粗大误差的数据，同时报告生成模块将具体过程形成检测报告并输出，并在人机界面上进行显示。

本发明的优点在于：

(1)不但适用于单维测量数据的粗大误差处理，在多维数据处理方面同样具有优势；

(2)进行误差分析工作时，无需知道测量数据的统计分布；

(3)对于大数据量的测量数据集同样具有快速的处理能力；

(4)可以得到粗大误差的判别规则，便于用户处理；

(5)利用聚类方法研制相应的粗大误差处理系统，便于从采集系统获取数据进行分析，无需人工分析和计算。

附图说明

图1是本发明基于聚类方法的测量数据粗大误差处理系统结构图；

图2是本发明基于聚类方法进行粗大误差判别的处理方法流程图；

图3是本发明利用已有规则直接处理的流程图；

图4是本发明直接利用聚类方法进行处理的流程图。

图中： 1.测量数据获取模块 2.测量数据库模块 3.特征提取模块

4.特征库模块 5.聚类方法选择模块 6.聚类结果模块 7.规则提取模块

8.规则库模块 9.报告生成模块

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明是一种基于聚类方法的测量数据粗大误差处理系统，该系统的结构如图1所示，包括测量数据获取模块1、测量数据库模块2、特征提取模块3、特征库模块4、聚类方法选择模块5、聚类结果模块6、规则提取模块7、规则库模块8和报告生成模块9。其中测量数据获取模块1与测量数据库模块2连接，并向测量数据库模块2发送数据；测量数据库模块2分别与特征提取模块3和规则库模块8连接，并分别向特征提取模块3和规则库模块8发送数据；特征提取模块3分别与特征库模块4和聚类方法选择模块5连接，并分别向特征库模块4和聚类方法选择模块5发送数据；聚类方法选择模块5与聚类结果模块6连接，并向聚类结果模块6发送数据；聚类结果模块6分别与规则提取模块7和报告生成模块9连接，并分别向规则提取模块7和报告生成模块9发送数据；规则提取模块7与规则库模块8连接，并向规则库模块8发送数据；规则库模块8与报告生成模块9连接，并向报告生成模块9发送数据。

其中测量数据获取模块1是本发明的粗大误差处理系统与目前各种采集系统的接口，采集系统可以是目前的各种智能仪器系统和参数采集系统，例如环境监测系统、飞行参数采集系统。测量数据获取模块1可以同时获取多种类型的测量数据，并将测量数据发送给测量数据库模块2。

测量数据库模块2将从测量数据获取模块1得到的数据按照设计好的数据库格式存储到相应的数据库表中，数据可以是单维的数据，也可以是多维的数据，它们可以采用统一的数据库模块结构。测量数据包括测量数据的基本信息和测量数据的具体数值信息，测量数据的基本信息包括采集系统的名称、采集参数的名称和标号，测量数据的具体数据信息包括测量的次数和相应的测量结果，其通过标号与采集参数关联。

特征提取模块3通过相应简化属性的处理方法，在能够保留住数据的最重要特性的同时，将测量的属性进行简化处理，进而减少运算过程。特征提取模块3将处理后的属性发送到特征库模块4中。特征提取模块3采用主成分分析方法(Principal Component Analysis，简称PCA)，根据特征值的大小按照从大到小的次序为特征向量排序，可以得到一个由具有数据协方差最大值的第一个特征向量所表示的正交基。这样，就能找到这组数据按照能量最大化的排列方式所指示的方向。主成份分析提供了一个方便的方法使我们可以在丢失尽可能少的信息的同时更方便地解决问题：一方面，通过对数据进行降维来简化数据的处理，另一方面，又可以尽可能多地保留原始信息。

主成分分析方法的具体过程包括以下几个步骤：

将从测量数据库模块2获取的数据按矩阵形式存储，称为原始数据。即输入原始数据x_n×p，其中n表示采集参数的个数，是正整数；p表示数据的维数，即测量次数，是正整数。即假定有n个采集参数，每个参数共有p个变量，构成一个n×p阶的采集数据矩阵X：

X = [\begin{matrix} x_{11} & x_{12} & \cdot \cdot \cdot & x_{1 p} \\ x_{21} & x_{22} & \cdot \cdot \cdot & x_{2 p} \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ x_{n 1} & x_{n 2} & \cdot \cdot \cdot & x_{np} \end{matrix}]

1)将原始数据进行标准化处理

标准化处理的目的是给所有的变量相等的权重，一般是将原来的度量转换为无单位变量。对于实际应用来说，用户可以选择是否进行标准化的处理。

2)计算相关系数矩阵R

相关系数是变量之间相关程度的指标，相关系数矩阵描述了测量数据与其它测量数据之间的相关程度，这一步是主成分分析方法中一个重要的环节。

3)根据相关系数矩阵R，计算其特征值与特征向量λ_k，k＝1，2...p，并计算贡献率

\frac{λ_{k}}{Σ_{i = 1}^{p} λ_{i}}, (k = 1,2, \cdot \cdot \cdot, p)

4)选择主成分

一般取贡献率达85％-95％的特征值λ₁，λ₂，…，λ_m所对应的第一、第二、…、第m个主成分作为最终参与分析的参数，其中m≤p。

5)对所选主成分进行存储

特征库模块4根据特征提取模块3处理的结果将相应的主成分信息进行存储，具体包括采集系统的名称、主成分的名称和数据。

聚类方法选择模块5提供不同种类的聚类方法，用户可以根据具体应用进行选择，同时也可以利用不同的方法分别进行处理，以寻求最适合的解决方案，进而得到聚类结果模块6。下面选取经典的聚类方法k-means方法描述具体过程：

1)选择k个初始质心，其中k是所期望的簇的个数，k≤n，n是数据集的个数；

2)将每个点指派到最近的质心，指派到同一个质心的点集为一个簇；

3)根据指派到簇的点，更新簇的质心，重新指派和更新步骤，直到簇不再发生变化，或者直到质心不发生变化；

4)对不属于任何一个簇的数据点进行标记。

簇是指数据对象的集合，同一个簇中的对象彼此相似，而与其它簇中的对象相异。zk-means方法是一种最小平方误差的方法，当结果是紧凑的，并且相互之间明显分离时，其效果是最好的。对于均值没有具体意义的应用，k-means方法不适合解决这类问题。因此系统可以提供多种方法，选择不同的方法具体的处理过程会有所不同，同时不同的方法对数据的敏感性会有所不同，这一部分可以提供给用户选择，由用户进行相应的分析和判断。

规则提取模块7根据相应的聚类结果，对数据进行类别特征提取，进而形成规则，以供对来源于相同采集系统的数据直接进行分析，并将相应的规则存入规则库模块8中，规则库模块8的信息主要包括以下几方面的内容：规则所属的采集系统、规则所对应的簇的类别、规则前提描述、规则结论描述以及每条规则所对应的置信度。

规则提取模块7还可以通过领域专家提供的知识进行获取，并将相应的专家经验形成规则存入到规则库模块8中。每一条规则都有相应的置信度，可以根据测量数据粗大误差处理的结果与规则匹配的程度对置信度进行修改，匹配度高的规则，其置信度可以提高。

报告生成模块9将粗大误差处理后的结果以用户界面显示的方式显示给用户，为用户进行粗大误差处理提供借鉴。

该处理方法具体的实施流程如图2所示。

步骤1：从采集系统获取数据

根据不同采集系统接口的特性，测量数据获取模块1可以通过相应的接口获取相应的测量数据，并将相应的测量数据发送到测量数据库模块2中。

步骤2：选择剔除粗大误差的模式，利用已有规则或采用聚类方法直接处理

获取相应的测量数据后，用户可以选择利用已有规则直接进行粗大误差的处理，也可以选择利用聚类方法直接进行处理。

基于聚类方法的测量数据粗大误差处理系统可以实现自学习的过程，在进行数据处理的过程中根据来自不同采集系统数据的处理结果，可以生成判定规则，为其它测量数据的处理提供快速处理的依据，而且判定规则本身也是经过不断训练和学习得到的。

如图3所示，利用已有规则直接处理的具体流程包括以下两个步骤：

首先，遍历规则库模块，进行规则匹配；

根据当前测量数据的特性，在规则库模块8中进行相应判定规则的搜索，如果找到了相应的已有规则，将已有规则的前提与测量数据进行比较，若满足已有规则的前提，那么该测量数据与已有规则匹配，可以认为该测量数据含有粗大误差；若没有满足已有规则的前提，则该测量数据是正常数据；如果没有找到相应的已有规则，说明目前的规则库模块8中没有与该测量数据相匹配的规则，系统自动转入利用聚类方法直接进行处理的过程。

然后，提高规则置信度；

在规则库模块8中进行相应判定规则的搜索，如果找到了相应的已有规则，将已有规则的前提与测量数据进行比较，若满足已有规则的前提，那么该测量数据与已有规则匹配，此时用户可以根据判别的准确性提高已有规则的置信度。

如果用户没有选择利用已有规则进行粗大误差的判断或者在规则匹配的过程中没有匹配到相应的已有规则，则系统进入采用聚类方法直接处理的过程。

如图4所示，直接利用聚类方法进行处理的具体过程包括以下五个步骤：

首先，特征提取状态准备；

系统首先判断测量数据的维数，如果是多维数据，那么需要判断是否需要进行特征提取，若需要，利用主成分分析方法进行属性约简，特征提取模块3根据测量数据的维数采用降维处理，获取最能够体现粗大误差特性的参数作为聚类方法的输入特征，得到最简单的特征描述，否则直接进行下一步。如果是单维数据，则直接进入下一步；

其次，聚类方法选择；

用户根据测量数据的特点选择相应的聚类方法，如果没有选择，则系统自动利用k-means方法进行处理；也可以同时采用多种聚类方法对数据进行处理，并进行对比分析。

然后，获取簇和簇特性；

根据聚类方法的结果得到相应的簇特性，对于含有单一测量参数的测量数据来说，一般情况应该得到一个标准簇，这个标准簇内的对象彼此相似，体现了相似性数据的集合。对于含有多维测量参数的测量数据来说，可以得到多个簇，每个簇内的数据具有相似性。根据不同簇的特性，可以总结相应的特性和类别标号，这部分工作可以由用户标识，也可由系统自动标识。

然后，粗大误差的判定和处理；

在聚类的过程中，可以得到不同的簇，即不同的数据集合，集合中的数据具有相似性；同时可以得到不属于任何簇的数据，该数据被认为是含有粗大误差的数据，按照粗大误差的处理原则，应该从数据集中剔除。如果此次处理的数据不含有任何粗大误差，那么所有的数据都被分配到簇中，即都被视为正常数据。

最后，规则提取，存入规则库模块；

根据簇的特性提取相应的数据特征，形成粗大误差的判定规则，并存入到规则库模块8中，便于对来源于相同采集系统的测量数据进行处理。

步骤3：处理结果显示

将系统的处理结果以报告和图形界面的方式显示给用户，便于用户处理。

Claims

1.一种基于聚类方法的测量数据粗大误差处理系统，其特征在于：该系统包括测量数据获取模块(1)、测量数据库模块(2)、特征提取模块(3)、特征库模块(4)、聚类方法选择模块(5)、聚类结果模块(6)、规则提取模块(7)、规则库模块(8)和报告生成模块(9)；测量数据获取模块(1)与测量数据库模块(2)连接，并向测量数据库模块(2)发送数据；测量数据库模块(2)分别与特征提取模块(3)和规则库模块(8)连接，并分别向特征提取模块(3)和规则库模块(8)发送数据；特征提取模块(3)分别与特征库模块(4)和聚类方法选择模块(5)连接，并分别向特征库模块(4)和聚类方法选择模块(5)发送数据；聚类方法选择模块(5)与聚类结果模块(6)连接，并向聚类结果模块(6)发送数据；聚类结果模块(6)分别与规则提取模块(7)和报告生成模块(9)连接，并分别向规则提取模块(7)和报告生成模块(9)发送数据；规则提取模块(7)与规则库模块(8)连接，并向规则库模块(8)发送数据；规则库模块(8)与报告生成模块(9)连接，并向报告生成模块(9)发送数据；

其中测量数据获取模块(1)是与目前各种采集系统的接口，采集系统包括目前的各种智能仪器系统和参数采集系统，测量数据获取模块(1)能够同时获取多种类型的测量数据，并将测量数据发送给测量数据库模块(2)；

测量数据库模块(2)将从测量数据获取模块(1)得到的数据按照设计好的数据库格式存储到相应的数据库表中，数据是单维的数据或多维的数据，数据采用统一的数据库模块结构；测量数据包括测量数据的基本信息和测量数据的具体数值信息，测量数据的基本信息包括采集系统的名称、采集参数的名称和标号，测量数据的具体数据信息包括测量的次数和相应的测量结果，其通过标号与采集参数关联；

特征提取模块(3)通过相应简化属性的处理方法，在能够保留住数据的最重要特性的同时，将测量的属性进行简化处理，进而减少运算过程；特征提取模块(3)将处理后的属性发送到特征库模块(4)中；特征提取模块(3)采用主成分分析方法，根据特征值的大小按照从大到小的次序为特征向量排序，得到一个由具有数据协方差最大值的第一个特征向量所表示的正交基；找到这组数据按照能量最大化的排列方式所指示的方向；

聚类方法选择模块(5)提供不同种类的聚类方法，用户根据具体应用进行选择，进而得到聚类结果，即得到数据的簇特性，并将聚类结果发送至聚类结果模块(6)；

规则提取模块(7)根据相应的聚类结果，对数据进行类别特征提取，形成规则，以供对来源于相同采集系统的数据直接进行分析，并将相应的规则存入规则库模块(8)中，规则库模块(8)的信息主要包括以下几方面的内容：规则所属的采集系统、规则所对应的簇的类别、规则前提描述、规则结论描述以及每条规则所对应的置信度；规则提取模块(7)还通过领域专家提供的知识进行获取，并将相应的专家经验形成规则存入到规则库模块(8)中；每一条规则都有相应的置信度，根据测量数据粗大误差处理的结果与规则匹配的程度对置信度进行修改，提高匹配度高的规则的置信度；

报告生成模块(9)将粗大误差处理后的结果以用户界面显示的方式显示给用户，为用户进行粗大误差处理提供借鉴。

2.一种应用权利要求1所述的基于聚类方法的测量数据粗大误差处理系统的处理方法，其特征在于：该方法包括如下步骤：

步骤1：从采集系统获取数据

根据不同采集系统接口的特性，测量数据获取模块(1)通过相应的接口获取相应的测量数据，并将相应的测量数据发送到测量数据库模块(2)中；

获取相应的测量数据后，用户选择利用已有规则直接进行粗大误差的处理，或选择利用聚类方法直接进行处理；

所述的利用已有规则直接处理的具体流程包括以下两个步骤：

首先，遍历规则库模块(8)，进行规则匹配；

根据当前测量数据的特性，在规则库模块(8)中进行相应判定规则的搜索，如果找到了相应的已有规则，将已有规则的前提与测量数据进行比较，若满足已有规则的前提，那么该测量数据与已有规则匹配，认为该测量数据含有粗大误差；若没有满足已有规则的前提，则该测量数据是正常数据；

如果没有找到相应的已有规则，说明目前的规则库模块(8)中没有与该测量数据相匹配的规则，系统自动转入利用聚类方法直接进行处理的过程；

然后，提高规则置信度；

在规则库模块(8)中进行相应判定规则的搜索，如果找到了相应的已有规则，将已有规则的前提与测量数据进行比较，若满足已有规则的前提，那么该测量数据与已有规则匹配，此时用户根据判别的准确性提高已有规则的置信度；

如果用户没有选择利用已有规则进行粗大误差的判断或者在规则匹配的过程中没有匹配到相应的已有规则，则系统进入采用聚类方法直接处理的过程；

所述的直接利用聚类方法进行处理的具体过程包括以下五个步骤：

首先，特征提取状态准备；

系统首先判断测量数据的维数，如果是多维数据，那么需要判断是否需要进行特征提取，若需要，利用主成分分析方法进行属性约简，特征提取模块(3)根据测量数据的维数采用降维处理，获取最能够体现粗大误差特性的参数作为聚类方法的输入特征，得到最简单的特征描述，同时将提取的主成分信息发送至特征库模块(4)中，否则直接进行下一步；如果是单维数据，则直接进入下一步；

其次，聚类方法选择；

用户根据测量数据的特点通过聚类方法选择模块(5)选择相应的聚类方法，如果没有选择，则系统的聚类方法选择模块(5)自动利用k-means方法进行处理；

然后，获取簇和簇特性；

根据聚类方法选择模块(5)提供的方法进行处理得到聚类结果，即得到相应的簇特性，对于含有单一测量参数的测量数据来说，一般情况应该得到一个标准簇，这个标准簇内的对象彼此相似，体现了相似性数据的集合；对于含有多维测量参数的测量数据来说，得到多个簇，每个簇内的数据具有相似性；根据不同簇的特性，总结相应的特性和类别标号，这部分工作由用户标识或由系统自动标识；

然后，粗大误差的判定和处理；

在聚类的过程中，能够得到不同的簇，即不同的数据集合，集合中的数据具有相似性；同时能够得到不属于任何簇的数据，该数据被认为是含有粗大误差的数据，按照粗大误差的处理原则，应该从数据集中剔除；如果此次处理的数据不含有任何粗大误差，那么所有的数据都被分配到簇中，即都被视为正常数据；

最后，规则提取，存入规则库模块；

规则提取模块(7)根据簇的特性提取相应的数据特征，形成粗大误差的判定规则，并存入到规则库模块(8)中；

基于聚类方法的测量数据粗大误差处理系统能够进行自学习，在进行数据处理的过程中根据来自不同采集系统数据的处理结果，生成判定规则，为其它测量数据的处理提供快速处理的依据，而且判定规则本身也是经过不断训练和学习得到的；

步骤3：处理结果显示

报告生成模块(9)将系统的处理结果以报告和图形界面的方式显示给用户，便于用户处理。