CN102945222B

CN102945222B - 一种基于灰色理论的乏信息测量数据粗大误差判别方法

Info

Publication number: CN102945222B
Application number: CN201210439870.XA
Authority: CN
Inventors: 王中宇; 王倩; 王岩庆; 李强
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-11-06
Filing date: 2012-11-06
Publication date: 2015-09-09
Anticipated expiration: 2032-11-06
Also published as: CN102945222A

Abstract

本发明提供一种基于灰色理论的乏信息测量数据粗大误差判别方法，该方法的步骤为：一、将采集到的乏信息测量数据序列进行预处理，按由小到大排序；二、利用灰色累加方法得到乏信息测量数据灰色包罗线；三、采用灰色判别法则判定测量数据是否含粗大误差；四、利用灰色GM(1，1)动态模型获取乏信息测量数据预测值；五、重复步骤二、三、四，直至测量数据中粗大误差全部被判别。本发明能实现概率分布未知，小样本量等乏信息特征的测量数据粗大误差的有效判别，测量数据中粗大误差的有效剔除，保证了测量结果的准确性。本方法合理简单，计算简便，大大提高了计算速度，在快速，在线测量方面具有很好的推广应用价值。

Description

一种基于灰色理论的乏信息测量数据粗大误差判别方法

技术领域

本发明属于计量测试领域，具体涉及一种基于灰色理论的乏信息测量数据粗大误差判别方法，该方法涉及到数据建模、数据处理、粗大误差剔除等方面，用于测量数据误差处理，适用于数据样本量小，分布不确定的粗大误差判别。

背景技术

在测量过程中，不可避免的存在误差。粗大误差又称粗差，指在同一测量条件下多次测量同一量值时，其中的最大值或最小值等个别数据明显偏离它所属样本的其他数据，超出在规定条件下预期的误差。含有粗大误差的测量值称为异常值，也称离群值和坏值。粗大误差产生的原因可能是人员操作、读数或记录时的过失，以及数据复制和计算处理是所出现的过失和错误，也可能是采样环境的变化的部分数据与原先样本的模型不符合造成的。在进行数据处理过程中，如果将正常数据当作异常值予以剔除，会减少有用的信息，会造成测量精度偏高的假象；反之，如果对混有异常值的数据未加剔除，必然造成测量数据结果与实际不符合。因此在测量过程中，一旦发现异常值就应该在记录中予以剔除，对测量数据中异常值的合理判断和处理，是获得正确测量结果的一个重要前提条件。

通常，异常值剔除多采用以下两类方法：第一类方法是采用统计方法，按一定的准则判别而剔除会歪曲测量结果的异常数据；第二类，则采用可避免或抑制异常值影响的测量结果及其不确定度的稳健估计。基于统计学理论的集中常用粗大误差统计判别准则主要包括奈尔(Nair)准则、格拉布斯(Grubbs)准则、3σ准则、Dixon准则。在实际的测量过程中，粗大误差的判别是非常重要和复杂的。例如，在一些破坏性实验中，不仅测量数据少，而且其概率分布通常是未知的。在这种情况下，用经典统计学的方法研究问题是相当困难的。针对这种小样本数据提出了新的解决方法，如王中宇等提出利用灰色累加方法确定一个包络区域，王广林在此基础上改进算法。柯宏发提出了基于GM(1,1)精度检验的粗大误差剔除方法。李登辉研究了基于测量信息论的小样本数据粗大误差剔除方法。吴维勇将小波理论应用到了数据粗大误差处理方面。

发明内容

本发明的目的在于：提供一种基于灰色理论的乏信息测量数据粗大误差判别方法，它针对测量数据样本量较少，数据分布不明确的特点，构建了一种描述少数据的模型，根据相应的判定法则，实现粗大误差的判别。

本发明采用的技术方案如下：一种基于灰色理论的乏信息测量数据粗大误差判别方法，其特征在于：该方法包括如下步骤：

步骤一、将采集到的乏信息测量数据序列进行预处理，按由小到大排序；

步骤二、利用灰色累加方法得到乏信息测量数据灰色包络线；

步骤三、采用灰色判别法则判定测量数据是否含粗大误差；

步骤四、利用灰色GM(1,1)动态模型获取乏信息测量数据预测值；

步骤五、重复步骤二、三、四，直至测量数据中粗大误差全部被判别。

其中，步骤二所述的灰色包络线的获取，具体实现过程如下：

首先将n个测量数据从小到大排序，其序列为：

x⁽⁰⁾＝{x⁽⁰⁾(1),x⁽⁰⁾(2),…,x⁽⁰⁾(n),…} (1)

对x⁽⁰⁾作累加生成，得到测得值累加数列x⁽¹⁾：

x^{(1)} (k) = Σ_{i = 1}^{k} x^{(0)} (i), (k = 1, 2, ..., n) - - - (2)

测得值累加曲线以两条曲线来包络，由于测量数据的中值最有可能是最大距离值Δmax,取测量次数的中值p作为下包络曲线的转折点；另外考虑测量数据有一定程度的变化，将最大距离值Δmax增加h倍，取常数h为3.75，其中：

下包络曲线方程为：

x_{m i n}^{(1)} (k) = \{\begin{matrix} \overset{&OverBar;}{x} k - h \frac{Δ_{m a x}}{p} k & 1 \leq k \leq p \\ \overset{&OverBar;}{x} k - h \frac{Δ_{m a x}}{n - p} (n - k) & p < k \leq n \end{matrix} - - - (4)

取通过坐标原点(0，0)和测量列累加终点(n，x⁽¹⁾(n))的直线为上包络曲线，参考直线方程为：

x_{m a x}^{(1)} (k) = \frac{1}{n} x^{(1)} (n) k = [\frac{1}{n} Σ_{i = 1}^{n} x^{(0)} (i)] k = \overset{&OverBar;}{x} k, (k = 1, 2, ..., n) - - - (5)

式中：为测量数据的均值。

其中，步骤三所述的灰色包络粗大误差判别准则，具体实现过程如下：

该测量数列如果都满足条件：

x_{m i n}^{(1)} (k) < x^{(1)} (k) < x_{m a x}^{(1)} (k), 1 \leq k \leq n - - - (6)

则认定测量数据中不含有粗大误差，反之则含有。

其中，步骤四所述的灰色GM(1,1)动态模型的建立，具体实现过程如下：

设升序排列后的数据序列为x⁽⁰⁾＝{x⁽⁰⁾(1),x⁽⁰⁾(2),…,x⁽⁰⁾(n),…}，以序列的前n项作为系统的零时刻序列，n为时刻序列长度，构建系统零时刻的灰色模型；零时刻数据序列为x₀ ⁽⁰⁾＝{x₀ ⁽⁰⁾(1),x₀ ⁽⁰⁾(2),…,x₀ ⁽⁰⁾(n)}，则其对应的一次累加生成序列为：

x₀ ⁽¹⁾＝{x₀ ⁽¹⁾(1),x₀ ⁽¹⁾(2),…,x₀ ⁽¹⁾(n)} (7)

式中，k＝1,2,…,n，其紧邻均值生成序列为：

z₀ ⁽¹⁾＝{z₀ ⁽¹⁾(2),z₀ ⁽¹⁾(3),…z₀ ⁽¹⁾(n)} (8)

式中，k＝2,3,…,n，零时刻灰色微分方程为：

x₀ ⁽⁰⁾(k)+a₀z₀ ⁽¹⁾(k)＝b₀ (9)

由式(9)可得，零时刻灰色微分方程的时间响应序列为：

{\hat{x}}_{0}^{(1)} (k) = ({x_{0}}^{(0)} (1) - \frac{b_{0}}{a_{0}}) e^{- a_{0} (k - 1)} + \frac{b_{0}}{a_{0}} - - - (10)

式中，k＝1,2,…,n-1；

其还原值序列为：

{\hat{x}}_{0}^{(0)} (k + 1) = {\hat{x}}_{0}^{(1)} (k + 1) - {\hat{x}}_{0}^{(1)} (k) - - - (11)

式中，k＝1,2,…,n-1；

随着时间的推移，原始序列中不断有新的测量数据获得，设第m时刻的数据序列为：

x_m ⁽⁰⁾＝{x_m ⁽⁰⁾(1),x_m ⁽⁰⁾(2),…,x_m ⁽⁰⁾(n)}＝{x⁽⁰⁾(m+1),x⁽⁰⁾(m+2)，…,x⁽⁰⁾(m+n)}

则有m时刻的时间响应序列为：

{\hat{x}}_{m}^{(1)} (k) = ({x_{m}}^{(0)} (1) - \frac{b_{m}}{a_{m}}) e^{- a_{m} (k - 1)} + \frac{b_{m}}{a_{m}} - - - (12)

式中，k＝1,2,…,n；

其还原值序列为：

{\hat{x}}_{m}^{(0)} (k + 1) = {\hat{x}}_{m}^{(1)} (k + 1) - {\hat{x}}_{m}^{(1)} (k) - - - (13)

式中，k＝1,2,…,n-1。

本发明具有的优点是：针对概率分布未知的小样本数据提出了基于灰色累加以及灰色GM(1,1)动态模型的粗大误差判别方法，解决了小样本数据粗大误差判别问题并且计算简便，大大简化的计算过程，提高了计算速度，在快速，在线测量方面具有很好的推广应用价值。

附图说明

图1为本发明一种基于灰色理论的乏信息测量数据粗大误差判别方法的流程图；

图2为测量数据粗大误差判别的灰色包络线。

具体实施方式

下面结合附图和具体实施例进一步说明本发明。

本发明针对数据量少，概率分布未知的乏信息测量数据提出了基于灰色累加以及灰色GM(1,1)动态模型的粗大误差判别方法。

一、见图1，本发明一种基于灰色理论的乏信息测量数据粗大误差判别方法，它包括以下步骤：

步骤一：首先将n个测量数据从小到大排序,其序列为：

x⁽⁰⁾＝{x⁽⁰⁾(1),x⁽⁰⁾(2),…,x⁽⁰⁾(n)} (14)

步骤二：对x⁽⁰⁾作累加生成,得到测得值累加数列x⁽¹⁾

首先将n个测量数据从小到大排序,其序列为：

x⁽⁰⁾＝{x⁽⁰⁾(1),x⁽⁰⁾(2),…,x⁽⁰⁾(n),…} (15)

对x⁽⁰⁾作累加生成,得到测得值累加数列x⁽¹⁾，其累加曲线如图2直线1所示。：

x^{(1)} (k) = Σ_{i = 1}^{k} x^{(0)} (i), (k = 1, 2, ..., n) - - - (16)

测得值累加曲线可以两条曲线来包络，由于测量数据的中值最有可能是最大距离值Δmax,取测量次数的中值p作为下包络曲线的转折点。另外考虑测量数据有一定程度的变化,可以将最大距离值Δmax增加h倍,根据大量实验,取常数h为3.75，得到的下包络曲线如图2中曲线2所示。其中：

下包络曲线方程为：

x_{m i n}^{(1)} (k) = \{\begin{matrix} \overset{&OverBar;}{x} k - h \frac{Δ_{m a x}}{p} k & 1 \leq k \leq p \\ \overset{&OverBar;}{x} k - h \frac{Δ_{m a x}}{n - p} (n - k) & p < k \leq n \end{matrix} - - - (18)

取通过坐标原点(0,0)和测量列累加终点(n，x⁽¹⁾(n))的直线3为上包络曲线,该参考直线方程为：

x_{m a x}^{(1)} (k) = \frac{1}{n} x^{(1)} (n) k = [\frac{1}{n} Σ_{i = 1}^{n} x^{(0)} (i)] k = \overset{&OverBar;}{x} k, (k = 1, 2, ..., n) - - - (19)

式中:为测量数据的均值。

步骤三：该测量数列如果都满足条件：

x_{m i n}^{(1)} (k) < x^{(1)} (k) < x_{m a x}^{(1)} (k), 1 \leq k \leq n - - - (20)

则认定测量数据中不含有粗大误差。但这个判别方法对升序排列的第n点数据即值最大的那个测量数据是否为粗大误差无法判别。通过步骤四解决此问题。

步骤四：建立灰色GM(1,1)动态模型，增加一个预测值到测量数据序列中。

设原始数据序列为x⁽⁰⁾＝{x⁽⁰⁾(1),x⁽⁰⁾(2),…,x⁽⁰⁾(n),…}，以序列的前n项作为系统的零时刻序列，n为时刻序列长度，构建系统零时刻的灰色模型。零时刻数据序列为x₀ ⁽⁰⁾＝{x₀ ⁽⁰⁾(1),x₀ ⁽⁰⁾(2),…,x₀ ⁽⁰⁾(n)}，则其对应的一次累加生成序列为：

x₀ ⁽¹⁾＝{x₀ ⁽¹⁾(1),x₀ ⁽¹⁾(2),…,x₀ ⁽¹⁾(n)} (21)

式中，k＝1,2,…,n。其紧邻均值生成序列为：

z₀ ⁽¹⁾＝{z₀ ⁽¹⁾(2),z₀ ⁽¹⁾(3),…z₀ ⁽¹⁾(n)} (22)

式中，k＝2,3,…,n。零时刻灰色微分方程为：

x₀ ⁽⁰⁾(k)+a₀z₀ ⁽¹⁾(k)＝b₀ (23)

由式(23)可得，零时刻灰色微分方程的时间响应序列为：

{\hat{x}}_{0}^{(1)} (k) = ({x_{0}}^{(0)} (1) - \frac{b_{0}}{a_{0}}) e^{- a_{0} (k - 1)} + \frac{b_{0}}{a_{0}} - - - (24)

式中，k＝1,2,…,n-1。

其还原值序列为：

{\hat{x}}_{0}^{(0)} (k + 1) = {\hat{x}}_{0}^{(1)} (k + 1) - {\hat{x}}_{0}^{(1)} (k) - - - (25)

式中，k＝1,2,…,n-1。

随着时间的推移，原始序列中不断有新的测量数据获得。设第m时刻的数据序列为：

x_m ⁽⁰⁾＝{x_m ⁽⁰⁾(1),x_m ⁽⁰⁾(2),…,x_m ⁽⁰⁾(n)}＝{x⁽⁰⁾(m+1),x⁽⁰⁾(m+2),…,x⁽⁰⁾(m+n)}

则有m时刻的时间响应序列为：

{\hat{x}}_{m}^{(1)} (k) = ({x_{m}}^{(0)} (1) - \frac{b_{m}}{a_{m}}) e^{- a_{m} (k - 1)} + \frac{b_{m}}{a_{m}} - - - (26)

式中，k＝1,2,…,n。

其还原值序列为：

{\hat{x}}_{m}^{(0)} (k + 1) = {\hat{x}}_{m}^{(1)} (k + 1) - {\hat{x}}_{m}^{(1)} (k) - - - (27)

式中，k＝1,2,…,n-1。

步骤五：将灰色GM(1,1)动态模型的预测值添加到测量序列中，重复步骤二、三、四，直至测量数据中粗大误差全部被判别。

二、下面某粗糙度测量数据作为典型案例，再详细阐述本发明的实施方式简述如下：

1.某测量表面粗糙度过程中一组测量数据为：

x(k)＝{26.60，19.80，20.30，21.20，20.00，19.10，19.80，19.00，19.20，19.60}

以此数据序列为例说明本文方法的应用过程，已知数据26.60含有粗大误差。

2.将原始数据列从小到大排序得到新的数列，见表1中x⁽⁰⁾(k)。

3.利用灰色包络曲线方程，得到3组数据如表1中x⁽¹⁾(k)，所示，

表1:原灰色包络曲线数据

4.利用灰色包络线法则进行粗大误差判别，因得到测量较小的值不含有粗大误差，但是测量最大值无法用灰色包络线法则判定，进行下一步。

5.利用数据列x⁽⁰⁾(k)建立GM(1,1)模型，判断是否含有粗大误差。

通过计算，其外推模型参数为a＝-0.03,b＝17.20，其灰色GM(1,1)模型为：

\{\begin{matrix} {\hat{x}}^{(1)} (k + 1) = (x^{(0)} (1) - \frac{17.20}{- 0.03}) e^{- 0.03 k} + \frac{17.20}{- 0.03} \\ {\hat{x}}^{(0)} (k + 1) = {\hat{x}}^{(1)} (k + 1) - {\hat{x}}^{(1)} (k) \end{matrix}

得预测值为x⁽¹⁾(n+1)＝21.53

从而新的数列见表2中x⁽⁰⁾(k)。

6.重复步骤2～4，利用灰色包络线法则，得表2.

表2:新灰色包络曲线数据

7.粗大误差判别：由于所以数据x⁽⁰⁾(10)＝21.53，x⁽⁰⁾(11)＝26.60都含有粗大误差，应予剔除。原数据序列中最大一个数据26.60得到判定，整个数据列的粗大误差得到剔除。

Claims

1.一种基于灰色理论的乏信息测量数据粗大误差判别方法，其特征在于：该方法包括如下步骤：

步骤三、采用灰色判别法则判定测量数据是否含粗大误差；

步骤五、重复步骤二、三、四，直至测量数据中粗大误差全部被判别；

步骤二中灰色包络线的获取，具体实现过程如下：

首先将n个测量数据从小到大排序，其序列为：

x⁽⁰⁾＝{x⁽⁰⁾(1),x⁽⁰⁾(2),…,x⁽⁰⁾(n),…} (1)

对x⁽⁰⁾作累加生成，得到测得值累加数列x⁽¹⁾：

x^{(1)} (k) = Σ_{i = 1}^{k} x^{(0)} (i) (k = 1, 2, ..., n) - - - (2)

下包络曲线方程为：

x_{\min}^{(1)} (k) = \{\begin{matrix} \overset{&OverBar;}{x} k - h \frac{Δ_{\max}}{p} k & 1 \leq k \leq p \\ \overset{&OverBar;}{x} k - h \frac{Δ_{\max}}{n - p} (n - p) & p \leq k \leq n \end{matrix} - - - (4)

取通过坐标原点(0，0)和测量列累加终点(n，x⁽¹⁾(n))的直线为上包络曲线，直线方程为：

x_{m a x}^{(1)} (k) = \frac{1}{n} x^{(1)} (n) k = [\frac{1}{n} Σ_{i = 1}^{n} x^{(0)} (i)] k = \overset{&OverBar;}{x} k (k = 1, 2, ..., n) - - - (5)

式中：为测量数据的均值；

步骤三中的灰色包络粗大误差判别准则，具体实现过程如下：

该测量数列如果都满足条件：

x_{\min}^{(1)} (k) < x^{(1)} (k) < x_{m a x}^{(1)} (k), 1 \leq k \leq n - - - (6)

则认定测量数据中不含有粗大误差，反之则含有；

步骤三中测量数据最大值是否含有粗大误差无法判定，通过步骤四中灰色GM(1,1)动态模型在原有测量数据基础上增加一个或多个测量数据预测值，来实现全部测量数据粗大误差判别；

步骤四中的利用灰色GM(1,1)动态模型获取乏信息测量数据预测值，其中灰色GM(1,1)动态模型的建立，具体实现过程如下：

x₀ ⁽¹⁾＝{x₀ ⁽¹⁾(1),x₀ ⁽¹⁾(2),…,x₀ ⁽¹⁾(n)} (7)

式中，

{x_{0}}^{(1)} (k) = Σ_{i = 1}^{k} {x_{0}}^{(0)} (i), k = 1, 2, ..., n,

其紧邻均值生成序列为：

z₀ ⁽¹⁾＝{z₀ ⁽¹⁾(2),z₀ ⁽¹⁾(3),…z₀ ⁽¹⁾(n)} (8)

式中，

{z_{0}}^{(1)} (k) = \frac{1}{2} ({x_{0}}^{(1)} (k) + {x_{0}}^{(1)} (k - 1)), k = 2, 3, ..., n,

零时刻灰色微分方程为：

x₀ ⁽⁰⁾(k)+a₀z₀ ⁽¹⁾(k)＝b₀ (9)

由式(9)可得，零时刻灰色微分方程的时间响应序列为：

{\hat{x}}_{0}^{(1)} (k) = ({x_{0}}^{(0)} (1) - \frac{b_{0}}{a_{0}}) e^{- a_{0} (k - 1)} + \frac{b_{0}}{a_{0}} - - - (10)

式中，k＝1,2,…,n-1；

其还原值序列为：

{\hat{x}}_{0}^{(0)} (k + 1) = {\hat{x}}_{0}^{(1)} (k + 1) - {\hat{x}}_{0}^{(1)} (k) - - - (11)

式中，k＝1,2,…,n-1；

则有m时刻的时间响应序列为：

{\hat{x}}_{m}^{(1)} (k) = ({x_{m}}^{(0)} (1) - \frac{b_{m}}{a_{m}}) e^{- a_{m} (k - 1)} + \frac{b_{m}}{a_{m}} - - - (12)

式中，k＝1,2,…,n；

其还原值序列为：

{\hat{x}}_{m}^{(0)} (k + 1) = {\hat{x}}_{m}^{(1)} (k + 1) - {\hat{x}}_{m}^{(1)} (k) - - - (13)

式中，k＝1,2,…,n-1；步骤四对原始测量数据建立灰色GM(1,1)动态模型，将最后一个时间序列的一个预测值添加到原始测量数据序列中，由原始测量数据与GM(1,1)模型预测值构成新的测量数据序列，然后利用步骤二、步骤三进行粗大误差判别；

步骤五中的重复过程为：如利用步骤四灰色GM(1,1)动态模型预测一个测量数据仍无法判定原始测量数据中最大测量数据是否含有粗大误差，则重复步骤二、三、四，再次通过GM(1,1)模型预测值增加测量数据，直至测量数据中粗大误差全部被判别。