CN102509001B

CN102509001B - 一种自动去除时序数据野值点的方法

Info

Publication number: CN102509001B
Application number: CN201110317014.2A
Authority: CN
Inventors: 鲍军鹏; 赵静
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2011-10-18
Filing date: 2011-10-18
Publication date: 2014-06-04
Anticipated expiration: 2031-10-18
Also published as: CN102509001A

Abstract

本发明提供了一种对时序数据野值点进行自动去除的方法。本发明所述野值识别方法可以通用多种数据，即对于不同形态的参数，可以使用同一野值识别规则，降低专家知识等先验条件的影响。该方法包括识参数配置模块，识别数据集的载入、数据格式转换及清洗模块，基于方差的密度聚类野值点识别模块，和野值点识别结果的解释模块及数据分析结果图形视图组件、用户交互组件等必须组件。该方法利用基于方差的密度聚类，结合时序数据的固有特征，进行野值点自动识别。从而帮助数据分析人员进行数据清洗，减少野值数据对数据分析精度，判定结果的影响，避免了数据分析结果的失效性。

Description

一种自动去除时序数据野值点的方法

技术领域：

本发明属于智能信息处理和计算机技术领域，具体涉及一种针对不同时序参数数据自动去除时序数据野值点的方法。

背景技术：

在真实采集的时序数据中由于环境干扰、随机干扰、传输噪声等原因往往含有大量野值，即远远脱离许可范围的数据。这些野值不是正常的测量数据，而是噪音点。如果野值不经过处理直接参与计算，往往导致数据分析精度降低，干扰正常的判定结果，严重时甚至引起数据分析结果的失效。人类专家由于具有丰富的专业知识和经验，可以比较准确地分辨出野值和正常值。但是让计算机进行自动识别就有很多困难。

不同的数据参数具有不同的特征，一般需要人工指定每个参数的特质范围，来识别野值点。若参数合理范围发生了变化，则需要人工重新指定，这就无法自动适应相应变化。针对这种情况，本发明提供了一种对时序数据野值点进行自动去除的方法。

发明内容：

本发明提供了一种对时序数据野值点进行自动去除的方法。该方法解决了利用计算机对数据空间中存在的大量野值进行自动识别并去除的问题。

具体如下：

一种自动去除时序数据野值点的方法，包括参数配置模块，识别数据集的载入、数据格式转换及清洗模块，基于方差的密度聚类野值点识别模块，和野值点识别结果的解释模块；参数配置模块，完成将包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值等模型参数的xml文档的创建、载入和解析；数据格式转换模块将文本数据或流数据转换为方法定义的点(Point)结构，同时完成对缺失数据的补全和数据采样；基于方差的密度聚类野值点识别模块是方法的核心部分，对转换后的点(Point)数据进行多次野值识别，计算野值点识别收敛程度，终止野值点识别；对野值点识别结果的解释部分完成对点(Point)数据转换成原始数据格式，保存识别结果标签，图形化显示野值识别结果。

优选地，参数配置模块创建包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值等模型参数的可扩展标记语言(eXtensible Markup Language，xml)文档；基于方差的密度聚类野值点识别模块载入模型参数xml文档；解析文档参数信息，定义到方法变量中，完成用户交互的第一步；在基于方差的密度聚类野值点识别模块运行结束后，将野值点识别的结果写入xml文档，返回给用户；通过解析包含结果的xml文档，图形化显示解释野值点识别的结果。

优选地，基于方差的密度聚类用方差、均值和时间窗口来聚类；这个方法一方面根据时间窗口在时间上对时序数据进行划分；另一方面用方差、均值等量表示阈值半径内的密度；对于单一维度的数据，基于方差的密度聚类方法中关心的“距离”使用统计学中的方差、均值来衡量。

优选地，数据包括噪音点、边界点和核心点；(1)噪音点的判断条件为，该点与观察窗口均值之差大于N倍的观察窗口的标准差；(2)边界点的判断条件为，该点与观察窗口均值之差不大于N倍的观察窗口的标准差，且大于某一阈值；(3)核心点的判断条件为，该点与观察窗口均值之差不大于N倍的观察窗口的标准差，且小于某一阈值。

优选地，基于方差的密度聚类野值点识别模块计算野值点识别收敛程度，并决定是否终止野值点识别；野值点识别过程可以重复多次以减小野值点漏检率；每次计算数据点方差和的变化量，如果方差和的变化量收敛到某一阈值，即当一定时期内方差和变化量的累计值小于该值时，则认为野值点识别方法收敛了，达到了将数据集中野值点标记出的状态，此时终止野值点识别；另外若野值点识别过程重复次数过多，有可能会将正常值当成野值点识别出来，造成野值识别误差增大，此时也应终止野值点识别。

优选地，使用方差、均值、时间窗口聚类识别野值点。

本发明利用基于方差的密度聚类，结合时序数据固有的特征，进行野值点自动识别。从而帮助数据分析人员进行数据清洗，减少野值数据对数据分析精度，判定结果的影响，避免了数据分析结果的失效性。该方法是一种脱离数据本身特征的野值识别方法，即对于不同形态的参数，可以使用同一野值识别规则，降低专家知识等先验条件的影响。

基于方差的密度聚类野值点识别模块中识别野值点的方法用方差、均值和时间窗口来聚类；这个方法一方面根据时间窗口在时间上对时序数据进行划分；另一方面用方差、均值等量代替了密度阈值、半径等量；显然方差、均值的含义更明显，更容易理解和解释一些。

同时参数的设置比基于密度野值识别方法更简单；对于单一维度的数据，基于密度的聚类方法中关心的“距离”使用统计学中的方差、均值来衡量。

附图说明：

图1是本方法模块框架图。

图2是本方法的基于方差的密度聚类识别野值点模块的流程图。

图3是本方法自动运行，经过了两次野值点识别并去除之后的结果曲线。

图4是删除野值点后数据曲线图。

具体实施方式：

下面结合附图对本发明做详细描述。

本发明实现了一种对时序数据的野值点进行自动去除的方法。该方法利用基于方差的密度聚类，结合时序数据固有的特征，进行野值点自动识别。本发明的基本思路是：基于方差的密度聚类识别野值点的方法用方差、均值和时间窗口来聚类；这个方法一方面需要用时间窗口对时序数据在时间上进行划分；另一方面用方差、均值等度量密度阈值、半径等量。

依照本发明技术方案，该方法包括数配置模块，识别数据集的载入、数据格式转换及清洗模块，基于方差的密度聚类野值点识别模块，和野值点识别结果的解释模块及数据分析结果图形视图组件、用户交互组件等必须组件。

本发明将数据划分为两大部分，正常数据和非正常数据。其中非正常数据又分为野值数据，野簇数据，异常簇数据。

对于野值数据，该点数据值明显区别于观察窗口内的其他数据。即，该点数据值明显大于观察窗口的均值，定义为野值。

对于野簇数据，上升沿跳变点的数据点类似于野值数据，定义为野值。其平滑部分数据点没有明显大于观察窗口的均值，但是其余观察窗口的均值大于某一个阈值，定义为边界点。

对于异常簇数据，由于在观察窗口内均值变换剧烈，数据点规律介于野值数据和野簇数据，会造成误判。使得误判率明显上升，建议选择增大观察窗口。

对于正常数据，数据变化平缓，大部分数据落于观察窗口均值附近。定义为簇点。

以下是较佳实施例。

参照图1，其为本方法的模块框架图，首先进行步骤1-1模型参数配置模块，该模块获得参数配置xml文档，解析该文档获得参数配置；其次进行步骤1-2数据预处理模块，该模块完成数据的清洗及数据类型转换等操作；第三进行步骤1-3野值识别模块，该模块根据基于方差的密度聚类方法进行自动的野值点识别；最后进行步骤1-4的是识别结果的解释模块，该模块解释野值点识别的结果。

参照图2，其为基于方差的密度聚类识别野值点模块的流程图。首先进行步骤2-1，获得方法配置参数。然后进行步骤2-2，设置循环变量。第三进行步骤2-3，该步骤寻找一个未标记过的数据点。进行步骤2-4，计算数据点的方差和均值。进行步骤2-5，判断该点的属性，即判断该点是噪音点、核心点或边界点。然后回到步骤2-3，继续寻找一个未标记过的数据点。如果所有数据点都标记过了，进行步骤2-6，计算收敛条件。进行步骤2-7，判断是否满足收敛要求，如果满足收敛要求，方法结束。如果不满足收敛条件，回到步骤2-3。

参照下面内容，其为自动去除时序数据野值点方法的一个完整的模型参数xml文档。该文档包括训练数据集节点、模型参数节点和训练结果节点。

(1)训练数据集节点定义了数据集文件的地址为默认目录下的TG.txt文件；该文件以回车作为行分隔符，以制表符作为列分割符；该文件数据维度为2，包括一个输入维度，标记为时间，和一个输出维度，标记为TG。

训练数据集信息，包括数据集文件地址，数据集文件分割符信息，数据输入数据维度、输出数据维度，数据为标签名称，数据集起始时间点等。

(2)模型参数节点定义了具体的模型参数，包括聚类数据的维度，定义为2；聚类的阈值，定义为50；聚类的观察窗口大小，定义为178200000(20天)；显著判断大的条件，定义为5；方差阈值条件，定义为0.5；删除噪音点，定义为1(是)。

模型参数信息，包括聚类数据维度，聚类的阈值、聚类的观察窗口大小、显著判断大的条件、方差阈值条件、以及是否删除噪音点参数。

(3)训练结果节点保存了识别结果标签，在野值点识别方法结束后保存到xml文档中。

野值点识别结果信息，野值识别结果以标签的形式写在<Values></Values>中，保存在<TrainingResult></TrainingResult>节点里。

数据格式转换模块主要是将文本数据或流数据转换为方法定义的点(Point)结构，同时完成对缺失数据的补全和数据采样。原始数据集中数据保存到Point类型的属性m_point数组中，布尔变量m_isKey和m_isClassed分别表示数据点的类别：核心点、边界点和噪音点。由于本发明只关心野值数据的识别，而不关心核心点所属簇类别，所有本发明将簇类别定义为，-1表示噪音点，0表示边界点，1表示核心点。

参照图3，为本方法自动运行，经过了两次野值点识别并去除之后的结果曲线。本方法识别出来的野值点和曲线可用不同颜色表示。在图3(灰度图)中我们用小圆圈特别标注出了被识别出来的野值点。

参照图4，为删除野值点后数据曲线图，从图中可以看出本发明提出的方法有效的识别并去除了数据集中的野值点。

Claims

1.一种自动去除时序数据野值点的方法，其特征在于：包括参数配置模块，识别数据集的载入、数据格式转换及清洗模块，基于方差的密度聚类野值点识别模块，和野值点识别结果的解释模块；参数配置模块，完成包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值的模型参数的xml文档的创建、载入和解析；数据格式转换模块将文本数据或流数据转换为方法定义的点结构，同时完成对缺失数据的补全和数据采样；基于方差的密度聚类野值点识别模块是方法的核心部分，对转换后的点数据进行多次野值识别，计算野值点识别收敛程度，终止野值点识别；对野值点识别结果的解释部分完成对点数据转换成原始数据格式，保存识别结果标签，图形化显示野值识别结果；

其中，进行多次野值识别的过程为：首先进行步骤2-1，获得方法配置参数；然后进行步骤2-2，设置循环变量；第三进行步骤2-3，该步骤寻找一个未标记过的数据点；进行步骤2-4，计算数据点的方差和均值；进行步骤2-5，判断该点的属性；

基于方差的密度聚类野值点识别模块计算野值点识别收敛程度，并决定是否终止野值点识别；野值点识别过程可以重复多次以减小野值点漏检率；每次计算数据点方差和的变化量，如果方差和的变化量收敛到某一阈值，即当一定时期内方差和变化量的累计值小于该值时，则认为野值点识别方法收敛了，达到了将数据集中野值点标记出的状态，此时终止野值点识别；若野值点识别过程重复次数过多，也应终止野值点识别。

2.根据权利要求1所述的自动去除时序数据野值点的方法，其特征在于，参数配置模块创建包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值的模型参数的可扩展标记语言文档；基于方差的密度聚类野值点识别模块载入模型参数xml文档；解析文档参数信息，定义到方法变量中，完成用户交互的第一步；在基于方差的密度聚类野值点识别模块运行结束后，将野值点识别的结果写入xml文档，返回给用户；通过解析包含结果的xml文档，图形化显示解释野值点识别的结果。

3.根据权利要求1所述的自动去除时序数据野值点的方法，其特征在于，基于方差的密度聚类用方差、均值和时间窗口来聚类；这个方法一方面根据时间窗口在时间上对时序数据进行划分；另一方面用方差、均值量表示阈值半径内的密度；对于单一维度的数据，基于方差的密度聚类方法中关心的“距离”使用统计学中的方差和均值来衡量。

4.根据权利要求3所述的自动去除时序数据野值点的方法，其特征在于：数据包括噪音点、边界点和核心点；

（1）噪音点的判断条件为，该点与观察窗口均值之差大于N倍的观察窗口的标准差；

（2）边界点的判断条件为，该点与观察窗口均值之差不大于N倍的观察窗口的标准差，且大于某一阈值；

（3）核心点的判断条件为，该点与观察窗口均值之差不大于N倍的观察窗口的标准差，且小于某一阈值。

5.根据权利要求1所述的自动去除时序数据野值点的方法，其特征在于，使用方差、均值和时间窗口聚类识别野值点。