CN102509001B - 一种自动去除时序数据野值点的方法 - Google Patents

一种自动去除时序数据野值点的方法 Download PDF

Info

Publication number
CN102509001B
CN102509001B CN201110317014.2A CN201110317014A CN102509001B CN 102509001 B CN102509001 B CN 102509001B CN 201110317014 A CN201110317014 A CN 201110317014A CN 102509001 B CN102509001 B CN 102509001B
Authority
CN
China
Prior art keywords
data
outlier
variance
point
outlier detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110317014.2A
Other languages
English (en)
Other versions
CN102509001A (zh
Inventor
鲍军鹏
赵静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201110317014.2A priority Critical patent/CN102509001B/zh
Publication of CN102509001A publication Critical patent/CN102509001A/zh
Application granted granted Critical
Publication of CN102509001B publication Critical patent/CN102509001B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种对时序数据野值点进行自动去除的方法。本发明所述野值识别方法可以通用多种数据,即对于不同形态的参数,可以使用同一野值识别规则,降低专家知识等先验条件的影响。该方法包括识参数配置模块,识别数据集的载入、数据格式转换及清洗模块,基于方差的密度聚类野值点识别模块,和野值点识别结果的解释模块及数据分析结果图形视图组件、用户交互组件等必须组件。该方法利用基于方差的密度聚类,结合时序数据的固有特征,进行野值点自动识别。从而帮助数据分析人员进行数据清洗,减少野值数据对数据分析精度,判定结果的影响,避免了数据分析结果的失效性。

Description

一种自动去除时序数据野值点的方法
技术领域:
本发明属于智能信息处理和计算机技术领域,具体涉及一种针对不同时序参数数据自动去除时序数据野值点的方法。
背景技术:
在真实采集的时序数据中由于环境干扰、随机干扰、传输噪声等原因往往含有大量野值,即远远脱离许可范围的数据。这些野值不是正常的测量数据,而是噪音点。如果野值不经过处理直接参与计算,往往导致数据分析精度降低,干扰正常的判定结果,严重时甚至引起数据分析结果的失效。人类专家由于具有丰富的专业知识和经验,可以比较准确地分辨出野值和正常值。但是让计算机进行自动识别就有很多困难。
不同的数据参数具有不同的特征,一般需要人工指定每个参数的特质范围,来识别野值点。若参数合理范围发生了变化,则需要人工重新指定,这就无法自动适应相应变化。针对这种情况,本发明提供了一种对时序数据野值点进行自动去除的方法。
发明内容:
本发明提供了一种对时序数据野值点进行自动去除的方法。该方法解决了利用计算机对数据空间中存在的大量野值进行自动识别并去除的问题。
具体如下:
一种自动去除时序数据野值点的方法,包括参数配置模块,识别数据集的载入、数据格式转换及清洗模块,基于方差的密度聚类野值点识别模块,和野值点识别结果的解释模块;参数配置模块,完成将包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值等模型参数的xml文档的创建、载入和解析;数据格式转换模块将文本数据或流数据转换为方法定义的点(Point)结构,同时完成对缺失数据的补全和数据采样;基于方差的密度聚类野值点识别模块是方法的核心部分,对转换后的点(Point)数据进行多次野值识别,计算野值点识别收敛程度,终止野值点识别;对野值点识别结果的解释部分完成对点(Point)数据转换成原始数据格式,保存识别结果标签,图形化显示野值识别结果。
优选地,参数配置模块创建包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值等模型参数的可扩展标记语言(eXtensible Markup Language,xml)文档;基于方差的密度聚类野值点识别模块载入模型参数xml文档;解析文档参数信息,定义到方法变量中,完成用户交互的第一步;在基于方差的密度聚类野值点识别模块运行结束后,将野值点识别的结果写入xml文档,返回给用户;通过解析包含结果的xml文档,图形化显示解释野值点识别的结果。
优选地,基于方差的密度聚类用方差、均值和时间窗口来聚类;这个方法一方面根据时间窗口在时间上对时序数据进行划分;另一方面用方差、均值等量表示阈值半径内的密度;对于单一维度的数据,基于方差的密度聚类方法中关心的“距离”使用统计学中的方差、均值来衡量。
优选地,数据包括噪音点、边界点和核心点;(1)噪音点的判断条件为,该点与观察窗口均值之差大于N倍的观察窗口的标准差;(2)边界点的判断条件为,该点与观察窗口均值之差不大于N倍的观察窗口的标准差,且大于某一阈值;(3)核心点的判断条件为,该点与观察窗口均值之差不大于N倍的观察窗口的标准差,且小于某一阈值。
优选地,基于方差的密度聚类野值点识别模块计算野值点识别收敛程度,并决定是否终止野值点识别;野值点识别过程可以重复多次以减小野值点漏检率;每次计算数据点方差和的变化量,如果方差和的变化量收敛到某一阈值,即当一定时期内方差和变化量的累计值小于该值时,则认为野值点识别方法收敛了,达到了将数据集中野值点标记出的状态,此时终止野值点识别;另外若野值点识别过程重复次数过多,有可能会将正常值当成野值点识别出来,造成野值识别误差增大,此时也应终止野值点识别。
优选地,使用方差、均值、时间窗口聚类识别野值点。
本发明利用基于方差的密度聚类,结合时序数据固有的特征,进行野值点自动识别。从而帮助数据分析人员进行数据清洗,减少野值数据对数据分析精度,判定结果的影响,避免了数据分析结果的失效性。该方法是一种脱离数据本身特征的野值识别方法,即对于不同形态的参数,可以使用同一野值识别规则,降低专家知识等先验条件的影响。
基于方差的密度聚类野值点识别模块中识别野值点的方法用方差、均值和时间窗口来聚类;这个方法一方面根据时间窗口在时间上对时序数据进行划分;另一方面用方差、均值等量代替了密度阈值、半径等量;显然方差、均值的含义更明显,更容易理解和解释一些。
同时参数的设置比基于密度野值识别方法更简单;对于单一维度的数据,基于密度的聚类方法中关心的“距离”使用统计学中的方差、均值来衡量。
附图说明:
图1是本方法模块框架图。
图2是本方法的基于方差的密度聚类识别野值点模块的流程图。
图3是本方法自动运行,经过了两次野值点识别并去除之后的结果曲线。
图4是删除野值点后数据曲线图。
具体实施方式:
下面结合附图对本发明做详细描述。
本发明实现了一种对时序数据的野值点进行自动去除的方法。该方法利用基于方差的密度聚类,结合时序数据固有的特征,进行野值点自动识别。本发明的基本思路是:基于方差的密度聚类识别野值点的方法用方差、均值和时间窗口来聚类;这个方法一方面需要用时间窗口对时序数据在时间上进行划分;另一方面用方差、均值等度量密度阈值、半径等量。
依照本发明技术方案,该方法包括数配置模块,识别数据集的载入、数据格式转换及清洗模块,基于方差的密度聚类野值点识别模块,和野值点识别结果的解释模块及数据分析结果图形视图组件、用户交互组件等必须组件。
本发明将数据划分为两大部分,正常数据和非正常数据。其中非正常数据又分为野值数据,野簇数据,异常簇数据。
对于野值数据,该点数据值明显区别于观察窗口内的其他数据。即,该点数据值明显大于观察窗口的均值,定义为野值。
对于野簇数据,上升沿跳变点的数据点类似于野值数据,定义为野值。其平滑部分数据点没有明显大于观察窗口的均值,但是其余观察窗口的均值大于某一个阈值,定义为边界点。
对于异常簇数据,由于在观察窗口内均值变换剧烈,数据点规律介于野值数据和野簇数据,会造成误判。使得误判率明显上升,建议选择增大观察窗口。
对于正常数据,数据变化平缓,大部分数据落于观察窗口均值附近。定义为簇点。
以下是较佳实施例。
参照图1,其为本方法的模块框架图,首先进行步骤1-1模型参数配置模块,该模块获得参数配置xml文档,解析该文档获得参数配置;其次进行步骤1-2数据预处理模块,该模块完成数据的清洗及数据类型转换等操作;第三进行步骤1-3野值识别模块,该模块根据基于方差的密度聚类方法进行自动的野值点识别;最后进行步骤1-4的是识别结果的解释模块,该模块解释野值点识别的结果。
参照图2,其为基于方差的密度聚类识别野值点模块的流程图。首先进行步骤2-1,获得方法配置参数。然后进行步骤2-2,设置循环变量。第三进行步骤2-3,该步骤寻找一个未标记过的数据点。进行步骤2-4,计算数据点的方差和均值。进行步骤2-5,判断该点的属性,即判断该点是噪音点、核心点或边界点。然后回到步骤2-3,继续寻找一个未标记过的数据点。如果所有数据点都标记过了,进行步骤2-6,计算收敛条件。进行步骤2-7,判断是否满足收敛要求,如果满足收敛要求,方法结束。如果不满足收敛条件,回到步骤2-3。
参照下面内容,其为自动去除时序数据野值点方法的一个完整的模型参数xml文档。该文档包括训练数据集节点、模型参数节点和训练结果节点。
Figure BDA0000099841140000061
(1)训练数据集节点定义了数据集文件的地址为默认目录下的TG.txt文件;该文件以回车作为行分隔符,以制表符作为列分割符;该文件数据维度为2,包括一个输入维度,标记为时间,和一个输出维度,标记为TG。
训练数据集信息,包括数据集文件地址,数据集文件分割符信息,数据输入数据维度、输出数据维度,数据为标签名称,数据集起始时间点等。
Figure BDA0000099841140000062
(2)模型参数节点定义了具体的模型参数,包括聚类数据的维度,定义为2;聚类的阈值,定义为50;聚类的观察窗口大小,定义为178200000(20天);显著判断大的条件,定义为5;方差阈值条件,定义为0.5;删除噪音点,定义为1(是)。
模型参数信息,包括聚类数据维度,聚类的阈值、聚类的观察窗口大小、显著判断大的条件、方差阈值条件、以及是否删除噪音点参数。
Figure BDA0000099841140000081
(3)训练结果节点保存了识别结果标签,在野值点识别方法结束后保存到xml文档中。
野值点识别结果信息,野值识别结果以标签的形式写在<Values></Values>中,保存在<TrainingResult></TrainingResult>节点里。
Figure BDA0000099841140000082
数据格式转换模块主要是将文本数据或流数据转换为方法定义的点(Point)结构,同时完成对缺失数据的补全和数据采样。原始数据集中数据保存到Point类型的属性m_point数组中,布尔变量m_isKey和m_isClassed分别表示数据点的类别:核心点、边界点和噪音点。由于本发明只关心野值数据的识别,而不关心核心点所属簇类别,所有本发明将簇类别定义为,-1表示噪音点,0表示边界点,1表示核心点。
参照图3,为本方法自动运行,经过了两次野值点识别并去除之后的结果曲线。本方法识别出来的野值点和曲线可用不同颜色表示。在图3(灰度图)中我们用小圆圈特别标注出了被识别出来的野值点。
参照图4,为删除野值点后数据曲线图,从图中可以看出本发明提出的方法有效的识别并去除了数据集中的野值点。

Claims (5)

1.一种自动去除时序数据野值点的方法,其特征在于:包括参数配置模块,识别数据集的载入、数据格式转换及清洗模块,基于方差的密度聚类野值点识别模块,和野值点识别结果的解释模块;参数配置模块,完成包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值的模型参数的xml文档的创建、载入和解析;数据格式转换模块将文本数据或流数据转换为方法定义的点结构,同时完成对缺失数据的补全和数据采样;基于方差的密度聚类野值点识别模块是方法的核心部分,对转换后的点数据进行多次野值识别,计算野值点识别收敛程度,终止野值点识别;对野值点识别结果的解释部分完成对点数据转换成原始数据格式,保存识别结果标签,图形化显示野值识别结果;
其中,进行多次野值识别的过程为:首先进行步骤2-1,获得方法配置参数;然后进行步骤2-2,设置循环变量;第三进行步骤2-3,该步骤寻找一个未标记过的数据点;进行步骤2-4,计算数据点的方差和均值;进行步骤2-5,判断该点的属性;
基于方差的密度聚类野值点识别模块计算野值点识别收敛程度,并决定是否终止野值点识别;野值点识别过程可以重复多次以减小野值点漏检率;每次计算数据点方差和的变化量,如果方差和的变化量收敛到某一阈值,即当一定时期内方差和变化量的累计值小于该值时,则认为野值点识别方法收敛了,达到了将数据集中野值点标记出的状态,此时终止野值点识别;若野值点识别过程重复次数过多,也应终止野值点识别。
2.根据权利要求1所述的自动去除时序数据野值点的方法,其特征在于,参数配置模块创建包括用户设置训练数据集、N倍参数、时间窗口、收敛阈值的模型参数的可扩展标记语言文档;基于方差的密度聚类野值点识别模块载入模型参数xml文档;解析文档参数信息,定义到方法变量中,完成用户交互的第一步;在基于方差的密度聚类野值点识别模块运行结束后,将野值点识别的结果写入xml文档,返回给用户;通过解析包含结果的xml文档,图形化显示解释野值点识别的结果。
3.根据权利要求1所述的自动去除时序数据野值点的方法,其特征在于,基于方差的密度聚类用方差、均值和时间窗口来聚类;这个方法一方面根据时间窗口在时间上对时序数据进行划分;另一方面用方差、均值量表示阈值半径内的密度;对于单一维度的数据,基于方差的密度聚类方法中关心的“距离”使用统计学中的方差和均值来衡量。
4.根据权利要求3所述的自动去除时序数据野值点的方法,其特征在于:数据包括噪音点、边界点和核心点;
(1)噪音点的判断条件为,该点与观察窗口均值之差大于N倍的观察窗口的标准差;
(2)边界点的判断条件为,该点与观察窗口均值之差不大于N倍的观察窗口的标准差,且大于某一阈值;
(3)核心点的判断条件为,该点与观察窗口均值之差不大于N倍的观察窗口的标准差,且小于某一阈值。
5.根据权利要求1所述的自动去除时序数据野值点的方法,其特征在于,使用方差、均值和时间窗口聚类识别野值点。
CN201110317014.2A 2011-10-18 2011-10-18 一种自动去除时序数据野值点的方法 Expired - Fee Related CN102509001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110317014.2A CN102509001B (zh) 2011-10-18 2011-10-18 一种自动去除时序数据野值点的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110317014.2A CN102509001B (zh) 2011-10-18 2011-10-18 一种自动去除时序数据野值点的方法

Publications (2)

Publication Number Publication Date
CN102509001A CN102509001A (zh) 2012-06-20
CN102509001B true CN102509001B (zh) 2014-06-04

Family

ID=46221086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110317014.2A Expired - Fee Related CN102509001B (zh) 2011-10-18 2011-10-18 一种自动去除时序数据野值点的方法

Country Status (1)

Country Link
CN (1) CN102509001B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10386729B2 (en) * 2013-06-03 2019-08-20 Kla-Tencor Corporation Dynamic removal of correlation of highly correlated parameters for optical metrology
CN104679834B (zh) * 2015-02-06 2018-01-16 北京工商大学 一种时序数据清洗方法及系统
CN104915568B (zh) * 2015-06-24 2017-09-29 哈尔滨工业大学 基于dtw的卫星遥测数据异常检测方法
CN106203480B (zh) * 2016-06-29 2019-06-04 华侨大学 基于缺损数据的非线性特征提取和分类方法
CN106940793A (zh) * 2017-03-22 2017-07-11 上海大学 一种基于口腔清洁装置的姿态处理方法及系统
US11301730B2 (en) 2018-09-28 2022-04-12 Wipro Limited Apparatus and method for detecting and removing outliers using sensitivity score
CN110288003B (zh) * 2019-05-29 2022-01-18 北京师范大学 数据变化识别方法及设备
CN110362559B (zh) * 2019-07-04 2020-09-11 南京航空航天大学 基于局部遍历密度聚类的ads-b航迹清洗与校准方法
CN110750536B (zh) * 2019-10-11 2020-06-23 清华大学 姿态时间序列数据的振动噪声平滑处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620619A (zh) * 2009-08-07 2010-01-06 北京航空航天大学 一种基于聚类方法的测量数据粗大误差处理系统及处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5048625B2 (ja) * 2008-10-09 2012-10-17 株式会社日立製作所 異常検知方法及びシステム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620619A (zh) * 2009-08-07 2010-01-06 北京航空航天大学 一种基于聚类方法的测量数据粗大误差处理系统及处理方法

Also Published As

Publication number Publication date
CN102509001A (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
CN102509001B (zh) 一种自动去除时序数据野值点的方法
WO2018032937A1 (zh) 一种文本信息分类方法及其装置
CN106295807A (zh) 一种信息处理的方法及装置
CN110147357A (zh) 一种基于大数据环境下的多源数据聚合抽样方法及系统
CN106484915B (zh) 一种海量数据的清洗方法和系统
CN104112026A (zh) 一种短信文本分类方法及系统
CN110516221A (zh) 提取pdf文档中图表数据的方法、设备和存储介质
CN112732994B (zh) 网页信息的提取方法、装置、设备及存储介质
CN106855851A (zh) 知识抽取方法及装置
CN106372105A (zh) 一种基于Spark平台的微博数据预处理方法
CN103530429A (zh) 一种网页正文抽取的方法
CN106649438A (zh) 一种时序数据非预期故障检测方法
CN103440315A (zh) 一种基于主题的Web页面清洗方法
CN105095436A (zh) 数据源数据自动建模方法
CN106919697A (zh) 一种将数据同时导入多个Hadoop组件的方法
CN102663108B (zh) 基于复杂网络模型并行化标签传播算法的药物社团发现方法
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN102156799A (zh) 一种可级联的复杂事件处理引擎及列车检修自动记录方法
CN108073705B (zh) 一种分布式海量数据聚合采集方法
CN107315809A (zh) 一种基于Spark平台的集团新闻数据预处理方法
US20150149374A1 (en) Relationship circle processing method and system, and computer storage medium
CN108121743A (zh) 一种通用网页模版的生成和使用方法、系统
CN103761246A (zh) 一种基于链接网络的用户领域识别方法及其装置
CN113608903A (zh) 一种基于xml语言的故障管理方法
CN104657422A (zh) 一种基于分类决策树的内容发布智能分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140604

Termination date: 20171018