CN101908065B - 一种支持动态更新的在线属性异常点检测方法 - Google Patents
一种支持动态更新的在线属性异常点检测方法 Download PDFInfo
- Publication number
- CN101908065B CN101908065B CN2010102379226A CN201010237922A CN101908065B CN 101908065 B CN101908065 B CN 101908065B CN 2010102379226 A CN2010102379226 A CN 2010102379226A CN 201010237922 A CN201010237922 A CN 201010237922A CN 101908065 B CN101908065 B CN 101908065B
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- point
- neighbours
- need
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000012423 maintenance Methods 0.000 claims description 38
- 238000012360 testing method Methods 0.000 claims description 11
- 241001269238 Data Species 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 9
- 238000013499 data model Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000011897 real-time detection Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持动态更新的在线属性异常点检测方法。通过分析实际应用及用户需求,提出全新的属性异常点定义,在考虑数据集内部各个数据点间属性相关性的前提下检测异常点,提供相对于传统定义更加有效的异常信息,结合实际流数据系统应用,通过使用滑动窗口、在线聚类方法达到支持对动态更新的流数据进行在线属性异常点检测,能够为用户提供实时检测结果反馈。并且针对流数据系统应用中实际出现的系统过载情况,提出一套有效的降载方法,能够保证检测方法在海量的流数据更新情况下仍能实时反馈检测结果,且结果误差在用户可控范围,达到检测方法在运行效率和结果精度之间的有效平衡。
Description
技术领域
本发明涉及数据挖掘、离群点检测和流数据系统管理技术,特别是涉及一种支持动态更新的在线属性异常点检测方法。
背景技术
异常点检测是数据挖掘领域中最重要的应用技术方法之一,不同于其它常见的数据挖掘方法,异常点检测是力求在海量数据中找出相对孤立、离群的异常点以及异常模式。早期的数据挖掘系统大多只将数据中的异常点看作噪音,而异常点检测也主要用于对噪音进行清洗处理。但是随着海量数据的产生,异常数据往往能够体现更大的价值,因此异常点检测在现实中的应用也愈加广泛,如网络入侵检测、银行信用欺诈等。
进行异常点检测的一个首要前提是给出合理的异常点定义,继而应用相关的方法进行检测。现有的异常点检测方法所基于的异常点定义都可以称为分类异常点,其根本思想是将分类数据中的孤立类别数据定义为异常点。然而,这种定义在现实应用中缺乏灵活性以及实用性,用户需要检测的异常点往往是仅针对于整体数据集中用户关注的某一部分数据,传统的分类异常点显然无法解决此类实际需求。
此外,随着互联网技术的飞速发展以及对海量数据的处理需求,流数据系统应用越来越普遍,且大部分重要系统均需要实时监测异常点,如视频监控、银行交易安全监测等。此类流数据系统的特点是数据量无限且持续产生到达,限于存储及内存限制应用系统无法保存所有数据,而且限于实时要求往往只有单遍扫描机会。因此,对于流数据系统需要支持基于滑动窗口的查询检测,窗口内的数据随时间动态滑动更新,此时需要检测方法能够实时针对最新数据给出当前异常点。由于流数据系统往往需要对大量动态数据进行实时检测,而在多数情况下实际部署机器无法提供相应处理及存储能力,需要提供一种高效的检测方法。
流数据系统中的异常点检测是一个崭新的研究领域并有着重要的实用价值,但目前仍然缺乏一个成熟的技术方案,因此需要提供能够支持动态更新的在线属性异常点检测方法,在保证检测结果精度的前提下能够通过近似方法处理流数据系统中的海量动态数据。
发明内容
针对上述背景技术中存在的问题,为了向用户提供更加灵活、能够反映数据属性相关性的异常点检测结果,提过针对流数据系统的在线异常点检测,能够保证在高负载压力下为用户提供准确实时的检测结果输出,本发明的目的在于提供一种支持动态更新的在线属性异常点检测方法。
本发明采用的技术方案的步骤如下:
(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;
(2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;
(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;
(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;
(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出。
所述步骤(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据,该步骤选取的数据模型需要满足能够快速高效维护数据动态更新,满足在主流应用服务器部署实施,因此采用当前业内主流应用模型滑动窗口模型,对于流数据仅保存并保持更新最近一部分作为滑动窗口,并基于当前最新窗口进行查询处理。
所述步骤(2)使用在线聚类方法对流数据进行持续动态聚类,此线聚类方法需要对持续更新的流数据进行动态聚类划分,并且针对流数据内容漂移的特性,在线聚类方法能够始终维护保持反映最新数据内容的聚类划分状态;方法的具体实施包含以下内容:
1)在流数据更新之前建立初始化聚类划分,在初始化阶段对当前滑动窗口内数据进行聚类,并利用计算数据点之间几何距离来衡量数据之间的属性相关性,根据数据点间距离聚集相似、相关数据形成初始的聚类划分;
2)建立简洁的时间聚类特征数据结构维护聚类划分概要信息,描述每个划分的关键特征,能够根据概要信息还原聚类的中心以及划分范围半径;
3)针对动态更新的流数据在线维护聚类划分,流数据系统中每一时刻都有大量新生成数据到达,在线聚类方法需要实时的对这些新数据进行聚类,即时完成对划分的更新;
4)对时间聚类特征切片维护,实现聚类信息的动态更新,在完成对新生成数据的动态聚类后,需要及时更新聚类特征概要信息,由于采用滑动窗口模型,数据不断更新,产生新数据的同时大量陈旧数据需要过期,因此在对新数据聚类的同时还需要消除过期数据的概要信息;
5)根据在线聚类划分总数,进行必要的聚类合并操作保持聚类结果的质量以及总数的稳定;由于采用的聚类方法的特点,以及流数据不断生成的大量全新数据点,滑动窗口内将出现大量的微型聚簇,这些微型划分会严重降低最终聚类结果质量,同时将会占用大量内存,消耗系统资源,因此需要进行聚类合并。
所述步骤(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,需要在线维护后续异常点检测步骤中所需要的数据相关信息,采用基于距离的度量来计算数据点间的相关性以及检测异常点,因此对于每个数据点需要计算在在其指定距离领域内的邻居数目,当邻居总数低于用户指定阈值时,则说明该数据点异常,另外由于属性异常点的特点实际检测过程发生在每个独立的聚类划分中,所以在数据相关信息的维护过程中对每个聚类仅需维护更新其内部数据点相关信息。
所述步骤(3)在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构,在线维护过程中还需要针对动态更新的流数据对链表进行动态维护更新操作,具体步骤包括:
1)对于刚进入聚类的新数据点,生成对应节点加入链表尾部,接下来对链表进行反向遍历,计算各个前序节点与新节点的距离及邻居关系;
2)随着滑动窗口的滑动,将过期数据对应节点由链表中移除,保证之后检测过程中在其后序邻居的前向邻居数组中节点号为无效;
3)在发生聚类合并操作后,同时需要合并两个聚类的链表及更新节点信息。
所述步骤(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,流数据系统应用中经常会出现大量的数据动态更新,不断有海量的新生成数据涌入滑动窗口,此时应用服务器的内存、处理器等计算能力将不足以胜任对这些海量新数据进行异常点检测,也无法为用户提供实时检测结果,因此需要应用降载方法,减少相应工作负荷,保证检测处理的效率及实时性,应用的降载方法的核心思路是根据实际应用负载压力放弃部分数据,以此减轻进行属性异常点检测时的处理运算压力吗,而降载方法丢弃数据需要保证以下几点原则:
1)不丢弃最新未处理数据,同时保留丢弃数据在其所属聚类中信息,保证降载方法不对数据属性相关性及聚类划分产生影响;
2)降载方法在丢弃数据点时保证对最终检测结果影响最小,具体表现为:a)不丢弃当前是属性异常点的数据点;b)不丢弃将来可能成为属性异常点的数据点;
所述步骤(4)保证最后近似结果的误差可控,鉴于要保证对最终结果影响最小的降载原则,需要把当前滑动窗口内每个聚类中的安全点作为丢弃数据的候选集,所谓安全点是指其后序邻居数目超过用户指定的异常点判定阈值的数据点。
所述步骤4)选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控,降载方法的具体实施方式如下:
1)根据流数据系统应用实际负载压力确定降载方法的丢弃数据比例,保证应用服务器及检测方法能够支撑对剩余数据进行实时监测;
2)当滑动窗口内涌入的流数据超过系统额定负载能力时,开始在符合条件的聚类对象中进行降载,在该聚类内所有安全点中随机选取一部分进行丢弃降载,操作在达到指定降载比例上限后停止;
3)由于需要丢弃部分数据点,聚类内部原有链表节点结构需要进行相应调整;在降载过程中对每个链表节点使用新的属性信息结构代替前序邻居数组来计算每个节点的有效前序邻居总数,该属性信息结构记录节点在刚进入链表时其前序安全点邻居总数与当时聚类内安全点总数的比值,根据比值即可近似计算出其前序邻居总数。
所述步骤(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出,通过判断每个数据点的邻居数目是否超过用户指定的异常点判定阈值来确定异常点,并根据在线维护过程中实际发生的降载操作,在计算每个数据点的前序邻居总数时决定是否使用比值近似估算,应用相关评价方法及数据信息在每个聚类划分内检测属性异常点并实时输出。
本发明具有的有益效果是:
本发明提出了一种全新的属性异常点定义,与传统定义不同,属性异常点首先根据数据属性相关将整体数据集划分为多个部分,然后检测每个子集中的异常点,使用属性异常点,在检测异常点的同时考虑了数据属性之间的相关性,帮助用户在结合数据实际内容语境的前提下发掘异常点,能够在数据集中发掘更多有效异常信息;设计实现能够支持在线更新的属性异常点检测方法,动态维护聚类划分及数据属性相关性和邻居信息,建立了有效的降载方法,能够应对实际流数据系统负载压力,为用户提供实时属性异常点检测结果,并保证结果误差可控。
附图说明
图1是本发明实施步骤流程图。
图2是在线属性异常点检测方法工作原理示意图。
具体实施方式
现结合具体实施和示例对本发明的技术方案作进一步说明。
1、如图1与图2所示,本发明具体实施过程和工作原理如下:
1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;
2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;
3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;
4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;
5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出。
步骤1)选取的流数据系统模型需要满足能够快速高效维护数据动态更新,并在主流应用服务器部署实施。当前业内主流应用模型都是滑动窗口模型,对于流数据仅保存并保持更新最近一部分作为滑动窗口,并基于当前最新窗口进行查询处理,而滑动窗口模型分为两种,基于时间的窗口和基于计数的窗口,分别是维护最近一段时间的数据和维护最新一定量数据的滑动窗口,根据用户及应用的实际需求,选取合适的滑动窗口模型进行部署。
步骤2)开发的在线聚类方法需要对持续更新的流数据进行动态聚类划分,并且针对流数据内容漂移的特性,在线聚类方法能够始终维护保持反映最新数据内容的聚类划分状态。方法的具体实施包含以下内容:
1)在流数据更新之前建立初始化聚类划分,在初始化阶段对当前滑动窗口内数据进行聚类,聚类采用K-means方法,并利用计算数据点之间几何距离来衡量数据之间的属性相关性,最终通过建立K个虚拟中心点,根据数据点间距离聚集相似、相关数据形成初始的聚类划分;
2)建立简洁的时间聚类特征数据结构维护聚类划分概要信息,描述每个划分的关键特征,能够根据概要信息还原聚类的中心以及划分范围半径。对于每个聚类划分的时间聚类特征,记录三个方面的关键信息:a)当前聚类内数据点的个数总和;b)当前聚类内数据点属性值的多维无权重线性和;c)当前聚类内数据点属性值的平方和。利用这三个概要信息,通过计算线性和平均即得到聚类中心,继续使用平方和并借助方差公式计算得到聚类的虚拟边界的半径,得到中心以及半径后,即完整还原相应的聚类划分;
3)针对动态更新的流数据在线维护聚类划分,流数据系统中每一时刻都有大量新生成数据到达,在线聚类方法需要实时的对这些新数据进行聚类,即时完成对划分的更新,在线维护过程分为以下步骤:a)利用时间聚类特征信息计算各个聚类划分的半径以及中心;b)对于每个新生成数据寻找与其距离最接近的聚类中心;c)判断心数据点与最近中心距离是否超过聚类的最大上限边界,如果数据点落在边界内,则将其归入此聚类,否则以该数据点为中心建立全新聚类划分;
4)对时间聚类特征切片维护,实现聚类信息的动态更新。在完成对新生成数据的动态聚类后,需要及时更新聚类特征概要信息,由于采用滑动窗口模型,数据不断更新,产生新数据的同时大量陈旧数据需要过期,因此在对新数据聚类的同时还需要消除过期数据的概要信息,借助于聚类特征信息的可加性,本文采用切片管理方法将时间聚类特征概要信息按时间连续性划分为等大小的多个部分,每个部分均维护各自的聚类特征信息,在需要全局聚类特征信息时,将各个子部分信息累加而得;当子部分内所属数据点均过期时,即将该部分聚类特征信息由全局聚类结构中移除,定期消除过期数据影响。当聚类内部所有子部分均已过期,则表明聚类已经消失,将在当前滑动窗口内删除此聚类划分。
5)根据在线聚类划分总数,进行必要的聚类合并操作保持聚类结果的质量以及总数的稳定,由于采用的聚类方法的特点,以及流数据不断生成的大量全新数据点,滑动窗口内将出现大量的微型聚簇,这些微型划分会严重降低最终聚类结果质量,同时将会占用大量内存,消耗系统资源,因此需要进行聚类合并,选取当前聚类划分中聚类中心最为接近的两个聚类进行合并,借助聚类特征概要信息的可加性,合并操作通过线性相加完成。当滑动窗口内出现过多微型聚簇时,需要持续进行合并操作,直到聚类数目降到合理范围,能够保证最后得到较好的聚类结果时停止合并。
步骤3)需要在线维护后续异常点检测步骤中所需要的数据相关信息。本文采用基于距离的度量来计算数据点间的相关性以及检测异常点,因此对于每个数据点需要计算在在其指定距离领域内的邻居数目,当邻居总数低于用户指定阈值时,则说明该数据点异常,另外由于属性异常点的特点实际检测过程发生在每个独立的聚类划分中,所以在数据相关信息的维护过程中对每个聚类仅需维护更新其内部数据点相关信息,为了有效记录检测异常点所需关键信息,在每个聚类内生成一个有序的单向链表组织其内部所有数据点,链表每个节点均对应一个数据点,并包含以下信息:
1)记录对应数据点时间戳及其实际内容,单向链表按照节点进入聚类的先后时间升序排列,能够支持对过期数据的移除操作,节点记录数据实际内容,保持引用关系;
2)记录节点前序邻居数组,由于流数据不断动态更新,前序邻居将会早于节点被过期移除,因此需要建立数组保存节点号,便于在检测时验证该节点是否仍然有效。该属性信息保存链表中在节点时间戳之前的邻居节点号,并根据用户指定异常点判定阈值确定数组维度。设阈值为k,则数组仅需要保存与节点时间邻近的k个邻居节点号;
3)记录节点后序邻居总数,由于后序邻居时间戳较大,在节点生命周期内均不会过期移除,因此仅需要保存总数。
步骤3)还需要针对动态更新的流数据对链表进行动态维护更新操作,具体步骤包括:
1)对于刚进入聚类的新数据点,生成对应节点加入链表尾部,接下来对链表进行反向遍历,计算各个前序节点与新节点的距离及邻居关系,每发现一个落在新节点指定距离邻域内的前序节点,则更新新节点的前序邻居数组,并将前序节点的后序邻居总数加一;
2)随着滑动窗口的滑动,将过期数据对应节点由链表中移除,保证之后检测过程中在其后序邻居的前向邻居数组中节点号为无效;
3)在发生聚类合并操作后,同时需要合并两个聚类的链表及更新节点信息,将两个链表中所有节点按时间戳重排生成新聚类的单向链表,并重新遍历,更新所有节点在新链表中的前序邻居数组和后序邻居计数。
流数据系统应用中经常会出现大量的数据动态更新,不断有海量的新生成数据涌入滑动窗口,此时应用服务器的内存、处理器等计算能力将不足以胜任对这些海量新数据进行异常点检测,也无法为用户提供实时检测结果。因此需要应用降载方法,减少相应工作负荷,保证检测处理的效率及实时性,步骤4)中应用的降载方法的核心思路是根据实际应用负载压力放弃部分数据,以此减轻进行属性异常点检测时的处理运算压力吗,而降载方法丢弃数据需要保证以下几点原则:
1)不丢弃最新未处理数据,同时保留丢弃数据在其所属聚类中信息,保证降载方法不对数据属性相关性及聚类划分产生影响;
2)降载方法在丢弃数据点时保证对最终检测结果影响最小,具体表现为:a)不丢弃当前是属性异常点的数据点;b)不丢弃将来可能成为属性异常点的数据点。
鉴于要保证对最终结果影响最小的降载原则,步骤4)中需要当前滑动窗口内每个聚类中的安全点作为丢弃数据的候选集,所谓安全点是指其后序邻居数目超过用户指定的异常点判定阈值的数据点,而使用安全点作为降载候选集有以下两点原因:
1)由于安全点的后序邻居数目超过用户指定的异常点判定阈值,因此在安全点接下来的整个生命周期内其不可能成为异常点,且丢弃安全点会造成的影响是对于丢弃后新到达数据的邻居计算会出现误差,而这些误差通过后序的近似估计算法加以弥补,所以选择安全点作为丢弃数据候选集能够保证对最终检测结果的影响最小;
2)基于异常点的定义,在数据集中异常点始终是相对微小的部分,相对的绝大一部分数据将会成为安全点,这就为降载方法提供了足够大的降载能力,并根据用户需求和应用服务器实际负载压力灵活调整数据丢弃数量及比例,保证检测结果的实时输出。
步骤4)中的降载方法的具体实施方式如下:
1)根据流数据系统应用实际负载压力确定降载方法的丢弃数据比例,保证应用服务器及检测方法能够支撑对剩余数据进行实时监测,另外由用户对最后检测结果精度要求来限定降载对象以及数据丢弃比例,保证检测过程误差可控,a)首先根据Hoeffding不等式以及用户对误差精度要求,确定降载方法应用之聚类划分的大小下限,不对低于此下限的聚类丢弃数据,否则将引起较大误差;b)继续由棣莫弗一拉普拉斯定理推出降载比例上限,该上限与聚类大小以及用于精度相关,限定聚类内部安全点在所有数据点中的比例,确定在保证精度前提下,对该聚类内安全点进行丢弃直到其比例超过该上限;
2)当滑动窗口内涌入的流数据超过系统额定负载能力时,开始在符合条件的聚类对象中进行降载,在该聚类内所有安全点中随机选取一部分进行丢弃降载,操作在达到指定降载比例上限后停止;
3)由于需要丢弃部分数据点,聚类内部原有链表节点结构需要进行相应调整。在部分安全点丢弃过程中,每个节点的后序邻居计数不会收到影响,但是前序邻居数组将无法维持原有功用,因此,在降载过程中对每个链表节点使用新的属性信息结构代替前序邻居数组来计算每个节点的有效前序邻居总数,该属性信息结构记录节点在刚进入链表时其前序安全点邻居总数与当时聚类内安全点总数的比值,使用该比值的原因是由于:a)首先,根据降载方法,在每个降载的聚类内部其安全点总数始终保持在固定比例,并且丢弃过程保持随机,所以认为安全点在聚类链表中呈整体平均随机分布;b)基于安全点随机分布及保持稳定比例特性,每个节点的安全点邻居总数与安全点总数的比值实际上也近似等于该节点的邻居总数与聚类内数据点总数的比值,由于降载过程中大量数据被丢弃,节点实际邻居总数难以统计,因此使用相似比值近似模拟节点邻居信息;c)根据节点的相似比值以及该节点的前序链表节点数相乘,即近似计算出其前序邻居总数。
在滑动窗口每次滑动后,步骤5)需要应用相关评价方法及数据信息在每个聚类划分内检测属性异常点并实时输出,由于本文采用的是基于距离的异常点定义模式,因此通过判断每个数据点的邻居数目是否超过用户指定的异常点判定阈值来确定异常点,而根据在线维护过程中实际发生的降载操作,在计算每个数据点的前序邻居总数时需要分为以下两种:
1)当在线维护过程中未发生过降载操作,此时通过检索聚类链表节点的前序邻居数组来计算前序邻居总数,对于数组中每个引用节点号检查其是否已过期,最后数组内未过期的所有节点总数即为链表节点当前有效的前序邻居总数;
2)当在线维护过程中发生过降载操作,需要根据链表节点存储的前序安全点邻居与安全数据点总数的比值估算前序邻居总数,遍历该节点的前序链表,将其链表前序节点总数与近似比值的乘积作为前序邻居总数的估算值,能够证明该步骤近似估算误差可控。
Claims (2)
1.一种支持动态更新的在线属性异常点检测方法,其特征在于该方法的步骤如下:
(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据;
(2)使用在线聚类方法对流数据进行持续动态聚类,实现基于数据属性相关性的聚类划分;
(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构;
(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控;
(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出;
所述步骤(1)选取符合流数据系统在数据生成、检测方式和用户需求三方面的要求的数据模型维护持续动态更新的流数据,该步骤选取的数据模型需要满足能够快速高效维护数据动态更新,满足在主流应用服务器部署实施,因此采用当前业内主流应用模型滑动窗口模型,对于流数据仅保存并保持更新最近一部分作为滑动窗口,并基于当前最新窗口进行查询处理;
所述步骤(2)使用在线聚类方法对流数据进行持续动态聚类,此线聚类方法需要对持续更新的流数据进行动态聚类划分,并且针对流数据内容漂移的特性,在线聚类方法能够始终维护保持反映最新数据内容的聚类划分状态;方法的具体实施包含以下内容:
1)在流数据更新之前建立初始化聚类划分,在初始化阶段对当前滑动窗口内数据进行聚类,并利用计算数据点之间几何距离来衡量数据之间的属性相关性,根据数据点间距离聚集相似、相关数据形成初始的聚类划分;
2)建立简洁的时间聚类特征数据结构维护聚类划分概要信息,描述每个划分的关键特征,能够根据概要信息还原聚类的中心以及划分范围半径;
3)针对动态更新的流数据在线维护聚类划分,流数据系统中每一时刻都有大量新生成数据到达,在线聚类方法需要实时的对这些新数据进行聚类,即时 完成对划分的更新;
4)对时间聚类特征切片维护,实现聚类信息的动态更新,在完成对新生成数据的动态聚类后,需要及时更新聚类特征概要信息,由于采用滑动窗口模型,数据不断更新,产生新数据的同时大量陈旧数据需要过期,因此在对新数据聚类的同时还需要消除过期数据的概要信息;
5)根据在线聚类划分总数,进行必要的聚类合并操作保持聚类结果的质量以及总数的稳定;由于采用的聚类方法的特点,以及流数据不断生成的大量全新数据点,滑动窗口内将出现大量的微型聚簇,这些微型划分会严重降低最终聚类结果质量,同时将会占用大量内存,消耗系统资源,因此需要进行聚类合并;
所述步骤(3)动态维护流数据更新下的聚类划分,并持续更新数据点之间的邻居关系和距离信息,需要在线维护后续异常点检测步骤中所需要的数据相关信息,采用基于距离的度量来计算数据点间的相关性以及检测异常点,因此对于每个数据点需要计算在在其指定距离领域内的邻居数目,当邻居总数低于用户指定阈值时,则说明该数据点异常,另外由于属性异常点的特点实际检测过程发生在每个独立的聚类划分中,所以在数据相关信息的维护过程中对每个聚类仅需维护更新其内部数据点相关信息;
所述步骤(3)在线维护聚类相关信息,随着数据的动态更新保持维护相关概要信息结构,在线维护过程中还需要针对动态更新的流数据对链表进行动态维护更新操作,具体步骤包括:
1)对于刚进入聚类的新数据点,生成对应节点加入链表尾部,接下来对链表进行反向遍历,计算各个前序节点与新节点的距离及邻居关系;
2)随着滑动窗口的滑动,将过期数据对应节点由链表中移除,保证之后检测过程中在其后序邻居的前向邻居数组中节点号为无效;
3)在发生聚类合并操作后,同时需要合并两个聚类的链表及更新节点信息;
所述步骤(4)保证最后近似结果的误差可控,鉴于要保证对最终结果影响最小的降载原则,需要把当前滑动窗口内每个聚类中的安全点作为丢弃数据的候选集,所谓安全点是指其后序邻居数目超过用户指定的异常点判定阈值的数据点;
所述步骤(4)选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,并能保证最后近似结果的误差可控,降载方法的具体实施方式如下:
1)根据流数据系统应用实际负载压力确定降载方法的丢弃数据比例,保证应用服务器及检测方法能够支撑对剩余数据进行实时监测;
2)当滑动窗口内涌入的流数据超过系统额定负载能力时,开始在符合条件的聚类对象中进行降载,在该聚类内所有安全点中随机选取一部分进行丢弃降载,操作在达到指定降载比例上限后停止;
3)由于需要丢弃部分数据点,聚类内部原有链表节点结构需要进行相应调整;在降载过程中对每个链表节点使用新的属性信息结构代替前序邻居数组来计算每个节点的有效前序邻居总数,该属性信息结构记录节点在刚进入链表时其前序安全点邻居总数与当时聚类内安全点总数的比值,根据比值即可近似计算出其前序邻居总数;
所述步骤(5)根据聚类划分及数据点邻居两方面相关数据信息及属性异常点评价方法,在每个聚类划分中检测异常点作为最终属性异常点结果输出,通过判断每个数据点的邻居数目是否超过用户指定的异常点判定阈值来确定异常点,并根据在线维护过程中实际发生的降载操作,在计算每个数据点的前序邻居总数时决定是否使用比值近似估算,应用相关评价方法及数据信息在每个聚类划分内检测属性异常点并实时输出。
2.根据权利要求1所述的一种支持动态更新的在线属性异常点检测方法,其特征在于:所述步骤(4)建立数据降载方法,根据流数据系统中实际负载以及对实时性的要求,选取能够达到流数据系统实时性要求的降载方法以及近似技术保证检测方法的实时完成,流数据系统应用中经常会出现大量的数据动态更新,不断有海量的新生成数据涌入滑动窗口,此时应用服务器的内存、处理器计算能力将不足以胜任对这些海量新数据进行异常点检测,也无法为用户提供实时检测结果,因此需要应用降载方法,减少相应工作负荷,保证检测处理的效率及实时性,应用的降载方法的核心思路是根据实际应用负载压力放弃部分数据,以此减轻进行属性异常点检测时的处理运算压力,而降载方法丢弃数据需要保证以下几点原则:
1)不丢弃最新未处理数据,同时保留丢弃数据在其所属聚类中信息,保证降载方法不对数据属性相关性及聚类划分产生影响;
2)降载方法在丢弃数据点时保证对最终检测结果影响最小,具体表现为:a)不丢弃当前是属性异常点的数据点;b)不丢弃将来可能成为属性异常点的数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102379226A CN101908065B (zh) | 2010-07-27 | 2010-07-27 | 一种支持动态更新的在线属性异常点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102379226A CN101908065B (zh) | 2010-07-27 | 2010-07-27 | 一种支持动态更新的在线属性异常点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101908065A CN101908065A (zh) | 2010-12-08 |
CN101908065B true CN101908065B (zh) | 2012-05-23 |
Family
ID=43263525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102379226A Expired - Fee Related CN101908065B (zh) | 2010-07-27 | 2010-07-27 | 一种支持动态更新的在线属性异常点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101908065B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150049877A (ko) * | 2013-10-31 | 2015-05-08 | 삼성에스디에스 주식회사 | 데이터 군집 관리 장치 및 방법 |
DE102013226605A1 (de) * | 2013-12-16 | 2015-06-18 | Continental Automotive Gmbh | Verfahren und System zur Bestimmung einer Anzahl zu verwerfender Fahrzeug-zu-X-Botschaften |
CN104869105B (zh) * | 2014-02-26 | 2018-04-24 | 重庆邮电大学 | 一种异常状态在线识别方法 |
CN104317666B (zh) * | 2014-10-23 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 一种异常处理方法及装置 |
CN104809594B (zh) * | 2015-05-13 | 2019-02-15 | 中国电力科学研究院 | 一种基于动态离群点检测的配电网数据在线清洗方法 |
CN104954063B (zh) * | 2015-06-24 | 2018-05-01 | 成都民航空管科技发展有限公司 | 一种ads-b数据融汇方法及系统 |
CN105512474B (zh) * | 2015-12-02 | 2017-12-12 | 国网山东省电力公司电力科学研究院 | 一种变压器状态监测数据的异常检测方法 |
CN107124329B (zh) * | 2017-04-25 | 2020-05-05 | 济南大学 | 基于低水位滑动时间窗口的离群数据发现方法及系统 |
CN107133104B (zh) * | 2017-05-15 | 2020-07-21 | 广东工业大学 | 一种分布式流数据处理方法 |
CN107168776B (zh) * | 2017-05-16 | 2020-09-22 | 广州视源电子科技股份有限公司 | 一种事件统计方法、装置、设备及存储介质 |
CN107341239B (zh) * | 2017-07-05 | 2020-08-07 | 广东工业大学 | 一种集群数据分析方法及装置 |
CN107547266B (zh) * | 2017-07-31 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 在线量异常点的检测方法和装置、计算机设备和存储介质 |
CN107436954B (zh) * | 2017-08-16 | 2018-10-02 | 吉林大学 | 一种在线流数据近似处理质量控制方法及装置 |
CN109990803B (zh) * | 2018-01-02 | 2022-05-24 | 西门子(中国)有限公司 | 检测系统异常的方法、装置及传感器处理的方法、装置 |
CN109298225B (zh) * | 2018-09-29 | 2020-10-09 | 国网四川省电力公司电力科学研究院 | 一种电压量测数据异常状态自动识别模型系统及方法 |
CN110084326B (zh) * | 2019-05-13 | 2022-12-06 | 东北大学 | 一种基于模糊集的工业设备异常检测方法 |
CN110134676B (zh) * | 2019-06-03 | 2021-01-29 | 西安电子科技大学 | 一种传感器数据质量的监控方法 |
CN110472191B (zh) * | 2019-07-02 | 2021-03-12 | 北京大学 | 一种动态自适应的服务评价计算方法及装置 |
CN111060133B (zh) * | 2019-12-04 | 2020-10-20 | 南京航空航天大学 | 一种用于城市复杂环境的组合导航完好性监测方法 |
CN111935072B (zh) * | 2020-06-19 | 2023-11-07 | 河海大学常州校区 | 一种云环境中基于警报关联的分布式入侵检测方法 |
CN112183621A (zh) * | 2020-09-27 | 2021-01-05 | 国网宁夏电力有限公司电力科学研究院 | 电能质量监测数据驱动的变压器状态异常检测方法 |
CN112381130A (zh) * | 2020-11-10 | 2021-02-19 | 国网上海市电力公司 | 一种基于聚类分析的配电房多元数据异常检测方法 |
CN112765219B (zh) * | 2021-02-01 | 2022-04-29 | 浙江大学 | 一种跳过平稳区域的流数据异常检测方法 |
CN112948215A (zh) * | 2021-03-04 | 2021-06-11 | 浪潮云信息技术股份公司 | 基于分布式数据库日志数据的实时异常检测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1312881C (zh) * | 2004-09-09 | 2007-04-25 | 复旦大学 | 实时监测流数据突变的方法 |
CN100487698C (zh) * | 2006-04-17 | 2009-05-13 | 中国科学院计算技术研究所 | 计算滑动窗口下数据流最大值和最小值的方法和系统 |
-
2010
- 2010-07-27 CN CN2010102379226A patent/CN101908065B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101908065A (zh) | 2010-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101908065B (zh) | 一种支持动态更新的在线属性异常点检测方法 | |
Akidau et al. | Millwheel: Fault-tolerant stream processing at internet scale | |
Xue et al. | Contour map matching for event detection in sensor networks | |
CN102694868B (zh) | 一种集群系统实现及任务动态分配方法 | |
Guo et al. | Real time traffic flow outlier detection using short-term traffic conditional variance prediction | |
Yu et al. | Scalable distributed processing of K nearest neighbor queries over moving objects | |
AU2010232795B2 (en) | Differential file and system restores from peers and the cloud | |
AU2010239221B2 (en) | Intelligent tiers of backup data | |
CN108090225B (zh) | 数据库实例的运行方法、装置、系统及计算机可读存储介质 | |
CN105871634B (zh) | 检测集群异常的方法及应用、管理集群的系统 | |
CN102521269A (zh) | 一种基于索引的计算机连续数据保护方法 | |
CN101833489A (zh) | 一种文件实时监控和智能备份的方法 | |
CN107925612A (zh) | 网络监视系统、网络监视方法和程序 | |
CN102306157B (zh) | 数据中心环境下一种面向节能的高可靠数据存储方法 | |
CN103139256B (zh) | 一种多租户网络舆情监控方法及系统 | |
CN107193266A (zh) | 一种大数据的平台监控系统 | |
CN103106152A (zh) | 基于层次存储介质的数据调度方法 | |
CN101615176B (zh) | 一种数据监测系统及实现方法 | |
CN102982180A (zh) | 数据存储方法及设备 | |
CN102314521B (zh) | 一种基于云计算环境的分布并行Skyline查询方法 | |
CN102332004B (zh) | 用于海量数据管理的数据处理方法和系统 | |
Golab et al. | Data stream warehousing | |
CN108415355A (zh) | 一种大数据的高效识别系统 | |
CN104298669A (zh) | 一种基于社交网络的人员地理信息挖掘模型 | |
CN109101599A (zh) | 一种增量索引更新方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120523 Termination date: 20210727 |
|
CF01 | Termination of patent right due to non-payment of annual fee |