CN104902509A - 基于top-k(σ)算法的异常数据检测方法 - Google Patents

基于top-k(σ)算法的异常数据检测方法 Download PDF

Info

Publication number
CN104902509A
CN104902509A CN201510256798.0A CN201510256798A CN104902509A CN 104902509 A CN104902509 A CN 104902509A CN 201510256798 A CN201510256798 A CN 201510256798A CN 104902509 A CN104902509 A CN 104902509A
Authority
CN
China
Prior art keywords
data
cell
small
point
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510256798.0A
Other languages
English (en)
Other versions
CN104902509B (zh
Inventor
李光辉
胡石
冯海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang A&F University ZAFU
Original Assignee
Zhejiang A&F University ZAFU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang A&F University ZAFU filed Critical Zhejiang A&F University ZAFU
Priority to CN201510256798.0A priority Critical patent/CN104902509B/zh
Publication of CN104902509A publication Critical patent/CN104902509A/zh
Application granted granted Critical
Publication of CN104902509B publication Critical patent/CN104902509B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开了一种基于top-k(σ)算法的异常数据检测方法,通过构造PC列表,将潜在异常数据点对应的小数据单元格对应的第四列数据分别与阈值进行比较,如果大于阈值,则与该第四列数据对应的小数据单元格内的数据点为异常数据点,否则为正常数据点;有效避免了把异常值误判为正常值或者有效避免了将正常值误判为异常值,大大降低了本发明算法的误报率,通过具体仿真实验发现,本发明提出的算法的误报率比基于top-k算法降低了4.48%;本发明通过调整阈值的取值大大提高了本发明算法的检测率,通过具体仿真实验发现,本发明提出的算法检测率达到了93.7%,本发明的算法与基于top-k算法比较检测率提高了4.94%。

Description

基于top-k(σ)算法的异常数据检测方法
技术领域
本发明涉及一种无线传感器网络异常数据检测方法,具体是涉及一种基于top-k(σ)算法的无线传感器网络异常数据检测方法。
背景技术
在真实的生活环境中存在很多物理现象(比如温度、湿度、大气压力等)都需要持续地被监测。无线传感器网络作为一种非常重要的数据来源,其采集的数据非常容易受到各种噪声来源的影响,比如节点软硬件故障,节点通信时遇到的环境噪声。这些噪声会严重影响传感器的读数,以及数据的分布情况,导致传感器产生不精确的或不正确的数据。因此,设计一种有效的数据流分析处理方法是近年来无线传感器网络异常检测研究的重点。
异常检测技术在各个领域中都是一个深入研究的问题,无线传感器网路独特的特点以及严格的约束条件使得该问题的研究更具有挑战性。针对无线传感器网路中的异常数据检测问题,目前已经提出过很多种方法,这些方法可以分为基于分布的、基于深度的、基于聚类的、基于距离的以及基于密度的方法。此外,按照传感器网络体系机构异常检测技术又可以集中分为集中式的和分布式的。
Shaikh S A等人提出的基于top-k算法在数据挖掘等领域中具有广泛的应用,该算法主要是通过构造构造数据列表,将列表中的某列按数据特征进行升序排列,从而进行异常数据的判断,该方法的优点是根据构造的数据列表可以直观地识别异常数据点分布的区域及数目,且该方法在无线传感器网络异常数据检测应用中尚未见到。但是,由于目前大规模无线传感器网络数据异常值的出现并无特定规律,如果传感器采集到的无线传感网络数据的异常值持续、频繁出现,或者异常值在正常值周围分布比较均匀时,基于top-k算法的无线传感器网络异常检测方法则不能有效地检测出异常值。
因此,需要提出一种新型的无线传感器网络异常值检测方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种高检测率和低误报率的基于top-k(σ)算法的异常数据检测方法。
技术方案:为实现上述目的,本发明的提供的一种基于top-k(σ)算法的异常数据检测方法,包括以下步骤:
S1:将传感器节点采集的数据进行数据标准化处理;
S2:根据处理后的数据的分布规律构造数据单元格,该数据单元格包括若干个小数据单元格,小数据单元格表示为Ci×j,其中i表示小数据单元格的行号以及j表示小数据单元格的列号;
S3:构造PC列表,所述PC列表包括四列数据,第一列数据表示小数据单元格Ci×j的位置,第二列数据表示该小数据单元格Ci×j中数据点的个数,第二列数据用N(C)表示,第三列数据ND(C)表示该小数据单元格Ci×j的D领域内的数据点的个数,第三列数据用ND(C)表示,第四列数据RD表示分布数据集到中心数据集的距离,第四列数据用RD表示;
S4:将小数据单元格Ci×j中数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第二列数据中,将小数据单元格Ci×j的D领域内的数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第三列数据中,将分布数据集到中心数据集的距离填入所述PC列表中与该小数据单元格Ci×j对应的第四列数据中。
S5:将所述PC列表中的第三列数据进行升序排列;
S6:将排列后的PC列表中位于上层位置的对应的小数据单元格Ci×j中的数据点作为潜在异常数据点;
S7:将所述潜在异常数据点对应的小数据单元格Ci×j对应的第四列数据分别与阈值σ进行比较,如果第四列数据大于阈值σ,则与该第四列数据对应的小数据单元格Ci×j内的数据点为异常数据点,否则与该第四列数据对应的小数据单元格Ci×j内的数据点为正常数据点。
进一步地,步骤S3中所述小数据单元格Ci×j的D领域表示以点o为中心,D为半径的领域,其中所述点o位于所述小数据单元格Ci×j的正中心,所述半径D为正数。
进一步地,步骤S3中计算分布数据集到中心数据集的距离包括以下步骤:
S31:设传感器节点采集的所有数据点的集合为样本集Γ,所述中心数据集是指所述样本集Γ中正常数据点的集合,所述分布数据集是指所述样本集Γ中任一子集;
S32:设数据点o1是所述中心数据集的中心数据点,设数据点o2是所述分布数据集的中心数据点;
S33:计算所述数据点o1和所述数据点o2之间的欧式距离,则所述数据点o1和所述数据点o2之间的欧式距离为所述分布数据集到所述中心数据集的距离。
进一步地,步骤S7中所述阈值σ的取值范围是2.5~3。
有益效果:本发明提出的基于top-k(σ)算法主要是针对现有技术中基于top-k算法的改进,具有的优点是:
1、利用基于top-k算法对异常值进行检测时,当异常点在某个单元格内分布比较密集时,根据ND(C)所在的列按升序排列后,异常点所在的数据单元格就不会位于PC列表的前几行,这样容易将异常值误判为正常值;或者当正常数据点分布疏散,根据ND(C)所在的列按升序排列后,正常数据点所在的数据单元格可能会出现在PC列表的前几行,这样容易将正常值误判为异常值;而本发明通过增设距离阈值σ和PC列表中数据列RD,利用位于PC列表中前几行的RD的值与阈值σ进行比较来判定无线传感器网络数据异常情况,有效避免了把异常值误判为正常值或者有效避免了将正常值误判为异常值,大大降低了本发明算法的误报率,通过具体仿真实验发现,本发明提出的算法的误报率比基于top-k算法降低了4.48%;
2、本发明通过调整阈值σ的取值大大提高了本发明算法的检测率,通过具体仿真实验发现,本发明提出的算法检测率达到了93.7%,本发明的算法与基于top-k算法比较检测率提高了4.94%。
附图说明
图1是本发明提出的基于top-k(σ)算法的异常数据检测方法的流程图;
图2是单元格领域示意图;
图3是分布数据集到中心数据集的距离示意图;
图4是样本数据分布示意图;
图5是不同的阈值σ所对应的top-k(σ)算法的检测率;
图6是不同的阈值σ所对应的top-k(σ)算法的误报率;
图7是基于top-k算法和基于top-k(σ)算法两种算法的检测率的对比图;
图8是基于top-k算法和基于top-k(σ)算法两种算法的误报率的对比图。
具体实施方式
下面结合实施例对本发明作更进一步的说明。
本发明提出的一种基于top-k(σ)算法的异常数据检测方法,参照图1,当无线传感器网络应用于环境检测时,传感器节点采集的数据属性包括温度、湿度、大气压力等,这些数据属性的度量单位不一致,所以在利用本发明的方法时首先需要对传感器节点采集的数据进行数据标准化处理;
然后根据处理后的数据的分布规律构造数据单元格,数据点分布在数据单元格中,该数据单元格是由若干个小数据单元格组成,也可以说是由若干个矩形网格组成,其中每一个小数据单元格可以表示为Ci×j,其中i表示小数据单元格在数据单元格中的行号以及j表示小数据单元格在数据单元格中的列号,参照图4,数据单元格是一个7行7列的数据单元格以第7行第5列的小数据单元格为例,该小数据单元格表示为C7×5
接着构造PC列表,所述PC列表包括四列数据,第一列数据表示小数据单元格在数据单元格中的位置,用Ci×j表示,第二列数据表示该小数据单元格Ci×j中数据点的个数,用N(C)表示,第三列数据表示该小数据单元格Ci×j的D领域内的数据点的个数,用ND(C)表示,第四列数据表示分布数据集到中心数据集的距离,用RD表示;其中小数据单元格Ci×j的D领域是指以点o为中心,D为半径的领域,参照图2,图2中每个矩形方格表示一个小数据单元格,以正中间的小数据单元格为例,正中间的小数据单元格的D领域就是以点o为中心,D为半径的圆形领域,其中点o位于所述正中间的小数据单元格的正中心位置,半径D为正数,以图4为例,小数据单元格C7×5的D领域内的数据点的个数为2个,小数据单元格C7×5中数据点的个数为1个;
当实际进行检测时,传感器节点采集的数据样本非常大,需要通过计算得到小数据单元格Ci×j中数据点的个数和D领域内的数据点的个数;
设小数据单元格Ci×j的中心点为oi,则以oi为中心,r为半径的领域即为小数据单元格Ci×j的r领域内数据点的个数,假定oi的r邻域集和oi的r邻域内数据点个数分别表示成DN(oi)和#DN(oi)。设Ai和Aj分别表示两个独立的d维正态随机向量,均值分别为ui=[ui1,...,uid]T和uj=[uj1,...,ujd]T,协方差分别为Σi=diag(σi1 2,...,σid 2)和Σj=diag(σj1 2,...,σjd 2),则Ai-Aj~N(ui-ujij),设Pr(oi,oj,r)表示oj∈DN(oi)的概率,则
Pr(oi,oj,r)=∫RN(ui-ujij)dA   (1)
其中,R是以(ui-uj)为圆心,r为半径的圆;
设oi和oj分别表示两个二维数据样本,其属性满足Ai~N(uii)和Aj~N(ujj),而ui=[ui1,ui2]T,uj=[uj1,uj2]T和Σi=diag(σi1 2i2 2),Σj=diag(σj1 2j2 2)。则
Pr(oi,oj,r)可表示为:
Pr ( o i , o j , r ) = 1 2 π ( σ i 1 2 + σ j 1 2 ) ( σ i 2 2 + σ j 2 2 ) × ∫ 0 D ∫ 0 2 π e { - ( ( r cos θ - a 1 ) 2 2 ( σ i 1 2 + σ j 1 2 ) + ( r sin θ - a 2 ) 2 2 ( σ i 2 2 + σ j 2 2 ) ) } r d θ d r - - - ( 2 )
其中,a1=ui1-uj1和a2=ui2-uj2
假定σi1=σj1=σi2=σj2=σ,并使a2=a1 2+a2 2,因此,公式(2)可简化为:
Pr ( o i , o j , r ) = 1 4 πσ 2 × ∫ 0 D ∫ 0 2 π e { - 1 4 σ 2 ( r 2 - 2 a r cos θ + a 2 ) } r d θ d r - - - ( 3 )
由公式(3)可知,Pr(oi,oj,r)的大小不受oi,oj方差的影响,其大小仅仅取决于a2的大小,因此,Pr(oi,oj,r)可用Pr(a,r)表示,a表示为{oi∈Γ}和{oj∈Γ}的欧拉距离的均值,则对于每个二维数据oj,Pr(oi,oj,r)的累积值就是oi的r邻域内数据点个数,即#DN(oi)+=Pr(oi,oj,r);
接着计算分布数据集到中心数据集的距离RD,首先介绍几个概念:假设传感器节点采集的所有数据点的集合为样本集Γ,则中心数据集是指所述样本集Γ中正常数据点的集合,分布数据集是指所述样本集Γ中任一子集,设数据点o1是所述中心数据集的中心数据点,设数据点o2是所述分布数据集的中心数据点,则所述数据点o1和所述数据点o2之间的欧式距离就是所述分布数据集到所述中心数据集的距离RD,参照图3,设A为中心数据集,B为分布数据集,则中心数据集A到分布数据集B的距离RD就是计算中心数据集A的中心数据点o1到分布数据集B的中心数据点o2之间的欧式距离;
接着将小数据单元格Ci×j中数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第二列数据N(C)中,将小数据单元格Ci×j的D领域内的数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第三列数据ND(C)中,将分布数据集到中心数据集的距离填入所述PC列表中与该小数据单元格Ci×j对应的第四列数据RD中,以图4为例,小数据单元格C7×5的D领域内的数据点的个数ND(C)为2,小数据单元格C7×5中数据点的个数N(C)为1,分布数据集到中心数据集的距离RD为3.04。
将若干个小数据单元格Ci×j的数据特性:包括N(C)、ND(C)和RD分别填入所述PC列表中,接着将所述PC列表中的第三列数据ND(C)按照数值大小进行升序排列,这样ND(C)数据较小的对应的小数据单元格就位于PC列表的上层,也就是PC列表的最前面几行,将排在PC列表中最前面几行且ND(C)值明显低于其他ND(C)值的对应的第四列数据RD与阈值σ进行比较,如果第四列数据RD远远大于阈值σ,则与该第四列数据RD对应的小数据单元格Ci×j内的所有数据点判定为异常数据点,否则判定为正常数据点。
作为优选,所述阈值σ的取值范围是2.5~3。
实施例:首先根据样本数据点的分布规律构造数据单元格,参照图4,是一个简单的数据样本分布示意图,该数据单元格是一个7行7列的数据单元格,该数据单元格中包括多个小矩形网格,该小矩形网格就是小数据单元格,小数据单元格表示为Ci×j,其中i=1,…,7;j=1,…,7,可以看出在该数据单元格中大多数数据点集中在第3行第6列即数据单元格C3×6中,则该数据点集合作为中心数据点集合;然后构造PC列表,分别将各个小数据单元格中数据点的个数填入PC列表第二列中,将小数据单元格的D领域内数据点的个数填入PC列表第三列中,将分布数据集到中心数据集的距离填入PC列表第四列中,本发明实施例选取了图4数据单元格中的14个小数据单元格,分别将14个小数据单元格的各个特征值(包括N(C)、ND(C)和RD)填入PC列表中,PC列表如表1所示:
表1
Cell N(C) ND(C) RD
C7×5 1 2 3.04
C7×7 1 2 3.63
C3×2 1 3 3.37
C4×2 2 3 3.35
C7×6 1 3 3.36
C2×5 1 6 1.09
C4×5 1 8 0.4
C2×7 2 9 1.6
C4×7 1 10 0.99
C2×6 1 14 1.3
C3×5 2 14 0.68
C3×7 1 14 1.22
C4×6 3 15 0.28
C3×6 8 19 0.82
接着将PC列表中的第三列数据即ND(C)列进行升序排列,经排列后发现,数据单元格的D领域内数据点个数较少的就自然出现再PC列表的最前面几行,则将排在PC列表中前面几行的数据单元格中所有数据点作为潜在异常数据点,表1中,可以将PC列表中前面5行对应的数据单元格(即C7×5、C7×7、C3×2、C4×2、C7×6)中的所有数据点作为潜在异常点;接着将5个数据单元格(即C7×5、C7×7、C3×2、C4×2、C7×6)分别对应的RD值与阈值σ进行比较,数据单元格C7×5对应的RD值为3.04,而本发明所述阈值σ的取值范围是2.5~3,则数据单元格C7×5对应的RD值大于阈值σ,所以数据单元格C7×5中的所有数据点即为异常数据点;同理,数据单元格C7×7的RD值为3.63,则数据单元格C7×7对应的RD值大于阈值σ,所以数据单元格C7×7中的所有数据点即为异常数据点,数据单元格C3×2的RD值为3.37,则数据单元格C3×2对应的RD值大于阈值σ,所以数据单元格C3×2中的所有数据点即为异常数据点,数据单元格C4×2的RD值为3.35,则数据单元格C4×2对应的RD值大于阈值σ,所以数据单元格C4×2中的所有数据点即为异常数据点,数据单元格C7×6的RD值为3.36,则数据单元格C7×6对应的RD值大于阈值σ,所以数据单元格C7×6中的所有数据点即为异常数据点。
实验验证:
本文利用MATLAB(R2010b)软件平台,对所提出的无线传感器网络异常数据检测方法进行仿真分析。实验数据来源于无线传感器网络野外实验系统,该系统采样频率为每隔10分钟采样一次。选择编号为1391的节点在2013年4月份测得的温度、湿度作为实验数据。共进行了五组不同样本大小的仿真实验,仿真实验选取的样本数据大小分别为50组、100组、400组、800组和1000组。
为了评价和比较两种无线传感器网络异常数据检测方法的性能,本文使用检测率、误报率作为主要性能评价指标。检测率是指算法检测到的异常数据样本数与实际的异常数据样本总数之比;误报率是指被算法误判为异常的正常数据样本数与总的正常数据样本数之比。
验证参数σ对算法top-k(σ)性能的影响:
为了比较参数σ对top-k(σ)算法性能的影响,本文针对50组数据、100组数据、400组数据、800组数据以及1000组数据这五个不同规模的样本集进行实验。通过实验发现,上述样本集随参数σ取值的不同,其相应的检测率和误报率也随之发生变化,实验结果如图6和图7所示,横坐标表示所选取的五个样本(分别用样本1、样本2、样本3、样本4及样本5表示),纵坐标则表示算法所对应的检测率、误报率。
本实验主要选取σ=2,σ=2.5,σ=3以及σ=3.5这四个参数值进行实验,根据图5和图6不难发现,当σ=2时,其检测率维持在98%以上,但其所对应的误报率也相对较高。这是因为σ参数选取越小,top-k(σ)算法进行异常情况判断的区域随之变大(即,如果之前将σ>3区域判为异常值,现在需将σ>2区域判为异常值),该区域内的异常数据通过算法可快速识别出来,但同时也容易将该区域内的部分正常数据误判为异常值。此时,算法的检测率相对较高(维持在98%以上),但误报率也相对较高(平均达到了1.6%);
当σ=3.5时,算法进行异常判断的区域缩小(即如果之前将σ>3区域判为异常值,现在需将σ>3.5区域判为异常值),故此区域内很多异常点难以通过该算法识别出来,则其检测率就较低(维持在65%左右),但其误报率却很低,降到0.5%以下。通过上述分析可知,当σ取在2.5和3之间时,既能保证top-k(σ)算法在维持较高检测率的同时,也能最大程度地降低误报率;
综上所述,所述阈值σ的取值范围是2.5~3。
验证数据样本规模对算法性能的影响:
根据上述实验中的参数σ对top-k(σ)算法性能的影响,这里取σ=3作为参照,为了比较top-k与top-k(σ)两种算法的检测效果,利用top-k算法与t top-k(σ)算法分别对五组不同规模大小的实验样本进行多次实验。
通过该实验发现,top-k算法与top-k(σ)算法检测率的对比如图7所示,其误报率对比如图8所示。横坐标表示所选取的五个样本(分别用样本1、样本2、样本3、样本4及样本5表示),纵坐标则表示算法所对应的检测率、误报率,柱形图中空心柱形条表示的是top-k算法,实心柱形条表示的是top-k(σ)算法。
当选用实验数据样本较少、数据分布较疏散(即样本1)时,top-k(σ)算法的检测率明显高于top-k算法,这是因为受样本数目及其数据分布的影响,top-k算法只能识别某单元格邻域内的相应数据点,但不能判断各个单元格数据点间的相对距离是否在其异常范围之外,而top-k(σ)算法通过引进阈值σ很好地弥补了该缺陷,故在该种情况下,top-k(σ)算法的检测率高出top-k算法16.66%,相应地误报率降低了2.08%。
随着实验样本数目的不断变大,top-k算法的检测率逐步提高,误报率也相应降低,这是因为样本数目的增多,正常数据点与异常数据点有了明显的区域差别(即两种数据点的分布差异明显)。此时,异常区域范围内的数据点个数远少于正常数据点个数,故top-k算法能容易识别大部分异常值。但top-k(σ)算法的检测率始终高于top-k算法,以及误报率低于top-k算法。其原因是top-k(σ)算法是建立在top-k算法的基础上,通过增设阈值σ,使其算法的判断精度更精确,这样可以识别一些top-k算法无法识别的异常值。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.基于top-k(σ)算法的异常数据检测方法,其特征在于:包括以下步骤:
S1:将传感器节点采集的数据进行数据标准化处理;
S2:根据处理后的数据的分布规律构造数据单元格,该数据单元格包括若干个小数据单元格,小数据单元格表示为Ci×j,其中i表示小数据单元格的行号以及j表示小数据单元格的列号;
S3:构造PC列表,所述PC列表包括四列数据,第一列数据表示小数据单元格Ci×j的位置,第二列数据表示该小数据单元格Ci×j中数据点的个数,第二列数据用N(C)表示,第三列数据ND(C)表示该小数据单元格Ci×j的D领域内的数据点的个数,第三列数据用ND(C)表示,第四列数据RD表示分布数据集到中心数据集的距离,第四列数据用RD表示;
S4:将小数据单元格Ci×j中数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第二列数据中,将小数据单元格Ci×j的D领域内的数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第三列数据中,将分布数据集到中心数据集的距离填入所述PC列表中与该小数据单元格Ci×j对应的第四列数据中。
S5:将所述PC列表中的第三列数据进行升序排列;
S6:将排列后的PC列表中位于上层位置的对应的小数据单元格Ci×j中的数据点作为潜在异常数据点;
S7:将所述潜在异常数据点对应的小数据单元格Ci×j对应的第四列数据分别与阈值σ进行比较,如果第四列数据大于阈值σ,则与该第四列数据对应的小数据单元格Ci×j内的数据点为异常数据点,否则与该第四列数据对应的小数据单元格Ci×j内的数据点为正常数据点。
2.根据权利要求1所述的基于top-k(σ)算法的异常数据检测方法,其特征在于:步骤S3中所述小数据单元格Ci×j的D领域表示以点o为中心,D为半径的领域,其中所述点o位于所述小数据单元格Ci×j的正中心,所述半径D为正数。
3.根据权利要求1所述的基于top-k(σ)算法的异常数据检测方法,其特征在于:步骤S3中计算分布数据集到中心数据集的距离包括以下步骤:
S31:设传感器节点采集的所有数据点的集合为样本集Γ,所述中心数据集是指所述样本集Γ中正常数据点的集合,所述分布数据集是指所述样本集Γ中任一子集;
S32:设数据点o1是所述中心数据集的中心数据点,设数据点o2是所述分布数据集的中心数据点;
S33:计算所述数据点o1和所述数据点o2之间的欧式距离,则所述数据点o1和所述数据点o2之间的欧式距离为所述分布数据集到所述中心数据集的距离。
4.根据权利要求1所述的基于top-k(σ)算法的异常数据检测方法,其特征在于:步骤S7中所述阈值σ的取值范围是2.5~3。
CN201510256798.0A 2015-05-19 2015-05-19 基于top‑k(σ)算法的异常数据检测方法 Expired - Fee Related CN104902509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510256798.0A CN104902509B (zh) 2015-05-19 2015-05-19 基于top‑k(σ)算法的异常数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510256798.0A CN104902509B (zh) 2015-05-19 2015-05-19 基于top‑k(σ)算法的异常数据检测方法

Publications (2)

Publication Number Publication Date
CN104902509A true CN104902509A (zh) 2015-09-09
CN104902509B CN104902509B (zh) 2018-03-30

Family

ID=54034847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510256798.0A Expired - Fee Related CN104902509B (zh) 2015-05-19 2015-05-19 基于top‑k(σ)算法的异常数据检测方法

Country Status (1)

Country Link
CN (1) CN104902509B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105807631A (zh) * 2016-03-08 2016-07-27 北京工业大学 基于plc仿真的工控入侵检测方法和入侵检测系统
CN106155985A (zh) * 2016-06-02 2016-11-23 重庆大学 一种基于相邻数据特征的数据缺失填充方法
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108205432A (zh) * 2016-12-16 2018-06-26 中国航天科工飞航技术研究院 一种观测实验数据异常值的实时剔除方法
CN110830946A (zh) * 2019-11-15 2020-02-21 江南大学 混合型在线数据异常检测方法
CN113343056A (zh) * 2021-05-21 2021-09-03 北京市燃气集团有限责任公司 一种用户用气量异常检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179602A (zh) * 2013-03-15 2013-06-26 无锡清华信息科学与技术国家实验室物联网技术中心 一种无线传感器网络异常数据检测方法和装置
CN103336906A (zh) * 2013-07-15 2013-10-02 哈尔滨工业大学 环境传感器的采集数据流中连续异常检测的抽样gpr方法
CN103729444A (zh) * 2013-12-30 2014-04-16 清华大学 一种基于设备监测数据间潜在关系的异常数据检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179602A (zh) * 2013-03-15 2013-06-26 无锡清华信息科学与技术国家实验室物联网技术中心 一种无线传感器网络异常数据检测方法和装置
CN103336906A (zh) * 2013-07-15 2013-10-02 哈尔滨工业大学 环境传感器的采集数据流中连续异常检测的抽样gpr方法
CN103729444A (zh) * 2013-12-30 2014-04-16 清华大学 一种基于设备监测数据间潜在关系的异常数据检测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105807631A (zh) * 2016-03-08 2016-07-27 北京工业大学 基于plc仿真的工控入侵检测方法和入侵检测系统
CN106155985A (zh) * 2016-06-02 2016-11-23 重庆大学 一种基于相邻数据特征的数据缺失填充方法
CN106155985B (zh) * 2016-06-02 2019-01-18 重庆大学 一种基于相邻数据特征的数据缺失填充方法
CN108205432A (zh) * 2016-12-16 2018-06-26 中国航天科工飞航技术研究院 一种观测实验数据异常值的实时剔除方法
CN108205432B (zh) * 2016-12-16 2020-08-21 中国航天科工飞航技术研究院 一种观测实验数据异常值的实时剔除方法
CN107682319A (zh) * 2017-09-13 2018-02-09 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN107682319B (zh) * 2017-09-13 2020-07-03 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN110830946A (zh) * 2019-11-15 2020-02-21 江南大学 混合型在线数据异常检测方法
CN110830946B (zh) * 2019-11-15 2020-11-06 江南大学 混合型在线数据异常检测方法
WO2021093815A1 (zh) * 2019-11-15 2021-05-20 江南大学 混合型在线数据异常检测方法
CN113343056A (zh) * 2021-05-21 2021-09-03 北京市燃气集团有限责任公司 一种用户用气量异常检测方法及装置

Also Published As

Publication number Publication date
CN104902509B (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
CN104902509A (zh) 基于top-k(σ)算法的异常数据检测方法
CN103323749B (zh) 多分类器信息融合的局部放电诊断方法
CN105527650B (zh) 一种工程尺度下微震信号及p波初至自动识别算法
CN102818948B (zh) 基于模糊故障诊断和相关性模型诊断的合成诊断方法
CN107979431B (zh) 基于黎曼中值的频谱感知的方法、装置以及设备
CN101739337B (zh) 一种基于聚类的软件漏洞序列特征的分析方法
CN105629198B (zh) 基于密度的快速搜索聚类算法的室内多目标追踪方法
CN103353923A (zh) 基于空间特征分析的自适应空间插值方法及其系统
KR102169452B1 (ko) IoT 기상환경 수집 데이터의 안정성 확보 방법
CN107132454A (zh) 基于随机矩阵谱半径法的电网异常快速检测方法
CN106021671B (zh) 结合相关性关系和灰色聚类技术的电路健康分级评估方法
Fu et al. Online temporal-spatial analysis for detection of critical events in cyber-physical systems
CN104699595B (zh) 一种面向软件升级的软件测试方法
CN117093947B (zh) 一种发电柴油机运行异常监测方法及系统
CN106935038B (zh) 一种停车检测系统及检测方法
Zhang et al. Cooperative sensor anomaly detection using global information
CN109408945A (zh) 一种非航空噪声过滤方法
CN110905478B (zh) 一种基于箱线图法和马氏平方距离法的钻井数据清洗方法
CN112766301A (zh) 一种采油机示功图相似性判断方法
Liguori et al. Towards the evaluation of the measurement uncertainty of environmental acoustic noise
CN103700109A (zh) 基于多目标优化moea/d和模糊聚类的sar图像变化检测方法
CN114444663A (zh) 一种基于时间卷积网络的供水管网泄漏检测与定位方法
CN110275909A (zh) 基于de-mic算法检测多变量相关性方法和系统
CN105046859B (zh) 基于振动信号空时二维稀疏表示k‑s检验的光纤入侵检测方法
CN104819382B (zh) 一种用于光纤预警系统的自适应恒虚警率振源检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180330

Termination date: 20210519

CF01 Termination of patent right due to non-payment of annual fee