CN104080108A - 一种针对无线传感网络数据的可变阈值异常点检测方法 - Google Patents

一种针对无线传感网络数据的可变阈值异常点检测方法 Download PDF

Info

Publication number
CN104080108A
CN104080108A CN201410152562.8A CN201410152562A CN104080108A CN 104080108 A CN104080108 A CN 104080108A CN 201410152562 A CN201410152562 A CN 201410152562A CN 104080108 A CN104080108 A CN 104080108A
Authority
CN
China
Prior art keywords
data
obj
threshold value
state
nhd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410152562.8A
Other languages
English (en)
Other versions
CN104080108B (zh
Inventor
翟小超
冯海林
杨国平
齐小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410152562.8A priority Critical patent/CN104080108B/zh
Publication of CN104080108A publication Critical patent/CN104080108A/zh
Application granted granted Critical
Publication of CN104080108B publication Critical patent/CN104080108B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开了一种针对无线传感网络数据的可变阈值异常点检测方法,对于t时刻采集到的数据obj(i),在已知obj(i)对应的阈值δ(i)的情况下,计算obj(i)的异常因子OF(i),并通过异常因子来判断当前数据所处的状态,如果obj(i)处于异常态则认为obj(i)是一个异常值,然后,利用前一时刻的数据obj(i-1)所处的状态,当前数据obj(i)所处的状态,以及当前的阈值δ(i),确定下一时刻的阈值δ(i+1)。依照上述策略,最终实现对传感器采集数据的线上的实时检测。本发明的异常值检测方法实现较为简单,实现了对传感器采集数据的线上实时的异常值检测,且无需额外的数据通信,适用于多种拓扑的无线传感器网络,包括在动态的网络(链路变化、节点移动)。

Description

一种针对无线传感网络数据的可变阈值异常点检测方法
技术领域
本发明涉及无线传感器领域,特别是无线传感器网络中的数据异常值检测,用于解决无线传感网络采集到的数据中存在的大量不可靠数据的问题。 
技术背景
无线传感网络WSNs是由大量微小的、低消耗的传感器节点通过无线通信构建而成。目前无线传感网络被部署在各种各样的环境中,许多网络是部署在无人监督的恶劣的环境中。出于对网络部署成本的考虑,传感器节点常常是低成本,低质量的。另一方面,由于传感器自身的低成本和部署环境的不确定性,导致传感器采集到的数据中存在很多的误差、错误、丢失值、重复值或不一致数据。文献Sensor Network Data Fault Detection with Maximum A Posterior Selection and Bayesian Modeling的作者在一片红树林中部署一个感网络,用于监测树林中的微气候,但收集到的数据中仅有49%可以做出有意义的解释,而大鸭岛(BDI)部署的传感网络中,每个节点采集到的数据中有3%到60%被认为是有问题的。数据中存在如此高的不可靠率,很难将这些数据用于有意义的科学研究中。异常点正是导致无线传感网络数据不可靠的最主要原因之一,所以无线传感网络中数据的异常值检测受到越来越广泛的重视。异常值检测的研究最早源于数据挖掘领域。现存文献中存在很多种异常值检测方法,比如说支持向量机,聚类方法,统计学方法,基于临近点的方法等。但是,无线传感网络有其自身特点,一些现存的检测方法并不能很好的应用于无线传感网络中。针对无线传感网络,需要考虑以下几个方面: 
(1)资源约束:低成本、低质量的传感器节点在能量、内存空间、计算能力和通信带宽上都非常有限,而大多数传统的异常值检测方法很少考虑在有限 的内存和计算能力下算法执行的性能。 
(2)高的通信消耗:传感网络每个节点无线通信消耗了节点绝大多数能量。节点在通信时消耗的能量是在计算时消耗能量的好几倍。大多数传统的异常值检测方法采用集中式的方法对数据集进行分析处理,这样会产生大量的能量消耗和通信负载,将大大降低网络的使用寿命。如何降低通信开销以改善网络通信负载并延长网络寿命,是设计无线传感网络异常值检测方法的一项重要挑战。 
(3)分布式数据流:在一个正常运行的无线传感网络中每一个传感器都在实时感知数据,数据以一种分布式数据流的形式动态变化。而且数据的潜在分布很难事先获取。大多数传统的异常值检测方法属于线下的数据分析方法,很难用于处理分布式数据流。还有一些异常值检测方法是基于数据分布的先验知识,这些方法也很难用于传感网络中。如何在线的处理分布式数据流,是设计无线传感网络异常值检测方法的一项重要挑战。 
因此,一个好的无线传感网络异常值检测方法应该是,保持低的通信负载,低的内存和计算开销,同时又能维持高检出率和低误报率的线上的分布式方法。 
在文献Quarter Sphere Based Distributed Anomaly Detection in Wireless Sensor Networks中,作者给出了一种支持向量机的异常值检测方法。为了降低计算复杂度,文中采用一阶四分之一球SVM。这种方法可以对每个传感器采集的数据进行局部的异常值检测。但是,这种方法需要每隔一个时间段传感器采集到足够多的数据后才能对收集的数据进行检测,不是一种实时的线上的检测方法。 
在文献Context-Aware Sensors中,作者将被检测节点(指的是传感器)的邻居节点当前的采集到的数据和被检测节点上一时刻的数据作为属性,构建一个朴素贝叶斯分类器。这种方法实现了线上的实时的异常检测,并且还可以近似的预测网络中的丢失数据。然而,这种方法存在几个缺点:首先,文中并 没有给出在一个动态的网络环境中如何寻找合适的邻居节点;其次,这种方法仅仅适用于一维数据;再次,这种方法事先需要一个训练集来学习分类器参数,大多数情况下一个好的训练集是很难获得的。 
在文献Hierarchical Anomaly Detection in Distributed Large-Scale Sensor Networks中,作者利用PCA技术,有效地对传感网络中数据的时空相关性进行建模,并识别出局部的异常值。网络中的每一个主节点,首先选取合适的主元构建主子空间,然后对其附近所有节点采集到的数据进行实时的局部异常检测。如果数据明显的偏离主子空间,就认为它是一个异常值。然而,PCA方法事先需要一个训练集来计算主元,而且在选取合适主元时计算法杂度非常高。 
在文献Ell iptical Anomal ies in Wireless Sensor Networks中,作者第一次将超椭球理论用于传感器数据的建模上,并给出了一种正式的椭圆异常定义。每一个传感器根据自己采集到的数据,计算出一个超椭球,落在这个超椭球外边的数据就认为是异常数据,而落在椭圆内部的数据则认为是正常数据。当数据集的形状是超椭球时,这种方法检测的准确率比较高,然而,当数据集是不规则的几何形状时,检测结果是不可信的。 
在无线传感网络中,传感器节点按照固定的时间间隔不断的捕获数据,每一条数据都对应一个被捕获的时间。传感器捕获的每一个数据都带有一个唯一的时间戳。上述文献中除了文献Context-Aware Sensors,都未考虑到传感器采集到的数据本身在时间上的连续性。存在这样一种情况,如图2所示,在时间上与数据点10临近的数据点都位于图中的右半部分,而数据点10却出现在左半部分。上述文献中的方法都能检测出异常点6,但对异常点10这些方法都无法检测出来。 
发明内容
本发明要解决的技术问题是提供一种针对无线传感网络数据的可变阈值 异常点检测方法。在不需要事先获取训练集的前提下,实现了对传感器采集数据的线上实时的异常检测,并且可以检测出图中数据10这种异常值。 
为解决上述技术问题,本发明的实施例提供一种针对无线传感网络数据的可变阈值异常点检测方法,包括如下步骤: 
S1、部署的传感网络,在t时刻开始采集数据; 
S2、传感器采集到前m个数据obj(1),obj(2),…,obj(m)后,计算NHD(2),NHD(3),…,NHD(m),取δ(m)=max{NHD(2),NHD(3),…,NHD(m)}; 
S3、根据设定的δ(k)更新机制得到δ(m+1); 
S4、传感器捕获到第i个数据obj(i),计算NHD(k),OF(k),然后判断第i个数据所处的状态,如果第i个数据处于异常态,将数据obj(i)放入异常数据集Outlier; 
S5、根据设定的δ(k)更新机制,利用obj(i-1)的状态,obj(i)的状态以及当前的δ(k),得到下一时刻的阈值δ(k+1); 
S6、重复步S4和S5直到传感器停止采集数据,得异常数据集Outlier。 
所述S2中的数据前m个数据都是正常数据。 
所述的S3步骤中的δ(k)的更新机制为: 
(1)数据obj(k-1)处于正常态,数据obj(k)处于临界态,新阈值δ(k+1)在阈值δ(k)的基础上适度增大; 
δ(k+1)=δ(k)*OF(k)=NHK(k) 
(2)数据obj(k-1)处于正常态,数据obj(k)处于异常态,阈值保持不变; 
δ(k+1)=δ(k) 
(3)数据obj(k-1)处于临界态,数据obj(k)处于异常态,新阈值δ(k+1)在阈值δ(k)的基础上适度增大; 
δ(k+1)=δ(k)*trustvalue 
(4)数据obj(k-1)处于临界态,数据obj(k)处于正常态,阈值维持不变; 
δ(k+1)=δ(k) 
(5)数据obj(k-1)处于异常态,数据obj(k)处于临界态,阈值维持不变; 
δ(k+1)=δ(k) 
(6)数据obj(k-1)处于异常态,数据obj(k)处于正常态,新阈值δ(k+1)在阈值δ(k)的基础上减小; 
δ(k+1)=max{δ(k)/trustvalue,NHD(k)} 
(7)数据obj(k-1)处于正常态,数据obj(k)处于正常态,新阈值δ(k+1)在阈值δ(k)的基础上适度减小; 
δ(k+1)=max{δ(k)/2,NHD(k)} 
(8)数据obj(k-1)处于异常态,数据obj(k)处于异常态,新阈值δ(k+1)在阈值δ(k)的基础上增大: 
δ(k+1)=δ(k)*trustvalue 
(9)数据obj(k-1)处于临界态,数据obj(k)处于临界态,新阈值δ(k+1)应该等于当前的NHD(k); 
δ(k+1)=NHD(k)。 
所述δ(k)的更新机制的条件为:已知前一个数据的状态,当前数据的状态和当前的阈值δ(k)。 
本发明的有益效果是: 
1)本发明能够有效的检测出在技术背景部分提到的异常点10这种异常值,而现存的算法大多很难检测到这种异常值。 
2)本发明实现了对传感器数据的线上实时的检测。 
3)本发明可以通过调节参数trustvalue来调节检测的松紧度,以适应各种不同环境下的检测要求。 
4)本发明在检测数据过程中,无需额外的数据通信,故适用于多种拓扑的无线传感器网络,包括在动态的网络(链路变化、节点移动)。 
附图说明
图1是本发明的总流程图; 
图2是两种不同的异常值的示例图; 
图3是同一点在欧氏距离与马氏距离下的邻域; 
图4是数据集中同一点在欧氏距离与马氏距离下的邻域; 
图5是本发明中δ(k)更新机制的示意图; 
图6是数据集D1在检测前后的对比图; 
图7是数据集D1检测结果; 
图8是图7右下角放大图; 
图9是数据集D2的散点图; 
图10是D2中加入50个噪声后的检测结果图; 
图11是D2中加入100个噪声后的检测结果图; 
图12是D2中加入200个噪声后的检测结果图; 
图13是D2中加入260个噪声后的检测结果图; 
图14是数据集D3的散点图; 
图15是D3中加入20个噪声后的检测结果图; 
图16是D3中加入40个噪声后的检测结果图; 
图17是D2中加入60个噪声后的检测结果图。 
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。 
本发明针对现有的不足提供一种针对无线传感网络数据的可变阈值异常 点检测方法,如图2所示,数据点1,2,3,4,5都是正常数据点,而数据点6是一个异常数据点。在利用相邻两点之间距离来判断数据点是否异常时,计算数据点5,6之间的距离可以判断出6是异常点,而6,7之间的距离与6,5之间的距离几乎一样,7也将被检测为异常,但是观察数据集的散点图会发现数据点7应该是正常的,这样数据点7就被误报了。 
为了避免上面讨论的那种误报,我们给出如下定义。 
定义1(Normal Hop Distance of Current Obj)数据点obj(k)为传感器在t时刻捕获的数据,设t时刻之前捕获的数据之中已被检测为正常点,且与obj(k)最近的数据点记为obj(i),则当前数据点obj(k)的正常跳距离为: 
NHD ( k ) = dist ( obj ( k ) , obj ( i ) ) k - i
其中(1)式中的距离dist(obj(k),obj(i))表示数据点obj(k)到数据点obj(i)的马氏距离。 
dist ( obj ( k ) , obj ( j ) ) = | | obj ( k ) - obj ( i ) | | Σ - 1 = ( obj ( k ) - obj ( i ) ) Σ - 1 ( obj ( k ) - obj ( i ) ) T
其中 
注:在计算两个数据之间的距离时,通常采用的是欧氏距离,但是欧氏距离在计算时,是将数据中的所有属性都等同对待的,而马氏距离在计算时,则会根据数据集自身的特点,调节各属性对最终结果的贡献率。如图3所示,对于一个二维数据,在欧氏距离下,数据点的δ邻域是一个圆,而在马氏距离下,数据点的δ邻域是一个椭圆。如图4所示,分别为数据集中同一个数据点,在马氏距离与欧氏距离下的δ邻域。可以看出,在马氏距离下的δ邻域所画出的 椭圆,其长轴方向正是数据集变化的主要方向,而短轴方向恰是数据集变化幅度最小的方向。也就是说,马氏距离能够提取数据集的特征,并将之体现到数据的δ邻域上。因此,在本发明计算距离时采用马氏距离。 
定义2(Outlier Factor of Current Obj)设传感器在t时刻捕获的数据点为obj(k),称当前数据点obj(k)的异常因子为: 
OF ( k ) = NHD ( k ) δ ( k )
其中,δ(k)为当前数据obj(k)对应的动态阈值,在后面详细讨论δ(k)。 
根据每个数据点异常因子的大小可以将数据集D中的数据分为三种状态: 
正常态:如果数据点obj(k)的异常因子OF(k)∈(0,1]; 
临界态:如果数据点obj(k)的异常因子OF(k)∈(1,trustvalue]; 
异常态:如果数据点obj(k)的异常因子OF(k)∈(trustvalue,+∞)。 
其中trustvalue是一个值大于1的参数。 
在实际部署的网络中,传感器可能受到各种未知的影响,从自然界中捕获的实时数据常常会呈锯齿状上升或者下降。也就是说,数据处于一种不规则的波动中。在这些波动中,有些数据的波动处于合理的范围;而有些波动很严重,使得数据发生异常。有鉴于此,本发明在正常态与异常态之间引入临界态,并通过参数trustvalue来控制临界态的大小。参数trustvalue的值越小检测越严格,参数trustvalue的值越大检测越宽松。在现实使用中,可以根据网络部署环境和实际检测的需要来调节参数trustvalue。 
这里,本发明借用无罪推定的法律原则,即任何人在被宣判有罪之前都推定为无罪,只有处于异常态的数据被认为是异常值。 
本发明的技术思路是:对于t时刻采集到的数据obj(i),在已知obj(i)对应的阈值δ(i)的情况下,计算obj(i)的异常因子OF(i),并通过异常因子来判断当前数据所处的状态,如果obj(i)处于异常态则认为obj(i)是一个异常值,然后,利用前一时刻的数据obj(i-1)所处的状态,当前数据obj(i)所处的状态,以及当前 的阈值δ(i),确定下一时刻的阈值δ(i+1)。依照上述策略,最终实现对传感器采集数据的线上的实时检测。 
其具体实现包括如下步骤: 
S1、部署的传感网络,开始采集数据; 
S2、传感器采集到前m个数据obj(1),obj(2),…,obj(m)后,计算NHD(2),NHD(3),…,NHD(m),取δ(m)=max{NHD(2),NHD(3),…,NHD(m)}; 
S3、根据设定的δ(k)更新机制得到δ(m+1); 
S4、传感器捕获到第i个数据obj(i),计算NHD(k),OF(k),然后判断第i个数据所处的状态,如果第i个数据处于异常态,将数据obj(i)放入异常数据集Outlier; 
S5、根据设定的δ(k)更新机制,利用obj(i-1)的状态,obj(i)的状态以及当前的δ(k),得到下一时刻的阈值δ(k+1); 
S6、重复步S4和S5直到传感器停止采集数据,得异常数据集Outlier。 
在上述技术方案的基础上,所述的δ(k)更新机制为: 
假设当前数据位obj(k),已知前一个数据的状态,当前数据的状态和当前的阈值δ(k),按照图5所示的更新规律,给出如下的更新方法。 
(1)数据obj(k-1)处于正常态,数据obj(k)处于临界态,新阈值δ(k+1)在阈值δ(k)的基础上适度增大。 
(2)数据obj(k-1)处于正常态,数据obj(k)处于异常态,阈值保持不变。 
(3)数据obj(k-1)处于临界态,数据obj(k)处于异常态,新阈值δ(k+1)在阈值δ(k)的基础上适度增大。 
(4)数据obj(k-1)处于临界态,数据obj(k)处于正常态,阈值维持不变。 
(5)数据obj(k-1)处于异常态,数据obj(k)处于临界态,阈值维持不变。 
(6)数据obj(k-1)处于异常态,数据obj(k)处于正常态,新阈值δ(k+1)在 阈值δ(k)的基础上减小。 
(7)数据obj(k-1)处于正常态,数据obj(k)处于正常态,新阈值δ(k+1)在阈值δ(k)的基础上适度减小。 
(8)数据obj(k-1)处于异常态,数据obj(k)处于异常态,新阈值δ(k+1)在阈值δ(k)的基础上增大。 
(9)数据obj(k-1)处于临界态,数据obj(k)处于临界态,新阈值δ(k+1)应该等于当前的NHD(k)。 
相对于现有技术,本发明具有如下的优点: 
(1)本发明能够有效的检测出在技术背景部分提到的异常点10这种异常值,而现存的算法大多很难检测到这种异常值。 
本发明的效果可以通过以下仿真进行进一步说明: 
1.仿真条件 
本发明通过对三个不同数据集的实验仿真,来说明算法的有效性。仿真实验是在一台4G内存,赛扬双核2.6GHz,32位win7操作系统下,使用matlab2010b进行的。在下述的仿真实验中,取m=5,即假设传感器初始采集到的前5个数据都是正常的。 
2.仿真内容 
仿真1,采用IBRL实验室真实部署的无线传感网络采集到的数据进行检测。IBRL网络是有55个Mica2Dot传感器构成,每隔31秒传感器采集一次数据,数据由5个属性,分别为温度,湿度,电压,光照强度以及时间标记。整个网络在2004年2月28号到2004年5月5号之间不断的采集数据。网络采集到的数据中存在5个属性,为了便于直观的从图像中观测仿真实验的检测结果,本发明在仿真时选取其中的两个属性温度和湿度进行仿真。数据集D1为第30个传感器在3月1号00:00到3月1号03:59采集到的210条数据,取其温度和湿度两个属性。 
图6中的两幅图分别为检测前数据集D1所有数据的散点图和去除检出的 异常值后的散点图,图7为具体的检测结果,图中蓝色点表示数据集D1中被本发明的算法检测为正常的数据点,红色星形表示数据集D1中被本发明的算法检测为异常的数据点。这里参数trustvale取值为4.0,共检测出31个异常点,分别为8,12,13,16,24,25,52,74,76,77,99,110,111,113,118,119,141,145,146,147,152,160,170,184,189,190,197,203,204,209,210。 
图8为图7右下角部分放大图,包含数据集D1的前30个数据,其中部分数据点的位置是重合的,下面以此为例对图8中的数据点具体分析。观察可知,在图8中数据点1,2,3,4,5,6,7是正常的,而数据点8折回到数据点1的位置,显然8是一个异常值。数据点8,9,10,11在很小的范围内波动,而数据点12,13远远的跳出数据点8,9,10,11的波动范围,因此,数据点12,13是异常值。13,14,15处于一个相对稳定的波动范围,数据点16远远跳出数据13,14,15的波动范围,所以,数据点16也应被认为是异常值。对于数据点24,25,其前面的数据点20,21,22,23处于一个很小的范围内,而24,25跳出了数据点20,21,22,23的波动范围,因此,其也应被认为是异常值。观察图8可知,数据点8,12,13,16,24,25都被本发明的算法检测为异常值。本发明能够成功的检测实验室数据集D1中的异常值。 
仿真2,采用人工生成的数据集D2来检测本发明的算法。数据集D2是由两个中心和倾角相同,短轴差距很小,长轴差距较大的椭圆离散化得来。数据集D2第一条数据为图9中的数据点star,其余的数据点沿着箭头方向依次排列,最后一条数据为图8中数据点end。数据集D2总共包含400条数据。对数据集D2添加一定数目的随机噪声点得到带有噪声的数据集D2′。下面对数据集D2′使用本发明给出的算法进行检测,以此来检验发明给出的算法。 
数据集D2加入50个随机噪声,加躁后的数据集D2′包含350个正常数据点和50个噪声点,噪声在数据集中所占比例为12.5%。如图10所示,为参数trustvalue=3.0时的检测结果,其中,红色圆圈表示加入的噪声点,红色星 形表示数据集D2′中被检测为异常的数据点,蓝点表示数据集D2′中被检测为正常的数据点。因此,外红圈内红星表示该点是噪声点且被检测为异常点,即该噪声点被正确检出,外红圈内蓝点表示该点是噪声点但被检测为正常点,即该噪声点被漏报,只有红星的点表示非噪声点被检测为异常点,即该点被误报,只有蓝点表示非噪声点被检测为正常点,即正常点被检测为正常点。观察图10可知,在数据集D2′中检测出50个异常点,噪声全被检出,没有误报。 
数据集D2加入100个随机噪声,加躁后的数据集D2′包含300个正常数据点和100个噪声点,噪声在数据集中所占比例为25%。如图11所示,为trustvalue=3.0时的检测结果,在数据集D2′中检测出101个异常点,噪声全被检出,有一个正常数据点被误报。 
数据集D2加入200个随机噪声,加躁后的数据集D2′包含200个正常数据点和200个噪声点,噪声在数据集中所占比例为50%。在参数trustvalue取为3.0时,检测结果较差,调整参数,取trustvalue=2.5时的检测结果如图12所示,数据集D2′中检测出191个异常点,12个噪声未被检出,有3个正常数据点被误报。 
数据集D2加入260个随机噪声,加躁后的数据集D2′包含260个正常数据点和140个噪声点,噪声在整个数据集中所占比例达到65%。调整参数trustvalue,当取trustvalue取为2.2时,检测结果如图13所示,数据集D2′中检测出181个异常点,89个噪声未被检出,有10个正常数据点被误报。 
将以上仿真2中完成的仿真实验结果汇总得表1。 
表1 
对于数据集D2,在噪声占比不超过50%的情况下,本发明的算法检出率都保持在95%以上,而且误报率维持在2%以下。本发明能够快速有效的检测出数据集中的异常值。 
仿真3,采用人工生成的数据集D3来检测本发明的算法。数据集D3是由一条八字形的曲线离散化得来。数据集D3第一条数据为图14中的数据点star,其余的数据点沿着箭头方向依次排列,最后一条数据为图17中数据点end。数据集D3总共包含126条数据。对数据集D3添加一定数目的随机噪声得到带有噪声的数据集D3′。下面对数据集D3′使用本发明给出的算法进行检测,以此来检验发明给出的算法。 
数据集D3加入20个随机噪声,加躁后的数据集D3′包含106个正常数据点和20个噪声点,噪声在整个数据集中所占比例为15.87%。如15图所示,为trustvalue=2.5时的检测结果,其中,红色圆圈表示加入的噪声点,红色星形表示数据集D3′中被检测为异常的数据点,蓝色点表示数据集D3′中被检测为正常的数据点。观察可知,在数据集D3′中检测出20个异常点,噪声全被检出,没有误报。 
数据集D3加入40个随机噪声,加躁后的数据集D3′包含86个正常数据点和40个噪声点,噪声在整个数据集中所占比例为31.75%。如图16所示,为trustvalue=2.5时的检测结果,观察可知,在数据集D3′中检测出39个异常点,1个噪声未被检出,没有误报。 
数据集D3加入60个随机噪声,加躁后的数据集D3′包含66个正常数据点和60个噪声点,噪声在整个数据集中所占比例为47.62%。在trustvalue=2.5时的检测结果较差,调整参数trustvalue,当取trustvalue=2.3时,如图17所示,数据集D3′中检测出59个异常点,1个噪声未被检出,没有误报。 
数据集D3加入70个随机噪声,加躁后的数据集D3′包含,56个正常数据点和70个噪声点,噪声在数据中所占比例达到55.56%。在trustvalue=2.5时的检测结果较差,调整参数trustvalue,当取trustvalue=2.3时,如图17所示,数据集D3′中检测出62个异常点,15个噪声未被检出,7个数据被误报。 
将以上仿真3中完成的仿真实验结果汇总得表2。 
表2 
对于数据集D3,在噪声占比不超过50%的情况下,本发明的算法检出率都保持在95%以上,而且误报率维持在2%以下。本发明能够快速有效的检测出数据集中的异常值。 
本发明中的符号说明 
WSNs:无线传感器网络 
TBRL:因特尔巴克利实验室 
BDI:大鸭岛 
SVM:支持向量机 
obj(k):数据集第k条数据 
NHD(k):数据集第k条数据的正常跳距离 
OF(k):数据集第k条数据的异常因子 
δ(k):数据集第k条数据的阈值 
D1:仿真数据集1 
D2:仿真数据集2 
D3:仿真数据集3 
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。 

Claims (4)

1.一种针对无线传感网络数据的可变阈值异常点检测方法,其特征在于,包括如下步骤:
S1、部署的传感网络,在t时刻开始采集数据;
S2、传感器采集到前m个数据obj(1),obj(2),…,obj(m)后,计算NHD(2),NHD(3),…,NHD(m),取δ(m)=max{NHD(2),NHD(3),…,NHD(m)};
S3、根据设定的δ(k)更新机制得到δ(m+1);
S4、传感器捕获到第i个数据obj(i),计算NHD(k),OF(k),然后判断第i个数据所处的状态,如果第i个数据处于异常态,将数据obj(i)放入异常数据集Outlier;
S5、根据设定的δ(k)更新机制,利用obj(i-1)的状态,obj(i)的状态以及当前的δ(k),得到下一时刻的阈值δ(k+1);
S6、重复步S4和S5直到传感器停止采集数据,得异常数据集Outlier。
2.根据权利要求1所述一种针对无线传感网络数据的可变阈值异常点检测方法,其特征在于,所述S2中的数据前m个数据都是正常数据。
3.根据权利要求1所述一种针对无线传感网络数据的可变阈值异常点检测方法,其特征在于,所述的S3步骤中的δ(k)的更新机制为:
(1)数据obj(k-1)处于正常态,数据obj(k)处于临界态,新阈值δ(k+1)在阈值δ(k)的基础上适度增大;
δ(k+1)=δ(k)*OF(k)=NHK(k)
(2)数据obj(k-1)处于正常态,数据obj(k)处于异常态,阈值保持不变;
δ(k+1)=δ(k)
(3)数据obj(k-1)处于临界态,数据obj(k)处于异常态,新阈值δ(k+1)在阈值δ(k)的基础上适度增大;
δ(k+1)=δ(k)*trustvalue
(4)数据obj(k-1)处于临界态,数据obj(k)处于正常态,阈值维持不变;
δ(k+1)=δ(k)
(5)数据obj(k-1)处于异常态,数据obj(k)处于临界态,阈值维持不变;
δ(k+1)=δ(k)
(6)数据obj(k-1)处于异常态,数据obj(k)处于正常态,新阈值δ(k+1)在阈值δ(k)的基础上减小;
δ(k+1)=max{δ(k)/trustvalue,NHD(k)}
(7)数据obj(k-1)处于正常态,数据obj(k)处于正常态,新阈值δ(k+1)在阈值δ(k)的基础上适度减小;
δ(k+1)=max{δ(k)/2,NHD(k)}
(8)数据obj(k-1)处于异常态,数据obj(k)处于异常态,新阈值δ(k+1)在阈值δ(k)的基础上增大;
δ(k+1)=δ(k)*trustvalue
(9)数据obj(k-1)处于临界态,数据obj(k)处于临界态,新阈值δ(k+1)应该等于当前的NHD(k);
δ(k+1)=NHD(k)。
4.根据权利要求2所述的一种针对无线传感网络数据的可变阈值异常点检测方法,其特征在于,所述δ(k)的更新机制的条件为:已知前一个数据的状态,当前数据的状态和当前的阈值δ(k)。
CN201410152562.8A 2014-04-14 2014-04-14 一种针对无线传感网络数据的可变阈值异常点检测方法 Expired - Fee Related CN104080108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410152562.8A CN104080108B (zh) 2014-04-14 2014-04-14 一种针对无线传感网络数据的可变阈值异常点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410152562.8A CN104080108B (zh) 2014-04-14 2014-04-14 一种针对无线传感网络数据的可变阈值异常点检测方法

Publications (2)

Publication Number Publication Date
CN104080108A true CN104080108A (zh) 2014-10-01
CN104080108B CN104080108B (zh) 2017-10-24

Family

ID=51601107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410152562.8A Expired - Fee Related CN104080108B (zh) 2014-04-14 2014-04-14 一种针对无线传感网络数据的可变阈值异常点检测方法

Country Status (1)

Country Link
CN (1) CN104080108B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107202852A (zh) * 2017-05-23 2017-09-26 国家电网公司 一种基于可变阈值的油色谱在线监测数据异常值检测方法
CN108768701A (zh) * 2018-05-13 2018-11-06 广东理致技术有限公司 一种物联网传感器节点故障标记方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296018B2 (en) * 2004-01-02 2007-11-13 International Business Machines Corporation Resource-light method and apparatus for outlier detection
US20080234977A1 (en) * 2000-10-11 2008-09-25 International Business Machines Corporation Methods and Apparatus for Outlier Detection for High Dimensional Data Sets
CN103561418A (zh) * 2013-11-07 2014-02-05 东南大学 基于时间序列的异常检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080234977A1 (en) * 2000-10-11 2008-09-25 International Business Machines Corporation Methods and Apparatus for Outlier Detection for High Dimensional Data Sets
US7296018B2 (en) * 2004-01-02 2007-11-13 International Business Machines Corporation Resource-light method and apparatus for outlier detection
CN103561418A (zh) * 2013-11-07 2014-02-05 东南大学 基于时间序列的异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARUNANSHU MAHAPATRO: "Fault Diagnosis in Wireless Sensor Networks:A Survey", 《IEEE COMMUNICATIONS SURVEYS & TUTORIALS》 *
詹艳艳: "时间序列异常模式的k-均距异常因子检测", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107202852A (zh) * 2017-05-23 2017-09-26 国家电网公司 一种基于可变阈值的油色谱在线监测数据异常值检测方法
CN108768701A (zh) * 2018-05-13 2018-11-06 广东理致技术有限公司 一种物联网传感器节点故障标记方法及装置

Also Published As

Publication number Publication date
CN104080108B (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
Yu et al. Recursive principal component analysis-based data outlier detection and sensor data aggregation in IoT systems
Muhammed et al. An analysis of fault detection strategies in wireless sensor networks
Fawzy et al. Outliers detection and classification in wireless sensor networks
Mao et al. Online detection of bearing incipient fault with semi-supervised architecture and deep feature representation
Gaddam et al. Anomaly detection models for detecting sensor faults and outliers in the IoT-a survey
Yin et al. Spatio-temporal event detection using dynamic conditional random fields
CN103533571B (zh) 基于投票策略的容错事件检测方法
CN102572908B (zh) 一种分布式无线传感网络节点故障检测方法
CN104994535A (zh) 基于多维数据模型的传感器数据流异常检测方法
Ghosh et al. Outlier detection in sensor data using machine learning techniques for IoT framework and wireless sensor networks: A brief study
CN107276999A (zh) 一种无线传感器网络中的事件检测方法
Zhang et al. Cooperative sensor anomaly detection using global information
Su et al. Nonlinear compensation algorithm for multidimensional temporal data: A missing value imputation for the power grid applications
Zhang et al. Cleaning environmental sensing data streams based on individual sensor reliability
Fraker et al. Performance metrics for surveillance schemes
Liao et al. A novel semi-supervised classification approach for evolving data streams
Xia et al. Coupled attention networks for multivariate time series anomaly detection
CN104080108A (zh) 一种针对无线传感网络数据的可变阈值异常点检测方法
Dai et al. Distance-based outliers method for detecting disease outbreaks using social media
Fan et al. Luad: A lightweight unsupervised anomaly detection scheme for multivariate time series data
Bhargava et al. Anomaly detection in wireless sensor networks using S-Transform in combination with SVM
Chen et al. Performance measurement in wireless sensor networks using time-frequency analysis and neural networks
Saihi et al. Distributed fault detection based on hmm for wireless sensor networks
Tang et al. A rolling bearing signal model based on a correlation probability box
CN106802879A (zh) 一种基于多变量统计分析的结构监测数据异常识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: XIDIAN University Person in charge of patentsThe principal of patent

Document name: payment instructions

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171024