CN103747537A

CN103747537A - 一种基于熵度量的无线传感器网络离群数据自适应检测方法

Info

Publication number: CN103747537A
Application number: CN201410018157.7A
Authority: CN
Inventors: 李怀俊
Original assignee: Guangdong Communications Polytechnic
Current assignee: Guangdong Communications Polytechnic
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2014-04-23
Anticipated expiration: 2034-01-15
Also published as: CN103747537B

Abstract

本发明涉及一种基于熵度量的无线传感器网络离群数据自适应检测方法。其特点是，包括如下步骤：第一步，网络模型的建立：假设有Ⅳ个传感器节点随机部署在正方形区域A(ｌ×ｌ)中，传感器网络被分成若干个簇，一个簇中包含了一个簇头和若干个簇成员节点，簇成员只负责采集和传递数据，而簇头除了具备传感节点的功能外，还要对簇内的成员进行管理，建立如下网络模型：本发明提出了节点信息熵以及簇内二维信息熵的概念，可以作为统计特征量分别来描述单节点数据以及簇内全局数据的信息量水平。

Description

一种基于熵度量的无线传感器网络离群数据自适应检测方法

技术领域

本发明涉及一种基于熵度量的无线传感器网络离群数据自适应检测方法。

背景技术

无线传感器网络(Wirless Sensor Network，WSN)由部署在监测区域内的大量廉价、微型、节能的传感器节点组成，通过无线通信方式自组织形成网络系统，其主要目的是协同地感知、采集和处理网络覆盖区域中感知对象的信息，接收命令并与控制中心交换有关现实世界的信息。目前，无线传感器网络已广泛应用于农业、工业、军事、国防等各个领域，如农业种植、工业现场监测、气候监测、地震预警、医疗警报等。

无线传感器网络包含大量传感器节点和少数汇聚节点，受限于节点的计算能力、存储能力、无线通信能力和能量供应，内部程序运行资源有限，数据融合技术是解决资源限制的有效方法，其思想是辨识来自不同数据源的信息，去除冗余信息，减小传输数据量，从而达到节省能量、延长网络生命周期、提高数据收集效率和准确度的目的，同时要以牺牲延迟和鲁棒性为代价。数据融合的重点是离群数据的检测识别。在传感器网络中节点感知的数据是大量的流式数据，在这些数据中，那些长期大量出现的数据表示正常情况下的数据，而出现频率较低的数据代表着异常数据，可能意味着异常现象的发生。离群数据检测是数据融合的基本任务之一，与数据融合的其他任务——关联规则分析、分类分析、聚类分析等任务相比，离群数据检测更加符合数据融合的本质。

离群数据检测又称异常检测、孤立点检测、偏差检测，在WSN网络中，其产生的原因主要有：(1)大量廉价的传感器节点，具有非常有限的资源，资源耗尽会使得数据出现异常；(2)传感器网络通信带宽有限，会造成信息包的丢失或者冲突，导致异常数据的出现；(3)异常事件的发生，导致数据的异常，比如，桥梁周围风向的变化会使得监测节点感知的风速值急剧变化；(4)某些传感器设备通过抛掷来实现随机部署，这可能造成设备物理故障，从而影响数据的一致性；(5)潜在的恶劣环境，恶意攻击等；(6)由于受到外界的干扰，传感器节点也经常会产生的噪声数据也会导致数据不一致。

离群数据检测算法的研究涉及到能量效率、延时、数据精度、网络拓扑结构、路由、数据压缩、分布式数据处理和安全技术等多个方面，因此设计面向实际、高效的离群数据检测算法是一项有挑战性的工作。

在无线传感器网络中，离群点被定义为：那些明显偏离于感知数据正常模式的测量值。在Hawkins提出的离群点本质定义的基础上，许多离群数据检测算法被提出，大致归纳为以下几类：基于统计的，深度的，距离的，密度的以及聚类的离群检测方法。

现有的离群数据检测方法主要关注的是离群点检测的合理性和算法的准确率，由于各种算法时间和空间复杂度较大，不适合处理大规模快速变化的数据流。同时，由于忽略了数据间的空间关联性或时间关联性，影响了检测精度，虽然采取了减少通信量和计算量的措施，但仍然存在通信量大和计算量大以及仅适合单维读数等问题。

发明内容

本发明的目的是提供一种基于熵度量的无线传感器网络离群数据自适应检测方法，能够高效地对节点内数据并查集的信息熵进行最大寻优，自动确定数据融合的上下限阈值，完成节点局部离群数据的鉴别。

一种基于熵度量的无线传感器网络离群数据自适应检测方法，其特别之处在于，包括如下步骤：

第一步，网络模型的建立：

假设有Ⅳ个传感器节点随机部署在正方形区域A(ｌ×ｌ)中，传感器网络被分成若干个簇，一个簇中包含了一个簇头和若干个簇成员节点，簇成员只负责采集和传递数据，而簇头除了具备传感节点的功能外，还要对簇内的成员进行管理，建立如下网络模型：

1)观测区域A是一个静态的网络，传感节点和Sink节点在分布后就固定不变，Sink节点位于观测区域附近，节点分布不均匀；

2)除Sink节点外，传感节点和簇头节点是同构的，每个节点都有自己的ID号；

3)邻近的节点在同一时刻采集到的数据具有相似性，每个节点都可以进行数据融合；

4)节点周期性的采集数据，并做出决策是否转发每次的数据；

5)节点能够获取自身及其他节点的位置信息，同时按最远距离的10％划定邻域，存储邻域内节点的距离信息；

第二步，簇内信息熵及计算：

(1)一维信息熵及计算：

根据簇内传感节点采集的数据具有趋同性，求出数据选择阈值{L，H}，实现数据鉴别，其中，L为数据集下限阈值，H为数据集上限阈值；相反，当采集区域内数据具有趋异性时，可以根据阈值{L，H}对上下限之间的趋同数据进行检测；

设Ｃ_j为传感网络A中的某一簇，N为簇Ｃ_j内的采集节点数量，D_n为簇内节点n所采集的数据组成的时间序列数据集D_n＝{d_n1，d_n2，...d_nm}，其中，n∈Ⅳ，m∈M，M为节点i数据采集时间窗口的长度；

节点离群数据检测算法如下：

(1)构造节点数据并查集，将数据集D_n按照间隔粒度｜d_n-max-d_n-min|·(1/K)划分为K个数据子集A_k，A_k为并查集，满足：A₁∪A₂∪，...，∪A_k＝A，且A_i∩A_j＝Ω，其中i，j＝１，...，m且i≠j；

(2)求出每个数据子集A_k数据比例p_k，此即单位数据子集的信息概率，根据Shannon信息熵定义，可以求出单个节点i的信息熵即平均自信息：

H_{i} (x) = Σ_{k = 1}^{K} p_{k} 1 n \frac{1}{p_{k}} = - Σ_{k = 1}^{K} p_{k} 1 n p_{k};

(3)应用智能寻优算法对H_i(x)求取最大值max(H_i(x))，相应可确定数据选择阈值{d_n-max，d_n-min}，进而剔除边缘离群数据；

(2)二维信息熵及计算：

选择簇内的加权数据均值作为数据分布的空间特征量，与节点i的加权数据均值组成特征二元组，记为(d_i，ｄ_i)，其中d_i表示节点i的数据均值，

表示邻域内数据均值即空间特征量，则有联合概率密度：

p_{i} = f (d_{i}, d_{i}^{'}) / N - - - (2)

其中，

上式能反应节点i的数据与其周围数据分布的综合特征，其中

为特征二元组

的数据相异粒度值，N为采集节点数量，定义离散的簇内二维熵为：

H_{2} = - Σ_{i = 0}^{N} (1 - p_{i}) 1 n (1 - p_{i});

设定二维熵的阈值H₀，当H₂<H₀时，认定数据集中存在异变的极值数据，此时可根据算法求出数据选择阈值{L，H}，实现数据融合，其中，L为数据集下限阈值，H为数据集上限阈值；相反，当采集区域内数据具有趋异性时，可以根据阈值{L，H}对上下限之间的趋同数据进行检测，汇聚节点确定阈值组{L，H}后，可将各节点数据进行筛选，打包上送，或对区域状态做出判断；

第三步，阈值自适应寻优：

节点及簇内信息熵的阈值寻优采用粒子群算法，首先初始化一群随机粒子，然后通过迭代找到最优解，在每一次迭代中，粒子通过跟踪两个极值来更新自己：一个是粒子个体最优解p_iｄ；另一个是整个种群的历史最优解ｐ_gd，即全局极值，同时根据如下的公式来更新各粒子的速度和位置：

v_{id}^{k + 1} = w_{d} * v_{id}^{k} + c_{1} r_{1} (p_{id} - x_{id}^{k}) {+ c}_{2} r_{2} (p_{gd} - x_{id}^{k}) - - - (4)

x_{id}^{k + 1} = x_{id}^{k} + v_{id}^{k + 1} - - - (5)

其中：i＝１，2，...，Ⅳ，Ｎ为粒子总数；ｄ＝１，2，...，D，D为粒子维数；w_d为惯性权重；c₁和c₂为学习因子，也称加速常数，通常c₁＝c₂＝2；r₁和r₂为[0，1]范围内的均匀随机数；

是第k次迭代第i个粒子飞行速度矢量的第ｄ维分量，

v_max是常数，由用户设定用来限制粒子的速度；是第k次迭代第i个粒子飞行位置矢量的第ｄ维分量。式(4)右边由三部分组成，第一部分为“陨性”或“动量”部分，反映了粒子的“运动习惯”，代表粒子有维持自己当前速度的趋势；第二部分为“认知”部分，反映了粒子对自身历史经验的保持，代表粒子有向自认最佳位置逼近的趋势；第三部分为“社会”部分，反映了粒子间协同合作与知识共享的群体历史经验，代表粒子有向群体或邻域历史最佳位置逼近的趋势。

其中二维信息熵计算的具体算法如下：

(1)各节点根据一维熵寻优后，将符合条件的数据传给簇头，簇头形成(ｎ，m)维数据矩阵：Ｃ＝[X₁，X₂....，X_n]′，其中X_n为各节点的数据集合。相应有各节点的概率加权数据均值向量：Ｃ_ｐ＝[x_p1，x_p2，...，x_pn]、各节点邻域的距离加权均值：B＝[b₁，b₂，...，b_n]；

(2)求节点自身概率加权均值与B的相异粒度向量：M＝[m₁，ｍ₂，...，m_n]。其中，ｍ_i＝INＴ(｜x_pi-b_i｜/ｌ)，ｌ＝｜x_iｊmax-x_iｊｍｉn｜·1％；

(3)求出簇内各节点与其邻域的相异概率密度向量：Ｐ＝[p₁，ｐ₂，...，p_n]，其中ｐ_i＝ｍ_i/ｍ₀，其中，

且有

(4)应用智能寻优算法对式(2)求最大值max(H₂(x))，相应可确定数据选择阈值{x_max，x_min}，簇节点据此可进一步剔除簇内各节点的离群数据；

其中阈值自适应寻优的具体过程如下：

(1)计算粒子熵集：设粒子群的粒子数目为Ⅳ，第k次迭代时粒子位置矢量的D维数据集为

A^{k} = {A_{1}^{k}, A_{2}^{k}, . . ., A_{D}^{k}},

其中

A_{d}^{k} = {x_{1}^{k}, x_{2}^{k}, . ., x_{N}^{k}}

为所有粒子的第d维数据子集，则粒子熵集(第k次迭代时)可以定义为：

E^{k} = {E_{1}^{k}, E_{2}^{k}, . . ., E_{D}^{k}},

其中

E_{i}^{k} (x_{i}^{k}) = Σ_{l = 1}^{L} ρ_{i}^{k} 1 n \frac{1}{ρ_{i}^{k}} = - Σ_{l = 1}^{L} ρ_{i}^{k} 1 n ρ_{i}^{k} - - - (6)

为

中数据按一定间隔粒度ｌ划分后形成的分布概率；

(2)参数变异过程惯性权重w_d采取指数调整策略，即：

w_{d}^{k} = w_{\max} \cdot \exp (- 30 \cdot (t / T)) - - - (7)

全局最优值ｐ_gd采用随机变异的方法，设λ为服从Gauss(0，1)分布的随机变量，则有

{P_{gd}}^{k + 1} = {p_{gd}}^{k} \cdot (1 + a \cdot λ / N) - - - (8)

其中a为变异系数，并且a∈[2.0，2.4]；N为当前变异次数，设E₀为变异时的粒子熵阈值，当

时，将

变异为起始时的w0(w_max)，增大搜索速度；

(3)算法迭代寻优：根据常规粒子群算法计算各粒子的位置与速度、更新全局最优位置，判断算法收敛准则是否满足，以此决定是否完成寻优，每一步寻优后都计算每个粒子的适应度值，并且分别利用(1)、(3)式计算所有粒子的一、二维熵适应度值；对于每个粒子，将其适应值与所经历过的最好位置的适应值进行比较，如果更好，则将其作为粒子的个体历史最优值，用当前位置更新个体历史最好位置；同时对每个粒子，比较它的适应度值和群体所经历的最好位置的适应度值，如果更好，更新全局最好位置；

对于WSN中的二维熵而言，参数的维数为2，即用于筛选异常数据的阈值[x_max，x_min]，粒子的个数选取15个粒子来进行搜索。

本发明提出了节点信息熵以及簇内二维信息熵的概念，可以作为统计特征量分别来描述单节点数据以及簇内全局数据的信息量水平。节点信息熵面向单节点的数据流，可以从时间角度衡量某个时间区间内数据的有效性；簇内二维熵面向WＳN中簇内的汇聚数据流，可以从空间关联角度衡量所汇聚数据的有效性。在此基础上，提出了粒子熵的概念，并提出了以粒子熵为基础的参数自适应变异的粒子群优化算法的改进方法，可高效地对节点内数据并查集的信息熵进行最大寻优，自动确定数据融合的上下限阈值，完成节点局部离群数据的鉴别；同时考虑簇内信息分布的空间特性，对簇内二维信息熵进行最大寻优，并由此确定簇内离群数据检测的阈值，实现数据过滤，提高数据融合效率，降低网络传输功耗。

附图说明

附图1为实施例1中节点1原始数据分布图；

附图2为实施例1中节点1离群检测后数据分布图；

附图3为实施例1中节点1离群阈值粒子群寻优过程；

附图4为实施例2中50个节点时网络能耗过程曲线。

具体实施方式

现有的离群数据检测方法主要是面向静态的数据集，或点对点的数据流，它们更多的关注离群点检测的合理性和算法的准确率。在无线传感网络中，由于大量节点布设范围广，数据传输的时间和空间复杂度较大，网络中产生了大规模快速变化的数据流，常用的方法由于忽略了数据间的空间关联性或时间关联性，必然会影响检测精度，虽然可以采取减少通信量和计算量的措施，但仍然存在通信量大和计算量大以及仅适合单维读数等问题。

针对这些问题，本发明基于“时间——空间”维度，提出了节点信息熵以及簇内二维信息熵的概念，将二者作为统计特征量分别来描述单节点数据以及簇内全局数据的信息量水平。节点信息熵面向单节点的数据流，可以从时间维度衡量某个时间窗内数据的有效性；簇内二维熵面向WSN中簇内的多个通道的汇聚数据流，可以从空间关联角度衡量所汇聚数据的有效性。在此基础上，首先通过对节点内数据并查集的信息熵进行最大寻优，自动确定数据融合的上下限阈值，完成节点局部离群数据的鉴别，去除冗余；同时考虑簇内信息分布的空间特性，对簇内二维信息熵进行最大寻优，并由此确定簇内离群数据检测的阈值，实现数据二次过滤，过滤后的数据在全局空间内具有了高度统一性，可以比较精确地代表本簇内的信息状态，可提升网内数据融合效率，同时显著降低网络传输功耗。

一种基于熵度量的无线传感器网络离群数据自适应检测方法，包括如下步骤：

第一步：网络模型的建立：

假设有Ⅳ个传感器节点随机部署在正方形区域Ａ(l×ｌ)中，传感器网络被分成若干个簇，一个簇中包含了一个簇头和若干个簇成员节点。簇成员只负责采集和传递数据，而簇头除了具备传感节点的功能外，还要对簇内的成员进行管理，建立如下网络模型：

1)观测区域A是一个静态的网络，传感节点和Sink节点在分布后就固定不变，Sink节点位于观测区域附近，节点分布不均匀。

2)除Sink节点外，传感节点和簇头节点是同构的，每个节点都有自己的ID号。

3)邻近的节点在同一时刻采集到的数据具有相似性，每个节点都可以进行数据融合。

4)节点周期性的采集数据，并做出决策是否转发每次的数据。

5)节点能够获取自身及其他节点的位置信息，同时按最远距离的10％划定邻域，存储邻域内节点的距离信息。

第二步：簇内信息熵及计算：

(1)一维信息熵及计算：

信息熵是一种基于信息表现特征的统计形式，它反映了一组信息中平均信息量的多少。传感节点的一维信息熵表示节点中数据分布的聚集特征，即总体平均不确定性的度量。一维熵值的大小反映了节点数据的相似程度，是单节点数据融合的有效依据。一维熵越小，说明节点数据排列区间较大(聚类特征不明显)；反之，则数据分布区间越小，越混沌。

一维熵有助于对节点数据集中的离群数据进行鉴别，进而融合有序数据，减少节点通信量，节省节点能量。由于簇内传感节点采集的数据具有趋同性(如局部环境中的温度数值)，可设计算法求出数据选择阈值{L，H}，实现数据鉴别。其中，L为数据集下限阈值，H为数据集上限阈值。相反，当采集区域内数据具有趋异性时，可以根据阈值{L，H}对上下限之间的趋同数据进行检测。

设Ｃ_j为传感网络A中的某一簇，N为簇Ｃ_j内的采集节点数量，D_n为簇内节点n所采集的数据组成的时间序列数据集D_n＝{d_n１，d_n2，...d_nm}，其中，n∈Ⅳ，m∈M，M为节点i数据采集时间窗口的长度。

节点离群数据检测算法如下：

(1)构造节点数据并查集。将数据集D_n按照间隔粒度｜d_n-max-d_n－min|·(1/K)划分为若干个(K个)数据子集A_k。A_k为并查集，满足：A₁∪A₂∪，...，∪A_k＝A，且A_i∩A_j＝Ω，其中i，j＝１，...，m且i≠j。

(2)求出每个数据子集A_k数据比例p_k，此即单位数据子集的信息概率。根据Shannon信息熵定义，可以求出单个节点i的信息熵(平均自信息)：

H_{i} (x) = Σ_{k = 1}^{K} p_{k} 1 n \frac{1}{p_{k}} = - Σ_{k = 1}^{K} p_{k} 1 n p_{k} - - - (1)

(3)应用智能寻优算法对H_i(x)求取最大值max(H_i(x))，相应可确定数据选择阈值{d_n-max，d_n-min}，进而剔除边缘离群数据。

(2)二维信息熵及计算：

节点的一维熵可以表示节点数据在时间轴上分布的聚集特征，却不能反映整个簇内数据分布的空间特征，为了表征这种空间特征，在一维熵的基础上引入能够反映数据分布空间特征的特征量来组成数据的二维信息熵。

选择簇内的加权数据均值作为数据分布的空间特征量，与节点i的加权数据均值组成特征二元组，记为

，其中d_i表示节点i的数据均值，

表示邻域内数据均值(空间特征量)，则有联合概率密度：

p_{i} = f (d_{i}, d_{i}^{'}) / N - - - (2)

其中，

上式能反应节点i的数据与其周围数据分布的综合特征，其中为特征二元组

H_{2} = - Σ_{i = 0}^{N} (1 - p_{i}) 1 n (1 - p_{i}) - - - (3)

构造的二维信息熵可以在簇内所包含信息量的前提下，突出反映簇内各节点的数据信息和簇内数据分布的全局综合特征。设定二维熵的阈值H₀，当H₂<H₀时，可认定数据集中存在异变的极值数据，由于簇内传感节点采集的数据具有趋同性(如局部环境中的温度数值)，此时可根据算法求出数据选择阈值{L，H}，实现数据融合。其中，L为数据集下限阈值，H为数据集上限阈值。相反，当采集区域内数据具有趋异性时，可以根据阈值{L，H}对上下限之间的趋同数据进行检测。汇聚节点确定阈值组{L，H}后，可将各节点数据进行筛选，打包上送，或对区域状态做出判断。

具体算法如下：

(1)各节点根据一维熵寻优后，将符合条件的数据传给簇头，簇头形成(ｎ，m)维数据矩阵：Ｃ＝[X₁，X₂....，X_n]′，其中X_n为各节点的数据集合。相应有各节点的概率加权数据均值向量：Ｃ_ｐ＝[x_p1，x_p2，...，x_pn]、各节点邻域的距离加权均值：B＝[b₁，b₂，...，b_n]。

(2)求节点自身概率加权均值与B的相异粒度向量：M＝[m₁，ｍ₂，...，m_n]。其中，ｍ_i＝INＴ(｜x_pi-b_i|/ｌ)，ｌ＝｜x_iｊmax-x_iｊmin｜·1％。

且有

(4)应用智能寻优算法对式(2)求最大值max(H₂(x))，相应可确定数据选择阈值{x_max，x_min}，簇节点据此可进一步剔除簇内各节点的离群数据。

第三步：阈值自适应寻优：

节点及簇内信息熵的阈值寻优采用粒子群算法(Particle SwarmOptimize，PSO)，其基于群智能方法进行演化，具有深刻的智能背景，其优势在于简单容易实现并且没有过多参数需要调整。系统初始化为一组随机解，通过迭代搜寻最优值。粒子群通过寻找多个准局部最优解而实现全局最优解，具有简单监督、快速调整寻优方向等特点。

PSO算法首先初始化一群随机粒子(随机解)，然后通过迭代找到最优解。在每一次迭代中，粒子通过跟踪两个极值来更新自己：一个是粒子个体最优解ｐ_id；另一个是整个种群的历史最优解ｐ_gｄ，即全局极值。同时根据如下的公式来更新各粒子的速度和位置：

v_{id}^{k + 1} = w_{d} * v_{id}^{k} + c_{1} r_{1} (p_{id} - x_{id}^{k}) {+ c}_{2} r_{2} (p_{gd} - x_{id}^{k}) - - - (4)

x_{id}^{k + 1} = x_{id}^{k} + v_{id}^{k + 1} - - - (5)

其中：i＝１，2，...，N，Ｎ为粒子总数；ｄ＝１，2，...，D，D为粒子维数；w_d为惯性权重；c₁和c₂为学习因子，也称加速常数，通常c₁＝c₂＝2；r₁和r₂为[0，1]范围内的均匀随机数；

是第k次迭代第i个粒子飞行速度矢量的第ｄ维分量，

v_max是常数，由用户设定用来限制粒子的速度；

是第k次迭代第i个粒子飞行位置矢量的第ｄ维分量。式(4)右边由三部分组成，第一部分为“陨性”或“动量”部分，反映了粒子的“运动习惯”，代表粒子有维持自己当前速度的趋势；第二部分为“认知”部分，反映了粒子对自身历史经验的保持，代表粒子有向自认最佳位置逼近的趋势；第三部分为“社会”部分，反映了粒子间协同合作与知识共享的群体历史经验，代表粒子有向群体或邻域历史最佳位置逼近的趋势。

实际应用中，算法中的2个重要因素w_d和ｐ_gd由于会过早趋于稳定而使得粒子群迅速靠拢，导致算法陷入局部最优，出现所谓的早熟收敛现象，无法在解空间内重新搜索。本发明的改进方法中，首先定义面向粒子群数据维数的粒子熵集，由此决定是否对w_d和ｐ_gd进行变异，若算法出现早熟收敛，变异后的参数可改变粒子的飞行速度和方向，进而跳出局部最优区域，展开新一轮搜索，最终按粒子熵集收敛准则决定是否终止算法。

具体过程如下：

(1)计算粒子熵集设粒子群的粒子数目为N，第k次迭代时粒子位置矢量的D维数据集为

A^{k} = {A_{1}^{k}, A_{2}^{k}, . . ., A_{D}^{k}},

其中

A_{d}^{k} = {x_{1}^{k}, x_{2}^{k}, . ., x_{N}^{k}}

E^{k} = {k_{1}^{k}, E_{2}^{k}, . . ., E_{D}^{k}},

其中

E_{i}^{k} (x_{i}^{k}) = Σ_{l = 1}^{L} ρ_{i}^{k} 1 n \frac{1}{ρ_{i}^{k}} = - Σ_{l = 1}^{L} ρ_{i}^{k} 1 n ρ_{i}^{k} - - - (6)

为

中数据按一定间隔粒度ｌ划分后形成的分布概率。由于粒子群的总体社会行为特性，寻优后期粒子趋于同一化，多样性逐渐消失，而此时的粒子熵将接近０，因此粒子熵可以反映粒子各维数据的聚集程度。

(2)参数变异过程惯性权重w_d采取指数调整策略，即：

w_{d}^{k} = w_{\max} \cdot \exp (- 30 \cdot (t / T)) - - - (7)

{P_{gd}}^{k + 1} = {p_{gd}}^{k} \cdot (1 + a \cdot λ / N) - - - (8)

其中a为变异系数，经实验，a∈[2.0，2.4]比较合理；N为当前变异次数。设E₀为变异时的粒子熵阈值，当

时，将

变异为起始时的w0(ｗ_max)，增大搜索速度。

(3)算法迭代寻优根据常规PSO算法计算各粒子的位置与速度、更新全局最优位置，判断算法收敛准则(适应度方差小于设定值)是否满足，以此决定是否完成寻优。每一步寻优后都计算每个粒子的适应度值。分别利用(1)、(3)式计算所有粒子的一、二维熵适应度值。对于每个粒子，将其适应值与所经历过的最好位置的适应值进行比较，如果更好，则将其作为粒子的个体历史最优值，用当前位置更新个体历史最好位置。同时对每个粒子，比较它的适应度值和群体所经历的最好位置的适应度值，如果更好，更新全局最好位置。

对于WSN中的二维熵而言，参数的维数为2，即用于筛选异常数据的阈值[x_max，ｘ_min]。一般的，粒子的个数根据实际应用不同进行选取，本发明中选取15个粒子来进行搜索。

实施例1：离群数据检测仿真。

为了验证本方法在无线传感网络簇内离群数据筛选与融合方面的性能，在NS-2仿真平台上进行了算法模拟。实验基于上文设定的网络模型，采用LEACH协议分别对50个节点进行分簇。基本参数设置为：模拟时间160s，一个汇聚节点，初始能量为无穷大，初始节点能量为2J，节点位置随机分布，轮转周期为20s，簇头节点个数为5。第1次分簇后簇1内节点数量为8，各节点20s内产生一组均值为5、标准差为0.3的模拟数据(1000个)，作为节点所采集的样本。

图1为簇1内节点1所产生的数据样本。节点1内部应用基于最大熵的粒子群算法，粒子的2个附属参数的搜寻范围分别设为：[4.5，4.7]、[5.3，5.5]。算法经43次寻优后即找到最大信息熵：H₁＝3.2982(如图2所示)。寻优后正常数据为718个(检测比率为28.2％)，均值为5.02、标准差为０.121；检测阈值为[4.667,5.305]。

节点1检测后数据样本如图2所示。簇1内部8个节点及簇头1节点各自经最大一、二维熵寻优后的结果如表1所示。由表1可以看出，簇头1接收到8个节点离群检测后的数据之后进行最大二维熵寻优后，计算出的最大二维熵明显大过各子节点，阈值空间进一步缩小，检测率也有进一步提高，这是因为大量冗余数据汇聚与此后使得数据分布概率更加均匀，导致信息熵明显偏高。簇头1节点离群检测率达到了35.6％，进一步滤除了冗余数据，方便后续开展符合实际需求的数据处理。

表1簇1内各节点离群数据检测结果

实施例2：离群检测能耗分析。

为了进一步论证本发明提出的离群数据检测算法的优越性，在NS-2仿真平台上将本文提出的方法和自适应加权融合算法在能量消耗方面进行了比较。在实验执行时，设置普通节点能量为1J，汇聚节点能量为100J，所有普通节点随机产生分布在100×100的网格区域内，汇聚节点设定在区域中央，轮转周期为20s，仿真时间为200s，无线通信距离为100m，实验中对普通节点数为50采用新方法和旧方法进行了仿真，每10s计算整个网络的平均能量，具体实验结果如图4所示。

可见，基于二维熵的检测算法由于有效剔除了节点以及簇头的异常数据，在保证数据有效性的同时减少了通信流量，网络的平均能耗有较大改进，且在节点数增多或数据量增大时由于数据冗余的增大导致通信量的进一步减少，从而使得能量的节省更加明显。

结论：

由于实际中传感器节点分布现场影响因素较多，监测区域的物理量经常受干扰而有波动，同时相邻的传感器节点对同一目标区域的采集结果又不尽相似，所以传感器网络的数据具有较强的冗余和失真，过多的数据传输要消耗能量，会影响网络的生命周期。本发明提出了节点信息熵以及簇内二维信息熵的概念，可以作为统计特征量分别来描述单节点数据以及簇内全局数据的信息量水平，并通过构建改进的参数自适应变异策略的粒子群智能算法，搜寻有关信息熵的最大值，进而实现离群数据检测阈值的自动寻优，滤除异常数据效果明显。仿真实验表明算法明显减少了能量损耗，延长了网络寿命。

Claims

1.一种基于熵度量的无线传感器网络离群数据自适应检测方法，其特征在于，包括如下步骤：

第一步，网络模型的建立：

第二步，簇内信息熵及计算：

(1)一维信息熵及计算：

设Ｃ_j为传感网络A中的某一簇，N为簇Ｃ_j内的采集节点数量，D_n为簇内节点n所采集的数据组成的时间序列数据集D_n＝{d_n1，d_n2，...d_nm}，其中，n∈Ⅳ，m∈Ｍ，M为节点i数据采集时间窗口的长度；

节点离群数据检测算法如下：

(1)构造节点数据并查集，将数据集D_n按照间隔粒度｜d_n-max-ｄ_ｎ-min｜·(1/K)划分为K个数据子集A_k，A_k为并查集，满足：

A₁∪A₂∪,...，∪A_k＝A，且A_i∩A_j＝Ω，其中i，j＝１，...，m且i≠j；

H_{i} (x) = Σ_{k = 1}^{K} p_{k} 1 n \frac{1}{p_{k}} = - Σ_{k = 1}^{K} p_{k} 1 n p_{k};

(2)二维信息熵及计算：

其中d_i表示节点i的数据均值，表示邻域内数据均值即空间特征量，则有联合概率密度：

p_{i} = f (d_{i}, d_{i}^{'}) / N - - - (2);

其中，

上式能反应节点i的数据与其周围数据分布的综合特征，其中

为特征二元组

H_{2} = - Σ_{i = 0}^{N} (1 - p_{i}) 1 n (1 - p_{i});

第三步，阈值自适应寻优：

v_{id}^{k + 1} = w_{d} * v_{id}^{k} + c_{1} r_{1} (p_{id} - x_{id}^{k}) {+ c}_{2} r_{2} (p_{gd} - x_{id}^{k}) - - - (4)

x_{id}^{k + 1} = x_{id}^{k} + v_{id}^{k + 1} - - - (5)

是第k次迭代第i个粒子飞行速度矢量的第ｄ维分量，

v_max是常数，由用户设定用来限制粒子的速度；

2.如权利要求1所述的一种基于熵度量的无线传感器网络离群数据自适应检测方法，其特征在于：

二维信息熵计算的具体算法如下：

(1)各节点根据一维熵寻优后，将符合条件的数据传给簇头，簇头形成(ｎ，m)维数据矩阵：Ｃ＝[Ｘ_１，X₂....，X_n]′，其中X_n为各节点的数据集合。相应有各节点的概率加权数据均值向量：Ｃ_ｐ＝[ｘ_p１，x_p2，...，x_pn]、各节点邻域的距离加权均值：B＝[b₁，b₂，...，b_n]；

(2)求节点自身概率加权均值与B的相异粒度向量：M＝[m₁，ｍ₂，...，m_n]。其中，ｍ_i＝INT(｜x_pi-b_i｜/ｌ)，ｌ＝｜x_ijmax-ｘ_ijmin｜·1％；

(3)求出簇内各节点与其邻域的相异概率密度向量：Ｐ＝[p₁，ｐ₂，...，p_n]，其中ｐ_i＝ｍ_i/ｍ₀，其中，且有

(4)应用智能寻优算法对式(2)求最大值max(H₂(x))，相应可确定数据选择阈值{x_max，ｘ_min}，簇节点据此可进一步剔除簇内各节点的离群数据；

3.如权利要求1所述的一种基于熵度量的无线传感器网络离群数据自适应检测方法，其特征在于：

阈值自适应寻优的具体过程如下：

A^{k} = {A_{1}^{k}, A_{2}^{k}, . . ., A_{D}^{k}},

其中

A_{d}^{k} = {x_{1}^{k}, x_{2}^{k}, . ., x_{N}^{k}}

E^{k} = {E_{1}^{k}, E_{2}^{k}, . . ., E_{D}^{k}},

其中

E_{i}^{k} (x_{i}^{k}) = Σ_{l = 1}^{L} ρ_{i}^{k} 1 n \frac{1}{ρ_{i}^{k}} = - Σ_{l = 1}^{L} ρ_{i}^{k} 1 n ρ_{i}^{k} - - - (6)

为

中数据按一定间隔粒度ｌ划分后形成的分布概率；

(2)参数变异过程惯性权重w_d采取指数调整策略，即：

w_{d}^{k} = w_{\max} \cdot \exp (- 30 \cdot (t / T)) - - - (7)

{P_{gd}}^{k + 1} = {p_{gd}}^{k} \cdot (1 + a \cdot λ / N) - - - (8)

其中a为变异系数，并且a∈[2.0，2.4]；N为当前变异次数，设E₀为变异时的粒子熵阈值，当时，将

变异为起始时的w０(w_max)，增大搜索速度；

(3)算法迭代寻优：根据常规粒子群算法计算各粒子的位置与速度、更新全局最优位置，判断算法收敛准则是否满足，以此决定是否完成寻优，每一步寻优后都计算每个粒子的适应度值，并且分别利用(1)、(3)式计算所有粒子的一、二维熵适应度值；对于每个粒子，将其适应值与所经历过的最好位置的适应值进行比较，如果更好，则将其作为粒子的个体历史最优值，用当前位置更新个体历史最好位置；同时对每个粒子，比较它的适应度值和群体所经历的最好位置的适应度值，如果更好，更新全局最好位置；对于WSN中的二维熵而言，参数的维数为2，即用于筛选异常数据的阈值[x_max，x_min]，粒子的个数选取15个粒子来进行搜索。