CN105791051A - 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 - Google Patents

基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 Download PDF

Info

Publication number
CN105791051A
CN105791051A CN201610179672.2A CN201610179672A CN105791051A CN 105791051 A CN105791051 A CN 105791051A CN 201610179672 A CN201610179672 A CN 201610179672A CN 105791051 A CN105791051 A CN 105791051A
Authority
CN
China
Prior art keywords
bunch
data
sequence
average
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610179672.2A
Other languages
English (en)
Other versions
CN105791051B (zh
Inventor
陈分雄
凌承昆
郭星锋
王典洪
殷蔚明
付杰
胡凯
唐曜曜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201610179672.2A priority Critical patent/CN105791051B/zh
Publication of CN105791051A publication Critical patent/CN105791051A/zh
Application granted granted Critical
Publication of CN105791051B publication Critical patent/CN105791051B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0212Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave
    • H04W52/0219Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave where the power saving management affects multiple terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于人工免疫和K均值聚类的无线传感网异常检测方法及系统,该方法包括:S1、获取无线传感网节点采集到的原始监测数据构成时间序列,对其进行归一化处理,压缩降维,并计算压缩序列中各时序子段的均值和方差;S2、计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;S3、每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断。本发明能够准确地发现监测数据中的异常信息,提高无线传感网检测异常事件的及时性和可靠性,大幅度节省无线传感网能量和通信带宽。

Description

基于人工免疫和K均值聚类的无线传感网异常检测方法及系统
技术领域
本发明涉及物联网技术领域,尤其涉及一种基于人工免疫和K均值聚类的无线传感网异常检测方法及系统。
背景技术
无线传感网(WirelessSensorNetworks,简称为WSN)是未来网络发展的主流形式,并已成为本世纪一个新科学研究领域。在基础理论和工程技术两个层面提出了许多急需解决的问题。无线传感网成本低廉、低功耗、大规模自组网;传感器节点体积小巧、电池供电、部署灵活;以及能够适应监测人力难以到达的恶劣环境;这些特点使得无线传感网极大地提升了灾害预防的监控能力。为了及时监测各种可能发生的突发事件(如山体滑坡、大气污染、森林火灾等),必须关注传感器节点采集到的异常测量值。因此,实时准确地检出异常数据,并预警特定事件,具有十分重要的意义。
大规模长期部署无线传感网中成千上万的传感器节点产生海量的高维时序数据,这些数据中包含了大量的冗余并隐藏了重要关系的相关性,若在这些原始数据空间上直接进行异常检测,其能量和通讯带宽的巨大开销将会缩短网络生命周期,甚至使无线传感网不能够完成监测任务。因此,在数据被传送到网关之前进行压缩(或降维)是非常必要的。在事件监测型WSN应用系统中,从网络的监测数据中快速识别异常事件是其首要目标,其重要性甚至超过监测数据本身。但目前的大多数异常检测算法往往忽略了WSN中的一些设计约束,特别是能量限制。由于传感器节点通常布置在恶劣的环境中,其只能靠能量有限的电池供电,一旦电池能量耗尽,将直接影响采集数据的质量,这将为异常检测带来更多的困难。由于WSN数据的传送将消耗节点大多数能量,因此,考虑利用压缩技术实现网络节能的同时,再利用异常检测技术对压缩数据完成异常信息的检测。
发明内容
本发明要解决的技术问题在于针对现有技术中异常检测精度不高,且能耗大的缺陷,提供一种通过压缩降维降低数据传输量,并能增加异常检测精度的基于人工免疫和K均值聚类的无线传感网异常检测方法及系统。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于人工免疫和K均值聚类的无线传感网异常检测方法,包括以下步骤:
S1、获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
S2、网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
S3、根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
进一步地,本发明的步骤S1中对时间序列进行归一化处理的公式为:
y i = x i - μ σ
其中,时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn},μ为序列X的均值,σ为序列X的标准差。
进一步地,本发明的步骤S1中对归一化序列进行压缩降维的公式为:
c ‾ i = m n Σ j = n m ( i - 1 ) + 1 n m i y j
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
进一步地,本发明的步骤S1中计算压缩序列各时序子段方差的公式为:
σ i = m n Σ k = 1 n m ( y i k - c ‾ i )
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
进一步地,本发明的步骤S2中计算节点数据与每个簇头间的欧式距离的公式为:
d ( D u , D v ) = τ × ( c ‾ i u - c ‾ i v ) 2 + ( 1 - τ ) ( σ i u - σ i v ) 2
其中,根据均值和方差σi来表示WSN节点在各时序子段采集原始监测数据,节点发送压缩数据记为某节点u发送压缩数据记为网关接收到网络中所有节点发送压缩数据后,随机从中选择k′个作为初始的簇头集合,τ为权重因子,τ决定了2个距离分量对于最终计算值贡献的大小。
进一步地,本发明的步骤S2中人工免疫算法的评价函数公式为:
J = Σ v = 1 k ′ | d ( D u , D v ) | 2
其中,评价函数J,d(Du,Dv)为欧式距离。
进一步地,本发明的步骤S2中通过人工免疫算法为K均值分类找到最优的初始簇头集合的方法具体为:
S21、设簇头集为人工免疫算法的抗体,定义初始的抗体群为:
T = M 1 1 M 2 1 ... ... M k ′ 1 M 1 2 M 2 2 ... ... M k ′ 2 . . . M 1 Q M 2 Q ... ... M k ′ Q . . .
其中,k′表示分类的簇个数,矩阵T中的每一行表示了抗体群中的第Q个抗体,也代表了第Q个随机产生的簇头集合,矩阵T中每一个元素为网关接收到的某节点发送压缩数据
S22、对于抗体群T中的每个抗体,分别计算其作为簇头集的K均值分类目标函数J值,当所有抗体都执行分类过程,对所有的J值按从小到大的顺序进行排序,J值越小则说明分类结果越好;
S23、按顺序选择较小J值所对应的抗体放入下一轮的初始抗体群,根据J值对选择的抗体进行克隆;
S24、对最小J值的抗体所对应的K均值分类结果进行分析,判断其是否为所期望的J值或迭代次数是否达到设定值,如果满足则说明当前最小J值所对应的抗体是最优初始簇头集,则终止优化过程;否则,对得到的新抗体群中的每个抗体进行克隆、交叉、变异处理,重复步骤S22进行迭代更新。
本发明提供一种基于人工免疫和K均值聚类的无线传感网异常检测系统,包括:
数据预处理单元,用于获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
最优簇头集合计算单元,用于网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
K均值聚类单元,用于根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
异常判断单元,用于无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
本发明产生的有益效果是:本发明的基于人工免疫和K均值聚类的无线传感网异常检测方法,通过对数据压缩降维,延长节点寿命并减少通信负荷;直接结合K均值聚类和人工免疫算法对压缩后的数据进行异常信息的检测,保证了算法的实时性;该方法能够提高无线传感网节点搜索效率和定位异常数据的能力,与直接在无线传感网采集的原始数据空间进行异常检测相比,该方法具有较高的事件检测精度和较低的误报率;能够准确地发现监测数据中的异常信息,提高无线传感网检测异常事件的及时性和可靠性,大幅度节省无线传感网能量和通信带宽。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的流程图;
图2是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的stdb_308数据集分布图;
图3是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的不同信噪比下OA方法的事件检出率DR图;
图4是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的不同信噪比下OA方法的事件误报率FAR图;
图5是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,包括以下步骤:
S1、获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
S2、网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
S3、根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
在本发明的另一个实施例中,该方法包括以下步骤:
步骤一:无线传感网节点在n个周期内采集原始监测数据构成时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn};
步骤二:采用分段聚合近似方法对归一化序列Y∈Rn进行压缩降维得到m维的压缩序列计算压缩序列中各时序子段均值和方差σi
步骤三:网关接收到网络中所有节点发送压缩数据后,计算节点数据与每个簇头间的欧式距离;
步骤四:采用人工免疫算法为K均值分类找到最优的初始簇头集合;
步骤五:确定最优的初始簇头集合后进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
步骤六:无线传感网判断K均值聚类结果中簇内数据个数最少的簇为异常簇。
无线传感网节点在n个周期内采集原始监测数据构成时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn}的计算公式为:
y i = x i - μ σ - - - ( 1 )
其中,μ为序列X的均值,σ为序列X的标准差。
采用分段聚合近似方法对归一化序列Y∈Rn进行压缩降维得到m维的压缩序列m<<n,其中为:
c ‾ i = m n Σ j = n m ( i - 1 ) + 1 n m i y j - - - ( 2 )
其中,表示归一化序列Y的第i个时序子段均值,通过各时序子段内数据的均值来代表该子段的数据。只需要将原始数据按照设定的压缩比进行分段,再将每段数据的均值作为新的数据即实现了PAA的压缩过程。但也正是PAA这种简单的压缩机制,使得压缩后的数据有可能丢失原数据序列的一些细节信息。例如WSN节点采集正常数据分布在1~10的范围内,一旦某个值超过这个范围则认为出现异常。若节点采集数据序列分别为X1={2,4,9}和X2={1,1,13},序列X2中含有异常值信息,但经过PAA压缩后则两个序列都将被判断为正常,但明显X2中异常信息被隐藏,因此只是简单地基于PAA压缩数据进行异常检测,则可能会降低异常检测的准确性。为此,在PAA方法的基础上增加每个分段区间内数据间的方差信息来反映每个分段区间内数据的差异性。
为此,定义压缩序列中各时序子段方差σi为:
σ i = m n Σ l = 1 n m ( y i l - c ‾ i ) - - - ( 3 )
根据式(3)计算X1={2,4,9}和X2={1,1,13}的方差分别为σ1=26和σ2=96,虽然两个序列均值都为5但有方差σ1<σ2,序列X2内部的差异化远远大于序列X1,则可初步判断X2中含有异常信息。因此,同时采用均值和方差σi来表示WSN节点在各时序子段采集原始监测数据,节点发送压缩数据记为某节点u发送压缩数据记为改进后的PAA方法的压缩比为:
k = 1 2 m n
网关接收到网络中所有节点发送压缩数据后,随机从中选择k′个作为初始的簇头集合,计算节点数据与每个簇头间的欧式距离来决定节点数据归属于哪个簇内。由于每个节点数据包含了2个分量,定义节点u与第个v簇头间的欧式距离d(Du,Dv)计算公式为:
d ( D u , D v ) = τ × ( c ‾ i u - c ‾ i v ) 2 + ( 1 - τ ) ( σ i u - σ i v ) 2 - - - ( 4 )
其中τ为权重因子,τ决定了2个距离分量对于最终计算值贡献的大小。
对所有距离d按从小到大进行排序,距离d反映了节点与所对应簇的相关性,d越小则相关性越强,因此,将节点归入距离值最小的簇头所对应的簇内。每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化。此时,每个节点都已找到对应的相关性最强的簇,标志着分类过程的结束。根据上述过程,定义K均值分类算法的评价函数为:
J = Σ v = 1 k ′ | d ( D u , D v ) | 2 - - - ( 5 )
由于初始簇头的选择影响K均值分类效果,因此,引入人工免疫算法对K均值分类结果进行全局优化。评价函数J越小则K均值分类结果越好。因此,对于人工免疫算法而言,将J定义为人工免疫算法的目标函数和亲和度计算公式。
通过人工免疫算法为K均值分类找到最优的初始簇头集合过程如下:
步骤1:簇头集被定为人工免疫算法的抗体,定义初始的抗体群为:
T = M 1 1 M 2 1 ... ... M k ′ 1 M 1 2 M 2 2 ... ... M k ′ 2 . . . M 1 Q M 2 Q ... ... M k ′ Q . . .
其中k′表示分类的簇个数,矩阵T中的每一行表示了抗体群中的第Q个抗体,也代表了第Q个随机产生的簇头集合,矩阵T中每一个元素为网关接收到的某节点发送压缩数据
步骤2:对于抗体群T中的每个抗体,分别计算其作为簇头集的K均值分类目标函数J值(即亲和度),当所有抗体都执行分类过程,对所有的J值按从小到大的顺序进行排序,J值越小则说明分类结果越好。
步骤3:按顺序选择较小J值所对应的抗体放入下一轮的初始抗体群,根据亲和度J值对选择的抗体进行克隆。
步骤4:对最小J值的抗体所对应的K均值分类结果进行分析,判断其是否为所期望的J值或迭代次数是否达到设定值,如果满足则说明当前最小J值所对应的抗体是最优初始簇头集,则终止优化过程;否则,对得到的新抗体群中的每个抗体进行克隆、交叉、变异处理,重复步骤2进行迭代更新。
为了能够在实现数据压缩的同时保留原始数据的异常信息,本发明首先利用改进的分段聚合近似算法(简称为PAA)对每个节点采集到的原始数据进行压缩,以延长节点寿命和减少通信负荷。由于数据重构将花费大量的时间,为了保障整个算法的实时性不对原始数据进行解压重构,而是直接结合K均值聚类和人工免疫算法对压缩后的数据进行异常信息的检测。其中K均值聚类算法起到分类异常和正常信息的作用,而人工免疫算法则是为了优化K均值算法可以得到全局最优的分类结果。WSN节点采集数据中所包含的异常数据往往是极少数,这意味着经过K均值分类后异常数据所在簇的数据量将远远少于其他簇内数据的个数,因此,可以直接将分类结果中簇内数据个数最少的簇判断为异常簇。
由于本方法结合了人工免疫算法对K均值分类结果进行了全局最优处理,可以得到比经典的K均值分类算法更加有效的分类结果,即异常数据和正常数据可以更加准确地被分到不同的簇内。理想分类结果应该是所有的正常的数据处在相同的簇内,而异常的数据也处在同一个簇内。因此分类完成后目标函数J值越小,则说明分类越接近理想结果。由于WSN中的异常数据量相对于正常信息量而言往往是极少数,即数据个数最少的簇被认定为异常数据所在的簇。
为了评估本方法的性能,采用多次仿真实验的统计平均事件检出率DR和事件误报率FAR作为衡量方法检测异常的性能指标;并且考察压缩比k、分簇个数k′以及信噪比对本方法DR及FAR的影响,以检验本方法的检测精度、节能性和实时性、抗噪能力和鲁棒性。事件检出率DR定义为有事件发生时,节点检测出事件的次数占事件发生总次数的比例。事件误报率FAR定义为无事件发生时,节点检测出事件的次数占节点检测事件总次数的比例,实验数据采用国际上已公开的合成数据集和实际医学数据集如表1所示。
表1实验中所采用已公开的合成数据集和实际医学数据集
实验结果以实际医学数据集stdb_308为例,stdb_308某段数据的分布情况,如图2所示,其中绝对值大于0.5的数值被定义为异常数据。
设置不同压缩比k和分簇个数k′将会影响异常检测的精度。压缩比k越小被压缩的数据量越小,原始信息保留得越好,则异常检测效果就会越精确;而k值越大,则被压缩的数据越多,网络能量也会节省得越多。对于分簇个数k′越小,则方法计算量越小而分类的效果会变差;当k′变大,则刚好与变小的情况相反。因此,需要设置合适的压缩比k和分簇个数k′取值范围来保障较优的分类效果。表2和表3分别给出数据集stdb_308在不同压缩比和分簇个数下的事件检出率DR和事件误报率FAR。
表2在不同k和k′下事件检出率DR
表3在不同k和k′下事件误报率FAR
表2和表3中实验数据验证不同k和k′取值对于DR与FAR的影响与理论分析基本一致。为了兼顾WSN节能性和检测精度选取k=4和k′=3,在设置合适的k和k′取值后,表4给出本发明提供的方法(简称为OA方法)与经典的K均值分类方法(简称KWA为方法)在不同数据集上进行异常检测对比实验。
表4本发明与经典的K均值分类进行异常检测对比实验
从表4中可以明显地看出在不同数据集上本发明提供OA方法的异常检测率都要高,且误报率较低。这是因为本发明提供OA方法中采用了人工免疫方法对分类结果进行了优化,从而保证异常检测的结果可以得到全局最优,相反KWA算法过于依赖初始簇头集的选择,因此会导致分类结果的不稳定性,并且容易陷入局部最优解。
如图3和图4所示,在实际的WSN应用场景中会有环境噪声对原始数据的分布产生影响,为了验证本发明提供OA方法的鲁棒性,在数据集Ma_Data(简称为Ma)、Stdb_308(简称为Std)和Synthetic_control(简称为Syn)添加高斯白噪声来进行算法的仿真。图3和图4分别给出在不同信噪比(简称为SNR)下,本发明提供OA方法的事件检出率DR和事件误报率FAR。
从图中可以看出,随着信噪比不断增加,DR呈现出轻微上升,而FAR则表现出略微下降。在不同的数据集上加入噪声后,OA方法DR仍可保持在85%以上,同时FAR低于15%。表明OA方法具有较好的抗噪性和鲁棒性。
目前而言,大部分WSN异常检测算法在执行阶段前对压缩数据进行重构。然而重构过程往往计算复杂度高且耗时,因此数据重构会降低检测实时性。而本发明提供的OA方法直接对压缩数据进行异常检测,使得实时性得到一定的保障。为了验证本OA方法的节能性和实时性,仍采用stdb_308作为实验数据集,并与其它研究人员提出的几种常用异常检测方法如S.Osman方法、A.Bhargave方法、A.Bhargave方法和Y.Zhang方法进行对比,实验结果如表5所示。
表5本发明与其它常用异常检测方法性能对比
从表5中可以看出相比其它方法,本发明提供的OA方法获得DR和FAR性能最优,这是由于OA方法采用K均值分类结合人工免疫算法优化来进行异常信息检测。另外,OA方法采取了高压缩比的PAA算法,所以,OA方法具有较好的节能性。在实时性方面,由于Y.Zhang方法直接对原始数据进行异常检测,因此其耗时略少于OA方法。OA方法中采用计算复杂度低的PAA算法、K均值算法以及人工免疫算法,因此OA方法的实时性略好于S.Osman方法和A.Bhargave方法。
综上所述,本发明提出了一种基于人工免疫和K均值聚类的无线传感网异常检测方法。该方法该算法首先利用改进的PAA算法压缩节点采集的原始数据,然后利用了K均值分类直接对压缩数据进行异常检测,同时,为了解决K均值过于依赖初始值的缺点,本发明引入人工免疫算法对K均值分类结果进行全局优化。实验结果表明本发明具有较高的事件检测率和较低的误报率,极大地降低了节点压缩提取与检测异常信息的能耗,更优的折中能量和监测质量。因此,本发明能够适应异常检测中不同性质的事件,为无线传感网预警技术提供了一种轻量级方法。
如图5所示,本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测系统,用于实现本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法,包括:
数据预处理单元,用于获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
最优簇头集合计算单元,用于网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
K均值聚类单元,用于根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
异常判断单元,用于无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (8)

1.一种基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,包括以下步骤:
S1、获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
S2、网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
S3、根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
2.根据权利要求1所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S1中对时间序列进行归一化处理的公式为:
y i = x i - μ σ
其中,时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn},μ为序列X的均值,σ为序列X的标准差。
3.根据权利要求1所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S1中对归一化序列进行压缩降维的公式为:
c ‾ i = m n Σ j = n m ( i - 1 ) + 1 n m i y j
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
4.根据权利要求3所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S1中计算压缩序列各时序子段方差的公式为:
σ i = m n Σ k = 1 n m ( y i k - c ‾ i )
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
5.根据权利要求4所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S2中计算节点数据与每个簇头间的欧式距离的公式为:
d ( D u , D v ) = τ × ( c ‾ i u - c ‾ i v ) 2 + ( 1 - τ ) ( σ i u - σ i v ) 2
其中,根据均值和方差σi来表示WSN节点在各时序子段采集原始监测数据,节点发送压缩数据记为某节点u发送压缩数据记为网关接收到网络中所有节点发送压缩数据后,随机从中选择k′个作为初始的簇头集合,τ为权重因子,τ决定了2个距离分量对于最终计算值贡献的大小。
6.根据权利要求5所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S2中人工免疫算法的评价函数公式为:
J = Σ v = 1 k ′ | d ( D u , D v ) | 2
其中,评价函数J,d(Du,Dv)为欧式距离。
7.根据权利要求6所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S2中通过人工免疫算法为K均值分类找到最优的初始簇头集合的方法具体为:
S21、设簇头集为人工免疫算法的抗体,定义初始的抗体群为:
T = M 1 1 M 2 1 ... ... M k ′ 1 M 1 2 M 2 2 ... ... M k ′ 2 . . . M 1 Q M 2 Q M k ′ Q . . .
其中,k′表示分类的簇个数,矩阵T中的每一行表示了抗体群中的第Q个抗体,也代表了第Q个随机产生的簇头集合,矩阵T中每一个元素为网关接收到的某节点发送压缩数据
S22、对于抗体群T中的每个抗体,分别计算其作为簇头集的K均值分类目标函数J值,当所有抗体都执行分类过程,对所有的J值按从小到大的顺序进行排序,J值越小则说明分类结果越好;
S23、按顺序选择较小J值所对应的抗体放入下一轮的初始抗体群,根据J值对选择的抗体进行克隆;
S24、对最小J值的抗体所对应的K均值分类结果进行分析,判断其是否为所期望的J值或迭代次数是否达到设定值,如果满足则说明当前最小J值所对应的抗体是最优初始簇头集,则终止优化过程;否则,对得到的新抗体群中的每个抗体进行克隆、交叉、变异处理,重复步骤S22进行迭代更新。
8.一种基于人工免疫和K均值聚类的无线传感网异常检测系统,其特征在于,包括:
数据预处理单元,用于获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
最优簇头集合计算单元,用于网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
K均值聚类单元,用于根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
异常判断单元,用于无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
CN201610179672.2A 2016-03-25 2016-03-25 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 Expired - Fee Related CN105791051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610179672.2A CN105791051B (zh) 2016-03-25 2016-03-25 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179672.2A CN105791051B (zh) 2016-03-25 2016-03-25 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN105791051A true CN105791051A (zh) 2016-07-20
CN105791051B CN105791051B (zh) 2019-06-21

Family

ID=56392144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179672.2A Expired - Fee Related CN105791051B (zh) 2016-03-25 2016-03-25 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN105791051B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106714220A (zh) * 2017-01-06 2017-05-24 江南大学 一种基于mea‑bp神经网络wsn异常检测方法
CN107277889A (zh) * 2017-08-03 2017-10-20 扬州大学 一种基于k‑means的无线传感器网络分簇方法
CN107371125A (zh) * 2017-08-09 2017-11-21 广东工业大学 基于粒子群算法的无线传感器网络故障修复方法及装置
CN107426741A (zh) * 2017-07-20 2017-12-01 重庆三峡学院 一种基于免疫机理的无线传感器网络故障诊断方法
CN108073939A (zh) * 2016-11-17 2018-05-25 中国移动通信有限公司研究院 一种数据聚类方法及装置
CN108387692A (zh) * 2018-04-25 2018-08-10 深圳森阳环保材料科技有限公司 一种大气污染智能监测系统
CN108510615A (zh) * 2018-04-02 2018-09-07 深圳智达机械技术有限公司 一种半导体制造设备和工艺的控制系统
CN108650309A (zh) * 2018-04-25 2018-10-12 深圳市创艺工业技术有限公司 一种基于大数据的农产品储运环境智能监控系统
CN108681625A (zh) * 2018-04-25 2018-10-19 深圳凯达通光电科技有限公司 基于大数据技术的变压器短期过载能力智能评估系统
CN109543746A (zh) * 2018-11-20 2019-03-29 河海大学 一种基于节点可靠性的传感器网络事件融合与决策方法
CN109831454A (zh) * 2019-03-13 2019-05-31 北京品友互动信息技术股份公司 虚假流量的识别方法和装置
WO2020000503A1 (zh) * 2018-06-29 2020-01-02 中国科学院深圳先进技术研究院 商用酒店厨房物联网数据的异常检测分析方法及相关产品
CN111245721A (zh) * 2020-01-15 2020-06-05 东方红卫星移动通信有限公司 一种基于内容中心网络的改进k均值聚类路由方法
CN111654874A (zh) * 2020-06-03 2020-09-11 枣庄学院 一种无线传感网异常检测方法
WO2024098668A1 (zh) * 2022-11-08 2024-05-16 中广核研究院有限公司 基于5g的核电设备异常诊断方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178703A (zh) * 2007-11-23 2008-05-14 西安交通大学 基于网络分割的故障诊断谱聚类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178703A (zh) * 2007-11-23 2008-05-14 西安交通大学 基于网络分割的故障诊断谱聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
庄夏,戴敏,何元清: ""基于人工免疫和模糊K均值的传感器节点故障诊断"", 《计算机测量与控制》 *
詹海亮,薛惠锋,苏锦旗: ""基于人工免疫系统的克隆-K均值算法"", 《计算机仿真》 *
郭星锋: ""无线传感网中时间检测的压缩感知与异常检测算法研究"", 《中国优秀博士学位论文全文数据库-信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073939A (zh) * 2016-11-17 2018-05-25 中国移动通信有限公司研究院 一种数据聚类方法及装置
CN106714220A (zh) * 2017-01-06 2017-05-24 江南大学 一种基于mea‑bp神经网络wsn异常检测方法
WO2018126984A3 (zh) * 2017-01-06 2018-09-13 江南大学 一种基于mea-bp神经网络wsn异常检测方法
CN106714220B (zh) * 2017-01-06 2019-05-17 江南大学 一种基于mea-bp神经网络wsn异常检测方法
CN107426741A (zh) * 2017-07-20 2017-12-01 重庆三峡学院 一种基于免疫机理的无线传感器网络故障诊断方法
CN107426741B (zh) * 2017-07-20 2021-04-30 重庆三峡学院 一种基于免疫机理的无线传感器网络故障诊断方法
CN107277889A (zh) * 2017-08-03 2017-10-20 扬州大学 一种基于k‑means的无线传感器网络分簇方法
CN107371125A (zh) * 2017-08-09 2017-11-21 广东工业大学 基于粒子群算法的无线传感器网络故障修复方法及装置
CN107371125B (zh) * 2017-08-09 2020-10-23 广东工业大学 基于粒子群算法的无线传感器网络故障修复方法及装置
CN108510615A (zh) * 2018-04-02 2018-09-07 深圳智达机械技术有限公司 一种半导体制造设备和工艺的控制系统
CN108681625A (zh) * 2018-04-25 2018-10-19 深圳凯达通光电科技有限公司 基于大数据技术的变压器短期过载能力智能评估系统
CN108650309A (zh) * 2018-04-25 2018-10-12 深圳市创艺工业技术有限公司 一种基于大数据的农产品储运环境智能监控系统
CN108387692A (zh) * 2018-04-25 2018-08-10 深圳森阳环保材料科技有限公司 一种大气污染智能监测系统
WO2020000503A1 (zh) * 2018-06-29 2020-01-02 中国科学院深圳先进技术研究院 商用酒店厨房物联网数据的异常检测分析方法及相关产品
CN109543746A (zh) * 2018-11-20 2019-03-29 河海大学 一种基于节点可靠性的传感器网络事件融合与决策方法
CN109831454A (zh) * 2019-03-13 2019-05-31 北京品友互动信息技术股份公司 虚假流量的识别方法和装置
CN109831454B (zh) * 2019-03-13 2022-02-25 北京深演智能科技股份有限公司 虚假流量的识别方法和装置
CN111245721A (zh) * 2020-01-15 2020-06-05 东方红卫星移动通信有限公司 一种基于内容中心网络的改进k均值聚类路由方法
CN111654874A (zh) * 2020-06-03 2020-09-11 枣庄学院 一种无线传感网异常检测方法
CN111654874B (zh) * 2020-06-03 2023-02-24 枣庄学院 一种无线传感网异常检测方法
WO2024098668A1 (zh) * 2022-11-08 2024-05-16 中广核研究院有限公司 基于5g的核电设备异常诊断方法、装置和计算机设备

Also Published As

Publication number Publication date
CN105791051B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN105791051A (zh) 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统
CN106168799B (zh) 一种基于大数据机器学习进行电动汽车电池预测性维护的方法
CN107426741B (zh) 一种基于免疫机理的无线传感器网络故障诊断方法
CN108052528A (zh) 一种存储设备时序分类预警方法
CN109525956B (zh) 无线传感网中基于数据驱动的分簇的节能的数据收集方法
CN110830946B (zh) 混合型在线数据异常检测方法
CN110930198A (zh) 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备
CN109410588A (zh) 一种基于交通大数据的交通事故演化分析方法
CN109640335B (zh) 基于卷积神经网络的无线传感器故障诊断方法
Bahrepour et al. Use of wireless sensor networks for distributed event detection in disaster management applications
CN110543500A (zh) 一种基于大数据的输变电设备健康评估平台
CN116842459B (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN112966871A (zh) 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统
CN108650065A (zh) 基于窗口的流式数据缺失处理方法
CN105491614A (zh) 基于二次混合压缩的无线传感网异常事件检测方法及系统
CN101237357B (zh) 工业无线传感器网络故障在线检测方法
Ismael et al. Esrra-iot: Edge-based spatial redundancy reduction approach for internet of things
Vijayan Energy consumption prediction in low energy buildings using machine learning and artificial intelligence for energy efficiency
CN112232985A (zh) 用于泛在电力物联网的配用电数据监测方法及装置
Giampieri et al. A supervised classification system based on evolutive multi-agent clustering for smart grids faults prediction
Barakkath Nisha et al. Improving data accuracy using proactive correlated fuzzy system in wireless sensor networks
Zamil et al. Dispersion–based prediction framework for estimating missing values in wireless sensor networks
Dong et al. Image-based processing mechanism for peak load forecasting in smart grids
Hu et al. Context-aware and resource efficient sensing infrastructure for context-aware applications
Ding et al. An anomaly detection method based on feature mining for wireless sensor networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190621

Termination date: 20200325