CN105791051B - 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 - Google Patents
基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 Download PDFInfo
- Publication number
- CN105791051B CN105791051B CN201610179672.2A CN201610179672A CN105791051B CN 105791051 B CN105791051 B CN 105791051B CN 201610179672 A CN201610179672 A CN 201610179672A CN 105791051 B CN105791051 B CN 105791051B
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- sequence
- cluster head
- compressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000036039 immunity Effects 0.000 title claims abstract description 27
- 230000005856 abnormality Effects 0.000 title claims abstract description 23
- 241000854291 Dianthus carthusianorum Species 0.000 claims abstract description 60
- 238000001514 detection method Methods 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 230000002159 abnormal effect Effects 0.000 claims abstract description 34
- 238000012544 monitoring process Methods 0.000 claims abstract description 21
- 230000009467 reduction Effects 0.000 claims abstract description 12
- 238000003064 k means clustering Methods 0.000 claims description 42
- 238000007906 compression Methods 0.000 claims description 29
- 230000006835 compression Effects 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000010367 cloning Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 5
- 230000002547 anomalous effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000002649 immunization Methods 0.000 description 2
- 230000003053 immunization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
- H04W52/0212—Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave
- H04W52/0219—Power saving arrangements in terminal devices managed by the network, e.g. network or access point is master and terminal is slave where the power saving management affects multiple terminals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于人工免疫和K均值聚类的无线传感网异常检测方法及系统,该方法包括:S1、获取无线传感网节点采集到的原始监测数据构成时间序列,对其进行归一化处理,压缩降维,并计算压缩序列中各时序子段的均值和方差;S2、计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;S3、每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断。本发明能够准确地发现监测数据中的异常信息,提高无线传感网检测异常事件的及时性和可靠性,大幅度节省无线传感网能量和通信带宽。
Description
技术领域
本发明涉及物联网技术领域,尤其涉及一种基于人工免疫和K均值聚类的无线传感网异常检测方法及系统。
背景技术
无线传感网(Wireless Sensor Networks,简称为WSN)是未来网络发展的主流形式,并已成为本世纪一个新科学研究领域。在基础理论和工程技术两个层面提出了许多急需解决的问题。无线传感网成本低廉、低功耗、大规模自组网;传感器节点体积小巧、电池供电、部署灵活;以及能够适应监测人力难以到达的恶劣环境;这些特点使得无线传感网极大地提升了灾害预防的监控能力。为了及时监测各种可能发生的突发事件(如山体滑坡、大气污染、森林火灾等),必须关注传感器节点采集到的异常测量值。因此,实时准确地检出异常数据,并预警特定事件,具有十分重要的意义。
大规模长期部署无线传感网中成千上万的传感器节点产生海量的高维时序数据,这些数据中包含了大量的冗余并隐藏了重要关系的相关性,若在这些原始数据空间上直接进行异常检测,其能量和通讯带宽的巨大开销将会缩短网络生命周期,甚至使无线传感网不能够完成监测任务。因此,在数据被传送到网关之前进行压缩(或降维)是非常必要的。在事件监测型WSN应用系统中,从网络的监测数据中快速识别异常事件是其首要目标,其重要性甚至超过监测数据本身。但目前的大多数异常检测算法往往忽略了WSN中的一些设计约束,特别是能量限制。由于传感器节点通常布置在恶劣的环境中,其只能靠能量有限的电池供电,一旦电池能量耗尽,将直接影响采集数据的质量,这将为异常检测带来更多的困难。由于WSN数据的传送将消耗节点大多数能量,因此,考虑利用压缩技术实现网络节能的同时,再利用异常检测技术对压缩数据完成异常信息的检测。
发明内容
本发明要解决的技术问题在于针对现有技术中异常检测精度不高,且能耗大的缺陷,提供一种通过压缩降维降低数据传输量,并能增加异常检测精度的基于人工免疫和K均值聚类的无线传感网异常检测方法及系统。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于人工免疫和K均值聚类的无线传感网异常检测方法,包括以下步骤:
S1、获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
S2、网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
S3、根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
进一步地,本发明的步骤S1中对时间序列进行归一化处理的公式为:
其中,时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn},μ为序列X的均值,σ为序列X的标准差。
进一步地,本发明的步骤S1中对归一化序列进行压缩降维的公式为:
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
进一步地,本发明的步骤S1中计算压缩序列各时序子段方差的公式为:
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
进一步地,本发明的步骤S2中计算节点数据与每个簇头间的欧式距离的公式为:
其中,根据均值和方差σi来表示WSN节点在各时序子段采集原始监测数据,节点发送压缩数据记为某节点u发送压缩数据记为网关接收到网络中所有节点发送压缩数据后,随机从中选择k′个作为初始的簇头集合,τ为权重因子,τ决定了2个距离分量对于最终计算值贡献的大小。
进一步地,本发明的步骤S2中人工免疫算法的评价函数公式为:
其中,评价函数J,d(Du,Dv)为欧式距离。
进一步地,本发明的步骤S2中通过人工免疫算法为K均值分类找到最优的初始簇头集合的方法具体为:
S21、设簇头集为人工免疫算法的抗体,定义初始的抗体群为:
其中,k′表示分类的簇个数,矩阵T中的每一行表示了抗体群中的第Q个抗体,也代表了第Q个随机产生的簇头集合,矩阵T中每一个元素为网关接收到的某节点发送压缩数据
S22、对于抗体群T中的每个抗体,分别计算其作为簇头集的K均值分类目标函数J值,当所有抗体都执行分类过程,对所有的J值按从小到大的顺序进行排序,J值越小则说明分类结果越好;
S23、按顺序选择较小J值所对应的抗体放入下一轮的初始抗体群,根据J值对选择的抗体进行克隆;
S24、对最小J值的抗体所对应的K均值分类结果进行分析,判断其是否为所期望的J值或迭代次数是否达到设定值,如果满足则说明当前最小J值所对应的抗体是最优初始簇头集,则终止优化过程;否则,对得到的新抗体群中的每个抗体进行克隆、交叉、变异处理,重复步骤S22进行迭代更新。
本发明提供一种基于人工免疫和K均值聚类的无线传感网异常检测系统,包括:
数据预处理单元,用于获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
最优簇头集合计算单元,用于网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
K均值聚类单元,用于根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
异常判断单元,用于无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
本发明产生的有益效果是:本发明的基于人工免疫和K均值聚类的无线传感网异常检测方法,通过对数据压缩降维,延长节点寿命并减少通信负荷;直接结合K均值聚类和人工免疫算法对压缩后的数据进行异常信息的检测,保证了算法的实时性;该方法能够提高无线传感网节点搜索效率和定位异常数据的能力,与直接在无线传感网采集的原始数据空间进行异常检测相比,该方法具有较高的事件检测精度和较低的误报率;能够准确地发现监测数据中的异常信息,提高无线传感网检测异常事件的及时性和可靠性,大幅度节省无线传感网能量和通信带宽。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的流程图;
图2是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的stdb_308数据集分布图;
图3是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的不同信噪比下OA方法的事件检出率DR图;
图4是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法的不同信噪比下OA方法的事件误报率FAR图;
图5是本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,包括以下步骤:
S1、获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
S2、网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
S3、根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
在本发明的另一个实施例中,该方法包括以下步骤:
步骤一:无线传感网节点在n个周期内采集原始监测数据构成时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn};
步骤二:采用分段聚合近似方法对归一化序列Y∈Rn进行压缩降维得到m维的压缩序列计算压缩序列中各时序子段均值和方差σi;
步骤三:网关接收到网络中所有节点发送压缩数据后,计算节点数据与每个簇头间的欧式距离;
步骤四:采用人工免疫算法为K均值分类找到最优的初始簇头集合;
步骤五:确定最优的初始簇头集合后进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
步骤六:无线传感网判断K均值聚类结果中簇内数据个数最少的簇为异常簇。
无线传感网节点在n个周期内采集原始监测数据构成时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn}的计算公式为:
其中,μ为序列X的均值,σ为序列X的标准差。
采用分段聚合近似方法对归一化序列Y∈Rn进行压缩降维得到m维的压缩序列m<<n,其中为:
其中,表示归一化序列Y的第i个时序子段均值,通过各时序子段内数据的均值来代表该子段的数据。只需要将原始数据按照设定的压缩比进行分段,再将每段数据的均值作为新的数据即实现了PAA的压缩过程。但也正是PAA这种简单的压缩机制,使得压缩后的数据有可能丢失原数据序列的一些细节信息。例如WSN节点采集正常数据分布在1~10的范围内,一旦某个值超过这个范围则认为出现异常。若节点采集数据序列分别为X1={2,4,9}和X2={1,1,13},序列X2中含有异常值信息,但经过PAA压缩后则两个序列都将被判断为正常,但明显X2中异常信息被隐藏,因此只是简单地基于PAA压缩数据进行异常检测,则可能会降低异常检测的准确性。为此,在PAA方法的基础上增加每个分段区间内数据间的方差信息来反映每个分段区间内数据的差异性。
为此,定义压缩序列中各时序子段方差σi为:
根据式(3)计算X1={2,4,9}和X2={1,1,13}的方差分别为σ1=26和σ2=96,虽然两个序列均值都为5但有方差σ1<σ2,序列X2内部的差异化远远大于序列X1,则可初步判断X2中含有异常信息。因此,同时采用均值和方差σi来表示WSN节点在各时序子段采集原始监测数据,节点发送压缩数据记为某节点u发送压缩数据记为改进后的PAA方法的压缩比为:
网关接收到网络中所有节点发送压缩数据后,随机从中选择k′个作为初始的簇头集合,计算节点数据与每个簇头间的欧式距离来决定节点数据归属于哪个簇内。由于每个节点数据包含了2个分量,定义节点u与第个v簇头间的欧式距离d(Du,Dv)计算公式为:
其中τ为权重因子,τ决定了2个距离分量对于最终计算值贡献的大小。
对所有距离d按从小到大进行排序,距离d反映了节点与所对应簇的相关性,d越小则相关性越强,因此,将节点归入距离值最小的簇头所对应的簇内。每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化。此时,每个节点都已找到对应的相关性最强的簇,标志着分类过程的结束。根据上述过程,定义K均值分类算法的评价函数为:
由于初始簇头的选择影响K均值分类效果,因此,引入人工免疫算法对K均值分类结果进行全局优化。评价函数J越小则K均值分类结果越好。因此,对于人工免疫算法而言,将J定义为人工免疫算法的目标函数和亲和度计算公式。
通过人工免疫算法为K均值分类找到最优的初始簇头集合过程如下:
步骤1:簇头集被定为人工免疫算法的抗体,定义初始的抗体群为:
其中k′表示分类的簇个数,矩阵T中的每一行表示了抗体群中的第Q个抗体,也代表了第Q个随机产生的簇头集合,矩阵T中每一个元素为网关接收到的某节点发送压缩数据
步骤2:对于抗体群T中的每个抗体,分别计算其作为簇头集的K均值分类目标函数J值(即亲和度),当所有抗体都执行分类过程,对所有的J值按从小到大的顺序进行排序,J值越小则说明分类结果越好。
步骤3:按顺序选择较小J值所对应的抗体放入下一轮的初始抗体群,根据亲和度J值对选择的抗体进行克隆。
步骤4:对最小J值的抗体所对应的K均值分类结果进行分析,判断其是否为所期望的J值或迭代次数是否达到设定值,如果满足则说明当前最小J值所对应的抗体是最优初始簇头集,则终止优化过程;否则,对得到的新抗体群中的每个抗体进行克隆、交叉、变异处理,重复步骤2进行迭代更新。
为了能够在实现数据压缩的同时保留原始数据的异常信息,本发明首先利用改进的分段聚合近似算法(简称为PAA)对每个节点采集到的原始数据进行压缩,以延长节点寿命和减少通信负荷。由于数据重构将花费大量的时间,为了保障整个算法的实时性不对原始数据进行解压重构,而是直接结合K均值聚类和人工免疫算法对压缩后的数据进行异常信息的检测。其中K均值聚类算法起到分类异常和正常信息的作用,而人工免疫算法则是为了优化K均值算法可以得到全局最优的分类结果。WSN节点采集数据中所包含的异常数据往往是极少数,这意味着经过K均值分类后异常数据所在簇的数据量将远远少于其他簇内数据的个数,因此,可以直接将分类结果中簇内数据个数最少的簇判断为异常簇。
由于本方法结合了人工免疫算法对K均值分类结果进行了全局最优处理,可以得到比经典的K均值分类算法更加有效的分类结果,即异常数据和正常数据可以更加准确地被分到不同的簇内。理想分类结果应该是所有的正常的数据处在相同的簇内,而异常的数据也处在同一个簇内。因此分类完成后目标函数J值越小,则说明分类越接近理想结果。由于WSN中的异常数据量相对于正常信息量而言往往是极少数,即数据个数最少的簇被认定为异常数据所在的簇。
为了评估本方法的性能,采用多次仿真实验的统计平均事件检出率DR和事件误报率FAR作为衡量方法检测异常的性能指标;并且考察压缩比k、分簇个数k′以及信噪比对本方法DR及FAR的影响,以检验本方法的检测精度、节能性和实时性、抗噪能力和鲁棒性。事件检出率DR定义为有事件发生时,节点检测出事件的次数占事件发生总次数的比例。事件误报率FAR定义为无事件发生时,节点检测出事件的次数占节点检测事件总次数的比例,实验数据采用国际上已公开的合成数据集和实际医学数据集如表1所示。
表1实验中所采用已公开的合成数据集和实际医学数据集
实验结果以实际医学数据集stdb_308为例,stdb_308某段数据的分布情况,如图2所示,其中绝对值大于0.5的数值被定义为异常数据。
设置不同压缩比k和分簇个数k′将会影响异常检测的精度。压缩比k越小被压缩的数据量越小,原始信息保留得越好,则异常检测效果就会越精确;而k值越大,则被压缩的数据越多,网络能量也会节省得越多。对于分簇个数k′越小,则方法计算量越小而分类的效果会变差;当k′变大,则刚好与变小的情况相反。因此,需要设置合适的压缩比k和分簇个数k′取值范围来保障较优的分类效果。表2和表3分别给出数据集stdb_308在不同压缩比和分簇个数下的事件检出率DR和事件误报率FAR。
表2在不同k和k′下事件检出率DR
表3在不同k和k′下事件误报率FAR
表2和表3中实验数据验证不同k和k′取值对于DR与FAR的影响与理论分析基本一致。为了兼顾WSN节能性和检测精度选取k=4和k′=3,在设置合适的k和k′取值后,表4给出本发明提供的方法(简称为OA方法)与经典的K均值分类方法(简称KWA为方法)在不同数据集上进行异常检测对比实验。
表4本发明与经典的K均值分类进行异常检测对比实验
从表4中可以明显地看出在不同数据集上本发明提供OA方法的异常检测率都要高,且误报率较低。这是因为本发明提供OA方法中采用了人工免疫方法对分类结果进行了优化,从而保证异常检测的结果可以得到全局最优,相反KWA算法过于依赖初始簇头集的选择,因此会导致分类结果的不稳定性,并且容易陷入局部最优解。
如图3和图4所示,在实际的WSN应用场景中会有环境噪声对原始数据的分布产生影响,为了验证本发明提供OA方法的鲁棒性,在数据集Ma_Data(简称为Ma)、Stdb_308(简称为Std)和Synthetic_control(简称为Syn)添加高斯白噪声来进行算法的仿真。图3和图4分别给出在不同信噪比(简称为SNR)下,本发明提供OA方法的事件检出率DR和事件误报率FAR。
从图中可以看出,随着信噪比不断增加,DR呈现出轻微上升,而FAR则表现出略微下降。在不同的数据集上加入噪声后,OA方法DR仍可保持在85%以上,同时FAR低于15%。表明OA方法具有较好的抗噪性和鲁棒性。
目前而言,大部分WSN异常检测算法在执行阶段前对压缩数据进行重构。然而重构过程往往计算复杂度高且耗时,因此数据重构会降低检测实时性。而本发明提供的OA方法直接对压缩数据进行异常检测,使得实时性得到一定的保障。为了验证本OA方法的节能性和实时性,仍采用stdb_308作为实验数据集,并与其它研究人员提出的几种常用异常检测方法如S.Osman方法、A.Bhargave方法、A.Bhargave方法和Y.Zhang方法进行对比,实验结果如表5所示。
表5本发明与其它常用异常检测方法性能对比
从表5中可以看出相比其它方法,本发明提供的OA方法获得DR和FAR性能最优,这是由于OA方法采用K均值分类结合人工免疫算法优化来进行异常信息检测。另外,OA方法采取了高压缩比的PAA算法,所以,OA方法具有较好的节能性。在实时性方面,由于Y.Zhang方法直接对原始数据进行异常检测,因此其耗时略少于OA方法。OA方法中采用计算复杂度低的PAA算法、K均值算法以及人工免疫算法,因此OA方法的实时性略好于S.Osman方法和A.Bhargave方法。
综上所述,本发明提出了一种基于人工免疫和K均值聚类的无线传感网异常检测方法。该方法该算法首先利用改进的PAA算法压缩节点采集的原始数据,然后利用了K均值分类直接对压缩数据进行异常检测,同时,为了解决K均值过于依赖初始值的缺点,本发明引入人工免疫算法对K均值分类结果进行全局优化。实验结果表明本发明具有较高的事件检测率和较低的误报率,极大地降低了节点压缩提取与检测异常信息的能耗,更优的折中能量和监测质量。因此,本发明能够适应异常检测中不同性质的事件,为无线传感网预警技术提供了一种轻量级方法。
如图5所示,本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测系统,用于实现本发明实施例的基于人工免疫和K均值聚类的无线传感网异常检测方法,包括:
数据预处理单元,用于获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;
最优簇头集合计算单元,用于网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
K均值聚类单元,用于根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
异常判断单元,用于无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (8)
1.一种基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,包括以下步骤:
S1、获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;其中,压缩方法具体为:
将原始数据按照设定的压缩比进行分段,再将每段数据的均值作为新的数据即实现了PAA的压缩过程;并在PAA方法的基础上增加每个分段区间内数据间的方差信息来反映每个分段区间内数据的差异性;
S2、网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
S3、根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
S4、无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
2.根据权利要求1所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S1中对时间序列进行归一化处理的公式为:
其中,时间序列X={x1,x2,…,xn},对序列X进行归一化处理得到序列Y={y1,y2…,yi,…yn},μ为序列X的均值,σ为序列X的标准差。
3.根据权利要求1所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S1中对归一化序列进行压缩降维的公式为:
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
4.根据权利要求3所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S1中计算压缩序列各时序子段方差的公式为:
其中,归一化序列Y∈Rn,m维的压缩序列且m<<n,表示归一化序列Y的第i个时序子段均值。
5.根据权利要求4所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S2中计算节点数据与每个簇头间的欧式距离的公式为:
其中,根据均值和方差σi来表示WSN节点在各时序子段采集原始监测数据,节点发送压缩数据记为某节点u发送压缩数据记为网关接收到网络中所有节点发送压缩数据后,随机从中选择k′个作为初始的簇头集合,τ为权重因子,τ决定了2个距离分量对于最终计算值贡献的大小。
6.根据权利要求5所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S2中人工免疫算法的评价函数公式为:
其中,评价函数J,d(Du,Dv)为欧式距离。
7.根据权利要求6所述的基于人工免疫和K均值聚类的无线传感网异常检测方法,其特征在于,步骤S2中通过人工免疫算法为K均值分类找到最优的初始簇头集合的方法具体为:
S21、设簇头集为人工免疫算法的抗体,定义初始的抗体群为:
其中,k′表示分类的簇个数,矩阵T中的每一行表示了抗体群中的第Q个抗体,也代表了第Q个随机产生的簇头集合,矩阵T中每一个元素为网关接收到的某节点发送压缩数据
S22、对于抗体群T中的每个抗体,分别计算其作为簇头集的K均值分类目标函数J值,当所有抗体都执行分类过程,对所有的J值按从小到大的顺序进行排序,J值越小则说明分类结果越好;
S23、按顺序选择较小J值所对应的抗体放入下一轮的初始抗体群,根据J值对选择的抗体进行克隆;
S24、对最小J值的抗体所对应的K均值分类结果进行分析,判断其是否为所期望的J值或迭代次数是否达到设定值,如果满足则说明当前最小J值所对应的抗体是最优初始簇头集,则终止优化过程;否则,对得到的新抗体群中的每个抗体进行克隆、交叉、变异处理,重复步骤S22进行迭代更新。
8.一种基于人工免疫和K均值聚类的无线传感网异常检测系统,其特征在于,包括:
数据预处理单元,用于获取无线传感网节点在多个周期内采集到的原始监测数据构成时间序列,对时间序列进行归一化处理,采用分段聚合近似方法对归一化处理得到的序列进行压缩降维得到压缩序列,并计算压缩序列中各时序子段的均值和方差;其中,压缩方法具体为:
将原始数据按照设定的压缩比进行分段,再将每段数据的均值作为新的数据即实现了PAA的压缩过程;并在PAA方法的基础上增加每个分段区间内数据间的方差信息来反映每个分段区间内数据的差异性;
最优簇头集合计算单元,用于网关获取所有节点计算得到的压缩数据,计算节点数据与每个簇头间的欧式距离,并采用人工免疫算法为K均值分类找到最优的初始簇头集合;
K均值聚类单元,用于根据最优的初始簇头集合进行K均值聚类,每当有新的数据分配到相应的簇内,对该簇的簇头值进行迭代更新,直到所有簇内的数据个数不再变化;
异常判断单元,用于无线传感网根据K均值聚类结果中簇内数据个数进行异常判断,判断簇内数据个数最少的簇为异常簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179672.2A CN105791051B (zh) | 2016-03-25 | 2016-03-25 | 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179672.2A CN105791051B (zh) | 2016-03-25 | 2016-03-25 | 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105791051A CN105791051A (zh) | 2016-07-20 |
CN105791051B true CN105791051B (zh) | 2019-06-21 |
Family
ID=56392144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610179672.2A Expired - Fee Related CN105791051B (zh) | 2016-03-25 | 2016-03-25 | 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105791051B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073939A (zh) * | 2016-11-17 | 2018-05-25 | 中国移动通信有限公司研究院 | 一种数据聚类方法及装置 |
CN106714220B (zh) * | 2017-01-06 | 2019-05-17 | 江南大学 | 一种基于mea-bp神经网络wsn异常检测方法 |
CN107426741B (zh) * | 2017-07-20 | 2021-04-30 | 重庆三峡学院 | 一种基于免疫机理的无线传感器网络故障诊断方法 |
CN107277889B (zh) * | 2017-08-03 | 2020-10-20 | 扬州大学 | 一种基于k-means的无线传感器网络分簇方法 |
CN107371125B (zh) * | 2017-08-09 | 2020-10-23 | 广东工业大学 | 基于粒子群算法的无线传感器网络故障修复方法及装置 |
CN108510615A (zh) * | 2018-04-02 | 2018-09-07 | 深圳智达机械技术有限公司 | 一种半导体制造设备和工艺的控制系统 |
CN108650309A (zh) * | 2018-04-25 | 2018-10-12 | 深圳市创艺工业技术有限公司 | 一种基于大数据的农产品储运环境智能监控系统 |
CN108387692A (zh) * | 2018-04-25 | 2018-08-10 | 深圳森阳环保材料科技有限公司 | 一种大气污染智能监测系统 |
CN108681625A (zh) * | 2018-04-25 | 2018-10-19 | 深圳凯达通光电科技有限公司 | 基于大数据技术的变压器短期过载能力智能评估系统 |
CN108924004B (zh) * | 2018-06-29 | 2021-01-19 | 中国科学院深圳先进技术研究院 | 商用酒店厨房物联网数据的异常检测分析方法及相关产品 |
CN109543746B (zh) * | 2018-11-20 | 2019-09-10 | 河海大学 | 一种基于节点可靠性的传感器网络事件融合与决策方法 |
CN109831454B (zh) * | 2019-03-13 | 2022-02-25 | 北京深演智能科技股份有限公司 | 虚假流量的识别方法和装置 |
JP7030072B2 (ja) * | 2019-03-14 | 2022-03-04 | 株式会社日立製作所 | 時系列データ監視システム、および時系列データ監視方法 |
CN111245721A (zh) * | 2020-01-15 | 2020-06-05 | 东方红卫星移动通信有限公司 | 一种基于内容中心网络的改进k均值聚类路由方法 |
CN111654874B (zh) * | 2020-06-03 | 2023-02-24 | 枣庄学院 | 一种无线传感网异常检测方法 |
CN115617634A (zh) * | 2022-11-08 | 2023-01-17 | 中广核研究院有限公司 | 基于5g的核电设备异常诊断方法、装置和计算机设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178703A (zh) * | 2007-11-23 | 2008-05-14 | 西安交通大学 | 基于网络分割的故障诊断谱聚类方法 |
-
2016
- 2016-03-25 CN CN201610179672.2A patent/CN105791051B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178703A (zh) * | 2007-11-23 | 2008-05-14 | 西安交通大学 | 基于网络分割的故障诊断谱聚类方法 |
Non-Patent Citations (3)
Title |
---|
"基于人工免疫和模糊K均值的传感器节点故障诊断";庄夏,戴敏,何元清;《计算机测量与控制》;20130325;全文 |
"基于人工免疫系统的克隆-K均值算法";詹海亮,薛惠锋,苏锦旗;《计算机仿真》;20081115;全文 |
"无线传感网中时间检测的压缩感知与异常检测算法研究";郭星锋;《中国优秀博士学位论文全文数据库-信息科技辑》;20140630;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN105791051A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105791051B (zh) | 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统 | |
CN105764162B (zh) | 一种基于多属性关联的无线传感器网络异常事件检测方法 | |
CN109492822B (zh) | 空气污染物浓度时空域关联预测方法 | |
CN110087207B (zh) | 无线传感器网络缺失数据重建方法 | |
CN110830946B (zh) | 混合型在线数据异常检测方法 | |
CN105307200B (zh) | 一种基于轨迹的无线传感器网络多维数据异常值检测方法 | |
CN109525956B (zh) | 无线传感网中基于数据驱动的分簇的节能的数据收集方法 | |
CN108090515B (zh) | 一种基于数据融合的环境等级评估方法 | |
CN107276999B (zh) | 一种无线传感器网络中的事件检测方法 | |
CN110020712A (zh) | 一种基于聚类的优化粒子群bp网络预测方法和系统 | |
CN107944617A (zh) | 一种基于逻辑回归的疑似窃电主题影响因素权重优化方法 | |
CN103533571A (zh) | 基于投票策略的容错事件检测方法 | |
Karaki et al. | An adaptive sampling technique for massive data collection in distributed sensor networks | |
CN113411821A (zh) | 一种复杂网络的体系重构能力测评方法及系统 | |
CN101237357B (zh) | 工业无线传感器网络故障在线检测方法 | |
CN109165770A (zh) | 基于AFSA-Elman的新型光伏功率预测方法 | |
CN105722129A (zh) | 一种基于fsax-markov模型的无线传感网事件检测方法及系统 | |
CN117332288A (zh) | 一种建筑节能技术评估系统及方法 | |
CN117221816A (zh) | 一种基于Wavelet-CNN的多建筑楼层定位方法 | |
CN107506824B (zh) | 一种配电网的不良观测数据检测方法及装置 | |
Chen et al. | EDGE AI for heterogeneous and massive IoT networks | |
Hu et al. | Cluster-based energy-efficient structural health monitoring using wireless sensor networks | |
CN109670227A (zh) | 一种基于大数据的仿真数学模型参数对的估量方法 | |
Huang et al. | Research on automatic recognition system of abnormal behavior of big data technology distribution network | |
CN118445654B (zh) | 一种iot智能服务平台数据的智能分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190621 Termination date: 20200325 |