CN111314910B - 一种映射隔离森林的无线传感器网络异常数据检测方法 - Google Patents
一种映射隔离森林的无线传感器网络异常数据检测方法 Download PDFInfo
- Publication number
- CN111314910B CN111314910B CN202010116954.4A CN202010116954A CN111314910B CN 111314910 B CN111314910 B CN 111314910B CN 202010116954 A CN202010116954 A CN 202010116954A CN 111314910 B CN111314910 B CN 111314910B
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- wireless sensor
- tree
- sensor network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/009—Security arrangements; Authentication; Protecting privacy or anonymity specially adapted for networks, e.g. wireless sensor networks, ad-hoc networks, RFID networks or cloud networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
- H04W12/121—Wireless intrusion detection systems [WIDS]; Wireless intrusion prevention systems [WIPS]
Abstract
本发明涉及一种映射隔离森林的无线传感器网络异常数据检测方法,属于无线传感器网络信息安全领域。该方法使用随机哈希函数和主次哈希函数将数据映射分桶,得到降维后的新数据集;使用均值优化策略将对数据集选择合适的分割特征和分割值,使用隔离森林对新数据集进行异常检测。本发明算法部署简单,成本低,解决了无线传感器网络高维海量数据的异常检测问题,也避免了使用基于统计和距离的方法在高维海量数据中检测率低的问题,具有广泛的应用价值。
Description
技术领域
本发明属于无线传感器网络信息安全领域,涉及一种映射隔离森林的无线传感器网络异常数据检测方法。
背景技术
无线传感器网络通常部署在无人值守的、恶劣的环境中,甚至是在敌方区域,攻击者可以轻易捕获传感器节点并入侵网络。此外,传感器节点在能量、通信能力以及计算和存储等方面受限,使其极易受到各种攻击。无线传感器网络实时采集监测区域内的环境信息(感知数据),如温度、湿度、亮度和压强等,并将感知数据以无线的方式多跳传输给基站。
目前,国内外针对无线传感器网络领域的异常检测方法主要分为基于统计、基于距离、基于机器学习三类。
基于统计的方法通常假定正常数据集符合某种统计分布模型,先通过传感器网络的正常数据集构建一个正常数据分布模型,在这个模型的基础上对目标数据对象进行拟合判断。如果检测数据与数据模型间有明显差异,则认为这是异常数据。基于距离的方法,通常正常数据的数据值相近,异常数据的数据值与正常数据值存在较大差异,数据值之间的差异度可以通过数据距离定量衡量。基于机器学习的方法大致分为分类、聚类两种。基于分类的方法通过将数据分为正常数据和异常数据两类来区分出异常数据。基于聚类的方法通常采用聚类算法将数据集分为两个或多个聚类簇,然后依据每个簇的大小和簇内的数据距离筛选异常数据点,该算法通常利用节点与邻域的空间相关性进行检测。
但是,目前国内外广泛使用的基于统计和距离的方法存在一些缺点:基于统计的方法依据标准统计学原理,当构建的数学模型符合传感器数据集的真实变化规律时,能快速地检测出数据集的异常。但是大多数情况下难以明确数据集的分布规律,实际数据集往往也不完全符合某种理想状态的数学模型,因此这种方法存在局限性,尤其当数据处在高维状态下,估计数据的分布状况是极其困难的。另外,这种方法依赖于传感器网络的正常数据落在模型的高概率区间,异常数据相对处于低概率区间的假设,检测时也必定存在一定的误报率和漏报率。基于距离的方法处理大数据分段时的效率不高,检测效果往往不如其他检测方法,故通常被用作异常点的判定策略融入到其他检测方法中。
综上分析,目前需要解决的问题:使用基于机器学习的方法应用到无线传感器网络中,检测高维海量感知数据中的异常。
发明内容
有鉴于此,本发明的目的在于提供一种映射隔离森林的无线传感器网络异常数据检测方法,采用精确欧式位置敏感哈希算法(exact Euclidean locality sensitiveHashing,E2LSH)和隔离森林(isolated forest,iForest)相融合的方式用于无线传感器数据中,解决无线传感器网络高维海量数据的异常检测问题,避免使用基于统计和距离的方法在高维海量数据中检测率低的问题。
为达到上述目的,本发明提供如下技术方案:
一种映射隔离森林的无线传感器网络异常数据检测方法,使用随机哈希函数和主次哈希函数将数据映射分桶,得到降维后的新数据集;使用均值优化策略将对数据集选择合适的分割特征和分割值,使用隔离森林对新数据集进行异常检测,提高无线传感器网络数据的异常检测率。该检测方法具体包括以下步骤:
S1:采集感知数据,定义训练数据;
S2:数据归一化,将训练数据通过z-score标准化方法进行归一化;
S3:使用随机哈希函数得到降维后的新数据集;
S4:使用主次哈希函数将新数据集映射分桶;
S5:计算数据的维度均值,再计算给定降维分桶后新数据集的维度均值;
S6:比较降维前后数据的维度均值,选出均值差最大的维度作为分割属性,分割属性对应的降维维度均值作为分割点;
S7:隔离森林依据分割属性和分割点来分割数据构建隔离树,并根据树的限制高度来提前结束树的构建过程;
S8:将实时数据点经归一化、降维后,依次放入构建的隔离森林中,计算每个数据点的路径长度和异常得分;
S9:将异常得分与阈值进行比较,判定数据点是否为异常点。
进一步,所述步骤S1具体包括:假设无线传感器网络节点S={Sj:j=1,2,...m}每隔一个固定时间间隔Δt,各个节点收集一组感知数据(如温度、湿度和亮度等)并将其发送给基站;节点Sj记录的一组感知数据是一个p维的向量vj=(vj1,vj2,...vjp),vj∈Rp,其中p表示感知数据的类型数;在下一个Δt内,基站将收到n(n≤m,由于无线链路故障、节点故障以及网络拥塞等原因,可能导致感知数据包丢失)组感知数据V={v1,v2,...vn},其中组数n与节点ID无关;
进一步,所述步骤S2具体包括:给定训练数据XT:
对训练数据的每个元素归一化:
进一步,所述步骤S3具体包括:
其中,α是从满足p-稳定分布函数中随机抽样得到的q维向量,β是一个在上均匀分布的随机变量;哈希函数hα,β(υ):Rq→Z能把一个q维向量υ映射到整数集上,为向下取整操作;数据集经过L个随机哈希函数h=(h1(υ),h2(υ),...hL(υ))降维映射后得到一个L维向量V=(v1,v2,...vL);
S32:根据以下主、次哈希函数G1、G2公式计算得到主、次哈希函数的值g1、g2:
进一步,所述步骤S4具体包括:
S41:比较主次哈希函数值,若g1=g2,将对应的数据点分到同一个桶内;
S42:对N个桶内哈希值点数进行统计数量,若桶内数量大于等于50(50为隔离森林子采样大小),则筛选出满足条件的所有的桶;将筛选出的桶内的点所对应的索引号排序,并从[V]n*L中选出索引号中一一对应的每一条记录,从而组成桶所对应的经过降维子采样的新数据集[A]k*L,k<n。
进一步,所述步骤S5中,计算新数据集的维度均值具体包括:将新数据集[A]k*L作为改进后的隔离森林算法的输入数据集,若有L个维度,L个维度分别计算均值Vnew,将μ和Vnew分别对应索引后,求出均值差MLi,找出MLi最大值对应的属性Li作为分割属性,Vnewi作为分割点。
进一步,所述步骤S7具体包括:隔离森林算法根据分割属性和分割值sp来分割数据点,数据点中小于sp的数据分到左子树,将大于等于sp的数据分到右子树,依次将属性中所有点进行分割,得到隔离树,并根据树的限制高度H=In(i)+0.5772156649来提前结束树的构建过程,循环构建100棵树。
进一步,所述步骤S8具体包括:将实时数据点放入构建的隔离树中,记录数据点在树中的平均路径长度c(n)和异常得分s(x,n):
其中,E(h(x))为样本x在隔离树中的路径长度的期望。当E(h(x))→c(n)时,s→0.5,即样本x的路径平均长度与树的平均路径长度相近时,则不能区分是不是异常;当E(h(x))→0时,s→1,即x的异常分数接近1时,被判定为异常;当E(h(x))→n-1时,s→0,x被判定为正常。
进一步,所述步骤S9具体包括:将异常得分与阈值进行迭代计算比较,若异常得分大于等于阈值,数据点被判断为异常点;若异常得分小于阈值,数据点被判定为正常点。
本发明的有益效果在于:本发明提供的无线传感器网络异常数据检测方法,该算法部署简单,成本低,解决了无线传感器网络高维海量数据的异常检测问题,也避免了使用基于统计和距离的方法在高维海量数据中检测率低的问题,具有广泛的应用价值。与现有的技术相比,本发明的优点在于:
(1)节点不需要额外传输检测特征,基站负责接收感知数据来判断网络状态。这使得本算法与节点类型、网络协议无关,提高本算法的适应性。
(2)本算法基于哈希函数映射降维,使用均值优化的隔离森林进行异常检测,提高了无线传感器网络高维海量数据的异常检测精度,具有广阔的应用前景。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的无线传感器网络结构图;
图2本发明数据检测方法的构建流程示意图;
图3为E2LSH算法进行数据降维的流程图;
图4为E2LSH+iForest算法的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,为本发明优选的一种新型映射隔离森林的无线传感器网络异常数据检测方法,包含如下步骤:
(1)图1为本实施例的无线传感器网络结构图。网络节点每隔一个时间间隙Δt发送感知数据给基站,基站将收到的感知数据并生成检测特征。在正常时间段内(没有发生攻击行为)生成的检测特征集作为训练集。本方法部署在基站。本发明方法的构建流程如图2所示,该算法的流程图如图4所示。该算法的步骤如下:
(2)归一化:训练集首先经z-score标准化方法归一化,并保留列均值μ。
(3)降维:训练集经随机哈希函数和主次哈希函数分桶降维并保留降维后的数据集,过程如图3所示。
(4)均值优化:计算新数据集的列均值向量μ*,与列均值μ进行对比,选出差值最大的属性作为分割属性,对应的列均值作为分割点。
(5)建树:隔离森林算法根据分割属性和分割值来分割训练数据点,数据点中小于sp的数据分到左子树,将大于等于sp的数据分到右子树,依次将属性中所有点进行分割,得到隔离树,并根据树的限制高度来提前结束树的构建过程。
(6)检测:将实时数据点放入构建的隔离树中,记录数据点在树中的平均路径长度和异常得分。比较异常得分和阈值大小,得到异常结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种映射隔离森林的无线传感器网络异常数据检测方法,其特征在于,该方法具体包括以下步骤:
S1:采集感知数据,定义训练数据;
S2:数据归一化,将训练数据通过z-score标准化方法进行归一化;
S3:使用随机哈希函数得到降维后的新数据集,具体包括:
其中,α是从满足p-稳定分布函数中随机抽样得到的q维向量,β是一个在上均匀分布的随机变量;哈希函数hα,β(υ):Rq→Z能把一个q维向量υ映射到整数集上;为向下取整操作;数据集经过L个随机哈希函数h=(h1(υ),h2(υ),...hL(υ))降维映射后得到一个L维向量V=(v1,v2,...vL);
S32:根据以下主、次哈希函数G1、G2公式计算得到主、次哈希函数的值g1、g2:
S41:比较主次哈希函数值,若g1=g2,将对应的数据点分到同一个桶内;
S42:对N个桶内哈希值点数进行统计数量,若桶内数量大于等于隔离森林子采样大小,则筛选出满足条件的所有的桶;将筛选出的桶内的点所对应的索引号排序,并从[V]n*L中选出索引号中一一对应的每一条记录,从而组成桶所对应的经过降维子采样的新数据集[A]k*L,k<n;
S5:计算数据的维度均值,再计算给定降维分桶后新数据集的维度均值;
S6:比较降维前后数据的维度均值,选出均值差最大的维度作为分割属性,分割属性对应的降维维度均值作为分割点;
S7:隔离森林依据分割属性和分割点来分割数据构建隔离树,并根据树的限制高度来提前结束树的构建过程;
S8:将实时数据点经归一化、降维后,依次放入构建的隔离森林中,计算每个数据点的路径长度和异常得分;
S9:将异常得分与阈值进行比较,判定数据点是否为异常点。
2.根据权利要求1所述的一种映射隔离森林的无线传感器网络异常数据检测方法,其特征在于,所述步骤S1具体包括:假设无线传感器网络节点S={Sj:j=1,2,…m}每隔一个固定时间间隔Δt,各个节点收集一组感知数据并将其发送给基站;节点Sj记录的一组感知数据是一个p维的向量vj=(vj1,vj2,…vjp),vj∈Rp,其中p表示感知数据的类型数;在下一个Δt内,基站将收到n组感知数据V={v1,v2,…vn},其中组数n与节点ID无关;
3.根据权利要求2所述的一种映射隔离森林的无线传感器网络异常数据检测方法,其特征在于,所述步骤S5中,计算新数据集的维度均值具体包括:将新数据集[A]k*L作为改进后的隔离森林算法的输入数据集,若有L个维度,L个维度分别计算均值Vnew,将矩阵XT的列均值μ和Vnew分别对应索引后,求出均值差MLi,找出MLi最大值对应的属性Li作为分割属性,Vnewi作为分割点。
4.根据权利要求3所述的一种映射隔离森林的无线传感器网络异常数据检测方法,其特征在于,所述步骤S7具体包括:隔离森林算法根据分割属性和分割值sp来分割数据点,数据点中小于sp的数据分到左子树,将大于等于sp的数据分到右子树,依次将属性中所有点进行分割,得到隔离树,并根据树的限制高度H=In(i)+0.5772156649来提前结束树的构建过程。
6.根据权利要求5所述的一种映射隔离森林的无线传感器网络异常数据检测方法,其特征在于,所述步骤S9具体包括:将异常得分与阈值进行迭代计算比较,若异常得分大于等于阈值,数据点被判断为异常点;若异常得分小于阈值,数据点被判定为正常点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116954.4A CN111314910B (zh) | 2020-02-25 | 2020-02-25 | 一种映射隔离森林的无线传感器网络异常数据检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116954.4A CN111314910B (zh) | 2020-02-25 | 2020-02-25 | 一种映射隔离森林的无线传感器网络异常数据检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111314910A CN111314910A (zh) | 2020-06-19 |
CN111314910B true CN111314910B (zh) | 2022-07-15 |
Family
ID=71146441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116954.4A Active CN111314910B (zh) | 2020-02-25 | 2020-02-25 | 一种映射隔离森林的无线传感器网络异常数据检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111314910B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515450A (zh) * | 2021-05-20 | 2021-10-19 | 广东工业大学 | 一种环境异常检测方法和系统 |
CN113344057A (zh) * | 2021-05-31 | 2021-09-03 | 江苏海基新能源股份有限公司 | 一种储能系统电池插箱异常检测方法 |
CN114710796A (zh) * | 2022-03-18 | 2022-07-05 | 深圳技师学院 | 一种基于区块链的传感器异常检测方法、装置及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106878995A (zh) * | 2017-04-27 | 2017-06-20 | 重庆邮电大学 | 一种基于感知数据的无线传感器网络异常类型鉴别方法 |
CN107944502A (zh) * | 2017-12-06 | 2018-04-20 | 南京航空航天大学 | 一种基于随机哈希的异常检测算法 |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN110472188A (zh) * | 2019-08-01 | 2019-11-19 | 北方工业大学 | 一种面向传感数据的异常模式检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6879239B2 (ja) * | 2018-03-14 | 2021-06-02 | オムロン株式会社 | 異常検知システム、サポート装置およびモデル生成方法 |
US11444769B2 (en) * | 2018-07-02 | 2022-09-13 | Ares Technologies, Inc. | Systems, devices, and methods for signal localization and verification of sensor data |
-
2020
- 2020-02-25 CN CN202010116954.4A patent/CN111314910B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106878995A (zh) * | 2017-04-27 | 2017-06-20 | 重庆邮电大学 | 一种基于感知数据的无线传感器网络异常类型鉴别方法 |
CN107944502A (zh) * | 2017-12-06 | 2018-04-20 | 南京航空航天大学 | 一种基于随机哈希的异常检测算法 |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN110472188A (zh) * | 2019-08-01 | 2019-11-19 | 北方工业大学 | 一种面向传感数据的异常模式检测方法 |
Non-Patent Citations (2)
Title |
---|
An improved data anomaly detection method based on isolation forest;Xu Dong等;《IEEE press》;20171231;全文 * |
无线传感网中恶意节点以及异常数据检测方案的研究;许春杰;《中国优秀硕士学位论文期刊数据库》;20200215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111314910A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111314910B (zh) | 一种映射隔离森林的无线传感器网络异常数据检测方法 | |
CN110505179B (zh) | 一种网络异常流量的检测方法及系统 | |
CN108076040B (zh) | 一种基于杀伤链和模糊聚类的apt攻击场景挖掘方法 | |
CN112788066B (zh) | 物联网设备的异常流量检测方法、系统及存储介质 | |
CN108881250B (zh) | 电力通信网络安全态势预测方法、装置、设备及存储介质 | |
CN109446804B (zh) | 一种基于多尺度特征连接卷积神经网络的入侵检测方法 | |
CN110942099A (zh) | 一种基于核心点保留的dbscan的异常数据识别检测方法 | |
CN113821793B (zh) | 基于图卷积神经网络的多阶段攻击场景构建方法及系统 | |
Tesfahun et al. | Effective hybrid intrusion detection system: A layered approach | |
CN107483451B (zh) | 基于串并行结构网络安全数据处理方法及系统、社交网络 | |
CN111460441A (zh) | 一种基于批归一化卷积神经网络的网络入侵检测方法 | |
KR20210115991A (ko) | 시계열 데이터 분석을 이용한 네트워크 이상징후 탐지 방법 및 장치 | |
CN114021135A (zh) | 一种基于R-SAX的LDoS攻击检测与防御方法 | |
CN116633601A (zh) | 一种基于网络流量态势感知的检测方法 | |
Liu et al. | Zero-bias deep neural network for quickest RF signal surveillance | |
Soewu et al. | Analysis of Data Mining-Based Approach for Intrusion Detection System | |
CN112437440A (zh) | 无线传感器网络中基于相关性理论的恶意共谋攻击抵抗方法 | |
Rahman et al. | An efficient approach for selecting initial centroid and outlier detection of data clustering | |
KR102433598B1 (ko) | 데이터 경계 도출 시스템 및 방법 | |
Kavitha et al. | Machine Learning Techniques for Detecting DDoS Attacks in SDN | |
CN115085948A (zh) | 基于改进d-s证据理论的网络安全态势评估方法 | |
CN113850222A (zh) | 一种采用支持向量机实现车载总线信号分类及监测的方法 | |
Atmojo et al. | A New Approach for ARP Poisoning Attack Detection Based on Network Traffic Analysis | |
CN112861913A (zh) | 一种基于图卷积网络的入侵警报消息的关联方法 | |
Garg et al. | To Evaluate and Analyze the Performance of Anomaly Detection in Cloud of Things |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |