CN108777873B - 基于加权混合孤立森林的无线传感网络异常数据检测方法 - Google Patents

基于加权混合孤立森林的无线传感网络异常数据检测方法 Download PDF

Info

Publication number
CN108777873B
CN108777873B CN201810563300.9A CN201810563300A CN108777873B CN 108777873 B CN108777873 B CN 108777873B CN 201810563300 A CN201810563300 A CN 201810563300A CN 108777873 B CN108777873 B CN 108777873B
Authority
CN
China
Prior art keywords
data
abnormal
sample
isolated
forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810563300.9A
Other languages
English (en)
Other versions
CN108777873A (zh
Inventor
李光辉
许欧阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201810563300.9A priority Critical patent/CN108777873B/zh
Publication of CN108777873A publication Critical patent/CN108777873A/zh
Priority to PCT/CN2019/082673 priority patent/WO2019233189A1/zh
Priority to US16/993,454 priority patent/US20200374720A1/en
Application granted granted Critical
Publication of CN108777873B publication Critical patent/CN108777873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Abstract

本发明涉及基于加权混合孤立森林的无线传感网络异常数据检测方法,该方法利用传感器节点采集的历史数据集,首先以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验,结果表明,本发明提出的算法提高了异常检测的精度,具有广阔的应用前景。

Description

基于加权混合孤立森林的无线传感网络异常数据检测方法
技术领域
本发明涉及无线传感器网络数据可靠性领域,特别是涉及基于加权混合孤立森林的无线传感网络异常数据检测方法。
背景技术
数据作为无线传感网络中的载体,通常都有很多有用的信息,尤其是异常数据中潜在更多信息的暗示(除去节点本身故障),因此,想要了解各类事物的变化规律,就必须通过各种异常检测技术找出异常数据,并通过它们获取对我们有帮助的信息知识。在各领域异常检测技术作为近年较为深入研究的问题,无线传感器网络独特的特点及严格的约束条件使得该问题的研究更具有挑战性。针对无线传感器网络中异常数据的检测问题,目前已有很多种方法,按检测手段可分为基于统计学原理、基于近邻、基于聚类、基于分类以及基于谱分解的方法。此外,按照传感器网络体系结构异常检测技术又可以分为集中式的和分布式的。
F.T.Liu等人提出的孤立森林算法在数据异常检测中具有广泛应用,该算法主要是通过对历史数据集构建孤立树集成模型,并以测试样本的平均搜索深度计算其异常分值s(Y),对当前检测样本集的异常分值降序排列并取前一定数目的样本作为检测出来的异常值,从而决定其异常与否。该方法的优点是原理简单、算法复杂度较低且检测精度理想,但其对于一些凹面数据集的异常检测适用性较低,并且忽略了森林中各棵树对最终异常分值的计算所给予的贡献应当不同,该方法在无线传感器网络异常数据检测应用中尚未见到。
现有技术文献如下:
F.T.Liu,K.M.Ting and Z.H.Zhou,Isolation-based Anomaly Detection,TKDD,2011.
Aryal S,Kai M T,Wells J R,et al.Improving iForest with Relative Mass[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining.Springer,Cham,2014:510-521.
MarteauP F,Soheily-Khah S,BéchetN.Hybrid Isolation Forest-Applicationto Intrusion Detection[J].2017.
发明内容
基于此,有必要针对上述技术问题,提供一种基于加权混合孤立森林的无线传感网络异常数据检测方法,该方法利用传感器节点采集的历史数据集,首先以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验,结果表明,本发明提出的算法提高了异常检测的精度,具有广阔的应用前景。
一种基于孤立森林的异常数据检测方法,包括:
步骤1:以数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;
步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;
步骤3:计算每棵树的叶子结点中的训练样本中心Cen-s,以及每个待测样本x在叶节点中与上述的Cen-s间的距离,将其在森林中的每棵树的均值记作sc(x);
sc(x)=E(δ(x))
步骤4:在其叶子结点中计算异常样本中心Cen-a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);
Figure BDA0001683847770000021
步骤5:根据历史采集的数据集选取一定数目的样本Val-W,并使用Whiforest对其检测,结合集成学习中基分类器多样性的思想,通过不合度量对森林中孤立树间的多样性进行计算,得到一个对角为0的N*N对称矩阵diversity;
步骤6:对所述diversity矩阵按列求和并按森林规模大小T作商得到B,此刻将B中值与阈值μ比较,权值设置如下所示;
Figure BDA0001683847770000031
步骤7:设定B中值大于等于μ的树的权值w1=B(index)+1,小于μ的树的权值w2=1-B(index),对后边用到的几个变量都乘以w1和w2,以下式计算sc(x)和sa(x)
δ(x)=W*δ(x)
δa(x)=W*δa(x)
步骤8:将当前数据窗口内样本的原始Score分值以及目前引入的基于距离的2个分值即{Score,sa(x),sc(x)}进行归一化处理,使用的归一化公式如下所示,
Figure BDA0001683847770000032
其中s(x)代指的就是上述3个分值,
Figure BDA0001683847770000033
为归一化后的值,最终以下式融合3个分值得到最终的窗口样本异常分值sfinal
Figure BDA0001683847770000034
步骤9:降序排列sfinal,根据领域知识或参考原先数据集已知的异常数目比例ratio,得到异常分值最高的一定数目的数据样本,再和待测数据样本标记对比,计算检测率以及误报率相关评价指标;
步骤10:若节点检测到数据窗口内有异常样本,则将其所属顺序编号传递到簇头节点,进行下一步的验证或处理。
一种基于加权混合孤立森林的无线传感网络异常数据检测方法,包括:
步骤1:对传感器节点采集所得的历史数据集进行划分,分别为训练集和测试集;
步骤2:利用训练集通过孤立森林模型的训练得到iforest模型;
步骤3:对所得所述iforest模型手动添加少量已知异常样本,并利用权利要求1所述的基于孤立森林的异常数据检测方法建立Whiforest模型;
步骤4:对于各分布节点,当有一定数量的新样本进入数据窗口内时,使用已经训练好的所述Whiforest模型对这些新数据进行检测得到异常分值并判断数据是否异常;
步骤5:若步骤4中存在样本异常,则将节点对数据的检测结果传递给簇头节点,以便执行进一步的后续操作。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
上述基于加权混合孤立森林的无线传感网络异常数据检测方法,该方法利用传感器节点采集的历史数据集,首先以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验,结果表明,本发明提出的算法提高了异常检测的精度,具有广阔的应用前景。
附图说明
图1为本申请实施例提供的一种基于孤立森林的异常数据检测方法的流程示意图。
图2为基于加权混合孤立森林的无线传感网络异常数据检测方法中的AGD数据集示意图之一。
图3为基于加权混合孤立森林的无线传感网络异常数据检测方法中的AGD数据集示意图之二。
图4为基于加权混合孤立森林的无线传感网络异常数据检测方法中的传统iforest模型的异常分值图。
图5为基于加权混合孤立森林的无线传感网络异常数据检测方法中的Whiforest模型的异常分值图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参阅图1,一种基于孤立森林的异常数据检测方法,包括:
步骤1:以数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;
步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;
步骤3:计算每棵树的叶子结点中的训练样本中心Cen-s,以及每个待测样本x在叶节点中与上述的Cen-s间的距离,将其在森林中的每棵树的均值记作sc(x);
sc(x)=E(δ(x))
步骤4:在其叶子结点中计算异常样本中心Cen-a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);
Figure BDA0001683847770000061
步骤5:根据历史采集的数据集选取一定数目的样本Val-W,并使用Whiforest对其检测,结合集成学习中基分类器多样性的思想,通过不合度量对森林中孤立树间的多样性进行计算,得到一个对角为0的N*N对称矩阵diversity;
步骤6:对所述diversity矩阵按列求和并按森林规模大小T作商得到B,此刻将B中值与阈值μ比较,权值设置如下所示;
Figure BDA0001683847770000062
步骤7:设定B中值大于等于μ的树的权值w1=B(index)+1,小于μ的树的权值w2=1-B(index),对后边用到的几个变量都乘以w1和w2,以下式计算sc(x)和sa(x)
δ(x)=W*δ(x)
δa(x)=W*δa(x)
步骤8:将当前数据窗口内样本的原始Score分值以及目前引入的基于距离的2个分值即{Score,sa(x),sc(x)}进行归一化处理,使用的归一化公式如下所示,
Figure BDA0001683847770000063
其中s(x)代指的就是上述3个分值,
Figure BDA0001683847770000064
为归一化后的值,最终以下式融合3个分值得到最终的窗口样本异常分值sfinal
Figure BDA0001683847770000065
步骤9:降序排列sfinal,根据领域知识或参考原先数据集已知的异常数目比例ratio,得到异常分值最高的一定数目的数据样本,再和待测数据样本标记对比,计算检测率以及误报率相关评价指标;
步骤10:若节点检测到数据窗口内有异常样本,则将其所属顺序编号传递到簇头节点,进行下一步的验证或处理。
一种基于加权混合孤立森林的无线传感网络异常数据检测方法,包括:
步骤1:对传感器节点采集所得的历史数据集进行划分,分别为训练集和测试集;
步骤2:利用训练集通过孤立森林模型的训练得到iforest模型;
步骤3:对所得所述iforest模型手动添加少量已知异常样本,并利用权利要求1所述的基于孤立森林的异常数据检测方法建立Whiforest模型;
步骤4:对于各分布节点,当有一定数量的新样本进入数据窗口内时,使用已经训练好的所述Whiforest模型对这些新数据进行检测得到异常分值并判断数据是否异常;
步骤5:若步骤4中存在样本异常,则将节点对数据的检测结果传递给簇头节点,以便执行进一步的后续操作。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
上述基于加权混合孤立森林的无线传感网络异常数据检测方法,该方法利用传感器节点采集的历史数据集,首先以孤立森林算法为基础构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。通过对各传感器节点数据集进行实验,结果表明,本发明提出的算法提高了异常检测的精度,具有广阔的应用前景。
下面介绍一下本申请的一个具体应用场景:
本文通过对孤立森林算法的改进,提出了一种基于Whiforest的无线传感网络异常数据检测算法。不同于孤立森林算法,该方法首先以孤立森林算法为基础首先构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对无线传感网络数据异常情况进行判定。为进一步阐明方法的原理和创新之处,首先介绍一些基本概念。
1、检测率,指算法检测到的异常数据样本数与数据集中实际所含异常数据样本总数之比。
2、误报率,指被算法误判为异常的正常数据样本数与总的正常数据样本数之比。
3、数据窗口,在执行异常检测时,通常会选取最近一个时间段内的数据,对传感器数据取固定长度的滑动窗口作为一个数据块进行检测处理。
4、孤立树构建终止条件,样本不可再分,即只包含一条数据值或数据样本完全相同或孤立树的深度达到最大值log(ψ),其中ψ为根节点数据采样数。
5、搜索路径深度,表示数据样本x在孤立树上的路径长度,其中T.size表示训练时与x落在同一叶子节点的样本数目,e代表的是样本x从根节点到叶子节点所经过的边的个数。
h(x)=e+C(T.size)
6、二叉树的平均路径长度,是以一定数目的数据构建的二叉树的平均路径长度。其中,H(n-1)可用ln(n-1)+0.5772156649估算,后边一项为欧拉常数e。
Figure BDA0001683847770000081
7、检测异常分值,待测数据样本的最终异常分值Score(x),由数据x的路径长度均值E(h(x))和以采样数ψ构建的树的平均搜索路径长度C(ψ)归一化得到。
Figure BDA0001683847770000082
本专利提出的方法主要思想及创新之处如下:
应对目前大规模无线传感网络的异常数据检测,本专利提出了一种基于Whiforest的无线传感网络数据异常检测方法。本文方法利用传感器节点采集的部分历史数据,以孤立森林算法为基础首先构造一定规模的孤立树集合iforest,并于各叶子节点上引入待测样本与其各类样本中心的距离信息,通过选取的验证集val-w对已有孤立树集成模型iforest进行评价,通过计算不合度量等信息对各棵孤立树添加权值系数w,本发明的算法提高了检测率,并降低了误报率。
1.总体实施方案
S1:对传感器节点采集所得的历史数据集进行划分,分别为训练集和测试集。
S2:利用训练集通过孤立森林模型的训练得到iforest模型。
S3:对S2中所得模型手动添加少量已知异常样本,并基于孤立树叶节点的两类距离信息融合森林中多样性计算所得的权值系数建立Whiforest模型。
S4:对于各分布节点,当有一定数量的新样本进入数据窗口内时,使用已经训练好的Whiforest模型对这些新数据进行检测得到异常分值并判断数据是否异常。
S5:若S4中存在样本异常,则将节点对数据的检测结果传递给簇头节点,以便执行进一步的后续操作。
1、基于Whiforest的异常值检测方法
在异常检测中,比如环境检测领域通常会有一些异常数据记录在档,这样做一方面可以提高检测算法的效率,另一方面也有助于提高算法发现类似新异常值的检测能力。本发明通过向已构建的Itrees中加入少量随机选取的已知异常值,由于无线传感器网络数据异常值的出现并无特定规律,如果传感器采集到的无线传感网络数据的异常值持续、频繁出现,且当数据呈凹面分布时,孤立森林的异常检测方法并不能有效地检测出异常值。为了解决此问题,提出了一种基于加权混合孤立森林(WeightedHybridIsolationForest)的无线传感网络异常数据检测方法。在此,首先分别给出待测数据样本与孤立树叶结点中正常、异常数据样本中心的距离信息(即sc(x)和δa(x))这两个定义。
Whiforest算法的流程图如图1所示,大致步骤如下
首先使用训练集进行孤立森林模型的训练。
以下简要说明Whiforest算法的基本步骤。
步骤1:以历史传感器数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T权值系数阈值μ、验证样本集Val_W大小、已知异常样本添加率ratio等参数的设定。
步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中,其伪代码如下所示。
Figure BDA0001683847770000101
步骤3:计算每棵树的叶子结点中的训练样本中心Cen-s,以及每个待测样本x在叶节点中与上述的Cen-s间的距离,将其在森林中的每棵树的均值记作sc(x)。
sc(x)=E(δ(x)) (4)
步骤4:在其叶子结点中计算异常样本中心Cen-a(若某些叶节点无异常样本,则记为0),并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x),如公式(5)所示。
Figure BDA0001683847770000111
步骤5:根据历史采集的数据集选取一定数目的样本Val-W,并使用Whiforest对其检测,结合集成学习中基分类器多样性的思想,通过不合度量对森林中孤立树间的多样性进行计算,得到一个对角为0的N*N对称矩阵diversity。
步骤6:对所述diversity矩阵按列求和并按森林规模大小T作商得到B,此刻将B中值与阈值μ比较,权值设置如公式(6)所示。
Figure BDA0001683847770000112
步骤7:设定B中值大于等于μ的树的权值w1=B(index)+1,小于μ的树的权值w2=1-B(index)。对后边用到的几个变量都乘以w1和w2,以公式(7)和(8)计算sc(x)和sa(x)
δ(x)=W*δ(x) (7)
δa(x)=W*δa(x) (8)
步骤8:将当前数据窗口内样本的原始Score分值以及目前引入的基于距离的2个分值即{Score,sa(x),sc(x)}进行归一化处理(使用的归一化公式如下(9)所示,其中s(x)代指的就是上述3个分值,
Figure BDA0001683847770000113
为归一化后的值),最终以公式(10)融合3个分值得到最终的窗口样本异常分值sfinal
Figure BDA0001683847770000114
Figure BDA0001683847770000115
步骤9:降序排列sfinal,根据领域知识或参考原先数据集已知的异常数目比例ratio,得到异常分值最高的一定数目的数据样本,再和待测数据样本标记对比,计算检测率以及误报率相关评价指标。
步骤10:若节点检测到数据窗口内有异常样本,则将其所属顺序编号传递到簇头节点,进行下一步的验证或处理。
该算法具有两个相对较优的特点:1)若数据集呈图2所示的分布,则由该算法执行检测时,由于在异常分值计算时加入了叶子结点两个中心的距离信息,使得处于正常样本中心的异常点被漏报的概率大大降低,有效地提高了对该类异常值的检测率;2)没有加入权值系数时的算法对于某些数据样本的检测会受到森林中某些相关度较低的孤立树的决策结果的影响,对检测结果也存在一定程度上的负面影响,而Whiforest算法则通过不合度量以及权值系数的加入,进一步提高了检测精度并降低了误报率。
本文利用无线传感网络节点所采集的数据流样本,以孤立森林算法为基础,首先构造一定规模的孤立树集合iforest,在其各叶子节点上引入待测样本与其各类样本中心的距离信息,并结合多样性度量对孤立树进行权值系数的设定,最终利用改进的孤立森林算法对WSN单位大小的数据样本集中异常分值降序排列,并结合参数ratio进行异常情况的判定。以下给出该方法在具体数据集中的实施案例。
数据样本来源于英特尔伯克利实验室中所部署的WSN节点所采集的数据(IBRL),该系统包含有54个MICA2传感器节点,每个节点的数据采样周期为30s,采集数据特征包含温度、湿度、光照强度以及节点电压4个属性。在此选取25号节点在2004年3月份测得的7500组温度、湿度以及光照强度作为样本数据。其中t表示温度数据矩阵,h表示湿度数据矩阵,l表示光照强度数据矩阵,则有:
t=[19.616,19.449,-19.760,19.145,-16.898,18.933,-14.468,-13.527,-13.390…
29.406,18.606,18.587,18.557,18.538,18.498,18.479,18.479,18.469…
18.302,18.322,18.322,18.322,18.322,18.312,18.302,18.302,18.302….
18.293,18.263,18.244,18.263,18.244,18.234,18.234,18.224,18.214...
17.920,17.930,17.930,17.921,17.901,17.901,17.891,17.891,17.871...
17.861,17.861,17.852,17.842,17.852,17.832,17.832,17.823,17.822…...];
h=[37.573,37.847,22.465,38.394,22.538,38.803,22.685,22.721,22.685…
23.051,39.552,39.552,39.687,39.687,39.755,39.755,39.823,40.026…
40.060,39.959,39.959,39.925,39.959,39.925,39.925,39.959,39.891….
39.959,40.026,40.026,40.026,40.026,39.959,40.026,40.026,40.060...
40.162,40.094,40.094,40.162,40.094,40.094,40.263,40.162,40.196...
40.229,40.229,40.229,40.230,40.2976,40.196,40.229,40.229,40.264…...];
l=[97.52,97.52,0.46,97.52,0.46,97.52,0.46,0.46,0.46…
0.46,97.52,101.2,97.52,97.52,97.52,97.52,101.2,97.52…
97.52,97.52,97.52,97.52,97.52,101.2,97.52,97.52,97.52….
101.2,101.2,101.2,101.2,101.2,101.2,101.2,101.2,101.2...
97.52,97.52,97.52,97.52,101.2,101.2,101.2,97.52,101.2...
101.2,97.52,97.52,97.52,97.52,97.52,97.52,101.2,101.2…...];
将上述t、h以及l组成大小为s行3列的矩阵D,在此将它按3:1拆分成训练数据样本Train和测试数据样本Test,以Train数据集为输入进行孤立森林的训练,并在训练过程中根据领域知识添加少量已知异常样本计算2种距离,接着选取大小为val-w的验证样本集,使用该森林计算每棵树的不合度量值,结合其检测精度以及权值系数阈值为该森林中每棵孤立树设定权值系数。
使用引入了距离信息的森林模型对Test数据集执行检测,对当前单位大小size-t个样本的异常分值降序排列,结合ratio,取前size-t*ratio个数据作为当前单位大小样本集中的异常数据;而后续异常分值更低的数据点则为正常值。
为体现该方法在凹面数据集上的优势,另外在人工生成的AGD(ArtificialGlobal Dataset)数据集上进行了实验,该数据集的属性数目为3,选取的测试数据集大小分别是15000和21000。该数据分布大致为一个中心以及边缘分别存在异常簇的同心球体,如图3所示。本实验中,生成该数据集的基本参数有中心异常簇以及边缘异常簇样本的分布均值和协方差,分别表示为mea-center、mea-edge以及cov-center和cov-edge,具体参数设置如下表所示。
表1:AGD数据集具体参数
Figure BDA0001683847770000141
具体检测流程与上文相同,选取部分测试数据的检测结果可参照图4和图5,可以看出本发明中的算法对中心绿色异常点以及边缘异常点的检测率明显高于传统孤立森林算法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于孤立森林的异常数据检测方法,其特征在于,包括:
步骤1:以所述数据集中训练数据集构建Whiforest中的子模型即孤立树,包括参数bootstrap采样数ψ、森林规模大小T、权值系数阈值μ、验证样本集Val_W大小和已知异常样本添加率ratio的设定;
步骤2:随机选取少量已知异常样本加入到已经训练完毕的Itrees中;
步骤3:计算每棵树的叶子结点中的训练样本中心Cen-s,以及每个待测样本x在叶节点中与上述的Cen-s间的距离,将其在森林中的每棵树的均值记作sc(x);
sc(x)=E(δ(x))
步骤4:在其叶子结点中计算异常样本中心Cen-a,并计算每个待测样本x在叶节点中与上述的Cen-a间的距离记作δa(x),并将δ(x)和δa(x)在所有孤立树中均值的比值记作sa(x);
Figure FDA0002896301270000011
步骤5:根据历史采集的数据集选取一定数目的样本Val-W,并使用Whiforest对其检测,结合集成学习中基分类器多样性的思想,通过不合度量对森林中孤立树间的多样性进行计算,得到一个对角为0的N*N对称矩阵diversity;
步骤6:对所述diversity矩阵按列求和并按森林规模大小T作商得到B,此刻将B中值与阈值μ比较,权值设置如下所示;
Figure FDA0002896301270000012
步骤7:设定B中值大于等于μ的树的权值w1=B(index)+1,小于μ的树的权值w2=1-B(index),对后边用到的几个变量都乘以w1和w2,以下式计算sc(x)和sa(x)
δ(x)=W*δ(x)
δa(x)=W*δa(x)
步骤8:将当前数据窗口内样本的原始Score分值以及目前引入的基于距离的2个分值即{Score,sa(x),sc(x)}进行归一化处理,使用的归一化公式如下所示,
Figure FDA0002896301270000021
其中s(x)代指的就是上述3个分值,
Figure FDA0002896301270000022
为归一化后的值,最终以下式融合3个分值得到最终的窗口样本异常分值sfinal
Figure FDA0002896301270000023
步骤9:降序排列sfinal,根据领域知识或参考原先数据集已知的异常数目比例ratio,得到异常分值最高的一定数目的数据样本,再和待测数据样本标记对比,计算检测率以及误报率相关评价指标;
步骤10:若节点检测到数据窗口内有异常样本,则将其所属顺序编号传递到簇头节点,进行下一步的验证或处理。
2.一种基于加权混合孤立森林的无线传感网络异常数据检测方法,其特征在于,包括:
步骤1:对传感器节点采集所得的历史数据集进行划分,分别为训练集和测试集;
步骤2:利用训练集通过孤立森林模型的训练得到iforest模型;
步骤3:对所得所述iforest模型手动添加少量已知异常样本,并利用权利要求1所述的基于孤立森林的异常数据检测方法建立Whiforest模型;
步骤4:对于各分布节点,当有一定数量的新样本进入数据窗口内时,使用已经训练好的所述Whiforest模型对这些新数据进行检测得到异常分值并判断数据是否异常;
步骤5:若步骤4中存在样本异常,则将节点对数据的检测结果传递给簇头节点,以便执行进一步的后续操作。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1或2任一项所述方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1或2任一项所述方法的步骤。
CN201810563300.9A 2018-06-04 2018-06-04 基于加权混合孤立森林的无线传感网络异常数据检测方法 Active CN108777873B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810563300.9A CN108777873B (zh) 2018-06-04 2018-06-04 基于加权混合孤立森林的无线传感网络异常数据检测方法
PCT/CN2019/082673 WO2019233189A1 (zh) 2018-06-04 2019-04-15 一种传感网络异常数据检测方法
US16/993,454 US20200374720A1 (en) 2018-06-04 2020-08-14 Method for Detecting Abnormal Data in Sensor Network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810563300.9A CN108777873B (zh) 2018-06-04 2018-06-04 基于加权混合孤立森林的无线传感网络异常数据检测方法

Publications (2)

Publication Number Publication Date
CN108777873A CN108777873A (zh) 2018-11-09
CN108777873B true CN108777873B (zh) 2021-03-02

Family

ID=64025705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810563300.9A Active CN108777873B (zh) 2018-06-04 2018-06-04 基于加权混合孤立森林的无线传感网络异常数据检测方法

Country Status (3)

Country Link
US (1) US20200374720A1 (zh)
CN (1) CN108777873B (zh)
WO (1) WO2019233189A1 (zh)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777873B (zh) * 2018-06-04 2021-03-02 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
KR102131922B1 (ko) * 2018-08-29 2020-07-08 국방과학연구소 복수의 주변 디바이스로부터 데이터를 수신하는 방법 및 디바이스
CN109800900A (zh) * 2018-11-23 2019-05-24 南京中新赛克科技有限责任公司 一种将孤立森林算法模块化与可视化的方法
CN109902721A (zh) * 2019-01-28 2019-06-18 平安科技(深圳)有限公司 异常点检测模型验证方法、装置、计算机设备及存储介质
CN109871886B (zh) * 2019-01-28 2023-08-01 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN109948738B (zh) * 2019-04-11 2021-03-09 合肥工业大学 涂装烘干室的能耗异常检测方法、装置
CN110414555B (zh) * 2019-06-20 2023-10-03 创新先进技术有限公司 检测异常样本的方法及装置
CN110536258B (zh) * 2019-08-09 2021-07-16 大连理工大学 一种UASNs中基于孤立森林的信任模型
US11216778B2 (en) * 2019-09-30 2022-01-04 EMC IP Holding Company LLC Automatic detection of disruptive orders for a supply chain
CN110958222A (zh) * 2019-10-31 2020-04-03 苏州浪潮智能科技有限公司 基于孤立森林算法的服务器日志异常检测方法及系统
CN110933080B (zh) * 2019-11-29 2021-10-26 上海观安信息技术股份有限公司 一种用户登录异常的ip群体识别方法及装置
CN113032774A (zh) * 2019-12-25 2021-06-25 中移动信息技术有限公司 异常检测模型的训练方法、装置、设备及计算机存储介质
CN111160647B (zh) * 2019-12-30 2023-08-22 第四范式(北京)技术有限公司 一种洗钱行为预测方法及装置
CN111340075B (zh) * 2020-02-14 2021-05-14 北京邮电大学 一种ics的网络数据检测方法及装置
CN111325463A (zh) * 2020-02-18 2020-06-23 深圳前海微众银行股份有限公司 数据质量检测方法、装置、设备及计算机可读存储介质
CN111314910B (zh) * 2020-02-25 2022-07-15 重庆邮电大学 一种映射隔离森林的无线传感器网络异常数据检测方法
CN111275547B (zh) * 2020-03-19 2023-07-18 重庆富民银行股份有限公司 基于孤立森林的风控系统及方法
CN111353890A (zh) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 基于应用日志的应用异常检测方法及装置
CN111669368B (zh) * 2020-05-07 2022-12-06 宜通世纪科技股份有限公司 端到端网络感知异常检测及分析方法、系统、装置和介质
CN111740856B (zh) * 2020-05-07 2023-04-28 北京直真科技股份有限公司 基于异常检测算法的网络通信设备告警采集异常预警方法
CN111666169B (zh) * 2020-05-13 2023-03-28 云南电网有限责任公司信息中心 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法
CN111666276A (zh) * 2020-06-11 2020-09-15 上海积成能源科技有限公司 一种电力负荷预测中应用孤立森林算法剔除异常数据处理的方法
CN111967616B (zh) * 2020-08-18 2024-04-23 深延科技(北京)有限公司 自动时间序列回归方法和装置
CN112181706B (zh) * 2020-10-23 2023-09-22 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法
CN112541525A (zh) * 2020-11-23 2021-03-23 歌尔股份有限公司 一种点云数据处理方法和装置
CN112667709B (zh) * 2020-12-24 2022-05-03 山东大学 基于Spark的校园卡租借行为检测方法及系统
CN112733897A (zh) * 2020-12-30 2021-04-30 胜斗士(上海)科技技术发展有限公司 确定多维样本数据的异常原因的方法和设备
CN112906744B (zh) * 2021-01-20 2023-08-04 湖北工业大学 一种基于孤立森林算法的故障单体电池识别方法
CN113033084B (zh) * 2021-03-11 2022-04-05 哈尔滨工程大学 一种基于孤立森林和滑动时窗的核电站系统在线监测方法
CN112948145B (zh) * 2021-03-16 2023-06-20 河海大学 一种面向水文传感器流数据的异常检测方法
CN113011325B (zh) * 2021-03-18 2022-05-03 重庆交通大学 一种基于孤立森林算法的堆垛机轨道损伤定位方法
CN112990330B (zh) * 2021-03-26 2022-09-20 国网河北省电力有限公司营销服务中心 用户用能异常数据检测方法及设备
CN113204542B (zh) * 2021-04-22 2023-08-22 武汉大学 一种异常用电样本清洗及行为识别方法
CN113327172A (zh) * 2021-05-07 2021-08-31 河南工业大学 一种基于孤立森林的粮情数据离群点检测方法
CN113347565B (zh) * 2021-06-02 2022-11-01 郑州轻工业大学 各向异性无线传感器网络的扩展区域多跳节点测距方法
CN113420652B (zh) * 2021-06-22 2023-07-14 中冶赛迪信息技术(重庆)有限公司 一种时序信号片段异常识别方法、系统、介质及终端
CN113392914B (zh) * 2021-06-22 2023-04-25 北京邮电大学 一种基于数据特征的权重来构建孤立森林的异常检测算法
CN113537321B (zh) * 2021-07-01 2023-06-30 汕头大学 一种基于孤立森林和x均值的网络流量异常检测方法
CN113721000B (zh) * 2021-07-16 2023-02-03 国家电网有限公司大数据中心 一种变压器油中溶解气体异常检测方法和系统
CN113645098B (zh) * 2021-08-11 2022-08-09 安徽大学 一种无监督的基于增量学习的动态物联网异常检测方法
CN113626607B (zh) * 2021-09-17 2023-08-25 平安银行股份有限公司 异常工单识别方法、装置、电子设备及可读存储介质
CN114065957B (zh) * 2021-10-13 2023-12-05 浙江富日进材料科技有限公司 一种基于wsn的设备监控方法、系统及可读介质
CN113965384B (zh) * 2021-10-22 2023-11-03 上海观安信息技术股份有限公司 一种网络安全异常检测方法、装置及计算机存储介质
CN113992718B (zh) * 2021-10-28 2022-10-04 安徽农业大学 一种基于动态宽度图神经网络的群体传感器异常数据检测方法和系统
CN113822379B (zh) * 2021-11-22 2022-02-22 成都数联云算科技有限公司 工艺制程异常分析方法、装置、电子设备及存储介质
CN114398633A (zh) * 2021-12-29 2022-04-26 北京永信至诚科技股份有限公司 一种蜜罐攻击者的画像分析方法及装置
CN114338195A (zh) * 2021-12-30 2022-04-12 中国电信股份有限公司 基于改进孤立森林算法的web流量异常检测方法及装置
CN114547970B (zh) * 2022-01-25 2024-02-20 中国长江三峡集团有限公司 一种水电厂顶盖排水系统异常智能诊断方法
CN114697081A (zh) * 2022-02-28 2022-07-01 国网江苏省电力有限公司淮安供电分公司 基于iec61850 sv报文运行态势模型的入侵检测方法和系统
CN114925196A (zh) * 2022-03-01 2022-08-19 健康云(上海)数字科技有限公司 多层感知网络下糖尿病血检异常值辅助剔除方法
CN114611616B (zh) * 2022-03-16 2023-02-07 吕少岚 一种基于集成孤立森林的无人机智能故障检测方法及系统
CN114793205A (zh) * 2022-04-25 2022-07-26 咪咕文化科技有限公司 异常链路检测方法、装置、设备及存储介质
CN114827211B (zh) * 2022-05-13 2023-12-29 浙江启扬智能科技有限公司 一种物联网节点数据驱动的异常监控区域检测方法
CN115080965B (zh) * 2022-08-16 2022-11-15 杭州比智科技有限公司 基于历史表现的无监督异常检测方法及系统
CN115563616B (zh) * 2022-08-19 2024-04-16 广州大学 一种面向本地化差分隐私数据投毒攻击的防御方法
CN115713270B (zh) * 2022-11-28 2023-07-21 之江实验室 一种同行互评异常评分检测及修正方法和装置
CN115840924B (zh) * 2023-02-15 2023-04-28 深圳市特安电子有限公司 一种压力变送器测量数据智慧处理系统
CN116596336B (zh) * 2023-05-16 2023-10-31 合肥联宝信息技术有限公司 电子设备的状态评估方法、装置、电子设备及存储介质
CN116718249A (zh) * 2023-08-08 2023-09-08 山东元明晴技术有限公司 一种水利工程液位检测系统
CN116823816B (zh) * 2023-08-28 2023-11-21 济南正邦电子科技有限公司 一种基于安防监控静态存储器的检测设备及检测方法
CN116827971B (zh) * 2023-08-29 2023-11-24 北京国网信通埃森哲信息技术有限公司 基于区块链的碳排放数据存储与传输方法、装置与设备
CN116911806B (zh) * 2023-09-11 2023-11-28 湖北华中电力科技开发有限责任公司 基于互联网+的电力企业能源信息管理系统
CN117007135B (zh) * 2023-10-07 2023-12-12 东莞百舜机器人技术有限公司 一种基于物联网数据的液压风扇自动组装线监测系统
CN117113235B (zh) * 2023-10-20 2024-01-26 深圳市互盟科技股份有限公司 一种云计算数据中心能耗优化方法及系统
CN117235647B (zh) * 2023-11-03 2024-03-08 中色紫金地质勘查(北京)有限责任公司 基于边缘计算的矿产资源勘查业务hse数据管理方法
CN117241306B (zh) * 2023-11-10 2024-02-06 深圳市银尔达电子有限公司 一种4g网络异常流量数据实时监测方法
CN117272209B (zh) * 2023-11-20 2024-02-02 江苏新希望生态科技有限公司 一种芽苗菜生长数据采集方法及系统
CN117272192B (zh) * 2023-11-22 2024-03-08 青岛洛克环保科技有限公司 基于污水检测的磁混凝高效沉淀池污水处理系统
CN117289778B (zh) * 2023-11-27 2024-03-26 惠州市鑫晖源科技有限公司 一种工控主机电源健康状态的实时监测方法
CN117332283B (zh) * 2023-12-01 2024-03-05 山东康源堂药业股份有限公司 一种中药材生长信息采集分析方法及系统
CN117407734B (zh) * 2023-12-14 2024-03-12 苏州德费尔自动化设备有限公司 一种气缸密封性检测方法及系统
CN117436005B (zh) * 2023-12-21 2024-03-15 山东汇力环保科技有限公司 一种环境空气自动监测过程中异常数据处理方法
CN117556714B (zh) * 2024-01-12 2024-03-22 济南海德热工有限公司 一种用于铝金属冶炼的预热管路温度数据异常分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682685A (zh) * 2016-12-06 2017-05-17 重庆大学 基于微波加热温度场分布特征深度学习的局部温度变化异常检测方法
CN107172104A (zh) * 2017-07-17 2017-09-15 顺丰科技有限公司 一种登录异常检测方法、系统及设备
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN107426207A (zh) * 2017-07-21 2017-12-01 哈尔滨工程大学 一种基于SA‑iForest的网络入侵异常检测方法
CN107451600A (zh) * 2017-07-03 2017-12-08 重庆大学 一种基于隔离机制的在线光伏热斑故障检测方法
CN107909225A (zh) * 2017-12-12 2018-04-13 链家网(北京)科技有限公司 一种房产交易中的贷款放款时长预测方法
CN107992741A (zh) * 2017-10-24 2018-05-04 阿里巴巴集团控股有限公司 一种模型训练方法、检测url的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657288B (zh) * 2017-10-26 2020-07-03 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN108777873B (zh) * 2018-06-04 2021-03-02 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682685A (zh) * 2016-12-06 2017-05-17 重庆大学 基于微波加热温度场分布特征深度学习的局部温度变化异常检测方法
CN107451600A (zh) * 2017-07-03 2017-12-08 重庆大学 一种基于隔离机制的在线光伏热斑故障检测方法
CN107172104A (zh) * 2017-07-17 2017-09-15 顺丰科技有限公司 一种登录异常检测方法、系统及设备
CN107426207A (zh) * 2017-07-21 2017-12-01 哈尔滨工程大学 一种基于SA‑iForest的网络入侵异常检测方法
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN107992741A (zh) * 2017-10-24 2018-05-04 阿里巴巴集团控股有限公司 一种模型训练方法、检测url的方法及装置
CN107909225A (zh) * 2017-12-12 2018-04-13 链家网(北京)科技有限公司 一种房产交易中的贷款放款时长预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Improved Data Anomaly Detection Method Based on Isolation Forest;Dong Xu;《2017 10th International Symposium on Computational Intelligence and Design》;20171231;全文 *
恶意社交机器人检测技术研究;刘蓉;《通信学报》;20171130;全文 *

Also Published As

Publication number Publication date
CN108777873A (zh) 2018-11-09
WO2019233189A1 (zh) 2019-12-12
US20200374720A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
CN108777873B (zh) 基于加权混合孤立森林的无线传感网络异常数据检测方法
Ij Statistics versus machine learning
US11057788B2 (en) Method and system for abnormal value detection in LTE network
TWI776010B (zh) 用於減少光譜分類的誤報識別之設備和方法以及相關的非暫時性電腦可讀取媒體
US20230288322A1 (en) Identification using spectroscopy
Wahono et al. Genetic feature selection for software defect prediction
CN104077445B (zh) 基于模糊理论的加速寿命试验统计分析方法
EP3517931A1 (en) Reduced false positive identification for spectroscopic quantification
CN105072214A (zh) 基于域名特征的c&c域名识别方法
CN106935038B (zh) 一种停车检测系统及检测方法
CN111950645A (zh) 一种通过改进随机森林提高类不平衡分类性能的方法
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN117235632A (zh) 一种大型蒸发传感器水位异常数据检测方法
CN116010884A (zh) 基于主成分分析的SSA-LightGBM油浸式变压器的故障诊断方法
CN114821322A (zh) 基于注意力机制的小样本遥感影像分类方法及系统
CN107506824B (zh) 一种配电网的不良观测数据检测方法及装置
Roy et al. Machine Learning in Smart Transportation Systems for Mode Detection
CN117235434B (zh) 林业碳汇项目基线构建方法、系统、终端及介质
CN113933334B (zh) 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法
CN112183576B (zh) 一种基于不均衡数据集的Time-LSTM分类方法
CN114492162A (zh) 一种风景体验影响因子的贡献率的估算方法
CN112990277A (zh) 一种不平衡数据的分类及数据不平衡特征的选取方法
CN107884362B (zh) 棉、聚酯及氨纶混纺织物中氨纶含量的快速检测方法
CN114121155A (zh) 一种基于选择集成技术的致病同义突变预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant