CN113515450A - 一种环境异常检测方法和系统 - Google Patents

一种环境异常检测方法和系统 Download PDF

Info

Publication number
CN113515450A
CN113515450A CN202110552067.6A CN202110552067A CN113515450A CN 113515450 A CN113515450 A CN 113515450A CN 202110552067 A CN202110552067 A CN 202110552067A CN 113515450 A CN113515450 A CN 113515450A
Authority
CN
China
Prior art keywords
data
environmental
environment
itree
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110552067.6A
Other languages
English (en)
Inventor
岑纪鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110552067.6A priority Critical patent/CN113515450A/zh
Publication of CN113515450A publication Critical patent/CN113515450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • G06F11/3608Software analysis for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开了一种环境异常检测方法和系统,包括:构建具有局部敏感特性的Isolation Forest模型;将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。本发明提供的环境异常检测方法,构建具有局部敏感特性的Isolation Forest模型,有利于解决Isolation Forest算法对局部的异常点不敏感问题,提高异常检测的准确性,将具有局部敏感特性的IsolationForest模型作为LOF算法的数据过滤器,为LOF算法提供了候选异常数据集,从而减少了异常检测的运算时间,提高了效率,解决了现有的环境异常检测方法准确性不高和效率低下的技术问题。

Description

一种环境异常检测方法和系统
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种环境异常检测方法和系统。
背景技术
在信息化时代数据的爆炸式增长下,对数据进行挖掘分析显得尤为重要。异常检测是数据挖掘领域的一个重要分支,指通过数据挖掘手段识别数据中的异常点。异常点是使用不同机制产生的且数量上相对较少的点,在实际场景中,其往往包含着更为重要的信息。
用于环境异常数据检测的算法有多种,其中比较常用的是Isolation Forest算法和局部异常因子算法(Local Outlier Factor,LOF)。Isolation Forest算法是基于样本整体的异常检测方法,由于其不用通过计算样本点间距或密度寻找异常数据,因此可以很好地处理大量的高维数据(如环境检测数据),除此之外,算法还有内存要求低、处理速度快等优点,但缺点是Isolation Forest算法对局部的异常点不敏感,例如对细微的环境异常波动,其并不能精准的进行检测。LOF算法是比较有代表性的基于相似度衡量的算法。由于环境检测数据不是均匀分布的,利用基于全局的Isolation Forest算法对某些异常点进行检测会不如人意,但基于相似度衡量的异常点检测算法引入了数据对象局部密度的概念,利用某个数据对象的局部密度与邻近密度相比,计算得到该数据对象的局部离群因子,局部离群因子比数值1越大,说明此数据对象越可能为异常点。LOF算法对环境检测数据的异常点识别效果好,但其时间复杂度大,运算时间长,不能对高维的环境检测数据进行及时的处理。因此,如何解决Isolation Forest算法存在的异常数据检测准确性问题和LOF算法存在的检测效率问题,是本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种环境异常检测方法和系统,用于解决现有的环境异常检测方法准确性不高和效率低下的技术问题。
有鉴于此,本发明第一方面提供了一种环境异常检测方法,包括:
构建具有局部敏感特性的Isolation Forest模型;
将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
可选地,构建具有局部敏感特性的Isolation Forest模型,包括以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
可选地,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族
Figure BDA0003075868030000021
将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2
可选地,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
可选地,阈值T取值为T=ωlog2(ψ),ω为常数变量。
可选地,基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据,包括:
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
本发明第二方面提供了一种环境异常检测系统,包括:
孤立森林模型构建模块,用于构建具有局部敏感特性的Isolation Forest模型;
数据过滤模块,用于将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
异常判定模块,用于基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
可选地,孤立森林模型构建模块具体用于执行以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
可选地,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族
Figure BDA0003075868030000041
将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2
可选地,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明提供了一种环境异常检测方法,包括:构建具有局部敏感特性的IsolationForest模型;将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。本发明提供的环境异常检测方法,构建具有局部敏感特性的Isolation Forest模型,有利于解决Isolation Forest算法对局部的异常点不敏感问题,提高异常检测的准确性,将具有局部敏感特性的Isolation Forest模型作为LOF算法的数据过滤器,为LOF算法提供了候选异常数据集,从而减少了异常检测的运算时间,提高了效率,解决了现有的环境异常检测方法准确性不高和效率低下的技术问题。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中提供的一种环境异常检测方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
为了便于理解,请参阅图1,本发明提供的一种环境异常检测方法的一个实施例,包括:
步骤101、构建具有局部敏感特性的Isolation Forest模型。
由于环境检测数据不是均匀分布的,利用基于全局的Isolation Forest算法对异常点进行检测,会存在局部异常点不敏感问题,影响检测的准确性。因此,本发明中,构建具有局部敏感特性的Isolation Forest模型来解决此问题。具体的,具有局部敏感特性的Isolation Forest模型的构建可以包括以下步骤:
S11、获取环境数据训练集。
S12、采用LSH(Locality Sensitive Hashing)算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内。
相同哈希桶内的样本点共享相同的哈希值,将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族
Figure BDA0003075868030000061
将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2
其中,d(v1,v2)为v1和v2之间的距离,距离采用欧几里得度量,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。上述两个条件可以解释为:当v1和v2相似度足够大时d(v1,v2)<d1,映射为同一个哈希桶中的概率足够大Pr[h(v1)=h(v2)]≥p1;当v1和v2相似度足够小时,映射为同一个哈希桶中的概率足够小Pr[h(v1)=h(v2)]≤p2
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本SubSample。ψ优选取值为256。设环境数据训练集划分到n个桶内,桶Bi(0<i≤n)中的环境数据训练样本每次被抽取的概率为
Figure BDA0003075868030000062
尽管相同哈希桶内的环境数据训练样本可能并不相似,但由于这种情况发生的概率很低,并且Isolation Forest使用多棵子树来评估样本异常指数,所以此影响可以被忽略不计。
S14、随机抽取环境数据训练样本v(t1,t2,...,tn)中某个属性t和属性t的切分值Pa,根据属性t和切分值Pa对每颗ITree的环境数据训练样本SubSample进行切分,得到左子树数据集和右子树数据集两个数据集。
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限。
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
步骤102、将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集。
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始沿对应的条件分支(即按照切分值)往下走,直到达到叶子节点,记录过程中经过的路径长度h(x);获取环境检测数据在所有ITree中的路径长度,求取平均路径长度E(h(x));判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度E(h(x))小于阈值T,则将环境检测数据放入候选异常数据集。其中,阈值T取值满足函数关系T=ωlog2(ψ),ω为可根据实际情况进行调整的常数变量,T优选1.75log2(ψ)。
步骤103、基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
定义dk(O)为点O的第k距离,dk(O)=d(O,P),意为点P是距离点O最近的第k个点。
定义Nk(O)点O的第k距离邻域,Nk(O)={P′∈D\{O}∣d(O,P′)≤dk(O)},其中,D为候选异常数据集。
定义点P到点O的第k可达距离dk(P,O)=max{dk(O),d(P,O)}。
定义点P在第k距离邻域内的局部可达密度为:
Figure BDA0003075868030000071
对候选异常数据集中的每一个环境检测数据P,计算其局部离群因子:
Figure BDA0003075868030000072
其中,ε为一个常数,目的是避免多条环境检测数据存在相同的情况导致分母值等于0,|ε|<<1。
若局部离群因子小于1,则P不是局部离群点,即视环境检测数据P为正常状态,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
本发明提供的环境异常检测方法,构建具有局部敏感特性的Isolation Forest模型,有利于解决Isolation Forest算法对局部的异常点不敏感问题,提高异常检测的准确性,将具有局部敏感特性的Isolation Forest模型作为LOF算法的数据过滤器,为LOF算法提供了候选异常数据集,从而减少了异常检测的运算时间,提高了效率,解决了现有的环境异常检测方法准确性不高和效率低下的技术问题。
本发明中提供了一种环境异常检测系统的实施例,包括:
孤立森林模型构建模块,用于构建具有局部敏感特性的Isolation Forest模型;
数据过滤模块,用于将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
异常判定模块,用于基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
孤立森林模型构建模块具体用于执行以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族
Figure BDA0003075868030000091
将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2
将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
阈值T取值为T=ωlog2(ψ),ω为常数变量。
基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据,包括:
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
本发明提供的环境异常检测系统,用于执行前述环境异常检测方法实施例中的环境异常检测系统,可取得与环境异常检测方法实施例相同的技术效果,在此不再进行赘述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种环境异常检测方法,其特征在于,包括:
构建具有局部敏感特性的Isolation Forest模型;
将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
2.根据权利要求1所述的环境异常检测方法,其特征在于,构建具有局部敏感特性的Isolation Forest模型,包括以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
3.根据权利要求2所述的环境异常检测方法,其特征在于,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族
Figure FDA0003075868020000011
将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2
4.根据权利要求3所述的环境异常检测方法,其特征在于,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
5.根据权利要求4所述的环境异常检测方法,其特征在于,阈值T取值为T=ωlog2(ψ),ω为常数变量。
6.根据权利要求5所述的环境异常检测方法,其特征在于,基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据,包括:
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
7.一种环境异常检测系统,其特征在于,包括:
孤立森林模型构建模块,用于构建具有局部敏感特性的Isolation Forest模型;
数据过滤模块,用于将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
异常判定模块,用于基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
8.根据权利要求7所述的环境异常检测系统,其特征在于,孤立森林模型构建模块具体用于执行以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
9.根据权利要求8所述的环境异常检测系统,其特征在于,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族
Figure FDA0003075868020000031
将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2
10.根据权利要求9所述的环境异常检测系统,其特征在于,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
CN202110552067.6A 2021-05-20 2021-05-20 一种环境异常检测方法和系统 Pending CN113515450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552067.6A CN113515450A (zh) 2021-05-20 2021-05-20 一种环境异常检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552067.6A CN113515450A (zh) 2021-05-20 2021-05-20 一种环境异常检测方法和系统

Publications (1)

Publication Number Publication Date
CN113515450A true CN113515450A (zh) 2021-10-19

Family

ID=78064766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552067.6A Pending CN113515450A (zh) 2021-05-20 2021-05-20 一种环境异常检测方法和系统

Country Status (1)

Country Link
CN (1) CN113515450A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340063A (zh) * 2020-02-10 2020-06-26 北京华电天仁电力控制技术有限公司 一种磨煤机数据异常检测方法
CN116413395A (zh) * 2023-06-08 2023-07-11 山东瑞程数据科技有限公司 一种环境异常智能检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN107070867A (zh) * 2017-01-03 2017-08-18 湖南大学 基于多层局部敏感哈希表的网络流量异常快速检测方法
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111078488A (zh) * 2018-10-18 2020-04-28 杭州海康威视数字技术股份有限公司 数据采集方法、装置、存储介质及系统
CN111314910A (zh) * 2020-02-25 2020-06-19 重庆邮电大学 一种新型映射隔离森林的无线传感器网络异常数据检测方法
CN111340063A (zh) * 2020-02-10 2020-06-26 北京华电天仁电力控制技术有限公司 一种磨煤机数据异常检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN107070867A (zh) * 2017-01-03 2017-08-18 湖南大学 基于多层局部敏感哈希表的网络流量异常快速检测方法
CN111078488A (zh) * 2018-10-18 2020-04-28 杭州海康威视数字技术股份有限公司 数据采集方法、装置、存储介质及系统
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111340063A (zh) * 2020-02-10 2020-06-26 北京华电天仁电力控制技术有限公司 一种磨煤机数据异常检测方法
CN111314910A (zh) * 2020-02-25 2020-06-19 重庆邮电大学 一种新型映射隔离森林的无线传感器网络异常数据检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340063A (zh) * 2020-02-10 2020-06-26 北京华电天仁电力控制技术有限公司 一种磨煤机数据异常检测方法
CN111340063B (zh) * 2020-02-10 2023-08-29 国能信控互联技术有限公司 一种磨煤机数据异常检测方法
CN116413395A (zh) * 2023-06-08 2023-07-11 山东瑞程数据科技有限公司 一种环境异常智能检测方法
CN116413395B (zh) * 2023-06-08 2023-08-25 山东瑞程数据科技有限公司 一种环境异常智能检测方法

Similar Documents

Publication Publication Date Title
CN111833172A (zh) 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
WO2019222462A1 (en) Identification of sensitive data using machine learning
CN113515450A (zh) 一种环境异常检测方法和系统
CN107247873B (zh) 一种差异甲基化位点识别方法
CN111368289B (zh) 一种恶意软件检测方法和装置
US11379340B2 (en) Apparatus and method for estimating anomaly information, and program
Barbariol et al. A review of tree-based approaches for anomaly detection
CN110674865A (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN113971425A (zh) 一种异常分析方法、装置及存储介质
CN111291824A (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
CN111767538A (zh) 一种基于相关信息熵的工控入侵检测系统特征选择方法
CN113254255A (zh) 一种云平台日志的分析方法、系统、设备及介质
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN111259442B (zh) MapReduce框架下决策树的差分隐私保护方法
CN115934699A (zh) 异常数据筛选方法、装置、电子设备及存储介质
CN115292303A (zh) 数据处理方法及装置
CN115905990A (zh) 一种基于密度聚集算法的变压器油温异常监测方法
CN114528909A (zh) 一种基于流量日志特征提取的无监督异常检测方法
CN114726570A (zh) 一种基于图模型的主机流量异常检测方法及装置
CN113419883A (zh) 基于互信息和特征分组策略的高维异常检测预处理方法
CN113535458A (zh) 异常误报的处理方法及装置、存储介质、终端
KR101907443B1 (ko) 구성 요소 기반 악성 파일 유사성 분석 장치 및 방법
CN113420777A (zh) 异常日志检测方法、装置存储介质及设备
CN116630991B (zh) 一种输电线路状态评价方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211019