CN113515450A - 一种环境异常检测方法和系统 - Google Patents
一种环境异常检测方法和系统 Download PDFInfo
- Publication number
- CN113515450A CN113515450A CN202110552067.6A CN202110552067A CN113515450A CN 113515450 A CN113515450 A CN 113515450A CN 202110552067 A CN202110552067 A CN 202110552067A CN 113515450 A CN113515450 A CN 113515450A
- Authority
- CN
- China
- Prior art keywords
- data
- environmental
- environment
- itree
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 113
- 230000007613 environmental effect Effects 0.000 claims abstract description 122
- 230000002159 abnormal effect Effects 0.000 claims abstract description 81
- 238000002955 isolation Methods 0.000 claims abstract description 61
- 230000035945 sensitivity Effects 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 68
- 239000013598 vector Substances 0.000 claims description 48
- 238000013507 mapping Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 238000007418 data mining Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013506 data mapping Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3604—Software analysis for verifying properties of programs
- G06F11/3608—Software analysis for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开了一种环境异常检测方法和系统,包括:构建具有局部敏感特性的Isolation Forest模型;将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。本发明提供的环境异常检测方法,构建具有局部敏感特性的Isolation Forest模型,有利于解决Isolation Forest算法对局部的异常点不敏感问题,提高异常检测的准确性,将具有局部敏感特性的IsolationForest模型作为LOF算法的数据过滤器,为LOF算法提供了候选异常数据集,从而减少了异常检测的运算时间,提高了效率,解决了现有的环境异常检测方法准确性不高和效率低下的技术问题。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种环境异常检测方法和系统。
背景技术
在信息化时代数据的爆炸式增长下,对数据进行挖掘分析显得尤为重要。异常检测是数据挖掘领域的一个重要分支,指通过数据挖掘手段识别数据中的异常点。异常点是使用不同机制产生的且数量上相对较少的点,在实际场景中,其往往包含着更为重要的信息。
用于环境异常数据检测的算法有多种,其中比较常用的是Isolation Forest算法和局部异常因子算法(Local Outlier Factor,LOF)。Isolation Forest算法是基于样本整体的异常检测方法,由于其不用通过计算样本点间距或密度寻找异常数据,因此可以很好地处理大量的高维数据(如环境检测数据),除此之外,算法还有内存要求低、处理速度快等优点,但缺点是Isolation Forest算法对局部的异常点不敏感,例如对细微的环境异常波动,其并不能精准的进行检测。LOF算法是比较有代表性的基于相似度衡量的算法。由于环境检测数据不是均匀分布的,利用基于全局的Isolation Forest算法对某些异常点进行检测会不如人意,但基于相似度衡量的异常点检测算法引入了数据对象局部密度的概念,利用某个数据对象的局部密度与邻近密度相比,计算得到该数据对象的局部离群因子,局部离群因子比数值1越大,说明此数据对象越可能为异常点。LOF算法对环境检测数据的异常点识别效果好,但其时间复杂度大,运算时间长,不能对高维的环境检测数据进行及时的处理。因此,如何解决Isolation Forest算法存在的异常数据检测准确性问题和LOF算法存在的检测效率问题,是本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种环境异常检测方法和系统,用于解决现有的环境异常检测方法准确性不高和效率低下的技术问题。
有鉴于此,本发明第一方面提供了一种环境异常检测方法,包括:
构建具有局部敏感特性的Isolation Forest模型;
将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
可选地,构建具有局部敏感特性的Isolation Forest模型,包括以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
可选地,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1;
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2;
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。
可选地,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
可选地,阈值T取值为T=ωlog2(ψ),ω为常数变量。
可选地,基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据,包括:
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
本发明第二方面提供了一种环境异常检测系统,包括:
孤立森林模型构建模块,用于构建具有局部敏感特性的Isolation Forest模型;
数据过滤模块,用于将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
异常判定模块,用于基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
可选地,孤立森林模型构建模块具体用于执行以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
可选地,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1;
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2;
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。
可选地,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明提供了一种环境异常检测方法,包括:构建具有局部敏感特性的IsolationForest模型;将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。本发明提供的环境异常检测方法,构建具有局部敏感特性的Isolation Forest模型,有利于解决Isolation Forest算法对局部的异常点不敏感问题,提高异常检测的准确性,将具有局部敏感特性的Isolation Forest模型作为LOF算法的数据过滤器,为LOF算法提供了候选异常数据集,从而减少了异常检测的运算时间,提高了效率,解决了现有的环境异常检测方法准确性不高和效率低下的技术问题。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中提供的一种环境异常检测方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
为了便于理解,请参阅图1,本发明提供的一种环境异常检测方法的一个实施例,包括:
步骤101、构建具有局部敏感特性的Isolation Forest模型。
由于环境检测数据不是均匀分布的,利用基于全局的Isolation Forest算法对异常点进行检测,会存在局部异常点不敏感问题,影响检测的准确性。因此,本发明中,构建具有局部敏感特性的Isolation Forest模型来解决此问题。具体的,具有局部敏感特性的Isolation Forest模型的构建可以包括以下步骤:
S11、获取环境数据训练集。
S12、采用LSH(Locality Sensitive Hashing)算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内。
相同哈希桶内的样本点共享相同的哈希值,将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1;
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2;
其中,d(v1,v2)为v1和v2之间的距离,距离采用欧几里得度量,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。上述两个条件可以解释为:当v1和v2相似度足够大时d(v1,v2)<d1,映射为同一个哈希桶中的概率足够大Pr[h(v1)=h(v2)]≥p1;当v1和v2相似度足够小时,映射为同一个哈希桶中的概率足够小Pr[h(v1)=h(v2)]≤p2。
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本SubSample。ψ优选取值为256。设环境数据训练集划分到n个桶内,桶Bi(0<i≤n)中的环境数据训练样本每次被抽取的概率为尽管相同哈希桶内的环境数据训练样本可能并不相似,但由于这种情况发生的概率很低,并且Isolation Forest使用多棵子树来评估样本异常指数,所以此影响可以被忽略不计。
S14、随机抽取环境数据训练样本v(t1,t2,...,tn)中某个属性t和属性t的切分值Pa,根据属性t和切分值Pa对每颗ITree的环境数据训练样本SubSample进行切分,得到左子树数据集和右子树数据集两个数据集。
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限。
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
步骤102、将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集。
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始沿对应的条件分支(即按照切分值)往下走,直到达到叶子节点,记录过程中经过的路径长度h(x);获取环境检测数据在所有ITree中的路径长度,求取平均路径长度E(h(x));判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度E(h(x))小于阈值T,则将环境检测数据放入候选异常数据集。其中,阈值T取值满足函数关系T=ωlog2(ψ),ω为可根据实际情况进行调整的常数变量,T优选1.75log2(ψ)。
步骤103、基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
定义dk(O)为点O的第k距离,dk(O)=d(O,P),意为点P是距离点O最近的第k个点。
定义Nk(O)点O的第k距离邻域,Nk(O)={P′∈D\{O}∣d(O,P′)≤dk(O)},其中,D为候选异常数据集。
定义点P到点O的第k可达距离dk(P,O)=max{dk(O),d(P,O)}。
定义点P在第k距离邻域内的局部可达密度为:
对候选异常数据集中的每一个环境检测数据P,计算其局部离群因子:
其中,ε为一个常数,目的是避免多条环境检测数据存在相同的情况导致分母值等于0,|ε|<<1。
若局部离群因子小于1,则P不是局部离群点,即视环境检测数据P为正常状态,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
本发明提供的环境异常检测方法,构建具有局部敏感特性的Isolation Forest模型,有利于解决Isolation Forest算法对局部的异常点不敏感问题,提高异常检测的准确性,将具有局部敏感特性的Isolation Forest模型作为LOF算法的数据过滤器,为LOF算法提供了候选异常数据集,从而减少了异常检测的运算时间,提高了效率,解决了现有的环境异常检测方法准确性不高和效率低下的技术问题。
本发明中提供了一种环境异常检测系统的实施例,包括:
孤立森林模型构建模块,用于构建具有局部敏感特性的Isolation Forest模型;
数据过滤模块,用于将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
异常判定模块,用于基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
孤立森林模型构建模块具体用于执行以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1;
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2;
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。
将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
阈值T取值为T=ωlog2(ψ),ω为常数变量。
基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据,包括:
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
本发明提供的环境异常检测系统,用于执行前述环境异常检测方法实施例中的环境异常检测系统,可取得与环境异常检测方法实施例相同的技术效果,在此不再进行赘述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种环境异常检测方法,其特征在于,包括:
构建具有局部敏感特性的Isolation Forest模型;
将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
2.根据权利要求1所述的环境异常检测方法,其特征在于,构建具有局部敏感特性的Isolation Forest模型,包括以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
3.根据权利要求2所述的环境异常检测方法,其特征在于,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1;
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2;
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。
4.根据权利要求3所述的环境异常检测方法,其特征在于,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
5.根据权利要求4所述的环境异常检测方法,其特征在于,阈值T取值为T=ωlog2(ψ),ω为常数变量。
6.根据权利要求5所述的环境异常检测方法,其特征在于,基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据,包括:
对候选异常数据集中的每一个环境检测数据,计算局部离群因子,若局部离群因子大于1,则对应的环境检测数据是局部离群点,视为异常环境检测数据进行输出。
7.一种环境异常检测系统,其特征在于,包括:
孤立森林模型构建模块,用于构建具有局部敏感特性的Isolation Forest模型;
数据过滤模块,用于将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集;
异常判定模块,用于基于LOF算法对候选异常数据集进行异常数据判定,输出异常环境检测数据。
8.根据权利要求7所述的环境异常检测系统,其特征在于,孤立森林模型构建模块具体用于执行以下步骤:
S11、获取环境数据训练集;
S12、采用LSH算法将环境数据训练集的环境数据训练样本划分到多个哈希桶内;
S13、Isolation Forest模型中的每颗ITree按概率随机从不同的哈希桶中抽取ψ个用于每颗ITree构建的环境数据训练样本;
S14、随机抽取环境数据训练样本中某个属性和属性的切分值,根据属性和切分值对每颗ITree的环境数据训练样本进行切分,得到左子树数据集和右子树数据集;
S15、在左子树数据集和右子树数据集上按照步骤S14重复构造子树,直到需划分的数据集中仅包含相同的环境样本或ITree的高度达到极限;
S16、重复步骤S13~S15,得到具有若干棵ITree的具有局部敏感特性的IsolationForest模型。
9.根据权利要求8所述的环境异常检测系统,其特征在于,将环境数据训练集划分到多个哈希桶内,包括:
将环境数据训练集中的单条环境数据训练样本视作环境样本向量v(t1,t2,...,tn),ti(1≤i≤n)为单条环境数据样本中的属性值;
使用hash函数族将环境数据训练集中的环境样本向量v映射到不同的哈希桶内,其中,a是与v同维数的空间随机向量,b为随机数,b∈[0,r],r为哈希函数的宽度,经过哈希映射后,环境数据训练集中任意两个环境样本向量v1,v2满足以下两个条件:
若d(v1,v2)<d1,则Pr[h(v1)=h(v2)]≥p1;
若d(v1,v2)>d2,则Pr[h(v1)=h(v2)]≤p2;
其中,d(v1,v2)为v1和v2之间的距离,d1<d2,h(v1)为环境样本向量v1的哈希变换,h(v2)为环境样本向量v2的哈希变换,Pr[h(v1)=h(v2)]为环境样本向量v1的哈希变换和环境样本向量v2的哈希变换映射为同一个哈希桶中的概率,p1、p2为概率阈值,p1>p2。
10.根据权利要求9所述的环境异常检测系统,其特征在于,将环境检测数据输入Isolation Forest模型进行数据过滤,得到候选异常数据集,包括:
将单条环境检测数据输入Isolation Forest模型,从ITree的根节点开始按照切分值往下走,直到达到叶子节点,记录过程中经过的路径长度;
获取环境检测数据在所有ITree中的路径长度,求取平均路径长度;
判断是否将环境检测数据放入候选异常数据集,其中,若平均路径长度小于阈值T,则将环境检测数据放入候选异常数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552067.6A CN113515450A (zh) | 2021-05-20 | 2021-05-20 | 一种环境异常检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552067.6A CN113515450A (zh) | 2021-05-20 | 2021-05-20 | 一种环境异常检测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113515450A true CN113515450A (zh) | 2021-10-19 |
Family
ID=78064766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110552067.6A Pending CN113515450A (zh) | 2021-05-20 | 2021-05-20 | 一种环境异常检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515450A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340063A (zh) * | 2020-02-10 | 2020-06-26 | 北京华电天仁电力控制技术有限公司 | 一种磨煤机数据异常检测方法 |
CN116413395A (zh) * | 2023-06-08 | 2023-07-11 | 山东瑞程数据科技有限公司 | 一种环境异常智能检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035949A (zh) * | 2013-12-10 | 2014-09-10 | 南京信息工程大学 | 一种基于局部敏感哈希改进算法的相似性数据检索方法 |
CN106649715A (zh) * | 2016-12-21 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 |
CN107070867A (zh) * | 2017-01-03 | 2017-08-18 | 湖南大学 | 基于多层局部敏感哈希表的网络流量异常快速检测方法 |
CN110046665A (zh) * | 2019-04-17 | 2019-07-23 | 成都信息工程大学 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
CN111078488A (zh) * | 2018-10-18 | 2020-04-28 | 杭州海康威视数字技术股份有限公司 | 数据采集方法、装置、存储介质及系统 |
CN111314910A (zh) * | 2020-02-25 | 2020-06-19 | 重庆邮电大学 | 一种新型映射隔离森林的无线传感器网络异常数据检测方法 |
CN111340063A (zh) * | 2020-02-10 | 2020-06-26 | 北京华电天仁电力控制技术有限公司 | 一种磨煤机数据异常检测方法 |
-
2021
- 2021-05-20 CN CN202110552067.6A patent/CN113515450A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035949A (zh) * | 2013-12-10 | 2014-09-10 | 南京信息工程大学 | 一种基于局部敏感哈希改进算法的相似性数据检索方法 |
CN106649715A (zh) * | 2016-12-21 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 |
CN107070867A (zh) * | 2017-01-03 | 2017-08-18 | 湖南大学 | 基于多层局部敏感哈希表的网络流量异常快速检测方法 |
CN111078488A (zh) * | 2018-10-18 | 2020-04-28 | 杭州海康威视数字技术股份有限公司 | 数据采集方法、装置、存储介质及系统 |
CN110046665A (zh) * | 2019-04-17 | 2019-07-23 | 成都信息工程大学 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
CN111340063A (zh) * | 2020-02-10 | 2020-06-26 | 北京华电天仁电力控制技术有限公司 | 一种磨煤机数据异常检测方法 |
CN111314910A (zh) * | 2020-02-25 | 2020-06-19 | 重庆邮电大学 | 一种新型映射隔离森林的无线传感器网络异常数据检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340063A (zh) * | 2020-02-10 | 2020-06-26 | 北京华电天仁电力控制技术有限公司 | 一种磨煤机数据异常检测方法 |
CN111340063B (zh) * | 2020-02-10 | 2023-08-29 | 国能信控互联技术有限公司 | 一种磨煤机数据异常检测方法 |
CN116413395A (zh) * | 2023-06-08 | 2023-07-11 | 山东瑞程数据科技有限公司 | 一种环境异常智能检测方法 |
CN116413395B (zh) * | 2023-06-08 | 2023-08-25 | 山东瑞程数据科技有限公司 | 一种环境异常智能检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833172A (zh) | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 | |
WO2019222462A1 (en) | Identification of sensitive data using machine learning | |
CN113515450A (zh) | 一种环境异常检测方法和系统 | |
CN107247873B (zh) | 一种差异甲基化位点识别方法 | |
CN111368289B (zh) | 一种恶意软件检测方法和装置 | |
US11379340B2 (en) | Apparatus and method for estimating anomaly information, and program | |
Barbariol et al. | A review of tree-based approaches for anomaly detection | |
CN110674865A (zh) | 面向软件缺陷类分布不平衡的规则学习分类器集成方法 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN113971425A (zh) | 一种异常分析方法、装置及存储介质 | |
CN111291824A (zh) | 时间序列的处理方法、装置、电子设备和计算机可读介质 | |
CN111767538A (zh) | 一种基于相关信息熵的工控入侵检测系统特征选择方法 | |
CN113254255A (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
CN113807073B (zh) | 文本内容异常检测方法、装置以及存储介质 | |
CN111259442B (zh) | MapReduce框架下决策树的差分隐私保护方法 | |
CN115934699A (zh) | 异常数据筛选方法、装置、电子设备及存储介质 | |
CN115292303A (zh) | 数据处理方法及装置 | |
CN115905990A (zh) | 一种基于密度聚集算法的变压器油温异常监测方法 | |
CN114528909A (zh) | 一种基于流量日志特征提取的无监督异常检测方法 | |
CN114726570A (zh) | 一种基于图模型的主机流量异常检测方法及装置 | |
CN113419883A (zh) | 基于互信息和特征分组策略的高维异常检测预处理方法 | |
CN113535458A (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
KR101907443B1 (ko) | 구성 요소 기반 악성 파일 유사성 분석 장치 및 방법 | |
CN113420777A (zh) | 异常日志检测方法、装置存储介质及设备 | |
CN116630991B (zh) | 一种输电线路状态评价方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211019 |