CN114943861A - 一种基于模拟退火的扩展孤立森林的异常检测方法及系统 - Google Patents

一种基于模拟退火的扩展孤立森林的异常检测方法及系统 Download PDF

Info

Publication number
CN114943861A
CN114943861A CN202210492295.3A CN202210492295A CN114943861A CN 114943861 A CN114943861 A CN 114943861A CN 202210492295 A CN202210492295 A CN 202210492295A CN 114943861 A CN114943861 A CN 114943861A
Authority
CN
China
Prior art keywords
data
itrees
eif
simulated annealing
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210492295.3A
Other languages
English (en)
Inventor
吴永凯
王诗愉
杨煜杭
应文豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yitou Health Technology Co ltd
Original Assignee
Jiangsu Yitou Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yitou Health Technology Co ltd filed Critical Jiangsu Yitou Health Technology Co ltd
Priority to CN202210492295.3A priority Critical patent/CN114943861A/zh
Publication of CN114943861A publication Critical patent/CN114943861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明公开了一种基于模拟退火的扩展孤立森林的异常检测方法及系统,本发明从EIF算法泛化能力弱、构建了冗余的iTree导致算法的时间开销较大等问题入手,根据选择性集成思想提出一种基于模拟退火的扩展孤立森林方法,对构建EIF的iTree使用了择优再组合的集成方法,最终在ODDS异常检测数据集中的实验结果表明,SA‑ELF算法较EIF算法提升了约5%的检测精度,减少了约30%的时间开销;同时,与iForest相比,本发明改善了iForest对于局部异常点检测不敏感的问题。

Description

一种基于模拟退火的扩展孤立森林的异常检测方法及系统
技术领域
本发明涉及数据挖掘,特别是一种基于模拟退火的扩展孤立森林的异常检测方法及系统。
背景技术
在数据挖掘中,异常检测是指对不符合预期模式的样本进行识别,从数据集中识别出与大多数样本差异较大的对象。异常点也被称为离群值、噪声和偏差等通常被认为是与其他数据点明显不同或不符合整体预期正常模式的数据点异常检测是数据挖掘领域中一个重要的方面,被广泛应用于各个领域。例如,在医学领域中,异常数据可能意味着禽流感等传染类疾病的预警,而在天文领域中,异常数据则可能标志着新星的发现。因此,异常数据可能具备和正常数据相等的科学价值。
虽然异常目前在关键技术上已经有所突破,但它仍存在许多问题,如局部异常点不敏感的问题。根据异常检测所使用技术的不同,分为基于连接函数的异常检测方法,基于距离的异常检测方法,基于密度评估的异常检测方法等。在基于密度评估的局部异常检测方法中,解决了数据倾斜分布下的异常检测问题,基于密度评估的局部离群因子检测方法通过计算局部可达密度来得到每一个样本点的局部离群因子,最后根据阈值判断该样本点是否异常,取得了较好的结果,但是,基于密度评估的局部异常检测方法时间复杂度均在O(n2),这种方法在大规模数据集上的计算成本很高。同时,因为数据相似度的计算离不开距离计算,所以可能会面临距离计算上的“维数灾难”问题。随着大数据时代的到来,数据集的数量和维度呈爆炸式增长,基于此,设计出在高维数据集上表现良好的异常检测算法具有重要意义。
发明内容
发明目的:本发明的目的是提供一种基于模拟退火的扩展孤立森林的异常检测方法及系统,从而在保证精度的同时减少时间成本。
技术方案:本发明所述的一种基于模拟退火的扩展孤立森林的异常检测方法,包括以下步骤:
S1、数据采集:通过离群值检测数据库收集其中的真实数据集,所述数据集包括低维数据集和高维数据集,样本数量较少的数据集和样本数量较多的数据集;
S2、数据预处理:对于样本数量较少的数据集Lympho,则采用10折交叉验证求平均值的方法进行实验,对于其他数据集则采用5折交叉验证法;设置iTree的初始参数,构建L棵iTree组成初始EIF,使用数据集对参与集成的L棵iTree进行训练,基于Q-统计量法计算iTree之间的平均差异值,再根据K折交叉验证法计算每棵iTree的精度值;
S3、结合模拟退火算法构建EIF:结合模拟退火算法从L棵iTree中选出k棵检测性能较优的iTree构建EIF;算法重复执行“产生新解→计算目标函数差→判断是否接受新解→接受或舍弃”的迭代过程,如果满足终止条件则终止上述过程,并输出当前选择的iTree;否则,减小控制参数t的值,并重复上述过程;最终使用从T棵iTree中选择的k棵iTree来构建EIF;
S4、结果评测:对测试集X使用构建的EIF进行检测,根据实例x在每棵iTree中的平均路径长度E(h(x))计算其异常分数S(x,ψ)。
所述步骤S3具体为:
S3.1、首先初始化参数:设初始温度t=t0,结束温度t',Metropolis链的长度即任意温度的迭代次数C,任取一棵iTree作为初解Ti
S3.2、产生新解:基于当前温度t的大小,随机扰动产生一个新解Tj
S3.3、计算目标函数差:Δf=F(Tj-F(Ti);其中,F(Ti),F(Tj)分别为树Ti和Tj的适应度值;
S3.4、判断是否接受新解:根据Metropolis接受准则,若Δf<0,则接受Tj作为新的当前解;否则以概率
Figure BDA0003632112920000021
接受Tj作为新的当前解,其中,k是玻尔兹曼常数;
S3.5、判断在当前温度t下,是否达到迭代次数C,若不满足迭代次数,则返回至S3.2;
S3.6、当满足模拟退火算法规定的终止条件,则返回当前解为最优解;终止条件如下:A、连续若干个Metropolis中都没有新解被采用;B、t≤t',即当前温度t小于等于设定的结束温度t',若不满足终止条件,则根据温度衰减函数缓慢降低当前温度t,并返回至S3.2,衰减函数如公式(1)所示:
Figure BDA0003632112920000031
S3.7、最终从T棵iTree中筛选出k(k≤L)棵检测性能较优的iTree构建EIF。
步骤S4中对于异常分数的评估指标如下:
A、E(h(x))→n-1,s→0,说明x平均路径越长,越不容易被孤立,越有可能为正常点;
B、E(h(x))→0,s→1,说明x越容易被孤立,越有可能为异常点;
C、E(h(x))→c(ψ),s→0.5,说明实例x的平均路径长度E(h(x))与iTree中查找点失败的平均路径c(ψ)相近,则x可能为异常点,也可能为正常点。
一种基于模拟退火的扩展孤立森林的异常检测系统,所述系统采用了上述的一种基于模拟退火的扩展孤立森林的异常检测方法,所述系统包括以下模块:
数据采集模块:主要负责通过爬虫技术在数据平台进行数据爬取。
预处理模块:主要负责对采集到的数据进行筛选过滤,选择符合要求的数据进行下一步的处理分析。
数据处理模块:结合模拟退火算法构建EIF,对预处理的数据进行算法迭代操作后,选择一定数量的iTree来构建EIF。
结果评测模块:计算数据处理后的平均路径长度与异常分数,从而判定是否为异常点。
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于模拟退火的扩展孤立森林的异常检测方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于模拟退火的扩展孤立森林的异常检测方法。
有益效果:与现有技术相比,本发明具有如下优点:本发明从EIF算法泛化能力弱、构建了冗余的iTree导致算法的时间开销较大等问题入手,根据选择性集成思想提出一种基于模拟退火的扩展孤立森林方法,对构建EIF的iTree使用了择优再组合的集成方法,最终在ODDS异常检测数据集中的实验结果表明,SA-ELF算法较EIF算法提升了约5%的检测精度,减少了约30%的时间开销;同时,与iForest相比,本发明改善了iForest对于局部异常点检测不敏感的问题。
附图说明
图1为本发明的EIF三维数据集中每个扩展等级的孤立超平面图;其中,图1(a)为Ex 2,图1(b)为Ex 1,图1(c)为Ex 0;
图2为本发明的SA-EIF核心算法流程图;
图3为本发明的高斯分布数据集上异常分数等高图;其中,图3(a)为iForest异常分数等高图,图3(b)为SA-EIF异常分数等高图;
图4为本发明的SA-EIF在不同参数k下的时间开销图;
图5为本发明的SA-EIF在不同参数k下AUC的标准差图
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
一种基于模拟退火的扩展孤立森林的异常检测方法,包括以下步骤:
S1、数据采集:通过离群值检测数据库收集其中的真实数据集,如表1所示,所述数据集包括低维数据集和高维数据集,样本数量较少的数据集和样本数量较多的数据集。
表1 ODDS异常数据集
数据集 样本数量 维度 异常值占比/%
Lympho 148 18 4.10
Arrhythmia 452 274 15.00
Cardio 1831 21 9.60
Satellite 6435 36 32.00
Mammography 11183 6 2.32
Http 567479 3 0.40
S2、数据预处理:对于样本数量较少的数据集Lympho,则采用10折交叉验证求平均值的方法进行实验,对于其他数据集则采用5折交叉验证法;设置iTree的初始参数,构建L棵iTree组成初始EIF,使用数据集对参与集成的L棵iTree进行训练,基于Q-统计量法计算iTree之间的平均差异值,再根据K折交叉验证法计算每棵iTree的精度值。
S3、结合模拟退火算法构建EIF:结合模拟退火算法从L棵iTree中选出k棵检测性能较优的iTree构建EIF;算法重复执行“产生新解→计算目标函数差→判断是否接受新解→接受或舍弃”的迭代过程,如果满足终止条件则终止上述过程,并输出当前选择的iTree;否则,减小控制参数t的值,并重复上述过程;最终使用从T棵iTree中选择的k棵iTree来构建EIF;该步骤的算法流程如图2所示。
所述步骤S3具体为:
S3.1、首先初始化参数:设初始温度t=t0,结束温度t',Metropolis链的长度即任意温度的迭代次数C,任取一棵iTree作为初解Ti
S3.2、产生新解:基于当前温度t的大小,随机扰动产生一个新解Tj
S3.3、计算目标函数差:Δf=F(Tj-F(Ti);其中,F(Ti),F(Tj)分别为树Ti和Tj的适应度值;
S3.4、判断是否接受新解:根据Metropolis接受准则,若Δf<0,则接受Tj作为新的当前解;否则以概率
Figure BDA0003632112920000051
接受Tj作为新的当前解,其中,k是玻尔兹曼常数;
S3.5、判断在当前温度t下,是否达到迭代次数C,若不满足迭代次数,则返回至S3.2;
S3.6、当满足模拟退火算法规定的终止条件,则返回当前解为最优解;终止条件如下:A、连续若干个Metropolis中都没有新解被采用;B、t≤t',即当前温度t小于等于设定的结束温度t',若不满足终止条件,则根据温度衰减函数缓慢降低当前温度t,并返回至S3.2,衰减函数如公式(1)所示:
Figure BDA0003632112920000052
S3.7、最终从T棵iTree中筛选出k(k≤L)棵检测性能较优的iTree构建EIF。
S4、结果评测:对测试集X使用构建的EIF进行检测,根据实例x在每棵iTree中的平均路径长度E(h(x))计算其异常分数S(x,ψ)。
步骤S4中对于异常分数的评估指标如下:
A、E(h(x))→n-1,s→0,说明x平均路径越长,越不容易被孤立,越有可能为正常点;
B、E(h(x))→0,s→1,说明x越容易被孤立,越有可能为异常点;
C、E(h(x))→c(ψ),s→0.5,说明实例x的平均路径长度E(h(x))与iTree中查找点失败的平均路径c(ψ)相近,则x可能为异常点,也可能为正常点。
一种基于模拟退火的扩展孤立森林的异常检测系统,所述系统采用了上述的一种基于模拟退火的扩展孤立森林的异常检测方法,所述系统包括以下模块:
数据采集模块:主要负责通过爬虫技术在数据平台进行数据爬取。
预处理模块:主要负责对采集到的数据进行筛选过滤,选择符合要求的数据进行下一步的处理分析。
数据处理模块:结合模拟退火算法构建EIF,对预处理的数据进行算法迭代操作后,选择一定数量的iTree来构建EIF。
结果评测模块:计算数据处理后的平均路径长度与异常分数,从而判定是否为异常点。
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于模拟退火的扩展孤立森林的异常检测方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于模拟退火的扩展孤立森林的异常检测方法。
本发明的方法在AUC评价指标中均优于EIF,具体提升约5%。而在较小规模的数据集中,LOF的检测精度要高于其他3种算法,SA-EIF方法的检测精度与EIF总体上差别很小,这是因为数据集分布较为稀疏因此易于划分。而对于异常点较多的Satellite数据集,由于异常数据的增多并且分布更加密集,SA-EIF的分类效果均优于其他3种算法。因为SA-EIF基于模拟退火选择了精度高且差异度高的iTree构建集成学习模型,使得最终的集成分类效果更好,具体如表2所示。
表2在不同数据集上检测的AUC值
Figure BDA0003632112920000061
Figure BDA0003632112920000071
本发明的方法由于构建时舍弃了部分检测性能较差的iTree,减少了测试时的计算消耗,因此SA-EIF在各类型数据集上的执行效率均高于EIF算法。根据SA-EIF构建时选择iTree的数量,较EIF算法减少了约20%~40%的计算成本。随着数据量的增大,因为SA-EIF和EIF在构建过程中会进行部分向量间运算,所以在时间开销上均劣于iForest。在高维度的数据集上,LOF的时间开销均高于其他3种算法,因为LOF是一种基于密度评估的算法,数据集维度的增加会导致距离计算的时间复杂度随之增加。而其他三种算法的孤立机制对于数据集的维数不具依赖性,在高维数据集中也具有线性的复杂度,具体如表3所示。
表3在不同数据集上的执行时间
Figure BDA0003632112920000072
本发明的方法和iForest在异常检测能力进行对比,如图3所示,可以直观的看出该方法改善了iForest对于局部异常点不敏感的问题。图4与图5表明了本方法选取k棵iTree构建EIF的重要参数k,观察k的变化对算法预测结果的影响。SA-EIF参数k值设置过低虽然可以大幅减少EIF的时间开销,但会导致最终的集成学习模型不收敛,导致欠拟合,算法的稳定降低。

Claims (6)

1.一种基于模拟退火的扩展孤立森林的异常检测方法,其特征在于,包括以下步骤:
S1、数据采集:通过离群值检测数据库收集其中的真实数据集,所述数据集包括低维数据集和高维数据集,样本数量较少的数据集和样本数量较多的数据集;
S2、数据预处理:对于样本数量较少的数据集Lympho,则采用10折交叉验证求平均值的方法进行实验,对于其他数据集则采用5折交叉验证法;设置iTree的初始参数,构建L棵iTree组成初始EIF,使用数据集对参与集成的L棵iTree进行训练,基于Q-统计量法计算iTree之间的平均差异值,再根据K折交叉验证法计算每棵iTree的精度值;
S3、结合模拟退火算法构建EIF:结合模拟退火算法从L棵iTree中选出k棵检测性能较优的iTree构建EIF;算法重复执行“产生新解→计算目标函数差→判断是否接受新解→接受或舍弃”的迭代过程,如果满足终止条件则终止上述过程,并输出当前选择的iTree;否则,减小控制参数t的值,并重复上述过程;最终使用从T棵iTree中选择的k棵iTree来构建EIF;
S4、结果评测:对测试集X使用构建的EIF进行检测,根据实例x在每棵iTree中的平均路径长度E(h(x))计算其异常分数S(x,ψ)。
2.根据权利要求1所述的一种基于模拟退火的扩展孤立森林的异常检测方法,其特征在于,所述步骤S3具体为:
S3.1、首先初始化参数:设初始温度t=t0,结束温度t',Metropolis链的长度即任意温度的迭代次数C,任取一棵iTree作为初解Ti
S3.2、产生新解:基于当前温度t的大小,随机扰动产生一个新解Tj
S3.3、计算目标函数差:Δf=F(Tj-F(Ti);其中,F(Ti),F(Tj)分别为树Ti和Tj的适应度值;
S3.4、判断是否接受新解:根据Metropolis接受准则,若Δf<0,则接受Tj作为新的当前解;否则以概率
Figure FDA0003632112910000011
接受Tj作为新的当前解,其中,k是玻尔兹曼常数;
S3.5、判断在当前温度t下,是否达到迭代次数C,若不满足迭代次数,则返回至S3.2;
S3.6、当满足模拟退火算法规定的终止条件,则返回当前解为最优解;终止条件如下:A、连续若干个Metropolis中都没有新解被采用;B、t≤t',即当前温度t小于等于设定的结束温度t',若不满足终止条件,则根据温度衰减函数缓慢降低当前温度t,并返回至S3.2,衰减函数如公式(1)所示:
Figure FDA0003632112910000021
S3.7、最终从T棵iTree中筛选出k(k≤L)棵检测性能较优的iTree构建EIF。
3.根据权利要求1所述的一种基于模拟退火的扩展孤立森林的异常检测方法,其特征在于,步骤S4中对于异常分数的评估指标如下:
A、E(h(x))→n-1,s→0,说明x平均路径越长,越不容易被孤立,越有可能为正常点;
B、E(h(x))→0,s→1,说明x越容易被孤立,越有可能为异常点;
C、E(h(x))→c(ψ),s→0.5,说明实例x的平均路径长度E(h(x))与iTree中查找点失败的平均路径c(ψ)相近,则x可能为异常点,也可能为正常点。
4.一种基于模拟退火的扩展孤立森林的异常检测系统,所述系统采用了如权利要求1~3中任一项所述的一种基于模拟退火的扩展孤立森林的异常检测方法,其特征在于,所述系统包括以下模块:
数据采集模块:主要负责通过爬虫技术在数据平台进行数据爬取;
预处理模块:主要负责对采集到的数据进行筛选过滤,选择符合要求的数据进行下一步的处理分析;
数据处理模块:结合模拟退火算法构建EIF,对预处理的数据进行算法迭代操作后,选择一定数量的iTree来构建EIF;
结果评测模块:计算数据处理后的平均路径长度与异常分数,从而判定是否为异常点。
5.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~3中任一项所述的一种基于模拟退火的扩展孤立森林的异常检测方法。
6.一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~3中任一项所述的一种基于模拟退火的扩展孤立森林的异常检测方法。
CN202210492295.3A 2022-05-07 2022-05-07 一种基于模拟退火的扩展孤立森林的异常检测方法及系统 Pending CN114943861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210492295.3A CN114943861A (zh) 2022-05-07 2022-05-07 一种基于模拟退火的扩展孤立森林的异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210492295.3A CN114943861A (zh) 2022-05-07 2022-05-07 一种基于模拟退火的扩展孤立森林的异常检测方法及系统

Publications (1)

Publication Number Publication Date
CN114943861A true CN114943861A (zh) 2022-08-26

Family

ID=82906997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210492295.3A Pending CN114943861A (zh) 2022-05-07 2022-05-07 一种基于模拟退火的扩展孤立森林的异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN114943861A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457414B (zh) * 2022-09-15 2023-05-05 西华大学 一种基于改进残差网络的无人机异常行为识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426207A (zh) * 2017-07-21 2017-12-01 哈尔滨工程大学 一种基于SA‑iForest的网络入侵异常检测方法
US20200231466A1 (en) * 2017-10-09 2020-07-23 Zijun Xia Intelligent systems and methods for process and asset health diagnosis, anomoly detection and control in wastewater treatment plants or drinking water plants
CN113887625A (zh) * 2021-09-30 2022-01-04 未鲲(上海)科技服务有限公司 基于随机森林的产品复投预测方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426207A (zh) * 2017-07-21 2017-12-01 哈尔滨工程大学 一种基于SA‑iForest的网络入侵异常检测方法
US20200231466A1 (en) * 2017-10-09 2020-07-23 Zijun Xia Intelligent systems and methods for process and asset health diagnosis, anomoly detection and control in wastewater treatment plants or drinking water plants
CN113887625A (zh) * 2021-09-30 2022-01-04 未鲲(上海)科技服务有限公司 基于随机森林的产品复投预测方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈佳;欧阳金源;冯安琪;吴远;钱丽萍;: "边缘计算构架下基于孤立森林算法的DoS异常检测", 计算机科学, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457414B (zh) * 2022-09-15 2023-05-05 西华大学 一种基于改进残差网络的无人机异常行为识别方法

Similar Documents

Publication Publication Date Title
Xu et al. Bayesian variable selection and estimation for group lasso
Xiao et al. A novel approach for analog fault diagnosis based on neural networks and improved kernel PCA
CN111000553B (zh) 一种基于投票集成学习的心电数据智能分类方法
Liquet et al. Bayesian variable selection regression of multivariate responses for group data
Alagukumar et al. A selective analysis of microarray data using association rule mining
Kim et al. Spiked Dirichlet process prior for Bayesian multiple hypothesis testing in random effects models
CN114943861A (zh) 一种基于模拟退火的扩展孤立森林的异常检测方法及系统
CN112860819A (zh) 一种基于邻域条件互信息的交互特征选择方法
Saha et al. Application of data mining in protein sequence classification
Risvik Principal component analysis (PCA) & NIPALS algorithm
CN114443338A (zh) 面向稀疏负样本的异常检测方法、模型构建方法及装置
Yuan et al. Sparse structural feature selection for multitarget regression
Das et al. Missing value imputation–A review
CN107220346B (zh) 一种高维不完整数据特征选择方法
Deng et al. EXAMINE: A computational approach to reconstructing gene regulatory networks
Sun et al. A class of accelerated means regression models for recurrent event data
Gadepally et al. Sampling operations on big data
CN116429426A (zh) 一种多域特征融合的轴承故障诊断方法、装置及介质
Ferenci et al. Using total correlation to discover related clusters of clinical chemistry parameters
Soni et al. Data mining based dimensionality reduction techniques
Huang et al. KalmanAE: Deep Embedding optimized Kalman Filter for Time Series Anomaly Detection
Lv et al. A dynamic programming Bayesian network structure learning algorithm based on mutual information
Bisonga et al. A Comparative Study of Bayesian Stochastic Search Variable Selection Approach in Multiple Linear Regression
Poornima et al. An efficient feature selection and classification for the crop field identification: A hybridized wrapper based approach
Lu et al. A Self-Adaptive Grey DBSCAN Clustering Method.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination