CN109800900A - 一种将孤立森林算法模块化与可视化的方法 - Google Patents
一种将孤立森林算法模块化与可视化的方法 Download PDFInfo
- Publication number
- CN109800900A CN109800900A CN201811403542.8A CN201811403542A CN109800900A CN 109800900 A CN109800900 A CN 109800900A CN 201811403542 A CN201811403542 A CN 201811403542A CN 109800900 A CN109800900 A CN 109800900A
- Authority
- CN
- China
- Prior art keywords
- iforest
- data
- prediction
- module
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007794 visualization technique Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000012800 visualization Methods 0.000 claims abstract description 5
- 230000005856 abnormality Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种将孤立森林算法模块化与可视化的方法,包括如下步骤:(1)将iforest算法模块化;将iforest算法分为两个阶段即训练和预测,将训练iforest过程独立为一个模块为训练iforest算法模块,将预测iforest过程独立为一个模块为预测iforest算法模块,同时增加了评估指标作为评估iforest算法好坏的一个模块为评估iforest算法模块;(2)将iforest算法每一个模块的结果可视化;将步骤(1)中的三个模块对应的输出依次做到可视化,训练iforest算法模块将训练好的模型存储,预测iforest算法模块的输出在数据图展示出来,包括预测的标签,评估iforest算法模块将评价的指标展示出来。本发明能够实现iforest算法训练和预测的分离,在此基础上加入了评估算子,评估算法的性能,同时将每个模块对应的输出可视化。
Description
技术领域
本发明涉及异常检测技术领域,尤其是一种将孤立森林算法模块化与可视化的方法。
背景技术
异常检测算法已有常用的几个流行算法,如LOF算法、COF算法和DBSCAN算法,只是算法模块化和可视化的方法并没有出现。
随着数据挖掘技术的发展,异常检测的方法也日趋成熟,如何能明了的看到检测的结果是一个业务需求,同时为了业务性能的需要,需要简化没有必要的模型训练,这就体现出模块化的重要性。目前,还没有成熟实现的异常检测模块化和可视化的方法。
发明内容
本发明所要解决的技术问题在于,提供一种将孤立森林算法模块化与可视化的方法,能够实现iforest算法训练和预测的分离,在此基础上加入了评估算子,评估算法的性能,同时将每个模块对应的输出可视化。
为解决上述技术问题,本发明提供一种将孤立森林算法模块化与可视化的方法,包括如下步骤:
(1)将iforest算法模块化;将iforest算法分为两个阶段即训练和预测,将训练iforest过程独立为一个模块为训练iforest算法模块,将预测iforest过程独立为一个模块为预测iforest算法模块,同时增加了评估指标作为评估iforest算法好坏的一个模块为评估iforest算法模块;
(2)将iforest算法每一个模块的结果可视化;将步骤(1)中的三个模块对应的输出依次做到可视化,训练iforest算法模块将训练好的模型存储,预测iforest算法模块的输出在数据图展示出来,包括预测的标签,评估iforest算法模块将评价的指标展示出来。
优选的,步骤(1)中,训练iforest算法模块根据对应的数据训练出适用于该类数据的预测的模型;预测iforest算法模块输入要预测的数据以及与该数据匹配的训练好的模型即可预测数据的异常性,并给出标签;评估iforest算法模块以预测结果作为输入可以计算出多个评价指标,用来说明算法的效果。
优选的,步骤(2)中,训练iforest算法模块用于训练数据,对指定属性的列进行训练,训练的主要参数包括随机种子、参数样本数、样本选取方式、建树的棵树、异常所占比例,训练iforest算法模块设置这些参数接口,参数设置完成后提交。
优选的,步骤(2)中,预测iforest算法模块,直接对数据进行异常预测,输出结果为表的形式,在被预测的原始数据的每一行添加了label列,其中1表示该行数据为异常,0表示正常;输入为已经存在的模型和要被预测的数据,算法需要被预测的数据需要与训练数据类型一致。
优选的,步骤(2)中,评估iforest算法模块对预测的结果进行评价,被预测的数据属于无标签的数据,即训练和预测是无监督的过程,该模块需要输入的是已经给出标签的预测数据,输出为五个指标,评价指标会根据预测数据的分布来给出预测结果的合理性。
本发明的有益效果为:根据算子的模块化,可以将训练、预测以及评估iforest算子三个功能分开,这样就节省了每次训练的时间,在不必要的时候直接对数据进行预测,或者对预测结果进行评估,提高了效率;同时三个算子的可操作性很强,即使没有理论基础,依然可以对数据进行训练、预测或者评估,降低了使用要求;可视化算子的结果使得结果数据直观的展示出来,增强算法的可信度。
附图说明
图1为本发明的三个算子模块化示意图。
图2为本发明的三个算子结果输出的可视化示意图。
具体实施方式
如图1所示,一种将孤立森林算法模块化与可视化的方法,包括如下步骤:
(1)将iforest算法模块化;
iforest算法分为两个阶段即训练和预测,所以将训练iforest过程独立为一个模块,将预测iforest过程独立为一个模块,同时增加了评估指标作为评估iforest算法效果的一个模块。
(2)将iforest算法三个模块的输出可视化。
将步骤(1)中的三个模块对应的输出依次做到可视化(训练模块为保存模型)。训练iforest算法将训练好的模型存储;预测iforest算子的输出可以在数据图展示出来,包括预测的标签;评估iforest算子将评价的指标展示出来。
独立的训练iforest算法模块用于训练数据,该模块可以支持传入数据的选择,即对指定属性的列进行训练,训练的主要参数包括随机种子、参数样本数、样本选取方式、建树的棵树、异常所占比例,该模块设置这些参数接口,参数设置完成,提交即可。
预测iforest算子模块,直接对数据进行异常预测,输出结果为表的形式,在被预测的原始数据的每一行添加了label列,其中1表示该行数据为异常,0表示正常。在该模块输入为已经存在的模型和要被预测的数据,算法需要被预测的数据需要与训练数据类型一致,否则预测没有意义。
评估iforest算子模块是对预测的结果进行评价,被预测的数据属于无标签的数据,即训练和预测是无监督的过程,该模块需要输入的是已经给出标签的预测数据,输出为五个指标。评价指标会根据预测数据的分布来给出预测结果的合理性。
训练iforest算法部分,有属性列、设定随机数、是否放回、样本数、训练树棵树、决策回归模型名和是否覆盖七个参数。属性列为可选择参数,需要选择参加训练的数据列,该数据列是从由前置算子传递过来的数据中选择,增加了数据选择的灵活性;设定随机数为填写参数,该参数控制训练模型建立根节点时数据点的随机选择;是否放回参数为布尔参数,选择是即从所有数据中采取放回式抽样(主要在数据量不足以建立稳定森林的时候使用),选择否即从所有数据中采取无放回式抽样,这样可以更好的采取到多样性的样本,利于良好模型的建立;样本数为填写参数,该参数为建立森林中的树需要用到的样本数,一般选用256,在数据量不足的情况下,可适当以除以2的级数降低;训练树棵数为填写参数,该参数森林中构建树的棵数,实验验证显示该参数在50以上模型趋于稳定;决策回归模型名为填写参数,是为模型定义的名字,在该平台可以利用宏参变量作为模型名字的一部分以免于模型名重复;是否覆盖为布尔参数,该参数控制生成的新模型是否要覆盖同一个目录下重名的模型,按需选择。
训练iforest模型的上述参数都是该专利利用平台模块化功能将原始算法的参数提取出来的,使得模型训练更加易于理解,且灵活可用。
测试iforest算子模块,有模型保存路径、模型名称和预测数据列三个参数。如果测试iforest模块跟在训练模块之后,系统会自动将路径和模型名称带过来,只需要选择被测试数据的属性列;如果单独使用测试iforest模块,需要选择模型路径和模型名称以及属性列。
评估iforest算子模块选择属性列和标签列为输入,计算出四个指标用来衡量算法的优劣。
本发明能够实现iforest算法训练和预测的分离,在此基础上加入了评估算子,评估算法的性能,同时将每个模块对应的输出可视化。
Claims (5)
1.一种将孤立森林算法模块化与可视化的方法,其特征在于,包括如下步骤:
(1)将iforest算法模块化;将iforest算法分为两个阶段即训练和预测,将训练iforest过程独立为一个模块为训练iforest算法模块,将预测iforest过程独立为一个模块为预测iforest算法模块,同时增加了评估指标作为评估iforest算法好坏的一个模块为评估iforest算法模块;
(2)将iforest算法每一个模块的结果可视化;将步骤(1)中的三个模块对应的输出依次做到可视化,训练iforest算法模块将训练好的模型存储,预测iforest算法模块的输出在数据图展示出来,包括预测的标签,评估iforest算法模块将评价的指标展示出来。
2.如权利要求1所述的将孤立森林算法模块化与可视化的方法,其特征在于,步骤(1)中,训练iforest算法模块根据对应的数据训练出适用于该类数据的预测的模型;预测iforest算法模块输入要预测的数据以及与该数据匹配的训练好的模型即可预测数据的异常性,并给出标签;评估iforest算法模块以预测结果作为输入可以计算出多个评价指标,用来说明算法的效果。
3.如权利要求1所述的将孤立森林算法模块化与可视化的方法,其特征在于,步骤(2)中,训练iforest算法模块用于训练数据,对指定属性的列进行训练,训练的主要参数包括随机种子、参数样本数、样本选取方式、建树的棵树、异常所占比例,训练iforest算法模块设置这些参数接口,参数设置完成后提交。
4.如权利要求1所述的将孤立森林算法模块化与可视化的方法,其特征在于,步骤(2)中,预测iforest算法模块,直接对数据进行异常预测,输出结果为表的形式,在被预测的原始数据的每一行添加了label列,其中1表示该行数据为异常,0表示正常;输入为已经存在的模型和要被预测的数据,算法需要被预测的数据需要与训练数据类型一致。
5.如权利要求1所述的将孤立森林算法模块化与可视化的方法,其特征在于,步骤(2)中,评估iforest算法模块对预测的结果进行评价,被预测的数据属于无标签的数据,即训练和预测是无监督的过程,该模块需要输入的是已经给出标签的预测数据,输出为五个指标,评价指标会根据预测数据的分布来给出预测结果的合理性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403542.8A CN109800900A (zh) | 2018-11-23 | 2018-11-23 | 一种将孤立森林算法模块化与可视化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811403542.8A CN109800900A (zh) | 2018-11-23 | 2018-11-23 | 一种将孤立森林算法模块化与可视化的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109800900A true CN109800900A (zh) | 2019-05-24 |
Family
ID=66556340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811403542.8A Pending CN109800900A (zh) | 2018-11-23 | 2018-11-23 | 一种将孤立森林算法模块化与可视化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800900A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026925A (zh) * | 2019-11-29 | 2020-04-17 | 中电福富信息科技有限公司 | 一种基于Flink的孤立森林算法并行化的异常检测方法及装置 |
CN112541981A (zh) * | 2020-11-03 | 2021-03-23 | 山东中创软件商用中间件股份有限公司 | 一种etc门架系统预警方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于机器学习的系统及学习方法 |
CN108199795A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种设备状态的监测方法和装置 |
CN108710520A (zh) * | 2018-05-11 | 2018-10-26 | 中国联合网络通信集团有限公司 | 数据的可视化方法、装置、终端及计算机可读存储介质 |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
-
2018
- 2018-11-23 CN CN201811403542.8A patent/CN109800900A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844836A (zh) * | 2017-10-24 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于机器学习的系统及学习方法 |
CN108199795A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种设备状态的监测方法和装置 |
CN108710520A (zh) * | 2018-05-11 | 2018-10-26 | 中国联合网络通信集团有限公司 | 数据的可视化方法、装置、终端及计算机可读存储介质 |
CN108777873A (zh) * | 2018-06-04 | 2018-11-09 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026925A (zh) * | 2019-11-29 | 2020-04-17 | 中电福富信息科技有限公司 | 一种基于Flink的孤立森林算法并行化的异常检测方法及装置 |
CN112541981A (zh) * | 2020-11-03 | 2021-03-23 | 山东中创软件商用中间件股份有限公司 | 一种etc门架系统预警方法、装置、设备及介质 |
CN112541981B (zh) * | 2020-11-03 | 2022-07-22 | 山东中创软件商用中间件股份有限公司 | 一种etc门架系统预警方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11916379B2 (en) | Validating power network models for monitoring and correcting operation of electric power networks | |
CN107621934A (zh) | 基于组件化、图形化算子的评估指标计算方法及装置 | |
CN109061341A (zh) | 基于神经网络的卡尔曼滤波变压器故障预测方法和系统 | |
CN102735485B (zh) | 挖掘机以及确定设备故障的方法、系统 | |
CN109800900A (zh) | 一种将孤立森林算法模块化与可视化的方法 | |
Amershi et al. | Cuet: human-guided fast and accurate network alarm triage | |
CN111401722B (zh) | 智能决策方法和智能决策系统 | |
CN110020905A (zh) | 一种数据化选品的方法、装置及系统 | |
CN106462655A (zh) | 用于计算机化临床诊断支持的分层自学习系统 | |
CN108255707A (zh) | 测试用例的开发角色创建方法、装置、设备及存储介质 | |
CN109272215A (zh) | 项目开发质量监控方法、装置、计算机设备及存储介质 | |
CN110097216A (zh) | 用于企业发展的预测方法以及装置、服务器 | |
CN108780312A (zh) | 用于使用路径追踪针对装配线的根本原因分析的方法和系统 | |
CN110232405A (zh) | 用于个人信用评估的方法及装置 | |
CN109582559A (zh) | 系统的验证方法、装置、电子设备及存储介质 | |
CN111190759A (zh) | 一种基于功能与故障模式的混合诊断策略生成方法 | |
CN108920718A (zh) | 用于电力变压器绕组直流电阻试验数据现场处理的模板系统、实现方法及操作方法 | |
CN109978179A (zh) | 模型训练方法、装置、电子设备及可读存储介质 | |
CN109583749B (zh) | 一种基于动态规划的软件研制成本智能控制方法及系统 | |
CN105335266A (zh) | 用于确定被检测设备的故障的方法 | |
CN104021083B (zh) | 测试方法及装置 | |
CN105743720B (zh) | 一种链路质量评估方法及其装置 | |
CN105975449B (zh) | 电力企业技术标准差异化检测方法 | |
JP2008102624A (ja) | 指揮統制システムの評価方法及びこれを用いたシミュレーションシステム | |
CN109726087A (zh) | 多网页方案测试方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190524 |
|
RJ01 | Rejection of invention patent application after publication |