CN113392914A - 一种基于数据特征的权重来构建孤立森林的异常检测算法 - Google Patents

一种基于数据特征的权重来构建孤立森林的异常检测算法 Download PDF

Info

Publication number
CN113392914A
CN113392914A CN202110692927.6A CN202110692927A CN113392914A CN 113392914 A CN113392914 A CN 113392914A CN 202110692927 A CN202110692927 A CN 202110692927A CN 113392914 A CN113392914 A CN 113392914A
Authority
CN
China
Prior art keywords
data
isolated
weight
characteristic weight
forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110692927.6A
Other languages
English (en)
Other versions
CN113392914B (zh
Inventor
张永军
谢炎昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110692927.6A priority Critical patent/CN113392914B/zh
Publication of CN113392914A publication Critical patent/CN113392914A/zh
Application granted granted Critical
Publication of CN113392914B publication Critical patent/CN113392914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Image Analysis (AREA)

Abstract

本文公开了一种基于数据特征的权重来构建孤立森林的异常检测算法。该方法主要包括:通过终端设备实时采集待检测数据;对待检测数据进行特征的提取并通过熵权法计算特征权重;将采集数据作为训练集进行训练,根据特征的不同权重完成孤立树的构建并组合成为孤立森林;将采集数据作为测试数据输入孤立森林模型,得到其在每颗孤立树的路径长度,并根据权重来进行计算总得路径长度;通过路径长度计算出异常得分,与设置的阈值进行比较来判断是否异常。本发明通过为不同的特征引入不同的权重,并根据权重来建立模型和计算异常得分,异常检测效果提高明显。

Description

一种基于数据特征的权重来构建孤立森林的异常检测算法
技术领域
本发明涉及机器学习模型优化以及异常数据检测领域,具体涉及一种基于数据特征的权重来构建孤立森林的异常检测方法。
背景技术
在机器学习异常检测领域,怎样快速准确的对异常数据进行检测一直都是研究的重点。传统中,人工盯看监控大盘来监控数据的方式效率不仅低下,还对应着巨大的人力成本。而现存的监控数据自动监控需要管理员去挨个配置各个环境数据的合理范围,超出合理范围的会触发告警系统。但管理员对数据的合理波动范围往往并不全都清楚,随着监控设备的陡增,这项工作量也变得非常大。
现有的基于无监督学习算法的代表是孤立森林算法。首先,对训练数据集进行预处理和特征提取;然后进行孤立树的构建,构建方法是在特征集中随机选取一个特征,然后在训练数据集中该特征下的最大值和最小值间随机选择一个分割值,通过这个分割值来对数据进行划分从而构建左右子树,直到数据无法被划分或者已经达到树高限制,这种划分方式会使异常数据点在孤立树中的更靠近根节点,通过合并孤立树完成孤立森林的构建;最后计算测试数据在每个孤立树中路径长度,通过路径长度计算出异常得分,根据异常得分来判断数据是否异常。
上面传统孤立森林方法存在以下几个问题:i)数据的不同特征对于其是否异常的影响程度不同,对异常影响程度较大的应该具有更大的概率被选取作为分割特征来划分数据集,所以随机选取特征的方式会孤立树的质量变低,进而影响到算法的检测性能;ii)当不同特征对异常的影响程度不同时,权重越大的特征所代表的路径长度应该越短,不能简单的视为加一操作。
针对以上问题,本发明提出新的技术方案,包括在模型训练阶段根据特征权重来选取分割特征和在异常检测阶段根据分割特征计算路径长度。
发明内容
本发明主要解决的技术问题是提供一种基于数据特征的权重来构建孤立森林的异常检测方法,能够提升模型的异常检测效果。该方法的流程如下:
步骤S1:通过终端设备实时采集待检测数据,形成一个训练数据集合;
步骤S2:对训练数据集进行特征的提取和权重的计算;
步骤S3:根据特征权重进行孤立森林的构建;
步骤S4:根据特征权重来计算测试数据在孤立森林中的异常得分;
发明的算法1如下
Figure BDA0003127400560000021
Figure BDA0003127400560000031
算法1为孤立树的训练过程,其中,输入X为用水量时序数据的子样本集,e表示孤立树的当前高度,初始值为0,l表示的是限定孤立树的最大高度,Q表示提取出的特征集,W表示特征集对应的权重集,输出为一个孤立树。在算法中首先判断输入的树高度e是否到达树的最大高度或者输入的子样本集所包含的样本数量是否小于1,如果满足,则直接输出叶子节点,节点的Size设置为子样本集的样本数量。如果不满足,根据特征的权重来对特征进行选择,选择到特征q,之后从特征q的值中随机选择一个,把大于和小于这个值得数据进行分割,划分成两个数据集Xl,Xr,返回非叶子节点,左右子树将Xl, Xr作为输入的子样本集并将树的高度加一,递归调用训练过程,同时在此节点上为所选的特征及对应的权重和分割值进行赋值。
发明的算法2如下
Figure BDA0003127400560000032
Figure BDA0003127400560000041
算法2为计算测试数据在孤立树中路径长度的过程。在递归调用时当前路径长度的增量变为2*(1-T.SplitWeight)。因为在孤立森林算法中路径长度越短则越可能异常,所以一个节点的SplitWeight越大,它对应的路径长度应该越短,SplitWeight和路径长度的关系成反比。对应的,在改进后的异常得分计算方法中,就主要是改进了路径长度的计算方案,增加了特征权重因素。
改进后的公式如下:
Figure BDA0003127400560000042
其中wi对应于从根节点开始一直到叶子节点每个节点中对应的 SplitWeight。w0对应的是在根节点处所选取的特征对应的权重, wh(x)-1对应的是在叶子节点的父节点处所选取的特征对应的权重。通过这种方法,把原来传统iForest算法中计算异常得分的h(x)替换成
Figure BDA0003127400560000043
使得计算结果更加准确。
本发明具有以下显著特点:i)通过引入特征权重来进行孤立森林的构建和异常得分的计算,准确性提升明显;ii)采用客观赋权的方法根据数据信息熵来计算特征权重,使模型能够更好的适应各种数据集。
附图说明
图1是基于特征权重的孤立森林异常检测模型图;
图2是基于特征权重的孤立森林的构建过程;
具体实施方法
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1以及图2,本发明实施例包括:
(a)通过终端设备实时采集待检测数据:终端设备可以是摄像头实时拍摄,也可以采用远程传输图像设备等。
(b)对训练数据进行特征的提取以及权重的分配,权重的分配采用熵权法。
(c)构建孤立森林(见图2):首先判断的树高度e是否到达树的最大高度或者输入的子样本集所包含的样本数量是否小于等于1,如果满足,则直接输出叶子节点,节点的Size设置为子样本集的样本数量。如果不满足,根据特征的权重来对特征进行选择,选择到特征 q,之后从特征q的值中随机选择一个,把大于和小于这个值得数据进行分割,划分成两个数据集Xl,Xx,返回非叶子节点,左右子树将 Xl,Xr作为输入的子样本集并将树的高度加一,递归调用训练过程,同时在此节点上为所选的特征及对应的权重和分割值进行赋值。
(d)计算异常得分(见公式1):将测试数据遍历孤立树,首先如果孤立树为叶子节点的话直接输出叶子节点的平均路径长度,否则的话根据每个节点的特征权重来计算总得路径长度。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。

Claims (7)

1.一种基于特征权重的孤立森林异常检测方法,其特征在于,该方法包括以下步骤:
步骤S1:通过终端设备实时采集待检测数据,形成一个训练数据集合;
步骤S2:对训练数据集进行特征的提取和权重的计算;
步骤S3:根据特征权重进行孤立森林的构建;
步骤S4:根据特征权重来计算测试数据在孤立森林中的异常得分;
步骤S5:根据计算出的异常得分来判断是否为异常数据;
2.根据权利要求1所述的一种基于特征权重的孤立森林异常检测方法,其特征在于,优选的,步骤S2的通过熵权法计算特征权重。
3.根据权利要求1所述的一种基于特征权重的孤立森林异常检测方法,其特征在于,优选的,步骤S3的根据特征权重进行孤立森林的构建。
4.根据权利要求3所述的方法,其特征在于,通过特征权重对特征进行选取,进而对数据集完成划分,完成孤立森林的构建。
5.根据权利要求1所述的根据特征权重来计算测试数据在孤立森林中的路径长度,其特征在于,优选的,步骤S4的根据特征权重来计算测试数据在孤立森林中的异常得分。
6.根据权利要求5所述方法,其特征在于,根据下面公式(1)计算异常得分。
7.根据权利要求6所述方法,其特征在于,公式(1)中wi-从根节点开始一直到叶子节点第i个节点中对应的特征权重。
Figure RE-FDA0003177298240000021
-孤立树的平均路径长度。
CN202110692927.6A 2021-06-22 2021-06-22 一种基于数据特征的权重来构建孤立森林的异常检测算法 Active CN113392914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692927.6A CN113392914B (zh) 2021-06-22 2021-06-22 一种基于数据特征的权重来构建孤立森林的异常检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692927.6A CN113392914B (zh) 2021-06-22 2021-06-22 一种基于数据特征的权重来构建孤立森林的异常检测算法

Publications (2)

Publication Number Publication Date
CN113392914A true CN113392914A (zh) 2021-09-14
CN113392914B CN113392914B (zh) 2023-04-25

Family

ID=77623434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692927.6A Active CN113392914B (zh) 2021-06-22 2021-06-22 一种基于数据特征的权重来构建孤立森林的异常检测算法

Country Status (1)

Country Link
CN (1) CN113392914B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143095A (zh) * 2021-12-01 2022-03-04 广东电网有限责任公司江门供电局 基于孤立森林的配电终端dtu入侵检测方法及系统
CN114580580A (zh) * 2022-05-07 2022-06-03 深圳索信达数据技术有限公司 一种智能运维异常检测方法及装置
CN117235647A (zh) * 2023-11-03 2023-12-15 中色紫金地质勘查(北京)有限责任公司 基于边缘计算的矿产资源勘查业务hse数据管理方法
CN117390557A (zh) * 2023-12-13 2024-01-12 深圳汉尼康科技有限公司 一种多功能进阶语言沟通辅助训练数据管理系统
CN117454096A (zh) * 2023-12-25 2024-01-26 西安高商智能科技有限责任公司 一种电机生产质量检测方法及系统
CN117609929A (zh) * 2024-01-24 2024-02-27 湖南易比特大数据有限公司 基于大数据的工业生产线故障在线诊断方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN110414555A (zh) * 2019-06-20 2019-11-05 阿里巴巴集团控股有限公司 检测异常样本的方法及装置
CN111598438A (zh) * 2020-05-14 2020-08-28 哈尔滨工业大学(威海) 基于分段拟合分析及评估的民航发动机气路异常检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
CN110414555A (zh) * 2019-06-20 2019-11-05 阿里巴巴集团控股有限公司 检测异常样本的方法及装置
CN111598438A (zh) * 2020-05-14 2020-08-28 哈尔滨工业大学(威海) 基于分段拟合分析及评估的民航发动机气路异常检测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143095A (zh) * 2021-12-01 2022-03-04 广东电网有限责任公司江门供电局 基于孤立森林的配电终端dtu入侵检测方法及系统
CN114143095B (zh) * 2021-12-01 2023-06-02 广东电网有限责任公司江门供电局 基于孤立森林的配电终端dtu入侵检测方法及系统
CN114580580A (zh) * 2022-05-07 2022-06-03 深圳索信达数据技术有限公司 一种智能运维异常检测方法及装置
CN114580580B (zh) * 2022-05-07 2022-08-16 深圳索信达数据技术有限公司 一种智能运维异常检测方法及装置
CN117235647A (zh) * 2023-11-03 2023-12-15 中色紫金地质勘查(北京)有限责任公司 基于边缘计算的矿产资源勘查业务hse数据管理方法
CN117235647B (zh) * 2023-11-03 2024-03-08 中色紫金地质勘查(北京)有限责任公司 基于边缘计算的矿产资源勘查业务hse数据管理方法
CN117390557A (zh) * 2023-12-13 2024-01-12 深圳汉尼康科技有限公司 一种多功能进阶语言沟通辅助训练数据管理系统
CN117390557B (zh) * 2023-12-13 2024-03-12 深圳汉尼康科技有限公司 一种多功能进阶语言沟通辅助训练数据管理系统
CN117454096A (zh) * 2023-12-25 2024-01-26 西安高商智能科技有限责任公司 一种电机生产质量检测方法及系统
CN117454096B (zh) * 2023-12-25 2024-03-01 西安高商智能科技有限责任公司 一种电机生产质量检测方法及系统
CN117609929A (zh) * 2024-01-24 2024-02-27 湖南易比特大数据有限公司 基于大数据的工业生产线故障在线诊断方法及系统
CN117609929B (zh) * 2024-01-24 2024-04-09 湖南易比特大数据有限公司 基于大数据的工业生产线故障在线诊断方法及系统

Also Published As

Publication number Publication date
CN113392914B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN113392914A (zh) 一种基于数据特征的权重来构建孤立森林的异常检测算法
CN106899440B (zh) 一种面向云计算的网络入侵检测方法及系统
CN111914253B (zh) 一种入侵检测的方法、系统、设备及可读存储介质
CN109446635B (zh) 一种基于机器学习的电力工控攻击分类方法和系统
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN110430224B (zh) 一种基于随机块模型的通信网络异常行为检测方法
CN101442535B (zh) 一种基于关键词序列的应用识别与跟踪方法
CN112333195B (zh) 基于多源日志关联分析的apt攻击场景还原检测方法及系统
CN117216660A (zh) 基于时序网络流量集成异常点和异常集群检测方法及装置
Ghalehgolabi et al. Intrusion detection system using genetic algorithm and data mining techniques based on the reduction
CN109829494A (zh) 一种基于加权相似性度量的聚类集成方法
CN115987552A (zh) 一种基于深度学习的网络入侵检测方法
CN111444501A (zh) 一种基于梅尔倒谱与半空间森林结合的LDoS攻击检测方法
CN113868647A (zh) 一种基于特征扩展cnn的网络未知威胁检测方法
CN113515450A (zh) 一种环境异常检测方法和系统
CN110995713A (zh) 一种基于卷积神经网络的僵尸网络检测系统及方法
CN115712859A (zh) 一种基于精细化特征解耦的多源域设备故障诊断方法
CN113641990A (zh) 一种基于多新息扩展卡尔曼滤波的入侵检测方法
CN113268552A (zh) 一种基于局部敏感哈希的发电机设备隐患预警方法
CN113342640A (zh) 一种基于决策树的efsm测试用例排序方法
CN112532562A (zh) 一种对抗性网络的恶意数据流检测方法及系统
CN117574135B (zh) 一种电网攻击事件检测方法、装置、设备及存储介质
CN114615026B (zh) 异常流量检测方法、装置及电子设备
JP7029385B2 (ja) 学習装置、学習方法及び学習プログラム
CN112910841B (zh) 一种基于模糊匹配的工控网络入侵智能感知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant