CN113392914B - 一种基于数据特征的权重来构建孤立森林的异常检测算法 - Google Patents
一种基于数据特征的权重来构建孤立森林的异常检测算法 Download PDFInfo
- Publication number
- CN113392914B CN113392914B CN202110692927.6A CN202110692927A CN113392914B CN 113392914 B CN113392914 B CN 113392914B CN 202110692927 A CN202110692927 A CN 202110692927A CN 113392914 B CN113392914 B CN 113392914B
- Authority
- CN
- China
- Prior art keywords
- data
- weight
- isolated forest
- weights
- isolated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
- Image Analysis (AREA)
Abstract
本文公开了一种基于数据特征的权重来构建孤立森林的异常检测算法。该方法主要包括:通过终端设备实时采集待检测数据;对待检测数据进行特征的提取并通过熵权法计算特征权重;将采集数据作为训练集进行训练,根据特征的不同权重完成孤立树的构建并组合成为孤立森林;将采集数据作为测试数据输入孤立森林模型,得到其在每颗孤立树的路径长度,并根据权重来进行计算总得路径长度;通过路径长度计算出异常得分,与设置的阈值进行比较来判断是否异常。本发明通过为不同的特征引入不同的权重,并根据权重来建立模型和计算异常得分,异常检测效果提高明显。
Description
技术领域
本发明涉及机器学习模型优化以及异常数据检测领域,具体涉及一种基于数据特征的权重来构建孤立森林的异常检测方法。
背景技术
在机器学习异常检测领域,怎样快速准确的对异常数据进行检测一直都是研究的重点。传统中,人工盯看监控大盘来监控数据的方式效率不仅低下,还对应着巨大的人力成本。而现存的监控数据自动监控需要管理员去挨个配置各个环境数据的合理范围,超出合理范围的会触发告警系统。但管理员对数据的合理波动范围往往并不全都清楚,随着监控设备的陡增,这项工作量也变得非常大。
现有的基于无监督学习算法的代表是孤立森林算法。首先,对训练数据集进行预处理和特征提取;然后进行孤立树的构建,构建方法是在特征集中随机选取一个特征,然后在训练数据集中该特征下的最大值和最小值间随机选择一个分割值,通过这个分割值来对数据进行划分从而构建左右子树,直到数据无法被划分或者已经达到树高限制,这种划分方式会使异常数据点在孤立树中的更靠近根节点,通过合并孤立树完成孤立森林的构建;最后计算测试数据在每个孤立树中路径长度,通过路径长度计算出异常得分,根据异常得分来判断数据是否异常。
上面传统孤立森林方法存在以下几个问题:i)数据的不同特征对于其是否异常的影响程度不同,对异常影响程度较大的应该具有更大的概率被选取作为分割特征来划分数据集,所以随机选取特征的方式会孤立树的质量变低,进而影响到算法的检测性能;ii)当不同特征对异常的影响程度不同时,权重越大的特征所代表的路径长度应该越短,不能简单的视为加一操作。
针对以上问题,本发明提出新的技术方案,包括在模型训练阶段根据特征权重来选取分割特征和在异常检测阶段根据分割特征计算路径长度。
发明内容
本发明主要解决的技术问题是提供一种基于数据特征的权重来构建孤立森林的异常检测方法,能够提升模型的异常检测效果。该方法的流程如下:
步骤S1:通过终端设备实时采集待检测数据,形成一个训练数据集合;
步骤S2:对训练数据集进行特征的提取和权重的计算;
步骤S3:根据特征权重进行孤立森林的构建;
步骤S4:根据特征权重来计算测试数据在孤立森林中的异常得分;
发明的算法1如下
算法1为孤立树的训练过程,其中,输入X为用水量时序数据的子样本集,e表示孤立树的当前高度,初始值为0,l表示的是限定孤立树的最大高度,Q表示提取出的特征集,W表示特征集对应的权重集,输出为一个孤立树。在算法中首先判断输入的树高度e是否到达树的最大高度或者输入的子样本集所包含的样本数量是否小于1,如果满足,则直接输出叶子节点,节点的Size设置为子样本集的样本数量。如果不满足,根据特征的权重来对特征进行选择,选择到特征q,之后从特征q的值中随机选择一个,把大于和小于这个值得数据进行分割,划分成两个数据集Xl,Xr,返回非叶子节点,左右子树将Xl, Xr作为输入的子样本集并将树的高度加一,递归调用训练过程,同时在此节点上为所选的特征及对应的权重和分割值进行赋值。
发明的算法2如下
算法2为计算测试数据在孤立树中路径长度的过程。在递归调用时当前路径长度的增量变为2*(1-T.SplitWeight)。因为在孤立森林算法中路径长度越短则越可能异常,所以一个节点的SplitWeight越大,它对应的路径长度应该越短,SplitWeight和路径长度的关系成反比。对应的,在改进后的异常得分计算方法中,就主要是改进了路径长度的计算方案,增加了特征权重因素。
改进后的公式如下:
其中wi对应于从根节点开始一直到叶子节点每个节点中对应的 SplitWeight。w0对应的是在根节点处所选取的特征对应的权重, wh(x)-1对应的是在叶子节点的父节点处所选取的特征对应的权重。通过这种方法,把原来传统iForest算法中计算异常得分的h(x)替换成使得计算结果更加准确。
本发明具有以下显著特点:i)通过引入特征权重来进行孤立森林的构建和异常得分的计算,准确性提升明显;ii)采用客观赋权的方法根据数据信息熵来计算特征权重,使模型能够更好的适应各种数据集。
附图说明
图1是基于特征权重的孤立森林异常检测模型图;
图2是基于特征权重的孤立森林的构建过程;
具体实施方法
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1以及图2,本发明实施例包括:
(a)通过终端设备实时采集待检测数据:终端设备可以是摄像头实时拍摄,也可以采用远程传输图像设备等。
(b)对训练数据进行特征的提取以及权重的分配,权重的分配采用熵权法。
(c)构建孤立森林(见图2):首先判断的树高度e是否到达树的最大高度或者输入的子样本集所包含的样本数量是否小于等于1,如果满足,则直接输出叶子节点,节点的Size设置为子样本集的样本数量。如果不满足,根据特征的权重来对特征进行选择,选择到特征 q,之后从特征q的值中随机选择一个,把大于和小于这个值得数据进行分割,划分成两个数据集Xl,Xx,返回非叶子节点,左右子树将 Xl,Xr作为输入的子样本集并将树的高度加一,递归调用训练过程,同时在此节点上为所选的特征及对应的权重和分割值进行赋值。
(d)计算异常得分(见公式1):将测试数据遍历孤立树,首先如果孤立树为叶子节点的话直接输出叶子节点的平均路径长度,否则的话根据每个节点的特征权重来计算总得路径长度。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
Claims (4)
2.根据权利要求1所述的一种基于特征权重的孤立森林异常检测方法,其特征在于,优选的,步骤S2的通过熵权法计算特征权重。
3.根据权利要求1所述的一种基于特征权重的孤立森林异常检测方法,其特征在于,优选的,步骤S3的根据特征权重进行孤立森林的构建。
4.根据权利要求3所述的方法,其特征在于,通过特征权重对特征进行选取,进而对数据集完成划分,完成孤立森林的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692927.6A CN113392914B (zh) | 2021-06-22 | 2021-06-22 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110692927.6A CN113392914B (zh) | 2021-06-22 | 2021-06-22 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392914A CN113392914A (zh) | 2021-09-14 |
CN113392914B true CN113392914B (zh) | 2023-04-25 |
Family
ID=77623434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110692927.6A Active CN113392914B (zh) | 2021-06-22 | 2021-06-22 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392914B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143095B (zh) * | 2021-12-01 | 2023-06-02 | 广东电网有限责任公司江门供电局 | 基于孤立森林的配电终端dtu入侵检测方法及系统 |
CN114580580B (zh) * | 2022-05-07 | 2022-08-16 | 深圳索信达数据技术有限公司 | 一种智能运维异常检测方法及装置 |
CN117235647B (zh) * | 2023-11-03 | 2024-03-08 | 中色紫金地质勘查(北京)有限责任公司 | 基于边缘计算的矿产资源勘查业务hse数据管理方法 |
CN117390557B (zh) * | 2023-12-13 | 2024-03-12 | 深圳汉尼康科技有限公司 | 一种多功能进阶语言沟通辅助训练数据管理系统 |
CN117454096B (zh) * | 2023-12-25 | 2024-03-01 | 西安高商智能科技有限责任公司 | 一种电机生产质量检测方法及系统 |
CN117609929B (zh) * | 2024-01-24 | 2024-04-09 | 湖南易比特大数据有限公司 | 基于大数据的工业生产线故障在线诊断方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292350A (zh) * | 2017-08-04 | 2017-10-24 | 电子科技大学 | 大规模数据的异常检测方法 |
CN108777873B (zh) * | 2018-06-04 | 2021-03-02 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN110414555B (zh) * | 2019-06-20 | 2023-10-03 | 创新先进技术有限公司 | 检测异常样本的方法及装置 |
CN111598438B (zh) * | 2020-05-14 | 2023-05-26 | 哈尔滨工业大学(威海) | 基于分段拟合分析及评估的民航发动机气路异常检测方法 |
-
2021
- 2021-06-22 CN CN202110692927.6A patent/CN113392914B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113392914A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392914B (zh) | 一种基于数据特征的权重来构建孤立森林的异常检测算法 | |
KR101075824B1 (ko) | 신호 식별 장치용 학습 데이터 세트 최적화 방법 및 학습 데이터 세트를 최적화할 수 있는 신호 식별 장치 | |
CN110087207B (zh) | 无线传感器网络缺失数据重建方法 | |
CN109657147B (zh) | 基于萤火虫和加权极限学习机的微博异常用户检测方法 | |
CN111174370A (zh) | 故障检测方法及装置、存储介质、电子装置 | |
CN116678552B (zh) | 一种变温度环境下光纤应力传感器异常监测方法 | |
CN112738092A (zh) | 一种日志数据增强方法、分类检测方法及系统 | |
CN111046961A (zh) | 基于双向长短时记忆单元和胶囊网络的故障分类方法 | |
CN111898637B (zh) | 一种基于ReliefF-DDC特征选择算法 | |
CN115987552A (zh) | 一种基于深度学习的网络入侵检测方法 | |
JP4760614B2 (ja) | 信号識別装置の学習データの選択方法 | |
CN116386081A (zh) | 一种基于多模态图像的行人检测方法及系统 | |
CN114140663A (zh) | 一种基于多尺度注意力学习网络的害虫识别方法及系统 | |
CN116740586A (zh) | 冰雹识别方法、装置、电子设备及计算机可读存储介质 | |
CN112085164A (zh) | 一种基于无锚框网络的区域推荐网络提取方法 | |
CN115910217B (zh) | 一种碱基确定方法、装置、计算机设备及存储介质 | |
CN115484112B (zh) | 支付大数据安全防护方法、系统及云平台 | |
CN115291091A (zh) | 一种基于图神经网络的模拟电路故障诊断方法 | |
CN115270983A (zh) | 一种基于AdaBoost-RBF算法的开关柜故障预测方法 | |
CN111835541B (zh) | 一种流量识别模型老化检测方法、装置、设备及系统 | |
CN112083707A (zh) | 一种工控物理信号的处理方法及控制器、处理系统 | |
CN117312810B (zh) | 基于博弈历史树的不完全信息攻防博弈对手识别方法 | |
WO2017032986A1 (en) | Network connected sensors | |
CN116610535B (zh) | 一种机房运维监控数据处理方法及系统 | |
CN111510340B (zh) | 访问请求检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |