CN115080965B - 基于历史表现的无监督异常检测方法及系统 - Google Patents
基于历史表现的无监督异常检测方法及系统 Download PDFInfo
- Publication number
- CN115080965B CN115080965B CN202210979825.7A CN202210979825A CN115080965B CN 115080965 B CN115080965 B CN 115080965B CN 202210979825 A CN202210979825 A CN 202210979825A CN 115080965 B CN115080965 B CN 115080965B
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- anomaly detection
- frequency
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000002790 cross-validation Methods 0.000 claims abstract description 5
- 230000002159 abnormal effect Effects 0.000 claims description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 238000001228 spectrum Methods 0.000 claims description 25
- 238000002474 experimental method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000010183 spectrum analysis Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims 1
- 230000005856 abnormality Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种基于历史表现的无监督异常检测方法及系统,包括以下步骤:S1:周期性触发,获取推理样本;S2:获取训练生成的模型文件和中间变量;S3:用户可对推理结果进行纠正打标,产生的新样本用于打标模式训练的使用;S4:即时模式下获取推理样本作为当前轮次的训练样本,称为T训练样本;S5:从存储中获取上一轮次的训练样本,称为T‑1训练样本,以时间为索引对T‑1和T训练样本进行拼接、去重、存储,得到完整的训练样本;S6:对训练样本进行交叉验证,计算评估指标二分轮廓系数;S7:执行模型调优,使用网格搜索的方法重复执行S6;S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄‑孤立森林异常检测模型。
Description
技术领域
本发明涉及机器学习中无监督时序异常检测领域,尤其是涉及一种基于历史表现的无监督异常检测方法及系统。
背景技术
异常检测是数据安全领域的一个重要分支,其定义是从正常的时间序列中识别不正常的事件或行为的过程。企业使用异常检测技术可以对网络数据、用户敏感访问和操作进行实时监测,当发现异常时,及时采取措施最终保障信息安全、减少企业损失。
现有的异常检测技术主要分为以下几类:
1、基于统计预测的方法:通过预测值和实际值的误差大小来判定出现异常的位置。代表算法有EMA、AR、ARIMA。
缺陷:多维时间序列转换为多个单维时间序列分别进行预测,需要建立多个模型,当数据维度增长时,算法的计算量显著增长,不适用于数据量大、有实时性要求的异常检测场景;仅适用于平稳性较好的时序数据。
2、基于有监督分类的方法:代表算法有支持向量机、K近邻、决策树一族、深度神经网络等。
缺陷:实际工程应用中获取时序数据是否异常的标签成本高,难以落地。
3、基于无监督学习的方法:基于聚类的代表算法有K-means、DBSCAN、高斯混合模型GMM等;另一方面,也有基于树的异常检测方法如孤立森林。
缺陷:传统的无监督异常检测算法的对象是无序变量,但时序数据是有序的,在建模的过程中会丢失时间维度的信息。无监督学习缺乏有效的评估指标,难以做到系统高度自动化。
针对以上痛点,本发明实现了一种针对多维时序特征的基于历史表现的无监督异常检测方法及系统:
1、采用希尔伯特黄算法做时频分析,同时考虑了时间和频率维度的信息,实现同时对时域和频域进行异常检测,覆盖面广。
2、采用孤立森林无监督学习算法来检测异常,无需对时序数据进行打标,在实际工程应用中能够快速落地。
3、在同一时刻保留各个维度之间的相互关系,单模型实现多维时序特征的异常检测,快速、实时性好。
4、使用二分轮廓系数来指导参数调优,使系统能够高度自动化。自动化的参数调优让无监督算法效果也能得到保障。
5、异常检测在线学习系统高度自动化,能够实现对各类数据的异常时序和频率的检测、告警等目标。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种多维时序、基于历史、无监督、快速、高度自动化的异常检测算法方案及系统,能够实现对数据异常时序和频率的检测、告警等目标。
为实现上述目的,本发明提供一种基于历史表现的无监督异常检测方法,所述方法包括以下步骤:
S1:周期性触发,获取推理样本;
S2:获取训练生成的模型文件和中间变量,对推理样本执行希尔伯特黄-孤立森林算法的推理流程;
S3:用户可对推理结果进行纠正打标,产生的新样本用于打标模式训练的使用;
S4: 即时模式下获取推理样本作为当前轮次的训练样本(T训练样本);打标模式下获取最新的打标样本作为T训练样本;
S5:从存储中获取上一轮次的训练样本(T-1训练样本),以时间为索引对T-1和T训练样本进行拼接、去重、存储,得到完整的训练样本;
S6: 对训练样本进行交叉验证,计算评估指标二分轮廓系数;
S7: 执行模型调优,使用网格搜索的方法重复执行S6;
S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄-孤立森林异常检测模型。
进一步,推理样本为包含时间戳和时序信息的文本数据。
进一步,推理流程生成的推理结果为包含时间戳和多维时序信息是否为异常的标签。
进一步,打标样本需要对打标为异常的时序做缺失处理,再插补缺失值。
进一步,系统启动后首次执行推理,由于尚未执行过训练,不存在模型文件和中间变量,推理结果将默认全部正常;在之后的推理任务中,将获取和使用最新一次的训练生成的模型。
进一步,网格搜索通过遍历给定的模型参数组合来优化模型表现。
进一步,打标样本为包含时间戳、时序信息和用户打标标签的文本数据。
进一步,步骤S6中,交叉验证和计算流程包括:
S61: 执行保证数据连续性的数据划分,形成K次实验;
S62: 对于第1~K次实验,对训练集执行希尔伯特黄-孤立森林算法的训练流程,得到K个异常检测模型。
S63: 对于第1~K次实验,使用S62得到的模型对测试集上执行希尔伯特黄-孤立森林算法的推理流程。
S64: 对于第1~K次实验,计算二分轮廓系数。
S65: 根据第1~K次实验得到的二分轮廓系数取均值,生成最终的二分轮廓系数。
进一步,所述方法中使用的二分轮廓系数如下:
二分轮廓系数是衡量异常检测模型结果质量的评估指标。二分轮廓系数考虑的有两个因素:预测为正常的标签和预测为异常的标签的内聚度和分离度,它们的值介于[-1,1],越趋近于1则代表内聚度和分离度都相对较优。我们希望在模型预测的结果中,正常的标签与异常的标签对应的点之间的距离足够的远,同时正常的标签对应的点簇中及异常的标签对应的点簇中的点足够的近,而不考虑正常的点簇之间与异常的点簇之间的情况。
步骤S64中计算轮廓系数的具体步骤如下:
S641: 使用经典聚类算法,例如k-means,分别对模型预测的正常的标签和异常的标签对应的值做聚类,得到正常的标签中值对应的具体类别和异常的标签中值对应的具体类别,按先异常再正常的顺序重构待评估数据;
S642: 对于正常点簇中的每一个类别,取出对应的点集,对点集中的每个点分别计算类内与其他点的距离均值、类外到其他所有异常簇的距离之和的最小平均值,使用下述公式计算点的二分轮廓系数值;异常点簇计算类似,对于异常点簇中的每一个类别,取出对应的点集,对点集中的每个点分别计算类内与其他点的距离均值、类外到其他所有正常簇的距离之和的最小平均值,同样使用下述公式计算点的二分轮廓系数值;最后计算二分轮廓系数均值;
S643: 对Step 2得到的二分轮廓系数结果集的子集,计算超过Step 1得到的二分轮廓系数均值的比例值;
S644: 对Step 2得到的二分轮廓系数结果集中的每个子集的值求和,并以Step 3得到的比例值作为权重做加权求和,再除以点数做归一化,即得到模型对应的整体的二分轮廓系数的值。
本方法中步骤S2和S63中使用的希尔伯特黄-孤立森林算法具体如下:
S700:对S600得到的多维频率特征,在训练阶段,使用孤立森林算法进行训练,得到频率异常检测模型;在推理阶段,该模型输出频率异常概率,再根据时频域的对应关系,可以得到推理样本的异常时序。
另一方面,本发明实施例提供一种基于历史表现的无监督异常检测系统,所述系统中包括推理模块,用于实现步骤S1-S2;纠正打标模块,用于实现步骤S3;训练和评估模块,用于实现步骤S4-S8。
本发明提出的针对多维时序特征的基于历史表现的无监督异常检测方法及系统,其有益效果在于:
1、采用希尔伯特黄算法做时频分析,同时考虑了时间和频率维度的信息,实现同时对时域和频域进行异常检测,覆盖面广。
2、采用孤立森林无监督学习算法来检测异常,无需对时序数据进行打标,在实际工程应用中能够快速落地。
3、在同一时刻保留各个维度之间的相互关系,单模型实现多维时序特征的异常检测,快速、实时性好。
4、使用二分轮廓系数来指导参数调优,使系统能够高度自动化。自动化的参数调优让无监督算法效果也能得到保障。
5、异常检测在线学习系统高度自动化,能够实现对各类数据的异常时序和频率的检测、告警等目标。
附图说明
图1示出了根据本发明实施例一种基于历史表现的无监督异常检测方法及系统的算法架构示意图;
图2示出了根据本发明实施例一种基于历史表现的无监督异常检测方法及系统的训练流程示意图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1、图2对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
实施例
本实施例公开如图1所示的一种针对多维时序特征的基于历史表现的无监督异常检测方法,具有多维时序、基于历史、无监督、快速、高度自动化的技术优势,以数据安全场景下的敏感数据访问的智能风险识别为例,目的是运用所述异常检测方法对小时级敏感数据访问次数进行风险识别,其流程框架包括以下步骤:
推理模块:
S1:周期性触发,获取推理样本。推理样本包含时间戳和时序信息的文本数据。
S2:获取训练生成的模型文件和中间变量,根据步骤S100~S700,对推理样本执行希尔伯特黄-孤立森林算法的推理流程。
推理生成的推理结果包含时间戳和时序信息是否为异常的标签。系统启动后首次执行推理,由于尚未执行过训练,不存在模型文件和中间变量,推理结果将默认全部正常。在之后的推理任务中,将获取和使用最新一次的训练生成的模型。
纠正打标模块:
S3:用户可对推理结果进行纠正打标,产生的新样本用于打标模式训练的使用。
该操作体现在产品中为平台软件的使用者,包括开发者和客户,可以在推理结果展示的页面选择进入打标系统,对不合理的推理结果进行修正,例如:原本“2022-08-1100:00:00”的推理结果为“异常”,用户可以将其重新打标为“正常”;原本“2022-08-1001:00:00”的推理结果为“正常”,用户可以将其重新打标为“异常”。请注意,该打标系统同一时间只允许一个用户进行操作,以防止多人同时打标造成的混乱。用户操作完毕保存之后,生成的打标样本为包含时间戳、时序信息、用户打标标签的文本数据。
训练和评估模块,其中训练包括即时模式和打标模式:
S4: 即时模式下获取推理样本作为当前轮次的训练样本(T训练样本);打标模式下获取最新的打标样本作为T训练样本,对其中打标为异常的时序做缺失处理,再插补缺失值。
插补缺失值的方式有很多,基于统计方式的有均值填充、线性插值、移动平均、指数平滑,也有基于机器学习对缺失值进行预测,如K近邻、循环神经网络、随机森林等。本发明比较注重线上运行的计算、存储资源开销,而不太关心对缺失值的插补的准确性,所以选择使用线性插值。
S5:从存储中获取上一轮次的训练样本(T-1训练样本),以时间为索引对T-1和T训练样本进行拼接、去重、存储,得到完整的训练样本。
S6: 对训练样本进行交叉验证,计算评估指标二分轮廓系数。
执行S6的步骤具体包括:
S61: 执行保证时间连续性的数据划分,形成K次实验。
…
S62: 对于第1~K次实验,根据步骤S100~S700,对训练集执行希尔伯特黄-孤立森林算法的训练流程,得到K个异常检测模型。
S63: 对于第1~K次实验,根据步骤S100~S700,使用S62得到的模型对测试集上执行希尔伯特黄-孤立森林算法的推理流程。
S64: 对于第1~K次实验,计算二分轮廓系数。
二分轮廓系数是衡量异常检测模型结果质量的评估指标。二分轮廓系数考虑的有两个因素:预测为正常的标签和预测为异常的标签的内聚度和分离度,它们的值介于[-1,1],越趋近于1则代表内聚度和分离度都相对较优。我们希望在模型预测的结果中,正常的标签与异常的标签对应的点之间的距离足够的远,同时正常的标签对应的点簇中及异常的标签对应的点簇中的点足够的近,而不考虑正常的点簇之间与异常的点簇之间的情况。
步骤S64中计算二分轮廓系数的具体步骤如下:
S641: 使用经典聚类算法,例如k-means,分别对模型预测的正常的标签和异常的标签对应的值做聚类,得到正常的标签中值对应的具体类别和异常的标签中值对应的具体类别,按先异常再正常的顺序重构待评估数据;
S642: 对于正常点簇中的每一个类别,取出对应的点集,对点集中的每个点分别计算类内与其他点的距离均值、类外到其他所有异常簇的距离之和的最小平均值,使用下述公式计算点的二分轮廓系数值;异常点簇计算类似,对于异常点簇中的每一个类别,取出对应的点集,对点集中的每个点分别计算类内与其他点的距离均值、类外到其他所有正常簇的距离之和的最小平均值,同样使用下述公式计算点的二分轮廓系数值;最后计算二分轮廓系数均值;
S643: 对S642得到的二分轮廓系数结果集的子集,计算超过Step 1得到的二分轮廓系数均值的比例值;
S644: 对S642得到的二分轮廓系数结果集中的每个子集的值求和,并以S643得到的比例值作为权重做加权求和,再除以点数做归一化,即得到模型对应的整体的二分轮廓系数的值。
S65: 根据第1~K次实验得到的二分轮廓系数取均值,生成最终的二分轮廓系数。
S7: 执行模型调优,使用网格搜索的方法重复执行S6。网格搜索通过遍历给定的模型参数组合来优化模型表现
S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄-孤立森林异常检测模型。
图1展示了无监督异常检测系统的整体运作流程,包括了各子流程的触发条件、引用和产出、各子流程之间的依赖关系。该图从左到右,第一步,以周期性触发推理子流程,其引用了推理样本、模型文件和中间变量,产出推理结果和日志文件;第二步,以用户提交触发纠正打标子流程,其引用推理结果,在打标系统中对错误的结果进行修正,产出打标样本;第三步,以推理结束触发即时模式训练子流程和评估子流程,其引用推理样本作为当前轮次T训练样本和上一轮次训练存储的T-1训练样本,产出模型文件、拼接数据、中间变量和日志文件;第四步,以打标结束触发打标模式训练子流程和评估子流程,其引用打标样本和上一轮次训练存储的T-1训练样本,产出模型文件、拼接数据、中间变量和日志文件。
如图2所示,本发明中步骤S2和步骤S63中所使用的希尔伯特黄-孤立森林算法的计算步骤如下:
S400: 对S300得到的个过滤后的希尔伯特谱关于瞬时频率做分箱,该操作的主要目的是将维的时频域信息进行分割、聚合。例如,有以下的时频对应关系:,那么以的精度等距分箱后得到的时频对应关系是:。接下来,对分箱后的希尔伯特谱求频率边际谱:
S700:对S600得到的多维频率特征,在训练阶段,使用孤立森林算法进行训练,得到频率异常检测模型;在推理阶段,该模型输出频率异常概率,再根据时频域的对应关系,可以得到推理样本的异常时序。
孤立森林是一种基于集成学习的异常检测算法,其核心思想是不断的使用随机超平面对一个数据空间进行切割,直到每个子空间仅包含一个数据点,换言之,就是数据点被“孤立”在各自的子空间。判断一个数据点是否是异常的依据是其被“孤立”时的切割次数:非异常点是聚集成簇的,需要多次切割才能将它们“孤立”;而异常点,即那些分布稀疏的点,只需要少数几次切割就可以将它们“孤立”。
在训练阶段,孤立森林算法的伪代码如下;
训练孤立森林的重要参数有:
1. 子树的个数,调节范围在[100, 1000],过低的值会导致算法效果不稳定,过高的值会导致计算资源的浪费。
2. 异常的比例,调节范围在(0, 0.2],取决于输入的异常比例。请注意,在打标模式下已对打标为异常的时序做了插值处理,所以默认此时全部为正常时序,异常的比例应设置为一个很小的值,如0.0001。
另一方面,本发明实施例提供一种基于历史表现的无监督异常检测系统,所述系统中包括推理模块,用于实现步骤S1-S2;纠正打标模块,用于实现步骤S3;训练和评估模块,用于实现步骤S4-S8。
图2展示了无监督异常检测方法的计算逻辑,包括了上半部分的希尔伯特黄算法和下半部分的孤立森林算法。第一步,希尔伯特黄算法的输入是多维时序特征,对该输入做经验模态分解,得到若干个固有模态函数;第二步,对这些固有模态函数做希尔伯特谱分析,得到若干个对应的希尔伯特谱;第三步,提取固有模态函数和希尔伯特谱中的信息,得到固有模态函数的频率边际谱,可以视作频率特征;第四步,频域特征根据其频率对应的时序点数进行加权;第五步,对固有模态函数的频域特征进行拼接得到完整的频域特征;第六步,孤立森林算法的输入是频域特征,运算后输出频率异常概率。
本发明的技术优势在于,采用希尔伯特黄算法做时频分析,同时考虑了时间和频率维度的信息,实现同时对时域和频域进行异常检测,覆盖面广。采用孤立森林无监督学习算法来检测异常,无需对时序数据进行打标,在实际工程应用中能够快速落地。在同一时刻保留各个维度之间的相互关系,单模型实现多维时序特征的异常检测,快速、实时性好。使用二分轮廓系数来指导参数调优,使系统能够高度自动化。自动化的参数调优让无监督算法效果也能得到保障。异常检测在线学习系统高度自动化,能够实现对各类数据的异常时序和频率的检测、告警等目标。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。
Claims (8)
1.一种基于历史表现的无监督异常检测方法,其特征在于,所述方法包括以下步骤:
S1:周期性触发,获取推理样本;
S2:获取训练生成的模型文件和中间变量,对推理样本执行希尔伯特黄-孤立森林算法的推理流程;
S3:用户可对推理结果进行纠正打标,产生的新样本用于打标模式训练的使用;
S4: 即时模式下获取推理样本作为当前轮次的训练样本,称为T训练样本;打标模式下获取最新的打标样本作为T训练样本;
S5:从存储中获取上一轮次的训练样本,称为T-1训练样本,以时间为索引对T-1训练样本和T训练样本进行拼接、去重和存储,得到完整的训练样本;
S6: 对训练样本进行交叉验证,计算评估指标二分轮廓系数;
S7: 执行模型调优,使用网格搜索的方法重复执行S6;
S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄-孤立森林异常检测模型;
所述方法中使用的希尔伯特黄-孤立森林算法具体如下:
S700:对S600得到的多维频率特征,在训练阶段,使用孤立森林算法进行训练,得到频率异常检测模型;在推理阶段,该模型输出频率异常概率,再根据时频域的对应关系,可以得到推理样本的异常时序;
步骤S6中,验证和计算流程包括:
S61: 执行保证数据连续性的数据划分,形成K次实验;
S62: 对于第1~K次实验,对训练集执行希尔伯特黄-孤立森林算法的训练流程,得到K个异常检测模型;
S63: 对于第1~K次实验,使用S62得到的模型对测试集上执行希尔伯特黄-孤立森林算法的推理流程;
S64: 对于第1~K次实验,计算二分轮廓系数;
S65: 根据第1~K次实验得到的二分轮廓系数取均值,生成最终的二分轮廓系数。
2.根据权利要求1所述的一种基于历史表现的无监督异常检测方法,其特征在于,推理样本为包含时间戳和时序信息的文本数据。
3.根据权利要求2所述的一种基于历史表现的无监督异常检测方法,其特征在于,推理生成推理结果和日志文件。
4.根据权利要求3所述的一种基于历史表现的无监督异常检测方法,其特征在于,系统启动后首次执行推理,由于尚未执行过训练,不存在模型文件和中间变量,推理结果将默认全部正常;在之后的推理任务中,将获取和使用最新一次的训练生成的模型。
5.根据权利要求4所述的一种基于历史表现的无监督异常检测方法,其特征在于,所述网格搜索通过遍历给定的模型参数组合来优化模型表现。
6.根据权利要求5所述的一种基于历史表现的无监督异常检测方法,其特征在于,打标样本为包含时间戳、时序信息和用户打标标签的文本数据。
7.一种基于历史表现的无监督异常检测系统,其特征在于,所述系统能够使用根据权利要求1-6任一项所述的基于历史表现的无监督异常检测方法。
8.根据权利要求7所述的一种基于历史表现的无监督异常检测系统,其特征在于,所述系统中包括推理模块,用于实现步骤S1-S2;纠正打标模块,用于实现步骤S3;训练和评估模块,用于实现步骤S4-S8。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210979825.7A CN115080965B (zh) | 2022-08-16 | 2022-08-16 | 基于历史表现的无监督异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210979825.7A CN115080965B (zh) | 2022-08-16 | 2022-08-16 | 基于历史表现的无监督异常检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115080965A CN115080965A (zh) | 2022-09-20 |
CN115080965B true CN115080965B (zh) | 2022-11-15 |
Family
ID=83245368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210979825.7A Active CN115080965B (zh) | 2022-08-16 | 2022-08-16 | 基于历史表现的无监督异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080965B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118444979B (zh) * | 2024-07-08 | 2024-08-30 | 信创桥(成都)科技有限公司 | 基于云计算的信创应用兼容适配方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076975A (zh) * | 2021-03-17 | 2021-07-06 | 长江水利委员会长江科学院 | 一种基于无监督学习的大坝安全监测数据异常检测方法 |
CN113360563A (zh) * | 2021-06-17 | 2021-09-07 | 西安超越申泰信息科技有限公司 | 一种航行大数据平台监控系统及方法 |
CN114201374A (zh) * | 2021-12-07 | 2022-03-18 | 华融融通(北京)科技有限公司 | 基于混合机器学习的运维时序数据异常检测方法及系统 |
CN114236532A (zh) * | 2021-11-23 | 2022-03-25 | 清华大学 | 基于多维雷达微动特征和ocsvm的空间目标异常状态检测方法 |
CN114492826A (zh) * | 2021-11-22 | 2022-05-13 | 杭州电子科技大学 | 一种基于多元时序流数据的无监督异常检测分析解决方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777873B (zh) * | 2018-06-04 | 2021-03-02 | 江南大学 | 基于加权混合孤立森林的无线传感网络异常数据检测方法 |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
WO2021258348A1 (zh) * | 2020-06-24 | 2021-12-30 | 深圳市欢太科技有限公司 | 异常流量检测方法和系统、及计算机存储介质 |
-
2022
- 2022-08-16 CN CN202210979825.7A patent/CN115080965B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076975A (zh) * | 2021-03-17 | 2021-07-06 | 长江水利委员会长江科学院 | 一种基于无监督学习的大坝安全监测数据异常检测方法 |
CN113360563A (zh) * | 2021-06-17 | 2021-09-07 | 西安超越申泰信息科技有限公司 | 一种航行大数据平台监控系统及方法 |
CN114492826A (zh) * | 2021-11-22 | 2022-05-13 | 杭州电子科技大学 | 一种基于多元时序流数据的无监督异常检测分析解决方法 |
CN114236532A (zh) * | 2021-11-23 | 2022-03-25 | 清华大学 | 基于多维雷达微动特征和ocsvm的空间目标异常状态检测方法 |
CN114201374A (zh) * | 2021-12-07 | 2022-03-18 | 华融融通(北京)科技有限公司 | 基于混合机器学习的运维时序数据异常检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于孤立森林算法的电涌保护器异常参数监测研究;马俊彦等;《电子测量与仪器学报》;20200715(第07期);第63-68页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115080965A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110995508B (zh) | 基于kpi突变的自适应无监督在线网络异常检测方法 | |
Dias et al. | Concept lattices reduction: Definition, analysis and classification | |
CN113408703B (zh) | 基于神经与符号的多模态大数据机器自动学习系统 | |
WO2018009733A1 (en) | Computer system and method for monitoring key performance indicators (kpis) online using time series pattern model | |
CN113626502B (zh) | 基于集成学习的电网数据异常检测方法及装置 | |
CN116091206B (zh) | 信用评价方法、装置、电子设备及存储介质 | |
CN115099335A (zh) | 多源异构数据的异常辨识和特征筛选方法、系统 | |
CN115080965B (zh) | 基于历史表现的无监督异常检测方法及系统 | |
CN111898637B (zh) | 一种基于ReliefF-DDC特征选择算法 | |
You et al. | A variable relevant multi-local PCA modeling scheme to monitor a nonlinear chemical process | |
CN116993165A (zh) | 一种儿童果蔬汁的安全性评价与风险预测方法及系统 | |
Gautam et al. | Adaptive discretization using golden section to aid outlier detection for software development effort estimation | |
CN117236656B (zh) | 工程项目的信息化管理方法及系统 | |
CN117436029A (zh) | 一种多个大模型串行协作融合的方法和系统 | |
CN115730248A (zh) | 一种机器账号检测方法、系统、设备及存储介质 | |
Anitha et al. | Analysing high dimensional data using rough tolerance relation | |
CN118520404B (zh) | 企业业务数据挖掘方法、装置、设备及存储介质 | |
CN117893216B (zh) | 基于大数据的用户行为分析方法及系统 | |
CN118313821B (zh) | 家用电器安全检测方法、装置、设备及存储介质 | |
CN114339859B (zh) | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 | |
CN117978461B (zh) | 基于孤立森林的异常登录检测方法及系统 | |
CN118760970A (zh) | 一种基于田间杂草监测的除草剂筛选推荐方法及系统 | |
Enver | Modeling Trouble Ticket ResolutionTime Using Machine Learning | |
CN118428775A (zh) | 基于供应链管理的业务数据处理方法及系统 | |
CN118626733A (zh) | 基于荔枝虫害为害症状的绿色防控措施推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |