CN114168374A - 基于集成异常检测器与根因分析结合的异常数据定位方法 - Google Patents

基于集成异常检测器与根因分析结合的异常数据定位方法 Download PDF

Info

Publication number
CN114168374A
CN114168374A CN202111440027.9A CN202111440027A CN114168374A CN 114168374 A CN114168374 A CN 114168374A CN 202111440027 A CN202111440027 A CN 202111440027A CN 114168374 A CN114168374 A CN 114168374A
Authority
CN
China
Prior art keywords
data
abnormal
detector
anomaly
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111440027.9A
Other languages
English (en)
Inventor
武萌
张晓兵
段林博
艾磊
谢荣平
童彬祥
景天野
李中月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202111440027.9A priority Critical patent/CN114168374A/zh
Publication of CN114168374A publication Critical patent/CN114168374A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Abstract

本发明提出了一种基于集成异常检测器与根因分析结合的异常数据检测方法,在利用集成异常检测器发现设备的异常后,立即触发根因分析算法,采用根因分析算法识别出引起该异常的具体维度,实现异常根因分析。本发明提出的异常数据定位方法集成监督、半监督以及无监督学习算法实现已知异常类型和未知异常类型的综合检测,很大程度上能够避免因单个异常检测模型结果的不准确导致异常误报或者漏报情况的出现。异常检测能够自动发现问题,而根因定位能够在发现问题的基础上进一步深入定位问题发生的具体维度,方便运维人员快速定位故障方向,提高故障排查效率。

Description

基于集成异常检测器与根因分析结合的异常数据定位方法
技术领域
本发明属于异常分析领域,尤其涉及一种基于集成异常检测器与根因分析结合的异常数据定位方法。
背景技术
异常检测技术在信用卡欺诈、网络入侵检测、复杂工业设备、医学、航天飞机系统的状态监测、图像视频等实际领域中都有着广泛应用。通过利用异常检测技术,可以发现信用卡盗刷、计算机中的恶意活动入侵、工业设备的运行状态异常等,进而采取合适的措施来保护用户或者设备的安全,提高其可靠性。如今处于大数据时代,计算机的计算能力也大为提高,基于数据驱动的异常检测技术也越来越受到欢迎,被应用到各种任务中,性能表现优异,具有非常大的实际应用价值。
目前实现异常检测主要有监督异常检测技术、半监督异常检测技术以及无监督异常检测技术。各机器学习算法的性能表现是由其样本数据决定的,与样本的维度、样本大小、样本质量、样本标签等有着重要关系。不同的异常检测算法在不同的样本空间性能表现不同。目前多数的异常检测工作是通过采用单个异常检测技术实现的,单个异常检测器的输出结果直接决定了异常检测工作的质量,具有片面性。
发明内容
发明目的:本发明所要解决的技术问题是针对如何基于各类设备资源的监控数据,对设备的运行状态进行分析,实时获取设备的健康状况,在检测到设备异常时,立即对异常根因进行定位,帮助运维人员对设备进行预防维护,避免因某一设备资源发生故障而造成不可逆转的后果;以及如何通过在传统运维中结合智能算法,辅助进行异常检测与根因分析工作,快速提升运维效率,提供一种基于集成异常检测器与根因分析结合的异常数据定位方法。
为了解决上述技术问题,本发明公开了一种基于集成异常检测器与根因分析结合的异常数据定位方法,包括:
步骤1,对网络设备监控数据集进行异常检测,获得检测结果;所述异常检测采用集成异常检测器进行检测,所述集成异常检测器由监督异常检测器、半监督异常检测器和无监督异常检测器进行集成学习获得;所述检测结果包括正常结果和异常结果;将多个异常检测准则下建立的检测模型集成为一,综合考虑了多个检测结果,通过使用集成策略可以提高检测模型的鲁棒性,提高检测质量。
步骤2,对异常结果进行根因分析,获得异常根因,实现异常数据定位。集成异常检测器与根因分析算法相结合,在异常被检测到后触发根因分析,利用根因分析算法在多维属性空间中快速定位导致异常的属性值组合,提供给运维人员进行预防维护,以保障设备安全可靠运行。
在一种实现方式中,步骤1包括:
步骤1-1,根据集成异常检测器对网络设备监控数据集的要求,完成网络设备监控数据集分配;所述网络设备监控数据集包括训练集和测试集;
步骤1-2:对网络设备监控数据集进行数据预处理;
步骤1-3:对预处理后的数据进行特征提取,获得提取后的数据;
步骤1-4:分别将提取后的数据输入到集成异常检测器中的监督异常检测器、半监督异常检测器和无监督异常检测器中进行训练和测试;
步骤1-5:针对测试集,对监督异常检测器、半监督异常检测器和无监督异常检测器的输出结果进行集成决策,获得检测结果;完成测试集的异常识别,实现集成异常检测。
在一种实现方式中,所述步骤1中监督异常检测器采用极限学习机算法(ExtremeLearning Machine,ELM),半监督异常检测器采用单分类极限学习机算法(One ClassExtreme Learning Machine,OC-ELM),无监督异常检测器采用孤立森林算法(Iforest)。通过集成学习综合考虑了所有的可能性,有效降低了模型性能对单一异常检测准则的敏感度。
在一种实现方式中,所述步骤1-1中网络设备监控数据集分配包括划分数据集、训练集分配和测试集分配;
所述网络设备监控数据集的数据属性包括网络响应时间、CPU、内存、带宽利用率、吞吐量、包转发率和端口流量;
为验证提出的集成异常检测器的有效性,将网络设备监控数据集划分为5个类别的数据,记为类别0~类别4,其中,类别0代表正常类数据,在网络设备处于正常运行状态下采集获得;类别1代表异常类型1数据,类别2代表异常类型2数据,异常类型1数据和异常类型2数据在网络设备处于经常出现异常运行状态的两种情况下进行采集获得;类别3代表异常类型3数据,类别4代表异常类型4数据,异常类型3数据和异常类型4数据在网络设备处于偶尔出现异常运行状态的两种情况下进行采集获得;另外,异常类型1和异常类型2的两类数据作为已知异常类型的数据,异常类型3和异常类型4的两类数据作为未知异常类型的数据;
训练集分配如下:
对于极限学习机算法,训练集由正常类数据、异常类型1、异常类型2的数据组成;
对于单分类极限学习机算法,训练集仅由与极限学习机算法的训练集中相同正常类数据组成;
对于孤立森林算法,不需要训练过程;
测试集分配如下:
分别对未知异常和已知异常的测试集进行测试,以验证模型的有效性;
已知异常检测:三个异常检测器的测试集相同,由正常类型、异常类型1以及异常类型2的数据组成。
未知异常检测:三个异常检测器的测试集相同,由正常类型、异常类型3以及异常类型4的数据组成。
在一种实现方式中,所述步骤1-2中数据预处理包括数据标准化处理,所述数据标准化处理采用Z-score标准化方法,通过计算原始数据的均值和方差获得标准化的新数据,新数据服从均值为0,标准差为1的正态分布;新数据x*通过下列公式计算得到:
x*=(x-μ)/σ
其中,μ为原始数据x的均值,σ为原始数据的标准差。
在一种实现方式中,所述步骤1-2中数据预处理还包括数据降噪,所述数据降噪采用移动平均滤波法对数据进行平滑降噪。
在一种实现方式中,所述步骤1-3中采用主成分分析算法PCA(PrincipalComponent Analysis)对多维数据进行特征提取,挑选出具有代表性的、有效性的成分构成新的特征向量。
在一种实现方式中,所述步骤1-5中采用多数投票法对监督异常检测器、半监督异常检测器和无监督异常检测器的输出结果进行集成决策,获得测试集中测试数据的检测结果,检测结果包括正常结果或异常结果。
在一种实现方式中,所述步骤2中采用关联规则挖掘算法实现根因分析,所述关联规则挖掘算法能够从网络设备监控数据集的测试集中识别出频繁出现的数据属性集,所述频繁出现的数据属性集即为异常根因,从而实现异常数据定位。
在一种实现方式中,所述步骤2中关联规则挖掘算法为Apriori算法,针对网络设备监控数据集的测试集,通过不断迭代,找到频繁出现的数据属性集,所述频繁出现的数据属性集即为异常根因。
有益效果:
本发明采用了集成学习算法实现异常检测,通过集成学习结合多种异常检测算法的结果,使得集成异常检测模型的多样性可以弥补各个异常检测算法在特定领域的不足;在触发异常后,利用根因分析对异常属性进行定位,尽早帮助运维人员识别异常信息,确保早期故障快速恢复,将被动转变为主动维护,保障设备资源稳定正常运行。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为异常检测算法分类示意图。
图2为本申请实施例提供的方法的流程示意图。
图3为本申请实施例提供的方法步骤1的流程示意图。
图4为本申请实施例提供的方法步骤1-1数据集分配示意图。
具体实施方式
下面将结合附图,对本发明的实施例进行描述。
本申请实施例提出了一种基于集成异常检测器与根因分析结合的异常数据定位方法,可以应用于网络设备监控数据的异常定位场景,基于网络设备的监控数据进行数据预处理,获得网络设备监控数据集,对网络设备监控数据集进行异常检测,发现网络设备资源的异常信息;利用根因分析对异常属性进行定位,帮助运维人员尽早识别异常信息,确保早期故障快速恢复,将被动转变为主动维护,保障网络设备资源稳定正常运行。
本申请实施例公开了一种基于集成异常检测器与根因分析结合的异常数据定位方法,如图2所示,包括:
步骤1,对网络设备监控数据集进行异常检测,获得检测结果;所述异常检测采用集成异常检测器进行检测,所述集成异常检测器由监督异常检测器、半监督异常检测器和无监督异常检测器进行集成学习获得;所述检测结果包括正常结果和异常结果;
步骤2,对异常结果进行根因分析,获得异常根因,实现异常数据定位。
异常检测算法主要通过无监督、半监督以及监督的方法实现,如图1所示。
监督异常检测算法需要将数据集分为训练集和测试集,训练集和测试集都需包含正常和异常两类数据,并标明标签。首先利用训练集训练学习得到检测模型,然后用测试集进行测试性能。监督异常检测模型与常用的分类识别模型相似,但异常检测中的类别是不均衡的。监督异常检测算法通过对已有的分类算法进行改进来缓解不均衡的影响。但是监督技术需要假设异常是已知的,通过对已知异常类进行训练才能正确诊断该类异常情况,该技术要求能正确标记正常和异常的标签,然而在许多实际应用场景中,设备的异常事先并不知道,可能会在测试阶段自发的进行。
半监督异常检测算法的数据集由训练集和测试集组成,但训练集仅包含设备运行的正常数据。该算法主要通过学习正常类样本的特征来构建检测模型,描述了设备的正常运行状况;在测试阶段,通过将测试样本输入检测模型,比较待测样本与所学模型的偏离程度给定相应异常分数,再将异常分数与设定阈值进行比较来判定该测试样例是否异常。半监督技术是基于单分类的框架实现异常检测工作的。
无监督异常检测算法是三种方式中最灵活的,不需要数据的标签,不需要划分训练集和测试集。通过数据集的内在信息将偏离大部分数据的实例判决为异常,典型的异常检测算法有基于密度和距离的算法估计。实际应用中的异常检测工作通常都是针对于未标记的大型数据,采用无监督算法进行异常检测应用更方便、更广泛。
综上,监督异常检测算法在训练过程中,会学习已知异常类型的样本集,根据学习到的知识库,对测试样例进行匹配,只能完成已知异常类型的检测。而实际应用中,通常设备发生的异常是未知的,获取设备所有可能会发生的异常模式极其困难,且不现实。因此,采用无监督或者半监督异常检测器对未知异常模式进行识别是必要的。但在检测已知异常时,无监督和半监督检测器的准确率又低于监督异常检测器。综上所述,本申请实施例提出一种集成监督异常检测算法、半监督异常检测算法和无监督异常检测算法的集成异常检测器,实现了综合检测已知异常和未知异常,本申请实施例提出的集成异常检测器综合弥补了三类算法在特定领域的不足,具有多样性和鲁棒性。
本实施例中,所述步骤1中监督异常检测器选用极限学习机算法,半监督异常检测器选用单分类极限学习机算法,无监督异常检测器选用孤立森林算法。
本实施例中,所述步骤1的流程图如图3所示,包括:
步骤1-1:根据集成异常检测器中不同异常检测算法对数据集的要求,完成网络设备监控数据集分配;所述网络设备监控数据集包括训练集和测试集;
所述网络设备监控数据集的数据属性包括网络响应时间、CPU、内存、带宽利用率、吞吐量、包转发率和端口流量;
①为验证提出的集成异常检测器的有效性,需要将网络设备监控数据集划分为5个类别的数据,其中,类别0代表正常类数据,在网络设备处于正常运行状态下采集获得;类别1代表异常类型1数据,类别2代表异常类型2数据,异常类型1数据和异常类型2数据在网络设备处于经常出现异常运行状态的两种情况下进行采集获得,本实施例中,异常类型1数据在网络设备出现路由配置错误的异常运行状态下采集,异常类型2数据在网络设备出现路由负载过高的异常运行状态下采集;类别3代表异常类型3数据,类别4代表异常类型4数据,异常类型3数据和异常类型4数据在网络设备处于偶尔出现异常运行状态的两种情况下进行采集获得,本实施例中,异常类型3数据在网络设备线路故障的异常运行状态下采集,异常类型4数据在网络设备出现SNMP(Simple Network Management Protocol,简单网络管理协议)进程关闭的异常运行状态下采集;另外,异常类型1和异常类型2的两类数据作为已知异常类型的数据,异常类型3和异常类型4的两类数据作为未知异常类型的数据,关于网络设备监控数据集的划分说明图如图4所示。
②训练过程,所述训练集分配如下:
对于极限学习机ELM算法,训练集由正常类数据、异常类型1、异常类型2的数据组成;
对于单分类极限学习机OC-ELM算法,训练集仅由与极限学习机算法的训练集中相同正常类数据组成;
对于孤立森林算法,不需要训练过程;
③测试过程,所述测试集分配如下:
分别对未知异常和已知异常的测试集进行测试,以验证模型的有效性。
已知异常检测:三个异常检测器的测试集相同,由正常样本、异常类型1以及异常类型2的数据组成。
未知异常检测:三个异常检测器的测试集相同,由正常样本、异常类型3以及异常类型4的数据组成。
异常类型1和异常类型2的两类数据是由监督学习算法进行训练学习,需要的数据量大,诊断率也较高,故这两类数据在网络设备经常发生的两种异常情况下进行采集获取;异常类型3和异常类型4代表未知异常的发生,不需要参与训练过程,实际情况中一般数据量较小,因此在网络设备处于偶尔出现异常运行状态的两种情况下进行采集获得。
步骤1-2:数据预处理,包括数据标准化处理、数据降噪等操作;
①数据标准化处理采用Z-score标准化方法,通过计算原始数据的均值和方差来得到标准化的新数据,新数据服从均值为0,标准差为1的正态分布。新数据x*通过下列公式计算得到:
x*=(x-μ)/σ
其中,μ为原始数据x的均值,σ为原始数据的标准差。
②数据降噪:采用移动平均滤波方法对数据进行平滑降噪。
步骤1-3:特征提取,采用主成分分析算法(Principal Component Analysis,PCA)对多维数据进行特征提取,挑选出具有代表性的、有效性的成分构成新的特征向量;
步骤1-4:分别将提取后的数据输入到集成异常检测器中的监督异常检测器、半监督异常检测器和无监督异常检测器中进行训练和测试;
步骤1-5:针对测试集,采用多数投票法对三类异常检测器的输出结果进行集成决策,获得测试集中测试数据的检测结果,所述检测结果包括正常结果或异常结果。
本实施例中,所述步骤2是将集成异常检测器与根因分析算法结合,在利用集成异常检测器检测出异常后,采用根因分析算法对数据集进行分析,找出导致异常的具体属性,帮助运维人员识别异常根因,尽早进行预防维护,避免设备产生更为严重的故障失效。本实施例中采用关联规则挖掘算法实现根因分析,所述关联规则挖掘算法能够从网络设备监控数据集的测试集中识别出频繁出现的数据属性集,所述频繁出现的数据属性集即为异常根因,实现异常数据定位。
本实施例中的关联规则算法采用Apriori算法,通过不断迭代,找到最大的频繁属性集,来作为异常数据的根因,实现根因分析。Apriori算法是通过不断扫描整个网络设备监控数据集的测试集,计算所有项集的支持度来找出最终的频繁项集。比如在网络设备监控数据集中,选择异常类型2数据(即路由负载过高的数据集)作为测试集,在步骤1中,检测结果为异常结果,则步骤2中选择路由负载过高的异常数据集,通过Apriori算法挖掘与路由负载过高情形相关的频繁属性集合是CPU过高、丢包率过高等,因此定位异常原因可能是此时通过路由器的数据量过大,承载流量过大导致的CPU、丢包率等属性指标出现异常,最终导致路由负载过高。
本发明提供了一种基于集成异常检测器与根因分析结合的异常数据定位方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,包括:
步骤1,对网络设备监控数据集进行异常检测,获得检测结果;所述异常检测采用集成异常检测器进行检测,所述集成异常检测器由监督异常检测器、半监督异常检测器和无监督异常检测器进行集成学习获得;所述检测结果包括正常结果和异常结果;
步骤2,对异常结果进行根因分析,获得异常根因,实现异常数据定位。
2.根据权利要求1所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,步骤1包括:
步骤1-1,根据集成异常检测器对网络设备监控数据集的要求,完成网络设备监控数据集分配;所述网络设备监控数据集包括训练集和测试集;
步骤1-2:对网络设备监控数据集进行数据预处理;
步骤1-3:对预处理后的数据进行特征提取,获得提取后的数据;
步骤1-4:分别将提取后的数据输入到集成异常检测器中的监督异常检测器和半监督异常检测器中进行训练和测试,输入到无监督异常检测器中进行测试;
步骤1-5:针对测试集,对监督异常检测器、半监督异常检测器和无监督异常检测器的输出结果进行集成决策,获得检测结果。
3.根据权利要求1所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1中监督异常检测器采用极限学习机算法,半监督异常检测器采用单分类极限学习机算法,无监督异常检测器采用孤立森林算法。
4.根据权利要求3所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1-1中网络设备监控数据集分配包括划分数据集、训练集分配和测试集分配;
所述网络设备监控数据集的数据属性包括网络响应时间、CPU、内存、带宽利用率、吞吐量、包转发率和端口流量;
将网络设备监控数据集划分为5个类别的数据,记为类别0~类别4,其中,类别0代表正常类数据,在网络设备处于正常运行状态下采集获得;类别1代表异常类型1数据,类别2代表异常类型2数据,异常类型1数据和异常类型2数据在网络设备处于经常出现异常运行状态的两种情况下进行采集获得;类别3代表异常类型3数据,类别4代表异常类型4数据,异常类型3数据和异常类型4数据在网络设备处于偶尔出现异常运行状态的两种情况下进行采集获得;另外,异常类型1和异常类型2的两类数据作为已知异常类型的数据,异常类型3和异常类型4的两类数据作为未知异常类型的数据;
所述训练集分配如下:
对于极限学习机算法,训练集由正常类数据、异常类型1、异常类型2的数据组成;
对于单分类极限学习机算法,训练集仅由与极限学习机算法的训练集中相同正常类数据组成;
对于孤立森林算法,不需要训练过程;
所述测试集分配如下:
分别对未知异常和已知异常的测试集进行测试,
已知异常检测:三个异常检测器的测试集相同,由正常类型、异常类型1以及异常类型2的数据组成;
未知异常检测:三个异常检测器的测试集相同,由正常类型、异常类型3以及异常类型4的数据组成。
5.根据权利要求2所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1-2中数据预处理包括数据标准化处理,所述数据标准化处理采用Z-score标准化方法,通过计算原始数据的均值和方差获得标准化的新数据,新数据服从均值为0,标准差为1的正态分布;新数据x*通过下列公式计算得到:
x*=(x-μ)/σ
其中,μ为原始数据x的均值,σ为原始数据的标准差。
6.根据权利要求5所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1-2中数据预处理还包括数据降噪,所述数据降噪采用移动平均滤波法对数据进行平滑降噪。
7.根据权利要求2所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1-3中采用主成分分析算法PCA对多维数据进行特征提取,获得特征向量。
8.根据权利要求2所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤1-5中采用多数投票法对监督异常检测器、半监督异常检测器和无监督异常检测器的输出结果进行集成决策,获得测试集中测试数据的检测结果,检测结果包括正常结果或异常结果。
9.根据权利要求1所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤2中采用关联规则挖掘算法实现根因分析,所述关联规则挖掘算法能够从网络设备监控数据集的测试集中识别出频繁出现的数据属性集,所述频繁出现的数据属性集即为异常根因,从而实现异常数据定位。
10.根据权利要求9所述的一种基于集成异常检测器与根因分析结合的异常数据定位方法,其特征在于,所述步骤2中关联规则挖掘算法为Apriori算法,针对网络设备监控数据集的测试集,通过不断迭代,找到频繁出现的数据属性集,所述频繁出现的数据属性集即为异常根因。
CN202111440027.9A 2021-11-30 2021-11-30 基于集成异常检测器与根因分析结合的异常数据定位方法 Pending CN114168374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111440027.9A CN114168374A (zh) 2021-11-30 2021-11-30 基于集成异常检测器与根因分析结合的异常数据定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111440027.9A CN114168374A (zh) 2021-11-30 2021-11-30 基于集成异常检测器与根因分析结合的异常数据定位方法

Publications (1)

Publication Number Publication Date
CN114168374A true CN114168374A (zh) 2022-03-11

Family

ID=80481784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111440027.9A Pending CN114168374A (zh) 2021-11-30 2021-11-30 基于集成异常检测器与根因分析结合的异常数据定位方法

Country Status (1)

Country Link
CN (1) CN114168374A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500250A (zh) * 2022-04-18 2022-05-13 中国电子科技集团公司第二十八研究所 一种云模式下体系联动的综合运维系统及方法
CN115756919A (zh) * 2022-11-10 2023-03-07 上海鼎茂信息技术有限公司 一种面向多维数据的根因定位方法及系统
CN117437208A (zh) * 2023-11-10 2024-01-23 北京交通大学 使用多传感器融合的轨道异常检测方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500250A (zh) * 2022-04-18 2022-05-13 中国电子科技集团公司第二十八研究所 一种云模式下体系联动的综合运维系统及方法
CN114500250B (zh) * 2022-04-18 2022-06-28 中国电子科技集团公司第二十八研究所 一种云模式下体系联动的综合运维系统及方法
CN115756919A (zh) * 2022-11-10 2023-03-07 上海鼎茂信息技术有限公司 一种面向多维数据的根因定位方法及系统
CN115756919B (zh) * 2022-11-10 2023-10-31 上海鼎茂信息技术有限公司 一种面向多维数据的根因定位方法及系统
CN117437208A (zh) * 2023-11-10 2024-01-23 北京交通大学 使用多传感器融合的轨道异常检测方法及系统

Similar Documents

Publication Publication Date Title
CN114168374A (zh) 基于集成异常检测器与根因分析结合的异常数据定位方法
CN108566364B (zh) 一种基于神经网络的入侵检测方法
CN110336827B (zh) 一种基于异常字段定位的Modbus TCP协议模糊测试方法
Zhang et al. A survey of anomaly detection methods in networks
US7533070B2 (en) Automatic fault classification for model-based process monitoring
Shirazi et al. Evaluation of anomaly detection techniques for scada communication resilience
CN112541022A (zh) 异常对象检测方法、装置、存储介质及电子设备
CN116781430B (zh) 用于燃气管网的网络信息安全系统及其方法
CN113206834B (zh) 一种基于逆向技术的未知协议模糊测试自动化方法
CN114553591B (zh) 随机森林模型的训练方法、异常流量检测方法及装置
KR20210115991A (ko) 시계열 데이터 분석을 이용한 네트워크 이상징후 탐지 방법 및 장치
US20230146636A1 (en) System and method of detecting abnormal act threatening to security based on artificial intelligence
CN112632535A (zh) 攻击检测方法、装置、电子设备及存储介质
Basile et al. An approach for detecting and distinguishing errors versus attacks in sensor networks
CN114531283B (zh) 入侵检测模型的鲁棒性测定方法、系统、存储介质及终端
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
Jin et al. Changepoint-based anomaly detection in a core router system
Rapaka et al. Intrusion detection using radial basis function network on sequences of system calls
CN111784404B (zh) 一种基于行为变量预测的异常资产识别方法
Petrovic et al. Labelling clusters in an intrusion detection system using a combination of clustering evaluation techniques
CN117336055A (zh) 一种网络异常行为检测方法、装置、电子设备及存储介质
CN109698835B (zh) 一种面向https隐蔽隧道的加密木马检测方法
CN108761250B (zh) 一种基于工控设备电压电流的入侵检测方法
Zhang et al. Applied sensor fault detection and validation using transposed input data PCA and ANNs
CN113468555A (zh) 一种客户端访问行为识别方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination