CN109388512A - 针对大规模计算机集群异常程度的评估与分析系统 - Google Patents

针对大规模计算机集群异常程度的评估与分析系统 Download PDF

Info

Publication number
CN109388512A
CN109388512A CN201811276604.3A CN201811276604A CN109388512A CN 109388512 A CN109388512 A CN 109388512A CN 201811276604 A CN201811276604 A CN 201811276604A CN 109388512 A CN109388512 A CN 109388512A
Authority
CN
China
Prior art keywords
node
anomaly
unit
intensity
plug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811276604.3A
Other languages
English (en)
Inventor
程云观
马玉峰
台宪青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu IoT Research and Development Center
Original Assignee
Jiangsu IoT Research and Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu IoT Research and Development Center filed Critical Jiangsu IoT Research and Development Center
Priority to CN201811276604.3A priority Critical patent/CN109388512A/zh
Publication of CN109388512A publication Critical patent/CN109388512A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment

Abstract

本发明提供一种针对大规模计算机集群异常程度的评估与分析系统,采用主从模式的插件式分层架构,包括主插件和从插件;所述从插件主要负责异常程度评估与异常原因分析任务,部署在计算机集群中需要检测的节点上;计算机集群中的节点包括服务器节点、终端节点;终端节点位于最上层;所述主插件用于汇总检测结果与展示;能够部署在计算机集群中任何节点上。终端节点上的主插件用于汇总检测结果与展示;服务器节点上的主插件用于汇总从插件所在节点的检测结果并向上层的主插件所在节点发送。本发明能够为计算机集群中的各节点实时定量评估异常程度,当异常程度超过阈值时自动报警,还可以自动分析导致异常产生的性能指标。

Description

针对大规模计算机集群异常程度的评估与分析系统
技术领域
本发明涉及大规模计算机集群,尤其是一种针对大规模计算机集群异常程度的评估与分析系统。
背景技术
随着大数据、云计算技术的飞速发展,越来越多的企业和个人选择云平台提供的服务,因此对于大规模计算机集群性能可靠性的要求也越来越高。一旦集群的性能出现了问题,将产生极大的损失。这就要求运维人员能够时刻掌握集群的性能运行状态。
计算机集群的运行状态可以通过集群中服务器节点的性能指标来刻画,这些性能指标可大致分为cpu(处理器)、mem(内存)、diskio(磁盘输入输出)、net(网络)四种类型。在集群出现宕机等故障之前,其性能指标会出现异常变化,可以通过实时分析群中每个节点的性能指标评估其异常程度,从而可以及时发现集群出现的性能异常。同时还可以通过对异常发生时刻的性能指标的分析,定位引发异常的性能指标所属类型,辅助运维人员寻找性能异常的原因,提前避免由宕机等可能发生的故障造成的损失。
现有的针对大规模集群的异常分析检测方案,将集群中的服务器节点作为基本分析单位。首先将集群中的节点按照运行状态的相似性划分为不同的检测组,在每个检测组中,认为某一时刻大多数节点的运行状态是正常的,个别性能状态特殊的节点被认为是异常节点。如图1所示,这种方案主要分为四步:
首先是动态分组,即按照运行状态的相似性分为不同的检测组。例如运行相似任务的节点被认为具有相似的性能状态,会被分到一组。
然后是数据转换,即收集代表每个节点运行状态的性能数据,并预处理数据为统一格式方便后续分析。
接着是特征提取,即通过主成分分析等降维手段提取最能表现节点运行状态的性能指标维度,降低时间复杂度。
最后是离群点检测,即利用特征提取后的集群中各个节点的性能数据,通过欧式距离等的偏离程度描述手段,计算各个节点的运行状态的差异,选取跟大多数节点最不一致的那部分节点判定为异常节点。按照此步骤不断循环迭代,定期检测集群的运行状态。
现有的集群异常检测方法,在进行检测前需要冗长的预处理流程,无法满足让运维人员时刻掌握集群运行状况的实时性要求。并且检测结果只有异常与否两种状态,不能定量衡量异常程度的大小,对运维人员的提示功能有限。最重要的是不具备异常定位功能,不能分析出异常原因;对运维人员的指导性有限。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种针对大规模计算机集群异常程度的评估与分析系统,能够为计算机集群中的各节点实时定量评估异常程度,当异常程度超过阈值时自动报警,还可以自动分析导致异常产生的性能指标,协助运维人员进一步分析造成异常的原因。本发明采用的技术方案是:
一种针对大规模计算机集群异常程度的评估与分析系统,采用主从模式的插件式分层架构,包括主插件和从插件;
所述从插件主要负责异常程度评估与异常原因分析任务,部署在计算机集群中需要检测的节点上;计算机集群中的节点包括服务器节点、终端节点;终端节点位于最上层;
所述主插件用于汇总检测结果与展示;能够部署在计算机集群中任何节点上。
终端节点上的主插件用于汇总检测结果与展示;服务器节点上的主插件用于汇总从插件所在节点的检测结果并向上层的主插件所在节点发送。
进一步地,
所述从插件包括信息采集模块、异常程度评估模块、异常原因分析模块;
所述信息采集模块用于计算机集群中节点性能指标信息的采集与预处理;预处理将每个节点的各种性能指标转换成一条多维的时间序列;
所述异常程度评估模块通过设定的滑动窗口大小,利用LOF算法计算信息采集模块输出的多维时间序列来实时分析该节点在时间点p的异常程度;
所述异常原因分析模块用于进一步确定导致产生异常的性能指标维度。
进一步地,所述异常程度评估模块的分析处理过程包括:
S1,根据设定好的滑动窗口大小确定时间点p的第k邻域Nk(p);Nk(p)表示时间点p的第k距离邻域,时间点p的第k距离dk(p,o)表示距离时间点p第k远的时间点o到时间点p的距离;
S2,计算当前时刻即时间点p第k可达距离r-dist(p,o);
其中r-dist(p,o)=max{dk(p,o),d(p,o)},d(p,o)表示时间点p到时间点o的实际距离;
S3,计算当前时刻即时间点p的局部可达密度lrdk(p);
其中
S4,计算局部异常因子其中lrdk(o)为时间点o的局部可达密度;
S5,设定异常阈值,局部异常因子的值若大于等于异常阈值则判定该节点异常。
5.如权利要求4所述的针对大规模计算机集群异常程度的评估与分析系统,其特征在于,
异常原因分析模块的分析处理步骤如下:
B1,去除第i维度的性能指标重新计算局部异常因子得到值LOFk-i(p);
B2,重复执行步骤B1,直到所有维度的性能指标都被单独剔除过一遍;
B3,找到LOFk-i(p)的最小值,该最小值相对应所去掉的性能指标所在维度即为导致产生异常的性能指标维度。
本发明的优点在于:
1、该系统能够根据当前运行状态实时判断计算机集群运行的健康状况,为运维人员时刻掌握集群的运行状态提供了有益帮助。
2、该系统可以定量衡量集群的异常程度,对比仅仅异常与否的检测结果能让运维人员更加了解集群性能状态。
3、能够分析得出导致异常产生的性能指标类型,辅助运维人员进行故障排查,提高了运维人员的工作效率。
附图说明
图1为现有集群异常检测方法的流程图。
图2为本发明的架构示意图。
图3为本发明的从插件结构示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
本发明提供一种针对大规模计算机集群异常程度的评估与分析系统,是一种基于LOF(Local Outlier Factor局部异常因子算法)算法的集群运行性能异常程度实时评估与异常定位系统;
本系统采用主从模式的插件式分层架构,包括主插件Master和从插件Slave;
所述从插件主要负责异常程度评估与异常原因分析任务,部署在计算机集群中需要检测的节点上;计算机集群中的节点包括服务器节点、终端节点;终端节点位于最上层;
所述主插件用于汇总检测结果与展示;能够部署在计算机集群中任何节点上;即一个节点上可以同时部署从插件和主插件,如图2所示;
终端节点上的主插件用于汇总检测结果与展示;服务器节点上的主插件用于汇总从插件所在节点的检测结果(可能包括该服务器节点上从插件的检测结果和其下层的从插件所在节点的检测结果,或仅包含其下层的从插件所在节点的检测结果)并向上层的主插件所在节点发送;
其中从插件包括信息采集模块、异常程度评估模块、异常原因分析模块;每个从插件负责本节点的信息采集和分析工作;如图3所示;
所述信息采集模块用于计算机集群中节点性能指标信息的采集与预处理;刻画计算机集群的运行状态,必须采集计算机集群的各种性能指标;预处理将每个节点的各种性能指标转换成一条多维的时间序列,便于异常程度评估模块进行分析处理;一种性能指标对应于时间序列的一个维度;
所述异常程度评估模块通过设定一定宽度的滑动窗口大小,利用LOF算法计算信息采集模块输出的多维时间序列来实时分析该节点在时间点p即p时刻的异常程度;主要步骤如下:
S1,根据设定好的滑动窗口大小确定时间点p的第k邻域Nk(p);Nk(p)表示时间点p的第k距离邻域,时间点p的第k距离dk(p,o)表示距离时间点p第k远的时间点o到时间点p的距离;
S2,计算当前时刻即时间点p第k可达距离r-dist(p,o);“-”这里不是表示减号,是一条横杠;
其中r-dist(p,o)=max{dk(p,o),d(p,o)},d(p,o)表示时间点p到时间点o的实际距离;
S3,计算当前时刻即时间点p的局部可达密度lrdk(p);
其中即时间点p的第k邻域内的其他时间点的可达距离的平均值的倒数;
S4,计算局部异常因子其中lrdk(o)为时间点o的局部可达密度;该局部异常因子值即时间点p与邻域内其他时间点的局部可达密度的比值,这个比值越接近1,说明时间点p的局部密度和周围时间点差不多,即时间点p和周围点属于同一簇,若比值大于1,说明时间点p的局部可达密度小于其邻域点,越大说明异常程度越高,因用以这个局部异常因子值作为定量判断异常程度的度量;
S5,设定异常阈值,比如1,局部异常因子的值若大于等于异常阈值则判定该节点异常;降低误报率;
异常原因分析模块通过改进LOF算法,确定异常发生的性能指标维度,只有当上一模块认定此刻该节点出现异常时,才需要进行异常原因分析,否则显示集群运行状态为正常。异常原因分析模块的分析处理步骤如下:
B1,去除第i维度的性能指标重新计算局部异常因子得到值LOFk-i(p);
B2,重复执行步骤B1,直到所有维度的性能指标都被单独剔除过一遍;
B3,找到LOFk-i(p)的最小值,由于LOFk-i(p)最小说明去除的那个维度的性能指标对异常的贡献程度最大,所以该最小值相对应所去掉的性能指标所在维度即为导致产生异常的性能指标维度。例如去掉cpu用户态时间这个性能指标后,LOFk-i(p)值最小,那么说明此时产生的异常是由CPU的性能异常导致的。
主插件用于汇总检测结果与展示;只有终端节点上的主插件才有展示功能,其余服务器节点上的主插件汇总下层的从插件所在节点的检测结果,或者汇总该服务器节点(若其上设有从插件)从插件检测结果和下层的从插件所在节点的检测结果,向上层的主插件所在节点发送。

Claims (5)

1.一种针对大规模计算机集群异常程度的评估与分析系统,其特征在于,采用主从模式的插件式分层架构,包括主插件和从插件;
所述从插件主要负责异常程度评估与异常原因分析任务,部署在计算机集群中需要检测的节点上;计算机集群中的节点包括服务器节点、终端节点;终端节点位于最上层;
所述主插件用于汇总检测结果与展示;能够部署在计算机集群中任何节点上。
2.如权利要求1所述的针对大规模计算机集群异常程度的评估与分析系统,其特征在于,
终端节点上的主插件用于汇总检测结果与展示;服务器节点上的主插件用于汇总从插件所在节点的检测结果并向上层的主插件所在节点发送。
3.如权利要求1或2所述的针对大规模计算机集群异常程度的评估与分析系统,其特征在于,
所述从插件包括信息采集模块、异常程度评估模块、异常原因分析模块;
所述信息采集模块用于计算机集群中节点性能指标信息的采集与预处理;预处理将每个节点的各种性能指标转换成一条多维的时间序列;
所述异常程度评估模块通过设定的滑动窗口大小,利用LOF算法计算信息采集模块输出的多维时间序列来实时分析该节点在时间点p的异常程度;
所述异常原因分析模块用于进一步确定导致产生异常的性能指标维度。
4.如权利要求3所述的针对大规模计算机集群异常程度的评估与分析系统,其特征在于,
所述异常程度评估模块的分析处理过程包括:
S1,根据设定好的滑动窗口大小确定时间点p的第k邻域Nk(p);Nk(p)表示时间点p的第k距离邻域,时间点p的第k距离dk(p,o)表示距离时间点p第k远的时间点o到时间点p的距离;
S2,计算当前时刻即时间点p第k可达距离r-dist(p,o);
其中r-dist(p,o)=max{dk(p,o),d(p,o)},d(p,o)表示时间点p到时间点o的实际距离;
S3,计算当前时刻即时间点p的局部可达密度lrdk(p);
其中
S4,计算局部异常因子其中lrdk(o)为时间点o的局部可达密度;
S5,设定异常阈值,局部异常因子的值若大于等于异常阈值则判定该节点异常。
5.如权利要求4所述的针对大规模计算机集群异常程度的评估与分析系统,其特征在于,
异常原因分析模块的分析处理步骤如下:
B1,去除第i维度的性能指标重新计算局部异常因子得到值LOFk-i(p);
B2,重复执行步骤B1,直到所有维度的性能指标都被单独剔除过一遍;
B3,找到LOFk-i(p)的最小值,该最小值相对应所去掉的性能指标所在维度即为导致产生异常的性能指标维度。
CN201811276604.3A 2018-10-30 2018-10-30 针对大规模计算机集群异常程度的评估与分析系统 Pending CN109388512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811276604.3A CN109388512A (zh) 2018-10-30 2018-10-30 针对大规模计算机集群异常程度的评估与分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811276604.3A CN109388512A (zh) 2018-10-30 2018-10-30 针对大规模计算机集群异常程度的评估与分析系统

Publications (1)

Publication Number Publication Date
CN109388512A true CN109388512A (zh) 2019-02-26

Family

ID=65428248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811276604.3A Pending CN109388512A (zh) 2018-10-30 2018-10-30 针对大规模计算机集群异常程度的评估与分析系统

Country Status (1)

Country Link
CN (1) CN109388512A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737648A (zh) * 2019-09-17 2020-01-31 平安科技(深圳)有限公司 性能特征降维方法及装置、电子设备及存储介质
CN113986515A (zh) * 2021-12-24 2022-01-28 统信软件技术有限公司 为插件运行创建沙箱环境的方法和装置以及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761685A (zh) * 2014-01-23 2014-04-30 国家电网公司 基于MapReduce的电力数据并行化异常检测方法
CN105608895A (zh) * 2016-03-04 2016-05-25 大连理工大学 一种基于局部异常因子的城市交通拥堵路段检测方法
CN107528904A (zh) * 2017-09-01 2017-12-29 星环信息科技(上海)有限公司 用于数据分布式异常检测的方法与设备
US20180077230A1 (en) * 2016-09-14 2018-03-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for switching between servers in server cluster

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761685A (zh) * 2014-01-23 2014-04-30 国家电网公司 基于MapReduce的电力数据并行化异常检测方法
CN105608895A (zh) * 2016-03-04 2016-05-25 大连理工大学 一种基于局部异常因子的城市交通拥堵路段检测方法
US20180077230A1 (en) * 2016-09-14 2018-03-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for switching between servers in server cluster
CN107528904A (zh) * 2017-09-01 2017-12-29 星环信息科技(上海)有限公司 用于数据分布式异常检测的方法与设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737648A (zh) * 2019-09-17 2020-01-31 平安科技(深圳)有限公司 性能特征降维方法及装置、电子设备及存储介质
WO2021051578A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 性能特征降维方法及装置、电子设备及存储介质
CN113986515A (zh) * 2021-12-24 2022-01-28 统信软件技术有限公司 为插件运行创建沙箱环境的方法和装置以及计算设备

Similar Documents

Publication Publication Date Title
CN110287552B (zh) 基于改进随机森林算法的电机轴承故障诊断方法及系统
JP6144408B2 (ja) エネルギー計測情報ラベリングシステムおよびエネルギー計測情報ラベリングサーバ
JP5875726B1 (ja) 異常予兆診断装置のプリプロセッサ及びその処理方法
WO2015176565A1 (zh) 一种基于多维时间序列的电气设备故障预测方法
US20120271587A1 (en) Equipment status monitoring method, monitoring system, and monitoring program
CN109489977B (zh) 基于KNN-AdaBoost的轴承故障诊断方法
CN104698343A (zh) 基于历史录波数据的电网故障判断方法和系统
CN104506376B (zh) 一种具有帧起始敏感同步触发功能的多通道冗余式can总线测试系统
CN109034400B (zh) 一种变电站异常量测数据预测平台系统
CN103797468A (zh) 系统异常的自动化检测
JP2015011027A (ja) 時系列データにおける異常を検出する方法
DE102015204598A1 (de) System zum Bereitstellen von Informationen, die mit einem Fahrzeugfehler verknüpft sind, einem Benutzer
CN106598020A (zh) 一种基于bit和案例融合的装备故障诊断方法及系统
CN112734977B (zh) 一种基于物联网的设备风险预警系统及算法
CN113723452A (zh) 一种基于kpi聚类的大规模异常检测系统
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN110580492A (zh) 一种基于小幅波动检测的轨道电路故障前兆发现方法
CN109388512A (zh) 针对大规模计算机集群异常程度的评估与分析系统
CN112668612A (zh) 一种基于网格的局部放电信号聚类分析方法
CN110553789A (zh) 一种压阻式压力传感器的状态检测方法、装置及制动系统
CN103529337B (zh) 设备故障与电气量信息间非线性相关关系的识别方法
CN105930255A (zh) 一种系统健康度预测方法及装置
CN115469585B (zh) 一种基于大数据的水电机组状态监测方法及系统
CN106442830A (zh) 变压器油中气体含量告警值的检测方法和系统
CN115481183A (zh) 一种实时数据处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190226

RJ01 Rejection of invention patent application after publication