CN102664961A

CN102664961A - MapReduce环境下的异常检测方法

Info

Publication number: CN102664961A
Application number: CN2012101372322A
Authority: CN
Inventors: 王颖; 孟洛明; 王凯; 陈兴渝; 高志鹏; 王智立; 邱雪松
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-05-04
Filing date: 2012-05-04
Publication date: 2012-09-12
Anticipated expiration: 2032-05-04
Also published as: CN102664961B

Abstract

本发明公开了一种MapReduce环境下的异常检测方法，包括以下步骤：S1：采集MapReduce中各从节点的性能指标值，并传递给主节点；S2：根据性能指标的类别对采集到的各从节点的性能指标值进行分类；S3：通过基于密度的聚类方法对分类后得到的各从节点的每一类性能指标值进行聚类；S4：对聚类后的结果进行分析，记录得到的异常结果并输出。本发明的方法算法简单、复杂度低，并且无需等到任务执行完毕，它可以在任务执行过程中即时地对报告上来的数据进行分析处理并即时输出异常结果，可以进行在线检测，实时性高。

Description

MapReduce环境下的异常检测方法

技术领域

本发明涉及信息技术领域，尤其涉及一种MapReduce环境下的异常检测方法。

背景技术

随着虚拟化等关键技术的发展，云计算作为一种新兴的信息技术运用模式得到越来越广泛的关注和普及。通过采用精心设计的系统架构对设备进行组织管理，云计算能够提供十分强大的计算能力。一个著名的云计算架构是Google的MapReduce，它能将任务并行且分布式地运行于大型的集群中。

MapReduce中运行的多是一些耗时较长的任务，不同的任务有不同的需求，同一任务每次执行的时间也不尽相同，一般会相差几分钟甚至更多时间，而且不同的硬件设施也会导致响应时间不同，因此，很难定义一个超时阀值来指示任务是否异常。此外，MapReduce还具有分布式多节点并行运算的特点。由于需要同时检测多个计算节点，且这些节点相互影响，这也增加了异常检测的难度。当系统发生异常时，会导致完成任务所需的时间增加并影响单位时间的数据吞吐量，严重时更会中断任务，这些都会影响运行在云上的企业业务，给企业自身及其客户带来损失。因此需要及时地检测系统异常，以减少和避免损失。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：提供一种及时检测系统异常、以减少和避免损失的MapReduce环境下的异常检测方法。

(二)技术方案

为解决上述问题，本发明提供了一种MapReduce环境下的异常检测方法，包括以下步骤：

S1：采集MapReduce中各从节点的性能指标值，并传递给主节点；

S2：根据性能指标的类别对采集到的各从节点的性能指标值进行分类；

S3：通过基于密度的聚类方法对分类后得到的各从节点的每一类性能指标值进行聚类；

S4：对聚类后的结果进行分析，记录得到的异常结果并输出。

优选地，所述性能指标为即时的操作系统级别的性能指标。

优选地，所述步骤S3对各从节点的某一类性能指标值进行聚类的步骤具体包括：

S31：输入分类后得到的各从节点的某一类性能指标值；

S32：根据所述各从节点的该类性能指标值的大小将所述各从节点的该类性能指标值分为若干集群；其中，一个从节点的该类性能指标值与所在集群中的至少一个其他从节点的该类性能指标值之差小于设定的阈值；

S33：输出聚类后得到的所有集群。

优选地，所述步骤S32具体包括：

S321：对各从节点的该类性能指标值按照从大到小的顺序进行排序；当然，在本发明的其它实施例中，还可以按照从小到大的顺序进行排列；

S322：建立一个空白集群作为当前集群，并指定所述各从节点的该类性能指标值中最大的一个作为当前指向数据，并将所述当前指向数据加入当前集群；

S323：检测所有集群外是否还有剩余的从节点的该类性能指标值，如果没有，则转到步骤S33；如果有，则转到步骤S324；

S324：判断当前指向数据和下一个从节点的该类性能指标值之间的差值与预先设定的阈值之间的关系，如果所述差值小于等于所述预先设定的阈值，则进入步骤S325；否则，如果所述差值大于所述预先设定的阈值，则进入步骤S326；

S325：将所述下一个从节点的该类性能指标值加入到当前集群中，并将所述下一个从节点的该类性能指标值指定为当前指向数据，然后回到步骤S323；

S326：重新建立新的集群作为当前集群，并将所述下一个从节点的该类性能指标值指定为当前指向数据加入当前集群，然后返回到步骤S323。

优选地，步骤S33中输出的各集群按照建立的先后顺序排列。

优选地，所述步骤S4对聚类后的结果进行的分析包括：

计算各个集群内的从节点的该类性能指标值的个数；

定义含有从节点的该类性能指标值个数最多的集群为正常集群，其它集群为异常集群，其中：位置在正常集群之前的集群为值偏高的集群，位置在正常集群之后的集群为值偏低的集群；

输出异常集群中的各从节点的该类性能指标值所对应的信息。

优选地，所述属于值偏高和偏低的集群中的各从节点的该类性能指标值所对应的信息包括：节点名称、异常时刻、性能指标类别、值偏高还是偏低、以及异常程度。

优选地，所述异常程度通过下面的方法得到：

先计算出正常集群中各从节点的该类性能指标值的平均值，然后计算异常集群中的从节点的该类性能指标值与所述平均值之间的差距作为该从节点的该类性能指标值的异常程度。

(三)有益效果

1、本发明的方法无需等到任务执行完毕，它可以在任务执行过程中即时地对报告上来的数据进行分析处理并即时输出异常结果，可以进行在线检测，实时性高。当然本发明的方法也可以进行离线检测，只需先记录下任务运行过程中各个时间点的性能指标值，然后对每一个时间点进行检测即可。

2、本发明方法的算法复杂度低，仅为O(n)。算法处理过程简单，从最大值开始，遍历一次所有节点即能得出所有的集群以及其他相关信息。

3、本发明最后的得到的异常信息多，包括异常节点名称，异常时刻，异常的性能指标，其值偏高或是偏低以及其异常程度，便于后期处理。

4、本发明采用采用操作系统(OS)级别的性能指标进行检测，操作系统都能通过软件直接获取操作系统级别的性能指标，这些信息表示直观，容易理解。

5、通过观察发现：正常情况下，各个从节点的性能指标值的分布相对集中，而异常状况下，异常节点的值偏离较远，因此本发明通过基于密度的聚类算法来对数据进行聚类，以此来分离出正常和异常的数据，分离方便，复杂度低。

附图说明

图1为根据本发明实施例检测方法的步骤流程示意图；

图2为根据本发明实施例检测方法步骤S3的具体步骤流程示意图；

图3为根据本发明实施例检测方法步骤S32的具体步骤流程示意图；

图4为根据本发明实施例检测方法对六个从节点的CPU利用率数据进行排序后的示意图；

图5为对图4所示数据进行聚类的过程示意图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明如下。

如图1所示，本实施例记载了一种MapReduce环境下的异常检测方法，包括以下步骤：

S1：采集MapReduce中各从节点的性能指标值，并传递给主节点。

在本实施例中，所述性能指标为即时的操作系统级别的性能指标。其能通过操作系统自有的软件直接获取，表示直观，容易理解。当然，在本发明的其它实施例中，所述性能指标还可以为其它容易获取的、常见的性能指标。

在本实施例中，所述性能指标为CPU利用率、和/或内存利用率、和/或磁盘I/O速率。当然，在本发明的其它实施例中，所述性能指标还可以为其它操作系统级别的性能指标。

S2：根据性能指标的类别对采集到的各从节点的性能指标值进行分类。

例如，在本实施例中，如果所述性能指标包括CPU利用率和内存利用率，则可以将采集到的各从节点的性能指标值分成CPU利用率类性能指标值和内存利用率类性能指标值。

当然，当性能指标值只有一类时，分类后得到的只有一类各从节点的性能指标值。

本实施例中，假设MapReduce中的各从节点同构。

其中，如图2所示，所述步骤S3对各从节点的某一类性能指标值进行聚类的步骤具体包括：

S31：输入分类后得到的各从节点的某一类性能指标值。

S32：根据所述各从节点的该类性能指标值的大小将所述各从节点的该类性能指标值分为若干集群；其中，一个从节点的该类性能指标值与所在集群中的至少一个其他从节点的该类性能指标值之差小于设定的阈值。

其中，如图3所示，所述步骤S32具体包括：

S321：对各从节点的该类性能指标值按照从大到小的顺序进行排序；

排序的时候需要同时记录每个性能指标值所对应的从节点，因为不同的从节点的性能指标值可能有相同；并且最后需要输出的异常信息中还包括异常节点名称。

S33：输出聚类后得到的所有集群。

其中，输出的各集群按照建立的先后顺序排列。可以看出，输出的所有集群都不相交。

其中，对聚类后的结果进行的分析包括：

计算各个集群内的从节点的该类性能指标值的个数；

定义含有从节点的该类性能指标值个数最多的集群为正常集群，其它集群为异常集群，其中：位置在正常集群之前的集群为值偏高的集群，位置在正常集群之后的集群为值偏低的集群；在本实施例中，如果同时有多个个数最大的集群，则定义最靠前的一个为正常集群，其它为异常集群；

在本实施例中，所述信息包括：节点名称、异常时刻、性能指标类别、值偏高还是偏低、以及异常程度。

其中，所述异常程度通过下面的方法得到：

下面以一个更为具体的实施例来对本发明进行说明：

在本实施例中，实验环境为6个从节点和1个主节点。其中一次实验中收集的某一时刻的6个从节点的CPU利用率，首先对6各从节点的CPU利用率性能指标值进行排序，经过排序后如图4所示，各个从节点命名为node1至node6，每个CPU利用率数据对应了一个节点名。图5表示了对图4所示数据进行聚类的过程。

在本实施例中，步骤S234中预先设定的阈值设置为1。聚类算法首先建立一个集群cluster1作为当前集群，并指定所述各从节点的该类性能指标值中最大的一个——即94.83作为当前指向数据，并将所述当前指向数据加入当前集群cluster1；

检测所有集群(此时即集群cluster1)外有剩余的从节点的该类性能指标值(此时即除了94.83以外的其他所有数据)；

判断当前指向数据94.83和下一个从节点的该类性能指标值94.47之间的差值与预先设定的阈值1之间的关系，得到所述差值小于等于所述预先设定的阈值，则将94.47加入到当前集群cluster1中，并将94.47指定为当前指向数据；

重复上述两段的步骤，直到当前指向数据为92.33；

此时，检测所有集群(此时仍为集群cluster1)外有剩余的从节点的该类性能指标值(此时即85.65)；

判断当前指向数据92.33和下一个从节点的该类性能指标值85.65之间的差值大于预先设定的阈值1，则重新建立新的集群cluster2作为当前集群，并将所述85.65指定为当前指向数据加入当前集群cluster2，然后检测所有集群(此时为集群cluster1和集群cluster2)外已经没有剩余的从节点的该类性能指标值，则输出聚类后得到的所有集群，即集群cluster1和集群cluster2，聚类算法结束。

经过分析后得到，2个集群cluster1和cluster2，其集群大小分别为5和1，因此集群cluster1为正常集群。正常集群cluster1的均值为93.76，通过本方法得到的异常信息为节点85.65所对应的名称为node4的从节点异常，异常性能指标为CPU利用率，异常状况是偏低8.11(93.76-85.65)。

本发明的方法算法简单、复杂度低，并且无需等到任务执行完毕，它可以在任务执行过程中即时地对报告上来的数据进行分析处理并即时输出异常结果，可以进行在线检测，实时性高。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种MapReduce环境下的异常检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的MapReduce环境下的异常检测方法，其特征在于，所述性能指标为即时的操作系统级别的性能指标。

3.如权利要求1所述的MapReduce环境下的异常检测方法，其特征在于，所述步骤S3对各从节点的某一类性能指标值进行聚类的步骤具体包括：

S31：输入分类后得到的各从节点的某一类性能指标值；

S33：输出聚类后得到的所有集群。

4.如权利要求3所述的MapReduce环境下的异常检测方法，其特征在于，所述步骤S32具体包括：

5.如权利要求4所述的MapReduce环境下的异常检测方法，其特征在于，步骤S33中输出的各集群按照建立的先后顺序排列。

6.如权利要求5所述的MapReduce环境下的异常检测方法，其特征在于，所述步骤S4对聚类后的结果进行的分析包括：

计算各个集群内的从节点的该类性能指标值的个数；

7.如权利要求6所述的MapReduce环境下的异常检测方法，其特征在于，所述属于值偏高和偏低的集群中的各从节点的该类性能指标值所对应的信息包括：节点名称、异常时刻、性能指标类别、值偏高还是偏低、以及异常程度。

8.如权利要求7所述的MapReduce环境下的异常检测方法，其特征在于，所述异常程度通过下面的方法得到：