CN109978038A

CN109978038A - 一种集群异常判定方法及装置

Info

Publication number: CN109978038A
Application number: CN201910206243.3A
Authority: CN
Inventors: 蔡方龙; 杨帆; 华石榴; 钟彬; 裘愉锋
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-07-05
Anticipated expiration: 2039-03-19
Also published as: CN109978038B

Abstract

本发明公开了一种集群异常判定方法及装置，该方法为：根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率，确定所述第一主机的第一判定结果；根据所述至少一个主机中，每个主机在所述预设时刻的文件空间使用增长率，确定所述第一主机的第二判定结果；根据所述至少一个主机中，每个主机在所述预设时刻起之前第二预设时长内，该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定所述第一主机的第三判定结果；根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量，根据所述特征向量确定所述第一主机是否异常；若所述第一主机异常，则确定所述集群异常。

Description

一种集群异常判定方法及装置

技术领域

本发明涉及集群运维领域，尤其涉及一种集群异常判定方法及装置。

背景技术

集群的日常运行维护的过程中，需要及时对集群的运行状况进行评估，以发现集群异常，进而解决异常对应的问题，对集群运行状况的掌握程度影响了对集群异常进行定位的及时有效性。

传统的集群运维过程中，判断运维状况一般需要对应用日志中的关键字进行分析。现有技术中，关键词搜索与语义解析，若由人工完成，耗时极长；若编写脚本进行分析，需要耗费大量的计算资源，自然语言解析生成的模型也十分复杂，难度很高，整个过程耗时也较长。而且不同集群的判定方法仅针对单个集群，指标无法统一，不具有普适性。

因此现有技术中，通过关键词搜索和语义分析确定集群是否异常的方法耗时较长，且不具有普适性，是一个亟待解决的问题。

发明内容

本申请实施例提供一种集群异常判定方法及装置，解决了现有技术中通过关键词搜索和语义分析确定集群是否异常的方法耗时较长，且不具有普适性的问题。

本申请实施例提供一种集群异常判定方法，包括：

根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率，确定所述第一主机的第一判定结果；所述第一主机为所述至少一个主机中任一主机；

根据所述至少一个主机中，每个主机在所述预设时刻的文件空间使用增长率，确定所述第一主机的第二判定结果；

根据所述至少一个主机中，每个主机在所述预设时刻起之前第二预设时长内，该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定所述第一主机的第三判定结果；

根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量，根据所述特征向量确定所述第一主机是否异常；若所述第一主机异常，则确定所述集群异常。

可选的，所述确定第一主机的第一判定结果，包括：

根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率，获取所述第一主机在所述预设时刻的残差值；

若所述残差值不位于第一区间，则确定所述第一判定结果为第一默认值和所述残差值，否则为第二默认值。

可选的，所述确定所述第一主机的第二判定结果，包括：

若所述第一主机在所述预设时刻的使用增长率不位于第二区间，则确定所述第二判定结果为第三默认值和所述使用增长率，否则为第四默认值。

可选的，所述第一主机的第三判定结果，包括：

若所述第一主机在所述第二预设时长内，所述第一主机对所述预设类型数据的处理量与所述第一主机文件空间使用增长率的皮尔逊相关性系数不位于第三区间，则确定所述第三判定结果为第五默认值和所述皮尔逊相关系数，否则为第六默认值。

可选的，所述根据所述特征向量确定所述第一主机是否异常，包括：

按照决策树的判定次序，依次提取所述特征向量中每个维度的特征值，按照以下方式确定该维度的特征值在所述决策树中对应的决策分支的标签为正常或异常：若该特征值在该维度标签为正常的数据集合中，则确定该特征值在所述决策树中对应的决策分支的标签为正常；若该特征值不在该维度标签为正常的数据集合中，则确定该特征值在所述决策树中对应的决策分支的标签为异常，并根据该特征值与该维度预训练的标准值的差值，确定该维度在所述决策树中对应决策分支的标签为正常或异常；

若所述判定次序中最后一次判定在所述决策树中对应决策分支的标签为异常，则确定所述第一主机为异常。

本发明实施例中，以集群的至少一个主机中任意一个第一主机为例，根据第一主机在预设时刻起之前第一预设时长内文件空间的使用率，确定第一主机的第一判定结果，根据至少一个主机中，每个主机在预设时刻的文件空间使用增长率，确定第一主机的第二判定结果，根据至少一个主机中，每个主机在预设时刻起之前第二预设时长内，该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定第一主机的第三判定结果，因此在不需要搜索第一主机日志关键字以及语义分析的情况下，仅根据文件空间的使用率等数据，即可得到第一主机的第一判定结果、第二判定结果和第三判定结果，并根据生成的特征向量确定集群是否异常，对不同结构的集群均可采用该方法，因此该方法具有较强的普适性。

本申请实施例提供一种集群异常判定装置，包括：

确定模块，用于根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率，确定所述第一主机的第一判定结果；所述第一主机为所述至少一个主机中任一主机；根据所述至少一个主机中，每个主机在所述预设时刻的文件空间使用增长率，确定所述第一主机的第二判定结果；根据所述至少一个主机中，每个主机在所述预设时刻起之前第二预设时长内，该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定所述第一主机的第三判定结果；

处理模块。用于根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量，根据所述特征向量确定所述第一主机是否异常；若所述第一主机异常，则确定所述集群异常。

可选的，所述确定模块，具体用于：

可选的，所述处理模块，具体用于：

附图说明

图1为本申请实施例中一种集群异常判定方法的架构示意图；

图2为本申请实施例中一种集群异常判定方法的步骤流程图；

图3为本申请实施例中一种集群异常判定方法中第一判定结果对应的份解除第一主机残差值的示意图；

图4为本申请实施例中一种集群异常判定方法中集群异常结果的场景对应的示意图一；

图5为本申请实施例中一种集群异常判定方法中集群异常结果的场景对应的示意图二；

图6为本申请实施例中一种集群异常判定方法中集群异常结果的场景对应的示意图三；

图7为本申请实施例中一种集群异常判定装置的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互结合。

具体地，针对“人工搜索关键词与语义解析”的方案：该方案需要开发同事、运维同事沟通合作，对日常的异常场景进行总结分析，再进行开发、测试、上线，整个调整周期长，覆盖的异常场景也较为有限。人工丰富异常场景需要耗费相当多的人力。同时，对于日志的关键词监控还要依赖代理程序对日志进行读取分析，会一定程度上消耗主机的CPU、IO资源，传输大量日志时还会消耗较多的网络资源，对于应用本身的运行有消极影响。

如图1所示，为本申请实施例中一种集群异常判定方法的架构示意图。

集群中部署着多个主机，每个主机的数据由采集代理负责采集，采集代理具体可以为一个采集信息的软件工具。各采集代理每隔一段时间将当前时刻的数据存入opentsdb这个基于时间序列的数据库，并由决策器根据opentsdb数据库中的信息对各个主机进行判定，得到每个主机是否异常的结果，并进一步判定该异常是否属于预期内的异常，若不是，则向监控中心发送告警消息，以对异常进行处理。需要说明的是，图1仅以opentsdb数据库为例，不限于其它数据库。

具体地，决策器对每个主机均按相同的方法判定，以第一主机为例，从以下三个维度对第一主机进行判定。需要说明的是，决策器可以通过以下三个维度中至少一个判定结果组成的群组中任意一个群组对第一主机进行判定。举例来说，仅通过第一判定结果确定第一主机是否异常；通过第一判定结果、第二判定结果和第三判定结果确定第一主机是否异常。三个维度如下：

(1)历史维度：

根据第一主机在预设时刻起之前第一预设时长内文件空间的使用率，确定所述第一主机的第一判定结果。这项评估方式可以从历史数据的维度，判断目前集群内每一台主机是否符合历史变化规律。

(2)集群维度：

根据集群的至少一个主机中，每个主机在所述预设时刻的文件空间使用增长率，确定所述第一主机的第二判定结果。该项评估方式可以从集群数据的维度，判断目前集群内每一台主机的负载均衡情况。

根据所述至少一个主机中，每个主机在所述预设时刻起之前第二预设时长内，该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定所述第一主机的第三判定结果。该项评估方式可以从预设类型数据相关性的维度，判断集群中主机是否存在不与预设类型数据相关的异常增长。

(3)容量预测维度：

根据所述至少一个主机中，每个主机所述预设时刻的文件空间的使用率、使用增长率，以及在所述预设时刻起之前第二预设时长内该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定所述第一主机的第四判定结果。该项评估从容量预测维度判断集群可能存在容量瓶颈。

如图2所示，为本申请实施例中一种集群异常判定方法的步骤流程图，该方法可应用于图1所示的架构。

步骤201：根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率，确定所述第一主机的第一判定结果。

所述第一主机为所述至少一个主机中任一主机。

步骤202：根据所述至少一个主机中，每个主机在所述预设时刻的文件空间使用增长率，确定所述第一主机的第二判定结果。

步骤203：根据所述至少一个主机中，每个主机在所述预设时刻起之前第二预设时长内，该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定所述第一主机的第三判定结果。

步骤204：根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量，根据所述特征向量确定所述第一主机是否异常；若所述第一主机异常，则确定所述集群异常。

步骤201之前，首先对每个主机的数据进行采集，以图1中的架构为例，一种可选的实施方式如下：

由于python内置的函数仅能获取单个文件大小，故使用python调用shell命令，使用“df-m/ARXXXX”命令来获取指定的日志文件系统的使用率。再以json字符串的格式发送至决策器前的队列中。json字符串格式如下：

其中metric为数据类型、timestamp为时间戳、value为文件空间使用率、host为主机名、fs_name为文件系统名。

信息被上送并在opentsdb中存储下来。

由于数据分析需要使用率、增长率2种数据，故决策器将数据从opentsdb中读取出来以后，需要对其进行求导操作，这里的时间粒度按照不同场景进行设置，举例来说，时间粒度为分钟级，通过python求导得到每分钟的文件空间使用增长率。

步骤201中，一种可选的实施方式如下：

根据所述第一主机在所述第一预设时长内文件空间的使用率中所述预设类型数据的使用率，获取所述第一主机在所述预设时刻的残差值；若所述残差值不位于第一区间，则确定所述第一判定结果为第一默认值和所述残差值，否则为第二默认值。

需要说明的是，第一主机在所述预设时刻的残差值可以通过时间序列分解算法获取，具体如图3所示，本申请实施例中一种集群异常判定方法中第一判定结果对应的份解除第一主机残差值的示意图。举例来说，第一区间为其中，为所述第一主机在所述第一预设时长内残差值的均值，Δresid所述第一主机在所述第一预设时长内残差值的标准差。第一默认值是第一判定结果标签异常时对应的取值，第二默认值是第一判定结果标签正常时对应的取值。第一预设时长可根据具体场景设置，如7天。

若符合，则表示当前时刻的文件空间使用率符合历史周期趋势；反之，则表示当前主机的文件空间使用率较大幅度异于第一预设时长内的历史数据，应用运行可能存在异常。

步骤202中，是对集群维度的一项分析，一种可选的实施方式为：

需要说明的是，第二区间为其中，为所述至少一个主机在所述预设时刻的使用增长率的均值，Δc为所述至少一个主机在所述预设时刻的使用增长率的标准差。第三默认值是第一判定结果标签异常时对应的取值，第四默认值是第一判定结果标签正常时对应的取值。

具体地，直接将当前时刻的文件空间增长率进行集群横向比较，设当前时刻集群内n台主机的增长率为c₁、c₂、…、c_n，则对所有增长率c_i(1≤i≤n)进行判断：

其中，c_i表示第i台主机的文件空间增长率，表示集群增长率均值，Δc表示集群增长率标准差。

对空间增长率数据，进行集群内横向比较。评估集群内是否存在增长率远高于(或远低于)集群平均水平的主机。该项评估方式可以从集群数据的维度，判断目前集群内每一台主机的负载均衡情况。

步骤203中，是对集群维度的另一项分析，一种可选的实施方式为：

需要说明的是，第三区间为其中，为所述至少一个主机在所述预设时刻对应的皮尔逊相关系数的均值，Δr为所述至少一个主机在所述预设时刻对应的皮尔逊相关系数的标准差。第五默认值是第一判定结果标签异常时对应的取值，第六默认值是第一判定结果标签正常时对应的取值。

预设类型数据与文件空间增长率的皮尔逊相关系数可表示为：

其中，r_i为第i台主机的皮尔逊相关系数，c_j(1≤i≤m)为j时刻的增长率，t_j(1≤i≤m)为j时刻的预设类型数据。

该系数反映了预设类型数据与文件空间增长率的相关性：一般情况下，预设类型数据与文件空间增长率线性关系极强，r_i≥0.8。对于集群所有主机，对所有皮尔逊相关系数r_i(1≤i≤n)进行判断：

若符合，则表示当前时刻内，集群中主机处理交易的情况基本一致；反之，则表示集群中存在某一主机，它处理应用的状况与其它主机不一致，可能日志中存在大量报错情况。

上述步骤中，还有一种可选的实施方式为：

对空间使用率数据、空间增长率数据、预设类型数据，对长短期记忆LSTM神经网络进行训练。基于历史数据与集群内关联情况，预测未来一段预设时长内空间使用率，评估未来一段预设时长内是否会发生容量超限情况。

将预设时刻的空间使用率数据、空间增长率数据、预设类型数据输入LSTM神经网络，将LSTM神经网络的输出作为第四判定结果，并将第四判定结果加入特征向量，以对集群进行判断。

使用LSTM神经网络主要是由于其具有自动遗忘与记忆的特点，可以对输入的数据进行自主判断，抛弃干扰预测的异常点，使用LSTM神经网络可以较高精度地对未来文件系统使用进行预测，LSTM神经网络的参数如表1所示(仅以以下参数为例，参数值不做限定)：

参数名	参数值
		隐藏层神经元	10
隐藏层的层数	2
		学习率	0.006
遗忘率	0.5
		时间步幅	10080

表1

在本申请实施例对应实验调试中发现，遗忘率为0.5±0.1时，空间使用率数据、空间增长率数据、预设类型数据输入LSTM神经网络后，LSTM神经网络输出的结果最为准确，0.6～0.8会导致LSTM神经网络的代价函数下降受阻。

步骤204中，根据所述特征向量确定所述第一主机是否异常，一种可选的实施方式为，通过决策树分类算法对特征向量进行分析，确定最终的分类结果，具体如下：

步骤204之后，一种可选的实施方式为：

若存在所述特征向量对应的计算机程序，则执行所述计算机程序；否则，根据所述特征向量生成告警信息，并输出所述告警信息。

需要说明的是，上述计算机程序是由特征向量对应的预设处理方式编写而成的一组程序代码，集群的决策器中会封装这些预设处理方式，当输入的特征向量有对应预设处理方式时，就会执行特征向量对应的计算机程序。否则，根据特征向量生成告警信息。举例来说，特征向量的第一判定结果为异常，则告警信息中含有第一判定结果异常的信息。运维人员会根据告警信息，知悉集群异常的具体情况，之后进行排查，当出台相应处理方式后，再将处理方式对应的计算机程序封装到集群中。

从实际的实施结果来看，本发明实施例中判定集群异常的方法以及根据该方法对应的装置，可以对以下场景进行感知与判断：

(1)应用集群由于预期原因(例如版本上线中调整了日志级别)，导致应用集群的日志打印量变化。

(2)应用集群由于预期外原因(例如磁盘繁忙、运行异常产生报错)，导致应用集群的日志打印量、打印模式、打印速度产生变化。

(3)由于前端的负载策略或应用本身的运行逻辑，导致集群的负载不均，交易集中在部分主机的情况。

(4)由于商户的异常的交易上送，导致集群中某些主机文件空间使用增长率异常。

(5)由于预期或非预期的人工操作，导致日志空间使用率异常升降。

(6)由于前端交易增长，导致集群在第二预设时长内存在文件空间耗尽风险。

下面以场景(1)和场景(3)为例，进行详细说明：

场景(1)对应示意图为图4。如图4所示，为本申请实施例中一种集群异常判定方法中集群异常结果对应的示意图一。

由历史维度分析发现，该文件系统在2018-11-12，日志文件空间使用率发生异常变化。经具体分析，由于前一日进行营销，故在营销上午8:00提前删除了旧日志，导致当日的使用率曲线提前下降；且在日常清表时刻，由于旧日志已经删除，文件空间使用率没有如预期下降。

场景(3)对应示意图为图5、图6。如图5所示，为本申请实施例中一种集群异常判定方法中集群异常结果对应的示意图二；如图6所示，为本申请实施例中一种集群异常判定方法中集群异常结果的第二类场景对应的示意图二。其中，图5对应正常主机数据分布，图6对应疑似异常主机数据分布；图5和图6中，灰色的点代表正常主机数据。

下面以本发明实施例的一种实验情形为例说明：

集群里包括10个主机，8个主机对应的皮尔逊相关系数在0.85～0.99，2台主机皮尔逊相关系数为0.61，因此对集群进行进一步具体分析。具体分析后发现：疑似异常主机在相同的交易量下，日志增长有2种线性增长模式。经过进一步详细分析，发现是2种线性增长模式分别发生在不同的时间段，在11：00～12：00内，某一类交易大量上送，且均落在了疑似异常主机上，造成日志增长率与正常情况不同。

本发明实施例提供了一种基于日志文件空间使用率的集群异常判断方法及装置，该方法具有以下优点：

(1)仅对日志所在的文件空间使用率进行分析建模，不读取日志，采集速度快，耗费资源少，对应用影响可以忽略不计。

(2)基于时序数据周期解耦算法、LSTM长短期记忆网络算法等智能算法，大大降低人工参与程度，减少对于运维人员经验的依赖。

(3)与应用处理的任务量(通常是交易量)进行关联分析，建立关联模型，提升评估结果的准确性。

(4)建模方法具有普适性，对比分析记录单个文件与其大小的方法，整个文件空间的分析配置简单，适用更广泛，无需对应用打印的日志进行规范化。对于主机多、日志文件繁复的集群尤为适用。

(5)装置会总结运维人员的解决处理方式，可以持续在线学习，对于历史发生过的问题，可以推荐出处理方案。

如图7所示，为本申请实施例中一种集群异常判定装置的结构示意图。

本申请实施例提供一种集群异常判定装置，包括：

确定模块701，用于根据集群的至少一个主机中第一主机在预设时刻起之前第一预设时长内文件空间的使用率，确定所述第一主机的第一判定结果；所述第一主机为所述至少一个主机中任一主机；根据所述至少一个主机中，每个主机在所述预设时刻的文件空间使用增长率，确定所述第一主机的第二判定结果；根据所述至少一个主机中，每个主机在所述预设时刻起之前第二预设时长内，该主机对预设类型数据的处理量与该主机文件空间使用增长率的相关性系数，确定所述第一主机的第三判定结果；

处理模块702。用于根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量，根据所述特征向量确定所述第一主机是否异常；若所述第一主机异常，则确定所述集群异常。

可选的，所述确定模块701，具体用于：

可选的，所述处理模块702，具体用于：

最后应说明的是：本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种集群异常判定方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述确定第一主机的第一判定结果，包括：

3.如权利要求1所述的方法，其特征在于，所述确定所述第一主机的第二判定结果，包括：

4.如权利要求1所述的方法，其特征在于，所述第一主机的第三判定结果，包括：

5.如权利要求1-4任一所述的方法，其特征在于，所述根据所述特征向量确定所述第一主机是否异常，包括：

6.一种集群异常判定装置，其特征在于，包括：

处理模块，用于根据所述第一判定结果、所述第二判定结果和所述第三判定结果生成特征向量，根据所述特征向量确定所述第一主机是否异常；若所述第一主机异常，则确定所述集群异常。

7.如权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

8.如权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

9.如权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

10.如权利要求6-9任一所述的装置，其特征在于，所述处理模块，具体用于：