CN106953759B

CN106953759B - 集群控制方法和集群控制设备

Info

Publication number: CN106953759B
Application number: CN201710174996.1A
Authority: CN
Inventors: 张奇伟
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2020-05-26
Anticipated expiration: 2037-03-22
Also published as: CN106953759A

Abstract

公开了集群控制方法和集群控制设备。所述集群控制方法应用于一计算机集群，所述方法包括：从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息；对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果；以及输出所述统计结果。

Description

集群控制方法和集群控制设备

技术领域

本发明涉及集群控制领域，更具体地说，涉及能够监控集群运行健康状况的集群控制方法和集群控制设备。

背景技术

集群是一组相互独立的、通过高速网络互联的计算机，它们构成了一个组，并以单一系统的模式加以管理。一个客户与集群相互作用时，集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。和传统的高性能计算机技术相比，集群技术可以利用各档次的服务器作为节点，系统造价低，可以实现很高的运算速度，完成大运算量的计算，具有较高的响应能力，能够满足当今日益增长的信息服务的需求。

随着大数据的发展，对大数据提供底层支持的分布式运算和存储的集群的稳定性和性能获得了越来越多的关注。需要对集群运行时的信息进行实时监控，如发现异常情况，能够第一时间通知到相应的开发和运维人员进行处理，在用户还没有察觉之前处理完故障和异常，将损失降低到最低。

然而，对于与这些机器对应的开发和运维人员来说，即便是每台机器登陆一次，登陆那么多台机器也难以实现，何况还需要进行系统指标的检查。因此，依靠人力不可能完成24小时不间断监控服务器的任务。

因此，也诞生了许多进行集群监控的工具，以目前应用最广泛的hadoop生态系统为例，cloudera公司就推出了cloudera manager对集群的运行状况进行监控。然而，目前的监控均是简单的对影响集群运行的严重错误进行统计完成的。虽然这种统计可以从一定意义上反映出集群的运行状况，但是对于一般性的任务运行失败及用户的操作日志，并没有有效的分析。

发明内容

鉴于以上情况，期望提供一种新的集群控制方法和集群控制设备，其能够全方位覆盖集群的运行情况，使管理员及时发现一般性错误及其内在的关系。

根据本发明的一个方面，提供了一种集群控制方法，应用于一计算机集群，所述方法包括：从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息；对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果；以及输出所述统计结果。

优选地，根据本发明实施例的集群控制方法可以进一步包括：对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘，以获得主题-关键词聚类；以及输出所述主题-关键词聚类结果。

优选地，在根据本发明实施例的集群控制方法中，可以通过潜在狄利克雷分布算法进行所述数据挖掘。

优选地，在根据本发明实施例的集群控制方法中，对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤包括：统计如下信息中的至少一项：数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。

优选地，在根据本发明实施例的集群控制方法中，输出所述统计结果包括：将所述统计结果以可视化图表的形式进行输出。

根据本发明的另一方面，提供了一种集群控制设备，应用于一计算机集群，所述集群控制设备包括：处理器；以及存储器，用于在其上存储计算机程序，以便当由所述处理器执行所述计算机程序时，能够执行以下步骤：从所述日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件为在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息；对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果；以及输出所述统计结果。

优选地，在根据本发明实施例的集群控制设备中，对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤进一步被配置为：对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘，以获得主题-关键词聚类；并且输出所述统计结果的步骤进一步被配置为输出所述主题-关键词聚类结果。

优选地，在根据本发明实施例的集群控制设备中，对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤通过潜在狄利克雷分布算法进行所述数据挖掘。

优选地，在根据本发明实施例的集群控制设备中，对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤被配置为统计如下信息中的至少一项：数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。

优选地，在根据本发明实施例的集群控制设备中，输出所述统计结果的步骤进一步被配置为：将所述统计结果以可视化图表的形式进行输出。

在根据本发明实施例的集群控制方法和集群控制设备中，通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，即：对一般性系统错误进行统计分析，并将统计结果输出给集群管理员，可以使其对可能存在的问题进行处理，从而相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言，能够达到使集群更加健康地运行的目的。

附图说明

图1是图示根据本发明第一实施例的集群控制方法的过程的流程图；

图2是图示根据本发明第二实施例的集群控制方法的过程的流程图；

图3是图示根据本发明第一实施例的集群控制设备的配置的功能性框图；以及

图4是图示根据本发明第二实施例的集群控制设备的配置的功能性框图。

具体实施方式

下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述，以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节，但它们只能被看作是示例性的。因此，本领域技术人员将认识到，可对这里描述的实施方式进行各种改变和修改，而不脱离本发明的范围和精神。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

首先，将参照图1描述根据本发明的第一实施例的集群控制方法。所述集群控制方法应用于一计算机集群。如图1所示，所述方法包括如下步骤。

首先，在步骤S101，从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息。其中，优先级越高，消息越重要。

接下来，在步骤S102，对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果。

最后，在步骤S103，输出所述统计结果。

日志在计算机系统中是一个非常广泛的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。一般都提供了这样5个日志级别：Debug、Info、Warn、Error、Fatal。其优先级，也即重要程度依次递增。Debug的优先级最低，在系统实际运行过程中，一般都是不输出的。Warn是指通过进行一些修复性的工作还可以把系统恢复到正常状态中来从而系统可以继续运行下去。Info用来反馈系统的当前状态给最终用户。Error是指可以进行一些修复性的工作，但无法确定系统是否会正常地工作下去，系统在以后的某个阶段，有可能会因为当前的这个问题导致一个无法修复的错误(例如宕机)，但也可能一直工作到停止也不会出现严重问题。Fatal是指严重错误，可以肯定这种错误无法修复，并且如果系统继续运行下去的话必然会越来越乱，这时候采取的最好措施不是试图将系统状态恢复到正常，而是尽可能地保留系统有效数据并停止运行。

相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言，在根据本发明的集群控制方法中，通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，即：对一般性系统错误进行统计分析，并将统计结果输出给集群管理员，可以使其对可能存在的问题进行处理，从而达到使集群更加健康地运行的目的。

另外，在本发明中，除了对中间优先级的错误日志消息以及与之对应的用户信息进行统计分析之外，作为更优选的实施方式，如图2所示，所述集群控制方法还可以进一步包括如下步骤。

在步骤S201，对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘，以获得主题-关键词聚类。简单地说，聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。通过对错误日志消息和对应的用户信息进行数据挖掘，可以从多个错误日志消息提取对应的主题-关键词，并将不同的出错主题-关键词分配到不同的类别。

例如，作为一种可能的实施方式，可以通过潜在狄利克雷分布(LDA，LatentDirichlet Allocation)算法进行所述数据挖掘，以得到日志的出错主题-关键词聚类。

然后，在步骤S202，输出所述主题-关键词聚类结果。通过这样做，经过分类管理的错误日志消息对于管理员而言更有利于检索和查找。

另外，如图2所示，步骤S102、S103的统计处理与步骤S201、S202的数据挖掘处理是两个并行的处理。但是，本发明并不仅限于此，二者在执行顺序上并无特别的要求。例如，二者也可以串行执行。例如，可以先执行统计处理再执行数据挖掘处理，或者也可以先执行数据挖掘处理再执行统计处理。

此外，返回参照图1，更具体地，在根据本发明实施例的集群控制方法中，上文中所述的对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤S102可以进一步包括：统计如下信息中的至少一项：数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。这些统计项是有助于管理员判断出可能存在的问题的选项，管理员通过参照包括这些统计项的统计信息，能够及时地对可能存在的问题进行处理，从而达到使集群更加健康地运行的目的。

当然，本领域的技术人员可以理解，以上所列的统计项仅为示例，且不应理解为限制性的。任何其他可以有助于管理员判断可能存在的问题的统计项都可以适当地应用于本发明，且应该包括在本发明的范围内。

在步骤S103，所输出的统计结果可以是文本形式。然而，作为一种更优选的实施方式，在所述集群控制方法中，输出所述统计结果的步骤S103包括：将所述统计结果以可视化图表的形式进行输出。通过这种方式，管理员可以更加直观地了解目前集群运行的出错状况。

在上文中，已经参照图1和图2详细描述了根据本发明实施例的集群控制方法。接下来，将参照图3详细描述根据本发明的第一实施例的集群控制设备。所述集群控制设备应用于一计算机集群。

如图3所示，所述集群控制设备300包括：获取单元301、处理单元302和输出单元303。

获取单元301从所述日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件为在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息。其中，优先级越高，消息越重要。

处理单元302对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果。例如，处理单元302可以进一步包括统计模块3021以执行统计分析的处理。

输出单元303用于输出所述统计结果。

相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言，在根据本发明的集群控制设备中，通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，即：对一般性系统错误进行统计分析，并且将统计结果输出给集群管理员，可以使其对可能存在的问题进行处理，从而达到使集群更加健康地运行的目的。

另外，在本发明中，除了对中间优先级的错误日志消息以及与之对应的用户信息进行统计分析之外，作为更优选的实施方式，如图4所示，所述集群控制设备中的处理单元302还可以进一步包括：数据挖掘模块3022，用于对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘，以获得主题-关键词聚类。通过对错误日志消息和对应的用户信息进行数据挖掘，可以从多个错误日志消息提取对应的主题-关键词，并将不同的出错主题-关键词分配到不同的类别。

并且，在这种情况下，所述输出单元303进一步被配置为输出所述主题-关键词聚类结果。通过这样做，经过分类管理的错误日志消息对于管理员而言更有利于检索和查找。

另外，更具体地，在根据本发明的集群控制设备中，所述处理单元302中的统计模块3021被配置为统计如下信息中的至少一项：数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。这些统计项是有助于管理员判断出可能存在的问题的选项，管理员通过参照包括这些统计项的统计信息，能够及时地对可能存在的问题进行处理，从而达到使集群更加健康地运行的目的。

输出单元303可以以文本形式输出统计结果。然而，作为一种更优选的实施方式，在所述集群控制设备中，输出单元303可以进一步被配置为：将所述统计结果以可视化图表的形式进行输出。通过这种方式，管理员可以更加直观地了解目前集群运行的出错状况。

在上文中的图3和图4中，为了便于理解，以功能性的虚拟单元的形式示出和描述了根据本发明的集群控制设备。然而，事实上，本领域的技术人员可以理解，根据本发明的集群控制设备是通过处理器执行计算机程序代码来实现各功能的计算机软件产品。

具体地，一种集群控制设备，应用于一计算机集群，所述集群控制设备包括：

处理器；以及

存储器，用于在其上存储计算机程序，以便当由所述处理器执行所述计算机程序时，能够执行以下步骤：

从所述日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件为在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息；

对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果；以及

输出所述统计结果。

优选地，在根据本发明实施例的集群控制设备中，对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤进一步被配置为：对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘，以获得主题-关键词聚类；并且

输出所述统计结果的步骤进一步被配置为输出所述主题-关键词聚类结果。

在上文中，已经参照图1到图4详细描述了根据本发明实施例的集群控制方法和集群控制设备。在根据本发明实施例的集群控制方法和集群控制设备中，通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，即：对一般性系统错误进行统计分析，并将统计结果输出给集群管理员，可以使其对可能存在的问题进行处理，从而相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言，能够达到使集群更加健康地运行的目的。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种集群控制方法，应用于一计算机集群，所述方法包括：

从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息；

输出所述统计结果。

2.根据权利要求1所述的集群控制方法，进一步包括：

对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘，以获得主题-关键词聚类；

输出所述主题-关键词聚类结果。

3.根据权利要求2所述的集群控制方法，其中通过潜在狄利克雷分布算法进行所述数据挖掘。

4.根据权利要求1所述的集群控制方法，其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤包括：

统计如下信息中的至少一项：数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。

5.根据权利要求1所述的集群控制方法，其中输出所述统计结果包括：

将所述统计结果以可视化图表的形式进行输出。

6.一种集群控制设备，应用于一计算机集群，所述集群控制设备包括：

处理器；以及

从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息，其中，所述日志文件为在所述计算机集群的任务运行过程中产生，所述日志文件包括具有不同优先级的错误日志消息；

输出所述统计结果。

7.根据权利要求6所述的集群控制设备，其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤进一步被配置为：对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘，以获得主题-关键词聚类；并且

8.根据权利要求7所述的集群控制设备，其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤通过潜在狄利克雷分布算法进行所述数据挖掘。

9.根据权利要求6所述的集群控制设备，其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析，以获取统计结果的步骤被配置为统计如下信息中的至少一项：数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。

10.根据权利要求6所述的集群控制设备，其中输出所述统计结果的步骤进一步被配置为：将所述统计结果以可视化图表的形式进行输出。