CN106953759B - 集群控制方法和集群控制设备 - Google Patents

集群控制方法和集群控制设备 Download PDF

Info

Publication number
CN106953759B
CN106953759B CN201710174996.1A CN201710174996A CN106953759B CN 106953759 B CN106953759 B CN 106953759B CN 201710174996 A CN201710174996 A CN 201710174996A CN 106953759 B CN106953759 B CN 106953759B
Authority
CN
China
Prior art keywords
error log
user information
error
cluster
cluster control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710174996.1A
Other languages
English (en)
Other versions
CN106953759A (zh
Inventor
张奇伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710174996.1A priority Critical patent/CN106953759B/zh
Publication of CN106953759A publication Critical patent/CN106953759A/zh
Application granted granted Critical
Publication of CN106953759B publication Critical patent/CN106953759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了集群控制方法和集群控制设备。所述集群控制方法应用于一计算机集群,所述方法包括:从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及输出所述统计结果。

Description

集群控制方法和集群控制设备
技术领域
本发明涉及集群控制领域,更具体地说,涉及能够监控集群运行健康状况的集群控制方法和集群控制设备。
背景技术
集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。和传统的高性能计算机技术相比,集群技术可以利用各档次的服务器作为节点,系统造价低,可以实现很高的运算速度,完成大运算量的计算,具有较高的响应能力,能够满足当今日益增长的信息服务的需求。
随着大数据的发展,对大数据提供底层支持的分布式运算和存储的集群的稳定性和性能获得了越来越多的关注。需要对集群运行时的信息进行实时监控,如发现异常情况,能够第一时间通知到相应的开发和运维人员进行处理,在用户还没有察觉之前处理完故障和异常,将损失降低到最低。
然而,对于与这些机器对应的开发和运维人员来说,即便是每台机器登陆一次,登陆那么多台机器也难以实现,何况还需要进行系统指标的检查。因此,依靠人力不可能完成24小时不间断监控服务器的任务。
因此,也诞生了许多进行集群监控的工具,以目前应用最广泛的hadoop生态系统为例,cloudera公司就推出了cloudera manager对集群的运行状况进行监控。然而,目前的监控均是简单的对影响集群运行的严重错误进行统计完成的。虽然这种统计可以从一定意义上反映出集群的运行状况,但是对于一般性的任务运行失败及用户的操作日志,并没有有效的分析。
发明内容
鉴于以上情况,期望提供一种新的集群控制方法和集群控制设备,其能够全方位覆盖集群的运行情况,使管理员及时发现一般性错误及其内在的关系。
根据本发明的一个方面,提供了一种集群控制方法,应用于一计算机集群,所述方法包括:从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及输出所述统计结果。
优选地,根据本发明实施例的集群控制方法可以进一步包括:对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类;以及输出所述主题-关键词聚类结果。
优选地,在根据本发明实施例的集群控制方法中,可以通过潜在狄利克雷分布算法进行所述数据挖掘。
优选地,在根据本发明实施例的集群控制方法中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤包括:统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。
优选地,在根据本发明实施例的集群控制方法中,输出所述统计结果包括:将所述统计结果以可视化图表的形式进行输出。
根据本发明的另一方面,提供了一种集群控制设备,应用于一计算机集群,所述集群控制设备包括:处理器;以及存储器,用于在其上存储计算机程序,以便当由所述处理器执行所述计算机程序时,能够执行以下步骤:从所述日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件为在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及输出所述统计结果。
优选地,在根据本发明实施例的集群控制设备中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤进一步被配置为:对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类;并且输出所述统计结果的步骤进一步被配置为输出所述主题-关键词聚类结果。
优选地,在根据本发明实施例的集群控制设备中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤通过潜在狄利克雷分布算法进行所述数据挖掘。
优选地,在根据本发明实施例的集群控制设备中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤被配置为统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。
优选地,在根据本发明实施例的集群控制设备中,输出所述统计结果的步骤进一步被配置为:将所述统计结果以可视化图表的形式进行输出。
在根据本发明实施例的集群控制方法和集群控制设备中,通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,即:对一般性系统错误进行统计分析,并将统计结果输出给集群管理员,可以使其对可能存在的问题进行处理,从而相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言,能够达到使集群更加健康地运行的目的。
附图说明
图1是图示根据本发明第一实施例的集群控制方法的过程的流程图;
图2是图示根据本发明第二实施例的集群控制方法的过程的流程图;
图3是图示根据本发明第一实施例的集群控制设备的配置的功能性框图;以及
图4是图示根据本发明第二实施例的集群控制设备的配置的功能性框图。
具体实施方式
下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述,以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节,但它们只能被看作是示例性的。因此,本领域技术人员将认识到,可对这里描述的实施方式进行各种改变和修改,而不脱离本发明的范围和精神。而且,为了使说明书更加清楚简洁,将省略对本领域熟知功能和构造的详细描述。
首先,将参照图1描述根据本发明的第一实施例的集群控制方法。所述集群控制方法应用于一计算机集群。如图1所示,所述方法包括如下步骤。
首先,在步骤S101,从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息。其中,优先级越高,消息越重要。
接下来,在步骤S102,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果。
最后,在步骤S103,输出所述统计结果。
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。一般都提供了这样5个日志级别:Debug、Info、Warn、Error、Fatal。其优先级,也即重要程度依次递增。Debug的优先级最低,在系统实际运行过程中,一般都是不输出的。Warn是指通过进行一些修复性的工作还可以把系统恢复到正常状态中来从而系统可以继续运行下去。Info用来反馈系统的当前状态给最终用户。Error是指可以进行一些修复性的工作,但无法确定系统是否会正常地工作下去,系统在以后的某个阶段,有可能会因为当前的这个问题导致一个无法修复的错误(例如宕机),但也可能一直工作到停止也不会出现严重问题。Fatal是指严重错误,可以肯定这种错误无法修复,并且如果系统继续运行下去的话必然会越来越乱,这时候采取的最好措施不是试图将系统状态恢复到正常,而是尽可能地保留系统有效数据并停止运行。
相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言,在根据本发明的集群控制方法中,通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,即:对一般性系统错误进行统计分析,并将统计结果输出给集群管理员,可以使其对可能存在的问题进行处理,从而达到使集群更加健康地运行的目的。
另外,在本发明中,除了对中间优先级的错误日志消息以及与之对应的用户信息进行统计分析之外,作为更优选的实施方式,如图2所示,所述集群控制方法还可以进一步包括如下步骤。
在步骤S201,对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类。简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。通过对错误日志消息和对应的用户信息进行数据挖掘,可以从多个错误日志消息提取对应的主题-关键词,并将不同的出错主题-关键词分配到不同的类别。
例如,作为一种可能的实施方式,可以通过潜在狄利克雷分布(LDA,LatentDirichlet Allocation)算法进行所述数据挖掘,以得到日志的出错主题-关键词聚类。
然后,在步骤S202,输出所述主题-关键词聚类结果。通过这样做,经过分类管理的错误日志消息对于管理员而言更有利于检索和查找。
另外,如图2所示,步骤S102、S103的统计处理与步骤S201、S202的数据挖掘处理是两个并行的处理。但是,本发明并不仅限于此,二者在执行顺序上并无特别的要求。例如,二者也可以串行执行。例如,可以先执行统计处理再执行数据挖掘处理,或者也可以先执行数据挖掘处理再执行统计处理。
此外,返回参照图1,更具体地,在根据本发明实施例的集群控制方法中,上文中所述的对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤S102可以进一步包括:统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。这些统计项是有助于管理员判断出可能存在的问题的选项,管理员通过参照包括这些统计项的统计信息,能够及时地对可能存在的问题进行处理,从而达到使集群更加健康地运行的目的。
当然,本领域的技术人员可以理解,以上所列的统计项仅为示例,且不应理解为限制性的。任何其他可以有助于管理员判断可能存在的问题的统计项都可以适当地应用于本发明,且应该包括在本发明的范围内。
在步骤S103,所输出的统计结果可以是文本形式。然而,作为一种更优选的实施方式,在所述集群控制方法中,输出所述统计结果的步骤S103包括:将所述统计结果以可视化图表的形式进行输出。通过这种方式,管理员可以更加直观地了解目前集群运行的出错状况。
在上文中,已经参照图1和图2详细描述了根据本发明实施例的集群控制方法。接下来,将参照图3详细描述根据本发明的第一实施例的集群控制设备。所述集群控制设备应用于一计算机集群。
如图3所示,所述集群控制设备300包括:获取单元301、处理单元302和输出单元303。
获取单元301从所述日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件为在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息。其中,优先级越高,消息越重要。
处理单元302对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果。例如,处理单元302可以进一步包括统计模块3021以执行统计分析的处理。
输出单元303用于输出所述统计结果。
相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言,在根据本发明的集群控制设备中,通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,即:对一般性系统错误进行统计分析,并且将统计结果输出给集群管理员,可以使其对可能存在的问题进行处理,从而达到使集群更加健康地运行的目的。
另外,在本发明中,除了对中间优先级的错误日志消息以及与之对应的用户信息进行统计分析之外,作为更优选的实施方式,如图4所示,所述集群控制设备中的处理单元302还可以进一步包括:数据挖掘模块3022,用于对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类。通过对错误日志消息和对应的用户信息进行数据挖掘,可以从多个错误日志消息提取对应的主题-关键词,并将不同的出错主题-关键词分配到不同的类别。
例如,作为一种可能的实施方式,可以通过潜在狄利克雷分布(LDA,LatentDirichlet Allocation)算法进行所述数据挖掘,以得到日志的出错主题-关键词聚类。
并且,在这种情况下,所述输出单元303进一步被配置为输出所述主题-关键词聚类结果。通过这样做,经过分类管理的错误日志消息对于管理员而言更有利于检索和查找。
另外,更具体地,在根据本发明的集群控制设备中,所述处理单元302中的统计模块3021被配置为统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。这些统计项是有助于管理员判断出可能存在的问题的选项,管理员通过参照包括这些统计项的统计信息,能够及时地对可能存在的问题进行处理,从而达到使集群更加健康地运行的目的。
输出单元303可以以文本形式输出统计结果。然而,作为一种更优选的实施方式,在所述集群控制设备中,输出单元303可以进一步被配置为:将所述统计结果以可视化图表的形式进行输出。通过这种方式,管理员可以更加直观地了解目前集群运行的出错状况。
在上文中的图3和图4中,为了便于理解,以功能性的虚拟单元的形式示出和描述了根据本发明的集群控制设备。然而,事实上,本领域的技术人员可以理解,根据本发明的集群控制设备是通过处理器执行计算机程序代码来实现各功能的计算机软件产品。
具体地,一种集群控制设备,应用于一计算机集群,所述集群控制设备包括:
处理器;以及
存储器,用于在其上存储计算机程序,以便当由所述处理器执行所述计算机程序时,能够执行以下步骤:
从所述日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件为在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;
对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及
输出所述统计结果。
优选地,在根据本发明实施例的集群控制设备中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤进一步被配置为:对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类;并且
输出所述统计结果的步骤进一步被配置为输出所述主题-关键词聚类结果。
优选地,在根据本发明实施例的集群控制设备中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤通过潜在狄利克雷分布算法进行所述数据挖掘。
优选地,在根据本发明实施例的集群控制设备中,对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤被配置为统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。
优选地,在根据本发明实施例的集群控制设备中,输出所述统计结果的步骤进一步被配置为:将所述统计结果以可视化图表的形式进行输出。
在上文中,已经参照图1到图4详细描述了根据本发明实施例的集群控制方法和集群控制设备。在根据本发明实施例的集群控制方法和集群控制设备中,通过获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,即:对一般性系统错误进行统计分析,并将统计结果输出给集群管理员,可以使其对可能存在的问题进行处理,从而相比于现有技术中仅简单地对影响集群运行的严重错误进行统计而言,能够达到使集群更加健康地运行的目的。
需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过软件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种集群控制方法,应用于一计算机集群,所述方法包括:
从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;
对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及
输出所述统计结果。
2.根据权利要求1所述的集群控制方法,进一步包括:
对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类;
输出所述主题-关键词聚类结果。
3.根据权利要求2所述的集群控制方法,其中通过潜在狄利克雷分布算法进行所述数据挖掘。
4.根据权利要求1所述的集群控制方法,其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤包括:
统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。
5.根据权利要求1所述的集群控制方法,其中输出所述统计结果包括:
将所述统计结果以可视化图表的形式进行输出。
6.一种集群控制设备,应用于一计算机集群,所述集群控制设备包括:
处理器;以及
存储器,用于在其上存储计算机程序,以便当由所述处理器执行所述计算机程序时,能够执行以下步骤:
从日志文件中获取具有除最高优先级和最低优先级之外的中间优先级的错误日志消息以及与之对应的用户信息,其中,所述日志文件为在所述计算机集群的任务运行过程中产生,所述日志文件包括具有不同优先级的错误日志消息;
对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果;以及
输出所述统计结果。
7.根据权利要求6所述的集群控制设备,其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤进一步被配置为:对所述中间优先级的错误日志消息以及与之对应的用户信息进行数据挖掘,以获得主题-关键词聚类;并且
输出所述统计结果的步骤进一步被配置为输出所述主题-关键词聚类结果。
8.根据权利要求7所述的集群控制设备,其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤通过潜在狄利克雷分布算法进行所述数据挖掘。
9.根据权利要求6所述的集群控制设备,其中对所述中间优先级的错误日志消息以及与之对应的用户信息进行统计分析,以获取统计结果的步骤被配置为统计如下信息中的至少一项:数量最多的出错信息、产生错误的操作、完成操作的用户信息、出现错误最多的用户信息。
10.根据权利要求6所述的集群控制设备,其中输出所述统计结果的步骤进一步被配置为:将所述统计结果以可视化图表的形式进行输出。
CN201710174996.1A 2017-03-22 2017-03-22 集群控制方法和集群控制设备 Active CN106953759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710174996.1A CN106953759B (zh) 2017-03-22 2017-03-22 集群控制方法和集群控制设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710174996.1A CN106953759B (zh) 2017-03-22 2017-03-22 集群控制方法和集群控制设备

Publications (2)

Publication Number Publication Date
CN106953759A CN106953759A (zh) 2017-07-14
CN106953759B true CN106953759B (zh) 2020-05-26

Family

ID=59473671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710174996.1A Active CN106953759B (zh) 2017-03-22 2017-03-22 集群控制方法和集群控制设备

Country Status (1)

Country Link
CN (1) CN106953759B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334930A (zh) * 2019-06-26 2019-10-15 深圳供电局有限公司 一种移动应用任务完成量的计算方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及系统
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN106100885A (zh) * 2016-06-23 2016-11-09 浪潮电子信息产业股份有限公司 一种网络安全告警系统及设计方案

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9354963B2 (en) * 2014-02-26 2016-05-31 Microsoft Technology Licensing, Llc Service metric analysis from structured logging schema of usage data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及系统
CN106100885A (zh) * 2016-06-23 2016-11-09 浪潮电子信息产业股份有限公司 一种网络安全告警系统及设计方案

Also Published As

Publication number Publication date
CN106953759A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
US20200319951A1 (en) Tuning Context-Aware Rule Engine for Anomaly Detection
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
US9911083B2 (en) Automated defect and optimization discovery
US9058359B2 (en) Proactive risk analysis and governance of upgrade process
US8595556B2 (en) Soft failure detection
US20150288557A1 (en) Help desk ticket tracking integration with root cause analysis
Tang et al. An integrated framework for optimizing automatic monitoring systems in large IT infrastructures
US11449488B2 (en) System and method for processing logs
EP3798848B1 (en) Analyzing large-scale data processing jobs
US9009536B2 (en) Test case production utilizing problem reports
US20200034224A1 (en) Early risk detection and management in a software-defined data center
US11797501B2 (en) Methods and systems for aggregating and querying log messages
CN110851471A (zh) 分布式日志数据处理方法、装置以及系统
CN111857555A (zh) 避免磁盘阵列的故障事件的方法、设备和程序产品
CN108920322A (zh) 一种中间件运行监测的方法、装置及计算机存储介质
CN106953759B (zh) 集群控制方法和集群控制设备
Liu et al. Smart server crash prediction in cloud service data center
Bellini et al. Smart cloud engine and solution based on knowledge base
Umer et al. Predicting machine behavior from Google cluster workload traces
WO2016188682A1 (en) A method for determining a topology of a computer cloud at an event date
CN112131077B (zh) 故障节点的定位方法和定位装置、以及数据库集群系统
US9202167B1 (en) Automated defect identification and resolution
US11855849B1 (en) Artificial intelligence based self-organizing event-action management system for large-scale networks
US11838189B1 (en) Creating a budget-based time series
CN116431872B (zh) 可观测系统及基于可观测系统的服务观测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant