CN112115031B - 集群状态监控方法及装置 - Google Patents

集群状态监控方法及装置 Download PDF

Info

Publication number
CN112115031B
CN112115031B CN202011046727.5A CN202011046727A CN112115031B CN 112115031 B CN112115031 B CN 112115031B CN 202011046727 A CN202011046727 A CN 202011046727A CN 112115031 B CN112115031 B CN 112115031B
Authority
CN
China
Prior art keywords
cluster
state
monitoring data
performance index
hidden markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011046727.5A
Other languages
English (en)
Other versions
CN112115031A (zh
Inventor
严琳
徐雅光
韩路
俞浩
刘利刚
陈世强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202011046727.5A priority Critical patent/CN112115031B/zh
Publication of CN112115031A publication Critical patent/CN112115031A/zh
Application granted granted Critical
Publication of CN112115031B publication Critical patent/CN112115031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供了一种集群状态监控方法及装置,该方法包括:响应于集群监控指令,确定集群监控指令对应的集群,集群中设置有多个节点;实时采集集群的监控数据,监控数据包括集群性能指标信息、每个节点的节点性能指标信息以及任务运行信息;应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到监控数据对应的集群未来状态;在集群未来状态表征为集群状态异常的情况下,发送集群状态异常对应的告警信息。应用本发明提供的方法,能够通过隐马尔可夫模型基于集群性能指标信息、每个节点的节点性能指标信息以及集群当前的任务运行信息预测出集群的运行状态,使得能够在集群发生故障之前,发出告警信息,进而能保障集群运行的稳定性。

Description

集群状态监控方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种集群状态监控方法及装置。
背景技术
近年来,随着计算机科学技术的发展,互联网应用的需求也在不断增加,为了满足日益增长的应用需求,需要大规模的服务器集群来处理各种应用业务,而在集群处理各种应用业务过程中,为了保证集群的正常运行,通常需要对集群进行监控。
现有技术中,通常是收集集群中的一些技术人员关注的性能指标,再将集群的性能指标和预先根据历史数据划定的阈值进行比较,从而实现对集群状态的监控,然而,采用这样的监控方式,容易使得集群出现性能故障时才被发现,导致集群运行不稳定。
发明内容
本发明所要解决的技术问题是提供一种集群状态监控方法,能够保障集群运行的稳定性。
本发明还提供了一种集群状态监控装置,用以保证上述方法在实际中的实现及应用。
一种集群状态监控方法,包括:
响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;
实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;
应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;
在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
上述的方法,可选的,应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态,包括:
对所述监控数据进行预处理,得到与所述隐马尔可夫模型相匹配的输入参数;
将所述输入参数输入至所述隐马尔可夫模型,使得所述隐马尔可夫模型确定所述集群在所述输入参数对应的目标未来时刻处于各个预设的状态的概率值;
将各个所述概率值中数值最大的概率值所对应的状态作为所述监控数据对应的集群未来状态。
上述的方法,可选的,所述隐马尔可夫模型的设置过程,包括:
获取训练数据集以及待训练模型,所述训练数据集包括多个按采集时间顺序排列的历史监控数据;
依次应用所述训练数据集中的每个历史监控数据对所述待训练模型进行训练,直至所述待训练模型满足预先设置的停止训练条件时,将所述待训练模型作为隐马尔可夫模型。
上述的方法,可选的,所述实时采集所述集群的监控数据,包括:
实时读取所述集群对应的任务日志,得到所述集群当前的任务运行信息;
实时调用预设的性能指标采集工具采集到所述集群当前的集群性能指标以及所述集群中的每个节点的节点性能指标;
将当前采集到的所述集群性能指标、所述节点性能指标以及所述任务运行信息组成所述集群当前的监控数据。
上述的方法,可选的,所述发送所述集群状态异常对应的告警信息,包括:
基于所述集群异常状态生成告警信息;
在预设的处理对象集合中确定所述集群异常状态对应的目标处理对象;
将所述告警信息发送至所述目标处理对象。
一种集群状态监控装置,包括:
确定单元,用于响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;
采集单元,用于实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;
处理单元,用于应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;
发送单元,用于在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
上述的装置,可选的,所述处理单元,包括:
预处理子单元,用于对所述监控数据进行预处理,得到与所述隐马尔可夫模型相匹配的输入参数;
输入子单元,用于将所述输入参数输入至所述隐马尔可夫模型,使得所述隐马尔可夫模型确定所述集群在所述输入参数对应的目标未来时刻处于各个预设的状态的概率值;
第一执行子单元,用于将各个所述概率值中数值最大的概率值所对应的状态作为所述监控数据对应的集群未来状态。
上述的装置,可选的,还包括:模型设置单元;
所述模型设置单元,用于获取训练数据集以及待训练模型,所述训练数据集包括多个按采集时间顺序排列的历史监控数据;依次应用所述训练数据集中的每个历史监控数据对所述待训练模型进行训练,直至所述待训练模型满足预先设置的停止训练条件时,将所述待训练模型作为隐马尔可夫模型。
上述的装置,可选的,所述采集单元,包括:
读取子单元,用于实时读取所述集群对应的任务日志,得到所述集群当前的任务运行信息;
采集子单元,用于实时调用预设的性能指标采集工具采集到所述集群当前的集群性能指标以及所述集群中的每个节点的节点性能指标;
第二执行子单元,用于将当前采集到的所述集群性能指标、所述节点性能指标以及所述任务运行信息组成所述集群当前的监控数据。
上述的装置,可选的,所述发送单元,包括:
生成子单元,用于基于所述集群异常状态生成告警信息;
确定子单元,用于在预设的处理对象集合中确定所述集群异常状态对应的目标处理对象;
发送子单元,用于将所述告警信息发送至所述目标处理对象。
与现有技术相比,本发明包括以下优点:
本发明提供了一种集群状态监控方法和装置,该方法包括:响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。应本发明提供的方法,能够通过隐马尔可夫模型基于集群性能指标信息、集群中的每个节点的节点性能指标信息以及集群当前的任务运行信息预测出集群的运行状态,使得能够在集群发生故障之前,发出告警信息,进而能保障集群运行的稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种集群状态监控方法的方法流程图;
图2为本发明提供的一种获得监控数据对应的集群未来状态的过程的流程图;
图3为本发明提供的一种实时采集所述集群的监控数据的过程的流程图;
图4为本发明提供的一种发送集群状态异常对应的告警信息的过程的流程图;
图5为本发明提供的一种集群状态监控装置的结构示意图;
图6为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种集群状态监控方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,所述方法的方法流程图如图1所示,具体包括:
S101:响应于集群监控指令,确定所述集群监控指令对应的集群,该集群设置有多个节点。
本发明实施例提供的方法中,接收到集群监控指令时,对该监控指令进行解析,确定该监控指令对应的集群。
其中,该集群可以为大数据处理集群,例如Spark集群。
具体的,该集群中包括多个节点,每个该节点可以为服务器。
S102:实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息。
本发明实施例提供的方法中,该集群性能指标信息可以包括集群节点数、集群网络状况、集群中的Master组件的IP地址、Worker组件的IP地址、Worker组件的CPU资源、Worker组件的内存资源以及集群磁盘占用情况统计等信息。
其中,该节点性能指标信息包括节点的CPU负载、HTTP服务状态、SSH服务状态、僵尸进程数据以及磁盘IO速率等等。
具体的,该任务运行信息可以包括当前运行的任务类型、当前运行的任务数量以及任务的执行状态等等。
其中,每次采集到的监控数据与该采集到该监控数据的时刻相对应。
S103:应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态。
本发明实施例提供的中,应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,即可以得到该监控数据对应的集群未来状态,该集群未来状态可以为未来的预设时间点或时间段该集群所处的状态,该状态可以为正常状态、空闲状态或各个类型的异常状态等。
其中,应用预先设置的隐马尔可夫模型对每个时刻采集到的监控数据进行处理,得到各个时刻所对应的集群未来状态序列,该未来状态序列中包含各个时刻分别对应的未来时刻的集群未来状态,该未来状态序列即为马尔可夫模型输出的隐含状态链,该未来状态序列可以为该集群的状态趋势。
S104:在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
本发明实施例提供的方法中,判断该集群未来状态是否表征为集群异常状态;在该集群状态状态表征为集群异常状态的情况下,生成该集群异常状态对应的告警信息,并发送该告警信息。
其中,可以基于该集群异常状态的类型生成相应的告警信息,集群异常状态的异常状态类型可以为一种或多种,不同的集群异常状态的异常状态类型所对应的告警信息生成方式不同。
本发明实施例提供了一种集群状态监控方法,包括:响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。应本发明提供的方法,能够通过隐马尔可夫模型基于集群性能指标信息、集群中的每个节点的节点性能指标信息以及集群当前的任务运行信息预测出集群的运行状态,使得能够在集群发生故障之前,发出告警信息,进而能保障集群运行的稳定性。
本发明实施例提供的方法中,基于上述的实施过程,具体的,应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态的过程,如图2所示,可以包括:
S201:对所述监控数据进行预处理,得到与所述隐马尔可夫模型相匹配的输入参数。
本发明实施例提供的方法中,对监控数据进行预处理的一种可行的方式可以为:对该监控数据进行数据清洗,剔除异常值并补齐空缺值,将数据清洗后的监控数据对该监控数据进行归一化处理,得到与该隐马尔可夫模型相匹配的输入参数。
S202:将所述输入参数输入至所述隐马尔可夫模型,使得所述隐马尔可夫模型确定所述集群在所述输入参数对应的目标未来时刻处于各个预设的状态的概率值。
本发明实施例提供的方法中,该隐马尔可夫模型可以由{N,M,A,B,π}表示,N表示隐藏状态集合,M表示可观测状态集合,A为状态转移概率矩阵,B为观测概率矩阵,π为初始概率分布。
其中,该可观测状态集合可以为该监控数据对应的可观测状态,该可观测状态的数量可以通过训练集获得;该隐藏状态集合可以为该隐马尔可夫基于可观测状态所预测的集群的状态,例如,该隐藏状态集合可以包括:正常状态、空闲状态以及各个类型的异常状态。
S203:将各个所述概率值中数值最大的概率值所对应的状态作为所述监控数据对应的集群未来状态。
本发明实施例提供的方法中,通过状态转移概率矩阵确定出隐含状态集合中各个状态分别对应的概率值,并将数值最大的概率值所对应的状态作为集群未来状态。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述隐马尔可夫模型的设置过程,包括:
获取训练数据集以及待训练模型,所述训练数据集包括多个按采集时间顺序排列的历史监控数据;
依次应用所述训练数据集中的每个历史监控数据对所述待训练模型进行训练,直至所述待训练模型满足预先设置的停止训练条件时,将所述待训练模型作为隐马尔可夫模型。
本发明实施例提供的方法中,该停止训练条件可以为用于训练该待训练模型的观察数据的数量等于预先设置的数量阈值。
其中,训练数据集中的每个历史监控数据均具有其对应的采集时间,将每个历史监控数据按其采集时间的先后顺序依次用于对该待训练模型进行训练,以调整该待训练模型的模型参数。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述实时采集所述集群的监控数据,如图3所示,可以包括:
S301:实时读取所述集群对应的任务日志,得到所述集群当前的任务运行信息。
本发明实施例提供的方法中,该任务日志记录有各个时间该集群的任务运行信息,该任务运行信息可以包括该任务运行信息可以包括当前运行的任务类型、当前运行的任务数量以及任务的执行状态等等。
S302:实时调用预设的性能指标采集工具采集到所述集群当前的集群性能指标以及所述集群中的每个节点的节点性能指标。
本发明实施例提供的方法中,通过该性能指标采集工具,可以采集到集群的整体性能状况信息以及集群中各节点的性能状况信息,在该整体性能状况信息中获取到集群性能指标,在各个节点的性能状态信息中获取到每个节点的节点性能指标。
S303:将当前采集到的所述集群性能指标、每个所述节点性能指标以及所述任务运行信息组成所述集群当前的监控数据。
本发明实施例提供的方法,可以预先设置的组合方式,将集群性能指标、每个节点的节点性能指标以及任务运行信息组成集群的监控数据。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述发送所述集群状态异常对应的告警信息,如图4所示,可以包括:
S401:基于所述集群异常状态生成告警信息。
本发明实施例提供的方法中,集群异常状态的异常状态类型可以为一种或多种,不同的集群异常状态的异常状态类型所对应的告警信息生成方式不同。
其中,可以获取该集群异常状态的类型对应的告警信息模板,基于该告警信息模板生成告警信息。
S402:在预设的处理对象集合中确定所述集群异常状态对应的目标处理对象。
本发明实施例提供的方法中,处理对象集合中包含有至少一个处理对象,每个处理对象对应一种或多种集群异常状态的类型,即,可以由不同的处理对象负责处理不同的类型的集群异常状态。
S403:将所述告警信息发送至所述目标处理对象。
本发明实施例提供的方法中,可以获取该目标处理对象的通讯地址,基于该通讯地址将该告警信息发送至该目标处理对象。
在本发明实施例提供的方法中,基于上述的实施过程,具体的,发送集群状态异常对应的告警信息之后,还包括:确定该集群异常状态对应的异常状态类型,并确定该异常状态类型对应的异常修复动作,执行所示异常修复动作,该异常修改动作可以为重启节点、清理缓存以及结束优先级较低的任务的进程等等。
与图1所述的方法相对应,本发明实施例还提供了一种集群状态监控装置,用于对图1中方法的具体实现,本发明实施例提供的集群状态监控装置可以应用于计算机终端或各种移动设备中,其结构示意图如图5所示,具体包括:
确定单元501,用于响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;
采集单元502,用于实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;
处理单元503,用于应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;
发送单元504,用于在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
本发明实施例提供了一种集群状态监控装置,通过响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。应本发明提供的方法,能够通过隐马尔可夫模型基于集群性能指标信息、集群中的每个节点的节点性能指标信息以及集群当前的任务运行信息预测出集群的运行状态,使得能够在集群发生故障之前,发出告警信息,进而能保障集群运行的稳定性。
在本发明提供的一实施例中,基于上述的方案,具体的,所述处理单元503,包括:
预处理子单元,用于对所述监控数据进行预处理,得到与所述隐马尔可夫模型相匹配的输入参数;
输入子单元,用于将所述输入参数输入至所述隐马尔可夫模型,使得所述隐马尔可夫模型确定所述集群在所述输入参数对应的目标未来时刻处于各个预设的状态的概率值;
第一执行子单元,用于将各个所述概率值中数值最大的概率值所对应的状态作为所述监控数据对应的集群未来状态。
在本发明提供的一实施例中,基于上述的方案,具体的,还包括:模型设置单元;
所述模型设置单元,用于获取训练数据集以及待训练模型,所述训练数据集包括多个按采集时间顺序排列的历史监控数据;依次应用所述训练数据集中的每个历史监控数据对所述待训练模型进行训练,直至所述待训练模型满足预先设置的停止训练条件时,将所述待训练模型作为隐马尔可夫模型。
在本发明提供的一实施例中,基于上述的方案,具体的,所述采集单元502,包括:
读取子单元,用于实时读取所述集群对应的任务日志,得到所述集群当前的任务运行信息;
采集子单元,用于实时调用预设的性能指标采集工具采集到所述集群当前的集群性能指标以及所述集群中的每个节点的节点性能指标;
第二执行子单元,用于将当前采集到的所述集群性能指标、所述节点性能指标以及所述任务运行信息组成所述集群当前的监控数据。
在本发明提供的一实施例中,基于上述的方案,具体的,所述发送单元504,包括:
生成子单元,用于基于所述集群异常状态生成告警信息;
确定子单元,用于在预设的处理对象集合中确定所述集群异常状态对应的目标处理对象;
发送子单元,用于将所述告警信息发送至所述目标处理对象。
上述本发明实施例公开的集群状态监控装置中的各个单元和模块具体的原理和执行过程,与上述本发明实施例公开的集群状态监控方法相同,可参见上述本发明实施例提供的集群状态监控方法中相应的部分,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述集群状态监控方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;
实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;
应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;
在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种集群状态监控方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种集群状态监控方法,其特征在于,包括:
响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;
实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;所述集群性能指标信息包括集群节点数、集群网络状况、集群中的Master组件的IP地址、Worker组件的IP地址、Worker组件的CPU资源、Worker组件的内存资源以及集群磁盘占用情况统计;所述节点性能指标信息包括节点的CPU负载、HTTP服务状态、SSH服务状态、僵尸进程数据以及磁盘IO速率;所述任务运行信息包括当前运行的任务类型、当前运行的任务数量以及任务的执行状态;其中,每次采集到的监控数据与采集所述监控数据的时刻相对应;
应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;其中,应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理包括应用预先设置的隐马尔可夫模型对每个时刻采集到的监控数据进行处理,得到各个时刻所对应的集群未来状态序列,所述集群未来状态序列用于表征所述集群的状态趋势;
在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
2.根据权利要求1所述的方法,其特征在于,应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态,包括:
对所述监控数据进行预处理,得到与所述隐马尔可夫模型相匹配的输入参数;
将所述输入参数输入至所述隐马尔可夫模型,使得所述隐马尔可夫模型确定所述集群在所述输入参数对应的目标未来时刻处于各个预设的状态的概率值;
将各个所述概率值中数值最大的概率值所对应的状态作为所述监控数据对应的集群未来状态。
3.根据权利要求1所述的方法,其特征在于,所述隐马尔可夫模型的设置过程,包括:
获取训练数据集以及待训练模型,所述训练数据集包括多个按采集时间顺序排列的历史监控数据;
依次应用所述训练数据集中的每个历史监控数据对所述待训练模型进行训练,直至所述待训练模型满足预先设置的停止训练条件时,将所述待训练模型作为隐马尔可夫模型。
4.根据权利要求1所述的方法,其特征在于,所述实时采集所述集群的监控数据,包括:
实时读取所述集群对应的任务日志,得到所述集群当前的任务运行信息;
实时调用预设的性能指标采集工具采集到所述集群当前的集群性能指标以及所述集群中的每个节点的节点性能指标;
将当前采集到的所述集群性能指标、所述节点性能指标以及所述任务运行信息组成所述集群当前的监控数据。
5.根据权利要求1所述的方法,其特征在于,所述发送所述集群状态异常对应的告警信息,包括:
基于所述集群异常状态生成告警信息;
在预设的处理对象集合中确定所述集群异常状态对应的目标处理对象;
将所述告警信息发送至所述目标处理对象。
6.一种集群状态监控装置,其特征在于,包括:
确定单元,用于响应于集群监控指令,确定所述集群监控指令对应的集群,所述集群中设置有多个节点;
采集单元,用于实时采集所述集群的监控数据,所述监控数据包括集群性能指标信息、所述集群中的每个节点的节点性能指标信息以及所述集群当前的任务运行信息;所述集群性能指标信息包括集群节点数、集群网络状况、集群中的Master组件的IP地址、Worker组件的IP地址、Worker组件的CPU资源、Worker组件的内存资源以及集群磁盘占用情况统计;所述节点性能指标信息包括节点的CPU负载、HTTP服务状态、SSH服务状态、僵尸进程数据以及磁盘IO速率;所述任务运行信息包括当前运行的任务类型、当前运行的任务数量以及任务的执行状态;其中,每次采集到的监控数据与采集所述监控数据的时刻相对应;
处理单元,用于应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理,得到所述监控数据对应的集群未来状态;其中,应用预先设置的隐马尔可夫模型对当前采集到的监控数据进行处理包括应用预先设置的隐马尔可夫模型对每个时刻采集到的监控数据进行处理,得到各个时刻所对应的集群未来状态序列,所述集群未来状态序列用于表征所述集群的状态趋势;
发送单元,用于在所述集群未来状态表征为集群状态异常的情况下,发送所述集群状态异常对应的告警信息。
7.根据权利要求6所述的装置,其特征在于,所述处理单元,包括:
预处理子单元,用于对所述监控数据进行预处理,得到与所述隐马尔可夫模型相匹配的输入参数;
输入子单元,用于将所述输入参数输入至所述隐马尔可夫模型,使得所述隐马尔可夫模型确定所述集群在所述输入参数对应的目标未来时刻处于各个预设的状态的概率值;
第一执行子单元,用于将各个所述概率值中数值最大的概率值所对应的状态作为所述监控数据对应的集群未来状态。
8.根据权利要求6所述的装置,其特征在于,还包括:模型设置单元;
所述模型设置单元,用于获取训练数据集以及待训练模型,所述训练数据集包括多个按采集时间顺序排列的历史监控数据;依次应用所述训练数据集中的每个历史监控数据对所述待训练模型进行训练,直至所述待训练模型满足预先设置的停止训练条件时,将所述待训练模型作为隐马尔可夫模型。
9.根据权利要求6所述的装置,其特征在于,所述采集单元,包括:
读取子单元,用于实时读取所述集群对应的任务日志,得到所述集群当前的任务运行信息;
采集子单元,用于实时调用预设的性能指标采集工具采集到所述集群当前的集群性能指标以及所述集群中的每个节点的节点性能指标;
第二执行子单元,用于将当前采集到的所述集群性能指标、所述节点性能指标以及所述任务运行信息组成所述集群当前的监控数据。
10.根据权利要求6所述的装置,其特征在于,所述发送单元,包括:
生成子单元,用于基于所述集群异常状态生成告警信息;
确定子单元,用于在预设的处理对象集合中确定所述集群异常状态对应的目标处理对象;
发送子单元,用于将所述告警信息发送至所述目标处理对象。
CN202011046727.5A 2020-09-29 2020-09-29 集群状态监控方法及装置 Active CN112115031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011046727.5A CN112115031B (zh) 2020-09-29 2020-09-29 集群状态监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011046727.5A CN112115031B (zh) 2020-09-29 2020-09-29 集群状态监控方法及装置

Publications (2)

Publication Number Publication Date
CN112115031A CN112115031A (zh) 2020-12-22
CN112115031B true CN112115031B (zh) 2024-09-17

Family

ID=73797801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011046727.5A Active CN112115031B (zh) 2020-09-29 2020-09-29 集群状态监控方法及装置

Country Status (1)

Country Link
CN (1) CN112115031B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667400B (zh) * 2020-12-29 2021-08-13 天津大学 边缘自治中心管控的边云资源调度方法、装置及系统
CN112948229A (zh) * 2021-03-16 2021-06-11 广州虎牙科技有限公司 调度集群的性能确定方法、装置、计算机设备及存储介质
CN113220534A (zh) * 2021-05-28 2021-08-06 中国工商银行股份有限公司 集群多维度异常监控方法、装置、设备及存储介质
CN113852515B (zh) * 2021-08-26 2023-05-09 西安电子科技大学广州研究院 一种数字孪生网络的节点状态管控方法及系统
CN115022209A (zh) * 2022-06-24 2022-09-06 中国电信股份有限公司 监控方法、装置和计算机可读存储介质
CN115729783A (zh) * 2022-11-30 2023-03-03 中国人民财产保险股份有限公司 故障风险监控方法、设备、存储介质及程序产品
CN115686381B (zh) * 2022-12-29 2023-03-14 苏州浪潮智能科技有限公司 存储集群运行状态的预测方法及装置
CN118394607B (zh) * 2024-06-27 2024-09-03 之江实验室 一种计算集群温度告警方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825579A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7542949B2 (en) * 2004-05-12 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models
WO2013183425A1 (ja) * 2012-06-06 2013-12-12 日本電気株式会社 性能予測装置、性能予測方法及びプログラム
CN107659595B (zh) * 2016-07-25 2021-06-25 阿里巴巴集团控股有限公司 一种评估分布式集群处理指定业务的能力的方法和装置
CN109120434A (zh) * 2018-07-27 2019-01-01 郑州云海信息技术有限公司 一种存储集群告警方法、装置和计算机可读存储介质
JP6850771B2 (ja) * 2018-07-31 2021-03-31 株式会社日立製作所 情報処理システム、情報処理システムの管理方法及びプログラム
CN110531988B (zh) * 2019-08-06 2023-06-06 新华三大数据技术有限公司 应用程序的状态预测方法及相关装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825579A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112115031A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN112115031B (zh) 集群状态监控方法及装置
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN110516971B (zh) 异常检测的方法、装置、介质和计算设备
CN108509325B (zh) 系统超时时间的动态确定方法与装置
CN115277566B (zh) 数据访问的负载均衡方法、装置、计算机设备及介质
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN113890879B (zh) 数据访问的负载均衡方法、装置、计算机设备及介质
CN117688342B (zh) 一种基于模型的设备状态预测方法、电子设备及存储介质
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
US20230376372A1 (en) Multi-modality root cause localization for cloud computing systems
CN111324460B (zh) 一种基于云计算平台的电力监测控制系统及方法
CN118012719B (zh) 容器运行状态监测方法、智能计算云操作系统及计算平台
CN115437886A (zh) 基于存算一体芯片的故障预警方法、装置、设备及存储
CN111130882A (zh) 网络设备的监控系统及方法
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
CN112883253A (zh) 数据处理方法、装置、设备及可读存储介质
CN116755974A (zh) 云计算平台运维方法、装置、电子设备及存储介质
CN116108065A (zh) 一种主动式时序数据管理方法及系统
CN114564349A (zh) 一种服务器的监控方法、装置、电子设备及存储介质
CN117435441B (zh) 一种基于日志数据的故障诊断方法及装置
CN114265527B (zh) 一种预测鼠标点击位置的方法、装置、介质及电子设备
CN112114972B (zh) 数据倾斜的预测方法及装置
CN112907221B (zh) 一种自服务方法、装置及系统
CN113541979B (zh) 基于时序数据的故障动态预测方法、装置及计算设备
US20240045784A1 (en) Hybrid neural network for preventing system failure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant