CN113608964A - 一种集群自动化监控方法、装置、电子设备及存储介质 - Google Patents

一种集群自动化监控方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113608964A
CN113608964A CN202110909532.7A CN202110909532A CN113608964A CN 113608964 A CN113608964 A CN 113608964A CN 202110909532 A CN202110909532 A CN 202110909532A CN 113608964 A CN113608964 A CN 113608964A
Authority
CN
China
Prior art keywords
cluster
alarm information
analysis
log data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110909532.7A
Other languages
English (en)
Inventor
颜顺鹏
秦晓宁
许飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nettrix Information Industry Beijing Co Ltd
Original Assignee
Nettrix Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nettrix Information Industry Beijing Co Ltd filed Critical Nettrix Information Industry Beijing Co Ltd
Priority to CN202110909532.7A priority Critical patent/CN113608964A/zh
Publication of CN113608964A publication Critical patent/CN113608964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Abstract

本申请提供一种集群自动化监控方法、装置、电子设备及存储介质,该方法包括:获取监控集群网络的集群节点中采集的日志数据;对日志数据进行报警分析,获得报警信息;对报警信息进行多维度分析,获得分析结果。在上述的实现过程中,通过获取监控集群网络的集群节点中采集的日志数据,并对日志数据进行报警分析,获得报警信息,最后对报警信息进行多维度分析,通过多维度分析的过程能够分析出计算机集群网络可能出现或者已经出现的故障。因此,可以通过该集群自动化监控方法能够有效地发现计算机集群网络可能出现或者已经出现的故障,从而提高了对计算机集群网络中的所有集群节点进行维护的效率。

Description

一种集群自动化监控方法、装置、电子设备及存储介质
技术领域
本申请涉及集群管理、运维管理和自动化监控的技术领域,具体而言,涉及一种集群自动化监控方法、装置、电子设备及存储介质。
背景技术
基板管理控制器(Baseboard Management Controller,BMC),是一种主板上的微控制器,BMC通常是一个安装在服务器主板上的独立芯片。可以通过BMC来监视服务器的主板温度、电压、风扇或者电源等等运作状况,也可以通过BMC做相应的调节工作,以保证主板处于健康的状态。
目前,对服务器进行监控大都是使用BMC进行监控,从而获取该服务器的主板温度、电压、风扇或者电源等等运作状况,运维实施人员在监控服务器上编写脚本程序,运行该脚本程序时能够根据该服务器的主板温度、电压、风扇或者电源等等运作状况等信息向该运维实施人员发送警告信息,运维实施人员再根据警告信息来对服务器进行调整,从而达到对单台或者多台服务器进行有效地监控和运维的效果。然而,在计算机集群(computercluster)的场景下,需要大量的计算机运维人员才能够维护计算机集群网络中的所有集群节点出现的故障,因此,目前针对计算机集群网络中的所有集群节点进行维护的效率低下。
发明内容
本申请实施例的目的在于提供一种集群自动化监控方法、装置、电子设备及存储介质,用于改善很难发现计算机集群网络出现的故障的问题。
本申请实施例提供了一种集群自动化监控方法,包括:获取监控集群网络的集群节点中采集的日志数据;对日志数据进行报警分析,获得报警信息;对报警信息进行多维度分析,获得分析结果。在上述的实现过程中,通过获取监控集群网络的集群节点中采集的日志数据,并对日志数据进行报警分析,获得报警信息,最后对报警信息进行多维度分析,通过多维度分析的过程能够分析出计算机集群网络可能出现或者已经出现的故障。因此,可以通过该集群自动化监控方法能够有效地发现计算机集群网络可能出现或者已经出现的故障,从而提高了对计算机集群网络中的所有集群节点进行维护的效率。
可选地,在本申请实施例中,获取监控集群网络的集群节点中采集的日志数据,包括:接收集群节点上运行的信息代理采集器发送的日志数据,信息代理采集器用于采集集群节点的日志数据。在上述的实现过程中,通过使用集群节点上运行的信息代理采集器来采集并回传集群节点上的日志数据,从而实现了远程(又被称为带内)无人值守监控的功能,有效地提高了对计算机集群网络中的所有集群节点进行维护的效率。
可选地,在本申请实施例中,在获得分析结果之后,还包括:获取预先存储的认证信息;根据认证信息生成登录请求;向集群节点上运行的信息代理采集器发送登录请求,以使集群节点通过信息代理采集器返回登录请求对应的登录响应;若登录响应为登录成功,则根据报警信息和/或分析结果生成控制命令,并向集群节点发送控制命令。在上述的实现过程中,通过向集群节点上运行的信息代理采集器发送登录请求,以使集群节点通过信息代理采集器返回登录请求对应的登录响应,从而实现了远程免密登录的功能,便于测试人员通过远程免密登录对集群节点进行控制,有效地提高了对计算机集群网络中的所有集群节点进行维护的效率。
可选地,在本申请实施例中,日志数据包括:集群节点的中央处理器的使用率和随机存取存储器的使用率;对日志数据进行报警分析,获得报警信息,包括:若集群节点的中央处理器的使用率超过第一预设比例,则生成中央处理器的报警信息;若集群节点的随机存取存储器的使用率超过第二预设比例,则生成随机存取存储器的报警信息。在上述的实现过程中,通过对集群节点的中央处理器和随机存取存储器进行监控,从而避免了中央处理器和随机存取存储器的使用率超负荷运转带来损失的问题,有效地提高了对计算机集群网络中的所有集群节点进行维护的效率。
可选地,在本申请实施例中,分析结果包括:时间关联分析后的多个报警信息;对报警信息进行多维度分析,获得分析结果,包括:按照时间维度对集群节点报警信息进行关联分析,获得时间关联分析后的多个报警信息。在上述的实现过程中,通过按照时间维度对集群节点报警信息进行关联分析,从而让测试人员从时间维度更加直观地分析出集群可能存在的问题,有效地提高了对计算机集群网络中的所有集群节点进行维护的效率。
可选地,在本申请实施例中,在获得时间关联分析后的多个报警信息之后,还包括:对日志数据、报警信息和/或时间关联分析后的多个报警信息进行可视化输出。在上述的实现过程中,通过对日志数据、报警信息和/或时间关联分析后的多个报警信息进行可视化输出,从而让测试人员更加直观地分析出集群可能存在的问题,有效地提高了对计算机集群网络中的所有集群节点进行维护的效率。
可选地,在本申请实施例中,对报警信息进行多维度分析,包括:向软件缺陷管理服务器发送报警信息,以使软件缺陷管理服务器在接收报警信息之后,对报警信息进行多维度分析,并返回分析结果;接收软件缺陷管理服务器发送的分析结果。在上述的实现过程中,通过软件缺陷管理服务器在接收报警信息之后,对报警信息进行多维度分析,从而有效节约了电子设备的计算资源,使得电子设备仅分析和及时处理报警信息,提高了报警信息处理的及时率,从而提高了对计算机集群网络中的所有集群节点进行维护的效率。
本申请实施例还提供了一种集群自动化监控装置,包括:日志数据获取模块,用于获取监控集群网络的集群节点中采集的日志数据;报警信息获得模块,用于对日志数据进行报警分析,获得报警信息;分析结果获得模块,用于对报警信息进行多维度分析,获得分析结果。
可选地,在本申请实施例中,日志数据获取模块,包括:数据采集接收模块,用于接收集群节点上运行的信息代理采集器发送的日志数据,信息代理采集器用于采集集群节点的日志数据。
可选地,在本申请实施例中,集群自动化监控装置,还包括:认证信息获取模块,用于获取预先存储的认证信息;登录请求生成模块,用于根据认证信息生成登录请求;登录请求发送模块,用于向集群节点上运行的信息代理采集器发送登录请求,以使集群节点通过信息代理采集器返回登录请求对应的登录响应;若登录响应为登录成功,则根据报警信息和/或分析结果生成控制命令,并向集群节点发送控制命令。
可选地,在本申请实施例中,日志数据包括:集群节点的中央处理器的使用率和随机存取存储器的使用率;报警信息获得模块,包括:第一报警信息生成模块,用于若集群节点的中央处理器的使用率超过第一预设比例,则生成中央处理器的报警信息;第二报警信息生成模块,用于若集群节点的随机存取存储器的使用率超过第二预设比例,则生成随机存取存储器的报警信息。
可选地,在本申请实施例中,分析结果包括:时间关联分析后的多个报警信息;分析结果获得模块,包括:时间维度分析模块,用于按照时间维度对集群节点报警信息进行关联分析,获得时间关联分析后的多个报警信息。
可选地,在本申请实施例中,分析结果获得模块,还包括:信息可视化输出模块,用于对日志数据、报警信息和/或时间关联分析后的多个报警信息进行可视化输出。
可选地,在本申请实施例中,分析结果获得模块,包括:报警信息发送模块,用于向软件缺陷管理服务器发送报警信息,以使软件缺陷管理服务器在接收报警信息之后,对报警信息进行多维度分析,并返回分析结果;分析结果接收模块,用于接收软件缺陷管理服务器发送的分析结果。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的集群自动化监控方法的流程示意图;
图2示出的本申请实施例提供的免密登录集群节点的过程示意图;
图3示出的本申请实施例提供的集群自动化监控装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的集群自动化监控方法之前,先介绍本申请实施例中所涉及的一些概念:
计算机集群(computer cluster),又被简称为集群,是指一组松散或紧密连接在一起工作的计算机,这些计算机需要被安装操作系统和协同工作的软件后才能在一起协同工作,此处协同工作的计算机又可以被称为集群节点。由于这些计算机协同工作,在许多方面它们可以被视为单个系统;计算机集群与网格计算机不同,计算机集群将每个节点设置为执行相同的任务,由软件控制和调度。
信息代理采集器(Agent),是指Linux操作系统环境下使用的代理工具,可以使用该代理工具对集群节点或者服务器等设备信息数据进行采集,从而获得集群节点或者服务器上的日志数据,并将日志数据传回给指定的电子设备。
高可用(High-Availability,HA)集群,又被称为高可用性集群(HighAvailability Cluster)、集群HA集群或者故障转移集群,高可用集群是以最短的中断时间为目标而可靠地运作的,支撑服务器应用的一组电子计算机;高可用集群通过使用高可用性软件来管理集群中的冗余计算机。
需要说明的是,本申请实施例提供的集群自动化监控方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digitalassistant,PDA)或者移动上网设备(mobile Internet device,MID)等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
下面介绍该集群自动化监控方法适用的应用场景,这里的应用场景包括但不限于:使用该集群自动化监控方法对计算机集群网络中的集群节点进行自动化监控和分析报警信息等,实现了无人值守机房的自动化监控系统,从而提高了对计算机集群网络中的所有集群节点进行维护的效率。
请参见图1示出的本申请实施例提供的集群自动化监控方法的流程示意图;该集群自动化监控方法的主要思路是,通过获取监控集群网络的集群节点中采集的日志数据,并对日志数据进行报警分析,获得报警信息,最后对报警信息进行多维度分析,通过多维度分析的过程能够分析出计算机集群网络可能出现或者已经出现的故障。因此,可以通过该集群自动化监控方法能够有效地发现计算机集群网络可能出现或者已经出现的故障,从而提高了对计算机集群网络中的所有集群节点进行维护的效率。上述的集群自动化监控方法可以包括:
步骤S110:获取监控集群网络的集群节点中采集的日志数据。
日志数据是指记录系统中硬件、软件和系统问题的数据,同时还可以监视系统中发生的事件;可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹;这里的日志数据包括系统运行日志、硬件配置修改日志、硬件或者软件运行日志、应用程序的配置修改日志和安全日志等。
上述步骤S110中日志数据的获取方式有很多种,包括但不限于这几种:第一种实施方式,电子设备直接接收采集器从集群节点中获取的日志数据,具体例如:在集群节点上事先安装信息代理采集器(Agent),并使用该Agent运行Python脚本程序或者Shell脚本程序来采集集群节点上的日志数据,然后通过该信息代理采集器向电子设备发送采集的日志数据。该电子设备在接收该信息代理采集器发送的日志数据之后,还可以将日志数据存储至文件系统、数据库或移动存储设备中,上述的信息代理采集器用于采集集群节点的日志数据。第二种实施方式,获取预先存储的日志数据,具体例如:从文件系统中获取日志数据,或者从数据库中获取日志数据,或者从移动存储设备中获取日志数据。其中,上述的日志数据可以包括:集群节点的机器网际协议(Internet Protocol,IP)地址、媒体访问控制(Media Access Control,MAC)地址、通用唯一识别码(Universally Unique Identifier,UUID)、机器型号、是否已经报警的报警状态、集群节点的中央处理器的使用率和随机存取存储器的使用率等等。
在步骤S110之后,执行步骤S120:对日志数据进行报警分析,获得报警信息。
上述步骤S120的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,对单个集群节点的指标数据进行报警分析,例如中央处理器(Central Processing Unit,CPU)或者随机存取存储器(Random Access Memory,RAM)的使用率进行监控报警,该实施方式具体可以包括:
步骤S121:若集群节点的中央处理器的使用率超过第一预设比例,则生成中央处理器的报警信息。
步骤S122:若集群节点的随机存取存储器的使用率超过第二预设比例,则生成随机存取存储器的报警信息。
上述步骤S121至步骤S122的实施方式例如:假设第一预设比例是85%,第二预设比例是90%,那么如果集群节点的CPU使用率超过85%,就生成CPU的报警信息,如果集群节点的RAM使用率超过90%,就生成RAM的报警信息。当然,在具体实施过程中,还可以监控其它硬件(例如移动存储介质和硬盘等等)使用率或者软体(例如特定程序、特定线程或进程等)使用率,当其它硬件使用率或者软体使用率超过预设比例时,生成该硬件或者软体的报警信息;预设比例可以根据具体情况进行设置,例如设置为70%、80%或者90%等等。
第二种实施方式,对整个集群的指标进行监控报警分析,例如:监控整个集群的每个集群节点的运行数据和心跳数据,从而根据每个集群节点的运行数据和心跳数据确定是否出现集群故障,具体地,假设该集群是高可用集群,若在集群之间的心跳网络出现中断(即某个或者某些特殊集群节点无法通过心跳信息感知到其它集群节点正在运行的资源),那么就会出现脑裂故障。如果从整个集群的运行数据和心跳数据分析得出,除了特殊集群节点之外的大部分机器节点都是正常运行的,那么可以生成脑裂故障报警信息,以免这些特殊集群节点错误地判断其他集群节点已经停机,并尝试启动其他集群节点仍在运行的服务,从而导致共享存储上的数据损坏。集群运维人员在收到故障报警信息之后,可以及时处理故障,从而及时挽回和弥补共享存储上的数据损失。
在步骤S120之后,执行步骤S130:对报警信息进行多维度分析,获得分析结果。
其中,上述的分析结果是指多维度对报警信息分析的结果,该分析结果可以包括:时间关联分析后的多个报警信息和统计分析后的报警信息等等。
上述步骤S130的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,使用其它(例如Mantis软件缺陷管理系统)服务器对报警信息进行多维度分析,该实施方式具体可以包括:Agent在获取日志数据之后,自动通过Python脚本程序或者Shell脚本程序向电子设备发送日志数据。电子设备在接收到Agent发送的日志数据之后,自动向软件缺陷管理服务器提交报警信息;其中,软件缺陷管理服务器又被称为Mantis服务器或者Mantis缺陷追踪(Mantis Bug Tracker)服务器。软件缺陷管理服务器接收电子设备发送的报警信息,并对报警信息进行多维度分析,获得多维度的分析结果,然后向电子设备发送多维度的分析结果。然后,电子设备接收软件缺陷管理服务器发送的分析结果。
第二种实施方式,进行时间维度的关联分析(即按照时间点维度来展示报警信息的数量、种类和趋势等等),该实施方式具体包括:按照时间维度(具体例如按照年月日的时间角度进行分类统计)对集群节点报警信息进行关联分析,获得时间关联分析后的多个报警信息。当然还可以根据时间关联分析后的多个报警信息画出报警趋势图,以便于测试人员观察报警发生的整体趋势和整体状态等等。
第三种实施方式,对报警信息进行关键词抽取,并根据该关键词进行分类统计,该实施方式例如:使用基于统计学的方法或者预训练语言模型(Pretraining LanguageModels,PLMs)对报警信息进行关键词抽取,并根据该关键词进行分类统计。其中,关键词抽取是指利用自然语言处理(Natural Language Processing,NLP)技术从大量文本内容中抽取出关键的词语,可以使用的基于统计学的方法包括:主成分分析(Principal ComponentAnalysis,PCA)算法、词频逆向文件频率(Term Frequency–Inverse Document Frequency,TF-IDF)算法或者向量空间模型(Vector Space Model,VSM)算法;可以使用的预训练语言模型包括:GloVe模型、GPT模型、BERT模型、word2vec模型和FastText模型等等。可选地,在关键词抽取之后,还可以将报警信息按照统计出关键词的数量进行排序,或者,根据报警状态数量进行排序等等,或者,为测试人员提供关键词修改、查询和增加等等应用程序接口(Application Programming Interface,API),以使测试人员可以对关键词进行修改、查询和增加等等操作。
可选地,在获得分析结果之后,还可以将日志数据、报警信息和/或时间关联分析结果进行可视化输出,该实施方式可以包括:使用前端React框架和后端Django框架搭建集群自动化监控业务系统,可以通过该集群自动化监控业务系统对日志数据、报警信息和/或时间关联分析后的多个报警信息进行可视化输出,测试人员根据集群节点的IP地址、机器型号和报警状态等等信息在集群自动化监控业务系统上进行检索查询,获得查询结果。在上述过程中,使用前后端分离的React框架和Django框架来搭建集群自动化监控业务系统,使得集群自动化监控业务系统更加便于维护和管理。
可选地,在将日志数据、报警信息和/或时间关联分析结果进行可视化输出之后,还可以可视化展示Agent的实时报警个数,监控的集群节点数量,报警信息的关键词统计,以及报警信息的分类统计信息(具体例如按照年月日的时间角度进行分类统计)等等。还可以提供日志数据、报警信息和/或时间关联分析结果一键下载服务,具体例如:电子设备接收终端设备发送的下载请求,该下载请求中包括下载的目标对象,该目标对象可以是日志数据、报警信息和/或时间关联分析结果等等。
在上述的实现过程中,首先,获取监控集群网络的集群节点中采集的日志数据;然后,对日志数据进行报警分析,获得报警信息;最后,对报警信息进行多维度分析,获得分析结果。通过获取监控集群网络的集群节点中采集的日志数据,并对日志数据进行报警分析,获得报警信息,最后对报警信息进行多维度分析,通过多维度分析的过程能够分析出计算机集群网络可能出现或者已经出现的故障。因此,可以通过该集群自动化监控方法能够有效地发现计算机集群网络可能出现或者已经出现的故障,从而提高了对计算机集群网络中的所有集群节点进行维护的效率。
请参见图2示出的本申请实施例提供的免密登录集群节点的过程示意图;可选地,在获得分析结果之后,还可以免密登录集群节点,免密登录集群节点的过程可以包括:
步骤S210:获取预先存储的认证信息。
上述步骤S210的实施方式例如:获取预先存储的认证信息,该认证信息包括但不限于:安全外壳(Secure Shell,SSH)协议登录所需要的密钥(例如非对称加密的公钥等等)、用户名和/或密码等等,或者,对称加密的密钥,或者,访问授权码(token)等等。
在步骤S210之后,执行步骤S220:根据认证信息生成登录请求。
上述步骤S220的实施方式例如:根据认证信息生成登录请求,如果之前通过Linux操作系统下的copy-ssh-id命令已经将上述公钥复制到信息代理采集器所在的集群节点,那么此时可以直接在登录请求中设置该公钥即可免密登录。若之前没有通过Linux操作系统下的copy-ssh-id命令已经将上述公钥复制到信息代理采集器所在的集群节点,那么可以先在ssh协议的登录请求中设置用户名和密码,在登录之后,执行Linux操作系统下的copy-ssh-id命令,从而将上述公钥复制到信息代理采集器所在的集群节点,随后在登录请求中设置该公钥即可实现免密登录。
在步骤S220之后,执行步骤S230:电子设备向集群节点上运行的信息代理采集器发送登录请求,以使集群节点通过信息代理采集器返回登录请求对应的登录响应。
在步骤S230之后,执行步骤S240:若登录响应为登录成功,则根据报警信息和/或分析结果生成控制命令,并向集群节点发送控制命令。
上述步骤S230至步骤S240的实施方式例如:电子设备通过SSH协议向集群节点上运行的信息代理采集器发送包括对称加密公钥的登录请求,以使集群节点通过信息代理采集器返回登录请求对应的登录响应。若登录响应为登录成功,则根据报警信息和/或分析结果生成控制命令,并向集群节点发送控制命令。
在上述的实现过程中,通过向集群节点上运行的信息代理采集器发送登录请求,以使集群节点通过信息代理采集器返回登录请求对应的登录响应,从而实现了远程免密登录的功能,便于测试人员通过远程免密登录对集群节点进行控制,有效地提高了对计算机集群网络中的所有集群节点进行维护的效率。
请参见图3示出的本申请实施例提供的集群自动化监控装置的结构示意图;本申请实施例提供了一种集群自动化监控装置300,包括:
日志数据获取模块310,用于获取监控集群网络的集群节点中采集的日志数据。
报警信息获得模块320,用于对日志数据进行报警分析,获得报警信息。
分析结果获得模块330,用于对报警信息进行多维度分析,获得分析结果。
可选地,在本申请实施例中,日志数据获取模块,包括:
数据采集接收模块,用于接收集群节点上运行的信息代理采集器发送的日志数据,信息代理采集器用于采集集群节点的日志数据。
可选地,在本申请实施例中,集群自动化监控装置,还包括:
认证信息获取模块,用于获取预先存储的认证信息。
登录请求生成模块,用于根据认证信息生成登录请求。
登录请求发送模块,用于向集群节点上运行的信息代理采集器发送登录请求,以使集群节点通过信息代理采集器返回登录请求对应的登录响应。
若登录响应为登录成功,则根据报警信息和/或分析结果生成控制命令,并向集群节点发送控制命令。
可选地,在本申请实施例中,日志数据包括:集群节点的中央处理器的使用率和随机存取存储器的使用率;报警信息获得模块,包括:
第一报警信息生成模块,用于若集群节点的中央处理器的使用率超过第一预设比例,则生成中央处理器的报警信息。
第二报警信息生成模块,用于若集群节点的随机存取存储器的使用率超过第二预设比例,则生成随机存取存储器的报警信息。
可选地,在本申请实施例中,分析结果包括:时间关联分析后的多个报警信息;分析结果获得模块,包括:
时间维度分析模块,用于按照时间维度对集群节点报警信息进行关联分析,获得时间关联分析后的多个报警信息。
可选地,在本申请实施例中,分析结果获得模块,还包括:
信息可视化输出模块,用于对日志数据、报警信息和/或时间关联分析后的多个报警信息进行可视化输出。
可选地,在本申请实施例中,分析结果获得模块,包括:
报警信息发送模块,用于向软件缺陷管理服务器发送报警信息,以使软件缺陷管理服务器在接收报警信息之后,对报警信息进行多维度分析,并返回分析结果。
分析结果接收模块,用于接收软件缺陷管理服务器发送的分析结果。
应理解的是,该装置与上述的集群自动化监控方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种计算机可读存储介质430,该计算机可读存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,计算机可读存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种集群自动化监控方法,其特征在于,包括:
获取监控集群网络的集群节点中采集的日志数据;
对所述日志数据进行报警分析,获得报警信息;
对所述报警信息进行多维度分析,获得分析结果。
2.根据权利要求1所述的方法,其特征在于,所述获取监控集群网络的集群节点中采集的日志数据,包括:
接收所述集群节点上运行的信息代理采集器发送的所述日志数据,所述信息代理采集器用于采集所述集群节点的所述日志数据。
3.根据权利要求2所述的方法,其特征在于,在所述获得分析结果之后,还包括:
获取预先存储的认证信息;
根据所述认证信息生成登录请求;
向所述集群节点上运行的信息代理采集器发送登录请求,以使所述集群节点通过所述信息代理采集器返回所述登录请求对应的登录响应;
若所述登录响应为登录成功,则根据所述报警信息和/或所述分析结果生成控制命令,并向所述集群节点发送所述控制命。
4.根据权利要求1所述的方法,其特征在于,所述日志数据包括:所述集群节点的中央处理器的使用率和随机存取存储器的使用率;所述对所述日志数据进行报警分析,获得报警信息,包括:
若所述集群节点的中央处理器的使用率超过第一预设比例,则生成所述中央处理器的报警信息;
若所述集群节点的随机存取存储器的使用率超过第二预设比例,则生成所述随机存取存储器的报警信息。
5.根据权利要求1-4任一所述的方法,其特征在于,所述分析结果包括:时间关联分析后的多个报警信息;所述对所述报警信息进行多维度分析,获得分析结果,包括:
按照时间维度对所述集群节点所述报警信息进行关联分析,获得所述时间关联分析后的多个报警信息。
6.根据权利要求5所述的方法,其特征在于,在所述获得所述时间关联分析后的多个报警信息之后,还包括:
对所述日志数据、所述报警信息和/或所述时间关联分析后的多个报警信息进行可视化输出。
7.根据权利要求1-4任一所述的方法,其特征在于,所述对所述报警信息进行多维度分析,包括:
向软件缺陷管理服务器发送所述报警信息,以使所述软件缺陷管理服务器在接收所述报警信息之后,对所述报警信息进行多维度分析,并返回所述分析结果;
接收所述软件缺陷管理服务器发送的所述分析结果。
8.一种集群自动化监控装置,其特征在于,包括:
日志数据获取模块,用于获取监控集群网络的集群节点中采集的日志数据;
报警信息获得模块,用于对所述日志数据进行报警分析,获得报警信息;
分析结果获得模块,用于对所述报警信息进行多维度分析,获得分析结果。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202110909532.7A 2021-08-09 2021-08-09 一种集群自动化监控方法、装置、电子设备及存储介质 Pending CN113608964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110909532.7A CN113608964A (zh) 2021-08-09 2021-08-09 一种集群自动化监控方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110909532.7A CN113608964A (zh) 2021-08-09 2021-08-09 一种集群自动化监控方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113608964A true CN113608964A (zh) 2021-11-05

Family

ID=78340023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110909532.7A Pending CN113608964A (zh) 2021-08-09 2021-08-09 一种集群自动化监控方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113608964A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114189515A (zh) * 2021-11-12 2022-03-15 苏州浪潮智能科技有限公司 基于sgx的服务器集群日志获取方法和装置
CN114598624A (zh) * 2022-03-15 2022-06-07 平安科技(深圳)有限公司 集群监控方法、装置、电子设备及可读存储介质
CN114641027A (zh) * 2022-03-21 2022-06-17 广西广电新媒体有限公司 一种无线办公网络多用户精准体验主动感知系统及方法
CN116094940A (zh) * 2023-02-15 2023-05-09 北京志凌海纳科技有限公司 一种vrrp脑裂抑制方法、系统、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106371986A (zh) * 2016-09-08 2017-02-01 上海新炬网络技术有限公司 一种日志处理运维监控系统
CN107682351A (zh) * 2017-10-20 2018-02-09 携程旅游网络技术(上海)有限公司 网络安全监控的方法、系统、设备及存储介质
CN108365985A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种集群管理方法、装置、终端设备及存储介质
CN111026621A (zh) * 2019-12-23 2020-04-17 杭州安恒信息技术股份有限公司 面向Elasticsearch集群的监控报警方法、装置、设备、介质
CN111130897A (zh) * 2019-12-27 2020-05-08 北京奇艺世纪科技有限公司 报警日志监控方法、系统、电子设备及可读存储介质
CN111352806A (zh) * 2020-03-31 2020-06-30 中国工商银行股份有限公司 日志数据监控方法及装置
CN111585786A (zh) * 2020-03-30 2020-08-25 青岛青软实训教育科技股份有限公司 一种大数据集群免密搭建方法的实现
CN111782232A (zh) * 2020-07-31 2020-10-16 平安银行股份有限公司 集群的部署方法、装置、终端设备及存储介质
CN112579353A (zh) * 2020-12-15 2021-03-30 中国建设银行股份有限公司 自动运维方法、装置及大数据平台

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106371986A (zh) * 2016-09-08 2017-02-01 上海新炬网络技术有限公司 一种日志处理运维监控系统
CN107682351A (zh) * 2017-10-20 2018-02-09 携程旅游网络技术(上海)有限公司 网络安全监控的方法、系统、设备及存储介质
CN108365985A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种集群管理方法、装置、终端设备及存储介质
CN111026621A (zh) * 2019-12-23 2020-04-17 杭州安恒信息技术股份有限公司 面向Elasticsearch集群的监控报警方法、装置、设备、介质
CN111130897A (zh) * 2019-12-27 2020-05-08 北京奇艺世纪科技有限公司 报警日志监控方法、系统、电子设备及可读存储介质
CN111585786A (zh) * 2020-03-30 2020-08-25 青岛青软实训教育科技股份有限公司 一种大数据集群免密搭建方法的实现
CN111352806A (zh) * 2020-03-31 2020-06-30 中国工商银行股份有限公司 日志数据监控方法及装置
CN111782232A (zh) * 2020-07-31 2020-10-16 平安银行股份有限公司 集群的部署方法、装置、终端设备及存储介质
CN112579353A (zh) * 2020-12-15 2021-03-30 中国建设银行股份有限公司 自动运维方法、装置及大数据平台

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114189515A (zh) * 2021-11-12 2022-03-15 苏州浪潮智能科技有限公司 基于sgx的服务器集群日志获取方法和装置
CN114189515B (zh) * 2021-11-12 2023-08-04 苏州浪潮智能科技有限公司 基于sgx的服务器集群日志获取方法和装置
CN114598624A (zh) * 2022-03-15 2022-06-07 平安科技(深圳)有限公司 集群监控方法、装置、电子设备及可读存储介质
CN114598624B (zh) * 2022-03-15 2023-11-07 平安科技(深圳)有限公司 集群监控方法、装置、电子设备及可读存储介质
CN114641027A (zh) * 2022-03-21 2022-06-17 广西广电新媒体有限公司 一种无线办公网络多用户精准体验主动感知系统及方法
CN116094940A (zh) * 2023-02-15 2023-05-09 北京志凌海纳科技有限公司 一种vrrp脑裂抑制方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
US11442803B2 (en) Detecting and analyzing performance anomalies of client-server based applications
CN113608964A (zh) 一种集群自动化监控方法、装置、电子设备及存储介质
US10108411B2 (en) Systems and methods of constructing a network topology
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
Chen et al. CauseInfer: Automated end-to-end performance diagnosis with hierarchical causality graph in cloud environment
US20140068040A1 (en) System for Enabling Server Maintenance Using Snapshots
CN112534432A (zh) 不熟悉威胁场景的实时缓解
US11223680B2 (en) Computer servers for datacenter management
CN109039787B (zh) 日志处理方法、装置及大数据集群
CN113424157A (zh) IoT设备行为的多维周期性检测
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN114077525A (zh) 异常日志处理方法、装置、终端设备、云服务器及系统
US20200073781A1 (en) Systems and methods of injecting fault tree analysis data into distributed tracing visualizations
US10664335B2 (en) System and method for maintaining the health of a machine
CN110765090B (zh) 日志数据管理方法及装置、存储介质、电子设备
CN107885634B (zh) 监控中异常信息的处理方法和装置
Fiondella et al. Cloud incident data: An empirical analysis
US10122602B1 (en) Distributed system infrastructure testing
CN111162938A (zh) 数据处理系统及方法
CN114969744A (zh) 进程拦截方法及系统、电子设备、存储介质
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
US11362881B2 (en) Distributed system for self updating agents and provides security
CN113778709A (zh) 接口调用方法、装置、服务器及存储介质
CN113760856A (zh) 数据库管理方法及装置、计算机可读存储介质、电子设备
Gunasekaran et al. Correlating log messages for system diagnostics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination