CN111737079B - 一种集群网络的监控方法和装置 - Google Patents
一种集群网络的监控方法和装置 Download PDFInfo
- Publication number
- CN111737079B CN111737079B CN202010429856.6A CN202010429856A CN111737079B CN 111737079 B CN111737079 B CN 111737079B CN 202010429856 A CN202010429856 A CN 202010429856A CN 111737079 B CN111737079 B CN 111737079B
- Authority
- CN
- China
- Prior art keywords
- network
- partition
- node
- file
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012544 monitoring process Methods 0.000 title claims abstract description 43
- 238000005192 partition Methods 0.000 claims abstract description 249
- 230000002159 abnormal effect Effects 0.000 claims abstract description 61
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 230000005856 abnormality Effects 0.000 claims abstract description 25
- 238000011084 recovery Methods 0.000 claims description 73
- 238000004891 communication Methods 0.000 claims description 33
- 238000012806 monitoring device Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
- G06F11/3093—Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种集群网络的监控方法和装置,方法包括监测集群网络中与本地节点连通的节点数目;若所述节点数目为1,生成所述本地节点的断网异常信息;若所述节点数目大于1,且所述当前节点数目小于或等于P/2,生成所述集群网络的分区异常信息;若所述节点数目大于P/2,且所述当前节点数目小于P,生成所述集群网络的全网异常信息,实现了每个节点任意时刻的异常信息的分析和记录,同时,能够在集群出现脑裂的情况下,对每个节点的运行信息进行检测。采用本发明的技术方案,能够提高检测结果可靠性。
Description
技术领域
本发明涉及事件检测技术领域,尤其涉及一种集群网络的监控方法和装置。
背景技术
集群是指在多台计算机之上运行、之间通过某种通信方式相互通信从而将集群内所有存储空间资源整合、虚拟化并对外提供文件访问服务的文件系统。集群环境部署一般是大规模的,每个集群环境的节点个数从一台到上百台机器不等,集群中各节点的通信主要靠网络连接,因此节点之间的网络状况就尤为重要,及时发现集群中出现的网络异常并告知用户对集群的安全保障至关重要。
现有技术中,可以由每个节点周期性向其他节点发起网络请求,以确认当前节点与其他节点的网络是否正常,以得到当前节点和其他节点的运行状态。
但是,现有技术中,仅仅能够获知节点在当前检测周期内是否正常运行,但是并不知道节点每个时刻的运行状态。例如,节点在第一时刻发生断网,此时正好处于不检测周期内,因此,无法对该节点的运行状态进行检测,该节点在第二时刻断网恢复,这样,在进行下一周期检测时,会检测到该节点的运行状态为正常,对于用户而言,并不知道该节点发生过断网。
因此,现有技术中对集群中各节点的检测结果可靠性较差。
发明内容
有鉴于此,本发明的目的在于提出一种集群网络的监控方法和装置,以解决现有技术中对集群中各节点的检测结果可靠性较差的问题。
基于上述目的,本发明提供了一种集群网络的监控方法,包括:
监测集群网络中与本地节点连通的节点数目;
若所述节点数目为1,生成所述本地节点的断网异常信息;
若所述节点数目大于1,且所述当前节点数目小于或等于P/2,生成所述集群网络的分区异常信息;
若所述节点数目大于P/2,且所述当前节点数目小于P,生成所述集群网络的全网异常信息;
其中,所述P为集群网络中总节点数目。
进一步地,上述所述的集群网络节点的监控方法中,生成所述本地节点的断网异常信息,包括:
检测本地节点是否存在网络分区文件;
若本地节点存在网络分区文件,将当前检测时间作为所述网络分区文件的结束时间,对所述网络分区文件更新,得到更新网络分区文件,并生成网络分区内断网异常信息;
若本地节点不存在网络分区文件,生成无网络分区断网异常信息。
进一步地,上述所述的集群网络节点的监控方法,还包括:
判断是否存在本地报警文件;
若存在,将所述网络分区内断网异常信息或无网络分区断网异常信息写入所述本地报警文件中;
若不存在,初始化所述本地报警文件,并记录所述网络分区内断网异常信息或无网络分区断网异常信息。
进一步地,上述所述的集群网络节点的监控方法中,所述分区异常信息包括分区记录信息;
所述生成所述集群网络的分区异常信息,包括:
判断本地节点是否为记录分区信息的节点;
若本地节点为记录分区信息的节点,检测是否存在所述网络分区文件;
若不存在所述网络分区文件,创建所述网络分区文件,生成所述当前连通节点对应的分区记录信息写入所述网络分区文件;
若存在所述网络分区文件,判断所述当前连通节点与所述网络分区文件的已分区节点是否一致;若所述当前连通节点与所述已分区节点一致,对所述网络分区文件的时间进行更新;若所述当前连通节点与所述已分区节点不一致,生成所述当前连通节点对应的分区记录信息写入所述网络分区文件。
进一步地,上述所述的集群网络节点的监控方法中,所述对所述网络分区文件的时间进行更新之前,还包括:
计算所述当前检测时间与所述网络分区文件的记录时间的差值;
判断所述差值是否大于预设阈值;
若所述差值大于预设阈值,将所述分区记录信息写入所述网络分区文件;
对应地,所述对所述网络分区文件的时间进行更新,包括:
若所述差值小于或等于预设阈值,利用所述当前检测时间对所述网络分区文件的记录时间进行更新。
进一步地,上述所述的集群网络节点的监控方法中,所述分区异常信息还包括分区内网络恢复信息;
所述生成所述集群网络的分区异常信息,包括:
判断所述本地节点是否存在所述本地报警文件;
若存在所述本地报警文件,将所述当前检测时间作为所述本地节点的恢复时间写入所述本地报警文件,以生成分区内网络恢复信息。
进一步地,上述所述的集群网络节点的监控方法中,所述生成所述集群网络的全网异常信息,包括:
生成所述集群网络中所述本地节点异常恢复信息;和/或
生成所述集群网络中与本地节点未连通的节点的异常信息;
其中,生成所述集群网络中所述本地节点异常恢复信息,包括:
若检测到所述本地节点存在所述网络分区文件,检测所述网络分区文件中最后一条分区记录信息是否存在分区恢复时间,若存在所述分区恢复时间,生成分区内网络恢复信息;若不存在所述分区恢复时间,将所述当前检测时间作为所述网络分区文件的恢复时间写入所述网络分区文件,以生成所述分区内网络恢复信息;
若检测到所述本地节点存在所述本地报警文件,检测所述本地报警文件是否存在所述本地节点的断网恢复时间,若存在所述本地节点的断网恢复时间,生成所述本地节点的断网恢复信息;若不存在所述本地节点的断网恢复时间,将所述当前检测时间作为所述本地节点的恢复时间写入所述本地报警文件,以生成所述本地节点的断网恢复信息;
若检测到所述本地节点不存在节点运行标识文件,生成本地节点的重启恢复信息。
进一步地,上述所述的集群网络节点的监控方法,还包括:
若检测到所述本地节点存在所述网络分区文件,将所述网络分区文件中的记录信息报出;
若检测到所述本地节点存在所述本地报警文件,将所述本地报警文件的记录信息报出;
若检测到所述本地节点不存在节点运行标识文件,将所述本地节点的重启时间报出。
进一步地,上述所述的集群网络节点的监控方法中,所述监测集群网络中与本地节点连通的节点数目,包括:
利用本地节点向所述监测集群网络中其他节点发送Ping命令,得到Ping结果;
根据所述ping结果,确定与所述本地节点连通的节点数目。
本发明还提供一种集群网络的监控装置,包括:
监测模块,用于监测集群网络中与本地节点连通的节点数目;
生成模块,用于若所述节点数目为1,生成所述本地节点的断网异常信息;若所述节点数目大于1,且所述当前节点数目小于或等于P/2,生成所述集群网络的分区异常信息;若所述节点数目大于P/2,且所述当前节点数目小于P,生成所述集群网络的全网异常信息;其中,所述P为集群网络中总节点数目。
从上面所述可以看出,本发明提供的集群网络节点的监控方法和装置,通过监测集群网络中与本地节点连通的节点数目,在节点数目为1时,生成本地节点的断网异常信息;在节点数目大于1,且当前节点数目小于或等于P/2时,生成集群网络的分区异常信息,在节点数目大于P/2,且当前节点数目小于P时,生成集群网络的全网异常信息,实现了每个节点任意时刻的异常信息的分析和记录,同时,能够在集群出现脑裂的情况下,对每个节点的运行信息进行检测。采用本发明的技术方案,能够提高检测结果可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的集群网络的监控方法实施例的流程图;
图2为本发明集群网络的监控装置实施例的结构示意图;
图3为本发明的集群网络的监控设备实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
图1为本发明的集群网络的监控方法实施例的流程图,如图1所示,本实施例的集群网络的监控方法具体可以包括如下步骤:
100、监测集群网络中与本地节点连通的节点数目Q;
在实际应用中,因特网包探索器(Packet Internet Groper,PING),用于测试网络连接量的程序,也是Windows、Unix和Linux系统下的一个命令。PING也属于一个通信协议,是TCP/IP协议的一部分。利用“PING”命令可以检查网络是否连通,可以很好地帮助我们分析和判定网络故障。具体的应用格式为Ping空格IP地址,该命令还可以加许多其它参数来使用,具体方法可以键入Ping后按回车通常即可看到详细的说明。
PING发送一个因特网信报控制协议(Internet Control Messages Protocol,ICMP),回声请求消息给目的地并报告是否收到所希望的ICMPecho(ICMP回声应答)。该命令是用来检查网络是否通畅或者网络连接速度的命令,作为一个生活在网络上的管理员,Ping命令是第一个必须掌握的DOS命令,它所利用的原理是这样的:利用网络上机器IP地址的唯一性,给目标IP地址发送一个数据包,再要求对方返回一个同样大小的数据包来确定两台网络机器是否连接相通,时延是多少。
其中,采用不同的存储系统、使用不同的存储服务器、服务器上安装操作系统的不同均会导致开启并发线程的方式的不同,可能在Linux和Windows就会存在较为显著的差异,此处并不做具体开启方式的限定,应视实际情况下存储系统的不同、存储服务器型号的不同以及操作系统的差异来做出相应的改变。
由于Ping命令为封装在系统中的,在检测周期较小的情况下,也能保证占用较小的资源,从而不会导致集群成本过大。因此,本实施例中,可以利用本地节点向监测集群网络中其他节点发送Ping命令,得到Ping结果;根据Ping结果,确定与本地节点连通的节点数目。
101、判断Q=1是否成立,若是,执行步骤102,若否,执行步骤103;
其中,Q为与本地节点连通的节点数目。
102、生成本地节点的断网异常信息;
在实际应用中,集群的大部分节点能够处于正常运行状态,因此,若与本地节点连通的节点数目等于1,说明本地节点发生断网了,此时,可以生成本地节点的断网异常信息。
具体地,可以检测本地节点是否存在网络分区文件;若本地节点存在网络分区文件,则说明当前节点在断网之前是处于分区状态的,由于当前节点断网,会导致分区发生变化,因此,本实施例中,可以将当前检测时间作为网络分区文件的结束时间,并对网络分区文件更新,得到更新网络分区文件,并生成网络分区内断网异常信息,从而可以记录本地节点详细的断网信息。若本地节点不存在网络分区文件,则说明当前节点在断网之前未处于分区状态,可以生成无网络分区断网异常信息。
需要说明的是,本实施例中,为了获知当前节点每个时刻的信息,需要记录当前节点的断网信息,因此,可以判断是否存在本地报警文件;若存在,说明本地节点之前已经出现过断网,此时,可以直接将网络分区内断网异常信息或无网络分区断网异常信息写入本地报警文件中;若不存在,说明当前节点未发生过断网,可以初始化本地报警文件,并记录网络分区内断网异常信息或无网络分区断网异常信息。
103、判断1<Q≤P/2是否成立,若是,执行步骤104,若否,执行步骤105;
104、生成集群网络的分区异常信息;
本实施例中,P为集群网络中总节点数目。若与本地节点连通的节点数目大于1,且当前节点数目小于或等于P/2,则说明集群出现脑裂现象,此时,可以生成集群网络的分区异常信息。
本实施例中,分区异常信息包括分区记录信息,这样,可以判断本地节点是否为记录分区信息的节点;本实施例中,优选为分区内节点ID最小值的节点作为记录分区信息的节点,因此,可以判断本地节点ID是否为最小值,若是,则本地节点为记录分区信息的节点,若否,本地节点不为记录分区信息的节点。本实施例中,若本地节点为记录分区信息的节点,检测是否存在网络分区文件;若不存在网络分区文件,创建网络分区文件,生成当前连通节点对应的分区记录信息写入网络分区文件;若存在网络分区文件,判断当前连通节点与网络分区文件的已分区节点是否一致;若当前连通节点与已分区节点一致,对网络分区文件的时间进行更新;若当前连通节点与已分区节点不一致,生成当前连通节点对应的分区记录信息写入网络分区文件。本实施例中,若本地节点不为记录分区信息的节点,则无需生成集群网络的分区异常信息,可以判断当前检测是否为第一次检测,若果不是,则延时进入下次检测,如果是,修改第一次检测对应的标识即可。
需要说明的是,本实施例中,在对网络分区文件的时间进行更新,得到所述分区异常信息之前,还可以执行以下操作:
计算当前检测时间与网络分区文件的记录时间的差值;判断计算的差值是否大于预设阈值;若计算的差值大于预设阈值,说明当前节点出现过重启现象,将分区记录信息写入网络分区文件;若计算的差值小于或等于预设阈值,利用当前检测时间对网络分区文件的记录时间进行更新。
在实际应用中,分区异常信息还包括分区内网络恢复信息,这样,在生成集群网络的分区异常信息时,还可以判断本地节点是否存在本地报警文件;若存在本地报警文件,将当前检测时间作为本地节点的恢复时间写入本地报警文件,以生成分区内网络恢复信息。
105、判断P/2<Q<P是否成立,若是,执行步骤106,若否,结束。
106、生成集群网络的全网异常信息。
具体地,可以生成集群网络中本地节点异常恢复信息;和/或生成集群网络中与本地节点未连通的节点的异常信息;
其中,生成集群网络中本地节点异常恢复信息,包括:
若检测到本地节点存在网络分区文件,检测网络分区文件中最后一条分区记录信息是否存在分区恢复时间,若存在分区恢复时间,生成分区内网络恢复信息;若不存在分区恢复时间,将当前检测时间作为网络分区文件的恢复时间写入网络分区文件,以生成分区内网络恢复信息;
若检测到本地节点存在本地报警文件,检测本地报警文件是否存在本地节点的断网恢复时间,若存在本地节点的断网恢复时间,生成本地节点的断网恢复信息;若不存在本地节点的断网恢复时间,将当前检测时间作为本地节点的恢复时间写入本地报警文件,以生成本地节点的断网恢复信息;
若检测到本地节点不存在节点运行标识文件,生成本地节点的重启恢复信息。
具体地,节点启动后,会创建节点运行标识文件,如果创建失败(说明节点运行标识文件已经存在),则将标识机器运行的全局变量记为真,创建成功(说明节点运行标识文件不存在),说明机器之前重启过,全局标识位记为假。这样,如果检测到本地节点不存在节点运行标识文件,即全局标识位记为假,则可以生成本地节点的重启恢复信息。
本实施例中,若检测到本地节点存在网络分区文件,将网络分区文件中的记录信息报出;若检测到本地节点存在本地报警文件,将本地报警文件的记录信息报出;若检测到本地节点不存在节点运行标识文件,将本地节点的重启时间报出。这样,若当前节点存在异常,并恢复后,可以第一时间上报异常信息,使用户能够获知集群网络的整体运行过程。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。
本发明实施例的集群网络节点的监控方法,通过监测集群网络中与本地节点连通的节点数目,在节点数目为1时,生成本地节点的断网异常信息;在节点数目大于1,且当前节点数目小于或等于P/2时,生成集群网络的分区异常信息,在节点数目大于P/2,且当前节点数目小于P时,生成集群网络的全网异常信息,实现了每个节点任意时刻的异常信息的分析和记录,同时,能够在集群出现脑裂的情况下,对每个节点的运行信息进行检测。采用本发明的技术方案,能够提高检测结果可靠性。
图2为本发明集群网络的监控装置实施例的结构示意图,如图2所示,本实施例的集群网络的监控装置包括监测模块20和生成模块21:
监测模块20,用于监测集群网络中与本地节点连通的节点数目;
具体地,可以利用本地节点向监测集群网络中其他节点发送Ping命令,得到Ping结果;根据ping结果,确定与本地节点连通的节点数目。
生成模块21,用于若节点数目为1,生成本地节点的断网异常信息;若节点数目大于1,且当前节点数目小于或等于P/2,生成集群网络的分区异常信息;若节点数目大于P/2,且当前节点数目小于P,生成集群网络的全网异常信息;其中,P为集群网络中总节点数目。
具体地,生成模块21,在生成本地节点的断网异常信息时,可以检测本地节点是否存在网络分区文件;若本地节点存在网络分区文件,将当前检测时间作为网络分区文件的结束时间,对网络分区文件更新,得到更新网络分区文件,并生成网络分区内断网异常信息;若本地节点不存在网络分区文件,生成无网络分区断网异常信息。
本实施例中,生成模块21,还用于判断是否存在本地报警文件;若存在,将网络分区内断网异常信息或无网络分区断网异常信息写入本地报警文件中;若不存在,初始化本地报警文件,并记录网络分区内断网异常信息或无网络分区断网异常信息。
在一个具体实现过程中,本实施例的分区异常信息包括分区记录信息;
生成模块21还用于判断本地节点是否为记录分区信息的节点;若本地节点为记录分区信息的节点,检测是否存在网络分区文件;若不存在网络分区文件,创建网络分区文件,生成当前连通节点对应的分区记录信息写入网络分区文件;若存在网络分区文件,判断当前连通节点与网络分区文件的已分区节点是否一致;若当前连通节点与已分区节点一致,对网络分区文件的时间进行更新;若当前连通节点与已分区节点不一致,生成当前连通节点对应的分区记录信息写入网络分区文件。
在实际应用中,生成模块21,还用于计算当前检测时间与网络分区文件的记录时间的差值;判断差值是否大于预设阈值;若差值大于预设阈值,将分区记录信息写入网络分区文件;若差值小于或等于预设阈值,利用当前检测时间对网络分区文件的记录时间进行更新。
本实施例中,分区异常信息还包括分区内网络恢复信息;
生成模块21,还用于判断本地节点是否存在本地报警文件;若存在本地报警文件,将当前检测时间作为本地节点的恢复时间写入本地报警文件,以生成分区内网络恢复信息。
在一个具体实现过程中,生成模块21在生成集群网络的全网异常信息时,可以生成集群网络中本地节点异常恢复信息;和/或,生成集群网络中与本地节点未连通的节点的异常信息。
其中,生成集群网络中本地节点异常恢复信息,包括:
若检测到本地节点存在网络分区文件,检测网络分区文件中最后一条分区记录信息是否存在分区恢复时间,若存在分区恢复时间,生成分区内网络恢复信息;若不存在分区恢复时间,将当前检测时间作为网络分区文件的恢复时间写入网络分区文件,以生成分区内网络恢复信息;
若检测到本地节点存在本地报警文件,检测本地报警文件是否存在本地节点的断网恢复时间,若存在本地节点的断网恢复时间,生成本地节点的断网恢复信息;若不存在本地节点的断网恢复时间,将当前检测时间作为本地节点的恢复时间写入本地报警文件,以生成本地节点的断网恢复信息;
若检测到本地节点不存在节点运行标识文件,生成本地节点的重启恢复信息。
在实际应用中,生成模块21,还用于若检测到本地节点存在网络分区文件,将网络分区文件中的记录信息报出;若检测到本地节点存在本地报警文件,将本地报警文件的记录信息报出;若检测到本地节点不存在节点运行标识文件,将本地节点的重启时间报出。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图3为本发明的集群网络的监控设备实施例的结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种集群网络的监控方法,其特征在于,包括:
监测集群网络中与本地节点连通的节点数目;
若所述节点数目为1,生成所述本地节点的断网异常信息;
若所述节点数目大于1,且当前节点数目小于或等于P/2,生成所述集群网络的分区异常信息;其中,所述分区异常信息包括分区记录信息;
所述生成所述集群网络的分区异常信息,包括:判断本地节点是否为记录分区信息的节点;
若本地节点为记录分区信息的节点,检测是否存在网络分区文件;若不存在所述网络分区文件,创建所述网络分区文件,生成所述当前连通节点对应的分区记录信息写入所述网络分区文件;
若存在所述网络分区文件,判断所述当前连通节点与所述网络分区文件的已分区节点是否一致;若所述当前连通节点与所述已分区节点一致,对所述网络分区文件的时间进行更新;若所述当前连通节点与所述已分区节点不一致,生成所述当前连通节点对应的分区记录信息写入所述网络分区文件;
所述对所述网络分区文件的时间进行更新之前,还包括:
计算当前检测时间与所述网络分区文件的记录时间的差值;判断所述差值是否大于预设阈值;
若所述差值大于预设阈值,将所述分区记录信息写入所述网络分区文件;
对应地,所述对所述网络分区文件的时间进行更新,包括:
若所述差值小于或等于预设阈值,利用所述当前检测时间对所述网络分区文件的记录时间进行更新;
若所述节点数目大于P/2,且所述当前节点数目小于P,生成所述集群网络的全网异常信息;
其中,所述P为集群网络中总节点数目。
2.根据权利要求1所述的集群网络的监控方法,其特征在于,生成所述本地节点的断网异常信息,包括:
检测本地节点是否存在网络分区文件;
若本地节点存在网络分区文件,将当前检测时间作为所述网络分区文件的结束时间,对所述网络分区文件更新,得到更新网络分区文件,并生成网络分区内断网异常信息;
若本地节点不存在网络分区文件,生成无网络分区断网异常信息。
3.根据权利要求2所述的集群网络的监控方法,其特征在于,还包括:
判断是否存在本地报警文件;
若存在,将所述网络分区内断网异常信息或无网络分区断网异常信息写入所述本地报警文件中;
若不存在,初始化所述本地报警文件,并记录所述网络分区内断网异常信息或无网络分区断网异常信息。
4.根据权利要求1所述的集群网络的监控方法,其特征在于,所述分区异常信息还包括分区内网络恢复信息;
所述生成所述集群网络的分区异常信息,包括:判断所述本地节点是否存在本地报警文件;
若存在所述本地报警文件,将所述当前检测时间作为所述本地节点的恢复时间写入所述本地报警文件,以生成分区内网络恢复信息。
5.根据权利要求1所述的集群网络的监控方法,其特征在于,所述生成所述集群网络的全网异常信息,包括:
生成所述集群网络中所述本地节点异常恢复信息;和/或
生成所述集群网络中与本地节点未连通的节点的异常信息;
其中,生成所述集群网络中所述本地节点异常恢复信息,包括:
若检测到所述本地节点存在所述网络分区文件,检测所述网络分区文件中最后一条分区记录信息是否存在分区恢复时间,若存在所述分区恢复时间,生成分区内网络恢复信息;若不存在所述分区恢复时间,将所述当前检测时间作为所述网络分区文件的恢复时间写入所述网络分区文件,以生成所述分区内网络恢复信息;
若检测到所述本地节点存在本地报警文件,检测所述本地报警文件是否存在所述本地节点的断网恢复时间,若存在所述本地节点的断网恢复时间,生成所述本地节点的断网恢复信息;若不存在所述本地节点的断网恢复时间,将所述当前检测时间作为所述本地节点的恢复时间写入所述本地报警文件,以生成所述本地节点的断网恢复信息;若检测到所述本地节点不存在节点运行标识文件,生成本地节点的重启恢复信息。
6.根据权利要求5所述的集群网络的监控方法,其特征在于,还包括:
若检测到所述本地节点存在所述网络分区文件,将所述网络分区文件中的记录信息报出;
若检测到所述本地节点存在所述本地报警文件,将所述本地报警文件的记录信息报出;
若检测到所述本地节点不存在节点运行标识文件,将所述本地节点的重启时间报出。
7.根据权利要求1-6任一所述的集群网络的监控方法,其特征在于,所述监测集群网络中与本地节点连通的节点数目,包括:
利用本地节点向所述监测集群网络中其他节点发送Ping命令,得到Ping结果;
根据所述Ping结果,确定与所述本地节点连通的节点数目。
8.一种集群网络的监控装置,其特征在于,包括:
监测模块,用于监测集群网络中与本地节点连通的节点数目;
生成模块,用于若所述节点数目为1,生成所述本地节点的断网异常信息;若所述节点数目大于1,且当前节点数目小于或等于P/2,生成所述集群网络的分区异常信息;其中,所述分区异常信息包括分区记录信息;
所述生成所述集群网络的分区异常信息,包括:判断本地节点是否为记录分区信息的节点;若本地节点为记录分区信息的节点,检测是否存在所述网络分区文件;若不存在所述网络分区文件,创建所述网络分区文件,生成所述当前连通节点对应的分区记录信息写入所述网络分区文件;若存在所述网络分区文件,判断所述当前连通节点与所述网络分区文件的已分区节点是否一致;若所述当前连通节点与所述已分区节点一致,对所述网络分区文件的时间进行更新;若所述当前连通节点与所述已分区节点不一致,生成所述当前连通节点对应的分区记录信息写入所述网络分区文件;所述对所述网络分区文件的时间进行更新之前,还包括:计算当前检测时间与所述网络分区文件的记录时间的差值;判断所述差值是否大于预设阈值;若所述差值大于预设阈值,将所述分区记录信息写入所述网络分区文件;对应地,所述对所述网络分区文件的时间进行更新,包括:若所述差值小于或等于预设阈值,利用所述当前检测时间对所述网络分区文件的记录时间进行更新;若所述节点数目大于P/2,且所述当前节点数目小于P,生成所述集群网络的全网异常信息;其中,所述P为集群网络中总节点数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010429856.6A CN111737079B (zh) | 2020-05-20 | 2020-05-20 | 一种集群网络的监控方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010429856.6A CN111737079B (zh) | 2020-05-20 | 2020-05-20 | 一种集群网络的监控方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737079A CN111737079A (zh) | 2020-10-02 |
CN111737079B true CN111737079B (zh) | 2024-04-09 |
Family
ID=72647447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010429856.6A Active CN111737079B (zh) | 2020-05-20 | 2020-05-20 | 一种集群网络的监控方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737079B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117250986A (zh) * | 2023-10-10 | 2023-12-19 | 广东昊一航空科技有限公司 | 一种基于计算机的无人机方阵控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532494B1 (en) * | 1999-05-28 | 2003-03-11 | Oracle International Corporation | Closed-loop node membership monitor for network clusters |
CN102136972A (zh) * | 2011-03-22 | 2011-07-27 | 曙光信息产业股份有限公司 | 一种超大规模集群监控系统及方法 |
CN108234170A (zh) * | 2016-12-15 | 2018-06-29 | 北京神州泰岳软件股份有限公司 | 一种服务器集群的监控方法和装置 |
CN109257195A (zh) * | 2017-07-12 | 2019-01-22 | 华为技术有限公司 | 集群中节点的故障处理方法及设备 |
CN109286529A (zh) * | 2018-10-31 | 2019-01-29 | 武汉烽火信息集成技术有限公司 | 一种恢复RabbitMQ网络分区的方法及系统 |
-
2020
- 2020-05-20 CN CN202010429856.6A patent/CN111737079B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532494B1 (en) * | 1999-05-28 | 2003-03-11 | Oracle International Corporation | Closed-loop node membership monitor for network clusters |
CN102136972A (zh) * | 2011-03-22 | 2011-07-27 | 曙光信息产业股份有限公司 | 一种超大规模集群监控系统及方法 |
CN108234170A (zh) * | 2016-12-15 | 2018-06-29 | 北京神州泰岳软件股份有限公司 | 一种服务器集群的监控方法和装置 |
CN109257195A (zh) * | 2017-07-12 | 2019-01-22 | 华为技术有限公司 | 集群中节点的故障处理方法及设备 |
CN109286529A (zh) * | 2018-10-31 | 2019-01-29 | 武汉烽火信息集成技术有限公司 | 一种恢复RabbitMQ网络分区的方法及系统 |
Non-Patent Citations (1)
Title |
---|
航空集群网络可靠性估计路由选择策略;曹芳波;吕娜;陈柯帆;张步硕;刘创;;计算机工程与应用;20171215(第24期);第129-135、225页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737079A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9658914B2 (en) | Troubleshooting system using device snapshots | |
CN110888783A (zh) | 微服务系统的监测方法、装置以及电子设备 | |
EP3575975A1 (en) | Method and apparatus for operating smart network interface card | |
CN111258851B (zh) | 一种集群的告警方法、装置、设置及存储介质 | |
WO2019128299A1 (zh) | 一种测试系统及测试方法 | |
US9189314B2 (en) | Electronic device and method for detecting firmware of BMC | |
EP3809269A1 (en) | Monitoring a distributed application server environment | |
CN109586989B (zh) | 一种状态检查方法、装置及集群系统 | |
CN113672415A (zh) | 一种磁盘故障处理方法、装置、设备及存储介质 | |
CN111737079B (zh) | 一种集群网络的监控方法和装置 | |
WO2018135604A1 (ja) | 抽出装置、抽出方法と記憶媒体、ならびに、異常検知装置、異常検知方法 | |
CN110737565A (zh) | 一种数据监控方法、装置、电子设备及存储介质 | |
CN116684256B (zh) | 节点故障监测方法、装置、系统、电子设备及存储介质 | |
CN112235300B (zh) | 云虚拟网络漏洞检测方法、系统、装置及电子设备 | |
CN103731315A (zh) | 一种服务器故障检测方法 | |
CN112069032A (zh) | 一种虚拟机的可用性检测方法、系统及相关装置 | |
CN110825542B (zh) | 一种分布式系统中故障盘的检测方法、装置及检测系统 | |
CN116260643A (zh) | 一种物联网web服务的安全测试方法、装置及设备 | |
US11297086B2 (en) | Correlation-based network security | |
CN112804115B (zh) | 一种虚拟网络功能的异常检测方法、装置及设备 | |
CN115687036A (zh) | 日志采集方法、装置及日志系统 | |
TW201328247A (zh) | 系統錯誤處理方法與使用其之伺服器系統 | |
CN112068935A (zh) | kubernetes程序部署监控方法、装置以及设备 | |
JP5679347B2 (ja) | 障害検知装置、障害検知方法、及びプログラム | |
CN111258845A (zh) | 事件风暴的检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |