CN107070753A - 一种分布式集群系统的数据监控方法、装置及系统 - Google Patents

一种分布式集群系统的数据监控方法、装置及系统 Download PDF

Info

Publication number
CN107070753A
CN107070753A CN201710452659.4A CN201710452659A CN107070753A CN 107070753 A CN107070753 A CN 107070753A CN 201710452659 A CN201710452659 A CN 201710452659A CN 107070753 A CN107070753 A CN 107070753A
Authority
CN
China
Prior art keywords
data
module
data monitoring
node
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710452659.4A
Other languages
English (en)
Inventor
张大帅
王凤丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710452659.4A priority Critical patent/CN107070753A/zh
Publication of CN107070753A publication Critical patent/CN107070753A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)

Abstract

本发明实施例公开了一种本分布式集群系统的数据监控方法、装置及系统,包括实时监测主节点上的第一数据监控模块的运行状态是否正常,并当第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;将运行数据储存至第二数据库中。通过对主节点上的第一数据监控模块的运行状态进行监测,可以及时发现其异常状态,当第一数据监控模块的运行状态出现异常时,实时获取各个节点的运行数据,并将各个节点的运行数据存储至第二数据库中,以便管理人员在主节点的第一数据监控模块出现异常时,可通过对第二数据库中的数据进行监控和查看,实现对分布式集群系统的运行数据的实时监控。本发明实施例在使用的过程中提高了系统的稳定性和可靠性。

Description

一种分布式集群系统的数据监控方法、装置及系统
技术领域
本发明实施例涉及分布式集群系统技术领域,特别是涉及一种分布式集群系统的数据监控方法、装置及系统。
背景技术
分布式集群系统一般包含多台服务器,这些服务器组成一个集群,统一对外提供服务。数据监控是分布式集群系统中的一个关键环节,监控集群中各个服务器节点(简称节点)的性能和硬件指标状态,比如各节点的cpu利用率、内存利用率、电源和主板温度等,以便为系统管理人员提供实时的监控指标数据。
通常情况下,在各个节点上部署一个代理进程M_agent(也即M_agent模块),该M_agent模块负责实时的搜集所属节点的性能和硬件指标数据,通过UDP协议(User DatagramProtocol,用户数据报协议)以单播或组播的方式向指定的端口发送这些数据,并且任意两个节点通过指定的端口互相接收彼此的数据,这样每个节点的M_agent模块都搜集到其他节点的性能数据,另外,还需要在集群中选定一个节点(称为主节点)部署数据监控进程M_client(即数据监控模块),该模块从本节点的指定端口接收其他节点发送的数据,并将数据保存至本节点的数据库中,以供系统管理人员实时监控和查看。
可见,现有技术中的分布式集群系统的数据监控方法是通过主节点中的数据监控模块来获取各个节点的数据信息,并将这些数据信息存储在主节点的数据库中,从而实现对分布式集群的数据监控。但是,当主节点出现故障不能正常运行时,数据监控模块(即M_client进程)也会停止工作,从而将停止对数据信息的实时搜集,也即将停止进行数据监控工作,在一定程度上降低了系统的稳定性和可靠性。
因此,如何提供一种解决上述技术问题的分布式集群系统的数据监控方法、装置及系统成为本领域的技术人员目前需要解决的问题。
发明内容
本发明实施例的目的是提供一种分布式集群系统的数据监控方法、装置及系统,在一定程度上提高了系统的稳定性和可靠性。
为解决上述技术问题,本发明实施例提供了一种分布式集群系统的数据监控方法,包括:
实时监测主节点上的第一数据监控模块的运行状态是否正常,并当所述第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;
将所述运行数据储存至第二数据库中。
可选的,所述方法还包括:
定时获取所述主节点上的数据备份模块发送的第一数据信息;
将所述数据信息存储至所述第二数据库中;所述第一数据信息为所述数据备份模块从所述主节点上的第一数据库中获取的;所述数据备份模块为预先添加至所述主节点中的。
可选的,所述方法还包括:
当所述第一数据监控模块的运行状态恢复正常时,接收所述数据备份模块发送的获取指令;
依据所述获取指令获取所述第二数据库中存储的第二数据信息,并将所述第二数据信息发送至所述数据备份模块,以便所述数据备份模块将所述数据信息存储至所述第一数据库中。
可选的,所述运行数据包括CPU利用率、内存利用率、电源温度及主板温度中的一种或多种的组合。
可选的,如上述所述的分布式集群系统的数据监控方法,所述方法还包括:
当所述第一数据监控模块的运行状态恢复正常时,停止对各个节点的运行数据的获取。
可选的,实时监测主节点上的第一数据监控模块的运行状态是否正常的过程具体为:
通过心跳连接的方式实时监测主节点上的第一数据监控模块的运行状态是否正常。
为解决上述技术问题,本发明实施例提供了一种分布式集群系统的数据监控装置,包括:
第二数据监控模块,用于实时监测主节点上的第一数据监控模块的运行状态是否正常,并当所述第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;
存储模块,用于将所述运行数据储存至第二数据库中。
可选的,所述装置还包括:
接收模块,定时接收所述主节点上的数据备份模块发送的第一数据信息,并发送所述第一数据信息发送;
所述存储模块,还用于将所述数据信息存储至所述第二数据库中;所述第一数据信息为所述数据备份模块从所述主节点上的第一数据库中获取的;所述数据备份模块为预先添加至所述主节点中的。
可选的,所述装置还包括发送模块;
所述接收模块,还用于当所述第一数据监控模块的运行状态恢复正常时,接收所述数据备份模块发送的获取指令,并依据获取指令获取第二数据库中存储的第二数据信息;
所述发送模块,用于将所述第二数据信息发送至所述数据备份模块,以便所述数据备份模块将所述数据信息存储至所述第一数据库中。
为解决上述技术问题,本发明实施例提供了一种分布式集群系统的数据监控系统,包括如上述所述的分布式集群系统的数据监控装置。
本发明实施例提供了一种分布式集群系统的数据监控方法、装置及系统,包括:实时监测主节点上的第一数据监控模块的运行状态是否正常,并当第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;将运行数据储存至第二数据库中。
可见,通过对主节点上的第一数据监控模块的运行状态进行监测,可以及时发现其异常状态,并当第一数据监控模块的运行状态出现异常时,实时获取各个节点的运行数据,并将各个节点的运行数据存储至第二数据库中,以便管理人员在主节点的第一数据监控模块出现异常时,可以通过对第二数据库中的数据进行监控和查看,实现对分布式集群系统的运行数据的实时监控。本发明实施例在使用的过程中,在一定程度上提高了系统的稳定性和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式集群系统的数据监控方法的流程示意图;
图2为本发明实施例提供的一种分布式集群系统的数据监控装置的结构示意图;
图3为本发明实施例提供的另一种分布式集群系统的数据监控装置的结构示意图。
具体实施方式
本发明实施例提供了一种分布式集群系统的数据监控方法、装置及系统,在一定程度上提高了系统的稳定性和可靠性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,由于在分布式集群系统中的各个节点(即服务器节点)上均部署有一个代理进程(即M_agent),并且各个节点上的M_agent模块可以实时搜集所属节点的运行数据,并且该M_agent模块可以通过指定的端口实现与其他节点上的M_agent模块的实现数据通信,故每个节点上的M_agent都保留了其他节点的运行数据,这些运行数据包括节点的性能数据以及相关硬件的指标数据。当然,从各个节点中选择出的主节点中部署M_client进程,也就是在主节点中部署第一数据监控模块,该第一数据监控模块可以通过相关的通信协议(例如TCP协议(Transmission Control Protocol,传输控制协议))实时获取本节点中的M_agent模块获取的数据信息,这些数据信息包含本节点的运行数据以及其他各个节点的运行数据,并将这些数据信息存储至主节点的第一数据库中。当主节点中的第一数据监控模块的运行状态出现异常时,就不能对分布式集群系统的数据进行实时监控了,所以针对上述技术问题,本发明实施例提供了一种有效的解决方案。
具体的如下:
请参照图1,图1为本发明实施例提供的一种分布式集群系统的数据监控方法的流程示意图。
该方法包括:
S11:实时监测主节点上的第一数据监控模块的运行状态是否正常,并当第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;
S12:将运行数据储存至第二数据库中。
需要说明的是,本发明实施例提供了一种分布式集群系统的数据监控方法,具体的可以从除主节点之外的各个节点中选择出任意一个节点作为性能监控模块的备份节点,即从节点,并且在该从节点上部署M_client进程,也即部署第二数据监控模块,该第二数据监控模块可以实时监测主节点中的第一数据监控模块的运行状态,具体可以通过心跳连接与第一数据监控模块进行通信,以监测第一数据监控模块的运行状态。如果主节点因某种故障出现宕机现象,则主节点中的第一数据监控模块、M_agent模块等将均会停止工作,也即第一数据监控模块不能正常运行,当从节点中的第二数据监控模块监测到主节点的第一数据监控模块的运行状态异常时,第二数据监控模块自动将其状态转换为激活状态(在第一数据监控模块正常运行的情况下,第二数据监控模块的状态为挂起状态),并且开始实时获取各个节点的运行数据,同样这些运行数据包括从节点的运行数据以及其他各个节点的运行数据,并将获取的运行数据存储至从节点中的第二数据库中,分布式集群系统的管理人员可以到从节点中进行监测或查看。也即,当主节点故障导致主节点中的第一数据监控模块不能进行数据监控时,可以漂移到从节点中的第二数据监控模块,使其代替主节点中的第一数据监控模块进行数据的获取,以确保可以实时的搜集和存储整个分布式集群系统中各个节点的运行数据。
具体的,第二数据监控模块通过通信协议(例如TCP协议)实时获取从节点中的M_agent模块搜集到的自身节点及各个其他节点的运行数据。当然,第二数据监控模块与M_agent模块之间除了通过TCP协议进行通信之外也可以通过其他的通信协议进行通信,具体采用哪种协议本发明实施例对此不做特殊的限定,能实现本发明实施例的目的即可。
本发明实施例提供了一种分布式集群系统的数据监控方法,包括实时监测主节点上的第一数据监控模块的运行状态是否正常,并当第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;将运行数据储存至第二数据库中。
可见,通过对主节点上的第一数据监控模块的运行状态进行监测,可以及时发现其异常状态,并当第一数据监控模块的运行状态出现异常时,实时获取各个节点的运行数据,并将各个节点的运行数据存储至第二数据库中,以便管理人员在主节点的第一数据监控模块出现异常时,可以通过对第二数据库中的数据进行监控和查看,实现对分布式集群系统的运行数据的实时监控。本发明实施例在使用的过程中,在一定程度上提高了系统的稳定性和可靠性。
本发明实施例公开了一种分布式集群系统的数据监控方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
进一步的,该方法还可以包括:
定时获取主节点上的数据备份模块发送的第一数据信息;
将数据信息存储至第二数据库中;第一数据信息为数据备份模块从主节点上的第一数据库中获取的;数据备份模块为预先添加至主节点中的。
需要说明的是,当第一数据监控模块正常运行时,各个节点的所以运行数据存储在主节点的第一数据库中,当第一数据监控模块不能正常运行时,也即在第一数据监控模块异常的这段时间,各个节点的运行数据存储在从节点的第二数据库中。整体而言,整个分布式集群系统的数据监控是以第一数据库为主进行存储各个节点的运行数据,若主节点发生故障、宕机,则可能会导致存储在第一数据库中的数据发生丢失现象,而存储在第一数据库中的历史数据又可以为后期对分布式集群系统的运行维护提供依据,所以数据的完整性也非常重要。
因此,为了保障整个系统中的各个节点在运行过程中的运行数据的完整性,可以对主节点中的第一数据库中存储的数据信息进行备份处理,以确保这些数据信息的完整。
具体的,本发明实时例中在主节点中添加了一个数据备份模块,该数据备份模块可以定时获取第一数据库中的第一数据信息,并将所获取的第一数据信息发送至从节点中的第二数据库进行存储。当主节点发生故障、宕机时,系统的管理人员可以从第二数据库中获取主节点正常运行时获取到的数据信息,以进行后续工作。可见,本发明实施例进一步提高了数据信息的完整性。
更进一步的,该方法还可以包括:
当第一数据监控模块的运行状态恢复正常时,接收数据备份模块发送的获取指令;
依据获取指令获取第二数据库中存储的第二数据信息,并将第二数据信息发送至数据备份模块,以便数据备份模块将数据信息存储至第一数据库中。
可以理解的是,当第一数据监控模块的运行状态恢复正常时,主节点中的数据备份模块还可以获取存储在从节点中的第二数据库中的第二数据信息,以对第一数据库中存储的第一数据信息进行恢复,以防止在主节点故障、宕机时,第一数据库中的第一数据信息发送丢失。
当然,从第二数据库中获取的第二数据信息不仅包括第一数据信息,还可以包括在第一数据监控模块运行异常这段时间,第二数据监控模块所搜集的各个节点的运行数据。
具体的,运行数据可以包括CPU利用率、内存利用率、电源温度及主板温度中的一种或多种的组合。
当然,各个节点的运行数据不仅限于包括以上几种类型的数据,还可以包括其他类型的数据,具体需要获取哪些运行数据可以根据实际情况而定,本发明实施例对此不做特殊的限定能实现本发明实施例的目的即可。
更具体的,本发明实施例中所提供的分布式集群系统的数据监控方法,还可以包括以下步骤:
当第一数据监控模块的运行状态恢复正常时,停止对各个节点的运行数据的获取。
需要说明的是,为了减轻从节点的负载压力,在主节点中的第一数据监控模块的运行状态正常的情况下,从节点中的第二数据监控模块处于挂起状态,此时,该第二数据监控模块只用来与第一数据监控模块进行通信,即实时监测第一数据监控模块的运行状态是否正常,第二数据监控模块不进行各个节点的运行数据搜集和存储工作。当监测到第一数据监控模块的运行状态异常时(也即主节点出现故障、宕机,第一数据监控模块(即M_client进程)无法正常运行),则第二数据监控模块对自身的状态进行切换,将自身的状态切换为激活状态,并开始进行各个节点的运行数据的获取,以及将获取到的运行数据存储至该从节点的第二数据库中,同时依旧对第一数据监控模块的运行状态进行实时监测,当监测到第一数据监控模块的运行状态恢复正常后,即主节点中的第一数据监控模块开始正常进行各个节点的运行数据的搜集和存储时,第二数据监控模块自动将自身的状态切换为挂起状态,停止对各个节点的运行数据的获取。
当然,也可以使从节点中的第二数据监控模块一直处于激活状态,实时获取各个节点的运行数据,只是这种情况会增加从节点的负载压力,而本发明实施例所提供的分布式集群系统的数据监控方法可以在一定程度上减少从节点的负载压力。
可选的,实时监测主节点上的第一数据监控模块的运行状态是否正常的过程具体为:
通过心跳连接的方式实时监测主节点上的第一数据监控模块的运行状态是否正常。
可以理解的是,从节点中的第二数据监控模块与主节点中的第一数据监控模块之间可以建立心跳连接,使第二数据监控模块可以通过心跳连接实时监测第一数据监控模块的运行状态,以提高监测精确度。
例如,第二数据监控模块可以实时向第一数据监控模块发送数据包,当第一数据监控模块在正常运行时,第二数据监控模块可以接收到第一数据监控模块返回的反馈信息,如果第二数据监控模块在想第一数据监控模块发送数据包后没有接收到第一数据监控模块返回的反馈信息,并经过多次发送数据包后没有接到到第一数据监控模块返回的反馈信息,则说明第一数据监控模块的运行状态出现异常。
当然,本发明实施例不仅限于采用上述方法对第一数据监控模块的运行状态进行实时监测,也可以通过其他的方式来实时监测第一数据监控模块的运行状态,具体采用哪种方法,本发明实施例对此不做特殊的限定,能实现本发明实施例的目的即可。
另外,本发明实施例在使用过程中配置方便,资源消耗少,只需要在从节点中添加第二数据监控模块(即M_client进程),在主节点上添加数据备份模块(即D_backup进程)即可,并且这两种进程在运行时所消耗的资源较少。
相应的本发明实施例还公开了一种分布式集群系统的数据监控装置,具体请参照图2,图2为本发明实施例提供的一种分布式集群系统的数据监控装置的结构示意图。在上述实施例的基础上:
该装置包括:
第二数据监控模块1,用于实时监测主节点上的第一数据监控模块的运行状态是否正常,并当第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;
存储模块2,用于将运行数据储存至第二数据库中。
需要说明的是,本发明实施例提供了一种分布式集群系统的数据监控装置,当主节点的第一数据监控模块出现异常时,可以使管理人员通过对第二数据库中的数据进行监控和查看,实现对分布式集群系统的运行数据的实时监控。本发明实施例在使用的过程中,在一定程度上提高了系统的稳定性和可靠性。
另外,对于本发明实施例中涉及到的分布式集群系统的数据监控方法的具体介绍,请参照上述方法实施例,本申请在此不再赘述。
在上述实施例的基础上,请参照图3,图3为本发明实施例提供的另一种分布式集群系统的数据监控装置的结构示意图。
可选的,该装置还可以包括:
接收模块3,定时接收主节点上的数据备份模块发送的第一数据信息,并发送第一数据信息发送;
存储模块2,还用于将数据信息存储至第二数据库中;第一数据信息为数据备份模块从主节点上的第一数据库中获取的;数据备份模块为预先添加至主节点中的。
可选的,装置还包括发送模块;
接收模块3,还用于当第一数据监控模块的运行状态恢复正常时,接收数据备份模块发送的获取指令,并依据获取指令获取第二数据库中存储的第二数据信息;
发送模块4,用于将第二数据信息发送至数据备份模块,以便数据备份模块将数据信息存储至第一数据库中。
需要说明的是,本发明实施例在一定程度上提高了数据信息的完整性。
在上述实施例的基础上,本发明实施例提供了一种分布式集群系统的数据监控系统,包括如上述的分布式集群系统的数据监控装置。
需要说明的是,本发明实施例提供了一种分布式集群系统的数据监控系统,当主节点的第一数据监控模块出现异常时,可以使管理人员通过对第二数据库中的数据进行监控和查看,实现对分布式集群系统的运行数据的实时监控。本发明实施例在使用的过程中,在一定程度上提高了系统的稳定性和可靠性。
另外,对于本发明实施例中涉及到的分布式集群系统的数据监控方法的具体介绍,请参照上述方法实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式集群系统的数据监控方法,其特征在于,包括:
实时监测主节点上的第一数据监控模块的运行状态是否正常,并当所述第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;
将所述运行数据储存至第二数据库中。
2.根据权利要求1所述的分布式集群系统的数据监控方法,其特征在于,所述方法还包括:
定时获取所述主节点上的数据备份模块发送的第一数据信息;
将所述数据信息存储至所述第二数据库中;所述第一数据信息为所述数据备份模块从所述主节点上的第一数据库中获取的;所述数据备份模块为预先添加至所述主节点中的。
3.根据权利要求2所述的分布式集群系统的数据监控方法,其特征在于,所述方法还包括:
当所述第一数据监控模块的运行状态恢复正常时,接收所述数据备份模块发送的获取指令;
依据所述获取指令获取所述第二数据库中存储的第二数据信息,并将所述第二数据信息发送至所述数据备份模块,以便所述数据备份模块将所述数据信息存储至所述第一数据库中。
4.根据权利要求1所述的分布式集群系统的数据监控方法,其特征在于,所述运行数据包括CPU利用率、内存利用率、电源温度及主板温度中的一种或多种的组合。
5.根据权利要求1-4任意一项所述的分布式集群系统的数据监控方法,其特征在于,所述方法还包括:
当所述第一数据监控模块的运行状态恢复正常时,停止对各个节点的运行数据的获取。
6.根据权利要求4所述的分布式集群系统的数据监控方法,其特征在于,实时监测主节点上的第一数据监控模块的运行状态是否正常的过程具体为:
通过心跳连接的方式实时监测主节点上的第一数据监控模块的运行状态是否正常。
7.一种分布式集群系统的数据监控装置,其特征在于,包括:
第二数据监控模块,用于实时监测主节点上的第一数据监控模块的运行状态是否正常,并当所述第一数据监控模块的运行状态异常时,实时获取各个节点的运行数据;
存储模块,用于将所述运行数据储存至第二数据库中。
8.根据权利要求7所述的分布式集群系统的数据监控装置,其特征在于,所述装置还包括:
接收模块,定时接收所述主节点上的数据备份模块发送的第一数据信息,并发送所述第一数据信息发送;
所述存储模块,还用于将所述数据信息存储至所述第二数据库中;所述第一数据信息为所述数据备份模块从所述主节点上的第一数据库中获取的;所述数据备份模块为预先添加至所述主节点中的。
9.根据权利要求8中所述的分布式集群系统的数据监控装置,其特征在于,所述装置还包括发送模块;
所述接收模块,还用于当所述第一数据监控模块的运行状态恢复正常时,接收所述数据备份模块发送的获取指令,并依据获取指令获取第二数据库中存储的第二数据信息;
所述发送模块,用于将所述第二数据信息发送至所述数据备份模块,以便所述数据备份模块将所述数据信息存储至所述第一数据库中。
10.一种分布式集群系统的数据监控系统,其特征在于,包括如权利要求7-9任意一项所述的分布式集群系统的数据监控装置。
CN201710452659.4A 2017-06-15 2017-06-15 一种分布式集群系统的数据监控方法、装置及系统 Pending CN107070753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710452659.4A CN107070753A (zh) 2017-06-15 2017-06-15 一种分布式集群系统的数据监控方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710452659.4A CN107070753A (zh) 2017-06-15 2017-06-15 一种分布式集群系统的数据监控方法、装置及系统

Publications (1)

Publication Number Publication Date
CN107070753A true CN107070753A (zh) 2017-08-18

Family

ID=59595075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710452659.4A Pending CN107070753A (zh) 2017-06-15 2017-06-15 一种分布式集群系统的数据监控方法、装置及系统

Country Status (1)

Country Link
CN (1) CN107070753A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107453932A (zh) * 2017-09-29 2017-12-08 郑州云海信息技术有限公司 一种分布式存储系统管理方法及其装置
CN107528904A (zh) * 2017-09-01 2017-12-29 星环信息科技(上海)有限公司 用于数据分布式异常检测的方法与设备
CN108833131A (zh) * 2018-04-25 2018-11-16 北京百度网讯科技有限公司 分布式数据库云服务的系统、方法、设备和计算机存储介质
CN109521712A (zh) * 2018-11-16 2019-03-26 北京遥感设备研究所 用于不同采集周期设备的数据采集系统
CN110780891A (zh) * 2019-11-01 2020-02-11 北京车和家信息技术有限公司 监控系统的部署方法及部署装置
CN112202859A (zh) * 2020-09-22 2021-01-08 北京人大金仓信息技术股份有限公司 数据传输方法和数据库系统
CN112308658A (zh) * 2020-09-23 2021-02-02 惠州市金百泽电路科技有限公司 一种用于pcb工程订单外协管理的平台及其使用方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101039172A (zh) * 2007-05-15 2007-09-19 华为技术有限公司 以太环网系统及其保护方法和备用主节点
CN101826073A (zh) * 2009-03-06 2010-09-08 华为技术有限公司 分布式数据库同步方法、设备及系统
CN101931587A (zh) * 2009-06-19 2010-12-29 华为技术有限公司 虚拟集群路由方法及系统
CN102158540A (zh) * 2011-02-18 2011-08-17 广州从兴电子开发有限公司 分布式数据库实现系统及方法
CN103078927A (zh) * 2012-12-28 2013-05-01 合一网络技术(北京)有限公司 一种key-value数据分布式缓存系统及其方法
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN106254100A (zh) * 2016-07-27 2016-12-21 腾讯科技(深圳)有限公司 一种数据容灾方法、装置和系统
US20170048352A1 (en) * 2015-08-10 2017-02-16 Fujitsu Limited Computer-readable recording medium, distributed processing method, and distributed processing device
CN106603329A (zh) * 2016-12-02 2017-04-26 曙光信息产业(北京)有限公司 一种服务器集群的监控方法和系统
CN106612312A (zh) * 2015-10-23 2017-05-03 中兴通讯股份有限公司 一种虚拟化数据中心调度系统和方法
CN106685676A (zh) * 2015-11-06 2017-05-17 中国移动通信集团浙江有限公司 一种节点切换方法及装置
CN106850260A (zh) * 2016-12-23 2017-06-13 曙光云计算技术有限公司 一种虚拟化资源管理平台的部署方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101039172A (zh) * 2007-05-15 2007-09-19 华为技术有限公司 以太环网系统及其保护方法和备用主节点
CN101826073A (zh) * 2009-03-06 2010-09-08 华为技术有限公司 分布式数据库同步方法、设备及系统
CN101931587A (zh) * 2009-06-19 2010-12-29 华为技术有限公司 虚拟集群路由方法及系统
CN102158540A (zh) * 2011-02-18 2011-08-17 广州从兴电子开发有限公司 分布式数据库实现系统及方法
CN103078927A (zh) * 2012-12-28 2013-05-01 合一网络技术(北京)有限公司 一种key-value数据分布式缓存系统及其方法
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
US20170048352A1 (en) * 2015-08-10 2017-02-16 Fujitsu Limited Computer-readable recording medium, distributed processing method, and distributed processing device
CN106612312A (zh) * 2015-10-23 2017-05-03 中兴通讯股份有限公司 一种虚拟化数据中心调度系统和方法
CN106685676A (zh) * 2015-11-06 2017-05-17 中国移动通信集团浙江有限公司 一种节点切换方法及装置
CN106254100A (zh) * 2016-07-27 2016-12-21 腾讯科技(深圳)有限公司 一种数据容灾方法、装置和系统
CN106603329A (zh) * 2016-12-02 2017-04-26 曙光信息产业(北京)有限公司 一种服务器集群的监控方法和系统
CN106850260A (zh) * 2016-12-23 2017-06-13 曙光云计算技术有限公司 一种虚拟化资源管理平台的部署方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528904A (zh) * 2017-09-01 2017-12-29 星环信息科技(上海)有限公司 用于数据分布式异常检测的方法与设备
CN107528904B (zh) * 2017-09-01 2020-02-18 星环信息科技(上海)有限公司 用于数据分布式异常检测的方法与设备
CN107453932A (zh) * 2017-09-29 2017-12-08 郑州云海信息技术有限公司 一种分布式存储系统管理方法及其装置
CN107453932B (zh) * 2017-09-29 2020-12-01 苏州浪潮智能科技有限公司 一种分布式存储系统管理方法及其装置
CN108833131A (zh) * 2018-04-25 2018-11-16 北京百度网讯科技有限公司 分布式数据库云服务的系统、方法、设备和计算机存储介质
CN109521712A (zh) * 2018-11-16 2019-03-26 北京遥感设备研究所 用于不同采集周期设备的数据采集系统
CN110780891A (zh) * 2019-11-01 2020-02-11 北京车和家信息技术有限公司 监控系统的部署方法及部署装置
CN110780891B (zh) * 2019-11-01 2023-12-22 北京车和家信息技术有限公司 监控系统的部署方法及部署装置
CN112202859A (zh) * 2020-09-22 2021-01-08 北京人大金仓信息技术股份有限公司 数据传输方法和数据库系统
CN112202859B (zh) * 2020-09-22 2024-02-23 北京人大金仓信息技术股份有限公司 数据传输方法和数据库系统
CN112308658A (zh) * 2020-09-23 2021-02-02 惠州市金百泽电路科技有限公司 一种用于pcb工程订单外协管理的平台及其使用方法

Similar Documents

Publication Publication Date Title
CN107070753A (zh) 一种分布式集群系统的数据监控方法、装置及系统
CN102055525B (zh) 环路检测和控制方法
CN104506357B (zh) 一种高可用集群节点管理方法
CN104683446A (zh) 一种云存储集群节点服务状态实时监控方法和系统
CN107124315B (zh) 基于snmp及ipmi协议的多服务器监测系统及监测方法
CN103473152B (zh) 一种刀片服务器主备管理模块备份及更新方法
CN108449394B (zh) 一种数据文件的调度方法、调度服务器及存储介质
CN103236949A (zh) 一种服务器集群的监控方法、装置与系统
CN104320311A (zh) 一种scada分布式平台下的心跳检测方法
CN104272654A (zh) 用于链路聚合中自适应快速启动的方法和装置
CN105119820B (zh) 路由协议多实例并行执行系统及其并行执行方法
CN103490919A (zh) 故障管理系统和故障管理方法
Nam et al. Energy-aware routing based on power profile of devices in data center networks using SDN
CN105611814A (zh) 一种数据中心冷冻站群控控制系统及控制方法
CN103150241A (zh) 多服务器状态监控管理系统和方法
CN105245381A (zh) 云服务器宕机监控迁移系统和方法
CN105095008A (zh) 一种适用于集群系统的分布式任务故障冗余方法
CN108156040A (zh) 一种分布式云存储系统中的中央控制节点
CN109101400A (zh) 一种云计算数据中心整机柜服务器的监控系统
CN104317679A (zh) 一种scada系统基于线程冗余的通信容错方法
CN103312541A (zh) 一种高可用互备集群的管理方法
CN105912280A (zh) 能够进行数据分类的存储终端
CN109347755A (zh) 一种用于堆叠设备的备份方法及系统
CN114745606A (zh) 基于规则调度的弹性伸缩工业数据采集系统及方法
CN108234623B (zh) 配网主站数据采集链路自动均衡管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818

RJ01 Rejection of invention patent application after publication